(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-28
(54)【発明の名称】ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス
(51)【国際特許分類】
G06T 7/00 20170101AFI20221221BHJP
G06V 10/82 20220101ALI20221221BHJP
G06V 20/70 20220101ALI20221221BHJP
【FI】
G06T7/00 300F
G06T7/00 350C
G06V10/82
G06V20/70
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022519175
(86)(22)【出願日】2020-10-20
(85)【翻訳文提出日】2022-04-22
(86)【国際出願番号】 CN2020122152
(87)【国際公開番号】W WO2021139307
(87)【国際公開日】2021-07-15
(31)【優先権主張番号】202010016375.2
(32)【優先日】2020-01-08
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】514187420
【氏名又は名称】テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】リ,イェン
(72)【発明者】
【氏名】ジィ,ビン
(72)【発明者】
【氏名】シ,シンティエン
(72)【発明者】
【氏名】カン,ビン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096DA02
5L096GA30
5L096HA02
5L096HA09
5L096HA11
5L096JA11
5L096KA04
(57)【要約】
ターゲットビデオからビデオフレームセットを取得するとともに、ビデオフレームセットに対応する画像特徴を抽出するステップと、画像特徴の複数のチャネルに基づいて、画像特徴を複数の画像サブ特徴に分割するステップと、所定の順序に従って、複数の画像サブ特徴から、処理すべき画像サブ特徴を特定するステップと、現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得するステップと、畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得するステップと、スプライシングされた画像特徴に基づいて、ターゲットビデオに対応するビデオコンテンツを特定するステップと、を含む、ビデオコンテンツ認識方法。
【特許請求の範囲】
【請求項1】
コンピュータデバイスによって実行されるビデオコンテンツ認識方法であって、
ターゲットビデオからビデオフレームセットを取得するとともに、前記ビデオフレームセットに対応する画像特徴を抽出するステップであって、前記ビデオフレームセットには、少なくとも2つのビデオフレームが含まれているステップと、
前記画像特徴の複数のチャネルに基づいて、前記画像特徴を複数の画像サブ特徴に分割するステップであって、前記複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれているステップと、
前記所定の順序に従って、前記複数の画像サブ特徴から、処理すべき画像サブ特徴を特定するステップと、
現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得するステップと、
前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得するステップと、
前記スプライシングされた画像特徴に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定するステップと、
を含む、ビデオコンテンツ認識方法。
【請求項2】
現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得する前記ステップは、
前記所定の順序に従って、複数の処理すべき画像サブ特徴から、最初の処理すべき画像サブ特徴を特定するステップと、
前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップと、
前記所定の順序及び前記最初の処理すべき画像サブ特徴に基づいて、前記複数の処理すべき画像サブ特徴から、現在の処理すべき画像サブ特徴を特定するステップと、
前記現在の処理すべき画像サブ特徴と、前記畳み込み処理済み画像特徴とを融合することにより、融合された画像特徴を取得するステップと、
前記融合された画像特徴を、最初の処理すべき画像サブ特徴に更新するステップと、
各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を得るまで、前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップを繰り返して実行するステップと、
を含む、請求項1に記載のビデオコンテンツ認識方法。
【請求項3】
前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得する前記ステップは、
前記所定の順序に従って、前記複数の画像サブ特徴から、保留すべきオリジナル画像サブ特徴を特定するステップと、
前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴と、前記オリジナル画像サブ特徴とをスプライシングし、スプライシングされた画像特徴を取得するステップと、
を含む、請求項1または2に記載のビデオコンテンツ認識方法。
【請求項4】
ターゲットビデオからビデオフレームセットを取得するとともに、前記ビデオフレームセットに対応する画像特徴を抽出する前記ステップは、
ターゲットビデオを特定するステップと、
前記ターゲットビデオを複数のターゲットサブビデオに分割するステップと、
各々のターゲットサブビデオから1つのビデオフレームを取得するとともに、複数のビデオフレームによってビデオフレームセットを構築するステップと、
前記ビデオフレームセットから特徴を抽出し、前記ビデオフレームセットに対応する画像特徴を取得するステップと、
を含む、請求項1~3のいずれか1項に記載のビデオコンテンツ認識方法。
【請求項5】
前記ターゲットビデオを複数のターゲットサブビデオに分割する前記ステップは、
所定の画像の数を特定するステップと、
前記所定の画像の数、及び前記ターゲットビデオのビデオ長さに基づいて、各々のターゲットビデオに対応するサブビデオ長さを特定するステップと、
前記サブビデオ長さに基づいて、前記ターゲットビデオを複数のターゲットサブビデオに分割するステップと、
を含む、請求項4に記載のビデオコンテンツ認識方法。
【請求項6】
前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得する前記ステップは、
初期混合畳み込みモデルを特定するステップと、
前記画像特徴の複数のチャネルに基づいて、前記初期混合畳み込みモデルを複数の混合畳み込みモデルに分割するステップと、
前記混合畳み込みモデルに基づいて、前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップと、
を含む、請求項2に記載のビデオコンテンツ認識方法。
【請求項7】
前記混合畳み込みモデルには、1次元混合畳み込みサブモデルと、2次元混合畳み込みサブモデルが含まれており、
前記混合畳み込みモデルに基づいて、前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得する前記ステップは、
前記1次元混合畳み込みサブモデルに基づいて、時間次元で前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップと、
前記2次元混合畳み込みサブモデルに基づいて、空間次元で前記時間次元で畳み込み処理された画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップと、
を含む、請求項6に記載のビデオコンテンツ認識方法。
【請求項8】
前記スプライシングされた画像特徴に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定する前記ステップは、
前記スプライシングされた画像特徴に基づいて、ビデオフレームセットに含まれる各々のビデオフレームに対応するコンテンツ予測確率を予測するステップと、
複数のビデオフレームに対応するコンテンツ予測確率を融合することにより、前記ターゲットビデオに対応するビデオコンテンツ予測確率を取得するステップと、
前記ビデオコンテンツ予測確率に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定するステップと、
を含む、請求項1~7の何れか1項に記載のビデオコンテンツ認識方法。
【請求項9】
ターゲットビデオからビデオフレームセットを取得するとともに、前記ビデオフレームセットに対応する画像特徴を抽出する取得モジュールであって、前記ビデオフレームセットには、少なくとも2つのビデオフレームが含まれている取得モジュールと、
前記画像特徴の複数のチャネルに基づいて、前記画像特徴を複数の画像サブ特徴に分割する分割モジュールであって、前記複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれている分割モジュールと、
前記所定の順序に従って、前記複数の画像サブ特徴から、処理すべき画像サブ特徴を特定する特定モジュールと、
現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得する融合モジュールと、
前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得するスプライシングモジュールと、
前記スプライシングされた画像特徴に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定するコンテンツ特定モジュールと、
を備える、ビデオコンテンツ認識装置。
【請求項10】
コンピュータプログラムであって、プロセッサにより実行されると、請求項1~8の何れか1項に記載のビデオコンテンツ認識方法を実行するコンピュータプログラム。
【請求項11】
コンピュータ可読命令が記憶されているメモリと、コンピュータ可読命令が実行されると、請求項1~8のいずれか1項に記載のビデオコンテンツ認識方法を実行させる1つ以上のプロセッサとを備える、コンピュータデバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2020年01月08日に中国国家知識産権局へ出願された、発明の名称を「ビデオコンテンツ認識方法、装置、記憶媒体並びに電子デバイス」とする中国特許出願第202010016375.2号に対する優先権の利益を主張し、その内容全体が援用により本明細書に組み込まれる。
【0002】
本出願は、コンピュータの技術分野に関し、具体的に、ビデオコンテンツ認識方法、装置、記憶媒体及びコンピュータデバイスに関する。
【背景技術】
【0003】
人工知能技術の研究及び進歩に伴って、人工知能技術は、一般的なスマートホーム、スマートウェアラブルデバイス、仮想アシスタント、スマートスピーカー、スマートマーケティング、無人運転、自動運転、ドローン、ロボット、スマート医療、スマートカスタマーサービスなど多くの分野で開発され応用されるようになってきた。技術の発展に伴い、人工知能技術はより多くの分野に応用され、ますます重要な役割を発揮すると見込まれている。
【0004】
なかでも、ビデオを利活用する情報伝播方式の大普及に伴い、様々なビデオ関連アプリケーションも大きく発展しているため、ビデオ関連技術への要求が高まっている。ビデオ処理技術の中の基本的なタスクとして、ビデオコンテンツを認識することは、ますます注目を集めている。しかしながら、従来より、大量の畳み込み演算を利用して、現在のビデオフレームを遠く離れたビデオフレームと関係付けさせ、さらにビデオコンテンツを認識する技術が一般的に用いられてきたが、このようなビデオコンテンツ認識方法は効率が低いという問題があった。
【発明の概要】
【課題を解決するための手段】
【0005】
コンピュータデバイスによって実行されるビデオコンテンツ認識方法であって、
ターゲットビデオからビデオフレームセットを取得するとともに、前記ビデオフレームセットに対応する画像特徴を抽出するステップであって、前記ビデオフレームセットには、少なくとも2つのビデオフレームが含まれているステップと、
前記画像特徴の複数のチャネルに基づいて、前記画像特徴を複数の画像サブ特徴に分割するステップであって、前記複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれているステップと、
前記所定の順序に従って、前記複数の画像サブ特徴から、処理すべき画像サブ特徴を特定するステップと、
現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得するステップと、
前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得するステップと、
前記スプライシングされた画像特徴に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定するステップとを含む、ビデオコンテンツ認識方法。
【0006】
ターゲットビデオからビデオフレームセットを取得するとともに、前記ビデオフレームセットに対応する画像特徴を抽出する取得モジュールであって、前記ビデオフレームセットには、少なくとも2つのビデオフレームが含まれている取得モジュールと、
前記画像特徴の複数のチャネルに基づいて、前記画像特徴を複数の画像サブ特徴に分割する分割モジュールであって、前記複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれている分割モジュールと、
前記所定の順序に従って、前記複数の画像サブ特徴から、処理すべき画像サブ特徴を特定する特定モジュールと、
現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得する融合モジュールと、
前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得するスプライシングモジュールと、
前記スプライシングされた画像特徴に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定するコンテンツ特定モジュールとを備える、ビデオコンテンツ認識装置。
【0007】
コンピュータ可読命令が記憶されている1つ以上の不揮発性コンピュータ可読記憶媒体であって、コンピュータ可読命令が1つ以上のプロセッサによって実行されると、前記ビデオコンテンツ認識方法のステップを、1つ以上のプロセッサに実行させる、不揮発性コンピュータ可読記憶媒体。
【0008】
メモリと、1つ以上のプロセッサとを備えるコンピュータデバイスであって、メモリには、コンピュータ可読命令が記憶されており、コンピュータ可読命令がプロセッサに実行されると、前記ビデオコンテンツ認識方法のステップを1つ以上のプロセッサに実行させる、コンピュータデバイス。
【図面の簡単な説明】
【0009】
本出願の実施形態に係る技術案をより明確に説明すべく、以下で、実施形態を説明するために使用される図面について簡単に紹介する。明らかなように、以下に示す図面は、本出願の幾つかの実施形態に過ぎず、当業者は進歩性に値する労働を付することなく、これらの図面に基づいて他の図面を得ることもできる。
【
図1】本出願の実施形態に係るビデオコンテンツ認識システムの適用シナリオを示す模式図である。
【
図2】本出願の一実施形態に係るビデオコンテンツ認識方法のフローチャートである。
【
図3】本出願の別の実施形態に係るビデオコンテンツ認識方法のフローチャートである。
【
図4】本出願の一実施形態に係る混合畳み込みモデルの構造を示す模式図である。
【
図5】本出願の一実施形態に係るターゲットビデオに対応するビデオコンテンツを予測するフローチャートである。
【
図6】本出願の一実施形態に係る多重情報融合モデルの構造を示す模式図である。
【
図7】本出願の一実施形態に係る多重情報融合サブモデルのロジック模式図である。
【
図8】本出願の実施形態に係る画像特徴の分割を示す模式図である。
【
図9】本出願の別の実施形態に係る多重情報融合サブモデルのロジック模式図である。
【
図10】本出願のさらに別の実施形態に係る多重情報融合サブモデルのロジック模式図である。
【
図11】本出願の一実施形態に係るビデオコンテンツ認識装置の構造を示す模式図である。
【
図12】本出願の一実施形態に係るコンピュータデバイスの構造を示す模式図である。
【発明を実施するための形態】
【0010】
図面を参照して、その中の同じ部材符号は同じ部材を表す。本出願の原理は、適切な演算環境中に実施することを例として説明される。以下の説明は、例示された本出願の具体的な実施形態に基づいて行われており、本明細書に詳述されていない本出願の他の具体的な実施形態を制限するものとして解釈されるべきではない。
【0011】
以下の説明では、本出願の具体的な実施形態について、特に明記しない限り、1つ以上のコンピュータによって実行されるステップおよび記号を参照しながら説明する。したがって、これらのステップおよび手順は、コンピュータによって実行されるものとして数回言及される。本明細書に記載されるコンピュータによる実行は、構造化されたフォーマットでデータを表す電子信号のコンピュータ処理ユニットによる操作を含む。この操作によって、このデータが変換されるか、または当該コンピュータのメモリシステム内の場所にデータが維持されることが可能となる。このコンピュータの動作は、再構成され、または当業者によく知られている方法で変更されることが可能となる。このデータによって維持されるデータ構造は、データ形式によって定義された特定の特性を持つメモリの物理的な位置である。しかしながら、本出願の原理は、以上の表現によって説明されているが、ある形態に制限されるものではなく、以下に説明する様々なステップや操作がハードウェアでも実施できることは、当業者に理解されるべきであろう。
【0012】
本明細書で使用される「モジュール」という用語は、このコンピューティングシステム上で実行されるソフトウェアオブジェクトと解釈され得る。本明細書に記載される異なる部材、モジュール、エンジンおよびサービスは、このコンピューティングシステムでの実施対象と見做されることができる。また本明細書に記載される装置および方法はソフトウェアで実施されることができ、もちろん、ハードウェアで実施されることもできるが、これらはすべて、本出願の保護範囲内に含まれるものとする。
【0013】
本出願における「第1」、「第2」、および「第3」などの用語は、特定の順序を説明するのではなく、異なるオブジェクトを区別するために使用される。さらに、「含む」および「有する」という用語およびそれらの変形は、非排他的な包含をカバーすることを意図される。例えば、一連のステップまたはモジュールを含む工程、方法、システム、製品またはデバイスは、列挙されたステップまたはモジュールに限定されるものではなく、いくつかの実施形態はまた、列挙されていないステップまたはモジュールを含むか、またはいくつかの実施形態は、これらの工程、方法、システム、製品またはデバイスに対する固有の他のステップまたはモジュールを含む。
【0014】
本明細書に記載される「実施形態」は、実施形態を参照しながら記述される特定の特徴、構造または特性が、本出願の少なくとも1つの実施形態に含まれ得ることを意味する。本明細書の各箇所にこの表現が記載されるのは、必ずしもすべてが同じ実施形態を指しているわけではなく、他の実施形態と相互に排除する独立または代替の実施形態を指しているものでもない。本明細書に記載の実施形態をその他の実施形態と組み合わせることができることは、当業者によって明示的および暗黙的に理解され得る。
【0015】
本出願の実施形態は、ビデオコンテンツ認識方法を提供する。このビデオコンテンツ認識方法の実行主体は、本出願の実施形態に係るビデオコンテンツ認識装置、またはこのビデオコンテンツ認識装置を統合するコンピュータデバイスであり得る。ここで、このビデオコンテンツ認識装置は、ハードウェアまたはソフトウェアによって実現され得る。中でも、コンピュータデバイスは、スマートフォン、タブレットコンピュータ、パームトップコンピュータ、ノートブックコンピュータ、またはデスクトップコンピュータなどのデバイスであり得る。コンピュータデバイスには、コンピュータ、Webホスト、単一のWebサーバ、複数のWebサーバセット、または複数のサーバからなるクラウドが含まれているが、これらに限定されるものではない。
【0016】
図1を参照すると、
図1は、本出願の実施形態に係るビデオコンテンツ認識システムの適用シナリオを示す模式図である。ビデオコンテンツ認識装置がコンピュータデバイスに統合されることを例として説明すると、コンピュータデバイスは、ターゲットビデオからビデオフレームセットを取得するとともに、ビデオフレームセットに対応する画像特徴を抽出する。ここで、ビデオフレームセットには、少なくとも2つのビデオフレームが含まれている。画像特徴の複数のチャネルに基づいて、画像特徴を複数の画像サブ特徴に分割する。ここで、複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれている。所定の順序に従って、複数の画像サブ特徴から、処理すべき画像サブ特徴を特定する。現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得する。畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得する。スプライシングされた画像特徴に基づいて、ターゲットビデオに対応するビデオコンテンツを特定する。
【0017】
本出願の実施形態に係るビデオコンテンツ認識方法は、人工知能の分野におけるコンピュータビジョン技術に関する。本出願の実施形態では、ビデオ挙動認識技術を利用して、ターゲットビデオ内から複数のビデオフレームに対応する画像特徴を抽出し、この画像特徴を複数の画像サブ特徴に分割し、そして複数の画像サブ特徴に対して複数回の畳み込み処理及び複数回の融合処理を実行することにより、時間次元における画像特徴の受容野を拡大し、さらにターゲットビデオに対応するビデオコンテンツを予測することができる。
【0018】
人工知能(Artificial Intelligence,AI)は、デジタルコンピュータまたはデジタルコンピュータによって制御される機器を利用し、人間の知能をシミュレート、延伸、拡充し、環境を感知し、知識を獲得し、知識を利活用して最良の結果を得るための理論、方法、技術およびアプリケーションシステムである。言い換えれば、人工知能はコンピュータサイエンスの包括的な技術であり、知能の本質を理解し、人間の知能と似た方式で反応できる新しいインテリジェントマシンを生み出すことを目指している。人工知能は、即ち様々なインテリジェントマシンの設計原理や実現方法について研究し、マシンに感知、推論及び意思決定の機能を持たせるような技術である。人工知能技術は、幅広い分野をカバーする包括的な分野であり、ハードウェアレベルの技術とソフトウェアレベルの技術の両方を含む。人工知能のソフトウェア技術には、コンピュータビジョン技術、機械学習/深層学習などの主要方向が含まれている。
【0019】
コンピュータビジョン(Computer Vision,CV)とは、マシンが「見る」方法を研究する技術であり、より詳しく言えば、カメラ及びコンピュータを利用し、ターゲットに対して識別、追跡及び測定などのマシンビジョンを行い、そして画像処理を施し、コンピュータに、ヒトの目が観察したり、機器に送信したりするのにより適合する画像に処理させる技術を指す。科学科目の一つとして、コンピュータビジョンは関連の理論と技術を研究し、画像や多次元データから情報を取得できる人工知能システムを構築することを目指している。コンピュータビジョン技術には、通常、画像処理、画像認識などが含まれ、さらには一般的な顔認識、指紋認識などの生体認証技術も含まれている
【0020】
図2を参照すると、
図2は、本出願の実施形態に係るビデオコンテンツ認識方法のフローチャートである。この方法は、コンピュータデバイスによって実行され得るが、具体的に以下の実施形態で説明される。
【0021】
ステップS201:ターゲットビデオからビデオフレームセットを取得するとともに、ビデオフレームセットに対応する画像特徴を抽出する。
【0022】
ここで、あるビデオに対応するビデオコンテンツを認識するに際しては、ビデオ中のある一定時間内の完全な情報を解析しなければ、ビデオが表しているビデオコンテンツを精度よく判断することができない。例えば、ビデオに写っている人が泳いでいることが想定された場合に、ビデオから1枚のビデオフレームのみを分析したら、このビデオのビデオコンテンツは、人が泳いでいると結論づけるしかできない。しかし、ビデオ中のある一定時間内の複数枚のビデオフレームを切り出して分析すると、ビデオ中に写っている水泳者の水泳姿勢などのより詳しいコンテンツ情報を特定することができる。従って、ビデオに対応するビデオコンテンツを認識する際に、ビデオから複数枚のビデオフレームを獲得する必要がある。
【0023】
実際の適用では、例えば、ビデオコンテンツを認識する必要があるビデオAをターゲットビデオとして特定する。ターゲットビデオ中の一定時間内の情報をもとに、このターゲットビデオに対応するビデオコンテンツを総合的に判断する必要があるから、ビデオAから少なくとも2つのビデオフレームを切り出すとともに、切り出された複数のビデオフレームによってビデオフレームセットを構築することができる。
【0024】
一実施形態では、ターゲットビデオから切り出された複数のビデオフレームから、このターゲットビデオの一定時間内の情報をより完全に復元することができるように、ターゲットフレームを分割するとともに、分割されたターゲットサブビデオをサンプリングして、複数のビデオフレームを得ることができる。具体的には、「ターゲットビデオからビデオフレームセットを取得するとともに、前記ビデオフレームセットに対応する画像特徴を抽出する」ステップは、
ターゲットビデオを特定するステップと、
前記ターゲットビデオを複数のターゲットサブビデオに分割するステップと、
各々のターゲットサブビデオから1つのビデオフレームを取得するとともに、複数のビデオフレームによってビデオフレームセットを構築するステップと、
前記ビデオフレームセットから特徴を抽出し、前記ビデオフレームセットに対応する画像特徴を取得するステップとを含む。
【0025】
実際の適用では、例えば、ビデオコンテンツを認識する必要があるビデオAをターゲットビデオとして特定するとともに、ビデオAを複数のターゲットサブビデオに分割することができる。ここで、各々のターゲットサブビデオは、ビデオAの1つのビデオ断片から切り出されたものである。そして、各々のターゲットサブビデオから1つのビデオフレームを取得し、すなわち各々のビデオフレームには1つのターゲットサブビデオが対応づけられており、取得された複数のビデオフレームによってビデオフレームセットを構築する。その後、畳み込み処理などの特徴抽出方法を利用して、このビデオフレームセットに対して特徴抽出を行い、当該ビデオフレームセットに対応する画像特徴を抽出する。ここで、当該画像特徴には、各々のビデオフレームに対応する特徴が含まれている。
【0026】
一実施形態では、実際に適用される過程において、ターゲットビデオから特定のビデオ断片のビデオコンテンツのみを認識する必要があり、例えば、ターゲットビデオが映画Aである場合に、映画Aの20分間目~25分間目のビデオ断片に対応するビデオコンテンツのみを認識する必要がある場合に、ターゲットビデオから、ビデオ認識が必要なターゲットビデオ断片を特定し、このターゲットビデオ断片を複数のターゲットサブビデオに分割し、その後、後続ステップを行う。
【0027】
一実施形態では、ターゲットサブビデオから1つのビデオフレームを取得する手法が様々あり、例えば、ターゲットサブビデオを対象にランダムにサンプリングして、ターゲットサブビデオに対応するビデオフレームを得ることができ、また例えば、このターゲットサブビデオ中の1番目のビデオフレームを、ターゲットサブビデオに対応するビデオフレームとすることができ、さらに例えば、ターゲットサブビデオのビデオ長さに基づいて、ターゲットサブビデオ全体のある時刻でのビデオフレームを、ターゲットサブビデオに対応するビデオフレームとすることができるなど、様々な方法がある。つまり、異なるビデオフレームが、異なるターゲットサブビデオから由来するものであればよい。
【0028】
一実施形態では、時間長さが不確定なターゲットビデオから、固定長さのビデオフレームシーケンスを獲得するために、取得すべきビデオフレームの所定の画像の数に従って、ターゲットビデオを分割することができる。具体的には、「前記ターゲットビデオを複数のターゲットサブビデオに分割する」ステップは、
所定の画像の数を特定するステップと、
前記所定の画像の数、及び前記ターゲットビデオのビデオ長さに基づいて、各々のターゲットビデオに対応するサブビデオ長さを特定するステップと、
前記サブビデオ長さに基づいて、前記ターゲットビデオを複数のターゲットサブビデオに分割するステップとを含む。
【0029】
実際の適用では、例えば時間長さが不確定なターゲットビデオから、固定長さのビデオフレームシーケンスを得るために、まず、取得すべきビデオフレームシーケンスの長さを特定し、即ち取得すべきビデオフレームの所定の画像の数Tを特定することができる。ターゲットビデオのビデオ長さがm分間である場合に、取得すべき各々のターゲットサブビデオに対応するサブビデオの時間長さがm/T分間であると特定され得る。その後、ターゲットビデオ全体をサブビデオの時間長さに従って、T個のターゲットサブビデオを平均的に分割することができる。
【0030】
一実施形態では、ターゲットビデオを複数のターゲットサブビデオに分割する手法が様々あり、例えば、上述した通り、所定の画像の数に応じて、ターゲットビデオを、時間長さが同じである複数のターゲットサブビデオに平均的に分割することができ、また例えば、まず、取得すべきターゲットサブビデオに対応するサブビデオの時間長さを特定し、このサブビデオの時間長さに応じてターゲットビデオを分割し、このとき、ビデオ長さが比較的長いターゲットビデオからは、比較的多いビデオフレームを取得し、ビデオ長さが比較的短いターゲットビデオからは、比較的少ないビデオフレームを取得することができるなど、様々な方法がある。
【0031】
実際の適用では、例えば、ビデオコンテンツを認識する必要があるビデオAをターゲットビデオとして特定できる。ビデオAのビデオ長さが24sであり、所定の画像の数は8である場合に、ビデオAを、サブビデオの時間長さが3sである8個のターゲットサブビデオに分割することができる。そして各々のターゲットサブビデオをランダムにサンプリングしてビデオフレームセットを得る。このビデオフレームセットには、サンプリングして得られた8個のビデオフレームが含まれている。その後、ビデオフレームセットに対して特徴の抽出を行い、当該ビデオフレームセットに対応する画像特徴を得ることができる。
【0032】
ステップS202:画像特徴の複数のチャネルに基づいて、画像特徴を複数の画像サブ特徴に分割する。
【0033】
ここで、深層学習において特徴に対応するチャネルの数は、畳み込み層の畳み込みカーネルの数を表すことができる。たとえば、入力画像の特徴に3つのチャネルが含まれ、畳み込みカーネルの数が10である場合に、10個の畳み込みカーネルを利用して、入力画像の特徴を畳み込み処理後、出力画像の特徴を取得することができる。ここで、この出力画像の特徴には10個のチャネルが含まれており、このとき出力画像の特徴のチャネル数は畳み込みカーネルの数と同じである。
【0034】
実際の適用では、例えば、画像特徴をXで表し、次元長さを[T,C,H,W]で表すことができる。ここで、Tは時間次元を表し、即ちビデオフレームセットには、T個のビデオフレームが含まれていることを表し、Cはチャネル数を表し、H及びWは、特徴の空間次元を表す。画像特徴を4つの画像サブ特徴に分割すると、各々の画像サブ特徴に対応する特徴次元は、[T,C/4,H,W]になる。
【0035】
一実施形態では、複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれている。例えば、
図8に示すように、ターゲットビデオからビデオフレームセットを抽出し、このビデオフレームセットには、8つのビデオフレームが含まれている。そして複数回の畳み込み処理によって、当該ビデオフレームセットに対応する画像特徴Xを取得し、この画像特徴Xには、8つのビデオフレームに対応する特徴が含まれており、かつ当該画像特徴Xは、チャネル1~チャネル256ごとに並んでいる256個のチャネルに対応している。それでは、取得すべき画像サブ特徴の特徴量が4であると特定できる。その後、画像特徴Xに対応しているチャネル1~チャネル256を、チャネル1~チャネル64、チャネル65~チャネル128、チャネル129~チャネル192、及びチャネル193~チャネル256の4つの部分に平均的に分割するとともに、分割結果ごとに、画像サブ特徴X1、画像サブ特徴X2、画像サブ特徴X3、画像サブ特徴X4の4つの画像サブ特徴を得る。ここで、この4つの画像サブ特徴は所定の順序に従って並んでおり、画像サブ特徴X1は、チャネル1~64に対応する画像サブ特徴であり、画像サブ特徴X2は、チャネル65~128に対応する画像サブ特徴であり、画像サブ特徴X3は、チャネル129~192に対応する画像サブ特徴であり、画像サブ特徴X4は、チャネル193~256に対応する画像サブ特徴である。かつ各々の画像サブ特徴には、8つのビデオフレームに対応する特徴が含まれている。ここで、取得すべき画像サブ特徴の個数は、実際の状況に応じて調整可能であり、本出願の実施形態では、画像サブ特徴の個数を制限しない。
【0036】
ステップS203:所定の順序に従って、複数の画像サブ特徴から、処理すべき画像サブ特徴を特定する。
【0037】
ここで、畳み込み処理された特徴は、受容野が拡大され、即ち更に長時間範囲における特徴が融合され得るため、複数の画像サブ特徴から、処理すべき画像サブ特徴として一部の画像サブ特徴をピックアップする必要がある。これらの処理すべき画像サブ特徴に対して、畳み込み処理を行い、畳み込み処理済み画像特徴を得る。ここで、これらの畳み込み処理済み画像特徴には、ビデオフレームセットに含まれる全てのビデオフレームに対応する特徴が含まれており、かつそれぞれのビデオフレームに対応する特徴には、相応するビデオフレームに隣り合うビデオフレームの特徴がさらに融合されている。つまり、畳み込み処理済み画像特徴は、元の処理すべき画像特徴と比べて、受容野が大いに拡大され、特徴が豊富になる。
【0038】
実際の適用では、例えば、
図8に示すように、順番に並べられた画像サブ特徴X1、画像サブ特徴X2、画像サブ特徴X3及び画像サブ特徴X4を獲得後、所定の順序に従って、画像サブ特徴X2、画像サブ特徴X3及び画像サブ特徴X4を、処理すべき画像サブ特徴として特定する。ここで、処理すべき画像サブ特徴は、実際の適用ニーズに合わせて調整できる。例えば、所定の順序が異なれば、複数の画像サブ特徴から特定された処理すべき画像サブ特徴も異なる。
【0039】
ステップS204:現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得する。
【0040】
ここで、一回の畳み込み処理だけでは、受容野を有限倍数で拡大する効果しか得られない。例えば、最初の特徴には、順番に並べられた画像1の特徴、画像2の特徴、及び画像3の特徴が含まれ、かつ一次元畳み込みでの畳み込みカーネルのサイズが3である場合、最初の特徴をこの畳み込みカーネルで畳み込み処理することにより、処理済み特徴を得ることができ、この処理済み特徴には、3枚の画像に対応する特徴が含まれている。しかし、処理済み特徴の中の画像2に対応する特徴に対して、この時の特徴には、画像1の特徴と画像3の特徴がさらに融合されているため、最初の特徴に対して、処理済み特徴は時間次元で受容野が拡大されているが、隣り合う2枚の画像の特徴を融合する効果しか得られない。
【0041】
従って、従来の方法を利用して長時間範囲における情報を融合する場合、深層ニューラルネットワークを利用して複数回の畳み込みを重ねる必要がある。しかし、このような方法には、最適化の問題があり、深層ニューラルネットワークにおいて、1つのビデオフレームに対しては、大量の局所的畳み込み処理を行わなければ、遠く離れたビデオフレームと関係付けさせることができない。というわけで、現在のビデオフレームの情報を遠く離れたビデオフレームに伝送する場合でも、遠く離れたビデオフレームから信号を現在のビデオフレームにフィードバックする場合でも、遠距離にわたった信号伝送過程が必要となるが、有効な情報は情報伝送過程中に弱められやすく、また遠く離れた2つのビデオフレームの間で有効な時間関係を確立することができなくなるという問題があった。
【0042】
そこで、特徴融合メカニズムを利用して、受容野が拡大された特徴を、現在に畳み込み処理を行う必要がある処理すべき画像サブ特徴に融合し、これにより、畳み込み処理を行う前に、現在の処理すべき画像サブ特徴の受容野が拡大されるようになる。そして、さらに畳み込み処理によって、特徴の受容野がさらに拡大されるようになる。その後、受容野がさらに拡大された特徴を、次に畳み込み処理を行う必要がある処理すべき画像サブ特徴に融合し、こうして繰り返すことによって、特徴に対応する時間次元での受容野が連続的に拡大され、最後に、より長時間範囲における特徴が融合される目的が図れる。
【0043】
一実施例では、「現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得する」ステップは、
前記所定の順序に従って、複数の処理すべき画像サブ特徴から、最初の処理すべき画像サブ特徴を特定するステップと、
前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップと、
前記所定の順序及び前記最初の処理すべき画像サブ特徴に基づいて、前記複数の処理すべき画像サブ特徴から、現在の処理すべき画像サブ特徴を特定するステップと、
前記現在の処理すべき画像サブ特徴と、前記畳み込み処理済み画像特徴とを融合することにより、融合された画像特徴を取得するステップと、
前記融合された画像特徴を最初の処理すべき画像サブ特徴に更新するステップと、
各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を得るまで、前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップを繰り返して実行するステップと、を含む。
【0044】
実際の適用では、例えば、
図9に示すように、順番に並べられた画像サブ特徴X1、画像サブ特徴X2、画像サブ特徴X3、画像サブ特徴X4から、複数の処理すべき画像サブ特徴、即ち画像サブ特徴X2、画像サブ特徴X3、画像サブ特徴X4を特定する。所定の順序に従って、画像サブ特徴X2を最初の処理すべき画像サブ特徴として特定するとともに、画像サブ特徴X2に対して畳み込み処理を行い、画像サブ特徴X2に対応する畳み込み処理済み画像特徴X
2
0を得ることができる。
【0045】
画像サブ特徴X2に対して処理を終えた後、画像サブ特徴X3を現在の処理すべき画像サブ特徴として特定するとともに、残差接続と類似した接続方式によって、画像サブ特徴X2に対応する畳み込み処理済み画像特徴X2
0と、画像サブ特徴X3とを加算融合することによって、画像サブ特徴X3に対応する融合された画像特徴を獲得し、そして、画像サブ特徴X3に対応する融合された画像特徴に対して畳み込み処理を行い、画像サブ特徴X3に対応する畳み込み処理済み画像特徴X3
0を獲得することができる。
【0046】
画像サブ特徴X3に対して処理を終えた後、画像サブ特徴X4を現在の処理すべき画像サブ特徴として特定するとともに、残差接続と類似した接続方式によって、画像サブ特徴X3に対応する畳み込み処理済み画像特徴X3
0と、画像サブ特徴X4とを加算融合することによって、画像サブ特徴X4に対応する融合された画像特徴を獲得し、そして、画像サブ特徴X4に対応する融合された画像特徴に対して畳み込み処理を行い、画像サブ特徴X4に対応する畳み込み処理済み画像特徴X4
0を獲得することができる。このとき、全ての処理すべき画像サブ特徴が畳み込み処理され、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴が得られたので、繰り返すステップを終了できる。
【0047】
中では、ビデオフレームセットには、T個のビデオフレームが含まれている場合に、各々の画像サブ特徴には、T個のビデオフレームに対応する特徴が含まれている。ここで、4番目のビデオフレーム(ビデオフレーム4)を例として説明する。
図10に示すように、画像サブ特徴X1、画像サブ特徴X2、画像サブ特徴X3、画像サブ特徴X4のいずれにも、ビデオフレーム4に対応する特徴が含まれており、その中の画像サブ特徴X2に対して畳み込み処理を行った後、画像サブ特徴X2に対応する畳み込み処理済み画像特徴X
2
0において、ビデオフレーム4の特徴にはビデオフレーム3、及びビデオフレーム5の特徴が融合されるようになるから、このとき、画像サブ特徴X2に対応する畳み込み処理済み画像特徴X
2
0の受容野が1回拡大されるようになる。
【0048】
画像サブ特徴X2に対応する畳み込み処理済み画像特徴X2
0と、サブ特徴X3とを加算融合するとともに、画像サブ特徴X3に対応する融合された画像特徴に対して畳み込み処理を行った後、画像サブ特徴X3に対応する畳み込み処理済み画像特徴X3
0において、ビデオフレーム4の特徴には、ビデオフレーム2、ビデオフレーム3、ビデオフレーム5及びビデオフレーム6の特徴が融合されるようになるから、このとき、画像サブ特徴X3に対応する畳み込み処理済み画像特徴X3
0の受容野が2回拡大されるようになる。
【0049】
画像サブ特徴X3に対応する畳み込み処理済み画像特徴X3
0と、画像サブ特徴X4とを加算融合するとともに、画像サブ特徴X4に対応する融合された画像特徴に対して畳み込み処理を行った後、画像サブ特徴X4に対応する畳み込み処理済み画像特徴X4
0において、ビデオフレーム4の特徴にはビデオフレーム1、ビデオフレーム2、ビデオフレーム3、ビデオフレーム5、ビデオフレーム6及びビデオフレーム7の特徴が融合されるようになるから、このとき、画像サブ特徴X4に対応する畳み込み処理済み画像特徴X4
0の受容野が3回拡大されるようになる。これで、この特徴は効果的に遠く離れたビデオフレームと関係付けられることができる。
【0050】
一実施形態では、混合畳み込みモデルを利用して、特徴に畳み込み処理を施すことで、受容野を拡大する目的を図ることができる。具体的には、「前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得する」ステップは、
初期混合畳み込みモデルを特定するステップと、
前記画像特徴の複数のチャネルに基づいて、前記初期混合畳み込みモデルを複数の混合畳み込みモデルに分割するステップと、
前記混合畳み込みモデルに基づいて、前記最初の処理すべき画像サブ特徴に対して、畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップとを含む。
【0051】
なお、初期混合畳み込みモデルは、(2+1)D畳み込みモデルであり得る。この(2+1)D畳み込みモデルは、2つの部分、それぞれに1次元畳み込みサブモデルと2次元畳み込みサブモデルを含み得る。たとえば、初期混合畳み込みモデルには、時間次元での1次元畳み込みサブモデルと、空間次元での2次元畳み込みサブモデルが含まれており、この1次元畳み込みサブモデルの畳み込みカーネルサイズは3であり、2次元畳み込みサブモデルの畳み込みカーネルサイズは3x3である。畳み込み処理に(2+1)D畳み込みモデルを使用すると、時間的特徴のモデリングを実現できるだけでなく、高コストな演算を避けることができる。
【0052】
実際の適用では、例えば、初期混合畳み込みモデルを特定できる。この初期混合畳み込みモデルには、時間次元での1次元畳み込みサブモデルと、空間次元での2次元畳み込みサブモデルが含まれており、この1次元畳み込みサブモデルの畳み込みカーネルサイズは3であり、2次元畳み込みサブモデルの畳み込みカーネルサイズは3x3である。画像特徴を複数のチャネルに応じて複数の画像サブ特徴に分割しているため、相応に、初期混合畳み込みモデルも複数のチャネルに応じて複数の混合畳み込みモデルに分割する必要があり、つまり初期混合畳み込みモデルを畳み込みグループ化し、複数の混合畳み込みモデルを取得する必要がある。ここで、畳み込みグループ化が行われた後、畳み込みカーネルのサイズは変化しないため、
図4に示すように、この混合畳み込みモデルには、時間次元での1次元畳み込みサブモデルと空間次元での2次元畳み込みサブモデルが含まれており、1次元畳み込みサブモデルの畳み込みカーネルサイズは3であり、2次元畳み込みサブモデルの畳み込みカーネルサイズは3x3である。
【0053】
なお、初期混合畳み込みモデルの中の1次元畳み込みサブモデルは、畳み込みカーネルサイズが3である。この初期混合畳み込みモデルは、チャネル数をCとした画像特徴を対象としている場合に、パラメータ量のサイズがCxCx3である。初期混合畳み込みモデルの中の2次元畳み込みサブモデルで、畳み込みカーネルサイズが3x3である。この初期混合畳み込みモデルは、チャネル数をCとした画像特徴を対象としている場合に、パラメータ量のサイズがCxCx3x3である。畳み込みグループ化が行われた後、畳み込みカーネルのサイズは変化しないため、混合畳み込みモデルの中の1次元畳み込みサブモデルの畳み込みカーネルのサイズは3のままである。しかし、混合畳み込みモデルは、チャネル数をC/4とした画像サブ特徴を対象としているため、パラメータ量のサイズは(C/4)×(C/4)×3である。一方、混合畳み込みモデルの中の2次元畳み込みサブモデルの畳み込みカーネルのサイズは3x3のままである。しかし、混合畳み込みモデルは、チャネル数をC/4とした画像サブ特徴を対象としているため、パラメータ量のサイズが(C/4)×(C/4)×3×3である。分割された混合畳み込みモデルを獲得後、この混合畳み込みモデルを利用して、最初の処理すべき画像サブ特徴に対して畳み込み処理を実行し、畳み込み処理済み画像特徴を取得することができる。
【0054】
一実施形態では、混合畳み込みモデルを取得すると、1次元畳み込みサブモデル及び2次元畳み込みサブモデルを利用して、それぞれに特徴に対して畳み込み処理を行うことができる。具体的には、「前記混合畳み込みモデルに基づいて、前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得する」ステップは、
前記1次元混合畳み込みモデルに基づいて、時間次元で前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップと、
前記2次元混合畳み込みモデルに基づいて、空間次元で前記時間畳み込み処理された画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップとを含む。
【0055】
実際の適用では、例えば、最初の処理すべき画像サブ特徴は、画像サブ特徴X2であり、かつ特徴次元の大きさは[T,C/4,H,W]である場合に、特徴次元を[T,C/4,H,W]から[H,W,C/4,T]に再構成し、その後、畳み込みカーネルサイズが3である1次元畳み込みサブモデルを利用して、画像サブ特徴X2の時間次元Tを処理し、時間畳み込み処理済み画像特徴を得る。ここで、畳み込み演算子のパラメータ量のサイズは、(C/4)×(C/4)×3である。この過程中に、画像サブ特徴X2のの空間的情報は無視され、画像サブ特徴X2には、合計T個のフレームの特徴情報が含まれており、かつ各フレームの特徴次元はC/4であると理解され得る。ここで、時間次元でサイズが3である畳み込みカーネルを利用して畳み込み処理を行うことは、ビデオフレームtと、隣り合うビデオフレームt-1及びビデオフレームt+1とに対して情報を融合することに相当する。
【0056】
その後、時間畳み込み処理済み画像特徴の特徴次元を、[H,W,C/4,T]から[T,C/4,H,W]に再構成し、畳み込みカーネルサイズが3x3である2次元畳み込みサブモデルを利用して、時間畳み込み処理済み画像特徴の空間次元(H,W)を処理し、時間畳み込み処理済み画像特徴を得る。ここで、畳み込み演算子のパラメータ量のサイズは、(C/4)×(C/4)×3×3である。この過程中に、時間畳み込み処理された特徴の時間情報は無視され、時間畳み込み処理済み画像特徴には、HxW個の画素点の特徴が含まれており、かつ各画素点の特徴次元は、C/4であると理解され得る。この過程中に、空間限度での各画素点は、隣り合う3x3空間領域での画素点と空間特徴が融合されている。最後に、特徴次元を[T,C/4,H,W]から[H,W,C/4,T]に復元し、畳み込み処理済み画像特徴を得ることができる。
【0057】
ここで、初期混合畳み込みモデルの中の1次元畳み込みサブモデルを利用し、1回の畳み込み操作を行った場合でのパラメータ量のサイズはCxCx3であるが、混合畳み込みモデルの中の1次元畳み込みサブモデルを利用し、1回の畳み込み操作を行なった場合でのパラメータ量のサイズは(C/4)×(C/4)×3になる。従って、本出願の実施形態において3回の畳み込み操作を行なった場合でのパラメータ量のサイズの総和は3×((C/4)×(C/4)×3)であり、初期混合畳み込みモデルを直接に利用する場合と比べて、パラメータ量がかえって削減される一方、より長時間範囲における特徴が融合されるようになるから、ビデオの時間的情報を包括的に検討し判断を行うことが可能となる。
【0058】
一実施形態では、例えば、畳み込み処理を行う過程において、畳み込みカーネルのサイズは、実際の適用条件に従って調整され得る。また例えば、畳み込み処理を行う過程において、複数の処理すべき画像サブ特徴に対応する畳み込みカーネルのサイズを異ならせることもできる。つまり、異なる時間スケールでのモデリング機能を包括的に考慮するために、異なる処理すべき画像サブ特徴ごとに、異なるサイズの畳み込みカーネルを利用して畳み込み処理することができる。
【0059】
ステップS205:畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得する。
【0060】
実際の適用では、例えば、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得後、チャネルによって、複数の畳み込み処理済み画像特徴をつなぎ合わせて、スプライシングされた画像特徴を取得することができる。
【0061】
一実施形態では、より高精度な特徴を得ることが望まれているため、さらに複数の画像サブ特徴の中から、保留すべきオリジナル画像サブ特徴を特定し、最後に取得されるスプライシングされた画像に、処理されない特徴を残させることができる。具体的には、「前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得する」ステップは、
前記所定の順序に従って、前記複数の画像サブ特徴から、保留すべきオリジナル画像サブ特徴を特定するステップと、
前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴と、前記オリジナル画像サブ特徴とをスプライシングし、スプライシングされた画像特徴を取得するステップとを含む。
【0062】
実際の適用では、例えば、順番に並べられた画像サブ特徴X1、画像サブ特徴X2、画像サブ特徴X3、画像サブ特徴X4の中から、画像サブ特徴X1を、保留すべきオリジナル画像サブ特徴として特定することができる。そして、得られた画像サブ特徴X2に対応する畳み込み処理済み画像特徴X2
0、画像サブ特徴X3に対応する畳み込み処理済み画像特徴X3
0、画像サブ特徴X4に対応する畳み込み処理済み画像特徴X4
0、及び画像サブ特徴X1(即ちX1
0)をスプライシングすることにより、スプライシングされた画像特徴X0を得ることができる。ここで、スプライシングする対象となる各特徴の受容野が異なり、画像サブ特徴X1は畳み込み処理されないから、受容野は拡大されなかった。画像サブ特徴X2は1回畳み込み処理されたから、受容野が1回拡大された。画像サブ特徴X3は2回畳み込み処理されたから、受容野が2回拡大された。画像サブ特徴X4は3回畳み込み処理されたから、受容野が3回拡大された。
【0063】
一実施形態では、画像特徴からスプライシングされた画像特徴を得るステップは、多重情報融合モデルによって実行され得る。中では、
図6に示すように、多重情報融合モデルには、多重情報融合サブモデル、2つの畳み込みカーネルサイズが1x1である2次元畳み込み層が含まれている。多重情報融合サブモデルによって、上記の、画像特徴の複数のチャネルに基づいて、画像特徴を複数の画像サブ特徴に分割するステップと、所定の順序に従って、複数の画像サブ特徴から、処理すべき画像サブ特徴を特定するステップと、現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得するステップと、畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得するステップを実行することができる。
【0064】
つまり、画像特徴を時間情報融合モジュールに入力すれば、出力されたスプライシング済み画像特徴を得ることができる。ここで、
図5に示すように、本出願の実施形態では、複数の多重情報融合モジュール(Multiple Temporal Aggregation、MTA)を積み重ねて、より強力でより安定した長時間情報モデリング機能を実現することもできる。
【0065】
一実施形態では、本出願の実施形態は、さらに多重情報融合モジュールによるトレーニング工程を含み得る。例えば、トレーニングサンプルとしてのターゲットサンプルビデオは、対応する画像特徴がX’で表され、その特徴次元の大きさが[N,T’,C’,H’、W’]で表されることができる。ここで、Nは、トレーニング時の1トレーニングバッチのバッチサイズを表し、T’は時間次元を表し、即ちビデオフレームセットに合計T’個のビデオフレームが含まれていることを表し、C’はチャネル数を表し、H’及びW’は特徴の空間次元を表す。画像特徴X’を、トレーニングされていない多重情報融合モジュールに入力し、ターゲットサンプルビデオの予測ビデオコンテンツを予測するとともに、既知のターゲットサンプルビデオの実際のビデオコンテンツに基づいて、トレーニングされていない多重情報融合モジュールをトレーニングし、多重情報融合モジュールを得ることができる。ここで、トレーニング過程全体はエンドツーエンドであり、多重情報融合モジュールのトレーニングは、ビデオの時空間特徴の学習と並行して進んでいる。
【0066】
ステップS206:スプライシングされた画像特徴に基づいて、ターゲットビデオに対応するビデオコンテンツを特定する。
【0067】
実際の適用では、例えば、本出願の実施形態の目的は、ターゲットビデオに対応するビデオコンテンツを認識することにあるから、スプライシングされた画像特徴が得られた後、引き続き、当該スプライシングされた画像特徴を処理して、ビデオフレームセットに含まれる各々のビデオフレームに対応する予測スコアを予測し、そして、時間平均ストラテジーを利用して複数のビデオの予測スコアを平均化し、ターゲットビデオ全体に対する最終的な予測スコアを得る。
【0068】
一実施形態では、具体的には、「前記スプライシングされた画像特徴に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定する」ステップは、
前記スプライシングされた画像特徴に基づいて、ビデオフレームセットに含まれる各々のビデオフレームに対応するコンテンツ予測確率を予測するステップと、
複数のビデオフレームに対応するコンテンツ予測確率を融合することにより、前記ターゲットビデオに対応するビデオコンテンツ予測確率を取得するステップと、
前記ビデオコンテンツ予測確率に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定するステップとを含む。
【0069】
実際の適用では、例えば、
図5に示すように、スプライシングされた画像特徴に基づいて、ビデオフレームセットに含まれる各々のビデオフレームに対応するコンテンツ予測確率を予測することができる。ビデオフレームに対応するコンテンツ予測確率により、このビデオフレームにおいて各ビデオコンテンツが表される確率を知ることができる。その後、時間平均ストラテジーを利用して複数のビデオフレームに対応するコンテンツ予測確率を融合するとともに、ターゲットビデオに対応するビデオコンテンツ予測確率を得る。その後、当該ビデオコンテンツ予測確率に基づいて、棒グラフを相応に作成するとともに、その中で確率が最も大きいと考えられるビデオコンテンツを、ターゲットビデオに対応するビデオコンテンツ「背泳ぎ」と特定する。
【0070】
実際の適用では、本出願の実施形態に係るビデオコンテンツ認識方法は、長時間範囲における特徴が融合されたスプライシング済み画像特徴を取得できるので、基本的なビデオ分析技術として利用でき、長時間範囲における特徴が融合されたスプライシング済み画像特徴に対して、並べ替えやパーソナライズ推奨などの後続作業を行うことができる。また、本出願の実施形態に係るビデオコンテンツ認識方法は、さらにターゲットビデオのビデオコンテンツも認識できるので、特定のビデオ適用シナリオ、例えば、政治、暴力、ポルノなどのコンテンツを含むカテゴリビデオをレビューおよびフィルタリングするシナリオに適用されることもできる。
【0071】
このように、本出願の実施形態では、ターゲットビデオからビデオフレームセットを取得するとともに、ビデオフレームセットに対応する画像特徴を抽出し、ここで、ビデオフレームセットには、少なくとも2つのビデオフレームが含まれており、画像特徴の複数のチャネルに基づいて、画像特徴を複数の画像サブ特徴に分割し、ここで、複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれており、所定の順序に従って、複数の画像サブ特徴から、処理すべき画像サブ特徴を特定し、現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得し、畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得し、スプライシングされた画像特徴に基づいて、ターゲットビデオに対応するビデオコンテンツを特定する。この技術案において、1つの初期混合畳み込みモデルを複数の混合畳み込みモデルに分割すると共に、2つずつの混合畳み込みモデルの間に残差接続方式による接続を入れることによって、複数の混合畳み込みモデルは階層構造に構成され得る。これにより、ビデオ特徴は複数回畳み込み処理され、時間限度での受容野が拡大され、かつ各フレームのビデオ特徴は効果的に遠く離れたビデオフレームと関係付けられることが可能となる。また、この方法によれば、余計なパラメータ量が増えることはなく、複雑な演算もいらないから、ビデオコンテンツの認識効率を向上させることが可能となる。
【0072】
上記の実施形態に係る方法により、以下で、このビデオコンテンツ認識装置が具体的にネットワークデバイスに統合されていることを例に取り上げてより詳しく説明する。
【0073】
図3を参照すると、本出願の実施形態に係るビデオコンテンツ認識方法の具体的な流れは以下の通りである。
【0074】
ステップS301:ネットワークデバイスは、ターゲットビデオからT個のビデオフレームを取得する。
【0075】
実際の適用では、例えば、
図5に示すように、ネットワークデバイスは、スパースサンプリングを使用し、ターゲットビデオをT個のターゲットサブビデオに均一に分割することができる。次に、各々のターゲットサブビデオからランダムサンプリングして、各々のターゲットサブビデオに対応するビデオフレームを取得し、結果として、時間長さが不確定なターゲットビデオが固定長さのビデオフレームシーケンスに変換される。
【0076】
ステップS302:ネットワークデバイスは、このT個のビデオフレームに対応する画像特徴Xを抽出する。
【0077】
実際の適用では、例えば、ネットワークデバイスは、複数回の畳み込みなどの特徴抽出方法を利用して、このT個のビデオフレームに対応する画像特徴Xを抽出することができ、この画像特徴Xには、各々のビデオフレームに対応する特徴情報が含まれている。ここで、[T,C,H,W]で特徴次元のサイズを表すことができ、Tは時間次元を表し、即ち合計でT個のビデオフレームがあることを表し、Cはチャネル数を表し、HとWは、特徴の空間次元を表す。
【0078】
ステップS303:ネットワークデバイスは、画像特徴Xの複数のチャネルに基づいて、画像特徴Xを画像サブ特徴X1、画像サブ特徴X2、画像サブ特徴X3、および画像サブ特徴X4に分割する。
【0079】
実際の適用では、例えば、
図7に示すように、ネットワークデバイスは、画像特徴Xの複数のチャネルに基づいて、画像特徴Xを画像サブ特徴X1、画像サブ特徴X2、画像サブ特徴X3、および画像サブ特徴X4の4つの画像サブ特徴に分割する。その中に、各々の画像サブ特徴に対応する特徴次元は、[T,C/4,H,W]になる。そして、初期混合畳み込みモジュールを特定でき、この初期混合畳み込みモデルには、時間次元での1次元畳み込みサブモデル、及び空間次元での2次元畳み込みサブモデルが含まれている。画像特徴は、複数のチャネルに応じて複数の画像サブ特徴に分割されているため、相応に、初期混合畳み込みモデルも、複数のチャネルに応じて複数の混合畳み込みモデルに分割されている。
【0080】
ここで、初期混合畳み込みモデルの中の1次元畳み込みサブモデルは、畳み込みカーネルサイズが3である。この初期混合畳み込みモデルは、チャネル数をCとした画像特徴を対象としている場合に、パラメータ量のサイズはCxCx3である。初期混合畳み込みモデルの中の2次元畳み込みサブモデルで、畳み込みカーネルサイズが3x3である。この初期混合畳み込みモデルは、チャネル数をCとした画像特徴を対象としている場合に、パラメータ量のサイズはCxCx3x3である。畳み込みグループ化畳み込みカーネルのサイズは変化しないため、混合畳み込みモデルの中の1次元畳み込みサブモデルの畳み込みカーネルのサイズは3のままである。しかし、混合畳み込みモデルは、チャネル数をC/4とした画像サブ特徴を対象としているため、パラメータ量のサイズは(C/4)×(C/4)×3である。一方、混合畳み込みモデルの中の2次元畳み込みサブモデルの畳み込みカーネルのサイズは3x3のままである。しかし、混合畳み込みモデルは、チャネル数をC/4とした画像サブ特徴を対象としているため、パラメータ量のサイズは(C/4)×(C/4)×3×3である。
【0081】
ステップS304:ネットワークデバイスは、画像サブ特徴X2に対して畳み込み処理を行い、画像サブ特徴X2に対応する畳み込み処理済み画像特徴を取得する。
【0082】
実際の適用では、例えば、
図7に示すように、画像サブ特徴X2の特徴次元の大きさは[T,C/4,H,W]である場合に、ネットワークデバイスは、特徴次元を[T,C/4,H,W]から[H,W,C/4,T]に再構成し、その後、畳み込みカーネルサイズが3である1次元畳み込みサブモデルを利用して、画像サブ特徴X2の時間次元Tを処理し、時間畳み込み処理済み画像特徴を得ることができる。ここで、畳み込み演算子のパラメータ量のサイズは、(C/4)×(C/4)×3である。その後、時間畳み込み処理済み画像特徴の特徴次元を、[H,W,C/4,T]から[T,C/4,H,W]に再構成し、畳み込みカーネルサイズが3x3である2次元畳み込みサブモデルを利用して、時間畳み込み処理済み画像特徴の空間次元(H,W)を処理し、畳み込み処理済み画像特徴を得ることができる。ここで、畳み込み演算子のパラメータ量のサイズは、(C/4)×(C/4)×3×3である。最後に、特徴次元を[T,C/4,H,W]から[H,W,C/4,T]に復元し、画像サブ特徴X2に対応する畳み込み処理済み画像特徴X
2
0を得ることができる。
【0083】
ステップS305:ネットワークデバイスは、画像サブ特徴X2に対応する畳み込み処理済み画像特徴と、画像サブ特徴X3とを加算融合し、画像サブ特徴X3に対応する融合された画像特徴を取得する。
【0084】
ステップS306:ネットワークデバイスは、画像サブ特徴X3に対応する融合された画像特徴に対して畳み込み処理を行い、画像サブ特徴X3に対応する畳み込み処理済み画像特徴を取得する。
【0085】
ステップS307:ネットワークデバイスは、画像サブ特徴X3に対応する畳み込み処理済み画像特徴と、画像サブ特徴X4とを加算融合し、画像サブ特徴X4に対応する融合された画像特徴を取得する。
【0086】
ステップS308:ネットワークデバイスは、画像サブ特徴X4に対応する融合された画像特徴に対して畳み込み処理を行い、画像サブ特徴X4に対応する畳み込み処理済み画像特徴を取得する。
【0087】
ステップS309:ネットワークデバイスは、畳み込み処理済み画像特徴の複数のチャネルによって、複数の畳み込み処理済み画像特徴と、画像サブ特徴X1とをスプライシングし、スプライシングされた画像特徴を取得する。
【0088】
実際の適用では、例えば、
図7に示すように、ネットワークデバイスは、畳み込み処理済み画像特徴の複数のチャネルによって、画像サブ特徴X2に対応する畳み込み処理済み画像特徴X
2
0、画像サブ特徴X3に対応する畳み込み処理済み画像特徴X
3
0、画像サブ特徴X4に対応する畳み込み処理済み画像特徴X
4
0、及び画像サブ特徴X1(即ちX
1
0)をスプライシングすることにより、スプライシングされた画像特徴X
0を得ることができる。その後、積み重ねられた複数の多重情報融合モジュールを利用して特徴を引き続き処理することで、より強力でより安定した長時間情報モデリング機能を実現する。
【0089】
ステップS310:ネットワークデバイスは、スプライシングされた画像特徴に基づいて、ターゲットビデオに対応するビデオコンテンツを特定する。
【0090】
実際の適用では、例えば、ネットワークデバイスは、スプライシングされた画像特徴に基づいて、T個のビデオフレームに対応するコンテンツ予測確率を予測する。そして、平均化時間を利用して、T個のビデオフレームに対応するコンテンツ予測確率を融合し、ターゲットビデオに対応するビデオコンテンツ予測確率を得る。その後、このビデオコンテンツ予測確率に基づいて、棒グラフを相応に作成するとともに、その中で確率が最も大きいと考えられるビデオコンテンツを、ターゲットビデオに対応するビデオコンテンツと特定する。
【0091】
以上によれば、本出願の実施形態では、ネットワークデバイスは、ターゲットビデオからT個のビデオフレームを取得し、このT個のビデオフレームに対応する画像特徴Xを抽出し、画像特徴Xの複数のチャネルに基づいて、画像特徴Xを画像サブ特徴X1、画像サブ特徴X2、画像サブ特徴X3、および画像サブ特徴X4に分割し、画像サブ特徴X2に対して畳み込み処理を行い、画像サブ特徴X2に対応する畳み込み処理済み画像特徴を取得し、画像サブ特徴X2に対応する畳み込み処理済み画像特徴と、画像サブ特徴X3とを加算融合し、画像サブ特徴X3に対応する融合された画像特徴を取得し、画像サブ特徴X3に対応する融合された画像特徴を畳み込み処理し、画像サブ特徴X3に対応する畳み込み処理済み画像特徴を取得し、画像サブ特徴X3に対応する畳み込み処理済み画像特徴と、画像サブ特徴X4とを加算融合し、画像サブ特徴X4に対応する融合された画像特徴を取得し、画像サブ特徴X4に対応する融合された画像特徴を畳み込み処理し、画像サブ特徴X4に対応する畳み込み処理済み画像特徴を取得し、畳み込み処理済み画像特徴の複数のチャネルによって、複数の畳み込み処理済み画像特徴と、画像サブ特徴X1とをスプライシングし、スプライシングされた画像特徴を取得し、スプライシングされた画像特徴に基づいて、ターゲットビデオに対応するビデオコンテンツを特定する。この技術案において、1つの初期混合畳み込みモデルを複数の混合畳み込みモデルに分割すると共に、2つずつの混合畳み込みモデルの間に残差接続方式による接続を入れることによって、複数の混合畳み込みモデルは階層構造に構成され得る。これにより、ビデオ特徴は複数回畳み込み処理され、時間限度での受容野が拡大され、かつ各フレームのビデオ特徴は効果的に遠く離れたビデオフレームと関係付けられることが可能となる。また、この方法によれば、余計なパラメータ量が増えることはなく、複雑な演算もいらないから、ビデオコンテンツの認識効率を向上させることが可能となる。
【0092】
以上の方法をより効果的に実現するためには、本出願の実施形態は、さらに、コンピュータデバイスに統合され得るビデオコンテンツ認識装置を提供する。このコンピュータデバイスは、サーバ、端末などを含み得る。ここで、端末としては、携帯電話、タブレットコンピュータ、ノートブックコンピュータ、またはパーソナルコンピュータ(PC、Personal Computer)などが挙げられる。
【0093】
例えば、
図11に示すように、このビデオコンテンツ認識装置は、取得モジュール111と、分割モジュール112と、特定モジュール113と、融合モジュール114と、スプライシングモジュール115と、コンテンツ特定モジュール116とを備える。具体的には、
取得モジュール111は、ターゲットビデオからビデオフレームセットを取得するとともに、前記ビデオフレームセットに対応する画像特徴を抽出する。ここで、前記ビデオフレームセットには、少なくとも2つのビデオフレームが含まれている;
分割モジュール112は、前記画像特徴の複数のチャネルに基づいて、前記画像特徴を複数の画像サブ特徴に分割する。ここで、前記複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれている;
特定モジュール113は、前記所定の順序に従って、前記複数の画像サブ特徴から、処理すべき画像サブ特徴を特定する;
融合モジュール114は、現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得する;
スプライシングモジュール115は、前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得する;
コンテンツ特定モジュール116は、前記スプライシングされた画像特徴に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定する。
【0094】
一実施形態では、前記融合モジュール114は、第1の特定サブモジュールと、畳み込みサブモジュールと、第2の特定サブモジュールと、融合サブモジュールと、更新サブモジュールと繰り返しサブモジュールとを備える。具体的には、
第1の特定サブモジュールは、前記所定の順序に従って、複数の処理すべき画像サブ特徴から、最初の処理すべき画像サブ特徴を特定する;
畳み込みサブモジュールは、前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得する;
第2の特定サブモジュールは、前記所定の順序及び前記最初の処理すべき画像サブ特徴に基づいて、前記複数の処理すべき画像サブ特徴から、現在の処理すべき画像サブ特徴を特定する;
融合サブモジュールは、前記現在の処理すべき画像サブ特徴と、前記畳み込み処理済み画像特徴とを融合することにより、融合された画像特徴を取得する;
更新サブモジュールは、前記融合された画像特徴を、最初の処理すべき画像サブ特徴に更新する;
繰り返しサブモジュールは、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を得るまで、前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得するステップを繰り返して実行する。
【0095】
一実施形態では、前記スプライシングモジュール115は、具体的に、
前記所定の順序に従って、前記複数の画像サブ特徴から、保留すべきオリジナル画像サブ特徴を特定し、
前記畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴と、前記オリジナル画像サブ特徴とをスプライシングし、スプライシングされた画像特徴を取得する。
【0096】
一実施形態では、前記取得モジュール111は、第3の特定サブモジュールと、分割サブモジュールと、構築サブモジュールと、抽出サブモジュールとを備える。具体的には、
第3の特定サブモジュールは、ターゲットビデオを特定する;
分割サブモジュールは、前記ターゲットビデオを複数のターゲットサブビデオに分割する;
構築サブモジュールは、各々のターゲットサブビデオから1つのビデオフレームを取得するとともに、複数のビデオフレームによってビデオフレームセットを構築する;
抽出サブモジュールは、前記ビデオフレームセットから特徴を抽出し、前記ビデオフレームセットに対応する画像特徴を取得する。
【0097】
一実施形態では、前記分割サブモジュールは、具体的に、
所定の画像の数を特定し、
前記所定の画像の数、及び前記ターゲットビデオのビデオ長さに基づいて、各々のターゲットビデオに対応するサブビデオ長さを特定し、
前記サブビデオ長さに基づいて、前記ターゲットビデオを複数のターゲットサブビデオに分割する。
【0098】
一実施形態では、前記畳み込みサブモジュールは、第4の特定サブモジュールと、モデル分割サブモジュールと、畳み込み処理サブモジュールとを備える。具体的には、
第4の特定サブモジュールは、初期混合畳み込みモデルを特定する;
モデル分割サブモジュールは、前記画像特徴の複数のチャネルに基づいて、前記初期混合畳み込みモデルを複数の混合畳み込みモデルに分割する;
畳み込み処理サブモジュールは、前記混合畳み込みモデルに基づいて、前記最初の処理すべき画像サブ特徴に対して、畳み込み処理を行い、畳み込み処理済み画像特徴を取得する。
【0099】
一実施形態では、前記畳み込み処理サブモジュールは、具体的に、
前記1次元混合畳み込みモデルに基づいて、時間次元で前記最初の処理すべき画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得し、
前記2次元混合畳み込みモデルに基づいて、空間次元で前記時間畳み込み処理された画像サブ特徴に対して畳み込み処理を行い、畳み込み処理済み画像特徴を取得する。
【0100】
一実施形態では、前記コンテンツ特定モジュール116は、
前記スプライシングされた画像特徴に基づいて、ビデオフレームセットに含まれる各々のビデオフレームに対応するコンテンツ予測確率を予測し、
複数のビデオフレームに対応するコンテンツ予測確率を融合することにより、前記ターゲットビデオに対応するビデオコンテンツ予測確率を取得し、
前記ビデオコンテンツ予測確率に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定する。
【0101】
具体的に実施するとき、以上の各々のユニットは、独立した実体として実現されてもよく、さらに任意に組み合わせて、同一または複数の実体として実現されることができる。以上の各々のユニットの具体的な実施は、以上の方法の実施形態を参照することができ、ここで、重複して記述する必要がない。
【0102】
以上によれば、本出願の実施形態では、取得モジュール111によって、ターゲットビデオからビデオフレームセットを取得するとともに、ビデオフレームセットに対応する画像特徴を抽出し、ここでビデオフレームセットには、少なくとも2つのビデオフレームが含まれており、分割モジュール112によって、画像特徴の複数のチャネルに基づいて、画像特徴を複数の画像サブ特徴に分割し、ここで複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれており、特定モジュール113によって、所定の順序に従って、複数の画像サブ特徴から、処理すべき画像サブ特徴を特定し、融合モジュール114によって、現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得し、スプライシングモジュール115によって、畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得し、コンテンツ特定モジュール116によって、スプライシングされた画像特徴に基づいて、ターゲットビデオに対応するビデオコンテンツを特定する。この技術案において、1つの初期混合畳み込みモデルを複数の混合畳み込みモデルに分割すると共に、2つずつの混合畳み込みモデルの間に残差接続方式による接続を入れることによって、複数の混合畳み込みモデルは階層構造に構成され得る。これにより、ビデオ特徴は複数回畳み込み処理され、時間限度での受容野が拡大され、かつ各フレームのビデオ特徴は効果的に遠く離れたビデオフレームと関係付けられることが可能となる。また、この方法によれば、余計なパラメータ量が増えることはなく、複雑な演算もいらないから、ビデオコンテンツの認識効率を向上させることが可能となる。
【0103】
本出願の実施形態は、コンピュータデバイスをさらに提供する。このコンピュータデバイスは、本出願の実施形態に係る何れかのビデオコンテンツ認識装置を統合することができる。
【0104】
例えば、
図12に示すように、本出願の実施形態に係るコンピュータデバイスの構造模式図を示している。具体的には、
このコンピュータデバイスは、1つ以上の処理カーネルのプロセッサ121、1つ以上のコンピュータ可読記憶媒体のメモリ122、電源123および入力ユニット124などの構成要素を含み得る。
図12に示されるコンピュータデバイス構造は、コンピュータデバイスを制限するものではなく、図示されるものよりも多いまたは少ない構成要素を含み得るか、またはいくつかの構成要素を組み合わせるか、または異なる構成要素を配置し得ることは、当業者に理解されるべきであろう。
【0105】
プロセッサ121は、このコンピュータデバイスの制御センターであり、各種のインターフェースおよび回線を利用してコンピュータデバイス全体の各部を接続し、メモリ122に記憶されたコンピュータ可読命令および/またはモジュールを稼動または実行させ、メモリ122に記憶されたデータを呼び出すことによって、コンピュータデバイスの様々な機能を実行し、これでコンピュータデバイス全体を監視する。オプションとして、プロセッサ121は、1つ以上の処理カーネルを含み得る。好ましくは、プロセッサ121は、アプリケーションプロセッサとモデムプロセッサとを統合することができる。ここで、アプリケーションプロセッサは、主にオペレーティングシステム、ユーザインターフェースおよびアプリケーションプログラムなどを処理する。モデムプロセッサは、主にワイヤレス通信を取り扱うものである。なお、上記モデムプロセッサは、プロセッサ121に統合されてもよいことは、理解されるべきであろう。
【0106】
メモリ122は、コンピュータ可読命令およびモジュールを格納するために使用され得る。プロセッサ121は、メモリ122に格納されたコンピュータ可読命令およびモジュールを実行することによって、様々な機能的アプリケーションおよびデータ処理を実行する。メモリ122は、主に、コンピュータ可読命令格納エリアおよびデータ格納エリアを含み得る。コンピュータ可読命令格納エリアには、オペレーティングシステム、少なくとも1つの機能(例えば音声再生機能、画面再生機能など)に必要なアプリケーションプログラムが格納されており、データ格納エリアには、コンピュータデバイスの用途に応じて作成されたデータ等が格納されている。また、メモリ122は、高速ランダムアクセスメモリを含み得るし、また、例えば少なくとも1つの磁気ディスク記憶装置、フラッシュ記憶装置、または他の揮発性固体記憶装置などの不揮発性記憶を含み得る。相応に、メモリ122はまた、プロセッサ121を介したメモリ122へのアクセスを提供するためのメモリコントローラを含み得る。
【0107】
コンピュータデバイスはまた、さらに、各構成要素に電力を供給するための電源123を備える。好ましくは、電源123は、電力管理システムを介してプロセッサ121に論理的に接続されており、これによって、電力管理システムを介して充電、放電、および電力消費管理などの管理機能を実現する。電源123はまた、1つ以上のDC又はAC電源、再充電システム、電力故障検出回路、電力変換器またはインバータ、電力状態インジケータなど任意の構成要素を含み得る。
【0108】
コンピュータデバイスは、さらに、入力した数字または文字情報を受信し、ユーザ設定および機能制御に関連するキーボード、マウス、ジョイスティック、光学またはトラックボール信号入力を生成するための入力ユニット124を含み得る。
【0109】
図示されないが、コンピュータデバイスはまた、表示ユニットなどを含み得るが、ここで重複して記述しない。具体的には、本実施形態では、コンピュータデバイス内のプロセッサ121は、以下のコンピュータ可読命令に従って、1つ以上のアプリケーションプログラムのプロセスに対応する実行可能ファイルをメモリ122にロードし、メモリ122に格納されたアプリケーションプログラムをプロセッサ121に実行させることによって、以下のような様々な機能を実現することができ、具体的には以下の通りである。すなわち、
ターゲットビデオからビデオフレームセットを取得するとともに、ビデオフレームセットに対応する画像特徴を抽出し、ここで、ビデオフレームセットには、少なくとも2つのビデオフレームが含まれており、画像特徴の複数のチャネルに基づいて、画像特徴を複数の画像サブ特徴に分割し、ここで、複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれており、所定の順序に従って、複数の画像サブ特徴から、処理すべき画像サブ特徴を特定し、現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得し、畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得し、スプライシングされた画像特徴に基づいて、ターゲットビデオに対応するビデオコンテンツを特定する。
【0110】
以上の各々操作の具体的な実施は、上記の実施形態を参照できるが、ここで重複して記述する必要がない。
【0111】
以上によれば、本出願の実施形態では、ターゲットビデオからビデオフレームセットを取得するとともに、ビデオフレームセットに対応する画像特徴を抽出し、ここで、ビデオフレームセットには、少なくとも2つのビデオフレームが含まれており、画像特徴の複数のチャネルに基づいて、画像特徴を複数の画像サブ特徴に分割し、ここで、複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれており、所定の順序に従って、複数の画像サブ特徴から、処理すべき画像サブ特徴を特定し、現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得し、畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得し、スプライシングされた画像特徴に基づいて、ターゲットビデオに対応するビデオコンテンツを特定する。この技術案において、1つの初期混合畳み込みモデルを複数の混合畳み込みモデルに分割すると共に、2つずつの混合畳み込みモデルの間に残差接続方式による接続を入れることによって、複数の混合畳み込みモデルは階層構造に構成され得る。これにより、ビデオ特徴は複数回畳み込み処理され、時間限度での受容野が拡大され、かつ各フレームのビデオ特徴は効果的に遠く離れたビデオフレームと関係付けられることが可能となる。また、この方法によれば、余計なパラメータ量が増えることはなく、複雑な演算もいらないから、ビデオコンテンツの認識効率を向上させることが可能となる。
【0112】
当業者であれば理解できるように、上記の実施形態に係る様々な方法におけるステップの全部または一部が、コンピュータ可読命令によって、またはコンピュータ可読命令に従って関連するハードウェアを制御することによって達成できる。このコンピュータ可読命令を、コンピュータ読み取り可能な記憶媒体に格納し、プロセッサによってロードおよび実行することができる。
【0113】
そのため、本出願の実施形態は、複数のコンピュータ可読命令が格納されているコンピュータデバイスを提供する。このコンピュータ可読命令はプロセッサによってロードされて、本出願の実施形態に係る何れかのビデオコンテンツ認識方法を実行することができる。例えば、このコンピュータ可読命令は、以下のステップ、すなわち、
ターゲットビデオからビデオフレームセットを取得するとともに、ビデオフレームセットに対応する画像特徴を抽出するステップであって、ここでビデオフレームセットには、少なくとも2つのビデオフレームが含まれているステップ、画像特徴の複数のチャネルに基づいて、画像特徴を複数の画像サブ特徴に分割するステップであって、ここで複数の画像サブ特徴は所定の順序に従って並んでおり、かつ各々の画像サブ特徴には、相応するチャネルでの各々のビデオフレームの特徴が含まれているステップ、所定の順序に従って、複数の画像サブ特徴から、処理すべき画像サブ特徴を特定するステップ、現在の処理すべき画像サブ特徴と、直前の画像サブ特徴の畳み込み処理結果とを融合するとともに、融合された画像特徴に対して畳み込み処理を行い、各々の処理すべき画像サブ特徴に対応する畳み込み処理済み画像特徴を取得するステップ、畳み込み処理済み画像特徴の複数のチャネルに基づいて、複数の畳み込み処理済み画像特徴をスプライシングし、スプライシングされた画像特徴を取得するステップ、スプライシングされた画像特徴に基づいて、前記ターゲットビデオに対応するビデオコンテンツを特定するステップを実行できる。
【0114】
以上の各々の操作の具体的な実施は、上記の実施形態を参照できるが、ここで重複して記述する必要がない。
【0115】
ここで、この記憶媒体は、読み取り専用メモリ(ROM,Read Only Memory)、ランダムアクセスメモリ(RAM,Random Access Memory)、磁気ディスクまたは光ディスクなどを含み得る。
【0116】
記憶媒体に記憶された命令は、本出願の実施形態に係る何れかのビデオコンテンツ認識方法のステップを実行できるので、本出願の実施形態に係る何れかのビデオコンテンツ認識方法によって達成できる有益な効果を実現でき、詳しくは上記の実施形態を参照できるが、ここで重複して記述する必要がない。
【0117】
一実施形態では、コンピュータ可読命令を含むコンピュータプログラム製品またはコンピュータ可読命令を提供する。このコンピュータ可読命令は、コンピュータ読み取り可能な記憶媒体に格納されている。コンピュータデバイスのプロセッサはこのコンピュータ可読命令をコンピュータ読み取り可能な記憶媒体から読み取ると共に、このコンピュータ可読命令を実行することによって、前記各方法の実施形態におけるステップをこのコンピュータデバイスに実行させる。
【0118】
以上では、本出願の実施形態に係るビデオコンテンツ認識方法、デバイス、記憶媒体、および電子デバイスについて詳しく説明する。本明細書では、具体的な事例を用いて本出願の原理および実施形態について記載するが、以上の実施形態に対する説明は、本出願の方法及びその本旨を理解するためのものに過ぎない。また、当業者にとって、本出願の構想に従って、具体的な実施形態や適用範囲を修正したりする場合がある。以上のとおり、本明細書の内容は、本出願を制限するものとして解釈されるべきではない。
【国際調査報告】