(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-10-12
(54)【発明の名称】ビデオ検出方法、装置、電子機器及び記憶媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20231004BHJP
G06T 7/174 20170101ALI20231004BHJP
【FI】
G06T7/00 610B
G06T7/174
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023519078
(86)(22)【出願日】2021-07-05
(85)【翻訳文提出日】2023-03-24
(86)【国際出願番号】 CN2021104572
(87)【国際公開番号】W WO2022188315
(87)【国際公開日】2022-09-15
(31)【優先権主張番号】202110272132.X
(32)【優先日】2021-03-12
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】シオーン,ジュインフオン
(72)【発明者】
【氏名】ワーン,ヤーン
(72)【発明者】
【氏名】ジョウ,ユエ
(72)【発明者】
【氏名】ジャーン,ホワン
(72)【発明者】
【氏名】ジョーン,ジェンユイ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA03
5L096CA04
5L096FA52
5L096FA69
5L096GA30
5L096GA34
5L096GA51
5L096HA11
5L096JA06
5L096JA18
5L096KA04
(57)【要約】
本開示は、ビデオ検出方法、装置、電子機器及び記憶媒体を提供し、人工知能、深層学習、コンピュータビジョン、画像処理、顔認識、肢体認識、偽造検出などの分野に関する。具体的な実現案として、ビデオデータストリームにおけるビデオフレームを検出し、前記ビデオデータストリームにおける異なるビデオフレームの一部の画素が全く同じである領域を表すための、前記ビデオフレームにおける目標領域を得て、前記ビデオデータストリームにおける、前記目標領域が存在する異常ビデオフレームを検索し、前記異常ビデオフレームに対応する検出パラメータが閾値に一致する場合、前記異常ビデオフレームを目標ビデオフレームとして確定する。本開示を用いると、ビデオデータストリームにおける人為的に編集された(又は偽造されたと呼ばれる)異常ビデオフレームを検出することができる。
【特許請求の範囲】
【請求項1】
ビデオ検出方法であって、
ビデオデータストリームにおけるビデオフレームを検出し、前記ビデオデータストリームにおける異なるビデオフレームの一部の画素が全く同じである領域を表すための、前記ビデオフレームにおける目標領域を得ることと、
前記ビデオデータストリームにおける、前記目標領域が存在する異常ビデオフレームを検索することと、
前記異常ビデオフレームに対応する検出パラメータが閾値に一致する場合、前記異常ビデオフレームを目標ビデオフレームとして確定することとを含む、ビデオ検出方法。
【請求項2】
前記の、ビデオデータストリームにおけるビデオフレームを検出し、前記ビデオフレームにおける目標領域を得ることは、
前記ビデオデータストリームにおける隣接する少なくとも2つのビデオフレームに対して、キー領域をそれぞれ抽出することと、
前記少なくとも2つのビデオフレームのそれぞれに対応するキー領域に対して画素点の特徴照合を行い、照合して得られた前記キー領域における、前記一部の画素が全く同じである領域を、前記目標領域とすることとを含む、請求項1に記載の方法。
【請求項3】
前記の、前記異常ビデオフレームに対応する検出パラメータが閾値に一致する場合、前記異常ビデオフレームを目標ビデオフレームとして確定することは、
前記ビデオデータストリームにおいて前記異常ビデオフレームで構成される第1のビデオシーケンスに対して画素異常の演算を行い、同一スコア値を得ることと、
前記同一スコア値に基づいて、前記異常ビデオフレームに対する画素異常率を得ることと、
前記画素異常率を前記検出パラメータとして、前記検出パラメータが閾値に一致する場合、前記第1のビデオシーケンスに存在する異常ビデオフレームを目標ビデオフレームとして確定することとを含む、請求項1に記載の方法。
【請求項4】
前記の、前記異常ビデオフレームに対応する検出パラメータが閾値に一致する場合、前記異常ビデオフレームを目標ビデオフレームとして確定することは、
前記ビデオデータストリームにおいて前記異常ビデオフレームで構成される第1のビデオシーケンスに対して画素異常の演算を行い、同一スコア値を得ることと、
前記同一スコア値に基づいて、前記異常ビデオフレームに対する画素異常率を得ることと、
前記第1のビデオシーケンスから異なる画素異常率で構成される第2のビデオシーケンスを選択し、それぞれ採点し、対応するビデオ検出スコア値を得ることと、
前記ビデオ検出スコア値を前記検出パラメータとして、前記検出パラメータが閾値に一致する場合、前記第2のビデオシーケンスに存在する異常ビデオフレームを目標ビデオフレームとして確定することとを含む、請求項1に記載の方法。
【請求項5】
ビデオ検出スコア値に基づいて前記閾値を設定することをさらに含み、
前記ビデオ検出スコア値は、異なる画素異常率で構成される第2のビデオシーケンスの第1のビデオシーケンスにおけるスコア値割合を含み、前記第1のビデオシーケンスは前記ビデオデータストリームにおける前記異常ビデオフレームで構成される第1のビデオシーケンスである、請求項1に記載の方法。
【請求項6】
前記閾値に基づいて、前記目標ビデオフレームの前記ビデオデータストリームにおける位置を位置決めることをさらに含む、請求項5に記載の方法。
【請求項7】
ビデオ検出装置であって、
ビデオデータストリームにおけるビデオフレームを検出して、前記ビデオデータストリームにおける異なるビデオフレームの一部の画素が全く同じである領域を表すための、前記ビデオフレームにおける目標領域を得るための目標領域検出モジュールと、
前記ビデオデータストリームにおける、前記目標領域が存在する異常ビデオフレームを検索するための異常ビデオ検索モジュールと、
前記異常ビデオフレームに対応する検出パラメータが閾値に一致する場合、前記異常ビデオフレームを目標ビデオフレームとして確定するための目標ビデオ確定モジュールとを含む、ビデオ検出装置。
【請求項8】
前記目標領域検出モジュールは、
前記ビデオデータストリームにおける隣接する少なくとも2つのビデオフレームに対して、キー領域をそれぞれ抽出し、
前記少なくとも2つのビデオフレームのそれぞれに対応するキー領域に対して画素点の特徴照合を行い、照合して得られた前記キー領域における、前記一部の画素が全く同じである領域を、前記目標領域とするために用いられる、請求項7に記載の装置。
【請求項9】
前記目標ビデオ確定モジュールは、
前記ビデオデータストリームにおいて前記異常ビデオフレームで構成される第1のビデオシーケンスに対して画素異常の演算を行い、同一スコア値を得て、
前記同一スコア値に基づいて、前記異常ビデオフレームに対する画素異常率を得て、
前記画素異常率を前記検出パラメータとして、前記検出パラメータが閾値に一致する場合、前記第1のビデオシーケンスに存在する異常ビデオフレームを目標ビデオフレームとして確定するために用いられる、請求項7又は8に記載の装置。
【請求項10】
前記目標ビデオ確定モジュールは、
前記ビデオデータストリームにおける前記異常ビデオフレームで構成される第1のビデオシーケンスに対して画素異常の演算を行い、同一スコア値を得て、
前記同一スコア値に基づいて、前記異常ビデオフレームに対する画素異常率を得て、
前記第1のビデオシーケンスから異なる画素異常率で構成される第2のビデオシーケンスを選択し、それぞれ採点し、対応するビデオ検出スコア値を得て、
前記ビデオ検出スコア値を前記検出パラメータとして、前記検出パラメータが閾値に一致する場合、前記第2のビデオシーケンスに存在する異常ビデオフレームを目標ビデオフレームとして確定するために用いられる、請求項7又は8に記載の装置。
【請求項11】
閾値設定モジュールをさらに含み、前記閾値設定モジュールは、
ビデオ検出スコア値に基づいて前記閾値を設定するために用いられ、
前記ビデオ検出スコア値は、異なる画素異常率で構成される第2のビデオシーケンスの第1のビデオシーケンスにおけるスコア値割合を含み、前記第1のビデオシーケンスは前記ビデオデータストリームにおける前記異常ビデオフレームで構成される第1のビデオシーケンスである、請求項7又は8に記載の装置。
【請求項12】
位置決めモジュールをさらに含み、前記位置決めモジュールは、
前記閾値に基づいて、前記目標ビデオフレームの前記ビデオデータストリームにおける位置を位置決めるために用いられる、請求項11に記載の装置。
【請求項13】
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサが請求項1~6のいずれか一項に記載の方法を実行することができる、電子機器。
【請求項14】
コンピュータに請求項1~6のいずれか一項に記載の方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体。
【請求項15】
プロセッサによって実行されると、請求項1~6のいずれか一項に記載の方法を実現するコンピュータ命令を含むコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2021年03月12日に中国国家知識産権局に提出された、出願番号が202110272132.X、発明名称が「ビデオ検出方法、装置、電子機器及び記憶媒体」である中国特許出願の優先権を主張し、その内容の全ては参照により本出願に組み込まれる。
【0002】
本開示は、コンピュータ処理分野に関し、特に、人工知能、深層学習、コンピュータビジョン、画像処理、顔認識、肢体認識、偽造検出などの分野に関する。
【背景技術】
【0003】
コンピュータ技術の発展に伴い、画像及び音声だけでなく、ビデオも偽造されることができる。ビデオの深さ偽造処理において、偽造された画像を用いてビデオを生成することができ、例えば、一部のビデオコンテンツに対して、新しい要素(例えば他の人の顔を入れ替える)を入れ替えることによって偽造の目的を達成し、各種のアプリケーション(例えば銀行クライアント、入退室管理システムなど)のセキュリティホールを利用して攻撃を実現することによって、ユーザに巨大な損失を与える。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示はビデオ検出方法、装置、電子機器及び記憶媒体を提供する。
【課題を解決するための手段】
【0005】
本開示の一態様によれば、ビデオ検出方法を提供し、
ビデオデータストリームにおけるビデオフレームを検出し、前記ビデオデータストリームにおける異なるビデオフレームの一部の画素が全く同じである領域を表すための、前記ビデオフレームにおける目標領域を得ることと、
前記ビデオデータストリームにおける、前記目標領域が存在する異常ビデオフレームを検索することと、
前記異常ビデオフレームに対応する検出パラメータが閾値に一致する場合、前記異常ビデオフレームを目標ビデオフレームとして確定することとを含む。
【0006】
本開示の別の態様によれば、ビデオ検出装置を提供し、
ビデオデータストリームにおけるビデオフレームを検出し、前記ビデオフレームにおける目標領域を得て、前記目標領域は、前記ビデオデータストリームにおける異なるビデオフレームの一部の画素が全く同じである領域を表すためのものであるための目標領域検出モジュールと、
前記ビデオデータストリームにおける、前記目標領域が存在する異常ビデオフレームを検索するための異常ビデオ検索モジュールと、
前記異常ビデオフレームに対応する検出パラメータが閾値に一致する場合、前記異常ビデオフレームを目標ビデオフレームとして確定するためのビデオ確定モジュールとを含む。
【0007】
本開示の別の態様によれば、電子機器を提供し、この電子機器は、
少なくとも一つのプロセッサと、
この少なくとも1つのプロセッサに通信接続されたメモリと、を含み、
このメモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、この命令はこの少なくとも1つのプロセッサによって実行されることにより、この少なくとも1つのプロセッサが本開示のいずれか1つの実施例による方法を実行することができる。
【0008】
本開示の別の態様によれば、本開示のいずれか1つの実施例による方法をコンピュータに実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供する。
【0009】
本開示の別の態様によれば、プロセッサによって実行されると、本開示のいずれか1つの実施例による方法を実現するコンピュータ命令を含むコンピュータプログラムを提供する。
【0010】
本開示を用いると、ビデオデータストリームにおけるビデオフレームを検出し、前記ビデオフレームにおける目標領域を得ることができ、前記目標領域は、前記ビデオデータストリームにおける異なるビデオフレームの一部の画素が全く同じである領域を表すためのものであり、前記ビデオデータストリームにおける、前記目標領域が存在する異常ビデオフレームを検索し、前記異常ビデオフレームに対応する検出パラメータが閾値に一致する場合、前記異常ビデオフレームを目標ビデオフレームとして確定することによって、ビデオデータストリームにおける人為的に編集された(又は偽造されたと呼ばれる)異常ビデオフレームを検出することができる。
【0011】
理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。
【図面の簡単な説明】
【0012】
図面は、本案をより良く理解するためのものであり、本開示に対する限定を構成しない。
【
図1】本開示の実施例によるビデオ検出方法のフローチャートである。
【
図2】本開示の実施例によるビデオ検出方法のフローチャートである。
【
図3】本開示の実施例によるビデオ検出装置の構成構造の概略図である。
【
図4】本開示の実施例によるビデオ検出装置の構成構造の概略図である。
【
図5】本発明の実施例によるビデオ検出方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0013】
以下、図面を結び付けながら本開示の例示的な実施例を説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細が含まれているが、それらは単なる例示的なものと見なされるべきである。したがって、当業者であれば認識できるように、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができる。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。
【0014】
本明細書における「及び/又は」という用語は、単に関連対象を説明する関連関係に過ぎず、3つの関係が存在できることを示し、例えば、A及び/又はBは、単独のA、AとBとの組み合わせ、単独のBの3つのケースを表すことができる。本明細書における「少なくとも1つ」という用語は、複数のうちの任意の1つ又は複数のうちの少なくとも2つの任意の組み合わせを表し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選択された任意の1つ又は複数の要素を含むことを表すことができる。本明細書における「第1」、「第2」という用語は、類似する複数の技術用語を指してそれらを区別することを表し、順序を限定することも、2つのみを限定することも意味しなく、例えば、第1の特徴と第2の特徴は、2つのタイプ/2つの特徴があることを指し、第1の特徴は、1つまたは複数であってもよく、第2の特徴は、1つまたは複数であってもよい。
【0015】
さらに、本開示をより詳細に説明するために、多数の具体的な詳細が以下の具体的な実施形態に示される。当業者であれば、具体的なの詳細なしに、本開示を同様に実施することができることを理解するであろう。いくつかの例では、本開示の趣旨を強調するために、当業者に周知の方法、手段、要素、及び回路については詳細に説明しない。
【0016】
ビデオの深さ偽造については、入退室管理システムの応用シーンを例として、携帯アプリ、入退室管理、閉回路テレビなどのカメラシーンに基づいてビデオを収集し、ビデオフレームが三原色(RGB)に基づく画像であるビデオデータストリームを得ることができる。この画像は、構造化光又は双眼カメラにより収集された深さ情報(Deph)、及び赤外線と色照射などのマルチモーダルの手段を組み合わせることができても、例えば顔、肢体、動作などのセキュリティ検証機能を実行する場合、RGB上の弱点も避けられず、画像によるビデオ偽造を容易にする。特に、システムへの侵入時に偽造されたビデオを同時に組み込むことで、ユーザに対する攻撃の脅威がより明らかになる。このように、画像に基づいてビデオを駆動することによって、偽造された顔、偽造された人物の肢体、偽造された動作などを介して詐欺的な攻撃を実現することを達成し、攻撃効果がよく、攻撃コストが低いため、各種のアプリケーションに関連するセキュリティ認証機能に対しては、危害が非常に大きい。
【0017】
これに鑑み、画像に基づいてビデオを駆動する方案において、ビデオ理解、ビデオ画像畳み込みネットワークでトレーニングされた分類器により、ビデオデータストリームにおける偽造された顔、偽造された人物の肢体、偽造された動作などに関連する検出を実行することができるが、このビデオ画像畳み込みネットワークには大量のパラメータがあり、トレーニングする前に大量のデータをマーキングする必要があり、実現コストが高い。また、このビデオ画像畳み込みネットワークは一般的に、オーバーフィッティング(即ち汎用性を備えていない)しやすく、ネットワーク性能を改善するために、大量のパラメータ調整操作が必要であり、効率が低く、適用シーンが比較的少ない。このビデオ画像畳み込みネットワークを実行する機械は精密で、製造コストが高い。
【0018】
本開示において、目標領域を合理的に選択することで、この目標領域に基づいてビデオデータストリーム全体を整理することによって、このビデオデータストリームにおいて、どのビデオフレームに編集された跡が存在するかを見つけ出すことができ、このような編集された異常ビデオを正確に判断することができる。画像に基づいて駆動されるビデオは、キーポイントに基づいて一部の位置を駆動し、異なるビデオフレーム画面には一部の画素が全く同じことがあることを考慮すると、ビデオデータストリームに一定のランダムなノイズがあっても、通常のビデオ(編集処理された偽造ビデオではない)では画素が同じである可能性がほぼゼロであり、この現象はビデオフレームにこの編集された跡が存在すると考えられる。
【0019】
本開示の実施例によれば、ビデオ検出方法を提供し、
図1は本開示の実施例によるビデオ検出方法のフローチャートであり、この方法はビデオ検出装置に適用することができ、例えば、この装置は、端末やサーバや他の処理機器に配備して実行することができる場合、目標領域検出、異常ビデオフレーム検索、及び異常ビデオフレームを評価した後に目標ビデオフレームを確定するなどの処理を実現することができる。ここで、端末は、ユーザ機器(UE、User Equipment)、携帯機器、パーソナルデジタル処理(PDA、Personal Digital Assistant)、ハンドヘルド機器、計算機器、車載機器、ウェアラブル機器などであってもよい。いくつかの可能な実現形態において、この方法は、プロセッサでメモリに記憶されるコンピュータ可読命令を呼び出す方式によって実現されてもよい。
図1に示すように、
ビデオデータストリームにおけるビデオフレームを検出し、前記ビデオフレームにおける目標領域を得て、前記目標領域は、前記ビデオデータストリームにおける異なるビデオフレームの一部の画素が全く同じである領域を表すためのものであるステップS101と、
前記ビデオデータストリームにおける、前記目標領域が存在する異常ビデオフレームを検索するステップS102と、
前記異常ビデオフレームに対応する検出パラメータが閾値に一致する場合、前記異常ビデオフレームを目標ビデオフレームとして確定するステップS103とを含む。
【0020】
S101~S103の一例において、ビデオデータストリームにおけるビデオフレームを検出することで、この目標領域を検索し、例えば、この目標領域は、偽造者によって人為的に編集された領域であってもよく、この偽造者によって人為的に編集された領域は、前記ビデオデータストリームにおける異なるビデオフレームの一部の画素が全く同じである領域である。この目標領域に基づいてビデオデータストリーム全体を整理する過程において、このビデオデータストリームにおける、前記目標領域が存在する異常ビデオフレームを検索することができる。このビデオデータストリームにおいて複数の異常ビデオフレームに対して演算を行うことで、異常ビデオフレームに対応する検出パラメータ、例えば、ビデオフレームシーケンスの画素が異常である画素異常率、または、さらに異なる画素異常率で構成される異常ビデオシーケンスを採点して得られたビデオ検出スコア値を得ることもでき、これによって、検出パラメータが閾値に一致する場合、前記異常ビデオフレームを目標ビデオフレームとして確定する。この閾値については、このビデオ検出スコア値に基づいてこの閾値を設定することで、この閾値に基づいてこのビデオデータストリームにおけるこの目標ビデオフレームの具体的な位置をより正確に位置決めることもできる。
【0021】
本開示を用いると、ビデオデータストリームにおけるビデオフレームを検出し、前記ビデオフレームにおける目標領域を得ることができ、前記目標領域は、前記ビデオデータストリームにおける異なるビデオフレームの一部の画素が全く同じである領域を表すためのものであり、前記ビデオデータストリームにおける、前記目標領域が存在する異常ビデオフレームを検索し、前記異常ビデオフレームに対応する検出パラメータが閾値に一致する場合、前記異常ビデオフレームを目標ビデオフレームとして確定する。「前記ビデオデータストリームにおける異なるビデオフレームの一部の画素が全く同じである領域」は人為的に編集される領域(または偽造領域と称される)であるため、このビデオフレームは異常であり、ビデオデータストリーム全体を検出することを必要とし、まずこのような目標領域(即ちこの人為的に編集される領域)を見つける。その後、この目標領域によってビデオデータストリーム全体を整理するによって、この目標領域が存在するビデオフレームを異常ビデオフレームとする。異常ビデオフレームの検出の正確性を考慮すると、さらに、この異常ビデオフレームに対応する検出パラメータが閾値に一致すると判断した場合、この異常ビデオフレームを最終的に、検出によって選別して得されたこの目標ビデオフレームとして確定する必要があり、それによって、ビデオデータストリームにおける人為的に編集された(または偽造されたと称される)異常ビデオフレームを正確に検出することができる。
【0022】
本開示の実施例によれば、ビデオ検出方法を提供し、
図2は本開示の実施例によるビデオ検出方法のフローチャートであり、
図2に示すように、
前記ビデオデータストリームにおける隣接する少なくとも2つのビデオフレームに対して、キー領域をそれぞれ抽出するステップS201と、
前記少なくとも2つのビデオフレームのそれぞれに対応するキー領域に対して画素点の特徴照合を行い、照合して得られた前記キー領域における、前記一部の全く同じ画素が存在する領域を、前記目標領域とするステップS202と、
前記ビデオデータストリームにおける、前記目標領域が存在する異常ビデオフレームを検索するステップS203と、
前記異常ビデオフレームに対応する検出パラメータが閾値に一致する場合、前記異常ビデオフレームを目標ビデオフレームとして確定するステップS204とを含む。
【0023】
S201~S204の一例において、ビデオデータストリームにおけるビデオフレームを検出することで、この目標領域を検索する。画像に基づいてビデオを駆動することは、偽造された顔、偽造された人物の肢体、偽造された動作などによって詐欺的な攻撃を実現すると考慮すると、応用シーンのニーズに応じて、すべての人体及び実行された動作を検出することではなく、顔、人物の肢体、偽造された動作(例えば指定されたジェスチャーなど)などをこのキー領域とすることができる。ここで、この目標領域は、偽造者によって人為的に編集された領域であってもよく、この偽造者によって人為的に編集された領域は、前記ビデオデータストリームにおける異なるビデオフレームの一部の画素が全く同じである領域である。このビデオデータストリームにおける、前記目標領域が存在する異常ビデオフレームを検索により見つけた後、このビデオデータストリームにおいて複数の異常ビデオフレームに対して演算を行うことで、異常ビデオフレームに対応する検出パラメータ、例えば、ビデオフレームシーケンスにおいて画素が異常である画素異常率、または、さらに異なる画素異常率で構成される異常ビデオシーケンスを採点して得られたビデオ検出スコア値を得ることもでき、これによって、検出パラメータが閾値に一致する場合、前記異常ビデオフレームを目標ビデオフレームとして確定する。この閾値については、このビデオ検出スコア値に基づいてこの閾値を設定することで、この閾値に基づいてこのビデオデータストリームにおけるこの目標ビデオフレームの具体的な位置をより正確に位置決めることもできる。本実施形態を用いて、このキー領域に対して検出を行うため、処理速度を向上させるだけでなく、検出の正確性をより高くする。
【0024】
1つの実施形態において、前記の、前記異常ビデオフレームに対応する検出パラメータが閾値に一致する場合、前記異常ビデオフレームを目標ビデオフレームとして確定することは、前記ビデオデータストリームにおいて前記異常ビデオフレームで構成される第1のビデオシーケンスに対して画素異常の演算を行い、同一スコア値を得ることと、前記同一スコア値に基づいて、前記異常ビデオフレームに対する画素異常率を得ることと、前記画素異常率を前記検出パラメータとして、前記検出パラメータが閾値に一致する場合、前記第1のビデオシーケンスに存在する異常ビデオフレームを目標ビデオフレームとして確定することとを含む。本実施形態を用いて、第1のビデオシーケンスに対して画素異常の演算を行うことで、同一スコア値を得ることができ、同一スコア値は、画素異常率を評価するための指標として、この同一スコア値に基づいて、前記異常ビデオフレームに対する画素異常率を得ることができ、それによって、画素異常率を検出パラメータとして、前記検出パラメータが閾値に一致する場合、前記第1のビデオシーケンスに存在する異常ビデオフレームを目標ビデオフレームとして確定する。換言すれば、画素異常率に基づいて、ビデオデータストリーム全体から第1のビデオシーケンスにおける異常ビデオフレームを選別し、最終的にこの第1のビデオシーケンスにおける異常ビデオフレームを目標ビデオフレームとして確定し、検出の正確性を向上させることができる。
【0025】
1つの実施形態において、前記の、前記異常ビデオフレームに対応する検出パラメータが閾値に一致する場合、前記異常ビデオフレームを目標ビデオフレームとして確定することは、前記ビデオデータストリームにおいて前記異常ビデオフレームで構成される第1のビデオシーケンスに対して画素異常の演算を行い、同一スコア値を得ることと、前記同一スコア値に基づいて、前記異常ビデオフレームに対する画素異常率を得ることと、前記第1のビデオシーケンスから異なる画素異常率で構成される第2のビデオシーケンスを選択し、それぞれ採点し、対応するビデオ検出スコア値を得ることと、前記ビデオ検出スコア値を前記検出パラメータとして、前記検出パラメータが閾値に一致する場合、前記第2のビデオシーケンスに存在する異常ビデオフレームを目標ビデオフレームとして確定することとを含む。本実施形態を用いて、第1のビデオシーケンスに対して画素異常の演算を行うことで、同一スコア値を得ることができ、同一スコア値は、画素異常率を評価するための指標として、この同一スコア値に基づいて、前記異常ビデオフレームに対する画素異常率を得ることができる。さらに、前記第1のビデオシーケンスから異なる画素異常率で構成される第2のビデオシーケンスを選択し、それぞれ採点し、対応するビデオ検出スコア値を得ることで、前記ビデオ検出スコア値を前記検出パラメータとして、前記検出パラメータが閾値に一致する場合、前記第2のビデオシーケンスに存在する異常ビデオフレームを目標ビデオフレームとして確定することもできる。換言すれば、画素異常率に基づいて、ビデオデータストリーム全体から第1のビデオシーケンスにおける異常ビデオフレームを選別し、前記第1のビデオシーケンスから異なる画素異常率で構成される第2のビデオシーケンスを選択し、それぞれ採点し、対応するビデオ検出スコア値を得た後、さらに、このビデオ検出スコア値に基づいて、第1のビデオシーケンスから第2のビデオシーケンスにおける、ビデオ検出スコア値が予想に一致する異常ビデオフレームを選別し、最終的に、この第2のビデオシーケンスにおけるビデオ検出スコア値が予想に一致する異常ビデオフレームを目標ビデオフレームとして確定し、検出の正確性を向上させることができる。
【0026】
1つの実施形態において、ビデオ検出スコア値に基づいて前記閾値を設定することをさらに含む。ここで、前記ビデオ検出スコア値は、異なる画素異常率で構成される第2のビデオシーケンスの第1のビデオシーケンスにおけるスコア値割合を含み、前記第1のビデオシーケンスは前記ビデオデータストリームにおける、前記異常ビデオフレームで構成される第1のビデオシーケンスである。閾値を設定する一例において、前記ビデオデータストリームにおける、前記異常ビデオフレームで構成される第1のビデオシーケンスに対して画素異常の演算を行い、同一スコア値を得て、この同一スコア値に基づいて、前記異常ビデオフレームに対する画素異常率を得て、前記第1のビデオシーケンスから異なる画素異常率で構成される第2のビデオシーケンスを選択し、それぞれ採点し、対応するビデオ検出スコア値を得ることによって、この前記異常ビデオフレームに対して演算して得られたこのビデオ検出スコア値に基づいてこの閾値を設定することができる。本実施形態を用いて、このビデオ検出スコア値に基づいて評価を行う過程において、異常ビデオの検出の正確性は、異常ビデオフレームの位置と関係なく、主に、採点されて異なる画素異常率を得た異常ビデオフレームのビデオデータストリーム全体における割合に依存し、それによって、検出の正確性を向上させる。
【0027】
1つの実施形態において、前記閾値に基づいて、前記目標ビデオフレームの前記ビデオデータストリームにおける位置を位置決めることをさらに含む。この閾値については、上記のビデオ検出スコア値に基づいて閾値を設定することで、この閾値に基づいてこのビデオデータストリームにおけるこの目標ビデオフレームの具体的な位置をより正確に位置決めることもできる。本実施形態を用いて、この閾値は上記のビデオ検出スコア値によって設定して得られたものであるため、この閾値自体は異常が存在する目標ビデオフレームを評価するために用いることができ、それによって、ニューラルネットワークのトレーニングに係る必要がなく、閾値に基づいてこの目標ビデオフレームの位置を直接的に推論することができる。これ以外、より正確にし、かつポジショニング効率を向上させるために、閾値に基づいて簡単にトレーニングして位置決めるためのニューラルネットワークを得て、位置決めるためのこのニューラルネットワークに基づいて、この目標ビデオフレームの位置をこのビデオデータストリームから位置決めることもでき、トレーニングに必要なデータが少ないため、ニューラルネットワークの複雑度を低減させる。
【0028】
適用例:
本開示の実施例を適用する処理フローには、以下の内容が含まれる。
【0029】
1.ビデオデータストリームを読み出し、複数のビデオフレームを得て、各ビデオフレームは1フレームの画像であり、複数のビデオフレームは画像ストリームX(i=1,2,…,n)を構成し、nが1よりも大きい正の整数で画像の数を表す。
【0030】
2.キー領域を検出し、画像キー領域検出器などのセンサを使用して各フレーム画像における関心領域(例えば顔領域、人物の肢体を含む人体領域、偽造動作を認識するためのものを含む動作領域など)検出することができ、これらの関心領域をこのキー領域として、画像流X(i=1,2,…,n)において、マークを付ける。。
【0031】
3.ハイパーパラメータのサンプリング間隔dを設定し、画像シーケンスS(j=1,2,…,n/d)を得て、nが1よりも大きい正の整数であり、画像の数を表し、画像シーケンスSは複数の画像シーケンスの総称である。
【0032】
4.各画像シーケンスを例として、各画像シーケンスを画像シーケンスSjと記し、少なくとも前後2枚の画像、即ちS1=(X1,X3)、S2=(X3,X5)、…、S(n/d)=(Xn-2,Xn)を含み、サンプリング間隔dの選択については、前後2枚の画像を例として、d=2を選択することができる。
【0033】
5.式(1)に基づいて画像シーケンスに対する画素異常率を計算し、
【0034】
【0035】
【数2】
は同一スコア値であり、この同一スコア値によって画像シーケンスにおけるビデオフレームに比較およびサンプリングをすることで、同一フレーム数を見つけることができる。
【0036】
指摘すべきことは、同一スコア値という指標は、画素異常率を評価するための1つの指標であり、本開示はこの指標に限定されず、画素異常率を評価できるための指標はいずれも、本出願の保護範囲内にあることである。
【0037】
6.R(k=1,2,…,n/d)で表される複数の画素異常率シーケンスを得る。ここで、nが1よりも大きい正の整数で画像の数を表し、dはサンプリング間隔である。
【0038】
7.複数の画素異常率シーケンスの評価について、複数の方式でビデオ検出スコア値を得ることができ、本適用例は以下のように式(2)または式(3)によってビデオ検出スコア値を計算し、ビデオ検出スコア値score∈(0,1)、ここで、scoreが0である場合、通常のビデオのラベルを表し、後続のビデオ検出スコア値に基づいて閾値を設定するトレーニング過程において、ある画像にこのラベルが付加されると、このビデオフレームは編集されておらず(または偽造されていないと呼ばれる)、「真」のオリジナルビデオフレームであると示し、scoreが1である場合、異常ビデオのラベルを表し、後続のビデオ検出スコア値に基づいて閾値を設定するトレーニング過程において、ある画像にこのラベルが付加されると、このビデオフレームは編集された(または偽造されたと呼ばれる)、「偽」の偽造ビデオであると示し、即ち、画像に基づいてビデオを駆動して得られたラベルはユーザに攻撃の可能性がある。
【0039】
【数3】
ここで、式(2)において、Rは複数の画素異常率シーケンスであり、ポリシーは、異なる応用シーンの検出ニーズに応じて指向的に設定することができ、scoreはビデオ検出スコア値である。scoreに基づいて閾値を設定し、例えば、このscoreを閾値とすることもでき、それによって、ポリシーに基づいて異常ビデオのある位置を直接的に位置決めることができる。
【0040】
ここで、式(3)において、Rは複数の画素異常率シーケンスであり、bは予め設定されたパラメータであり、このパラメータは、異なる応用シーンの検出ニーズに応じて指向的に設定することができ、wは重みであり、scoreはビデオ検出スコア値であり、複数の画素異常率シーケンスの分布に基づいて、式(2)のように予め設定されたポリシーだけで採点することではなく、ビデオをより正確に採点するために、式(3)のLogistic回帰原理(Logistic回帰プロセスにおいて、トレーニングセットと検証セットを作成する方法でトレーニングすることで、実際の応用シーン推理のためのwパラメータを得ることができる)によって特徴抽出器を設計することができる。指摘すべきことは、Logistic回帰を採用することは、ビデオデータストリームに対して手動で設計された畳み込みカーネルを実行し、さらに畳み込みの複雑な操作を行うことと等価であることができる。scoreに基づいて閾値を設定することもでき、例えば、このscoreを閾値とすることによって、トレーニングにより得られたニューラルネットワークの方式によって異常ビデオのある位置を位置決める。
【0041】
本適用例を用いると、ビデオフレームが偽造された、編集されたとすると、「異なるフレーム画面に一部の画素が完全に同じであるという状況が存在する」ことが存在すると考えられるので、検出すべき領域を合理的に選択し、ビデオ全体を整理することで、このような編集跡を見つけ出すことができ、ビデオフレームの「真」または「偽」を判断することによって、ビデオデータストリーム全体における異常ビデオ位置を迅速に位置決めることができる。計算しやすく、ビジョンプロセッサ(GPU、Graphics Processing Unit)を必要とせず、計算の複雑度が低く、迅速であり、精度が高く、解釈可能性が強く、異常ビデオの位置を直接的に位置決めることができ、閾値を設定することで直接的に推論することができ、トレーニングが必要ないか、トレーニングに必要なデータが少ない。また、上記の式によってビデオの任意シーケンスにおける編集された領域の大きさを計算し、ビデオレベルの判断根拠として、複雑な畳み込みニューラルネットワークを設計する必要もなく、ポリシーに基づいてまたは簡単にトレーニングして得られたscoreによって、閾値を設定し、それによって、最小のコストで、最速の演算で良い検出効果を達成することができる。
【0042】
本開示の実施形態によれば、ビデオ検出装置を提供し、
図3は、本開示の実施例によるビデオ検出装置の構成構造の概略図であり、
図3に示すように、ビデオ検出装置300は、ビデオデータストリームにおけるビデオフレームを検出し、前記ビデオフレームにおける目標領域を得て、前記目標領域は、前記ビデオデータストリームにおける異なるビデオフレームの一部の画素が全く同じである領域を表すためのものであるための目標領域検出モジュール301と、前記ビデオデータストリームにおける、前記目標領域が存在する異常ビデオフレームを検索するための異常ビデオ検索モジュール302と、前記異常ビデオフレームに対応する検出パラメータが閾値に一致する場合、前記異常ビデオフレームを目標ビデオフレームとして確定するための目標ビデオ確定モジュール303とを含む。
【0043】
本開示の実施形態によれば、ビデオ検出装置を提供し、
図4は、本開示の実施例によるビデオ検出装置の構成構造の概略図であり、
図4に示すように、ビデオ検出装置400は、ビデオデータストリームにおけるビデオフレームを検出し、前記ビデオフレームにおける目標領域を得て、前記目標領域は、前記ビデオデータストリームにおける異なるビデオフレームの一部の画素が全く同じである領域を表すためのものであるための目標領域検出モジュール401であって、前記ビデオデータストリームにおける隣接する少なくとも2つのビデオフレームに対して、キー領域をそれぞれ抽出するためのキー領域抽出サブモジュール4011と、前記少なくとも2つのビデオフレームにそれぞれに対応するキー領域を画素点の特徴照合を行い、照合して得られた前記キー領域における前記一部の画素が全く同じである領域を、前記目標領域とするための照合サブモジュール4012とをさらに含む目標領域検出モジュール401と、前記ビデオデータストリームにおける、前記目標領域が存在する異常ビデオフレームを検索するための異常ビデオ検索モジュール402と、前記異常ビデオフレームに対応する検出パラメータが閾値に一致する場合、前記異常ビデオフレームを目標ビデオフレームとして確定するための目標ビデオ確定モジュール403とを含む。
【0044】
1つの実施形態において、前記目標ビデオ確定モジュールは、前記ビデオデータストリームにおける前記異常ビデオフレームで構成される第1のビデオシーケンスに対して画素異常の演算を行い、同一スコア値を得て、前記同一スコア値に基づいて、前記異常ビデオフレームに対する画素異常率を得て、前記画素異常率を前記検出パラメータとして、前記検出パラメータが閾値に一致する場合、前記第1のビデオシーケンスに存在する異常ビデオフレームを目標ビデオフレームとして確定するために用いられる。
【0045】
1つの実施形態において、前記目標ビデオ確定モジュールは、前記ビデオデータストリームにおける前記異常ビデオフレームで構成される第1のビデオシーケンスに対して画素異常の演算を行い、同一スコア値を得て、前記同一スコア値に基づいて、前記異常ビデオフレームに対する画素異常率を得て、前記第1のビデオシーケンスから異なる画素異常率で構成される第2のビデオシーケンスを選択し、それぞれ採点し、対応するビデオ検出スコア値を得て、前記ビデオ検出スコア値を前記検出パラメータとして、前記検出パラメータが閾値に一致する場合、前記第2のビデオシーケンスに存在する異常ビデオフレームを目標ビデオフレームとして確定するために用いられる。
【0046】
1つの実施形態において、ビデオ検出スコア値に基づいて前記閾値を設定するための閾値設定モジュールをさらに含み、ここで、前記ビデオ検出スコア値は、異なる画素異常率で構成される第2のビデオシーケンスの第1のビデオシーケンスにおけるスコア値割合を含み、前記第1のビデオシーケンスは前記ビデオデータストリームにおける前記異常ビデオフレームで構成される第1のビデオシーケンスである。
【0047】
1つの実施形態において、前記閾値に基づいて、前記目標ビデオフレームの前記ビデオデータストリームにおける位置を位置決めるための位置決めモジュールをさらに含む。
【0048】
本開示の実施例の各装置における各モジュールの機能は、上記の方法における対応説明を参照することができ、ここでは説明を省略する。
【0049】
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。
【0050】
図5は本発明の実施例によるビデオ検出方法を実現するための電子機器のブロック図である。この電子機器は、前記配備機器またはエージェント機器であってもよい。電子機器は、様々な形態のデジタル電子コンピュータ機器、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示すことを目的とする。電子機器はさらに、様々な形態の移動装置、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブル機器とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び/又は請求した本開示の実現を制限しない。
【0051】
図5に示すように、電子機器500は、計算ユニット501を含み、それはリードオンリーメモリ(ROM)502に記憶されるコンピュータプログラムまた記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされるコンピュータプログラムによって、種々の適当な操作と処理を実行することができる。RAM 503において、更に電子機器500を操作するために必要な様々なプログラムとデータを記憶してよい。計算ユニット501、ROM 502およびRAM 503はバス504によって互いに接続される。入力/出力(I/O)インターフェース505もバス504に接続される。
【0052】
電子機器500における複数の部品はI/Oインターフェース505に接続され、例えばキーボード、マウスなどの入力ユニット506と、例えば様々なタイプのディスプレイ、スピーカーなどの出力ユニット507と、例えば磁気ディスク、光ディスクなどの記憶ユニット508と、例えばネットワークカード、モデム、無線通信送受信機などの通信ユニット509とを含む。通信ユニット509は、電子機器500が例えばインターネットなどのコンピュータネットワークおよび/又は様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
【0053】
計算ユニット501は処理及びコンピューティング能力を有する様々な汎用及び/又は専用の処理アセンブリであってもよい。計算ユニット501のいくつかの例として、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ(DSP)、及び任意の適当なプロセッサ、コントローラ、マイクロコントローラなどを含んでもよいが、これらに限定されない。計算ユニット501は上記内容で説明した各方法と処理、例えばビデオ検出方法を実行する。例えば、いくつかの実施例において、ビデオ検出方法はコンピュータソフトウェアプログラムとして実現してよく、機械読み取り可能な媒体、例えば、記憶ユニット508に有形に含まれる。いくつかの実施例において、コンピュータプログラムの一部の又は全てはROM 502及び/又は通信ユニット509を経して電子機器500にロード及び/又はインストールされてよい。コンピュータプログラムがRAM 503にロードされて計算ユニット501によって実行される時、以上で説明されるビデオ検出方法の1つ又は複数のステップを実行することができる。代替的に、別の実施例において、計算ユニット501は他のいかなる適切な方式で(例えば、ファームウェアにより)ビデオ検出方法を実行するように構成されてよい。
【0054】
本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムに実施され、この一つ又は複数のコンピュータプログラムは少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び/又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、少なくとも一つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも一つの入力装置、この少なくとも一つの出力装置に送信してよいこと、を含んでもよい。
【0055】
本開示の方法を実施するプログラムコードは一つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、プログラムコードはプロセッサ又はコントローラにより実行される時にフローチャート及び/又はブロック図に規定の機能/操作は実施される。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
【0056】
本開示の文脈において、機械読み取り可能な媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械読み取り可能な媒体は機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。
【0057】
ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)、及びキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置はさらに、ユーザとのインタラクティブを提供するためのものであってもよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
【0058】
ここで述べたシステムや技術は、バックステージ部品を含む計算システム(例えば、データサーバとして)や、ミドルウェア部品を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部品を含む計算システム(例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクティブを実現できる)、あるいは、それらのバックステージ部品、ミドルウェア部品、あるいはフロントエンド部品の任意の組み合わせからなる計算システムには実施されてもよい。システムの部品は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)とインターネットを含む。
【0059】
コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアントとサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント-サーバという関係を有するコンピュータプログラムを対応するコンピュータで実行することによってクライアントとサーバとの関係を生成しする。
【0060】
理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよい。本開示に開示された技術案が所望する結果を実現できれば、本明細書はこれに限定されない。
【0061】
上述した具体的な実施形態は、本開示の保護範囲に対する限定を構成するものではない。当業者であれば、設計要求及び他の要因に応じて、各種の修正、コンビネーション、サブコンビネーション及び代替を行うことができると理解すべきである。本開示の趣旨及び原則内になされた任意の修正、同等置換及び改良などは、いずれも本開示の保護範囲に含まれるべきである。
【国際調査報告】