IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7164588映像タイプの検出方法、装置、電子機器、記憶媒体及びコンピュータプログラム
<>
  • 特許-映像タイプの検出方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図1
  • 特許-映像タイプの検出方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図2
  • 特許-映像タイプの検出方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図3
  • 特許-映像タイプの検出方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図4
  • 特許-映像タイプの検出方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図5
  • 特許-映像タイプの検出方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-24
(45)【発行日】2022-11-01
(54)【発明の名称】映像タイプの検出方法、装置、電子機器、記憶媒体及びコンピュータプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20221025BHJP
   G06V 20/40 20220101ALI20221025BHJP
【FI】
G06T7/00 350B
G06V20/40
【請求項の数】 21
(21)【出願番号】P 2020212520
(22)【出願日】2020-12-22
(65)【公開番号】P2021064385
(43)【公開日】2021-04-22
【審査請求日】2020-12-22
(31)【優先権主張番号】202010617343.8
(32)【優先日】2020-06-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100108833
【弁理士】
【氏名又は名称】早川 裕司
(74)【代理人】
【識別番号】100162156
【弁理士】
【氏名又は名称】村雨 圭介
(72)【発明者】
【氏名】戴兵
(72)【発明者】
【氏名】叶▲シ▼
(72)【発明者】
【氏名】李揚曦
【審査官】岡本 俊威
(56)【参考文献】
【文献】中国特許出願公開第111090776(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00- 7/90
G06V 20/40
(57)【特許請求の範囲】
【請求項1】
第1映像のN個のキーフレームを取得し、ただし、前記Nは1より大きい整数であり、前記第1映像のタイプは検出対象であることと、
前記N個のキーフレームの各々をそれぞれ第1映像タイプに対応するM個のアルゴリズムモデルに入力して、前記N個のキーフレームの各々に対応するM個の信頼度スコアを取得し、但し、前記Mは1より大きい整数であり、前記M個の信頼度スコアの各々について、キーフレームの信頼度スコアは、該キーフレームのタイプが第1映像タイプに対応する可能性を表すために用いられ、前記M個のアルゴリズムモデルは、分類アルゴリズムモデル、特徴識別アルゴリズムモデル及び特徴人物アルゴリズムモデルを含むことと、
前記N個のキーフレームのN×M個の信頼度スコアに基づいて、融合戦略アルゴリズムモデルにより前記第1映像の信頼度スコアを決定することと、
前記第1映像の信頼度スコアと前記第1映像タイプに対応する信頼度スコアの閾値とを比較して、前記第1映像のタイプが第1映像タイプであるか否かを決定することと、を含む映像タイプの検出方法。
【請求項2】
複数の第2映像に基づいて、前記第1映像タイプに対応する信頼度スコアの閾値を決定し、ただし、前記第2映像のタイプは第1映像タイプであることをさらに含む請求項1に記載の映像タイプの検出方法。
【請求項3】
前記複数の第2映像に基づいて前記第1映像タイプに対応する信頼度スコアの閾値を決定することは、
各前記第2映像のN個のキーフレームを取得することと、
各前記第2映像のN個のキーフレームをそれぞれ第1映像タイプに対応するM個のアルゴリズムモデルに入力して、各前記第2映像のN個のキーフレームの各々に対応するM個の信頼度スコアを取得することと、
各前記第2映像及びそれに対応するN×M個の信頼度スコアをそれぞれ前記融合戦略アルゴリズムモデルに入力して訓練及び検証して、前記第1映像タイプに対応する信頼度スコアの閾値を決定することと、を含む請求項2に記載の映像タイプの検出方法。
【請求項4】
前記融合戦略アルゴリズムモデルは、極端な勾配ブースティング(XGBOOST)分類器を用いて訓練及び検証を行う請求項3に記載の映像タイプの検出方法。
【請求項5】
前記第1映像のN個のキーフレームを取得することは、
前記第1映像に対して等間隔サンプリングを行って、前記N個のキーフレームを抽出することを含む請求項1に記載の映像タイプの検出方法。
【請求項6】
前記第1映像に対して等間隔サンプリングを行うことは、
2秒の間隔で前記第1映像に対して等間隔サンプリングを行う請求項5に記載の映像タイプの検出方法。
【請求項7】
前記M個のアルゴリズムモデルに、対応する重みを割り当てることをさらに含み、
前記N個のキーフレームのN×M個の信頼度スコアに基づいて、前記融合戦略アルゴリズムモデルにより前記第1映像の信頼度スコアを決定することは、
前記N個のキーフレームのN×M個の信頼度スコア及び前記M個のアルゴリズムモデルに対応する重みに基づいて、前記第1映像の信頼度スコアを決定することを含む請求項1に記載の映像タイプの検出方法。
【請求項8】
前記分類アルゴリズムモデルは、粗分類アルゴリズムモデルと細分類アルゴリズムモデルとを含む請求項に記載の方法。
【請求項9】
前記第1映像タイプは、テロ攻撃映像タイプ、政治関連映像タイプ、不法映像タイプのうちの1つを含む請求項1に記載の映像タイプの検出方法。
【請求項10】
第1映像のN個のキーフレームを取得するために用いられ、ただし、前記Nは1より大きい整数であり、前記第1映像のタイプは検出対象である第1取得モジュールと、
前記N個のキーフレームの各々をそれぞれ第1映像タイプに対応するM個のアルゴリズムモデルに入力して、前記N個のキーフレームの各々に対応するM個の信頼度スコアを取得するために用いられ、ただし、前記Mは1より大きい整数であり、前記M個の信頼度スコアの各々について、キーフレームの信頼度スコアは、該キーフレームのタイプが第1映像タイプに対応する可能性を表すために用いられ、前記M個のアルゴリズムモデルは、分類アルゴリズムモデル、特徴識別アルゴリズムモデル及び特徴人物アルゴリズムモデルを含む第2取得モジュールと、
前記N個のキーフレームのN×M個の信頼度スコアに基づいて、融合戦略アルゴリズムモデルにより前記第1映像の信頼度スコアを決定するための決定モジュールと、
前記第1映像の信頼度スコアと前記第1映像タイプに対応する信頼度スコアの閾値とを比較して、前記第1映像のタイプが第1映像タイプであるか否かを決定するための比較モジュールと、を含む映像タイプの検出装置。
【請求項11】
前記第2取得モジュールは、さらに、
複数の第2映像に基づいて、前記第1映像タイプに対応する信頼度スコアの閾値を決定するために用いられ、ただし、前記第2映像のタイプは第1映像タイプである請求項10に記載の映像タイプの検出装置。
【請求項12】
前記第1取得モジュールは、さらに、各前記第2映像のN個のキーフレームを取得するために用いられ、
前記第2取得モジュールは、さらに、各前記第2映像のN個のキーフレームをそれぞれ第1映像タイプに対応するM個のアルゴリズムモデルに入力して、各前記第2映像のN個のキーフレームの各々に対応するM個の信頼度スコアを取得するために用いられ、
前記決定モジュールは、さらに、各前記第2映像及びそれに対応するN×M個の信頼度スコアをそれぞれ前記融合戦略アルゴリズムモデルに入力して訓練及び検証して、前記第1映像タイプに対応する信頼度スコアの閾値を決定するために用いられる請求項11に記載の映像タイプの検出装置。
【請求項13】
前記融合戦略アルゴリズムモデルは、極端な勾配ブースティング(XGBOOST)分類器を用いて訓練及び検証を行う請求項12に記載の映像タイプの検出装置。
【請求項14】
前記第1取得モジュールは、
前記第1映像に対して等間隔サンプリングを行って、前記N個のキーフレームを抽出するために用いられる請求項10に記載の映像タイプの検出装置。
【請求項15】
前記第1取得モジュールは、
2秒の間隔で前記第1映像に対して等間隔サンプリングを行うために用いられる請求項14に記載の映像タイプの検出装置。
【請求項16】
前記決定モジュールは、
前記M個のアルゴリズムモデルに、対応する重みを割り当て、
前記N個のキーフレームのN×M個の信頼度スコア及び前記M個のアルゴリズムモデルに対応する重みに基づいて、前記融合戦略アルゴリズムモデルにより前記第1映像の信頼度スコアを決定するために用いられる請求項10に記載の映像タイプの検出装置。
【請求項17】
前記分類アルゴリズムモデルは、粗分類アルゴリズムモデルと細分類アルゴリズムモデルとを含む請求項10に記載の映像タイプの検出装置。
【請求項18】
前記第1映像タイプは、テロ攻撃映像タイプ、政治関連映像タイプ、不法映像タイプのうちの1つを含む請求項10に記載の映像タイプの検出装置。
【請求項19】
少なくとも1つのブロセッサと、
前記少なくとも1つのブロセッサと通信接続するメモリとを含み、ただし、
前記メモリには、前記少なくとも1つのブロセッサによって実行される命令が記憶され、前記命令は、前記少なくとも1つのブロセッサが請求項1~のいずれか1項に記載の映像タイプの検出方法を実行できるように、少なくとも1つのブロセッサによって実行される電子機器。
【請求項20】
コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項1~のいずれか1項に記載の映像タイプの検出方法を実行させるために用いられる非一時的なコンピュータ可読記憶媒体。
【請求項21】
コンピュータに請求項1~のいずれか1項に記載の映像タイプの検出方法を実行させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施例は、コンピュータ技術分野におけるコンピュータビジョンの分野に関し、特に、映像タイプの検出方法、装置、電子機器及び記憶媒体に関する。
【背景技術】
【0002】
インターネットの継続的な発展に伴って、ますます多くの映像がインターネット上で流通するようになっているが、同時にセキュリティリスクも存在し、例えば、一部のテロリストがテロ攻撃映像をインターネットにアップロードして宣伝するため、社会の安定に大きな被害を及ぼしやすい。したがって、大量の映像からセンシティブな映像を分類、選別して、安全なネットワーク環境を構築する必要がある。
【発明の概要】
【課題を解決するための手段】
【0003】
本発明は、映像タイプの検出方法、装置、電子機器及び記憶媒体を提供する。
【0004】
本発明の第1態様によれば、映像タイプの検出方法を提供し、当該方法は、第1映像のN個のキーフレームを取得し、ただし、前記Nは1より大きい整数であり、第1映像のタイプは検出対象であることと、前記N個のキーフレームの各々をそれぞれ第1映像タイプに対応するM個のアルゴリズムモデルに入力して、前記N個のキーフレームの各々に対応するM個の信頼度スコアを取得し、但し、前記Mは1より大きい整数であることと、前記N個のキーフレームのN×M個の信頼度スコアに基づいて、融合戦略アルゴリズムモデルにより前記第1映像の信頼度スコアを決定することと、前記第1映像の信頼度スコアと前記第1映像タイプに対応する信頼度スコアの閾値とを比較して、前記第1映像のタイプが第1映像タイプであるか否かを決定することとを含む。
【0005】
本発明の第2態様によれば、映像タイプの検出装置を提供し、当該装置は、第1映像のN個のキーフレームを取得するために用いられ、ただし、前記Nは1より大きい整数であり、第1映像のタイプは検出対象である第1取得モジュールと、前記N個のキーフレームの各々をそれぞれ第1映像タイプに対応するM個のアルゴリズムモデルに入力して、前記N個のキーフレームの各々に対応するM個の信頼度スコアを取得するために用いられ、但し、前記Mは1より大きい整数である第2取得モジュールと、前記N個のキーフレームのN×M個の信頼度スコアに基づいて、融合戦略アルゴリズムモデルにより前記第1映像の信頼度スコアを決定するための決定モジュールと、前記第1映像の信頼度スコアと前記第1映像タイプに対応する信頼度スコアの閾値とを比較して、前記第1映像のタイプが第1映像タイプであるか否かを決定するための比較モジュールと、を含む。
【0006】
本発明の第3態様によれば、電子機器を提供し、当該電子機器は、少なくとも1つのブロセッサと、前記少なくとも1つのブロセッサと通信接続するメモリとを含み、ただし、前記メモリには、前記少なくとも1つのブロセッサによって実行される命令が記憶され、前記命令は、前記少なくとも1つのブロセッサが上記の本発明の第1態様に記載の方法などを実行できるように、前記少なくとも1つのブロセッサによって実行される。
【0007】
本発明の第4態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の本発明の第1態様に記載の方法などを実行させるために用いられる。
【発明の効果】
【0008】
本発明による技術は、映像タイプを検出する際に誤判断が発生しやすいという従来技術の問題を解決し、映像タイプの検出精度を向上させる。
【0009】
本明細書にて説明する内容は、本発明の実施例の主要な又は重要な特徴を特定することを意図せず、本発明の範囲を制限するものでもないことを理解されたい。本発明の他の特徴は、以下の明細書によってより容易に理解できる。
【図面の簡単な説明】
【0010】
添付図面は、本発明の技術的特徴をより良く理解するためのものであり、本発明の内容を限定するものではない。
【0011】
図1】本発明の実施例にて提供される映像タイプの検出方法を適用したシーンの概略図である。
図2】本発明の実施例にて提供される映像タイプの検出方法の概略フローチャートである。
図3】本発明の別の実施例にて提供される映像タイプの検出方法の概略フローチャートである。
図4】本発明のまた別の実施例にて提供される映像タイプの検出方法の実施例の概略フローチャートである。
図5】本発明の実施例にて提供される映像タイプの検出装置のモジュール構造図である。
図6】本発明の実施例の映像タイプの検出方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0012】
以下、添付図面を参照しながら、本発明の例示的な実施例について説明する。ただし、理解を容易にするために本発明の実施例の様々な詳細が含まれているが、それらをただの例示的なものと見なすべきである。したがって、当業者は、本発明の範囲及び精神から逸脱せず、ここで説明した実施例に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、明確かつ簡潔にするために、以下の説明では公知の機能及び構造に対する説明を省略した。
【0013】
インターネットの継続的な発展に伴って、ますます多い映像がインターネット上で流通するようになっているが、同時にセキュリティリスクも存在し、例えば、一部のテロリストが、一部の悪質映像、図1に示すような政治関連内容、テロ攻撃内容、不法内容などの映像を、インターネット上で流通させ、特定の宣伝効果を達成するため、社会の安定に大きな被害を及ぼしやすい。したがって、大量の映像から当該タイプの映像を分類・選別して、安全なネットワーク環境を構築する必要がある。通常、これらの悪質映像、例えばテロ攻撃映像は、一般に特定のロゴ(logo)や、例えば旗、殺人、血まみれ、爆発、暴動、テロリストなどの1つ又は複数の要素を含む。
【0014】
従来技術において、テロ攻撃映像の検出を例とすると、通常、所与の映像について、先に当該映像からキーフレームを抽出して、一連の画像を得てから、テロ攻撃分類モデルを用いて各フレームの画像がテロ攻撃画像であるか否かを分類し、logo検出モデルを用いて各フレームの画像のテロ攻撃logo及び旗を検出して、各フレームがテロ攻撃要素を含むか否かの結果を得る。テロ攻撃映像戦略方案は、固定の閾値を1つ設定し、当該映像のうちキーフレームについて、テロ攻撃分類モデル又はlogo検出モデルを用いて検出した、テロ攻撃要素を含む結果の回数が特定の分類閾値を超えると、当該映像のタイプはテロ攻撃タイプであると判定する。しかし、当該方法を使用すると、短時間映像又は他のノイズ映像(例えば戦争映画、軍事映画など)に対しては、誤判断が発生しやすく、精度が高くない。そして、当該閾値は通常手動で設定するため、合理的な閾値を1つ得るために手動でパラメーターを調整するのに大量な時間を必要とし、効率が低いという問題が存在する。
【0015】
上記の問題を考慮して、本発明は、コンピュータ技術分野のコンピュータビジョン処理分野に適用される映像タイプの検出方法、装置、電子機器及び記憶媒体を提供し、タイプが検出対象である映像からキーフレームを抽出し、キーフレームを検出対象であるタイプに対応する全てのアルゴリズムモデル(例えば、M個)に入力することにより、キーフレームの信頼度スコアを決定し、キーフレームの信頼度スコアに基づいて、融合戦略アルゴリズムモデルによりタイプが検出対象である映像の信頼度スコアを決定し、それにより検出対象であるタイプの映像の信頼度スコアと、ある1つの映像タイプに対応する信頼度スコアとの閾値を比較して、当該映像のタイプが当該映像タイプであるか否かを決定し、それにより映像タイプの検出精度を向上させる。
【0016】
本発明の実施例にて提供される映像タイプの検出方法は、悪質映像がインターネットにアップロードされることを禁止するために、インターネット上に広まっている悪質映像(例えばテロ攻撃映像、不法映像など)の検出に適用されてもよく、映像がネットワークにアップロードされる前にそのタイプを検出することに適用されてもよい。
【0017】
図2は、本発明の実施例にて提供される映像タイプの検出方法の概略フローチャートであり、図2に示すように、当該方法は以下のステップS201~S204を含む。
【0018】
ステップS201:第1映像のN個のキーフレームを取得する。ただし、Nは1より大きい整数であり、第1映像のタイプは検出対象である。
【0019】
いくつかの実施例において、早送り動画専門家グループ(fast forward moving picture experts group、FFMPEG)を用いて、入力された第1映像に対してフレーム抽出を行うことにより、第1映像のN個のキーフレームを取得することができる。一実施例において、FFMPEGを用いて第1映像に対して等間隔フレーム抽出を行ってよく、必要に応じて当該間隔の時間を調整でき、例えば2sの間隔で第1映像に対して等間隔でフレーム抽出を行ってもよい。一実施例において、Nの選択に対しては、必要に応じて特定することができ、例えば100としてもよい。100個のキーフレームを抽出するまで、2sの間隔で第1映像に対して等間隔でフレーム抽出を行い、第1映像が短く、抽出したフレームが100個にならない場合、残りのフレームは0で埋めることができる。例えば、2sの間隔で第1映像に対してフレーム抽出を行い、50個のフレームしか抽出していない場合、残りの50個のフレームは0で埋める。
【0020】
ステップS202:N個のキーフレームの各々をそれぞれ第1映像タイプに対応するM個のアルゴリズムモデルに入力して、¥N個のキーフレームの各々に対応するM個の信頼度スコアを取得する。Mは1より大きい整数である。
【0021】
一実施例において、当該第1映像タイプは、テロ攻撃映像タイプ、政治関連映像タイプ、不法映像タイプのうちの1つを含み得るが、これらに限定されない。M個のアルゴリズムモデルは、分類アルゴリズムモデル、特徴識別アルゴリズムモデル及び特徴人物アルゴリズムモデルを含み得、一実施例において、分類アルゴリズムモデルは粗分類アルゴリズムモデル及び細分類アルゴリズムモデルを含み得る。第1映像タイプがテロ攻撃映像タイプであることを例に挙げると、M個のアルゴリズムモデルは、テロ攻撃粗分類アルゴリズムモデル、テロ攻撃細分類アルゴリズムモデル、テロ攻撃特徴識別アルゴリズムモデル及びテロ攻撃特徴人物アルゴリズムモデルの4つのアルゴリズムモデルを含み得、それに対応して、各々のキーフレームを、それぞれテロ攻撃粗分類アルゴリズムモデル、テロ攻撃細分類アルゴリズムモデル、テロ攻撃特徴識別アルゴリズムモデル及びテロ攻撃特徴人物アルゴリズムモデルに入力して、4つの信頼度スコアを取得できる。
【0022】
いくつかの実施例において、各キーフレームを、各アルゴリズムモデルにて処理及び正規化して、[0,1]の間にある信頼度スコアを1つ取得できる。例えば、キーフレームをテロ攻撃粗分類アルゴリズムモデルに通過させて、得られた信頼度スコアは[0.6,0.4]であり、ただし、0.6は正常のスコアで、0.4はテロ攻撃のスコアであり、1-正常のスコア=1-0.6=0.4を当該画像のテロ攻撃粗分類の信頼度スコアとする。テロ攻撃のスコアが高いほど、当該キーフレームがテロ攻撃である可能性が高いことを意味する。他のアルゴリズムモデルに対しても同様に、テロ攻撃細分類アルゴリズムモデルにて得られた信頼度スコアが高いほど、当該キーフレームがテロ攻撃の要素(例えば、血まみれ、爆発、火災など)を含む可能性が高いことを意味し、テロ攻撃特徴識別アルゴリズムモデルにて得られた信頼度スコアが高いほど、当該キーフレームがテロ攻撃のロゴ(例えば、旗など)を含む可能性が高いことを意味し、テロ攻撃特徴人物アルゴリズムモデルにて得られた信頼度スコアが高いほど、当該キーフレームがテロリストを含む可能性が高いことを意味する。
【0023】
ステップS203:N個のキーフレームのN×M個の信頼度スコアに基づいて、融合戦略アルゴリズムモデルにより第1映像の信頼度スコアを決定する。
【0024】
一実施例においては、ステップS202で取得した各キーフレームのM個の信頼度スコア、即ちN×M個の信頼度スコアを融合戦略アルゴリズムモデルに通過させて、第1映像の信頼度スコアを決定する。一実施例において、融合戦略アルゴリズムモデルは、極端な勾配ブースティング(XGBOOST)分類器を用いて、第1映像の信頼度スコアを決定できる。
【0025】
一実施例においては、さらに、M個のアルゴリズムモデルのために対応する重みを割り当てることができ、それに対応して、ステップS203では、N個のキーフレームのN×M個の信頼度スコア及びM個のアルゴリズムモデルに対応する重みに基づいて、第1映像の信頼度スコアを決定することを含む。
【0026】
各アルゴリズムモデルに異なる重みを割り当てること、例えば、特徴識別アルゴリズムモデル、特徴人物アルゴリズムモデルなどに高い重みを割り当てることにより、映像タイプの検出精度をさらに向上させる。
【0027】
ステップS204:第1映像の信頼度スコアと第1映像タイプに対応する信頼度スコアの閾値とを比較して、第1映像のタイプが第1映像タイプであるか否かを決定する。
【0028】
一実施例において、第1映像の信頼度スコアが第1映像タイプに対応する信頼度スコアの閾値より高い場合、第1映像のタイプが第1映像タイプである可能性が高いことを意味し、第1映像のタイプが第1映像タイプであると決定できる。例えば、第1映像タイプがテロ攻撃映像タイプである場合、第1映像がテロ攻撃映像であると決定できる。他のタイプの映像について、その決定方法も同様であり、ここでは詳細な説明を省略する。
【0029】
図3は、本発明の別の実施例にて提供される映像タイプの検出方法の概略フローチャートであり、図3に示すように、当該方法は、ステップS301からステップS305を含み得る。
【0030】
ステップS301:複数の第2映像に基づいて、第1映像タイプに対応する信頼度スコアの閾値を決定する。ただし、第2映像のタイプは第1映像タイプである。
【0031】
一実施例において、ステップS301は、各第2映像のN個のキーフレームを取得することと、
各第2映像のN個のキーフレームをそれぞれ第1映像タイプに対応するM個のアルゴリズムモデルに入力して、各第2映像のN個のキーフレームの各々に対応するM個の信頼度スコアを取得することと、
各第2映像及びそれに対応するN×M個の信頼度スコアをそれぞれ融合戦略アルゴリズムモデルに入力して訓練及び検証することで、第1映像タイプに対応する信頼度スコアの閾値を決定することと、を含み得る。
【0032】
各第2映像に対して、その信頼度スコアを決定する方法は、第1映像の信頼度スコアを決定する方法と同様であり、の関連ステップを参照すればよく、ここでは詳細な説明を省略する。
【0033】
一実施例において、第1映像タイプに対応する信頼度スコアの閾値は、第1映像タイプであると知っている複数の第2映像をマークすることにより訓練することができ、各第2映像のキーフレームをNとし、各キーフレームの信頼度スコアをM個とし、各々の第2映像のN個のキーフレームに対応する信頼度スコアの長さをN×Mに固定し、各々の第2映像及びそれに対応するN×M個の信頼度スコアをそれぞれ融合戦略アルゴリズムモデルに入力して訓練及び検証して、第1映像タイプに対応する信頼度スコアの閾値を決定することができる。一実施例において、融合戦略アルゴリズムモデルは、分類器としてXGBOOSTを用いることができ、パラメーター自動調整メカニズムを用いて、1つの第2映像が一行の特徴(N×M個の信頼度スコア)であると言うデータ入力形式に従って、複数の第2映像を複数の行に渡って入力し、訓練及び検証を行って、機械が第1映像タイプ(例えばテロ攻撃映像タイプ)と判定された信頼度スコアの閾値を自動的に学習するようにする。
【0034】
分類器としてXGBOOSTを用いることにより、映像タイプの判定に対応する信頼度スコアの閾値の自動的な学習を実現でき、手動でのパラメーターを調整することを回避し、映像タイプの検出効率の向上に役立つ。
【0035】
図4は、本発明のまた別の実施例にて提供される映像タイプの検出方法実施例の概略フローチャートであり、図4に示すように、当該方法は、ステップS401~ステップS405を含み、その中に、ステップS4031~ステップS4034を含む。
【0036】
ステップS401:タイプが検出対象である映像を入力する。
【0037】
ステップS402:ステップ401で入力された映像からキーフレームを抽出する。
【0038】
ステップS4031:抽出されたキーフレームを粗分類アルゴリズムモデルに入力して、キーフレームの第1信頼度スコアを決定する。
【0039】
ステップS4032:抽出されたキーフレームを細分類アルゴリズムモデルに入力して、キーフレームの第2信頼度スコアを決定する。
【0040】
ステップS4033:抽出されたキーフレームを特徴識別アルゴリズムモデルに入力して、キーフレームの第3信頼度スコアを決定する。
【0041】
ステップS4034:抽出されたキーフレームを特徴人物アルゴリズムモデルに入力して、キーフレームの第4信頼度スコアを決定する。
【0042】
ステップS404:第1信頼度スコア、第2信頼度スコア、第3信頼度スコア及び第4信頼度スコアを融合戦略アルゴリズムモデルに入力して、タイプが検出対象である映像の信頼度スコアを決定してから、タイプが検出対象である映像の信頼度スコアを対応する閾値と比較する。
【0043】
ステップS405:タイプが検出対象である映像の信頼度スコアと対応する閾値との比較結果に基づいて、検出結果を出力する。
【0044】
具体的な実現プロセスは、前述方法の実施例の関連するステップの実現方法を参照でき、ここでは詳細な説明を省略する。
【0045】
図5は、本発明の実施例にて提供される映像タイプの検出装置のモジュール構造図である。図5に示すように、当該映像タイプの検出装置500は、第1取得モジュール501、第2取得モジュール502、決定モジュール503及び比較モジュール504を含み得る。
【0046】
第1取得モジュール501は、第1映像のN個のキーフレームを取得するために用いられ、ただし、Nは1より大きい整数であり、第1映像のタイプは検出対象である。
【0047】
第2取得モジュール502は、N個のキーフレームの各々をそれぞれ第1映像タイプに対応するM個のアルゴリズムモデルに入力して、N個のキーフレームの各々に対応するM個の信頼度スコアを取得するために用いられ、Mは1より大きい整数である。
【0048】
決定モジュール503は、N個のキーフレームのN×M個の信頼度スコアに基づいて、融合戦略アルゴリズムモデルにより第1映像の信頼度スコアを決定するために用いられる。
【0049】
比較モジュール504は、第1映像の信頼度スコアと第1映像タイプに対応する信頼度スコアの閾値とを比較して、第1映像のタイプが第1映像タイプであるか否かを決定するために用いられる。
【0050】
第2取得モジュール502は、さらに、複数の第2映像に基づいて、第1映像タイプに対応する信頼度スコアの閾値を決定するために用いられ、ただし、第2映像のタイプは第1映像タイプである。
【0051】
第1取得モジュール501は、さらに、各第2映像のN個のキーフレームを取得するために用いられる。
【0052】
第2取得モジュール502は、さらに、各第2映像のN個のキーフレームをそれぞれ第1映像タイプに対応するM個のアルゴリズムモデルに入力して、各第2映像のN個のキーフレームの各々に対応するM個の信頼度スコアを取得するために用いられる。
【0053】
決定モジュール503は、さらに、各第2映像及びそれに対応するN×M個の信頼度スコアをそれぞれ融合戦略アルゴリズムモデルに入力して訓練及び検証して、第1映像タイプに対応する信頼度スコアの閾値を決定するために用いられる。
【0054】
一実施例において、融合戦略アルゴリズムモデルは、極端な勾配ブースティングXGBOOST分類器を用いて訓練及び検証を行う。
【0055】
一実施例において、第1取得モジュール501は、第1映像に対して等間隔サンプリングを行って、N個のキーフレームを抽出するために用いられる。
【0056】
一実施例において、第1取得モジュール501は、2秒の間隔で第1映像に対して等間隔サンプリングを行うために用いられる。
【0057】
一実施例において、決定モジュール503は、M個のアルゴリズムモデルに、対応する重みを割り当て、N個のキーフレームのN×M個の信頼度スコア及びM個のアルゴリズムモデルに対応する重みに基づいて、融合戦略アルゴリズムモデルにより第1映像の信頼度スコアを決定するために用いられる。
【0058】
一実施例において、M個のアルゴリズムモデルは、分類アルゴリズムモデル、特徴識別アルゴリズムモデル及び特徴人物アルゴリズムモデルを含む。
【0059】
一実施例において、分類アルゴリズムモデルは、粗分類アルゴリズムモデル及び細分類アルゴリズムモデルを含む。
【0060】
一実施例において、第1映像タイプは、テロ攻撃映像タイプ、政治関連映像タイプ、不法映像タイプのうちの1つを含む。
【0061】
本発明の実施例にて提供される映像タイプの検出装置は、その実現原理と技術的効果が前述の方法の実施例と同様であり、具体的な説明は省略する。
【0062】
本発明の実施例によれば、本発明は、電子機器及び可読記憶媒体をさらに提供する。
【0063】
図6に示すように、本発明の実施例による映像タイプの検出方法の電子機器のブロック図である。電子機器は、例えばラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適当なコンピュータなどの様々な形式のデジタルコンピュータを表すことを意図している。電子機器は、さらに、例えばパーソナルデジタルアシスタント、セルラーホン、スマートホン、ウェアラブル装置及び他の類似する計算装置などの様々な形式の携帯装置を表し得る。本明細書に示す部材、それらの接続及び関係、それらの機能は、単なる例示であり、本明細書に説明及び/又は主張する本発明の実現を制限することを意図していない。
【0064】
図6に示すように、当該電子機器は、1つ又は複数のブロセッサ601と、メモリ602と、高速インターフェース及び低速インターフェースを含む、各部材を接続させるインターフェースとを含む。各部材は、異なるバスを利用して互いに接続され、共通のメインボードに取り付けられてもよく、必要に応じて他の方法で取り付けられてもよい。ブロセッサは、メモリ内又はメモリ上に記憶されて外部入出力装置(例えば、インターフェースに結合された表示装置)にGUIのグラフィック情報を表示させる命令を含む、電子機器内で実行される命令を処理することができる。他の実施形態において、必要に応じて、複数のブロセッサ及び/又は複数本のバスと複数のメモリとを一緒に使用してもよい。同様に、複数の電子機器を接続してもよく、各々の装置は一部の必要な操作を提供する(例えば、サーバアレイ、ブレードサーバ群、又はマルチプロセッサシステムとして)。図6は、1つのブロセッサ601を例に挙げている。
【0065】
メモリ602は、本発明にて提供される非一時的なコンピュータ可読記憶媒体である。ここで、メモリには、本発明にて提供される映像タイプの検出方法を少なくとも1つのブロセッサに実行させるように、少なくとも1つのブロセッサによって実行可能な命令が記憶されている。本発明の非一時的なコンピュータ可読記憶媒体には、本発明にて提供される映像タイプの検出方法をコンピュータに実行させるためのコンピュータ命令が記憶されている。
【0066】
メモリ602は、非一時的なコンピュータ可読記憶媒体として、例えば本発明の実施例の映像タイプの検出方法に対応するプログラム命令/モジュール(例えば、図5に示す第1取得モジュール501、第2取得モジュール502、決定モジュール503及び比較モジュール504)など、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールを記憶するために用いることが可能である。ブロセッサ601は、メモリ602に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例の映像タイプの検出方法を実現する。
【0067】
メモリ602は、オペレーティングシステム及び少なくとも1つの機能に必要なアプリケーションプログラムを記憶することが可能なプログラム記憶領域と、映像タイプの検出方法に用いられる電子機器の使用に応じて作成されたデータなどを記憶することが可能なデータ記憶領域とを含んでもよい。また、メモリ602は、高速ランダムアクセスメモリを含んでもよく、非一時的なメモリを含んでもよく、例えば少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートメモリデバイスがある。一部の実施例において、メモリ602は、選択的に、ブロセッサ601に対して遠隔に設置されたメモリを含んでもよく、これらの遠隔メモリはネットワークを介して映像タイプの検出に用いられる電子機器に接続できる。上記ネットワークは、実例としてインターネット、企業のイントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。
【0068】
映像タイプの検出方法に用いられる電子機器は、さらに、入力装置603及び出力装置604を含む。ブロセッサ601、メモリ602、入力装置603及び出力装置604は、バス又は他の方法を介して接続されてもよく、図6では、バスを介して接続されることを例に挙げている。
【0069】
入力装置603は、入力された数字や文字情報を受信でき、且つ映像タイプの検出方法に用いられる電子機器のユーザ設定及び機能制御に関するキー信号の入力を発生し、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパネル、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティック等の入力装置がある。出力装置604は表示装置、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)などを含み得る。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含み得るが、これらに限定されない。一部の実施形態において、表示装置はタッチスクリーンであってもよい。
【0070】
本明細書で説明するシステム及び技法の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせによって実現されることができる。これらの様々な実施形態は、少なくとも1つのプログラマブルブロセッサを含むプログラマブルシステム上で実行及び/又は解釈され得る1つ又は複数のコンピュータプログラムで実施され、当該プログラマブルブロセッサは、特定用途向け又は汎用のプログラマブルブロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信するとともに、データ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
【0071】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルブロセッサの機械語命令を含み、ハイレベルプロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ/機械語を利用してこれらのコンピュータプログラムを実施してもよい。本明細書に使用されているように、用語「機械可読媒体」及び「コンピュータ可読媒体」とは、機械語命令及び/又はデータをプログラマブルブロセッサに提供するための如何なるコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を言い、機械可読信号としての機械語命令を受信する機械可読媒体を含む。用語「機械可読信号」とは、機械語命令及び/又はデータをプログラマブルブロセッサに提供するための如何なる信号を言う。
【0072】
ユーザとのインターアクションを提供するために、コンピュータ上で本明細書に説明したシステム及び技術を実施でき、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニター)と、キーボード及びポインティングデバイス(例えば、マウスやトラックボールなど)とを有し、ユーザは当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインターアクションを提供するために用いることができ、例えば、ユーザに提供されるフィードバックは、如何なる形式の感覚フィードバック(例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、如何なる形式(音響入力、音声入力又は触覚入力を含む)でユーザからの入力を受信してもよい。
【0073】
本明細書に説明したシステム及び技術を、バックグラウンド部材を含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェア部材を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部材を含むコンピューティングシステム(例えば、グラフィカルユーザーインターフェイス又はWebブラウザーを有するユーザコンピュータ、ユーザは当該グラフィカルユーザーインターフェイス又は当該Webブラウザーを介して本明細書に説明したシステム及び技術の実施形態とインターアクションできる)、又はこのようなバックグラウンド部材、ミドルウェア部材、又はフロントエンド部材を含む任意の組み合わせのコンピューティングシステムで実施され得る。システムの部材は、如何なる形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して互いに接続できる。通信ネットワークの例として、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)及びインターネットを含む。
【0074】
コンピュータシステムは、クライアント及びサーバを含み得る。クライアント及びサーバは、一般に、互いに離れていて、且つ通常通信ネットワークを介してインターアクションする。クライアントとサーバとの関係は、対応するコンピュータ上で実行されるとともに互いにクライアント―サーバ関係を有するコンピュータプログラムによって生成される。
【0075】
本発明の実施例による技術的解決手段は、タイプが検出対象である映像からキーフレームを抽出するとともに、キーフレームを検出対象であるタイプに対応するすべてのアルゴリズムモデル(例えば粗分類アルゴリズムモデル、細分類アルゴリズムモデル、特徴識別アルゴリズムモデル及び特徴人物アルゴリズムモデル)にて処理して、キーフレームの信頼度スコアを決定し、且つキーフレームの信頼度スコアに基づいて、融合戦略アルゴリズムモデルによりタイプが検出対象である映像の信頼度スコアを決定し、さらに、タイプが検出対象である信頼度スコアを1つの映像タイプに対応する信頼度スコアの閾値と比較して、当該映像のタイプが当該映像タイプであるか否かを決定でき、それにより映像タイプの検出精度を向上せる。
【0076】
なお、上記に示した様々な形式のフローを使用して、ステップを並び替え、増加又は削除してもよい。例えば、本発明に開示される技術的解決手段の望ましい結果が実現される限り、本発明に記載の各ステップを同時に実行しても、順番に実行しても、異なる順序で実行してもよく、本明細書では限定しない。
【0077】
上記の具体的な実施形態は、本発明の保護範囲を限定するものではない。当業者は、設計要件及び他の要因に従って、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができることを理解すべきである。本発明の精神及び原理の範囲内で行われるあらゆる修正、同価置換、改良などは、いずれも本発明の保護範囲に含まれるべきである。
図1
図2
図3
図4
図5
図6