IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

<>
  • 特許-動画ブレの検出方法及び装置 図1
  • 特許-動画ブレの検出方法及び装置 図2
  • 特許-動画ブレの検出方法及び装置 図3
  • 特許-動画ブレの検出方法及び装置 図4
  • 特許-動画ブレの検出方法及び装置 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-05-24
(45)【発行日】2022-06-01
(54)【発明の名称】動画ブレの検出方法及び装置
(51)【国際特許分類】
   G06T 7/20 20170101AFI20220525BHJP
   G06T 7/00 20170101ALI20220525BHJP
   H04N 5/232 20060101ALI20220525BHJP
【FI】
G06T7/20
G06T7/00 350B
H04N5/232 480
【請求項の数】 14
(21)【出願番号】P 2020134860
(22)【出願日】2020-08-07
(65)【公開番号】P2021089711
(43)【公開日】2021-06-10
【審査請求日】2020-08-07
(31)【優先権主張番号】201911310784.7
(32)【優先日】2019-12-18
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110002952
【氏名又は名称】特許業務法人鷲田国際特許事務所
(72)【発明者】
【氏名】ユイ ティエンバオ
(72)【発明者】
【氏名】トン ティエンション
(72)【発明者】
【氏名】トゥ ポン
(72)【発明者】
【氏名】ユン ティン
【審査官】伊知地 和之
(56)【参考文献】
【文献】国際公開第2015/025704(WO,A1)
【文献】特開2017-098637(JP,A)
【文献】特開2019-003585(JP,A)
【文献】特開2019-152964(JP,A)
【文献】特開2016-143351(JP,A)
【文献】米国特許出願公開第2011/0193978(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
H04N 5/222 - 5/257
(57)【特許請求の範囲】
【請求項1】
動画を取得することと、
前記動画を検出モデルに入力し、前記動画のブレの程度を示すための前記動画の評価値を得ることと、を含み、
前記検出モデルは動画サンプルセット中の動画サンプルを入力とし、前記動画サンプルセット中の動画サンプルの評価値を出力として、トレーニングして得られたモデルであり、
前記動画サンプルセットは第1のサブセット及び第2のサブセットを含み、前記第1のサブセットに含まれる動画サンプルに評価値が付けられており、前記第2のサブセットに含まれる動画サンプルに評価値が付けられていないことを特徴とする、動画ブレの検出方法。
【請求項2】
前記動画を検出モデルに入力する前に、さらに、
前記動画の時間の長さを取得することと、
前記時間の長さがプリセット時間の長さより大きければ、前記動画から、時間の長さが前記プリセット時間の長さに等しい第1の動画を取得することと、を含み、
前記動画を検出モデルに入力することは、
前記第1の動画を検出モデルに入力することを含むことを特徴とする、請求項1に記載の動画ブレの検出方法。
【請求項3】
前記動画から第1の動画を取得することは、
前記動画の開始時刻から、前記動画から前記第1の動画を取得すること、又は
前記動画から複数の短い動画を取得し、前記複数の短い動画の間に時間間隔が置かれ、前記複数の短い動画を接続した後に、前記第1の動画とすることを含むことを特徴とする、請求項2に記載の動画ブレの検出方法。
【請求項4】
記動画を検出モデルに入力する前に、さらに、
前記検出モデルをトレーニングすることを含み、
前記検出モデルをトレーニングすることは、
前記第1のサブセット中の動画サンプルを入力とし、前記第1のサブセット中の動画サンプルの評価値を出力として、トレーニングして第1のモデルを得ることと、
前記第2のサブセット中の動画サンプルを前記第1のモデルに入力し、前記第2のサブセット中の動画サンプルの評価値を得ることと、
前記第2のサブセット中の評価値が第1の数値より大きい動画サンプルに対して評価値の人工補正を行うことにより、補正後の第2のサブセットを取得することであって、前記補正後の第2のサブセット中の動画サンプルに評価値が付けられている、取得することと、
前記第1のサブセット中の動画サンプル及び前記補正後の第2のサブセット中の動画サンプルを入力とし、前記第1のサブセット中の動画サンプル及び前記補正後の第2のサブセット中の動画サンプルにそれぞれ対応する評価値を出力として、トレーニングして前記検出モデルを得ることと、を含むことを特徴とする、請求項1から請求項3のいずれか一項に記載の動画ブレの検出方法。
【請求項5】
評価値が付けられていない複数の動画サンプルを含む第3のサブセットを取得することと、
前記第3のサブセット中の動画サンプルを前記検出モデルに入力し、前記第3のサブセット中の動画サンプルの評価値を得ることと、
前記第3のサブセットから、前記検出モデルにより得られた評価値が第2の数値より大きく、且つ評価値の人工補正により得られた評価値が前記第2の数値より小さい第3の数値より小さい動画サンプルである校正サンプルを取得することと、
前記第1のサブセット中の動画サンプル、前記補正後の第2のサブセット中の動画サンプル及び前記校正サンプルを入力とし、前記第1のサブセット中の動画サンプル、前記補正後の第2のサブセット中の動画サンプル及び前記校正サンプルにそれぞれ対応する評価値を出力として、前記検出モデルをトレーニングすることにより前記検出モデルを補正することと、をさらに含むことを特徴とする、請求項4に記載の動画ブレの検出方法。
【請求項6】
前記第1のサブセットに含まれる動画サンプルの数は前記第2のサブセットに含まれる動画サンプルの数より小さいことを特徴とする、請求項4に記載の動画ブレの検出方法。
【請求項7】
動画を取得するための取得モジュールと、
前記動画を検出モデルに入力し、前記動画のブレの程度を示すための前記動画の評価値を得るための検出モジュールと、を含み、
前記検出モデルは動画サンプルセット中の動画サンプルを入力とし、前記動画サンプルセット中の動画サンプルの評価値を出力として、トレーニングして得られたモデルであり、
前記動画サンプルセットは第1のサブセット及び第2のサブセットを含み、前記第1のサブセットに含まれる動画サンプルに評価値が付けられており、前記第2のサブセットに含まれる動画サンプルに評価値が付けられていないことを特徴とする、動画ブレの検出装置。
【請求項8】
前記取得モジュールはさらに、
前記動画の時間の長さを取得し、
前記時間の長さがプリセット時間の長さより大きければ、前記動画から、時間の長さが前記プリセット時間の長さに等しい第1の動画を取得するために用いられ、
前記検出モジュールは、前記第1の動画を検出モデルに入力するために用いられることを特徴とする、請求項7に記載の動画ブレの検出装置。
【請求項9】
前記取得モジュールは、
前記動画の開始時刻から、前記動画から前記第1の動画を取得するか、又は
前記動画から複数の短い動画を取得し、前記複数の短い動画の間に時間間隔が置かれ、前記複数の短い動画を接続した後に、前記第1の動画とするために用いられることを特徴とする、請求項8に記載の動画ブレの検出装置。
【請求項10】
レーニングモジュールをさらに含み、前記トレーニングモジュールは、
前記第1のサブセット中の動画サンプルを入力とし、前記第1のサブセット中の動画サンプルの評価値を出力として、トレーニングして第1のモデルを得て、
前記第2のサブセット中の動画サンプルを前記第1のモデルに入力し、前記第2のサブセット中の動画サンプルの評価値を得て、
前記第2のサブセット中の評価値が第1の数値より大きい動画サンプルに対して評価値の人工補正を行うことにより、補正後の第2のサブセットを取得し、前記補正後の第2のサブセット中の動画サンプルに評価値が付けられており、
前記第1のサブセット中の動画サンプル及び前記補正後の第2のサブセット中の動画サンプルを入力とし、前記第1のサブセット中の動画サンプル及び前記補正後の第2のサブセット中の動画サンプルにそれぞれ対応する評価値を出力として、トレーニングして前記検出モデルを得るために用いられることを特徴とする、請求項7から請求項9のいずれか一項に記載の動画ブレの検出装置。
【請求項11】
前記トレーニングモジュールはさらに、
評価値が付けられていない複数の動画サンプルを含む第3のサブセットを取得し、
前記第3のサブセット中の動画サンプルを前記検出モデルに入力し、前記第3のサブセット中の動画サンプルの評価値を得て、
前記第3のサブセットから、前記検出モデルにより得られた評価値が第2の数値より大きく、且つ評価値の人工補正により得られた評価値が前記第2の数値より小さい第3の数値より小さい動画サンプルである校正サンプルを取得し、
前記第1のサブセット中の動画サンプル、前記補正後の第2のサブセット中の動画サンプル及び前記校正サンプルを入力とし、前記第1のサブセット中の動画サンプル、前記補正後の第2のサブセット中の動画サンプル及び前記校正サンプルにそれぞれ対応する評価値を出力として、前記検出モデルをトレーニングすることにより前記検出モデルを補正するために用いられることを特徴とする、請求項10に記載の動画ブレの検出装置。
【請求項12】
前記第1のサブセットに含まれる動画サンプルの数は前記第2のサブセットに含まれる動画サンプルの数より小さいことを特徴とする、請求項10に記載の動画ブレの検出装置。
【請求項13】
メモリと、プロセッサとを含み、
前記メモリは、プログラムコマンドを記憶するために用いられ、
前記プロセッサは、前記メモリに記憶された前記プログラムコマンドを呼び出して請求項1から請求項6のいずれか一項に記載の動画ブレの検出方法を実施するために用いられることを特徴とする、動画ブレの検出装置。
【請求項14】
可読記憶媒体と、コンピュータプログラムとを含み、前記コンピュータプログラムは請求項1から請求項6のいずれか一項に記載の動画ブレの検出方法を実施するために用いられることを特徴とする、コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理技術の分野に関し、特に、動画ブレの検出方法及び装置に関する。
【背景技術】
【0002】
近年、情報取得、レクリエーションの方式が徐々に変化しており、動画関連製品に対するニーズが急速に伸びている。動画において画面ブレの現象があれば、動画を見るユーザに悪い体験を与えることがある。
【0003】
動画ブレの検出方法には、通常、画像変位に基づくオプティカルフローの方法、特徴点のマッチングの方法及び画像の濃淡レベルの度数分布の特徴に基づく動画ブレの検出方法がある。動画ブレで画面がある程度で揺れるので、画像変位に基づくオプティカルフローの方法は、画像フレーム間のオプティカルフローにより画面の移動方向を識別することで、動画ブレがあるか否かを検出する。特徴点のマッチングの方法は、特徴点のマッチングアルゴリズムを用いて画像における物体の移動方向を識別することで、動画ブレがあるか否かを検出する。画像の濃淡レベルの度数分布の特徴に基づく動画ブレの検出方法は、行の濃淡レベルの度数の期待値と二乗偏差及び列の濃淡レベルの度数の期待値と二乗偏差を取得することにより、行方向及び列方向においてそれぞれ仮説検定を行うことで、動画ブレがあるか否かを検出する。
【0004】
上記の方法はいずれも画像処理技術を用いて動画に対して検出を行うもので、演算が複雑であり、正確率が低く、ロバスト性が悪い。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、動画ブレの検出の正確率及びロバスト性を向上させる動画ブレの検出方法及び装置を提供する。
【課題を解決するための手段】
【0006】
本発明の第1の態様の実施例にて提供される動画ブレの検出方法は、
動画を取得することと、
前記動画を検出モデルに入力し、前記動画のブレの程度を示すための前記動画の評価値を得ることと、を含み、前記検出モデルは動画サンプルセット中の動画サンプルを入力とし、前記動画サンプルセット中の動画サンプルの評価値を出力として、トレーニングして得られたモデルである。
【0007】
好ましくは、前記動画を検出モデルに入力する前に、さらに、
前記動画の時間の長さを取得することと、
前記時間の長さがプリセット時間の長さより大きければ、前記動画から、時間の長さが前記プリセット時間の長さに等しい第1の動画を取得することと、を含み、
前記動画を検出モデルに入力することは、
前記第1の動画を検出モデルに入力することを含む。
【0008】
好ましくは、前記動画から第1の動画を取得することは、
前記動画の開始時刻から、前記動画から前記第1の動画を取得すること、又は
前記動画から複数の短い動画を取得し、前記複数の短い動画の間に時間間隔が置かれ、前記複数の短い動画を接続した後に、前記第1の動画とすることを含む。
【0009】
好ましくは、前記動画サンプルセットは第1のサブセット及び第2のサブセットを含み、前記第1のサブセットに含まれる動画サンプルに評価値が付けられており、前記第2のサブセットに含まれる動画サンプルに評価値が付けられておらず、
前記動画を検出モデルに入力する前に、さらに、
前記検出モデルをトレーニングすることを含み、
前記検出モデルをトレーニングすることは、
前記第1のサブセット中の動画サンプルを入力とし、前記第1のサブセット中の動画サンプルの評価値を出力として、トレーニングして第1のモデルを得ることと、
前記第2のサブセット中の動画サンプルを前記第1のモデルに入力し、前記第2のサブセット中の動画サンプルの評価値を得ることと、
前記第2のサブセット中の評価値が第1の数値より大きい動画サンプルに対して評価値の人工補正を行うことにより、補正後の第2のサブセットを取得することであって、前記補正後の第2のサブセット中の動画サンプルに評価値が付けられている、取得することと、
前記第1のサブセット中の動画サンプル及び前記補正後の第2のサブセット中の動画サンプルを入力とし、前記第1のサブセット中の動画サンプル及び前記補正後の第2のサブセット中の動画サンプルにそれぞれ対応する評価値を出力として、トレーニングして前記検出モデルを得ることと、を含む。
【0010】
好ましくは、評価値が付けられていない複数の動画サンプルを含む第3のサブセットを取得することと、
前記第3のサブセット中の動画サンプルを前記検出モデルに入力し、前記第3のサブセット中の動画サンプルの評価値を得ることと、
前記第3のサブセットから、前記検出モデルにより得られた評価値が第2の数値より大きく、且つ評価値の人工補正により得られた評価値が前記第2の数値より小さい第3の数値より小さい動画サンプルである校正サンプルを取得することと、
前記第1のサブセット中の動画サンプル、前記補正後の第2のサブセット中の動画サンプル及び前記校正サンプルを入力とし、前記第1のサブセット中の動画サンプル、前記補正後の第2のサブセット中の動画サンプル及び前記校正サンプルにそれぞれ対応する評価値を出力として、前記検出モデルをトレーニングすることにより前記検出モデルを補正することとをさらに含む。
【0011】
好ましくは、前記第1のサブセットに含まれる動画サンプルの数は前記第2のサブセットに含まれる動画サンプルの数より小さい。
【0012】
本発明の第2の態様の実施例にて提供される動画ブレの検出装置は、
動画を取得するための取得モジュールと、
前記動画を検出モデルに入力し、前記動画のブレの程度を示すための前記動画の評価値を得るための検出モジュールと、を含み、前記検出モデルは動画サンプルセット中の動画サンプルを入力とし、前記動画サンプルセット中の動画サンプルの評価値を出力として、トレーニングして得られたモデルである。
【0013】
好ましくは、前記取得モジュールはさらに、
前記動画の時間の長さを取得し、
前記時間の長さがプリセット時間の長さより大きければ、前記動画から、時間の長さが前記プリセット時間の長さに等しい第1の動画を取得するために用いられ、
前記検出モジュールは、具体的に、前記第1の動画を検出モデルに入力するために用いられる。
【0014】
好ましくは、前記取得モジュールは、具体的に、
前記動画の開始時刻から、前記動画から前記第1の動画を取得するか、又は
前記動画から複数の短い動画を取得し、前記複数の短い動画の間に時間間隔が置かれ、前記複数の短い動画を接続した後に、前記第1の動画とするために用いられる。
【0015】
好ましくは、前記動画サンプルセットは第1のサブセット及び第2のサブセットを含み、前記第1のサブセットに含まれる動画サンプルに評価値が付けられており、前記第2のサブセットに含まれる動画サンプルに評価値が付けられておらず、
トレーニングモジュールをさらに含み、前記トレーニングモジュールは、
前記第1のサブセット中の動画サンプルを入力とし、前記第1のサブセット中の動画サンプルの評価値を出力として、トレーニングして第1のモデルを得て、
前記第2のサブセット中の動画サンプルを前記第1のモデルに入力し、前記第2のサブセット中の動画サンプルの評価値を得て、
前記第2のサブセット中の評価値が第1の数値より大きい動画サンプルに対して評価値の人工補正を行うことにより、補正後の第2のサブセットを取得し、前記補正後の第2のサブセット中の動画サンプルに評価値が付けられており、
前記第1のサブセット中の動画サンプル及び前記補正後の第2のサブセット中の動画サンプルを入力とし、前記第1のサブセット中の動画サンプル及び前記補正後の第2のサブセット中の動画サンプルにそれぞれ対応する評価値を出力として、トレーニングして前記検出モデルを得るために用いられる。
【0016】
好ましくは、前記トレーニングモジュールはさらに、
評価値が付けられていない複数の動画サンプルを含む第3のサブセットを取得し、
前記第3のサブセット中の動画サンプルを前記検出モデルに入力し、前記第3のサブセット中の動画サンプルの評価値を得て、
前記第3のサブセットから、前記検出モデルにより得られた評価値が第2の数値より大きく、且つ評価値の人工補正により得られた評価値が前記第2の数値より小さい第3の数値より小さい動画サンプルである校正サンプルを取得し、
前記第1のサブセット中の動画サンプル、前記補正後の第2のサブセット中の動画サンプル及び前記校正サンプルを入力とし、前記第1のサブセット中の動画サンプル、前記補正後の第2のサブセット中の動画サンプル及び前記校正サンプルにそれぞれ対応する評価値を出力として、前記検出モデルをトレーニングすることにより前記検出モデルを補正するために用いられる。
【0017】
好ましくは、前記第1のサブセットに含まれる動画サンプルの数は前記第2のサブセットに含まれる動画サンプルの数より小さい。
【0018】
本発明の第3の態様の実施例にて提供される動画ブレの検出装置は、メモリと、プロセッサとを含み、
前記メモリは、プログラムコマンドを記憶するために用いられ、
前記プロセッサは、前記メモリに記憶された前記プログラムコマンドを呼び出して本発明の第1の態様のいずれかの実施形態にて提供される方法を実施するために用いられる。
【0019】
本発明の第4の態様の実施例にて提供されるコンピュータ可読記憶媒体は、可読記憶媒体と、コンピュータプログラムとを含み、前記コンピュータプログラムは、本発明の第1の態様のいずれかの実施形態にて提供される方法を実施するために用いられる。
【0020】
本発明の第5の態様の実施例にて提供されるプログラム製品は、可読記憶媒体に記憶されたコンピュータプログラム(即ち、実行コマンド)を含む。プロセッサは可読記憶媒体から当該コンピュータプログラムを読み取ることができ、プロセッサは、本発明の第1の態様のいずれかの実施形態にて提供される方法を実施するために、当該コンピュータプログラムを実行する。
【発明の効果】
【0021】
本発明は、動画ブレの検出方法及び装置を提供し、検出対象である動画を検出モデルに入力し、検出モデルにより動画の評価値を得ることができ、それにより、動画ブレがあるか否かを確定する。検出モデルは大量のサンプルに基づいてトレーニングされたモデルであるため、本発明にて提供される動画ブレの検出方法は、適用場面がより広く、動画ブレの検出の正確率及びロバスト性を向上させる。
【図面の簡単な説明】
【0022】
本発明の実施例又は従来技術における技術的解決手段をより明確に説明するために、以下、実施例又は従来技術の説明に用いる必要がある図面について簡単に紹介する。当然ながら、以下の説明における図面は、本発明のいくつかの実施例であり、当業者であれば、創造的な労力を要せず、これらの図面に基づいて他の図面を得ることができる。
図1】本発明の実施例にて提供される動画ブレの検出方法のフローチャートである。
図2】本発明の実施例にて提供される動画ブレの検出方法の別のフローチャートである。
図3】本発明の実施例にて提供される動画ブレの検出装置の構造模式図である。
図4】本発明の実施例にて提供される動画ブレの検出装置の別の構造模式図である。
図5】本発明の実施例にて提供される本発明の実施例を実現するための例示的なコンピュータシステム/サーバの構造模式図である。
【発明を実施するための形態】
【0023】
本発明の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本発明の実施例における図面を用いて、本発明の実施例における技術的解決手段について、明確で完全に説明する。当然ながら、説明される実施例は、本発明の実施例の一部であり、実施例の全部ではない。本発明における実施例に基づき、当業者が創造的な労力を要せずに得る他の実施例は、すべて本発明の保護範囲に属する。
【0024】
本発明の明細書及び図面における「第1」、「第2」、「第3」、「第4」などの用語(あれば)は、類似の対象を区別するものであり、一定の順序又は前後の順を説明するものではない。このように用いられる用語は、ここで説明される本発明の実施例がここで図示又は説明される順序以外の順序で実施できるように、適当に交換してもよいことが理解される。また、用語の「含む」、「有する」及びこれらの任意の変形は、排他的でない包含を含めることを意図するものであり、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、明らかに挙げられたステップ又はユニットに限定されず、明らかに挙げられないか、又はこれらのプロセス、方法、製品又は機器に対して固有の他のステップ又はユニットを含んでもよい。
【0025】
以下、具体的な実施例を用いて本発明の技術的解決手段について詳細に説明する。以下のようないくつかの具体的な実施例は互いに結び合ってもよく、同じ若しくは類似の概念又はプロセスについて、いくつかの実施例において重複する説明は省略することがある。
【0026】
図1は本発明の実施例にて提供される動画ブレの検出方法のフローチャートである。本実施例にて提供される動画ブレの検出方法は、実行主体を動画ブレの検出装置としてもよい。図1に示すように、本実施例にて提供される動画ブレの検出方法は、S101とS102とを含んでもよい。
【0027】
S101、動画を取得する。
【0028】
S102、動画を検出モデルに入力し、動画のブレの程度を示すための動画の評価値を得る。
【0029】
ただし、検出モデルは動画サンプルセット中の動画サンプルを入力とし、動画サンプルセット中の動画サンプルの評価値を出力として、トレーニングして得られたモデルである。
【0030】
具体的には、検出対象である動画を取得し、検出モデルにより、エンドツーエンドで検出対象である動画に対応する評価値を得て、さらに、動画の評価値に基づいて動画にブレの現象があるか否かを確定することができる。検出モデルは、大量の動画サンプルを入力とし、各動画サンプルに対応する評価値を出力として、トレーニングして得られたエンドツーエンドのモデルであるため、動画に動画ブレがあるか否か、動画ブレがある場合における動画ブレの程度について、良好な判定効果があり、従来技術における画像処理技術に基づいて動画にブレがあるか否かを検出することに比べて、演算の複雑さを低下させ、各種の動画の検出に適用でき、適用範囲を拡大し、動画ブレの検出の正確率及びロバスト性を向上させる。
【0031】
なお、本実施例は、取得する動画の大きさ、ファイルフォーマット、動画の長さなどについて限定しない。
【0032】
なお、本実施例は評価値の実現について限定しない。好ましくは、評価値は有限個の離散値を含んでもよい。例を挙げて説明する。評価値は、ブレ無しと、ブレありとを含んでもよい。評価値は、ブレ無しと、軽微なブレありと、ひどいブレありとを含んでもよい。評価値は、0と、1とを含んでもよく、ここで、0はブレ無しを表し、1はブレありを表す。評価値は、0と、1と、2とを含んでもよく、ここで、0はブレ無しを表し、1は軽微なブレありを表し、2はひどいブレありを表す。好ましくは、評価値を連続する範囲における数値としてもよい。例を挙げて説明する。評価値の値の範囲を0以上、且つ100以下としてもよい。評価値の値が大きいほど、動画がよりぶれることが説明される。例えば、評価値が80である動画は、評価値が60である動画よりもブレがひどい。又は、評価値の値が小さいほど、動画がよりぶれることが説明される。本実施例は評価値の値の範囲について限定せず、例えば、評価値の値の範囲を0以上、且つ1以下としてもよい。好ましくは、評価値に一定の値の範囲を有する場合、プリセット数値を設定してもよい。当該プリセット数値は、動画ブレがあるか否かを確定するために用いられる。例えば、評価値の値の範囲が0以上、且つ1以下であり、評価値の値が大きいほど、動画がよりぶれることが説明される。0.7をプリセット数値としてもよい。動画の評価値が0.7より大きい場合、動画ブレに確定し、動画の評価値が0.7以下である場合、動画ブレ無しに確定する。本実施例はプリセット数値の値について限定しない。
【0033】
なお、本実施例は、動画サンプルセットに含まれる動画サンプルの数について限定しない。ただし、検出モデルの正確性の向上及びトレーニングの過程における過剰適合問題の解決のために、動画サンプルの数を可能な限り大きくする。例えば、動画サンプルの数を1万個より多くしてもよく、例えば、1.7万個とする。
【0034】
なお、本実施例は、検出モデルのタイプについて限定しない。好ましくは、検出モデルのタイプは、ニューラルネットワークモデル、ディープラーニングアルゴリズムモデル及び機械アルゴリズムモデルのうちいずれか1つであってもよい。好ましくは、ニューラルネットワークモデルは、完全畳み込みネットワーク(Fully Convolutional Networks、FCN)モデル、生体医用画像セグメンテーション用の畳み込みネットワーク(Convolutional Networks for Biomedical Image Segmentation、U-net)モデルを含んでもよいが、これらに限定されない。
【0035】
好ましくは、S102において、動画を検出モデルに入力する前に、動画の時間の長さを取得することと、動画の時間の長さがプリセット時間の長さより大きければ、動画から、時間の長さがプリセット時間の長さに等しい第1の動画を取得することとをさらに含んでもよい。
【0036】
それに対応して、S102において、動画を検出モデルに入力することは、第1の動画を検出モデルに入力することを含んでもよい。
【0037】
具体的には、検出対象である動画の長さが長すぎると、検出の時間を増加させることがある。そして、通常、動画の撮影環境が一般的に変化しないため、検出対象である動画が長すぎる場合、動画中の一部を検出するだけで動画ブレがあるか否かを検出でき、通常、完全な動画に対して検出する必要がない。したがって、検出対象である動画の時間の長さがプリセット時間の長さより大きい場合、検出対象である動画から、プリセット時間の長さの第1の動画を取得し、第1の動画を検出モデルに入力し、動画ブレがあるか否かを確定することで、演算量を低下させ、検出時間を短縮させ、検出効率を向上させる。
【0038】
なお、本実施例はプリセット時間の長さの値について限定しない。例えば、プリセット時間の長さを40秒としてもよい。
【0039】
好ましくは、1つの実現形態において、動画から第1の動画を取得することは、動画の開始時刻から、動画から第1の動画を取得することを含んでもよい。
【0040】
例を挙げて説明する。プリセット時間の長さを40秒とし、検出対象である動画の時間の長さを3分間とすれば、検出対象である動画の最初の40秒の動画を第1の動画とする。
【0041】
ユーザが動画を見る習慣に従って、通常、動画をクリックした後、最初から見始める。動画が最初からぶれると、ユーザが動画を見る気持ちに影響を及ぼすことになる。このため、動画の開始時刻から第1の動画を取得することは、ユーザの見る習慣を考慮し、動画検出の正確性及び有効性を向上させ、ユーザの気持ちにより近い。
【0042】
好ましくは、別の実現形態において、動画から第1の動画を取得することは、動画から複数の短い動画を取得し、複数の短い動画の間に時間間隔が置かれ、複数の短い動画を接続した後に、第1の動画とすることを含んでもよい。
【0043】
例を挙げて説明する。プリセット時間の長さを40秒とし、検出対象である動画の時間の長さを3分間とすれば、第1の動画は、検出対象である動画中の0~20秒、60~70秒、120~130秒の期間、又は0~20秒、60~80秒の期間を含んでもよい。
【0044】
ユーザが動画を見る習慣に従って、通常、動画をクリックした後、最初から見始め、見る途中で何度もジャンプして動画の異なる部分を見ることがある。したがって、動画中の複数の短い動画を第1の動画とすることは、ユーザの見る習慣を考慮し、動画検出の正確性及び有効性を向上させ、ユーザの気持ちにより近い。
【0045】
なお、本実施例は、短い動画の数、短い動画の持続時間の長さ及び検出対象である動画における位置について限定しない。
【0046】
好ましくは、S102において、動画を検出モデルに入力する前に、検出モデルをトレーニングすることをさらに含んでもよい。
【0047】
なお、本実施例は検出モデルのトレーニング方法について限定せず、モデルのタイプにより異なってもよい。例えば、トレーニングの過程において、動画に対してフレーム切り出しの処理を行ってもよく、1秒ごとに5フレームを切り出し、動画フレームを224*224のサイズにスケーリングし、フォーマットを三原色(Red‐Green‐Blue、RGB)画像とする。
【0048】
以上から分かるように、本実施例は、動画ブレの検出方法を提供し、検出対象である動画を検出モデルに入力し、検出モデルにより動画の評価値を得ることができ、それにより、動画ブレがあるか否かを確定する。検出モデルは大量のサンプルに基づいてトレーニングされたモデルであるため、本実施例にて提供される動画ブレの検出方法は、適用場面がより広く、動画ブレの検出の正確率及びロバスト性を向上させる。
【0049】
図2は本発明の実施例にて提供される動画ブレの検出方法の別のフローチャートである。本実施例は検出モデルのトレーニングの過程について説明する。本実施例において、動画サンプルセットは第1のサブセット及び第2のサブセットを含んでもよく、第1のサブセットに含まれる動画サンプルに評価値が付けられており、第2のサブセットに含まれる動画サンプルに評価値が付けられていない。図2に示すように、検出モデルをトレーニングすることは、S201~S204を含んでもよい。
【0050】
S201、第1のサブセット中の動画サンプルを入力とし、第1のサブセット中の動画サンプルの評価値を出力として、トレーニングして第1のモデルを得る。
【0051】
S202、第2のサブセット中の動画サンプルを第1のモデルに入力し、第2のサブセット中の動画サンプルの評価値を得る。
【0052】
S203、第2のサブセット中の評価値が第1の数値より大きい動画サンプルに対して評価値の人工補正を行うことにより、補正後の第2のサブセットを取得し、補正後の第2のサブセット中の動画サンプルに評価値が付けられている。
【0053】
S204、第1のサブセット中の動画サンプル及び補正後の第2のサブセット中の動画サンプルを入力とし、第1のサブセット中の動画サンプル及び補正後の第2のサブセット中の動画サンプルにそれぞれ対応する評価値を出力として、トレーニングして検出モデルを得る。
【0054】
以下、例を用いて説明する。
【0055】
動画サンプルセットが合計で1.7万個の動画サンプルを含むと仮定する。ただし、第1のサブセットは1000個の動画サンプルを含み、この1000個の動画サンプルに評価値が付けられている。本実施例は、第1のサブセット中の動画サンプルの評価値の取得方式について限定せず、例えば、人工で付けてもよい。第2のサブセットは1.6万個の動画サンプルを含み、この1.6万個の動画サンプルに評価値が付けられていない。
【0056】
検出モデルのトレーニングの過程は以下を含んでもよく、
第1のサブセット中の1000個の動画サンプルを入力とし、この1000個の動画サンプルにそれぞれ対応する評価値を出力として、トレーニングして第1のモデルを得る。次に、第2のサブセット中の1.6万個の動画サンプルを第1のモデルに入力し、この1.6万個の動画サンプルにそれぞれ対応する評価値を得る。続いて、第2のサブセットに対応する補正後の第2のサブセットを取得する。具体的には、人工補正の方式により、第2のサブセット中の評価値が第1の数値より大きい動画サンプルに対して評価値の人工補正を行う。説明の便宜上、第2のサブセット中の動画サンプルの評価値に対して、第1のモデルにより得られた評価値を評価値P1として表し、人工補正の方式により得られた評価値を評価値P2として表す。例えば、第1の数値は0.7である。第2のサブセット中の動画サンプル1の評価値P1は0.8である。動画サンプル1に対して人工補正を行うことにより、動画サンプル1の評価値P2が得られ、0.6であることが可能である。最後に、第1のサブセット中の1000個の動画サンプル及び補正後の第2のサブセット中の1.6万個の動画サンプルを入力とし、各動画サンプルの評価値を出力として、トレーニングして検出モデルを得る。
【0057】
以上から分かるように、第1のモデルは、動画サンプルセット中の一部の動画サンプルのトレーニングにより得られたものであり、さらに正確率の向上に余地がある。第2のサブセットに含まれる動画サンプルに評価値が付けられておらず、まず、第1のモデルにより各動画サンプルの評価値を得ることができる。第1のモデルに誤差が存在する可能性があるため、人工補正の方式により、第1のモデルが出力した評価値がより高い動画サンプルに対して補正を行う。続いて、第1のサブセット及び補正後の第2のサブセット中の動画サンプルにより、第1のモデルを基としてトレーニングを続け、正確な検出モデルを得る。
【0058】
ただし、S203~S204は複数回繰り返して実行してもよく、本実施例は実行の回数について限定しない。
【0059】
ただし、本実施例は第1の数値の値について限定しない。
【0060】
好ましくは、第1のサブセットに含まれる動画サンプルの数を第2のサブセットに含まれる動画サンプルの数より小さくしてもよく、第1のサブセットの取得の難易度を低減させる。
【0061】
好ましくは、S204の後に、さらに、
評価値が付けられていない複数の動画サンプルを含む第3のサブセットを取得することと、
第3のサブセット中の動画サンプルを検出モデルに入力し、第3のサブセット中の動画サンプルの評価値を得ることと、
第3のサブセットから、検出モデルにより得られた評価値が第2の数値より大きく、且つ評価値の人工補正により得られた評価値が第2の数値より小さい第3の数値より小さい動画サンプルである校正サンプルを取得することと、
第1のサブセット中の動画サンプル、補正後の第2のサブセット中の動画サンプル及び校正サンプルを入力とし、第1のサブセット中の動画サンプル、補正後の第2のサブセット中の動画サンプル及び校正サンプルにそれぞれ対応する評価値を出力として、検出モデルをトレーニングすることにより検出モデルを補正することとを含む。
【0062】
以下、上記の例と組み合わせて説明する。
【0063】
第3のサブセットは1万個の動画サンプルを含み、この1万個の動画サンプルに評価値が付けられていないと仮定する。
【0064】
検出モデルのトレーニングの過程は以下をさらに含んでもよく、
第3のサブセット中の1万個の動画サンプルを検出モデルに入力し、この1万個の動画サンプルにそれぞれ対応する評価値を得る。第3のサブセットから校正サンプルを取得する。具体的には、第3のサブセット中の検出モデルにより得られた評価値が第2の数値より大きい動画サンプルに対して人工補正を行う。説明の便宜上、第3のサブセット中の動画サンプルの評価値に対して、検出モデルにより得られた評価値を評価値Q1として表し、人工補正の方式により得られた評価値を評価値Q2として表す。例えば、第2の数値は0.7である。第3のサブセット中の動画サンプル1の評価値Q1は0.8である。動画サンプル1に対して人工補正を行うことにより、動画サンプル1の評価値Q2が得られ、0.6であることが可能である。動画サンプル1が校正サンプルである。校正サンプルの数は2000個であると仮定する。最後に、第1のサブセット中の1000個の動画サンプル、補正後の第2のサブセット中の1.6万個の動画サンプル及び2000個の校正サンプルを入力とし、各動画サンプルの評価値を出力として、検出モデルをトレーニングすることにより検出モデルを補正する。
【0065】
以上から分かるように、第3のサブセットにより検出モデルを補正すると、検出モデルの正確性をさらに向上させる。
【0066】
図3は本発明の実施例にて提供される動画ブレの検出装置の構造模式図である。本実施例にて提供される動画ブレの検出装置は、図1図2に示す実施例にて提供される動画ブレの検出方法を実行するために用いられる。図3に示すように、本実施例にて提供される動画ブレの検出装置は、
動画を取得するための取得モジュール31と、
前記動画を検出モデルに入力し、前記動画のブレの程度を示すための前記動画の評価値を得るための検出モジュール32と、を含み、ただし、前記検出モデルは動画サンプルセット中の動画サンプルを入力とし、前記動画サンプルセット中の動画サンプルの評価値を出力として、トレーニングして得られたモデルである。
【0067】
好ましくは、前記取得モジュール31はさらに、
前記動画の時間の長さを取得し、
前記時間の長さがプリセット時間の長さより大きければ、前記動画から、時間の長さが前記プリセット時間の長さに等しい第1の動画を取得するために用いられる。
前記検出モジュール32は、具体的に、前記第1の動画を検出モデルに入力するために用いられる。
【0068】
好ましくは、前記取得モジュール31は、具体的に、
前記動画の開始時刻から、前記動画から前記第1の動画を取得するか、又は、
前記動画から複数の短い動画を取得し、前記複数の短い動画の間に時間間隔が置かれ、前記複数の短い動画を接続した後に、前記第1の動画とするために用いられる。
【0069】
好ましくは、前記動画サンプルセットは第1のサブセット及び第2のサブセットを含み、前記第1のサブセットに含まれる動画サンプルに評価値が付けられており、前記第2のサブセットに含まれる動画サンプルに評価値が付けられておらず、
トレーニングモジュールをさらに含み、前記トレーニングモジュールは、
前記第1のサブセット中の動画サンプルを入力とし、前記第1のサブセット中の動画サンプルの評価値を出力として、トレーニングして第1のモデルを得て、
前記第2のサブセット中の動画サンプルを前記第1のモデルに入力し、前記第2のサブセット中の動画サンプルの評価値を得て、
前記第2のサブセット中の評価値が第1の数値より大きい動画サンプルに対して評価値の人工補正を行うことにより、補正後の第2のサブセットを取得し、前記補正後の第2のサブセット中の動画サンプルに評価値が付けられており、
前記第1のサブセット中の動画サンプル及び前記補正後の第2のサブセット中の動画サンプルを入力とし、前記第1のサブセット中の動画サンプル及び前記補正後の第2のサブセット中の動画サンプルにそれぞれ対応する評価値を出力として、トレーニングして前記検出モデルを得るために用いられる。
【0070】
好ましくは、前記トレーニングモジュールは、さらに、
評価値が付けられていない複数の動画サンプルを含む第3のサブセットを取得し、
前記第3のサブセット中の動画サンプルを前記検出モデルに入力し、前記第3のサブセット中の動画サンプルの評価値を得て、
前記第3のサブセットから、前記検出モデルにより得られた評価値が第2の数値より大きく、且つ評価値の人工補正により得られた評価値が前記第2の数値より小さい第3の数値より小さい動画サンプルである校正サンプルを取得し、
前記第1のサブセット中の動画サンプル、前記補正後の第2のサブセット中の動画サンプル及び前記校正サンプルを入力とし、前記第1のサブセット中の動画サンプル、前記補正後の第2のサブセット中の動画サンプル及び前記校正サンプルにそれぞれ対応する評価値を出力として、前記検出モデルをトレーニングすることにより前記検出モデルを補正するために用いられる。
【0071】
好ましくは、前記第1のサブセットに含まれる動画サンプルの数は前記第2のサブセットに含まれる動画サンプルの数より小さい。
【0072】
本実施例にて提供される動画ブレの検出装置は、図1図2に示す実施例にて提供される動画ブレの検出方法を実行するために用いられ、その技術原理及び技術効果が類似するため、ここで重複する説明は省略する。
【0073】
図4は本発明の実施例にて提供される動画ブレの検出装置の別の構造模式図である。図4に示すように、動画ブレの検出装置は、プロセッサ41とメモリ42とを含んでもよい。前記メモリ42はコマンドを記憶するために用いられ、前記プロセッサ41は、前記メモリ42に記憶されたコマンドを実行することにより、前記動画ブレの検出装置に図1図2に示す実施例にて提供される動画ブレの検出方法を実行させるために用いられ、技術原理及び技術効果が類似するため、ここで重複する説明は省略する。
【0074】
なお、本発明は、動画ブレの検出装置の機器形態及び具体的な構造について限定しない。
【0075】
一例として、図5は本発明の実施例にて提供される本発明の実施例を実現するための例示的なコンピュータシステム/サーバの構造模式図である。図5に示されるコンピュータシステム/サーバ012は一例にすぎず、本発明の実施例の機能及び使用範囲を限定するものではない。
【0076】
図5に示すように、コンピュータシステム/サーバ012は汎用計算機器の形態で示されている。コンピュータシステム/サーバ012のコンポーネントは、1つ以上のプロセッサ又は処理ユニット016と、システムメモリ028と、異なるシステムコンポーネント(システムメモリ028とプロセッサ016とを含む)を接続させるバス018とを含んでもよいが、これらに限定されない。
【0077】
バス018はいくつかのタイプのバス構造のうちの1種又は多種を表し、メモリバス又はメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ又は多種のバス構造のうちの任意のバス構造を用いるローカルバスを含む。例を挙げると、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MAC)バス、拡張型ISAバス、ビデオエレクトロニクススタンダーズアソシエーション(VESA)ローカルバス及びペリフェラルコンポーネントインターコネクト(PCI)バスを含むが、これらに限定されない。
【0078】
典型的に、コンピュータシステム/サーバ012は多種のコンピュータシステム可読媒体を含む。これらの媒体はコンピュータシステム/サーバ012がアクセス可能であるあらゆる使用可能な媒体であってもよく、揮発性及び不揮発性媒体と、持ち運び可能及び持ち運び不可能な媒体とを含む。
【0079】
システムメモリ028は揮発性メモリ形態のコンピュータシステム可読媒体、例えばランダムアクセスメモリ(RAM)030及び/又はキャッシュメモリ032を含んでもよい。コンピュータシステム/サーバ012は、他の持ち運び可能/持ち運び不可能な、揮発性/不揮発性コンピュータシステム記憶媒体をさらに含んでもよい。一例として、記憶システム034は、持ち運び不可能な、不揮発性磁気媒体(図5に示せず、通常は「ハードディスクドライブ」と呼ばれる)をリード/ライトするために用いられる。図5に示さなくても、持ち運び可能な不揮発性磁気ディスク(例えば「ソフトディスク」)をリード/ライトするための磁気ディスクドライブ、及び持ち運び可能な不揮発性光ディスク(例えばコンパクトディスク 読み取り専用メモリ(CD-ROM)、デジタルビデオディスクROM(DVD-ROM)又は他の光媒体)をリード/ライトするための光ディスクドライブを提供してもよい。このような場合に、各ドライブは1つ又は複数のデータ媒体インタフェースを介してバス018に接続することができる。メモリ028は少なくとも1つのプログラム製品を含んでもよく、当該プログラム製品は1セット(例えば少なくとも1つ)のプログラムモジュールを有し、これらのプログラムモジュールは、本発明の各実施例の機能を実行するように配置される。
【0080】
1セット(少なくとも1つ)のプログラムモジュール042を有するプログラム/ユーティリティツール040は、例えばメモリ028に記憶してもよく、このようなプログラムモジュール042は、オペレーティングシステム、1つ又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含むが、これらに限定されず、これらの例のうち、それぞれ又はある組み合わせには、ネットワーク環境の実現を含む可能性がある。通常、プログラムモジュール042は本発明に記載される実施例における機能及び/又は方法を実行する。
【0081】
コンピュータシステム/サーバ012は、1つ又は複数の外付けデバイス014(例えばキーボード、ポインティングデバイス、ディスプレイ024など)と通信してもよいし、ユーザが当該コンピュータシステム/サーバ012と対話できるようにさせる1つ又は複数のデバイスと通信し、及び/又は当該コンピュータシステム/サーバ012が1つ又は複数の他の計算機器と通信できるようにさせるあらゆるデバイス(例えばネットワークカード、モデムなど)と通信してもよい。このような通信は、入力/出力(I/O)インタフェース022を介して行ってもよい。そして、コンピュータシステム/サーバ012は、さらに、ネットワークアダプタ020を介して、1つ又は複数のネットワーク(例えばローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)及び/又はパブリックネットワーク、例えばインターネット)と通信してもよい。図5に示すように、ネットワークアダプタ020はバス018を介してコンピュータシステム/サーバ012の他のモジュールと通信する。図5に示さなくても、コンピュータシステム/サーバ012と組み合わせて、マイクロコード、デバイスドライバ、冗長プロセッサ、外付けディスクアレイ、独立したディスクの冗長アレイ(RAID)システム、テープドライブ、及びデータバックアップ記憶システムなどを含むがこれらに限定されない他のハードウェア及び/又はソフトウェアモジュールを用いてもよいことを理解すべきである。
【0082】
プロセッサ016は、システムメモリ028に記憶されるプログラムを実行することにより、本発明に記載される実施例における機能及び/又は方法を実行する。
【0083】
上記のコンピュータプログラムはコンピュータ記憶媒体に配置されてもよく、即ち、当該コンピュータ記憶媒体にはコンピュータプログラムがコーディングされており、当該プログラムが1つ又は複数のコンピュータにより実行されると、1つ又は複数のコンピュータに本発明の上記の実施例に示される方法のフロー及び/又は装置の操作を実行させる。
【0084】
当業者であれば、上記の各方法に係る実施例のステップの全部又は一部の実施はプログラムコマンドに関連するハードウェアにより完了できることを理解すべきである。前記プログラムはコンピュータ可読記憶媒体に記憶することができる。当該プログラムが実行されると、上記の各方法に係る実施例のステップが実行される。前記記憶媒体は、ROM、RAM、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種媒体を含む。
【0085】
なお、以上の各実施例は、本発明の実施例の技術的解決手段を限定するものではく、説明するために用いられる。前記各実施例を参照しながら本発明の実施例を詳細に説明したが、当業者であれば、前記各実施例に記載された技術的解決手段を補正するか、又はそのうち一部又は全部の技術的解決手段に対して等価置換を行うことができ、これらの補正又は置換が対応する技術的解決手段の本質を本発明の実施例の技術的解決手段の範囲から逸脱させないことが理解されるべきである。
図1
図2
図3
図4
図5