(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022055302
(43)【公開日】2022-04-07
(54)【発明の名称】遮蔽された画像の検出方法、装置、及び媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20220331BHJP
H04N 5/232 20060101ALI20220331BHJP
【FI】
G06T7/00 350C
H04N5/232 220
H04N5/232 290
【審査請求】有
【請求項の数】18
【出願形態】OL
(21)【出願番号】P 2021083271
(22)【出願日】2021-05-17
(31)【優先権主張番号】202011054873.2
(32)【優先日】2020-09-28
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】520274253
【氏名又は名称】ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド
(74)【代理人】
【識別番号】100114557
【弁理士】
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【弁理士】
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】リュウ,ルオユ
(72)【発明者】
【氏名】ク,ジ
(72)【発明者】
【氏名】チャン,ヤセン
(72)【発明者】
【氏名】ソン,ヤン
(72)【発明者】
【氏名】ゲ,ジペン
【テーマコード(参考)】
5C122
5L096
【Fターム(参考)】
5C122EA42
5C122FH09
5C122FH11
5C122FH18
5C122HA46
5C122HA48
5C122HB01
5L096GA10
5L096HA11
5L096KA04
(57)【要約】 (修正有)
【課題】遮蔽された画像の検出方法、装置及び媒体を提供する。
【解決手段】方法は、カメラによって撮影した画像を取得して検出対象の画像とするステップと、検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するステップと、遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、検出対象の画像が遮蔽された画像であるか否かを判断するステップと、画像検出結果を出力するステップと、を含む。
【効果】この方法を用いると、少量のマスクマーク付きの指により遮蔽された画像を利用して、遮蔽された画像の特徴を生成するように生成モデルを安定的にトレーニングすることができ、それにより、指による遮蔽を検出するモデルのトレーニングにおけるポジティブサンプルが足りないという問題を効果的に解決することができ、大量のポジティブサンプルの収集コストを節約する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
遮蔽された画像の検出方法であって、
カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするステップと、
検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するステップであって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるステップと、
前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断するステップと、
前記画像検出結果を出力するステップと、を含む、
ことを特徴とする遮蔽された画像の検出方法。
【請求項2】
前記元の遮蔽された画像及び前記遮蔽されない画像を取得するステップと、
前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップと、
前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするステップと、をさらに含む、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップは、
前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するステップであって、前記指テンプレート画像は前記元の遮蔽された画像から指により遮蔽されない領域を除去した後の画像であり、前記指ではない画像は前記元の遮蔽された画像から指により遮蔽された領域を除去した後の画像であるステップと、
トレーニングデータグループを生成するステップであって、各グループのトレーニングデータは1枚の指テンプレート画像と、1枚の指ではない画像と、1枚の元の遮蔽された画像とを含み、毎回のトレーニングには、複数グループのトレーニングデータを用いて前記データ特徴拡張ネットワークをトレーニングするステップと、を含む、
ことを特徴とする請求項2に記載の方法。
【請求項4】
前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するステップは、
前記元の遮蔽された画像に基づいて、前記元の遮蔽された画像における遮蔽された位置を示すマスクデータを取得するステップと、
前記元の遮蔽された画像及び前記マスクデータに基づいて、指テンプレート画像及び指ではない画像を生成するステップと、を含む、
ことを特徴とする請求項3に記載の方法。
【請求項5】
前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップは、さらに、
前記指テンプレート画像及び前記指ではない画像を前記データ特徴拡張ネットワークに入力することにより、前記元の遮蔽された画像の生成特徴を合成するステップと、
前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出するステップであって、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含むステップと、
前記元の遮蔽された画像の生成特徴及び前記元の特徴を識別ネットワークに入力してトレーニングを行うステップと、
毎回のトレーニングにおける前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数を取得するステップと、
前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数がいずれかも収束した場合、前記データ特徴拡張ネットワークのトレーニングが完了したと決定するステップと、を含む、
ことを特徴とする請求項3に記載の方法。
【請求項6】
前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするステップは、
前記マスクデータ及び前記遮蔽されない画像に基づいて、処理後の遮蔽されない画像を取得するステップであって、前記処理後の遮蔽されない画像は前記遮蔽されない画像から前記マスクデータに対応する領域を除去した後の画像であるステップと、
前記指テンプレート画像及び前記処理後の遮蔽されない画像を前記トレーニング後のデータ特徴拡張ネットワークに入力することにより、前記遮蔽されない画像の生成特徴を合成するステップと、
前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出するステップであって、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含むステップと、
前記遮蔽されない画像の生成特徴及び前記元の特徴を分類ネットワークに入力してトレーニングを行うステップであって、前記遮蔽された画像の検出モデルは前記分類ネットワークを含むステップと、
前記遮蔽された画像の検出モデルの損失関数が収束した場合、前記遮蔽された画像の検出モデルのトレーニングが完了したと決定するステップと、を含む、
ことを特徴とする請求項4に記載の方法。
【請求項7】
前記遮蔽された画像の検出モデルは畳み込みニューラルネットワークモデルである、
ことを特徴とする請求項1に記載の方法。
【請求項8】
前記データ特徴拡張ネットワークは敵対的生成ネットワークである、
ことを特徴とする請求項1に記載の方法。
【請求項9】
遮蔽された画像の検出装置であって、
カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするように構成される取得モジュールと、
検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するように構成される入力モジュールと、
画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮断された画像であるか否かを判断するように構成される前記遮蔽された画像の検出モデルであって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるものと、
前記画像検出結果を出力するように構成される出力モジュールと、を含む、
ことを特徴とする遮蔽された画像の検出装置。
【請求項10】
前記遮蔽された画像の検出モデルはトレーニングモジュールによってトレーニングされ、前記トレーニングモジュールは、
前記元の遮蔽された画像及び前記遮蔽されない画像を取得し、
前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングし、
前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするように構成される、
ことを特徴とする請求項9に記載の装置。
【請求項11】
前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするように構成され、
前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成し、前記指テンプレート画像は前記元の遮蔽された画像から指により遮蔽されない領域を除去した後の画像であり、前記指ではない画像は前記元の遮蔽された画像から指により遮蔽された領域を除去した後の画像であり、
トレーニングデータグループを生成し、各グループのトレーニングデータは1枚の指テンプレート画像と、1枚の指ではない画像と、1枚の元の遮蔽された画像とを含み、毎回のトレーニングには、複数グループのトレーニングデータを用いて前記データ特徴拡張ネットワークをトレーニングする、
ことを特徴とする請求項10に記載の装置。
【請求項12】
前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するように構成され、
前記元の遮蔽された画像に基づいて、前記元の遮蔽された画像における遮蔽された位置を示すマスクデータを取得し、
前記元の遮蔽された画像及び前記マスクデータに基づいて、指テンプレート画像及び指ではない画像を生成する、
ことを特徴とする請求項11に記載の装置。
【請求項13】
前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするように構成され、
前記指テンプレート画像及び前記指ではない画像を前記データ特徴拡張ネットワークに入力することにより、前記元の遮蔽された画像の生成特徴を合成し、
前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出し、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含み、
前記元の遮蔽された画像の生成特徴及び前記元の特徴を識別ネットワークに入力してトレーニングを行い、
毎回のトレーニングにおける前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数を取得し、
前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数がいずれかも収束した場合、前記データ特徴拡張ネットワークのトレーニングが完了したと決定する、
ことを特徴とする請求項11に記載の装置。
【請求項14】
前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするように構成され、
前記マスクデータ及び前記遮蔽されない画像に基づいて、処理後の遮蔽されない画像を取得し、前記処理後の遮蔽されない画像は前記遮蔽されない画像から前記マスクデータに対応する領域を除去した後の画像であり、
前記指テンプレート画像及び前記処理後の遮蔽されない画像を前記トレーニング後のデータ特徴拡張ネットワークに入力することにより、前記遮蔽されない画像の生成特徴を合成し、
前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出し、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含み、
前記遮蔽されない画像の生成特徴及び前記元の特徴を分類ネットワークに入力してトレーニングを行い、前記遮蔽された画像の検出モデルは前記分類ネットワークを含み、
前記遮蔽された画像の検出モデルの損失関数が収束した場合、前記遮蔽された画像の検出モデルのトレーニングが完了したと決定する、
ことを特徴とする請求項12に記載の装置。
【請求項15】
前記遮蔽された画像の検出モデルは畳み込みニューラルネットワークモデルである、
ことを特徴とする請求項9に記載の装置。
【請求項16】
前記データ特徴拡張ネットワークは敵対的生成ネットワークである、
ことを特徴とする請求項9に記載の装置。
【請求項17】
遮蔽された画像の検出装置であって、
プロセッサと、
プロセッサが実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、
カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とし、
検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力し、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであり、
前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断し、
前記画像検出結果を出力するように構成される、
ことを特徴とする遮蔽された画像の検出装置。
【請求項18】
非一時的コンピュータ読み取り可能な記憶媒体であって、前記記憶媒体における命令がルータのプロセッサによって実行される場合、遮蔽された画像の検出方法を実行でき、前記方法は、
カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするステップと、
検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するステップであって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるステップと、
前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断するステップと、
前記画像検出結果を出力するステップと、を含む、
非一時的コンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示はカメラ制御の分野に関し、特に遮蔽された画像の検出方法、装置、及び媒体に関する。
【背景技術】
【0002】
データ拡張は限られたデータを利用してより多くの等価データを生成する技術であり、ディープネットワークモデルの正確度及び汎用性を向上させる重要な技術であり、画像分類、目標識別及び意味分割などのコンピュータビジョンのタスクにおいて大きな役割を果たす。従来のデータ拡張技術には、例えば回転、トリミング、アフィン変換、色ジッターなどの画像変換方法を採用することが多い。
【0003】
ユーザが携帯電話を手で持って横向きに撮影する時、撮影習慣などの原因により、レンズのエッジが指により遮蔽されやすいことで、写真のエッジに小さい遮蔽領域がある。このような遮蔽に即時に気付きにくいため、ユーザは、通常、撮り直すことがなく、それにより、完璧な写真を得ることができず、残念に思われる。遮蔽検出のタスクは、撮影後に、この画像が遮蔽されるか否かを即時に判断し、遮蔽された画像を検出した後に撮り直しをユーザにリアルタイムに促すことである。
【0004】
遮蔽検出において、遮蔽された画像は人間が実際のシーンをシミュレーションして収集する必要がある。実際のシーンでは、遮蔽された領域は、写真を占めた面積が小さく、且つ片隅に位置するため、収集するには大量の労力を費やすことが必要である。また、従来のデータ拡張方法は、遮蔽された領域の歪みを引き起こすことにより、有効なトレーニングデータを生成することができないため、これらの方法は遮蔽検出タスクに適用しない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
関連技術に存在する問題を解消するために、本開示は遮蔽された画像の検出方法、装置、及び媒体を提供する。
【課題を解決するための手段】
【0006】
本開示の実施例の第1の態様によれば、遮蔽された画像の検出方法を提供し、前記方法は、カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするステップと、検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するステップであって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるステップと、前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断するステップと、前記画像検出結果を出力するステップと、を含む。
【0007】
前記方法は、前記元の遮蔽された画像及び前記遮蔽されない画像を取得するステップと、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップと、前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするステップと、をさらに含む。
【0008】
前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップは、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するステップであって、前記指テンプレート画像は前記元の遮蔽された画像から指により遮蔽されない領域を除去した後の画像であり、前記指ではない画像は前記元の遮蔽された画像から指により遮蔽された領域を除去した後の画像であるステップと、トレーニングデータグループを生成するステップであって、各グループのトレーニングデータは1枚の指テンプレート画像と、1枚の指ではない画像と、1枚の元の遮蔽された画像とを含み、毎回のトレーニングには、複数グループのトレーニングデータを用いて前記データ特徴拡張ネットワークをトレーニングするステップと、を含む。
【0009】
前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するステップは、前記元の遮蔽された画像に基づいて、前記元の遮蔽された画像における遮蔽された位置を示すマスクデータを取得するステップと、前記元の遮蔽された画像及び前記マスクデータに基づいて、指テンプレート画像及び指ではない画像を生成するステップと、を含む。
【0010】
前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップは、前記指テンプレート画像及び前記指ではない画像を前記データ特徴拡張ネットワークに入力することにより、前記元の遮蔽された画像の生成特徴を合成するステップと、前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出するステップであって、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含むステップと、前記元の遮蔽された画像の生成特徴及び前記元の特徴を識別ネットワークに入力してトレーニングを行うステップと、毎回のトレーニングにおける前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数を取得するステップと、前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数がいずれかも収束した場合、前記データ特徴拡張ネットワークのトレーニングが完了したと決定するステップと、をさらに含む。
【0011】
前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするステップは、前記マスクデータ及び前記遮蔽されない画像に基づいて、処理後の遮蔽されない画像を取得するステップであって、前記処理後の遮蔽されない画像は前記遮蔽されない画像から前記マスクデータに対応する領域を除去した後の画像であるステップと、前記指テンプレート画像及び前記処理後の遮蔽されない画像を前記トレーニング後のデータ特徴拡張ネットワークに入力することにより、前記遮蔽されない画像の生成特徴を合成するステップと、前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出するステップであって、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含むステップと、前記遮蔽されない画像の生成特徴及び前記元の特徴を分類ネットワークに入力してトレーニングを行うステップであって、前記遮蔽された画像の検出モデルは前記分類ネットワークを含むステップと、前記遮蔽された画像の検出モデルの損失関数が収束した場合、前記遮蔽された画像の検出モデルのトレーニングが完了したと決定するステップと、を含む。
【0012】
前記遮蔽された画像の検出モデルは畳み込みニューラルネットワークモデルである。
【0013】
前記データ特徴拡張ネットワークは敵対的生成ネットワークである。
【0014】
本開示の実施例の第2の態様によれば、遮蔽された画像の検出装置を提供し、前記装置は、カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするように構成される取得モジュールと、検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するように構成される入力モジュールと、画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮断された画像であるか否かを判断するように構成される前記遮蔽された画像の検出モデルであって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるものと、前記画像検出結果を出力するように構成される出力モジュールと、を含む。
【0015】
前記遮蔽された画像の検出モデルはトレーニングモジュールによってトレーニングされ、前記トレーニングモジュールは、前記元の遮蔽された画像及び前記遮蔽されない画像を取得し、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングし、前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするように構成される。
【0016】
前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするように構成され、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成し、前記指テンプレート画像は前記元の遮蔽された画像から指により遮蔽されない領域を除去した後の画像であり、前記指ではない画像は前記元の遮蔽された画像から指により遮蔽された領域を除去した後の画像であり、トレーニングデータグループを生成し、各グループのトレーニングデータは1枚の指テンプレート画像と、1枚の指ではない画像と、1枚の元の遮蔽された画像とを含み、毎回のトレーニングには、複数グループのトレーニングデータを用いて前記データ特徴拡張ネットワークをトレーニングする。
【0017】
前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するように構成され、前記元の遮蔽された画像に基づいて、前記元の遮蔽された画像における遮蔽された位置を示すマスクデータを取得し、前記元の遮蔽された画像及び前記マスクデータに基づいて、指テンプレート画像及び指ではない画像を生成する。
【0018】
前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするように構成され、前記指テンプレート画像及び前記指ではない画像を前記データ特徴拡張ネットワークに入力することにより、前記元の遮蔽された画像の生成特徴を合成し、前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出し、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含み、前記元の遮蔽された画像の生成特徴及び前記元の特徴を識別ネットワークに入力してトレーニングを行い、毎回のトレーニングにおける前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数を取得し、前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数がいずれかも収束した場合、前記データ特徴拡張ネットワークのトレーニングが完了したと決定する。
【0019】
前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするように構成され、前記マスクデータ及び前記遮蔽されない画像に基づいて、処理後の遮蔽されない画像を取得し、前記処理後の遮蔽されない画像は前記遮蔽されない画像から前記マスクデータに対応する領域を除去した後の画像であり、前記指テンプレート画像及び前記処理後の遮蔽されない画像を前記トレーニング後のデータ特徴拡張ネットワークに入力することにより、前記遮蔽されない画像の生成特徴を合成し、前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出し、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含み、前記遮蔽されない画像の生成特徴及び前記元の特徴を分類ネットワークに入力してトレーニングを行い、前記遮蔽された画像の検出モデルは前記分類ネットワークを含み、前記遮蔽された画像の検出モデルの損失関数が収束した場合、前記遮蔽された画像の検出モデルのトレーニングが完了したと決定する。
【0020】
前記遮蔽された画像の検出モデルは畳み込みニューラルネットワークモデルである。
【0021】
前記データ特徴拡張ネットワークは敵対的生成ネットワークである。
【0022】
本開示の実施例の第3の態様によれば、遮蔽された画像の検出装置を提供し、前記装置は、プロセッサと、プロセッサが実行可能な命令を記憶するためのメモリと、を含み、ここで、前記プロセッサは、カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とし、検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力し、ここで、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであり、前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断し、前記画像検出結果を出力するように構成される。
【0023】
本開示の実施例の第4の態様によれば、非一時的コンピュータ読み取り可能な記憶媒体であって、前記記憶媒体における命令がルータのプロセッサによって実行される場合、遮蔽された画像の検出方法を実行できる非一時的コンピュータ読み取り可能な記憶媒体を提供し、前記方法は、カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするステップと、検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するステップであって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるステップと、前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断するステップと、前記画像検出結果を出力するステップと、を含む。
【0024】
本開示は遮蔽された画像の検出方法を提供する。ここで、カメラによって画像を撮影した後、この画像を検出対象の画像とし、トレーニング後の遮蔽された画像の検出モデルに入力する。続いて、遮蔽された画像の検出モデルにより、検出対象の画像が遮蔽された画像であるか否かを判断し、画像検出結果を出力する。ここで、遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものである。
【発明の効果】
【0025】
したがって、本開示の方法は以下の有益な効果を有する。
(1)少量のマスクマーク付きの指により遮蔽された画像を利用して、遮蔽された画像の特徴を生成するように生成モデルを安定的にトレーニングすることができ、それにより、指による遮蔽を検出するモデルのトレーニングにおけるポジティブサンプルが足りないという問題を効果的に解決することができ、大量のポジティブサンプルの収集コストを節約する。
(2)遮蔽された画像の高レベル特徴を生成することは、画像生成詳細の不足によるノイズがモデルの精度に与える影響を効果的に回避することができる。したがって、生成された特徴をトレーニングに追加すると、検出の正確さが顕著に向上する。
(3)生成された特徴は指による遮蔽を検出するモデルの分類ネットワークのみに対して再最適化を行い、導入された余計なトレーニングのコストが小さい。そして、既存の指による遮蔽を検出するモデルを十分に利用し且つ少量のパラメータを微調整することができ、余計なオーバーヘッドが小さい。
(4)ネットワークモデルパラメータが少なく、大量の記憶及び計算リソースを節約することができる。
(5)この方法は、拡張性及び汎用性が高く、他の分類タスクへ容易に拡張することができる。
【0026】
以上の一般的な説明及び後続する詳細説明は単なる例示的且つ解釈的なものであり、本開示を限定するものではないことを理解すべきである。
【図面の簡単な説明】
【0027】
ここでの図面は、明細書に組み込まれ、本明細書の一部を構成し、本発明に符合する実施例を示し、明細書とともに本発明の原理を解釈するために用いられる。
【
図1】例示的な実施例による遮蔽された画像の検出方法のフローチャートである。
【
図2】例示的な実施例によるデータ特徴拡張ネットワークをトレーニングする概略図である。
【
図3】例示的な実施例による遮蔽された画像の検出モデルをトレーニングする概略図である。
【
図4】例示的な実施例によるトレーニング後の遮蔽された画像の検出モデルの概略図である。
【
図5】例示的な実施例による遮蔽された画像の検出方法のフローチャートである。
【
図6】例示的な実施例による遮蔽された画像の検出装置のブロック図である。
【
図7】例示的な実施例による装置のブロック図である。
【
図8】例示的な実施例による装置のブロック図である。
【発明を実施するための形態】
【0028】
ここで、例示的な実施例について詳細に説明し、その例を図面において表示する。以下の説明が図面にかかわる場合、特に断りのない限り、異なる図における同じ数字は同一又は類似の要素を表す。以下の例示的な実施例において説明される実施形態は、本発明に一致するすべての実施形態を示すものではない。これに対して、それらは、特許請求の範囲に詳しく記載されるような、本発明のいくつかの態様に一致する装置及び方法の例にすぎない。
【0029】
ユーザが携帯電話を手で持って横向きに撮影する時、レンズのエッジが指により遮蔽されやすいことで、写真のエッジに小さい遮蔽領域がある。このような遮蔽に即時に気付きにくいため、ユーザは、通常、撮り直すことがなく、それにより、完璧な写真を得ることができず、残念に思われる。指による遮蔽の検出のタスクは、撮影後に、この画像が遮蔽されるか否かを即時に判断し、遮蔽された画像を検出した後に撮り直しをユーザにリアルタイムに促すことである。
【0030】
現在、上記問題を解決するために、新たな画像を生成して直接あるタイプのサンプルとしてモデルのトレーニングに追加することが提供されたが、このような方法には、(1)このタイプのアルゴリズムは指により遮蔽された領域という厳密な意味内容の画像を有効に生成することができないため、指による遮蔽の検出のタスクに適用せず、(2)画像を直接生成するには、生成ネットワーク及び識別ネットワークが大量のパラメータを持つことが必要であり、ネットワークトレーニングの計算コスト及び時間コストを増加させることになる、という問題が存在する。
【0031】
本開示は遮蔽された画像の検出方法を提供する。この方法では、カメラによって画像を撮影した後、この画像を検出対象の画像とし、トレーニング後の遮蔽された画像の検出モデルに入力する。続いて、遮蔽された画像の検出モデルにより、検出対象の画像が遮蔽された画像であるか否かを判断し、画像検出結果を出力する。ここで、遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものである。
【0032】
本開示の方法は特に以下のような応用シーンに適用される。
(1)ポジティブサンプルである(指により遮蔽された)画像の取得難易度が高く、大量の時間と労力を費やすことが必要である。
(2)ポジティブサンプルは簡単なデータ拡張技術を利用してデータ拡張を行うことが困難であり、すなわち、トリミング、変形、ノイズ付加などの手段を利用して元の画像により新たな画像を生成する時、画像を遮蔽する指部分を破壊して歪みを引き起こし、それにより、指により遮蔽された部分が実際の状況に合致しないことになる。
(3)ポジティブサンプルである画像は敵対的生成ネットワークを利用して生成しにくく、大量の詳細情報を失うとともに、大量のノイズを導入することになり、それにより、モデルの精度低下を引き起こす。これは、いくつかの応用シーンにおいて、指による遮蔽の検出はデータに対する要求が非常に高く、遮蔽された画像のデータ分布に対して非常に敏感であり、敵対的生成ネットワークの技術を用いれば指により遮蔽された画像を有りのままシミュレーションして生成することができないためである。
(4)従来の画像拡張生成アルゴリズムはネットワーク規模が大きく、そして、大量のトレーニングデータを必要とし、そのため、大量の記憶及び計算リソースを必要とし、大規模なトレーニングに不利である。特に、ポジティブサンプルである画像が取得しにくい場合には、このような画像拡張生成アルゴリズムを適用しない。
【0033】
本開示の方法は、例えば携帯電話、PAD、ウェアラブルデバイスなど、カメラが配置された電子製品に適用される。
【0034】
本開示は遮蔽された画像の検出方法を提供する。
図1は例示的な実施例による遮蔽された画像の検出のフローチャートであり、カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするステップ101と、検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するステップであって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるステップ102と、前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断するステップ103と、前記画像検出結果を出力するステップ104と、を含む。
【0035】
この方法では、カメラによって撮影された画像を取得し、それを検出対象の画像とし、続いて、この検出対象の画像をトレーニング後の画像検出モデルに入力する。このトレーニング後の遮蔽された画像の検出モデルにより検出対象の画像が遮蔽された画像であるか否かを判断する。当業者であれば、遮蔽された画像の検出モデルはトレーニングされた後、画像に関する遮蔽特性を学習することができることが分かる。
【0036】
遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものである。遮蔽された画像の検出モデルをトレーニングする時、元の遮蔽された画像のトレーニングデータ特徴拡張ネットワークにより、データ特徴拡張ネットワークは画像の元の特徴に接近する遮蔽された画像の特徴を合成することができ、すなわち、元の遮蔽された画像とマスク画像によって画像の特徴を合成することができる。続いて、元の遮蔽された画像により、元の遮蔽された画像の特徴を取得し、合成した遮蔽された画像の特徴及び元の遮蔽された画像の特徴により、遮蔽された画像の検出モデルをトレーニングする。
【0037】
ここでの画像の特徴とは、一般的に、画像を入力とし、特徴ネットワークを経由して処理した後に得た出力であり、それは、画像が圧縮された後に得た高レベル意味情報を有する特徴付けの形式に相当する。
【0038】
上記方法を用いれば、遮蔽された画像の特徴を合成する時に、少量のマスクマーク付きの遮蔽された画像を利用して、生成モデルを安定的にトレーニングして、遮蔽された画像の特徴を合成し、このように、遮蔽検出モデルのトレーニングにおけるポジティブサンプルが足りないという問題を効果的に解決することができ、大量のポジティブサンプルの収集コストを節約する。また、ここでは、遮蔽された画像の特徴を合成し、すなわち、遮蔽された画像の高レベル特徴を合成するものとし、このように、画像生成詳細の不足によるノイズがモデルの精度に与える影響を効果的に回避することができる。したがって、トレーニングに合成された特徴を追加すると、検出の正確さが顕著に向上する。
【0039】
また、この方法では、データ特徴拡張ネットワークにより、遮蔽された画像でなく、遮蔽された画像の特徴を合成し、これは、画像から特徴へのモデル部分を減らすことに相当し、したがって、本方法におけるネットワークモデルは、画像を生成するネットワークモデルよりはるかに小さい。
【0040】
ここでは、遮蔽された画像の検出モデルのトレーニングにおいて、トレーニングデータグループを複数のロットに分割し、損失関数が収束するまで、勾配降下法を用いてモデルをトレーニングする。このトレーニングプロセスは当業者が従来のトレーニング方法を用いて実現することができ、ここでは説明を省略する。
【0041】
マスクマーク付きの遮蔽された画像により遮蔽された画像の特徴を合成する方法については、以下の実施形態と結合して説明する。
【0042】
任意選択的な実施形態では、前記方法は、さらに、前記元の遮蔽された画像及び前記遮蔽されない画像を取得するステップと、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップと、前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするステップと、を含む。
【0043】
上記のように、遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものである。したがって、遮蔽された画像の検出モデルをトレーニングする前に、まず、データ特徴拡張ネットワークをトレーニングする必要がある。この実施形態では、取得した元の遮蔽された画像に基づいてデータ特徴拡張ネットワークをトレーニングする。トレーニングされたデータ特徴拡張ネットワークは画像の元の特徴に接近する遮蔽された画像の特徴を合成することができる。
【0044】
このように、遮蔽検出モデルのトレーニングにおけるポジティブサンプルが足りないという問題を解決することができ、大量のポジティブサンプルの収集コストを節約し、また、遮蔽された画像の高レベル特徴を合成することにより、画像生成詳細の不足によるノイズがモデルの精度に与える影響を効果的に回避することができる。
【0045】
任意選択的な実施形態では、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップは、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するステップであって、前記指テンプレート画像は前記元の遮蔽された画像から指により遮蔽されない領域を除去した後の画像であり、前記指ではない画像は前記元の遮蔽された画像から指により遮蔽された領域を除去した後の画像であるステップと、トレーニングデータグループを生成するステップであって、各グループのトレーニングデータは1枚の指テンプレート画像と、1枚の指ではない画像と、1枚の元の遮蔽された画像とを含み、毎回のトレーニングには、複数グループのトレーニングデータを用いて前記データ特徴拡張ネットワークをトレーニングするステップと、を含む。
【0046】
図2はデータ特徴拡張ネットワークをトレーニングするプロセスを示す。ここで、Aは指テンプレート画像を示し、Bは指ではない画像を示し、Cは元の指により遮蔽された画像を示す。前述したように、その中の特徴ネットワークは遮蔽された画像の検出モデルに含まれる。データ特徴拡張ネットワークによって合成された遮蔽された画像の特徴及び特徴ネットワークによって抽出された元の遮蔽された画像の特徴を識別ネットワークに入力する。ネットワークはデータ特徴拡張ネットワークのトレーニングを補助するために用いられ、すなわち、トレーニングプロセスにおいて合成された遮蔽された画像の特徴と元の遮蔽された画像の特徴との間の差を減少し、それにより、データ特徴拡張ネットワークにより、拡張された遮蔽された画像の特徴を取得する。識別ネットワークはデータ特徴拡張ネットワークのトレーニングのみに用いられ、遮蔽された画像の検出モデルのトレーニングに用いられない。
【0047】
任意選択的な実施形態では、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するステップは、前記元の遮蔽された画像に基づいて、前記元の遮蔽された画像における遮蔽された位置を示すマスクデータを取得するステップと、前記元の遮蔽された画像及び前記マスクデータに基づいて、指テンプレート画像及び指ではない画像を生成するステップと、を含む。
【0048】
例えば、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するプロセスは、元の遮蔽された画像のマスクデータによって実現することができる。元の遮蔽された画像を取得した後、各画像中の指部分のマスクを手動でマークし、それにより、遮蔽された画像データ及びマスクデータを取得する。ここで、マスクデータは、元の遮蔽された画像の大きさと同じであり、遮蔽された領域に1が付けられ、指により遮蔽されない領域に0が付けられる画像である。各枚の元の遮蔽された画像及び対応するマスクデータで構成される画像に対して、トリミング及びアライメント操作により両者の大きさ及び対応する画素位置を一致させる。元の遮蔽された画像に対して、マスクデータの指により遮蔽されない領域の画素を0にセットすることにより、指テンプレート画像を取得し、元の遮蔽された画像に対して、マスクデータの指により遮蔽された領域の画素を0にセットすることにより、指ではない画像を取得する。
【0049】
元の遮蔽された画像の数が遮蔽されない画像の数よりはるかに少ないため、非常に多くの労力を費やして手動でマークする必要がない。本方法により、大量の遮蔽された画像の特徴を合成して、元の遮蔽された画像の特徴の不足を補うことができる。
【0050】
任意選択的な実施形態では、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするステップは、さらに、前記指テンプレート画像及び前記指ではない画像を前記データ特徴拡張ネットワークに入力することにより、前記元の遮蔽された画像の生成特徴を合成し、前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出するステップであって、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含むステップと、前記元の遮蔽された画像の生成特徴及び前記元の特徴を識別ネットワークに入力してトレーニングを行うステップと、毎回のトレーニングにおける前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数を取得するステップと、前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数がいずれかも収束した場合、前記データ特徴拡張ネットワークのトレーニングが完了したと決定するステップと、を含む。
【0051】
前述したように、指テンプレート画像、指ではない画像及び元の遮蔽された画像を1グループのトレーニングデータとして構成する。指テンプレート画像及び指ではない画像が元の遮蔽された画像及びマスクデータによって生成されるため、指テンプレート画像、指ではない画像、マスクデータ及び元の遮蔽された画像を1グループのトレーニングデータとして構成することもできる。つまり、複数グループのトレーニングデータによりデータ特徴拡張ネットワークをトレーニングする。データ特徴拡張ネットワークの各回のトレーニングにおいて、複数グループのトレーニングデータをランダムに抽出し、データ特徴拡張ネットワークを1回トレーニングする。トレーニングプロセスにおいて、データ特徴拡張ネットワーク及び前記識別ネットワークの損失関数を取得し、その損失関数が収束した場合、データ特徴拡張ネットワークのトレーニングが完了したと決定する。ここでの損失関数は、例えばHingeバージョンの敵対的損失関数であり、ここでは説明を省略する。
【0052】
任意選択的な実施形態では、前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするステップは、前記マスクデータ及び前記遮蔽されない画像に基づいて、処理後の遮蔽されない画像を取得するステップであって、前記処理後の遮蔽されない画像は前記遮蔽されない画像から前記マスクデータに対応する領域を除去した後の画像であるステップと、前記指テンプレート画像及び前記処理後の遮蔽されない画像を前記トレーニング後のデータ特徴拡張ネットワークに入力することにより、前記遮蔽されない画像の生成特徴を合成するステップと、前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出するステップであって、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含むステップと、前記遮蔽されない画像の生成特徴及び前記元の特徴を分類ネットワークに入力してトレーニングを行うステップであって、前記遮蔽された画像の検出モデルは前記分類ネットワークを含むステップと、前記遮蔽された画像の検出モデルの損失関数が収束した場合、前記遮蔽された画像の検出モデルのトレーニングが完了したと決定するステップと、を含む。
【0053】
この実施形態における遮蔽された画像の検出モデルのトレーニングプロセスは
図3を参照することができる。
図3は遮蔽された画像の検出モデルをトレーニングするプロセスを示す。ここで、データ特徴拡張ネットワーク、特徴ネットワーク及び分類ネットワーク(識別ネットワークと呼ばれてもよい)を含み、遮蔽された画像の検出モデルは特徴ネットワーク及び分類ネットワークを含む。データ特徴拡張ネットワークは拡張特徴、すなわち遮蔽された画像の特徴を合成するために用いられ、ここでの拡張特徴はネットワークによる画像特徴への識別の正確さを補強するために用いられ、特徴ネットワークは画像特徴を抽出するために用いられ、分類ネットワークは画像の特徴を分類するために用いられる。ここでAは指テンプレート画像を示し、Bは指ではない画像を示し、Cは元の遮蔽された画像を示し、Dは拡張特徴セットを示す。データ特徴拡張ネットワークにより遮蔽された画像の特徴を合成し、特徴ネットワークにより元の遮蔽された画像の元の特徴を取得し、合成特徴と元の特徴は拡張特徴セットを構成して、遮蔽された画像の検出モデルをトレーニングする。具体的にトレーニングする時に、遮蔽された画像の検出モデルの損失関数が収束するまで、勾配降下法を用いてトレーニングを行うことができる。ここでの遮蔽された画像の検出モデルの損失関数は特徴ネットワーク及び分類ネットワークを共同で最適化する損失関数であることが分かる。
【0054】
図4はトレーニング後の遮蔽された画像の検出モデルを示し、特徴ネットワーク及び分類ネットワークを含む。検出対象の画像をこのトレーニング後の遮蔽された画像の検出モデルに入力し、前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断し、検出結果を出力する。
【0055】
この実施形態では、生成特徴は遮蔽検出モデルの分類ネットワークのみを最適化し、ネットワーク全体を最適化する必要がなく、最適化のコスト上から全体的最適化と比べると、計算リソース及び時間コストがいずれもはるかに小さく、したがって、導入された余計なトレーニングコストが小さい。トレーニング時、既存の遮蔽検出モデルを十分に利用し且つ少量のパラメータを微調整することができ、余計なオーバーヘッドが小さい。また、分類タスクはいずれも「特徴抽出+特徴分類」という問題としてモデリングすることができ、したがって、他の分類タスクに対して、本開示における特徴拡張後に特徴分類ネットワークを最適化するという方法を採用することができ、したがって、この方法の拡張性及び汎用性が高く、他の分類タスクへ容易に拡張することができる。
【0056】
任意選択的な実施形態では、前記遮蔽された画像の検出モデルは畳み込みニューラルネットワークモデルである。
【0057】
具体的には、畳み込みニューラルネットワークモデルはshufflenetv2を用いることができる。このネットワークモデルのパラメータが少なく、大量の記憶及び計算リソースを節約することができる。
【0058】
任意選択的な実施形態では、前記データ特徴拡張ネットワークは敵対的生成ネットワークである。
【0059】
データ特徴拡張ネットワークは敵対的生成ネットワークであり、具体的には自己注意敵対的生成ネットワークである。当業者が分かるように、敵対的生成ネットワークは生成ネットワーク及び識別ネットワークを含む。
【0060】
以下、本開示による遮蔽された画像の検出の具体的な実施例について詳細に説明する。ここで、データ特徴拡張ネットワークは自己注意敵対的生成ネットワークであり、遮蔽された画像の検出モデルはShuffleNetv2ネットワークモデルであり、遮蔽された画像は指により遮蔽された画像である。
図5に示すように、この実施例は、以下のステップ501~509を含む。
【0061】
ステップ501において、複数枚の元の指により遮蔽された画像及び遮蔽されない画像を取得し、手動マークの方法によりこれらの元の指により遮蔽された画像のマスクデータを取得する。
【0062】
ステップ502において、元の指により遮蔽された画像及び対応するマスクデータに基づいて、それぞれの元の指により遮蔽された画像の指テンプレート画像及び指ではない画像を取得する。
【0063】
ステップ503において、各枚の元の指により遮蔽された画像、対応する指テンプレート画像及び指ではない画像を1グループのトレーニングデータとして構成する。
【0064】
ステップ504において、データ特徴拡張ネットワークの各回のトレーニングにおいて、以上得られたトレーニングデータから複数グループのトレーニングデータをランダムに選択し、指テンプレート画像及び指ではない画像をデータ特徴拡張ネットワークに入力し、元の指により遮蔽された画像を特徴ネットワークに入力し、トレーニングを行う。
【0065】
ステップ505において、毎回のトレーニングのデータ特徴拡張ネットワーク及び識別ネットワークの損失関数を取得し、損失関数が収束した場合、データ特徴拡張ネットワークのトレーニングが完了したと決定する。
【0066】
ステップ506において、トレーニング後のデータ特徴拡張ネットワークにより遮蔽されない画像の生成特徴を合成し、特徴ネットワークにより元の遮蔽された画像の元の特徴を抽出する。
【0067】
ステップ507において、生成特徴及び元の特徴を分類ネットワークに入力して遮蔽された画像の検出モデルをトレーニングする。
【0068】
ステップ508において、遮蔽された画像の検出モデルの損失関数が収束する時、トレーニングを完了する。
【0069】
ステップ509において、検出対象の画像をトレーニング後の指により遮蔽された画像の検出モデルに入力することで、前記検出対象の画像が指により遮蔽された画像であるか否かを決定する。
【0070】
この実施例では、トレーニング後の遮蔽された画像の検出モデルを用いて検出対象の画像を検出する前に、2つのトレーニングプロセスを実行する必要がある。1つはデータ特徴拡張ネットワークをトレーニングすることであり、もう1つはトレーニング後のデータ特徴拡張ネットワークを用いて遮蔽された画像の検出モデルをトレーニングすることである。データ特徴拡張ネットワークのトレーニングは
図2を参照することができ、遮蔽された画像の検出モデルのトレーニングは
図3を参照することができる。
【0071】
本開示は、さらに、遮蔽された画像の検出装置を提供し、
図6に示すように、前記装置は、カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするように構成される取得モジュール601と、検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するように構成される入力モジュール602と、画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮断された画像であるか否かを判断するように構成される前記遮蔽された画像の検出モデル603であって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるものと、前記画像検出結果を出力するように構成される出力モジュール604と、を含む。
【0072】
任意選択的な実施形態では、前記遮蔽された画像の検出モデル603はトレーニングモジュールによってトレーニングされ、前記トレーニングモジュールは、前記元の遮蔽された画像及び前記遮蔽されない画像を取得し、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングし、前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするように構成される。
【0073】
任意選択的な実施形態では、前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするように構成され、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成し、前記指テンプレート画像は前記元の遮蔽された画像から指により遮蔽されない領域を除去した後の画像であり、前記指ではない画像は前記元の遮蔽された画像から指により遮蔽された領域を除去した後の画像であり、トレーニングデータグループを生成し、各グループのトレーニングデータは1枚の指テンプレート画像と、1枚の指ではない画像と、1枚の元の遮蔽された画像とを含み、毎回のトレーニングには、複数グループのトレーニングデータを用いて前記データ特徴拡張ネットワークをトレーニングする。
【0074】
任意選択的な実施形態では、前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて、指テンプレート画像及び指ではない画像を生成するように構成され、前記元の遮蔽された画像に基づいて、前記元の遮蔽された画像における遮蔽された位置を示すマスクデータを取得し、前記元の遮蔽された画像及び前記マスクデータに基づいて、指テンプレート画像及び指ではない画像を生成する。
【0075】
任意選択的な実施形態では、前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像に基づいて前記データ特徴拡張ネットワークをトレーニングするように構成され、前記指テンプレート画像及び前記指ではない画像を前記データ特徴拡張ネットワークに入力することにより、前記元の遮蔽された画像の生成特徴を合成し、前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出し、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含み、前記元の遮蔽された画像の生成特徴及び前記元の特徴を識別ネットワークに入力してトレーニングを行い、毎回のトレーニングにおける前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数を取得し、前記データ特徴拡張ネットワークの損失関数及び前記識別ネットワークの損失関数がいずれかも収束した場合、前記データ特徴拡張ネットワークのトレーニングが完了したと決定する。
【0076】
任意選択的な実施形態では、前記トレーニングモジュールは、さらに、以下の方式により、前記元の遮蔽された画像及び前記遮蔽されない画像に基づき、トレーニング後のデータ特徴拡張ネットワークを利用して、前記遮蔽された画像の検出モデルをトレーニングするように構成され、前記マスクデータ及び前記遮蔽されない画像に基づいて、処理後の遮蔽されない画像を取得し、前記処理後の遮蔽されない画像は前記遮蔽されない画像から前記マスクデータに対応する領域を除去した後の画像であり、前記指テンプレート画像及び前記処理後の遮蔽されない画像を前記トレーニング後のデータ特徴拡張ネットワークに入力することにより、前記遮蔽されない画像の生成特徴を合成し、前記元の遮蔽された画像を特徴ネットワークに入力することにより、前記元の遮蔽された画像の元の特徴を抽出し、前記遮蔽された画像の検出モデルは前記特徴ネットワークを含み、前記遮蔽されない画像の生成特徴及び前記元の特徴を分類ネットワークに入力してトレーニングを行い、前記遮蔽された画像の検出モデルは前記分類ネットワークを含み、前記遮蔽された画像の検出モデルの損失関数が収束した場合、前記遮蔽された画像の検出モデルのトレーニングが完了したと決定する。
【0077】
任意選択的な実施形態では、前記遮蔽された画像の検出モデルは畳み込みニューラルネットワークモデルである。
【0078】
任意選択的な実施形態では、前記データ特徴拡張ネットワークは敵対的生成ネットワークである。
【0079】
上記実施例における装置について、その中の各モジュールが操作を実行する具体的な方式は、この方法に係る実施例において詳細に説明され、ここでは詳細に説明しない。
【0080】
本開示の方法は、以下の有益な効果を有する。
(1)少量のマスクマーク付きの指により遮蔽された画像を利用して、遮蔽された画像の特徴を生成するように生成モデルを安定的にトレーニングすることができ、それにより、指による遮蔽を検出するモデルのトレーニングにおけるポジティブサンプルが足りないという問題を効果的に解決することができ、大量のポジティブサンプルの収集コストを節約する。
(2)遮蔽された画像の高レベル特徴を直接生成することは、画像生成詳細の不足によるノイズがモデルの精度に与える影響を効果的に回避することができる。すなわち、生成された特徴をトレーニングに追加すると、検出の正確さが顕著に向上する。
(3)生成された特徴は指による遮蔽を検出するモデルの分類ネットワークのみに対して再最適化を行い、導入された余計なトレーニングのコストが小さい。そして、既存の指による遮蔽を検出するモデルを十分に利用し且つ少量のパラメータを微調整することができ、余計なオーバーヘッドが小さい。
(4)ネットワークモデルパラメータが少なく、大量の記憶及び計算リソースを節約することができる。
(5)この方法は、拡張性及び汎用性が高く、他の分類タスクへ容易に拡張することができる。
【0081】
図7は例示的な実施例による遮蔽された画像の検出装置700のブロック図である。
【0082】
図7に示すように、装置700は、処理コンポーネント702、メモリ704、電力コンポーネント706、マルチメディアコンポーネント708、オーディオコンポーネント710、入力/出力(I/O)インタフェース712、センサコンポーネント714、及び通信コンポーネント716のうち1つ又は複数のコンポーネントを含むことができる。
【0083】
処理コンポーネント702は、一般的に、表示、電話呼び出し、データ通信、カメラ操作及び記録操作に関連する操作のような装置700の全体操作を制御するものである。処理コンポーネント702は1つ又は複数のプロセッサ720を含んで命令を実行することで、上記方法の全部又は一部のステップを完了することができる。また、処理コンポーネント702は1つ又は複数のモジュールを含むことができ、処理コンポーネント702と他のコンポーネントとの間のインタラクションを容易にする。例えば、マルチメディアコンポーネント708と処理コンポーネント702との間のインタラクションを容易にするように、処理コンポーネント702はマルチメディアモジュールを含むことができる。
【0084】
メモリ704は、装置700での操作をサポートするように、各種のデータを記憶するように構成される。これらのデータの例は、装置700上で操作されるいかなるアプリケーションプログラムや方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャ、映像などを含む。メモリ704は、例えば、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブルリードオンリーメモリ(EEPROM)、消去可能プログラマブルリードオンリーメモリ(EPROM)、プログラマブルリードオンリーメモリ(PROM)、リードオンリーメモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクのようなあらゆる種類の揮発性若しくは不揮発性記憶機器又はそれらの組み合わせにより実現することができる。
【0085】
電力コンポーネント706は、装置700の各種のコンポーネントに電力を供給する。電力コンポーネント706は、電源管理システム、1つ又は複数の電源、及び装置700のために電力を生成し、管理し、分配することに関連する他のコンポーネントを含むことができる。
【0086】
マルチメディアコンポーネント708は前記装置700とユーザとの間にある、出力インタフェースを提供する画面を含む。いくつかの実施例では、画面は液晶ディスプレイ(LCD)とタッチパネル(TP)を含むことができる。画面がタッチパネルを含む場合、画面はタッチパネルとして実現されることで、ユーザからの入力信号を受信することができる。タッチパネルは、タッチ、スライド及びタッチパネル上のジェスチャを感知するように、1つ又は複数のタッチセンサを含む。前記タッチセンサはタッチ又はスライド動作の境界を感知するだけでなく、さらに前記タッチ又はスライド動作に関連する持続時間及び圧力を検出することができる。いくつかの実施例では、マルチメディアコンポーネント708は1つのフロントカメラ及び/又はリアカメラを含む。装置700が、例えば撮影モード又は映像モードのような操作モードにある場合、フロントカメラ及び/又はリアカメラは外部のマルチメディアデータを受信することができる。それぞれのフロントカメラ及びリアカメラは、固定した光学レンズシステム、又は焦点距離及び光学ズーム機能を有するものであってもよい。
【0087】
オーディオコンポーネント710は、音声信号を出力及び/又は入力するように構成される。例えば、オーディオコンポーネント710は、1つのマイク(MIC)を含み、装置700が、例えば呼び出しモード、記録モード及び音声認識モードのような操作モードにある場合、マイクは外部音声信号を受信するように構成される。受信した音声信号は、さらに、メモリ704に記憶するか、又は通信コンポーネント716を介して送信することができる。いくつかの実施例では、オーディオコンポーネント710は、さらに、音声信号を出力するために、1つのスピーカを含む。
【0088】
I/Oインタフェース712は処理コンポーネント702と周辺インタフェースモジュールとの間にインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、音量ボタン、スタートボタン及びロックボタンを含むことができるが、これらに限定されるものではない。
【0089】
センサコンポーネント714は、装置700に各態様の状態評価を提供するために、1つ又は複数のセンサを含む。例えば、センサコンポーネント714は、装置700のオン/オフ状態、コンポーネントの相対的な位置決めを検出することができ、例えば、前記コンポーネントは装置700のディスプレイ及びキーボードであり、センサコンポーネント714は、さらに、装置700又は装置700の1つのコンポーネントの位置変化、ユーザと装置700が接触するか否か、装置700の方位又は加速/減速、及び装置700の温度変化を検出することができる。センサコンポーネント714は、いかなる物理的接触がない場合に付近の物体の存在を検出するために構成される近接センサを含むことができる。センサコンポーネント714は、さらに、例えばCMOSやCCDイメージセンサのような、イメージング応用に使用するための光センサを含むことができる。いくつかの実施例では、このセンサコンポーネント714は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサをさらに含むことができる。
【0090】
通信コンポーネント716は、装置700と他の装置との間の有線又は無線方式の通信を容易にするように構成される。装置700は、例えばWiFi、2G若しくは3G、又はそれらの組み合わせのような、通信規格に基づく無線ネットワークにアクセスすることができる。例示的な一実施例では、通信コンポーネント716は、ブロードキャストチャネルを介して、外部ブロードキャスト管理システムからのブロードキャスト信号又はブロードキャスト関連情報を受信する。例示的な一実施例では、近距離通信を促進するように、前記通信コンポーネント716は、さらに、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT;登録商標)技術及びその他の技術に基づいて実現することができる。
【0091】
例示的な実施例では、装置700は1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子部品によって実現され、上記方法を実行するために用いることができる。
【0092】
例示的な実施例では、さらに、命令を含む非一時的コンピュータ読み取り可能な記憶媒体を提供し、例えば命令を含むメモリ704が挙げられ、上記命令は装置700のプロセッサ720によって実行されることで上記方法を完了することができる。例えば、前記非一時的コンピュータ読み取り可能な記憶媒体はROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピーディスク、及び光データ記憶装置などであってもよい。
【0093】
非一時的コンピュータ読み取り可能な記憶媒体であって、前記記憶媒体における命令が移動端末のプロセッサによって実行される場合、移動端末は遮蔽された画像の検出方法を実行することができ、前記方法は、カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とするステップと、検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力するステップであって、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであるステップと、前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断するステップと、前記画像検出結果を出力するステップと、を含む。
【0094】
図8は例示的な実施例による遮蔽された画像の検出装置800のブロック図である。例えば、装置800はサーバとして提供することができる。
図8に示すように、装置800は、処理コンポーネント822を含み、それは、さらに、1つ又は複数のプロセッサと、メモリ832に代表されるメモリリソースであって、処理コンポーネント822によって実行可能な命令、例えばアプリケーションプログラムを記憶するためのものとを含む。メモリ832に記憶されるアプリケーションプログラムは、それぞれが1グループの命令に対応する1つ以上のモジュールを含むことができる。また、処理コンポーネント822は、命令を実行することで、上記方法を実行するように構成され、上記方法は、カメラによって画像を撮影した後、前記画像を取得して検出対象の画像とし、検出対象の画像をトレーニング後の遮蔽された画像の検出モデルに入力し、ここで、前記遮蔽された画像の検出モデルは元の遮蔽された画像、遮蔽されない画像を採用し、且つトレーニング後のデータ特徴拡張ネットワークを利用してトレーニングされたものであり、前記遮蔽された画像の検出モデルにおける画像に関する遮蔽特性に基づいて、前記検出対象の画像が遮蔽された画像であるか否かを判断し、前記画像検出結果を出力することである。
【0095】
装置800は、さらに、装置800の電源管理を実行するように構成される1つの電源コンポーネント826と、装置800をネットワークに接続するように構成される1つの有線又は無線ネットワークインタフェース850と、入出力(I/O)インタフェース858と、を含むことができる。装置800はメモリ832に記憶されたオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、Linux(登録商標)、FreeBSDTM又は類似するものを操作することができる。
【0096】
当業者は、明細書を考慮し、ここで開示された発明を実施すると、本発明の他の実施形態を容易に想到し得る。本願は本発明のいずれかの変形、用途又は適応的変化をカバーすることを意図しており、これらの変形、用途又は適応的変化は本発明の一般的な原理に従い、本開示に開示されていない本技術分野における周知の知識又は慣用技術手段を含む。明細書及び実施例は単なる例示的なものとして見なされ、本発明の真の範囲及び趣旨は特許請求の範囲によって示される。
【0097】
本発明は、以上に記載され且つ図面において示された精確な構造に制限されるものではなく、その範囲から逸脱せず、様々な補正及び変化を行うことができる。本発明の範囲は、添付の特許請求の範囲のみによって制限される。