IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京市商▲湯▼科技▲開▼▲発▼有限公司の特許一覧

特許7238141顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム
<>
  • 特許-顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム 図1
  • 特許-顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム 図2
  • 特許-顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム 図3
  • 特許-顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム 図4
  • 特許-顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム 図5
  • 特許-顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム 図6
  • 特許-顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム 図7
  • 特許-顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム 図8
  • 特許-顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム 図9
  • 特許-顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム 図10
  • 特許-顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-03
(45)【発行日】2023-03-13
(54)【発明の名称】顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230306BHJP
【FI】
G06T7/00 660
G06T7/00 350C
【請求項の数】 15
(21)【出願番号】P 2021538256
(86)(22)【出願日】2019-11-26
(65)【公表番号】
(43)【公表日】2022-03-11
(86)【国際出願番号】 CN2019120901
(87)【国際公開番号】W WO2021051650
(87)【国際公開日】2021-03-25
【審査請求日】2021-06-29
(31)【優先権主張番号】201910882139.6
(32)【優先日】2019-09-18
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】519454811
【氏名又は名称】北京市商▲湯▼科技▲開▼▲発▼有限公司
【氏名又は名称原語表記】BEIJING SENSETIME TECHNOLOGY DEVELOPMENT CO., LTD.
【住所又は居所原語表記】Room 710-712, 7th Floor, 3rd Building, 1st Courtyard, Zhongguancun East Road, Haidian District, Beijing 100084 China
(74)【代理人】
【識別番号】110002468
【氏名又は名称】弁理士法人後藤特許事務所
(72)【発明者】
【氏名】楊 昆霖
(72)【発明者】
【氏名】顔 鯤
(72)【発明者】
【氏名】候 軍
(72)【発明者】
【氏名】伊 帥
【審査官】伊知地 和之
(56)【参考文献】
【文献】中国特許出願公開第109508681(CN,A)
【文献】米国特許出願公開第2019/0171870(US,A1)
【文献】中国特許出願公開第109614876(CN,A)
【文献】中国特許出願公開第109711273(CN,A)
【文献】中国特許出願公開第108764164(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
CSDB(日本国特許庁)
(57)【特許請求の範囲】
【請求項1】
顔と手を関連付けて検出する方法であって、
人物オブジェクトの画像である第1の画像を取得することと、
前記第1の画像に対して特徴抽出を行い、複数のスケールの第1の特徴図を得ることと、
前記複数のスケールの第1の特徴図に対して特徴融合処理を行い、前記第1の特徴図とスケールが一々対応する、複数のスケールの第2の特徴図を得ることと、
得られた前記複数のスケールの第2の特徴図に基づいて、前記第1の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出することと、を含み、
得られた前記複数のスケールの第2の特徴図に基づいて、前記第1の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出することは、
前記複数のスケールの第2の特徴図のうち少なくとも1つの第2の特徴図に対して畳み込み処理を行い、前記第1の画像における同一の人物オブジェクトについての関連性のある顔位置及び手位置を得ることを含む、
ことを特徴とする方法。
【請求項2】
第1の画像を取得することは、
少なくとも1つの人物オブジェクトを含む画像である第2の画像を取得することと、
前記第2の画像に対して対象となる人体の検出を行い、前記第2の画像における前記少なくとも1つの人物オブジェクトのうちいずれかの人物オブジェクトの検出枠を得ることと、
前記第2の画像において前記いずれかの人物オブジェクトの前記検出枠に対応する画像領域を、前記いずれかの人物オブジェクトの第1の画像として決定することと、を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記第1の画像に対して特徴抽出を行い、複数のスケールの第1の特徴図を得ることは、
前記第1の画像を予め設定されたスケールの第3の画像に調整することと、
前記第3の画像を残差ネットワークに入力して前記複数のスケールの第1の特徴図を得ることと、を含むことを特徴とする請求項1または2に記載の方法。
【請求項4】
前記複数のスケールの第1の特徴図に対して特徴融合処理を行い、複数のスケールの第2の特徴図を得ることは、
前記複数のスケールの第1の特徴図を特徴ピラミッドネットワークに入力し、前記特徴ピラミッドネットワークにより前記特徴融合処理を行い、前記複数のスケールの第2の特徴図を得ることを含むことを特徴とする請求項1~3のいずれか1項に記載の方法。
【請求項5】
スケールの大きい順に、前記複数の第1の特徴図を{C,...,C}として表し、ただし、nは、第1の特徴図の数を表し、1より大きい整数であり、
前記複数のスケールの第1の特徴図に対して特徴融合処理を行い、複数のスケールの第2の特徴図を得ることは、
第1の畳み込みカーネルを用いて第1の特徴図Cに対して畳み込み処理を行って前記第1の特徴図Cに対応する第2の特徴図Fを得ることであって、前記第1の特徴図Cのスケールと前記第2の特徴図Fのスケールとが同じであることと、
前記第2の特徴図Fに対して線形補間処理を行って前記第2の特徴図Fに対応する第1の中間特徴図Fを取得することであって、前記第1の中間特徴図Fのスケールと第1の特徴図Cn-1のスケールとが同じであることと、
第2の畳み込みカーネルを用いて前記第1の特徴図C以外の第1の特徴図Cに対して畳み込み処理を行って前記第1の特徴図Cに対応する第2の中間特徴図Cを得ることであって、前記第2の中間特徴図Cのスケールと第1の中間特徴図Fi+1のスケールとが同じであり、iは1以上、n未満の整数変数であることと、
前記第2の中間特徴図C及び対応する前記第1の中間特徴図Fi+1を用いて前記第2の特徴図F以外の第2の特徴図Fを得ることであって、前記第1の中間特徴図Fi+1が、対応する前記第2の特徴図Fi+1を線形補間して得られたものであることとを含むことを特徴とする請求項1~4のいずれか1項に記載の方法。
【請求項6】
前記第2の中間特徴図C及び対応する前記第1の中間特徴図Fi+1を用いて前記第2の特徴図F以外の第2の特徴図Fを得ることは、
前記第2の中間特徴図Cと対応する前記第1の中間特徴図Fi+1とを加算処理し、前記第2の特徴図Fを得ることを含むことを特徴とする請求項5に記載の方法。
【請求項7】
得られた前記複数のスケールの第2の特徴図に基づいて、前記第1の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出することは、
前記複数のスケールの第2の特徴図のうちスケールが最大の第2の特徴図に対して畳み込み処理を行い、前記顔位置を示すマスクマップ及び前記手位置を示すマスクマップをそれぞれ得ることと、
前記顔位置のマスクマップ及び前記手位置のマスクマップに基づいて前記第1の画像において関連性のある手と顔が位置する位置領域を決定することとを含むことを特徴とする請求項1~6のいずれか1項に記載の方法。
【請求項8】
前記第1の画像に前記関連性のある手と顔を強調表示することと、
前記第1の画像において検出された関連性のある顔位置と手位置に同じラベルを割り当てることとの少なくとも1つを含むことを特徴とする請求項1~7のいずれか1項に記載の方法。
【請求項9】
ニューラルネットワークにより実現される方法であって、前記ニューラルネットワークをトレーニングするステップは、
人物オブジェクトを含む画像であって、関連性のある顔位置及び手位置の真のラベル情報を有するトレーニング画像を取得することと、
前記トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークにより前記トレーニング画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を予測することと、
予測された関連性のある前記顔位置と前記手位置、及び前記ラベル情報に基づいてネットワーク損失を決定し、前記ネットワーク損失に基づいて、トレーニング要求を満たすまで前記ニューラルネットワークのネットワークパラメータを調整することとを含むことを特徴とする請求項1~8のいずれか1項に記載の方法。
【請求項10】
顔と手を関連付けて検出する装置であって、
人物オブジェクトの画像である第1の画像を取得するための取得モジュールと、
前記第1の画像に対して特徴抽出を行い、複数のスケールの第1の特徴図を得るための特徴抽出モジュールと、
前記複数のスケールの第1の特徴図に対して特徴融合処理を行い、前記第1の特徴図とスケールが一々対応する、複数のスケールの第2の特徴図を得るための融合モジュールと、
得られた前記複数のスケールの第2の特徴図に基づいて、前記第1の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出するための検出モジュールとを含み、
前記検出モジュールは、前記複数のスケールの第2の特徴図のうち少なくとも1つの第2の特徴図に対して畳み込み処理を行い、前記第1の画像における同一の人物オブジェクトについての関連性のある顔位置及び手位置を得る、
ことを特徴とする装置。
【請求項11】
前記検出モジュールはさらに、
前記複数のスケールの第2の特徴図のうちスケールが最大の第2の特徴図に対して畳み込み処理を行い、前記顔位置を示すマスクマップ及び前記手位置を示すマスクマップをそれぞれ得ることと、
前記顔位置のマスクマップ及び前記手位置のマスクマップに基づいて前記第1の画像において関連性のある手と顔が位置する位置領域を決定することとに用いられることを特徴とする請求項10に記載の装置。
【請求項12】
前記特徴抽出モジュール、前記融合モジュール、および前記検出モジュールに適用されるニューラルネットワークを含み、
前記ニューラルネットワークをトレーニングするためのトレーニングモジュールを更に含み、
前記ニューラルネットワークをトレーニングするステップは、
人物オブジェクトを含む画像であって、関連性のある顔位置及び手位置の真のラベル情報を有するトレーニング画像を取得することと、
前記トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークにより前記トレーニング画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を予測することと、
予測された関連性のある前記顔位置と前記手位置、及び前記ラベル情報に基づいてネットワーク損失を決定し、前記ネットワーク損失に基づいて、トレーニング要求を満たすまで前記ニューラルネットワークのネットワークパラメータを調整することとを含む、ことを特徴とする請求項10または11に記載の装置。
【請求項13】
プロセッサと、
プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、請求項1~9のいずれか1項に記載の方法を実行するために、前記メモリに記憶された命令を呼び出すように構成されることを特徴とする電子機器。
【請求項14】
コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、請求項1~9のいずれか1項に記載の方法を実現させることを特徴とするコンピュータ可読記憶媒体。
【請求項15】
コンピュータで読み取り可能なコードを含むコンピュータプログラムであって、前記コンピュータで読み取り可能なコードが電子機器において実行されると、前記電子機器のプロセッサに請求項1~9のいずれか1項に記載の方法を実現するための命令を実行させることを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示はコンピュータビジュアル技術の分野に関し、特に人の顔と手の位置を検出する方法及び装置、電子機器並びに記憶媒体に関する。
【背景技術】
【0002】
人体の顔、手を関連付けるとは、検出された顔と手を関連付け、この関連付けられた情報に基づいて手で行われたある操作をある具体的な人間に対応させることである。
【0003】
人体において顔と手とが比較的遠く離れるため、位置情報により直接に関連付けることはできない。そのため、従来技術において、通常、キーポイント技術及び物体検出技術を用いて、対応する顔の枠と手の枠とを関連付けることになる。
【発明の概要】
【0004】
本開示は画像処理において顔と手を検出する発明を提案する。
【0005】
本開示の一側面では、顔と手を関連付けて検出する方法であって、人物オブジェクトの画像である第1の画像を取得することと、前記第1の画像に対して特徴抽出を行い、複数のスケールの第1の特徴図を得ることと、前記複数のスケールの第1の特徴図に対して特徴融合処理を行い、前記第1の特徴図とスケールが一々対応する、複数のスケールの第2の特徴図を取得することと、得られた前記複数のスケールの第2の特徴図に基づいて、前記第1の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出することと、を含む方法を提供する。上記構成により、本開示の実施例は画像における互いに関連性のある顔と手の位置を簡単で容易に得られるとともに、検出精度を高めることができる。
【0006】
いくつかの可能な実施形態では、第1の画像を得ることは、少なくとも1つの人物オブジェクトを含む画像である前記第2の画像を得ることと、前記第2の画像に対して対象となる人体の検出を行い、前記第2の画像における前記少なくとも1つの人物オブジェクトのうちいずれかの人物オブジェクトの検出枠を得ることと、前記第2の画像において前記いずれかの人物オブジェクトの前記検出枠に対応する画像領域を、前記いずれかの人物オブジェクトの第1の画像として決定することと、を含む。上記構成により、本開示の実施例で得られた第1の画像において他の環境要素の影響が除去されたため、検出精度を更に高めることができる。
【0007】
いくつかの可能な実施形態では、前記第1の画像に対して特徴抽出を行い、複数のスケールの第1の特徴図を得ることは、前記第1の画像を予め設定されたスケールの第3の画像に調整することと、前記第3の画像を残差ネットワークに入力して前記複数のスケールの第1の特徴図を得ることと、を含む。上記構成により、画像のスケールの統一を実現することができ、適用性を高めることができる。
【0008】
いくつかの可能な実施形態では、前記複数のスケールの第1の特徴図に対して特徴融合処理を行い、複数のスケールの第2の特徴図を得ることは、前記複数のスケールの第1の特徴図を特徴ピラミッドネットワークに入力し、前記特徴ピラミッドネットワークにより前記特徴融合処理を行い、前記複数のスケールの第2の特徴図を得ることを含む。上記構成により、得られた複数のスケールの第2の特徴図の特徴精度を高めることができる。
【0009】
いくつかの可能な実施形態では、スケールの大きい順に、前記複数の第1の特徴図を{C1,...,Cn}として表し、ただし、nは、第1の特徴図の数を表し、1より大きい整数であり、前記複数のスケールの第1の特徴図に対して特徴融合処理を行い、複数のスケールの第2の特徴図を得ることは、第1の畳み込みカーネルを用いて第1の特徴図Cnに対して畳み込み処理を行って前記第1の特徴図Cnに対応する第2の特徴図Fnを得ることであって、前記第1の特徴図Cnのスケールと前記第2の特徴図Fnのスケールとが同じであることと、前記第2の特徴図Fnに対して線形補間処理を行って前記第2の特徴図Fnに対応する第1の中間特徴図Fnを取得することであって、前記第1の中間特徴図Fnのスケールと第1の特徴図Cn-1のスケールとが同じであることと、第2の畳み込みカーネルを用いて前記第1の特徴図Cn以外の第1の特徴図Ciに対して畳み込み処理を行って前記第1の特徴図Ciに対応する第2の中間特徴図Ciを得ることであって、前記第2の中間特徴図Ciのスケールと第1の中間特徴図Fi+1のスケールとが同じであり、iは1以上、n未満の整数変数であることと、前記第2の中間特徴図Ci及び対応する前記第1の中間特徴図Fi+1を用いて前記第2の特徴図Fn以外の第2の特徴図Fiを得ることであって、前記第1の中間特徴図Fi+1が、対応する前記第2の特徴図Fi+1を線形補間して得られたものであることとを含む。上記構成により、スケールが異なる特徴情報を融合することができ、特徴精度を更に高めることができる。
【0010】
いくつかの可能な実施形態では、前記第2の中間特徴図Ci及び対応する前記第1の中間特徴図Fi+1を用いて前記第2の特徴図Fn以外の第2の特徴図Fiを得ることは、前記第2の中間特徴図Ciと対応する前記第1の中間特徴図Fi+1とを加算処理し、前記第2の特徴図Fiを得ることを含む。上記構成により、2つの中間特徴の特徴情報を有効に融合することができる。
【0011】
いくつかの可能な実施形態では、得られた前記複数のスケールの第2の特徴図に基づいて、前記第1の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出することは、前記複数のスケールの第2の特徴図のうちスケールが最大の第2の特徴図に対して畳み込み処理を行い、前記顔位置を示すマスクマップ及び前記手位置を示すマスクマップをそれぞれ得ることと、前記顔位置のマスクマップ及び前記手位置のマスクマップに基づいて前記第1の画像において関連性のある手と顔が位置する位置領域を決定することと、を含む。上記構成により、関連性のある顔と手の位置を容易に予測して表すことができる。
【0012】
いくつかの可能な実施形態では、前記複数のスケールの第1の特徴図間のスケールの関係は、L(Ci-1)=2k1・L(Ci)且つW(Ci-1)=2k1・W(Ci)であり、ただし、Ciは各第1の特徴図を表し、L(Ci)は前記第1の特徴図Ciの長さを表し、W(Ci)は前記第1の特徴図Ciの幅を表し、k1は1以上の整数であり、iは変数であって、且つiの範囲は[2,n]であり、nは第1の特徴図の数を表す。
【0013】
いくつかの可能な実施形態では、前記方法は、前記第1の画像に前記関連性のある手と顔を強調表示することと、前記第1の画像において検出された関連性のある顔位置と手位置に同じラベルを割り当てることとの少なくとも1つを含む。上記構成により、関連性のある顔と手が位置する画像領域を直観的に表すとともに、異なる人物オブジェクトの関連性検出結果を有効に区別することができる。
【0014】
いくつかの可能な実施形態では、前記方法は、ニューラルネットワークにより実現され、前記ニューラルネットワークをトレーニングするステップは、人物オブジェクトを含む画像であって、関連性のある顔位置及び手位置の真のラベル情報を有するトレーニング画像を取得することと、前記トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークにより前記トレーニング画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を予測することと、予測された関連性のある前記顔位置と手位置、及び前記ラベル情報に基づいてネットワーク損失を決定し、前記ネットワーク損失に基づいて、トレーニング要求を満たすまで前記ニューラルネットワークのネットワークパラメータを調整することと、を含む。上記構成により、ニューラルネットワークの最適化のトレーニングを実現することができ、ネットワークの検出精度を確保することができる。
【0015】
本開示の第2の側面では、顔と手を関連付けて検出する装置であって、人物オブジェクトの画像である第1の画像を取得するための取得モジュールと、前記第1の画像に対して特徴抽出を行い、複数のスケールの第1の特徴図を得るための特徴抽出モジュールと、前記複数のスケールの第1の特徴図に対して特徴融合処理を行い、前記第1の特徴図とスケールが一々対応する、複数のスケールの第2の特徴図を得るための融合モジュールと、得られた前記複数のスケールの第2の特徴図に基づいて、前記第1の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出するための検出モジュールと、を含む装置を提供する。
【0016】
いくつかの可能な実施形態では、前記取得モジュールは、少なくとも1つの人物オブジェクトを含む画像である第2の画像を取得するための取得ユニットと、前記第2の画像に対して対象となる人体の検出を行い、前記第2の画像における前記少なくとも1つの人物オブジェクトのうちいずれかの人物オブジェクトの検出枠を得るための対象検出ユニットと、前記第2の画像において前記いずれかの人物オブジェクトの前記検出枠に対応する画像領域を、前記いずれかの人物オブジェクトの第1の画像として決定するための決定ユニットと、を含む。
【0017】
いくつかの可能な実施形態では、前記特徴抽出モジュールはさらに、前記第1の画像を予め設定されたスケールの第3の画像に調整することと、前記第3の画像を残差ネットワークに入力して前記複数のスケールの第1の特徴図を得ることと、に用いられる。
【0018】
いくつかの可能な実施形態では、前記融合ユニットさらに、前記複数のスケールの第1の特徴図を特徴ピラミッドネットワークに入力し、前記特徴ピラミッドネットワークにより前記特徴融合処理を行い、前記複数のスケールの第2の特徴図を得ることに用いられる。
【0019】
いくつかの可能な実施形態では、スケールの大きい順に、前記複数の第1の特徴図を{C1,...,Cn}として表し、ただし、nは、第1の特徴図の数を表し、1より大きい整数であり、前記融合モジュールはさらに、第1の畳み込みカーネルを用いて第1の特徴図Cnに対して畳み込み処理を行って前記第1の特徴図Cnに対応する第2の特徴図Fnを得ることであって、前記第1の特徴図Cnのスケールと前記第2の特徴図Fnのスケールとが同じであることと、前記第2の特徴図Fnに対して線形補間処理を行って前記第2の特徴図Fnに対応する第1の中間特徴図Fnを取得することであって、前記第1の中間特徴図Fnのスケールと第1の特徴図Cn-1のスケールとが同じであることと、第2の畳み込みカーネルを用いて前記第1の特徴図Cn以外の第1の特徴図Ciに対して畳み込み処理を行って前記第1の特徴図Ciに対応する第2の中間特徴図Ciを得ることであって、前記第2の中間特徴図Ciのスケールと第1の中間特徴図Fi+1のスケールとが同じであり、iは1以上、n未満の整数変数であることと、前記第2の中間特徴図Ci及び対応する前記第1の中間特徴図Fi+1を用いて前記第2の特徴図Fn以外の第2の特徴図Fiを得ることであって、前記第1の中間特徴図Fi+1が、対応する前記第2の特徴図Fi+1を線形補間して得られたものであることとに用いられる。
【0020】
いくつかの可能な実施形態では、前記融合モジュールはさらに、前記第2の中間特徴図Ciと対応する前記第1の中間特徴図Fi+1とを加算処理し、前記第2の特徴図Fiを得ることに用いられる。
【0021】
いくつかの可能な実施形態では、前記検出モジュールはさらに、前記複数のスケールの第2の特徴図のうちスケールが最大の第2の特徴図に対して畳み込み処理を行い、前記顔位置を示すマスクマップ及び前記手位置を示すマスクマップをそれぞれ得ることと、前記顔位置のマスクマップ及び前記手位置のマスクマップに基づいて前記第1の画像において関連性のある手と顔が位置する位置領域を決定することと、に用いられる。
【0022】
いくつかの可能な実施形態では、前記複数のスケールの第1の特徴図間のスケールの関係は、L(Ci-1)=2k1・L(Ci)且つW(Ci-1)=2k1・W(Ci)であり、ただし、Ciは各第1の特徴図を表し、L(Ci)は前記第1の特徴図Ciの長さを表し、W(Ci)は前記第1の特徴図Ciの幅を表し、k1は1以上の整数であり、iは変数であって、且つiの範囲は[2,n]であり、nは第1の特徴図の数を表す。
【0023】
いくつかの可能な実施形態では、前記装置はさらに、前記第1の画像に前記関連性のある手と顔を強調表示するための表示モジュールと、前記第1の画像において検出された関連性のある顔位置と手位置に同じラベルを割り当てるための割り当てモジュールとの少なくとも1つを含む。
【0024】
いくつかの可能な実施形態では、前記装置は、前記特徴抽出モジュール、前記融合モジュール及び前記検出モジュールに適用されるニューラルネットワークを含み、前記装置はさらに、前記ニューラルネットワークをトレーニングするためのトレーニングモジュールを含み、前記ニューラルネットワークをトレーニングするステップは、人物オブジェクトを含む画像であって、関連性のある顔位置及び手位置の真のラベル情報を有するトレーニング画像を取得することと、前記トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークにより前記トレーニング画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を予測することと、予測された関連性のある前記顔位置と手位置、及び前記ラベル情報に基づいてネットワーク損失を決定し、前記ネットワーク損失に基づいて、トレーニング要求を満たすまで前記ニューラルネットワークのネットワークパラメータを調整することと、を含む。
【0025】
本開示の第3の側面では、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリとを含み、前記プロセッサは、第1の側面のいずれかに記載の方法を実行するために、前記メモリに記憶された命令を呼び出すように構成される電子機器を提供する。
【0026】
本開示の第4の側面では、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、第1の側面のいずれかに記載の方法を実現させるコンピュータ可読記憶媒体を提供する。
【0027】
本開示の第5の側面では、コンピュータで読み取り可能なコードを含むコンピュータプログラムであって、前記コンピュータで読み取り可能なコードが電子機器において実行されると、前記電子機器のプロセッサに第1の側面のいずれかに記載の方法を実現するための命令を実行させるコンピュータプログラムを提供する。
【0028】
本開示の実施例では、第2の画像から1つの人物オブジェクトが存在する領域に対応する第1の画像を決定し、第1の画像に対して特徴抽出処理を行って対応する特徴図を得、そして、特徴図に対してマルチスケールの特徴融合処理を行い、複数のスケールの第2の特徴図を得ることができる。第2の特徴図は第1の特徴図と比べてより精確な特徴情報を有し、第2の特徴図を処理することで第1の画像における関連性のある手と顔の位置を得ることができ、顔と手を検出する精度を高めることができる。また、本開示の実施例の発明は画像における関連性のある手と顔の位置を耳または腕のキーポイントを取得することなく直接に得ることができ、簡単で容易であり、且つ精度が高いという特徴がある。
【0029】
以上の一般的な説明及び後述の詳細な説明は例示的・解釈的なものにすぎず、本開示を制限するものではないことが理解されたい。
【0030】
本開示のその他の特徴及び側面は、以下に図面を参照しながら例示的な実施例を詳しく説明することにより、明瞭になるであろう。
【図面の簡単な説明】
【0031】
ここで、本明細書の一部として組み込まれる図面は、本開示の実施例に適し、明細書と共に本開示の技術的解決手段の説明に用いられる。
図1】本開示の実施例に係る顔と手を関連付けて検出する方法のフローチャートを示す。
図2】本開示の実施例に係る顔と手を関連付けて検出する方法におけるステップS10のフローチャートを示す。
図3】本開示の実施例に係る第2の画像の模式図を示す。
図4】本開示の実施例に係る顔と手を関連付けて検出する方法におけるステップS20のフローチャートを示す。
図5】本開示の実施例に係る顔と手を関連付けて検出する方法におけるステップS30のフローチャートを示す。
図6】本開示の実施例に係る特徴抽出及び特徴融合の手順の模式図を示す。
図7】本開示の実施例に係る顔と手を関連付けて検出する方法におけるステップS40のフローチャートを示す。
図8】本開示の実施例に係るニューラルネットワークをトレーニングするフローチャートを示す。
図9】本開示の実施例に係る顔と手を関連付けて検出する装置のブロック図を示す。
図10】本開示の実施例に係る電子機器のブロック図を示す。
図11】本開示の実施例に係る別の電子機器のブロック図を示す。
【発明を実施するための形態】
【0032】
以下に、図面を参照しながら本開示の様々な例示的な実施例、特徴および方面を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を示す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を描く必要がない。
ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましいまたは優れるものであると理解すべきではない。
【0033】
本明細書における用語「及び/又は」は、単に関連対象との関連関係を記述するものであり、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBの両方が存在し、Bのみが存在するという3つの場合を示してもよい。また、本明細書における用語「少なくとも1つ」は複数のうちのいずれか1つ、又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選択されたいずれか1つ又は複数の要素を含むことを示してもよい。
【0034】
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。
【0035】
本開示の実施例は、顔と手を関連付けて検出する方法を提供し、この方法は任意の画像処理装置に適用されることができる。例えば、この方法は端末装置又はサーバーに適用されることができ、またはほかの処理装置に適用されることもできる。ここで、端末装置としては、ユーザ機器(User Equipment、UE)、モバイルデバイス、ユーザー端末、端末、携帯電話、コードレス電話、携帯情報端末(Personal Digital Assistant、PDA)、ハンドヘルドデバイス、コンピューティングデバイス、車載デバイス、ウェアラブルデバイス等が挙げられる。いくつかの可能な実施形態では、この顔と手を関連付けて検出する方法は、プロセッサがメモリに記憶されたコンピュータで読み取り可能な命令を呼び出すことにより実現される。
【0036】
図1は本開示の実施例に係る顔と手を関連付けて検出する方法のフローチャートを示す。図1に示すように、前記顔と手を関連付けて検出する方法は下記の事項を含む。
【0037】
S10:第1の画像を取得する。
【0038】
いくつかの可能な実施形態では、第1の画像は人物オブジェクトの画像であってもよく、少なくとも1つの顔と少なくとも1つの手を含むことができる。本開示の実施例は当該第1の画像における人物オブジェクトの手と顔の関連性検出を実現可能であり、当該関連性とは、得られた顔と手とが同一の人物オブジェクトの顔と手であることを指す。
【0039】
いくつかの可能な実施形態では、第1の画像を取得する方法は、携帯電話、カメラなどの画像取得機能を有する装置である画像取得装置により第1の画像を直接に取得することを含んでもよい。第1の画像を取得する方法は、他の機器から転送された第1の画像を受信するか、またはメモリから第1の画像を読み取ることを含んでもよい。または、第1の画像はビデオストリーミングに対してフレーム選択操作を行って得られた画像フレームであってもよく、本開示では特に限定しない。
【0040】
別のいくつか可能な実施形態では、第1の画像は他の画像の画像領域の一部であってもよく、例えば、第1の画像は、受信した選択情報に基づいて他の画像から選択された画像領域であってもよく、または、人体を検出するような対象検出の方法により検出された画像領域であってもよく、本開示では特に限定しない。
【0041】
S20:前記第1の画像に対して特徴抽出を行い、複数のスケールの第1の特徴図を得る。
【0042】
いくつかの可能な実施形態では、本開示の実施例は、第1の画像に対して特徴抽出処理を行い、複数のスケールの第1の特徴図を得ることができる。例えば、本開示の実施例は第1の画像を特徴抽出ネットワークに入力し、複数のスケールの第1の特徴図を得ることができる。特徴抽出ネットワークは畳み込みニューラルネットワーク、例えば残差ネットワーク(Res-Net)であってもよい。当該残差ネットワークにより第1の画像の特徴抽出を行うことで少なくとも2つのスケールの第1の特徴図を得る。または、他の実施例において他のタイプの特徴抽出ネットワークを用いて当該複数のスケールの第1の特徴図を得ることも可能であり、本開示では特に限定しない。または、別のいくつか可能な実施形態では、第1の画像に対してアップサンプリングまたはダウンサンプリングを行う方法で複数のスケールの第1の特徴図を得ることも可能であり、例えば、異なるサンプリングレートにより該当の複数のスケールの第1の特徴図を得ることが可能である。
【0043】
S30:前記複数のスケールの第1の特徴図に対して特徴融合処理を行い、前記第1の特徴図とスケールが一々対応する、複数のスケールの第2の特徴図を得る。
【0044】
いくつかの可能な実施形態では、複数のスケールの第1の特徴図を得た場合、当該複数のスケールの第1の特徴図に対して特徴融合処理を行い、該当のスケールの第2の特徴図を得ることができる。特徴融合により、各第2の特徴図に含まれる特徴情報の精確度を高めることができ、顔と手の関連性検出の精度を更に高めることができる。
【0045】
いくつかの可能な実施形態では、特徴ピラミッドネットワークにより当該複数のスケールの第1の特徴図の特徴融合処理を行うことができる。隣接するスケールの第1の特徴図の特徴情報に対して特徴融合を行い、小スケールの第1の特徴図の特徴情報から大スケールの第1の特徴図の特徴情報へ順次融合することで、全てのスケールの第1の特徴図の特徴情報を融合した第2の特徴図を最終的に得ることができる。
【0046】
S40:得られた前記複数のスケールの第2の特徴図に基づいて、前記第1の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出する。
【0047】
いくつかの可能な実施形態では、複数のスケールの第2の特徴図を得た後、当該複数のスケールの第2の特徴図に基づいて顔と手の関連性検出を実施することができる。各スケールの第2の特徴図のうち少なくとも1つの第2の特徴図に対して畳み込み処理を行い、第1の画像における関連性のある顔位置及び手位置を得ることができる。例えば、スケールが最大の第2の特徴図を畳み込み層に入力して畳み込み処理を行い、1つの顔位置の第1のマスクマップ、左手位置の第2のマスクマップ及び右手位置の第3のマスクマップを含み得る、顔位置及び手位置に関するマスクマップをそれぞれ得ることができる。得られた各マスクマップに応じて、第1の画像において関連性のある手位置と顔位置を決定することができる。
【0048】
上記構成により、本開示の実施例は関連性のある手と顔を、耳または腕のキーポイントを取得することもガウス分布を満たすか否かを分析することもなく、第1の画像の特徴のマルチスケール抽出及び特徴融合により直接に得ることができるため、簡単で容易であり、且つ精度が高いという特徴がある。
【0049】
以下、図面に合わせて本開示の実施例の手順を詳しく説明する。上記実施例に述べられたように、本開示の実施例で得られた第1の画像は人物オブジェクトの画像であってもよい。実際の応用において、得られた画像には複数の人物オブジェクトが含まれ得るが、同一の人物オブジェクトの顔と手の関連性検出の精度を向上させるために、本開示は、得られた画像から各人物オブジェクトの画像領域を得、そして、各画像領域に対してそれぞれ特徴抽出及び特徴融合を行い、各人物オブジェクトの顔と手の位置を最終的に得ることができる。図2は本開示の実施例に係る顔と手を関連付けて検出する方法におけるステップS10のフローチャートを示す。第1の画像を取得することは下記の事項を含む。
【0050】
S101:少なくとも1つの人物オブジェクトを含む画像である第2の画像を取得する。
【0051】
いくつかの可能な実施形態では、第1の画像は第2の画像に基づいて得られた画像であってもよい。第2の画像は少なくとも1つの人物オブジェクトの画像であってもよい。第2の画像を取得する方法は、携帯電話、カメラなどの画像取得機能を有する装置である画像取得装置により第2の画像を直接に取得することを含んでもよい。第2の画像を取得する方法は、他の機器から転送された第2の画像を受信することと、またはメモリから第2の画像を読み取ることと、を含んでもよい。または、第2の画像はビデオストリーミングに対してフレーム選択操作を行って得られた画像フレームであってもよく、本開示では特に限定しない。
【0052】
図3は本開示の実施例に係る第2の画像の模式図を示す。5つの人物オブジェクトA、B、C、D及びEを含んでもよい。他の実施例において、第2の画像は1つの人物オブジェクトのみを含んでもよく、または他の数の人物オブジェクトを含んでもよく、本開示では特に限定しない。
【0053】
S102:前記第2の画像に対して対象となる人体の検出を行い、前記第2の画像における前記少なくとも1つの人物オブジェクトのうちいずれかの人物オブジェクトの検出枠を得る。
【0054】
いくつかの可能な実施形態では、第2の画像に基づいて第1の画像を得る際に、第2の画像における各人物オブジェクトについての人体領域の位置を検出し、当該人物オブジェクトに対応する第1の画像を得ることができる。第2の画像に複数の人物オブジェクトが含まれる時に、得られた第1の画像には1つの人物オブジェクトの人体領域が含まれてもよいが、他の人物オブジェクトの画像の少なくとも一部、例えば他のオブジェクトの顔または手の少なくとも一部も含んでもよい。本開示の実施例で第1の画像に対して後続処理を行って得られた第1の画像には1つの人物オブジェクトの手と顔がある。
【0055】
上述したとおり、第2の画像には少なくとも1つの人物オブジェクトが含まれてもよく、本開示は当該第2の画像に対して対象検出を行い、第2の画像における人物オブジェクトの人体領域の検出を実現し、各人物オブジェクトの検出枠を得ることができる。
【0056】
いくつかの可能な実施形態では、対象となる人体の検出を実施可能なニューラルネットワークにより第2の画像における人物オブジェクトに対応する検出枠を検出することができる。当該ニューラルネットワークは畳み込みニューラルネットワークであってもよく、トレーニングにより画像における各人物オブジェクト、及び該当の人物オブジェクトの位置領域(つまり検出枠)を精確に識別することができる畳み込みニューラルネットワークであってもよく、例えばR-CNNネットワークであってもよく、または対象検出を実施可能な他のニューラルネットワークであってもよく、本開示では特に限定しない。
【0057】
図3に示すように、対象検出?理により、画像における人物オブジェクトの人体領域に対応する検出枠、例えば人物オブジェクトAの検出枠A1、及び人物オブジェクトDの検出枠D1を得た。上記説明は例示的なものに過ぎず、他の人物オブジェクトの検出枠を検出することもできる。
【0058】
検出枠を得る際、画像における人物オブジェクトごとの検出枠を識別することもでき、品質要求を満たす検出枠を識別することもできる。例えば、図3において人物オブジェクトB、C及びDについて得られた検出枠の品質値が品質閾値未満であり、このとき、人物オブジェクトB、C及びDに対応する検出枠を品質要求を満たしていない検出枠として決定して削除処理を行うことができる。検出枠の品質値は、対象検出?理を行うときに、検出枠が得られると同時に得られた当該検出枠についての得点や信頼度であってもよい。当該得点または信頼度が品質閾値よりも大きい場合、検出枠が品質要求を満たしていると決定する。品質閾値は、設定された数値、例えば80%であってもよく、または1未満の他の数値であってもよく、本開示では特に限定しない。
【0059】
S103:前記いずれかの人物オブジェクトの前記検出枠の前記第2の画像における画像領域を、前記いずれかの人物オブジェクトに対応する第1の画像として決定する。
【0060】
第2の画像における各人物オブジェクトの検出枠を得た場合、第2の画像において検出枠に対応する画像領域を、当該検出枠に対応する人物オブジェクトの第1の画像として決定することができる。例えば、図3に示す実施例において、第2の画像における人物オブジェクトAの検出枠A1、及び人物オブジェクトDの検出枠D1を得ることができる。それに応じて、A1に対応する画像領域を人物オブジェクトAの第1の画像として決定し、検出枠D1に対応する画像領域を人物オブジェクトDの第1の画像として決定することができる。
【0061】
上記構成により、本開示の実施例で得られた第1の画像において他の環境要素の影響が除去されたため、検出精度を更に高めることができる。また、上述のように第2の画像から1つの人物オブジェクトについての画像領域(第1の画像)を得ることに基づいて、得られた第1の画像は1つの人物オブジェクトについての画像ではあるものの、実際の応用では、第2の画像に含まれる各人物が互い近い可能性があるため、この時に得られた第1の画像には他の人物オブジェクトの少なくとも一部が含まれ得る。例えば、図3の検出枠D1は、人物オブジェクトDに加え、人物Cの顔の一部を含むことができる。本開示は後続の処理手順により第1の画像における同一の人物オブジェクトの顔と手の位置を得ることができる。
【0062】
図4は本開示の実施例に係る顔と手を関連付けて検出する方法におけるステップS20のフローチャートを示す。前記第1の画像に対して特徴抽出を行い、複数のスケールの第1の特徴図を得ることは下記の事項を含む。
【0063】
S201:前記第1の画像を予め設定された仕様の第3の画像に調整する。
【0064】
いくつかの可能な実施形態では、得られた第1の画像のスケールが異なり得る。本開示の実施例は、得られた第1の画像を同一のスケール、即ち、予め設定されたスケールに調整することにより、同じスケールの画像に対して後続の特徴抽出処理を行うことができる。本開示の実施例における予め設定されたスケールは、ネットワークの設計及び配置に基いて決定することができる。例えば本開示の実施例における予め設定されたスケールは256*192(高さ*幅)であってもよいが、本開示では特に限定しない。
【0065】
画像スケールを調整する方法は、アップサンプリング、ダウンサンプリング、画像補間のうち少なくとも1つを含んでもよく、本開示では特に限定しなく、他の方法により予め設定されたスケールの第3の画像を得ることもできる。
【0066】
S202:前記第3の画像を残差ネットワークに入力して前記複数のスケールの第1の特徴図を得る。
【0067】
予め設定されたスケールの第3の画像を得た場合、第3の画像に対して特徴抽出処理を行うことができる。例えば第3の画像を残差ネットワーク(例えばResnet50)に入力して画像の特徴抽出処理を行い、異なるスケールの第1の特徴図を得る。残差ネットワークの異なる畳み込み層により異なるスケールの第1の特徴図を出力することができる。
【0068】
あるいは、他の実施形態では、例えばピラミッド特徴抽出ネットワークなどの他の特徴抽出ネットワークにより当該マルチスケールの第1の特徴図を得ることができる。または、アップサンプリングまたはダウンサンプリングの方法によりマルチスケールの第1の特徴図を得ることができる。例えば本開示の実施例のサンプリング周波数は1/8、1/16、1/32等であってもよいが、本開示の実施例は特に限定しない。
【0069】
いくつかの可能な実施形態では、得られた各第1の特徴図同士の関係はL(Ci-1)=2k1・L(Ci)且つW(Ci-1)=2k1・W(Ci)であり、ただし、Ciは各第1の特徴図を表し、L(Ci)は第1の特徴図Ciの長さを表し、W(Ci)は第1の特徴図Ciの幅を表し、k1は1以上の整数であり、iは変数であり、且つiの範囲は[2,n]であり、nは第1の特徴図の数である。即ち、本開示の実施例における各第1の特徴図の長幅間の関係は全て2のk1乗倍である。
【0070】
一例において、本開示で得られた第1の特徴図は、数が4つであってもよく、それぞれ第1の特徴図C1、C2、C3及びC4として表すことができる。第1の特徴図C1の長さ及び幅は第1の特徴図C2の長さ及び幅に対してそれぞれ2倍であってもよく、第1の特徴図C2の長さ及び幅は第1の特徴図C3の長さ及び幅に対してそれぞれ2倍であってもよく、及び、第1の特徴図C3の長さ及び幅は第1の特徴図C4の長さ及び幅に対してそれぞれ2倍であってもよい。本開示の実施例において上記C1とC2の間、C2とC3の間、及びC3とC4の間の長さの倍数及び幅の倍数はいずれも同じであり、即ちk1は1の値を取る。他の実施例において、k1は異なる値であってもよく、例えば、第1の特徴図C1の長さ及び幅は第1の特徴図C2の長さ及び幅に対してそれぞれ2倍であってもよく、第1の特徴図C2の長さ及び幅は第1の特徴図C3の長さ及び幅に対してそれぞれ4倍であってもよく、及び第1の特徴図C3の長さ及び幅は第1の特徴図C4の長さ及び幅に対してそれぞれ8倍であってもよい。本開示の実施例は特に限定しない。
【0071】
第1の画像に対応する複数のスケールの第1の特徴図を得た場合、各第1の特徴図の特徴融合処理を更に行い、得られた第2の特徴図の特徴情報の精確度を高めることができる。
【0072】
いくつかの可能な実施形態では、第1の特徴図に対して特徴融合処理を行うことは、ピラミッド特徴抽出ネットワーク(FPN)を用いて行うことができる。即ち、複数のスケールの第1の特徴図を特徴ピラミッドネットワークに入力し、前記特徴ピラミッドネットワークにより前記特徴融合処理を行い、第1の特徴図に対応する第2の特徴図を得ることができる。または、他の方式により特徴融合処理を行うことができ、例えば畳み込み処理及びアップサンプリング処理により複数のスケールの第2の特徴図を得ることができる。上記構成により、得られた複数のスケールの第2の特徴図の特徴精度を高めることができる。
【0073】
図5は本開示の実施例に係る顔と手を関連付けて検出する方法におけるステップS30のフローチャートを示す。前記複数のスケールの第1の特徴図に対して特徴融合処理を行い、複数のスケールの第2の特徴図を得ることは下記の事項を含む。
【0074】
S301:第1の畳み込みカーネルを用いて第1の特徴図Cnに対して畳み込み処理を行い、第1の特徴図Cnに対応する第2の特徴図Fnを取得し、第1の特徴図Cnのスケールと第2の特徴図Fnのスケールとは同じである。
【0075】
いくつかの可能な実施形態では、本開示の実施例で得られた第1の特徴図は{C1,...,Cn}として表すことができる。即ち、n個の第1の特徴図があって、且つCnは長さ及び幅が最小の特徴図、即ちスケールが最小の第1の特徴図であってもよい。nの値が大きくなるほど、対応する第1の特徴図のスケールが小さくなる。例えば上記第1の特徴図C1、C2、C3及びC4はスケールが順次に小さくなる。
【0076】
特徴融合処理を行う時に、まずスケールが最小の第1の特徴図Cnに対応する第2の特徴図Fnを得ることができる。例えば、第1の畳み込みカーネルにより第1の特徴図Cnに対して畳み込み処理を行い、第1の特徴図Cnに対応する第2の特徴図Fnを得ることができ、第1の特徴図Cnのスケールと第2の特徴図Fnのスケールとは同じである。同様に、第2の特徴図Fnも第2の特徴図のうちスケールが最小の特徴図である。第1の畳み込みカーネルによる畳み込み処理では第1の特徴図Cnの特徴情報に比べてより精確な第2の特徴図Fnを得ることができる。第1の畳み込みカーネルは3*3の畳み込みカーネルであってもよく、または、他のタイプの畳み込みカーネルであってもよい。
【0077】
S302:前記第2の特徴図Fnに対して線形補間処理を行って第2の特徴図Fnに対応する第1の中間特徴図Fnを取得し、第1の中間特徴図Fnのスケールと第1の特徴図Cn-1のスケールとは同じである。
【0078】
第2の特徴図Fnを得た後、当該第2の特徴図Fnを用いてそれに対応する第1の中間特徴図Fnを取得することができる。本開示の実施例は第2の特徴図Fnに対して線形補間処理を行うことで第2の特徴図Fnに対応する第1の中間特徴図Fnを得ることができる。第1の中間特徴図Fnのスケールと第1の特徴図Cn-1のスケールとは同じである。例えば、Cn-1のスケールがCnのスケールの2倍である場合、第1の中間特徴図Fnの長さは第2の特徴図Fnの長さの2倍であり、第1の中間特徴図Fnの幅は第2の特徴図Fnの幅の2倍である。
【0079】
S303:第2の畳み込みカーネルを用いて第1の特徴図Cn以外の第1の特徴図Ciに対して畳み込み処理を行い、前記第1の特徴図Ciに対応する第2の中間特徴図Ciを取得し、前記第2の中間特徴図Ciのスケールと第1の中間特徴図Fi+1のスケールとは同じであり、iは1以上、n未満の整数変数である。
【0080】
いくつかの可能な実施形態では、第1の特徴図Cn以外の各第1の特徴図C1...Cn-1に対応する第2の中間特徴図C1...C′n-1を取得することができる。第2の畳み込みカーネルを用いて第1の特徴図C1...Cn-1に対してそれそれ畳み込み処理を行い、各第1の特徴図C1...Cn-1に一々対応する第2の中間特徴図C1...C′n-1をそれぞれ取得する。第2の畳み込みカーネルは1*1の畳み込みカーネルであってもよく、本開示では特に限定しない。第2の畳み込みカーネルによる畳み込み処理により得られた各第2の中間特徴図のスケールは、対応する第1の特徴図のスケールとぞれぞれ同じである。本開示の実施例において、第1の特徴図C1...Cn-1の逆の順番で各第1の特徴図C1...Cn-1の第2の中間特徴図C1...C′n-1を得ることができる。即ち、第1の特徴図C1に対応する第2の中間特徴図C1を得るまで、第1の特徴図Cn-1に対応する第2の中間特徴図Cn-1を得て、その後第1の特徴図Cn-2に対応する第2の中間図Cn-2を得るような処理を繰り返すことができる。
【0081】
S304:前記第2の中間特徴図Ci及び対応する第1の中間特徴図Fi+1を用いて前記第2の特徴図Fn以外の第2の特徴図Fiを得る。第1の中間特徴図Fi+1は、対応する第2の特徴図Fi+1を線形補間して得られたものである。
【0082】
各第2の中間特徴図を得る際、または各第2の中間特徴図を得た後、それに応じて第1の中間特徴図Fn以外の他の第1の中間特徴図F1...F′n-1を得ることができる。本開示の実施例において、第1の特徴図C1...Cn-1のうちの第1の特徴図Ciに対応する第2の特徴図Fi=C′i+F′i+1について、第2の中間特徴図Ciのスケール(長さ及び幅)がそれぞれ第1の中間特徴図Fi+1のスケール(長さ及び幅)に等しく、且つ第2の中間特徴図Ciの長さ及び幅と第1の特徴図Ci長さ及び幅とが同じであるため、得られた第2の特徴図Fiの長さ及び幅はそれぞれ第1の特徴図Ciの長さ及び幅であり、iは1以上、n未満の整数である。
【0083】
具体的には、本開示の実施例は依然として逆の順番で処理することにより第2の特徴図Fn以外の各第2の特徴図Fiを取得することができる。即ち、本開示の実施例はまず、第1の中間特徴図Fn-1を取得することができる。第1の特徴図Cn-1に対応する第2の中間図Cn-1と第1の中間特徴図Fnとを加算処理して第2の特徴図Fn-1を得ることができ、第2の中間特徴図Cn-1の長さ及び幅はそれぞれ第1の中間特徴図Fnの長さ及び幅と同じであり、第2の特徴図Fn-1の長さ及び幅は第2の中間特徴図Cn-1及びF′nの長さ及び幅である。この時、第2の特徴図Fn-1の長さ及び幅はそれぞれ第2の特徴図Fnの長さ及び幅の2倍である(Cn-1のスケールはCnのスケールの2倍である)。更に、第2の特徴図Fn-1に対して線形補間処理を行って第1の中間特徴図Fn-1を得、F′n-1のスケールとCn-1のスケールとを同じにし、そして第1の特徴図Cn-2に対応する第2の中間図Cn-2と第1の中間特徴図Fn-1とを加算処理して第2の特徴図Fn-2を得ることができる。第2の中間特徴図Cn-2の長さ及び幅はそれぞれ第1の中間特徴図Fn-1の長さ及び幅と同じであり、第2の特徴図Fn-2の長さ及び幅は第2の中間特徴図Cn-2及びF′n-1の長さ及び幅である。例えば第2の特徴図Fn-2の長さ及び幅はそれぞれ第2の特徴図Fn-1の長さ及び幅の2倍である。そのようにして、第1の中間特徴図F2を最終的に得ることができ、当該第1の中間特徴図F2と第1の特徴図C1の加算処理により第2の特徴図F1を得ることができ、F1の長さ及び幅はそれぞれC1の長さ及び幅と同じである。これにより、各第2の特徴図を得るとともに、L(Fi-1)=2k1・L(Fi)及びW(Fi-1)=2k1・W(Fi)を満たし、且つL(Fn)=L(Cn)、W(Fn)=W(Cn)となる。
【0084】
例えば、上記4つの第1の特徴図C1、C2、C3及びC4を例として説明する。図6は本開示の実施例に係る特徴抽出及び特徴融合の手順の模式図を示す。残差ネットワークaにより特徴抽出処理を行い、残差ネットワークのうちの4つの畳み込み層を用いてスケールが異なる4つの第1の特徴図C1、C2、C3及びC4をそれぞれ出力し、その後、特徴抽出ネットワークbを用いて特徴融合処理を行い、マルチスケールの第2の特徴図を得ることができる。まず、C4を1つの3*3の第1の畳み込みカーネルを用いて計算して1つの新しい特徴図F4(第2の特徴図)を得ることができ、F4は長さ及び幅の大きさがC4と同じである。F4に対して双線形補間のアップサンプリング(upsample)操作を行い、長さ及び幅がいずれも2倍拡大された1つの特徴図である第1の中間特徴図F4を得る。C3を1つの1*1の第2の畳み込みカーネルを用いて計算して1つの第2の中間特徴図C3を得、C′3とF′4は大きさが同じであり、2つの中間特徴図を加算して新しい特徴図F3(第2の特徴図)を得、第2の特徴図F3の長さ及び幅をそれぞれ第2の特徴図F4の2倍とするとともに、第1の特徴図C3とはスケールが同じであるようにする。F3に対して双線形補間のアップサンプリング(upsample)操作を行い、長さ及び幅がいずれも2倍拡大された1つの特徴図である第1の中間特徴図F3を得る。C2を1つの1*1の第2の畳み込みカーネルを用いて計算して1つの第2の中間特徴図C2を得、C′2とF′3は大きさが同じであり、2つの中間特徴図を加算して新しい特徴図F2(第2の特徴図)を得、第2の特徴図F2の長さ及び幅をそれぞれ第2の特徴図F3の2倍とする。F2に対して双線形補間のアップサンプリング(upsample)操作を行い、長さ及び幅がいずれも2倍拡大された1つの特徴図である第1の中間特徴図F2を得る。C1を1つの1*1の第2の畳み込みカーネルを介して計算して1つの第2の中間特徴図C1を得、C′1とF′2は大きさが同じであり、2つの中間特徴図を加算して新しい特徴図F1(第2の特徴図)を得、第2の特徴図F1の長さ及び幅をそれぞれ第2の特徴図F2の2倍とする。FPNによる処理後、同じく、スケールが異なる4つの第2の特徴図を得、それぞれF1、F2、F3及びF4として記載する。しかも、F1とF2の間の長さ及び幅の倍数はC1とC2の間の長さ及び幅の倍数と同じであり、F2とF3の間の長さ及び幅の倍数はC2とC3の間の長さ及び幅の倍数と同じであり、F3とF4の間の長さ及び幅の倍数はC3とC4の間の長さ及び幅の倍数と同じある。
【0085】
上記配置により、スケールが異なる特徴情報を融合することができ、特徴精度を更に高めることができる。上記方法により複数のスケールの第1の特徴図にそれぞれ対応する第2の特徴図を得ることができ、第1の特徴図の特徴情報に比べて、第2の特徴図の特徴情報は精確度が向上した。
【0086】
第2の特徴図を得た場合、第2の特徴図に基づいて第1の画像における同一の人物オブジェクトについての顔と手の位置を得ることができる。図7は本開示の実施例に係る顔と手を関連付けて検出する方法におけるステップS40のフローチャートを示す。上記実施例に述べられているように、本開示の実施例において得られた前記複数のスケールの第2の特徴図に基づいて、前記第1の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出することは、下記の事項を含む。
【0087】
S401:前記複数のスケールの第2の特徴図のうちスケールが最大の第2の特徴図に対して畳み込み処理を行い、前記顔位置を示すマスクマップ及び前記手位置を示すマスクマップをそれぞれ得る。
【0088】
いくつかの可能な実施形態では、得られた複数のスケールの第2の特徴図のうち少なくとも1つの第2の特徴図を畳み込み層に入力し、当該少なくとも1つの第2の特徴図に対してさらなる特徴融合を行い、それに応じて第1の画像に対応する同一の人物オブジェクトの顔位置のマスクマップ及び手位置のマスクマップを生成する。本開示は、スケールが最大である第2の特徴図に各スケールの特徴図の特徴情報が融合されているので、第2の特徴図を当該畳み込み層に入力して手と顔の位置の関連性検出を行うことができる。得られたマスクマップにおける要素は1および0からなるものとして表すことができ、1は手または顔の位置領域を表す。例えば、本開示の実施例は同一の人物オブジェクトの顔位置の第1のマスクマップ、左手位置の第2のマスクマップ、及び右手位置の第3のマスクマップを得ることができ、各マスクマップにおける元素1の位置により、第1の画像における該当の関連性のある顔と手の位置を得ることができる。
【0089】
いくつかの可能な実施形態では、左手と右手のうちの1つのみを検出可能な場合、検出されていない手に対応するマスクマップはすべてが0のマスクマップであってもよい。または、関連性のある顔と手を検出できない場合、出力されるマスクマップはすべてが0のマスクマップであってもよい。
【0090】
いくつかの可能な実施形態では、得られたマスクマップは人物オブジェクトマーク及びタイプマークが対応して関連付けられることができる。人物オブジェクトマークは異なる人物オブジェクトを区別することに用いられ、異なる人物オブジェクトは異なる人物オブジェクトマークを有してもよい。タイプマークはマスクマップに対応する顔位置、左手位置または右手位置を示すことに用いられる。上記人物オブジェクトマーク及びタイプマークにより、マスクマップ毎に対応する人物オブジェクト、及びマスクマップに対応するのが顔であるか、または手(左手または右手)であるかを明確に決定することができる。
【0091】
S402:前記顔位置のマスクマップ及び前記手位置のマスクマップに基づいて前記第1の画像において関連性のある手と顔が位置する位置領域を決定する。
【0092】
関連性のある手と顔に対応するマスクマップを得た場合、第1の画像における関連性のある手と顔に対応する位置領域を更に得る。
【0093】
本開示の実施例で得られた第1のマスクマップ及び第2のマスクマップのスケールが第1の画像のスケールと同じであってもよいので、マスクマップに基づいて決定された顔位置を第1の画像における該当の顔の画像領域にマッピングし、マスクマップに基づいて決定された手位置を第1の画像における手の画像領域にマッピングすることができ、これにより、関連性のある手と顔が位置する位置領域を得ることができる。
【0094】
いくつかの可能な実施形態では、前記第1の画像における関連性のある顔と手の位置が検出された後、得られたマスクマップに基づいて、マッチングされた顔と手を第1の画像に強調表示することができる。例えば、関連性のある顔と手を提示するために、マスクマップを第1の画像における画像領域において検出枠で表す。図3に示すように、画像において人物オブジェクトDと関連付けられた顔検出枠D11及び手検出枠D12、D13を表示することができる。また、本開示の実施例は関連性のある顔と手に同じラベルを割り当てることで当該顔と手が同一の人物オブジェクトの顔と手であることをマーキングすることができる。
【0095】
上記配置により、関連性のある顔と手の位置を容易に予測して表すことができる。
【0096】
いくつかの可能な実施形態では、本開示の実施例で得られた関連性のある顔と手の位置は人物オブジェクトの姿勢の変化を特定することに用いられることができる。例えば、第1の画像はビデオストリーミングにおける画像フレームに基づいて得られたものであってもよく、本開示の実施例の方法により画像フレームにおける同一の人物オブジェクトについての顔位置の変化及び手位置の変化を検出することができ、更に、該当の画像フレームにおける顔位置に対する表情識別を行う、または手位置に基いてジェスチャー識別を行うことによって、表情の変化状況、またはジェスチャーの変化状況を得ることができる。
【0097】
上記実施例に述べられているように、本開示の実施例に係る顔と手を関連付けて検出する方法はニューラルネットワーク、例えば畳み込みニューラルネットワークに適用されることができる。上記畳み込みニューラルネットワークは、例えば残差ネットワーク及びピラミッドネットワークから構築して構成され得る。本開示はニューラルネットワークをトレーニングして精度要求を満たすニューラルネットワークを得ることができる。図8は本開示の実施例に係るニューラルネットワークをトレーニングするフローチャートを示す。前記ニューラルネットワークをトレーニングすることは下記の事項を含む。
【0098】
S501:人物オブジェクトを含む画像であって、関連性のある顔位置及び手位置の真のラベル情報を有するトレーニング画像を取得する。
【0099】
いくつかの可能な実施形態では、トレーニング画像は1つの人物オブジェクトの画像であってもよく、また、トレーニング精度を高めるために、トレーニング画像には他の人物オブジェクトの顔または手の一部が含まれ得る。トレーニング画像の数は複数であり、本開示はトレーニング画像の数を限定しない。
【0100】
いくつかの可能な実施形態では、ニューラルネットワークのトレーニングを監督するために、トレーニング画像には真のラベル情報が関連付けられることができる。トレーニング画像における同一の人物オブジェクトについての顔位置及び手位置(左手及び右手)を表すために、トレーニング画像毎には関連性のある顔位置及び手位置の真のラベル情報がある。ラベル情報はマーキング枠として表すことができ、または位置座標として表すこともでき、または関連性のある手と顔の位置の真のマスクマップとして表すこともでき、トレーニング画像における関連性のある顔位置及び手位置を特定できれば、本開示の実施例とすることができる。
【0101】
S502:前記トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークにより前記トレーニング画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を予測する。
【0102】
いくつかの可能な実施形態では、トレーニング画像をニューラルネットワークに入力し、特徴抽出、特徴融合、及び関連性のある手と顔の位置の検出を行うことができる。
【0103】
例えば、残差ネットワーク等の特徴抽出ネットワークによりトレーニング画像のマルチスケール特徴抽出を行い、複数のスケールの第1の予測特徴図を得ることができる。特徴抽出の手順の詳細は上記実施例の説明を参照することができ、説明はここでは繰り返されない。
【0104】
複数のスケールの第1の特徴図を得た後、当該複数のスケールの第1の予測特徴図に対して特徴融合処理を行うことができる。例えばピラミッドネットワークFPNを用いて当該複数の第1の予測特徴図の特徴融合を行い、複数のスケールの第2の予測特徴図を得ることができる。特徴融合の具体的な手順の説明はここでは繰り返されなく、詳細は上記実施例の手順を参照することができる。
【0105】
複数の第2の予測特徴図を得た場合、各第2の予測特徴図に基いて畳み込み処理を行い、各第2の予測特徴図に基いて予測された、関連性のある顔と手の位置の予測マスクマップを得ることができる。
【0106】
S503:前記トレーニング画像について予測された関連性のある前記顔位置と前記手位置、及び前記ラベル情報に基づいてネットワーク損失を決定し、前記ネットワーク損失に基づいて、トレーニング要求を満たすまで前記ニューラルネットワークのネットワークパラメータを調整する。
【0107】
本開示の実施例は、各スケールの第2の予測特徴図で予測して得られた顔の予測マスクマップ及び手の予測マスクマップと、顔と手に対応する真のマスクマップとの間の差異に基づいてネットワーク損失を得ることができ、ここで、対数損失関数によりネットワーク損失を決定することができる。例えば、本開示の実施例は、直接的に対数損失関数を用いて処理し、各スケールの第2の予測特徴図で得られた予測マスクマップとマーキングされた真のマスクマップとの間の損失を得、当該損失をネットワーク損失としてニューラルネットワークのパレメータを調整することができる。つまり、各スケールに対応する損失を全てネットワーク損失とし、ニューラルネットワークパレメータを個別に最適化することができる。
【0108】
または、他の実施形態では、本開示の実施例は、対数損失関数により各スケールの第2の予測特徴図で得られた顔の予測マスクマップ、手の予測マスクマップと真のラベル情報に対応するマスクマップとの間のサブネットワーク損失を得、各スケールに対応して得られたサブネットワーク損失の加重和に基づいてネットワーク損失を決定することができる。つまり、ニューラルネットワークパレメータをまとめて最適化するために、各スケールに対応する損失の加重和に基づいてネットワーク損失を決定することができる。
【0109】
また、本開示の実施例は各第2の予測特徴図の予測結果に基づいてネットワーク損失を得ることができるので、得られたニューラルネットワークは、いずれのスケールの第2の予測特徴図の予測結果の精度も比較的高く、ニューラルネットワーク全体の検出精度を高めることができる。
【0110】
ネットワーク損失を得た場合、ネットワーク損失及び損失閾値の比較結果に基づいてニューラルネットワークのネットワークパラメータを調整する。例えば、ネットワーク損失が損失閾値よりも大きい場合、得られたネット損失が損失閾値よりも小さくなるまで、ニューラルネットワークのパラメータをフィードバックして調整し、例えば特徴抽出ネットワーク、ピラミット特徴ネットワーク及び得られたマスクマップの畳み込み層のパレメータを調整し、トレーニング画像を改めて処理する。また、ネットワーク損失が損失閾値よりも小さい場合、ニューラルネットワークがトレーニング要求を満たすと決定することができ、この時、トレーニングを終了することができる。上記配置により、ニューラルネットワークの最適化のトレーニングを実現し、ネットワークの検出精度を確保することができる。
【0111】
以上より、本開示の実施例は、第2の画像から1つの人体?象が存在する領域に対応する第1の画像を決定し、第1の画像に対して特徴抽出処理を行って対応する特徴図を得、そして、特徴図に対してマルチスケールの特徴融合処理を行い、複数のスケールの第2の特徴図を得ることができる。第2の特徴図は第1の特徴図と比べてより精確な特徴情報を有し、第2の特徴図を処理することで第1の画像における関連性のある手と顔の位置を得ることができ、顔と手を検出する精度を高めることができる。また、本開示の実施例の発明は画像における関連性のある手と顔の位置を耳または腕のキーポイントを取得することなく直接に得ることができ、簡単で容易であり、且つ精度が高いという特徴がある。
【0112】
当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの記載順序は、実行順序を厳密に限定して実施の過程を限定するものではなく、各ステップの実行順序がその機能と可能な内部の論理によって決定されることが理解すべきである。
【0113】
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。
【0114】
なお、本開示では、顔と手を関連付けて検出する装置、電子機器、コンピュータ可読記憶媒体、プログラムが提供される。これらはいずれも本開示に係る顔と手を関連付けて検出する方法のいずれか1つを実現するために利用できる。対応する技術的解決手段と説明は、方法の対応する記載を参照すればよく、詳細な説明を省略する。
【0115】
図9は本開示の実施例に係る顔と手を関連付けて検出する装置のブロック図を示す。図9に示すように、前記顔と手を関連付けて検出する装置は、
人物オブジェクトの画像である第1の画像を取得するための取得モジュール10と、
前記第1の画像に対して特徴抽出を行い、複数のスケールの第1の特徴図を得るための特徴抽出モジュール20と、
前記複数のスケールの第1の特徴図に対して特徴融合処理を行い、前記第1の特徴図とスケールが一々対応する、複数のスケールの第2の特徴図を得るための融合モジュール30と、
得られた前記複数のスケールの第2の特徴図に基づいて、前記第1の画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を検出するための検出モジュール40と、を含む。
【0116】
いくつかの可能な実施形態では、前記取得モジュールは、
少なくとも1つの人物オブジェクトを含む画像である前記第2の画像を取得するための取得ユニットと、
前記第2の画像に対して対象となる人体の検出を行い、前記第2の画像における前記少なくとも1つの人物オブジェクトのうちいずれかの人物オブジェクトの検出枠を得るための対象検出ユニットと、
前記第2の画像において前記いずれかの人物オブジェクトの前記検出枠に対応する画像領域を、前記いずれかの人物オブジェクトの第1の画像として決定するための決定ユニットと、を含む。
【0117】
いくつかの可能な実施形態では、前記特徴抽出モジュールはさらに、
少なくとも1つの人物オブジェクトを含む画像である前記第2の画像を取得することと、
前記第2の画像に対して対象となる人体の検出を行い、前記第2の画像における前記少なくとも1つの人物オブジェクトのうちいずれかの人物オブジェクトの検出枠を得ることと、
前記第2の画像において前記いずれかの人物オブジェクトの前記検出枠に対応する画像領域を、前記いずれかの人物オブジェクトの第1の画像として決定することと、に用いられる。
【0118】
いくつかの可能な実施形態では、前記融合ユニットはさらに、前記複数のスケールの第1の特徴図を特徴ピラミッドネットワークに入力し、前記特徴ピラミッドネットワークにより前記特徴融合処理を行い、前記複数のスケールの第2の特徴図を得ることに用いられる。
【0119】
いくつかの可能な実施形態では、スケールの大きい順に、前記複数の第1の特徴図を{C1,...,Cn}として表し、ただし、nは、第1の特徴図の数を表し、1より大きい整数である。
【0120】
前記融合モジュールはさらに、第1の畳み込みカーネルを用いて第1の特徴図Cnに対して畳み込み処理を行って前記第1の特徴図Cnに対応する第2の特徴図Fnを得ることであって、前記第1の特徴図Cnのスケールと前記第2の特徴図Fnのスケールとが同じであることと、
前記第2の特徴図Fnに対して線形補間処理を行って前記第2の特徴図Fnに対応する第1の中間特徴図Fnを取得することであって、前記第1の中間特徴図Fnのスケールと第1の特徴図Cn-1のスケールとが同じであることと、
第2の畳み込みカーネルを用いて前記第1の特徴図Cn以外の第1の特徴図Ciに対して畳み込み処理を行って前記第1の特徴図Ciに対応する第2の中間特徴図Ciを得ることであって、前記第2の中間特徴図Ciのスケールと第1の中間特徴図Fi+1のスケールとが同じであり、iは1以上、n未満の整数変数であることと、
前記第2の中間特徴図Ci及び対応する前記第1の中間特徴図Fi+1を用いて前記第2の特徴図Fn以外の第2の特徴図Fiを得ることであって、前記第1の中間特徴図Fi+1が、対応する前記第2の特徴図Fi+1を線形補間して得られたものであることとに用いられる。
【0121】
いくつかの可能な実施形態では、前記融合モジュールはさらに、前記第2の中間特徴図Ciと対応する前記第1の中間特徴図Fi+1とを加算処理し、前記第2の特徴図Fiを得ることに用いられる。
【0122】
いくつかの可能な実施形態では、前記検出モジュールはさらに、前記複数のスケールの第2の特徴図のうちスケールが最大の第2の特徴図に対して畳み込み処理を行い、前記顔位置を示すマスクマップ及び前記手位置を示すマスクマップをそれぞれ得ることと、
前記顔位置のマスクマップ及び前記手位置のマスクマップに基づいて前記第1の画像において関連性のある手と顔が位置する位置領域を決定することと、に用いられる。
【0123】
いくつかの可能な実施形態では、前記複数のスケールの第1の特徴図間のスケールの関係は、L(Ci-1)=2k1・L(Ci)且つW(Ci-1)=2k1・W(Ci)であり、ただし、Ciは各第1の特徴図を表し、L(Ci)は前記第1の特徴図Ciの長さを表し、W(Ci)は前記第1の特徴図Ciの幅を表し、k1は1以上の整数であり、iは変数であって、且つiの範囲は[2,n]であり、nは第1の特徴図の数を表す。
【0124】
いくつかの可能な実施形態では、前記装置は、
前記第1の画像に前記関連性のある手と顔を強調表示するための表示モジュールと、
前記第1の画像において検出された関連性のある顔位置と手位置に同じラベルを割り当てるための割り当てモジュールとの少なくとも1つを含む。
【0125】
いくつかの可能な実施形態では、前記装置は、前記特徴抽出モジュール、前記融合モジュール、及び前記検出モジュールに適用されるニューラルネットワークを含む。
【0126】
前記装置は、前記ニューラルネットワークをトレーニングするためのトレーニングモジュールをさらに含み、前記ニューラルネットワークをトレーニングするステップは、
人物オブジェクトを含む画像であって、関連性のある顔位置及び手位置の真のラベル情報を有するトレーニング画像を取得することと、
前記トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークにより前記トレーニング画像における同一の人物オブジェクトについての関連性のある顔位置と手位置を予測することと、
予測された関連性のある前記顔位置と前記手位置、及び前記ラベル情報に基づいてネットワーク損失を決定し、前記ネットワーク損失に基づいて、トレーニング要求を満たすまで前記ニューラルネットワークのネットワークパラメータを調整することと、を含む。
【0127】
いくつかの実施例では、本開示の実施例に係る装置が備える機能又はモジュールは、上述した方法の実施例に説明される方法を実行するために利用でき、その具体的な実現について、上述した方法の実施例の説明を参照すればよく、簡素化のために、ここで詳細な説明を省略する。
【0128】
本開示の実施例では、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、上記の方法を実現させるコンピュータ可読記憶媒体がさらに提案される。コンピュータ可読記憶媒体は、不揮発性のコンピュータ可読記憶媒体であってもよい。
【0129】
本開示の実施例では、プロセッサと、プロセッサにより実行可能な命令を記憶するメモリと、を含み、前記プロセッサは、上記の方法を実行するように構成される電子機器がさらに提案される。
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
【0130】
図10は本開示の実施例に係る電子機器のブロック図を示す。例えば、電子機器800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってもよい。
【0131】
図10を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)のインタフェース812、センサコンポーネント814、および通信コンポーネント816のうちの一つ以上を含んでもよい。
【0132】
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
【0133】
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。
【0134】
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
【0135】
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または背面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
【0136】
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
【0137】
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
【0138】
センサコンポーネント814は電子機器800の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
【0139】
通信コンポーネント816は電子機器800と他の機器との有線または無線通信を実現するように構成される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標/BT)技術および他の技術によって実現できる。
【0140】
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタルシグナルプロセッサ(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
【0141】
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されと、上記方法を実行させることができる。
【0142】
図11は、例示的な一実施例の電子機器1900のブロック図を示す。例えば、電子機器1900はサーバとして提供されてもよい。図11を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって上記方法を実行するように構成される。
【0143】
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されているオペレーティングシステム、例えばWindows(登録商標) ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
【0144】
例示的な実施例では、さらに、不揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されと、上記方法を実行させることができる。
【0145】
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令が有しているコンピュータ可読記憶媒体を含んでもよい。
【0146】
コンピュータ可読記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
【0147】
ここで記述したコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算/処理機器内のコンピュータ可読記憶媒体に記憶させる。
【0148】
本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。
【0149】
ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
【0150】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現ように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現する命令を有する製品を含む。
【0151】
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
【0152】
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
【0153】
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
【0154】
本開示は、2019年9月18日に中国国家知識産権局に提出された、出願番号が第201910882139.6で、発明の名称が「顔と手を関連付けて検出する方法及び装置、電子機器並びに記憶媒体」である中国特許出願の優先権を主張し、その全ての内容は援用することによって本開示に組み込まれる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11