(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-29
(45)【発行日】2024-03-08
(54)【発明の名称】顔と手との関連度の検出方法、装置、機器及び記憶媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20240301BHJP
【FI】
G06T7/00 350C
G06T7/00 660Z
(21)【出願番号】P 2021571341
(86)(22)【出願日】2021-09-26
(86)【国際出願番号】 IB2021058762
(87)【国際公開番号】W WO2023041969
(87)【国際公開日】2023-03-23
【審査請求日】2021-11-30
(31)【優先権主張番号】10202110217V
(32)【優先日】2021-09-16
(33)【優先権主張国・地域又は機関】SG
(73)【特許権者】
【識別番号】521436762
【氏名又は名称】センスタイム インターナショナル プライベート リミテッド
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】リウ, チュンヤ
(72)【発明者】
【氏名】ジャン, シュエセン
(72)【発明者】
【氏名】ワン, バイルン
(72)【発明者】
【氏名】チェン, ジンフアン
【審査官】片岡 利延
(56)【参考文献】
【文献】中国特許出願公開第113348465(CN,A)
【文献】米国特許出願公開第2021/0201478(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
顔と手との関連度
を検出
する方法であって、
検出待ち画像を取得することと、
前記検出待ち画像に対する顔検出
および手検出の結果に基づいて、前記検出待ち画像の顔特徴集合
および手特徴集合を決定することであって、前記顔特徴集合における各顔特徴はそれぞれ前記検出待ち画像の画面中の1つの顔に対応し、前記手特徴集合における各手特徴はそれぞれ前記検出待ち画像の画面中の1つの手に対応する、ことと、
ターゲット顔の顔特徴
および前記手特徴集合に基づいて、前記ターゲット顔の第1インタラクティブ特徴を決定することであって、前記ターゲット顔は、前記検出待ち画像の画面中のいずれか1つの顔であ
り、前記第1インタラクティブ特徴は、前記ターゲット顔の顔特徴と、前記検出待ち画像中の全ての手の、前記手特徴集合に属する手特徴とを融合させることによって得られる、ことと、
ターゲット手の手特徴
および前記顔特徴集合に基づいて、前記ターゲット手の第2インタラクティブ特徴を決定することであって、前記ターゲット手は、前記検出待ち画像の画面中のいずれか1つの手であ
り、前記第2インタラクティブ特徴は、前記ターゲット手の手特徴と、前記検出待ち画像中の全ての顔の、前記顔特徴集合に属する顔特徴とを融合させることによって得られる、ことと、
前記第1インタラクティブ特徴
および前記第2インタラクティブ特徴に基づいて、前記ターゲット顔と前記ターゲット手との関連度を決定すること
と
を含む
、方法。
【請求項2】
前記検出待ち画像に対する顔検出
および手検出の結果に基づいて、前記検出待ち画像の顔特徴集合
および手特徴集合を決定することは、
前記検出待ち画像に対する顔検出
および手検出の結果に基づいて、前記検出待ち画像の画面中の各顔の顔検出枠
および各手の手検出枠を決定することと、
前記各顔の顔検出枠に基づいて、前記各顔の特徴を抽出し、前記顔特徴集合を得ることと、
前記各手の手検出枠に基づいて、前記各手の特徴を抽出し、前記手特徴集合を得ること
と
を含む
、請求項1に記載の方法。
【請求項3】
前記ターゲット顔の顔特徴
および前記手特徴集合に基づいて、前記ターゲット顔の第1インタラクティブ特徴を決定することは、
前記ターゲット顔
および前記画面中の前記各手に基づいて、第1無向グラフを構築することであって、前記第1無向グラフは、ターゲット顔に対応する第1ノードと、前記各手に一対一に対応する第2ノードと、前記第2ノードに一対一に対応する第1辺
とを含み、各前記第1辺は、前記第1ノードと1つの前記第2ノードを連結するためのものである、ことと、
前記第1無向グラフにおいて、各第1辺に連結される前記第2ノードに対応する手の手特徴と前記ターゲット顔の顔特徴との第1関連度を決定することと、
前記ターゲット顔の顔特徴、前記画面中の前記各手の手特徴
および対応する第1関連度に基づいて、前記第1インタラクティブ特徴を決定すること
と
を含む
、請求項1
または請求項2に記載の方法。
【請求項4】
前記第1無向グラフにおいて、各第1辺に連結される第2ノードに対応する手の手特徴と前記ターゲット顔の顔特徴との第1関連度を決定することは、
各第1辺に連結される第2ノードに対応する手の手特徴
および前記ターゲット顔の顔特徴に基づいて、前記各第1辺に連結される第2ノードに対応する手
および前記ターゲット顔が同一の人体に属する第1信頼度を決定することと、
前記第1無向グラフにおける各第1辺に連結される第2ノードに対応する手
およびターゲット顔が同一の人体に属する第1信頼度に対して正規化を行い、前記各第1辺に連結される第2ノードに対応する手の手特徴と前記ターゲット顔の顔特徴との前記第1関連度を得ること
と
を含む
、請求項3に記載の方法。
【請求項5】
前記ターゲット顔の顔特徴、前記画面中の前記各手の手特徴
および対応する第1関連度に基づいて、前記第1インタラクティブ特徴を決定することは、
前記各手に対応する第1関連度に基づいて、前記各手の手特徴に対して調整を行い、前記各手の調整済み特徴を得ることと、
前記画面中の各前記手の調整済み特徴と前記ターゲット顔の顔特徴
とを融合し、前記第1インタラクティブ特徴を得ること
と
を含む
、請求項3
または請求項4に記載の方法。
【請求項6】
前記ターゲット手の手特徴
および前記顔特徴集合に基づいて、前記ターゲット手の第2インタラクティブ特徴を決定することは、
前記ターゲット手
および前記画面中の各顔に基づいて、第2無向グラフを構築することであって、前記第2無向グラフは、前記ターゲット手に対応する第3ノードと、前記各顔に一対一に対応する第4ノードと、前記第4ノードに一対一に対応する第2辺
とを含み、各前記第2辺は、前記第3ノードと1つの前記第4ノード
とを連結するためのものである、ことと、
前記第2無向グラフにおいて、各第2辺に連結される第4ノードに対応する顔の顔特徴と前記ターゲット手の手特徴との第2関連度を決定することと、
前記ターゲット手の手特徴、前記画面中の前記各顔の顔特徴
および対応する第2関連度に基づいて、前記第2インタラクティブ特徴を決定すること
と
を含む
、請求項1に記載の方法。
【請求項7】
前記第2無向グラフにおいて、各第2辺に連結される第4ノードに対応する顔の顔特徴と前記ターゲット手の手特徴との第2関連度を決定することは、
各第2辺に連結される第4ノードに対応する顔の顔特徴
および前記ターゲット手の手特徴に基づいて、前記各第2辺に連結される第4ノードに対応する顔
および前記ターゲット手が同一の人体に属する第2信頼度を決定することと、
前記第2無向グラフにおける各第2辺に連結される第4ノードに対応する顔
およびターゲット手が同一の人体に属する第2信頼度
に対して正規化を行い、前記各第2辺に連結される第4ノードに対応する顔の顔特徴と前記ターゲット手の手特徴との第2関連度を得ること
と
を含む
、請求項6に記載の方法。
【請求項8】
前記ターゲット手の手特徴、前記画面中の前記各顔の顔特徴
および対応する第2関連度に基づいて、前記第2インタラクティブ特徴を決定することは、
前記各顔に対応する第2関連度に基づいて、前記各顔の顔特徴に対して調整を行い、前記各顔の調整済み特徴を得ることと、
前記画面中の各前記顔の調整済み特徴と前記ターゲット手の手特徴
とを融合し、前記第2インタラクティブ特徴を得ること
と
を含む
、請求項6
または請求項7に記載の方法。
【請求項9】
前記第1インタラクティブ特徴
および前記第2インタラクティブ特徴に基づいて、前記ターゲット顔と前記ターゲット手との関連度を決定することは、
前記第1インタラクティブ特徴
および前記第2インタラクティブ特徴に基づいて、前記ターゲット顔
および前記ターゲット手が同一の人体に属する第3信頼度を決定することと、
前記第3信頼度を前記ターゲット顔と前記ターゲット手との関連度として決定すること
と
を含む
、請求項1
~8のうち
のいずれか一項に記載の方法。
【請求項10】
前記検出待ち画像に他の身体部位が更に含まれる場合、前記方法は、
前記検出待ち画像に対する他の身体部位の検出の結果に基づいて、前記検出待ち画像の他の身体部位の身体特徴集合を決定することであって、前記身体特徴集合における各体特徴はそれぞれ前記検出待ち画像の画面中の1つの前記他の身体部位に対応し、前記他の身体部位は、顔
および手以外の身体部位である、ことを更に含み、
ターゲット顔の顔特徴
および前記手特徴集合に基づいて、前記ターゲット顔の第1インタラクティブ特徴を決定することは、
前記ターゲット顔の顔特徴、前記身体特徴集合
および前記手特徴集合に基づいて、前記第1インタラクティブ特徴を決定することを含み、
ターゲット手の手特徴
および前記顔特徴集合に基づいて、第2インタラクティブ特徴を決定することは、
前記ターゲット手の手特徴、前記身体特徴集合
および前記顔特徴集合に基づいて、前記第2インタラクティブ特徴を決定することを含む
、請求項1
~9のうち
のいずれか一項に記載の方法。
【請求項11】
請求項1
~10のうち
のいずれか一項に記載の方法を実行
することをコンピュータに行わせるためのコンピュータプログラムを記憶し
たコンピュータ記憶媒体。
【請求項12】
コンピュータ機器であって、
前記コンピュータ機器は、メモリ
とプロセッサ
とを備え、前記メモリには
、コンピュータによる実行可能な命令が記憶されており、前記プロセッサは、前記メモリにおけるコンピュータによる実行可能な命令
を実行
することにより、請求項1
~10のうち
のいずれか一項に記載の方法を実行する、コンピュータ機器。
【請求項13】
請求項1
~10のうち
のいずれか一項に記載の方法を実行
することをコンピュータに行わせるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2021年9月16日にシンガポール知的財産事務所に提出された、出願番号が10202110217Vであるシンガポール特許出願に基づく優先権を主張し、該シンガポール特許出願の全内容が参照として本願に組み込まれる。
【0002】
本願の実施例は、画像処理技術分野に関し、顔と手との関連度の検出方法、装置、機器及び記憶媒体に関するが、これらに限定されない。
【背景技術】
【0003】
画像又はビデオに基づいて対象の間の関係の分析を行うことは、コンピュータビジョンの1つの重要な適用シーンである。ここで、人体部位の間の関係の分析は、画像に出現する人体部位が同一の人体に属するかどうかを明確にすることを意図する。特に、顔と手との関連関係の分析において、手の動作及び手と顔との関連関係に基づいて、特定の操作を実行する作業者の身元を明確にすることができる。
【0004】
人数が多い複雑なシーンにおいて、人物同士が互いに遮蔽されるか又は腕が互いに入り交じるという現象がある。関連技術において、訓練されたニューラルネットワークを用いて、顔領域の視覚特徴及び手領域の視覚特徴を抽出し、更に、画像における顔と手との関連度を予測し、顔と手が同一の人体に属するかどうかを判定する。該方法による手と顔との関連度の予測精度を向上させることが望まれている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願の実施例は、顔と手との関連度の検出の技術的解決手段を提供する。
【課題を解決するための手段】
【0006】
本願の実施例の技術的解決手段は、以下のように実現される。
【0007】
本願の実施例は、顔と手との関連度の検出方法を提供する。前記方法は、
検出待ち画像を取得することと、
前記検出待ち画像に対する顔検出及び手検出の結果に基づいて、前記検出待ち画像の顔特徴集合及び手特徴集合を決定することであって、前記顔特徴集合における各顔特徴はそれぞれ前記検出待ち画像の画面中の1つの顔に対応し、前記手特徴集合における各手特徴はそれぞれ前記検出待ち画像の画面中の1つの手に対応する、ことと、
ターゲット顔の顔特徴及び前記手特徴集合に基づいて、前記ターゲット顔の第1インタラクティブ特徴を決定することであって、前記ターゲット顔は、前記検出待ち画像の画面中のいずれか1つの顔である、ことと、
ターゲット手の手特徴及び前記顔特徴集合に基づいて、前記ターゲット手の第2インタラクティブ特徴を決定することであって、前記ターゲット手は、前記検出待ち画像の画面中のいずれか1つの手である、ことと、
前記第1インタラクティブ特徴及び前記第2インタラクティブ特徴に基づいて、前記ターゲット顔と前記ターゲット手との関連度を決定することと、を含む。
【0008】
いくつかの実施例において、前記検出待ち画像に対する顔検出及び手検出の結果に基づいて、前記検出待ち画像の顔特徴集合及び手特徴集合を決定することは、前記検出待ち画像に対する顔検出及び手検出の結果に基づいて、前記検出待ち画像の画面中の各顔の顔検出枠及び各手の手検出枠を決定することと、前記各顔の顔検出枠に基づいて、前記各顔の特徴を抽出し、前記顔特徴集合を得ることと、前記各手の手検出枠に基づいて、前記各手の特徴を抽出し、前記手特徴集合を得ることと、を含む。このように、検出待ち画像における顔及び手に対するターゲット検出の正確度を向上させることができる。
【0009】
いくつかの実施例において、ターゲット顔の顔特徴及び前記手特徴集合に基づいて、前記ターゲット顔の第1インタラクティブ特徴を決定することは、前記ターゲット顔及び前記画面中の前記各手に基づいて、第1無向グラフを構築することであって、前記第1無向グラフは、ターゲット顔に対応する第1ノードと、前記各手に一対一に対応する第2ノードと、前記第2ノードに一対一に対応する第1辺と、を含み、各前記第1辺は、前記第1ノードと1つの前記第2ノードを連結するためのものである、ことと、前記第1無向グラフにおいて、各第1辺に連結される前記第2ノードに対応する手の手特徴と前記ターゲット顔の顔特徴との第1関連度を決定することと、前記ターゲット顔の顔特徴、前記画面中の前記各手の手特徴及び対応する第1関連度に基づいて、前記第1インタラクティブ特徴を決定することと、を含む。このように、検出待ち画像におけるターゲット顔の周辺の複数の手特徴の全てを顔特徴に融合することによって、ターゲット顔と手の関連付けの正確度の向上に寄与する。
【0010】
いくつかの実施例において、前記第1無向グラフにおいて、各第1辺に連結される第2ノードに対応する手の手特徴と前記ターゲット顔の顔特徴との第1関連度を決定することは、各第1辺に連結される第2ノードに対応する手の手特徴及び前記ターゲット顔の顔特徴に基づいて、前記各第1辺に連結される第2ノードに対応する手と前記ターゲット顔が同一の人体に属する第1信頼度を決定することと、前記第1無向グラフにおける各第1辺に連結される第2ノードに対応する手とターゲット顔が同一の人体に属する第1信頼度に対して正規化を行い、前記各第1辺に連結される第2ノードに対応する手の手特徴と前記ターゲット顔の顔特徴との前記第1関連度を得ることと、を含む。このように、第1無向グラフをグラフアテンションネットワークに入力することによって、各第1辺上での手とターゲット顔との関連度をより正確に予測することができる。
【0011】
いくつかの実施例において、前記ターゲット顔の顔特徴、前記画面中の前記各手の手特徴及び対応する第1関連度に基づいて、前記第1インタラクティブ特徴を決定することは、前記各手に対応する第1関連度に基づいて、前記各手の手特徴に対して調整を行い、前記各手の調整済み特徴を得ることと、前記画面中の各前記手の調整済み特徴と前記ターゲット顔の顔特徴を融合し、前記第1インタラクティブ特徴を得ることと、を含む。このように、ターゲット顔とターゲット手との関連度の正確度を最適化することができる。
【0012】
いくつかの実施例において、ターゲット手の手特徴及び前記顔特徴集合に基づいて、前記ターゲット手の第2インタラクティブ特徴を決定することは、前記ターゲット手及び前記画面中の各顔に基づいて、第2無向グラフを構築することであって、前記第2無向グラフは、前記ターゲット手に対応する第3ノードと、前記各顔に一対一に対応する第4ノードと、前記第4ノードに一対一に対応する第2辺と、を含み、各前記第2辺は、前記第3ノードと1つの前記第4ノードを連結するためのものである、ことと、前記第2無向グラフにおいて、各第2辺に連結される第4ノードに対応する顔の顔特徴と前記ターゲット手の手特徴との第2関連度を決定することと、前記ターゲット手の手特徴、前記画面中の前記各顔の顔特徴及び対応する第2関連度に基づいて、前記第2インタラクティブ特徴を決定することと、を含む。このように、複数の手のうちの各手に対して、ターゲット手の手特徴と画像における顔特徴及び他の身体部位の特徴を加重融合することによって、得られた第2インタラクティブ特徴がターゲット手の周辺情報を効果的に表すことができる。
【0013】
いくつかの実施例において、前記第2無向グラフにおいて、各第2辺に連結される第4ノードに対応する顔の顔特徴と前記ターゲット手の手特徴との第2関連度を決定することは、各第2辺に連結される第4ノードに対応する顔の顔特徴及び前記ターゲット手の手特徴に基づいて、前記各第2辺に連結される第4ノードに対応する顔と前記ターゲット手が同一の人体に属する第2信頼度を決定することと、前記第2無向グラフにおける各第2辺に連結される第4ノードに対応する顔とターゲット手が同一の人体に属する第2信頼度に対して正規化を行い、前記各第2辺に連結される第4ノードに対応する顔の顔特徴と前記ターゲット手の手特徴との第2関連度を得ることと、を含む。このように、第2無向グラフをグラフアテンションネットワークに入力することによって、各第2辺上での顔とターゲット手との関連度をより正確に予測することができる。
【0014】
いくつかの実施例において、前記ターゲット手の手特徴、前記画面中の前記各顔の顔特徴及び対応する第2関連度に基づいて、前記第2インタラクティブ特徴を決定することは、前記各顔に対応する第2関連度に基づいて、前記各顔の顔特徴に対して調整を行い、前記各顔の調整済み特徴を得ることと、前記画面中の各前記顔の調整済み特徴と前記ターゲット手の手特徴を融合し、前記第2インタラクティブ特徴を得ることと、を含む。このように、ターゲット顔とターゲット手との関連度の正確度を最適化することができる。
【0015】
いくつかの実施例において、前記第1インタラクティブ特徴及び前記第2インタラクティブ特徴に基づいて、前記ターゲット顔と前記ターゲット手との関連度を決定することは、前記第1インタラクティブ特徴及び前記第2インタラクティブ特徴に基づいて、前記ターゲット顔と前記ターゲット手が同一の人体に属する第3信頼度を決定することと、前記第3信頼度を前記ターゲット顔と前記ターゲット手との関連度として決定することと、を含む。このように、直列接続される2つの全結合層を用いてターゲット顔とターゲット手が同一の人体に属するかどうかを予測することによって、検出待ち画像におけるターゲット顔とターゲット手との関連付け結果の予測精度を向上させることができる。
【0016】
いくつかの実施例において、前記検出待ち画像に他の身体部位が更に含まれる場合、前記方法は、前記検出待ち画像に対する他の身体部位の検出の結果に基づいて、前記検出待ち画像の他の身体部位の身体特徴集合を決定することであって、前記身体特徴集合における各体特徴はそれぞれ前記検出待ち画像の画面中の1つの前記他の身体部位に対応する、ことを更に含み、ターゲット顔の顔特徴及び前記手特徴集合に基づいて、前記ターゲット顔の第1インタラクティブ特徴を決定することは、前記ターゲット顔の顔特徴、前記身体特徴集合及び前記手特徴集合に基づいて、前記第1インタラクティブ特徴を決定することを含み、ターゲット手の手特徴及び前記顔特徴集合に基づいて、第2インタラクティブ特徴を決定することは、前記ターゲット手の手特徴、前記身体特徴集合及び前記顔特徴集合に基づいて、前記第2インタラクティブ特徴を決定することを含む。このように、第1インタラクティブ及び第2インタラクティブ特徴が画像における他の身体部位の特徴をより効果的に表すことができる。
【0017】
本願の実施例は、顔と手との関連度の検出装置を提供する。前記装置は、
検出待ち画像を取得するように構成される第1取得モジュールと、
前記検出待ち画像に対する顔検出及び手検出の結果に基づいて、前記検出待ち画像の顔特徴集合及び手特徴集合を決定するように構成される第1決定モジュールであって、前記顔特徴集合における各顔特徴はそれぞれ前記検出待ち画像の画面中の1つの顔に対応し、前記手特徴集合における各手特徴はそれぞれ前記検出待ち画像の画面中の1つの手に対応する、第1決定モジュールと、
ターゲット顔の顔特徴及び前記手特徴集合に基づいて、前記ターゲット顔の第1インタラクティブ特徴を決定するように構成される第2決定モジュールであって、前記ターゲット顔は、前記検出待ち画像の画面中のいずれか1つの顔である、第2決定モジュールと、
ターゲット手の手特徴及び前記顔特徴集合に基づいて、前記ターゲット手の第2インタラクティブ特徴を決定するように構成される第3決定モジュールであって、前記ターゲット手は、前記検出待ち画像の画面中のいずれか1つの手である、第3決定モジュールと、
前記第1インタラクティブ特徴及び前記第2インタラクティブ特徴に基づいて、前記ターゲット顔と前記ターゲット手との関連度を決定するように構成される第4決定モジュールと、を備える。
【0018】
本願の実施例は、コンピュータ記憶媒体を提供する。前記コンピュータ記憶媒体にはコンピュータによる実行可能な命令が記憶されており、該コンピュータによる実行可能な命令が実行された後、コンピュータに上記顔と手との関連度の検出方法を実現させることができる。
【0019】
本願の実施例は、コンピュータ機器を提供する。前記コンピュータ機器は、メモリと、プロセッサと、を備え、前記メモリにコンピュータによる実行可能な命令が記憶されており、前記プロセッサは前記メモリにおけるコンピュータによる実行可能な命令を実行する時、上記顔と手との関連度の検出方法を実現することができる。
例えば、本願は以下の項目を提供する。
(項目1)
顔と手との関連度の検出方法であって、
検出待ち画像を取得することと、
前記検出待ち画像に対する顔検出及び手検出の結果に基づいて、前記検出待ち画像の顔特徴集合及び手特徴集合を決定することであって、前記顔特徴集合における各顔特徴はそれぞれ前記検出待ち画像の画面中の1つの顔に対応し、前記手特徴集合における各手特徴はそれぞれ前記検出待ち画像の画面中の1つの手に対応する、ことと、
ターゲット顔の顔特徴及び前記手特徴集合に基づいて、前記ターゲット顔の第1インタラクティブ特徴を決定することであって、前記ターゲット顔は、前記検出待ち画像の画面中のいずれか1つの顔である、ことと、
ターゲット手の手特徴及び前記顔特徴集合に基づいて、前記ターゲット手の第2インタラクティブ特徴を決定することであって、前記ターゲット手は、前記検出待ち画像の画面中のいずれか1つの手である、ことと、
前記第1インタラクティブ特徴及び前記第2インタラクティブ特徴に基づいて、前記ターゲット顔と前記ターゲット手との関連度を決定することと、を含む、顔と手との関連度の検出方法。
(項目2)
前記検出待ち画像に対する顔検出及び手検出の結果に基づいて、前記検出待ち画像の顔特徴集合及び手特徴集合を決定することは、
前記検出待ち画像に対する顔検出及び手検出の結果に基づいて、前記検出待ち画像の画面中の各顔の顔検出枠及び各手の手検出枠を決定することと、
前記各顔の顔検出枠に基づいて、前記各顔の特徴を抽出し、前記顔特徴集合を得ることと、
前記各手の手検出枠に基づいて、前記各手の特徴を抽出し、前記手特徴集合を得ることと、を含むことを特徴とする
項目1に記載の方法。
(項目3)
前記ターゲット顔の顔特徴及び前記手特徴集合に基づいて、前記ターゲット顔の第1インタラクティブ特徴を決定することは、
前記ターゲット顔及び前記画面中の前記各手に基づいて、第1無向グラフを構築することであって、前記第1無向グラフは、ターゲット顔に対応する第1ノードと、前記各手に一対一に対応する第2ノードと、前記第2ノードに一対一に対応する第1辺と、を含み、各前記第1辺は、前記第1ノードと1つの前記第2ノードを連結するためのものである、ことと、
前記第1無向グラフにおいて、各第1辺に連結される前記第2ノードに対応する手の手特徴と前記ターゲット顔の顔特徴との第1関連度を決定することと、
前記ターゲット顔の顔特徴、前記画面中の前記各手の手特徴及び対応する第1関連度に基づいて、前記第1インタラクティブ特徴を決定することと、を含むことを特徴とする
項目1又は2に記載の方法。
(項目4)
前記第1無向グラフにおいて、各第1辺に連結される第2ノードに対応する手の手特徴と前記ターゲット顔の顔特徴との第1関連度を決定することは、
各第1辺に連結される第2ノードに対応する手の手特徴及び前記ターゲット顔の顔特徴に基づいて、前記各第1辺に連結される第2ノードに対応する手と前記ターゲット顔が同一の人体に属する第1信頼度を決定することと、
前記第1無向グラフにおける各第1辺に連結される第2ノードに対応する手とターゲット顔が同一の人体に属する第1信頼度に対して正規化を行い、前記各第1辺に連結される第2ノードに対応する手の手特徴と前記ターゲット顔の顔特徴との前記第1関連度を得ることと、を含むことを特徴とする
項目3に記載の方法。
(項目5)
前記ターゲット顔の顔特徴、前記画面中の前記各手の手特徴及び対応する第1関連度に基づいて、前記第1インタラクティブ特徴を決定することは、
前記各手に対応する第1関連度に基づいて、前記各手の手特徴に対して調整を行い、前記各手の調整済み特徴を得ることと、
前記画面中の各前記手の調整済み特徴と前記ターゲット顔の顔特徴を融合し、前記第1インタラクティブ特徴を得ることと、を含むことを特徴とする
項目3又は4に記載の方法。
(項目6)
前記ターゲット手の手特徴及び前記顔特徴集合に基づいて、前記ターゲット手の第2インタラクティブ特徴を決定することは、
前記ターゲット手及び前記画面中の各顔に基づいて、第2無向グラフを構築することであって、前記第2無向グラフは、前記ターゲット手に対応する第3ノードと、前記各顔に一対一に対応する第4ノードと、前記第4ノードに一対一に対応する第2辺と、を含み、各前記第2辺は、前記第3ノードと1つの前記第4ノードを連結するためのものである、ことと、
前記第2無向グラフにおいて、各第2辺に連結される第4ノードに対応する顔の顔特徴と前記ターゲット手の手特徴との第2関連度を決定することと、
前記ターゲット手の手特徴、前記画面中の前記各顔の顔特徴及び対応する第2関連度に基づいて、前記第2インタラクティブ特徴を決定することと、を含むことを特徴とする
項目1に記載の方法。
(項目7)
前記第2無向グラフにおいて、各第2辺に連結される第4ノードに対応する顔の顔特徴と前記ターゲット手の手特徴との第2関連度を決定することは、
各第2辺に連結される第4ノードに対応する顔の顔特徴及び前記ターゲット手の手特徴に基づいて、前記各第2辺に連結される第4ノードに対応する顔と前記ターゲット手が同一の人体に属する第2信頼度を決定することと、
前記第2無向グラフにおける各第2辺に連結される第4ノードに対応する顔とターゲット手が同一の人体に属する第2信頼度に対して正規化を行い、前記各第2辺に連結される第4ノードに対応する顔の顔特徴と前記ターゲット手の手特徴との第2関連度を得ることと、を含むことを特徴とする
項目6に記載の方法。
(項目8)
前記ターゲット手の手特徴、前記画面中の前記各顔の顔特徴及び対応する第2関連度に基づいて、前記第2インタラクティブ特徴を決定することは、
前記各顔に対応する第2関連度に基づいて、前記各顔の顔特徴に対して調整を行い、前記各顔の調整済み特徴を得ることと、
前記画面中の各前記顔の調整済み特徴と前記ターゲット手の手特徴を融合し、前記第2インタラクティブ特徴を得ることと、を含むことを特徴とする
項目6又は7に記載の方法。
(項目9)
前記第1インタラクティブ特徴及び前記第2インタラクティブ特徴に基づいて、前記ターゲット顔と前記ターゲット手との関連度を決定することは、
前記第1インタラクティブ特徴及び前記第2インタラクティブ特徴に基づいて、前記ターゲット顔と前記ターゲット手が同一の人体に属する第3信頼度を決定することと、
前記第3信頼度を前記ターゲット顔と前記ターゲット手との関連度として決定することと、を含むことを特徴とする
項目1から8のうちいずれか一項に記載の方法。
(項目10)
前記検出待ち画像に他の身体部位が更に含まれる場合、前記方法は、
前記検出待ち画像に対する他の身体部位の検出の結果に基づいて、前記検出待ち画像の他の身体部位の身体特徴集合を決定することであって、前記身体特徴集合における各体特徴はそれぞれ前記検出待ち画像の画面中の1つの前記他の身体部位に対応し、前記他の身体部位は、顔及び手以外の身体部位である、ことを更に含み、
ターゲット顔の顔特徴及び前記手特徴集合に基づいて、前記ターゲット顔の第1インタラクティブ特徴を決定することは、
前記ターゲット顔の顔特徴、前記身体特徴集合及び前記手特徴集合に基づいて、前記第1インタラクティブ特徴を決定することを含み、
ターゲット手の手特徴及び前記顔特徴集合に基づいて、第2インタラクティブ特徴を決定することは、
前記ターゲット手の手特徴、前記身体特徴集合及び前記顔特徴集合に基づいて、前記第2インタラクティブ特徴を決定することを含むことを特徴とする
項目1から9のうちいずれか一項に記載の方法。
(項目11)
コンピュータ記憶媒体であって、前記コンピュータ記憶媒体にはコンピュータによる実行可能な命令が記憶されており、前記コンピュータによる実行可能な命令はコンピュータに、
検出待ち画像を取得することと、
前記検出待ち画像に対する顔検出及び手検出の結果に基づいて、前記検出待ち画像の顔特徴集合及び手特徴集合を決定することであって、前記顔特徴集合における各顔特徴はそれぞれ前記検出待ち画像の画面中の1つの顔に対応し、前記手特徴集合における各手特徴はそれぞれ前記検出待ち画像の画面中の1つの手に対応する、ことと、
ターゲット顔の顔特徴及び前記手特徴集合に基づいて、前記ターゲット顔の第1インタラクティブ特徴を決定することであって、前記ターゲット顔は、前記検出待ち画像の画面中のいずれか1つの顔である、ことと、
ターゲット手の手特徴及び前記顔特徴集合に基づいて、前記ターゲット手の第2インタラクティブ特徴を決定することであって、前記ターゲット手は、前記検出待ち画像の画面中のいずれか1つの手である、ことと、
前記第1インタラクティブ特徴及び前記第2インタラクティブ特徴に基づいて、前記ターゲット顔と前記ターゲット手との関連度を決定することと、を実行させる、コンピュータ記憶媒体。
(項目12)
コンピュータ機器であって、メモリと、プロセッサと、を備え、前記メモリにはコンピュータによる実行可能な命令が記憶されており、前記プロセッサは、前記メモリにおけるコンピュータによる実行可能な命令が実行して、
検出待ち画像を取得することと、
前記検出待ち画像に対する顔検出及び手検出の結果に基づいて、前記検出待ち画像の顔特徴集合及び手特徴集合を決定することであって、前記顔特徴集合における各顔特徴はそれぞれ前記検出待ち画像の画面中の1つの顔に対応し、前記手特徴集合における各手特徴はそれぞれ前記検出待ち画像の画面中の1つの手に対応する、ことと、
ターゲット顔の顔特徴及び前記手特徴集合に基づいて、前記ターゲット顔の第1インタラクティブ特徴を決定することであって、前記ターゲット顔は、前記検出待ち画像の画面中のいずれか1つの顔である、ことと、
ターゲット手の手特徴及び前記顔特徴集合に基づいて、前記ターゲット手の第2インタラクティブ特徴を決定することであって、前記ターゲット手は、前記検出待ち画像の画面中のいずれか1つの手である、ことと、
前記第1インタラクティブ特徴及び前記第2インタラクティブ特徴に基づいて、前記ターゲット顔と前記ターゲット手との関連度を決定することと、を実行するように構成される、コンピュータ機器。
(項目13)
前記検出待ち画像に対する顔検出及び手検出の結果に基づいて、前記検出待ち画像の顔特徴集合及び手特徴集合を決定する場合、前記プロセッサは、
前記検出待ち画像に対する顔検出及び手検出の結果に基づいて、前記検出待ち画像の画面中の各顔の顔検出枠及び各手の手検出枠を決定することと、
前記各顔の顔検出枠に基づいて、前記各顔の特徴を抽出し、前記顔特徴集合を得ることと、
前記各手の手検出枠に基づいて、前記各手の特徴を抽出し、前記手特徴集合を得ることと、を実行するように構成されることを特徴とする
項目12に記載のコンピュータ機器。
(項目14)
ターゲット顔の顔特徴及び前記手特徴集合に基づいて、前記ターゲット顔の第1インタラクティブ特徴を決定する場合、前記プロセッサは、
前記ターゲット顔及び前記画面中の前記各手に基づいて、第1無向グラフを構築することであって、前記第1無向グラフは、ターゲット顔に対応する第1ノードと、前記各手に一対一に対応する第2ノードと、前記第2ノードに一対一に対応する第1辺と、を含み、各前記第1辺は、前記第1ノードと1つの前記第2ノードを連結するためのものである、ことと、
前記第1無向グラフにおいて、各第1辺に連結される前記第2ノードに対応する手の手特徴と前記ターゲット顔の顔特徴との第1関連度を決定することと、
前記ターゲット顔の顔特徴、前記画面中の前記各手の手特徴及び対応する第1関連度に基づいて、前記第1インタラクティブ特徴を決定することと、を実行するように構成されることを特徴とする
項目12又は13に記載のコンピュータ機器。
(項目15)
前記第1無向グラフにおいて、各第1辺に連結される第2ノードに対応する手の手特徴と前記ターゲット顔の顔特徴との第1関連度を決定する場合、前記プロセッサは、
各第1辺に連結される第2ノードに対応する手の手特徴及び前記ターゲット顔の顔特徴に基づいて、前記各第1辺に連結される第2ノードに対応する手と前記ターゲット顔が同一の人体に属する第1信頼度を決定することと、
前記第1無向グラフにおける各第1辺に連結される第2ノードに対応する手とターゲット顔が同一の人体に属する第1信頼度に対して正規化を行い、前記各第1辺に連結される第2ノードに対応する手の手特徴と前記ターゲット顔の顔特徴との前記第1関連度を得ることと、を実行するように構成されることを特徴とする
項目14に記載のコンピュータ機器。
(項目16)
前記ターゲット顔の顔特徴、前記画面中の前記各手の手特徴及び対応する第1関連度に基づいて、前記第1インタラクティブ特徴を決定する場合、前記プロセッサは、
前記各手に対応する第1関連度に基づいて、前記各手の手特徴に対して調整を行い、前記各手の調整済み特徴を得ることと、
前記画面中の各前記手の調整済み特徴と前記ターゲット顔の顔特徴を融合し、前記第1インタラクティブ特徴を得ることと、を実行するように構成される
項目14又は15に記載のコンピュータ機器。
(項目17)
ターゲット手の手特徴及び前記顔特徴集合に基づいて、前記ターゲット手の第2インタラクティブ特徴を決定する場合、前記プロセッサは、
前記ターゲット手及び前記画面中の各顔に基づいて、第2無向グラフを構築することであって、前記第2無向グラフは、前記ターゲット手に対応する第3ノードと、前記各顔に一対一に対応する第4ノードと、前記第4ノードに一対一に対応する第2辺と、を含み、各前記第2辺は、前記第3ノードと1つの前記第4ノードを連結するためのものである、ことと、
前記第2無向グラフにおいて、各第2辺に連結される第4ノードに対応する顔の顔特徴と前記ターゲット手の手特徴との第2関連度を決定することと、
前記ターゲット手の手特徴、前記画面中の前記各顔の顔特徴及び対応する第2関連度に基づいて、前記第2インタラクティブ特徴を決定することと、を実行するように構成されることを特徴とする
項目12に記載のコンピュータ機器。
(項目18)
前記第2無向グラフにおいて、各第2辺に連結される第4ノードに対応する顔の顔特徴と前記ターゲット手の手特徴との第2関連度を決定する場合、前記プロセッサは、
各第2辺に連結される第4ノードに対応する顔の顔特徴及び前記ターゲット手の手特徴に基づいて、前記各第2辺に連結される第4ノードに対応する顔と前記ターゲット手が同一の人体に属する第2信頼度を決定することと、
前記第2無向グラフにおける各第2辺に連結される第4ノードに対応する顔とターゲット手が同一の人体に属する第2信頼度に対して正規化を行い、前記各第2辺に連結される第4ノードに対応する顔の顔特徴と前記ターゲット手の手特徴との第2関連度を得ることと、を実行するように構成されることを特徴とする
項目17に記載のコンピュータ機器。
(項目19)
前記ターゲット手の手特徴、前記画面中の前記各顔の顔特徴及び対応する第2関連度に基づいて、前記第2インタラクティブ特徴を決定する場合、前記プロセッサは、
前記各顔に対応する第2関連度に基づいて、前記各顔の顔特徴に対して調整を行い、前記各顔の調整済み特徴を得ることと、
前記画面中の各前記顔の調整済み特徴と前記ターゲット手の手特徴を融合し、前記第2インタラクティブ特徴を得ることと、を実行するように構成されることを特徴とする
項目17又は18に記載のコンピュータ機器。
(項目20)
コンピュータプログラムであって、電子機器によって実行可能なコンピュータ命令を含み、前記コンピュータ命令は、前記電子機器におけるプロセッサにより実行される時、前記プロセッサに、
検出待ち画像を取得することと、
前記検出待ち画像に対する顔検出及び手検出の結果に基づいて、前記検出待ち画像の顔特徴集合及び手特徴集合を決定することであって、前記顔特徴集合における各顔特徴はそれぞれ前記検出待ち画像の画面中の1つの顔に対応し、前記手特徴集合における各手特徴はそれぞれ前記検出待ち画像の画面中の1つの手に対応する、ことと、
ターゲット顔の顔特徴及び前記手特徴集合に基づいて、前記ターゲット顔の第1インタラクティブ特徴を決定することであって、前記ターゲット顔は、前記検出待ち画像の画面中のいずれか1つの顔である、ことと、
ターゲット手の手特徴及び前記顔特徴集合に基づいて、前記ターゲット手の第2インタラクティブ特徴を決定することであって、前記ターゲット手は、前記検出待ち画像の画面中のいずれか1つの手である、ことと、
前記第1インタラクティブ特徴及び前記第2インタラクティブ特徴に基づいて、前記ターゲット顔と前記ターゲット手との関連度を決定することと、を実行させる、コンピュータプログラム。
【発明の効果】
【0020】
本願の実施例は、顔と手との関連度の検出方法、装置、機器及び記憶媒体を提供する。取得された、少なくとも顔と手とを含む検出待ち画像に対して、まず、検出待ち画像に対して特徴抽出を行い、顔特徴集合及び手特徴集合を得て、続いて、顔のうちのいずれか1つのターゲット顔に対して、画像における手の手特徴集合を融合することによって、ターゲット顔の周辺の手特徴を表すことができる第1インタラクティブ特徴を得ると同時に、手のうちのいずれか1つのターゲット手に対して、画像における顔の顔特徴集合を融合することによって、ターゲット手の周辺の顔特徴を表すことができる第2インタラクティブ特徴を得る。最後に、周囲情報特徴を表す第1インタラクティブ及び第2インタラクティブ特徴により、ターゲット顔とターゲット手との関連度をより正確に予測することができる。
【図面の簡単な説明】
【0021】
【
図1】本願の実施例による顔と手との関連度の検出方法の実現プロセスを示す概略図である。
【
図2】本願の実施例による顔と手との関連度の検出方法の別の実現プロセスを示す概略図である。
【
図3】本願の実施例による顔と手との関連付けのネットワークモデルの訓練フレームワークを示す概略図である。
【
図4】本願の実施例によるグラフアテンションネットワークの実現フレームワークを示す概略図である。
【
図5】本願の実施例による顔と手との関連度の検出装置の構造を示す概略図である。
【
図6】本願の実施例によるコンピュータ機器の構造を示す概略図である。
【発明を実施するための形態】
【0022】
本願の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本願の実施例における図面を参照しながら、発明の具体的な技術的解決手段を更に詳しく説明する。下記実施例は、本願を説明するためのものであり、本願の範囲を限定するものではない。
【0023】
下記記述において、「幾つかの実施例」に係る。これは、全ての可能な実施例のサブ集合を記述する。「幾つかの実施例」は、全ての可能な実施例の同一のサブ集合又は異なるサブ集合であってもよく、また、矛盾しない限り、互いに組み合わせられてもよいと理解されるべきである。
【0024】
下記記述に係る用語「第1/第2/第3」は、類似した対象を区別するためのものであり、対象の特定の順番を説明するためのものではないことに留意されたい。ここで説明した本願の実施例をここで示した又は説明した順番以外の順番で実施可能なものにするために、「第1/第2/第3」は、許された場合であれば特定の順番又は前後順序を互いに取り替えることができることは、理解されるべきである。
【0025】
別途定義しない限り、本明細書に用いられる全ての技術的用語及び科学的用語は、本願の実施例が属する分野における当業者が一般的に理解する意味と同じである。本明細書に用いられる用語は、本願の実施例の目的を記述するためのものだけであり、本願を限定するものではない。
【0026】
本願の実施例を更に詳しく説明する前に、本願の実施例に係る名詞及び用語を説明する。本願の実施例に係る名詞及び用語は、下記解釈に適用される。
【0027】
1)コンピュータビジョン(Computer Vision)は、如何にマシンに「見てもらう」かを研究する科学であり、人間の肉眼の代わりにカメラ及びコンピュータを使用して目標に対して識別、トラッキング及び測定を行い、更に、画像処理をする技術である。
【0028】
2)グラフアテンションネットワーク(Graph Attention Networks:GAT)において、訓練データは、グラフであり、以前の、直接的にユークリッド空間で随意に表されるデータではない。最も簡単な入力データでも、隣接行列及びノード特徴という2部分を含む必要があり、且つグラフのノードは重みであるだけでなく、多くの特徴を有する。グラフアテンションネットワークは、代表的なグラフ畳み込みネットワークとして、アテンションメカニズムを引き入れることによって、より良好な近隣集約を実現させ、近隣の重みを学習することによって、GATは、近隣に対する加重集約を実現することができる。従って、GATは、雑音近隣に対して高いロバスト性を有するだけでなく、アテンションメカニズムにより一定の解釈可能性をモデルに付与する。
【0029】
3)特徴ピラミッドネットワーク(Feature Pyramid Networks:FPN)は、ネットワークであり、物体検出におけるマルチスケールの問題を主に解決し、異なる特徴層で独立して予測を行い、簡単な接続変更により、元のモデル演算量を増加させることなく、小さい物体の検出の性能を大幅に向上させる。
【0030】
以下では、本願の実施例で提供される顔と手との関連度の検出機器の例示的な適用を説明する。本願の実施例で提供される機器は、画像収集機能を持つノートパソコン、タブレット、デスクトップコンピュータ、カメラ、携帯機器(例えば、パーソナルデジタルアシスタント、専用メッセージング機器、携帯型ゲーム機器)などの種々のタイプのユーザ端末として実施されてもよく、サーバとして実施されてもよい。以下では、機器が端末又はサーバとして実施される時の例示的な適用を説明する。
【0031】
該方法は、コンピュータ機器に適用可能である。該方法により実現される機能は、コンピュータ機器におけるプロセッサによりプログラムコードを呼び出すことで実現されてもよく、無論、プログラムコードは、コンピュータ記憶媒体に記憶されてもよい。これから分かるように、該コンピュータ機器は少なくともプロセッサ及び記憶媒体を含む。
【0032】
本願の実施例は、顔と手との関連度の検出方法を提供する。
図1に示すように、
図1に示すステップを参照しながら、説明する。
【0033】
ステップS101において、検出待ち画像を取得する。
【0034】
いくつかの実施例において、検出待ち画像は、カラー画像であってもよく、グレースケール画像であってもよい。顔と手は、検出待ち画像の前景領域、中景領域及び背景領域に位置してもよい。該検出待ち画像の画面に、少なくとも1つの人物及び少なくとも1つの手が含まれ、ここで、検出待ち画像における顔は、検出待ち画像において全部又は一部の顔情報を呈することができる画面を指す。これに対応して、検出待ち画像における手は、検出待ち画像に呈される左手情報、右手情報及び左右手情報などを指すことができる。該検出待ち画像は、任意のシーンで収集された画像であってもよい。例えば、複数のプレイヤー及びプレイヤーの手を含むゲーム場で収集された画像である。ここで、顔は、プレイヤーの顔であり、手は、プレイヤーの手である。検出待ち画像における顔は、少なくとも1つであり、手は、少なくとも2つである。
【0035】
いくつかの実施例において、少なくとも1つの顔が検出待ち画像において呈示する状態は、完全な1つの顔、半分の顔、明瞭又は不明瞭な顔などであってもよい。これに対応して、手が検出待ち画像において呈示する姿勢は、開放又は閉鎖であってもよく、一部閉鎖などであってもよい。
【0036】
いくつかの実施例において、検出待ち画像の画面コンテンツは、顔及び手を含むが、これらに限定されない。例えば、検出待ち画像に、他の身体部位(例えば、腕、肘、腰部及び頸部など)が更に含まれてもよい。検出待ち画像において、画面コンテンツにおける顔と手は、例えば教室、公園、事務室又はゲーム場などのいずれか1つのシーンに位置してもよい。それと同時に、検出待ち画像における画面コンテンツに含まれる顔の数及び手は、1つ、2つ及びそれ以上であってもよい。これに対応して、検出待ち画像の画面コンテンツにおける顔と手との相対的位置関係は、左右、前後、上下などであってもよい。
【0037】
ステップS102において、前記検出待ち画像に対する顔検出及び手検出の結果に基づいて、前記検出待ち画像の顔特徴集合及び手特徴集合を決定する。
【0038】
いくつかの実施例において、前記検出待ち画像に対して顔検出及び手検出を行うことによって、検出待ち画像に対する顔検出及び手検出の結果を得て、人体検出枠を用いて、検出された顔をマーキングし、手検出枠を用いて、検出された前記手をマーキングする。ここで、顔特徴集合における各顔特徴はそれぞれ検出待ち画像の画面中の1つの顔に対応し、手特徴集合における各手特徴はそれぞれ検出待ち画像の画面中の1つの手に対応する。いくつかの可能な実現形態において、まず、検出モデルを用いて、検出待ち画像における各顔の顔検出枠及び手の手検出枠を予測し、続いて、各顔検出枠及び各手検出枠において、特徴抽出を行い、顔特徴集合及び手特徴集合を得る。検出待ち画像に顔及び手以外の他の身体部位が更に含まれると、検出モデルを用いて、該他の身体部位の体検出枠を予測し、身体特徴集合を得る。
【0039】
いくつかの可能な実現形態において、まず、バックボーンネットワークを用いて、検出待ち画像の画像情報を抽出し、特徴マップを生成する。ここで、バックボーンネットワークは、画像に対して畳み込み処理を行うための畳み込みモジュールを含んでもよい。次に、特徴マップを特徴ピラミッドネットワークに入力し、解像度が異なる画像特徴を得る。更に、解像度が異なる画像特徴を領域提案ネットワークに入力し、検出待ち画像における領域候補を決定する。最後に、領域候補を、畳み込みニューラルネットワーク特徴を有する領域ネットワーク(Regions with CNN:RCNN)に入力し、各領域候補における顔の顔検出枠及び手の手検出枠を得て、検出枠において、顔及び手に対して特徴抽出を行い、顔特徴集合及び手特徴集合を得る。上記バックボーンネットワーク、特徴ピラミッドネットワーク、領域ネットワークは、訓練されたニューラルネットワークであってもよい。
【0040】
ステップS103において、ターゲット顔の顔特徴及び前記手特徴集合に基づいて、前記ターゲット顔の第1インタラクティブ特徴を決定する。
【0041】
いくつかの実施例において、ターゲット顔は、検出待ち画像の画面中のいずれか1つの顔である。ターゲット顔の特徴と検出待ち画像に含まれる各手の手特徴をステッチング又は重畳など方式により融合し、第1インタラクティブ特徴を得る。検出待ち画像に他の身体部位が更に含まれると、該他の身体部位の特徴及び各手の手特徴を全てターゲット顔の顔特徴に融合し、第1インタラクティブ特徴を得る。それにより、第1インタラクティブ特徴が該ターゲット顔周辺の体情報を効果的に表すことができる。
【0042】
いくつかの可能な実現形態において、ターゲット顔を中心ノードとして、ターゲット顔を表す中心ノードと各手を表すノードを連結することによって、無向グラフを構築する。構築された無向グラフをグラフアテンションネットワークの入力とする。グラフアテンションネットワークは、無向グラフにおける各辺に対して各手とターゲット顔との関連度を決定する。それにより、該関連度により、検出待ち画像における全ての手と該ターゲット顔を融合し、第1インタラクティブ特徴を得る。
【0043】
ステップS104において、ターゲット手の手特徴及び前記顔特徴集合に基づいて、前記ターゲット手の第2インタラクティブ特徴を決定する。
【0044】
いくつかの実施例において、ターゲット手は、前記検出待ち画像の画面中のいずれか1つの手である。ターゲット手の特徴と検出待ち画像に含まれる各顔の顔特徴を融合し、第2インタラクティブ特徴を得る。検出待ち画像に他の身体部位が更に含まれると、該他の身体部位の特徴と各顔の顔特徴を全てターゲット手の手特徴に融合し、第2インタラクティブ特徴を得る。それにより、第2インタラクティブ特徴が外ターゲット顔周辺の顔特徴及び身元情報を効果的に表すことができる。
【0045】
いくつかの可能な実現形態において、ターゲット手を中心ノードとして、ターゲット手を表す中心ノードと各顔を表すノードを連結することによって、無向グラフを構築する。構築された無向グラフをグラフアテンションネットワークの入力とする。グラフアテンションネットワークは、無向グラフにおける各辺に対して各顔とターゲット手との関連度を決定する。それにより、該関連度により、検出待ち画像における全ての顔と該ターゲット手を融合し、第2インタラクティブ特徴を得る。
【0046】
ステップS105において、前記第1インタラクティブ特徴及び前記第2インタラクティブ特徴に基づいて、前記ターゲット顔と前記ターゲット手との関連度を決定する。
【0047】
いくつかの実施例において、グラフアテンションネットワークから出力された第1インタラクティブ特徴及び別のグラフアテンションネットワークから出力された第2インタラクティブをペアヘッドネットワーク(Pair Head)に入力し、第1インタラクティブ特徴と第2インタラクティブ特徴が同一の人体に属するかどうかに対して予測を行い、ターゲット顔とターゲット手が同一の人体に属するかどうかを表す関連度を得る。ここで、ペアヘッドネットワーク(Pair Head)は、分類のためのニューラルネットワークであってもよく、それは、予め訓練されてもよい。
【0048】
いくつかの可能な実現形態において、2層の全結合層によりペアヘッドネットワークを実現させる。即ち、2層の全結合ネットワークを直列接続し、入力された第1インタラクティブ特徴及び第2インタラクティブ特徴に対して連続した2回の全結合層による処理を行い、続いて、活性化関数により、第1インタラクティブ特徴と第2インタラクティブ特徴との関連付け結果を予測する。
【0049】
本願の実施例において、取得された検出待ち画像に対して、まず、検出待ち画像に対して顔検出及び手検出を行い、顔特徴集合及び手特徴集合を決定し、続いて、顔のうちのいずれか1つのターゲット顔に対して、画像における手の手特徴集合を融合することによって、ターゲット顔の周辺の手特徴を表すことができる第1インタラクティブ特徴を得ると同時に、手のうちのいずれか1つのターゲット手に対して、画像における顔の顔特徴集合を融合することによって、ターゲット手の周辺の顔特徴を表すことができる第2インタラクティブ特徴を得る。最後に、人体周囲情報特徴を表す第1インタラクティブ及び第2インタラクティブ特徴により、ターゲット顔とターゲット手との関連度をより正確に予測することができる。
【0050】
いくつかの実施例において、検出待ち画像における顔と手に対する特徴抽出の正確度を向上させるために、RCNNネットワークを用いて、検出待ち画像における顔と手の検出枠を予測することによって、顔特徴及び手特徴を更に得る。即ち、上記ステップS102は、下記ステップにより実現されてもよい。
【0051】
ステップS121において、前記検出待ち画像に対する顔検出及び手検出の結果に基づいて、前記検出待ち画像の画面中の各顔の顔検出枠及び各手の手検出枠を決定する。
【0052】
いくつかの実施例において、まず、バックボーンネットワークを用いて、検出待ち画像の画像特徴を抽出し、特徴マップを生成する。次に、画像特徴マップを特徴ピラミッドネットワークに入力することによって、解像度が異なる複数の画像特徴の画像特徴を得ることができる。最後に、解像度が異なる複数の画像特徴をRCNNネットワークに入力し、顔検出及び手検出を行い、各顔の顔検出枠及び各手の手検出枠を検出する。
【0053】
ステップS122において、前記各顔の顔検出枠に基づいて、前記各顔の特徴を抽出し、前記顔特徴集合を得る。
【0054】
いくつかの実施例において、顔検出枠でマーキングされる画像領域に対して特徴抽出を行い、顔特徴を得る。このように、各顔の顔検出枠が所在する画像領域に対して特徴抽出を行い、顔特徴集合を得る。
【0055】
ステップS123において、前記各手の手検出枠に基づいて、前記各手の特徴を抽出し、前記手特徴集合を得る。
【0056】
いくつかの実施例において、手検出枠でマーキングされる画像領域に対して特徴抽出を行い、手特徴を得る。このように、各手の手検出枠が所在する画像領域に対して特徴抽出を行い、手特徴集合を得る。これにより、特徴ピラミッドネットワークから出力された解像度が異なる画像特徴をRCNNの入力として、検出待ち画像における顔及び手の検出枠を予測することによって、検出待ち画像における顔及び手に対するターゲット検出の正確度を更に向上させることができる。
【0057】
いくつかの実施例において、RCNNにより検出された顔検出枠及び手検出枠により、第1無向グラフを構築することによって、グラフアテンションネットワークを用いて、ターゲット顔の顔特徴に対して画像におけるより多くの他の身体部位の特徴を融合することができる。即ち、上記ステップS103は、
図2に示すステップにより実現されてもよい。
図2は、本願の実施例による顔と手との関連度の検出方法の別の実現プロセスを示す概略図である。
図1及び
図2を参照しながら、以下のように説明する。
【0058】
ステップS201において、前記ターゲット顔及び前記画面中の前記各手に基づいて、第1無向グラフを構築する。
【0059】
いくつかの実施例において、第1無向グラフは、ターゲット顔に対応する第1ノードと、前記各手に一対一に対応する第2ノードと、前記第2ノードに一対一に対応する第1辺と、を含み、各前記第1辺は、前記第1ノードと1つの前記第2ノードを連結するためのものである。前記ターゲット顔の顔検出枠を中心である第1ノードとし、各手の手検出枠を第2ノードとし、第1ノードをそれぞれ各手の第2ノードに連結し、複数本の第1辺を形成し、前記第1無向グラフを得る。いくつかの可能な実現形態において、ターゲット顔及び各手をいずれも1つのノードとする。即ち、検出待ち画像にいくつかの手が含まれると、手の該数の第2ノードを設定する。検出待ち画像に他の身体部位が更に含まれると、該他の身体部位も1つのノードとする。このように、ターゲット顔の第1ノードを中心とし、各手の第2ノード及び他の身体部位のノードにそれぞれ連結することによって、第1無向グラフを構築する。このように、第1無向グラフにおける各第1辺の両端のうちの一端は、ターゲット顔の第1ノードであり、他端は、1つの手の第1ノード又は他の身体部位のノードである。このように、構築された第1無向グラフにおいて、ターゲット顔に対して、検出待ち画像における手特徴及び各体部位の特徴をより十分に考慮することができる。
【0060】
ステップS202において、前記第1無向グラフにおいて、各第1辺に連結される前記第2ノードに対応する手の手特徴と前記ターゲット顔の顔特徴との第1関連度を決定する。
【0061】
いくつかの実施例において、第1無向グラフを訓練されたグラフアテンションネットワークに入力する。第1無向グラフにおける各第1辺に対して、グラフアテンションネットワークの全結合層及び活性化関数により、該第1辺の両端のターゲット顔と手が同一の人体に属する信頼度を予測し、グラフアテンションネットワークにおける正規化関数により、信頼度に対して正規化を行い、第1関連度を得る。
【0062】
いくつかの実現形態において、グラフアテンションネットワークを利用して、第1無向グラフにおけるいずれか1本の第1辺上での2つのノードの間の関連度を予測する。即ち、上記ステップS202は、下記ステップS221及び222(図示されず)により実現されてもよい。
【0063】
ステップS221において、各第1辺に連結される第2ノードに対応する手の手特徴及び前記ターゲット顔の顔特徴に基づいて、前記各第1辺に連結される第2ノードに対応する手と前記ターゲット顔が同一の人体に属する第1信頼度を決定する。
【0064】
いくつかの実施例において、各第1辺に対して、辺の両端の手特徴及びターゲット顔の顔特徴をグラフアテンションネットワークの全結合層及び所定の活性化関数に入力して処理を行い、該1本の第1辺上での手とターゲット顔が同一の人体に属する第1信頼度を決定する。いくつかの可能な実現形態において、所定の活性化関数は、leaky活性化関数であってもよい。全結合層から出力された特徴をleaky活性化関数に入力する。まず、全結合層を用いて、各第1辺に連結される第2ノードに対応する手の手特徴及びターゲット顔の顔特徴に対して特徴変換を行う。例えば、多次元の顔特徴及び手特徴を一次元特徴に変換する。続いて、変換後の顔特徴及び手特徴をleaky活性化関数に入力し、第2ノードに対応する手と前記ターゲット顔が同一の人体に属する第1信頼度を予測する。例えば、全結合層及び該所定の活性化関数を用いて、手特徴とターゲット顔の顔特徴が同一の人体に属するかどうかに対して分類を行い、手特徴と前記ターゲット顔の顔特徴が同一の人体に属する信頼度を得る。例えば、顔特徴及び手特徴の次元がいずれも3136であることを例として、各第1辺について言えば、入力は、顔特徴及び手特徴である。即ち、入力された特徴次元は、2*3136である。全結合層を用いて、2*3136の顔特徴及び手特徴に対して畳み込み演算を行い、次元が1*3136である特徴を出力する。該1*3136の特徴を所定の活性化関数に入力し、該第1辺上での手とターゲット顔が同一の人体に属する第1信頼度を予測する。
【0065】
ステップS222において、前記第1無向グラフにおける各第1辺に連結される第2ノードに対応する手とターゲット顔が同一の人体に属する第1信頼度に対して正規化を行い、前記各第1辺に連結される第2ノードに対応する手の手特徴と前記ターゲット顔の顔特徴との前記第1関連度を得る。
【0066】
いくつかの可能な実現形態において、正規化活性化関数(例えば、softmax)を用いて、第1信頼度を(0,1)にマッピングし、第1信頼度に対応する正規化を実現させ、各第1辺の第1関連度を得ることができる。例えば、検出待ち画像に5個の手、6個の他の身体部位があれば、構築された第1無向グラフにおいて、ターゲット顔を表す第1ノードを中心として、5個の手の第2ノード及び6個の他の身体部位のノードを連結し、11本の第1辺を得る。即ち、これら11本の第1辺はそれぞれ、5個の手に対応する第2ノード、6個の他の身体部位に対応するノードに連結される。これら11本の辺のうちの各第1辺に対していずれも第1関連度を決定する。
【0067】
ステップS203において、前記ターゲット顔の顔特徴、前記画面中の前記各手の手特徴及び対応する第1関連度に基づいて、前記第1インタラクティブ特徴を決定する。
【0068】
いくつかの実施例において、各第1辺において、まず、該第1辺に対応する第1関連度と端点に対応するノードの手特徴(又は、他の身体部位)を乗算し、続いて、複数本の第1辺の乗算結果に対して要素ごとに加算を行い、最後に、加算結果と顔特徴を更に加算し、加算後の平均値を第1インタラクティブ特徴とする。このように、第1インタラクティブ特徴は、画像におけるターゲット顔の周辺の情報(例えば、ターゲット顔の周辺の手又は他の身体部位)を効果的に表すことができる。このように、検出待ち画像におけるターゲット顔の周辺の複数の手特徴を全て顔特徴に融合することによって、第1インタラクティブ特徴が画像におけるターゲット顔の周辺の画像情報を表すことができ、更に、ターゲット顔と手との関連付けの正確度の向上に寄与する。
【0069】
いくつかの可能な実現形態において、第1無向グラフにおける各手の手特徴とターゲット顔の顔特徴を融合することによって、第1インタラクティブ特徴を得る。即ち、上記ステップS203は、下記ステップS231及び232(図示されず)により実現されてもよい。
【0070】
ステップS231において、前記各手に対応する第1関連度に基づいて、前記各手の手特徴に対して調整を行い、前記各手の調整済み特徴を得る。
【0071】
ここで、該第1辺の第1関連度と端点の手特徴(又は、他の身体部位)に対して要素ごとに乗算を行い、該手の調整済み特徴を得る。このように、第1無向グラフにおける各第1辺に対して、該第1辺上での手の調整済み特徴を得ることができる。検出待ち画像に他の身体部位が更に含まれる場合、第1無向グラフにおけるある1本の辺に連結される他の身体部位の調整済み特徴を得ることもできる。
【0072】
ステップS232において、前記画面中の各前記手の調整済み特徴と前記ターゲット顔の顔特徴を融合し、前記第1インタラクティブ特徴を得る。
【0073】
ここで、検出待ち画像に顔及び手以外の他の身体部位が更に含まれる場合、画面中の各手の調整済み特徴、他の身体部位の調整済み特徴をターゲット顔の顔特徴に融合し、第1インタラクティブ特徴を得る。例えば、まず、画面中の各手の調整済み特徴に対してそれぞれ要素ごとに加算を行い、他の身体部位の調整済み特徴に対してそれぞれ要素ごとに加算を行い、続いて、2つの加算結果とターゲット顔の顔特徴に対して要素ごとに加算を行い、平均値を求めて、第1インタラクティブ特徴を得る。このように、グラフアテンションネットワークを利用して、顔及び手の特徴に対して人体の各部位ノードの間の重み付けを行うことによって、顔及び手の特徴が人体の周辺の情報をより効果的に表すことができ、それによりターゲット顔とターゲット手との関連度の正確度を最適化する。
【0074】
いくつかの実施例において、RCNNにより検出された顔検出枠及び手検出枠により、第2無向グラフを構築することによって、グラフアテンションネットワークはターゲット手の手特徴に対して画像におけるより多くの他の身体部位の特徴を融合することができる。即ち、上記ステップS104は、下記ステップS141からS143(図示されず)により実現されてもよい。
【0075】
ステップS141において、前記ターゲット手及び前記画面中の各顔に基づいて、第2無向グラフを構築する。
【0076】
いくつかの可能な実現形態において、ターゲット手の手検出枠を中心として、画面中の各顔の顔検出枠を連結し、第2無向グラフを得る。前記第2無向グラフは、前記ターゲット手に対応する第3ノードと、前記各顔に一対一に対応する第4ノードと、前記第4ノードに一対一に対応する第2辺と、を含み、各前記第2辺は、前記第3ノードと1つの前記第4ノードを連結するためのものである。第2無向グラフの構築方式は、第1無向グラフの構築方式と類似する。即ち、上記ステップS201と類似した方式で、第2無向グラフを構築する。例えば、RCNNにより検出待ち画像における手及び顔に対して検出を行うことによって得られた手検出枠及び顔検出枠に対して、画像における手及び顔をいずれもノードとする。検出待ち画像に他の身体部位が更に含まれると、該他の身体部位もノードとする。前記ターゲット手の手検出枠を表す第3ノードを中心とし、各顔の顔検出枠を第4ノードとし、第3ノードをそれぞれ各第4ノードに連結し、複数本の辺、即ち第2辺を形成し、第2無向グラフを得る。
【0077】
ステップS142において、前記第2無向グラフにおいて、各第2辺に連結される第4ノードに対応する顔の顔特徴と前記ターゲット手の手特徴との第2関連度を決定する。
【0078】
いくつかの実施例において、第2無向グラフを訓練されたグラフアテンションネットワークに入力する。第2無向グラフにおける各第2辺に対して、グラフアテンションネットワークの全結合層及びleaky活性化関数により、該第2辺の両端のターゲット手と手が同一の人体に属する信頼度を予測する(検出待ち画像に他の身体部位が更に含まれると、ターゲット手と他の身体部位が同一の人体に属する信頼度を決定する)。グラフアテンションネットワークにおける正規化関数により、信頼度に対して正規化を行い、各第2辺上でのターゲット手と顔又は他の身体部位が同一の人体に属する第2関連度を得る。
【0079】
いくつかの可能な実現形態において、グラフアテンションネットワークを利用して、第2無向グラフにおけるいずれか1本の第2辺上での2つのノードの間の関連度を予測する。即ち、上記ステップS142は、下記ステップにより実現されてもよい。
【0080】
ステップ1において、各第2辺に連結される第4ノードに対応する顔の顔特徴及び前記ターゲット手の手特徴に基づいて、前記各第2辺に連結される第4ノードに対応する顔と前記ターゲット手が同一の人体に属する第2信頼度を決定する。
【0081】
いくつかの可能な実現形態において、各第2辺に対して、第2辺の両端のノードに対応する顔特徴及びターゲット手の手特徴をグラフアテンションネットワークの全結合層及び所定の活性化関数に入力して処理することによって、該第1辺上での手と顔が同一の人体に属する第2信頼度を決定する。いくつかの可能な実現形態において、まず、全結合層を用いて、各第2辺に連結される第2ノードに対応する顔の顔特徴及びターゲット手の手特徴に対して特徴変換を行い、続いて、変換後の顔特徴及び手特徴をleaky活性化関数に入力し、第4ノードに対応する顔とターゲット手が同一の人体に属する第2信頼度を予測する。
【0082】
ステップ2において、前記第2無向グラフにおける各第2辺に連結される第4ノードに対応する顔とターゲット手が同一の人体に属する第2信頼度に対して正規化を行い、前記各第2辺に連結される第4ノードに対応する顔の顔特徴と前記ターゲット手の手特徴との第2関連度を得る。
【0083】
いくつかの可能な実現形態において、正規化活性化関数(例えば、softmax)を用いて、第2信頼度を(0,1)にマッピングすることによって、第2信頼度に対する正規化を実現させ、各第2辺の第2関連度を得ることができる。例えば、検出待ち画像に2個の顔、4個の他の身体部位があれば、構築された第2無向グラフにおいて、ターゲット手を表す第3ノードを中心とし、2個の顔の第4ノード及び他の身体部位の4個のノードにそれぞれ連結し、6本の第2辺を得て、これら6本の第2辺のうちの各第2辺に対して第2関連度を決定する。
【0084】
ステップS143において、前記ターゲット手の手特徴、前記画面中の前記各顔の顔特徴及び対応する第2関連度に基づいて、前記第2インタラクティブ特徴を決定する。
【0085】
いくつかの実施例において、第2無向グラフの各第2辺において、まず、該第2辺に対応する第2関連度と該第2辺の端点に対応するノードの顔特徴(又は、他の身体部位)に対して要素ごとに乗算を行い、続いて、複数本の第2辺の乗算結果に対して要素ごとに加算を行い、最後に、加算結果とて特徴を更に加算し、加算後の平均値を第2インタラクティブ特徴とする。このように、第2インタラクティブ特徴は、画像におけるターゲット手の周辺の情報(例えば、ターゲット手の周辺の顔又は他の身体部位)を効果的に表すことができる。このように、検出待ち画像におけるターゲット手の周辺の複数の顔特徴を全て手特徴に融合することによって、第2インタラクティブ特徴が画像におけるターゲット顔の周辺の画像情報を表すことができ、更に、ターゲット顔と手との関連付けの正確度の向上に寄与する。
【0086】
いくつかの可能な実現形態において、第2無向グラフにおける各顔の顔特徴とターゲット手の手特徴を融合することによって、第2インタラクティブ特徴を得る。即ち、上記ステップS143は、下記ステップにより実現されてもよい。
【0087】
ステップ1において、前記各顔に対応する第2関連度に基づいて、前記各顔の顔特徴に対して調整を行い、前記各顔の調整済み特徴を得る。
【0088】
いくつかの実施例において、該第2辺に対応する第2関連度と端点の顔特徴(又は、他の身体部位)に対して要素ごとに乗算を行い、該顔の調整済み特徴を得る。このように、第2無向グラフにおける各第2辺に対して、該第2辺上での顔の調整済み特徴を得ることができる。検出待ち画像に他の身体部位が更に含まれる場合、第2無向グラフにおけるある1本の第2辺に連結される他の身体部位の調整済み特徴を得ることもできる。
【0089】
ステップ2において、前記画面中の各前記顔の調整済み特徴と前記ターゲット手の手特徴を融合し、前記第2インタラクティブ特徴を得る。
【0090】
いくつかの可能な実現形態において、検出待ち画像に他の身体部位が更に含まれる場合、画面中の各顔の調整済み特徴、他の身体部位の調整済み特徴をターゲット手の手特徴に融合し、第2インタラクティブ特徴を得る。例えば、まず、画面中の各顔の調整済み特徴に対してそれぞれ要素ごとに加算を行い、他の身体部位の調整済み特徴に対して要素ごとに加算を行い、続いて、2つの加算結果とターゲット手の手特徴に対して要素ごとに加算を行い、平均値を求めて、第2インタラクティブ特徴を得る。このように、グラフアテンションネットワークを利用して、顔及び手の特徴に対して人体の各部位ノードの間の重み付けを行うことによって、顔及び手の特徴が人体の周辺の情報をより効果的に表すことができ、それによりターゲット顔とターゲット手との関連度の正確度を最適化する。
【0091】
本願の実施例において、複数の手のうちの各手に対して、グラフアテンションネットワークにより、ターゲット手の手特徴と画像における顔特徴及び他の身体部位の特徴に対して加重融合を行うことによって、得られた第2インタラクティブ特徴がターゲット手の周辺情報を効果的に表すことができる。
【0092】
いくつかの実施例において、2層の全結合層で構成されるペアヘッドネットワークを用いて、ターゲット顔と前記ターゲット手との関連度を予測する。即ち、上記ステップS105は、下記ステップS151及び152(図示されず)により実現されてもよい。
【0093】
ステップS151において、前記第1インタラクティブ特徴及び前記第2インタラクティブ特徴に基づいて、前記ターゲット顔と前記ターゲット手が同一の人体に属する第3信頼度を決定する。
【0094】
いくつかの実施例において、まず、直列接続された2つの全結合層及び対応する活性化関数を用いて、前記第1インタラクティブ特徴と前記第2インタラクティブ特徴が同一の人体に属する第3信頼度を決定する。グラフアテンションネットワークから出力された第1インタラクティブ特徴及び第2インタラクティブ特徴をペアヘッドネットワークに入力する。該ペアヘッドネットワークは、直列接続された第1全結合層及び第2全結合層で構成される。第1全結合層を用いて、前記第1インタラクティブ特徴及び前記第2インタラクティブ特徴が属する人体に対して、次元削減、連結などの操作を行う。第1全結合層の出力特徴を該層に対応する活性化関数の入力とし、該活性化関数を用いて、第1全結合層の出力特徴の第1分類結果を決定する。ここで、第1分類結果に、第1インタラクティブ特徴に対応するターゲット顔が画像における各人体に属する確率と、第2インタラクティブ特徴に対応するターゲット手が画像における各人体に属する確率と、が含まれる。続いて、第1分類結果を第2全結合層に入力する。第2全結合層を用いて、第1分類結果に対して、次元削減、連結などの操作を行い、第2全結合層の出力結果を得る。出力結果を第2全結合層に対応する活性化関数に入力し、該活性化関数を用いて、第2全結合層から出力された特徴を各クラスに対応する第3信頼度に変換する。
【0095】
ステップS152において、前記第3信頼度を前記ターゲット顔と前記ターゲット手との関連度として決定する。
【0096】
いくつかの実施例において、直接接続された2つの全結合層の第2全結合層から出力された第1インタラクティブ特徴と第2インタラクティブ特徴が同一の人体に属する信頼度を、ターゲット顔とターゲット手が同一の人体に属する信頼度とすることによって、ターゲット顔と前記ターゲット手との関連度を決定する。
【0097】
本願の実施例において、直列接続された2つの全結合層を用いて、ターゲット顔とターゲット手が同一の人体に属するかどうかを予測することによって、検出待ち画像におけるターゲット顔とターゲット手との関連付け結果に対する予測精度を向上させることができる。
【0098】
いくつかの実施例において、前記検出待ち画像に顔及び手以外の他の身体部位が更に含まれる場合、第1インタラクティブ特徴と第2インタラクティブ特徴に、他の身体部位の特徴を融合する。第1インタラクティブ特徴及び第2インタラクティブ特徴は、下記ステップにより決定されてもよい。
【0099】
ステップ1において、前記検出待ち画像に対する他の身体部位の検出の結果に基づいて、前記検出待ち画像の他の身体部位の身体特徴集合を決定する。
【0100】
ここで、身体特徴集合における各体特徴はそれぞれ前記検出待ち画像の画面中の1つの他の身体部位に対応する。検出待ち画像に他の身体部位が更に含まれる場合、RCNNを用いて、検出待ち画像における手、顔及び他の身体部位に対して検出を行い、手検出枠、顔検出枠及び他の身体部位の検出枠を得て、更に、検出枠における特徴に対して抽出を行うことによって、手特徴集合、顔特徴集合及び身体特徴集合を得ることができる。
【0101】
ステップ2において、前記ターゲット顔の顔特徴、前記身体特徴集合及び前記手特徴集合に基づいて、前記第1インタラクティブ特徴を決定する。
【0102】
ここで、検出待ち画像に他の身体部位が更に含まれる場合、各顔に対して、該顔をターゲット顔とし、ターゲット顔に対応するノードを中心とし、各手及び他の身体部位に対応するノードをそれぞれ連結し、第1無向グラフを構築する。このような第1無向グラフをグラフアテンションネットワークに入力し、体特徴及び各手の手特徴を全てターゲット顔の顔特徴に融合し、第1インタラクティブ特徴を得る。
【0103】
上記ステップ1及びステップ2で、ターゲット顔の第1インタラクティブ特徴を得るプロセスを提供する。検出待ち画像における他の身体部位の特徴と手の手特徴を全てターゲット顔の顔特徴に融合することによって、第1インタラクティブ特徴が検出待ち画像におけるターゲット顔の周辺の体特徴を表すことができる。
【0104】
ステップ3において、前記ターゲット手の手特徴、前記身体特徴集合及び前記顔特徴集合に基づいて、前記第2インタラクティブ特徴を決定する。
【0105】
ここで、検出待ち画像に他の身体部位が更に含まれる場合、各手に対して、該手をターゲット手とし、ターゲット手に対応するノードを中心とし、各顔及び他の身体部位に対応するノードをそれぞれ連結し、第2無向グラフを構築する。このような第2無向グラフをグラフアテンションネットワークに入力し、体特徴及び各顔の顔特徴を全てターゲット手の手特徴に融合し、第2インタラクティブ特徴を得る。
【0106】
上記ステップ3とステップ2が同時に実行されてもよい。即ち、検出待ち画像における他の身体部位の特徴及び顔の顔特徴を全てターゲット手の手特徴に融合することによって、第2インタラクティブ特徴が検出待ち画像におけるターゲット手の周辺の体特徴を表すことができ、それにより、ターゲット顔とターゲット手との関連付けの正確度の向上に寄与する。
【0107】
以下では、本願の実施例の実際の適用シーンにおける例示的な適用を説明する。ゲーム場を例とし、ゲーム場におけるプレイヤーの人体と手との関連付けを例として、説明する。
【0108】
人体と手との関連付けアルゴリズムは、ゲーム場などのシーンにおいて大きい応用価値を有する。ゲーム場などの複雑なシーンにおいて、視野範囲内の人体の数が多く、腕が互いに入り交じるという状況が往々にして複雑であるため、人体-手関連付けアルゴリズム又はキーポイント検出アルゴリズムを用いると、良好な予測結果を取得しにくい。
【0109】
関連技術において、まず、Faster RCNNフレームワークを用いて、手・人体の検出枠を得る。続いて、いくつかの手・人体ペアをランダムに選択し、対応する視覚特徴を用いてステッチングを行う。最後に、対応する手・人体ペアが同一の人物であるかどうかに基づいて、分類器を訓練する。このように、関連付け予測ネットワークにおいて、顔及び手の領域視覚特徴を用いる。この場合、特徴と画面の周辺との関係が密接でない。関連付けマッチングにおいて、顔と手との画像情報を往々にして必要とする。
【0110】
これによれば、本願の実施例は、グラフアテンションネットワークにより特徴重み付けられた顔と手との関連付けを用いて、関連予測において、人体全体に対してグラフを構築することができ、各人体部位が1つのノードを表す。グラフアテンションネットワークを利用して、顔及び手の特徴に対してノードの間の重み付けを行うことによって、顔と手の特徴が周辺の人体の情報をより効果的に表すことができ、それにより関連付けの予測精度を最適化する。これは、下記プロセスにより実現されてもよい。
【0111】
ステップ1において、画像に対して顔検出及び手検出を行う。
【0112】
高速RCNN(Faster-RCNN)検出フレームワークに基づいて、まず、顔手及び人体部位検出を行い、顔、人体及び人体の各部位に対応する検出枠座標情報を得て、人体の各部位の領域視覚特徴を抽出する。画像における顔と手が関連付けられているかどうかを予測するネットワークモデルは、
図3に示すとおりである。
図3は、本願の実施例による顔と手との関連付けのネットワークモデルの訓練フレームワークを示す概略図である。
図3から分かるように、該ネットワークモデルの訓練プロセスは以下のとおりである。
【0113】
まず、画像301をバックボーンネットワーク(backbone)302に入力し、特徴抽出を行い、画像特徴を得る。
【0114】
次に、画像特徴を特徴ピラミッドネットワーク303(Feature Pyramid Networks:FPN)に入力し、画像特徴を処理し、解像度が異なる複数の画像特徴を含む画像特徴を得る。
【0115】
いくつかの可能な実現形態において、まず、特徴ピラミッドネットワークを用いて、画像に対して、下から上に向かって特徴抽出を行う。次に、上から下に向かう方式を用いて、抽出された上位層特徴マップに対してアップサンプリングを行う。更に、横連結により、アップサンプリングの結果と下から上に向かって生成されたサイズが同じである特徴マップを融合する。解像度が低い特徴マップに対して2倍のアップサンプリング(又は、最近傍アップサンプリングを用いる)を行う。最後に、要素ごとに加算を行うことによって、アップサンプリングと対応する下から上に向かうマッピングを組み合わせる。該プロセスは、反復プロセスであり、最終的な解像度マップを生成すると、画像特徴を得る。
【0116】
他の実施例において、前記処理待ち画像の、異なる解像度での複数の画像を取得することによって、該複数の画像に対して特徴抽出を行い、解像度が異なる複数の画像特徴を含む画像特徴集合を得ることもできる。例えば、画像を複数の異なる解像度での画像に変換する。該異なる解像度の数の設定は、特徴ピラミッドネットワークの層数に合致してもよく、即ち、特徴ピラミッドネットワークが4層を有すると、降順の5個の異なる解像度を設定することができる。1つの具体的な例において、一定の縮尺を用いて処理待ち画像をスケーリングすることによって、異なる解像度での複数の画像特徴を得ることができる。
【0117】
更に、特徴ピラミッドネットワーク303から出力された異なる解像度での複数の画像特徴を(RegionProposal Network:RPN)領域提案ネットワーク304に入力し、手又は顔が存在する可能性があることを表す領域候補枠を得る。
【0118】
更に、異なる解像度での複数の画像特徴及び領域候補枠をRCNN 305に入力し、ターゲット検出を行い、領域候補に顔又は手が含まれるかどうかを検出し、顔及び手の検出枠を得る。
【0119】
最後に、顔及び手の検出枠をグラフアテンションネットワーク306に入力し、ステップ2に入る。
【0120】
ステップ2において、グラフアテンションネットワークを利用して特徴に対してインタラクティブ演算を行う。
【0121】
いくつかの実施例において、まず、画像における人体の各部位に対してグラフを構築する。人体部分に一部の無向グラフを関連付ける必要があり、各部位を1つのノードとする。次に、全結合層及びLeaky活性化関数を用いて、各ノードとノードの間の重みを予測する。更に、グラフにおける全ての辺に対して正規化を行い、softmax関数を用いて、重みの演算及び正規化を行う。最後に、各ノードに対して、重みを用いて重み付けを行い、現在のノードの特徴を表す。グラフアテンションネットワーク306の実現プロセスは、
図4に示すとおりである。
図4は、本願の実施例によるグラフアテンションネットワークの実現フレームワークを示す概略図である。ここで、
まず、特徴次元が3136である顔特徴401をグラフアテンションネットワーク402に入力し、次元が3136である第1インタラクティブ特徴403を得る。第1インタラクティブ特徴403は、1つの顔と他の手との関連度を表す。それと同時に、特徴次元が3136である手特徴411をグラフアテンションネットワーク412に入力し、次元が3136である第2インタラクティブ特徴413を得る。第2インタラクティブ特徴413は、1つの手と他の顔との関連度を表す。
【0122】
いくつかの実施例において、グラフアテンションネットワーク402による、入力された顔特徴401の処理プロセスは、枠404に示すとおりである。無向グラフ405は、1つの顔特徴と3つの手特徴との連結を表す。まず、各辺上で連結される手特徴及び顔特徴を全結合層及びLeaky活性化関数に入力することによって、該辺上での手特徴と顔特徴との重みを予測し、3本の辺の重みS1、S2及びS3を得る。続いて、S1、S2及びS3に対して正規化を行い、e1、e2及びe3を得る。最後に、ei(i=1,2,3)と対応する辺上での特徴に対して要素ごとに乗算を行い、第1インタラクティブ特徴を得る。例えば、まず、e1と、対応する辺に連結される手特徴と、に対して要素ごとに乗算を行い、e2と、対応する辺に連結される手特徴と、に対して要素ごとに乗算を行い、e3と、対応する辺上に連結される手特徴と、に対して要素ごとに乗算を行う。続いて、得られた3つの乗算結果に対して要素ごとに加算を行い、加算結果と顔特徴を加算し、2で除算し、第1インタラクティブ特徴を得る。該第1インタラクティブ特徴は、該顔特徴の周辺特徴を効果的に表すことができる。
【0123】
続いて、第1インタラクティブ特徴及び第2インタラクティブ特徴を(Pair head)ペアヘッドネットワーク420に入力し、顔と手が同一の人体に属するかどうかを表す関連付け結果421を得て、ステップ3に入る。
【0124】
ステップ3において、グラフアテンションネットワークモデルにより処理された特徴をペアヘッドネットワーク420に送り込み、演算と予測を行い、関連付け結果421を得る。
【0125】
1つの具体的な例において、検出待ち画像は、ゲーム場で収集された画像である。ここで、顔は、プレイヤーの体であり、手は、プレイヤーの手である。上記ステップ1からステップ3により、まず、検出待ち画像における顔及び手に対して検出を行い、各プレイヤーの顔の顔特徴を決定し、顔特徴集合を得て、各プレイヤーの手の手特徴を決定し、手特徴集合を得る。次に、検出された手の検出枠及び顔の検出枠に基づいて、ターゲット顔を中心とする第1無向グラフ及びターゲット手を中心とする第2無向グラフをそれぞれ構築する。更に、第1無向グラフ及び第2無向グラフをそれぞれグラフアテンションネットワークにそれぞれ入力し、ターゲット顔の顔特徴に各手の手特徴及び他の身体部位の特徴を融合し、ターゲット手の手特徴に各顔の顔特徴及び他の身体部位の特徴を融合する。このように、得られた第1インタラクティブ特徴及び第2インタラクティブ特徴はいずれも、画像における他の身体部位の情報を効果的に表すことができる。最後に、第1インタラクティブ特徴及び第2インタラクティブ特徴をペアヘッドネットワークに入力し、ターゲット顔とターゲット手が同一の人体に属するかどうかを予測する。このように、複雑なゲーム場におけるプレイヤーの手と顔に対してマッチングを行うことによって、ゲームプロセスにおけるプレイヤーによるメダル配布又は支払いなどのプロセスを効果的に監視することができる。
【0126】
本願の実施例において、画像の情報特徴を用いる場合、顔・手領域特徴と周辺特徴とのインタラクションを増加することによって、顔・手特徴が周辺特徴を効果的に表すことができる。このように、顔及び手領域視覚特徴を用いる場合、グラフアテンションネットワークを用いて、顔及び手の特徴に対して人体の各部位のノードの間の重み付けを行うことによって、顔と手の特徴が人体の周辺の情報をより効果的に表すことができ、それにより関連付けの予測精度を最適化する。
【0127】
本願の実施例は、顔と手との関連度の検出装置を提供する。
図5は、本願の実施例による顔と手との関連度の検出装置の構造を示す概略図である。
図5に示すように、前記顔と手との関連度の検出装置500は、
検出待ち画像を取得するように構成される第1取得モジュール501と、
前記検出待ち画像に対する顔検出及び手検出の結果に基づいて、前記検出待ち画像の顔特徴集合及び手特徴集合を決定するように構成される第1決定モジュール502であって、前記顔特徴集合における各顔特徴はそれぞれ前記検出待ち画像の画面中の1つの顔に対応し、前記手特徴集合における各手特徴はそれぞれ前記検出待ち画像の画面中の1つの手に対応する、第1決定モジュール502と、
ターゲット顔の顔特徴及び前記手特徴集合に基づいて、前記ターゲット顔の第1インタラクティブ特徴を決定するように構成される第2決定モジュール503であって、前記ターゲット顔は、前記検出待ち画像の画面中のいずれか1つの顔である、第2決定モジュール503と、
ターゲット手の手特徴及び前記顔特徴集合に基づいて、前記ターゲット手の第2インタラクティブ特徴を決定するように構成される第3決定モジュール504であって、前記ターゲット手は、前記検出待ち画像の画面中のいずれか1つの手である、第3決定モジュール504と、
前記第1インタラクティブ特徴及び前記第2インタラクティブ特徴に基づいて、前記ターゲット顔と前記ターゲット手との関連度を決定するように構成される第4決定モジュール505と、を備える。
【0128】
いくつかの実施例において、前記第1決定モジュール502は、
前記検出待ち画像に対する顔検出及び手検出の結果に基づいて、前記検出待ち画像の画面中の各顔の顔検出枠及び各手の手検出枠を決定するように構成される第1決定サブモジュールと、
前記各顔の顔検出枠に基づいて、前記各顔の特徴を抽出し、前記顔特徴集合を得るように構成される第1抽出サブモジュールと、
前記各手の手検出枠に基づいて、前記各手の特徴を抽出し、前記手特徴集合を得るように構成される第2抽出サブモジュールと、を備える。
【0129】
いくつかの実施例において、前記第2決定モジュール503は、
前記ターゲット顔及び前記画面中の前記各手に基づいて、第1無向グラフを構築するように構成される第1構築サブモジュールであって、前記第1無向グラフは、ターゲット顔に対応する第1ノードと、前記各手に一対一に対応する第2ノードと、前記第2ノードに一対一に対応する第1辺と、を含み、各前記第1辺は、前記第1ノードと1つの前記第2ノードを連結するためのものである、第1構築サブモジュールと、
前記第1無向グラフにおいて、各第1辺に連結される前記第2ノードに対応する手の手特徴と前記ターゲット顔の顔特徴との第1関連度を決定するように構成される第2決定サブモジュールと、
前記ターゲット顔の顔特徴、前記画面中の前記各手の手特徴及び対応する第1関連度に基づいて、前記第1インタラクティブ特徴を決定するように構成される第3決定サブモジュールと、を備える。
【0130】
いくつかの実施例において、前記第2決定サブモジュールは、
各第1辺に連結される第2ノードに対応する手の手特徴及び前記ターゲット顔の顔特徴に基づいて、前記各第1辺に連結される第2ノードに対応する手と前記ターゲット顔が同一の人体に属する第1信頼度を決定するように構成される第1決定ユニットと、
前記第1無向グラフにおける各第1辺に連結される第2ノードに対応する手とターゲット顔が同一の人体に属する第1信頼度に対して正規化を行い、前記各第1辺に連結される第2ノードに対応する手の手特徴と前記ターゲット顔の顔特徴との前記第1関連度を得るように構成される第1正規化ユニットと、を備える。
【0131】
いくつかの実施例において、前記第3決定サブモジュールは、
前記各手に対応する第1関連度に基づいて、前記各手の手特徴に対して調整を行い、前記各手の調整済み特徴を得るように構成される第1調整ユニットと、
前記画面中の各前記手の調整済み特徴と前記ターゲット顔の顔特徴を融合し、前記第1インタラクティブ特徴を得るように構成される第1融合ユニットと、を備える。
【0132】
いくつかの実施例において、前記第3決定モジュール504は、
前記ターゲット手及び前記画面中の各顔に基づいて、第2無向グラフを構築するように構成される第2構築サブモジュールであって、前記第2無向グラフは、前記ターゲット手に対応する第3ノードと、前記各顔に一対一に対応する第4ノードと、前記第4ノードに一対一に対応する第2辺と、を含み、各前記第2辺は、前記第3ノードと1つの前記第4ノードを連結するためのものである、第2構築サブモジュールと、
前記第2無向グラフにおいて、各第2辺に連結される第4ノードに対応する顔の顔特徴と前記ターゲット手の手特徴との第2関連度を決定するように構成される第4決定サブモジュールと、
前記ターゲット手の手特徴、前記画面中の前記各顔の顔特徴及び対応する第2関連度に基づいて、前記第2インタラクティブ特徴を決定するように構成される第5決定サブモジュールと、を備える。
【0133】
いくつかの実施例において、前記第4決定サブモジュールは、
各第2辺に連結される第4ノードに対応する顔の顔特徴及び前記ターゲット手の手特徴に基づいて、前記各第2辺に連結される第4ノードに対応する顔と前記ターゲット手が同一の人体に属する第2信頼度を決定するように構成される第2決定ユニットと、
前記第2無向グラフにおける各第2辺に連結される第4ノードに対応する顔とターゲット手が同一の人体に属する第2信頼度に対して正規化を行い、前記各第2辺に連結される第4ノードに対応する顔の顔特徴と前記ターゲット手の手特徴との第2関連度を得るように構成される第1正規化ユニットと、を備える。
【0134】
いくつかの実施例において、前記第5決定サブモジュールは、
前記各顔に対応する第2関連度に基づいて、前記各顔の顔特徴に対して調整を行い、前記各顔の調整済み特徴を得るように構成される第2調整ユニットと、
前記画面中の各前記顔の調整済み特徴と前記ターゲット手の手特徴を融合し、前記第2インタラクティブ特徴を得るように構成される第2融合ユニットと、を備える。
【0135】
いくつかの実施例において、前記第4決定モジュール505は、
前記第1インタラクティブ特徴及び前記第2インタラクティブ特徴に基づいて、前記ターゲット顔と前記ターゲット手が同一の人体に属する第3信頼度を決定するように構成される第6決定サブモジュールと、
前記第3信頼度を前記ターゲット顔と前記ターゲット手との関連度として決定するように構成される第7決定サブモジュールと、を備える。
【0136】
いくつかの実施例において、前記検出待ち画像に他の身体部位が更に含まれる場合、前記装置は、
前記検出待ち画像に対する他の身体部位の検出の結果に基づいて、前記検出待ち画像の他の身体部位の身体特徴集合を決定するように構成される第5決定モジュールであって、前記身体特徴集合における各体特徴はそれぞれ前記検出待ち画像の画面中の1つの前記他の身体部位に対応し、前記他の身体部位は、顔及び手以外の身体部位である、第5決定モジュールを更に備え、
前記第2決定モジュールは更に、前記ターゲット顔の顔特徴、前記身体特徴集合及び前記手特徴集合に基づいて、前記第1インタラクティブ特徴を決定するように構成され、
前記第3決定モジュールは更に、
前記ターゲット手の手特徴、前記身体特徴集合及び前記顔特徴集合に基づいて、前記第2インタラクティブ特徴を決定するように構成される。
【0137】
上記装置の実施例に関する記述は、上記方法の実施例に関する記述と類似しており、方法の実施例と同様な有益な効果を持つことに留意されたい。本願の装置の実施例に開示されていない技術的細部について、本願の方法の実施例に関する記述を参照しながら理解すべきである。
【0138】
本願の実施例において、上述した人体と手との関連度の検出方法は、ソフトウェア機能モジュールの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよいことに留意されたい。このような理解のもと、本願の実施例の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、該コンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、1台のコンピュータ機器(端末、サーバなど)に、本願の各実施例に記載の方法の全部又は一部を実行させるための若干の命令を含む。前記の記憶媒体は、USBメモリ、リムーバブルハードディスク、読み出し専用メモリ(Read Only Memory:ROM)、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。従って、本願の実施例は、如何なる特定のハードウェアとソフトウェアとの組み合わせにも限定されない。
【0139】
本願の実施例は、コンピュータプログラム製品を更に提供する。前記コンピュータプログラム製品は、コンピュータによる実行可能な命令を含み、該コンピュータによる実行可能な命令が実行された後、本願の実施例で提供される顔と手との関連度の検出方法を実現させることができる。
【0140】
本願の実施例は、コンピュータ記憶媒体を更に提供する。前記コンピュータ記憶媒体にコンピュータによる実行可能な命令が記憶されており、前記該コンピュータによる実行可能な命令がプロセッサにより実行される時、上記実施例で提供される顔と手との関連度の検出方法を実現させる。
【0141】
本願の実施例は、コンピュータ機器を提供する。
図6は、本願の実施例によるコンピュータ機器の構造を示す概略図である。
図6に示すように、前記コンピュータ機器600は、1つのプロセッサ601、少なくとも1つの通信バス、通信インタフェース602、少なくとも1つの外部通信インタフェース及びメモリ603を備える。通信インタフェース602は、これらのコンポーネントの間の接続と通信を実現させるように構成される。通信インタフェース602は、ディスプレイを含んでもよく、外部通信インタフェースは、標準的な有線インタフェース及び無線インタフェースを含んでもよい。前記プロセッサ601は、メモリにおける画像処理プログラムを実行し、上記実施例で提供される顔と手との関連度の検出方法を実現させるように構成される。
【0142】
上記顔と手との関連度の検出装置、コンピュータ機器及び記憶媒体の実施例に関する記述は、上記方法の実施例に関する記述と類似しており、方法の実施例と同様な技術的記述及び有益な効果を持つ。紙数に限りがあるため、上記方法の実施例の記載を参照することができ、ここで、詳細な説明を省略する。本願の顔と手との関連度の検出装置、コンピュータ機器及び記憶媒体の実施例に開示されていない技術的細部について、本願の方法の実施例に関する記述を参照しながら理解すべきである。
【0143】
明細書全文を通じて述べられる「1つの実施例」又は「一実施例」は、実施例に関連する特定の特徴、構造または特性が、本願の少なくとも1つの実施例に含まれることを意味すると理解されたい。従って、本明細書全体を通じて出現する「1つの実施例において」又は「一実施例において」は、同じ実施例を指すとは限らない。また、これらの特定の特徴、構造または特性は、任意かつ適切な方式で1つまたは複数の実施例に組み入れられることができる。本願の各実施例において、上記各プロセスの番号の大きさは、実行順の前後を意味するのではなく、各プロセスの実行順は、その機能および内在的な論理によって確定されるものであり、本願の実施例の実施プロセスに対しいっさい限定を構成しないと理解すべきである。上記の本願の実施例の番号は、ただ、記述するためのものであり、実施例の優劣を代表しない。本明細書において、用語「含む」、「備える」、またはそれらの他のいずれかの変形は、非排他的包含を包括するように意図されることに留意されたい。従って、一連の要素を含むプロセス、方法、品目又は装置は、これらの要素を含むだけでなく、明確に列挙されていない他の要素も含み、又は、このようなプロセス、方法、品目又は装置に固有の要素も含む。更なる限定が存在しない場合、“・・・を含む”なる文章によって規定される要素は、該要素を有するプロセス、方法、品目又は装置内に、他の同じ要素が更に存在することを排除しない。
【0144】
本願で提供される幾つかの実施例において、開示される機器及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した機器の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割であり、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
【0145】
分離部材として説明した上記ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークユニットに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
【0146】
また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとの組み合わせで実現してもよい。当業者によって理解されるように、上記方法の実施例におけるステップの全部または一部を実現することは、プログラム命令に関連するハードウェアにより完成することができる。前記プログラムは、コンピュータ可読記憶媒体に記憶されてもよい。該プログラムが実行されるとき、上記方法の実施例のステップを実行する。前記記憶媒体は、携帯型記憶機器、読み出し専用メモリ(Read Only Memory:ROM)、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
【0147】
又は、本願の上記集積ユニットは、ソフトウェア機能モジュールの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータ可読記憶媒体内に記憶されてもよい。このような理解のもと、本願の実施例の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、1台のコンピュータ機器(パソコン、サーバ又はネットワーク機器など)に、本願の各実施例に記載の方法の全部又は一部を実行させるための若干の命令を含む。前記の記憶媒体は、携帯型記憶機器、ROM、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。以上は本願の具体的な実施形態に過ぎず、本願の保護範囲はそれらに制限されるものではなく、当業者が本願に開示された技術範囲内で容易に想到しうる変更や置換はいずれも、本願の保護範囲内に含まれるべきである。従って、本願の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。