特許7101829 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッドの特許一覧

特許7101829人体検出方法、装置、コンピュータ機器及び記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2a
2b
2c
2d
3
4
5
6
7
8
9a
9b
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-07-07

(45)【発行日】2022-07-15

(54)【発明の名称】人体検出方法、装置、コンピュータ機器及び記憶媒体

(51)【国際特許分類】

G06T 7/00 20170101AFI20220708BHJP

【ＦＩ】

G06T7/00 300F

G06T7/00 660Z

【請求項の数】 18

(21)【出願番号】P 2020572391

(86)(22)【出願日】2020-04-29

(65)【公表番号】

(43)【公表日】2022-01-12

(86)【国際出願番号】 CN2020087826

(87)【国際公開番号】W WO2021057027

(87)【国際公開日】2021-04-01

【審査請求日】2020-12-24

(31)【優先権主張番号】201910926373.4

(32)【優先日】2019-09-27

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】321006888

【氏名又は名称】ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド

(74)【代理人】

【識別番号】100078282

【弁理士】

【氏名又は名称】山本秀策

(74)【代理人】

【識別番号】100113413

【弁理士】

【氏名又は名称】森下夏樹

(74)【代理人】

【識別番号】100181674

【弁理士】

【氏名又は名称】飯田貴敏

(74)【代理人】

【識別番号】100181641

【弁理士】

【氏名又は名称】石川大輔

(74)【代理人】

【識別番号】230113332

【弁護士】

【氏名又は名称】山本健策

(72)【発明者】

【氏名】段浩▲東▼

(72)【発明者】

【氏名】▲劉▼文▲韜▼

【審査官】間野裕一

(56)【参考文献】

【文献】中国特許出願公開第１０９２４２８６８（ＣＮ，Ａ）

【文献】特開２００７－１６４６４１（ＪＰ，Ａ）

【文献】特表２０１４－５２２０５８（ＪＰ，Ａ）

【文献】特開２０１４－８９６６５（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１９／０１９７２９９（ＵＳ，Ａ１）

【文献】国際公開第２０１９／１４１１０４（ＷＯ，Ａ１）

【文献】国際公開第２０１９／１００８８８（ＷＯ，Ａ１）

【文献】国際公開第２０１９／００１４８１（ＷＯ，Ａ１）

【文献】中国特許出願公開第１０９５０８６２５（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

人体検出方法であって、前記人体検出方法は、
検出対象画像を取得することと、
前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報および人体輪郭を示すための輪郭キーポイントの位置情報を決定することと、
前記骨格キーポイントの位置情報および前記輪郭キーポイントの位置情報に基づいて、人体検出結果を生成することと
を含み、
前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報および人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、
前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴および輪郭特徴を取得し、取得された骨格特徴および輪郭特徴に対して特徴融合を行うことと、
前記特徴融合の結果に基づいて、前記骨格キーポイントの位置情報および前記輪郭キーポイントの位置情報を決定することと
を含む、人体検出方法。

【請求項2】

前記輪郭キーポイントは、主輪郭キーポイントおよび補助輪郭キーポイントを含み、２つの隣接する前記主輪郭キーポイントの間に、少なくとも１つの補助輪郭キーポイントが存在する、請求項１に記載の人体検出方法。

【請求項3】

前記検出対象画像に基づいて、人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、
前記検出対象画像に基づいて、前記主輪郭キーポイントの位置情報を決定することと、
前記主輪郭キーポイントの位置情報に基づいて、人体輪郭情報を決定することと、
決定された前記人体輪郭情報に基づいて、複数の前記補助輪郭キーポイントの位置情報を決定することと
を含む、請求項２に記載の人体検出方法。

【請求項4】

前記人体検出結果は、
骨格キーポイントマークおよび輪郭キーポイントマークが付加された検出対象画像、前記骨格キーポイントの位置情報および前記輪郭キーポイントの位置情報を含むデータ群のうちの１つまたは複数を含む、請求項１～３のいずれか一項に記載の人体検出方法。

【請求項5】

前記人体検出方法は、
前記人体検出結果に基づいて、人体動作認識、人体姿勢検出、人体輪郭調整、人体画像編集、人体画像の貼り付けのうちの１つまたは複数を実行することを更に含む、請求項４に記載の人体検出方法。

【請求項6】

前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴および輪郭特徴を取得し、取得された骨格特徴および輪郭特徴に対して特徴融合を行うことは、
前記検出対象画像に基づいて、少なくとも１回の特徴抽出を行い、特徴抽出を行うたびに取得された骨格特徴および輪郭特徴に対して特徴融合を行うことであって、複数回の特徴抽出を行う場合、ｉ回目の特徴融合の結果に基づいてｉ＋１回目の特徴抽出を行い、ｉは正整数である、ことを含み、
前記特徴融合の結果に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報および人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、
最終回の特徴融合の結果に基づいて、前記骨格キーポイントの位置情報および前記輪郭キーポイントの位置情報を決定することを含む、請求項１に記載の人体検出方法。

【請求項7】

前記人体検出方法は、人体検出モデルによって実現され、前記人体検出モデルは、第１特徴抽出ネットワークおよび／または特徴融合ニューラルネットワークを含む、請求項１～６のいずれか一項に記載の人体検出方法。

【請求項8】

前記検出対象画像に基づいて、少なくとも１回の特徴抽出を行うことは、
１回目の特徴抽出において、事前訓練された前記第１特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第１ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第１ターゲット輪郭特徴行列を抽出することと、
ｉ＋１回の特徴抽出において、事前訓練された第２特徴抽出ネットワークを用いて、ｉ回目の特徴融合の結果から、前記第１ターゲット骨格特徴行列および前記第１ターゲット輪郭特徴行列を抽出することと
を含み、
前記第１特徴抽出ネットワークのネットワークパラメータは、前記第２特徴抽出ネットワークのネットワークパラメータとは異なり、かつ、特徴抽出のたびに用いられる前記第２特徴抽出ネットワークのネットワークパラメータは異なる、請求項７に記載の人体検出方法。

【請求項9】

抽出して得られた骨格特徴および輪郭特徴に対して特徴融合を行うことは、
事前訓練された前記特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列および前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列および第２ターゲット輪郭特徴行列を得ることを含み、前記第２ターゲット骨格特徴行列は、三次元骨格特徴行列であり、前記三次元骨格特徴行列は、各骨格キーポイントにそれぞれ対応する二次元骨格特徴行列を含み、前記二次元骨格特徴行列における各要素の値は、該要素に対応する画素点が、対応する骨格キーポイントに属する確率を表し、
前記第２ターゲット輪郭特徴行列は、三次元輪郭特徴行列であり、前記三次元輪郭特徴行列は、各輪郭キーポイントにそれぞれ対応する二次元輪郭特徴行列を含み、前記二次元輪郭特徴行列における各要素の値は、該要素に対応する画素点が、対応する輪郭キーポイントに属する確率を表し、
特徴融合のたびに用いられる前記特徴融合ニューラルネットワークのネットワークパラメータは異なる、請求項８に記載の人体検出方法。

【請求項10】

前記第１特徴抽出ネットワークは、共通特徴抽出ネットワークと、第１骨格特徴抽出ネットワークと、第１輪郭特徴抽出ネットワークとを含み、
前記第１特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第１ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第１ターゲット輪郭特徴行列を抽出することは、
前記共通特徴抽出ネットワークを用いて、前記検出対象画像に対して畳み込み処理を行い、骨格特徴および輪郭特徴を含む基礎特徴行列を得ることと、
前記第１骨格特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第１骨格特徴行列を得て、前記第１骨格特徴抽出ネットワークにおける第１ターゲット畳み込み層から、第２骨格特徴行列を取得し、前記第１骨格特徴行列および前記第２骨格特徴行列に基づいて、前記第１ターゲット骨格特徴行列を得ることであって、前記第１ターゲット畳み込み層は、前記第１骨格特徴抽出ネットワークにおける、最後の１つの畳み込み層以外のいずれか１つの畳み込み層である、ことと、
前記第１輪郭特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第１輪郭特徴行列を得て、前記第１輪郭特徴抽出ネットワークにおける第２ターゲット畳み込み層から、第２輪郭特徴行列を取得し、前記第１輪郭特徴行列および前記第２輪郭特徴行列に基づいて、前記第１ターゲット輪郭特徴行列を得ることであって、前記第２ターゲット畳み込み層は、前記第１輪郭特徴抽出ネットワークにおける、最後の１つの畳み込み層以外のいずれか１つの畳み込み層である、ことと
を含む、請求項８に記載の人体検出方法。

【請求項11】

第１骨格特徴行列および前記第２骨格特徴行列に基づいて、前記第１ターゲット骨格特徴行列を得ることは、
前記第１骨格特徴行列および前記第２骨格特徴行列に対して連結処理を行い、第１連結骨格特徴行列を得ることと、前記第１連結骨格特徴行列を次元変換処理し、前記第１ターゲット骨格特徴行列を得ることとを含み、
前記第１輪郭特徴行列および前記第２輪郭特徴行列に基づいて、前記第１ターゲット輪郭特徴行列を得ることは、
前記第１輪郭特徴行列および前記第２輪郭特徴行列に対して連結処理を行い、第１連結輪郭特徴行列を得ることと、前記第１連結輪郭特徴行列を次元変換処理し、前記ターゲット輪郭特徴行列を得ることとを含み、
前記第１ターゲット骨格特徴行列の次元は、前記第１ターゲット輪郭特徴行列の次元と同じであり、かつ、前記第１ターゲット骨格特徴行列と前記第１ターゲット輪郭特徴行列は、同一の次元における次元数が同じである、請求項１０に記載の人体検出方法。

【請求項12】

前記特徴融合ニューラルネットワークは、第１畳み込みニューラルネットワークと、第２畳み込みニューラルネットワークと、第１変換ニューラルネットワークと、第２変換ニューラルネットワークとを含み、
前記特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列および前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列および第２ターゲット輪郭特徴行列を得ることは、
前記第１畳み込みニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列に対して畳み込み処理を行い、第１中間骨格特徴行列を得て、前記第２畳み込みニューラルネットワークを用いて、前記第１ターゲット輪郭特徴行列に対して畳み込み処理を行い、第１中間輪郭特徴行列を得ることと、
前記第１中間輪郭特徴行列および前記第１ターゲット骨格特徴行列に対して連結処理を行い、第１連結特徴行列を得て、前記第１変換ニューラルネットワークを用いて、前記第１連結特徴行列に対して次元変換を行い、前記第２ターゲット骨格特徴行列を得ることと、
前記第１中間骨格特徴行列および前記第１ターゲット輪郭特徴行列に対して連結処理を行い、第２連結特徴行列を得て、前記第２変換ニューラルネットワークを用いて、前記第２連結特徴行列に対して次元変換を行い、前記第２ターゲット輪郭特徴行列を得ることと
を含む、請求項９に記載の人体検出方法。

【請求項13】

前記特徴融合ニューラルネットワークは、第１定向畳み込みニューラルネットワークと、第２定向畳み込みニューラルネットワークと、第３畳み込みニューラルネットワークと、第４畳み込みニューラルネットワークと、第３変換ニューラルネットワークと、第４変換ニューラルネットワークとを含み、
前記特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列および前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列および第２ターゲット輪郭特徴行列を得ることは、
前記第１定向畳み込みニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列に対して、定向畳み込み処理を行い、第１定向骨格特徴行列を得て、前記第３畳み込みニューラルネットワークを用いて、前記第１定向骨格特徴行列に対して畳み込み処理を行い、第２中間骨格特徴行列を得ることと、
前記第２定向畳み込みニューラルネットワークを用いて、前記第１ターゲット輪郭特徴行列に対して、定向畳み込み処理を行い、第１定向輪郭特徴行列を得て、前記第４畳み込みニューラルネットワークを用いて、前記第１定向輪郭特徴に対して、畳み込み処理を行い、第２中間輪郭特徴行列を得ることと、
前記第２中間輪郭特徴行列および前記第１ターゲット骨格特徴行列に対して連結処理を行い、第３連結特徴行列を得て、前記第３変換ニューラルネットワークを用いて、前記第３連結特徴行列に対して次元変換を行い、前記第２ターゲット骨格特徴行列を得ることと、
前記第２中間骨格特徴行列および前記第１ターゲット輪郭特徴行列に対して連結処理を行い、第４連結特徴行列を得て、前記第４変換ニューラルネットワークを用いて、前記第４連結特徴行列に対して次元変換を行い、前記第２ターゲット輪郭特徴行列を得ることと
を含む、請求項９に記載の人体検出方法。

【請求項14】

前記特徴融合ニューラルネットワークは、変位推定ニューラルネットワークと、第５変換ニューラルネットワークとを含み、
前記特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列および前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列および第２ターゲット輪郭特徴行列を得ることは、
前記第１ターゲット骨格特徴行列および前記第１ターゲット輪郭特徴行列に対して連結処理を行い、第５連結特徴行列を得ることと、
前記第５連結特徴行列を前記変位推定ニューラルネットワークに入力し、事前決定された複数組のキーポイントペアに対して変位推定を行い、各組のキーポイントペアのうちの１つのキーポイントがもう１つのキーポイントまでに移動する変位情報を得て、各組のキーポイントペアのうちの各キーポイントをそれぞれ現在のキーポイントとし、前記現在のキーポイントのペアであるもう１つのキーポイントに対応する三次元特徴行列から、前記ペアであるもう１つのキーポイントに対応する二次元特徴行列を得ることと、
前記ペアであるもう１つのキーポイントから前記現在のキーポイントまでの変位情報に基づいて、前記ペアであるもう１つのキーポイントに対応する二次元特徴行列における要素に対して位置変換を行い、前記現在のキーポイントに対応する変位特徴行列を得ることと、
各骨格キーポイントについて、該骨格キーポイントに対応する二次元特徴行列と、該骨格キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該骨格キーポイントの連結二次元特徴行列を得て、該骨格キーポイントの連結二次元特徴行列を前記第５変換ニューラルネットワークに入力し、該骨格キーポイントに対応するターゲット二次元特徴行列を得て、各骨格キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第２ターゲット骨格特徴行列を生成することと、
各輪郭キーポイントについて、該輪郭キーポイントに対応する二次元特徴行列と、該輪郭キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該輪郭キーポイントの連結二次元特徴行列を得て、該輪郭キーポイントの連結二次元特徴行列を前記第５変換ニューラルネットワークに入力し、該輪郭キーポイントに対応するターゲット二次元特徴行列を得て、各輪郭キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第２ターゲット輪郭特徴行列を生成することと
を含む、請求項９に記載の人体検出方法。

【請求項15】

前記人体検出モデルは、訓練サンプル集合におけるサンプル画像を利用して訓練されたものであり、前記サンプル画像に、人体骨格構造の骨格キーポイントの実際の位置情報および人体輪郭の輪郭キーポイントの実際の位置情報がラベル付けされている、請求項７～１４のいずれか一項に記載の人体検出方法。

【請求項16】

人体検出装置であって、前記人体検出装置は、
検出対象画像を取得するように構成されている取得モジュールと、
前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報および人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成されている検出モジュールと、
前記骨格キーポイントの位置情報および前記輪郭キーポイントの位置情報に基づいて、人体検出結果を生成するように構成されている生成モジュールと
を備え、
前記検出モジュールは、
前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴および輪郭特徴を取得し、取得された骨格特徴および輪郭特徴に対して特徴融合を行うことと、
前記特徴融合の結果に基づいて、前記骨格キーポイントの位置情報および前記輪郭キーポイントの位置情報を決定することと
を行うように構成されている、人体検出装置。

【請求項17】

コンピュータ機器であって、
前記コンピュータ機器は、プロセッサと非一時的な記憶媒体とバスとを備え、前記非一時的な記憶媒体には、前記プロセッサによって実行可能な機器読み取り可能な命令が記憶されており、前記コンピュータ機器が実行される場合、前記プロセッサおよび前記非一時的な記憶媒体は、前記バスを介して通信し、前記プロセッサは、前記機器読み取り可能な命令を実行することにより、請求項１～１５のいずれか一項に記載の人体検出方法を実行するように構成されている、コンピュータ機器。

【請求項18】

コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体には、コンピュータプログラムが記憶されており、前記コンピュータプログラムは、プロセッサによって実行されると、請求項１～１５のいずれか一項に記載の人体検出方法を実行することを前記プロセッサに行わせる、コンピュータ読み取り可能な記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、画像処理技術分野に関し、具体的には、人体検出方法、装置、コンピュータ機器並びに記憶媒体に関する。

【背景技術】

【0002】

ニューラルネットワークが画像、映像、音声、テキストなどの分野に適用されることに伴い、ユーザによりニューラルネットワークに基づいた様々なモデルの精度に求められる要求がますます高くなる。ニューラルネットワークの重要な適用シーンとして、画像において人体検出を行うことであり、人体検出の精細度及び演算データ量に対する要求が高い。

【発明の概要】

【発明が解決しようとする課題】

【0003】

本願の実施例の目的は、人体検出方法、装置、コンピュータ機器並びに記憶媒体を提供することである。

【課題を解決するための手段】

【0004】

第１態様によれば、本願の実施例は、人体検出方法を提供する。前記方法は、検出対象画像を取得することと、前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定することと、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報に基づいて、人体検出結果を生成することと、を含む。

【0005】

本願の実施例は、検出対象画像から、人体骨格構造を示すための骨格キーポイントの位置情報、人体輪郭を示すための輪郭キーポイントの位置情報を決定し、骨格キーポイントの位置情報、輪郭キーポイントの位置情報に基づいて、人体検出結果を生成し、表現精細度の向上と、演算データ量と、を両立させることができる。

【0006】

また、本願の実施形態において、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を利用して、人体検出結果を得るため、人体を表すための情報は、より豊富で、画像編集、人体体型調整などのような、より広くシーンに適用する。

【0007】

任意選択的な実施形態において、前記輪郭キーポイントは、主輪郭キーポイント及び補助輪郭キーポイントを含み、ここで、２つの隣接する前記主輪郭キーポイントの間に、少なくとも１つの補助輪郭キーポイントが存在する。

【0008】

該実施形態において、主輪郭キーポイントの位置情報及び補助輪郭キーポイントの位置情報により、人体輪郭を表すことで、人体輪郭の識別の精度を一層高くし、情報量をより豊富にする。

【0009】

任意選択的な実施形態において、前記検出対象画像に基づいて、人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、前記検出対象画像に基づいて、前記主輪郭キーポイントの位置情報を決定することと、前記主輪郭キーポイントの位置情報に基づいて、人体輪郭情報を決定することと、決定された前記人体輪郭情報に基づいて、複数の前記補助輪郭キーポイントの位置情報を決定することと、を含む。

【0010】

該実施形態において、主輪郭キーポイントの位置情報、及び補助輪郭キーポイントの位置情報をより正確に位置決めすることができる。

【0011】

任意選択的な実施形態において、前記人体検出結果は、骨格キーポイントマーク及び輪郭キーポイントマークが付加された検出対象画像、前記骨格キーポイントの位置情報及び前記輪郭キーポイントの位置情報を含むデータ群のうちの１つ又は複数を含む。

【0012】

該実施形態において、骨格キーポイントマーク及び輪郭キーポイントマークを含む検出対象画像は、より直感的な視覚的イメージを人々に与えることができる。骨格キーポイントの位置情報及び輪郭キーポイントの位置情報を含むデータ群は、後続の処理をより容易にする。

【0013】

任意選択的な実施形態において、該方法は、前記人体検出結果に基づいて、人体動作認識、人体姿勢検出、人体輪郭調整、人体画像編集及び人体画像の貼り付けのうちの１つ又は複数を実行することを更に含む。

【0014】

該実施形態において、表現精細度がより高くて演算データ量がより少ない人体検出結果に基づいて、より高い精度及びより速い速度でより多くの操作を実現させることができる。

【0015】

任意選択的な実施形態において、前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことと、特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定することと、を含む。

【0016】

該実施形態において、検出対象画像に対して特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、それによって、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を得ることができる。該方法で得られた人体検出結果によれば、より少ないデータ量で人体を表すことができるだけでなく、人体を表すための人体の骨格特徴及び輪郭特徴を抽出することもでき、表現精細度の向上も両立させる。

【0017】

任意選択的な実施形態において、前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことは、前記検出対象画像に基づいて、少なくとも１回の特徴抽出を行い、特徴抽出を行うたびに得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことであって、複数回の特徴抽出を行う場合、ｉ回目の特徴融合の特徴融合結果に基づいてｉ＋１回目の特徴抽出を行い、ｉは正整数である、ことを含み、特徴融合結果に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、最終回の特徴融合の特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定することを含む。

【0018】

該実施形態において、検出対象画像に対して少なくとも１回の特徴抽出を行い、特徴抽出を行うたびに得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことで、位置関連関係を有する骨格特徴点及び輪郭特徴点を相互補正することができる。最終的に得られた骨格キーポイントの位置情報、及び輪郭キーポイントの位置情報に、より高い精度を持たせることができる。

【0019】

任意選択的な実施形態において、前記検出対象画像に基づいて、少なくとも１回の特徴抽出を行うことは、１回目の特徴抽出において、事前訓練された第１特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第１ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第１ターゲット輪郭特徴行列を抽出することと、ｉ＋１回の特徴抽出において、事前訓練された第２特徴抽出ネットワークを用いて、ｉ回目の特徴融合の特徴融合結果から、前記第１ターゲット骨格特徴行列、及び前記第１ターゲット輪郭特徴行列を抽出することと、を含み、第１特徴抽出ネットワークのネットワークパラメータは、第２特徴抽出ネットワークのネットワークパラメータと異なり、且つ特徴抽出のたびに用いられる第２特徴抽出ネットワークのネットワークパラメータは異なる。

【0020】

該実施例において、骨格特徴と輪郭特徴に対して少なくとも１回の抽出及び少なくとも１回の融合を行うことで、最終的に得られた骨格キーポイントの位置情報及び輪郭キーポイントの位置情報は、より高い精度を有する。

【0021】

任意選択的な実施形態において、抽出して得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことは、事前訓練された特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得ることであって、前記第２ターゲット骨格特徴行列は、三次元骨格特徴行列であり、該三次元骨格特徴行列は、各骨格キーポイントにそれぞれ対応する二次元骨格特徴行列を含み、前記二次元骨格特徴行列における各要素の値は、該要素に対応する画素点が、対応する骨格キーポイントに属する確率を表し、前記第２ターゲット輪郭特徴行列は、三次元輪郭特徴行列であり、該三次元輪郭特徴行列は、各輪郭キーポイントにそれぞれ対応する二次元輪郭特徴行列を含み、前記二次元輪郭特徴行列における各要素の値は、該要素に対応する画素点が、対応する輪郭キーポイントに属する確率を表し、特徴融合のたびに用いられる特徴融合ニューラルネットワークのネットワークパラメータは異なる、ことを含む。

【0022】

該実施形態において、事前訓練された特徴融合ネットワークに基づいて骨格特徴及び輪郭特徴を融合することで、より良好な特徴融合結果を得ることができる。最終的に得られた骨格キーポイントの位置情報及び輪郭キーポイントの位置情報に、より高い精度を持たせることができる。

【0023】

任意選択的な実施形態において、最終回の特徴融合の特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定することは、最終回の特徴融合で得られた第２ターゲット骨格特徴行列に基づいて、前記骨格キーポイントの位置情報を決定することと、最終回の特徴融合で得られた第２ターゲット輪郭特徴行列に基づいて、前記輪郭キーポイントの位置情報を決定することと、を含む。

【0024】

該実施形態において、少なくとも１回の特徴抽出及び特徴融合により、最終的に得られた骨格キーポイントの位置情報及び輪郭キーポイントの位置情報に、より高い精度を持たせる。

【0025】

任意選択的な実施形態において、前記第１特徴抽出ネットワークは、共通特徴抽出ネットワーク、第１骨格特徴抽出ネットワーク及び第１輪郭特徴抽出ネットワークを含み、第１特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第１ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第１ターゲット輪郭特徴行列を抽出することは、前記共通特徴抽出ネットワークを用いて、前記検出対象画像に対して畳み込み処理を行い、骨格特徴及び輪郭特徴を含む基礎特徴行列を得ることと、前記第１骨格特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第１骨格特徴行列を得て、前記第１骨格特徴抽出ネットワークにおける第１ターゲット畳み込み層から、第２骨格特徴行列を取得し、前記第１骨格特徴行列及び前記第２骨格特徴行列に基づいて、前記第１ターゲット骨格特徴行列を得ることであって、前記第１ターゲット畳み込み層は、前記第１骨格特徴抽出ネットワークにおける、最後の１つの畳み込み層以外のいずれか１つの畳み込み層である、ことと、前記第１輪郭特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第１輪郭特徴行列を得て、前記第１輪郭特徴抽出ネットワークにおける第２ターゲット畳み込み層から、第２輪郭特徴行列を取得し、前記第１輪郭特徴行列及び前記第２輪郭特徴行列に基づいて、前記第１ターゲット輪郭特徴行列を得ることであって、前記第２ターゲット畳み込み層は、前記第１輪郭特徴抽出ネットワークにおける、最後の１つの畳み込み層以外のいずれか１つの畳み込み層である、ことと、を含む。

【0026】

該実施形態において、共通特徴抽出ネットワークを用いて、骨格特徴及び輪郭特徴を抽出し、検出対象画像における、骨格特徴及び輪郭特徴以下のほかの特徴を除去した後、第１骨格特徴抽出ネットワークを用いて、骨格特徴を意図的に抽出し、第１輪郭特徴抽出ネットワークを用いて、輪郭特徴を意図的に抽出する。従って、必要な演算量がより少ない。

【0027】

任意選択的な実施形態において、第１骨格特徴行列及び前記第２骨格特徴行列に基づいて、前記第１ターゲット骨格特徴行列を得ることは、前記第１骨格特徴行列及び前記第２骨格特徴行列に対して連結処理を行い、第１連結骨格特徴行列を得ることと、前記第１連結骨格特徴行列を次元変換処理し、前記第１ターゲット骨格特徴行列を得ることと、を含み、前記第１輪郭特徴行列及び前記第２輪郭特徴行列に基づいて、前記第１ターゲット輪郭特徴行列を得ることは、前記第１輪郭特徴行列及び前記第２輪郭特徴行列に対して連結処理を行い、第１連結輪郭特徴行列を得ることと、前記第１連結輪郭特徴行列を次元変換処理し、前記ターゲット輪郭特徴行列を得ることと、を含み、前記第１ターゲット骨格特徴行列の次元は、前記第１ターゲット輪郭特徴行列の次元と同じであり、且つ前記第１ターゲット骨格特徴行列と前記第１ターゲット輪郭特徴行列は、同一の次元における次元数が同じである。

【0028】

該実施形態において、第１骨格特徴行列及び前記第２骨格特徴行列に対して連結処理を行うことで、第１ターゲット骨格特徴行列に、より豊富な骨格特徴情報を持たせる。それと同時に、第１輪郭特徴行列及び前記第２輪郭特徴行列に対して連結処理を行い、第１ターゲット輪郭特徴行列に、より豊富な骨格特徴情報を持たせる。後続の特徴融合過程において、より高い精度で、骨格キーポイントの位置情報及び輪郭キーポイントの位置情報を抽出することができる。

【0029】

任意選択的な実施形態において、前記特徴融合ニューラルネットワークは、第１畳み込みニューラルネットワーク、第２畳み込みニューラルネットワーク、第１変換ニューラルネットワーク及び第２変換ニューラルネットワークを含み、特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得ることは、前記第１畳み込みニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列に対して畳み込み処理を行い、第１中間骨格特徴行列を得て、前記第２畳み込みニューラルネットワークを用いて、前記第１ターゲット輪郭特徴行列に対して畳み込み処理を行い、第１中間輪郭特徴行列を得ることと、前記第１中間輪郭特徴行列と前記第１ターゲット骨格特徴行列に対して連結処理を行い、第１連結特徴行列を得て、前記第１変換ニューラルネットワークを用いて、前記第１連結特徴行列に対して次元変換を行い、前記第２ターゲット骨格特徴行列を得ることと、前記第１中間骨格特徴行列と前記第１ターゲット輪郭特徴行列に対して連結処理を行い、第２連結特徴行列を得て、前記第２変換ニューラルネットワークを用いて、前記第２連結特徴行列に対して次元変換を行い、前記第２ターゲット輪郭特徴行列を得ることと、を含む。

【0030】

該実施形態において、前記第１中間輪郭特徴行列と前記第１ターゲット骨格特徴行列に対して連結処理を行い、連結処理結果に基づいて、第２ターゲット骨格特徴行列を得ることで、骨格特徴及び輪郭特徴を融合し、輪郭特徴を用いて、抽出された骨格特徴を補正することを実現させる。また、前記第１中間骨格特徴行列と前記第１ターゲット輪郭特徴行列に対して連結処理を行い、連結処理結果に基づいて、第２ターゲット輪郭特徴行列を得ることで、骨格特徴及び輪郭特徴を融合し、骨格特徴を用いて、抽出された輪郭特徴を補正することを実現させる。更に、より高い精度で、骨格キーポイントの位置情報、及び輪郭キーポイントの位置情報を抽出することができる。

【0031】

任意選択的な実施形態において、前記特徴融合ニューラルネットワークは、第１定向畳み込みニューラルネットワーク、第２定向畳み込みニューラルネットワーク、第３畳み込みニューラルネットワーク、第４畳み込みニューラルネットワーク、第３変換ニューラルネットワーク、及び第４変換ニューラルネットワークを含み、特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得ることは、前記第１定向畳み込みニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列に対して、定向畳み込み処理を行い、第１定向骨格特徴行列を得て、第３畳み込みニューラルネットワークを用いて、前記第１定向骨格特徴行列に対して畳み込み処理を行い、第２中間骨格特徴行列を得ることと、前記第２定向畳み込みニューラルネットワークを用いて、前記第１ターゲット輪郭特徴行列に対して、定向畳み込み処理を行い、第１定向輪郭特徴行列を得て、第４畳み込みニューラルネットワークを用いて、前記第１定向輪郭特徴に対して、畳み込み処理を行い、第２中間輪郭特徴行列を得ることと、前記第２中間輪郭特徴行列と前記第１ターゲット骨格特徴行列に対して連結処理を行い、第３連結特徴行列を得て、第３変換ニューラルネットワークを用いて、前記第３連結特徴行列に対して次元変換を行い、前記第２ターゲット骨格特徴行列を得ることと、前記第２中間骨格特徴行列と前記第１ターゲット輪郭特徴行列に対して連結処理を行い、第４連結特徴行列を得て、第４変換ニューラルネットワークを用いて、前記第４連結特徴行列に対して次元変換を行い、前記第２ターゲット輪郭特徴行列を得ることと、を含む。

【0032】

該実施形態において、定向畳み込みの方式により、特徴を融合処理することで、より高い精度で、骨格キーポイントの位置情報及び輪郭キーポイントの位置情報を抽出することができる。

【0033】

任意選択的な実施形態において、前記特徴融合ニューラルネットワークは、変位推定ニューラルネットワーク、第５変換ニューラルネットワークを含み、特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得ることは、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して連結処理を行い、第５連結特徴行列を得ることと、前記第５連結特徴行列を前記変位推定ニューラルネットワークに入力し、事前決定された複数組のキーポイントペアに対して変位推定を行い、各組のキーポイントペアのうちの１つのキーポイントがもう１つのキーポイントまでに移動する変位情報を得て、各組のキーポイントペアのうちの各キーポイントをそれぞれ現在のキーポイントとし、該現在のキーポイントのペアであるもう１つのキーポイントに対応する三次元特徴行列から、前記ペアであるもう１つのキーポイントに対応する二次元特徴行列を得ることと、前記ペアであるもう１つのキーポイントから前記現在のキーポイントまでの変位情報に基づいて、前記ペアであるもう１つのキーポイントに対応する二次元特徴行列における要素に対して位置変換を行い、該現在のキーポイントに対応する変位特徴行列を得ることと、各骨格キーポイントについて、該骨格キーポイントに対応する二次元特徴行列と、該骨格キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該骨格キーポイントの連結二次元特徴行列を得て、該骨格キーポイントの連結二次元特徴行列を前記第５変換ニューラルネットワークに入力し、該骨格キーポイントに対応するターゲット二次元特徴行列を得て、各骨格キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第２ターゲット骨格特徴行列を生成することと、各輪郭キーポイントについて、該輪郭キーポイントに対応する二次元特徴行列と、該輪郭キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該輪郭キーポイントの連結二次元特徴行列を得て、該輪郭キーポイントの連結二次元特徴行列を前記第５変換ニューラルネットワークに入力し、該輪郭キーポイントに対応するターゲット二次元特徴行列を得て、各輪郭キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第２ターゲット輪郭特徴行列を生成することと、を含む。

【0034】

該実施形態において、骨格キーポイント及び輪郭キーポイントに対して変位変換を行うことで特徴融合を実現させる。従って、より高い精度で、骨格キーポイントの位置情報及び輪郭キーポイントの位置情報を抽出することができる。

【0035】

任意選択的な実施形態において、前記人体検出方法は、人体検出モデルにより実現され、前記人体検出モデルは、前記第１特徴抽出ネットワーク及び／又は前記特徴融合ニューラルネットワークを含み、前記人体検出モデルは、訓練サンプル集合におけるサンプル画像を利用して訓練されたものであり、前記サンプル画像に、人体骨格構造の骨格キーポイントの実際の位置情報、及び人体輪郭の輪郭キーポイントの実際の位置情報がラベル付けされている。

【0036】

該実施形態において、該訓練方法で得られた人体検出モデルは、より高い検出精度を持ち、該人体検出モデルによれば、表現精細度と演算データ量を両立させる人体検出結果を得ることができる。

【0037】

第２態様によれば、本願の実施例は、人体検出装置を更に提供する。前記装置は、検出対象画像を取得するように構成される取得モジュールと、前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成される検出モジュールと、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報に基づいて、人体検出結果を生成するように構成される生成モジュールと、を備える。

【0038】

第３態様によれば、本願の実施例は、コンピュータ機器を更に提供する。前記コンピュータ機器は、プロセッサと、非一時的記憶媒体と、バスと、を備え、前記非一時的記憶媒体に、前記プロセッサによる実行可能な機器可読命令が記憶されており、コンピュータ機器が運転される場合、前記プロセッサと前記記憶媒体とは、バスを介して通信し、前記機器可読命令が前記プロセッサにより実行される場合、上記第１態様又は第１態様におけるいずれか１つの可能な実施形態における工程を実行する。

【0039】

第４態様によれば、本願の実施例は、コンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される場合、上記第１態様又は第１態様におけるいずれか１つの可能な実施形態における工程を実行する。
例えば、本願は以下の項目を提供する。
（項目１）
人体検出方法であって、前記方法は、
検出対象画像を取得することと、
前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定することと、
前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報に基づいて、人体検出結果を生成することと、を含むことを特徴とする、人体検出方法。
（項目２）
前記輪郭キーポイントは、主輪郭キーポイント及び補助輪郭キーポイントを含み、ここで、２つの隣接する前記主輪郭キーポイントの間に、少なくとも１つの補助輪郭キーポイントが存在することを特徴とする
項目１に記載の人体検出方法。
（項目３）
前記検出対象画像に基づいて、人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、
前記検出対象画像に基づいて、前記主輪郭キーポイントの位置情報を決定することと、
前記主輪郭キーポイントの位置情報に基づいて、人体輪郭情報を決定することと、
決定された前記人体輪郭情報に基づいて、複数の前記補助輪郭キーポイントの位置情報を決定することと、を含むことを特徴とする
項目２に記載の人体検出方法。
（項目４）
前記人体検出結果は、
骨格キーポイントマーク及び輪郭キーポイントマークが付加された検出対象画像、前記骨格キーポイントの位置情報及び前記輪郭キーポイントの位置情報を含むデータ群のうちの１つ又は複数を含むことを特徴とする
項目１から３のいずれか一項に記載の人体検出方法。
（項目５）
前記方法は、
前記人体検出結果に基づいて、人体動作認識、人体姿勢検出、人体輪郭調整、人体画像編集及び人体画像の貼り付けのうちの１つ又は複数を実行することを更に含むことを特徴とする
項目４に記載の人体検出方法。
（項目６）
前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、
前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことと、特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定することと、を含むことを特徴とする
項目１から５のいずれか一項に記載の人体検出方法。
（項目７）
前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことは、
前記検出対象画像に基づいて、少なくとも１回の特徴抽出を行い、特徴抽出を行うたびに得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことであって、複数回の特徴抽出を行う場合、ｉ回目の特徴融合の特徴融合結果に基づいてｉ＋１回目の特徴抽出を行い、ｉは正整数である、ことを含み、
特徴融合結果に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、
最終回の特徴融合の特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定することを含むことを特徴とする
項目６に記載の人体検出方法。
（項目８）
前記検出対象画像に基づいて、少なくとも１回の特徴抽出を行うことは、
１回目の特徴抽出において、事前訓練された第１特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第１ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第１ターゲット輪郭特徴行列を抽出することと、
ｉ＋１回の特徴抽出において、事前訓練された第２特徴抽出ネットワークを用いて、ｉ回目の特徴融合の特徴融合結果から、前記第１ターゲット骨格特徴行列、及び前記第１ターゲット輪郭特徴行列を抽出することと、を含み、
第１特徴抽出ネットワークのネットワークパラメータは、第２特徴抽出ネットワークのネットワークパラメータと異なり、且つ特徴抽出のたびに用いられる第２特徴抽出ネットワークのネットワークパラメータは異なることを特徴とする
項目７に記載の人体検出方法。
（項目９）
抽出して得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことは、
事前訓練された特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得ることを含み、
前記第２ターゲット骨格特徴行列は、三次元骨格特徴行列であり、該三次元骨格特徴行列は、各骨格キーポイントにそれぞれ対応する二次元骨格特徴行列を含み、前記二次元骨格特徴行列における各要素の値は、該要素に対応する画素点が、対応する骨格キーポイントに属する確率を表し、
前記第２ターゲット輪郭特徴行列は、三次元輪郭特徴行列であり、該三次元輪郭特徴行列は、各輪郭キーポイントにそれぞれ対応する二次元輪郭特徴行列を含み、前記二次元輪郭特徴行列における各要素の値は、該要素に対応する画素点が、対応する輪郭キーポイントに属する確率を表し、
特徴融合のたびに用いられる特徴融合ニューラルネットワークのネットワークパラメータは異なる、ことを含むことを特徴とする
項目８に記載の人体検出方法。
（項目１０）
前記第１特徴抽出ネットワークは、共通特徴抽出ネットワーク、第１骨格特徴抽出ネットワーク及び第１輪郭特徴抽出ネットワークを含み、
第１特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第１ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第１ターゲット輪郭特徴行列を抽出することは、
前記共通特徴抽出ネットワークを用いて、前記検出対象画像に対して畳み込み処理を行い、骨格特徴及び輪郭特徴を含む基礎特徴行列を得ることと、
前記第１骨格特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第１骨格特徴行列を得て、前記第１骨格特徴抽出ネットワークにおける第１ターゲット畳み込み層から、第２骨格特徴行列を取得し、前記第１骨格特徴行列及び前記第２骨格特徴行列に基づいて、前記第１ターゲット骨格特徴行列を得ることであって、前記第１ターゲット畳み込み層は、前記第１骨格特徴抽出ネットワークにおける、最後の１つの畳み込み層以外のいずれか１つの畳み込み層である、ことと、
前記第１輪郭特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第１輪郭特徴行列を得て、前記第１輪郭特徴抽出ネットワークにおける第２ターゲット畳み込み層から、第２輪郭特徴行列を取得し、前記第１輪郭特徴行列及び前記第２輪郭特徴行列に基づいて、前記第１ターゲット輪郭特徴行列を得ることであって、前記第２ターゲット畳み込み層は、前記第１輪郭特徴抽出ネットワークにおける、最後の１つの畳み込み層以外のいずれか１つの畳み込み層である、ことと、を含むことを特徴とする
項目８に記載の人体検出方法。
（項目１１）
第１骨格特徴行列及び前記第２骨格特徴行列に基づいて、前記第１ターゲット骨格特徴行列を得ることは、
前記第１骨格特徴行列及び前記第２骨格特徴行列に対して連結処理を行い、第１連結骨格特徴行列を得ることと、前記第１連結骨格特徴行列を次元変換処理し、前記第１ターゲット骨格特徴行列を得ることと、を含み、
前記第１輪郭特徴行列及び前記第２輪郭特徴行列に基づいて、前記第１ターゲット輪郭特徴行列を得ることは、
前記第１輪郭特徴行列及び前記第２輪郭特徴行列に対して連結処理を行い、第１連結輪郭特徴行列を得ることと、前記第１連結輪郭特徴行列を次元変換処理し、前記ターゲット輪郭特徴行列を得ることと、を含み、
前記第１ターゲット骨格特徴行列の次元は、前記第１ターゲット輪郭特徴行列の次元と同じであり、且つ前記第１ターゲット骨格特徴行列と前記第１ターゲット輪郭特徴行列は、同一の次元における次元数が同じであることを特徴とする
項目１０に記載の人体検出方法。
（項目１２）
前記特徴融合ニューラルネットワークは、第１畳み込みニューラルネットワーク、第２畳み込みニューラルネットワーク、第１変換ニューラルネットワーク及び第２変換ニューラルネットワークを含み、
特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得ることは、
前記第１畳み込みニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列に対して畳み込み処理を行い、第１中間骨格特徴行列を得て、前記第２畳み込みニューラルネットワークを用いて、前記第１ターゲット輪郭特徴行列に対して畳み込み処理を行い、第１中間輪郭特徴行列を得ることと、
前記第１中間輪郭特徴行列と前記第１ターゲット骨格特徴行列に対して連結処理を行い、第１連結特徴行列を得て、前記第１変換ニューラルネットワークを用いて、前記第１連結特徴行列に対して次元変換を行い、前記第２ターゲット骨格特徴行列を得ることと、
前記第１中間骨格特徴行列と前記第１ターゲット輪郭特徴行列に対して連結処理を行い、第２連結特徴行列を得て、前記第２変換ニューラルネットワークを用いて、前記第２連結特徴行列に対して次元変換を行い、前記第２ターゲット輪郭特徴行列を得ることと、を含むことを特徴とする
項目９に記載の人体検出方法。
（項目１３）
前記特徴融合ニューラルネットワークは、第１定向畳み込みニューラルネットワーク、第２定向畳み込みニューラルネットワーク、第３畳み込みニューラルネットワーク、第４畳み込みニューラルネットワーク、第３変換ニューラルネットワーク、及び第４変換ニューラルネットワークを含み、
特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得ることは、
前記第１定向畳み込みニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列に対して、定向畳み込み処理を行い、第１定向骨格特徴行列を得て、第３畳み込みニューラルネットワークを用いて、前記第１定向骨格特徴行列に対して畳み込み処理を行い、第２中間骨格特徴行列を得ることと、
前記第２定向畳み込みニューラルネットワークを用いて、前記第１ターゲット輪郭特徴行列に対して、定向畳み込み処理を行い、第１定向輪郭特徴行列を得て、第４畳み込みニューラルネットワークを用いて、前記第１定向輪郭特徴に対して、畳み込み処理を行い、第２中間輪郭特徴行列を得ることと、
前記第２中間輪郭特徴行列と前記第１ターゲット骨格特徴行列に対して連結処理を行い、第３連結特徴行列を得て、第３変換ニューラルネットワークを用いて、前記第３連結特徴行列に対して次元変換を行い、前記第２ターゲット骨格特徴行列を得ることと、
前記第２中間骨格特徴行列と前記第１ターゲット輪郭特徴行列に対して連結処理を行い、第４連結特徴行列を得て、第４変換ニューラルネットワークを用いて、前記第４連結特徴行列に対して次元変換を行い、前記第２ターゲット輪郭特徴行列を得ることと、を含むことを特徴とする
項目９に記載の人体検出方法。
（項目１４）
前記特徴融合ニューラルネットワークは、変位推定ニューラルネットワーク、第５変換ニューラルネットワークを含み、
特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得ることは、
前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して連結処理を行い、第５連結特徴行列を得ることと、
前記第５連結特徴行列を前記変位推定ニューラルネットワークに入力し、事前決定された複数組のキーポイントペアに対して変位推定を行い、各組のキーポイントペアのうちの１つのキーポイントがもう１つのキーポイントまでに移動する変位情報を得て、各組のキーポイントペアのうちの各キーポイントをそれぞれ現在のキーポイントとし、該現在のキーポイントのペアであるもう１つのキーポイントに対応する三次元特徴行列から、前記ペアであるもう１つのキーポイントに対応する二次元特徴行列を得ることと、
前記ペアであるもう１つのキーポイントから前記現在のキーポイントまでの変位情報に基づいて、前記ペアであるもう１つのキーポイントに対応する二次元特徴行列における要素に対して位置変換を行い、該現在のキーポイントに対応する変位特徴行列を得ることと、
各骨格キーポイントについて、該骨格キーポイントに対応する二次元特徴行列と、該骨格キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該骨格キーポイントの連結二次元特徴行列を得て、該骨格キーポイントの連結二次元特徴行列を前記第５変換ニューラルネットワークに入力し、該骨格キーポイントに対応するターゲット二次元特徴行列を得て、各骨格キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第２ターゲット骨格特徴行列を生成することと、
各輪郭キーポイントについて、該輪郭キーポイントに対応する二次元特徴行列と、該輪郭キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該輪郭キーポイントの連結二次元特徴行列を得て、該輪郭キーポイントの連結二次元特徴行列を前記第５変換ニューラルネットワークに入力し、該輪郭キーポイントに対応するターゲット二次元特徴行列を得て、各輪郭キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第２ターゲット輪郭特徴行列を生成することと、を含むことを特徴とする
項目９に記載の人体検出方法。
（項目１５）
前記人体検出方法は、人体検出モデルにより実現され、前記人体検出モデルは、前記第１特徴抽出ネットワーク及び／又は前記特徴融合ニューラルネットワークを含み、
前記人体検出モデルは、訓練サンプル集合におけるサンプル画像を利用して訓練されたものであり、前記サンプル画像に、人体骨格構造の骨格キーポイントの実際の位置情報、及び人体輪郭の輪郭キーポイントの実際の位置情報がラベル付けされていることを特徴とする
項目１から１４のいずれか一項に記載の人体検出方法。
（項目１６）
人体検出装置であって、前記装置は、
検出対象画像を取得するように構成される取得モジュールと、
前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成される検出モジュールと、
前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報に基づいて、人体検出結果を生成するように構成される生成モジュールと、を備えることを特徴とする、人体検出装置。
（項目１７）
前記輪郭キーポイントは、主輪郭キーポイント及び補助輪郭キーポイントを含み、ここで、２つの隣接する前記主輪郭キーポイントの間に、少なくとも１つの補助輪郭キーポイントが存在することを特徴とする
項目１６に記載の人体検出装置。
（項目１８）
前記検出モジュールは、前記検出対象画像に基づいて、前記主輪郭キーポイントの位置情報を決定し、前記主輪郭キーポイントの位置情報に基づいて、人体輪郭情報を決定し、決定された前記人体輪郭情報に基づいて、複数の前記補助輪郭キーポイントの位置情報を決定するという方式で、前記検出対象画像に基づいて、人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成されることを特徴とする
項目１７に記載の人体検出装置。
（項目１９）
前記人体検出結果は、
骨格キーポイントマーク及び輪郭キーポイントマークが付加された検出対象画像、前記骨格キーポイントの位置情報及び前記輪郭キーポイントの位置情報を含むデータ群のうちの１つ又は複数を含むことを特徴とする
項目１６から１８のいずれか一項に記載の人体検出装置。
（項目２０）
前記人体検出装置は、
前記人体検出結果に基づいて、人体動作認識、人体姿勢検出、人体輪郭調整、人体画像編集及び人体画像の貼り付けのうちの１つ又は複数を実行するように構成される実行モジュールを更に備えることを特徴とする
項目１９に記載の人体検出装置。
（項目２１）
前記検出モジュールは、前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定するという方式で、前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成されることを特徴とする
項目１６から項目２０のいずれか一項に記載の人体検出装置。
（項目２２）
前記検出モジュールは、前記検出対象画像に基づいて、少なくとも１回の特徴抽出を行い、特徴抽出を行うたびに得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、複数回の特徴抽出を行う場合、ｉ回目の特徴融合の特徴融合結果に基づいてｉ＋１回目の特徴抽出を行い、ｉは正整数であるという方式で、前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行うように構成され、
前記検出モジュールは、最終回の特徴融合の特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定するという方式で、特徴融合結果に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成されることを特徴とする
項目２１に記載の人体検出装置。
（項目２３）
前記検出モジュールは、１回目の特徴抽出において、事前訓練された第１特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第１ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第１ターゲット輪郭特徴行列を抽出し、ｉ＋１回の特徴抽出において、事前訓練された第２特徴抽出ネットワークを用いて、ｉ回目の特徴融合の特徴融合結果から、前記第１ターゲット骨格特徴行列、及び前記第１ターゲット輪郭特徴行列を抽出するという方式で、前記検出対象画像に基づいて、少なくとも１回の特徴抽出を行うように構成され、
第１特徴抽出ネットワークのネットワークパラメータは、第２特徴抽出ネットワークのネットワークパラメータと異なり、且つ特徴抽出のたびに用いられる第２特徴抽出ネットワークのネットワークパラメータは異なることを特徴とする
項目２２に記載の人体検出装置。
（項目２４）
前記検出モジュールは、事前訓練された特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得るという方式で、抽出して得られた骨格特徴及び輪郭特徴に対して特徴融合を行うように構成され、
前記第２ターゲット骨格特徴行列は、三次元骨格特徴行列であり、該三次元骨格特徴行列は、各骨格キーポイントにそれぞれ対応する二次元骨格特徴行列を含み、前記二次元骨格特徴行列における各要素の値は、該要素に対応する画素点が、対応する骨格キーポイントに属する確率を表し、
前記第２ターゲット輪郭特徴行列は、三次元輪郭特徴行列であり、該三次元輪郭特徴行列は、各輪郭キーポイントにそれぞれ対応する二次元輪郭特徴行列を含み、前記二次元輪郭特徴行列における各要素の値は、該要素に対応する画素点が、対応する輪郭キーポイントに属する確率を表し、
特徴融合のたびに用いられる特徴融合ニューラルネットワークのネットワークパラメータは異なることを特徴とする
項目２３に記載の人体検出装置。
（項目２５）
第１特徴抽出ネットワークは、共通特徴抽出ネットワーク、第１骨格特徴抽出ネットワーク及び第１輪郭特徴抽出ネットワークを含み、
前記検出モジュールは、
前記共通特徴抽出ネットワークを用いて、前記検出対象画像に対して畳み込み処理を行い、骨格特徴及び輪郭特徴を含む基礎特徴行列を得ることと、
前記第１骨格特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第１骨格特徴行列を得て、前記第１骨格特徴抽出ネットワークにおける第１ターゲット畳み込み層から、第２骨格特徴行列を取得し、前記第１骨格特徴行列及び前記第２骨格特徴行列に基づいて、前記第１ターゲット骨格特徴行列を得ることであって、前記第１ターゲット畳み込み層は、前記第１骨格特徴抽出ネットワークにおける、最後の１つの畳み込み層以外のいずれか１つの畳み込み層であることと、
前記第１輪郭特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第１輪郭特徴行列を得て、前記第１輪郭特徴抽出ネットワークにおける第２ターゲット畳み込み層から、第２輪郭特徴行列を取得し、前記第１輪郭特徴行列及び前記第２輪郭特徴行列に基づいて、前記第１ターゲット輪郭特徴行列を得ることであって、前記第２ターゲット畳み込み層は、前記第１輪郭特徴抽出ネットワークにおける、最後の１つの畳み込み層以外のいずれか１つの畳み込み層であることと、を実行する、
という方式で、第１特徴抽出ネットワークを用いて、検出対象画像から、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列を抽出するように構成されることを特徴とする
項目２３に記載の人体検出装置。
（項目２６）
前記検出モジュールは、前記第１骨格特徴行列及び前記第２骨格特徴行列に対して連結処理を行い、第１連結骨格特徴行列を得て、前記第１連結骨格特徴行列を次元変換処理し、前記第１ターゲット骨格特徴行列を得るという方式で、前記第１骨格特徴行列及び前記第２骨格特徴行列に基づいて、前記第１ターゲット骨格特徴行列を得るように構成され、
前記第１輪郭特徴行列及び前記第２輪郭特徴行列に基づいて、前記第１ターゲット輪郭特徴行列を得ることは、
前記第１輪郭特徴行列及び前記第２輪郭特徴行列に対して連結処理を行い、第１連結輪郭特徴行列を得ることと、
前記第１連結輪郭特徴行列を次元変換処理し、前記ターゲット輪郭特徴行列を得ることと、を含み、
前記第１ターゲット骨格特徴行列の次元は、前記第１ターゲット輪郭特徴行列の次元と同じであり、且つ前記第１ターゲット骨格特徴行列と前記第１ターゲット輪郭特徴行列は、同一の次元における次元数が同じであることを特徴とする
項目２５に記載の人体検出装置。
（項目２７）
前記特徴融合ニューラルネットワークは、第１畳み込みニューラルネットワーク、第２畳み込みニューラルネットワーク、第１変換ニューラルネットワーク及び第２変換ニューラルネットワークを含み、
前記検出モジュールは、
前記第１畳み込みニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列に対して畳み込み処理を行い、第１中間骨格特徴行列を得て、前記第２畳み込みニューラルネットワークを用いて、前記第１ターゲット輪郭特徴行列に対して畳み込み処理を行い、第１中間輪郭特徴行列を得ることと、
前記第１中間輪郭特徴行列と前記第１ターゲット骨格特徴行列に対して連結処理を行い、第１連結特徴行列を得て、前記第１変換ニューラルネットワークを用いて、前記第１連結特徴行列に対して次元変換を行い、前記第２ターゲット骨格特徴行列を得ることと、
前記第１中間骨格特徴行列と前記第１ターゲット輪郭特徴行列に対して連結処理を行い、第２連結特徴行列を得て、前記第２変換ニューラルネットワークを用いて、前記第２連結特徴行列に対して次元変換を行い、前記第２ターゲット輪郭特徴行列を得ることと、を実行する、
という方式で、特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得るように構成されることを特徴とする
項目２４に記載の人体検出装置。
（項目２８）
前記特徴融合ニューラルネットワークは、第１定向畳み込みニューラルネットワーク、第２定向畳み込みニューラルネットワーク、第３畳み込みニューラルネットワーク、第４畳み込みニューラルネットワーク、第３変換ニューラルネットワーク、及び第４変換ニューラルネットワークを含み、
前記検出モジュールは、
前記第１定向畳み込みニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列に対して、定向畳み込み処理を行い、第１定向骨格特徴行列を得て、第３畳み込みニューラルネットワークを用いて、前記第１定向骨格特徴行列に対して畳み込み処理を行い、第２中間骨格特徴行列を得ることと、
前記第２定向畳み込みニューラルネットワークを用いて、前記第１ターゲット輪郭特徴行列に対して、定向畳み込み処理を行い、第１定向輪郭特徴行列を得て、第４畳み込みニューラルネットワークを用いて、前記第１定向輪郭特徴に対して、畳み込み処理を行い、第２中間輪郭特徴行列を得ることと、
前記第２中間輪郭特徴行列と前記第１ターゲット骨格特徴行列に対して連結処理を行い、第３連結特徴行列を得て、第３変換ニューラルネットワークを用いて、前記第３連結特徴行列に対して次元変換を行い、前記第２ターゲット骨格特徴行列を得ることと、
前記第２中間骨格特徴行列と前記第１ターゲット輪郭特徴行列に対して連結処理を行い、第４連結特徴行列を得て、第４変換ニューラルネットワークを用いて、前記第４連結特徴行列に対して次元変換を行い、前記第２ターゲット輪郭特徴行列を得ることと、を実行する、
という方式で、特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得るように構成されることを特徴とする
項目２４に記載の人体検出装置。
（項目２９）
前記特徴融合ニューラルネットワークは、変位推定ニューラルネットワーク、第５変換ニューラルネットワークを含み、
前記検出モジュールは、
前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して連結処理を行い、第５連結特徴行列を得ることと、
前記第５連結特徴行列を前記変位推定ニューラルネットワークに入力し、事前決定された複数組のキーポイントペアに対して変位推定を行い、各組のキーポイントペアのうちの１つのキーポイントがもう１つのキーポイントまでに移動する変位情報を得て、各組のキーポイントペアのうちの各キーポイントをそれぞれ現在のキーポイントとし、該現在のキーポイントのペアであるもう１つのキーポイントに対応する三次元特徴行列から、前記ペアであるもう１つのキーポイントに対応する二次元特徴行列を得ることと、
前記ペアであるもう１つのキーポイントから前記現在のキーポイントまでの変位情報に基づいて、前記ペアであるもう１つのキーポイントに対応する二次元特徴行列における要素に対して位置変換を行い、該現在のキーポイントに対応する変位特徴行列を得ることと、
各骨格キーポイントについて、該骨格キーポイントに対応する二次元特徴行列と、該骨格キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該骨格キーポイントの連結二次元特徴行列を得て、該骨格キーポイントの連結二次元特徴行列を前記第５変換ニューラルネットワークに入力し、該骨格キーポイントに対応するターゲット二次元特徴行列を得て、各骨格キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第２ターゲット骨格特徴行列を生成することと、
各輪郭キーポイントについて、該輪郭キーポイントに対応する二次元特徴行列と、該輪郭キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該輪郭キーポイントの連結二次元特徴行列を得て、該輪郭キーポイントの連結二次元特徴行列を前記第５変換ニューラルネットワークに入力し、該輪郭キーポイントに対応するターゲット二次元特徴行列を得て、各輪郭キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第２ターゲット輪郭特徴行列を生成することと、を実行する、
という方式で、特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得るように構成されることを特徴とする
項目２４に記載の人体検出装置。
（項目３０）
前記人体検出装置の人体検出機能は、人体検出モデルにより実現され、前記人体検出モデルは、前記第１特徴抽出ネットワーク及び／又は前記特徴融合ニューラルネットワークを含み、
前記人体検出モデルは、訓練サンプル集合におけるサンプル画像を利用して訓練されたものであり、前記サンプル画像に、人体骨格構造の骨格キーポイントの実際の位置情報、及び人体輪郭の輪郭キーポイントの実際の位置情報がラベル付けされていることを特徴とする
項目１６から２９のいずれか一項に記載の人体検出装置。
（項目３１）
コンピュータ機器であって、プロセッサと、非一時的記憶媒体と、バスと、を備え、前記非一時的記憶媒体に、前記プロセッサによる実行可能な機器可読命令が記憶されており、コンピュータ機器が実行される場合、前記プロセッサと前記非一時的記憶媒体は、バスを介して通信し、前記機器可読命令は、前記プロセッサにより実行され、項目１から１５のいずれか一項に記載の方法のステップを実行することを特徴とする、コンピュータ機器。
（項目３２）
コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行され、項目１から１５のいずれか一項に記載の方法のステップを実行することを特徴とする、コンピュータ可読記憶媒体。

【発明の効果】

【0040】

本願の実施例は、検出対象画像から、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定し、骨格キーポイントの位置情報、及び輪郭キーポイントの位置情報に基づいて、人体検出結果を生成する。表現精細度の向上と演算データ量を両立させる。

【0041】

本願の上記目的、特徴及び利点を明確かつ分かりやすくするために、以下、好適な実施例を挙げて、添付図面を参照しながら、以下のように、詳しく説明する。

【図面の簡単な説明】

【0042】

【図1】本願の実施例による人体検出方法を示すフローチャートである。

【図2a】本願の実施例による輪郭キーポイント及び骨格キーポイントの位置の例を示す。

【図2b】本願の実施例による主輪郭キーポイント及び補助輪郭キーポイントの位置の例を示す。

【図2c】本願の実施例によるもう１つの主輪郭キーポイント及び補助輪郭キーポイントの位置の例を示す。

【図2d】本願の実施例によるもう１つの主輪郭キーポイント及び補助輪郭キーポイントの位置の例を示す。

【図3】本願の実施例による第１特徴抽出ネットワークの構造を示す概略図である。

【図4】本願の実施例による特徴抽出方法を示すフローチャートである。

【図5】本願の実施例による特徴融合ネットワークの構造を示す概略図である。

【図6】本願の実施例による特徴融合方法を示すフローチャートである。

【図7】本願の実施例によるもう１つの特徴融合ネットワークの構造を示す概略図である。

【図8】本願の実施例によるもう１つの特徴融合方法を示すフローチャートである。

【図9a】本願の実施例による散乱畳み込み演算子を用いて反復更新を行う過程を示す概略図である。

【図9b】本願の実施例による集約畳み込み演算子を用いて反復更新を行う過程を示す概略図である。

【図10】本願の実施例によるもう１つの特徴融合ネットワークの構造を示す概略図である。

【図11】本願の実施例によるもう１つの特徴融合方法を示すフローチャートである。

【図12】本願の実施例による骨格キーポイント及び輪郭キーポイントの例を示す。

【図13】本願の実施例による二次元特徴行列における要素に対する変位変換の具体的な例を示す。

【図14】本願の実施例による第２特徴抽出ネットワークの構造を示す概略図である。

【図15】本願の実施例による人体検出装置を示す概略図である。

【図16】本願の実施例によるコンピュータ機器を示す概略図である。

【0043】

本願の実施例の技術的解決手段をより明確に説明するために、以下、実施例に必要な図面を簡単に説明する。下記図面は、説明のみの目的で本願の幾つかの実施形態を図示しており、本願を制限するものではないことが理解されるべきである。当業者は、創造的労働を行わない前提で、これらの図面に基づいてその他の関連する図面を得ることもできる。図面において、同一又は類似した符号は、同一の要素又は均等な要素を表す。１つの符号が１つの図面において定義されていると、後続の図面において、これに対して定義及び説明を行う必要がない。

【発明を実施するための形態】

【0044】

本願の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本願の実施例における図面を参照しながら、本願の実施例における具体的な技術的解決手段をを明瞭かつ完全に説明する。勿論、記述される実施例は、全ての実施例ではなく、ただ本出願の一部の実施例である。一般的には、図面に説明されて示されている本願の実施例のユニットは、多岐にわたる異なる構成で配置及び設計することができる。従って、図面を参照しながら提供される本願の実施例の下記詳細な説明は、特許請求されている本願の範囲を限定するものではなく、本願の実施例を示すためのものに過ぎない。本願の実施例に基づいて、当業者が創造的な労力なしに得られる他の実施例の全ては、本願の保護の範囲に含まれる。

【0045】

検討によれば、人体検出を行う時に、一般的には、骨格キーポイント検出法及びセマンティックセグメンテーション法という２つの方式がある。

【0046】

骨格キーポイント検出法について、該方法において、ニューラルネットワークモデルにより、画像から、人体の骨格キーポイントを抽出し、骨格キーポイントに基づいて、対応する人体検出結果を得る。該人体検出方法において、簡略な人体表現方法を用いるため、データ量がより少ない。従って、該方法で得られた人体検出結果に基づいて他の後続処理を行う場合、必要な演算量も少ない。例えば、挙動検出、人体姿勢に基づいたマンマシンインタラクションなどのような人体姿勢、動作認識などの分野に広く適用される。しかし、該方法は、人体の輪郭情報を抽出できないため、得られた人体検出結果の表現精細度が低い。

【0047】

セマンティックセグメンテーション法について、該方法において、セマンティックセグメンテーションモデルにより、画像における各画素点が人体に属する確率を識別し、画像における各画素点が人体に属する確率に基づいて、人体検出結果を得ることができるが、該人体検出方法によれば、人体の輪郭情報を完全に得ることができるが、人体認識結果に含まれる演算データ量が大きい。

【0048】

従って、表現精細度と演算データ量を両立させることができる早急に解決しなければならない課題である。

【0049】

上記検討によれば、本願は、人体検出方法、装置、コンピュータ機器及び記憶媒体を提供し、検出対象画像に対して特徴抽出を行い、人体の骨格特徴及び輪郭特徴を得て、抽出して得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、それによって、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を得ることができる。該方法で得られた人体検出結果は、データ量がより少なく、人体の骨格特徴及び輪郭特徴を反映すると共に、表現精細度の向上も実現させる。

【0050】

また、本願の実施例において、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を用いて、人体検出結果を得るため、人体を表す情報がより豊富であり、適用シーンがより広い。

【0051】

従来の人体検出方式における欠点に対して、繰り返した実践及び鋭意検討を行う必要がある。従って、既存の課題のマイニング及び本願で提供される解決手段は、いずれも本願の範囲内に含まれる。

【0052】

以下、本願の実施例による人体検出方法を詳しく説明する。該人体検出方法は、例えば、コンピュータのような、データ処理能力を有するいかなる装置に適用可能である。

【0053】

図１は、本願の実施例による人体検出方法を示すフローチャートである。ここで、
Ｓ１０１において、検出対象画像を取得する。

【0054】

Ｓ１０２において、検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定する。

【0055】

Ｓ１０３において、骨格キーポイントの位置情報、及び輪郭キーポイントの位置情報に基づいて、人体検出結果を生成する。

【0056】

以下、上記Ｓ１０１～Ｓ１０３についてそれぞれ説明する。

【0057】

Ｉ：上記Ｓ１０１において、検出対象画像は、例えば、ターゲット位置に取り付けられたカメラにより撮られた検出対象画像、ほかのコンピュータ機器から送信された検出対象画像、ローカルデータベースから読み出された事前記憶した検出対象画像等であってもよい。検出対象画像には、人体画像が含まれてもよく、人体画像が含まれなくてもよい。検出対象画像に人体画像が含まれる場合、本願の実施例で提供される人体検出方法により、最終的な人体検出結果を得ることができる。検出対象画像に人体画像が含まれない場合、得られた人体検出結果は、例えば、殻である。

【0058】

ＩＩ：上記Ｓ１０２において、図２ａに示すように、骨格キーポイントは、人体の骨格特徴を表すために用いられる。該骨格特徴は、人体の関節部位の特徴を含む。関節は、例えば、肘関節、手首関節、肩関節、頸関節、股関節、膝関節、足首関節等である。例示的には、人体の頭部に骨格キーポイントを設けてもよい。

【0059】

輪郭キーポイントは、人体の輪郭特徴を表すために用いられる。それは、図２ａに示すように、主輪郭キーポイントを含んでもよく、又は図２ｂ～図２ｄに示すように、主輪郭キーポイント及び補助輪郭キーポイントを含んでもよい。ここで、図２ｂ～図２ｄは、図２ａにおける枠内の部位の部分図である。

【0060】

ここで、主輪郭キーポイントは、人体関節部位輪郭を示すための輪郭キーポイントであり、図２ａに示すように、例えば、肘関節の輪郭、手首関節の輪郭、肩関節の輪郭、頸関節の輪郭、股関節の輪郭、膝関節の輪郭、足首関節の輪郭などが挙げられる。それは、一般的には、対応する関節部位の骨格キーポイントに対応する。

【0061】

補助輪郭キーポイントは、人体関節部位間の輪郭を示すための輪郭キーポイントである。２つの隣接する主輪郭キーポイント間の補助輪郭キーポイントは、少なくとも１つがある。例えば、図２ｂに示す例において、２つの主輪郭キーポイント間の補助輪郭キーポイントは、１つである。図２ｃに示す例において、２つの主輪郭キーポイント間の補助輪郭キーポイントは、２つがある。図２ｄに示す例において、２つの主輪郭キーポイント間の補助輪郭キーポイントは、３つがある。

【0062】

上記図面及び記述的説明に係る骨格キーポイント及び輪郭キーポイントは、本願を理解しやすくするための例だけである。実際の適用において、実際のシーンに応じて骨格キーポイント及び輪郭キーポイントの数及び位置を適当に調整することができる。本願は、これを限定するものではない。

【0063】

輪郭キーポイントが主輪郭キーポイント及び補助輪郭キーポイントを含む場合について、下記方式で、検出対象画像に基づいて、人体輪郭を示すための輪郭キーポイントの位置情報を決定することができる。

【0064】

検出対象画像に基づいて、主輪郭キーポイントの位置情報を決定し、主輪郭キーポイントの位置情報に基づいて、人体輪郭情報を決定し、決定された人体輪郭情報に基づいて、複数の補助輪郭キーポイントの位置情報を決定する。

【0065】

輪郭キーポイントが主輪郭キーポイントを含む場合、検出対象画像に基づいて、主輪郭キーポイントの位置情報を直接的に決定すればよい。

【0066】

本願の実施例は、検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定する具体的な方法を提供する。

【0067】

検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、特徴融合結果に基づいて、骨格キーポイントの位置情報、及び輪郭キーポイントの位置情報を決定する。

【0068】

検出対象画像に基づいて、骨格特徴及び輪郭特徴を抽出する時に、下記Ａ又はＢのうちのいずれか１つを用いてもよいが、これらに限定されない。

【0069】

Ａにおいて、検出対象画像に対して、一回の特徴抽出を行い、該特徴抽出で得られた骨格特徴及び輪郭特徴に対して特徴融合を行う。

【0070】

Ｂにおいて、検出対象画像に対して、複数回の特徴抽出を行い、毎回の特徴抽出を行った後、該特徴抽出で得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、最終回の特徴融合の特徴融合結果に基づいて、骨格キーポイントの位置情報、及び輪郭キーポイントの位置情報を決定する。

【0071】

以下、まずＡを具体的に説明する。

【0072】

Ａの場合、該特徴融合の特徴融合結果に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報及び人体輪郭を示すための輪郭キーポイントの位置情報を決定する。

【0073】

以下、ａ１及びａ２において、特徴抽出過程及び特徴融合過程をそれぞれ説明する。

【0074】

ａ１：特徴抽出過程：
事前訓練された第１特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第１ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第１ターゲット輪郭特徴行列を抽出することができる。

【0075】

具体的には、図３に示すように、本願の実施例は、第１特徴抽出ネットワークの構造を示す概略図を提供する。第１特徴抽出ネットワークは、共通特徴抽出ネットワーク、第１骨格特徴抽出ネットワーク及び第１輪郭特徴抽出ネットワークを含む。

【0076】

図４に示すように、本願の実施例は、図３で提供される第１特徴抽出ネットワークにより、検出対象画像から、第１ターゲット骨格特徴行列及び第１ターゲット輪郭特徴行列を抽出する具体的な過程を更に提供する。それは、下記ステップを含む。

【0077】

Ｓ４０１において、共通特徴抽出ネットワークを用いて、検出対象画像に対して畳み込み処理を行い、骨格特徴及び輪郭特徴を含む基礎特徴行列を得る。

【0078】

具体的な実施において、検出対象画像は、画像行列として表すことが可能である。検出対象画像は、例えば、グレースケール画像のような単一色チャネル画像である場合、二次元画像行列として表れることが可能である。二次元画像行列における各要素は、検出対象画像の画素点に一対一に対応する。二次元画像行列における各要素の値は、各要素に対応する画素点の画素値である。検出対象画像は、例えば、ＲＧＢ形式の画像のような多色チャネル画像である場合、三次元画像行列として表れることが可能である。三次元画像行列において、異なる色（例えば、Ｒ、Ｇ、Ｂ）チャネルに一対一に対応する３つの二次元画像行列が含まれる。いずれか１つの二次元画像行列における各要素の値は、対応する色チャネルでの、各要素に対応する画素点の画素値である。

【0079】

共通特徴抽出ネットワークは、少なくとも１つの畳み込み層を含む。検出対象画像の画像行列を共通特徴抽出ネットワークに入力した後、共通特徴抽出ネットワークを用いて検出対象画像の画像行列に対して畳み込み処理を行い、検出対象画像における特徴を抽出する。この場合において、抽出された特徴は、骨格特徴を含むだけでなく、輪郭特徴も含む。

【0080】

Ｓ４０２において、第１骨格特徴抽出ネットワークを用いて、基礎特徴行列に対して畳み込み処理を行い、第１骨格特徴行列を得て、前記第１骨格特徴抽出ネットワークにおける第１ターゲット畳み込み層から、第２骨格特徴行列を取得し、第１骨格特徴行列及び第２骨格特徴行列に基づいて、第１ターゲット骨格特徴行列を得て、第１ターゲット畳み込み層は、第１骨格特徴抽出ネットワークにおける、最後の１つの畳み込み層以外のいずれか１つの畳み込み層である。

【0081】

具体的な実施において、第１骨格特徴抽出ネットワークは、複数の畳み込み層を含む。複数の畳み込み層は、順に接続され、下位層の畳み込み層の入力は、上位層の畳み込み層の出力である。このような構造を有する第１骨格特徴抽出ネットワークは、基礎特徴行列に対して複数回の畳み込み処理を行い、最後の畳み込み層から、第１骨格特徴行列を得ることができる。ここで、第１骨格特徴行列は、三次元特徴行列であり、該三次元特徴行列において、複数の二次元特徴行列が含まれ、且つ、各二次元特徴行列は、事前決定された複数の骨格キーポイントに一対一に対応する。１つの骨格キーポイントに対応する二次元特徴行列における要素の値は、該要素に対応する画素点が該骨格キーポイントに属する確率を表し、１つの要素に対応する画素点は、一般的には複数である。

【0082】

また、複数の畳み込み層により、基礎特徴行列に対して複数回の畳み込み処理を行うことで、基礎特徴行列から、人体の骨格特徴を抽出できるが、畳み込み回数の増加に伴い、検出対象画像におけるいくつかの情報が損失される。これらの情報には、人体の骨格特徴に関わる情報が含まれる可能性がある。検出対象画像における損失された情報が多すぎると、最終的に得られた、人体骨格特徴を示すための骨格キーポイントの第１ターゲット骨格特徴行列は、十分に正確でないことがある。従って、本願の実施例において、また、第１骨格特徴抽出ネットワークの第１ターゲット畳み込み層から、第２骨格特徴行列を取得し、第１骨格特徴行列及び第２骨格特徴行列に基づいて、第１ターゲット骨格特徴行列を得る。

【0083】

ここで、第１ターゲット畳み込み層は、第１骨格特徴抽出ネットワークにおける、最後の１つの畳み込み層以外のいずれか１つの畳み込み層である。図３の例において、第１骨格特徴抽出ネットワークにおける最後から二番目の畳み込み層は、第１ターゲット畳み込み層として選ばれる。

【0084】

例えば、下記方式で、第１骨格特徴行列及び第２骨格特徴行列に基づいて、第１ターゲット骨格特徴行列を得ることができる。

【0085】

第１骨格特徴行列及び第２骨格特徴行列に対して連結処理を行い、第１連結骨格特徴行列を得て、第１連結骨格特徴行列を次元変換処理し、第１ターゲット骨格特徴行列を得る。

【0086】

ここで、第１連結骨格特徴行列に対して次元変換処理を行う場合、それを次元変換ニューラルネットワークに入力し、該次元変換ニューラルネットワークを用いて、第１連結骨格特徴行列に対して少なくとも１回の畳み込み処理を行い、第１ターゲット骨格特徴行列を得る。

【0087】

ここで、次元変換ニューラルネットワークは、第１骨格特徴行列及び第２骨格特徴行列における特徴信息を融合し、それによって、得られた第１ターゲット骨格特徴行列に、より豊富な情報を包含させることができる。

【0088】

Ｓ４０３において、第１輪郭特徴抽出ネットワークを用いて、基礎特徴行列に対して畳み込み処理を行い、第１輪郭特徴行列を得て、第１輪郭特徴抽出ネットワークにおける第２ターゲット畳み込み層から、第２輪郭特徴行列を取得し、第１輪郭特徴行列及び第２輪郭特徴行列に基づいて、第１ターゲット輪郭特徴行列を得て、第２ターゲット畳み込み層は、第１輪郭特徴抽出ネットワークにおける、最後の１つの畳み込み層以外のいずれか１つの畳み込み層である。図３の例において、第１輪郭特徴抽出ネットワークにおける最後から二番目の畳み込み層は、第２ターゲット畳み込み層として選ばれる。

【0089】

具体的な実施において、第１輪郭特徴抽出ネットワークも複数の畳み込み層を含む。複数の畳み込み層は、順に接続され、下位層の畳み込み層の入力は、上位層の畳み込み層の出力である。このような構造を有する第１輪郭特徴抽出ネットワークは、基礎特徴行列に対して複数回の畳み込み処理を行い、最後の畳み込み層から、第１輪郭特徴行列を得ることができる。ここで、第１輪郭特徴行列は、三次元特徴行列である。該三次元特徴行列において、複数の二次元特徴行列が含まれ、且つ、各二次元特徴行列は、事前決定された複数の輪郭キーポイントに一対一に対応する。１つの輪郭キーポイントに対応する二次元特徴行列における要素の値は、該要素に対応する画素点が該輪郭キーポイントに属する確率を表し、１つの要素に対応する画素点は、一般的には複数である。

【0090】

ここで、輪郭キーポイントの数は、一般的には、骨格キーポイントの数と異なる。従って、得られた第１輪郭特徴行列に含まれる二次元特徴行列の数は、第１骨格特徴行列に含まれる二次元特徴行列の数と異なってもよいことに留意されたい。

【0091】

例えば、骨格キーポイントの数が１４個であり、輪郭キーポイントの数が２５個である場合、第１輪郭特徴行列に含まれる二次元特徴行列の数は、２５個であり、第１骨格特徴行列に含まれる二次元特徴行列の数は、１４個である。

【0092】

また、第１ターゲット輪郭特徴行列にもより豊富な情報を包含させるために、上記Ｓ４０２と類似した方式で、第１輪郭特徴抽出ネットワークにおける第２ターゲット畳み込み層から第２輪郭特徴行列を取得し、続いて、第１輪郭特徴行列及び第２輪郭特徴行列に基づいて、第１ターゲット輪郭特徴行列を得ることができる。

【0093】

ここで、第１輪郭特徴行列及び第２輪郭特徴行列に基づいて、第１ターゲット輪郭特徴行列を得る方式は、例えば、
第１輪郭特徴行列及び第２輪郭特徴行列に対して連結処理を行い、第１連結輪郭特徴行列を得て、第１連結輪郭特徴行列に対して次元変換処理を行い、第１ターゲット輪郭特徴行列を得ることを含む。

【0094】

上記Ｓ４０２及びＳ４０３において、第１ターゲット骨格特徴行列の次元は、第１ターゲット輪郭特徴行列の次元と同じであり、且つ同一の次元での、第１ターゲット骨格特徴行列と第１ターゲット輪郭特徴行列の次元数は同じであり、それによって、後続で第１ターゲット骨格特徴行列と第１ターゲット輪郭特徴行列に基づいて特徴融合処理を行うことを容易にすることに留意されたい。

【0095】

例えば、第１ターゲット骨格特徴行列の次元が３であり、且つ各次元の次元数は、それぞれ６４、３２及び１４である場合、該第１ターゲット骨格特徴行列の次元数は、６４＊３２＊１４として表れてもよく、第１ターゲット輪郭特徴行列の次元数も６４＊３２＊１４として表れてもよい。

【0096】

また、もう１つの実施例において、下記方式で、第１ターゲット骨格特徴行列及び第１ターゲット輪郭特徴行列を得ることもできる。

【0097】

共通特徴抽出ネットワークを用いて、検出対象画像に対して畳み込み処理を行い、骨格特徴及び輪郭特徴を含む基礎特徴行列を得て、
第１骨格特徴抽出ネットワークを用いて、基礎特徴行列に対して畳み込み処理を行い、第１骨格特徴行列を得て、第１骨格特徴行列に対して次元変換処理を行い、第１ターゲット骨格特徴行列を得て、
第１輪郭特徴抽出ネットワークを用いて、基礎特徴行列に対して畳み込み処理を行い、第１輪郭特徴行列を得て、第１輪郭特徴行列に対して次元変換処理を行い、第１ターゲット輪郭特徴行列を得る。

【0098】

該方式において、高い精度で、人体の骨格特徴及び輪郭特徴を検出対象画像から抽出することもできる。

【0099】

また、本願の実施例で提供される第１特徴抽出ネットワークは、事前訓練されたものである。

【0100】

ここで、本願の実施例で提供される人体検出方法は、人体検出モデルにより実現され、人体検出モデルは、第１特徴抽出ネットワーク及び／又は特徴融合ニューラルネットワークを含み、
人体検出モデルは、訓練サンプル集合におけるサンプル画像を利用して訓練されたものであり、サンプル画像に、人体骨格構造の骨格キーポイントの実際の位置情報、及び人体輪郭の輪郭キーポイントの実際の位置情報がラベル付けされている。

【0101】

具体的には、人体検出モデルに第１特徴抽出ネットワークが含まれる場合について、第１特徴抽出ネットワークは、単独で訓練されてもよく、特徴融合ニューラルネットワークと共に共同訓練されてもよく、単独訓練と共同訓練を組み合わせてもよい。

【0102】

訓練により第１特徴抽出ネットワークを得る過程は、下記（１）及び（２）を含むが、これらに限定されない。

【0103】

（１）第１特徴抽出ネットワークに対して単独訓練を行うことは、例えば、以下を含む。

【0104】

ステップ１．１において、複数枚のサンプル画像、及び各サンプル画像のラベル付きデータを取得し、ラベル付きデータは、人体骨格構造を示すための骨格キーポイントの実際の位置情報、及び人体輪郭を示すための輪郭キーポイントの実際の位置情報を含む。

【0105】

ステップ１．２において、複数枚のサンプル画像を第１基礎特徴抽出ネットワークに入力し、第１サンプルターゲット骨格特徴行列及び第１サンプルターゲット輪郭特徴行列を得る。

【0106】

ステップ１．３において、第１サンプルターゲット骨格特徴行列に基づいて、骨格キーポイントの第１予測位置情報を決定し、第１サンプルターゲット輪郭特徴行列に基づいて、輪郭キーポイントの第１予測位置情報を決定する。

【0107】

ステップ１．４において、骨格キーポイントの実際の位置情報及び骨格キーポイントの第１予測位置情報に基づいて、第１損失を決定し、輪郭キーポイントの実際の位置情報及び輪郭キーポイントの第１予測位置情報に基づいて、第２損失を決定する。

【0108】

ステップ１．５において、第１損失及び第２損失に基づいて、第１基礎特徴抽出ネットワークに対して今回の訓練を行う。

【0109】

第１基礎特徴抽出ネットワークに対して複数回の訓練を行うことで、第１特徴抽出ネットワークを得る。

【0110】

図３に示すように、第１損失は、図３におけるＬＳ１であり、第２損失は、図３におけるＬＣ１である。第１損失及び第２損失に基づいて、第１基礎特徴抽出ネットワークの訓練を行い、精度の高い第１特徴抽出ネットワークを得る。

【0111】

（２）第１特徴抽出ネットワーク及び特徴融合ニューラルネットワークを共同訓練することは、例えば、以下を含む。

【0112】

ステップ２．１において、複数枚のサンプル画像及び各サンプル画像のラベル付きデータを得て、ラベル付きデータは、人体骨格構造を示すための骨格キーポイントの実際の位置情報及び人体輪郭を示すための輪郭キーポイントの実際の位置情報を含む。

【0113】

ステップ２．２において、複数枚のサンプル画像を第１基礎特徴抽出ネットワークに入力し、第１サンプルターゲット骨格特徴行列及び第１サンプルターゲット輪郭特徴行列を得る。

【0114】

ステップ２．３において、基礎特徴融合ニューラルネットワークを用いて、第１サンプルターゲット骨格特徴行列及び第１サンプルターゲット輪郭特徴行列に対して特徴融合を行い、第２サンプルターゲット骨格特徴行列及び第２サンプルターゲット輪郭特徴行列を得る。

【0115】

ステップ２．４において、第２サンプルターゲット骨格特徴行列に基づいて、骨格キーポイントの第２予測位置情報を決定し、第２サンプルターゲット輪郭特徴行列に基づいて、輪郭キーポイントの第２予測位置情報を決定する。

【0116】

ステップ２．５において、骨格キーポイントの実際の位置情報及び骨格キーポイントの第２予測位置情報に基づいて、第３損失を決定し、輪郭キーポイントの実際の位置情報及び輪郭キーポイントの第２予測位置情報に基づいて、第４損失を決定する。

【0117】

ステップ２．６において、第３損失及び第４損失に基づいて、第１基礎特徴抽出ネットワーク及び基礎特徴融合ニューラルネットワークに対して、今回の訓練を行う。

【0118】

第１基礎畳み込みニューラルネットワーク及び基礎特徴融合ニューラルネットワークに対して複数回の訓練を行うことで、第１特徴抽出ネットワーク及び特徴融合ニューラルネットワークを得る。

【0119】

（３）単独訓練と共同訓練を組み合わせて第１特徴抽出ネットワークを得る過程において、上記（１）及び（２）におけるプロセスにより同期して訓練を行うことができる。

【0120】

又は、まず、（１）におけるプロセスにより、第１特徴抽出ネットワークを事前訓練し、事前訓練された第１特徴抽出ネットワークと特徴融合ニューラルネットワークに対して、上記（２）における共同訓練を行うこともできる。

【0121】

第１特徴抽出ネットワークに対して単独訓練と共同訓練を行う場合に用いられる画像は、同じであっても異なってもよいことに留意されたい。

【0122】

第１特徴抽出ネットワーク及び特徴融合ニューラルネットワークを共同訓練する前に、まず、特徴融合ニューラルネットワークを事前訓練し、事前訓練された特徴融合ニューラルネットワークを第１特徴抽出ネットワークと共に共同訓練することもできる。

【0123】

特徴融合ニューラルネットワークに対して単独訓練を行う詳細な過程は、下記ａ２に示す実施例に関する説明を参照することができる。

【0124】

ａ２：特徴融合過程：
人体骨格特徴を示すための骨格キーポイントの第１ターゲット骨格特徴行列及び人体輪郭特徴を示すための輪郭キーポイントの第１ターゲット輪郭特徴行列を得た後、第１ターゲット骨格特徴行列及び第１ターゲット輪郭特徴行列に基づいて、特徴融合処理を行うことができる。

【0125】

具体的には、検出対象画像に基づいて、骨格特徴及び輪郭特徴を抽出する過程において、用いられる基礎行列が同一であるが、第１骨格特徴抽出ネットワークは、基礎特徴行列から骨格特徴を抽出し、それに対して、第１輪郭特徴抽出ネットワークは、基礎特徴行列から輪郭特徴を抽出する。２つの過程は相互独立して存在する。しかしながら、同一の人体は、輪郭特徴と骨格特徴が、相互関連付けられている。輪郭特徴と骨格特徴を融合させる目的は、骨格特徴と輪郭特徴との相互作用関係を利用することである。例えば、輪郭特徴に基づいて、最終的に抽出された骨格キーポイントの位置情報を修正し、骨格特徴に基づいて、最終的に抽出された輪郭キーポイントの位置情報を修正することで、更に、より正確な骨格キーポイントの位置情報及び輪郭キーポイントの位置情報を得て、精度のより高い人体検出結果を得る。

【0126】

本願の実施例は、抽出して得られた骨格特徴及び輪郭特徴に対して特徴融合を行うための具体的な方法を提供する。前記方法は、事前訓練された特徴融合ニューラルネットワークを用いて、第１ターゲット骨格特徴行列及び第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得ることを含む。

【0127】

ここで、第２ターゲット骨格特徴行列は、三次元骨格特徴行列であり、該三次元骨格特徴行列は、各骨格キーポイントにそれぞれ対応する二次元骨格特徴行列を含み、二次元骨格特徴行列における各要素の値は、該要素に対応する画素点が対応する骨格キーポイント（即ち、該二次元骨格特徴行列に対応する骨格キーポイント）に属する確率を表す。第２ターゲット輪郭特徴行列は、三次元輪郭特徴行列であり、該三次元輪郭特徴行列は、各輪郭キーポイントにそれぞれ対応する二次元輪郭特徴行列を含み、二次元輪郭特徴行列における各要素の値は、該要素に対応する画素点が、対応する輪郭キーポイントに属する確率を表す。

【0128】

本願の実施例で提供される特徴融合ニューラルネットワークは、単独訓練されてもよく、第１特徴抽出ネットワークと共に共同訓練されてもよく、単独訓練と共同訓練を組み合わせてもよい。

【0129】

特徴融合ニューラルネットワークと第１特徴抽出ネットワークを共同訓練する過程は、上記（２）を参照することができる。ここで、詳細な説明を省略する。

【0130】

構造の異なる特徴融合ニューラルネットワークに対して単独訓練を行う場合、用いられる訓練方法も異なる。構造の異なる特徴融合ニューラルネットワークの訓練方法は、下記Ｍ１～Ｍ３を参照することができる。

【0131】

骨格特徴及び輪郭特徴に対して特徴融合を行う過程は、下記Ｍ１～Ｍ３のうちの少なくとも１つを含んでもよく、これらに限定されない。

【0132】

Ｍ１：
図５に示すように、本願の実施例は、特徴融合ニューラルネットワークの具体的な構造を提供する。該構造は、第１畳み込みニューラルネットワーク、第２畳み込みニューラルネットワーク、第１変換ニューラルネットワーク、及び第２変換ニューラルネットワークを含む。

【0133】

図６に示すように、本願の実施例は、図５で提供される特徴融合ニューラルネットワークに基づいて、第１ターゲット骨格特徴行列及び第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得るための具体的な方法を更に提供する。前記方法は、下記ステップを含む。

【0134】

Ｓ６０１において、第１畳み込みニューラルネットワークを用いて、第１ターゲット骨格特徴行列に対して畳み込み処理を行い、第１中間骨格特徴行列を得る。Ｓ６０３を実行する。

【0135】

ここで、第１畳み込みニューラルネットワークは、少なくとも１つの畳み込み層を含む。第１畳み込みニューラルネットワークは、複数層を含む場合、複数の畳み込み層は、順次接続される。該層の畳み込み層の入力は、上位層の畳み込み層の出力である。第１ターゲット骨格特徴行列を第１畳み込みニューラルネットワークに入力し、各畳み込み層を用いて、第１ターゲット骨格特徴行列に対して畳み込み処理を行い、第１中間骨格特徴行列を得る。

【0136】

該過程は、骨格特徴を第１ターゲット骨格特徴行列から更に抽出するためのものである。

【0137】

Ｓ６０２において、第２畳み込みニューラルネットワークを用いて、第１ターゲット輪郭特徴行列に対して畳み込み処理を行い、第１中間輪郭特徴行列を得る。Ｓ６０４を実行する。

【0138】

ここで、該処理過程は、上記Ｓ６０１と同様であり、ここで、詳細な説明を省略する。

【0139】

Ｓ６０１とＳ６０２の実行には、順序がないことに留意されたい。同期して実行してもよく、非同期で実行してもよい。

【0140】

Ｓ６０３において、第１中間輪郭特徴行列と第１ターゲット骨格特徴行列に対して連結処理を行い、第１連結特徴行列を得て、第１変換ニューラルネットワークを用いて、第１連結特徴行列に対して次元変換を行い、第２ターゲット骨格特徴行列を得る。

【0141】

ここで、第１中間輪郭特徴行列と第１ターゲット骨格特徴行列に対して連結処理を行い、第１連結特徴行列を得る。得られた第１連結特徴行列に、輪郭特徴が含まれるだけでなく、骨格特徴も含まれる。

【0142】

第１変換ニューラルネットワークを用いて、第１連結行列に対して更に次元変換を行うことは、実際に、第１変換ニューラルネットワークを用いて、再び、第１連結特徴行列から骨格特徴を抽出することである。第１連結特徴行列を得る過程において、検出対象画像における骨格特徴及び輪郭特徴以外の他の特徴が除去されており、骨格特徴及び輪郭特徴のみが含まれるため、第１連結特徴行列に基づいて得られた第２ターゲット骨格特徴行列に含まれる骨格特徴は、輪郭特徴による影響を受けており、それによって骨格特徴と輪郭特徴を関連付けることができ、骨格特徴と輪郭特徴の融合を実現させることができる。

【0143】

Ｓ６０４において、第１中間骨格特徴行列と第１ターゲット輪郭特徴行列に対して連結処理を行い、第２連結特徴行列を得て、第２変換ニューラルネットワークを用いて、第２連結特徴行列に対して次元変換を行い、第２ターゲット輪郭特徴行列を得る。

【0144】

ここで、第１中間骨格特徴行列と第１ターゲット輪郭特徴行列に対して連結処理を行い、第２連結特徴行列を得る過程は、上記Ｓ６０２における第１連結特徴行列を得る過程と同様であり、ここで、詳細な説明を省略する。

【0145】

同様に、第２ターゲット輪郭特徴行列に含まれる輪郭特徴は、骨格特徴による影響を受けており、それによって骨格特徴と輪郭特徴を関連付け、骨格特徴と輪郭特徴の融合を実現させる。

【0146】

もう１つの実施例において、下記方式で、特徴融合ニューラルネットワークを単独訓練することができる。

【0147】

ステップ３．１において、複数枚のサンプル画像の第１サンプルターゲット骨格特徴行列及び第１サンプルターゲット輪郭特徴行列を取得する。

【0148】

取得方式は、上記実施例における第１ターゲット骨格特徴行列、第１ターゲット輪郭特徴行列を取得する方式と同様であり、ここで、詳細な説明を省略する。第１特徴抽出ネットワークと共に共同訓練を行う場合に取得してもよく、事前訓練された第１特徴抽出ネットワークにより取得してもよい。

【0149】

ステップ３．２において、第１基礎畳み込みニューラルネットワークを用いて、第１サンプルターゲット骨格特徴行列に対して畳み込み処理を行い、第１サンプル中間骨格特徴行列を得る。

【0150】

ステップ３．３において、第２基礎畳み込みニューラルネットワークを用いて、第１サンプルターゲット輪郭特徴行列に対して畳み込み処理を行い、第１サンプル中間輪郭特徴行列を得る。

【0151】

ステップ３．４において、第１サンプル中間輪郭特徴行列と第１サンプルターゲット骨格特徴行列に対して連結処理を行い、第１サンプル連結特徴行列を得て、第１基礎変換ニューラルネットワークを用いて、第１サンプル連結特徴行列に対して次元変換を行い、第２サンプルターゲット骨格特徴行列を得る。

【0152】

ステップ３．５において、第１サンプル中間骨格特徴行列と第１サンプルターゲット輪郭特徴行列に対して連結処理を行い、第２サンプル連結特徴行列を得て、第２基礎変換ニューラルネットワークを用いて、第２サンプル連結特徴行列に対して、次元変換を行い、第２サンプルターゲット輪郭特徴行列を得る。

【0153】

ステップ３．６において、第２サンプルターゲット骨格特徴行列に基づいて、骨格キーポイントの第３予測位置情報を決定し、第２サンプルターゲット輪郭特徴行列に基づいて、輪郭キーポイントの第３予測位置情報を決定する。

【0154】

ステップ３．７において、骨格キーポイントの実際の位置情報及び骨格キーポイントの第３予測位置情報に基づいて、第５損失を決定し、輪郭キーポイントの実際の位置情報及び輪郭キーポイントの第３予測位置情報に基づいて、第６損失を決定する。

【0155】

ステップ３．８において、第５損失及び第６損失に基づいて、第１基礎畳み込みニューラルネットワーク、第２基礎畳み込みニューラルネットワーク、第１基礎変換ニューラルネットワーク、及び第２基礎変換ニューラルネットワークに対して今回の訓練を行う。

【0156】

第１基礎畳み込みニューラルネットワーク、第２基礎畳み込みニューラルネットワーク、第１基礎変換ニューラルネットワーク、及び第２基礎変換ニューラルネットワークに対して複数回の訓練を行うことで、特徴融合ニューラルネットワークを得る。

【0157】

ここで、第５損失は、図５におけるＬＳ２であり、第６損失は、図５におけるＬＣ２である。

【0158】

Ｍ２：
図７に示すように、本願の実施例で提供されるもう１つの特徴融合ニューラルネットワークの具体的な構造は、第１定向畳み込みニューラルネットワーク、第２定向畳み込みニューラルネットワーク、第３畳み込みニューラルネットワーク、第４畳み込みニューラルネットワーク、第３変換ニューラルネットワーク、及び第４変換ニューラルネットワークを含む。

【0159】

図８に示すように、本願の実施例は、図７で提供される特徴融合ニューラルネットワークに基づいて、第１ターゲット骨格特徴行列及び第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得るための具体的な方法を更に提供する。前記方法は、下記ステップを含む。

【0160】

Ｓ８０１において、第１定向畳み込みニューラルネットワークを用いて、第１ターゲット骨格特徴行列に対して定向畳み込み処理を行い、第１定向骨格特徴行列を得る。第３畳み込みニューラルネットワークを用いて、第１定向骨格特徴行列に対して畳み込み処理を行い、第２中間骨格特徴行列を得る。Ｓ８０４を実行する。

【0161】

Ｓ８０２において、第２定向畳み込みニューラルネットワークを用いて、第１ターゲット輪郭特徴行列に対して定向畳み込み処理を行い、第１定向輪郭特徴行列を得る。第４畳み込みニューラルネットワークを用いて、第１定向輪郭特徴行列に対して畳み込み処理を行い、第２中間輪郭特徴行列を得る。Ｓ８０３を実行する。

【0162】

Ｓ８０３において、第２中間輪郭特徴行列と第１ターゲット骨格特徴行列に対して連結処理を行い、第３連結特徴行列を得て、第３変換ニューラルネットワークを用いて、第３連結特徴行列に対して次元変換を行い、第２ターゲット骨格特徴行列を得る。

【0163】

Ｓ８０４において、第２中間骨格特徴行列と第１ターゲット輪郭特徴行列に対して連結処理を行い、第４連結特徴行列を得て、第４変換ニューラルネットワークを用いて、第４連結特徴行列に対して次元変換を行い、第２ターゲット輪郭特徴行列を得る。

【0164】

具体的に実施する場合、骨格特徴と輪郭特徴に対して特徴融合を行う過程において、骨格キーポイントは、一般的に、人体の骨格に集中しており、輪郭キーポイントは、人体の輪郭に集中しており、つまり、骨格の周囲に分布する。従って、骨格特徴及び輪郭特徴に対してそれぞれ局所的な空間変換を行う必要がある。例えば、骨格特徴を輪郭特徴の輪郭特徴行列における位置に変換し、輪郭特徴を骨格特徴の骨格特徴行列における位置に変換することで、骨格特徴及び輪郭特徴をより好適に抽出し、骨格特徴及び輪郭特徴の融合を実現させる。

【0165】

該目的を実現させるために、本願の実施例において、まず、第１定向畳み込みニューラルネットワークを用いて、第１ターゲット骨格特徴行列に対して定向畳み込み処理を行う。該定向畳み込みは、特徴面において骨格特徴の定向空間変換を効果的に実現させることができる。続いて、第３畳み込みニューラルネットワークを用いて、得られた第１定向骨格特徴行列に対して畳み込み処理を行い、第２中間骨格特徴行列を得る。この場合、第１定向畳み込み層により骨格特徴に対して定向空間変換を行ったため、骨格特徴は、実際に、輪郭特徴方向へ移動した。続いて、第２中間骨格特徴行列と第１ターゲット輪郭特徴行列に対して連結処理を行い、第４連結特徴行列を得る。第４連結特徴行列は、輪郭特徴を含むと共に、定向空間変換が行われた骨格特徴を更に含む。続いて、第４変換ニューラルネットワークを用いて、第４連結特徴行列に対して次元変換を行い、つまり、第４連結特徴行列から、再び輪郭特徴を抽出する。このような方式で得られた第２ターゲット輪郭特徴行列は、骨格特徴による影響を受けており、骨格特徴と輪郭特徴との融合を実現させる。

【0166】

同様に、本願の実施例において、まず、第２定向畳み込みニューラルネットワークを用いて、第１ターゲット輪郭特徴行列に対して定向畳み込み処理を行う。該定向畳み込みは、特徴面において輪郭特徴の定向空間変換を効果的に実現させることができる。続いて、第４畳み込みニューラルネットワークを用いて、得られた第１定向輪郭特徴行列に対して畳み込み処理を行い、第２中間輪郭特徴行列を得る。この場合、第２定向畳み込み層により輪郭特徴に対して定向空間変換を行ったため、輪郭特徴は、実際に、骨格特徴方向へ移動した。続いて、第２中間輪郭特徴行列と第１ターゲット骨格特徴行列に対して連結処理を行い、第３連結特徴行列を得る。第３連結特徴行列は、骨格特徴を含むと共に、定向空間変換が行われた輪郭特徴を更に含む。続いて、第３変換ニューラルネットワークを用いて、第３連結特徴行列に対して次元変換を行い、つまり、第３連結特徴行列から、再び骨格特徴を抽出する。このような方式で得られた第２ターゲット骨格特徴行列は、輪郭特徴による影響を受けており、骨格特徴と輪郭特徴との融合を実現させる。

【0167】

具体的には、定向畳み込みは、複数回の反復畳み込みステップからなる。効果的な定向畳み込みは下記要求を満たす。

【0168】

（１）毎回の反復畳み込みのステップにおいて、特徴行列における一組の要素の要素値のみを更新する。

【0169】

（２）最終回の反復畳み込みのステップを行った後、全ての要素の要素値は、一回のみ更新されるべきである。

【0170】

第１ターゲット骨格特徴行列に対して定向畳み込みを行うことを例として、定向畳み込み過程を実現させるために、要素の更新順序を制御するための特徴関数シーケンス

【0171】

【化1】

を定義することができる。ここで、関数Ｆ_ｋの入力は、第１ターゲット骨格特徴行列における各要素の位置であり、関数Ｆ_ｋの出力は、ｋ回目の反復における要素を更新するかどうかを表す。該出力は、１又は０であってもよい。１は、更新を表し、０は、更新しないことを表す。具体的には、ｋ回目の反復過程において、Ｆ_ｋ＝１の領域における要素の要素値のみを更新し、他の領域における要素の要素値をそのまま維持する。ｉ回目の反復の更新は、

【0172】

【化2】

で表されてもよい。

【0173】

ここで、Ｔ_０（Ｘ）＝Ｘであり、Ｘは、定向畳み込みの入力を表し、即ち、第１ターゲット骨格特徴行列である。Ｗ及びｂはそれぞれ複数回の反復過程における共通重み及び偏差を表す。

【0174】

骨格特徴と輪郭特徴の融合を実現させるために、一対の対称な定向畳み込み演算子を設定してもよい。つまり、上記特徴関数シーケンス

【0175】

【化3】

は、それぞれ、散乱畳み込み演算子

【0176】

【化4】

及び集約畳み込み演算子

【0177】

【化5】

である。ここで、散乱畳み込み演算子は、内から外へ特徴行列における要素を順次更新する。集約畳み込み演算子は、外から内へ特徴行列における要素を順次更新する。

【0178】

第１定向畳み込みニューラルネットワークを用いて、第１ターゲット骨格特徴行列に対して定向畳み込み処理を行う場合、骨格特徴元素を該要素周囲の位置（輪郭特徴に更に関わる位置）に定向空間変換する必要があるため、散乱畳み込み演算子

【0179】

【化6】

を用いる。第２定向畳み込みニューラルネットワークを用いて、第１ターゲット輪郭特徴行列に対して定向畳み込み処理を行う場合、輪郭特徴元素を輪郭特徴行列の中間位置（骨格特徴に更に関わる位置）に定向空間変換する必要があるため、集約畳み込み演算子

【0180】

【化7】

を用いる。

【0181】

具体的には、第１定向畳み込みニューラルネットワークにより、第１ターゲット骨格特徴行列に対して定向畳み込み処理を行う過程は以下のとおりである。

【0182】

第１ターゲット骨格特徴行列を複数のサブ行列に分ける。各サブ行列は、１つのグリッドと呼ばれる。ここで、第１ターゲット骨格特徴が三次元行列である場合、３つの次元の次元数は、それぞれｍ、ｎ、ｓである。従って、第１ターゲット骨格特徴行列の次元数は、ｍ＊ｎ＊ｓで表される。グリッドのサイズが５である場合、各グリッドの次元数はいずれも５＊５＊ｓで表される。

【0183】

続いて、各グリッドに対して、散乱畳み込み演算子

【0184】

【化8】

を用いて複数回の反復畳み込みを行い、ターゲットサブ行列を得る。図９ａに示すように、散乱畳み込み演算子

【0185】

【化9】

を用いて、グリッドサイズが５であるサブ行列における要素の要素値に対して２回の反復更新を行う過程を提供する。ここで、図９ａにおけるａは、初期サブ行列を表し、ｂは、一回の反復を行った後に得られたサブ行列を表し、ｃは、二回の反復を行った後に得られたサブ行列を表し、つまり、ターゲットサブ行列を表す。

【0186】

各グリッドに対応するターゲットサブ行列を連結し、第１定向骨格特徴行列を得る。

【0187】

同様に、第２定向畳み込みニューラルネットワークにより、第１ターゲット輪郭特徴行列に対して定向畳み込み処理を行う過程は以下のとおりである。

【0188】

第１ターゲット輪郭特徴行列を複数のサブ行列に分ける。各サブ行列は、１つのグリッドと呼ばれる。ここで、第１ターゲット輪郭特徴行列は三次元行列である場合、３つの次元の次元数は、それぞれｍ、ｎ、ｓである。その場合、第１ターゲット輪郭特徴行列の次元数は、ｍ＊ｎ＊ｓで表される。グリッドのサイズが５である場合、各グリッドの次元数はいずれも５＊５＊ｓで表される。

【0189】

続いて、各グリッドに対して、集約畳み込み演算子

【0190】

【化10】

を用いて複数回の反復畳み込みを行い、ターゲットサブ行列を得る。

【0191】

図９ｂに示すように、集約畳み込み演算子

【0192】

【化11】

を用いて、グリッドサイズが５であるサブ行列における要素の要素値に対して２回の反復更新を行う過程を提供する。ここで、図９ｂにおけるａは、初期サブ行列を表し、ｂは、一回の反復を行った後に得られたサブ行列を表し、ｃは、二回の反復を行った後に得られたサブ行列を表し、つまり、ターゲットサブ行列を表す。

【0193】

各グリッドに対応するターゲットサブ行列を連結し、第１定向輪郭特徴行列を得る。

【0194】

ここで、各サブ行列の反復畳み込みを並行して実行することができることに留意されたい。

【0195】

図９ａ及び図９ｂにおける例は、散乱畳み込み演算子

【0196】

【化12】

及び集約畳み込み演算子

【0197】

【化13】

を用いてサブ行列における要素の要素値を反復更新する例だけである。

【0198】

もう１つの実施例において、下記方式で、特徴融合ニューラルネットワークを単独訓練することができる。

【0199】

ステップ４．１において、複数枚のサンプル画像の第１サンプルターゲット骨格特徴行列及び第１サンプルターゲット輪郭特徴行列を取得する。

【0200】

取得方式は、上記実施例における第１ターゲット骨格特徴行列、第１ターゲット輪郭特徴行列の取得方式と同様であり、ここで詳細な説明を省略する。第１特徴抽出ネットワークと共に共同訓練する場合に取得してもよく、事前訓練された第１特徴抽出ネットワークにより取得してもよい。

【0201】

ステップ４．２において、第１基礎定向畳み込みニューラルネットワークを用いて、第１サンプルターゲット骨格特徴行列に対して定向畳み込み処理を行い、第１サンプル定向骨格特徴行列を得て、第１サンプル定向骨格特徴行列及び輪郭キーポイントの実際の位置情報を用いて、第７損失を得る。第７損失に基づいて、第１基礎定向畳み込みニューラルネットワークに対して今回の訓練を行う。

【0202】

ここで、第７損失は、図７におけるＬＣ３である。

【0203】

ここで、第１基礎定向畳み込みニューラルネットワークを用いて、第１サンプルターゲット骨格特徴行列に対して定向畳み込み処理を行う。つまり、第１サンプルターゲット骨格特徴行列に対して定向空間変換を行う。この場合、得られた第１サンプル定向骨格特徴行列で表されるキーポイントの位置情報を輪郭キーポイントの位置情報と可能な限り一致させる必要がある。従って、第１サンプル定向骨格特徴行列及び輪郭キーポイントの実際の位置情報に基づいて、第７損失を得る。第７損失を用いて、第１基礎定向畳み込みニューラルネットワークに対する訓練を行う。

【0204】

ステップ４．３において、第２基礎定向畳み込みニューラルネットワークを用いて、第１サンプルターゲット輪郭特徴行列に対して定向畳み込み処理を行い、第１サンプル定向輪郭特徴行列を得て、第１サンプル定向輪郭特徴行列及び骨格キーポイントの実際の位置情報を用いて、第８損失を得る。第８損失に基づいて、第２基礎定向畳み込みニューラルネットワークに対して今回の訓練を行う。

【0205】

ここで、第８損失は、図７におけるＬＳ３である。

【0206】

ステップ４．４において、第４基礎畳み込みニューラルネットワークを用いて、第１サンプル定向輪郭特徴行列に対して畳み込み処理を行い、第２サンプル中間輪郭特徴行列を得て、得られた第２サンプル中間輪郭特徴行列と第１サンプルターゲット骨格特徴行列に対して連結処理を行い、第３サンプル連結特徴行列を得て、第３基礎変換ニューラルネットワークを用いて、第３サンプル連結特徴行列に対して次元変換を行い、第２サンプルターゲット骨格特徴行列を得る。

【0207】

ステップ４．５において、第２サンプルターゲット骨格特徴行列に基づいて、骨格キーポイントの第４予測位置情報を決定し、骨格キーポイントの実際の位置情報及び骨格キーポイントの第４予測位置情報に基づいて、第９損失を決定する。

【0208】

ここで、第９損失は、図７におけるＬＳ４である。

【0209】

ステップ４．６において、第３基礎畳み込みニューラルネットワークを用いて、第１サンプル定向骨格特徴行列に対して畳み込み処理を行い、第２サンプル中間骨格特徴行列を得て、得られた第２サンプル中間骨格特徴行列と第１サンプルターゲット輪郭特徴行列に対して連結処理を行い、第４サンプル連結特徴行列を得て、第４基礎変換ニューラルネットワークを用いて、第４サンプル連結特徴行列に対して次元変換を行い、第２サンプルターゲット輪郭特徴行列を得る。

【0210】

ステップ４．７において、第２サンプルターゲット輪郭特徴行列に基づいて、輪郭キーポイントの第４予測位置情報を決定し、輪郭キーポイントの実際の位置情報及び輪郭キーポイントの第４予測位置情報に基づいて、第１０損失を決定する。

【0211】

ここで、第１０損失は、図７におけるＬＣ４である。

【0212】

ステップ４．８において、第９損失及び第１０損失に基づいて、第３基礎畳み込みニューラルネットワーク、第４基礎畳み込みニューラルネットワーク、第３基礎変換ニューラルネットワーク、及び第４基礎変換ニューラルネットワークに対して今回の訓練を行う。

【0213】

第１基礎定向畳み込みニューラルネットワーク、第２基礎定向畳み込みニューラルネットワーク、第３基礎畳み込みニューラルネットワーク、第４基礎畳み込みニューラルネットワーク、第３基礎変換ニューラルネットワーク、及び第４基礎変換ニューラルネットワークに対して複数回の訓練を行うことで、訓練された特徴融合ニューラルネットワークを得る。

【0214】

Ｍ３：
図１０に示すように、本願の実施例で提供されるもう１つの特徴融合ニューラルネットワークの具体的な構造は、変位推定ニューラルネットワーク、第５変換ニューラルネットワークを含む・
図１１に示すように、本願の実施例は、図１０で提供される特徴融合ニューラルネットワークに基づいて、第１ターゲット骨格特徴行列及び第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得るための具体的な方法を更に提供する。前記方法は、下記ステップを含む。

【0215】

Ｓ１１０１において、第１ターゲット骨格特徴行列と第１ターゲット輪郭特徴行列に対して連結処理を行い、第５連結特徴行列を得る。

【0216】

Ｓ１１０２において、第５連結特徴行列を変位推定ニューラルネットワークに入力し、事前決定された複数組のキーポイントペアに対して変位推定を行い、各組のキーポイントペアのうちの１つのキーポイントがもう１つのキーポイントまでに移動する変位情報を得て、ここで、各キーポイントペアのうちの２つのキーポイントの位置は、隣接し、該２つのキーポイントは、１つの骨格キーポイント及び１つの輪郭キーポイントを含むか、又は２つの骨格キーポイントを含むか、又は２つの輪郭キーポイントを含む。

【0217】

具体的な実施において、人体のために、複数の骨格キーポイント及び複数の輪郭キーポイントを事前決定する。図１２に示すように、人体のために事前決定された複数の骨格キーポイント及び輪郭キーポイントの例を提供する。該例において、骨格キーポイントは、１４個であり、図１２における大きなドットによりそれぞれ、頭頂、頸、両肩、両肘、両手首、両股、両膝、及び両足首を表す。輪郭キーポイントは、２６個であり、図１２における小さなドットで表される。人体の頭頂を示す骨格キーポイント以外、他の各骨格キーポイントは、２つの輪郭キーポイントに対応する。ここで、両股の骨格キーポイントは、同一の輪郭キーポイントに対応する。

【0218】

位置が隣接する２つのキーポイントは、１つのキーポイントペアを構成する。図１２に示すように、線分により直接的に接続した２つのキーポイントは、１つのキーポイントペアを構成する。つまり、キーポイントペアは、（骨格キーポイント、骨格キーポイント）、（輪郭キーポイント、輪郭キーポイント）、又は（骨格キーポイント、輪郭キーポイント）から構成される可能性がある。

【0219】

変位推定ニューラルネットワークは、複数の畳み込み層を含む。複数の畳み込み層は、順次接続され、第５連結特徴行列における骨格特徴及び輪郭特徴に対して特徴学習を行い、各キーポイントペアのうちの１つのキーポイントがもう１つのキーポイントまでに移動する変位情報を得るために用いられる。各キーポイントに対応する変位情報は２組である。

【0220】

例えば、キーポイントペアが（Ｐ、Ｑ）であり、Ｐ及びＱはそれぞれ１つのキーポイントを表すと、該キーポイントペアの変位情報は、ＰからＱまでに移動する変位情報、及びＱからＰまでに移動する変位情報を含む。

【0221】

各組の変位情報は、いずれも移動方向及び移動距離を含む。

【0222】

Ｓ１１０３において、各組のキーポイントペアのうちの各キーポイントをそれぞれ現在のキーポイントとして、現在のキーポイントのペアであるもう１つのキーポイントに対応する三次元特徴行列から、ペアであるもう１つのキーポイントに対応する二次元特徴行列を取得し、ペアであるもう１つのキーポイントは、骨格キーポイントである場合、該骨格キーポイントに対応する三次元特徴行列は、第１骨格特徴行列であり、ペアであるもう１つのキーポイントは、輪郭キーポイントである場合、該輪郭キーポイントに対応する三次元特徴行列は、第１輪郭特徴行列である。

【0223】

Ｓ１１０４において、ペアであるもう１つのキーポイントから現在のキーポイントまでの変位情報に基づいて、ペアであるもう１つのキーポイントに対応する二次元特徴行列における要素に対して位置変換を行い、該現在のキーポイントに対応する変位特徴行列を得る。

【0224】

ここで、依然としてキーポイントペア（Ｐ、Ｑ）を例として、まず、Ｐを現在のキーポイントとして、Ｑに対応する三次元特徴行列から、Ｑに対応する二次元特徴行列を取得する。

【0225】

ここで、Ｑが骨格キーポイントである場合、Ｑに対応する三次元特徴行列は、第１骨格特徴行列（上記Ｓ４０２を参照する）である。Ｑが輪郭キーポイントである場合、Ｑに対応する三次元特徴行列は、第１輪郭特徴行列（上記Ｓ４０３を参照する）である。

【0226】

ここで、Ｑが骨格キーポイントである場合、第１骨格特徴行列をＱの三次元特徴行列として、第１骨格特徴行列から、Ｑの二次元特徴行列を得る。第１骨格特徴行列に骨格特徴のみが含まれるため、後続の処理過程で学習された骨格特徴に、更なる指向性を持たせる。同様に、Ｑが輪郭キーポイントである場合、第１輪郭特徴行列をＱの三次元特徴行列として、第１輪郭特徴行列から、Ｑの二次元特徴行列を得る。第１輪郭特徴行列に輪郭特徴のみが含まれるため、後続の処理過程で学習された輪郭特徴に、更なる指向性を持たせる。

【0227】

Ｑの二次元特徴行列を得た後、ＱからＰまでに移動する変位情報に基づいて、Ｑの二次元特徴行列における要素に対して位置変換を行い、Ｐに対応する変位特徴行列を得る。

【0228】

例えば、図１３に示すように、ＱからＰまでに移動する変位情報は、（２，３）である。ここで、２は、第１次元で移動した距離が２であることを表す。３は、第２次元で移動した距離が３であることを表す。従って、Ｑの二次元特徴行列は、図１３におけるａに示すとおりである。Ｑの二次元特徴行列における要素に対して位置変換を行った後に得られたＰに対応する変位特徴行列は、図１３におけるｂに示すとおりである。ここで、数字により変位情報を相対的に表す。実際の実施において、具体的な解決手段を参照しながら、変位情報を理解すべきである。例えば、変位情報「２」は、２つの要素、２つのセルなどを指してもよい。

【0229】

続いて、Ｑを現在のキーポイントとして、Ｐに対応する三次元特徴行列から、Ｐに対応する二次元特徴行列を取得する。続いて、ＰからＱまでに移動する変位情報に基づいて、Ｐの二次元特徴行列における要素に対して位置変換を行い、Ｑに対応する変位特徴行列Ｑを得る。

【0230】

これにより、各骨格キーポイントに対応する変位特徴行列及び各輪郭キーポイントに対応する変位特徴行列を得ることができる。

【0231】

ここで、各骨格キーポイントは、複数のキーポイントとそれぞれペアリングされる可能性があるため、得られた各骨格キーポイントの変位特徴行列も複数である可能性があり、各輪郭キーポイントは、複数のキーポイントとそれぞれペアリングされる可能性があるため、得られた各輪郭キーポイントの変位特徴行列も複数である可能性があることに留意されたい。また、異なる輪郭キーポイントに対応する変位特徴行列の数も異なる可能性があり、異なる骨格キーポイントに対応する変位特徴行列の数も異なる可能性がある。

【0232】

Ｓ１１０５において、各骨格キーポイントについて、該骨格キーポイントに対応する二次元特徴行列と該骨格キーポイントに対応する各変位特徴行列に対して連結処理を行い、該骨格キーポイントの連結二次元特徴行列を得て、該骨格キーポイントの連結二次元特徴行列を第５変換ニューラルネットワークに入力し、該骨格キーポイントに対応するターゲット二次元特徴行列を得て、各骨格キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、第２ターゲット骨格特徴行列を生成する。

【0233】

Ｓ１１０６において、各輪郭キーポイントについて、該輪郭キーポイントに対応する二次元特徴行列と該輪郭キーポイントに対応する各変位特徴行列に対して連結処理を行い、該輪郭キーポイントの連結二次元特徴行列を得て、該輪郭キーポイントの連結二次元特徴行列を第５変換ニューラルネットワークに入力し、該輪郭キーポイントに対応するターゲット二次元特徴行列を得て、各輪郭キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、第２ターゲット輪郭特徴行列を生成する。

【0234】

例えば、Ｐが骨格キーポイントであり、且つＰに対応する二次元特徴行列がＰ’であり、Ｐが３つのキーポイントペアに位置すると、上記過程により、Ｐの３つの変位特徴行列を得て、それぞれＰ１’、Ｐ２’、及びＰ３’である。Ｐ’、Ｐ１’、Ｐ２’及びＰ３’を連結し、Ｐの連結二次元特徴行列を得る。この場合、Ｐの３つの変位特徴行列のうち、骨格キーポイントに対応する二次元特徴行列における要素を位置変換することで得られた変位特徴行列があるだけでなく、輪郭キーポイントに対応する二次元特徴行列における要素を位置変換することで得られた変位特徴行列もある。従って、Ｐ’、Ｐ１’、Ｐ２’及びＰ３’を連結し、位置がＰの位置に隣接する各キーポイントの特徴を融合させる。また、第５変換ニューラルネットワークを用いて、Ｐの連結二次元特徴行列に対して畳み込み処理を行うことで、得られたＰのターゲット二次元特徴行列に、骨格特徴を包含させるだけでなく、輪郭特徴も包含させ、骨格特徴と輪郭特徴の融合を実現させる。

【0235】

同様に、Ｐが輪郭キーポイントである場合にも、上記過程により、骨格特徴と輪郭特徴の融合を実現させることもできる。

【0236】

もう１つの実施例において、下記方式で特徴融合ニューラルネットワークを単独訓練することができる。

【0237】

ステップ５．１において、複数枚のサンプル画像の第１サンプルターゲット骨格特徴行列及び第１サンプルターゲット輪郭特徴行列を取得する。

【0238】

【0239】

ステップ５．２において、第１サンプルターゲット骨格特徴行列と第１サンプルターゲット輪郭特徴行列に対して連結処理を行い、第５サンプル連結特徴行列を得る。

【0240】

ステップ５．３において、第５サンプル連結特徴行列を基礎変位推定ニューラルネットワークに入力し、事前決定された複数組のキーポイントペアに対して変位推定を行い、各組のキーポイントペアのうちの１つのキーポイントがもう１つのキーポイントまでに移動する予測変位情報を得て、各キーポイントペアのうちの２つのキーポイントの位置は隣接し、該２つのキーポイントは、１つの骨格キーポイント及び１つの輪郭キーポイントを含むか、又は２つの骨格キーポイントを含むか、又は２つの輪郭キーポイントを含む。

【0241】

ステップ５．４において、各組のキーポイントペアのうちの各キーポイントをそれぞれ現在のキーポイントとして、該現在のキーポイントのペアであるもう１つのキーポイントに対応するサンプル三次元特徴行列から、ペアであるもう１つのキーポイントに対応するサンプル二次元特徴行列を取得する。

【0242】

ステップ５．５において、ペアであるもう１つのキーポイントから現在のキーポイントまでの予測変位情報に基づいて、ペアであるもう１つのキーポイントに対応するサンプル二次元特徴行列における要素に対して位置変換を行い、該現在のキーポイントに対応するサンプル変位特徴行列を得る。

【0243】

ステップ５．６において、現在のキーポイントに対応するサンプル変位特徴行列及び現在のキーポイントに対応するサンプル二次元特徴行列に基づいて、変位損失を決定する。

【0244】

ステップ５．７において、変位損失に基づいて、変位推定ニューラルネットワークに対して今回の訓練を行う。

【0245】

ステップ５．８において、各骨格キーポイントについて、該骨格キーポイントに対応するサンプル二次元特徴行列と該骨格キーポイントに対応する各サンプル変位特徴行列に対して連結処理を行い、該骨格キーポイントのサンプル連結二次元特徴行列を得て、該骨格キーポイントのサンプル連結二次元特徴行列を第５基礎変換ニューラルネットワークに入力し、該骨格キーポイントに対応するサンプルターゲット二次元特徴行列を得て、各骨格キーポイントにそれぞれ対応するサンプルターゲット二次元特徴行列に基づいて、第２サンプルターゲット骨格特徴行列を生成する。

【0246】

ステップ５．９において、各輪郭キーポイントについて、該輪郭キーポイントに対応するサンプル二次元特徴行列と該輪郭キーポイントに対応する各サンプル変位特徴行列に対して連結処理を行い、該輪郭キーポイントのサンプル連結二次元特徴行列を得て、該輪郭キーポイントのサンプル連結二次元特徴行列を第５基礎変換ニューラルネットワークに入力し、該輪郭キーポイントに対応するサンプルターゲット二次元特徴行列を得て、各輪郭キーポイントにそれぞれ対応するサンプルターゲット二次元特徴行列に基づいて、第２サンプルターゲット輪郭特徴行列を生成する。

【0247】

ステップ５．１０において、第２サンプルターゲット骨格特徴行列、第２サンプルターゲット輪郭特徴行列、骨格キーポイントの実際の位置情報及び輪郭キーポイントの実際の位置情報に基づいて、変換損失を決定する。例えば、第２サンプルターゲット骨格特徴行列に基づいて、骨格キーポイントの予測位置情報を決定し、第２サンプルターゲット輪郭特徴行列に基づいて、輪郭キーポイントの予測位置情報を決定することができる。骨格キーポイントの予測位置情報、実際の位置情報及び輪郭キーポイントの予測位置情報、実際の位置情報に基づいて、変換損失を決定する。

【0248】

ステップ５．１１において、変換損失に基づいて、第５基礎変換ニューラルネットワークに対して今回の訓練を行う。

【0249】

ステップ５．１２において、基礎変位推定ニューラルネットワーク、第５基礎変換ニューラルネットワークに対して複数回の訓練を行うことで、特徴融合ニューラルネットワークを得る。

【0250】

【0251】

複数回の特徴抽出を行う場合、ｉ回目の特徴融合の特徴融合結果に基づいて、ｉ＋１回目の特徴抽出を行い、ｉは、正整数である。

【0252】

Ｂにおいて、１回目の特徴抽出を行う過程は、上記Ａにおける検出対象画像に対して骨格特徴及び輪郭特徴を抽出する過程と一致し、ここで、詳細な説明を省略する。

【0253】

Ｂにおいて、１回目の特徴抽出以外の他の特徴抽出を行う具体的な過程は以下のとおりである。

【0254】

第２特徴抽出ネットワークを用いて、前回の特徴融合の特徴融合結果から、人体骨格特徴を示すための骨格キーポイントの第１ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第１ターゲット輪郭特徴行列を抽出する。

【0255】

ここで、第１特徴抽出ネットワークのネットワークパラメータは、第２特徴抽出ネットワークのネットワークパラメータと異なり、且つ異なる特徴抽出に用いられる第２特徴抽出ネットワークのネットワークパラメータは異なる。

【0256】

ここで、第１特徴抽出ネットワーク及び第２特徴抽出ネットワークはいずれも複数の畳み込み層を含む。第１特徴抽出ネットワーク及び第２特徴抽出ネットワークのネットワークパラメータは、例えば、畳み込み層の数、各畳み込み層に用いられる畳み込みカーネルのサイズ、各畳み込み層に用いられる畳み込みカーネルの数などを含むが、これらに限定されない。

【0257】

図１４に示すように、本願の実施例は、第２特徴抽出ネットワークの構造を示す概略図を提供する。第２特徴抽出ネットワークは、第２骨格特徴抽出ネットワーク、及び第２輪郭特徴抽出ネットワークを含む。

【0258】

該第２特徴抽出ネットワークを用いて今回の特徴提取を行うための前回の特徴融合の特徴融合結果は、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を含む。第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得るための具体的な過程は、上記Ａを参照することができ、ここで詳細な説明を省略する。

【0259】

該第２特徴抽出ネットワークを用いて、前回の特徴融合の特徴融合結果から、人体骨格特徴を示すための骨格キーポイントの第１ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第１ターゲット輪郭特徴行列を抽出するための具体的な過程は例えば以下のとおりである。

【0260】

第２骨格特徴抽出ネットワークを用いて、前回の特徴融合で得られた第２ターゲット骨格特徴行列に対して畳み込み処理を行い、第３骨格特徴行列を得て、第２骨格特徴抽出ネットワークにおける第３ターゲット畳み込み層から、第４骨格特徴行列を得て、第３骨格特徴行列及び第４骨格特徴行列に基づいて、第５ターゲット骨格特徴行列を得る。ここで、第３ターゲット畳み込み層は、第２骨格特徴抽出ネットワークにおける最後の一つの畳み込み層以外のいずれか１つの畳み込み層である。

【0261】

第２輪郭特徴抽出ネットワークを用いて、前回の特徴融合で得られた第２ターゲット輪郭特徴行列に対して畳み込み処理を行い、第３輪郭特徴行列を得て、第２輪郭特徴抽出ネットワークにおける第４ターゲット畳み込み層から、第４輪郭特徴行列を得て、第３輪郭特徴行列及び第４輪郭特徴行列に基づいて、第６ターゲット輪郭特徴行列を得る。第４ターゲット畳み込み層は、第２輪郭特徴抽出ネットワークにおける最後の一つの畳み込み層以外のいずれか１つの畳み込み層である。

【0262】

具体的な処理方式は、上記Ａにおける第１骨格特徴抽出ネットワークを用いて検出対象画像から第１ターゲット骨格特徴行列及び第１ターゲット輪郭特徴行列を抽出する具体的な過程と同様であり、ここで詳細な説明を省略する。

【0263】

上記実施例において、上記ＩＩにおける骨格キーポイント及び輪郭キーポイントの位置情報を決定する方式を説明した。

【0264】

ＩＩＩにおいて、上記ＩＩに基づいて骨格キーポイントの位置情報及び輪郭キーポイントの位置情報を得た後、各骨格キーポイントの位置及び輪郭キーポイントの位置を検出対象画像から決定することができる。続いて、人体検出結果を生成することができる。

【0265】

人体検出結果は、骨格キーポイントマーク及び輪郭キーポイントマークを含む検出対象画像、骨格キーポイントの位置情報及び輪郭キーポイントの位置情報を含むデータ群のうちの１つ又は複数を含む。

【0266】

続いて、人体検出結果に基づいて、人体動作認識、人体姿勢検出、人体輪郭調整、人体画像編集及び人体画像の貼り付けのうちの１つ又は複数を実行することもできる。

【0267】

ここで、動作認識は、例えば、殴り合い、ランニングなどのような現在の動作を認識することを指す。人体姿勢認識は、例えば、伏倒、指定した動作を行っているかどうかなどのような人体の現在の姿勢を認識することを指す。人体輪郭調整は、例えば、人体の体型、身長などを調整するを指す。人体画像編集は、例えば、人体画像に対して拡大縮小、回転、トリミングなどを行うことを指す。人体画像の貼り付けは、例えば、画像Ａにおける人体を検出した後、対応する人体画像を画像Ｂに貼り付けることを指す。

【0268】

【0269】

また、本願の実施形態において、人体骨格構造を示すための骨格キーポイントの位置情報及び人体輪郭を示すための輪郭キーポイントの位置情報を用いて人体検出結果を得るため、人体を表すための情報はより豊富であり、適用シーンは、より広く、例えば、画像編集、人体体型調整などに適用可能である。

【0270】

同一の技術的思想によれば、本願の実施例は、人体検出方法に対応する人体検出装置を更に提供する。本願の実施例における装置による課題を解決するための原理は、本願の実施例における上記人体検出方法と類似するため、装置の実施は、方法の実施を参照することができ、重複の説明を省略する。

【0271】

図１５は、本願の実施例による人体検出装置を示す概略図である。前記装置は、取得モジュール１５１、検出モジュール１５２及び生成モジュール１５３を含み、取得モジュール１５１は、検出対象画像を取得するように構成され、検出モジュール１５２は、前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成され、生成モジュール１５３は、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報に基づいて、人体検出結果を生成するように構成される。

【0272】

可能な実施形態において、前記輪郭キーポイントは、主輪郭キーポイント及び補助輪郭キーポイントを含み、ここで、２つの隣接する前記主輪郭キーポイントの間に、少なくとも１つの補助輪郭キーポイントが存在する。

【0273】

可能な実施形態において、前記検出モジュール１５２は、前記検出対象画像に基づいて、前記主輪郭キーポイントの位置情報を決定し、前記主輪郭キーポイントの位置情報に基づいて、人体輪郭情報を決定し、決定された前記人体輪郭情報に基づいて、複数の前記補助輪郭キーポイントの位置情報を決定するという方式で、前記検出対象画像に基づいて、人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成される。

【0274】

可能な実施形態において、前記人体検出結果は、骨格キーポイントマーク及び輪郭キーポイントマークが付加された検出対象画像、前記骨格キーポイントの位置情報及び前記輪郭キーポイントの位置情報を含むデータ群のうちの１つ又は複数を含む。

【0275】

可能な実施形態において、該人体検出装置は、前記人体検出結果に基づいて、人体動作認識、人体姿勢検出、人体輪郭調整、人体画像編集及び人体画像の貼り付けのうちの１つ又は複数を実行するように構成される実行モジュール１５４を更に備える。

【0276】

可能な実施形態において、前記検出モジュール１５２は、前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定するという方式で、前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成される。

【0277】

可能な実施形態において、前記検出モジュール１５２は、前記検出対象画像に基づいて、少なくとも１回の特徴抽出を行い、特徴抽出を行うたびに得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、複数回の特徴抽出を行う場合、ｉ回目の特徴融合の特徴融合結果に基づいてｉ＋１回目の特徴抽出を行い、ｉは正整数であるという方式で、前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行うように構成され、前記検出モジュール１５２は、最終回の特徴融合の特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定するという方式で、特徴融合結果に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成される。

【0278】

可能な実施形態において、前記検出モジュール１５２は、１回目の特徴抽出において、事前訓練された第１特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第１ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第１ターゲット輪郭特徴行列を抽出し、ｉ＋１回の特徴抽出において、事前訓練された第２特徴抽出ネットワークを用いて、ｉ回目の特徴融合の特徴融合結果から、前記第１ターゲット骨格特徴行列、及び前記第１ターゲット輪郭特徴行列を抽出するという方式で、前記検出対象画像に基づいて、少なくとも１回の特徴抽出を行うように構成され、第１特徴抽出ネットワークのネットワークパラメータは、第２特徴抽出ネットワークのネットワークパラメータと異なり、且つ特徴抽出のたびに用いられる第２特徴抽出ネットワークのネットワークパラメータは異なる。

【0279】

考えられる実現形態において、前記検出モジュール１５２は、事前訓練された特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得るという方式で、抽出して得られた骨格特徴及び輪郭特徴に対して特徴融合を行うように構成され、前記第２ターゲット骨格特徴行列は、三次元骨格特徴行列であり、該三次元骨格特徴行列は、各骨格キーポイントにそれぞれ対応する二次元骨格特徴行列を含み、前記二次元骨格特徴行列における各要素の値は、該要素に対応する画素点が、対応する骨格キーポイントに属する確率を表し、前記第２ターゲット輪郭特徴行列は、三次元輪郭特徴行列であり、該三次元輪郭特徴行列は、各輪郭キーポイントにそれぞれ対応する二次元輪郭特徴行列を含み、前記二次元輪郭特徴行列における各要素の値は、該要素に対応する画素点が、対応する輪郭キーポイントに属する確率を表し、特徴融合のたびに用いられる特徴融合ニューラルネットワークのネットワークパラメータは異なる。

【0280】

考えられる実現形態において、前記検出モジュール１５２は、最終回の特徴融合で得られた第２ターゲット骨格特徴行列に基づいて、前記骨格キーポイントの位置情報を決定し、最終回の特徴融合で得られた第２ターゲット輪郭特徴行列に基づいて、前記輪郭キーポイントの位置情報を決定するという方式で、最終回の特徴融合の特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定するように構成される。

【0281】

考えられる実現形態において、第１特徴抽出ネットワークは、共通特徴抽出ネットワーク、第１骨格特徴抽出ネットワーク及び第１輪郭特徴抽出ネットワークを含み、前記検出モジュール１５２は、前記共通特徴抽出ネットワークを用いて、前記検出対象画像に対して畳み込み処理を行い、骨格特徴及び輪郭特徴を含む基礎特徴行列を得ることと、前記第１骨格特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第１骨格特徴行列を得て、前記第１骨格特徴抽出ネットワークにおける第１ターゲット畳み込み層から、第２骨格特徴行列を取得し、前記第１骨格特徴行列及び前記第２骨格特徴行列に基づいて、前記第１ターゲット骨格特徴行列を得ることであって、前記第１ターゲット畳み込み層は、前記第１骨格特徴抽出ネットワークにおける、最後の１つの畳み込み層以外のいずれか１つの畳み込み層である、ことと、前記第１輪郭特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第１輪郭特徴行列を得て、前記第１輪郭特徴抽出ネットワークにおける第２ターゲット畳み込み層から、第２輪郭特徴行列を取得し、前記第１輪郭特徴行列及び前記第２輪郭特徴行列に基づいて、前記第１ターゲット輪郭特徴行列を得ることであって、前記第２ターゲット畳み込み層は、前記第１輪郭特徴抽出ネットワークにおける、最後の１つの畳み込み層以外のいずれか１つの畳み込み層である、ことと、を含む方式で、第１特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第１ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第１ターゲット輪郭特徴行列を抽出するように構成される。

【0282】

考えられる実現形態において、前記検出モジュール１５２は、前記第１骨格特徴行列及び前記第２骨格特徴行列に対して連結処理を行い、第１連結骨格特徴行列を得て、前記第１連結骨格特徴行列を次元変換処理し、前記第１ターゲット骨格特徴行列を得るという方式で、前記第１骨格特徴行列及び前記第２骨格特徴行列に基づいて、前記第１ターゲット骨格特徴行列を得るように構成され、前記第１輪郭特徴行列及び前記第２輪郭特徴行列に基づいて、前記第１ターゲット輪郭特徴行列を得ることは、前記第１輪郭特徴行列及び前記第２輪郭特徴行列に対して連結処理を行い、第１連結輪郭特徴行列を得ることと、前記第１連結輪郭特徴行列を次元変換処理し、前記ターゲット輪郭特徴行列を得ることと、を含み、前記第１ターゲット骨格特徴行列の次元は、前記第１ターゲット輪郭特徴行列の次元と同じであり、且つ前記第１ターゲット骨格特徴行列と前記第１ターゲット輪郭特徴行列は、同一の次元における次元数が同じである。

【0283】

可能な実施形態において、前記特徴融合ニューラルネットワークは、第１畳み込みニューラルネットワーク、第２畳み込みニューラルネットワーク、第１変換ニューラルネットワーク及び第２変換ニューラルネットワークを含み、
前記検出モジュール１５２は、前記第１畳み込みニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列に対して畳み込み処理を行い、第１中間骨格特徴行列を得て、前記第２畳み込みニューラルネットワークを用いて、前記第１ターゲット輪郭特徴行列に対して畳み込み処理を行い、第１中間輪郭特徴行列を得ることと、前記第１中間輪郭特徴行列と前記第１ターゲット骨格特徴行列に対して連結処理を行い、第１連結特徴行列を得て、前記第１変換ニューラルネットワークを用いて、前記第１連結特徴行列に対して次元変換を行い、前記第２ターゲット骨格特徴行列を得ることと、前記第１中間骨格特徴行列と前記第１ターゲット輪郭特徴行列に対して連結処理を行い、第２連結特徴行列を得て、前記第２変換ニューラルネットワークを用いて、前記第２連結特徴行列に対して次元変換を行い、前記第２ターゲット輪郭特徴行列を得ることと、を含む方式で、特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得るように構成される。

【0284】

可能な実施形態において、前記特徴融合ニューラルネットワークは、第１定向畳み込みニューラルネットワーク、第２定向畳み込みニューラルネットワーク、第３畳み込みニューラルネットワーク、第４畳み込みニューラルネットワーク、第３変換ニューラルネットワーク、及び第４変換ニューラルネットワークを含み、
前記検出モジュール１５２は、前記第１定向畳み込みニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列に対して、定向畳み込み処理を行い、第１定向骨格特徴行列を得て、第３畳み込みニューラルネットワークを用いて、前記第１定向骨格特徴行列に対して畳み込み処理を行い、第２中間骨格特徴行列を得ることと、前記第２定向畳み込みニューラルネットワークを用いて、前記第１ターゲット輪郭特徴行列に対して、定向畳み込み処理を行い、第１定向輪郭特徴行列を得て、第４畳み込みニューラルネットワークを用いて、前記第１定向輪郭特徴に対して、畳み込み処理を行い、第２中間輪郭特徴行列を得ることと、前記第２中間輪郭特徴行列と前記第１ターゲット骨格特徴行列に対して連結処理を行い、第３連結特徴行列を得て、第３変換ニューラルネットワークを用いて、前記第３連結特徴行列に対して次元変換を行い、前記第２ターゲット骨格特徴行列を得ることと、前記第２中間骨格特徴行列と前記第１ターゲット輪郭特徴行列に対して連結処理を行い、第４連結特徴行列を得て、第４変換ニューラルネットワークを用いて、前記第４連結特徴行列に対して次元変換を行い、前記第２ターゲット輪郭特徴行列を得ることと、を含む方式で、特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得るように構成される。

【0285】

可能な実施形態において、前記特徴融合ニューラルネットワークは、変位推定ニューラルネットワーク、第５変換ニューラルネットワークを含み、
前記検出モジュール１５２は、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して連結処理を行い、第５連結特徴行列を得ることと、前記第５連結特徴行列を前記変位推定ニューラルネットワークに入力し、事前決定された複数組のキーポイントペアに対して変位推定を行い、各組のキーポイントペアのうちの１つのキーポイントがもう１つのキーポイントまでに移動する変位情報を得て、各組のキーポイントペアのうちの各キーポイントをそれぞれ現在のキーポイントとし、該現在のキーポイントのペアであるもう１つのキーポイントに対応する三次元特徴行列から、前記ペアであるもう１つのキーポイントに対応する二次元特徴行列を得ることと、前記ペアであるもう１つのキーポイントから前記現在のキーポイントまでの変位情報に基づいて、前記ペアであるもう１つのキーポイントに対応する二次元特徴行列における要素に対して位置変換を行い、該現在のキーポイントに対応する変位特徴行列を得ることと、各骨格キーポイントについて、該骨格キーポイントに対応する二次元特徴行列と、該骨格キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該骨格キーポイントの連結二次元特徴行列を得て、該骨格キーポイントの連結二次元特徴行列を前記第５変換ニューラルネットワークに入力し、該骨格キーポイントに対応するターゲット二次元特徴行列を得て、各骨格キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第２ターゲット骨格特徴行列を生成することと、各輪郭キーポイントについて、該輪郭キーポイントに対応する二次元特徴行列と、該輪郭キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該輪郭キーポイントの連結二次元特徴行列を得て、該輪郭キーポイントの連結二次元特徴行列を前記第５変換ニューラルネットワークに入力し、該輪郭キーポイントに対応するターゲット二次元特徴行列を得て、各輪郭キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第２ターゲット輪郭特徴行列を生成することと、を含む方式で、特徴融合ニューラルネットワークを用いて、前記第１ターゲット骨格特徴行列及び前記第１ターゲット輪郭特徴行列に対して特徴融合を行い、第２ターゲット骨格特徴行列及び第２ターゲット輪郭特徴行列を得るように構成される。

【0286】

可能な実施形態において、前記人体検出方法は、人体検出モデルにより実現され、前記人体検出モデルは、前記第１特徴抽出ネットワーク及び／又は前記特徴融合ニューラルネットワークを含み、前記人体検出モデルは、訓練サンプル集合におけるサンプル画像を利用して訓練されたものであり、前記サンプル画像に、人体骨格構造の骨格キーポイントの実際の位置情報、及び人体輪郭の輪郭キーポイントの実際の位置情報がラベル付けされている。

【0287】

装置における各モジュールの処理フロー及び各モジュール間のインタラクションフローは、上記方法実施例における関連説明を参照することができ、ここで、詳細な説明を省略する。

【0288】

本願の実施例は、コンピュータ機器を更に提供する。図１６は、本願の実施例によるコンピュータ機器の構造を示す概略図である。前記コンピュータ機器は、
プロセッサ１１と、記憶媒体１２と、バス１３と、を備え、記憶媒体１２は、実行可能な命令を記憶するためのものであり、メモリ１２１及び外部メモリ１２２を含み、ここのメモリ１２１は、内部メモリとも呼ばれ、プロセッサ１１における処理データ及びハードディスク等の外部メモリ１２２と交換されるデータを一時的に記憶するためのものであり、プロセッサ１１は、メモリ１２１を介して外部メモリ１２２とデータ交換を行う。前記コンピュータ機器１００が実行される場合、前記プロセッサ１１と前記記憶媒体１２は、バス１３を介して通信し、前記プロセッサ１１に、検出対象画像を取得し、前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定し、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報に基づいて、人体検出結果を生成するという命令を実行させる。

【0289】

本願の実施例は、コンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体にコンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される場合、上記方法の実施例に記載の人体検出方法のステップを実行する。

【0290】

本願の実施例で提供される人体検出方法のコンピュータプログラム製品は、プログラムコードを記憶したコンピュータ可読記憶媒体を含む。前記プログラムコードに含まれる命令は、上記方法実施例における前記人体検出方法のステップを実行するために用いられる。具体的には、上記方法実施例を参照することができ、ここで詳細な説明を省略する。

【0291】

説明上の便宜及び簡素化を図るために、上記説明されたシステム、及び装置の具体的な作動過程は、前記方法の実施例における対応した過程を参照することができるから、ここで詳しく説明しないようにすることは、当業者にはっきり理解されるべきである。本発明で提供する幾つかの実施例で開示したシステム、装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。

【0292】

分離部材として説明した該ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。

【0293】

また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、２つ以上のユニットが一つのユニットに集積されてもよい。

【0294】

前記機能はソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本発明の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ設備（パソコン、サーバ、又はネットワーク装置など）に、本発明の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、Ｕディスク、リムーバブルハードディスク、読み出し専用メモリ（Ｒｅａｄ－ｏｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。

【0295】

なお、上記実施例は本願の具体的な実施形態に過ぎず、本願の技術的解決手段を説明するためのものであり、これを限定するものではなく、本願の保護範囲はこれに制限されるものではなく、前記実施例を参照しながら、本願を詳細に説明したが、本技術分野を周知するいかなる当業者であれば、本願で開示された技術範囲内で、前記実施例に記載の技術的解決手段に対して変化または代替を容易に思いつくことができ、又は一部の技術的特徴に対して均等物による置換を行うこともでき、これらの修正、変化又は置換は、対応する技術的解決手段の本質を本願の実施例の技術的解決手段の製品及び範囲を離脱させるものではなく、本願の保護範囲内に含まれるものとすることは、当業者であれば、理解すべきである。従って、本願の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。

【図1】