IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 上▲海▼商▲湯▼智能科技有限公司の特許一覧

特表2022-510963人体向き検出方法、装置、電子機器及びコンピュータ記憶媒体
<>
  • 特表-人体向き検出方法、装置、電子機器及びコンピュータ記憶媒体 図1
  • 特表-人体向き検出方法、装置、電子機器及びコンピュータ記憶媒体 図2
  • 特表-人体向き検出方法、装置、電子機器及びコンピュータ記憶媒体 図3
  • 特表-人体向き検出方法、装置、電子機器及びコンピュータ記憶媒体 図4
  • 特表-人体向き検出方法、装置、電子機器及びコンピュータ記憶媒体 図5
  • 特表-人体向き検出方法、装置、電子機器及びコンピュータ記憶媒体 図6
  • 特表-人体向き検出方法、装置、電子機器及びコンピュータ記憶媒体 図7
  • 特表-人体向き検出方法、装置、電子機器及びコンピュータ記憶媒体 図8
  • 特表-人体向き検出方法、装置、電子機器及びコンピュータ記憶媒体 図9
  • 特表-人体向き検出方法、装置、電子機器及びコンピュータ記憶媒体 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-01-28
(54)【発明の名称】人体向き検出方法、装置、電子機器及びコンピュータ記憶媒体
(51)【国際特許分類】
   G06T 7/70 20170101AFI20220121BHJP
   G06T 7/00 20170101ALI20220121BHJP
【FI】
G06T7/70 B
G06T7/00 350C
G06T7/00 660Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021531125
(86)(22)【出願日】2020-09-08
(85)【翻訳文提出日】2021-05-31
(86)【国際出願番号】 CN2020114105
(87)【国際公開番号】W WO2021098346
(87)【国際公開日】2021-05-27
(31)【優先権主張番号】201911143057.6
(32)【優先日】2019-11-20
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】520180323
【氏名又は名称】上▲海▼商▲湯▼智能科技有限公司
【氏名又は名称原語表記】SHANGHAI SENSETIME INTELLIGENT TECHNOLOGY CO., LTD.
【住所又は居所原語表記】Room 1605A, Building 3, 391 Guiping Road, Xuhui District, Shanghai 200233 China
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】李▲逍▼
(72)【発明者】
【氏名】▲許▼▲經▼▲緯▼
(72)【発明者】
【氏名】程光▲亮▼
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA02
5L096DA02
5L096EA45
5L096FA09
5L096FA16
5L096FA67
5L096HA11
5L096KA04
(57)【要約】
本願の実施例は、人体向き検出方法、装置、電子機器及びコンピュータ記憶媒体を開示する。該方法は、処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得ることと、前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定することと、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定することと、を含む。これにより、本願の実施例において、最終的な人体向きは、人体キーポイントと初歩的な人体向きを総合的に考慮した上で得られたものである。従って、人体キーポイントに基づいて、最終的な人体向きの正確性及び利用可能性を向上させることができる。
【特許請求の範囲】
【請求項1】
人体向き検出方法であって、
処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得ることと、
前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定することと、
決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定することと、を含む、人体向き検出方法。
【請求項2】
決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定することは、
前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致することに応答して、前記初歩的な人体向きを前記最終的な人体向きとして決定することを含むことを特徴とする
請求項1に記載の方法。
【請求項3】
決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定することは、
前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致しないことに応答して、前記決定された人体キーポイントで表れる人体向きを前記最終的な人体向きとして決定することを含むことを特徴とする
請求項1に記載の方法。
【請求項4】
処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得て、前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定するステップは、ニューラルネットワークにより実行され、前記ニューラルネットワークは、第1サンプル画像及び第2サンプル画像により訓練して得られたものであり、前記第1サンプル画像に第1人体画像及びアノテーションされた人体キーポイントが含まれ、前記第2サンプル画像は、第2人体画像及びアノテーションされた人体向きを含むことを特徴とする
請求項1-3のいずれか一項に記載の方法。
【請求項5】
前記ニューラルネットワークが第1サンプル画像及び第2サンプル画像により訓練して得られたものであることは、
前記第1サンプル画像及び前記第2サンプル画像に対して特徴抽出を行い、前記第1サンプル画像及び前記第2サンプル画像の特徴を得ることと、
前記第1サンプル画像の特徴に基づいて歩行者キーポイント検出を行い、前記第1サンプル画像の人体キーポイントを得ることと、
前記第2サンプル画像の特徴に基づいて向き検出を行い、前記第2サンプル画像の人体向きを得ることと、
検出された人体キーポイント、アノテーションされた人体キーポイント、検出された人体向き及びアノテーションされた人体向きに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含むことを特徴とする
請求項4に記載の方法。
【請求項6】
前記第1サンプル画像及び前記第2サンプル画像に対して特徴抽出を行い、前記第1サンプル画像及び前記第2サンプル画像の特徴を得ることは、
前記第1サンプル画像と前記第2サンプル画像をスティッチングし、スティッチング後の画像データに対して特徴抽出を行い、スティッチング後の画像データの特徴を得ることと、
前記第1サンプル画像と前記第2サンプル画像とのスティッチング方式に応じて、前記スティッチング後の画像データの特徴を前記第1サンプル画像の特徴及び前記第2サンプル画像の特徴に分割することと、を含むことを特徴とする
請求項5に記載の方法。
【請求項7】
前記第1サンプル画像と前記サンプル画像をスティッチングすることは、
前記第1サンプル画像と前記第2サンプル画像をバッチ次元に沿ってスティッチングすることを含み、
前記第1サンプル画像と前記第2サンプル画像をスティッチングする前に、前記方法は、
前記第1サンプル画像及び前記第2サンプル画像をチャネル、高さ及び幅という3つの次元で同じくなるように調整することを更に含むことを特徴とする
請求項6に記載の方法。
【請求項8】
検出された人体キーポイント、アノテーションされた人体キーポイント、検出された人体向き及びアノテーションされた人体向きに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することは、
前記検出された人体キーポイント及び前記アノテーションされた人体キーポイントに基づいて、前記ニューラルネットワークの第1損失値を得ることであって、前記第1損失値は、前記検出された人体キーポイントと前記アノテーションされた人体キーポイントとの差異を表す、ことと、
前記検出された人体向き及び前記アノテーションされた人体向きに基づいて、前記ニューラルネットワークの第2損失値を得ることであって、前記第2損失値は、前記検出された人体向きと前記アノテーションされた人体向きとの差異を表す、ことと、
前記第1損失値及び前記第2損失値に基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含むことを特徴とする
請求項5に記載の方法。
【請求項9】
人体向き検出装置であって、前記装置は、抽出モジュールと、処理モジュールと、を備え、
抽出モジュールは、処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得るように構成され、
処理モジュールは、前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定し、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定するように構成される、人体向き検出装置。
【請求項10】
前記処理モジュールは、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定するように構成され、前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致することに応答して、前記初歩的な人体向きを前記最終的な人体向きとして決定することを含むことを特徴とする
請求項9に記載の装置。
【請求項11】
前記処理モジュールは、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定するように構成され、前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致しないことに応答して、前記決定された人体キーポイントで表れる人体向きを前記最終的な人体向きとして決定することを含むことを特徴とする
請求項9に記載の装置。
【請求項12】
処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得て、前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定するステップは、ニューラルネットワークにより実行され、前記ニューラルネットワークは、第1サンプル画像及び第2サンプル画像により訓練して得られたものであり、前記第1サンプル画像に第1人体画像及びアノテーションされた人体キーポイントが含まれ、前記第2サンプル画像は、第2人体画像及びアノテーションされた人体向きを含むことを特徴とする
請求項9-11のいずれか一項に記載の装置。
【請求項13】
前記装置は、訓練モジュールを更に備え、前記訓練モジュールは、第1サンプル画像及び第2サンプル画像により前記ニューラルネットワークを訓練するように構成され、
前記第1サンプル画像及び前記第2サンプル画像に対して特徴抽出を行い、前記第1サンプル画像及び前記第2サンプル画像の特徴を得ることと、前記第1サンプル画像の特徴に基づいて歩行者キーポイント検出を行い、前記第1サンプル画像の人体キーポイントを得ることと、前記第2サンプル画像の特徴に基づいて向き検出を行い、前記第2サンプル画像の人体向きを得ることと、
検出された人体キーポイント、アノテーションされた人体キーポイント、検出された人体向き及びアノテーションされた人体向きに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含むことを特徴とする
請求項12に記載の装置。
【請求項14】
前記訓練モジュールは、前記第1サンプル画像及び前記第2サンプル画像に対して特徴抽出を行い、前記第1サンプル画像及び前記第2サンプル画像の特徴を得るように構成され、
前記第1サンプル画像と前記第2サンプル画像をスティッチングし、スティッチング後の画像データに対して特徴抽出を行い、スティッチング後の画像データの特徴を得ることと、
前記第1サンプル画像と前記第2サンプル画像とのスティッチング方式に応じて、前記スティッチング後の画像データの特徴を前記第1サンプル画像の特徴及び前記第2サンプル画像の特徴に分割することと、を含むことを特徴とする
請求項13に記載の装置。
【請求項15】
前記訓練モジュールは、前記第1サンプル画像と前記第2サンプル画像をスティッチングするように構成され、前記第1サンプル画像と前記第2サンプル画像をバッチ次元に沿ってスティッチングすることを含み、
前記訓練モジュールは更に、前記第1サンプル画像と前記第2サンプル画像をスティッチングする前に、前記第1サンプル画像及び前記第2サンプル画像をチャネル、高さ及び幅という3つの次元で同じくなるように調整するように構成されることを特徴とする
請求項14に記載の装置。
【請求項16】
前記訓練モジュールは、検出された人体キーポイント、アノテーションされた人体キーポイント、検出された人体向き及びアノテーションされた人体向きに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整するように構成され、
前記検出された人体キーポイント及び前記アノテーションされた人体キーポイントに基づいて、前記ニューラルネットワークの第1損失値を得ることであって、前記第1損失値は、前記検出された人体キーポイントと前記アノテーションされた人体キーポイントとの差異を表す、ことと、
前記検出された人体向き及び前記アノテーションされた人体向きに基づいて、前記ニューラルネットワークの第2損失値を得ることであって、前記第2損失値は、前記検出された人体向きと前記アノテーションされた人体向きとの差異を表す、ことと、
前記第1損失値及び前記第2損失値に基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含むことを特徴とする
請求項13に記載の装置。
【請求項17】
電子機器であって、前記電子機器は、プロセッサと、プロセッサで実行可能なコンピュータプログラムを記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記コンピュータプログラムを実行し、請求項1から8のいずれか一項に記載の方法を実行するように構成される、電子機器。
【請求項18】
コンピュータ記憶媒体であって、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、請求項1から8のいずれか一項に記載の方法を実現する、コンピュータ記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2019年11月20日に提出された、出願番号が201911143057.6である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
【0002】
本願は、コンピュータビジョン処理技術に関し、特に人体向き検出方法、装置、電子機器及びコンピュータ記憶媒体に関する。
【背景技術】
【0003】
コンピュータビジョン処理技術の進歩に伴い、歩行者向き検出は次第に、コンピュータビジョン分野の重要な研究方向となってきた。関連技術において、歩行者向き検出の技術的解決手段は、カメラにより得られた画像に対して処理を行うことで、画像における各人物の体及び/又は顔の向きを予測することであるが、このように検出された歩行者の向きの正確性及び利用可能性が保証されることができない。
【発明の概要】
【課題を解決するための手段】
【0004】
本願の実施例は、人体向き検出技術的解決手段を提供することが望ましい。
【0005】
本願の実施例は、人体向き検出方法を提供する。前記方法は、
処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得ることと、
前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定することと、
決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定することと、を含む。
【0006】
幾つかの実施例において、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定することは、
前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致することに応答して、前記初歩的な人体向きを前記最終的な人体向きとして決定することを含む。これにより、初歩的な人体向きを最終的な人体向きとして決定することで、最終的な人体向きを正確に得ることができる。
【0007】
幾つかの実施例において、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定することは、
前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致しないことに応答して、前記決定された人体キーポイントで表れる人体向きを前記最終的な人体向きとして決定することを含む。これにより、人体キーポイントで表れる人体向きが初歩的な人体向きに合致しない場合、初歩的な人体向きの正確度が低いと認められ、人体キーポイントで表れる人体向きを最終的な人体向きとして決定ことで、最終的な人体向きの正確度を向上させることができる。
【0008】
幾つかの実施例において、処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得て、前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定するステップは、ニューラルネットワークにより実行され、前記ニューラルネットワークは、第1サンプル画像及び第2サンプル画像により訓練して得られたものであり、前記第1サンプル画像に第1人体画像及びアノテーションされた人体キーポイントが含まれ、前記第2サンプル画像は、第2人体画像及びアノテーションされた人体向きを含む。
【0009】
幾つかの実施例において、前記ニューラルネットワークが第1サンプル画像及び第2サンプル画像により訓練して得られたものであることは、
前記第1サンプル画像及び前記第2サンプル画像に対して特徴抽出を行い、前記第1サンプル画像及び前記第2サンプル画像の特徴を得ることと、前記第1サンプル画像の特徴に基づいて歩行者キーポイント検出を行い、前記第1サンプル画像の人体キーポイントを得ることと、前記第2サンプル画像の特徴に基づいて向き検出を行い、前記第2サンプル画像の人体向きを得ることと、
検出された人体キーポイント、アノテーションされた人体キーポイント、検出された人体向き及びアノテーションされた人体向きに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含む。これにより、ニューラルネットワークのネットワークパラメータ値を調整することで、訓練されたニューラルネットワークの性能をより好適にする。
【0010】
幾つかの実施例において、前記第1サンプル画像及び前記第2サンプル画像に対して特徴抽出を行い、前記第1サンプル画像及び前記第2サンプル画像の特徴を得ることは、
前記第1サンプル画像と前記第2サンプル画像をスティッチングし、スティッチング後の画像データに対して特徴抽出を行い、スティッチング後の画像データの特徴を得ることと、
前記第1サンプル画像と前記第2サンプル画像とのスティッチング方式に応じて、前記スティッチング後の画像データの特徴を前記第1サンプル画像の特徴及び前記第2サンプル画像の特徴に分割することと、を含む。これにより、スティッチング後の画像データの特徴の分割により、第1サンプル画像及び第2サンプル画像の特徴に対して、それぞれ人体キーポイント検出及び人体向き検出を行うことに寄与し、実現の複雑さが低い。
【0011】
幾つかの実施例において、前記第1サンプル画像と前記サンプル画像をスティッチングすることは、前記第1サンプル画像と前記第2サンプル画像をバッチ次元に沿ってスティッチングすることを含み、
前記第1サンプル画像と前記第2サンプル画像をスティッチングする前に、前記方法は、
前記第1サンプル画像及び前記第2サンプル画像をチャネル、高さ及び幅という3つの次元で同じくなるように調整することで、バッチ次元に沿って画像データのスティッチングを行うことを実現することを更に含む。
【0012】
幾つかの実施例において、検出された人体キーポイント、アノテーションされた人体キーポイント、検出された人体向き及びアノテーションされた人体向きに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することは、
前記検出された人体キーポイント及び前記アノテーションされた人体キーポイントに基づいて、前記ニューラルネットワークの第1損失値を得ることであって、前記第1損失値は、前記検出された人体キーポイントと前記アノテーションされた人体キーポイントとの差異を表す、ことと、
前記検出された人体向き及び前記アノテーションされた人体向きに基づいて、前記ニューラルネットワークの第2損失値を得ることであって、前記第2損失値は、前記検出された人体向きと前記アノテーションされた人体向きとの差異を表す、ことと、
前記第1損失値及び前記第2損失値に基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含む。これにより、損失値を用いてニューラルネットワークのネットワークパラメータ値を調整することで、ニューラルネットワークのロバスト性を向上させることができる。
【0013】
本願の実施例は、人体向き検出装置を更に提供する。前記装置は、抽出モジュールと、処理モジュールと、を備え、
抽出モジュールは、処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得るように構成され、
処理モジュールは、前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定し、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定するように構成される。
【0014】
幾つかの実施例において、前記処理モジュールは、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定するように構成され、前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致することに応答して、前記初歩的な人体向きを前記最終的な人体向きとして決定することを含む。
【0015】
幾つかの実施例において、前記処理モジュールは、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定するように構成され、前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致しないことに応答して、前記決定された人体キーポイントで表れる人体向きを前記最終的な人体向きとして決定することを含む。
【0016】
幾つかの実施例において、処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得て、前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定するステップは、ニューラルネットワークにより実行され、前記ニューラルネットワークは、第1サンプル画像及び第2サンプル画像により訓練して得られたものであり、前記第1サンプル画像に第1人体画像及びアノテーションされた人体キーポイントが含まれ、前記第2サンプル画像は、第2人体画像及びアノテーションされた人体向きを含む。
【0017】
幾つかの実施例において、前記装置は、訓練モジュールを更に備え、前記訓練モジュールは、第1サンプル画像及び第2サンプル画像により前記ニューラルネットワークを訓練するように構成され、
前記第1サンプル画像及び前記第2サンプル画像に対して特徴抽出を行い、前記第1サンプル画像及び前記第2サンプル画像の特徴を得ることと、前記第1サンプル画像の特徴に基づいて歩行者キーポイント検出を行い、前記第1サンプル画像の人体キーポイントを得ることと、前記第2サンプル画像の特徴に基づいて向き検出を行い、前記第2サンプル画像の人体向きを得ることと、
検出された人体キーポイント、アノテーションされた人体キーポイント、検出された人体向き及びアノテーションされた人体向きに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含む。
【0018】
幾つかの実施例において、前記訓練モジュールは、前記第1サンプル画像及び前記第2サンプル画像に対して特徴抽出を行い、前記第1サンプル画像及び前記第2サンプル画像の特徴を得るように構成され、
前記第1サンプル画像と前記第2サンプル画像をスティッチングし、スティッチング後の画像データに対して特徴抽出を行い、スティッチング後の画像データの特徴を得ることと、
前記第1サンプル画像と前記第2サンプル画像とのスティッチング方式に応じて、前記スティッチング後の画像データの特徴を前記第1サンプル画像の特徴及び前記第2サンプル画像の特徴に分割することと、を含む。
【0019】
幾つかの実施例において、前記訓練モジュールは、前記第1サンプル画像と前記第2サンプル画像をスティッチングするように構成され、前記第1サンプル画像と前記第2サンプル画像をバッチ次元に沿ってスティッチングすることを含み、
前記訓練モジュールは更に、前記第1サンプル画像と前記第2サンプル画像をスティッチングする前に、前記第1サンプル画像及び前記第2サンプル画像をチャネル、高さ及び幅という3つの次元で同じくなるように調整するように構成される。
【0020】
幾つかの実施例において、前記訓練モジュールは、検出された人体キーポイント、アノテーションされた人体キーポイント、検出された人体向き及びアノテーションされた人体向きに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整するように構成され、
前記検出された人体キーポイント及び前記アノテーションされた人体キーポイントに基づいて、前記ニューラルネットワークの第1損失値を得ることであって、前記第1損失値は、前記検出された人体キーポイントと前記アノテーションされた人体キーポイントとの差異を表す、ことと、
前記検出された人体向き及び前記アノテーションされた人体向きに基づいて、前記ニューラルネットワークの第2損失値を得ることであって、前記第2損失値は、前記検出された人体向きと前記アノテーションされた人体向きとの差異を表す、ことと、
前記第1損失値及び前記第2損失値に基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含む。
【0021】
本願の実施例は、電子機器を更に提供する。前記電子機器は、プロセッサと、プロセッサで実行可能なコンピュータプログラムを記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記コンピュータプログラムを実行し、上記いずれか1つの人体向き検出方法を実行するように構成される。
【0022】
本願の実施例は、コンピュータ記憶媒体を更に提供する。前記コンピュータ記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、上記いずれか1つの人体向き検出方法を実現する。
【0023】
本願の実施例で提供される人体向き検出方法、装置、電子機器及びコンピュータ記憶媒体において、処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得て、前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定し、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定する。これにより、本願の実施例において、最終的な人体向きは、人体キーポイントと初歩的な人体向きを総合的に考慮した上で得られたものである。従って、人体キーポイントに基づいて、最終的な人体向きの正確性及び利用可能性を向上させることができる。
【0024】
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。
【図面の簡単な説明】
【0025】
図1】本願の実施例による人体向き検出方法を示すフローチャートである。
図2】本願の実施例による訓練されたニューラルネットワークのアーキテクチャを示す概略図である。
図3】本願の実施例による人体キーポイントを示す概略図である。
図4】本願の実施例による人体向きを示す概略図である。
図5】本願の実施例によるニューラルネットワーク訓練方法を示すフローチャートである。
図6】本願の実施例によるニューラルネットワーク訓練のアーキテクチャを示す概略図である。
図7】本願の実施例による画像データのスティッチングを示す概略図である。
図8】本願の実施例による画像特徴分割を示す概略図である。
図9】本願の実施例による人体向き検出装置の構造を示す概略図である。
図10】本願の実施例による電子機器の構造を示す概略図である。
【発明を実施するための形態】
【0026】
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。
【0027】
以下、図面及び実施例を参照しながら、本願の実施例を更に詳しく説明する。ここで提供される実施例は、本願の実施例を解釈するためのものに過ぎず、本願の実施例を限定するものではないことを理解すべきである。また、以下に提供される実施例は、本願の一部の実施例を実行するためのものであり、本願の全ての実施例を実行するためのものではない。矛盾しない限り、本願の実施例に記載の技術的解決手段を任意の組み合わせで実行することができる。
【0028】
本願の実施例において、用語「含む」、「備える」、またはそれらの他のいずれかの変形は、非排他的包含を包括するように意図される。従って、一連の要素を含む方法又は装置は、明確に記載された要素を含むだけでなく、明確に列挙されていない他の要素も含み、又は、このような方法又は装置に固有の要素も含む。更なる限定が存在しない場合、“・・・を含む”なる文章によって規定される要素は、該要素を有する方法又は装置内に、別の関連要素(例えば、方法におけるステップ又は装置におけるユニットであり、ユニットは、例えば、一部の回路、一部のプロセッサ、一部のプログラム又はソフトウェアなどであってもよい)が更に存在することを排除しない。
【0029】
例えば、本願の実施例で提供される人体向き検出方法は、一連のステップを含むが、本願の実施例で提供される人体向き検出方法は、記載したステップに限定されない。同様に、本願の実施例で提供される人体向き検出装置は、一連のモジュールを備えるが、本願の実施例で提供される装置は、明確に記載されたモジュールを備えるものに限定されず、関連情報の取得、又は情報に基づいた処理に必要なモジュールを更に備えてもよい。
【0030】
本明細書において、用語「及び/又は」は、関連対象の関連関係を説明するためのものであり、3通りの関係が存在することを表す。例えば、A及び/又はBは、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在することという3つの場合を表す。また、本明細書において、用語「少なくとも1つ」は、複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組み合わせを表す。例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選ばれるいずれか1つ又は複数の要素を含むことを表す。
【0031】
本願の実施例は、端末及び/又はサーバからなるコンピュータシステムに適用され、多くの他の汎用又は専用コンピュータシステム環境又は構成と協働することができる。ここで、端末は、シンクライアント、シッククライアント、ハンドヘルド又はラップトップデバイス、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル消費者向け電子製品、ネットワークパソコン、小型コンピュータシステムなどであってもよい。サーバは、サーバコンピュータシステム、小型コンピュータシステム、大型コンピュータシステム及び上記如何なるシステムを含む分散型クラウドコンピューティング技術などであってもよい。
【0032】
端末、サーバなどの電子機器は、コンピュータシステムにより実行されるコンピュータシステムによる実行可能な命令(例えば、プログラムモジュール)の一般的な内容で説明できる。一般的には、プログラムモジュールは、ルーチン、プログラム、ターゲットプログラム、ユニット、ロジック、データ構造などを含んでもよい。それらは、特定のタスクを実行するか又は特定の抽象的データタイプを実現する。コンピュータシステム/サーバは、分散型クラウドコンピューティング環境で実行される。分散型クラウドコンピューティング環境において、タスクは、通信ネットワークを通じてリンクされたリモート処理デバイスによって実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは、記憶装置を含むローカル又はリモートコンピューティングシステム記憶媒体に位置してもよい。
【0033】
上述によれば、本願の幾つかの実施例において、人体向き検出の技術的解決手段を提供する。本願の実施例を適用できるシーンは、自動運転、ロボットナビゲーションなどを含むが、これらに限定されない。
【0034】
図1は、本願の実施例による人体向き検出方法を示すフローチャートである。図1に示すように、該プロセスは以下を含んでもよい。
【0035】
ステップ101において、処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得る。
【0036】
実際の適用において、ローカルストレージ領域又はネットワークから、処理対象画像を取得することができる。処理対象画像のフォーマットは、共同静止画専門家グループ(Joint Photographic Experts GROUP:JPEG)、ビットマップ(Bitmap:BMP)、ポータブルネットワークグラフィックス(Portable Network Graphics:PNG)又は他のフォーマットであってもよい。ここで、処理対象画像のフォーマット及びソースを例により説明するだであり、本願の実施例は、処理対象画像のフォーマット及びソースを限定するものではない。
【0037】
実際の適用において、処理対象画像を特徴抽出ネットワークに入力し、特徴抽出ネットワークを利用して、処理対象画像に対して特徴抽出を行い、処理対象画像の特徴を得ることができる。本願の実施例において、特徴抽出ネットワークは、画像特徴を抽出するためのニューラルネットワークである。特徴抽出ネットワークは、畳み込み層などの構造を含んでもよい。ここで、特徴抽出ネットワークの種類を限定しない。例えば、特徴抽出ネットワークは、深層残差ネットワーク(Resnet)又は画像特徴抽出のための他のニューラルネットワークであってもよい。
【0038】
本願の実施例は、処理対象画像の特徴の表現形態を限定しない。例えば、処理対象画像の特徴の表現形態は、特徴マップ又は他の表現形態であってもよい。
【0039】
ステップ102において、処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定する。
【0040】
本ステップの実現形態として、例示的に、処理対象画像の特徴に基づいて、人体キーポイント検出を行い、人体キーポイントを得、処理対象画像の特徴に基づいて、人体向き検出を行い、初歩的な人体向きを得る。
【0041】
処理対象画像の特徴に対して人体キーポイント検出を行うための実現形態として、例示的に、処理対象画像の特徴に対して畳み込み及びアップサンプリング処理を行うことで、人体キーポイントを得ることができる。
【0042】
1つの具体的な例において、処理対象画像の特徴を得た後、処理対象画像の特徴を特徴ピラミッドネットワーク(Feature Pyramid Networks:FPN)に入力し、FPNを利用して、処理対象画像の特徴を処理し、人体キーポイントを得ることができる。FPNに基づいた画像特徴処理方式は、異なるサイズの特徴マップから特徴を抽出し、続いて、異なるサイズの特徴マップをフュージョンすることで、マルチスケールの特徴を抽出することができる。更に、これらのマルチスケールの特徴をフュージョンすることで、人体キーポイントを正確に得ることができる。
【0043】
処理対象画像の特徴に対して人体向き検出を行うための実現形態として、例示的に、処理対象画像の特徴に対して畳み込み処理を行うことで、初歩的な人体向きを得ることができる。実際の適用において、処理対象画像の特徴を得た後、処理対象画像の特徴を、少なくとも1つの畳み込み層からなるニューラルネットワークに入力し、続いて、該ニューラルネットワークにおいて、畳み込み操作により、処理対象画像の特徴を初歩的な人体向き検出結果に変換する。
【0044】
実際の適用において、ステップ101からステップ102は、訓練されたニューラルネットワークにより実現されてもよい。図2は、本願の実施例による訓練されたニューラルネットワークのアーキテクチャを示す概略図である。図2に示すように、訓練されたニューラルネットワークは、下位層ネットワーク及び上位層ネットワークという2つの部分を含む。ここで、下位層ネットワークは、上記特徴抽出ネットワークである。実際に実行する時に、下位層ネットワークの入力は、処理対象画像であり、下位層ネットワークを利用して、処理対象画像に対して特徴抽出を行った後、表現能力が処理対象画像の表現能力よりも強い、比較的高いレベルの特徴を得ることができる。上位層ネットワークは、人体キーポイント検出のための上位層ネットワーク及び人体向き検出のための上位層ネットワークを含む。人体キーポイント検出のための上位層ネットワークを利用して、処理対象画像の特徴を処理し、人体キーポイントを得ることができる。人体向き検出のための上位層ネットワークを利用して、処理対象画像の特徴を処理し、初歩的な人体向きを得ることができる。
【0045】
ステップ103において、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定する。
【0046】
実際の適用において、ステップ101からステップ103は、電子機器におけるプロセッサにより実現してもよい。上記プロセッサは、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、デジタル信号プロセッサ(Digital Signal Processor:DSP)、デジタル信号処理機器(Digital Signal Processing Device:DSPD)、プログラマブルロジックデバイス(Programmable Logic Device:PLD)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array:FPGA)、中央演算装置(Central Processing Unit:CPU)、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも1つであってもよい。
【0047】
関連技術において、人体向き検出のみを基に、人体の向きを判定するため、得られた人体向きの精度が低い。本願の実施例において、最終的な人体向きは、人体キーポイントと初歩的な人体向きを総合的に考慮した上で得られたものである。従って、人体キーポイントに基づいて、最終的な人体向きの正確性及び利用可能性を向上させることができる。
【0048】
また、本願の実施例において、人体キーポイント検出及び人体向き検出タスクにおける画像特徴抽出はいずれも、同一の画像特徴抽出ネットワークで実現される。従って、本願の実施例は、少ないコンピューティングリソースで、人体キーポイント検出と人体向き検出タスクを同時に実現することができ、人体キーポイント検出及び人体向き検出タスクに求められるリアルタイム性の要件を満たすことに寄与する。また、人体キーポイントの検出結果及び人体向きの検出結果の両方を利用して人体向きを判定し、人体向き検出の正確性を向上させる。
【0049】
ステップ103の実現形態として、一例において、前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致することに応答して、前記初歩的な人体向きを前記最終的な人体向きとして決定する。
【0050】
実際の適用において、決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致するかどうかを判定し、判定結果を得ることができる。決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致すると判定した場合、初歩的な人体向きが比較的正確であると認められる。従って、初歩的な人体向きを最終的な人体向きとして決定することで、最終的な人体向きを正確に得ることができる。
【0051】
以下、図面を参照しながら、例を挙げて本願の実施例の効果を説明する。
【0052】
図3は、本願の実施例による人体キーポイントを示す概略図である。図3に示すように、数字0から17は、人体キーポイント検出により得られた人体キーポイントを表す。全ての人体キーポイントを検出できる場合、人体の向きは、前方又は後方を向く。左側キーポイントのみが検出された場合、人体は、左を向く。右側キーポイントのみが検出された場合、人体は、右を向く。図4は、本願の実施例による人体向きを示す概略図である。図4において、数字1から8は、異なる人体向きを表す。人体向き検出において、人体向きを8つの方向に分ける。これにより、キーポイントに基づいて決定された人体向きよりも正確である。従って、キーポイントの検出結果を用いて向き検出結果を修正することで、向き検出結果の正確度を向上させることができる。
【0053】
図3及び図4から分かるように、人体向きが異なる場合、検出可能な人体キーポイントの数及び位置も異なる。例えば、人体左側の全てのキーポイントを検出することができ、それに対して右側のキーポイントの一部しかを検出しておらず、又は右側のキーポイントを全く検出していない場合、初歩的な人体向きは、同様に左側向きであれば、該初歩的な人体向きが正確であると判定することができる。更に、該初歩的な人体向きを最終的な人体向きとして決定することで、最終的な人体向きの正確度を高いレベルに保持することができる。
【0054】
ステップ103の実現形態として、もう1つの例において、前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致しないことに応答して、前記決定された人体キーポイントで表れる人体向きを前記最終的な人体向きとして決定する。
【0055】
上記から分かるように、人体キーポイントで表れる人体向きが初歩的な人体向きに合致しない場合、初歩的な人体向きの正確度が低いと認められる。これにより、決定された人体キーポイントで表れる人体向きを前記最終的な人体向きとして決定することで、最終的な人体向きの正確度を向上させることができる。
【0056】
例えば、図3及び図4に示すように、人体キーポイントのうち、人体側面の幾つかのキーポイントのみが有効である場合、初歩的な人体向きが正面又は背面である場合、該初歩的な人体向きが正確ではないと判定することができる。つまり、人体キーポイントにより、人体向きの有効性及び正確性を効果的に判定することができる。更に、人体キーポイントにより、初歩的な人体向きを最適化することで、最終的な人体向きの正確度及び利用可能性を向上させることができる。
【0057】
幾つかの実施例において、ステップ101からステップ102は、ニューラルネットワークにより実現してもよい。上記ニューラルネットワークは、第1サンプル画像及び第2サンプル画像により訓練して得られたものである。第1サンプル画像に、第1人体画像及びアノテーションされた人体キーポイントが含まれ、第2サンプル画像に、第2人体画像及びアノテーションされた人体向きが含まれる。
【0058】
実際の適用において、ローカルストレージ領域又はネットワークから、第1サンプル画像又は第2サンプル画像を取得することができる。第1サンプル画像又は第2サンプル画像のフォーマットは、JPEG、BMP、PNG又は他のフォーマットであってもよい。ここで、第1サンプル画像又は第2サンプル画像のフォーマット及びソースを例により説明するだであり、本願の実施例は、第1サンプル画像又は第2サンプル画像のフォーマット及びソースを限定するものではない。
【0059】
1つの具体的な例において、第1サンプル画像及び第2サンプル画像を異なるデータセットから取得することができる。第1サンプル画像に対応するデータセットと第2サンプル画像に対応するデータセットは、重なり合い部分を有しなくてもよい。
【0060】
上記から分かるように、本願の実施例において、ニューラルネットワークに基づいて、人体キーポイント及び初歩的な人体向きを得ることができ、実現しやすいという特徴を有する。
【0061】
以下、図面を参照しながら、上記ニューラルネットワークの訓練プロセスを例示的に説明する。
【0062】
図5は、本願の実施例によるニューラルネットワーク訓練方法を示すフローチャートである。図5に示すように、該プロセスは、以下を含んでもよい。
【0063】
ステップ501において、第1サンプル画像及び第2サンプル画像を取得する。
【0064】
本ステップの実現形態は、上述で説明されたため、ここで、詳細な説明を省略する。
【0065】
ステップ502において、第1サンプル画像及び第2サンプル画像をニューラルネットワークに入力し、ニューラルネットワークに基づいて下記ステップを実行する。第1サンプル画像及び第2サンプル画像に対して特徴抽出を行い、第1サンプル画像及び第2サンプル画像の特徴を得る。第1サンプル画像の特徴に基づいて歩行者キーポイント検出を行い、第1サンプル画像の人体キーポイントを得る。第2サンプル画像の特徴に基づいて向き検出を行い、第2サンプル画像の人体向きを得る。
【0066】
実際の適用において、第1サンプル画像及び第2サンプル画像を特徴抽出ネットワークに入力し、特徴抽出ネットワークを利用して、第1サンプル画像及び第2サンプル画像に対して特徴抽出を行い、第1サンプル画像及び第2サンプル画像の特徴を得ることができる。
【0067】
本願の実施例は、第1サンプル画像及び第2サンプル画像の特徴の表現形態を限定しない。例えば、第1サンプル画像及び第2サンプル画像の特徴の表現形態は、特徴マップ又は他の表現形態であってもよい。
【0068】
第1サンプル画像及び第2サンプル画像に対して特徴抽出を行い、第1サンプル画像及び第2サンプル画像の特徴を得るための実現形態として、例示的に、第1サンプル画像と第2サンプル画像に対して画像データのスティッチングを行い、スティッチング後の画像データに対して特徴抽出を行い、スティッチング後の画像データの特徴を得る。第1サンプル画像と第2サンプル画像の画像データのスティッチング方式に応じて、スティッチング後の画像データの特徴を第1サンプル画像の特徴及び第2サンプル画像の特徴に分割する。
【0069】
上記から分かるように、第1サンプル画像及び第2サンプル画像に対して画像データのスティッチングを行うことで、スティッチング後の画像データに対して特徴抽出を一括して行うことに寄与し、実現しやすい。スティッチング後の画像データの特徴の分割により、第1サンプル画像の特徴と第2サンプル画像の特徴に対して、それぞれ人体キーポイント検出及び人体向き検出を行うことに寄与し、実現しやすい。
【0070】
第1サンプル画像及び第2サンプル画像に対して画像データのスティッチングを行うための実現形態として、例示的に、第1サンプル画像と第2サンプル画像をバッチ次元に沿ってスティッチングすることができる。第1サンプル画像と第2サンプル画像スティッチングする前に、第1サンプル画像及び第2サンプル画像をチャネル、高さ及び幅という3つの次元で同じくなるように調整することができる。続いて、バッチ次元で、調整された第1サンプル画像と第2サンプル画像をスティッチングすることができる。
【0071】
ここで、画像のチャネル数は、画像特徴抽出を行うチャネルの数を表し、バッチ次元は、画像の数量次元を表す。本願の実施例において、第1サンプル画像と第2サンプル画像のチャネル数、高さ及び幅を同じ大きさに調整する場合、異なる数の調整された第1サンプル画像及び第2サンプル画像をバッチ次元に沿って画像データのスティッチングすることができる。
【0072】
図6は、本願の実施例によるニューラルネットワーク訓練のアーキテクチャを示す概略図である。図7は、本願の実施例による画像データのスティッチングを示す概略図である。図7において、実線矩形枠は、第1サンプル画像601を表し、点線矩形枠は、第2サンプル画像602を表す。本願の実施例において、第1サンプル画像601及び第2サンプル画像602のデータフォーマットは、[B C H W]で表されてもよい。ここで、Bは、バッチ次元の大きさを表し、Cは、チャネル次元の大きさを表し、Hは、高さを表し、Wは、幅を表す。画像特徴抽出プロセスに関わる畳み込みなどの演算はいずれも、チャネル次元、高さ次元及び幅次元で行われるため、図6及び図7に示すように、バッチ次元に沿って、第1サンプル画像602と第2サンプル画像603に対して画像データのスティッチングを行うことができる。
【0073】
図6に示すように、下位層ネットワーク601を利用して、スティッチング後の画像データに対して特徴抽出を行い、対応する画像特徴を得ることができる。続いて、下位層ネットワークから出力された画像特徴を分割する必要がある。
【0074】
図8は、本願の実施例による画像特徴分割を示す概略図である。図8において、実線矩形枠(C1に対応する)は、第1サンプル画像の画像特徴を表し、点線矩形枠(C2に対応する)は、第2サンプル画像の画像特徴を表す。本願の実施例において、第1サンプル画像と第2サンプル画像の画像データのスティッチング方式に応じて、バッチ次元に沿って、スティッチング後の画像データの特徴を分割し、第1サンプル画像の画像特徴801及び第2サンプル画像の画像特徴802を得ることができる。ここで、第1サンプル画像の画像特徴801及び第2サンプル画像の画像特徴802はいずれも特徴マップで表される。
【0075】
図6に示すように、第1サンプル画像の画像特徴を、人体キーポイント検出を行うための上位層ネットワーク604に入力することができる。人体キーポイント検出を行うための上位層ネットワークは、入力された画像特徴を処理した後、第1サンプル画像の人体キーポイント641を出力する。また、第2サンプル画像の画像特徴を、人体向き検出を行うための上位層ネットワーク605に入力することができる。人体向き検出を行うための上位層ネットワーク605は、入力された画像特徴を処理した後、第2サンプル画像の人体向き651を出力する。
【0076】
更に、図6に示すように、第1サンプル画像の人体キーポイントを得た後、ニューラルネットワークの第1損失642を算出することもできる。第1損失642は、第1サンプル画像の人体キーポイントとアノテーションされた人体キーポイントとの差異を表す。第2サンプル画像の人体向きを得た後、ニューラルネットワークの第2損失652を算出することもできる。第2損失652は、第2サンプル画像の人体向きとアノテーションされた人体向きとの差異を表す。
【0077】
本願の実施例において、第1サンプル画像の特徴に基づいて人体キーポイント検出を行うための実現形態は、ステップ102における処理対象画像の特徴に基づいて人体キーポイント検出を行うための実現形態と同じであり、ここで、詳細な説明を省略する。第2サンプル画像の特徴に基づいて人体向き検出を行うための実現形態は、ステップ102における処理対象画像の特徴に基づいて人体向き検出を行うための実現形態と同じであり、ここで、詳細な説明を省略する。
【0078】
上記から分かるように、ニューラルネットワークの適用及び試験プロセス(ステップ101からステップ103)は、ニューラルネットワークの訓練プロセスに比べて、画像データのスティッチング及び画像特徴の分割を行う必要がなく、処理対象画像に対して、下位層ネットワーク及び2つの上位層ネットワークにより処理を行えば、処理対象画像の人体キーポイント及び初歩的な人体向きを得ることができる。
【0079】
ステップ503において、検出された人体キーポイント、アノテーションされた人体キーポイント、検出された人体向き及びアノテーションされた人体向きに基づいて、ニューラルネットワークのネットワークパラメータ値を調整する。
【0080】
本ステップの実現形態として、例示的に、検出された人体キーポイント(即ち、第1サンプル画像の人体キーポイント)及びアノテーションされた人体キーポイントに基づいて、ニューラルネットワークの第1損失を得て、検出された人体向き(即ち、第2サンプル画像の人体向き)及びアノテーションされた人体向きに基づいて、ニューラルネットワークの第2損失を得て、上記第1損失及び第2損失に基づいて、ニューラルネットワークのネットワークパラメータ値を調整することができる。
【0081】
具体的に実現する時、第1損失と第2損失の和をニューラルネットワークの総損失とすることができ、第1損失と第2損失の加重和をニューラルネットワークの総損失とすることもできる。第1損失と第2損失の重みは、実際の適用需要に応じて事前設定されてもよい。
【0082】
ニューラルネットワークの総損失を得た後、ニューラルネットワークの総損失に基づいて、ニューラルネットワークのネットワークパラメータ値を調整することができる。
【0083】
ステップ504において、ネットワークパラメータ値が調整された初期ニューラルネットワークによる画像処理が設定された精度要件を満たすかどうかを判定し、満たしなければ、ステップ501からステップ504を再実行し、満たせれば、ステップ505を実行する。
【0084】
本願の実施例において、設定された精度要件は、事前設定されたものであってもよい。例示的に、設定された精度要件は、第1損失及び第2損失に関わる。1つ目の例において、設定された精度要件は、上記ニューラルネットワークの総損失が第1所定の閾値未満であることであってもよく、2つ目の例において、設定された精度要件は、第1損失が第2所定の閾値未満であって、且つ第2損失が第3所定の閾値未満であることであってもよい。
【0085】
実際の適用において、第1所定の閾値、第2所定の閾値及び第3所定の閾値は、実際の適用需要に応じて事前設定されてもよい。
【0086】
ステップ505において、ネットワークパラメータ値が調整されたニューラルネットワークを訓練されたニューラルネットワークとする。
【0087】
実際の適用において、ステップ501から505は、電子機器におけるプロセッサにより実現してもよい。上記プロセッサは、ASIC、DSP、DSPD、PLD、FPGA、CPU、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも1つであってもよい。
【0088】
上記から分かるように、本願の実施例において、ニューラルネットワークを訓練する場合、第1サンプル画像及び第2サンプル画像に対してそれぞれ人体キーポイント検出及び人体向き検出を行う必要がない。人体キーポイント検出及び人体向き検出タスクはいずれも、同一の画像特徴抽出プロセスを基に実現したものである。従って、訓練されたニューラルネットワークは、少ないコンピューティングリソースを消耗する上で、人体キーポイント検出と人体向き検出タスクを同時に実現することができ、人体キーポイント検出及び人体向き検出タスクに求められるリアルタイム性の要件を満たすことに寄与する。
【0089】
ニューラルネットワークを訓練するプロセスにおいて、1つの例で、第1サンプル画像と第2サンプル画像のデータ類似性(即ち、両者はいずれも人体画像を含む)を十分に利用することができる。第1サンプル画像と第2サンプル画像に対して画像データのスティッチングを行うことで、スティッチング後の画像データに対して特徴抽出を一括して行うことに寄与し、実現しやすい。また、人体キーポイント検出を行うためのニューラルネットワークと人体向き検出を行うためのニューラルネットワークの類似性(即ち、いずれも、人体画像における特徴を抽出する必要がある)を利用して、人体キーポイント検出を行うためのニューラルネットワークと人体向き検出を行うためのニューラルネットワークにおいて、同一の下位層ネットワークを抽出して、一括した画像特徴抽出に用いる。更に、同一の訓練されたニューラルネットワークにより、人体キーポイント検出及び人体向き検出を同時に行うことができる。
【0090】
具体的な実施形態の上記方法において、各ステップの記述順番は、厳しい実行順番として実施過程を限定するものではなく、各ステップの具体的な実行順番はその機能及び考えられる内在的論理により決まることは、当業者であれば理解すべきである。
【0091】
前記実施例で提供される人体向き検出方法を基に、本願の実施例は、人体向き検出装置を提供する。
【0092】
図9は、本願の実施例による人体向き検出装置の構造を示す概略図である。図9に示すように、該装置は、抽出モジュール901と、処理モジュール902と、を備えてもよく、
抽出モジュール901は、処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得るように構成され、
処理モジュール902は、前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定し、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定するように構成される。
【0093】
幾つかの実施例において、前記処理モジュール902は、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定するように構成され、前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致することに応答して、前記初歩的な人体向きを前記最終的な人体向きとして決定することを含む。
【0094】
幾つかの実施例において、前記処理モジュール902は、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定するように構成され、前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致しないことに応答して、前記決定された人体キーポイントで表れる人体向きを前記最終的な人体向きとして決定することを含む。
【0095】
幾つかの実施例において、処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得て、前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定するステップは、ニューラルネットワークにより実行され、前記ニューラルネットワークは、第1サンプル画像及び第2サンプル画像により訓練して得られたものであり、前記第1サンプル画像に第1人体画像及びアノテーションされた人体キーポイントが含まれ、前記第2サンプル画像は、第2人体画像及びアノテーションされた人体向きを含む。
【0096】
幾つかの実施例において、前記装置は、訓練モジュールを更に備え、前記訓練モジュールは、第1サンプル画像及び第2サンプル画像により前記ニューラルネットワークを訓練するように構成され、
前記第1サンプル画像及び前記第2サンプル画像に対して特徴抽出を行い、前記第1サンプル画像及び前記第2サンプル画像の特徴を得ることと、前記第1サンプル画像の特徴に基づいて歩行者キーポイント検出を行い、前記第1サンプル画像の人体キーポイントを得ることと、前記第2サンプル画像の特徴に基づいて向き検出を行い、前記第2サンプル画像の人体向きを得ることと、
検出された人体キーポイント、アノテーションされた人体キーポイント、検出された人体向き及びアノテーションされた人体向きに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含む。
【0097】
幾つかの実施例において、前記訓練モジュールは、前記第1サンプル画像及び前記第2サンプル画像に対して特徴抽出を行い、前記第1サンプル画像及び前記第2サンプル画像の特徴を得るように構成され、
前記第1サンプル画像と前記第2サンプル画像をスティッチングし、スティッチング後の画像データに対して特徴抽出を行い、スティッチング後の画像データの特徴を得ることと、
前記第1サンプル画像と前記第2サンプル画像とのスティッチング方式に応じて、前記スティッチング後の画像データの特徴を前記第1サンプル画像の特徴及び前記第2サンプル画像の特徴に分割することと、を含む。
【0098】
幾つかの実施例において、前記訓練モジュールは、前記第1サンプル画像と前記第2サンプル画像をスティッチングするように構成され、前記第1サンプル画像と前記第2サンプル画像をバッチ次元に沿ってスティッチングすることを含み、
前記訓練モジュールは更に、前記第1サンプル画像と前記第2サンプル画像をスティッチングする前に、前記第1サンプル画像及び前記第2サンプル画像をチャネル、高さ及び幅という3つの次元で同じくなるように調整するように構成される。
【0099】
幾つかの実施例において、前記訓練モジュールは、検出された人体キーポイント、アノテーションされた人体キーポイント、検出された人体向き及びアノテーションされた人体向きに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整するように構成され、
前記検出された人体キーポイント及び前記アノテーションされた人体キーポイントに基づいて、前記ニューラルネットワークの第1損失値を得ることであって、前記第1損失値は、前記検出された人体キーポイントと前記アノテーションされた人体キーポイントとの差異を表す、ことと、
前記検出された人体向き及び前記アノテーションされた人体向きに基づいて、前記ニューラルネットワークの第2損失値を得ることであって、前記第2損失値は、前記検出された人体向きと前記アノテーションされた人体向きとの差異を表す、ことと、
前記第1損失値及び前記第2損失値に基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含む。
【0100】
実際の適用において、抽出モジュール901及び処理モジュール902はいずれも、電子機器におけるプロセッサにより実現してもよい。上記プロセッサは、ASIC、DSP、DSPD、PLD、FPGA、CPU、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも1つであってもよい。
【0101】
また、本願の各実施例における各機能モジュールは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアの形態として実現してもよく、ソフトウェア機能モジュールの形態として実現してもよい。
【0102】
前記集積したユニットがソフトウェア機能モジュールの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータ可読記憶媒体内に記憶されてもよい。このような理解のもと、本願の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の全て又は一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク装置など)又はprocessor(プロセッサ)に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、USBメモリ、リムーバブルハードディスク、読み出し専用メモリ(Read Only Memory:ROM)、ランダムアクセスメモリ(Random Access Memory:RAM)、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
【0103】
具体的には、本実施例における人体向き検出方法に対応するコンピュータプログラム命令は、光ディスク、ハードディスク、USBメモリなどの記憶媒体に記憶されてもよい。記憶媒体における、人体向き検出方法に対応するコンピュータプログラム命令が電子機器により読み出されるか又は実行される場合、前記実施例のいずれか1つの人体向き検出方法を実現する。
【0104】
前記実施例と同様な技術的構想を基に、本願の実施例による電子機器10を示す図10に示すように、電子機器10は、メモリ1001と、プロセッサ1002と、を備えてもよく、
前記メモリ1001は、コンピュータプログラムを記憶するように構成され、
前記プロセッサ1002は、前記メモリに記憶されたコンピュータプログラムを実行し、前記実施例のいずれか1つの人体向き検出方法を実現するように構成される。
【0105】
実際の適用において、上記メモリ1001は、RAMのような揮発性メモリ(volatile memory)、ROM、フラッシュメモリ(flash memory)、ハードディスク(Hard Disk Drive:HDD)又はソリッドステートドライブ(Solid-State Drive:SSD)のような不揮発性メモリ(non-volatile memory)、又は上記メモリの組み合わせであってもよい。該メモリは、プロセッサ1002に命令及びデータを提供する。
【0106】
上記プロセッサ1002は、ASIC、DSP、DSPD、PLD、FPGA、CPU、コントローラ、マイクロコントローラ、マイクロプロセッサのうちのすくなくとも1つであってもよい。様々な機器について、上記プロセッサ機能を実現するための電子機器は他のものであってもよく、本願の実施例は、これを具体的に限定するものではないことは、理解されるべきである。
【0107】
幾つかの実施例において、本願の実施例で提供される装置の機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実現は、上記方法実施例の説明をを参照されたい。簡潔化のために、ここで詳細な説明を省略する。
【0108】
各実施例に関する上記説明において、各実施例の相違点を強調する傾向があり、その同一あるいは類似の部分は相互参照することができる。簡潔化のために、ここで詳細な説明を省略する。
【0109】
矛盾が生じない限り、本願で提供される各方法の実施例で開示された特徴を互いに任意に組み合わせて、新たな方法の実施例を得ることができる。
【0110】
矛盾が生じない限り、本願で提供される各製品の実施例で開示された特徴を互いに任意に組み合わせて、新たな製品の実施例を得ることができる。
【0111】
矛盾が生じない限り、本願で提供される各方法又は機器の実施例で開示された特徴を互いに任意に組み合わせて、新たな方法又は機器の実施例を得ることができる。
【0112】
上記実施形態の説明により、上記実施例の方法は、ソフトウェアと必須な汎用ハードウェアプラットフォームとの組み合わせで実現することができ、勿論、ハードウェアにより実現することもできるが、多くの場合、前者は、より好適な実施形態であることを当業者が理解すべきである。このような理解のもと、本願の実施例の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形態で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体(例えば、ROM/RAM、磁気ディスク、光ディスク)に記憶しても良く、また、一台のコンピュータ機器(携帯電話、コンピュータ、サーバ、エアコン、又はネットワーク装置等)に、本願の各実施例に記載の方法を実行させるための若干の命令を含む。
【0113】
以上は図面を参照しながら、本願の実施例を説明した。本願は、上記具体的な実施形態に限定されず、上記具体的な実施形態は模式的なものに過ぎず、本願を限定するものではない。当業者は、本願に基づいて、本願の実施例要旨及び特許請求の範囲の保護範囲から逸脱することなく、多くの実施形態を想到しうる。これらは、いずれも本願の実施例の保護範囲内に含まれる。
【産業上の利用可能性】
【0114】
本願は、人体向き検出方法、装置、電子機器及びコンピュータ記憶媒体を提供する。ここで、処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得て、前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定し、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定する。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
【手続補正書】
【提出日】2021-05-31
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
人体向き検出方法であって、
処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得ることと、
前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定することと、
決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定することと、を含む、人体向き検出方法。
【請求項2】
決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定することは、
前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致することに応答して、前記初歩的な人体向きを前記最終的な人体向きとして決定することを含むことを特徴とする
請求項1に記載の方法。
【請求項3】
決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定することは、
前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致しないことに応答して、前記決定された人体キーポイントで表れる人体向きを前記最終的な人体向きとして決定することを含むことを特徴とする
請求項1に記載の方法。
【請求項4】
処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得て、前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定するステップは、ニューラルネットワークにより実行され、前記ニューラルネットワークは、第1サンプル画像及び第2サンプル画像により訓練して得られたものであり、前記第1サンプル画像に第1人体画像及びアノテーションされた人体キーポイントが含まれ、前記第2サンプル画像は、第2人体画像及びアノテーションされた人体向きを含むことを特徴とする
請求項1-3のいずれか一項に記載の方法。
【請求項5】
前記ニューラルネットワークが第1サンプル画像及び第2サンプル画像により訓練して得られたものであることは、
前記第1サンプル画像及び前記第2サンプル画像に対して特徴抽出を行い、前記第1サンプル画像及び前記第2サンプル画像の特徴を得ることと、
前記第1サンプル画像の特徴に基づいて歩行者キーポイント検出を行い、前記第1サンプル画像の人体キーポイントを得ることと、
前記第2サンプル画像の特徴に基づいて向き検出を行い、前記第2サンプル画像の人体向きを得ることと、
検出された人体キーポイント、アノテーションされた人体キーポイント、検出された人体向き及びアノテーションされた人体向きに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含むことを特徴とする
請求項4に記載の方法。
【請求項6】
前記第1サンプル画像及び前記第2サンプル画像に対して特徴抽出を行い、前記第1サンプル画像及び前記第2サンプル画像の特徴を得ることは、
前記第1サンプル画像と前記第2サンプル画像をスティッチングし、スティッチング後の画像データに対して特徴抽出を行い、スティッチング後の画像データの特徴を得ることと、
前記第1サンプル画像と前記第2サンプル画像とのスティッチング方式に応じて、前記スティッチング後の画像データの特徴を前記第1サンプル画像の特徴及び前記第2サンプル画像の特徴に分割することと、を含むことを特徴とする
請求項5に記載の方法。
【請求項7】
前記第1サンプル画像と前記サンプル画像をスティッチングすることは、
前記第1サンプル画像と前記第2サンプル画像をバッチ次元に沿ってスティッチングすることを含み、
前記第1サンプル画像と前記第2サンプル画像をスティッチングする前に、前記方法は、
前記第1サンプル画像及び前記第2サンプル画像をチャネル、高さ及び幅という3つの次元で同じくなるように調整することを更に含むことを特徴とする
請求項6に記載の方法。
【請求項8】
検出された人体キーポイント、アノテーションされた人体キーポイント、検出された人体向き及びアノテーションされた人体向きに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することは、
前記検出された人体キーポイント及び前記アノテーションされた人体キーポイントに基づいて、前記ニューラルネットワークの第1損失値を得ることであって、前記第1損失値は、前記検出された人体キーポイントと前記アノテーションされた人体キーポイントとの差異を表す、ことと、
前記検出された人体向き及び前記アノテーションされた人体向きに基づいて、前記ニューラルネットワークの第2損失値を得ることであって、前記第2損失値は、前記検出された人体向きと前記アノテーションされた人体向きとの差異を表す、ことと、
前記第1損失値及び前記第2損失値に基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含むことを特徴とする
請求項5に記載の方法。
【請求項9】
人体向き検出装置であって、前記装置は、抽出モジュールと、処理モジュールと、を備え、
抽出モジュールは、処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得るように構成され、
処理モジュールは、前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定し、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定するように構成される、人体向き検出装置。
【請求項10】
電子機器であって、前記電子機器は、プロセッサと、プロセッサで実行可能なコンピュータプログラムを記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記コンピュータプログラムを実行し、請求項1から8のいずれか一項に記載の方法を実行するように構成される、電子機器。
【請求項11】
コンピュータ記憶媒体であって、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、前記プロセッサに、請求項1から8のいずれか一項に記載の方法を実現させる、コンピュータ記憶媒体。

【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0024
【補正方法】変更
【補正の内容】
【0024】
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。
例えば、本願は以下の項目を提供する。
(項目1)
人体向き検出方法であって、
処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得ることと、
前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定することと、
決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定することと、を含む、人体向き検出方法。
(項目2)
決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定することは、
前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致することに応答して、前記初歩的な人体向きを前記最終的な人体向きとして決定することを含むことを特徴とする
項目1に記載の方法。
(項目3)
決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定することは、
前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致しないことに応答して、前記決定された人体キーポイントで表れる人体向きを前記最終的な人体向きとして決定することを含むことを特徴とする
項目1に記載の方法。
(項目4)
処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得て、前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定するステップは、ニューラルネットワークにより実行され、前記ニューラルネットワークは、第1サンプル画像及び第2サンプル画像により訓練して得られたものであり、前記第1サンプル画像に第1人体画像及びアノテーションされた人体キーポイントが含まれ、前記第2サンプル画像は、第2人体画像及びアノテーションされた人体向きを含むことを特徴とする
項目1-3のいずれか一項に記載の方法。
(項目5)
前記ニューラルネットワークが第1サンプル画像及び第2サンプル画像により訓練して得られたものであることは、
前記第1サンプル画像及び前記第2サンプル画像に対して特徴抽出を行い、前記第1サンプル画像及び前記第2サンプル画像の特徴を得ることと、
前記第1サンプル画像の特徴に基づいて歩行者キーポイント検出を行い、前記第1サンプル画像の人体キーポイントを得ることと、
前記第2サンプル画像の特徴に基づいて向き検出を行い、前記第2サンプル画像の人体向きを得ることと、
検出された人体キーポイント、アノテーションされた人体キーポイント、検出された人体向き及びアノテーションされた人体向きに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含むことを特徴とする
項目4に記載の方法。
(項目6)
前記第1サンプル画像及び前記第2サンプル画像に対して特徴抽出を行い、前記第1サンプル画像及び前記第2サンプル画像の特徴を得ることは、
前記第1サンプル画像と前記第2サンプル画像をスティッチングし、スティッチング後の画像データに対して特徴抽出を行い、スティッチング後の画像データの特徴を得ることと、
前記第1サンプル画像と前記第2サンプル画像とのスティッチング方式に応じて、前記スティッチング後の画像データの特徴を前記第1サンプル画像の特徴及び前記第2サンプル画像の特徴に分割することと、を含むことを特徴とする
項目5に記載の方法。
(項目7)
前記第1サンプル画像と前記サンプル画像をスティッチングすることは、
前記第1サンプル画像と前記第2サンプル画像をバッチ次元に沿ってスティッチングすることを含み、
前記第1サンプル画像と前記第2サンプル画像をスティッチングする前に、前記方法は、
前記第1サンプル画像及び前記第2サンプル画像をチャネル、高さ及び幅という3つの次元で同じくなるように調整することを更に含むことを特徴とする
項目6に記載の方法。
(項目8)
検出された人体キーポイント、アノテーションされた人体キーポイント、検出された人体向き及びアノテーションされた人体向きに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することは、
前記検出された人体キーポイント及び前記アノテーションされた人体キーポイントに基づいて、前記ニューラルネットワークの第1損失値を得ることであって、前記第1損失値は、前記検出された人体キーポイントと前記アノテーションされた人体キーポイントとの差異を表す、ことと、
前記検出された人体向き及び前記アノテーションされた人体向きに基づいて、前記ニューラルネットワークの第2損失値を得ることであって、前記第2損失値は、前記検出された人体向きと前記アノテーションされた人体向きとの差異を表す、ことと、
前記第1損失値及び前記第2損失値に基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含むことを特徴とする
項目5に記載の方法。
(項目9)
人体向き検出装置であって、前記装置は、抽出モジュールと、処理モジュールと、を備え、
抽出モジュールは、処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得るように構成され、
処理モジュールは、前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定し、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定するように構成される、人体向き検出装置。
(項目10)
前記処理モジュールは、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定するように構成され、前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致することに応答して、前記初歩的な人体向きを前記最終的な人体向きとして決定することを含むことを特徴とする
項目9に記載の装置。
(項目11)
前記処理モジュールは、決定された人体キーポイント及び初歩的な人体向きに基づいて、最終的な人体向きを決定するように構成され、前記決定された人体キーポイントで表れる人体向きが前記初歩的な人体向きに合致しないことに応答して、前記決定された人体キーポイントで表れる人体向きを前記最終的な人体向きとして決定することを含むことを特徴とする
項目9に記載の装置。
(項目12)
処理対象画像に対して特徴抽出を行い、前記処理対象画像の特徴を得て、前記処理対象画像の特徴に基づいて、人体キーポイント及び初歩的な人体向きを決定するステップは、ニューラルネットワークにより実行され、前記ニューラルネットワークは、第1サンプル画像及び第2サンプル画像により訓練して得られたものであり、前記第1サンプル画像に第1人体画像及びアノテーションされた人体キーポイントが含まれ、前記第2サンプル画像は、第2人体画像及びアノテーションされた人体向きを含むことを特徴とする
項目9-11のいずれか一項に記載の装置。
(項目13)
前記装置は、訓練モジュールを更に備え、前記訓練モジュールは、第1サンプル画像及び第2サンプル画像により前記ニューラルネットワークを訓練するように構成され、
前記第1サンプル画像及び前記第2サンプル画像に対して特徴抽出を行い、前記第1サンプル画像及び前記第2サンプル画像の特徴を得ることと、前記第1サンプル画像の特徴に基づいて歩行者キーポイント検出を行い、前記第1サンプル画像の人体キーポイントを得ることと、前記第2サンプル画像の特徴に基づいて向き検出を行い、前記第2サンプル画像の人体向きを得ることと、
検出された人体キーポイント、アノテーションされた人体キーポイント、検出された人体向き及びアノテーションされた人体向きに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含むことを特徴とする
項目12に記載の装置。
(項目14)
前記訓練モジュールは、前記第1サンプル画像及び前記第2サンプル画像に対して特徴抽出を行い、前記第1サンプル画像及び前記第2サンプル画像の特徴を得るように構成され、
前記第1サンプル画像と前記第2サンプル画像をスティッチングし、スティッチング後の画像データに対して特徴抽出を行い、スティッチング後の画像データの特徴を得ることと、
前記第1サンプル画像と前記第2サンプル画像とのスティッチング方式に応じて、前記スティッチング後の画像データの特徴を前記第1サンプル画像の特徴及び前記第2サンプル画像の特徴に分割することと、を含むことを特徴とする
項目13に記載の装置。
(項目15)
前記訓練モジュールは、前記第1サンプル画像と前記第2サンプル画像をスティッチングするように構成され、前記第1サンプル画像と前記第2サンプル画像をバッチ次元に沿ってスティッチングすることを含み、
前記訓練モジュールは更に、前記第1サンプル画像と前記第2サンプル画像をスティッチングする前に、前記第1サンプル画像及び前記第2サンプル画像をチャネル、高さ及び幅という3つの次元で同じくなるように調整するように構成されることを特徴とする
項目14に記載の装置。
(項目16)
前記訓練モジュールは、検出された人体キーポイント、アノテーションされた人体キーポイント、検出された人体向き及びアノテーションされた人体向きに基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整するように構成され、
前記検出された人体キーポイント及び前記アノテーションされた人体キーポイントに基づいて、前記ニューラルネットワークの第1損失値を得ることであって、前記第1損失値は、前記検出された人体キーポイントと前記アノテーションされた人体キーポイントとの差異を表す、ことと、
前記検出された人体向き及び前記アノテーションされた人体向きに基づいて、前記ニューラルネットワークの第2損失値を得ることであって、前記第2損失値は、前記検出された人体向きと前記アノテーションされた人体向きとの差異を表す、ことと、
前記第1損失値及び前記第2損失値に基づいて、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含むことを特徴とする
項目13に記載の装置。
(項目17)
電子機器であって、前記電子機器は、プロセッサと、プロセッサで実行可能なコンピュータプログラムを記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記コンピュータプログラムを実行し、項目1から8のいずれか一項に記載の方法を実行するように構成される、電子機器。
(項目18)
コンピュータ記憶媒体であって、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、項目1から8のいずれか一項に記載の方法を実現する、コンピュータ記憶媒体。
【国際調査報告】