IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 深▲せん▼市商▲湯▼科技有限公司の特許一覧

特表2022-531188人体キーポイント検出方法及び装置、電子機器並びに記憶媒体
<>
  • 特表-人体キーポイント検出方法及び装置、電子機器並びに記憶媒体 図1
  • 特表-人体キーポイント検出方法及び装置、電子機器並びに記憶媒体 図2
  • 特表-人体キーポイント検出方法及び装置、電子機器並びに記憶媒体 図3
  • 特表-人体キーポイント検出方法及び装置、電子機器並びに記憶媒体 図4
  • 特表-人体キーポイント検出方法及び装置、電子機器並びに記憶媒体 図5
  • 特表-人体キーポイント検出方法及び装置、電子機器並びに記憶媒体 図6
  • 特表-人体キーポイント検出方法及び装置、電子機器並びに記憶媒体 図7
  • 特表-人体キーポイント検出方法及び装置、電子機器並びに記憶媒体 図8
  • 特表-人体キーポイント検出方法及び装置、電子機器並びに記憶媒体 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-06
(54)【発明の名称】人体キーポイント検出方法及び装置、電子機器並びに記憶媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220629BHJP
【FI】
G06T7/00 660B
G06T7/00 350C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021564295
(86)(22)【出願日】2020-03-19
(85)【翻訳文提出日】2021-10-28
(86)【国際出願番号】 CN2020080231
(87)【国際公開番号】W WO2021008158
(87)【国際公開日】2021-01-21
(31)【優先権主張番号】201910635763.6
(32)【優先日】2019-07-15
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.SMALLTALK
(71)【出願人】
【識別番号】519453342
【氏名又は名称】深▲せん▼市商▲湯▼科技有限公司
【氏名又は名称原語表記】SHENZHEN SENSETIME TECHNOLOGY CO., LTD.
【住所又は居所原語表記】Room 201, Building A, No. 1, Qianwan Road, Qianhai Shenzhen-Hongkong Modern Service Industry Cooperation Zone Shenzhen, Guangdong 518000 (CN)
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】▲劉▼文▲韜▼
(72)【発明者】
【氏名】郭玉京
(72)【発明者】
【氏名】王勇望
(72)【発明者】
【氏名】▲錢▼晨
(72)【発明者】
【氏名】李佳▲樺▼
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA09
5L096FA09
5L096FA66
5L096FA67
5L096FA69
5L096GA40
5L096HA08
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
本願は、人体キーポイント検出方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、画像に人体が含まれることが検出されたことに応答して、前記画像における、人体キーポイント位置を識別するための二次元座標データを抽出し、2D位置姿勢データを得ることと、前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行い、人体キーポイント位置を識別するための3D位置姿勢データを得ることと、を含む。本願を用いて、人体が運動状態にある時に、正確な人体キーポイント検出を実現させることができる。
【選択図】図1
【特許請求の範囲】
【請求項1】
人体キーポイント検出方法であって、前記方法は、
画像に人体が含まれることが検出されたことに応答して、前記画像における、人体キーポイント位置を識別するための二次元座標データを抽出し、2D位置姿勢データを得ることと、
前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行い、人体キーポイント位置を識別するための3D位置姿勢データを得ることと、を含むことを特徴とする、人体キーポイント検出方法。
【請求項2】
前記方法は、前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行う前に、
RGB画像データストリームにおける各フレームの画像と同一の画像に対応する深度データに対して、データアライメント前処理を行い、RGBD画像データストリームを得ることを更に含むことを特徴とする
請求項1に記載の方法。
【請求項3】
画像に人体が含まれることが検出されることは、
現在のフレームの画像に対して前記第1画像処理を行った後に複数の画像特徴を得ることと、
少なくとも1フレームの画像の検出を完了するまで、人体認識ネットワークにより、前記複数の画像特徴が人体キーポイント特徴であると判定した場合、前記現在のフレームの画像に人体が含まれることを検出することと、を含むことを特徴とする
請求項1又は2に記載の方法。
【請求項4】
前記方法は、前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行う前に、
少なくとも1フレームの画像の処理を完了するまで、現在のフレームの画像に対して第2画像処理を行った後に複数の深度データを得ることを更に含むことを特徴とする
請求項2に記載の方法。
【請求項5】
前記方法は、
第1人体運動状態を取得することと、
前記第1人体運動状態に対応する人体キーポイント位置の変化を第1の3D位置姿勢データにより記述することと、
前記第1の3D位置姿勢データに基づいて第1制御命令を生成し、前記第1制御命令を受信側装置に送信し、前記受信側装置のディスプレイに、前記第1人体運動状態に対応する動作模擬操作を表示することと、を更に含むことを特徴とする
請求項1から4のうちいずれか一項に記載の方法。
【請求項6】
前記方法は、
第2人体運動状態を取得することと、
前記第2人体運動状態に対応する人体キーポイント位置の変化を第2の3D位置姿勢データにより記述することと、
前記第2の3D位置姿勢データを事前設定された位置姿勢データと比較し、比較結果が不一致である場合、第2制御命令を生成することと、
前記第2制御命令に基づいて、リマインド情報を発信し、前記リマインド情報に基づいて、前記第2人体運動状態をターゲット状態に合致するまで調整することと、を更に含むことを特徴とする
請求項1から4のうちいずれか一項に記載の方法。
【請求項7】
前記方法は、
第3人体運動状態を取得することと、
前記第3人体運動状態に対応する人体キーポイント位置の変化を第3の3D位置姿勢データにより記述することと、
前記第3の3D位置姿勢データを受信側装置に送信し、前記受信側装置のディスプレイに、アバターによる前記第3の3D位置姿勢データのサンプリングにより実行される操作を表示することと、を更に含むことを特徴とする
請求項1から4のうちいずれか一項に記載の方法。
【請求項8】
前記人体認識ネットワークの訓練過程は、
事前にアノテーションされた人体キーポイント特徴を訓練サンプルデータとし、出力結果がネットワーク訓練条件を満たすまで、前記訓練サンプルデータを訓練しようとする人体認識ネットワークに入力して訓練を行い、訓練後に前記人体認識ネットワークを得ることを含むことを特徴とする
請求項3に記載の方法。
【請求項9】
人体キーポイント検出装置であって、前記装置は、
画像に人体が含まれることが検出されたことに応答して、前記画像における、人体キーポイント位置を識別するための二次元座標データを抽出し、2D位置姿勢データを得るように構成される検出モジュールと、
前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行い、人体キーポイント位置を識別するための3D位置姿勢データを得るように構成される融合モジュールと、を備えることを特徴とする、人体キーポイント検出装置。
【請求項10】
前記装置は、
RGB画像データストリームにおける各フレームの画像と同一の画像に対応する深度データに対して、データアライメント前処理を行い、RGBD画像データストリームを得るように構成される前処理モジュールを更に備えることを特徴とする
請求項9に記載の装置。
【請求項11】
前記検出モジュールは更に、
現在のフレームの画像に対して前記第1画像処理を行った後に複数の画像特徴を得て、
少なくとも1フレームの画像の検出を完了するまで、人体認識ネットワークにより、前記複数の画像特徴が人体キーポイント特徴であると判定した場合、前記現在のフレームの画像に人体が含まれることを検出するように構成されることを特徴とする
請求項10に記載の装置。
【請求項12】
前記装置は、
少なくとも1フレームの画像の処理を完了するまで、現在のフレームの画像に対して前記第2画像処理を行った後に複数の深度データを得るように構成される画像処理モジュールを更に備えることを特徴とする
請求項10に記載の装置。
【請求項13】
前記装置は、
第1人体運動状態を取得するように構成される第1姿勢取得モジュールと、
前記第1人体運動状態に対応する人体キーポイント位置の変化を第1の3D位置姿勢データにより記述するように構成される第1データ記述モジュールと、
前記第1の3D位置姿勢データに基づいて第1制御命令を生成し、前記第1制御命令を受信側装置に送信し、前記受信側装置のディスプレイに、前記第1人体運動状態に対応する動作模擬操作を表示するように構成される第1命令送信モジュールと、を更に備えることを特徴とする
請求項9から12のうちいずれか一項に記載の装置。
【請求項14】
前記装置は、
第2人体運動状態を取得するように構成される第2姿勢取得モジュールと、
前記第2人体運動状態に対応する人体キーポイント位置の変化を第2の3D位置姿勢データにより記述するように構成される第2データ記述モジュールと、
前記第2の3D位置姿勢データを事前設定された位置姿勢データと比較し、比較結果が不一致である場合、第2制御命令を生成するように構成されるデータ比較モジュールと、
前記第2制御命令に基づいて、リマインド情報を発信し、前記リマインド情報に基づいて、前記第2人体運動状態をターゲット状態に合致するまで調整するように構成されるリマインド情報送信モジュールと、を更に備えることを特徴とする
請求項9から12のうちいずれか一項に記載の装置。
【請求項15】
前記装置は、
第3人体運動状態を取得するように構成される第3姿勢取得モジュールと、
前記第3人体運動状態に対応する人体キーポイント位置の変化を第3の3D位置姿勢データにより記述するように構成される第3データ記述モジュールと、
前記第3の3D位置姿勢データを受信側装置に送信し、前記受信側装置のディスプレイに、アバターによる前記第3の3D位置姿勢データのサンプリングにより実行される操作を表示するように構成される第2命令送信モジュールと、を更に備えることを特徴とする
請求項9から12のうちいずれか一項に記載の装置。
【請求項16】
前記装置は、
前記人体認識ネットワークの訓練過程において、事前にアノテーションされた人体キーポイント特徴を訓練サンプルデータとし、出力結果がネットワーク訓練条件を満たすまで、前記訓練サンプルデータを訓練しようとする人体認識ネットワークに入力して訓練を行い、訓練後に前記人体認識ネットワークを得るように構成されるネットワーク訓練モジュールを更に備えることを特徴とする
請求項11に記載の装置。
【請求項17】
電子機器であって、前記電子機器は、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと備え、
前記プロセッサは、請求項1から8のうちいずれか一項に記載の方法を実行するように構成されることを特徴とする、電子機器。
【請求項18】
コンピュータ可読記憶媒体であって、コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、請求項1から8のうちいずれか一項に記載の方法を実現させることを特徴とする、コンピュータ可読記憶媒体。
【請求項19】
コンピュータプログラムであって、前記コンピュータプログラムが電子機器で実行される時、前記電子機器におけるプロセッサは、請求項1から8のうちいずれか一項に記載の方法を実行することを特徴とする、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2019年07月15日に中国特許局に提出された、出願番号が201910635763.6であり、名称が「人体キーポイント検出方法及び装置、電子機器並びに記憶媒体」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
【0002】
本願は、人体検出技術分野に関し、特に人体キーポイント検出方法及び装置、電子機器並びに記憶媒体に関する。
【背景技術】
【0003】
関連技術において、人体キーポイント検出技術は、深層学習アルゴリズムに基づいて開発されたものである。コンピュータの演算力が高まり、データセットが拡大している背景において、深層学習アルゴリズムは、機械学習の1つの重要な分岐として、各業界に適用されている。しかしながら、体感ゲーム、人体動的監視などのような適用シーンにおいて、人体が運動状態にある時に、正確な人体キーポイント検出を如何に正確に実現させるかについて、現在、効果的な解決手段がない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願は、人体キーポイント検出の技術的解決手段を提供する。
【課題を解決するための手段】
【0005】
本願の一態様によれば、人体キーポイント検出方法を提供する。前記方法は、
画像に人体が含まれることが検出されたことに応答して、前記画像における、人体キーポイント位置を識別するための二次元座標データを抽出し、2D位置姿勢データを得ることと、
前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行い、人体キーポイント位置を識別するための3D位置姿勢データを得ることと、を含む。
【0006】
本願を用いて、画像における、人体キーポイント位置を識別するための二次元座標データを抽出し、2D位置姿勢データを得ることができる。2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行うことで得られた3D位置姿勢データは、人体キーポイント位置を識別するための三次元座標データである。人体キーポイント位置を識別するための三次元座標データにより、人体が運動状態にある時に、正確な人体キーポイント検出を実現させることができる。
【0007】
可能な実現形態において、前記方法は、前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行う前に、
RGB画像データストリームにおける各フレームの画像と同一の画像に対応する深度データに対して、データアライメント前処理を行い、RGBD画像データストリームを得ることを更に含む。
【0008】
本願を用いて、RGBデータと深度データをアライメントし、RGBDデータを得ることで、データの前処理を実現させることができる。続いて、該RGBデータ及びRGBDデータに対して対応する画像処理をそれぞれ行う。
【0009】
可能な実現形態において、画像に人体が含まれることが検出されることは、
現在のフレームの画像に対して前記第1画像処理を行った後に複数の画像特徴を得ることと、
少なくとも1フレームの画像の検出を完了するまで、人体認識ネットワークにより、前記複数の画像特徴が人体キーポイント特徴であると判定した場合、前記現在のフレームの画像に人体が含まれることを検出することと、を含む。
【0010】
本願を用いて、人体認識ネットワークにより、前記複数の画像特徴が人体キーポイント特徴であると判定した場合、前記現在のフレームの画像に人体が含まれることを検出することができる。
【0011】
可能な実現形態において、前記方法は、前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行う前に、
少なくとも1フレームの画像の処理を完了するまで、現在のフレームの画像に対して前記第2画像処理を行った後に複数の深度データを得ることを更に含む。
【0012】
本願を用いて、少なくとも1フレームの画像の処理を完了するまで、現在のフレームの画像に対して前記第2画像処理を行った後に複数の深度データを得る。続いて、複数の深度データと2D位置姿勢データを結合し、人体キーポイントの特徴融合を実現させる。
【0013】
可能な実現形態において、前記方法は、
第1人体運動状態を取得することと、
前記第1人体運動状態に対応する人体キーポイント位置の変化を第1の3D位置姿勢データにより記述することと、
前記第1の3D位置姿勢データに基づいて第1制御命令を生成し、前記第1制御命令を受信側装置に送信し、前記受信側装置のディスプレイに、前記第1人体運動状態に対応する動作模擬操作を表示することと、を更に含む。
【0014】
本願を用いて、前記第1人体運動状態に対応する人体キーポイント位置の変化を第1の3D位置姿勢データにより記述し、第1制御命令を受信側装置に送信することで、受信側装置のディスプレイに、前記第1人体運動状態に対応する動作模擬操作を表示することを実現させる。
【0015】
可能な実現形態において、前記方法は、
第2人体運動状態を取得することと、
前記第2人体運動状態に対応する人体キーポイント位置の変化を第2の3D位置姿勢データにより記述することと、
前記第2の3D位置姿勢データを事前設定された位置姿勢データと比較し、比較結果が不一致である場合、第2制御命令を生成することと、
前記第2制御命令に基づいて、リマインド情報を発信し、前記リマインド情報に基づいて、前記第2人体運動状態をターゲット状態に合致するまで調整することと、を更に含む。
【0016】
本願を用いて、前記第2人体運動状態に対応する人体キーポイント位置の変化を第2の3D位置姿勢データにより記述し、第2制御命令により、リマインド情報を発信することで、リマインド情報に基づいて第2人体運動状態をターゲット状態に合致するまで調整すること実現させる。
【0017】
可能な実現形態において、前記方法は、
第3人体運動状態を取得することと、
前記第3人体運動状態に対応する人体キーポイント位置の変化を第3の3D位置姿勢データにより記述することと、
前記第3の3D位置姿勢データを受信側装置に送信し、前記受信側装置のディスプレイに、アバターによる前記第3の3D位置姿勢データのサンプリングにより実行される操作を表示することと、を更に含む。
【0018】
本願を用いて、前記第3人体運動状態に対応する人体キーポイント位置の変化を第3の3D位置姿勢データにより記述し、前記第3の3D位置姿勢データを受信側装置に送信することで、前記受信側装置のディスプレイに、アバターによる前記第3の3D位置姿勢データのサンプリングにより実行される操作を表示することを実現させる。
【0019】
可能な実現形態において、前記人体認識ネットワークの訓練過程は、
事前にアノテーションされた人体キーポイント特徴を訓練サンプルデータとし、出力結果がネットワーク訓練条件を満たすまで、前記訓練サンプルデータを訓練しようとする人体認識ネットワークに入力して訓練を行い、訓練後に前記人体認識ネットワークを得ることを含む。
【0020】
本願を用いて、事前にアノテーションされた人体キーポイント特徴を訓練サンプルデータとし、前記訓練サンプルデータを訓練しようとする人体認識ネットワークに入力して訓練を行う。訓練後に得られた人体認識ネットワークを人体キーポイント検出に用い、且つ検出の高効率及び正確性を確保することができる。
【0021】
本願の一態様によれば、人体キーポイント検出装置を提供する。前記装置は、
画像に人体が含まれることが検出されたことに応答して、前記画像における、人体キーポイント位置を識別するための二次元座標データを抽出し、2D位置姿勢データを得るように構成される検出モジュールと、
前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行い、人体キーポイント位置を識別するための3D位置姿勢データを得るように構成される融合モジュールと、を備える。
【0022】
可能な実現形態において、前記装置は、
RGB画像データストリームにおける各フレームの画像と同一の画像に対応する深度データに対して、データアライメント前処理を行い、RGBD画像データストリームを得るように構成される前処理モジュールを更に備える。
【0023】
可能な実現形態において、前記検出モジュールは更に、
現在のフレームの画像に対して前記第1画像処理を行った後に複数の画像特徴を得て、
少なくとも1フレームの画像の検出を完了するまで、人体認識ネットワークにより、前記複数の画像特徴が人体キーポイント特徴であると判定した場合、前記現在のフレームの画像に人体が含まれることを検出するように構成される。
【0024】
可能な実現形態において、前記装置は、
少なくとも1フレームの画像の処理を完了するまで、現在のフレームの画像に対して前記第2画像処理を行った後に複数の深度データを得るように構成される画像処理モジュールを更に備える。
【0025】
可能な実現形態において、前記装置は、
第1人体運動状態を取得するように構成される第1姿勢取得モジュールと、
前記第1人体運動状態に対応する人体キーポイント位置の変化を第1の3D位置姿勢データにより記述するように構成される第1データ記述モジュールと、
前記第1の3D位置姿勢データに基づいて第1制御命令を生成し、前記第1制御命令を受信側装置に送信し、前記受信側装置のディスプレイに、前記第1人体運動状態に対応する動作模擬操作を表示するように構成される第1命令送信モジュールと、を更に備える。
【0026】
可能な実現形態において、前記装置は、
第2人体運動状態を取得するように構成される第2姿勢取得モジュールと、
前記第2人体運動状態に対応する人体キーポイント位置の変化を第2の3D位置姿勢データにより記述するように構成される第2データ記述モジュールと、
前記第2の3D位置姿勢データを事前設定された位置姿勢データと比較し、比較結果が不一致である場合、第2制御命令を生成するように構成されるデータ比較モジュールと、
前記第2制御命令に基づいて、リマインド情報を発信し、前記リマインド情報に基づいて、前記第2人体運動状態をターゲット状態に合致するまで調整するように構成されるリマインド情報送信モジュールと、を更に備える。
【0027】
可能な実現形態において、前記装置は、
第3人体運動状態を取得するように構成される第3姿勢取得モジュールと、
前記第3人体運動状態に対応する人体キーポイント位置の変化を第3の3D位置姿勢データにより記述するように構成される第3データ記述モジュールと、
前記第3の3D位置姿勢データを受信側装置に送信し、前記受信側装置のディスプレイに、アバターによる前記第3の3D位置姿勢データのサンプリングにより実行される操作を表示するように構成される第2命令送信モジュールと、を更に備える。
【0028】
可能な実現形態において、前記装置は、
前記人体認識ネットワークの訓練過程において、事前にアノテーションされた人体キーポイント特徴を訓練サンプルデータとし、出力結果がネットワーク訓練条件を満たすまで、前記訓練サンプルデータを訓練しようとする人体認識ネットワークに入力して訓練を行い、訓練後に前記人体認識ネットワークを得るように構成されるネットワーク訓練モジュールを更に備える。
【0029】
本願の一態様によれば、電子機器を提供する。前記電子機器は、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと備え、
前記プロセッサは、上記人体キーポイント検出方法を実行するように構成される。
【0030】
本願の一態様によれば、コンピュータ可読記憶媒体を提供する。該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、上記人体キーポイント検出方法を実現させる。
【0031】
本願の一態様によれば、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサは、上記人体キーポイント検出方法を実行する。
【発明の効果】
【0032】
本願において、画像に人体が含まれることが検出されたことに応答して、前記画像における、人体キーポイント位置を識別するための二次元座標データを抽出し、2D位置姿勢データを得る。前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行い、人体キーポイント位置を識別するための3D位置姿勢データを得る。本願を用いて、画像における、人体キーポイント位置を識別するための二次元座標データを抽出し、2D位置姿勢データを得ることができる。2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行うことで得られた3D位置姿勢データは、人体キーポイント位置を識別するための三次元座標データである。人体キーポイント位置を識別するための三次元座標データにより、人体が運動状態にある時に、正確な人体キーポイント検出を実現させることができる。
【0033】
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。
【0034】
本発明の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。
【図面の簡単な説明】
【0035】
図1】本願の実施例による人体キーポイント検出方法を示すフローチャートである。
図2】本願の実施例による人体キーポイント検出方法を示すフローチャートである。
図3】本願の実施例による人体骨格キーポイントを示す概略図である。
図4】本願の実施例による携帯電話端末を手で持つユーザとテレビなどの大画面装置とのインタラクションシーンを示す図である。
図5】本願の実施例によるアバター生成シーンを示す図である。
図6】本願の実施例による人体検出方策を示す概略図である。
図7】本願の実施例による人体キーポイント検出装置を示すブロック図である。
図8】本願の実施例による電子機器を示すブロック図である。
図9】本願の実施例による電子機器を示すブロック図である。
【0036】
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本発明に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。
【発明を実施するための形態】
【0037】
以下、図面を参照しながら本願の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。図面は、実施例の種々の態様を示しているが、特別な説明がない限り、必ずしも比率どおりの図面ではない。
【0038】
ここで使用した「例示的」という用語は「例、実施例として用いられるか、または説明のためのものである」ことを意味する。ここで、「例示的なもの」として説明される如何なる実施例は、他の実施例より好適または有利であると必ずしも解釈されるべきではない。
【0039】
本明細書において、用語「及び/又は」は、関連対象の関連関係を説明するためのものであり、3通りの関係が存在することを表す。例えば、A及び/又はBは、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在するという3つの場合を表す。また、本明細書において、用語「少なくとも1つ」は、複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組み合わせを表す。例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選ばれるいずれか1つ又は複数の要素を含むことを表す。
【0040】
なお、本願をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本開示は同様に実施可能であると理解すべきである。本発明の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。
【0041】
人体キーポイント検出技術は、深層学習アルゴリズムに基づいて開発されたものである。深層学習アルゴリズムは、迅速に進化しており、広く注目されている。コンピュータの演算力が高まり、データセットが拡大している背景において、深層学習アルゴリズムは、機械学習の1つの重要な分岐として、各業界に適用されている。コンピュータビジョン分野において、深層学習は、優れた演算効果、高いロバスト性を有するため、業界中の肝心な技術になっていた。深層学習畳み込みニューラルネットワークにより、画像におけるキーポイント特徴を効果的に抽出することができる。従来の全結合ニューラルネットワークに、パラメータの数が多く、画素同士の位置情報が利用されておらず、ネットワークの深さが限定されている(ネットワークが深いほど、表現能力が高くなるが、これに伴って、訓練パラメータも大量増加する)などの問題がある。畳み込みニューラルネットワーク(CNN)は、これらの問題を好適に解決した。まず、CNNにおける接続は、局所的接続である。各ニューロンは、上位層の少なくとも1つのニューロンに接続されることなく、小部分のニューロンのみに接続される。それと同時に、一組の接続は、同一の重みパラメータを共有することができる。また、サブサンプリングの方策により、パラメータの数を大幅に減少させる。全結合ネットワークの一次元配列と異なっており、CNNのニューロン構造は、三次元配列である。大量の重要でないパラメータを除去し、重要な重み値を保留することで、深層ニューラルネットワークを実現させる。これにより、複雑さがより高いより多くの情報を処理することができる。
【0042】
2D人体キーポイントは実際適用において制限があるため、三次元座標の取得は不可能である。3D方策により、該欠陥を補うことができるが、RGBデータのみに頼って、予測した3Dキーポイントを出力すると、該検出方策の精度は低い。3D方策において深度データの入力及び結合があるため、より正確な三次元座標点を出力することができる。しかしながら、深度データのみに基づいて対応する3Dキーポイントを出力すると、ハードウェアのデプスマップの品質に大きく制限されることがある。
【0043】
本願の人体キーポイント検出の技術案を用いて、RGBデータにより予測された3D座標と深度データを整合することで、3Dハードウェアモジュールにより収集された深度データの正確性への依存を効果的に低下させることができ、より高い検出精度及びロバスト性を実現させることができる。
【0044】
図1は、本願の実施例による人体キーポイント検出方法を示すフローチャートである。該人体キーポイント検出方法は、人体キーポイント検出装置に適用される。例えば、人体キーポイント検出装置は、端末装置、サーバ又は他の処理装置により実行されてもよい。ここで、端末装置は、ユーザ装置(UE:User Equipment)、携帯機器、セルラ電話、コードレス電話、パーソナルデジタルアシスタント(PDA:Personal Digital Assistant)、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。幾つかの可能な実現形態において、該人体キーポイント検出方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。図1に示すように、該プロセスは、以下を含む。
【0045】
ステップS101において、画像に人体が含まれることが検出されたことに応答して、前記画像における、人体キーポイント位置を識別するための二次元座標データを抽出し、2D位置姿勢データを得る。
【0046】
ステップS102において、前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行い、人体キーポイント位置を識別するための3D位置姿勢データを得る。
【0047】
本願を用いて、2D位置姿勢データ+深度データにより、3D位置姿勢データを得ることができる。ここで、2D位置姿勢データは、RGB画像における、人体キーポイントの二次元座標である。3D位置姿勢データは、3Dの人体キーポイントである。3D位置姿勢データにより、運動状態にある人体に対して、正確な人体キーポイント検出を行うことができる。例えば、運動状態を手上げ、キック、首振り、腰曲がりのうちの少なくとも1つのノード位置姿勢に分解することで、これらのノードの位置姿勢に対応する人体キーポイント検出を追跡することができる。
【0048】
図2は、本願の実施例による人体キーポイント検出方法を示すフローチャートである。該人体キーポイント検出方法は、人体キーポイント検出装置に適用される。例えば、人体キーポイント検出装置は、端末装置、サーバ又は他の処理装置により実行されてもよい。ここで、端末装置は、ユーザ装置(UE:User Equipment)、携帯機器、セルラ電話、コードレス電話、パーソナルデジタルアシスタント(PDA:Personal Digital Assistant)、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。幾つかの可能な実現形態において、該人体キーポイント検出方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。図2に示すように、該プロセスは、以下を含む。
【0049】
ステップS201において、RGB画像データストリームにおける各フレームの画像と同一の画像に対応する深度データに対して、データアライメント前処理を行い、RGBD画像データストリームを得る。
【0050】
一例において、データ前処理について、RGBデータと深度データに対してアライメントを行い、RGBDデータを得る必要がある。続いて、本方法における該RGBデータ及びRGBDデータに対する処理をそれぞれ実行することができる。
【0051】
ステップS202において、RGB画像データストリームから、画像に人体が含まれることを検出し、画像における、人体キーポイント位置を識別するための二次元座標データを抽出し、2D位置姿勢データを得る。
【0052】
ステップS203において、RGBD画像データストリームから、深度データを取得し、2D位置姿勢データ及び深度データ(人体キーポイント位置に対応する深度データ)に対して人体キーポイントの特徴融合を行い、人体キーポイント位置を識別するための3D位置姿勢データを得る。
【0053】
本願を用いて、前処理を行った後、各RGB及びRGBDからなるデータペアは、同一の視野角の画像フレームに対応する。RGB画像データストリームにおける各フレームの画像の人体キーポイントと同一の画像における人体キーポイントに対応する深度データをアライメントすることで、画像におけるいずれか1つの人体キーポイントに、該人体キーポイント位置を表す二次元座標を持たせると共に、該人体キーポイントの運動の変動を表す距離値も持たせる。従って、該人体キーポイント位置に対する三次元情報を得る。ここで、深度データは、デプスマップ(DepthMap)から取得される。カメラ又は撮像モジュールを含む収集シーンにおいて、DepthMapは、該シーンにおける収集されるターゲット対応の表面との距離に関わる情報からなる画像(又は画像チャネル)と言える。該シーンにおける少なくとも1つの点とカメラ又は撮像モジュールとの距離をデプスマップで表す場合、デプスマップにおける各画素値は、シーンにおける1つの点とカメラとの距離を表すことができる。
【0054】
本願の可能な実現形態において、画像に人体が含まれることが検出されることは、前記RGB画像データストリームを取得し、前記RGB画像データストリームにおける各フレームの画像に対して第1画像処理を行うことと、現在のフレームの画像に対して前記第1画像処理を行った後、複数の画像特徴を得ることと、少なくとも1フレームの画像の検出を完了するまで、人体認識ネットワークにより、前記複数の画像特徴が人体キーポイント特徴であると判定した場合、前記現在のフレームの画像に人体が含まれることを検出することと、を含む。
【0055】
本願の可能な実現形態において、前記方法は、前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行う前に、前記RGBD画像データストリームを取得し、前記RGBD画像データストリームにおける各フレームの画像に対して第2画像処理を行うことと、少なくとも1フレームの画像の処理を完了するまで、現在のフレームの画像に対して前記第2画像処理を行った後に複数の深度データを得ることと、を更に含む。
【0056】
一例において、データアライメント前処理は、複数のRGBデータストリームに基づいて複数のRGBDデータストリームを得ることである。RGB画像データストリームにおける各フレームの画像の人体キーポイントと同一の画像における人体キーポイントに対応する深度データをアライメントすることができる。RGB及びRGBDをデータペアと見做すと、各RGB及びRGBDからなるデータペアは、同一の視野角に対応する画像フレームである。データアライメント前処理を行った後、複数のRGB及びRGBDからなるデータペアを入力することができる。例えば、本願の人体キーポイント検出プロセスの論理モデルに2つの入力として入力し、第1入力データ(RGBデータ)に対して第1画像処理を行った後、訓練された人体追跡ネットワークにより、現在の画像フレームに人体が検出されているかどうかを判定する。人体が検出された場合、現在の画像フレームにおけるターゲットRGBデータを後続のステップに渡す。後続のステップにおいて、第2入力データ(RGBDデータ)に対して第2画像処理を行った後、RGBDデータとターゲットRGBデータを結合し、RGBDデータ及びターゲットRGBデータに基づいて、3D位置姿勢データ(3D座標の人体骨格キーポイント)を得る。動的追跡は、3D座標により、人体骨格キーポイントの3D位置姿勢データを表すことで、運動状態にある人体の追跡を実現し、例えば、ノードの位置姿勢ペアの変動を追跡する。手上げ、キック、首振り、腰曲がりなどの少なくとも1つの人体動作をサポートする。
【0057】
一例において、本願の人体キーポイント検出プロセスを実行する処理論理は、オフライン側ソフトウェア開発キット(SDK:Software Development Kit)の形式で携帯電話に集積される。携帯電話を携帯側としたアルゴリズムの最適化により、上記処理論理の実行速度を速くすることができる。従来技術のC/Sオンラインモードは、処理論理をサーバに配置する。従って、端末が要求をサーバに発信すると、両者間に伝送遅延が発生しやすいか、又はネットワーク故障により端末により要求された処理結果を直ちに得ることができないことを引き起こす。本願いは、処理論理をSDKオフラインモードで端末に配置することで、検出方法の処理効率を大幅に向上させる。
【0058】
図3は、本願の実施例による人体骨格キーポイントを示す概略図である。図面に人体骨格の17個のキーポイントが含まれる。該17個のキーポイントを検出することで、手上げ、キック、首振り、腰曲がりなどの少なくとも1つの人体動作のようなユーザの動的姿勢変動をリアルタイムに追跡することができる。
【0059】
例えば、携帯電話端末を手持つユーザとテレビなどの大画面装置とのインタラクションシーンにおいて、第1人体運動状態(例えば、テニスをプレーする場合のスイング動作など)を取得し、前記第1人体運動状態に対応する人体キーポイント位置の変化を第1の3D位置姿勢データで記述する。前記第1の3D位置姿勢データに基づいて第1制御命令を生成し、前記第1制御命令を受信側装置に送信し、前記受信側装置のディスプレイに、前記第1人体運動状態に対応する動作模擬操作を表示する。これは、一例だけであり、本願は、他のインタラクションシーンにも適用可能である。このような携帯電話側の体感ゲームは、Xbox(登録商標)、Switch(登録商標)等のような関連技術における体感ゲーム機を採用しようとする場合、装置を別途購入する必要があり、使用コスト及び空間コストは、携帯電話端末よりも高い。本願によれば、ユーザは、飛行時間(ToF:Time of Flight)型携帯電話を所有すれば、ディスプレイに接続してゲームを進めることができる。また、3D人体座標検出技術を利用することで、より豊富なゲームコンテンツを実現させることができる。ToF型携帯電話に、TOFモジュールが設けられてもよい。その3Dイメージング方策は、ターゲット物体に光パルスを連続的に送信し、続いて、センサにより、ターゲット物体からの光を受信し、光パルスの飛行(往復)時間を探測することでターゲット物体と収集位置との距離を得ることである。
【0060】
図4は、本願の実施例による携帯電話端末を手で持つユーザとテレビなどの大画面装置とのインタラクションシーンを示す図である。該シーンは、バドミントンをするというインタラクションシーンである。ユーザの人体骨格キーポイントを検出することで、ユーザの現在の姿勢変動を追跡し、得られた姿勢変動をテレビなどの電子機器に送信し、対応する姿勢変動を該電子機器に表示する。
【0061】
携帯電話を手持つユーザが体を鍛える時に、体鍛え姿勢を如何に補正するかに関するシーンにおいて、第2人体運動状態(例えば、両手を挙げようとして水平面と90度をなす)、前記第2人体運動状態に対応する人体キーポイント位置の変化を第2の3D位置姿勢データにより記述する。前記第2の3D位置姿勢データを事前設定された位置姿勢データと比較し、比較結果が不一致である場合、第2制御命令を生成する(例えば、ユーザが両手を上げた後、85度を達し、事前設定された位置姿勢データ「90度」と一致しない)。前記第2制御命令に基づいて、リマインド情報を発信し、前記リマインド情報に基づいて、前記第2人体運動状態をターゲット状態に合致するまで調整する。ここで、前記リマインド情報は、音声、文字、音声光電などの情報を含む。これにより、現在の運動姿勢が全く正しくないか又は姿勢が整っていないなどをユーザに注意喚起する。これは、例だけであり、本願は、他の体鍛え姿勢補正シーンにも適用可能である。例えば、本願に基づいて、フィットネス産業用仮想フィットネストレーナーソフトウェアを開発し、携帯電話又は類似した3Dモジュールによりユーザのフィットネス動作を検出し、指導することができる。
【0062】
例えば、ユーザの人体データをアバターに適用するシーンにおいて、第3人体運動状態(例えば、ユーザのランキング姿勢)を取得し、前記第3人体運動状態に対応する人体キーポイント位置の変化を第3の3D位置姿勢データで記述する。前記第3の3D位置姿勢データを受信側装置に送信し、前記受信側装置のディスプレイに、アバターの前記第3の3D位置姿勢データのサンプリングにより実行される操作を表示する(アバターは、ゲームシーンにおいて走っている動物、男の子、女の子であってもよい)。これは、一例だけであり、本願は、他のアバターシーンにも適用可能である。例えば、本願に基づいて仮想ゲームを開発し、ユーザ動作をリアルタイムに捕捉することで、人間の代わりに、アバターを駆動する。該ゲームシーンは、タッチパネル間のインタラクション方式である。図5は、本願の実施例によるアバター生成シーンを示す図である。該シーンは、パルクールシーンである。ユーザの人体骨格キーポイントを検出することで、テレビなどの電子機器におけるアバターに対応する姿勢変動データを生成し、対応する姿勢変動を該電子機器に表示することができる。
【0063】
本願の可能な実現形態において、前記人体認識ネットワークの訓練過程は、事前にアノテーションされた人体キーポイント特徴を訓練サンプルデータとし、出力結果がネットワーク訓練条件を満たすまで、前記訓練サンプルデータを訓練しようとする人体認識ネットワーク(例えば、CNN)に入力して訓練を行い、訓練後に前記人体認識ネットワークを得ることを含む。CNNにより、画像における人体キーポイント特徴を抽出することができる。人体骨格キーポイントアノテーションデータセットにより訓練されたアルゴリズムモデルは、画像に人体が含まれるかどうかを認識するために用いられる。深層学習アルゴリズムの優れた特性により、深度データを利用することで、正確なノード位置姿勢ペアを得て、ノード姿勢ペアの変動をリアルタイムに追跡することができる。手上げ、キック、首振り、腰曲がりなどの少なくとも1つの人体動作をサポートする。
【0064】
適用例:
図6は、本願の実施例による人体検出方策を示す概略図である。図6において、RGB画像データストリーム及びRGBD画像データストリームのような2つの画像データストリームにたいしてそれぞれ画像処理を行う。RGB画像データストリームに対する処理において、画像処理を行った後、現在のRGB画像フレームに人体が検出されているかどうかを判定する。人体を検出した場合、現在のRGB画像フレームにおけるターゲットRGBデータを後続のRGBD画像データストリームに対する処理において処理する。RGBD画像データストリームに対する処理において、画像処理を行った後、得られたターゲットRGBDデータ(深度データ)とターゲットRGBデータ(2D位置姿勢データ)を結合することで、2D位置姿勢データ及び深度データに基づいて、3D位置姿勢データを得て、つまり、3D座標の人体骨架キーポイントを得る。3D位置姿勢データに対してデータ変換を行った後にデータ変換結果を得て、少なくとも1つのシーンの検出処理に用いる。
【0065】
具体的な実施形態の上記方法において、各ステップの記述順番は、厳しい実行順番として実施過程を限定するものではなく、各ステップの具体的な実行順番はその機能及び考えられる内在的論理により決まることは、当業者であれば理解すべきである。
【0066】
本願で言及した上記各方法の実施例は、原理や論理から逸脱しない限り、互いに組み合わせることで組み合わせた実施例を構成することができ、紙数に限りがあるため、本願において逐一説明しないことが理解されるべきである。
【0067】
なお、本願は、人体キーポイント検出装置、電子機器、コンピュータ可読記憶媒体、プログラムを更に提供する。上記はいずれも、本願で提供されるいずれか1つの人体キーポイント検出方法を実現させるためのものである。対応する技術的解決手段及び説明は、方法に関連する記述を参照されたい。ここで、詳細な説明を省略する。
【0068】
図7は、本願の実施例による人体キーポイント検出装置を示すブロック図である。図7に示すように、本願の実施例の人体キーポイント検出装置は、画像に人体が含まれることが検出されたことに応答して、前記画像における、人体キーポイント位置を識別するための二次元座標データを抽出し、2D位置姿勢データを得るように構成される検出モジュール31と、前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行い、人体キーポイント位置を識別するための3D位置姿勢データを得るように構成される融合モジュール32と、を備える。
【0069】
可能な実現形態において、前記装置は、
RGB画像データストリームにおける各フレームの画像と同一の画像に対応する深度データに対して、データアライメント前処理を行い、RGBD画像データストリームを得るように構成される前処理モジュールを更に備える。
【0070】
可能な実現形態において、前記検出モジュールは更に、現在のフレームの画像に対して前記第1画像処理を行った後に複数の画像特徴を得て、少なくとも1フレームの画像の検出を完了するまで、人体認識ネットワークにより、前記複数の画像特徴が人体キーポイント特徴であると判定した場合、前記現在のフレームの画像に人体が含まれることを検出するように構成される。
【0071】
可能な実現形態において、前記装置は、少なくとも1フレームの画像の処理を完了するまで、現在のフレームの画像に対して前記第2画像処理を行った後に複数の深度データを得るように構成される画像処理モジュールを更に備える。
【0072】
可能な実現形態において、前記装置は、第1人体運動状態を取得するように構成される第1姿勢取得モジュールと、前記第1人体運動状態に対応する人体キーポイント位置の変化を第1の3D位置姿勢データにより記述するように構成される第1データ記述モジュールと、前記第1の3D位置姿勢データに基づいて第1制御命令を生成し、前記第1制御命令を受信側装置に送信し、前記受信側装置のディスプレイに、前記第1人体運動状態に対応する動作模擬操作を表示するように構成される第1命令送信モジュールと、を更に備える。
【0073】
可能な実現形態において、前記装置は、第2人体運動状態を取得するように構成される第2姿勢取得モジュールと、前記第2人体運動状態に対応する人体キーポイント位置の変化を第2の3D位置姿勢データにより記述するように構成される第2データ記述モジュールと、前記第2の3D位置姿勢データを事前設定された位置姿勢データと比較し、比較結果が不一致である場合、第2制御命令を生成するように構成されるデータ比較モジュールと、前記第2制御命令に基づいて、リマインド情報を発信し、前記リマインド情報に基づいて、前記第2人体運動状態をターゲット状態に合致するまで調整するように構成されるリマインド情報送信モジュールと、を更に備える。
【0074】
可能な実現形態において、前記装置は、第3人体運動状態を取得するように構成される第3姿勢取得モジュールと、前記第3人体運動状態に対応する人体キーポイント位置の変化を第3の3D位置姿勢データにより記述するように構成される第3データ記述モジュールと、前記第3の3D位置姿勢データを受信側装置に送信し、前記受信側装置のディスプレイに、アバターによる前記第3の3D位置姿勢データのサンプリングにより実行される操作を表示するように構成される第2命令送信モジュールと、を更に備える。
【0075】
可能な実現形態において、前記装置は、前記人体認識ネットワークの訓練過程において、事前にアノテーションされた人体キーポイント特徴を訓練サンプルデータとし、出力結果がネットワーク訓練条件を満たすまで、前記訓練サンプルデータを訓練しようとする人体認識ネットワークに入力して訓練を行い、訓練後に前記人体認識ネットワークを得るように構成されるネットワーク訓練モジュールを更に備える。
【0076】
幾つかの実施例において、本願の実施例で提供される装置における機能及びモジュールは、上記方法実施例に記載の方法を実行するために用いられ、具体的な実現形態は上記方法実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。
【0077】
本願の実施例はコンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、上記人体キーポイント検出方法を実現させる。コンピュータ可読記憶媒体は不揮発性コンピュータ可読記憶媒体であってもよい。
【0078】
本願の実施例は電子機器を更に提供する。該電子機器は、プロセッサと、プロセッサによる実行可能な命令を記憶するためのメモリとを備え、前記プロセッサは、上記人体キーポイント検出方法を実行するように構成される。
【0079】
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
【0080】
本願の実施例は、コンピュータプログラムを更に提供する。該コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサは、上記人体キーポイント検出方法を実行する。
【0081】
図8は一例示的な実施例による電子機器800を示すブロック図である。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどの端末であってもよい。
【0082】
図8を参照すると、電子機器800は、処理ユニット802、メモリ804、電源ユニット806、マルチメディアユニット808、オーディオユニット810、入力/出力(I/O)インタフェース812、センサユニット814及び通信ユニット816のうちの1つ又は複数を備えてもよい。
【0083】
処理ユニット802は一般的には、電子機器800の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理ユニット802は、指令を実行するための1つ又は複数のプロセッサ820を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理ユニット802は、他のユニットとのインタラクションのために、1つ又は複数のモジュールを備えてもよい。例えば、処理ユニット802はマルチメディアモジュールを備えることで、マルチメディアユニット808と処理ユニット802とのインタラクションに寄与する。
【0084】
メモリ804は、各種のデータを記憶することで電子機器800における操作をサポートするように構成される。これらのデータの例として、電子機器800上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ804は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能なプログラマブル読み出し専用メモリ(EEPROM)、電気的に消去可能なプログラマブル読出し専用メモリ(EPROM)、プログラマブル読出し専用メモリ(PROM)、読出し専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。
【0085】
電源ユニット806は電子機器800の様々なユニットに電力を提供する。電源ユニット806は、電源管理システム、1つ又は複数の電源、及び電子機器800のための電力生成、管理、分配に関連する他のユニットを備えてもよい。
【0086】
マルチメディアユニット808は、上記電子機器800とユーザとの間に出力インタフェースを提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する1つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアユニット808は、フロントカメラ及び/又はリアカメラを備える。電子機器800が、撮影モード又は映像モードのような操作モードであれば、フロントカメラ及び/又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。
【0087】
オーディオユニット810は、オーディオ信号を出力/入力するように構成される。例えば、オーディオユニット810は、マイクロホン(MIC)を備える。電子機器800が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ804に記憶するか、又は通信ユニット816を経由して送信することができる。幾つかの実施例において、オーディオユニット810は、オーディオ信号を出力するように構成されるスピーカーを更に備える。
【0088】
I/Oインタフェース812は、処理ユニット802と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。
【0089】
センサユニット814は、1つ又は複数のセンサを備え、電子機器800のために様々な状態の評価を行うように構成される。例えば、センサユニット814は、収音音量制御用装置のオン/オフ状態、ユニットの相対的な位置決めを検出することができる。例えば、上記ユニットが電子機器800のディスプレイ及びキーパッドである。センサユニット814は電子機器800又は電子機器800における1つのユニットの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位又は加速/減速及び電子機器800の温度の変動を検出することもできる。センサユニット814は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサユニット814は、CMOS又はCCD画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサユニット814は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。
【0090】
通信ユニット816は、電子機器800と他の機器との有線又は無線方式の通信に寄与するように構成される。電子機器800は、WiFi、2G又は3G、4G LTE、5G NR又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信ユニット816は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、上記通信ユニット816は、近接場通信(NFC)モジュールを更に備えることで近距離通信を促進する。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術に基づいて実現される。
【0091】
例示的な実施例において、電子機器800は、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理機器(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、上記方法を実行するように構成されてもよい。
【0092】
例示的な実施例において、コンピュータプログラム命令を含むメモリ804のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器800のプロセッサ820により実行され上記方法を完了する。
【0093】
図9は、一例示的な実施例による電子機器900を示すブロック図である。例えば、電子機器900は、サーバとして提供されてもよい。図9を参照すると、電子機器900は、処理ユニット922を備える。ぞれは1つ又は複数のプロセッサと、メモリ932で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理ユニット922により実行される命令を記憶するためのものである。メモリ932に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する1つ又は1つ以上のモジュールを含んでもよい。なお、処理ユニット922は、命令を実行して、上記方法を実行するように構成される。
【0094】
電子機器900は、電子機器900の電源管理を実行するように構成される電源ユニット926と、電子機器900をネットワークに接続するように構成される有線又は無線ネットワークインタフェース950と、入力出力(I/O)インタフェース958を更に備えてもよい。電子機器900は、Windows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標), Linux(登録商標)、FreeBSDTM又は類似したものような、メモリ932に記憶されているオペレーティングシステムを実行することができる。
【0095】
例示的な実施例において、例えば、コンピュータプログラム命令を含むメモリ932のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器900の処理ユニット922により実行されて上記方法を完了する。
【0096】
本願は、システム、方法及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本願の各態様を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。
【0097】
コンピュータ可読記憶媒体は、命令実行装置に用いられる命令を保持又は記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、デジタル多目的ディスク(DVD)、メモリスティック、フレキシブルディスク、命令が記憶されているパンチカード又は凹溝内における突起構造のような機械的符号化装置、及び上記任意の適切な組み合わせを含む。ここで用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通って伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、または、電線を通して伝送される電気信号などの、一時的な信号それ自体であると解釈されるべきではない。
【0098】
ここで説明されるコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体から各コンピューティング/処理装置にダウンロードすることができるか、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又は無線ネットワークのようなネットワークを経由して外部コンピュータ又は外部記憶装置にダウンロードすることができる。ネットワークは、伝送用銅線ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び/又はエッジサーバを含んでもよい。各コンピューティング/処理装置におけるネットワークインターフェースカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各コンピューティング/処理装置におけるコンピュータ可読記憶媒体に記憶する。
【0099】
本願の操作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は1つ又は複数のプログラミング言語で記述されたソースコード又はターゲットコードであってもよい。前記プログラミング言語は、Smalltalk、C++などのようなオブジェクト指向プログラミング言語と、「C」プログラミング言語又は類似したプログラミング言語などの従来の手続型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザコンピュータ上で完全に実行してもよいし、ユーザコンピュータ上で部分的に実行してもよいし、独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行してリモートコンピュータ上で部分的に実行してもよいし、又はリモートコンピュータ又はサーバ上で完全に実行してもよい。リモートコンピュータの場合に、リモートコンピュータは、ローカルエリアネットワーク(LAN)やワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを通じてユーザのコンピュータに接続するか、または、外部のコンピュータに接続することができる(例えばインターネットサービスプロバイダを用いてインターネットを通じて接続する)。幾つかの実施例において、コンピュータ可読プログラム命令の状態情報を利用して、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)又はプログラマブル論理アレイ(PLA)のような電子回路をカスタマイズする。該電子回路は、コンピュータ可読プログラム命令を実行することで、本願の各態様を実現させることができる。
【0100】
ここで、本願の実施例の方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照しながら、本願の各態様を説明する。フローチャート及び/又はブロック図の各ブロック及びフローチャート及び/又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令により実現できる。
【0101】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたはその他プログラマブルデータ処理装置のプロセッサに提供でき、それによって機器を生み出し、これら命令はコンピュータまたはその他プログラマブルデータ処理装置のプロセッサにより実行される時、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現する装置を生み出した。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよい。これらの命令によれば、コンピュータ、プログラマブルデータ処理装置及び/又は他の装置は特定の方式で動作する。従って、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図おける1つ又は複数のブロック中で規定している機能/操作を実現する各態様の命令を含む製品を備える。
【0102】
コンピュータ可読プログラム命令をコンピュータ、他のプログラマブルデータ処理装置又は他の装置にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で一連の操作の工程を実行して、コンピュータで実施されるプロセスを生成する。従って、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で実行される命令により、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現させる。
【0103】
図面におけるフローチャート及びブック図は、本願の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を表すことができる。前記モジュール、、プログラムセグメント又は命令の一部は、1つまたは複数の所定の論理機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、二つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができる。
【0104】
以上は本発明の各実施例を説明したが、前記説明は例示的なものであり、網羅するものではなく、且つ開示した各実施例に限定されない。説明した各実施例の範囲と趣旨から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到しえるものである。本明細書に用いられる用語の選択は、各実施例の原理、実際の応用、或いは市場における技術の改善を最もよく解釈すること、或いは他の当業者が本明細書に開示された各実施例を理解できることを目的とする。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【手続補正書】
【提出日】2021-10-28
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
人体キーポイント検出方法であって、前記方法は、
画像に人体が含まれることが検出されたことに応答して、前記画像における、人体キーポイント位置を識別するための二次元座標データを抽出し、2D位置姿勢データを得ることと、
前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行い、人体キーポイント位置を識別するための3D位置姿勢データを得ることと、を含むことを特徴とする、人体キーポイント検出方法。
【請求項2】
前記方法は、前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行う前に、
RGB画像データストリームにおける各フレームの画像と同一の画像に対応する深度データに対して、データアライメント前処理を行い、RGBD画像データストリームを得ることを更に含むことを特徴とする
請求項1に記載の方法。
【請求項3】
画像に人体が含まれることが検出されることは、
現在のフレームの画像に対して前記第1画像処理を行った後に複数の画像特徴を得ることと、
少なくとも1フレームの画像の検出を完了するまで、人体認識ネットワークにより、前記複数の画像特徴が人体キーポイント特徴であると判定した場合、前記現在のフレームの画像に人体が含まれることを検出することと、を含むことを特徴とする
請求項1又は2に記載の方法。
【請求項4】
前記方法は、前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行う前に、
少なくとも1フレームの画像の処理を完了するまで、現在のフレームの画像に対して第2画像処理を行った後に複数の深度データを得ることを更に含むことを特徴とする
請求項2に記載の方法。
【請求項5】
前記方法は、
第1人体運動状態を取得することと、
前記第1人体運動状態に対応する人体キーポイント位置の変化を第1の3D位置姿勢データにより記述することと、
前記第1の3D位置姿勢データに基づいて第1制御命令を生成し、前記第1制御命令を受信側装置に送信し、前記受信側装置のディスプレイに、前記第1人体運動状態に対応する動作模擬操作を表示することと、を更に含むことを特徴とする
請求項1から4のうちいずれか一項に記載の方法。
【請求項6】
前記方法は、
第2人体運動状態を取得することと、
前記第2人体運動状態に対応する人体キーポイント位置の変化を第2の3D位置姿勢データにより記述することと、
前記第2の3D位置姿勢データを事前設定された位置姿勢データと比較し、比較結果が不一致である場合、第2制御命令を生成することと、
前記第2制御命令に基づいて、リマインド情報を発信し、前記リマインド情報に基づいて、前記第2人体運動状態をターゲット状態に合致するまで調整することと、を更に含むことを特徴とする
請求項1から4のうちいずれか一項に記載の方法。
【請求項7】
前記方法は、
第3人体運動状態を取得することと、
前記第3人体運動状態に対応する人体キーポイント位置の変化を第3の3D位置姿勢データにより記述することと、
前記第3の3D位置姿勢データを受信側装置に送信し、前記受信側装置のディスプレイに、アバターによる前記第3の3D位置姿勢データのサンプリングにより実行される操作を表示することと、を更に含むことを特徴とする
請求項1から4のうちいずれか一項に記載の方法。
【請求項8】
前記人体認識ネットワークの訓練過程は、
事前にアノテーションされた人体キーポイント特徴を訓練サンプルデータとし、出力結果がネットワーク訓練条件を満たすまで、前記訓練サンプルデータを訓練しようとする人体認識ネットワークに入力して訓練を行い、訓練後に前記人体認識ネットワークを得ることを含むことを特徴とする
請求項3に記載の方法。
【請求項9】
人体キーポイント検出装置であって、前記装置は、
画像に人体が含まれることが検出されたことに応答して、前記画像における、人体キーポイント位置を識別するための二次元座標データを抽出し、2D位置姿勢データを得るように構成される検出モジュールと、
前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行い、人体キーポイント位置を識別するための3D位置姿勢データを得るように構成される融合モジュールと、を備えることを特徴とする、人体キーポイント検出装置。
【請求項10】
電子機器であって、前記電子機器は、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと備え、
前記プロセッサは、請求項1から8のうちいずれか一項に記載の方法を実行するように構成されることを特徴とする、電子機器。
【請求項11】
コンピュータ可読記憶媒体であって、コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、請求項1から8のうちいずれか一項に記載の方法を実現させることを特徴とする、コンピュータ可読記憶媒体。
【請求項12】
コンピュータプログラムであって、前記コンピュータプログラムが電子機器で実行される時、前記電子機器におけるプロセッサは、請求項1から8のうちいずれか一項に記載の方法を実行することを特徴とする、コンピュータプログラム。

【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0031
【補正方法】変更
【補正の内容】
【0031】
本願の一態様によれば、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサは、上記人体キーポイント検出方法を実行する。
例えば、本願は以下の項目を提供する。
(項目1)
人体キーポイント検出方法であって、前記方法は、
画像に人体が含まれることが検出されたことに応答して、前記画像における、人体キーポイント位置を識別するための二次元座標データを抽出し、2D位置姿勢データを得ることと、
前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行い、人体キーポイント位置を識別するための3D位置姿勢データを得ることと、を含むことを特徴とする、人体キーポイント検出方法。
(項目2)
前記方法は、前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行う前に、
RGB画像データストリームにおける各フレームの画像と同一の画像に対応する深度データに対して、データアライメント前処理を行い、RGBD画像データストリームを得ることを更に含むことを特徴とする
項目1に記載の方法。
(項目3)
画像に人体が含まれることが検出されることは、
現在のフレームの画像に対して前記第1画像処理を行った後に複数の画像特徴を得ることと、
少なくとも1フレームの画像の検出を完了するまで、人体認識ネットワークにより、前記複数の画像特徴が人体キーポイント特徴であると判定した場合、前記現在のフレームの画像に人体が含まれることを検出することと、を含むことを特徴とする
項目1又は2に記載の方法。
(項目4)
前記方法は、前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行う前に、
少なくとも1フレームの画像の処理を完了するまで、現在のフレームの画像に対して第2画像処理を行った後に複数の深度データを得ることを更に含むことを特徴とする
項目2に記載の方法。
(項目5)
前記方法は、
第1人体運動状態を取得することと、
前記第1人体運動状態に対応する人体キーポイント位置の変化を第1の3D位置姿勢データにより記述することと、
前記第1の3D位置姿勢データに基づいて第1制御命令を生成し、前記第1制御命令を受信側装置に送信し、前記受信側装置のディスプレイに、前記第1人体運動状態に対応する動作模擬操作を表示することと、を更に含むことを特徴とする
項目1から4のうちいずれか一項に記載の方法。
(項目6)
前記方法は、
第2人体運動状態を取得することと、
前記第2人体運動状態に対応する人体キーポイント位置の変化を第2の3D位置姿勢データにより記述することと、
前記第2の3D位置姿勢データを事前設定された位置姿勢データと比較し、比較結果が不一致である場合、第2制御命令を生成することと、
前記第2制御命令に基づいて、リマインド情報を発信し、前記リマインド情報に基づいて、前記第2人体運動状態をターゲット状態に合致するまで調整することと、を更に含むことを特徴とする
項目1から4のうちいずれか一項に記載の方法。
(項目7)
前記方法は、
第3人体運動状態を取得することと、
前記第3人体運動状態に対応する人体キーポイント位置の変化を第3の3D位置姿勢データにより記述することと、
前記第3の3D位置姿勢データを受信側装置に送信し、前記受信側装置のディスプレイに、アバターによる前記第3の3D位置姿勢データのサンプリングにより実行される操作を表示することと、を更に含むことを特徴とする
項目1から4のうちいずれか一項に記載の方法。
(項目8)
前記人体認識ネットワークの訓練過程は、
事前にアノテーションされた人体キーポイント特徴を訓練サンプルデータとし、出力結果がネットワーク訓練条件を満たすまで、前記訓練サンプルデータを訓練しようとする人体認識ネットワークに入力して訓練を行い、訓練後に前記人体認識ネットワークを得ることを含むことを特徴とする
項目3に記載の方法。
(項目9)
人体キーポイント検出装置であって、前記装置は、
画像に人体が含まれることが検出されたことに応答して、前記画像における、人体キーポイント位置を識別するための二次元座標データを抽出し、2D位置姿勢データを得るように構成される検出モジュールと、
前記2D位置姿勢データ及び前記人体キーポイント位置に対応する深度データに対して、人体キーポイントの特徴融合を行い、人体キーポイント位置を識別するための3D位置姿勢データを得るように構成される融合モジュールと、を備えることを特徴とする、人体キーポイント検出装置。
(項目10)
前記装置は、
RGB画像データストリームにおける各フレームの画像と同一の画像に対応する深度データに対して、データアライメント前処理を行い、RGBD画像データストリームを得るように構成される前処理モジュールを更に備えることを特徴とする
項目9に記載の装置。
(項目11)
前記検出モジュールは更に、
現在のフレームの画像に対して前記第1画像処理を行った後に複数の画像特徴を得て、
少なくとも1フレームの画像の検出を完了するまで、人体認識ネットワークにより、前記複数の画像特徴が人体キーポイント特徴であると判定した場合、前記現在のフレームの画像に人体が含まれることを検出するように構成されることを特徴とする
項目10に記載の装置。
(項目12)
前記装置は、
少なくとも1フレームの画像の処理を完了するまで、現在のフレームの画像に対して前記第2画像処理を行った後に複数の深度データを得るように構成される画像処理モジュールを更に備えることを特徴とする
項目10に記載の装置。
(項目13)
前記装置は、
第1人体運動状態を取得するように構成される第1姿勢取得モジュールと、
前記第1人体運動状態に対応する人体キーポイント位置の変化を第1の3D位置姿勢データにより記述するように構成される第1データ記述モジュールと、
前記第1の3D位置姿勢データに基づいて第1制御命令を生成し、前記第1制御命令を受信側装置に送信し、前記受信側装置のディスプレイに、前記第1人体運動状態に対応する動作模擬操作を表示するように構成される第1命令送信モジュールと、を更に備えることを特徴とする
項目9から12のうちいずれか一項に記載の装置。
(項目14)
前記装置は、
第2人体運動状態を取得するように構成される第2姿勢取得モジュールと、
前記第2人体運動状態に対応する人体キーポイント位置の変化を第2の3D位置姿勢データにより記述するように構成される第2データ記述モジュールと、
前記第2の3D位置姿勢データを事前設定された位置姿勢データと比較し、比較結果が不一致である場合、第2制御命令を生成するように構成されるデータ比較モジュールと、
前記第2制御命令に基づいて、リマインド情報を発信し、前記リマインド情報に基づいて、前記第2人体運動状態をターゲット状態に合致するまで調整するように構成されるリマインド情報送信モジュールと、を更に備えることを特徴とする
項目9から12のうちいずれか一項に記載の装置。
(項目15)
前記装置は、
第3人体運動状態を取得するように構成される第3姿勢取得モジュールと、
前記第3人体運動状態に対応する人体キーポイント位置の変化を第3の3D位置姿勢データにより記述するように構成される第3データ記述モジュールと、
前記第3の3D位置姿勢データを受信側装置に送信し、前記受信側装置のディスプレイに、アバターによる前記第3の3D位置姿勢データのサンプリングにより実行される操作を表示するように構成される第2命令送信モジュールと、を更に備えることを特徴とする
項目9から12のうちいずれか一項に記載の装置。
(項目16)
前記装置は、
前記人体認識ネットワークの訓練過程において、事前にアノテーションされた人体キーポイント特徴を訓練サンプルデータとし、出力結果がネットワーク訓練条件を満たすまで、前記訓練サンプルデータを訓練しようとする人体認識ネットワークに入力して訓練を行い、訓練後に前記人体認識ネットワークを得るように構成されるネットワーク訓練モジュールを更に備えることを特徴とする
項目11に記載の装置。
(項目17)
電子機器であって、前記電子機器は、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと備え、
前記プロセッサは、項目1から8のうちいずれか一項に記載の方法を実行するように構成されることを特徴とする、電子機器。
(項目18)
コンピュータ可読記憶媒体であって、コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、項目1から8のうちいずれか一項に記載の方法を実現させることを特徴とする、コンピュータ可読記憶媒体。
(項目19)
コンピュータプログラムであって、前記コンピュータプログラムが電子機器で実行される時、前記電子機器におけるプロセッサは、項目1から8のうちいずれか一項に記載の方法を実行することを特徴とする、コンピュータプログラム。
【国際調査報告】