(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-12
(45)【発行日】2024-06-20
(54)【発明の名称】3次元人体姿勢推定方法及びその装置、コンピュータデバイス、並びにコンピュータプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240613BHJP
G06V 10/82 20220101ALI20240613BHJP
【FI】
G06T7/00 660Z
G06T7/00 350C
G06V10/82
(21)【出願番号】P 2022556105
(86)(22)【出願日】2021-06-07
(86)【国際出願番号】 CN2021098627
(87)【国際公開番号】W WO2022022063
(87)【国際公開日】2022-02-03
【審査請求日】2022-10-26
(31)【優先権主張番号】202010734364.8
(32)【優先日】2020-07-27
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514187420
【氏名又は名称】テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】チェン,ウェイドン
(72)【発明者】
【氏名】ジャン,ウェイ
(72)【発明者】
【氏名】カン,ディー
(72)【発明者】
【氏名】バオ,リンチャオ
【審査官】佐田 宏史
(56)【参考文献】
【文献】特開2019-079487(JP,A)
【文献】中国特許出願公開第110020611(CN,A)
【文献】米国特許出願公開第2020/0218883(US,A1)
【文献】特表2014-501011(JP,A)
【文献】特開2018-129008(JP,A)
【文献】特開2017-097577(JP,A)
【文献】特開2008-140101(JP,A)
【文献】特開2007-333690(JP,A)
【文献】国際公開第2004/094943(WO,A1)
【文献】中国特許出願公開第107240124(CN,A)
【文献】中国特許出願公開第109829972(CN,A)
【文献】米国特許出願公開第2019/0251341(US,A1)
【文献】山根 亮、外2名,“スイックモデルを用いたステレオ動画像からの実時間人物動作復元”,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2000年03月17日,Vol.99, No.710,pp.89-96
【文献】佐藤 明知、外3名,“多視点動画像からの人間動作の追跡と再構成”,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,1997年06月25日,Vol.J80-D-II, No.6,pp.1581-1589
【文献】嶌田 聡、外2名,“足圧分布とカメラ画像の統合処理による人物の姿勢計測”,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1999年01月21日,Vol.98, No.527,pp.23-30
【文献】星野 竜也、外3名,“映像からの実時間身体姿勢計測 -高精度化と頑健化を目指して-”,電気学会研究会資料 情報処理研究会・産業システム情報化合同研究会,日本,社団法人電気学会,2002年08月23日,pp.37-42
【文献】山添 大丈、外3名,“多視点視覚システムにおけるカメラ位置・姿勢推定の分散化とその人物追跡システムへの適用”,映像情報メディア学会誌,日本,(社)映像情報メディア学会,2004年11月01日,Vol.58, No.11,pp.1639-1648
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00,7/00-7/90
G06V 10/00-10/98
G01B 11/00-11/30
(57)【特許請求の範囲】
【請求項1】
コンピュータデバイスが実行する3次元人体姿勢推定方法であって、
n個の視野角のビデオフレームシーケンスを取得するステップであって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、nは1より大きい整数である、ステップと、
ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するステップと、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するステップと、
前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するステップと、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するステップと、
を含
み、
前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得する前記ステップは、
ソフト損失係数の多視野角制約に基づいて、前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定結果を取得するステップと、
前記多視野角姿勢推定結果を前記タイムスタンプの前から後の順にソートして、前記多視野角姿勢推定シーケンスを取得するステップと、を含み、
前記ソフト損失係数は、前記n個の視野角を介して同一グループの人体骨格を共有使用するときに存在するオフセット誤差に対する許容を示すために使用され、
前記初期化姿勢推定結果は、対応する単一フレームビデオフレームにおける2次元人体キーポイントを含み、
前記多視野角制約は、第1の再投影点と前記2次元人体キーポイントとの間の距離損失を含み、前記第1の再投影点は、前記多視野角姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に投影される点であり、
前記ソフト損失係数は、前記第1の再投影点と前記2次元人体キーポイントとの間の距離に作用する許容係数であり、前記ソフト損失係数は、前記距離と正の相関関係にある、方法。
【請求項2】
前記多視野角マルチフレーム姿勢推定結果は、人体パラメータ化モデルにおける姿勢パラメータを用いて表し、前記人体パラメータ化モデルは、複数の定点によって形成される人体メッシュを有し、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得する前記ステップは、
時系列制約に基づいて、前記多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するステップを含み、
前記時系列制約は、隣接する2フレームの間の姿勢推定差分損失、隣接する2フレームの間の頂点差分損失、隣接する2フレームの間の第2の再投影点の差分損失のうち少なくとも1つを含み、前記第2の再投影点は、前記多視野角マルチフレーム姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に再投影される点である、請求項
1に記載の方法。
【請求項3】
前記人体パラメータ化モデルに基づいて、前記多視野角マルチフレーム姿勢推定結果を表すための姿勢パラメータによって、前記ビデオフレームシーケンスによって示される人体に対応するバーチャル人間を生成するステップ、をさらに含む請求項
2に記載の方法。
【請求項4】
前記ニューラルネットワークモデルは、コンボリューションニューラルネットワークを含み、ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出する前記ステップは、
前記n個の視野角における単一フレームビデオフレームの2次元人体キーポイントを抽出するステップと、
前記コンボリューションニューラルネットワークによって前記単一フレームビデオフレームの人体姿勢推定結果を抽出するステップと、
前記2次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの2次元手がかりとして決定し、前記2次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とするステップと、を含む、請求項
1に記載の方法。
【請求項5】
前記ニューラルネットワークモデルはさらに、2次元人体キーポイントを抽出するための第1のモデルと、人体分割結果を抽出するための第2のモデルを含み、前記n個の視野角における単一フレームビデオフレームの2次元人体キーポイントを抽出する前記ステップは、
前記第1のモデルによって前記n個の視野角における単一フレームビデオフレームの2次元人体キーポイントを抽出するステップを含み、
前記方法はさらに、前記第2のモデルによって前記n個の視野角における単一フレームビデオフレームの人体分割結果を抽出するステップを含む、請求項
4に記載の方法。
【請求項6】
前記2次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの2次元手がかりとして決定し、前記2次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とする前記ステップは、
前記2次元人体キーポイント、前記人体分割結果及び前記人体姿勢推定結果を前記単一フレームビデオフレームの2次元手がかりとして決定し、前記2次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とするステップを含む、請求項
5に記載の方法。
【請求項7】
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得する前記ステップは、
前記2次元手がかりの制約に基づいて、前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するステップを含み、
前記2次元手がかりの制約は、第3の再投影点と前記2次元人体キーポイントとの間の距離損失及び信頼度圧縮係数を含み、前記第3の再投影点は、前記単視野角姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に投影される点であり、
前記信頼度圧縮係数は、前記第3の再投影点と前記2次元人体キーポイントとの間の距離に作用する圧縮係数であり、前記信頼度圧縮係数は、前記2次元人体キーポイントの信頼度と負の相関関係にある、請求項
4に記載の方法。
【請求項8】
3次元人体姿勢推定装置であって、
n個の視野角のビデオフレームシーケンスを取得するための取得モジュールであって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、nは1より大きい整数である、取得モジュールと、
ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するための初期化モジュールと、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するための単視野角推定モジュールと、
前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するための多視野角推定モジュールと、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するためのマルチフレーム推定モジュールと、を含
み、
前記多視野角推定モジュールは、ソフト損失係数の多視野角制約に基づいて、前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定を取得し、前記多視野角姿勢推定結果を前記タイムスタンプの前から後の順にソートし、前記多視野角姿勢推定シーケンスを取得し、
前記ソフト損失係数は、前記n個の視野角を介して同一グループの人体骨格を共有使用するときに存在するオフセット誤差に対する許容を示すために使用され、
前記初期化姿勢推定結果は、対応する単一フレームビデオフレームにおける2次元人体キーポイントを含み、
前記多視野角制約は、第1の再投影点と前記2次元人体キーポイントとの間の距離損失を含み、前記第1の再投影点は、前記多視野角姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に投影される点であり、
前記ソフト損失係数は、前記第1の再投影点と前記2次元人体キーポイントとの間の距離に作用する許容係数であり、前記ソフト損失係数は、前記距離と正の相関関係にある、装置。
【請求項9】
前記ニューラルネットワークモデルは、コンボリューションニューラルネットワークを含み、前記初期化モジュールは、前記n個の視野角における単一フレームビデオフレームの2次元人体キーポイントを抽出し、前記コンボリューションニューラルネットワークによって前記単一フレームビデオフレームの人体姿勢推定結果を抽出し、前記2次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの2次元手がかりとして決定し、前記2次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とする、請求項
8に記載の装置。
【請求項10】
プロセッサー及びメモリを含むコンピュータデバイスであって、
前記メモリには、少なくとも1つの指令、少なくとも1セグメントのプログラム、コードセット又は指令セットが記憶され、
前記少なくとも1つの指令、前記少なくとも1セグメントのプログラム、前記コードセット又は指令セットは、前記プロセッサーによってロードされ実行されて、請求項1から
7のいずれか1項に記載の3次元人体姿勢推定方法を実現するコンピュータデバイス。
【請求項11】
コンピュータで実行されるとき、前記コンピュータに請求項1から
7のいずれか1項に記載の3次元人体姿勢推定方法を実行させるための指令を含むコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2020年07月27日にて中国特許局に提出された、中国特許出願第202010734364.8号であって、出願の名称が「3次元人体姿勢推定方法、装置、デバイス及媒体」である中国特許出願に基づく優先権を主張し、その全内容を本出願に援用する。
【0002】
本出願の実施例は、人工知能の分野に関し、特に、3次元人体姿勢推定に関する。
【背景技術】
【0003】
3次元人体姿勢推定は、2次元画像から人体が行う3次元動作を認識する技術である。
【0004】
関連技術において、ニューラルネットワークモデルに1枚の2次元画像を入力し、画像2次元キーポイント(2D Key point)の制約最適化に基づいて、3次元モデルを用いて表現した3次元人体姿勢を出力する3次元人体姿勢推定方法を提供する。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本出願の実施例は、3次元人体の姿勢推定方法、装置、デバイス、媒体及びコンピュータプログラム製品を提供し、マルチフレーム多視野角のビデオフレームシーケンスを2次元手がかり制約として使用し、人体に対して安定的で正確な3次元人体姿勢推定を実現できる。前記技術案は、以下の通りである。
【課題を解決するための手段】
【0006】
本出願の一態様によれば、3次元人体姿勢推定方法を提供し、前記方法は、
n個の視野角のビデオフレームシーケンスを取得するステップであって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、nは1より大きい整数である、ステップと、
ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するステップと、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するステップと、
前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するステップと、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するステップと、を含む。
【0007】
本出願の別の態様によれば、3次元人体姿勢推定装置を提供し、前記装置は、
n個の視野角のビデオフレームシーケンスを取得するための取得モジュールであって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、nは1より大きい整数である、取得モジュールと、
ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するための初期化モジュールと、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するための単視野角推定モジュールと、
前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するための多視野角推定モジュールと、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するためのマルチフレーム推定モジュールと、を含む。
【0008】
本出願の別の態様によれば、コンピュータデバイスを提供し、前記コンピュータデバイスは、プロセッサー及びメモリを含み、前記メモリには、少なくとも1つの指令、少なくとも1セグメントのプログラム、コードセット又は指令セットが記憶され、前記少なくとも1つの指令、前記少なくとも1セグメントのプログラム、前記コードセット又は指令セットは、前記プロセッサーによってロードされ実行されて、上記の態様に記載の3次元人体姿勢推定方法を実現する。
【0009】
本出願の別の態様によれば、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体にはコンピュータプログラムが記憶され、前記コンピュータプログラムは、上記の態様に記載の3次元人体姿勢推定方法を実行するために使用される。
【0010】
本出願の実施例のさらに別の態様によれば、コンピュータで実行されるとき、前記コンピュータに上記の態様による3次元人体姿勢推定方法を実行させる指令を含むコンピュータプログラム製品を提供する。
【0011】
本出願の実施例による技術案によってもたらされる有益な効果は、少なくとも以下を含む。
ニューラルネットワークモデルによって抽出された初期化姿勢推定結果を2次元手がかり制約として、最適化に基づく3次元姿勢推定方法を採用してマルチフレーム多視野角の人体姿勢推定を行うことにより、ニューラルネットワークモデルの姿勢推定のロバスト性を利用することができ、最適化に基づく方法の正確性を利用することができ、全く新しい多視野角マルチフレームの人体姿勢推定方法を提供し、人体姿勢推定の正確性を高め、多視野角制約及び時系列制約を利用して、単一フレーム単視野角の人体姿勢推定が不良な局所極値に陥りやすい状況を回避した。
【図面の簡単な説明】
【0012】
本出願の実施例における技術案をより明確に説明するために、実施例の説明に使用する必要がある添付の図面を以下に簡単に紹介する。明らかに、以下の説明における図面は、本出願のいくつかの実施例に過ぎず、当業者にとって、創造的な労力をしない前提で、これらの図面に基づいて他の図面を得ることができる。
【0013】
【
図1】本出願の例示的な実施例による3次元人体姿勢推定方法のフローチャートである。
【
図2】本出願の例示的な実施例による多視野角で画像をキャプチャする際の実施形態の概略図である。
【
図3】本出願の別の例示的な実施例による3次元人体姿勢推定方法のフレーム概略図である。
【
図4】本出願の別の例示的な実施例による3次元人体姿勢推定方法のフローチャートである。
【
図5】本出願の例示的な実施例による3次元人体姿勢推定方法の適用シナリオ図である。
【
図6】本出願の例示的な実施例による3次元人体姿勢推定装置のブロック図である。
【
図7】本出願の例示的な実施例によるコンピュータデバイスのブロック図である。
【発明を実施するための形態】
【0014】
本出願の目的、技術案及び利点をより明確にするために、以下は図面を参照しながら本出願の実施形態をさらに詳細に説明する。
【0015】
多視野角:複数のカメラを用いて、異なる視線角度から同一人物の動作ビデオを同時にキャプチャする。
【0016】
3次元人体姿勢推定:2次元画像から、人体が行う3次元動作を推定する。通常、人体解剖学における人体関節点を用いて3次元動作を表現するか、又は、3次元人体パラメータ化モデルを用いて3次元動作を表現する。
【0017】
3次元人体パラメータ化モデル:人体パラメータ化モデルと略称され、人体の3次元メッシュ(mesh)をいくつかの低次元のベクトルセットに表現し、1つの新しい人体は、これらのベクトル基底の線形組み合わせに表現することができる。一般的な人体パラメータ化モデルは、スキニングに基づく複数人の線形(Skinned Multi-Person Linear、SMPL)及び表現に富むSMPL(Skinned Multi-Person Linear eXpressive、SMPL_X)を含む。SMPLは、人の表情及びジェスチャーを表現することができず、SMPL_Xは、SMPLに基づいて、人の表情及びジェスチャーを表現することを拡張した。
【0018】
SMPLモデルは、ドイツのウマプソンの研究者が提案した骨格駆動のパラメータ化人体モデルであり、関連記事は、国際図形画像協会が発表した2015年SIGGRAPHアジア会議で発表された。SMPLモデルは、簡単で使いやすく、かつ、著者によって公開され(研究用)、多くの科学研究者に広く応用されている。
【0019】
SMPL_Xモデルは、SMPLモデルに基づいて、10475個の頂点及び54個の関節点を有する。54個の関節点には、首、あご、眼球、指の関節が含まれる。SMPL_Xは、関数M(θ、β、ψ)で定義され、θは、姿勢パラメータであり、βは、体型パラメータ(又は、形状パラメータとも称する)であり、ψは、顔表情パラメータである。
【0020】
OpenPoseモデルは、人体姿勢認識モデルであり、米カーネギーメロン大学(CMU)がコンボリューションニューラルネットワーク及び教師あり学習に基づいて開発したオープンソースライブラリである。人体の動作、顔表情、指の動きなどの姿勢推定、及び2次元人体キーポイントの出力を実現することができる。OpenPoseモデルは、一人及び複数人に適しており、優れたロバスト性を有する。OpenPoseモデルは、世界における最初の深層学習に基づくリアルタイム複数人2次元姿勢推定アプリケーションである。
【0021】
本出願の実施例によって提供される技術案は、人工知能における3次元人体姿勢推定技術に関する。本出願の実施例では、人体パラメータ化モデルSMPL_Xに基づいて、マルチフレーム多視野角のビデオフレームシーケンスを2次元手がかり制約として使用して、人体に対する安定的で正確な3次元人体姿勢推定を実現する。
【0022】
図1は、本出願の例示的な実施例による3次元人体姿勢推定方法のフローチャートを示す。本実施例は、当該方法がコンピュータデバイスに適用される例を挙げて説明する。当該方法は以下のことを含む。
【0023】
ステップ110:n個の視野角のビデオフレームシーケンスを取得し、ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、nは1より大きい整数である。
【0024】
視野角は、カメラの視線と参照物の垂直方向のなす角である。参照物が人であることを例にとると、視野角は、カメラの視線と人の真ん前に位置する垂直方向のなす角である。
【0025】
n個の視野角は、2つ以上の視野角であり、多視野角と略称される。例示的に、n個の視野角における任意の2つの視野角は異なる。現実世界では、n個のカメラが設置され、異なる視野角に従って人物に対してビデオキャプチャを行い、n個の視野角のビデオフレームシーケンス(ビデオと略称される)を取得する。
【0026】
図2を参照すると、ある室内空間00に3台のカメラが設置され、第1のカメラは、第1の視野角で人物のビデオフレームシーケンスをキャプチャし、第2のカメラは、第2の視野角で人物のビデオフレームシーケンスをキャプチャし、第3のカメラは、第3の視野角で人物のビデオフレームシーケンスをキャプチャする。なお、当該n個のカメラは、カメラのキャリブレーションを必要としないカメラである。
【0027】
任意選択で、n個の視野角のビデオフレームシーケンスにおけるビデオフレームの数は、同じであり、n個の視野角のビデオフレームシーケンスにおけるフレームレートは同じであり、例えば、毎秒60フレームである。ただし、いくつかの実施例で、n個の視野角のビデオフレームシーケンスにおけるビデオフレームの数が少し異なり、フレームレートが異なる(例えば、倍数又は比例する)場合を排除しない。n個の視野角におけるビデオフレームの数が異なる場合、n個の視野角におけるビデオフレームの数が同じになるように、いくつかの視野角におけるビデオフレームを削除又は破棄することができる。n個の視野角におけるフレームレートが異なる場合には、n個の視野角におけるビデオフレームの数が同じになるように、いくつかの視野角におけるビデオフレームを倍数又は比例的に削除又は破棄することができる。
【0028】
ステップ120:ニューラルネットワークモデルに基づいてn個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出する。
【0029】
例示的に、ニューラルネットワークモデルは、単一フレームビデオフレームを抽出する2次元手がかりを有するモデルである。ニューラルネットワークモデルは、1つ又は複数である。2次元手がかりに2次元人体キーポイント、人体分割結果及び単一フレーム人体姿勢推定が含まれることを例として、ニューラルネットワークモデルは、2次元人体キーポイントを抽出するための第1のモデル、人体分割結果を抽出するための第2のモデル、及び単一フレーム人体姿勢推定を抽出する第3のモデルを含むことができる。例示的に、第1のモデルは、Openposeモデルであり、第2のモデルは、イメージセマンティックセグメンテーションネットワークモデル又は人体解析(Human Parsing)ネットワークであり、第3のモデルは、コンボリューションニューラルネットワーク(CNN)である。少なくともニューラルネットワークモデルによってn個の視野角における各フレームビデオフレームの初期化姿勢推定結果を抽出する。
【0030】
ニューラルネットワークモデルに基づいて、n個の視野角における各フレームビデオフレームの初期化姿勢推定結果を抽出する。一例では、初期化姿勢推定は、単一フレームビデオフレームにおける2次元人体キーポイント、単一フレームビデオフレームにおける人体分割結果、単一フレームビデオフレームにおける人体姿勢推定を含む。
【0031】
n個の視野角には、第1の視野角、第2の視野角、第3の視野角の3つの視野角が含まれることを例にとる。それぞれ第1の視野角における各単一フレームビデオフレームの初期化姿勢に対して結果を推定し、第2の視野角における各単一フレームビデオフレームの初期化姿勢に対して結果を推定し、及び、第3の視野角における各単一フレームビデオフレームの初期化姿勢に対して結果を推定する。
【0032】
ステップ130:初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得する。
【0033】
n個の視野角における各単一フレームビデオフレームに対して、初期化姿勢推定結果を初期化の入力として、第2の手がかりの制約を用いて単一フレーム単視野角の人体姿勢推定を行い、当該フレームビデオフレームの単視野角姿勢推定結果を取得する。
【0034】
n個の視野角のそれぞれに対して、同じ視野角における単一ビデオフレームシーケンスに属する各ビデオフレームはそれぞれ、1つの単視野角人体姿勢推定結果に対応するため、同じ視野角における対応する単視野角人体姿勢推定結果のソートに基づいて、当該視野角に対応する単視野角姿勢推定シーケンスを取得することができる。
【0035】
単一視野角に対応する単視野角姿勢推定シーケンスは、タイムスタンプの前から後の順にソートされた複数の単視野角姿勢推定結果を含む。各単視野角姿勢推定結果は、当該視野角における各フレームビデオフレームと1対1の対応関係にある。
【0036】
ステップ140:n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得する。
【0037】
n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスには、同じタイムスタンプに属するn個の単視野角姿勢推定結果が存在する。同じタイムスタンプとは、全く同じタイムスタンプ、又は、時間差が許容差閾値よりも小さいタイムスタンプである。例えば、フレームレートが毎秒60フレームの場合、時間差が1/60(単位:秒)又は1/120(単位:秒)未満の2つのタイムスタンプは、同じタイムスタンプとみなされる。
【0038】
n個の単視野角姿勢推定シーケンスにありかつ同じタイムスタンプを有するn個の単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行い、1つの多視野角姿勢推定結果を取得する。タイムスタンプの前から後の順に、n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有するn個の単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を順次に行い、複数の多視野角姿勢推定結果を含む多視野角姿勢推定シーケンスを取得する。
【0039】
任意選択で、多視野角姿勢推定シーケンスは、タイムスタンプの前から後の順にソートされた複数の多視野角姿勢推定結果を含み、各多視野角姿勢推定結果には、1対1で対応するタイムスタンプが存在し、異なる多視野角姿勢推定結果は、異なるタイムスタンプに対応する。
【0040】
ステップ150:多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得する。
【0041】
任意選択で、当該多視野角マルチフレーム姿勢推定結果は、SMPL_Xモデルにおける姿勢パラメータθで表すことができる。
【0042】
図3を参照すると、n個の視野角が3つの視野角であることを例として、第1の視野角のビデオフレームシーケンス、第2の視野角のビデオフレームシーケンス及び第3の視野角のビデオフレームシーケンスが存在する。第1の視野角のビデオフレームシーケンスに対して2次元手がかり抽出を行い、第1の視野角における各ビデオフレームの2次元手がかり12を取得し、第2の視野角のビデオフレームシーケンスに対して2次元手がかり抽出を行い、第2の視野角における各ビデオフレームの2次元手がかり14を取得し、第3の視野角のビデオフレームシーケンスに対して2次元手がかり抽出を行い、第3の視野角における各ビデオフレームの2次元手がかり16を取得する。
【0043】
第1の視野角における各ビデオフレームの2次元手がかり12に対して、2次元手がかり制約を用いて単一フレーム単視野角推定を行い、第1の視野角の単視野角姿勢推定シーケンス22を取得し、第2の視野角における各ビデオフレームの2次元手がかり14に対して、2次元手がかり制約を用いて単一フレーム単視野角推定を行い、第2の視野角の単視野角姿勢推定シーケンス24を取得し、第3の視野角における各ビデオフレームの2次元手がかり16に対して、2次元手がかり制約を用いて単一フレーム単視野角推定を行い、第3の視野角の単視野角姿勢推定シーケンス26を取得する。
【0044】
第1の視野角の単視野角姿勢推定シーケンス22、第2の視野角の単視野角姿勢推定シーケンス24、第3の視野角の単視野角姿勢推定シーケンス26において、同じタイムスタンプを有する単視野角姿勢推定結果に対して多視野角制約を用いて単一フレーム多視野角推定を行い、多視野角姿勢推定シーケンス30を取得する。多視野角姿勢推定シーケンス30に対して時系列制約を用いてマルチフレーム多視野角推定を行い、多視野角マルチフレーム姿勢推定結果40を取得する。
【0045】
上記のように、本実施例によって提供される方法は、ニューラルネットワークモデルによって抽出された初期化姿勢推定結果を2次元手がかり制約として、最適化に基づく3次元姿勢推定方法を採用してマルチフレーム多視野角の人体姿勢推定を行うことにより、ニューラルネットワークモデルの姿勢推定のロバスト性を利用することができる一方、最適化に基づく方法の正確性を利用することができ、全く新しい多視野角マルチフレームの人体姿勢推定方法を提供し、人体姿勢推定の正確性を高め、多視野角制約及び時系列制約を利用して、単一フレーム単視野角の人体姿勢推定が不良な局所極値に陥りやすい状況を回避した。
【0046】
ステップ120について、
図4は、本出願の例示的な実施例による3次元人体の姿勢推定方法のフローチャートを示す。本実施例は、当該方法がコンピュータデバイスに適用される例を挙げて説明する。当該方法は以下を含む。
【0047】
ステップ122:n個の視野角における単一フレームビデオフレームの2次元人体キーポイントを抽出する。
【0048】
2次元人体キーポイントは、2次元画像上に位置する人体キーポイントである。例示的に、人体キーポイントは、骨格解剖学における人体関節点を用いて表すことができる。一例では、人体キーポイントは、頭、首、肩、肘、手、ヒップ、膝、足を含むが、これらに限定されない。別の例では、人体キーポイントはさらに、人間の表情を認識するための顔キーポイントを含む。別の例では、人体キーポイントはさらに、ジェスチャー動作を認識するための手キーポイントも含む。本実施例では、骨格解剖における人体関節点を人体キーポイントとして使用する。
【0049】
一例では、本出願は、Openposeモデルを用いて2次元人体キーポイントを抽出する。Openposeモデルは、米カーネギーメロン大学のオープンソースプロジェクトであり、人体関節点の位置決め、顔キーポイントの位置決め及び手キーポイントの位置決めを含む。Openposeモデルは、2次元人体キーポイントを出力できるだけでなく、各2次元人体キーポイントの信頼度を出力することができ、信頼度は、当該2次元人体キーポイントの正確性確率を表すために使用される。
【0050】
人体分割結果は、2次元画像における人体が位置する画像領域を指示するために使用される。任意選択で、本出願は、人体分割ネットワークによって画像における1つ又は複数の人体に対する人体分割を実現することができる。人体分割ネットワークは、画像特徴に基づいて人体分割を行うか、又は、人体分割ネットワークは、2次元人体キーポイントによって指示される人体骨格特徴に基づいて人体分割を行う。2次元画像に複数の人体が存在する場合、人体分割結果は、複数の人体の人体分割結果を含む。人体分割モデルは、画像意味分割ネットワークモデル又はHuman Parsingネットワークである。
【0051】
いくつかの実施例では、人体分割結果を決定するステップは、選択可能な実現方式である。
【0052】
ステップ124:コンボリューションニューラルネットワークによって単一フレームビデオフレームの人体姿勢推定結果を抽出する。
【0053】
一例では、2次元画像をCNNに入力して、CNNによって単一フレームビデオフレームの人体姿勢推定結果を抽出する。
【0054】
ステップ126:前記2次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの2次元手がかりとして決定し、前記2次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とする。
【0055】
いくつかの実施例では、2次元人体キーポイント及び人体姿勢推定を2次元手がかりとして決定し、単一フレームビデオフレームの初期化姿勢推定とし、他のいくつかの実施例では、2次元人体キーポイント、人体分割結果及び人体姿勢推定を2次元手がかりとして決定し、単一フレームビデオフレームの初期化姿勢推定とする。
【0056】
選択可能な実現方式では、ステップ130は以下のことを含む。
【0057】
ステップ132:2次元手がかり制約に基づいて、初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得する。
【0058】
前記2次元手がかりの制約は、第3の再投影点と前記2次元人体キーポイントとの距離損失及び信頼度圧縮係数を含み、前記第3の再投影点は、前記単視野角姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に再投影される点である。
【0059】
前記信頼度圧縮係数は、前記第3の再投影点と前記2次元人体キーポイントとの間の距離に作用する圧縮係数であり、前記信頼度圧縮係数は、前記2次元人体キーポイントの信頼度と負の相関関係にある。
【0060】
例示的に、人体分割結果によって指示される各人体について、2次元人体キーポイントの制約に基づいて、初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応する単視野角姿勢推定シーケンスを取得する。
【0061】
任意選択で、以下の式に従って初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行う。
【0062】
【0063】
E
Jikは、k番目の視野角におけるi番目のフレームの画像フレームの損失関数であり、推定された人体姿勢推定結果と2次元画像における2次元手がかりとの間の差を表すために使用される。Kは、視野角を表し、iは、フレーム数を表す。βは、人体パラメータ化モデルの体型(shape)係数であり、人体の高さ、太さを表徴するために使用される。θは、人体パラメータ化モデルの姿勢(pose)係数であり、1人の動作を表し、θ
iは、i番目のフレームの画像フレームに対応する姿勢係数を表す。J
est,i,jは、i番目のフレームの画像フレームから推定されたj番目の2次元人体キーポイントを表し、J(β)は、人体パラメータ化モデルの関節点回帰関数であり、人体の高さ、太さに基づいて3次元空間における人体の関節点の位置を返す。R(・)は回転関数であり、姿勢係数によって3次元の人体関節点を正確位置に回転する。
【数2】
は、投影関数であり、推定されたカメラパラメータKに基づいて、3次元の人体関節点を画像空間における2次元点に投影する。W
jは、例えば、ユークリッド空間距離やGMoF距離などの距離関数である。w
σはソフト損失係数であり、距離関数に作用し、距離に関する増加関数である。r(j、k)は、k番目の視野角におけるj番目の人体キーポイントの信頼度の圧縮関数であり、非線形変換である。
【0064】
一例では、
【数3】
であり、
【数4】
は、k番目の視野角におけるj番目の人体キーポイントであり、2次元人体キーポイント検出モデル(例えば、Openposeモデル)によって推定された信頼度である。
【0065】
一例では、Jest,jは、時系列平滑化及び差分補完後の時系列上のj番目の人体キーポイントである。ビデオフレームシーケンスで推定された2次元人体キーポイントに対して、平滑化及び補間操作を利用する。ξは信頼度閾値であり、ωiは重みであり、Confiは、j番目の人体キーポイントの信頼度であり、linear_interpは、線形補間関数である。
【0066】
一例では、wσ及びr(j、k)はいずれも選択可能な係数である。
【0067】
選択可能な実現方式では、ステップ140は以下のことを含む。
【0068】
ステップ142:ソフト損失係数の多視野角制約に基づいて、n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得する。
【0069】
前記ソフト損失係数は、前記n個の視野角を介して同一グループの人体骨格を共有使用するときに存在するオフセット誤差に対する許容を示すために使用される。
【0070】
任意選択で、以下の式に従って同じタイムスタンプを有する単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行う。
【数5】
【0071】
E(・)は損失関数であり、E
Jikは、k番目の視野角におけるi番目のフレームの画像フレームの損失関数であり、frameiは、i番目のフレームの画像フレームを表し、view kは、k番目の視野角を表す。λは、予め設定された定数を表す。
【数6】
は、加算符号である。E
pikは、k番目の視野角におけるi番目のフレームの画像フレームの正則化項損失であり、推定された体型係数及び姿勢係数の平均値(mean)に対するオフセット幅を表すために使用され、不合理なパラメータ(太りすぎたり極端に歪んだりするなど)を回避する。E
Tiは平滑項であり、隣接するフレームの間の差分損失を表すために使用され、隣接するフレーム間の過度な姿勢振れを回避する。
【0072】
一例では、上記の初期化姿勢推定結果は、対応する単一フレームビデオフレームにおける2次元人体キーポイントを含む。
【0073】
上記の多視野角制約は、単一フレームビデオフレームに対応する多視野角姿勢推定結果の第1の再投影点と2次元人体キーポイントとの間の距離損失を含み、第1の再投影点は、多視野角姿勢推定結果における3次元人体キーポイントが単一フレームビデオフレームの所在する画像平面上に再投影される点である。
【0074】
ソフト損失係数wσは、第1の再投影点と2次元人体キーポイントとの間の距離に作用する許容係数である。
【0075】
例えば、
【数7】
であり、dは、再投影点と2次元人体キーポイントとの間の距離である。σは許容度係数である。
【0076】
選択可能な実現方式では、ステップ150は以下を含む。
【0077】
ステップ152:時系列制約に基づいて、多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得する。
【0078】
任意選択で、以下の式によって多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得する。
【0079】
【0080】
なお、Miは、所定の体型係数及び姿勢係数で、特定のトポロジー構成による人体パラメータ化モデルの頂点座標セットである。i-1は、i番目のフレームの前のフレームを表す。λp、λm、λkは、予め設定された係数である。
【0081】
上記の式ETiでは、時系列制約は、3つの制約を導入する。
【0082】
第一、制約
【数9】
は、隣接する2フレームの間の多視野角姿勢推定結果の間の姿勢差分損失であり、隣接する2フレームの間の動作差が大きすぎないことを保証する。
【0083】
第二、制約
【数10】
は、隣接する2フレームの間の多視野角姿勢推定結果の間の頂点差分損失であり、隣接する2フレームの間の人体のグローバル位置の差が大きすぎないことを保証し、人体のグローバル位置は、人体の向き(global orientation)及び人体の位置(global translation)を含む。
【0084】
第三、制約
【数11】
は、隣接する2フレームの間の多視野角姿勢推定結果の間の3次元人体関節点の第2の再投影の差分損失であり、2次元人体キーポイントの推定誤りにより生じる誤り姿勢を減少させることができる。
【0085】
つまり、多視野角マルチフレーム姿勢推定結果は、人体パラメータ化モデルにおける姿勢パラメータを用いて表すため、人体パラメータ化モデルは、複数の定点によって形成される人体メッシュを有する。時系列制約は、隣接する2フレームの間の姿勢推定差分損失、隣接する2フレームの間の頂点差分損失、隣接する2フレームの間の第2の再投影点の差分損失のうち少なくとも1つを含み、第2の再投影点は、多視野角マルチフレーム姿勢推定結果における3次元人体キーポイントが単一フレームビデオフレームの所在する画像平面上に再投影される点である。
【0086】
上記のように、本実施例によって提供される方法は、2次元人体キーポイント、人体分割結果及びCNNによって予測された人体姿勢推定を単一フレームビデオフレームの初期化姿勢推定として決定することにより、CNNネットワークの2次元人体姿勢推定におけるロバスト性を十分に利用することができ、本出願によって提供される姿勢推定方案の実用化におけるロバスト性を向上させることができる。
【0087】
一方、多視野角単一フレームの人体姿勢推定では、依存する必要がある前提を、複数の視野角における人体が同一の人体骨格(複数の人体関節点を含む)を共有し、同一の人体骨格は人体パラメータ化モデルにおいて同じ体型係数を用いて標識すると仮定する。
【0088】
しかしながら、本発明者らは、当該多視野角が同一グループの体型係数を共有するという仮定が、Openposeモデルに基づいて抽出される2次元人体キーポイントでは十分に確立できないことを発見し、特に、n個の視野角のカメラは角度がキャリブレーションされていないため、撮影スケールや撮影角度などの撮影条件に大きな違いがある場合、Openposeモデルによって抽出される2次元人体キーポイントに大きなオフセットが発生する。そこで、本実施例によって提供される方法では、発明者は、革新的にソフト損失係数を提案することによって、当該ソフト損失係数を介して、多視野角から推定される3次元人体キーポイントとOpenposeモデルによって抽出される2次元人体キーポイントとの間に一定の許容距離が存在することを許可し、より優れた、より正確な人体姿勢推定結果を実現する。
【0089】
一方、多視野角マルチフレームの人体姿勢推定では、3つの異なる時系列制約が導入される。フレーム間の姿勢推定差分損失は、フレーム間の差分が大きすぎないことを保証でき、フレーム間の頂点差分損失は、人体のグローバル位置の差分が大きすぎないことを保証でき、フレーム間の再投影点差分損失は、2次元人体キーポイントの推定誤りにより生じる誤り姿勢を減少させることができる。
【0090】
一方、本実施例によって提供される方法はさらに、係数r(j,k)、r(j,k)をk番目の視野角におけるj番目の人体キーポイントの信頼度の圧縮関数として導入することによって、信頼度の低い2次元人体キーポイントの信頼度をさらに圧縮し、これにより、非線形変換を用いて、信頼できない2次元人体キーポイントを抑制し、それによって、2次元人体キーポイント推定時の誤差が後続の姿勢推定手順に与える誤差影響を減少させる。
【0091】
例示的な適用例では、上記の3次元人体姿勢推定方法は、バーチャル人間プロジェクトに適用される。バーチャル人間は、IPバーチャルヒューマン(IP Virual Human、IVH)とも呼ばれ、音声インタラクション及びバーチャル形成生成などを利用したバーチャルキャラクターである。バーチャル人間を生成する際には、まず、ダイナミックスタジオ内に複数の視野角のカメラを設置し、実写俳優が、ダイナミックスタジオ内で身体表演及び表情表演を行い、複数の視野角のカメラが実写俳優の複数のビデオフレームシーケンスをキャプチャし、上記の3次元人体姿勢推定方法により、実写俳優の3次元人体姿勢推定結果を推定し、当該3次元人体姿勢推定結果は、人体パラメータ化モデルSMPLモデルにおける姿勢係数を用いて表す。
【0092】
次に、SMPLモデルに基づいて1つのIPバーチャル人間を構築する。当該IPバーチャル人間は、漫画のイメージ、アニメーションキャラクター、映画のキャラクター、企業のバーチャルスポークスパーソン、バーチャルニュースキャスターなどであってもよい。上記の手順で推定された実写俳優の3次元人体姿勢推定を用いて、IPバーチャル人間を駆動して実人間に匹敵する身体の動きとダイナミックな表現を実現する。
【0093】
図6は、本出願の例示的な実施例による3次元人体姿勢推定装置のブロック図である。前記装置は、
n個の視野角のビデオフレームシーケンスを取得するための取得モジュール610であって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、nは1より大きい整数である、取得モジュール610と、
ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するための初期化モジュール620と、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するための単視野角推定モジュール630と、
前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するための多視野角推定モジュール640と、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するためのマルチフレーム推定モジュール650と、を含む。
【0094】
1つの選択可能な実施例では、前記ニューラルネットワークモデルは、コンボリューションニューラルネットワークを含み、
前記初期化モジュール620は、前記n個の視野角における単一フレームビデオフレームの2次元人体キーポイントを抽出し、前記コンボリューションニューラルネットワークによって前記単一フレームビデオフレームの人体姿勢推定結果を抽出し、前記2次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの2次元手がかりとして決定し、前記2次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とする。任意選択で、初期化モジュール620は、Openposeモデルによってn個の視野角における単一フレームビデオフレームの2次元人体キーポイント及び人体分割結果を抽出する。
【0095】
1つの選択可能な実施例では、前記単視野角推定モジュール630は、前記2次元手がかりの制約に基づいて、前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得する。
【0096】
任意選択で、以下の式に従って初期化姿勢推定に対して単一フレーム単視野角の人体姿勢推定を行う。
【数12】
【0097】
前記2次元手がかりの制約は、第3の再投影点と前記2次元人体キーポイントとの間の距離損失及び信頼度圧縮係数を含み、前記第3の再投影点は、前記単視野角姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に再投影された点であり、
前記信頼度圧縮係数は、前記第3の再投影点と前記2次元人体キーポイントとの間の距離に作用する圧縮係数であり、前記信頼度圧縮係数は、前記2次元人体キーポイントの信頼度と負の相関関係にある。
【0098】
1つの選択可能な実施例では、前記多視野角推定モジュール640は、ソフト損失係数の多視野角制約に基づいて、前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定結果を取得し、前記多視野角姿勢推定結果を前記タイムスタンプの前から後の順にソートして、前記多視野角姿勢推定シーケンスを取得し、
前記ソフト損失係数は、前記n個の視野角を介して同一グループの人体骨格を共有使用するときに存在するオフセット誤差に対する許容を示すために使用される。
【0099】
任意選択で、以下の式に従って同じタイムスタンプを有する単視野角姿勢推定に対して単一フレーム多視野角の人体姿勢推定を行う。
【数13】
【0100】
1つの選択可能な実施例では、前記初期化姿勢推定結果は、対応する単一フレームビデオフレームにおける2次元人体キーポイントを含む。前記多視野角制約は、第1の再投影点と前記2次元人体キーポイントとの間の距離損失を含み、前記第1の再投影点は、前記多視野角姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に再投影された点であり、
前記ソフト損失係数は、前記第1の再投影点と前記2次元人体キーポイントとの間の距離に作用する許容係数であり、前記ソフト損失係数は前記距離と正の相関関係がある。
【0101】
1つの選択可能な実施例では、前記多視野角マルチフレーム姿勢推定結果は、人体パラメータ化モデルにおける姿勢パラメータを用いて表し、前記人体パラメータ化モデルは、複数の定点によって形成された人体メッシュを有し、
前記マルチフレーム推定モジュール650は、時系列制約に基づいて、前記多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得し、
前記時系列制約は、隣接する2フレームの間の姿勢推定差分損失、隣接する2フレームの間の頂点差分損失、隣接する2フレームの間の第2の再投影点の差分損失のうち少なくとも1つを含み、前記第2の再投影点は、前記多視野角マルチフレーム姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に再投影された点である。
【0102】
任意選択で、以下の式に従って多視野角姿勢推定に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定を取得する。
【数14】
【0103】
上記のように、本実施例によって提供される装置は、2次元人体キーポイント、人体分割結果及びCNNによって予測された人体姿勢推定を単一フレームビデオフレームの初期化姿勢推定として決定することにより、CNNネットワークの2次元人体姿勢推定におけるロバスト性を十分に利用することができ、本出願によって提供される姿勢推定方案の実用化におけるロバスト性を向上させることができる。
【0104】
一方、多視野角単一フレームの人体姿勢推定では、依存する必要がある前提を、複数の視野角における人体が同一の人体骨格(複数の人体関節点を含む)を共有し、同一の人体骨格が人体パラメータ化モデルにおいて同じ体型係数を用いて標識すると仮定する。しかしながら、本発明者らは、当該多視野角が同一グループの体型係数を共有するという仮定が、Openposeモデルに基づいて抽出された2次元人体キーポイントでは十分に確立できないことを発見し、特に、n個の視野角のカメラが角度がキャリブレーションされていないため、撮影スケールや撮影角度などの撮影条件に大きな違いがある場合、Openposeモデルによって抽出された2次元人体キーポイントに大きなオフセットが発生する。そこで、本実施例によって提供される方法では、発明者は、革新的にソフト損失係数を提案することによって、当該ソフト損失係数を介して、多視野角から推定される3次元人体キーポイントとOpenposeモデルによって抽出される2次元人体キーポイントとの間に一定の許容距離が存在することを許可し、より優れた、より正確な人体姿勢推定結果を実現する。
【0105】
一方、多視野角マルチフレームの人体姿勢推定では、3つの異なる時系列制約が導入される。フレーム間の姿勢推定差分損失は、フレーム間の差分が大きすぎないことを保証し、フレーム間の頂点差分損失は、人体のグローバル位置の差分が大きすぎないことを保証し、フレーム間の再投影点差分損失は、2次元人体キーポイントの推定誤りにより生じる誤り姿勢を減少させることができる。
【0106】
一方、本実施例によって提供される装置はさらに、係数r(j,k)、r(j,k)をk番目の視野角におけるj番目の人体キーポイントの信頼度の圧縮関数として導入することによって、信頼度の低い2次元人体キーポイントの信頼度をさらに圧縮し、これにより、非線形変換を用いて、信頼できない2次元人体キーポイントを抑制し、それによって、2次元人体キーポイント推定時の誤差が後続の姿勢推定手順に与える誤差影響を減少させる。
【0107】
なお、上記の実施例によって提供される3次元人体姿勢推定装置は、上記の各機能モジュールの分割を例に挙げて説明し、実際の適用では、上記の機能割り当てを必要に応じて異なる機能モジュールによって実現することができ、即ち、デバイスの内部構成を異なる機能モジュールに分割して、以上で説明した機能の全て又は一部を実現することができる。また、上記の実施例によって提供される3次元人体姿勢推定装置は、3次元人体姿勢推定方法の実施例と同じ考え方に属し、その具体的な実現手順について方法の実施例を参照することができ、ここで再度説明しない。
【0108】
本出願は、コンピュータデバイス(端末又はサーバー)をさらに提供し、当該コンピュータデバイスは、プロセッサー及びメモリを含み、メモリには、少なくとも1つの指令が記憶され、少なくとも1つの指令は、プロセッサーによってロードされ実行されて、上記の各方法実施例による3次元人体姿勢推定方法を実現する。なお、当該コンピュータデバイスは、以下の
図7に示されるコンピュータデバイスであってもよい。
【0109】
図7は、本出願の例示的な実施例によるコンピュータデバイス700の構成ブロック図を示す。当該コンピュータデバイス700は、スマートフォン、タブレットコンピューター、MP3プレーヤ(Moving Picture Experts Group Audio Layer III、動画像専門家圧縮標準オーディオレベル3)、MP4(Moving Picture Experts Group Audio Layer IV、動画像専門家圧縮標準オーディオレベル4)プレーヤ、ノートパソコン又はデスクトップコンピュータであってもよい。コンピュータデバイス700は、ユーザーデバイス、ポータブルコンピュータデバイス、ラップトップコンピュータデバイス、デスクトップコンピュータデバイスなどの他の名称と呼ばれる場合がある。
【0110】
通常、コンピュータデバイス700は、プロセッサー701及びメモリ702を含む。
【0111】
プロセッサー701は、1つ又は複数の処理コアを含んでもよく、例えば4コアプロセッサー、8コアプロセッサーなどである。プロセッサー701は、DSP(Digital Signal Processing、デジタル信号処理)、FPGA(Field-Programmable Gate Array、フィールドプログラブルゲートアレイ)、PLA(Programmable Logic Array、プログラブル論理アレイ)の少なくとも1つのハードウェア形態で実現できる。プロセッサー701は、メインプロセッサー及びコプロセッサーを含み、メインプロセッサーは、ウェイクアップ状態でのデータを処理するためのプロセッサーであり、CPU(Central Processing Unit、中央プロセッサー)とも呼ばれ、コプロセッサーは、待機状態でのデータを処理するための低電力消費プロセッサーである。いくつかの実施例では、プロセッサー701は、GPU(Graphics Processing Unit、画像プロセッサー)が統合されてもよく、GPUは、ディスプレイによって表示する必要があるコンテンツのレンダリング及び描画を担当する。いくつかの実施例では、プロセッサー701は、機械学習に関する計算動作を処理するためのAI(Artificial Intelligence、人工知能)プロセッサーを含んでもよい。
【0112】
メモリ702は、1つ又は複数のコンピュータ可読記憶媒体を含むことができ、当該コンピュータ可読記憶媒体は、非一時的であってもよい。メモリ702はまた、高速ランダムアクセスメモリ、及び不揮発性メモリ、例えば、1つ又は複数の磁気ディスク記憶装置、フラッシュメモリ記憶装置を含むことができる。いくつかの実施例では、メモリ702のうち非一時的なコンピュータ可読記憶媒体は、本出願の方法実施例によって提供される3次元人体姿勢推定方法を実現するためにプロセッサー701によって実行される少なくとも1つの指令を記憶する。
【0113】
いくつかの実施例では、コンピュータデバイス700は任意に、周辺機器インターフェース703及び少なくとも1つの周辺機器を含むことができる。プロセッサー701、メモリ702及び周辺機器インターフェース703の間は、バス又は信号線を介して接続されてもよい。各周辺機器は、バス、信号線又は回路基板を介して周辺機器インターフェース703に接続されてもよい。具体的に、周辺機器は、無線周波数回路704、タッチディスプレイ705、カメラ706、オーディオ回路707、位置決めコンポーネント708及び電源709のうちの少なくとも1つを含む。
【0114】
いくつかの実施例では、コンピュータデバイス700には、1つ又は複数のセンサー710がさらに含まれる。当該1つ又は複数のセンサー710は、加速度センサー711、ジャイロセンサー712、圧力センサー713、指紋センサー714、光センサー715及び近接センサー716を含むが、これらに限定されない。
【0115】
図7に示す構成は、コンピュータデバイス700への制限を構成せず、図示よりも多く又は少ないコンポーネントを含むか、又はいくつかのコンポーネントを組み合わせ、又は異なるコンポーネント配置を採用することができる。
【0116】
前記メモリには1つ以上のプログラムがさらに含まれ、前記1つ以上のプログラムはメモリに記憶され、前記1つ以上のプログラムにより、本出願の実施例による3次元人体姿勢推定方法を実行する。
【0117】
本出願は、コンピュータ可読記憶媒体を提供し、前記記憶媒体は、コンピュータプログラムを記憶し、前記コンピュータプログラムにより、上記の実施例による3次元人体姿勢推定方法を実行する。
【0118】
本出願はさらにコンピュータプログラム製品を提供し、当該コンピュータプログラム製品は、コンピュータで実行されるとき、コンピュータに上記の実施例による3次元人体姿勢推定方法を実行させる。
【0119】
上記の本出願の実施例の番号は、説明のためのものであり、実施例の優劣を表すものではない。
【0120】
上記の実施例を実現するステップの全て又は一部は、ハードウェアによって実現することができ、プログラムを介して関連するハードウェアに指示することによって実現することもでき、前記プログラムは、コンピュータ可読記憶媒体に記憶することができ、上記の記憶媒体は、読み取り専用メモリ、磁気ディスク又は光ディスクなどであってもよい。
【0121】
上記の説明は、本出願の選択可能な実施例にすぎず、本出願の実施例を限定することを意図するものではなく、本出願の実施例の精神及び原理の範囲内で行われる任意の修正、均等な置換、改善などは全て、本出願の保護範囲内に含まれるものとする。