特開2022-178909 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 学校法人慶應義塾の特許一覧

特開2022-178909学習データ生成装置、姿勢推定装置、並びに、それらの方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022178909

(43)【公開日】2022-12-02

(54)【発明の名称】学習データ生成装置、姿勢推定装置、並びに、それらの方法およびプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20221125BHJP

【ＦＩ】

G06T7/00 660B

G06T7/00 350B

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2021086034

(22)【出願日】2021-05-21

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】899000079

【氏名又は名称】慶應義塾

(74)【代理人】

【識別番号】100121706

【弁理士】

【氏名又は名称】中尾直樹

(74)【代理人】

【識別番号】100128705

【弁理士】

【氏名又は名称】中村幸雄

(74)【代理人】

【識別番号】100147773

【弁理士】

【氏名又は名称】義村宗洋

(72)【発明者】

【氏名】五十川麻理子

(72)【発明者】

【氏名】三上弾

(72)【発明者】

【氏名】山本奏

(72)【発明者】

【氏名】堀涼介

(72)【発明者】

【氏名】八馬遼

(72)【発明者】

【氏名】斎藤英雄

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096CA02

5L096DA02

5L096FA06

5L096FA67

5L096FA69

5L096HA09

5L096JA03

5L096JA11

5L096KA04

(57)【要約】

【課題】実用的なカメラセッティングで身体の姿勢推定を高精度に行う。
【解決手段】身体の姿勢推定を行う推定モデルの機械学習のために、対象に装着されたカメラで得られた撮影画像または当該撮影画像の模擬画像の何れかに基づく入力画像から、当該対象の身体のシルエット画像を得、当該シルエット画像を表す情報を含む学習データを得る。
【選択図】図２

【特許請求の範囲】

【請求項1】

身体の姿勢推定を行う推定モデルの機械学習のための学習データを生成する学習データ生成装置であって、
対象に装着されたカメラで得られた撮影画像または前記撮影画像の模擬画像の何れかに基づく入力画像から、前記対象の身体のシルエット画像を得るシルエット画像生成部と、
前記シルエット画像を表す情報を含む前記学習データを得て出力する学習データ生成部と、
を有する学習データ生成装置。

【請求項2】

請求項１の学習データ生成装置であって、
前記シルエット画像生成部は、
第１基準点を中心とした正距円筒図法で前記入力画像を表現した第１画像から得られた第１シルエット画像と、前記第１基準点とは異なる第２基準点を中心とした正距円筒図法で前記入力画像を表現した第２画像に基づく第２シルエット画像と、を合成して前記シルエット画像を得る、
学習データ生成装置。

【請求項3】

請求項２の学習データ生成装置であって、
前記第２基準点は、前記第１基準点を鉛直方向および水平方向にシフトして得られる点である、学習データ生成装置。

【請求項4】

請求項１から３の何れかの学習データ生成装置であって、
前記撮影画像は、前記対象の手首に装着された前記カメラで撮影を行って得られる画像である、学習データ生成装置。

【請求項5】

身体の姿勢推定を行う姿勢推定装置であって、
請求項１から４の何れかの前記学習データ生成装置で得られた前記学習データを用いた機械学習によって得られた推定モデルに、姿勢推定対象に装着されたカメラ得られた撮影画像に基づく前記姿勢推定対象の身体のシルエット画像を適用し、前記姿勢推定対象の身体の姿勢推定結果を得て出力する姿勢推定装置。

【請求項6】

身体の姿勢推定を行う推定モデルの機械学習のための学習データを生成する学習データ生成方法であって、
対象に装着されたカメラで得られた撮影画像または前記撮影画像の模擬画像の何れかに基づく入力画像から、前記対象の身体のシルエット画像を得るシルエット画像生成ステップと、
前記シルエット画像を表す情報を含む前記学習データを得て出力する学習データ生成ステップと、
を有する学習データ生成方法。

【請求項7】

身体の姿勢推定を行う姿勢推定方法であって、
請求項１から４の何れかの前記学習データ生成装置で得られた前記学習データを用いた機械学習によって得られた推定モデルに、姿勢推定対象に装着されたカメラで得られた撮影画像に基づく前記姿勢推定対象の身体のシルエット画像を適用し、前記姿勢推定対象の身体の姿勢推定結果を得て出力する姿勢推定方法。

【請求項8】

請求項１から４の何れかの前記学習データ生成装置、または請求項５の前記姿勢推定装置としてコンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習技術に関し、特に、学習データの生成技術に関する。

【背景技術】

【0002】

近年、視覚情報に基づく人間の三次元姿勢推定（Vision-based 3D human pose estimation）の研究が広く行われている。特に、ウェアラブルカメラを用いた姿勢推定は、多くのアプリケーションにおいて重要な意味を持つ。これまで、身体の頭部や胸部等に複数のカメラを装着し、それらで撮影された画像を用いて当該身体の姿勢推定を行う方法が提案されている（例えば、非特許文献１から４等参照）。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】W. Xu, A. Chatterjee, M. Zollhofer, H. Rhodin, P. Fua, H. P. Seidel, and C. Theobalt, "Mo2Cap2: Real-time Mobile 3D Motion Capture with a Cap-mounted Fisheye Camera," IEEE Transactions on Visualization and Computer Graphics (TVCG), vol. 25, no. 5, pp. 2093 - 2101, 2019.

【非特許文献2】D. Tome, P. Peluse, L. Agapito, and H. Badino, "xREgoPose: Egocentric 3D Human Pose From an HMD Camera," in IEEE/CVF International Conference on Computer Vision (ICCV), 2019, pp. 7727-7737.

【非特許文献3】D. Tome, T. Alldieck, P. Peluse, G. Pons-Moll, L. Agapito, H. Badino, and F. De la Torre, "Self-Pose: 3D Egocentric Pose Estimation from a Headset Mounted Camera," IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), p. 1-1, 2020.

【非特許文献4】D. H. Hwang, K. Aso, Y. Yuan, K. Kitani, and H. Koike, "MonoEye: Multimodal Human Motion Capture System Using A Single Ultra-Wide Fisheye Camera," in Proceedings of the 33rd Annual ACM Symposium on User Interface Software and Technology, 2020, pp. 98-111.

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、三次元姿勢推定において、身体の複数個所に多くのカメラを装着することは実用的ではない。また、装着されるカメラの数を単純に減らしたのでは姿勢推定精度が著しく低下する。このような問題は人間の身体の三次元姿勢推定に限定されずことではなく、ペットや家畜などの他の動物やロボットなどの身体の姿勢推定にも共通するものである。

【0005】

本発明はこのような点に鑑みてなされたものであり、実用的なカメラセッティングで身体の姿勢推定を高精度に行うことを目的とする。

【課題を解決するための手段】

【0006】

身体の姿勢推定を行う推定モデルの機械学習のために、対象に装着されたカメラで得られた撮影画像または前記撮影画像の模擬画像の何れかに基づく入力画像から、当該対象の身体のシルエット画像を得、当該シルエット画像を表す情報を含む学習データを得る。

【発明の効果】

【0007】

このような学習データを用いることで、実用的なカメラセッティングで身体の姿勢推定を高精度に行うことができる。

【図面の簡単な説明】

【0008】

【図1】図１は実施形態の姿勢推定システムの機能構成を例示するためのブロック図である。

【図2】図２Ａは実施形態の学習データ生成装置の機能構成を例示するためのブロック図である。図２Ｂは図２Ａのシルエット画像生成部の機能構成を例示するためのブロック図である。

【図3】図３は実施形態の姿勢推定装置の機能構成を例示するためのブロック図である。

【図4】図４Ａは３６０°カメラを例示した図である。図４Ｂは３６０°カメラで得られる撮影画像（カメラ・ビュー）を例示した図である。図４Ｃは身体の三次元姿勢を例示した図である。

【図5】図５は実施形態のシルエット画像生成処理を例示するための概念図である。

【図6】図６は実施形態の姿勢推定処理を例示するための概念図である。

【図7】図７Ａから図７Ｅは実験条件を説明するための図である。

【図8】図８は実験結果を例示するための図である。

【図9】図９は実施形態の装置のハードウェア構成を例示するためのブロック図である。

【発明を実施するための形態】

【0009】

以下、図面を参照して本発明の実施形態を説明する。
＜構成＞
図１に例示するように、本実施形態の姿勢推定システム１は、身体の姿勢推定を行う推定モデルの機械学習のための学習データを生成する学習データ生成装置１１、当該学習データを用いて当該推定モデルの機械学習する学習装置１２、および当該推定モデルを用いて身体の姿勢推定を行う姿勢推定装置１３を有する。

【0010】

図２Ａに例示するように、本実施形態の学習データ生成装置１１は、シルエット画像生成部１１１、学習データ生成部１１２、記憶部１１３、および制御部１１４を有する。図２Ｂに例示するように、シルエット画像生成部１１１は、例えば、シルエット抽出部１１１ａ，１１１ｃ、シフト部１１１ｂ、逆シフト部１１１ｄ、および合成部１１１ｅを有する。なお、学習データ生成装置１１の入力データおよび各部の処理で得られたデータは、記憶部１１３に格納され、必要に応じて読み出されて使用される。また、学習データ生成装置１１は、制御部１１４の制御のもとで各処理を実行する。

【0011】

図３に例示するように、本実施形態の姿勢推定装置１３は、シルエット画像生成部１３１、姿勢推定部１３２、記憶部１３３、および制御部１３４を有する。なお、姿勢推定装置１３の入力データおよび各部の処理で得られたデータは、記憶部１３３に格納され、必要に応じて読み出されて使用される。また、姿勢推定装置１３は、制御部１３４の制御のもとで各処理を実行する。

【0012】

＜学習データ生成処理＞
次に、本実施形態の学習データ生成装置１１（図２Ａ）による学習データ生成処理を例示する。
学習データ生成装置１１には、各フレームｔ＝１，…，Ｔにおける入力画像Ｖ_１，…，Ｖ_Ｔおよび正解姿勢（ground-truth pose）データＰ_１，…，Ｐ_Ｔが入力される。ｔはフレーム番号を表す正整数であり、離散時間に対応する。Ｔは最大フレーム番号を表す正整数である。入力画像Ｖ_ｔ（ただしｔ＝１，…，Ｔ）は、対象に装着されたカメラで得られたフレームｔの撮影画像（対象に装着されたカメラで撮影を行って得られる画像）に基づく画像であってもよいし、このような撮影画像の模擬画像に基づく画像であってもよい。入力画像Ｖ_ｔは、例えば、フレームｔの撮影画像またはその模擬画像を正距円筒図形式（エクイレクタングラー（equirectangular）形式）に変換して得られる画像（正距円筒図法で表現した画像）であってもよいし、その他の形式に変換して得られる画像であってもよい。「対象」は人間であってもよいし、人間以外の動物であってもよいし、ロボット等の姿勢が変化する動作機構であってもよい。「カメラ」は周囲の映像を撮影する機器であり、３６０°カメラであってもよいし、その他の魚眼レンズカメラであってもよいし、通常の画角のカメラであってもよい。例えば、カメラが３６０°カメラである場合、入力画像Ｖ_ｔは３６０°画像である。対象に装着されるカメラの台数に限定はないが、例えば、１台のカメラが対象に装着される。また、カメラの対象への装着位置に限定はない。例えば、対象が人間である場合、必ずしも頭部や胸部といった体軸に近い位置にカメラが装着される必要はなく、手首や足首など体軸から遠い位置にカメラが装着されてもよい。例えば、図４Ａの例では、手首に１個のカメラ（例えば、３６０°カメラ）が装着されている。対象の手首に１個の３６０°カメラを装着した場合、その撮影画像は例えば図４Ｂのようになる。手首に１個のカメラを装着する実用上の例としては、カメラを内蔵したスマートウォッチなどのウェアラブル機器を手首に装着するケースなどが挙げられる。「撮影画像」は実空間において対象に装着されたカメラで周囲を撮影して得られる画像であり、「模擬画像」は「撮影画像」をで模した画像（仮想空間でシミュレートした画像、すなわちコンピュータグラフィック）である。正解姿勢データＰ_ｔ（ただしｔ＝１，…，Ｔ）は、入力画像Ｖ_ｔに対応する対象の姿勢（例えば、三次元姿勢）を特定するデータ、すなわちフレームｔの入力画像Ｖ_ｔに表された対象の姿勢を表すデータである。例えば、入力画像Ｖ_ｔは、当該対象の各関節や各可動機構の角度（屈曲角度）を要素とする集合（例えば、ベクトルや行列）であってもよいし、当該対象を仮想空間で模したアバター（例えば、図４Ｃ参照）の各関節や各可動機構の角度を要素とする集合であってもよい。

【0013】

［シルエット画像生成部１１１の処理］
入力画像Ｖ_１，…，Ｖ_Ｔはシルエット画像生成部１１１に入力される。シルエット画像生成部１１１は、入力画像Ｖ_１，…，Ｖ_Ｔから、対象の身体のシルエット画像Ｓ_１，…，Ｓ_Ｔを得て出力する。シルエット画像Ｓ_ｔ（ただしｔ＝１，…，Ｔ）は、例えば、２値の画素からなる画像である。この場合、シルエット画像Ｓ_ｔおける、身体の領域または当該身体の領域と推定される領域（対象に対応する領域）の画素値は値ｂ_０であり、それ以外の領域（背景領域）の画素値は値ｂ_１である。ただし、ｂ_０≠ｂ_１であり、値ｂ_０が表す画素は値ｂ_１が表す画素と異なる。値ｂ_０，ｂ_１に限定はないが、例えば、値ｂ_０が表す画素が黒色であり、値ｂ_１が表す画素が白色であってもよいし、その逆に値ｂ_０が表す画素が白色であり、値ｂ_１が表す画素が黒色であってもよい。このような場合、シルエット画像Ｓ_ｔはモノトーン画像となる。その他、シルエット画像Ｓ_ｔが輝度の異なる３値以上の画素からなる２色画像であってもよい。しかし、シルエット画像Ｓ_ｔは２値の画素からなる画像であることが望ましい。

【0014】

入力画像Ｖ_１，…，Ｖ_Ｔからシルエット画像Ｓ_１，…，Ｓ_Ｔを得る方法に限定はない。例えば、事前に機械学習された推定モデルＭｓに入力画像Ｖ_１，…，Ｖ_Ｔを入力してシルエット画像Ｓ_１，…，Ｓ_Ｔを得てもよい。推定モデルＭｓは、例えば、ニューラルネットワークに基づくモデルであってもよいし、隠れマルコフモデル（hidden Markov model, HMM）等の確率モデルであってもよいし、サポートベクターマシーン（support vector machine, SVM）であってもよい。例えば、セマンティック・セグメンテーション（semantic segmentation）を行う推定モデルＭｓが用いられてもよい。このような推定モデルＭｓの一例は、参考文献１の学習データ（ADE20K dataset）を用いて機械学習された、参考文献２のセマンティック・セグメンテーション・ネットワーク（HRNet）に基づくモデルである。
参考文献１：B. Zhou, H. Zhao, X. Puig, T. Xiao, S. Fidler, A. Barriuso, and A. Torralba, “Semantic Understanding of Scenes Through the ADE20K Dataset,” International Journal on Computer Vision (IJCV), vol. 127, pp. 302-321, 2018.
参考文献２：K. Sun, B. Xiao, D. Liu, and J. Wang, "Deep High Resolution Representation Learning for Human Pose Estimation," in IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 5686-5696.

【0015】

入力画像Ｖ_ｔが正距円筒図法で表現した画像である場合、その上部と下部が歪む場合がある。例えば、入力画像Ｖ_ｔが正距円筒図法で表現された３６０°画像である場合、その画像の上部と下部は大きく歪む。そのため、入力画像Ｖ_ｔが正距円筒図法で表現した画像である場合、シルエット画像生成部１１１は、基準点Ｏ_１（第１基準点）を中心とした正距円筒図法で入力画像Ｖ_ｔを表現した画像Ｅ１_ｔ（第１画像）から得られたシルエット画像Ｓ１_ｔ（第１シルエット画像）と、基準点Ｏ_１（第１基準点）とは異なる基準点Ｏ_２（第２基準点）を中心とした正距円筒図法で入力画像Ｖ_ｔを表現した画像Ｅ２_ｔ（第２画像）に基づくシルエット画像Ｓ２_ｔ（第２シルエット画像）と、を合成してシルエット画像Ｓ_ｔを得てもよい。

【0016】

図２Ｂを用い、この場合のシルエット画像生成部１１１の処理を例示する。まず、シルエット画像生成部１１１に入力された入力画像Ｖ_１，…，Ｖ_Ｔは、シルエット抽出部１１１ａおよびシフト部１１１ｂに入力される。シルエット抽出部１１１ａは、基準点Ｏ_１を中心とした正距円筒図法で入力画像Ｖ_ｔを表現した画像Ｅ１_ｔから得られたシルエット画像Ｓ１_ｔを得て出力する。例えば、シルエット抽出部１１１ａは、前述した推定モデルＭｓに入力画像Ｖ_１，…，Ｖ_Ｔを入力して、基準点Ｏ_１を中心とした正距円筒図法で入力画像Ｖ_１，…，Ｖ_Ｔを表現した画像Ｅ１_１，…，Ｅ１_Ｔからシルエット画像Ｓ１_１，…，Ｓ１_Ｔを得て出力する。Ｖ_ｔ＝Ｅ１_ｔであってもよいし、Ｖ_ｔ≠Ｅ１_ｔであってもよい。シルエット画像Ｓ１_ｔは合成部１１１ｅに送られる。基準点Ｏ_１に限定はないが、例えば、予め定められた座標を基準点Ｏ_１としてもよいし、対象の所定の位置を基準点Ｏ_１としてもよい（ステップＳ１１１ａ）。シフト部１１１ｂは、入力画像Ｖ_ｔの基準点をＯ_１からＯ_２（ただしＯ_２≠Ｏ_１）にシフト（移動）した画像Ｅ２_ｔ、すなわち基準点Ｏ_１とは異なる基準点Ｏ_２を中心とした正距円筒図法で入力画像Ｖ_ｔを表現した画像Ｅ２_ｔを得て出力する。前述のように、入力画像Ｖ_ｔが正距円筒図法で表現した画像である場合、その上部と下部が歪む場合があるため、基準点Ｏ_２は基準点Ｏ_１を鉛直方向（Pitch Axis方向）にシフトして得られる点であることが望ましい。これにより、歪が生じた上部と下部の領域について、より歪の少ない情報を得ることができる。その結果、後述の姿勢推定処理において、精度の高い姿勢推定が可能となる。または、基準点Ｏ_２が基準点Ｏ_１を鉛直方向および水平方向（Yaw Axis方向）にシフトして得られる点であってもよい。これにより、歪が生じた上部と下部の領域について、より多くの情報を得ることができ、姿勢推定処理において、より精度の高い姿勢推定が可能となる。または、基準点Ｏ_２が基準点Ｏ_１を水平方向にシフトさせた点であってもよい。これによっても、歪が生じた上部と下部の領域についての他の情報を得ることができ、姿勢推定処理において推定精度を改善することができる。シフト部１１１ｂは、各フレームｔにおいて一つの基準点Ｏ_２のみついて、当該基準点Ｏ_２を中心とした正距円筒図法で入力画像Ｖ_ｔを表現した画像Ｅ２_ｔを得て出力してもよいし、各フレームｔにおいて互いに異なる複数の基準点Ｏ_２について、それぞれの基準点Ｏ_２を中心とした正距円筒図法で入力画像Ｖ_ｔを表現した画像Ｅ２_ｔを得て出力してもよい。例えば、シフト部１１１ｂは、基準点Ｏ_１を鉛直方向にシフトさせた基準点Ｏ_２、基準点Ｏ_１を鉛直方向および水平方向にシフトさせた基準点Ｏ_２、および基準点Ｏ_１を水平方向にシフトさせた基準点Ｏ_２のそれぞれについて、それぞれの基準点Ｏ_２を中心とした正距円筒図法で入力画像Ｖ_ｔを表現した画像Ｅ２_ｔを得て出力してもよい。画像Ｅ２_ｔはシルエット抽出部１１１ｃに送られる（ステップＳ１１１ｂ）。シルエット抽出部１１１ｃは、入力された画像Ｅ２_ｔからシルエット画像Ｓ２_ｔを得て出力する。例えば、シルエット抽出部１１１ｃは、前述した推定モデルＭｓに画像Ｅ２_１，…，Ｅ２_Ｔを入力してシルエット画像Ｓ２_１，…，Ｓ２_Ｔを得て出力する。各フレームｔにおいて複数の基準点Ｏ_２についての複数の画像Ｅ２_ｔが入力される場合、シルエット抽出部１１１ｃは、各フレームｔにおいて当該複数の基準点Ｏ_２についての複数の画像Ｅ２_ｔのシルエット画像Ｓ２_ｔを得て出力する。シルエット画像Ｓ２_ｔは逆シフト部１１１ｄに送られる（ステップＳ１１１ｃ）。逆シフト部１１１ｄは、シルエット画像Ｓ１_ｔとＳ２_ｔを合成するために、まずシルエット画像Ｓ２_ｔの基準点をＯ_２からＯ_１に戻した画像（逆シフトした画像）、すなわち、基準点Ｏ_１を中心とした正距円筒図法でシルエット画像Ｓ２_ｔを表現したシルエット画像Ｓ３_ｔを得て出力する。シルエット画像Ｓ３_ｔは合成部１１１ｅに送られる（ステップＳ１１１ｄ）。合成部１１１ｅは、入力されたシルエット画像Ｓ１_ｔおよびＳ３_ｔを合成してシルエット画像Ｓ_ｔを得て出力する。例えば、合成部１１１ｅは、シルエット画像Ｓ１_ｔおよびＳ３_ｔの互いに同じ座標（ｘ，ｙ）の画素値を論理ＯＲ演算して得られる値を当該座標（ｘ，ｙ）の画素値として得られる画像Ｓ’_ｔをシルエット画像Ｓ_ｔとして出力する。画像Ｓ’_ｔは、対象に対応する最大のシルエット領域（例えば、画素値がｂ_０の領域）を抽出したものとなる。あるいは、合成部１１１ｅは、画像Ｓ’_ｔのサイズを変更した画像をシルエット画像Ｓ_ｔとして出力してもよい（ステップＳ１１１ｅ）。

【0017】

図５に、入力画像Ｖ_ｔが正距円筒図法で表現された３６０°画像である場合のシルエット画像生成部１１１の処理の具体例を示す。
シルエット抽出部１１１ａは、基準点Ｏ_１を中心とした正距円筒図法で入力画像Ｖ_ｔを表現した画像Ｅ１_ｔから得られたシルエット画像Ｓ１_ｔを得て出力する（ステップＳ１１１ａ）。シフト部１１１ｂは、基準点Ｏ_１を鉛直方向に－３０°シフトさせた基準点Ｏ_２、基準点Ｏ_１を鉛直方向に＋３０°シフトさせた基準点Ｏ_２、基準点Ｏ_１を水平方向に＋２４０°シフトさせた基準点Ｏ_２、基準点Ｏ_１を水平方向に＋１２０°シフトさせた基準点Ｏ_２、基準点Ｏ_１を鉛直方向に－３０°かつ水平方向に＋２４０°シフトさせた基準点Ｏ_２、基準点Ｏ_１を鉛直方向に－３０°かつ水平方向に＋１２０°シフトさせた基準点Ｏ_２、基準点Ｏ_１を鉛直方向に＋３０°かつ水平方向に＋２４０°シフトさせた基準点Ｏ_２、および基準点Ｏ_１を鉛直方向に＋３０°かつ水平方向に＋１２０°シフトさせた基準点Ｏ_２のそれぞれについて、それぞれの基準点Ｏ_２を中心とした正距円筒図法で入力画像Ｖ_ｔを表現した複数の画像Ｅ２_ｔを得て出力する（ステップＳ１１１ｂ）。シルエット抽出部１１１ｃは、入力された画像Ｅ２_ｔからシルエット画像Ｓ２_ｔを得て出力する（ステップＳ１１１ｃ）。逆シフト部１１１ｄは、シルエット画像Ｓ１_ｔとシルエット画像Ｓ２_ｔを合成するために、各基準点Ｏ_２を元の基準点Ｏ_１に逆シフトし、当該各基準点Ｏ_１を中心とした正距円筒図法でシルエット画像Ｓ２_ｔを表現したシルエット画像Ｓ３_ｔを得て出力する（ステップＳ１１１ｄ）。合成部１１１ｅは、入力されたシルエット画像Ｓ１_ｔおよびＳ３_ｔを合成してシルエット画像Ｓ_ｔを得て出力する（ステップＳ１１１ｅ）。

【0018】

［学習データ生成部１１２の処理］
正解姿勢データＰ_１，…，Ｐ_Ｔおよびシルエット画像Ｓ_１，…，Ｓ_Ｔは、学習データ生成部１１２に入力される。学習データ生成部１１２は、各フレームｔ（ただし、ｔ＝１，…，Ｔ）についてシルエット画像Ｓ_ｔと正解姿勢データＰ_ｔとが対応つけられた学習データＤ_ｔ、すなわち、Ｓ_ｔとＰ_ｔとのペアである学習データＤ_ｔ＝（Ｓ_ｔ，Ｐ_ｔ）を得て出力する。

【0019】

＜学習処理＞
次に、本実施形態の学習装置１２による学習処理を例示する。
学習装置１２には学習データＤ_１，…，Ｄ_Ｔが入力される。学習装置１２は、学習データＤ_１，…，Ｄ_Ｔを用いた機械学習を行い、姿勢推定対象の身体のシルエット画像ｓ_１，…，ｓ_Ｎから当該姿勢推定対象の身体の姿勢推定結果ｐ_１，…，ｐ_Ｎを推定する推定モデルＭｐ_Θを得、当該推定モデルＭｐ_Θを特定するモデルパラメータΘを出力する。ｎ＝１，…，Ｎはフレーム番号を表す正整数であり、離散時間に対応する。Ｎは最大フレーム番号を表す正整数である。「姿勢推定対象」の種別は前述の「対象」の種別と同一である。例えば、前述の「対象」が人間である場合、「姿勢推定対象」も人間である。推定モデルＭｐ_Θはどのようなものであってもよい。例えば、推定モデルＭｐ_Θは、ニューラルネットワークに基づくモデルであってもよいし、隠れマルコフモデル等の確率モデルであってもよいし、サポートベクターマシーンであってもよい。推定モデルＭｐ_Θの一例は、各フレームｎのシルエット画像ｓ_ｎをモデル（例えば、ResNet）に適用して特徴ベクトルΨ_ｎを得、当該特徴ベクトルΨ_１，…，Ψ_Ｎをモデル（例えば、bidirectional long-short term memory，BiLSTM）に適用して各フレームｎのビジュアルコンテキスト（visual context）φ_ｎを得、当該ビジュアルコンテキストφ_ｎに多層パーセプトロン（multi-layer perceptrons, MLPs）を適用し、姿勢推定対象の関節の推定角度を姿勢推定結果ｐ_ｎとして出力するモデルである（図６）。学習装置１２は、例えば、ｔ＝１，…，Ｔの学習データＤ_ｔ＝（Ｓ_ｔ，Ｐ_ｔ）について、シルエット画像Ｓ_ｔを推定モデルＭｐ_Θに入力して得られる結果Ｍｐ_Θ（Ｓ_ｔ）と正解姿勢データＰ_ｔとの誤差（例えば、平均平方誤差）を最小化するモデルパラメータΘを得て出力する。例えば、学習装置１２は、以下の損失関数Ｌ（Θ）を最小化するモデルパラメータΘを得て出力する。
Ｌ（Θ）＝（Σ_{ｔ＝１，…，Ｔ}||Ｍｐ_Θ（Ｓ_ｔ）－Ｐ_ｔ||^２）／Ｔ (1)
ここで||α||はαのノルムを表す。

【0020】

＜姿勢推定処理＞
次に、本実施形態の姿勢推定装置１３による姿勢推定処理を例示する。
姿勢推定装置１３には、モデルパラメータΘおよび姿勢推定対象の入力画像ｖ_１，…，ｖ_Ｎが入力される。入力画像ｖ_ｎ（ただしｔ＝１，…，Ｔ）は、姿勢推定対象に装着されたカメラで得られたフレームｔの撮影画像（姿勢推定対象に装着されたカメラで撮影を行って得られる画像）に基づく画像である。入力画像ｖ_ｎに対応する撮影画像を得るカメラの種別、カメラの台数、カメラの装着位置は、前述の「入力画像Ｖ_ｔ」に対応する撮影画像を得るカメラの種別、カメラの台数、カメラの装着位置と同一または近似する。また、「入力画像ｖ_ｎ」の形式は「入力画像Ｖ_ｔ」の形式と同一である。例えば、「入力画像ｖ_ｔ」がフレームｔの撮影画像またはその模擬画像を正距円筒図形式に変換して得られる画像である場合、「入力画像ｖ_ｎ」はフレームｔの撮影画像を正距円筒図形式に変換して得られる画像である。

【0021】

図３に例示するように、入力画像ｖ_１，…，ｖ_Ｎはシルエット画像生成部１３１に入力される。シルエット画像生成部１３１は、入力画像ｖ_１，…，ｖ_Ｎから、姿勢推定対象の身体のシルエット画像ｓ_１，…，ｓ_Ｎを得て出力する。なお、シルエット画像生成部１３１の処理は、入力画像Ｖ_１，…，Ｖ_Ｔが入力画像ｖ_１，…，ｖ_Ｎに置換され、シルエット画像Ｓ_１，…，Ｓ_Ｔがシルエット画像ｓ_１，…，ｓ_Ｎに置換される以外、前述のシルエット画像生成部１１１の処理と同じである。

【0022】

モデルパラメータΘおよびシルエット画像ｓ_１，…，ｓ_Ｎは、姿勢推定部１３２に入力される。姿勢推定部１３２は、モデルパラメータΘによって特定される推定モデルＭｐ_Θ（学習データ生成装置１１で得られた学習データＤ_１，…，Ｄ_Ｔを用いた機械学習によって得られた推定モデル）に、シルエット画像ｓ_１，…，ｓ_Ｎ（姿勢推定対象に装着されたカメラ得られた撮影画像に基づく姿勢推定対象の身体のシルエット画像）を適用し、当該姿勢推定対象の身体の姿勢推定結果ｐ_１，…，ｐ_Ｎを得て出力する（例えば、図６参照）。

【0023】

＜実験結果＞
次に、本実施形態の方法の効果を示す実験結果を例示する。
［実験条件］
実験での対象および姿勢推定対象は人間であり、３６０°カメラを腕に装着し、歩行、ジャンプ、しゃがみ、手を上げるなどの様々な動作を行った。OptiTrackを用いて学習データ生成処理に用いる対象の身体の動きデータを得、得られた動きデータに基づいて仮想空間環境でアバターを構築し、そのアバターに基づいて学習データ生成処理に用いる入力画像Ｖ_１，…，Ｖ_Ｔおよび正解姿勢データＰ_１，…，Ｐ_Ｔを取得した。仮想空間環境にはUnityを用い、Mujocoを用いて52の自由度と19の剛性を持つアバターで姿勢を視覚化した。姿勢の推定精度の指標にはmean per-joint position error (MPJPE)を用いた。MPJPEは、推定された姿勢（例えば、推定された姿勢を表すベクトル）と正解の姿勢（例えば、正解の姿勢を表すベクトル）とのユークリッド距離を表す。すなわち、MPJPEが小さいほど推定精度が高い。実験では、以下のようにシルエット画像を得ることなく学習データを得るRGB方式と、１個の基準点のみを中心とした正距円筒図法で表現された入力画像のシルエット画像を用いる実施形態の方式（例えば、図２Ｂにおいてシフト部１１１ｂ、シルエット抽出部１１１ｃ、逆シフト部１１１ｄが省略された方式）に相当するSS（Semantic Segmentation）方式と、図５のように複数の基準点を中心とした正距円筒図法で入力画像を表現した画像から得たシルエット画像を合成して利用する実施形態の方式（Ours方式）とを比較した。
RGB方式：例えば、図７Ａのように可視化される動きデータに基づいて、図７Ｂに例示するようなRGB画像（カラー画像）の仮想空間環境を構築した。この仮想空間環境でアバターは手首に３６０°カメラＣを装着し、３６０°カメラＣで図７Ｃに例示するようなRGBの正距円筒図形式の入力画像を得た。このRGBの入力画像と当該アバターの正解姿勢データとを学習データとして機械学習を行い、姿勢の推定モデルを構築した。姿勢推定処理では、実空間で姿勢推定対象の手首に３６０°カメラを装着し、その３６０°カメラで得られた撮影画像を当該推定モデルに適用して姿勢推定結果を得た。
SS方式：例えば、図７Ａのように可視化される動きデータに基づいて、図７Ｄに例示するような二値画像（モノクロ画像）の仮想空間環境を構築した。この仮想空間環境では対象が白で表現され、それ以外の背景が黒で表現される。この仮想空間環境でアバターは手首に３６０°カメラＣを装着し、３６０°カメラＣで撮影画像を得、その３６０°カメラで得られた撮影画像を、図７Ｅに例示するように、単純に１個の基準点のみを中心とした正距円筒図法でシルエット画像に変換した。このシルエット画像と当該アバターの正解姿勢データとを学習データとして機械学習を行い、姿勢の推定モデルを構築した。姿勢推定処理では、実空間で姿勢推定対象の手首に３６０°カメラを装着し、その３６０°カメラで得られた撮影画像を、単純に１個の基準点のみを中心とした正距円筒図法で入力画像に変換し、当該入力画像を当該推定モデルに適用して姿勢推定結果を得た。

【0024】

［実験結果］
以下に、RGB方式、SS方式、およびOurs方式での姿勢推定精度を例示する。各方式において、歩行（Walk）、ジャンプ（Jump）、しゃがみ（Crouch）、手を上げる（Raise hand）といった動作を行った姿勢推定対象の姿勢推定を行い、それらのMPJPEを求めて姿勢推定精度を比較した。MPJPEは各動作および動作全体の両方について計算した。

【表1】

このように、各動作および動作全体ともOurs方式での推定精度が最も高く、次いでSS方式での推定精度が高く、RGB方式の推定精度が最も低い。図８に、RGB方式、SS方式、およびOurs方式での姿勢推定結果を表すアバターの姿勢を視覚化した図（RGB，SS，Ours）と正解の姿勢を視覚化した図（GT）とを示す。これらからも分かるように、Ours方式での推定精度が最も高く、次にSS方式での推定精度が高く、RGB方式の推定精度が最も低い。

【0025】

＜本実施形態の特徴＞
以上のように、本実施形態では、学習データ生成装置１１が、対象に装着されたカメラで得られた撮影画像または撮影画像の模擬画像の何れかに基づく入力画像から、対象の身体のシルエット画像を得、当該シルエット画像を表す情報を含む学習データを得る。学習装置１２は、このように得られた学習データを用いた機械学習によって推定モデルを得る。姿勢推定装置１３は、このように得られた推定モデルに、姿勢推定対象に装着されたカメラ得られた撮影画像に基づく姿勢推定対象の身体のシルエット画像を適用し、姿勢推定対象の身体の姿勢推定結果を得て出力する。これにより、カメラの位置や個数にかかわらず、実用的なカメラセッティングで、姿勢推定を高精度に行うことができる。

【0026】

また、一般に仮想空間環境でコンピュータグラフィックを用いて学習データを生成し、そのような学習データで機械学習を行って得られた推定モデルを実空間環境に適用した場合、ドメインギャップと呼ばれる環境の違いに起因する誤差が生じ、機械学習がうまくいかずに推定精度が低下してしまう。しかしながら、本実施形態ではシルエット画像を学習データとして用い、姿勢推定の際にもシルエット画像を得られた推定モデルに適用するため、ドメインギャップによる誤差を小さくすることができる。その結果、仮想空間環境でコンピュータグラフィックを用いて学習データを生成した場合であっても、精度の高い姿勢推定を行うことができる。一般に、実環境で得られたデータに基づいて学習データを得ようとすると、手作業を含む膨大で煩雑な事前処理が必要となるが、本実施形態では仮想空間環境で得たデータを用いて学習データを生成し、高い推定精度を実現できるため、学習データが生成の手間が大幅に軽減される。

【0027】

［ハードウェア構成］
各実施形態における学習データ生成装置１１、学習装置１２、および姿勢推定装置１３は、例えば、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）やＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。すなわち、各実施形態における学習データ生成装置１１、学習装置１２、および姿勢推定装置１３は、例えば、それぞれが有する各部を実装するように構成された処理回路（processing circuitry）を有する。このコンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

【0028】

図９は、各実施形態における学習データ生成装置１１、学習装置１２、および姿勢推定装置１３のハードウェア構成を例示したブロック図である。図９に例示するように、この例の学習データ生成装置１１、学習装置１２、および姿勢推定装置１３は、ＣＰＵ（Central Processing Unit）１０ａ、入力部１０ｂ、出力部１０ｃ、ＲＡＭ（Random Access Memory）１０ｄ、ＲＯＭ（Read Only Memory）１０ｅ、補助記憶装置１０ｆ及びバス１０ｇを有している。この例のＣＰＵ１０ａは、制御部１０ａａ、演算部１０ａｂ及びレジスタ１０ａｃを有し、レジスタ１０ａｃに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部１０ｂは、データが入力される入力端子、キーボード、マウス、タッチパネル等である。また、出力部１０ｃは、データが出力される出力端子、ディスプレイ、所定のプログラムを読み込んだＣＰＵ１０ａによって制御されるＬＡＮカード等である。また、ＲＡＭ１０ｄは、ＳＲＡＭ (Static Random Access Memory)、ＤＲＡＭ (Dynamic Random Access Memory)等であり、所定のプログラムが格納されるプログラム領域１０ｄａ及び各種データが格納されるデータ領域１０ｄｂを有している。また、補助記憶装置１０ｆは、例えば、ハードディスク、ＭＯ（Magneto-Optical disc）、半導体メモリ等であり、所定のプログラムが格納されるプログラム領域１０ｆａ及び各種データが格納されるデータ領域１０ｆｂを有している。また、バス１０ｇは、ＣＰＵ１０ａ、入力部１０ｂ、出力部１０ｃ、ＲＡＭ１０ｄ、ＲＯＭ１０ｅ及び補助記憶装置１０ｆを、情報のやり取りが可能なように接続する。ＣＰＵ１０ａは、読み込まれたＯＳ（Operating System）プログラムに従い、補助記憶装置１０ｆのプログラム領域１０ｆａに格納されているプログラムをＲＡＭ１０ｄのプログラム領域１０ｄａに書き込む。同様にＣＰＵ１０ａは、補助記憶装置１０ｆのデータ領域１０ｆｂに格納されている各種データを、ＲＡＭ１０ｄのデータ領域１０ｄｂに書き込む。そして、このプログラムやデータが書き込まれたＲＡＭ１０ｄ上のアドレスがＣＰＵ１０ａのレジスタ１０ａｃに格納される。ＣＰＵ１０ａの制御部１０ａａは、レジスタ１０ａｃに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すＲＡＭ１０ｄ上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部１０ａｂに順次実行させ、その演算結果をレジスタ１０ａｃに格納していく。このような構成により、学習データ生成装置１１、学習装置１２、および姿勢推定装置１３の機能構成が実現される。

【0029】

上述のプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

【0030】

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。上述のように、このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

【0031】

各実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【0032】

なお、本発明は上述の実施形態に限定されるものではない。例えば、本実施形態では、教師あり学習を前提とし、学習データ生成装置１１が、シルエット画像Ｓ_ｔと正解姿勢データＰ_ｔとのペアを学習データＤ_ｔ＝（Ｓ_ｔ，Ｐ_ｔ）として生成した。しかしながら、本発明が教師なし学習に適用されてもよい。すなわち、学習データ生成装置１１が、シルエット画像Ｓ_ｔを含み正解姿勢データＰ_ｔを含まない学習データＤ_ｔを生成してもよい。この場合、学習装置１２は学習データＤ_ｔを用いた機械学習によって推定モデルＭｐ_Θを得、姿勢推定装置１３は、当該推定モデルＭｐ_Θに姿勢推定対象の身体のシルエット画像を適用し、当該姿勢推定対象の身体の姿勢推定結果を得て出力する。

【0033】

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

【符号の説明】

【0034】

１姿勢推定システム
１１学習データ生成装置
１１１シルエット画像生成部
１１２学習データ生成部
１２学習装置
１３姿勢推定装置

【図1】