特開2024-11160 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 日本放送協会の特許一覧

特開2024-11160姿勢推定装置、学習装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024011160

(43)【公開日】2024-01-25

(54)【発明の名称】姿勢推定装置、学習装置及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20240118BHJP

G06T 7/70 20170101ALI20240118BHJP

【ＦＩ】

G06T7/00 660B

G06T7/70 Z

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2022112940

(22)【出願日】2022-07-14

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100121119

【弁理士】

【氏名又は名称】花村泰伸

(72)【発明者】

【氏名】村上智哉

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096DA02

5L096EA05

5L096FA09

5L096FA26

5L096FA32

5L096FA72

5L096GA06

5L096GA30

5L096HA04

5L096HA09

5L096HA11

5L096KA04

(57)【要約】

【課題】動画に含まれる被写体の姿勢を推定する際に、２次元骨格情報からモーションジッタを除去し、被写体の自然な動きを実現する。
【解決手段】姿勢推定装置１のノイズ除去部１１は、２次元姿勢推定部１０１’により生成された時系列の２次元ヒートマップから関節毎の座標の軌跡を求め、ウェーブレット解析により高周波成分のノイズを除去し、モデル３０を用いて、時系列の２次元ヒートマップ及びノイズ除去後の時系列の２次元ヒートマップに基づき、新たな時系列の２次元ヒートマップを推定し、モーションジッタが除去された時系列の２次元骨格情報を求める。モデル３０は、両２次元ヒートマップに対して加重平均処理を行う加重平均部１７、及び３Ｄ畳み込み層を持つエンコーダ・デコーダモデルからなる。新たな時系列の２次元ヒートマップは、モーションジッタが発生し難く、かつ正解データからの誤差が少ないマップとなる。
【選択図】図３

【特許請求の範囲】

【請求項1】

動画に含まれる被写体の姿勢を推定する姿勢推定装置において、
前記動画をフレーム毎の複数の画像に分割し、前記複数の画像のそれぞれについて、前記被写体の姿勢を表す関節毎の位置の確率分布を２次元ヒートマップとして推定することで、時系列の２次元ヒートマップを求める２次元姿勢推定部と、
前記２次元姿勢推定部により求めた前記時系列の２次元ヒートマップから、前記被写体のモーションを平滑化した関節毎の位置を時系列の２次元骨格情報として求めるモーション平滑化部と、を備え、
前記モーション平滑化部は、
前記時系列の２次元ヒートマップから関節毎の座標の軌跡を求め、前記関節毎の座標の軌跡に対してウェーブレット解析により所定の高周波成分を除去することで、ノイズ除去後の関節毎の座標の軌跡を求め、前記ノイズ除去後の関節毎の座標の軌跡からノイズ除去後の時系列の２次元ヒートマップを求めるノイズ除去部と、
予め学習されたモデルを用いて、前記２次元姿勢推定部により求めた前記時系列の２次元ヒートマップ及び前記ノイズ除去部により求めた前記ノイズ除去後の時系列の２次元ヒートマップに基づき、新たな時系列の２次元ヒートマップを推定する推定部と、
前記推定部により推定された前記新たな時系列の２次元ヒートマップのそれぞれから確率が最大値の位置を抽出することで、前記時系列の２次元骨格情報を求める第１最大値抽出部と、を備えたことを特徴とする姿勢推定装置。

【請求項2】

請求項１に記載の姿勢推定装置において、
前記ノイズ除去部は、
前記時系列の２次元ヒートマップのそれぞれから確率が最大値の位置を抽出することで、前記関節毎の座標の軌跡を求める第２最大値抽出部と、
前記第２最大値抽出部により求めた前記関節毎の座標の軌跡に対し離散ウェーブレット変換を行うことで周波数成分を求め、前記周波数成分から前記所定の高周波成分を除去し、前記所定の高周波成分が除去された周波数成分に対し離散ウェーブレット逆変換を行うことで、前記ノイズ除去後の関節毎の座標の軌跡を求めるウェーブレット解析部と、
前記ウェーブレット解析部により求めた前記ノイズ除去後の関節毎の座標の軌跡を、ガウス分布に従って前記ノイズ除去後の時系列の２次元ヒートマップに変換するガウス分布変換部と、を備えたことを特徴とする姿勢推定装置。

【請求項3】

請求項２に記載の姿勢推定装置において、
前記ウェーブレット解析部は、
前記関節毎の座標の軌跡からｘ軸方向の変位量及びｙ軸方向の変位量を求め、前記ｘ軸方向の変位量及び前記ｙ軸方向の変位量に対し離散ウェーブレット変換を行うことでｘ軸方向の周波数成分及びｙ軸方向の周波数成分を求め、
前記ｘ軸方向の周波数成分及び前記ｙ軸方向の周波数成分から前記所定の高周波成分を除去し、
前記高周波成分が除去されたｘ軸方向の周波数成分及びｙ軸方向の周波数成分に対し離散ウェーブレット逆変換を行うことでｘ軸方向の変位量及びｙ軸方向の変位量を求め、前記ｘ軸方向の変位量及び前記ｙ軸方向の変位量から前記ノイズ除去後の関節毎の座標の軌跡を求める、ことを特徴とする姿勢推定装置。

【請求項4】

請求項１から３までのいずれか一項に記載の姿勢推定装置において、
前記モデルは、
前記時系列の２次元ヒートマップ及び前記ノイズ除去後の時系列の２次元ヒートマップについて、予め設定された重み係数を用いて加重平均を算出することで、合成後の時系列の２次元ヒートマップを求める加重平均部、及び、
前記加重平均部により求めた前記合成後の時系列の２次元ヒートマップについて、時系列方向に畳み込みを行うことで、前記新たな時系列の２次元ヒートマップを推定する３Ｄ畳み込みネットワークからなる、ことを特徴とする姿勢推定装置。

【請求項5】

動画に含まれる被写体の姿勢を推定するためのモデルを学習する学習装置において、
学習用動画を入力し、前記学習用動画をフレーム毎の複数の画像に分割し、前記複数の画像のそれぞれについて、前記被写体の姿勢を表す関節毎の位置の確率分布を２次元ヒートマップとして推定することで、時系列の２次元ヒートマップを求める２次元姿勢推定部と、
前記２次元姿勢推定部により求めた前記時系列の２次元ヒートマップから、前記被写体の関節毎の座標の軌跡を求め、前記関節毎の座標の軌跡に対してウェーブレット解析により所定の高周波成分を除去することで、ノイズ除去後の関節毎の座標の軌跡を求め、前記ノイズ除去後の関節毎の座標の軌跡からノイズ除去後の時系列の２次元ヒートマップを求めるノイズ除去部と、
前記２次元姿勢推定部により求めた前記時系列の２次元ヒートマップ、前記ノイズ除去部により求めた前記ノイズ除去後の時系列の２次元ヒートマップ、及び前記時系列の２次元ヒートマップの正解データを学習データとして、前記モデルを学習する学習部と、
を備えたことを特徴とする学習装置。

【請求項6】

請求項５に記載の学習装置において、
前記ノイズ除去部は、
前記時系列の２次元ヒートマップのそれぞれから確率が最大値の位置を抽出することで、前記関節毎の座標の軌跡を求める最大値抽出部と、
前記最大値抽出部により求めた前記関節毎の座標の軌跡に対し離散ウェーブレット変換を行うことで周波数成分を求め、前記周波数成分から前記所定の高周波成分を除去し、前記所定の高周波成分が除去された周波数成分に対し離散ウェーブレット逆変換を行うことで、前記ノイズ除去後の関節毎の座標の軌跡を求めるウェーブレット解析部と、
前記ウェーブレット解析部により求めた前記ノイズ除去後の関節毎の座標の軌跡を、ガウス分布に従って前記ノイズ除去後の時系列の２次元ヒートマップに変換するガウス分布変換部と、を備えたことを特徴とする学習装置。

【請求項7】

請求項６に記載の学習装置において、
前記ウェーブレット解析部は、
前記関節毎の座標の軌跡からｘ軸方向の変位量及びｙ軸方向の変位量を求め、前記ｘ軸方向の変位量及び前記ｙ軸方向の変位量に対し離散ウェーブレット変換を行うことでｘ軸方向の周波数成分及びｙ軸方向の周波数成分を求め、
前記ｘ軸方向の周波数成分及び前記ｙ軸方向の周波数成分から前記所定の高周波成分を除去し、
前記高周波成分が除去されたｘ軸方向の周波数成分及びｙ軸方向の周波数成分に対し離散ウェーブレット逆変換を行うことでｘ軸方向の変位量及びｙ軸方向の変位量を求め、前記ｘ軸方向の変位量及び前記ｙ軸方向の変位量から前記ノイズ除去後の関節毎の座標の軌跡を求める、ことを特徴とする学習装置。

【請求項8】

請求項５から７までのいずれか一項に記載の学習装置において、
前記モデルは、
前記時系列の２次元ヒートマップ及び前記ノイズ除去後の時系列の２次元ヒートマップについて、予め設定された重み係数を用いて加重平均を算出することで、合成後の時系列の２次元ヒートマップを求める加重平均部、及び、
前記加重平均部により求めた前記合成後の時系列の２次元ヒートマップについて、時系列方向に畳み込みを行うことで、前記新たな時系列の２次元ヒートマップを推定する３Ｄ畳み込みネットワークからなる、ことを特徴とする学習装置。

【請求項9】

動画に含まれる被写体の姿勢を推定する姿勢推定装置を構成するコンピュータを、
前記動画をフレーム毎の複数の画像に分割し、前記複数の画像のそれぞれについて、前記被写体の姿勢を表す関節毎の位置の確率分布を２次元ヒートマップとして推定することで、時系列の２次元ヒートマップを求める２次元姿勢推定部、及び、
前記２次元姿勢推定部により求めた前記時系列の２次元ヒートマップから、前記被写体のモーションを平滑化した関節毎の位置を時系列の２次元骨格情報として求めるモーション平滑化部として機能させるためのプログラムであって、
前記モーション平滑化部は、
前記時系列の２次元ヒートマップから関節毎の座標の軌跡を求め、前記関節毎の座標の軌跡に対してウェーブレット解析により所定の高周波成分を除去することで、ノイズ除去後の関節毎の座標の軌跡を求め、前記ノイズ除去後の関節毎の座標の軌跡からノイズ除去後の時系列の２次元ヒートマップを求めるノイズ除去部と、
予め学習されたモデルを用いて、前記２次元姿勢推定部により求めた前記時系列の２次元ヒートマップ及び前記ノイズ除去部により求めた前記ノイズ除去後の時系列の２次元ヒートマップに基づき、新たな時系列の２次元ヒートマップを推定する推定部と、
前記推定部により推定された前記新たな時系列の２次元ヒートマップのそれぞれから確率が最大値の位置を抽出することで、前記時系列の２次元骨格情報を求める第１最大値抽出部と、を備えたことを特徴とするプログラム。

【請求項10】

動画に含まれる被写体の姿勢を推定するためのモデルを学習する学習装置を構成するコンピュータを、
学習用動画を入力し、前記学習用動画をフレーム毎の複数の画像に分割し、前記複数の画像のそれぞれについて、前記被写体の姿勢を表す関節毎の位置の確率分布を２次元ヒートマップとして推定することで、時系列の２次元ヒートマップを求める２次元姿勢推定部、
前記２次元姿勢推定部により求めた前記時系列の２次元ヒートマップから、前記被写体の関節毎の座標の軌跡を求め、前記関節毎の座標の軌跡に対してウェーブレット解析により所定の高周波成分を除去することで、ノイズ除去後の関節毎の座標の軌跡を求め、前記ノイズ除去後の関節毎の座標の軌跡からノイズ除去後の時系列の２次元ヒートマップを求めるノイズ除去部、及び、
前記２次元姿勢推定部により求めた前記時系列の２次元ヒートマップ、前記ノイズ除去部により求めた前記ノイズ除去後の時系列の２次元ヒートマップ、及び前記時系列の２次元ヒートマップの正解データを学習データとして、前記モデルを学習する学習部として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、人物等の被写体の姿勢を推定する姿勢推定装置、被写体の姿勢を推定するためのモデルを学習する学習装置、及びこれらのプログラムに関する。

【背景技術】

【0002】

従来、人物である被写体を撮像した２次元動画像から、機械学習されたモデルを用いて人物の３次元骨格情報を推定する姿勢推定技術が知られている。

【0003】

この姿勢推定技術として、例えば、複数のＲＧＢカメラを用いて異なる視点から人物を撮像した映像を入力し、当該映像に基づいて、関節の３次元座標を推定する手法が提案されている（例えば特許文献１，２を参照）。また、近年の深層学習による画像認識の精度向上により、単眼のＲＧＢカメラを用いた姿勢推定手法も提案されている（例えば特許文献３及び非特許文献１，２を参照）。

【0004】

これらの手法は、動画から関節の３次元座標を直接推定するのではなく、動画をフレーム毎に分割し、各フレームの画像領域における関節の２次元座標を推定した後、これらを時系列データとして入力し、関節の３次元座標を推定するものである。

【0005】

関節の３次元座標の情報をアノテーションした動画データは、モーションキャプチャースタジオのような限定的な環境下でのみ取得することができる。このため、動画から関節の３次元座標を直接推定しないのは、このような環境を整えるのが困難だからである。また、このような環境では、動画背景のバリエーションに乏しく、人物に光学式マーカを装着する必要がある等、このような環境で取得した動画データを学習データとして用いる場合に、機械学習のモデルの汎化性能が低下してしまうからである。

【0006】

このような欠点を補うため、モデルを用いた関節の３次元座標を推定する処理の前に、モデルを用いた関節の２次元座標を推定する処理を行うことで、機械学習のモデルの汎化性能を確保している。

【0007】

図１４は、従来の姿勢推定装置の構成例を示すブロック図である。この姿勢推定装置１００は、人物である被写体を含む動画をフレーム毎の複数の画像に分割し、モデル１１１を用いて２次元姿勢を推定し、時系列の２次元骨格情報（フレーム毎の２次元骨格情報）を出力する２次元姿勢推定部１０１と、モデル１１２を用いて時系列の２次元骨格情報に基づき３次元姿勢を推定し、時系列の３次元骨格情報（フレーム毎の３次元骨格情報）を出力する３次元姿勢推定部１０２と、を備えている。

【0008】

２次元姿勢推定部１０１にて用いるモデル１１１は、アノテーションされた各関節の正解座標をピークとした２次元ガウス分布を学習データとして、機械学習される。２次元姿勢推定部１０１は、動画を分割して取得したフレーム毎のＲＧＢ画像のピクセルに対し、モデル１１１を用いて、各関節が存在する確率分布を関節のヒートマップとして求める（例えば非特許文献３を参照）。これにより、関節毎のヒートマップが得られる。

【0009】

そして、２次元姿勢推定部１０１は、ヒートマップにおける最大の確率値をもつピクセル（ピーク点）を関節の２次元座標とし、関節毎の２次元座標からなる２次元骨格情報を生成する（高精度な２次元姿勢推定手法については、例えば非特許文献４，５を参照）。２次元姿勢推定部１０１は、時系列の２次元骨格情報を出力する。

【0010】

図１５は、図１４に示した姿勢推定装置１００に備えた２次元姿勢推定部１０１の処理例を示すフローチャートである。２次元姿勢推定部１０１は、人物である被写体を含む動画を入力し（ステップＳ１５０１）、動画をフレーム毎の複数の画像に分割する（ステップＳ１５０２）。

【0011】

２次元姿勢推定部１０１は、画像毎に、後述するステップＳ１５０４，Ｓ１５０５，Ｓ１５０６の処理を行い（ステップＳ１５０３，Ｓ１５０７）、当該画像（フレーム）の２次元骨格情報を生成する。

【0012】

具体的には、２次元姿勢推定部１０１は、モデル１１１を用いて、当該画像に基づき、人物の姿勢を表す関節毎（関節１，２，・・・，Ｎ）の位置の確率分布をヒートマップとして推定する（ステップＳ１５０４－１，Ｓ１５０４－２，・・・，Ｓ１５０４－Ｎ）。

【0013】

そして、２次元姿勢推定部１０１は、関節のヒートマップ毎に、確率が最大値の位置（関節座標１，２，・・・，Ｎ）を抽出する（ステップＳ１５０５－１，Ｓ１５０５－２，・・・，Ｓ１５０５－Ｎ）。

【0014】

そして、２次元姿勢推定部１０１は、当該画像について、関節座標１，２，・・・，Ｎの情報を、関節毎の２次元座標からなる１フレームの２次元骨格情報として生成する（ステップＳ１５０６）。

【0015】

２次元姿勢推定部１０１は、ステップＳ１５０３，・・・，Ｓ１５０７により、画像毎に２次元骨格情報を生成した後、全フレームの２次元骨格情報（時系列の２次元骨格情報）を３次元姿勢推定部１０２に出力する（ステップＳ１５０８）。

【0016】

図１４に戻って、３次元姿勢推定部１０２は、２次元姿勢推定部１０１から時系列の２次元骨格情報を入力し、モデル１１２を用いて、２次元骨格情報に基づき３次元骨格情報を推定し、時系列の３次元骨格情報を出力する。

【0017】

３次元姿勢推定部１０２のモデル１１２は、２次元骨格情報を用いて機械学習される。３次元姿勢推定部１０２は、機械学習されたモデル１１２を用いることで、多様な動画に対して精度の高い３次元の姿勢を推定することができる。

【先行技術文献】

【特許文献】

【0018】

【特許文献1】特開２０２０－４２４７６号公報

【特許文献2】特開２０２１－１０５８８７号公報

【特許文献3】特開２０２２－１８３３３号公報

【非特許文献】

【0019】

【非特許文献1】K. Gong, J. Zhang, and J. Feng. PoseAug,“A Differentiable Pose Augmentation Framework for 3D Human Pose Estimation”, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 8575-8584.

【非特許文献2】Y. Cai, L. Ge, J. Liu, J. Cai, T. Cham, J. Yuan, and N. Thalmann,“Exploiting Spatial-Temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks”, IEEE/CVF International Conference on Computer Vision (ICCV), 2019, pp. 2272-2281.

【非特許文献3】V. Ramakrishna, D. Munoz, M Hebert, J. Bagnell, and Y. Sheikh,“Pose Machines: Articulated Pose Estimation via Inference Machines”, European Conference on Computer Vision (ECCV), 2014, pp. 33-47.

【非特許文献4】K. Sun, B. Xiao, D. Liu, and J. Wang, “Deep High-Resolution Representation Learning for Human Pose Estimation”, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 5693-5703.

【非特許文献5】Y. Chen, Z. Wang, Y. Peng, Z. Zhang, G. Yu, and J. Sun,“Cascaded Pyramid Network for Multi-Person Pose Estimation”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 7103-7112.

【発明の概要】

【発明が解決しようとする課題】

【0020】

従来の姿勢推定装置１００に備えた２次元姿勢推定部１０１による２次元姿勢推定処理は、基本的に画像１枚に対して２次元骨格情報を推定するものであり、時系列の画像である動画に対して２次元骨格情報を推定するものではない。つまり、２次元姿勢推定処理において、動画から分割された各フレームの画像は時系列データとして扱われることなく、２次元骨格情報が推定される。

【0021】

また、各関節のヒートマップの確率分布は、最大値及びこれに近い値がなだらかに密集した分布（ピーク周辺で平坦な分布）となることが多い。例えば学習データセットにない画像、モーションブラーがかかった画像については、精度の高いヒートマップを推定することが困難であり、結果としたこのような分布になる可能性が高い。

【0022】

このため、画像１枚に対する２次元骨格情報自体を見ると、正解データと近い関節位置を推定することができる。しかし、２次元姿勢推定部１０１により生成された２次元骨格情報を時系列データの関節の軌跡として見ると、人間の動きとして不自然な微小なブレである座標揺らぎ（モーションジッタ）が発生する。

【0023】

このモーションジッタが存在する状態で、２次元骨格情報が３次元姿勢推定部１０２に入力され最終的な３次元骨格情報が生成されると、３次元骨格情報にモーションジッタが残ってしまう。また、時系列の２次元骨格情報に含まれる意図しないモーションジッタが、３次元骨格情報に悪影響を及ぼすことがある。例えば時系列の２次元骨格情報に含まれるモーションジッタを、深さ方向の動きであると誤認識する可能性があり、関節が深さ方向に急激に移動する３次元骨格情報が生成されることがあり得る。

【0024】

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、動画に含まれる被写体の姿勢を推定する際に、２次元骨格情報からモーションジッタを除去し、被写体の自然な動きを実現可能な姿勢推定装置、学習装置及びプログラムを提供することにある。

【課題を解決するための手段】

【0025】

前記課題を解決するために、請求項１の姿勢推定装置は、動画に含まれる被写体の姿勢を推定する姿勢推定装置において、前記動画をフレーム毎の複数の画像に分割し、前記複数の画像のそれぞれについて、前記被写体の姿勢を表す関節毎の位置の確率分布を２次元ヒートマップとして推定することで、時系列の２次元ヒートマップを求める２次元姿勢推定部と、前記２次元姿勢推定部により求めた前記時系列の２次元ヒートマップから、前記被写体のモーションを平滑化した関節毎の位置を時系列の２次元骨格情報として求めるモーション平滑化部と、を備え、前記モーション平滑化部が、前記時系列の２次元ヒートマップから関節毎の座標の軌跡を求め、前記関節毎の座標の軌跡に対してウェーブレット解析により所定の高周波成分を除去することで、ノイズ除去後の関節毎の座標の軌跡を求め、前記ノイズ除去後の関節毎の座標の軌跡からノイズ除去後の時系列の２次元ヒートマップを求めるノイズ除去部と、予め学習されたモデルを用いて、前記２次元姿勢推定部により求めた前記時系列の２次元ヒートマップ及び前記ノイズ除去部により求めた前記ノイズ除去後の時系列の２次元ヒートマップに基づき、新たな時系列の２次元ヒートマップを推定する推定部と、前記推定部により推定された前記新たな時系列の２次元ヒートマップのそれぞれから確率が最大値の位置を抽出することで、前記時系列の２次元骨格情報を求める第１最大値抽出部と、を備えたことを特徴とする。

【0026】

また、請求項２の姿勢推定装置は、請求項１に記載の姿勢推定装置において、前記ノイズ除去部が、前記時系列の２次元ヒートマップのそれぞれから確率が最大値の位置を抽出することで、前記関節毎の座標の軌跡を求める第２最大値抽出部と、前記第２最大値抽出部により求めた前記関節毎の座標の軌跡に対し離散ウェーブレット変換を行うことで周波数成分を求め、前記周波数成分から前記所定の高周波成分を除去し、前記所定の高周波成分が除去された周波数成分に対し離散ウェーブレット逆変換を行うことで、前記ノイズ除去後の関節毎の座標の軌跡を求めるウェーブレット解析部と、前記ウェーブレット解析部により求めた前記ノイズ除去後の関節毎の座標の軌跡を、ガウス分布に従って前記ノイズ除去後の時系列の２次元ヒートマップに変換するガウス分布変換部と、を備えたことを特徴とする。

【0027】

また、請求項３の姿勢推定装置は、請求項２に記載の姿勢推定装置において、前記ウェーブレット解析部が、前記関節毎の座標の軌跡からｘ軸方向の変位量及びｙ軸方向の変位量を求め、前記ｘ軸方向の変位量及び前記ｙ軸方向の変位量に対し離散ウェーブレット変換を行うことでｘ軸方向の周波数成分及びｙ軸方向の周波数成分を求め、前記ｘ軸方向の周波数成分及び前記ｙ軸方向の周波数成分から前記所定の高周波成分を除去し、前記高周波成分が除去されたｘ軸方向の周波数成分及びｙ軸方向の周波数成分に対し離散ウェーブレット逆変換を行うことでｘ軸方向の変位量及びｙ軸方向の変位量を求め、前記ｘ軸方向の変位量及び前記ｙ軸方向の変位量から前記ノイズ除去後の関節毎の座標の軌跡を求める、ことを特徴とする。

【0028】

また、請求項４の姿勢推定装置は、請求項１から３までのいずれか一項に記載の姿勢推定装置において、前記モデルが、前記時系列の２次元ヒートマップ及び前記ノイズ除去後の時系列の２次元ヒートマップについて、予め設定された重み係数を用いて加重平均を算出することで、合成後の時系列の２次元ヒートマップを求める加重平均部、及び、前記加重平均部により求めた前記合成後の時系列の２次元ヒートマップについて、時系列方向に畳み込みを行うことで、前記新たな時系列の２次元ヒートマップを推定する３Ｄ畳み込みネットワークからなる、ことを特徴とする。

【0029】

さらに、請求項５の学習装置は、動画に含まれる被写体の姿勢を推定するためのモデルを学習する学習装置において、学習用動画を入力し、前記学習用動画をフレーム毎の複数の画像に分割し、前記複数の画像のそれぞれについて、前記被写体の姿勢を表す関節毎の位置の確率分布を２次元ヒートマップとして推定することで、時系列の２次元ヒートマップを求める２次元姿勢推定部と、前記２次元姿勢推定部により求めた前記時系列の２次元ヒートマップから、前記被写体の関節毎の座標の軌跡を求め、前記関節毎の座標の軌跡に対してウェーブレット解析により所定の高周波成分を除去することで、ノイズ除去後の関節毎の座標の軌跡を求め、前記ノイズ除去後の関節毎の座標の軌跡からノイズ除去後の時系列の２次元ヒートマップを求めるノイズ除去部と、前記２次元姿勢推定部により求めた前記時系列の２次元ヒートマップ、前記ノイズ除去部により求めた前記ノイズ除去後の時系列の２次元ヒートマップ、及び前記時系列の２次元ヒートマップの正解データを学習データとして、前記モデルを学習する学習部と、を備えたことを特徴とする。

【0030】

また、請求項６の学習装置は、請求項５に記載の学習装置において、前記ノイズ除去部が、前記時系列の２次元ヒートマップのそれぞれから確率が最大値の位置を抽出することで、前記関節毎の座標の軌跡を求める最大値抽出部と、前記最大値抽出部により求めた前記関節毎の座標の軌跡に対し離散ウェーブレット変換を行うことで周波数成分を求め、前記周波数成分から前記所定の高周波成分を除去し、前記所定の高周波成分が除去された周波数成分に対し離散ウェーブレット逆変換を行うことで、前記ノイズ除去後の関節毎の座標の軌跡を求めるウェーブレット解析部と、前記ウェーブレット解析部により求めた前記ノイズ除去後の関節毎の座標の軌跡を、ガウス分布に従って前記ノイズ除去後の時系列の２次元ヒートマップに変換するガウス分布変換部と、を備えたことを特徴とする。

【0031】

また、請求項７の学習装置は、請求項６に記載の学習装置において、前記ウェーブレット解析部が、前記関節毎の座標の軌跡からｘ軸方向の変位量及びｙ軸方向の変位量を求め、前記ｘ軸方向の変位量及び前記ｙ軸方向の変位量に対し離散ウェーブレット変換を行うことでｘ軸方向の周波数成分及びｙ軸方向の周波数成分を求め、前記ｘ軸方向の周波数成分及び前記ｙ軸方向の周波数成分から前記所定の高周波成分を除去し、前記高周波成分が除去されたｘ軸方向の周波数成分及びｙ軸方向の周波数成分に対し離散ウェーブレット逆変換を行うことでｘ軸方向の変位量及びｙ軸方向の変位量を求め、前記ｘ軸方向の変位量及び前記ｙ軸方向の変位量から前記ノイズ除去後の関節毎の座標の軌跡を求める、ことを特徴とする。

【0032】

また、請求項８の学習装置は、請求項５から７までのいずれか一項に記載の学習装置において、前記モデルが、前記時系列の２次元ヒートマップ及び前記ノイズ除去後の時系列の２次元ヒートマップについて、予め設定された重み係数を用いて加重平均を算出することで、合成後の時系列の２次元ヒートマップを求める加重平均部、及び、前記加重平均部により求めた前記合成後の時系列の２次元ヒートマップについて、時系列方向に畳み込みを行うことで、前記新たな時系列の２次元ヒートマップを推定する３Ｄ畳み込みネットワークからなる、ことを特徴とする。

【0033】

さらに、請求項９のプログラムは、動画に含まれる被写体の姿勢を推定する姿勢推定装置を構成するコンピュータを、前記動画をフレーム毎の複数の画像に分割し、前記複数の画像のそれぞれについて、前記被写体の姿勢を表す関節毎の位置の確率分布を２次元ヒートマップとして推定することで、時系列の２次元ヒートマップを求める２次元姿勢推定部、及び、前記２次元姿勢推定部により求めた前記時系列の２次元ヒートマップから、前記被写体のモーションを平滑化した関節毎の位置を時系列の２次元骨格情報として求めるモーション平滑化部として機能させるためのプログラムであって、前記モーション平滑化部が、前記時系列の２次元ヒートマップから関節毎の座標の軌跡を求め、前記関節毎の座標の軌跡に対してウェーブレット解析により所定の高周波成分を除去することで、ノイズ除去後の関節毎の座標の軌跡を求め、前記ノイズ除去後の関節毎の座標の軌跡からノイズ除去後の時系列の２次元ヒートマップを求めるノイズ除去部と、予め学習されたモデルを用いて、前記２次元姿勢推定部により求めた前記時系列の２次元ヒートマップ及び前記ノイズ除去部により求めた前記ノイズ除去後の時系列の２次元ヒートマップに基づき、新たな時系列の２次元ヒートマップを推定する推定部と、前記推定部により推定された前記新たな時系列の２次元ヒートマップのそれぞれから確率が最大値の位置を抽出することで、前記時系列の２次元骨格情報を求める第１最大値抽出部と、を備えたことを特徴とする。

【0034】

また、請求項１０のプログラムは、動画に含まれる被写体の姿勢を推定するためのモデルを学習する学習装置を構成するコンピュータを、学習用動画を入力し、前記学習用動画をフレーム毎の複数の画像に分割し、前記複数の画像のそれぞれについて、前記被写体の姿勢を表す関節毎の位置の確率分布を２次元ヒートマップとして推定することで、時系列の２次元ヒートマップを求める２次元姿勢推定部、前記２次元姿勢推定部により求めた前記時系列の２次元ヒートマップから、前記被写体の関節毎の座標の軌跡を求め、前記関節毎の座標の軌跡に対してウェーブレット解析により所定の高周波成分を除去することで、ノイズ除去後の関節毎の座標の軌跡を求め、前記ノイズ除去後の関節毎の座標の軌跡からノイズ除去後の時系列の２次元ヒートマップを求めるノイズ除去部、及び、前記２次元姿勢推定部により求めた前記時系列の２次元ヒートマップ、前記ノイズ除去部により求めた前記ノイズ除去後の時系列の２次元ヒートマップ、及び前記時系列の２次元ヒートマップの正解データを学習データとして、前記モデルを学習する学習部として機能させることを特徴とする。

【発明の効果】

【0035】

以上のように、本発明によれば、動画に含まれる被写体の姿勢を推定する際に、２次元骨格情報からモーションジッタを除去することができ、被写体の自然な動きを実現することができる。

【図面の簡単な説明】

【0036】

【図1】本発明の実施形態による姿勢推定装置の構成例を示すブロック図である。

【図2】姿勢推定装置の処理例を示すフローチャートである。

【図3】モーション平滑化部の構成例を示すブロック図である。

【図4】ウェーブレット解析部の処理例を示すフローチャートである。

【図5】左肩の関節座標の軌跡例を示す図である。

【図6】（１）は、ｘ軸方向の変位例を示す図である。（２）は、ｙ軸方向の変位例を示す図である。

【図7】（１）は、ノイズ除去後のｘ軸方向の変位例を示す図である。（２）は、ノイズ除去後のｙ軸方向の変位例を示す図である。

【図8】ノイズ除去後の左肩の関節座標の軌跡例を示す図である。

【図9】モデルを用いた推定部の処理の概略（前後Ｔフレームを用いる場合）を説明するブロック図である。

【図10】本発明の実施形態による学習装置の構成例を示すブロック図である。

【図11】学習装置の処理例を示すフローチャートである。

【図12】学習部の構成例を示すブロック図である。

【図13】学習部の処理例を示すフローチャートである。

【図14】従来の姿勢推定装置の構成例を示すブロック図である。

【図15】従来の姿勢推定装置に備えた２次元姿勢推定部の処理例を示すフローチャートである。

【発明を実施するための形態】

【0037】

以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔姿勢推定装置〕
まず、本発明の実施形態による姿勢推定装置について説明する。図１は、本発明の実施形態による姿勢推定装置の構成例を示すブロック図であり、図２は、図１に示す姿勢推定装置の処理例を示すフローチャートである。

【0038】

この姿勢推定装置１は、２次元姿勢推定部１０１’、モーション平滑化部１０及び３次元姿勢推定部１０２を備えている。２次元姿勢推定部１０１’はモデル１１１を備え、モーション平滑化部１０はモデル３０を備え、３次元姿勢推定部１０２はモデル１１２を備えている。

【0039】

２次元姿勢推定部１０１’は、人物である被写体を含む動画を入力し、動画をフレーム毎の複数の画像に分割する（ステップＳ２０１）。そして、２次元姿勢推定部１０１’は、予め学習されたモデル１１１を用いて、画像に基づき２次元ヒートマップを推定する（ステップＳ２０２）。これにより、モデル１１１を用いて、フレーム毎（画像毎）に、人物の姿勢を表す関節毎の位置の確率分布を表した２次元ヒートマップが取得される。

【0040】

２次元姿勢推定部１０１’は、フレーム毎の２次元ヒートマップを、時系列の２次元ヒートマップとしてモーション平滑化部１０に出力する。

【0041】

モーション平滑化部１０は、２次元姿勢推定部１０１’から時系列の２次元ヒートマップを入力し、予め学習されたモデル３０を用いて、時系列の２次元ヒートマップから、人物のモーションを平滑化した関節毎の位置を時系列の２次元骨格情報として求める。これにより、モーションジッタが除去された時系列の（フレーム毎の）２次元骨格情報が得られる。モデル３０には、後述する学習装置２により学習が行われたときの最適なパラメータが設定される。

【0042】

具体的には、モーション平滑化部１０は、時系列の２次元ヒートマップから関節毎の座標の軌跡を求め、関節毎の座標の軌跡に対するウェーブレット解析により、高周波成分であるモーションジッタのノイズを除去する（ステップＳ２０３）。

【0043】

モーション平滑化部１０は、ノイズ除去後の関節毎の座標の軌跡からノイズ除去後の時系列の２次元ヒートマップを求め、モデル３０を用いて、当該モーション平滑化部１０が入力した時系列の２次元ヒートマップ及びノイズ除去後の時系列の２次元ヒートマップに基づき、新たな時系列の２次元ヒートマップを推定する（ステップＳ２０４）。

【0044】

モーション平滑化部１０は、新たな時系列の２次元ヒートマップから、モーションジッタが除去された時系列の２次元骨格情報を求め（ステップＳ２０５）、時系列の２次元骨格情報を３次元姿勢推定部１０２に出力する。モーション平滑化部１０の詳細については後述する。

【0045】

３次元姿勢推定部１０２は、モーション平滑化部１０から時系列の２次元骨格情報を入力し、モデル１１２を用いて、２次元骨格情報に基づき３次元骨格情報を推定する（ステップＳ２０６）。そして、３次元姿勢推定部１０２は、時系列の３次元骨格情報を出力する（ステップＳ２０７）。

【0046】

（モーション平滑化部１０）
次に、図１に示したモーション平滑化部１０について詳細に説明する。図３は、モーション平滑化部１０の構成例を示すブロック図である。このモーション平滑化部１０は、ノイズ除去部１１、推定部１５及び最大値抽出部１６を備えている。ノイズ除去部１１は、最大値抽出部１２、ウェーブレット解析部１３及びガウス分布変換部１４を備えており、推定部１５は、モデル３０を備えている。

【0047】

ノイズ除去部１１の最大値抽出部１２は、２次元姿勢推定部１０１’から時系列の２次元ヒートマップを入力し、時系列の２次元ヒートマップのそれぞれ（フレーム毎の２次元ヒートマップ）から確率が最大値の位置を抽出する。これにより、関節毎に確率が最大値の位置、すなわち関節毎の座標の軌跡が得られる。

【0048】

最大値抽出部１２は、時系列の２次元ヒートマップのそれぞれから抽出された関節毎の位置を、関節毎の座標の軌跡としてウェーブレット解析部１３に出力する。

【0049】

ウェーブレット解析部１３は、最大値抽出部１２から関節毎の座標の軌跡を入力する。そして、ウェーブレット解析部１３は、関節毎の座標の軌跡からｘ，ｙ軸方向の変位量を算出し、これらの変位量に対するウェーブレット解析により、高周波成分であるモーションジッタのノイズを除去する。これにより、平滑化された関節毎の座標の軌跡が得られる。

【0050】

ウェーブレット解析部１３は、ノイズ除去後の関節毎の座標の軌跡をガウス分布変換部１４に出力する。

【0051】

図４は、ウェーブレット解析部１３の処理例を示すフローチャートである。ウェーブレット解析部１３は、最大値抽出部１２から関節毎の座標の軌跡を入力する（ステップＳ４０１）。

【0052】

図５は、左肩の関節座標の軌跡例を示す図である。横軸はｘ座標（ｘ軸の座標）、縦軸はｙ座標（ｙ軸の座標）である。実線は、ウェーブレット解析部１３が最大値抽出部１２から入力した関節毎の座標の軌跡のうち、左肩の関節の座標の軌跡を示し、点線は、同じ関節の座標の正解データの軌跡を示している。

【0053】

図５に示すように、両軌跡は大まかには同じであるが、実線で示す軌跡には人間的に不自然なブレが含まれており、ウェーブレット解析部１３によりブレがカットされることとなる。ここでの人間的に不自然なブレは、関節の上下左右の位置のブレ及び急な速度変化であり、その変位量を求めることにより、ブレをノイズとして観測することができる。

【0054】

図４に戻って、ウェーブレット解析部１３は、ステップＳ４０１の後、関節毎の座標の軌跡から、関節毎に、ｘ軸方向の関節の変位量を求めると共に、ｙ軸方向の関節の変位量を求める（ステップＳ４０２－１，Ｓ４０２－２）。

【0055】

具体的には、ウェーブレット解析部１３は、以下の式により、フレーム番号ｎ（ｎは０≦ｎ≦Ｎを満たす整数）のフレームにおけるｘ，ｙ軸方向の関節の変位量Ｄ_x[ｎ]，Ｄ_y[ｎ]を求める。ｘ，ｙは各フレームの関節座標を示す。
［数１］
Ｄ_x[０]＝（Ｄ_x[１]＋Ｄ_x[２]）／２
Ｄ_x[ｎ]＝ｘ[ｎ]－ｘ[ｎ－１] （ｎ≧１）・・・（１）
［数２］
Ｄ_y[０]＝（Ｄ_y[１]＋Ｄ_y[２]）／２
Ｄ_y[ｎ]＝ｙ[ｎ]－ｙ[ｎ－１] （ｎ≧１）・・・（２）

【0056】

図６（１）は、ｘ軸方向の変位例を示す図であり、図６（２）は、ｙ軸方向の変位例を示す図であり、図５に示した左肩の関節座標の軌跡例に対応している。図６（１）において、横軸はフレーム番号、縦軸はｘ軸方向の変位量であり、図６（２）において、横軸はフレーム番号、縦軸はｙ軸方向の変位量である。実線は、ウェーブレット解析部１３がステップＳ４０２－１，Ｓ４０２－２にて算出した変位量を示し、点線は、正解データの変位量を示している。

【0057】

図６（１）（２）から、ｘ，ｙ軸方向の変位量が上下に鋭角に波打っているため、左肩の関節座標の軌跡には高周波成分が含まれることがわかる。

【0058】

図４に戻って、ウェーブレット解析部１３は、ステップＳ４０２－１，Ｓ４０２－２の後、関節毎に、ｘ軸方向の関節の変位量に対して離散ウェーブレット変換を行うことで、ｘ軸方向の周波数成分を求めると共に、ｙ軸方向の関節の変位量に対して離散ウェーブレット変換を行うことで、ｙ軸方向の周波数成分を求める（ステップＳ４０３－１，Ｓ４０３－２）。

【0059】

ウェーブレット解析部１３は、関節毎に、ｘ軸方向の周波数成分のうち所定の高周波成分を０に設定することで、ｘ軸方向の周波数成分から高周波成分を除去すると共に、ｙ軸方向の周波数成分のうち所定の高周波成分を０に設定することで、ｙ軸方向の周波数成分から高周波成分を除去する（ステップＳ４０４－１，Ｓ４０４－２）。所定の高周波成分は、例えばユーザにより予め設定される成分であり、除去される高周波成分は、モーションジッタのノイズに相当する。

【0060】

ウェーブレット解析部１３は、関節毎に、ｘ軸方向の高周波成分除去後の周波数成分に対して離散ウェーブレット逆変換を行うことで、ｘ軸方向の変位量を求めると共に、ｙ軸方向の高周波成分除去後の周波数成分に対して離散ウェーブレット逆変換を行うことで、ｙ軸方向の変位量を求める（ステップＳ４０５－１，Ｓ４０５－２）。

【0061】

図７（１）は、ノイズ除去後のｘ軸方向の変位例を示す図であり、図７（２）は、ノイズ除去後のｙ軸方向の変位例を示す図であり、図５に示した左肩の関節座標の軌跡例及び図６（１）（２）に示したｘ，ｙ軸方向の変位例に対応している。図７（１）において、横軸はフレーム番号、縦軸はｘ軸方向の変位量であり、図７（２）において、横軸はフレーム番号、縦軸はｙ軸方向の変位量である。

【0062】

ａは、ウェーブレット解析部１３がステップＳ４０２－１，Ｓ４０２－２にて算出した変位量を示しており、図６（１）（２）に示した実線と同じである。ｂは、ウェーブレット解析部１３がウェーブレット解析を行いステップＳ４０５－１，Ｓ４０５－２にて算出した変位量、すなわちノイズ除去後の変位量を示している。より詳細には、ｂは、ｄｂ６（消失モーメントの数を６としたドブシーウェーブレット（Daubechies wavelet）のマザーウェーブレット）を使用し、ｌｅｖｅｌ（レベル）＝２の高周波成分を除去したときの変位量を示している。

【0063】

このレベルは、動画のフレームレート及び除去したい高周波成分に応じて、予め設定される。図７（１）（２）の例は、動画のフレームレートが３０Ｈｚの場合の変位量であり、本発明者による実験では、フレームレート３０Ｈｚの動画に対してはレベルを２に設定することにより、モーションジッタを適切に除去することができるという効果を得ている。

【0064】

図７（１）（２）から、ｂに示すノイズ除去後の変位量は、図６（１）（２）の点線に示した正解データの変位量に近いことがわかる。つまり、ウェーブレット解析部１３により、正解データに近い変位量を得ることができる。

【0065】

図４に戻って、ウェーブレット解析部１３は、ステップＳ４０５－１，Ｓ４０５－２の後、関節毎に、ｘ軸方向の変位量からｘ軸方向の座標を求めると共に、ｙ軸方向の変位量からｙ軸方向の座標を求める（ステップＳ４０６－１，Ｓ４０６－２）。そして、ウェーブレット解析部１３は、ｘ，ｙ軸方向の座標を、ノイズ除去後の関節毎の座標の軌跡としてガウス分布変換部１４に出力する（ステップＳ４０７）。

【0066】

図８は、ノイズ除去後の左肩の関節座標の軌跡例を示す図であり、図５に示した左肩の関節座標の軌跡例、図６（１）（２）に示したｘ，ｙ軸方向の変位例及び図７（１）（２）に示したノイズ除去後のｘ，ｙ軸方向の変位例に対応している。横軸はｘ座標（ｘ軸の座標）、縦軸はｙ座標（ｙ軸の座標）である。

【0067】

ａは、ウェーブレット解析部１３が最大値抽出部１２から入力した軌跡を示しており、図５に示した実線と同じである。ｂは、ウェーブレット解析部１３がウェーブレット解析を行いステップＳ４０７にて出力したノイズ除去後の軌跡を示している。

【0068】

図８から、ｂに示すノイズ除去後の軌跡は、図５の点線に示した正解データの軌跡に近いことがわかる。つまり、ウェーブレット解析部１３により、正解データに近い軌跡を得ることができる。

【0069】

このように、ウェーブレット解析部１３により、２次元姿勢推定部１０１’から入力した時系列の２次元ヒートマップに対応する関節毎の座標の軌跡から、モーションジッタのノイズを除去することができる。そして、ウェーブレット解析部１３から出力されたノイズ除去後の関節毎の座標の軌跡は、後段のガウス分布変換部１４によりノイズ除去後の時系列の２次元ヒートマップに変換される。また、ノイズ除去後の時系列の２次元ヒートマップは、後段の推定部１５によりモデル３０を用いた推定処理に使用される。

【0070】

ここでのモーションジッタにおける不自然なブレは、関節の動きにおける上下左右の位置のブレ及び急な速度変化に起因するものとし、前述のとおり、関節毎の座標の軌跡からｘ，ｙ軸方向の変位量を求め、高周波成分のノイズであるモーションジッタが除去される。

【0071】

図３に戻って、ガウス分布変換部１４は、ウェーブレット解析部１３からノイズ除去後の関節毎の座標の軌跡を入力する。そして、ガウス分布変換部１４は、ノイズ除去後の関節毎の座標の軌跡を、ガウス分布に従ってノイズ除去後の時系列の２次元ヒートマップに変換する。ガウス分布変換部１４は、ノイズ除去後の時系列の２次元ヒートマップを推定部１５に出力する。

【0072】

推定部１５は、２次元姿勢推定部１０１’から時系列の２次元ヒートマップを入力すると共に、ガウス分布変換部１４からノイズ除去後の時系列の２次元ヒートマップを入力する。

【0073】

推定部１５は、予め学習されたモデル３０を用いて、時系列の２次元ヒートマップ及びノイズ除去後の時系列の２次元ヒートマップに基づき、新たな時系列の２次元ヒートマップを推定する。そして、推定部１５は、推定後の時系列の２次元ヒートマップを最大値抽出部１６に出力する。

【0074】

図９は、モデル３０を用いた推定部１５の処理の概略（前後Ｔフレームを用いる場合）を説明するブロック図であり、推定部１５がモデル３０を用いて動作する際のブロック図を示している。この推定部１５（モデル３０）は、加重平均部１７、エンコーダ１８及びデコーダ１９を備えている。

【0075】

推定部１５は、２次元姿勢推定部１０１’から入力したフレームｔを中心としたフレーム（ｔ－Ｔ）からフレーム（ｔ＋Ｔ）までの２Ｔ＋１個の２次元ヒートマップと、ガウス分布変換部１４から入力したフレームｔを中心としたフレーム（ｔ－Ｔ）からフレーム（ｔ＋Ｔ）までの２Ｔ＋１個のノイズ除去後の２次元ヒートマップとを用いて、加重平均部１７、エンコーダ１８及びデコーダ１９の処理により、新たなフレームｔの２次元ヒートマップを推定する。Ｔは１以上の整数であり、予め設定される。ｔはフレーム番号であり、処理対象の番号を示す。

【0076】

このような処理を時系列のフレーム毎に順番に行うことで、推定部１５から推定後の時系列の２次元ヒートマップが出力される。

【0077】

推定部１５の加重平均部１７は、２次元姿勢推定部１０１’から入力したフレームｔを中心としたフレーム（ｔ－Ｔ）からフレーム（ｔ＋Ｔ）までの２次元ヒートマップと、ガウス分布変換部１４から入力したフレームｔを中心としたフレーム（ｔ－Ｔ）からフレーム（ｔ＋Ｔ）までのノイズ除去後の２次元ヒートマップとの間で、フレーム毎の対応付けを行い、フレーム（ｔ－Ｔ）からフレーム（ｔ＋Ｔ）までのフレーム毎の２次元ヒートマップの組み合わせ（２次元姿勢推定部１０１’からの２次元ヒートマップ及びガウス分布変換部１４からのノイズ除去後の２次元ヒートマップ）を設定する。

【0078】

加重平均部１７は、２次元姿勢推定部１０１’から入力した２次元ヒートマップに対する重み係数ｃ１、及びガウス分布変換部１４から入力したノイズ除去後の２次元ヒートマップに対する重み係数ｃ２を保持している。これらの重み係数ｃ１，ｃ２は、０≦ｃ１≦１，０≦ｃ２≦１，ｃ１＋ｃ２＝１の条件において、予め設定されているものとする。

【0079】

加重平均部１７は、フレーム（ｔ－Ｔ）からフレーム（ｔ＋Ｔ）までのフレーム毎の２次元ヒートマップの組み合わせに対し、フレーム毎に重み係数ｃ１，ｃ２を用いた加重平均を算出することで、フレーム毎の合成後の２次元ヒートマップを求める。そして、加重平均部１７は、２Ｔ＋１個のフレーム毎の合成後の２次元ヒートマップをエンコーダ１８に出力する。

【0080】

これにより、フレーム（ｔ－Ｔ）の合成後の２次元ヒートマップ、・・・、フレームｔの合成後の２次元ヒートマップ、・・・、及びフレーム（ｔ＋Ｔ）の合成後の２次元ヒートマップ、すなわち合成後の時系列の２次元ヒートマップが得られる。

【0081】

エンコーダ１８は、２Ｔ＋１個のフレーム毎の合成後の２次元ヒートマップを入力し、２Ｔ＋１個の２次元ヒートマップに対し、後述する学習装置２によりモデル３０に設定されたパラメータを用いて符号化処理を行うことで符号化データを求め、符号化データをデコーダ１９に出力する。

【0082】

デコーダ１９は、エンコーダ１８から符号化データを入力し、符号化データに対し、後述する学習装置２によりモデル３０に設定されたパラメータを用いて復号処理を行い、フレームｔの合成後の２次元ヒートマップを求める。

【0083】

このように、推定部１５にて、２次元姿勢推定部１０１’から入力した連続した２Ｔ＋１個の２次元ヒートマップ、及びガウス分布変換部１４から入力した連続した２Ｔ＋１個のノイズ除去後の２次元ヒートマップに基づき、モデル３０を用いた推定処理により、人間的に自然な動きを表現する新たな２次元ヒートマップが再構築される。

【0084】

加重平均部１７により加重平均処理が行われるため、新たな２次元ヒートマップは、モーションジッタが発生し難い方向へ誘導されたマップとなる。

【0085】

また、エンコーダ１８及びデコーダ１９により２Ｔ＋１個のフレームを考慮した２次元ヒートマップが再構築されるため、エンコーダ１８及びデコーダ１９は、時系列方向に畳み込みを行う３Ｄ畳み込み（Convolution）層を持つエンコーダ・デコーダモデルであるといえる。つまり、エンコーダ１８及びデコーダ１９により、フレームｔを中心とした２Ｔ＋１個のフレームに対して畳み込みが行われるため、新たな２次元ヒートマップは、正解データからの誤差が少なく、モーションジッタが少ないマップとなる。

【0086】

図３に戻って、最大値抽出部１６は、推定部１５から推定後の時系列の２次元ヒートマップを入力し、推定後の時系列の２次元ヒートマップのそれぞれ（フレーム毎の２次元ヒートマップ）から確率が最大値の位置を抽出する。これにより、関節毎に確率が最大値の位置、すなわち関節毎の座標の軌跡が得られる。

【0087】

最大値抽出部１６は、時系列の２次元ヒートマップのそれぞれから抽出された関節毎の位置を関節毎の座標の軌跡として、関節毎の座標の軌跡からなる時系列の２次元骨格情報を生成し、時系列の２次元骨格情報を３次元姿勢推定部１０２に出力する。これにより、モーションジッタが除去された時系列の２次元骨格情報が得られる。

【0088】

以上のように、本発明の実施形態の姿勢推定装置１によれば、ノイズ除去部１１は、２次元姿勢推定部１０１’により生成された時系列の２次元ヒートマップから関節毎の座標の軌跡を求め、関節毎の座標の軌跡に対するウェーブレット解析により、高周波成分であるモーションジッタのノイズを除去し、ノイズ除去後の時系列の２次元ヒートマップを求める。

【0089】

推定部１５は、モデル３０を用いて、２次元姿勢推定部１０１’により生成された時系列の２次元ヒートマップ、及びノイズ除去部１１により生成されたノイズ除去後の時系列の２次元ヒートマップに基づき、新たな時系列の２次元ヒートマップを推定し、モーションジッタが除去された時系列の２次元骨格情報を求める。

【0090】

モデル３０は、両２次元ヒートマップに対して加重平均処理を行う加重平均部１７、及び、エンコーダ１８及びデコーダ１９により実現される３Ｄ畳み込み層を持つエンコーダ・デコーダモデルからなる。このため、新たに推定される時系列の２次元ヒートマップは、モーションジッタが発生し難く、かつ正解データからの誤差が少ないマップとなる。

【0091】

これにより、時系列データとして見たときに人間的により自然な動きの時系列の２次元骨格情報を得ることができる。したがって、動画に含まれる被写体の姿勢を推定する際に、２次元骨格情報からモーションジッタを除去することができ、被写体の自然な動きを実現することができる。

【0092】

〔学習装置〕
次に、本発明の実施形態による学習装置について説明する。図１０は、本発明の実施形態による学習装置の構成例を示すブロック図であり、図１１は、図１０に示す学習装置の処理例を示すフローチャートである。

【0093】

この学習装置２は、２次元姿勢推定部１０１’、ノイズ除去部２０及び学習部２１を備えている。

【0094】

２次元姿勢推定部１０１’は、図１に示した２次元姿勢推定部１０１’と同様の処理を行う。２次元姿勢推定部１０１’は、人物である被写体を含む学習用動画を入力し、学習用動画をフレーム毎の複数の画像に分割し（ステップＳ１１０１）、予め学習されたモデル１１１を用いて、画像に基づき２次元ヒートマップを推定する（ステップＳ１１０２）。

【0095】

２次元姿勢推定部１０１’は、フレーム毎の２次元ヒートマップを、時系列の２次元ヒートマップとしてノイズ除去部２０及び学習部２１に出力する。

【0096】

ノイズ除去部２０は、図３に示したノイズ除去部１１と同様の構成の下で同様の処理を行う。ノイズ除去部２０は、２次元姿勢推定部１０１’から時系列の２次元ヒートマップを入力し、時系列のフレーム毎の２次元ヒートマップから関節毎の座標の軌跡を求め、関節毎の座標の軌跡に対するウェーブレット解析により、高周波成分であるモーションジッタのノイズを除去する（ステップＳ１１０３）。

【0097】

ノイズ除去部２０は、ノイズ除去後の時系列の２次元ヒートマップを学習部２１に出力する。

【0098】

学習部２１は、時系列の２次元ヒートマップの正解データを入力する（ステップＳ１１０４）。また、学習部２１は、２次元姿勢推定部１０１’から時系列の２次元ヒートマップを入力すると共に、ノイズ除去部２０からノイズ除去後の時系列の２次元ヒートマップを入力する。

【0099】

時系列の２次元ヒートマップの正解データは、２次元姿勢推定部１０１’が入力する学習用動画に対応しており、２次元姿勢推定部１０１’が出力する時系列の２次元ヒートマップに対する正解データである。時系列の２次元ヒートマップの正解データは、学習用動画から生成される時系列の２次元ヒートマップに対応して、予め準備されているものとする。

【0100】

学習部２１は、２次元姿勢推定部１０１’から入力した時系列の２次元ヒートマップ、ノイズ除去部２０から入力したノイズ除去後の時系列の２次元ヒートマップ、及び時系列の２次元ヒートマップの正解データを学習データとして、モデル３０を学習する（ステップＳ１１０５）。

【0101】

学習部２１は、モデル３０の学習時に設定したパラメータを出力する（ステップＳ１１０６）。このパラメータは、図９に示したエンコーダ１８及びデコーダ１９が用いるパラメータであり、図１に示したモーション平滑化部１０のモデル３０に設定される。

【0102】

図１２は、学習部２１の構成例を示すブロック図であり、図１３は、学習部２１の処理例を示すフローチャートである。

【0103】

学習部２１は、推定部２２、誤差算出部２３及びパラメータ更新部２４を備えている。推定部２２はモデル３０を備えており、図３及び図９に示した推定部１５と同様である。

【0104】

推定部２２は、２次元姿勢推定部１０１’から時系列の２次元ヒートマップを入力すると共に、ノイズ除去部２０からノイズ除去後の時系列の２次元ヒートマップを入力する（ステップＳ１３０１）。

【0105】

推定部２２は、モデル３０を用いて、時系列の２次元ヒートマップ及びノイズ除去後の時系列の２次元ヒートマップに基づき、新たな時系列の２次元ヒートマップを推定する（ステップＳ１３０２）。具体的には、推定部２２は、図９に示した推定部１５と同様に、加重平均部１７、エンコーダ１８及びデコーダ１９にて、新たな時系列の２次元ヒートマップを推定する。そして、推定部２２は、推定後の時系列の２次元ヒートマップを誤差算出部２３に出力する。

【0106】

誤差算出部２３は、時系列の２次元ヒートマップの正解データを入力すると共に（ステップＳ１３０３）、推定部２２から推定後の時系列の２次元ヒートマップを入力する。

【0107】

誤差算出部２３は、フレーム毎に、推定後の時系列の２次元ヒートマップにおけるフレームｔのデータと、これに対応する時系列の２次元ヒートマップの正解データにおけるフレームｔの正解データとの間の誤差を算出する（ステップＳ１３０４）。そして、誤差算出部２３は、誤差をパラメータ更新部２４に出力する。例えば、誤差を算出する関数としては、ＭＳＥ（平均二乗誤差）等の、誤差が大きいほど大きい値を出力する関数が用いられる。

【0108】

パラメータ更新部２４は、誤差算出部２３から誤差を入力し、当該誤差が小さくなるように、保持しているパラメータを更新する（ステップＳ１３０５）。そして、パラメータ更新部２４は、更新したパラメータを推定部２２のモデル３０に設定する。ここで、パラメータ更新部２４は、モデル３０に設定したパラメータを保持しているものとする。

【0109】

パラメータ更新部２４は、パラメータ更新の終了条件を満たすか否かを判定する（ステップＳ１３０６）。

【0110】

パラメータ更新部２４は、ステップＳ１３０６において、終了条件を満たさないと判定した場合（ステップＳ１３０６：Ｎ）、ステップＳ１３０１へ移行し、ステップＳ１３０１～Ｓ１３０５の処理を行う。つまり、終了条件を満たすまで、ステップＳ１３０１～Ｓ１３０５の処理が行われる。

【0111】

一方、パラメータ更新部２４は、ステップＳ１３０６において、終了条件を満たすと判定した場合（ステップＳ１３０６：Ｙ）、ステップＳ１３０５の処理にて更新したパラメータを最適なパラメータとして出力する（ステップＳ１３０７）。パラメータ更新部２４により出力された最適なパラメータは、図１に示した姿勢推定装置１に備えたモーション平滑化部１０のモデル３０に設定される。

【0112】

ここで、ステップＳ１３０６における終了条件は、例えば、予め設定された回数分のパラメータ更新が行われたか否か、パラメータの更新量が予め設定された閾値よりも小さいか否かの条件等である。

【0113】

以上のように、本発明の実施形態の学習装置２によれば、ノイズ除去部２０は、２次元姿勢推定部１０１’により生成された時系列の２次元ヒートマップから関節毎の座標の軌跡を求め、関節毎の座標の軌跡に対するウェーブレット解析により、高周波成分であるモーションジッタのノイズを除去し、ノイズ除去後の時系列の２次元ヒートマップを求める。

【0114】

学習部２１は、モデル３０を用いて、２次元姿勢推定部１０１’により生成された時系列の２次元ヒートマップ、及びノイズ除去部２０により生成されたノイズ除去後の時系列の２次元ヒートマップに基づき、新たな時系列の２次元ヒートマップを推定する。

【0115】

学習部２１は、推定後の時系列の２次元ヒートマップと、これに対応する時系列の２次元ヒートマップの正解データとの間の誤差を算出し、当該誤差が小さくなるように、保持しているパラメータを更新し、更新したパラメータをモデル３０に設定する。そして、終了条件を満たす最適なパラメータは、図１に示した姿勢推定装置１に備えたモーション平滑化部１０のモデル３０に設定される。

【0116】

このような最適なパラメータが設定されるモデル３０は、前述のとおり、加重平均部１７、及び、３Ｄ畳み込み層を持つエンコーダ・デコーダモデルからなる。

【0117】

これにより、モデル３０を用いる姿勢推定装置１では、モーションジッタが発生し難く、かつ正解データからの誤差が少ない２次元骨格情報であって、時系列データとして見たときに人間的により自然な動きの時系列の２次元骨格情報を得ることができる。

【0118】

したがって、動画に含まれる被写体の姿勢を推定する際に、２次元骨格情報からモーションジッタを除去することができ、被写体の自然な動きを実現することができる。

【0119】

以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。

【0120】

例えば前記実施形態では、被写体として人物に注目し、人物の姿勢を推定するための２次元ヒートマップ、２次元骨格情報及び３次元骨格情報を生成するようにした。本発明は、被写体を人物に限定するものではなく、人物以外の動物等にも適用がある。

【0121】

また、前記実施形態では、学習装置２の学習部２１は、モデル３０を学習する際に、モデル３０のエンコーダ１８及びデコーダ１９のパラメータを更新し、これらの最適値を求めるようにした。これに対し、学習部２１は、これらのパラメータに加え、モデル３０の加重平均部１７の重み係数ｃ１，ｃ２もパラメータとして更新し、エンコーダ１８及びデコーダ１９のパラメータに加え、加重平均部１７の重み係数ｃ１，ｃ２の最適値を求めるようにしてもよい。この場合、重み係数ｃ１，ｃ２も、図１に示した姿勢推定装置１に備えたモーション平滑化部１０のモデル３０に設定される。

【0122】

前記実施形態における図１に示した姿勢推定装置１及び図１０に示した学習装置２は、例えばＣＧキャラクタのモーションを生成する際に利用することができる。

【0123】

尚、本発明の実施形態による姿勢推定装置１のハードウェア構成としては、通常のコンピュータを使用することができる。姿勢推定装置１は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。学習装置２についても同様である。

【0124】

姿勢推定装置１に備えた２次元姿勢推定部１０１’、モーション平滑化部１０（ノイズ除去部１１（最大値抽出部１２、ウェーブレット解析部１３及びガウス分布変換部１４）、推定部１５及び最大値抽出部１６）及び３次元姿勢推定部１０２の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

【0125】

また、学習装置２に備えた２次元姿勢推定部１０１’、ノイズ除去部２０及び学習部２１（推定部２２、誤差算出部２３及びパラメータ更新部２４）の各機能も、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

【0126】

これらのプログラムは、前記記憶媒体に格納されており、ＣＰＵに読み出されて実行される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

【符号の説明】

【0127】

１，１００姿勢推定装置
２学習装置
１０モーション平滑化部
１１，２０ノイズ除去部
１２，１６最大値抽出部
１３ウェーブレット解析部
１４ガウス分布変換部
１５，２２推定部
１７加重平均部
１８エンコーダ
１９デコーダ
２１学習部
２３誤差算出部
２４パラメータ更新部
３０，１１１，１１２モデル
１０１，１０１’ ２次元姿勢推定部
１０２３次元姿勢推定部
ｃ１，ｃ２重み係数

【図1】