特開2022-100569 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 学校法人慶應義塾の特許一覧

特開2022-100569姿勢推定器学習装置、姿勢推定装置、それらの方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022100569

(43)【公開日】2022-07-06

(54)【発明の名称】姿勢推定器学習装置、姿勢推定装置、それらの方法、およびプログラム

(51)【国際特許分類】

G06T 7/70 20170101AFI20220629BHJP

G06T 7/00 20170101ALI20220629BHJP

【ＦＩ】

G06T7/70 Z

G06T7/00 350B

G06T7/00 660Z

【審査請求】未請求

【請求項の数】18

【出願形態】ＯＬ

(21)【出願番号】P 2020214619

(22)【出願日】2020-12-24

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】899000079

【氏名又は名称】慶應義塾

(74)【代理人】

【識別番号】100121706

【弁理士】

【氏名又は名称】中尾直樹

(74)【代理人】

【識別番号】100128705

【弁理士】

【氏名又は名称】中村幸雄

(74)【代理人】

【識別番号】100147773

【弁理士】

【氏名又は名称】義村宗洋

(72)【発明者】

【氏名】五十川麻理子

(72)【発明者】

【氏名】三上弾

(72)【発明者】

【氏名】山本奏

(72)【発明者】

【氏名】堀涼介

(72)【発明者】

【氏名】八馬遼

(72)【発明者】

【氏名】斎藤英雄

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096CA02

5L096EA39

5L096FA67

5L096FA69

5L096JA11

5L096KA04

5L096KA15

(57)【要約】

【課題】人物の身体の全体が写っていない画像から、その身体の姿勢を高精度に推定する。
【解決手段】カメラ１００は、推定対象の身体の近傍に設置される。画像取得部１１は、カメラ１００で撮影され、推定対象の身体の少なくとも一部が写りこんだ入力画像を取得する。特徴量抽出部１２は、入力画像から画像特徴量を抽出する。推定器学習部１３は、入力画像の画像特徴量を用いて、画像に関する特徴量を入力とし、姿勢推定結果を出力する姿勢推定器を学習する。
【選択図】図２

【特許請求の範囲】

【請求項1】

推定対象の身体の近傍に設置されたカメラで撮影され、前記身体の少なくとも一部が写りこんだ入力画像から画像特徴量を抽出する特徴量抽出部と、
前記入力画像の画像特徴量を用いて、画像に関する特徴量を入力とし、姿勢推定結果を出力する姿勢推定器を学習する推定器学習部と、
を含む姿勢推定器学習装置。

【請求項2】

請求項１に記載の姿勢推定器学習装置であって、
前記姿勢推定器は、強化学習に基づいて重みパラメータを学習した姿勢推定ネットワークであり、
前記姿勢推定結果は、前記姿勢推定ネットワークにより入力画像に写りこんだ身体の三次元姿勢を推定した結果である、
姿勢推定器学習装置。

【請求項3】

請求項１または２に記載の姿勢推定器学習装置であって、
前記入力画像から前記身体の周辺環境を推定する周辺環境推定部をさらに含み、
前記推定器学習部は、前記入力画像の画像特徴量に前記周辺環境の推定結果を連結した特徴量を入力とする前記姿勢推定器を学習するものである、
姿勢推定器学習装置。

【請求項4】

請求項１または２に記載の姿勢推定器学習装置であって、
前記入力画像から前記カメラと前記身体の特定の部位との相対的な位置関係を推定する相対位置推定部をさらに含み、
前記推定器学習部は、前記入力画像の画像特徴量に前記相対的な位置関係の推定結果を連結した特徴量を入力とする前記姿勢推定器を学習するものである、
姿勢推定器学習装置。

【請求項5】

画像に関する特徴量を入力とし、姿勢推定結果を出力する姿勢推定器を記憶する推定器記憶部と、
推定対象の身体の近傍に設置されたカメラで撮影され、前記身体の少なくとも一部が写りこんだ入力画像から画像特徴量を抽出する特徴量抽出部と、
前記入力画像の画像特徴量を前記姿勢推定器へ入力することで前記入力画像に写りこんだ身体の姿勢を推定する姿勢推定部と、
を含み、
前記姿勢推定器は、身体の少なくとも一部が写りこんだ画像から抽出した画像特徴量を用いて学習されたものである、
姿勢推定装置。

【請求項6】

請求項５に記載の姿勢推定装置であって、
前記姿勢推定器は、強化学習に基づいて重みパラメータを学習した姿勢推定ネットワークであり、
前記姿勢推定結果は、前記姿勢推定ネットワークにより入力画像に写りこんだ身体の三次元姿勢を推定した結果である、
姿勢推定装置。

【請求項7】

請求項５または６に記載の姿勢推定装置であって、
前記入力画像から前記身体の周辺環境を推定する周辺環境推定部をさらに含み、
前記姿勢推定部は、前記入力画像の画像特徴量に前記周辺環境の推定結果を連結した特徴量を前記姿勢推定器へ入力することで前記入力画像に写りこんだ身体の姿勢を推定するものである、
姿勢推定装置。

【請求項8】

請求項５または６に記載の姿勢推定装置であって、
前記入力画像から前記カメラと前記身体の特定の部位との相対的な位置関係を推定する相対位置推定部をさらに含み、
前記姿勢推定部は、前記入力画像の画像特徴量に前記相対的な位置関係の推定結果を連結した特徴量を前記姿勢推定器へ入力することで前記入力画像に写りこんだ身体の姿勢を推定するものである、
姿勢推定装置。

【請求項9】

特徴量抽出部が、推定対象の身体の近傍に設置されたカメラで撮影され、前記身体の少なくとも一部が写りこんだ入力画像から画像特徴量を抽出し、
推定器学習部が、前記入力画像の画像特徴量を用いて、画像に関する特徴量を入力とし、姿勢推定結果を出力する姿勢推定器を学習する、
姿勢推定器学習方法。

【請求項10】

請求項９に記載の姿勢推定器学習方法であって、
前記姿勢推定器は、強化学習に基づいて重みパラメータを学習した姿勢推定ネットワークであり、
前記姿勢推定結果は、前記姿勢推定ネットワークにより入力画像に写りこんだ身体の三次元姿勢を推定した結果である、
姿勢推定器学習方法。

【請求項11】

請求項９または１０に記載の姿勢推定器学習方法であって、
周辺環境推定部が、前記入力画像から前記身体の周辺環境を推定し、
前記推定器学習部は、前記入力画像の画像特徴量に前記周辺環境の推定結果を連結した特徴量を入力とする前記姿勢推定器を学習する、
姿勢推定器学習方法。

【請求項12】

請求項９または１０に記載の姿勢推定器学習方法であって、
相対位置推定部が、前記入力画像から前記カメラと前記身体の特定の部位との相対的な位置関係を推定し、
前記推定器学習部は、前記入力画像の画像特徴量に前記相対的な位置関係の推定結果を連結した特徴量を入力とする前記姿勢推定器を学習する、
姿勢推定器学習方法。

【請求項13】

推定器記憶部に、画像に関する特徴量を入力とし、姿勢推定結果を出力する姿勢推定器が記憶されており、
特徴量抽出部が、推定対象の身体の近傍に設置されたカメラで撮影され、前記身体の少なくとも一部が写りこんだ入力画像から画像特徴量を抽出し、
姿勢推定部が、前記入力画像の画像特徴量を前記姿勢推定器へ入力することで前記入力画像に写りこんだ身体の姿勢を推定し、
前記姿勢推定器は、身体の少なくとも一部が写りこんだ画像から抽出した画像特徴量を用いて学習されたものである、
姿勢推定方法。

【請求項14】

請求項１３に記載の姿勢推定方法であって、
前記姿勢推定器は、強化学習に基づいて重みパラメータを学習した姿勢推定ネットワークであり、
前記姿勢推定結果は、前記姿勢推定ネットワークにより入力画像に写りこんだ身体の三次元姿勢を推定した結果である、
姿勢推定方法。

【請求項15】

請求項１３または１４に記載の姿勢推定方法であって、
周辺環境推定部が、前記入力画像から前記身体の周辺環境を推定し、
前記姿勢推定部は、前記入力画像の画像特徴量に前記周辺環境の推定結果を連結した特徴量を前記姿勢推定器へ入力することで前記入力画像に写りこんだ身体の姿勢を推定する、
姿勢推定方法。

【請求項16】

請求項１３または１４に記載の姿勢推定方法であって、
相対位置推定部が、前記入力画像から前記カメラと前記身体の特定の部位との相対的な位置関係を推定し、
前記姿勢推定部は、前記入力画像の画像特徴量に前記相対的な位置関係の推定結果を連結した特徴量を前記姿勢推定器へ入力することで前記入力画像に写りこんだ身体の姿勢を推定する、
姿勢推定方法。

【請求項17】

請求項１から４のいずれかに記載の姿勢推定器学習装置としてコンピュータを機能させるためのプログラム。

【請求項18】

請求項５から８のいずれかに記載の姿勢推定装置としてコンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は、人間の身体の近傍で撮影された画像から、その身体の姿勢を推定する技術に関する。

【背景技術】

【0002】

例えばヘルスケア、介護、スポーツなどの様々な分野で、人間の身体の一部や人間が常時把持可能なデバイスなどに設置することで日常的に保持できるカメラ（例えば、高齢者や障害者を介護する介護者が身に着けたカメラや、脚が不自由な高齢者が使用するステッキに設置したカメラなど）を用いて、そのカメラを保持する人間の姿勢（例えば、歩いている、かがんでいる、など）を推定することには、大きなニーズがある。

【0003】

人物をカメラで撮影した画像からその人物の姿勢を推定する技術には、例えば非特許文献１に開示された手法がある。非特許文献１では、推定対象とする人物の全身を離れた位置から撮影した画像から、その人物の骨格を抽出し、その人物の身体の二次元姿勢を推定する。推定対象とする身体と物理的に近い位置から撮影された画像は、その身体がフレームアウトすることがないため、継続的に追跡することができる利点がある。しかしながら、そのような画像では三点測量の手法が使えないため、非特許文献１に開示された手法を直接適用することができない場合が多い。

【0004】

一方で、強化学習を用いることで、カメラから人物の身体を直接観測できない状況下であっても、その身体の三次元姿勢を高精度に推定することが可能な手法が提案されている（非特許文献２，３）。非特許文献２には、カメラと人物の身体とが近すぎることで観測できない状況において、その人物から一人称視点で撮影された映像を入力とし、その人物の身体の三次元姿勢を推定する技術が開示されている。非特許文献３には、障害物が存在することでセンサから人物を直接観測できない状況において、センサと人物の間に存在する壁面の反射を計測したフォトンを入力とし、その人物の身体の三次元姿勢を推定する技術が開示されている。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, Yaser Sheikh, "OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019.

【非特許文献2】Ye Yuan, Kris Kitani, "Ego-Pose Estimation and Forecasting as Real-Time PD Control", Computer Vision and Pattern Recognition (ICCV), 2019.

【非特許文献3】Mariko Isogawa, Ye Yuan, Matthew O'Toole, and Kris Kitani, "Optical Non-Line-of-Sight Physics-based 3D Human Pose Estimation", IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020.

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、非特許文献２に記載の従来技術では、推定対象とする身体が映像に全く写り込まないため、推定可能な姿勢が制限されてしまう。また、非特許文献３に記載の従来技術では、センサが推定対象とする身体から離れた位置に設置されていなければならない。そのため、非特許文献２，３に記載の従来技術を、人物の身体の近傍で撮影された画像からその身体の姿勢を推定することに直接適用することはできない。

【0007】

この発明の目的は、上記のような技術的課題に鑑みて、推定対象とする身体の全体が写っていない画像からでも、その身体の姿勢を高精度に推定することである。

【課題を解決するための手段】

【0008】

この発明の第一の態様の姿勢推定器学習装置は、推定対象の身体の近傍に設置されたカメラで撮影され、身体の少なくとも一部が写りこんだ入力画像から画像特徴量を抽出する特徴量抽出部と、入力画像の画像特徴量を用いて、画像に関する特徴量を入力とし、姿勢推定結果を出力する姿勢推定器を学習する推定器学習部と、を含む。

【0009】

この発明の第二の態様の姿勢推定装置は、画像に関する特徴量を入力とし、姿勢推定結果を出力する姿勢推定器を記憶する推定器記憶部と、推定対象の身体の近傍に設置されたカメラで撮影され、身体の少なくとも一部が写りこんだ入力画像から画像特徴量を抽出する特徴量抽出部と、入力画像の画像特徴量を姿勢推定器へ入力することで入力画像に写りこんだ身体の姿勢を推定する姿勢推定部と、を含み、姿勢推定器は、身体の少なくとも一部が写りこんだ画像から抽出した画像特徴量を用いて学習されたものである。

【発明の効果】

【0010】

この発明によれば、推定対象とする身体の全体が写っていない画像であっても、その身体の姿勢を高精度に推定することが可能となる。

【図面の簡単な説明】

【0011】

【図1】図１Ａは人間の頭部に設置した全天球カメラで撮影した画像を例示する図である。図１Ｂは人間の胸部に設置した全天球カメラで撮影した画像を例示する図である。図１Ｃは人間の手首に設置した全天球カメラで撮影した画像を例示する図である。

【図2】図２は第１実施形態の姿勢推定器学習装置の機能構成を例示する図である。

【図3】図３は第１実施形態の姿勢推定器学習方法の処理手順を例示する図である。

【図4】図４は第１実施形態の姿勢推定装置の機能構成を例示する図である。

【図5】図５は第１実施形態の姿勢推定方法の処理手順を例示する図である。

【図6】図６は第３実施形態の姿勢推定器学習装置の機能構成を例示する図である。

【図7】図７は第３実施形態の姿勢推定器学習方法の処理手順を例示する図である。

【図8】図８は第３実施形態の姿勢推定装置の機能構成を例示する図である。

【図9】図９は第３実施形態の姿勢推定方法の処理手順を例示する図である。

【図10】図１０は第４実施形態の姿勢推定器学習装置の機能構成を例示する図である。

【図11】図１１は第４実施形態の姿勢推定器学習方法の処理手順を例示する図である。

【図12】図１２は第４実施形態の姿勢推定装置の機能構成を例示する図である。

【図13】図１３は第４実施形態の姿勢推定方法の処理手順を例示する図である。

【図14】図１４はコンピュータの機能構成を例示する図である。

【発明を実施するための形態】

【0012】

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

【0013】

本発明は、推定対象とする身体の近傍に設置されたカメラで取得した画像を入力とし、強化学習を用いた姿勢推定を行うことで、その身体の姿勢を高精度に推定する姿勢推定技術である。なお、本明細書において、「画像」とは静止画と動画のいずれか一方もしくは両方を含むものとする。そのため、「カメラ」は静止画のみを撮影可能なものでもよいし、動画のみを撮影可能なものでもよいし、静止画と動画を両方撮影可能なものでもよい。

【0014】

以下の各実施形態では、例えば人間の手首や人間が把持可能なデバイスなど、比較的身体の中心に近い位置にカメラを設置することを想定する。より具体的には、例えば、ステッキのグリップ近傍に全天球カメラを設置し、そのステッキを把持している人物の姿勢を推定する。この姿勢推定結果を用いれば、その人物が歩いているのか、かがんでいるのかなど、その人物の行動を判定することが可能となる。ただし、本発明で対象とする利用シーンはこれに限定されず、推定対象とする身体の近傍から、その身体の少なくとも一部が写り込むようにカメラが設置されていれば、どのような利用シーンであっても適用できる。

【0015】

身体の近傍に位置する全天球カメラで撮影された画像には、その身体の一部が必ず写りこむが、その身体の全体は写らない場合が多い。図１Ａ～図１Ｃに、身体の各部位に設置した全天球カメラで撮影した画像を例示する。図１Ａは、人間の頭部に設置した全天球カメラで撮影された画像の例である。図１Ｂは、人間の胸部に設置した全天球カメラで撮影された画像の例である。図１Ｃは、人間の手首に設置した全天球カメラで撮影された画像の例である。これらの画像では、人間が黒い衣装を着て写っているため、各画像中で黒い領域が人間の身体にあたる。これらの画像には、カメラを設置した身体の一部が写っているが、身体の全体は写っていないことがわかる。非特許文献１では遠隔から撮影された身体の全体が写った映像を対象とし、非特許文献２では一人称視点の映像（すなわち身体が写っていない映像）を対象とし、非特許文献３では身体から遮蔽された位置から取得したセンサ情報を対象とする。したがって、これらの従来技術を、このような画像を対象とする姿勢推定に直接適用することはできない。

【0016】

［第１実施形態］
本発明の第１実施形態は、人間の身体の近傍に設置されたカメラで撮影された画像を用いて、画像に関する特徴量を入力とし、姿勢推定結果を出力する姿勢推定器を学習する姿勢推定器学習装置と、学習済みの姿勢推定器を用いて、人間の身体の近傍に設置されたカメラで撮影された画像から、その画像に写っている身体の姿勢を推定した結果を出力する姿勢推定装置と、からなる。

【0017】

＜姿勢推定器学習装置＞
図２に示すように、第１実施形態の姿勢推定器学習装置１は、例えば、カメラ１００、画像取得部１１、特徴量抽出部１２、推定器学習部１３、および推定器記憶部２０を備える。この姿勢推定器学習装置１が、図３に示す各ステップを実行することにより、第１実施形態の姿勢推定器学習方法が実現される。

【0018】

姿勢推定器学習装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。姿勢推定器学習装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。姿勢推定器学習装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。姿勢推定器学習装置１の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。姿勢推定器学習装置１が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

【0019】

カメラ１００は、姿勢推定器学習装置１の外部から有線または無線の各種インターフェースを介して接続される。姿勢推定器学習装置１を人間が携帯可能なように小型に実装できるのであれば、カメラ１００が姿勢推定器学習装置１に内蔵されていてもよい。カメラ１００は、推定対象とする身体の中心近傍に位置するように設置される。例えば、ステッキ、ラケット、スマートウォッチなど、人間が利用中に常時把持しているデバイスに設置されてもよいし、例えば、人間の頭部、人間の手首など、人間の身体の一部に設置されてもよい。カメラ１００は、推定対象とする身体の少なくとも一部が画角に入るように設置される。カメラ１００を全天球カメラとすれば、撮影方向等の調整をしなくとも推定対象の身体が写りこむようにすることができるため、好適である。

【0020】

以下、図３を参照して、第１実施形態の姿勢推定器学習装置１が実行する姿勢推定器学習方法について説明する。

【0021】

ステップＳ１１において、画像取得部１１は、カメラ１００が出力する画像を取得する。取得する画像のフォーマットは限定されず、例えばＲＧＢの静止画でもよいし動画でもよい。画像取得部１１は、取得した画像を特徴量抽出部１２へ出力する。

【0022】

ステップＳ１２において、特徴量抽出部１２は、画像取得部１１が出力した画像を特徴量ベクトル化した特徴量ベクトルfを生成する。特徴量ベクトル化のアルゴリズムや生成する特徴量ベクトルfの次元数などは限定されないが、例えば、非特許文献２に開示された、予め重みを学習したResnet18（参考文献１参照）などの特徴量抽出ネットワークによって、入力画像から特徴量を抽出する手法を用いることができる。特徴量抽出部１２は、生成した特徴量ベクトルfを推定器学習部１３へ出力する。

【0023】

〔参考文献１〕He, K., Zhang, X., Ren, S. & Sun, J., "Deep residual learning for image recognition", Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 770, 2016.

【0024】

ステップＳ１３において、推定器学習部１３は、特徴量抽出部１２が出力した特徴量ベクトルfを入力とし、推定対象とする身体の姿勢を推定した姿勢推定結果を出力する姿勢推定器を学習する。推定器学習部１３が学習する姿勢推定器は、特徴量ベクトルを入力とし、姿勢推定結果を出力するネットワークである。推定器学習部１３は、入力された特徴量ベクトルを用いて、そのネットワークの重みパラメータを学習する。ネットワーク構造は限定されないが、例えば、非特許文献１に開示された、既存のネットワーク構造を適用することができる。推定器学習部１３は、学習済みの姿勢推定器を推定器記憶部２０へ記憶する。

【0025】

＜姿勢推定装置＞
図４に示すように、第１実施形態の姿勢推定装置２は、例えば、カメラ１００、画像取得部１１、特徴量抽出部１２、推定器記憶部２０、および姿勢推定部２１を備える。この姿勢推定装置２が、図５に示す各ステップを実行することにより、第１実施形態の姿勢推定方法が実現される。

【0026】

姿勢推定装置２は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。姿勢推定装置２は、例えば、中央演算処理装置の制御のもとで各処理を実行する。姿勢推定装置２に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。姿勢推定装置２の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。姿勢推定装置２が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

【0027】

以下、図５を参照して、第１実施形態の姿勢推定装置２が実行する姿勢推定方法について、第１実施形態の姿勢推定器学習方法との相違点を中心に説明する。

【0028】

推定器記憶部２０には、姿勢推定器学習装置１により学習された姿勢推定器が予め記憶されている。

【0029】

ステップＳ１１およびＳ１２は、第１実施形態の姿勢推定器学習方法と同様である。

【0030】

ステップＳ２１において、姿勢推定部２１は、特徴量抽出部１２が出力した特徴量ベクトルfを受け取り、姿勢推定器記憶部２０に記憶された学習済みの姿勢推定器へ特徴量ベクトルfを入力することで、推定対象とする身体の姿勢推定結果を得る。姿勢推定部２１は、その姿勢推定結果を姿勢推定装置２の出力とする。

【0031】

＜変形例＞
上述の第１実施形態では、姿勢推定器を学習する機能を備える姿勢推定器学習装置１と、学習済みの姿勢推定器を用いて入力画像に写っている身体の姿勢を推定する機能を備える姿勢推定装置２とを、異なる装置として構成する例を説明した。ここで、姿勢推定器を学習する機能と学習済みの姿勢推定器を用いて身体の姿勢を推定する機能とを兼ね備える姿勢推定装置を構成することもできる。この場合、変形例の姿勢推定装置は、例えば、カメラ１００、画像取得部１１、特徴量抽出部１２、推定器学習部１３、推定器記憶部２０、および姿勢推定部２１を備えればよい。

【0032】

［第２実施形態］
第２実施形態では、推定器学習部１３による学習や姿勢推定部２１による推定に、強化学習に基づく手法を導入し、姿勢推定器の出力を三次元姿勢推定結果とする。これにより、推定対象とする身体の全体がカメラ１００から撮影することが困難な状況であっても、高精度に姿勢推定を行うことが可能となる。また、出力を三次元姿勢推定結果とすることで、非特許文献１のような二次元姿勢推定結果と比較すると、より情報量のある結果が取得できることから、本発明で利用を想定するヘルスケア、介護、スポーツなどの分野にとって、より有用な姿勢推定器の実現が期待できる。

【0033】

＜姿勢推定器学習装置＞
第２実施形態の姿勢推定器学習装置は、第１実施形態の姿勢推定器学習装置と比較すると、推定器学習部１３による学習の手法のみが異なる。

【0034】

第２実施形態の推定器学習部１３は、第１実施形態の推定器学習部１３と同様に、特徴量抽出部１２が出力した特徴量ベクトルfを入力とし、推定対象とする身体の姿勢を推定した姿勢推定結果を出力する姿勢推定器を学習する。ただし、第２実施形態の推定器学習部１３では、例えば、非特許文献２、３に開示された、強化学習に基づくネットワーク構造を、姿勢推定器に適用する。

【0035】

＜姿勢推定装置＞
第２実施形態の姿勢推定装置は、第１実施形態の姿勢推定装置と比較すると、姿勢推定部２１による推定の手法のみが異なる。

【0036】

第２実施形態の姿勢推定部２１は、第１実施形態の姿勢推定部２１と同様に、特徴量抽出部１２が出力する特徴量ベクトルfを受け取り、姿勢推定器記憶部２０に記憶された学習済みの姿勢推定器へ特徴量ベクトルfを入力することで、推定対象とする身体の姿勢推定結果を得る。ただし、第２実施形態の姿勢推定部２１では、第２実施形態の推定器学習部１３と同様に、強化学習に基づくネットワーク構造を、姿勢推定器に適用する。

【0037】

［第３実施形態］
第３実施形態では、カメラで撮影された画像から周辺環境を推定し、カメラで撮影された画像の特徴量に加えて、周辺環境の推定結果を特徴量として、姿勢推定を行う。周辺環境とは、例えば、前方から自動車などの高速で移動する物体が接近してくる、足元に階段がある、など、人物の行動に影響を与える可能性が高い事象である。このような周辺環境も加えて姿勢推定を行うことで、より高精度に姿勢を推定することが可能となる。

【0038】

＜姿勢推定器学習装置＞
図６に示すように、第３実施形態の姿勢推定器学習装置３は、第１実施形態の姿勢推定器学習装置１と同様に、例えば、カメラ１００、画像取得部１１、特徴量抽出部１２、推定器学習部１３、および推定器記憶部２０を備え、さらに、周辺環境推定部１４を備える。この姿勢推定器学習装置３が、図７に示す各ステップを実行することにより、第３実施形態の姿勢推定器学習方法が実現される。

【0039】

以下、図７を参照して、第３実施形態の姿勢推定器学習装置３が実行する姿勢推定器学習方法について、第１実施形態の姿勢推定器学習方法との相違点を中心に説明する。

【0040】

ステップＳ１１は、第１実施形態または第２実施形態の姿勢推定器学習方法と同様である。ただし、第３実施形態の画像取得部１１は、取得した画像を周辺環境推定部１４へも出力する。

【0041】

ステップＳ１４において、周辺環境推定部１４は、画像取得部１１が出力した画像を入力とし、その画像に基づいて周辺環境を推定し、その推定結果を特徴量ベクトル化した特徴量ベクトルf1を生成する。周辺環境の推定方法や生成する特徴量ベクトルf1の次元数などは限定されないが、例えば、参考文献２に開示された方法で、入力画像に映り込んだ物体を認識し、その物体の移動量をフレーム間差分で求めるなどして、物体ラベルと移動量を含めた特徴量ベクトルf1=(L₁, vx₁, vy₁, vz₁, L₂, vx₂, vy₂, vz₂, …, L_N, vx_N, vy_N, vz_N)を生成する方法が考えられる。ここで、Nは物体の最大数であり、L_k（k=1, …, N）はk番目の物体の存在を示す二値ラベルであり、vx_k, vy_k, vz_kはk番目の物体の三次元移動量である。周辺環境推定部１４は、生成した特徴量ベクトルf1を特徴量抽出部１２へ出力する。

【0042】

〔参考文献２〕K. He, G. Gkioxari, P. Dollar and R. Girshick, "Mask R-CNN," 2017 IEEE International Conference on Computer Vision (ICCV), Venice, pp. 2980-2988, 2017.

【0043】

ステップＳ１２において、第３実施形態の特徴量抽出部１２は、画像取得部１１が出力した画像を特徴量ベクトル化した特徴量ベクトルに、周辺環境推定部１４が出力した特徴量ベクトルf1を連結することで、姿勢推定器の入力とする特徴量ベクトルfを生成する。特徴量抽出部１２は、生成した特徴量ベクトルfを推定器学習部１３へ出力する。

【0044】

ステップＳ１３は、第１実施形態または第２実施形態の姿勢推定器学習方法と同様である。

【0045】

＜姿勢推定装置＞
図８に示すように、第３実施形態の姿勢推定装置４は、第１実施形態の姿勢推定装置２と同様に、例えば、カメラ１００、画像取得部１１、特徴量抽出部１２、推定器記憶部２０、および姿勢推定部２１を備え、さらに、周辺環境推定部１４を備える。この姿勢推定装置４が、図９に示す各ステップを実行することにより、第３実施形態の姿勢推定方法が実現される。

【0046】

ステップＳ１１、Ｓ１４、およびＳ１２は、第３実施形態の姿勢推定器学習方法と同様である。ステップＳ２１は、第１実施形態または第２実施形態の姿勢推定方法と同様である。

【0047】

［第４実施形態］
第４実施形態では、カメラで撮影された画像からカメラと身体との相対的な位置関係を推定し、カメラで撮影された画像の特徴量に加えて、その推定結果を特徴量として、姿勢推定を行う。例えば、ステッキにカメラが設置されている環境であれば、ステッキが身体より前に位置していれば、腕が前に伸びている、現時刻のステッキの位置が次の時刻の身体の位置となる、など、カメラと身体との相対的な位置関係から取り得る姿勢を限定して姿勢推定を行うことで、より高精度に姿勢を推定することが可能となる。

【0048】

＜姿勢推定器学習装置＞
図１０に示すように、第４実施形態の姿勢推定器学習装置５は、第１実施形態の姿勢推定器学習装置１と同様に、例えば、カメラ１００、画像取得部１１、特徴量抽出部１２、推定器学習部１３、および推定器記憶部２０を備え、さらに、相対位置推定部１５を備える。この姿勢推定器学習装置５が、図１１に示す各ステップを実行することにより、第４実施形態の姿勢推定器学習方法が実現される。

【0049】

以下、図１１を参照して、第４実施形態の姿勢推定器学習装置５が実行する姿勢推定器学習方法について、第１実施形態の姿勢推定器学習方法との相違点を中心に説明する。

【0050】

ステップＳ１１は、第１実施形態または第２実施形態の姿勢推定器学習方法と同様である。ただし、第４実施形態の画像取得部１１は、取得した画像を相対位置推定部１５へも出力する。

【0051】

ステップＳ１５において、相対位置推定部１５は、画像取得部１１が出力した画像を入力とし、その画像に基づいて特定の身体部位との相対的な位置関係を推定し、その推定結果を特徴量ベクトル化した特徴量ベクトルf2を生成する。相対的な位置関係の推定方法や生成する特徴量ベクトルf2の次元数などは限定されないが、例えば、入力画像から推定した人物の頭部と両足首の三次元位置を含めた特徴量ベクトルf1=(head_x, head_y, head_z, leftfoot_x, leftfoot_y, leftfoot_z, rightfoot_x, rightfoot_y, rightfoot_z)を生成する方法が考えられる。ここで、head_x, head_y, head_zはカメラを原点とする人物の頭部の三次元座標であり、leftfoot_x, leftfoot_y, leftfoot_zはカメラを原点とする人物の左足首の三次元座標であり、rightfoot_x, rightfoot_y, rightfoot_zはカメラを原点とする人物の右足首の三次元座標である。相対位置推定部１５は、生成した特徴量ベクトルf2を特徴量抽出部１２へ出力する。

【0052】

ステップＳ１２において、第４実施形態の特徴量抽出部１２は、画像取得部１１が出力した画像を特徴量ベクトル化した特徴量ベクトルに、相対位置推定部１５が出力した特徴量ベクトルf2を連結することで、姿勢推定器の入力とする特徴量ベクトルfを生成する。特徴量抽出部１２は、生成した特徴量ベクトルfを推定器学習部１３へ出力する。

【0053】

ステップＳ１３は、第１実施形態または第２実施形態の姿勢推定器学習方法と同様である。

【0054】

＜姿勢推定装置＞
図１２に示すように、第４実施形態の姿勢推定装置６は、第１実施形態の姿勢推定装置２と同様に、例えば、カメラ１００、画像取得部１１、特徴量抽出部１２、推定器記憶部２０、および姿勢推定部２１を備え、さらに、相対位置推定部１５を備える。この姿勢推定装置６が、図１３に示す各ステップを実行することにより、第４実施形態の姿勢推定方法が実現される。

【0055】

ステップＳ１１、Ｓ１５、およびＳ１２は、第４実施形態の姿勢推定器学習方法と同様である。ステップＳ２１は、第１実施形態または第２実施形態の姿勢推定方法と同様である。

【0056】

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

【0057】

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図１４に示すコンピュータの記憶部１０２０に読み込ませ、演算処理部１０１０、入力部１０３０、出力部１０４０などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

【0058】

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、磁気記録装置、光ディスク等である。

【0059】

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

【0060】

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部１０５０に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部１０５０に格納されたプログラムを一時的な記憶装置である記憶部１０２０に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

【0061】

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【符号の説明】

【0062】

１、３、５姿勢推定器学習装置
２、４、６姿勢推定装置
１１画像取得部
１２特徴量抽出部
１３推定器学習部
１４周辺環境推定部
１５相対位置推定部
２０推定器記憶部
２１姿勢推定部
１００カメラ

【図1】