(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022100569
(43)【公開日】2022-07-06
(54)【発明の名称】姿勢推定器学習装置、姿勢推定装置、それらの方法、およびプログラム
(51)【国際特許分類】
G06T 7/70 20170101AFI20220629BHJP
G06T 7/00 20170101ALI20220629BHJP
【FI】
G06T7/70 Z
G06T7/00 350B
G06T7/00 660Z
【審査請求】未請求
【請求項の数】18
【出願形態】OL
(21)【出願番号】P 2020214619
(22)【出願日】2020-12-24
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】899000079
【氏名又は名称】慶應義塾
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】五十川 麻理子
(72)【発明者】
【氏名】三上 弾
(72)【発明者】
【氏名】山本 奏
(72)【発明者】
【氏名】堀 涼介
(72)【発明者】
【氏名】八馬 遼
(72)【発明者】
【氏名】斎藤 英雄
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA02
5L096EA39
5L096FA67
5L096FA69
5L096JA11
5L096KA04
5L096KA15
(57)【要約】
【課題】人物の身体の全体が写っていない画像から、その身体の姿勢を高精度に推定する。
【解決手段】カメラ100は、推定対象の身体の近傍に設置される。画像取得部11は、カメラ100で撮影され、推定対象の身体の少なくとも一部が写りこんだ入力画像を取得する。特徴量抽出部12は、入力画像から画像特徴量を抽出する。推定器学習部13は、入力画像の画像特徴量を用いて、画像に関する特徴量を入力とし、姿勢推定結果を出力する姿勢推定器を学習する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
推定対象の身体の近傍に設置されたカメラで撮影され、前記身体の少なくとも一部が写りこんだ入力画像から画像特徴量を抽出する特徴量抽出部と、
前記入力画像の画像特徴量を用いて、画像に関する特徴量を入力とし、姿勢推定結果を出力する姿勢推定器を学習する推定器学習部と、
を含む姿勢推定器学習装置。
【請求項2】
請求項1に記載の姿勢推定器学習装置であって、
前記姿勢推定器は、強化学習に基づいて重みパラメータを学習した姿勢推定ネットワークであり、
前記姿勢推定結果は、前記姿勢推定ネットワークにより入力画像に写りこんだ身体の三次元姿勢を推定した結果である、
姿勢推定器学習装置。
【請求項3】
請求項1または2に記載の姿勢推定器学習装置であって、
前記入力画像から前記身体の周辺環境を推定する周辺環境推定部をさらに含み、
前記推定器学習部は、前記入力画像の画像特徴量に前記周辺環境の推定結果を連結した特徴量を入力とする前記姿勢推定器を学習するものである、
姿勢推定器学習装置。
【請求項4】
請求項1または2に記載の姿勢推定器学習装置であって、
前記入力画像から前記カメラと前記身体の特定の部位との相対的な位置関係を推定する相対位置推定部をさらに含み、
前記推定器学習部は、前記入力画像の画像特徴量に前記相対的な位置関係の推定結果を連結した特徴量を入力とする前記姿勢推定器を学習するものである、
姿勢推定器学習装置。
【請求項5】
画像に関する特徴量を入力とし、姿勢推定結果を出力する姿勢推定器を記憶する推定器記憶部と、
推定対象の身体の近傍に設置されたカメラで撮影され、前記身体の少なくとも一部が写りこんだ入力画像から画像特徴量を抽出する特徴量抽出部と、
前記入力画像の画像特徴量を前記姿勢推定器へ入力することで前記入力画像に写りこんだ身体の姿勢を推定する姿勢推定部と、
を含み、
前記姿勢推定器は、身体の少なくとも一部が写りこんだ画像から抽出した画像特徴量を用いて学習されたものである、
姿勢推定装置。
【請求項6】
請求項5に記載の姿勢推定装置であって、
前記姿勢推定器は、強化学習に基づいて重みパラメータを学習した姿勢推定ネットワークであり、
前記姿勢推定結果は、前記姿勢推定ネットワークにより入力画像に写りこんだ身体の三次元姿勢を推定した結果である、
姿勢推定装置。
【請求項7】
請求項5または6に記載の姿勢推定装置であって、
前記入力画像から前記身体の周辺環境を推定する周辺環境推定部をさらに含み、
前記姿勢推定部は、前記入力画像の画像特徴量に前記周辺環境の推定結果を連結した特徴量を前記姿勢推定器へ入力することで前記入力画像に写りこんだ身体の姿勢を推定するものである、
姿勢推定装置。
【請求項8】
請求項5または6に記載の姿勢推定装置であって、
前記入力画像から前記カメラと前記身体の特定の部位との相対的な位置関係を推定する相対位置推定部をさらに含み、
前記姿勢推定部は、前記入力画像の画像特徴量に前記相対的な位置関係の推定結果を連結した特徴量を前記姿勢推定器へ入力することで前記入力画像に写りこんだ身体の姿勢を推定するものである、
姿勢推定装置。
【請求項9】
特徴量抽出部が、推定対象の身体の近傍に設置されたカメラで撮影され、前記身体の少なくとも一部が写りこんだ入力画像から画像特徴量を抽出し、
推定器学習部が、前記入力画像の画像特徴量を用いて、画像に関する特徴量を入力とし、姿勢推定結果を出力する姿勢推定器を学習する、
姿勢推定器学習方法。
【請求項10】
請求項9に記載の姿勢推定器学習方法であって、
前記姿勢推定器は、強化学習に基づいて重みパラメータを学習した姿勢推定ネットワークであり、
前記姿勢推定結果は、前記姿勢推定ネットワークにより入力画像に写りこんだ身体の三次元姿勢を推定した結果である、
姿勢推定器学習方法。
【請求項11】
請求項9または10に記載の姿勢推定器学習方法であって、
周辺環境推定部が、前記入力画像から前記身体の周辺環境を推定し、
前記推定器学習部は、前記入力画像の画像特徴量に前記周辺環境の推定結果を連結した特徴量を入力とする前記姿勢推定器を学習する、
姿勢推定器学習方法。
【請求項12】
請求項9または10に記載の姿勢推定器学習方法であって、
相対位置推定部が、前記入力画像から前記カメラと前記身体の特定の部位との相対的な位置関係を推定し、
前記推定器学習部は、前記入力画像の画像特徴量に前記相対的な位置関係の推定結果を連結した特徴量を入力とする前記姿勢推定器を学習する、
姿勢推定器学習方法。
【請求項13】
推定器記憶部に、画像に関する特徴量を入力とし、姿勢推定結果を出力する姿勢推定器が記憶されており、
特徴量抽出部が、推定対象の身体の近傍に設置されたカメラで撮影され、前記身体の少なくとも一部が写りこんだ入力画像から画像特徴量を抽出し、
姿勢推定部が、前記入力画像の画像特徴量を前記姿勢推定器へ入力することで前記入力画像に写りこんだ身体の姿勢を推定し、
前記姿勢推定器は、身体の少なくとも一部が写りこんだ画像から抽出した画像特徴量を用いて学習されたものである、
姿勢推定方法。
【請求項14】
請求項13に記載の姿勢推定方法であって、
前記姿勢推定器は、強化学習に基づいて重みパラメータを学習した姿勢推定ネットワークであり、
前記姿勢推定結果は、前記姿勢推定ネットワークにより入力画像に写りこんだ身体の三次元姿勢を推定した結果である、
姿勢推定方法。
【請求項15】
請求項13または14に記載の姿勢推定方法であって、
周辺環境推定部が、前記入力画像から前記身体の周辺環境を推定し、
前記姿勢推定部は、前記入力画像の画像特徴量に前記周辺環境の推定結果を連結した特徴量を前記姿勢推定器へ入力することで前記入力画像に写りこんだ身体の姿勢を推定する、
姿勢推定方法。
【請求項16】
請求項13または14に記載の姿勢推定方法であって、
相対位置推定部が、前記入力画像から前記カメラと前記身体の特定の部位との相対的な位置関係を推定し、
前記姿勢推定部は、前記入力画像の画像特徴量に前記相対的な位置関係の推定結果を連結した特徴量を前記姿勢推定器へ入力することで前記入力画像に写りこんだ身体の姿勢を推定する、
姿勢推定方法。
【請求項17】
請求項1から4のいずれかに記載の姿勢推定器学習装置としてコンピュータを機能させるためのプログラム。
【請求項18】
請求項5から8のいずれかに記載の姿勢推定装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、人間の身体の近傍で撮影された画像から、その身体の姿勢を推定する技術に関する。
【背景技術】
【0002】
例えばヘルスケア、介護、スポーツなどの様々な分野で、人間の身体の一部や人間が常時把持可能なデバイスなどに設置することで日常的に保持できるカメラ(例えば、高齢者や障害者を介護する介護者が身に着けたカメラや、脚が不自由な高齢者が使用するステッキに設置したカメラなど)を用いて、そのカメラを保持する人間の姿勢(例えば、歩いている、かがんでいる、など)を推定することには、大きなニーズがある。
【0003】
人物をカメラで撮影した画像からその人物の姿勢を推定する技術には、例えば非特許文献1に開示された手法がある。非特許文献1では、推定対象とする人物の全身を離れた位置から撮影した画像から、その人物の骨格を抽出し、その人物の身体の二次元姿勢を推定する。推定対象とする身体と物理的に近い位置から撮影された画像は、その身体がフレームアウトすることがないため、継続的に追跡することができる利点がある。しかしながら、そのような画像では三点測量の手法が使えないため、非特許文献1に開示された手法を直接適用することができない場合が多い。
【0004】
一方で、強化学習を用いることで、カメラから人物の身体を直接観測できない状況下であっても、その身体の三次元姿勢を高精度に推定することが可能な手法が提案されている(非特許文献2,3)。非特許文献2には、カメラと人物の身体とが近すぎることで観測できない状況において、その人物から一人称視点で撮影された映像を入力とし、その人物の身体の三次元姿勢を推定する技術が開示されている。非特許文献3には、障害物が存在することでセンサから人物を直接観測できない状況において、センサと人物の間に存在する壁面の反射を計測したフォトンを入力とし、その人物の身体の三次元姿勢を推定する技術が開示されている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, Yaser Sheikh, "OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019.
【非特許文献2】Ye Yuan, Kris Kitani, "Ego-Pose Estimation and Forecasting as Real-Time PD Control", Computer Vision and Pattern Recognition (ICCV), 2019.
【非特許文献3】Mariko Isogawa, Ye Yuan, Matthew O'Toole, and Kris Kitani, "Optical Non-Line-of-Sight Physics-based 3D Human Pose Estimation", IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、非特許文献2に記載の従来技術では、推定対象とする身体が映像に全く写り込まないため、推定可能な姿勢が制限されてしまう。また、非特許文献3に記載の従来技術では、センサが推定対象とする身体から離れた位置に設置されていなければならない。そのため、非特許文献2,3に記載の従来技術を、人物の身体の近傍で撮影された画像からその身体の姿勢を推定することに直接適用することはできない。
【0007】
この発明の目的は、上記のような技術的課題に鑑みて、推定対象とする身体の全体が写っていない画像からでも、その身体の姿勢を高精度に推定することである。
【課題を解決するための手段】
【0008】
この発明の第一の態様の姿勢推定器学習装置は、推定対象の身体の近傍に設置されたカメラで撮影され、身体の少なくとも一部が写りこんだ入力画像から画像特徴量を抽出する特徴量抽出部と、入力画像の画像特徴量を用いて、画像に関する特徴量を入力とし、姿勢推定結果を出力する姿勢推定器を学習する推定器学習部と、を含む。
【0009】
この発明の第二の態様の姿勢推定装置は、画像に関する特徴量を入力とし、姿勢推定結果を出力する姿勢推定器を記憶する推定器記憶部と、推定対象の身体の近傍に設置されたカメラで撮影され、身体の少なくとも一部が写りこんだ入力画像から画像特徴量を抽出する特徴量抽出部と、入力画像の画像特徴量を姿勢推定器へ入力することで入力画像に写りこんだ身体の姿勢を推定する姿勢推定部と、を含み、姿勢推定器は、身体の少なくとも一部が写りこんだ画像から抽出した画像特徴量を用いて学習されたものである。
【発明の効果】
【0010】
この発明によれば、推定対象とする身体の全体が写っていない画像であっても、その身体の姿勢を高精度に推定することが可能となる。
【図面の簡単な説明】
【0011】
【
図1】
図1Aは人間の頭部に設置した全天球カメラで撮影した画像を例示する図である。
図1Bは人間の胸部に設置した全天球カメラで撮影した画像を例示する図である。
図1Cは人間の手首に設置した全天球カメラで撮影した画像を例示する図である。
【
図2】
図2は第1実施形態の姿勢推定器学習装置の機能構成を例示する図である。
【
図3】
図3は第1実施形態の姿勢推定器学習方法の処理手順を例示する図である。
【
図4】
図4は第1実施形態の姿勢推定装置の機能構成を例示する図である。
【
図5】
図5は第1実施形態の姿勢推定方法の処理手順を例示する図である。
【
図6】
図6は第3実施形態の姿勢推定器学習装置の機能構成を例示する図である。
【
図7】
図7は第3実施形態の姿勢推定器学習方法の処理手順を例示する図である。
【
図8】
図8は第3実施形態の姿勢推定装置の機能構成を例示する図である。
【
図9】
図9は第3実施形態の姿勢推定方法の処理手順を例示する図である。
【
図10】
図10は第4実施形態の姿勢推定器学習装置の機能構成を例示する図である。
【
図11】
図11は第4実施形態の姿勢推定器学習方法の処理手順を例示する図である。
【
図12】
図12は第4実施形態の姿勢推定装置の機能構成を例示する図である。
【
図13】
図13は第4実施形態の姿勢推定方法の処理手順を例示する図である。
【
図14】
図14はコンピュータの機能構成を例示する図である。
【発明を実施するための形態】
【0012】
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0013】
本発明は、推定対象とする身体の近傍に設置されたカメラで取得した画像を入力とし、強化学習を用いた姿勢推定を行うことで、その身体の姿勢を高精度に推定する姿勢推定技術である。なお、本明細書において、「画像」とは静止画と動画のいずれか一方もしくは両方を含むものとする。そのため、「カメラ」は静止画のみを撮影可能なものでもよいし、動画のみを撮影可能なものでもよいし、静止画と動画を両方撮影可能なものでもよい。
【0014】
以下の各実施形態では、例えば人間の手首や人間が把持可能なデバイスなど、比較的身体の中心に近い位置にカメラを設置することを想定する。より具体的には、例えば、ステッキのグリップ近傍に全天球カメラを設置し、そのステッキを把持している人物の姿勢を推定する。この姿勢推定結果を用いれば、その人物が歩いているのか、かがんでいるのかなど、その人物の行動を判定することが可能となる。ただし、本発明で対象とする利用シーンはこれに限定されず、推定対象とする身体の近傍から、その身体の少なくとも一部が写り込むようにカメラが設置されていれば、どのような利用シーンであっても適用できる。
【0015】
身体の近傍に位置する全天球カメラで撮影された画像には、その身体の一部が必ず写りこむが、その身体の全体は写らない場合が多い。
図1A~
図1Cに、身体の各部位に設置した全天球カメラで撮影した画像を例示する。
図1Aは、人間の頭部に設置した全天球カメラで撮影された画像の例である。
図1Bは、人間の胸部に設置した全天球カメラで撮影された画像の例である。
図1Cは、人間の手首に設置した全天球カメラで撮影された画像の例である。これらの画像では、人間が黒い衣装を着て写っているため、各画像中で黒い領域が人間の身体にあたる。これらの画像には、カメラを設置した身体の一部が写っているが、身体の全体は写っていないことがわかる。非特許文献1では遠隔から撮影された身体の全体が写った映像を対象とし、非特許文献2では一人称視点の映像(すなわち身体が写っていない映像)を対象とし、非特許文献3では身体から遮蔽された位置から取得したセンサ情報を対象とする。したがって、これらの従来技術を、このような画像を対象とする姿勢推定に直接適用することはできない。
【0016】
[第1実施形態]
本発明の第1実施形態は、人間の身体の近傍に設置されたカメラで撮影された画像を用いて、画像に関する特徴量を入力とし、姿勢推定結果を出力する姿勢推定器を学習する姿勢推定器学習装置と、学習済みの姿勢推定器を用いて、人間の身体の近傍に設置されたカメラで撮影された画像から、その画像に写っている身体の姿勢を推定した結果を出力する姿勢推定装置と、からなる。
【0017】
<姿勢推定器学習装置>
図2に示すように、第1実施形態の姿勢推定器学習装置1は、例えば、カメラ100、画像取得部11、特徴量抽出部12、推定器学習部13、および推定器記憶部20を備える。この姿勢推定器学習装置1が、
図3に示す各ステップを実行することにより、第1実施形態の姿勢推定器学習方法が実現される。
【0018】
姿勢推定器学習装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。姿勢推定器学習装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。姿勢推定器学習装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。姿勢推定器学習装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。姿勢推定器学習装置1が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
【0019】
カメラ100は、姿勢推定器学習装置1の外部から有線または無線の各種インターフェースを介して接続される。姿勢推定器学習装置1を人間が携帯可能なように小型に実装できるのであれば、カメラ100が姿勢推定器学習装置1に内蔵されていてもよい。カメラ100は、推定対象とする身体の中心近傍に位置するように設置される。例えば、ステッキ、ラケット、スマートウォッチなど、人間が利用中に常時把持しているデバイスに設置されてもよいし、例えば、人間の頭部、人間の手首など、人間の身体の一部に設置されてもよい。カメラ100は、推定対象とする身体の少なくとも一部が画角に入るように設置される。カメラ100を全天球カメラとすれば、撮影方向等の調整をしなくとも推定対象の身体が写りこむようにすることができるため、好適である。
【0020】
以下、
図3を参照して、第1実施形態の姿勢推定器学習装置1が実行する姿勢推定器学習方法について説明する。
【0021】
ステップS11において、画像取得部11は、カメラ100が出力する画像を取得する。取得する画像のフォーマットは限定されず、例えばRGBの静止画でもよいし動画でもよい。画像取得部11は、取得した画像を特徴量抽出部12へ出力する。
【0022】
ステップS12において、特徴量抽出部12は、画像取得部11が出力した画像を特徴量ベクトル化した特徴量ベクトルfを生成する。特徴量ベクトル化のアルゴリズムや生成する特徴量ベクトルfの次元数などは限定されないが、例えば、非特許文献2に開示された、予め重みを学習したResnet18(参考文献1参照)などの特徴量抽出ネットワークによって、入力画像から特徴量を抽出する手法を用いることができる。特徴量抽出部12は、生成した特徴量ベクトルfを推定器学習部13へ出力する。
【0023】
〔参考文献1〕He, K., Zhang, X., Ren, S. & Sun, J., "Deep residual learning for image recognition", Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 770, 2016.
【0024】
ステップS13において、推定器学習部13は、特徴量抽出部12が出力した特徴量ベクトルfを入力とし、推定対象とする身体の姿勢を推定した姿勢推定結果を出力する姿勢推定器を学習する。推定器学習部13が学習する姿勢推定器は、特徴量ベクトルを入力とし、姿勢推定結果を出力するネットワークである。推定器学習部13は、入力された特徴量ベクトルを用いて、そのネットワークの重みパラメータを学習する。ネットワーク構造は限定されないが、例えば、非特許文献1に開示された、既存のネットワーク構造を適用することができる。推定器学習部13は、学習済みの姿勢推定器を推定器記憶部20へ記憶する。
【0025】
<姿勢推定装置>
図4に示すように、第1実施形態の姿勢推定装置2は、例えば、カメラ100、画像取得部11、特徴量抽出部12、推定器記憶部20、および姿勢推定部21を備える。この姿勢推定装置2が、
図5に示す各ステップを実行することにより、第1実施形態の姿勢推定方法が実現される。
【0026】
姿勢推定装置2は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。姿勢推定装置2は、例えば、中央演算処理装置の制御のもとで各処理を実行する。姿勢推定装置2に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。姿勢推定装置2の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。姿勢推定装置2が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
【0027】
以下、
図5を参照して、第1実施形態の姿勢推定装置2が実行する姿勢推定方法について、第1実施形態の姿勢推定器学習方法との相違点を中心に説明する。
【0028】
推定器記憶部20には、姿勢推定器学習装置1により学習された姿勢推定器が予め記憶されている。
【0029】
ステップS11およびS12は、第1実施形態の姿勢推定器学習方法と同様である。
【0030】
ステップS21において、姿勢推定部21は、特徴量抽出部12が出力した特徴量ベクトルfを受け取り、姿勢推定器記憶部20に記憶された学習済みの姿勢推定器へ特徴量ベクトルfを入力することで、推定対象とする身体の姿勢推定結果を得る。姿勢推定部21は、その姿勢推定結果を姿勢推定装置2の出力とする。
【0031】
<変形例>
上述の第1実施形態では、姿勢推定器を学習する機能を備える姿勢推定器学習装置1と、学習済みの姿勢推定器を用いて入力画像に写っている身体の姿勢を推定する機能を備える姿勢推定装置2とを、異なる装置として構成する例を説明した。ここで、姿勢推定器を学習する機能と学習済みの姿勢推定器を用いて身体の姿勢を推定する機能とを兼ね備える姿勢推定装置を構成することもできる。この場合、変形例の姿勢推定装置は、例えば、カメラ100、画像取得部11、特徴量抽出部12、推定器学習部13、推定器記憶部20、および姿勢推定部21を備えればよい。
【0032】
[第2実施形態]
第2実施形態では、推定器学習部13による学習や姿勢推定部21による推定に、強化学習に基づく手法を導入し、姿勢推定器の出力を三次元姿勢推定結果とする。これにより、推定対象とする身体の全体がカメラ100から撮影することが困難な状況であっても、高精度に姿勢推定を行うことが可能となる。また、出力を三次元姿勢推定結果とすることで、非特許文献1のような二次元姿勢推定結果と比較すると、より情報量のある結果が取得できることから、本発明で利用を想定するヘルスケア、介護、スポーツなどの分野にとって、より有用な姿勢推定器の実現が期待できる。
【0033】
<姿勢推定器学習装置>
第2実施形態の姿勢推定器学習装置は、第1実施形態の姿勢推定器学習装置と比較すると、推定器学習部13による学習の手法のみが異なる。
【0034】
第2実施形態の推定器学習部13は、第1実施形態の推定器学習部13と同様に、特徴量抽出部12が出力した特徴量ベクトルfを入力とし、推定対象とする身体の姿勢を推定した姿勢推定結果を出力する姿勢推定器を学習する。ただし、第2実施形態の推定器学習部13では、例えば、非特許文献2、3に開示された、強化学習に基づくネットワーク構造を、姿勢推定器に適用する。
【0035】
<姿勢推定装置>
第2実施形態の姿勢推定装置は、第1実施形態の姿勢推定装置と比較すると、姿勢推定部21による推定の手法のみが異なる。
【0036】
第2実施形態の姿勢推定部21は、第1実施形態の姿勢推定部21と同様に、特徴量抽出部12が出力する特徴量ベクトルfを受け取り、姿勢推定器記憶部20に記憶された学習済みの姿勢推定器へ特徴量ベクトルfを入力することで、推定対象とする身体の姿勢推定結果を得る。ただし、第2実施形態の姿勢推定部21では、第2実施形態の推定器学習部13と同様に、強化学習に基づくネットワーク構造を、姿勢推定器に適用する。
【0037】
[第3実施形態]
第3実施形態では、カメラで撮影された画像から周辺環境を推定し、カメラで撮影された画像の特徴量に加えて、周辺環境の推定結果を特徴量として、姿勢推定を行う。周辺環境とは、例えば、前方から自動車などの高速で移動する物体が接近してくる、足元に階段がある、など、人物の行動に影響を与える可能性が高い事象である。このような周辺環境も加えて姿勢推定を行うことで、より高精度に姿勢を推定することが可能となる。
【0038】
<姿勢推定器学習装置>
図6に示すように、第3実施形態の姿勢推定器学習装置3は、第1実施形態の姿勢推定器学習装置1と同様に、例えば、カメラ100、画像取得部11、特徴量抽出部12、推定器学習部13、および推定器記憶部20を備え、さらに、周辺環境推定部14を備える。この姿勢推定器学習装置3が、
図7に示す各ステップを実行することにより、第3実施形態の姿勢推定器学習方法が実現される。
【0039】
以下、
図7を参照して、第3実施形態の姿勢推定器学習装置3が実行する姿勢推定器学習方法について、第1実施形態の姿勢推定器学習方法との相違点を中心に説明する。
【0040】
ステップS11は、第1実施形態または第2実施形態の姿勢推定器学習方法と同様である。ただし、第3実施形態の画像取得部11は、取得した画像を周辺環境推定部14へも出力する。
【0041】
ステップS14において、周辺環境推定部14は、画像取得部11が出力した画像を入力とし、その画像に基づいて周辺環境を推定し、その推定結果を特徴量ベクトル化した特徴量ベクトルf1を生成する。周辺環境の推定方法や生成する特徴量ベクトルf1の次元数などは限定されないが、例えば、参考文献2に開示された方法で、入力画像に映り込んだ物体を認識し、その物体の移動量をフレーム間差分で求めるなどして、物体ラベルと移動量を含めた特徴量ベクトルf1=(L1, vx1, vy1, vz1, L2, vx2, vy2, vz2, …, LN, vxN, vyN, vzN)を生成する方法が考えられる。ここで、Nは物体の最大数であり、Lk(k=1, …, N)はk番目の物体の存在を示す二値ラベルであり、vxk, vyk, vzkはk番目の物体の三次元移動量である。周辺環境推定部14は、生成した特徴量ベクトルf1を特徴量抽出部12へ出力する。
【0042】
〔参考文献2〕K. He, G. Gkioxari, P. Dollar and R. Girshick, "Mask R-CNN," 2017 IEEE International Conference on Computer Vision (ICCV), Venice, pp. 2980-2988, 2017.
【0043】
ステップS12において、第3実施形態の特徴量抽出部12は、画像取得部11が出力した画像を特徴量ベクトル化した特徴量ベクトルに、周辺環境推定部14が出力した特徴量ベクトルf1を連結することで、姿勢推定器の入力とする特徴量ベクトルfを生成する。特徴量抽出部12は、生成した特徴量ベクトルfを推定器学習部13へ出力する。
【0044】
ステップS13は、第1実施形態または第2実施形態の姿勢推定器学習方法と同様である。
【0045】
<姿勢推定装置>
図8に示すように、第3実施形態の姿勢推定装置4は、第1実施形態の姿勢推定装置2と同様に、例えば、カメラ100、画像取得部11、特徴量抽出部12、推定器記憶部20、および姿勢推定部21を備え、さらに、周辺環境推定部14を備える。この姿勢推定装置4が、
図9に示す各ステップを実行することにより、第3実施形態の姿勢推定方法が実現される。
【0046】
ステップS11、S14、およびS12は、第3実施形態の姿勢推定器学習方法と同様である。ステップS21は、第1実施形態または第2実施形態の姿勢推定方法と同様である。
【0047】
[第4実施形態]
第4実施形態では、カメラで撮影された画像からカメラと身体との相対的な位置関係を推定し、カメラで撮影された画像の特徴量に加えて、その推定結果を特徴量として、姿勢推定を行う。例えば、ステッキにカメラが設置されている環境であれば、ステッキが身体より前に位置していれば、腕が前に伸びている、現時刻のステッキの位置が次の時刻の身体の位置となる、など、カメラと身体との相対的な位置関係から取り得る姿勢を限定して姿勢推定を行うことで、より高精度に姿勢を推定することが可能となる。
【0048】
<姿勢推定器学習装置>
図10に示すように、第4実施形態の姿勢推定器学習装置5は、第1実施形態の姿勢推定器学習装置1と同様に、例えば、カメラ100、画像取得部11、特徴量抽出部12、推定器学習部13、および推定器記憶部20を備え、さらに、相対位置推定部15を備える。この姿勢推定器学習装置5が、
図11に示す各ステップを実行することにより、第4実施形態の姿勢推定器学習方法が実現される。
【0049】
以下、
図11を参照して、第4実施形態の姿勢推定器学習装置5が実行する姿勢推定器学習方法について、第1実施形態の姿勢推定器学習方法との相違点を中心に説明する。
【0050】
ステップS11は、第1実施形態または第2実施形態の姿勢推定器学習方法と同様である。ただし、第4実施形態の画像取得部11は、取得した画像を相対位置推定部15へも出力する。
【0051】
ステップS15において、相対位置推定部15は、画像取得部11が出力した画像を入力とし、その画像に基づいて特定の身体部位との相対的な位置関係を推定し、その推定結果を特徴量ベクトル化した特徴量ベクトルf2を生成する。相対的な位置関係の推定方法や生成する特徴量ベクトルf2の次元数などは限定されないが、例えば、入力画像から推定した人物の頭部と両足首の三次元位置を含めた特徴量ベクトルf1=(headx, heady, headz, leftfootx, leftfooty, leftfootz, rightfootx, rightfooty, rightfootz)を生成する方法が考えられる。ここで、headx, heady, headzはカメラを原点とする人物の頭部の三次元座標であり、leftfootx, leftfooty, leftfootzはカメラを原点とする人物の左足首の三次元座標であり、rightfootx, rightfooty, rightfootzはカメラを原点とする人物の右足首の三次元座標である。相対位置推定部15は、生成した特徴量ベクトルf2を特徴量抽出部12へ出力する。
【0052】
ステップS12において、第4実施形態の特徴量抽出部12は、画像取得部11が出力した画像を特徴量ベクトル化した特徴量ベクトルに、相対位置推定部15が出力した特徴量ベクトルf2を連結することで、姿勢推定器の入力とする特徴量ベクトルfを生成する。特徴量抽出部12は、生成した特徴量ベクトルfを推定器学習部13へ出力する。
【0053】
ステップS13は、第1実施形態または第2実施形態の姿勢推定器学習方法と同様である。
【0054】
<姿勢推定装置>
図12に示すように、第4実施形態の姿勢推定装置6は、第1実施形態の姿勢推定装置2と同様に、例えば、カメラ100、画像取得部11、特徴量抽出部12、推定器記憶部20、および姿勢推定部21を備え、さらに、相対位置推定部15を備える。この姿勢推定装置6が、
図13に示す各ステップを実行することにより、第4実施形態の姿勢推定方法が実現される。
【0055】
ステップS11、S15、およびS12は、第4実施形態の姿勢推定器学習方法と同様である。ステップS21は、第1実施形態または第2実施形態の姿勢推定方法と同様である。
【0056】
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
【0057】
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを
図14に示すコンピュータの記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
【0058】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、磁気記録装置、光ディスク等である。
【0059】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0060】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部1050に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部1050に格納されたプログラムを一時的な記憶装置である記憶部1020に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0061】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【符号の説明】
【0062】
1、3、5 姿勢推定器学習装置
2、4、6 姿勢推定装置
11 画像取得部
12 特徴量抽出部
13 推定器学習部
14 周辺環境推定部
15 相対位置推定部
20 推定器記憶部
21 姿勢推定部
100 カメラ