IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人日本スポーツ振興センターの特許一覧

特許7594778姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル
<>
  • 特許-姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル 図1
  • 特許-姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル 図2
  • 特許-姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル 図3
  • 特許-姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル 図4
  • 特許-姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル 図5
  • 特許-姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル 図6
  • 特許-姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル 図7
  • 特許-姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル 図8
  • 特許-姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル 図9
  • 特許-姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル 図10
  • 特許-姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル 図11
  • 特許-姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル 図12
  • 特許-姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル 図13
  • 特許-姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル 図14
  • 特許-姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル 図15
  • 特許-姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-27
(45)【発行日】2024-12-05
(54)【発明の名称】姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデル
(51)【国際特許分類】
   G06T 7/70 20170101AFI20241128BHJP
   G06T 7/00 20170101ALI20241128BHJP
【FI】
G06T7/70 B
G06T7/00 350B
G06T7/00 660B
【請求項の数】 10
(21)【出願番号】P 2020188818
(22)【出願日】2020-11-12
(65)【公開番号】P2022077805
(43)【公開日】2022-05-24
【審査請求日】2023-11-10
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和2年度、スポーツ庁、「ハイパフォーマンススポーツセンターの基盤整備」受託事業、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】503459073
【氏名又は名称】独立行政法人日本スポーツ振興センター
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100175824
【弁理士】
【氏名又は名称】小林 淳一
(74)【代理人】
【識別番号】100152272
【弁理士】
【氏名又は名称】川越 雄一郎
(74)【代理人】
【識別番号】100181722
【弁理士】
【氏名又は名称】春田 洋孝
(72)【発明者】
【氏名】相原 伸平
(72)【発明者】
【氏名】吉田 雄大
(72)【発明者】
【氏名】塩野谷 明
(72)【発明者】
【氏名】松原 敏成
【審査官】山田 辰美
(56)【参考文献】
【文献】特開2018-206321(JP,A)
【文献】特開2020-123105(JP,A)
【文献】田中 秀怜 外3名,画像処理による車椅子を使用する高齢者の危険な状態の判別に関する基礎研究(II),平成26年電気学会全国大会講演論文集 [3] エレクトロニクス/情報工学システム/センサ・マイクロマシン,日本,一般社団法人電気学会,2014年03月05日,p.55-p.56
【文献】Yoshio Tanimoto et al.,Image measurement of body position during side-approach transfer motion,2009 IEEE International Workshop on Imaging Systems and Techniques,米国,IEEE,2009年05月11日,https://ieeexplore.ieee.org/document/5071648
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
車いす及び前記車いすの乗車者が撮像された複数の第1撮像画像と、前記複数の第1撮像画像のそれぞれに撮像されている前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報とに基づいて、前記車いす及び前記乗車者が撮像された第2撮像画像から前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報を推定する推定部、
を備える姿勢推定システム。
【請求項2】
前記車いす及び前記乗車者が撮像された複数の学習用の第1撮像画像と、前記複数の学習用の第1撮像画像のそれぞれに撮像されている前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報とが含まれるデータセットを用いて機械学習することにより、前記車いす及び前記乗車者が撮像された第2撮像画像から前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報を推定するための学習済みモデルを生成する学習部、
を備え、
前記推定部は、
前記学習部により生成された前記学習済みモデルを用いて、撮像部により撮像された第2撮像画像から前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報を推定する、
請求項1に記載の姿勢推定システム。
【請求項3】
複数の前記車いす及び前記乗車者が撮像された第2撮像画像から複数の前記車いす及び前記乗車者のそれぞれの部分画像を抽出する抽出部、を備え、
前記推定部は、
複数の前記部分画像のそれぞれから前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報を推定する、
請求項1または請求項2に記載の姿勢推定システム。
【請求項4】
前記推定部により推定された前記座標情報に基づいて、前記車いす及び前記乗車者の姿勢に関する姿勢情報を生成する姿勢情報生成部、
を備える請求項1から請求項3のいずれか一項に記載の姿勢推定システム。
【請求項5】
前記姿勢情報生成部により生成された前記姿勢情報に基づいて、前記乗車者の技能を評価するための評価指標を導出する評価指標導出部、
を備える請求項4に記載の姿勢推定システム。
【請求項6】
前記推定部は、
前記車いす、前記乗車者、及び前記乗車者が保持または装着する物体が撮像された複数の撮像画像と、前記複数の第1撮像画像のそれぞれに撮像されている前記車いす、前記乗車者、及び前記物体のそれぞれ一以上の部位の座標情報とに基づいて、前記車いす、前記乗車者、及び前記物体が撮像された第2撮像画像から、少なくとも前記物体の一以上の部位の座標情報を推定し、
前記評価指標導出部は、
少なくとも前記物体の一以上の部位の座標情報に基づいて、前記評価指標を導出する、
請求項5に記載の姿勢推定システム。
【請求項7】
車いす及び前記車いすの乗車者が撮像された複数の第1撮像画像と、前記複数の第1撮像画像のそれぞれに撮像されている前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報とに基づいて、前記車いす及び前記乗車者が撮像された第2撮像画像から前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報を推定する推定部、
を備える姿勢推定装置。
【請求項8】
姿勢推定システムにおける姿勢推定方法であって、
取得部が、車いす及び前記車いすの乗車者を含む画像を取得するステップと、
推定部が、前記車いす及び前記乗車者が撮像された複数の学習用の第1撮像画像と、前記複数の学習用の第1撮像画像のそれぞれに撮像されている前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報とに基づいて機械学習された学習済みモデルを用いて、前記取得部により取得された第2撮像画像から前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報を推定するステップと、
を有する姿勢推定方法。
【請求項9】
車いす及び前記車いすの乗車者が撮像された複数の学習用の第1撮像画像と、前記複数の学習用の第1撮像画像のそれぞれに撮像されている前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報とが含まれるデータセットを用いて機械学習することにより、前記車いす及び前記乗車者が撮像された第2撮像画像から前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報を推定し推定した座標情報を出力するための学習済みモデルを生成する学習部、
を備える学習装置。
【請求項10】
車いす及び前記車いすの乗車者のそれぞれ一以上の部位の座標情報を推定するための学習済みモデルであって、
前記車いす及び前記乗車者が撮像された複数の学習用の第1撮像画像と、前記複数の学習用の第1撮像画像のそれぞれに撮像されている前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報とに基づいて機械学習され、前記車いす及び前記乗車者が撮像された第2撮像画像から前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報を推定し推定した座標情報を出力するよう、
コンピュータを機能させるための学習済みモデル。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデルに関する。
【背景技術】
【0002】
人物の撮像画像から人物の姿勢を推定する技術が開示されている(例えば、特許文献1参照)。また、物体の撮像画像から物体の姿勢を推定する技術が開示されている(例えば、特許文献2参照)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2008-146583号公報
【文献】特開2008-003794号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えばスポーツの分野では、野球、テニス、サッカー等の競技において、選手の姿勢を検出して、動作解析や技能評価に利用することが行われている。このような選手の動作解析や技能評価は、車いすテニスや車いすバスケットボールといったパラスポーツでも望まれている。車いすテニスや車いすバスケットボールは、人馬一体の競技であるため、選手と車いすの姿勢を一体として推定する必要がある。
【0005】
しかしながら、上述した特許文献1または特許文献2に記載の技術では、画像から人物の姿勢のみ、或いは画像から物体の姿勢のみしか推定できないため、車いすと車いすの乗車者(選手)の姿勢を一体として推定することができなかった。車いすと乗車者の姿勢推定を別々に行うと,演算量が増えて処理に時間を要するとともに、車いすと乗車者の推定座標や向きにずれが生じ推定精度が低下する恐れがある。
【0006】
本発明は上記課題に鑑みてなされたものであり、車いす及び乗車者が撮像された画像から当該車いす及び乗車者の姿勢を一体として推定できる姿勢推定システム、姿勢推定装置、姿勢推定方法、学習装置、及び学習済みモデルを提供することを課題とする。
【課題を解決するための手段】
【0007】
本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、車いす及び前記車いすの乗車者が撮像された複数の第1撮像画像と、前記複数の第1撮像画像のそれぞれに撮像されている前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報とに基づいて、前記車いす及び前記乗車者が撮像された第2撮像画像から前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報を推定する推定部、を備える姿勢推定システムである。
【0008】
また、上記姿勢推定システムは、前記車いす及び前記乗車者が撮像された複数の学習用の第1撮像画像と、前記複数の学習用の第1撮像画像のそれぞれに撮像されている前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報とが含まれるデータセットを用いて機械学習することにより、前記車いす及び前記乗車者が撮像された第2撮像画像から前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報を推定するための学習済みモデルを生成する学習部、を備え、前記推定部は、前記学習部により生成された前記学習済みモデルを用いて、撮像部により撮像された第2撮像画像から前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報を推定してもよい。
【0009】
また、上記姿勢推定システムは、複数の前記車いす及び前記乗車者が撮像された第2撮像画像から複数の前記車いす及び前記乗車者のそれぞれの部分画像を抽出する抽出部、を備え、前記推定部は、複数の前記部分画像のそれぞれから前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報を推定してもよい。
【0010】
また、上記姿勢推定システムは、前記推定部により推定された前記座標情報に基づいて、前記車いす及び前記乗車者の姿勢に関する姿勢情報を生成する姿勢情報生成部、を備えてもよい。
【0011】
また、上記姿勢推定システムは、前記姿勢情報生成部により生成された前記姿勢情報に基づいて、前記乗車者の技能を評価するための評価指標を導出する評価指標導出部、を備えてもよい。
【0012】
また、上記姿勢推定システムにおいて、前記推定部は、前記車いす、前記乗車者、及び前記乗車者が保持または装着する物体が撮像された複数の第1撮像画像と、前記複数の撮像画像のそれぞれに撮像されている前記車いす、前記乗車者、及び前記物体のそれぞれ一以上の部位の座標情報とに基づいて、前記車いす、前記乗車者、及び前記物体が撮像された第2撮像画像から、少なくとも前記物体の一以上の部位の座標情報を推定し、前記評価指標導出部は、少なくとも前記物体の一以上の部位の座標情報に基づいて、前記評価指標を導出してもよい。
【0013】
また、本発明の一態様は、車いす及び前記車いすの乗車者が撮像された複数の第1撮像画像と、前記複数の第1撮像画像のそれぞれに撮像されている前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報とに基づいて、前記車いす及び前記乗車者が撮像された第2撮像画像から前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報を推定する推定部、を備える姿勢推定装置である。
【0014】
また、本発明の一態様は、姿勢推定システムにおける姿勢推定方法であって、取得部が、車いす及び前記車いすの乗車者を含む画像を取得するステップと、推定部が、前記車いす及び前記乗車者が撮像された複数の学習用の第1撮像画像と、前記複数の学習用の撮像画像のそれぞれに撮像されている前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報とに基づいて機械学習された学習済みモデルを用いて、前記取得部により取得された第2撮像画像から前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報を推定するステップと、を有する姿勢推定方法である。
【0015】
また、本発明の一態様は、車いす及び前記車いすの乗車者が撮像された複数の学習用の第1撮像画像と、前記複数の学習用の第1撮像画像のそれぞれに撮像されている前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報とが含まれるデータセットを用いて機械学習することにより、前記車いす及び前記乗車者が撮像された第2撮像画像から前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報を推定するための学習済みモデルを生成する学習部、を備える学習装置である。
【0016】
また、本発明の一態様は、車いす及び前記車いすの乗車者のそれぞれ一以上の部位の座標情報を推定するための学習済みモデルであって、前記車いす及び前記乗車者が撮像された複数の学習用の第1撮像画像と、前記複数の学習用の第1撮像画像のそれぞれに撮像されている前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報とに基づいて機械学習され、前記車いす及び前記乗車者が撮像された第2撮像画像から前記車いす及び前記乗車者のそれぞれ一以上の部位の座標情報を推定するよう、コンピュータを機能させるための学習済みモデルである。
【発明の効果】
【0017】
本発明によれば、車いす及び乗車者が撮像された画像から当該車いす及び乗車者の姿勢を一体として推定できる。
【図面の簡単な説明】
【0018】
図1】第1の実施形態に係る学習段階のフローの一例を示す図。
図2】第1の実施形態に係る学習済みモデルの利用段階のフローの一例を示す図。
図3】第1の実施形態に係る姿勢推定システムの構成の一例を示すブロック図。
図4】第1の実施形態に係る座標情報のデータ例を示す図。
図5】第1の実施形態に係る姿勢情報のデータ例を示す図。
図6】第1の実施形態に係る姿勢情報の出力値の一例を示すイメージ図。
図7】CNNによる機械学習の実行手順を説明する説明図。
図8】CNNによる機械学習の学習手順を説明する説明図。
図9】Mask R-CNNのネットワーク構造の一例を示す図。
図10】第2の実施形態に係る姿勢推定システムの構成の一例を示すブロック図。
図11】第2の実施形態に係る導出可能な評価指標の第1例を示す図。
図12】第2の実施形態に係る導出可能な評価指標の第2例を示す図。
図13】第2の実施形態に係る導出可能な評価指標の第3例を示す図。
図14】第2の実施形態に係る導出可能な評価指標の第4例を示す図。
図15】第2の実施形態に係る導出可能な評価指標の第5例を示す図。
図16】第2の実施形態に係る導出可能な評価指標の第6例を示す図。
【発明を実施するための形態】
【0019】
以下、図面を参照しながら本発明の一実施形態について説明する。
<第1の実施形態>
まず、本発明の第1の実施形態について説明する。本実施形態に係る姿勢推定システム1は、車いすとその車いすに乗車している人物(以下、「乗車者」と称する)の姿勢を、車いす及び乗車者が撮像された撮像画像から推定する。例えば、姿勢推定システム1は、車いす及び乗車者が撮像された複数の学習用の第1撮像画像と、この複数の学習用の第1撮像画像のそれぞれに撮像されている車いす及び乗車者それぞれの特定部位の座標情報とに基づいて機械学習を行い、車いす及び乗車者の姿勢を推定するための学習済みモデルを生成する。
【0020】
車いす及び乗車者それぞれの特定部位は、車いす及び乗車者のそれぞれ一以上の部位が含まれる予め設定された複数の部位である。乗車者の部位の座標情報には、例えば、乗車者の首、肩、肘、手首、脇、大腿、膝、踵などの座標情報が含まれる。車いすの部位の座標情報には、例えば、車いすの車軸、車輪の接地点などが含まれる。
【0021】
そして、姿勢推定システム1は、この学習済みモデルを用いて、車いす及び乗車者を撮像装置(例えば、ビデオカメラ)で撮像した第2撮像画像から、車いす及び乗車者の複数の部位の座標情報を推定する。これにより、姿勢推定システム1は、車いす及び乗車者のそれぞれの座標情報に基づいて、それぞれの姿勢を一体として同時に推定することができる。
【0022】
まず、図1及び図2を参照して、姿勢推定システム1の概要について説明する。姿勢推定システム1では、学習済みモデルを生成する学習段階と、生成した学習済みモデルを利用する利用段階との2つの段階に区分される。
図1は、本実施形態に係る学習段階のフローの一例を示す図である。学習段階は、学習用データセットの生成と、学習用データセットを用いた学習済みモデルの生成との2つの段階にさらに区分される。
【0023】
学習用データセットの生成段階では、車いす及び乗車者が撮像され複数の学習用の第1撮像画像(生データ)を用意し(ステップS101)、複数の学習用の第1撮像画像に対して加工を行うことにより、学習用データセットが生成される(ステップS102)。複数の学習用の第1撮像画像は、撮像装置(カメラなど)で車いす及び乗車者が撮像された複数の静止画像、または撮像装置(ビデオカメラなど)で車いす及び乗車者が撮像された動画に含まれる複数のフレーム画像などである。第1撮像画像は後述する第2撮像画像の一部又は全部を用いることもできる。例えば、複数の学習用の第1撮像画像のそれぞれについて、開発者が、車いす及び乗車者の複数の部位の3次元座標をアノテーションした3次元座標情報を作成し、第1撮像画像と3次元座標情報とを対にした学習用データセットを生成する。なお、車いす及び乗車者の複数の部位は、例えば人間の関節部分に対応する部位や、車いすの可動構造に関する部位のなどのうち、予め定められた部位である。
【0024】
学習済みモデルの生成段階では、姿勢推定システム1は、生成された学習用データセットを学習用プログラムに入力して機械学習を行い(ステップS103)、学習済みモデルを出力する(ステップS104)。学習用プログラムとしては、例えば、畳み込みニューラルネットワーク(CNN:Convolution Neural Network)などを用いる。より具体的には、例えば、Mask R-CNNなどに基づく学習用プログラムを適用してもよい。
【0025】
図2は、本実施形態に係る学習済みモデルを利用する利用段階のフローの一例を示す図である。姿勢推定システム1は、学習済みモデルを用いて、車いす及び乗車者の姿勢を推定する姿勢推定処理を実行する。姿勢推定システム1は、撮像装置10(例えば、ビデオカメラ)で車いす及び乗車者の画像を撮像(収録)する(ステップS201)。次に、撮像装置10で撮像された車いす及び乗車者の撮像画像(第2撮像画像)を入力データとして、学習済みモデルへ入力する(ステップS202)。
【0026】
姿勢推定システム1は、学習済みモデルを用いて、入力された第2撮像画像から車いす及び乗車者の複数の部位の3次元座標情報をAI(Artificial Intelligence)の生成物として出力する(ステップS203)。また、姿勢推定システム1は、車いす及び乗車者の複数の部位の3次元座標情報から算出した姿勢情報を出力する(ステップS204)。姿勢情報は、推定された各部位の座標の位置関係に基づく距離や角度(例えば、関節角度)などを含む情報である。例えば、姿勢推定システム1は、推定された各部位の座標を人物の骨格モデルや車いすの構造に対応するように関連付け、関連付けた部位の座標の位置関係に基づく距離や角度(例えば、関節角度)などを算出する。また、姿勢推定システム1は、算出した各部位の座標の位置関係に基づく距離や角度(例えば、関節角度)に基づいて、車いす及び乗車者の複数部位を3次元座標空間に再構築した姿勢情報を出力値とする。
【0027】
なお、以下の説明では、姿勢推定システム1が生成する学習済みモデルのことを、「姿勢推定モデル」とも称する。また、第1撮像画像、第2撮像画像又は第1撮像画像と第2撮像画像を合わせて、「撮像画像」とも称する。また、本実施形態における3次元座標は、水平面に直交するX軸及びZ軸と、そのX軸及びZ軸に直交する鉛直方向のY軸とからなる「X,Y,Z」座標で表す。
【0028】
[姿勢推定システム1の構成]
次に、姿勢推定システム1の構成について詳しく説明する。
図3は、本実施形態に係る姿勢推定システム1の構成の一例を示すブロック図である。図示する姿勢推定システム1は、撮像装置10(撮像部の一例)と、情報処理装置20(姿勢推定装置及び学習装置の一例)とを備えている。撮像装置10は、動画を撮像可能なビデオカメラまたはデジタルカメラなどである。例えば、撮像装置10は、車いすテニスや車いすバスケットボールなどの競技を行う選手を撮像し、撮像した撮像画像を情報処理装置20へ出力する。この撮像画像(動画)は、所定のフレームレートで撮像された複数のフレーム画像を含んで構成される。また、各フレーム画像には、撮像されたタイミングを示す時刻情報が関連付けられている。なお、撮像装置10は、複数台であってもよい。
【0029】
情報処理装置20は、例えば、PC(パーソナルコンピュータ)などのコンピュータ装置である。情報処理装置20は、図1及び図2を参照して説明した、姿勢推定モデルを生成する学習処理と、姿勢推定モデルを用いて、撮像装置10が撮像した撮像画像から車いす及び乗車者の姿勢を推定する姿勢推定処理とを実行する。図示する情報処理装置20は、記憶部21と、制御部22とを備えている。記憶部21は、情報処理装置20の各種処理に利用する情報を記憶する記憶装置である。例えば、記憶部21は、画像情報記憶部211と、座標情報記憶部212と、姿勢情報記憶部213と、学習用データセット記憶部214と、学習用プログラム記憶部215と、学習済みモデル記憶部216とを備えている。
【0030】
画像情報記憶部211は、撮像装置10が撮像した撮像画像のデータを記憶する。例えば、画像情報記憶部211には、後述する画像取得部221によって撮像装置10から取得された車いす及び乗車者が撮像された撮像画像(動画)のデータが記憶される。車いす及び乗車者が撮像された撮像画像とは、一例として、車いすテニスや車いすバスケットボールなどの競技を行う選手が撮像された撮像画像である。なお、車いす及び乗車者が撮像された撮像画像は、他の車いすスポーツの選手が撮像された撮像画像であってもよいし、選手に限定されず、一般のプレイヤが撮像された撮像画像であってもよい。また、車いすスポーツに限らず、車いすに乗車している乗車者が撮像された撮像画像であれば、どのような撮像画像であってもよい。なお、画像情報記憶部211に記憶される撮像画像(動画)は、複数のフレーム画像と時刻情報とが関連付けられている。
【0031】
座標情報記憶部212は、情報処理装置20が撮像画像から推定した車いす及び乗車者の複数の部位の3次元座標情報を記憶する。例えば、座標情報記憶部212には、撮像画像のフレーム画像ごとに推定された3次元座標情報が記憶される。
【0032】
図4は、座標情報記憶部212に記憶される座標情報のデータ例を示す図である。座標情報には、フレーム画像の時刻情報と、そのフレーム画像から推定された乗車者及び車いすの各部位の3次元座標情報とが関連付けられ格納される。時刻情報は、例えば、フレームごとの日時に基づく情報(年、月、日、時、分、秒、フレーム番号など)であってもよいし、フレームごとに付けられたタイムコードであってもよい。各部位の3次元座標情報は、例えば、乗車者の首、右肩、左肩、右肘、左肘、右手首、左手首、股、右大腿、左大腿、右膝、左膝、右踵、及び左踵と、車いすの右車軸、右接地、左車軸、及び左接地とのそれぞれの3次元座標(X,Y,Z)の座標値である。
【0033】
図3に戻り、姿勢情報記憶部213は、情報処理装置20が撮像画像から推定した車いす及び乗車者の複数の部位の3次元座標情報に基づいて算出した姿勢に関する姿勢情報を記憶する。姿勢情報には、各部位の位置関係に基づく距離や角度(例えば、関節の角度)などの情報が含まれる。
【0034】
図5は、姿勢情報記憶部213に記憶される姿勢情報のデータ例を示す図である。図示する姿勢情報のデータ例は、各部位の3次元座標情報に基づいて算出された関節角度情報のデータ例である。関節角度情報には、フレーム画像の時刻情報と、そのフレーム画像から推定された車いす及び乗車者の各部位の3次元座標情報に基づいて算出された関節角度情報とが関連付けられ格納される。時刻情報は、図4に示す例と同様に、例えば、フレームごとの日時に基づく情報(年、月、日、時、分、秒、フレーム番号など)であってもよいし、フレームごとに付けられたタイムコードであってもよい。
【0035】
関節角度情報は、例えば、予め定められた部位の組合せに基づいて、ある部位と他の部位とを結ぶ線分(ベクトル)の3次元座標空間におけるロール(r)、ピッチ(p)、及びヨー(y)の回転角度で表される。例えば、ロールがZ軸を中心とした回転、ピッチがX軸を中心とした回転、ヨーがY軸を中心とした回転に対応する。図示する例では、関節角度情報には、左肩-右肩、右肩-右肘、右肘-右手首、左肩-左肘、左肘-左手首、首-股、左大腿-右大腿、右大腿-右膝、右膝-右踵、左大腿-左膝、左膝-左踵、右車軸-左車軸、右車軸-右接地、左車軸-左接地のそれぞれのロール(r)、ピッチ(p)、及びヨー(y)の回転角度が含まれる。
【0036】
図6は、本実施形態に係る姿勢情報の出力値の一例を示すイメージ図である。例えば、この図は、各部位の3次元座標の位置関係に基づく距離や角度(例えば、関節角度)に基づいて車いす及び乗車者の複数部位が3次元座標空間に再構築されたイメージの一例を示している。このイメージが姿勢情報として生成され、姿勢情報記憶部213に記憶される。
【0037】
再び図3に戻り、学習用データセット記憶部214は、姿勢推定モデルを生成するための学習用データセットを記憶する。前述したように、学習用データセットには、車いす及び乗車者が撮像された複数の学習用の撮像画像と、この複数の学習用の撮像画像のそれぞれに撮像されている車いす及び乗車者の複数の部位の3次元座標情報とが関連付けられている。
【0038】
学習用プログラム記憶部215は、学習用プログラムとして、例えば、畳み込みニューラルネットワーク(CNN)など、より具体的には、Mask R-CNNなどに基づく学習用プログラムを記憶する。
【0039】
学習済みモデル記憶部216は、学習用データセット記憶部214に記憶されている学習用データセットを、学習用プログラム記憶部215に記憶されている学習用プログラムに入力することにより機械学習が行われて生成された姿勢推定モデルを記憶する。
【0040】
次に、制御部22の構成について説明する。制御部22は、例えば、CPU(Central Processing Unit)などを含むプロセッサがプログラムを実行することにより実現される機能構成であり、情報処理装置20を統括的に制御する。例えば、制御部22は、画像取得部221と、画像処理部222と、座標推定部223と、姿勢情報生成部224と、学習済みモデル生成部225とを備えている。
【0041】
画像取得部221(取得部の一例)は、撮像装置10により撮像された撮像画像を含む画像情報を取得する。例えば、撮像装置10は、車いすテニスや車いすバスケットボールなどの競技を行う選手が撮像された撮像画像(動画)を、撮像装置10から取得し、画像情報記憶部211に記憶させる。なお、画像取得部221(取得部の一例)は、コンピュータ読み取り可能な記録媒体から撮像画像を含む画像情報を取得し、画像情報記憶部211に記憶させてもよい。
【0042】
画像処理部222(抽出部の一例)は、画像取得部221により取得された撮像画像から車いす及び乗車者が含まれる画像領域を認識し、当該画像領域に対応する部分画像を抽出する。例えば、画像処理部222は、車いす及び乗車者(人物)の特徴量を示す特徴情報を用いて、撮像画像から車いす及び乗車者が含まれる画像領域を認識する。また、画像処理部222は、撮像画像から車いす及び乗車者が含まれる画像領域を複数認識した場合、複数の部分画像を抽出する。
【0043】
座標推定部223(推定部の一例)は、学習済みモデル記憶部216に記憶されている姿勢推定モデルを用いて、車いす及び乗車者が撮像された撮像画像から車いす及び乗車者の複数の部位の3次元座標情報を推定する。例えば、座標推定部223は、画像処理部222により抽出された部分画像を姿勢推定モデルに入力することにより、姿勢推定モデルを用いて、入力された撮像画像から車いす及び乗車者の複数の部位の3次元座標情報を推定する。
【0044】
なお、姿勢推定モデルで車いす及び乗車者の画像領域の検出と3次元座標情報の推定が可能な場合、座標推定部223は、画像取得部221により取得された撮像画像を姿勢推定モデルに入力することにより、入力された撮像画像から車いす及び乗車者の複数の部位の3次元座標情報を推定してもよい。例えば、座標推定部223は、画像取得部221により取得された撮像画像を姿勢推定モデルに入力することにより、入力された撮像画像から車いす及び乗車者の画像領域を検出することにより車いす及び乗車者の部分画像を抽出してから、部分画像ごとに車いす及び乗車者の複数の部位の3次元座標情報を推定してもよい。即ち、座標推定部223は、入力された撮像画像からり車いす及び乗車者の部分画像を抽出する抽出部機能と、車いす及び乗車者の複数の部位の3次元座標情報を推定する推定部の機能とを有する構成としてもよい。
【0045】
そして、座標推定部223は、各部位ごとに推定した3次元座標情報(座標値)をAIの生成物として出力し、座標情報記憶部212に記憶させる。例えば、座標推定部223は、フレーム画像ごとに、車いす及び乗車者の複数の部位の3次元座標情報を推定し、推定した各部位ごとの3次元座標情報をフレーム画像ごとの時刻情報と関連付けて座標情報記憶部212に記憶させる(図4参照)。
【0046】
姿勢情報生成部224(姿勢情報生成部の一例)は、座標推定部223により推定された車いす及び乗車者の複数の部位の3次元座標情報に基づいて、車いす及び乗車者の姿勢に関する姿勢情報を生成する。例えば、姿勢情報生成部224は、フレーム画像ごとに、予め定められた部位の組合せごとの関節角度(3次元座標空間におけるロール(r)、ピッチ(p)、及びヨー(y)の回転角度)を算出し、姿勢情報として姿勢情報記憶部213に記憶させる(図5参照)。
【0047】
また、姿勢情報生成部224は、車いす及び乗車者の各部位の3次元座標の位置関係に基づく距離や関節角度に基づいて、車いす及び乗車者の複数部位のそれぞれを3次元座標空間に再構築したイメージを生成する(図6参照)。姿勢情報生成部224は、フレーム画像ごとに生成したイメージを、姿勢情報として姿勢情報記憶部213に記憶させてもよい。
【0048】
学習済みモデル生成部225(学習部の一例)は、車いす及び乗車者が撮像された複数の学習用の撮像画像と、この複数の学習用の撮像画像のそれぞれに撮像されている車いす及び乗車者の複数の部位の3次元座標情報とが含まれるデータセットを用いて機械学習する。これにより、学習済みモデル生成部225は、車いす及び乗車者の複数の部位の3次元座標情報を推定するための姿勢推定モデル(学習済みモデルの一例)を生成する。例えば、学習済みモデル生成部225は、学習用データセット記憶部214に記憶されている学習用データセットを、学習用プログラム記憶部215に記憶されている学習用プログラムに入力することにより機械学習を行い、姿勢推定モデルを生成する。そして、学習済みモデル生成部225は、生成した姿勢推定モデルを学習済みモデル記憶部216に記憶させる。
【0049】
なお、学習済みモデル生成部225は、車いすの乗車者を除く単に人物の姿勢を推定するために事前に機械学習された人物姿勢推定モデルをベースに、車いす及び乗車者の複数の部位の3次元座標情報を含む学習用データセットを用いて再学習することにより、本実施形態に係る車いす及び乗車者の複数の部位の3次元座標情報を推定するための姿勢推定モデルを生成してもよい。
【0050】
[学習用プログラムの具体例]
ここで、学習用プログラムの具体例について説明する。前述したように、学習用プログラムとしては、例えば、畳み込みニューラルネットワーク(CNN)など、より具体的には、Mask R-CNNなどを用いてもよい。以下、機械学習の一例として、畳み込みニューラルネットワーク(CNN)について説明する。
【0051】
〔CNNについて〕
図7は、CNNによる機械学習の実行手順を説明する説明図である。
この図において、CNNは、I+1個の層L0~LIから構成される。層L0は入力層、層L1~層L(I-1)は中間層或いは隠れ層、層LIは出力層とも呼ばれる。IはCNNの構造によって定まり、例えばI=3または4などである。
【0052】
CNNは、入力層L0に、入力画像が入力される。入力画像は、入力画像の垂直方向の位置と水平方向の位置を、行列の位置とする画素行列D11で表される。画素行列D11の各要素は、行列の位置に対応する画素のサブ画素値として、R(赤)のサブ画素値、G(緑)のサブ画素値、B(青)サブ画素値が入力されている。
1番目の中間層L1は、畳み込み処理(フィルター処理とも呼ばれる)とプーリング処理が行われる層である。
【0053】
(畳み込み処理)
中間層L1の畳み込み処理の一例について説明する。畳み込み処理は、元の画像にフィルタをかけて特徴マップを出力する処理である。
具体的には、入力された画素値は、それぞれ、Rのサブ画素行列D121、Bのサブ画素行列D122、Gのサブ画素行列D123に分けられる。各サブ画素行列D121、D122、D123(各々を「サブ画素行列D12」とも称する)は、それぞれ、s行t列の部分行列ごとに、その部分行列の各要素とs行t列のコンボリューション行列CM1(カーネルとも呼ばれる)の要素が乗算されて加算されることで、第1画素値が算出される。各サブ画素行列D12で算出された第1画素値は、それぞれ、重み係数を乗算されて加算されることで、第2画素値が算出される。第2画素値は、部分行列の位置に対応する行列要素として、畳込画像行列D131の各要素に設定される。各サブ画素行列D12において部分行列の位置が要素(サブ画素)ごとにずらされることで、各位置での第2画素値が算出され、畳込画像行列D131の全ての行列要素が算出される。
【0054】
例えば、図7は3行3列のコンボリューション行列CM1の場合の一例であり、畳込画素値D1311は、各サブ画素行列D12の2行目から4行目、かつ、2列目から4列目までの3行3列の部分行列について第1画素値が算出される。各サブ画素行列D121、D122、D123の第1画素値に、重み係数が算出されて加算されることで、畳込画像行列D131の2行目2列目の行列要素として、第2画素値が算出される。同様に、3行目から5行目、かつ、2列目から4列目の部分行列から、畳込画像行列D131の3行目2列目の行列要素の第2画素値が算出される。
また同様に、他の重み付け係数又は他のコンボリューション行列を用いて、畳込画像行列D132、・・・が算出される。
【0055】
(プーリング処理)
中間層L1のプーリング処理の一例について説明する。プーリング処理は、画像の特徴を残しながら画像を縮小する処理である。
具体的には、畳込画像行列D131は、u行v列の領域PMごとに、領域内の行列要素の代表値が算出される。代表値は、例えば、最大値である。その代表値は、領域の位置に対応する行列要素として、CNN画像行列D141の各要素に設定される。畳込画像行列D131において領域が、領域PMごとにずらされることで、各位置での代表値が算出され、畳込画像行列D131の全ての行列要素が算出される。
【0056】
例えば、図7は2行2列の領域PMの場合の一例であり、畳込画像行列D131の3行目から4行目、かつ、3列目から4列目までの2行2列の領域について、領域内の第2画素値のうち最大値が、代表値として算出される。この代表値は、CNN画像行列D141の2行目2列目の行列要素に設定される。同様に、5行目から6行目、かつ、2列目から4列目の部分行列から、CNN画像行列D141の3行目2列目の行列要素の代表値が算出される。また同様に、畳込画像行列D132、・・・から、CNN画像行列D142、・・・が算出される。
【0057】
CNN画像行列D141、D142、・・・の各行列要素(N個)は、予め定められた順序で並べられることで、ベクトルxが生成される。図7では、ベクトルxの要素x(n=1、2、3、・・・N)は、N個のノードで表されている。
【0058】
中間層Liは、第i番目の中間層(i=2~I-1)の中間層を表している。第i目の中間層のノードからは、ベクトルu(i)が関数f(u(i))に入力された値として、ベクトルz(i)が出力される。ベクトルu(i)は、第i-1目の中間層のノードから出力されるベクトルz(i-1)に、重み行列W(i)を左から乗算し、ベクトルb(i)を加算したベクトルである。関数f(u(i))は、活性化関数であり、ベクトルb(i)は、バイアスである。またベクトルu(0)は、ベクトルxである。
【0059】
出力層L4のノードはz(I-1)であり、その出力は、M個のy(m=1、2、・・・M)である。つまり、CNNの出力層LIからは、yを要素とするベクトルy(=(y、y、y、・・・y))が出力される。
以上により、CNNは、入力変数として入力画像の画素値が入力された場合に、出力変数としてベクトルyを出力する。ベクトルyは、評価値を表す。
【0060】
図8は、CNNによる機械学習の学習手順を説明する説明図である。
この図は、図7のCNNが機械学習を行う場合の説明図である。
学習用データセットの画像の画素値に対して、第1番目の中間層から出力されたベクトルxをベクトルXとする。学習用データセットの確定クラスを表すベクトルをベクトルYとする。
【0061】
重み行列W(i)には、初期値が設定される。入力画像が入力層に入力され、その結果、第2番目の中間層にベクトルXが入力された場合、出力層からベクトルXに応じたベクトルy(X)が出力される。ベクトルy(X)とベクトルYの誤差Eは、損失関数を用いて計算される。第i層の勾配ΔEは、各層からの出力zと誤差信号δを用いて計算される。誤差信号δは、誤差信号δi-1を用いて計算される。なお、このように、出力層側から入力層側へ誤差信号を伝えていくことは、逆伝搬とも呼ばれる。
重み行列W(i)は、勾配ΔEに基づいて更新される。同様に、第1番目の中間層においても、コンボリューション行列CM又は重み係数が更新される。
【0062】
(学習済モデルの設定)
学習済みモデル生成部225は、CNNについて、層数、各層のノード数、各層間のノードの結合方式、活性化関数、誤差関数、及び勾配降下アルゴリズム、プーリングの領域、カーネル、重み係数、及び、重み行列を設定する。
学習済みモデル生成部225は、例えば、層数として、3層(I=3)を設定する。学習済みモデル生成部225は、各層のノードの数(「ノード数」とも称する)として、ベクトルxの要素数(ノード数N)に800、第2番目の中間層(i=2)のノード数に500、出力層(i=3)に10を設定する。ただし、本発明はこれに限らず、総数は4層以上であってもよいし、ノード数には別の値が設定されてもよい。
【0063】
学習済みモデル生成部225は、20個の5行5列のコンボリューション行列CMと、2行2列の領域PMを設定する。ただし、本発明はこれに限らず、別の行列数又は別の個数のコンボリューション行列CMが設定されてもよい。また、別の行列数の領域PMが設定されてもよい。
学習済みモデル生成部225は、より多くの畳み込み処理又はプーリング処理を行ってもよい。
【0064】
学習済みモデル生成部225は、ニューラルネットワークの各層の結合として、全結合を設定する。ただし、本発明はこれに限らず、一部或いは全ての層の結合は、非全結合に設定であってもよい。学習済みモデル生成部225は、活性化関数として、全ての層の活性化関数にシグモイド関数を設定する。ただし、本発明はこれに限らず、各層の活性化関数は、ステップ関数、線形結合、ソフトサイン、ソフトプラス、ランプ関数、切断冪関数、多項式、絶対値、動径基底関数、ウェーブレット、maxout等、他の活性化関数であってもよい。また、ある層の活性化関数は、他の層とは異なる種類であってもよい。
【0065】
学習済みモデル生成部225は、誤差関数として、二乗損失(平均二乗誤差)を設定する。ただし、本発明はこれに限らず、誤差関数は、交差エントロピー、τ-分位損失、Huber損失、ε感度損失(ε許容誤差関数)であってもよい。また、学習済みモデル生成部225は、勾配を計算するアルゴリズム(勾配降下アルゴリズム)として、SGD(確率的勾配降下)を設定する。ただし、本発明はこれに限らず、勾配降下アルゴリズムには、Momentum(慣性項) SDG、AdaGrad、RMSprop、AdaDelta、Adam(Adaptive moment estimation)等が用いられても良い。
【0066】
〔Mask R-CNN〕
次に、Mask R-CNNによる機械学習の概要について説明する。Mask R-CNNは、画像に対して物体検出を行い検出領域に対してCNNを適用する。
図9は、Mask R-CNNのネットワーク構造の一例を示す図である。「Convolutional backbone」101では、複数の畳み込み層を含んで構成されるネットワーク(CNN)を用いて、入力画像から特徴量を抽出し、抽出結果を出力する。特徴量としては、特徴マップ(Feature map)が用いられる。
【0067】
「RPG(Region Proporsal Network)」102では、「Convolutional backbone」101から出力される特徴量に基づいて、検出対象(例えば、車いす及び乗車者)の候補領域を検出する。例えば、RPG102では、候補領域に検出対象が含まれる確率及び特徴マップ(Feature map)上の候補領域の位置情報などを出力する。
【0068】
次に、「RolAlign layer」103では、特徴マップ(Feature map)から候補領域にあたる部分領域を抽出し、固定サイズの特徴マップ(Fixed size feature map)に変換する。この部分領域ごとに「Keypoint branch」104によって検出対象(例えば、車いす及び乗車者)の姿勢推定が行われ、検出対象(例えば、車いす及び乗車者)の各部位の3次元座標情報が出力される。
【0069】
また、「Fully connected layer」105で各層を全結合し、候補領域にあたる部分領域に対してクラス分類を行い(Classification)、検出対象の(例えば、車いす及び乗車者)の位置(矩形領域)を推定する(Box Regression)。
【0070】
(学習の変形例)
なお、学習用プログラムとして、R(Region)-CNN、Fast R-CNN、Faster R-CNN等を利用してもよい。また、学習用プログラムとして、Stacked Hourglass Networks、PoseResnet、HRNet、Cascaded Pyramid Network等を利用してもよい。また、パーセプトロンのニューラルネットワーク、再起型ニューラルネットワーク(RNN)、残差ネットワーク(ResNet)等の他のニューラルネットワークを設定してもよい。また、決定木、回帰木、ランダムフォレスト、勾配ブースティング木、線形回帰、ロジスティック回帰、又は、SVM(サポートベクターマシン)等の教師あり学習の学習済みモデルを利用してもよい。
【0071】
また、学習用プログラムへ入力する入力単位ごとの入力画像は、1枚の画像に限らず、経時的な複数の画像(動画)としてもよい。例えば、動画を所定のフレームごとに分割して入力画像としてもよい。これにより、時空間情報を考慮したAIを作成できるため、曖昧性の解消と時間的一貫性の改善ができる。例えば、関節の一部が隠れている場合(オクルージョンがある場合)や、急峻な動作により画像がぶれている場合(モーションブラーがある場合)などでも高精度に姿勢推定を行うことができる。学習用プログラムとしては、入力動画に対して空間情報(2D)と時間情報(1D)とをまとめて3Dの畳み込みを行う3D CNN(3D Convolutional Neural Networks)や、RNN(Recurrent Neural Network)等を利用してもよい。
【0072】
[学習済みモデルを用いた姿勢推定の精度評価]
ここで、車いす及び乗車者が撮像された複数の学習用の撮像画像と、この複数の学習用の撮像画像のそれぞれに撮像されている車いす及び乗車者の複数の部位の3次元座標情報とが含まれるデータセットを用いて機械学習した姿勢推定モデル(学習済みモデル)を用いた姿勢推定の精度についての評価結果を説明する。
【0073】
(学習用データセット)
機械学習には、大規模なデータセットが必要であるが、車いす及び乗車者の複数の部位の3次元座標情報を含む大規模なデータセットを用意するのが困難である。そのため、ここでは、大規模なデータセットで事前学習済みの人物の姿勢を推定する人物姿勢推定モデルをベースに、車いす及び乗車者(人物)の複数の部位の3次元座標情報を含む小規模なデータセットを作成し再学習させた。この小規模なデータセットは、約2000枚の車いすスポーツの画像に、約6000人分の車いす及び乗車者の複数の特定の部位(特徴点)をアノテーションして作成した。車いすスポーツの画像は、車いすの形状が似ているものが望ましいため、車いすバスケットボール、車いすテニス、車いすバドミントン、及び車いすラグビーの画像とした。
【0074】
(学習用プログラム)
学習用プログラムとしては、人物のみの大規模なデータセットで事前学習済みのMask R-CNNベースの姿勢推定モデルを使用して、作成した車いす及び乗車者(人物)の複数の部位の3次元座標情報を含むデータセットで再学習させた。
【0075】
(評価結果)
精度評価には、姿勢推定手法の評価に一般的に使用される指標であるAverage Precision(AP)を用いた。各部位の3次元座標の推定結果の正誤は、正解姿勢と推定姿勢の類似度を表すObject Keypoint Similarity(OKS)に基づき判定される。OKSは、1人あたりの各部位(特徴点)の正解座標と推定座標の類似度の平均値を示す。車いす及び乗車者の複数の部位の3次元座標情報を含むデータセットで再学習させた姿勢推定モデルを用いた場合、AP=92.8%となり、車いす及び乗車者の複数の部位の3次元座標情報を高い精度で推定できることが分かった。
【0076】
以上、説明してきたように本実施形態に係る姿勢推定システム1において、情報処理装置20(姿勢推定装置の一例)は、車いす及び乗車者が撮像された複数の学習用の撮像画像と、複数の学習用の撮像画像のそれぞれに撮像されている車いす及び乗車者のそれぞれ一以上の部位の座標情報とに基づいて機械学習された姿勢推定モデル(学習済みモデルの一例)を用いて、車いす及び乗車者が撮像された撮像画像から車いす及び乗車者のそれぞれ一以上の部位の3次元座標情報を推定する。
【0077】
これにより、姿勢推定システム1は、機械学習を用いることで、画像のみから車いす及び乗車者の複数部位の3次元座標を推定できるため、車いす及び乗車者が撮像された画像から車いす及び乗車者の姿勢を一体として推定できる。また、本実施形態では、車いす及び乗車者の一体のオブジェクトとして姿勢推定処理を行うため、別々に姿勢推定処理を行う場合に比較して、処理速度が向上する。例えば、車いす及び乗車者の一体のオブジェクトとして計算するため、計算速度が向上する。また、車いす及び乗車者の一体のオブジェクトとして姿勢推定処理を行うことにより、車いすと乗車者との位置関係を考慮した姿勢推定モデル(学習済みモデルの一例)を生成できるため、姿勢推定の精度が向上する。
【0078】
また、情報処理装置20(姿勢推定装置の一例)は、複数の車いす及び乗車者が撮像された撮像画像から複数の車いす及び乗車者のそれぞれの部分画像を抽出し、複数の部分画像のそれぞれから車いす及び乗車者のそれぞれ一以上の部位の3次元座標情報を推定してもよい。
【0079】
これにより、姿勢推定システム1は、画像から複数の車いす及び乗車者の3次元座標を推定できるため、複数の車いす及び乗車者が撮像された画像から複数の車いす及び乗車者の姿勢を推定できる。
【0080】
なお、部分画像を抽出する抽出部としての構成は、情報処理装置20に備えられている画像処理部222及び座標推定部223のいずれに含まれてもよい。例えば、画像処理部222が、画像取得部221により取得された撮像画像から車いす及び乗車者が含まれる画像領域を認識し、当該画像領域に対応する部分画像を抽出してもよい。或いは、座標推定部223が、姿勢推定モデルを用いて、撮像画像から車いす及び乗車者が含まれる画像領域に対応する部分画像を抽出してもよい。
【0081】
また、本実施形態では、車いすと乗車者(人物)を検出してから、その後それぞれの姿勢推定を行う例(所謂、トップダウン型のアプローチ)を説明したが、これに限られるものではない。例えば、画像取得部221により取得された撮像画像中のキーポイントを全て洗い出した後、車いすと乗車者(人物)のセットごとにキーポイント(車いす及び乗車者の各部位に相当)をマッチングさせて繋ぎ合わせていくこと(所謂、ボトムアップ型のアプローチ)でも、本実施形態に係る姿勢推定処理を実現できる。
【0082】
また、情報処理装置20(姿勢推定装置の一例)は、推定した3次元座標情報に基づいて、車いす及び乗車者の姿勢に関する姿勢情報を生成する。
【0083】
これにより、姿勢推定システム1は、車いす及び乗車者の姿勢をデータ化することができ、姿勢を可視化することができる。
【0084】
また、情報処理装置20(学習装置の一例)は、車いす及び乗車者が撮像された複数の学習用の撮像画像と、複数の学習用の撮像画像のそれぞれに撮像されている車いす及び乗車者のそれぞれ一以上の部位の座標情報とが含まれるデータセットを用いて機械学習することにより、車いす及び乗車者が撮像された撮像画像から車いす及び乗車者のそれぞれ一以上の部位の3次元座標情報を推定するための姿勢推定モデル(学習済みモデルの一例)を生成する学習装置としても機能する。情報処理装置20は、生成した姿勢推定モデルを用いて、撮像装置10(撮像部の一例)により撮像された撮像画像から車いす及び乗車者のそれぞれ一以上の部位の3次元座標情報を推定する。
【0085】
これにより、姿勢推定システム1は、画像のみから車いす及び乗車者の複数部位の3次元座標を推定可能な姿勢推定モデル(学習済みモデルの一例)を生成することができる。よって、姿勢推定システム1は、機械学習を用いて、画像のみから車いす及び乗車者の姿勢を推定できる。
【0086】
また、本実施形態に係る姿勢推定モデルは、車いす及び車いすの乗車者のそれぞれ一以上の部位の3次元座標情報を推定するための学習済みモデルである。この姿勢推定モデルは、車いす及び乗車者が撮像された複数の学習用の撮像画像と、複数の学習用の撮像画像のそれぞれに撮像されている車いす及び乗車者のそれぞれ一以上の部位の3次元座標情報とに基づいて機械学習され、車いす及び乗車者が撮像された撮像画像から車いす及び前記乗車者のそれぞれ一以上の部位の3次元座標情報を推定するようコンピュータを機能させる。
【0087】
これにより、本実施形態に係る姿勢推定モデルは、画像のみから車いす及び乗車者の複数部位の3次元座標を推定できるため、車いす及び乗車者が撮像された画像から車いす及び乗車者の姿勢を一体として推定できる。
【0088】
なお、本実施形態では、機械学習により生成した姿勢推定モデルを用いて、画像から車いす及び乗車者の姿勢の推定を行なう例を説明したが、これに限られるものではない。例えば、複数の撮像画像のそれぞれに撮像されている車いす及び乗車者の画像と、当該車いす及び乗車者のそれぞれの一以上の部位の3次元座標情報との関係についてのアルゴリズムを具現化したプログラムを用いて、画像から車いす及び乗車者の姿勢の推定を行なう構成としてもよい。
【0089】
つまり、本実施形態に係る姿勢推定システム1において、情報処理装置20(姿勢推定装置の一例)は、車いす及び乗車者が撮像された複数の撮像画像と、複数の撮像画像のそれぞれに撮像されている車いす及び乗車者のそれぞれ一以上の部位の座標情報とに基づいて、車いす及び乗車者が撮像された撮像画像から車いす及び乗車者のそれぞれ一以上の部位の3次元座標情報を推定する。
【0090】
これにより、姿勢推定システム1は、機械学習を用いなくとも、画像のみから車いす及び乗車者の複数部位の3次元座標を推定できるため、車いす及び乗車者が撮像された画像から車いす及び乗車者の姿勢を一体として推定できる。
【0091】
<第2の実施形態>
次に、図面を参照して、第2の実施形態に係る姿勢推定システム1Aについて説明する。本実施形態では、第1の実施形態に係る姿勢推定システム1で推定した車いす及び乗車者の複数の部位の3次元座標情報及び姿勢情報などを利用して、乗車者の技能の評価指標を導出する姿勢推定システム1Aについて説明する。乗車者の技能とは、例えば、乗車者による車いすの操作技能や、乗車者の運動技能などである。
【0092】
図10は、本実施形態に係る姿勢推定システム1Aの構成の一例を示すブロック図である。図示する姿勢推定システム1Aは、撮像装置10と、情報処理装置20Aとを備えている。情報処理装置20Aは、記憶部21Aと、制御部22Aとを備えている。
【0093】
記憶部21Aは、情報処理装置20Aの各種処理に利用する情報を記憶する。記憶部21Aは、画像情報記憶部211と、座標情報記憶部212と、姿勢情報記憶部213と、学習用データセット記憶部214と、学習用プログラム記憶部215と、学習済みモデル記憶部216と、評価指標記憶部217とを備えている。なお、画像情報記憶部211と、座標情報記憶部212と、姿勢情報記憶部213と、学習用データセット記憶部214と、学習用プログラム記憶部215と、学習済みモデル記憶部216とは、第1の実施形態で説明した構成であり、その説明を省略する。
【0094】
評価指標記憶部217は、後述する評価指標導出部226により導出された評価指標に関する評価指標情報を記憶する。例えば、評価指標記憶部217は、車いすの漕ぎ動作、車いすのトルク及びパワー、乗車者の重心の3次元座標又は体軸の傾き、乗車者の挙げた手の高さ、乗車者が保持または装着する用具や器具(例えば、テニスラケット)などの姿勢など、に関する評価指標情報が記憶される。
【0095】
制御部22Aは、例えば、CPUなどを含むプロセッサがプログラムを実行することにより実現される機能構成であり、情報処理装置20Aを統括的に制御する。制御部22Aは、上述した第1の実施形態の制御部22と同様に、姿勢推定モデル(学習済みモデル)の生成処理、及び姿勢推定モデルを用いての姿勢推定処理を実行するとともに、それに加え、乗車者による車いすの操作技能の評価指標や乗車者の動きの評価指標などを導出する。
【0096】
図示する制御部22Aは、画像取得部221と、画像処理部222と、座標推定部223と、姿勢情報生成部224と、学習済みモデル生成部225と、評価指標導出部226とを備えている。なお、画像取得部221と、画像処理部222と、座標推定部223と、姿勢情報生成部224と、学習済みモデル生成部225とは、第1の実施形態で説明した構成であり、その説明を省略する。
【0097】
評価指標導出部226は、姿勢情報生成部224により生成された姿勢情報に基づいて、車いすの乗車者の技能(スキル)を評価するための評価指標を導出する。例えば、評価指標導出部226は、乗車者による車いすの操作技能を評価するための評価指標を導出する。
【0098】
図11は、本実施形態に係る導出可能な評価指標の第1例を示す図である。図示する例は、車いす及び乗車者を横方向から見た模式図である。評価指標導出部226は、乗車者による車いすの特定の操作を評価指標の一つとして検出する。特定の操作の一例として、車いすの漕ぎ動作(プッシュ動作)を例示できる。例えば、評価指標導出部226は、乗車者の腕の関節(肩、肘、手首)の3次元座標に基づく腕の関節角度の変化に基づいて、乗車者による車いすの漕ぎ動作を検出してもよい。
【0099】
また、評価指標導出部226は、乗車者による漕ぎ動作で車いすの移動加速度が増加することを利用して、漕ぎ動作を検知してもよい。車いすの移動加速度は、プッシュ動作の開始時から増加し始め,車いすの車輪から手を離した直後に最大となり、その後減少する。したがって、評価指標導出部226は、車いすの移動加速度のピーク値を検出することにより漕ぎ動作を検出できる。
【0100】
図12は、本実施形態に係る導出可能な評価指標の第2例を示す図である。図示する例は、車いす及び乗車者を横方向から見た模式図である。評価指標導出部226は、乗車者の漕ぎ動作による車いすのトルク及びパワーを評価指標の一つとして導出してもよい。例えば、評価指標導出部226は、乗車者の手首の位置(座標)をトラッキングすることにより、車いすの車軸に対する手首の位置の変化量から車いすの車輪の回転の角速度を算出する。また、評価指標導出部226は、車いすの車軸の位置(座標)をトラッキングすることにより移動速度を算出する。評価指標導出部226は、算出した角速度及び移動速度と車輪の半径などに基づいて車いすのトルク及びパワーを導出する。
【0101】
図13は、本実施形態に係る導出可能な評価指標の第3例を示す図である。図示する例は、車いす及び乗車者を上方向から見た模式図である。評価指標導出部226は、車いすの移動の向き、加速度、及び速度を評価指標の一つとして導出してもよい。例えば、評価指標導出部226は、乗車者の重心の座標又は車いすの車軸の中心座標(右車軸の座標と左車軸の座標とをつなぐ線分の中心座標)などをトラッキングし、車いすの移動の向き、加速度、及び速度を導出する。
【0102】
図14は、本実施形態に係る導出可能な評価指標の第4例を示す図である。図示する例は、車いす及び乗車者を前方向から見た模式図である。評価指標導出部226は、乗車者の重心又は体軸の傾きを評価指標の一つとして導出してもよい。例えば、評価指標導出部226は、首の座標と股の座標とをつなぐ線分に基づいて乗車者の重心及び体軸を検出し、乗車者の重心の3次元座標又は体軸の傾きを導出する。
【0103】
なお、情報処理装置20Aは、乗車者の体軸の傾きを検出するために、体軸が傾いていない画像と体軸が傾いている画像とが含まれる学習用データセットで機械学習することにより姿勢推定モデルを生成して、生成した姿勢推定モデルを用いて、乗車者の体軸の傾きを検出してもよい。
【0104】
図15は、本実施形態に係る導出可能な評価指標の第5例を示す図である。図示する例は、車いす及び乗車者を前方向から見た模式図である。評価指標導出部226は、乗車者の挙げた手の高さを評価指標の一つとして導出してもよい。例えば、評価指標導出部226は、乗車者の手首の位置(座標)をトラッキングすることにより、手首の位置が最も高くなったときの3次元座標に基づいて、乗車者の挙げた手の高さを導出する。この評価使用は、例えば、車いすバスケットの選手の評価に有効である。
【0105】
図16は、本実施形態に係る導出可能な評価指標の第6例を示す図である。図示する例は、車いす及び乗車者を前方向から見た模式図である。この例では、乗車者が車いすテニスのラケットを保持している。評価指標導出部226は、乗車者が保持しているラケットの検出及びラケットの姿勢(位置及び向き)を評価指標の一つとして導出してもよい。例えば、情報処理装置20Aは、乗車者が保持しているラケットを検出するために、ラケットを保持している乗車者の画像が含まれる学習用データセットで機械学習することにより姿勢推定モデルを生成して、生成した姿勢推定モデルを用いて、乗車者が保持しているラケットを検出してもよい。また、情報処理装置20Aは、ラケットの各部(例えば、ラケットのグリップエンド、ヘッドトップ、スイートスポットなど)の3次元座標情報を学習用データセットに含めて機械学習することにより姿勢推定モデルを生成して、生成した姿勢推定モデルを用いて、乗車者が保持しているラケットの各部位の3次元座標情報を推定し、ラケットの姿勢情報を生成してもよい。
【0106】
また、評価指標導出部226は、乗車者及びラケットのトータルでの姿勢、又は車いす、乗車者、及びラケットのトータルでの姿勢を評価指標の一つとして導出してもよい。例えば、情報処理装置20Aは、ラケットを保持している乗車者の画像が含まれる学習用データセットで機械学習することにより生成した姿勢推定モデルを用いて、車いす、乗車者、及びラケットの各部位の3次元座標情報を推定し、推定した3次元座標情報に基づいて、乗車者及びラケットのトータルでの姿勢、または車いす、乗車者、及びラケットのトータルでの姿勢を評価指標の一つとして導出してもよい。
【0107】
なお、図16では、車いすテニスのラケットの検出及びテニスのラケットの姿勢(または、乗車者及びラケットのトータルでの姿勢、または車いす、乗車者、及びラケットのトータルでの姿勢)を評価指標の一つとして導出する例を示したが、テニスのラケットに限定されるものではなく、乗車者が保持または装着する用具や器具などの物体の全般に適用できる。例えば、車椅子の乗車者が保持している卓球のラケット、アイスホッケーのラケット、ソフトボールのバット、車いすフェンシングの剣などであってもよい。また、車椅子の乗車者が装着しているソフトボールのグローブなどであってもよい。
【0108】
以上説明したように、本実施形態に係る姿勢推定システム1Aにおいて、情報処理装置20A(姿勢推定装置の一例)は、車いす及び乗車者の複数の部位の3次元座標情報及び姿勢情報に基づいて、乗車者の技能(車いすの操作技能や乗車者の運動技能など)を評価するための評価指標を導出する。
【0109】
これにより、姿勢推定システム1Aは、車いすスポーツを行う選手や車いすを利用している人をカメラで撮影することで、その選手の車いすの操作技能や運動技能、或いは車いすを利用している人の車いすの操作技能などを容易に評価することができる。或いは、評価者が容易に評価できるように手助けすることができる。
【0110】
また、情報処理装置20Aは、車いす、乗車者、及び乗車者が保持または装着する物体(用具又は器具)が撮像された複数の撮像画像と、複数の撮像画像のそれぞれに撮像されている車いす、乗車者、及び物体のそれぞれ一以上の部位の3次元座標情報とに基づいて、車いす、乗車者、及び乗車者が保持または装着する物体(用具又は器具)が撮像された撮像画像から、少なくとも物体(用具又は器具)の一以上の部位の3次元座標情報を推定する。そして、情報処理装置20Aは、少なくとも物体(用具又は器具)の一以上の部位の3次元座標情報に基づいて、乗車者の技能を評価するための評価指標を導出する。
【0111】
これにより、姿勢推定システム1Aは、車いすスポーツを行う選手が保持または装着する用具又は器具の使用を含む技能を容易に評価することができる。或いは、評価者が容易に評価できるように手助けすることができる。
【0112】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【0113】
上記実施形態では、車いす及び乗車者の複数の部位の3次元座標情報を推定する例を示したが、3次元座標情報に限定されるものではなく2次元座標情報を推定する構成としてもよい。
【0114】
また、上記実施形態における撮像装置10は、ビデオカメラやデジタルカメラのようなカメラ専用機に限られるものではく、スマートフォンなどのようにカメラ機能を一部の機能として備えている電子機器であってもよい。また、撮像装置10と情報処理装置20とは有線又は無線で通信接続されてもよいし、通信接続されるのではなく、撮像装置10で撮像された撮像画像が、光ディスクやメモリカードなどの記憶媒体を介して情報処理装置20へ受け渡されてもよい。
【0115】
また、撮像装置10と情報処理装置20(又は情報処理装置20A)とは、一体となった一つの装置として構成されてもよい。例えば、カメラ機能を有するスマートフォンやタブレット型のコンピュータ装置が、撮像装置10及び情報処理装置20(又は情報処理装置20A)が備える各部を備えてもよい。また、姿勢推定システム1(又は姿勢推定システム1A)は、撮像装置10と情報処理装置20(又は情報処理装置20A)とが一体となった装置を複数台備える構成としてもよい。
【0116】
また、上記実施形態における情報処理装置20(20A)は、1台の装置である例を説明したが、これに限定されるものではなく、複数台の装置で構成されてもよい。例えば、上記実施形態では、情報処理装置20が姿勢推定モデルを生成する学習装置としての構成と、姿勢推定モデルを用いて姿勢を推定する姿勢推定装置としての構成との両方を備えている構成例を説明したが、学習装置としての構成と姿勢推定装置としての構成とは、異なる装置に分かれた構成としてもよい。例えば、情報処理装置20(又は情報処理装置20A)が備える構成のうち、学習用データセット記憶部214、学習用プログラム記憶部215、学習済みモデル記憶部216、及び学習済みモデル生成部225を学習装置としてのコンピュータ装置が備え、画像情報記憶部211、座標情報記憶部212、姿勢情報記憶部213、評価指標記憶部217、画像取得部221、画像処理部222、座標推定部223、姿勢情報生成部224、及び評価指標導出部226を姿勢推定装置としてのコンピュータ装置が備えてもよい。
【0117】
また、情報処理装置20(20A)は、記憶部21(21A)の一部又は全部を、外部装置が備えるようにしてもよい。また、この場合、外部装置は、ネットワークを介して、情報処理装置20(20A)に接続可能な記憶装置であってもよい。また、情報処理装置20(20A)は、制御部22(22A)の一部の機能を、外部装置が備えるようにしてもよい。
【0118】
なお、上述した姿勢推定システム1(又は姿勢推定システム1A)が備える撮像装置10または情報処理装置20(又は情報処理装置20A)は、内部にコンピュータシステムを有している。そして、上述した撮像装置10または情報処理装置20(又は情報処理装置20A)が備える各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した撮像装置10または情報処理装置20(又は情報処理装置20A)が備える各構成における処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやWAN、LAN、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、CD-ROM等の非一過性の記録媒体であってもよい。
【0119】
また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部又は外部に設けられた記録媒体も含まれる。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に撮像装置10または情報処理装置20(又は情報処理装置20A)が備える各構成で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0120】
また、撮像装置10または情報処理装置20(又は情報処理装置20A)の一部又は全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。また、本実施形態の撮像装置10または情報処理装置20(又は情報処理装置20A)内の各構成要素は個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
【0121】
なお、上記実施形態では、主として車いすスポーツの分野における姿勢推定の技術を説明したが、以下にしめすようなスポーツ以外の分野にも適用することができる。
(1)バリアフリーデザインへの応用
姿勢推定システム1Aは、例えば街中や施設等に設置されている防犯カメラ等の映像を入力画像とし、車いすの傾きや乗車者の漕ぐパワーなどの評価指標を導出し、車いすの乗車者の負荷を定量的に評価することができる。これにより、姿勢推定システム1Aは、バリアフリーな街や施設等の設計に活用することができる。
(2)車いす事故予防システム
病院・介護施設・ショッピングセンター等での使用を想定した車いす事故予防システムに適用することができる。例えば、姿勢推定システム1(1A)は、車いすの乗車者の姿勢(骨格)を推定することで、車いす操作中の動作を分類することができ、転倒の検出や予防に活用することができる。また、姿勢推定システム1(1A)は、移動速度や加減速の大きさ等の評価指標を導出することで、事故予防のアラートを出したり、事故時の衝撃力の推定に応用することができる。
(3)リハビリテーションへの応用
姿勢推定システム1(1A)は、自動的に車いす及び乗車者の動作を計測することで、車いすを用いたリハビリテーション中に、乗車者のリハビリテーションによる改善の程度・効果をモニタリングすることができる。
(4)ゲームコントローラーへの応用
モーションキャプチャの取得値を入力として、身体動作をゲームコントローラーとして使う技術もあるが、姿勢推定システム1(1A)による姿勢推定技術を用いることで車いすの乗車者の場合でも身体動作をゲームコントローラーとして利用できる。
(5)疲労度の推定
姿勢推定システム1Aは、車いす及び乗車者の移動速度の変化や移動加速度の変化、或いは、図12を参照して前述した車いすのトルク及びパワーなどに基づいて乗車者の疲労度を評価指標として導出してもよい。例えば、姿勢推定システム1Aは、異なる種類の車いすや、車いすの設計変更前と後で乗車者の疲労度を評価指標として同定し、車いすのメーカや設計にフィードバックしてもよい。
なお、(1)~(5)に示す例は、本発明に係る姿勢推定技術の応用例の一部であり、車いすを使用した様々な分野に適用することができる。
【符号の説明】
【0122】
1,1A…姿勢推定システム、10…撮像装置、20,20A…情報処理装置、21,21A…記憶部、22,22A…制御部、211…画像情報記憶部、212…座標情報記憶部、213…姿勢情報記憶部、214…学習用データセット記憶部、215…学習用プログラム記憶部、216…学習済みモデル記憶部、217…評価指標記憶部、221…画像取得部、222…画像処理部、223…座標推定部、224…姿勢情報生成部、225…学習済みモデル生成部、226…評価指標導出部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16