(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-24
(45)【発行日】2024-08-01
(54)【発明の名称】動作計測装置およびプログラム
(51)【国際特許分類】
G06T 7/70 20170101AFI20240725BHJP
G01B 11/00 20060101ALI20240725BHJP
【FI】
G06T7/70 Z
G01B11/00 H
(21)【出願番号】P 2020130922
(22)【出願日】2020-07-31
【審査請求日】2023-07-10
(31)【優先権主張番号】P 2019142943
(32)【優先日】2019-08-02
(33)【優先権主張国・地域又は機関】JP
(31)【優先権主張番号】P 2020124704
(32)【優先日】2020-07-21
(33)【優先権主張国・地域又は機関】JP
【新規性喪失の例外の表示】特許法第30条第2項適用 特願2019-142943、令和1年8月30日提出、変更を要しないため省略する。
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成29年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業、チーム型研究(CREST)、「人間と情報環境の共生インタラクション基盤技術の創出と展開」、「技能獲得メカニズムの原理解明および獲得支援システムへの展開」、「技能の抽象化と獲得メカニズムの原理解明、および獲得支援技術の開発」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】304021417
【氏名又は名称】国立大学法人東京工業大学
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】小池 英樹
(72)【発明者】
【氏名】ファン ドンヒュン
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】特開2017-126942(JP,A)
【文献】Weipeng Xu; Avishek Chatterjee; Michael Zollhofer; Helge Rhodin; Pascal Fua;Hans-Peter Seidel; Christian Theobalt,Mo2Cap2: Real-time Mobile 3D Motion Capture with a Cap-mounted Fisheye Camera,IEEE Transactions on Visualization and Computer Graphics,米国,IEEE,2019年05月,Volume 25,pp.2093-2101,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8643070
【文献】田中 恭友、小池 英樹,小型広角カメラを用いた視線方向の推定,第25回インタラクティブシステムとソフトウェアに関するワークショップ,日本,日本ソフトウェア科学会インタラクティブシステムとソフトウェア研究会,2017年12月08日,P.1-4
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/70
G01B 11/00
(57)【特許請求の範囲】
【請求項1】
被験者の身体
のうち胸部に装着することにより、
前記被験者の顎部分を含む前記身体
の一部を画像として捉える広角カメラと、
前記画像から、
前記顎部分および前記身体の一部に対応する特徴点を抽出する特徴点抽出部と、
前記特徴点を用いて、前記被験者の三次元の姿勢を推定する三次元姿勢推定部と、を備え、
前記特徴点抽出部は、前記画像から前記顎部分を抽出して前記顎部分に前記特徴点を付与し、前記顎部分の前記特徴点の位置から前記顎部分以外の前記身体の一部が存在する位置を確率で判断し、判断した前記身体の一部に対応する前記特徴点を付与するとともに、予め機械学習により取得した学習データを用いて、前記画像に写っていない身体の部分を推測して、前記特徴点を補完する、ことを特徴とする動作計測装置。
【請求項2】
前記三次元姿勢推定部は、予め機械学習により取得した学習データを用いて、前記三次元の姿勢の推定を行うことを特徴とする請求項
1に記載の動作計測装置。
【請求項3】
前記三次元姿勢推定部は、前記特徴点間を結んでデータ内骨格を形成することを特徴とする請求項1
または2に記載の動作計測装置。
【請求項4】
前記機械学習は、前記学習データを複数用いた確率による推論を含むことを特徴とする請求項
1~3のうち何れか一項に記載の動作計測装置。
【請求項5】
前記広角カメラの少なくとも上下方向の姿勢を推定するカメラ姿勢推定部を備え、前記カメラ姿勢推定部は、推定された前記広角カメラの姿勢に基づいて前記被験者の三次元の姿勢を補正して推定することを特徴とする請求項
1~4のうち何れか一項に記載の動作計測装置。
【請求項6】
前記被験者の頭部の姿勢を推定する頭部姿勢推定部と、
推定された頭部の姿勢から前記被験者の視線方向を推定して、前記広角カメラで捉えた画像から視線方向の画像を生成する視線画像生成部と、
を備えることを特徴とする請求項
1~5のうち何れか一項に記載の動作計測装置。
【請求項7】
前記頭部姿勢推定部は、
前記被験者の頭部の姿勢を学習データを用いて推定することを特徴とする請求項
6に記載の動作計測装置。
【請求項8】
前記広角カメラのレンズは、魚眼レンズであることを特徴とする請求項
1~7のうち何れか一項に記載の動作計測装置。
【請求項9】
被験者の身体
のうち胸部に広角カメラを装着することにより、
前記被験者の顎部分を含む前記身体
の一部を画像として撮影する撮影ステップと、
前記画像から
前記顎部分および前記身体の一部に対応する特徴点を抽出する特徴点抽出ステップと、
予め機械学習により学習データを取得する学習ステップと、
前記顎部分に付与された前記特徴点の位置から前記顎部分以外の前記身体の一部が存在する位置を確率で判断し、判断した前記身体の一部に対応する特徴点を付与するとともに、前記学習ステップで学習された学習データを用いて、前記画像に写っていない身体の部分を推測して、前記特徴点を補完する特徴点抽出ステップと、
前記特徴点から前記被験者の三次元の姿勢を推定する姿勢推定ステップと、を備えることを特徴とするプログラム。
【請求項10】
前記学習ステップは、前記被験者の情報またはデータで構成された仮想被験者を用いて機械学習を行
うことを特徴とする請求項
9に記載のプログラム。
【請求項11】
前記姿勢推定ステップは、前記学習ステップで学習された学習データを用いて、前記被験者の三次元の姿勢を推定することを特徴とする請求項
9または10に記載のプログラム。
【請求項12】
前記姿勢推定ステップは、前記広角カメラの画像から少なくとも上下方向の広角カメラの姿勢を推定するステップと、推定された前記広角カメラの姿勢を用いて補正して前記被験者の姿勢を推定するステップと、を有することを特徴とする
請求項9~11のうち何れか一項に記載のプログラム。
【請求項13】
前記被験者の頭部の姿勢を推定する頭部姿勢推定ステップと、
推定された頭部の姿勢から前記被験者の視線方向を推定する視線方向推定ステップと、 前記広角カメラで捉えた画像から視線方向の画像を生成する視線画像生成ステップと、を備えることを特徴とする請求項
9~12のうち何れか一項に記載のプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動作計測装置およびプログラムに関する。
【背景技術】
【0002】
従来、被検体の動作の特異点および被検体の動作の特徴情報を自動で抽出し、表示することができるモーションキャプチャ技術がある(例えば、特許文献1等参照)。
【先行技術文献】
【非特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来のモーションキャプチャ技術としては、人物の動作の計測を行うため、光学系を用いるモーションキャプチャ手法が知られている。このような光学系の計測方法では、例えば被検体である人物の身体の複数点に装着されるマーカーと、角度の異なる位置に配置し、マーカーの動きを三角測量の原理で計測して時系列的に撮影する複数のカメラと、複数のカメラの撮影情報からマーカーの三次元時系列位置情報を得る画像処理装置とを備えている。
例えば屋内の所定の領域内に向けて設置された複数のカメラによって、マーカーを追尾することにより、この領域にて被検体の動きの計測を行う。しかしながら、この計測方法では、カメラで捕捉できる屋内等の一定の領域内でなければ、被検体の動きを検出できない。このため、屋外等、広い領域などにおける計測には不向きであり、計測可能な範囲が限定されてしまう。
【0005】
また、加速度センサやジャイロセンサ等の各種センサを被験者の身体に装着する無線通信系のモーションキャプチャ手法が知られている。
無線通信系のモーションキャプチャの場合は、全身スーツを着用して、その上からマーカーもしくはジャイロセンサ等の各種センサ類を位置決め装着している。
このため、全身スーツおよび各種センサ類の装脱着が煩雑で、被験者の負荷が増大してしまう。
【0006】
そこで、本発明は、被験者の装脱着に伴う負荷を低減させて、撮影領域が限定されることなく、例えば屋外等でも被験者の動きを捉えることができる動作計測装置およびプログラムを提供することを課題としている。
【課題を解決するための手段】
【0007】
本発明に係る動作計測装置は、被験者の身体のうち胸部に装着することにより、前記被験者の顎部分を含む前記身体の一部を画像として捉える広角カメラと、前記画像から、前記顎部分および前記身体の一部に対応する特徴点を抽出する特徴点抽出部と、前記特徴点を用いて、前記被験者の三次元の姿勢を推定する三次元姿勢推定部と、を備え、前記特徴点抽出部は、前記画像から前記顎部分を抽出して前記顎部分に前記特徴点を付与し、前記顎部分の前記特徴点の位置から前記顎部分以外の前記身体の一部が存在する位置を確率で判断し、判断した前記身体の一部に対応する前記特徴点を付与するとともに、予め機械学習により取得した学習データを用いて、前記画像に写っていない身体の部分を推測して、前記特徴点を補完する、ことを特徴としている。その他の解決手段は発明を実施するための形態において後記する。
【発明の効果】
【0008】
本発明によれば、広角カメラによって、少なくとも被験者の身体の一部を捉えた画像が撮影される。特徴点抽出部では、画像から被験者の特徴点を抽出する。そして、三次元姿勢推定部は、特徴点から被験者の三次元の姿勢を推定する。
このため、被験者の装脱着に伴う負荷を低減させて、撮影領域が限定されることなく、例えば屋外等でも被験者の動きを捉えることができる動作計測装置およびプログラムが提供される。
【図面の簡単な説明】
【0009】
【
図1】実施形態1の動作計測装置の撮影に用いる広角カメラを被験者の胸部に装着した様子を示す斜視図である。
【
図2】実施形態1の広角カメラで撮影された画像の一例であり、周縁に被験者の身体の一部が歪んで写っている様子を示す図である。
【
図3】実施形態1の動作計測装置で、被験者の胸部の前に広角カメラが装着された場合の撮影範囲を示す模式図である。
【
図4】(a)~(e)は、実施形態1の動作計測装置で行われる処理の順序を示す模式図である。
【
図5】実施形態1の動作計測装置の構成を説明し、特徴点抽出部を中心に示すブロック図である。
【
図6】実施形態1の動作計測装置の構成を説明し、三次元姿勢推定部を中心に示す機能ブロック図である。
【
図7】実施形態1で用いる動作計測装置の処理の流れを示すフローチャートである。
【
図8】実施形態の動作計測装置で、三次元姿勢推定部にAカメラ姿勢推定部を組み合わせ、または、B頭部姿勢推定部を組合わせた概念的模式図である。
【
図9】実施形態2の動作計測装置で、カメラの姿勢により身体の姿勢の補正を行う装置本体の構成を表すブロック図である。
【
図10】実施形態3の動作測定装置で、頭部の姿勢を推定することにより視線の推定を行う装置本体の構成を表すブロック図である。
【
図11】実施形態3の動作計測装置で、頭部の姿勢から被験者の視線の先の風景を投影する処理の順序を示す模式図である。
【
図12】実施形態3の動作計測装置で、(a)は、広角レンズで撮像された一例を示す図、(b)は、(a)を視線の方向に平面化した図、(c)は、広角レンズで撮像された他の例を示す図、(d)は、(c)を視線の方向に平面化した図である。
【
図13】実施形態3の動作計測装置で、広角カメラが捉えている画像B1と、実際の視線の先の画像H1とは異なることを示す概念図である。
【
図14】実施形態3の動作計測装置で、広角カメラが捉えた画像を、実際の視線の先の画像と一致させた画像B2を生成する様子を示す概念図である。
【発明を実施するための形態】
【実施形態1】
【0010】
〔計測装置10〕
図1に示すように、広角カメラ1と無線により接続される計測装置10は、箱状の装置本体11内に、主にCPUを含み特徴点を抽出する特徴点抽出部12と、特徴点を用いて、被験者Pの三次元の姿勢を推定する三次元姿勢推定部13と、記憶媒体により主に構成されていて、各データを記憶する記憶部14とを備えている。
また、計測装置10は、図示しない通信部を介して広角カメラ1との間でデータの送受信が可能となるように構成されている。
すなわち、計測装置10は、通信部を介して
図4(a)に示すように、広角カメラ1から送信された被験者Pの胸部を広角カメラ1で撮影した画像データを受信する。画像データには、
図4(b)に示すように前方の風景20とともに、被験者Pの一部である顎5や手7,足8等が周縁の画像として撮影されている。
【0011】
〔学習データ(サンプル)の学習〕
学習データ(サンプル)の学習を行うため、被験者Pと同様に、サンプル作成者が広角カメラ1を胸部につけて、機械学習(ディープラーニング)のためのデータを収集する方
法がある。
しかしながら、精度を向上させるために、サンプル作成者にカメラを装着して膨大な量のデータ(例えば15万フレーム等)を収集するのは、サンプル作成者の負担を考慮すると現実的ではない。
そこで、本実施形態のサンプルの学習では、被検体をサンプル作成者に代えて、データにより構成された仮想被験者を用いて、短時間で多数のデータを収集する。
仮想被験者のパラメータとしては、体重、身長、服装、背景画像の朝昼夜、天候等を用いる。これらのパラメータおよびパラメータの組合わせを変えて、仮想被験者のデータを収集する。収集されたデータは、
図1に示す記憶部14に記憶される。
例えば、15万枚程度のデータの蓄積により、十分に三次元データを補完可能な学習が行える。また、例えば、効率的なパラメータの組合わせが行われることにより、さらに精度を向上させることもできる。
【0012】
〔特徴点抽出部12〕
計測装置10の特徴点抽出部12(
図1参照)には、
図4(c)に示すように、エンコーダ30(オートエンコーダ)が設けられている。
まず、
図5を用いてエンコーダ30の構成について説明する。本実施形態のエンコーダ30は、二次元画像から機械学習により取得した学習データを用いて、ニューラルネットワークは、特徴点を抽出する。
【0013】
図5では、各箱の大きさによりデータの大きさを表している。魚眼レンズ3で撮影された二次元画像のデータは、256×256×3(縦×横×RGBチャンネル)に分解されて、エンコーダ30に入力される。
【0014】
エンコーダ30は、次の処理段階に適するように二次元画像のデータを符号化する。エンコーダ30では、撮影された二次元の画像のデータを、
図4(d)のようにヒートマップモジュールを適用して、正規化(標準化または、単純化(もしくは抽象化))および除
外(切り捨て)等の処理を行い、適宜分解する。ここでは、13枚の二次元画像(確率分
布図)に分解されている。
そして、
図4(e)に示すように、最も確率密度が高い部分である顎5、肘6,手7,足8,肩9に対応する部分が二次元画像の集合として特徴点5a~9aとなる(
図2参照)。
【0015】
〔三次元姿勢推定部13〕
次に、
図4(f)に示すように、特徴点5a~9aを含む二次元座標の集合は、一次元のベクターに変換されて三次元姿勢推定部13のデコーダ40に送られる。
本実施形態のデコーダ40は、ニューラルネットワーク(全結合層41)により構成されていて、符号化されている複数枚の二次元データの情報を三次元の画像データとする。
本実施形態のデコーダ40では、予め機械学習により取得した学習データを用いて、三次元の姿勢の推定を行う。
【0016】
すなわち、
図6に示すように、デコーダ40は、一次元ベクター化された2次元の座標の集合の数値を全結合層41(ここでは、BodyPoseNet:以下、BPNとも記す。)に入力し、3次元座標の集合を一次元のベクターで出力する。これにより、各関節の二次元位置関係を元に関節の3次元座標が推定される。
このように、本実施形態の三次元姿勢推定部は、分解された13枚の二次元画像からデコーダ40を用いて、
図4(g)に示すような被験者Pの三次元の姿勢を表す姿勢データP1を生成する。
【0017】
すなわち、広角カメラ1(
図4(a)参照)で撮影された二次元画像(
図4(b)参照
)は、予め蓄積された学習データを用いる三次元姿勢推定部により、被験者Pの三次元の姿勢を表す三次元画像となる(
図4(g)参照)。
このため、被験者Pは、全身スーツや各種センサ類の装脱着が不要となる。このため、装脱着に伴う負荷が低減する。また、撮影領域が限定されることなく、例えば屋外等でも被験者の動きを捉えることができる動作計測装置が提供される。
【0018】
〔特徴点の抽出〕
次に、特徴点抽出について詳述する。
特徴点抽出部12のエンコーダ30は、撮影された二次元の魚眼画像を
図4(d)のようにヒートマップモジュールに従った複数の二次元画像に分解する。
そして、
図4(e)に示すように、顎5、肘6,手7,足8,肩9に対応する部分を対応する特徴点5a~9aとして抽出して、二次元画像に付与する(
図2参照)。この際、学習データが予め与えられているため、特徴点5a~9aの位置精度を向上させることができる。
なお、学習データを用いず、予め与えられる拘束条件、例えば、人体の骨格と同じ組合せの拘束条件を用いてもよい。
【0019】
本実施形態の特徴点抽出部12では、まず、二次元画像の周縁の上部で山型を示す「顎」を抽出して、特徴点5aを付与する。
特徴点5aは、確率ベースで導き出される。例えば、「顎」の両側に「肘と手」がある、左,右各「手」の下には、左,右の「足」がそれぞれある等の制約条件が存在する被験者の身体では、上側の頂部に位置する部分が「顎」である確率が最も高いと判断する。
次に、制約条件を踏まえると、「顎」の両側に存在する部分が「肘と手」である確率が最も高いと判断する。
次に、「肘」から上腕の上部には、「肩」が存在する確率が最も高いと判断する。
【0020】
また、「顎」の反対側で、かつ、「手」よりも下方には、「足」が存在する確率が最も高いため、上記判断に基づく確率ベースで繰返されて、顎5、肘6,手7,足8,肩9の各関節等に対応するそれぞれの特徴点5a~9aが付与される。
【0021】
しかしながら、例えば、被験者Pの腕の前,後への振り方によっては、腕が後方に振られた場合に、周縁画像から外れて写らない場合がある。
このように、実際には、広角カメラ1で捉えた二次元の画像に写っていなくても、本実施形態の特徴点抽出部12では、ディープラーニング(機械学習)を用いて腕があるかのように補完することができる。
【0022】
すなわち、まず、二次元の画像から特徴点を確率ベースで抽出する。この際、一気に一枚の画像から全ての特徴点を抽出することなく、顔に相当する部分は、どの辺りかを確率的に求める。
例えば、顎5である確率が一番高そうな場所を推測する(
図2参照)。このとき、従来の画像処理のように、色やコントラストや角度によって顎5の位置を推測するだけでなく、ディープラーニングの結果、得られた学習データを用いる。これにより、学習された複数のデータから導出される顎5の位置が推測されるため、単純な画像処理に比べて位置を特定する精度が良好である。
【0023】
そして、次に、顎5の左,右両側に肩9,9があると推測する。
一般に二次元データから三次元を導くことはできない。特に、
図2に示すような顎5、肘6,手7,足8,肩9が独立して周縁に写っている魚眼レンズによる画像からは、各部分が関節で連結されていることを前提として認識する従来のプログラムでは、直接、三次元データを得ることは困難である。
本実施形態では、二次元データから学習により蓄積されたデータ、ヒートマップモジュールの確率を用いることにより、二次元データから三次元データを推測することが可能となる。
【0024】
魚眼レンズの画像では、例えば時々腕の肘6の部分が身体の背面側に移動して見えなくなることがある。
この場合でも、学習を重ねることにより、連続した動きや全部の特徴点の情報から、肘6は、身体の背面側に移動していると推測し、または、特徴点が失われている場合には、他の全部の特徴点からあるはずの特徴点を推測し、三次元データを補完して作成することができる。
また、過去の画像データに基づいて学習することにより、三次元データに復元できる精度を向上させることができる。
【0025】
〔三次元姿勢の推定〕
このようにして求められた特徴点は、
図1に示す記憶部14に記憶される。
図6に示すように、三次元姿勢推定部13は、三次元の姿勢の推定を行う。三次元の姿勢の推定は、
図4(f)に示すデコーダ40のニューラルネットワーク(全結合層41)により、予め機械学習により取得した学習データを複数用いた確率によって推論される。
この際、本実施形態の動作計測装置では、三次元姿勢推定部13は、特徴点間を結んでデータ内骨格を形成することができる。例えば、予めデータ内骨格を形成するための物理的拘束条件となる骨格データを記憶部14に記憶させておいてもよい。しかしながら、本実施形態の三次元姿勢推定部13は、特徴点間を結んでデータ内骨格を形成することができるため、このような事前のデータを与える必要がない。
【0026】
また、サンプルの学習とともに骨格となる各特徴点5a~9aの学習データを収集すれば、三次元姿勢推定部13で骨格を形成するために必要とされる学習データを効率的に収集できる。
このように、各特徴点5a~9a間を人体の骨格と同じ組合せで結ぶことにより、
図4(g)に示す三次元姿勢を表現した骨格部分の姿勢データP1が形成される。
【0027】
〔動作計測装置による処理〕
図7は、本実施形態の計測装置10の処理を示すフローチャートである。
計測装置10による処理がスタートすると、ステップS11では、広角カメラ1から送られてくる画像データを計測装置10が取得する。撮影ステップでは、被験者Pの身体に広角カメラ1を装着することにより、手7や足8等の身体の少なくとも一部を周縁画像として撮影する。
【0028】
この段階で、予め複数の学習データを機械学習する際、被験者Pの情報またはデータで構成された仮想被験者を用いて機械学習を行う学習ステップを行っていることがさらに好ましい。これによりさらに、被験者Pによる動作計測の開始を早めることができる。
【0029】
ステップS12は、取得した画像データの特徴点5a~9aを抽出する特徴点抽出ステップである。
特徴点抽出ステップ(ステップS12)では、学習ステップで学習された学習データを用いて、二次元の画像から特徴点5a~9aを抽出する。
このため、さらに、特徴点5a~9aの位置精度を向上させることができる。
【0030】
そして、ステップS13は、
図2に示す特徴点5a~9aが付与された二次元画像から、三次元姿勢を推定する姿勢推定ステップである。姿勢推定ステップでは、特徴点5a~9aから被験者Pの三次元の姿勢データP1が推定される。
また、姿勢推定ステップでは、学習ステップで学習された学習データを用いて、被験者Pの三次元の姿勢を推定することが好ましい。
【0031】
このようにして得られた三次元の姿勢データP1は、記憶部14に蓄積されて、次の別の被験者のデータとして使用することができる。
また、姿勢データP1は、従来のモーションキャプチャ手法と同様に、スポーツ、学術研究やアニメーション作成等、様々な用途に用いることができる。
特に、本実施形態の動作計測装置では、広角カメラ1を被験者Pの胸元に装着して、計測できるので、被験者Pの動作を妨げる可能性が低い。このため、被験者Pは、自在に行動して所望のデータを取得するのに用いて好適である。
【0032】
上述してきたように、本実施形態の動作計測装置では、被験者Pの身体に装着された広角カメラ1によって顎5、肘6,手7,足8,肩9等を周縁の画像として撮影する。これにより、被験者Pの姿勢を容易に計測して、三次元の姿勢を推定できる。
また、被験者Pは、従来の全身スーツ等の装脱着と比較して、容易に広角カメラ1を装着ベルト4で装着(
図1参照)でき、被験者Pは、装脱着の負荷が低減する。さらに、従来の全身スーツと比較して安価に構成できる。
そして、屋外等、動ける範囲が限定されることなく、被験者Pの動きを捉えることができる、といった実用上有益な作用効果を発揮する。
【0033】
また、広角カメラ1から得られる円形の画像のうち、被験者Pの顎5、肘6,手7,足8,肩9が写された周縁の画像は、魚眼レンズ3の特性により、歪み量が大きく、形が判別しにくいほど変形している。このため、慣れていない人間だけでなく、オペレータのように熟練している者であっても、周縁の歪んだ画像は、条件により大きく形が変わるため、どこが特徴点であるか判別しにくい。
本実施形態の特徴点抽出部12では、特徴点抽出ステップ(ステップS12)にて、学習ステップで学習された学習データを用いて、二次元の画像から特徴点5a~9aを抽出する。
【0034】
この際、学習データを用いたディープラーニングでは、人の形状がない画像から、この辺りが被験者Pの各顎5、肘6,手7,足8,肩9であると容易に判断することができる。このため、抽出の精度を熟練したオペレータと同等もしくはそれ以上に向上させることができる。
従って、従来のようにコントラストや角度によって顎5等の位置を推測する他の画像処理手法と比べて、本実施形態1の計測装置10の精度を良好なものとすることができる。
【0035】
また、機械学習で蓄積された学習データに基づいて、三次元姿勢推定部13のニューロンネットワークが三次元の姿勢データP1を生成する。このため、様々な用途に用いることができる三次元の姿勢データP1が得られる。
このように、本実施形態1の計測装置10は、装脱着が煩雑な従来の全身スーツおよび各種センサ類が不要となり、屋外等、撮影領域が増大する。しかも、計測されたデータは、学習データとして追加することも可能である。このため、さらに計測の精度を向上させることができる。
【実施形態2】
【0036】
図8および
図9は、実施形態2の動作計測装置100を示すものである。実施形態2の説明において前記実施形態1と同一の要素には同一の番号を付し、重複する説明は省略する。
図9に示す実施形態2の動作計測装置100では、実施形態1のBPN(
図8参照)に加えて、さらに、装置本体111に、頭部抽出部102、カメラ姿勢推定部103、三次元
姿勢推定部13および記憶部14を備えている。
カメラ姿勢推定部103は、
図8に示す全結合層からなるCameraPoseNet(CPNともいう)を有している。ここでは、CPNに学習させるため、予め人工的に作成された学習用人工データが多数、用意されている。
学習用人工データは、被験者の情報またはデータで構成された仮想被験者を用いて年齢、性別、身体的特徴、服装等の異なるVR空間上の人物により作成されている。これにより、実際の人物のデータを被験者として学習させるよりも、大量に異なるデータを学習させることができ、効率的である。
CPNは、学習された複数の学習用人工画像データに基づいて広角カメラ1の上下,左右方向の姿勢を推定する。なお、姿勢の推定は、予め広角カメラで捉えられる複数の学習用人工画像データで学習し、この学習に基づいて、行われる。
そして、カメラ姿勢推定部103によって推定された広角カメラ1の姿勢に基づいて、三次元姿勢推定部13は、被験者Pの三次元の姿勢データP1,P2(
図8参照)を補正する。
【0037】
次に、本実施形態2の動作計測装置100の動作について説明する。動作計測装置100は、広角カメラ1の画像から上下,左右方向の広角カメラ1の姿勢を推定するステップと、推定された広角カメラ1の姿勢を用いて補正して被験者Pの姿勢を推定するステップとを有する。
【0038】
このように構成された実施形態2の動作計測装置100は、
図8に示すように、カメラ姿勢推定部103によるカメラ1の姿勢の推定を用いて、例えば被験者Pが着座している
姿勢P1であるか、あるいは立位で前屈している姿勢P2であるかが推定されて、実際の姿勢となるように補正される(
図8の符号A参照)。
図8に示す一例では、着座している姿勢の被験者Pの胸の前側に広角カメラ1が装着されている。カメラ姿勢推定部103のCPNは、カメラ1の姿勢が前方でかつ、水平方向
を向いていると推定する。そして、三次元姿勢推定部13は、カメラ1の姿勢を加えて、
実施形態1と同様に被験者Pが着座している姿勢P1となるように補正する。
このように推定された広角カメラ1の姿勢を用いて被験者Pの姿勢を補正することにより、被験者Pは、立位で前屈の姿勢P2ではなく、着座している姿勢P1であることが分る。つまり、カメラ姿勢推定部103のCPNを用いて、姿勢が紛らわしい場合も正確に被験者Pの姿勢を推定することができる。
【実施形態3】
【0039】
図10~
図14は、実施形態3の動作計測装置200に係るものである。実施形態3の説明において前記実施形態1,2と同一の要素には同一の番号を付し、重複する説明は省略する。
従来、人間の視線計測は、(1)ディスプレイに固定されたカメラを用いる手法、または、(2)被験者Pが視線計測用カメラを搭載したメガネを着用する手法等が知られている。
【0040】
このような手法では、固定されたカメラを用いる場合には被験者Pの行動に制約が生じたり、あるいは被験者Pの眼球に近い位置に視線計測用カメラを設けなければならず、改良の余地があった。
これに対して、実施形態3の動作計測装置200は、一台の広角カメラ1を被験者Pの胸部の前に装着する(
図8左上参照)。広角カメラ1は、魚眼あるいは超広角(望ましくは約280度)のレンズを搭載している。広角カメラ1は、被験者Pの少なくとも頭部のうち顎5もしくは顔や頭の下部等、および周辺環境を撮影することが出来るものを用いるのが好ましい。
【0041】
図10に示す実施形態3の動作計測装置200は、頭部抽出部102と、頭部姿勢推定部23と、視線映像生成部24と、記憶部14とを備える。
頭部抽出部102は、被験者の頭部H(
図8中B参照)の位置および姿勢の抽出を顎5の画像を用いて行う。
頭部姿勢推定部23は、全結合層からなるHeadPoseNet(HPNともいう:
図8参照)を有している。HPNは、学習された複数の学習用人工画像データに基づいて被験者Pの頭部Hの姿勢を推定する。
そして、頭部姿勢推定部23によって推定された頭部Hの姿勢に基づいて、視線画像生成部24は、被験者Pの視線の先に見えている風景を平面的な画像として生成する。
被験者Pの頭部の三次元姿勢の推定を行なう。頭部姿勢推定部23は、広角カメラ1で捉えた画像から頭部抽出部102で抽出された頭部Hを用いて頭部Hの姿勢を推定する。頭部姿勢推定部23による頭部Hの姿勢の推定は、実施形態1の三次元姿勢推定部13が被験者Pの姿勢を推定する場合と同様に行われる。
【0042】
動作計測装置200の視線画像生成部24は、下記のように機能する。
図13に示すように、広角カメラ1が捉えている画像B1と、実際の視線の先の画像H1とは主に高さ方向位置が異なる。このため、視線画像生成部24は、
図14に示すように、広角カメラ1が捉えた画像を、実際の視線の先の画像H1と一致するように画像B2を生成する。
この際、視線画像生成部24は、頭部姿勢推定部23によって推定された頭部Hのうち、主に顎5の姿勢から被験者Pの視線方向を推定する。そして、視線画像生成部24は、広角カメラ1で捉えた画像から視線方向の画像B2を生成する。
【0043】
実施形態3の動作計測装置200は、実施形態1のデコーダ40と同様に、頭部姿勢推定部23にHPN(HeadPoseNet)からなる深層学習器を有している。そして、予め機械学習により取得した訓練学習データを用いて、被験者Pの頭部Hの姿勢の推定が行なわれる。深層学習器によるディープラーニングでは、訓練学習の画像データを増大させることにより、さらに、被験者Pの視線の方向の精度を向上させることができる。
【0044】
すなわち、実施形態3の動作計測装置200では、実施形態1のBPNに加えて、さらに、
図10に示すように装置本体211に、頭部抽出部102、頭部姿勢推定部(HPN:
図8中B参照)23、視線画像生成部24および記憶部14を備えている。
実施形態3の頭部姿勢推定部23は、全結合層からなるHeadPoseNet(HPNともいう:
図8参照)を有している。HPNは、学習された複数の学習用人工画像データに基づいて被験者Pの頭部Hの姿勢を推定する。そして、頭部姿勢推定部23によって推定された頭部Hの姿勢に基づいて、視線画像生成部24は、被験者Pの視線の先に見えている風景を平面的な画像として生成する。
【0045】
次に、本実施形態3の動作計測装置200の作用効果について説明する。
このように構成された実施形態2の動作計測装置200は、被験者Pの頭部Hの姿勢を推定する頭部姿勢推定ステップと、推定された頭部Hの姿勢から被験者Pの視線方向を推定する視線方向推定ステップと、広角カメラ1で捉えた画像から視線方向の画像を生成する視線画像生成ステップと、を備える。
このため、動作計測装置200は、実施形態1の動作計測装置の作用効果に加えてさらに、魚眼あるいは超広角(望ましくは約280度)のレンズによって撮像された広角画像から、被験者Pの視線の先に存在する画像を平面的に拡大表示することができる。
【0046】
したがって、一台の広角カメラ1を使用するだけで、被験者Pの視線を追跡できる動作計測装置200が得られて、製造コストを低下させることができる。
また、実施形態1と同様に、装着ベルト4を用いて容易に広角カメラ1を被験者Pの胸
部の前側に装着することができる。このため、従来のように被験者Pの行動に制約が生じることがなく、安全に頭部姿勢の推定および視線推定が可能となる。
【0047】
すなわち、
図11(a)に示すように、広角カメラ1が魚眼画像を捉えると、画像の周縁の一部に被験者Pの頭部の一部である顎5が映り込む。動作計測装置200の装置本体11に設けられた頭部抽出部102(
図10参照)は、
図11(b)に示すように顎5の部分を画像データとして切り出す。
図11(c)では、切り出された画像データから、
図8に示すHPNは、学習された複数の学習用人工画像データに基づいて被験者Pの頭部Hの姿勢を推定する。
【0048】
この方法で推定された視線を、実際に頭部に設けられたカメラで得られる視線と比較すると、実施形態で読み込ませた学習用人工画像データでは、ヨー軸で4.4度、ロール方向で4.5度、ピッチ軸で3.3度、平均で4.1度の誤差であった。ここでは、学習用データとして約680,000枚の人工画像データを用いた。これに対して、実画像データでは、ヨー軸で16.9度、ロール方向で11.3度、ピッチ軸で11.3度、平均で13.2度の誤差であった。
実画像データは、HPNに読み込ませる訓練データセットの数を増大させると、さらに精度を向上させることができる。たとえば、約16,000枚の実画像データを用いる。
【0049】
視線画像生成部24は、魚眼画像から視線の延長線上にあると推定される矩形部分を切り出す。そして、視線画像生成部24は、切り出された部分的な魚眼画像を平面的な長方形(例えば16:4、または4:3)に変換して二次元の視線画像として生成する。
図12(a)中矢印に示すように頭部が正面を向いている場合、(b)に示すように被験者Pの前方方向を中心とする二次元の視線画像が得られる。
また、
図12中(c)中矢印に示すように頭部が斜め左を向いている場合、被験者Pの身体が前方を向いていても、(d)に示すように視線の先の斜め左方向を中心とする二次元の視線画像が得られる。
【0050】
図12中(b)(d)に示すように、視線画像は、周縁の歪や湾曲を減少もしくは、なくすことができる。
このため、被験者Pの胸部に容易に装着でき、かつ行動に制約が少ない広角カメラ1で、視線画像を得らえる。したがって、実施形態3の動作計測装置200は、使用利便性が良好である。
【0051】
さらに、本実施形態3では、
図13に示すように、広角カメラ1が捉えている画像B1と、実際の視線の先の画像H1との高さ方向位置が異なる場合であっても、
図14に示すように、画像H1と同じ高さの画像B2を得られて、視線の先の画像とすることができる。したがって、さらに、視線で捉えられる画像の精度を向上させることができる。
【0052】
以上、本実施形態1~3に係る動作計測装置および計測プログラムについて詳述してき
たが、本発明はこれらの実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更可能であることは言うまでもない。
【0053】
例えば、広角カメラ1が装着される場所は、運動を行う際のヘルメットやマスク等の防具、頭頂部、側頭部等、少なくとも身体の一部を撮影できる部分に配置されていれば、どの部分でもよい。
また、身体に装着されたマウントから延設される取付アーム等を用いることにより、身体から一定の間隔を開けて配置されていてもよい。そして、胸の前のみに限らず、身体の前,後または左,右に一対設ける構成であってもよく、広角カメラ1の台数は、複数であってもよく、一台に限定されるものではない。
【0054】
また、本実施形態では、学習データを用いたディープラーニングにより、特徴点抽出部12は、この辺りが被験者Pの各顎5、肘6,手7,足8,肩9であると個別に判断している。しかしながら、特にこれに限らず、特徴点を抽出できるものであれば、物理的拘束条件によって抽出するようにしてもよく、物理的拘束条件とディープラーニングとを併用してもよい。
【0055】
さらに、特徴点抽出部12で行われる特徴点抽出のみを、被験者Pの身体に複数のマーカーを装着して撮影した画像を用いてもよい。この場合、ディープラーニングによる特徴点の抽出を省略することができる。なお、特徴点5a~9aの数量も、本実施形態に限らず、例えば12箇所~24箇所等、いくつであってもよい。
【0056】
そして、本実施形態の三次元姿勢推定部13では、予め機械学習により取得した学習データを用いて、前記三次元の姿勢の推定を行う際、特徴点間を結んでデータ内骨格を形成している。
しかしながら、特にこれに限らず、例えば、人体の骨格と同じ組合せの拘束条件のみによってデータ内骨格を形成するようにしてもよく、この方法と特徴点間を結んでデータ内骨格を形成するものとを併用してもよい。
また、推定されたデータをそのまま使う代わりに、人体の運動モデルと逆運動学(INVERSE KINEMATICS)を用いて、人間が動作可能な姿勢に限って推定できるようにすることができる。
【符号の説明】
【0057】
1 広角カメラ
2 カメラ本体
3 魚眼レンズ
4 装着ベルト
5a~9a 特徴点
10 計測装置
12 特徴点抽出部
13 三次元姿勢推定部
14 記憶部
30 三次元座標推定部