(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-19
(45)【発行日】2022-12-27
(54)【発明の名称】姿勢推定装置、行動推定装置、姿勢推定プログラム、および姿勢推定方法
(51)【国際特許分類】
G06T 7/73 20170101AFI20221220BHJP
G06T 7/00 20170101ALI20221220BHJP
【FI】
G06T7/73
G06T7/00 350B
G06T7/00 660B
(21)【出願番号】P 2019015905
(22)【出願日】2019-01-31
【審査請求日】2021-06-28
(73)【特許権者】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】110000671
【氏名又は名称】八田国際特許業務法人
(72)【発明者】
【氏名】池田 直樹
【審査官】新井 則和
(56)【参考文献】
【文献】国際公開第2016/143641(WO,A1)
【文献】特開2012-113369(JP,A)
【文献】特表2006-527443(JP,A)
【文献】特表2013-514585(JP,A)
【文献】青木 茂樹 外4名,人物の位置・姿勢に注目した行動パターンの学習・認識と非日常状態検出への応用,電子情報通信学会論文誌 D-II Vol, J87-D-II No. 5,電子情報通信学会,2004年05月01日
【文献】Artur Wilkowski,A HMM-Based System for Real-Time Gesture Recognition in Movie Sequences,2008 Conference on Human System Interactions,IEEE,2008年05月25日,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5457585
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
(57)【特許請求の範囲】
【請求項1】
対象を俯瞰する位置から撮影部により撮影された画像に基づいて検出された前記対象の特徴を示す所定の検出情報を取得する取得部と、
前記取得部により取得された前記検出情報に基づいて、所定の特徴量を算出する特徴量算出部と、
前記特徴
量算出部により算出された、時系列の前記特徴量から、機械学習により、前記対象の姿勢を推定するためのモデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える切替部と、
前記切替部による切り替え後の前記モデルパラメーターを用いて前記対象の姿勢を推定する姿勢推定部と、
を有する姿勢推定装置。
【請求項2】
前記姿勢推定部は、隠れマルコフモデルにより前記対象の姿勢を推定し、
前記切替部は、前記隠れマルコフモデルの、出力確率を算出する前記モデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える、請求項1に記載の姿勢推定装置。
【請求項3】
前記幾何関係は、前記撮影部に対する前記対象の位置、向き、および姿勢の少なくともいずれかであり、
前記撮影部と前記対象との前記幾何関係に対応する指標を算出する指標算出部をさらに有し、
前記切替部は、前記指標算出部により算出された前記指標に基づいて前記対象の姿勢を推定するための前記モデルパラメーターを切り替える、請求項1または2に記載の姿勢推定装置。
【請求項4】
前記検出情報は、前記画像から検出された人矩形、頭部矩形、および関節点の少なくともいずれかである、請求項1~3のいずれか一項に記載の姿勢推定装置。
【請求項5】
請求項1~4のいずれか一項に記載の姿勢推定装置と、
前記姿勢推定部により推定された前記対象の姿勢に基づいて前記対象の行動を推定する行動推定部と、
を有する行動推定装置。
【請求項6】
対象を俯瞰する位置から撮影部により撮影された画像に基づいて検出された前記対象の特徴を示す所定の検出情報を取得する手順(a)と、
前記手順(a)において取得された前記検出情報に基づいて、所定の特徴量を算出する手順(b)と、
前記手順(b)において算出された、時系列の前記特徴量から、機械学習により、前記対象の姿勢を推定するためのモデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える手順(c)と、
前記手順(c)における切り替え後の前記モデルパラメーターを用いて前記対象の姿勢を推定する手順(d)と、
を有する処理を、コンピューターに実行させるための姿勢推定プログラム。
【請求項7】
前記手順(d)は、隠れマルコフモデルにより前記対象の姿勢を推定し、
前記手順(c)は、前記隠れマルコフモデルの、出力確率を算出する前記モデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える、請求項6に記載の姿勢推定プログラム。
【請求項8】
前記幾何関係は、前記撮影部に対する前記対象の位置、向き、および姿勢の少なくともいずれかであり、
前記処理は、前記撮影部と前記対象との前記幾何関係に対応する指標を算出する手順(e)をさらに有し、
手順(c)は、前記手順(e)において算出された前記指標に基づいて前記対象の姿勢を推定するための前記モデルパラメーターを切り替える、請求項6または7に記載の姿勢推定プログラム。
【請求項9】
前記検出情報は、前記画像から検出された人矩形、頭部矩形、および関節点の少なくともいずれかである、請求項6~8のいずれか一項に記載の姿勢推定プログラム。
【請求項10】
対象を俯瞰する位置から撮影部により撮影された画像に基づいて検出された前記対象の特徴を示す所定の検出情報を取得する段階(a)と、
前記段階(a)において取得された前記検出情報に基づいて、所定の特徴量を算出する段階(b)と、
前記段階(b)において算出された、時系列の前記特徴量から、機械学習により、前記対象の姿勢を推定するためのモデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える段階(c)と、
前記段階(c)における切り替え後の前記モデルパラメーターを用いて前記対象の姿勢を推定する段階(d)と、
を有する姿勢推定方法。
【請求項11】
前記段階(d)は、隠れマルコフモデルにより前記対象の姿勢を推定し、
前記段階(c)は、前記隠れマルコフモデルの、出力確率を算出する前記モデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える、請求項10に記載の姿勢推定方法。
【請求項12】
前記幾何関係は、前記撮影部に対する前記対象の位置、向き、および姿勢の少なくともいずれかであり、
前記撮影部と前記対象との前記幾何関係に対応する指標を算出する段階(e)をさらに有し、
段階(c)は、前記段階(e)において算出された前記指標に基づいて前記対象の姿勢を推定するための前記モデルパラメーターを切り替える、請求項10または11に記載の姿勢推定方法。
【請求項13】
前記検出情報は、前記画像から検出された人矩形、頭部矩形、および関節点の少なくともいずれかである、請求項10~12のいずれか一項に記載の姿勢推定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、姿勢推定装置、行動推定装置、姿勢推定プログラム、および姿勢推定方法に関する。
【背景技術】
【0002】
我が国は、戦後の高度経済成長に伴う生活水準の向上、衛生環境の改善、および医療水準の向上等により、長寿命化が顕著となっている。このため、出生率の低下と相まって、高齢化率が高い高齢化社会になっている。このような高齢化社会では、病気、怪我、および加齢などにより、介護等の対応を必要とする要介護者等の増加が想定される。
【0003】
要介護者等は、病院や老人福祉施設などの施設において、歩行中に転倒したり、ベッドから転落して怪我をするおそれがある。そのため、要介護者等がこのような状態になったときに介護士や看護師等のスタッフがすぐに駆けつけられるようにするために、要介護者等の居室の天井等に備えられたカメラによる撮影画像から要介護者等の姿勢や行動を検出するための技術の開発が進められている。
【0004】
このような技術に関連し、撮影画像から対象の動作等を判定する技術として下記特許文献に開示されたものがある。すなわち、撮像装置から出力された画像の複数のフレームから当該画像に映っている状況を、当該画像に対する認識処理により認識することで、所定のイベントを検出する。そして、当該複数のフレームから所定のイベントに関連する種別のオブジェクトを検出し、オブジェクトの検出位置に基づいてオブジェクト同士が現実空間中で接触しているか否かを判断する。これにより、映像中で起こったイベントを詳細に解釈できる。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、対象を俯瞰する位置から撮影された撮影画像は、撮影画像を撮影したカメラの特性等により、カメラと対象との位置関係等によって、撮影画像から取得できる情報が変化する。これにより、撮影画像から認識される対象の姿勢の精度が低下し得る。上記先行技術は、このような問題に対応できない。
【0007】
本発明は、上述の問題を解決するためになされたものである。すなわち、対象を俯瞰する位置から撮影された撮影画像に基づく、対象の姿勢の検出精度を向上できる姿勢推定装置、行動推定装置、姿勢推定プログラム、および姿勢推定方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の上記課題は、以下の手段によって解決される。
【0009】
(1)対象を俯瞰する位置から撮影部により撮影された画像に基づいて検出された前記対象の特徴を示す所定の検出情報を取得する取得部と、前記取得部により取得された前記検出情報に基づいて、所定の特徴量を算出する特徴量算出部と、前記特徴量算出部により算出された、時系列の前記特徴量から、機械学習により、前記対象の姿勢を推定するためのモデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える切替部と、前記切替部による切り替え後の前記モデルパラメーターを用いて前記対象の姿勢を推定する姿勢推定部と、を有する姿勢推定装置。
【0010】
(2)前記姿勢推定部は、隠れマルコフモデルにより前記対象の姿勢を推定し、前記切替部は、前記隠れマルコフモデルの、出力確率を算出する前記モデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える、上記(1)に記載の姿勢推定装置。
【0011】
(3)前記幾何関係は、前記撮影部に対する前記対象の位置、向き、および姿勢の少なくともいずれかであり、前記撮影部と前記対象との前記幾何関係に対応する指標を算出する指標算出部をさらに有し、前記切替部は、前記指標算出部により算出された前記指標に基づいて前記対象の姿勢を推定するための前記モデルパラメーターを切り替える、上記(1)または(2)に記載の姿勢推定装置。
【0012】
(4)前記検出情報は、前記画像から検出された人矩形、頭部矩形、および関節点の少なくともいずれかである、上記(1)~(3)のいずれかに記載の姿勢推定装置。
【0013】
(5)上記(1)~(4)のいずれかに記載の姿勢推定装置と、前記姿勢推定部により推定された前記対象の姿勢に基づいて前記対象の行動を推定する行動推定部と、を有する行動推定装置。
【0014】
(6)対象を俯瞰する位置から撮影部により撮影された画像に基づいて検出された前記対象の特徴を示す所定の検出情報を取得する手順(a)と、前記手順(a)において取得された前記検出情報に基づいて、所定の特徴量を算出する手順(b)と、前記手順(b)において算出された、時系列の前記特徴量から、機械学習により、前記対象の姿勢を推定するためのモデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える手順(c)と、前記手順(c)における切り替え後の前記モデルパラメーターを用いて前記対象の姿勢を推定する手順(d)と、を有する処理を、コンピューターに実行させるための姿勢推定プログラム。
【0015】
(7)前記手順(d)は、隠れマルコフモデルにより前記対象の姿勢を推定し、前記手順(c)は、前記隠れマルコフモデルの、出力確率を算出する前記モデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える、上記(6)に記載の姿勢推定プログラム。
【0016】
(8)前記幾何関係は、前記撮影部に対する前記対象の位置、向き、および姿勢の少なくともいずれかであり、前記処理は、前記撮影部と前記対象との前記幾何関係に対応する指標を算出する手順(e)をさらに有し、手順(c)は、前記手順(e)において算出された前記指標に基づいて前記対象の姿勢を推定するための前記モデルパラメーターを切り替える、上記(6)または(7)に記載の姿勢推定プログラム。
【0017】
(9)前記検出情報は、前記画像から検出された人矩形、頭部矩形、および関節点の少なくともいずれかである、上記(6)~(8)のいずれかに記載の姿勢推定プログラム。
【0018】
(10)対象を俯瞰する位置から撮影部により撮影された画像に基づいて検出された前記対象の特徴を示す所定の検出情報を取得する段階(a)と、前記段階(a)において取得された前記検出情報に基づいて、所定の特徴量を算出する段階(b)と、前記段階(b)において算出された、時系列の前記特徴量から、機械学習により、前記対象の姿勢を推定するためのモデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える段階(c)と、前記段階(c)における切り替え後の前記モデルパラメーターを用いて前記対象の姿勢を推定する段階(d)と、を有する姿勢推定方法。
【0019】
(11)前記段階(d)は、隠れマルコフモデルにより前記対象の姿勢を推定し、前記段階(c)は、前記隠れマルコフモデルの、出力確率を算出する前記モデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える、上記(10)に記載の姿勢推定方法。
【0020】
(12)前記幾何関係は、前記撮影部に対する前記対象の位置、向き、および姿勢の少なくともいずれかであり、前記撮影部と前記対象との前記幾何関係に対応する指標を算出する段階(e)をさらに有し、段階(c)は、前記段階(e)において算出された前記指標に基づいて前記対象の姿勢を推定するための前記モデルパラメーターを切り替える、上記(10)または(11)に記載の姿勢推定方法。
【0021】
(13)前記検出情報は、前記画像から検出された人矩形、頭部矩形、および関節点の少なくともいずれかである、上記(10)~(12)のいずれかに記載の姿勢推定方法。
【発明の効果】
【0022】
対象を俯瞰する位置から撮影部により撮影された撮影画像から検出された、対象の特徴を示す所定の検出情報から対象の特徴量を算出する。そして、時系列の特徴量から、機械学習により、対象の姿勢を推定するためのモデルパラメーターを、撮影部と対象との幾何関係に基づいて切り替える。これにより、対象を俯瞰する位置から撮影された撮影画像に基づく、対象の姿勢等の検出精度を向上できる。
【図面の簡単な説明】
【0023】
【
図1】姿勢推定システムの概略構成を示す図である。
【
図2】検出部のハードウェア構成を示すブロック図である。
【
図3】カメラと対象者との位置関係を示す説明図である。
【
図5】カメラに対する対象者の向きおよび姿勢により対象者の映り方が変化することを示すための説明図である。
【
図6】機械学習による姿勢推定のための学習時の制御部の機能を示す機能ブロック図である。
【
図8】人矩形、頭部矩形、および関節点を示す模式図である。
【
図10】隠れマルコフモデルを用いた、距離区分ごとの学習について説明するための説明図である。
【
図11】特徴量である、上半身と下半身の重心距離の、対象者までの距離に対する分布を示すグラフである。
【
図12】機械学習による姿勢の推定時の制御部の機能を示す機能ブロック図である。
【
図13】検出部の動作を示すフローチャートである。
【発明を実施するための形態】
【0024】
以下、図面を参照して、本発明の実施形態に係る姿勢推定装置、行動推定装置、姿勢推定プログラム、および姿勢推定方法について説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
【0025】
図1は、姿勢推定システム10の概略構成を示す図である。
【0026】
姿勢推定システム10は、検出部100、通信ネットワーク200、および携帯端末300を含む。検出部100は姿勢推定装置および行動推定装置を構成し、通信ネットワーク200によりアクセスポイント210を介して携帯端末300と相互に通信可能に接続される。検出部100は、1つの一体化された装置でも、分離配置される複数の装置でもあり得る。なお、通信ネットワーク200を介して検出部100および携帯端末300と相互に通信可能なサーバー(図示せず)を設け、検出部100の機能の一部を当該サーバーが実施するようにしてもよい。
【0027】
検出部100は、対象者500(対象)の居室の天井等に配設される。対象者500は、例えば、スタッフ等により介護または看護を必要とする者である。検出部100は、所定の観察領域を撮影することで、画像(以下、単に「撮影画像505」(
図4等参照)とも称する)を取得し、撮影画像505に含まれる対象者500を人として検出する。検出部100は、撮影画像505上で物体(オブジェクト)が存在する領域を検出し、検出した領域に含まれる物体のカテゴリーを推定することで、対象者500を検出する。物体が存在する領域は、撮影画像505上で物体が含まれる候補矩形として検出される。検出された候補矩形のうち、物体のカテゴリーが人であると推定された候補矩形を、人矩形510(
図7参照)として検出することで、対象者500を検出する。検出部100は、人矩形510に基づいて、頭部矩形520(
図8参照)および関節点530(
図8参照)をさらに検出(推定)する。詳細は後述するが、さらに、検出部100は、人矩形510、頭部矩形520、および関節点530に基づいて、対象者500の特徴量を算出する。対象者500の特徴を示し、かつ特徴量の算出の基礎となる、人矩形510、頭部矩形520、および関節点530を、以下では「検出情報」とも称する。検出部100は、時系列の特徴量から、機械学習により、対象者500の姿勢を推定するためのモデルパラメーターを、検出部100(より具体的には、カメラ)と対象者500との幾何関係に基づいて切り替え、切り替え後のモデルパラメーターを用いて対象者500の姿勢を推定する。そして、検出部100は、推定した、姿勢に基づいて、対象者500の行動を推定する。以下、例として、検出部100は、隠れマルコフモデルを用いた機械学習により対象者500の姿勢を推定するものとして説明する。検出部100と対象者500との幾何関係には、カメラに対する対象者500の位置、向き、および姿勢の少なくともいずれかが含まれる。以下、説明を簡単にするために、検出部100と対象者500との幾何関係は、カメラに対する対象者500の位置であるものとして説明する。
【0028】
検出部100は、推定した姿勢および/または行動から、対象者500に関するイベントを検出し得る。イベントとは、対象者500に関する状態や状況の変化であって、例えば、起床、離床、転倒、転落、および微体動異常等のスタッフに発報(報知)を行うべき事象である。検出部100は、イベントを検出した場合は、イベントの内容を通知するイベント通知を携帯端末300へ送信する。
【0029】
携帯端末300は、対象者500に対して介護および看護を含むケアを行うスタッフ等に携帯される。携帯端末300は、検出部100からイベント通知を受信し、イベント通知の内容を表示することで、イベントの発生およびその内容をスタッフ等に報知する。
【0030】
図2は、検出部100のハードウェア構成を示すブロック図である。
図2に示すように、検出部100は、制御部110、通信部120、カメラ130、および体動センサー140を備え、これらはバスによって、相互に接続されている。
【0031】
制御部110は、CPU(Central Processing Unit)、およびRAM(Random Access Memory)、ROM(Read Only Memory)等のメモリにより構成され、プログラムに従って検出部100の各部の制御および演算処理を行う。制御部110の機能の詳細については後述する。
【0032】
通信部120は、通信ネットワーク200を介して、携帯端末300等と通信するためのインターフェース回路(例えばLANカード等)である。
【0033】
カメラ130は、例えば、対象者500の居室の天井、または壁の上部に配置され、所定の観察領域として対象者500の居室のできるだけ広い範囲を、対象者500を俯瞰可能な位置から撮影し、撮影画像505(画像データ)を出力する。撮影画像505には対象者500を含む画像が含まれる。撮影画像505には、静止画および動画が含まれる。カメラ130は、広角カメラであり得る。広角カメラは、比較的広い画角の撮影画像505を撮影できるカメラであり、撮影画像505上の位置に対応して歪みの大きさが変化するカメラである。広角カメラには、例えば、魚眼レンズカメラが含まれる。カメラ130は、比較的広い範囲を撮影範囲とするために、カメラの設置高さ等を調整することで、画角を広くした広域撮影用カメラであってもよい。広域撮影用カメラは、カメラから撮影方向の物体までの距離に対応して、撮影画像505上の物体の大きさと、当該物体の実際の大きさとの比が変化した撮影画像505が撮影されるカメラである。広域撮影用カメラとして、撮影画像505上の位置に対応して歪みの大きさを変化させていない一般的なカメラを利用できる。カメラ130は近赤外線カメラであるが、これに換えて可視光カメラを用いてもよく、これらを併用してもよい。
【0034】
図3は、カメラ130と対象者500との位置関係を示す説明図である。
図4は、撮影画像505を示す説明図である。
図5は、カメラに対する対象者500の向きおよび姿勢により対象者500の映り方が変化することを示すための説明図である。
図4、5においては、広角カメラによる撮影画像505が示されている。以下の説明においては、例として、撮影画像505は広角カメラにより撮影された画像であるものとして説明する。
【0035】
図3において、カメラ130の直下であるAの位置にいる対象者500は、
図4の撮影画像505の位置aおいて撮影されている。Aの位置にいる対象者500は、撮影画像505において、カメラ130に近いため、頭部と肩部が比較的大きく映り、腕や足は肩に隠れる。Bの位置にいる対象者500は、カメラ130から遠いため小さく映るが、全身が映る。
図5のAの例においては、カメラ130に対する対象者500の向きが横向きであるため、床座位の姿勢の対象者500の足が上半身に隠れることなく映る。一方、
図5のBの例においては、カメラ130に対する対象者500の向きが背中向きであるため、床座位の姿勢の対象者500の足が上半身に隠れて大部分が映っていない。このように、カメラ130に対する対象者500の位置、向き、および姿勢により、撮影画像505における対象者500の映り方(見え方)が変化する。
【0036】
図6は、機械学習による姿勢推定のための学習時の制御部110の機能を示す機能ブロック図である。
【0037】
図6に示すように、学習時において、制御部110は、関節点等検出部111、特徴量生成部112、分割判定部113、モデルパラメーター生成部114、およびクラス分類部115として機能する。
【0038】
関節点等検出部111は、撮影画像505から、撮影画像505上で物体(オブジェクト)が存在する領域を候補矩形として検出し、検出した候補矩形に含まれる物体のカテゴリーごとの信頼度スコアを算出する。関節点等検出部111は、人のカテゴリーの信頼度スコアが最も高い候補領域を人矩形510として検出する。
【0039】
関節点等検出部111は、人矩形510から対象者500の頭部を含む領域を頭部矩形520として検出する。
【0040】
関節点等検出部111は、人矩形510から対象者500の関節点530を検出する。
【0041】
関節点等検出部111は、撮影画像505から人矩形510を検出するための辞書(モデルパラメーター)が反映されたニューラルネットワーク(以下、「NN」と称する)により、撮影画像505から人矩形を検出し得る。関節点等検出部111は、人矩形510から頭部矩形520を検出するための辞書が反映されたNNにより、人矩形510から頭部矩形520を検出し得る。関節点等検出部111は、人矩形510から対象者500の関節点530を検出するための辞書が反映されたNNにより、対象者500の関節点530を検出し得る。
【0042】
関節点等検出部111は、人矩形510を、撮影画像505と、当該人矩形510の対向する2つの頂点の座標との組み合わせとして出力し得る。関節点等検出部111は、頭部矩形520を、撮影画像505と、当該頭部矩形520の対向する2つの頂点の座標との組み合わせとして出力し得る。関節点等検出部111は、関節点530を、撮影画像505上のそれぞれの座標として出力し得る。人矩形、頭部矩形520、および関節点530は、撮影画像505のフレームごとに互いに関連付けされている。
【0043】
学習時において検出される関節点530は、ユーザーにより姿勢ラベルが付与されることで、姿勢ラベルと対応付けされる。姿勢ラベルは、関節点530に対応する姿勢の正解である。姿勢ラベルは、例えば、「立位」、「座位」、および「臥位」の姿勢のいずれかを示すラベルである。
【0044】
クラス分類部115は、人矩形に対応付けされた姿勢ラベルを、例えば3つのラベルクラスに分類する。ラベルクラスは、1~3の数値であり、それぞれ、姿勢ラベルの、「立位」、「座位」、および「臥位」に対応する。
【0045】
学習時において検出される関節点530は、それぞれに付与された姿勢ラベルに対応するラベルクラスとともに、学習のための教師データとして用いられる。
【0046】
【0047】
図7においては、撮影画像505から検出された、椅子上で座位の姿勢の対象者500を包含する人矩形510が太線の矩形枠内の領域として示されている。
【0048】
図8は、人矩形510、頭部矩形520、および関節点530を示す模式図である。
【0049】
図8においては、立位の姿勢の対象者500を包含する人矩形510が太線の矩形枠内の領域として示され、頭部矩形520が細線の矩形枠内の領域として示されている。関節点530は、黒色の点として示されている。関節点530のうち、「a」は右肩、「b」は左肩、「c」は右腰、「d」は左腰の関節点530をそれぞれ示している。
【0050】
特徴量生成部112は、人矩形510、頭部矩形520、および関節点530の少なくともいずれかに基づいて対象者500の特徴量を算出する。特徴量には、例えば、上半身と下半身の重心距離等が含まれる。
【0051】
【0052】
分割判定部113は、撮影画像505における人矩形510の位置(例えば、人矩形510の中心の座標)と、撮影画像505の中心との距離を、カメラ130と対象者500との距離(以下、「対象者500までの距離」とも称する)として算出する。また、分割判定部113は、検出部100(より詳細には、カメラ130)と対象者500との幾何関係に対応する指標を算出することで、指標ごとに特徴量を分割(区分)する。当該指標は、例えば、「近距離」、「中距離」、および「遠距離」であり、具体的には、これらに対応する数値(例えば、1~3)であり得る。すなわち、分割判定部113は、当該指標を算出することで、指標ごとに、特徴量を、「近距離」、「中距離」、「遠距離」のいずれかの距離区分(以下、単に「距離区分」とも称する)に分割(区分)する。これに伴い、分割後の特徴量に関連付けられたラベルクラスも、特徴量とともに分割される。
【0053】
検出部100と対象者500との幾何関係を、カメラ130に対する対象者500の向きとする場合は、分割判定部113は、例えば、対象者500が、カメラ130に対して「背中向き」か「正面向き」かを、検出部100と対象者500との幾何関係に対応する指標として算出する。具体的には、当該指標は、カメラ130に対して背中向きか正面向きかに対応する数値(例えば、1、2)であり得る。対象者500が、カメラ130に対して「背中向き」か「正面向き」かは、関節点320のうち、肩の関節点(a、b(
図8参照))と腰の関節点(c、d(
図8参照))との相対的な位置関係から推定し得る。なお、「背中向き」および「正面向き」以外の対象者500の向き(例えば、カメラ130に対して斜めの向き)を指標とする場合は、肩の関節点(a、b)を結ぶ線分の角度をさらに考慮して指標を算出し得る。分割判定部113は、当該指標を算出することで、当該指標ごとに、特徴量を、「背中向き」か、「正面向き」のいずれかの向き区分に分割(区分)する。これに伴い、分割後の特徴量に関連付けられたラベルクラスも特徴量とともに分割される。
【0054】
検出部100と対象者500との幾何関係を対象者500の姿勢とする場合は、分割判定部113は、例えば、対象者500の姿勢が、「立位」、「座位」、および「臥位」のいずれであるかを、検出部100と対象者500との幾何関係に対応する指標として算出する。具体的には、当該指標は、「立位」、「座位」、および「臥位」の姿勢にそれぞれ対応する数値(例えば、1~3)であり得る。当該指標は、人矩形510から姿勢を推定するための、NNを用いた公知の技術により算出(推定)し得る。分割判定部113は、当該指標を算出することで、当該指標ごとに、特徴量を、「立位」、「座位」、および「臥位」のいずれかの姿勢区分に分割(区分)する。これに伴い、分割後の特徴量に関連付けられたラベルクラスも特徴量とともに分割される。
【0055】
【0056】
撮影画像505の中心aは、カメラ130の直下に対応する。
図9の例においては、撮影画像505の中心aを含む近距離の距離区分がAで示す領域に対応する。そして、中距離の距離区分がBで示す領域に、遠距離の距離区分がCで示す領域にそれぞれ対応する。
【0057】
モデルパラメーター生成部114は、分割後の特徴量と、当該特徴量に対応付けされたラベルクラスとを教師データとして、距離区分ごとに学習を行う。モデルパラメーター生成部は、学習により生成された、距離区分ごとのモデルパラメーターπ、A、φを出力する。
【0058】
図10は、隠れマルコフモデルを用いた、距離区分ごとの学習について説明するための説明図である。
【0059】
図10のAは、一般的な隠れマルコフモデルの模式図である。
【0060】
隠れマルコフモデルは、観測変数xiに基づいて、隠れ変数(潜在変数)ziの系列を推定するモデルである。特徴量は観測変数xiに相当し、ラベルクラスは隠れ変数ziに相当する。iは、時系列で撮影された撮影画像のフレームの番号であり、番号が小さいほど過去のフレームであることを示す。
【0061】
隠れマルコフモデルによる観測変数xと隠れ変数zの同時確率分布p(X,Z)は、下記式により与えられる。
【0062】
【0063】
上記式において、p(z1)は初期状態の確率である。p(zi|zi-1)は、時系列で、フレーム(i-1)の隠れ変数zi-1を条件としたときの、フレーム(i)の隠れ変数ziへの遷移確率である。p(xi|zi)は、隠れ変数ziを条件としたときに、観測変数xiとなるエミッション確率である。
【0064】
上記式は、下記式として表現できる。
【0065】
【0066】
上記式において、πZ1(π)は、初期状態を記述するモデルパラメーターである。Aは、隠れ変数の遷移確率を記述するモデルパラメーターである。φは、エミッション確率(出力確率)を記述するモデルパラメーター(以下、「出力確率パラメーター」と称する)である。
【0067】
隠れマルコフモデルを用いた学習は、観測変数xiおよび隠れ変数ziの既知の値を教師データとして学習することで、モデルパラメーターπ、A、φを推定(生成)する。具体的には。上記式で表される観測変数xiおよび隠れ変数ziの同時確率分布において、教師データである、観測変数xiおよび隠れ変数ziの既知の値の組み合わせが生じる確率が最も大きくなるモデルパラメーターπ、A、φを推定する(最尤推定法)。
【0068】
図10のAに示す、一般的な隠れマルコフモデルを用いた推定においては、学習により生成されたモデルパラメーターπ、A、φを用いて、観測変数x
iから隠れ変数z
iが推定される。
【0069】
図10のBは、実施形態における隠れマルコフモデルの模式図である。
【0070】
図10のBに示すように、実施形態においては、距離区分ごとに学習することで、距離区分ごとに出力確率パラメーターφ
A、φ
B、φ
Cを生成する。φ
Aは「近距離」の距離区分の教師データを用いた学習により生成された出力確率パラメーターである。φ
Bは「中距離」の距離区分の教師データを用いた学習により生成された出力確率パラメーターである。φ
Cは「遠距離」の距離区分の教師データを用いた学習により生成された出力確率パラメーターである。学習においては、それぞれ教師データとして、距離区分ごとに分割された分割後の特徴量と、当該特徴量に対応付けされたラベルクラスとが用いられる。
【0071】
実施形態における推定では、距離区分ごとに学習された、学習後のモデルパラメーターπ、A、φ(φについては、距離区分に応じて、φA、φB、φCのいずれか)を用いて、距離区分ごとに、観測変数xiである特徴量から隠れ変数ziであるラベルクラスが推定される。
【0072】
距離区分ごとに異なる出力確率パラメーターφ
A、φ
B、φ
Cで、特徴量からラベルクラスを推定するのは、次の理由による。カメラ130に対する対象者500の位置(すなわち、対象者500までの距離)により、撮影画像505における対象者500の映り方が変化する(
図4、5参照)ため、対象者500までの距離に依存して、特徴量が比較的大きく変化する。このため、対象者500までの距離にかかわらず、同じ出力確率パラメーターφを用いると、姿勢の推定精度が低下する可能性があるからである。なお、モデルパラメーターπ、Aは、撮影画像505における対象者500の映り方(見え方)に依存しないため、距離区分ごとに異なるモデルパラメーターπ、Aを用いる必要はない。
【0073】
図11は、特徴量である、上半身と下半身の重心距離の、対象者500までの距離に対する分布を示すグラフである。比較的濃いグレーの分布は、距離区分が近距離の分布であり、比較的薄いグレーの分布は遠距離の分布であり、これらの中間の濃さのグレーの分布は中距離の分布である。
【0074】
図11の例においては、各距離区分に対応して3つのピークが現れており、距離区分ごとにそれぞれピークを中心とした略正規分布となっている。このように、距離区分ごとに明確に分布が区別されるのは、距離区分の設定が適当になされたためである。
【0075】
距離区分は、カメラ130と対象者500との光学的射影関係により算出した理論値を参考に、実際に分割したデータ(例えば、教師データ)の分布を確認することにより決定し得る。例えば、中距離と遠距離の境界は、撮影画像において立位の姿勢と臥位の姿勢とで体軸の長さが逆転する、撮影画像中心からの距離を理論値とし得る。
【0076】
図12は、機械学習による姿勢の推定時の制御部110の機能を示す機能ブロック図である。
【0077】
図12に示すように、推定時において、制御部110は、関節点等検出部111、特徴量生成部112、分割判定部113、推論部116、および転倒判定部117として機能する。関節点等検出部111は、取得部を構成する。特徴量生成部112は、特徴量算出部を構成する。分割判定部113は切替部および指標算出部を構成する。推論部116は、姿勢推定部を構成する。転倒判定部117は行動推定部を構成する。
【0078】
関節点等検出部111および特徴量生成部112は、推定時においても学習時と同様に機能するため、説明を省略する。
【0079】
分割判定部113は、撮影画像505における人矩形510の位置(例えば、人矩形の中心の座標)と、撮影画像505の中心との距離を、対象者500までの距離として算出する。また、分割判定部113は、検出部100と対象者500との幾何関係に対応する指標を算出することで、指標ごとに特徴量を分割(区分)する。すなわち、分割判定部113は、当該指標を算出することで、指標ごとに、特徴量を、「近距離」、「中距離」、「遠距離」のいずれかの距離区分に分割(区分)する。これに伴い、分割後の特徴量に関連付けられたラベルクラスも、特徴量とともに分割される。
【0080】
分割判定部113は、距離区分ごとのモデルパラメーター((π、A、φA)、(π、A、φB)、(π、A、φC))のうち、分割後の特徴量の距離区分に対応するモデルパラメーターを特定する。
【0081】
推論部116は、分割判定部113により特定された、分割後の特徴量に対応するモデルパラメーターが適用された隠れマルコフモデルにより、分割後の特徴量から、例えば、「立位」、「座位」、および「臥位」の3つのクラスのいずれか(具体的には、3つのクラスに対応する1~3の数値のいずれかの)として姿勢を推定する。
【0082】
転倒判定部117は、推論部116により推定された姿勢に基づいて、対象者500が転倒したかどうかを判定し、判定結果を出力する。転倒判定部117は、例えば、推論部116により、立位の姿勢と、臥位の姿勢とが、時系列で連続するフレームから生成された特徴量からそれぞれ推定された場合、対象者500が転倒したと判定する。あるいは、転倒判定部117は、例えば、推論部116により、座位の姿勢と、臥位の姿勢とが、時系列で連続するフレームから生成された特徴量からそれぞれ推定された場合、対象者500が転倒したと判定してもよい。
【0083】
なお、転倒判定部117は、対象者500の転倒以外の行動をも判定(推定)し得る。例えば、推論部116により、立位の姿勢が、時系列で連続するフレームから生成された特徴量からそれぞれ推定された場合、対象者500が歩いていると判定(推定)し得る。
【0084】
図13は、検出部100の動作を示すフローチャートである。本フローチャートは、プログラムに従い、制御部110により実行される。
【0085】
制御部110は、撮影画像505から検出された、人矩形510、頭部矩形520、および関節点530を取得する(S101)。制御部110は、NNを用いた機械学習により、撮影画像505から、人矩形510、頭部矩形520、および関節点530を推定することで取得する。
【0086】
制御部110は、人矩形510、頭部矩形520、および関節点530の少なくともいずれかから特徴量を時系列のフレームごとに算出する(S102)。
【0087】
制御部110は、撮影画像505上の人矩形510の座標から、対象者500までの距離を算出する(S103)。
【0088】
制御部110は、対象者500までの距離に基づいて、姿勢を推定するための隠れマルコフモデルのモデルパラメーターを、(π、A、φA)、(π、A、φB)、(π、A、φC)のいずれかに切替える(S104)。
【0089】
制御部110は、切り替え後の隠れマルコフモデルにより、時系列のフレームに基づいて対象者500の姿勢を推定する(S105)。
【0090】
本発明に係る実施形態は、以下の効果を奏する。
【0091】
対象を俯瞰する位置から撮影部により撮影された撮影画像から検出された、対象の特徴を示す所定の検出情報から対象の特徴量を算出する。そして、時系列の特徴量から、機械学習により、対象の姿勢を推定するためのモデルパラメーターを、撮影部と対象との幾何関係に基づいて切り替える。これにより、対象を俯瞰する位置から撮影された撮影画像に基づく、対象の姿勢等の検出精度を向上できる。
【0092】
さらに、隠れマルコフモデルにより対象の姿勢を推定し、隠れマルコフモデルの、出力確率を算出するモデルパラメーターを、撮影部と対象との幾何関係に基づいて切り替える。これにより、より簡単かつ適切に対象の姿勢等の検出精度を向上できる。また、遠方から撮影部直下まで対象が移動するような場合でも、時系列を考慮した対象の姿勢および行動の高精度な推定ができる。
【0093】
さらに、上記幾何関係を、撮影部に対する対象の位置、向き、および姿勢の少なくともいずれかとし、当該幾何関係に対応する指標を算出する指標算出部をさらに設け、指標算出部により算出された指標に基づいて対象の姿勢を推定するためのモデルパラメーターを切り替える。これにより、対象の姿勢等の検出精度をさらに向上できる。
【0094】
さらに、所定の検出情報を、撮影画像から検出された人矩形、頭部矩形520、および関節点の少なくともいずれかとする。これにより、効率的かつ適切に対象の特徴量を算出できる。
【0095】
以上に説明した姿勢推定装置、行動推定装置等の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な姿勢推定装置等が備える構成を排除するものではない。
【0096】
例えば、上述したフローチャートは、一部のステップを省略してもよく、他のステップが追加されてもよい。また各ステップの一部は同時に実行されてもよく、一つのステップが複数のステップに分割されて実行されてもよい。
【0097】
また、実施形態においては、人の姿勢等を推定するものとして説明したが、動物の姿勢等を推定してもよい。
【0098】
また、実施形態において、隠れマルコフモデルを用いて対象者500の姿勢等を推定する際、観測変数(特徴量)から隠れ変数(クラス)を推定する部分を、ニューラルネットワークによる機械学習に置き換えて実行してもよい。
【0099】
また、実施形態においては、検出部により、推定した姿勢に基づいて、転倒等の行動を判定し、判定結果を出力している。しかし、行動の判定、および判定結果の出力は、検出部では行わず、検出部と通信可能に接続されたサーバーが、検出部から姿勢の推定結果を受信し、当該姿勢の推定結果に基づいて転倒等の行動を判定し、判定結果を出力するようにしてもよい。
【0100】
また、実施形態の姿勢推定システムにおける各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、USBメモリやDVD(Digital Versatile Disc)-ROM等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその検出部等の装置のソフトウエアに組み込まれてもよい。
【符号の説明】
【0101】
10 姿勢推定システム、
100 検出部、
110 制御部、
120 通信部、
130 カメラ、
140 体動センサー、
200 通信ネットワーク、
210 アクセスポイント、
300 携帯端末、
500 対象者、
505 撮影画像、
510 人矩形、
520 頭部矩形、
530 関節点、
700 ベッド。