特許7196645 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ コニカミノルタ株式会社の特許一覧

特許7196645姿勢推定装置、行動推定装置、姿勢推定プログラム、および姿勢推定方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-12-19

(45)【発行日】2022-12-27

(54)【発明の名称】姿勢推定装置、行動推定装置、姿勢推定プログラム、および姿勢推定方法

(51)【国際特許分類】

G06T 7/73 20170101AFI20221220BHJP

G06T 7/00 20170101ALI20221220BHJP

【ＦＩ】

G06T7/73

G06T7/00 350B

G06T7/00 660B

【請求項の数】 13

(21)【出願番号】P 2019015905

(22)【出願日】2019-01-31

(65)【公開番号】P2020123239

(43)【公開日】2020-08-13

【審査請求日】2021-06-28

(73)【特許権者】

【識別番号】000001270

【氏名又は名称】コニカミノルタ株式会社

(74)【代理人】

【識別番号】110000671

【氏名又は名称】八田国際特許業務法人

(72)【発明者】

【氏名】池田直樹

【審査官】新井則和

(56)【参考文献】

【文献】国際公開第２０１６／１４３６４１（ＷＯ，Ａ１）

【文献】特開２０１２－１１３３６９（ＪＰ，Ａ）

【文献】特表２００６－５２７４４３（ＪＰ，Ａ）

【文献】特表２０１３－５１４５８５（ＪＰ，Ａ）

【文献】青木茂樹外4名，人物の位置・姿勢に注目した行動パターンの学習・認識と非日常状態検出への応用，電子情報通信学会論文誌 D-II Vol, J87-D-II No. 5，電子情報通信学会，2004年05月01日

【文献】Artur Wilkowski，A HMM-Based System for Real-Time Gesture Recognition in Movie Sequences，2008 Conference on Human System Interactions，IEEE，2008年05月25日，https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5457585

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

(57)【特許請求の範囲】

【請求項1】

対象を俯瞰する位置から撮影部により撮影された画像に基づいて検出された前記対象の特徴を示す所定の検出情報を取得する取得部と、
前記取得部により取得された前記検出情報に基づいて、所定の特徴量を算出する特徴量算出部と、
前記特徴量算出部により算出された、時系列の前記特徴量から、機械学習により、前記対象の姿勢を推定するためのモデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える切替部と、
前記切替部による切り替え後の前記モデルパラメーターを用いて前記対象の姿勢を推定する姿勢推定部と、
を有する姿勢推定装置。

【請求項2】

前記姿勢推定部は、隠れマルコフモデルにより前記対象の姿勢を推定し、
前記切替部は、前記隠れマルコフモデルの、出力確率を算出する前記モデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える、請求項１に記載の姿勢推定装置。

【請求項3】

前記幾何関係は、前記撮影部に対する前記対象の位置、向き、および姿勢の少なくともいずれかであり、
前記撮影部と前記対象との前記幾何関係に対応する指標を算出する指標算出部をさらに有し、
前記切替部は、前記指標算出部により算出された前記指標に基づいて前記対象の姿勢を推定するための前記モデルパラメーターを切り替える、請求項１または２に記載の姿勢推定装置。

【請求項4】

前記検出情報は、前記画像から検出された人矩形、頭部矩形、および関節点の少なくともいずれかである、請求項１～３のいずれか一項に記載の姿勢推定装置。

【請求項5】

請求項１～４のいずれか一項に記載の姿勢推定装置と、
前記姿勢推定部により推定された前記対象の姿勢に基づいて前記対象の行動を推定する行動推定部と、
を有する行動推定装置。

【請求項6】

対象を俯瞰する位置から撮影部により撮影された画像に基づいて検出された前記対象の特徴を示す所定の検出情報を取得する手順（ａ）と、
前記手順（ａ）において取得された前記検出情報に基づいて、所定の特徴量を算出する手順（ｂ）と、
前記手順（ｂ）において算出された、時系列の前記特徴量から、機械学習により、前記対象の姿勢を推定するためのモデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える手順（ｃ）と、
前記手順（ｃ）における切り替え後の前記モデルパラメーターを用いて前記対象の姿勢を推定する手順（ｄ）と、
を有する処理を、コンピューターに実行させるための姿勢推定プログラム。

【請求項7】

前記手順（ｄ）は、隠れマルコフモデルにより前記対象の姿勢を推定し、
前記手順（ｃ）は、前記隠れマルコフモデルの、出力確率を算出する前記モデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える、請求項６に記載の姿勢推定プログラム。

【請求項8】

前記幾何関係は、前記撮影部に対する前記対象の位置、向き、および姿勢の少なくともいずれかであり、
前記処理は、前記撮影部と前記対象との前記幾何関係に対応する指標を算出する手順（ｅ）をさらに有し、
手順（ｃ）は、前記手順（ｅ）において算出された前記指標に基づいて前記対象の姿勢を推定するための前記モデルパラメーターを切り替える、請求項６または７に記載の姿勢推定プログラム。

【請求項9】

前記検出情報は、前記画像から検出された人矩形、頭部矩形、および関節点の少なくともいずれかである、請求項６～８のいずれか一項に記載の姿勢推定プログラム。

【請求項10】

対象を俯瞰する位置から撮影部により撮影された画像に基づいて検出された前記対象の特徴を示す所定の検出情報を取得する段階（ａ）と、
前記段階（ａ）において取得された前記検出情報に基づいて、所定の特徴量を算出する段階（ｂ）と、
前記段階（ｂ）において算出された、時系列の前記特徴量から、機械学習により、前記対象の姿勢を推定するためのモデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える段階（ｃ）と、
前記段階（ｃ）における切り替え後の前記モデルパラメーターを用いて前記対象の姿勢を推定する段階（ｄ）と、
を有する姿勢推定方法。

【請求項11】

前記段階（ｄ）は、隠れマルコフモデルにより前記対象の姿勢を推定し、
前記段階（ｃ）は、前記隠れマルコフモデルの、出力確率を算出する前記モデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える、請求項１０に記載の姿勢推定方法。

【請求項12】

前記幾何関係は、前記撮影部に対する前記対象の位置、向き、および姿勢の少なくともいずれかであり、
前記撮影部と前記対象との前記幾何関係に対応する指標を算出する段階（ｅ）をさらに有し、
段階（ｃ）は、前記段階（ｅ）において算出された前記指標に基づいて前記対象の姿勢を推定するための前記モデルパラメーターを切り替える、請求項１０または１１に記載の姿勢推定方法。

【請求項13】

前記検出情報は、前記画像から検出された人矩形、頭部矩形、および関節点の少なくともいずれかである、請求項１０～１２のいずれか一項に記載の姿勢推定方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、姿勢推定装置、行動推定装置、姿勢推定プログラム、および姿勢推定方法に関する。

【背景技術】

【0002】

我が国は、戦後の高度経済成長に伴う生活水準の向上、衛生環境の改善、および医療水準の向上等により、長寿命化が顕著となっている。このため、出生率の低下と相まって、高齢化率が高い高齢化社会になっている。このような高齢化社会では、病気、怪我、および加齢などにより、介護等の対応を必要とする要介護者等の増加が想定される。

【0003】

要介護者等は、病院や老人福祉施設などの施設において、歩行中に転倒したり、ベッドから転落して怪我をするおそれがある。そのため、要介護者等がこのような状態になったときに介護士や看護師等のスタッフがすぐに駆けつけられるようにするために、要介護者等の居室の天井等に備えられたカメラによる撮影画像から要介護者等の姿勢や行動を検出するための技術の開発が進められている。

【0004】

このような技術に関連し、撮影画像から対象の動作等を判定する技術として下記特許文献に開示されたものがある。すなわち、撮像装置から出力された画像の複数のフレームから当該画像に映っている状況を、当該画像に対する認識処理により認識することで、所定のイベントを検出する。そして、当該複数のフレームから所定のイベントに関連する種別のオブジェクトを検出し、オブジェクトの検出位置に基づいてオブジェクト同士が現実空間中で接触しているか否かを判断する。これにより、映像中で起こったイベントを詳細に解釈できる。

【先行技術文献】

【特許文献】

【0005】

【文献】特願２０１３－２３２１８１号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかし、対象を俯瞰する位置から撮影された撮影画像は、撮影画像を撮影したカメラの特性等により、カメラと対象との位置関係等によって、撮影画像から取得できる情報が変化する。これにより、撮影画像から認識される対象の姿勢の精度が低下し得る。上記先行技術は、このような問題に対応できない。

【0007】

本発明は、上述の問題を解決するためになされたものである。すなわち、対象を俯瞰する位置から撮影された撮影画像に基づく、対象の姿勢の検出精度を向上できる姿勢推定装置、行動推定装置、姿勢推定プログラム、および姿勢推定方法を提供することを目的とする。

【課題を解決するための手段】

【0008】

本発明の上記課題は、以下の手段によって解決される。

【0009】

（１）対象を俯瞰する位置から撮影部により撮影された画像に基づいて検出された前記対象の特徴を示す所定の検出情報を取得する取得部と、前記取得部により取得された前記検出情報に基づいて、所定の特徴量を算出する特徴量算出部と、前記特徴量算出部により算出された、時系列の前記特徴量から、機械学習により、前記対象の姿勢を推定するためのモデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える切替部と、前記切替部による切り替え後の前記モデルパラメーターを用いて前記対象の姿勢を推定する姿勢推定部と、を有する姿勢推定装置。

【0010】

（２）前記姿勢推定部は、隠れマルコフモデルにより前記対象の姿勢を推定し、前記切替部は、前記隠れマルコフモデルの、出力確率を算出する前記モデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える、上記（１）に記載の姿勢推定装置。

【0011】

（３）前記幾何関係は、前記撮影部に対する前記対象の位置、向き、および姿勢の少なくともいずれかであり、前記撮影部と前記対象との前記幾何関係に対応する指標を算出する指標算出部をさらに有し、前記切替部は、前記指標算出部により算出された前記指標に基づいて前記対象の姿勢を推定するための前記モデルパラメーターを切り替える、上記（１）または（２）に記載の姿勢推定装置。

【0012】

（４）前記検出情報は、前記画像から検出された人矩形、頭部矩形、および関節点の少なくともいずれかである、上記（１）～（３）のいずれかに記載の姿勢推定装置。

【0013】

（５）上記（１）～（４）のいずれかに記載の姿勢推定装置と、前記姿勢推定部により推定された前記対象の姿勢に基づいて前記対象の行動を推定する行動推定部と、を有する行動推定装置。

【0014】

（６）対象を俯瞰する位置から撮影部により撮影された画像に基づいて検出された前記対象の特徴を示す所定の検出情報を取得する手順（ａ）と、前記手順（ａ）において取得された前記検出情報に基づいて、所定の特徴量を算出する手順（ｂ）と、前記手順（ｂ）において算出された、時系列の前記特徴量から、機械学習により、前記対象の姿勢を推定するためのモデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える手順（ｃ）と、前記手順（ｃ）における切り替え後の前記モデルパラメーターを用いて前記対象の姿勢を推定する手順（ｄ）と、を有する処理を、コンピューターに実行させるための姿勢推定プログラム。

【0015】

（７）前記手順（ｄ）は、隠れマルコフモデルにより前記対象の姿勢を推定し、前記手順（ｃ）は、前記隠れマルコフモデルの、出力確率を算出する前記モデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える、上記（６）に記載の姿勢推定プログラム。

【0016】

（８）前記幾何関係は、前記撮影部に対する前記対象の位置、向き、および姿勢の少なくともいずれかであり、前記処理は、前記撮影部と前記対象との前記幾何関係に対応する指標を算出する手順（ｅ）をさらに有し、手順（ｃ）は、前記手順（ｅ）において算出された前記指標に基づいて前記対象の姿勢を推定するための前記モデルパラメーターを切り替える、上記（６）または（７）に記載の姿勢推定プログラム。

【0017】

（９）前記検出情報は、前記画像から検出された人矩形、頭部矩形、および関節点の少なくともいずれかである、上記（６）～（８）のいずれかに記載の姿勢推定プログラム。

【0018】

（１０）対象を俯瞰する位置から撮影部により撮影された画像に基づいて検出された前記対象の特徴を示す所定の検出情報を取得する段階（ａ）と、前記段階（ａ）において取得された前記検出情報に基づいて、所定の特徴量を算出する段階（ｂ）と、前記段階（ｂ）において算出された、時系列の前記特徴量から、機械学習により、前記対象の姿勢を推定するためのモデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える段階（ｃ）と、前記段階（ｃ）における切り替え後の前記モデルパラメーターを用いて前記対象の姿勢を推定する段階（ｄ）と、を有する姿勢推定方法。

【0019】

（１１）前記段階（ｄ）は、隠れマルコフモデルにより前記対象の姿勢を推定し、前記段階（ｃ）は、前記隠れマルコフモデルの、出力確率を算出する前記モデルパラメーターを、前記撮影部と前記対象との幾何関係に基づいて切り替える、上記（１０）に記載の姿勢推定方法。

【0020】

（１２）前記幾何関係は、前記撮影部に対する前記対象の位置、向き、および姿勢の少なくともいずれかであり、前記撮影部と前記対象との前記幾何関係に対応する指標を算出する段階（ｅ）をさらに有し、段階（ｃ）は、前記段階（ｅ）において算出された前記指標に基づいて前記対象の姿勢を推定するための前記モデルパラメーターを切り替える、上記（１０）または（１１）に記載の姿勢推定方法。

【0021】

（１３）前記検出情報は、前記画像から検出された人矩形、頭部矩形、および関節点の少なくともいずれかである、上記（１０）～（１２）のいずれかに記載の姿勢推定方法。

【発明の効果】

【0022】

対象を俯瞰する位置から撮影部により撮影された撮影画像から検出された、対象の特徴を示す所定の検出情報から対象の特徴量を算出する。そして、時系列の特徴量から、機械学習により、対象の姿勢を推定するためのモデルパラメーターを、撮影部と対象との幾何関係に基づいて切り替える。これにより、対象を俯瞰する位置から撮影された撮影画像に基づく、対象の姿勢等の検出精度を向上できる。

【図面の簡単な説明】

【0023】

【図1】姿勢推定システムの概略構成を示す図である。

【図2】検出部のハードウェア構成を示すブロック図である。

【図3】カメラと対象者との位置関係を示す説明図である。

【図4】撮影画像を示す説明図である。

【図5】カメラに対する対象者の向きおよび姿勢により対象者の映り方が変化することを示すための説明図である。

【図6】機械学習による姿勢推定のための学習時の制御部の機能を示す機能ブロック図である。

【図7】人矩形を示す模式図である。

【図8】人矩形、頭部矩形、および関節点を示す模式図である。

【図9】距離区分を説明するための説明図である。

【図10】隠れマルコフモデルを用いた、距離区分ごとの学習について説明するための説明図である。

【図11】特徴量である、上半身と下半身の重心距離の、対象者までの距離に対する分布を示すグラフである。

【図12】機械学習による姿勢の推定時の制御部の機能を示す機能ブロック図である。

【図13】検出部の動作を示すフローチャートである。

【発明を実施するための形態】

【0024】

以下、図面を参照して、本発明の実施形態に係る姿勢推定装置、行動推定装置、姿勢推定プログラム、および姿勢推定方法について説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

【0025】

図１は、姿勢推定システム１０の概略構成を示す図である。

【0026】

姿勢推定システム１０は、検出部１００、通信ネットワーク２００、および携帯端末３００を含む。検出部１００は姿勢推定装置および行動推定装置を構成し、通信ネットワーク２００によりアクセスポイント２１０を介して携帯端末３００と相互に通信可能に接続される。検出部１００は、１つの一体化された装置でも、分離配置される複数の装置でもあり得る。なお、通信ネットワーク２００を介して検出部１００および携帯端末３００と相互に通信可能なサーバー（図示せず）を設け、検出部１００の機能の一部を当該サーバーが実施するようにしてもよい。

【0027】

検出部１００は、対象者５００（対象）の居室の天井等に配設される。対象者５００は、例えば、スタッフ等により介護または看護を必要とする者である。検出部１００は、所定の観察領域を撮影することで、画像（以下、単に「撮影画像５０５」（図４等参照）とも称する）を取得し、撮影画像５０５に含まれる対象者５００を人として検出する。検出部１００は、撮影画像５０５上で物体（オブジェクト）が存在する領域を検出し、検出した領域に含まれる物体のカテゴリーを推定することで、対象者５００を検出する。物体が存在する領域は、撮影画像５０５上で物体が含まれる候補矩形として検出される。検出された候補矩形のうち、物体のカテゴリーが人であると推定された候補矩形を、人矩形５１０（図７参照）として検出することで、対象者５００を検出する。検出部１００は、人矩形５１０に基づいて、頭部矩形５２０（図８参照）および関節点５３０（図８参照）をさらに検出（推定）する。詳細は後述するが、さらに、検出部１００は、人矩形５１０、頭部矩形５２０、および関節点５３０に基づいて、対象者５００の特徴量を算出する。対象者５００の特徴を示し、かつ特徴量の算出の基礎となる、人矩形５１０、頭部矩形５２０、および関節点５３０を、以下では「検出情報」とも称する。検出部１００は、時系列の特徴量から、機械学習により、対象者５００の姿勢を推定するためのモデルパラメーターを、検出部１００（より具体的には、カメラ）と対象者５００との幾何関係に基づいて切り替え、切り替え後のモデルパラメーターを用いて対象者５００の姿勢を推定する。そして、検出部１００は、推定した、姿勢に基づいて、対象者５００の行動を推定する。以下、例として、検出部１００は、隠れマルコフモデルを用いた機械学習により対象者５００の姿勢を推定するものとして説明する。検出部１００と対象者５００との幾何関係には、カメラに対する対象者５００の位置、向き、および姿勢の少なくともいずれかが含まれる。以下、説明を簡単にするために、検出部１００と対象者５００との幾何関係は、カメラに対する対象者５００の位置であるものとして説明する。

【0028】

検出部１００は、推定した姿勢および／または行動から、対象者５００に関するイベントを検出し得る。イベントとは、対象者５００に関する状態や状況の変化であって、例えば、起床、離床、転倒、転落、および微体動異常等のスタッフに発報（報知）を行うべき事象である。検出部１００は、イベントを検出した場合は、イベントの内容を通知するイベント通知を携帯端末３００へ送信する。

【0029】

携帯端末３００は、対象者５００に対して介護および看護を含むケアを行うスタッフ等に携帯される。携帯端末３００は、検出部１００からイベント通知を受信し、イベント通知の内容を表示することで、イベントの発生およびその内容をスタッフ等に報知する。

【0030】

図２は、検出部１００のハードウェア構成を示すブロック図である。図２に示すように、検出部１００は、制御部１１０、通信部１２０、カメラ１３０、および体動センサー１４０を備え、これらはバスによって、相互に接続されている。

【0031】

制御部１１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、およびＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等のメモリにより構成され、プログラムに従って検出部１００の各部の制御および演算処理を行う。制御部１１０の機能の詳細については後述する。

【0032】

通信部１２０は、通信ネットワーク２００を介して、携帯端末３００等と通信するためのインターフェース回路（例えばＬＡＮカード等）である。

【0033】

カメラ１３０は、例えば、対象者５００の居室の天井、または壁の上部に配置され、所定の観察領域として対象者５００の居室のできるだけ広い範囲を、対象者５００を俯瞰可能な位置から撮影し、撮影画像５０５（画像データ）を出力する。撮影画像５０５には対象者５００を含む画像が含まれる。撮影画像５０５には、静止画および動画が含まれる。カメラ１３０は、広角カメラであり得る。広角カメラは、比較的広い画角の撮影画像５０５を撮影できるカメラであり、撮影画像５０５上の位置に対応して歪みの大きさが変化するカメラである。広角カメラには、例えば、魚眼レンズカメラが含まれる。カメラ１３０は、比較的広い範囲を撮影範囲とするために、カメラの設置高さ等を調整することで、画角を広くした広域撮影用カメラであってもよい。広域撮影用カメラは、カメラから撮影方向の物体までの距離に対応して、撮影画像５０５上の物体の大きさと、当該物体の実際の大きさとの比が変化した撮影画像５０５が撮影されるカメラである。広域撮影用カメラとして、撮影画像５０５上の位置に対応して歪みの大きさを変化させていない一般的なカメラを利用できる。カメラ１３０は近赤外線カメラであるが、これに換えて可視光カメラを用いてもよく、これらを併用してもよい。

【0034】

図３は、カメラ１３０と対象者５００との位置関係を示す説明図である。図４は、撮影画像５０５を示す説明図である。図５は、カメラに対する対象者５００の向きおよび姿勢により対象者５００の映り方が変化することを示すための説明図である。図４、５においては、広角カメラによる撮影画像５０５が示されている。以下の説明においては、例として、撮影画像５０５は広角カメラにより撮影された画像であるものとして説明する。

【0035】

図３において、カメラ１３０の直下であるＡの位置にいる対象者５００は、図４の撮影画像５０５の位置ａおいて撮影されている。Ａの位置にいる対象者５００は、撮影画像５０５において、カメラ１３０に近いため、頭部と肩部が比較的大きく映り、腕や足は肩に隠れる。Ｂの位置にいる対象者５００は、カメラ１３０から遠いため小さく映るが、全身が映る。図５のＡの例においては、カメラ１３０に対する対象者５００の向きが横向きであるため、床座位の姿勢の対象者５００の足が上半身に隠れることなく映る。一方、図５のＢの例においては、カメラ１３０に対する対象者５００の向きが背中向きであるため、床座位の姿勢の対象者５００の足が上半身に隠れて大部分が映っていない。このように、カメラ１３０に対する対象者５００の位置、向き、および姿勢により、撮影画像５０５における対象者５００の映り方（見え方）が変化する。

【0036】

図６は、機械学習による姿勢推定のための学習時の制御部１１０の機能を示す機能ブロック図である。

【0037】

図６に示すように、学習時において、制御部１１０は、関節点等検出部１１１、特徴量生成部１１２、分割判定部１１３、モデルパラメーター生成部１１４、およびクラス分類部１１５として機能する。

【0038】

関節点等検出部１１１は、撮影画像５０５から、撮影画像５０５上で物体（オブジェクト）が存在する領域を候補矩形として検出し、検出した候補矩形に含まれる物体のカテゴリーごとの信頼度スコアを算出する。関節点等検出部１１１は、人のカテゴリーの信頼度スコアが最も高い候補領域を人矩形５１０として検出する。

【0039】

関節点等検出部１１１は、人矩形５１０から対象者５００の頭部を含む領域を頭部矩形５２０として検出する。

【0040】

関節点等検出部１１１は、人矩形５１０から対象者５００の関節点５３０を検出する。

【0041】

関節点等検出部１１１は、撮影画像５０５から人矩形５１０を検出するための辞書（モデルパラメーター）が反映されたニューラルネットワーク（以下、「ＮＮ」と称する）により、撮影画像５０５から人矩形を検出し得る。関節点等検出部１１１は、人矩形５１０から頭部矩形５２０を検出するための辞書が反映されたＮＮにより、人矩形５１０から頭部矩形５２０を検出し得る。関節点等検出部１１１は、人矩形５１０から対象者５００の関節点５３０を検出するための辞書が反映されたＮＮにより、対象者５００の関節点５３０を検出し得る。

【0042】

関節点等検出部１１１は、人矩形５１０を、撮影画像５０５と、当該人矩形５１０の対向する２つの頂点の座標との組み合わせとして出力し得る。関節点等検出部１１１は、頭部矩形５２０を、撮影画像５０５と、当該頭部矩形５２０の対向する２つの頂点の座標との組み合わせとして出力し得る。関節点等検出部１１１は、関節点５３０を、撮影画像５０５上のそれぞれの座標として出力し得る。人矩形、頭部矩形５２０、および関節点５３０は、撮影画像５０５のフレームごとに互いに関連付けされている。

【0043】

学習時において検出される関節点５３０は、ユーザーにより姿勢ラベルが付与されることで、姿勢ラベルと対応付けされる。姿勢ラベルは、関節点５３０に対応する姿勢の正解である。姿勢ラベルは、例えば、「立位」、「座位」、および「臥位」の姿勢のいずれかを示すラベルである。

【0044】

クラス分類部１１５は、人矩形に対応付けされた姿勢ラベルを、例えば３つのラベルクラスに分類する。ラベルクラスは、１～３の数値であり、それぞれ、姿勢ラベルの、「立位」、「座位」、および「臥位」に対応する。

【0045】

学習時において検出される関節点５３０は、それぞれに付与された姿勢ラベルに対応するラベルクラスとともに、学習のための教師データとして用いられる。

【0046】

図７は、人矩形５１０を示す模式図である。

【0047】

図７においては、撮影画像５０５から検出された、椅子上で座位の姿勢の対象者５００を包含する人矩形５１０が太線の矩形枠内の領域として示されている。

【0048】

図８は、人矩形５１０、頭部矩形５２０、および関節点５３０を示す模式図である。

【0049】

図８においては、立位の姿勢の対象者５００を包含する人矩形５１０が太線の矩形枠内の領域として示され、頭部矩形５２０が細線の矩形枠内の領域として示されている。関節点５３０は、黒色の点として示されている。関節点５３０のうち、「ａ」は右肩、「ｂ」は左肩、「ｃ」は右腰、「ｄ」は左腰の関節点５３０をそれぞれ示している。

【0050】

特徴量生成部１１２は、人矩形５１０、頭部矩形５２０、および関節点５３０の少なくともいずれかに基づいて対象者５００の特徴量を算出する。特徴量には、例えば、上半身と下半身の重心距離等が含まれる。

【0051】

図６に戻り、説明を継続する。

【0052】

分割判定部１１３は、撮影画像５０５における人矩形５１０の位置（例えば、人矩形５１０の中心の座標）と、撮影画像５０５の中心との距離を、カメラ１３０と対象者５００との距離（以下、「対象者５００までの距離」とも称する）として算出する。また、分割判定部１１３は、検出部１００（より詳細には、カメラ１３０）と対象者５００との幾何関係に対応する指標を算出することで、指標ごとに特徴量を分割（区分）する。当該指標は、例えば、「近距離」、「中距離」、および「遠距離」であり、具体的には、これらに対応する数値（例えば、１～３）であり得る。すなわち、分割判定部１１３は、当該指標を算出することで、指標ごとに、特徴量を、「近距離」、「中距離」、「遠距離」のいずれかの距離区分（以下、単に「距離区分」とも称する）に分割（区分）する。これに伴い、分割後の特徴量に関連付けられたラベルクラスも、特徴量とともに分割される。

【0053】

検出部１００と対象者５００との幾何関係を、カメラ１３０に対する対象者５００の向きとする場合は、分割判定部１１３は、例えば、対象者５００が、カメラ１３０に対して「背中向き」か「正面向き」かを、検出部１００と対象者５００との幾何関係に対応する指標として算出する。具体的には、当該指標は、カメラ１３０に対して背中向きか正面向きかに対応する数値（例えば、１、２）であり得る。対象者５００が、カメラ１３０に対して「背中向き」か「正面向き」かは、関節点３２０のうち、肩の関節点（ａ、ｂ（図８参照））と腰の関節点（ｃ、ｄ（図８参照））との相対的な位置関係から推定し得る。なお、「背中向き」および「正面向き」以外の対象者５００の向き（例えば、カメラ１３０に対して斜めの向き）を指標とする場合は、肩の関節点（ａ、ｂ）を結ぶ線分の角度をさらに考慮して指標を算出し得る。分割判定部１１３は、当該指標を算出することで、当該指標ごとに、特徴量を、「背中向き」か、「正面向き」のいずれかの向き区分に分割（区分）する。これに伴い、分割後の特徴量に関連付けられたラベルクラスも特徴量とともに分割される。

【0054】

検出部１００と対象者５００との幾何関係を対象者５００の姿勢とする場合は、分割判定部１１３は、例えば、対象者５００の姿勢が、「立位」、「座位」、および「臥位」のいずれであるかを、検出部１００と対象者５００との幾何関係に対応する指標として算出する。具体的には、当該指標は、「立位」、「座位」、および「臥位」の姿勢にそれぞれ対応する数値（例えば、１～３）であり得る。当該指標は、人矩形５１０から姿勢を推定するための、ＮＮを用いた公知の技術により算出（推定）し得る。分割判定部１１３は、当該指標を算出することで、当該指標ごとに、特徴量を、「立位」、「座位」、および「臥位」のいずれかの姿勢区分に分割（区分）する。これに伴い、分割後の特徴量に関連付けられたラベルクラスも特徴量とともに分割される。

【0055】

図９は、距離区分を説明するための説明図である。

【0056】

撮影画像５０５の中心ａは、カメラ１３０の直下に対応する。図９の例においては、撮影画像５０５の中心ａを含む近距離の距離区分がＡで示す領域に対応する。そして、中距離の距離区分がＢで示す領域に、遠距離の距離区分がＣで示す領域にそれぞれ対応する。

【0057】

モデルパラメーター生成部１１４は、分割後の特徴量と、当該特徴量に対応付けされたラベルクラスとを教師データとして、距離区分ごとに学習を行う。モデルパラメーター生成部は、学習により生成された、距離区分ごとのモデルパラメーターπ、Ａ、φを出力する。

【0058】

図１０は、隠れマルコフモデルを用いた、距離区分ごとの学習について説明するための説明図である。

【0059】

図１０のＡは、一般的な隠れマルコフモデルの模式図である。

【0060】

隠れマルコフモデルは、観測変数ｘ_ｉに基づいて、隠れ変数（潜在変数）ｚ_ｉの系列を推定するモデルである。特徴量は観測変数ｘ_ｉに相当し、ラベルクラスは隠れ変数ｚ_ｉに相当する。ｉは、時系列で撮影された撮影画像のフレームの番号であり、番号が小さいほど過去のフレームであることを示す。

【0061】

隠れマルコフモデルによる観測変数ｘと隠れ変数ｚの同時確率分布ｐ（Ｘ，Ｚ）は、下記式により与えられる。

【0062】

【数1】

【0063】

上記式において、ｐ（ｚ_１）は初期状態の確率である。ｐ（ｚ_ｉ｜ｚ_ｉ－１）は、時系列で、フレーム（ｉ－１）の隠れ変数ｚ_ｉ－１を条件としたときの、フレーム（ｉ）の隠れ変数ｚ_ｉへの遷移確率である。ｐ（ｘ_ｉ｜ｚ_ｉ）は、隠れ変数ｚ_ｉを条件としたときに、観測変数ｘ_ｉとなるエミッション確率である。

【0064】

上記式は、下記式として表現できる。

【0065】

【数2】

【0066】

上記式において、π_Ｚ１（π）は、初期状態を記述するモデルパラメーターである。Ａは、隠れ変数の遷移確率を記述するモデルパラメーターである。φは、エミッション確率（出力確率）を記述するモデルパラメーター（以下、「出力確率パラメーター」と称する）である。

【0067】

隠れマルコフモデルを用いた学習は、観測変数ｘ_ｉおよび隠れ変数ｚ_ｉの既知の値を教師データとして学習することで、モデルパラメーターπ、Ａ、φを推定（生成）する。具体的には。上記式で表される観測変数ｘ_ｉおよび隠れ変数ｚ_ｉの同時確率分布において、教師データである、観測変数ｘ_ｉおよび隠れ変数ｚ_ｉの既知の値の組み合わせが生じる確率が最も大きくなるモデルパラメーターπ、Ａ、φを推定する（最尤推定法）。

【0068】

図１０のＡに示す、一般的な隠れマルコフモデルを用いた推定においては、学習により生成されたモデルパラメーターπ、Ａ、φを用いて、観測変数ｘ_ｉから隠れ変数ｚ_ｉが推定される。

【0069】

図１０のＢは、実施形態における隠れマルコフモデルの模式図である。

【0070】

図１０のＢに示すように、実施形態においては、距離区分ごとに学習することで、距離区分ごとに出力確率パラメーターφ_Ａ、φ_Ｂ、φ_Ｃを生成する。φ_Ａは「近距離」の距離区分の教師データを用いた学習により生成された出力確率パラメーターである。φ_Ｂは「中距離」の距離区分の教師データを用いた学習により生成された出力確率パラメーターである。φ_Ｃは「遠距離」の距離区分の教師データを用いた学習により生成された出力確率パラメーターである。学習においては、それぞれ教師データとして、距離区分ごとに分割された分割後の特徴量と、当該特徴量に対応付けされたラベルクラスとが用いられる。

【0071】

実施形態における推定では、距離区分ごとに学習された、学習後のモデルパラメーターπ、Ａ、φ（φについては、距離区分に応じて、φ_Ａ、φ_Ｂ、φ_Ｃのいずれか）を用いて、距離区分ごとに、観測変数ｘ_ｉである特徴量から隠れ変数ｚ_ｉであるラベルクラスが推定される。

【0072】

距離区分ごとに異なる出力確率パラメーターφ_Ａ、φ_Ｂ、φ_Ｃで、特徴量からラベルクラスを推定するのは、次の理由による。カメラ１３０に対する対象者５００の位置（すなわち、対象者５００までの距離）により、撮影画像５０５における対象者５００の映り方が変化する（図４、５参照）ため、対象者５００までの距離に依存して、特徴量が比較的大きく変化する。このため、対象者５００までの距離にかかわらず、同じ出力確率パラメーターφを用いると、姿勢の推定精度が低下する可能性があるからである。なお、モデルパラメーターπ、Ａは、撮影画像５０５における対象者５００の映り方（見え方）に依存しないため、距離区分ごとに異なるモデルパラメーターπ、Ａを用いる必要はない。

【0073】

図１１は、特徴量である、上半身と下半身の重心距離の、対象者５００までの距離に対する分布を示すグラフである。比較的濃いグレーの分布は、距離区分が近距離の分布であり、比較的薄いグレーの分布は遠距離の分布であり、これらの中間の濃さのグレーの分布は中距離の分布である。

【0074】

図１１の例においては、各距離区分に対応して３つのピークが現れており、距離区分ごとにそれぞれピークを中心とした略正規分布となっている。このように、距離区分ごとに明確に分布が区別されるのは、距離区分の設定が適当になされたためである。

【0075】

距離区分は、カメラ１３０と対象者５００との光学的射影関係により算出した理論値を参考に、実際に分割したデータ（例えば、教師データ）の分布を確認することにより決定し得る。例えば、中距離と遠距離の境界は、撮影画像において立位の姿勢と臥位の姿勢とで体軸の長さが逆転する、撮影画像中心からの距離を理論値とし得る。

【0076】

図１２は、機械学習による姿勢の推定時の制御部１１０の機能を示す機能ブロック図である。

【0077】

図１２に示すように、推定時において、制御部１１０は、関節点等検出部１１１、特徴量生成部１１２、分割判定部１１３、推論部１１６、および転倒判定部１１７として機能する。関節点等検出部１１１は、取得部を構成する。特徴量生成部１１２は、特徴量算出部を構成する。分割判定部１１３は切替部および指標算出部を構成する。推論部１１６は、姿勢推定部を構成する。転倒判定部１１７は行動推定部を構成する。

【0078】

関節点等検出部１１１および特徴量生成部１１２は、推定時においても学習時と同様に機能するため、説明を省略する。

【0079】

分割判定部１１３は、撮影画像５０５における人矩形５１０の位置（例えば、人矩形の中心の座標）と、撮影画像５０５の中心との距離を、対象者５００までの距離として算出する。また、分割判定部１１３は、検出部１００と対象者５００との幾何関係に対応する指標を算出することで、指標ごとに特徴量を分割（区分）する。すなわち、分割判定部１１３は、当該指標を算出することで、指標ごとに、特徴量を、「近距離」、「中距離」、「遠距離」のいずれかの距離区分に分割（区分）する。これに伴い、分割後の特徴量に関連付けられたラベルクラスも、特徴量とともに分割される。

【0080】

分割判定部１１３は、距離区分ごとのモデルパラメーター（（π、Ａ、φ_Ａ）、（π、Ａ、φ_Ｂ）、（π、Ａ、φ_Ｃ））のうち、分割後の特徴量の距離区分に対応するモデルパラメーターを特定する。

【0081】

推論部１１６は、分割判定部１１３により特定された、分割後の特徴量に対応するモデルパラメーターが適用された隠れマルコフモデルにより、分割後の特徴量から、例えば、「立位」、「座位」、および「臥位」の３つのクラスのいずれか（具体的には、３つのクラスに対応する１～３の数値のいずれかの）として姿勢を推定する。

【0082】

転倒判定部１１７は、推論部１１６により推定された姿勢に基づいて、対象者５００が転倒したかどうかを判定し、判定結果を出力する。転倒判定部１１７は、例えば、推論部１１６により、立位の姿勢と、臥位の姿勢とが、時系列で連続するフレームから生成された特徴量からそれぞれ推定された場合、対象者５００が転倒したと判定する。あるいは、転倒判定部１１７は、例えば、推論部１１６により、座位の姿勢と、臥位の姿勢とが、時系列で連続するフレームから生成された特徴量からそれぞれ推定された場合、対象者５００が転倒したと判定してもよい。

【0083】

なお、転倒判定部１１７は、対象者５００の転倒以外の行動をも判定（推定）し得る。例えば、推論部１１６により、立位の姿勢が、時系列で連続するフレームから生成された特徴量からそれぞれ推定された場合、対象者５００が歩いていると判定（推定）し得る。

【0084】

図１３は、検出部１００の動作を示すフローチャートである。本フローチャートは、プログラムに従い、制御部１１０により実行される。

【0085】

制御部１１０は、撮影画像５０５から検出された、人矩形５１０、頭部矩形５２０、および関節点５３０を取得する（Ｓ１０１）。制御部１１０は、ＮＮを用いた機械学習により、撮影画像５０５から、人矩形５１０、頭部矩形５２０、および関節点５３０を推定することで取得する。

【0086】

制御部１１０は、人矩形５１０、頭部矩形５２０、および関節点５３０の少なくともいずれかから特徴量を時系列のフレームごとに算出する（Ｓ１０２）。

【0087】

制御部１１０は、撮影画像５０５上の人矩形５１０の座標から、対象者５００までの距離を算出する（Ｓ１０３）。

【0088】

制御部１１０は、対象者５００までの距離に基づいて、姿勢を推定するための隠れマルコフモデルのモデルパラメーターを、（π、Ａ、φ_Ａ）、（π、Ａ、φ_Ｂ）、（π、Ａ、φ_Ｃ）のいずれかに切替える（Ｓ１０４）。

【0089】

制御部１１０は、切り替え後の隠れマルコフモデルにより、時系列のフレームに基づいて対象者５００の姿勢を推定する（Ｓ１０５）。

【0090】

本発明に係る実施形態は、以下の効果を奏する。

【0091】

【0092】

さらに、隠れマルコフモデルにより対象の姿勢を推定し、隠れマルコフモデルの、出力確率を算出するモデルパラメーターを、撮影部と対象との幾何関係に基づいて切り替える。これにより、より簡単かつ適切に対象の姿勢等の検出精度を向上できる。また、遠方から撮影部直下まで対象が移動するような場合でも、時系列を考慮した対象の姿勢および行動の高精度な推定ができる。

【0093】

さらに、上記幾何関係を、撮影部に対する対象の位置、向き、および姿勢の少なくともいずれかとし、当該幾何関係に対応する指標を算出する指標算出部をさらに設け、指標算出部により算出された指標に基づいて対象の姿勢を推定するためのモデルパラメーターを切り替える。これにより、対象の姿勢等の検出精度をさらに向上できる。

【0094】

さらに、所定の検出情報を、撮影画像から検出された人矩形、頭部矩形５２０、および関節点の少なくともいずれかとする。これにより、効率的かつ適切に対象の特徴量を算出できる。

【0095】

以上に説明した姿勢推定装置、行動推定装置等の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な姿勢推定装置等が備える構成を排除するものではない。

【0096】

例えば、上述したフローチャートは、一部のステップを省略してもよく、他のステップが追加されてもよい。また各ステップの一部は同時に実行されてもよく、一つのステップが複数のステップに分割されて実行されてもよい。

【0097】

また、実施形態においては、人の姿勢等を推定するものとして説明したが、動物の姿勢等を推定してもよい。

【0098】

また、実施形態において、隠れマルコフモデルを用いて対象者５００の姿勢等を推定する際、観測変数（特徴量）から隠れ変数（クラス）を推定する部分を、ニューラルネットワークによる機械学習に置き換えて実行してもよい。

【0099】

また、実施形態においては、検出部により、推定した姿勢に基づいて、転倒等の行動を判定し、判定結果を出力している。しかし、行動の判定、および判定結果の出力は、検出部では行わず、検出部と通信可能に接続されたサーバーが、検出部から姿勢の推定結果を受信し、当該姿勢の推定結果に基づいて転倒等の行動を判定し、判定結果を出力するようにしてもよい。

【0100】

また、実施形態の姿勢推定システムにおける各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、ＵＳＢメモリやＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）－ＲＯＭ等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその検出部等の装置のソフトウエアに組み込まれてもよい。

【符号の説明】

【0101】

１０姿勢推定システム、
１００検出部、
１１０制御部、
１２０通信部、
１３０カメラ、
１４０体動センサー、
２００通信ネットワーク、
２１０アクセスポイント、
３００携帯端末、
５００対象者、
５０５撮影画像、
５１０人矩形、
５２０頭部矩形、
５３０関節点、
７００ベッド。

【図1】