IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人 宮崎大学の特許一覧

<>
  • 特開-推定装置、推定方法及びプログラム 図1
  • 特開-推定装置、推定方法及びプログラム 図2
  • 特開-推定装置、推定方法及びプログラム 図3
  • 特開-推定装置、推定方法及びプログラム 図4
  • 特開-推定装置、推定方法及びプログラム 図5
  • 特開-推定装置、推定方法及びプログラム 図6
  • 特開-推定装置、推定方法及びプログラム 図7
  • 特開-推定装置、推定方法及びプログラム 図8
  • 特開-推定装置、推定方法及びプログラム 図9
  • 特開-推定装置、推定方法及びプログラム 図10
  • 特開-推定装置、推定方法及びプログラム 図11
  • 特開-推定装置、推定方法及びプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024044186
(43)【公開日】2024-04-02
(54)【発明の名称】推定装置、推定方法及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240326BHJP
   G06V 10/84 20220101ALI20240326BHJP
【FI】
G06T7/00 660Z
G06T7/00 350A
G06V10/84
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022149569
(22)【出願日】2022-09-20
(71)【出願人】
【識別番号】504224153
【氏名又は名称】国立大学法人 宮崎大学
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100175824
【弁理士】
【氏名又は名称】小林 淳一
(74)【代理人】
【識別番号】100152272
【弁理士】
【氏名又は名称】川越 雄一郎
(74)【代理人】
【識別番号】100181722
【弁理士】
【氏名又は名称】春田 洋孝
(72)【発明者】
【氏名】ティ ティ ズイン
(72)【発明者】
【氏名】パイ ティン
(72)【発明者】
【氏名】イエ テ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA09
5L096DA02
5L096JA11
(57)【要約】      (修正有)
【課題】より精度高く状態を推定することができる推定装置、推定方法及びプログラムを提供する。
【解決手段】推定装置10、カメラ20、表示装置30及び推定モデル生成装置50を備える推定システム1において、推定装置10は、カメラ20から取得するデプス画像に含まれる撮像対象から抽出された特徴に基づいて観測符号を推定し、観測符号及び撮像対象の状態に基づいて、隠れマルコフモデルを用いて前記状態の次の状態を推定する。前記画像は、デプス画像をカラー化した画像であってもよい。
【選択図】図1
【特許請求の範囲】
【請求項1】
画像に含まれる撮像対象から抽出された特徴に基づいて観測符号を推定し、
前記観測符号及び前記撮像対象の状態に基づいて、隠れマルコフモデルを用いて前記状態の次の状態を推定する、
推定装置。
【請求項2】
前記画像は、デプス画像をカラー化した画像である、
請求項1に記載の推定装置。
【請求項3】
前記画像は、対応する前記推定された状態とともに表示される、
請求項1又は2に記載の推定装置。
【請求項4】
画像に含まれる撮像対象から抽出された特徴に基づいて観測符号を推定し、
前記観測符号及び前記撮像対象の状態に基づいて、隠れマルコフモデルを用いて前記状態の次の状態を推定する、
推定方法。
【請求項5】
コンピュータに、請求項4に記載の方法を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、推定装置、推定方法及びプログラムに関する。
【背景技術】
【0002】
高齢者の事故を防ぐことや健康をサポートする目的で、カメラなどを用いて高齢者の状態を認識する手法が開発及び研究されている。例えば非特許文献1には、デプスカメラにより部屋の画像を取得し、部屋にいる高齢者の状態を認識することが記載されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Thi Thi Zin, Ye Htet, Y. Akagi, H. Tamura, K. Kondo, S. Araki, E. Chosa, 2021. Real-Time Action Recognition System for Elderly People Using Stereo Depth Camera. Sensors, 21(17), p.5895.
【非特許文献2】Thi Thi Zin, Ye Htet, Y. Akagi, H. Tamura, K. Kondo, S. Araki, 2020, October. Elderly Monitoring and Action Recognition System Using Stereo Depth Camera. In 2020 IEEE 9th Global Conference on Consumer Electronics (GCCE) (pp. 316-317). IEEE.
【非特許文献3】Swe Nwe Nwe Htun, Thi Thi Zin and Pyke Tin, 2020. Image processing technique and hidden Markov model for an elderly care monitoring system. Journal of Imaging, 6(6), p.49.
【非特許文献4】Buzzelli, M., Albe, A. and Ciocca, G., 2020. A vision-based system for monitoring elderly people at home. Applied Sciences, 10(1), p.374.
【非特許文献5】Hu, R., Michel, B., Russo, D., Mora, N., Matrella, G., Ciampolini, P., Cocchi, F., Montanari, E., Nunziata, S. and Brunschwiler, T., 2020. An unsupervised behavioral modeling and alerting system based on passive sensing for elderly care. Future Internet, 13(1), p.6.
【非特許文献6】Rajput, A.S., Raman, B. and Imran, J., 2020. Privacy-preserving human action recognition as a remote cloud service using RGB-D sensors and deep CNN. Expert Systems with Applications, 152, p.113349.
【非特許文献7】Jalal, A., Kamal, S. and Kim, D., 2014. A depth video sensor-based life-logging human activity recognition system for elderly care in smart indoor environments. Sensors, 14(7), pp.11735-11759.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、非特許文献1に記載の方法においては、高齢者の状態を認識する精度が低く、より正確に状態を認識する手法が求められている。
本発明の目的は、より精度高く状態を推定することができる推定装置、推定方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0005】
本発明の一態様は、画像に含まれる撮像対象から抽出された特徴に基づいて観測符号を推定し、前記観測符号及び前記撮像対象の状態に基づいて、隠れマルコフモデルを用いて前記状態の次の状態を推定する、推定装置である。
【発明の効果】
【0006】
本発明によれば、より精度高く状態を推定することができる。
【図面の簡単な説明】
【0007】
図1】推定システム1の構成を示す図である。
図2】推定装置10の構成の一例を示す図である。
図3】検出結果を示す図である。
図4】正規化した画像を示す図である。
図5】特徴抽出部13によるHOGの算出方法を示す図である。
図6】HMMの一例を示す図である。
図7】推定モデル生成装置50の構成例を示す図である。
図8】推定装置10による推定方法を示した図である。
図9】表示装置30に表示されるGUIの一例である。
図10】推定装置10の動作を示すフローチャートである。
図11】推定モデル生成装置50の動作を示すフローチャートである。
図12】推定装置10による推定精度を示す図である。
【発明を実施するための形態】
【0008】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、推定システム1の構成を示す図である。推定システム1は、推定装置10、カメラ20、表示装置30を備える。
カメラ20は、所定の領域を撮影する。カメラ20は、撮影対象40を撮影するように設置される。撮影対象は人間であって、例えば高齢者やその介助者である。カメラ20は、デプスカメラであって、撮影する領域の深度を検出する。
【0009】
推定装置10は、カメラ20により撮影された撮影対象40の状態を推定する。推定装置10は、推定結果を表示装置30に出力する。
【0010】
表示装置30は、推定装置10より入力された推定結果を表示する。
【0011】
図2は、推定装置10の構成の一例を示す図である。推定装置10は、画像取得部11、検出部12、特徴抽出部13、状態推定部14、出力部15、記録部16、記憶部17を備える。
【0012】
画像取得部11は、カメラ20により撮影されたデプス画像を取得する。画像取得部11は、例えば所定の時間間隔で撮影されたデプス画像を取得する。画像取得部11は、カメラ20により撮影された動画を取得し、所定の時間間隔でフレームを切り出すことでデプス画像を取得してもよい。
画像取得部11は、取得したデプス画像をカラー化された画像に変換してもよい。デプス画像における深度は、カラー化された画像における色相色空間の色に対応する。一般的なデプス画像はCSVファイルの形式で保存されるため、カラー化された画像に変換することで画像のサイズを抑えることができる。
【0013】
検出部12は、画像取得部11により取得された画像から撮影対象40を検出する。検出部12は、画像を入力として当該画像に人が写っているか否か及び当該画像に写る人の位置を出力する検出モデルを使用する。検出部12は、検出モデルに画像取得部11により取得された画像を入力することで、撮影対象40を検出する。
検出モデルは、画像と当該画像に人が写っているか否か及び当該画像に写る人の位置が結び付けられたデータセットを用いて機械学習により生成される。
【0014】
検出モデルは例えばYOLOv5である。検出部12は、例えばデプス画像をカラー化した画像をYOLOv5に入力することで、撮影対象40を検出する。図3は、検出結果を示す図である。デプス画像をカラー化した画像において、撮影対象40に四角形の囲いが示され、検出したことを示していることが分かる。検出モデルはYOLOに限られず、画像から撮影対象を検出できればよい。
【0015】
特徴抽出部13は、検出部12により検出される撮影対象40の特徴を抽出する。以下、特徴抽出部13による特徴を抽出する方法の一例である。
特徴抽出部13は、検出された撮影対象40を囲う図形(例えば四角形)により撮影対象40を切り出す。特徴抽出部13は、切り出した撮影対象40を含む画像を正規化し、各画像から切り出した画像を全て同じサイズにする。図4は、正規化した画像を示す図である。
【0016】
特徴抽出部13は、時間的に連続して撮影された画像から切り出され、正規化された画像からDMA(Depth Motion Appearance)及びDMH(Depth Motion History)を抽出する。その後、特徴抽出部13は、抽出したDMA及びDMHのHOG(Histogram of Oriented Gradients)をそれぞれ算出することで特徴を示すヒストグラムを取得する。特徴抽出部13は、DMA及びDMHそれぞれから取得したHOGを結合する。図5は、特徴抽出部13によるHOGの算出方法を示す図である。特徴抽出部13は、例えば5フレームの画像から切り出され、正規化された画像から、DMA及びDMHを抽出し、DMA及びDMHのHOGであるHOGDMA及びHOGDMHをそれぞれ算出し、HOGDMAとHOGDMHを結合することでConcatenated Histogramを生成する。
【0017】
状態推定部14は、特徴抽出部13により抽出された特徴に基づき、記憶部17に記憶された推定モデルを用いて、撮影対象40の状態を推定する。推定モデルはHMM(隠れマルコフモデル)を含む。図6は、HMMの一例を示す図である。Sは撮影対象40の状態を示す。例えば、Sが「移動する」、Sが「車いすに座る」、Sが「起立する」、Sが「着席する」、Sが「横になる」状態を示す。状態Sから状態Sへの確率は遷移確率aijで示される。A={aij}(1≦i、j≦5)となるAを遷移確率分布と呼ぶ。
は観測符号である。状態Sであるとき、観測符号vを出力する確率は出力確率b(k)で示される。B={b(k)}(1≦j、k≦5)となるBを出力確率分布と呼ぶ。
推定モデル生成装置50は、HMMを含む推定モデルを生成し、推定装置10に出力する。推定装置10は、推定モデルを記憶部17に記憶する。
【0018】
以下、推定モデル生成装置50による推定モデルの生成方法を説明する。図7は、推定モデル生成装置50の構成例を示す図である。推定モデル生成装置50は、状態シーケンス取得部51、遷移確率分布算出部52、観測符号付与モデル生成部53、観測符号付与部54、出力確率分布算出部55、推定モデル出力部56を備える。
【0019】
状態シーケンス取得部51は、状態遷移を示すデータを取得する。状態遷移を示すデータは、撮影対象40の状態の変化を示すデータである。遷移確率分布算出部52は、状態遷移を示すデータに基づいてHMMの遷移確率分布Aを算出する。例えば、推定モデル生成装置50は、状態Sから状態Sの共起行列を全て算出することで、遷移確率分布Aを算出する。
観測符号付与モデル生成部53は、状態Sと各状態の特徴とが結び付けられたデータを含むデータセット(Dataset-X)により、特徴に基づき、当該特徴に観測符号vを付与する観測符号付与モデルを生成する。観測符号付与部54は、状態Sと特徴とが結び付けられたデータを含み、Dataset-Xとは異なるデータセット(Dataset-Y)に、観測符号付与モデルを用いて観測符号を付与する。出力確率分布算出部55は、付与された観測符号ごとに特徴から正規分布を算出し、出力確率分布Bを算出する。
【0020】
ここで、HOG平均(Mean HOGs)を計算することで、出力確率分布Bを計算する方法を説明する。出力確率分布Bは状態Sごとに以下の方法により計算される。
初めに、Dataset-Xから算出されるHOGのヒストグラムの平均値を算出することで、各々の状態における平均HOG特徴(M1H, M2H, M3H, M4H, M5H)を算出する。その後、状態SごとにDataset-Yから算出されるHOGに観測される符号vを付与する。ここで符号vのiは、IHと平均HOG特徴ベクトル(MiH)との間の距離のうち、最も小さい距離となるMiHのiと等しい。
その後、ラベルを付けたHOGそれぞれの長さ(ユークリッドノルム又はベクトル2ノルム)を算出する。その後、HOGに付けた各ラベルにおいて、HOGの長さの正規分布を算出する。ここで正規分布は例えば平均0、標準偏差1の確率密度関数である。これにより異なる5つのラベルが付与された正規分布が、Dataset-Yから算出されるHOGの数(例えば100個)算出される。その後、同じラベルの正規分布を足し合わせることでラベルごとに5つの正規分布を取得する。その後、5つの足し合わせた正規分布を全ての100個の正規分布の和で割り、ラベルごとに異なる5つの正規分布の和を正規化することで1つの状態における出力確率を算出する。以上の計算を5つの状態全てに対して行うことで、出力確率分布Bを算出する。これにより、各状態Sから各観測符号vが出力される確率を示す出力確率分布Bを算出することができる。
【0021】
表1は、HOG平均を計算することで出力確率分布Bを計算する方法を示す表である。
【表1】
【0022】
また、k-NN(k-Nearest Neighbors)の手法により、出力確率分布Bを算出してもよい。初めにDataset-Xから算出されるHOGを使用して、k-NNがHOGを5つのクラス(C1, C2, C3, C4, C5)に分類するように学習させる。その後、Dataset-Yから算出されるHOGを学習させたk-NNを用いて5つのクラス(v1, v2, v3, v4, v5)に分類する。5つのクラス(v1, v2, v3, v4, v5)の分類基準は、5つのクラス(C1, C2, C3, C4, C5)と同じである。
その後、ラベルを付けたHOGそれぞれの長さを算出し、HOGの長さの正規分布を算出する。その後、HOGに付けた各ラベルにおいて、HOGの長さの正規分布を算出する。ここで正規分布は例えば平均0、標準偏差1の確率密度関数である。これにより異なる5つのラベルが付与された正規分布が、Dataset-Yから算出されるHOGの数(例えば100個)算出される。その後、同じラベルの正規分布を足し合わせることでラベルごとに5つの正規分布を取得する。その後、5つの足し合わせた正規分布を全ての100個の正規分布の和で割り、ラベルごとに異なる5つの正規分布の和を正規化することで1つの状態における出力確率を算出する。以上の計算を5つの状態全てに対して行うことで、出力確率分布Bを算出する。
【0023】
表2は、k-NNの手法を用いて、出力確率分布Bを計算する方法を示す表である。
【表2】
【0024】
また、SVM(Support Vector Machine)を用いて、出力確率分布Bを算出してもよい。初めにDataset-Xから算出されるHOGを使用して、SVMがHOGを5つのクラス(C1, C2, C3, C4, C5)に分類するように学習させる。その後、Dataset-Yから算出されるHOGを学習させたSVMを用いて5つのクラス(v1, v2, v3, v4, v5)に分類する。5つのクラス(v1, v2, v3, v4, v5)の分類基準は、5つのクラス(C1, C2, C3, C4, C5)と同じである。
その後、ラベルを付けたHOGそれぞれの長さを算出し、HOGの長さの正規分布を算出する。その後、HOGに付けた各ラベルにおいて、HOGの長さの正規分布を算出する。ここで正規分布は例えば平均0、標準偏差1の確率密度関数である。これにより異なる5つのラベルが付与された正規分布が、Dataset-Yから算出されるHOGの数(例えば100個)算出される。その後、同じラベルの正規分布を足し合わせることでラベルごとに5つの正規分布を取得する。その後、5つの足し合わせた正規分布を全ての100個の正規分布の和で割り、ラベルごとに異なる5つの正規分布の和を正規化することで1つの状態における出力確率を算出する。以上の計算を5つの状態全てに対して行うことで、出力確率分布Bを算出する。
【0025】
表3は、SVMの手法を用いて、出力確率分布Bを計算する方法を示す表である。
【表3】
【0026】
HMMにおける初期状態確率πはすべて同じ大きさであってよい。以上の方法により、推定モデルにおけるHMMのパラメータA、Bが決定される。
【0027】
推定モデル出力部56は、パラメータA、Bが決定されることで生成される推定モデルを推定装置10に出力する。推定モデルは記憶部17に記憶される。
【0028】
以下、状態推定部14による撮影対象40の状態の推定方法の一例を説明する。初めに状態推定部14は、特徴抽出部13により抽出されたHOGから観測符号vを推定する。HOGから観測符号vの推定方法は、例えば上記説明したHOG平均を計算する方法、k-NN法又はSVMを使用する方法である。その後、状態推定部14はHMMを用いて観測符号と状態Sに基づいて、次の状態Sを推定する。図8は、推定装置10による推定方法を示した図である。特徴(HOG)及び観測符号は複数のフレーム(例えば5フレーム)ごとに算出されるが、状態Sはフレームごとに推定されてもよい。状態Sは、複数の観測符号からHMMを用いることで、まとめて推定されてもよい。
【0029】
出力部15は、状態推定部14により推定された結果を出力する。出力部15は、画像取得部11により取得された画像、検出部12による検出結果又は特徴抽出部13により抽出される特徴を出力してもよい。
【0030】
記録部16は、状態推定部14により推定された結果を記憶部17に記録する。記録部16は、画像取得部11により取得された画像、検出部12による検出結果又は特徴抽出部13により抽出される特徴を対応する推定結果と対応付けて記憶部17に記録してもよい。また、複数のカメラで撮影している場合には、記録部16は、画像を撮影対象としている人物又は撮影する部屋と対応付けて記録してもよい。また、出力部15は、記憶部17に記録されたデータを出力してもよい。
【0031】
図9は、表示装置30に表示されるGUIの一例である。領域111に患者の名前と時刻が入力されると、領域112に、人物及び時刻に対応する画像が表示され、領域113には患者及び時刻に対応する状態が表示される。領域111には開始時刻と終了時刻が入力されてもよく、領域112には連続して画像が表示されてもよく、領域113には連続して状態が表示されてもよい。領域113には開始時刻から終了時刻の状態がグラフにより表示されてもよく、領域112に画像が連続して表示されるのに対応して領域113に表示される状態の数が増加してもよい。
【0032】
図10は、推定装置10の動作を示すフローチャートである。初めに画像取得部11が画像を取得する(ステップS11)。その後、検出部12が、画像から撮影対象40を検出する(ステップS12)。特徴抽出部13が、撮像対象の特徴を抽出する(ステップS13)。状態推定部14が、推定モデルを用いて特徴から状態を推定する(ステップS14)。出力部15が推定結果を出力する(ステップS15)。
【0033】
図11は、推定モデル生成装置50の動作を示すフローチャートである。推定モデル生成装置50は、状態遷移を示すデータを集計することでHMMの遷移確率分布Aを算出する(ステップS21)。その後、推定モデル生成装置50はDataset-Xを用いた学習により観測符号付与モデルを生成する(ステップS22)。推定モデル生成装置50は、Dataset-Yに含まれるデータに対して観測符号を付与する(ステップS23)。その後、推定モデル生成装置50は、観測符号ごとに特徴から正規分布を算出し、出力確率分布Bを算出する(ステップS24)。
【0034】
(実験結果)
推定装置10による状態の推定精度を実験により検証した。実験には部屋の内部を写した画像と画像に含まれる撮像対象である人の状態とを結びつけたデータを用いた。画像に結び付けられた人の状態は、画像を見て人間が判定した状態である。全ての画像のうち、画像に結び付けられた状態と、画像から推定装置により推定された状態とが同じである割合を、推定装置10による推定精度とした。
図12は、推定装置10による推定精度を示す図である。3つの部屋を撮影した画像を用いて検証を行った。Room1で撮影した画像は、合計で22度連続して撮影した画像であり、最長連続撮影時間は12.60時間である。Room2で撮影した画像は、合計で10度連続して撮影した画像であり、最長連続撮影時間は12.19時間である。Room3で撮影した画像は、合計で27度連続して撮影した画像であり、最長連続撮影時間は11.91時間である。
推定モデルの生成方法は、Mean+HMM、kNN+HMM、SVM+HMMの3種類行った。Mean+HMM、kNN+HMM、SVM+HMMはそれぞれ表1、表2、表3に示した方法である。3つの部屋における推定精度の平均値では3つの方法全てで80%を超える推定精度が得られた。また、SVM+HMMにおいては84%を超える推定精度を得ることができた。
【0035】
このように、本実施形態によれば、隠れマルコフモデルを用いることにより、推定精度を向上させることができる。
【0036】
〈他の実施形態〉
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【0037】
上述した実施形態における推定装置10及び推定モデル生成装置50の一部又は全部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記録装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものを含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。また、推定装置10及び推定モデル生成装置50の一部または全部は、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【符号の説明】
【0038】
1 推定システム、10 推定装置、20 カメラ、30 表示装置、40 撮影対象、50 推定モデル生成装置、11 画像取得部、12 検出部、13 特徴抽出部、14 状態推定部、15 出力部、16 記憶部、51 状態シーケンス取得部、52 遷移確率分布算出部、53 観測符号付与モデル生成部、54 観測符号付与部、55 出力確率分布算出部、56 推定モデル出力部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12