特表-17150211IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コニカミノルタ株式会社の特許一覧
再表2017-150211行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム
<>
  • 再表WO2017150211-行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム 図000003
  • 再表WO2017150211-行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム 図000004
  • 再表WO2017150211-行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム 図000005
  • 再表WO2017150211-行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム 図000006
  • 再表WO2017150211-行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム 図000007
  • 再表WO2017150211-行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム 図000008
  • 再表WO2017150211-行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム 図000009
  • 再表WO2017150211-行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム 図000010
  • 再表WO2017150211-行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム 図000011
  • 再表WO2017150211-行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム 図000012
  • 再表WO2017150211-行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム 図000013
< >
(19)【発行国】日本国特許庁(JP)
【公報種別】再公表特許(A1)
(11)【国際公開番号】WO/0
(43)【国際公開日】2017年9月8日
【発行日】2018年12月27日
(54)【発明の名称】行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム
(51)【国際特許分類】
   G06T 7/20 20170101AFI20181130BHJP
   G06T 7/00 20170101ALI20181130BHJP
【FI】
   G06T7/20 300A
   G06T7/00 350C
【審査請求】未請求
【予備審査請求】未請求
【全頁数】16
【出願番号】特願2018-503027(P2018-503027)
(21)【国際出願番号】PCT/0/0
(22)【国際出願日】2017年2月17日
(31)【優先権主張番号】特願2016-40656(P2016-40656)
(32)【優先日】2016年3月3日
(33)【優先権主張国】JP
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ
(71)【出願人】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】110001254
【氏名又は名称】特許業務法人光陽国際特許事務所
(72)【発明者】
【氏名】指田 岳彦
(72)【発明者】
【氏名】青木 義満
(72)【発明者】
【氏名】工藤 雄太
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA04
5L096DA02
5L096FA12
5L096FA32
5L096FA67
5L096FA69
5L096GA30
5L096GA51
5L096HA03
5L096HA11
5L096JA11
5L096JA26
5L096KA04
(57)【要約】
行動認識の学習及び認識時において、時間の長さ(フレーム数)ではなく、現認識時点の行動の前の行動を安定的かつ適度に考慮に入れて行動認識に用いるデータ量を決定し、行動認識の高精度化及び効率化を図る。人などの対象の行動が時系列に記録されたデータ(動画像データ)から抽出された対象の行動の特徴量の時系列データに基づき当該行動を認識する認識部(12)を有する行動認識装置において、認識部は、特徴量の時系列データを時系列に追って各時点の行動を認識し、区別しない同一行動の連続は1行動として、時系列に並ぶ所定の行動数の認識が終わった後は、前記所定の行動数前に遡った時点から現認識時点(802,804)までの時系列に並ぶ複数(図8において3)の行動に相当する特徴量の時系列データに基づき、現認識時点の行動を認識する。
【特許請求の範囲】
【請求項1】
対象の行動が時系列に記録されたデータから抽出された前記対象の行動の特徴量の時系列データに基づき当該行動を認識する認識部を有する行動認識装置において、
前記認識部は、前記特徴量の時系列データを時系列に追って各時点の行動を認識し、区別しない同一行動の連続は1行動として、時系列に並ぶ所定の行動数の認識が終わった後は、前記所定の行動数前に遡った時点から現認識時点までの時系列に並ぶ複数の行動に相当する前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする行動認識装置。
【請求項2】
前記認識部は、時系列に並ぶ前記所定の行動数の認識が終わる前は、現認識時点までの全ての前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする請求項1に記載の行動認識装置。
【請求項3】
異なる行動に切り替わる行動の境界点を判定する行動境界判定部を有し、
前記認識部は、前記行動境界判定部が出力した境界点を基準に、前記所定の行動数前に遡った時点から現認識時点までの時系列に並ぶ複数の行動に相当する前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする請求項1又は請求項2に記載の行動認識装置。
【請求項4】
前記行動境界判定部は、前記認識部が出力する行動の尤度情報に基づき、異なる行動に切り替わる行動の境界点を判定することを特徴とする請求項3に記載の行動認識装置。
【請求項5】
前記行動境界判定部は、尤度が高い順位が1位と2位の差が所定の閾値以下となった時点を前記境界点と判定することを特徴とする請求項4に記載の行動認識装置。
【請求項6】
前記行動境界判定部は、所定長さの時間内に前記認識部から複数回出力される尤度情報の統計量に基づき、異なる行動に切り替わる行動の境界点を判定することを特徴とする請求項4又は請求項5に記載の行動認識装置。
【請求項7】
前記行動境界判定部は、前記対象の位置情報に基づき、異なる行動に切り替わる行動の境界点を判定することを特徴とする請求項3に記載の行動認識装置。
【請求項8】
対象の行動が時系列に記録された訓練データから抽出された対象の行動の特徴量の時系列データに基づき当該行動を認識するとともに学習する認識部を有する行動学習装置において、
前記認識部は、前記特徴量の時系列データを時系列に追って各時点の行動を認識し、区別しない同一行動の連続は1行動として、時系列に並ぶ所定の行動数の認識が終わった後は、前記所定の行動数前に遡った時点から現認識時点までの時系列に並ぶ複数の行動に相当する前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする行動学習装置。
【請求項9】
対象の行動が時系列に記録されたデータから抽出された前記対象の行動の特徴量の時系列データに基づき当該行動を認識する認識部としてコンピューターを機能させるための行動認識プログラムにおいて、
前記認識部は、前記特徴量の時系列データを時系列に追って各時点の行動を認識し、区別しない同一行動の連続は1行動として、時系列に並ぶ所定の行動数の認識が終わった後は、前記所定の行動数前に遡った時点から現認識時点までの時系列に並ぶ複数の行動に相当する前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする行動認識プログラム。
【請求項10】
前記認識部は、時系列に並ぶ前記所定の行動数の認識が終わる前は、現認識時点までの全ての前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする請求項9に記載の行動認識プログラム。
【請求項11】
異なる行動に切り替わる行動の境界点を判定する行動境界判定部として前記コンピューターを機能させ、
前記認識部は、前記行動境界判定部が出力した境界点を基準に、前記所定の行動数前に遡った時点から現認識時点までの時系列に並ぶ複数の行動に相当する前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする請求項9又は請求項10に記載の行動認識プログラム。
【請求項12】
前記行動境界判定部は、前記認識部が出力する行動の尤度情報に基づき、異なる行動に切り替わる行動の境界点を判定することを特徴とする請求項11に記載の行動認識プログラム。
【請求項13】
前記行動境界判定部は、尤度が高い順位が1位と2位の差が所定の閾値以下となった時点を前記境界点と判定することを特徴とする請求項12に記載の行動認識プログラム。
【請求項14】
前記行動境界判定部は、所定長さの時間内に前記認識部から複数回出力される尤度情報の統計量に基づき、異なる行動に切り替わる行動の境界点を判定することを特徴とする請求項12又は請求項13に記載の行動認識プログラム。
【請求項15】
前記行動境界判定部は、前記対象の位置情報に基づき、異なる行動に切り替わる行動の境界点を判定することを特徴とする請求項11に記載の行動認識プログラム。
【請求項16】
対象の行動が時系列に記録された訓練データから抽出された対象の行動の特徴量の時系列データに基づき当該行動を認識するとともに学習する認識部としてコンピューターを機能させるための行動学習プログラムにおいて、
前記認識部は、前記特徴量の時系列データを時系列に追って各時点の行動を認識し、区別しない同一行動の連続は1行動として、時系列に並ぶ所定の行動数の認識が終わった後は、前記所定の行動数前に遡った時点から現認識時点までの時系列に並ぶ複数の行動に相当する前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする行動学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習に係り、対象の行動を学習し認識する分野に関する。
【背景技術】
【0002】
従来、コンピューターに明示的にプログラミングすることなく行動させるようにする機械学習が研究されている。予測する目標の値が訓練データに含まれている教師あり学習には、クラスを予測する識別(分類)問題などがある。信頼性の向上、処理の高速化等が課題となっている。また、人等の監視動画を入力データとし、人等の行動を認識する分野がある。この場合、連続する画像フレームを解析することとなる。あるフレーム列から行動が認識されると、その後のフレーム列における行動(現認識時点の行動)を認識するにあたり、現認識時点の行動の前の行動を考慮することができる。
非特許文献1に記載の発明は、Trancated BPTT:LSTM等でもちいられる学習テクニックであり、学習時に、所定のフレームよりも前の特徴は参照しないようにする。基本的に一定の時間(フレーム数)で行動認識に用いるデータ量を決める。
特許文献1に記載の発明は、ジェスチャ認識においてジェスチャの始点を明示的に与える代わりに、現フレームを終点として固定長分の観測信号を生成し、HMMモデルデータベースに入力し各ジェスチャの尤度を求める。同発明も、基本的に一定の時間(フレーム数)で行動認識に用いるデータ量を決める。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−87089号公報
【非特許文献】
【0004】
【非特許文献1】David Zipser(Department of Cognitive Science,University of California, San Diego,La Jolla, CA 92093) Subgrouping reduces complexity and speeds up learning in recurrent networks
【非特許文献2】Graves, Alan, Abdel-rahman Mohamed, and Geoffrey Hinton. "Speech recognition with deep recurrent neural networks." Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013.
【非特許文献3】Hochreiter, Sepp, and Jurgen Schmidhuber. "Long short-term memory." Neural computation 9.8 (1997): 1735-1780.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、一定の時間(フレーム数)で行動認識に用いるデータ量を決める手法では、その一定の時間(フレーム数)内に、認識したい行動の一単位が入らない場合が生じたり、現認識時点の行動の前の行動が入らない場合が生じたり、逆に無駄に多く前の行動が入ったりするなど、人による動作の早い遅い、状況によるばらつきなどが吸収できず、十分な認識精度が得られなかった。
【0006】
本発明は以上の従来技術における問題に鑑みてなされたものであって、行動認識の学習及び認識時において、時間の長さ(フレーム数)ではなく、現認識時点の行動の前の行動を安定的かつ適度に考慮に入れて行動認識に用いるデータ量を決定し、行動認識の高精度化及び効率化を図ることを課題とする。
【課題を解決するための手段】
【0007】
以上の課題を解決するための本発明の行動認識装置は、対象の行動が時系列に記録されたデータから抽出された前記対象の行動の特徴量の時系列データに基づき当該行動を認識する認識部を有する行動認識装置において、前記認識部は、前記特徴量の時系列データを時系列に追って各時点の行動を認識し、区別しない同一行動の連続は1行動として、時系列に並ぶ所定の行動数の認識が終わった後は、前記所定の行動数前に遡った時点から現認識時点までの時系列に並ぶ複数の行動に相当する前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする。
【0008】
また本発明の行動学習装置は、対象の行動が時系列に記録された訓練データから抽出された対象の行動の特徴量の時系列データに基づき当該行動を認識するとともに学習する認識部を有する行動学習装置において、前記認識部は、前記特徴量の時系列データを時系列に追って各時点の行動を認識し、区別しない同一行動の連続は1行動として、時系列に並ぶ所定の行動数の認識が終わった後は、前記所定の行動数前に遡った時点から現認識時点までの時系列に並ぶ複数の行動に相当する前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする。
【0009】
また本発明の行動認識プログラムは、対象の行動が時系列に記録されたデータから抽出された前記対象の行動の特徴量の時系列データに基づき当該行動を認識する認識部としてコンピューターを機能させるための行動認識プログラムにおいて、前記認識部は、前記特徴量の時系列データを時系列に追って各時点の行動を認識し、区別しない同一行動の連続は1行動として、時系列に並ぶ所定の行動数の認識が終わった後は、前記所定の行動数前に遡った時点から現認識時点までの時系列に並ぶ複数の行動に相当する前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする。
【0010】
また本発明の行動学習プログラムは、対象の行動が時系列に記録された訓練データから抽出された対象の行動の特徴量の時系列データに基づき当該行動を認識するとともに学習する認識部としてコンピューターを機能させるための行動学習プログラムにおいて、前記認識部は、前記特徴量の時系列データを時系列に追って各時点の行動を認識し、区別しない同一行動の連続は1行動として、時系列に並ぶ所定の行動数の認識が終わった後は、前記所定の行動数前に遡った時点から現認識時点までの時系列に並ぶ複数の行動に相当する前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする。
【発明の効果】
【0011】
本発明によれば、行動認識の学習及び認識時において、時間の長さ(フレーム数)ではなく、現認識時点の行動の前の所定数の行動を含めるとともにそれ以前の行動を含めないように行動認識に用いるデータ量を決定するので、人による行動の早い遅い等、条件の変化に依らず、行動認識の高精度化及び効率化を図ることができる。
【図面の簡単な説明】
【0012】
図1】本発明の一実施形態に係る行動認識(学習)装置が含まれるシステム概念図である。
図2A】認識部が行動認識のために用いる長さの特徴量列を示した概念図であり、全フレームとする場合の比較例を示す。
図2B】認識部が行動認識のために用いる長さの特徴量列を示した概念図であり、本発明例を示す。
図3A】認識部が行動認識のために用いる長さの特徴量列を枠で示した概念図であり、枠の長さを一定のフレーム数で固定とした比較例を示す。
図3B】認識部が行動認識のために用いる長さの特徴量列を枠で示した概念図であり、本発明例を示す。
図4】Recurrent Neural Networkの概要図である。
図5】Long-Short Term Memoryの概要図である。
図6】本発明の一実施形態に係る行動境界判定の一例を説明するための尤度遷移図である。
図7】本発明の一実施形態に係る行動境界判定の他の一例を説明するための尤度遷移図である。
図8A】認識部が行動認識のために用いる長さの特徴量列を枠で示した概念図であり、ある一つの行動境界判定前の枠を示す。
図8B】認識部が行動認識のために用いる長さの特徴量列を枠で示した概念図であり、ある一つの行動境界判定後の枠を示す。
【発明を実施するための形態】
【0013】
以下に本発明の一実施形態につき図面を参照して説明する。以下は本発明の一実施形態であって本発明を限定するものではない。
【0014】
例えば、高齢者介護見守りの現場において、高齢者の生活状況や事故を認識する仕組みを考える。
この場合、認識する対象は高齢者やその介助者の行動である。具体的に認識する高齢者の行動としては、”就寝”、”起床”、”離床”、”座る”、”しゃがむ”, ”歩行”、”食事”、”トイレ”、”外出”,”モノを取る”の様な日常生活における基本的な行動や転倒、転落などの事故時に起きる行動が対象となる。介助者の行動としては”歩行”などの基本的な行動の他、”支える”、”抱える”,”食べさせる”などの介助動作も対象となる。また、複数人による行動である”会話”等も考えられる。
これらの行動の内、多くの行動はその前に強く関係がある。例えば“就寝”という行動はベッドに歩いて近づき、横たわった後に発生することが考えられるが、歩行中突然就寝状態になる事は考えにくい。このことは、前の行動は現在の行動を決定する上で非常に重要な情報であることを示している。そのため、行動認識において過去の情報を使うことは精度の向上のために非常に重要である。
従来は、過去10フレーム分の特徴量を認識に用いる、という様に、固定時間分の情報を認識に用いる場合が多かったが、人によって行動の速度は異なり、また同一人物でも繰り返しバラつきがあり、固定時間を設定するのは難しかった。本発明は、そうした問題に対応するための提案である。
【0015】
図1に本実施形態の行動認識(学習)装置が含まれるシステム概念図を示す。コンピューターを以下の各部として機能させるための行動認識(学習)プログラムをコンピューターにインストールすることで本行動認識(学習)装置が構成される。本実施形態において、対象は人間であり、「対象の行動が時系列に記録されたデータ」は動画像データである。前処理部11に動画像データ12が入力される。学習時は前処理部11に訓練データである動画像データ12が入力される。人間が観察するなどして得られた正解行動を与える教師あり学習などを行う。
この動画像データ12の各フレームから行動の特徴量13を抽出して特徴量の時系列データ(以下「特徴量列」)14を生成する。特徴量列14が認識部15に入力される。
行動認識(学習)装置は、特徴量列14を入力とし、入力された特徴量列14に基づき対象の行動(認識結果16)とその尤度17を出力する認識部15と、尤度17や特徴量などに基づき異なる行動に切り替わる行動の境界点を判定する行動境界判定部18により構成される。
【0016】
認識部15は、特報量列14を時系列に追って各時点の行動を認識する。いま、認識対象としている時点を現認識時点とする。認識部15は、現認識時点に相当する動画像データに写っている行動とその尤度を求めることとなる。本実施形態では、フレーム単位で行動とその尤度を出力する。
特徴量はもっとも簡単には動画像の各フレームの画像そのものを用いる場合が考えられる。それ以外の特徴量としては、画像から抜き出したオプティカルフローや人物位置・姿勢、また時間情報などを用いる場合も考えられる。本実施形態では、1例として人物姿勢(関節点座標)を用いることとする。
【0017】
従来の手法としては、通常、特徴量は現認識時点のフレームを起点として過去10フレーム分の特徴量をまとめて与えるなど、固定長の値を与えるか、過去の情報から切れ目なく全フレーム与える様な形が多かったが、本発明の手法では同じ行動が連続したフレームは常に同じ行動をしている=1行動として、学習・認識対象のフレームの行動を起点とした所定の行動数N分のフレームの特徴量を与える形とする。行動数Nには、現認識時点の行動も含まれるので、遡る過去の行動数としては(N−1)である。
【0018】
行動数のカウント方法を、上述した”座る” ”歩行” ”食事”を例にして説明する。”歩行”を区別しない同一行動とする場合は、”歩行”が数フレームに亘って連続しても、1行動としてカウントする。また、”食事”を区別しない同一行動とする場合は、”食事” が数フレームに亘って連続しても、1行動としてカウントする。しかし、”食事”を例えば”手に持った食器から食物を取り上げて口に運ぶ行動(行動A)”と ”テーブル上の食器から食物を取り上げて口に運ぶ行動(行動B)”とに細分化して行動ラベルを定義する場合には、行動Aの連続は1行動としてカウントし、行動Bの連続は1行動としてカウントする一方で、これら2つの行動が、例えば行動A、行動Bと連続すれば、2行動とカウントする。”歩行”及び ”座る”のそれぞれを区別しない同一行動とする場合は、”歩行” ”座る” ”歩行”と連続すれば3行動とカウントする。
【0019】
図2は、認識部が行動認識のために用いる長さの特徴量列を示した概念図であり、図2Aは全フレームとする場合の比較例を示し、図2BはN=3とする場合の本発明例を示す。図中の数字は各行動ラベルを示し、数値を囲む矩形はその行動が連続する長さを示す。
図3は、認識部が行動認識のために用いる長さの特徴量列を枠で示した概念図であり、図3Aは枠301の長さを一定のフレーム数で固定とした比較例を示し、図3BはN=3とする場合の本発明例におけるフレーム数可変の枠302,303を示す。
認識部15は、行動境界判定部18が出力した境界点19を基準に、所定の行動数前に遡った時点(図2B図3Bの例で2つ遡る)から現認識時点までの時系列に並ぶ複数の行動に相当する特徴量列20に基づき、現認識時点の行動を認識する。
【0020】
図3Aの比較例の場合のように認識部が行動認識に用いる特徴量列が時間(フレーム数)で固定長の場合、人によって行動の速度は異なるため、人によって固定長の範囲内に行動を特定するのに有効な前行動情報が含まれない場合が考えられるが、図3Bの本発明例のように行動数を基準にし、認識部15が行動認識に用いる特徴量列のフレーム数を可変にすることで、現認識時点の行動につながる過去の行動の情報を十分に得ることが可能となる。
【0021】
現認識時点の行動は過去の行動と強く関連付けられているといっても時間的に離れた情報は相対的に関係性が薄いと考えられ、図2Aの比較例のように全フレームを使った場合多くのノイズが含まれてしまい、ノイズ比の大きい過大なデータ量による負荷、認識精度の低下が懸念される。見るべき行動数をある程度限定することで、現認識時点の行動を推定するのに重要な情報のみを選択的に扱うことが可能になり、行動認識の高精度化及び効率化を図ることができる。
【0022】
図2B図3Bのように、N=3として、3行動分の特徴量列が得られるのは、時系列に並ぶ所定の行動数(図2B図3Bの例で2つ)の認識が終わった後である。
動画の最初のフレームが入力されている時など行動数Nに入力フレーム数が満たない時のために、認識部15は、時系列に並ぶ所定の行動数(図2B図3Bの例で2つ)の認識が終わる前は、現認識時点までの全ての特徴量列に基づき、現認識時点の行動を認識する。
【0023】
本発明においてどの様に特徴量を用いて行動を認識するかは、機械学習手法の一種である、図4に概要図を示すRecurrent Neural Network(以下RNN)に図5に概要図を示すLong-Short Term Memory (以下LSTM)を組み合わせた思想に基づく。RNNはDeep Learningで用いられるニューラルネットワークベースの1手法であり、過去の入力による行動認識の結果を内部状態として保持することが可能であり、そのため前後の入力で関連がある言語音声分野や動画像解析で多く使われている手法である。ただしRNNではニューラルネットワークにおける勾配消失問題から直近の情報しか保持できないため、LSTMを組み合わせる形を採用する。LSTMは過去の情報をより長期間保持することが可能な技術であり、両者を組み合わせることで長期間の過去のデータを現在の入力の学習・認識に生かすことが可能となる。(RNNの詳細は非特許文献2を、LSTMの詳細は非特許文献3を参照。)
また、RNN+LSTMは内部状態をフラグによりリセットすることが可能である。リセットしない場合、それまでの全フレームの情報が内部的に保持される形となるが、リセットすると内部状態は初期化されるため、過去の入力はないものと扱われる。そのため、本実施形態では、行動境界判定部18の判定に基づき、この内部状態をリセットし再度特徴量を入力する処理が学習認識に用いる行動をリセットする処理として用いられる。
機械学習手法を用いているため、認識部15は認識の前に学習を行う必要がある。学習は正解行動が既知の動画像データを入力として、各行動を区別するために有効な特徴量が何かを学習していく。認識時は学習によって作られた処理に基づいて認識を行う。
【0024】
行動数に応じた入力について、学習時は行動の境界が既知であるため行動数に応じてリセットを行えばよいが、認識時は事前に行動が未知であり同様のことができないため、行動境界判定部18が必要となる。
なお、認識に用いる手法はLSTMに限定されない。
【0025】
認識部15は認識結果16として、対象の各行動の尤度を出力する。たとえば10種の行動を認識する場合、10個の行動それぞれについて、尤度が算出され、最も尤度が高い行動を認識結果16として出力する。
一方、行動境界判定部18は、認識中の行動の切れ目となる境界点を判定し、認識部15へ入力する。一般的には認識結果16が異なる行動に変わった場合(1位の入れ替わりがあった場合)、そこを境界点とすれば良いと考えられるが、その場合、認識結果16が異なる行動に変わった後に初めて境界点の判定が行われるため判定が遅れてしまう。特に行動間の境界がわかりにくい場合、判定の遅れはより大きくなることが予想される。これらの事象を押さえる手として、行動認識の各行動の尤度情報を用いる方法が考えられる。
【0026】
ひとつには、行動の認識結果の最大尤度とそれ以外の尤度との差が所定の値よりも小さい場合に行動終了と判定する方法が考えられる。最大尤度と他の尤度の差が縮んだり最大尤度が低下したりしているということは行動の移り変わりが発生している可能性が高いため、こうした判定は有効である。
例えば、行動境界判定部18は、図6に示すように尤度が高い順位が1位と2位の差601が所定の閾値以下となった時点を境界点と判定する。すなわち、図6において、1−6フレームで行動0が1位であるが、1位が行動0から行動2に切り替わる7フレーム目やそれ以降で判定せず、6フレーム目の1位と2位の差601が所定の閾値以下となった時点で判定を下すことで早期に判定する。これにより、7フレーム目では、認識部15は行動認識に用いる特徴量列を新たな境界点から遡った行動数の範囲に更新し、行動認識の精度を向上する。
【0027】
また、行動の認識結果には、ある程度の誤判定やノイズが混じることが予想され、認識結果の1つの瞬間値に基づき境界判定を行った場合、図7に示すように連続行動中に1フレームだけ別の行動が誤認識されただけで観測された行動数が1から3に大きく変化してしまう。すなわち、図7において、1−10フレームの行動0と、12−30フレームの行動0との間に11フレーム目で行動1が1位になっただけで、3行動がカウントされてしまう。この場合、11フレーム目の行動1はノイズとしてカットし、行動0が続いていると判定すべきである。
こうした場合に対応するため、行動境界判定部18は、現認識時点のフレームを起点に所定の範囲の各行動尤度値の平均や中央値などの統計量に基づき、この平均や中央値などの統計量が入れ替わった段階で行動が切り替わったと判定する方法が考えられる。また、最大尤度を示す行動が変化した後所定の時間(フレーム数)内で最大尤度を示す行動が変化しなかった場合行動終了と判定する方法も考えられる。この場合は統計量として「最頻値」を用いれば実施できる。
【0028】
また、尤度を使わない場合も考えられる。例えば寝るという行為は一般にベッド上で行われる。そのため、ベッドから離れた瞬間のように、位置情報に基づき異なる行動に切り替わる行動の境界点を判定する。例えば、浴室になどの特定の範囲に入った/出たという位置情報に基づき異なる行動に切り替わる行動の境界点を判定する。
この位置情報は、図1に示した動画像データ12を解析して得られる対象の位置情報としてもよいし、別途、位置検出部21から入力されるものとしてもよい。位置検出部21は、動画像データ12に基づくものではなく、対象の位置を検出するセンシングシステムと連携するものである。これにより、入浴などの行動を行う場所が限定されている場合に認識精度を向上することができる。
【0029】
尤度を使わない別の例としては、所定のフレーム数以上同じ行動が続いた場合に境界点があったと判定する方法も考えられる。これは、あまりに長い期間同じ行動が続いている場合、その前の行動と次の行動の関連性は弱まっていると考えられるためである。
図8に、認識部15が行動認識のために用いる長さの特徴量列を枠801、803で示し、現認識時点を指針802,804で示す。
図8Aに示す現認識時点802で行動境界判定部18が行動の境界を判定した場合、次の行動の認識(図8Bに示す現認識時点804における認識)では、認識部15は図8Bに示す枠803のように認識に用いる過去の行動を1行動分ずらして認識を行う。
【0030】
以上のように本発明の行動認識装置は、対象の行動が時系列に記録されたデータから抽出された前記対象の行動の特徴量の時系列データに基づき当該行動を認識する認識部を有する行動認識装置において、前記認識部は、前記特徴量の時系列データを時系列に追って各時点の行動を認識し、区別しない同一行動の連続は1行動として、時系列に並ぶ所定の行動数の認識が終わった後は、前記所定の行動数前に遡った時点から現認識時点までの時系列に並ぶ複数の行動に相当する前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする。
【0031】
前記行動認識装置において好ましくは、前記認識部は、時系列に並ぶ前記所定の行動数の認識が終わる前は、現認識時点までの全ての前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする。
【0032】
また前記行動認識装置において好ましくは、異なる行動に切り替わる行動の境界点を判定する行動境界判定部を有し、前記認識部は、前記行動境界判定部が出力した境界点を基準に、前記所定の行動数前に遡った時点から現認識時点までの時系列に並ぶ複数の行動に相当する前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする。
【0033】
また前記行動認識装置において好ましくは、前記行動境界判定部は、前記認識部が出力する行動の尤度情報に基づき、異なる行動に切り替わる行動の境界点を判定することを特徴とする。
【0034】
また前記行動認識装置において好ましくは、前記行動境界判定部は、尤度が高い順位が1位と2位の差が所定の閾値以下となった時点を前記境界点と判定することを特徴とする。
【0035】
また前記行動認識装置において好ましくは、前記行動境界判定部は、所定長さの時間内に前記認識部から複数回出力される尤度情報の統計量に基づき、異なる行動に切り替わる行動の境界点を判定することを特徴とする。
【0036】
また前記行動認識装置において好ましくは、前記行動境界判定部は、前記対象の位置情報に基づき、異なる行動に切り替わる行動の境界点を判定することを特徴とする。
【0037】
また本発明の行動学習装置は、対象の行動が時系列に記録された訓練データから抽出された対象の行動の特徴量の時系列データに基づき当該行動を認識するとともに学習する認識部を有する行動学習装置において、前記認識部は、前記特徴量の時系列データを時系列に追って各時点の行動を認識し、区別しない同一行動の連続は1行動として、時系列に並ぶ所定の行動数の認識が終わった後は、前記所定の行動数前に遡った時点から現認識時点までの時系列に並ぶ複数の行動に相当する前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする。
【0038】
また本発明の行動認識プログラムは、対象の行動が時系列に記録されたデータから抽出された前記対象の行動の特徴量の時系列データに基づき当該行動を認識する認識部としてコンピューターを機能させるための行動認識プログラムにおいて、前記認識部は、前記特徴量の時系列データを時系列に追って各時点の行動を認識し、区別しない同一行動の連続は1行動として、時系列に並ぶ所定の行動数の認識が終わった後は、前記所定の行動数前に遡った時点から現認識時点までの時系列に並ぶ複数の行動に相当する前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする。
【0039】
前記行動認識プログラムにおいて好ましくは、前記認識部は、時系列に並ぶ前記所定の行動数の認識が終わる前は、現認識時点までの全ての前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする。
【0040】
また前記行動認識プログラムにおいて好ましくは、異なる行動に切り替わる行動の境界点を判定する行動境界判定部として前記コンピューターを機能させ、前記認識部は、前記行動境界判定部が出力した境界点を基準に、前記所定の行動数前に遡った時点から現認識時点までの時系列に並ぶ複数の行動に相当する前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする。
【0041】
また前記行動認識プログラムにおいて好ましくは、前記行動境界判定部は、前記認識部が出力する行動の尤度情報に基づき、異なる行動に切り替わる行動の境界点を判定することを特徴とする。
【0042】
また前記行動認識プログラムにおいて好ましくは、前記行動境界判定部は、尤度が高い順位が1位と2位の差が所定の閾値以下となった時点を前記境界点と判定することを特徴とする。
【0043】
また前記行動認識プログラムにおいて好ましくは、前記行動境界判定部は、所定長さの時間内に前記認識部から複数回出力される尤度情報の統計量に基づき、異なる行動に切り替わる行動の境界点を判定することを特徴とする。
【0044】
また前記行動認識プログラムにおいて好ましくは、前記行動境界判定部は、前記対象の位置情報に基づき、異なる行動に切り替わる行動の境界点を判定することを特徴とする。
【0045】
また本発明の行動学習プログラムは、対象の行動が時系列に記録された訓練データから抽出された対象の行動の特徴量の時系列データに基づき当該行動を認識するとともに学習する認識部としてコンピューターを機能させるための行動学習プログラムにおいて、前記認識部は、前記特徴量の時系列データを時系列に追って各時点の行動を認識し、区別しない同一行動の連続は1行動として、時系列に並ぶ所定の行動数の認識が終わった後は、前記所定の行動数前に遡った時点から現認識時点までの時系列に並ぶ複数の行動に相当する前記特徴量の時系列データに基づき、現認識時点の行動を認識することを特徴とする。
【産業上の利用可能性】
【0046】
本発明は、コンピューター等による人等の対象の行動認識に利用することができる。
【符号の説明】
【0047】
11 前処理部
12 動画像データ
13 特徴量
14 特徴量列
15 認識部
16 認識結果
17 尤度
18 行動境界判定部
19 境界点
20 特徴量列
21 位置検出部
図1
図2A
図2B
図3A
図3B
図4
図5
図6
図7
図8A
図8B
【国際調査報告】