特開2023-180277 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特開2023-180277行動推定装置、行動推定方法、及び、記録媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023180277

(43)【公開日】2023-12-21

(54)【発明の名称】行動推定装置、行動推定方法、及び、記録媒体

(51)【国際特許分類】

G06T 7/20 20170101AFI20231214BHJP

A61B 5/11 20060101ALI20231214BHJP

【ＦＩ】

G06T7/20 300Z

A61B5/11 120

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2022093414

(22)【出願日】2022-06-09

(71)【出願人】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100107331

【弁理士】

【氏名又は名称】中村聡延

(74)【代理人】

【識別番号】100104765

【弁理士】

【氏名又は名称】江上達夫

(74)【代理人】

【識別番号】100131015

【弁理士】

【氏名又は名称】三輪浩誉

(72)【発明者】

【氏名】安藤隆平

(72)【発明者】

【氏名】馬場崎康敬

【テーマコード（参考）】

4C038

5L096

【Ｆターム（参考）】

4C038VA20

4C038VB01

4C038VB35

4C038VC05

5L096AA06

5L096CA04

5L096DA03

5L096FA66

5L096FA69

5L096FA72

5L096HA11

5L096JA03

5L096MA07

(57)【要約】

【課題】人物の行動を推定する際の推定精度を向上させることが可能な行動推定装置等を提供する。
【解決手段】行動推定装置において、人物特徴抽出手段は、時系列な複数の画像から検出された人物の特徴を抽出する。物体特徴抽出手段は、時系列な複数の画像から検出された物体の特徴を抽出する。周辺特徴抽出手段は、時系列な複数の画像における人物の周辺の特徴を抽出する。特徴集約手段は、人物の特徴と、物体の特徴と、人物の周辺の特徴と、を集約するための集約処理を行う。行動推定処理手段は、集約処理の処理結果を含む情報に基づき、複数の画像に含まれる人物の行動を推定するための処理を行う。
【選択図】図３

【特許請求の範囲】

【請求項1】

時系列な複数の画像から検出された人物の特徴を抽出する人物特徴抽出手段と、
前記複数の画像から検出された物体の特徴を抽出する物体特徴抽出手段と、
前記複数の画像における前記人物の周辺の特徴を抽出する周辺特徴抽出手段と、
前記人物の特徴と、前記物体の特徴と、前記人物の周辺の特徴と、を集約するための集約処理を行う特徴集約手段と、
前記集約処理の処理結果を含む情報に基づき、前記複数の画像に含まれる前記人物の行動を推定するための処理を行う行動推定処理手段と、
を有する行動推定装置。

【請求項2】

前記特徴集約手段は、前記集約処理として、前記人物の特徴に対して前記人物の周辺の特徴を統合する第１の処理を行うことにより第１の処理結果を取得し、当該第１の処理結果に対して前記物体の特徴を統合する第２の処理を行うことにより第２の処理結果を取得し、当該第２の処理結果に対して前記人物の周辺の特徴を統合する第３の処理を行うことにより第３の処理結果を取得する処理を行う請求項１に記載の行動推定装置。

【請求項3】

前記特徴集約手段は、前記第２の処理において用いられる所定のパラメータに基づいて前記人物の行動に対する前記物体の関連度を示す情報である関連度情報を取得し、当該取得した関連度情報を用いて前記第３の処理を行う請求項２に記載の行動推定装置。

【請求項4】

前記行動推定処理手段は、前記集約処理の処理結果を含む情報の代わりに、前記第１の処理結果を含む情報から前記人物の行動を推定した第１の推定結果と、前記第２の処理結果を含む情報から前記人物の行動を推定した第２の推定結果と、前記第３の処理結果を含む情報から前記人物の行動を推定した第３の推定結果と、に基づき、前記複数の画像に含まれる前記人物の行動を推定する請求項２に記載の行動推定装置。

【請求項5】

時系列な複数の画像から検出された人物の特徴を抽出する人物特徴抽出手段と、
前記複数の画像から検出された物体の特徴を抽出する物体特徴抽出手段と、
前記複数の画像における前記人物の周辺の特徴を抽出する周辺特徴抽出手段と、
前記人物の特徴と、前記物体の特徴と、前記人物の周辺の特徴と、を統合するための統合処理を行う特徴統合手段と、
前記人物の特徴と、前記統合処理の処理結果と、を集約するための集約処理を行う集約処理手段と、
前記集約処理の処理結果を含む情報に基づき、前記複数の画像に含まれる人物の行動を推定する行動推定処理手段と、
を有する行動推定装置。

【請求項6】

時系列な複数の画像から検出された人物の特徴を抽出し、
前記複数の画像から検出された物体の特徴を抽出し、
前記複数の画像における前記人物の周辺の特徴を抽出し、
前記人物の特徴と、前記物体の特徴と、前記人物の周辺の特徴と、を集約するための集約処理を行い、
前記集約処理の処理結果を含む情報に基づき、前記複数の画像に含まれる前記人物の行動を推定する行動推定方法。

【請求項7】

時系列な複数の画像から検出された人物の特徴を抽出し、
前記複数の画像から検出された物体の特徴を抽出し、
前記複数の画像における前記人物の周辺の特徴を抽出し、
前記人物の特徴と、前記物体の特徴と、前記人物の周辺の特徴と、を統合するための統合処理を行い、
前記人物の特徴と、前記統合処理の処理結果と、を集約するための集約処理を行い、
前記集約処理の処理結果を含む情報に基づき、前記複数の画像に含まれる人物の行動を推定する行動推定方法。

【請求項8】

【請求項9】

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、人物の行動推定に利用可能な技術に関する。

【背景技術】

【0002】

画像内の人物の行動を推定するための技術が従来知られている。

【0003】

具体的には、例えば、特許文献１には、撮像装置が生成した画像に映る人の姿勢特徴を抽出し、当該画像に映る人の周辺物体の形状、位置又は種別を示す周辺特徴を抽出し、当該姿勢特徴と当該姿勢特徴に関連付けて設定された周辺特徴の重要度とに基づいて当該周辺特徴をフィルタリングし、当該姿勢特徴とフィルタリングされた当該周辺特徴とに基づいて当該画像に映る人の行動クラスを推定する技術が開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】国際公開ＷＯ２０１８／１６３５５５号

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかし、特許文献１に開示された手法によれば、例えば、画像内の人物と、当該人物の周辺物体と、の間の関連性を考慮していないため、当該人物の行動を正しく推定できない場合がある、という問題点がある。また、特許文献１に開示された手法によれば、例えば、人物の周辺の物体を検出できなかった場合において、当該人物の行動を正しく推定できない場合がある、という問題点がある。

【0006】

すなわち、特許文献１に開示された手法によれば、人物の行動を推定する際の推定精度が低下してしまう、という上記の問題点に応じた課題が生じている。

【0007】

本開示の１つの目的は、人物の行動を推定する際の推定精度を向上させることが可能な行動推定装置を提供することにある。

【課題を解決するための手段】

【0008】

本開示の一つの観点では、行動推定装置は、時系列な複数の画像から検出された人物の特徴を抽出する人物特徴抽出手段と、前記複数の画像から検出された物体の特徴を抽出する物体特徴抽出手段と、前記複数の画像における前記人物の周辺の特徴を抽出する周辺特徴抽出手段と、前記人物の特徴と、前記物体の特徴と、前記人物の周辺の特徴と、を集約するための集約処理を行う特徴集約手段と、前記集約処理の処理結果を含む情報に基づき、前記複数の画像に含まれる前記人物の行動を推定するための処理を行う行動推定処理手段と、を有する。

【0009】

本開示の他の観点では、行動推定装置は、時系列な複数の画像から検出された人物の特徴を抽出する人物特徴抽出手段と、前記複数の画像から検出された物体の特徴を抽出する物体特徴抽出手段と、前記複数の画像における前記人物の周辺の特徴を抽出する周辺特徴抽出手段と、前記人物の特徴と、前記物体の特徴と、前記人物の周辺の特徴と、を統合するための統合処理を行う特徴統合手段と、前記人物の特徴と、前記統合処理の処理結果と、を集約するための集約処理を行う集約処理手段と、前記集約処理の処理結果を含む情報に基づき、前記複数の画像に含まれる人物の行動を推定する行動推定処理手段と、を有する。

【0010】

本開示のさらに他の観点では、行動推定方法は、時系列な複数の画像から検出された人物の特徴を抽出し、前記複数の画像から検出された物体の特徴を抽出し、前記複数の画像における前記人物の周辺の特徴を抽出し、前記人物の特徴と、前記物体の特徴と、前記人物の周辺の特徴と、を集約するための集約処理を行い、前記集約処理の処理結果を含む情報に基づき、前記複数の画像に含まれる前記人物の行動を推定する。

【0011】

本開示のさらに他の観点では、行動推定方法は、時系列な複数の画像から検出された人物の特徴を抽出し、前記複数の画像から検出された物体の特徴を抽出し、前記複数の画像における前記人物の周辺の特徴を抽出し、前記人物の特徴と、前記物体の特徴と、前記人物の周辺の特徴と、を統合するための統合処理を行い、前記人物の特徴と、前記統合処理の処理結果と、を集約するための集約処理を行い、前記集約処理の処理結果を含む情報に基づき、前記複数の画像に含まれる人物の行動を推定する。

【0012】

本開示のさらに他の観点では、記録媒体は、時系列な複数の画像から検出された人物の特徴を抽出し、前記複数の画像から検出された物体の特徴を抽出し、前記複数の画像における前記人物の周辺の特徴を抽出し、前記人物の特徴と、前記物体の特徴と、前記人物の周辺の特徴と、を集約するための集約処理を行い、前記集約処理の処理結果を含む情報に基づき、前記複数の画像に含まれる前記人物の行動を推定する処理をコンピュータに実行させるプログラムを記録する。

【0013】

本開示のさらに他の観点では、記憶媒体は、時系列な複数の画像から検出された人物の特徴を抽出し、前記複数の画像から検出された物体の特徴を抽出し、前記複数の画像における前記人物の周辺の特徴を抽出し、前記人物の特徴と、前記物体の特徴と、前記人物の周辺の特徴と、を統合するための統合処理を行い、前記人物の特徴と、前記統合処理の処理結果と、を集約するための集約処理を行い、前記集約処理の処理結果を含む情報に基づき、前記複数の画像に含まれる人物の行動を推定する処理をコンピュータに実行させるプログラムを記録する。

【発明の効果】

【0014】

本開示によれば、人物の行動を推定する際の推定精度を向上させることが可能となる。

【図面の簡単な説明】

【0015】

【図1】第１実施形態に係る行動推定装置の概略を示す図。

【図2】第１実施形態に係る行動推定装置のハードウェア構成を示すブロック図。

【図3】第１実施形態に係る行動推定装置の機能構成を示すブロック図。

【図4】第１実施形態に係る行動推定装置に含まれる周辺特徴抽出部の構成の一例を示す図。

【図5】第１実施形態に係る行動推定装置に含まれる特徴集約部の構成の一例を示す図。

【図6】第１実施形態に係る行動推定装置に含まれる集約処理部の構成の一例を示す図。

【図7】第１実施形態に係る行動推定装置において行われる処理を説明するためのフローチャート。

【図8】第１実施形態の変形例に係る行動推定装置に含まれる特徴集約部の構成の一例を示す図。

【図9】図８の特徴集約部に複数の特徴統合部を設けた場合の構成例を示す図。

【図10】第１実施形態の変形例に係る行動推定装置に含まれる特徴集約部の構成の一例を示す図。

【図11】第２実施形態に係る行動推定装置の機能構成を示すブロック図。

【図12】第２実施形態に係る行動推定装置において行われる処理を説明するためのフローチャート。

【発明を実施するための形態】

【0016】

以下、図面を参照して、本開示の好適な実施形態について説明する。

【0017】

＜第１実施形態＞
［概略構成］
図１は、第１実施形態に係る行動推定装置の概略を示す図である。行動推定装置１００は、例えば、パーソナルコンピュータ等のような装置により構成されている。また、行動推定装置１００は、カメラ等により撮影された映像に含まれる人物の行動を推定するための行動推定処理を行う。また、行動推定装置１００は、前述の行動推定処理により得られた推定結果を外部装置へ出力する。

【0018】

［ハードウェア構成］
図２は、第１実施形態に係る行動推定装置のハードウェア構成を示すブロック図である。行動推定装置１００は、図２に示すように、インタフェース（ＩＦ）１１１と、プロセッサ１１２と、メモリ１１３と、記録媒体１１４と、データベース（ＤＢ）１１５と、を備える。

【0019】

ＩＦ１１１は、外部装置との間でデータの入出力を行う。また、カメラ等により撮影された映像は、ＩＦ１１１を通じて行動推定装置１００に入力される。また、行動推定装置１００により得られた推定結果は、必要に応じ、ＩＦ１１１を通じて外部装置へ出力される。

【0020】

プロセッサ１１２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、行動推定装置１００の全体を制御する。具体的には、プロセッサ１１２は、行動推定処理等の処理を行う。

【0021】

メモリ１１３は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより構成される。メモリ１１３は、プロセッサ１１２による各種の処理の実行中に作業メモリとしても使用される。

【0022】

記録媒体１１４は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、行動推定装置１００に対して着脱可能に構成される。記録媒体１１４は、プロセッサ１１２が実行する各種のプログラムを記録している。行動推定装置１００が各種の処理を実行する際には、記録媒体１１４に記録されているプログラムがメモリ１１３にロードされ、プロセッサ１１２により実行される。

【0023】

ＤＢ１１５には、例えば、ＩＦ１１１を通じて入力された情報、及び、プロセッサ１１２の処理により得られた処理結果等が格納される。

【0024】

［機能構成］
図３は、第１実施形態に係る行動推定装置の機能構成を示すブロック図である。行動推定装置１００は、図３に示すように、映像取得部１１と、人物領域検出部１２と、人物特徴抽出部１３と、物体領域検出部１４と、物体特徴抽出部１５と、周辺特徴抽出部１６と、特徴集約部１７と、行動推定処理部１８と、を有している。

【0025】

映像取得部１１は、カメラ等により撮影された映像を取得し、当該取得した映像を人物領域検出部１２、物体領域検出部１４及び周辺特徴抽出部１６に対して出力する。

【0026】

なお、以降においては、特に言及のない限り、１または複数の人物と、１または複数の物体と、が映像取得部１１により取得された映像に含まれているものとして説明を行う。

【0027】

人物領域検出部１２は、映像取得部１１により得られた映像に含まれる時系列な複数の画像各々において人物を検出するための処理を行う。また、人物領域検出部１２は、前述の処理により検出した人物に対応する画像内の領域を人物領域として特定可能な情報である人物検出情報を生成し、当該生成した人物検出情報を人物特徴抽出部１３へ出力する。人物領域は、例えば、画像内の１または複数の人物の周囲を個々に囲む矩形領域であればよい。

【0028】

人物特徴抽出部１３は、例えば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）等のようなニューラルネットワーク（以降、ＮＮと略記する）を用いて処理を行うように構成されている。また、人物特徴抽出部１３は、人物領域検出部１２により得られた人物検出情報に基づいて画像内の人物領域を特定し、当該特定した人物領域に含まれる人物の特徴を抽出するための処理を行う。具体的には、人物特徴抽出部１３は、人物領域に含まれる各画素の画素値に基づいて算出した複数の特徴量のうちの所定の条件を満たす特徴量である人物特徴量を、当該人物領域に含まれる人物の特徴として抽出する処理を行う。また、人物特徴抽出部１３は、人物検出情報に複数の人物領域が含まれている場合には、当該複数の人物領域各々に対して前述の処理を行う。そして、人物特徴抽出部１３は、画像内の人物領域において算出された人物特徴量に係る情報である人物特徴情報を生成し、当該生成した人物特徴情報を特徴集約部１７へ出力する。

【0029】

物体領域検出部１４は、映像取得部１１により得られた映像に含まれる時系列な複数の画像各々において人物以外の所定の物体を検出するための処理を行う。また、物体領域検出部１４は、前述の処理により検出した所定の物体に対応する画像内の領域を物体領域として特定可能な情報である物体検出情報を生成し、当該生成した物体検出情報を物体特徴抽出部１５へ出力する。物体領域は、例えば、画像内の１または複数の物体の周囲を個々に囲む矩形領域であればよい。また、物体領域検出部１４は、例えば、工事現場を撮影した映像が映像取得部１１により得られた場合には、ショベルカー及びスコップ等の物体を所定の物体として検出するための処理を行えばよい。

【0030】

物体特徴抽出部１５は、例えば、ＣＮＮ等のようなＮＮを用いて処理を行うように構成されている。また、物体特徴抽出部１５は、物体領域検出部１４により得られた物体検出情報に基づいて画像内の物体領域を特定し、当該特定した物体領域に含まれる物体の特徴を抽出するための処理を行う。具体的には、物体特徴抽出部１５は、例えば、物体領域に含まれる各画素の画素値に基づいて算出した複数の特徴量のうちの所定の条件を満たす特徴量である物体特徴量を、当該物体領域に含まれる物体の特徴として抽出する処理を行う。また、物体特徴抽出部１５は、物体検出情報に複数の物体領域が含まれている場合には、当該複数の物体領域各々に対して前述の処理を行う。そして、物体特徴抽出部１５は、画像内の物体領域において算出された物体特徴量に係る情報である物体特徴情報を生成し、当該生成した物体特徴情報を特徴集約部１７へ出力する。

【0031】

周辺特徴抽出部１６は、映像取得部１１により得られた映像に含まれる時系列な複数の画像各々の特徴を抽出し、当該抽出した特徴を表す情報を周辺特徴情報として特徴集約部１７へ出力する。また、周辺特徴抽出部１６は、例えば、図４に示すように、特徴抽出部１６１と、領域分割部１６２と、を有している。図４は、第１実施形態に係る行動推定装置に含まれる周辺特徴抽出部の構成の一例を示す図である。

【0032】

特徴抽出部１６１は、例えば、ＣＮＮ等のようなＮＮを用いて処理を行うように構成されている。また、特徴抽出部１６１は、映像取得部１１により得られた画像の全体から、画素値に基づいて算出した複数の特徴量のうちの所定の条件を満たす特徴量である周辺特徴量を、当該画像の特徴として抽出する処理を行う。換言すると、特徴抽出部１６１は、映像取得部１１から出力される映像に含まれる画像の特徴として、当該画像に含まれる人物の特徴と、当該画像に含まれる物体の特徴と、当該人物及び当該物体以外の背景部分の特徴と、を抽出する。なお、前述の背景部分の特徴は、人物領域検出部１２により検出された人物の周辺の特徴と言い換えてもよい。また、前述の背景部分の特徴には、例えば、人物領域検出部１２により検出された人物から一定距離以上離れた位置に存在する物体の特徴、及び、物体領域検出部１４により検出される所定の物体以外の物体の特徴等が含まれる。

【0033】

領域分割部１６２は、特徴抽出部１６１により抽出された複数の特徴各々に対応する領域を矩形領域として分割する処理を行う。また、領域分割部１６２は、前述の領域分割により分割された各矩形領域において算出された周辺特徴量に係る情報である周辺特徴情報を生成し、当該生成した周辺特徴情報を特徴集約部１７へ出力する。

【0034】

なお、本実施形態の周辺特徴抽出部１６は、特徴抽出部１６１の後に領域分割部１６２を設けたものに限らず、領域分割部１６２の後に特徴抽出部１６１を設けたものであってもよい。このような場合においては、例えば、映像取得部１１から出力される映像に含まれる画像全体を複数の矩形領域に分割する処理が領域分割部１６２により行われるとともに、当該複数の矩形領域の中から当該画像の特徴を表す領域を抽出する処理と、当該抽出した領域において算出された周辺特徴量に係る情報である周辺特徴情報を生成する処理と、が特徴抽出部１６１により行われるようにすればよい。

【0035】

特徴集約部１７は、人物特徴抽出部１３から時系列に取得したｎ（ｎ≧２）個の人物特徴情報に含まれる複数の人物特徴量に対応する人物特徴量列と、物体特徴抽出部１５から時系列に取得したｎ個の物体特徴情報に含まれる複数の物体特徴量に対応する物体特徴量列と、周辺特徴抽出部１６から時系列に取得したｎ個の周辺特徴情報に含まれる複数の周辺特徴量に対応する周辺特徴量列と、を集約するための処理を行う。また、特徴集約部１７は、前述の処理の処理結果に応じて得られた特徴ベクトルを行動推定処理部１８へ出力する。前述の特徴ベクトルは、特徴集約部１７により行われた集約処理の処理結果を含む情報として言い換えることができる。また、特徴集約部１７は、例えば、図５に示すように、時系列特徴統合部１７１Ａ、１７１Ｂ及び１７１Ｃと、集約処理部１７２と、を有している。図５は、第１実施形態に係る行動推定装置に含まれる特徴集約部の構成の一例を示す図である。

【0036】

時系列特徴統合部１７１Ａは、人物特徴量列に含まれる複数の人物特徴量を１つに統合するための処理を行う。具体的には、時系列特徴統合部１７１Ａは、例えば、人物特徴量列に含まれる複数の人物特徴量の平均値を算出することにより、当該複数の人物特徴量を１つの人物特徴量に統合する。または、時系列特徴統合部１７１Ａは、例えば、人物特徴量列に含まれる複数の人物特徴量と、Ｓｏｕｒｃｅ－ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ機構を有するＮＮと、を用いた重み付け加算を行うことにより、当該複数の人物特徴量を１つの人物特徴量に統合する。なお、時系列特徴統合部１７１ＡにおいてＳｏｕｒｃｅ－ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ機構を有するＮＮを用いた処理が行われる場合には、例えば、当該機構のｑｕｅｒｙに重み付け対象の人物特徴量が入力され、かつ、当該機構のｋｅｙ及びｖａｌｕｅに同一の人物特徴量列が入力されるようにすればよい。また、時系列特徴統合部１７１Ａは、人物特徴情報または人物特徴量列に基づいて特定可能な人物毎に、複数の人物特徴量を１つに統合するための処理を行う。そのため、時系列特徴統合部１７１Ａは、人物特徴情報または人物特徴量列に基づいて特定可能な人物がｋ（ｋ≧１）人である場合には、複数の人物特徴量を１つに統合するための処理を行うことにより、ｋ個の統合後の人物特徴量を取得する。

【0037】

時系列特徴統合部１７１Ｂは、物体特徴量列に含まれる複数の物体特徴量を１つに統合するための処理を行う。具体的には、時系列特徴統合部１７１Ｂは、例えば、物体特徴量列に含まれる複数の物体特徴量の平均値を算出することにより、当該複数の物体特徴量を１つの物体特徴量に統合する。または、時系列特徴統合部１７１Ｂは、例えば、物体特徴量列に含まれる複数の物体特徴量と、Ｓｏｕｒｃｅ－ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ機構を有するＮＮと、を用いた重み付け加算を行うことにより、当該複数の物体特徴量を１つの物体特徴量に統合する。なお、時系列特徴統合部１７１ＢにおいてＳｏｕｒｃｅ－ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ機構を有するＮＮを用いた処理が行われる場合には、例えば、当該機構のｑｕｅｒｙに重み付け対象の物体特徴量が入力され、かつ、当該機構のｋｅｙ及びｖａｌｕｅに同一の物体特徴量列が入力されるようにすればよい。また、時系列特徴統合部１７１Ｂは、物体特徴情報または物体特徴量列に基づいて特定可能な物体毎に、複数の物体特徴量を１つに統合するための処理を行う。そのため、時系列特徴統合部１７１Ｂは、物体特徴情報または物体特徴量列に基づいて特定可能な物体がｍ（ｍ≧１）個である場合には、複数の物体特徴量を１つに統合するための処理を行うことにより、ｍ個の統合後の物体特徴量を取得する。

【0038】

時系列特徴統合部１７１Ｃは、周辺特徴量列に含まれる複数の周辺特徴量を１つに統合するための処理を行う。具体的には、時系列特徴統合部１７１Ｃは、例えば、周辺特徴量列に含まれる複数の周辺特徴量の平均値を算出することにより、当該複数の周辺特徴量を１つの周辺特徴量に統合する。または、時系列特徴統合部１７１Ｃは、例えば、周辺特徴量列に含まれる複数の周辺特徴量と、Ｓｏｕｒｃｅ－ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ機構を有するＮＮと、を用いた重み付け加算を行うことにより、当該複数の周辺特徴量を１つの周辺特徴量に統合する。なお、時系列特徴統合部１７１ＣにおいてＳｏｕｒｃｅ－ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ機構を有するＮＮを用いた処理が行われる場合には、例えば、当該機構のｑｕｅｒｙに重み付け対象の周辺特徴量が入力され、かつ、当該機構のｋｅｙ及びｖａｌｕｅに同一の周辺特徴量列が入力されるようにすればよい。また、時系列特徴統合部１７１Ｃは、周辺特徴情報または周辺特徴量列に基づいて特定可能な矩形領域毎に、複数の周辺特徴量を１つに統合するための処理を行う。そのため、時系列特徴統合部１７１Ｃは、周辺特徴情報または周辺特徴量列に基づいて特定可能な矩形領域がｐ（ｐ≧１）個である場合には、複数の周辺特徴量を１つに統合するための処理を行うことにより、ｐ個の統合後の周辺特徴量を取得する。

【0039】

集約処理部１７２は、時系列特徴統合部１７１Ａにより得られたｋ個の人物特徴量と、時系列特徴統合部１７１Ｂにより得られたｍ個の物体特徴量と、時系列特徴統合部１７１Ｃにより得られたｐ個の周辺特徴量と、を集約するための処理を行う。また、集約処理部１７２は、前述の処理の処理結果に応じた特徴ベクトルを取得し、当該取得した特徴ベクトルを行動推定処理部１８へ出力する。なお、本実施形態によれば、前述の処理の処理結果に応じて生成した特徴ベクトルが行動推定処理部１８へ出力される限りにおいては、複数の集約処理部１７２が直列に接続されていてもよい。また、集約処理部１７２は、例えば、図６に示すように、特徴統合部１７２Ａ、１７２Ｂ及び１７２Ｃを有している。図６は、第１実施形態に係る行動推定装置に含まれる集約処理部の構成の一例を示す図である。

【0040】

特徴統合部１７２Ａは、人物の特徴に対して当該人物の周辺の特徴を統合する第１の処理を行うことにより第１の処理結果を取得し、当該取得した第１の処理結果を特徴統合部１７２Ｂへ出力する。また、特徴統合部１７２Ａは、人物特徴量及び周辺特徴量を統合することにより、当該人物特徴量に対して当該周辺特徴量を関連付けた特徴量であるシーン特徴量が得られるように予め学習されたＮＮを有している。また、特徴統合部１７２Ａは、ｋ個の人物特徴量と、ｐ個の周辺特徴量と、をＳｏｕｒｃｅ－ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ機構を有するＮＮに入力して重み付け加算を行うことにより、当該ｋ個の人物特徴量各々に対応するｋ個のシーン特徴量を取得する。具体的には、特徴統合部１７２Ａは、Ｓｏｕｒｃｅ－ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ機構のｑｕｅｒｙに重み付け対象の１つの人物特徴量を入力し、かつ、当該機構のｋｅｙ及びｖａｌｕｅにｐ個の周辺特徴量を有する特徴量列を入力して重み付け加算を行う処理をｋ回繰り返すことにより、ｋ個の人物特徴量各々に対応するｋ個のシーン特徴量を取得する。すなわち、シーン特徴量は、カメラ等により撮影された映像に含まれるｋ人の人物各々についての撮影シーン（例えば撮影時の背景等）の特徴を表す特徴量として取得される。

【0041】

特徴統合部１７２Ｂは、特徴統合部１７２Ａから出力される第１の処理結果に対して物体の特徴を統合する第２の処理を行うことにより第２の処理結果を取得し、当該取得した第２の処理結果を特徴統合部１７２Ｃへ出力する。また、特徴統合部１７２Ｂは、シーン特徴量及び物体特徴量を統合することにより、当該シーン特徴量に対して当該物体特徴量を関連付けた特徴量である状況特徴量が得られるように予め学習されたＮＮを有している。また、特徴統合部１７２Ｂは、特徴統合部１７２Ａにより得られたｋ個のシーン特徴量と、ｍ個の物体特徴量と、をＳｏｕｒｃｅ－ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ機構を有するＮＮに入力して重み付け加算を行うことにより、当該ｋ個のシーン特徴量各々に対応するｋ個の状況特徴量を取得する。具体的には、特徴統合部１７２Ａは、Ｓｏｕｒｃｅ－ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ機構のｑｕｅｒｙに重み付け対象の１つのシーン特徴量を入力し、かつ、当該機構のｋｅｙ及びｖａｌｕｅにｍ個の物体特徴量を有する特徴量列を入力して重み付け加算を行う処理をｋ回繰り返すことにより、ｋ個のシーン特徴量各々に対応するｋ個の状況特徴量を取得する。すなわち、状況特徴量は、カメラ等により撮影された映像に含まれるｋ人の人物各々についての撮影状況（例えば撮影時における人物と物体との間の距離等）の特徴を表す特徴量として取得される。

【0042】

また、特徴統合部１７２Ｂは、カメラ等により撮影されたｋ人の人物各々の行動に対するｍ個の物体の関連度を示す情報である関連度情報を取得する。

【0043】

具体的には、特徴統合部１７２Ｂは、例えば、Ｓｏｕｒｃｅ－ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ機構におけるＳｏｆｔｍａｘ層の処理結果として得られる重みのエントロピーの値を関連度情報として取得する。そして、例えば、前述のエントロピーの値が相対的に大きい場合には、カメラ等により撮影された人物の行動に対する物体の関連度が相対的に高いと推定することができる。また、例えば、前述のエントロピーの値が相対的に小さい場合には、カメラ等により撮影された人物の行動に対する物体の関連度が相対的に低いと推定することができる。

【0044】

一方、特徴統合部１７２Ｂは、例えば、人物の行動に対応する物体が画像内に存在しない場合において、所望の一の物体を模するような特徴量として設定されたダミー特徴量に対する重みが最も大きくなるように学習されていてもよい。このような学習が行われた場合には、特徴統合部１７２Ｂは、ｍ個の物体特徴量に対してダミー特徴量（ベクトル列）を追加した特徴量列をＳｏｕｒｃｅ－ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ機構のｋｅｙ及びｖａｌｕｅに入力して重み付け加算を行った際の、当該ダミー特徴量に対して設定された重みの値を関連度情報として取得することができる。そして、例えば、ダミー特徴量に対して設定された重みの値が相対的に小さい場合には、カメラ等により撮影された人物の行動に対する物体の関連度が相対的に低いと推定することができる。また、例えば、ダミー特徴量に対して設定された重みの値が相対的に大きい場合には、カメラ等により撮影された人物の行動に対する物体の関連度が相対的に高いと推定することができる。なお、本実施形態においては、ダミー特徴量を用いた学習の代わりに、人物の行動と物体との間の関係性を示すラベルを有する教師データを用いた学習が特徴統合部１７２Ｂにおいて行われてもよい。このような学習が行われた場合であっても、特徴統合部１７２Ｂは、ダミー特徴量に対して設定された重みの大きさと同様の関連度情報を取得することができる。

【0045】

特徴統合部１７２Ｃは、特徴統合部１７２Ｂから出力される第２の処理結果に対して人物の周辺の特徴を統合する第３の処理を行うことにより第３の処理結果を取得し、当該取得した第３の処理結果を含む情報を行動推定処理部１８へ出力する。また、特徴統合部１７２Ｃは、状況特徴量及び周辺特徴量を統合することにより、当該状況特徴量に対して当該周辺特徴量を関連付けた特徴量である統合特徴量が得られるように予め学習されたＮＮを有している。また、特徴統合部１７２Ｃは、特徴統合部１７２Ｂにより得られたｋ個の状況特徴量及び関連度情報と、ｐ個の周辺特徴量と、をＳｏｕｒｃｅ－ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ機構を有するＮＮに入力して重み付け加算を行うことにより、当該ｋ個の状況特徴量各々に対応するｋ個の統合特徴量を取得する。具体的には、特徴統合部１７２Ｃは、Ｓｏｕｒｃｅ－ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ機構のｑｕｅｒｙに重み付け対象の１つの状況特徴量を入力し、かつ、当該機構のｋｅｙ及びｖａｌｕｅにｐ個の周辺特徴量を有する特徴量列を入力して重み付け加算を行う処理をｋ回繰り返すことにより、ｋ個の状況特徴量各々に対応するｋ個の統合特徴量を取得する。また、特徴統合部１７２Ｃは、前述の重み付け加算における重みを関連度情報に基づいて設定する。具体的には、特徴統合部１７２Ｃは、例えば、関連度情報から特定したエントロピーの値をエントロピーの最大値で除して得られた値を、前述の重み付け加算における重みとして設定する。または、特徴統合部１７２Ｃは、例えば、関連度情報から特定したダミー特徴量に対する重みの値を「１」から減じて得られた値を、前述の重み付け加算における重みとして設定する。また、特徴統合部１７２Ｃは、ｋ個の統合特徴量に応じた特徴ベクトルを取得し、当該取得した特徴ベクトルを行動推定処理部１８へ出力する。

【0046】

ここで、以上に述べたような特徴統合部１７２Ｃの処理によれば、例えば、人物の行動に対する関連度が高い物体が画像内に存在する場合に、重み付け加算における重みが相対的に小さな値に設定される。そして、このような場合には、特徴統合部１７２Ｃは、相対的に小さな統合特徴量を含む特徴ベクトルを取得する。

【0047】

また、以上に述べたような特徴統合部１７２Ｃの処理によれば、例えば、人物の行動に対する関連度が高い物体が画像内に存在しない場合に、及び、人物の行動に対する関連度が高い物体を検出できなかった場合に、重み付け加算における重みが相対的に大きな値に設定される。そして、これらのような場合には、特徴統合部１７２Ｃは、相対的に大きな統合特徴量を含む特徴ベクトルを取得する。

【0048】

すなわち、以上に述べた特徴統合部１７２Ｃの処理によれば、カメラ等により撮影された映像に含まれるｋ人の人物各々の行動推定に利用可能な統合特徴量を有する特徴ベクトルを取得することができる。

【0049】

行動推定処理部１８は、特徴集約部１７により得られた特徴ベクトルを推定モデル１８Ａに入力することにより得られる出力情報に基づき、映像取得部１１から出力される映像に含まれる人物の行動を推定するための行動推定処理を行う。また、行動推定処理部１８は、前述の行動推定処理により得られた推定結果を外部装置へ出力する。

【0050】

推定モデル１８Ａは、例えば、ＣＮＮ等のようなニューラルネットワークを有するモデルとして構成されている。また、推定モデル１８Ａは、例えば、時系列な複数の画像から得られた特徴ベクトルと、当該複数の画像に含まれる人物の行動を所定の複数の行動のうちの一の行動として表した行動ラベルと、を関連付けた教師データによる機械学習を行った学習済のモデルとして構成されている。そのため、推定モデル１８Ａは、前述の出力情報として、特徴集約部１７により得られた特徴ベクトルを所定の複数の行動各々に対応する複数のクラスのうちのいずれかに分類した場合におけるクラス毎の蓋然性を示す値である行動スコアを得ることができる。また、推定モデル１８Ａが前述のような構成を有する場合において、行動推定処理部１８は、前述の行動スコアに含まれる複数の値の中で最も大きな値を有する一のクラスに対応する一の行動を、映像取得部１１から出力される映像に含まれる人物の行動の推定結果として得ることができる。

【0051】

なお、本実施形態においては、人物特徴抽出部１３、物体特徴抽出部１５、及び／または、周辺特徴抽出部１６の処理において用いられるＮＮのパラメータが、行動推定処理部１８により推定結果が得られた際の推定モデル１８Ａのパラメータに基づいて調整されるようにしてもよい。また、本実施形態においては、特徴集約部１７の処理において用いられるＮＮのパラメータが、行動推定処理部１８により推定結果が得られた際の推定モデル１８Ａのパラメータに基づいて調整されるようにしてもよい。

【0052】

［処理フロー］
続いて、第１実施形態に係る行動推定装置において行われる処理の流れについて説明する。図７は、第１実施形態に係る行動推定装置において行われる処理を説明するためのフローチャートである。

【0053】

まず、行動推定装置１００は、１または複数の人物と、１または複数の物体と、を含む映像を取得する（ステップＳ１１）。

【0054】

次に、行動推定装置１００は、ステップＳ１１により取得した映像に含まれる時系列な複数の画像の中から人物及び物体を検出する（ステップＳ１２）。

【0055】

続いて、行動推定装置１００は、ステップＳ１２により検出された人物及び物体の特徴を抽出する（ステップＳ１３）。また、行動推定装置１００は、ステップＳ１２により検出された人物の周辺の特徴を抽出する（ステップＳ１３）。

【0056】

続いて、行動推定装置１００は、ステップＳ１２により検出された人物の行動に対するステップＳ１２により検出された物体の関連度を示す関連度情報を用いつつ、ステップＳ１３により抽出された各特徴を集約する（ステップＳ１４）。

【0057】

最後に、行動推定装置１００は、ステップＳ１４により集約された各特徴に基づき、ステップＳ１２により検出された人物の行動を推定する（ステップＳ１５）。

【0058】

以上に述べたように、本実施形態によれば、映像に含まれる人物の特徴と、当該映像に含まれる物体の特徴と、当該映像に含まれる人物の周辺の特徴と、を用い、当該映像に含まれる人物の行動の推定に用いられる特徴量を算出することができる。また、以上に述べたように、本実施形態によれば、映像に含まれる人物の行動の推定に用いられる特徴量の算出結果を、当該人物の行動に対する物体の関連度に応じて異ならせることができる。そのため、本実施形態によれば、人物の行動を推定する際の推定精度を向上させることができる。また、本実施形態によれば、例えば、人物の行動に対する関連度が高い物体が画像内に存在しない場合、及び、人物の行動に対する関連度が高い物体を検出できなかった場合のいずれの場合においても、人物の行動を推定する際の推定精度を極力低下させないようにすることができる。

【0059】

［変形例］
以下、上記の実施形態に対する変形例を説明する。なお、以降においては、簡単のため、既述の処理等を適用可能な部分に関する具体的な説明を適宜省略するものとする。

【0060】

（変形例１）
本実施形態によれば、行動推定処理部１８が、推定モデル１８Ａの代わりに、第１の推定モデル、第２の推定モデル、及び、第３の推定モデルを有していてもよい。第１の推定モデル及び第２の推定モデルは、推定モデル１８Ａとは異なる重みを有するＮＮにより時系列な複数の画像に含まれる人物の行動を推定できるように学習されていればよい。また、第３の推定モデルは、推定モデル１８Ａと同様の重みを有するＮＮにより時系列な複数の画像に含まれる人物の行動を推定できるように学習されていればよい。

【0061】

また、前述のような場合において、行動推定処理部１８は、第１の推定モデルに対してシーン特徴量を含む第１の特徴ベクトルを入力することにより第１の推定結果を取得し、第２の推定モデルに対して状況特徴量を含む第２の特徴ベクトルを入力することにより第２の推定結果を取得し、第３の推定モデルに対して統合特徴量を含む第３の特徴ベクトルを入力することにより第３の推定結果を取得するようにしてもよい。また、前述のような場合において、行動推定処理部１８は、第１の推定結果と、第２の推定結果と、第３の推定結果と、に基づき、映像取得部１１から出力される映像に含まれる人物の行動を推定するようにしてもよい。具体的には、行動推定処理部１８は、第１の推定結果と、第２の推定結果と、第３の推定結果と、における複数の推定結果が一致した場合に、当該複数の推定結果に対応する行動を最終的な推定結果とするようにしてもよい。また、前述のような場合において、例えば、シーン特徴量に基づいて算出された損失が第１の推定モデルにおける損失関数に適用され、状況特徴量に基づいて算出された損失が第２の推定モデルにおける損失関数に適用され、統合特徴量に基づいて算出された損失が第３の推定モデルにおける損失関数に適用されるようにしてもよい。前述の損失としては、例えば、交差エントロピー損失等を利用することができる。

【0062】

（変形例２）
図８は、第１実施形態の変形例に係る行動推定装置に含まれる特徴集約部の構成の一例を示す図である。本実施形態によれば、特徴集約部１７の代わりに、図８に示すような特徴集約部２７が行動推定装置１００に設けられていてもよい。

【0063】

特徴集約部２７は、時系列特徴統合部２７１Ａ、２７１Ｂ、２７１Ｃ及び２７１Ｄと、特徴統合部２７２と、集約処理部２７３と、を有している。

【0064】

時系列特徴統合部２７１Ａは、時系列特徴統合部１７１Ａと同様の処理を行うことが可能な機能を有し、人物特徴量列に含まれる複数の人物特徴量を統合することにより得られた人物特徴量を集約処理部２７３へ出力する。

【0065】

時系列特徴統合部２７１Ｂは、時系列特徴統合部１７１Ａと同様の処理を行うことが可能な機能を有し、人物特徴量列に含まれる複数の人物特徴量を統合することにより得られた人物特徴量を特徴統合部２７２へ出力する。

【0066】

時系列特徴統合部２７１Ｃは、時系列特徴統合部１７１Ｂと同様の処理を行うことが可能な機能を有し、物体特徴量列に含まれる複数の物体特徴量を統合することにより得られた物体特徴量を特徴統合部２７２へ出力する。

【0067】

時系列特徴統合部２７１Ｄは、時系列特徴統合部１７１Ｃと同様の処理を行うことが可能な機能を有し、周辺特徴量列に含まれる複数の周辺特徴量を統合することにより得られた周辺特徴量を特徴統合部２７２へ出力する。

【0068】

特徴統合部２７２は、時系列特徴統合部２７１Ｂにより得られた人物特徴量と、時系列特徴統合部２７１Ｃにより得られた物体特徴量と、時系列特徴統合部２７１Ｄにより得られた周辺特徴量と、に基づき、特徴統合部１７２Ａ、１７２Ｂ及び１７２Ｃと同様の処理を行うことにより統合特徴量を取得し、当該取得した統合特徴量を集約処理部２７３へ出力する。換言すると、特徴統合部２７２は、集約処理部１７２により行われる各処理のうち、統合特徴量に応じた特徴ベクトルの取得に係る処理以外の処理を行うことができるように構成されている。また、特徴統合部２７２は、集約処理部１７２と同様の関連度情報を取得することができるとともに、当該関連度情報を用いた処理を行うことができるように構成されている。

【0069】

集約処理部２７３は、時系列特徴統合部２７１Ａから出力される人物特徴量と、特徴統合部２７２から出力される統合特徴量と、に基づいて特徴ベクトルを取得し、当該取得した特徴ベクトルを行動推定処理部１８へ出力する。なお、集約処理部２７３は、特徴ベクトルを取得するための処理として、例えば、人物特徴量及び統合特徴量を特徴量次元方向に連結する処理、または、人物特徴量及び統合特徴量の和を算出する処理を行えばよい。

【0070】

なお、本変形例によれば、３つの時系列特徴統合部２７１Ｂ～２７１Ｄと、集約処理部２７３と、の間において、１つの特徴統合部２７２が接続されているものに限らず、例えば、図９に示すようなｙ（ｙ≧２）個の特徴統合部２７２が直列に接続されていてもよい。図９は、図８の特徴集約部に複数の特徴統合部を設けた場合の構成例を示す図である。

【0071】

図９に例示した構成によれば、ｙ個の特徴統合部２７２のうちの１番目の特徴統合部２７２に対し、時系列特徴統合部２７１Ｂにより得られた人物特徴量と、時系列特徴統合部２７１Ｃにより得られた物体特徴量と、時系列特徴統合部２７１Ｄにより得られた周辺特徴量と、が入力される。また、図９に例示した構成によれば、ｙ個の特徴統合部２７２のうちのｚ（２≦ｚ≦ｙ）番目の特徴統合部２７２に対し、（ｚ－１）番目の特徴統合部２７２により得られた統合特徴量と、時系列特徴統合部２７１Ｃにより得られた物体特徴量と、時系列特徴統合部２７１Ｄにより得られた周辺特徴量と、が入力される。また、図９に例示した構成によれば、ｙ番目の特徴統合部２７２により得られた統合特徴量が集約処理部２７３へ出力される。

【0072】

（変形例３）
図１０は、第１実施形態の変形例に係る行動推定装置に含まれる特徴集約部の構成の一例を示す図である。本実施形態によれば、特徴集約部１７の代わりに、図１０に示すような特徴集約部３７が行動推定装置１００に設けられていてもよい。

【0073】

特徴集約部３７は、時系列特徴統合部３７１と、統合処理部３７２と、集約処理部３７３と、を有している。

【0074】

時系列特徴統合部３７１は、時系列特徴統合部１７１Ａと同様の処理を行うことが可能な機能を有し、人物特徴量列に含まれる複数の人物特徴量を統合することにより得られた人物特徴量を集約処理部３７３へ出力する。

【0075】

統合処理部３７２は、人物特徴量列と、物体特徴量列と、周辺特徴量列と、に基づいて統合特徴量を取得し、当該取得した統合特徴量を集約処理部３７３へ出力する。また、統合処理部３７２は、特徴統合部３７２Ａと、時系列特徴統合部３７２Ｂと、を有している。

【0076】

特徴統合部３７２Ａは、人物特徴量列、物体特徴量列及び周辺特徴量列に基づき、特徴統合部１７２Ａ、１７２Ｂ及び１７２Ｃと同様の処理を行うことにより統合特徴量を取得し、当該取得した統合特徴量を時系列特徴統合部３７２Ｂへ出力する。すなわち、特徴統合部３７２Ａは、集約処理部１７２と同様の関連度情報を取得することができるとともに、当該関連度情報を用いた処理を行うことができるように構成されている。

【0077】

時系列特徴統合部３７２Ｂは、特徴統合部３７２Ａから時系列に取得した複数の統合特徴量を１つに統合するための処理を行う。具体的には、時系列特徴統合部３７２Ｂは、例えば、複数の統合特徴量と、Ｓｏｕｒｃｅ－ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ機構を有するＮＮと、を用いた重み付け加算を行うことにより、当該複数の統合特徴量を１つの人物特徴量に統合する。また、時系列特徴統合部３７２Ｂは、人物特徴情報または人物特徴量列に基づいて特定可能な人物毎に統合した統合特徴量を集約処理部３７３へ出力する。なお、時系列特徴統合部３７２Ｂは、特徴統合部３７２Ａの処理に組み込まれるように統合特徴量をフィードバックしてもよい。具体的には、時系列特徴統合部３７２Ｂは、人物特徴量列に含まれるように統合特徴量をフィードバックしてもよく、シーン特徴量の代わりに用いられるように統合特徴量をフィードバックしてもよく、状況特徴量の代わりに用いられるように統合特徴量をフィードバックしてもよい。また、時系列特徴統合部３７２Ｂの処理は、例えば、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）を有するＮＮを用いて行われるものであってもよい。

【0078】

集約処理部３７３は、時系列特徴統合部３７１から出力される人物特徴量と、統合処理部３７２から出力される統合特徴量と、に基づいて特徴ベクトルを取得し、当該取得した特徴ベクトルを行動推定処理部１８へ出力する。なお、集約処理部３７３は、特徴ベクトルを取得するための処理として、例えば、人物特徴量及び統合特徴量を特徴量次元方向に連結する処理、または、人物特徴量及び統合特徴量の和を算出する処理を行えばよい。

【0079】

＜第２実施形態＞
図１１は、第２実施形態に係る行動推定装置の機能構成を示すブロック図である。

【0080】

本実施形態に係る行動推定装置５００は、行動推定装置１００と同様のハードウェア構成を有している。また、行動推定装置５００は、人物特徴抽出手段５１１と、物体特徴抽出手段５１２と、周辺特徴抽出手段５１３と、特徴集約手段５１４と、行動推定処理手段５１５と、を有している。

【0081】

図１２は、第２実施形態に係る行動推定装置において行われる処理を説明するためのフローチャートである。

【0082】

人物特徴抽出手段５１１は、時系列な複数の画像から検出された人物の特徴を抽出する（ステップＳ５１）。

【0083】

物体特徴抽出手段５１２は、時系列な複数の画像から検出された物体の特徴を抽出する（ステップＳ５２）。

【0084】

周辺特徴抽出手段５１３は、時系列な複数の画像における人物の周辺の特徴を抽出する（ステップＳ５３）。

【0085】

特徴集約手段５１４は、人物の特徴と、物体の特徴と、当該人物の周辺の特徴と、を集約するための集約処理を行う（ステップＳ５４）。

【0086】

行動推定処理手段５１５は、集約処理の処理結果を含む情報に基づき、時系列な複数の画像に含まれる人物の行動を推定するための処理を行う（ステップＳ５５）。

【0087】

本実施形態によれば、人物の行動を推定する際の推定精度を向上させることができる。

【0088】

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

【0089】

（付記１）
時系列な複数の画像から検出された人物の特徴を抽出する人物特徴抽出手段と、
前記複数の画像から検出された物体の特徴を抽出する物体特徴抽出手段と、
前記複数の画像における前記人物の周辺の特徴を抽出する周辺特徴抽出手段と、
前記人物の特徴と、前記物体の特徴と、前記人物の周辺の特徴と、を集約するための集約処理を行う特徴集約手段と、
前記集約処理の処理結果を含む情報に基づき、前記複数の画像に含まれる前記人物の行動を推定するための処理を行う行動推定処理手段と、
を有する行動推定装置。

【0090】

（付記２）
前記特徴集約手段は、前記集約処理として、前記人物の特徴に対して前記人物の周辺の特徴を統合する第１の処理を行うことにより第１の処理結果を取得し、当該第１の処理結果に対して前記物体の特徴を統合する第２の処理を行うことにより第２の処理結果を取得し、当該第２の処理結果に対して前記人物の周辺の特徴を統合する第３の処理を行うことにより第３の処理結果を取得する処理を行う付記１の行動推定装置。

【0091】

（付記３）
前記特徴集約手段は、前記第２の処理において用いられる所定のパラメータに基づいて前記人物の行動に対する前記物体の関連度を示す情報である関連度情報を取得し、当該取得した関連度情報を用いて前記第３の処理を行う付記２の行動推定装置。

【0092】

（付記４）
前記行動推定処理手段は、前記集約処理の処理結果を含む情報の代わりに、前記第１の処理結果を含む情報から前記人物の行動を推定した第１の推定結果と、前記第２の処理結果を含む情報から前記人物の行動を推定した第２の推定結果と、前記第３の処理結果を含む情報から前記人物の行動を推定した第３の推定結果と、に基づき、前記複数の画像に含まれる前記人物の行動を推定する付記２の行動推定装置。

【0093】

（付記５）
時系列な複数の画像から検出された人物の特徴を抽出する人物特徴抽出手段と、
前記複数の画像から検出された物体の特徴を抽出する物体特徴抽出手段と、
前記複数の画像における前記人物の周辺の特徴を抽出する周辺特徴抽出手段と、
前記人物の特徴と、前記物体の特徴と、前記人物の周辺の特徴と、を統合するための統合処理を行う特徴統合手段と、
前記人物の特徴と、前記統合処理の処理結果と、を集約するための集約処理を行う集約処理手段と、
前記集約処理の処理結果を含む情報に基づき、前記複数の画像に含まれる人物の行動を推定する行動推定処理手段と、
を有する行動推定装置。

【0094】

（付記６）
時系列な複数の画像から検出された人物の特徴を抽出し、
前記複数の画像から検出された物体の特徴を抽出し、
前記複数の画像における前記人物の周辺の特徴を抽出し、
前記人物の特徴と、前記物体の特徴と、前記人物の周辺の特徴と、を集約するための集約処理を行い、
前記集約処理の処理結果を含む情報に基づき、前記複数の画像に含まれる前記人物の行動を推定する行動推定方法。

【0095】

（付記７）
時系列な複数の画像から検出された人物の特徴を抽出し、
前記複数の画像から検出された物体の特徴を抽出し、
前記複数の画像における前記人物の周辺の特徴を抽出し、
前記人物の特徴と、前記物体の特徴と、前記人物の周辺の特徴と、を統合するための統合処理を行い、
前記人物の特徴と、前記統合処理の処理結果と、を集約するための集約処理を行い、
前記集約処理の処理結果を含む情報に基づき、前記複数の画像に含まれる人物の行動を推定する行動推定方法。

【0096】

（付記８）
時系列な複数の画像から検出された人物の特徴を抽出し、
前記複数の画像から検出された物体の特徴を抽出し、
前記複数の画像における前記人物の周辺の特徴を抽出し、
前記人物の特徴と、前記物体の特徴と、前記人物の周辺の特徴と、を集約するための集約処理を行い、
前記集約処理の処理結果を含む情報に基づき、前記複数の画像に含まれる前記人物の行動を推定する処理をコンピュータに実行させるプログラムを記録した記録媒体。

【0097】

（付記９）
時系列な複数の画像から検出された人物の特徴を抽出し、
前記複数の画像から検出された物体の特徴を抽出し、
前記複数の画像における前記人物の周辺の特徴を抽出し、
前記人物の特徴と、前記物体の特徴と、前記人物の周辺の特徴と、を統合するための統合処理を行い、
前記人物の特徴と、前記統合処理の処理結果と、を集約するための集約処理を行い、
前記集約処理の処理結果を含む情報に基づき、前記複数の画像に含まれる人物の行動を推定する処理をコンピュータに実行させるプログラムを記録した記録媒体。

【0098】

以上、実施形態及び実施例を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

【符号の説明】

【0099】

１３人物特徴抽出部
１５物体特徴抽出部
１６周辺特徴抽出部
１７特徴集約部
１８行動推定処理部
１００行動推定装置

【図1】