特開2024-62810 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特開2024-62810行動認識装置、学習装置、行動認識方法、学習方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024062810

(43)【公開日】2024-05-10

(54)【発明の名称】行動認識装置、学習装置、行動認識方法、学習方法、およびプログラム

(51)【国際特許分類】

G06T 7/20 20170101AFI20240501BHJP

G06V 10/82 20220101ALI20240501BHJP

G06T 7/00 20170101ALI20240501BHJP

【ＦＩ】

G06T7/20 300Z

G06V10/82

G06T7/00 350C

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2022170906

(22)【出願日】2022-10-25

(71)【出願人】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】110000338

【氏名又は名称】弁理士法人ＨＡＲＡＫＥＮＺＯＷＯＲＬＤＰＡＴＥＮＴ＆ＴＲＡＤＥＭＡＲＫ

(72)【発明者】

【氏名】馬場崎康敬

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096CA04

5L096EA39

5L096HA11

5L096KA04

(57)【要約】

【課題】画像列において人の行動に関連する領域が充分に映っていない時間帯がある場合にも、当該時間帯における人の行動を精度よく認識する。
【解決手段】行動認識装置（１）は、時系列を構成する画像列における第１部分列に基づいて、第１部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第１行動特徴情報を算出する第１算出部（１１）と、画像列において第１部分列よりも過去の画像を少なくとも１つ含む第２部分列に基づき算出された過去特徴情報に基づいて、第１行動特徴情報を補正した第２行動特徴情報を算出する第２算出部（１２）と、第２行動特徴情報に基づいて人の行動を認識する行動認識部（１３）と、を含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

時系列を構成する画像列における第１部分列に基づいて、前記第１部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第１行動特徴情報を算出する第１算出手段と、
前記画像列において前記第１部分列よりも過去の画像を少なくとも１つ含む第２部分列に基づき算出された過去特徴情報に基づいて、前記第１行動特徴情報を補正した第２行動特徴情報を算出する第２算出手段と、
前記第２行動特徴情報に基づいて前記人の行動を認識する行動認識手段と、
を含む行動認識装置。

【請求項2】

前記画像列には、物体を被写体として含む画像が含まれ、
前記第１算出手段は、前記第１部分列に含まれる画像に被写体として含まれる人と、前記物体と、の関連性に基づいて、前記第１行動特徴情報を算出する、
請求項１に記載の行動認識装置。

【請求項3】

前記第１算出手段は、前記第１行動特徴情報、または、前記第１行動特徴情報を算出するために参照した関連特徴情報を、前記第１部分列を識別する情報に関連付けて記憶装置に記憶し、
前記第２算出手段は、前記記憶装置に記憶された、前記第２部分列を識別する情報に関連付けられた前記第１行動特徴情報または前記関連特徴情報を、前記過去特徴情報として参照する、
請求項１または２に記載の行動認識装置。

【請求項4】

前記第２算出手段は、
少なくとも一部が互いに異なる複数の前記第２部分列に関する複数の前記過去特徴情報の各々について、当該過去特徴情報および前記第１行動特徴情報の関連性に基づく重みを算出し、
算出した重みをそれぞれ付与した前記複数の過去特徴情報に基づいて、前記第１行動特徴情報を補正した前記第２行動特徴情報を算出する、
請求項１または２に記載の行動認識装置。

【請求項5】

前記行動認識手段は、前記第２行動特徴情報に加えて前記第１行動特徴情報をさらに参照して、前記人の行動を認識する、
請求項１または２に記載の行動認識装置。

【請求項6】

時系列を構成する画像列と、前記画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、請求項１または２に記載の行動認識装置を学習させる学習手段、
を含む、学習装置。

【請求項7】

前記学習手段は、
前記行動認識手段に前記第１行動特徴情報を入力して得られる損失、および前記行動認識手段に前記第２行動特徴情報を入力して得られる損失に基づいて、前記行動認識装置を学習させる、
請求項６に記載の学習装置。

【請求項8】

コンピュータが、
時系列を構成する画像列における第１部分列に基づいて、前記第１部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第１行動特徴情報を算出することと、
前記画像列において前記第１部分列よりも過去の画像を少なくとも１つ含む第２部分列に基づき算出された過去特徴情報に基づいて、前記第１行動特徴情報を補正した第２行動特徴情報を算出することと、
前記第２行動特徴情報に基づいて前記人の行動を認識することと、
を含む行動認識方法。

【請求項9】

コンピュータが、
時系列を構成する画像列と、前記画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、請求項１または２に記載の行動認識装置を学習させること、
を含む学習方法。

【請求項10】

コンピュータを、
時系列を構成する画像列における第１部分列に基づいて、前記第１部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第１行動特徴情報を算出する第１算出手段と、
前記画像列において前記第１部分列よりも過去の画像を少なくとも１つ含む第２部分列に基づき算出された過去特徴情報に基づいて、前記第１行動特徴情報を補正した第２行動特徴情報を算出する第２算出手段と、
前記第２行動特徴情報に基づいて前記人の行動を認識する行動認識手段と、
として機能させる、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、人の行動を認識する技術に関する。

【背景技術】

【0002】

特許文献１には、撮像装置が生成した画像列から、人の姿勢特徴および当該人の周辺物体の形状、位置又は種別を示す周辺特徴を抽出し、姿勢特徴および周辺特徴に基づいて人の行動を認識する技術が記載されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】国際公開２０１８／１６３５５５号明細書

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１に記載においては、撮像装置が生成した画像列において、人の行動に関連する領域が充分に映っていない時間帯がある場合、人の行動を正しく認識できないことがある、という問題があった。

【0005】

本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、画像列において人の行動に関連する領域が充分に映っていない時間帯がある場合にも、人の行動を精度よく認識する技術を提供することである。

【課題を解決するための手段】

【0006】

本発明の一態様に係る行動認識装置は、時系列を構成する画像列における第１部分列に基づいて、前記第１部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第１行動特徴情報を算出する第１算出手段と、前記画像列において前記第１部分列よりも過去の画像を少なくとも１つ含む第２部分列に基づき算出された過去特徴情報に基づいて、前記第１行動特徴情報を補正した第２行動特徴情報を算出する第２算出手段と、前記第２行動特徴情報に基づいて前記人の行動を認識する行動認識手段と、を含む。

【0007】

本発明の一態様に係る学習装置は、時系列を構成する画像列と、前記画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、上述の行動認識装置を学習させる学習手段、を含む。

【0008】

本発明の一態様に係る行動認識方法は、コンピュータが、時系列を構成する画像列における第１部分列に基づいて、前記第１部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第１行動特徴情報を算出することと、前記画像列において前記第１部分列よりも過去の画像を少なくとも１つ含む第２部分列に基づき算出された過去特徴情報に基づいて、前記第１行動特徴情報を補正した第２行動特徴情報を算出することと、前記第２行動特徴情報に基づいて前記人の行動を認識することと、を含む。

【0009】

本発明の一態様に係る学習方法は、時系列を構成する画像列と、前記画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、上述の行動認識装置を学習させること、を含む。

【0010】

本発明の一態様に係るプログラムは、コンピュータを、時系列を構成する画像列における第１部分列に基づいて、前記第１部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第１行動特徴情報を算出する第１算出手段と、前記画像列において前記第１部分列よりも過去の画像を少なくとも１つ含む第２部分列に基づき算出された過去特徴情報に基づいて、前記第１行動特徴情報を補正した第２行動特徴情報を算出する第２算出手段と、前記第２行動特徴情報に基づいて前記人の行動を認識する行動認識手段と、として機能させる。

【発明の効果】

【0011】

本発明の一態様によれば、画像列において人の行動に関連する領域が充分に映っていない時間帯がある場合にも、人の行動を精度よく認識することができる。

【図面の簡単な説明】

【0012】

【図1】本発明の例示的実施形態１に係る行動認識装置の構成を示すブロック図である。

【図2】本発明の例示的実施形態１に係る行動認識方法の流れを示すフロー図である。

【図3】本発明の例示的実施形態２に係る学習装置の構成を示すブロック図である。

【図4】本発明の例示的実施形態２に係る学習方法の流れを示すフロー図である。

【図5】本発明の例示的実施形態３に係る行動認識装置の構成を説明するブロック図である。

【図6】本発明の例示的実施形態３における推論データセットＤＳ１の一例を示す模式図である。

【図7】本発明の例示的実施形態３における過去特徴情報の一例を説明する模式図である。

【図8】本発明の例示的実施形態３における第１算出部の具体的な構成例を示す模式図である。

【図9】本発明の例示的実施形態３における第２算出部の具体的な構成例を示す模式図である。

【図10】本発明の例示的実施形態３に係る行動認識方法の流れを説明するフロー図である。

【図11】本発明の例示的実施形態４に係る学習装置の構成を説明するブロック図である。

【図12】本発明の例示的実施形態４に係る学習方法の流れを説明するフロー図である。

【図13】本発明の各例示的実施形態に含まれる各装置のハードウェア構成例を示すブロック図である。

【発明を実施するための形態】

【0013】

〔例示的実施形態１〕
本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態２～４の基本となる形態である。

【0014】

（行動認識装置１の構成）
本例示的実施形態に係る行動認識装置１の構成について、図１を参照して説明する。図１は、行動認識装置１の構成を示すブロック図である。図１に示すように、行動認識装置１は、第１算出部１１と、第２算出部１２と、行動認識部１３と、を含む。第１算出部１１は、時系列を構成する画像列における第１部分列に基づいて、第１部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第１行動特徴情報を算出する。第２算出部１２は、当該画像列において第１部分列よりも過去の画像を少なくとも１つ含む第２部分列に基づき算出された過去特徴情報に基づいて、第１行動特徴情報を補正した第２行動特徴情報を算出する。行動認識部１３は、第２行動特徴情報に基づいて人の行動を認識する。

【0015】

（プログラムによる実現例）
行動認識装置１をコンピュータにより構成する場合、コンピュータのメモリには、本例示的実施形態に係る以下のプログラムが記憶される。当該プログラムは、コンピュータを、時系列を構成する画像列における第１部分列に基づいて、第１部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第１行動特徴情報を算出する第１算出部１１と、当該画像列において第１部分列よりも過去の画像を少なくとも１つ含む第２部分列に基づき算出された過去特徴情報に基づいて、第１行動特徴情報を補正した第２行動特徴情報を算出する第２算出部１２と、第２行動特徴情報に基づいて人の行動を認識する行動認識部１３と、として機能させる。

【0016】

（行動認識方法Ｓ１の流れ）
以上のように構成される行動認識装置１は、本例示的実施形態に係る行動認識方法Ｓ１を実行する。行動認識方法Ｓ１の流れについて、図２を参照して説明する。図２は、行動認識方法Ｓ１の流れを示すフロー図である。図２に示すように、行動認識方法Ｓ１は、ステップＳ１１（第１算出ステップ）と、ステップＳ１２（第２算出ステップ）と、ステップＳ１３（行動認識ステップ）と、を含む。

【0017】

ステップＳ１１において、第１算出部１１は、時系列を構成する画像列における第１部分列に基づいて、第１部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第１行動特徴情報を算出する。ステップＳ１２において、第２算出部１２は、当該画像列において第１部分列よりも過去の画像を少なくとも１つ含む第２部分列に基づき算出された過去特徴情報に基づいて、第１行動特徴情報を補正した第２行動特徴情報を算出する。ステップＳ１３において、行動認識部１３は、第２行動特徴情報に基づいて人の行動を認識する。

【0018】

（本例示的実施形態の効果）
以上のように、本例示的実施形態においては、時系列を構成する画像列における第１部分列に基づいて、第１部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第１行動特徴情報を算出し、当該画像列において第１部分列よりも過去の画像を少なくとも１つ含む第２部分列に基づき算出された過去特徴情報に基づいて、第１行動特徴情報を補正した第２行動特徴情報を算出し、第２行動特徴情報に基づいて人の行動を認識する、との構成が採用されている。このため、本例示的実施形態によれば、画像列において人の行動に関連する領域が充分に映っていない時間帯がある場合にも、人の行動を精度よく認識することができる。

【0019】

〔例示的実施形態２〕
本発明の第２の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態３～４の基本となる形態である。

【0020】

（学習装置２の構成）
本例示的実施形態に係る学習装置２の構成について、図３を参照して説明する。図３は、学習装置２の構成を示すブロック図である。図３に示すように、学習装置２は、学習部２１を含む。学習部２１は、時系列を構成する画像列と、当該画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、例示的実施形態１に係る行動認識装置１を学習させる。行動認識装置１の構成については上述した通りである。

【0021】

（プログラムによる実現例）
学習装置２をコンピュータにより構成する場合、コンピュータのメモリには、本例示的実施形態に係る以下のプログラムが記憶される。当該プログラムは、コンピュータを、時系列を構成する画像列と、当該画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、例示的実施形態１に係る行動認識装置１を学習させる学習部２１、として機能させる。

【0022】

（学習方法Ｓ２の流れ）
以上のように構成された学習装置２は、本例示的実施形態に係る学習方法Ｓ２を実行する。学習方法Ｓ２の流れについて、図４を参照して説明する。図４は、学習方法Ｓ２の流れを示すフロー図である。図４に示すように、学習方法Ｓ２は、ステップＳ２１（学習ステップ）を含む。

【0023】

ステップＳ２１において、学習部２１は、時系列を構成する画像列と、当該画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、例示的実施形態１に係る行動認識装置１を学習させる。

【0024】

（本例示的実施形態の効果）
以上のように、本例示的実施形態においては、時系列を構成する画像列と、当該画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、例示的実施形態１に係る行動認識装置１を学習させる、との構成が採用されている。このため、本例示的実施形態を用いて学習させた行動認識装置１を用いることにより、画像列において人の行動に関連する領域が充分に映っていない時間帯がある場合にも、人の行動を精度よく認識することができる、という効果が得られる。

【0025】

〔例示的実施形態３〕
本発明の第３の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。

【0026】

本例示的実施形態として、例示的実施形態１における画像列に含まれる画像が、人および物体の一方または両方を被写体として含む態様について説明する。ここで、特許文献１に記載された技術では、画像列において人の行動に関連する物体が充分に映っていない時間帯がある場合、人の行動を正しく認識できないことがある、という問題があった。例えば、建設現場等で転圧作業を実施する作業者を撮影した映像において、時間帯によっては、転圧器具が当該作業者、他の作業者、または他の物体に隠れて充分に写っていない場合がある。この場合、特許文献１に記載された技術は、実際には転圧作業を継続している間であっても、作業者が他の作業をしていると認識してしまう可能性がある。本例示的実施形態は、このような物体の隠れに起因する行動の認識精度の問題を解決する一態様である。

【0027】

（行動認識装置１０の構成）
本例示的実施形態に係る行動認識装置１０の構成について、図５を参照して説明する。図５は、行動認識装置１０の構成を説明するブロック図である。図５に示すように、行動認識装置１０は、制御部１１０と、記憶部１２０と、を含む。制御部１１０は、行動認識装置１０の各部を統括して制御する。制御部１１０は、第１算出部１１と、第２算出部１２と、行動認識部１３と、人特徴抽出部１４と、物体特徴抽出部１５と、関連性抽出部１６と、出力部１７と、を含む。記憶部１２０は、制御部１１０が使用する各種のデータを記憶する。記憶部１２０は、推論データセットＤＳ１と、過去特徴情報ｆｐａｓｔと、パラメータ群ｐ１１～ｐ１６と、を記憶している。

【0028】

（推論データセットＤＳ１）
推論データセットＤＳ１は、時系列を構成する画像列であって、推論の対象となる画像列である。当該画像列は、例えば、撮影装置によって撮影された画像列であってもよい。推論データセットＤＳ１の一例について、図６を参照して説明する。図６は、推論データセットＤＳ１の一例を示す模式図である。図６に示すように、推論データセットＤＳ１は、画像ｉｍｇ＿０、画像ｉｍｇ＿１、画像ｉｍｇ＿２、…、画像ｉｍｇ＿ｎｏｗ、…の時系列である。ここで、画像ｉｍｇ＿ｉ（ｉ＝０、１、２、…、ｎ：ｎは２以上の自然数）の添え字ｉは、小さいほど過去であることを表す。これらの画像ｉｍｇ＿ｉを特に区別しない場合には、それぞれを単に画像ｉｍｇと記載する場合もある。

【0029】

また、推論データセットＤＳ１には、人Ｈを被写体として含む画像、および物体ＯＢＪを被写体として含む画像が含まれる。各画像に含まれる人Ｈの数および物体ＯＢＪの数は、ゼロであってもよいし、１つであってもよいし、複数であってもよい。複数の人Ｈまたは複数の物体ＯＢＪをそれぞれ区別して説明する場合には、人Ｈ１、Ｈ２、…、物体ＯＢＪ１、ＯＢＪ２、…、等とも記載する。図６の例では、画像ｉｍｇ＿ｉは、人Ｈ１～Ｈ２、および物体ＯＢＪ１～ＯＢＪ３を被写体として含む。なお、他の画像ｉｍｇ＿ｋ（ｉ≠ｋ）に含まれる人（または物体）が、画像ｉｍｇ＿ｉに含まれる人Ｈ１等（または物体ＯＢＪ１等）と同一人物（または同一物体）である場合、当該人（または物体）についても人Ｈ１（または物体ＯＢＪ１）等と記載する。また、画像ｉｍｇ＿ｉに含まれる人Ｈおよび物体ＯＢＪのそれぞれは、他の画像ｉｍｇ＿ｋに必ずしも含まれていなくてもよい。

【0030】

また、推論データセットＤＳ１において、固定長Ｌの部分列Ｔの各々が処理の単位となる。部分列とは、画像列の一部分を構成する列である。以降、推論データセットＤＳ１において異なる部分列Ｔを区別して説明する場合には、部分列Ｔ［ｊ］（ｊ＝０、１、２、…、）とも記載する。部分列Ｔ［ｊ］の添え字ｊは、小さいほど過去であることを表す。また、添え字ｊは、部分列Ｔ［ｊ］を識別する情報の一例である。図６の例では、例えばＬ＝３である場合に、部分列Ｔ［０］は、画像ｉｍｇ＿０～ｉｍｇ＿２によって構成され、部分列Ｔ［１］は、画像ｉｍｇ＿３～ｉｍｇ＿５によって構成される。また、部分列Ｔ［ｊ］は、ｊ＝０、１、２、…の順に制御部１１０による処理の対象となる。

【0031】

部分列Ｔ［ｎｏｗ］は、現在処理の対象としている部分列Ｔを指し、この例では、画像ｉｍｇ＿（ｎ－２）～ｉｍｇ＿ｎによって構成される。以降、部分列Ｔ［ｎｏｗ］を、部分列Ｔｎｏｗ、とも記載する。部分列Ｔｎｏｗは、第１部分列の一例である。また、部分列Ｔｎｏｗより過去の画像ｉｍｇを含む部分列Ｔ［ｎｏｗ－１］、Ｔ［ｎｏｗ－２］、…を、部分列Ｔｐａｓｔとも記載する。部分列Ｔｐａｓｔは、第２部分列の一例である。なお、固定長Ｌは３に限らず、その他の値であってもよい。例えば、固定長Ｌは、認識の対象とする行動の種別に応じて予め定められる。

【0032】

また、図６では、部分列Ｔ［ｊ］（ｊ＝０、１、２、…、）が互いに重複しない例を示しているが、これらは互いに重複してもよい。その場合、部分列Ｔ［ｊ］は、部分列Ｔ［ｊ＋１］より過去の画像ｉｍｇを少なくとも１つ含んでいればよい。例えば、部分列Ｔ［０］は画像ｉｍｇ０～ｉｍｇ２によって構成され、部分列Ｔ［１］は画像ｉｍｇ１～ｉｍｇ３によって構成されてもよい。

【0033】

（過去特徴情報ｆｐａｓｔ）
過去特徴情報ｆｐａｓｔは、部分列Ｔｐａｓｔに関して算出された第１行動特徴情報ｆｎｏｗである。第１行動特徴情報ｆｎｏｗの詳細については後述する。記憶部１２０には、部分列Ｔｐａｓｔを識別する情報に関連付けられた、人Ｈ毎の過去特徴情報ｆｐａｓｔが記憶されている。部分列Ｔｐａｓｔを識別する情報は、部分列Ｔｐａｓｔを示す部分列Ｔ［ｊ］の添え字ｊである。これらの過去特徴情報ｆｐａｓｔを区別して説明する場合には、過去特徴情報ｆ［ｊ，Ｈ］とも記載する。過去特徴情報ｆ［ｊ，Ｈ］は、部分列Ｔ［ｊ］（ｊ＝ｎｏｗ－１、ｎｏｗ－２、…）に関連付けられた人Ｈの過去特徴情報ｆｐａｓｔを示す。

【0034】

過去特徴情報ｆｐａｓｔの一例について、図７を参照して説明する。図７は、過去特徴情報ｆｐａｓｔの一例を説明する模式図である。図７に示すように、記憶部１２０には、複数の過去特徴情報ｆｐａｓｔとして、過去特徴情報ｆ［０、Ｈ１］、…、ｆ［ｎｏｗ－１、Ｈ１］、および過去特徴情報ｆ［５、Ｈ２］、…、ｆ［ｎｏｗ－１、Ｈ２］が記憶されている。過去特徴情報ｆ［０、Ｈ１］は、部分列Ｔ［０］に関連付けられた人Ｈ１の行動の特徴を表す。過去特徴情報ｆ［ｎｏｗ－１、Ｈ１］は、部分列Ｔ［ｎｏｗ－１］に関連付けられた人Ｈ１の行動の特徴を表す。過去特徴情報ｆ［５、Ｈ２］は、部分列Ｔ［５］に関連付けられた人Ｈ２の行動の特徴を表す。同様に、過去特徴情報ｆ［ｎｏｗ－１、Ｈ２］は、部分列Ｔ［ｎｏｗ－１］に関連付けられた人Ｈ２の行動の特徴を表す。

【0035】

（パラメータ群ｐ１１～ｐ１６）
パラメータ群ｐ１１は、第１算出部１１の動作を規定する学習済みのパラメータ群である。パラメータ群ｐ１２は、第２算出部１２の動作を規定する学習済みのパラメータ群である。パラメータ群ｐ１３は、行動認識部１３の動作を規定する学習済みのパラメータ群である。パラメータ群ｐ１４は、人特徴抽出部１４の動作を規定する学習済みのパラメータ群である。パラメータ群ｐ１５は、物体特徴抽出部１５の動作を規定する学習済みのパラメータ群である。パラメータ群ｐ１６は、関連性抽出部１６の動作を規定する学習済みのパラメータである。

【0036】

（人特徴抽出部１４）
人特徴抽出部１４は、部分列Ｔｎｏｗに含まれる１または複数の人Ｈを検出し、各人Ｈの特徴を示す人特徴情報を抽出する。ここで、人Ｈを検出するとは、部分列Ｔに含まれる複数の画像ｉｍｇの各々から人Ｈの領域を検出し、複数の画像ｉｍｇの間で同一人物と判定した人Ｈの領域に同一のＩＤを付与することである。人Ｈを検出する検出手法には、公知の追跡手法を適用可能であり、例えば、矩形ベースの追跡手法、ポーズベースの追跡手法、セグメンテーションベースの追跡手法などが挙げられるが、これらに限られない。また、人特徴情報を抽出するとは、各人Ｈについて、当該人Ｈの特徴を示す情報を複数の画像ｉｍｇの各々から抽出することを指す。人特徴情報を抽出する抽出手法には、公知の技術を適用可能であり、例えば、深層学習の中間表現、古典的な画像特徴（ＳＩＦＴ等）が挙げられるが、これらに限られない。このような人特徴抽出部１４の動作は、学習済みのパラメータ群ｐ１４によって規定される。

【0037】

（物体特徴抽出部１５）
物体特徴抽出部１５は、部分列Ｔｎｏｗに含まれる１または複数の物体ＯＢＪを検出し、各物体ＯＢＪの特徴を示す物体特徴情報を抽出する。ここで、物体ＯＢＪを検出するとは、部分列Ｔｎｏｗに含まれる複数の画像ｉｍｇの各々から物体ＯＢＪの領域を検出することである。なお、物体特徴抽出部１５は、複数の画像ｉｍｇの間における物体の同一性を判定してもよいし、しなくてもよい。物体の同一性を判定する場合には、物体特徴抽出部１５は、複数の画像ｉｍｇの間で同一の物体と判定した物体ＯＢＪの領域に同一のＩＤを付与する。物体ＯＢＪを検出する検出手法には、公知の技術を適用可能であり、例えば、矩形ベースの手法、キーポイントベースの手法、セグメンテーションベースの手法等が挙げられるが、これらに限られない。また、物体特徴情報を抽出するとは、各物体ＯＢＪについて、当該物体ＯＢＪの特徴を示す情報を複数の画像ｉｍｇの各々から抽出することを指す。物体特徴情報を抽出する抽出手法としては、公知の技術を適用可能であり、例えば、人特徴抽出部１４での説明と同様の手法が挙げられるが、これらに限られない。このような物体特徴抽出部１５の動作は、学習済みのパラメータ群ｐ１５によって規定される。

【0038】

（関連性抽出部１６）
関連性抽出部１６は、人特徴情報および物体特徴情報に基づいて、人Ｈおよび物体ＯＢＪの関連性を示す関連性情報を抽出する。具体的には、関連性情報は、人特徴抽出部１４が検出した１または複数の人Ｈの各々についての、物体特徴抽出部１５が検出した１または複数の物体ＯＢＪのうち最も関連性がある物体ＯＢＪを示す情報であってもよい。なお、関連性情報は、部分列Ｔｎｏｗに含まれる画像ｉｍｇの単位で抽出されてもよいし、部分列Ｔｎｏｗの単位で抽出されてもよい。例えば、複数の画像ｉｍｇの間における物体の同一性が判定されていない場合には、関連性情報は、画像ｉｍｇの単位で抽出されることが望ましい。また、１または複数の人Ｈのうち、最も関連性のある物体ＯＢＪが特定されない人Ｈが存在してもよい。この場合、当該人Ｈは、何れの物体ＯＢＪも用いない行動を行っている等の状況が考えられる。この場合、関連する物体ＯＢＪが無いとの関連性情報が抽出される。また、複数の人Ｈに対して、最も関連性がある物体ＯＢＪとして同一の物体ＯＢＪが抽出されてもよい。この場合、複数の人Ｈが同一の物体ＯＢＪを用いて行動を行っている等の状況が考えられる。この場合、各人Ｈについて、当該同一の物体ＯＢＪを示す関連性情報が抽出される。また、一人の人Ｈに対して、最も関連性がある物体ＯＢＪとして複数の物体ＯＢＪが抽出されてもよい。この場合、一人の人が複数の物体ＯＢＪを用いて行動を行っている等の状況が考えられる。この場合、当該人Ｈについて、当該複数の物体ＯＢＪを示す関連性情報が抽出される。関連性情報を抽出する抽出手法としては、公知の技術を適用可能である。例えば、関連性抽出部１６は、ｓｅｌｆａｔｔｅｎｔｉｏｎのようなニューラルネットワークを用いて抽出される注視情報に基づいて、最も関連性がある物体ＯＢＪを抽出してもよい。なお、関連性抽出部１６の構成は、上述した構成に限られない。このような関連性抽出部１６の動作は、学習済みのパラメータ群ｐ１６によって規定される。

【0039】

（第１算出部１１）
第１算出部１１は、部分列Ｔｎｏｗに含まれる画像に被写体として含まれる人Ｈと、物体ＯＢＪと、の関連性に基づいて、当該人Ｈの行動の特徴を示す第１行動特徴情報ｆｎｏｗを算出する。また、第１算出部１１は、算出した第１行動特徴情報ｆｎｏｗを、当該部分列Ｔｎｏｗを識別する情報に関連付けて記憶部１２０に記憶する。記憶部１２０に記憶された第１行動特徴情報ｆｎｏｗは、部分列Ｔｎｏｗよりも新しい部分列Ｔが新たな部分列Ｔｎｏｗとして処理されるときに、過去特徴情報ｆｐａｓｔとして参照される。

【0040】

具体的には、第１算出部１１は、関連性情報が示す人Ｈおよび物体ＯＢＪの組み合わせについて、人特徴情報および物体特徴情報を参照することにより、第１行動特徴情報ｆｎｏｗを算出する。ここで、第１行動特徴情報ｆｎｏｗは、部分列Ｔｎｏｗに関する人Ｈの行動の特徴を示す。そこで、第１行動特徴情報ｆｎｏｗに係る人Ｈを区別して説明する場合には、第１行動特徴情報ｆ［ｎｏｗ，Ｈ］とも記載する。なお、部分列Ｔｎｏｗに、人Ｈに関連する物体ＯＢＪが被写体として含まれていない場合（換言すると、当該人Ｈについて関連性情報が示す物体ＯＢＪが無い場合）は、第１算出部１１は、人特徴情報に基づいて第１行動特徴情報ｆｎｏｗを算出する。

【0041】

第１算出部１１の具体例について、図８を参照して説明する。図８は、第１算出部１１の具体例を示す模式図である。図８に示す例では、第１算出部１１は、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）によって構成される。第１算出部１１には、部分列Ｔｎｏｗから抽出された人Ｈ１に関する人特徴情報の時系列、および、物体ＯＢＪ１に関する物体特徴情報の時系列に基づく情報が入力される。例えば、人特徴情報および物体特徴情報がそれぞれベクトルとして表されている場合、入力される情報は、これらのベクトルを連結した情報の時系列であってもよい。また、入力される情報は、これらのベクトルの次元数を統一して加算した情報の時系列であってもよい。また、第１算出部１１は、これらの情報が入力されると、人Ｈ１の行動の特徴を示す第１行動特徴情報ｆ［ｎｏｗ，Ｈ１］を出力する。なお、第１算出部１１の構成は、上述した構成に限られない。このような第１算出部１１の動作は、学習済みのパラメータ群ｐ１１によって規定される。

【0042】

（第２算出部１２）
第２算出部１２は、過去特徴情報ｆｐａｓｔに基づいて、第１行動特徴情報ｆｎｏｗを補正した第２行動特徴情報Ｆｎｏｗを算出する。ここで、第２算出部１２は、記憶部１２０に記憶された、部分列Ｔｐａｓｔを識別する情報に関連付けられた第１行動特徴情報ｆｎｏｗを、過去特徴情報ｆｐａｓｔとして参照する。なお、第２算出部１２が参照する過去特徴情報ｆｐａｓｔは、補正すべき第１行動特徴情報ｆｎｏｗが示す人Ｈについて過去に算出されたものである。より具体的には、第２算出部１２は、少なくとも一部が互いに異なる複数の部分列Ｔｐａｓｔに関する複数の過去特徴情報ｆｐａｓｔの各々について、当該過去特徴情報ｆｐａｓｔおよび第１行動特徴情報ｆｎｏｗの関連性に基づく重みを算出する。また、第２算出部１２は、算出した重みをそれぞれ付与した複数の過去特徴情報ｆｐａｓｔに基づいて、第１行動特徴情報ｆｎｏｗを補正した第２行動特徴情報Ｆｎｏｗを算出する。第２行動特徴情報Ｆｎｏｗは、部分列Ｔｎｏｗに関する人Ｈの行動の特徴を示す第１行動特徴情報ｆｎｏｗを補正したものである。そこで、第２行動特徴情報Ｆｎｏｗに係る人Ｈを区別して説明する場合には、第２行動特徴情報Ｆ［ｎｏｗ，Ｈ］とも記載する。

【0043】

第２算出部１２の具体例について、図９を参照して説明する。図９は、第２算出部１２の具体例を示す模式図である。図９に示す例では、第２算出部１２は、複数のＭＬＰ（ＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎ）と、ａｔｔｅｎｔｉｏｎ機構と、を含む。第２算出部１２には、第１行動特徴情報ｆ［ｎｏｗ，Ｈ１］と、過去特徴情報ｆ［ｎｏｗ－１，Ｈ１］～ｆ［ｎｏｗ－Ｎ，Ｈ１］と、が入力される。なお、Ｎは予め定められた２以上の自然数である。Ｎは、例えば、認識の対象としたい行動の種別に応じて予め定められる。第２算出部１２は、第１行動特徴情報ｆ［ｎｏｗ，Ｈ１］および過去特徴情報ｆ［ｎｏｗ－１，Ｈ１］～ｆ［ｎｏｗ－Ｎ，Ｈ１］のそれぞれをＭＬＰに入力し、その出力をａｔｔｅｎｔｉｏｎ機構に入力する。これにより、ａｔｔｅｎｔｉｏｎ機構からは、過去特徴情報ｆ［ｎｏｗ－１，Ｈ１］～ｆ［ｎｏｗ－Ｎ，Ｈ１］のそれぞれについて、第１行動特徴情報ｆ［ｎｏｗ，Ｈ１］との関連の程度が出力される。第２算出部１２は、この出力をｓｏｆｔｍａｘ関数により正規化したものを重みとして、過去特徴情報ｆ［ｎｏｗ－１，Ｈ１］～ｆ［ｎｏｗ－Ｎ，Ｈ１］のそれぞれに乗じる。第２算出部１２は、重みを乗じた過去特徴情報ｆ［ｎｏｗ－１，Ｈ１］～ｆ［ｎｏｗ－Ｎ，Ｈ１］と、第１行動特徴情報ｆｎｏｗとを加算することにより、第２行動特徴情報Ｆｎｏｗを出力する。なお、第２算出部１２の構成は、上述した構成に限られない。このような第２算出部１２の動作は、学習済みのパラメータ群ｐ１２によって規定される。

【0044】

ここで、ａｔｔｅｎｔｉｏｎ機構により出力される関連の程度は、第１行動特徴情報ｆｎｏｗと過去特徴情報ｆｐａｓｔとの時間的依存性を表していると言える。図９の例において、例えば、部分列Ｔ［ｎｏｗ］～Ｔ［ｎｏｗ－Ｎ］において人Ｈ１が物体ＯＢＪ１に関連する行動を継続して行っているとする。このとき、部分列Ｔ［ｎｏｗ］においては物体ＯＢＪ１が隠れており、部分列Ｔ［ｎｏｗ－１］～Ｔ［ｎｏｗ－Ｎ］においては物体ＯＢＪ１が隠れていないとする。この場合、第１行動特徴情報ｆ［ｎｏｗ，Ｈ１］は、人Ｈ１の行動の特徴を充分に表していない可能性があるが、過去のＮ個の過去特徴情報ｆ［ｎｏｗ－１，Ｈ１］～Ｔ［ｎｏｗ－Ｎ］は、人Ｈ１の当該行動の特徴を表している可能性が高い。したがって、第１行動特徴情報ｆ［ｎｏｗ，Ｈ１］は、過去のＮ個の過去特徴情報ｆ［ｎｏｗ－１，Ｈ１］～Ｔ［ｎｏｗ－Ｎ］に基づく情報が加算されることにより、人Ｈ１の当該行動の特徴をより良く表すよう補正される。このような補正により得られた第２行動特徴情報Ｆｎｏｗは、部分列Ｔｎｏｗにおいて人Ｈの行動に関連する物体ＯＢＪが隠れている場合にも、人Ｈの当該行動の特徴を、第１行動特徴情報ｆｎｏｗよりも精度よく表している。

【0045】

また、部分列Ｔ［ｎｏｗ－１］～Ｔ［ｎｏｗ－Ｎ］のうち何れか、例えば、部分列Ｔ［ｎｏｗ－３］においても、物体ＯＢＪ１が隠れている場合がある。この場合、第１行動特徴情報ｆ［ｎｏｗ，Ｈ１］と過去特徴情報ｆ［ｎｏｗ－３，Ｈ１］との関連の程度は、他の過去特徴情報ｆ［ｎｏｗ－ｊ，Ｈ１］（ｊ＝１、２、４、…、Ｎ、ｊ≠３）との関連の程度よりも低くなる。したがって、過去特徴情報ｆ［ｎｏｗ－３，Ｈ１］には、他よりも小さい重みが乗じられるので、過去特徴情報ｆ［ｎｏｗ－３，Ｈ１］による補正への影響は小さくなる。このような補正により得られた第２行動特徴情報Ｆｎｏｗは、Ｎ個の部分列Ｔｐａｓｔの一部において人Ｈの行動に関連する物体ＯＢＪが隠れている場合にも、人Ｈの当該行動の特徴を、第１行動特徴情報ｆｎｏｗよりも精度よく表している。

【0046】

（行動認識部１３）
行動認識部１３は、第２行動特徴情報Ｆｎｏｗに基づいて人Ｈの行動を認識する。例えば、行動認識部１３は、第２行動特徴情報Ｆｎｏｗを入力として、予め定められた１または複数の行動ラベル各々のスコアを算出し、スコアに基づいて選択した（例えば、最もスコアが高い）行動ラベルを、行動認識結果として出力してもよい。また、例えば、行動認識部１３には、公知の機械学習アルゴリズムを適用可能である。そのような機械学習アルゴリズムの一例としては、ランダムフォレスト、勾配木、ニューラルネットワーク、サポートベクタマシン等が挙げられるが、これらに限られない。行動認識部１３の動作は、学習済みのパラメータ群ｐ１３により規定される。

【0047】

また、行動認識部１３は、第２行動特徴情報Ｆｎｏｗに加えて第１行動特徴情報ｆｎｏｗをさらに参照して、人Ｈの行動を認識してもよい。ここで、第１行動特徴情報ｆｎｏｗおよび第２行動特徴情報Ｆｎｏｗは、どちらも同様に人Ｈの行動の特徴を表す情報であり、かつ、同一の形式である。そのため、行動認識部１３は、第１行動特徴情報ｆｎｏｗを入力としても、第２行動特徴情報Ｆｎｏｗを入力としても、動作可能である。そこで、例えば、行動認識部１３は、第１行動特徴情報ｆｎｏｗを入力して得られた各行動ラベルのスコアと、第２行動特徴情報Ｆｎｏｗを入力して得られた各行動ラベルのスコアとの平均を算出し、平均が最も高い行動ラベルを行動認識結果として出力してもよい。また、例えば、行動認識部１３は、第１行動特徴情報ｆｎｏｗを入力して得られたスコアが最も高い行動ラベルと、第２行動特徴情報Ｆｎｏｗを入力して得られたスコアが最も高い行動ラベルとを比較し、よりスコアが高い行動ラベルを行動認識結果として出力してもよい。仮に第２行動特徴情報Ｆｎｏｗのみを参照する場合、第２行動特徴情報Ｆｎｏｗに含まれる過去特徴情報ｆｐａｓｔが行動認識結果に与える影響が大きすぎる場合がある。第１行動特徴情報ｆｎｏｗをさらに参照することにより、行動をより精度よく認識することができる。

【0048】

（出力部１７）
出力部１７は、行動認識部１３から出力される人Ｈの行動認識結果の時系列に基づいて、当該人Ｈの行動ラベルを決定して出力する。推論データセットＤＳ１に複数の人Ｈが被写体として含まれている場合には、出力部１７は、人Ｈ毎に行動ラベルを決定して出力する。

【0049】

ここで、行動認識部１３からは、人Ｈについて部分列Ｔ［０］、Ｔ［１］、…に関する行動認識結果が順次出力される。換言すると、行動認識部１３からは、人Ｈについて行動認識結果である行動ラベルの時系列が出力される。例えば、出力部１７は、このような行動ラベルの時系列のうち、最も高いスコアの行動ラベルを決定してもよい。また、例えば、出力部１７は、このような行動ラベルの時系列のうち、スコアの合計が最も高い行動ラベルを決定してもよい。また、例えば、出力部１７は、このような行動ラベルの時系列のうち、個数が最も多い行動ラベルを決定してもよい。

【0050】

（行動認識方法Ｓ１０の流れ）
以上のように構成された行動認識装置１０は、本例示的実施形態に係る行動認識方法Ｓ１０を実行する。行動認識方法Ｓ１０について、図１０を参照して説明する。図１０は、行動認識方法Ｓ１０の流れを説明するフロー図である。図１０に示すように、行動認識方法Ｓ１０は、ステップＳ１０１～Ｓ１１０を含む。

【0051】

ステップＳ１０１において、制御部１１０は、推論データセットＤＳ１から、部分列Ｔｎｏｗを取得する。ステップＳ１０２において、人特徴抽出部１４は、部分列Ｔｎｏｗから１または複数の人Ｈを検出し、各人Ｈの特徴を示す人特徴情報を抽出する。ステップＳ１０３において、物体特徴抽出部１５は、部分列Ｔｎｏｗから１または複数の物体ＯＢＪを検出し、各物体ＯＢＪの特徴を示す物体特徴情報を抽出する。なお、ステップＳ１０２、Ｓ１０３は、順序を替えて、または並行して実行されてもよい。人Ｈおよび物体ＯＢＪの検出手法、ならびに、人特徴情報および物体特徴情報の抽出手法の具体例については、上述した通りである。

【0052】

次に、制御部１１０は、ステップＳ１０２で検出した人Ｈ毎に、ステップＳ１０４～Ｓ１０８を繰り返す。ステップＳ１０４において、関連性抽出部１６は、人特徴情報および物体特徴情報に基づいて、当該人Ｈに対して最も関連性がある物体ＯＢＪを示す関連性情報を抽出する。関連性情報の抽出手法の具体例については、上述した通りである。

【0053】

ステップＳ１０５において、第１算出部１１は、当該人Ｈの人特徴情報と、関連性情報が示す物体ＯＢＪの物体特徴情報と、を参照することにより、第１行動特徴情報ｆｎｏｗを算出する。なお、当該人Ｈについて関連性情報が示す物体ＯＢＪが無い場合には、第１算出部１１は、当該人Ｈの人特徴情報を参照して第１行動特徴情報ｆｎｏｗを算出する。第１行動特徴情報ｆｎｏｗの算出手法の具体例については、図８に示した第１算出部１１の具体例において上述した通りである。ステップＳ１０６において、第１算出部１１は、算出した第１行動特徴情報ｆｎｏｗを、記憶部１２０に記憶する。

【0054】

ステップＳ１０７において、第２算出部１２は、記憶部１２０に記憶された過去特徴情報ｆｐａｓｔを参照して、第１行動特徴情報ｆｎｏｗを補正した第２行動特徴情報Ｆｎｏｗを算出する。第２行動特徴情報Ｆｎｏｗの算出手法の具体例については、図９に示した第２算出部１２の具体例において上述した通りである。

【0055】

ステップＳ１０８において、行動認識部１３は、第２行動特徴情報を参照して、人Ｈの行動を認識する。なお、上述したように、行動認識部１３は、さらに第１行動特徴情報ｆｎｏｗを参照して、人Ｈの行動を認識してもよい。行動を認識する認識手法の具体例については、上述した通りである。

【0056】

ステップＳ１０４～Ｓ１０８の処理を各人Ｈについて完了すると、制御部１１０は、ステップＳ１０９を実行する。ステップＳ１０９において、制御部１１０は、推論データセットＤＳ１において、部分列Ｔｎｏｗより新しい部分列Ｔがあるか否かを判断する。ステップＳ１０９でＹｅｓと判断した場合、制御部１１０は、新しい部分列Ｔを新たな部分列Ｔｎｏｗとして、ステップＳ１０１からの処理を繰り返す。

【0057】

ステップＳ１０９でＮｏと判断した場合、制御部１１０は、ステップＳ１１０を実行する。ステップＳ１１０において、出力部１７は、人Ｈ毎に、行動認識部１３から出力された当該人Ｈの行動認識結果の時系列に基づいて、当該人Ｈの行動ラベルを決定して出力する。

【0058】

（本例示的実施形態の効果）
本例示的実施形態においては、例示的実施形態１と同様の構成に加えて、推論データセットＤＳ１（画像列）には物体ＯＢＪを被写体として含む画像が含まれ、第１算出部１１は、部分列Ｔｎｏｗに含まれる画像に被写体として含まれる人Ｈと、物体ＯＢＪと、の関連性に基づいて、第１行動特徴情報ｆｎｏｗを算出する、との構成が採用されている。上記構成によれば、画像列において人Ｈの行動に関連する物体ＯＢＪが充分に映っていない時間帯がある場合（例えば、当該物体ＯＢＪの一部または全部が、当該人Ｈ、他の人Ｈ、または他の物体ＯＢＪの背後に隠れている等）にも、人Ｈの行動をより精度よく認識することができる。

【0059】

また、本例示的実施形態においては、上述の構成に加えて、第１算出部１１は、第１行動特徴情報ｆｎｏｗを、部分列Ｔｎｏｗを識別する情報に関連付けて記憶部１２０に記憶し、第２算出部１２は、記憶部１２０に記憶された、部分列Ｔｐａｓｔを識別する情報に関連付けられた第１行動特徴情報ｆｎｏｗを、過去特徴情報ｆｐａｓｔとして参照する、との構成が採用されている。上記構成によれば、過去に算出した第１行動特徴情報ｆｎｏｗである過去特徴情報ｆｐａｓｔが示す過去の行動の特徴をさらに考慮するので、より精度よく人Ｈの行動を認識することができる。

【0060】

また、本例示的実施形態においては、上述の構成に加えて、第２算出部１２は、少なくとも一部が互いに異なる複数の部分列Ｔｐａｓｔに関する複数の過去特徴情報ｆｐａｓｔの各々について、当該過去特徴情報ｆｐａｓｔおよび第１行動特徴情報ｆｎｏｗの関連性に基づく重みを算出し、算出した重みをそれぞれ付与した複数の過去特徴情報ｆｐａｓｔに基づいて、第１行動特徴情報ｆｎｏｗを補正した第２行動特徴情報Ｆｎｏｗを算出する、との構成が採用されている。上記構成によれば、過去の時間帯において人Ｈの行動に関連する物体ＯＢＪが隠れている時間帯がある場合に、そのような時間帯に対応する過去特徴情報ｆｐａｓｔの行動認識結果への影響を小さくすることができる。

【0061】

また、本例示的実施形態においては、上述の構成に加えて、行動認識部１３は、第２行動特徴情報Ｆｎｏｗに加えて第１行動特徴情報ｆｎｏｗをさらに参照して、人Ｈの行動を認識する、との構成が採用されている。上記構成によれば、第２行動特徴情報Ｆｎｏｗのみを参照する場合に比べて、第２行動特徴情報Ｆｎｏｗに含まれる過去特徴情報ｆｐａｓｔが行動認識結果に与える影響が大きすぎる可能性を低減でき、行動をより精度よく認識することができる。

【0062】

〔例示的実施形態４〕
本発明の第４の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１～３にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。

【0063】

（学習装置２０の構成）
本例示的実施形態に係る学習装置２０は、例示的実施形態３に係る行動認識装置１０の学習を行う装置である。学習装置２０の構成について、図１１を参照して説明する。図１１は、学習装置２０の構成を説明するブロック図である。図１１に示すように、学習装置２０は、制御部２１０と、記憶部２２０と、を含む。制御部２１０は、学習装置２０の各部を統括して制御する。制御部２１０は、学習部２１と、認識部１０Ａと、を含む。記憶部２２０は、制御部２１０が使用する各種のデータを記憶する。記憶部２２０は、学習データセットＤＳ２と、過去特徴情報ｆｐａｓｔと、パラメータ群ｐ１１～ｐ１６と、を記憶している。

【0064】

（学習データセットＤＳ２）
学習データセットＤＳ２は、時系列を構成する画像列と、当該画像列に含まれる画像に被写体として含まれる人Ｈの行動を示す行動情報（行動ラベル）とが関連付けられたものである。また、当該画像列に含まれる画像には、人Ｈおよび物体ＯＢＪの一方または両方が被写体として含まれる。行動ラベルとしては、予め定められた複数の行動ラベルのうち何れかが関連付けられる。学習データセットＤＳ２に含まれる画像列に複数の人Ｈが含まれる場合には、各人Ｈに対して行動ラベルが関連付けられている。学習データセットＤＳ２に含まれる画像列については、図６を参照して説明した推論データセットＤＳ１と同様に説明されるため、詳細な説明を繰り返さない。

【0065】

（認識部１０Ａ）
認識部１０Ａは、例示的実施形態３に係る行動認識装置１０の制御部１１０に含まれる各機能ブロックのうち、出力部１７以外の全ての機能ブロックを含む。具体的には、認識部１０Ａは、第１算出部１１と、第２算出部１２と、行動認識部１３と、人特徴抽出部１４と、物体特徴抽出部１５と、関連性抽出部１６と、を含む。これらの各機能ブロックの詳細については、例示的実施形態３と同様に説明されるため、詳細な説明を繰り返さない。

【0066】

（学習部２１）
学習部２１は、学習データセットＤＳ２を用いて認識部１０Ａを学習させる。具体的には、学習部２１は、行動認識部１３に第１行動特徴情報ｆｎｏｗを入力して得られる損失、および行動認識部１３に第２行動特徴情報Ｆｎｏｗを入力して得られる損失に基づいて、認識部１０Ａを学習させる。例えば、学習部２１は、次式（１）のように損失関数を定義する。

【0067】

損失関数＝Ｌ第１行動特徴情報 + Ｌ第２行動特徴情報 …（１）
ここで、Ｌ第１行動特徴情報は、第１行動特徴情報ｆｎｏｗを行動認識部１３に入力して得られた人Ｈの行動認識結果と、学習データセットＤＳ２において当該人Ｈに関連付けられた行動ラベルとに基づき計算される損失を表す。また、Ｌ第２行動特徴情報は、第２行動特徴情報Ｆｎｏｗを行動認識部１３に入力して得られた人Ｈの行動認識結果と、学習データセットＤＳ２において当該人Ｈに関連付けられた行動ラベルとに基づき計算される損失を表す。なお、損失関数としては、ｓｏｆｔｍａｘｃｒｏｓｓｅｎｔｒｏｐｙを用いてもよいが、これに限られない。学習部２１は、このような損失関数を小さくするよう認識部１０Ａを学習させることにより、パラメータ群ｐ１１～ｐ１６を決定し、記憶部２２０に保存する。

【0068】

（学習方法Ｓ２０の流れ）
以上のように構成された学習装置２０は、本例示的実施形態に係る学習方法Ｓ２０を実行する。学習方法Ｓ２０について、図１２を参照して説明する。図１２は、学習方法Ｓ２０の流れを説明するフロー図である。図１２に示すように、学習方法Ｓ２０は、ステップＳ２０１～Ｓ２１０を含む。

【0069】

ステップＳ２０１～Ｓ２０７は、行動認識方法Ｓ１０におけるステップＳ１０１～Ｓ１０７の説明において、制御部１１０を制御部２１０と読み替え、推論データセットＤＳ１を学習データセットＤＳ２と読み替えることにより、同様に説明される。

【0070】

ステップＳ２０８において、学習部２１は、行動認識部１３に第１行動特徴情報ｆｎｏｗを入力して得られる損失、および行動認識部１３に第２行動特徴情報Ｆｎｏｗを入力して得られる損失に基づいて、認識部１０Ａの各部を学習させる。

【0071】

ステップＳ２０４～Ｓ２０８の処理を各人Ｈについて完了すると、制御部２１０は、ステップＳ２０９を実行する。ステップＳ２０９において、制御部２１０は、学習データセットＤＳ２において、部分列Ｔｎｏｗより新しい部分列Ｔがあるか否かを判断する。ステップＳ２０９でＹｅｓと判断した場合、制御部２１０は、新しい部分列Ｔを新たな部分列Ｔｎｏｗとして、ステップＳ２０１からの処理を繰り返す。

【0072】

ステップＳ２０９でＮｏと判断した場合、制御部２１０は、ステップＳ２１０を実行する。ステップＳ２１０において、学習部２１は、パラメータ群ｐ１１～ｐ１６を、記憶部２２０に記憶させる。

【0073】

例えば、制御部２１０は、このようにして保存したパラメータ群ｐ１１～１６を、例示的実施形態３に係る行動認識装置１０に送信して記憶部１２０に記憶させるようにしてもよい。これにより、学習装置２０は、行動認識装置１０を学習させることができる。なお、学習装置２０は、認識部１０Ａを含む代わりに、行動認識装置１０と通信可能に接続され、行動認識装置１０を学習させてもよい。

【0074】

（本例示的実施形態の効果）
以上のように、本例示的実施形態においては、例示的実施形態２と同様の構成に加えて、学習部２１は、行動認識部１３に第１行動特徴情報ｆｎｏｗを入力して得られる損失、および行動認識部１３に第２行動特徴情報Ｆｎｏｗを入力して得られる損失に基づいて、行動認識装置１０を学習させる、とのが採用されている。上記構成によれば、第２行動特徴情報Ｆｎｏｗに含まれる過去特徴情報ｆｐａｓｔの要素が重視された過学習を低減することができる、との効果を奏する。

【0075】

〔変形例〕
上述した例示的実施形態３～４において、過去特徴情報ｆｐａｓｔとして、部分列Ｔｐａｓｔを識別する情報に関連付けられた第１行動特徴情報ｆｎｏｗを適用する例について説明した。これに限らず、過去特徴情報ｆｐａｓｔとして、部分列Ｔｐａｓｔを識別する情報に関連付けられた関連特徴情報を適用してもよい。関連特徴情報は、第１行動特徴情報ｆｎｏｗを算出するために参照された情報である。そのような関連特徴情報としては、部分列Ｔｎｏｗから検出された、人Ｈに対して最も関連性が高い物体ＯＢＪの物体特徴情報を適用してもよい。そのような物体ＯＢＪの物体特徴情報は、関連性抽出部１６により抽出された関連性情報が示すものであってもよい。

【0076】

この場合、第１算出部１１は、第１行動特徴情報ｆｎｏｗを算出するために参照した関連特徴情報を、当該部分列Ｔｎｏｗを識別する情報に関連付けて記憶部１２０に記憶する。また、第２算出部１２は、記憶部１２０に記憶された、部分列Ｔｐａｓｔを識別する情報に関連付けられた関連特徴情報を、過去特徴情報ｆｐａｓｔとして参照する。

【0077】

このように変形した構成によれば、過去に人Ｈの第１行動特徴情報ｆｎｏｗを算出したときに参照した関連特徴情報（例えば、過去において当該人Ｈに対して最も関連性が高い物体特徴情報）を考慮するので、より精度よく人Ｈの行動を認識することができる。

【0078】

また、上述した例示的実施形態３において、推論データセットＤＳ１としての画像列の末尾に、リアルタイムに画像ｉｍｇが追加されていく構成であってもよい。この場合、行動認識装置１０は、最新の画像ｉｍｇを含む部分列Ｔｎｏｗを対象として、新たな画像ｉｍｇが追加されなくなるまで動作してもよい。これにより、行動認識装置１０は、リアルタイムに入力される推論データセットＤＳ１に含まれる人Ｈの行動をリアルタイムに認識することができる。

【0079】

〔ソフトウェアによる実現例〕
行動認識装置１、１０、学習装置２、２０（以下、各装置と記載）の一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。

【0080】

後者の場合、各装置は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図１３に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを各装置として動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、各装置の各機能が実現される。

【0081】

プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、ＴＰＵ（Tensor Processing Unit）、量子プロセッサ、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

【0082】

なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

【0083】

また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

【0084】

〔付記事項１〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

【0085】

〔付記事項２〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

【0086】

（付記１）
時系列を構成する画像列における第１部分列に基づいて、前記第１部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第１行動特徴情報を算出する第１算出手段と、
前記画像列において前記第１部分列よりも過去の画像を少なくとも１つ含む第２部分列に基づき算出された過去特徴情報に基づいて、前記第１行動特徴情報を補正した第２行動特徴情報を算出する第２算出手段と、
前記第２行動特徴情報に基づいて前記人の行動を認識する行動認識手段と、
を含む行動認識装置。

【0087】

（付記２）
前記画像列には、物体を被写体として含む画像が含まれ、
前記第１算出手段は、前記第１部分列に含まれる画像に被写体として含まれる人と、前記物体と、の関連性に基づいて、前記第１行動特徴情報を算出する、
付記１に記載の行動認識装置。

【0088】

（付記３）
前記第１算出手段は、前記第１行動特徴情報、または、前記第１行動特徴情報を算出するために参照した関連特徴情報を、前記第１部分列を識別する情報に関連付けて記憶装置に記憶し、
前記第２算出手段は、前記記憶装置に記憶された、前記第２部分列を識別する情報に関連付けられた前記第１行動特徴情報または前記関連特徴情報を、前記過去特徴情報として参照する、
付記１または２に記載の行動認識装置。

【0089】

（付記４）
前記第２算出手段は、
少なくとも一部が互いに異なる複数の前記第２部分列に関する複数の前記過去特徴情報の各々について、当該過去特徴情報および前記第１行動特徴情報の関連性に基づく重みを算出し、
算出した重みをそれぞれ付与した前記複数の過去特徴情報に基づいて、前記第１行動特徴情報を補正した前記第２行動特徴情報を算出する、
付記１から３の何れか１つに記載の行動認識装置。

【0090】

（付記５）
前記行動認識手段は、前記第２行動特徴情報に加えて前記第１行動特徴情報をさらに参照して、前記人の行動を認識する、
付記１から４の何れか１つに記載の行動認識装置。

【0091】

（付記６）
時系列を構成する画像列と、前記画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、付記１から５の何れか１つに記載の行動認識装置を学習させる学習手段、
を含む、学習装置。

【0092】

（付記７）
前記学習手段は、
前記行動認識手段に前記第１行動特徴情報を入力して得られる損失、および前記行動認識手段に前記第２行動特徴情報を入力して得られる損失に基づいて、前記行動認識装置を学習させる、
付記６に記載の学習装置。

【0093】

（付記８）
コンピュータが、
時系列を構成する画像列における第１部分列に基づいて、前記第１部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第１行動特徴情報を算出することと、
前記画像列において前記第１部分列よりも過去の画像を少なくとも１つ含む第２部分列に基づき算出された過去特徴情報に基づいて、前記第１行動特徴情報を補正した第２行動特徴情報を算出することと、
前記第２行動特徴情報に基づいて前記人の行動を認識することと、
を含む行動認識方法。

【0094】

（付記９）
コンピュータが、
時系列を構成する画像列と、前記画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、付記１から５の何れか１つに記載の行動認識装置を学習させること、
を含む学習方法。

【0095】

（付記１０）
コンピュータを、
時系列を構成する画像列における第１部分列に基づいて、前記第１部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第１行動特徴情報を算出する第１算出手段と、
前記画像列において前記第１部分列よりも過去の画像を少なくとも１つ含む第２部分列に基づき算出された過去特徴情報に基づいて、前記第１行動特徴情報を補正した第２行動特徴情報を算出する第２算出手段と、
前記第２行動特徴情報に基づいて前記人の行動を認識する行動認識手段と、
として機能させる、プログラム。

【0096】

（付記１１）
コンピュータを、
時系列を構成する画像列と、前記画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、付記１から５の何れか１つに記載の行動認識装置を学習させる学習手段、
として機能させるプログラム。

【0097】

（付記１２）
少なくとも１つのプロセッサを備え、前記プロセッサは、
時系列を構成する画像列における第１部分列に基づいて、前記第１部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第１行動特徴情報を算出する第１算出処理と、
前記画像列において前記第１部分列よりも過去の画像を少なくとも１つ含む第２部分列に基づき算出された過去特徴情報に基づいて、前記第１行動特徴情報を補正した第２行動特徴情報を算出する第２算出処理と、
前記第２行動特徴情報に基づいて前記人の行動を認識する行動認識処理と、
を実行する、行動認識装置。

【0098】

なお、この行動認識装置は、更にメモリを備えていてもよく、このメモリには、前記第１算出処理と、前記第２算出処理と、前記行動認識処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

【0099】

（付記１３）
少なくとも１つのプロセッサを備え、前記プロセッサは、
時系列を構成する画像列と、前記画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、付記１２に記載の行動認識装置を学習させる学習処理、
を実行する、学習装置。

【0100】

なお、この学習装置は、更にメモリを備えていてもよく、このメモリには、前記学習処理を前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

【符号の説明】

【0101】

１、１０行動認識装置
２、２０学習装置
１０Ａ認識部
１１、２１学習部
１１第１算出部
１２第２算出部
１３行動認識部
１４人特徴抽出部
１５物体特徴抽出部
１６関連性抽出部
１７出力部
１１０、２１０制御部
１２０、２２０記憶部
Ｃ１プロセッサ
Ｃ２メモリ

【図1】