(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024062810
(43)【公開日】2024-05-10
(54)【発明の名称】行動認識装置、学習装置、行動認識方法、学習方法、およびプログラム
(51)【国際特許分類】
G06T 7/20 20170101AFI20240501BHJP
G06V 10/82 20220101ALI20240501BHJP
G06T 7/00 20170101ALI20240501BHJP
【FI】
G06T7/20 300Z
G06V10/82
G06T7/00 350C
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022170906
(22)【出願日】2022-10-25
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】馬場崎 康敬
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA04
5L096EA39
5L096HA11
5L096KA04
(57)【要約】
【課題】画像列において人の行動に関連する領域が充分に映っていない時間帯がある場合にも、当該時間帯における人の行動を精度よく認識する。
【解決手段】行動認識装置(1)は、時系列を構成する画像列における第1部分列に基づいて、第1部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第1行動特徴情報を算出する第1算出部(11)と、画像列において第1部分列よりも過去の画像を少なくとも1つ含む第2部分列に基づき算出された過去特徴情報に基づいて、第1行動特徴情報を補正した第2行動特徴情報を算出する第2算出部(12)と、第2行動特徴情報に基づいて人の行動を認識する行動認識部(13)と、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
時系列を構成する画像列における第1部分列に基づいて、前記第1部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第1行動特徴情報を算出する第1算出手段と、
前記画像列において前記第1部分列よりも過去の画像を少なくとも1つ含む第2部分列に基づき算出された過去特徴情報に基づいて、前記第1行動特徴情報を補正した第2行動特徴情報を算出する第2算出手段と、
前記第2行動特徴情報に基づいて前記人の行動を認識する行動認識手段と、
を含む行動認識装置。
【請求項2】
前記画像列には、物体を被写体として含む画像が含まれ、
前記第1算出手段は、前記第1部分列に含まれる画像に被写体として含まれる人と、前記物体と、の関連性に基づいて、前記第1行動特徴情報を算出する、
請求項1に記載の行動認識装置。
【請求項3】
前記第1算出手段は、前記第1行動特徴情報、または、前記第1行動特徴情報を算出するために参照した関連特徴情報を、前記第1部分列を識別する情報に関連付けて記憶装置に記憶し、
前記第2算出手段は、前記記憶装置に記憶された、前記第2部分列を識別する情報に関連付けられた前記第1行動特徴情報または前記関連特徴情報を、前記過去特徴情報として参照する、
請求項1または2に記載の行動認識装置。
【請求項4】
前記第2算出手段は、
少なくとも一部が互いに異なる複数の前記第2部分列に関する複数の前記過去特徴情報の各々について、当該過去特徴情報および前記第1行動特徴情報の関連性に基づく重みを算出し、
算出した重みをそれぞれ付与した前記複数の過去特徴情報に基づいて、前記第1行動特徴情報を補正した前記第2行動特徴情報を算出する、
請求項1または2に記載の行動認識装置。
【請求項5】
前記行動認識手段は、前記第2行動特徴情報に加えて前記第1行動特徴情報をさらに参照して、前記人の行動を認識する、
請求項1または2に記載の行動認識装置。
【請求項6】
時系列を構成する画像列と、前記画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、請求項1または2に記載の行動認識装置を学習させる学習手段、
を含む、学習装置。
【請求項7】
前記学習手段は、
前記行動認識手段に前記第1行動特徴情報を入力して得られる損失、および前記行動認識手段に前記第2行動特徴情報を入力して得られる損失に基づいて、前記行動認識装置を学習させる、
請求項6に記載の学習装置。
【請求項8】
コンピュータが、
時系列を構成する画像列における第1部分列に基づいて、前記第1部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第1行動特徴情報を算出することと、
前記画像列において前記第1部分列よりも過去の画像を少なくとも1つ含む第2部分列に基づき算出された過去特徴情報に基づいて、前記第1行動特徴情報を補正した第2行動特徴情報を算出することと、
前記第2行動特徴情報に基づいて前記人の行動を認識することと、
を含む行動認識方法。
【請求項9】
コンピュータが、
時系列を構成する画像列と、前記画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、請求項1または2に記載の行動認識装置を学習させること、
を含む学習方法。
【請求項10】
コンピュータを、
時系列を構成する画像列における第1部分列に基づいて、前記第1部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第1行動特徴情報を算出する第1算出手段と、
前記画像列において前記第1部分列よりも過去の画像を少なくとも1つ含む第2部分列に基づき算出された過去特徴情報に基づいて、前記第1行動特徴情報を補正した第2行動特徴情報を算出する第2算出手段と、
前記第2行動特徴情報に基づいて前記人の行動を認識する行動認識手段と、
として機能させる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人の行動を認識する技術に関する。
【背景技術】
【0002】
特許文献1には、撮像装置が生成した画像列から、人の姿勢特徴および当該人の周辺物体の形状、位置又は種別を示す周辺特徴を抽出し、姿勢特徴および周辺特徴に基づいて人の行動を認識する技術が記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開2018/163555号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載においては、撮像装置が生成した画像列において、人の行動に関連する領域が充分に映っていない時間帯がある場合、人の行動を正しく認識できないことがある、という問題があった。
【0005】
本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、画像列において人の行動に関連する領域が充分に映っていない時間帯がある場合にも、人の行動を精度よく認識する技術を提供することである。
【課題を解決するための手段】
【0006】
本発明の一態様に係る行動認識装置は、時系列を構成する画像列における第1部分列に基づいて、前記第1部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第1行動特徴情報を算出する第1算出手段と、前記画像列において前記第1部分列よりも過去の画像を少なくとも1つ含む第2部分列に基づき算出された過去特徴情報に基づいて、前記第1行動特徴情報を補正した第2行動特徴情報を算出する第2算出手段と、前記第2行動特徴情報に基づいて前記人の行動を認識する行動認識手段と、を含む。
【0007】
本発明の一態様に係る学習装置は、時系列を構成する画像列と、前記画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、上述の行動認識装置を学習させる学習手段、を含む。
【0008】
本発明の一態様に係る行動認識方法は、コンピュータが、時系列を構成する画像列における第1部分列に基づいて、前記第1部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第1行動特徴情報を算出することと、前記画像列において前記第1部分列よりも過去の画像を少なくとも1つ含む第2部分列に基づき算出された過去特徴情報に基づいて、前記第1行動特徴情報を補正した第2行動特徴情報を算出することと、前記第2行動特徴情報に基づいて前記人の行動を認識することと、を含む。
【0009】
本発明の一態様に係る学習方法は、時系列を構成する画像列と、前記画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、上述の行動認識装置を学習させること、を含む。
【0010】
本発明の一態様に係るプログラムは、コンピュータを、時系列を構成する画像列における第1部分列に基づいて、前記第1部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第1行動特徴情報を算出する第1算出手段と、前記画像列において前記第1部分列よりも過去の画像を少なくとも1つ含む第2部分列に基づき算出された過去特徴情報に基づいて、前記第1行動特徴情報を補正した第2行動特徴情報を算出する第2算出手段と、前記第2行動特徴情報に基づいて前記人の行動を認識する行動認識手段と、として機能させる。
【発明の効果】
【0011】
本発明の一態様によれば、画像列において人の行動に関連する領域が充分に映っていない時間帯がある場合にも、人の行動を精度よく認識することができる。
【図面の簡単な説明】
【0012】
【
図1】本発明の例示的実施形態1に係る行動認識装置の構成を示すブロック図である。
【
図2】本発明の例示的実施形態1に係る行動認識方法の流れを示すフロー図である。
【
図3】本発明の例示的実施形態2に係る学習装置の構成を示すブロック図である。
【
図4】本発明の例示的実施形態2に係る学習方法の流れを示すフロー図である。
【
図5】本発明の例示的実施形態3に係る行動認識装置の構成を説明するブロック図である。
【
図6】本発明の例示的実施形態3における推論データセットDS1の一例を示す模式図である。
【
図7】本発明の例示的実施形態3における過去特徴情報の一例を説明する模式図である。
【
図8】本発明の例示的実施形態3における第1算出部の具体的な構成例を示す模式図である。
【
図9】本発明の例示的実施形態3における第2算出部の具体的な構成例を示す模式図である。
【
図10】本発明の例示的実施形態3に係る行動認識方法の流れを説明するフロー図である。
【
図11】本発明の例示的実施形態4に係る学習装置の構成を説明するブロック図である。
【
図12】本発明の例示的実施形態4に係る学習方法の流れを説明するフロー図である。
【
図13】本発明の各例示的実施形態に含まれる各装置のハードウェア構成例を示すブロック図である。
【発明を実施するための形態】
【0013】
〔例示的実施形態1〕
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態2~4の基本となる形態である。
【0014】
(行動認識装置1の構成)
本例示的実施形態に係る行動認識装置1の構成について、
図1を参照して説明する。
図1は、行動認識装置1の構成を示すブロック図である。
図1に示すように、行動認識装置1は、第1算出部11と、第2算出部12と、行動認識部13と、を含む。第1算出部11は、時系列を構成する画像列における第1部分列に基づいて、第1部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第1行動特徴情報を算出する。第2算出部12は、当該画像列において第1部分列よりも過去の画像を少なくとも1つ含む第2部分列に基づき算出された過去特徴情報に基づいて、第1行動特徴情報を補正した第2行動特徴情報を算出する。行動認識部13は、第2行動特徴情報に基づいて人の行動を認識する。
【0015】
(プログラムによる実現例)
行動認識装置1をコンピュータにより構成する場合、コンピュータのメモリには、本例示的実施形態に係る以下のプログラムが記憶される。当該プログラムは、コンピュータを、時系列を構成する画像列における第1部分列に基づいて、第1部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第1行動特徴情報を算出する第1算出部11と、当該画像列において第1部分列よりも過去の画像を少なくとも1つ含む第2部分列に基づき算出された過去特徴情報に基づいて、第1行動特徴情報を補正した第2行動特徴情報を算出する第2算出部12と、第2行動特徴情報に基づいて人の行動を認識する行動認識部13と、として機能させる。
【0016】
(行動認識方法S1の流れ)
以上のように構成される行動認識装置1は、本例示的実施形態に係る行動認識方法S1を実行する。行動認識方法S1の流れについて、
図2を参照して説明する。
図2は、行動認識方法S1の流れを示すフロー図である。
図2に示すように、行動認識方法S1は、ステップS11(第1算出ステップ)と、ステップS12(第2算出ステップ)と、ステップS13(行動認識ステップ)と、を含む。
【0017】
ステップS11において、第1算出部11は、時系列を構成する画像列における第1部分列に基づいて、第1部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第1行動特徴情報を算出する。ステップS12において、第2算出部12は、当該画像列において第1部分列よりも過去の画像を少なくとも1つ含む第2部分列に基づき算出された過去特徴情報に基づいて、第1行動特徴情報を補正した第2行動特徴情報を算出する。ステップS13において、行動認識部13は、第2行動特徴情報に基づいて人の行動を認識する。
【0018】
(本例示的実施形態の効果)
以上のように、本例示的実施形態においては、時系列を構成する画像列における第1部分列に基づいて、第1部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第1行動特徴情報を算出し、当該画像列において第1部分列よりも過去の画像を少なくとも1つ含む第2部分列に基づき算出された過去特徴情報に基づいて、第1行動特徴情報を補正した第2行動特徴情報を算出し、第2行動特徴情報に基づいて人の行動を認識する、との構成が採用されている。このため、本例示的実施形態によれば、画像列において人の行動に関連する領域が充分に映っていない時間帯がある場合にも、人の行動を精度よく認識することができる。
【0019】
〔例示的実施形態2〕
本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態3~4の基本となる形態である。
【0020】
(学習装置2の構成)
本例示的実施形態に係る学習装置2の構成について、
図3を参照して説明する。
図3は、学習装置2の構成を示すブロック図である。
図3に示すように、学習装置2は、学習部21を含む。学習部21は、時系列を構成する画像列と、当該画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、例示的実施形態1に係る行動認識装置1を学習させる。行動認識装置1の構成については上述した通りである。
【0021】
(プログラムによる実現例)
学習装置2をコンピュータにより構成する場合、コンピュータのメモリには、本例示的実施形態に係る以下のプログラムが記憶される。当該プログラムは、コンピュータを、時系列を構成する画像列と、当該画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、例示的実施形態1に係る行動認識装置1を学習させる学習部21、として機能させる。
【0022】
(学習方法S2の流れ)
以上のように構成された学習装置2は、本例示的実施形態に係る学習方法S2を実行する。学習方法S2の流れについて、
図4を参照して説明する。
図4は、学習方法S2の流れを示すフロー図である。
図4に示すように、学習方法S2は、ステップS21(学習ステップ)を含む。
【0023】
ステップS21において、学習部21は、時系列を構成する画像列と、当該画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、例示的実施形態1に係る行動認識装置1を学習させる。
【0024】
(本例示的実施形態の効果)
以上のように、本例示的実施形態においては、時系列を構成する画像列と、当該画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、例示的実施形態1に係る行動認識装置1を学習させる、との構成が採用されている。このため、本例示的実施形態を用いて学習させた行動認識装置1を用いることにより、画像列において人の行動に関連する領域が充分に映っていない時間帯がある場合にも、人の行動を精度よく認識することができる、という効果が得られる。
【0025】
〔例示的実施形態3〕
本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
【0026】
本例示的実施形態として、例示的実施形態1における画像列に含まれる画像が、人および物体の一方または両方を被写体として含む態様について説明する。ここで、特許文献1に記載された技術では、画像列において人の行動に関連する物体が充分に映っていない時間帯がある場合、人の行動を正しく認識できないことがある、という問題があった。例えば、建設現場等で転圧作業を実施する作業者を撮影した映像において、時間帯によっては、転圧器具が当該作業者、他の作業者、または他の物体に隠れて充分に写っていない場合がある。この場合、特許文献1に記載された技術は、実際には転圧作業を継続している間であっても、作業者が他の作業をしていると認識してしまう可能性がある。本例示的実施形態は、このような物体の隠れに起因する行動の認識精度の問題を解決する一態様である。
【0027】
(行動認識装置10の構成)
本例示的実施形態に係る行動認識装置10の構成について、
図5を参照して説明する。
図5は、行動認識装置10の構成を説明するブロック図である。
図5に示すように、行動認識装置10は、制御部110と、記憶部120と、を含む。制御部110は、行動認識装置10の各部を統括して制御する。制御部110は、第1算出部11と、第2算出部12と、行動認識部13と、人特徴抽出部14と、物体特徴抽出部15と、関連性抽出部16と、出力部17と、を含む。記憶部120は、制御部110が使用する各種のデータを記憶する。記憶部120は、推論データセットDS1と、過去特徴情報fpastと、パラメータ群p11~p16と、を記憶している。
【0028】
(推論データセットDS1)
推論データセットDS1は、時系列を構成する画像列であって、推論の対象となる画像列である。当該画像列は、例えば、撮影装置によって撮影された画像列であってもよい。推論データセットDS1の一例について、
図6を参照して説明する。
図6は、推論データセットDS1の一例を示す模式図である。
図6に示すように、推論データセットDS1は、画像img_0、画像img_1、画像img_2、…、画像img_now、…の時系列である。ここで、画像img_i(i=0、1、2、…、n:nは2以上の自然数)の添え字iは、小さいほど過去であることを表す。これらの画像img_iを特に区別しない場合には、それぞれを単に画像imgと記載する場合もある。
【0029】
また、推論データセットDS1には、人Hを被写体として含む画像、および物体OBJを被写体として含む画像が含まれる。各画像に含まれる人Hの数および物体OBJの数は、ゼロであってもよいし、1つであってもよいし、複数であってもよい。複数の人Hまたは複数の物体OBJをそれぞれ区別して説明する場合には、人H1、H2、…、物体OBJ1、OBJ2、…、等とも記載する。
図6の例では、画像img_iは、人H1~H2、および物体OBJ1~OBJ3を被写体として含む。なお、他の画像img_k(i≠k)に含まれる人(または物体)が、画像img_iに含まれる人H1等(または物体OBJ1等)と同一人物(または同一物体)である場合、当該人(または物体)についても人H1(または物体OBJ1)等と記載する。また、画像img_iに含まれる人Hおよび物体OBJのそれぞれは、他の画像img_kに必ずしも含まれていなくてもよい。
【0030】
また、推論データセットDS1において、固定長Lの部分列Tの各々が処理の単位となる。部分列とは、画像列の一部分を構成する列である。以降、推論データセットDS1において異なる部分列Tを区別して説明する場合には、部分列T[j](j=0、1、2、…、)とも記載する。部分列T[j]の添え字jは、小さいほど過去であることを表す。また、添え字jは、部分列T[j]を識別する情報の一例である。
図6の例では、例えばL=3である場合に、部分列T[0]は、画像img_0~img_2によって構成され、部分列T[1]は、画像img_3~img_5によって構成される。また、部分列T[j]は、j=0、1、2、…の順に制御部110による処理の対象となる。
【0031】
部分列T[now]は、現在処理の対象としている部分列Tを指し、この例では、画像img_(n-2)~img_nによって構成される。以降、部分列T[now]を、部分列Tnow、とも記載する。部分列Tnowは、第1部分列の一例である。また、部分列Tnowより過去の画像imgを含む部分列T[now-1]、T[now-2]、…を、部分列Tpastとも記載する。部分列Tpastは、第2部分列の一例である。なお、固定長Lは3に限らず、その他の値であってもよい。例えば、固定長Lは、認識の対象とする行動の種別に応じて予め定められる。
【0032】
また、
図6では、部分列T[j](j=0、1、2、…、)が互いに重複しない例を示しているが、これらは互いに重複してもよい。その場合、部分列T[j]は、部分列T[j+1]より過去の画像imgを少なくとも1つ含んでいればよい。例えば、部分列T[0]は画像img0~img2によって構成され、部分列T[1]は画像img1~img3によって構成されてもよい。
【0033】
(過去特徴情報fpast)
過去特徴情報fpastは、部分列Tpastに関して算出された第1行動特徴情報fnowである。第1行動特徴情報fnowの詳細については後述する。記憶部120には、部分列Tpastを識別する情報に関連付けられた、人H毎の過去特徴情報fpastが記憶されている。部分列Tpastを識別する情報は、部分列Tpastを示す部分列T[j]の添え字jである。これらの過去特徴情報fpastを区別して説明する場合には、過去特徴情報f[j,H]とも記載する。過去特徴情報f[j,H]は、部分列T[j](j=now-1、now-2、…)に関連付けられた人Hの過去特徴情報fpastを示す。
【0034】
過去特徴情報fpastの一例について、
図7を参照して説明する。
図7は、過去特徴情報fpastの一例を説明する模式図である。
図7に示すように、記憶部120には、複数の過去特徴情報fpastとして、過去特徴情報f[0、H1]、…、f[now-1、H1]、および過去特徴情報f[5、H2]、…、f[now-1、H2]が記憶されている。過去特徴情報f[0、H1]は、部分列T[0]に関連付けられた人H1の行動の特徴を表す。過去特徴情報f[now-1、H1]は、部分列T[now-1]に関連付けられた人H1の行動の特徴を表す。過去特徴情報f[5、H2]は、部分列T[5]に関連付けられた人H2の行動の特徴を表す。同様に、過去特徴情報f[now-1、H2]は、部分列T[now-1]に関連付けられた人H2の行動の特徴を表す。
【0035】
(パラメータ群p11~p16)
パラメータ群p11は、第1算出部11の動作を規定する学習済みのパラメータ群である。パラメータ群p12は、第2算出部12の動作を規定する学習済みのパラメータ群である。パラメータ群p13は、行動認識部13の動作を規定する学習済みのパラメータ群である。パラメータ群p14は、人特徴抽出部14の動作を規定する学習済みのパラメータ群である。パラメータ群p15は、物体特徴抽出部15の動作を規定する学習済みのパラメータ群である。パラメータ群p16は、関連性抽出部16の動作を規定する学習済みのパラメータである。
【0036】
(人特徴抽出部14)
人特徴抽出部14は、部分列Tnowに含まれる1または複数の人Hを検出し、各人Hの特徴を示す人特徴情報を抽出する。ここで、人Hを検出するとは、部分列Tに含まれる複数の画像imgの各々から人Hの領域を検出し、複数の画像imgの間で同一人物と判定した人Hの領域に同一のIDを付与することである。人Hを検出する検出手法には、公知の追跡手法を適用可能であり、例えば、矩形ベースの追跡手法、ポーズベースの追跡手法、セグメンテーションベースの追跡手法などが挙げられるが、これらに限られない。また、人特徴情報を抽出するとは、各人Hについて、当該人Hの特徴を示す情報を複数の画像imgの各々から抽出することを指す。人特徴情報を抽出する抽出手法には、公知の技術を適用可能であり、例えば、深層学習の中間表現、古典的な画像特徴(SIFT等)が挙げられるが、これらに限られない。このような人特徴抽出部14の動作は、学習済みのパラメータ群p14によって規定される。
【0037】
(物体特徴抽出部15)
物体特徴抽出部15は、部分列Tnowに含まれる1または複数の物体OBJを検出し、各物体OBJの特徴を示す物体特徴情報を抽出する。ここで、物体OBJを検出するとは、部分列Tnowに含まれる複数の画像imgの各々から物体OBJの領域を検出することである。なお、物体特徴抽出部15は、複数の画像imgの間における物体の同一性を判定してもよいし、しなくてもよい。物体の同一性を判定する場合には、物体特徴抽出部15は、複数の画像imgの間で同一の物体と判定した物体OBJの領域に同一のIDを付与する。物体OBJを検出する検出手法には、公知の技術を適用可能であり、例えば、矩形ベースの手法、キーポイントベースの手法、セグメンテーションベースの手法等が挙げられるが、これらに限られない。また、物体特徴情報を抽出するとは、各物体OBJについて、当該物体OBJの特徴を示す情報を複数の画像imgの各々から抽出することを指す。物体特徴情報を抽出する抽出手法としては、公知の技術を適用可能であり、例えば、人特徴抽出部14での説明と同様の手法が挙げられるが、これらに限られない。このような物体特徴抽出部15の動作は、学習済みのパラメータ群p15によって規定される。
【0038】
(関連性抽出部16)
関連性抽出部16は、人特徴情報および物体特徴情報に基づいて、人Hおよび物体OBJの関連性を示す関連性情報を抽出する。具体的には、関連性情報は、人特徴抽出部14が検出した1または複数の人Hの各々についての、物体特徴抽出部15が検出した1または複数の物体OBJのうち最も関連性がある物体OBJを示す情報であってもよい。なお、関連性情報は、部分列Tnowに含まれる画像imgの単位で抽出されてもよいし、部分列Tnowの単位で抽出されてもよい。例えば、複数の画像imgの間における物体の同一性が判定されていない場合には、関連性情報は、画像imgの単位で抽出されることが望ましい。また、1または複数の人Hのうち、最も関連性のある物体OBJが特定されない人Hが存在してもよい。この場合、当該人Hは、何れの物体OBJも用いない行動を行っている等の状況が考えられる。この場合、関連する物体OBJが無いとの関連性情報が抽出される。また、複数の人Hに対して、最も関連性がある物体OBJとして同一の物体OBJが抽出されてもよい。この場合、複数の人Hが同一の物体OBJを用いて行動を行っている等の状況が考えられる。この場合、各人Hについて、当該同一の物体OBJを示す関連性情報が抽出される。また、一人の人Hに対して、最も関連性がある物体OBJとして複数の物体OBJが抽出されてもよい。この場合、一人の人が複数の物体OBJを用いて行動を行っている等の状況が考えられる。この場合、当該人Hについて、当該複数の物体OBJを示す関連性情報が抽出される。関連性情報を抽出する抽出手法としては、公知の技術を適用可能である。例えば、関連性抽出部16は、self attentionのようなニューラルネットワークを用いて抽出される注視情報に基づいて、最も関連性がある物体OBJを抽出してもよい。なお、関連性抽出部16の構成は、上述した構成に限られない。このような関連性抽出部16の動作は、学習済みのパラメータ群p16によって規定される。
【0039】
(第1算出部11)
第1算出部11は、部分列Tnowに含まれる画像に被写体として含まれる人Hと、物体OBJと、の関連性に基づいて、当該人Hの行動の特徴を示す第1行動特徴情報fnowを算出する。また、第1算出部11は、算出した第1行動特徴情報fnowを、当該部分列Tnowを識別する情報に関連付けて記憶部120に記憶する。記憶部120に記憶された第1行動特徴情報fnowは、部分列Tnowよりも新しい部分列Tが新たな部分列Tnowとして処理されるときに、過去特徴情報fpastとして参照される。
【0040】
具体的には、第1算出部11は、関連性情報が示す人Hおよび物体OBJの組み合わせについて、人特徴情報および物体特徴情報を参照することにより、第1行動特徴情報fnowを算出する。ここで、第1行動特徴情報fnowは、部分列Tnowに関する人Hの行動の特徴を示す。そこで、第1行動特徴情報fnowに係る人Hを区別して説明する場合には、第1行動特徴情報f[now,H]とも記載する。なお、部分列Tnowに、人Hに関連する物体OBJが被写体として含まれていない場合(換言すると、当該人Hについて関連性情報が示す物体OBJが無い場合)は、第1算出部11は、人特徴情報に基づいて第1行動特徴情報fnowを算出する。
【0041】
第1算出部11の具体例について、
図8を参照して説明する。
図8は、第1算出部11の具体例を示す模式図である。
図8に示す例では、第1算出部11は、RNN(Recurrent Neural Network)によって構成される。第1算出部11には、部分列Tnowから抽出された人H1に関する人特徴情報の時系列、および、物体OBJ1に関する物体特徴情報の時系列に基づく情報が入力される。例えば、人特徴情報および物体特徴情報がそれぞれベクトルとして表されている場合、入力される情報は、これらのベクトルを連結した情報の時系列であってもよい。また、入力される情報は、これらのベクトルの次元数を統一して加算した情報の時系列であってもよい。また、第1算出部11は、これらの情報が入力されると、人H1の行動の特徴を示す第1行動特徴情報f[now,H1]を出力する。なお、第1算出部11の構成は、上述した構成に限られない。このような第1算出部11の動作は、学習済みのパラメータ群p11によって規定される。
【0042】
(第2算出部12)
第2算出部12は、過去特徴情報fpastに基づいて、第1行動特徴情報fnowを補正した第2行動特徴情報Fnowを算出する。ここで、第2算出部12は、記憶部120に記憶された、部分列Tpastを識別する情報に関連付けられた第1行動特徴情報fnowを、過去特徴情報fpastとして参照する。なお、第2算出部12が参照する過去特徴情報fpastは、補正すべき第1行動特徴情報fnowが示す人Hについて過去に算出されたものである。より具体的には、第2算出部12は、少なくとも一部が互いに異なる複数の部分列Tpastに関する複数の過去特徴情報fpastの各々について、当該過去特徴情報fpastおよび第1行動特徴情報fnowの関連性に基づく重みを算出する。また、第2算出部12は、算出した重みをそれぞれ付与した複数の過去特徴情報fpastに基づいて、第1行動特徴情報fnowを補正した第2行動特徴情報Fnowを算出する。第2行動特徴情報Fnowは、部分列Tnowに関する人Hの行動の特徴を示す第1行動特徴情報fnowを補正したものである。そこで、第2行動特徴情報Fnowに係る人Hを区別して説明する場合には、第2行動特徴情報F[now,H]とも記載する。
【0043】
第2算出部12の具体例について、
図9を参照して説明する。
図9は、第2算出部12の具体例を示す模式図である。
図9に示す例では、第2算出部12は、複数のMLP(Multilayer Perceptron)と、attention機構と、を含む。第2算出部12には、第1行動特徴情報f[now,H1]と、過去特徴情報f[now-1,H1]~f[now-N,H1]と、が入力される。なお、Nは予め定められた2以上の自然数である。Nは、例えば、認識の対象としたい行動の種別に応じて予め定められる。第2算出部12は、第1行動特徴情報f[now,H1]および過去特徴情報f[now-1,H1]~f[now-N,H1]のそれぞれをMLPに入力し、その出力をattention機構に入力する。これにより、attention機構からは、過去特徴情報f[now-1,H1]~f[now-N,H1]のそれぞれについて、第1行動特徴情報f[now,H1]との関連の程度が出力される。第2算出部12は、この出力をsoftmax関数により正規化したものを重みとして、過去特徴情報f[now-1,H1]~f[now-N,H1]のそれぞれに乗じる。第2算出部12は、重みを乗じた過去特徴情報f[now-1,H1]~f[now-N,H1]と、第1行動特徴情報fnowとを加算することにより、第2行動特徴情報Fnowを出力する。なお、第2算出部12の構成は、上述した構成に限られない。このような第2算出部12の動作は、学習済みのパラメータ群p12によって規定される。
【0044】
ここで、attention機構により出力される関連の程度は、第1行動特徴情報fnowと過去特徴情報fpastとの時間的依存性を表していると言える。
図9の例において、例えば、部分列T[now]~T[now-N]において人H1が物体OBJ1に関連する行動を継続して行っているとする。このとき、部分列T[now]においては物体OBJ1が隠れており、部分列T[now-1]~T[now-N]においては物体OBJ1が隠れていないとする。この場合、第1行動特徴情報f[now,H1]は、人H1の行動の特徴を充分に表していない可能性があるが、過去のN個の過去特徴情報f[now-1,H1]~T[now-N]は、人H1の当該行動の特徴を表している可能性が高い。したがって、第1行動特徴情報f[now,H1]は、過去のN個の過去特徴情報f[now-1,H1]~T[now-N]に基づく情報が加算されることにより、人H1の当該行動の特徴をより良く表すよう補正される。このような補正により得られた第2行動特徴情報Fnowは、部分列Tnowにおいて人Hの行動に関連する物体OBJが隠れている場合にも、人Hの当該行動の特徴を、第1行動特徴情報fnowよりも精度よく表している。
【0045】
また、部分列T[now-1]~T[now-N]のうち何れか、例えば、部分列T[now-3]においても、物体OBJ1が隠れている場合がある。この場合、第1行動特徴情報f[now,H1]と過去特徴情報f[now-3,H1]との関連の程度は、他の過去特徴情報f[now-j,H1](j=1、2、4、…、N、j≠3)との関連の程度よりも低くなる。したがって、過去特徴情報f[now-3,H1]には、他よりも小さい重みが乗じられるので、過去特徴情報f[now-3,H1]による補正への影響は小さくなる。このような補正により得られた第2行動特徴情報Fnowは、N個の部分列Tpastの一部において人Hの行動に関連する物体OBJが隠れている場合にも、人Hの当該行動の特徴を、第1行動特徴情報fnowよりも精度よく表している。
【0046】
(行動認識部13)
行動認識部13は、第2行動特徴情報Fnowに基づいて人Hの行動を認識する。例えば、行動認識部13は、第2行動特徴情報Fnowを入力として、予め定められた1または複数の行動ラベル各々のスコアを算出し、スコアに基づいて選択した(例えば、最もスコアが高い)行動ラベルを、行動認識結果として出力してもよい。また、例えば、行動認識部13には、公知の機械学習アルゴリズムを適用可能である。そのような機械学習アルゴリズムの一例としては、ランダムフォレスト、勾配木、ニューラルネットワーク、サポートベクタマシン等が挙げられるが、これらに限られない。行動認識部13の動作は、学習済みのパラメータ群p13により規定される。
【0047】
また、行動認識部13は、第2行動特徴情報Fnowに加えて第1行動特徴情報fnowをさらに参照して、人Hの行動を認識してもよい。ここで、第1行動特徴情報fnowおよび第2行動特徴情報Fnowは、どちらも同様に人Hの行動の特徴を表す情報であり、かつ、同一の形式である。そのため、行動認識部13は、第1行動特徴情報fnowを入力としても、第2行動特徴情報Fnowを入力としても、動作可能である。そこで、例えば、行動認識部13は、第1行動特徴情報fnowを入力して得られた各行動ラベルのスコアと、第2行動特徴情報Fnowを入力して得られた各行動ラベルのスコアとの平均を算出し、平均が最も高い行動ラベルを行動認識結果として出力してもよい。また、例えば、行動認識部13は、第1行動特徴情報fnowを入力して得られたスコアが最も高い行動ラベルと、第2行動特徴情報Fnowを入力して得られたスコアが最も高い行動ラベルとを比較し、よりスコアが高い行動ラベルを行動認識結果として出力してもよい。仮に第2行動特徴情報Fnowのみを参照する場合、第2行動特徴情報Fnowに含まれる過去特徴情報fpastが行動認識結果に与える影響が大きすぎる場合がある。第1行動特徴情報fnowをさらに参照することにより、行動をより精度よく認識することができる。
【0048】
(出力部17)
出力部17は、行動認識部13から出力される人Hの行動認識結果の時系列に基づいて、当該人Hの行動ラベルを決定して出力する。推論データセットDS1に複数の人Hが被写体として含まれている場合には、出力部17は、人H毎に行動ラベルを決定して出力する。
【0049】
ここで、行動認識部13からは、人Hについて部分列T[0]、T[1]、…に関する行動認識結果が順次出力される。換言すると、行動認識部13からは、人Hについて行動認識結果である行動ラベルの時系列が出力される。例えば、出力部17は、このような行動ラベルの時系列のうち、最も高いスコアの行動ラベルを決定してもよい。また、例えば、出力部17は、このような行動ラベルの時系列のうち、スコアの合計が最も高い行動ラベルを決定してもよい。また、例えば、出力部17は、このような行動ラベルの時系列のうち、個数が最も多い行動ラベルを決定してもよい。
【0050】
(行動認識方法S10の流れ)
以上のように構成された行動認識装置10は、本例示的実施形態に係る行動認識方法S10を実行する。行動認識方法S10について、
図10を参照して説明する。
図10は、行動認識方法S10の流れを説明するフロー図である。
図10に示すように、行動認識方法S10は、ステップS101~S110を含む。
【0051】
ステップS101において、制御部110は、推論データセットDS1から、部分列Tnowを取得する。ステップS102において、人特徴抽出部14は、部分列Tnowから1または複数の人Hを検出し、各人Hの特徴を示す人特徴情報を抽出する。ステップS103において、物体特徴抽出部15は、部分列Tnowから1または複数の物体OBJを検出し、各物体OBJの特徴を示す物体特徴情報を抽出する。なお、ステップS102、S103は、順序を替えて、または並行して実行されてもよい。人Hおよび物体OBJの検出手法、ならびに、人特徴情報および物体特徴情報の抽出手法の具体例については、上述した通りである。
【0052】
次に、制御部110は、ステップS102で検出した人H毎に、ステップS104~S108を繰り返す。ステップS104において、関連性抽出部16は、人特徴情報および物体特徴情報に基づいて、当該人Hに対して最も関連性がある物体OBJを示す関連性情報を抽出する。関連性情報の抽出手法の具体例については、上述した通りである。
【0053】
ステップS105において、第1算出部11は、当該人Hの人特徴情報と、関連性情報が示す物体OBJの物体特徴情報と、を参照することにより、第1行動特徴情報fnowを算出する。なお、当該人Hについて関連性情報が示す物体OBJが無い場合には、第1算出部11は、当該人Hの人特徴情報を参照して第1行動特徴情報fnowを算出する。第1行動特徴情報fnowの算出手法の具体例については、
図8に示した第1算出部11の具体例において上述した通りである。ステップS106において、第1算出部11は、算出した第1行動特徴情報fnowを、記憶部120に記憶する。
【0054】
ステップS107において、第2算出部12は、記憶部120に記憶された過去特徴情報fpastを参照して、第1行動特徴情報fnowを補正した第2行動特徴情報Fnowを算出する。第2行動特徴情報Fnowの算出手法の具体例については、
図9に示した第2算出部12の具体例において上述した通りである。
【0055】
ステップS108において、行動認識部13は、第2行動特徴情報を参照して、人Hの行動を認識する。なお、上述したように、行動認識部13は、さらに第1行動特徴情報fnowを参照して、人Hの行動を認識してもよい。行動を認識する認識手法の具体例については、上述した通りである。
【0056】
ステップS104~S108の処理を各人Hについて完了すると、制御部110は、ステップS109を実行する。ステップS109において、制御部110は、推論データセットDS1において、部分列Tnowより新しい部分列Tがあるか否かを判断する。ステップS109でYesと判断した場合、制御部110は、新しい部分列Tを新たな部分列Tnowとして、ステップS101からの処理を繰り返す。
【0057】
ステップS109でNoと判断した場合、制御部110は、ステップS110を実行する。ステップS110において、出力部17は、人H毎に、行動認識部13から出力された当該人Hの行動認識結果の時系列に基づいて、当該人Hの行動ラベルを決定して出力する。
【0058】
(本例示的実施形態の効果)
本例示的実施形態においては、例示的実施形態1と同様の構成に加えて、推論データセットDS1(画像列)には物体OBJを被写体として含む画像が含まれ、第1算出部11は、部分列Tnowに含まれる画像に被写体として含まれる人Hと、物体OBJと、の関連性に基づいて、第1行動特徴情報fnowを算出する、との構成が採用されている。上記構成によれば、画像列において人Hの行動に関連する物体OBJが充分に映っていない時間帯がある場合(例えば、当該物体OBJの一部または全部が、当該人H、他の人H、または他の物体OBJの背後に隠れている等)にも、人Hの行動をより精度よく認識することができる。
【0059】
また、本例示的実施形態においては、上述の構成に加えて、第1算出部11は、第1行動特徴情報fnowを、部分列Tnowを識別する情報に関連付けて記憶部120に記憶し、第2算出部12は、記憶部120に記憶された、部分列Tpastを識別する情報に関連付けられた第1行動特徴情報fnowを、過去特徴情報fpastとして参照する、との構成が採用されている。上記構成によれば、過去に算出した第1行動特徴情報fnowである過去特徴情報fpastが示す過去の行動の特徴をさらに考慮するので、より精度よく人Hの行動を認識することができる。
【0060】
また、本例示的実施形態においては、上述の構成に加えて、第2算出部12は、少なくとも一部が互いに異なる複数の部分列Tpastに関する複数の過去特徴情報fpastの各々について、当該過去特徴情報fpastおよび第1行動特徴情報fnowの関連性に基づく重みを算出し、算出した重みをそれぞれ付与した複数の過去特徴情報fpastに基づいて、第1行動特徴情報fnowを補正した第2行動特徴情報Fnowを算出する、との構成が採用されている。上記構成によれば、過去の時間帯において人Hの行動に関連する物体OBJが隠れている時間帯がある場合に、そのような時間帯に対応する過去特徴情報fpastの行動認識結果への影響を小さくすることができる。
【0061】
また、本例示的実施形態においては、上述の構成に加えて、行動認識部13は、第2行動特徴情報Fnowに加えて第1行動特徴情報fnowをさらに参照して、人Hの行動を認識する、との構成が採用されている。上記構成によれば、第2行動特徴情報Fnowのみを参照する場合に比べて、第2行動特徴情報Fnowに含まれる過去特徴情報fpastが行動認識結果に与える影響が大きすぎる可能性を低減でき、行動をより精度よく認識することができる。
【0062】
〔例示的実施形態4〕
本発明の第4の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~3にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
【0063】
(学習装置20の構成)
本例示的実施形態に係る学習装置20は、例示的実施形態3に係る行動認識装置10の学習を行う装置である。学習装置20の構成について、
図11を参照して説明する。
図11は、学習装置20の構成を説明するブロック図である。
図11に示すように、学習装置20は、制御部210と、記憶部220と、を含む。制御部210は、学習装置20の各部を統括して制御する。制御部210は、学習部21と、認識部10Aと、を含む。記憶部220は、制御部210が使用する各種のデータを記憶する。記憶部220は、学習データセットDS2と、過去特徴情報fpastと、パラメータ群p11~p16と、を記憶している。
【0064】
(学習データセットDS2)
学習データセットDS2は、時系列を構成する画像列と、当該画像列に含まれる画像に被写体として含まれる人Hの行動を示す行動情報(行動ラベル)とが関連付けられたものである。また、当該画像列に含まれる画像には、人Hおよび物体OBJの一方または両方が被写体として含まれる。行動ラベルとしては、予め定められた複数の行動ラベルのうち何れかが関連付けられる。学習データセットDS2に含まれる画像列に複数の人Hが含まれる場合には、各人Hに対して行動ラベルが関連付けられている。学習データセットDS2に含まれる画像列については、
図6を参照して説明した推論データセットDS1と同様に説明されるため、詳細な説明を繰り返さない。
【0065】
(認識部10A)
認識部10Aは、例示的実施形態3に係る行動認識装置10の制御部110に含まれる各機能ブロックのうち、出力部17以外の全ての機能ブロックを含む。具体的には、認識部10Aは、第1算出部11と、第2算出部12と、行動認識部13と、人特徴抽出部14と、物体特徴抽出部15と、関連性抽出部16と、を含む。これらの各機能ブロックの詳細については、例示的実施形態3と同様に説明されるため、詳細な説明を繰り返さない。
【0066】
(学習部21)
学習部21は、学習データセットDS2を用いて認識部10Aを学習させる。具体的には、学習部21は、行動認識部13に第1行動特徴情報fnowを入力して得られる損失、および行動認識部13に第2行動特徴情報Fnowを入力して得られる損失に基づいて、認識部10Aを学習させる。例えば、学習部21は、次式(1)のように損失関数を定義する。
【0067】
損失関数 = L第1行動特徴情報 + L第2行動特徴情報 …(1)
ここで、L第1行動特徴情報は、第1行動特徴情報fnowを行動認識部13に入力して得られた人Hの行動認識結果と、学習データセットDS2において当該人Hに関連付けられた行動ラベルとに基づき計算される損失を表す。また、L第2行動特徴情報は、第2行動特徴情報Fnowを行動認識部13に入力して得られた人Hの行動認識結果と、学習データセットDS2において当該人Hに関連付けられた行動ラベルとに基づき計算される損失を表す。なお、損失関数としては、softmax cross entropyを用いてもよいが、これに限られない。学習部21は、このような損失関数を小さくするよう認識部10Aを学習させることにより、パラメータ群p11~p16を決定し、記憶部220に保存する。
【0068】
(学習方法S20の流れ)
以上のように構成された学習装置20は、本例示的実施形態に係る学習方法S20を実行する。学習方法S20について、
図12を参照して説明する。
図12は、学習方法S20の流れを説明するフロー図である。
図12に示すように、学習方法S20は、ステップS201~S210を含む。
【0069】
ステップS201~S207は、行動認識方法S10におけるステップS101~S107の説明において、制御部110を制御部210と読み替え、推論データセットDS1を学習データセットDS2と読み替えることにより、同様に説明される。
【0070】
ステップS208において、学習部21は、行動認識部13に第1行動特徴情報fnowを入力して得られる損失、および行動認識部13に第2行動特徴情報Fnowを入力して得られる損失に基づいて、認識部10Aの各部を学習させる。
【0071】
ステップS204~S208の処理を各人Hについて完了すると、制御部210は、ステップS209を実行する。ステップS209において、制御部210は、学習データセットDS2において、部分列Tnowより新しい部分列Tがあるか否かを判断する。ステップS209でYesと判断した場合、制御部210は、新しい部分列Tを新たな部分列Tnowとして、ステップS201からの処理を繰り返す。
【0072】
ステップS209でNoと判断した場合、制御部210は、ステップS210を実行する。ステップS210において、学習部21は、パラメータ群p11~p16を、記憶部220に記憶させる。
【0073】
例えば、制御部210は、このようにして保存したパラメータ群p11~16を、例示的実施形態3に係る行動認識装置10に送信して記憶部120に記憶させるようにしてもよい。これにより、学習装置20は、行動認識装置10を学習させることができる。なお、学習装置20は、認識部10Aを含む代わりに、行動認識装置10と通信可能に接続され、行動認識装置10を学習させてもよい。
【0074】
(本例示的実施形態の効果)
以上のように、本例示的実施形態においては、例示的実施形態2と同様の構成に加えて、学習部21は、行動認識部13に第1行動特徴情報fnowを入力して得られる損失、および行動認識部13に第2行動特徴情報Fnowを入力して得られる損失に基づいて、行動認識装置10を学習させる、とのが採用されている。上記構成によれば、第2行動特徴情報Fnowに含まれる過去特徴情報fpastの要素が重視された過学習を低減することができる、との効果を奏する。
【0075】
〔変形例〕
上述した例示的実施形態3~4において、過去特徴情報fpastとして、部分列Tpastを識別する情報に関連付けられた第1行動特徴情報fnowを適用する例について説明した。これに限らず、過去特徴情報fpastとして、部分列Tpastを識別する情報に関連付けられた関連特徴情報を適用してもよい。関連特徴情報は、第1行動特徴情報fnowを算出するために参照された情報である。そのような関連特徴情報としては、部分列Tnowから検出された、人Hに対して最も関連性が高い物体OBJの物体特徴情報を適用してもよい。そのような物体OBJの物体特徴情報は、関連性抽出部16により抽出された関連性情報が示すものであってもよい。
【0076】
この場合、第1算出部11は、第1行動特徴情報fnowを算出するために参照した関連特徴情報を、当該部分列Tnowを識別する情報に関連付けて記憶部120に記憶する。また、第2算出部12は、記憶部120に記憶された、部分列Tpastを識別する情報に関連付けられた関連特徴情報を、過去特徴情報fpastとして参照する。
【0077】
このように変形した構成によれば、過去に人Hの第1行動特徴情報fnowを算出したときに参照した関連特徴情報(例えば、過去において当該人Hに対して最も関連性が高い物体特徴情報)を考慮するので、より精度よく人Hの行動を認識することができる。
【0078】
また、上述した例示的実施形態3において、推論データセットDS1としての画像列の末尾に、リアルタイムに画像imgが追加されていく構成であってもよい。この場合、行動認識装置10は、最新の画像imgを含む部分列Tnowを対象として、新たな画像imgが追加されなくなるまで動作してもよい。これにより、行動認識装置10は、リアルタイムに入力される推論データセットDS1に含まれる人Hの行動をリアルタイムに認識することができる。
【0079】
〔ソフトウェアによる実現例〕
行動認識装置1、10、学習装置2、20(以下、各装置と記載)の一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
【0080】
後者の場合、各装置は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を
図13に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを各装置として動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、各装置の各機能が実現される。
【0081】
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、TPU(Tensor Processing Unit)、量子プロセッサ、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
【0082】
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
【0083】
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
【0084】
〔付記事項1〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
【0085】
〔付記事項2〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
【0086】
(付記1)
時系列を構成する画像列における第1部分列に基づいて、前記第1部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第1行動特徴情報を算出する第1算出手段と、
前記画像列において前記第1部分列よりも過去の画像を少なくとも1つ含む第2部分列に基づき算出された過去特徴情報に基づいて、前記第1行動特徴情報を補正した第2行動特徴情報を算出する第2算出手段と、
前記第2行動特徴情報に基づいて前記人の行動を認識する行動認識手段と、
を含む行動認識装置。
【0087】
(付記2)
前記画像列には、物体を被写体として含む画像が含まれ、
前記第1算出手段は、前記第1部分列に含まれる画像に被写体として含まれる人と、前記物体と、の関連性に基づいて、前記第1行動特徴情報を算出する、
付記1に記載の行動認識装置。
【0088】
(付記3)
前記第1算出手段は、前記第1行動特徴情報、または、前記第1行動特徴情報を算出するために参照した関連特徴情報を、前記第1部分列を識別する情報に関連付けて記憶装置に記憶し、
前記第2算出手段は、前記記憶装置に記憶された、前記第2部分列を識別する情報に関連付けられた前記第1行動特徴情報または前記関連特徴情報を、前記過去特徴情報として参照する、
付記1または2に記載の行動認識装置。
【0089】
(付記4)
前記第2算出手段は、
少なくとも一部が互いに異なる複数の前記第2部分列に関する複数の前記過去特徴情報の各々について、当該過去特徴情報および前記第1行動特徴情報の関連性に基づく重みを算出し、
算出した重みをそれぞれ付与した前記複数の過去特徴情報に基づいて、前記第1行動特徴情報を補正した前記第2行動特徴情報を算出する、
付記1から3の何れか1つに記載の行動認識装置。
【0090】
(付記5)
前記行動認識手段は、前記第2行動特徴情報に加えて前記第1行動特徴情報をさらに参照して、前記人の行動を認識する、
付記1から4の何れか1つに記載の行動認識装置。
【0091】
(付記6)
時系列を構成する画像列と、前記画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、付記1から5の何れか1つに記載の行動認識装置を学習させる学習手段、
を含む、学習装置。
【0092】
(付記7)
前記学習手段は、
前記行動認識手段に前記第1行動特徴情報を入力して得られる損失、および前記行動認識手段に前記第2行動特徴情報を入力して得られる損失に基づいて、前記行動認識装置を学習させる、
付記6に記載の学習装置。
【0093】
(付記8)
コンピュータが、
時系列を構成する画像列における第1部分列に基づいて、前記第1部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第1行動特徴情報を算出することと、
前記画像列において前記第1部分列よりも過去の画像を少なくとも1つ含む第2部分列に基づき算出された過去特徴情報に基づいて、前記第1行動特徴情報を補正した第2行動特徴情報を算出することと、
前記第2行動特徴情報に基づいて前記人の行動を認識することと、
を含む行動認識方法。
【0094】
(付記9)
コンピュータが、
時系列を構成する画像列と、前記画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、付記1から5の何れか1つに記載の行動認識装置を学習させること、
を含む学習方法。
【0095】
(付記10)
コンピュータを、
時系列を構成する画像列における第1部分列に基づいて、前記第1部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第1行動特徴情報を算出する第1算出手段と、
前記画像列において前記第1部分列よりも過去の画像を少なくとも1つ含む第2部分列に基づき算出された過去特徴情報に基づいて、前記第1行動特徴情報を補正した第2行動特徴情報を算出する第2算出手段と、
前記第2行動特徴情報に基づいて前記人の行動を認識する行動認識手段と、
として機能させる、プログラム。
【0096】
(付記11)
コンピュータを、
時系列を構成する画像列と、前記画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、付記1から5の何れか1つに記載の行動認識装置を学習させる学習手段、
として機能させるプログラム。
【0097】
(付記12)
少なくとも1つのプロセッサを備え、前記プロセッサは、
時系列を構成する画像列における第1部分列に基づいて、前記第1部分列に含まれる画像に被写体として含まれる人の行動の特徴を示す第1行動特徴情報を算出する第1算出処理と、
前記画像列において前記第1部分列よりも過去の画像を少なくとも1つ含む第2部分列に基づき算出された過去特徴情報に基づいて、前記第1行動特徴情報を補正した第2行動特徴情報を算出する第2算出処理と、
前記第2行動特徴情報に基づいて前記人の行動を認識する行動認識処理と、
を実行する、行動認識装置。
【0098】
なお、この行動認識装置は、更にメモリを備えていてもよく、このメモリには、前記第1算出処理と、前記第2算出処理と、前記行動認識処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
【0099】
(付記13)
少なくとも1つのプロセッサを備え、前記プロセッサは、
時系列を構成する画像列と、前記画像列に含まれる画像に被写体として含まれる人の行動を示す行動情報とが関連付けられた学習データセットを用いて、付記12に記載の行動認識装置を学習させる学習処理、
を実行する、学習装置。
【0100】
なお、この学習装置は、更にメモリを備えていてもよく、このメモリには、前記学習処理を前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
【符号の説明】
【0101】
1、10 行動認識装置
2、20 学習装置
10A 認識部
11、21 学習部
11 第1算出部
12 第2算出部
13 行動認識部
14 人特徴抽出部
15 物体特徴抽出部
16 関連性抽出部
17 出力部
110、210 制御部
120、220 記憶部
C1 プロセッサ
C2 メモリ