特許7413836 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7413836行動認識方法、行動認識プログラム及び行動認識装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-05

(45)【発行日】2024-01-16

(54)【発明の名称】行動認識方法、行動認識プログラム及び行動認識装置

(51)【国際特許分類】

G06T 7/20 20170101AFI20240109BHJP

G06T 7/00 20170101ALI20240109BHJP

G06N 20/00 20190101ALI20240109BHJP

【ＦＩ】

G06T7/20 300Z

G06T7/00 350B

G06N20/00

【請求項の数】 6

(21)【出願番号】P 2020033365

(22)【出願日】2020-02-28

(65)【公開番号】P2021135898

(43)【公開日】2021-09-13

【審査請求日】2022-11-17

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】大日方裕也

【審査官】佐田宏史

(56)【参考文献】

【文献】米国特許出願公開第２０１７／００４６５６８（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１７／０３４４８２９（ＵＳ，Ａ１）

【文献】特開２０１５－１３０１５１（ＪＰ，Ａ）

【文献】特表２０１２－５１８２３６（ＪＰ，Ａ）

【文献】Zhikai Wang et al.，"Key Joints Selection and Spatiotemporal Mining for Skeleton-Based Action Recognition"，2018 25th IEEE International Conference on Image Processing (ICIP)，米国，IEEE，2018年10月07日，pp.3458-3462

【文献】稲田健太郎、外2名，“ＯｐｅｎＰｏｓｅを用いた複数ダンサーの姿態評価の基礎検討”，映像情報メディア学会技術報告，日本，（一社）映像情報メディア学会，2018年12月10日，Vol.42, No.44，pp.21-23

【文献】Shenghua Wei et al.，"Human skeleton tree recurrent neural network with joint relative motion feature for skeleton based action recognition"，2017 IEEE International Conference on Image Processing (ICIP)，米国，IEEE，2017年09月17日，pp.91-95

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ１／００，７／００－７／９０

Ｇ０６Ｖ１０／００－１０／９８

Ｇ０６Ｎ３／０２，２０／００

(57)【特許請求の範囲】

【請求項1】

複数の関節各々の位置の時系列データを取得し、
前記複数の関節に含まれる関節ごとに、前記関節における第１の時刻の位置と、前記関節以外の他の関節における前記第１の時刻より前の第２の時刻の位置とから前記他の関節ごとに算出される相対位置の各々に認識対象とする部分行動に対する前記他の関節の相関度に基づく第１重みを付与するとともに、前記他の関節ごとに算出される相対位置の各々に前記関節および前記他の関節の間における連動性が高くなるに連れて大きくなる第２重みを付与して特徴量を算出し、
前記関節ごとに算出された前記特徴量に基づいて前記部分行動を認識する、
処理をコンピュータが実行する行動認識方法。

【請求項2】

前記算出する処理は、前記部分行動の時系列パターンに対応する要素行動に対する前記他の関節の相関度に基づいて前記他の関節ごとに算出される相対位置の各々に付与する第１重みを変えて前記特徴量を算出する請求項１に記載の行動認識方法。

【請求項3】

前記算出する処理は、前記複数の関節各々に付与する第１重みが所定の機械学習のアルゴリズムにしたがって学習済みである重みデータを参照して、前記関節における第１の時刻の位置と、前記他の関節における前記第２の時刻の位置との相対位置に基づく特徴量を算出し、
前記認識する処理は、算出された特徴量と、前記機械学習のアルゴリズムにしたがってパラメータが学習済みであるモデルとに基づいて前記部分行動の有無を判定する、
処理を含む請求項１または２に記載の行動認識方法。

【請求項4】

前記認識する処理は、前記複数の関節各々に対応するノード間を接続するシナプスに付与する第１重みに基づいて前記関節における第１の時刻の位置に前記他の関節の各々における前記第２の時刻の位置を畳み込む演算を行うモデルへ、前記複数の関節各々の位置の時系列データを入力することにより得られる前記モデルからの出力に基づいて前記部分行動を認識する請求項１または２に記載の行動認識方法。

【請求項5】

【請求項6】

複数の関節各々の位置の時系列データを取得する取得部と、
前記複数の関節に含まれる関節ごとに、前記関節における第１の時刻の位置と、前記関節以外の他の関節における前記第１の時刻より前の第２の時刻の位置とから前記他の関節ごとに算出される相対位置の各々に認識対象とする部分行動に対する前記他の関節の相関度に基づく第１重みを付与するとともに、前記他の関節ごとに算出される相対位置の各々に前記関節および前記他の関節の間における連動性が高くなるに連れて大きくなる第２重みを付与して特徴量を算出する算出部と、
前記関節ごとに算出された前記特徴量に基づいて前記部分行動を認識する認識部と、
を有する行動認識装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、行動認識方法、行動認識プログラム及び行動認識装置に関する。

【背景技術】

【0002】

映像から行動を認識する技術の１つとして、３Ｄビデオの各フレームから推定された１５個の身体関節の基本的な特徴、すなわち姿勢、速度および動きのような特徴から行動を認識するといった技術が知られている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１５－１３０１５１号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、上記の技術では、身体の一部に動きが現れる行動を認識するのが困難である場合がある。

【0005】

上記の技術では、１５個の身体関節から抽出される基本的な特徴、すなわち姿勢、速度および動きのような特徴から行動が認識される。このように、上記の技術では、全身の関節に関する姿勢、速度および動きなどの特徴が行動の認識に用いられる。それ故、上記の技術では、認識対象とする行動が身体の一部にしか動きが現れない動作である場合、他の部位に現れる動作が認識の妨げとなるので、認識精度が低下する。

【0006】

１つの側面では、本発明は、身体の一部に動きが現れる行動の認識を実現できる行動認識方法、行動認識プログラム及び行動認識装置を提供することを目的とする。

【課題を解決するための手段】

【0007】

一態様の行動認識方法では、複数の関節各々の位置を含む骨格情報を取得し、認識対象とする部分行動の種類に応じて前記複数の関節各々に付与する重みを変えて前記複数の関節各々の位置から求めた特徴量に基づいて前記部分行動を認識する、処理をコンピュータが実行する。

【発明の効果】

【0008】

身体の一部に動きが現れる行動の認識を実現できる。

【図面の簡単な説明】

【0009】

【図1】図１は、実施例１に係る行動認識サービスの一例を示す図である。

【図2】図２は、ルールの一例を示す図である。

【図3】図３は、実施例１に係る行動認識サービスの適用例を示す模式図である。

【図4A】図４Ａは、従来技術の適用時における関節の重みを示す模式図である。

【図4B】図４Ｂは、実施例１に係る要素行動認識機能の適用時における関節の重みを示す模式図である。

【図5】図５は、実施例１に係る行動認識装置の機能的構成の一例を示すブロック図である。

【図6】図６は、第１重みデータの一例を示す図である。

【図7】図７は、第２重みデータの一例を示す図である。

【図8】図８は、実施例１に係るモデル学習処理の手順を示すフローチャートである。

【図9】図９は、実施例１に係る行動認識処理の手順を示すフローチャートである。

【図10】図１０は、ＧＣＮＮへの適用例を示す図である。

【図11】図１１は、パラメータのイメージを示す模式図である。

【図12】図１２は、コンピュータのハードウェア構成例を示す図である。

【発明を実施するための形態】

【0010】

以下に添付図面を参照して本願に係る行動認識方法、行動認識プログラム及び行動認識装置について説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

【実施例1】

【0011】

［行動認識サービスの一例］
図１は、実施例１に係る行動認識サービスの一例を示す図である。図１に示す行動認識サービス１は、カメラ２の映像から被写体、例えば人の行動を認識するサービスを提供するものである。このような行動認識サービス１では、あくまで一例として、複数の動作が組み合わさることで複雑化する上位行動、例えば不審行動や購買行動などが認識対象とされる。

【0012】

上記の行動認識サービス１を除けば、「上位行動」の認識には、その行動が含まれる映像などを学習データとして大量に準備する必要がある。このような大量の学習データの準備は実質的に困難であったり、あるいは大量の学習データの準備ができたとしても時間と手間がかかったりといった一面があるので、現場への導入が困難である側面がある。

【0013】

このような大量の学習データの準備を不要化する側面から、上記の行動認識サービス１では、日常の生活で行われる「基本動作」や上位行動の要素として含まれ得る「要素行動」の組合せが規定されたルールにしたがって上位行動を認識する。

【0014】

図１に示すように、行動認識サービス１には、骨格検出機能３、基本動作認識機能４、上位行動認識機能５などが含まれ得る。

【0015】

骨格検出機能３は、カメラ２により撮像された映像のフレームごとに被写体の各関節の位置を含む骨格情報を検出する機能である。あくまで一例として、骨格検出機能３は、２次元または３次元のモーションキャプチャ技術により実現され得る。

【0016】

基本動作認識機能４は、各フレームの骨格情報から基本動作を認識する機能である。あくまで一例として、基本動作認識機能４は、ディープラーニング等の機械学習のアルゴリズムにしたがって基本動作が学習済みであるモデルにより実現され得る。

【0017】

例えば、「基本動作」には、人の全身に動きが現れる「全身行動」や人の身体の一部に動きが現れる「部分行動」などが含まれ得る。このうち、「全身行動」の例として、「歩く」や「走る」、「止まっている」などの行動が挙げられる。また、「部分行動」の例として、「右手を上げる」や「下を向く」、「前を向く」などの行動が挙げられる。

【0018】

これら「全身行動」や「部分行動」は、日常で行われる「基本動作」であるので、「上位行動」に比べれば単純な動作である。それ故、「基本動作」はその映像の収集が容易であると共に、学習済みのモデルにより高精度な認識を実現し得る。

【0019】

上位行動認識機能５は、上位行動を認識する機能である。図１に示すように、上位行動認識機能５には、時系列分析機能５Ａやルール照合機能５Ｂなどがさらに含まれ得る。

【0020】

時系列分析機能５Ａは、基本動作が所定の時系列パターンに該当するか否かを分析する機能である。例えば、時系列パターンの一例として、基本動作の継続性や基本動作の状態遷移などが挙げられる。このような時系列パターンに該当する基本動作が「要素行動」として認識される。

【0021】

ルール照合機能５Ｂは、基本行動および要素行動の認識結果と、ルール６とを照合する機能である。このようなルール６を満たす場合、認識対象とする上位行動が認識される。

【0022】

１つの側面として、ルール６は、基本行動および要素行動の組合せにより認識対象とする上位行動を定義するものである。例えば、組合せには、基本行動および要素行動のうちいずれか一方または両方が含まれることとしてもかまわない。また、ルール６には、複数の組合せが定義される場合、各組合せの間での順序や論理的関係などが定義され得る。

【0023】

ここで、上記の行動認識サービス１では、システム定義のみならず、ユーザ定義によりルール６を設定させることができる。例えば、上記の行動認識サービス１を提供する事業者側のシステムエンジニアや上記の行動認識サービス１の顧客などのユーザＵにルール６を編集させることにより、ユーザＵによるカスタマイズが可能である。

【0024】

なお、図１には、時系列分析を抜粋して例示したが、これと並行して、基本行動が発生する場所が所定の空間条件を満たすか否か、例えばＲＯＩ（Region of Interest）内に存在するか否かなどの空間分析が行われることとしてもかまわない。例えば、不審行動が認識対象とされる場合、モニタリング対象、例えばピッキングであればドアやその近辺などをＲＯＩとして設定できる。また、購買行動が認識対象とされる場合、商品の陳列棚などをＲＯＩとして設定できる。

【0025】

［行動認識サービスの適用例］
次に、図２および図３を用いて、本実施例に係る行動認識サービス１の適用例について説明する。図２は、ルール６の一例を示す図である。図２には、認識対象とする上位行動の一例として、「歩きスマホ（Using a smartphone while walking）」を定義するルールが示されている。図２に示すように、ルール６には、ステップＳ１～Ｓ２の順に各ステップの組合せが定義されている。例えば、ステップＳ１には、全身行動Ｃ１「歩く」、要素行動Ｃ２「スマホ保持」、要素行動Ｃ３「下を向く」および要素行動Ｃ５「スマホ操作開始」が設定されている。さらに、ステップＳ２には、全身行動Ｃ１「歩く」、要素行動Ｃ２「スマホ保持」、要素行動Ｃ４「前を向く」および要素行動Ｃ６「スマホ操作終了」が設定されている。

【0026】

図３は、実施例１に係る行動認識サービス１の適用例を示す模式図である。図３には、図２に示すルール６が定義された状況の下でカメラ２から入力される映像のフレームｔ１～ｔ６ごとに全身行動および部分行動の認識結果が模式的に示されている。

【0027】

図３に示すように、ステップＳ１及びステップＳ２の全身行動Ｃ１「歩く」がフレームｔ１からフレームｔ６まで継続して認識される。さらに、右腕の部分行動「前」および右手の部分行動「物体保持」がフレームｔ１からフレームｔ６まで継続する。これら右腕の部分行動「前」および右手の部分行動「物体保持」の継続は、要素行動「スマホ保持」の時系列パターンに該当する。このため、ステップＳ１及びステップＳ２の要素行動Ｃ２「スマホ保持」がフレームｔ１からフレームｔ６まで継続して認識される。

【0028】

さらに、フレームｔ１およびフレームｔ２で顔の部分行動が「前」から「下」へ変化する。このような顔の部分行動の時系列変化は、要素行動Ｃ３「下を向く」の時系列パターンに該当する。よって、ステップＳ１の要素行動Ｃ３がフレームｔ２の時点で認識される。さらに、フレームｔ２およびフレームｔ３で左腕の部分行動が「下」から「前」へ変化する。このような左腕の部分行動の時系列変化は、要素行動Ｃ５「スマホ操作開始」の時系列パターンに該当する。よって、ステップＳ１の要素行動Ｃ５がフレームｔ３の時点で認識される。

【0029】

このように、フレームｔ３の時点でステップＳ１の組合せに含まれる全身行動Ｃ１「歩く」、要素行動Ｃ２「スマホ保持」、要素行動Ｃ３「下を向く」および要素行動Ｃ５「スマホ操作開始」がＡＮＤ条件で認識される。この結果、フレームｔ３の時点でステップＳ１が成立する。

【0030】

その後、フレームｔ５およびフレームｔ６で顔の部分行動が「下」から「前」へ変化する。このような顔の部分行動の時系列変化は、要素行動Ｃ４「前を向く」の時系列パターンに該当する。よって、ステップＳ２の要素行動Ｃ４がフレームｔ６の時点で認識される。さらに、フレームｔ５およびフレームｔ６で左腕の部分行動が「前」から「下」へ変化する。このような左腕の部分行動の時系列変化は、要素行動Ｃ６「スマホ操作終了」の時系列パターンに該当する。よって、ステップＳ２の要素行動Ｃ６がフレームｔ６の時点で認識される。

【0031】

このように、フレームｔ６の時点でステップＳ２の組合せに含まれる全身行動Ｃ１「歩く」、要素行動Ｃ２「スマホ保持」、要素行動Ｃ４「前を向く」および要素行動Ｃ６「スマホ操作終了」がＡＮＤ条件で認識される。この結果、フレームｔ６の時点でステップＳ２が成立する。

【0032】

したがって、フレームｔ６の時点でステップＳ１、ステップＳ２の順序でステップＳ１及びステップＳ２の両方が成立するので、ルール６を満たす上位行動「歩きスマホ」が認識される。

【0033】

以上のように、本実施例に係る行動認識サービス１によれば、基本動作や要素行動の組合せが定義されたルール６にしたがって上位行動が認識されるので、大量の学習データの準備を不要化できる。さらに、本実施例に係る行動認識サービス１によれば、システム定義が行われたプリセットのルール６だけでなく、ユーザＵにルール６をカスタマイズさせることが可能であるので、現場に対応する上位行動の認識を実現できる。

【0034】

［課題の一側面］
上述の通り、本実施例に係る行動認識サービス１によれば、システム定義が行われたプリセットの基本動作や要素行動を用いてルール６をカスタマイズできる。

【0035】

ところが、現場によって求められる要素行動は多様であるので、必ずしもプリセットの要素行動だけで現場に対応する上位行動を定義できるとは限らない。このようにプリセットにない要素行動の認識には、時系列分析に用いる時系列パターンを新たに設定する必要がある。

【0036】

しかしながら、時系列パターンの設定には、行動認識サービス１および現場の双方の専門知識が求められる上に時間や手間がかかるので、プリセットにない要素行動の認識が困難であるという側面がある。

【0037】

このような要素行動の認識は、上記の背景技術の欄で説明した技術でも困難である。すなわち、上記の背景技術の欄で説明した通り、上記の技術では、１５個の身体関節から抽出される基本的な特徴、すなわち姿勢、速度および動きのような特徴から行動が認識される。このように、上記の技術では、全身の関節に関する姿勢、速度および動きなどの特徴が行動の認識に用いられる。それ故、上記の技術では、認識対象とする行動が身体の一部にしか動きが現れない動作である場合、他の部位に現れる動作が認識の妨げとなるので、認識精度が低下する。

【0038】

［課題解決のアプローチの一側面］
そこで、本実施例では、各関節の位置の時系列データに基づいて要素行動を認識する際、認識対象とする要素行動の種類に応じて各関節に付与する重みを変えて求めた特徴量に基づいて要素行動を認識する要素行動認識機能７が行動認識サービス１にアドオンされる。このような要素行動認識機能７では、認識対象とする要素行動に対応する身体の部位以外の他の部位に現れる動作が認識の妨げとなるのを抑制する課題解決のアプローチが採用される。

【0039】

なお、ここでは、認識対象とする行動のあくまで一例として、要素行動を例示したが、これに限定されない。あくまで一例として、認識対象とする行動は、身体の一部に動きが現れる行動全般、例えば部分行動などであってもかまわない。例えば、部分行動が認識対象とする場合、認識対象とする部分行動の種類に応じて各関節に付与する重みを変えて各関節の位置の時系列データから求めた特徴量に基づいて部分行動を認識することとすればよい。

【0040】

図４Ａは、従来技術の適用時における関節の重みを示す模式図である。図４Ｂは、実施例１に係る要素行動認識機能７の適用時における関節の重みを示す模式図である。図４Ａ及び図４Ｂには、要素行動の一例として、「右手を上げる」が認識対象とされる例が示されると共に、フレームｔ－ｋおよびフレームｔにおける関節の位置を含む骨格モデルが示されている。

【0041】

ここでは、あくまで一例として、関節ごとに当該関節のフレームｔの位置と各関節のフレームｔ－ｋの位置との差、すなわち相対位置を速度特徴として算出し、各関節の速度特徴に基づいて認識対象とする要素行動が認識される例を挙げる。

【0042】

このように各関節の速度特徴が算出される場合、左右の手首、肘、肩、腰、膝、足首といった関節ごとに相対位置が算出される。例えば、右手首の速度特徴は、右手首の関節のフレームｔの位置と右手首の関節のフレームｔ－ｋの位置との差、右手首の関節のフレームｔの位置と右肘の関節のフレームｔ－ｋの位置との差、・・・、右手首の関節のフレームｔの位置と左足首の関節のフレームｔ－ｋの位置との差に基づいて算出される。

【0043】

図４Ａには、従来技術において右手首の速度特徴が算出される場合に右手首との相対位置を求める各関節に付与される重みの大きさが破線の太さにより示されている。図４Ａに示すように、各破線には、互いの太さに差がない。つまり、右手首の速度特徴は、要素行動「右手を上げる」と相関がある右手首や右肘、右肩などの関節のフレームｔ－ｋの位置から求める相対位置と、要素行動「右手を上げる」とは無相関である左腕や下半身などの関節のフレームｔ－ｋの位置から求める相対位置との間で同じ大きさの重みが付与された状態で算出される。

【0044】

図４Ｂには、あくまで一例として、本実施例に係る要素行動認識機能７において、右手首の速度特徴が算出される場合に右手首との相対位置を求める各関節に付与される重みの大きさが破線の太さにより示されている。要素行動「右手を上げる」と相関がある関節のフレームｔ－ｋの位置から求める相対位置と、要素行動「右手を上げる」とは無相関である関節のフレームｔ－ｋの位置から求める相対位置との間で異なる重みが付与される。図４Ｂに示すように、認識対象とする要素行動の種類ごとに速度特徴の算出対象とする関節との相対位置の算出に用いる各関節に付与する重みが設定された重みデータにしたがって重みが付与される。例えば、右手首の関節のフレームｔの位置と右手首の関節のフレームｔ－ｋの位置との間で算出される相対位置には、重み「１」が付与される。また、右手首の関節のフレームｔの位置と右肘の関節のフレームｔ－ｋの位置との間で算出される相対位置には、重み「１／２」が付与される。さらに、右手首の関節のフレームｔの位置と右肩の関節のフレームｔ－ｋの位置との間で算出される相対位置には、重み「１／４」が付与される。その一方で、左腕や下半身などの関節のフレームｔ－ｋの位置から求める相対位置には、重み「０」が付与される。このように、右手首の速度特徴は、要素行動「右手を上げる」とは無相関である関節のフレームｔ－ｋの位置から求める相対位置よりも、要素行動「右手を上げる」と相関がある関節のフレームｔ－ｋの位置から求める相対位置に付与される重みを大きくして算出される。

【0045】

ここで、要素行動「右手を上げる」と無相関である部位の位置から求まる相対位置は、要素行動「右手を上げる」を認識する障害、いわゆるノイズとなる。あくまで一例として、「歩きながら右手を上げる」様子が撮影された映像と、「歩いている」様子が撮影された映像とが入力される場合を例に挙げる。なお、説明の便宜上、２つの映像の間で右手首、右肘および右肩以外の関節の動きは同一であると仮定する。

【0046】

例えば、頭部以外に１２個の関節の位置を含む骨格モデルが得られる場合、２つの映像の各フレームの間で同一の位置である関節は、右手首、右肘および右肩の関節を除いて９個となる。たとえ２つの映像の各フレームの間で残りの３個の関節の位置が異なるとしても、右手首の速度特徴の算出に占める７５％（＝９÷１２×１００）の相対位置が同一の値になる。

【0047】

それ故、従来技術によれば、各関節に同一の重みが付与されるので、右手首の速度特徴の算出に占める７５％（＝９÷１２×１００）の相対位置がそのままノイズとなる。このため、２つの映像の間で算出される右手首の速度特徴が類似する可能性が高まる。この結果、「歩いている」様子が撮影された映像までもが認識対象とする要素行動「右手を上げる」と認識されるので、認識精度が低下する。

【0048】

一方、本実施例に係る要素行動認識機能７によれば、要素行動「右手を上げる」とは無相関である関節よりも要素行動「右手を上げる」と相関がある関節に大きな重みを付与されるので、ノイズが除外された状態で右手首の速度特徴を算出できる。この結果、「歩いている」様子が撮影された映像までもが認識対象とする要素行動「右手を上げる」と認識されるのを抑制できる。

【0049】

したがって、本実施例に係る要素行動認識機能７によれば、身体の一部に動きが現れる行動の一例として、プリセットにない要素行動の認識を実現することが可能になる。さらに、本実施例に係る要素行動認識機能７によれば、プリセットにない要素行動がルールに追加される場合、時系列分析に用いる時系列パターンを新たに設定する時間や手間などを削減することも可能になる。

【0050】

［行動認識装置の機能的構成］
図５は、実施例１に係る行動認識装置１０の機能的構成の一例を示すブロック図である。図５に示す行動認識装置１０は、上記の行動認識サービス１を提供するコンピュータの一例に対応する。

【0051】

一実施形態として、行動認識装置１０は、パッケージソフトウェア又はオンラインソフトウェアとして、上記の行動認識サービス１を実現する行動認識プログラムを任意のコンピュータにインストールさせることによって実装できる。例えば、行動認識装置１０は、ＳａａＳ（Software as a Service）型のアプリケーションとして実装することで、上記の行動認識サービス１をクラウドサービスとして提供することとしてもかまわない。これに限定されず、行動認識装置１０は、上記の行動認識サービス１に対応する機能をオンプレミスに提供するサーバとして実装することができる。

【0052】

さらに、行動認識装置１０には、図５に示すように、撮像装置の一例に対応するカメラ２が接続され得る。これら行動認識装置１０及びカメラ２の間は、任意のネットワークを介して通信可能に接続され得る。例えば、ネットワークは、有線または無線を問わず、インターネットやＬＡＮ（Local Area Network）などの任意の種類の通信網であってかまわない。なお、図１や図５には、説明の便宜上、１つの行動認識装置１０につき１つのカメラ２が接続される例を挙げたが、１つの行動認識装置１０につき複数のカメラ２が接続されることを妨げない。

【0053】

図５に示すように、行動認識装置１０は、映像取得部１１と、骨格情報取得部１２と、基本動作認識部１３と、上位行動認識部１４と、ルール記憶部１５と、要素行動認識部１７と、第１重み記憶部１８と、第２重み記憶部１９とを有する。なお、行動認識装置１０は、図５に示す機能部以外にも既知のコンピュータが有する各種の機能部、例えば入出力インタフェイスや通信インタフェイスなどに対応する機能が含まれてもかまわない。

【0054】

図５に示す映像取得部１１、骨格情報取得部１２、基本動作認識部１３、上位行動認識部１４及び要素行動認識部１７などの機能部は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などのハードウェアプロセッサにより仮想的に実現される。すなわち、プロセッサは、図示しない記憶装置、例えばＨＤＤ（Hard Disk Drive）、光ディスクやＳＳＤ（Solid State Drive）などからＯＳ（Operating System）の他、上記の行動認識サービス１がパッケージ化された行動認識プログラムなどのプログラムを読み出す。その上で、プロセッサは、上記の行動認識プログラムを実行することにより、ＲＡＭ（Random Access Memory）等のメモリ上に上記の機能部に対応するプロセスを展開する。このように、上記の行動認識プログラムが実行される結果、上記の機能部がプロセスとして仮想的に実現される。ここでは、プロセッサの一例として、ＣＰＵやＭＰＵを例示したが、汎用型および特化型を問わず、任意のプロセッサにより上記の機能部が実現されることとしてもかまわない。この他、上記の機能部または機能部の一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによって実現されることとしてもかまわない。

【0055】

上記のルール記憶部１５、第１重み記憶部１８及び第２重み記憶部１９などの記憶部は、ＨＤＤや光ディスク、ＳＳＤなどの補助記憶装置として実装したり、補助記憶装置が有する記憶領域の一部を割り当てることにより実装したりすることができる。

【0056】

映像取得部１１は、映像を取得する処理部である。

【0057】

一実施形態として、映像取得部１１は、カメラ２から伝送される映像をフレーム単位で取得することができる。ここで、映像取得部１１が映像を取得する情報ソースは、任意の情報ソースであってよく、カメラ２に限定されない。例えば、映像取得部１１は、映像を蓄積するハードディスクや光ディスクなどの補助記憶装置またはメモリカードやＵＳＢ（Universal Serial Bus）メモリなどのリムーバブルメディアから映像を取得することもできる。この他、映像取得部１１は、カメラ２以外の外部装置からネットワークＮＷを介して映像を取得することもできる。

【0058】

骨格情報取得部１２は、映像のフレームごとに被写体の各関節の位置を含む骨格情報を検出する処理部である。あくまで一例として、骨格情報取得部１２は、映像取得部１１により映像が取得されるフレームごとに、当該映像をモーションキャプチャエンジンへ入力することにより、各関節の位置を含む骨格情報を取得することができる。例えば、２次元のモーションキャプチャが行われる場合、関節ｎ＝１，・・・，Ｎのフレームｔの座標（ｘ^ｔ _１，ｙ^ｔ _１）、（ｘ^ｔ _２，ｙ^ｔ _２）、・・・（ｘ^ｔ _Ｎ，ｙ^ｔ _Ｎ）が得られる。以下、インデックスｎは、ｎ＝１，・・・，Ｎの順に、右手首、右肘、右肩、左手首、・・・、左足首を識別することとする。なお、上記のモーションキャプチャエンジンは、必ずしも行動認識装置１０上のプロセッサで実行されずともよく、外部のエンジンを利用することとしてもかまわない。

【0059】

基本動作認識部１３は、各フレームの骨格情報から基本動作を認識する処理部である。あくまで一例として、基本動作認識部１３は、フレームごとに骨格情報取得部１２により取得される各関節の位置をディープラーニング等の機械学習のアルゴリズムにしたがって基本動作が学習済みであるモデルへ入力する。これによって、フレームごとに基本動作の認識結果が得られる。

【0060】

上位行動認識部１４は、上位行動を認識する処理部である。図５に示すように、上位行動認識部１４には、時系列分析部１４Ａやルール照合部１４Ｂをさらに有する。

【0061】

時系列分析部１４Ａは、基本動作が所定の時系列パターンに該当するか否かを分析する処理部である。例えば、時系列パターンの一例として、基本動作の継続性や基本動作の状態遷移などが挙げられる。このような時系列パターンに該当する基本動作が「要素行動」として認識される。

【0062】

ルール照合部１４Ｂは、基本行動および要素行動の認識結果と、ルール記憶部１５に記憶されたルールとを照合する処理部である。例えば、ルール照合部１４Ｂは、時系列分析部１４Ａによる時系列分析で認識された要素行動のみならず、後述の要素行動認識部１７により認識された要素行動もルールとの照合に用いる。そして、ルールを満たす場合、認識対象とする上位行動が認識される。

【0063】

ルール記憶部１５は、基本行動および要素行動の組合せにより認識対象とする上位行動を定義されたルールを記憶する。例えば、組合せには、基本行動および要素行動のうちいずれか一方または両方が含まれることとしてもかまわない。また、ルールには、複数の組合せが定義される場合、各組合せの間での順序や論理的関係などが定義され得る。

【0064】

あくまで一例として、ルール記憶部１５には、図２に示されたルール６などが記憶され得る。図２に示すように、ルール６には、ステップＳ１～Ｓ２の順に各ステップの組合せが定義されている。例えば、ステップＳ１には、基本行動（全身行動）Ｃ１「歩く」、要素行動Ｃ２「スマホ保持」、要素行動Ｃ３「下を向く」および要素行動Ｃ５「スマホ操作開始」が設定されている。さらに、ステップＳ２には、基本行動（全身行動）Ｃ１「歩く」、要素行動Ｃ２「スマホ保持」、要素行動Ｃ４「前を向く」および要素行動Ｃ６「スマホ操作終了」が設定されている。

【0065】

このようにルール記憶部１５には、システム定義のみならず、ユーザ定義により設定されたルール６を記憶させることができる。例えば、上記の行動認識サービス１を提供する事業者側のシステムエンジニアや上記の行動認識サービス１の顧客などのユーザＵにルール６を編集させることによりユーザＵによるカスタマイズが可能である。

【0066】

要素行動認識部１７は、認識対象とする要素行動を認識する処理部である。図５に示すように、要素行動認識部１７は、算出部１７Ａと、判定部１７Ｂとをさらに有する。

【0067】

算出部１７Ａは、要素行動の特徴量を算出する処理部である。

【0068】

１つの側面として、算出部１７Ａは、認識対象とする要素行動の種類に応じて各関節に付与する重みを変える。以下、認識対象とする要素行動の種類に応じて変える各関節の重みのことを「第１重み」と記載する場合がある。

【0069】

ここで、特徴量のあくまで一例として、下記の式（１）に示す速度特徴を算出する例を挙げる。下記の式（１）に示す速度特徴のうち関節ｎのフレームｔの速度特徴ｆ_ｓ（ｘ^ｔ _ｎ）は、下記の式（２）にしたがって算出される。なお、下記の式（２）に示す「ｋ」は、あらかじめ定められた定数を指し、例えば、任意の自然数を設定することができる。

【0070】

【数1】

【数2】

【0071】

以下、あくまで一例として、認識対象の要素行動が「右手を上げる」である場合において、速度特徴を算出する例を説明する。

【0072】

まず、Ｎ個の関節のフレームｔの速度特徴のうち、右手首の関節のフレームｔの速度特徴ｆ_ｓ（ｘ^ｔ _右手首）を算出する場合（ｎ＝１である場合）を例にあげる。すなわち、算出部１７Ａは、第１重み記憶部１８に記憶された第１重みデータにしたがって上記の式（２）の第１重みｗ^ｉを設定する。

【0073】

図６は、第１重みデータの一例を示す図である。図６には、第１重みデータのあくまで一例として、ＳＶＭ（Sapport vector machine）等の機械学習のアルゴリズムにしたがって学習済みである関節の重みおよびモデルのパラメータが示されている。図６に示すように、第１重みデータには、一例として、認識対象の要素行動ごとに速度特徴の算出対象とする関節ｎとの相対位置の算出に用いる各関節ｉ＝１，・・・，Ｎの第１重みｗ^ｉが対応付けられたデータを採用できる。

【0074】

例えば、右手首の関節のフレームｔの位置と右手首の関節のフレームｔ－ｋの位置との間で相対位置が算出される場合（ｉ＝１である場合）、図６に示す第１重みデータのうち右手首の重み「１」が第１重みｗ^１に設定される。また、右手首の関節のフレームｔの位置と右肘の関節のフレームｔ－ｋの位置との間で相対位置が算出される場合（ｉ＝２である場合）、図６に示す第１重みデータのうち右肘の重み「１／２」が第１重みｗ^２に設定される。さらに、右手首の関節のフレームｔの位置と右肩の関節のフレームｔ－ｋの位置との間で相対位置が算出される場合（ｉ＝３である場合）、図６に示す第１重みデータのうち右肘の重み「１／４」が第１重みｗ^３に設定される。このようにしてインデックスｉがＮになるまで、同様の処理を繰り返す。

【0075】

他の側面として、算出部１７Ａは、各関節の間の連動性に応じて各関節に付与する重みを変える。以下、各関節の間の連動性に応じて変える各関節の重みのことを「第２重み」と記載する場合がある。

【0076】

例えば、算出部１７Ａは、第２重み記憶部１９に記憶された第２重みデータにしたがって上記の式（２）の第２重みｂ_ｎを設定する。

【0077】

図７は、第２重みデータの一例を示す図である。図７に示すように、第２重みデータには、一例として、速度特徴の算出対象とする関節ｎごとに当該関節ｎとの相対位置の算出時に用いるフレームｔ－ｋの各関節ｉに付与する第２重みｂ_ｎが対応付けられたデータを採用できる。例えば、関節ｎおよび関節ｉの間の連動性が高くなるに連れて高い値が第２の重みに設定される一方で、関節ｎおよび関節ｉの間の連動性が低くなるに連れて低い値が第２の重みに設定される。

【0078】

例えば、右手首の速度特徴ｆ_ｓ（ｘ^ｔ _右手首）が算出される場合（ｎ＝１である場合）、図７に示す第２重みデータのうち１行目のレコードが参照される。まず、右手首の関節のフレームｔの位置と右手首の関節のフレームｔ－ｋの位置との間で相対位置が算出される場合（ｉ＝１である場合）、図７に示す１行目のレコードに含まれる関節ｉ＝１，・・・，Ｎの第２重みのうちインデックスｉ＝１により識別される右手首の重み「１」が第２重みｂ_１に設定される。そして、フレームｔ－ｋの関節が右肘および右肩である場合も、第２重みｂ_１に「１」が設定される。続いて、右手首の関節のフレームｔの位置と左手首の関節のフレームｔ－ｋの位置との間で相対位置が算出される場合（ｉ＝４である場合）、図７に示す１行目のレコードに含まれる関節ｉ＝１，・・・，Ｎの第２重みのうちインデックスｉ＝４により識別される左手首の重み「０」が第２重みｂ_１に設定される。このようにしてインデックスｉがＮになるまで、同様の処理を繰り返す。

【0079】

このように第１重みｗ^ｉおよび第２重みｂ_ｎが設定された後、算出部１７Ａは、各関節のフレームｔの位置と、各関節のフレームｔ－ｋの位置とを上記の式（２）に代入することにより、右手首の関節のフレームｔの速度特徴ｆ_ｓ（ｘ^ｔ _右手首）を算出する。同様にして、算出部１７Ａは、右肘の関節のフレームｔの速度特徴ｆ_ｓ（ｘ^ｔ _右肘）、・・・、左足首の関節のフレームｔの速度特徴ｆ_ｓ（ｘ^ｔ _左足首）を算出する。その後、算出部１７Ａは、Ｎ個のフレームｔの速度特徴ｆ_ｓ（ｘ^ｔ _１）～速度特徴ｆ_ｓ（ｘ^ｔ _Ｎ）を上記の式（１）に代入することにより、認識対象とする要素行動「右手を上げる」のフレームｔの速度特徴を算出する。

【0080】

なお、図６及び図７には、各データがテーブル形式で格納される場合を例示したが、これはあくまで一例であり、そのデータ構造はリレーショナルデータベースに限定されない。例えば、ＸＭＬ（Extensible Markup Language）などのマークアップ言語によりタグ形式で記述されるデータであってもよいし、ＣＳＶ（Comma-Separated Values）などのようにカンマや改行により記述されるデータであってもかまわない。

【0081】

また、図７には、第２重みとして「１」または「０」が設定される例を挙げたが、必ずしも「１」または「０」の２値に限定されず、「０」から「１」までの任意の値を設定することができる。

【0082】

判定部１７Ｂは、算出部１７Ａにより算出された特徴量に基づいて認識対象とする要素行動の有無を判定する処理部である。

【0083】

あくまで一例として、判定部１７Ｂは、算出部１７Ａにより算出された速度特徴をＳＶＭの学習済みモデルに入力する。例えば、学習済みモデルが線形識別モデルである場合、学習済みモデルは、図６に示されたモデルの識別境界パラメータ、すなわち傾きａおよび切片ｂにより定まる識別境界に基づいて要素行動ありのラベル「１」または要素行動なしのラベル「０」を出力する。このように学習済みモデルから出力されるラベルにより認識対象とする要素行動の有無が識別できる。

【0084】

このようなモデルのパラメータ、例えば傾きａおよび切片ｂは、あくまで一例として、次のようにして学習できる。例えば、認識対象とする要素行動の正例または負例に対応する映像と、正例または負例の正解ラベルとを含む学習データが用いられる。そして、下記の式（３）における「第１重み」と、モデルの「識別境界パラメータ」とに初期値を設定した上で、学習データから算出される速度特徴と、モデルの識別境界パラメータとに基づいて認識対象の要素行動を認識する。その上で、下記の式（４）における損失関数Ｌを最小化するように、「第１重み」および「識別境界パラメータ」を更新する処理を規定のエポック回数にわたって繰り返す。下記の式（４）における「ｑ（ｘ）」は、活性化関数を指し、例えば、ｔａｎｈ関数やシグモイド関数、ＲＥＬＵ関数などを採用できる。また、下記の式（４）における「ｆ_ｓ」は、各関節ｉに付与される第１重みｗ^ｉを指す。例えば、正解数が多くなるに連れて値が小さくなる一方で正解数が少なくなるに連れて大きくなる損失関数Ｌについてパラメータ（ｔ，ｑ（ｆ_ｓ））を最大化する対数尤度の最適化を行うことで、「第１重み」および「識別境界パラメータ」の最適化を目指す。

【0085】

【数3】

【数4】

【0086】

［処理の流れ］
次に、本実施例に係る行動認識装置１０の処理の流れについて説明する。ここでは、行動認識装置１０により実行される（１）モデル学習処理を説明した後に、（２）行動認識処理を説明することとする。

【0087】

（１）モデル学習処理
図８は、実施例１に係るモデル学習処理の手順を示すフローチャートである。このモデル学習処理は、行動認識装置１０を含め、任意の学習装置により実行されてかまわない。例えば、モデル学習処理は、モデル学習のリクエストを受け付けた場合に開始される。なお、上記の式（３）における「第１重み」および「識別境界パラメータ」には初期値が設定される。

【0088】

図８に示すように、学習装置は、認識対象とする要素行動の正例または負例に対応する映像と、正例または負例の正解ラベルとを含む学習データとして取得する（ステップＳ１０１）。

【0089】

続いて、学習装置は、ステップＳ１０１で取得された学習データごとに当該学習データに含まれる映像から関節の位置の時系列データを取得する（ステップＳ１０２）。

【0090】

その後、学習装置は、規定のエポック数に達するまで下記のステップＳ１０３から下記のステップＳ１０８までの処理を繰り返してから処理を終了する。さらに、学習装置は、１エポックにつき、学習データの数に対応する回数分、下記のステップＳ１０３から下記のステップＳ１０７までの処理を繰り返す。さらに、学習装置は、１つの学習データにつき、認識対象とする要素行動の数に対応する回数分、下記のステップＳ１０３から下記のステップＳ１０６までの処理を繰り返す。

【0091】

すなわち、学習装置は、第１重み記憶部１８に記憶された第１重みデータを参照して、認識対象の要素行動ごとに速度特徴を算出する関節ｎとの相対位置の算出に用いる各関節ｉ＝１，・・・，Ｎに付与する第１重みｗ^ｉを設定する（ステップＳ１０３）。続いて、行動認識装置１０は、第２重み記憶部１９に記憶された第２重みデータを参照して、速度特徴を算出する関節ｎ＝１，・・・，Ｎごと、および、関節ｎとの相対位置の算出時に用いるフレームｔ－ｋの関節ｉ＝１，・・・，Ｎごとに付与する第２重みｂ_ｎを設定する（ステップＳ１０４）。

【0092】

その上で、学習装置は、第１重みｗ^ｉおよび第２重みｂ_ｎの設定後の式（２）に各関節のフレームｔの位置および各関節のフレームｔ－ｋの位置を代入して得られるＮ個のフレームｔの速度特徴ｆ_ｓ（ｘ^ｔ _１）～速度特徴ｆ_ｓ（ｘ^ｔ _Ｎ）を上記の式（１）へさらに代入することにより、要素行動のフレームｔの速度特徴を算出する（ステップＳ１０５）。

【0093】

そして、学習装置は、ステップＳ１０５で算出された要素行動のフレームｔの速度特徴を識別境界パラメータ、例えば傾きａおよび切片ｂを有するモデルへ入力することにより当該モデルから出力されたラベルに基づいて認識対象とする要素行動の有無を判定する（ステップＳ１０６）。

【0094】

その後、学習装置は、認識対象とする要素行動の認識結果と正解のラベルとを比較することにより、正解数および不正解数をカウントする（ステップＳ１０７）。

【0095】

その上で、学習装置は、ステップＳ１０７でカウントされた正解数および不正解数に基づいて「第１重み」および「識別境界パラメータ」を含むパラメータを更新する（ステップＳ１０８）。

【0096】

（２）行動認識処理
図９は、実施例１に係る行動認識処理の手順を示すフローチャートである。この処理は、一例として、映像取得部１１により新たなフレームの映像が取得された場合に開始することができる。

【0097】

図９に示すように、映像取得部１１は、カメラ２等から映像のフレームが取得する（ステップＳ３０１）。すると、骨格情報取得部１２は、ステップＳ３０１で取得された映像をモーションキャプチャエンジンへ入力することにより、各関節の位置を含む骨格情報を取得する（ステップＳ３０２）。

【0098】

ステップＳ３０２以降、ステップＳＡ３０３～ステップＳＡ３０７で要素行動のＡ処理と、ステップＳＢ３０３及びステップＳＢ３０４のＢ処理とが並行して行われる。これらＡ処理およびＢ処理は、必ずしも並列に実行されずともよく、直列に実行されることとしてもよい。この場合、Ａ処理およびＢ処理は、順不同で実行することができる。

【0099】

例えば、ステップＳＢ３０３では、基本動作認識部１３は、ステップＳ３０２で取得された各関節の位置を基本動作が学習済みであるモデルへ入力することにより当該モデルから出力される基本動作の認識結果を得る。続いて、ステップＳＢ３０４では、時系列分析部１４Ａは、ステップＳＢ３０３で認識された基本動作が所定の時系列パターンに該当するか否かを分析する。

【0100】

このように、ステップＳＢ３０３で基本動作が認識された場合、当該基本動作が図示しないメモリのワークエリアに保存される。また、ステップＳＢ３０４で基本動作が時系列パターンに該当する場合、当該基本動作の時系列パターンに対応する要素行動が図示しないメモリのワークエリアに保存される。

【0101】

一方、下記のステップＳＡ３０３から下記のステップＳＡ３０７までの処理は、１フレームにつき、認識対象とする要素行動の数に対応する回数分、繰り返される。

【0102】

すなわち、算出部１７Ａは、第１重み記憶部１８に記憶された第１重みデータを参照して、認識対象の要素行動ごとに速度特徴を算出する関節ｎとの相対位置の算出に用いる各関節ｉ＝１，・・・，Ｎに付与する第１重みｗ^ｉを設定する（ステップＳＡ３０３）。

【0103】

続いて、算出部１７Ａは、第２重み記憶部１９に記憶された第２重みデータを参照して、速度特徴を算出する関節ｎ＝１，・・・，Ｎごと、および、関節ｎとの相対位置の算出時に用いるフレームｔ－ｋの関節ｉ＝１，・・・，Ｎごとに付与する第２重みｂ_ｎを設定する（ステップＳＡ３０４）。

【0104】

その上で、算出部１７Ａは、第１重みｗ^ｉおよび第２重みｂ_ｎの設定後の式（２）に各関節のフレームｔの位置および各関節のフレームｔ－ｋの位置を代入して得られるＮ個のフレームｔの速度特徴ｆ_ｓ（ｘ^ｔ _１）～速度特徴ｆ_ｓ（ｘ^ｔ _Ｎ）を上記の式（１）へさらに代入することにより、要素行動のフレームｔの速度特徴を算出する（ステップＳＡ３０５）。

【0105】

このとき、ステップＳＡ３０５で要素行動が認識された場合（ステップＳＡ３０６Ｙｅｓ）、ステップＳＡ３０５で認識された要素行動が図示しないメモリのワークエリアに保存される（ステップＳＡ３０７）。一方、ステップＳＡ３０５で要素行動が認識されない場合（ステップＳＡ３０６Ｎｏ）、上記のステップＳＡ３０７の処理がスキップされる。

【0106】

これらステップＳＢ３０４及びステップＳＡ３０７の終了後、ルール照合部１４Ｂは、ステップＳＢ３０３で認識された基本行動、ステップＳＢ３０４で認識された要素行動及びステップＳＡ３０７で認識された要素行動と、ルール記憶部１５に記憶されたルールとを照合する（ステップＳ３０８）。

【0107】

そして、ルール照合部１４Ｂは、上位行動の認識結果を所定の出力先へ出力する（ステップＳ３０９）。ここで言う「出力先」は、任意のハードウェアやソフトウェアでよい。例えば、上位行動の認識結果は、上位行動の認識結果に応じて任意のバックエンドの処理を実行するサービスや機能へ出力することができる。この他、上位高度の認識結果は、上記の行動認識サービス１のユーザＵにより設定された表示デバイスや音声出力デバイス、情報処理装置あるいは携帯端末装置などであってもよい。その通知形態もＷｅｂやメールなどの任意であってよい。

【0108】

［効果の一側面］
上述してきたように、本実施例に係る行動認識装置１０は、各関節の位置の時系列データに基づいて要素行動を認識する際、認識対象とする要素行動の種類に応じて各関節に付与する重みを変えて求めた特徴量に基づいて要素行動を認識する。このため、認識対象とする要素行動に対応する身体の部位以外の他の部位に現れる動作が認識の妨げとなるのが抑制される。したがって、本実施例に係る行動認識装置１０によれば、身体の一部に動きが現れる行動の一例として、プリセットにない要素行動の認識を実現することが可能になる。さらに、本実施例に係る行動認識装置１０によれば、プリセットにない要素行動がルールに追加される場合、時系列分析に用いる時系列パターンを新たに設定する時間や手間などを削減することも可能になる。

【実施例2】

【0109】

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。

【0110】

［要素行動の認識の実装の適用範囲］
上記の実施例１では、あくまで一例として、ＳＶＭのアルゴリズムにしたがって学習された第１重みやモデルのパラメータにより要素行動の認識を実現する例を挙げたが、これに限定されず、任意の方法で要素行動の認識を実現することとしもかまわない。その一例として、グラフに対して畳み込み演算を行うＧＣＮＮ（Graph Convolutional Networks）により要素行動の認識が実現される例を挙げる。

【0111】

図１０は、ＧＣＮＮへの適用例を示す図である。図１１は、パラメータのイメージを模式的に示す模式図である。図１０には、関節がノードによって表現されると共に人体構造がグラフ構造によって表現されるＧＣＮＮが示されている。さらに、図１０及び図１１には、Ｎ個の関節のフレームｔの速度特徴のうち、右手首の関節のフレームｔの速度特徴ｆ_ｓ（ｘ^ｔ _右手首）を算出する場合（ｎ＝１である場合）に行われる畳み込み演算が例に挙げられている。

【0112】

上記の式（２）に従えば、右手首の関節のフレームｔの速度特徴ｆ_ｓ（ｘ^ｔ _右手首）が計算される場合、関節ｎ＝１のフレームｔの位置（ｘ^ｔ _１，ｙ^ｔ _１）と、各関節ｉ＝１，・・・，Ｎのフレームｔ－ｋの位置（ｘ^ｔ－ｋ _ｉ，ｙ^ｔ－ｋ _ｉ）との間で相対位置が計算される。これらＮ個の相対位置（ｘ^ｔ _ｎ－ｘ^ｔ－ｋ _ｉ）の各々には、第２重みｂ_右手首×第１重みｗ^ｉが付与される。

【0113】

一方、図１０に示すＧＣＮＮのモデルでは、各関節ｉ＝１，・・・，Ｎのフレームｔ－ｋの位置（ｘ^ｔ－ｋ _ｉ，ｙ^ｔ－ｋ _ｉ）には、第２重みｂ_右手首×第１重みｗ^ｉが付与される。このように第２重みｂ_右手首×第１重みｗ^ｉが付与された関節ｉ＝１，・・・，Ｎのフレームｔ－ｋの位置（ｘ^ｔ－ｋ _ｉ，ｙ^ｔ－ｋ _ｉ）がｎ＝１の右手首の関節ｎ＝１のフレームｔの位置（ｘ^ｔ _１，ｙ^ｔ _１）に畳み込まれる。

【0114】

これを模式的に示すと図１１の通りとなる。例えば、図１１に示すように、ｉ＝１である場合、ｉ＝１の右手首の関節のフレームｔ－ｋの位置（ｘ^ｔ－ｋ _右手首，ｙ^ｔ－ｋ _右手首）には、第２重みｂ_右手首（＝１）×第１重みｗ^１（＝１）が付与される。また、ｉ＝２である場合、ｉ＝２の右肘の関節のフレームｔ－ｋの位置（ｘ^ｔ－ｋ _右肘，ｙ^ｔ－ｋ _右肘）には、第２重みｂ_右手首（＝１）×第１重みｗ^２（＝１／２）が付与される。さらに、ｉ＝３である場合、ｉ＝３の右肩の関節のフレームｔ－ｋの位置（ｘ^ｔ－ｋ _右肩，ｙ^ｔ－ｋ _右肩）には、第２重みｂ_右手首（＝１）×第１重みｗ^３（＝１／４）が付与される。以降のｉ＝４以降についても第１重みおよび第２重みが同様に付与される。例えば、ｉ＝Ｎである場合、ｉ＝Ｎの左足首の関節のフレームｔ－ｋの位置（ｘ^ｔ－ｋ _左足首，ｙ^ｔ－ｋ _左足首）には、第２重みｂ_右手首（＝０）×第１重みｗ^Ｎ（＝１／１２８）が付与される。これら第２重みｂ_右手首×第１重みｗ^ｉは、図８に示したモデル学習処理と同様の処理を行うことにより、ＧＣＮＮのモデルのシナプスの重みとして学習できる。

【0115】

このように、ＧＣＮＮのモデルにおいても、上記の式（２）にしたがって第２重みｂ_右手首×第１重みｗ^ｉが付与された関節ｉ＝１，・・・，Ｎのフレームｔ－ｋの位置（ｘ^ｔ－ｋ _ｉ，ｙ^ｔ－ｋ _ｉ）がｎ＝１の右手首の関節ｎ＝１のフレームｔの位置（ｘ^ｔ _１，ｙ^ｔ _１）に畳み込まれる。さらに、ｎ＝２以降の関節のフレームｔの速度特徴ｆ_ｓ（ｘ^ｔ _ｎ）についても、同様の畳み込み演算が行われる。このような畳み込み演算がｎ＝Ｎまで実行される結果、ＧＣＮＮのモデルの出力層からは認識対象とする要素行動の認証結果（真偽）、あるいは要素行動の確信度が出力されることになる。

【0116】

以上のように、上記の要素行動の認識は、上記の実施例１に示す例以外にも、ＧＣＮＮのモデルを用いたり、他の任意の方法で実現できることが明らかである。

【0117】

［認識対象の適用範囲］
上記の実施例１では、認識対象とする行動のあくまで一例として、要素行動を例示したが、これに限定されない。あくまで一例として、認識対象とする行動は、身体の一部に動きが現れる行動全般、例えば部分行動やであってもかまわない。例えば、部分行動が認識対象とする場合、認識対象とする部分行動の種類に応じて各関節に付与する重みを変えて各関節の位置の時系列データから求めた特徴量に基づいて部分行動を認識することとすればよい。すなわち、要素行動認識部１７の説明における「要素行動」を「部分行動」へ読み替えることにより、要素行動の認識と同様に、部分行動の認識を実現できる。

【0118】

［分散および統合］
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、映像取得部１１、骨格情報取得部１２、基本動作認識部１３、上位行動認識部１４または要素行動認識部１７を行動認識装置１０の外部装置としてネットワーク経由で接続するようにしてもよい。また、映像取得部１１、骨格情報取得部１２、基本動作認識部１３、上位行動認識部１４または要素行動認識部１７を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の行動認識装置１０の機能を実現するようにしてもよい。

【0119】

［行動認識プログラム］
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１２を用いて、上記の実施例１および実施例２と同様の機能を有する行動認識プログラムを実行するコンピュータの一例について説明する。

【0120】

図１２は、コンピュータのハードウェア構成例を示す図である。図１２に示すように、コンピュータ１００は、操作部１１０ａと、スピーカ１１０ｂと、カメラ１１０ｃと、ディスプレイ１２０と、通信部１３０とを有する。さらに、このコンピュータ１００は、ＣＰＵ１５０と、ＲＯＭ１６０と、ＨＤＤ１７０と、ＲＡＭ１８０とを有する。これら１１０～１８０の各部はバス１４０を介して接続される。

【0121】

ＨＤＤ１７０には、図１２に示すように、上記の実施例１で示した映像取得部１１、骨格情報取得部１２、基本動作認識部１３、上位行動認識部１４および要素行動認識部１７と同様の機能を発揮する行動認識プログラム１７０ａが記憶される。この行動認識プログラム１７０ａは、図５に示した映像取得部１１、骨格情報取得部１２、基本動作認識部１３、上位行動認識部１４および要素行動認識部１７の各構成要素と同様、統合又は分離してもかまわない。すなわち、ＨＤＤ１７０には、必ずしも上記の実施例１で示した全てのデータが格納されずともよく、処理に用いるデータがＨＤＤ１７０に格納されればよい。

【0122】

このような環境の下、ＣＰＵ１５０は、ＨＤＤ１７０から行動認識プログラム１７０ａを読み出した上でＲＡＭ１８０へ展開する。この結果、行動認識プログラム１７０ａは、図１２に示すように、行動認識プロセス１８０ａとして機能する。この行動認識プロセス１８０ａは、ＲＡＭ１８０が有する記憶領域のうち行動認識プロセス１８０ａに割り当てられた領域にＨＤＤ１７０から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、行動認識プロセス１８０ａが実行する処理の一例として、図８や図９に示す処理などが含まれる。なお、ＣＰＵ１５０では、必ずしも上記の実施例１で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。

【0123】

なお、上記の行動認識プログラム１７０ａは、必ずしも最初からＨＤＤ１７０やＲＯＭ１６０に記憶されておらずともかまわない。例えば、コンピュータ１００に挿入されるフレキシブルディスク、いわゆるＦＤ、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に行動認識プログラム１７０ａを記憶させる。そして、コンピュータ１００がこれらの可搬用の物理媒体から行動認識プログラム１７０ａを取得して実行するようにしてもよい。また、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１００に接続される他のコンピュータまたはサーバ装置などに行動認識プログラム１７０ａを記憶させておき、コンピュータ１００がこれらから行動認識プログラム１７０ａを取得して実行するようにしてもよい。

【0124】

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

【0125】

（付記１）複数の関節各々の位置を含む骨格情報を取得し、
認識対象とする部分行動の種類に応じて前記複数の関節各々に付与する重みを変えて前記複数の関節各々の位置から求めた特徴量に基づいて前記部分行動を認識する、
処理をコンピュータが実行する行動認識方法。

【0126】

（付記２）前記認識する処理は、各関節の間の連動性に応じて前記複数の関節各々に付与する重みをさらに変える付記１に記載の行動認識方法。

【0127】

（付記３）前記認識する処理は、前記部分行動の時系列パターンに対応する要素行動の種類に応じて前記複数の関節各々に付与する重みを変えて前記複数の関節各々の位置の時系列データから求めた特徴量に基づいて前記要素行動を認識する付記１に記載の行動認識方法。

【0128】

（付記４）前記認識する処理は、
前記複数の関節各々に付与する重みが所定の機械学習のアルゴリズムにしたがって学習済みである重みデータを参照して、前記複数の関節各々の位置の時系列データから第１時点における関節の位置と前記第１時点よりも過去である第２時点における前記複数の関節の位置との間の相対位置に基づく特徴量を算出し、
算出された特徴量と、前記機械学習のアルゴリズムにしたがってパラメータが学習済みであるモデルとに基づいて前記部分行動の有無を判定する、
処理を含む付記１に記載の行動認識方法。

【0129】

（付記５）前記認識する処理は、前記複数の関節各々に対応するノード間を接続するシナプスに付与する重みに基づいて第１時点における関節の位置に前記第１時点よりも過去である第２時点における前記複数の関節の位置を畳み込む演算を行うモデルへ、前記複数の関節各々の位置の時系列データを入力することにより得られる前記モデルからの出力に基づいて前記部分行動を認識する付記１に記載の行動認識方法。

【0130】

（付記６）複数の関節各々の位置を含む骨格情報を取得し、
認識対象とする部分行動の種類に応じて前記複数の関節各々に付与する重みを変えて前記複数の関節各々の位置から求めた特徴量に基づいて前記部分行動を認識する、
処理をコンピュータに実行させる行動認識プログラム。

【0131】

（付記７）前記認識する処理は、各関節の間の連動性に応じて前記複数の関節各々に付与する重みをさらに変える付記６に記載の行動認識プログラム。

【0132】

（付記８）前記認識する処理は、前記部分行動の時系列パターンに対応する要素行動の種類に応じて前記複数の関節各々に付与する重みを変えて前記複数の関節各々の位置の時系列データから求めた特徴量に基づいて前記要素行動を認識する付記６に記載の行動認識プログラム。

【0133】

（付記９）前記認識する処理は、
前記複数の関節各々に付与する重みが所定の機械学習のアルゴリズムにしたがって学習済みである重みデータを参照して、前記複数の関節各々の位置の時系列データから第１時点における関節の位置と前記第１時点よりも過去である第２時点における前記複数の関節の位置との間の相対位置に基づく特徴量を算出し、
算出された特徴量と、前記機械学習のアルゴリズムにしたがってパラメータが学習済みであるモデルとに基づいて前記部分行動の有無を判定する、
処理を含む付記６に記載の行動認識プログラム。

【0134】

（付記１０）前記認識する処理は、前記複数の関節各々に対応するノード間を接続するシナプスに付与する重みに基づいて第１時点における関節の位置に前記第１時点よりも過去である第２時点における前記複数の関節の位置を畳み込む演算を行うモデルへ、前記複数の関節各々の位置の時系列データを入力することにより得られる前記モデルからの出力に基づいて前記部分行動を認識する付記６に記載の行動認識プログラム。

【0135】

（付記１１）複数の関節各々の位置を含む骨格情報を取得する取得部と、
認識対象とする部分行動の種類に応じて前記複数の関節各々に付与する重みを変えて前記複数の関節各々の位置から求めた特徴量に基づいて前記部分行動を認識する認識部と、
を有する行動認識装置。

【0136】

（付記１２）前記認識部は、各関節の間の連動性に応じて前記複数の関節各々に付与する重みをさらに変える付記１１に記載の行動認識装置。

【0137】

（付記１３）前記認識部は、前記部分行動の時系列パターンに対応する要素行動の種類に応じて前記複数の関節各々に付与する重みを変えて前記複数の関節各々の位置の時系列データから求めた特徴量に基づいて前記要素行動を認識する付記１１に記載の行動認識装置。

【0138】

（付記１４）前記認識部は、
前記複数の関節各々に付与する重みが所定の機械学習のアルゴリズムにしたがって学習済みである重みデータを参照して、前記複数の関節各々の位置の時系列データから第１時点における関節の位置と前記第１時点よりも過去である第２時点における前記複数の関節の位置との間の相対位置に基づく特徴量を算出する算出部と、
算出された特徴量と、前記機械学習のアルゴリズムにしたがってパラメータが学習済みであるモデルとに基づいて前記部分行動の有無を判定する判定部と、
を有する付記１１に記載の行動認識装置。

【0139】

（付記１５）前記認識部は、前記複数の関節各々に対応するノード間を接続するシナプスに付与する重みに基づいて第１時点における関節の位置に前記第１時点よりも過去である第２時点における前記複数の関節の位置を畳み込む演算を行うモデルへ、前記複数の関節各々の位置の時系列データを入力することにより得られる前記モデルからの出力に基づいて前記部分行動を認識する付記１１に記載の行動認識装置。

【符号の説明】

【0140】

１０行動認識装置
１１映像取得部
１２骨格情報取得部
１３基本動作認識部
１４上位行動認識部
１４Ａ時系列分析部
１４Ｂルール照合部
１５ルール記憶部
１７要素行動認識部
１７Ａ算出部
１７Ｂ判定部
１８第１重み記憶部
１９第２重み記憶部

【図1】