特開2022-72444 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特開2022-72444行動認識学習装置、行動認識装置、行動認識学習方法、行動認識方法、及び行動認識学習プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3
4
5
6
7A
7B
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022072444

(43)【公開日】2022-05-17

(54)【発明の名称】行動認識学習装置、行動認識装置、行動認識学習方法、行動認識方法、及び行動認識学習プログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20220510BHJP

G06T 7/20 20170101ALI20220510BHJP

G06N 20/00 20190101ALI20220510BHJP

【ＦＩ】

G06T7/00 350B

G06T7/20 300

G06N20/00

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2020181885

(22)【出願日】2020-10-29

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110001519

【氏名又は名称】特許業務法人太陽国際特許事務所

(72)【発明者】

【氏名】細野峻司

(72)【発明者】

【氏名】梅田崇之

(72)【発明者】

【氏名】北原正樹

(72)【発明者】

【氏名】島村潤

(72)【発明者】

【氏名】澤田清仁

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096CA04

5L096DA02

5L096GA34

5L096HA02

5L096HA11

5L096JA03

5L096JA13

5L096KA04

5L096MA07

(57)【要約】

【課題】動作対象物の行動種別を精度よく推定することを可能とする。
【解決手段】行動認識学習装置は、動作対象物の動作の各々を含む動作データと、前記動作の各々の行動種別に対応する行動ラベルとを学習データとして受け付ける。行動認識学習装置は、前記動作の各々の組合せについて、動作に関する類似度を算出する動作類似度算出部と、前記動作に関する類似度に基づいて、前記行動ラベルをクラスタリングし、前記行動ラベルの階層構造を生成する行動クラスタリング部と、前記動作データ及び前記階層構造を用いて算出された損失に基づいて、行動種別を推定するための行動認識モデルのパラメータを学習する階層的学習部と、を含む。
【選択図】図４

【特許請求の範囲】

【請求項1】

動作対象物の動作の各々を含む動作データと、前記動作の各々の行動種別に対応する行動ラベルとを学習データとして受け付け、
前記動作の各々の組合せについて、動作に関する類似度を算出する動作類似度算出部と、
前記動作に関する類似度に基づいて、前記行動ラベルをクラスタリングし、前記行動ラベルの階層構造を生成する行動クラスタリング部と、
前記動作データ及び前記階層構造を用いて算出された損失に基づいて、行動種別を推定するための行動認識モデルのパラメータを学習する階層的学習部と、
を含む行動認識学習装置。

【請求項2】

動作対象物の動作の各々を含む動作データと、前記動作の各々の行動種別に対応する行動ラベルとを学習データとして受け付け、
前記行動ラベルの各々について、言語特徴を抽出する関数を用いて言語に関する類似度を算出する言語類似度算出部と、
前記言語に関する類似度に基づいて、前記行動ラベルをクラスタリングし、前記行動ラベルの階層構造を生成する行動クラスタリング部と、
前記動作データ及び前記階層構造を用いて算出された損失に基づいて、行動種別を推定するための行動認識モデルのパラメータを学習する階層的学習部と、
を含む行動認識学習装置。

【請求項3】

前記行動クラスタリング部は、前記類似度に応じた抽象度ごとにクラスタを階層化して、前記階層ごとに、抽象化された階層に対応する抽象ラベルと、最終的な階層に対応する最終行動ラベルとに分類することにより前記階層構造を生成し、
前記階層的学習部は、行動認識部と、損失計算部と、パラメータ最適化部と、を含み、
前記行動認識部は、前記階層構造に応じて階層ごとに識別を行う所定の手法を用いて、前記動作データを入力として、各階層の所定の畳み込みブロックから抽出された特徴量を連結して用いて、中間ブロックの識別として前記抽象ラベルの識別、及び最終ブロックの識別として前記最終行動ラベルの識別を識別結果として出力し、
前記損失計算部は、前記識別結果を用いて、前記階層構造の階層の各々についての、当該階層における前記抽象ラベル、及び当該階層の前記抽象ラベルに対する尤度を用いた第１値と、前記動作の各々に対する教師ラベル、及び最終ブロックの前記最終行動ラベルの推定結果を用いた第２値とによる誤差を求めることにより前記損失を計算し、
前記パラメータ最適化部は、前記損失に基づいて前記行動認識モデルのパラメータを最適化する、請求項１又は請求項２に記載の行動認識学習装置。

【請求項4】

請求項１～請求項３の何れか１項に記載の行動認識学習装置によって学習された、前記階層構造、及び前記行動認識モデルのパラメータを用いて、入力された映像又は骨格系列に含まれる動作の行動種別を推定する行動推定部、
を含む行動認識装置。

【請求項5】

動作対象物の動作の各々を含む動作データと、前記動作の各々の行動種別に対応する行動ラベルとを学習データとして受け付け、
前記動作の各々の組合せについて、動作に関する類似度を算出し、
前記動作に関する類似度に基づいて、前記行動ラベルをクラスタリングし、前記行動ラベルの階層構造を生成し、
前記動作データ及び前記階層構造を用いて算出された損失に基づいて、行動種別を推定するための行動認識モデルのパラメータを学習する、
処理をコンピュータに実行させる行動認識学習方法。

【請求項6】

動作対象物の動作の各々を含む動作データと、前記動作の各々の行動種別に対応する行動ラベルとを学習データとして受け付け、
前記行動ラベルの各々について、言語特徴を抽出する関数を用いて言語に関する類似度を算出し、
前記言語に関する類似度に基づいて、前記行動ラベルをクラスタリングし、前記行動ラベルの階層構造を生成し、
前記動作データ及び前記階層構造を用いて算出された損失に基づいて、行動種別を推定するための行動認識モデルのパラメータを学習する、
処理をコンピュータに実行させる行動認識学習方法。

【請求項7】

請求項５又は請求項６に記載の行動認識学習方法によって学習された、前記階層構造、及び前記行動認識モデルのパラメータを用いて、入力された映像又は骨格系列に含まれる動作の行動種別を推定する、
処理をコンピュータに実行させる行動認識方法。

【請求項8】

請求項１～請求項３の何れか１項に記載の行動認識学習装置の各部の処理をコンピュータに実行させる行動認識学習プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

開示の技術は、行動認識学習装置、行動認識装置、行動認識学習方法、行動認識方法、及び行動認識学習プログラムに関する。

【背景技術】

【0002】

入力された映像（又は骨格系列）に含まれる動作対象物がどのような行動を取っているかを推定し、認識する行動認識技術がある。行動認識技術は、監視カメラ映像の解析、及びロボットの人間行動理解等、幅広い産業応用を持つ。実世界で人が取り得る行動は多岐に渡る。例えば、人の日常動作を認識対象としているＮＴＵＲＧＢ＋Ｄ１２０データセット（非特許文献１参照）では、１２０クラスの行動種別が定義されている。行動認識技術には、このような多くの種別の行動を正確に分類する能力が求められる。

【0003】

精度の高い公知の技術としては、映像からＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（ＣＮＮ）を用いて特徴を抽出し分類する（非特許文献２参照）技術がある。また、骨格検出により取得された骨格情報からＧｒａｐｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ（ＧＣＮ）を用いて特徴を抽出し分類する技術（非特許文献３参照）がある。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】J. Liu, A. Shahroudy, M. Perez, G. Wang, L-Y. Duan and A. C. Kot, “NTU RGB+D 120: A Large-Scale Benchmark for 3D Human Activity Understanding,” IEEE Trans. on Pattern Analysis and Machine Intelligence, 2019.

【非特許文献2】J. Lin, C. Gan, S. Han, “TSM: Temporal Shift Module for Efficient Video Understanding,” in IEEE Int. Con. on Computer Vision, 2019.

【非特許文献3】S. Yan, Y. Xiong and D. Lin, “Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition,” in the Thirty-Second AAAI Conference on Artificial Intelligence, 2018.

【発明の概要】

【発明が解決しようとする課題】

【0005】

分類すべき行動種別が増加するほど、クラス間で類似した動作が含まれることが多くなり、行動分類が困難になる。公知の技術では識別に有効な特徴抽出器の学習をｅｎｄ―ｔｏ―ｅｎｄで行なっており、複数の畳み込み層で得るべき特徴を、学習過程における識別結果の正否のみにより学習している。このように、分類すべき行動の類似性を明示的に考慮しない従来法は、動作が類似した行動間での誤認識が発生し、精度向上の余地を残す。

【0006】

開示の技術は、上記の点に鑑みてなされたものであり、動作対象物の行動種別を精度よく推定することを可能とする行動認識学習装置、行動認識装置、行動認識学習方法、行動認識方法、及び行動認識学習プログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

本開示の第１態様は、行動認識学習装置であって、動作対象物の動作の各々を含む動作データと、前記動作の各々の行動種別に対応する行動ラベルとを学習データとして受け付け、前記動作の各々の組合せについて、動作に関する類似度を算出する動作類似度算出部と、前記動作に関する類似度に基づいて、前記行動ラベルをクラスタリングし、前記行動ラベルの階層構造を生成する行動クラスタリング部と、前記動作データ及び前記階層構造を用いて算出された損失に基づいて、行動種別を推定するための行動認識モデルのパラメータを学習する階層的学習部と、を含む。

【0008】

本開示の第２態様は、行動認識学習装置であって、動作対象物の動作の各々を含む動作データと、前記動作の各々の行動種別に対応する行動ラベルとを学習データとして受け付け、前記行動ラベルの各々について、言語特徴を抽出する関数を用いて言語に関する類似度を算出する言語類似度算出部と、前記言語に関する類似度に基づいて、前記行動ラベルをクラスタリングし、前記行動ラベルの階層構造を生成する行動クラスタリング部と、前記動作データ及び前記階層構造を用いて算出された損失に基づいて、行動種別を推定するための行動認識モデルのパラメータを学習する階層的学習部と、を含む。

【0009】

本開示の第３態様は、行動認識学習方法であって、動作対象物の動作の各々を含む動作データと、前記動作の各々の行動種別に対応する行動ラベルとを学習データとして受け付け、前記動作の各々の組合せについて、動作に関する類似度を算出し、前記動作に関する類似度に基づいて、前記行動ラベルをクラスタリングし、前記行動ラベルの階層構造を生成し、前記動作データ及び前記階層構造を用いて算出された損失に基づいて、行動種別を推定するための行動認識モデルのパラメータを学習する、処理をコンピュータに実行させることを特徴とする。

【0010】

本開示の第４態様は、行動認識学習方法であって、動作対象物の動作の各々を含む動作データと、前記動作の各々の行動種別に対応する行動ラベルとを学習データとして受け付け、前記行動ラベルの各々について、言語特徴を抽出する関数を用いて言語に関する類似度を算出し、前記言語に関する類似度に基づいて、前記行動ラベルをクラスタリングし、前記行動ラベルの階層構造を生成し、前記動作データ及び前記階層構造を用いて算出された損失に基づいて、行動種別を推定するための行動認識モデルのパラメータを学習する、処理をコンピュータに実行させることを特徴とする。

【発明の効果】

【0011】

開示の技術によれば、動作対象物の行動種別を精度よく推定することを可能とする。

【図面の簡単な説明】

【0012】

【図1】従来法によるＣＮＮ又はＧＣＮベースの行動認識器の学習手法の一例を示す図である。

【図2A】従来法による行動ラベルの正解と推定結果が異なってしまうケースの一例を示す図である。

【図2B】従来法による行動ラベルの正解と推定結果が異なってしまうケースの一例を示す図である。

【図3】行動認識学習装置及び行動認識装置のハードウェア構成を示すブロック図である。

【図4】第１実施形態の行動認識学習装置の構成を示すブロック図である。

【図5】各層における抽象ラベルの識別、及び最終的な最終行動ラベルの識別についての一例を示す図である。

【図6】第１実施形態の行動認識装置の構成を示すブロック図である。

【図7A】段階的に抽象ラベル及び最終行動ラベルの分類を行う場合の一例を示す図である。

【図7B】段階的に抽象ラベル及び最終行動ラベルの分類を行う場合の一例を示す図である。

【図8】第１実施形態の行動認識学習装置による行動認識学習処理の流れを示すフローチャートである。

【図9】第１実施形態の行動認識装置による行動分類処理の流れを示すフローチャートである。

【図10】第２実施形態の行動認識学習装置の構成を示すブロック図である。

【図11】第２実施形態の行動認識学習装置による行動認識学習処理の流れを示すフローチャートである。

【発明を実施するための形態】

【0013】

以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

【0014】

まず、本開示の概要について説明する。図１は、従来法によるＣＮＮ又はＧＣＮベースの行動認識器の学習手法の一例を示す図である。図１の例は、水を飲む動作の映像と、当該動作の骨格系列を入力し、畳み込みを複数回行なう学習により、行動ラベルを推定する行動認識器を学習する態様のイメージ図である。このような行動認識器を用いた場合、上記課題において説明したように、分類すべき行動種別が増加するほど類似した動作での区別が困難になる。図２Ａ及び図２Ｂは、従来法による行動ラベルの正解と推定結果が異なってしまうケースの一例を示す図である。図２Ａ及び図２Ｂに示すように、正解と推定結果が異なってしまっており困難であることを示している。図２Ａの例では、Ｖサインの動作（ｍａｋｅｖｉｃｔｏｒｙｓｉｇｎ）と、ＯＫサインの動作（ｍａｋｅＯＫｓｉｇｎ）とで正解と認識結果が異なってしまっている。図２Ｂの例では、荷物を入れる動作（ｐｕｔｏｂｊｅｃｔｉｎｔｏｂａｇ）と、荷物を取り出す動作（ｔａｋｅｏｂｊｅｃｔｏｕｔｏｆｂａｇ）とで正解と認識結果が異なってしまっている。このように類似した動作の区別は困難なため推定の精度が低下する。行動種別の推定の精度、及び誤推定の一例を表１に示す。

【表1】

【0015】

本開示の手法では、複雑な分類問題を単純化する手段の一つとして、識別すべきクラスの粒度を段階的設定し、荒い粒度では大まかな分類を、細かい粒度では細かな動作の分類を行なう、階層的な分類を想定する。この階層的な分類を行動認識に適用することで、行動認識精度を向上させる。動作の類似性に基づいて階層構造を設定することができれば、荒い粒度の分類では大まかな動作の違いに着目し、細かい粒度の分類では細かな動作の違いに着目した分類器の学習が促進され、クラス間で類似した動作が含まれる場合でも精度よく行動認識できることが望める。

【0016】

本開示では、公知の技術の中でも高精度なＣＮＮ又はＧＣＮベースの行動認識器（以降、行動認識モデルと記載する）に、上記階層的な分類を導入することを検討した。一般に行動認識の行動ラベルには階層構造は付与されていない。そのため、まず、識別すべきクラスの粒度を抽象化するために、認識対処となる行動の特徴を用いて、クラスを階層的にクラスタリングし、階層構造を生成する「行動クラスタリング部」を備える。更に、クラスタリングによって得られた階層構造に基づき、ＣＮＮに階層的な識別を学習させるための「階層的学習部」を備える。

【0017】

［実施形態の前提］
簡単のため、本開示の実施形態では、ベースとなる行動認識モデルにはＧＣＮを用いる。一般に、ＧＣＮを用いた行動認識（非特許文献１等）では、学習時に映像から骨格検出器（参考文献１等）によって推定された人体の骨格系列情報と、その映像で発生している行動のラベル情報を入力とし、行動認識モデルを学習する。推定時には、映像から推定された骨格情報を入力とし、入力映像中で発生している行動ラベルを出力する。
［参考文献１］K. Sun, B. Xiao, D. Liu and J. Wang, “Deep High-Resolution Representation Learning for Human Pose Estimation,” in IEEE Conf. on Computer Vision and Pattern Recognition, 2019.

【0018】

本開示は上記行動認識方法だけでなく、映像から直接行動認識を行なう手法（例えば非特許文献２）等他の好適な行動認識手法にも適用可能である。
［参考文献２］J. Carreira and A. Zisserman, “Quo vadis, action recognition? a new model and the kinetics dataset,” in Int. Conf. on Computer Vision and Pattern Recognition, 2018.

【0019】

なお、動作対象物を人体とする場合を想定して説明するが、これに限定されるものではない。例えば、関節的な動きが変わる点が考慮できる対象物であれば分類が可能であり、人体に限らず工作機械、動物、及び接続点を関節に見立てた複数の物体等を動作対象物として想定してもよい。

【0020】

以降、本開示の第１実施形態として、学習データの骨格の動きの類似性（本開示の技術の「動作に関する類似度」）に基づき行動ラベルを階層化し、行動認識モデルを学習する方法について記す。また、第２実施形態として、行動ラベルの言語的類似性（本開示の技術の「言語に関する類似度」）に基づき行動ラベルを階層化し、行動認識モデルを学習する方法について記す。本開示において、階層構造の作成に用いることのできる行動の類似性の尺度は上記２種類だけでなく、映像特徴（例えば参考文献２の類似性等、有意な尺度）を用いることができる。

【0021】

［第１実施形態］
（第１実施形態の構成）
以下、第１実施形態の構成について説明する。行動認識学習装置、及び行動認識装置のそれぞれについて説明する。なお、同一の装置によって構成するようにしてもよい。

【0022】

図３は、行動認識学習装置１００のハードウェア構成を示すブロック図である。

【0023】

図３に示すように、行動認識学習装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３、ストレージ１４、入力部１５、表示部１６及び通信インタフェース（Ｉ／Ｆ）１７を有する。各構成は、バス１９を介して相互に通信可能に接続されている。

【0024】

ＣＰＵ１１は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４からプログラムを読み出し、ＲＡＭ１３を作業領域としてプログラムを実行する。ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ＲＯＭ１２又はストレージ１４には、行動認識学習プログラムが格納されている。

【0025】

ＲＯＭ１２は、各種プログラム及び各種データを格納する。ＲＡＭ１３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ１４は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

【0026】

入力部１５は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。

【0027】

表示部１６は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部１６は、タッチパネル方式を採用して、入力部１５として機能してもよい。

【0028】

通信インタフェース１７は、端末等の他の機器と通信するためのインタフェースである。当該通信には、例えば、イーサネット（登録商標）若しくはＦＤＤＩ等の有線通信の規格、又は、４Ｇ、５Ｇ、若しくはＷｉ－Ｆｉ（登録商標）等の無線通信の規格が用いられる。行動認識装置１５０についても同様に、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、ストレージ２４、入力部２５、表示部２６及び通信Ｉ／Ｆ２７を有する。各構成は、バス２９を介して相互に通信可能に接続されている。ハードウェア構成の各部についての説明は、行動認識学習装置１００と同様であるため省略する。なお、第２実施形態の行動認識学習装置についても同様のハードウェア構成とすることができる。

【0029】

次に、行動認識学習装置１００の各機能構成について説明する。図４は、第１実施形態の行動認識学習装置１００の構成を示すブロック図である。各機能構成は、ＣＰＵ１１がＲＯＭ１２又はストレージ１４に記憶された行動認識学習プログラムを読み出し、ＲＡＭ１３に展開して実行することにより実現される。

【0030】

図４に示すように、行動認識学習装置１００は、階層構造生成部１１０と、階層構造記憶部１１６と、パラメータ記憶部１１８と、階層的学習部１２０とを含んで構成されている。階層構造生成部１１０は、動作類似度算出部１１２と、行動クラスタリング部１１４とを含む。階層的学習部１２０は、行動認識部１２２と、損失計算部１２４と、パラメータ最適化部１２６とを含む。

【0031】

行動認識学習装置１００では、入力となる学習データとして、動作データ、及び行動ラベルを受け付ける。動作データは、映像の各々、及び当該映像の各々に対応した骨格系列である。映像の各々には、所定の動作をしている動作対象物を含む。骨格系列は、映像中の動作対象物の動作に対応した系列データである。行動ラベルは、動作データに含まれる動作の各々の行動種別に対応するクラスを示す。例えば、非特許文献１の１２０クラスを行動ラベルとして用いることができる。なお、動作データとして、骨格系列を受け付けずに、映像のみを用いるようにし、映像を解析して推定した骨格系列を用いるようにしてもよい。また、動作データとして、映像を受け付けずに、骨格系列のみを用いるようにしてもよい。

【0032】

行動認識学習装置１００では、まず、学習データに対し、階層構造生成部１１０により行動ラベルの階層構造を生成する。階層構造生成部１１０では、動作類似度算出部１１２により、学習データ中の骨格系列を用いて、各行動種別間の動作に関する類似度を算出する。その後、行動クラスタリング部１１４により、算出された動作に関する類似度に基づいて行動種別をクラスタリングし、類似したクラスを階層的にまとめる。これにより得られた、各階層のクラスタを、行動クラスの抽象ラベルとすることで、階層構造を生成する。なお、行動認識学習装置１００は、階層構造生成部１１０を含む構成とするのではなく、外部の装置で生成した階層構造を受け付けるようにしてもよい。

【0033】

行動認識学習装置１００では、上記のようにして先に生成された行動種別の階層構造を用いて、階層的学習部１２０において行動認識モデルのパラメータを学習する。まず、行動認識部１２２において、学習データとして入力された骨格系列が、階層構造で定義されている、いずれの抽象ラベルに該当するのかを、各階層について推定する。次に、損失計算部１２４において、各階層における推定結果の正否から損失が計算される。そして、パラメータ最適化部１２６により、損失に基づきパラメータ記憶部１１８のパラメータを更新することで、行動認識モデルの学習を進める。

【0034】

動作類似度算出部１１２は、動作データの動作の各々の組合せについて、動作に関する類似度を算出する。動作類似度算出部１１２では、学習データの動作データに含まれる骨格系列を用いて、各行動種別間（つまり動作間）の動きの距離を算出し、当該動きの距離を用いて、動作に関する類似度を算出する。全ての動作間で距離を算出する場合、計算コストが高くなるため、まず、同一種別の行動間で距離計算を行ない、同一種別内で平均的な動作をしているデータ１つを代表行動として各行動種別から選出する。その後、代表行動間で距離を算出し、それを動作類似度とする。

【0035】

動作間の距離は、骨格のユークリッド距離によるＤＰマッチングにより以下の距離Ｆとして算出される。ＤＰマッチングを用いることで、データ間の時系列順序関係を保持しつつ部分的な伸縮を考慮した類似度計算が可能となるため、データ間の動作の時刻ずれの影響を受けずに類似度（距離Ｆ）を計算することができる。具体的に、２つの骨格系列Ａ＝｛Ａ_１，…，Ａ_ｔ，…，Ａ_Ｔ｝及びＢ＝｛Ｂ_１，…，Ｂ_ｕ，…，Ｂ_Ｕ｝間の距離Ｆは、Ａ_ｔ及びＢ_ｕ間の距離ｄ（ｔ，ｕ）を累積の評価式とし、当該評価式を最小化する対応付けｔ_１，ｔ_２，・・・，ｔ_Ｕを決定する問題として下記（１）式により定義される。

【数1】

・・・（１）

【0036】

ここで、骨格系列のあるフレーム間での距離ｄ（ｔ，ｕ）は、以下（２）式による骨格情報に含まれる各関節間のユークリッド距離の和として定義される。

【数2】

・・・（２）

【0037】

ここでＡ_ｔ、ｊ及びＢ_ｕ、ｊは、各骨格系列中のｊ番目の関節座標を表す。代表行動の選出は、上記で定義された骨格系列間の距離Ｆを用いて、学習データに含まれる他の同種別の行動との距離を和が最も小さくなる行動を選択することにより行なわれる。具体的には、学習データ中のある行動種別ｃのｎ番目の骨格系列をＡ^ｃ、ｋ（ｋ∈Ｎ）とすると、代表行動の骨格列Ａ^ｃ′は下記（３）式により算出される。

【数3】

・・・（３）

【0038】

その後、各行動の代表行動間の距離を用いて、ある二つの行動種別ｃ_ｌ及びｃ_ｍの行動種別間の類似度Ｓ（ｃ_ｌ，ｃ_ｍ）を下記（４）式で定義する。当該類似度Ｓが、本開示の技術の動作に関する類似度の一例である。

【数4】

・・・（４）

【0039】

行動クラスタリング部１１４は、行動種別間の各々について算出された動作に関する類似度Ｓに基づいて、行動ラベルをクラスタリングし、行動ラベルの階層構造を生成し、生成した階層構造は階層構造記憶部１１６に格納する。本実施形態では、クラスタ数を変化させながらクラスリングを複数回行ない、各クラスタに含まれる行動ラベルを抽象ラベル及び最終行動ラベルに分類することで、階層構造を生成する。言い換えれば、クラスタの階層ごとに、行動ラベルを、抽象化された階層に対応する抽象ラベルと、最終的な階層に対応する最終行動ラベルとに分類する。クラスタリングには有意な手法を用いることができるが、例えば、階層的クラスタリング手法（完全リンク法等）を用いると、各行動種別がクラスタ数を変化させた場合のクラスタ間において階層構造を持つことが保証される。これにより上位の階層は抽象度が高く、下位の階層は抽象度が低い階層構造が生成される。抽象度が高いということは、大まかな動作の行動種別に関するクラスタということである。抽象度が低いということは、細かな動作の行動種別に関するクラスタということである。行動クラスタリング部１１４はこのようにして学習した階層構造を階層構造記憶部１１６に保存する。

【0040】

階層構造記憶部１１６には、階層構造が格納される。パラメータ記憶部１１８には、行動認識モデルのパラメータが格納される。学習前にはパラメータの初期値を設定しておけばよい。

【0041】

階層的学習部１２０は、各処理を行うことにより、動作データ及び階層構造における階層ごとの行動ラベルを用いて算出された損失を用いて、行動種別を推定するための行動認識モデルのパラメータを学習する。以下、行動認識部１２２及び損失計算部１２４では、階層構造を考慮した処理が行われる。

【0042】

行動認識部１２２は、階層構造に応じて階層ごとに識別を行う所定の手法を用いて、動作データを入力として、識別結果を損失計算部１２４へ出力する。識別は、各階層の特徴量を連結して用いて、中間階層（以下、中間ブロックに対応）の識別として抽象ラベルの識別、及び最終階層（以下、最終ブロックに対応）の識別として最終行動ラベルの識別を行う。

【0043】

行動認識部１２２で用いる所定の手法について説明する。一般なＧＣＮによる行動認識では、畳み込み層を一定個数まとめた畳み込みブロックを、抽出される特徴量の次元を増加させながら複数ブロック連ね、最終ブロックから抽出された特徴量に基づき識別を行なう。なお、畳み込みブロックとは、出力される特徴量の次元の数が同一の畳み込み層を複数層まとめたブロックであり、階層構造に対応している。行動認識部１２２では、最終ブロックだけでなく、中間ブロックにおいても識別を行なう。ＧＣＮの各畳み込みブロックが、階層構造の各階層に対応する。浅いブロックでは抽象度の高い抽象ラベルを、深いブロックでは抽象度の低い抽象ラベルを識別することで、階層的に行動種別の分類粒度を細かくしていき、最終ブロックでは、識別に必要な全行動種別の識別を行なう。

【0044】

図５は、各層における抽象ラベルの識別、及び最終的な最終行動ラベルの識別についての一例を示す図である。例えば、ＳＴ－ＧＣＮ（非特許文献１参照）に本機構を加える場合、中間ブロックの出力に対し、ｇｌｏｂａｌａｖｅｒａｇｅｐｏｏｌｉｎｇ（ＧＡＰ）を施し特徴抽出し、その後、最終ブロックにより識別を行なう。なお、図５に示す「畳み込み」が畳み込みブロックに相当し、ＧＡＰの出力が抽出される特徴量である。この処理を複数の中間ブロックに加えることで、階層的に行動認識を行なう。更に、中間ブロックで抽出された特徴はそれ以降の中間ブロックにおける推定に有用な特徴であると考えられるため、ある層についてそれ以前の中間ブロックの特徴量と連結（ｃｏｎｃａｔｅｎａｔｉｏｎ：図５中の＋記号は連結を示す）した後に当該層による識別を行なってもよい。特徴量の抽出は映像又は骨格系列の何れかから行えばよい。図５に示した例では、２階層目の識別において、１階層目の識別でＧＡＰによる抽出した特徴量を次の２階層目の特徴量と連結させて識別を行なっている。そして最終ブロックでは、１階層目の特徴量及び２階層目の特徴量を最終ブロックの特徴量と連結させて識別を行うことにより、最終行動ラベルを分類している。以上の行動認識部１２２の処理により、階層ごとの抽象ラベル、及び最終的な最終行動ラベルについての識別結果が得られる。

【0045】

損失計算部１２４は、行動認識部１２２の識別結果を用いて、以下に説明する、第１値と第２値とによる誤差を求めることにより損失を計算する。損失計算部１２４では、識別された各抽象ラベル、及び最終行動ラベルとその真値（教師データ）とを比較することで、損失を計算する。例えば、ＳＴ―ＧＣＮ（非特許文献１参照）に倣いクロスエントロピー誤差を用いる場合、下記（５）式により損失Ｌを算出する。

【数5】

・・・（５）

【0046】

ここで、ｓは階層、ｋ^ｓはある階層における抽象ラベル、ｑ^ｓ（・）はある階層における抽象ラベルの教師、ｐ^ｓ（・）はある階層における推定結果（各抽象ラベルに対する尤度）を表す。また、ｑ（ｋ）は教師ラベル、ｐ（ｋ）は最終ブロックの推定結果を表す。本開示の技術における対応については、階層ｓが「階層構造の階層の各々」、抽象ラベルｋ^ｓが「階層における抽象ラベル」、ある階層における推定結果ｐ^ｓ（・）が「階層の抽象ラベルに対する尤度」に対応し、上記（５）式の第１項が第１値に対応する。また、教師ラベルｑ（ｋ）が「動作の各々に対する教師ラベル」、及び最終ブロックのｐ（ｋ）が「最終ブロックの最終行動ラベルの推定結果ｐ（ｋ）」に対応し、第２項が第２値に対応する。

【0047】

パラメータ最適化部１２６は、損失計算部１２４で階層構造を用いて算出された損失Ｌに基づいて、行動認識モデルのパラメータを最適化し、結果をパラメータ記憶部１１８に格納する。このとき、パラメータ最適化のアルゴリズムには、参考文献３に記載されている方法等、有為なアルゴリズムを用いることができる。
［参考文献３］ D. Kingma, J. Ba, “Adam: A Method for Stochastic Optimization,” in Int. Conf. on Learning Representations, 2018.

【0048】

次に、行動認識装置１５０の各機能構成について説明する。行動認識装置１５０は、行動認識学習装置１００で学習された行動認識モデルのパラメータを用いて行動種別の推定を行う。図６は、第１実施形態の行動認識装置１５０の構成を示すブロック図である。各機能構成は、ＣＰＵ２１がＲＯＭ２２又はストレージ２４に記憶された行動認識プログラムを読み出し、ＲＡＭ２３に展開して実行することにより実現される。

【0049】

図６に示すように、行動認識装置１５０は、階層構造記憶部１１６と、パラメータ記憶部１１８と、行動推定部１５２とを含んで構成されている。行動認識学習装置１００の学習結果を格納した各記憶部については同一の符号を付して説明を省略する。

【0050】

行動推定部１５２は、推定対象の動作データ（映像又は骨格系列）を行動認識モデルへの入力として、階層構造、及び行動認識モデルのパラメータを用いて、動作データに含まれる動作の行動種別を推定する。行動認識モデルの処理は、上記行動認識学習装置１００の行動認識部１２２と同様とすればよく、階層構造記憶部１１６に格納されている階層構造、及びパラメータ記憶部１１８に格納されている行動認識モデルのパラメータを用いて、行動種別を推定すればよい。また、行動推定部１５２では、推定の過程において、行動認識モデルの中間層の出力として抽象ラベルの識別結果が出力されるため、各中間層の抽象ラベルの各々と、最終的な最終行動ラベルとを出力するようにしてもよい。このように段階的に動作の分類を行うことにより、動作の捉え方の違いに着目した識別を行うことができる。

【0051】

図７Ａ及び図７Ｂは、段階的に抽象ラベル及び最終行動ラベルの分類を行う場合の一例を示す図である。図７Ａ及び図７Ｂでは、第１段階では抽象ラベルで分類し、最終段階では最終行動ラベルで分類する２段階の場合を示している。図７Ａについて、第１段階の上の２つの動作では、どちらの動作も、抽象ラベルの「ｈａｎｄｓｉｇｎ」で分類されていることを示している。最終段階の上の２つの動作では、左の動作は最終行動ラベルの「ｍａｋｅｖｉｃｔｏｒｙｓｉｇｎ」、右の動作は最終行動ラベルの「ｍａｋｅＯＫｓｉｇｎ」で分類されていることを示している。図７Ｂについて、第１段階の下の２つの動作では、どちらの動作も抽象ラベルの「ｂａｇｏｐｅｒａｔｉｏｎ」で分類されていることを示している。最終段階の下の２つの動作では、左の動作は最終行動ラベルの「ｐｕｔｏｂｊｅｃｔｉｎｔｏｂａｇ」、右の動作は最終行動ラベルの「ｔａｋｅｏｂｊｅｃｔｏｕｔｏｆｂａｇ」で分類されていることを示している。

【0052】

（第１実施形態の作用）
次に、行動認識学習装置１００の作用について説明する。

【0053】

図８は、第１実施形態の行動認識学習装置１００による行動認識学習処理の流れを示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４から行動認識学習プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、行動認識学習処理が行なわれる。行動認識学習装置１００は、入力として、学習データ（動作データ、及び行動ラベル）を受け付けて以下の処理を行う。

【0054】

ステップＳ１００において、ＣＰＵ１１は、動作類似度算出部１１２として、動作データの動作の各々の組合せについて、上記（１）～（４）式に従って、動作に関する類似度を算出する。

【0055】

ステップＳ１０２において、ＣＰＵ１１は、行動クラスタリング部１１４として、行動種別間の各々について算出された動作に関する類似度Ｓに基づいて、行動ラベルをクラスタリングし、行動ラベル（抽象ラベル及び最終行動ラベル）の階層構造を生成し、階層構造記憶部１１６に格納する。

【0056】

ステップＳ１０４において、ＣＰＵ１１は、行動認識部１２２として、階層構造に応じて階層ごとに識別を行う所定の手法を用いて、動作データを入力として、識別結果を損失計算部１２４へ出力する。識別は、各階層の特徴量を連結して用いて、中間ブロックの識別として抽象ラベルの識別、及び最終ブロックの識別として最終行動ラベルの識別を行う。

【0057】

ステップＳ１０６において、ＣＰＵ１１は、損失計算部１２４として、行動認識部１２２の識別結果を用いて、（５）式に従って、第１値と第２値とによる誤差を求めることにより損失Ｌを計算する。

【0058】

ステップＳ１０８において、ＣＰＵ１１は、パラメータ最適化部１２６として、損失計算部１２４で階層構造を用いて算出された損失Ｌに基づいて、行動認識モデルのパラメータを最適化し、結果をパラメータ記憶部１１８に格納して処理を終了する。

【0059】

以上説明した第１実施形態の行動認識学習装置１００によれば、動作対象物の行動種別を精度よく推定することを可能とするための行動認識モデルを学習することができる。

【0060】

図９は、第１実施形態の行動認識装置１５０による行動分類処理の流れを示すフローチャートである。ＣＰＵ２１がＲＯＭ２２又はストレージ２４から行動分類プログラムを読み出して、ＲＡＭ２３に展開して実行することにより、行動分類処理が行なわれる。

【0061】

ステップＳ１５０において、ＣＰＵ２１は、行動推定部１５２として、推定対象の動作データを受け付ける。

【0062】

ステップＳ１５２において、ＣＰＵ２１は、行動推定部１５２として、階層構造記憶部１１６に格納されている階層構造、及びパラメータ記憶部１１８に格納されている行動分類モデルパラメータを取得する。

【0063】

ステップＳ１５４において、ＣＰＵ２１は、行動推定部１５２として、推定対象の動作データ（映像又は骨格系列）を行動認識モデルへの入力として、階層構造、及び行動認識モデルのパラメータを用いて、動作データに含まれる動作の行動種別を推定する。

【0064】

ステップＳ１５６において、ＣＰＵ２１は、行動推定部１５２として、行動種別の推定結果を出力し、処理を終了する。

【0065】

以上説明したように本実施形態の行動認識装置１５０によれば、動作対象物の行動種別を精度よく推定することができる。

【0066】

［第２実施形態］
次に、第２実施形態について説明する。図１０は、第２実施形態の行動認識学習装置２００の構成を示すブロック図である。図１０に示すように、行動認識学習装置２００は、階層構造生成部２１０と、階層構造記憶部１１６と、パラメータ記憶部１１８と、階層的学習部１２０とを含んで構成されている。階層構造生成部２１０は、言語類似度算出部２１２と、行動クラスタリング部１１４とを含む。階層的学習部１２０は、行動認識部１２２と、損失計算部１２４と、パラメータ最適化部１２６とを含む。第１実施形態と同様の箇所については同一の符号を付して説明を省略する。

【0067】

第２実施形態では、階層構造の生成において言語類似度算出部２１２を用いて言語に関する類似度を算出する点が第１実施形態と異なっている。一般に、行動認識の学習データの行動ラベルには、行動名（“ｊｕｍｐ”，“ｐｉｃｋｕｐ”）等が付与されている。本実施形態では、これら行動名の意味的近さを行動の類似度として階層構造を生成する。

【0068】

第２実施形態の態様について説明する。行動認識学習装置２００は、動作対象物の動作の各々を含む動作データと、前記動作の各々の行動種別に対応する行動ラベルとを学習データとして受け付ける。

【0069】

言語類似度算出部２１２は、動作データの動作の各々の組合せについて、行動ラベルから言語特徴を抽出する関数を用いて言語に関する類似度（言語類似度）を算出する。言語類似度算出部２１２では、行動ラベルから言語特徴を算出し、特徴空間上での距離を言語類似度とする。具体的には、ある行動ラベルから言語特徴を抽出する関数をＷ（・）とすると、本実施形態におけるＳ（ｃ_ｌ，ｃ_ｍ）は以下（６）式のように定義される。

【数6】

・・・（６）

【0070】

このとき、行動ラベルからの言語特徴抽出方法には、有意な方法を用いることができる。例えば、膨大な文章から学習された特徴抽出器を備えるＧｌｏＶｅ（参考文献４参照）、又はＢＡＲＴ（参考文献５参照）を用いることができる。ここで、ＧｌｏＶｅは単語から特徴抽出を行なう手法であるため、“ｐｉｃｋｕｐ”等の複数単語から成るラベルの場合は、各単語から抽出された特徴量の平均をそのラベルの特徴量として用いる。
［参考文献４］ J. Pennington, R. Socher, C.D. Manning, “Glove: Global vectors for word representation,” in proc. of the 2014 conference on empirical methods in natural language processing, 2014.
［参考文献５］ M. Lewis, Y. Liu, N. Goyal, M. Ghazvininejad, A. Mohamed, O. Levy, V. Stoyanov, L. Zettlemoyer, “BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension,” in Proc of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.

【0071】

行動クラスタリング部２１４は、言語に関する類似度に基づいて、行動ラベルをクラスタリングし、行動ラベルの階層構造を生成する。階層的学習部１２０は、第１実施形態同様に、動作データ及び階層構造を用いて算出された損失に基づいて、行動種別を推定するための行動認識モデルのパラメータを学習する。学習に用いる階層構造が第１実施形態と異なっている。

【0072】

なお、第２実施形態の行動認識学習装置２００のハードウェア構成については第１実施形態と同様の構成とすればよい。

【0073】

図１１は、第２実施形態の行動認識学習装置２００による行動認識学習処理の流れを示すフローチャートである。図１１に示すように、ステップＳ２００において、ＣＰＵ１１は、言語類似度算出部２１２として、動作データの動作の各々の組合せについて、行動ラベルから言語特徴を抽出する関数を用いて言語に関する類似度（言語類似度）を算出する。以降の処理は第１実施形態と同様である。

【0074】

＜＜実験例＞＞
上記第２実施形態で説明した方法を用いた実験例について説明する。本実験例では、骨格系列を用いた行動認識のデータセットであるＮＴＵＲＧＢ＋Ｄ１２０（非特許文献１参照）を用いて行動認識精度を調査する。階層的に行動を認識する本開示の技術の有効性を調査するため、ベースライン手法をＳＴ－ＧＣＮ（非特許文献３参照）とし、それに対し第２実施形態で記した方法を加えた２つの手法について、行動認識精度を比較した。本開示の手法における階層構造は２段階とし、前１２０クラスの行動種別を１回クラスタリングし、８０クラスの抽象ラベルを作成した。

【0075】

実験の結果、表２に示す通り、平均精度（正解率）が階層構造を加えることにより約２ポイント向上することを確認できた。また、ＳＴ－ＧＣＮで認識精度が低かった下位５件の行動種別について、個別に精度を比較した表を表３に示す。表２及び表３より、階層的認識することにより、従来のベースライン手法が苦手としていた多くの行動で精度が向上することが確認できた。

【表2】

【表3】

【0076】

なお、上記各実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した行動認識学習処理又は行動分類処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、及びＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、行動認識学習処理又は行動分類処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

【0077】

また、上記各実施形態では、行動認識学習プログラムがストレージ１４に予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。行動分類プログラムについても同様である。

【0078】

以上の実施形態に関し、更に以下の付記を開示する。

【0079】

（付記項１）
メモリと、
前記メモリに接続された少なくとも１つのプロセッサと、
を含み、
前記プロセッサは、
動作対象物の動作の各々を含む動作データと、前記動作の各々の行動種別に対応する行動ラベルとを学習データとして受け付け、
前記動作の各々の組合せについて、動作に関する類似度を算出し、
前記動作に関する類似度に基づいて、前記行動ラベルをクラスタリングし、前記行動ラベルの階層構造を生成し、
前記動作データ及び前記階層構造を用いて算出された損失に基づいて、行動種別を推定するための行動認識モデルのパラメータを学習する、
ように構成されている行動認識学習装置。

【0080】

（付記項２）
行動認識学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
動作対象物の動作の各々を含む動作データと、前記動作の各々の行動種別に対応する行動ラベルとを学習データとして受け付け、
前記動作の各々の組合せについて、動作に関する類似度を算出し、
前記動作に関する類似度に基づいて、前記行動ラベルをクラスタリングし、前記行動ラベルの階層構造を生成し、
前記動作データ及び前記階層構造を用いて算出された損失に基づいて、行動種別を推定するための行動認識モデルのパラメータを学習する、
非一時的記憶媒体。

【符号の説明】

【0081】

１００、２００行動認識学習装置
１１０、２１０階層構造生成部
１１２動作類似度算出部
１１４、２１４行動クラスタリング部
１１６階層構造記憶部
１１８パラメータ記憶部
１２０階層的学習部
１２２行動認識部
１２４損失計算部
１２６パラメータ最適化部
１５０行動認識装置
１５２行動推定部
２１２言語類似度算出部

【図1】