(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-08
(45)【発行日】2025-01-17
(54)【発明の名称】行動認識システム、行動認識方法およびプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20250109BHJP
G10L 15/10 20060101ALI20250109BHJP
【FI】
G06T7/00 350B
G06T7/00 P
G06T7/00 660B
G10L15/10 500Z
(21)【出願番号】P 2021014450
(22)【出願日】2021-02-01
【審査請求日】2023-11-14
(73)【特許権者】
【識別番号】000102728
【氏名又は名称】株式会社NTTデータグループ
(74)【代理人】
【識別番号】110000752
【氏名又は名称】弁理士法人朝日特許事務所
(72)【発明者】
【氏名】袁 航
(72)【発明者】
【氏名】盛合 智紀
(72)【発明者】
【氏名】末永 高志
【審査官】吉川 康男
(56)【参考文献】
【文献】国際公開第2018/163555(WO,A1)
【文献】ModDrop: Adaptive Multi-Modal Gesture Recognition,IEEE Transactions on Pattern Analysis and Machine Intelligence,2016年,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7169562
【文献】3D Skeletal Movement enhanced Emotion Recognition Network,2020 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC),2020年,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9306443
【文献】Towards Robust Human-Robot Collaborative Manufacturing: Multimodal Fusion,IEEE Access,2018年,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8558584
【文献】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition,arXiv,2018年,https://arxiv.org/pdf/1801.07455
【文献】Exploring multimodal video representation for action recognition,2016 International Joint Conference on Neural Networks (IJCNN),2016年,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7727435
【文献】身体運動・音声・映像の特徴を用いた統合モデルによるマルチモーダルジェスチャー認識,計測自動制御学会論文集 第51巻 第6号,2015年06月30日
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G10L 15/10
(57)【特許請求の範囲】
【請求項1】
一対の音声データと第1の映像データのうち、音声データを画像データに変換する前処理部と、
前記生成された画像データを第1の学習済みモデルに入力して、第1の特徴ベクトルを算出する第1の特徴抽出部と、
前記第1の映像データから骨格情報を時系列で抽出する骨格情報抽出部と、
前記抽出された時系列の骨格情報を第2の学習済みモデルに入力し、第2の特徴ベクトルを算出する第2の特徴抽出部と、
前記算出された第1の特徴ベクトルと第2の特徴ベクトルを結合して、第3の特徴ベクトルを生成する結合部と、
前記生成された第3の特徴ベクトルを第3の学習済みモデルに入力して、アテンションマップとして第2の映像データを復元する映像復元部と、
前記第1の映像データを構成する時系列のRGB情報を第4の学習済みモデルに入力し
、行動のクラスごとのスコアを算出する行動推定部であって、前記第4の学習済みモデルに入力する各チャンネルの値に前記アテンションマップを掛ける行動推定部と
を備える行動認識システム。
【請求項2】
一対の音声データと映像データのうち、音声データを画像データに変換する前処理部と、
前記生成された画像データを第1の学習済みモデルに入力して、第1の特徴ベクトルを算出する第1の特徴抽出部と、
前記映像データを構成する時系列のRGB情報を第2の学習済みモデルに入力し、第2の特徴ベクトルを算出する第2の特徴抽出部と、
前記算出された第1の特徴ベクトルと第2の特徴ベクトルを結合して、第3の特徴ベクトルを生成する結合部と、
前記生成された第3の特徴ベクトルを第3の学習済みモデルに入力して、アテンションマップとして第4の特徴ベクトルを生成する第3の特徴抽出部と、
前記映像データから骨格情報を時系列で抽出する骨格情報抽出部と、
前記抽出された時系列の骨格情報を第4の学習済みモデルに入力し、行動のクラスごとのスコアを算出する行動推定部であって、前記第4の学習済みモデルに入力する骨格の各ノードの値に前記アテンションマップを掛ける行動推定部と
を備える行動認識システム。
【請求項3】
一対の音声データと第1の映像データのうち、音声データを画像データに変換するステップと、
前記生成された画像データを第1の学習済みモデルに入力して、第1の特徴ベクトルを算出するステップと、
前記第1の映像データから骨格情報を時系列で抽出するステップと、
前記抽出された時系列の骨格情報を第2の学習済みモデルに入力し、第2の特徴ベクトルを算出するステップと、
前記算出された第1の特徴ベクトルと第2の特徴ベクトルを結合して、第3の特徴ベクトルを生成するステップと、
前記生成された第3の特徴ベクトルを第3の学習済みモデルに入力して、アテンションマップとして第2の映像データを復元するステップと、
前記第1の映像データを構成する時系列のRGB情報を第4の学習済みモデルに入力し、行動のクラスごとのスコアを算出するステップであって、前記第4の学習済みモデルに入力する各チャンネルの値に前記アテンションマップを掛けるステップと
を有する行動認識方法。
【請求項4】
一対の音声データと映像データのうち、音声データを画像データに変換するステップと、
前記生成された画像データを第1の学習済みモデルに入力して、第1の特徴ベクトルを算出するステップと、
前記映像データを構成する時系列のRGB情報を第2の学習済みモデルに入力し、第2の特徴ベクトルを算出するステップと、
前記算出された第1の特徴ベクトルと第2の特徴ベクトルを結合して、第3の特徴ベクトルを生成するステップと、
前記生成された第3の特徴ベクトルを第3の学習済みモデルに入力して、アテンションマップとして第4の特徴ベクトルを生成するステップと、
前記映像データから骨格情報を時系列で抽出するステップと、
前記抽出された時系列の骨格情報を第4の学習済みモデルに入力し、行動のクラスごとのスコアを算出するステップであって、前記第4の学習済みモデルに入力する骨格の各ノードの値に前記アテンションマップを掛けるステップと
を有する行動認識方法。
【請求項5】
コンピュータに、
一対の音声データと第1の映像データのうち、音声データを画像データに変換するステップと、
前記生成された画像データを第1の学習済みモデルに入力して、第1の特徴ベクトルを算出するステップと、
前記第1の映像データから骨格情報を時系列で抽出するステップと、
前記抽出された時系列の骨格情報を第2の学習済みモデルに入力し、第2の特徴ベクトルを算出するステップと、
前記算出された第1の特徴ベクトルと第2の特徴ベクトルを結合して、第3の特徴ベクトルを生成するステップと、
前記生成された第3の特徴ベクトルを第3の学習済みモデルに入力して、アテンションマップとして第2の映像データを復元するステップと、
前記第1の映像データを構成する時系列のRGB情報を第4の学習済みモデルに入力し、行動のクラスごとのスコアを算出するステップであって、前記第4の学習済みモデルに入力する各チャンネルの値に前記アテンションマップを掛けるステップと
を実行させるためのプログラム。
【請求項6】
コンピュータに、
一対の音声データと映像データのうち、音声データを画像データに変換するステップと、
前記生成された画像データを第1の学習済みモデルに入力して、第1の特徴ベクトルを算出するステップと、
前記映像データを構成する時系列のRGB情報を第2の学習済みモデルに入力し、第2の特徴ベクトルを算出するステップと、
前記算出された第1の特徴ベクトルと第2の特徴ベクトルを結合して、第3の特徴ベクルを生成するステップと、
前記生成された第3の特徴ベクトルを第3の学習済みモデルに入力して、アテンションマップとして第4の特徴ベクトルを生成するステップと、
前記映像データから骨格情報を時系列で抽出するステップと、
前記抽出された時系列の骨格情報を第4の学習済みモデルに入力し、行動のクラスごと
のスコアを算出するステップであって、前記第4の学習済みモデルに入力する骨格の各ノードの値に前記アテンションマップを掛けるステップと
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、行動認識技術に関する。
【背景技術】
【0002】
従来、画像に写った人物の行動を推定する技術として、行動認識技術が知られている。この行動認識技術のうち、画像を入力とし、深層学習技術を用いて行動推定する方式として、3D畳み込みベース(例えば、非特許文献1および2参照)と骨格ベース(例えば、非特許文献3および4参照)が知られている。
【0003】
これら2つの方式のうち、3D畳み込みベースでは、行動推定に有用な情報を映像から取得する。ここで、映像とは、縦と横の2次元の空間情報に加えて時間軸を有する3次元のデータである。この3次元のデータである映像から、3D畳み込み処理を用いて、時間的な動きの変化も考慮した映像の特徴を抽出する。そして、抽出した特徴に基づいて人物の行動を推定する。
【0004】
一方、骨格ベースでは、最初に、画像から人の頭、手、腰など主要な部位の位置を推定することで、人の骨格全体の位置情報を取得する。次に、骨格の位置情報をグラフ構造として表現した上で、時系列の異なる複数のグラフ情報に対してグラフ畳み込み処理を行って特徴を抽出する。これにより、人の姿勢の時間的変化を考慮した特徴を映像から抽出する。最後に、抽出した特徴に基づいて人物の行動を推定する。
【先行技術文献】
【非特許文献】
【0005】
【文献】Christoph Feichtenhofer, et al. “SlowFast Networks for Video Recognition”、[online]、[令和2年12月14日検索]、インターネット<https://arxiv.org/pdf/1812.03982.pdf>
【文献】Joao Carreira, et al. “Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset”、[online]、[令和2年12月14日検索]、インターネット<https://arxiv.org/pdf/1705.07750.pdf>
【文献】OpenPose、[online]、[令和2年12月14日検索]、インターネット<URL:https://github.com/CMU-Perceptual-Computing-Lab/openpose>
【文献】Sijie Yan, et al. “Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition”、[online]、[令和2年12月14日検索]、インターネット<https://arxiv.org/pdf/1801.07455.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記の2つの方式は技術的なアプローチが異なることから、行動推定に有効な場面が異なる。具体的には、3D畳み込みベースは、周囲の物の関わりによる動作の違いを識別可能である一方で、細かい動作の違いを識別することが困難である。一方、骨格ベースは、3D畳み込みベースとは逆に、細かい動作の違いを識別可能である一方で、周囲の物の関わりによる動作の違いを識別することができない。加えて、上記の2つの方式は音声が入力されないため、音声が重要になってくる動作をうまく識別できない。
【0007】
本発明は、このような事情に鑑みてなされたものであり、多様な場面で行動推定可能な、ロバスト性のある行動認識技術を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の第2の実施形態に係る行動認識システムは、一対の音声データと第1の映像データのうち、音声データを画像データに変換する前処理部と、前記生成された画像データを第1の学習済みモデルに入力して、第1の特徴ベクトルを算出する第1の特徴抽出部と、前記第1の映像データから骨格情報を時系列で抽出する骨格情報抽出部と、前記抽出された時系列の骨格情報を第2の学習済みモデルに入力し、第2の特徴ベクトルを算出する第2の特徴抽出部と、前記算出された第1の特徴ベクトルと第2の特徴ベクトルを結合して、第3の特徴ベクトルを生成する結合部と、前記生成された第3の特徴ベクトルを第3の学習済みモデルに入力して、アテンションマップとして第2の映像データを復元する映像復元部と、前記第1の映像データを構成する時系列のRGB情報を第4の学習済みモデルに入力し、行動のクラスごとのスコアを算出する行動推定部であって、前記第4の学習済みモデルに入力する各チャンネルの値に前記アテンションマップを掛ける行動推定部とを備える。
【0010】
本発明の第3の実施形態に係る行動認識システムは、一対の音声データと映像データのうち、音声データを画像データに変換する前処理部と、前記生成された画像データを第1の学習済みモデルに入力して、第1の特徴ベクトルを算出する第1の特徴抽出部と、前記映像データを構成する時系列のRGB情報を第2の学習済みモデルに入力し、第2の特徴ベクトルを算出する第2の特徴抽出部と、前記算出された第1の特徴ベクトルと第2の特徴ベクトルを結合して、第3の特徴ベクトルを生成する結合部と、前記生成された第3の特徴ベクトルを第3の学習済みモデルに入力して、アテンションマップとして第4の特徴ベクトルを生成する第3の特徴抽出部と、前記映像データから骨格情報を時系列で抽出する骨格情報抽出部と、前記抽出された時系列の骨格情報を第4の学習済みモデルに入力し、行動のクラスごとのスコアを算出する行動推定部であって、前記第4の学習済みモデルに入力する骨格の各ノードの値に前記アテンションマップを掛ける行動推定部とを備える。
【0012】
本発明の第2の実施形態に係る行動認識方法は、一対の音声データと第1の映像データのうち、音声データを画像データに変換するステップと、前記生成された画像データを第1の学習済みモデルに入力して、第1の特徴ベクトルを算出するステップと、前記第1の映像データから骨格情報を時系列で抽出するステップと、前記抽出された時系列の骨格情報を第2の学習済みモデルに入力し、第2の特徴ベクトルを算出するステップと、前記算出された第1の特徴ベクトルと第2の特徴ベクトルを結合して、第3の特徴ベクトルを生成するステップと、前記生成された第3の特徴ベクトルを第3の学習済みモデルに入力して、アテンションマップとして第2の映像データを復元するステップと、前記第1の映像データを構成する時系列のRGB情報を第4の学習済みモデルに入力し、行動のクラスごとのスコアを算出するステップであって、前記第4の学習済みモデルに入力する各チャンネルの値に前記アテンションマップを掛けるステップとを有する。
【0013】
本発明の第3の実施形態に係る行動認識方法は、一対の音声データと映像データのうち、音声データを画像データに変換するステップと、前記生成された画像データを第1の学習済みモデルに入力して、第1の特徴ベクトルを算出するステップと、前記映像データを構成する時系列のRGB情報を第2の学習済みモデルに入力し、第2の特徴ベクトルを算出するステップと、前記算出された第1の特徴ベクトルと第2の特徴ベクトルを結合して、第3の特徴ベクトルを生成するステップと、前記生成された第3の特徴ベクトルを第3の学習済みモデルに入力して、アテンションマップとして第4の特徴ベクトルを生成するステップと、前記映像データから骨格情報を時系列で抽出するステップと、前記抽出された時系列の骨格情報を第4の学習済みモデルに入力し、行動のクラスごとのスコアを算出するステップであって、前記第4の学習済みモデルに入力する骨格の各ノードの値に前記アテンションマップを掛けるステップとを有する。
【0015】
本発明の第2の実施形態に係るプログラムは、コンピュータに、一対の音声データと第1の映像データのうち、音声データを画像データに変換するステップと、前記生成された画像データを第1の学習済みモデルに入力して、第1の特徴ベクトルを算出するステップと、前記第1の映像データから骨格情報を時系列で抽出するステップと、前記抽出された時系列の骨格情報を第2の学習済みモデルに入力し、第2の特徴ベクトルを算出するステップと、前記算出された第1の特徴ベクトルと第2の特徴ベクトルを結合して、第3の特徴ベクトルを生成するステップと、前記生成された第3の特徴ベクトルを第3の学習済みモデルに入力して、アテンションマップとして第2の映像データを復元するステップと、前記第1の映像データを構成する時系列のRGB情報を第4の学習済みモデルに入力し、行動のクラスごとのスコアを算出するステップであって、前記第4の学習済みモデルに入力する各チャンネルの値に前記アテンションマップを掛けるステップとを実行させる。
【0016】
本発明の第3の実施形態に係るプログラムは、コンピュータに、一対の音声データと映像データのうち、音声データを画像データに変換するステップと、前記生成された画像データを第1の学習済みモデルに入力して、第1の特徴ベクトルを算出するステップと、前記映像データを構成する時系列のRGB情報を第2の学習済みモデルに入力し、第2の特徴ベクトルを算出するステップと、前記算出された第1の特徴ベクトルと第2の特徴ベクトルを結合して、第3の特徴ベクトルを生成するステップと、前記生成された第3の特徴ベクトルを第3の学習済みモデルに入力して、アテンションマップとして第4の特徴ベクトルを生成するステップと、前記映像データから骨格情報を時系列で抽出するステップと、前記抽出された時系列の骨格情報を第4の学習済みモデルに入力し、行動のクラスごとのスコアを算出するステップであって、前記第4の学習済みモデルに入力する骨格の各ノードの値に前記アテンションマップを掛けるステップとを実行させる。
【発明の効果】
【0017】
本発明は、多様な場面で行動推定可能な、ロバスト性のある行動認識技術を提供する。
【図面の簡単な説明】
【0018】
【
図1】第1実施形態に係る行動認識システム1の構成を示す図
【
図2】第1実施形態に係る行動認識処理を示すフロー図
【
図3】第2実施形態に係る行動認識システム10の構成を示す図
【
図4】第2実施形態に係る行動認識処理を示すフロー図
【
図5】第3実施形態に係る行動認識システム20の構成を示す図
【
図6】第3実施形態に係る行動認識処理を示すフロー図
【発明を実施するための形態】
【0019】
1.第1実施形態
1-1.構成
本発明の第1実施形態に係る行動認識システム1について、図面を参照して説明する。
本実施形態に係る行動認識システム1では、3D畳み込みベースと骨格ベースの2つの手法と音声分類手法とで抽出される特徴量を組み合わせて行動推定することで、多様な場面で有効な、ロバスト性のある推定を可能とする。具体的には、まず、3D畳み込みベースと骨格ベースの2つの手法を1つの入力映像に対して適用し、特性の異なる2つの特徴量を抽出する。次に、入力音声に対して音声分類手法を適用し、特徴量を抽出する。その後、抽出した3つの特徴量を結合し、正規化処理を行った上で多層パーセプトロンへの入力とし、行動推定結果を取得する。この行動推定方法によれば、単一の手法よりも多種多様な特徴を捉えることができ、精度の高い推論が可能となる。
【0020】
図1は、行動認識システム1の構成を示す図である。同図に示すように行動認識システム1は、前処理部2、第1特徴抽出部3、第2特徴抽出部4、骨格情報抽出部5、第3特徴抽出部6、結合部7および行動推定部8を有する。これらの構成要素は、記憶装置に記憶された1以上のプログラムがプロセッサにより実行されることにより実現される。以下、各構成要素について説明する。
【0021】
前処理部2は、入力音声をメルスペクトログラムと呼ばれる画像に変換するための手段である。この前処理部2は、まず、入力音声の波形に短時間フーリエ変換を適用して、スペクトログラムを抽出する。次に、生成したスペクトログラムにメルフィルタバンクを適用して、メルスペクトログラムを抽出する。抽出したメルスペクトログラムは、第1特徴抽出部3に出力される。
【0022】
第1特徴抽出部3は、前処理部2から出力されたメルスペクトログラムを学習済みモデルに入力し、特徴ベクトルを算出するための手段である。すなわち、この第1特徴抽出部3は、入力音声の特徴量を抽出するための手段である。
【0023】
この第1特徴抽出部3により用いられる学習済みモデルは、畳み込みニューラルネットワーク(以下、単に「CNN」と呼ぶ。)に、音声に行動を対応付けた教師データを学習させることで生成される。ここで、CNNとは、画像から特徴量を抽出するために使用される計算モデルである。このCNNは、畳み込み層、プーリング層、全結合層および出力層により構成される。以下、各層について説明する。
【0024】
畳み込み層は、画像データに対して畳み込み処理を実行するための手段である。この畳み込み層により実行される畳み込み処理とは、画像データの一部と重みフィルタのフィルタ値との積和演算を繰り返す処理である。この畳み込み処理により、画像の特徴が抽出される。この畳み込み処理が施された画像データは、活性化関数によって変換された後にプーリング層に出力される。
【0025】
プーリング層は、畳み込み層から出力された画像データに対してプーリング処理を実行するための手段である。このプーリング層により実行されるプーリング処理とは、画像データを複数の領域に分割し、領域ごとに所定のデータを抽出してマトリクス状に配置する処理である。このプーリング処理により、畳み込み層によって抽出された特徴を残したまま、画像データを縮小することができる。
【0026】
全結合層は、畳み込み処理とプーリング処理が行われた画像データを用いて画像の判定を行うための手段である。この全結合層は、ある層の全てのノードが、次の層の全てのノードと接続された構成を有する。この全結合層に、画像データとして2次元の特徴マップが入力されると、1次元に展開されて出力される。
【0027】
出力層は、全結合層の出力データを用いて画像の判定を行うための手段である。この出力層は、尤度関数としてソフトマックス関数などを用いて、行動のクラスごとにスコアを算出する。
【0028】
以上説明した各層を有するCNNは、教師あり学習が可能である。教師あり学習には、例えば、誤差逆伝播法を用いることができる。このCNNに教師データを学習させることで、重みフィルタのフィルタ値と全結合層の重み係数を最適化することができる。
【0029】
このように学習させたCNNのうち、畳み込み層とプーリング層のみが学習済みモデルとして使用される。言い換えると、全結合層と出力層については学習済みモデルとして使用されない。
【0030】
なお、この学習済みモデルの生成には、例えば、以下の文献に記載のPANNsの技術が用いられてもよい。
Qiuqiang Kong, et al. “PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition”、[online]、[令和2年12月14日検索]、インターネット<https://arxiv.org/pdf/1912.10211.pdf>
【0031】
第1特徴抽出部3は、このように生成された学習済みモデルを使用して特徴ベクトルを算出する。算出された特徴ベクトルは結合部7に出力される。
【0032】
次に、第2特徴抽出部4について説明する。
第2特徴抽出部4は、入力映像を構成する時系列のRGB情報を学習済みモデルに入力して特徴ベクトルを算出するための手段である。すなわち、この第2特徴抽出部4は、入力映像の特徴量をRGB情報に基づいて抽出するための手段である。
【0033】
この第2特徴抽出部4により用いられる学習済みモデルは、3次元畳み込みニューラルネットワーク(以下、単に「3D-CNN」と呼ぶ。)に、映像に行動を対応付けた教師データを学習させることで生成される。ここで、3D-CNNとは、映像から特徴量を抽出するために使用される計算モデルである。この3D-CNNは、CNNと同様に、畳み込み層、プーリング層、全結合層および出力層により構成される。ただし、この3D-CNNには、静止画ではなく映像(言い換えると、動画)が入力されるため、畳み込み層とプーリング層の局所受容野は、縦と横に加えて時間方向の大きさを持つ領域となっている。
【0034】
この3D-CNNは、教師あり学習が可能である。教師あり学習には、例えば誤差逆伝播法を用いることができる。この3D-CNNに教師データを学習させることにより、重みフィルタのフィルタ値と全結合層の重み係数を最適化することができる。
【0035】
このように学習させた3D-CNNのうち、畳み込み層とプーリング層のみが学習済みモデルとして使用される。言い換えると、全結合層と出力層については学習済みモデルとして使用されない。
【0036】
なお、この学習済みモデルの生成には、例えば、上記の非特許文献1に記載のSlowFast Networksの技術や、上記の非特許文献2に記載のI3Dの技術が用いられてもよい。
【0037】
第2特徴抽出部4は、このように生成された学習済みモデルを使用して特徴ベクトルを算出する。算出された特徴ベクトルは結合部7に出力される。
【0038】
次に、骨格情報抽出部5について説明する。
骨格情報抽出部5は、入力映像から骨格情報を時系列で抽出するための手段である。この骨格情報抽出部5により抽出される骨格情報は、画像に写った人の姿勢を示す情報である。より具体的には、画像に写った人の鼻、首、両肩、両肘、両手首、両腰、両膝、両足首等の部位の2次元座標と、各部位に付与された信頼度とをフレームで結び付けた情報である。この骨格情報は、例えば、上記の非特許文献3に記載のOpenPoseの技術を用いて抽出される。抽出された骨格情報は、第3特徴抽出部6に出力される。
【0039】
第3特徴抽出部6は、骨格情報抽出部5から出力された時系列の骨格情報を学習済みモデルに入力し、特徴ベクトルを算出するための手段である。すなわち、この第3特徴抽出部6は、入力映像の特徴量を骨格情報に基づいて抽出するための手段である。
【0040】
この第3特徴抽出部6により用いられる学習済みモデルは、グラフ畳み込みニューラルネットワーク(以下、単に「GCN」と呼ぶ。)に、時系列の骨格情報に行動を対応付けた教師データを学習させることで生成される。ここで、GCNとは、時系列の骨格情報から特徴量を抽出するために使用される計算モデルである。このGCNは、グラフ畳み込み層、全結合層および出力層により構成される。
【0041】
このGCNは、教師あり学習が可能である。教師あり学習には、例えば、誤差逆伝播法を用いることができる。このGCNに教師データを学習させることにより、重みフィルタのフィルタ値と全結合層の重み係数を最適化することができる。
【0042】
このように学習させたGCNのうち、グラフ畳み込み層のみが学習済みモデルとして使用される。言い換えると、全結合層と出力層については学習済みモデルとして使用されない。
【0043】
なお、この学習済みモデルの生成には、例えば、上記の非特許文献4に記載のST-GCNの技術が用いられてもよい。
【0044】
第3特徴抽出部6は、このように生成された学習済みモデルを使用して特徴ベクトルを算出する。算出された特徴ベクトルは結合部7に出力される。
【0045】
次に、結合部7について説明する。
結合部7は、第1特徴抽出部3、第2特徴抽出部4および第3特徴抽出部6から出力された特徴ベクトルを結合(言い換えると、連結)するための手段である。この結合部7は、3つの特徴ベクトルを結合して1つの特徴ベクトルを生成する。そして、1つの特徴ベクトルを生成後、特徴量が正規分布になるように正規化処理を行った上で、行動推定部8に出力する。なお、この正規化処理には、例えば、Batchnorm1Dを使用する。
【0046】
行動推定部8は、結合部7から出力された特徴ベクトルを学習済みモデルに入力し、行動のクラスごとにスコアを算出するための手段である。言い換えると、この行動推定部8は、入力音声の特徴量と入力映像の2つの異なる特徴量とに基づいて行動を推定するための手段である。
【0047】
この行動推定部8により用いられる学習済みモデルは、多層パーセプトロン(以下、単に「MLP」と呼ぶ。)に教師データを学習させることで生成される。具体的な学習方法としては、まず、第1特徴抽出部3、第2特徴抽出部4および第3特徴抽出部6の学習済みモデルを予め構築しておく。その上で、音声データと映像データのセットに行動を対応付けた教師データを行動認識システム1に繰り返し入力し、MLPの重み係数を最適化する。
【0048】
行動推定部8は、このように生成された学習済みモデルを使用して、行動のクラスごとにスコアを算出する。この行動推定部8により算出される各スコアは、その行動のクラスに属する確率を示している。
【0049】
1-2.動作
次に、行動認識システム1により実行される行動認識処理について説明する。
図2は、この行動認識処理を示すフロー図である。以下では、このフロー図を参照して、一対の音声データと映像データに基づいて1つの行動を推定する方法について説明する。
【0050】
まず、行動認識システム1に音声データが入力されると、前処理部2は、入力音声をメルスペクトログラムに変換する(ステップSa1)。この変換の結果、メルスペクトログラムが生成されると、第1特徴抽出部3は、生成されたメルスペクトログラムを学習済みモデルに入力して特徴ベクトルを算出する(ステップSa2)。
【0051】
次に、第2特徴抽出部4は、入力映像を構成する時系列のRGB情報を学習済みモデルに入力して特徴ベクトルを算出する(ステップSa3)。
【0052】
次に、骨格情報抽出部5は、入力映像から骨格情報を時系列で抽出する(ステップSa4)。時系列の骨格情報が抽出されると、第3特徴抽出部6は、抽出された時系列の骨格情報を学習済みモデルに入力して特徴ベクトルを算出する(ステップSa5)。
【0053】
次に、結合部7は、ステップSa2、Sa3およびSa5で算出された3つの特徴ベクトルを結合して1つの特徴ベクトルを生成する(ステップSa6)。そして、生成した特徴ベクトルに対して正規化処理を実行する(ステップSa7)。正規化処理の実行後、行動推定部8は、その特徴ベクトルを学習済みモデルに入力して、行動のクラスごとにスコアを算出する(ステップSa8)。
以上が、行動認識処理についての説明である。
【0054】
以上説明した行動認識システム1によれば、3D畳み込みベースと骨格ベースの2つの手法で抽出される特徴量を組み合わせて行動推定が行われる。そのため、周囲の物の関わりによる動作の違いと細かい動作の違いの両方を識別することができる。例えば、前者の動作の例としては、異なる種類のボトル入り飲料水を飲む動作をそれぞれ識別することができる。これは、ボトルに貼られたラベルの色、すなわちRGB情報で、2つの動作を区別することができるからである。また、後者の動作の例としては、単にPCのモニタをのぞき込む動作と、PCのモニタに向かってキーボードを操作する動作を識別することができる。
【0055】
加えて、上記の行動認識システム1によれば、音声分類手法で抽出される特徴量も考慮して行動推定が行われる。そのため、音声が重要になってくる動作をうまく識別することができる。例えば、喧嘩と会話の違いを識別することができる。加えて、映像から識別可能な動作についても、その識別精度を高めることができる。例えば、歩く動作と走る動作の違いや、触る動作と叩く動作の違いを識別する精度を高めることができる。
【0056】
以上まとめると、上記の行動認識システム1によれば、多様な場面で行動推定可能な、ロバスト性のある行動認識が可能になる。
【0057】
2.第2実施形態
2-1.構成
本発明の第2実施形態に係る行動認識システム10について、図面を参照して説明する。
本実施形態に係る行動認識システム10では、第1実施形態と同様に、3D畳み込みベースと骨格ベースの2つの手法と音声分類手法とで抽出される特徴量を組み合わせて行動推定を行う。ただし、第1実施形態とは特徴量の結合方式が異なる。
【0058】
図3は、本実施形態に係る行動認識システム10の構成を示す図である。同図に示すように行動認識システム10は、前処理部2、第1特徴抽出部3、骨格情報抽出部5、第3特徴抽出部6、結合部11、映像復元部12および行動推定部13を有する。これらの構成要素は、記憶装置に記憶された1以上のプログラムがプロセッサにより実行されることにより実現される。以下、各構成要素について説明する。
【0059】
前処理部2は、第1実施形態の欄で説明したように、入力音声をメルスペクトログラムに変換するための手段である。この前処理部2により生成されたメルスペクトログラムは、第1特徴抽出部3に出力される。
【0060】
第1特徴抽出部3は、第1実施形態の欄で説明したように、前処理部2から出力されたメルスペクトログラムを学習済みモデルに入力し、特徴ベクトルを算出するための手段である。この第1特徴抽出部3により算出された特徴ベクトルは、結合部11に出力される。
【0061】
骨格情報抽出部5は、第1実施形態の欄で説明したように、入力映像から骨格情報を時系列で抽出するための手段である。この骨格情報抽出部5により抽出された骨格情報は、第3特徴抽出部6に出力される。
【0062】
第3特徴抽出部6は、第1実施形態の欄で説明したように、骨格情報抽出部5から出力された時系列の骨格情報を学習済みモデルに入力し、特徴ベクトルを算出するための手段である。この第3特徴抽出部6により算出された特徴ベクトルは、結合部11に出力される。
【0063】
結合部11は、第1特徴抽出部3と第3特徴抽出部6から出力された特徴ベクトルを結合(言い換えると、連結)するための手段である。この結合部11は、2つの特徴ベクトルを結合して1つの特徴ベクトルを生成する。生成された特徴ベクトルは映像復元部12に出力される。
【0064】
映像復元部12は、結合部11から出力された特徴ベクトルを学習済みモデルに入力し、映像データを復元するための手段である。言い換えると、この映像復元部12は、入力音声の特徴量と入力映像の特徴量に基づいて、これらの特徴量が反映された映像を復元するための手段である。
【0065】
この映像復元部12により用いられる学習済みモデルは、敵対的生成ネットワーク(以下、単に「GAN」と呼ぶ。)に訓練データを学習させることで生成される。ここで、GANとは、特徴ベクトルから映像データを復元するために使用される生成モデルである。このGANは、生成器と識別器の2つのネットワークにより構成される。
【0066】
このGANを構成する2つのネットワークのうち、生成器は、潜在変数を入力とし、その潜在変数に対して逆畳み込み処理(言い換えると、転置畳み込み処理)を実行して、画像データを出力するためのネットワークである。一方、識別器は、生成器により生成された画像データと訓練データのいずれかを入力とし、入力されたデータが訓練データであるか否かを識別するためのネットワークである。
【0067】
これらのネットワークのうち、識別器は、正しい識別ができるように学習させる。一方、生成器は、識別器が訓練データとの識別が困難な画像データを生成できるように学習させる。これら2つの学習を交互に行うことで、訓練データとの識別が困難な画像データを生成可能な生成器が生成される。
【0068】
これらの学習させた生成器と識別器のうち、生成器のみが学習済みモデルとして使用される。言い換えると、学習させた識別器については学習済みモデルとして使用されない。
【0069】
なお、この学習済みモデルの生成には、例えば、以下の文献に記載の3D-GANの技術が用いられてもよい。
Jiajun Wu, et al. “Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling”、[online]、[令和2年12月14日検索]、インターネット<https://arxiv.org/pdf/1610.07584.pdf>
【0070】
映像復元部12は、このように生成された学習済みモデルを使用して映像データを生成する。生成された映像データは、アテンションマップとして行動推定部13に出力される。ここで、アテンションマップとは、入力映像において注目すべき領域を示すデータである。例えば、入力映像がランナーの映像である場合には、このアテンションマップは、ランナーの手足を注目すべき領域として示すデータとなる。行動推定部13は、このアテンションマップを用いることで、特徴抽出の精度を向上させる。
【0071】
次に、行動推定部13について説明する。
行動推定部13は、入力映像を構成する時系列のRGB情報を学習済みモデルに入力して、行動のクラスごとにスコアを算出するための手段である。言い換えると、この行動推定部13は、入力映像の特徴量に基づいて行動を推定するための手段である。この行動推定部13により用いられる学習済みモデルは、3D-CNNに教師データを学習させることで生成される。この学習済みモデルの生成方法については後述する。
【0072】
行動推定部13は、時系列のRGB情報を学習済みモデルに入力する際、各チャンネルの値に、映像復元部12から出力されたアテンションマップを掛ける。その際の計算式を以下に示す。
【0073】
T’(x,y,z)=T(x,y,z)*(M(x,y,z)+1) …(1)
【0074】
この数式(1)において、T(x,y,z)は、チャンネルの値を表し、M(x,y,z)は、チャンネルの値に対応するアテンションマップの値を表し、T’(x,y,z)は、乗算の結果、補正されたチャンネルの値を表している。行動推定部13は、この数式(1)に示すように各チャンネルの値にアテンションマップを掛けることで、特徴抽出の精度を向上させる。
【0075】
なお、アテンションマップについては、例えば、以下の文献に記載されている(特に、数式(3)および
図3参照)。
Fei Wang, et al. “Residual Attention Network for Image Classification”、[online]、[令和2年12月14日検索]、インターネット<https://arxiv.org/pdf/1704.06904.pdf>
この文献では2次元の画像にアテンションメカニズムが適用されているが、行動推定部13の処理では、このアテンションメカニズムを3次元の映像に応用している。
【0076】
次に、学習済みモデルの生成方法について説明する。
学習済みモデルの生成にあたっては、まず、第1特徴抽出部3と第3特徴抽出部6の学習済みモデルを予め構築しておく。その上で、音声データと映像データのセットに行動を対応付けた教師データを行動認識システム10に繰り返し入力し、3D-CNNの重みフィルタのフィルタ値と全結合層の重み係数を最適化する。
【0077】
なお、この学習済みモデルの生成には、例えば、上記の非特許文献1に記載のSlowFast Networksの技術や、上記の非特許文献2に記載のI3Dの技術が用いられてもよい。
【0078】
行動推定部13は、このように生成された学習済みモデルを使用して、行動のクラスごとにスコアを算出する。この行動推定部13により算出される各スコアは、その行動のクラスに属する確率を示している。
【0079】
2-2.動作
次に、行動認識システム10により実行される行動認識処理について説明する。
図4は、この行動認識処理を示すフロー図である。以下では、このフロー図を参照して、一対の音声データと映像データに基づいて1つの行動を推定する方法について説明する。
【0080】
まず、行動認識システム10に音声データが入力されると、前処理部2は、入力音声をメルスペクトログラムに変換する(ステップSb1)。この変換の結果、メルスペクトログラムが生成されると、第1特徴抽出部3は、生成されたメルスペクトログラムを学習済みモデルに入力して特徴ベクトルを算出する(ステップSb2)。
【0081】
次に、骨格情報抽出部5は、入力映像から骨格情報を時系列で抽出する(ステップSb3)。時系列の骨格情報が抽出されると、第3特徴抽出部6は、抽出された時系列の骨格情報を学習済みモデルに入力して特徴ベクトルを算出する(ステップSb4)。
【0082】
次に、結合部11は、ステップSb2およびSb4で算出された2つの特徴ベクトルを結合して1つの特徴ベクトルを生成する(ステップSb5)。特徴ベクトルが生成されると、映像復元部12は、生成された特徴ベクトルを学習済みモデルに入力して、アテンションマップを生成する(ステップSb6)。
【0083】
次に、行動推定部13は、入力映像を構成する時系列のRGB情報を学習済みモデルに入力して、行動のクラスごとにスコアを算出する(ステップSb7)。その際、行動推定部13は、学習済みモデルに入力する各チャンネルの値に、映像復元部12から出力されたアテンションマップを掛ける。
以上が、行動認識処理についての説明である。
【0084】
以上説明した行動認識システム10によれば、3D畳み込みベースと骨格ベースの2つの手法で抽出される特徴量を組み合わせて行動推定が行われる。そのため、周囲の物の関わりによる動作の違いと細かい動作の違いの両方を識別することができる。加えて、この行動認識システム10によれば、音声分類手法で抽出される特徴量も考慮して行動推定が行われる。そのため、音声が重要になってくる動作をうまく識別することができる。以上まとめると、この行動認識システム10によれば、多様な場面で行動推定可能な、ロバスト性のある行動認識が可能になる。
【0085】
3.第3実施形態
3-1.構成
本発明の第3実施形態に係る行動認識システム20について、図面を参照して説明する。
本実施形態に係る行動認識システム20では、第1実施形態および第2実施形態と同様に、3D畳み込みベースと骨格ベースの2つの手法と音声分類手法とで抽出される特徴量を組み合わせて行動推定を行う。ただし、第1実施形態および第2実施形態とは特徴量の結合方式が異なる。
【0086】
図5は、本実施形態に係る行動認識システム20の構成を示す図である。同図に示すように行動認識システム20は、前処理部2、第1特徴抽出部3、第2特徴抽出部4、結合部21、第4特徴抽出部22、骨格情報抽出部5および行動推定部23を有する。これらの構成要素は、記憶装置に記憶された1以上のプログラムがプロセッサにより実行されることにより実現される。以下、各構成要素について説明する。
【0087】
前処理部2は、第1実施形態の欄で説明したように、入力音声をメルスペクトログラムと呼ばれる画像に変換するための手段である。この前処理部2により生成されたメルスペクトログラムは、第1特徴抽出部3に出力される。
【0088】
第1特徴抽出部3は、第1実施形態の欄で説明したように、前処理部2から出力されたメルスペクトログラムを学習済みモデルに入力し、特徴ベクトルを算出するための手段である。この第1特徴抽出部3により算出された特徴ベクトルは、結合部21に出力される。
【0089】
第2特徴抽出部4は、第1実施形態の欄で説明したように、入力映像を構成する時系列のRGB情報を学習済みモデルに入力して特徴ベクトルを算出するための手段である。この第2特徴抽出部4により算出された特徴ベクトルは、結合部21に出力される。
【0090】
結合部21は、第1特徴抽出部3と第2特徴抽出部4から出力された特徴ベクトルを結合(言い換えると、連結)するための手段である。この結合部21は、2つの特徴ベクトルを結合して1つの特徴ベクトルを生成する。生成された特徴ベクトルは第4特徴抽出部22に出力される。
【0091】
第4特徴抽出部22は、結合部21から出力された特徴ベクトルを学習済みモデルに入力し、別の特徴ベクトルを算出するための手段である。この第4特徴抽出部22により特徴ベクトルを算出するために用いられる学習済みモデルは、MLPに教師データを学習させることで生成される。具体的な学習方法としては、まず、第1特徴抽出部3および第2特徴抽出部4の学習済みモデルを予め構築しておく。その上で、前処理部2、第1特徴抽出部3、第2特徴抽出部4、結合部21および第4特徴抽出部22を、
図5に示すように連結する。そして、この連結したシステムに、音声データと映像データのセットに行動を対応付けた教師データを繰り返し入力して、MLPの重み係数を最適化する。
【0092】
第4特徴抽出部22は、このように生成された学習済みモデルを使用して特徴ベクトルを算出する。算出された特徴ベクトルは、アテンションマップとして行動推定部23に出力される。行動推定部23は、このアテンションマップを用いることで、特徴抽出の精度を向上させる。
【0093】
次に、骨格情報抽出部5について説明する。
骨格情報抽出部5は、第1実施形態の欄で説明したように、入力映像から骨格情報を時系列で抽出するための手段である。この骨格情報抽出部5により抽出された骨格情報は、行動推定部23に出力される。
【0094】
行動推定部23は、骨格情報抽出部5から出力された時系列の骨格情報を学習済みモデルに入力し、行動のクラスごとにスコアを算出するための手段である。言い換えると、この行動推定部23は、入力映像の特徴量に基づいて行動を推定するための手段である。この行動推定部13により用いられる学習済みモデルは、GCNに教師データを学習させることで生成される。この学習済みモデルの生成方法については後述する。
【0095】
行動推定部23は、時系列の骨格情報を学習済みモデルに入力する際、骨格の各ノードの値に、第4特徴抽出部22から出力されたアテンションマップを掛ける。その際の計算式を以下に示す。
【0096】
T’(x)=T(x)*(M(x)+1) …(2)
【0097】
この数式(2)において、T(x)は、骨格のノードの値を表し、M(x)は、ノードの値に対応するアテンションマップの値を表し、T’(x)は、乗算の結果、補正されたノードの値を表している。行動推定部23は、この数式(2)に示すように骨格の各ノードの値にアテンションマップを掛けることで、特徴抽出の精度を向上させる。
【0098】
なお、アテンションマップについては、上記の文献“Residual Attention Network for Image Classification”に記載されている。この文献では2次元の画像にアテンションメカニズムが適用されているが、行動推定部23の処理では、このアテンションメカニズムを1次元のベクトルに応用している。
【0099】
次に、学習済みモデルの生成方法について説明する。
学習済みモデルの生成にあたっては、まず、第1特徴抽出部3、第2特徴抽出部4および第4特徴抽出部22の学習済みモデルを予め構築しておく。その上で、音声データと映像データのセットに行動を対応付けた教師データを行動認識システム20に繰り返し入力し、GCNの重みフィルタのフィルタ値と全結合層の重み係数を最適化する。
【0100】
なお、この学習済みモデルの生成には、例えば、上記の非特許文献4に記載のST-GCNの技術が用いられてもよい。
【0101】
行動推定部23は、このように生成された学習済みモデルを使用して、行動のクラスごとにスコアを算出する。この行動推定部23により算出される各スコアは、その行動のクラスに属する確率を示している。
【0102】
3-2.動作
次に、行動認識システム20により実行される行動認識処理について説明する。
図6は、この行動認識処理を示すフロー図である。以下では、このフロー図を参照して、一対の音声データと映像データに基づいて1つの行動を推定する方法について説明する。
【0103】
まず、行動認識システム10に音声データが入力されると、前処理部2は、入力音声をメルスペクトログラムに変換する(ステップSc1)。この変換の結果、メルスペクトログラムが生成されると、第1特徴抽出部3は、生成されたメルスペクトログラムを学習済みモデルに入力し、特徴ベクトルを算出する(ステップSc2)。
【0104】
次に、第2特徴抽出部4は、入力映像を構成する時系列のRGB情報を学習済みモデルに入力して特徴ベクトルを算出する(ステップSc3)。
【0105】
次に、結合部21は、ステップSc2およびSc3で算出された2つの特徴ベクトルを結合して1つの特徴ベクトルを生成する(ステップSc4)。特徴ベクトルが生成されると、第4特徴抽出部22は、生成された特徴ベクトルを学習済みモデルに入力して、アテンションマップを生成する(ステップSc5)。
【0106】
次に、骨格情報抽出部5は、入力映像から骨格情報を時系列で抽出する(ステップSc6)。時系列の骨格情報が抽出されると、行動推定部23は、抽出された時系列の骨格情報を学習済みモデルに入力して、行動のクラスごとにスコアを算出する(ステップSc7)。その際、行動推定部23は、学習済みモデルに入力する骨格の各ノードの値に、第4特徴抽出部22から出力されたアテンションマップを掛ける。
以上が、行動認識処理についての説明である。
【0107】
以上説明した行動認識システム20によれば、3D畳み込みベースと骨格ベースの2つの手法で抽出される特徴量を組み合わせて行動推定が行われる。そのため、周囲の物の関わりによる動作の違いと細かい動作の違いの両方を識別することができる。加えて、この行動認識システム20によれば、音声分類手法で抽出される特徴量も考慮して行動推定が行われる。そのため、音声が重要になってくる動作をうまく識別することができる。以上まとめると、この行動認識システム20によれば、多様な場面で行動推定可能な、ロバスト性のある行動認識が可能になる。
【0108】
4.変形例
上記の各実施形態に係る行動認識処理において、各ステップの順序は、不整合を生じない限りにおいて入れ替えてよい。例えば、第1実施形態に係る行動認識処理において、ステップSa1およびSa2の組と、ステップSa3と、ステップSa4およびSa5の組とを互いに入れ替えてもよい。別の例として、第2実施形態に係る行動認識処理において、ステップSb1およびSb2の組と、ステップSb3およびSb4の組を互いに入れ替えてもよい。さらに別の例として、第3実施形態に係る行動認識処理において、ステップSc1およびSc2の組と、ステップSc3を互いに入れ替えてもよい。
【符号の説明】
【0109】
1、10、20…行動認識システム、2…前処理部、3…第1特徴抽出部、4…第2特徴抽出部、5…骨格情報抽出部、6…第3特徴抽出部、7、11、21…結合部、8、13、23…行動推定部、12…映像復元部、22…第4特徴抽出部