(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022188756
(43)【公開日】2022-12-21
(54)【発明の名称】動作検出方法、動作検出装置及び電子機器
(51)【国際特許分類】
G06T 7/246 20170101AFI20221214BHJP
G06T 7/00 20170101ALI20221214BHJP
G06T 7/20 20170101ALI20221214BHJP
G06V 40/20 20220101ALI20221214BHJP
【FI】
G06T7/246
G06T7/00 350C
G06T7/20 300
G06V40/20
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022088158
(22)【出願日】2022-05-31
(31)【優先権主張番号】202110643827.4
(32)【優先日】2021-06-09
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ジュ・シエヌタヌ
(72)【発明者】
【氏名】タオ・シュアヌ
(72)【発明者】
【氏名】タヌ・ジミン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA02
5L096DA02
5L096HA11
5L096JA11
5L096JA18
(57)【要約】
【課題】本発明の実施例は、動作検出方法、動作検出装置及び電子機器を提供する。
【解決手段】該動作検出装置は、処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成する特徴生成部と、該特徴マップに基づいて大域特徴及び局所特徴を生成する特徴抽出部であって、該大域特徴は、該特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である、特徴抽出部と、該大域特徴及び該局所特徴に基づいて該処理すべき画像データにおけるターゲットの動作を認識する動作認識部と、を含む。これによって、動作検出の信頼性を向上させることができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成する特徴生成部と、
前記特徴マップに基づいて大域特徴及び局所特徴を生成する特徴抽出部であって、前記大域特徴は、前記特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である、特徴抽出部と、
前記大域特徴及び前記局所特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する動作認識部と、を含む、動作検出装置。
【請求項2】
前記特徴抽出部は、前記特徴マップに対して時間次元で平均プーリングを行い、空間次元で最大プーリングを行うことで、前記大域特徴を生成する、請求項1に記載の動作検出装置。
【請求項3】
前記局所特徴の空間的な次元及び時間的な次元は、前記大域特徴の空間的な次元及び時間的な次元とそれぞれ同一である、請求項1に記載の動作検出装置。
【請求項4】
前記局所特徴は、前記処理すべき画像データの画像フレームにおける一部の領域に対応し、
前記大域特徴は、前記処理すべき画像データの画像フレームにおける全ての領域に対応する、請求項1に記載の動作検出装置。
【請求項5】
前記局所特徴は、人物特徴に基づいて生成された短期特徴及び長期特徴である、請求項1に記載の動作検出装置。
【請求項6】
前記動作認識部は、前記大域特徴と前記局所特徴とを結合して結合特徴を生成し、前記結合特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する、請求項5に記載の動作検出装置。
【請求項7】
前記局所特徴は、人物特徴、対象特徴及び記憶特徴である、請求項1に記載の動作検出装置。
【請求項8】
前記動作認識部は、前記大域特徴及び前記局所特徴に対して融合処理を行って融合特徴を生成し、前記融合特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する、請求項7に記載の動作検出装置。
【請求項9】
請求項1乃至8の何れかに記載の動作検出装置を含む電子機器。
【請求項10】
処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成するステップと、
前記特徴マップに基づいて大域特徴及び局所特徴を生成するステップであって、前記大域特徴は、前記特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である、ステップと、
前記大域特徴及び前記局所特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識するステップと、を含む、動作検出方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子情報の技術分野に関し、特に動作検出方法、動作検出装置及び電子機器に関する。
【背景技術】
【0002】
人体の動作の検出は、幅広い分野に適用することができる。例えば、人体の動作の検出は、異常な行動の検出、ヘルスケアなどのシナリオに適用されてもよい。
【0003】
従来技術では、通常の動作検出方法は、処理すべき画像データに基づいて人物又は物体に関連する特徴を抽出することと、該抽出された特徴に基づいて処理すべき画像データにおける人体の動作を認識することとを含む。
【0004】
なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の発明者の発見によると、通常の動作検出方法には幾つかの制限がある。例えば、処理すべき画像データにおける人物の動作を検出する際に、処理すべき画像データにおける人物又は物体の局所特徴のみを考慮すると、動作検出結果の正確性を確保することは困難である。
【0006】
本発明の実施例は、処理すべき画像データに関連する大域特徴及び局所特徴を利用して人物の動作を検出することで、動作検出の正確性を向上させることができる、動作検出方法、動作検出装置及び電子機器を提供する。
【課題を解決するための手段】
【0007】
本発明の実施例の第1の態様では、処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成する特徴生成部と、前記特徴マップに基づいて大域特徴及び局所特徴を生成する特徴抽出部であって、前記大域特徴は、前記特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である、特徴抽出部と、前記大域特徴及び前記局所特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する動作認識部と、を含む、動作検出装置を提供する。
【0008】
本発明の実施例の第2の態様では、処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成するステップと、前記特徴マップに基づいて大域特徴及び局所特徴を生成するステップであって、前記大域特徴は、前記特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である、ステップと、前記大域特徴及び前記局所特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識するステップと、を含む、動作検出方法を提供する。
【0009】
本発明の実施例の第3の態様では、実施例の第1の態様に記載の動作検出装置を含む電子機器を提供する。
【0010】
本発明の実施例の有利な効果は以下の通りである。処理すべき画像データに関連する大域特徴及び局所特徴を利用して人物の動作を検出することで、動作検出の正確性を向上させることができる。
【0011】
本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の変更、修正、及び均等的なものが含まれる。
【0012】
ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。
【0013】
なお、用語「含む/有する」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。
【図面の簡単な説明】
【0014】
本発明の様々な態様は、以下の図面を参照することにより、よりよく理解することができる。本発明の実施例の図面又は実施形態に説明されている要素及び特徴は、1つ又は複数の他の図面又は実施形態に示す要素及び特徴と組み合わせてもよい。図面において、類似する符号は複数の図面における対応する構成部を表し、複数の態様に用いられる対応構成部を表してもよい。
【
図1】本発明の実施例1に係る動作検出装置の1つの概略図である。
【
図2】本発明の実施例1に係る処理すべき画像データの1つの概略図である。
【
図3】本発明の実施例1に係る動作検出装置のもう1つの概略図である。
【
図4】本発明の実施例1に係る動作検出装置のもう1つの概略図である。
【
図5】本発明の実施例2に係る動作検出方法の1つの概略図である。
【
図6】本発明の実施例3に係る電子機器の1つの構成の概略図である。
【発明を実施するための形態】
【0015】
本発明の上記及びその他の特徴は、図面及び下記の説明により明確になる。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変形されたもの、及び均等なものを含む。
【0016】
本発明の実施例では、用語「第1」、「第2」は異なる要素を名称で区分するためのものであり、これらの要素の空間的配列又は時間的順序などを意味するものではなく、これらの要素はこれらの用語に限定されない。用語「及び/又は」は列挙された用語の1つ又は複数のうち何れか及びその組み合わせを含む。用語「包括」、「含む」、「有する」は説明された特徴、要素、素子又は部材の存在を意味するが、他の1つ又は複数の特徴、要素、素子又は部材の存在又は追加を排除するものではない。
【0017】
本発明の実施例では、単数形の「一」、「該」等は複数形を含み、「一種」又は「一類」を意味し、「1つ」に限定するものではない。また、用語「前記」は、文脈上明確に指示されない限り、単数形及び複数形両方を含む。また、文脈上明確に指示されない限り、用語「応じて」は「少なくとも部分的に応じて」を意味し、用語「に基づいて」は「少なくとも部分的に基づいて」を意味する。
【0018】
<実施例1>
本発明の実施例1は動作検出装置を提供する。
【0019】
図1は、本発明の実施例1に係る動作検出装置1の1つの概略図である。
図1に示すように、該動作検出装置1は、特徴生成部11、特徴抽出部12及び動作認識部13を含む。
【0020】
ここで、特徴生成部11は、処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成する。特徴抽出部12は、該特徴マップに基づいて大域特徴及び局所特徴を生成する。該大域特徴は、該特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である。動作認識部13は、該大域特徴及び該局所特徴に基づいて該処理すべき画像データにおけるターゲットの動作を認識する。
【0021】
本発明の実施例1によれば、動作検出装置1は、処理すべき画像データの大域特徴及び局所特徴に基づいて人物の動作を検出することで、人物又は物体に関連する局所特徴のみを考慮して人物の動作を検出する技術に比べて、動作検出の正確性を向上させることができる。
【0022】
少なくとも1つの実施例では、処理すべき画像データは、例えば、カメラにより撮影されたビデオにおける特定の画像フレーム又は特定の画像シーケンスであってもよい。なお、本発明はこれに限定されず、処理すべき画像データは他の種類のデータであってもよい。
【0023】
少なくとも1つの実施例では、特徴生成部11は、処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行ってもよい。例えば、3D畳み込みニューラルネットワーク符号化を行ってもよいし、2D畳み込みニューラルネットワーク符号化を行ってもよいが、本発明はこれらに具体的に限定されない。
【0024】
少なくとも1つの実施例では、特徴生成部11は、畳み込みニューラルネットワークにより符号化された結果に基づいて特徴マップを生成してもよい。ここで、該特徴マップの次元は、C*T*H*Wとして表されてもよい。ここで、Cはチャネルの数を表し、Tは特徴マップの時間的な次元を表し、H及びWは特徴マップの空間的な次元を表し、特徴マップの高さ及び幅をそれぞれ表す。ここで、特徴マップに基づいて生成された大域特徴及び局所特徴の次元も上記の方法で表現されてもよい。例えば、大域特徴の次元は、C1*T1*H1*W1として表されてもよく、局所特徴の次元は、C2*T2*H2*W2として表されてもよい。ここで、C1及びC2は大域特徴及び局所特徴のチャネルの数をそれぞれ表し、T1及びT2は大域特徴及び局所特徴の時間的な次元をそれぞれ表し、H1及びW1は大域特徴の空間的な次元を表し、大域特徴の高さ及び幅をそれぞれ表し、H2及びW2は局所特徴の空間的な次元を表し、局所特徴の高さ及び幅をそれぞれ表す。
【0025】
少なくとも1つの実施例では、特徴抽出部12は、演算により特徴マップから大域特徴を抽出してもよい。例えば、特徴抽出部12は、特徴マップに対して空間次元及び時間次元のプーリングを行うことで、大域特徴を生成してもよい。これによって、非常に少ない計算量で大域特徴を取得することができ、動作検出の速度及び効率を向上させることができる。
【0026】
少なくとも1つの実施例では、特徴抽出部12は、プーリング方法を使用して、大域特徴を取得してもよい。例えば、特徴抽出部12は、特徴マップに対して時間次元で平均プーリングを行い、空間次元で最大プーリングを行うことで、大域特徴を生成してもよい。このように取得された大域特徴を使用して動作検出を行うと、動作検出の正確率をさらに向上させることができる。
【0027】
例えば、特徴抽出部12は、C*T*H*Wの次元を有する特徴マップに対して空間次元で最大プーリングを行う際に、特徴マップのH*W個のデータから最大値を選択し、C*T*1*1の次元を有する中間量を取得してもよい。特徴抽出部12は、該中間量に対して時間次元で平均プーリングを行い、例えば中間量のT個のデータの平均値を取得し、C*1*1*1の次元を有する大域特徴を取得してもよい。なお、本発明はこれに限定されず、他のプーリング方法を使用して大域特徴を生成してもよい。
【0028】
少なくとも1つの実施例では、局所特徴の空間的な次元及び時間的な次元は、大域特徴の空間的な次元及び時間的な次元とそれぞれ同一であってもよい。言い換えれば、T1=T2、H1=H2、W1=W2である。これによって、局所特徴及び大域特徴を使用して動作検出を便利に実行することができると共に、余計な計算量を追加することはない。
【0029】
少なくとも1つの実施例では、局所特徴は、処理すべき画像データの画像フレームにおける一部の領域に対応してもよく、大域特徴は、処理すべき画像データの画像フレームにおける全ての領域に対応してもよい。言い換えれば、局所特徴は、例えば処理すべき画像データの画像フレームにおける人物又は物体に関連する情報を含んでもよく、大域特徴は、処理すべき画像データの画像フレームにおける人物又は物体に関連する情報を含むだけではなく、処理すべき画像データの画像フレームにおける背景を含む情報を含んでもよい。従って、大域特徴及び局所特徴を使用して動作検出を行う際に、処理すべき画像データにおける人物又は物体に関連する情報を考慮するだけではなく、該処理すべき画像データにおける人物又は物体が所在する背景に関連する情報をさらに考慮することで、動作検出の正確率を向上させることができる。
【0030】
図2は、本発明の実施例1に係る処理すべき画像データの1つの概略図である。例えば、
図2に示すように、処理すべき画像データは、カメラにより撮影された、泳いでいる男性の画像フレームである。この画像フレームにおいて、画像フレームの人物部分は直立状態の男性Mであり、画像フレームの背景部分は水Wである。画像フレームにおける人物又は物体に関する情報を含む局所特徴のみを考慮する場合、該画像フレームにおける人物の動作が「立っている」であると誤って認識される可能性がある。しかし、画像フレームの背景情報を含む大域特徴と、画像フレームの人物又は物体の情報を含む局所特徴との両方を考慮する場合、該画像フレームにおける人物の動作が「水泳」であると正しく認識することができる。これによって、動作検出の正確率を向上させることができる。
【0031】
少なくとも1つの実施例では、動作検出装置1は、LFB(long-term feature banks for detailed video understanding)アルゴリズムを採用してもよいし、Alphaction(Asynchronous Interaction Aggregation for Action Detection)アルゴリズムを採用してもよい。また、本発明はこれに限定されず、動作検出装置1は、他のアルゴリズムを使用して動作検出を行ってもよい。
【0032】
少なくとも1つの実施例では、動作検出装置1がLFBアルゴリズムを採用する場合、局所特徴は、人物特徴(person feature)に基づいて生成された短期特徴(short-term feature)及び長期特徴(long-term feature)であってもよい。
【0033】
少なくとも1つの実施例では、動作検出装置1がLFBアルゴリズムを採用する場合、動作認識部13は、大域特徴と局所特徴とを結合して結合特徴を生成し、結合特徴に基づいて処理すべき画像データにおけるターゲットの動作を認識する。
【0034】
以下は、動作検出装置1がLFBアルゴリズムを採用することを一例にして、動作検出装置1の動作を例示的に説明する。
図3は、本発明の実施例1に係る動作検出装置1のもう1つの概略図である。
図3に示すように、ビデオセグメント1、ビデオセグメント2、…、ビデオセグメントN(Nは正の整数である)、並びに該ビデオセグメントから抽出されたビデオフレームシーケンス及びキーフレームは、処理すべき画像データである。
【0035】
動作検出装置1の特徴生成部11は、3D畳み込みニューラルネットワーク(3 Dimension Convolutional Neural Networks:3D CNN)に基づいて特徴マップを生成してもよい。例えば、特徴生成部11は、ビデオフレームシーケンスに対して3D畳み込みニューラルネットワーク符号化を行って特徴マップFを生成し、ここで、特徴生成部11の具体的な符号化方法は、関連技術を参照してもよい。
【0036】
特徴抽出部12は、大域特徴生成ユニット121、関心領域プーリング(ROI Pooling)ユニット122、高速領域畳み込みニューラルネットワーク(Faster RCNN)処理ユニット123、短期特徴演算子(Short-Term Feature Operator)124及び長期特徴バンク(Long-Term Feature Bank)125を含んでもよい。ここで、大域特徴生成ユニット121は、特徴生成部11により出力された特徴マップFに対して空間次元及び時間次元のプーリングを行い、大域特徴Gを生成する。高速領域畳み込みニューラルネットワーク処理ユニット123は、キーフレーム内の人物を検出し、人物の範囲を表すバウンディングボックス(Bounding Box)を取得し、関心領域プーリングユニット122にバウンディングボックスを入力する。関心領域プーリングユニット122は、該バウンディングボックス及び特徴生成部11により出力された特徴マップFに基づいて、人物特徴(Person Feature)を短期特徴Sとして生成する。ここで、高速領域畳み込みニューラルネットワーク処理ユニット123及び関心領域プーリングユニット122の具体的な方法は、関連技術を参照してもよい。
【0037】
短期特徴演算子124は、上記の特徴生成部11、関心領域プーリングユニット122、及び高速領域畳み込みニューラルネットワーク処理ユニット123を含んでもよい。短期特徴演算子124は、複数のビデオセグメントを処理して、短期特徴Sを取得し、短期特徴Sを長期特徴バンク125に入力する。長期特徴バンク125は、全てのキーフレーム内の人物特徴(短期特徴S)を長期特徴Lとして記憶する。ここで、短期特徴演算子124及び長期特徴バンク125の具体的な処理方法は、関連技術を参照してもよい。ここで、大域特徴G、短期特徴S及び長期特徴Lは、動作認識部13における結合(Concat)ユニット311に入力される。
【0038】
動作認識部13は、結合ユニット311及び第1の認識ユニット(Classifier)132を含んでもよい。結合ユニット131は、入力された大域特徴G、短期特徴S及び長期特徴Lを結合して、結合特徴Yを取得する。ここで、結合操作は、大域特徴G、短期特徴S及び長期特徴Lをチャネルの次元で結合することであってもよい。例えば、大域特徴Gの次元がC1*1*1*1であり、短期特徴Sの次元がC3*1*1*1であり、長期特徴Lの次元がC4*1*1*1である場合、結合特徴Yの次元は(C1+C3+C4)*1*1*1であってもよう。なお、本発明はこれに限定されず、他の方法を使用して大域特徴G、短期特徴S及び長期特徴Lを融合してもよい。
【0039】
また、結合ユニット311は、大域特徴G、短期特徴S及び長期特徴Lを順次に結合してもよい。なお、本発明はこれに限定されず、結合ユニット311は、大域特徴G、短期特徴S及び長期特徴Lを他の順序で結合してもよい。
【0040】
第1の認識ユニット132は、入力された結合特徴Yに基づいて処理すべき画像における人物の動作を検出する。ここで、第1の認識ユニット132は、全結合層を追加することで、結合特徴Yの寸法を調整してもよい。これによって、特徴表現を強化することができ、結合特徴Yの次元と第1の認識ユニット132の処理次元とを一致させることができる。例えば、第1の認識ユニット132の処理次元が(C3+C4)*1*1*1であり、結合特徴Yの処理次元が(C1+C3+C4)*1*1*1である場合、全結合層により結合特徴Yの次元を(C3+C4)*1*1*1に低減させてもよい。これによって、第1の認識ユニット132は、該調整された結合特徴Yを使用して動作認識を行うことができる。なお、第1の認識ユニット132の具体的な認識方法は、関連技術を参照してもよい。
【0041】
本発明の実施例1によれば、動作検出装置1がLFBアルゴリズムを採用する場合、大域特徴生成ユニット121は、LFBアルゴリズムの計算過程における中間変数、即ち特徴マップFを用いて簡単な計算で大域特徴を生成することができるため、非常に少ない計算量で大域特徴を生成することができる。これによって、動作検出の正確率を向上させると共に、動作認識の速度及び効率を確保することができる。
【0042】
少なくとも1つの実施例では、動作検出装置1がAlphactionアルゴリズムを採用する場合、局所特徴は、人物特徴(person feature)、対象特徴(object feature)及び記憶特徴(memory feature)であってもよい。
【0043】
少なくとも1つの実施例では、動作検出装置1がAlphactionアルゴリズムを採用する場合、動作認識部13は、大域特徴及び前記局所特徴に対して融合処理(interaction aggregation。インタラクションアグリゲーションと称されてもよい)を行って融合特徴を生成し、融合特徴に基づいて処理すべき画像データにおけるターゲットの動作を認識する。
【0044】
以下は、動作検出装置1がAlphactionアルゴリズムを採用することを一例にして、動作検出装置1の動作を例示的に説明する。
図4は、本発明の実施例1に係る動作検出装置のもう1つの概略図である。
図4に示すように、ビデオセグメント1、ビデオセグメント2、…、ビデオセグメントN(Nは正の整数である)、並びに該ビデオセグメントから抽出されたビデオフレームシーケンス及びキーフレームは、処理すべき画像データである。
【0045】
動作検出装置1の特徴生成部11は、3D畳み込みニューラルネットワークに基づいて特徴マップを生成してもよい。例えば、特徴生成部11は、ビデオフレームシーケンスに対して3D畳み込みニューラルネットワーク符号化を行って特徴マップFを生成し、ここで、特徴生成部11の具体的な符号化方法は、関連技術を参照してもよい。
【0046】
特徴抽出部12は、大域特徴生成ユニット121、人間の検出器(Detector)126、記憶プール(Memory Pool)ユニット127及び関心領域(ROI)処理ユニット128を含んでもよい。ここで、大域特徴生成ユニット121は、特徴生成部11により出力された特徴マップFに対して空間次元及び時間次元のプーリングを行い、大域特徴Gを生成する。人間の検出器126は、キーフレームを処理し、人物の範囲を表すバウンディングボックスを取得し、バウンディングボックスを関心領域処理ユニット128に入力する。関心領域処理ユニット128は、該バウンディングボックスの位置及び特徴生成部11により出力された特徴マップFに基づいて、処理すべき画像における人物に関連する人物特徴P及び処理すべき画像における物体に関連する対象特徴Oを生成する。人間の検出器126及び関心領域処理ユニット128の処理方法は、関連技術を参照してもよい。
【0047】
なお、本発明はこれに限定されず、他の方法で人物特徴Pを抽出してもよい。例えば、まず、該ビデオフレームシーケンスから関心のある人物画像シーケンスを抽出し、例えば、クロップ(crop)操作を使用して該人物画像シーケンスを抽出してもよい。次に、抽出された人物画像シーケンスに対してサイズ調整(resize)を行い、例えば、人物画像シーケンスのサイズと該人物画像が抽出されるビデオフレームのサイズとが同一であるように、人物画像シーケンスのサイズを拡大し、サイズ調整後の人物画像シーケンスを特徴生成部11に入力する。入力された該サイズ調整後の人物画像シーケンスに基づいて特徴生成部11により生成された特徴は、人物特徴Pである。
【0048】
記憶プールユニット127は、関心領域処理ユニット128により出力された人物特徴Pを記憶特徴Mとして記憶する。記憶プールユニット127の具体的な処理方法は、関連技術を参照してもよい。ここで、大域特徴G、人物特徴P、対象特徴O及び記憶特徴Mは、動作認識部13に入力される。
【0049】
動作認識部13は、融合(POMG interaction aggregation)ユニット133及び第2の認識ユニット(Classifier)134を含んでもよい。融合ユニット133は、入力された大域特徴G、人物特徴P、対象特徴O及び記憶特徴Mに対して融合(interaction aggregation)処理を行い、融合特徴Xを取得する。ここで、融合ユニット133は、Alphactionアルゴリズムにおけるシリアル(serial)融合と同様な処理を採用してもよい。例えば、Alphactionアルゴリズムでは、「人物特徴P-対象特徴O-記憶特徴M-人物特徴P-対象特徴O-記憶特徴M」の順序(即ちPOMPOM)に従って、人物特徴P、対象特徴O及び記憶特徴Mに対してシリアル融合を行う。同様に、本発明の融合ユニット133は、「人物特徴P-大域特徴G-記憶特徴M-人物特徴P-対象特徴O-記憶特徴Mの順序(即ち、PGMPOM)に従って、人物特徴P、大域特徴G、対象特徴O及び記憶特徴Mに対して融合処理を行ってもよい。具体的には、まず、人物特徴Pと大域特徴Gとを融合し、次に全体として記憶特徴Mと融合し、次に人物特徴P、対象特徴O及び記憶特徴Mと順次に融合し、最後に融合特徴Xを取得する。PGMPOMの順序に従って人物特徴P、大域特徴G、対象特徴O及び記憶特徴Mを融合して融合特徴Xを取得することで、動作検出の正確率をさらに向上させることができる。
【0050】
ここで、融合処理の具体的な方法は、非局所的な(Non-local)操作であってもよい。このようなアテンション操作メカニズムは、対象特徴O、大域特徴G及び記憶特徴Mにおける人物特徴Pを強化する部分を抽出して、人物特徴Pに融合することができる。
【0051】
また、本発明はこれに限定されず、融合処理の具体的な方法は、他の方法であってもよい。例えば、まずチャネルを追加し、次に全結合処理を行ってもよい。
【0052】
第2の認識ユニット134は、入力された融合特徴Xに基づいて処理すべき画像における人物の動作を検出する。ここで、第2の認識ユニット134の具体的な認識方法は、関連技術を参照してもよい。
【0053】
本発明の実施例1によれば、動作検出装置1がAlphactionアルゴリズムを採用する場合、大域特徴生成ユニット121は、Alphactionアルゴリズムの計算過程における中間変数、即ち特徴マップFを用いて簡単な計算で大域特徴を生成することができるため、非常に少ない計算量で大域特徴を生成することができる。これによって、動作検出の正確率を向上させると共に、動作認識の速度及び効率を確保することができる。
【0054】
なお、動作検出装置1は、必ずしも
図1及び
図3~
図4に示される全てのユニットを含む必要がない。また、動作検出装置1は、
図1及び
図3~
図4に示されない構成要素をさらに含んでもよく、関連技術を参照してもよい。
【0055】
本発明の実施例1によれば、動作検出装置1は、処理すべき画像データの大域特徴及び局所特徴に基づいて人物の動作を検出することで、人物又は物体に関連する局所特徴のみを考慮して人物の動作を検出する技術に比べて、動作検出の正確性を向上させることができる。
【0056】
<実施例2>
本発明の実施例2は、本発明の実施例1の動作検出装置に対応する動作検出方法を提供する。
【0057】
図5は、本発明の実施例2に係る動作検出方法の1つの概略図である。
図5に示すように、該方法は、以下のステップを含む。
【0058】
ステップ401:処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成する。
【0059】
ステップ402:特徴マップに基づいて大域特徴及び局所特徴を生成する。ここで、大域特徴は、特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である。
【0060】
ステップ403:大域特徴及び局所特徴に基づいて処理すべき画像データにおけるターゲットの動作を認識する。
【0061】
ここで、ステップ401は、例えば本発明の実施例1に係る動作検出装置1の特徴生成部11により実現され、ステップ402は、例えば特徴抽出部12により実現され、ステップ403は、例えば動作認識部13により実現される。
【0062】
少なくとも1つの実施例では、特徴マップに対して時間次元で平均プーリングを行い、空間次元で最大プーリングを行うことで、大域特徴を生成してもよい。
【0063】
少なくとも1つの実施例では、局所特徴の空間的な次元及び時間的な次元は、大域特徴の空間的な次元及び時間的な次元とそれぞれ同一であってもよい。
【0064】
少なくとも1つの実施例では、局所特徴は、処理すべき画像データの画像フレームにおける一部の領域に対応してもよく、大域特徴は、処理すべき画像データの画像フレームにおける全ての領域に対応してもよい。
【0065】
少なくとも1つの実施例では、局所特徴は、人物特徴(person feature)に基づいて生成された短期特徴(short-term feature)及び長期特徴(long-term feature)であってもよい。
【0066】
少なくとも1つの実施例では、ステップ403において、大域特徴と局所特徴とを結合(concat)して結合特徴を生成し、結合特徴に基づいて処理すべき画像データにおけるターゲットの動作を認識してもよい。
【0067】
少なくとも1つの実施例では、局所特徴は、人物特徴(person feature)、対象特徴(object feature)及び記憶特徴(memory feature)であってもよい。
【0068】
少なくとも1つの実施例では、ステップ403において、大域特徴及び局所特徴に対して融合処理(interaction aggregation)を行って融合特徴を生成し、融合特徴に基づいて処理すべき画像データにおけるターゲットの動作を認識してもよい。
【0069】
本発明の実施例2によれば、動作検出方法は、処理すべき画像データの大域特徴及び局所特徴に基づいて人物の動作を検出することで、人物又は物体に関連する局所特徴のみを考慮して人物の動作を検出する技術に比べて、動作検出の正確性を向上させることができる。
【0070】
<実施例3>
本発明の実施例3は、電子機器を提供する。該電子機器は、実施例1に記載された動作検出装置を含む。
【0071】
図6は、本発明の実施例3に係る電子機器の1つの構成の概略図である。
図6に示すように、本発明の実施例に係る電子機器500は、中央処理装置(CPU)501、及びメモリ502を含んでもよい。メモリ502は、中央処理装置501に接続される。メモリ502は、様々なデータを記憶してもよく、制御のためのプログラムをさらに記憶してもよい。中央処理装置501の制御により該プログラムを実行する。
【0072】
1つの態様では、動作検出装置1の機能は中央処理装置501に統合されてもよい。
【0073】
ここで、中央処理装置501は、実施例2に記載された動作検出方法を実現するように構成されてもよい。
【0074】
また、
図6に示すように、電子機器500は、入力出力ユニット503及び表示ユニット504等をさらに含んでもよい。ここで、上記の構成要素の機能は、関連技術と同様であり、ここでその説明を省略する。なお、電子機器500は、必ずしも
図6に示される全ての構成要素を含む必要がない。また、電子機器500は、
図6に示されない構成要素をさらに含んでもよく、関連技術を参照してもよい。
【0075】
本発明の実施例は、動作検出装置又は電子機器においてプログラムを実行する際に、該動作検出装置又は電子機器に実施例2に記載の動作検出方法を実行させる、コンピュータ読み取り可能なプログラムを提供する。
【0076】
本発明の実施例は、動作検出装置又は電子機器に実施例2に記載の動作検出方法を実行させるためのコンピュータ読み取り可能なプログラムが記憶されている、記憶媒体をさらに提供する。
【0077】
本発明の実施例を参照しながら説明した方法/装置は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、図面に示す機能的ブロック図における1つ若しくは複数、又は機能的ブロック図の1つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、図面に示す各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ(FPGA)を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。
【0078】
ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、モバイルハードディスク、CD-ROM又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込むように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はASICに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、機器(例えば移動端末)が比較的に大きい容量のMEGA-SIMカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該MEGA-SIMカード又は大容量のフラッシュメモリ装置に記憶されてもよい。
【0079】
図面に記載されている一つ以上の機能ブロック及び/又は機能ブロックの一つ以上の組合せは、本発明に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)又は他のプログラマブル論理デバイス、ディスクリートゲート又はトランジスタ論理装置、ディスクリートハードウェアコンポーネント、又はそれらの任意の適切な組み合わせで実現されてもよい。図面に記載されている一つ以上の機能ブロック及び/又は機能ブロックの一つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばDSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSP通信と組み合わせた1つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。
【0080】
以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び変更を行ってもよく、これらの変形及び変更も本発明の範囲に属する。
【0081】
また、上述の実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成する特徴生成部と、
前記特徴マップに基づいて大域特徴及び局所特徴を生成する特徴抽出部であって、前記大域特徴は、前記特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である、特徴抽出部と、
前記大域特徴及び前記局所特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する動作認識部と、を含む、動作検出装置。
(付記2)
前記特徴抽出部は、前記特徴マップに対して時間次元で平均プーリングを行い、空間次元で最大プーリングを行うことで、前記大域特徴を生成する、付記1に記載の動作検出装置。
(付記3)
前記局所特徴の空間的な次元及び時間的な次元は、前記大域特徴の空間的な次元及び時間的な次元とそれぞれ同一である、付記1に記載の動作検出装置。
(付記4)
前記局所特徴は、前記処理すべき画像データの画像フレームにおける一部の領域に対応し、
前記大域特徴は、前記処理すべき画像データの画像フレームにおける全ての領域に対応する、付記1に記載の動作検出装置。
(付記5)
前記局所特徴は、人物特徴(person feature)に基づいて生成された短期特徴(short-term feature)及び長期特徴(long-term feature)である、付記1に記載の動作検出装置。
(付記6)
前記動作認識部は、前記大域特徴と前記局所特徴とを結合(concat)して結合特徴を生成し、前記結合特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する、付記5に記載の動作検出装置。
(付記7)
前記局所特徴は、人物特徴(person feature)、対象特徴(object feature)及び記憶特徴(memory feature)である、付記1に記載の動作検出装置。
(付記8)
前記動作認識部は、前記大域特徴及び前記局所特徴に対して融合処理(interaction aggregation)を行って融合特徴を生成し、前記融合特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する、付記7に記載の動作検出装置。
(付記9)
前記動作認識部は、人物特徴-大域特徴-記憶特徴-人物特徴-対象特徴-記憶特徴の順に大域特徴、人物特徴、対象特徴及び記憶特徴に対して融合処理を行い、融合特徴を生成する、付記8に記載の動作検出装置。
(付記10)
付記1乃至9の何れかに記載の動作検出装置を含む電子機器。
(付記11)
処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成するステップと、
前記特徴マップに基づいて大域特徴及び局所特徴を生成するステップであって、前記大域特徴は、前記特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である、ステップと、
前記大域特徴及び前記局所特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識するステップと、を含む、動作検出方法。
(付記12)
前記特徴抽出部は、前記特徴マップに対して時間次元で平均プーリングを行い、空間次元で最大プーリングを行うことで、前記大域特徴を生成する、付記11に記載の動作検出方法。
(付記13)
前記局所特徴の空間的な次元及び時間的な次元は、前記大域特徴の空間的な次元及び時間的な次元とそれぞれ同一である、付記11に記載の動作検出方法。
(付記14)
前記局所特徴は、前記処理すべき画像データの画像フレームにおける一部の領域に対応し、
前記大域特徴は、前記処理すべき画像データの画像フレームにおける全ての領域に対応する、付記11に記載の動作検出方法。
(付記15)
前記局所特徴は、人物特徴(person feature)に基づいて生成された短期特徴(short-term feature)及び長期特徴(long-term feature)である、付記11に記載の動作検出方法。
(付記16)
前記動作認識部は、前記大域特徴と前記局所特徴とを結合(concat)して結合特徴を生成し、前記結合特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する、付記15に記載の動作検出方法。
(付記17)
前記局所特徴は、人物特徴(person feature)、対象特徴(object feature)及び記憶特徴(memory feature)である、付記11に記載の動作検出方法。
(付記18)
前記動作認識部は、前記大域特徴及び前記局所特徴に対して融合処理(interaction aggregation)を行って融合特徴を生成し、前記融合特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する、付記17に記載の動作検出方法。
(付記19)
前記動作認識部は、人物特徴-大域特徴-記憶特徴-人物特徴-対象特徴-記憶特徴の順に大域特徴、人物特徴、対象特徴及び記憶特徴に対して融合処理を行い、融合特徴を生成する、付記18に記載の動作検出方法。