特開2022-188756 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2022-188756動作検出方法、動作検出装置及び電子機器

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022188756

(43)【公開日】2022-12-21

(54)【発明の名称】動作検出方法、動作検出装置及び電子機器

(51)【国際特許分類】

G06T 7/246 20170101AFI20221214BHJP

G06T 7/00 20170101ALI20221214BHJP

G06T 7/20 20170101ALI20221214BHJP

G06V 40/20 20220101ALI20221214BHJP

【ＦＩ】

G06T7/246

G06T7/00 350C

G06T7/20 300

G06V40/20

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2022088158

(22)【出願日】2022-05-31

(31)【優先権主張番号】202110643827.4

(32)【優先日】2021-06-09

(33)【優先権主張国・地域又は機関】CN

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】ジュ・シエヌタヌ

(72)【発明者】

【氏名】タオ・シュアヌ

(72)【発明者】

【氏名】タヌ・ジミン

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096CA02

5L096DA02

5L096HA11

5L096JA11

5L096JA18

(57)【要約】

【課題】本発明の実施例は、動作検出方法、動作検出装置及び電子機器を提供する。
【解決手段】該動作検出装置は、処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成する特徴生成部と、該特徴マップに基づいて大域特徴及び局所特徴を生成する特徴抽出部であって、該大域特徴は、該特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である、特徴抽出部と、該大域特徴及び該局所特徴に基づいて該処理すべき画像データにおけるターゲットの動作を認識する動作認識部と、を含む。これによって、動作検出の信頼性を向上させることができる。
【選択図】図１

【特許請求の範囲】

【請求項1】

処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成する特徴生成部と、
前記特徴マップに基づいて大域特徴及び局所特徴を生成する特徴抽出部であって、前記大域特徴は、前記特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である、特徴抽出部と、
前記大域特徴及び前記局所特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する動作認識部と、を含む、動作検出装置。

【請求項2】

前記特徴抽出部は、前記特徴マップに対して時間次元で平均プーリングを行い、空間次元で最大プーリングを行うことで、前記大域特徴を生成する、請求項１に記載の動作検出装置。

【請求項3】

前記局所特徴の空間的な次元及び時間的な次元は、前記大域特徴の空間的な次元及び時間的な次元とそれぞれ同一である、請求項１に記載の動作検出装置。

【請求項4】

前記局所特徴は、前記処理すべき画像データの画像フレームにおける一部の領域に対応し、
前記大域特徴は、前記処理すべき画像データの画像フレームにおける全ての領域に対応する、請求項１に記載の動作検出装置。

【請求項5】

前記局所特徴は、人物特徴に基づいて生成された短期特徴及び長期特徴である、請求項１に記載の動作検出装置。

【請求項6】

前記動作認識部は、前記大域特徴と前記局所特徴とを結合して結合特徴を生成し、前記結合特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する、請求項５に記載の動作検出装置。

【請求項7】

前記局所特徴は、人物特徴、対象特徴及び記憶特徴である、請求項１に記載の動作検出装置。

【請求項8】

前記動作認識部は、前記大域特徴及び前記局所特徴に対して融合処理を行って融合特徴を生成し、前記融合特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する、請求項７に記載の動作検出装置。

【請求項9】

請求項１乃至８の何れかに記載の動作検出装置を含む電子機器。

【請求項10】

処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成するステップと、
前記特徴マップに基づいて大域特徴及び局所特徴を生成するステップであって、前記大域特徴は、前記特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である、ステップと、
前記大域特徴及び前記局所特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識するステップと、を含む、動作検出方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、電子情報の技術分野に関し、特に動作検出方法、動作検出装置及び電子機器に関する。

【背景技術】

【0002】

人体の動作の検出は、幅広い分野に適用することができる。例えば、人体の動作の検出は、異常な行動の検出、ヘルスケアなどのシナリオに適用されてもよい。

【0003】

従来技術では、通常の動作検出方法は、処理すべき画像データに基づいて人物又は物体に関連する特徴を抽出することと、該抽出された特徴に基づいて処理すべき画像データにおける人体の動作を認識することとを含む。

【0004】

なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明の発明者の発見によると、通常の動作検出方法には幾つかの制限がある。例えば、処理すべき画像データにおける人物の動作を検出する際に、処理すべき画像データにおける人物又は物体の局所特徴のみを考慮すると、動作検出結果の正確性を確保することは困難である。

【0006】

本発明の実施例は、処理すべき画像データに関連する大域特徴及び局所特徴を利用して人物の動作を検出することで、動作検出の正確性を向上させることができる、動作検出方法、動作検出装置及び電子機器を提供する。

【課題を解決するための手段】

【0007】

本発明の実施例の第１の態様では、処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成する特徴生成部と、前記特徴マップに基づいて大域特徴及び局所特徴を生成する特徴抽出部であって、前記大域特徴は、前記特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である、特徴抽出部と、前記大域特徴及び前記局所特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する動作認識部と、を含む、動作検出装置を提供する。

【0008】

本発明の実施例の第２の態様では、処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成するステップと、前記特徴マップに基づいて大域特徴及び局所特徴を生成するステップであって、前記大域特徴は、前記特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である、ステップと、前記大域特徴及び前記局所特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識するステップと、を含む、動作検出方法を提供する。

【0009】

本発明の実施例の第３の態様では、実施例の第１の態様に記載の動作検出装置を含む電子機器を提供する。

【0010】

本発明の実施例の有利な効果は以下の通りである。処理すべき画像データに関連する大域特徴及び局所特徴を利用して人物の動作を検出することで、動作検出の正確性を向上させることができる。

【0011】

本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の変更、修正、及び均等的なものが含まれる。

【0012】

ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。

【0013】

なお、用語「含む／有する」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。

【図面の簡単な説明】

【0014】

本発明の様々な態様は、以下の図面を参照することにより、よりよく理解することができる。本発明の実施例の図面又は実施形態に説明されている要素及び特徴は、１つ又は複数の他の図面又は実施形態に示す要素及び特徴と組み合わせてもよい。図面において、類似する符号は複数の図面における対応する構成部を表し、複数の態様に用いられる対応構成部を表してもよい。

【図1】本発明の実施例１に係る動作検出装置の１つの概略図である。

【図2】本発明の実施例１に係る処理すべき画像データの１つの概略図である。

【図3】本発明の実施例１に係る動作検出装置のもう１つの概略図である。

【図4】本発明の実施例１に係る動作検出装置のもう１つの概略図である。

【図5】本発明の実施例２に係る動作検出方法の１つの概略図である。

【図6】本発明の実施例３に係る電子機器の１つの構成の概略図である。

【発明を実施するための形態】

【0015】

本発明の上記及びその他の特徴は、図面及び下記の説明により明確になる。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変形されたもの、及び均等なものを含む。

【0016】

本発明の実施例では、用語「第１」、「第２」は異なる要素を名称で区分するためのものであり、これらの要素の空間的配列又は時間的順序などを意味するものではなく、これらの要素はこれらの用語に限定されない。用語「及び／又は」は列挙された用語の１つ又は複数のうち何れか及びその組み合わせを含む。用語「包括」、「含む」、「有する」は説明された特徴、要素、素子又は部材の存在を意味するが、他の１つ又は複数の特徴、要素、素子又は部材の存在又は追加を排除するものではない。

【0017】

本発明の実施例では、単数形の「一」、「該」等は複数形を含み、「一種」又は「一類」を意味し、「１つ」に限定するものではない。また、用語「前記」は、文脈上明確に指示されない限り、単数形及び複数形両方を含む。また、文脈上明確に指示されない限り、用語「応じて」は「少なくとも部分的に応じて」を意味し、用語「に基づいて」は「少なくとも部分的に基づいて」を意味する。

【0018】

＜実施例１＞
本発明の実施例１は動作検出装置を提供する。

【0019】

図１は、本発明の実施例１に係る動作検出装置１の１つの概略図である。図１に示すように、該動作検出装置１は、特徴生成部１１、特徴抽出部１２及び動作認識部１３を含む。

【0020】

ここで、特徴生成部１１は、処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成する。特徴抽出部１２は、該特徴マップに基づいて大域特徴及び局所特徴を生成する。該大域特徴は、該特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である。動作認識部１３は、該大域特徴及び該局所特徴に基づいて該処理すべき画像データにおけるターゲットの動作を認識する。

【0021】

本発明の実施例１によれば、動作検出装置１は、処理すべき画像データの大域特徴及び局所特徴に基づいて人物の動作を検出することで、人物又は物体に関連する局所特徴のみを考慮して人物の動作を検出する技術に比べて、動作検出の正確性を向上させることができる。

【0022】

少なくとも１つの実施例では、処理すべき画像データは、例えば、カメラにより撮影されたビデオにおける特定の画像フレーム又は特定の画像シーケンスであってもよい。なお、本発明はこれに限定されず、処理すべき画像データは他の種類のデータであってもよい。

【0023】

少なくとも１つの実施例では、特徴生成部１１は、処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行ってもよい。例えば、３Ｄ畳み込みニューラルネットワーク符号化を行ってもよいし、２Ｄ畳み込みニューラルネットワーク符号化を行ってもよいが、本発明はこれらに具体的に限定されない。

【0024】

少なくとも１つの実施例では、特徴生成部１１は、畳み込みニューラルネットワークにより符号化された結果に基づいて特徴マップを生成してもよい。ここで、該特徴マップの次元は、Ｃ＊Ｔ＊Ｈ＊Ｗとして表されてもよい。ここで、Ｃはチャネルの数を表し、Ｔは特徴マップの時間的な次元を表し、Ｈ及びＷは特徴マップの空間的な次元を表し、特徴マップの高さ及び幅をそれぞれ表す。ここで、特徴マップに基づいて生成された大域特徴及び局所特徴の次元も上記の方法で表現されてもよい。例えば、大域特徴の次元は、Ｃ１＊Ｔ１＊Ｈ１＊Ｗ１として表されてもよく、局所特徴の次元は、Ｃ２＊Ｔ２＊Ｈ２＊Ｗ２として表されてもよい。ここで、Ｃ１及びＣ２は大域特徴及び局所特徴のチャネルの数をそれぞれ表し、Ｔ１及びＴ２は大域特徴及び局所特徴の時間的な次元をそれぞれ表し、Ｈ１及びＷ１は大域特徴の空間的な次元を表し、大域特徴の高さ及び幅をそれぞれ表し、Ｈ２及びＷ２は局所特徴の空間的な次元を表し、局所特徴の高さ及び幅をそれぞれ表す。

【0025】

少なくとも１つの実施例では、特徴抽出部１２は、演算により特徴マップから大域特徴を抽出してもよい。例えば、特徴抽出部１２は、特徴マップに対して空間次元及び時間次元のプーリングを行うことで、大域特徴を生成してもよい。これによって、非常に少ない計算量で大域特徴を取得することができ、動作検出の速度及び効率を向上させることができる。

【0026】

少なくとも１つの実施例では、特徴抽出部１２は、プーリング方法を使用して、大域特徴を取得してもよい。例えば、特徴抽出部１２は、特徴マップに対して時間次元で平均プーリングを行い、空間次元で最大プーリングを行うことで、大域特徴を生成してもよい。このように取得された大域特徴を使用して動作検出を行うと、動作検出の正確率をさらに向上させることができる。

【0027】

例えば、特徴抽出部１２は、Ｃ＊Ｔ＊Ｈ＊Ｗの次元を有する特徴マップに対して空間次元で最大プーリングを行う際に、特徴マップのＨ＊Ｗ個のデータから最大値を選択し、Ｃ＊Ｔ＊１＊１の次元を有する中間量を取得してもよい。特徴抽出部１２は、該中間量に対して時間次元で平均プーリングを行い、例えば中間量のＴ個のデータの平均値を取得し、Ｃ＊１＊１＊１の次元を有する大域特徴を取得してもよい。なお、本発明はこれに限定されず、他のプーリング方法を使用して大域特徴を生成してもよい。

【0028】

少なくとも１つの実施例では、局所特徴の空間的な次元及び時間的な次元は、大域特徴の空間的な次元及び時間的な次元とそれぞれ同一であってもよい。言い換えれば、Ｔ１＝Ｔ２、Ｈ１＝Ｈ２、Ｗ１＝Ｗ２である。これによって、局所特徴及び大域特徴を使用して動作検出を便利に実行することができると共に、余計な計算量を追加することはない。

【0029】

少なくとも１つの実施例では、局所特徴は、処理すべき画像データの画像フレームにおける一部の領域に対応してもよく、大域特徴は、処理すべき画像データの画像フレームにおける全ての領域に対応してもよい。言い換えれば、局所特徴は、例えば処理すべき画像データの画像フレームにおける人物又は物体に関連する情報を含んでもよく、大域特徴は、処理すべき画像データの画像フレームにおける人物又は物体に関連する情報を含むだけではなく、処理すべき画像データの画像フレームにおける背景を含む情報を含んでもよい。従って、大域特徴及び局所特徴を使用して動作検出を行う際に、処理すべき画像データにおける人物又は物体に関連する情報を考慮するだけではなく、該処理すべき画像データにおける人物又は物体が所在する背景に関連する情報をさらに考慮することで、動作検出の正確率を向上させることができる。

【0030】

図２は、本発明の実施例１に係る処理すべき画像データの１つの概略図である。例えば、図２に示すように、処理すべき画像データは、カメラにより撮影された、泳いでいる男性の画像フレームである。この画像フレームにおいて、画像フレームの人物部分は直立状態の男性Ｍであり、画像フレームの背景部分は水Ｗである。画像フレームにおける人物又は物体に関する情報を含む局所特徴のみを考慮する場合、該画像フレームにおける人物の動作が「立っている」であると誤って認識される可能性がある。しかし、画像フレームの背景情報を含む大域特徴と、画像フレームの人物又は物体の情報を含む局所特徴との両方を考慮する場合、該画像フレームにおける人物の動作が「水泳」であると正しく認識することができる。これによって、動作検出の正確率を向上させることができる。

【0031】

少なくとも１つの実施例では、動作検出装置１は、ＬＦＢ（ｌｏｎｇ－ｔｅｒｍｆｅａｔｕｒｅｂａｎｋｓｆｏｒｄｅｔａｉｌｅｄｖｉｄｅｏｕｎｄｅｒｓｔａｎｄｉｎｇ）アルゴリズムを採用してもよいし、Ａｌｐｈａｃｔｉｏｎ（ＡｓｙｎｃｈｒｏｎｏｕｓＩｎｔｅｒａｃｔｉｏｎＡｇｇｒｅｇａｔｉｏｎｆｏｒＡｃｔｉｏｎＤｅｔｅｃｔｉｏｎ）アルゴリズムを採用してもよい。また、本発明はこれに限定されず、動作検出装置１は、他のアルゴリズムを使用して動作検出を行ってもよい。

【0032】

少なくとも１つの実施例では、動作検出装置１がＬＦＢアルゴリズムを採用する場合、局所特徴は、人物特徴（ｐｅｒｓｏｎｆｅａｔｕｒｅ）に基づいて生成された短期特徴（ｓｈｏｒｔ－ｔｅｒｍｆｅａｔｕｒｅ）及び長期特徴（ｌｏｎｇ－ｔｅｒｍｆｅａｔｕｒｅ）であってもよい。

【0033】

少なくとも１つの実施例では、動作検出装置１がＬＦＢアルゴリズムを採用する場合、動作認識部１３は、大域特徴と局所特徴とを結合して結合特徴を生成し、結合特徴に基づいて処理すべき画像データにおけるターゲットの動作を認識する。

【0034】

以下は、動作検出装置１がＬＦＢアルゴリズムを採用することを一例にして、動作検出装置１の動作を例示的に説明する。図３は、本発明の実施例１に係る動作検出装置１のもう１つの概略図である。図３に示すように、ビデオセグメント１、ビデオセグメント２、…、ビデオセグメントＮ（Ｎは正の整数である）、並びに該ビデオセグメントから抽出されたビデオフレームシーケンス及びキーフレームは、処理すべき画像データである。

【0035】

動作検出装置１の特徴生成部１１は、３Ｄ畳み込みニューラルネットワーク（３ＤｉｍｅｎｓｉｏｎＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ：３ＤＣＮＮ）に基づいて特徴マップを生成してもよい。例えば、特徴生成部１１は、ビデオフレームシーケンスに対して３Ｄ畳み込みニューラルネットワーク符号化を行って特徴マップＦを生成し、ここで、特徴生成部１１の具体的な符号化方法は、関連技術を参照してもよい。

【0036】

特徴抽出部１２は、大域特徴生成ユニット１２１、関心領域プーリング（ＲＯＩＰｏｏｌｉｎｇ）ユニット１２２、高速領域畳み込みニューラルネットワーク（ＦａｓｔｅｒＲＣＮＮ）処理ユニット１２３、短期特徴演算子（Ｓｈｏｒｔ－ＴｅｒｍＦｅａｔｕｒｅＯｐｅｒａｔｏｒ）１２４及び長期特徴バンク（Ｌｏｎｇ－ＴｅｒｍＦｅａｔｕｒｅＢａｎｋ）１２５を含んでもよい。ここで、大域特徴生成ユニット１２１は、特徴生成部１１により出力された特徴マップＦに対して空間次元及び時間次元のプーリングを行い、大域特徴Ｇを生成する。高速領域畳み込みニューラルネットワーク処理ユニット１２３は、キーフレーム内の人物を検出し、人物の範囲を表すバウンディングボックス（ＢｏｕｎｄｉｎｇＢｏｘ）を取得し、関心領域プーリングユニット１２２にバウンディングボックスを入力する。関心領域プーリングユニット１２２は、該バウンディングボックス及び特徴生成部１１により出力された特徴マップＦに基づいて、人物特徴（ＰｅｒｓｏｎＦｅａｔｕｒｅ）を短期特徴Ｓとして生成する。ここで、高速領域畳み込みニューラルネットワーク処理ユニット１２３及び関心領域プーリングユニット１２２の具体的な方法は、関連技術を参照してもよい。

【0037】

短期特徴演算子１２４は、上記の特徴生成部１１、関心領域プーリングユニット１２２、及び高速領域畳み込みニューラルネットワーク処理ユニット１２３を含んでもよい。短期特徴演算子１２４は、複数のビデオセグメントを処理して、短期特徴Ｓを取得し、短期特徴Ｓを長期特徴バンク１２５に入力する。長期特徴バンク１２５は、全てのキーフレーム内の人物特徴（短期特徴Ｓ）を長期特徴Ｌとして記憶する。ここで、短期特徴演算子１２４及び長期特徴バンク１２５の具体的な処理方法は、関連技術を参照してもよい。ここで、大域特徴Ｇ、短期特徴Ｓ及び長期特徴Ｌは、動作認識部１３における結合（Ｃｏｎｃａｔ）ユニット３１１に入力される。

【0038】

動作認識部１３は、結合ユニット３１１及び第１の認識ユニット（Ｃｌａｓｓｉｆｉｅｒ）１３２を含んでもよい。結合ユニット１３１は、入力された大域特徴Ｇ、短期特徴Ｓ及び長期特徴Ｌを結合して、結合特徴Ｙを取得する。ここで、結合操作は、大域特徴Ｇ、短期特徴Ｓ及び長期特徴Ｌをチャネルの次元で結合することであってもよい。例えば、大域特徴Ｇの次元がＣ１＊１＊１＊１であり、短期特徴Ｓの次元がＣ３＊１＊１＊１であり、長期特徴Ｌの次元がＣ４＊１＊１＊１である場合、結合特徴Ｙの次元は（Ｃ１＋Ｃ３＋Ｃ４）＊１＊１＊１であってもよう。なお、本発明はこれに限定されず、他の方法を使用して大域特徴Ｇ、短期特徴Ｓ及び長期特徴Ｌを融合してもよい。

【0039】

また、結合ユニット３１１は、大域特徴Ｇ、短期特徴Ｓ及び長期特徴Ｌを順次に結合してもよい。なお、本発明はこれに限定されず、結合ユニット３１１は、大域特徴Ｇ、短期特徴Ｓ及び長期特徴Ｌを他の順序で結合してもよい。

【0040】

第１の認識ユニット１３２は、入力された結合特徴Ｙに基づいて処理すべき画像における人物の動作を検出する。ここで、第１の認識ユニット１３２は、全結合層を追加することで、結合特徴Ｙの寸法を調整してもよい。これによって、特徴表現を強化することができ、結合特徴Ｙの次元と第１の認識ユニット１３２の処理次元とを一致させることができる。例えば、第１の認識ユニット１３２の処理次元が（Ｃ３＋Ｃ４）＊１＊１＊１であり、結合特徴Ｙの処理次元が（Ｃ１＋Ｃ３＋Ｃ４）＊１＊１＊１である場合、全結合層により結合特徴Ｙの次元を（Ｃ３＋Ｃ４）＊１＊１＊１に低減させてもよい。これによって、第１の認識ユニット１３２は、該調整された結合特徴Ｙを使用して動作認識を行うことができる。なお、第１の認識ユニット１３２の具体的な認識方法は、関連技術を参照してもよい。

【0041】

本発明の実施例１によれば、動作検出装置１がＬＦＢアルゴリズムを採用する場合、大域特徴生成ユニット１２１は、ＬＦＢアルゴリズムの計算過程における中間変数、即ち特徴マップＦを用いて簡単な計算で大域特徴を生成することができるため、非常に少ない計算量で大域特徴を生成することができる。これによって、動作検出の正確率を向上させると共に、動作認識の速度及び効率を確保することができる。

【0042】

少なくとも１つの実施例では、動作検出装置１がＡｌｐｈａｃｔｉｏｎアルゴリズムを採用する場合、局所特徴は、人物特徴（ｐｅｒｓｏｎｆｅａｔｕｒｅ）、対象特徴（ｏｂｊｅｃｔｆｅａｔｕｒｅ）及び記憶特徴（ｍｅｍｏｒｙｆｅａｔｕｒｅ）であってもよい。

【0043】

少なくとも１つの実施例では、動作検出装置１がＡｌｐｈａｃｔｉｏｎアルゴリズムを採用する場合、動作認識部１３は、大域特徴及び前記局所特徴に対して融合処理（ｉｎｔｅｒａｃｔｉｏｎａｇｇｒｅｇａｔｉｏｎ。インタラクションアグリゲーションと称されてもよい）を行って融合特徴を生成し、融合特徴に基づいて処理すべき画像データにおけるターゲットの動作を認識する。

【0044】

以下は、動作検出装置１がＡｌｐｈａｃｔｉｏｎアルゴリズムを採用することを一例にして、動作検出装置１の動作を例示的に説明する。図４は、本発明の実施例１に係る動作検出装置のもう１つの概略図である。図４に示すように、ビデオセグメント１、ビデオセグメント２、…、ビデオセグメントＮ（Ｎは正の整数である）、並びに該ビデオセグメントから抽出されたビデオフレームシーケンス及びキーフレームは、処理すべき画像データである。

【0045】

動作検出装置１の特徴生成部１１は、３Ｄ畳み込みニューラルネットワークに基づいて特徴マップを生成してもよい。例えば、特徴生成部１１は、ビデオフレームシーケンスに対して３Ｄ畳み込みニューラルネットワーク符号化を行って特徴マップＦを生成し、ここで、特徴生成部１１の具体的な符号化方法は、関連技術を参照してもよい。

【0046】

特徴抽出部１２は、大域特徴生成ユニット１２１、人間の検出器（Ｄｅｔｅｃｔｏｒ）１２６、記憶プール（ＭｅｍｏｒｙＰｏｏｌ）ユニット１２７及び関心領域（ＲＯＩ）処理ユニット１２８を含んでもよい。ここで、大域特徴生成ユニット１２１は、特徴生成部１１により出力された特徴マップＦに対して空間次元及び時間次元のプーリングを行い、大域特徴Ｇを生成する。人間の検出器１２６は、キーフレームを処理し、人物の範囲を表すバウンディングボックスを取得し、バウンディングボックスを関心領域処理ユニット１２８に入力する。関心領域処理ユニット１２８は、該バウンディングボックスの位置及び特徴生成部１１により出力された特徴マップＦに基づいて、処理すべき画像における人物に関連する人物特徴Ｐ及び処理すべき画像における物体に関連する対象特徴Ｏを生成する。人間の検出器１２６及び関心領域処理ユニット１２８の処理方法は、関連技術を参照してもよい。

【0047】

なお、本発明はこれに限定されず、他の方法で人物特徴Ｐを抽出してもよい。例えば、まず、該ビデオフレームシーケンスから関心のある人物画像シーケンスを抽出し、例えば、クロップ（ｃｒｏｐ）操作を使用して該人物画像シーケンスを抽出してもよい。次に、抽出された人物画像シーケンスに対してサイズ調整（ｒｅｓｉｚｅ）を行い、例えば、人物画像シーケンスのサイズと該人物画像が抽出されるビデオフレームのサイズとが同一であるように、人物画像シーケンスのサイズを拡大し、サイズ調整後の人物画像シーケンスを特徴生成部１１に入力する。入力された該サイズ調整後の人物画像シーケンスに基づいて特徴生成部１１により生成された特徴は、人物特徴Ｐである。

【0048】

記憶プールユニット１２７は、関心領域処理ユニット１２８により出力された人物特徴Ｐを記憶特徴Ｍとして記憶する。記憶プールユニット１２７の具体的な処理方法は、関連技術を参照してもよい。ここで、大域特徴Ｇ、人物特徴Ｐ、対象特徴Ｏ及び記憶特徴Ｍは、動作認識部１３に入力される。

【0049】

動作認識部１３は、融合（ＰＯＭＧｉｎｔｅｒａｃｔｉｏｎａｇｇｒｅｇａｔｉｏｎ）ユニット１３３及び第２の認識ユニット（Ｃｌａｓｓｉｆｉｅｒ）１３４を含んでもよい。融合ユニット１３３は、入力された大域特徴Ｇ、人物特徴Ｐ、対象特徴Ｏ及び記憶特徴Ｍに対して融合（ｉｎｔｅｒａｃｔｉｏｎａｇｇｒｅｇａｔｉｏｎ）処理を行い、融合特徴Ｘを取得する。ここで、融合ユニット１３３は、Ａｌｐｈａｃｔｉｏｎアルゴリズムにおけるシリアル（ｓｅｒｉａｌ）融合と同様な処理を採用してもよい。例えば、Ａｌｐｈａｃｔｉｏｎアルゴリズムでは、「人物特徴Ｐ－対象特徴Ｏ－記憶特徴Ｍ－人物特徴Ｐ－対象特徴Ｏ－記憶特徴Ｍ」の順序（即ちＰＯＭＰＯＭ）に従って、人物特徴Ｐ、対象特徴Ｏ及び記憶特徴Ｍに対してシリアル融合を行う。同様に、本発明の融合ユニット１３３は、「人物特徴Ｐ－大域特徴Ｇ－記憶特徴Ｍ－人物特徴Ｐ－対象特徴Ｏ－記憶特徴Ｍの順序（即ち、ＰＧＭＰＯＭ）に従って、人物特徴Ｐ、大域特徴Ｇ、対象特徴Ｏ及び記憶特徴Ｍに対して融合処理を行ってもよい。具体的には、まず、人物特徴Ｐと大域特徴Ｇとを融合し、次に全体として記憶特徴Ｍと融合し、次に人物特徴Ｐ、対象特徴Ｏ及び記憶特徴Ｍと順次に融合し、最後に融合特徴Ｘを取得する。ＰＧＭＰＯＭの順序に従って人物特徴Ｐ、大域特徴Ｇ、対象特徴Ｏ及び記憶特徴Ｍを融合して融合特徴Ｘを取得することで、動作検出の正確率をさらに向上させることができる。

【0050】

ここで、融合処理の具体的な方法は、非局所的な（Ｎｏｎ－ｌｏｃａｌ）操作であってもよい。このようなアテンション操作メカニズムは、対象特徴Ｏ、大域特徴Ｇ及び記憶特徴Ｍにおける人物特徴Ｐを強化する部分を抽出して、人物特徴Ｐに融合することができる。

【0051】

また、本発明はこれに限定されず、融合処理の具体的な方法は、他の方法であってもよい。例えば、まずチャネルを追加し、次に全結合処理を行ってもよい。

【0052】

第２の認識ユニット１３４は、入力された融合特徴Ｘに基づいて処理すべき画像における人物の動作を検出する。ここで、第２の認識ユニット１３４の具体的な認識方法は、関連技術を参照してもよい。

【0053】

本発明の実施例１によれば、動作検出装置１がＡｌｐｈａｃｔｉｏｎアルゴリズムを採用する場合、大域特徴生成ユニット１２１は、Ａｌｐｈａｃｔｉｏｎアルゴリズムの計算過程における中間変数、即ち特徴マップＦを用いて簡単な計算で大域特徴を生成することができるため、非常に少ない計算量で大域特徴を生成することができる。これによって、動作検出の正確率を向上させると共に、動作認識の速度及び効率を確保することができる。

【0054】

なお、動作検出装置１は、必ずしも図１及び図３～図４に示される全てのユニットを含む必要がない。また、動作検出装置１は、図１及び図３～図４に示されない構成要素をさらに含んでもよく、関連技術を参照してもよい。

【0055】

【0056】

＜実施例２＞
本発明の実施例２は、本発明の実施例１の動作検出装置に対応する動作検出方法を提供する。

【0057】

図５は、本発明の実施例２に係る動作検出方法の１つの概略図である。図５に示すように、該方法は、以下のステップを含む。

【0058】

ステップ４０１：処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成する。

【0059】

ステップ４０２：特徴マップに基づいて大域特徴及び局所特徴を生成する。ここで、大域特徴は、特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である。

【0060】

ステップ４０３：大域特徴及び局所特徴に基づいて処理すべき画像データにおけるターゲットの動作を認識する。

【0061】

ここで、ステップ４０１は、例えば本発明の実施例１に係る動作検出装置１の特徴生成部１１により実現され、ステップ４０２は、例えば特徴抽出部１２により実現され、ステップ４０３は、例えば動作認識部１３により実現される。

【0062】

少なくとも１つの実施例では、特徴マップに対して時間次元で平均プーリングを行い、空間次元で最大プーリングを行うことで、大域特徴を生成してもよい。

【0063】

少なくとも１つの実施例では、局所特徴の空間的な次元及び時間的な次元は、大域特徴の空間的な次元及び時間的な次元とそれぞれ同一であってもよい。

【0064】

少なくとも１つの実施例では、局所特徴は、処理すべき画像データの画像フレームにおける一部の領域に対応してもよく、大域特徴は、処理すべき画像データの画像フレームにおける全ての領域に対応してもよい。

【0065】

少なくとも１つの実施例では、局所特徴は、人物特徴（ｐｅｒｓｏｎｆｅａｔｕｒｅ）に基づいて生成された短期特徴（ｓｈｏｒｔ－ｔｅｒｍｆｅａｔｕｒｅ）及び長期特徴（ｌｏｎｇ－ｔｅｒｍｆｅａｔｕｒｅ）であってもよい。

【0066】

少なくとも１つの実施例では、ステップ４０３において、大域特徴と局所特徴とを結合（ｃｏｎｃａｔ）して結合特徴を生成し、結合特徴に基づいて処理すべき画像データにおけるターゲットの動作を認識してもよい。

【0067】

少なくとも１つの実施例では、局所特徴は、人物特徴（ｐｅｒｓｏｎｆｅａｔｕｒｅ）、対象特徴（ｏｂｊｅｃｔｆｅａｔｕｒｅ）及び記憶特徴（ｍｅｍｏｒｙｆｅａｔｕｒｅ）であってもよい。

【0068】

少なくとも１つの実施例では、ステップ４０３において、大域特徴及び局所特徴に対して融合処理（ｉｎｔｅｒａｃｔｉｏｎａｇｇｒｅｇａｔｉｏｎ）を行って融合特徴を生成し、融合特徴に基づいて処理すべき画像データにおけるターゲットの動作を認識してもよい。

【0069】

本発明の実施例２によれば、動作検出方法は、処理すべき画像データの大域特徴及び局所特徴に基づいて人物の動作を検出することで、人物又は物体に関連する局所特徴のみを考慮して人物の動作を検出する技術に比べて、動作検出の正確性を向上させることができる。

【0070】

＜実施例３＞
本発明の実施例３は、電子機器を提供する。該電子機器は、実施例１に記載された動作検出装置を含む。

【0071】

図６は、本発明の実施例３に係る電子機器の１つの構成の概略図である。図６に示すように、本発明の実施例に係る電子機器５００は、中央処理装置（ＣＰＵ）５０１、及びメモリ５０２を含んでもよい。メモリ５０２は、中央処理装置５０１に接続される。メモリ５０２は、様々なデータを記憶してもよく、制御のためのプログラムをさらに記憶してもよい。中央処理装置５０１の制御により該プログラムを実行する。

【0072】

１つの態様では、動作検出装置１の機能は中央処理装置５０１に統合されてもよい。

【0073】

ここで、中央処理装置５０１は、実施例２に記載された動作検出方法を実現するように構成されてもよい。

【0074】

また、図６に示すように、電子機器５００は、入力出力ユニット５０３及び表示ユニット５０４等をさらに含んでもよい。ここで、上記の構成要素の機能は、関連技術と同様であり、ここでその説明を省略する。なお、電子機器５００は、必ずしも図６に示される全ての構成要素を含む必要がない。また、電子機器５００は、図６に示されない構成要素をさらに含んでもよく、関連技術を参照してもよい。

【0075】

本発明の実施例は、動作検出装置又は電子機器においてプログラムを実行する際に、該動作検出装置又は電子機器に実施例２に記載の動作検出方法を実行させる、コンピュータ読み取り可能なプログラムを提供する。

【0076】

本発明の実施例は、動作検出装置又は電子機器に実施例２に記載の動作検出方法を実行させるためのコンピュータ読み取り可能なプログラムが記憶されている、記憶媒体をさらに提供する。

【0077】

本発明の実施例を参照しながら説明した方法／装置は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、図面に示す機能的ブロック図における１つ若しくは複数、又は機能的ブロック図の１つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、図面に示す各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。

【0078】

ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、モバイルハードディスク、ＣＤ－ＲＯＭ又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込むように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はＡＳＩＣに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、機器（例えば移動端末）が比較的に大きい容量のＭＥＧＡ－ＳＩＭカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該ＭＥＧＡ－ＳＩＭカード又は大容量のフラッシュメモリ装置に記憶されてもよい。

【0079】

図面に記載されている一つ以上の機能ブロック及び／又は機能ブロックの一つ以上の組合せは、本発明に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）又は他のプログラマブル論理デバイス、ディスクリートゲート又はトランジスタ論理装置、ディスクリートハードウェアコンポーネント、又はそれらの任意の適切な組み合わせで実現されてもよい。図面に記載されている一つ以上の機能ブロック及び／又は機能ブロックの一つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、ＤＳＰ通信と組み合わせた１つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。

【0080】

以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び変更を行ってもよく、これらの変形及び変更も本発明の範囲に属する。

【0081】

また、上述の実施例を含む実施形態に関し、更に以下の付記を開示する。
（付記１）
処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成する特徴生成部と、
前記特徴マップに基づいて大域特徴及び局所特徴を生成する特徴抽出部であって、前記大域特徴は、前記特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である、特徴抽出部と、
前記大域特徴及び前記局所特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する動作認識部と、を含む、動作検出装置。
（付記２）
前記特徴抽出部は、前記特徴マップに対して時間次元で平均プーリングを行い、空間次元で最大プーリングを行うことで、前記大域特徴を生成する、付記１に記載の動作検出装置。
（付記３）
前記局所特徴の空間的な次元及び時間的な次元は、前記大域特徴の空間的な次元及び時間的な次元とそれぞれ同一である、付記１に記載の動作検出装置。
（付記４）
前記局所特徴は、前記処理すべき画像データの画像フレームにおける一部の領域に対応し、
前記大域特徴は、前記処理すべき画像データの画像フレームにおける全ての領域に対応する、付記１に記載の動作検出装置。
（付記５）
前記局所特徴は、人物特徴（ｐｅｒｓｏｎｆｅａｔｕｒｅ）に基づいて生成された短期特徴（ｓｈｏｒｔ－ｔｅｒｍｆｅａｔｕｒｅ）及び長期特徴（ｌｏｎｇ－ｔｅｒｍｆｅａｔｕｒｅ）である、付記１に記載の動作検出装置。
（付記６）
前記動作認識部は、前記大域特徴と前記局所特徴とを結合（ｃｏｎｃａｔ）して結合特徴を生成し、前記結合特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する、付記５に記載の動作検出装置。
（付記７）
前記局所特徴は、人物特徴（ｐｅｒｓｏｎｆｅａｔｕｒｅ）、対象特徴（ｏｂｊｅｃｔｆｅａｔｕｒｅ）及び記憶特徴（ｍｅｍｏｒｙｆｅａｔｕｒｅ）である、付記１に記載の動作検出装置。
（付記８）
前記動作認識部は、前記大域特徴及び前記局所特徴に対して融合処理（ｉｎｔｅｒａｃｔｉｏｎａｇｇｒｅｇａｔｉｏｎ）を行って融合特徴を生成し、前記融合特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する、付記７に記載の動作検出装置。
（付記９）
前記動作認識部は、人物特徴－大域特徴－記憶特徴－人物特徴－対象特徴－記憶特徴の順に大域特徴、人物特徴、対象特徴及び記憶特徴に対して融合処理を行い、融合特徴を生成する、付記８に記載の動作検出装置。
（付記１０）
付記１乃至９の何れかに記載の動作検出装置を含む電子機器。
（付記１１）
処理すべき画像データに対して畳み込みニューラルネットワーク符号化を行い、特徴マップを生成するステップと、
前記特徴マップに基づいて大域特徴及び局所特徴を生成するステップであって、前記大域特徴は、前記特徴マップに対して空間次元及び時間次元のプーリングを行うことによって得られた特徴である、ステップと、
前記大域特徴及び前記局所特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識するステップと、を含む、動作検出方法。
（付記１２）
前記特徴抽出部は、前記特徴マップに対して時間次元で平均プーリングを行い、空間次元で最大プーリングを行うことで、前記大域特徴を生成する、付記１１に記載の動作検出方法。
（付記１３）
前記局所特徴の空間的な次元及び時間的な次元は、前記大域特徴の空間的な次元及び時間的な次元とそれぞれ同一である、付記１１に記載の動作検出方法。
（付記１４）
前記局所特徴は、前記処理すべき画像データの画像フレームにおける一部の領域に対応し、
前記大域特徴は、前記処理すべき画像データの画像フレームにおける全ての領域に対応する、付記１１に記載の動作検出方法。
（付記１５）
前記局所特徴は、人物特徴（ｐｅｒｓｏｎｆｅａｔｕｒｅ）に基づいて生成された短期特徴（ｓｈｏｒｔ－ｔｅｒｍｆｅａｔｕｒｅ）及び長期特徴（ｌｏｎｇ－ｔｅｒｍｆｅａｔｕｒｅ）である、付記１１に記載の動作検出方法。
（付記１６）
前記動作認識部は、前記大域特徴と前記局所特徴とを結合（ｃｏｎｃａｔ）して結合特徴を生成し、前記結合特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する、付記１５に記載の動作検出方法。
（付記１７）
前記局所特徴は、人物特徴（ｐｅｒｓｏｎｆｅａｔｕｒｅ）、対象特徴（ｏｂｊｅｃｔｆｅａｔｕｒｅ）及び記憶特徴（ｍｅｍｏｒｙｆｅａｔｕｒｅ）である、付記１１に記載の動作検出方法。
（付記１８）
前記動作認識部は、前記大域特徴及び前記局所特徴に対して融合処理（ｉｎｔｅｒａｃｔｉｏｎａｇｇｒｅｇａｔｉｏｎ）を行って融合特徴を生成し、前記融合特徴に基づいて前記処理すべき画像データにおけるターゲットの動作を認識する、付記１７に記載の動作検出方法。
（付記１９）
前記動作認識部は、人物特徴－大域特徴－記憶特徴－人物特徴－対象特徴－記憶特徴の順に大域特徴、人物特徴、対象特徴及び記憶特徴に対して融合処理を行い、融合特徴を生成する、付記１８に記載の動作検出方法。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版