IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京市商▲湯▼科技▲開▼▲發▼有限公司の特許一覧

特表2022-543032動作認識方法、動作認識装置、コンピュータ可読記憶媒体、電子機器及びコンピュータプログラム製品
<>
  • 特表-動作認識方法、動作認識装置、コンピュータ可読記憶媒体、電子機器及びコンピュータプログラム製品 図1
  • 特表-動作認識方法、動作認識装置、コンピュータ可読記憶媒体、電子機器及びコンピュータプログラム製品 図2
  • 特表-動作認識方法、動作認識装置、コンピュータ可読記憶媒体、電子機器及びコンピュータプログラム製品 図3
  • 特表-動作認識方法、動作認識装置、コンピュータ可読記憶媒体、電子機器及びコンピュータプログラム製品 図4
  • 特表-動作認識方法、動作認識装置、コンピュータ可読記憶媒体、電子機器及びコンピュータプログラム製品 図5
  • 特表-動作認識方法、動作認識装置、コンピュータ可読記憶媒体、電子機器及びコンピュータプログラム製品 図6
  • 特表-動作認識方法、動作認識装置、コンピュータ可読記憶媒体、電子機器及びコンピュータプログラム製品 図7
  • 特表-動作認識方法、動作認識装置、コンピュータ可読記憶媒体、電子機器及びコンピュータプログラム製品 図8
  • 特表-動作認識方法、動作認識装置、コンピュータ可読記憶媒体、電子機器及びコンピュータプログラム製品 図9
  • 特表-動作認識方法、動作認識装置、コンピュータ可読記憶媒体、電子機器及びコンピュータプログラム製品 図10
  • 特表-動作認識方法、動作認識装置、コンピュータ可読記憶媒体、電子機器及びコンピュータプログラム製品 図11
  • 特表-動作認識方法、動作認識装置、コンピュータ可読記憶媒体、電子機器及びコンピュータプログラム製品 図12
  • 特表-動作認識方法、動作認識装置、コンピュータ可読記憶媒体、電子機器及びコンピュータプログラム製品 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-10-07
(54)【発明の名称】動作認識方法、動作認識装置、コンピュータ可読記憶媒体、電子機器及びコンピュータプログラム製品
(51)【国際特許分類】
   G06T 7/20 20170101AFI20220930BHJP
   G06T 7/00 20170101ALI20220930BHJP
   G06T 7/70 20170101ALI20220930BHJP
【FI】
G06T7/20 300Z
G06T7/00 660B
G06T7/00 660A
G06T7/70 A
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022506372
(86)(22)【出願日】2021-03-18
(85)【翻訳文提出日】2022-01-31
(86)【国際出願番号】 CN2021081556
(87)【国際公開番号】W WO2021185317
(87)【国際公開日】2021-09-23
(31)【優先権主張番号】202010196461.6
(32)【優先日】2020-03-19
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】520291939
【氏名又は名称】北京市商▲湯▼科技▲開▼▲發▼有限公司
【氏名又は名称原語表記】BEIJING SENSETIME TECHNOLOGY DEVELOPMENT CO.,LTD.
【住所又は居所原語表記】Room 1101-1117,11th Floor No.58 Northwest 4th Ring Road, Haidian District Beijing 100080 China
(74)【代理人】
【識別番号】110002468
【氏名又は名称】特許業務法人後藤特許事務所
(72)【発明者】
【氏名】王 飛
(72)【発明者】
【氏名】王 利鳴
(72)【発明者】
【氏名】銭 晨
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096EA13
5L096FA62
5L096FA64
5L096FA66
5L096FA69
5L096GA34
5L096HA11
5L096KA04
(57)【要約】
本発明は、動作認識方法及び装置、記憶媒体を提供する。前記方法は、シーン画像を取得するステップと、前記シーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行い、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定するステップと、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
シーン画像を取得するステップと、
前記シーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行い、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定するステップと、を含むことを特徴とする動作認識方法。
【請求項2】
前記オブジェクトは、人物を含み、前記オブジェクトの異なる部位は、人物の人顔及び人体を含み、
前記シーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行い、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定するステップは、
前記シーン画像に対して特徴抽出を行って特徴マップを取得することと、
前記特徴マップにおける少なくとも1つの人顔位置と少なくとも1つの人体位置とを特定することと、
前記少なくとも1つの人顔位置及び/又は前記少なくとも1つの人体位置に基づいて、シーン画像に含まれる少なくとも1人の人物を特定することと、
同一人物に属する前記人顔位置と前記人体位置とを関連付けさせることと、
関連付けられた前記人顔位置と前記人体位置とに基づいて、前記少なくとも1人の人物のうちの各人物の前記目標動作タイプを特定することと、を含むことを特徴とする請求項1に記載の動作認識方法。
【請求項3】
前記同一人物に属する前記人顔位置と前記人体位置とを関連付けさせることは、
少なくとも1人の人物のうちの各人物ごとに、
当該人物の人顔位置に対応する参照人体位置を特定し、
前記参照人体位置と前記少なくとも1つの人体位置とに基づいて、前記同一人物に属する前記人顔位置と前記人体位置とを関連付けさせることを含むことを特徴とする請求項2に記載の動作認識方法。
【請求項4】
当該人物の人顔位置に対応する参照人体位置を特定することは、
当該人物の人顔位置の前記特徴マップにおける第1座標値を特定することと、
所定ベクトル及び前記第1座標値に基づいて第2座標値を特定することと、
前記第2座標値を前記参照人体位置とすることと、を含み、
前記所定ベクトルは、人顔の所在する位置から人体の所在する位置へ指すベクトルであることを特徴とする請求項3に記載の動作認識方法。
【請求項5】
前記参照人体位置と前記少なくとも1つの人体位置とに基づいて、前記同一人物に属する前記人顔位置と前記人体位置とを関連付けさせることは、
前記参照人体位置との距離の最も小さい前記人体位置と当該参照人体位置に対応する前記人顔位置とを関連付けさせることを含むことを特徴とする請求項3又は4に記載の動作認識方法。
【請求項6】
前記関連付けられた前記人顔位置と前記人体位置とに基づいて、前記シーン画像の前記少なくとも1人の人物のうちの各人物の前記目標動作タイプを特定することは、
少なくとも1人の人物のうちの各人物ごとに、
当該人物に関連付けられた前記人顔位置及び前記人体位置に基づいて、複数の特徴ベクトルを特定し、
前記複数の特徴ベクトルに基づいて、当該人物の前記目標動作タイプを特定することを含むことを特徴とする請求項2から5の何れか一項に記載の動作認識方法。
【請求項7】
当該人物に関連付けられた前記人顔位置及び前記人体位置に基づいて、複数の特徴ベクトルを特定することは、
少なくとも1つの所定動作タイプにそれぞれ対応する、前記人顔位置から関連付けられた前記人体位置へ指す複数の特徴ベクトルを特定することを含むことを特徴とする請求項6に記載の動作認識方法。
【請求項8】
前記複数の特徴ベクトルに基づいて、当該人物の前記目標動作タイプを特定することは、
当該人物に対応する複数の特徴ベクトルのそれぞれに対して正規化を行い、各特徴ベクトルの正規化値を取得することと、
最大正規化値に対応する特徴ベクトルを当該人物の目標特徴ベクトルとすることと、
前記目標特徴ベクトルに対応する動作タイプを当該人物の前記目標動作タイプとすることと、を含むことを特徴とする請求項6又は7に記載の動作認識方法。
【請求項9】
前記シーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行い、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定するステップは、
オブジェクト検出モデルを介して前記シーン画像において各オブジェクトの各部位の目標位置を特定した後、同一オブジェクトに属する異なる部位の前記目標位置を関連付けさせることと、
前記オブジェクト検出モデルを介して、関連付けられた異なる部位の前記目標位置に基づいて、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定することと、を含むことを特徴とする請求項1から8の何れか一項に記載の動作認識方法。
【請求項10】
前記オブジェクト検出モデルは、
サンプル画像セットにおけるラベルタイプを特定するステップと、
前記サンプル画像セットを用いて所定モデルにおける前記ラベルタイプに対応するブランチをそれぞれトレーニングし、前記オブジェクト検出モデルを取得するステップと、によってトレーニングされたものであり、
前記ラベルタイプは、人顔位置ラベル、人体位置ラベル、人顔位置と人体位置の間の関連関係ラベル、人体位置と動作タイプの間の動作認識ラベルのうちの少なくとも1種を含むことを特徴とする請求項9に記載の動作認識方法。
【請求項11】
前記オブジェクト検出モデルは、少なくとも位置特定ブランチ、関連付けブランチ及び動作認識ブランチを含み、
前記位置特定ブランチは、前記各人物の人顔位置と前記各人物の人体位置とを特定し、
前記関連付けブランチは、同一人物に属する前記人顔位置と前記人体位置とを関連付けさせ、
前記動作認識ブランチは、関連付けられた前記人顔位置と前記人体位置とに基づいて、前記シーン画像に含まれる少なくとも1人の人物と少なくとも1人の人物のうちの各人物に対応する目標動作タイプとを特定することを特徴とする請求項10に記載の動作認識方法。
【請求項12】
前記各オブジェクトによって所定時間帯内で行われた動作であって前記目標動作タイプにマッチングする動作の累積検出結果を特定するステップを更に含むことを特徴とする請求項1から11の何れか一項に記載の動作認識方法。
【請求項13】
前記シーン画像は、教室で収集されたシーン画像を含み、前記オブジェクトは、ティーチングオブジェクトを含み、前記目標動作タイプは、ティーチングタスクのうちの少なくとも1つの動作タイプを含むことを特徴とする請求項12に記載の動作認識方法。
【請求項14】
シーン画像を取得するための画像取得モジュールと、
前記シーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行い、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定するための動作認識モジュールと、を備えることを特徴とする動作認識装置。
【請求項15】
コンピュータ可読記憶媒体であって、
前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムは、請求項1から13の何れか一項に記載の動作認識方法を実行するために用いられることを特徴とするコンピュータ可読記憶媒体。
【請求項16】
動作認識装置であって、
プロセッサと、
前記プロセッサで実行され得る実行可能指令を記憶するためのメモリと、を備え、
前記プロセッサは、前記メモリに記憶された実行可能指令を呼び出すことで請求項1から13の何れか一項に記載の動作認識方法を実施するように構成されることを特徴とする動作認識装置。
【請求項17】
コンピュータプログラム製品であって、
前記コンピュータプログラム製品は、コンピュータ可読コードを含み、コンピュータ可読コードが機器で運転されたときに、機器におけるプロセッサは、請求項1から13の何れか一項に記載の動作認識方法を実施することを特徴とするコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータビジョン分野に関し、特に動作認識方法及び装置、記憶媒体に関する。
【背景技術】
【0002】
現在、コンピュータビジョン技術によってオブジェクト動作を分析する需要は、ますます強くなってきている。動作タイプ認識を行う過程に、オブジェクト検出によってオブジェクト位置を取得してから、オブジェクト位置に応じて各オブジェクトを切り出して動作分類ネットワークに入力して動作認識結果を取得する必要がある。上記動作認識の処理時間は、シーンにおけるオブジェクトの数に対して線形相関を示す。例えば、シーンにN個のオブジェクトが含まれ、ここでのNが正整数であってもよい場合に、動作分類ネットワークは、N回の推論を行う必要があり、動作認識の時間は、N倍増加する。Nの値が大きいほど、動作認識の時間は、長くなる。そのため、機器の高い演算能力が要求されるとともに、時間もかかった。
【発明の概要】
【0003】
本発明は、動作認識方法及び装置、記憶媒体を提供する。
【0004】
本発明の実施例の第1態様は、動作認識方法を提供する。前記方法は、シーン画像を取得するステップと、前記シーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行い、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプとを特定するステップと、を含む。
【0005】
幾つかの選択可能な実施例において、前記オブジェクトは、人物を含み、前記オブジェクトの異なる部位は、人物の人顔及び人体を含み、前記シーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行い、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定するステップは、前記シーン画像に対して特徴抽出を行って特徴マップを取得することと、前記特徴マップにおける少なくとも1つの人顔位置と少なくとも1つの人体位置とを特定することと、前記少なくとも1つの人顔位置及び/又は前記少なくとも1つの人体位置に基づいて、シーン画像に含まれる少なくとも1人の人物を特定することと、同一人物に属する前記人顔位置と前記人体位置とを関連付けさせることと、関連付けられた前記人顔位置と前記人体位置とに基づいて、前記少なくとも1人の人物のうちの各人物の前記目標動作タイプを特定することと、を含む。
【0006】
幾つかの選択可能な実施例において、前記同一人物に属する前記人顔位置と前記人体位置とを関連付けさせることは、少なくとも1人の人物のうちの各人物ごとに、当該人物の人顔位置に対応する参照人体位置を特定することと、前記参照人体位置と前記少なくとも1つの人体位置とに基づいて、前記同一人物に属する前記人顔位置と前記人体位置とを関連付けさせることと、を含む。
【0007】
幾つかの選択可能な実施例において、各人顔位置に対応する参照人体位置を特定することは、当該人物の人顔位置の前記特徴マップにおける第1座標値を特定することと、所定ベクトル及び前記第1座標値に基づいて第2座標値を特定することと、前記第2座標値を前記参照人体位置とすることと、を含み、前記所定ベクトルは、人顔の所在する位置から人体の所在する位置へ指すベクトルである。
【0008】
幾つかの選択可能な実施例において、前記参照人体位置と前記少なくとも1つの人体位置とに基づいて、前記同一人物に属する前記人顔位置と前記人体位置とを関連付けさせることは、前記参照人体位置との距離の最も小さい前記人体位置と当該参照人体位置に対応する前記人顔位置とを関連付けさせることを含む。
【0009】
幾つかの選択可能な実施例において、前記関連付けられた前記人顔位置と前記人体位置とに基づいて、前記シーン画像に含まれる少なくとも1人の人物と前記少なくとも1人の人物のうちの各人物の前記目標動作タイプとを特定することは、少なくとも1人の人物のうちの各人物ごとに、当該人物に関連付けられた前記人顔位置及び前記人体位置に基づいて、複数の特徴ベクトルを特定することと、前記複数の特徴ベクトルに基づいて、当該人物の前記目標動作タイプを特定することと、を含む。
【0010】
幾つかの選択可能な実施例において、当該人物に関連付けられた前記人顔位置及び前記人体位置に基づいて、複数の特徴ベクトルを特定することは、少なくとも1つの所定動作タイプにそれぞれ対応する、前記人顔位置から関連付けられた前記人体位置へ指す複数の特徴ベクトルを特定することを含む。
【0011】
幾つかの選択可能な実施例において、前記複数の特徴ベクトルに基づいて、前記少なくとも1人の人物のうちの各人物の前記目標動作タイプを特定することは、当該人物に対応する複数の特徴ベクトルのそれぞれに対して正規化を行い、各特徴ベクトルの正規化値を取得することと、最大正規化値に対応する特徴ベクトルを当該人物の目標特徴ベクトルとすることと、前記目標特徴ベクトルに対応する動作タイプを当該人物の前記目標動作タイプとすることと、を含む。
【0012】
幾つかの選択可能な実施例において、前記シーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行い、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定するステップは、オブジェクト検出モデルを介して前記シーン画像において各オブジェクトの各部位の目標位置を特定した後、同一オブジェクトに属する異なる部位の前記目標位置を関連付けさせることと、前記オブジェクト検出モデルを介して、関連付けられた異なる部位の前記目標位置に基づいて、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定することと、を含む。
【0013】
幾つかの選択可能な実施例において、前記オブジェクト検出モデルは、サンプル画像セットにおけるラベルタイプを特定するステップと、前記サンプル画像セットを用いて所定モデルにおける前記ラベルタイプに対応するブランチをそれぞれトレーニングし、前記オブジェクト検出モデルを取得するステップと、によってトレーニングされたものであり、前記ラベルタイプは、人顔位置ラベル、人体位置ラベル、人顔位置と人体位置の間の関連関係ラベル、人体位置と動作タイプの間の動作認識ラベルのうちの少なくとも1種を含む。
【0014】
幾つかの選択可能な実施例において、オブジェクト検出モデルは、少なくとも位置特定ブランチ、関連付けブランチ及び動作認識ブランチを含み、前記位置特定ブランチは、前記各人物の人顔位置と前記各人物の人体位置とを特定し、前記関連付けブランチは、同一人物に属する前記人顔位置と前記人体位置とを関連付けさせ、前記動作認識ブランチは、関連付けられた前記人顔位置と前記人体位置とに基づいて、当該シーン画像に含まれる少なくとも1人の人物と少なくとも1人の人物のうちの各人物に対応する目標動作タイプとを特定する。
【0015】
幾つかの選択可能な実施例において、前記方法は、前記各オブジェクトによって所定時間帯内で行われた動作であって、前記目標動作タイプにマッチングする動作の累積検出結果を特定するステップを更に含む。
【0016】
幾つかの選択可能な実施例において、前記シーン画像は、教室で収集されたシーン画像を含み、前記オブジェクトは、ティーチングオブジェクトを含み、前記目標動作タイプは、ティーチングタスクのうちの少なくとも1つの動作タイプを含む。
【0017】
本発明の実施例の第2態様は、動作認識装置を提供する。前記装置は、シーン画像を取得するための画像取得モジュールと、前記シーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行い、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプとを特定するための動作認識モジュールと、を備える。
【0018】
幾つかの選択可能な実施例において、前記オブジェクトは、人物を含み、前記オブジェクトの異なる部位は、人物の人顔及び人体を含み、前記動作認識モジュールは、前記シーン画像に対して特徴抽出を行って特徴マップを取得するための特徴抽出モジュールと、前記特徴マップにおける少なくとも1つの人顔位置と少なくとも1つの人体位置とを特定するための第1特定サブモジュールと、前記少なくとも1つの人顔位置及び/又は前記少なくとも1つの人体位置に基づいて、シーン画像に含まれる少なくとも1人の人物を特定するための第2特定サブモジュールと、同一人物に属する前記人顔位置と前記人体位置とを関連付けさせるための関連付けサブモジュールと、関連付けられた前記人顔位置と前記人体位置とに基づいて、前記少なくとも1人の人物のうちの各人物の前記目標動作タイプを特定するための第3特定サブモジュールと、を備える。
【0019】
幾つかの選択可能な実施例において、前記関連付けサブモジュールは、少なくとも1人の人物のうちの各人物ごとに、当該人物の人顔位置に対応する参照人体位置を特定するための第1特定手段と、前記参照人体位置と前記少なくとも1つの人体位置とに基づいて、前記同一人物に属する前記人顔位置と前記人体位置とを関連付けさせるための関連付け手段と、を備える。
【0020】
幾つかの選択可能な実施例において、前記第1特定手段は、前記シーン画像において当該人物の人顔位置の前記特徴マップにおける第1座標値を特定することと、所定ベクトル及び前記第1座標値に基づいて第2座標値をそれぞれ特定することと、前記第2座標値を前記参照人体位置とすることと、を実行し、前記所定ベクトルは、人顔の所在する位置から人体の所在する位置へ指すベクトルである。
【0021】
幾つかの選択可能な実施例において、前記関連付け手段は、前記参照人体位置との距離の最も小さい前記人体位置と当該参照人体位置に対応する前記人顔位置とを関連付けさせる。
【0022】
幾つかの選択可能な実施例において、前記第2特定サブモジュールは、少なくとも1人の人物のうちの各人物ごとに、当該人物に関連付けられた前記人顔位置及び前記人体位置に基づいて、複数の特徴ベクトルを特定するための第2特定手段と、前記複数の特徴ベクトルに基づいて、前記少なくとも1人の人物のうちの各人物の前記目標動作タイプを特定するための第3特定手段と、を備える。
【0023】
幾つかの選択可能な実施例において、前記第2特定手段は、少なくとも1つの所定動作タイプにそれぞれ対応する、前記人顔位置から関連付けられた前記人体位置へ指す複数の特徴ベクトルを特定する。
【0024】
幾つかの選択可能な実施例において、前記第3特定手段は、当該人物に対応する複数の特徴ベクトルのそれぞれに対して正規化を行い、各特徴ベクトルの正規化値を取得することと、最大正規化値に対応する特徴ベクトルを当該人物の目標特徴ベクトルとすることと、前記目標特徴ベクトルに対応する動作タイプを当該人物の前記目標動作タイプとすることとを実行する。
【0025】
幾つかの選択可能な実施例において、前記動作認識モジュールは、オブジェクト検出モデルを介して前記シーン画像において各オブジェクトの各部位の目標位置を特定した後、同一オブジェクトに属する異なる部位の前記目標位置を関連付けさせるための第2関連付けサブモジュールと、前記オブジェクト検出モデルを介して、関連付けられた異なる部位の前記目標位置に基づいて、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定するための第3特定サブモジュールと、を備える。
【0026】
幾つかの選択可能な実施例において、前記装置は、サンプル画像セットにおけるラベルタイプを特定するためのラベルタイプ特定モジュールと、前記サンプル画像セットを用いて所定モデルにおける前記ラベルタイプに対応するブランチをそれぞれトレーニングし、前記オブジェクト検出モデルを取得するためのトレーニングモジュールと、を更に備える。前記ラベルタイプは、人顔位置ラベル、人体位置ラベル、人顔位置と人体位置の間の関連関係ラベル、人体位置と動作タイプの間の動作認識ラベルのうちの少なくとも1種を含む。
【0027】
幾つかの選択可能な実施例において、前記装置は、前記各オブジェクトによって所定時間帯内で行われた動作であって、前記目標動作タイプにマッチングする動作の累積検出結果を特定するためのマッチング特定モジュールを更に備える。
【0028】
幾つかの選択可能な実施例において、前記シーン画像は、教室で収集されたシーン画像を含み、前記オブジェクトは、ティーチングオブジェクトを含み、前記目標動作タイプは、ティーチングタスクのうちの少なくとも1つの動作タイプを含む。
【0029】
本発明の実施例の第3態様は、コンピュータ可読記憶媒体を提供する。前記記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムは、第1態様の何れか一項に記載の動作認識方法を実行するために用いられる。
【0030】
本発明の実施例の第4態様は、動作認識装置を提供する。当該動作認識装置は、プロセッサと、前記プロセッサで実行され得る実行可能指令を記憶するためのメモリと、を備え、前記プロセッサは、前記メモリに記憶された実行可能指令を呼び出すことで第1態様の何れか一項に記載の動作認識方法を実施するように構成される。
【発明の効果】
【0031】
本発明の実施例に係る技術案は、以下の有利な作用効果を有する。
【0032】
本発明の実施例において、シーン画像に対してオブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行うことにより、当該シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定可能であるため、上記動作認識時間がシーン画像に含まれるオブジェクトの数によらず、オブジェクト数の増加による演算時間の増加がなく、演算リソースが非常に大きく節約され、動作認識の時間が短縮され、検出効率が効果的に向上する。
【0033】
上述した一般的な記述及び後文の詳細に対する記述が単に例示的や解釈的なものであり、本発明を制限するためのものではないことは、理解されるべきである。
【図面の簡単な説明】
【0034】
ここでの図面は、明細書に組み込まれて明細書の一部を構成する。これらの図面は、本発明に合致する実施例を示しつつ、明細書の記載とともに本発明の原理を解釈するために用いられる。
図1】本発明の一例示的な実施例に示す動作認識方法のフローチャートである。
図2】本発明の一例示的な実施例に示すもう1つの動作認識方法のフローチャートである。
図3】本発明の一例示的な実施例に示すもう1つの動作認識方法のフローチャートである。
図4】本発明の一例示的な実施例に示すもう1つの動作認識方法のフローチャートである。
図5】本発明の一例示的な実施例に示す所定ベクトルの模式図である。
図6】本発明の一例示的な実施例に示すもう1つの動作認識方法のフローチャートである。
図7】本発明の一例示的な実施例に示すもう1つの動作認識方法のフローチャートである。
図8】本発明の一例示的な実施例に示すオブジェクト検出モデルの構造模式図である。
図9】本発明の一例示的な実施例に示すもう1つの動作認識方法のフローチャートである。
図10】本発明の一例示的な実施例に示すオブジェクト検出モデルのトレーニングシーンの模式図である。
図11】本発明の一例示的な実施例に示すもう1つの動作認識方法のフローチャートである。
図12】本発明の一例示的な実施例に示す動作認識装置のブロック図である。
図13】本発明の一例示的な実施例に示す動作認識装置のための構造模式図である。
【発明を実施するための形態】
【0035】
ここで、例示的な実施例を詳細に説明する。その例示は、図面に示される。以下の記述は、図面に係る際、別途示さない限り、異なる図面における同じ符号が同じ又は類似する要素を示す。以下の例示的な実施例に記述される実施形態が本発明と一致する全ての実施形態を代表するわけではない。逆に、それらは、単に添付する特許請求の範囲に詳細に記述されるような、本発明の幾つかの態様に一致する装置及び方法の例である。
【0036】
本発明で使用される用語は、単に特定の実施例を記述する目的であり、本発明を制限するためのものではない。本発明及び添付する特許請求の範囲で使用される単数形式の「1種」、「前記」及び「当該」も、文脈から他の意味を明瞭で分かる場合でなければ、複数の形式を含むことを意図する。理解すべきことは、本文で使用される用語「及び/又は」が、1つ又は複数の関連する列挙項目を含む如何なる或いは全ての可能な組み合わせを指す。
【0037】
理解すべきことは、本発明において第1、第2、第3等の用語を用いて各種の情報を記述するが、これらの情報は、これらの用語に限定されるものではない。これらの用語は、単に同一のタイプの情報同士を区分するために用いられる。例えば、本発明の範囲を逸脱しない限り、第1情報が第2情報と呼称されてもよく、類似的に、第2情報が第1情報と呼称されてもよい。これは、コンテキストに依存する。例えば、ここで使用される言葉「場合」は、「…とき」や「…ときに」あるいは「特定の状況に応じて」として解釈されてもよい。
【0038】
本発明の実施例は、動作認識案を提供し、例示として、異なるシーンでの端末機器に適用可能である。異なるシーンは、教室、広告を流す地点、又は少なくとも1つのオブジェクトに対して動作認識を行う必要のある他の室内若しくは室外シーンを含むが、それらに限定されない。端末機器は、カメラヘッドを有する如何なる端末機器を採用可能であり、又は、端末機器には、撮像機器が外付けされてもよい。端末機器は、取得されたシーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行うことにより、シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定する。
【0039】
例えば、教室では、端末機器は、教室内に配置された、カメラヘッドを有するティーチングマルチメディア機器を採用してもよい。ティーチングマルチメディア機器は、ティーチングプロジェクタ、教室内のモニタリング機器等を含むが、それらに限定されない。例えば、端末機器は、教室におけるシーン画像を取得することにより、教室内のオブジェクトに対してオブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行って検出結果を迅速に取得する。当該検出結果は、当該シーン画像に含まれる少なくとも1つのオブジェクトと各オブジェクトの目標動作タイプとを含んでもよく、目標動作タイプは、手挙げ、立ち又は他のインタラクティブな動作を含んでもよい。
【0040】
更に例えば、端末機器は、エレベーターにおけるシーン画像を取得してもよく、当該エレベーターは、広告を流しておる。本発明の実施例に係る技術案を採用することで、エレベーターが広告を流しているとき、エレベーター中のオブジェクトに対応する目標動作タイプを特定することができる。目標動作タイプは、振り向き、広告投入位置への注目、横向き等を含んでもよいが、それらに限定されない。
【0041】
例示として、本発明の実施例に係る動作認識案は、更に、異なるシーンでのクラウドサーバに適用可能であり、当該クラウドサーバには、外付けカメラヘッドが設けられてもよい。外付けカメラヘッドは、シーン画像を収集し、ルータ又はゲートウェイ等の機器を介してクラウドサーバへ送信する。クラウドサーバは、前記シーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行い、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定する。
【0042】
例えば、外付けカメラヘッドは、教室に設けられ、教室内のシーン画像を収集した後、ルータ又はゲートウェイ等の機器を介してクラウドサーバへ送信する。クラウドサーバは、前記シーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行い、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定する。更に、クラウドサーバは、必要に応じて上記結果を対応するティーチングタスク分析サーバへフィードバックすることにより、教師にティーチング内容の調整を促してもよい。これにより、ティーチング活動をより良好に行うことができる。
【0043】
更に例えば、広告を流している地点について、当該地点がエレベーターであると仮定し、外付けカメラヘッドがエレベーター内に設置され、外付けカメラヘッドがエレベーター中のシーン画像を収集し、ルータ又はゲートウェイ等の機器を介してシーン画像をクラウドサーバへ送信してもよい。クラウドサーバは、シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定する。後では、必要に応じて、エレベーターにおけるオブジェクトの目標動作統計結果を対応する広告主サーバへフィードバックしてもよい。これにより、広告主は、広告内容を調整する。
【0044】
本発明の実施例において、更に、端末機器又はクラウドサーバを介して、上記検出結果に基づいて更なる処理を行ってもよい。例えば、目標画像を出力し、目標画像においてシーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプをマーキングする。これにより、現在シーンでのオブジェクトと各オブジェクトの動作タイプとをより良好に把握することができる。
【0045】
また、端末機器又はクラウドサーバを介して、シーン画像に含まれる各オブジェクトによって所定時間帯内で行われた動作であって目標動作タイプにマッチングする動作の累積検出結果を特定してもよい。
【0046】
シーン画像が教室で収集されたシーン画像を含み、オブジェクトがティーチングオブジェクト、例えば学生を含む場合に、目標動作タイプは、ティーチングタスクにおける少なくとも1つの動作タイプを含んでもよい。
【0047】
例えば、教室内では、教師がティーチングを行っており、目標動作タイプが手挙げ、起立して質問に答えること、教師と対話すること、黒板に注目すること、頭を下げて字を書くこと等を含むが、それらに限定されない。本発明の技術案により、教師がティーチングを行う時間帯内、例えば1コマ授業の時間帯内で、各ティーチングオブジェクトが何回手を挙げたか、黒板に注目する時間、頭を下げて字を書く時間、起立して質問に答える回数、教師と対話する回数等を特定してもよい。更に、端末機器は、累積検出結果を取得した後で表示してもよい。これにより、教師は、より良好にティーチングタスクを行うことができる。又は、クラウドサーバは、累積検出結果を取得した後、指定の端末機器へ送信して表示させてもよい。同様に、教師は、より良好にティーチングタスクを行うことができる。
【0048】
上述したのは、単に本発明に適用されるシーンに対する例示であり、動作タイプ認識を迅速に行う必要のある他の室内又はシーンも本発明の保護範囲に含まれる。
【0049】
図1に示すように、図1は、一例示的な実施例に示す動作認識方法であり、以下のステップを含む。
【0050】
ステップ101では、シーン画像を取得する。
【0051】
本発明の実施例において、現在シーンでのシーン画像を収集してもよい。本発明のシーンは、シーンにおけるオブジェクトに対して動作認識を行う必要のある如何なるシーン、例えば、教室、広告を流す地点等を含むが、それらに限定されない。
【0052】
ステップ102では、前記シーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行い、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定する。
【0053】
本発明の実施例において、オブジェクトは、人物を含んでもよいが、それに限定されない。異なる部位は、人顔及び人体を含んでもよいが、それらに限定されない。シーン画像に対して行われるオブジェクトの異なる部位の検出は、シーン画像に対する人物の人顔位置及び人体位置検出を含んでもよい。同一オブジェクトにおける異なる部位の関連付けは、同一の人物に属する人顔位置と人体位置とを関連付けさせることであってもよい。オブジェクトの動作認識は、少なくとも1つの所定動作タイプから、シーン画像に含まれる各人物の目標動作タイプを特定することであってもよい。
【0054】
所定動作タイプは、シーンの需要に応じて設定されてもよく、手挙げ、腰曲げ、ジャンプ、振り向き等を含むが、それらに限定されない。又は、所定動作タイプは、如何なる動作も行っていないタイプ、例えば、人物が前の動作タイプをキープすることを含んでもよい。
【0055】
上記実施例において、シーン画像に対してオブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行うことにより、当該シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定する。シーン画像をトリミングする必要がなく、直接にニューラルネットワークを用いてシーン画像における複数のオブジェクトを認識するため、上記動作認識時間がシーン画像に含まれるオブジェクトの数によらず、オブジェクト数の増加による演算時間の増加がなく、演算リソースが非常に大きく節約され、動作認識の時間が短縮され、検出効率が向上する。
【0056】
幾つかの選択可能な実施例において、ステップ102は、以下のステップを含んでもよい。
【0057】
前記シーン画像に対して特徴抽出を行って特徴マップを取得した後、前記特徴マップに対してオブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行う。
【0058】
本発明の実施例において、予めトレーニングされたニューラルネットワークバックボーンモデル(backbone)を介してシーン画像中の画像特徴を抽出して特徴マップを取得してもよい。当該ニューラルネットワークバックボーンモデルは、ビジュアル幾何グループネットワーク(Visual Geometry Group Network、VGG Net)等のモデルを採用してもよいが、それらに限定されない。
【0059】
ニューラルネットワークバックボーンモデルを介して画像特徴を抽出して得られた特徴マップの次元は、シーン画像の次元よりも小さい。例えば、次元が640×480であるシーン画像を当該ニューラルネットワークバックボーンモデルに入力すると、次元が80×60である特徴マップを取得することができる。
【0060】
抽出された画像特徴は、色特徴、テクスチャ特徴、形状特徴等を含んでもよいが、それらに限定されない。色特徴は、グローバル特徴であり、画像に対応するオブジェクトの表面色属性を記述し、テクスチャ特徴もグローバル特徴であり、画像に対応するオブジェクトの表面テクスチャ属性を記述し、形状特徴は、2種の表し方法があり、1種が輪郭特徴であり、もう1種が領域特徴である。画像の輪郭特徴は、主にオブジェクトの外側境界に対するものであり、画像の領域特徴は、画像領域の形状に関係する。
【0061】
上記実施例において、シーン画像に対して特徴抽出を行って特徴マップを取得した後、特徴マップに対してオブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行う。これにより、画像特徴に基づいてシーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを迅速に特定することが便利になり、実現が簡単になり、利用可能性が高くなる。
【0062】
幾つかの選択可能な実施例において、前記オブジェクトは、人物を含み、前記オブジェクトの異なる部位は、人物の人顔及び人体を含み、図2に示すように、ステップ102は、以下のステップを含んでもよい。
【0063】
ステップ102-0では、前記特徴マップにおける少なくとも1つの人顔位置と少なくとも1つの人体位置とを特定する。
【0064】
本発明の実施例において、領域予測ネットワークを介して、シーン画像に対応する特徴マップのうち、人顔に属する人顔領域と人体に属する人体領域とを検出してもよい。人顔領域は、人顔認識枠でマーキングされてもよく、人体領域は、人体認識枠でマーキングされてもよい。更に、人顔認識枠の大きさは、人顔認識枠の中心位置、人顔認識枠の長さ及び幅によって特定されてもよい。本発明の実施例において、当該人顔位置は、人顔認識枠の中心位置で示されてもよい。同様に、人体認識枠の大きさは、人体認識枠の中心位置、人体認識枠の長さ及び幅によって特定されてもよく、人体位置は、人体認識枠の中心位置で示されてもよい。
【0065】
本発明の実施例において、異なるチャンネルによって上記人顔及び人体の位置記述情報をそれぞれ示してもよい。例えば、特徴マップの次元が80×60であり、各人物の人顔領域及び人体領域が特定された後、80×60×6の第1特徴マップは、取得することができる。第1特徴マップの6つのチャンネルは、人顔認識枠の中心位置、人顔認識枠の長さ、人顔認識枠の幅、人体認識枠の中心位置、人体認識枠の長さ、人体認識枠の幅をそれぞれ出力する。
【0066】
可能な実施形態において、人顔認識枠の中心位置と人体認識枠の中心位置との2つのチャンネルに対応する第1特徴マップを取得することで人顔位置及び人体位置をそれぞれ特定してもよい。
【0067】
ステップ102-1では、前記少なくとも1つの人顔位置及び/又は前記少なくとも1つの人体位置に基づいて、シーン画像に含まれる少なくとも1人の人物を特定する。
【0068】
本発明の実施例において、各人物は、当該人物に対応する人顔及び/又は人体によって示されてもよい。これにより、シーン画像に含まれる少なくとも1人の人物を特定することができる。
【0069】
例えば、人顔位置に基づいて人物の所在する位置を特定してもよい。人顔位置は、人顔認識枠の中心位置であってもよい。人顔位置がA1、A2及びA3を含むとすれば、特徴マップに3人の人物が含まれ、且つ各人物の所在する位置がA1、A2及びA3であると特定することができる。
【0070】
ステップ102-2では、同一人物に属する前記人顔位置と前記人体位置とを関連付けさせる。
【0071】
本発明の実施例において、各人顔位置及び各人体位置が特定された後、同一の人物に属する人顔位置と人体位置とを関連付けさせることで、関連付けられた人顔位置と人体位置とを取得する必要がある。本発明の実施例において、関連付けられる必要があるのは、人顔認識枠の中心位置及び人体認識枠の中心位置である。
【0072】
例えば、特徴マップにおいて、2つの人顔認識枠の中心位置がそれぞれA1及びA2であると特定し、更に、2つの人体認識枠の中心位置がそれぞれB1及びB2であると特定し、人顔認識枠の中心位置と人体認識枠の中心位置とを関連付けさせることにより、最終的に関連付けられた人顔認識枠の中心位置A1と人体認識枠の中心位置B2、及び、関連付けられた人顔認識枠の中心位置A2と人体認識枠の中心位置B1を取得してもよい。
【0073】
本発明の実施例において、2つのチャンネルによって、人顔位置と人顔位置に関連付けられた人体位置とをそれぞれ示してもよい。例えば、特徴マップの次元が80×60であり、各人物の人顔領域及び人体領域を特定した後、次元が80×60×6である第1特徴マップを取得し、更に、前記人顔位置と前記人体位置とを関連付けさせることにより、次元が80×60×2である第2特徴マップを取得する。第2特徴マップは、2つのチャンネルを含み、一方のチャンネルは、各人物の人顔位置に対応し、他方のチャンネルは、人顔位置に関連付けられた人体位置に対応する。
【0074】
ステップ102-3では、関連付けられた前記人顔位置と前記人体位置とに基づいて、前記少なくとも1人の人物のうちの各人物の前記目標動作タイプを特定する。
【0075】
また、本発明の実施例において、関連付けられた前記人顔位置と前記人体位置とに基づいて、複数の特徴ベクトルを特定してもよい。これらの特徴ベクトルは、所定動作タイプに応じてそれぞれ取得されたものである。更に、これらの特徴ベクトルに基づいて、少なくとも1人の人物のうちの各人物の目標動作タイプを特定してもよい。目標動作タイプは、所定動作タイプのうちの少なくとも1種であってもよい。所定動作タイプの数がnであるとすれば、n個のチャンネルを介して異なる所定動作タイプにそれぞれ対応させる必要がある。所定動作タイプは、人物が行う可能性のある複数種の動作タイプを含み、人物が何の動作も行わない動作タイプも含む。
【0076】
例えば、特徴マップの次元が80×60であり、各人物の人顔位置及び人体位置を特定した後、次元が80×60×6である第1特徴マップを取得し、更に、関連関係を有する前記人顔位置及び前記人体位置を特定した後、次元が80×60×2である第2特徴マップを取得する。第2特徴マップによると、次元が80×60×nである第3特徴マップを特定する必要がある。第3特徴マップに基づいて最終的な目標動作タイプを特定する。
【0077】
上記実施例では、特徴マップにおいて人顔位置及び人体位置を先に特定し、更に、同一の人物に属する人顔位置と前記人体位置とを関連付けされることにより、関連付けられた前記人顔位置と前記人体位置とに基づいて、前記シーン画像に含まれる少なくとも1人の人物と前記少なくとも1人の人物のうちの各人物に対応する目標動作タイプとを特定してもよい。上記過程において、シーン画像に複数の人物が含まれても、各人物に対応する目標動作タイプを迅速に特定することができ、機器演算能力に対する要求を低減し、動作認識の時間を減少し、機器の競争力を向上させる。
【0078】
幾つかの選択可能な実施例において、図3に示すように、ステップ102-2は、以下のステップを含んでもよい。
【0079】
ステップ102-21では、前記同一人物の人顔位置に対応する参照人体位置を特定する。
【0080】
本発明の実施例において、1人の人物の人顔認識枠の中心位置に基づいて、当該人顔認識枠の中心位置に対応する最も可能性の高い人体認識枠の中心位置を予測し、当該位置を参照人体位置としてもよい。
【0081】
ステップ102-22では、前記参照人体位置及び前記人体位置に基づいて、関連付けられた前記人顔位置と前記人体位置とを特定する。
【0082】
本発明の実施例において、各参照人体位置を1つの人体位置に対応させてもよい。このように、同一の参照人体位置の人顔位置と人体位置とは、関連付けられる。
【0083】
上記実施例において、各人物の前記人顔位置に基づいて、各人顔位置に対応する参照人体位置を特定してもよい。これにより、人顔位置と前記人体位置とを関連付けさせ、実現が簡単であり、利用可能性が高い。
【0084】
幾つかの選択可能な実施例において、図4に示すように、ステップ102-21は、下記のステップを含んでもよい。
【0085】
ステップ201では、前記同一人物の人顔位置の、前記シーン画像における対応する第1座標値を特定する。
【0086】
本発明の実施例において、前は既にシーン画像に対応する特徴マップにおいて各人物の人顔位置を特定した。ここでの人顔位置は、人顔認識枠の中心位置で示されてもよい。そうすると、当該特徴マップに対応する画像座標系から、各人顔認識枠の中心位置に対応する座標値を特定可能である。当該座標値は、第1座標値となる。
【0087】
ステップ202では、所定ベクトル及び前記第1座標値に基づいて第2座標値を特定する。
【0088】
本発明の実施例において、前記所定ベクトルは、予め設定された、人顔位置から人体位置へ指すベクトルである。図5に示すように、所定ベクトルは、特徴マップにおける特定の人顔認識枠の中心位置から、予め推定された人体認識枠の中心位置へ指してもよい。そうすると、人顔位置の第1座標値及び所定ベクトルに基づいて、1つの第2座標値を特定することができる。
【0089】
ステップ203では、前記第2座標値を前記参照人体位置とする。
【0090】
本発明の実施例において、第2座標値をそのまま前記参照人体位置とする。
【0091】
上記実施例において、各人物の前記人顔位置及び所定ベクトルに基づいて、各人顔位置に対応する参照人体位置を特定してもよい。これにより、後で人顔位置と人体位置とを関連付けさせることは、便利になり、利用可能性は、高くなる。
【0092】
幾つかの選択可能な実施例において、ステップ102-22は、下記のことを含んでもよい。
【0093】
前記参照人体位置との距離の最も小さい前記人体位置と当該参照人体位置に対応する前記人顔位置とを、関連関係を有する前記人顔位置及び前記人体位置とする。
【0094】
本発明の実施例において、参照人体位置が特定された後、複数の人体位置のうちの当該参照人体位置に最も近い人体位置と当該参照人体位置に対応する人顔位置とは、同一の人物に属する人顔位置及び人体位置となる。それ相応に、関連付けられた人顔位置と人体位置とは、取得される。
【0095】
例えば、参照人体位置は、C1及びC2を含み、C1は、人顔位置A1に基づいて特定され、C2は、人顔位置A2に基づいて特定される。人体位置は、B1及びB2を含み、人体位置のうち、C1に最も近いのは、B2であり、C2に最も近いのは、B1である。このように、A1とB2が関連関係を有し、A2とB1が関連関係を有することは、特定可能である。
【0096】
上記実施例において、複数の人体位置のうち、各参照人体位置に最も近い1つの人体位置を特定してもよい。この人体位置と参照人体位置を対応して特定する人顔位置とが、関連付けられた人体位置及び人顔位置であり、実現が簡単であり、利用可能性が高い。
【0097】
本発明の実施例において、説明すべきことは、各人物の人体位置と別の所定ベクトルに基づいて、各人体位置に対応する参照人顔位置を特定し、更に、参照人顔位置との距離が最も小さい人顔位置と当該参照人顔位置に対応する人体位置とを、関連関係を有する人顔位置及び人体位置としてもよい。別の所定ベクトルは、予め設定された、人体位置から人顔位置へ指すベクトルであってもよい。参照人顔位置を特定する方式は、上記参照人体位置を特定する方式と同じであり、ここで繰り返し説明しない。
【0098】
幾つかの選択可能な実施例において、図6に示すように、ステップ102-3は、以下のステップを含む。
【0099】
ステップ102-31では、関連付けられた前記人顔位置と前記人体位置とのうちの少なくとも一項を、前記シーン画像に含まれる各人物の所在する位置として、前記シーン画像に含まれる前記少なくとも1人の人物を特定する。
【0100】
各人物の所在する位置は、当該人物に対応する人顔位置及び/又は人体位置で示されてもよい。このように、シーン画像に含まれる人物を特定することができる。
【0101】
ステップ102-32では、関連付けられた前記人顔位置と前記人体位置とに基づいて、複数の特徴ベクトルを特定する。
【0102】
本発明の実施例において、所定動作タイプに応じて、少なくとも1つの所定動作タイプのそれぞれに対応する、前記人顔位置から関連付けられた前記人体位置へ指す特徴ベクトルをそれぞれ特定し、同一の人物に対応する前記複数の特徴ベクトルを取得する。
【0103】
ステップ102-33では、前記複数の特徴ベクトルに基づいて、前記各人物に対応する前記目標動作タイプを特定する。
【0104】
本発明の実施例において、上記複数の特徴ベクトルに基づいて、当該人物が行う可能性の最も高い動作タイプを特定し、この動作タイプを目標動作タイプとしてもよい。
【0105】
幾つかの選択可能な実施例において、図7に示すように、ステップ102-33は、以下のステップを含んでもよい。
【0106】
ステップ301では、前記各人物に対応する複数の特徴ベクトルに対して正規化を行い、各特徴ベクトルに対応する正規化値を取得する。
【0107】
本発明の実施例において、正規化関数、例えばsoftmax関数を採用して各人物に対応する複数の特徴ベクトルに対して正規化を行うことにより、各特徴ベクトルに対応する正規化値を取得してもよい。
【0108】
ステップ302では、前記各人物の最大正規化値に対応する特徴ベクトルを前記各人物の目標特徴ベクトルとする。
【0109】
本発明の実施例において、各人物に対応する複数の特徴ベクトルに対して正規化を行った後、最大正規化値に対応する特徴ベクトルを各人物の目標特徴ベクトルとする。
【0110】
ステップ303では、前記目標特徴ベクトルに対応する動作タイプを前記各人物に対応する前記目標動作タイプとする。
【0111】
目標特徴ベクトルに対応する動作タイプは、当該人物が行う可能性の最も高い動作タイプであり、それ相応に、当該人物の目標動作タイプとしてもよい。
【0112】
上記実施例において、各人物の複数の特徴ベクトルに対して正規化処理を行い、各人物が行う可能性の最も高い動作タイプを特定し、当該動作タイプを目標動作タイプとすることにより、オブジェクトに対して動作認識を行う目的は、果たされる。
【0113】
幾つかの選択可能な実施例において、シーン画像が取得された後、前記シーン画像を予めトレーニングされたオブジェクト検出モデルに入力し、前記シーン画像において各オブジェクトの各部位の目標位置を前記オブジェクト検出モデルに特定させ、その後、同一オブジェクトに属する異なる部位の前記目標位置を関連付けさせ、関連付けられた異なる部位の前記目標位置に基づいて、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定してもよい。
【0114】
オブジェクト検出モデルの構造は、図8に示すように、シーン画像を取得した後、シーン画像をオブジェクト検出モデルに入力する。オブジェクト検出モデルは、予めトレーニングされたニューラルネットワークバックボーンモデルbackboneを用いてシーン画像に対して特徴抽出を行い、特徴マップを取得する。前記オブジェクト検出モデルは、少なくとも位置特定ブランチ、関連付けブランチ及び動作認識ブランチを含む。
【0115】
更に、オブジェクト検出モデルは、位置特定ブランチを介して、特徴マップにおいて各人物の人顔位置と前記各人物の人体位置とを特定する。
【0116】
また更に、オブジェクト検出モデルは、関連付けブランチを介して同一人物に属する前記人顔位置と前記人体位置とを関連付けさせる。更に、動作認識ブランチを介して、関連付けられた前記人顔位置と前記人体位置とに基づいて、当該シーン画像に含まれる少なくとも1人の人物と少なくとも1人の人物のうちの各人物に対応する目標動作タイプとを特定する。
【0117】
最終的に、オブジェクト検出モデルは、上記動作検出結果を出力してもよい。当該結果は、当該シーン画像に含まれる少なくとも1人の人物と、少なくとも1人の人物のうちの各人物に対応する目標動作タイプとを含む。
【0118】
幾つかの選択可能な実施例において、オブジェクト検出モデルは、目標画像を直接出力してもよい。シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを目標画像から同時にマーキングする可能であるため、オブジェクト検出結果をより直感的に反映することができる。
【0119】
上記実施例において、シーン画像に対してオブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行うことにより、当該シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定可能であるため、上記動作認識時間がシーン画像に含まれるオブジェクトの数によらず、オブジェクト数の増加による演算時間の増加がなく、演算リソースが非常に大きく節約され、動作認識の時間が短縮され、検出効率が効果的に向上する。
【0120】
幾つかの選択可能な実施例において、オブジェクト検出モデルをトレーニングする過程において、人顔位置ラベルと、人体位置ラベルと、人顔位置と人体位置との関連関係ラベルと、人体位置と動作タイプの間の動作認識ラベルとが同時にアノテーションされた最適なサンプル画像セットが少ないことを考慮し、一部のラベルのみがアノテーションされたサンプル画像セットに対して他のラベルをアノテーションすると、多くの時間がかかってしまう。
【0121】
この問題を解決すべく、本発明の実施例において、図9に示すように、当該方法は、以下のステップを更に含んでもよい。
【0122】
ステップ100-1では、サンプル画像セットにおけるラベルタイプを特定する。
【0123】
本発明の実施例において、既存のサンプル画像セットを採用する。当該サンプル画像セットにおけるサンプル画像に含まれる前記ラベルタイプは、人顔位置ラベル、人体位置ラベル、人顔位置と人体位置の間の関連関係ラベル、人体位置と動作タイプの間の動作認識ラベルのうちの少なくとも1種を含む。
【0124】
ステップ100-2では、前記サンプル画像セットを用いて、所定モデルにおける、各前記ラベルタイプに対応するブランチのそれぞれをトレーニングし、前記オブジェクト検出モデルを取得する。
【0125】
本発明の実施例において、所定モデルの構造は、同様に図8に示すように、位置特定ブランチ、関連付けブランチ及び動作認識ブランチを含んでもよい。サンプル画像セットを用いて、所定モデルにおける前記ラベルタイプに対応するブランチのそれぞれをトレーニングし、対応するブランチの損失関数が最も小さい場合に、トレーニングされたオブジェクト検出モデルを取得する。
【0126】
位置特定ブランチは、人顔位置特定ブランチ及び人体位置特定ブランチ(図9に示されていない)を更に含んでもよい。
【0127】
図10に示すように、サンプル画像セットにおけるラベルタイプが人顔位置ラベルのみを含む場合に、当該サンプル画像セットを用いて所定モデルの位置特定ブランチにおける人顔位置特定ブランチをトレーニングする。毎回トレーニングが反復され、他のブランチについて何の処理もしない。即ち、毎回特定された損失関数は、第1損失関数と同じであり、第2損失関数、第3損失関数及び第4損失関数は、例えば0に設定されてもよい。
【0128】
サンプル画像セットにおけるラベルタイプが人体位置ラベルのみを含む場合に、当該サンプル画像セットを用いて所定モデルの位置特定ブランチにおける人体位置特定ブランチをトレーニングする。サンプル画像セットにおけるラベルタイプが人顔位置ラベルと人体位置ラベルとの両方を含む場合に、当該サンプル画像セットをそのまま用いて位置特定ブランチをトレーニングしてもよい。
【0129】
サンプル画像セットにおけるラベルタイプが関連関係ラベルのみを含む場合に、当該サンプル画像セットを用いて所定モデルの関連付けブランチをトレーニングしてもよく、他のブランチに対応する損失関数は、0である。
【0130】
同様に、サンプル画像セットにおけるラベルタイプが動作認識ラベルのみを含む場合に、当該サンプル画像セットを用いて所定モデルの動作認識ブランチをトレーニングしてもよく、他のブランチに対応する損失関数は、例えば0であってもよい。
【0131】
サンプル画像セットにおけるラベルタイプが2つ以上ある場合に、当該サンプル画像セットを用いて所定モデルの対応するブランチをトレーニングしてもよく、他のブランチに対応する損失関数は、例えば0であってもよい。
【0132】
上記実施例において、サンプル画像セットを用いて、所定モデルにおける、サンプル画像セットの前記ラベルタイプに対応するブランチのそれぞれをトレーニングし、前記オブジェクト検出モデルを取得し、オブジェクト検出モデルの検出性能及び一般化性能を向上させる。
【0133】
幾つかの選択可能な実施例において、図11に示すように、当該方法は、以下のステップを更に含んでもよい。
【0134】
ステップ103では、前記各オブジェクトによって所定時間帯内で行われた動作であって、前記目標動作タイプにマッチングする動作の累積検出結果を特定する。
【0135】
本発明の実施例において、前記シーン画像は、教室で収集されたシーン画像を含み、前記オブジェクトは、ティーチングオブジェクトを含み、前記目標動作タイプは、ティーチングタスクのうちの少なくとも1つの動作タイプを含み、ティーチングタスクにマッチングする動作タイプは、手挙げ、教師と対話すること、起立して質問に答えること、黒板に注目すること、頭を下げて字を書くこと等を含むが、それらに限定されない。
【0136】
例えば、教室内では、教室内に配置されたカメラヘッドを有するティーチングマルチメディア機器(ティーチングプロジェクタ、教室内のモニタリング機器等を含むが、それらに限定されない)を用いて、教室内で収集されたシーン画像を取得してもよい。教室シーン画像に含まれる少なくとも1つのティーチングオブジェクトと各ティーチングオブジェクトの目標動作タイプとを特定する。ティーチングオブジェクトは、学生であってもよい。
【0137】
更に、所定時間帯内、例えば教師が授業する1コマの時間帯内で、各ティーチングオブジェクト例えば各学生によって行われた動作であって目標動作タイプにマッチングする動作の累積検出結果を特定してもよい。例えば、各学生が1コマ授業内で何回手を挙げたか、黒板に注目する時間、頭を下げて字を書く時間、起立して質問に答える回数、教師と対話する回数等を特定する。教師がより良好にティーチングタスクを行うように、ティーチングマルチメディア機器を介して上記結果を表示してもよい。
【0138】
上記方法実施例に対応し、本発明は、装置実施例を更に提供する。
【0139】
図12に示すように、図12は、本発明の一例示的な実施例に示す動作認識装置のブロック図である。装置は、シーン画像を取得するための画像取得モジュール410と、前記シーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行い、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定するための動作認識モジュール420と、を備える。
【0140】
幾つかの選択可能な実施例において、前記オブジェクトは、人物を含み、前記オブジェクトの異なる部位は、人物の人顔及び人体を含み、前記動作認識モジュールは、前記シーン画像に対して特徴抽出を行って特徴マップを取得するための特徴抽出モジュールと、前記特徴マップにおける少なくとも1つの人顔位置と少なくとも1つの人体位置とを特定するための第1特定サブモジュールと、前記少なくとも1つの人顔位置及び/又は前記少なくとも1つの人体位置に基づいて、シーン画像に含まれる少なくとも1人の人物を特定するための第2特定サブモジュールと、同一人物に属する前記人顔位置と前記人体位置とを関連付けさせるための関連付けサブモジュールと、関連付けられた前記人顔位置と前記人体位置とに基づいて、前記少なくとも1人の人物のうちの各人物の前記目標動作タイプを特定するための第3特定サブモジュールと、を備える。
【0141】
幾つかの選択可能な実施例において、前記関連付けサブモジュールは、少なくとも1人の人物のうちの各人物ごとに、当該人物の人顔位置に対応する参照人体位置を特定するための第1特定手段と、前記参照人体位置と前記少なくとも1つの人体位置とに基づいて、前記同一人物に属する前記人顔位置と前記人体位置とを関連付けさせるための関連付け手段と、を備える。
【0142】
幾つかの選択可能な実施例において、前記第1特定手段は、前記シーン画像において当該人物の人顔位置の前記特徴マップにおける第1座標値を特定することと、所定ベクトル及び前記第1座標値に基づいて第2座標値をそれぞれ特定することと、前記第2座標値を前記参照人体位置とすることと、を実行し、前記所定ベクトルは、人顔の所在する位置から人体の所在する位置へ指すベクトルである。
【0143】
幾つかの選択可能な実施例において、前記関連付け手段は、前記参照人体位置との距離の最も小さい前記人体位置と当該参照人体位置に対応する前記人顔位置とを関連付けさせる。
【0144】
幾つかの選択可能な実施例において、前記第2特定サブモジュールは、少なくとも1人の人物のうちの各人物ごとに、当該人物に関連付けられた前記人顔位置及び前記人体位置に基づいて、複数の特徴ベクトルを特定するための第2特定手段と、前記複数の特徴ベクトルに基づいて、前記少なくとも1人の人物のうちの各人物の前記目標動作タイプを特定するための第3特定手段と、を備える。
【0145】
幾つかの選択可能な実施例において、前記第2特定手段は、少なくとも1つの所定動作タイプにそれぞれ対応する、前記人顔位置から関連付けられた前記人体位置へ指す複数の特徴ベクトルを特定する。
【0146】
幾つかの選択可能な実施例において、前記第3特定手段は、当該人物に対応する複数の特徴ベクトルのそれぞれに対して正規化を行い、各特徴ベクトルの正規化値を取得することと、最大正規化値に対応する特徴ベクトルを当該人物の目標特徴ベクトルとすることと、前記目標特徴ベクトルに対応する動作タイプを当該人物の前記目標動作タイプとすることと、を実行する。
【0147】
幾つかの選択可能な実施例において、前記動作認識モジュールは、オブジェクト検出モデルを介して前記シーン画像において各オブジェクトの各部位の目標位置を特定した後、同一オブジェクトに属する異なる部位の前記目標位置を関連付けさせるための第2関連付けサブモジュールと、前記オブジェクト検出モデルを介して、関連付けられた異なる部位の前記目標位置に基づいて、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定するための第3特定サブモジュールと、を備える。
【0148】
幾つかの選択可能な実施例において、前記装置は、サンプル画像セットにおけるラベルタイプを特定するためのラベルタイプ特定モジュールと、前記サンプル画像セットを用いて所定モデルにおける前記ラベルタイプに対応するブランチをそれぞれトレーニングし、前記オブジェクト検出モデルを取得するためのトレーニングモジュールと、を更に備える。前記ラベルタイプは、人顔位置ラベル、人体位置ラベル、人顔位置と人体位置の間の関連関係ラベル、人体位置と動作タイプの間の動作認識ラベルのうちの少なくとも1種を含む。
【0149】
幾つかの選択可能な実施例において、前記装置は、前記各オブジェクトによって所定時間帯内で行われた動作であって前記目標動作タイプにマッチングする動作の累積検出結果を特定するためのマッチング特定モジュールを更に備える。
【0150】
幾つかの選択可能な実施例において、前記シーン画像は、教室で収集されたシーン画像を含み、前記オブジェクトは、ティーチングオブジェクトを含み、前記目標動作タイプは、ティーチングタスクのうちの少なくとも1つの動作タイプを含む。
【0151】
装置実施例は、方法実施例に基本的に対応するため、その関連箇所が方法実施例部分の説明を参照すればよい。上述した装置実施例は、単に例示であり、その中、分離部品として説明される手段が物理的に分離されるものであってもよくでなくてもよい。また、手段として表示される部品は、物理手段であってもでなくてもよい。更に、それらの手段は、1箇所に位置してもよく、複数のネットワークセルに分散してもよい。実際の需要に応じてその中の一部又は全部のモジュールを選択して本実施例の目的を果たすことが可能である。当業者は、進歩性に値する労働をせずに、理解して実施可能である。
【0152】
本発明の実施例は、コンピュータ可読記憶媒体を更に提供する。記憶媒体には、コンピュータプログラムが記憶され、コンピュータプログラムは、上記何れか一項に記載の動作認識方法を実行するために用いられる。
【0153】
幾つかの選択可能な実施例において、本発明の実施例は、コンピュータプログラム製品を提供する。当該コンピュータプログラム製品は、コンピュータ可読コードを含み、コンピュータ可読コードが機器で運転されたときに、機器におけるプロセッサは、上述した何れか1つの実施例に係る動作認識方法を実施するための指令を実行する。
【0154】
幾つかの選択可能な実施例において、本発明の実施例は、別のコンピュータプログラム製品を更に提供する。当該コンピュータプログラム製品は、コンピュータ可読指令を記憶し、指令が実行されたときに、コンピュータは、上記何れか1つの実施例に係る動作認識方法の操作を実行する。
【0155】
当該上記コンピュータプログラム製品は、具体的にハードウェア、ソフトウェア又はそれらの組み合わせで実現されてもよい。ある好適な実施例において、前記コンピュータプログラム製品は、コンピュータ記憶媒体として具現化されてもよく、別の好適な実施例において、コンピュータプログラム製品は、ソフトウェア製品、例えばソフトウェア開発キット(Software Development Kit、SDK)等として具現化される。
【0156】
本発明の実施例は、動作認識装置を更に提供する。当該動作認識装置は、プロセッサと、プロセッサで実行され得る実行可能指令を記憶するためのメモリと、を備え、プロセッサは、前記メモリに記憶された実行可能指令を呼び出すことにより、上記何れか1つの動作認識方法を実施するように構成される。
【0157】
図13は、本発明の実施例に係る動作認識装置のハードウェア構造模式図である。当該動作認識装置510は、プロセッサ511を備え、入力装置512、出力装置513及びメモリ514を備えてもよい。当該入力装置512、出力装置513、メモリ514とプロセッサ511の間は、バスを介して互いに接続される。
【0158】
メモリは、ランダムアクセスメモリ(random access memory、RAM)、読み出し専用メモリ(read-only memory、ROM)、消去可能なプログラマブル読み出し専用メモリ(erasable programmable read only memory、EPROM)、又は携帯型読み出し専用メモリ(compact disc read-only memory、CD-ROM)を含むが、それらに限定されない。当該メモリは、関連する指令及びデータを記憶する。
【0159】
入力装置は、データ及び/又は信号を入力し、出力装置は、データ及び/又は信号を出力する。出力装置と入力装置は、独立するデバイスであってもよく、1つの全体のデバイスであってもよい。
【0160】
プロセッサは、1つ又は複数のプロセッサであってもよく、例えば1つ又は複数の中央処理装置(central processing unit、CPU)を含んでもよい。プロセッサが1つのCPUである場合に、当該CPUは、シングルコアCPUであってもよく、マルチコアCPUであってもよい。
【0161】
メモリは、ネットワーク機器のプログラムコード及びデータを記憶する。
【0162】
プロセッサは、当該メモリにおけるプログラムコード及びデータを呼び出して、上記方法実施例におけるステップを実行する。詳細は、方法実施例における記述を参照すればよく、ここで繰り返し説明しない。
【0163】
理解できるように、図13は、単に1種の動作認識装置の簡素化設計を示す。実際の応用において、動作認識装置は、必要な他の素子をそれぞれ含んでもよく、任意数の入力/出力装置、プロセッサ、コントローラ及びメモリ等を含むが、それらに限定されない。本発明の実施例を実現できる全ての動作認識装置は、何れも本発明の保護範囲内に含まれる。
【0164】
当業者は、明細書を考慮してここで開示された本発明を実践した後、本発明の他の実施案を容易に想到し得る。本発明は、本発明の如何なる変形、用途又は適応的変化もカバーすることを意図する。これらの変形、用途又は適応的変化は、本発明の一般的な原理に従い、本発明に開示されていない当分野における公知常識或いは慣用技術手段を含む。明細書及び実施例は、単に例示と見なされ、本発明の真の範囲及び要旨は、請求項から与えられる。
【0165】
上述したのは、本発明の好適な実施例に過ぎず、本発明を制限するためのものではない。本発明の精神及び原則内でなされた如何なる変更、均等物による置換、改良等も、本発明の保護範囲内に含まれるべきである。
【0166】
本願は、2020年03月19日に提出された、発明名称が「動作認識方法及び装置、記憶媒体」であって出願番号が202010196461.6である中国特許出願の優先権を要求し、当該出願の全ての内容が引用によって本願に組み込まれる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
【手続補正書】
【提出日】2022-01-31
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
シーン画像を取得するステップと、
前記シーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行い、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定するステップと、を含むことを特徴とする動作認識方法。
【請求項2】
前記オブジェクトは、人物を含み、前記オブジェクトの異なる部位は、人物の人顔及び人体を含み、
前記シーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行い、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定するステップは、
前記シーン画像に対して特徴抽出を行って特徴マップを取得することと、
前記特徴マップにおける少なくとも1つの人顔位置と少なくとも1つの人体位置とを特定することと、
前記少なくとも1つの人顔位置及び/又は前記少なくとも1つの人体位置に基づいて、シーン画像に含まれる少なくとも1人の人物を特定することと、
同一人物に属する前記人顔位置と前記人体位置とを関連付けさせることと、
関連付けられた前記人顔位置と前記人体位置とに基づいて、前記少なくとも1人の人物のうちの各人物の前記目標動作タイプを特定することと、を含むことを特徴とする請求項1に記載の動作認識方法。
【請求項3】
前記同一人物に属する前記人顔位置と前記人体位置とを関連付けさせることは、
少なくとも1人の人物のうちの各人物ごとに、
当該人物の人顔位置に対応する参照人体位置を特定し、
前記参照人体位置と前記少なくとも1つの人体位置とに基づいて、前記同一人物に属する前記人顔位置と前記人体位置とを関連付けさせることを含むことを特徴とする請求項2に記載の動作認識方法。
【請求項4】
当該人物の人顔位置に対応する参照人体位置を特定することは、
当該人物の人顔位置の前記特徴マップにおける第1座標値を特定することと、
所定ベクトル及び前記第1座標値に基づいて第2座標値を特定することと、
前記第2座標値を前記参照人体位置とすることと、を含み、
前記所定ベクトルは、人顔の所在する位置から人体の所在する位置へ指すベクトルであることを特徴とする請求項3に記載の動作認識方法。
【請求項5】
前記参照人体位置と前記少なくとも1つの人体位置とに基づいて、前記同一人物に属する前記人顔位置と前記人体位置とを関連付けさせることは、
前記参照人体位置との距離の最も小さい前記人体位置と当該参照人体位置に対応する前記人顔位置とを関連付けさせることを含むことを特徴とする請求項3又は4に記載の動作認識方法。
【請求項6】
前記関連付けられた前記人顔位置と前記人体位置とに基づいて、前記シーン画像の前記少なくとも1人の人物のうちの各人物の前記目標動作タイプを特定することは、
少なくとも1人の人物のうちの各人物ごとに、
当該人物に関連付けられた前記人顔位置及び前記人体位置に基づいて、複数の特徴ベクトルを特定し、
前記複数の特徴ベクトルに基づいて、当該人物の前記目標動作タイプを特定することを含むことを特徴とする請求項2から5の何れか一項に記載の動作認識方法。
【請求項7】
当該人物に関連付けられた前記人顔位置及び前記人体位置に基づいて、複数の特徴ベクトルを特定することは、
少なくとも1つの所定動作タイプにそれぞれ対応する、前記人顔位置から関連付けられた前記人体位置へ指す複数の特徴ベクトルを特定することを含むことを特徴とする請求項6に記載の動作認識方法。
【請求項8】
前記複数の特徴ベクトルに基づいて、当該人物の前記目標動作タイプを特定することは、
当該人物に対応する複数の特徴ベクトルのそれぞれに対して正規化を行い、各特徴ベクトルの正規化値を取得することと、
最大正規化値に対応する特徴ベクトルを当該人物の目標特徴ベクトルとすることと、
前記目標特徴ベクトルに対応する動作タイプを当該人物の前記目標動作タイプとすることと、を含むことを特徴とする請求項6又は7に記載の動作認識方法。
【請求項9】
前記シーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行い、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定するステップは、
オブジェクト検出モデルを介して前記シーン画像において各オブジェクトの各部位の目標位置を特定した後、同一オブジェクトに属する異なる部位の前記目標位置を関連付けさせることと、
前記オブジェクト検出モデルを介して、関連付けられた異なる部位の前記目標位置に基づいて、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定することと、を含むことを特徴とする請求項1から8の何れか一項に記載の動作認識方法。
【請求項10】
前記オブジェクト検出モデルは、
サンプル画像セットにおけるラベルタイプを特定するステップと、
前記サンプル画像セットを用いて所定モデルにおける前記ラベルタイプに対応するブランチをそれぞれトレーニングし、前記オブジェクト検出モデルを取得するステップと、によってトレーニングされたものであり、
前記ラベルタイプは、人顔位置ラベル、人体位置ラベル、人顔位置と人体位置の間の関連関係ラベル、人体位置と動作タイプの間の動作認識ラベルのうちの少なくとも1種を含むことを特徴とする請求項9に記載の動作認識方法。
【請求項11】
前記オブジェクト検出モデルは、少なくとも位置特定ブランチ、関連付けブランチ及び動作認識ブランチを含み、
前記位置特定ブランチは、前記各人物の人顔位置と前記各人物の人体位置とを特定し、
前記関連付けブランチは、同一人物に属する前記人顔位置と前記人体位置とを関連付けさせ、
前記動作認識ブランチは、関連付けられた前記人顔位置と前記人体位置とに基づいて、前記シーン画像に含まれる少なくとも1人の人物と少なくとも1人の人物のうちの各人物に対応する目標動作タイプとを特定することを特徴とする請求項10に記載の動作認識方法。
【請求項12】
シーン画像を取得するための画像取得モジュールと、
前記シーン画像に対して、オブジェクトの異なる部位の検出、同一オブジェクトにおける異なる部位の関連付け及びオブジェクトの動作認識を行い、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定するための動作認識モジュールと、を備えることを特徴とする動作認識装置。
【請求項13】
コンピュータ可読記憶媒体であって、
前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムは、請求項1から11の何れか一項に記載の動作認識方法を実行するために用いられることを特徴とするコンピュータ可読記憶媒体。
【請求項14】
電子機器であって、
プロセッサと、
前記プロセッサで実行され得る実行可能指令を記憶するためのメモリと、を備え、
前記プロセッサは、前記メモリに記憶された実行可能指令を呼び出すことで請求項1から11の何れか一項に記載の動作認識方法を実施するように構成されることを特徴とする電子機器
【請求項15】
コンピュータプログラム製品であって、
前記コンピュータプログラム製品は、コンピュータ可読コードを含み、コンピュータ可読コードが機器で運転されたときに、機器におけるプロセッサは、請求項1から11の何れか一項に記載の動作認識方法を実施することを特徴とするコンピュータプログラム製品。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0125
【補正方法】変更
【補正の内容】
【0125】
本発明の実施例において、所定モデルの構造は、同様に図8に示すように、位置特定ブランチ、関連付けブランチ及び動作認識ブランチを含んでもよい。サンプル画像セットを用いて、所定モデルにおける前記ラベルタイプに対応するブランチのそれぞれをトレーニングし、対応するブランチの損失関数が最も小さい場合に、トレーニングされたオブジェクト検出モデルを取得する。位置特定ブランチは、人顔位置特定ブランチ及び人体位置特定ブランチ(図9に示されていない)を更に含んでもよい。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0126
【補正方法】変更
【補正の内容】
【0126】
幾つかの選択可能な実施例において、シーン画像が取得された後、ステップ102では、前記シーン画像を予めトレーニングされたオブジェクト検出モデルに入力し、前記シーン画像において各オブジェクトの各部位の目標位置を前記オブジェクト検出モデルに特定させ、その後、同一オブジェクトに属する異なる部位の前記目標位置を関連付けさせ、関連付けられた異なる部位の前記目標位置に基づいて、前記シーン画像に含まれる少なくとも1つのオブジェクトのうちの各オブジェクトの目標動作タイプを特定することを更に含んでもいい。
【国際調査報告】