IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

<>
  • 特開-動作認識装置、方法及び電子機器 図1
  • 特開-動作認識装置、方法及び電子機器 図2
  • 特開-動作認識装置、方法及び電子機器 図3A
  • 特開-動作認識装置、方法及び電子機器 図3B
  • 特開-動作認識装置、方法及び電子機器 図3C
  • 特開-動作認識装置、方法及び電子機器 図4
  • 特開-動作認識装置、方法及び電子機器 図5
  • 特開-動作認識装置、方法及び電子機器 図6
  • 特開-動作認識装置、方法及び電子機器 図7
  • 特開-動作認識装置、方法及び電子機器 図8
  • 特開-動作認識装置、方法及び電子機器 図9
  • 特開-動作認識装置、方法及び電子機器 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024028183
(43)【公開日】2024-03-01
(54)【発明の名称】動作認識装置、方法及び電子機器
(51)【国際特許分類】
   G06T 7/20 20170101AFI20240222BHJP
   G06V 10/82 20220101ALI20240222BHJP
   G06T 7/00 20170101ALI20240222BHJP
   G06V 10/22 20220101ALI20240222BHJP
   G06V 10/26 20220101ALI20240222BHJP
【FI】
G06T7/20 300Z
G06V10/82
G06T7/00 660B
G06V10/22
G06V10/26
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023131596
(22)【出願日】2023-08-10
(31)【優先権主張番号】202210998550.1
(32)【優先日】2022-08-19
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ツァイ・ウェヌティン
(72)【発明者】
【氏名】朱 建清
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA13
5L096FA05
5L096FA77
5L096FA79
5L096HA11
5L096HA13
(57)【要約】
【課題】本発明の実施例は、動作認識装置、方法及び電子機器を提供する。
【解決手段】該方法は、第1のニューラルネットワークを使用してビデオフレームを処理し、部位アフィニティフィールド及び信頼度マップを出力するステップと、第2のニューラルネットワークにより該ビデオフレームにおけるオブジェクトを検出し、該オブジェクトのバウンディングボックスを出力するステップと、該部位アフィニティフィールド、該信頼度マップ及び該バウンディングボックスに基づいて該オブジェクトの動作認識を行うステップと、を含む。これによって、動作認識結果の正確性を向上させることができる。
【選択図】図1
【特許請求の範囲】
【請求項1】
動作認識装置であって、
第1のニューラルネットワークを使用してビデオフレームを処理し、部位アフィニティフィールド及び信頼度マップを出力する第1の処理部と、
第2のニューラルネットワークにより前記ビデオフレームにおけるオブジェクトを検出し、前記オブジェクトのバウンディングボックスを出力する第2の処理部と、
前記部位アフィニティフィールド、前記信頼度マップ及び前記バウンディングボックスに基づいて前記オブジェクトの動作認識を行う動作認識部と、を含む、装置。
【請求項2】
前記動作認識部は、
前記信頼度マップに基づいて前記オブジェクトのキーポイント情報を生成する第1の生成部と、
前記部位アフィニティフィールド及び前記キーポイント情報に基づいて、隣接する2つのキーポイント間の部位アフィニティフィールドスコアを計算する第2の生成部と、
前記バウンディングボックスを調整して補正バウンディングボックスを生成する第3の生成部と、
前記キーポイント情報、前記部位アフィニティフィールドスコアに基づいて、前記補正バウンディングボックス内に第1の骨格マップを生成し、前記第1の骨格マップに基づいて前記オブジェクトの動作認識を行う第1の認識部、及び/又は、前記キーポイント情報、前記部位アフィニティフィールドスコアに基づいて、前記補正バウンディングボックス外に第2の骨格マップを生成し、前記第2の骨格マップに基づいて前記オブジェクトの動作認識を行う第2の認識部と、を含む、請求項1に記載の装置。
【請求項3】
前記補正バウンディングボックスが重なっていない場合、前記第1の認識部は、各前記補正バウンディングボックス内に、前記第1の骨格マップをそれぞれ生成し、且つ/或いは、
前記補正バウンディングボックスのうちの少なくとも2つが重なっている場合、前記第1の認識部は、重なっている前記補正バウンディングボックス内のキーポイントを解析し、解析結果に基づいて、各前記補正バウンディングボックス内に、前記第1の骨格マップをそれぞれ生成する、請求項2に記載の装置。
【請求項4】
前記補正バウンディングボックスが重なっていない場合、前記第1の認識部は、前記補正バウンディングボックス内において、各部位タイプについて、信頼度マップのピーク値が最も高いキーポイントを前記部位タイプのキーポイントとして選択し、選択された全てのキーポイントを連結して第1の骨格マップを生成する、請求項3に記載の装置。
【請求項5】
前記補正バウンディングボックスが重なっていない場合、前記第1の認識部は、前記キーポイント情報、前記部位アフィニティフィールドスコア及び前記補正バウンディングボックスに基づいて、前記補正バウンディングボックス内の第3の骨格マップを決定し、
前記第3の骨格マップが1つあるとき、前記第3の骨格マップを前記第1の骨格マップとし、
前記第3の骨格マップが複数あるとき、キーポイントの数が最も多い前記第3の骨格マップを本体とし、キーポイントの数の多い順に、他の第3の骨格マップと前記本体とを融合し、前記第1の骨格マップを生成する、請求項3に記載の装置。
【請求項6】
前記補正バウンディングボックスが重なっている場合、前記第1の認識部は、前記キーポイント情報、前記部位アフィニティフィールドスコア及び重なっている複数の前記補正バウンディングボックスに基づいて、重なっている前記補正バウンディングボックスの範囲内の複数の第4の骨格マップを決定し、
重なっている複数の前記補正バウンディングボックスのうちの1つの補正バウンディングボックスについて、前記第4の骨格マップが利用可能であり、且つ前記第4の骨格マップの前記1つの補正バウンディングボックス内のキーポイントの数が前記第4の骨格マップの前記1つの補正バウンディングボックス外のキーポイントの数よりも多い場合、前記第4の骨格マップを前記1つの補正バウンディングボックスの候補リストにラベル付けし、
前記候補リストにおけるキーポイントの数が最も多い前記第4の骨格マップを本体とし、キーポイントの数の多い順に、前記候補リストにおける他の第4の骨格マップと前記本体とを融合し、前記1つの補正バウンディングボックスに対応する前記第1の骨格マップを生成し、前記第1の骨格マップにおける前記第4の骨格マップを利用不可としてラベル付けする、請求項3に記載の装置。
【請求項7】
前記第2の認識部は、前記キーポイント情報、前記部位アフィニティフィールドスコア及び前記補正バウンディングボックスに基づいて、前記補正バウンディングボックスの範囲外の第5の骨格マップを決定し、第1の所定数以上のキーポイントを含む第5の骨格マップを前記第2の骨格マップとする、請求項2に記載の装置。
【請求項8】
前記第3の生成部は、前記バウンディングボックスを長さ方向及び/又は幅方向に拡大又は縮小して前記補正バウンディングボックスを取得する、請求項2に記載の装置。
【請求項9】
動作認識方法であって、
第1のニューラルネットワークを使用してビデオフレームを処理し、部位アフィニティフィールド及び信頼度マップを出力するステップと、
第2のニューラルネットワークにより前記ビデオフレームにおけるオブジェクトを検出し、前記オブジェクトのバウンディングボックスを出力するステップと、
前記部位アフィニティフィールド、前記信頼度マップ及び前記バウンディングボックスに基づいて前記オブジェクトの動作認識を行うステップと、を含む、方法。
【請求項10】
コンピュータプログラムが記憶されたメモリと、プロセッサとを含む電子機器であって、前記プロセッサは、前記コンピュータプログラムを実行して請求項9に記載の動作認識方法を実現するように構成される、電子機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施例は、ビデオ検出の技術分野に関する。
【背景技術】
【0002】
現在、ビデオフレームにおける1つ又は複数のオブジェクトの動作認識(姿勢推定とも称される)には、トップダウンとボトムアップの2つのアプローチを採用してもよい。トップダウンのアプローチでは、まず、オブジェクト(例えば人体)を検出し、次に、検出された画像領域ごとに各オブジェクトの姿勢を独立して推定する。ボトムアップのアプローチでは、まず、複数のキーポイント(又はキーパーツ)情報を検出し、次に、これらのキーポイントを連結して連結候補を生成し、連結候補に基づいてオブジェクトの骨格マップを生成し、骨格マップに基づいて各オブジェクトの姿勢を推定する。
【0003】
なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、本発明の発明者の発見によると、現在のボトムアップのスキームでは、画像品質、遮蔽又はオブジェクトの姿勢角度などの要因により、オブジェクトの骨格マップを生成する際に、特にビデオフレームにおけるオブジェクトが多い場合、キーポイントのグループ分けが不正確になることなどの問題が発生しやすく、該骨格マップに基づいて動作推定を行う際に、動作認識結果の信頼性が低下しやすくなる。
【0005】
上記の技術的問題の少なくとも1つを鑑み、本発明の実施例は、動作認識結果の正確性を向上させることができる、動作認識装置、方法及び電子機器を提供する。
【課題を解決するための手段】
【0006】
本発明の実施例の1つの態様では、動作認識装置であって、第1のニューラルネットワークを使用してビデオフレームを処理し、部位アフィニティフィールド及び信頼度マップを出力する第1の処理部と、第2のニューラルネットワークにより前記ビデオフレームにおけるオブジェクトを検出し、前記オブジェクトのバウンディングボックスを出力する第2の処理部と、前記部位アフィニティフィールド、前記信頼度マップ及び前記バウンディングボックスに基づいて前記オブジェクトの動作認識を行う動作認識部と、を含む、装置を提供する。
【0007】
本発明の実施例のもう1つの態様では、動作認識方法であって、第1のニューラルネットワークを使用してビデオフレームを処理し、部位アフィニティフィールド及び信頼度マップを出力するステップと、第2のニューラルネットワークにより前記ビデオフレームにおけるオブジェクトを検出し、前記オブジェクトのバウンディングボックスを出力するステップと、前記部位アフィニティフィールド、前記信頼度マップ及び前記バウンディングボックスに基づいて前記オブジェクトの動作認識を行うステップと、を含む、方法を提供する。
【0008】
本発明の実施例のもう1つの態様では、コンピュータプログラムが記憶されたメモリと、プロセッサとを含む電子機器であって、前記プロセッサは、前記コンピュータプログラムを実行して上記の動作認識方法を実現するように構成される、電子機器を提供する。
【0009】
本発明の実施例の有利な効果の1つは以下の通りである。ビデオフレームについて、第1のニューラルネットワークを使用して部位アフィニティフィールド及び信頼度マップを出力し、第2のニューラルネットワークを使用してオブジェクトのバウンディングボックスを出力し、部位アフィニティフィールド、信頼度マップ及びバウンディングボックスに基づいてオブジェクトの動作認識を行う。ボトムアップのスキームでは、トップダウンのスキームにより生成されたバウンディングボックス情報も考慮されるため、キーポイントのグループ分けの正確性を向上させることができるため、オブジェクトの骨格マップに基づいて動作認識を行う際に、動作認識結果の正確性を向上させることができる。
【0010】
本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の変更、修正、及び均等的なものが含まれる。
【図面の簡単な説明】
【0011】
ここで含まれる図面は、本発明の実施例を理解させるためのものであり、本明細書の一部を構成し、本発明の実施例を例示するためのものであり、文言の記載と合わせて本発明の原理を説明する。なお、ここに説明される図面は、単なる本発明の実施例を説明するためのものであり、当業者にとって、これらの図面に基づいて他の図面を容易に得ることができる。
図1】本発明の実施例に係る動作認識方法の1つの概略図である。
図2】本発明の実施例に係るステップ103の1つの概略図である。
図3A】本発明の実施例に係るバウンディングボックスの調整方式の1つの概略図である。
図3B】本発明の実施例に係るバウンディングボックスの調整方式のもう1つの概略図である。
図3C】本発明の実施例に係るバウンディングボックスの調整方式のさらにもう1つの概略図である。
図4】本発明の実施例に係るステップ1034の1つの概略図である。
図5】本発明の実施例に係るステップ1034のもう1つの概略図である。
図6】本発明の実施例に係る動作認識プロセスの1つの概略図である。
図7】本発明の実施例に係る動作認識プロセスのもう1つの概略図である。
図8】本発明の実施例に係る動作認識装置の1つの概略図である。
図9】本発明の実施例に係る動作認識部803の1つの概略図である。
図10】本発明の実施例に係る電子機器の1つの概略図である。
【発明を実施するための形態】
【0012】
本発明の上記及びその他の特徴は、図面及び下記の説明により明確になる。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変形されたもの、及び均等なものを含む。
【0013】
本発明の実施例では、用語「第1」、「第2」は異なる要素を名称で区分するためのものであり、これらの要素の空間的配列又は時間的順序などを意味するものではなく、これらの要素はこれらの用語に限定されない。用語「及び/又は」は列挙された用語の1つ又は複数のうち何れか及びその組み合わせを含む。用語「包括」、「含む」、「有する」は、説明された特徴、要素、素子又は部材の存在を意味するが、他の1つ又は複数の特徴、要素、素子又は部材の存在又は追加を排除するものではない。
【0014】
本発明の実施例では、単数形の「一」、「該」等は複数形を含み、「一種」又は「一類」を意味し、「1つ」に限定するものではない。また、用語「前記」は、文脈上明確に指示されない限り、単数形及び複数形両方を含む。また、文脈上明確に指示されない限り、用語「応じて」は「少なくとも部分的に応じて」を意味し、用語「に基づいて」は「少なくとも部分的に基づいて」を意味する。
【0015】
1つの実施形態について説明及び/又は示される特徴は、1つ又は複数の他の実施形態に同一又は同様な方式で使用され、他の実施形態における特徴と組み合わせ、或いは他の実施形態の特徴の代わりに使用してもよい。用語「包括」又は「含む」は、説明された特徴、要素、素子又は部材の存在を意味するが、他の1つ又は複数の特徴、要素、素子又は部材の存在又は追加を排除するものではない。
【0016】
本発明の実施例では、検出対象としてのオブジェクトは、様々な年齢の人、例えば高齢者であってもよいし、子供であってもよいし、高齢者及び/又は看護スタッフであってもよいし、子供及び/又は保護者であってもよい。本発明はこれらに限定されず、検出対象としてのオブジェクトは、生命徴候(バイタルサイン)を有する人間の体又は他の動物の体であってもよいし、生命徴候を有しないロボットなどであってもよい。
【0017】
<実施例1>
本発明の実施例は、動作認識方法を提供する。図1は、本発明の実施例に係る動作認識方法の1つの概略図である。図1に示すように、該方法は以下のステップを含む。
【0018】
ステップ101:第1のニューラルネットワークを使用してビデオフレームを処理し、部位アフィニティフィールド(Part Affinity Field:PAF)及び信頼度マップ(Confidence Map:CMAP)を出力する。
【0019】
ステップ102:第2のニューラルネットワークによりビデオフレームにおけるオブジェクトを検出し、オブジェクトのバウンディングボックスを出力する。
【0020】
ステップ103:部位アフィニティフィールド、信頼度マップ及びバウンディングボックスに基づいてオブジェクトの動作認識を行う。
【0021】
本実施例によれば、ビデオフレームについて、第1のニューラルネットワークを使用して部位アフィニティフィールド及び信頼度マップを出力し、第2のニューラルネットワークを使用してオブジェクトのバウンディングボックスを出力し、部位アフィニティフィールド、信頼度マップ及びバウンディングボックスに基づいてオブジェクトの動作認識を行う。ボトムアップのスキームでは、トップダウンのスキームにより生成されたバウンディングボックス情報も考慮されるため、キーポイントのグループ分けの正確性を向上させることができるため、オブジェクトの骨格マップに基づいて動作認識を行う際に、動作認識結果の正確性を向上させることができる。
【0022】
なお、以上の図1は単なる本発明の実施例を例示的に説明するものであり、本発明はこれに限定されない。例えば、各ステップ間の実行順序を適宜調整してもよいし、他のステップを追加したり、その一部のステップを削除したりしてもよい。当業者は上記の内容に基づいて適宜変形を行ってもよく、上記の図1の記載に限定されない。
【0023】
幾つかの態様では、ステップ101において、様々なボトムアップのスキームを使用して、オブジェクトの部位アフィニティフィールド(PAF)情報及び信頼度マップ(CMAP)情報を取得してもよい。例えば、ResNet又はDenseNetなどに基づく第1のニューラルネットワークを使用してビデオフレーム又は画像におけるオブジェクトを処理し、オブジェクトのPAF情報及びCMAP情報を取得してもよい。ここで、並列的なサブネットワークを使用してPAF情報及びCMAP情報をそれぞれ取得してもよい。本発明はこれに限定されず、他のネットワークモデル又は他の形式のサブネットワークを使用してPAF情報及びCMAP情報を生成してもよい。ボトムアップのスキーム、第1のニューラルネットワークなどの具体的な内容について、関連技術を参照してもよい。
【0024】
幾つかの態様では、ステップ101において生成された部位アフィニティフィールド(PAF)は、手足と胴体に対応する領域における位置及び方向の情報を保存してもよい。例えば、手足と胴体に属する領域の各画素について、手足と胴体における一方の部分から他方の部分に向かう方向を2次元ベクトルで表してもよい。
【0025】
幾つかの態様では、ステップ102において、様々なトップダウンの認識スキームを使用してオブジェクトのバウンディングボックス(Bounding Box:BBox)を取得してもよい。例えば、YOLOなどに基づく第2のニューラルネットワークによりビデオフレームにおけるオブジェクトを検出し、オブジェクトのBBoxを出力する。該BBoxはオブジェクトを含む矩形枠であってもよく、BBoxの位置はオブジェクトの位置を表すために使用されてもよい。トップダウンの認識スキーム、第2のニューラルネットワークなどの具体的な内容について、関連技術を参照してもよい。
【0026】
幾つかの態様では、ステップ103において、バウンディングボックス内のオブジェクトに対して動作認識を行ってもよく、或いは、バウンディングボックス外のオブジェクトに対して動作認識を行ってもよく、或いは、バウンディングボックス内のオブジェクト及びバウンディングボックス外のオブジェクトに対して動作認識を行ってもよい。
【0027】
図2は、本発明の実施例に係るステップ103の1つの概略図である。幾つかの態様では、図2に示すように、ステップ103は以下のステップを含んでもよい。
【0028】
ステップ1031:信頼度マップに基づいてオブジェクトのキーポイント情報を生成する。
【0029】
ステップ1032:部位アフィニティフィールド及びキーポイント情報に基づいて、隣接する2つのキーポイント間の部位アフィニティフィールドスコアを計算する。
【0030】
ステップ1033:バウンディングボックスを調整して補正バウンディングボックスを生成する。
【0031】
ステップ1034:生成されたキーポイント情報、部位アフィニティフィールドスコアに基づいて、補正バウンディングボックス内に第1の骨格マップを生成し、第1の骨格マップに基づいてオブジェクトの動作認識を行う。
【0032】
ステップ1035:生成されたキーポイント情報、部位アフィニティフィールドスコアに基づいて、補正バウンディングボックス外に第2の骨格マップを生成し、第2の骨格マップに基づいてオブジェクトの動作認識を行う。
【0033】
なお、以上の図2は単なる本発明の実施例を例示的に説明するものであり、本発明はこれに限定されない。例えば、各ステップ間の実行順序を適宜調整してもよいし、他のステップを追加したり、その一部のステップを削除したりしてもよい。例えば、図2に示すように、ステップ103は、ステップ1034及びステップ1035を含んでもよく、或いは、ステップ103は、ステップ1034又はステップ1035を含んでもよい。当業者は上記の内容に基づいて適宜変形を行ってもよく、上記の図2の記載に限定されない。
【0034】
幾つかの態様では、ステップ1031において信頼度マップに基づいてオブジェクトのキーポイント情報を生成する具体的な方式、ステップ1032において部位アフィニティフィールドスコアを生成する具体的な方式は、関連技術を参照してもよい。ここで、ステップ1032において生成されたPAFスコアは、それに対応する連結線の2つの端点(キーポイント)が同一のオブジェクトに属する可能性を反映する値であってもよい。例えば、PAFスコアが高いほど、該2つのキーポイントが同一のオブジェクトに属する可能性が高くなる。
【0035】
ステップ1033において、様々な方式を採用してバウンディングボックスを調整してもよい。図3A図3B及び図3Cは、本発明の実施例に係るバウンディングボックスの調整方式の概略図である。
【0036】
図3Aに示すように、バウンディングボックスAを長手方向に拡大又は縮小して補正バウンディングボックスBを取得してもよい。
【0037】
図3Bに示すように、バウンディングボックスAを幅方向に拡大又は縮小して補正バウンディングボックスBを取得してもよい。
【0038】
図3Cに示すように、バウンディングボックスAを長手方向及び幅方向に拡大又は縮小して補正バウンディングボックスBを取得してもよい。
【0039】
幾つかの態様では、バウンディングボックスAの拡大又は縮小の比率は、画像(ビデオフレーム)におけるオブジェクトのサイズ、適用シナリオ(仰向けに寝ること、座ること、横になること、立つことなど)に関係してもよい。例えば、オブジェクトのキーポイント間の距離に基づいて対応する拡大又は縮小の比率を設定してもよい。これによって、実際の情況に応じてバウンディングボックスの大きさを合理的に設定することができる。本発明はこれに限定されず、他の方式によりバウンディングボックスAの寸法を調整してもよい。或いは、バウンディングボックスAのサイズを調整しなくてもよい。バウンディングボックスAのサイズを調整しない場合、ステップ1034及びステップ1035において、キーポイント情報、部位アフィニティフィールドスコアに基づいて、バウンディングボックスA内/外に第1の骨格マップ/第2の骨格マップを生成し、第1の骨格マップ/第2の骨格マップに基づいてオブジェクトの動作認識を行う。
【0040】
幾つかの態様では、ステップ1034において、画像における補正バウンディングボックスが1つある場合、該補正バウンディングボックス内にオブジェクトの第1の骨格マップを生成する。画像における補正バウンディングボックスが複数(2つ以上)ある場合、該複数の補正バウンディングボックスが重なっていないとき、各補正バウンディングボックス内に、オブジェクトの第1の骨格マップをそれぞれ生成する。
【0041】
幾つかの態様では、骨格マップは、首0、鼻1、左肩6、右肩7、左股関節12、右股関節13、左眼2、右眼3、左肘8、右肘9、左膝14、右膝15、左耳4、右耳5、左手首10、右手首11、左足首16及び右足首17のうちの1つ又は複数のキーポイントを含んでもよい。本発明はこれに限定されず、骨格マップは、上記の18個のキーポイント以外のキーポイントをさらに含んでもよい。骨格マップにおけるキーポイントの数が多いほど、動作認識の正確性が向上し、より細かい動作認識が可能となる。
【0042】
幾つかの態様では、ステップ1031及びステップ1032において、画像の全範囲について、オブジェクトのキーポイント情報及び/又は隣接する2つのキーポイント間の部位アフィニティフィールドスコアを生成してもよく、ステップ1034において、補正バウンディングボックスの画像における位置に基づいて、補正バウンディングボックス内のキーポイントを決定し、補正バウンディングボックスにおいてキーポイントを処理して、該補正バウンディングボックスに対応するオブジェクトの第1の骨格マップを生成してもよい。本発明はこれに限らず、ステップ1031及びステップ1032において、画像の全範囲において、補正バウンディングボックス範囲内の部分画像を選択し、補正バウンディングボックス範囲内のこの部分画像についてオブジェクトのキーポイント情報及び/又は隣接する2つのキーポイント間の部位アフィニティフィールドスコアを生成し、ステップ1034において、補正バウンディングボックスにおいてキーポイントを処理して、該補正バウンディングボックスに対応するオブジェクトの第1の骨格マップを生成してもよい。
【0043】
幾つかの態様では、ステップ1034において、様々な方式でオブジェクトの第1の骨格マップを生成してもよい。
【0044】
例えば、補正バウンディングボックス内において、各部位タイプについて、信頼度マップのピーク値が最も高いキーポイントを部位タイプのキーポイントとして選択し、選択された全てのキーポイントを連結して第1の骨格マップを生成する。ここで、1つの部位タイプは1つのキーポイントに対応する。1つの補正バウンディングボックスは、1つのオブジェクトの画像内での位置を表すことができ、補正バウンディングボックスと他の補正バウンディングボックスとが重なっていない場合、1つの補正バウンディングボックスの範囲に基づいて1つのオブジェクトのキーポイントの画像内での分布範囲を決定することができるため、信頼度マップに基づいて各部位タイプのキーポイントを決定した後、これらのキーポイントを連結すれば、該オブジェクトの骨格マップを得ることができる。これによって、計算リソースを節約することができる。ここで、信頼度マップのピーク値が最も高いキーポイントを部位タイプのキーポイントとして選択する具体的な方式は、関連技術を参照してもよく、ここでその説明を省略する。
【0045】
別の例として、図4は、本発明の実施例に係るステップ1034の1つの概略図である。図4に示すように、ステップ1034は、以下のステップを含んでもよい。
【0046】
ステップ10341:キーポイント情報、部位アフィニティフィールドスコア及び補正バウンディングボックスに基づいて、補正バウンディングボックス内の第3の骨格マップを決定する。
【0047】
ステップ10342:第3の骨格マップが1つあるとき、第3の骨格マップを第1の骨格マップとする。
【0048】
ステップ10343:第3の骨格マップが複数(2つ以上)あるとき、キーポイントの数が最も多い第3の骨格マップを本体とし、キーポイントの数の多い順に、他の第3の骨格マップと本体とを融合し、該補正バウンディングボックスに対応するオブジェクトの第1の骨格マップを生成する。
【0049】
幾つかの態様では、ステップ10341において、様々な方式で第3の骨格マップを生成してもよい。例えば、画像の全範囲において、補正バウンディングボックス範囲内の部分画像を選択し、補正バウンディングボックス範囲内のこの部分画像について、キーポイント情報及び部位アフィニティフィールドスコアに基づいて、該補正バウンディングボックスに対応するオブジェクトの第3の骨格マップを生成してもよい。或いは、画像の全範囲について、キーポイント情報及び部位アフィニティフィールドスコアに基づいて、候補骨格マップを生成し、補正バウンディングボックスに基づいて候補骨格マップを検証する。全てのキーが該補正バウンディングボックス内に入り、或いは所定の比率/数を超えるキーポイントが該補正バウンディングボックス内に入る候補骨格マップを第3の骨格マップとする。
【0050】
幾つかの態様では、キーポイント情報及び部位アフィニティフィールドスコアに基づいて骨格マップを生成する具体的な方式は、関連技術を参照してもよい。例えば、キーポイント情報及び部位アフィニティフィールド(PAF)スコアに基づいてキーポイント連結を行ってキーポイント連結候補を生成し、キーポイント連結候補に基づいて骨格マップを生成する。例えば、キーポイント情報及びPAFスコアに基づいてキーポイント連結を行って、冗長な連結をフィルタリングにより除去し、キーポイント連結候補を生成してもよい。冗長な連結は、異なるオブジェクトのキーポイントが連結された連結であってもよい。その後、隣接する2つの手足と胴体の部位が共通のキーポイントを持つという原則に従って、キーポイント検索などの操作により、1つのオブジェクトに属するキーポイント連結候補を結合し、オブジェクトの骨格マップを取得してもよい。キーポイント連結候補の生成、骨格マップの生成などの具体的な内容について、関連技術を参照してもよい。
【0051】
幾つかの態様では、ステップ10343において、本体に含まれるキーポイントの数が骨格マップに含まれ得るキーポイントの数の最大値である場合、該本体を該補正バウンディングボックスに対応するオブジェクトの第1の骨格マップとする。ここで、該キーポイント数の最大値は、例えば18であってもよく、骨格マップの生成方法に応じて異なってもよい。
【0052】
本体に含まれるキーポイントの数が該最大値よりも小さい場合、本体と他の第3の骨格マップとを融合してもよい。複数の第3の骨格マップが何れも1つの補正バウンディングボックス内に入る場合、該複数の第3の骨格マップが同一のオブジェクトに属する確率が比較的に高い。従って、本体と他の第3の骨格マップとを融合することで、他の第3の骨格マップを用いて本体に欠けているキーポイントに対して補充することができる。
【0053】
幾つかの態様では、本体と他の第3の骨格マップとを融合する際に、他の第3の骨格マップに含まれるキーポイントの数の多い順に、該第3の骨格マップが本体と融合可能であるか否かを順次判断してもよい。これによって、生成された骨格マップの正確性をさらに向上させることができる。
【0054】
幾つかの態様では、様々な方式で本体と他の第3の骨格マップとを融合してもよい。例えば、第3の骨格マップ及び本体が所定の条件を満たす場合、第3の骨格マップのキーポイントを本体に補充する。ここで、該所定の条件とは、例えば、本体のキーポイントの数と現在の第3の骨格マップの数との合計がキーポイントの数の最大値以下であり、且つ現在の第3の骨格マップのキーポイントと本体のキーポイントに同一のタイプのキーポイントが存在せず(例えば、第3の骨格マップと本体の両方に鼻タイプのキーポイントが存在してはならない)、第3の骨格マップのキーポイントと本体に欠けているキーポイントとが隣接していないことである。本発明はこれに限定されず、該所定の条件は他の内容であってもよい。
【0055】
幾つかの態様では、ステップ1034において、画像における補正バウンディングボックスが複数あり、且つ該複数の補正バウンディングボックスのうちの少なくとも2つの補正バウンディングボックスが重なっている場合、重なっている補正バウンディングボックス内のキーポイントを解析し、解析結果に基づいて、各補正バウンディングボックス内に、第1の骨格マップをそれぞれ生成する。重なっている補正バウンディングボックス内のキーポイントを解析することによって、キーポイントがどの補正バウンディングボックスに属するかを決定することができるため、解析結果に基づいて第1の骨格マップを生成する際に、骨格マップの正確性を向上させることができる。
【0056】
幾つかの態様では、様々な方式でキーポイントの解析を行ってもよい。図5は、本発明の実施例に係るステップ1034のもう1つの概略図である。図5に示すように、ステップ1034は、以下のステップを含んでもよい。
【0057】
ステップ1034-1:キーポイント情報、部位アフィニティフィールドスコア及び重なっている複数の補正バウンディングボックスに基づいて、重なっている補正バウンディングボックスの範囲内の複数の第4の骨格マップを決定する。
【0058】
ステップ1034-2:重なっている複数の補正バウンディングボックスのうちの1つの補正バウンディングボックスについて、第4の骨格マップが利用可能であり、且つ第4の骨格マップの該1つの補正バウンディングボックス内のキーポイントの数が第4の骨格マップの該1つの補正バウンディングボックス外のキーポイントの数よりも多い場合、該第4の骨格マップを該1つの補正バウンディングボックスの候補リストにラベル付けする。
【0059】
ステップ1034-3:候補リストにおけるキーポイントの数が最も多い第4の骨格マップを本体とし、キーポイントの数の多い順に、候補リストにおける他の第4の骨格マップと本体とを融合し、補正バウンディングボックスに対応する第1の骨格マップを生成し、第1の骨格マップにおける第4の骨格マップを利用不可としてラベル付けする。
【0060】
幾つかの態様では、ステップ1034-1において、様々な方式で第4の骨格マップを生成してもよい。例えば、画像の全範囲において、重なっている補正バウンディングボックスが共同で規定する範囲内の部分画像を選択し、この部分画像について、キーポイント情報及び部位アフィニティフィールドスコアに基づいて、第4の骨格マップを生成してもよい。或いは、画像の全範囲について、キーポイント情報及び部位アフィニティフィールドスコアに基づいて、候補骨格マップを生成し、重なっている補正バウンディングボックスが共同で規定する範囲に基づいて候補骨格マップを検証する。全てのキーが該範囲内に入り、或いは所定の比率/数を超えるキーポイントが該範囲内に入る候補骨格マップを第4の骨格マップとする。
【0061】
幾つかの態様では、ステップ1034-2において、第4の骨格マップが利用可能であることとは、該第4の骨格マップが第1の骨格マップに含まれていないことを意味する。
【0062】
幾つかの態様では、ステップ1034-2において、補正バウンディングボックスの候補リストを決定する際に、補正バウンディングボックスのサイズの小さい順に、補正バウンディングボックスの候補リストを決定してもよい。該補正バウンディングボックスの候補リストは、該補正バウンディングボックスに対応するオブジェクトを構成する第1の骨格マップの候補を含み、即ち、候補リストにおける第4の骨格マップは、該補正バウンディングボックスに対応するオブジェクトの第1の骨格マップに含まれる可能性がある。
【0063】
幾つかの態様では、ステップ1034-3において、候補リストにおける本体と候補リストにおける他の第4の骨格マップとを融合する方式は、ステップ10343において本体と他の第3の骨格マップとを融合する方法と同一又は類似であってもよい。
【0064】
幾つかの態様では、ステップ1034-2及びステップ1034-3は、全ての補正バウンディングボックスが処理されるまで、或いは、全ての第4の骨格マップが利用できなくなるまで、繰り返し実行されてもよい。
【0065】
幾つかの態様では、ステップ1035において、様々な方式で補正バウンディングボックス外に第2の骨格マップを生成してもよい。例えば、キーポイント情報、部位アフィニティフィールドスコア及び補正バウンディングボックスに基づいて、補正バウンディングボックスの範囲外の第5の骨格マップを決定し、第1の所定数以上のキーポイントを含む第5の骨格マップを第2の骨格マップとする。
【0066】
ここで、様々な方式で補正バウンディングボックスの範囲外の第5の骨格マップを決定してもよい。例えば、画像の全範囲にわたって、補正バウンディングボックスの範囲外の部分画像を選択し、この部分画像について、キーポイント情報及び部位アフィニティフィールドスコアに基づいて、第5の骨格マップを生成してもよい。或いは、画像の全範囲について、キーポイント情報及び部位アフィニティフィールドスコアに基づいて、候補骨格マップを生成し、補正バウンディングボックスの範囲に基づいて候補骨格マップを検証する。全てのキーポイントが補正バウンディングボックスの範囲外にあり、或いは所定の比率/数を超えるキーポイントが補正バウンディングボックスの範囲外にある骨格マップを第5の骨格マップとする。
【0067】
幾つかの態様では、第1の所定数は、様々な所定数であってもよい。例えば、キーポイントの数の最大値に関連する数であってもよい。例えば、骨格マップに含まれるキーポイントの数の最大値が18である場合、該第1の所定数は6であってもよい。
【0068】
幾つかの態様では、ステップ1034及びステップ1035における第1の骨格マップ/第2の骨格マップに基づいてオブジェクトの動作認識を行う具体的な方式は、関連技術を参照してもよい。
【0069】
図6は、本発明の実施例に係る動作認識プロセスの1つの概略図である。図6に示すように、該動作認識プロセスでは、ボトムアップネットワーク(第1のニューラルネットワーク)によりビデオフレーム(画像)を処理し、PAF及びCMAPを出力し、トップダウンネットワーク(第2のニューラルネットワーク)によりビデオフレーム(画像)を処理し、ビデオフレームにおけるオブジェクトのBBoxを出力し、PAF及びCMAP、並びにオブジェクトのBBoxに基づいて後処理を行い、ビデオフレームのオブジェクトに対して動作認識を行う。
【0070】
図7は、本発明の実施例に係る動作認識プロセスのもう1つの概略図である。図7に示すように、ビデオフレーム又は画像をYOLOターゲット検出モデル及びOpenPoseターゲット検出モデルにそれぞれ入力してもよい。OpenPoseターゲット検出モデルによりCMAP及びPAFを生成し(具体的な手順は、ステップ101を参照してもよい)、YOLOターゲット検出モデルによりBBoxを生成し(具体的な手順は、ステップ102を参照してもよい)、BBoxに基づいて補正BBox(補正バウンディングボックス)を生成し(具体的な手順は、ステップ1033を参照してもよい)、CMAPに基づいてオブジェクトのキーポイント情報を生成し(具体的な手順は、ステップ1031を参照してもよい)、PAF及びキーポイント情報に基づいて隣接する2つのキーポイント間のPAFスコアを計算し(具体的な手順は、ステップ1032を参照してもよい)、補正バウンディングボックスに基づいてキーポイントを分類し、即ち、画像の全範囲にわたって、補正バウンディングボックスの範囲内の部分画像と補正バウンディングボックスの範囲外の部分画像をラベル付けし(具体的な手順は、ステップ10341、1034-1、1035を参照してもよい)、部分画像が補正バウンディングボックス内にあるか否かを判断し、補正バウンディングボックスの範囲内の部分画像と補正バウンディングボックスの範囲外の部分画像のそれぞれについてキーポイントのグループ分けを行い(具体的な手順は、ステップ10341、1034-1、1035を参照してもよい)、第1の骨格マップ/第2の骨格マップに基づいてオブジェクトの動作認識を行う(具体的な手順は、ステップ1034及び1035を参照してもよい)。
【0071】
以上は、単に本発明に関連するステップ又はプロセスを説明しており、本発明はこれに限定されない。動作検出方法は、他のステップ又はプロセスをさらに含んでもよく、これらのステップ又はプロセスの具体的な内容について、従来技術を参照してもよい。また、以上は、単に動作検出モデルの幾つかの構造を例として本発明の実施例を例示的に説明しており、本発明は、これらの構造に限定されず、これらの構造に適切な変形を行ってもよく、これらの変形は、本発明の実施例の範囲内に含まれるべきである。
【0072】
上記の各実施例は、単に本発明の実施例を例示的に説明するものであり、本発明はこれらに限定されず、上記の様々な実施例に基づいて適切な変形を行ってもよい。例えば、上記の各実施例を単独で使用してもよいし、上記の各実施例の1つ又は複数を組み合わせて使用してもよい。
【0073】
本実施例によれば、ビデオフレームについて、第1のニューラルネットワークを使用して部位アフィニティフィールド及び信頼度マップを出力し、第2のニューラルネットワークを使用してオブジェクトのバウンディングボックスを出力し、部位アフィニティフィールド、信頼度マップ及びバウンディングボックスに基づいてオブジェクトの動作認識を行う。ボトムアップのスキームでは、トップダウンのスキームにより生成されたバウンディングボックス情報も考慮されるため、キーポイントのグループ分けの正確性を向上させることができるため、オブジェクトの骨格マップに基づいて動作認識を行う際に、動作認識結果の正確性を向上させることができる。
【0074】
<実施例2>
本発明の実施例は動作認識装置を提供し、実施例1と同様な内容についてその説明を省略する。
【0075】
図8は、本発明の実施例に係る動作認識装置の1つの概略図である。図8に示すように、動作認識装置800は、以下の各部を含む。
【0076】
第1の処理部801は、第1のニューラルネットワークを使用してビデオフレームを処理し、部位アフィニティフィールド及び信頼度マップを出力する。
【0077】
第2の処理部802は、第2のニューラルネットワークによりビデオフレームにおけるオブジェクトを検出し、オブジェクトのバウンディングボックスを出力する。
【0078】
動作認識部803は、部位アフィニティフィールド、信頼度マップ及びバウンディングボックスに基づいて前記オブジェクトの動作認識を行う。
【0079】
図9は、本発明の実施例に係る動作認識部803の1つの概略図である。幾つかの態様では、図9に示すように、動作認識部803は、以下の各部を含む。
【0080】
第1の生成部8031は、信頼度マップに基づいてオブジェクトのキーポイント情報を生成する。
【0081】
第2の生成部8032は、部位アフィニティフィールド及びキーポイント情報に基づいて、隣接する2つのキーポイント間の部位アフィニティフィールドスコアを計算する。
【0082】
第3の生成部8033は、バウンディングボックスを調整して補正バウンディングボックスを生成する。
【0083】
第1の認識部8034は、キーポイント情報、部位アフィニティフィールドスコアに基づいて、補正バウンディングボックス内に第1の骨格マップを生成し、第1の骨格マップに基づいてオブジェクトの動作認識を行う。且つ/或いは、第2の認識部8035は、キーポイント情報、部位アフィニティフィールドスコアに基づいて、補正バウンディングボックス外に第2の骨格マップを生成し、第2の骨格マップに基づいてオブジェクトの動作認識を行う。
【0084】
幾つかの態様では、第1の認識部8034は、補正バウンディングボックスが重なっていない場合、各補正バウンディングボックス内に、第1の骨格マップをそれぞれ生成し、且つ/或いは、第1の認識部8034は、補正バウンディングボックスのうちの少なくとも2つが重なっている場合、重なっている前記補正バウンディングボックス内のキーポイントを解析し、解析結果に基づいて、各補正バウンディングボックス内に、第1の骨格マップをそれぞれ生成する。
【0085】
幾つかの態様では、補正バウンディングボックスが重なっていない場合、第1の認識部8034は、補正バウンディングボックス内において、各部位タイプについて、信頼度マップのピーク値が最も高いキーポイントを部位タイプのキーポイントとして選択し、選択された全てのキーポイントを連結して第1の骨格マップを生成する。
【0086】
幾つかの態様では、補正バウンディングボックスが重なっていない場合、第1の認識部8034は、キーポイント情報、部位アフィニティフィールドスコア及び補正バウンディングボックスに基づいて、補正バウンディングボックス内の第3の骨格マップを決定し、第3の骨格マップが1つあるとき、第3の骨格マップを第1の骨格マップとし、第3の骨格マップが複数あるとき、キーポイントの数が最も多い第3の骨格マップを本体とし、キーポイントの数の多い順に、他の第3の骨格マップと本体とを融合し、第1の骨格マップを生成する。
【0087】
幾つかの態様では、補正バウンディングボックスが重なっている場合、第1の認識部8034は、キーポイント情報、部位アフィニティフィールドスコア及び重なっている複数の補正バウンディングボックスに基づいて、重なっている補正バウンディングボックスの範囲内の複数の第4の骨格マップを決定し、重なっている複数の補正バウンディングボックスのうちの1つの補正バウンディングボックスについて、第4の骨格マップが利用可能であり、且つ第4の骨格マップの1つの補正バウンディングボックス内のキーポイントの数が第4の骨格マップの1つの補正バウンディングボックス外のキーポイントの数よりも多い場合、第4の骨格マップを1つの補正バウンディングボックスの候補リストにラベル付けし、候補リストにおけるキーポイントの数が最も多い第4の骨格マップを本体とし、キーポイントの数の多い順に、候補リストにおける他の第4の骨格マップと前記本体とを融合し、1つの補正バウンディングボックスに対応する第1の骨格マップを生成し、第1の骨格マップにおける第4の骨格マップを利用不可としてラベル付けする。
【0088】
幾つかの態様では、第2の認識部8035は、キーポイント情報、部位アフィニティフィールドスコア及び補正バウンディングボックスに基づいて、補正バウンディングボックスの範囲外の第5の骨格マップを決定し、第1の所定数以上のキーポイントを含む第5の骨格マップを第2の骨格マップとする。
【0089】
幾つかの態様では、第3の生成部8033は、バウンディングボックスを長さ方向及び/又は幅方向に拡大又は縮小して補正バウンディングボックスを取得する。
【0090】
なお、以上は、単に本発明に関連する各構成要素又はモジュールを説明しており、本発明はこれに限定されない。動作認識装置800は、他の構成要素又はモジュールを含んでもよく、これらの構成要素又はモジュールの具体的な内容について、関連技術を参照してもよい。
【0091】
簡単にするために、図8は、単に各構成要素又はモジュール間の接続関係又は信号方向を例示的に示しており、バス接続などの様々な関連技術を使用できることは当業者にとって明らかである。上記の様々な構成要素又はモジュールは、プロセッサ及びメモリなどのハードウェア装置により実現されてもよく、本発明の実施例はこれに限定されない。
【0092】
上記の各実施例は、単に本発明の実施例を例示的に説明するものであり、本発明はこれらに限定されず、上記の様々な実施例に基づいて適切な変形を行ってもよい。例えば、上記の各実施例を単独で使用してもよいし、上記の各実施例の1つ又は複数を組み合わせて使用してもよい。
【0093】
本実施例によれば、ビデオフレームについて、第1のニューラルネットワークを使用して部位アフィニティフィールド及び信頼度マップを出力し、第2のニューラルネットワークを使用してオブジェクトのバウンディングボックスを出力し、部位アフィニティフィールド、信頼度マップ及びバウンディングボックスに基づいてオブジェクトの動作認識を行う。ボトムアップのスキームでは、トップダウンのスキームにより生成されたバウンディングボックス情報も考慮されるため、キーポイントのグループ分けの正確性を向上させることができるため、オブジェクトの骨格マップに基づいて動作認識を行う際に、動作認識結果の正確性を向上させることができる。
【0094】
<実施例3>
本発明の実施例は、実施例2に記載された動作認識装置800を含む電子機器を提供し、ここでその内容を援用する。該電子機器は、例えばコンピュータ、サーバ、ワークステーション、ラップトップコンピュータ、スマートフォンなどであってもよいが、本発明の実施例はこれらに限定されない。
【0095】
図10は、本発明の実施例に係る電子機器の概略図である。図10に示すように、本発明の実施例に係る電子機器1000は、プロセッサ(例えば、中央処理装置(CPU))1010、及びメモリ1020を含む。メモリ1020は、プロセッサ1010に接続される。メモリ1020は、様々なデータを記憶してもよく、情報処理のプログラム1021をさらに記憶してもよい。プロセッサ1010の制御により該プログラム1021を実行する。
【0096】
幾つかの態様では、動作認識装置800の機能はプロセッサ1010に統合されてもよい。ここで、プロセッサ1010は、実施例1に記載された動作認識方法を実現するように構成されてもよい。
【0097】
幾つかの態様では、動作認識装置800はプロセッサ1010とそれぞれ配置されてもよく、例えば、動作認識装置800はプロセッサ1010に接続されたチップであり、プロセッサ1010の制御により動作認識装置800の機能を実現するように構成されてもよい。
【0098】
例えば、該プロセッサ1010は、第1のニューラルネットワークを使用してビデオフレームを処理し、部位アフィニティフィールド及び信頼度マップを出力し、第2のニューラルネットワークにより該ビデオフレームにおけるオブジェクトを検出し、該オブジェクトのバウンディングボックスを出力し、該部位アフィニティフィールド、該信頼度マップ及び該バウンディングボックスに基づいて該オブジェクトの動作認識を行うように構成されてもよい。
【0099】
また、図10に示すように、電子機器1000は、入力出力(I/O)装置1030及びディスプレイ1040などをさらに含んでもよい。ここで、該構成部の機能は従来技術と同様であり、ここでその説明を省略する。なお、電子機器1000は、図10に示す全ての構成部を含まなくてもよい。また、電子機器1000は、図10に示していない構成部を含んでもよく、従来技術を参考してもよい。
【0100】
本発明の実施例は、電子機器においてプログラムを実行する際に、コンピュータに該電子機器において実施例1に記載の動作認識方法を実行させる、コンピュータ読み取り可能なプログラムを提供する。
【0101】
本発明の実施例は、コンピュータに電子機器において実施例1に記載の動作認識方法を実行させるためのコンピュータ読み取り可能なプログラムが記憶されている、記憶媒体をさらに提供する。
【0102】
本発明の以上の装置及び方法は、ハードウェアにより実現されてもよく、ハードウェアとソフトウェアを結合して実現されてもよい。本発明はコンピュータが読み取り可能なプログラムに関し、該プログラムは論理部により実行される時に、該論理部に上述した装置又は構成要件を実現させる、或いは該論理部に上述した各種の方法又はステップを実現させることができる。本発明は上記のプログラムを記憶するための記憶媒体、例えばハードディスク、磁気ディスク、光ディスク、DVD、フラッシュメモリ等に関する。
【0103】
本発明の実施例を参照しながら説明した方法/装置は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、図面に示す機能的ブロック図における1つ若しくは複数、又は機能的ブロック図の1つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、図面に示す各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ(FPGA)を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。
【0104】
ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、モバイルハードディスク、CD-ROM又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込んだりするように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はASICに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、機器(例えば移動端末)が比較的に大きい容量のMEGA-SIMカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該MEGA-SIMカード又は大容量のフラッシュメモリ装置に記憶されてもよい。
【0105】
図面に記載されている1つ以上の機能ブロック及び/又は機能ブロックの1つ以上の組合せは、本発明に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)又は他のプログラマブル論理デバイス、ディスクリートゲート又はトランジスタ論理装置、ディスクリートハードウェアコンポーネント、又はそれらの任意の適切な組み合わせで実現されてもよい。図面に記載されている1つ以上の機能ブロック及び/又は機能ブロックの1つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばDSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSP通信と組み合わせた1つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。
【0106】
以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び変更を行ってもよく、これらの変形及び変更も本発明の範囲に属する。
【0107】
また、上述の実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
動作認識方法であって、
第1のニューラルネットワークを使用してビデオフレームを処理し、部位アフィニティフィールド及び信頼度マップを出力するステップと、
第2のニューラルネットワークにより前記ビデオフレームにおけるオブジェクトを検出し、前記オブジェクトのバウンディングボックスを出力するステップと、
前記部位アフィニティフィールド、前記信頼度マップ及び前記バウンディングボックスに基づいて前記オブジェクトの動作認識を行うステップと、を含む、方法。
(付記2)
前記部位アフィニティフィールド、前記信頼度マップ及び前記バウンディングボックスに基づいて前記オブジェクトの動作認識を行うステップは、
前記信頼度マップに基づいて前記オブジェクトのキーポイント情報を生成するステップと、
前記部位アフィニティフィールド及び前記キーポイント情報に基づいて、隣接する2つのキーポイント間の部位アフィニティフィールドスコアを計算するステップと、
前記バウンディングボックスを調整して補正バウンディングボックスを生成するステップと、
前記キーポイント情報、前記部位アフィニティフィールドスコアに基づいて、前記補正バウンディングボックス内に骨格マップを生成し、前記骨格マップに基づいて前記オブジェクトの動作認識を行うステップ、及び/又は、前記キーポイント情報、前記部位アフィニティフィールドスコアに基づいて、前記補正バウンディングボックス外に骨格マップを生成し、前記骨格マップに基づいて前記オブジェクトの動作認識を行うステップと、を含む、付記1に記載の方法。
(付記3)
前記キーポイント情報、前記部位アフィニティフィールドスコアに基づいて、前記補正バウンディングボックス内に骨格マップを生成するステップは、
前記補正バウンディングボックスが重なっていない場合、各前記補正バウンディングボックス内に、前記骨格マップをそれぞれ生成するステップ、及び/又は、
前記補正バウンディングボックスのうちの少なくとも2つが重なっている場合、重なっている前記補正バウンディングボックス内のキーポイントを解析し、解析結果に基づいて、各前記補正バウンディングボックス内に、前記骨格マップをそれぞれ生成するステップ、を含む、付記2に記載の方法。
(付記4)
前記補正バウンディングボックスが重なっていない場合、各前記補正バウンディングボックス内に、前記骨格マップをそれぞれ生成するステップは、
前記補正バウンディングボックス内において、各部位タイプについて、信頼度マップのピーク値が最も高いキーポイントを前記部位タイプのキーポイントとして選択し、選択された全てのキーポイントを連結して骨格マップを生成するステップ、を含む、付記3に記載の方法。
(付記5)
前記補正バウンディングボックスが重なっていない場合、各前記補正バウンディングボックス内に、前記骨格マップをそれぞれ生成するステップは、
前記キーポイント情報、前記部位アフィニティフィールドスコア及び前記補正バウンディングボックスに基づいて、前記補正バウンディングボックス内の第3の骨格マップを決定するステップと、
前記第3の骨格マップが1つあるとき、前記第3の骨格マップを前記骨格マップとするステップと、
前記第3の骨格マップが複数あるとき、キーポイントの数が最も多い前記第3の骨格マップを本体とし、キーポイントの数の多い順に、他の第3の骨格マップと前記本体とを融合し、前記骨格マップを生成するステップと、を含む、付記3に記載の方法。
(付記6)
前記補正バウンディングボックスのうちの少なくとも2つが重なっている場合、重なっている前記補正バウンディングボックス内のキーポイントを解析し、解析結果に基づいて、各前記補正バウンディングボックス内に、前記骨格マップをそれぞれ生成するステップは、
前記キーポイント情報、前記部位アフィニティフィールドスコア及び重なっている複数の前記補正バウンディングボックスに基づいて、重なっている前記補正バウンディングボックスの範囲内の複数の第4の骨格マップを決定するステップと、
重なっている複数の前記補正バウンディングボックスのうちの1つの補正バウンディングボックスについて、前記第4の骨格マップが利用可能であり、且つ前記第4の骨格マップの前記1つの補正バウンディングボックス内のキーポイントの数が前記第4の骨格マップの前記1つの補正バウンディングボックス外のキーポイントの数よりも多い場合、前記第4の骨格マップを前記1つの補正バウンディングボックスの候補リストにラベル付けするステップと、
前記候補リストにおけるキーポイントの数が最も多い前記第4の骨格マップを本体とし、キーポイントの数の多い順に、前記候補リストにおける他の第4の骨格マップと前記本体とを融合し、前記補正バウンディングボックスに対応する前記骨格マップを生成し、前記骨格マップにおける前記第4の骨格マップを利用不可としてラベル付けするステップと、を含む、付記3に記載の方法。
(付記7)
前記キーポイント情報、前記部位アフィニティフィールドスコアに基づいて、前記補正バウンディングボックス外に骨格マップを生成するステップは、
前記キーポイント情報、前記部位アフィニティフィールドスコア及び前記補正バウンディングボックスに基づいて、前記補正バウンディングボックスの範囲外の第5の骨格マップを決定するステップと、
第1の所定数以上のキーポイントを含む第5の骨格マップを前記骨格マップとするステップと、を含む、付記2に記載の方法。
(付記8)
前記バウンディングボックスを調整して補正バウンディングボックスを生成するステップは、
前記バウンディングボックスを長さ方向及び/又は幅方向に拡大又は縮小して前記補正バウンディングボックスを取得するステップ、を含む、付記2に記載の方法。
(付記9)
コンピュータ読み取り可能なプログラムが記憶された記憶媒体であって、前記コンピュータ読み取り可能なプログラムは、コンピュータに電子機器において付記1乃至7の何れかに記載の動作認識方法を実行させる、記憶媒体。
図1
図2
図3A
図3B
図3C
図4
図5
図6
図7
図8
図9
図10