(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-05
(45)【発行日】2024-11-13
(54)【発明の名称】動作認識方法、動作認識装置及び電子機器
(51)【国際特許分類】
G06T 7/00 20170101AFI20241106BHJP
G06T 7/20 20170101ALI20241106BHJP
【FI】
G06T7/00 300F
G06T7/20 300
(21)【出願番号】P 2020169125
(22)【出願日】2020-10-06
【審査請求日】2023-07-07
(31)【優先権主張番号】201910977125.2
(32)【優先日】2019-10-15
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】イヌ・ルォイ
(72)【発明者】
【氏名】ジュ・シエヌタヌ
(72)【発明者】
【氏名】タヌ・ジミン
【審査官】高野 美帆子
(56)【参考文献】
【文献】特開2019-144830(JP,A)
【文献】山本 正信 MASANOBU YAMAMOTO,インバースアニメーション:映像からの動作の計測・認識・再利用 Inverse Animation: An Approach to Image-based Motion Caputuring, Gesture Recognition and Performance Animation,情報処理学会論文誌 第47巻 No.SIG9(CVIM14) IPSJ,日本,社団法人情報処理学会 Information Processing Society of Japan,第47巻
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 7/20
(57)【特許請求の範囲】
【請求項1】
動作認識装置であって、
画像フレームにおける対象人体のキーポイントの情報を処理し、前記対象人体のキーポイント特徴を計算するキーポイント特徴抽出部であって、前記キーポイント特徴は、前記対象人体の所定キーポイントの位置及び所定関節の角度を含む、キーポイント特徴抽出部と、
前記キーポイント特徴に基づいて、前記対象人体の動作を認識し、第1認識結果を出力する第1認識部と、を含
み、
前記キーポイント特徴抽出部は、画像フレームにおける対象人体のキーポイントの情報を処理する際に、
前記画像フレームにおける前記対象人体の高さに基づいて、前記画像フレームにおける前記対象人体の所定キーポイントの座標値を調整し、
前記画像フレームにおける前記対象人体の所定キーポイントの調整後の座標値に基づいて、前記所定関節の角度を計算し、
前記画像フレームにおける前記対象人体の高さは、前記画像フレームにおける前記対象人体の目の所在するキーポイントの高さ方向の座標値と、前記画像フレームにおける前記対象人体の足首の所在するキーポイントの高さ方向の座標値との差である、動作認識装置。
【請求項2】
前記対象人体の前記所定キーポイントの動きパラメータ、及び/又は前記画像フレームの前の履歴画像フレームにおける前記対象人体の動作について第2認識部により出力された第2認識結果に基づいて、前記第1認識結果を補正し、前記画像フレームにおける前記対象人体の動作についての第2認識結果を出力する前記第2認識部、をさらに含む、請求項1に記載の動作認識装置。
【請求項3】
前記画像フレームにおける前記対象人体の各前記所定キーポイントと前記履歴画像フレームにおける前記対象人体の各前記所定キーポイントとの間の動きベクトルを計算し、各前記所定キーポイントの動きベクトルに基づいて前記動きパラメータを計算するキーポイント動きパラメータ計算部、をさらに含む、請求項
2に記載の動作認識装置。
【請求項4】
前記動きパラメータは、各前記所定キーポイントの動きベクトルの平均値、及び/又は各前記所定キーポイントの動きベクトルの標準偏差、及び/又は各前記所定キーポイントの動き方向、及び/又は所定方向に沿って動く前記所定キーポイントの数を含む、請求項
3に記載の動作認識装置。
【請求項5】
前記画像フレームの取得レートに基づいて、履歴画像フレームと前記画像フレームとの間に介在する画像フレームの数を決定する画像フレーム間隔決定部、をさらに含む、請求項
2に記載の動作認識装置。
【請求項6】
請求項1乃至
5の何れかに記載の動作認識装置を有する電子装置。
【請求項7】
動作認識方法であって、
画像フレームにおける対象人体のキーポイントの情報を処理し、前記対象人体のキーポイント特徴を計算するステップであって、前記キーポイント特徴は、前記対象人体の所定キーポイントの位置及び所定関節の角度を含む、ステップと、
前記キーポイント特徴に基づいて、前記対象人体の動作を認識し、第1認識結果を出力するステップと、を含
み、
前記画像フレームにおける対象人体のキーポイントの情報を処理する際に、
前記画像フレームにおける前記対象人体の高さに基づいて、前記画像フレームにおける前記対象人体の所定キーポイントの座標値を調整し、
前記画像フレームにおける前記対象人体の所定キーポイントの調整後の座標値に基づいて、前記所定関節の角度を計算し、
前記画像フレームにおける前記対象人体の高さは、前記画像フレームにおける前記対象人体の目の所在するキーポイントの高さ方向の座標値と、前記画像フレームにおける前記対象人体の足首の所在するキーポイントの高さ方向の座標値との差である、動作認識方法。
【請求項8】
前記対象人体の前記所定キーポイントの動きパラメータ、及び/又は前記画像フレームの前の履歴画像フレームにおける前記対象人体の動作について出力された第2認識結果に基づいて、前記第1認識結果を補正し、前記画像フレームにおける前記対象人体の動作についての第2認識結果を出力するステップ、をさらに含む、請求項
7に記載の動作認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子情報技術の分野に関する。
【背景技術】
【0002】
人体の動作認識(action recognition)は幅広く応用される可能性がある。例えば、人体の動作認識は、消費者行動の分析、ヘルスケア、スマートファクトリーなどのシナリオに適用できる。
【0003】
従来の技術では、一般的な動作認識方法は、カメラにより撮影された画像フレームに基づいて人体の動作認識を行う方法を含む。例えば、深層学習ネットワークに基づく分類器を用いて画像フレームを分類し、画像フレームにおける人体の動作を認識する。また、動作認識方法は、カメラにより撮影された画像フレームから人体のキーポイントを抽出し、キーポイントに基づいて人体の動作を認識する方法を含む。
【0004】
なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の発明者の発見によると、一般的な動作認識方法には幾つかの制限がある。例えば、深層学習ネットワークに基づく分類器を用いる方法では、深層学習ネットワークを訓練するために大量の訓練データが必要であり、また、該方法は、画像信号を直接分類するため、計算量が大きく、画像内の他の情報により干渉され、認識の効率が高くない。さらに、新しい動作を認識する場合、該新しい動作について該深層学習ネットワークを再訓練する必要があるため、該方法のスケーラビリティは低い。人体のキーポイントに基づいて人体の動作を認識する方法では、用いられるパラメータが比較的に単一であるため、認識結果の正確性を確保することは困難である。
【0006】
本発明の実施例は、動作認識方法、動作認識装置及び電子装置を提供し、該動作認識装置は、画像フレームにおける人体のキーポイントの位置及び関節の角度に基づいて人体の動作を認識することで、計算量が小さく、正確性が高い。
【課題を解決するための手段】
【0007】
本発明の実施例の第1態様では、動作認識装置であって、画像フレームにおける対象人体のキーポイントの情報を処理し、前記対象人体のキーポイント特徴を計算するキーポイント特徴抽出部であって、前記キーポイント特徴は、前記対象人体の所定キーポイントの位置及び所定関節の角度を含む、キーポイント特徴抽出部と、前記キーポイント特徴に基づいて、前記対象人体の動作を認識し、第1認識結果を出力する第1認識部と、を含む、動作認識装置を提供する。
【0008】
本発明の実施例の第2態様では、動作認識方法であって、画像フレームにおける対象人体のキーポイントの情報を処理し、前記対象人体のキーポイント特徴を計算するステップであって、前記キーポイント特徴は、前記対象人体の所定キーポイントの位置及び所定関節の角度を含む、ステップと、前記キーポイント特徴に基づいて、前記対象人体の動作を認識し、第1認識結果を出力するステップと、を含む、動作認識方法を提供する。
【0009】
本発明の実施例の第3態様では、本発明の実施例の第1態様に記載の動作認識装置を有する電子装置を提供する。
【0010】
本発明の実施例の有利な効果は以下の通りである。画像フレームにおける人体のキーポイントの位置及び関節の角度に基づいて人体の動作を認識することで、計算量が小さく、正確性が高い。
【0011】
本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変、修正、及び均等的なものが含まれる。
【0012】
ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。
【0013】
なお、用語「含む/有する」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。
【図面の簡単な説明】
【0014】
ここで含まれる図面は、本発明の実施例を理解させるためのものであり、本明細書の一部を構成し、本発明の実施例を例示するためのものであり、文言の記載と合わせて本発明の原理を説明する。なお、ここに説明される図面は、単なる本発明の実施例を説明するためのものであり、当業者にとって、これらの図面に基づいて他の図面を容易に得ることができる。
【
図1】本発明の実施例1の動作認識装置の一例の概略図である。
【
図2】現在の画像フレームにおける対象人体のキーポイントの一例の概略図である。
【
図4】キーポイント特徴抽出部によるキーポイント特徴の計算方法の一例の概略図である。
【
図5】第2認識部による第1認識結果の調整の一例の概略図である。
【
図6】本発明の実施例2の動作認識方法の一例の概略図である。
【
図7】本発明の実施例3の電子機器の構成の一例の概略図である。
【発明を実施するための形態】
【0015】
本発明の上記及びその他の特徴は、図面及び下記の説明により明確になる。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変形されたもの、及び均等なものを含む。
【0016】
本発明の実施例では、用語「第1」、「第2」は異なる要素を名称で区分するためのものであり、これらの要素の空間的配列又は時間的順序などを意味するものではなく、これらの要素はこれらの用語に限定されない。用語「及び/又は」は列挙された用語の1つ又は複数のうち何れか及びその組み合わせを含む。用語「包括」、「含む」、「有する」は説明された特徴、要素、素子又は部材の存在を意味するが、他の1つ又は複数の特徴、要素、素子又は部材の存在又は追加を排除するものではない。
【0017】
本発明の実施例では、単数形の「一」、「該」等は複数形を含み、「一種」又は「一類」を意味し、「1つ」に限定するものではない。また、用語「前記」は、文脈上明確に指示されない限り、単数形及び複数形両方を含む。また、文脈上明確に指示されない限り、用語「応じて」は「少なくとも部分的に応じて」を意味し、用語「に基づいて」は「少なくとも部分的に基づいて」を意味する。
【0018】
<実施例1>
本発明の実施例1は動作認識装置を提供する。
【0019】
図1は本発明の実施例1の動作認識装置の一例の概略図である。
図1に示すように、該動作認識装置1は、キーポイント特徴抽出部11及び第1認識部12を含む。
【0020】
ここで、キーポイント特徴抽出部11は、画像フレームにおける対象人体のキーポイントの情報を処理し、対象人体のキーポイント特徴を計算する。該キーポイント特徴は、対象人体の所定キーポイントの位置及び所定関節の角度を含む。第1認識部12は、キーポイント特徴抽出部11により算出されたキーポイント特徴に基づいて、画像フレームにおける対象人体の動作を認識し、第1認識結果を出力する。
【0021】
本発明の実施例1によれば、動作認識装置1は、画像フレームにおける人体のキーポイントの位置及び関節の角度に基づいて人体の動作を認識し、キーポイントの位置及び関節の角度は画像フレームにおける情報の一部であるため、第1認識部12は、深層学習ネットワークを使用する必要がなく、少ない計算量で正確な分類を行うことができる。また、キーポイントの位置のみに基づいて動作認識を行う方法に比べて、本発明の動作認識装置1は、さらに人体の関節の角度に基づいて動作認識を行うことで、認識の正確度が高くなる。さらに、認識すべき動作を追加、或いは変更する必要がある場合、大量の訓練を必要とせずに、所定キーポイント及び/又は所定関節により調整すれば済むため、本発明の動作認識装置1のスケーラビリティが高く、柔軟性が高くなる。
【0022】
少なくとも1つの実施例では、画像フレームは、例えばカメラにより撮影されたビデオにおける画像フレームであってもよい。各画像フレームは時系列的な順序を有してもよく、例えば、n番目の画像フレームは時系列上の時刻Tnに対応し、ここで、nは自然数である。
【0023】
以下の説明では、該n番目の画像フレームにおける対象人体の動作を認識する場合、該n番目の画像フレームは現在の画像フレーム(current image frame)と称され、時系列で現在の画像フレームよりも前の画像フレームは履歴画像フレーム(historical image frame)と称され、例えば、履歴画像フレームは時系列上の時刻T(n-k)に対応する。
【0024】
少なくとも1つの実施例では、現在のフレーム画像における対象人体のキーポイントの情報は、キーポイント特徴抽出部11に入力されてもよい。
【0025】
ここで、現在の画像フレームにおける対象人体のキーポイントの情報は、例えば、現在の画像フレームにおける対象人体の各キーポイントの座標値であってもよい。該座標値は、互いに垂直な2つの方向の画素値で表されてもよく、ここで、現在の画像フレームにおける左上隅の画素の座標値は(0,0)に設定されてもよく、該互いに垂直な2つの方向は現在の画像フレームの幅方向及び高さ方向であってもよい。
【0026】
図2は現在の画像フレームにおける対象人体のキーポイントの一例の概略図である。
図2に示すように、キーポイントは、例えば、対象人体の鼻21、左肩22、右肩23、左股24、右股25、左膝26、右膝27、左足首28、右足首29、左肘30、右肘31、左手首32、右手首33、左目34、右目35、左耳36、右耳37であってもよい。
図2に示すキーポイントの分布は単なる一例であり、本発明はこれに限定されない。
【0027】
少なくとも1つの実施例では、
図2における各キーポイントの情報は、現在の画像フレームに対して対象検出を行って取得されてもよい。例えば、テンプレート方法などを用いて現在のフレーム画像における対象画像及び該対象人体の身体部位を検出し、検出された各部位にキーポイントを設定して該部位を表し、各キーポイントの座標値を現在の画像フレームにおける対象人体のキーポイントの情報として出力する。また、例えば、カメラの被写体である人体にセンサを設定し、センサにより感知された情報に基づいて現在の画像フレームにおける対象人体のキーポイントの情報を決定してもよい。
【0028】
少なくとも1つの実施例では、キーポイント特徴抽出部11は、入力された現在の画像フレームにおける対象人体のキーポイントの情報から、少なくとも一部のキーポイントを所定キーポイントとして選択し、該所定キーポイントの情報を処理してもよい。
【0029】
図3は所定キーポイントの一例の概略図である。
図3に示すように、所定キーポイントは、例えば、対象人体の鼻21、左肩22、右肩23、左股24、右股25、左膝26、右膝27、左足首28、右足首29であってもよい。また、
図3に示すように、左股24での関節241、右股25での関節251、左膝26での関節261、右膝27での関節271は、所定関節であってもよい。
【0030】
図3に示す所定キーポイント及び所定関節は単なる一例であり、本発明はこれに限定されず、認識すべき動作に応じて該所定キーポイント及び所定関節を設定してもよい。例えば、人体の胴体及び足に関連する動作を認識する場合、
図2に示すように9つの所定キーポイント及び4つの所定関節を設定してもよく、該9つのキーポイントは腕などの部位に位置しなくてもよい。また、例えば、腕の持ち上げや開きなどの人体の他の動作を認識する場合、腕におけるキーポイント(例えば
図2の左肘30、右肘31、左手首32、右手首33)を所定キーポイントとして設定し、左肘30及び右肘31での関節を所定関節として設定してもよい。
【0031】
少なくとも1つの実施例では、キーポイント特徴抽出部11により取得された画像フレームにおける対象人体のキーポイント特徴は、該画像フレームにおける対象人体の所定キーポイントの位置及び所定関節の角度を含む。
【0032】
図4はキーポイント特徴抽出部11によるキーポイント特徴の計算方法の一例の概略図である。
図4に示すように、該方法は以下のステップを含む。
【0033】
ステップ401において、画像フレームにおける対象人体の高さに基づいて、画像フレームにおける対象人体の所定キーポイントの座標値を調整する。
【0034】
ステップ402において、画像フレームにおける対象人体の所定キーポイントの調整後の座標値に基づいて、所定関節の角度を計算する。
【0035】
ステップ401において、現在の画像フレームにおける対象人体の高さは、
図2のHに示すもの、即ち現在の画像フレームにおける対象人体の目の所在するキーポイント(例えば、
図2の左目34又は右目35)の高さ方向の座標値と、現在の画像フレームにおける対象人体の足首の所在するキーポイント(例えば、
図2の左足首28、右足首29)の高さ方向の座標値との差であってもよい。
【0036】
ステップ401において、現在の画像フレームにおける対象人体の高さHと所定の標準高さH0との比を計算し、現在の画像フレームにおける対象人体の各所定画素の座標値(高さ方向の座標値及び幅方向の座標値)をこの比で除算し、調整後の座標値を取得してもよい。
【0037】
ステップ401によれば、現在の画像フレームにおける対象人体の各所定キーポイントの座標値に対して正規化処理を行うことができ、被写体とカメラとの距離又は視野角の差による各所定キーポイントの座標値の変化を回避することができ、認識の正確性を向上させることができる。
【0038】
また、本発明はこれに限定されず、ステップ401において、他の方法を用いて各所定キーポイントの座標値を調整してもよい。また、対象人体の他のサイズに基づいて各所定キーポイントの座標値を調整してもよい。
【0039】
ステップ402において、調整後の座標値について、関節241、関節251、関節261及び関節271の角度を計算してもよい。ここで、関節241の角度は、例えば、
図3における左肩22と左股24の連結線L1と、左股24と左膝26との連結線L2との角度であり、他の関節の角度の計算方法も同様である。
【0040】
少なくとも1つの実施例では、キーポイント特徴抽出部11により抽出された現在の画像フレームにおける対象人体のキーポイント特徴は、第1認識部12に入力され、第1認識部12は、該キーポイント特徴情報に基づいて、対象人体を認識し、第1認識結果を出力する。該第1認識部12は、浅い学習ネットワーク(shallow learning network)により認識を行ってもよいため、少ない計算量で正確な認識を行うことができる。
【0041】
例えば、該第1認識部12は、多層パーセプトロン(Multilayer Perception)モデルにより認識を行ってもよく、該多層パーセプトロンモデルは、1つの入力層(input layer)、2つの隠れ層(hidden layer)及び1つの出力層(output layer)を含んでもよい。ここで、該入力層は1つの1*22のベクトルが入力されてもよく、該ベクトルは例えば
図3に示す9つの所定キーポイントの高さ方向の座標値及び幅方向の座標値、並びに4つの所定関節の角度を含んでもよい。各隠れ層は例えば100個のノード(nodes)をそれぞれ有してもよい。出力装置は6種類の動作の確率を出力してもよく、この6種類の動作は例えば歩くこと(walking)、立つこと(standing)、座ること(sitting)、しゃがむこと(squatting)、横たわること(lying)、腰を屈めること(bending)である。ここで、確率が最も高い動作は、第1認識部12の第1認識結果である。
【0042】
本発明では、多層パーセプトロン(Multilayer Perception)モデルは単なる一例であり、第1認識部12は例えばサポートベクトルマシン(SVM)モデルなどの他のモデルにより認識を行ってもよい。
【0043】
少なくとも1つの実施例では、
図1に示すように、動作認識装置1は、第2認識部13をさらに含んでもよい。
【0044】
ここで、第2認識部13は、対象人体の所定キーポイントの動きパラメータ、及び/又は該現在の画像フレームの前の履歴画像フレームにおける該対象人体の動作について第2認識部13により出力された第2認識結果(即ち、履歴第2認識結果)に基づいて、第1認識部12の現在の画像フレームにおける対象人体の動作についての第1認識結果を補正し、現在の画像フレームにおける該対象人体の動作についての第2認識結果を出力する。
【0045】
少なくとも1つの実施例では、対象人体の所定キーポイントの動きパラメータは、現在の画像フレームにおける対象人体の所定キーポイントの調整後の位置及び履歴画像フレームにおける該対象人体の所定キーポイントの調整後の位置に基づいて取得されてもよい。例えば、
図1に示すように、動作認識装置1はキーポイント動きパラメータ計算部14をさらに含んでもよく、キーポイント動きパラメータ計算部14は、現在の画像フレームにおける該対象人体の各所定キーポイントと履歴画像フレームにおける該対象人体の各所定キーポイントとの間の動きベクトルを計算し、各所定キーポイントの動きベクトルに基づいて対象人体の所定キーポイントの動きパラメータを計算する。
【0046】
ここで、キーポイント特徴抽出部11は、履歴画像フレームにおける対象人体上のキーポイントの情報に対して
図4のステップの処理を行い、該履歴画像フレームにおける該対象人体の所定キーポイントの調整後の位置を取得してもよい。
【0047】
少なくとも1つの実施例では、対象人体の所定キーポイントの動きパラメータは、各所定キーポイントの動きベクトルの平均値(mean)、及び/又は各所定キーポイントの座標値の差の標準偏差(variances)、及び/又は各所定キーポイントの動き方向、及び/又は所定方向に沿って動く所定キーポイントの数を含む。また、本実施例はこれに限定されず、対象人体の所定キーポイントの動きパラメータは他のパラメータであってもよい。
【0048】
なお、第2認識部13及びキーポイント動きパラメータ計算部14では、現在の画像フレームにおける対象人体と履歴画像フレームにおける対象人体は同一の被写人物に対応し、対象追跡技術を用いて現在の画像フレームと履歴画像フレームにおける同一の被写人物に対応する対象人体を決定してもよい。
【0049】
さらに、現在の画像フレームについて第2認識部13により出力された第2認識結果は、現在の画像フレームの後の後続画像フレームにおける該対象人体に対して動作認識を行うために、第2認識部13に入力されてもよい。
【0050】
図5は第2認識部13による第1認識結果の調整の一例の概略図である。
図5に示すように、51は第1認識結果を表し、52は第2認識結果を表し、53は第2認識部13が第2認識結果53を生成するための根拠を表す。
【0051】
図5に示すように、第2認識結果は、例えば、歩くこと(walking)、立つこと(standing)、座ること(sitting)、しゃがむこと(squatting)、横たわること(lying)、腰を屈めること(bending)、走ること(running)、這うこと(crawling)、立ち上がること(getting up)、転倒すること(falling down)、跳ぶこと(jumping)などであってもよい。
【0052】
図5に示すように、各根拠531~539は以下のものであってもよい。
【0053】
根拠531:第1認識結果が「歩くこと」であり、且つ各所定キーポイントの動きベクトルの平均値が第1閾値(thread_walk)よりも小さい場合、第2認識結果は「立つこと」である。
【0054】
根拠532:第1認識結果が「立つこと」であり、且つ各所定キーポイントの動きベクトルの平均値が第1閾値(thread_walk)以上である場合、第2認識結果は「歩くこと」である。
【0055】
根拠533:第1認識結果が「腰を屈めること」又は「横たわること」である場合、第2認識結果は第1認識結果と同一である。
【0056】
根拠534:第1認識結果が「立つこと」又は「歩くこと」であり、且つ各所定キーポイントの動きベクトルの平均値が第2閾値(thread_run)以上である場合、第2認識結果は「走ること」である。
【0057】
根拠535:第1認識結果が「横たわること」であり、且つ各所定キーポイントの動きベクトルの平均値が第3閾値(thread_crawl)以上である場合、第2認識結果は「這うこと」である。
【0058】
根拠536:第1認識結果が「立つこと」又は「歩くこと」又は「腰を屈めること」であり、且つ履歴画像フレームの第2認識結果が「座ること」又は「這うこと」又は「横たわること」、且つ上方へ動く所定キーポイントの数が9より大きい場合、第2認識結果は「立ち上がること」である。
【0059】
根拠537:第1認識結果が「横たわること」であり、履歴画像フレームの第2認識結果が「立つこと」又は「歩くこと」又は「腰を屈めること」であり、且つ上方へ動く所定キーポイントの数が3以下である場合、第2認識結果は「転倒すること」である。
【0060】
根拠538:第1認識結果が「立つこと」又は「歩くこと」又は「腰を屈めること」であり、且つ上方へ動く所定キーポイントの数が13又は0に等しく、且つ各所定キーポイントの動きベクトルの平均値が第4閾値(thread_jump)以上である場合、第2認識結果は「跳ぶこと」である。
【0061】
根拠539:第1認識結果が「座ること」又は「しゃがむこと」である場合、第2認識結果は第1認識結果と同一である。
【0062】
図5に示す第1認識結果51、第2認識結果52、各根拠531~539は単なる一例であり、本発明の各実施例はこれに限定されない。
【0063】
該第2認識部13によれば、人体の動きと時間との関係に基づいて動作認識の結果を調整することができるため、人体の動作をより正確に認識することができる。
【0064】
少なくとも1つの実施例では、
図1に示すように、動作認識装置1は、画像フレーム間隔決定部15をさらに含んでもよい。ここで、画像フレーム間隔決定部15は、画像フレームの取得レート(例えば、カメラにより撮影された画像フレームのフレームレート、即ち1秒当たりのフレーム数(FPS))に基づいて、履歴画像フレームと現在の画像フレームとの間に介在する画像フレームの数を決定する。
【0065】
表1には、画像フレームのフレームレートと履歴画像フレームとの対応関係を示している。
【表1】
【0066】
表1では、現在の画像フレームがn番目のフレームである場合、フレームレートが3~8であるとき、履歴画像フレームはn-1番目のフレームであり、フレームレートが9~14であるとき、履歴画像フレームがn-2番目のフレームであり、フレームレートが15~20であるとき、履歴画像フレームはn-3番目のフレームであり、フレームレートが21~26であるとき、履歴画像フレームはn-4番目のフレームであり、フレームレートが27~32であるとき、履歴画像フレームはn-5番目のフレームである。
【0067】
このように、画像フレーム間隔決定部15を設けることで、画像フレームのフレームレートが変化した場合、履歴画像フレームと現在の画像フレームとの間に介在する画像フレームの数を選択することで、上記の設定された閾値(例えば、
図5に関連する第1閾値~第4閾値)を維持したまま、該動作認識装置1を使用することができるため、動作認識装置1の適用範囲を拡大し、そのスケーラビリティを向上させることができる。
【0068】
本発明の実施例1によれば、動作認識装置1は、画像フレームにおける人体のキーポイントの位置及び関節の角度に基づいて人体の動作を認識し、キーポイントの位置及び関節の角度は画像フレームにおける情報の一部であるため、第1認識部12は、深層学習ネットワークを使用する必要がなく、少ない計算量で正確な分類を行うことができる。また、キーポイントの位置のみに基づいて動作認識を行う方法に比べて、本発明の動作認識装置1は、さらに人体の関節の角度に基づいて動作認識を行うことで、認識の正確度が高くなる。さらに、認識すべき動作を追加、或いは変更する必要がある場合、大量の訓練を必要とせずに、所定キーポイント及び/又は所定関節により調整すれば済むため、本発明の動作認識装置1のスケーラビリティが高く、柔軟性が高くなる。また、本発明の動作認識装置1は、人体の動きと時間との関係に基づいて動作認識の結果を調整することができるため、人体の動作をより正確に認識することができる。
【0069】
<実施例2>
本発明の実施例2は、本発明の実施例1の動作認識装置1に対応する動作認識方法を提供する。
【0070】
図6は本発明の実施例2の動作認識方法の一例の概略図である。
図6に示すように、該方法は以下のステップを含む。
【0071】
ステップ601において、画像フレームにおける対象人体のキーポイントの情報を処理し、該対象人体のキーポイント特徴を計算する。該キーポイント特徴は、該対象人体の所定キーポイントの位置及び所定関節の角度を含む。
【0072】
ステップ602において、該キーポイント特徴に基づいて、該対象人体の動作を認識し、第1認識結果を出力する。
【0073】
ここで、ステップ601は、例えば
図4のステップ401及びステップ402により実現されてもよい。
【0074】
図6に示すように、該方法は以下のステップをさらに含む。
【0075】
ステップ603において、該対象人体の該所定キーポイントの動きパラメータ、及び/又は該画像フレームの前の履歴画像フレームにおける該対象人体の動作について出力された第2認識結果に基づいて、該第1認識結果を補正し、該画像フレームにおける該対象人体の動作についての第2認識結果を出力する。
【0076】
図6に示すように、該方法は以下のステップをさらに含む。
【0077】
ステップ604において、該画像フレームにおける該対象人体の各所定キーポイントと該履歴画像フレームにおける該対象人体の各所定キーポイントとの間の動きベクトルを計算し、各所定キーポイントの動きベクトルに基づいて該動きパラメータを計算する。
【0078】
ステップ604において、動きパラメータは、各所定キーポイントの動きベクトルの平均値、及び/又は各所定キーポイントの動きベクトルの標準偏差、及び/又は各所定キーポイントの動き方向、及び/又は所定方向に沿って動く所定キーポイントの数を含む。
【0079】
図6に示すように、該方法は以下のステップをさらに含む。
【0080】
ステップ605において、該画像フレームの取得レートに基づいて、履歴画像フレームと該画像フレームとの間に介在する画像フレームの数を決定する。
【0081】
本発明の実施例2によれば、動作認識方法は、画像フレームにおける人体のキーポイントの位置及び関節の角度に基づいて人体の動作を認識し、キーポイントの位置及び関節の角度は画像フレームにおける情報の一部であるため、深層学習ネットワークを使用する必要がなく、少ない計算量で正確な分類を行うことができる。また、キーポイントの位置のみに基づいて動作認識を行う方法に比べて、本発明の動作認識方法は、さらに人体の関節の角度に基づいて動作認識を行うことで、認識の正確度が高くなる。さらに、認識すべき動作を追加、或いは変更する必要がある場合、大量の訓練を必要とせずに、所定キーポイント及び/又は所定関節により調整すれば済むため、本発明の動作認識方法のスケーラビリティが高く、柔軟性が高くなる。また、本発明の動作認識方法は、人体の動きと時間との関係に基づいて動作認識の結果を調整することができるため、人体の動作をより正確に認識することができる。
【0082】
<実施例3>
本発明の実施例は電子機器を提供し、該電子機器は、実施例1の動作認識装置を含む。
【0083】
図7は本発明の実施例3の電子機器の構成の一例の概略図である。
図7に示すように、電子機器700は、中央処理装置(CPU))701及びメモリ702を含んでもよく、メモリ702は中央処理装置701に接続される。メモリ702は、各種のデータ及び制御のためのプログラムを記憶してもよく、中央処理装置701の制御により該プログラムを実行する。
【0084】
1つの態様では、動作認識装置1の機能は中央処理装置701に統合されてもよい。
【0085】
ここで、中央処理装置701は、実施例2の動作認識方法を実行するように構成されてもよい。
【0086】
また、
図7に示すように、電子機器700は、入力出力部703及び表示部704などをさらに含んでもよい。ここで、上記各部の機能は従来技術と類似し、ここでその説明を省略する。なお、電子機器700は、
図7に示す全ての構成部を含まなくてもよい。また、電子機器700は、
図7に示していない構成部を含んでもよく、従来技術を参考してもよい。
【0087】
本発明の実施例は、動作認識装置又は電子機器においてプログラムを実行する際に、該動作認識装置又は該電子機器に実施例2の動作認識方法を実行させる、コンピュータ読み取り可能なプログラムを提供する。
【0088】
本発明の実施例は、動作認識装置又は電子機器に実施例2の動作認識方法を実行させるためのコンピュータ読み取り可能なプログラムを記憶する、記憶媒体をさらに提供する。
【0089】
本発明の実施例を参照しながら説明した方法/装置は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、図面に示す機能的ブロック図における1つ若しくは複数、又は機能的ブロック図の1つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、実施例1の各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ(FPGA)を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。
【0090】
ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、モバイルハードディスク、CD-ROM又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込むように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はASICに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、電子機器が比較的に大きい容量のMEGA-SIMカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該MEGA-SIMカード又は大容量のフラッシュメモリ装置に記憶されてもよい。
【0091】
図面に記載されている一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、本発明に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)又は他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理装置、ディスクリートハードウェアコンポーネント、またはそれらの任意の適切な組み合わせで実現されてもよい。図面に記載されている一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばDSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSP通信と組み合わせた1つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。
【0092】
以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び変更を行ってもよく、これらの変形及び変更も本発明の範囲に属する。
【0093】
また、上述の実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
動作認識装置であって、
画像フレームにおける対象人体のキーポイントの情報を処理し、前記対象人体のキーポイント特徴を計算するキーポイント特徴抽出部であって、前記キーポイント特徴は、前記対象人体の所定キーポイントの位置及び所定関節の角度を含む、キーポイント特徴抽出部と、
前記キーポイント特徴に基づいて、前記対象人体の動作を認識し、第1認識結果を出力する第1認識部と、を含む、動作認識装置。
(付記2)
前記キーポイント特徴抽出部は、画像フレームにおける対象人体のキーポイントの情報を処理する際に、
前記画像フレームにおける前記対象人体の高さに基づいて、前記画像フレームにおける前記対象人体の所定キーポイントの座標値を調整し、
前記画像フレームにおける前記対象人体の所定キーポイントの調整後の座標値に基づいて、前記所定関節の角度を計算する、付記1に記載の動作認識装置。
(付記3)
前記画像フレームにおける前記対象人体の高さは、前記画像フレームにおける前記対象人体の目の所在するキーポイントの高さ方向の座標値と、前記画像フレームにおける前記対象人体の足首の所在するキーポイントの高さ方向の座標値との差である、付記2に記載の動作認識装置。
(付記4)
前記対象人体の前記所定キーポイントの動きパラメータ、及び/又は前記画像フレームの前の履歴画像フレームにおける前記対象人体の動作について第2認識部により出力された第2認識結果に基づいて、前記第1認識結果を補正し、前記画像フレームにおける前記対象人体の動作についての第2認識結果を出力する前記第2認識部、をさらに含む、付記1に記載の動作認識装置。
(付記5)
前記画像フレームにおける前記対象人体の各前記所定キーポイントと前記履歴画像フレームにおける前記対象人体の各前記所定キーポイントとの間の動きベクトルを計算し、各前記所定キーポイントの動きベクトルに基づいて前記動きパラメータを計算するキーポイント動きパラメータ計算部、をさらに含む、付記4に記載の動作認識装置。
(付記6)
前記動きパラメータは、各前記所定キーポイントの動きベクトルの平均値、及び/又は各前記所定キーポイントの動きベクトルの標準偏差、及び/又は各前記所定キーポイントの動き方向、及び/又は所定方向に沿って動く前記所定キーポイントの数を含む、付記5に記載の動作認識装置。
(付記7)
前記画像フレームの取得レートに基づいて、履歴画像フレームと前記画像フレームとの間に介在する画像フレームの数を決定する画像フレーム間隔決定部、をさらに含む、付記4に記載の動作認識装置。
(付記8)
付記1乃至7の何れかに記載の動作認識装置を有する電子装置。
(付記9)
動作認識方法であって、
画像フレームにおける対象人体のキーポイントの情報を処理し、前記対象人体のキーポイント特徴を計算するステップであって、前記キーポイント特徴は、前記対象人体の所定キーポイントの位置及び所定関節の角度を含む、ステップと、
前記キーポイント特徴に基づいて、前記対象人体の動作を認識し、第1認識結果を出力するステップと、を含む、動作認識方法。
(付記10)
画像フレームにおける対象人体のキーポイントの情報を処理するステップは、
前記画像フレームにおける前記対象人体の高さに基づいて、前記画像フレームにおける前記対象人体の所定キーポイントの座標値を調整するステップと、
前記画像フレームにおける前記対象人体の所定キーポイントの調整後の座標値に基づいて、前記所定関節の角度を計算するステップと、を含む、付記9に記載の動作認識方法。
(付記11)
前記画像フレームにおける前記対象人体の高さは、前記画像フレームにおける前記対象人体の目の所在するキーポイントの高さ方向の座標値と、前記画像フレームにおける前記対象人体の足首の所在するキーポイントの高さ方向の座標値との差である、付記10に記載の動作認識方法。
(付記12)
前記対象人体の前記所定キーポイントの動きパラメータ、及び/又は前記画像フレームの前の履歴画像フレームにおける前記対象人体の動作について出力された第2認識結果に基づいて、前記第1認識結果を補正し、前記画像フレームにおける前記対象人体の動作についての第2認識結果を出力するステップ、をさらに含む、付記9に記載の動作認識方法。
(付記13)
前記画像フレームにおける前記対象人体の各前記所定キーポイントと前記履歴画像フレームにおける前記対象人体の各前記所定キーポイントとの間の動きベクトルを計算し、各前記所定キーポイントの動きベクトルに基づいて前記動きパラメータを計算するステップ、をさらに含む、付記12に記載の動作認識方法。
(付記14)
前記動きパラメータは、各前記所定キーポイントの動きベクトルの平均値、及び/又は各前記所定キーポイントの動きベクトルの標準偏差、及び/又は各前記所定キーポイントの動き方向、及び/又は所定方向に沿って動く前記所定キーポイントの数を含む、付記13に記載の動作認識方法。
(付記15)
前記画像フレームの取得レートに基づいて、履歴画像フレームと前記画像フレームとの間に介在する画像フレームの数を決定するステップ、をさらに含む、付記12に記載の動作認識方法。