(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-08-15
(54)【発明の名称】行動予測方法及び装置、歩容認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体
(51)【国際特許分類】
G06T 7/20 20170101AFI20220805BHJP
G06T 7/00 20170101ALI20220805BHJP
G06V 10/82 20220101ALI20220805BHJP
【FI】
G06T7/20 300Z
G06T7/00 350C
G06V10/82
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021573491
(86)(22)【出願日】2021-02-22
(85)【翻訳文提出日】2021-12-10
(86)【国際出願番号】 CN2021077297
(87)【国際公開番号】W WO2021169924
(87)【国際公開日】2021-09-02
(31)【優先権主張番号】202010129936.X
(32)【優先日】2020-02-28
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】520180323
【氏名又は名称】上▲海▼商▲湯▼智能科技有限公司
【氏名又は名称原語表記】SHANGHAI SENSETIME INTELLIGENT TECHNOLOGY CO., LTD.
【住所又は居所原語表記】Room 1605A, Building 3, 391 Guiping Road, Xuhui District, Shanghai 200233 China
(74)【代理人】
【識別番号】110002468
【氏名又は名称】特許業務法人後藤特許事務所
(72)【発明者】
【氏名】邱 豊
(72)【発明者】
【氏名】汪 旻
(72)【発明者】
【氏名】劉 文▲トウ▼
(72)【発明者】
【氏名】銭 晨
(72)【発明者】
【氏名】馬 利庄
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096CA04
5L096FA03
5L096FA16
5L096FA60
5L096FA62
5L096FA64
5L096FA67
5L096FA69
5L096HA11
5L096KA04
(57)【要約】
本発明は、行動予測方法及び装置、歩容認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体を提供する。本発明では、まず、複数の目標ビデオセグメントを取得する。各目標ビデオセグメントは、目標画像と目標画像よりも前のNフレームの画像とを含む。Nは、正整数である。次に、各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、目標画像における目標オブジェクトの歩容データ及び目標重心座標を特定する。最後に、歩容データ及び目標重心座標に基づいて、目標オブジェクトの所定時間帯における行動特徴情報を予測する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
それぞれが目標画像と前記目標画像よりも前のN(Nは正整数)フレームの画像とを含む複数の目標ビデオセグメントを取得するステップと、
各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ及び目標重心座標を特定するステップと、
前記歩容データ及び前記目標重心座標に基づいて、前記目標オブジェクトの所定時間帯における行動特徴情報を予測するステップと、を含むことを特徴とする行動予測方法。
【請求項2】
前記行動特徴情報に基づいて、前記目標オブジェクトの前記所定時間帯における安全特徴情報と前記安全特徴情報にマッチングする安全措置対策とを特定するステップを更に含むことを特徴とする請求項1に記載の行動予測方法。
【請求項3】
前記各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データを特定することは、
各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定することと、
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定することと、
前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識することと、を含むことを特徴とする請求項1に記載の行動予測方法。
【請求項4】
前記各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの目標重心座標を特定することは、
各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標オブジェクトの第1重心座標と、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報とを特定することと、
前記目標画像における前記目標オブジェクトの複数の2次元キーポイント情報と前記複数の3次元キーポイント情報とに基づいて、前記目標オブジェクトの第2重心座標を特定することと、
前記第1重心座標及び前記第2重心座標に基づいて、前記目標画像における前記目標オブジェクトの目標重心座標を特定することと、を含むことを特徴とする請求項1に記載の行動予測方法。
【請求項5】
前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定することは、
各目標ビデオセグメントにおける各フレームの画像について、当該フレームの画像における前記目標オブジェクトの複数の2次元キーポイント情報に基づいて、当該フレームの画像における前記目標オブジェクトの検出枠を特定することと、
前記検出枠のサイズ情報と前記検出枠の中心点の座標とに基づいて、当該フレームの画像における各2次元キーポイント情報に対応する座標情報に対して正規化処理を行い、当該フレームの画像における目標オブジェクトの複数の目標2次元キーポイント情報を取得することと、
前記各フレームの画像における前記目標オブジェクトの複数の目標2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定することと、を含むことを特徴とする請求項3又は4に記載の行動予測方法。
【請求項6】
前記各フレームの画像における前記目標オブジェクトの複数の目標2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定することは、
前記各フレームの画像における前記目標オブジェクトの複数の目標2次元キーポイント情報をトレーニングされた第1ニューラルネットワークに入力し、入力された複数の目標2次元キーポイント情報に対して前記第1ニューラルネットワークを介して処理し、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定することを含むことを特徴とする請求項5に記載の行動予測方法。
【請求項7】
前記第1ニューラルネットワークをトレーニングするステップを更に含み、
前記第1ニューラルネットワークをトレーニングするステップは、
第1サンプル画像を含むとともに前記第1サンプル画像よりも前のNフレームの画像も含む第1サンプルビデオセグメントと、前記第1サンプル画像における第1サンプルオブジェクトの複数の標準3次元キーポイント情報とを取得することと、
前記複数の標準3次元キーポイント情報に基づいて、前記第1サンプルビデオセグメントの各フレームの画像における前記第1サンプルオブジェクトの複数のサンプル2次元キーポイント情報を特定することと、
特定された前記複数のサンプル2次元キーポイント情報をトレーニングすべき第1初期ニューラルネットワークに入力し、入力された複数のサンプル2次元キーポイント情報に対して前記第1初期ニューラルネットワークを介して処理し、前記第1サンプル画像における前記第1サンプルオブジェクトの複数の予測3次元キーポイント情報を特定することと、
前記複数の予測3次元キーポイント情報と前記複数の標準3次元キーポイント情報との間の誤差情報に基づいて、前記第1初期ニューラルネットワークのネットワークパラメータを調整することと、
前記第1初期ニューラルネットワークのトレーニングが完了された後、前記第1ニューラルネットワークを取得することと、を含むことを特徴とする請求項6に記載の行動予測方法。
【請求項8】
前記第1サンプルビデオセグメントの各フレームの画像における前記第1サンプルオブジェクトの複数のサンプル2次元キーポイント情報を特定することは、
前記第1サンプルビデオセグメントを撮影する撮影機器の機器パラメータ情報と、前記第1サンプルビデオセグメントの各フレームの画像のRGB画面とを取得することと、
前記機器パラメータ情報と、前記各フレームの画像のRGB画面と、前記複数の標準3次元キーポイント情報とに基づいて、前記第1サンプルビデオセグメントの各フレームの画像における前記第1サンプルオブジェクトの複数のサンプル2次元キーポイント情報を特定することと、を含むことを特徴とする請求項7に記載の行動予測方法。
【請求項9】
前記複数の予測3次元キーポイント情報と前記複数の標準3次元キーポイント情報との間の誤差情報に基づいて、前記第1初期ニューラルネットワークのネットワークパラメータを調整することは、
前記第1サンプルオブジェクトの物理サイズ情報を取得することと、
前記第1サンプルオブジェクトの物理サイズ情報に基づいて、各標準3次元キーポイント情報の、ネットワーク尺度空間に対応する目標標準3次元キーポイント情報を特定することと、
前記複数の予測3次元キーポイント情報と複数の前記目標標準3次元キーポイント情報との間の誤差情報に基づいて、前記第1初期ニューラルネットワークのネットワークパラメータを調整することと、を含むことを特徴とする請求項7に記載の行動予測方法。
【請求項10】
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定することは、
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第1接続線、及び前記目標オブジェクトの左肩部と右肩部の間の第2接続線を特定することと、前記第1接続線と前記第2接続線との間の最小誤差平面を特定することと、前記最小誤差平面と水平面との交線に基づいて、前記目標オブジェクトの前進方向を特定することと、を含み、又は、
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第3接続線であって前記第1接続線である第3接続線、前記目標オブジェクトの左肩部と右肩部の間の第4接続線であって前記第2接続線である第4接続線、及び前記目標オブジェクトの骨盤点と頸椎点の間の第5接続線を特定することと、前記第3接続線及び前記第4接続線に基づいて、水平面に対する前記目標オブジェクトの第1胴体方向を特定することと、前記第5接続線に基づいて、鉛直面に対する前記目標オブジェクトの第2胴体方向を特定することと、前記第1胴体方向及び前記第2胴体方向に基づいて、前記目標オブジェクトの前進方向を特定することと、を含むことを特徴とする請求項3に記載の行動予測方法。
【請求項11】
前記歩容データは、前記目標オブジェクトの歩幅情報を含み、
前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識することは、前記複数の3次元キーポイント情報に基づいて、前記前進方向における前記目標オブジェクトの両足の間の接続線の第1投影を特定することと、前記第1投影の長さ情報に基づいて、前記目標オブジェクトの歩幅情報を特定することとを含み、
及び/又は、
前記歩容データは、前記目標オブジェクトの歩隔情報を含み、
前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識することは、前記複数の3次元キーポイント情報に基づいて、前記前進方向に垂直な方向における前記目標オブジェクトの両足の間の接続線の第2投影を特定することと、前記第2投影の長さ情報に基づいて、前記目標オブジェクトの歩隔情報を特定することと、を含むことを特徴とする請求項3又は10に記載の行動予測方法。
【請求項12】
前記各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標オブジェクトの第1重心座標を特定することは、
各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の2次元キーポイント情報をトレーニングされた第2ニューラルネットワークに入力し、入力された複数の2次元キーポイント情報に対して前記第2ニューラルネットワークを介して処理し、前記目標オブジェクトの第1重心座標を特定することを含むことを特徴とする請求項4に記載の行動予測方法。
【請求項13】
前記第2ニューラルネットワークをトレーニングするステップを更に含み、
前記第2ニューラルネットワークをトレーニングするステップは、
第2サンプル画像を含むとともに前記第2サンプル画像よりも前のNフレームの画像も含む第2サンプルビデオセグメントと、前記第2サンプル画像における第2サンプルオブジェクトの複数の標準3次元キーポイント情報とを取得することと、
前記複数の標準3次元キーポイント情報に基づいて、前記第2サンプルビデオセグメントの各フレームの画像における前記第2サンプルオブジェクトの複数のサンプル2次元キーポイント情報を特定することと、
前記複数の標準3次元キーポイント情報に基づいて、前記第2サンプルオブジェクトの標準重心座標を特定することと、
特定された前記複数のサンプル2次元キーポイント情報をトレーニングすべき第2初期ニューラルネットワークに入力し、入力された複数のサンプル2次元キーポイント情報に対して前記第2初期ニューラルネットワークを介して処理し、前記第2サンプル画像における前記第2サンプルオブジェクトの予測重心座標を出力することと、
前記予測重心座標と前記標準重心座標との間の誤差情報に基づいて、前記第2初期ニューラルネットワークのネットワークパラメータを調整することと、
前記第2初期ニューラルネットワークのトレーニングが完了された後、前記第2ニューラルネットワークを取得することと、を含むことを特徴とする請求項12に記載の行動予測方法。
【請求項14】
それぞれが目標画像と前記目標画像よりも前のN(Nは正整数)フレームの画像とを含む複数の目標ビデオセグメントを取得するステップと、
各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定するステップと、
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定するステップと、
前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するステップと、を含むことを特徴とする歩容認識方法。
【請求項15】
前記複数の3次元キーポイント情報がネットワーク尺度空間の3次元キーポイント情報である場合に、前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定する前に、前記歩容認識方法は、
前記目標オブジェクトの物理サイズ情報を取得するステップと、
前記目標オブジェクトの物理サイズ情報に基づいて、ネットワーク尺度空間の3次元キーポイント情報を物理尺度空間の3次元キーポイント情報に更新するステップと、を更に含むことを特徴とする請求項14に記載の歩容認識方法。
【請求項16】
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定するステップは、
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第1接続線、及び前記目標オブジェクトの左肩部と右肩部の間の第2接続線を特定することと、前記第1接続線と前記第2接続線との間の最小誤差平面を特定することと、前記最小誤差平面と水平面との交線に基づいて、前記目標オブジェクトの前進方向を特定することと、を含み、又は、
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第3接続線、前記目標オブジェクトの左肩部と右肩部の間の第4接続線、及び前記目標オブジェクトの骨盤点と頸椎点の間の第5接続線を特定することと、前記第3接続線及び前記第4接続線に基づいて、水平面に対する前記目標オブジェクトの第1胴体方向を特定することと、前記第5接続線に基づいて、鉛直面に対する前記目標オブジェクトの第2胴体方向を特定することと、前記第1胴体方向及び前記第2胴体方向に基づいて、前記目標オブジェクトの前進方向を特定することと、を含むことを特徴とする請求項14又は15に記載の歩容認識方法。
【請求項17】
前記歩容データは、前記目標オブジェクトの歩幅情報を含み、
前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するステップは、前記複数の3次元キーポイント情報に基づいて、前記前進方向における前記目標オブジェクトの両足の間の接続線の第1投影を特定することと、前記第1投影の長さ情報に基づいて、前記目標オブジェクトの歩幅情報を特定することと、を含み、
及び/又は、
前記歩容データは、前記目標オブジェクトの歩隔情報を含み、
前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するステップは、前記複数の3次元キーポイント情報に基づいて、前記前進方向に垂直な方向における前記目標オブジェクトの両足の間の接続線の第2投影を特定することと、前記第2投影の長さ情報に基づいて、前記目標オブジェクトの歩隔情報を特定することと、を含むことを特徴とする請求項14から16の何れか一項に記載の歩容認識方法。
【請求項18】
それぞれが目標画像と前記目標画像よりも前のN(Nは正整数)フレームの画像とを含む複数の目標ビデオセグメントを取得するためのビデオ取得モジュールと、
各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定するためのキーポイント処理モジュールと、
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定するための前進方向特定モジュールと、
前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するための歩容認識モジュールと、を備えることを特徴とする歩容認識装置。
【請求項19】
それぞれが目標画像と前記目標画像よりも前のN(Nは正整数)フレームの画像とを含む複数の目標ビデオセグメントを取得するための画像取得モジュールと、
各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ及び目標重心座標を特定するための画像処理モジュールと、
前記歩容データ及び前記目標重心座標に基づいて、前記目標オブジェクトの所定時間帯における行動特徴情報を予測するための予測モジュールと、を備えることを特徴とする行動予測装置。
【請求項20】
電子機器であって、
プロセッサと、メモリと、バスとを備え、
前記メモリには、前記プロセッサで実行され得る機器読み取り可能な指令が記憶され、前記電子機器が動作しているとき、前記プロセッサと前記メモリとは、前記バスを介して互いに通信され、前記プロセッサは、前記機器読み取り可能な指令を実行することにより、請求項1から13の何れか一項に記載の行動予測方法又は請求項14から17の何れか一項に記載の歩容認識方法を実施することを特徴とする電子機器。
【請求項21】
コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサによって運転されたときに、前記プロセッサは、請求項1から13の何れか一項に記載の行動予測方法又は請求項14から17の何れか一項に記載の歩容認識方法を実施することを特徴とするコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータビジョン技術分野に関し、具体的に、行動予測方法及び装置、歩容認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体に関する。
【背景技術】
【0002】
オブジェクトに対して行動分析及び認識を行うことは、人工知能分野における1種の基本的な需要である。行動分析及び認識を行う際に、一般的に多段階の3次元人体姿勢認識を採用し、且つオブジェクトビデオを撮影するカメラのパラメータに依存したり、カメラの撮影画角を制限したりする等が必要ある。
【発明の概要】
【0003】
第1態様において、本発明は、行動予測方法を提供する。当該行動予測方法は、それぞれが目標画像と前記目標画像よりも前のN(Nは正整数)フレームの画像とを含む複数の目標ビデオセグメントを取得するステップと、各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ及び目標重心座標を特定するステップと、前記歩容データ及び前記目標重心座標に基づいて、前記目標オブジェクトの所定時間帯における行動特徴情報を予測するステップと、を含む。
【0004】
本態様では、目標ビデオセグメントにおける目標オブジェクトの2次元キーポイント情報に基づくことにより、予測された歩容データ及び目標重心座標の正確度を向上させることができ、正確な歩容データ及び目標重心座標に基づくことにより、予測された行動特徴情報の正確性を向上させることができるため、目標オブジェクトの安全を有効に保証することができる。
【0005】
1つの可能な実施形態において、上記行動予測方法は、前記行動特徴情報に基づいて、前記目標オブジェクトの前記所定時間帯における安全特徴情報と前記安全特徴情報にマッチングする安全措置対策とを特定するステップを更に含む。
【0006】
1つの可能な実施形態において、前記各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データを特定することは、各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定することと、前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定することと、前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識することと、を含む。
【0007】
本実施形態では、ビデオセグメントの各フレームの画像における目標オブジェクトの複数の2次元キーポイント情報を用いて、ビデオセグメントの最後1フレームの画像における目標オブジェクトの3次元キーポイント情報を特定し、特定された各3次元キーポイント情報に多値多義性の問題が現れることを回避可能であるため、3次元キーポイント情報に基づいて歩容分析及び認識を行う成功率及び正確率を向上させることができ、また、目標オブジェクトの複数の3次元キーポイント情報が特定された後、3次元キーポイント情報を用いて目標オブジェクトの前進方向を特定し、特定された前進方向及び3次元キーポイント情報に基づいて目標オブジェクトの歩容データを特定し、目標オブジェクトに対して歩容分析及び認識を行い、ビデオセグメントの撮影に使用されるカメラのカメラパラメータに依存していないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。
【0008】
1つの可能な実施形態において、前記各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの目標重心座標を特定することは、各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標オブジェクトの第1重心座標と、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報とを特定することと、前記目標画像における前記目標オブジェクトの複数の2次元キーポイント情報と前記複数の3次元キーポイント情報とに基づいて、前記目標オブジェクトの第2重心座標を特定することと、前記第1重心座標及び前記第2重心座標に基づいて、前記目標画像における前記目標オブジェクトの目標重心座標を特定することと、を含む。
【0009】
本実施形態では、特定された2つの重心座標も合わせて使用されるため、目標オブジェクトの最終的な目標重心座標は、より正確に特定することができる。
【0010】
1つの可能な実施形態において、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定することは、各目標ビデオセグメントにおける各フレームの画像について、当該フレームの画像における前記目標オブジェクトの複数の2次元キーポイント情報に基づいて、当該フレームの画像における前記目標オブジェクトの検出枠を特定することと、前記検出枠のサイズ情報と前記検出枠の中心点の座標とに基づいて、当該フレームの画像における各2次元キーポイント情報に対応する座標情報に対して正規化処理を行い、当該フレームの画像における目標オブジェクトの複数の目標2次元キーポイント情報を取得することと、前記各フレームの画像における前記目標オブジェクトの複数の目標2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定することと、を含む。
【0011】
本実施形態では、まず、画像における目標オブジェクトの2次元キーポイント情報を用いて目標オブジェクトの検出枠を特定し、次に、検出枠のサイズ情報及び中心点座標等を用いて2次元キーポイント情報に対応する座標情報に対して正規化処理を行い、ビデオセグメントを撮影するカメラのカメラパラメータ又はオリジナル画像のサイズ情報に依存しないため、カメラパラメータに対する依存性を逸脱し、切り出された画像については依然として優れた汎用性を有している。
【0012】
1つの可能な実施形態において、前記各フレームの画像における前記目標オブジェクトの複数の目標2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定することは、前記各フレームの画像における前記目標オブジェクトの複数の目標2次元キーポイント情報をトレーニングされた第1ニューラルネットワークに入力し、入力された複数の目標2次元キーポイント情報に対して前記第1ニューラルネットワークを介して処理し、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定することを含む。
【0013】
本実施形態では、トレーニングされたニューラルネットワークを用いて3次元キーポイント情報を特定するため、情報処理及び特定の自動化レベルを向上させ、情報処理及び特定の正確度を向上させることができる。
【0014】
1つの可能な実施形態において、上記行動予測方法は、前記第1ニューラルネットワークをトレーニングするステップを更に含み、前記第1ニューラルネットワークをトレーニングするステップは、第1サンプル画像を含むとともに前記第1サンプル画像よりも前のNフレームの画像も含む第1サンプルビデオセグメントと、前記第1サンプル画像における第1サンプルオブジェクトの複数の標準3次元キーポイント情報とを取得することと、
前記複数の標準3次元キーポイント情報に基づいて、前記第1サンプルビデオセグメントの各フレームの画像における前記第1サンプルオブジェクトの複数のサンプル2次元キーポイント情報を特定することと、特定された前記複数のサンプル2次元キーポイント情報をトレーニングすべき第1初期ニューラルネットワークに入力し、入力された複数のサンプル2次元キーポイント情報に対して前記第1初期ニューラルネットワークを介して処理し、前記第1サンプル画像における前記第1サンプルオブジェクトの複数の予測3次元キーポイント情報を特定することと、前記複数の予測3次元キーポイント情報と前記複数の標準3次元キーポイント情報との間の誤差情報に基づいて、前記第1初期ニューラルネットワークのネットワークパラメータを調整することと、前記第1初期ニューラルネットワークのトレーニングが完了された後、前記第1ニューラルネットワークを取得することと、を含む。
【0015】
本実施形態では、複数の標準3次元キーポイント情報に基づいて複数のサンプル2次元キーポイント情報を逆投影的に特定するため、特定されたサンプル2次元キーポイント情報の正確度を向上させることができる。
【0016】
1つの可能な実施形態において、前記第1サンプルビデオセグメントの各フレームの画像における前記第1サンプルオブジェクトの複数のサンプル2次元キーポイント情報を特定することは、前記第1サンプルビデオセグメントを撮影する撮影機器の機器パラメータ情報と、前記第1サンプルビデオセグメントの各フレームの画像のRGB画面とを取得することと、前記機器パラメータ情報と、前記各フレームの画像のRGB画面と、前記複数の標準3次元キーポイント情報とに基づいて、前記第1サンプルビデオセグメントの各フレームの画像における前記第1サンプルオブジェクトの複数のサンプル2次元キーポイント情報を特定することと、を含む。
【0017】
本実施形態では、撮影機器の機器パラメータ情報と複数の標準3次元キーポイント情報とを組み合わせるため、複数のサンプル2次元キーポイント情報を正確に特定することができる。
【0018】
1つの可能な実施形態において、前記複数の予測3次元キーポイント情報と前記複数の標準3次元キーポイント情報との間の誤差情報に基づいて、前記第1初期ニューラルネットワークのネットワークパラメータを調整することは、前記第1サンプルオブジェクトの物理サイズ情報を取得することと、前記第1サンプルオブジェクトの物理サイズ情報に基づいて、各標準3次元キーポイント情報の、ネットワーク尺度空間に対応する目標標準3次元キーポイント情報を特定することと、前記複数の予測3次元キーポイント情報と複数の前記目標標準3次元キーポイント情報との間の誤差情報に基づいて、前記第1初期ニューラルネットワークのネットワークパラメータを調整することと、を含む。
【0019】
本実施形態では、サンプルオブジェクトの物理サイズ情報を用いて、物理尺度空間の標準3次元キーポイント情報をネットワーク尺度空間の目標標準3次元キーポイント情報に変換し、ネットワーク尺度空間の目標標準3次元キーポイント情報でトレーニングされたニューラルネットワークに基づいて、ネットワーク尺度空間の3次元キーポイント情報を特定することができ、即ち、3次元キーポイント情報の特定への目標オブジェクトの大きさの影響を解消可能であり、歩容認識の正確度の向上に有利である。
【0020】
1つの可能な実施形態において、前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定することは、前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第1接続線、及び前記目標オブジェクトの左肩部と右肩部の間の第2接続線を特定することと、前記第1接続線と前記第2接続線との間の最小誤差平面を特定することと、前記最小誤差平面と水平面との交線に基づいて、前記目標オブジェクトの前進方向を特定することと、を含み、又は、前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第3接続線であって前記第1接続線である第3接続線、前記目標オブジェクトの左肩部と右肩部の間の第4接続線であって前記第2接続線である第4接続線、及び前記目標オブジェクトの骨盤点と頸椎点の間の第5接続線を特定することと、前記第3接続線及び前記第4接続線に基づいて、水平面に対する前記目標オブジェクトの第1胴体方向を特定することと、前記第5接続線に基づいて、鉛直面に対する前記目標オブジェクトの第2胴体方向を特定することと、前記第1胴体方向及び前記第2胴体方向に基づいて、前記目標オブジェクトの前進方向を特定することと、を含む。
【0021】
本実施形態では、3次元キーポイント情報のみを用いて第1接続線、第2接続線及び第1接続線と第2接続線の間の最小誤差平面を特定し、更に最小誤差平面と水平面の間の交線を用いて目標オブジェクトの前進方向を特定し、あえて撮影機器の機器パラメータに基づいて前進方向を特定することがなく、即ち、撮影機器の機器パラメータに基づいて歩容分析及び認識を行うことがないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。
【0022】
また、本実施形態では、3次元キーポイント情報のみを用いて複数本の接続線を特定し、その後、特定された各接続線を用いて、水平面に対する目標オブジェクトの第1胴体方向と鉛直面に対する目標オブジェクトの第2胴体方向とを特定し、最後に第1胴体方向及び第2胴体方向を用いて目標オブジェクトの前進方向を特定し、あえて撮影機器の機器パラメータに基づいて前進方向を特定することがなく、即ち、撮影機器の機器パラメータに基づいて歩容分析及び認識を行うことがないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。
【0023】
1つの可能な実施形態において、前記歩容データは、前記目標オブジェクトの歩幅情報を含み、前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識することは、前記複数の3次元キーポイント情報に基づいて、前記前進方向における前記目標オブジェクトの両足の間の接続線の第1投影を特定することと、前記第1投影の長さ情報に基づいて、前記目標オブジェクトの歩幅情報を特定することとを含み、及び/又は、前記歩容データは、前記目標オブジェクトの歩隔情報を含み、前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識することは、前記複数の3次元キーポイント情報に基づいて、前記前進方向に垂直な方向における前記目標オブジェクトの両足の間の接続線の第2投影を特定することと、前記第2投影の長さ情報に基づいて、前記目標オブジェクトの歩隔情報を特定することと、を含む。
【0024】
上記2種の実施形態では、3次元キーポイント情報で特定された目標オブジェクトの両足の間の接続線と3次元キーポイント情報で特定された目標オブジェクトの前進方向とのみを用いて目標オブジェクトの歩幅情報及び歩隔情報を特定し、あえて撮影機器の機器パラメータに依存して上記歩幅情報及び歩隔情報を特定することがないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。
【0025】
1つの可能な実施形態において、前記各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標オブジェクトの第1重心座標を特定することは、各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の2次元キーポイント情報をトレーニングされた第2ニューラルネットワークに入力し、入力された複数の2次元キーポイント情報を前記第2ニューラルネットワークを介して処理し、前記目標オブジェクトの第1重心座標を特定することを含む。
【0026】
本実施形態では、トレーニングされたニューラルネットワークを用いて重心座標を特定し、情報処理及び特定の自動化レベルを向上させ、情報処理及び特定の正確度を向上させることができる。
【0027】
1つの可能な実施形態において、上記行動予測方法は、前記第2ニューラルネットワークをトレーニングするステップを更に含み、前記第2ニューラルネットワークをトレーニングするステップは、第2サンプル画像を含むとともに前記第2サンプル画像よりも前のNフレームの画像も含む第2サンプルビデオセグメントと、前記第2サンプル画像における第2サンプルオブジェクトの複数の標準3次元キーポイント情報とを取得することと、前記複数の標準3次元キーポイント情報に基づいて、前記第2サンプルビデオセグメントの各フレームの画像における前記第2サンプルオブジェクトの複数のサンプル2次元キーポイント情報を特定することと、前記複数の標準3次元キーポイント情報に基づいて、前記第2サンプルオブジェクトの標準重心座標を特定することと、特定された前記複数のサンプル2次元キーポイント情報をトレーニングすべき第2初期ニューラルネットワークに入力し、入力された複数のサンプル2次元キーポイント情報を前記第2初期ニューラルネットワークを介して処理し、前記第2サンプル画像における前記第2サンプルオブジェクトの予測重心座標を出力することと、前記予測重心座標と前記標準重心座標との間の誤差情報に基づいて、前記第2初期ニューラルネットワークのネットワークパラメータを調整することと、前記第2初期ニューラルネットワークのトレーニングが完了された後、前記第2ニューラルネットワークを取得することと、を含む。
【0028】
本実施形態では、複数の標準3次元キーポイント情報に基づいて複数のサンプル2次元キーポイント情報を逆投影的に特定するため、特定されたサンプル2次元キーポイント情報の正確度を向上させることができる。
【0029】
第2態様において、本発明は、歩容認識方法を提供する。当該歩容認識方法は、それぞれが目標画像と前記目標画像よりも前のN(Nは正整数)フレームの画像とを含む複数の目標ビデオセグメントを取得するステップと、各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定するステップと、前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定するステップと、前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するステップと、を含む。
【0030】
1つの可能な実施形態において、前記複数の3次元キーポイント情報がネットワーク尺度空間の3次元キーポイント情報である場合に、前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定する前に、上記歩容認識方法は、前記目標オブジェクトの物理サイズ情報を取得するステップと、前記目標オブジェクトの物理サイズ情報に基づいて、ネットワーク尺度空間の3次元キーポイント情報を物理尺度空間の3次元キーポイント情報に更新するステップと、を更に含む。
【0031】
本実施形態では、ネットワーク尺度空間の3次元キーポイント情報が特定された後、物理尺度空間における目標オブジェクトの歩容データを正確に特定するために、ネットワーク尺度空間の3次元キーポイント情報を物理尺度空間の3次元キーポイント情報に更新する必要がある。
【0032】
1つの可能な実施形態において、前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定するステップは、前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第1接続線、及び前記目標オブジェクトの左肩部と右肩部の間の第2接続線を特定することと、前記第1接続線と前記第2接続線との間の最小誤差平面を特定することと、前記最小誤差平面と水平面との交線に基づいて、前記目標オブジェクトの前進方向を特定することと、を含み、又は、前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第3接続線、前記目標オブジェクトの左肩部と右肩部の間の第4接続線、及び前記目標オブジェクトの骨盤点と頸椎点の間の第5接続線を特定することと、前記第3接続線及び前記第4接続線に基づいて、水平面に対する前記目標オブジェクトの第1胴体方向を特定することと、前記第5接続線に基づいて、鉛直面に対する前記目標オブジェクトの第2胴体方向を特定することと、前記第1胴体方向及び前記第2胴体方向に基づいて、前記目標オブジェクトの前進方向を特定することと、を含む。
【0033】
1つの可能な実施形態において、前記歩容データは、前記目標オブジェクトの歩幅情報を含み、前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するステップは、前記複数の3次元キーポイント情報に基づいて、前記前進方向における前記目標オブジェクトの両足の間の接続線の第1投影を特定することと、前記第1投影の長さ情報に基づいて、前記目標オブジェクトの歩幅情報を特定することと、を含み、及び/又は、前記歩容データは、前記目標オブジェクトの歩隔情報を含み、前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するステップは、前記複数の3次元キーポイント情報に基づいて、前記前進方向に垂直な方向における前記目標オブジェクトの両足の間の接続線の第2投影を特定することと、前記第2投影の長さ情報に基づいて、前記目標オブジェクトの歩隔情報を特定することと、を含む。
【0034】
第3態様において、本発明は、歩容認識装置を提供する。当該歩容認識装置は、
【0035】
それぞれが目標画像と前記目標画像よりも前のN(Nは正整数)フレームの画像とを含む複数の目標ビデオセグメントを取得するためのビデオ取得モジュールと、
【0036】
各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定するためのキーポイント処理モジュールと、
【0037】
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定するための前進方向特定モジュールと、
【0038】
前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するための歩容認識モジュールと、を備える。
【0039】
第4態様において、本発明は、行動予測装置を提供する。当該行動予測装置は、
【0040】
それぞれが目標画像と前記目標画像よりも前のN(Nは正整数)フレームの画像とを含む複数の目標ビデオセグメントを取得するための画像取得モジュールと、
【0041】
各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ及び目標重心座標を特定するための画像処理モジュールと、
【0042】
前記歩容データ及び前記目標重心座標に基づいて、前記目標オブジェクトの所定時間帯における行動特徴情報を予測するための予測モジュールと、を備える。
【0043】
第5態様において、本発明は、電子機器を提供する。当該電子機器は、プロセッサと、メモリと、バスとを備え、前記メモリには、前記プロセッサで実行され得る機器読み取り可能な指令が記憶され、前記電子機器が動作しているとき、前記プロセッサと前記メモリとは、前記バスを介して互いに通信され、前記プロセッサは、前記機器読み取り可能な指令を実行することにより、上記行動予測方法又は上記歩容認識方法を実施する。
【0044】
第6態様において、本発明は、コンピュータ可読記憶媒体を更に提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサによって運転されたときに、前記プロセッサは、上記歩容認識方法又は行動予測方法を実施する。
【0045】
本発明では、上記装置、電子機器及びコンピュータ可読記憶媒体が本発明の上記方法の何れか1つの態様又は何れか1つの態様の何れか1つの実施形態の技術特徴とは実質的に同じ又は類似する技術特徴を少なくとも含むため、上記装置、電子機器及びコンピュータ可読記憶媒体に関する効果の記述は、上記方法内容の効果の記述を参照すればよく、ここで繰り返して説明しない。
【図面の簡単な説明】
【0046】
本発明の実施例がより明瞭に説明されるように、以下では、本発明の実施例に使用必要な図面を簡単に紹介する。理解できるように、以下の図面が本発明の幾つかの実施例のみを示し、範囲に対する制限として見なされるべきではない。当業者であれば、進歩性に値する労力を掛けずにこれらの図面から他の関連する図面を取得可能である。
【
図1】本発明の実施例に係る行動予測方法のフローチャートを示す。
【
図2】本発明の実施例に係る別の行動予測方法において目標画像における目標オブジェクトの複数の3次元キーポイント情報を特定するフローチャートを示す。
【
図3】本発明の実施例に係る更に別の行動予測方法における検出枠の模式図を示す。
【
図4】本発明の実施例に係るもう1つの行動予測方法において前進方向を特定する模式図を示す。
【
図5】本発明の実施例に係る重心予測方法のフローチャートを示す。
【
図6A】従来技術における時間的膨張畳み込みニューラルネットワークの構造模式図を示す。
【
図6B】簡素化された時間的膨張畳み込みニューラルネットワークの構造模式図を示す。
【
図7】本発明の実施例に係る歩容認識方法のフローチャートを示す。
【
図8】本発明の実施例に係る行動予測装置の構造模式図を示す。
【
図9】本発明の実施例に係る歩容認識装置の構造模式図を示す。
【
図10】本発明の実施例に係る電子機器の構造模式図を示す。
【発明を実施するための形態】
【0047】
本発明の実施例の目的、特徴およびメリットがより明瞭になるように、以下では、図面を参照しながら、本発明の実施例について明瞭で完全に記述する。本発明における図面が説明及び記述の目的のみを果たし、本発明の保護範囲を制限するためのものではないことは、理解されるべきである。また、模式的な図面が実物の縮尺通りに描かれていないことは、理解されるべきである。本発明に使用されるフローチャートは、本発明の幾つかの実施例に基づいて実施される操作を示す。フローチャートの操作が順番通りに実施されなくてもよく、ロジックのない文脈関係のステップが反対する順番で又は同時に実施されてもよいことは、理解されるべきである。また、当業者は、本発明の内容のガイドのもとで、フローチャートに1つ又は複数の他の操作を追加してもよく、フローチャートから1つ又は複数の操作を除去してもよい。
【0048】
また、記述される実施例は、単に本発明の一部の実施例であり、全ての実施例ではない。通常、ここの図面に記述や示される本発明の実施例のユニットは、各種の異なる配置で配備及び設計されてもよい。したがって、図面に供される本発明の実施例に対する以下の詳細な記述は、保護請求される本発明の範囲を制限するためのものでなく、本発明の特定の実施例を示すだけである。本発明の実施例に基づいて当業者が進歩性に値する労働を掛けずになした全ての他の実施例は、何れも本発明の保護範囲に属する。
【0049】
説明すべきことは、本発明の実施例は、用語「含む」を採用し、それは、その後の声明する特徴の存在を指すためのものであり、あえて他の特徴の追加を排除しない。
【0050】
上述した通り、行動分析及び認識を行う際に、一般的に多段階3次元人体姿勢認識を採用し、且つオブジェクトビデオを撮影するカメラのパラメータに依存したりカメラの撮影画角等を制限したりする必要がある。上記行動分析及び認識の方式には、認識正確度及び成功率の両方が低く、制限性が強く、汎用化能力が悪いという欠陥が存在する。
【0051】
本発明は、行動予測方法及び装置を提供する。本発明では、ビデオセグメントにおける目標オブジェクトの2次元キーポイント情報に基づくことにより、予測された歩容データ及び目標重心座標の正確度を向上させることができ、正確な歩容データ及び目標重心座標に基づくことにより、予測された行動特徴情報の正確性を向上させることができるため、目標オブジェクトの安全を有効に保証することができる。
【0052】
また、本発明は、歩容認識方法及び装置を更に提供する。本発明では、ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報を用いてビデオセグメントの最後1フレームの画像における目標オブジェクトの3次元キーポイント情報を特定することにより、特定された3次元キーポイント情報に多値多義性の問題が現れることを回避可能であるため、3次元キーポイント情報に基づいて歩容分析及び認識を行う成功率及び正確率を向上させることができる。また、本発明では、3次元キーポイント情報を用いて目標オブジェクトの前進方向を特定し、特定された前進方向及び3次元キーポイント情報に基づいて目標オブジェクトの歩容データを特定し、目標オブジェクトに対して歩容分析及び認識を行い、ビデオセグメントの撮影に使用されるカメラのカメラパラメータに依存していないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。
【0053】
以下では、具体的な実施例により、本発明の行動予測方法及び装置、歩容認識方法及び装置、電子機器、コンピュータ可読記憶媒体について説明する。
【0054】
本発明の実施例は、行動予測方法を提供する。当該方法は、目標オブジェクトに対して行動予測を行う端末機器又はサーバ等に用いられる。具体的に、
図1に示すように、本発明の実施例に係る行動予測方法は、以下のステップを含む。
【0055】
S110では、複数の目標ビデオセグメントを取得し、各目標ビデオセグメントは、目標画像と前記目標画像よりも前のNフレームの画像とを含み、Nは、正整数である。
【0056】
ここで、目標画像は、目標ビデオセグメントの最後1フレームの画像であってもよく、行動予測すべき画像である。本実施例では、目標画像における目標オブジェクトの行動特徴情報、安全特徴情報等を特定してもよい。
【0057】
目標ビデオセグメントは、行動予測を行う端末機器が自身のカメラヘッド等の撮影機器を用いて撮影したものであってもよく、他の撮影機器が撮影したものであってもよい。他の撮影機器は、撮影した後、目標ビデオセグメントを行動予測を行う端末機器又はサーバへ伝送すればよい。
【0058】
S120では、各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ及び目標重心座標を特定する。
【0059】
ここで、まず、目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の2次元キーポイント情報を用いて前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を予測し、次に、前記目標画像における目標オブジェクトの複数の3次元キーポイント情報を用いて前記目標画像における目標オブジェクトの歩容データを特定し、目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の2次元キーポイント情報及び前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を用いて、前記目標画像における前記目標オブジェクトの目標重心座標を特定してもよい。
【0060】
幾つかの実施例において、上記歩容データは、目標オブジェクトの歩幅(gait-length)情報及び/又は歩隔(gait-width)情報を含んでもよい。
【0061】
S130では、前記歩容データ及び前記目標重心座標に基づいて、前記目標オブジェクトの所定時間帯における行動特徴情報を予測する。
【0062】
ここで、目標ビデオは、複数の目標ビデオセグメントを含んでもよく、各目標ビデオセグメントは、目標画像を含む。各目標ビデオセグメントの目標画像における目標オブジェクトの歩容データ及び目標重心座標を特定することにより、複数の連続する時点における目標オブジェクトの歩容データ及び目標重心座標を取得することができる。複数の連続する時点における目標オブジェクトの歩容データが取得された後、取得された歩容データに基づいて目標オブジェクトの所定時間帯における行動をモニタリング及び予測してもよい。複数の連続する時点における目標オブジェクトの目標重心座標が取得された後、目標オブジェクトの所定時間帯における運動軌跡を予測してもよい。その後、予測された目標オブジェクトの行動及び運動軌跡を纏めて、目標オブジェクトの所定時間帯における行動特徴情報を特定する。
【0063】
幾つかの実施例において、上記行動特徴情報は、目標オブジェクトの所定時間帯における軌跡特徴及び行動特徴を含む。例えば、行動特徴情報は、具体的に、目標オブジェクトの所定時間帯における運動軌跡座標や、目標オブジェクトの所定時間帯における運動の歩幅及び歩隔等を含む。
【0064】
幾つかの実施例では、取得された歩容データ及び目標重心座標を用いて、児童又は認知障害を持つ老人の行動及び運動軌跡を遠隔にモニタリングして予測することにより、児童又は認知障害を持つ老人の人身安全を保障することができる。また、現在予測された児童又は認知障害を持つ老人の行動及び運動軌跡を纏めると、児童又は認知障害を持つ老人の次の行動の行動特徴情報を予測することができる。当該行動特徴情報は、児童又は認知障害を持つ老人の次の行動に危険が発生するか否かを示すか特定するために用いられてもよく、マッチングする安全措置対策の実施を容易にする。
【0065】
S140では、前記行動特徴情報に基づいて、前記目標オブジェクトの前記所定時間帯における安全特徴情報と前記安全特徴情報にマッチングする安全措置対策とを特定する。
【0066】
上記安全特徴情報は、目標オブジェクトの所定時間帯における運動に危険が発生するか否か及び何の危険が発生するか等を示すために用いられる。例えば、安全特徴情報は、目標オブジェクトの所定時間帯における運動歩調が大きすぎて他の物体に衝突したり転倒したりする等の危険状况を示す。
【0067】
上記安全措置対策は、予め設定され、且つ安全特徴情報に対してマッピング関係を有する。当該マッピング関係と特定された安全特徴情報とに基づいて、目標オブジェクトに対して実施された安全措置対策を特定することができる。当該安全措置対策は、目標オブジェクト又は目標オブジェクトの保護者へアラートを発す等であってもよい。例えば、目標オブジェクトは歩調が大きすぎて転倒する可能性のある場合に、目標オブジェクト又は目標オブジェクトの保護者へ転倒防止のアラート(alert)を発し、目標オブジェクトに衝突が発生する可能性のある場合において、目標オブジェクト又は目標オブジェクトの保護者へ衝突防止のアラートを発す。
【0068】
本実施例では、目標ビデオセグメントにおける目標オブジェクトの2次元キーポイント情報に基づくことにより、予測された歩容データ及び目標重心座標の正確度を向上させることができ、正確な歩容データ及び目標重心座標に基づくことにより、予測された行動特徴情報の正確性を向上させることができるため、目標オブジェクトの安全を有効に保証することができる。
【0069】
幾つかの実施例において、前記目標画像における前記目標オブジェクトの歩容データの特定過程は、以下のステップを含んでもよい。
【0070】
ステップ一では、前記目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定する。
【0071】
このステップ一が実行される前に、まず、目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の2次元キーポイント情報を特定する必要がある。具体的に実施する際に、2次元キーポイント検出ネットワークを介して各フレームの画像に対して検出を行い、各フレームの画像における複数の2次元キーポイント情報を特定してもよい。
【0072】
各フレームの画像における目標オブジェクトの複数の2次元キーポイント情報が特定された後、例えば、時間的膨張畳み込みニューラルネットワークを介して、特定された複数の2次元キーポイント情報に基づいて、目標画像における目標オブジェクトの複数の3次元キーポイント情報を特定してもよい。
【0073】
目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の2次元キーポイント情報を用いて、目標画像即ち目標ビデオセグメントの最後1フレームの画像における目標オブジェクトの3次元キーポイント情報を特定することにより、単一フレームの画像の2次元キーポイント情報を用いて3次元キーポイント情報を特定するときに現れやすい多値多義性の問題は、回避可能であり、より良好なシーケンス連続性と3次元キーポイント情報の予測の安定性が取得されるため、3次元キーポイント情報に基づいて歩容分析及び認識を行う成功率及び正確率は、向上することができる。
【0074】
ステップ二では、前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定する。
【0075】
幾つかの実施例では、目標ビデオセグメントを撮影する撮影機器の機器パラメータに依存せずに、3次元キーポイント情報における目標オブジェクトの股部、肩部、骨盤、頸椎等に対応する3次元キーポイント情報を用いて目標オブジェクトの前進方向を特定してもよい。
【0076】
上記前進方向は、物理尺度(scale)空間における目標オブジェクトの前進方向であり、3次元キーポイント情報は、ネットワーク尺度空間における目標オブジェクトの情報であってもよく、物理尺度空間における目標オブジェクトの情報であってもよい。3次元キーポイント情報がネットワーク尺度空間における目標オブジェクトの情報である場合に、まず、ネットワーク尺度空間における3次元キーポイント情報を物理尺度空間におけるものに変換する必要がある。
【0077】
上記物理尺度空間は、実世界における物理尺度であり、単位が国際単位制における長さの標準単位「メートル」であってもよい。ネットワーク尺度空間は、人工的に定義される1つの算術尺度であり、単位が1であり、その目的は、関連計算へのオブジェクト自身のサイズの影響を解消して計算を簡単にすることにある。両者の次元は、異なる。
【0078】
ステップ三では、前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識する。
【0079】
目標オブジェクトの前進方向が特定された後、3次元キーポイント情報における目標オブジェクトの足部に対応する3次元キーポイント情報を用いて目標オブジェクトの歩容データを特定してもよい。
【0080】
ここで、上記歩容データは、目標オブジェクトの歩幅情報及び/又は歩隔情報を含んでもよい。
【0081】
具体的に実施する際に、以下のサブステップを用いて来特定目標画像における目標オブジェクトの歩幅情報を特定してもよい。
【0082】
前記複数の3次元キーポイント情報に基づいて、前記前進方向における前記目標オブジェクトの両足の間の接続線の第1投影を特定し、前記第1投影の長さ情報に基づいて、前記目標オブジェクトの歩幅情報を特定する。
【0083】
具体的に実施する際には、前記複数の3次元キーポイント情報に基づいて、前記前進方向に垂直な方向における前記目標オブジェクトの両足の間の接続線の第2投影を特定するサブステップと、前記第2投影の長さ情報に基づいて、前記目標オブジェクトの歩隔情報を特定するサブステップとを用いて、目標画像における目標オブジェクトの歩隔情報を特定してもよい。
【0084】
上記では、両足の間の接続線を目標オブジェクトの前進方向と前進方向に垂直な方向とに投影してから、投影の長さに基づいて目標オブジェクトの歩幅情報及び歩隔情報を特定する。具体的に、3次元キーポイント情報が物理尺度空間における情報であるときに、直接第1投影の長さ情報を前記目標オブジェクトの歩幅情報、第2投影の長さ情報を前記目標オブジェクトの歩隔情報としてもよい。また、3次元キーポイント情報が物理尺度空間における情報ではないときに、第1投影及び第2投影が取得された後、第1投影の長さ情報と第2投影の長さ情報とを物理尺度空間に変換し、物理尺度空間における第1投影の長さ情報及び第2投影の長さ情報をそれぞれ歩幅情報及び歩隔情報とする必要がある。空間変換の過程において、特定された第1投影の長さ情報をそのまま空間変換の所定比率と乗算し、変換後の物理尺度空間における歩幅情報を取得し、特定された第2投影の長さ情報をそのまま空間変換の所定比率と乗算し、変換後の物理尺度空間における歩隔情報を取得してもよい。
【0085】
上記では、3次元キーポイント情報で特定された目標オブジェクトの両足の間の接続線と3次元キーポイント情報で特定された目標オブジェクトの前進方向とのみを用いて、目標オブジェクトの歩幅情報及び歩隔情報を特定し、あえて撮影機器の機器パラメータに依存して上記歩幅情報及び歩隔情報を特定することがないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。
【0086】
本実施例では、目標オブジェクトの複数の3次元キーポイント情報が特定された後、3次元キーポイント情報を用いて目標オブジェクトの前進方向を特定し、特定された前進方向及び3次元キーポイント情報に基づいて目標オブジェクトの歩容データを特定し、目標オブジェクトに対して歩容分析及び認識を行い、あえてビデオセグメントの撮影に使用されるカメラのカメラパラメータに依存していないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。
【0087】
幾つかの実施例において、
図2に示すように、上記目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定することは、具体的に、以下のステップを含む。
【0088】
S210では、目標ビデオセグメントにおける各フレームの画像について、当該フレームの画像における前記目標オブジェクトの複数の2次元キーポイント情報に基づいて、当該フレームの画像における前記目標オブジェクトの検出枠を特定する。
【0089】
ここで、まず、2次元キーポイント検出ネットワークを介して、各フレームの画像における目標オブジェクトの複数の2次元キーポイント情報を特定してもよい。
【0090】
複数の2次元キーポイント情報におけるキーポイント座標に基づいて、目標オブジェクトを囲む1つの検出枠、例えば、
図3における検出枠31を特定してもよい。図において、wdは、検出枠の幅を示し、hdは、検出枠の高さを示す。
【0091】
S220では、前記検出枠のサイズ情報と前記検出枠の中心点の座標とに基づいて、当該フレームの画像における各2次元キーポイント情報に対応する座標情報に対して正規化処理を行い、当該フレームの画像における目標オブジェクトの複数の目標2次元キーポイント情報を取得する。
【0092】
正規化処理時に、検出枠のサイズ情報、即ち、検出枠の幅及び検出枠の高さに基づいて、1つの大きな正方形枠32を特定し、その後、当該正方形枠32を用いて正規化処理を行ってもよい。当該正方形枠32の辺長は、m×max{wd、hd}である。mの値は、実際の応用場面に応じて定められ、例えば、値が1.2であってもよい。正方形枠32の中心と検出枠31の中心とは、重なり合う。
【0093】
具体的に実施する際に、以下の数式を用いて正規化処理を行ってもよい。
【数1】
【0094】
式において、K
x、yは、正規化処理後の2次元キーポイント情報を示し、即ち、上記目標2次元キーポイント情報に対応する座標であり、
【数2】
は、2次元キーポイント情報に対応する座標を示し、
【数3】
は、検出枠の中心点の座標を示す。
【0095】
S230では、前記各フレームの画像における目標オブジェクトの複数の目標2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定する。
【0096】
本実施例では、まず、画像における目標オブジェクトの2次元キーポイント情報を用いて目標オブジェクトの検出枠を特定し、その後、検出枠のサイズ情報及び中心点座標等を用いて2次元キーポイント情報に対応する座標情報に対して正規化処理を行い、あえてビデオセグメントを撮影するカメラのカメラパラメータ又はオリジナル画像のサイズ情報に依存しないため、カメラパラメータに対する依存性を逸脱し、切り出された画像については依然として優れた汎用性を有している。
【0097】
上記2次元キーポイント情報に対して正規化処理を行った後、正規化処理された2次元キーポイント情報を、トレーニングされた第1ニューラルネットワーク例えばトレーニングされた時間的膨張畳み込みニューラルネットワークに入力し、3次元キーポイント情報を特定してもよい。
【0098】
トレーニングされた第1ニューラルネットワークを用いて3次元キーポイント情報を特定することにより、情報処理及び特定の自動化レベルを向上させ、情報処理及び特定の正確度を向上させることができる。
【0099】
具体的に実施する際に、以下のステップを利用して上記第1ニューラルネットワークをトレーニングしてもよい。
【0100】
ステップ一では、第1サンプル画像を含む第1サンプルビデオセグメントと、前記第1サンプル画像における第1サンプルオブジェクトの複数の標準3次元キーポイント情報とを取得し、前記第1サンプルビデオセグメントは、前記第1サンプル画像よりも前のNフレームの画像を更に含む。
【0101】
ここで、第1サンプル画像は、歩容認識すべき画像である。上記標準3次元キーポイント情報は、サンプルマーキング情報として使用される。
【0102】
具体的に実施する際に、ニューラルネットワークを介して前記第1サンプル画像における第1サンプルオブジェクトの複数の標準3次元キーポイント情報を特定してもよい。当該複数の標準3次元キーポイント情報は、例えば17個のキーポイントの情報を含むオブジェクト骨格であってもよい。
【0103】
ステップ二では、前記複数の標準3次元キーポイント情報に基づいて、前記第1サンプルビデオセグメントの各フレームの画像における前記第1サンプルオブジェクトの複数のサンプル2次元キーポイント情報を特定する。
【0104】
ここで、標準3次元キーポイント情報を用いて逆投影してサンプル2次元キーポイント情報を取得してもよい。例えば、以下のステップを利用して逆投影処理を行ってもよい。
【0105】
つまり、前記第1サンプルビデオセグメントを撮影する撮影機器の機器パラメータ情報、及び第1サンプルビデオセグメントにおける各フレームの画像のRGB画面を取得するステップと、前記機器パラメータ情報、各フレームの画像のRGB画面、及び前記複数の標準3次元キーポイント情報に基づいて、前記第1サンプルビデオセグメントの各フレームの画像における前記第1サンプルオブジェクトの複数のサンプル2次元キーポイント情報を特定するステップとを利用する。
【0106】
複数の標準3次元キーポイント情報に基づいて複数のサンプル2次元キーポイント情報を逆投影的に特定するため、特定されたサンプル2次元キーポイント情報の正確度を向上させることができる。
【0107】
また、具体的に実施する際に、逆投影処理を利用せずにサンプル2次元キーポイント情報を取得してもよい。例えば、直接2次元キーポイント検出ネットワークを介して各フレームの画像における第1サンプルオブジェクトに対して検出を行い、前記第1サンプルビデオセグメントの各フレームの画像における第1サンプルオブジェクトの複数のサンプル2次元キーポイント情報を取得してもよい。
【0108】
サンプル2次元キーポイント情報を取得した後、サンプル2次元キーポイント情報を用いて第1初期ニューラルネットワークのトレーニングを行う前には、サンプル2次元キーポイント情報に対応する座標情報に対して正規化処理を行う必要がある。当該正規化処理の方法は、上記実施例において2次元キーポイント情報に対応する座標情報に対して正規化処理を行う方法と同じであり、同様に、前記第1サンプルビデオセグメントにおける各フレームの画像について、当該フレームの画像における前記第1サンプルオブジェクトの複数のサンプル2次元キーポイント情報に基づいて、当該フレームの画像における前記第1サンプルオブジェクトのサンプル検出枠を特定するステップと、前記サンプル検出枠のサイズ情報、前記サンプル検出枠の中心点の座標に基づいて、当該フレームの画像における各サンプル2次元キーポイント情報に対応する座標情報に対して正規化処理を行うステップと、を含む。
【0109】
ステップ三では、上記複数のサンプル2次元キーポイント情報をトレーニングすべき第1初期ニューラルネットワークに入力し、入力された複数のサンプル2次元キーポイント情報を前記第1初期ニューラルネットワークを介して処理し、前記第1サンプル画像における前記第1サンプルオブジェクトの複数の予測3次元キーポイント情報を特定する。
【0110】
ステップ四では、前記複数の予測3次元キーポイント情報と前記複数の標準3次元キーポイント情報との間の誤差情報に基づいて、前記第1初期ニューラルネットワークのネットワークパラメータを調整し、トレーニングの完了後で前記第1ニューラルネットワークを取得する。
【0111】
上記では、ステップ一における複数の標準3次元キーポイント情報は、物理尺度空間の情報であり、当該物理尺度空間の標準3次元キーポイント情報が取得された後、直接当該物理尺度空間の標準3次元キーポイント情報と前記複数の予測3次元キーポイント情報との間の誤差情報を用いて、前記第1初期ニューラルネットワークのネットワークパラメータを調整してもよい。このように、トレーニングされた第1ニューラルネットワークは、使用されるとき、直接予測して得られた3次元キーポイント情報も物理尺度空間の情報である。そうすると、予測された3次元キーポイント情報を用いて目標オブジェクトの歩容データを特定する際に、物理尺度空間の変換を行う必要がない。
【0112】
無論、ステップ一における物理尺度空間の標準3次元キーポイント情報をネットワーク尺度空間における情報に変換し、その後、ネットワーク尺度空間の標準3次元キーポイント情報と複数の予測3次元キーポイント情報との間の誤差情報を用いて、前記第1初期ニューラルネットワークのネットワークパラメータを調整してもよい。このように、トレーニングされた第1ニューラルネットワークは、使用されるとき、直接予測して得られた3次元キーポイント情報もネットワーク尺度空間の情報である。そうすると、予測された3次元キーポイント情報を用いて目標オブジェクトの歩容データを特定する際に、ネットワーク尺度空間の3次元キーポイント情報を物理尺度空間における3次元キーポイント情報に変換する必要がある。
【0113】
具体的に実施する際に、前記第1サンプルオブジェクトの物理サイズ情報を取得するステップと、前記第1サンプルオブジェクトの物理サイズ情報に基づいて、物理尺度空間の複数の標準3次元キーポイント情報をそれぞれネットワーク尺度空間における情報とするステップとにより、物理尺度空間の複数の標準3次元キーポイント情報をネットワーク尺度空間における情報に変換してもよい。
【0114】
第1サンプルオブジェクトの物理サイズ情報が取得された後、物理尺度空間の標準3次元キーポイント情報における座標情報を当該物理サイズ情報で割って、物理尺度空間の標準3次元キーポイント情報の変換後のネットワーク尺度空間における情報を取得してもよい。
【0115】
幾つかの実施例において、上記物理サイズ情報は、第1サンプルオブジェクト(例えば、1つの人物)の身長情報等であってもよい。
【0116】
上記サンプルオブジェクトの物理サイズ情報を用いて、物理尺度空間の標準3次元キーポイント情報をネットワーク尺度空間の情報に変換し、ネットワーク尺度空間の情報でトレーニングされたニューラルネットワークを介してネットワーク尺度空間の3次元キーポイント情報を特定することができ、即ち、尺度多様性を解消可能であり、3次元キーポイント情報の特定への目標オブジェクトの大きさの影響を解消し、歩容認識の正確度の向上に有利である。
【0117】
第1ニューラルネットワークで予測して得られた3次元キーポイント情報がネットワーク尺度空間における情報である場合に、予測された3次元キーポイント情報を用いて歩容分析を行う、即ち、前進方向及び歩容データを特定する前に、ネットワーク尺度空間における3次元キーポイント情報を物理尺度空間における情報に変換する必要があり、具体的に以下のステップによって変換してもよい。
【0118】
つまり、前記目標オブジェクトの物理サイズ情報を取得するステップと、前記目標オブジェクトの物理サイズ情報に基づいて、ネットワーク尺度空間の3次元キーポイント情報を物理尺度空間の3次元キーポイント情報に更新するステップとによって変換してもよい。
【0119】
上記のように、目標オブジェクトの物理サイズ情報が取得された後、ネットワーク尺度空間の3次元キーポイント情報における座標情報を当該物理サイズ情報と乗算し、ネットワーク尺度空間の3次元キーポイント情報の変換後の物理尺度空間における情報を取得してもよい。
【0120】
幾つかの実施例において、上記物理サイズ情報は、目標オブジェクト(例えば、1つの人物)の身長情報等であってもよい。
【0121】
幾つかの実施例において、上記前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定し、具体的に、以下のステップを含む。
【0122】
つまり、前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第1接続線、及び前記目標オブジェクトの左肩部と右肩部の間の第2接続線を特定するステップと、前記第1接続線と前記第2接続線との間の最小誤差平面を特定するステップと、前記最小誤差平面と水平面との交線に基づいて、前記目標オブジェクトの前進方向を特定するステップと、を含む。
【0123】
上記第1接続線と第2接続線との特定に使用される3次元キーポイント情報は、物理尺度空間における3次元キーポイント情報である。
【0124】
図4に示すように、具体的に実施する際に、第1接続線L2と第2接続線L1の間の最小誤差平面を特定した後、最小誤差平面と水平面(XZ平面)の間の交線L0を特定し、当該交線L0の水平面内に位置する垂線C0を目標オブジェクトの前進方向とする。
【0125】
上記3次元キーポイント情報のみを用いて第1接続線、第2接続線、及び第1接続線と第2接続線の間の最小誤差平面を特定し、更に最小誤差平面と水平面の間の交線を用いて目標オブジェクトの前進方向を特定し、あえて撮影機器の機器パラメータに基づいて前進方向を特定することがなく、即ち、撮影機器の機器パラメータに基づいて歩容分析及び認識を行うことがないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。
【0126】
幾つかの実施例において、前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定することは、具体的に以下のステップを含んでもよい。
【0127】
つまり、前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第3接続線、前記目標オブジェクトの左肩部と右肩部の間の第4接続線、及び前記目標オブジェクトの骨盤点と頸椎点の間の第5接続線を特定するステップと、前記第3接続線及び前記第4接続線に基づいて、水平面に対する前記目標オブジェクトの第1胴体方向を特定するステップと、前記第5接続線に基づいて、鉛直面に対する前記目標オブジェクトの第2胴体方向を特定するステップと、前記第1胴体方向及び前記第2胴体方向に基づいて、前記目標オブジェクトの前進方向を特定するステップと、を含んでもよい。
【0128】
上記第3接続線と第4接続線と第5接続線との特定に使用される3次元キーポイント情報は、物理尺度空間における情報である。
【0129】
具体的に実施する際に、上記第3接続線と第4接続線とでなされた角の平分線の方向を目標オブジェクトの左右方向即ち上記第1胴体方向とし、第5接続線の方向を目標オブジェクトの上下方向即ち上記第2胴体方向としてもよい。その後、第1胴体方向と第2胴体方向とのクロス積を目標オブジェクトの前進方向とする。
【0130】
上記3次元キーポイント情報のみを用いて複数本の接続線を特定し、その後、特定された各接続線を用いて、水平面に対する目標オブジェクトの第1胴体方向と鉛直面に対する目標オブジェクトの第2胴体方向とを特定し、最後に第1胴体方向及び第2胴体方向を用いて目標オブジェクトの前進方向を特定し、あえて撮影機器の機器パラメータに基づいて前進方向を特定することがなく、即ち、撮影機器の機器パラメータに基づいて歩容分析及び認識を行うことがないため、他のデータ又は機器に対する依存性が強くて汎用化能力が悪いという、歩容分析及び認識に存在する欠陥は、克服される。
【0131】
上記実施例により、認識して複数の連続する時点における目標オブジェクトの歩容データを取得可能であり、複数の連続する時点における目標オブジェクトの歩容データが認識によって取得された後、認識で得られた歩容データモニタリング及び予測目標オブジェクトの行動に基づいて、具体的な応用において、認識で得られた歩容データを用いて児童又は認知障害を持つ老人の行動を遠隔にモニタリングして予測することにより、児童又は認知障害を持つ老人の人身安全を保障することができる。
【0132】
本発明は、重心予測方法を更に提供する。当該方法は、目標オブジェクトに対して重心予測を行う単独の端末機器又はサーバに適用されてもよく、無論上記行動予測を行う端末機器又はサーバに適用されてもよい。
図5に示すように、本発明に係る重心予測方法可以は、以下のステップS510を含む。
【0133】
S510では、目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標オブジェクトの第1重心座標と、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報とを特定する。
【0134】
ここで、目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定することは、上記実施例における方法と同じであるため、ここで繰り返して説明しない。
【0135】
ここで、具体的にトレーニングされた時間的膨張畳み込みニューラルネットワークを用いて第1重心座標を特定してもよい。ここでの時間的膨張畳み込みニューラルネットワークは、上記3次元キーポイント情報を特定する時間的膨張畳み込みニューラルネットワークと異なり、再度トレーニングされる必要がある。
【0136】
時間的膨張畳み込みニューラルネットワークを用いて第1重心座標を特定する際に、入力された2次元キーポイント情報に対して正規化処理を行う必要がない。同様に、当該時間的膨張畳み込みニューラルネットワークをトレーニングする際、サンプル2次元キーポイント情報に対して正規化処理を行う必要がない。
【0137】
本ステップでは、トレーニングされたニューラルネットワークを用いて重心座標を特定し、情報処理及び特定の自動化レベルを向上させ、情報処理及び特定の正確度を向上させることができる。
【0138】
上記時間的膨張畳み込みニューラルネットワークで特定された第1重心座標が深さ方向(Z方向)において正確であるため、第1重心座標に基づいて目標重心座標を特定する際に、第1重心座標の深さ方向における座標のみを取ってもよい。
【0139】
S520では、目標画像における前記目標オブジェクトの複数の2次元キーポイント情報及び前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの第2重心座標を特定する。
【0140】
ここで、例えばSolvePnPアルゴリズム又は類似する最適化方法を用いて2次元キーポイント情報及び3次元キーポイント情報に基づいて第2重心座標を特定してもよい。上記アルゴリズムで特定された第2重心座標が水平方向(X方向)及び鉛直方向(Y方向)において正確であるため、第2重心座標に基づいて目標重心座標を特定する際に、第2重心座標の水平方向及び鉛直方向における座標のみを取ってもよい。
【0141】
上記3次元キーポイント情報は、物理尺度空間における情報である。
【0142】
S530では、前記第1重心座標及び前記第2重心座標に基づいて、前記目標画像における前記目標オブジェクトの目標重心座標を特定する。
【0143】
ここで、具体的に、第1重心座標の深さ方向における座標並びに第2重心座標の水平方向及び鉛直方向における座標を前記目標画像における目標オブジェクトの目標重心座標としてもよい。
【0144】
本実施例では、特定された2つの重心座標も合わせて使用されるため、目標オブジェクトの最終的な目標重心座標は、より正確に特定することができる。
【0145】
上記実施例により、複数の連続する時点における目標オブジェクトの目標重心座標を取得可能であり、複数の連続する時点における目標オブジェクトの目標重心座標が取得された後、取得された複数の目標重心座標に基づいて、当該複数の連続する時点における目標オブジェクトの変位推定結果(運動軌跡)を特定してもよい。
【0146】
目標オブジェクトの変位推定結果が特定された後、当該変位推定結果に基づいて目標オブジェクトの後続の運動軌跡を予測してもよい。例えば、具体的な応用において、バスケットボール選手の現在の運動軌跡を利用してこのバスケットボール選手の後続の運動軌跡を予測することにより、対抗戦術を策定してもよい。又は、バスケットボールの試合後、あるバスケットボール選手の運動軌跡を分析し、当該運動軌跡を利用してこのバスケットボール選手の戦術を分析して総括し、対抗戦術を策定してもよい。
【0147】
また、上記実施例で得られた目標オブジェクトの歩容データを用いて目標オブジェクトの行動を予測し、上記実施例で得られた目標オブジェクトの目標重心座標を用いて目標オブジェクトの運動軌跡を予測した後、予測された目標オブジェクトの行動及び運動軌跡を総合的に考慮し、目標オブジェクトの次の行動に危険が発生するか否かを予測してもよい。例えば、現在予測された児童の行動及び運動軌跡を総合的に考慮し、児童の次の行動の行動特徴情報を予測し、当該行動特徴情報に基づいて児童の次の行動に危険が発生するか否かを特定することにより、マッチングする安全措置対策の実施を容易にする。
【0148】
上記目標オブジェクトの重心座標を特定するためのニューラルネットワークは、第2ニューラルネットワークとしてもよく、具体的に実施する際に、以下のステップを利用して前記第2ニューラルネットワークをトレーニングしてもよい。
【0149】
ステップ一では、第2サンプル画像を含む第2サンプルビデオセグメントと、前記第2サンプル画像における第2サンプルオブジェクトの複数の標準3次元キーポイント情報とを取得し、前記第2サンプルビデオセグメントは、前記第2サンプル画像よりも前のNフレームの画像を更に含む。
【0150】
ここで、第2サンプル画像は、重心座標を特定すべき画像である。上記標準3次元キーポイント情報は、サンプルマーキング情報として使用される。
【0151】
具体的に実施する際に、ニューラルネットワークを介して前記第2サンプル画像における第2サンプルオブジェクトの複数の標準3次元キーポイント情報を特定してもよい。当該複数の標準3次元キーポイント情報は、例えば17個のキーポイントの情報を含むオブジェクト骨格であってもよく、物理尺度空間における情報である。
【0152】
ステップ二では、前記複数の標準3次元キーポイント情報に基づいて、前記第2サンプルビデオセグメントの各フレームの画像における前記第2サンプルオブジェクトの複数のサンプル2次元キーポイント情報を特定する。
【0153】
ここで、上記標準3次元キーポイント情報を用いて逆投影してサンプル2次元キーポイント情報を取得してもよい。例えば、以下のステップを利用して逆投影処理を行ってもよい。
【0154】
つまり、前記第2サンプルビデオセグメントを撮影する撮影機器の機器パラメータ情報、及び第2サンプルビデオセグメントにおける各フレームの画像のRGB画面を取得するステップと、前記機器パラメータ情報、各RGB画面及び前記複数の標準3次元キーポイント情報に基づいて、前記第2サンプルビデオセグメントの各フレームの画像における前記第2サンプルオブジェクトの複数のサンプル2次元キーポイント情報をそれぞれ特定するステップと、を利用する。
【0155】
複数の標準3次元キーポイント情報に基づいて複数のサンプル2次元キーポイント情報を逆投影的に特定するため、特定されたサンプル2次元キーポイント情報の正確度を向上させることができる。
【0156】
また、具体的に実施する際に、逆投影処理で得られたサンプル2次元キーポイント情報を利用しなくてもよい。例えば、2次元キーポイント検出ネットワークをそのまま利用して各フレームの画像における第2サンプルオブジェクトに対して検出を行い、前記第2サンプルビデオセグメントの各フレームの画像における第2サンプルオブジェクトの複数のサンプル2次元キーポイント情報を取得してもよい。
【0157】
ステップ三では、前記複数の標準3次元キーポイント情報に基づいて、前記第2サンプルオブジェクトの標準重心座標を特定する。
【0158】
ステップ四では、特定された前記複数のサンプル2次元キーポイント情報をトレーニングすべき第2初期ニューラルネットワークに入力し、入力された複数のサンプル2次元キーポイント情報を前記第2初期ニューラルネットワークを介して処理し、前記第2サンプル画像における前記第2サンプルオブジェクトの予測重心座標を出力する。
【0159】
ステップ五では、前記予測重心座標と前記標準重心座標との間の誤差情報に基づいて、前記第2初期ニューラルネットワークのネットワークパラメータを調整し、トレーニングの完了後で前記第2ニューラルネットワークを取得する。
【0160】
上記では、ステップ一における複数の標準3次元キーポイント情報が物理尺度空間の情報であり、当該物理尺度空間の標準3次元キーポイント情報が取得された後、直接当該物理尺度空間の標準3次元キーポイント情報を用いて物理尺度空間の標準重心座標を特定し、前記予測重心座標と物理尺度空間の標準重心座標との間の誤差情報を用いて、前記第2初期ニューラルネットワークのネットワークパラメータを調整してもよい。このように、トレーニングされた第2ニューラルネットワークは、使用されるとき、直接予測して得られた重心座標も物理尺度空間の情報である。
【0161】
幾つかの実施例において、上記第1ニューラルネットワークは、時間的膨張畳み込みニューラルネットワークを含んでもよく、目標画像における前記3次元キーポイント情報を特定するために用いられないニューロンは、前記第1ニューラルネットワークから除去されている。
【0162】
時間的膨張畳み込みニューラルネットワークを用いて3次元キーポイント情報を特定することにより、単一フレームの画像検出において2次元キーポイント情報から3次元キーポイント情報に変換するときに現れやすい多値多義性の欠陥は、克服可能である。また、本実施例では、時間的膨張畳み込みニューラルネットワークを簡素化してその中の目標画像における3次元キーポイント情報を特定するために用いられないニューロンを除去したため、2次元キーポイント情報から3次元キーポイント情報に変換するときに存在する、時間がかかってリアルタイム性が悪いという欠陥は、克服することができ、歩容分析及び認識の効率の向上に有利である。具体的に、本発明における簡素化された時間的膨張畳み込みニューラルネットワークは、家庭用コンピュータにおいて、720Pの各フレームの画像について、2次元キーポイント情報から3次元キーポイント情報への変換を10ミリ秒以内に完了することができる。
【0163】
また、上記第2ニューラルネットワークは、時間的膨張畳み込みニューラルネットワークを含んでもよく、目標画像における重心座標を特定するために用いられないニューロンは、前記第2ニューラルネットワークから除去されている。
【0164】
上記では、時間的膨張畳み込みニューラルネットワークを簡素化してその中の目標画像における重心座標を特定するために用いられないニューロンを除去したため、重心座標を特定する過程に存在する、時間がかかってリアルタイム性が悪いという欠陥は、克服することができる。
【0165】
また、第1ニューラルネットワークと第2ニューラルネットワークとにおけるニューロンを除去せず、その中の、3次元キーポイント情報と重心座標とを特定するためのニューロンのみを使用してデータ処理を行い、他のニューロンを使用しない。
図6Aに示す時間的膨張畳み込みニューラルネットワークは、全てのニューロンを使用して3次元キーポイント情報を特定し、
図6Bに示す時間的膨張畳み込みニューラルネットワークは、目標画像における前記3次元キーポイント情報を特定するためのニューロンのみを使用して3次元キーポイント情報を特定する。
【0166】
本発明の実施例は、歩容認識方法を更に提供する。当該方法は、目標オブジェクトに対して歩容認識を行う端末機器又はサーバに適用される。具体的に、
図7に示すように、本発明の実施例に係る歩容認識方法は、以下のステップを含む。
【0167】
S710では、複数の目標ビデオセグメントを取得し、各目標ビデオセグメントは、目標画像と前記目標画像よりも前のNフレームの画像とを含み、Nは、正整数である。
【0168】
ここで、目標画像は、目標ビデオセグメントの最後1フレームの画像であってもよく、歩容認識すべき画像である。即ち、本実施例では、目標画像における目標オブジェクトの歩容データを特定してもよい。
【0169】
目標ビデオセグメントは、歩容認識を行う端末機器が自身のカメラヘッド等の撮影機器を用いて撮影したものであってもよく、他の撮影機器が撮影したものであってもよい。他の撮影機器は、撮影した後、目標ビデオセグメントを歩容認識を行う端末機器又はサーバへ伝送すればよい。
【0170】
上記Nは、具体的な応用場面に応じて柔軟に設定されてもよく、例えば、27と設定されてもよい。
【0171】
S720では、各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定する。
【0172】
このステップが実行される前に、まず、目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の2次元キーポイント情報を特定する必要がある。具体的に実施する際に、2次元キーポイント検出ネットワークを介して各フレームの画像に対して検出を行い、各フレームの画像における複数の2次元キーポイント情報を特定してもよい。
【0173】
各フレームの画像における目標オブジェクトの複数の2次元キーポイント情報が特定された後、例えば時間的膨張畳み込みニューラルネットワークを介して、特定された複数の2次元キーポイント情報に基づいて、目標画像における目標オブジェクトの複数の3次元キーポイント情報を特定してもよい。
【0174】
目標ビデオセグメントの各フレームの画像における目標オブジェクトの複数の2次元キーポイント情報を用いて、目標画像即ち目標ビデオセグメントの最後1フレームの画像における目標オブジェクトの3次元キーポイント情報を特定することにより、単一フレームの画像の2次元キーポイント情報を用いて3次元キーポイント情報を特定するときに現れやすい多値多義性の問題は、回避可能であり、より良好なシーケンス連続性と3次元キーポイント情報の予測の安定性が取得されるため、3次元キーポイント情報に基づいて歩容分析及び認識を行う成功率及び正確率は、向上することができる。
【0175】
S730では、前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定する。
【0176】
幾つかの実施例において、目標ビデオセグメントを撮影する撮影機器の機器パラメータに依存せずに、3次元キーポイント情報における目標オブジェクトの股部、肩部、骨盤、頸椎等に対応する3次元キーポイント情報を用いて目標オブジェクトの前進方向を特定してもよい。
【0177】
上記前進方向は、物理尺度空間における目標オブジェクトの前進方向であり、3次元キーポイント情報は、ネットワーク尺度空間における目標オブジェクトの情報であってもよく、物理尺度空間における目標オブジェクトの情報であってもよい。3次元キーポイント情報がネットワーク尺度空間における目標オブジェクトの情報である場合に、まず、ネットワーク尺度空間における3次元キーポイント情報を物理尺度空間におけるものに変換する必要がある。
【0178】
上記物理尺度空間は、実世界における物理尺度であり、単位が国際単位制における長さの標準単位「メートル」であってもよい。ネットワーク尺度空間は、人工的に定義される1つの算術尺度であり、単位が1であり、その目的は、関連計算へのオブジェクト自身のサイズの影響を解消して計算を簡単にすることにある。両者の次元は、異なる。
【0179】
S740では、前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識する。
【0180】
幾つかの実施例において、前記複数の3次元キーポイント情報がネットワーク尺度空間の3次元キーポイント情報である場合に、前記複数の3次元キーポイント情報に基づいて前記目標オブジェクトの前進方向を特定する前に、上記歩容認識方法は、前記目標オブジェクトの物理サイズ情報を取得するステップと、前記目標オブジェクトの物理サイズ情報に基づいて、ネットワーク尺度空間の3次元キーポイント情報を物理尺度空間の3次元キーポイント情報に更新するステップと、を更に含む。
【0181】
上記歩容認識方法の実施例において、複数の3次元キーポイント情報、目標オブジェクトの前進方向、歩容データ等の実施案は、上記行動予測方法実施例における対応する実施案と同じであり、奏する技術効果も同じであるため、ここで繰り返して説明しない。
【0182】
上記行動予測方法に相応し、本発明は、行動予測装置を更に提供する。当該装置は、行動予測を行う端末機器又はサーバに適用され、各モジュールが上記方法における同じ方法ステップを実施可能であり、且つ同じ有利な作用効果を奏することができるため、その中の同じ部分について、本発明では繰り返し説明しない。
【0183】
図8に示すように、本発明に係る行動予測装置は、以下のモジュールを備えてもよい。
【0184】
画像取得モジュール810は、複数の目標ビデオセグメントを取得し、各目標ビデオセグメントは、目標画像と前記目標画像よりも前のNフレームの画像とを含む。Nは、正整数である。
【0185】
画像処理モジュール820は、各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ及び目標重心座標を特定する。
【0186】
予測モジュール830は、前記歩容データ及び前記目標重心座標に基づいて、前記目標オブジェクトの所定時間帯における行動特徴情報を予測する。
【0187】
情報処理モジュール840は、前記行動特徴情報に基づいて、前記目標オブジェクトの前記所定時間帯における安全特徴情報と前記安全特徴情報にマッチングする安全措置対策とを特定する。
【0188】
上記歩容認識方法に相応し、本発明は、歩容認識装置を更に提供する。当該装置は、歩容認識を行う端末機器又はサーバに適用され、各モジュールが上記方法における同じ方法ステップを実施可能であり、且つ同じ有利な作用効果を奏することができるため、その中の同じ部分について、本発明では繰り返し説明しない。
【0189】
具体的に、
図9に示すように、本発明に係る歩容認識装置は、以下のモジュールを備えてもよい。
【0190】
ビデオ取得モジュール910は、複数の目標ビデオセグメントを取得し、各目標ビデオセグメントは、目標画像と前記目標画像よりも前のNフレームの画像とを含む。Nは、正整数である。
【0191】
キーポイント処理モジュール920は、各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定する。
【0192】
前進方向特定モジュール930は、前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定する。
【0193】
歩容認識モジュール940は、前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識する。
【0194】
本発明の実施例は、電子機器を提供する。
図10に示すように、前記電子機器は、プロセッサ1001と、メモリ1002と、バス1003とを備え、前記メモリ1002には、前記プロセッサ1001で実行され得る機器読み取り可能な指令が記憶され、電子機器が運転されたときに、前記プロセッサ1001と前記メモリ1002とは、バス1003を介して互いに通信される。
【0195】
前記機器読み取り可能な指令が前記プロセッサ1001によって実行されたときに、前記プロセッサ1001は、以下の行動予測方法を実施する。当該行動予測方法は、
【0196】
それぞれが目標画像と前記目標画像よりも前のN(Nは正整数)フレームの画像とを含む複数の目標ビデオセグメントを取得するステップと、
【0197】
各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ及び目標重心座標を特定するステップと、
【0198】
前記歩容データ及び前記目標重心座標に基づいて、前記目標オブジェクトの所定時間帯における行動特徴情報を予測するステップと、
【0199】
前記行動特徴情報に基づいて、前記目標オブジェクトの前記所定時間帯における安全特徴情報と前記安全特徴情報にマッチングする安全措置対策とを特定するステップと、を含む。
【0200】
又は、前記機器読み取り可能な指令が前記プロセッサ1001によって実行されたときに、前記プロセッサ1001は、以下の歩容認識方法を実施する。当該歩容認識方法は、
【0201】
それぞれが目標画像と前記目標画像よりも前のN(Nは正整数)フレームの画像とを含む複数の目標ビデオセグメントを取得するステップと、
【0202】
各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定するステップと、
【0203】
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定するステップと、
【0204】
前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するステップと、を含む。
【0205】
その他、機器読み取り可能な指令がプロセッサ1001によって実行されたときに、前記プロセッサ1001に上記方法部分に記述される何れか1つの実施形態における方法内容を実施させてもよく、ここで繰り返して説明しない。
【0206】
本発明の実施例は、上記方法及び装置に対応するコンピュータプログラム製品を更に提供する。当該コンピュータプログラム製品は、プログラムコードが記憶されるコンピュータ可読記憶媒体を含み、プログラムコードに含まれる指令は、上記方法実施例における方法を実行するために用いられてもよく、具体的な実施は、方法実施例を参照すればよく、ここで繰り返し説明しない。
【0207】
上記各実施例に対する記述に各実施例同士の相違点を強調する傾向があり、同じ又は類似するところは、互いに参照可能である。簡潔のために、本文で繰り返し説明しない。
【0208】
当業者であれば明白で理解できるように、記述の利便性及び簡潔性のために、上述した装置の具体的な動作手順は、方法実施例における対応する手順を参照可能であり、本発明では繰り返して説明しない。本発明に係る幾つかの実施例において、開示された機器及び方法が他の方式にて実現され得ることは、理解されるべきである。上述した装置実施例が単に模式的なものであり、例えば、前記モジュールの区分が、単に1種の論理機能区分であり、実際に実施するときに別の区分方式もあり得る。更に例えば、複数のモジュール或いはユニットは、組み合わせられてもよく、又は、別のシステムに統合されてもよく、又は、幾つかの特徴が略され、若しくは実行しないようにしてもよい。また、示され或いは議論された互いの結合、直接結合又は通信接続は、幾つかの通信インターフェース、装置又はモジュールを介する間接結合又は通信接続であってもよく、電気的なもの、機械的なもの或いは他の形態であってもよい。
【0209】
上記分離部品として説明されたモジュールが物理的に分離されるものであってもよくでなくてもよい。また、モジュールとして表示された部品は、物理手段であってもでなくてもよい。更に、それらの手段は、1箇所に位置してもよく、複数のネットワークセルに分散してもよい。実際の需要に応じてその中の一部又は全部の手段を選択して本発明の実施例の目的を果たすことが可能である。
【0210】
また、本発明の各実施例における各機能手段は、全部で1つの処理手段に集積されてもよく、各手段がそれぞれ単独で物理的に存在してもよく、2つ或いは2つ以上の手段が1つの手段に集積されてもよい。
【0211】
上記機能は、ソフトウェア機能手段の形式で実現され、且つ独立の製品として販売や使用されるときに、プロセッサで実行され得る不揮発性のコンピュータ可読記憶媒体に記憶されてもよい。このような理解を基に、本発明の実施例は本質的に又は本発明の実施例の全部又は一部がコンピュータソフトウェア製品の形式で体現されてもよい。当該コンピュータソフトウェア製品は、1つの記憶媒体に記憶され、幾つかの指令を含むことで一台のコンピュータ機器(パソコン、サーバ又はネットワーク機器等であってもよい)に本発明の各実施例の前記方法の全部或いは一部のステップを実行させる。上述した記憶媒体は、Uディスク、モバイルハードディスク、ROM(Read-Only Memory、読み出し専用メモリ)、RAM(Random Access Memory、ランダムアクセスメモリ)、磁気ディスク又は光ディスク等の、プログラムコードを格納可能な各種の媒体を含む。
【0212】
上述したのが単に本発明の具体的な実施形態であるが、本発明の保護範囲は、これに限定されない。当技術分野に精通している如何なる技術者が本発明に開示された技術範囲内で容易に想到し得る変更又は置換は、何れも本発明の保護範囲内に含まれるべきである。したがって、本発明の保護範囲は、請求項の保護範囲に準じるべきである。
【0213】
本願は、2020年2月28日に提出された、出願番号が202010129936.Xであって発明名称が「行動予測方法及び装置、歩容認識方法及び装置」である中国特許出願の優先権を要求し、当該中国特許出願に開示された全ての内容が引用によって本願に組み込まれる。
【手続補正書】
【提出日】2021-12-10
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
それぞれが目標画像と前記目標画像よりも前のN(Nは正整数)フレームの画像とを含む複数の目標ビデオセグメントを取得するステップと、
各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ及び目標重心座標を特定するステップと、
前記歩容データ及び前記目標重心座標に基づいて、前記目標オブジェクトの所定時間帯における行動特徴情報を予測するステップと、を含むことを特徴とする行動予測方法。
【請求項2】
前記各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ
及び目標重心座標を特定することは、
各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報
及び前記目標オブジェクトの第一重心座標を特定することと、
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定することと、
前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識することと
、
前記目標画像における前記目標オブジェクトの複数の2次元キーポイント情報と前記複数の3次元キーポイント情報とに基づいて、前記目標オブジェクトの第2重心座標を特定することと、
前記第1重心座標及び前記第2重心座標に基づいて、前記目標画像における前記目標オブジェクトの目標重心座標を特定することと、を含むことを特徴とする請求項1に記載の行動予測方法。
【請求項3】
前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定することは、
各目標ビデオセグメントにおける各フレームの画像について、当該フレームの画像における前記目標オブジェクトの複数の2次元キーポイント情報に基づいて、当該フレームの画像における前記目標オブジェクトの検出枠を特定することと、
前記検出枠のサイズ情報と前記検出枠の中心点の座標とに基づいて、当該フレームの画像における各2次元キーポイント情報に対応する座標情報に対して正規化処理を行い、当該フレームの画像における目標オブジェクトの複数の目標2次元キーポイント情報を取得することと、
前記各フレームの画像における前記目標オブジェクトの複数の目標2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定することと、を含むことを特徴とする請求項
2に記載の行動予測方法。
【請求項4】
前記各フレームの画像における前記目標オブジェクトの複数の目標2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定することは、
前記各フレームの画像における前記目標オブジェクトの複数の目標2次元キーポイント情報をトレーニングされた第1ニューラルネットワークに入力し、入力された複数の目標2次元キーポイント情報に対して前記第1ニューラルネットワークを介して処理し、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定することを含むことを特徴とする請求項
3に記載の行動予測方法。
【請求項5】
前記第1ニューラルネットワークをトレーニングするステップを更に含み、
前記第1ニューラルネットワークをトレーニングするステップは、
第1サンプル画像を含むとともに前記第1サンプル画像よりも前のNフレームの画像も含む第1サンプルビデオセグメントと、前記第1サンプル画像における第1サンプルオブジェクトの複数の標準3次元キーポイント情報とを取得することと、
前記第1サンプルオブジェクトの物理サイズ情報に基づいて、各標準3次元キーポイント情報の、ネットワーク尺度空間に対応する目標標準3次元キーポイント情報を特定することと、
前記複数の標準3次元キーポイント情報に基づいて、前記第1サンプルビデオセグメントの各フレームの画像における前記第1サンプルオブジェクトの複数のサンプル2次元キーポイント情報を特定することと、
特定された前記複数のサンプル2次元キーポイント情報をトレーニングすべき
第1ニューラルネットワークに入力し、入力された複数のサンプル2次元キーポイント情報に対して前記
第1ニューラルネットワークを介して処理し、前記第1サンプル画像における前記第1サンプルオブジェクトの複数の予測3次元キーポイント情報を特定することと、
前記複数の予測3次元キーポイント情報と前記複数の
目標標準3次元キーポイント情報との間の誤差情報に基づいて、前記
第1ニューラルネットワークのネットワークパラメータを調整することと
、を含むことを特徴とする請求項
4に記載の行動予測方法。
【請求項6】
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定することは、
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第1接続線、及び前記目標オブジェクトの左肩部と右肩部の間の第2接続線を特定することと、前記第1接続線と前記第2接続線との間の最小誤差平面を特定することと、前記最小誤差平面と水平面との交線に基づいて、前記目標オブジェクトの前進方向を特定することと、を含み、又は、
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第3接続線であって前記第1接続線である第3接続線、前記目標オブジェクトの左肩部と右肩部の間の第4接続線であって前記第2接続線である第4接続線、及び前記目標オブジェクトの骨盤点と頸椎点の間の第5接続線を特定することと、前記第3接続線及び前記第4接続線に基づいて、水平面に対する前記目標オブジェクトの第1胴体方向を特定することと、前記第5接続線に基づいて、鉛直面に対する前記目標オブジェクトの第2胴体方向を特定することと、前記第1胴体方向及び前記第2胴体方向に基づいて、前記目標オブジェクトの前進方向を特定することと、を含むことを特徴とする請求項
2に記載の行動予測方法。
【請求項7】
前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識することは、前記複数の3次元キーポイント情報に基づいて、前記前進方向における前記目標オブジェクトの両足の間の接続線の第1投影
の長さ情報を特定し、前記目標オブジェクトの歩幅情報
とすることとを含み、
及び/又は、
前記複数の3次元キーポイント情報に基づいて、前記前進方向に垂直な方向における前記目標オブジェクトの両足の間の接続線の第2投影
の長さ情報を特定し、前記目標オブジェクトの歩隔情報
とすることと、を含むことを特徴とする請求項
2又は6に記載の行動予測方法。
【請求項8】
前記各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標オブジェクトの第1重心座標を特定することは、
各目標ビデオセグメントの各フレームの画像における前記目標オブジェクトの複数の2次元キーポイント情報をトレーニングされた第2ニューラルネットワークに入力し、入力された複数の2次元キーポイント情報に対して前記第2ニューラルネットワークを介して処理し、前記目標オブジェクトの第1重心座標を特定することを含むことを特徴とする請求項
2に記載の行動予測方法。
【請求項9】
前記第2ニューラルネットワークをトレーニングするステップを更に含み、
前記第2ニューラルネットワークをトレーニングするステップは、
第2サンプル画像を含むとともに前記第2サンプル画像よりも前のNフレームの画像も含む第2サンプルビデオセグメントと、前記第2サンプル画像における第2サンプルオブジェクトの複数の標準3次元キーポイント情報とを取得することと、
前記複数の標準3次元キーポイント情報に基づいて、前記第2サンプルビデオセグメントの各フレームの画像における前記第2サンプルオブジェクトの複数のサンプル2次元キーポイント情報を特定することと、
前記複数の標準3次元キーポイント情報に基づいて、前記第2サンプルオブジェクトの標準重心座標を特定することと、
特定された前記複数のサンプル2次元キーポイント情報をトレーニングすべき
第2ニューラルネットワークに入力し、入力された複数のサンプル2次元キーポイント情報に対して前記
第2ニューラルネットワークを介して処理し、前記第2サンプル画像における前記第2サンプルオブジェクトの予測重心座標を出力することと、
前記予測重心座標と前記標準重心座標との間の誤差情報に基づいて、前記
第2ニューラルネットワークのネットワークパラメータを調整することと
、を含むことを特徴とする請求項
8に記載の行動予測方法。
【請求項10】
それぞれが目標画像と前記目標画像よりも前のN(Nは正整数)フレームの画像とを含む複数の目標ビデオセグメントを取得するステップと、
各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定するステップと、
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定するステップと、
前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するステップと、を含むことを特徴とする歩容認識方法。
【請求項11】
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定するステップは、
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第1接続線、及び前記目標オブジェクトの左肩部と右肩部の間の第2接続線を特定することと、前記第1接続線と前記第2接続線との間の最小誤差平面を特定することと、前記最小誤差平面と水平面との交線に基づいて、前記目標オブジェクトの前進方向を特定することと、を含み、又は、
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの左股部と右股部の間の第3接続線、前記目標オブジェクトの左肩部と右肩部の間の第4接続線、及び前記目標オブジェクトの骨盤点と頸椎点の間の第5接続線を特定することと、前記第3接続線及び前記第4接続線に基づいて、水平面に対する前記目標オブジェクトの第1胴体方向を特定することと、前記第5接続線に基づいて、鉛直面に対する前記目標オブジェクトの第2胴体方向を特定することと、前記第1胴体方向及び前記第2胴体方向に基づいて、前記目標オブジェクトの前進方向を特定することと、を含むことを特徴とする請求項
10に記載の歩容認識方法。
【請求項12】
前記歩容データは
、
前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するステップは、前記複数の3次元キーポイント情報に基づいて、前記前進方向における前記目標オブジェクトの両足の間の接続線の第1投影
の長さ情報を特定し、前記目標オブジェクトの歩幅情報
とすることと、を含み、
及び/又は、
前記複数の3次元キーポイント情報に基づいて、前記前進方向に垂直な方向における前記目標オブジェクトの両足の間の接続線の第2投影
の長さ情報を特定し、前記目標オブジェクトの歩隔情報
とすることと、を含むことを特徴とする請求項
10又は11に記載の歩容認識方法。
【請求項13】
それぞれが目標画像と前記目標画像よりも前のN(Nは正整数)フレームの画像とを含む複数の目標ビデオセグメントを取得するためのビデオ取得モジュールと、
各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの複数の3次元キーポイント情報を特定するためのキーポイント処理モジュールと、
前記複数の3次元キーポイント情報に基づいて、前記目標オブジェクトの前進方向を特定するための前進方向特定モジュールと、
前記複数の3次元キーポイント情報及び前記前進方向に基づいて、前記目標画像における前記目標オブジェクトの歩容データを認識するための歩容認識モジュールと、を備えることを特徴とする歩容認識装置。
【請求項14】
それぞれが目標画像と前記目標画像よりも前のN(Nは正整数)フレームの画像とを含む複数の目標ビデオセグメントを取得するための画像取得モジュールと、
各目標ビデオセグメントにおける目標オブジェクトの複数の2次元キーポイント情報に基づいて、前記目標画像における前記目標オブジェクトの歩容データ及び目標重心座標を特定するための画像処理モジュールと、
前記歩容データ及び前記目標重心座標に基づいて、前記目標オブジェクトの所定時間帯における行動特徴情報を予測するための予測モジュールと、を備えることを特徴とする行動予測装置。
【請求項15】
電子機器であって、
プロセッサと、メモリと、バスとを備え、
前記メモリには、前記プロセッサで実行され得る機器読み取り可能な指令が記憶され、前記電子機器が動作しているとき、前記プロセッサと前記メモリとは、前記バスを介して互いに通信され、前記プロセッサは、前記機器読み取り可能な指令を実行することにより、請求項1から
9の何れか一項に記載の行動予測方法又は請求項
10から12の何れか一項に記載の歩容認識方法を実施することを特徴とする電子機器。
【請求項16】
コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサによって運転されたときに、前記プロセッサは、請求項1から
9の何れか一項に記載の行動予測方法又は請求項
10から12の何れか一項に記載の歩容認識方法を実施することを特徴とするコンピュータ可読記憶媒体。
【国際調査報告】