(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-09-27
(54)【発明の名称】姿勢検出およびビデオ処理方法、装置、電子機器並びに記憶媒体
(51)【国際特許分類】
G06T 7/70 20170101AFI20220916BHJP
G06T 7/00 20170101ALI20220916BHJP
【FI】
G06T7/70 Z
G06T7/00 350C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021567798
(86)(22)【出願日】2020-12-21
(85)【翻訳文提出日】2021-11-11
(86)【国際出願番号】 CN2020138127
(87)【国際公開番号】W WO2021253777
(87)【国際公開日】2021-12-23
(31)【優先権主張番号】202010566388.7
(32)【優先日】2020-06-19
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】321006888
【氏名又は名称】ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
(74)【代理人】
【識別番号】110001427
【氏名又は名称】弁理士法人前田特許事務所
(72)【発明者】
【氏名】チエン チェン
(72)【発明者】
【氏名】リン ジュンイー
(72)【発明者】
【氏名】チェン モンティン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA04
5L096FA66
5L096FA67
5L096FA69
5L096HA05
5L096HA11
(57)【要約】
本発明は、姿勢検出およびビデオ処理方法、および装置、電子機器並びに記憶媒体に関する。前記姿勢検出方法は、ターゲット画像を取得することと、前記ターゲット画像に従って、前記ターゲット画像内のターゲット対象の連続深度情報および位置情報を取得することと、前記連続深度情報および前記位置情報に従って、前記ターゲット対象の姿勢を決定することと、を含む。上記の過程を介して、ターゲット対象の姿勢をより正確に検出し、姿勢検出の精度および効果を向上させることができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
姿勢検出方法であって、
ターゲット画像を取得することと、
前記ターゲット画像に従って、前記ターゲット画像内のターゲット対象の連続深度情報および位置情報を取得することと、
前記連続深度情報および前記位置情報に従って、前記ターゲット対象の姿勢を決定することと、を含む、前記姿勢検出方法。
【請求項2】
前記ターゲット画像に従って、前記ターゲット画像内のターゲット対象の連続深度情報および位置情報を取得することは、
前記ターゲット画像を第1ニューラルネットワークモデルを介して、前記ターゲット画像内のターゲット対象の連続深度情報および位置情報を取得することと、
前記第1ニューラルネットワークモデルは、第1トレーニングデータおよび第2トレーニングデータを介してトレーニングすることにより得られることと、を含み、
前記第1トレーニングデータは、トレーニング対象を含むトレーニング画像であり、
前記第2トレーニングデータは、前記トレーニング対象の連続深度情報、および前記トレーニング対象の位置情報を含む、
請求項1に記載の姿勢検出方法。
【請求項3】
前記連続深度情報および前記位置情報に従って、前記ターゲット対象の姿勢を決定することは、
前記連続深度情報および前記位置情報を、第2ニューラルネットワークモデルを介して、前記ターゲット対象の姿勢を取得することと、
前記第2ニューラルネットワークモデルは、第2トレーニングデータおよび第3トレーニングデータを介してトレーニングすることと、を含み、
前記第2トレーニングデータは、トレーニング対象の連続深度情報、および前記トレーニング対象の位置情報を含み、
前記第3トレーニングデータは、前記トレーニング対象の姿勢を含む、
請求項1または2に記載の姿勢検出方法。
【請求項4】
前記第2トレーニングデータは、第3トレーニングデータに従って生成され、前記第3トレーニングデータは、前記トレーニング対象の姿勢を含み、
前記第3トレーニングデータに従って、前記第2トレーニングデータを生成することは、
前記第3トレーニングデータ内の前記トレーニング対象の姿勢に従って、前記トレーニング対象の離散深度情報、および前記トレーニング対象の位置情報を取得することと、
少なくとも前記離散深度情報の一部を処理して、前記トレーニング対象の連続深度情報を取得することと、
前記トレーニング対象の連続深度情報および前記トレーニング対象の位置情報に従って、前記第2トレーニングデータを生成することと、を含む、
請求項2または3に記載の姿勢検出方法。
【請求項5】
前記少なくとも前記離散深度情報の一部を処理して、前記トレーニング対象の連続深度情報を取得することは、
少なくとも前記離散深度情報の一部に対応する少なくとも1つの接続を取得することと、
前記接続に対応する離散深度情報に従って、少なくとも1つの前記接続の連続深度サブ情報を決定することと、
少なくとも1つの前記連続深度サブ情報を統計して、前記トレーニング対象の連続深度情報を取得することと、を含む、
請求項4に記載の姿勢検出方法。
【請求項6】
前記接続に対応する離散深度情報に従って、少なくとも1つの前記接続の連続深度サブ情報を決定することは、
前記接続に対応する離散深度情報に従って、線形補間を介して、前記接続上の少なくとも1つの点の第1連続深度サブ情報を取得することと、
少なくとも1つの前記接続に対応する接続範囲を決定することと、
前記第1連続深度サブ情報に従って、前記接続に対応する接続範囲内の少なくとも1つの点の第2連続深度サブ情報を決定することと、
前記第1連続深度サブ情報および/または前記第2連続深度サブ情報に従って、前記接続に対応する連続深度サブ情報を取得して、前記少なくとも1つの前記接続の連続深度サブ情報を取得することと、を含む、
請求項5に記載の姿勢検出方法。
【請求項7】
前記第1連続深度サブ情報に従って、前記接続に対応する接続範囲内の少なくとも1つの点の第2連続深度サブ情報を決定することは、
前記接続範囲が、前記接続に対応する離散深度情報のプリセットの範囲内にある場合、前記接続に対応する離散深度情報を、前記接続範囲内の少なくとも1つの点の第2連続深度サブ情報として使用することと、
前記接続範囲が、前記接続に対応する離散深度情報のプリセットの範囲以外にある場合、前記接続内の前記接続範囲内の点と最も近い第1連続深度サブ情報に従って、前記接続範囲内の少なくとも1つの点の第2連続深度サブ情報を取得することと、を含む、
請求項6に記載の姿勢検出方法。
【請求項8】
ビデオ処理方法であって、
現在のシナリオに対して画像収集を実行して、収集ビデオを取得することと、
前記収集ビデオから、少なくとも2フレームの、ターゲット対象を含むターゲット画像を選択することと、
請求項1ないし7のいずれか一項に記載の姿勢検出方法を介して、少なくとも2フレームの前記ターゲット画像内の前記ターゲット対象に対して姿勢検出を実行して、前記収集ビデオ内の前記ターゲット対象の少なくとも2つの姿勢を決定することと、を含む、前記ビデオ処理方法。
【請求項9】
前記ビデオ処理方法は、
前記ターゲット対象の少なくとも2つの姿勢、および前記収集ビデオ内のフレームの時間に従って、前記ターゲット対象の連続姿勢を取得することと、
前記ターゲット対象の連続姿勢に従って、前記ターゲット対象を追跡することと、をさらに含む、
請求項8に記載のビデオ処理方法。
【請求項10】
姿勢検出装置であって、
ターゲット画像を取得するように構成される、ターゲット画像取得部と、
前記ターゲット画像に従って、前記ターゲット画像内のターゲット対象の連続深度情報および位置情報を取得するように構成される、情報取得部と、
前記連続深度情報および前記位置情報に従って、前記ターゲット対象の姿勢を決定するように構成される、姿勢決定部と、を備える、前記姿勢検出装置。
【請求項11】
ビデオ処理装置であって、
現在のシナリオに対して画像収集を実行して、収集ビデオを取得するように構成される、画像収集部と、
前記収集ビデオから、少なくとも2フレームの、ターゲット対象を含むターゲット画像を選択するように構成される、選択部と、
請求項1ないし7のいずれか一項に記載の姿勢検出方法を介して、少なくとも2フレームの前記ターゲット画像内の前記ターゲット対象に対して姿勢検出を実行して、前記収集ビデオ内の前記ターゲット対象の少なくとも2つの姿勢を決定するように構成される、姿勢取得部と、を備える、前記ビデオ処理装置。
【請求項12】
電子機器であって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成される、メモリと、を備え、
前記プロセッサは、前記メモリによって記憶される命令を呼び出して、請求項1ないし9のいずれか一項に記載の姿勢検出方法を実行するように構成される、前記電子機器。
【請求項13】
コンピュータプログラム命令を記憶する、コンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令がプロセッサによって実行される場合、請求項1ないし9のいずれか一項に記載の姿勢検出方法を実現する、前記コンピュータ可読記憶媒体。
【請求項14】
コンピュータプログラムまたは命令を含む、コンピュータプログラム製品であって、前記コンピュータプログラムまたは命令が、コンピュータで実行される場合、前記コンピュータに請求項1ないし9のいずれか一項に記載の姿勢検出方法を実行させる、前記コンピュータプログラム製品。
【請求項15】
コンピュータ可読コードを含む、コンピュータプログラムであって、前記コンピュータ可読コードが、電子機器で実行され、前記電子機器内のプロセッサによって実行されるとき、請求項1ないし9のいずれか一項に記載の姿勢検出方法を実現する、前記コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2020年06月19日に中国特許局に提出された、出願番号が202010566388.7である、中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。
【0002】
本発明は、画像処理技術分野に関し、特に、姿勢検出およびビデオ処理方法、装置、電子機器並びに記憶媒体に関する。
【背景技術】
【0003】
三次元人体姿勢推定は、1枚の画像または1つのビデオ内の人体の三次元位置を推定することを指す。当該タスクは、コンピュータビジョン分野の1つの活躍する研究課題であり、多くのアプリケーションプログラム(例えば、動き識別、人間とコンピュータとの対話および自律運転)の重要なステップである。入力された画像を介して、高精度な三次元位置情報予測を実現することは、現在の1つの緊急の問題である。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、姿勢検出の技術的解決策を提案する。
【課題を解決するための手段】
【0005】
本発明の一態様によれば、姿勢検出方法を提供し、前記方法は、
ターゲット画像を取得することと、前記ターゲット画像に従って、前記ターゲット画像内のターゲット対象の連続深度情報および位置情報を取得することと、前記連続深度情報および前記位置情報に従って、前記ターゲット対象の姿勢を決定することと、を含む。
【0006】
一可能な実現方式において、前記ターゲット画像に従って、前記ターゲット画像内のターゲット対象の連続深度情報および位置情報を取得することは、前記ターゲット画像を第1ニューラルネットワークモデルを介して、前記ターゲット画像内のターゲット対象の連続深度情報および位置情報を取得することと、前記第1ニューラルネットワークモデルは、第1トレーニングデータおよび第2トレーニングデータを介してトレーニングすることにより得られることと、を含み、ここで、前記第1トレーニングデータは、トレーニング対象を含むトレーニング画像であり、前記第2トレーニングデータは、前記トレーニング対象の連続深度情報、および前記トレーニング対象の位置情報を含む。
【0007】
一可能な実現方式において、前記連続深度情報および前記位置情報に従って、前記ターゲット対象の姿勢を決定することは、前記連続深度情報および前記位置情報を、第2ニューラルネットワークモデルを介して、前記ターゲット対象の姿勢を取得することと、前記第2ニューラルネットワークモデルは、第2トレーニングデータおよび第3トレーニングデータを介してトレーニングすることと、を含み、ここで、前記第2トレーニングデータは、トレーニング対象の連続深度情報、および前記トレーニング対象の位置情報を含み、前記第3トレーニングデータは、前記トレーニング対象の姿勢を含む。
【0008】
一可能な実現方式において、前記第2トレーニングデータは、第3トレーニングデータに従って生成され、前記第3トレーニングデータは、前記トレーニング対象の姿勢を含み、前記第3トレーニングデータに従って、前記第2トレーニングデータを生成することは、前記第3トレーニングデータ内の前記トレーニング対象の姿勢に従って、前記トレーニング対象の離散深度情報、および前記トレーニング対象の位置情報を取得することと、少なくとも前記離散深度情報の一部を処理して、前記トレーニング対象の連続深度情報を取得することと、前記トレーニング対象の連続深度情報および前記トレーニング対象の位置情報に従って、前記第2トレーニングデータを生成することと、を含む。
【0009】
一可能な実現方式において、前記少なくとも前記離散深度情報の一部を処理して、前記トレーニング対象の連続深度情報を取得することは、少なくとも前記離散深度情報の一部に対応する少なくとも1つの接続を取得することと、前記接続に対応する離散深度情報に従って、少なくとも1つの前記接続の連続深度サブ情報を決定することと、少なくとも1つの前記連続深度サブ情報を統計して、前記トレーニング対象の連続深度情報を取得することと、を含む。
【0010】
一可能な実現方式において、前記接続に対応する離散深度情報に従って、少なくとも1つの前記接続の連続深度サブ情報を決定することは、前記接続に対応する離散深度情報に従って、線形補間を介して、前記接続上の少なくとも1つの点の第1連続深度サブ情報を取得することと、少なくとも1つの前記接続に対応する接続範囲を決定することと、前記第1連続深度サブ情報に従って、前記接続に対応する接続範囲内の少なくとも1つの点の第2連続深度サブ情報を決定することと、前記第1連続深度サブ情報および/または第2連続深度サブ情報に従って、前記接続に対応する連続深度サブ情報を取得して、前記少なくとも1つの前記接続の連続深度サブ情報を取得することと、を含む。
【0011】
一可能な実現方式において、前記第1連続深度サブ情報に従って、前記接続に対応する接続範囲内の少なくとも1つの点の第2連続深度サブ情報を決定することは、前記接続範囲が、前記接続に対応する離散深度情報のプリセットの範囲内にある場合、前記接続に対応する離散深度情報を、前記接続範囲内の少なくとも1つの点の第2連続深度サブ情報として使用することと、前記接続範囲が、前記接続に対応する離散深度情報のプリセットの範囲以外にある場合、前記接続内の前記接続範囲内の点と最も近い第1連続深度サブ情報に従って、前記接続範囲内の少なくとも1つの点の第2連続深度サブ情報を取得することと、を含む。
【0012】
本発明の一態様によれば、ビデオ処理方法を提供し、前記方法は、
現在のシナリオに対して画像収集を実行して、収集ビデオを取得することと、前記収集ビデオから、少なくとも2フレームの、ターゲット対象を含むターゲット画像を選択することと、上記のいずれか一項に記載の姿勢検出方法を介して、少なくとも2フレームの前記ターゲット画像内の前記ターゲット対象に対して姿勢検出を実行して、前記収集ビデオ内の前記ターゲット対象の少なくとも2つの姿勢を決定することと、を含む。
【0013】
一可能な実現方式において、前記ターゲット対象の少なくとも2つの姿勢、および前記収集ビデオ内のフレームの時間に従って、前記ターゲット対象の連続姿勢を取得することと、前記ターゲット対象の連続姿勢に従って、前記ターゲット対象を追跡することと、をさらに含む。
【0014】
本発明の一態様によれば、姿勢検出装置を提供し、前記装置は、
ターゲット画像を取得するように構成される、ターゲット画像取得部と、前記ターゲット画像に従って、前記ターゲット画像内のターゲット対象の連続深度情報および位置情報を取得するように構成される、情報取得部と、前記連続深度情報および前記位置情報に従って、前記ターゲット対象の姿勢を決定するように構成される、姿勢決定部と、を備える。
【0015】
一可能な実現方式において、前記情報取得部は、前記ターゲット画像を第1ニューラルネットワークモデルを介して、前記ターゲット画像内のターゲット対象の連続深度情報および位置情報を取得し、前記第1ニューラルネットワークモデルは、第1トレーニングデータおよび第2トレーニングデータを介してトレーニングすることにより得られるように構成され、ここで、前記第1トレーニングデータは、トレーニング対象を含むトレーニング画像であり、前記第2トレーニングデータは、前記トレーニング対象の連続深度情報、および前記トレーニング対象の位置情報を含む。
【0016】
一可能な実現方式において、前記姿勢決定部は、前記連続深度情報および前記位置情報を、第2ニューラルネットワークモデルを介して、前記ターゲット対象の姿勢を取得し、前記第2ニューラルネットワークモデルは、第2トレーニングデータおよび第3トレーニングデータを介してトレーニングするように構成され、ここで、前記第2トレーニングデータは、トレーニング対象の連続深度情報、および前記トレーニング対象の位置情報を含み、前記第3トレーニングデータは、前記トレーニング対象の姿勢を含む。
【0017】
一可能な実現方式において、前記第2トレーニングデータは、第3トレーニングデータに従って生成され、前記第3トレーニングデータは、前記トレーニング対象の姿勢を含み、前記第3トレーニングデータに従って、前記第2トレーニングデータを生成することは、前記第3トレーニングデータ内の前記トレーニング対象の姿勢に従って、前記トレーニング対象の離散深度情報、および前記トレーニング対象の位置情報を取得することと、少なくとも前記離散深度情報の一部を処理して、前記トレーニング対象の連続深度情報を取得することと、前記トレーニング対象の連続深度情報および前記トレーニング対象の位置情報に従って、前記第2トレーニングデータを生成することと、を含む。
【0018】
一可能な実現方式において、前記少なくとも前記離散深度情報の一部を処理して、前記トレーニング対象の連続深度情報を取得することは、少なくとも前記離散深度情報の一部に対応する少なくとも1つの接続を取得することと、前記接続に対応する離散深度情報に従って、少なくとも1つの前記接続の連続深度サブ情報を決定することと、少なくとも1つの前記連続深度サブ情報を統計して、前記トレーニング対象の連続深度情報を取得することと、を含む。
【0019】
一可能な実現方式において、前記接続に対応する離散深度情報に従って、少なくとも1つの前記接続の連続深度サブ情報を決定することは、前記接続に対応する離散深度情報に従って、線形補間を介して、前記接続上の少なくとも1つの点の第1連続深度サブ情報を取得することと、少なくとも1つの前記接続に対応する接続範囲を決定することと、前記第1連続深度サブ情報に従って、前記接続に対応する接続範囲内の少なくとも1つの点の第2連続深度サブ情報を決定することと、前記第1連続深度サブ情報および/または第2連続深度サブ情報に従って、前記接続に対応する連続深度サブ情報を取得することと、を含む。
【0020】
一可能な実現方式において、前記第1連続深度サブ情報に従って、前記接続に対応する接続範囲内の少なくとも1つの点の第2連続深度サブ情報を決定することは、前記接続範囲が、前記接続に対応する離散深度情報のプリセットの範囲内にある場合、前記接続に対応する離散深度情報を、前記接続範囲内の少なくとも1つの点の第2連続深度サブ情報として使用することと、前記接続範囲が、前記接続に対応する離散深度情報のプリセットの範囲以外にある場合、前記接続内の前記接続範囲内の点と最も近い第1連続深度サブ情報に従って、前記接続範囲内の少なくとも1つの点の第2連続深度サブ情報を取得することと、を含む。
【0021】
本発明の一態様によれば、ビデオ処理装置を提供し、前記装置は、
現在のシナリオに対して画像収集を実行して、収集ビデオを取得するように構成される、画像収集部と、前記収集ビデオから、少なくとも2フレームの、ターゲット対象を含むターゲット画像を選択するように構成される、選択部と、上記のいずれか一項に記載の姿勢検出方法を介して、少なくとも2フレームの前記ターゲット画像内の前記ターゲット対象に対して姿勢検出を実行して、前記収集ビデオ内の前記ターゲット対象の少なくとも2つの姿勢を決定するように構成される、姿勢取得部と、を備える。
【0022】
一可能な実現方式において、前記ビデオ処理装置は、さらに、前記ターゲット対象の少なくとも2つの姿勢、および前記収集ビデオ内のフレームの時間に従って、前記ターゲット対象の連続姿勢を取得し、前記ターゲット対象の連続姿勢に従って、前記ターゲット対象を追跡するように構成される。
【0023】
本発明の一態様によれば、電子機器を提供し、前記電子機器は、
プロセッサと、プロセッサ実行可能命令を記憶するように構成されるメモリと、を備え、ここで、前記プロセッサは、前記メモリによって記憶される命令を呼び出して、上記の姿勢検出方法を実行するように構成される。
【0024】
本発明の一態様によれば、コンピュータプログラム命令が記憶される、コンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令はプロセッサによって実行されるとき上記の姿勢検出方法を実現する。
【0025】
本発明の一態様によれば、コンピュータ可読コードを含む、コンピュータプログラムを提供し、前記コンピュータ可読コードが、電子機器で実行され、前記電子機器内のプロセッサによって実行されるとき、上記の姿勢検出方法を実現する。
【発明の効果】
【0026】
本発明の実行例において、ターゲット画像およびターゲット画像内のターゲット対象の連続深度情報および位置情報を取得することを介して、連続深度情報および位置情報に従って、ターゲット対象の姿勢を決定する。上記の過程を介して、ターゲット対象の連続深度情報を使用して、ターゲット対象の姿勢を予測することができ、深度情報は連続するため、離散の深度情報に対して、ターゲット対象の姿勢をより正確に検出し、姿勢検出の精度および効果を向上させることができる。
【0027】
上記した一般的な説明及び後述する詳細な説明は、単なる例示及び説明に過ぎず、本発明を限定するものではないことを理解されたい。
【0028】
以下の図面を参照しや例示的な実施例に対する詳細な説明によれば、本発明の他の特徴及び態様は明らかになる。
【図面の簡単な説明】
【0029】
ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本発明と一致する実施例を示すものであり、明細書とともに本発明の実施例の技術的解決策を説明するために使用される。
【
図1】本発明の一実施例による姿勢検出方法のフローチャートを示す。
【
図2】本発明の一実施例によるターゲット対象連続深度情報を取得する概略図を示す。
【
図3】本発明の一実施例による接続範囲を決定する概略図を示す。
【
図4】本発明の一実施例によるビデオ処理方法のフローチャートを示す。
【
図6】本発明の一実施例による姿勢検出装置のブロック図を示す。
【
図7】本発明の一実施例によるビデオ処理装置のブロック図を示す。
【
図8】本発明の実施例による電子機器のブロック図を示す。
【
図9】本発明の実施例による電子機器のブロック図を示す。
【発明を実施するための形態】
【0030】
以下、本発明の様々な例示的な実施例、特徴及び態様を図面を参照して詳細に説明する。図面内の同じ参照番号は、同じまたは類似の機能の要素を表示する。実施例の様々な態様を図面に示したが、特に明記しない限り、縮尺通りに図面を描く必要がない。
【0031】
ここで専用の用語「例示的」とは、「例、実施例または説明用として使用される」ことを意味する。ここで、「例示的」として説明される任意の実施例は、他の実施例より優れるまたはより好ましいと解釈する必要はない。
【0032】
本明細書における「及び/または」という用語は、関連付けられた対象を説明する単なる関連付けであり、3種類の関係が存在し得ることを表示し、例えば、A及び/またはBは、Aが独立で存在する場合、AとBが同時に存在する場合、Bが独立で存在する場合などの3つの場合を表示する。さらに、本明細書における「少なくとも1つ」という用語は、複数のうちの1つまたは複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCで構成されるセットから選択された任意の1つまたは複数の要素を含むことを示す。
【0033】
さらに、本発明の実施例をよりよく説明するために、以下の具体的な実施形態において多くの特定の詳細が与えられる。当業者は、特定のいくつかの詳細なしに、本発明を同様に実施することができることを理解するはずである。いくつかの例において、当業者に周知の方法、手段、要素及び回路は、本開示の要旨を強調するために、詳細に説明しない。
【0034】
図1は、本発明の一実施例による姿勢検出方法のフローチャートを示し、当該方法は、姿勢検出装置に適用されることができ、姿勢検出装置は、端末機器、サーバまたは他の処理機器などであり得る。ここで、端末機器はユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末、端末、携帯電話、コードレス電話、パーソナルデジタル処理(PDA:Personal Digital Assistant)、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであり得る。
いくつかの可能な実現方式において、当該姿勢検出方法は、プロセッサによって、メモリに記憶されるコンピュータ可読命令を呼び出す方式を介して実現さすることができる。
【0035】
図1に示されたように、前記姿勢検出方法は、以下のステップを含み得る。
【0036】
ステップS11において、ターゲット画像を取得する。
【0037】
ステップS12において、ターゲット画像に従って、ターゲット画像内のターゲット対象の連続深度情報および位置情報を取得する。
【0038】
ステップS13において、連続深度情報および位置情報に従って、ターゲット対象の姿勢を決定する。
【0039】
ここで、ターゲット画像は、姿勢検出のための任意の画像であり得、その実現形態は、本発明の実施例では限定されなく、実際の場合によって柔軟に決定することができる。一可能な実現方式において、ターゲット画像は、人体姿勢検出のための人体画像であってもよいし、一可能な実現方式において、ターゲット画像は、機械姿勢検出(ロボット姿勢検出など)のための機械画像などであってもよい。ターゲット対象は、ターゲット画像内の、姿勢検出を実行するための対象であり得、その実現形態は、ターゲット画像と姿勢検出の実際の場合によって柔軟に决定することができ、一可能な実現方式において、ターゲット画像が、人体姿勢検出のための人体画像である場合、ターゲット対象は、ターゲット画像に含まれる完全な人体であってもよいし、腕、太もも、胴体、頭などの、ターゲット画像に含まれる人体の位置または関節の一部であってもよく、一可能な実現方式において、ターゲット画像が、機械姿勢検出のための機械画像である場合、ターゲット対象は、ターゲット画像に含まれる機械対象の全体であってもよいし、機械の臂または機械が移動するようにサポートする歩行機構などの、ターゲット画像に含まれる機械のある部位であってもよい。後続の各開示された実施例は、すべて、ターゲット対象を人体とし、姿勢検出は、人体三次元姿勢検出であることを例として説明し、他の可能な実現方式は、後続の各開示される実施例を参照して柔軟的に拡張することができ、詳細に説明しない。
【0040】
ターゲット画像の数は、本発明の実施例では限定しなく、1つであってもよいし複数であってもよいし、即ち、一回の姿勢検出の過程で、一枚のみのターゲット画像に対して姿勢検出を実行することができ、複数枚のターゲット画像に対して同時に姿勢検出を実行することもでき、検出の実際のニーズによって柔軟に決定するとよい。ターゲット画像に含まれるターゲット対象の数は、本発明の実施例では制限しなく、一可能な実現方式において、一枚のターゲット画像には、1つのターゲット対象が含まれてもよいし、一可能な実現方式において、一枚のターゲット画像には、複数のターゲット対象を同時に含まれてもよいし、実際の場合によって柔軟に決定するとよい。
【0041】
ステップS11では、ターゲット画像を取得する方式も本発明の実施例では限定されなく、一可能な実現方式において、姿勢検出装置が、ターゲット対象に対してアクティブに画像収集(写真またはビデオの撮影など)を実行する方式を介してターゲット画像を取得することであり得、一可能な実現方式において、姿勢検出装置が、ターゲット画像を受動的に受信することであってもよく、どうやって実現するかは、姿勢検出装置の実際の場合によって柔軟に决定するとよく、本発明の実施例では制限しない。
【0042】
ターゲット対象の連続深度情報は、ターゲット対象の連続する複数のサンプリングポイントの深度情報であり得、ターゲット対象を検出する過程で、ターゲット対象の頭、首、肩、肘、手、腰、膝および足などの、ターゲット対象のいくつかのキーポイントを検出することができ、人体構造に基づいて、これらのキーポイントの間には、通常、比較的に長い距離があり、即ち、これらのキーポイントは、互いに離散しており、例えば、ターゲット対象の肘と手首との間に腕の距離だけ離れているため、キーポイントの深度情報は、通常、離散した深度情報であることが分かることができる。連続深度情報は、人体胴体の剛構造に基づいて、隣接する離散キーポイント間のすべてのポイントに対して深度推定を実行して得られる連続情報であり、一可能な実現方式において、連続深度情報は、連続深度特徴マップとして表すことができる。
【0043】
そのため、ステップS12において、ターゲット画像内のターゲット対象の連続深度情報を取得することは、ターゲット画像内のターゲット対象のカバレッジ内に含まれる複数の連続のサンプリングポイントの深度情報を取得することであり得、当該連続深度情報を取得する方式は、実際の場合によって柔軟に選択することができる。
【0044】
ターゲット対象に対して姿勢検出を実行する過程において、最終的に取得する必要があることは、ターゲット対象の三次元座標である可能性があり、深度情報は、三次元座標のうちの1つの次元であるため、一可能な実現方式において、ステップS12は、ターゲット対象の姿勢を決定することを補助するために、ターゲット対象の二次元位置情報を必要とする可能性がある。位置情報の実現形態は限定されなく、実際の場合によって柔軟に選択することができ、一可能な実現方式において、ターゲット対象の位置情報は、ターゲット対象の二次元ヒートマップを含み得、ここで、含まれる二次元ヒートマップの数とタイプは、実際の場合によって柔軟に决定することができ、一例において、ターゲット対象の位置情報は、ターゲット対象のキーポイントの二次元ヒートマップ、および/またはターゲット対象胴体の二次元ヒートマップなどを含み得る。
【0045】
本発明のいくつかの実施例において、ターゲット対象の位置情報を取得する方式は、同じく実際の場合によって柔軟に决定することができ、詳細は、各開示された実施例を参照されたい。
【0046】
一可能な実現方式において、ステップS12は、ターゲット画像を第1ニューラルネットワークモデルを介して、ターゲット画像内のターゲット対象の連続深度情報および位置情報を取得することを含み得る。
【0047】
第1ニューラルネットワークモデルは、ターゲット対象の連続深度情報および位置情報の抽出機能を有するニューラルネットワークモデルであり得、その実現形態は、本発明の実施例では限定されなく、実際の場合によって柔軟に設定することができる。その入力データが、ターゲット画像であり、出力データが、ターゲット画像内のターゲット対象の連続深度情報であるため、一可能な実現方式において、第1ニューラルネットワークモデルは、第1トレーニングデータおよび第2トレーニングデータを介して、第1初期ニューラルネットワークをトレーニングして得られたニューラルネットワークモデルであり得る。ここで、第1トレーニングデータは、トレーニング対象を含むトレーニング画像であり得、第2トレーニングデータは、トレーニング対象の連続深度情報およびトレーニング対象の位置情報を含み得る。ここで、トレーニング画像に含まれるトレーニング対象は、ターゲット対象と同じであってもよいし、ターゲット対象と同じタイプに属するが、ターゲット対象と同じ対象ではない関連する対象などであってもよいし、ここで、実現形態は、ターゲット対象の実現形態を参照でき、ここでは繰り返して説明しない。トレーニング画像の実現形態は、ターゲット画像の実現形態を参照でき、ここでは繰り返して説明しない。第2トレーニングデータをどうやって取得するか、および第2トレーニングデータ内のターゲット対象の連続深度情報および位置情報をどうやって取得するかは、後続の各開示された実施例を参照でき、ここでは詳細を説明しない。第1トレーニングデータおよび第2トレーニングデータの数は、本発明の実施例で制限されなく、実際の場合によって柔軟に决定することができる。
【0048】
第1初期ニューラルネットワークは、VGG、ResNetまたはGoogleNetなどの一般的なニューラルネットワークであってもよいし、MobileNet V2またはShuffleNet V2などの軽量ニューラルネットワークであってもよいし、ここで、どのニューラルネットワークを第1初期ニューラルネットワークとして選択する、実際のニーズによって柔軟に選択するとよい。
【0049】
第1トレーニングデータおよび第2トレーニングデータを第1初期ニューラルネットワークに入力してトレーニングすることを介して、連続深度情報抽出機能を有する第1ニューラルネットワークモデルを取得し、当該第1ニューラルネットワークモデルを使用して、ターゲット画像内のターゲット対象の連続深度情報および位置情報を取得し、上記の過程を介して、比較的に便利な方式を使用して、ターゲット画像内のターゲット対象の連続深度情報および位置情報を取得することができ、且つ、取得された連続深度情報の精度は高く、姿勢検出の難易度を低減する同時に、姿勢検出の精度を向上させる。同時に、連続深度情報を含む第2トレーニングデータを介してトレーニングして第1ニューラルネットワークモデルを取得して、第1ニューラルネットワークモデルが、より構造化された深度情報を学習することを容易にすることができ、それにより、第1ニューラルネットワークモデルにより堅牢な一般化機能を与え、第1ニューラルネットワークモデルが、より多くの適用シナリオに適することを容易にする。
【0050】
一可能な実現方式において、ステップS12は、
ターゲット画像を第4ニューラルネットワークモデルを介して、ターゲット画像内のターゲット対象の連続深度情報を取得することと、
ターゲット画像を第3ニューラルネットワークモデルを介して、ターゲット画像内のターゲット対象の位置情報を取得することと、を含み得る。
【0051】
上記の開示された実施例によると、一可能な実現方式において、ターゲット画像を2つの異なるニューラルネットワークにそれぞれ入力することを介して、ターゲット対象の連続深度情報および位置情報をそれぞれ取得することもできる。この場合、第4ニューラルネットワークモデルは、ターゲット対象の連続深度情報抽出機能のみを有するニューラルネットワークモデルであり得、第3ニューラルネットワークモデルは、ターゲット対象の位置情報抽出機能のみを有するニューラルネットワークモデルであり得る。そのため、一可能な実現方式において、第1ニューラルネットワークモデルも、第1トレーニングデータおよび第4トレーニングデータを介して、第4初期ニューラルネットワークをトレーニングすることにより得られたニューラルネットワークモデルであり得、第1トレーニングデータの実現形態は、上記の各開示された実施例を参照でき、ここでは繰り返して説明しない。この場合、第4トレーニングデータの実現形態は、柔軟に変化することができ、例えば、第4トレーニングデータは、トレーニング対象の連続深度情報のみを含んでもよい。ターゲット対象の位置情報は、第1トレーニングデータと共同に第3ニューラルネットワークモデルのトレーニングデータとして使用されて、第3初期ニューラルネットワークトレーニングをトレーニングし、それにより、第3ニューラルネットワークモデルを取得することができる。第3初期ニューラルネットワークの実現形態は、柔軟に决定することができ、ここで、第1初期ニューラルネットワークを参照でき、ここでは繰り返して説明しない。
【0052】
ターゲット画像を第4ニューラルネットワークモデルおよび第3ニューラルネットワークモデルにそれぞれ入力することにより、ターゲット対象の連続深度情報および位置情報をそれぞれ取得し、上記の過程を介して、第4ニューラルネットワークモデルおよび第3ニューラルネットワークモデルの機能を簡略化することにより、第4ニューラルネットワークモデルおよび第3ニューラルネットワークモデルの精度を向上し、それにより、取得された連続深度情報および位置情報の深度を効果的に向上し、姿勢検出の精度を向上させることができる。
【0053】
ステップS13において、連続深度情報に従って、ターゲット対象の姿勢を決定する実現方式も、本発明の実施例では限定されない。一可能な実現方式において、ステップS13は、連続深度情報および位置情報を第2ニューラルネットワークモデルを介して、ターゲット対象の姿勢を取得することを含み得る。
【0054】
第2ニューラルネットワークモデルは、姿勢検出機能を有するニューラルネットワークモデルであり得、その実現形態は、本発明の実施例で限定されなく、実際の場合によって柔軟に設定することができる。その入力データが、連続深度情報および位置情報であり、出力データが、ターゲット対象の姿勢であるため、一可能な実現方式において、第2ニューラルネットワークモデルは、第2トレーニングデータおよび第3トレーニングデータを介して、第2初期ニューラルネットワークをトレーニングすることにより得られたニューラルネットワークモデルであり得る。ここで、第2トレーニングデータは、トレーニング対象の連続深度情報およびトレーニング対象の位置情報を含み得、第3トレーニングデータは、トレーニング対象の姿勢を含み得る。ここで、第2トレーニングデータの実現形態は、上記の開示された実施例で言及された第2トレーニングデータと同じであり、ここでは繰り返して説明しない。第3トレーニングデータは、トレーニング対象の姿勢予測結果であり得、その実現形態は限定されなく、一可能な実現方式において、トレーニング対象のキーポイントの三次元位置情報(例えば、三次元座標)をトレーニング対象の姿勢予測結果として使用することができる。
【0055】
第2初期ニューラルネットワークの実現形態は、上記の第1初期ニューラルネットワークの実現形態を参照でき、即ち、ある一般的なニューラルネットワークによって構成されることができ、一可能な実現方式において、第2初期ニューラルネットワークは、順次に接続される畳み込み層とプーリング層によって構成されるニューラルネットワークであり得、ここで、畳み込み層およびプーリング層の数と、接続順序などは、本発明の実施例ですべて制限しない。
【0056】
第2トレーニングデータおよび第3トレーニングデータを第2初期ニューラルネットワークに入力してトレーニングすることにより、姿勢検出機能を有する第2ニューラルネットワークモデルを取得し、当該第2ニューラルネットワークモデルを使用して、連続深度情報および位置情報に従って、ターゲット対象の姿勢を取得する。上記の過程を介して、連続深度情報を含む第2トレーニングデータを使用してトレーニングして第2ニューラルネットワークモデルを取得することができ、第2ニューラルネットワークモデルにより有効な情報を提供して、より正しい予測結果を取得し、より正確な姿勢予測を実現することができ、且つ、複数のターゲット画像または複数のターゲット対象を同時に処理して、複数の姿勢検出結果を取得することを容易にし、姿勢検出の精度と便利性を向上させる。
【0057】
本発明の実行例において、ターゲット画像およびターゲット画像内のターゲット対象の連続深度情報および位置情報を取得することを介して、連続深度情報および位置情報に従って、ターゲット対象の姿勢を決定する。上記の過程を介して、連続深度情報をターゲット対象姿勢予測過程の中間監督情報として使用して姿勢検出を実現することができ、それにより、ターゲット対象の姿勢をより正確に検出し、姿勢検出の精度と効果を向上させることができる。
【0058】
各上記の開示された実施例から分かるように、一可能な実現方式において、ステップS11ないしステップ13を介して、姿勢検出を実現する鍵は、ターゲット対象の連続深度情報を含むトレーニングデータを介して、第1ニューラルネットワークモデルおよび第2ニューラルネットワークモデルをトレーニングすることである。1つのトレーニングデータとする画像に対して、実在の人物が特定のセンサ機器を装着することにより、キーポイントの深度情報を収集することができるが、各連続サンプリングポイントの深度情報の取得を実現することは難しく、手動ラベリングの方式でラベリングする場合には、膨大な作業負荷が発生し、時間と労力を消費する。
【0059】
そのため、一可能な実現方式において、第2トレーニングデータは、第3トレーニングデータに従って生成することができ、第3トレーニングデータは、トレーニング対象の姿勢を含む。
【0060】
ここで、第3トレーニングデータに従って、第2トレーニングデータを生成することは、以下のステップを含み得る。
【0061】
S21において、第3トレーニングデータ内のトレーニング対象の姿勢に従って、第3トレーニングデータ内のトレーニング対象の離散深度情報、およびトレーニング対象の位置情報を取得する。
【0062】
S22において、少なくとも離散深度情報の一部を処理して、トレーニング対象の連続深度情報を取得する。
【0063】
S23において、トレーニング対象の連続深度情報およびトレーニング対象の位置情報に従って、第2トレーニングデータを生成する。
【0064】
ここで、第3トレーニングデータの実現方式は、上記の開示された実施例と同じであり、ここでは繰り返して説明しない。上記の開示された実施例によれば、一可能な実現方式において、ターゲット対象のキーポイントの三次元位置情報をターゲット対象の姿勢予測結果として使用することができるため、対応的に、トレーニング対象のキーポイントの三次元位置情報をトレーニング対象の姿勢予測結果とすることができ、即ち、第3トレーニングデータには、直接にトレーニング対象の離散深度情報および位置情報が含まれることができ、即ち、ステップS21を介して、第3トレーニングデータに従って、トレーニング対象の離散深度情報および位置情報を直接に取得することができる。
【0065】
上記の開示された実施例の記載のように、離散深度情報は、あるキーポイントまたはサンプリングポイントの深度情報であり得、そのため、ステップS21において、取得される離散深度情報の数は、第3トレーニングデータ内のキーポイントまたは夫君なれる深度値を有するサンプリングポイントの数に従って決定することができ、本発明の実施例では制限しない。
【0066】
ステップS22を介してトレーニング対象の連続深度情報を取得する過程では、取得される各離散深度情報に従って処理して得られることであってもよいし、取得される離散深度情報に対して、情報の一部を選択して処理して得られることであってもよいし、ここで、取得される離散深度情報のすべてを使用するか、離散深度情報の一部を使用するか、およびどの離散深度情報を使用するかをどうやって選択するかは、すべて実際の場合によって柔軟に選択することができ、本発明の実施例では制限しない。
【0067】
トレーニング対象の連続深度情報を取得した後、ステップS23を介して、トレーニング対象の連続深度情報および位置情報に従って、第2トレーニングデータを生成することができる。ステップS23の実現方式は、本発明の実施例では限定されなく、一可能な実現方式において、連続深度情報は、連続深度特徴マップの形で体現することができ、位置情報は、二次元ヒートマップの形で体現することができるため、直接に連続深度情報および位置情報を共同に第2トレーニングデータとすることができる。
【0068】
トレーニング対象姿勢を含む第3トレーニングデータに従って、トレーニング対象の連続深度情報および位置情報を含む第2トレーニングデータを生成することにより、第2トレーニングデータを取得する難易度および作業負荷を大幅に減らして、姿勢検出実現過程の便利性を向上させることができる。
【0069】
本発明のいくつかの実施例において、ステップS22において、少なくとも離散深度情報の一部をどうやって処理して、トレーニング対象の連続深度情報を取得するかの、処理方式は、実際の場合によって柔軟に决定することができる。一可能な実現方式において、ステップS22は、以下のステップを含み得る。
【0070】
ステップS221において、少なくとも離散深度情報の一部に対応する少なくとも1つの接続を取得する。
【0071】
ステップS222において、接続に対応する離散深度情報に従って、少なくとも1つの前記接続の連続深度サブ情報を決定する。
【0072】
ステップS223において、少なくとも1つの連続深度サブ情報を統計して、トレーニング対象の連続深度情報を取得する。
【0073】
ここで、離散深度情報に対応する接続の実現形態は、実際の場合によって柔軟に决定されることができる。一可能な実現方式において、当該接続は、実質的な接続であり得、例えば、離散深度情報に対応するキーポイントを接続して接続線を取得し、それにより、接続線を離散深度情報に対応する接続とする。一可能な実現方式において、当該接続は、実質的に接続されてない対応関係であり得、即ち、どの離散深度情報に対応するキーポイント間に接続関係を有することができるかを決定するが、これらの離散深度情報に対応するキーポイントを接続線を介して接続しない。後続の各開示された実施例は、すべて、取得される接続を実質的な接続線として使用することを例として説明し、実質的に接続しないことにより接続線を取得する方式は、後続の各開示された実施例を参照して柔軟に拡張することができ、詳細には説明しない。
【0074】
上記の開示された実施例では、ターゲット対象の連続深度情報を取得する過程では、取得される各離散深度情報をすべて処理して取得することであってもよいし、離散深度情報の一部を処理して取得することであってもよいことを提案した。そのため、ステップS221において、少なくとも離散深度情報の一部に対応する少なくとも1つの接続を取得する過程では、取得されるすべての離散深度情報のうち、任意の2つの離散深度情報に対する接続であってもよいし、離散深度情報の一部を選択した接続であってもよいし、トレーニング対象における離散深度情報の位置に従って、選択的な接続であってもよいし、実際のニーズによって柔軟に决定するとよい。
【0075】
一可能な実現方式において、離散深度情報が、取得されるトレーニング対象のキーポイントの深度情報である場合、トレーニング対象におけるキーポイントの位置に従って、キーポイントの離散深度情報を選択的に接続することができ、例を挙げると、取得される離散深度情報が、手首、肘、肩および頭を含む場合、人体の胴体構造に基づいて、手首と肘の離散深度情報、肘と肩の離散深度情報、および肩と頭の離散深度情報をそれぞれ接続して、3つの接続線を取得することができ、他の接続方式は、例えば、手首と頭を接続し、肘と頭を接続するなどは、人体胴体の分布方式と一致しないため、これらの離散深度情報を接続する必要がない。
【0076】
少なくとも2つの離散深度情報を接続して、少なくとも1つの接続を取得した後、ステップS222を介して、接続に対応する離散深度情報に従って、少なくとも1つの接続の連続深度サブ情報を決定することができる。
【0077】
一可能な実現方式において、接続が、接続線である場合、接続線終点に対応する離散深度情報に従って、少なくとも1つの接続線に対応する連続深度サブ情報を取得することができる。ここで、接続線終点に対応する離散深度情報は、即ち、ステップS221の接続線を取得する過程で、接続される離散深度情報である。例を挙げると、上記の開示された実施例では、手首と肘の離散深度情報、肘と肩の離散深度情報および肩と頭の離散深度情報を接続して3つの接続線を取得することができると言及しており、一例において、手首と肘の接続線に対応する連続深度サブ情報は、手首の離散深度情報と肘の離散深度情報を介して取得することができ、肘と肩の接続線に対応する連続深度サブ情報は、肘の離散深度情報および肩の離散深度情報によって取得することができ、同様に、肩と頭の接続線に対応する連続深度サブ情報は、肩の離散深度情報と頭の離散深度情報によって取得することができる。ここで、接続線終点の離散深度情報に従って接続線に対応する連続深度サブ情報を取得する過程は、後続の各開示された実施例を参照でき、ここでは詳細に説明しない。
【0078】
図2は、本発明の一実施例によるトレーニング対象連続深度情報を取得する概略図を示し、図に示されたように、一可能な実現方式において、第3トレーニングデータから取得されたトレーニング対象の離散深度情報は、トレーニング対象の手首離散深度情報Pwおよびトレーニング対象の手肘離散深度情報Peを含み得、この場合、手首離散深度情報PwとPeを接続して、トレーニング対象の腕接続線を取得し、手首離散深度情報Pwおよび手肘離散深度情報Peに従って、腕接続線に対応する連続深度情報を取得することができる。
【0079】
少なくとも1つの接続に対応する連続深度サブ情報を取得した後、ステップS223を介して、これらの連続深度サブ情報を統計して、トレーニング対象の連続深度情報を取得することができる。統計の方式は、実際の場合によって柔軟に决定することができ、本発明の実施例では限定しない。一可能な実現方式において、取得された各接続に対応する連続深度サブ情報を組み合わせて、トレーニング対象に対応する連続深度情報として共同に使用することができ、一可能な実現方式において、いくつかの明らかに誤差がありまたはトレーニング対象のカバレッジを超える連続深度サブ情報を削除し、残りの連続深度サブ情報を保留して、トレーニング対象の連続深度情報として共同に使用されることもでき、ここで、スクリーニング方式は、実際の場合によって柔軟に選択するとよい。
【0080】
与少なくとも離散深度情報の一部に対応する少なくとも1つの接続を取得することを介して、接続に対応する離散深度情報に従って、少なくとも1つの接続の連続深度サブ情報を取得し、それにより、少なくとも1つの連続深度サブ情報を統計して、トレーニング対象の連続深度情報を取得することができ、上記の過程を介して、既存の離散深度情報に従って、トレーニング対象本体の構造に基づいて、離散深度情報と連続深度情報との関係を確立して、離散値に従って連続値を導出することを容易にし、トレーニング対象の連続深度情報をより便利に決定し、さらに、第2トレーニングデータを取得する難易度および作業負荷を減らし、姿勢検出実現過程の便利性を向上させることができる。
【0081】
上記の開示された実施例は、ステップS222の実現方式は限定されないことを提案し、一可能な実現方式において、ステップS222は、以下のステップを含み得る。
【0082】
ステップS2221において、接続に対応する離散深度情報に従って、線形補間を介して、接続上の少なくとも1つの点の第1連続深度サブ情報を取得する。
【0083】
ステップS2222において、少なくとも1つの接続に対応する接続範囲を決定する。
【0084】
ステップS2223において、第1連続深度サブ情報に従って、接続に対応する接続範囲内の少なくとも1つの点の第2連続深度サブ情報を決定する。
【0085】
ステップS2224において、第1連続深度サブ情報および/または第2連続深度サブ情報に従って、接続に対応する連続深度サブ情報を取得する。
【0086】
ここで、第1連続深度サブ情報は、接続または接続線上の点に位置する深度情報であり得る。上記の開示された実施例の記載のように、一可能な実現方式において、離散深度情報を接続することにより、少なくとも1つの接続線を取得することができ、且つ、当該接続線終点の離散深度情報は、接続された離散深度情報であるためため、取得された各接続線に対して、当該接続線には、すべて、2つの点があり、接続線におけるこの2つの点の位置は知られている同時に、対応する深度情報も知られており、そのため、この接続線に対して、接続線上の残りの点に対応する深度情報は、すべて、この2つの知られている点の深度情報を介して導出されることができ、そのため、一可能な実現方式において、ステップS2221を介して、接続線終点に対応する離散深度情報を使用して、線形補間を介して、接続線上の残りの点の第1連続深度サブ情報を取得することができる。ここで、接続線上の各点の第1連続深度サブ情報を取得するか、接続線上の点の一部の第1連続深度サブ情報を取得するかは、ニーズによって柔軟に決定することができる。一可能な実現方式において、接続線終点に対応する離散深度情報を介して、線形補間により、接続線上の第1連続深度サブ情報と点の位置との関係関数を取得することができ、このようにして、第1連続深度サブ情報を取得する必要があるのは接続線上のすべての点であるか点の一部であるかに関係なく、第1連続深度サブ情報の点の位置を取得して、関係関数に代入することで取得することができる。
【0087】
第2連続深度サブ情報は、接続に対応する接続範囲内の点の深度情報であり得る。上記の各開示された実施例の記載のように、取得される離散深度情報は、トレーニング対象のキーポイントの一部の離散深度情報であり得、依然として
図2を例として、図に示されたように、取得される離散深度情報が、手首キーポイントと手肘キーポイントの深度情報PwとPeである場合、PwとPeを接続して得られる接続線は、トレーニング対象の腕範囲を完全にカバできなく、当該接続線上の第1連続深度サブ情報のみを取得する場合に、腕の連続深度情報を完全に反映できない可能性があるため、一可能な実現方式において、接続線で適する拡張を実行して、接続線に対応する接続範囲を決定して、接続線上の点の第1連続深度サブ情報を取得する基で、さらに、接続範囲内の残りの点の第2連続深度サブ情報を取得することができる。
【0088】
接続範囲の決定方式は、本発明の実施例では限定されなく、一可能な実現方式において、接続線を中心として、トレーニング対象の境界まで延長して、接続線に対応する接続範囲を取得することができる。一可能な実現方式において、作業負荷をけらし、接続範囲の決定効率を向上させるために、1つのプリセットの半径を設定して、接続線を中心として、プリセットの半径まで延長して、接続線の接続範囲を取得することができる。このプリセットの半径の設定方式は、実際の場合によって柔軟に選択することができ、本発明の実施例に限定されなく、一例において、1つの辺の長さが、Rである拡張半径を設定し、その後、接続線を中心線として、1つの幅が2Rであり、長さが接続線と同じである長方形を構成することができ、同時に、接続線の2つの終点で、長方形と離れた一側に、2つの半径がRの半円をそれぞれ構造し、Rの値は、実際の場合によって柔軟に設定することができ、この2つの半径がRである半円は、幅が2Rである長方形と共同に接続範囲を構成する。
図3は、本発明の一実施例による接続範囲を決定する概略図を示し、図に示されたように、一例において、PwとPeの接続線を中心線として、上記の方式に従って、当該接続に対応する接続範囲を構造することができる。
【0089】
接続範囲を決定した後、第1連続深度サブ情報に従って、接続範囲に含まれる点の第2連続深度サブ情報を決定することができ、ここで、どうやって決定するかは、以下の各開示された実施例を参照でき、ここでは詳細に説明しない。
【0090】
第1連続深度サブ情報および第2連続深度サブ情報を取得した後、両方に従って連続深度サブ情報を取得することができ、ここで、第1連続深度サブ情報を連続深度サブ情報とするか、または第2連続深度サブ情報を連続深度サブ情報とするか、または第1連続深度サブ情報および第2連続深度サブ情報を共同に連続深度サブ情報とするか、情報の一部を選択して連続深度サブ情報とするかは、実際の場合によって柔軟に選択することができ、本発明の実施例では制限しない。
【0091】
上記の各開示された実施例の記載のように、一可能な実現方式において、離散深度情報の接続は、実質的な接続ではなく対応関係であってもよいし、この場合、接続の離散深度情報間には接続線がないけど、接続の離散深度情報に基づく位置関係は、上記の開示された実施例の実現方式を参照でき、線形補間を介して、両方の接続のカバレッジにおける異なる点の深度情報を決定し、ここで、決定過程は、上記の各開示された実施例を参照でき、ここでは繰り返して説明しない。
【0092】
接続に対応する離散深度情報に従って線形補間することにより、接続上の少なくとも1つの点の第1連続深度サブ情報を取得し、同時に、接続に対応する接続範囲を決定して、第1連続深度サブ情報に従って、接続範囲内の少なくとも1つの点の第2連続深度サブ情報を取得し、さらに、第1連続深度サブ情報および/または第2連続深度サブ情報に従って連続深度情報を取得して、少なくとも1つの接続の連続深度サブ情報を取得する。上記の過程を介して、一方では、接続上の連続深度サブ情報をより便利的に取得することができ、もう一方では、接続のカバレッジを拡張して、接続に対応する接続範囲内の連続深度サブ情報を取得することができ、それにより、ニューラルネットワークモデルのトレーニングのための、より包括的で正確なトレーニング対象の連続深度情報を取得し、さらに、姿勢検出の精度を向上させることができる。
【0093】
一可能な実現方式において、ステップS2223は、以下のステップを含み得る。
【0094】
ステップS22231において、接続範囲が、接続に対応する離散深度情報のプリセットの範囲内にある場合、接続に対応する離散深度情報を、接続範囲内の少なくとも1つの点の第2連続深度サブ情報として使用する。
【0095】
ステップS22232において、接続範囲が、接続に対応する離散深度情報のプリセットの範囲以外にある場合、接続内の接続範囲内の点と最も近い第1連続深度サブ情報に従って、接続範囲内の少なくとも1つの点の第2連続深度サブ情報を取得する。
【0096】
ここで、接続に対応する離散深度情報のプリセットの範囲は、接続範囲に含まれる範囲の一部であり得、ここで、プリセットの範囲のサイズと定義方式は、接続範囲の決定場合によって柔軟に决定することができる。上記の開示された実施例から分かるように、一可能な実現方式において、プリセットの範囲は、接続線終点のカバ領域と接続線上の他の点のカバ領域を区別するために使用されることができ、即ち、プリセットの範囲内の点に対応する第2連続深度サブ情報は、終点の離散深度情報によって決定されることができ、プリセットの範囲以外の点に対応する第2連続深度サブ情報は、接続線上の第1連続深度サブ情報によって決定されることができる。一可能な実現方式において、接続範囲の構造方式は、上記の開示された実施例に記載の通りであり得、即ち、接続線と中心線として、1つの幅が2Rであり、長さと接続線が同じである長方形を構造し、接続線の2つの終点で、長方形と離れる一側に向かって、2つの半径がRである半円を構造し、この場合では、この2つの半径がRである半円を、接続終点のプリセットの範囲として見なし、残りの幅が2Rである長方形は、接続終点のプリセットの範囲以外として見なすことができる。
【0097】
ステップS22231から分かるように、一可能な実現方式において、プリセットの範囲内の点に対して、プリセットの範囲に対応する接続線終点の離散深度情報を、第2連続深度サブ情報として使用することができ、
図3を例として説明すると、
図3から分かるように、Pwを円心として構造される半径がRである半円について、この半円内の点の第2連続深度サブ情報が、すべてPwの離散深度情報と同じであり、同様に、Peを円心として構造される半径がRである半円について、この半円内の点の第2連続深度サブ情報は、すべてPeの離散深度情報と同じである。
【0098】
ステップS22232から分かるように、一可能な実現方式において、プリセットの範囲以外の点(ここで、当該点をPとする)に対して、接続線上の点Pと最も近い点の第1連続深度サブ情報を、点Pの第2連続深度サブ情報として使用することができる。ここで、接続線上の点Pと最も近い点をどうやって決定するか、その決定方式は、限定されなく、同様に
図3を例として説明すると、図に示されたように、一可能な実現方式において、点Pから接続線まで垂直線を引いて垂直足P’を取得することができ、P’の第1連続深度サブ情報は、点Pの第2連続深度サブ情報として使用されることができる。
【0099】
上記の過程を介して、接続に対応する離散深度情報がカバするプリセットの範囲の第2連続深度サブ情報、および接続カバの範囲の第2連続深度サブ情報をそれぞれ取得して、すべての接続範囲内の点に対応する第2連続深度サブ情報を取得することができ、このような第2連続深度サブ情報の決定方式は比較的に簡単で、計算量が少なく、さらに、第2トレーニングデータを取得する難易度と作業負荷を減らし、姿勢検出実現過程の便利性および精度を向上させる。
【0100】
一可能な実現方式において、さらに、上記の各開示された実施例によって決定されるターゲット対象の姿勢を、動き識別、人間とコンピュータとの対話および自律運転などの異なるシナリオに適用すうことができる。一可能な実現方式において、上記の各開示された実施例によって決定されるターゲット対象の姿勢を、ビデオデータの処理過程に適用することができる。そのため、本発明の実施例は、さらに、ビデオ処理方法を提案する。
【0101】
図4は、本発明の一実施例によるビデオ処理方法のフローチャートを示し、当該方法は、ビデオ処理装置に適用されることができ、ビデオ処理装置の実現形態は、上記の開示された実施例における姿勢検出装置と同じであってもよいし、異なってもよいし、その実現形態は、上記の各開示された実施例を参照でき、ここでは繰り返して説明しない。
いくつかの可能な実施形態において、当該ビデオ処理方法は、プロセッサがメモリに記憶されるコンピュータ可読命令を呼び出す方式を介して実現されることもできる。
【0102】
図4の記載のように、前記ビデオ処理方法は、以下のステップを含み得る。
【0103】
ステップS21において、現在のシナリオに対して画像収集を実行して、収集ビデオを取得する。
【0104】
ステップS22において、収集ビデオから、少なくとも2フレームの、ターゲット対象を含むターゲット画像を選択する。
【0105】
ステップS23において、上記の各開示された実施例における姿勢検出方法を介して、少なくとも2フレームのターゲット画像内のターゲット対象に対して姿勢検出を実行して、収集ビデオ内のターゲット対象の少なくとも2つの姿勢を決定する。
【0106】
ここで、ターゲット対象の実現方式は、上記の姿勢検出における各開示された実施例と同じであり、ここでは繰り返して説明しない。現在のシナリオは、ターゲット対象を含む任意のシナリオであり得、以下の各開示された実施例に限定されない。一可能な実現方式において、現在のシナリオは、歩行者検出シナリオ、自律運転シナリオ、教室内の対象捕獲シナリオおよび会社の環境検出シナリオなどであり得る。
【0107】
現在のシナリオに対して画像収集を実行する方式は、現在のシナリオの実際に場合によって柔軟に决定することができ、例えば、現在のシナリオが、歩行者検出シナリオである場合、歩道に配備される撮影機器を介して画像収集を実行することができ、現在のシナリオが、自律運転シナリオである場合、車輛に配備された撮影機器を介して画像収集を実行することができる。
【0108】
ビデオを収集する実現形態は、画像収集の実際の場合によって柔軟に决定することができ、本発明の実施例では制限しない。
【0109】
ステップS21を介してビデオを収集した後、ステップS22を介して、収集ビデオから少なくとも2フレームのターゲット対象を含むターゲット画像を選択することができ、ここで、ターゲット画像の実現形態も、上記の姿勢検出における各開示された実施例と同じであり、ここでは繰り返して説明しない。収集ビデオから少なくとも2フレームのターゲット対象を含むターゲット画像を選択する方式は、実際の場合によって柔軟に决定することができ、以下の各開示された実施例に限定されない。一可能な実現方式において、収集ビデオのうちの少なくともフレームの一部に対してターゲット対象検出を実行し、その後、ターゲット対象を検出したフレームから、ランダムに選択するか、または画像品質などの基準にしたがって、そのうちの少なくともフレームの一部を選択して、ターゲット画像とすることができる。
【0110】
ステップS22を介して、少なくとも2フレームのターゲット対象を含むターゲット画像を取得した後、上記の任意の開示された実施例による姿勢検出方法を介して、選択されるターゲット画像に対して姿勢検出を実行して、収集ビデオ内のターゲット対象の少なくとも2つの姿勢を決定することができ、ここで、姿勢をどうやって決定するかは、ターゲット画像の実際の場合によって柔軟に决定することができ、本発明の実施例では限定しない。
【0111】
現在のシナリオに対して画像収集を実行することにより、収集ビデオを取得し、収集ビデオから少なくとも2フレームのターゲット対象を含むターゲット画像を選択し、次に、上記の任意の開示された実施例による姿勢検出方法を介して、収集ビデオ内のターゲット対象の少なくとも2つの姿勢を決定することを実現する。上記の過程を介して、連続深度情報に基づいて実現される姿勢検出過程をビデオ処理過程に適用することができ、それにより、動的ビデオから、ターゲット対象の複数の姿勢をより正確に決定し、ビデオ中姿勢検出の精度を効果的に向上させることを容易にする。
【0112】
一可能な実現方式において、収集ビデオ内のターゲット対象の少なくとも2つの姿勢を取得した後、さらに、取得される複数の姿勢を処理することができ、そのため、一可能な実現方式において、本発明の実施例によるビデオ処理方法は、以下のステップをさらに含み得る。
【0113】
ステップS24において、ターゲット対象の少なくとも2つの姿勢、および収集ビデオ内のフレームの時間に従って、ターゲット対象の連続姿勢を取得する。
【0114】
ステップS25において、ターゲット対象の連続姿勢に従って、ターゲット対象を追跡する。
【0115】
上記の開示された実施例の記載のように、収集ビデオ内のターゲット対象の姿勢は、収集ビデオ内の、ターゲット対象を含むフレームに従って決定することができ、収集ビデオ内のフレームは、時間の優先順位に従って配列することであるため、対応的に、これらのフレームが収集ビデオにおける時間に従って、取得される複数の姿勢の発生の優先順位を順次に決定して、ターゲット対象の連続姿勢を決定することができる。
【0116】
本発明のいくつかの実施例において、ターゲット対象の連続姿勢を決定した後、ターゲット対象に対する追跡を実現することができる。上記の過程を介して、上記の連続深度情報を使用する姿勢検出過程を、ターゲット対象の追跡過程に使用して、追跡の精度を向上し、より高効率の追跡を実現することができる。
【0117】
例示的に、都市セキュリティモニタリングシナリオでは、都市モニタリング装置を介して都市に対して画像収集を実行して、収集ビデオを取得することができ、姿勢検出装置が、収集ビデオを取得した後、収集ビデオから少なくとも2フレームのターゲット対象を含む画像を取得し、第1ニューラルネットワークモデルを介して、少なくとも2フレームのターゲット対象を含む画像内の、ターゲット対象の対応する少なくとも二グループの連続深度情報および位置情報を取得し、少なくとも二グループの連続深度情報および位置情報に従って、第1ニューラルネットワークモデルを介して、対応する少なくとも2つの姿勢を取得し、少なくとも2つの姿勢、および少なくとも2つの姿勢のうち、各姿勢に対応するフレームの時間に従って、ターゲット対象の連続姿勢を取得し、さらに、ターゲット対象の行動が、戦闘、盗難、強盗などの、危険な行動であるか否かを判断し、ターゲット対象の行動が、危険な行動であると決定した場合、自動的に警報し、収集されたターゲット対象のビデオおよび危険な行動の判断結果を警察署に送信する。
【0118】
以下、本願実施例の実際の適用シナリオにおける例示的な適用を説明する。
【0119】
三次元人体の姿勢推定は、コンピュータビジョン分野における1つの基本的なタスクであり、動き識別、人間とコンピュータとの対話および自律運転などのシナリオに幅広く適用され、三次元人体姿勢推定の精度を向上することは、緊急の問題になった。
【0120】
図5は、本発明の一応用例による概略図を示し、図に示されたように、本発明の実施例は、姿勢検出方法を提案し、この方法は、ターゲット画像内の人体の三次元姿勢を決定することができ、図に示されたように、本発明の応用例の姿勢検出の過程は、以下の通りである。
【0121】
図に示されたように、本発明の応用例において、まず、入力されるターゲット画像を第1ニューラルネットワークモデル(BackBoneバックボーンニューラルネットワーク)を開始、第1ニューラルネットワークモデルが、入力されたターゲット画像を処理して、3つの出力結果を取得することができ、それぞれ、人体キーポイントの二次元ヒートマップ、人体胴体の二次元ヒートマップおよび人体胴体の連続深度情報を含む深度補間図であり、その後、取得された3つの出力結果を共同に入力データとして、第2ニューラルネットワークモデル(Regression回帰ネットワーク)に入力し、第2ニューラルネットワークモデルの処理を介して、人体胴体のうち各連続点の三次元位置座標を取得することができる。
【0122】
ここで、第1ニューラルネットワークモデルの構造は、浅いネットワークに3つの予測ブランチを加える形で構成され、浅いネットワークは、ターゲット画像内の人体に対して特徴抽出を実行することができ、取得される特徴抽出結果を3つの予測ブランチにそれぞれ入力して、1つの予測ブランチは、人体キーポイントを出力する二次元ヒートマップを予測するために使用され、1つの予測ブランチは、人体胴体の二次元ヒートマップを出力するために使用され、1つの予測ブランチは、人体胴体の連続深度情報を含む深度補間図を出力するために使用される。そのため、第1ニューラルネットワークモデルは、人体を含むトレーニング画像、人体キーポイントの二次元ヒートマップ、人体胴体の二次元ヒートマップおよび人体胴体の連続深度情報を含む深度補間図この4つの写真を介して、共同にトレーニングして得られることができ、ここで、人体胴体の連続深度情報を含む深度補間図は、人体胴体に対する離散深度情報図を介して、上記の開示された実施例による任意の1つの方式を処理することにより得られることができる。
【0123】
第2ニューラルネットワークモデルの構造は、畳み込み層とプーリング層を接続して構成され、ここで、第2ニューラルネットワークモデルが、入力データを処理する過程では、まず、入力される人体キーポイントの二次元ヒートマップ、人体胴体の二次元ヒートマップおよび人体胴体の連続深度情報を含む深度補間図を、画像チャネルの次元に沿ってスプライスし、その後、スプライスされたデータに対して、畳み込み層を介して特徴融合を実行し、プーリング層を介して予測を実現し、最終的に、人体胴体のうちの各連続点の三次元位置座標を出力することができる。そのため、第2ニューラルネットワークモデルは、人体キーポイントの二次元ヒートマップ、人体胴体の二次元ヒートマップ、人体胴体の連続深度情報を含む深度補間図および人体胴体のうちの各連続点の三次元位置座標この4つのデータを介して、共同にトレーニングして得られることができる。
【0124】
本発明の実施例の画像処理方法は、上記の人体姿勢検出の過程に適用されることに限定されなく、任意のターゲット対象の姿勢検出に適用されることができ、本発明はこれに対して限定しないことに留意されたい。
【0125】
本発明で述べた上述の各方法の実施例は、原理及び論理に違反することなく、互いに組み合わせて、組み合わせされた実施例を生成することができ、スペースの制限により、本発明には繰り返さないことを理解されたい。当業者は、具体的な実施形態の上記方法において、各ステップの実行順序は、その機能と可能性に基づくべきであることを理解することができる。
【0126】
加えて、本発明は、さらに、姿勢検出装置、電子機器、コンピュータ可読記憶媒体、プログラムを提供し、上記は、すべて本発明で提供された任意の姿勢検出方法を実現することができ、対応する技術的解決策と説明および方法部分を参照した対応する記載は、繰り返しない。
【0127】
図6は、本発明の一実施例による姿勢検出装置のブロック図を示す。当該姿勢検出装置は、端末機器、サーバまたは他の処理機器などであり得る。ここで、端末機器はユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末、端末、携帯電話、コードレス電話、パーソナルデジタル処理(PDA:Personal Digital Assistant)、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであり得る。
いくつかの可能な実現方式において、当該姿勢検出装置は、プロセッサによって、メモリに記憶されるコンピュータ可読命令を呼び出す方式を介して実現さすることができる。
【0128】
図6に示されたように、前記姿勢検出装置30は、
ターゲット画像を取得するように構成される、ターゲット画像取得部31と、
ターゲット画像に従って、ターゲット画像内のターゲット対象の連続深度情報および位置情報を取得するように構成される、情報取得部32と、
連続深度情報および位置情報に従って、ターゲット対象の姿勢を決定するように構成される、姿勢決定部33と、を備える。
【0129】
一可能な実現方式において、情報取得部は、ターゲット画像を第1ニューラルネットワークモデルを介して、ターゲット画像内のターゲット対象の連続深度情報および位置情報を取得し、第1ニューラルネットワークモデルは、第1トレーニングデータおよび第2トレーニングデータを介してトレーニングすることにより得られるように構成され、ここで、第1トレーニングデータは、トレーニング対象を含むトレーニング画像であり、第2トレーニングデータは、トレーニング対象の連続深度情報、およびトレーニング対象の位置情報を含む。
【0130】
一可能な実現方式において、姿勢決定部は、連続深度情報および位置情報を、第2ニューラルネットワークモデルを介して、ターゲット対象の姿勢を取得し、第2ニューラルネットワークモデルは、第2トレーニングデータおよび第3トレーニングデータを介してトレーニングするように構成され、ここで、第2トレーニングデータは、トレーニング対象の連続深度情報、およびトレーニング対象の位置情報を含み、第3トレーニングデータは、トレーニング対象の姿勢を含む。
【0131】
一可能な実現方式において、第2トレーニングデータは、第3トレーニングデータに従って生成され、第3トレーニングデータは、トレーニング対象の姿勢を含み、第3トレーニングデータに従って、第2トレーニングデータを生成することは、第3トレーニングデータ内のトレーニング対象の姿勢に従って、トレーニング対象の離散深度情報、およびトレーニング対象の位置情報を取得することと、少なくとも離散深度情報の一部を処理して、トレーニング対象の連続深度情報を取得することと、トレーニング対象の連続深度情報およびトレーニング対象の位置情報に従って、第2トレーニングデータを生成することと、を含む。
【0132】
一可能な実現方式において、少なくとも離散深度情報の一部を処理して、トレーニング対象の連続深度情報を取得することは、少なくとも離散深度情報の一部に対応する少なくとも1つの接続を取得することと、接続に対応する離散深度情報に従って、少なくとも1つの接続の連続深度サブ情報を決定することと、少なくとも1つの連続深度サブ情報を統計して、トレーニング対象の連続深度情報を取得することと、を含む。
【0133】
一可能な実現方式において、接続に対応する離散深度情報に従って、少なくとも1つの前記接続の連続深度サブ情報を決定することは、接続に対応する離散深度情報に従って、線形補間を介して、接続上の少なくとも1つの点の第1連続深度サブ情報を取得することと、少なくとも1つの接続に対応する接続範囲を決定することと、第1連続深度サブ情報に従って、接続に対応する接続範囲内の少なくとも1つの点の第2連続深度サブ情報を決定することと、第1連続深度サブ情報および/または第2連続深度サブ情報に従って、接続に対応する連続深度サブ情報を取得して、少なくとも1つの前記接続の連続深度サブ情報を取得することと、を含む。
【0134】
一可能な実現方式において、第1連続深度サブ情報に従って、接続に対応する接続範囲内の少なくとも1つの点の第2連続深度サブ情報を決定することは、接続範囲が、接続に対応する離散深度情報のプリセットの範囲内にある場合、接続に対応する離散深度情報を、接続範囲内の少なくとも1つの点の第2連続深度サブ情報として使用することと、接続範囲が、接続に対応する離散深度情報のプリセットの範囲以外にある場合、接続内の接続範囲内の点と最も近い第1連続深度サブ情報に従って、接続範囲内の少なくとも1つの点の第2連続深度サブ情報を取得することと、を含む。
【0135】
図7は、本発明の一実施例によるビデオ処理装置のブロック図を示す。当該ビデオ処理装置は、端末機器、サーバまたは他の処理機器などであり得る。ここで、端末機器はユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末、端末、携帯電話、コードレス電話、パーソナルデジタル処理(PDA:Personal Digital Assistant)、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであり得る。
いくつかの可能な実施形態において、当該ビデオ処理装置は、プロセッサがメモリに記憶されるコンピュータ可読命令を呼び出す方式を介して実現されることができる。
【0136】
図7に示されたように、前記ビデオ処理装置40は、
現在のシナリオに対して画像収集を実行して、収集ビデオを取得するように構成される、画像収集部41と、
前記収集ビデオから、少なくとも2フレームの、ターゲット対象を含むターゲット画像を選択するように構成される、選択部42と、
上記の開示された実施例のいずれか一項に記載の姿勢検出方法を介して、少なくとも2フレームのターゲット画像内のターゲット対象に対して姿勢検出を実行し、収集ビデオ内のターゲット対象の少なくとも2つの姿勢を決定するように構成される、姿勢取得部43と、を備える。
【0137】
一可能な実現方式において、ビデオ処理装置40は、さらに、ターゲット対象の少なくとも2つの姿勢、および収集ビデオ内のフレームの時間に従って、ターゲット対象の連続姿勢を取得し、ターゲット対象の連続姿勢に従って、ターゲット対象を追跡するように構成される。
【0138】
本発明の実施例は、さらに、コンピュータプログラム命令が記憶される、コンピュータ可読記憶媒体を提案し、前記コンピュータプログラム命令は、プロセッサによって実行されるとき、上記の方法を実現する。コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体であり得る。
【0139】
本発明の実施例は、さらに、プロセッサと、プロセッサ実行可能命令を記憶するように構成されるメモリと、を備える、電子機器を提案し、ここで、前記プロセッサは、前記メモリによって記憶される命令を呼び出して、上記の方法を実行するように構成される。
【0140】
本発明の実施例は、さらに、コンピュータ可読コードを含むコンピュータプログラム製品を提供し、コンピュータ可読コードが機器で実行されるとき、機器内のプロセッサは上記の任意の実施例による画像処理方法を実現するための命令を実行する。
【0141】
本発明の実施例は、さらに、コンピュータ可読命令を記憶するために使用される、別のコンピュータプログラム製品を提供し、命令が実行されるときに、コンピュータに、上記の任意の実施例による画像処理方法の操作を実行させる。
【0142】
電子機器は、端末、サーバまたはその他の形態の機器として提供できる。
【0143】
本発明の実施例および他の実施例において、「部分」は、部分回路、部分プロセッサ、部分プログラムまたはソフトウェア等であってもよく、もちろん、ユニットであってもよく、モジュールまたは非モジュール化であってもよい。
【0144】
図8は、本発明の実施例による電子機器800のブロック図を示す。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末であり得る。
【0145】
図8を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電力コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インターフェース812、センサコンポーネント814、及び通信コンポーネント816のうちの1つまたは複数のコンポーネントを含み得る。
【0146】
処理コンポーネント802は、一般的に、ディスプレイ、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する操作などの、電子機器800の全般的な操作を制御する。処理コンポーネント802は、前記方法のステップのすべてまたは一部を完成するために、1つまたは複数のプロセッサ820を備えて命令を実行することができる。加えて、処理コンポーネント802は、1つまたは複数のモジュールを備えて、処理コンポーネント802と他のコンポーネントとの相互作用を容易にすることができる。例えば、処理コンポーネント802は、マルチメディアモジュールを備えて、マルチメディアコンポーネント808と、処理コンポーネント802との相互作用を容易にすることができる。
【0147】
メモリ804は、機器800における操作をサポートするために、様々なタイプのデータを記憶するように構成される。これらのデータの例には、電子機器800で動作する、任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ804は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM)、プログラム可能な読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイス、またはそれらの組み合わせで実装することができる。
【0148】
電力コンポーネント806は、電子機器800の様々なコンポーネントに電力を提供する。電力コンポーネント806は、電力管理システム、1つまたは複数の電源、及び電子機器800のために、電力を生成、管理及び割り当てに関連付けられる、他のコンポーネントを含み得る。
【0149】
マルチメディアコンポーネント808は、前記電子機器800とユーザとの間に、出力インターフェースを提供するスクリーンを含む。いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD)およびタッチパネル(TP)を含み得る。スクリーンにタッチパネルが含まれる場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実現されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルにおけるジェスチャを検知するための1つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプの操作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関する、持続時間及び圧力も検知することができる。いくつかの実施例において、マルチメディアコンポーネント808は、1つのフロントカメラ及び/またはリアカメラを備える。電子機器800が、撮影モードまたはビデオモードなどの動作モードにいるとき、フロントカメラ及び/またはリアカメラは、外部のマルチメディアデータを受信し得る。各フロントカメラ及びリアカメラは、固定光学レンズシステムであり得、または焦点距離と光学ズーム機能を有することがあり得る。
【0150】
オーディオコンポーネント810は、オーディオ信号を出力及び/または入力するように構成される。例えば、オーディオコンポーネント810は、1つのマイク(MIC)を備え、電子機器800が、通話モード、録音モード及び音声認識モードなどの動作モードにいる場合、マイクは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ804に記憶され、または通信コンポーネント816を介して送信されることができる。いくつかの実施例において、オーディオコンポーネント810は、オーディオ信号を出力するように構成される、スピーカも備える。
【0151】
I/Oインターフェース812は、処理コンポーネント802と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを含み得るが、これらに限定されない。
【0152】
センサコンポーネント814は、電子機器800に各態様の状態評価を提供するための1つまたは複数のセンサを備える。例えば、センサコンポーネント814は、電子機器800のオン/オフ状態、電子機器800のディスプレイとキーパッドなどのコンポーネントの、相対的な位置を検知することができ、センサコンポーネント814は、電子機器800または電子機器800の1つのコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加速/減速、及び電子機器800の温度の変化も検知することができる。センサコンポーネント814は、近接センサを備えることができ、物理的接触なしに近くの物体の存在を検知するように構成される。センサコンポーネント814は、さらに、CMOSまたはCCD画像センサなどの光センサを備えることもでき、イメージングアプリケーションのために使用される。いくつかの実施例において、当該センサコンポーネント814は、さらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含み得る。
【0153】
通信コンポーネント816は、電子機器800と他の機器の間の有線、または無線方式の通信を容易にするように構成される。電子機器800は、WiFi、2Gまたは3G、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、通信コンポーネント816は、放送チャンネルを介して、外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント816は、さらに、短距離通信を促進するために、近距離通信(NFC)モジュールを備える。例えば、NFCモジュールは、無線周波数認識(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術及び他の技術に基づいて実現されることができる。
【0154】
例示的な実施例において、電子機器800は、上記の方法を実行するために、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ、または他の電子素子によって実現されることができる。
【0155】
例示的な実施例において、さらに、コンピュータプログラム命令を含むメモリ804などの、不揮発性コンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されて、上記の方法を完成することができる。
【0156】
図9は、本発明の実施例による電子機器1900のブロック図を示す。例えば、電子機器1900は、サーバとして提供されることができる。
図9を参照すると、電子機器1900は、処理コンポーネント1922を含み、1つまたは複数のプロセッサ、及びメモリ1932によって表されるメモリリソースを含み、アプリケーションプログラムなど、処理コンポーネント1922によって、実行される命令を記憶するために使用される。メモリ1932に記憶されるアプリケーションプログラムは、1つまたは1つ以上の1セットの命令に対応する各モジュールを備えることができる。加えて、処理コンポーネント1922は、命令を実行するように構成されて、上記の方法を実行する。
【0157】
電子機器1900は、さらに、電子機器1900の電源管理を実行するように構成される、1つの電力コンポーネント1926と、電子機器1900をネットワークに接続させるように構成される、1つの有線または無線ネットワークインターフェース1950と、1つの入力/出力(I/O)インターフェース1958とを含み得る。電子機器1900は、メモリ1932に記憶されたWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似したものなどの操作システムに基づいて操作されることができる。
【0158】
例示的な実施例において、さらに、コンピュータプログラム命令を含むメモリ1932などの、揮発性コンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されて、上記の方法を完成することができる。
【0159】
本発明は、システム、方法及び/またはコンピュータプログラム製品であり得る。コンピュータプログラム製品は、プロセッサに本発明の様々な態様を実現させるために使用される、コンピュータ可読プログラム命令がロードされる、コンピュータ可読記憶媒体を含み得る。
【0160】
コンピュータ可読記憶媒体は、命令実行機器によって使用される命令を保持および記憶することができる有形の機器であり得る。コンピュータ可読記憶媒体は、例えば、電気記憶機器、磁気記憶機器、光学記憶機器、電磁記憶機器、半導体貯蔵機器、または前記任意の適切な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的リスト)には、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、機械的エンコーディング機器、例えば命令が記憶されるパンチカードまたは溝の突出構造、および、前記の任意の適切な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、無線電波または他の自由に伝播する電磁波、導波管または他の伝送媒体を介して伝播する電磁波(例えば、光ファイバケーブルを介する光パルス)、またはワイヤーを介して伝送される電気信号などの、過渡信号自体として解釈されない。
【0161】
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から様々なコンピューティング/処理機器にダウンロードするか、またはインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、及び/またはワイヤレスネットワークなどのネットワークを介して、外部コンピュータまたは外部記憶機器にダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光ファイバ伝送、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、及び/またはエッジサーバを含み得る。各コンピューティング/処理機器における、ネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、前記コンピュータ可読プログラム命令を転送して、各コンピューティング/処理機器におけるコンピュータ可読記憶媒体に記憶される。
【0162】
本開示の操作を実行するために使用されるコンピュータプログラム命令は、コンポーネント命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、ステータス設定データ、または1つまたは複数のプログラミング言語の任意の組み合わせで記述される、ソースコードまたはオブジェクトコードであり得、前記プログラミング言語は、Smalltalk、C++など、対象指向のプログラミング言語、及び「C」言語または同様のプログラミング言語など、従来の手続き型プログラミング言語を含む。コンピュータ可読プログラム命令は、完全にユーザのコンピュータで実行でき、部分的にユーザのコンピュータで実行でき、スタンドアロンパッケージとして実行でき、ユーザのコンピュータで一部、リモートコンピュータで一部実行でき、または、完全にリモートコンピュータまたはサーバで実行できる。リモートコンピュータに関するシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む、任意の種類のネットワークを介して、ユーザのコンピュータにアクセスでき、または、リモートコンピュータにアクセスできる(例えば、インターネットサービスプロバイダーを使用してインターネットを介してアクセスする)。いくつかの実施例において、コンピュータ可読プログラム命令のステータス情報を使用することを介して、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラマブルロジックアレイ(PLA)などの電子回路を、パーソナライズにスタマイズし、前記電子回路は、コンピュータ可読プログラム命令を実行して、本開示の様々な態様を実現することができる。
【0163】
本明細書では、本発明の実施例による方法、装置(システム)、及びコンピュータプログラム製品のフローチャート及び/またはブロック図を参照して本発明の様々な態様を説明する。フローチャート及び/またはブロック図の各ブロック、及びフローチャート及び/またはブロック図内の各ブロックの組み合わせは、コンピュータ可読プログラム命令によって実現されることを理解されたい。
【0164】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、固有コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供することができ、それにより、デバイスが作成され、これらの命令が、コンピュータ、または他のプログラマブルデータ処理装置のプロセッサによって実行されるとき、フローチャート及び/またはブロック図内の1つまたは複数のブロックの指定される機能/アクションを実現させる。これらのコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体に記憶することもあり得、これらの命令は、コンピュータ、プログラマブルデータ処理装置及び/または他の機器を特定の方式で作業するようにし、従って、命令が記憶されるコンピュータ可読媒体は、フローチャート及び/またはブロック図内の1つまたは複数のブロックの指定される機能/アクションを実現する様々な態様の命令を含む製造品を含む。
【0165】
コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードすることもでき、コンピュータ、他のプログラマブルデータ処理装置、または他の機器で一連の操作ステップを実行して、コンピュータ実現のプロセスを生成させ、これにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器で実行する命令を、フローチャート及び/またはブロック図内の1つまたは複数のブロックの指定される機能/アクションを実現させる。
【0166】
図面におけるプロセス図及びブロック図は、本発明の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能、及び操作を示す。この点について、フローチャートまたはブロック図内の各ブロックは、1つのモジュール、プログラムセグメント、または命令の一部を表すことができ、前記モジュール、プログラムセグメント、または命令の一部は、1つまたは複数の指定される論理機能を実現するために使用される実行可能な命令を含む。いくつかの代替実現において、ブロックのマークされる機能は、図面でマークされる順序とは異なる順序で発生することもできる。例えば、関する機能によって、2つの連続するブロックは、実際に基本的に並行して実行でき、時には逆の順序で実行できる。ブロック図及び/またはフローチャート中の各ブロック、及びブロック図及び/またはフローチャートのブロックの組み合わせは、指定される機能またはアクションを実行する、専用のハードウェアベースのシステムによって実現されるか、または、ハードウェアとコンピュータ命令の組み合わせを使用して、実現されることもできることを留意する必要がある。
【0167】
当該コンピュータプログラム製品は、具体的に、ハードウェア、ソフトウェアまたはそれらを組み合わせる方式を介して実現されることができる。1つの例示的な実施例において、前記コンピュータプログラム製品は、具体的には、コンピュータ記憶媒体として具現され、別の例示的な実施例において、コンピュータプログラム製品は、具体的には、ソフトウェア開発キット(SDK:Software Development Kit)などのソフトウェア製品として具現される。
【0168】
以上、本発明の各実施例を説明したが、以上の説明は、例示的なものに過ぎず、網羅的ではなく、開示された各実施例に限定されない。説明される各実施例の範囲及び思想から逸脱してない場合は、当業者にとって、多くの修正及び変更は明らかである。本明細書で使用される用語の選択は、各実施例の原理、実際の適用、または市場における技術の改善を最もよく説明するか、または、当業者が、本明細書で開示される各実施例を理解することができるようにすることを意図する。
【産業上の利用可能性】
【0169】
本発明の実行例において、ターゲット画像およびターゲット画像内のターゲット対象の連続深度情報および位置情報を取得することを介して、連続深度情報および位置情報に従って、ターゲット対象の姿勢を決定する。上記の過程を介して、ターゲット対象の連続深度情報を使用して、ターゲット対象の姿勢を予測することができ、深度情報は連続するため、離散の深度情報に対して、ターゲット対象の姿勢をより正確に検出し、姿勢検出の精度および効果を向上させることができる。
【国際調査報告】