IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 商▲湯▼国▲際▼私人有限公司の特許一覧

特表2022-522319目標追跡方法、装置、電子デバイス、及び記録媒体
<>
  • 特表-目標追跡方法、装置、電子デバイス、及び記録媒体 図1
  • 特表-目標追跡方法、装置、電子デバイス、及び記録媒体 図2
  • 特表-目標追跡方法、装置、電子デバイス、及び記録媒体 図3A
  • 特表-目標追跡方法、装置、電子デバイス、及び記録媒体 図3B
  • 特表-目標追跡方法、装置、電子デバイス、及び記録媒体 図3C
  • 特表-目標追跡方法、装置、電子デバイス、及び記録媒体 図3D
  • 特表-目標追跡方法、装置、電子デバイス、及び記録媒体 図3E
  • 特表-目標追跡方法、装置、電子デバイス、及び記録媒体 図3F
  • 特表-目標追跡方法、装置、電子デバイス、及び記録媒体 図4
  • 特表-目標追跡方法、装置、電子デバイス、及び記録媒体 図5
  • 特表-目標追跡方法、装置、電子デバイス、及び記録媒体 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-04-18
(54)【発明の名称】目標追跡方法、装置、電子デバイス、及び記録媒体
(51)【国際特許分類】
   G06T 7/20 20170101AFI20220411BHJP
   G06T 7/00 20170101ALI20220411BHJP
【FI】
G06T7/20 300A
G06T7/00 350C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021519163
(86)(22)【出願日】2020-03-19
(85)【翻訳文提出日】2021-04-07
(86)【国際出願番号】 IB2020052494
(87)【国際公開番号】W WO2021130549
(87)【国際公開日】2021-07-01
(31)【優先権主張番号】10201913029S
(32)【優先日】2019-12-23
(33)【優先権主張国・地域又は機関】SG
(81)【指定国・地域】
(71)【出願人】
【識別番号】520238082
【氏名又は名称】商▲湯▼国▲際▼私人有限公司
【氏名又は名称原語表記】SENSETIME INTERNATIONAL PTE. LTD.
【住所又は居所原語表記】7500A Beach Road, #05-318,The Plaza 199591 Singapore Singapore
(74)【代理人】
【識別番号】110000729
【氏名又は名称】特許業務法人 ユニアス国際特許事務所
(72)【発明者】
【氏名】▲趙▼ 海宇
(72)【発明者】
【氏名】▲張▼ 明▲遠▼
(72)【発明者】
【氏名】▲陳▼ ▲凱▼歌
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096FA32
5L096FA33
5L096FA67
5L096FA69
5L096HA05
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
本発明は、目標追跡方法、装置、電子デバイス、及び記録媒体を開示する。前記方法は、処理待ち画像に対して検出を実行して手部検出結果を得ることと、前記手部検出結果に手部の検出フレームが含まれていることに応答して、前記検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たす手部を目標手部として確定することと、前記処理待ち画像における前記目標手部に基づいてビデオストリーム中で前記目標手部を追跡することと、を含み、前記ビデオストリーム中の画像と前記処理待ち画像とは、同一の目標領域を収集して得られたものであり、前記ビデオストリーム中の画像は、前記処理待ち画像を収集した後で収集して得られたものである。
【選択図】図1
【特許請求の範囲】
【請求項1】
目標追跡方法であって、
処理待ち画像に対して検出を実行して手部検出結果を得ることと、
前記手部検出結果に手部の検出フレームが含まれていることに応答して、前記検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たす手部を目標手部として確定することと、
前記処理待ち画像における前記目標手部に基づいてビデオストリーム中で前記目標手部を追跡することと、を含み、
前記ビデオストリーム中の画像と前記処理待ち画像とは、同一の目標領域を収集して得られたものであり、前記ビデオストリーム中の画像は、前記処理待ち画像を収集した後で収集して得られたものである
ことを特徴とする目標追跡方法。
【請求項2】
前記手部検出結果に手部の検出フレームが含まれていることに応答して、前記検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たす手部を目標手部として確定することは、
前記手部検出結果に前記検出フレームが含まれていることに応答して、検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たし、かつ、前記検出フレーム内の手部が前記処理待ち画像における予め定義された領域内にいる手部を前記目標手部として確定することを含む
ことを特徴とする請求項1に記載の目標追跡方法。
【請求項3】
前記手部検出結果に手部の検出フレームが含まれていることに応答して、前記処理待ち画像における前記検出フレーム内に位置する画像をカッティングすることと、
前記カッティングされた画像に基づいて、前記カッティングされた画像における手部姿勢が目標ジェスチャ中の手部姿勢を満たすと確定することと、をさらに含む
ことを特徴とする請求項1または2に記載の目標追跡方法。
【請求項4】
前記目標ジェスチャ中の手部姿勢は、両手部がいずれも上を向いており、
前記目標追跡方法は、
前記検出フレーム内の画像をジェスチャ分類ニューラルネットワークに入力して、手が上を向いていることまたは手部が他の姿勢であることを含むジェスチャ分類結果を得ることと、
前記手部検出結果中の2つの手部の検出フレームのジェスチャ分類結果が、前記2つの検出フレーム内の2つの手がいずれも上を向いている場合、当該2つの手部の検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たすと確定することと、をさらに含む
ことを特徴とする請求項1乃至3の中のいずれか1項に記載の目標追跡方法。
【請求項5】
前記ジェスチャ分類ニューラルネットワークは、手部画像サンプルを使用して訓練して得られたものであり、前記手部画像サンプルは、手が上を向いている画像サンプルを含み、前記手が上を向いている画像サンプルのラベリング結果は、手部のひらである
ことを特徴とする請求項4に記載の目標追跡方法。
【請求項6】
前記検出フレームの中心点が前記処理待ち画像における予め定義された領域内に位置していることに応答して、前記検出フレーム内の手部が前記処理待ち画像における予め定義された領域内にいると確定することをさらに含む
ことを特徴とする請求項2に記載の目標追跡方法。
【請求項7】
前記予め定義された領域は、前記処理画像内の、前記目標領域における2つのサブ領域にそれぞれ対応する2つの所定のサブ領域を含み、
前記検出フレームの中心点が前記処理待ち画像における予め定義された領域内にいると確定することは、前記処理待ち画像内の2つの検出フレームの中心点がそれぞれ2つの所定のサブ領域内にいると確定することを含む
ことを特徴とする請求項6に記載の目標追跡方法。
【請求項8】
前記処理待ち画像における前記目標手部に基づいてビデオストリーム中で前記目標手部を追跡する前記処理待ち画像における目標手部に基づいて前記ビデオストリーム中で前記目標手部を追跡することは、
前記ビデオストリーム中の1フレーム画像に対して、当該フレーム画像の前の1フレーム画像の第1行列および第2行列に基づいて、当該フレーム画像の第1行列および第2行列を確定することを含み、
ここで、当該1フレーム画像の第1行列は、目標手部の検出フレームの中心の当該フレーム画像における位置情報を含み、当該1フレーム画像の第2行列は、当該フレーム画像の第1行列の共分散行列である
ことを特徴とする請求項1乃至7の中のいずれか1項に記載の目標追跡方法。
【請求項9】
当該フレーム画像の前の1フレーム画像の第1行列および第2行列に基づいて、当該フレーム画像の第1行列および第2行列を確定することは、
当該フレーム画像の手部検出結果に目標手部の検出フレームが含まれていないことに応答して、前の1フレーム画像の第1行列を当該フレーム画像における第1行列として確定することと、修正行列を利用して前の1フレーム画像の第2行列を修正することによって、当該フレーム画像における第2行列を得ることとを含み、
ここで、前記修正行列は、前記前の1フレーム画像の第2行列の共分散行列である
ことを特徴とする請求項8に記載の目標追跡方法。
【請求項10】
当該フレーム画像の前の1フレーム画像の第1行列および第2行列に基づいて、当該フレーム画像の第1行列および第2行列を確定することは、
当該フレーム画像の手部検出結果に目標手部の検出フレームが含まれていることに応答して、当該フレーム画像と前の1フレーム画像との時間間隔に基づいて、前の1フレーム画像の第1行列を利用して当該フレーム画像の第1予測行列および前記第1予測行列の共分散行列である第2予測行列を予測して得ることと、
前記目標手部の検出フレームの位置情報に基づいて当該フレーム画像の第3予測行列および第4予測行列を得ることであって、前記第3予測行列は、目標手部の検出フレームの中心の当該フレーム画像内の予測位置情報を含み、前記第4予測行列は、前記第3予測行列の共分散行列であることと、
前記第2予測行列に対応するガウス分布と前記第4予測行列に対応するガウス分布とを乗算して、新たなガウス分布を得ることと、
得られた新たなガウス分布の平均値に基づいて当該フレーム画像の前記第1行列を確定し、得られた新たなガウス分布の共分散に基づいて当該フレーム画像の前記第2行列を確定することと、を含む
ことを特徴とする請求項8に記載の目標追跡方法。
【請求項11】
前記処理待ち画像は、上面からの視角で収集した前記目標領域の画像である
ことを特徴とする請求項1乃至10の中のいずれか1項に記載の目標追跡方法。
【請求項12】
目標追跡装置であって、
処理待ち画像に対して検出を実行して手部検出結果を得るための検出ユニットと、
前記手部検出結果に手部の検出フレームが含まれていることに応答して、前記検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たす手部を目標手部として確定するための確定ユニットと、
前記処理待ち画像における前記目標手部に基づいてビデオストリーム中で前記目標手部を追跡するための追跡ユニットと、を備え、
前記ビデオストリーム中の画像と前記処理待ち画像とは、同一の目標領域を収集して得られたものであり、前記ビデオストリーム中の画像は、前記処理待ち画像を収集した後で収集して得られたものである
ことを特徴とする目標追跡装置。
【請求項13】
前記確定ユニットは、前記手部検出結果に前記検出フレームが含まれていることに応答して、検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たし、かつ、前記検出フレーム内の手部が前記処理待ち画像における予め定義された領域内にいる手部を前記目標手部として確定する
ことを特徴とする請求項12に記載の目標追跡装置。
【請求項14】
前記確定ユニットは、
前記手部検出結果に手部の検出フレームが含まれていることに応答して、前記処理待ち画像における前記検出フレーム内に位置する画像をカッティングし、
前記カッティングされた画像に基づいて、前記カッティングされた画像における手部姿勢が目標ジェスチャ中の手部姿勢を満たすと確定する
ことを特徴とする請求項12または13に記載の目標追跡装置。
【請求項15】
前記目標ジェスチャ中の手部姿勢は、両手部がいずれも上を向いており、
前記確定ユニットは、
前記検出フレーム内の画像をジェスチャ分類ニューラルネットワークに入力して、手が上を向いていることまたは手部が他の姿勢であることを含むジェスチャ分類結果を得、
2つの検出フレームの分類結果がいずれも上を向いている場合、当該2つの手部の検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たすと確定する
ことを特徴とする請求項12乃至14の中のいずれか1項に記載の目標追跡装置。
【請求項16】
前記ジェスチャ分類ニューラルネットワークは、手部画像サンプルを使用して訓練して得られたものであり、前記手部画像サンプルは、手が上を向いている画像サンプルを含み、前記手が上を向いている画像サンプルのラベリング結果は、手部のひらである
ことを特徴とする請求項15に記載の目標追跡装置。
【請求項17】
前記確定ユニットは、
前記検出フレームの中心点が前記処理待ち画像における予め定義された領域内に位置していることに応答して、前記検出フレーム内の手部が前記処理待ち画像における予め定義された領域内にいると確定する
ことを特徴とする請求項13に記載の目標追跡装置。
【請求項18】
前記予め定義された領域は、前記処理画像内の、前記目標領域における2つのサブ領域にそれぞれ対応する2つの所定のサブ領域を含み、
前記確定ユニットは、前記検出フレームの中心点が前記処理待ち画像における予め定義された領域内にいると確定するときに、具体的に、
前記処理待ち画像内の2つの検出フレームの中心点がそれぞれ2つの所定のサブ領域内にいると確定する
ことを特徴とする請求項17に記載の目標追跡装置。
【請求項19】
前記追跡ユニットは、
前記ビデオストリーム中の1フレーム画像に対して、当該フレーム画像の前の1フレーム画像の第1行列および第2行列に基づいて、当該フレーム画像の第1行列および第2行列を確定し、
ここで、当該1フレーム画像の第1行列は、目標手部の検出フレームの中心の当該フレーム画像における位置情報を含み、当該1フレーム画像の第2行列は、当該フレーム画像の第1行列の共分散行列である
ことを特徴とする請求項12乃至18の中のいずれか1項に記載の目標追跡装置。
【請求項20】
前記追跡ユニットは、
当該フレーム画像の手部検出結果に目標手部の検出フレームが含まれていないことに応答して、前の1フレーム画像の第1行列を当該フレーム画像における第1行列として確定し、修正行列を利用して前の1フレーム画像の第2行列を修正することによって、当該フレーム画像における第2行列を得、
ここで、前記修正行列は、前記前の1フレーム画像の第2行列の共分散行列である
ことを特徴とする請求項19に記載の目標追跡装置。
【請求項21】
前記追跡ユニットは、
当該フレーム画像の手部検出結果に目標手部の検出フレームが含まれていることに応答して、当該フレーム画像と前の1フレーム画像との時間間隔に基づいて、前の1フレーム画像の第1行列を利用して当該フレーム画像の第1予測行列および第2予測行列を予測して得、
前記目標手部の検出フレームの位置情報に基づいて当該フレーム画像の第3予測行列および第4予測行列を得、ここで、前記第3予測行列は、目標手部の検出フレームの中心の当該フレーム画像内の予測位置情報を含み、前記第4予測行列は、前記第3予測行列の共分散行列であり、
前記第2予測行列に対応するガウス分布と前記第4予測行列に対応するガウス分布とを乗算して、新たなガウス分布を得、
得られた新たなガウス分布の平均値に基づいて当該フレーム画像の前記第1行列を得、
得られた新たなガウス分布の共分散に基づいて当該フレーム画像の前記第2行列を確定する
ことを特徴とする請求項19に記載の目標追跡装置。
【請求項22】
前記処理待ち画像は、上面からの視角で収集した前記目標領域の画像である
ことを特徴とする請求項12乃至21の中のいずれか1項に記載の目標追跡装置。
【請求項23】
電子デバイスであって、
前記電子デバイスは、メモリとプロセッサとを備え、前記メモリは、プロセッサ上で実行できるコンピュータ命令を記憶し、前記プロセッサは、前記コンピュータ命令を実行するときに、請求項1至11の中のいずれか1項に記載の方法を実行するように構成される
ことを特徴とする電子デバイス。
【請求項24】
コンピュータプログラムが記憶されているコンピュータ可読記録媒体であって、
前記プログラムがプロセッサによって実行されるときに、請求項1至11の中のいずれか1項に記載の方法を実行するように構成される
ことを特徴とするコンピュータ可読記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータ視覚技術に関し、具体的には、目標追跡方法、装置、電子デバイス、及び記録媒体に関する。
【背景技術】
【0002】
近年、人工知能技術の継続的な発展により、人工知能技術は、コンピュータ視覚および音声認識において比較的良好な効果を得ている。いくつかの相対的に特殊なシーン(たとえばデスクトップゲームシーン)で目標認識と追跡を実行するときに、単一フレームの写真を利用して認識を実行すると、誤判断しやすいが、動画中のマルチフレームを利用して認識を実行する場合、深層学習モデルが大きすぎで、比較的大きいシステムの消費量をもたらす。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明は、目標追跡解決策を提供した。
【課題を解決するための手段】
【0004】
本発明の1態様によると、目標追跡方法を提供する。前記方法は、処理待ち画像に対して検出を実行して手部検出結果を得ることと、前記手部検出結果に手部の検出フレームが含まれていることに応答して、前記検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たす手部を目標手部として確定することと、前記処理待ち画像における前記目標手部に基づいてビデオストリーム中で前記目標手部を追跡することと、を含み、前記ビデオストリーム中の画像と前記処理待ち画像とは、同一の目標領域を収集して得られたものであり、前記ビデオストリーム中の画像は、前記処理待ち画像を収集した後で収集して得られたものである。
【0005】
本発明によって提供される任意の実施形態によると、前記手部検出結果に手部の検出フレームが含まれていることに応答して、前記検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たす手部を目標手部として確定することは、前記手部検出結果に前記検出フレームが含まれていることに応答して、検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たし、かつ、前記検出フレーム内の手部が前記処理待ち画像における予め定義された領域内にいる手部を前記目標手部として確定することを含む。
【0006】
本発明によって提供される任意の実施形態によると、前記手部検出結果に手部の検出フレームが含まれていることに応答して、前記処理待ち画像における前記検出フレーム内に位置する画像をカッティングすることと、前記カッティングされた画像に基づいて、前記カッティングされた画像における手部姿勢が目標ジェスチャ中の手部姿勢を満たすと確定することと、を含む。
【0007】
本発明によって提供される任意の実施形態によると、前記目標ジェスチャ中の手部姿勢は、両手部がいずれも上を向いており、当該2つの手部の検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たすと確定することは、前記検出フレーム内の画像をジェスチャ分類ニューラルネットワークに入力して、手が上を向いていることまたは手部が他の姿勢であることを含むジェスチャ分類結果を得ることと、2つの検出フレームの分類結果がいずれも上を向いている場合、当該2つの手部の検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たすと確定することと、を含む。
【0008】
本発明によって提供される任意の実施形態によると、前記ジェスチャ分類ニューラルネットワークは、手部画像サンプルを使用して訓練して得られたものであり、前記手部画像サンプルは、手が上を向いている画像サンプルを含み、前記手が上を向いている画像サンプルのラベリング結果は、手部のひらである。
【0009】
本発明によって提供される任意の実施形態によると、検出フレーム内の手部が前記処理待ち画像における予め定義された領域内にいると確定することは、前記検出フレームの中心点が前記処理待ち画像における予め定義された領域内に位置していることに応答して、前記検出フレーム内の手部が前記処理待ち画像における予め定義された領域内にいると確定することをさらに含む。
【0010】
本発明によって提供される任意の実施形態によると、前記予め定義された領域は、前記処理画像内の、前記目標領域における2つのサブ領域にそれぞれ対応する2つの所定のサブ領域を含み、前記検出フレームの中心点が前記処理待ち画像における予め定義された領域内にいると確定することは、前記処理待ち画像内の2つの検出フレームの中心点がそれぞれ2つの所定のサブ領域内にあることを確定することを含む。
【0011】
本発明によって提供される任意の実施形態によると、前記処理待ち画像における前記目標手部に基づいてビデオストリーム中で前記目標手部を追跡する前記処理待ち画像における目標手部に基づいて前記ビデオストリーム中で前記目標手部を追跡することは、前記ビデオストリーム中の1フレーム画像に対して、当該フレーム画像の前の1フレーム画像の第1行列および第2行列に基づいて、当該フレーム画像の第1行列および第2行列を確定することを含み、ここで、当該1フレーム画像の第1行列は、目標手部の検出フレームの中心の当該フレーム画像における位置情報を含み、当該1フレーム画像の第2行列は、当該フレーム画像の第1行列中の各々の元素の誤差を表す。
【0012】
本発明によって提供される任意の実施形態によると、当該フレーム画像の前の1フレーム画像の第1行列および第2行列に基づいて、当該フレーム画像の第1行列および第2行列を確定することは、当該フレーム画像の手部検出結果に目標手部の検出フレームが含まれていないことに応答して、前の1フレーム画像の第1行列を当該フレーム画像における第1行列として確定することと、修正行列を利用して前の1フレーム画像の第2行列を修正することによって、当該フレーム画像における第2行列を得ることとを含み、ここで、前記修正行列は、前記前の1フレーム画像の第2行列の共分散行列である。
【0013】
本発明によって提供される任意の実施形態によると、当該フレーム画像の前の1フレーム画像の第1行列および第2行列に基づいて、当該フレーム画像の第1行列および第2行列を確定することは、当該フレーム画像の手部検出結果に目標手部の検出フレームが含まれていることに応答して、当該フレーム画像と前の1フレーム画像との時間間隔に基づいて、前の1フレーム画像の第1行列を利用して当該フレーム画像の第1予測行列および前記第1予測行列の共分散行列である第予測2行列を予測して得ることと、前記目標手部の検出フレームの位置情報に基づいて当該フレーム画像の第3予測行列および第4予測行列を得ることであって、前記第3予測行列は、当該フレーム画像内の目標手部の検出フレームの中心の予測位置情報を含み、前記第4行列は、第4予測行列は、前記第3予測行列の共分散行列であることと、前記第2行列に対応するガウス分布と前記第4行列に対応するガウス分布とを乗算して、新たなガウス分布を得、得られた新たなガウス分布の平均値に基づいて当該フレーム画像の前記第1行列を確定し、得られた新たなガウス分布の共分散に基づいて当該フレーム画像の前記第2行列を確定することと、を含む。
【0014】
本発明によって提供される任意の実施形態によると、前記処理待ち画像は、上面からの視角で収集した前記目標領域の画像である。
【0015】
本発明の1態様によると、目標追跡装置を提供する。前記装置は、処理待ち画像に対して検出を実行して手部検出結果を得るための検出ユニットと、前記手部検出結果に手部の検出フレームが含まれていることに応答して、前記検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たす手部を目標手部として確定するための確定ユニットと、前記処理待ち画像における前記目標手部に基づいてビデオストリーム中で前記目標手部を追跡するための追跡ユニットと、を備え、前記ビデオストリーム中の画像と前記処理待ち画像とは、同一の目標領域を収集して得られたものであり、前記ビデオストリーム中の画像は、前記処理待ち画像を収集した後で収集して得られたものである。
【0016】
本発明によって提供される任意の実施形態によると、前記確定ユニットは、前記手部検出結果に前記検出フレームが含まれていることに応答して、検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たし、かつ、前記検出フレーム内の手部が前記処理待ち画像における予め定義された領域内にいる手部を前記目標手部として確定する。
【0017】
本発明によって提供される任意の実施形態によると、前記確定ユニットは、前記手部検出結果に手部の検出フレームが含まれていることに応答して、前記処理待ち画像における前記検出フレーム内に位置する画像をカッティングし、前記カッティングされた画像に基づいて、前記カッティングされた画像における手部姿勢が目標ジェスチャ中の手部姿勢を満たすと確定する。
【0018】
本発明によって提供される任意の実施形態によると、前記目標ジェスチャ中の手部姿勢は、両手部がいずれも上を向いており、前記確定ユニットは、前記検出フレーム内の画像をジェスチャ分類ニューラルネットワークに入力して、手が上を向いていることまたは手部が他の姿勢であることを含むジェスチャ分類結果を得、2つの検出フレームの分類結果がいずれも上を向いている場合、当該2つの手部の検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たすと確定する。
【0019】
本発明によって提供される任意の実施形態によると、前記ジェスチャ分類ニューラルネットワークは、手部画像サンプルを使用して訓練して得られたものであり、前記手部画像サンプルは、手が上を向いている画像サンプルを含み、前記手が上を向いている画像サンプルのラベリング結果は、手部のひらである。
【0020】
本発明によって提供される任意の実施形態によると、前記確定ユニットは、前記検出フレームの中心点が前記処理待ち画像における予め定義された領域内に位置していることに応答して、前記検出フレーム内の手部が前記処理待ち画像における予め定義された領域内にいると確定する。
【0021】
本発明によって提供される任意の実施形態によると、前記予め定義された領域は、前記処理画像内の、前記目標領域における2つのサブ領域にそれぞれ対応する2つの所定のサブ領域を含み、前記確定ユニットは、前記検出フレームの中心点が前記処理待ち画像における予め定義された領域内にいると確定するときに、前記処理待ち画像内の2つの検出フレームの中心点がそれぞれ2つの所定のサブ領域内にいると確定する。
【0022】
本発明によって提供される任意の実施形態によると、前記追跡ユニットは、前記ビデオストリーム中の1フレーム画像に対して、当該フレーム画像の前の1フレーム画像の第1行列および第2行列に基づいて、当該フレーム画像の第1行列および第2行列を確定し、ここで、当該1フレーム画像の第1行列は、目標手部の検出フレームの中心の当該フレーム画像における位置情報を含み、当該1フレーム画像の第2行列は、当該フレーム画像の第1行列の共分散行列である。
【0023】
本発明によって提供される任意の実施形態によると、前記追跡ユニットは、当該フレーム画像の手部検出結果に目標手部の検出フレームが含まれていないことに応答して、前の1フレーム画像の第1行列を当該フレーム画像における第1行列として確定し、修正行列を利用して前の1フレーム画像の第2行列を修正することによって、当該フレーム画像における第2行列を得、ここで、前記修正行列は、前記前の1フレーム画像の第2行列の共分散行列である。
【0024】
本発明によって提供される任意の実施形態によると、前記追跡ユニットは、当該フレーム画像の手部検出結果に目標手部の検出フレームが含まれていることに応答して、当該フレーム画像と前の1フレーム画像との時間間隔に基づいて、前の1フレーム画像の第1行列を利用して当該フレーム画像の第1予測行列および前記第1予測行列の共分散行列である第予測2行列を予測して得ることと、前記目標手部の検出フレームの位置情報に基づいて当該フレーム画像の第3予測行列および第4予測行列を得ることであって、前記第3予測行列は、当該フレーム画像内の目標手部の検出フレームの中心の予測位置情報を含み、前記第4行列は、第4予測行列は、前記第3予測行列の共分散行列であることと、前記第2行列に対応するガウス分布と前記第4行列に対応するガウス分布とを乗算して、新たなガウス分布を得、得られた新たなガウス分布の平均値に基づいて当該フレーム画像の前記第1行列を確定し、得られた新たなガウス分布の共分散に基づいて当該フレーム画像の前記第2行列を確定する。
【0025】
本発明によって提供される任意の実施形態によると、前記処理待ち画像は、上面からの視角で収集した前記目標領域の画像である。
【0026】
本発明の1態様によると、電子デバイスを提供し、前記電子デバイスは、メモリとプロセッサとを備え、前記メモリは、プロセッサ上で実行できるコンピュータ命令を記憶し、前記プロセッサは、前記コンピュータ命令を実行するときに、本発明の任意の実施形態に記載の目標追跡方法が実現される。
【0027】
本発明の1態様によると、コンピュータプログラムが記憶されているコンピュータ可読記録媒体を提供し、前記プログラムがプロセッサによって実行されるときに、本発明の任意の記載の目標追跡方法が実現される。
【発明の効果】
【0028】
本発明の1つまたは複数の実施例の目標認識方法、装置、電子デバイス、及び記録媒体によると、手部検出結果における検出フレーム内の手部姿勢に対して検出を実行して、目標ジェスチャ中の手部姿勢を満たす目標手部を確定し、つまり、処理待ち画像において追跡する必要がある目標手部を認識し、同期的に収集したビデオストリーム中で前記目標手部を追跡することによって、目標ジェスチャに基づいて高速かつ効果的に目標手部を認識することができ、追跡効率を向上させた。
【図面の簡単な説明】
【0029】
以下、本明細書の1つまたは複数の実施例または従来技術での技術的解決策をより明確に説明するために、実施例または従来技術に対する叙述で使用する必要がある図面を簡単に紹介する。明らかに、以下で叙述する図面は、本明細書の1つまたは複数の実施例に記載されるいくつかの実施例に過ぎず、当業者にとって創造的な作業なしにこれら図面に基づいて他の図面を得ることができる。
図1】本発明の少なくとも1つの実施例によって提供される目標追跡方法のフローチャートである。
図2】本発明の少なくとも1つの実施例によって提供される目標追跡方法の適用シーンの模式図である。
図3A-3F】本発明の少なくとも1つの実施例によって提供されるジェスチャ分類結果の模式図である。
図4】本発明の少なくとも1つの実施例によって提供される目標追跡方法の適用シーンの模式図である。
図5】本発明の少なくとも1つの実施例によって提供される目標追跡装置の構成の模式図である。
図6】本発明の少なくとも1つの実施例によって提供される電子デバイスの構成の模式図である。
【発明を実施するための形態】
【0030】
以下、当業者が本明細書の1つまたは複数の実施例での技術的解決策をより良く理解するようにするために、本明細書の1つまたは複数の実施例での図面を参照して、本明細書の1つまたは複数の実施例での技術的解決策を明確かつ完全に叙述する。明らかに、叙述する実施例は、全部の実施例ではなく、本明細書の一部の実施例に過ぎない。本明細書の1つまたは複数の実施例に基づいて、創造的な作業なしに当業者によって得られるすべての他の実施例は、いずれも本発明の保護範囲に属すべきである。
【0031】
本発明の少なくとも1つの実施例は、目標追跡方法を提供し、前記目標追跡方法は、端末デバイスまたはサーバなどの電子デバイスによって実行されることができ、端末デバイスは、ユーザデバイス(User Equipment、UE)、モバイルデバイス、ユーザ端末、端末、セルラー電話、コードレス電話、パーソナルデジタルアシスタント(Personal Digital Assistant、PDA)、ハンドヘルドデバイス、計算デバイス、車載デバイス、ウェアラブルデバイスなどを含み得、前記方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出す方式によって実現することができる。
【0032】
図1は、当該目標追跡方法の流れを示し、図1に示すように、ステップ101~ステップ103を含み得る。
【0033】
ステップ101において、処理待ち画像に対して検出を実行して手部検出結果を得る。
【0034】
本発明の実施例において、前記処理待ち画像は、画像収集デバイス(たとえばカメラ)によって収集されたデスクトップ領域の画像であり得る。前記画像は、完全なデスクトップ画像を含んでもよいし、デスクトップの一部の画像を含んでもよい。
【0035】
画像収集デバイスによって収集された画像は、ビデオストリーム中の1フレームのであってもよいし、リアルタイムで得た画像であってもよく、本発明はこれに対して限定しない。
【0036】
本発明の実施例において、たとえばfaster RCNNネットワークなどの、深層学習ネットワークを利用して、画像における手部を検出することによって、手部検出結果を得る。当業者は、faster RCNNネットワークは1例に過ぎず、その他のネットワークを使用して手部検出を実行してもよく、本発明はこれに対して限定しないことを理解すべきである。
【0037】
いくつかの実施例において、上面からの視角で処理待ち画像を収集することができ、すなわち、バードビューカメラ(Birdview camera)を使用して前記処理待ち画像を収集することができる。たとえばデスクトップゲームのような適用シーンの場合、上面からの視角は、好ましい撮影視角であり、当該視角は、一般的に、他の物体によって検出目標が遮られることを回避することができる。しかしながら、当業者は、画像収集デバイスが左側からの視角または右側からの視角などの他の視角で収集した処理待ち画像も本発明の実施例によって提案される目標追跡方法に適用されることを理解すべきである。
【0038】
ステップ102において、手部検出結果に手部の検出フレームが含まれていることに応答して、前記検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たす手部を目標手部として確定する。
【0039】
本発明の実施例において、検出フレーム内の画像に対して検出を実行して、検出された特徴と目標ジェスチャ中の手部姿勢の特徴とを比較することによって、検出フレーム内の手部姿勢が目標ジェスチャの手部姿勢を満たすか否かを確定してもよいし、前記検出フレーム内の手部姿勢に対して分類を実行して、分類結果に基づいて検出フレーム内の手部姿勢が目標ジェスチャの手部姿勢を満たすか否かを判断してもよい。具体的な判断方法は、後述する。
【0040】
手部検出結果に1つまたは複数の手部の検出フレームが含まれていることに応答して、その中の、手部姿勢が目標ジェスチャ中の手部姿勢を満たす検出フレームを目標検出フレームとして確定することができ、また、前記目標検出フレーム内の手部を目標手部として確定することができる。
【0041】
ステップ103において、前記処理待ち画像における目標手部に基づいてビデオストリーム中で前記目標手部を追跡する。
【0042】
ここで、前記ビデオストリーム中の画像と前記処理待ち画像とは、同一の目標領域を収集して得られたものであり、前記ビデオストリーム中の画像は、前記処理待ち画像を収集した後で収集して得られたものである。
【0043】
いくつかの実施例において、前記処理待ち画像と前記ビデオストリーム中の画像とは、同期的に収集したものであり得る。
【0044】
いくつかの実施例において、前記処理待ち画像は、上面からの視角で収集した目標領域の画像であり、ビデオストリーム中の画像は、上面からの視角で収集した前記目標領域の画像であってもよいし、側面からの視角などの他の視角で収集した前記目標領域の画像であってもよい。
【0045】
前記処理待ち画像において目標手部が確定されたことに応答して、同期的に収集したビデオストリーム中で前記目標手部を追跡する。
【0046】
処理待ち画像における目標手部に対して、ビデオストリーム中の画像において前記目標手部に関連する手部を確定し、当該手部をビデオストリーム中の目標手部として確定して追跡することができる。様々な方法を採用して前記処理待ち画像における手部とビデオストリームの画像における手部との間の関連関係を確定することができ、本発明はこれに対して限定しない。
【0047】
本発明の実施例において、手部検出結果における検出フレーム内の手部姿勢に対して検出を実行して、目標ジェスチャ中の手部姿勢を満たす目標手部を確定し、つまり、処理待ち画像において追跡する必要がある目標手部を認識し、同期的に収集したビデオストリーム中で前記目標手部を追跡することによって、目標ジェスチャに基づいて高速かつ効果的に目標手部を認識することができ、追跡効率を向上させた。
【0048】
いくつかの実施例において、検出フレームの中心点を手部の位置として確定することができる。当業者は、さらに、検出フレームの他の位置点を手部の位置として確定することができ、たとえば、認識待ち目標ジェスチャとその中の1つの指との関係がもっと密接である場合、当該指の検出フレームにおける位置を手部の位置として確定することができることを理解すべきである。手部の位置の具体的に確定方式は、認識待ち目標ジェスチャと検出フレームとの関係に基づいて確定することができる。
【0049】
いくつかの実施例において、手部検出結果に手部の検出フレームが含まれていることに応答して、検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たし、かつ、検出フレーム内の手部が前記処理待ち画像における予め定義された領域内にいる手部を目標手部として確定する。
【0050】
本発明の実施例において、手部検出結果に手部の検出フレームが含まれている場合、手部検出結果に検出フレームの位置情報も含まれているため、手部の前記処理待ち画像における位置情報を確定した。たとえば、検出フレームの中心点の位置を手部の位置として設定することができる。検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たし、かつ、当該検出フレームの中心点が前記処理待ち画像における予め定義された領域内にいる場合、当該検出フレーム内の手部を目標手部として設定することができる。
【0051】
1例において、処理待ち画像において予め定義された領域は、前記処理待ち画像内の、前記目標領域における2つのサブ領域にそれぞれ対応する2つの所定のサブ領域を含む。たとえば、目標領域がゲームテーブルの場合、予め定義された領域は、ゲームテーブル上の2つのサブ領域に対応する2つの所定のサブ領域を含む。
【0052】
特定領域に現れた特定手部姿勢をのみ目標ジェスチャとする場合、処理待ち画像において予め定義された領域を利用して検出フレーム内の手部に対して位置制約を提供することによって、検出された手部姿勢が目標ジェスチャであるか否かをより正確に確定することができる。処理待ち画像において予め定義された領域は、処理待ち画像を撮影する画像収集デバイスの位置、内部パラメータ、および、実際の空間における目標ジェスチャに対応する特定領域に基づいて、確定することができる。
【0053】
いくつかの実施例において、検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たすか否かを確定することは、検出フレーム内の画像を予め訓練されたジェスチャ分類ニューラルネットワークに入力して、ジェスチャ分類結果を得、前記分類結果に基づいて検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たすか否かを判断することを含む。
【0054】
前記ジェスチャ分類ニューラルネットワークは、畳み込み分類モデルであり得、たとえばRsenet 18をバックボーンネットワークの畳み込み分類モデルとして使用することができる。当業者は、前記ジェスチャ分類ニューラルネットワークは、得ようとする分類タイプに応じて確定することができ、得ようとする分類タイプは、認識待ちの目標ジェスチャに応じて確定することができ、本発明は、これに対して限定しないことを理解すべきである。
【0055】
1例において、認識待ちの目標ジェスチャが手が上を向いていることにのみ関わる場合、得る必要がある分類タイプは、手が上を向いているかまたは手部がその他の姿勢であることを含み得、ここで、その他の姿勢は、手部が上を向いている姿勢以外の手部姿勢および手部が遮られた姿勢を含む。手が上を向いている画像サンプルを利用して前記ジェスチャ分類ニューラルネットワークを訓練することができ、前記手が上を向いている画像サンプルのラベリング結果は、手部のひらである。手が上を向いているとは、手部の手のひらが上を向いており、処理待ち画像で手のひらが見えることを意味し、つまり、手のひらが遮られていないことを意味する。手部が遮られているとは、手部の手のひらが遮られていることを意味する。本発明の実施例において、「上」および「下」という用語は、地面に対して相対的である。手部の場合、当該手部の手のひらが当該手の甲よりも地面に近い場合、手が下を向いている。もし、当該手部の手の甲が手のひらよりも地面に近い場合、手が上を向いている。
【0056】
1例において、認識待ちの目標ジェスチャが手が上を向いていることおよび手が下を向いていることに関する場合、得る必要がある分類タイプは、手が上を向いていること、手が下を向いているとこと、および、手部がその他の姿勢であることを含み得、ここで、その他の姿勢は、手が上を向いていることまたは手が下を向いていること以外の手部姿勢である状況、および、手部が遮られた状況を含む。手が下を向いていることは、手部のひらが下になっていることである。手が上を向いている画像サンプル、および、手が下を向いていると画像サンプルを利用して前記ジェスチャ分類ニューラルネットワークを訓練することができ、ここで、前記手が上を向いている画像サンプルのラベリング結果は、手部のひらであり、前記手が下を向いている画像サンプルのラベリング結果は、手の甲を表すラベルであり得る。
【0057】
1例において、認識待ちの目標ジェスチャが特定の手部姿勢に関する場合、分類タイプには当該特定姿勢が含まれている必要があり、そうすれば、当該特定手部姿勢を含むサンプル手部画像を利用して前記ジェスチャ分類ニューラルネットワークを訓練することによって、前記ジェスチャ分類ニューラルネットワークが手部の検出フレーム画像から当該特定手部姿勢を認識することができるようにする。
【0058】
当業者は、さらに、その他の方法によって検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たすと確定し、検出フレーム内の手部姿勢を利用してジェスチャ検出を実行することができ、本発明の実施例は、これに対して限定しないことを理解すべきである。
【0059】
本発明の実施例において、ジェスチャ分類ニューラルネットワークを利用して検出フレーム内の画像に対して分類を実行することによって、検出フレーム内の手部姿勢が手が上を向いているか否かを認識し、すなわち手部のひらが見える手部姿勢であるかを認識する。このときに採用するジェスチャ分類ニューラルネットワークは、ビデオ分類モデルと比較すると、訓練サンプルの取得およびとラベリングが容易になり、また、ジェスチャ分類ニューラルネットワークモデルの認識速度がより速いため、手部姿勢に対するリアルタイムな認識を実現することができる。
【0060】
いくつかの実施例において、以下の方法を利用して前記処理待ち画像における目標手部に基づいてビデオストリーム中で前記目標手部を追跡することができる。
【0061】
前記ビデオストリーム中の1フレーム画像に対して、当該フレーム画像の前の1フレーム画像の第1行列および第2行列に基づいて、当該フレーム画像の第1行列および第2行列を確定し、ここで、当該1フレーム画像の第1行列は、目標手部の検出フレームの中心の当該フレーム画像における位置情報を含み、当該1フレーム画像の第2行列は、当該フレーム画像の第1行列の共分散行列であり、当該フレーム画像の第1行列中の各々の元素の結合変動を測定するために使用される。
【0062】
処理待ち画像において目標手部が認識されたことに応答して、たとえば、処理待ち画像において追跡する必要がある目標手部が認識された場合、同一な視角で収集したビデオストリームまたは異なる視角で収集したビデオストリーム中で、追跡する必要がある目標手部を追跡することができる。
【0063】
異なる視角で収集したビデオストリーム中で追跡する必要がある目標手部を追跡するときに、まず、1つの画像において目標手部と関連付けられた手部を確認する必要があり、ここで、当該1つの画像は、ビデオストリーム中の1つの画像フレームである同時に、処理待ち画像と同期的に収集された画像フレームである。目標手部と関連付けられた手部を追跡する必要がある目標手部として設定し、次に、ビデオストリーム中で追跡する必要がある目標手部を追跡する。
【0064】
以下、同一な視角で収集した処理待ち画像とビデオストリームの例を挙げてビデオストリーム中でどのように追跡する必要がある目標手部を追跡するかを説明する。
【0065】
処理待ち画像の後に収集されたビデオストリーム中の各々の1フレーム画像の場合、当該フレーム画像の第1行列と第2行列は、前の1フレーム画像の第1行列と第2行列に基づいて予測して得られたものである。前記処理待ち画像の手部検出結果に基づいて、第1行列Xおよび第2行列Pの初期情報を確定することができる。ここで、第1行列Xは、目標手部の検出フレームの中心の当該フレーム画像における位置情報を含み、たとえば1*2の行列である。第2行列Pは、第1行列X中の各々の元素の結合変動であり、たとえば位置変量の共分散行列であり、ここで、第2行列Pは、手動で設定したハイパーパラメータ行列であり、たとえば2*2の行列であり得る。
【0066】
ビデオストリーム中の任意のフレーム画像に対して、手部検出結果が異なると、異なる方式を利用して当該フレーム画像の第1行列と第2行列を確定することができる。
【0067】
当該フレーム画像の手部検出結果に目標手部の検出フレームが含まれていないことに応答して、目標手部が静止状態であると仮定して、前の1フレーム画像の第1行列をX当該フレーム画像における第1行列Xとして確定し、すなわち当該フレーム画像の第1行列Xが前の1フレーム画像の第1行列と同一であり、当該フレーム画像の第2行列Pに対しては、修正行列Qを利用して前の1フレーム画像の第2行列を修正することによって、当該フレーム画像の第2行列を得、すなわち、当該フレーム画像の第2行列を前の1フレーム画像の第2行列と修正行列Qの和として確定する。ここで、修正行列Qは、前の1フレーム画像の第2行列の共分散行列であり、前の1フレーム画像の第2行列中の各々の元素の結合変動を測定するために使用される。修正行列Qは、手動で設定したハイパーパラメータ行列であり、前の1フレーム画像の第2行列とサイズが同一の行列である。前の1フレーム画像の第2行列が2*2の行列である場合、修正行列Qも2*2の行列である。
【0068】
当該フレーム画像の手部検出結果に目標手部の検出フレームが含まれていることに応答して、前記手部検出結果に基づいて、前の1フレーム画像に基づいて予測した結果を修正して、当該フレーム画像の第1行列Xおよび第2行列Pを得る。
【0069】
まず、当該フレーム画像と前の1フレーム画像との時間間隔に基づいて、前の1フレーム画像の第1行列Xを利用して、当該フレーム画像の第1予測行列および第2予測行列を予測して得ることができる。たとえば、目標手部が設定された方向に均一な速度で直線運動をしていると仮定すると、当該フレーム画像と前の1フレーム画像との時間間隔に基づいて、既知の前の1フレーム画像の位置情報を含む第1行列に基づいて、当該フレーム画像の第1予測行列を確定することができる。第2予測行列は、第1予測行列の共分散行列である。第1予測行列は、当該画像フレーム内の目標手部の検出フレームの中心の第1予測位置情報を含む。当該第1予測位置情報は、前の1フレーム画像の第1行列と当該フレーム画像との間の時間間隔に基づいて得られる。
【0070】
続いて、前記目標手部の検出フレームの位置情報に基づいて当該フレーム画像の第3予測行列を得、前記第3予測行列の共分散行列である第4予測行列を得ることができる。ここで、第3予測行列は、当該画像フレーム内の目標手部の検出フレームの中心の第2予測位置情報を含む。たとえば、目標手部の検出フレームが長方形であると仮定すると、当該画像フレーム内の当該長方形の四辺の位置を確定してから、当該四辺の位置に基づいて当該第2予測位置情報を確定する。第4予測行列は、第3予測行列中の各々の元素の結合変動を測定し、第4予測行列も手動で設定したハイパーパラメータ行列である。
【0071】
最後に、第4予測行列が第1ガウス分布に従い、かつ、第2予測行列が第2ガウス分布に従うと確定されたことに応答して、第1ガウス分布と第2ガウス分布とを乗算して、新たなガウス分布を得ることができる。当該新たなガウス分布の平均値に基づいて当該フレーム画像の第1行列Xを得、当該新たなガウス分布の共分散に基づいて当該フレーム画像の第2行列Pを得ることができる。このようにして、当該フレーム画像における位置情報を含む第1行列Xを得ることができるため、ビデオストリーム中での目標手部に対する追跡を実現することができる。
【0072】
本発明の実施例において、前の1フレーム画像の目標手部の位置情報を含む第1行列および共分散行列などの第2行列を利用して、現在フレーム画像における目標手部の位置情報を得ることによって、ビデオストリーム中で目標手部に対する追跡を正確かつ効果的に実現することができる。
【0073】
以下、認識待ち目標ジェスチャ中で両手部がいずれも上を向いており、かつ、両手部がそれぞれデスクトップの2つの特定サブ領域の上方に位置している例に対して、本発明の実施例によって提案される目標追跡方法を叙述する。当業者は、当該目標追跡方法は、上述した目標ジェスチャを取っている目標手部を追跡することに限定されず、他の目標ジェスチャを取っている目標手部を追跡することにも使用されることを理解すべきである。
【0074】
図2は、本発明の少なくとも1つの実施例によって提供される目標追跡方法の適用シーンの模式図である。図2に示すように、認識待ちの目標ジェスチャは、デスクトップ20の2つの領域221および222の上方で取った両手部の手部のひらを上に向けたジェスチャである。
【0075】
まず、上面からの視角で撮影したデスクトップ20の一部または全部の領域を含む処理待ち画像に対して検出を実行して、手部検出結果を得る。
【0076】
手部が検出された場合、すなわち手部検出結果に手部の検出フレームが含まれている場合、前記検出フレーム内の画像をジェスチャ分類ニューラルネットワークに入力して、ジェスチャ分類結果を得る。前記ジェスチャ分類ニューラルネットワークは、入力画像が手部の上を向いているかまたは手部がその他の姿勢であるかに対して分類を実行し、得られたジェスチャ分類結果は、手が上を向いていることまたは手部が他の姿勢であることを含む。2つの検出フレームの分類結果がいずれも手が上を向いていることであると、前記検出フレーム内の手部姿勢がいずれも手が上を向いており、このときに目標ジェスチャ中の手部姿勢を満たすとして確定する。
【0077】
両手部がいずれも上を向いていると確定した場合、2つの検出フレームの位置が処理待ち画像の2つの所定のサブ領域内にいるか否かを確定する。ここで、処理待ち画像の2つの所定のサブ領域は、前記処理待ち画像を撮影する画像収集デバイスの位置、内部パラメータ、および、デスクトップ20上2つの領域221と222の位置に基づいて、確定される。2つの検出フレームの中心点がそれぞれ前記2つの所定のサブ領域内にいることに応答して、この二つの手部が目標ジェスチャを取ったこととして確定する。
【0078】
1例において、前記手部の検出フレームに従ってカッティングし得た画像を、前記ジェスチャ分類ニューラルネットワークに入力して、ジェスチャ分類結果を得ることができる。前記処理待ち画像中に複数の手部の検出フレームが含まれていると、複数のカッティングし得た画像をそれぞれ前記ジェスチャ分類ニューラルネットワークに入力する。
【0079】
上記の入力画像に対して手が上を向いているかまたは手部がその他の姿勢であるかの分類を実行するためのジェスチャ分類ニューラルネットワークは、以下の方法によって訓練することができる。
【0080】
まず、手が上を向いている画像サンプルを得、画像サンプルにおける手部のひらに対してラベリングを実行する。
【0081】
図3Aと3Bは、例示的な手が上を向いている画像サンプルである。正面から手部のひらが見える手部画像を手が上を向いている画像サンプルとして使用でき、前記手が上を向いている画像サンプルのラベリング結果は、手部のひらである。ここで、図3A図3Bで、手部のひらにいる白い点は、手が上を向いている画像サンプルのラベルである。図3C~3Fは、例示的なその他の姿勢の手部画像であり、たとえば手が下を向いている手部画像または手部のひらが遮られた手部画像であり、その他の姿勢のラベルでこれら手部画像をラベリングすることができる。手部のひらが遮られたことは、手が上を向いている時に手部のひらが遮られたことを示す。
【0082】
上記の画像サンプルを利用して前記ジェスチャ分類ニューラルネットワークを訓練することができ、訓練が完成されたニューラルネットワークは、検出フレーム内の画像に対して分類を実行して、手が上を向いていることまたは手部がその他の姿勢であることを含む分類結果を得ることができる。
【0083】
いくつかの実施例において、ジェスチャ分類ニューラルネットワークを利用して検出フレーム内の画像に対して分類を実行して、手が上を向いていること、手が下を向いているとこと、または、手部がその他の姿勢であることを含む分類結果を得ることができる。当該ジェスチャ分類ニューラルネットワークは、手が上を向いている画像サンプル、手が下を向いている画像サンプル、手部がその他の姿勢である画像サンプルを得て、訓練を実行することができる。依然として、図3A~3Fを例とすると、ここで、図3Aと3Bは、例示的な手が上を向いている画像サンプルであり、前記手が上を向いている画像サンプルのラベリング結果は、手部のひらであり、図3C図3Dは、例示的な手が下を向いていると画像サンプルである。手部の甲全体と5本の指が見える手部画像を背面サンプル手部画像として使用し、これに対して手の甲のラベルでラベリングすることができ、図3E図3Fは、例示的な手部がその他の姿勢である画像サンプルである。手部のひらが見えないし、かつ、手部の甲と5本の指が完全に見えない手部画像を、手部がその他の姿勢である画像サンプルとして使用し、その他の姿勢のラベルでこれら手部画像をラベリングすることができる。図3E図3Fは、手部のひらが見えないため、他の姿勢に属する。上記の画像サンプルを利用して前記ジェスチャ分類ニューラルネットワークを訓練することができ、訓練が完成されたニューラルネットワークは、検出フレーム内の画像に対して分類を実行して、手が上を向いていること、手が下を向いているとこと、または、手部がその他の姿勢であることを含む分類結果を得ることができる。
【0084】
本発明の実施例において、ジェスチャ分類ニューラルネットワークを利用して検出フレーム内の画像に対して分類を実行することによって、検出フレーム内のジェスチャが、手が上を向いているか否かを認識する。このときに採用するジェスチャ分類ニューラルネットワークは、ビデオ分類モデルと比較すると、訓練サンプルの取得およびとラベリングが容易になり、また、ジェスチャ分類ニューラルネットワークモデルの認識速度が速いため、手部姿勢に対するリアルタイムな認識を実現することができる。
【0085】
ジェスチャ分類結果が目標ジェスチャ中の手部姿勢を満たす場合、処理待ち画像における予め定義された領域を利用して位置制約を実行することによって、検出された手部が目標ジェスチャを取っていることをさらに確定することができる。
【0086】
デスクトップ20を含む処理待ち画像においてデスクトップ20の2つの領域221および222の上方で両手部の手部のひらが上向きジェスチャを取っている目標手部が認識されたことに応答して、その後に、同期的に収集したビデオストリーム中で前記目標手部を追跡する。たとえば、前の1フレーム画像の目標手部の位置情報を含む第1行列および共分散行列などの第2行列を利用して、現在フレーム画像における目標手部の位置情報を得ることによって、ビデオストリーム中の目標手部に対する追跡を正確かつ効果的に実現することができる。
【0087】
以下、目標ジェスチャがクルーピアのハンドクリーンジェスチャである例を挙げて、本発明の実施例によって提案される目標追跡方法を説明する。
【0088】
図4は、本発明の少なくとも1つの実施例によって提供される目標追跡方法の適用シーンの模式図である。図4に示すように、ゲームシーンにおいて、ゲームテーブル40を通じてゲームすることができ、プレーヤー421、422、423は、クルーピア43に対してゲームテーブルの反対の側に位置している。ゲームテーブルは、クルーピアの被交換物品領域47(クルーピアの前方の領域)、プレーヤーの被交換物品領域441、442(プレーヤーの前方の領域)、ゲーム実行領域46、および、予め定義された領域41(ホットゾーンとも呼ばれる)を含む。
【0089】
クルーピアのハンドクリーンジェスチャとは、クルーピアが特定操作を完了した後、または、特徴の操作を実行する前に、両手部の手部のひらを上に向けて、クルーピアの被交換物品領域(たとえば図4中の被交換物品領域47)の両側に平らに置くことによって、手部にいかなる物品も持っていないことを他人に展示し、次のゲームステージに入ることができたことを表すためのジェスチャを指す。
【0090】
本発明の実施例において、ゲームテーブル上のクルーピアの前方の被交換物品領域の両側の2つのサブ領域(たとえば図4中のサブ領域411とサブ領域412)を実際の空間の特定領域として設定する。前記処理待ち画像を撮影するカメラ位置、内部パラメータ、および、特定領域の位置に基づいて、処理待ち画像における対応する2つの所定のサブ領域を確定して、前記ジェスチャ分類結果に対して位置制約を実行することができる。
【0091】
ゲームテーブル40の一部または全部の領域を含む処理待ち画像に対して検出を実行して得られた手部検出結果に手部の検出フレームが含まれている場合、前記検出フレーム内の画像を予め訓練されたジェスチャ分類ニューラルネットワークに入力し、前記ジェスチャ分類ニューラルネットワークは、入力画像に対して手が上を向いていることまたは手部がその他の姿勢であることとの分類を実行することができる。2つの検出フレーム画像の分類結果がいずれも手が上を向いていることに応答して、2つの検出された位置が前記処理待ち画像の2つの所定のサブ領域内にいるか否かをさらに確定することができる。2つの手がそれぞれ前記2つの所定のサブ領域内にいると検出される場合は、2つの手部がそれぞれゲームテーブル40上のホットゾーンに入ったことを表し、そうすれば、検出された手部がハンドクリーンジェスチャを取ったことを確定することができる。
【0092】
ゲームテーブル40を含む処理待ち画像においてハンドクリーンジェスチャを取っている目標手部が認識されたことに応答して、すなわちクルーピアの手部が認識されたことに応答して、その後に同期的に収集したビデオストリーム中でクルーピアの手部を追跡する。たとえば、前の1フレーム画像の目標手部の位置情報を含む第1行列および共分散行列などの第2行列を利用して、現在フレーム画像におけるクルーピアの手部の位置情報を得ることによって、ビデオストリーム中でクルーピアの手部に対する追跡を正確かつ効果的に実現することができる。クルーピアの手部を認識することによって、クルーピアの手部にいかなる禁止された物品を持たれているか否かを監視制御することができる。
【0093】
図5は、本発明の少なくとも1つの実施例によって提供される目標追跡装置の構成の模式図である。図5に示すように、前記装置は、処理待ち画像に対して検出を実行して手部検出結果を得るための検出ユニット501と、前記手部検出結果に手部の検出フレームが含まれていることに応答して、前記検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たす手部を目標手部として確定するための確定ユニット502と、前記処理待ち画像における前記目標手部に基づいてビデオストリーム中で前記目標手部を追跡するための追跡ユニット503と、を備え、前記ビデオストリーム中の画像と前記処理待ち画像とは、同一の目標領域を収集して得られたものであり、前記ビデオストリーム中の画像は、前記処理待ち画像を収集した後で収集して得られたものである。
【0094】
いくつかの実施例において、確定ユニット502は、前記手部検出結果に前記検出フレームが含まれていることに応答して、検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たし、かつ、前記検出フレーム内の手部が前記処理待ち画像における予め定義された領域内にいる手部を前記目標手部として確定する。
【0095】
いくつかの実施例において、確定ユニット502は、具体的に、前記手部検出結果に手部の検出フレームが含まれていることに応答して、前記処理待ち画像における前記検出フレーム内に位置する画像をカッティングし、前記カッティングされた画像に基づいて、前記カッティングされた画像における手部姿勢が目標ジェスチャ中の手部姿勢を満たすと確定する。
【0096】
いくつかの実施例において、前記目標ジェスチャ中の手部姿勢は、両手部がいずれも上を向いており、確定ユニット502は、前記検出フレーム内の画像をジェスチャ分類ニューラルネットワークに入力して、手が上を向いていることまたは手部が他の姿勢であることを含むジェスチャ分類結果を得、2つの検出フレームの分類結果がいずれも上を向いている場合、ジェスチャ当該2つの手部の検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たすと確定する。
【0097】
いくつかの実施例において、前記ジェスチャ分類ニューラルネットワークは、手部画像サンプルを使用して訓練して得られたものであり、前記手部画像サンプルは、手が上を向いている画像サンプルを含み、前記手が上を向いている画像サンプルのラベリング結果は、手部のひらである。
【0098】
いくつかの実施例において、確定ユニット502は、前記検出フレームの中心点が前記処理待ち画像の予め定義された領域内にいると確定されたことに応答して、前記検出フレーム内の手部が前記処理待ち画像における予め定義された領域内にいると確定する。
【0099】
いくつかの実施例において、前記予め定義された領域は、前記処理画像内の、前記目標領域における2つのサブ領域にそれぞれ対応する2つの所定のサブ領域を含み、確定ユニット502は、前記処理待ち画像における2つの手部の検出フレームの中心点がそれぞれ2つの所定のサブ領域内にあることを確定する。
【0100】
いくつかの実施例において、追跡ユニット503は、前記ビデオストリーム中の1フレーム画像に対して、当該フレーム画像の前の1フレーム画像の第1行列および第2行列に基づいて、当該フレーム画像の第1行列および第2行列を確定し、ここで、当該1フレーム画像の第1行列は、目標手部の検出フレームの中心の当該フレーム画像における位置情報を含み、当該1フレーム画像の第2行列は、当該フレーム画像の第1行列の共分散行列である。
【0101】
いくつかの実施例において、追跡ユニット503は、当該フレーム画像の手部検出結果に目標手部の検出フレームが含まれていないことに応答して、前の1フレーム画像の第1行列を当該フレーム画像における第1行列として確定し、修正行列を利用して前の1フレーム画像の第2行列を修正することによって、当該フレーム画像における第2行列を得、ここで、前記修正行列は、前記前の1フレーム画像の第2行列の共分散行列である。
【0102】
いくつかの実施例において、追跡ユニット503は、当該フレーム画像の手部検出結果に目標手部の検出フレームが含まれていることに応答して、当該フレーム画像と前の1フレーム画像との時間間隔に基づいて、前の1フレーム画像の第1行列を利用して当該フレーム画像の第1予測行列および前記第1予測行列の共分散行列である第2予測行列を予測して得、前記目標手部の検出フレームの位置情報に基づいて当該フレーム画像の第3予測行列および第4予測行列を得、ここで、前記第3予測行列は、目標手部の検出フレームの中心の当該フレーム画像における位置情報を含み、前記第4予測行列は、前記第3予測行列の共分散行列であり、また、前記第2予測行列に対応するガウス分布と前記第4予測行列に対応するガウス分布とを乗算して、新たなガウス分布を得、得られた新たなガウス分布の平均値に基づいて当該フレーム画像の前記第1行列を確定し、得られた新たなガウス分布の共分散に基づいて当該フレーム画像の前記第2行列を確定する。いくつかの実施例において、前記処理待ち画像は、上面からの視角で収集した前記目標領域の画像である。
【0103】
図6は、本発明の少なくとも1つの実施例によって提供される電子デバイスの構成の模式図である。前記電子デバイスは、プロセッサと、プロセッサによって実行できる命令を記憶するためのメモリと、を備え、ここで、前記プロセッサは、前記メモリに記憶されている命令を呼び出して、少なくとも1つの実施例に記載の目標追跡方法を実行する。
【0104】
当業者は、本発明の1つまたは複数の実施例は、方法、システム、または、コンピュータプログラム製品として提供することができることを了解すべきである。したがって、本発明の1つまたは複数の実施例は、完全なハードウェアの実施例、完全なソフトウェアの実施例、または、ソフトウェアとハードウェアを組み合わせる実施例の形態を使用することができる。また、本発明の1つまたは複数の実施例は、コンピュータ利用可能なプログラムコードを含む1つまたは複数のコンピュータ利用可能な記録媒体(ディスクメモリ、CD-ROM、光学メモリなどを含むが、これらに限定されない)上で実施されるコンピュータプログラム製品の形態を使用することができる。
【0105】
本明細書の実施例は、コンピュータ可読記録媒体をさらに提供し、当該記録媒体には、コンピュータプログラムが記録されており、前記プログラムがプロセッサによって実行されるときに、本発明の任意の実施例で説明した目標追跡方法のステップが実現される。
【0106】
本発明の各実施例は、いずれも、漸進的な方式を使用して叙述され、各実施例同士の間の同一または類似な部分は互いに参照することができ、各々の実施例では他の実施例との異なるところに焦点を合わせて説明した。特に、データ処理デバイスの実施例の場合、基本的に方法の実施例と類似であるため、相対的に簡単に叙述したが、関連するところは方法の実施例の部分の説明を参照すればよい。
【0107】
上記で本発明の特定の実施例を叙述した。他の実施例は、添付する「特許請求の範囲」の範囲内にいる。いくつかの場合、特許請求の範囲に記載の行為またはステップは、実施例と異なる順序に従って実行されることができ、このときにも依然として期待する結果が実現されることができる。また、図面で描かれた過程は、期待する結果するために、必ずとしても、示された特定の順序または連続的な順序を必要としない。いくつかの実施形態において、マルチタスク処理および並列処理も可能であるか、または、有利であり得る。
【0108】
本発明の主題および機能操作の実施例は、デジタル電子回路、有形コンピュータソフトウェアまたはファームウェア、本発明に開示される構成およびその構造的同等物を含むコンピュータハードウェア、または、それらの1つまたは複数の組み合わせで、実現されることができる。本発明の主題の実施例は、1つまたは複数のコンピュータプログラムとして実現されることができ、すなわち、有形の非一時的プログラムキャリア上に符号化されて、データ処理装置によって実行されるか、または、データ処理装置の操作を制御するための、コンピュータプログラム命令中の1つまたは複数のモジュールとして実現されることができる。代替的または追加的に、プログラム命令は、手動で生成される伝播信号上に符号化されることができ、例えば、機械によって生成される電気的、光学的、または電磁的信号に符号化されることができる。当該信号は、情報を符号化して適切な受信機装置に伝送して、データ処理装置によって実行されるようにするために、生成される。コンピュータ記録媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムにまたはシリアルアクセスメモリデバイス、または、それらの1つまたは複数の組み合わせであり得る。
【0109】
本発明の処理と論理フローは、1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラム可能なコンピュータによって実行されることができ、入力データに基づいて操作を実行して出力を生成することによって該当する機能を実行する。前記処理と論理フローは、さらに、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(専用集積回路)などの専用論理回路によって実行されることができ、また、装置も専用論理回路として実現されることができる。
【0110】
コンピュータプログラムの実行に適したコンピュータは、例えば、汎用、および/または、専用マイクロプロセッサ、または、いかなる他の種類の中央処理ユニットを含む。一般的に、中央処理ユニットは、読み取り専用メモリ、および/または、ランダムアクセスメモリから、命令とデータを受信することになる。コンピュータの基本コンポーネントは、命令を実施または実行するための中央処理ユニット、および、命令とデータを記憶するための1つまたは複数のメモリデバイスを含む。一般的に、コンピュータは、磁気ディスク、磁気光学ディスク、または、光ディスクなどの、データを記憶するための1つまたは複数の大容量記憶デバイスをさらに含むか、または、操作可能に当該大容量記憶デバイスと結合されてデータを受信するかまたはデータを伝送するか、または、その両方を兼有する。しかしながら、コンピュータは、必ずとして、このようなデバイスを有するわけではない。なお、コンピュータは、もう1デバイスに埋め込まれることができ、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、モバイルオーディオまたはビデオおプレーヤー、ゲームコンソール、グローバルポジショニングシステム(GPS)レジーバー、または、汎用シリアルバス(USB)フラッシュドライブなどのポータブル記憶デバイスに埋め込まれることができ、これらデバイスはいくつかの例に過ぎない。
【0111】
コンピュータプログラム命令とデータの記憶に適したコンピュータ可読媒体は、すべての形態の不揮発性メモリ、媒介、および、メモリデバイスを含み、例えば、半導体メモリデバイス(例えば、EPROM、EEPROM、および、フラッシュデバイス)、磁気ディスク(例えば、内部ハードディスクまたは移動可能ディスク)、磁気光学ディスク、および、CD ROM、および、DVD-ROMディスクを含む。プロセッサとメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込まれることができる。
【0112】
本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの1つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせまたはサブ組み合わせの変形に向けることができる。
【0113】
類似的に、図面で特定の順序に従って操作を描いたが、これはこれら操作を示した特定の順序にしたがって実行するように要求するかまたは順次に実行するように要求するか、または、例示したすべての操作が実行されることによって期待する結果が実現されると要求することであると理解すべきではない。場合によっては、マルチタスクおよび並列処理が有利である可能性がある。なお、上記の実施例中の各種のシステムモジュールとコンポーネントの分離は、すべての実施例でいずれもこのように分離されなければならないと理解すべきではないし、また、叙述したプログラムコンポーネントとシステムは、一般的に、一緒に単一のソフトウェア製品に統合されるか、または、複数のソフトウェア製品にパッケージされることができることを理解すべきである。
【0114】
したがって、主題の特定の実施例がすでに叙述された。他の実施例は、添付する「特許請求の範囲」の範囲内にある。場合によっては、特許請求の範囲に記載されている動作は、異なる順序によって実行されても、依然として期待する結果が実現されることができる。なお、図面で描かれた処理は、期待する結果を実現するために、必ずとして、示された特定の順序または順次を必要としない。一部の実現において、マルチタスクおよび並列処理が有利である可能性がある。
【0115】
上記は、本明細書の1つまたは複数の実施例のより好ましい実施例に過ぎず、本明細書の1つまたは複数の実施例を限定するために使用されるものではない。本明細書の1つまたは複数の実施例の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも、本明細書の1つまたは複数の実施例が保護する範囲に含まれるべきである。
図1
図2
図3A
図3B
図3C
図3D
図3E
図3F
図4
図5
図6
【手続補正書】
【提出日】2021-04-07
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
目標追跡方法であって、
処理待ち画像に対して検出を実行して手部検出結果を得ることと、
前記手部検出結果に手部の検出フレームが含まれていることに応答して、前記検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たす手部を目標手部として確定することと、
前記処理待ち画像における前記目標手部に基づいてビデオストリーム中で前記目標手部を追跡することと、を含み、
前記ビデオストリーム中の画像と前記処理待ち画像とは、同一の目標領域を収集して得られたものであり、前記ビデオストリーム中の画像は、前記処理待ち画像を収集した後で収集して得られたものである
ことを特徴とする目標追跡方法。
【請求項2】
前記手部検出結果に手部の検出フレームが含まれていることに応答して、前記検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たす手部を目標手部として確定することは、
前記手部検出結果に前記検出フレームが含まれていることに応答して、検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たし、かつ、前記検出フレーム内の手部が前記処理待ち画像における予め定義された領域内にいる手部を前記目標手部として確定することを含む
ことを特徴とする請求項1に記載の目標追跡方法。
【請求項3】
前記手部検出結果に手部の検出フレームが含まれていることに応答して、前記処理待ち画像における前記検出フレーム内に位置する画像をカッティングすることと、
前記カッティングされた画像に基づいて、前記カッティングされた画像における手部姿勢が目標ジェスチャ中の手部姿勢を満たすと確定することと、をさらに含む
ことを特徴とする請求項1または2に記載の目標追跡方法。
【請求項4】
前記目標ジェスチャ中の手部姿勢は、両手部がいずれも上を向いており、
前記目標追跡方法は、
前記検出フレーム内の画像をジェスチャ分類ニューラルネットワークに入力して、手が上を向いていることまたは手部が他の姿勢であることを含むジェスチャ分類結果を得ることと、
前記手部検出結果中の2つの手部の検出フレームのジェスチャ分類結果が、前記2つの検出フレーム内の2つの手がいずれも上を向いている場合、当該2つの手部の検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たすと確定することと、をさらに含む
ことを特徴とする請求項1乃至3の中のいずれか1項に記載の目標追跡方法。
【請求項5】
前記ジェスチャ分類ニューラルネットワークは、手部画像サンプルを使用して訓練して得られたものであり、前記手部画像サンプルは、手が上を向いている画像サンプルを含み、前記手が上を向いている画像サンプルのラベリング結果は、手部のひらである
ことを特徴とする請求項4に記載の目標追跡方法。
【請求項6】
前記検出フレームの中心点が前記処理待ち画像における予め定義された領域内に位置していることに応答して、前記検出フレーム内の手部が前記処理待ち画像における予め定義された領域内にいると確定することをさらに含む
ことを特徴とする請求項2に記載の目標追跡方法。
【請求項7】
前記予め定義された領域は、前記処理画像内の、前記目標領域における2つのサブ領域にそれぞれ対応する2つの所定のサブ領域を含み、
前記検出フレームの中心点が前記処理待ち画像における予め定義された領域内にいると確定することは、前記処理待ち画像内の2つの検出フレームの中心点がそれぞれ2つの所定のサブ領域内にいると確定することを含む
ことを特徴とする請求項6に記載の目標追跡方法。
【請求項8】
前記処理待ち画像における前記目標手部に基づいてビデオストリーム中で前記目標手部を追跡する前記処理待ち画像における目標手部に基づいて前記ビデオストリーム中で前記目標手部を追跡することは、
前記ビデオストリーム中の1フレーム画像に対して、当該フレーム画像の前の1フレーム画像の第1行列および第2行列に基づいて、当該フレーム画像の第1行列および第2行列を確定することを含み、
ここで、当該1フレーム画像の第1行列は、目標手部の検出フレームの中心の当該フレーム画像における位置情報を含み、当該1フレーム画像の第2行列は、当該フレーム画像の第1行列の共分散行列である
ことを特徴とする請求項1乃至7の中のいずれか1項に記載の目標追跡方法。
【請求項9】
当該フレーム画像の前の1フレーム画像の第1行列および第2行列に基づいて、当該フレーム画像の第1行列および第2行列を確定することは、
当該フレーム画像の手部検出結果に目標手部の検出フレームが含まれていないことに応答して、前の1フレーム画像の第1行列を当該フレーム画像における第1行列として確定することと、修正行列を利用して前の1フレーム画像の第2行列を修正することによって、当該フレーム画像における第2行列を得ることとを含み、
ここで、前記修正行列は、前記前の1フレーム画像の第2行列の共分散行列である
ことを特徴とする請求項8に記載の目標追跡方法。
【請求項10】
当該フレーム画像の前の1フレーム画像の第1行列および第2行列に基づいて、当該フレーム画像の第1行列および第2行列を確定することは、
当該フレーム画像の手部検出結果に目標手部の検出フレームが含まれていることに応答して、当該フレーム画像と前の1フレーム画像との時間間隔に基づいて、前の1フレーム画像の第1行列を利用して当該フレーム画像の第1予測行列および前記第1予測行列の共分散行列である第2予測行列を予測して得ることと、
前記目標手部の検出フレームの位置情報に基づいて当該フレーム画像の第3予測行列および第4予測行列を得ることであって、前記第3予測行列は、目標手部の検出フレームの中心の当該フレーム画像内の予測位置情報を含み、前記第4予測行列は、前記第3予測行列の共分散行列であることと、
前記第2予測行列に対応するガウス分布と前記第4予測行列に対応するガウス分布とを乗算して、新たなガウス分布を得ることと、
得られた新たなガウス分布の平均値に基づいて当該フレーム画像の前記第1行列を確定し、得られた新たなガウス分布の共分散に基づいて当該フレーム画像の前記第2行列を確定することと、を含む
ことを特徴とする請求項8に記載の目標追跡方法。
【請求項11】
前記処理待ち画像は、上面からの視角で収集した前記目標領域の画像である
ことを特徴とする請求項1乃至10の中のいずれか1項に記載の目標追跡方法。
【請求項12】
目標追跡装置であって、
処理待ち画像に対して検出を実行して手部検出結果を得るための検出ユニットと、
前記手部検出結果に手部の検出フレームが含まれていることに応答して、前記検出フレーム内の手部姿勢が目標ジェスチャ中の手部姿勢を満たす手部を目標手部として確定するための確定ユニットと、
前記処理待ち画像における前記目標手部に基づいてビデオストリーム中で前記目標手部を追跡するための追跡ユニットと、を備え、
前記ビデオストリーム中の画像と前記処理待ち画像とは、同一の目標領域を収集して得られたものであり、前記ビデオストリーム中の画像は、前記処理待ち画像を収集した後で収集して得られたものである
ことを特徴とする目標追跡装置。
【請求項13】
電子デバイスであって、
前記電子デバイスは、メモリとプロセッサとを備え、前記メモリは、プロセッサ上で実行できるコンピュータ命令を記憶し、前記プロセッサは、前記コンピュータ命令を実行するときに、請求項1至11の中のいずれか1項に記載の方法を実行するように構成される
ことを特徴とする電子デバイス。
【請求項14】
コンピュータプログラムが記憶されているコンピュータ可読記録媒体であって、
前記プログラムがプロセッサによって実行されるときに、請求項1至11の中のいずれか1項に記載の方法を実行するように構成される
ことを特徴とするコンピュータ可読記録媒体。
【国際調査報告】