IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

特表2022-518745目標の位置取得方法、装置、コンピュータ機器及びコンピュータプログラム
<>
  • 特表-目標の位置取得方法、装置、コンピュータ機器及びコンピュータプログラム 図1
  • 特表-目標の位置取得方法、装置、コンピュータ機器及びコンピュータプログラム 図2
  • 特表-目標の位置取得方法、装置、コンピュータ機器及びコンピュータプログラム 図3
  • 特表-目標の位置取得方法、装置、コンピュータ機器及びコンピュータプログラム 図4
  • 特表-目標の位置取得方法、装置、コンピュータ機器及びコンピュータプログラム 図5
  • 特表-目標の位置取得方法、装置、コンピュータ機器及びコンピュータプログラム 図6
  • 特表-目標の位置取得方法、装置、コンピュータ機器及びコンピュータプログラム 図7
  • 特表-目標の位置取得方法、装置、コンピュータ機器及びコンピュータプログラム 図8
  • 特表-目標の位置取得方法、装置、コンピュータ機器及びコンピュータプログラム 図9
  • 特表-目標の位置取得方法、装置、コンピュータ機器及びコンピュータプログラム 図10
  • 特表-目標の位置取得方法、装置、コンピュータ機器及びコンピュータプログラム 図11
  • 特表-目標の位置取得方法、装置、コンピュータ機器及びコンピュータプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-03-16
(54)【発明の名称】目標の位置取得方法、装置、コンピュータ機器及びコンピュータプログラム
(51)【国際特許分類】
   G06T 7/70 20170101AFI20220309BHJP
   G06T 7/00 20170101ALI20220309BHJP
【FI】
G06T7/70 A
G06T7/00 350B
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021542180
(86)(22)【出願日】2020-04-28
(85)【翻訳文提出日】2021-07-20
(86)【国際出願番号】 CN2020087361
(87)【国際公開番号】W WO2020224479
(87)【国際公開日】2020-11-12
(31)【優先権主張番号】201910371250.9
(32)【優先日】2019-05-06
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】王 ▲寧▼
(72)【発明者】
【氏名】宋 奕兵
(72)【発明者】
【氏名】▲劉▼ 威
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA04
5L096EA35
5L096EA39
5L096FA69
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
本発明は、目標の位置取得方法、装置、コンピュータ機器及び記憶媒体を開示し、コンピュータの技術分野に属する。上記方法は、複数フレームの画像を取得する工程と、位置取得モデルを呼び出す工程であって、位置取得モデルのモデルパラメータが、選択目標の複数フレームのサンプル画像のうちの第1サンプル画像における第1位置及び選択目標の第1サンプル画像における第2位置に基づいてトレーニングして得られる、工程と、位置取得モデルにより、モデルパラメータ及び被検目標の第1画像における位置に基づいて、被検目標の第2画像における位置を特定する工程と、を含む。本発明では、トレーニングして得られた位置取得モデルにより、複数フレームの画像を処理し、被検目標の複数フレームの画像における位置を取得する。位置取得モデルは、関連技術者が手動でマークすることなく、フォワード及びバックワードプロセスで初期モデルをトレーニングすることができ、人件費を低減させ、目標の位置取得プロセス全体の効率を向上させた。
【特許請求の範囲】
【請求項1】
コンピュータ機器が実行する目標の位置取得方法において、
複数フレームの画像を取得する工程であって、前記複数フレームの画像のうちのいずれか1フレームの画像である第1画像が被検目標を含む、工程と、
位置取得モデルを呼び出す工程であって、前記位置取得モデルのモデルパラメータが選択目標の複数フレームのサンプル画像のうちの第1サンプル画像における第1位置及び前記選択目標の前記第1サンプル画像における第2位置に基づいてトレーニングして得られるものであり、前記第2位置が前記選択目標の前記複数フレームのサンプル画像のうちの第2サンプル画像における第3位置に基づいて予測して得られるものであり、前記第3位置が前記第1位置に基づいて予測して得られるものであり、前記選択目標が前記第1サンプル画像内でランダムに選択して得られるものであり、前記第2サンプル画像が前記複数フレームのサンプル画像のうち前記第1サンプル画像とは別のサンプル画像である、工程と、
前記位置取得モデルにより、前記モデルパラメータ及び前記被検目標の前記第1画像における位置に基づいて、前記被検目標の第2画像における位置を特定する工程であって、前記第2画像が前記複数フレームの画像のうち前記第1画像とは別の画像である、工程と、を含む方法。
【請求項2】
前記位置取得モデルにより、前記モデルパラメータ及び前記被検目標の前記第1画像における位置に基づいて、前記被検目標の第2画像における位置を特定する前記工程は、
前記被検目標の前記第1画像における位置、前記第1画像及び前記モデルパラメータに基づいて、画像処理パラメータを取得する工程と、
前記画像処理パラメータに基づいて、前記第2画像を処理し、前記被検目標の前記第2画像における位置を出力する工程と、を含む、請求項1に記載の方法。
【請求項3】
前記被検目標の前記第1画像における位置、前記第1画像及び前記モデルパラメータに基づいて、画像処理パラメータを取得する前記工程は、
前記被検目標の前記第1画像における位置に基づいて、前記被検目標の前記第1画像内の選択位置を示すための前記第1画像に対応する位置指示情報を生成する工程と、
前記第1画像に対応する位置指示情報、前記第1画像及び前記モデルパラメータに基づいて、前記画像処理パラメータを取得する工程と、を含み、
前記画像処理パラメータに基づいて、前記第2画像を処理し、前記被検目標の前記第2画像における位置を出力する前記工程は、
前記画像処理パラメータに基づいて、前記第2画像を処理し、前記被検目標の前記第2画像内の予測位置を示すための前記第2画像に対応する位置指示情報を出力する工程を含む、請求項2に記載の方法。
【請求項4】
前記第1画像に対応する位置指示情報、前記第1画像及び前記モデルパラメータに基づいて、前記画像処理パラメータを取得する前記工程は、
前記モデルパラメータに基づいて、前記第1画像に対して特徴抽出を行い、前記第1画像の画像特徴を得る工程と、
前記第1画像の画像特徴及び前記第1画像に対応する位置指示情報に基づいて、前記画像処理パラメータを取得する工程と、を含み、
前記画像処理パラメータに基づいて、前記第2画像を処理し、前記第2画像に対応する位置指示情報を出力する前記工程は、
前記モデルパラメータに基づいて、前記第2画像に対して特徴抽出を行い、前記第2画像の画像特徴を得る工程と、
前記画像処理パラメータに基づいて、前記第2画像の画像特徴を処理し、前記第2画像に対応する位置指示情報を出力する工程と、を含む、請求項3に記載の方法。
【請求項5】
前記位置取得モデルのトレーニングプロセスは、
複数フレームのサンプル画像を取得する工程と、
初期モデルを呼び出し、前記初期モデルにより、前記選択目標として前記複数フレームのサンプル画像のうちの第1サンプル画像における目標エリアをランダムに選択し、前記選択目標の前記第1サンプル画像における第1位置、前記第1サンプル画像及び第2サンプル画像に基づいて、前記選択目標の前記第2サンプル画像における第3位置を取得し、前記選択目標の前記第2サンプル画像における第3位置、前記第1サンプル画像及び第2サンプル画像に基づいて、前記選択目標の前記第1サンプル画像における第2位置を取得する工程と、
前記選択目標の前記第1サンプル画像における第1位置及び第2位置に基づいて、前記第1位置に対する前記第2位置の誤差値を取得する工程と、
前記誤差値に基づいて、前記初期モデルのモデルパラメータを目標条件に合致するまで調整し、前記位置取得モデルを得る工程と、を含む、請求項1に記載の方法。
【請求項6】
前記選択目標の前記第1サンプル画像における第1位置、前記第1サンプル画像及び第2サンプル画像に基づいて、前記選択目標の前記第2サンプル画像における第3位置を取得する前記工程は、
前記第1位置及び前記第1サンプル画像に基づいて、第1画像処理パラメータを取得する工程と、
前記第1画像処理パラメータに基づいて、前記第2サンプル画像を処理し、前記第3位置を得る工程と、を含み、
前記選択目標の前記第2サンプル画像における第3位置、前記第1サンプル画像及び第2サンプル画像に基づいて、前記選択目標の前記第1サンプル画像における第2位置を取得する前記工程は、
前記第3位置及び前記第2サンプル画像に基づいて、第2画像処理パラメータを取得する工程と、
前記第2画像処理パラメータに基づいて、前記第1サンプル画像を処理し、前記第2位置を得る工程と、を含む、請求項5に記載の方法。
【請求項7】
前記第1位置及び前記第1サンプル画像に基づいて、第1画像処理パラメータを取得する前記工程は、
前記初期モデルのモデルパラメータに基づいて、前記第1サンプル画像に対して特徴抽出を行い、前記第1サンプル画像の画像特徴を得る工程と、
前記第1サンプル画像の画像特徴及び前記第1位置に基づいて、前記第1画像処理パラメータを取得する工程と、を含み、
前記第1画像処理パラメータに基づいて、前記第2サンプル画像を処理し、前記第3位置を得る前記工程は、
前記初期モデルのモデルパラメータに基づいて、前記第2サンプル画像に対して特徴抽出を行い、前記第2サンプル画像の画像特徴を得る工程と、
前記第1画像処理パラメータに基づいて、前記第2サンプル画像の画像特徴を処理し、前記第3位置を得る工程と、を含む、請求項6に記載の方法。
【請求項8】
前記選択目標の前記第1サンプル画像における第1位置、前記第1サンプル画像及び第2サンプル画像に基づいて、前記選択目標の前記第2サンプル画像における第3位置を取得する前記工程は、
前記第1位置に基づいて、前記選択目標の前記第1サンプル画像内の選択位置を指示するための前記第1サンプル画像に対応する第1位置指示情報を生成する工程と、
前記第1位置指示情報、前記第1サンプル画像及び第2サンプル画像に基づいて、前記選択目標の前記第2サンプル画像内の予測位置を示すための前記第2サンプル画像に対応する位置指示情報を取得する工程と、を含み、
前記選択目標の前記第2サンプル画像における第3位置、前記第1サンプル画像及び第2サンプル画像に基づいて、前記選択目標の前記第1サンプル画像における第2位置を取得する前記工程は、
前記第2サンプル画像に対応する位置指示情報、前記第1サンプル画像及び前記第2サンプル画像に基づいて、前記目標の前記第1サンプル画像内の予測位置を示すための前記第1サンプル画像に対応する第2位置指示情報を取得する工程を含む、請求項5から7のいずれか一項に記載の方法。
【請求項9】
前記複数フレームのサンプル画像は、複数のサンプル画像セットを含み、各サンプル画像セットは、1フレームの第1サンプル画像及び少なくとも1フレームの第2サンプル画像を含み、サンプル画像セットごとに、1つの前記誤差値が対応し、
前記誤差値に基づいて、前記初期モデルのモデルパラメータを調整する前記工程は、
前記複数のサンプル画像セットのうちの目標数ごとのサンプル画像セットに対して、前記目標数のサンプル画像セットに対応する複数の誤差値に基づいて、前記初期モデルのモデルパラメータを調整する工程を含む、請求項5に記載の方法。
【請求項10】
前記目標数のサンプル画像セットに対応する複数の誤差値に基づいて、前記初期モデルのモデルパラメータを調整する前記工程は、
前記目標数のサンプル画像セットに対応する複数の誤差値に基づいて、前記複数の誤差値のうち誤差値条件を満たす誤差値を削除し、残りの誤差値に基づいて、前記初期モデルのモデルパラメータを調整する工程、及び
前記目標数のサンプル画像セットに対応する複数の誤差値に基づいて、前記複数の誤差値の第1重みを決定し、前記複数の誤差値の第1重み及び前記複数の誤差値に基づいて、前記複数の誤差値のうち誤差値条件を満たす誤差値の第1重みがゼロになるように、前記初期モデルのモデルパラメータを調整する工程
のいずれか1つを含む、請求項9に記載の方法。
【請求項11】
サンプル画像セットごとに、1つの第2重みが対応し、
前記目標数のサンプル画像セットに対応する複数の誤差値に基づいて、前記初期モデルのモデルパラメータを調整する前記工程は、
各サンプル画像セットの誤差値の第2重みを取得する工程であって、前記第2重みが前記各サンプル画像セット内の前記選択目標の複数フレームのサンプル画像における変位と正の相関関係がある、工程と、
前記目標数のサンプル画像セットに対応する複数の誤差値及び複数の第2重みに基づいて、前記初期モデルのモデルパラメータを調整する工程と、を含む、請求項9又は10に記載の方法。
【請求項12】
コンピュータ機器に応用される目標の位置取得方法において、
複数フレームのサンプル画像を取得する工程と、
初期モデルを呼び出し、前記初期モデルに従って選択目標の前記複数フレームのサンプル画像のうちの第1サンプル画像における第1位置に基づいて、前記選択目標の第2サンプル画像における第3位置を取得し、前記選択目標の第2サンプル画像における第3位置に基づいて、前記選択目標の前記第1サンプル画像における第2位置を取得し、前記第1位置及び前記第2位置に基づいて、前記初期モデルのモデルパラメータを調整し、位置取得モデルを得る工程であって、前記選択目標が前記初期モデルが前記第1サンプル画像内で目標エリアをランダムに選択して得られるものであり、前記第2サンプル画像が前記複数フレームのサンプル画像のうち前記第1サンプル画像とは別のサンプル画像である、工程と、
複数フレームの画像を取得した場合、前記位置取得モデルを呼び出し、前記位置取得モデルに従って被検目標の前記複数フレームの画像における位置を特定する工程と、を含む方法。
【請求項13】
複数フレームの画像を取得するための画像取得モジュールであって、前記複数フレームの画像のうちの第1画像が被検目標を含み、前記第1画像が前記複数フレームの画像のいずれか1フレームの画像である、画像取得モジュールと、
位置取得モデルを呼び出すためのモデル呼び出しモジュールであって、前記位置取得モデルのモデルパラメータが、選択目標の複数フレームのサンプル画像のうちの第1サンプル画像における第1位置及び前記選択目標の前記第1サンプル画像における第2位置に基づいてトレーニングして得られるものであり、前記第2位置が、前記選択目標の前記複数フレームのサンプル画像のうちの第2サンプル画像における第3位置に基づいて予測して得られるものであり、前記第3位置が、前記第1位置に基づいて予測して得られるものであり、前記選択目標が、前記第1サンプル画像内でランダムに選択して得られるものであり、前記第2サンプル画像が、前記複数フレームのサンプル画像のうち前記第1サンプル画像とは別のサンプル画像である、モデル呼び出しモジュールと、
前記位置取得モデルにより、前記モデルパラメータ及び前記被検目標の前記第1画像における位置に基づいて、前記被検目標の第2画像における位置を特定するための位置取得モジュールであって、前記第2画像が、前記複数フレームの画像のうち前記第1画像とは別の画像である、位置取得モジュールと、
を含む、目標の位置取得装置。
【請求項14】
複数フレームのサンプル画像を取得するための画像取得モジュールと、
初期モデルを呼び出し、前記初期モデルに従って選択目標の前記複数フレームのサンプル画像のうちの第1サンプル画像における第1位置に基づいて、前記選択目標の第2サンプル画像における第3位置を取得し、前記選択目標の第2サンプル画像における第3位置に基づいて、前記選択目標の前記第1サンプル画像における第2位置を取得し、前記第1位置及び前記第2位置に基づいて、前記初期モデルのモデルパラメータを調整し、位置取得モデルを得るためのモデルトレーニングモジュールと、
複数フレームの画像を取得した場合、前記位置取得モデルを呼び出し、前記位置取得モデルに従って被検目標の前記複数フレームの画像における位置を特定するための位置取得モジュールと、
を含む、目標の位置取得装置。
【請求項15】
1つ又は複数のプロセッサ及び1つ又は複数のメモリを含み、前記1つ又は複数のメモリに少なくとも1つの指令が記憶されており、前記指令が前記1つ又は複数のプロセッサによりローディングされて実行されることで請求項1から12のいずれか一項に記載の方法で行われる操作が実現される、コンピュータ機器。
【請求項16】
請求項1から12のいずれか一項に記載の方法をコンピュータに実行させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2019年5月6日に中国特許庁に提出された、出願番号が第201910371250.9号であり、出願名が「目標の位置取得方法、装置、コンピュータ機器及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容を引用により本願に組み込む。
【0002】
本発明は、コンピュータの技術分野、特に目標の位置取得技術に関する。
【背景技術】
【0003】
コンピュータ技術の発展につれて、通常、画像を処理して様々の分析結果を得ることができるようになった。例えば、複数フレームの画像を処理し、1フレームの画像内に特定された目標によりこれらの複数フレームの画像を処理し、当該目標の他の画像における位置を取得することにより、当該目標の追跡を実現することができる。
【0004】
現在の目標の位置取得方法は、通常、1フレームの画像内に目標を指定され、目標追跡アルゴリズムに基づいて複数フレームの画像を処理し、当該目標の複数フレームの画像における位置を取得するものである。サンプル画像を使用して目標追跡アルゴリズムをトレーニングする場合、サンプル画像の各フレーム内に目標の実際の位置をマークし、目標追跡アルゴリズムによりサンプル画像の各フレームを計算し、目標の予測位置を特定してから、当該目標の予測位置及びマークされた目標の実際の位置に基づいて、目標追跡アルゴリズムをトレーニングしなければならない。
【0005】
上記の目標の位置取得方法では、サンプル画像の各フレームはすべて目標の実際の位置を手動でマークする必要があり、人件費が高く、画像処理過程が繁雑であるため、上記の目標の位置取得方法は効率が低い。
【発明の概要】
【課題を解決するための手段】
【0006】
本発明の実施例は、関連技術において人件費が高く、処理過程が繁雑で効率が低いという問題を解決できる、目標の位置取得方法、装置、コンピュータ機器及び記憶媒体を提供する。上記の技術方案を以下に示す。
【0007】
一態様では、
複数フレームの画像を取得する工程であって、前記複数フレームの画像のうちのいずれか1フレームの画像である第1画像が被検目標を含む、工程と、
位置取得モデルを呼び出す工程であって、前記位置取得モデルのモデルパラメータが選択目標の複数フレームのサンプル画像のうちの第1サンプル画像における第1位置及び前記選択目標の前記第1サンプル画像における第2位置に基づいてトレーニングして得られるものであり、前記第2位置が前記選択目標の前記複数フレームのサンプル画像のうちの第2サンプル画像における第3位置に基づいて予測して得られるものであり、前記第3位置が前記第1位置に基づいて予測して得られるものであり、前記選択目標が前記第1サンプル画像内でランダムに選択して得られるものであり、前記第2サンプル画像が前記複数フレームのサンプル画像のうち前記第1サンプル画像とは別のサンプル画像である、工程と、
前記位置取得モデルにより、前記モデルパラメータ及び前記被検目標の前記第1画像における位置に基づいて、前記被検目標の第2画像における位置を特定する工程であって、前記第2画像が前記複数フレームの画像のうち前記第1画像とは別の画像である、工程と、を含む目標の位置取得方法を提供する。
【0008】
一態様では、
複数フレームのサンプル画像を取得する工程と、
初期モデルを呼び出し、前記初期モデルに従って選択目標の前記複数フレームのサンプル画像のうちの第1サンプル画像における第1位置に基づいて、前記選択目標の第2サンプル画像における第3位置を取得し、前記選択目標の第2サンプル画像における第3位置に基づいて、前記選択目標の前記第1サンプル画像における第2位置を取得し、前記第1位置及び前記第2位置に基づいて、前記初期モデルのモデルパラメータを調整し、位置取得モデルを得る工程と、
複数フレームの画像を取得した場合、前記位置取得モデルを呼び出し、前記位置取得モデルに従って被検目標の前記複数フレームの画像における位置を特定する工程と、を含む目標の位置取得方法を提供する。
【0009】
一態様では、
複数フレームの画像を取得するための画像取得モジュールであって、前記複数フレームの画像のうちの第1画像が被検目標を含み、前記第1画像が前記複数フレームの画像のいずれか1フレームの画像である、画像取得モジュールと、
位置取得モデルを呼び出すためのモデル呼び出しモジュールであって、前記位置取得モデルのモデルパラメータが、選択目標の複数フレームのサンプル画像のうちの第1サンプル画像における第1位置及び前記選択目標の前記第1サンプル画像における第2位置に基づいてトレーニングして得られるものであり、前記第2位置が、前記選択目標の前記複数フレームのサンプル画像のうちの第2サンプル画像における第3位置に基づいて予測して得られるものであり、前記第3位置が、前記第1位置に基づいて予測して得られるものであり、前記選択目標が、前記第1サンプル画像内でランダムに選択して得られるものであり、前記第2サンプル画像が、前記複数フレームのサンプル画像のうち前記第1サンプル画像とは別のサンプル画像である、モデル呼び出しモジュールと、
前記位置取得モデルにより、前記モデルパラメータ及び前記被検目標の前記第1画像における位置に基づいて、前記被検目標の第2画像における位置を特定するための位置取得モジュールであって、前記第2画像が、前記複数フレームの画像のうち前記第1画像とは別の画像である、位置取得モジュールと、を含む目標の位置取得装置を提供する。
【0010】
一態様では、
複数フレームのサンプル画像を取得するための画像取得モジュールと、
初期モデルを呼び出し、前記初期モデルに従って選択目標の前記複数フレームのサンプル画像のうちの第1サンプル画像における第1位置に基づいて、前記選択目標の第2サンプル画像における第3位置を取得し、前記選択目標の第2サンプル画像における第3位置に基づいて、前記選択目標の前記第1サンプル画像における第2位置を取得し、前記第1位置及び前記第2位置に基づいて、前記初期モデルのモデルパラメータを調整し、位置取得モデルを得るためのモデルトレーニングモジュールと、
複数フレームの画像を取得した場合、前記位置取得モデルを呼び出し、前記位置取得モデルに従って被検目標の前記複数フレームの画像における位置を特定するための位置取得モジュールと、を含む目標の位置取得装置を提供する。
【0011】
一態様では、1つ又は複数のプロセッサ及び1つ又は複数のメモリを含み、前記1つ又は複数のメモリに少なくとも一つの指令が記憶されており、前記指令が前記1つ又は複数のプロセッサによりローディングされて実行されることで前記目標の位置取得方法で行われる操作が実現される、コンピュータ機器を提供する。
【0012】
一態様では、少なくとも一つの指令が記憶されており、前記指令がプロセッサによりローディングされて実行されることで前記目標の位置取得方法で行われる操作が実現される、コンピュータ読み取り可能な記憶媒体を提供する。
【0013】
本発明の実施例では、トレーニングして得られた位置取得モデルによって複数フレームの画像を処理することで、目標の複数フレームの画像における位置を取得し、当該位置取得モデルは、フォワード及びバックワードプロセスでトレーニングすることで得ることができ、フォワードプロセスを介して、選択目標の第1サンプル画像における第1位置により選択目標の第2サンプル画像における第3位置を予測することができ、バックワードプロセスを介して、第3位置により選択目標の第1サンプル画像における第2位置を予測することができる。選択目標は、第1サンプル画像内でランダムに選択して得られるものであり、選択した位置が決まっているため、第1位置は、選択目標の実際の位置である。選択目標の第1サンプル画像における第1位置及び第2位置を利用することで、第1位置と第2位置との間の誤差値により初期モデルのモデルパラメータの正確性を反映することができる。よって、関連技術者が手動でマークすることなく、第1位置及び第2位置により初期モデルをトレーニングすることができ、人件費を効果的に低減させ、モデルのトレーニング効率を向上させることができ、画像の処理過程が簡単になり、目標の位置取得プロセス全体の効率を効果的に向上させた。
【0014】
本発明の実施例における技術方案をより明確に説明するために、以下では、実施例の説明に必要な図面を簡単に紹介する。以下に述べる図面は本発明の幾つかの実施例に関するものに過ぎず、当業者にとって、創造的労働を経ずにこれらの図に基づいて他の図を得ることもできることは自明である。
【図面の簡単な説明】
【0015】
図1】本発明の実施例で提供される目標の位置取得方法の実施環境の模式図である。
図2】本発明の実施例で提供される位置取得モデルのトレーニング方法のフローチャートである。
図3】本発明の実施例で提供される複数フレームのサンプル画像の取得過程の模式図である。
図4】本発明の実施例で提供されるトレーニングデータの模式図である。
図5】本発明の実施例で提供される位置取得モデルのトレーニングフローチャートである。
図6】本発明の実施例で提供される、取得された異なるサンプル画像セットの比較図である。
図7】本発明の実施例で提供される目標の位置取得方法のフローチャートである。
図8】本発明の実施例で提供される目標の位置取得方法のフローチャートである。
図9】本発明の実施例で提供される目標の位置取得装置の構造模式図である。
図10】本発明の実施例で提供される目標の位置取得装置の構造模式図である。
図11】本発明の実施例で提供される端末の構造模式図である。
図12】本発明の実施例で提供されるサーバの構造模式図である。
【発明を実施するための形態】
【0016】
本発明の目的、技術方案及び利点をより明確にするために、以下では、図面を参照しながら本発明の実施方式をさらに詳しく説明する。
【0017】
図1は、本発明の実施例で提供される目標の位置取得方法の実施環境を示す。図1に示すように、この実施環境は、少なくとも1つのコンピュータ機器を含んでもよい。これらの複数のコンピュータ機器は、有線接続によりデータインタラクションを実現してもよく、ネットワーク接続によりデータインタラクションを実現してもよく、本発明の実施例では、これを限定しない。
【0018】
1つの可能な実施形態では、当該少なくとも1つのコンピュータ機器は、コンピュータ機器101及びコンピュータ機器102を含んでもよい。コンピュータ機器101は、複数フレームの画像を処理し、目標の当該複数フレームの画像における位置を取得するために用いることができる。コンピュータ機器102は、複数フレームの画像を収集したり、ビデオを撮影したりして、収集した画像やビデオをコンピュータ機器101に送信し、コンピュータ機器101により画像やビデオを処理し、目標の追跡を行うために用いることができる。
【0019】
別の可能な実施形態では、当該少なくとも1つのコンピュータ機器は、コンピュータ機器101のみを含んでもよい。当該コンピュータ機器は、複数フレームの画像を収集したり、ビデオを撮影したりなどして、収集した複数フレームの画像、又は撮影したビデオに対して画像抽出などの処理をした複数フレームの画像、又はダウンロードした複数フレームの画像、又はダウンロードしたビデオに対して画像抽出などの処理をした複数フレームの画像をさらに処理し、目標の当該複数フレームの画像における位置を特定し、目標の追跡を実現することができる。本発明の実施例では、目標の位置取得方法の応用場面を限定しない。
【0020】
なお、当該目標の位置取得方法は、様々な目標追跡の場面に応用できる。例えば、画像やビデオにおける場面の分析に応用でき、また、監視装置による目標の追跡に応用でき、さらに、マンマシンインタラクションの場面に応用できる。当然、本発明の実施例で提供される目標の位置取得方法の応用場面は、これらに限定されず、他の場面にも応用でき、ここでは一つ一つ列挙しない。目標は、人間でもよいし、物でもよく、応用場面によっては、目標が異なる可能性があり、例えば、室内監視の場面には、目標は、人間でもよく、道路監視の場面には、目標は、車等でもよい。当該コンピュータ機器101及びコンピュータ機器102は、いずれも端末として提供されてもよく、サーバとして提供されてもよく、本発明の実施例では、これを限定しない。
【0021】
本願の実施例で提供される目標の位置取得方法は、人工知能に基づいて実現するものであることを強調しなければならない。人工知能(Artificial Intelligence、AI)は、デジタルコンピュータ又はデジタルコンピュータによって制御されるマシンを使用して人間の知能のシミュレーション、延長及び拡張を行い、環境を感知し、知識を獲得して使用し、最適結果を得る理論、方法、技術及び応用システムである。換言ずれば、人工知能は、コンピュータサイエンスの包括的な技術の1種であり、知能の本質を理解し、人間の知能と同様に反応できる新しいインテリジェントマシンを製造しようとする。つまり、人工知能は、各種のインテリジェントマシンが感知、推論及び意思決定の機能を有するようにその設計原理と実現方法を研究するものである。
【0022】
人工知能技術は、ハードウェアレベルの技術だけでなくソフトウェアレベルの技術も含む幅広い分野をカバーする包括的な学問である。人工知能の基礎技術は、一般的に、センサ、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理技術、オペレーティング/インタラクションシステム、メカトロニクスなどのような技術を含む。人工知能ソフトウェア技術は、主にコンピュータビジョン技術、音声技術、自然言語処理技術及び機械学習/深層学習などの幾つかの分野を含む。
【0023】
本願実施例で提供される方案は、人工知能の機械学習/深層学習、コンピュータビジョンなどの技術に関する。本願の実施例では、例えば機械学習により位置取得モデルをトレーニングし、さらにトレーニングして得られた位置取得モデルを利用して被検目標の複数フレームの画像における位置を特定する。
【0024】
機械学習(Machine Learning、ML)は、概率論、統計学、近似理論、凸解析、アルゴリズム複雑性理論などの多種類の学問に関わる学際的な学問である。新しい知識や技術を獲得し、既存の知識構造を再編成して自身の性能を継続的に改善するために、コンピュータが如何に人間の学習行為をシミュレートまたは実現するかを専門に研究している。機械学習は、人工知能の中核であり、コンピュータをインテリジェントにするための基本的な方法であり、人工知能の各分野に応用できる。機械学習及び深層学習は、通常、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納学習、教育学習などの技術を含む。
【0025】
位置取得モデルのトレーニング又は目標の位置取得プロセスにおいて、コンピュータビジョン技術にも関与する場合がある。コンピュータビジョン技術(Computer Vision, CV)は、如何にマシンを「見させる」かを研究する学問であり、具体的には、人の目に代わりにカメラ及びコンピュータを使用して目標の識別、追跡及び測定等を行うマシンビジョンであり、さらに、画像が人の目の観察や計器へ伝送と検出により適するようにコンピュータによる図形処理を行う。1つの学問としてのコンピュータビジョン研究に関連する理論と技術は、画像や多次元データから情報を取得できる人工知能システムを構築しようとする。
【0026】
本願の実施例は、例えばコンピュータビジョン技術における画像処理、画像意味理解などの技術に関する。例えば識別される画像又はトレーニングサンプルなどのような画像を取得した後、例えば目標選択、及び画像意味理解技術による画像の特徴抽出などの画像処理を行う。
【0027】
図2は本発明の実施例で提供される位置取得モデルのトレーニング方法のフローチャートである。当該位置取得モデルのトレーニング方法は、コンピュータ機器に応用でき、当該コンピュータ機器は、端末として提供されてもよく、サーバとして提供されてもよく、本発明の実施例では、これを限定しない。図2に示すように、この方法は、以下のステップを含むことができる。
【0028】
ステップ201:コンピュータ機器は、複数フレームのサンプル画像を取得する。
【0029】
本発明の実施例では、コンピュータ機器は、複数フレームのサンプル画像を取得し、複数フレームのサンプル画像に基づいて初期モデルをトレーニングし、位置取得モデルを得ることができる。当該位置取得モデルは、そのうちの1フレームの画像内に特定された被検目標に基づいて、当該複数フレームの画像を処理し、当該被検目標の当該複数フレームの画像のうちの各フレームの画像における位置を取得することができる。
【0030】
コンピュータ機器は、複数フレームのサンプル画像を取得し、当該複数フレームのサンプル画像をトレーニングサンプルとして使用し、初期モデルをトレーニングすることができる。本発明の実施例では、当該複数フレームのサンプル画像に対して、関連技術者が手動で目標をマークする必要がない。コンピュータ機器により当該複数フレームのサンプル画像を直接処理し、初期モデルをトレーニングすることで、教師なし学習プロセスを実現し、人件費を低減させ、モデルのトレーニング効率を向上させることができる。
【0031】
1つの可能な実施形態では、当該複数フレームのサンプル画像は、複数のサンプル画像セットを含み、各サンプル画像セットは、1フレームの第1サンプル画像及び少なくとも1フレームの第2サンプル画像を含み、当該第2サンプル画像は、当該第1サンプル画像とは別のサンプル画像である。
【0032】
例えば、当該第1サンプル画像は、テンプレート画像として使用してもよい。当該テンプレート画像とは、一つの選択目標を取得するためのサンプル画像である。第2サンプル画像は、検索画像として使用してもよい。当該検索画像とは、当該選択目標の位置を検索できるサンプル画像であり、即ち、テンプレート画像内で選択された選択目標に基づいて当該選択目標の当該検索画像における位置を取得することができる。この実施形態では、各サンプル画像セットは、一つのトレーニングサンプルセットであり、各サンプル画像セットにおける複数フレームのサンプル画像(1フレームの第1サンプル画像及び少なくとも1フレームの第2サンプル画像)には、同じ選択目標が含まれる。コンピュータ機器は、当該選択目標を追跡し、当該選択目標の各フレームのサンプル画像における位置を取得することができる。
【0033】
例えば、各サンプル画像セットは、1フレームの第1サンプル画像及び2フレームの第2サンプル画像を含むことができる。例えば、一つのビデオファイルにおける隣接する10フレームから3フレームを選択でき、そのうちの1フレームを当該第1サンプル画像として使用し、その他の2フレームを第2サンプル画像として使用する。つまり、選択された選択目標が当該10フレームという短い期間内で特定のエリア外に移動しないとする。複数フレームの第2サンプル画像を取得することにより、1フレームの第1サンプル画像及び1フレームの第2サンプル画像に基づく処理の際に、偶然得られた結果の誤差値が高いことを回避できるが、実際には、その処理プロセスにおける中間データが間違っているので、トレーニングサンプルを増やすことにより、このような偶発的な状況を減らすことができ、エラーの累積を拡大して修正することもでき、よって、位置取得モデルの安定性および誤差値を高めることができる。
【0034】
当該コンピュータ機器が当該複数フレームのサンプル画像を取得するプロセスは、複数の方法を採用することができる。一態様では、当該複数フレームのサンプル画像は、当該コンピュータ機器に記憶されてもよく、他のコンピュータ機器に記憶されてもよい。当該コンピュータ機器は、ローカルストレージファイルから当該複数フレームのサンプル画像を取得してもよく、他のコンピュータ機器へ画像取得要求を送信してもよく、この場合、当該他のコンピュータ機器が当該画像取得要求に従って当該コンピュータ機器へ当該複数フレームのサンプル画像を送信することにより、当該コンピュータ機器が当該複数フレームのサンプル画像を取得する。本発明の実施例では、これを限定しない。
【0035】
別の態様では、コンピュータ機器は、複数フレームのサンプル画像を直接取得してもよく、ビデオファイルから当該複数フレームのサンプル画像を抽出してもよい。当該複数フレームのサンプル画像は、画像データベースに記憶されてもよく、この場合、当該コンピュータ機器は、画像データベースから当該複数フレームのサンプル画像を取得することができる。当該複数フレームのサンプル画像の位置するビデオファイルは、ビデオデータベースに記憶されてもよく、この場合、コンピュータ機器は、ビデオデータベースから少なくとも1つのビデオファイルを取得し、少なくとも1つのビデオファイルから当該複数フレームのサンプル画像を抽出することができる。本発明の実施例では、これを限定しない。例えば、一例では、当該複数フレームのサンプル画像は、ビジョン識別用のデータセットであるILSVRC 2015に由来してもよい。当該コンピュータ機器は、ネットワークからビデオファイルをダウンロードし、画像抽出を行うこともできる。本発明のサンプル画像は、タグ付きデータを必要としなく、手動でマークする必要がないため、当該複数フレームのサンプル画像を非常に容易に取得できる。本発明の実施例では、採用する方法を限定しない。
【0036】
一つの可能な実施例では、当該複数フレームのサンプル画像は、抽出又は取得された画像の切り抜き画像であってもよい。コンピュータ機器は、上記のように複数フレームの画像を抽出又は取得した後、当該複数フレームの画像を切り抜き、当該複数フレームのサンプル画像を得ることができる。コンピュータ機器による切り抜きの際に、複数フレームの画像の中心を基準にして、当該複数フレームの画像から当該中心を中心点とする目標エリアを切り抜き、当該複数フレームのサンプル画像を得ることができる。
【0037】
例えば、図3に示すように、当該複数フレームのサンプル画像が複数のサンプル画像セットを含み、各サンプル画像セットが3フレームのサンプル画像を含む場合を例にとると、コンピュータ機器は、マークされていないビデオの画像シーケンスから3フレームの画像を抽出し、当該3フレームの画像の中心エリア(例えば図3に長方形のボックスで示されるエリア)を切り抜き、3フレームのサンプル画像を得ることができる。当該3フレームのサンプル画像には、テンプレート画像及び検索画像ブロックが含まれてもよい。当該テンプレート画像は、第1サンプル画像であり、検索画像ブロックは、検索画像であり、即ち第2サンプル画像である。当該図3には、1つのサンプル画像セットを取得するプロセスのみが示されており、コンピュータ機器は、同様な方式で大量のサンプル画像を取得し、初期モデルをトレーニングすることができる。上記のサンプル画像取得プロセスは、選択目標が短い期間(10フレーム)内で特定のエリア(画像の中心エリア)外に移動しないという基本的な仮説に基づいて実現するものである。理想的には、画像の中心エリアには、完全な選択目標が存在してもよいが、多くの場合は、中心エリアには、局所的な選択目標、さらに目標の輪郭、背景オブジェクト等が含まれる可能性がある。図4には、ランダムに収集された幾つかのトレーニングデータが示されており、図4には、計28個の画像が含まれ、各画像は、それぞれある目標について収集された1フレームの画像の例であり、トレーニングデータとしてのこれらの画像は、選択目標を含み、当該選択目標は、人間でもよいし、物でもよい。各画像は、1つのトレーニングデータであり、例えば図4に破線ボックスで示される画像は1つのトレーニングデータであり、当該画像内では、選択目標はヒツジであってもよい。ここでは、各画像について一々繰り返して述べない。これらの選択目標は、画像の中心エリアに比較的に近く、できるだけ選択目標が短い期間内で特定のエリア外に移動しないようにする。このような状況については、後続の画像処理プロセスでも関連するデザインがあるため、ここでは、繰り返して述べない。
【0038】
ステップ202:コンピュータ機器は、初期モデルを呼び出し、初期モデルに従って当該複数フレームのサンプル画像のうちの第1サンプル画像における目標エリアを選択目標としてランダムに選択する。
【0039】
コンピュータ機器が複数フレームのサンプル画像を取得した後に、初期モデルを呼び出し、当該複数フレームのサンプル画像に基づいて、初期モデルをトレーニングすることができる。なお、当該初期モデルのモデルパラメータは、初期値であり、当該初期モデルは、モデルパラメータに基づいて当該複数フレームのサンプル画像を処理し、ある目標の当該複数フレームのサンプル画像における位置を予測することができる。得られた予測結果が正確ではない可能性があるため、コンピュータ機器は、当該トレーニングプロセスにおいて当該初期モデルのモデルパラメータを調整し、初期モデルによる画像処理の誤差値を高めることができる。これによって、最終的にトレーニングして得られた位置取得モデルは、画像に対して誤差値の高い処理を行うことができる。
【0040】
したがって、コンピュータ機器は、当該ステップ202を実行し、複数フレームのサンプル画像を初期モデルに入力することができる。当該複数フレームのサンプル画像が手動でマークされておらず、当該複数フレームのサンプル画像には、決められた目標が含まれていないため、初期モデルは、第1サンプル画像から目標エリアを選択目標としてランダムに選択し、さらに当該選択目標に対して、予測によりその第2サンプル画像における位置を引き続き取得し、後続のトレーニングプロセスを行うことができる。
【0041】
なお、当該コンピュータ機器が目標エリアをランダムに選択するプロセスは、乱択アルゴリズムにより実現することができる。当該乱択アルゴリズムは、関連技術者が必要に応じて設定することができ、本発明の実施例では、これを限定しない。
【0042】
ステップ203:コンピュータ機器における初期モデルは、当該選択目標の当該第1サンプル画像における第1位置、当該第1サンプル画像及び第2サンプル画像に基づいて、当該選択目標の当該第2サンプル画像における第3位置を取得する。
【0043】
コンピュータ機器が第1サンプル画像内で選択目標を特定した後、当該選択目標に基づいてその第2サンプル画像における位置、例えば第3位置を引き続き取得することができる。コンピュータ機器が第1サンプル画像内で当該選択目標を特定し、当該選択目標の第1サンプル画像における第1位置が実際の位置であるため、コンピュータ機器は、それを実際のデータとして後続の予測データの誤差値を判定することができると理解できる。詳しくは下記のステップ203~ステップ205を参照されたい。本発明の実施例においては、ここで繰り返して述べない。
【0044】
コンピュータ機器における初期モデルは、当該選択目標の第1サンプル画像における第1位置に基づいて、当該第1サンプル画像及び第2サンプル画像を処理し、当該選択目標の当該第2サンプル画像における第3位置、即ち予測位置を取得することができる。例えば、当該予測プロセスは、フォワードプロセスでもよく、この場合に、コンピュータ機器は、当該目標の第1サンプル画像における第1位置に基づいて、目標の第2サンプル画像における第3位置を予測し、目標追跡プロセスを実現することができる。1つの可能な実施形態では、当該予測プロセスは、下記のステップ1及びステップ2により実現できる。
【0045】
ステップ1:コンピュータ機器における初期モデルは、当該目標の当該第1サンプル画像における第1位置及び当該第1サンプル画像に基づいて、第1画像処理パラメータを取得する。
【0046】
このステップ1において、コンピュータ機器における初期モデルは、処理前のデータ及び処理結果が既知の場合に、第1画像処理パラメータを決定する。当該第1画像処理パラメータは、当該選択目標の当該第1サンプル画像における第1位置を取得するために第1サンプル画像を処理する方法を示すためのものである。このように得られた当該第1画像処理パラメータは、第2サンプル画像に対して同様な処理を行い、選択目標の第2サンプル画像における第3位置を取得するために用いることができる。
【0047】
1つの可能な実施形態では、コンピュータ機器における初期モデルは、第1サンプル画像の画像特徴を抽出してから、画像特徴を処理することができる。当該ステップ1において、コンピュータ機器における初期モデルは、当該初期モデルのモデルパラメータに基づいて、当該第1サンプル画像に対して特徴抽出を行い、当該第1サンプル画像の画像特徴を取得することができる。コンピュータ機器における初期モデルは、当該第1サンプル画像の画像特徴及び当該選択目標の当該第1サンプル画像における第1位置に基づいて、第1画像処理パラメータを取得する。コンピュータ機器における初期モデルは、第1画像処理パラメータに基づいて第1サンプル画像の画像特徴を処理した結果、当該選択目標の第1サンプル画像における第1位置を取得する必要がある。
【0048】
ステップ2:コンピュータ機器における初期モデルは、当該第1画像処理パラメータに基づいて、第2サンプル画像を処理し、当該選択目標の当該第2サンプル画像における第3位置を取得する。
【0049】
当該ステップ2において、コンピュータ機器における初期モデルが第1画像処理パラメータを決定した後、サンプル画像を処理する方法を知っているため、第2サンプル画像に対して同様な処理を行い、選択目標の第2サンプル画像における第3位置を予測することができる。
【0050】
ステップ1においてコンピュータ機器における初期モデルが第1サンプル画像の画像特徴を抽出してから画像特徴を処理することができる実施形態では、コンピュータ機器における初期モデルは、当該初期モデルのモデルパラメータに基づいて、当該第2サンプル画像に対して特徴抽出を行い、当該第2サンプル画像の画像特徴を取得することができる。コンピュータ機器は、当該第1画像処理パラメータに基づいて、当該第2サンプル画像の画像特徴を処理し、当該選択目標の当該第2サンプル画像における第3位置を取得する。
【0051】
一つの可能な実施例では、当該選択目標の当該第1サンプル画像における第1位置は、位置指示情報として表され得るため、当該ステップ203において、コンピュータ機器における初期モデルは、当該選択目標の当該第1サンプル画像における第1位置に基づいて、当該選択目標の当該第1サンプル画像における第1位置を指示するための当該第1サンプル画像に対応する第1位置指示情報を生成することができる。その後、コンピュータ機器における初期モデルは、当該第1位置指示情報、当該第1サンプル画像及び第2サンプル画像に基づいて、当該選択目標の当該第2サンプル画像における第3位置を示すための当該第2サンプル画像に対応する位置指示情報を取得することができる。
【0052】
それに応じて、上記のステップ2において、コンピュータ機器における初期モデルは、当該第1画像処理パラメータに基づいて、当該第2サンプル画像の画像特徴を処理する際に、当該第2サンプル画像に対応する位置指示情報を取得することができる。一つの可能な実施例では、当該初期モデルは、第1画像処理パラメータ及び第2サンプル画像の画像特徴を畳み込み、当該第2サンプル画像に対応する位置指示情報を取得することができる。
【0053】
1つの可能な実施形態では、第1位置指示情報及び第2サンプル画像に対応する位置指示情報は、応答グラフであり得る。当該応答グラフのピークの存在する位置は、当該選択目標の存在する位置である。例えば、当該応答グラフは、マトリックスでもよく、当該マトリックスにおける各数値は、1つ又は複数のピクセルを表すためのものであってもよい。実際には、上記のプロセスは、以下のように行ってもよい。コンピュータ機器における初期モデルが選択目標を取得した後に、第1サンプル画像及び当該選択目標の当該第1サンプル画像における第1位置に基づいて、第1位置指示情報を生成することができ、当該第1位置指示情報は当該第1サンプル画像の実際のタグであり、コンピュータ機器における初期モデルは、モデルパラメータに基づいて、第1サンプル画像に対して特徴抽出を行い、第1サンプル画像の画像特徴を取得する。元々、当該コンピュータ機器は、第1画像処理パラメータに基づいて、当該第1サンプル画像の画像特徴を処理し、当該第1位置指示情報(応答グラフ、実際のタグ)を取得する必要があるが、現在、第1サンプル画像の画像特徴を処理し、また、当該第1位置指示情報が既知であるため、第1画像処理パラメータを求めてから、第2サンプル画像に対して特徴抽出を行い、第2サンプル画像の画像特徴を取得し、求めた第1画像処理パラメータに基づいて、第2サンプル画像の画像特徴を処理し、当該第2サンプル画像に対応する位置指示情報、即ち応答グラフを取得することができる。
【0054】
一つの可能な実施例では、当該第1位置指示情報は、ガウス型の応答グラフでもよい。当該第2サンプル画像に対応する位置指示情報は、不規則であるためガウス型の応答グラフではない可能性がある。
【0055】
例えば、当該初期モデルは、一方のパスが第1サンプル画像を処理するために使用され、他方のパスが第2サンプル画像を処理するために使用されるデュアルパスネットワークを含んでもよい。上記の第1画像処理パラメータは、関連フィルタにおける係数であってもよい。これを例にとると、当該ステップ203におけるプロセスは、図5(a)及び(b)に示すように、第1サンプル画像がテンプレート画像、テンプレート画像ブロックであり、第2サンプル画像が検索画像、検索画像ブロックであり、初期タグが第1位置指示情報であり、応答グラフが第2サンプル画像に対応する位置指示情報である場合に、初期モデルは、テンプレート画像内で選択目標を特定してから、当該初期タグを生成し、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)に基づいて、テンプレート画像に対して特徴抽出及び特徴表現を行うことで、初期タグ及びテンプレート画像の画像特徴に基づいて、関連フィルタにおける係数を求めることができる。初期モデルは、検索画像に対して特徴抽出を行い、その後、当該関連フィルタの係数及び検索画像の画像特徴を畳み込み、応答グラフを得ることができる。当該応答グラフのピークの存在する位置は、当該選択目標の第2サンプル画像における第3位置である。
【0056】
なお、本発明の実施例では、初期モデルによるテンプレート画像及び検索画像の特徴抽出ステップのタイミングと順序を制限せず、同時に実行してもよく、順次に実行してもよい。当該初期モデル及び最終的に得られる位置取得モデルは、極めて軽量レベルのものである。例えば、2つの畳み込み層のみを含んでもよい。CNNフィルタのサイズは、3×3×32×32と3×3×32×32にすることができる。当然、最後のレイヤには、局所的な応答正規化を実行してもよい。この軽量レベルのネットワーク構造は、目標の追跡効率を非常に高くすることができる。1つの可能な実施形態では、フォワード及びバックワードの教師なしモデルに基づいて、汎用の特徴表現を学習し、トレーニングの完了後に良好な目標追跡を実現することもできる。
【0057】
1つの可能な実施形態では、当該初期モデルが第1画像処理パラメータを取得するプロセスは、下記の式1により実現できる。
【0058】
【数1】
【0059】
ただし、
【数2】
はCNNの特徴抽出操作を表し、ただし、θはネットワークが学習する必要のあるモデルパラメータであり、Yは第1サンプル画像の第1位置指示情報、即ち初期タグである。Wは第1画像処理パラメータ、即ち例における関連フィルタの係数であり、λは正則化パラメータであり、
【数3】
は要素間のドット積操作であり、
【数4】
は離散フーリエ変換であり、
【数5】
は離散フーリエ逆変換であり、
【数6】
は複素共役を表す。当該演算プロセスは、フーリエ領域で実行されるものである。Tは第1サンプル画像を識別するためのものである。
【0060】
初期モデルが第1画像処理パラメータWを得た後に、第2サンプル画像を処理することができる。当該処理プロセスは、下記の式2により実現できる。
【0061】
【数7】
【0062】
ただし、Rは第2サンプル画像に対応する位置指示情報であり、即ち上記の例における第2サンプル画像に対応する応答グラフであり、Wは第1画像処理パラメータ、即ち例における関連フィルタの係数であり、
【数8】
は離散フーリエ変換であり、
【数9】
は離散フーリエ逆変換であり、
【数10】
は複素共役を表し、
【数11】
は要素間のドット積操作である。Tは、第1サンプル画像を識別するためのものであり、Sは、第2サンプル画像を識別するためのものである。
【数12】
はCNNの特徴抽出操作を表す。
【0063】
ステップ204:コンピュータ機器における初期モデルは、当該選択目標の当該第2サンプル画像における第3位置、当該第1サンプル画像、及び当該複数フレームのサンプル画像のうち当該第1サンプル画像とは別のサンプル画像である第2サンプル画像に基づいて、当該選択目標の当該第1サンプル画像における第2位置を取得する。
【0064】
上記のステップでは、コンピュータ機器は、選択目標の第1サンプル画像における第1位置に基づいて、フォワードプロセスにより、選択目標の第2サンプル画像における第3位置を取得した後に、当該選択目標の第2サンプル画像における第3位置を第2サンプル画像の擬似タグとすることができる。つまり、当該選択目標の第2サンプル画像における第3位置が実際のデータではないが、それを実際のデータとして、バックワードプロセスを行うことで、当該選択目標の当該第1サンプル画像における第2位置を取得することができる。当該バックワードプロセスは、第1サンプル画像と第2サンプル画像を互いに入れ替え、第2サンプル画像をテンプレート画像とし、第1サンプル画像を検索画像としてバックワード予測を行うことを除いて、上記のフォワード画像処理プロセスと同様に実行される。
【0065】
上記のステップ203の記載と同様に、当該ステップ204も下記のステップ1及びステップ2により実現できる。
【0066】
ステップ1:コンピュータ機器における初期モデルは、当該選択目標の当該第2サンプル画像における第3位置及び当該第2サンプル画像に基づいて、当該第2画像処理パラメータを取得する。
【0067】
当該ステップ1は、第1サンプル画像と第2サンプル画像を入れ替え、第2サンプル画像をテンプレート画像とし、第1サンプル画像を検索画像とすることを除いて、上記のステップ203におけるステップ1と同様に処理プロセスを行う。当該第2画像処理パラメータは、選択目標の当該第2サンプル画像における第2位置を取得するために第2サンプル画像を処理する方法を示すためのものである。
【0068】
上記のステップ203におけるステップ1と同様に、コンピュータ機器における初期モデルは、画像特徴を抽出してから、さらに画像特徴を処理することもできる。具体的には、コンピュータ機器における初期モデルは、当該初期モデルのモデルパラメータに基づいて、当該第2サンプル画像に対して特徴抽出を行い、当該第2サンプル画像の画像特徴を取得することができる。コンピュータ機器における初期モデルは、当該第2サンプル画像の画像特徴及び当該選択目標の当該第2サンプル画像における第3位置に基づいて、第2画像処理パラメータを取得する。
【0069】
ステップ2:コンピュータ機器における初期モデルは、当該第2画像処理パラメータに基づいて、当該第1サンプル画像を処理し、当該目標の当該第1サンプル画像における第2位置を取得する。
【0070】
当該ステップ2は、第1サンプル画像と第2サンプル画像を入れ替え、第2サンプル画像をテンプレート画像とし、第1サンプル画像を検索画像とすることを除いて、上記のステップ203におけるステップ2と同様に処理プロセスを行う。
【0071】
上記のステップ203におけるステップ1と同様に、コンピュータ機器における初期モデルは、当該初期モデルのモデルパラメータに基づいて、当該第1サンプル画像に対して特徴抽出を行い、当該第1サンプル画像の画像特徴を取得することもできる。コンピュータ機器は、当該第2画像処理パラメータに基づいて、当該第1サンプル画像の画像特徴を処理し、当該選択目標の当該第1サンプル画像における第2位置を取得する。
【0072】
上記のステップ203に示す一実施形態では、選択目標の画像における位置は、位置指示情報で表され得る。当該ステップ204では、コンピュータ機器における初期モデルは、当該第2サンプル画像に対応する位置指示情報、当該第1サンプル画像及び当該第2サンプル画像に基づいて、当該選択目標の当該第1サンプル画像における第2位置を示すための当該第1サンプル画像に対応する第2位置指示情報を取得することもできる。
【0073】
例えば、上記の画像特徴を抽出してから処理する方法及び位置指示情報による方法を同時に採用する際に、当該ステップ204は、以下のように実行してもよい。コンピュータ機器における初期モデルは、モデルパラメータに基づいて、第2サンプル画像に対して特徴抽出を行い、第2サンプル画像の画像特徴を取得し、当該画像特徴及び当該第2サンプル画像に対応する位置指示情報(当該選択目標の第2サンプル画像における第3位置)に基づいて、第2画像処理パラメータを取得し、その後、第1サンプル画像に対して特徴抽出を行い、第1サンプル画像の画像特徴を取得し、第2画像処理パラメータに基づいて、第1サンプル画像の画像特徴を処理し、当該第1サンプル画像に対応する第2位置指示情報(当該選択目標の第1サンプル画像における第2位置)を取得する。
【0074】
なお、ステップ203はフォワードプロセスであり、ステップ204はバックワードプロセスである。フォワード及びバックワードプロセスにより、当該選択目標の第1サンプル画像における第1位置(実際の位置)に基づいて、第2サンプル画像による遷移によって、当該選択目標の第1サンプル画像における第2位置(予測位置)を得て、当該第1位置及び第2位置に基づいて、当該初期モデルによる画像処理の誤差値を知ることができる。例えば、図5(b)に示すように、ステップ203は、フォワード追跡プロセスに対応し、ステップ204は、バックワード追跡プロセスに対応する。バックワード追跡プロセスでは、テンプレート画像と検索画像が入れ替えられ、つまり、テンプレート画像が第2サンプル画像となり、検索画像が第1サンプル画像となるが、テンプレート画像及び検索画像に対する処理プロセスは、フォワード追跡プロセスと同様であり、バックワード追跡プロセスにより得られた応答グラフは、第1サンプル画像に対応する第2位置指示情報である。図5(a)に示すように、当該図5における#1は、第1サンプル画像を識別するためのものであり、#2は、第2サンプル画像を識別するためのものである。図5から分かるように、#1内に特定された選択目標(図5(a)におけるテンプレート画像ブロックである#1に白い長方形のボックスで示される位置)について、#2内に当該選択目標の予測位置、即ち第3位置(図5(a)における検索画像ブロックである#2に白い長方形のボックスで示される位置)を特定した後、#2における選択目標の第3位置に基づいて、#1における選択目標の第2位置(図5(a)における検索画像ブロックである#1に灰色の長方形のボックスで示される位置)をバックワード追跡し、そして、#1における目標の第1位置(白い長方形のボックスで示される位置)及び第2位置(灰色の長方形のボックスで示される位置)に基づいて、当該初期モデルの誤差値の良否を判断することができる。つまり、#1内に特定された選択目標の第1位置と、#2によりバックワード計算して得られた第2位置との整合性計算を行う。
【0075】
1つの可能な実施形態では、コンピュータ機器における初期モデルは、当該ステップ204を実行する際に上記の式1及び式2と同様な式により実現できる。つまり、式1におけるTをSに取り替え、YをYに取り替え、Yが即ちR、又はRにより生成されたガウス型の応答グラフである。式2におけるSをTに取り替え、WをWに取り替え、ただし、Yは第2サンプル画像に対応する位置指示情報又は当該Rにより得られたガウス型の位置指示情報である。なお、フォワード及びバックワード追跡プロセスでは、CNNのモデルパラメータは一定である。
【0076】
ステップ205:コンピュータ機器は、当該選択目標の当該第1サンプル画像における第1位置及び第2位置に基づいて、第1位置に対する当該第2位置の誤差値を取得する。
【0077】
コンピュータ機器が選択目標の第1サンプル画像における第1位置及び第2位置を取得した後に、当該初期モデルにより予測された誤差値を評価することで、当該目標の第1サンプル画像における第1位置に対する第2位置の誤差値に基づいて、初期モデルのモデルパラメータを調整する必要があるか否かを判断する。1つの可能な実施形態では、当該誤差値が小さいほど、当該初期モデルのモデルパラメータが適切になる。別の可能な実施形態では、当該プロセスは、報酬メカニズムにより実現することもでき、当該誤差値が大きいほど、当該初期モデルのモデルパラメータが適切になる。以下では、当該誤差値が小さいほどモデルパラメータが適切になる例のみを挙げて説明する。このような原理に基づいて、下記のステップ206を実行し、初期モデルをトレーニングし、予測誤差値の小さい位置取得モデルを得ることができる。
【0078】
1つの可能な実施形態では、当該複数フレームのサンプル画像は、複数のサンプル画像セットを含んでもよい。各サンプル画像セットは、1つの当該予測位置の誤差値に対応する。コンピュータ機器は、サンプル画像セットに含まれる第1サンプル画像及び少なくとも1フレームの第2サンプル画像に基づいて、少なくとも1つの誤差値を得ることができ、つまり、各フレームの第2サンプル画像は、1つの誤差値に対応でき、当該サンプル画像セットに対応する誤差値は、当該少なくとも1つの誤差値に基づいて決定することできる。
【0079】
1つの可能な実施形態では、当該コンピュータ機器は、当該少なくとも1つの誤差値の平均値を取得し、当該平均値を当該サンプル画像セットに対応する誤差値とすることができる。別の可能な実施形態では、当該コンピュータ機器は、当該少なくとも1つの誤差値の加重和を求めることで、当該サンプル画像セットに対応する誤差値を得ることができる。本発明の実施例では、どのような実施形態を採用してもよい。
【0080】
ステップ206:コンピュータ機器は、当該誤差値に基づいて、目標条件に合致するまで当該初期モデルのモデルパラメータを調整し、位置取得モデルを得る。
【0081】
コンピュータ機器が初期モデルにより予測された誤差値を取得した後に、当該誤差値に基づいて、小さい誤差値になるまでモデルパラメータを調整し、位置取得モデルを得ることができる。これによって、当該位置取得モデルの予測精度が高い。当該目標条件としては、当該誤差値が収束するか、又は反復回数が目標回数に達する条件としてもよい。当該目標条件により得られる位置取得モデルは、良好な画像処理能力を備え、誤差値の小さい目標追跡プロセスを実現できる。
【0082】
1つの可能な実施形態では、当該複数フレームのサンプル画像は、複数のサンプル画像セットを含んでもよい。各サンプル画像セットは、一つの当該予測位置の誤差値に対応する。コンピュータ機器は、各サンプル画像セットに対応する誤差値に基づいて、初期モデルのモデルパラメータを調整することができる。
【0083】
別の可能な実施形態では、コンピュータ機器は、トレーニングサンプルを複数のバッチに分けることもできる。各バッチは、目標数のサンプル画像セットを含む。コンピュータ機器は、各バッチに対応する誤差値に基づいて、初期モデルのモデルパラメータを調整することができる。例えば、当該複数のサンプル画像セットにおける目標数ごとのサンプル画像セットについて、コンピュータ機器は、当該目標数のサンプル画像セットに対応する複数の誤差値に基づいて、当該初期モデルのモデルパラメータを調整することができる。当該目標数は、関連技術者が必要に応じて設定することができ、本発明の実施例では、これを限定しない。
【0084】
1つの可能な実施例では、コンピュータ機器が初期モデルのモデルパラメータを調整する際に、当該複数のサンプル画像セットには、好ましくないサンプル画像が含まれる可能性もある。例えば、サンプル画像セットにおける複数フレームのサンプル画像では、選択目標は、その移動変位が大きく、さらに画像に含まれる範囲外に移動する可能性があるので、当該サンプル画像セットに対応する誤差値が初期モデルのトレーニングの際に果たす役割は弱く、この部分のサンプルの影響を弱めるべきである。この部分のサンプルは、ハードサンプルと呼ぶことができる。このような場合には、コンピュータ機器は、以下のいずれかの方法を実行してもよい。
【0085】
方法1:コンピュータ機器は、当該目標数のサンプル画像セットに対応する複数の誤差値に基づいて、当該複数の誤差値のうち誤差値条件を満たす誤差値を削除し、コンピュータ機器は、残りの複数の誤差値に基づいて、当該初期モデルのモデルパラメータを調整する。
【0086】
方法2:コンピュータ機器は、当該目標数のサンプル画像セットに対応する複数の誤差値に基づいて、当該複数の誤差値の第1重みを決定し、コンピュータ機器は、当該複数の誤差値の第1重み及び当該複数の誤差値に基づいて、当該複数の誤差値のうち誤差値条件を満たす誤差値の第1重みがゼロになるように当該初期モデルのモデルパラメータを調整する。
【0087】
前記方法1と方法2は、いずれも複数の誤差値のうち誤差値条件を満たす誤差値がモデルパラメータ調整時に果たす役割をゼロに低減するプロセスである。方法1では、その一部の誤差値を直接削除する。方法2では、その第1重みをゼロに設定する。当該誤差値条件は、誤差値の最も大きい目標割合に属する誤差値でもよい。当該誤差値条件及び目標割合はいずれも関連技術者が必要に応じて設定することができ、本発明の実施例では、これを限定しない。例えば、当該目標割合は、10%でもよい。この場合、コンピュータ機器は、1つのバッチにおけるトレーニングサンプルの10%を削除し、誤差値の最も大きい10%を削除し、或いは誤差値の最も大きい10%の誤差値の重みをゼロに設定する。例えば、方法2において、二値重みAdrop(第1重み)が導入され、誤差値条件を満たす誤差値の重みAdropが0であり、残りが1である。これにより、ノイズサンプル、さらに汚染されたサンプル(遮蔽の問題がある)の影響を減らし、これらのトレーニングサンプルに起因してモデルトレーニングの収束に影響を与えることはない。
【0088】
1つの可能な実施例では、各サンプル画像セットは、1つの第2重みに対応できる。当該第2重みは、当該サンプル画像セットの複数フレームのサンプル画像における選択目標の変位状況を示すためのものである。サンプル画像セットの複数フレームのサンプル画像における選択目標の移動変位が非常に小さく、さらにゼロである際に、当該選択目標を追跡して得られた誤差値は初期モデルの予測能力を反映できないため、この部分の誤差値がモデルパラメータ調整時に果たす役割を弱めるべきであることを理解できる。
【0089】
この実施例では、当該ステップ206において、コンピュータ機器は、各サンプル画像セットの誤差値の第2重みを取得することができる。当該第2重みは、当該各サンプル画像セットにおける目標の複数フレームのサンプル画像における変位と正の相関関係がある。コンピュータ機器が第2重みを取得した後に、当該目標数のサンプル画像セットに対応する複数の誤差値及び複数の第2重みに基づいて、当該初期モデルのモデルパラメータを調整することができる。例えば、コンピュータ機器は、当該目標数のサンプル画像セットに対応する複数の誤差値及び複数の第2重みに基づいて、当該目標数のサンプル画像セットに対応する総誤差値を取得し、当該総誤差値に基づいて、当該初期モデルのモデルパラメータを調整することができる。
【0090】
例えば、一つの具体的な例では、第2重みAmotionを導入することができる。コンピュータ機器は、下記の式3により第2重みを得ることができる。
【0091】
【数13】
【0092】
ただし、Amotionは第2重みであり、iはサンプル画像セットの識別子であり、Rは第2サンプル画像に対応する位置指示情報であり、Yは第1サンプル画像に対応する第1位置指示情報であり、Yは第2サンプル画像に対応する位置指示情報又は当該Rにより得られたガウス型の位置指示情報である。当該式では、サンプル画像セットが1フレームの第1サンプル画像及び2フレームの第2サンプル画像を含む場合のみを例にとると、Tは、第1サンプル画像を示すためのものであり、Sは、第2サンプル画像を示すためのものであり、S1は、そのうちの1フレームの第2サンプル画像を示すためのものであり、S2は、別の1フレームの第2サンプル画像を示すためのものである。例えば、図6に示すように、1フレームの第1サンプル画像(テンプレート画像ブロック)及び1フレームの第2サンプル画像(検索画像ブロック)を採用する状況は、左の図における#1及び#2に示すように、偶然による成功であり得る。1フレームの第1サンプル画像及び2フレームの第2サンプル画像を採用する状況は、右の図における#1、#2及び#3に示されており、右の図における#2は、検索画像ブロック#1とも呼ばれ、右の図における#3は、検索画像ブロック#2とも呼ばれる。第2サンプル画像を増やすことにより、偶然による成功を回避でき、エラーを蓄積し、位置取得モデルの精度及び安定性を向上させることができる。
【0093】
1つの可能な実施形態では、コンピュータ機器は、上記の第1重みと第2重みとを統合し、モデルパラメータを調整することができ、つまり、サンプルの誤差値が過大の場合だけでなく、変位の状況も考慮に入れることができる。具体的には、当該目標数のサンプル画像セットに対応する複数の誤差値について、コンピュータ機器は、第1重み及び第2重みに基づいて、各誤差値の総重みを取得し、当該複数の誤差値の総重みに基づいて、当該複数の誤差値の加重和を求め、当該複数の誤差値の総誤差値を得て、当該総誤差値に基づいて、当該初期モデルのモデルパラメータを調整することができる。
【0094】
例えば、当該総誤差値の取得プロセスは、下記の式4により実現できる。
【0095】
【数14】
【0096】
ただし、Adropは第1重みであり、Amotionは第2重みであり、nは目標数であり、nは1より大きい正の整数であり、iはサンプル画像セットの識別子である。
【数15】
は総重みである。
【0097】
当該総誤差値は、最小化再構成誤差で表すことができる。例えば、当該総誤差値の取得プロセスは、下記の式5により実現できる。
【0098】
【数16】
【0099】
ただし、
【数17】
は、選択目標の第1サンプル画像における第2位置(第1サンプル画像に対応する第2位置指示情報)であり、Yは、選択目標の1つのサンプル画像における第1位置(第1サンプル画像に対応する第1位置指示情報)であり、nは目標数であり、nは1より大きい正の整数であり、iはサンプル画像セットの識別子である。
【数18】
は目標数のサンプル画像セットに対応する総誤差値である。当然、ここでは、これは単なる例示的な説明であり、当該総誤差値は、他の誤差又は報酬値で示されてもよく、本発明の実施例では、これを限定しない。
【0100】
総重みを取得することにより、目標の複数フレームの画像における変位が非常に小さい状況を最適化し、選択目標の複数フレームのサンプル画像における変位がかなり大きい状況も最適化したため、小さい総誤差値を得ることができ、これに基づいてモデルパラメータを調整することで、得られた位置取得モデルによる画像処理の精度も向上した。
【0101】
なお、当該サンプル画像セットに、1フレームの第1サンプル画像及び1フレームの第2サンプル画像のみが含まれる場合には、当該総誤差値の取得プロセスは、下記の式6により実現できる。
【0102】
【数19】
【0103】
ただし、
【数20】
は、選択目標の第1サンプル画像における第2位置(第1サンプル画像に対応する第2位置指示情報)であり、Yは、選択目標の1つのサンプル画像における第1位置(第1サンプル画像に対応する第1位置指示情報)であり、
【数21】
は、目標数のサンプル画像セットに対応する総誤差値である。
【0104】
1つの可能な実施形態では、当該モデルパラメータ調整プロセスは、グラジエントリターンにより実現でき、具体的には、下記の式7を参照できる。ここでは、これは単なる例示的な説明であり、調整プロセスを限定しない。
【0105】
【数22】
【0106】
ただし、
【数23】
は偏微分記号である。
【数24】
は目標数のサンプル画像セットに対応する総誤差値である。
【数25】
は離散フーリエ変換であり、
【数26】
は離散フーリエ逆変換であり、
【数27】
は複素共役を表す。Tは、第1サンプル画像を識別するためのものであり、Sは、第2サンプル画像を識別するためのものである。
【数28】
はCNNの特徴抽出操作を表す。
【0107】
一例では、当該位置取得モデルを追跡装置と呼ぶことができる。当該追跡装置は、フォワード及びバックワード追跡を行うことができる。即ち、1つの初期追跡目標が決められると、追跡装置は、目標を前方に追跡できるとともに、追跡が終了する最後の位置を開始点として、最初に指定された位置まで遡ることができるはずである。追跡装置の自己校正により、教師なしトレーニングを実行できる。サンプル画像にタグが付けられることなく、堅牢な追跡装置をトレーニングでき、完全に監視されるようにトレーニングされた追跡装置に近い性能を有することができる。
【0108】
本発明の実施例では、トレーニングして得られた位置取得モデルは、複数フレームの画像を処理し、目標の複数フレームの画像における位置を取得するものであり、当該位置取得モデルは、フォワード及びバックワードプロセスでトレーニングすることで得ることができ、フォワードプロセスを介して、選択目標の第1サンプル画像における第1位置により選択目標の第2サンプル画像における第3位置を予測することができ、バックワードプロセスを介して、第3位置により選択目標の第1サンプル画像における第2位置を予測することができる。選択目標は、第1サンプル画像内でランダムに選択して得られるものであり、選択した位置は決まっているため、第1位置は、選択目標の実際の位置である。選択目標の第1サンプル画像における第1位置及び第2位置を利用することで、第1位置と第2位置との間の誤差値により初期モデルのモデルパラメータの正確性を反映できる。よって、関連技術者が手動でマークすることなく、第1位置及び第2位置により初期モデルをトレーニングすることができ、人件費を効果的に低減させ、モデルのトレーニング効率を向上させることができ、画像の処理過程が簡単になり、目標の位置取得プロセス全体の効率を効果的に向上させた。
【0109】
上記の図2に示す実施例では、位置取得モデルのトレーニングプロセスを詳しく説明した。以下では、図7に示す実施例により、当該位置取得モデルによる目標の位置取得プロセスを説明する。図7は、本発明の実施例で提供される目標の位置取得方法のフローチャートである。当該目標の位置取得方法は、コンピュータ機器に応用でき、当該コンピュータ機器は、端末として提供されてもよく、サーバとして提供されてもよく、本発明の実施例では、これを限定しない。図7に示すように、この方法は、以下のステップを含むことができる。
【0110】
ステップ701:コンピュータ機器は、複数フレームの画像を取得する。当該複数フレームの画像のうちの第1画像は、被検目標を含み、当該第1画像は、当該複数フレームの画像のいずれか1フレームの画像である。
【0111】
コンピュータ機器は、複数フレームの画像を取得し、当該複数フレームの画像を処理し、被検目標の当該複数フレームの画像における第1位置を特定することができる。
【0112】
当該ステップ701では、コンピュータ機器は、様々な方法で当該複数フレームの画像を取得することができる。応用場面によっては、当該コンピュータ機器が当該複数フレームの画像を取得する方法が異なってもよい。例えば、当該コンピュータ機器は、画像取得機能を有することができる。この場合、当該コンピュータ機器は、画像を撮影し、撮影した複数フレームの画像に対して下記の画像処理プロセスを行い、当該複数フレームの画像における被検目標を追跡することができる。当該コンピュータ機器は、画像収集デバイスが送信した複数フレームの画像を受信し、下記の画像処理プロセスを実行し、当該複数フレームの画像における被検目標を追跡することもできる。さらに、コンピュータ機器は、リアルタイムに撮影したビデオ、又は目標アドレスに格納されたビデオを取得し、ビデオから複数フレームの画像を抽出し、下記の画像処理プロセスを実行し、当該複数フレームの画像における被検目標を追跡することもできる。本発明の実施例では、応用場面、及びコンピュータ機器が複数フレームの画像を取得する方法を限定しない。
【0113】
1つの可能な実施形態では、上記のステップ201と同様に、コンピュータ機器は、取得又は抽出された複数フレームの画像を切り抜き、処理対象となる複数フレームの画像を取得することもできる。具体的には、コンピュータ機器は、取得又は抽出された複数フレームの画像から、当該複数フレームの画像の中心を中心点とする目標エリアを切り抜き、処理対象となる複数フレームの画像を取得することができる。本発明の実施例においては、ここで繰り返して述べない。
【0114】
ステップ702:コンピュータ機器は、位置取得モデルを呼び出す。
【0115】
当該ステップ702において、当該位置取得モデルのモデルパラメータは、被検目標の複数フレームのサンプル画像のうちの第1サンプル画像における位置(実際の位置)及び当該被検目標の当該第1サンプル画像における位置(予測位置)に基づいてトレーニングして得られるものであり、当該被検目標の当該第1サンプル画像における位置は、当該被検目標の当該複数フレームのサンプル画像のうちの第2サンプル画像における位置に基づいて取得したものである。当該位置取得モデルは、上記の図2に示すモデルトレーニングプロセスによりトレーニングして得ることができる。
【0116】
なお、当該図7に示すコンピュータ機器は、上記の図2に示すコンピュータ機器であってもよい。つまり、これによって、コンピュータ機器は、ローカルストレージデータから当該位置取得モデルを呼び出すことができる。当該図7に示すコンピュータ機器と上記の図2に示すコンピュータ機器は、異なるコンピュータ機器であってもよい。上記の図2に示すコンピュータ機器は、トレーニングして得られた位置取得モデルをカプセル化してから当該図7に示すコンピュータ機器に送信することができる。当該コンピュータ機器は、位置取得モデルに対して解凍等の処理を行い、画像処理する必要がある際に、当該位置取得モデルを呼び出すことができる。当然、当該図7に示すコンピュータ機器は、画像処理する必要がある際に、図2に示すコンピュータ機器内に既にトレーニングされた位置取得モデルをリアルタイムに呼び出すこともできる。本発明の実施例では、これを限定しない。
【0117】
ステップ703:コンピュータ機器は、当該位置取得モデルにより、当該位置取得モデルのモデルパラメータ及び当該被検目標の当該第1画像における位置に基づいて、当該複数フレームの画像のうち当該第1画像とは別の画像である第2画像を処理し、当該被検目標の当該第2画像における位置を出力する。
【0118】
当該ステップ703において、当該被検目標の当該第1画像における位置は、関連技術者が手動でマークすることで得ることができ、コンピュータ機器が走査設定に従って第1画像を走査することで得ることもできる。例えば、技術者が必要に応じて、第1画像内で1つの目標エリアを被検目標としてマークすることができる。また、例えば、コンピュータ機器において人の追跡を設定することができる。そのため、コンピュータ機器は、第1画像を走査及び顔認識して、人の位置を特定し、それを被検目標とすることができる。当然、ここでは、2つの例のみが示され、当該被検目標の位置取得方法は、他の応用場面にも応用でき、コンピュータ機器は、他の方法で被検目標の第1画像における位置を特定することもでき、本発明の実施例では、これを限定しない。
【0119】
当該ステップ703では、上記のステップ203と同様に、コンピュータ機器は、下記のステップ1及びステップ2により、被検目標の第2画像における位置を取得することができる。
【0120】
ステップ1:コンピュータ機器における位置取得モデルは、当該被検目標の当該第1画像における位置、当該第1画像及び当該モデルパラメータに基づいて、画像処理パラメータを取得する。
【0121】
上記のステップ203におけるステップ1と同様に、コンピュータ機器における位置取得モデルは、当該被検目標の当該第1画像における位置に基づいて、当該目標の当該第1画像における位置を示すための当該第1画像に対応する位置指示情報を生成することができる。コンピュータ機器における位置取得モデルは、当該第1画像に対応する位置指示情報、当該第1画像及び当該モデルパラメータに基づいて、画像処理パラメータを取得することができる。
【0122】
1つの可能な実施形態では、当該位置指示情報は応答グラフであり、当該応答グラフのピークの存在する位置は、当該被検目標の存在する位置である。
【0123】
同様に、1つの可能な実施例では、コンピュータ機器における位置取得モデルは、当該モデルパラメータに基づいて、当該第1画像に対して特徴抽出を行い、当該第1画像の画像特徴を得てから、当該第1画像の画像特徴及び当該第1画像に対応する位置指示情報に基づいて、画像処理パラメータを取得することができる。
【0124】
ステップ2:コンピュータ機器における位置取得モデルは、当該画像処理パラメータに基づいて、第2画像を処理し、当該被検目標の当該第2画像における位置を出力する。
【0125】
上記のステップ203におけるステップ2と同様に、コンピュータ機器における位置取得モデルは、当該画像処理パラメータに基づいて、第2画像を処理し、当該被検目標の当該第2画像における位置を示すための当該第2画像に対応する位置指示情報を出力することができる。
【0126】
上記のステップ203におけるステップ2と同様に、コンピュータ機器における位置取得モデルは、当該モデルパラメータに基づいて、当該第2画像に対して特徴抽出を行い、当該第2画像の画像特徴を得てから、当該画像処理パラメータに基づいて、当該第2画像の画像特徴を処理し、当該第2画像に対応する位置指示情報を出力することができる。
【0127】
当該ステップ703は、上記のステップ203と同様に実行される。ここでは、繰り返して述べない。
【0128】
本発明の実施例では、トレーニングして得られた位置取得モデルは、複数フレームの画像を処理し、被検目標の複数フレームの画像における位置を取得するものであり、当該位置取得モデルは、フォワード及びバックワードプロセスを介して、当該被検目標の第1サンプル画像における実際の位置及び予測位置を利用し、初期モデルをトレーニングすることができ、関連技術者が手動でマークする必要がないため、人件費を効果的に低減させ、モデルのトレーニング効率を向上させることができ、画像の処理過程が簡単になり、被検目標の位置取得プロセス全体の効率を効果的に向上させた。
【0129】
以下では、図8に示す実施例によりモデルトレーニングプロセス及びモデル使用プロセスを説明する。図8は、本発明の実施例で提供される目標の位置取得方法のフローチャートである。図8に示すように、当該方法は、以下のステップを含むことができる。
【0130】
ステップ801:コンピュータ機器は、複数フレームのサンプル画像を取得する。
【0131】
ステップ802:コンピュータ機器は、初期モデルを呼び出し、前記初期モデルに従って選択目標の前記複数フレームのサンプル画像のうちの第1サンプル画像における第1位置に基づいて、前記選択目標の第2サンプル画像における第3位置を取得し、前記選択目標の第2サンプル画像における第3位置に基づいて、前記選択目標の前記第1サンプル画像における第2位置を取得し、前記第1位置及び前記第2位置に基づいて、前記初期モデルのモデルパラメータを調整し、位置取得モデルを得る。前記選択目標は、前記初期モデルが前記第1サンプル画像内で目標エリアをランダムに選択して得られるものであり、前記第2サンプル画像は、前記複数フレームのサンプル画像のうち前記第1サンプル画像とは別のサンプル画像である。
【0132】
当該ステップ801及びステップ802は、上記の図2に示す実施例の記載と同様に実行される。本発明の実施例においては、ここで繰り返して述べない。
【0133】
ステップ803:複数フレームの画像を取得した場合、コンピュータ機器は、当該位置取得モデルを呼び出し、前記位置取得モデルに従って被検目標の前記複数フレームの画像における位置を特定する。
【0134】
当該ステップ803は、上記の図7に示す実施例の記載と同様に実行される。本発明の実施例においては、ここで繰り返して述べない。
【0135】
本発明の実施例では、初期モデルにより第1サンプル画像における選択目標をランダムに選択し、第2サンプル画像に基づいて遷移し、フォワード及びバックワードプロセスにより、目標の第1サンプル画像における予測位置を取得し、当該選択目標の第1サンプル画像における実際の位置及び予測位置により、初期モデルをトレーニングする。関連技術者が手動でマークする必要がないため、人件費を効果的に低減させ、モデルのトレーニング効率を向上させることができ、このようにトレーニングして得られた位置取得モデルにより画像を処理することで、被検目標の位置を取得することができ、画像の処理過程が簡単になり、被検目標の位置取得プロセス全体の効率を効果的に向上させた。
【0136】
前述した全ての任意の技術方案を任意の方法で組み合わせて本発明の任意の実施例を形成することができる。ここでは、一々繰り返して述べない。
【0137】
図9は、本発明の実施例で提供される目標の位置取得装置の構造模式図である。図9に示すように、当該装置は、
複数フレームの画像を取得するための画像取得モジュール901であって、前記複数フレームの画像のうちの第1画像は、被検目標を含み、前記第1画像は前記複数フレームの画像のいずれか1フレームの画像である、画像取得モジュール901と、
位置取得モデルを呼び出すためのモデル呼び出しモジュール902であって、前記位置取得モデルのモデルパラメータは、選択目標の複数フレームのサンプル画像のうちの第1サンプル画像における第1位置及び前記選択目標の前記第1サンプル画像における第2位置に基づいてトレーニングして得られるものであり、前記第2位置は、前記選択目標の前記複数フレームのサンプル画像のうちの第2サンプル画像における第3位置に基づいて予測して得られるものであり、前記第3位置は、前記第1位置に基づいて予測して得られるものであり、前記選択目標は、前記第1サンプル画像内でランダムに選択して得られるものであり、前記第2サンプル画像は、前記複数フレームのサンプル画像のうち前記第1サンプル画像とは別のサンプル画像である、モデル呼び出しモジュール902と、
前記位置取得モデルにより、前記モデルパラメータ及び前記被検目標の前記第1画像における位置に基づいて、前記被検目標の第2画像における位置を特定するための位置取得モジュール903であって、前記第2画像は、前記複数フレームの画像のうち前記第1画像とは別の画像である、位置取得モジュール903と、を含むことができる。
【0138】
1つの可能な実施形態では、当該位置取得モジュール903は、
前記被検目標の前記第1画像における位置、前記第1画像及び前記モデルパラメータに基づいて、画像処理パラメータを取得し、
前記画像処理パラメータに基づいて、前記第2画像を処理し、前記被検目標の前記第2画像における位置を出力するためのものである。
【0139】
1つの可能な実施形態では、当該位置取得モジュール903は、
前記被検目標の前記第1画像における位置に基づいて、前記被検目標の前記第1画像内の選択位置を示すための前記第1画像に対応する位置指示情報を生成し、
前記第1画像に対応する位置指示情報、前記第1画像及び前記モデルパラメータに基づいて、前記画像処理パラメータを取得するためのものである。
【0140】
当該位置取得モジュール903は、
前記画像処理パラメータに基づいて、前記第2画像を処理し、前記被検目標の前記第2画像内の予測位置を示すための前記第2画像に対応する位置指示情報を出力するためのものである。
【0141】
1つの可能な実施形態では、当該位置取得モジュール903は、
前記モデルパラメータに基づいて、前記第1画像に対して特徴抽出を行い、前記第1画像の画像特徴を取得し、
前記第1画像の画像特徴及び前記第1画像に対応する位置指示情報に基づいて、前記画像処理パラメータを取得するためのものである。
【0142】
当該位置取得モジュール903は、
前記モデルパラメータに基づいて、前記第2画像に対して特徴抽出を行い、前記第2画像の画像特徴を取得し、
前記画像処理パラメータに基づいて、前記第2画像の画像特徴を処理し、前記第2画像に対応する位置指示情報を出力するためのものである。
【0143】
1つの可能な実施形態では、当該装置は、モデルトレーニングモジュールをさらに含む。当該モデルトレーニングモジュールは、
複数フレームのサンプル画像を取得し、
初期モデルを呼び出し、前記初期モデルにより前記複数フレームのサンプル画像のうちの第1サンプル画像における目標エリアを前記選択目標としてランダムに選択し、前記選択目標の前記第1サンプル画像における第1位置、前記第1サンプル画像及び第2サンプル画像に基づいて、前記選択目標の前記第2サンプル画像における第3位置を取得し、前記選択目標の前記第2サンプル画像における第3位置、前記第1サンプル画像及び第2サンプル画像に基づいて、前記選択目標の前記第1サンプル画像における第2位置を取得し、
前記選択目標の前記第1サンプル画像における第1位置及び第2位置に基づいて、前記第1位置に対する前記第2位置の誤差値を取得し、
前記誤差値に基づいて、目標条件に合致するまで前記初期モデルのモデルパラメータを調整し、前記位置取得モデルを得るためのものである。
【0144】
1つの可能な実施形態では、当該モデルトレーニングモジュールは、
前記第1位置及び前記第1サンプル画像に基づいて、第1画像処理パラメータを取得し、
前記第1画像処理パラメータに基づいて、前記第2サンプル画像を処理し、前記第3位置を得るためのものである。
【0145】
当該モデルトレーニングモジュールは、
前記第3位置及び前記第2サンプル画像に基づいて、第2画像処理パラメータを取得し、
前記第2画像処理パラメータに基づいて、前記第1サンプル画像を処理し、前記第2位置を得るためのものである。
【0146】
当該モデルトレーニングモジュールは、
前記初期モデルのモデルパラメータに基づいて、前記第1サンプル画像に対して特徴抽出を行い、前記第1サンプル画像の画像特徴を取得し、
前記第1サンプル画像の画像特徴及び前記第1位置に基づいて、前記第1画像処理パラメータを取得するためのものである。
【0147】
当該モデルトレーニングモジュールは、
前記初期モデルのモデルパラメータに基づいて、前記第2サンプル画像に対して特徴抽出を行い、前記第2サンプル画像の画像特徴を取得し、
前記第1画像処理パラメータに基づいて、前記第2サンプル画像の画像特徴を処理し、前記第3位置を得るためのものである。
【0148】
1つの可能な実施形態では、当該モデルトレーニングモジュールは、
前記第1位置に基づいて、前記選択目標の前記第1サンプル画像内の選択位置を指示するための前記第1サンプル画像に対応する第1位置指示情報を生成し、
前記第1位置指示情報、前記第1サンプル画像及び第2サンプル画像に基づいて、前記選択目標の前記第2サンプル画像内の予測位置を示すための前記第2サンプル画像に対応する位置指示情報を取得するためのものである。
【0149】
当該モデルトレーニングモジュールは、
前記第2サンプル画像に対応する位置指示情報、前記第1サンプル画像及び前記第2サンプル画像に基づいて、前記目標の前記第1サンプル画像内の予測位置を示すための前記第1サンプル画像に対応する第2位置指示情報を取得するためのものである。
【0150】
1つの可能な実施形態では、当該複数フレームのサンプル画像は、複数のサンプル画像セットを含み、各サンプル画像セットは、1フレームの第1サンプル画像及び少なくとも1フレームの第2サンプル画像を含み、各サンプル画像セットは、1つの当該予測位置の誤差値に対応する。
【0151】
当該モデルトレーニングモジュールは、
当該複数のサンプル画像セットにおける目標数ごとのサンプル画像セットに対して、当該目標数のサンプル画像セットに対応する複数の誤差値に基づいて、当該初期モデルのモデルパラメータを調整するためのものである。
【0152】
1つの可能な実施形態では、当該モデルトレーニングモジュールは、
当該目標数のサンプル画像セットに対応する複数の誤差値に基づいて、当該複数の誤差値のうち誤差値条件を満たす誤差値を削除し、残りの誤差値に基づいて、当該初期モデルのモデルパラメータを調整する工程、及び
当該目標数のサンプル画像セットに対応する複数の誤差値に基づいて、当該複数の誤差値の第1重みを決定し、当該複数の誤差値の第1重み及び当該複数の誤差値に基づいて、当該複数の誤差値のうち誤差値条件を満たす誤差値の第1重みがゼロになるように、当該初期モデルのモデルパラメータを調整する工程のいずれか1つを実行するためのものである。
【0153】
1つの可能な実施形態では、各サンプル画像セットは、1つの第2重みに対応する。
【0154】
当該目標数のサンプル画像セットに対応する複数の誤差値に基づいて、当該初期モデルのモデルパラメータを調整する当該工程は、
各サンプル画像セットの誤差値の第2重みを取得する工程であって、当該第2重みは、当該各サンプル画像セット内の選択目標の複数フレームのサンプル画像における変位と正の相関関係がある、工程と、
当該目標数のサンプル画像セットに対応する複数の誤差値及び複数の第2重みに基づいて、当該初期モデルのモデルパラメータを調整する工程と、を含む。
【0155】
本発明の実施例で提供される装置では、トレーニングして得られた位置取得モデルは、複数フレームの画像を処理し、目標の複数フレームの画像における位置を取得するものであり、当該位置取得モデルは、フォワード及びバックワードプロセスでトレーニングすることで得ることができ、フォワードプロセスを介して、選択目標の第1サンプル画像における第1位置により選択目標の第2サンプル画像における第3位置を予測することができ、バックワードプロセスを介して、第3位置により選択目標の第1サンプル画像における第2位置を予測することができる。選択目標は、第1サンプル画像内でランダムに選択して得られるものであり、選択した位置は決まっているため、第1位置は、選択目標の実際の位置である。選択目標の第1サンプル画像における第1位置及び第2位置を利用することで、第1位置と第2位置との間の誤差値により初期モデルのモデルパラメータの正確性を反映できる。よって、関連技術者が手動でマークすることなく、第1位置及び第2位置により初期モデルをトレーニングすることができ、人件費を効果的に低減させ、モデルのトレーニング効率を向上させることができ、画像の処理過程が簡単になり、目標の位置取得プロセス全体の効率を効果的に向上させた。
【0156】
なお、上記の実施例で提供される目標の位置取得装置が目標の位置を取得する際に、上記の各機能モジュールの分類のみを例示して説明したが、実際の応用では、上記の機能は、必要に応じて、それぞれ異なる機能モジュールによって実現することができ、即ち、コンピュータ機器の内部構造を異なる機能モジュールに分け、前述した全て又は一部の機能を実現することができる。また、上記の実施例で提供される目標の位置取得装置と目標の位置取得方法の実施例は、同じ構想に属し、その具体的な実現プロセスは、位置取得方法の実施例に詳しく記載されているが、ここでは、繰り返して述べない。
【0157】
図10は、本発明の実施例で提供される目標の位置取得装置の構造模式図である。図10に示すように、当該装置は、
複数フレームのサンプル画像を取得するための画像取得モジュール1001と、
初期モデルを呼び出し、前記初期モデルに従って選択目標の前記複数フレームのサンプル画像のうちの第1サンプル画像における第1位置に基づいて、前記選択目標の第2サンプル画像における第3位置を取得し、前記選択目標の第2サンプル画像における第3位置に基づいて、前記選択目標の前記第1サンプル画像における第2位置を取得し、前記第1位置及び前記第2位置に基づいて、前記初期モデルのモデルパラメータを調整し、位置取得モデルを得るためのモデルトレーニングモジュール1002と、
複数フレームの画像を取得した場合、当該位置取得モデルを呼び出し、前記位置取得モデルに従って被検目標の前記複数フレームの画像における位置を特定するための位置取得モジュール1003と、を含むことができる。
【0158】
本発明の実施例で提供される装置では、初期モデルにより第1サンプル画像における選択目標をランダムに選択し、第2サンプル画像に基づいて遷移し、フォワード及びバックワードプロセスにより初期モデルをトレーニングする。フォワードプロセスを介して、選択目標の第1サンプル画像における第1位置により選択目標の第2サンプル画像における第3位置を予測することができ、バックワードプロセスを介して、第3位置により選択目標の第1サンプル画像における第2位置を予測することができる。選択目標は、第1サンプル画像内でランダムに選択して得られるものであり、選択した位置は決まっているため、第1位置は、選択目標の実際の位置である。選択目標の第1サンプル画像における第1位置及び第2位置を利用することで、第1位置と第2位置との間の誤差値により初期モデルのモデルパラメータの正確性を反映できる。よって、関連技術者が手動でマークすることなく、第1位置及び第2位置により初期モデルをトレーニングすることができ、人件費を効果的に低減させ、モデルのトレーニング効率を向上させることができ、画像の処理過程が簡単になり、目標の位置取得プロセス全体の効率を効果的に向上させた。
【0159】
なお、上記の実施例で提供される目標の位置取得装置が目標の位置を取得する際に、上記の各機能モジュールの分類のみを例示して説明したが、実際の応用では、上記の機能は、必要に応じて、それぞれ異なる機能モジュールによって実現することができ、即ち、コンピュータ機器の内部構造を異なる機能モジュールに分け、前述した全て又は一部の機能を実現することができる。また、上記の実施例で提供される目標の位置取得装置と目標の位置取得方法の実施例は、同じ構想に属し、その具体的な実現プロセスは、位置取得方法の実施例に詳しく記載されているが、ここでは、繰り返して述べない。
【0160】
上記のコンピュータ機器は、下記の図11に示す端末として提供されてもよく、下記の図12に示すサーバとして提供されてもよく、本発明の実施例では、これを限定しない。
【0161】
図11は、本発明の実施例で提供される端末の構造模式図である。当該端末1100は、スマートフォン、タブレットコンピュータ、MP3(Moving Picture Experts Group Audio Layer III、ムービングピクチャーエクスパーツグループオーディオレイヤー3)プレイヤー、MP4(Moving Picture Experts Group Audio Layer IV、ムービングピクチャーエクスパーツグループオーディオレイヤー4)プレイヤー、ノートパソコン又はデスクトップパソコンであってもよい。端末1100は、ユーザ機器、携帯端末、ラップトップ端末、デスクトップ端末等とも呼ばれ得る。
【0162】
一般的には、端末1100は、1つ又は複数のプロセッサ1101及び1つ又は複数のメモリ1102を含む。
【0163】
プロセッサ1101は、4コアプロセッサ、8コアプロセッサなどのような1つ又は複数の処理コアを含んでもよい。プロセッサ1101は、DSP(Digital Signal Processing、デジタル信号処理)、FPGA(Field-Programmable Gate Array、フィールドプログラマブルゲートアレイ)、PLA(Programmable Logic Array、プログラマブルロジックアレイ)のうちの少なくとも1つのハードウェアの形態で実現できる。プロセッサ1101は、メインプロセッサ及びコプロセッサを含んでもよい。メインプロセッサは、アウェイク状態のデータを処理するためのプロセッサであり、CPU(Central Processing Unit、中央処理ユニット)とも呼ばれる。コプロセッサは、スタンバイ状態のデータを処理するための低消費電力プロセッサである。幾つかの実施例では、プロセッサ1101には、GPU(Graphics Processing Unit、グラフィックスプロセッシングユニット)が組み込まれてもよく、GPUは、ディスプレイに表示する必要があるコンテンツをレンダリング及び描画するためのものである。幾つかの実施例では、プロセッサ1101は、さらに、機械学習に関連する計算操作を処理するためのAI(Artificial Intelligence、人工知能)プロセッサを含んでもよい。
【0164】
メモリ1102は、1つ又は複数のコンピュータ読み取り可能な記憶媒体を含んでもよい。当該コンピュータ読み取り可能な記憶媒体は、非一過性のものであってもよい。メモリ1102は、さらに、高速ランダムアクセスメモリ、及び不揮発性メモリ、例えば1つ又は複数の磁気ディスク記憶装置、フラッシュメモリ記憶装置を含んでもよい。幾つかの実施例では、メモリ1102における非一過性コンピュータ読み取り可能な記憶媒体は、少なくとも1つの指令を記憶するためのものである。当該少なくとも1つの指令は、プロセッサ1101により実行されることで本発明における方法の実施例で提供される目標の位置取得方法を実現するためのものである。
【0165】
幾つかの実施例では、端末1100は、さらに、周辺装置インタフェース1103及び少なくとも1つの周辺装置を任意に含んでもよい。プロセッサ1101、メモリ1102及び周辺装置インタフェース1103は、バスまたは信号線によって接続され得る。各周辺装置は、バス、信号線又は回路板を介して周辺装置インタフェース1103に接続することができる。具体的には、周辺装置は、無線周波数回路1104、ディスプレイ1105、カメラ1106、オーディオ回路1107、位置決めユニット1108及び電源1109のうちの少なくとも1つを含む。
【0166】
周辺装置インタフェース1103は、I/O(Input/Output、入力/出力)に関連する少なくとも1つの周辺装置をプロセッサ1101及びメモリ1102に接続するために使用され得る。幾つかの実施例では、プロセッサ1101、メモリ1102及び周辺装置インタフェース1103は、同じチップ又は回路板上に組み込まれる。幾つかの別の実施例では、プロセッサ1101、メモリ1102及び周辺装置インタフェース1103のうちのいずれか1つ又は2つは、個別のチップ又は回路板上に組み込むことができる。本実施例では、これを限定しない。
【0167】
無線周波数回路1104は、電磁信号とも呼ばれるRF(Radio Frequency、無線周波数)信号を送受信するためのものである。無線周波数回路1104は、電磁信号を介して通信ネットワーク及び他の通信デバイスと通信する。無線周波数回路1104は、電気信号を電磁信号に変換して送信するか、又は、受信した電磁信号を電気信号に変換する。任意には、無線周波数回路1104は、アンテナシステム、RFトランシーバ、1つ又は複数の増幅器、チューナ、発振器、デジタル信号プロセッサ、コーデックチップセット、ユーザIDモジュールカード等を含む。無線周波数回路1104は、少なくとも1つの無線通信プロトコルを介して他の端末と通信することができる。当該無線通信プロトコルは、メトロポリタンエリアネットワーク、各世代のモバイル通信ネットワーク(2G、3G、4G及び5G)、無線ローカルエリアネットワーク及び/又はWi-Fi(Wireless Fidelity、ワイヤレスフィデリティ)ネットワークを含むが、これらに限定されない。幾つかの実施例では、無線周波数回路1104は、さらにNFC(Near Field Communication、近距離無線通信)に関連する回路を含んでもよい。本発明では、これを限定しない。
【0168】
ディスプレイ1105は、UI(User Interface、ユーザインタフェース)を表示するためのものである。当該UIは、グラフィック、テキスト、アイコン、ビデオ及びそれらの任意の組合せを含んでもよい。ディスプレイ1105がタッチディスプレイである場合、ディスプレイ1105は、さらに、ディスプレイ1105の表面又はその上のタッチ信号を収集する能力を有する。当該タッチ信号は、制御信号としてプロセッサ1101に入力して処理することができる。この場合、ディスプレイ1105は、さらに、ソフトボタン及び/又はソフトキーボードとも呼ばれる仮想ボタン及び/又は仮想キーボードを提供するために使用することもできる。幾つかの実施例では、端末1100のフロントパネルに設けられた1つのディスプレイ1105を有してもよい。幾つかの別の実施例では、それぞれ端末1100の異なる表面に設けられ、又は折り畳まれるように設計される少なくとも2つのディスプレイ1105を有してもよい。また別の実施例では、ディスプレイ1105は、端末1100の曲面または折り畳み面に設けられたフレキシブルディスプレイであってもよい。さらに、ディスプレイ1105は、長方形ではない不規則な形状にしてもよく、即ち、異形のディスプレイであってもよい。ディスプレイ1105は、LCD(Liquid Crystal Display、液晶ディスプレイ)、OLED(Organic Light-Emitting Diode、有機発光ダイオード)などの材料で製造することができる。
【0169】
カメラユニット1106は、画像又はビデオを収集するためのものである。任意には、カメラユニット1106は、フロントカメラ及びリアカメラを含む。一般的には、フロントカメラは、端末のフロントパネルに設けられ、リアカメラは、端末の裏面に設けられる。幾つかの実施例では、少なくとも2つのリアカメラを有する。これらのリアカメラは、それぞれメインカメラ、被写界深度カメラ、広角カメラ、望遠カメラのうちのいずれか1種であり、メインカメラと被写界深度カメラとの組合せによる背景ぼかし機能、メインカメラと広角カメラとの組合せによるパノラマ撮影及びVR(Virtual Reality、バーチャルリアリティ)撮影機能、又はその他の組合せによる撮影機能を実現する。幾つかの実施例では、カメラユニット1106は、さらにフラッシュを含んでもよい。フラッシュは、単色温度フラッシュでもよいし、デュアル色温度フラッシュでもよい。デュアル色温度フラッシュとは、ウォームライトフラッシュ及びコールドライトフラッシュの組合せであり、異なる色温度での光補正に用いることができる。
【0170】
オーディオ回路1107は、マイクロホン及びスピーカーを含むことができる。マイクロホンは、ユーザ及び環境の音波を収集し、音波を電気信号に変換して、プロセッサ1101に入力して処理し、又は、無線周波数回路1104に入力して音声通信を行うためのものである。ステレオ収集又はノイズ低減の目的で、端末1100の異なる箇所にそれぞれ設けられた複数のマイクロホンを有してもよい。マイクロホンは、アレイマイクロホン又は全方向集音型マイクロホンであってもよい。スピーカーは、プロセッサ1101又は無線周波数回路1104からの電気信号を音波に変換するためのものである。スピーカーは、伝統的な薄膜スピーカーでもよいし、圧電セラミックスピーカーでもよい。スピーカーが圧電セラミックスピーカーである場合、電気信号を人間に聞こえる音波に変換できるだけでなく、距離測定などの目的で電気信号を人間に聞こえない音波に変換することもできる。幾つかの実施例では、オーディオ回路1107は、さらにヘッドホンジャックを含んでもよい。
【0171】
位置決めユニット1108は、端末1100の現在の地理的位置を位置決めし、ナビゲーション又はLBS(Location Based Service、ロケーションベースサービス)を実現するためのものである。位置決めユニット1108は、米国のGPS(Global Positioning System、グローバルポジショニングシステム)、中国の北斗システム、ロシアのグレナスシステム又は欧州連合のガリレオシステムに基づく位置決めユニットであってもよい。
【0172】
電源1109は、端末1100における各ユニットに供電するためのものである。電源1109は、交流電源、直流電源、一次電池又は充電式電池であってもよい。電源1109が充電式電池を含む場合、当該充電式電池は、有線充電又は無線充電をサポートすることができる。当該充電式電池は、さらに急速充電技術をサポートするために使用できる。
【0173】
幾つかの実施例では、端末1100は、さらに1つ又は複数のセンサ1110を含む。当該1つ又は複数のセンサ1110は、加速度センサ1111、ジャイロセンサ1112、圧力センサ1113、指紋センサ1114、光学センサ1115及び近接センサ1116を含むが、これらに限定されない。
【0174】
加速度センサ1111は、端末1100で作成された座標系の3つの座標軸上の加速度の大きさを検出することができる。例えば、加速度センサ1111は、3つの座標軸上の重力加速度の成分を検出するために使用できる。プロセッサ1101は、加速度センサ1111が収集した重力加速度信号に従って、水平ビューまたは垂直ビューでユーザインタフェースを表示するようにディスプレイ1105を制御することができる。加速度センサ1111は、さらに、ゲーム又はユーザの運動データの収集に使用できる。
【0175】
ジャイロセンサ1112は、端末1100のボディー方向及び回転角度を検出することができ、加速度センサ1111と協調して端末1100に対するユーザの3D動作を収集することができる。プロセッサ1101は、ジャイロセンサ1112が収集したデータにより、モーションセンシング(例えば、ユーザの傾斜操作に応じるUIの変更)、撮影中の画像安定化、ゲームコントロール及び慣性航法という機能を実現できる。
【0176】
圧力センサ1113は、端末1100のサイドフレーム及び/又はディスプレイ1105の下層に配置することができる。圧力センサ1113が端末1100のサイドフレームに配置されると、端末1100に対するユーザの把持信号を検出し、プロセッサ1101によって、圧力センサ1113が収集した把持信号に従って、左/右手の認識又は迅速な操作を実行することができる。圧力センサ1113がディスプレイ1105の下層に配置されると、プロセッサ1101によって、ユーザのディスプレイ1105に対する圧力操作に従って、UIインタフェース上の操作性コントロールへの制御を実現する。操作性コントロールは、ボタンコントロール、スクロールバーコントロール、アイコンコントロール、メニューコントロールの少なくとも一種を含む。
【0177】
指紋センサ1114は、ユーザの指紋を収集するためのものである。プロセッサ1101によって、指紋センサ1114が収集した指紋によりユーザのアイデンティティを識別し、又は、指紋センサ1114によって、収集された指紋によりユーザのアイデンティティを識別する。ユーザのアイデンティティが信頼できるものとして認識されると、プロセッサ1101は、画面のロック解除、暗号化された情報の表示、ソフトウェアのダウンロード、支払い及び設定の変更等を含む関連する機密操作を実行することを当該ユーザに許可する。指紋センサ1114は、端末1100の表面、裏面又は側面に設けられ得る。端末1100に物理ボタン又はメーカーのロゴが設けられる場合、指紋センサ1114は、物理ボタン又はメーカーのロゴと統合され得る。
【0178】
光学センサ1115は、環境光の強度を収集するためのものである。一実施例では、プロセッサ1101は、光学センサ1115が収集した環境光の強度に応じて、ディスプレイ1105の表示輝度を制御することができる。具体的には、環境光の強度が高い場合に、ディスプレイ1105の表示輝度を高くし、環境光の強度が低い場合に、ディスプレイ1105の表示輝度を低くする。別の実施例では、プロセッサ1101は、光学センサ1115が収集した環境光の強度に応じて、カメラユニット1106の撮影パラメータを動的に調整することもできる。
【0179】
距離センサとも呼ばれる近接センサ1116は、通常、端末1100のフロントパネルに配置されている。近接センサ1116は、ユーザと端末1100の表面との間の距離を収集するためのものである。一実施例では、近接センサ1116が、ユーザと端末1100の表面との間の距離が徐々に小さくなることを検出すると、プロセッサ1101は、ディスプレイ1105を、画面点灯状態から画面消灯状態に切り替えるように制御する。近接センサ1116が、ユーザと端末1100の表面との間の距離が徐々に大きくなることを検出すると、プロセッサ1101は、ディスプレイ1105を、画面消灯状態から画面点灯状態に切り替えるように制御する。
【0180】
本分野の技術者は、端末1100は、図11に示される構造によって限定されず、図示されるよりも多いまたは少ない構成要素を含み得るか、特定の構成要素を組み合わせるか、または異なる構成要素配置を採用し得ることを理解できる。
【0181】
図12は、本発明の実施例で提供されるサーバの構造模式図である。当該サーバ1200は、配置又は性能の違いによって、大きな差異を生じる場合があり、1つ又は複数のプロセッサ(central processing units、CPU)1201及び1つ又は複数のメモリ1202を含むことができる。当該1つ又は複数のメモリ1202には、少なくとも一つの指令が記憶されており、当該少なくとも一つの指令は、当該1つ又は複数のプロセッサ1201によりローディングされて実行されることで、上記の各方法の実施例で提供される目標の位置取得方法を実現する。当然、当該サーバ1200は、さらに、入出力のために、有線又は無線ネットワークインタフェース、キーボード及び入出力インタフェース等の部材を有してもよい。当該サーバ1200は、さらに、デバイスの機能を実現するための他の部材を含んでもよい。ここでは、繰り返して述べない。
【0182】
例示的な実施例では、例えば指令メモリを含むコンピュータ読み取り可能な記憶媒体をさらに提供する。前記指令は、プロセッサにより実行されることで上記の実施例における目標の位置取得方法を達成することができる。例えば、当該コンピュータ読み取り可能な記憶媒体は、リードオンリメモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、コンパクトディスクリードオンリメモリ (Compact Disc Read-Only Memory、CD-ROM)、磁気テープ、フレキシブルディスク及び光学データ記憶装置等であってもよい。
【0183】
本分野における通常の技術者は、上記の実施例における全て又は一部のステップが、ハードウェアにより実現してもよく、プログラムからの指令で関連ハードウェアにより実現してもよいことを理解できる。当該プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。上記に述べた記憶媒体は、リードオンリメモリ、磁気ディスク又は光学ディスク等であってもよい。
【0184】
上記の内容は、本発明の好ましい実施例に過ぎず、本発明を制限するためのものではない。本発明の精神及び原則の範囲内で行われる修正、同等の置換、改良などは、全て本発明の保護範囲内に含まれるものとする。
【符号の説明】
【0185】
101,102 コンピュータ機器
901 画像取得モジュール
902 モデル呼び出しモジュール
903 位置取得モジュール
1001 画像取得モジュール
1002 モデルトレーニングモジュール
1003 位置取得モジュール
1100 端末
1101 プロセッサ
1102 メモリ
1103 周辺装置インタフェース
1104 無線周波数回路
1105 ディスプレイ
1106 カメラユニット
1107 オーディオ回路
1108 位置決めユニット
1109 電源
1110 センサ
1111 加速度センサ
1112 ジャイロセンサ
1113 圧力センサ
1114 指紋センサ
1115 光学センサ
1116 近接センサ
1200 サーバ
1201 プロセッサ
1202 メモリ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
【国際調査報告】