(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-13
(45)【発行日】2022-12-21
(54)【発明の名称】キーポイントの特定方法及び装置、機器、記憶媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20221214BHJP
【FI】
G06T7/00 350C
【外国語出願】
(21)【出願番号】P 2021039045
(22)【出願日】2021-03-11
【審査請求日】2021-08-19
(31)【優先権主張番号】202010538339.2
(32)【優先日】2020-06-12
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000914
【氏名又は名称】弁理士法人WisePlus
(72)【発明者】
【氏名】ワン, ジェン
(72)【発明者】
【氏名】ルー, ズーポン
(72)【発明者】
【氏名】スン, ハオ
(72)【発明者】
【氏名】ジャン, ホンウー
(72)【発明者】
【氏名】ウェン, シーレイ
(72)【発明者】
【氏名】ディン, アールイ
【審査官】伊知地 和之
(56)【参考文献】
【文献】中国特許出願公開第111191622(CN,A)
【文献】中国特許出願公開第111104925(CN,A)
【文献】欧州特許出願公開第03493106(EP,A1)
【文献】国際公開第2020/098225(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
(57)【特許請求の範囲】
【請求項1】
特定待ち画像の第1の特徴マップと第2の特徴マップを抽出することであって、ここで、前記第1の特徴マップは、前記第2の特徴マップと異なる特徴マップであることと、
前記第1の特徴マップに基づいて、前記特定待ち画像におけるキーポイントの初期位置を確定することと、
前記第2の特徴マップに基づいて、前記キーポイントのオフセット量を確定することと、
前記キーポイントの初期位置を前記キーポイントのオフセット量に加算することにより、前記キーポイントの最終位置が得られることと、
を含
み、
前記特定待ち画像の第1の特徴マップと第2の特徴マップを抽出することは、
特定待ち特徴マップをマスターネットワークに入力し、前記特定待ち画像の初期特徴マップを出力することと、
前記初期特徴マップを第1のサブネットワークおよび第2のサブネットワークにそれぞれ入力し、前記第1のサブネットワークから前記第1の特徴マップを出力し、前記第2のサブネットワークから前記第2の特徴マップを出力することであって、ここで、前記第1のサブネットワークと前記第2のサブネットワークは、前記マスターネットワークの2つの異なる分岐であることと、を含む、
キーポイントの特定方法。
【請求項2】
前記第1の特徴マップに基づいて、前記特定待ち画像におけるキーポイントの初期位置を確定することは、
前記第1の特徴マップに基づいて、前記特定待ち画像におけるキーポイントのヒートマップを生成することと、
前記ヒートマップ上のポイントの熱力値に基づいて、前記キーポイントの初期位置を確定することと、
を含む、
請求項1に記載の方法。
【請求項3】
前記第1の特徴マップに基づいて、前記特定待ち画像におけるキーポイントのヒートマップを生成することは、
1×1で前記第1の特徴マップを畳み込むことにより、前記ヒートマップが得られ、ここで、前記ヒートマップのチャネルは、前記キーポイントに1対1で対応することを含む、
請求項
2に記載の方法。
【請求項4】
前記第2の特徴マップに基づいて、前記キーポイントのオフセット量を確定することは、
前記キーポイントの初期位置に基づいて、前記第2の特徴マップの対応する位置において特徴を抽出することと、
前記特徴を用いてオフセット量の回帰を行うことにより、前記キーポイントのオフセット量が得られることと、
を含む、
請求項1に記載の方法。
【請求項5】
特定待ち画像の第1の特徴マップと第2の特徴マップを抽出するように構成される特徴マップ抽出モジュールであって、ここで、前記第1の特徴マップは、前記第2の特徴マップと異なる特徴マップである特徴マップ抽出モジュールと、
前記第1の特徴マップに基づいて、前記特定待ち画像におけるキーポイントの初期位置を確定するように構成される初期位置確定モジュールと、
前記第2の特徴マップに基づいて、前記キーポイントのオフセット量を確定するように構成されるオフセット量確定モジュールと、
前記キーポイントの初期位置を前記キーポイントのオフセット量に加算することにより、前記キーポイントの最終位置が得られるように構成される最終位置生成モジュールと、
を含む、
前記特徴マップ抽出モジュールは、さらに、
特定待ち特徴マップをマスターネットワークに入力し、前記特定待ち画像の初期特徴マップを出力し、
前記初期特徴マップを第1のサブネットワークおよび第2のサブネットワークにそれぞれ入力し、前記第1の特徴マップおよび前記第2の特徴マップを出力するように構成され、ここで、前記第1のサブネットワークと前記第2のサブネットワークは、前記マスターネットワークの2つの異なる分岐である、
キーポイントの特定装置。
【請求項6】
前記初期位置確定モジュールは、
前記第1の特徴マップに基づいて、前記特定待ち画像におけるキーポイントのヒートマップを生成するように構成されるヒートマップ生成サブモジュールと、
前記ヒートマップ上のポイントの熱力値に基づいて、前記キーポイントの初期位置を確定するように構成される初期位置確定サブモジュールと、
を含む、
請求項
5に記載の装置。
【請求項7】
前記ヒートマップ生成サブモジュールは、さらに、
1×1で前記第1の特徴マップを畳み込むことにより、前記ヒートマップが得られるように構成され、ここで、前記ヒートマップのチャネルは、前記キーポイントに1対1で対応する、
請求項
6に記載の装置。
【請求項8】
前記オフセット量確定モジュールは、さらに、
前記キーポイントの初期位置に基づいて、前記第2の特徴マップの対応する位置において特徴を抽出し、
前記特徴を用いてオフセット量の回帰を行うことにより、前記キーポイントのオフセット量が得られるように構成される、
請求項
5に記載の装置。
【請求項9】
1つ以上のプロセッサと、
1つ以上のプログラムが記憶された記憶装置と、
を含み、
前記1つ以上のプログラムが前記1つ以上のプロセッサによって実行されるとき、請求項1から
4のいずれか1項に記載の方法を前記1つ以上のプロセッサに実現させる、
電子機器。
【請求項10】
コンピュータプログラムが記憶されたコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項1から
4のいずれか1項に記載の方法を実現する、
コンピュータ可読媒体。
【請求項11】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項1から
4のいずれか1項に記載の方法を実現する
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施例は、コンピュータ技術の分野に関し、具体的には人工知能、深層学習、画像処理技術の分野に関し、特にキーポイントの特定方法及び装置、機器、記憶媒体に関する。
【背景技術】
【0002】
人体のキーポイントの特定とは、画像から例えば頭、五官、首、四肢などの人体の重要な部位の座標位置を検出して特定することである。当該技術は、人体の姿、運動の軌跡、動作の角度などの分析に広く使用され、スポーツ選手に対しスポーツのトレーニングを行うことを支援し、フィットネスのトレーニング効果を分析し、授業の効率を向上させることができる。
【0003】
現在、人体のキーポイントの特定の主な実施形態は、特徴マップ抽出器としてディープニューラルネットワークを使用し、この後、特徴マップに基づいてキーポイントのヒートマップを生成し、最後にヒートマップに基づいてキーポイントの位置を直接的に特定することである。
【発明の概要】
【課題を解決するための手段】
【0004】
本発明の実施例では、キーポイントの特定方法及び装置、機器、記憶媒体を提案する。
【0005】
第1側面において、本発明の実施例は、特定待ち画像の第1の特徴マップと第2の特徴マップを抽出することであって、ここで、第1の特徴マップは、第2の特徴マップと異なる特徴マップであることと、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定することと、第2の特徴マップに基づいて、キーポイントのオフセット量を確定することと、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られることと、を含むキーポイントの特定方法に関する。
【0006】
第2側面において、本発明の実施例は、特定待ち画像の第1の特徴マップと第2の特徴マップを抽出するように構成される特徴マップ抽出モジュールであって、ここで、第1の特徴マップは、第2の特徴マップと異なる特徴マップである特徴マップ抽出モジュールと、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定するように構成される初期位置確定モジュールと、第2の特徴マップに基づいて、キーポイントのオフセット量を確定するように構成されるオフセット量確定モジュールと、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られるように構成される最終位置生成モジュールと、を含むキーポイントの特定装置に関する。
【0007】
第3側面において、本発明の実施例は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信接続されたメモリと、を含み、ここで、メモリは、少なくとも1つのプロセッサによって実行可能な指令を記憶し、指令が少なくとも1つのプロセッサによって実行されることにより、第1側面のいずれかの実施形態で説明された方法を少なくとも1つのプロセッサに実現させる電子機器に関する。
【0008】
第4側面において、本発明の実施例は、コンピュータ指令が記憶された非一時的コンピュータ可読記憶媒体であって、コンピュータ指令は、第1側面のいずれかの実施形態で説明された方法をコンピュータに実行させるために使用される非一時的コンピュータ可読記憶媒体に関する。
【0009】
第5側面において、本発明の実施例は、コンピュータプログラムであって、プロセッサによって実行されると、第1側面のいずれかの実施形態で説明された方法を実現するコンピュータプログラムに関する。
【0010】
本発明の実施例によるキーポイントの特定方法及び装置、機器、記憶媒体は、まず、特定待ち画像の第1の特徴マップと第2の特徴マップを抽出し、次に、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定し、第2の特徴マップに基づいて、キーポイントのオフセット量を確定し、最後に、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られる。異なる特徴マップを使用して、キーポイントに対し粗い特定と正確な特定をそれぞれに行うことにより、粗い特定と正確な特定で注目された異なるタイプの特徴に対する特徴マップの学習能力を高め、最終的にキーポイントの特定の正確さを向上させる。直接にヒートマップに基づくキーポイントの特定に誤差があるという技術的問題を解決した。当該技術案は、オープンなAIプラットフォームに適用でき、既存のオープンソースの技術案より優れている。
【0011】
本明細書で記載された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図したものではなく、本開示の範囲を制限するものでもないことを理解すべきである。本開示の他の特徴は、以下の説明によって容易に理解される。
【0012】
本発明のその他の特徴、目的および利点をより明確にするために、以下の図面を参照してなされた非限定的な実施例の詳細な説明を参照する。図面は、本技術案をよりよく理解するために使用され、本発明に対する限定を構成しない。
【図面の簡単な説明】
【0013】
【
図1】本発明が適用可能な例示的なシステムアーキテクチャ図である。
【
図2】本発明によるキーポイントの特定方法の一実施例のフローチャートである。
【
図3】本発明によるキーポイントの特定方法の別の実施例のフローチャートである。
【
図4】本発明の実施例のキーポイントの特定方法を実現することができるシーン図である。
【
図5】本発明によるキーポイントの特定装置の一実施例の概略構成図である。
【
図6】本発明の実施例のキーポイントの特定方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0014】
以下、図面に関連して本発明の例示的な実施例を説明し、理解を容易にするための本発明の実施例の様々な詳細を含んでいるが、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本発明の範囲および精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更および修正を行うことができることを認識すべきである。同様に、明確かつ簡明にするために、以下の説明では、公知の機能および構造に対する説明が省略される。
【0015】
なお、矛盾しない場合には、本発明の実施例及び実施例における特徴を互いに組み合わせることができる。以下、図面を参照して、実施例に合わせて本発明を詳細に説明する。
【0016】
図1には、本発明が適用され得る、キーポイントの特定方法又はキーポイントの特定装置の実施例の例示的なシステムアーキテクチャ100が示されている。
【0017】
図1に示すように、システムアーキテクチャ100は、端末機器101、ネットワーク102およびサーバ103を含むことができる。ネットワーク102は、端末機器101とサーバ103との間に通信リンクの媒体を提供するために使用される。ネットワーク102としては、例えば有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。
【0018】
ユーザは、端末機器101を使用してネットワーク102を介してサーバ103とインタラクティブすることにより、メッセージなどを送受信することができる。端末機器101には、例えば画像処理アプリケーションなどの様々なクライアントアプリケーションをインストールすることができる。
【0019】
端末機器101は、ハードウェアでもソフトウェアでもよい。端末機器101がハードウェアである場合、カメラを有する様々な電子機器であってもよく、監視カメラ、スマートデバイスなどを含むがこれらに限定されない。端末機器101がソフトウェアである場合、上記電子機器にインストールすることができる。それは、複数のソフトウェアまたはソフトウェアモジュールとして実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定しない。
【0020】
サーバ103は、例えば画像処理アプリケーションのバックグラウンドサーバなどの様々なサービスを提供するサーバであってもよい。画像処理アプリケーションのバックグラウンドサーバは、端末機器101から受信された特定待ち画像などのデータに対し分析などの処理を行い、処理結果(例えばキーポイントの最終位置)を端末機器101にフィードバックすることができる。
【0021】
なお、サーバ103は、ハードウェアでもソフトウェアでもよい。サーバ103がハードウェアである場合、複数のサーバからなる分散型サーバクラスターとして実現されてもよく、単一のサーバとして実現されてもよい。サーバ103がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば分散型サービスを提供する)として実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定しない。
【0022】
なお、本発明の実施例によるキーポイントの特定方法は、一般的にサーバ103によって実行され、これに対応して、キーポイントの特定装置は、一般的にサーバ103に配置されている。
【0023】
図1の端末機器、ネットワーク、およびサーバの数は単なる例示であることを理解すべきである。必要に応じて、任意の数の端末機器、ネットワーク、およびサーバを備えることができる。サーバ103に特定待ち画像が記憶される場合、システムアーキテクチャ100には、端末機器101およびネットワーク102を設けなくてもよい。また、端末機器101が処理能力を有する場合、本発明の実施例によるキーポイントの特定方法は、端末機器101によって実行されてもよく、これに対応して、キーポイントの特定装置は、端末機器101に配置されてもよい。この場合、システムアーキテクチャ100には、ネットワーク102およびサーバ103を設けなくてもよい。
【0024】
続けて
図2を参照すると、本発明によるキーポイントの特定方法の一実施例のフロー200が示されている。当該キーポイントの特定方法は、以下のステップを含む。
【0025】
ステップ201において、特定待ち画像の第1の特徴マップと第2の特徴マップを抽出する。
【0026】
本実施例において、キーポイントの特定方法の実行主体(例えば
図1に示されたサーバ103)は、特定待ち画像を取得し、特定待ち画像の第1の特徴マップと第2の特徴マップを抽出することができる。
【0027】
通常、上記実行主体は、端末機器(例えば
図1に示された端末機器101)から特定待ち画像を取得することができる。ここで、端末機器は、画像収集機能をサポートする様々な電子機器であってもよく、監視カメラ、スマートデバイスなどを含むがこれらに限定されない。当該キーポイントの特定方法は、端末機器がより正確なキーポイントの特定を取得する能力を可能にすることにより、動作の識別、人体の局所的な属性および外観特徴の分析などの下流のアプリケーション分析をさらに支援することができる。また、特定待ち画像がローカルに記憶される場合、上記実行主体は、ローカルに記憶された特定待ち画像を取得することができる。
【0028】
実践において、第1の特徴マップは、第2の特徴マップと異なる特徴マップであってもよい。例えば、2つの独立したディープニューラルネットワークを使用してそれぞれ抽出された2つの特徴マップである。また例えば、1つのディープニューラルネットワークの2つの異なる畳み込み層を使用してそれぞれ抽出された2つの特徴マップである。さらに例えば、1つのディープニューラルネットワークの2つの独立した分岐を使用してそれぞれ抽出された2つの特徴マップである。
【0029】
ステップ202において、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定する。
【0030】
本実施例において、上記実行主体は、第1の特徴マップに基づいて粗い特定を行うことにより、キーポイントの大まかな位置を得ることができる。例えば、第1の特徴マップにおける特徴を分析して、特定待ち画像におけるキーポイントの初期位置を確定する。具体的に、第1の特徴マップにおける大きなスケールの大域的意味特徴を用いて、キーポイントの初期位置を確定することができる。ここで、キーポイントは、特定待ち画像に存在したターゲットの主要な部位上の点であってもよい。キーポイントの初期位置は、キーポイントの大まかな位置であってもよい。特定待ち画像に存在する人体を例にとると、その対応するキーポイントは、頭、五官、首、四肢などの部位上の点を含むことができるが、これらに限定されない。
【0031】
ステップ203において、第2の特徴マップに基づいて、キーポイントのオフセット量を確定する。
【0032】
本実施例において、上記実行主体は、第2の特徴マップに基づいて正確な特定を行うことにより、キーポイントの正確なオフセットを得ることができる。例えば、第2の特徴マップにおける特徴を分析して、特定待ち画像におけるキーポイントのオフセット量を確定する。具体的に、第2の特徴マップにおける小さなスケールの局所的意味特徴を用いて、キーポイントのオフセット量を確定することができる。ここで、キーポイントのオフセット量は、キーポイントの最終位置と初期位置との間のオフセットであってもよい。キーポイントの最終位置は、キーポイントの正確な位置であってもよい。
【0033】
ステップ204において、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られる。
【0034】
本実施例において、上記実行主体は、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置を得ることができる。
【0035】
本発明の実施例によるキーポイントの特定方法は、まず、特定待ち画像の第1の特徴マップと第2の特徴マップを抽出し、次に、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定し、第2の特徴マップに基づいて、キーポイントのオフセット量を確定し、最後に、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られる。異なる特徴マップを使用して、キーポイントに対し粗い特定と正確な特定をそれぞれに行うことにより、粗い特定と正確な特定で注目された異なるタイプの特徴に対する特徴マップの学習能力を高め、最終的にキーポイントの特定の正確さを向上させる。直接にヒートマップに基づくキーポイントの特定に誤差があるという技術的問題を解決した。当該技術案は、オープンなAIプラットフォームに適用でき、既存のオープンソースの技術案より優れている。
【0036】
さらに
図3を参照すると、本発明によるキーポイントの特定方法の別の実施例のフロー300が示されている。当該キーポイントの特定方法は、以下のステップを含む。
【0037】
ステップ301において、特定待ち特徴マップをマスターネットワークに入力し、特定待ち画像の初期特徴マップを出力する。
【0038】
本実施例において、キーポイントの特定方法の実行主体(例えば
図1に示されたサーバ103)は、1つのディープニューラルネットワークの2つの独立した分岐を使用して2つの特徴マップをそれぞれ抽出することができる。通常、ディープニューラルネットワークは、1つのマスターネットワークを含むことができ、マスターネットワークから第1のサブネットワークと第2のサブネットワークの2つの異なる分岐を引き出すことができる。まず特定待ち特徴マップをマスターネットワークに入力し、マスターネットワークは、特定待ち画像の初期特徴マップを出力することができる。ここで、マスターネットワークは、大量の畳み込み層を含むことができる。
【0039】
ステップ302において、初期特徴マップを第1のサブネットワークおよび第2のサブネットワークにそれぞれ入力し、第1の特徴マップおよび第2の特徴マップを出力する。
【0040】
本実施例において、上記実行主体は、マスターネットワークから出力された初期特徴マップを第1のサブネットワークおよび第2のサブネットワークにそれぞれ入力し、第1の特徴マップおよび第2の特徴マップを出力することができる。
【0041】
ここで、第1のサブネットワークと第2のサブネットワークは、マスターネットワークの2つの異なる分岐であってもよい。この2つの分岐は、大量の畳み込み層を含むことができ、その構造は同じでもいいし、異なってもいい。構造が同じである場合、2つの分岐が2つの異なる特徴マップを出力することを保証するために、そのパラメータが必ず異なる。
【0042】
ステップ303において、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントのヒートマップを生成する。
【0043】
本実施例において、上記実行主体は、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントのヒートマップを生成することができる。ここで、ヒートマップ上の各ポイントの熱力値は、それがキーポイントである確率を表すために用いることができる。通常、熱力値が大きいほど、対応するポイントがキーポイントである確率が高くなる。
【0044】
ステップ304において、ヒートマップ上のポイントの熱力値に基づいて、キーポイントの初期位置を確定する。
【0045】
本実施例において、上記実行主体は、ヒートマップ上のポイントの熱力値に基づいて、キーポイントの初期位置を確定することができる。例えば、上記実行主体は、熱力値が予め設定された閾値より大きいポイントをキーポイントとして大まかに確定することができ、そのヒートマップ上の位置は、キーポイントの初期位置である。
【0046】
いくつかの実施例において、1×1で第1の特徴マップを畳み込むことにより、ヒートマップを得ることができる。ここで、ヒートマップのチャネルの数は、キーポイントの数と同じであり、ヒートマップのチャネルは、キーポイントに1対1で対応する。1つのチャネルにおいて応答値が最も大きいポイントの位置が、対応するキーポイントの初期位置である。
【0047】
ステップ305において、キーポイントの初期位置に基づいて、第2の特徴マップの対応する位置において特徴を抽出する。
【0048】
本実施例において、上記実行主体は、キーポイントの初期位置に基づいて、第2の特徴マップにおいて対応する位置を検索し、対応する位置において特徴を抽出することができる。対応する位置だけで特徴を抽出するので、得られたものが、キーポイントの局所的意味特徴である。
【0049】
ステップ306において、特徴を用いてオフセット量の回帰を行うことにより、キーポイントのオフセット量が得られる。
【0050】
本実施例において、上記実行主体は、特徴を用いてオフセット量の回帰を行うことにより、キーポイントのオフセット量を得ることができる。
【0051】
ここで、キーポイントのオフセット量δは、式δ=func(F)によって得られる。Fは、キーポイントの初期位置に基づいて、第2の特徴マップの対応する位置において抽出された特徴である。funcは、回帰ネットワークであり、1~2層の全結合層であってよい。
【0052】
ステップ307において、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られる。
【0053】
本実施例において、ステップ307の具体的な動作は、
図2に示された実施例のステップ204において詳細に説明され、ここでは説明を省略する。
【0054】
図3から分かるように、
図2に対応する実施例と比較して、本実施例におけるキーポイントの特定方法のフロー300は、特徴マップを抽出するステップ及びオフセット量を確定するステップを強調している。したがって、本実施例で説明された技術案では、同じディープニューラルネットワークの異なる分岐を用いて第1の特徴マップおよび第2の特徴マップをそれぞれ抽出し、抽出プロセスは、同じ層と独立した層との両方を含み、2つの特徴マップに一定の関連があり、また一定の区別があるようにすることができる。また、粗い特定の段階とは異なる第2の特徴マップを用いて、キーポイントの位置誤差の回帰を行うことにより、キーポイントに対する正確な特定が実現された。
【0055】
理解を容易にするために、以下、本発明の実施例のキーポイントの特定方法を実現することができるシーン図を提供する。
図4に示すように、当該シーンは、特徴マップ抽出段階401と、粗い特定段階402と、正確な特定段階403とを含む。特徴マップ抽出段階401については、2つの独立した分岐を含む1つのディープニューラルネットワークを用いて、画像の第1の特徴マップと第2の特徴マップをそれぞれ抽出する。粗い特定段階402については、第1の特徴マップに基づいてヒートマップを生成し、ヒートマップ上のポイントの熱力値に基づいてキーポイントの大まかな位置を確定する。正確な特定段階403については、大まかな位置に基づいて第2の特徴マップの対応する位置において特徴を抽出し、また、特徴を用いてオフセット量の回帰を行うことにより、オフセット量が得られる。最後に、大まかな位置をオフセット量に加算することにより、正確な位置が得られる。
【0056】
さらに
図5を参照して、上記の各図に示された方法の実現として、本開示はキーポイントの特定装置の一実施例を提供し、当該装置の実施例は、
図2に示す方法実施例に対応し、当該装置は、具体的に様々な電子機器に適用できる。
【0057】
図5に示すように、本実施例に係るキーポイントの特定装置500は、特徴マップ抽出モジュール501と、初期位置確定モジュール502と、オフセット量確定モジュール503と、最終位置生成モジュール504とを含む。ここで、特徴マップ抽出モジュール501は、特定待ち画像の第1の特徴マップと第2の特徴マップを抽出するように構成され、ここで、第1の特徴マップは、第2の特徴マップと異なる特徴マップである。初期位置確定モジュール502は、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定するように構成される。オフセット量確定モジュール503は、第2の特徴マップに基づいて、キーポイントのオフセット量を確定するように構成される。最終位置生成モジュール504は、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られるように構成される。
【0058】
本実施例において、キーポイントの特定装置500において、特徴マップ抽出モジュール501、初期位置確定モジュール502、オフセット量確定モジュール503、及び最終位置生成モジュール504の具体的な処理およびそれによる技術的効果について、
図2の対応する実施例におけるステップ201~204の関連説明をそれぞれ参照することができ、ここでは説明を省略する。
【0059】
本実施例のいくつかの選択可能な実施形態において、特徴マップ抽出モジュール501は、さらに、特定待ち特徴マップをマスターネットワークに入力し、特定待ち画像の初期特徴マップを出力し、初期特徴マップを第1のサブネットワークおよび第2のサブネットワークにそれぞれ入力し、第1の特徴マップおよび第2の特徴マップを出力するように構成され、ここで、第1のサブネットワークと第2のサブネットワークは、マスターネットワークの2つの異なる分岐である。
【0060】
本実施例のいくつかの選択可能な実施形態において、初期位置確定モジュール502は、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントのヒートマップを生成するように構成されるヒートマップ生成サブモジュール(図示せず)と、ヒートマップ上のポイントの熱力値に基づいて、キーポイントの初期位置を確定するように構成される初期位置確定サブモジュール(図示せず)と、を含む。
【0061】
本実施例のいくつかの選択可能な実施形態において、ヒートマップ生成サブモジュールは、さらに、1×1で第1の特徴マップを畳み込むことにより、ヒートマップが得られるように構成され、ここで、ヒートマップのチャネルは、キーポイントに1対1で対応する。
【0062】
本実施例のいくつかの選択可能な実施形態において、オフセット量確定モジュール503は、さらに、キーポイントの初期位置に基づいて、第2の特徴マップの対応する位置において特徴を抽出し、特徴を用いてオフセット量の回帰を行うことにより、キーポイントのオフセット量が得られるように構成される。
【0063】
本発明の実施例によると、本発明は、電子機器及び可読記憶媒体をさらに提供する。
【0064】
図6に示すように、本発明の実施例のキーポイントの特定方法による電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことを意図している。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の類似のコンピューティングデバイスのような様々な形態のモバイルデバイスを表すこともできる。本明細書に示された部品、それらの接続および関係、およびそれらの機能は、単なる例にすぎ、本明細書で説明されおよび/または要求されている本発明の実現を制限することを意図しない。
【0065】
図6に示すように、当該電子機器は、少なくとも1つのプロセッサ601と、メモリ602と、高速インターフェースと低速インターフェースを含む各部品を接続するためのインターフェースとを含む。各部品は、異なるバスを利用して互いに接続され、共通マザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、GUIのグラフィカル情報を外部入力/出力装置(例えば、インターフェースにカップリングされた表示装置)に表示するためのメモリ内またはメモリ上に記憶された命令を含む、電子機器内で実行された指令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサおよび/または複数のバスを複数のメモリおよび複数のメモリとともに使用することができる。同様に、複数の電子機器を接続してもよく、各機器は、部分的に必要な動作(例えば、サーバアレイ、1組のブレードサーバ、またはマルチプロセッサシステムとして)を提供する。
図6では、1つのプロセッサ601を例にとる。
【0066】
メモリ602は、本発明による非一時的コンピュータ可読記憶媒体である。ここで、前記メモリは、少なくとも1つのプロセッサによって実行され得る指令を記憶することにより、本発明によるキーポイントの特定方法を前記少なくとも1つのプロセッサに実行させる。本発明の非一時的コンピュータ可読記憶媒体は、コンピュータ指令を記憶し、当該コンピュータ指令は、本発明によるキーポイントの特定方法をコンピュータに実行させるために使用される。
【0067】
メモリ602は、非一時的コンピュータ可読記憶媒体として、本発明の実施例におけるキーポイントの特定方法に対応するプログラム指令/モジュール(例えば、
図5に示された特徴マップ抽出モジュール501、初期位置確定モジュール502、オフセット量確定モジュール503、および最終位置生成モジュール504)のような、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、およびモジュールを記憶するために使用することができる。プロセッサ601は、メモリ602に記憶された非一時的ソフトウェアプログラム、指令およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行し、すなわち、上述した方法の実施例におけるキーポイントの特定方法が実現される。
【0068】
メモリ602は、プログラム記憶領域およびデータ記憶領域を含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、キーポイントの特定方法による電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ602としては、高速ランダムアクセスメモリを含むことができ、例えば少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一時的固体記憶装置などの非一時的メモリを含むこともできる。いくつかの実施例では、選択肢の一つとして、メモリ602は、プロセッサ601に対して遠隔的に配置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介してキーポイントの特定方法の電子機器に接続することができる。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルエリアネットワーク、モバイル通信ネットワークおよびその組み合わせを含むが、これらに限定されない。
【0069】
キーポイントの特定方法の電子機器は、入力装置603および出力装置604をさらに含むことができる。プロセッサ601、メモリ602、入力装置603および出力装置604は、バスまたは他の方法で接続することができ、
図6では、バスで接続されることを例にとる。
【0070】
入力装置603は、入力された数字または文字メッセージを受信し、キーポイントの特定方法の電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができ、例えばタッチスクリーン、キーパッド、マウス、トラックボード、タッチパッド、指示棒、1つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置604としては、表示装置、補助照明装置(例えば、LED)、および触覚フィードバック装置(例えば、振動モータ)などを含むことができる。当該表示装置としては、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施例では、表示装置は、タッチスクリーンであってもよい。
【0071】
ここで説明されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、以下の内容を含むことができ、即ち、1つ以上のコンピュータプログラムに実施され、当該1つ以上のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈することができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび指令を受信し、且つデータおよび指令を当該記憶システム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に送信することができる。
【0072】
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサのマシン指令を含み、高度なプロセスおよび/またはオブジェクトに向けたプログラミング言語、および/またはアセンブリ/マシン言語を利用してこれらの計算プログラムを実行することができる。本明細書で使用されたような用語「機械可読媒体」および「コンピュータ可読媒体」とは、機械指令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械可読信号である機械指令を受信する機械可読媒体を含む。用語「機械可読信号」とは、機械指令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を指す。
【0073】
ユーザとのインタラクティブを提供するために、ここで説明されたシステムおよび技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)を備え、ユーザは、当該キーボードおよび当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクティブを提供するために使用することもできる。例えば、ユーザに提供されたフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形態(声入力、音声入力、または触覚入力を含む)でユーザからの入力を受信してもよい。
【0074】
ここで説明されたシステムおよび技術を、バックグラウンド部品を含む計算システム(例えば、データサーバ)、またはミドルウエア部品を含む計算システム(例えば、アプリケーションサーバ)、またはフロントエンド部品を含む計算システム(例えば、グラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータが挙げられ、ユーザは、当該グラフィカルユーザインタフェースまたは当該ネットワークブラウザを介してここで説明されたシステムおよび技術の実施形態とインタラクティブすることができる)、またはこのようなバックグラウンド部品、ミドルウエア部品、またはフロントエンド部品の任意の組合せを含む計算システム上で実施することができる。システムの部品は、任意の形態またはメディアのデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されてもよい。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、およびインターネットを含む。
【0075】
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に互いに離れ、通常は通信ネットワークを介してインタラクティブする。クライアントとサーバとの関係は、対応するコンピュータ上で実行され、且つ互いにクライアント-サーバ関係を有するコンピュータプログラムによって生成される。
【0076】
本発明の技術案によると、まず、特定待ち画像の第1の特徴マップと第2の特徴マップを抽出し、次に、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定し、第2の特徴マップに基づいて、キーポイントのオフセット量を確定し、最後に、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られる。異なる特徴マップを使用して、キーポイントに対し粗い特定と正確な特定をそれぞれに行うことにより、粗い特定と正確な特定で注目された異なるタイプの特徴に対する特徴マップの学習能力を高め、最終的にキーポイントの特定の正確さを向上させる。直接にヒートマップに基づくキーポイントの特定に誤差があるという技術的問題を解決した。当該技術案は、オープンなAIプラットフォームに適用でき、既存のオープンソースの技術案より優れている。
【0077】
以上で示された様々な形態のフローを用いて、ステップを並べ替え、追加、または削除できることを理解すべきである。例えば、本発明に記載された各ステップは、並列的に実行されてもよいし、順次に実行されてもよいし、異なる順序で実行されてもよく、本発明に開示された技術案の所望の結果が達成される限り、本明細書では制限しない。
【0078】
上記具体的な実施形態は、本発明の保護範囲に対する制限を構成するものではない。当業者は、設計要件とその他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、および代替を行うことが可能であることを理解すべきである。本発明の精神及び原則内でなされたいかなる修正、均等置換及び改善等も、いずれも本発明の保護範囲に含まれるべきである。