(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-27
(54)【発明の名称】キーポイントの検出方法および装置、電子設備、記憶媒体、およびコンピュータプログラム
(51)【国際特許分類】
G06V 10/82 20220101AFI20221220BHJP
G06T 7/00 20170101ALI20221220BHJP
G06T 7/20 20170101ALI20221220BHJP
G06V 40/20 20220101ALI20221220BHJP
G06V 40/16 20220101ALI20221220BHJP
【FI】
G06V10/82
G06T7/00 350C
G06T7/20 300A
G06T7/20 300B
G06V40/20
G06V40/16 B
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022524649
(86)(22)【出願日】2020-12-10
(85)【翻訳文提出日】2022-04-26
(86)【国際出願番号】 CN2020135394
(87)【国際公開番号】W WO2021196718
(87)【国際公開日】2021-10-07
(31)【優先権主張番号】202010239542.X
(32)【優先日】2020-03-30
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】520291939
【氏名又は名称】北京市商▲湯▼科技▲開▼▲發▼有限公司
【氏名又は名称原語表記】BEIJING SENSETIME TECHNOLOGY DEVELOPMENT CO.,LTD.
【住所又は居所原語表記】Room 1101-1117,11th Floor No.58 Northwest 4th Ring Road, Haidian District Beijing 100080 China
(74)【代理人】
【識別番号】110000729
【氏名又は名称】特許業務法人 ユニアス国際特許事務所
(72)【発明者】
【氏名】金 晟
(72)【発明者】
【氏名】▲劉▼ 文▲韜▼
(72)【発明者】
【氏名】▲錢▼ 晨
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096FA06
5L096FA16
5L096FA19
5L096FA69
5L096HA11
(57)【要約】
本開示は、キーポイントの検出方法及び装置、電子設備、記憶媒体及びコンピュータプログラムを提供し、該方法は、目標対象を含む目標画像を特定するステップと、前記目標画像に対して第1キーポイント検出を行い、前記目標対象のキー位置情報を取得し、前記キー位置情報が前記目標対象における第1キーポイント情報と、前記目標対象の少なくとも一つの目標部位に対応する検出枠の位置点情報とを含むステップと、前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、各前記目標部位の前記目標画像における画像領域に対して第2キーポイント検出を行い、各前記目標部位に対応する第2キーポイント情報を取得するステップと、前記第1キーポイント情報及び前記第2キーポイント情報に基づいて、前記目標対象の対象キーポイント情報を特定するステップと、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
目標対象を含む目標画像を特定するステップと、
前記目標画像に対して第1キーポイント検出を行い、前記目標対象のキー位置情報を取得し、前記キー位置情報が前記目標対象における第1キーポイント情報と、前記目標対象の少なくとも一つの目標部位に対応する検出枠の位置点情報とを含むステップと、
前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、各前記目標部位の前記目標画像における画像領域に対して第2キーポイント検出を行い、各前記目標部位に対応する第2キーポイント情報を取得するステップと、
前記第1キーポイント情報及び前記第2キーポイント情報に基づいて、前記目標対象の対象キーポイント情報を特定するステップと、を含むことを特徴とするキーポイントの検出方法。
【請求項2】
前記目標画像に対して第1キーポイント検出を行い、前記目標対象のキー位置情報を取得する前記ステップは、
前記目標画像に対して第1畳み込み処理を行い、第1特徴マップを取得することと、
前記第1特徴マップに基づいて、前記目標対象のキー位置情報を特定することと、を含み、
前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、各前記目標部位の前記目標画像における画像領域に対して第2キーポイント検出を行い、各前記目標部位に対応する第2キーポイント情報を取得する前記ステップは、
前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、前記第1特徴マップから各前記目標部位に対応する第2特徴マップを切り取ることと、
前記第2特徴マップに基づいて、各前記目標部位に対応する第2キーポイント情報を特定することと、を含むことを特徴とする請求項1に記載の方法。
【請求項3】
目標特徴マップに対して畳み込み処理を行い、目標キーポイント情報を特定することであって、前記目標特徴マップが前記第1特徴マップである場合、前記目標キーポイント情報が前記目標対象のキー位置情報であり、前記目標特徴マップが前記第2特徴マップである場合、前記目標キーポイント情報が前記目標部位に対応する第2キーポイント情報である、
を特定することは、
前記目標特徴マップに対して特徴処理を複数回行い、サイズの異なる複数の中間特徴マップを生成することと、
前記複数の中間特徴マップに対してフュージョン処理を行い、フュージョン特徴マップを取得することと、
前記フュージョン特徴マップに基づいて、前記目標キーポイント情報を特定することと、を含むことを特徴とする請求項2に記載の方法。
【請求項4】
前記目標特徴マップに対して特徴処理を複数回行うことは、
今回の特徴処理を行う前の異なるサイズの特徴マップに対して、それぞれ少なくとも一段畳み込み処理を行い、異なるサイズの畳み込み特徴マップを取得することと、
前記異なるサイズの畳み込み特徴マップに対して複数種のフュージョン処理を行い、今回の特徴処理された異なるサイズの特徴マップを取得することと、によって今回の特徴処理を行うことを含むことを特徴とする請求項3に記載の方法。
【請求項5】
前記第1特徴マップは、多段第1特徴マップを含み、異なる段の第1特徴マップは、異なる段の畳み込み処理により得られるものであり、前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、前記第1特徴マップから各前記目標部位に対応する第2特徴マップを切り取ることは、
前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、前記多段第1特徴マップにおける異なる段の第1特徴マップから、それぞれ各前記目標部位に対応する第2特徴マップを切り取ることを含むことを特徴とする請求項2~4のいずれか一項に記載の方法。
【請求項6】
前記目標対象は、人間を含み、第1キーポイントは、少なくとも前記人間の四肢、頭部に分布し、
前記第1キーポイントの数量範囲は、5~25であることを特徴とする請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記目標部位は、人間の顔、足部、手部のうちの少なくとも一種を含み、
前記目標部位が顔を含む場合、顔に対応する第2キーポイントは、少なくとも前記顔の顔輪郭、目、眉毛、鼻、及び唇のうちの少なくとも一つの領域に分布し、
前記目標部位が足部を含む場合、足部に対応する第2キーポイントは、少なくとも前記足部の少なくとも一本の足の指、土踏まず、及び踵のうちの少なくとも一つの領域に分布し、
前記目標部位が手部を含む場合、手部に対応する第2キーポイントは、少なくとも前記手部の少なくとも一本の指、及び手のひらのうちの少なくとも一つの領域に分布することを特徴とする請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記目標部位が顔を含む場合、前記顔輪郭における第2キーポイントの数量範囲は、0~25であり、各前記目における第2キーポイントの数量範囲は、0~10であり、各前記眉毛における第2キーポイントの数量範囲は、0~10であり、前記鼻における第2キーポイントの数量範囲は、0~15であり、前記唇における第2キーポイントの数量範囲は、0~15であり、
前記目標部位が足部を含む場合、前記足部は、左足及び/又は右足を含み、いずれかの前記足部の第2キーポイントの数量範囲は、1~10であり、
前記目標部位が手部を含む場合、前記手部は、左手及び/又は右手を含み、いずれかの前記手部の第2キーポイントの数量範囲は、1~25であることを特徴とする請求項7に記載の方法。
【請求項9】
前記方法は、
特定された前記対象キーポイント情報に基づいて、前記目標対象の動作カテゴリ情報を特定し、又は、特定された前記対象キーポイント情報に基づいて、前記目標対象の三次元モデルを構築するステップをさらに含むことを特徴とする請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記目標部位が顔を含む場合、前記方法は、特定された前記対象キーポイント情報に基づいて、前記目標対象の顔表情カテゴリを特定することをさらに含み、
前記目標部位が手部を含む場合、前記方法は、特定された前記対象キーポイント情報に基づいて、前記目標対象のジェスチャ及び前記ジェスチャに対応するカテゴリを特定することをさらに含むことを特徴とする請求項1~8のいずれか一項に記載の方法。
【請求項11】
目標対象を含む目標画像を特定するための画像特定モジュールと、
前記目標画像に対して第1キーポイント検出を行い、前記目標対象のキー位置情報を取得し、前記キー位置情報が、前記目標対象における第1キーポイント情報と、前記目標対象の少なくとも一つの目標部位に対応する検出枠の位置点情報とを含むための第1検出モジュールと、
前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、各前記目標部位の前記目標画像における画像領域に対して第2キーポイント検出を行い、各前記目標部位に対応する第2キーポイント情報を取得するための第2検出モジュールと、
前記第1キーポイント情報及び前記第2キーポイント情報に基づいて、前記目標対象の対象キーポイント情報を特定するためのキーポイント特定モジュールと、を含むことを特徴とするキーポイントの検出装置。
【請求項12】
プロセッサと、記憶部と、バスと、を含み、
前記メモリに前記プロセッサが実行可能な機械読取可能命令が記憶され、前記電子設備が動作する場合、前記プロセッサと前記メモリとの間が前記バスを介して通信し、前記機械読取可能命令が前記プロセッサにより実行される場合、前記プロセッサに請求項1~10のいずれか一項に記載のキーポイントの検出方法を実行させることを特徴とする電子設備。
【請求項13】
コンピュータプログラムが記憶され、
該コンピュータプログラムがプロセッサにより実行される場合、前記プロセッサに請求項1~10のいずれか一項に記載のキーポイントの検出方法を実行させることを特徴とするコンピュータ読取可能記憶媒体。
【請求項14】
プロセッサにより実行される場合、前記プロセッサに請求項1~10のいずれか一項に記載のキーポイントの検出方法を実行させることを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータビジョンの技術分野に関し、具体的には、キーポイントの検出方法及び装置、電子設備、記憶媒体及びコンピュータプログラムに関する。
【0002】
<関連出願の相互参照>
本開示は、2020年3月30日に提出された出願番号が202010239542.Xであり、発明名称が「キーポイントの検出方法、装置、電子設備及び記憶媒体」の中国特許出願の優先権を主張し、該中国特許出願に開示されている全ての内容は、引用の方式で本明細書に組み込まれる。
【背景技術】
【0003】
近年、キーポイント検出は、ビデオ分析において重要な役割を果たし、例えば、セキュリティ分野において、ビデオ又は画像における目標対象の顔のキーポイントを検出することにより、該目標対象を識別することができる。
【0004】
現在、仮想現実(VirtualReality、VR)、拡張現実(AugmentedReality、AR)などの応用シーンにおいて、目標対象の様々なキーポイントを検出して目標対象の表示の真実性を向上させる必要があり、例えば、様々なキーポイントは、肢体キーポイント、ジェスチャーキーポイント、顔キーポイントなどを含むことができる。
【発明の概要】
【0005】
第1態様において、本開示は、キーポイントの検出方法を提供し、
目標対象を含む目標画像を特定するステップと、
前記目標画像に対して第1キーポイント検出を行い、前記目標対象のキー位置情報を取得し、前記キー位置情報が前記目標対象における第1キーポイント情報と、前記目標対象の少なくとも一つの目標部位に対応する検出枠の位置点情報とを含むステップと、
前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、各前記目標部位の前記目標画像における画像領域に対して第2キーポイント検出を行い、各前記目標部位に対応する第2キーポイント情報を取得するステップと、
前記第1キーポイント情報及び前記第2キーポイント情報に基づいて、前記目標対象の対象キーポイント情報を特定するステップと、を含む。
【0006】
目標画像の全図において目標対象の各部位の検出を直接的に行うと、目標対象の各部位の特徴の全図に占める割合が小さく、目標対象の細粒度の特徴に注目しにくく、検出精度が低いことをもたらすことを考慮し、本開示は、二つの段階のキーポイント検出を提供し、目標画像から目標対象を位置決めした後、第1キーポイント検出により目標対象の第1キーポイント情報及び少なくとも一つの目標部位の検出枠の位置点情報を位置決めし、次にそれぞれ各目標部位の画像領域に対してより細粒度の第2キーポイント検出を行い、それによってより正確な目標対象の対象キーポイント情報を取得することができる。
【0007】
一つの可能な実施形態において、前記目標画像に対して第1キーポイント検出を行い、前記目標対象のキー位置情報を取得する前記ステップは、
前記目標画像に対して第1畳み込み処理を行い、第1特徴マップを取得することと、
前記第1特徴マップに基づいて、前記目標対象のキー位置情報を特定することと、を含み、
前記目標対象の各前記目標部位にそれぞれ対応する検出枠の位置点情報に基づいて、各前記目標部位の前記目標画像における画像領域に対して第2キーポイント検出を行い、各前記目標部位に対応する第2キーポイント情報を取得する前記ステップは、
前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、前記第1特徴マップから各前記目標部位に対応する第2特徴マップを切り取ることと、
前記第2特徴マップに基づいて、各前記目標部位に対応する第2キーポイント情報を特定することと、を含む。
【0008】
上記実施形態において、目標画像に対して畳み込み処理を行った後に取得された第1特徴マップから各目標部位に対応する第2特徴マップを切り取り、該第2特徴マップに基づいて第2キーポイント検出を行うことは、目標画像から各目標部位に対応する画像を切り取ってから処理を行うことに比べて、特徴処理の回数を減少させ、キーポイント検出の演算量を減少させることができる。
【0009】
一つの可能な実施形態において、目標特徴マップに対して畳み込み処理を行い、目標キーポイント情報を特定することであって、前記目標特徴マップが前記第1特徴マップである場合、前記目標キーポイント情報が前記目標対象のキー位置情報であり、前記目標特徴マップが前記第2特徴マップである場合、前記目標キーポイント情報が前記目標部位に対応する第2キーポイント情報である、を特定することは、
前記目標特徴マップに対して特徴処理を複数回行い、サイズの異なる複数の中間特徴マップを生成することと、
前記複数の中間特徴マップに対してフュージョン処理を行い、フュージョン特徴マップを取得することと、
前記フュージョン特徴マップに基づいて、前記目標キーポイント情報を特定することと、を含む。
【0010】
上記実施形態において、目標特徴マップに対して特徴処理を複数回行うことにより、対応する受容野が異なるサイズの異なる複数の中間特徴マップを生成し、さらに複数の中間特徴マップにフュージョン処理を行い、フュージョン特徴マップを取得し、取得されたフュージョン特徴マップがサイズの異なる中間特徴マップに対応する特徴を含むことができ、さらにフュージョン特徴マップに基づいて目標キーポイント情報を特定し、それによりキーポイント検出の精度を向上させることができる。
【0011】
一つの可能な実施形態において、前記目標特徴マップに特徴処理を複数回行うことは、今回の特徴処理を行う前の異なるサイズの特徴マップに対して、それぞれ少なくとも一段畳み込み処理を行い、異なるサイズの畳み込み特徴マップを取得することと、
前記異なるサイズの畳み込み特徴マップに対して複数種のフュージョン処理を行い、今回の特徴処理された異なるサイズの特徴マップを取得することと、によって今回の特徴処理を行うことを含む。
【0012】
上記実施形態において、今回の特徴処理について、異なるサイズの特徴マップに対して少なくとも一段畳み込み処理を行い且つ複数種のフュージョン処理を行い、今回の特徴処理された異なるサイズの特徴マップを取得し、ここで、異なるサイズの特徴マップの受容野が異なり、さらに異なるサイズの特徴マップに含まれる特徴情報も異なり、すなわち取得された異なるサイズの特徴マップに含まれる特徴情報が多いため、後続の第1キーポイント情報又は第2キーポイント情報の検出に多くの特徴情報を提供し、キーポイント検出の精度を向上させることができる。
【0013】
一つの可能な実施形態において、前記第1特徴マップは、多段第1特徴マップを含み、異なる段の第1特徴マップは、異なる段の畳み込み処理により得られるものであり、前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、前記第1特徴マップから各前記目標部位に対応する第2特徴マップを切り取ることは、
前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、前記多段の第1特徴マップにおける異なる段の第1特徴マップから、それぞれ各前記目標部位に対応する第2特徴マップを切り取ることを含む。
【0014】
一つの可能な実施形態において、前記目標対象は、人間を含み、第1キーポイントは、少なくとも前記人間の四肢、頭部に分布し、前記第1キーポイントの数量範囲は、5~25である。
【0015】
一つの可能な実施形態において、前記目標部位は、人間の顔、足部、手部のうちの少なくとも一種を含み、前記目標部位が顔を含む場合、顔に対応する第2キーポイントは、少なくとも前記顔の顔輪郭、目、眉毛、鼻、及び唇のうちの少なくとも一つの領域に分布し、前記目標部位が足部を含む場合、足部に対応する第2キーポイントは、少なくとも前記足部の少なくとも一本の足の指、土踏まず、及び踵のうちの少なくとも一つの領域に分布し、前記目標部位が手部を含む場合、手部に対応する第2キーポイントは、少なくとも前記手部の少なくとも一本の指、及び手のひらのうちの少なくとも一つの領域に分布する。
【0016】
上記実施形態において、少なくとも一種の目標部位の検出により、異なる応用シーンで、検出ニーズに応じて異なる目標部位に対して細粒度のキーポイント検出を行うことができる。
【0017】
一つの可能な実施形態において、前記目標部位が顔を含む場合、前記顔輪郭における第2キーポイントの数量範囲は、0~25であり、各前記目における第2キーポイントの数量範囲は、0~10であり、各前記眉毛における第2キーポイントの数量範囲は、0~10であり、前記鼻における第2キーポイントの数量範囲は、0~15であり、前記唇における第2キーポイントの数量範囲は、0~15であり、前記目標部位が足部を含む場合、前記足部は、左足及び/又は右足を含み、いずれかの前記足部の第2キーポイントの数量範囲は、1~10であり、前記目標部位が手部を含む場合、前記手部は、左手及び/又は右手を含み、いずれかの前記手部の第2キーポイントの数量範囲は、1~25である。
【0018】
一つの可能な実施形態において、前記方法は、特定された前記対象キーポイント情報に基づいて、前記目標対象の動作カテゴリ情報を特定し、又は、特定された前記対象キーポイント情報に基づいて、前記目標対象の三次元モデルを構築することをさらに含む。
【0019】
上記実施形態に基づいて対象キーポイント情報をより正確に検出して得た後、該対象キーポイント情報を応用すれば目標対象の動作カテゴリ情報をより正確に特定するか又は目標対象の三次元モデルを構築することができる。
【0020】
一つの可能な実施形態において、前記目標部位が顔を含む場合、前記方法は、特定された前記対象キーポイント情報に基づいて、前記目標対象の顔表情カテゴリを特定することをさらに含み、前記目標部位が手部を含む場合、前記方法は、特定された前記対象キーポイント情報に基づいて、前記目標対象のジェスチャ及び前記ジェスチャに対応するカテゴリを特定することをさらに含む。
【0021】
上記実施形態に基づいて対象キーポイント情報をより正確に検出して得た後、該対象キーポイント情報を応用すれば目標対象の顔表情カテゴリをより正確に特定するか又は目標対象のジェスチャ及びジェスチャカテゴリを特定することができる。
【0022】
以下の装置、電子設備等の効果説明は、上記方法の説明を参照し、ここで説明を省略する。
【0023】
第2態様において、本開示は、キーポイントの検出装置を提供し、前記検出装置は、目標対象を含む目標画像を特定するための画像特定モジュールと、前記目標画像に対して第1キーポイント検出を行い、前記目標対象のキー位置情報を取得するための第1検出モジュールと、前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、各前記目標部位の前記目標画像における画像領域に対して第2キーポイント検出を行い、各前記目標部位に対応する第2キーポイント情報を取得するための第2検出モジュールと、前記第1キーポイント情報及び前記第2キーポイント情報に基づいて、前記目標対象の対象キーポイント情報を特定するためのキーポイント特定モジュールと、を含み、前記キー位置情報が、前記目標対象における第1キーポイント情報と、前記目標対象の少なくとも一つの目標部位に対応する検出枠の位置点情報とを含む。
【0024】
一つの可能な実施形態において、前記第1検出モジュールは、前記目標画像に対して第1キーポイント検出を行い、前記目標対象のキー位置情報を取得する場合、前記目標画像に対して第1畳み込み処理を行い、第1特徴マップを取得し、前記第1特徴マップに基づいて、前記目標対象のキー位置情報を特定するために用いられ、前記第2検出モジュールは、前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、各前記目標部位の前記目標画像における画像領域に対して第2キーポイント検出を行い、各前記目標部位に対応する第2キーポイント情報を取得する場合、前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、前記第1特徴マップから各前記目標部位に対応する第2特徴マップを切り取り、前記第2特徴マップに基づいて、各前記目標部位に対応する第2キーポイント情報を特定するために用いられる。
【0025】
一つの可能な実施形態において、前記第1検出モジュールと前記第2検出モジュールは、それぞれ以下のステップに基づいて目標特徴マップに対して畳み込み処理を行い、目標キーポイント情報を特定するために用いられ、ここで、前記目標特徴マップが前記第1特徴マップである場合、前記目標キーポイント情報が前記目標対象のキー位置情報であり、かつ前記第1検出モジュールにより以下のステップを実行し、前記目標特徴マップが前記第2特徴マップである場合、前記目標キーポイント情報が前記目標部位に対応する第2キーポイント情報であり、かつ前記第2検出モジュールにより以下のステップを実行し、
前記目標特徴マップに対して特徴処理を複数回行い、サイズの異なる複数の中間特徴マップを生成し、
前記複数の中間特徴マップに対してフュージョン処理を行い、フュージョン特徴マップを取得し、
前記フュージョン特徴マップに基づいて、前記目標キーポイント情報を特定する。
【0026】
一つの可能な実施形態において、第1検出モジュールと前記第2検出モジュールは、前記目標特徴マップに特徴処理を複数回行う場合、それぞれ、今回の特徴処理を行う前の異なるサイズの特徴マップに対して、それぞれ少なくとも一段畳み込み処理を行い、異なるサイズの畳み込み特徴マップを取得することと、前記異なるサイズの畳み込み特徴マップに対して複数種のフュージョン処理を行い、今回の特徴処理された異なるサイズの特徴マップを取得することと、によって今回の特徴処理を行うために用いられる。
【0027】
一つの可能な実施形態において、前記第1特徴マップは、多段第1特徴マップを含み、異なる段の第1特徴マップは、異なる段の畳み込み処理により得られるものであり、前記第2検出モジュールは、前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、前記第1特徴マップから各前記目標部位に対応する第2特徴マップを切り取る場合、前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、前記多段第1特徴マップにおける異なる段の第1特徴マップから、それぞれ各前記目標部位に対応する第2特徴マップを切り取るために用いられる。
【0028】
一つの可能な実施形態において、前記目標対象は、人間を含み、第1キーポイントは、少なくとも前記人間の四肢、頭部に分布し、前記第1キーポイントの数量範囲は、5~25である。
【0029】
一つの可能な実施形態において、前記目標部位は、人間の顔、足部、手部のうちの少なくとも一種を含み、前記目標部位が顔を含む場合、顔に対応する第2キーポイントは、少なくとも前記顔の顔輪郭、目、眉毛、鼻、及び唇のうちの少なくとも一つの領域に分布し、前記目標部位が足部を含む場合、足部に対応する第2キーポイントは、少なくとも前記足部の少なくとも一本の足の指、土踏まず、及び踵のうちの少なくとも一つの領域に分布し、前記目標部位が手部を含む場合、手部に対応する第2キーポイントは、少なくとも前記手部の少なくとも一本の指、及び手のひらのうちの少なくとも一つの領域に分布する。
【0030】
一つの可能な実施形態において、前記目標部位が顔を含む場合、前記顔輪郭における第2キーポイントの数量範囲は、0~25であり、各前記目における第2キーポイントの数量範囲は、0~10であり、各前記眉毛における第2キーポイントの数量範囲は、0~10であり、前記鼻における第2キーポイントの数量範囲は、0~15であり、前記唇における第2キーポイントの数量範囲は、0~15であり、前記目標部位が足部を含む場合、前記足部は、左足及び/又は右足を含み、いずれかの前記足部の第2キーポイントの数量範囲は、1~10であり、前記目標部位が手部を含む場合、前記手部は、左手及び/又は右手を含み、いずれかの前記手部の第2キーポイントの数量範囲は、1~25である。
【0031】
一つの可能な実施形態において、前記装置は、特定された前記対象キーポイント情報に基づいて、前記目標対象の動作カテゴリ情報を特定するための特定モジュールと、特定された前記対象キーポイント情報に基づいて、前記目標対象の三次元モデルを構築するための構築モジュールと、をさらに含む。
【0032】
一つの可能な実施形態において、前記装置は、特定された前記対象キーポイント情報に基づいて、前記目標対象の顔表情カテゴリを特定するための表情識別モジュールをさらに含み、前記装置は、特定された前記対象キーポイント情報に基づいて、前記目標対象のジェスチャ及び前記ジェスチャに対応するカテゴリを特定するためのジェスチャ識別モジュールをさらに含む。
【0033】
第3態様において、本開示は、電子設備を提供し、プロセッサと、記憶部と、バスと、を含み、前記メモリに前記プロセッサが実行可能な機械読取可能命令が記憶され、電子設備が動作する場合、前記プロセッサと前記メモリとの間がバスを介して通信し、前記機械読取可能命令が前記プロセッサにより実行される場合、前記プロセッサに上記第1態様又はいずれか一実施形態に記載のキーポイントの検出方法を実行させる。
【0034】
第4態様において、本開示は、コンピュータ読取可能記憶媒体を提供し、該コンピュータ読取可能記憶媒体にコンピュータプログラムが記憶され、該コンピュータプログラムがプロセッサにより実行される場合、前記プロセッサに上記第1態様又はいずれか一実施形態に記載のキーポイントの検出方法を実行させる。
【0035】
第5態様において、本開示は、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサに実行される場合、前記プロセッサに上記第1態様又はいずれか一実施形態に記載のキーポイントの検出方法を実行させる。
【0036】
本開示の上記目的、特徴及び利点をより明らかにするために、以下、好ましい実施例を挙げ、かつ添付の図面を合わせて、以下のように詳細に説明する。
【図面の簡単な説明】
【0037】
本開示の実施例をより明確に説明するために、以下に実施例に必要な図面を簡単に紹介し、ここでの図面は、明細書に組み込まれかつ本明細書の一部を構成し、これらの図面は、本開示に合致する実施例を示し、かつ明細書と共に本開示を説明するために用いられる。理解すべきことは、以下の図面は、本開示のいくつかの実施例のみを示すため、範囲を限定するものと見なされるべきではなく、当業者にとって、創造的な労力を要することなく、これらの図面に基づいて他の関連する図面を取得することができる。
【
図1】
図1は、本開示の実施例が提供するキーポイントの検出方法のフローチャートを示す。
【
図2】
図2は、本開示の実施例が提供するキーポイントの検出方法において、目標キーポイント情報を特定する具体的な方法のフローチャートを示す。
【
図3】
図3は、本開示の実施例が提供するキーポイントの検出方法において、目標特徴マップに対して特徴処理を複数回行う具体的な方法のフローチャートを示す。
【
図4】
図4は、本開示の実施例が提供するキーポイント検出ニューラルネットワークの構造概略図を示す。
【
図5】
図5は、本開示の実施例が提供するキーポイントの検出装置のアーキテクチャ概略図を示す。
【
図6】
図6は、本開示の実施例が提供する電子設備の構造概略図を示す。
【発明を実施するための形態】
【0038】
本開示の実施例の目的、特徴及び利点をより明確にするために、以下に本開示の実施例における図面を参照しながら、本開示の実施例を明確で、完全に説明し、明らかに、説明される実施例は、本開示の一部の実施例だけであり、全ての実施例ではない。通常、添付図面に記載されて例示される本開示の実施例の構成要素は、様々な異なる構成で構成され、設計され取得する。したがって、以下に図面に提供された本開示の実施例に対する詳細な説明は、特許請求される本開示の範囲を限定するものではなく、本開示の特定の実施例のみを示す。本開示の実施例に基づいて、当業者が創造的な労力を要さずに想到し取得する他の実施例は、いずれも本開示の保護範囲に属する。
【0039】
目標対象に対してキーポイント検出を行うことにより、目標対象に対して動作、表情、ジェスチャ等の識別を行うことができる。通常、キーポイント検出を行う場合、それぞれ異なる畳み込みニューラルネットワークにより異なる部位のキーポイントを検出することができ、例えば、第1畳み込みニューラルネットワークにより目標対象の肢体キーポイントを検出し、第2畳み込みニューラルネットワークにより目標対象の顔キーポイントを検出し、第3畳み込みニューラルネットワークにより目標対象の手部キーポイントを検出することができる。上記方式により目標対象の複数種のキーポイントを検出する場合、必要な畳み込みニューラルネットワークモデルの数量が多く、キーポイント検出過程における計算量が大きく、さらにキーポイントの検出効率が低いことをもたらす。
【0040】
又は、キーポイントの数量及びタイプを増加させることにより、目標対象の複数種のキーポイントに対する検出を実現することができる。例示的には、キーポイントニューラルネットワークにより、肢体、顔、手部などを含むキーポイントを取得することができる。しかしながら、手部領域、顔領域の肢体領域に対する面積が小さいため、このような方式により取得された手部、顔などのキーポイントの精度が低い。
【0041】
したがって、キーポイント検出の効率及び精度を向上させるために、本開示の実施例は、キーポイントの検出方法を提供する。
【0042】
本開示の実施例を理解しやすくするために、まず本開示の実施例が提供するキーポイントの検出方法を詳細に説明する。
【0043】
図1に示すように、本開示の実施例が提供するキーポイントの検出方法のフローチャートであり、該方法は、
ステップS101、目標対象を含む目標画像を特定し、
ステップS102、目標画像に対して第1キーポイント検出を行い、目標対象のキー位置情報を取得し、キー位置情報が目標対象における第1キーポイント情報と、目標対象の少なくとも一つの目標部位に対応する検出枠の位置点情報とを含み、
ステップS103、目標対象の少なくとも一つの目標部位における各目標部位に対応する検出枠の位置点情報に基づいて、各目標部位の目標画像における画像領域に対して第2キーポイント検出を行い、各目標部位に対応する第2キーポイント情報を取得し、
ステップS104、第1キーポイント情報及び第2キーポイント情報に基づいて、目標対象の対象キーポイント情報を特定すること、を含む。
【0044】
目標画像の全図において目標対象の各部位の検出を直接的に行うと、目標対象の各部位の特徴の全図に占める割合が小さく、目標対象の細粒度の特徴に注目しにくく、検出精度が低いことをもたらすことを考慮し、本開示は、二つの段階のキーポイント検出を提供し、目標画像から目標対象を位置決めした後、第1キーポイント検出により目標対象の第1キーポイント情報及び少なくとも一つの目標部位の検出枠の位置点情報を位置決めし、次にそれぞれ各目標部位の画像領域に対してより細粒度の第2キーポイント検出を行い、それによってより正確な目標対象の対象キーポイント情報を取得することができる。
【0045】
以下、ステップS101~S104について説明する。
ステップS101については、本開示の実施例において、目標対象は人間、動物などであってもよく、すなわち目標画像は、人間、動物などを含む画像であってもよい。例示的には、初期画像を取得することができ、かつ初期画像を目標画像として特定することができ、該初期画像は、一つ又は複数の目標対象を含むことができ、又は、対象検出ニューラルネットワークにより初期画像に対して対象検出を行い、初期画像に含まれる各目標対象の検出枠を取得し、各目標対象の検出枠に基づいて、初期画像から各目標対象に対応する領域画像を切り取ることができる。さらに、各目標対象に対応する領域画像を該目標対象に対応する目標画像とすることができ、又は、各目標対象に対応する領域画像のサイズを第1所定サイズに調整し、サイズ調整された領域画像を各目標対象に対応する目標画像とすることもできる。
【0046】
ステップS102及びステップS103については、ここで、キーポイント検出ニューラルネットワークにより目標画像を検出し、目標画像に対応する対象キーポイント情報を取得することができる。例示的には、キーポイント検出ニューラルネットワークは、第1キーポイント検出ネットワーク、及び少なくとも一つの第2キーポイント検出ネットワークなどを含むことができる。
【0047】
ここで、キーポイント検出ニューラルネットワークにおける第1キーポイント検出ネットワークにより目標画像に対して第1キーポイント検出を行い、目標対象のキー位置情報を取得することができ、該キー位置情報は、目標対象における第1キーポイント情報と、目標対象の少なくとも一つの目標部位に対応する検出枠の位置点情報とを含む。ここで、第1キーポイント情報は、目標対象のキーポイントの画像座標系における座標位置を含むがそれに限定されず、目標部位に対応する検出枠の位置点情報は、目標部位に対応する検出枠の少なくとも一つの位置点の画像座標系における座標位置を含むがそれに限定されない。
【0048】
例示的には、目標対象が人間を含む場合、第1キーポイントは、少なくとも人間の四肢、頭部に分布することができる。目標部位は、人間の顔、足部、手部のうちの少なくとも一種を含むことができ、そのうち、目標部位が顔を含む場合、顔に対応する第2キーポイントは、少なくとも顔の顔輪郭、目、眉毛、鼻、及び唇のうちの少なくとも一つの領域に分布し、目標部位が足部を含む場合、足部に対応する第2キーポイントは、少なくとも足部の少なくとも一本の足の指、土踏まず及び踵のうちの少なくとも一つの領域に分布し、目標部位が手部を含む場合、手部に対応する第2キーポイントは、少なくとも手部の少なくとも一本の指、及び手のひらのうちの少なくとも一つの領域に分布する。少なくとも一種の目標部位の検出により、異なる応用シーンで、検出ニーズに応じて異なる目標部位に対して細粒度のキーポイント検出を行うことができる。
【0049】
ここで、目標対象が人間を含む場合、目標部位のタイプ及び数量は、実際の状況に応じて特定することができ、例えば、目標部位は、顔及び手部を含むことができ、又は、目標部位は、顔及び足部を含むことができ、又は、目標部位は、さらに顔、手部及び足部を含むことができる。さらに、各目標部位は、対応する第2キーポイント検出ネットワークを有することができ、具体的には目標部位の状況に基づいて、使用される第2キーポイント検出ネットワークのタイプを特定することができる。
【0050】
例示的には、目標部位は人間の顔、足部、手部を含むことができ、少なくとも一つの第2キーポイント検出ネットワークは、顔第2キーポイント検出ネットワーク、足部第2キーポイント検出ネットワーク、手部第2キーポイント検出ネットワークを含むことができる。さらに、顔に対応する検出枠の位置点情報に基づいて、顔に対応する画像領域を特定し、さらに顔第2キーポイント検出ネットワークにより顔に対応する画像領域に対してキーポイント検出を行い、目標対象の顔に対応する第2キーポイント情報を取得することができる。
【0051】
例示的には、足部第2キーポイント検出ネットワークは、左足第2キーポイント検出ネットワーク及び/又は右足第2キーポイント検出ネットワークであってもよく、手部第2キーポイント検出ネットワークは、左手第2キーポイント検出ネットワーク及び/又は右手部第2キーポイント検出ネットワークであってもよい。
【0052】
一つの可能な実施形態において、手部第2キーポイント検出ネットワークが左手第2キーポイント検出ネットワークである場合、左手に対応する検出枠の位置点情報に基づいて、左手に対応する画像領域を特定し、さらに左手第2キーポイント検出ネットワークにより左手に対応する画像領域に対してキーポイント検出を行い、目標対象の左手に対応する第2キーポイント情報を取得し、かつ右手に対応する検出枠の位置点情報に基づいて、右手に対応する画像領域を特定し、右手に対応する画像領域に水平反転処理を行い、かつ水平反転処理された右手に対応する画像領域を左手第2キーポイント検出ネットワークに入力し、水平反転処理された画像領域に対応する第2キーポイント情報を取得し、取得された第2キーポイント情報に対してさらに水平反転処理を行い、右手に対応する第2キーポイント情報を取得する。足部の第2キーポイント情報の特定過程は、手部の第2キーポイント情報の特定過程を参照することができ、ここで説明を省略する。
【0053】
一つの好ましい実施形態において、目標画像に対して第1キーポイント検出を行い、目標対象のキー位置情報を取得することは、前記目標画像に対して第1畳み込み処理を行い、第1特徴マップを取得し、第1マップに基づいて、目標対象のキー位置情報を特定することを含む。
【0054】
目標対象の少なくとも一つの目標部位における各目標部位に対応する検出枠の位置点情報に基づいて、各目標部位の目標画像における画像領域に対して第2キーポイント検出を行い、各目標部位に対応する第2キーポイント情報を取得することは、目標対象の各目標部位に対応する検出枠の位置点情報に基づいて、第1特徴マップから各目標部位に対応する第2特徴マップを切り取り、第2特徴マップに基づいて、各目標部位に対応する第2キーポイント情報を特定することを含む。
【0055】
例示的には、取得された第2特徴マップのサイズを第2所定サイズに調整し、調整された第2特徴マップを取得し、調整された第2特徴マップに基づいて、各目標部位に対応する第2キーポイント情報を特定することができる。
【0056】
ここで、キーポイント検出ニューラルネットワークは、少なくとも一段畳み込みニューラルネットワークをさらに含むことができ、キーポイント検出ニューラルネットワークに含まれる少なくとも一段畳み込みニューラルネットワークにより目標画像に対して第1畳み込み処理を行い、第1特徴マップを取得し、第1特徴マップを第1キーポイント検出ネットワークに入力し、目標対象のキー位置情報を取得する。目標部位が顔、手部、足部を含む場合、取得されたキー位置情報は、第1キーポイント情報と、顔に対応する検出枠の位置点情報と、手部に対応する検出枠の位置点情報と、足部に対応する検出枠の位置点情報とを含む。例示的には、位置点情報は、検出枠の四つの頂点の位置情報及び/又は中心点の位置情報等を含むことができる。
【0057】
さらに、各目標部位に対応する検出枠の位置点情報に基づいて、第1特徴マップから該目標部位に対応する第2特徴マップを切り取り、該目標部位に対応する第2特徴マップを該目標部位に対応する第2キーポイント検出ネットワークに入力してキーポイント検出を行い、該目標部位に対応する第2キーポイント情報を取得することができる。例えば、顔に対応する検出枠の位置点情報に基づいて、第1特徴マップから顔に対応する第2特徴マップを切り取り、かつ該顔に対応する第2特徴マップを顔第2キーポイント検出ネットワークに入力して顔キーポイント検出を行い、顔に対応する第2キーポイント情報を取得する。
【0058】
例示的には、目標対象の各目標部位に対応する検出枠の位置点情報及びRoIAlign技術に基づいて、第1特徴マップから各目標部位に対応する第2特徴マップを切り取ることができる。例えば、各目標部位に対応する検出枠の位置点情報に基づいて、RoIAlign技術により、検出枠の各位置点情報の第1特徴マップにおける対応する目標位置情報を特定し、さらに特定された各目標部位に対応する検出枠の目標位置情報に基づいて、第1特徴マップから該目標部位に対応する第2特徴マップを切り取る。
【0059】
本開示の実施例において、目標画像に対して畳み込み処理を行った後に取得された第1特徴マップから各目標部位に対応する第2特徴マップを切り取り、該第2特徴マップに基づいて第2キーポイント検出を行うことは、目標画像から各目標部位に対応する画像を切り取り、さらに処理を行うことに比べて、特徴処理の回数を減少させ、キーポイント検出の演算量を減少させることができる。
【0060】
一つの好ましい実施例において、第1特徴マップは、多段第1特徴マップを含むことができ、異なる段の第1特徴マップは、異なる段の畳み込み処理により得られるものである。例えば、キーポイント検出ニューラルネットワークに含まれる少なくとも一段の畳み込みニューラルネットワークは、三段畳み込みニューラルネットワークであってもよく、すなわち第1段畳み込みニューラルネットワーク、第2段畳み込みニューラルネットワーク、第3段畳み込みニューラルネットワークであり、目標画像を順に第1段畳み込みニューラルネットワーク及び第2段畳み込みニューラルネットワークに入力して畳み込み処理を行い、第1段特徴マップを取得し、さらに第1段特徴マップを第3段畳み込みニューラルネットワークに入力して畳み込み処理を行い、第2段第1特徴マップを取得することができる。ここで、キーポイント検出ニューラルネットワークに含まれる少なくとも一段畳み込みニューラルネットワークの段数は、実際の必要に応じて設定することができ、例えば、キーポイント検出ニューラルネットワークに含まれる少なくとも一段畳み込みニューラルネットワークは、五段畳み込みニューラルネットワーク、又は十段畳み込みニューラルネットワーク等であってもよく、第1段第1特徴マップを取得する畳み込み回数と第2段第1特徴マップを取得する畳み込み回数は、実際の必要に応じて設定することができる。
【0061】
第1特徴マップが多段第1特徴マップを含む場合、目標対象の各目標部位に対応する検出枠の位置点情報に基づいて、第1特徴マップから各目標部位に対応する第2特徴マップを切り取ることは、目標対象の各目標部位に対応する検出枠の位置点情報に基づいて、多段第1特徴マップにおける異なる段の第1特徴マップから、各目標部位に対応する第2特徴マップをそれぞれ切り取ることを含む。
【0062】
ここで、多段第1特徴マップが第1段第1特徴マップ及び第2段第1特徴マップを含む場合、目標対象の各目標部位に対応する検出枠の位置点情報及びRoIAlign技術に基づいて、各目標部位に対応する検出枠の位置点情報の第1段第1特徴マップにおける目標位置情報及び第2段第1特徴マップにおける目標位置情報を特定することができ、かつ各目標部位に対応する検出枠の位置点情報の第1段第1特徴マップにおける目標位置情報に基づいて、第1段第1特徴マップから目標部位に対応する第1段第2特徴マップを切り取り、かつ各目標部位に対応する検出枠の位置点情報の第2段第1特徴マップにおける目標位置情報に基づいて、第2段第1特徴マップから目標部位に対応する第2段第2特徴マップを切り取る。
【0063】
例示的には、
図2に示すように、次のステップで、目標特徴マップに対して畳み込み処理を行い、目標キーポイント情報を特定し、目標特徴マップが第1特徴マップである場合、目標キーポイント情報が目標対象のキー位置情報であり、目標特徴マップが第2特徴マップである場合、目標キーポイント情報が目標部位に対応する第2キーポイント情報である。
【0064】
ステップS201、目標特徴マップに対して特徴処理を複数回行い、サイズの異なる複数の中間特徴マップを生成する。
【0065】
ステップS202、複数の中間特徴マップに対してフュージョン処理を行い、フュージョン特徴マップを取得する。
【0066】
ステップS203、フュージョン特徴マップに基づいて、目標キーポイント情報を特定する。
【0067】
ここで、複数の中間特徴マップのサイズは、予め設定された比率と一致することができ、例えば、複数の中間特徴マップは、三つの中間特徴マップを含み、予め設定された比率が1:2:4であれば、三つの中間特徴マップのサイズの比率は1:2:4である。例示的には、畳み込みニューラルネットワークにより複数の中間特徴マップのサイズを一致するように調整し、さらにサイズ調整された複数の中間特徴マップに対してフュージョン処理を行い、フュージョン特徴マップを取得することができる。さらに、フュージョン特徴マップに分析処理を行い、目標キーポイント情報を取得する。
【0068】
上記実施形態において、目標特徴マップに対して特徴処理を複数回行うことにより、対応する受容野が異なるサイズの異なる複数の中間特徴マップを生成し、さらに複数の中間特徴マップにフュージョン処理を行い、フュージョン特徴マップを取得し、取得されたフュージョン特徴マップがサイズの異なる中間特徴マップに対応する特徴を含むことができ、さらにフュージョン特徴マップに基づいて目標キーポイント情報を特定し、それによりキーポイント検出の精度を向上させることができる。
【0069】
一つの好ましい実施形態において、
図3に示すように、目標特徴マップに特徴処理を複数回行うことは、
ステップS301、今回の特徴処理を行う前の異なるサイズの特徴マップに対して、それぞれ少なくとも一段畳み込み処理を行い、異なるサイズの畳み込み特徴マップを取得し、
ステップS302、異なるサイズの畳み込み特徴マップに対して複数種のフュージョン処理を行い、今回の特徴処理された異なるサイズの特徴マップを取得することに基づいて、今回の特徴処理を行うことを含む。
【0070】
ステップS301を説明すると、少なくとも一段畳み込み処理後に取得された畳み込み特徴マップのサイズは、少なくとも一段畳み込み処理前の特徴マップのサイズと同じであってもよく、異なってもよい。同時に、少なくとも一段畳み込み処理後に取得された異なるサイズの畳み込み特徴マップのサイズにも比例関係が存在する。
【0071】
ステップS302を説明すると、例示的には、異なるサイズの畳み込み特徴マップが第1サイズの第1畳み込み特徴マップと、第2サイズの第2畳み込み特徴マップと、第3サイズの第3畳み込み特徴マップを含む場合、異なるサイズの畳み込み特徴マップに対して複数種のフュージョン処理を行うことは、第2畳み込み特徴マップ及び第3畳み込み特徴マップのサイズをそれぞれ第1サイズに調整し、かつ第1畳み込み特徴マップ、サイズ調整された第2畳み込み特徴マップ、及びサイズ調整された第3畳み込み特徴マップに対して特徴フュージョン処理を行い、今回の特徴処理された第1サイズの特徴マップを取得し、第1畳み込み特徴マップ及び第3畳み込み特徴マップのサイズをそれぞれ第2サイズに調整し、かつサイズ調整された第1畳み込み特徴マップ、第2畳み込み特徴マップ、及びサイズ調整された第3畳み込み特徴マップに対して特徴フュージョン処理を行って、今回の特徴処理された第2サイズの特徴マップを取得し、第1畳み込み特徴マップ及び第2畳み込み特徴マップのサイズをそれぞれ第3サイズに調整し、かつサイズ調整された第1畳み込み特徴マップ、サイズ調整された第2畳み込み特徴マップ、及び第3畳み込み特徴マップに対して特徴フュージョン処理を行って、今回の特徴処理された第3サイズの特徴マップを取得することができることを含むことができる。ここで、前回の特徴処理された第1サイズの特徴マップ、第2サイズの特徴マップ及び第3サイズの特徴マップは、今回の特徴処理された異なるサイズの特徴マップである。
【0072】
上記実施形態において、今回の特徴処理について、異なるサイズの特徴マップに対して少なくとも一段畳み込み処理を行い且つ複数種のフュージョン処理を行い、今回の特徴処理された異なるサイズの特徴マップを取得し、ここで、異なるサイズの特徴マップの受容野が異なり、さらに異なるサイズの特徴マップに含まれる特徴情報も異なり、すなわち取得された異なるサイズの特徴マップに含まれる特徴情報が多いため、後続の第1キーポイント情報又は第2キーポイント情報の検出に多くの特徴情報を提供し、キーポイント検出の精度を向上させることができる。
【0073】
ここで、キーポイントの検出方法の過程を例に挙げて説明し、例えば、キーポイント検出ニューラルネットワークにより目標画像を検出し、目標画像に対応する対象キーポイント情報を取得することができる。ここで、目標部位が顔及び手部を含む場合、キーポイント検出ニューラルネットワークの構造概略図は、
図4に示すとおりである。
【0074】
図4から分かるように、キーポイント検出ニューラルネットワークは、第1キーポイント検出ネットワーク41と、顔第2キーポイント検出ネットワーク42と、手部第2キーポイント検出ネットワーク43とを含む。
【0075】
具体的には、目標画像F0をキーポイント検出ニューラルネットワークに入力し、少なくとも一段畳み込みニューラルネットワークにより目標画像F0に対して特徴抽出を行い、第2段第2特徴マップF1を取得し、第1段第1特徴マップF1に対してさらに少なくとも一段畳み込みニューラルネットワークにより特徴抽出を行い、第2段第1特徴マップF2を取得する。そのうち、第1段第1特徴マップF1と第2段第1特徴マップF2のサイズは、同じであってもよく、異なってもよい。
【0076】
さらに、第2段第1特徴マップF2を第1キーポイント検出ネットワーク41に入力し、少なくとも一段畳み込みニューラルネットワークにより第2段第1特徴マップF2に対して特徴抽出を行い、特徴マップF3を取得し、特徴マップF3に対して少なくとも一段畳み込み処理を行って特徴マップF41を取得し、かつ特徴マップF3に対してダウンサンプル処理又は畳み込み処理を行って特徴マップF42を取得し、ここで、特徴マップF41と特徴マップF42のサイズに比例関係があり、例えば、特徴マップF41のサイズと特徴マップF42のサイズとの間の比例は、2:1であってもよい。
【0077】
さらに、それぞれ特徴マップF41、及び特徴マップF42に少なくとも一段畳み込み処理を行い、対応する畳み込み特徴マップF51、及び畳み込み特徴マップF52を取得し、ここで、畳み込み特徴マップF51のサイズは、特徴マップF41のサイズと同じであってもよく、畳み込み特徴マップF52のサイズは、特徴マップF42のサイズと同じであってもよい。
【0078】
さらに畳み込み特徴マップF51と畳み込み特徴マップF52に対して複数種のフュージョン処理を行い、特徴マップF61、特徴マップF62、特徴マップF63を取得し、ここで、特徴マップF61のサイズは、畳み込み特徴マップF51のサイズと同じであってもよく、特徴マップF62のサイズは、畳み込み特徴マップF52のサイズと同じであってもよく、特徴マップF61、特徴マップF62、及び特徴マップF63の間のサイズ比率は、4:2:1であってもよい。具体的には、複数種のフュージョン処理の過程は、畳み込み特徴マップF52のサイズを調整することにより、調整された畳み込み特徴マップF52のサイズが畳み込み特徴マップF51のサイズと同じであり、畳み込み特徴マップF51とサイズ調整された畳み込み特徴マップF52に特徴フュージョン処理を行い、特徴マップF61を取得し、畳み込み特徴マップF51のサイズを調整することにより、調整された畳み込み特徴マップF51のサイズが畳み込み特徴マップF52のサイズと同じであり、畳み込み特徴マップF52とサイズ調整された畳み込み特徴マップF51に特徴フュージョン処理を行い、特徴マップF62を取得し、畳み込み特徴マップF51と畳み込み特徴マップF52のサイズを調整することにより、調整された畳み込み特徴マップF51及び畳み込み特徴マップF52のサイズが所定サイズ(すなわち、特徴マップF63に対応するサイズ)であり、サイズ調整された畳み込み特徴マップF51と畳み込み特徴マップF52に特徴フュージョン処理を行い、特徴マップF63を取得することである。
【0079】
ここで、特徴マップのサイズを調整する方式は、アップサンプル処理方式、ダウンサンプル処理方式、畳み込み処理方式等を含むがこれらに限定されない。特徴フュージョン処理過程は、特徴マップをカスケードの方式でフュージョンし、又は特徴マップを畳み込みニューラルネットワークによりフュージョンし、又は特徴マップをカスケードした後に畳み込みニューラルネットワークに入力してフュージョンしてもよい。ここで、特徴マップのサイズ調整の方式及び特徴フュージョン処理の方式は、様々であり、ここで具体的に限定しない。
【0080】
ここで、特徴マップF61、特徴マップF62、及び特徴マップF63により、畳み込み特徴マップF71、畳み込み特徴マップF72、及び畳み込み特徴マップF73を取得する過程は、畳み込み特徴マップF51、畳み込み特徴マップF52を取得する過程を参照することができ、ここで説明を省略する。畳み込み特徴マップF71、畳み込み特徴マップF72、畳み込み特徴マップF73に対して複数種のフュージョン処理を行うことにより、特徴マップF81、特徴マップF82、特徴マップF83、及び特徴マップF84を取得する過程は、特徴マップF61、特徴マップF62、及び特徴マップF63を取得する過程を参照することができ、ここでは説明を省略する。
【0081】
最後に特徴マップF81、特徴マップF82、特徴マップF83、及び特徴マップF84に対してそれぞれ少なくとも一段畳み込み処理を行い、対応する中間特徴マップを取得し、さらに中間特徴マップに対して特徴フュージョン処理を行い、フュージョン特徴マップを取得し、最後にフュージョン特徴マップに基づいて、キー位置情報を特定し、キー位置情報は、第1キーポイント情報と、顔に対応する検出枠の位置点情報と、手部に対応する検出枠の位置点情報とを含む。
【0082】
さらに、手部に対応する検出枠の位置点情報に基づいて、第1段第1特徴マップF1と第2段第1特徴マップF2から、それぞれ手部に対応する第1段第2特徴マップF12と第2段第2特徴マップF22を取得し、手部に対応する第1段第2特徴マップF12と第2段第2特徴マップF22を手部第2キーポイント検出ネットワーク43に入力して処理し、手部の第2キーポイント情報を取得することができる。ここで、手部第2キーポイント検出ネットワーク43の処理過程は、第1キーポイント検出ネットワーク41の処理過程を参照することができ、ここで説明を省略する。
【0083】
同時に、顔に対応する検出枠の位置点情報に基づいて、第1段第1特徴マップF1と第2段第1特徴マップF2から、それぞれ顔に対応する第1段第2特徴マップF13と第2段第2特徴マップF23を取得し、顔に対応する第1段第2特徴マップF13と第2段第2特徴マップF23を顔第2キーポイント検出ネットワーク42に入力して処理し、顔の第2キーポイント情報を取得することができる。ここで、顔第2キーポイント検出ネットワーク42の処理過程は、第1キーポイント検出ネットワーク41の処理過程を参照することができ、ここで説明を省略する。
【0084】
ここで、第1キーポイント検出ネットワーク41、顔第2キーポイント検出ネットワーク42、及び手部第2キーポイント検出ネットワーク43の構造は、例示的な説明に過ぎない。
【0085】
ステップS104については、目標対象の対象キーポイント情報は、第1キーポイント情報と、各目標部位に対応する第2キーポイント情報とを含む。
【0086】
例示的には、第1キーポイントの数量範囲は、5~25であってもよく、目標部位が顔を含む場合、顔に含まれる顔輪郭における第2キーポイントの数量範囲は、0~25であり、各前記目における第2キーポイントの数量範囲は、0~25であってもよく、各目における第2キーポイントの数量範囲は、0~10であってもよく、各眉毛における第2キーポイントの数量範囲は、0~10であってもよく、鼻における第2キーポイントの数量範囲は、0~15であってもよく、唇における第2キーポイントの数量範囲は、0~15であり、目標部位が足部を含む場合、足部は、左足及び/又は右足を含み、いずれかの足部の第2キーポイントの数量範囲は、1~10であってもよく、目標部位が手部を含む場合、手部は、左手及び/又は右手を含み、いずれかの手部の第2キーポイントの数量範囲は1~25であってもよい。
【0087】
ここで、第1キーポイントの数量及び各目標部位に対応する第2キーポイントの数量は、実際の検出シーン及び検出精度に対するニーズに応じて特定することができる。以下は、単に例示的な説明であり、第1キーポイントの数量は、15個であってもよく、人体の四肢関節位置及び頭部輪郭に分布することができる。目標部位が顔を含む場合、顔に対応する第2キーポイントの数量は、6個であってもよく、顔の五官に分布し、すなわち顔の両眼、両眉、鼻及び唇に分布することができる。目標部位が足部を含む場合、足部は、左足及び/又は右足を含み、いずれかの足部の第2キーポイントの数量は、2個であってもよく、踵及び中趾に分布し、すなわち左足の第2キーポイントの数量は、2個であってもよく、及び/又は右足の第2キーポイントの数量は、2個であってもよい。目標部位が手部を含む場合、手部は、左手及び/又は右手を含み、いずれかの手部における第2キーポイントの数量は、6個であってもよく、手のひらの中心位置及び各本の指の指先に分布し、すなわち左手の第2キーポイントの数量は、6個であってもよく、及び/又は右手の第2キーポイントの数量は、6個であってもよい。
【0088】
一つの好ましい実施形態において、該方法は、特定された対象キーポイント情報に基づいて、目標対象の動作カテゴリ情報を特定し、又は、特定された対象キーポイント情報に基づいて、目標対象の三次元モデルを構築することをさらに含む。
【0089】
例示的には、目標対象の対象キーポイント情報を特定した後、対象キーポイント情報を動作検出ニューラルネットワークに入力し、該目標対象の動作カテゴリ情報を取得することができる。又は、対象キーポイント情報を三次元モデル構築ソフトウェアに入力し、目標対象の三次元モデルを構築することができる。
【0090】
上記実施形態に基づいて対象キーポイント情報をより正確に検出して得た後、該対象キーポイント情報を応用すれば目標対象の動作カテゴリ情報をより正確に特定するか又は目標対象の三次元モデルを構築することができる。
【0091】
一つの好ましい実施形態において、目標部位が顔を含む場合、該方法は、特定された対象キーポイント情報に基づいて、目標対象の顔表情カテゴリを特定することをさらに含む。
【0092】
例示的には、特定された対象キーポイント情報を顔識別ニューラルネットワークに入力し、識別して目標対象の顔表情カテゴリを取得することができる。
【0093】
目標部位が手部を含む場合、該方法は、特定された対象キーポイント情報に基づいて、目標対象のジェスチャ及びジェスチャに対応するカテゴリを特定することをさらに含む。
【0094】
例示的には、特定された対象キーポイント情報をジェスチャ識別ニューラルネットワークに入力し、識別して目標対象のジェスチャ及びジェスチャカテゴリを取得することができる。
【0095】
上記実施形態に基づいて対象キーポイント情報をより正確に検出して得た後、該対象キーポイント情報を応用すれば目標対象の顔表情カテゴリをより正確に特定し、及び/又は目標対象のジェスチャ及びジェスチャカテゴリを特定することができる。
【0096】
当業者であれば理解できるように、上記方法において、各ステップの順序は、厳密な実行順序であり実施過程を任意に限定するものを意味せず、各ステップの具体的な実行順序は、その機能及び可能な固有論理により特定されるべきである。
【0097】
同じ構想に基づいて、本開示の実施例は、キーポイントの検出装置をさらに提供し、
図5に示すように、本開示の実施例が提供するキーポイントの検出装置のアーキテクチャ概略図であり、前記装置は、画像特定モジュール501と、第1検出モジュール502と、第2検出モジュール503と、キーポイント特定モジュール504と、特定モジュール505と、構築モジュール506と、表情識別モジュール507と、ジェスチャ識別モジュール508とを含み、具体的には、特定モジュール501は、目標対象を含む目標画像を特定するために用いられ、第1検出モジュール502は、前記目標画像に対して第1キーポイント検出を行い、前記目標対象のキー位置情報を取得するために用いられ、前記キー位置情報は、前記目標対象における第1キーポイント情報と、前記目標対象の少なくとも一つの目標部位に対応する検出枠の位置点情報とを含み、第2検出モジュール503は、前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、各前記目標部位の前記目標画像における画像領域に対して第2キーポイント検出を行い、各前記目標部位に対応する第2キーポイント情報を取得するために用いられ、キーポイント特定モジュール504は、前記第1キーポイント情報及び前記第2キーポイント情報に基づいて、前記目標対象の対象キーポイント情報を特定するために用いられる。
【0098】
一つの可能な実施形態において、前記第1検出モジュール502は、前記目標画像に対して第1キーポイント検出を行い、前記目標対象のキー位置情報を取得する場合、前記目標画像に対して第1畳み込み処理を行い、第1特徴マップを取得し、前記第1特徴マップに基づいて、前記目標対象のキー位置情報を特定するために用いられ、前記第2検出モジュール503は、前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、各前記目標部位の前記目標画像における画像領域に対して第2キーポイント検出を行い、各前記目標部位に対応する第2キーポイント情報を取得する場合、前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、前記第1特徴マップから各前記目標部位に対応する第2特徴マップを切り取り、前記第2特徴マップに基づいて、各前記目標部位に対応する第2キーポイント情報を特定するために用いられる。
【0099】
一つの可能な実施形態において、前記第1検出モジュール502と前記第2検出モジュール503は、それぞれ以下のステップに基づいて目標特徴マップに対して畳み込み処理を行い、目標キーポイント情報を特定するために用いられ、ここで、前記目標特徴マップが前記第1特徴マップである場合、前記目標キーポイント情報が前記目標対象のキー位置情報であり、かつ前記第1検出モジュール502により以下のステップを実行し、前記目標特徴マップが前記第2特徴マップである場合、前記目標キーポイント情報が前記目標部位に対応する第2キーポイント情報であり、かつ前記第2検出モジュール503により以下のステップを実行し、
前記目標特徴マップに対して特徴処理を複数回行い、サイズの異なる複数の中間特徴マップを生成し、
前記複数の中間特徴マップに対してフュージョン処理を行い、フュージョン特徴マップを取得し、
前記フュージョン特徴マップに基づいて、前記目標キーポイント情報を特定する。
【0100】
一つの可能な実施形態において、第1検出モジュール502と前記第2検出モジュール503は、前記目標特徴マップに特徴処理を複数回行う場合、それぞれ、
今回の特徴処理を行う前の異なるサイズの特徴マップに対して、それぞれ少なくとも一段畳み込み処理を行い、異なるサイズの畳み込み特徴マップを取得することと、
前記異なるサイズの畳み込み特徴マップに対して複数種のフュージョン処理を行い、今回の特徴処理された異なるサイズの特徴マップを取得することと、によって今回の特徴処理を行うために用いられる。
【0101】
一つの可能な実施形態において、前記第1特徴マップは、多段第1特徴マップを含み、異なる段の第1特徴マップは異なる段の畳み込み処理により得られるものであり、前記第2検出モジュール503は、前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、前記第1特徴マップから各前記目標部位に対応する第2特徴マップを切り取る場合、前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、前記多段第1特徴マップにおける異なる段の第1特徴マップから、それぞれ各前記目標部位に対応する第2特徴マップを切り取るために用いられる。
【0102】
一つの可能な実施形態において、前記目標対象は、人間を含み、第1キーポイントは、少なくとも前記人間の四肢、頭部に分布してもよく、前記第1キーポイントの数量範囲は、5~25である。
【0103】
一つの可能な実施形態において、前記目標部位は、人間の顔、足部、手部のうちの少なくとも一種を含むことができ、前記目標部位が顔を含む場合、顔に対応する第2キーポイントは、少なくとも前記顔の顔輪郭、目、眉毛、鼻、及び唇のうちの少なくとも一つの領域に分布し、前記目標部位が足部を含む場合、足部に対応する第2キーポイントは、少なくとも前記足部の少なくとも一本の足の指、土踏まず、及び踵のうちの少なくとも一つの領域に分布し、前記目標部位が手部を含む場合、手部に対応する第2キーポイントは、少なくとも前記手部の少なくとも一本の指、及び手のひらのうちの少なくとも一つの領域に分布する。
【0104】
一つの可能な実施形態において、前記目標部位が顔を含む場合、前記顔輪郭における第2キーポイントの数量範囲は、0~25であり、各前記目における第2キーポイントの数量範囲は、0~10であり、各前記眉毛における第2キーポイントの数量範囲は、0~10であり、前記鼻における第2キーポイントの数量範囲は、0~15であり、前記唇における第2キーポイントの数量範囲は、0~15であり、前記目標部位が足部を含む場合、前記足部は、左足及び/又は右足を含み、いずれかの前記足部の第2キーポイントの数量範囲は、1~10であり、前記目標部位が手部を含む場合、前記手部は、左手及び/又は右手を含み、いずれかの前記手部の第2キーポイントの数量範囲は、1~25である。
【0105】
一つの可能な実施形態において、前記装置は、特定された前記対象キーポイント情報に基づいて、前記目標対象の動作カテゴリ情報を特定するための特定モジュール505と、特定された前記対象キーポイント情報に基づいて、前記目標対象の三次元モデルを構築するための構築モジュール506と、をさらに含む。
【0106】
一つの可能な実施形態において、前記装置は、特定された前記対象キーポイント情報に基づいて、前記目標対象の顔表情カテゴリを特定するための表情識別モジュール507をさらに含み、前記装置は、特定された前記対象キーポイント情報に基づいて、前記目標対象のジェスチャ及び前記ジェスチャに対応するカテゴリを特定するためのジェスチャ識別モジュール508をさらに含む。
【0107】
いくつかの実施例において、本開示の実施例が提供する装置の有する機能又は含まれるテンプレートは、上記方法の実施例に記載の方法を実行するために用いることができ、その具体的な実現は、上記方法の実施例の説明を参照することができ、簡潔にするために、ここでは説明を省略する。
【0108】
同じ技術的思想に基づいて、本開示の実施例は、電子設備をさらに提供する。
図6に示すように、本開示の実施例が提供する電子設備600の構造概略図であり、電子機器600は、プロセッサ601と、記憶部602と、バス603とを含む。ここで、記憶部602は、プロセッサ601が実行可能な機械読取可能命令を記憶するために用いられ、メモリ6021と外部記憶部6022とを含み、ここでのメモリ6021は、内部メモリとも呼ばれ、プロセッサ601における演算データ、及びハードディスクなどの外部記憶部6022と交換するデータを一時的に記憶するために用いられ、プロセッサ601は、メモリ6021を介して外部記憶部6022とデータ交換を行い、電子設備600が動作する時、プロセッサ601とメモリ602との間は、バス603を介して通信し、前記機械読取可能命令がプロセッサ601によって実行される時、プロセッサ601に、目標対象を含む目標画像を特定するステップと、前記目標画像に対して第1キーポイント検出を行い、前記目標対象のキー位置情報を取得し、前記キー位置情報が前記目標対象における第1キーポイント情報と、前記目標対象の少なくとも一つの目標部位に対応する検出枠の位置点情報とを含むステップと、前記目標対象の各前記目標部位に対応する検出枠の位置点情報に基づいて、各前記目標部位の前記目標画像における画像領域に対して第2キーポイント検出を行い、各前記目標部位に対応する第2キーポイント情報を取得するステップと、前記第1キーポイント情報及び前記第2キーポイント情報に基づいて、前記目標対象の対象キーポイント情報を特定するステップと、を実行させる。
【0109】
また、本開示の実施例は、コンピュータ読取可能記憶媒体をさらに提供し、該コンピュータ読取可能記憶媒体にコンピュータプログラムが記憶され、該コンピュータプログラムがプロセッサにより実行される場合、前記プロセッサに上記方法の実施例に記載のキーポイントの検出方法を実行させる。
【0110】
本開示の実施例は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムがプロセッサにより実行される場合、前記プロセッサに上記方法の実施例に記載のキーポイントの検出方法を実行させる。
【0111】
本開示の実施例が提供するキーポイントの検出方法のコンピュータプログラム製品は、プログラムコードが記憶されたコンピュータ読取可能記憶媒体を含み、前記プログラムコードに含まれる命令は、上記方法の実施例に記載のキーポイントの検出方法を実行するために用いることができ、具体的には上記方法の実施例を参照することができ、ここで説明を省略する。
【0112】
当業者であれば、説明の利便性及び簡潔のために、上記説明された装置の具体的な動作過程は、前述の方法の実施例における対応する過程を参照することができ、ここでは説明を省略することを明確に理解することができる。本開示が提供するいくつかの実施例において、理解すべきことは、開示された装置及び方法が、他の方式で実現することができることである。以上に説明した装置の実施例は、例示的なものだけであり、例えば、前記モジュールの分割は、論理機能上の分割だけであり、実際に実現する時に他の分割方式を有することができ、さらに例えば、複数のモジュール又はアセンブリは、他のシステムに結合するか又は統合することができ、又はいくつかの特徴を無視するか、又は実行しないことができる。また、表示されるか又は議論される互いの結合又は直接結合又は通信接続は、いくつかの通信インタフェース、装置又はモジュールの間の間接結合又は通信接続によるものであってもよく、電気的、機械的又は他の形式であってもよい。
【0113】
前記分離部材として説明されたモジュールは、物理的に分離されてもよいか又はそうでなくてもよく、モジュールとして表示された部材は、物理的ユニットであってもよいか又はそうでなくてもよく、すなわち一つの場所に位置してもよく、又は複数のネットワークユニットに分布してもよい。実際のニーズに応じてそのうちの一部又は全部のモジュールを選択して本開示の実施例の目的を達成することができる。
【0114】
また、本開示の各実施例における各機能ユニットは、一つの処理ユニットに集積されてもよく、各ユニットが単独で物理的に存在してもよく、二つ又は二つ以上のユニットが一つのユニットに集積されてもよい。
【0115】
前記機能は、ソフトウェア機能ユニットの形式で実現されかつ独立した製品として販売されるか又は使用される場合、一つのプロセッサが実行可能な不揮発性のコンピュータ読取可能記憶媒体に記憶することができる。このような理解に基づいて、本開示の実施例は、本質的に又は本開示の実施例の全部又は一部は、コンピュータソフトウェア製品の形式で体現することができ、該コンピュータソフトウェア製品は、一つの記憶媒体に記憶され、コンピュータ設備(パーソナルコンピュータ、サーバ、又はネットワーク設備等であってもよい)に本開示の各実施例に記載の方法の全部又は一部を実行させるための複数の命令を含む。前述の記憶媒体は、Uディスク、リムーバブルハードディスク、リードオンリーメモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、磁気ディスク又は光ディスクなどの様々なプログラムコードを記憶できる媒体を含む。
【0116】
上記は、本開示の具体的な実施形態にすぎないが、本開示の保護範囲はそれに限定されない。当業者によって、本開示に開示された技術的範囲内に容易に想像できるいかなる変更または置換は、本開示の保護範囲内にカバーされるべきである。したがって、本開示の保護範囲は、特許請求の範囲の保護範囲に従うべきである。
【国際調査報告】