(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023059231
(43)【公開日】2023-04-26
(54)【発明の名称】キーポイント検出及びモデル訓練方法、装置、デバイス、並びに記憶媒体
(51)【国際特許分類】
G06V 10/426 20220101AFI20230419BHJP
G06V 10/82 20220101ALI20230419BHJP
G06T 7/00 20170101ALI20230419BHJP
【FI】
G06V10/426
G06V10/82
G06T7/00 660B
【審査請求】有
【請求項の数】31
【出願形態】OL
(21)【出願番号】P 2022129693
(22)【出願日】2022-08-16
(31)【優先権主張番号】202111196690.9
(32)【優先日】2021-10-14
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】ヤン、キアシェン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA09
5L096BA18
5L096CA02
5L096DA02
5L096FA02
5L096FA09
5L096FA62
5L096FA66
5L096FA67
5L096FA69
5L096FA72
5L096GA59
5L096HA11
5L096JA11
5L096KA04
(57)【要約】 (修正有)
【課題】行動認識、人体特殊効果の生成、娯楽ゲームのインタラクション等の場面で使用可能なキーポイント検出及びモデル訓練の方法、装置、デバイス及び記憶媒体を提供する。
【解決手段】キーポイント検出方法は、画像に特徴抽出処理を行って前記画像の画像特徴を取得し、前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報であって、前記キーポイントの位置関係図と、前記キーポイントのうちの中心点の位置情報とを含む図情報を取得し、前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得することを含む。本開示によれば、キーポイント検出精度を向上させることができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
キーポイント検出方法であって、
画像に特徴抽出処理を行って前記画像の画像特徴を取得することと、
前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報であって、前記キーポイントの位置関係図と前記キーポイントのうちの中心点の位置情報とを含む図情報を取得することと、
前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得することと、を含む、
キーポイント検出方法。
【請求項2】
前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報を取得することは、
前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得することと、
前記グラフ畳み込み強調特徴に基づいて前記図情報を取得することと、を含む、
請求項1に記載のキーポイント検出方法。
【請求項3】
前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得することは、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、
前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、
前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、
前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、
前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して統合特徴を取得し、
前記画像特徴及び前記統合特徴に基づいて、前記グラフ畳み込み強調特徴を取得する、
ことを含む請求項2に記載のキーポイント検出方法。
【請求項4】
前記画像特徴は、複数のチャンネルの画像特徴であり、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得することは、
前記複数のチャンネルの各チャンネルの画像特徴にプール化、1次元畳み込み処理、及び活性化処理を行って、前記各チャンネルの重み係数を決定し、
前記各チャンネルの重み係数に基づいて前記各チャンネルの画像特徴に重み付け処理を行って前記重み付け画像特徴を取得する、
ことを含む請求項3に記載のキーポイント検出方法。
【請求項5】
前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得することは、
前記アグリゲーション特徴に複数のスケールの1次元畳み込み処理を行って複数のスケールの特徴を取得し、
前記複数のスケールの特徴にスタック処理を行ってスタック特徴を取得し、
前記スタック特徴に次元が前記複数のスケールの数と同じである多次元畳み込み処理を行って畳み込み後の特徴を取得し、
前記アグリゲーション特徴と前記畳み込み後の特徴とに基づいて前記位置特徴を取得する、
ことを含む請求項3に記載のキーポイント検出方法。
【請求項6】
前記位置関係図は、3D位置関係図であり、前記中心点の位置情報は、2Dヒートマップ及び深さ情報を含み、
前記グラフ畳み込み強調特徴に基づいて前記図情報を取得することは、
前記グラフ畳み込み強調特徴に第1畳み込み処理を行って前記3D位置関係図を取得し、
前記グラフ畳み込み強調特徴に第2畳み込み処理を行って前記中心点の2Dヒートマップを取得し、
前記グラフ畳み込み強調特徴に第3畳み込み処理を行って前記中心点の深さ情報を取得する、
ことを含む請求項2に記載のキーポイント検出方法。
【請求項7】
前記位置関係図は、異なるキーポイント間の有向エッジの情報を含み、
前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得することは、
前記有向エッジの情報に基づいて、前記中心点の位置情報から順に接続関係を有する非中心点の位置情報を復号する、
ことを含む請求項1に記載のキーポイント検出方法。
【請求項8】
キーポイント図情報抽出モデルの訓練方法であって、
画像サンプルに特徴抽出処理を行って前記画像サンプルの画像特徴を取得し、
前記画像特徴に基づいて、前記画像サンプルにおける目標のキーポイントの予測図情報であって、前記キーポイントの予測位置関係図と、前記キーポイントのうちの中心点の予測位置情報とを含む予測図情報を取得することと、
前記予測位置関係図及び前記予測位置情報に基づいて総損失関数を構築することと、
前記総損失関数に基づいて、キーポイント検出モデルを訓練することと、を含む、
キーポイント図情報抽出モデルの訓練方法。
【請求項9】
前記予測位置関係図は、予測3D位置関係図であり、前記予測位置情報は、予測2Dヒートマップと予測深さ情報とを含み、
前記予測位置関係図と前記予測位置情報とに基づいて総損失関数を構築することは、
前記予測3D位置関係図と前記目標の真の3D位置関係図とに基づいて、第1損失関数を構築し、
前記予測2Dヒートマップ及び前記中心点の真の2Dヒートマップに基づいて、第2損失関数を構築し、
前記予測深さ情報と前記中心点の真の深さ情報とに基づいて第3損失関数を構築し、
前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて、前記総損失関数を構築する、
ことを含む請求項8に記載のキーポイント図情報抽出モデルの訓練方法。
【請求項10】
前記画像特徴に基づいて前記画像サンプルにおける目標のキーポイントの予測図情報を取得することは、
前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得することと、
前記グラフ畳み込み強調特徴に基づいて前記予測図情報を取得することと、を含む、
請求項8又は9に記載のキーポイント図情報抽出モデルの訓練方法。
【請求項11】
前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得することは、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、
前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、
前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、
前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、
前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して、統合特徴を取得し、
前記画像特徴及び前記統合特徴に基づいて、前記グラフ畳み込み強調特徴を取得する、
ことを含む請求項10に記載のキーポイント図情報抽出モデルの訓練方法。
【請求項12】
前記画像特徴は、複数のチャンネルの画像特徴であり、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得することは、
前記複数のチャンネルの各チャンネルの画像特徴にプール化、1次元畳み込み処理、及び活性化処理を行って、前記各チャンネルの重み係数を決定し、
前記各チャンネルの重み係数に基づいて前記各チャンネルの画像特徴に重み付け処理を行って前記重み付け画像特徴を取得する、
ことを含む請求項11に記載のキーポイント図情報抽出モデルの訓練方法。
【請求項13】
前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得することは、
前記アグリゲーション特徴に複数のスケールの1次元畳み込み処理を行って、複数のスケールの特徴を取得し、
前記複数のスケールの特徴にスタック処理を行ってスタック特徴を取得し、
前記スタック特徴に次元が前記複数のスケールの数と同じである多次元畳み込み処理を行って畳み込み後の特徴を取得し、
前記アグリゲーション特徴と前記畳み込み後の特徴とに基づいて前記位置特徴を取得する、
ことを含む請求項11に記載のキーポイント図情報抽出モデルの訓練方法。
【請求項14】
前記予測位置関係図は、予測3D位置関係図であり、前記中心点の予測位置情報は、予測2Dヒートマップ及び予測深さ情報を含み、
前記グラフ畳み込み強調特徴に基づいて前記予測図情報を取得することは、
前記グラフ畳み込み強調特徴に第1畳み込み処理を行って前記予測3D位置関係図を取得し、
前記グラフ畳み込み強調特徴に第2畳み込み処理を行って前記中心点の予測2Dヒートマップを取得し、
前記グラフ畳み込み強調特徴に第3畳み込み処理を行って、前記中心点の予測深さ情報を取得する、
ことを含む請求項10に記載のキーポイント図情報抽出モデルの訓練方法。
【請求項15】
キーポイント検出装置であって、
画像に特徴抽出処理を行って前記画像の画像特徴を取得する特徴抽出モジュールと、
前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報であって、前記キーポイントの位置関係図と、前記キーポイントのうちの中心点の位置情報とを含む図情報を取得する図情報抽出モジュールと、
前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得する決定モジュールと、
を備えるキーポイント検出装置。
【請求項16】
前記図情報抽出モジュールは、
前記キーポイントの位置チャンネルの数に基づいて前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得する強調部と、
前記グラフ畳み込み強調特徴に基づいて前記図情報を取得する取得部と、
を備える請求項15に記載のキーポイント検出装置。
【請求項17】
前記強調部は、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、
前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、
前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、
前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、
前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して統合特徴を取得し、
前記画像特徴及び前記統合特徴に基づいて、前記グラフ畳み込み強調特徴を取得する、
請求項16に記載のキーポイント検出装置。
【請求項18】
前記画像特徴は、複数のチャンネルの画像特徴であり、前記強調部は、さらに、
前記複数のチャンネルの各チャンネルの画像特徴にプール化、1次元畳み込み、及び活性化処理を行って、前記各チャンネルの重み係数を決定し、
前記各チャンネルの重み係数に基づいて前記各チャンネルの画像特徴に重み付け処理を行って前記重み付け画像特徴を取得する、
請求項17に記載のキーポイント検出装置。
【請求項19】
前記強調部は、さらに、
前記アグリゲーション特徴に複数のスケールの1次元畳み込み処理を行って複数のスケールの特徴を取得し、
前記複数のスケールの特徴にスタック処理を行ってスタック特徴を取得し、
前記スタック特徴に次元が前記複数のスケールの数と同じである多次元畳み込み処理を行って畳み込み後の特徴を取得し、
前記アグリゲーション特徴と前記畳み込み後の特徴とに基づいて前記位置特徴を取得する、
請求項17に記載のキーポイント検出装置。
【請求項20】
前記位置関係図は、3D位置関係図であり、前記中心点の位置情報は、2Dヒートマップ及び深さ情報を含み、
前記取得部は、
前記グラフ畳み込み強調特徴に第1畳み込み処理を行って前記3D位置関係図を取得し、
前記グラフ畳み込み強調特徴に第2畳み込み処理を行って前記中心点の2Dヒートマップを取得し、
前記グラフ畳み込み強調特徴に第3畳み込み処理を行って前記中心点の深さ情報を取得する、
請求項16~19のいずれか1項に記載のキーポイント検出装置。
【請求項21】
前記位置関係図は、異なるキーポイント間の有向エッジの情報を含み、
前記決定モジュールは、
前記有向エッジの情報に基づいて、前記中心点の位置情報から順に接続関係を有する非中心点の位置情報を復号する、
請求項15~19のいずれか1項に記載のキーポイント検出装置。
【請求項22】
キーポイント図情報抽出モデルの訓練装置であって、
画像サンプルに特徴抽出処理を行って前記画像サンプルの画像特徴を取得する特徴抽出モジュールと、
前記画像特徴に基づいて、前記画像サンプルにおける目標のキーポイントの予測図情報であって、前記キーポイントの予測位置関係図と、前記キーポイントのうちの中心点の予測位置情報とを含む予測図情報を取得する図情報抽出モジュールと、
前記予測位置関係図及び前記予測位置情報に基づいて総損失関数を構築する構築モジュールと、
前記総損失関数に基づいて、キーポイント検出モデルを訓練する訓練モジュールと、
を備えるキーポイント図情報抽出モデルの訓練装置。
【請求項23】
前記予測位置関係図は、予測3D位置関係図であり、前記予測位置情報は、予測2Dヒートマップ及び予測深さ情報を含み、
前記構築モジュールは、
前記予測3D位置関係図と前記目標の真の3D位置関係図とに基づいて、第1損失関数を構築し、
前記予測2Dヒートマップ及び前記中心点の真の2Dヒートマップに基づいて、第2損失関数を構築し、
前記予測深さ情報と前記中心点の真の深さ情報とに基づいて第3損失関数を構築し、
前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて、前記総損失関数を構築する、
請求項22に記載のキーポイント図情報抽出モデルの訓練装置。
【請求項24】
前記図情報抽出モジュールは、
前記キーポイントの位置チャンネルの数に基づいて前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得する強調部と、
前記グラフ畳み込み強調特徴に基づいて前記予測図情報を取得する取得部と、
を備える請求項22又は23に記載のキーポイント図情報抽出モデルの訓練装置。
【請求項25】
前記強調部は、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、
前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、
前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、
前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、
前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して、統合特徴を取得し、
前記画像特徴及び前記統合特徴に基づいて、前記グラフ畳み込み強調特徴を取得する、
請求項24に記載のキーポイント図情報抽出モデルの訓練装置。
【請求項26】
前記画像特徴は、複数のチャンネルの画像特徴であり、
前記強調部は、さらに、
前記複数のチャンネルの各チャンネルの画像特徴にプール化、1次元畳み込み、及び活性化処理を行って、前記各チャンネルの重み係数を決定し、
前記各チャンネルの重み係数に基づいて前記各チャンネルの画像特徴に重み付け処理を行って前記重み付け画像特徴を取得する、
請求項25に記載のキーポイント図情報抽出モデルの訓練装置。
【請求項27】
前記強調部は、さらに、
前記アグリゲーション特徴に複数のスケールの1次元畳み込み処理を行って複数のスケールの特徴を取得し、
前記複数のスケールの特徴にスタック処理を行ってスタック特徴を取得し、
前記スタック特徴に次元が前記複数のスケールの数と同じである多次元畳み込み処理を行って畳み込み後の特徴を取得し、
前記アグリゲーション特徴と前記畳み込み後の特徴とに基づいて前記位置特徴を取得する、
請求項25に記載のキーポイント図情報抽出モデルの訓練装置。
【請求項28】
前記予測位置関係図は、予測3D位置関係図であり、前記中心点の予測位置情報は、予測2Dヒートマップ及び予測深さ情報を含み、
前記取得部は、
前記グラフ畳み込み強調特徴に第1畳み込み処理を行って前記予測3D位置関係図を取得し、
前記グラフ畳み込み強調特徴に第2畳み込み処理を行って前記中心点の予測2Dヒートマップを取得し、
前記グラフ畳み込み強調特徴に第3畳み込み処理を行って前記中心点の予測深さ情報を取得する、
請求項24に記載のキーポイント図情報抽出モデルの訓練装置。
【請求項29】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~7のいずれか1項に記載のキーポイント検出方法、又は、請求項8~14のいずれか1項に記載のキーポイント図情報抽出モデルの訓練方法を実行させる電子デバイス。
【請求項30】
コンピュータに請求項1~7のいずれか1項に記載のキーポイント検出方法、又は、請求項8~14のいずれか1項に記載のキーポイント図情報抽出モデルの訓練方法を実行させるためのコンピュータコマンドを記憶する非一時的なコンピュータ可読記憶媒体。
【請求項31】
プロセッサにより実行されると、請求項1~7のいずれか1項に記載のキーポイント検出方法、又は、請求項8~14のいずれか1項に記載のキーポイント図情報抽出モデルの訓練方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能の分野に関し、具体的にコンピュータビジョン及びディープラーニング技術に関し、具体的に行動認識、人体特殊効果生成、娯楽・ゲーム・インタラクションなどの場面で使用可能であり、特にキーポイント検出及びモデル訓練方法、装置、デバイス、及び記憶媒体に関する。
【背景技術】
【0002】
社会の進歩と科学技術の発展に伴い、ショート動画、ライブ配信、オンライン教育などの業界が絶えず台頭し、各種のインタラクションシーンにおいて、人体のキーポイントの情報に基づいてインタラクションを行う機能の需要がますます増えている。
【0003】
関連技術では、一般的にヒート図あるいは回帰座標の方式を用いて人体の3Dキーポイント検出を行う。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、キーポイント検出及びモデル訓練方法、装置、デバイス、及び記憶媒体を提供する。
【課題を解決するための手段】
【0005】
本開示の一態様によれば、画像に対して特徴抽出処理を行って前記画像の画像特徴を取得し、前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報であって、前記キーポイントの位置関係図と前記キーポイントのうちの中心点の位置情報とを含む図情報を取得し、前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得することを含むキーポイント検出方法が提供される。
【0006】
本開示の別の態様によれば、画像サンプルに対して特徴抽出処理を行って前記画像サンプルの画像特徴を取得し、前記画像特徴に基づいて、前記画像サンプルにおける目標のキーポイントの予測図情報であって、前記キーポイントの予測位置関係図と前記キーポイントのうちの中心点の予測位置情報とを含む予測図情報を取得し、前記予測位置関係図と前記予測位置情報とに基づいて総損失関数を構築し、前記総損失関数に基づいてキーポイント検出モデルを訓練することを含むキーポイント検出モデルの訓練方法が提供される。
【0007】
本開示の別の態様によれば、画像に対して特徴抽出処理を行って前記画像の画像特徴を取得する特徴抽出モジュールと、前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報であって、前記キーポイントの位置関係図と、前記キーポイントのうちの中心点の位置情報とを含む図情報を取得する図情報抽出モジュールと、前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得する決定モジュールとを備えるキーポイント検出装置が提供される。
【0008】
本開示の別の態様によれば、画像サンプルに対して特徴抽出処理を行って前記画像サンプルの画像特徴を取得する特徴抽出モジュールと、前記画像特徴に基づいて、前記画像サンプルにおける目標のキーポイントの予測図情報であって、前記キーポイントの予測位置関係図と、前記キーポイントのうちの中心点の予測位置情報とを含む予測図情報を取得する図情報抽出モジュールと、前記予測位置関係図及び前記予測位置情報に基づいて総損失関数を構築する構築モジュールと、前記総損失関数に基づいて、キーポイント検出モデルを訓練する訓練モジュールとを備えるキーポイント図情報抽出モデルの訓練装置が提供される。
【0009】
本開示の別の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに前記態様のいずれか1項に記載された方法を実行させる電子デバイスが提供される。
【0010】
本開示の別の態様によれば、コンピュータに前記態様のいずれか1項に記載された方法を実行させるためのコンピュータコマンドを記憶する非一時的なコンピュータ可読記憶媒体が提供される。
【0011】
本開示の別の態様によれば、プロセッサにより実行されると、前記態様のいずれか1項に記載された方法を実現するコンピュータプログラムを含むコンピュータプログラム製品が提供される。
【0012】
本開示の技術案によれば、キーポイントの検出精度を向上させることができる。
【0013】
理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要な又は肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。
【図面の簡単な説明】
【0014】
図面は、本技術案をより良く理解するためのものであり、本願に制限されない。
【
図10】本開示による第10実施形態の概略図である。
【
図11】本開示による第11実施形態の概略図である。
【
図12】本開示の実施形態に係るキーポイント検出又はキーポイント図情報抽出モデルの訓練方法の何れかひとつを実施するための電子デバイスの概略図である。
【発明を実施するための形態】
【0015】
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
【0016】
関連技術では、一般的にヒートマップあるいは回帰座標の方式を用いて人体の3Dキーポイント検出を行う。しかし、この測位方式では精度が不足している。
【0017】
キーポイント検出の精度を向上させるために、本開示は以下の実施形態を提供する。
【0018】
図1は本開示による第1実施形態の概略図である。本実施形態は、以下のステップを含むキーポイント検出方法を提供する。
【0019】
101において、画像に対して特徴抽出処理を行って前記画像の画像特徴を取得する。
【0020】
102において、前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報であって、前記キーポイントの位置関係図と前記キーポイントのうちの中心点の位置情報とを含む図情報を取得する。
【0021】
103において、前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得する。
【0022】
本実施形態の実行主体は、キーポイント検出装置と呼ぶことができる。キーポイント検出装置は、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアの組み合わせであって良く、電子デバイス内に配置されてよい。この電子デバイスは、サーバ側又はユーザ端末に配置されて良い。サーバ側はローカルサーバ又はクラウドであってもよく、ユーザ端末は、モバイルデバイス(例えば、携帯電話、タブレット)、車載端末(例えば、車機)、ウェアラブルデバイス(例えば、スマートウォッチ、スマートブレスレット)、スマートホームデバイス(例えば、スマートテレビ、スマートスピーカー)などを含むことができる。
【0023】
キーポイント検出は、行動の識別、人体の特殊効果の生成、娯楽ゲームのインタラクションなどの場面など、さまざまな場面に応用することができる。
【0024】
ユーザ端末による実行を例にすると、
図2に示すように、ユーザ端末200(例えば、携帯電話)上のカメラ201を利用して人体画像を収集して、ユーザ端末上の人体インタラクティブを必要とするAPP 202に送信することができる。当該APPは、ユーザ端末上でローカルに人体の3Dキーポイントを識別することができる。もちろん、理解すべきなのは、APPが人体画像をクラウドに送信し、クラウドが3Dキーポイントの位置合わせを行うこともできる。
【0025】
画像とは、目標を含む画像である。目標とは、検出すべきキーポイントの対象であり、例えば、顔、手、人体、動物などであってもよい。目標が人体である場合には、画像は、具体的には人体画像であってもよい。
【0026】
画像を取得した後、様々な関連する特徴抽出ネットワークを用いて、画像の画像特徴を抽出することができる。特徴抽出ネットワークは例えばディープ畳み込みニューラルネットワーク(Deep Convolutional Neural Network,DCNN)であり、そのバックボーンネットワーク(backbone)は例えばHourglassである。
【0027】
目標の違いに基づいて、異なる検出すべきキーポイントを設定することができる。例えば、人体に対して、キーポイントは具体的に3Dキーポイントであって良い。3Dキーポイントとは、キーポイントの位置情報が3次元空間情報であることを指し、一般に2次元の(x,y)と深さ情報で表すことができる。
【0028】
図3に示すように、頭頂部、鼻部、咽頭部、左右肩部、左右肘部、左右手部、胃部、下腹部、左右股関節部、左右膝部、左右足部の計17個のキーポイントを含めることができる。
【0029】
キーポイントは、中心点と非中心点に分けることができる。中心点はキーポイントの1つであり、たとえば下腹部のキーポイントを中心点に設定し、残りを非中心点に設定するように設定することができる。たとえば、
図3を参照すると、中心点は黒丸で示され、非中心点は白丸で示されている。
【0030】
位置関係図は、キーポイント間の位置関係を示す。更に、キーポイントが3Dキーポイントである場合には、位置関係図は3D位置関係図であり、3D構造図、3Dベクトルグラフなどとも呼ばれる。
【0031】
位置関係には、ノードとエッジが含まれる。ノードは各キーポイントであり、エッジはノード間の方向付きの接続線である。たとえば、
図3はある人体のキーポイントの位置関係図であり、含まれる各ノードは各キーポイントであり、各ノード間のエッジは有向矢印で表されている。
【0032】
キーポイントが3Dキーポイントである場合に、中心点の位置情報は、中心点の2Dヒートマップ及び中心点の深さ情報を含む中心点の3D位置情報になる。
【0033】
ヒートマップは、熱力図、ガウスヒートマップなどとも呼ばれる。中心点はヒートマップにおいて1つの点に対応する。
【0034】
2Dヒートマップとは、中心点に対応するヒートマップにおける点が2Dであることを指し、点の2D座標(x,y)を中心点の2D位置情報とすることができる。
【0035】
3次元空間の座標が(x,y,z)で表されるとすると、深さ情報は一般に1~4000の間の値であり、カメラ内部パラメータにより具体的な3次元空間のz方向の数値に変換できる。
【0036】
従って、中心点の2Dヒートマップと深さ情報とに基づいて、中心点の3D位置情報(x,y,z)を得ることができる。
【0037】
中心点の3D位置情報とキーポイントの3D位置関係図を取得した後、各キーポイントの3D位置情報を得るためにノードごとに復号することができる。
【0038】
中心点の2Dヒートマップ及び深さ情報に基づいて、中心点の3D座標が(x0,y0,z0)であることが決定される。位置関係図に有向エッジの情報を含めることができ、例えば
図3において、黒点(中心ノード)とそれに接続された白色点との間の有向エッジの3D座標が(Δx,Δy,Δz)で示されるとすると、黒点に接続された白色点の3D座標が(x0+Δx,y0+Δy,z0+Δz)である。残りのノードの復号プロセスも同様である。
【0039】
従って、画像特徴に基づいて中心点の位置情報を得、中心点の位置情報と位置関係図とに基づいて非中心点の位置情報を得ることができるため、全てのキーポイントの位置情報を得ることができる。
【0040】
人体キーポイントの検出を例とすると、ディープニューラルネットワークを用いて人体キーポイントの3D位置情報を検出することができる。
【0041】
ここで、人体キーポイントの位置関係図を人体キーポイントの3Dベクトルグラフと呼ぶことができる。中心点の位置情報は、具体的には中心点の3D位置情報とすることができる。3Dベクトルグラフと中心点の3D位置情報とを抽出するネットワークをキーポイント図情報抽出モデル(又はネットワーク)と呼ぶことができる。上述した3Dベクトルグラフと中心点の3D位置情報とに基づいて人体のキーポイントの3D位置情報を得るネットワークを復号ネットワークと呼ぶことができる。
【0042】
図4に示すように、キーポイント図情報抽出モデル401に人体画像が入力されると、キーポイント図情報抽出モデル401は、人体画像を処理して人体のキーポイントの3Dベクトルグラフと、キーポイントのうちの中心点の3D位置情報とを得ることができる。その後、復号ネットワーク402は、入力された3Dベクトルプロットと中心点の3D位置情報とをノードごとに復号して非中心点の3D位置情報を得ることができる。中心点の3D位置情報がその前に得られていたため、すべてのキーポイントの3D位置情報が得られた。
【0043】
さらに、キーポイント情報抽出モデルは、画像特徴抽出ネットワーク4011及び図情報抽出ネットワーク4012を含むことができる。
【0044】
画像特徴抽出ネットワーク4011は、入力された人体画像に対して画像特徴抽出を行って画像特徴を得る。画像特徴抽出ネットワークはDCNNであって良く、具体的なバックボーンネットワークは例えばHourglassである。
【0045】
図情報抽出ネットワーク4012は、入力された画像特徴を処理して、人体キーポイントの3Dベクトルグラフと中心点の3D位置情報とを得る。
【0046】
本発明の実施形態によれば、画像特徴に基づいて中心点の位置情報と位置関係図とを得、及び中心点の位置情報と位置関係図とに基づいて非中心点の位置情報を得ることができる。すなわち、キーポイントの位置合わせの際に位置関係図を参照することができるため、キーポイントの検出精度を向上させることができる。
【0047】
いくつかの実施形態では、前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報を取得することは、前記目標のキーポイントの位置チャネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を得、前記グラフ畳み込み強調特徴に基づいて前記図情報を取得することを含む。
【0048】
ここで、
図4に示すように、画像特徴に基づいてキーポイントの図情報を取得するネットワークを図情報抽出ネットワークと呼ぶことができる。
【0049】
さらに、
図5に示すように、図情報抽出ネットワークは、グラフ畳み込みネットワーク及び出力ネットワークを含むことができる。
【0050】
グラフ畳み込みネットワークの入力及び出力は、それぞれ、画像特徴及びグラフ畳み込み強調特徴である。すなわち、グラフ畳み込みネットワークは、前記目標のキーポイントの図特徴に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を得ることができる。
【0051】
グラフ畳み込み強調特徴は、画像特徴を強調した特徴である。強調する際にキーポイントの位置特徴を考慮し、畳み込み処理方式を採用することができるため、グラフ畳み込み強調特徴と呼ぶことができる。理解すべきなのは、別の名称を付けてもよい。キーポイントの位置特徴は、画像特徴が位置チャネルに投影されることに基づいて取得され、具体的な取得方法は後述を参照することができる。
【0052】
出力ネットワークの入力と出力はそれぞれグラフ畳み込み強調特徴と図情報である。すなわち、出力ネットワークは、前記グラフ畳み込み強調特徴に基づいて前記図情報を得ることができる。
【0053】
各図情報は、種類毎の出力ネットワークに対応することができる。
【0054】
さらに、中心点の3D位置情報は、中心点の2Dヒートマップ及び深さ情報を含むことができるため、出力ネットワークは、人体のキーポイントの3Dベクトルグラフ、中心点の2Dヒートマップ及び中心点の深さ情報をそれぞれ出力する3つの出力ネットワークとすることができる。
【0055】
図5では、これら3つの出力ネットワークはすべて畳み込みニューラルネットワーク(Convolutional Neural Network,CNN)とすることができ、それぞれ第1出力畳み込みネットワーク、第2出力畳み込みネットワーク、第3出力畳み込みネットワークと表す。
【0056】
目標のキーポイントの位置チャンネル数に基づいてグラフ畳み込み強調特徴を求め、さらにグラフ畳み込み強調特徴に基づいてキーポイントの図情報を求めることにより、画像特徴にキーポイントの位置特徴を導入することができ、キーポイントの位置関係図と中心点の位置情報という図情報を得ることができる。
【0057】
いくつかの実施形態では、前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を得ることは、前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して統合特徴を取得し、前記画像特徴及び前記統合特徴に基づいて、前記グラフ畳み込み強調特徴を取得することを含む。
【0058】
ここで、グラフ畳み込みネットワークは、
図6のように示すことができる。
図6において、画像特徴はxで表され、次元はH*W*Dである。ここで、Hは高さ、Wは幅、Dはチャンネル数を表す。
【0059】
図6に示すように、重み付け画像特徴はF(x)で表され、F(x)の次元はxの次元と一致しており、即ちH*W*Dである。
【0060】
F(x)は、各チャネルに応じてxに対して重み付けを行って得られたものである。例えば、xが合計D個のチャネルである場合、第1チャネル上のH*W個のピクセル値に対して、第1チャネルに対応する重み係数で重み付けを行い、第2チャネル上のH*W個のピクセル値に対して、第2チャネルに対応する重み係数で重み付けを行うように類推することができる。異なるチャネル上の重み係数は、同一であっても異なっていてもよい。
【0061】
いくつかの実施形態では、前記画像特徴は、複数のチャンネルの画像特徴であり、前記画像特徴に重み付け処理を行って重み付け画像特徴を得ることは、前記複数のチャンネルのそれぞれの画像特徴に対してプール化、1次元畳み込み及び活性化処理を行って前記各チャンネルの重み係数を決定し、前記各チャンネルの重み係数に基づいて前記各チャンネルの画像特徴に重み付け処理を行って前記重み付け画像特徴を得ることを含む。
【0062】
具体的には、
図6に示すように、画像特徴の各チャネルに応じて、平均プール化(avg pooling)のようなプール化、1*1畳み込み、活性化(例えばsigmoid活性化)をそれぞれ行った後に各チャネル上の重み係数を求めて良い。すなわち、重み係数の次元は1*1*Dとすることができる。
【0063】
画像特徴にプール化、1次元畳み込み、活性化処理を行うことにより、各チャンネルの画像特徴の重み係数を得ることができ、さらに、重み係数に基づいて重み付け画像特徴を得ることができる。
【0064】
図6では、画像チャネルの個数をD、キーポイントの位置チャネルの個数をMとし、MもDも設定値である。一般的にDの値はより大きく、Mはキーポイントの個数*位置座標の次元として選択されて良い。たとえば、キーポイントの個数が17個、キーポイントが3Dキーポイントであれば、M=17*3=51とすることができる。
【0065】
画像チャネルが位置する空間領域を画像チャネル領域と呼び、位置チャネルが位置する空間領域を位置チャネル領域と呼ぶことができる。
図6において、画像チャネル領域から位置チャネル領域までの間の射影行列はθ(x)で示され、θ(x)の次元はM*H*Wである。
【0066】
具体的には、M個の1*1の畳み込みカーネルを用いて、画像特徴xに畳み込み処理を行って投影行列θ(x)を得ることができる。
【0067】
重み付け画像特徴F(x)及び投影行列θ(x)が得られた後、重み付け画像特徴を位置チャネル領域に投影するために、両者を乗算することができる。さらに、乗算の前に、更に1*1の畳み込みカーネルを用いて重み付き画像特徴F(x)に畳み込み処理を行っても良い。処理された重み付き画像特徴の次元もH*W*Dである。
【0068】
位置チャネル領域に射影された特徴は、キーポイントの位置チャネルのアグリゲーション特徴と呼ぶことができ、Vで表される。Vの次元はM*Dである。
【0069】
アグリゲーション特徴が取得された後、アグリゲーション特徴を解析してキーポイントの位置情報に関連付けられた各位置チャネルの位置特徴を取得し、その後に位置特徴に基づいてキーポイントの位置情報を取得することができる。
【0070】
いくつかの実施形態では、前記アグリゲーション特徴に基づいて前記キーポイントの位置チャネルの位置特徴を取得することは、前記アグリゲーション特徴に複数のスケールの1次元畳み込み処理を行って複数のスケールの特徴を取得し、前記複数のスケールの特徴にスタック処理を行ってスタック特徴を取得し、前記スタック特徴に次元が前記複数のスケールの数と同じである多次元畳み込み処理を行って畳み込み後の特徴を取得し、前記アグリゲーション特徴と前記畳み込み後の特徴とに基づいて前記位置特徴を取得することを含む。
【0071】
ここで、
図6に示すように、複数のスケールの一次元畳み込みは3つである。すなわち、3つの1*1畳み込みカーネルを用いてアグリゲーション特徴Vを処理することができる。この3つの畳み込みカーネルのパラメータはそれぞれ3、7、11であり、各一次元畳み込み処理後の各スケールの特徴の次元はM*Dである。
【0072】
スタックとは、複数のスケールの特徴を組み合わせることである。例えば、3つのスケールの特徴を組み合わせることにより、次元がM*D*3の特徴となる。
【0073】
その後、位置特徴を得るために3*3の畳み込みを用いて処理することができる。
【0074】
図6において、キーポイントの位置チャネルの位置特徴はGVMで表され、次元はM*Dである。
【0075】
アグリゲーション特徴に対してマルチスケールの畳み込み処理を行うことにより、より豊富な情報を得ることができ、ひいてはキーポイント検出の精度を向上させることができる。
【0076】
投影行列の転置行列はθtで示され、次元がH*W*Dである。
【0077】
逆投影とは、位置特徴GVMに射影行列の転置行列を乗じて統合特徴を得られることである。統合特徴は、K(x)で示され、次元がH*W*Dである。
【0078】
統合特徴K(x)が得られた後、オリジナルの画像特徴xを統合特徴K(x)に加算して、次元がH*W*Dであるグラフ畳み込み強調特徴G(x)を得ることができる。
【0079】
上記の重み付け、畳み込み、投影、逆投影等の処理により、キーポイントの位置特徴を統合したグラフ畳み込み強調特徴を得ることができ、さらに、グラフ畳み込み強調特徴に基づいてキーポイントの図情報を得ることができる。
【0080】
いくつかの実施形態では、前記位置関係図は、3D位置関係図であり、前記中心点の位置情報は2Dヒートマップと深さ情報とを含み、前記グラフ畳み込み強調特徴に基づいて前記図情報を取得することは、前記グラフ畳み込み強調特徴に第1畳み込み処理を行って前記3D位置関係図を取得し、前記グラフ畳み込み強調特徴に第2畳み込み処理を行って前記中心点の2Dヒートマップを取得し、前記グラフ畳み込み強調特徴に第3畳み込み処理を行って前記中心点の深さ情報を取得することを含む。
【0081】
図5に示すように、第1畳み込み処理、第2畳み込み処理、及び第3畳み込み処理に対応するネットワークを、第1出力畳み込みネットワーク、第2出力畳み込みネットワーク、及び第3出力畳み込みネットワークと呼ぶことができる。
【0082】
これら3つのネットワークは、すべてCNNネットワークであってもよく、具体的に異なってもよい。
【0083】
例えば、3Dベクトルグラフに対応する場合に、第1畳み込み処理の畳み込みカーネルの次元はH*W*Mであり、M=キーポイントの個数*座標の個数であり、例えば3D検出では、キーポイントが17個であれば、M=51であり、HとWは画像の高さと幅である。
【0084】
中心点の2Dヒートマップに対応する場合に、第2畳み込み処理の畳み込みカーネルの次元はH*W*1であり、すなわち中心点の2Dヒートマップであるヒートマップを検出することができる。
【0085】
中心点の深さ情報に対応する場合に、第3畳み込み処理の畳み込みカーネルの次元はH*W*1であり、すなわち1つの深さ情報を検出することができる。
【0086】
畳み込み処理を用いることにより、グラフ畳み込み強調特徴に基づいてキーポイントの図情報を得ることができる。
【0087】
いくつかの実施形態では、前記位置関係図に異なるキーポイント間の有向エッジの情報が含まれ、前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて前記キーポイントのうちの非中心点の位置情報を取得することは、前記有向エッジの情報に基づいて、前記中心点の位置情報から順に接続関係を有する非中心点の位置情報を復号することを含む。
【0088】
例えば、中心点の2Dヒートマップ及び深さ情報に基づいて、中心点の3D座標が(x0,y0,z0)であることが決定される。位置関係図に有向エッジの情報を含めることができ、例えば
図3において、黒点(中心ノード)とそれに接続された白色点との間の有向エッジの3D座標が(Δx,Δy,Δz)で示されるとすると、黒点に接続された白色点の3D座標が(x0+Δx,y0+Δy,z0+Δz)である。残りのノードの復号プロセスも同様である。
【0089】
中心点の位置情報から順に各非中心点の位置情報を復号することにより、各キーポイントの位置情報を得ることができる。
【0090】
上記内容は、グラフ畳み込み強調特徴に基づいて中心点の深さ情報を得ることを例に挙げた。理解すべきなのは、図情報に位置関係図及び中心点の2Dヒートマップが含まれ、ユーザが使用するハードウェアデバイスに基づいて中心点の深さ情報を取得することができる。例えば、ユーザは、深さ感知装置を有する装置を使用し、当該装置に基づいて中心点の深さ情報を取得することができ、さらに、中心点の深さ情報に基づいて後続の処理を実行することができる。あるいは、当該装置に基づいて、すべてのキーポイントの深さ情報を取得することができる。上記の処理手順は、2Dヒートマップを構築するだけでよい。
【0091】
本開示の実施形態では、人体画像の3Dキーポイント検出において、キーポイントの図情報を取得し、図情報に基づいて3Dキーポイント検出を行うことにより、ヒートマップや回帰方式のみによる精度の悪さを解消し、3Dキーポイント検出の精度を向上させることができる。
【0092】
図7は本開示の第7実施形態の概略図である。本実施形態は、以下のステップを含むキーポイント図情報抽出モデルの訓練方法を提供する。
【0093】
701において、画像サンプルに特徴抽出処理を行って前記画像サンプルの画像特徴を取得する。
【0094】
702において、前記画像特徴に基づいて、前記画像サンプルにおける目標のキーポイントの予測図情報であって、前記キーポイントの予測位置関係図と、前記キーポイント中の中心点の予測位置情報とを含む予測図情報を取得する。
【0095】
703において、前記予測位置関係図と前記予測位置情報とに基づいて、総損失関数を構築する。
【0096】
704において、前記総損失関数に基づいて、キーポイント検出モデルを訓練する。
【0097】
ここで、訓練段階で採用された画像を画像サンプルと呼ぶことができる。既存の訓練セットから画像サンプルを取得することができる。
【0098】
画像サンプルを取得する際に、更に、画像サンプルにおける目標に対して人工による注釈などの処理を行って、画像サンプルにおける目標の真の値を取得することができる。真の値は目標の真の結果である。
【0099】
3Dキーポイント検出では、真の値は、前記目標の真の3D位置関係図、前記中心点の真の2Dヒートマップ、及び前記中心点の真の深さ情報を含んでよい。
【0100】
ここで、中心点の真の深さ情報は具体的な値であり、人工による注釈を採用可能である。この値は一般に1~4000の間の値である。
【0101】
目標を人体とすると、2人の人体に対応する真の3D位置関係図は
図8のように示されて良い。
【0102】
中心点の真の2Dヒートマップは真の2Dヒートマップに基づいて得ることができる。真の2Dヒートマップは人工方式などを採用して注釈することができる。2Dヒートマップとは各キーポイントに対応してその2D位置を注釈することを指し、例えば、
図9を参照すると、人体に対応する2Dヒートマップであり、各黒丸は1つのキーポイントに対応する。
【0103】
従って、真の3D位置関係図、中心点の真の2Dヒートマップ、真の深さ情報を得ることができる。
【0104】
適用段階の図情報に対応して、訓練段階の当該情報を予測図情報と呼ぶことができる。
【0105】
いくつかの実施形態では、前記予測位置関係図は、予測3D位置関係図であり、前記予測位置情報は、予測2Dヒートマップ及び予測深さ情報を含み、前記予測位置関係図及び前記予測位置情報に基づいて総損失関数を構築することは、前記予測3D位置関係図及び前記目標の真の3D位置関係図に基づいて第1損失関数を構築し、前記予測2Dヒートマップ及び前記中心点の真の2Dヒートマップに基づいて第2損失関数を構築し、前記予測深さ情報と前記中心点の真の深さ情報とに基づいて第3損失関数を構築し、前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて、前記総損失関数を構築することを含む。
【0106】
上記の第1損失関数、第2損失関数及び第3損失関数の具体的な式は限定されず、例えば、L1損失関数、L2損失関数、クロスエントロピー損失関数などであってよい。
【0107】
総損失関数を構築した後、総損失関数に基づいて訓練を行うことは、予め設定された繰り返し回数又は損失関数が収束することを含むことができる終了条件に達するまで、総損失関数に基づいてモデルパラメータを調整し、終了条件に達した場合のモデルを最終モデルとすることを含んでよい。
【0108】
ここで、キーポイント図情報抽出モデルに含まれるディープニューラルネットワークは、具体的に、画像特徴抽出ネットワークと図情報抽出ネットワークを含んでよく、図情報抽出ネットワークは、グラフ畳み込みネットワークと出力畳み込みネットワークを含んでよい。従って、モデルパラメータを調整する場合は、上記に関わるネットワークのパラメータを具体的に調整することができる。
【0109】
理解すべきなのは、モデル訓練段階(
図7に対応する実施形態)とモデル適用段階(
図1に対応する実施形態)のそれぞれのプロセスの原理は一致しているため、本実施形態では詳しく説明しないが、具体的な内容は上記適用段階の説明を参照してもよい。
【0110】
本発明の実施形態によれば、予測図情報を取得し、予測図情報に基づいて総損失関数を構築することにより、モデル訓練時にキーポイントの図情報を参照することができ、キーポイント図情報抽出モデルの精度を向上させ、ひいてはキーポイント検出の精度を向上させることができる。
【0111】
図10は本開示の第10実施形態の概略図である。本実施形態は、特徴抽出モジュール1001と、図情報抽出モジュール1002と、決定モジュール1003とを備えたキーポイント検出装置1000を提供する。
【0112】
特徴抽出モジュール1001は、画像に特徴抽出処理を行って前記画像の画像特徴を取得する。図情報抽出モジュール1002は、前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報を取得する。前記図情報は、前記キーポイントの位置関係図と、前記キーポイントのうちの中心点の位置情報とを含む。決定モジュール1003は、前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得する。
【0113】
いくつかの実施形態では、前記図情報抽出モジュール1002は、前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を得る強調部と、前記グラフ畳み込み強調特徴に基づいて前記図情報を取得する取得部とを備える。
【0114】
いくつかの実施形態では、前記強調部は、具体的に、前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して、統合特徴を取得し、前記画像特徴及び前記統合特徴に基づいて前記グラフ畳み込み強調特徴を取得する。
【0115】
いくつかの実施形態では、前記画像特徴は、複数のチャネルの画像特徴であり、前記強調部は、さらに具体的に、前記複数のチャネルの各々の画像特徴にプール化、1次元畳み込み及び活性化処理を行って、前記各チャネルの重み係数を決定し、前記各チャンネルの重み係数に基づいて前記各チャンネルの画像特徴に重み付け処理を行って前記重み付け画像特徴を取得する。
【0116】
いくつかの実施形態では、前記強調部は、さらに具体的に、前記アグリゲーション特徴に複数のスケールの1次元畳み込み処理を行って複数のスケールの特徴を取得し、前記複数のスケールの特徴にスタック処理を行ってスタック特徴を取得し、前記スタック特徴に次元が前記複数のスケールの数と同じである多次元畳み込み処理を行って畳み込み後の特徴を取得し、前記アグリゲーション特徴と前記畳み込み後の特徴とに基づいて前記位置特徴を取得する。
【0117】
いくつかの実施形態では、前記位置関係図は3D位置関係図であり、前記中心点の位置情報は、2Dヒートマップ及び深さ情報を含み、前記取得部は、具体的に、前記グラフ畳み込み強調特徴に第1畳み込み処理を行って前記3D位置関係図を取得し、前記グラフ畳み込み強調特徴に第2畳み込み処理を行って前記中心点の2Dヒートマップを取得し、前記グラフ畳み込み強調特徴に第3畳み込み処理を行って前記中心点の深さ情報を取得する。
【0118】
いくつかの実施形態では、前記位置関係図に異なるキーポイント間の有向エッジの情報が含まれ、前記決定モジュール1003は、具体的に、前記有向エッジの情報に基づいて、前記中心点の位置情報から順に接続関係を有する非中心点の位置情報を復号する。
【0119】
本開示の実施形態では、複数の段階の検出結果に基づいてキーポイント検出結果を得ることにより、目標結果においてスケール情報を参照することができ、複数の段階の検出結果を得る際に位置符号化を考慮することにより、距離情報を参照することができるため、キーポイント検出結果がスケール情報と距離情報を参照し、キーポイントの検出精度を向上させることができる。
【0120】
図11は本開示の第11実施形態の概略図である。本実施形態は、特徴抽出モジュール1101と、図情報抽出モジュール1102と、構築モジュール1103と、訓練モジュール1104とを備えるキーポイント検出モデルの訓練装置1100を提供する。
【0121】
特徴抽出モジュール1101は、画像サンプルに特徴抽出処理を行って前記画像サンプルの画像特徴を取得する。図情報抽出モジュール1102は、前記画像特徴に基づいて、前記画像サンプルにおける目標のキーポイントの予測図情報であって、前記キーポイントの予測位置関係図と、前記キーポイントのうちの中心点の予測位置情報とを含む予測図情報を取得する。構築モジュール1103は、前記予測位置関係図及び前記予測位置情報に基づいて、総損失関数を構築する。訓練モジュール1104は、前記総損失関数に基づいてキーポイント検出モデルを訓練する。
【0122】
いくつかの実施形態では、前記予測位置関係図は予測3D位置関係図であり、前記予測位置情報は予測2Dヒートマップ及び予測深さ情報を含み、前記構築モジュール1103は、具体的に、前記予測3D位置関係図及び前記目標の真の3D位置関係図に基づいて、第1損失関数を構築し、前記予測3D位置関係図及び前記目標の真の3D位置関係図に基づいて、第1損失関数を構築し、前記予測2Dヒートマップ及び前記中心点の真の2Dヒートマップに基づいて、第2損失関数を構築し、前記予測深さ情報と前記中心点の真の深さ情報とに基づいて第3損失関数を構築し、前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて、前記総損失関数を構築する。
【0123】
いくつかの実施形態では、前記図情報抽出モジュール1102は、前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得する強調部と、前記グラフ畳み込み強調特徴に基づいて前記予測図情報を取得する取得部とを備える。
【0124】
いくつかの実施形態では、前記強調部は、具体に、前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して、統合特徴を取得し、前記画像特徴及び前記統合特徴に基づいて前記グラフ畳み込み強調特徴を取得する。
【0125】
いくつかの実施形態では、前記画像特徴は、複数のチャネルの画像特徴であり、前記強調部は、さらに具体的に、前記複数のチャネルの各々の画像特徴にプール化、1次元畳み込み及び活性化処理を行って、前記各チャネルの重み係数を決定し、前記各チャンネルの重み係数に基づいて前記各チャンネルの画像特徴に重み付け処理を行って前記重み付け画像特徴を取得する。
【0126】
いくつかの実施形態では、前記強調部は、さらに具体的に、前記アグリゲーション特徴に複数のスケールの1次元畳み込み処理を行って複数のスケールの特徴を取得し、前記複数のスケールの特徴にスタック処理を行ってスタック特徴を取得し、前記スタック特徴に次元が前記複数のスケールの数と同じである多次元畳み込み処理を行って畳み込み後の特徴を取得し、前記アグリゲーション特徴と前記畳み込み後の特徴とに基づいて前記位置特徴を取得する。
【0127】
いくつかの実施形態では、前記予測位置関係図は、予測3D位置関係図であり、前記中心点の予測位置情報は、予測2Dヒートマップ及び予測深さ情報を含み、前記取得部は、具体的に、前記グラフ畳み込み強調特徴に第1畳み込み処理を行って前記予測3D位置関係図を取得し、前記グラフ畳み込み強調特徴に第2畳み込み処理を行って前記中心点の予測2Dヒートマップを取得し、前記グラフ畳み込み強調特徴に第3畳み込み処理を行って前記中心点の予測深さ情報を取得する。
【0128】
本開示の実施形態では、複数の段階の検出結果に基づいて総損失関数を構築することにより、総損失関数においてスケール情報を参照することができ、複数の段階の検出結果を得る際に位置符号化を考慮することにより、距離情報を参照することができるため、総損失関数がスケール情報と距離情報を参照し、キーポイント検出モデルの精度を向上させることができる。
【0129】
理解すべきなのは、本開示の実施形態では、異なる実施形態における同一又は類似の内容は相互に参照されてもよい。
【0130】
なお、本開示の実施形態における「第1」、「第2」等は、単に区別するためのものであり、重要度の高さ、タイミングの優先度等を示すものではない。
【0131】
本開示の技術案において、関わるユーザの個人情報の取得、記憶及び応用等は、いずれも関連法律法規の規定に適合しており、公序良俗に反するものではない。
【0132】
本開示の実施形態によれば、本開示は更に、電子デバイス、可読記憶媒体、及びコンピュータプログラム製品を提供する。
【0133】
図12は、本開示の実施形態を実現可能な例示的な電子デバイス1200の概略的なブロック図を示した。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイスは更に、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続及び関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載及び/又は要求された本開示の実現を制限することではない。
【0134】
図12に示すように、デバイス1200は、読み取り専用メモリ(ROM)1202に記憶されたコンピュータプログラム、又は記憶手段1208からランダムアクセスメモリ(RAM)1203にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる演算手段1201を含む。RAM1203には、デバイス1200の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段1201、ROM1202及びRAM1203は、バス1204を介して接続されている。入出力(I/O)インターフェース1205もバス1204に接続されている。
【0135】
例えばキーボード、マウス等の入力手段1206と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段1207と、例えば磁気ディスク、光ディスク等の記憶手段1208と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段1209を含むデバイス1200の複数の構成要素は、I/Oインターフェース1205に接続される。通信手段1209は、デバイス1200が例えばインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0136】
演算手段1201は、処理能力及び演算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってよい。演算手段1201のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段1201は、上述した様々な方法及び処理、例えばキーポイント検出方法又はキーポイント検出モデルの訓練方法を実行する。例えば、幾つかの実施形態では、キーポイント検出方法又はキーポイント検出モデルの訓練方法は、例えば記憶手段1208のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。幾つかの実施形態では、コンピュータプログラムの一部又は全部は、ROM1202及び/又は通信手段1209を介してデバイス1200にロード及び/又はインストールすることができる。コンピュータプログラムがRAM1203にロードされ、演算手段1201により実行されると、前記キーポイント検出方法又はキーポイント検出モデルの訓練方法の1つ又は複数のステップを実行することができる。代替的に、他の実施形態では、演算手段1201は、キーポイント検出方法又はキーポイント検出モデルの訓練方法を実行するように、他の任意の適切な方法で(例えば、ファームウェアを介する)構成されてもよい。
【0137】
本明細書で前述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んで良い。当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができる。当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであって、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を転送することができる。
【0138】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に指定された機能/動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシン又はサーバ上で実行されても良い。
【0139】
本開示の文脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置又はデバイスにより使用され、或いは命令実行システム、装置又はデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又はデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
【0140】
ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザにより入力をコンピュータに提供するキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であって良く、ユーザからの入力を任意の形式(音入力、音声入力、又は触覚入力を含む)で受信して良い。
【0141】
本明細書に記載されたシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
【0142】
コンピュータシステムは、クライアントとサーバーを含み得る。クライアントとサーバーは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバ、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、従来の物理ホストとVPSサービス(「Virtual Private Server」、或いは「VPS」と略称される)サービスにおいて管理が難しく、ビジネスの拡張性が弱いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つであって良い。サーバは、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。
【0143】
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
【0144】
上記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。