特表2024-534684 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ▲騰▼▲訊▼科技（深▲セン▼）有限公司の特許一覧

特表2024-534684モデル訓練方法、装置、機器、媒体およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-09-20

(54)【発明の名称】モデル訓練方法、装置、機器、媒体およびプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20240912BHJP

【ＦＩ】

G06T7/00 350B

G06T7/00 660B

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024520050

(86)(22)【出願日】2022-09-21

(85)【翻訳文提出日】2024-04-02

(86)【国際出願番号】 CN2022120169

(87)【国際公開番号】W WO2023093244

(87)【国際公開日】2023-06-01

(31)【優先権主張番号】202111398623.5

(32)【優先日】2021-11-24

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】517392436

【氏名又は名称】▲騰▼▲訊▼科技（深▲セン▼）有限公司

【氏名又は名称原語表記】ＴＥＮＣＥＮＴＴＥＣＨＮＯＬＯＧＹ（ＳＨＥＮＺＨＥＮ）ＣＯＭＰＡＮＹＬＩＭＩＴＥＤ

【住所又は居所原語表記】３５／Ｆ，ＴｅｎｃｅｎｔＢｕｉｌｄｉｎｇ，ＫｅｊｉｚｈｏｎｇｙｉＲｏａｄ，ＭｉｄｗｅｓｔＤｉｓｔｒｉｃｔｏｆＨｉ－ｔｅｃｈＰａｒｋ，ＮａｎｓｈａｎＤｉｓｔｒｉｃｔ，Ｓｈｅｎｚｈｅｎ，Ｇｕａｎｇｄｏｎｇ５１８０５７，ＣＨＩＮＡ

(74)【代理人】

【識別番号】100112656

【弁理士】

【氏名又は名称】宮田英毅

(74)【代理人】

【識別番号】100089118

【弁理士】

【氏名又は名称】酒井宏明

(72)【発明者】

【氏名】温少国

(72)【発明者】

【氏名】王君樂

(72)【発明者】

【氏名】許子瀟

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096CA04

5L096DA02

5L096FA09

5L096FA66

5L096FA69

5L096GA51

5L096GA55

5L096KA04

(57)【要約】

本願実施例は人工知能分野におけるモデル訓練方法および関連装置を開示する。当該方法は、ｍ個の参照オブジェクトキーポイント検出モデルにより標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、ｍ個の標的訓練画像内の複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置を含むキーポイント検出結果を得るステップと、各オブジェクトキー部位について、ｍ個のキーポイント検出結果における当該オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、当該オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定するステップと、Ｙｅｓの場合、当該標的オブジェクトキー部位に対応するラベル付け位置を決定するステップと、標的訓練画像と、その中の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置とを、訓練サンプルとするステップと、訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練するステップとを含む。当該方法によれば、訓練された標的オブジェクトキーポイント検出モデルの性能を向上させることができる。

【特許請求の範囲】

【請求項1】

コンピュータ機器によって実行されるモデル訓練方法であって、
ｍ（ｍは１より大きい整数）個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記ｍ個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得るステップであって、前記キーポイント検出結果には前記標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている、ステップと、
各前記オブジェクトキー部位について、ｍ個のキーポイント検出結果における前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、Ｙｅｓの場合、前記ｍ個のキーポイント検出結果における前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定するステップと、
前記標的訓練画像と、それに対応する、各前記標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれているキーポイントラベル付け結果とを、訓練サンプルとするステップと、
前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練するステップと、を含む、
モデル訓練方法。

【請求項2】

ｍ個のキーポイント検出結果における前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定する前記ステップは、
前記ｍ個のキーポイント検出結果における、前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位に対応する参照位置を決定するステップと、
各前記キーポイント検出結果について、前記オブジェクトキー部位に対応するキーポイントの予測位置と前記オブジェクトキー部位に対応する参照位置との距離を特定し、前記距離に基づいて、前記キーポイント検出結果が前記オブジェクトキー部位に対応する標的キーポイント検出結果に属しているか否かを判定するステップと、
前記ｍ個のキーポイント検出結果における、前記オブジェクトキー部位に対応する標的キーポイント検出結果の標的数を集計するステップと、
前記標的数が所定数を超えている場合、前記オブジェクトキー部位が標的オブジェクトキー部位であると判定し、前記標的数が前記所定数を超えていない場合、前記オブジェクトキー部位は非標的オブジェクトキー部位であると判定するステップと、を含む、
請求項１に記載のモデル訓練方法。

【請求項3】

前記ｍ個のキーポイント検出結果における前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定する前記ステップは、
前記標的オブジェクトキー部位に対応する各標的キーポイント検出結果について、前記標的オブジェクトキー部位に対応するキーポイントの予測位置を特定して、前記標的オブジェクトキー部位に対応する標的予測位置とするステップと、
前記標的オブジェクトキー部位に対応する各標的予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定するステップと、を含む、
請求項２に記載のモデル訓練方法。

【請求項4】

前記標的訓練画像が標的ビデオにおけるビデオフレームである場合、さらに、
前記標的ビデオにおける前記標的訓練画像と隣り合うビデオフレームを特定して参照訓練画像とし、前記参照訓練画像に対応するキーポイントラベル付け結果を取得するステップと、
各前記標的オブジェクトキー部位について、前記標的訓練画像に対応するキーポイントラベル付け結果におけるラベル付け位置を特定して第１の位置とし、前記参照訓練画像に対応するキーポイントラベル付け結果におけるラベル付け位置を特定して第２の位置とし、前記第１の位置と前記第２の位置との距離に基づいて、前記標的訓練画像に対応するキーポイントラベル付け結果における、前記第１の位置を保持するか否かと、前記参照訓練画像に対応するキーポイントラベル付け結果における、前記第２の位置を保持するか否かとを決定するステップと、を含む、
請求項１に記載のモデル訓練方法。

【請求項5】

ｍ個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記ｍ個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得る前記ステップは、
各前記参照オブジェクトキーポイント検出モデルについて、前記参照オブジェクトキーポイント検出モデルによって前記標的訓練画像に対してオブジェクトキーポイント検出処理を行うことで、前記標的訓練画像内の各ピクセルが前記オブジェクトキー部位に属している信頼度を特定するステップと、
前記標的訓練画像内の、前記オブジェクトキー部位に属している信頼度が所定の信頼度閾値よりも高いピクセルに基づいて、前記参照オブジェクトキーポイント検出モデルに対応するキーポイント検出結果を特定するステップと、を含む、
請求項１に記載のモデル訓練方法。

【請求項6】

前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練する前記ステップは、
前記標的オブジェクトキーポイント検出モデルにより、前記訓練サンプルにおける前記標的訓練画像に対してオブジェクトキーポイント検出処理を行って、前記標的訓練画像に対応する訓練キーポイント検出結果を得るステップであって、前記訓練キーポイント検出結果には複数のオブジェクトキー部位のそれぞれに対応するキーポイントの訓練予測位置が含まれている、ステップと、
前記標的訓練画像に対応する訓練キーポイント検出結果と、前記訓練サンプルにおける前記キーポイントラベル付け結果とに基づいて、標的損失関数を構築するステップと、
前記標的損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調節するステップと、を含む、
請求項１に記載のモデル訓練方法。

【請求項7】

前記標的訓練画像に対応する訓練キーポイント検出結果と、前記訓練サンプルにおける前記キーポイントラベル付け結果とに基づいて、標的損失関数を構築する前記ステップは、
前記訓練キーポイント検出結果における各キーポイントについて、前記キーポイントに対応するオブジェクトキー部位が、前記キーポイントラベル付け結果における標的オブジェクトキー部位であるか否かを判定し、Ｙｅｓの場合、前記キーポイントに対応する訓練予測位置および前記キーポイントに対応する標的オブジェクトキー部位のラベル付け位置に基づいて、前記キーポイントに対応する損失項を構築するとともに、前記キーポイントに対応する損失項に、対応する第１の損失重みを設定し、Ｎｏの場合、前記キーポイントに対応する訓練予測位置に基づいて、前記キーポイントに対応する損失項を構築するとともに、前記キーポイントに対応する損失項に、対応する第２の損失重みを設定するステップと、
前記訓練キーポイント検出結果における各キーポイントのそれぞれに対応する損失項と、それに対応する損失重みとに基づいて、前記標的損失関数を構築するステップと、を含み、
前記第１の損失重みは０より大きく、前記第２の損失重みは０に等しい、
請求項６に記載のモデル訓練方法。

【請求項8】

前記標的訓練画像が標的ビデオにおけるビデオフレームである場合、さらに、
前記標的ビデオにおける前記標的訓練画像と隣り合うビデオフレームを特定して参照訓練画像とし、前記参照訓練画像に対応する訓練キーポイント検出結果を取得するステップと、
前記標的訓練画像および前記参照訓練画像のそれぞれに対応する訓練キーポイント検出結果に基づいて、第１の参照損失関数を構築するステップと、を含み、
前記標的損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調節する前記ステップは、
前記標的損失関数および前記第１の参照損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調整するステップを含む、
請求項６に記載のモデル訓練方法。

【請求項9】

前記標的訓練画像および前記参照訓練画像のそれぞれに対応する訓練キーポイント検出結果に基づいて、第１の参照損失関数を構築する前記ステップは、
各前記オブジェクトキー部位について、前記標的訓練画像内の前記オブジェクトキー部位に対応するキーポイントの訓練予測位置を特定して第３の位置とし、前記参照訓練画像内の前記オブジェクトキー部位に対応するキーポイントの訓練予測位置を特定して第４の位置とし、前記第３の位置と前記第４の位置との距離に基づいて、前記オブジェクトキー部位に対応する損失項を構築し、前記損失項に対応する損失重みを設定するステップと、
各前記オブジェクトキー部位のそれぞれに対応する損失項と、それに対応する損失重みに基づいて、前記第１の参照損失関数を構築するステップと、を含む、
請求項８に記載のモデル訓練方法。

【請求項10】

前記参照オブジェクトキーポイント検出モデルで前記標的訓練画像を処理した場合に生成される第１の中間処理結果と、前記標的オブジェクトキーポイント検出モデルで前記標的訓練画像を処理した場合に生成される第２の中間処理結果とを取得するステップと、
前記第１の中間処理結果および前記第２の中間処理結果に基づいて、第２の参照損失関数を構築するステップと、を含み、
前記標的損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調節する前記ステップは、
前記標的損失関数および前記第２の参照損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調整するステップを含む、
請求項６または８に記載のモデル訓練方法。

【請求項11】

ｍ（ｍは１より大きい整数）個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記ｍ個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得るために用いられるキーポイント検出モジュールであって、前記キーポイント検出結果には、前記標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている、キーポイント検出モジュールと、
各前記オブジェクトキー部位について、ｍ個のキーポイント検出結果における、前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、Ｙｅｓの場合、前記ｍ個のキーポイント検出結果における、前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定するために用いられる、部位ラベル付けモジュールと、
前記標的訓練画像と、それに対応する、各前記標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれているキーポイントラベル付け結果とを、訓練サンプルとするために用いられる、サンプル生成モジュールと、
前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練するために用いられる、モデル訓練モジュールと、を含む、
モデル訓練装置。

【請求項12】

前記部位ラベル付けモジュールは具体的には、
前記ｍ個のキーポイント検出結果における、前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位に対応する参照位置を決定し、
各前記キーポイント検出結果について、前記オブジェクトキー部位に対応するキーポイントの予測位置と前記オブジェクトキー部位に対応する参照位置との距離を特定し、前記距離に基づいて、前記キーポイント検出結果が前記オブジェクトキー部位に対応する標的キーポイント検出結果に属しているか否かを判定し、
前記ｍ個のキーポイント検出結果における、前記オブジェクトキー部位に対応する標的キーポイント検出結果の標的数を集計し、
前記標的数が所定数を超えている場合、前記オブジェクトキー部位が標的オブジェクトキー部位であると判定し、前記標的数が前記所定数を超えていない場合、前記オブジェクトキー部位は非標的オブジェクトキー部位であると判定するために用いられる、
請求項１１に記載のモデル訓練装置。

【請求項13】

プロセッサと、メモリとを含み、
前記メモリはコンピュータプログラムを記憶するために用いられ、
前記プロセッサは前記コンピュータプログラムに基づいて、請求項１～１０のいずれか一項に記載のモデル訓練方法を実行するために用いられる、
コンピュータ機器。

【請求項14】

コンピュータプログラムを記憶するために用いられるコンピュータ可読記憶媒体であって、前記コンピュータプログラムは請求項１～１０のいずれか一項に記載のモデル訓練方法を実行するために用いられる、
コンピュータ可読記憶媒体。

【請求項15】

コンピュータプログラムまたは指令を含むコンピュータプログラム製品であって、前記コンピュータプログラムまたは前記指令がプロセッサによって実行された場合、請求項１～１０のいずれか一項に記載のモデル訓練方法が実現される、
コンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

本願は２０２１年１１月２４日に中国専利局に出願された、出願番号２０２１１１３９８６２３．５、発明の名称「モデル訓練方法および関連装置」の中国専利出願の優先権を主張し、そのすべての内容を援用により本願に組み入れる。

【0002】

本願は人工知能の技術分野に関し、特にモデル訓練に関する。

【背景技術】

【0003】

人体キーポイント検出技術または人体姿勢推定技術と呼ばれる技術は、画像内の人体骨格の重要な関節点（例えば鼻、左右の目、左右の耳、左右の肩、左右の肘、左右の手首、左右の臀部、左右の膝、左右の踝など）の位置を認識するために用いられる。人体キーポイント検出技術は、今や多くのシーンで広く応用されている。例えば、体感ゲームのシーンでは、人体キーポイント検出技術はプレイヤーの肢体の動作の変化を検出して、検出結果に応じて後続の対応するゲームロジックを実行できるようにするために用いられる。

【0004】

人体キーポイント検出技術は、主として人体キーポイント検出モデルをベースとして実現される。即ち、人体キーポイント検出モデルにより、入力された画像に基づいて、その中の人体骨格上の重要関節点の位置を特定する。実際の運用においては，人体キーポイントデータをラベル付けするのは非常に時間と労力がかかり、人体キーポイント検出モデルを訓練するための十分な訓練データをラベル付けするのは容易ではない。しかも、人体キーポイントの検出効率を確保するためには、実際に投入して使用する人体キーポイント検出モデルが複雑すぎてもいけない。したがって、関連技術において実際使用する予定の人体キーポイント検出モデルを訓練する場合、通常はまず構造が複雑で高性能な人体キーポイント検出モデルを利用して、ラベル付けしていない画像に対して人体キーポイント検出処理を行って、当該画像内の人体キーポイントの位置を特定して当該画像の擬似ラベルとし、次に当該画像およびその擬似ラベルを訓練サンプルとし、当該訓練サンプルを利用して、実際使用する予定の、構造がよりシンプルな人体キーポイント検出モデルの訓練を行っている。

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、構造が複雑な人体キーポイント検出モデルであるとしても、モデル性能には限界があり、決定した擬似ラベルの正確性を確保するのは難しく、上記の方式で生成した擬似ラベルには、通常多くのノイズが存在している。したがって、このような擬似ラベルを含む訓練サンプルを利用して、実際使用する予定の人体キーポイント検出モデルを訓練すると、訓練された人体キーポイント検出モデルの性能に影響してしまう。

【0006】

本願実施例で提供するモデル訓練方法および関連装置は、決定される擬似ラベルの正確性を高め、ひいては当該擬似ラベルを含む訓練サンプルに基づいて訓練された人体キーポイント検出モデルの性能を向上させることができる。

【課題を解決するための手段】

【0007】

これに鑑みて、本願の第１の態様で提供するモデル訓練方法は、ｍ（ｍは１より大きい整数）個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記ｍ個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得るステップであって、前記キーポイント検出結果には前記標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている、ステップと、各前記オブジェクトキー部位について、前記ｍ個のキーポイント検出結果における前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、Ｙｅｓの場合、前記ｍ個のキーポイント検出結果における前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定するステップと、前記標的訓練画像と、それに対応する、各前記標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれているキーポイントラベル付け結果とを、訓練サンプルとするステップと、前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練するステップと、を含む。

【0008】

本願の第２の態様で提供するモデル訓練装置は、ｍ（ｍは１より大きい整数）個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記ｍ個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得るために用いられるキーポイント検出モジュールであって、前記キーポイント検出結果には、前記標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている、キーポイント検出モジュールと、各前記オブジェクトキー部位について、前記ｍ個のキーポイント検出結果における、前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、Ｙｅｓの場合、前記ｍ個のキーポイント検出結果における、前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定するために用いられる、部位ラベル付けモジュールと、前記標的訓練画像と、それに対応する、各前記標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれているキーポイントラベル付け結果とを、訓練サンプルとするために用いられる、サンプル生成モジュールと、前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練するために用いられる、モデル訓練モジュールと、を含む。

【0009】

本願の第３の態様で提供するコンピュータ機器は、プロセッサと、メモリとを含み、前記メモリはコンピュータプログラムを記憶するために用いられ、前記プロセッサは前記コンピュータプログラムに基づいて、上記第１の態様のモデル訓練方法のステップを実行するために用いられる。

【0010】

本願の第４の態様で提供するコンピュータ可読記憶媒体は、コンピュータプログラムを記憶するために用いられるコンピュータ可読記憶媒体であって、前記コンピュータプログラムは上記の第１の態様のモデル訓練方法のステップを実行するために用いられる。

【0011】

本願の第５の態様で提供するコンピュータプログラム製品またはコンピュータプログラムは、コンピュータ指令を含み、当該コンピュータ指令はコンピュータ可読記憶媒体に記憶されている。コンピュータ機器のプロセッサが、コンピュータ可読記憶媒体から当該コンピュータ指令を読み取り、プロセッサが当該コンピュータ指令を実行することにより、当該コンピュータ機器に上記の第１の態様のモデル訓練方法のステップを実行させる。

【発明の効果】

【0012】

以上の技術案からわかるように、本願実施例は次のような利点を有する。

【0013】

本願実施例ではモデル訓練方法を提供する。当該方法では実際使用する予定の標的オブジェクトキーポイント検出モデルを訓練するための訓練サンプルを生成するとき、ｍ（ｍは１より大きい整数）個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、ｍ個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得る。ここで各キーポイント検出結果は、標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置を含んでいる。次に、各キーポイント検出結果における同一オブジェクトキー部位の予測位置が、基本的に一致していなければならないという原理に基づいて、各オブジェクトキー部位について、各キーポイント検出結果における当該オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、各参照オブジェクトキーポイント検出モデルの、当該オブジェクトキー部位に対する位置予測結果が信頼できるか否かを評価する。即ち当該オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定する。各参照オブジェクトキーポイント検出モデルの、当該オブジェクトキー部位に対する位置予測結果が信頼できると判定された場合、さらに、当該標的オブジェクトキー部位に対応するラベル付け位置、即ち擬似ラベルを決定する。さらに、当該標的訓練画像と、その中の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置を利用して、訓練サンプルを構成する。このようにして、位置予測結果が信頼できないオブジェクトキー部位を無視し、位置予測結果が信頼できるオブジェクトキー部位のラベル付け位置のみを利用して擬似ラベルとすることで、決定された擬似ラベルに存在するノイズを有効に減少させ、当該擬似ラベルの正確性を向上させることができる。したがって、当該擬似ラベルを含む訓練サンプルに基づいて、実際使用する予定の、構造が比較的シンプルな標的オブジェクトキーポイント検出モデルを訓練すれば、訓練された標的オブジェクトキーポイント検出モデルの性能をある程度保証することができる。

【図面の簡単な説明】

【0014】

【図1】図１は本願実施例で提供するモデル訓練方法の応用シーンの模式図である。

【図2】図２は本願実施例で提供するモデル訓練方法のフロー概要図である。

【図3】図３は本願実施例で提供する参照オブジェクトキーポイント検出モデルの動作原理の模式図である。

【図4】図４は本願実施例で提供する標的オブジェクトキーポイント検出モデルの訓練フロー概要図である。

【図5】図５は本願実施例で提供する体感ゲームの全体的インプリメントアーキテクチャ図である。

【図6】図６は本願実施例で提供する体感ゲームに応用される人体キーポイント検出モデルの訓練アーキテクチャ模式図である。

【図7】図７は本願実施例で提供する人体キーポイント検出モデルのテスト結果の模式図である。

【図8】図８は本願実施例で提供するモデル訓練装置の構造模式図である。

【図9】図９は本願実施例で提供する別のモデル訓練装置の構造模式図である。

【図10】図１０は本願実施例で提供するさらに別のモデル訓練装置の構造模式図である。

【図11】図１１は本願実施例で提供する端末機器の構造模式図である。

【図12】図１２は本願実施例で提供するサーバの構造模式図である。

【発明を実施するための形態】

【0015】

本願のスキームが当業者によりよく理解されるよう、以下、本願の実施例における図面と組み合わせて本願の実施例の技術スキームを明確且つ全面的に説明する。もちろん、説明される実施例は本願の実施例の一部にすぎず、すべてではない。本願の実施例に基づいて当業者が創意工夫を要さずに得た他のすべての実施例は、いずれも本願の保護範囲に属する。

【0016】

本願の明細書、特許請求の範囲および上記図面における「第１」、「第２」、「第３」、「第４」等（もしあれば）は、類似した対象を区別するために用いるものであり、必ずしも特定の順番や前後の順序を説明するためのものではない。このように使用される用語は状況に応じて互換可能であり、それにより、ここで説明する本願の実施例は、図示したり説明した順序以外の順序で実施することが可能であると理解されたい。また、「含む」、「備える」、およびそれらの何らかの変形である用語は、排他的でない包含をカバーすることを意図している。例えば、一連のステップまたは手段を含むプロセス、方法、システム、製品または機器は、明確に列挙されたそれらステップや手段に限らず、明確には列挙されていないステップや手段、あるいはこれらのプロセス、方法、製品または機器に固有の他のステップや手段を含みうる。

【0017】

人工知能技術の研究と進歩に伴い、人工知能技術は、例えばよく見かけるスマート住宅、スマートウェアラブル機器、バーチャルアシスタント、スマートスピーカー、インテリジェントマーケティング、無人運転、自動運転、無人機、ロボット、スマート医療、スマートカスタマーサービス、車のインターネット化（ＩｏＶ）、自動運転、高度道路交通システム（ＩＴＳ）など、多くの分野で研究と応用が展開されている。技術の発展に伴って、人工知能技術がより多くの分野で応用され、より重要な価値を発揮するであろうことは確実である。

【0018】

本願実施例で提供するスキームは人工知能のコンピュータビジュアルテクノロジーに関し、上記の各種分野への応用が可能である。以下の実施例で具体的に説明する。

【0019】

関連技術においては、構造が複雑なオブジェクトキーポイント検出モデルによる、未ラベル付け画像に対するキーポイント検出結果を、そのまま当該未ラベル付け画像に対応する擬似ラベルとし、さらに、当該未ラベル付け画像およびそれに対応する擬似ラベルからなる訓練サンプルを利用して、構造がシンプルな、実際使用する予定のオブジェクトキーポイント検出モデルの訓練を行う。当該方法で生成された擬似ラベルには、通常多くのノイズが存在し、正確性が低い。これにより訓練されたオブジェクトキーポイント検出モデルのモデル性能に悪い影響を与えてしまう。

【0020】

上記関連技術に存在する課題を解決するため、本願実施例ではモデル訓練方法を提供する。当該モデル訓練方法では、まずｍ（ｍは１より大きい整数）個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行い、ｍ個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得る。ここでの各キーポイント検出結果は、標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置を含んでいる。次に、各オブジェクトキー部位について、ｍ個のキーポイント検出結果における当該オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、当該オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定する。Ｙｅｓであれば、ｍ個のキーポイント検出結果における当該標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、当該標的オブジェクトキー部位に対応するラベル付け位置を決定する。さらに、当該標的訓練画像と、その中の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置とを訓練サンプルとし、当該訓練サンプルに基づいて、実際使用する予定の、構造が比較的シンプルな標的オブジェクトキーポイント検出モデルを訓練する。

【0021】

上記モデル訓練方法により、実際使用する予定の標的オブジェクトキーポイント検出モデルを訓練するための訓練サンプルを生成するとき、構造が複雑な複数の参照オブジェクトキーポイント検出モデルによって、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、複数のキーポイント検出結果を得る。次に、各キーポイント検出結果における同一オブジェクトキー部位の予測位置が、基本的に一致していなければならないという原理に基づいて、各オブジェクトキー部位について、各キーポイント検出結果における当該オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、各参照オブジェクトキーポイント検出モデルの、当該オブジェクトキー部位に対する位置予測結果が信頼できるか否かを評価する。即ち当該オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定する。各参照オブジェクトキーポイント検出モデルの、当該オブジェクトキー部位に対する位置予測結果が信頼できると判定された場合、さらに、当該標的オブジェクトキー部位に対応するラベル付け位置、即ち擬似ラベルを決定する。そして、当該標的訓練画像と、その中の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置とを利用して、訓練サンプルを構成する。このように、位置予測結果が信頼できないオブジェクトキー部位を無視して、位置予測結果が信頼できるオブジェクトキー部位に対応するラベル付け位置のみを利用して擬似ラベルとするので、決定した擬似ラベルに存在するノイズを有効に減少させ、当該擬似ラベルの正確性を向上させることができる。したがって、このような擬似ラベルを含む訓練サンプルに基づいて、実際使用する予定の、構造が比較的シンプルな標的オブジェクトキーポイント検出モデルを訓練すれば、訓練された標的オブジェクトキーポイント検出モデルの性能をある程度保証することができる。

【0022】

なお、本願実施例で提供するモデル訓練方法は、画像処理能力を備えたコンピュータ機器によって実行することができる。当該コンピュータ機器は、端末機器またはサーバでありうる。端末機器は具体的にはコンピュータ、スマートフォン、タブレットコンピュータ、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）などでありうる。サーバは具体的にはアプリケーションサーバまたはウェブサーバでありうる。実際に配置する場合、スタンドアローンサーバでもよいし、複数の物理サーバからなるグループサーバまたはクラウドサーバでもよい。本願実施例に係る処理データ（訓練画像、キーポイント検出結果、キーポイントラベル付け結果など）は、ブロックチェーンに保存することができる。

【0023】

本願実施例で提供するモデル訓練方法が理解されやすいよう、以下では当該モデル訓練方法の実行主体がサーバである場合を例として、当該モデル訓練方法の応用シーンを例示的に説明する。

【0024】

図１を参照されたい。図１は本願実施例で提供するモデル訓練方法の応用シーンの模式図である。図１に示すように当該応用シーンにはサーバ１１０とデータベース１２０が含まれる。サーバ１１０はネットワークを通じてデータベース１２０からデータを取得することができる。あるいは、データベース１２０がサーバ１１０内に統合されていてもよい。サーバ１１０は本願実施例で提供するモデル訓練方法を実行して、実際使用する予定の、構造が比較的シンプルな標的オブジェクトキーポイント検出モデルを訓練するために用いられる。データベース１２０は未ラベルの訓練画像を記憶するために用いられる。

【0025】

実際の運用においては，サーバ１１０はデータベース１２０から標的訓練画像を取得できる。当該標的訓練画像には要検出オブジェクトが含まれ、当該要検出オブジェクトにはいくつかのオブジェクトキー部位が含まれている。例えば，標的訓練画像には鮮明かつ完全な要検出人体が含まれる。

【0026】

次に、サーバ１１０はｍ（ｍは１より大きい整数）個の参照オブジェクトキーポイント検出モデルにより、取得した標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行い、ｍ個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得ることができる。ここでの各キーポイント検出結果には、標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている。付け加えると、上記参照オブジェクトキーポイント検出モデルは、予め訓練されているオブジェクトキーポイント検出モデルであり、通常、画像内の要検出オブジェクト上の各オブジェクトキー部位の位置を比較的正確に検出でき、モデル構造も一般的に比較的複雑である。

【0027】

一例として、上記各参照オブジェクトキーポイント検出モデルは、人体骨格上の各重要関節の位置を検出するための、参照人体キーポイント検出モデルであってよい。したがって、各参照人体キーポイント検出モデルにより、標的訓練画像に対してそれぞれ人体キーポイント検出処理を行い、各参照人体キーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得る。当該キーポイント検出結果は、標的訓練画像内の要検出人体の各重要関節のそれぞれに対応するキーポイントの予測位置を含んでいる。

【0028】

続いて、サーバ１１０は各オブジェクトキー部位について、このｍ個のキーポイント検出結果における当該オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、このｍ個の参照オブジェクトキーポイント検出モデルの当該オブジェクトキー部位の位置に対する予測結果が信頼できるか否かを判定する。即ち、当該オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定する。当該オブジェクトキー部位が標的オブジェクトキー部位であると判定した場合、ｍ個のキーポイント検出結果における当該標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、当該標的オブジェクトキー部位に対応するラベル付け位置を決定する。

【0029】

なお、異なる参照オブジェクトキーポイント検出モデルの、標的訓練画像内の同一オブジェクトキー部位に対する位置予測結果は、基本的に一致していなければならない。即ち、異なる参照オブジェクトキーポイント検出モデルの同一オブジェクトキー部位についての予測位置は、相互の距離が小さくなくてはならない。もしｍ個のキーポイント検出結果における同一オブジェクトキー部位に対する予測位置相互の距離が大きければ、このｍ個のキーポイント検出結果における当該オブジェクトキー部位に対応する予測位置が信頼できないことを表し、おそらく大きなノイズが存在する。このノイズが後続のモデル訓練に取り込まれないよう、当該オブジェクトキー部位を無視してよく、ｍ個のキーポイント検出結果における当該オブジェクトキー部位に対する予測位置に基づいて、当該オブジェクトキー部位に対応するラベル付け位置を決定することがないようにする。反対に、ｍ個のキーポイント検出結果の同一オブジェクトキー部位に対する予測位置相互の距離が小さければ、このｍ個のキーポイント検出結果における当該オブジェクトキー部位に対応する予測位置が信頼できることを表している。したがって、当該オブジェクトキー部位を標的オブジェクトキー部位と見なし、ｍ個のキーポイント検出結果における当該標的オブジェクトキー部位に対応する予測位置に基づいて、当該標的オブジェクトキー部位に対応するラベル付け位置を決定する。

【0030】

標的訓練画像内の各オブジェクトキー部位に対して上記処理を実行して、標的訓練画像内の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置を得た後、当該標的訓練画像内の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置を利用して、当該標的訓練画像に対応するキーポイントラベル付け結果、即ち当該標的訓練画像に対応する擬似ラベルを構成する。さらに、標的訓練画像およびそれ対応するキーポイントラベル付け結果を、訓練サンプルとすることができる。

【0031】

さらに、上記方法で構築した訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練する。当該標的オブジェクトキーポイント検出モデルは実際使用する予定のオブジェクトキーポイント検出モデル、例えば、体感ゲームに適用されプレイヤーの肢体動作を認識するために用いられる人体キーポイント検出モデルである。実際に使用するオブジェクトキーポイント検出モデルは高い検出効率を備える必要があると考えられる。したがって、通常はモデル構造が比較的シンプルなオブジェクトキーポイント検出モデルを、上記標的オブジェクトキーポイント検出モデルとする。

【0032】

なお、図１に示す応用シーンは一例に過ぎず、実際の運用においては、本願実施例で提供するモデル訓練方法を他のシーンに適用することもできる。本願実施例で提供するモデル訓練方法を適用する応用シーンについて、ここではなんら限定しない。

【0033】

次に、方法実施例により本願が提供するモデル訓練方法を詳細に説明する。

【0034】

図２を参照されたい。図２は本願実施例で提供するモデル訓練方法のフロー概要図である。説明の便宜上、下記の実施例でも当該モデル訓練方法の実行主体がサーバである場合を例として説明する。図２に示すように、当該モデル訓練方法は以下のステップを含む。

【0035】

ステップ２０１：ｍ個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記ｍ個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得る。前記キーポイント検出結果には、前記標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている。前記ｍは１より大きい整数である。

【0036】

本願実施例において、サーバが標的訓練画像について、対応する擬似ラベルを生成する場合、まずｍ個の参照オブジェクトキーポイント検出モデルにより、当該標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、ｍ個の参照オブジェクトキーポイント検出モデル各々の、当該標的訓練画像に対するキーポイント検出結果を得る。即ちｍ個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得る。ここで、各キーポイント検出結果には、標的訓練画像内の複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置がそれぞれ含まれている。

【0037】

補足説明すると、擬似ラベルとは半教師あり学習で常用される訓練データである。通常の場合、性能がより優れた複雑なモデルによってラベル無しデータを処理して、当該ラベル無しデータに対応する擬似ラベルを得るが、当該擬似ラベルは不正確なおそれがある。本願実施例において、標的訓練画像に対応する擬似ラベルは、ｍ個の参照オブジェクトキーポイント検出モデルの当該標的訓練画像に対するキーポイント検出結果に基づいて決定される。本願の主旨は、一連の処理フローによりｍ個の参照オブジェクトキーポイント検出モデルの当該標的訓練画像に対するキーポイント検出結果を処理して、当該標的訓練画像内のオブジェクトキー部位の位置を比較的正確に反映した擬似ラベルを得ることにより、当該擬似ラベルを含む訓練サンプルに基づいて訓練される標的オブジェクトキーポイント検出モデルの性能を向上させることにある。

【0038】

補足説明すると、参照オブジェクトキーポイント検出モデルは、予め訓練された、画像内の要検出オブジェクト上のオブジェクトキー部位の所在位置を検出するためのモデルであり、一般的に比較的正確にオブジェクトキー部位の所在位置を検出することができる。通常の場合、参照オブジェクトキーポイント検出モデルが正確にオブジェクトキー部位の位置を検出できるようにするために、参照オブジェクトキーポイント検出モデルには比較的複雑なモデル構造が設定される。例示的に、上記各参照オブジェクトキーポイント検出モデルは、画像内の人体上の各重要関節の所在位置を検出するための参照人体キーポイント検出モデルであり、当該参照人体キーポイント検出モデルのキーポイント検出結果は人体の姿勢の特定に用いられる。なお、本願実施例におけるｍ個の参照オブジェクトキーポイント検出モデルは、同一の訓練サンプルセットに基づいて訓練されたものでもよいし、異なる訓練サンプルセットに基づいて訓練されたものでもよい。本願はこれについてなんら限定しない。

【0039】

補足説明すると、標的訓練画像とは要検出オブジェクトを含む画像であり、その中の要検出オブジェクト上には、いくつかのオブジェクトキー部位が含まれている。ここでのオブジェクトキー部位は、要検出オブジェクトの当該要検出オブジェクトの姿勢を反映できる部位を含む。例示的に、当該標的訓練画像は鮮明かつ完全な要検出人体を含んだ画像であり、当該要検出人体には、いくつかの重要関節、例えば鼻、左右の目、左右の耳、左右の肩、左右の肘、左右の手首、左右の臀部、左右の膝、左右の踝などが含まれている。

【0040】

補足説明すると、参照オブジェクトキーポイント検出モデルに対応するキーポイント検出結果は、当該参照オブジェクトキーポイント検出モデルが標的訓練画像に対して行ったオブジェクトキーポイント検出処理によって得られたものであり、当該キーポイント検出結果には、標的訓練画像内の要検出オブジェクト上の各オブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている。例示的に、標的訓練画像をサイズがＨ×Ｗの画像であると仮定すると、参照オブジェクトキーポイント検出モデルが当該標的訓練画像に対してオブジェクトキーポイント検出処理を行うと、サイズがＫ×Ｈ×Ｗのヒートマップが出力される。但し、Ｋは検出する必要があるオブジェクトキー部位の数であり、Ｋ×Ｈ×Ｗのヒートマップのうち第ｋ枚目のヒートマップは、標的訓練画像内の第ｋ番目のオブジェクトキー部位に対応するキーポイント的予測位置を示すために用いられる。

【0041】

選択可能な一実現形態において、サーバは以下の方法で各参照オブジェクトキーポイント検出モデルに対応するキーポイント検出結果を取得してもよい。即ち、各参照オブジェクトキーポイント検出モデルについて、当該参照オブジェクトキーポイント検出モデルによって標的訓練画像に対してオブジェクトキーポイント検出処理を行うことで、当該標的訓練画像内の各ピクセルの、オブジェクトキー部位に属している信頼度を特定する。次に、当該標的訓練画像内の、オブジェクトキー部位に属している信頼度が所定の信頼度閾値よりも高いピクセルに基づいて、当該参照オブジェクトキーポイント検出モデルに対応するキーポイント検出結果を特定する。

【0042】

具体的には、図３は本願実施例で提供する参照オブジェクトキーポイント検出モデルの動作原理の模式図である。図３に示すように、サーバがサイズがＨ×Ｗである標的訓練画像を某参照オブジェクトキーポイント検出モデルに入力すると、当該参照オブジェクトキーポイント検出モデルは当該標的訓練画像に対して分析処理を行って、それに応じてサイズがＫ×Ｈ×Ｗのヒートマップを出力する。当該ヒートマップは実質的にはＫ枚のサイズがＨ×Ｗのヒートマップからなり、サイズがＨ×Ｗの各ヒートマップには、標的訓練画像内の各ピクセルの、当該ヒートマップに対応するオブジェクトキー部位に属している信頼度が含まれている。例えば，第ｋ枚目のサイズがＨ×Ｗのヒートマップにおいて、各ピクセルが対応する信頼度を有しており、当該信頼度は対応するピクセルが第ｋ番目のオブジェクトキー部位に属している確率を表わしている。

【0043】

サイズがＨ×Ｗである各ヒートマップに対して、サーバはそのうちの対応する信頼度が所定信頼度（例えば０．５）以下のピクセルを無視することができる。例えば、このようなピクセルに対応する信頼度を直接０に調整して、当該ヒートマップに対応するオブジェクトキー部位に属していないものと見なす。そして対応する信頼度が当該所定信頼度よりも高いピクセルのみに基づいて、当該ヒートマップに対応するオブジェクトキー部位の予測位置を特定する。例えば、このようなピクセルに対応する信頼度を１に調整して、当該ヒートマップに対応するオブジェクトキー部位に属していると黙認する。したがって、当該ヒートマップにおける、対応する信頼度が１に等しいピクセルの位置が、当該ヒートマップに対応するオブジェクトキー部位の予測位置を反映することができる。このように、上記の方法でサイズがＨ×ＷであるＫ枚のヒートマップの一次スクリーニング処理を完了すると、一次スクリーニング処理で得られたサイズがＫ×Ｈ×Ｗのヒートマップを、当該参照オブジェクト検出モデルに対応するキーポイント検出結果とすることができる。

【0044】

このように、参照オブジェクトキーポイント検出モデルの実際の検出結果を前処理して、当該参照オブジェクトキーポイント検出モデルに対応するキーポイント検出結果を得ることにより、キーポイント検出結果におけるノイズを一層減少させることができる。同時に、サーバがこのようなノイズに対して後続の不必要な処理を行わずにすみ、処理の所要資源が減少するとともに、後続の処理効率を向上させることができる。

【0045】

ステップ２０２：各前記オブジェクトキー部位について、前記ｍ個のキーポイント検出結果における前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、Ｙｅｓの場合、前記ｍ個のキーポイント検出結果における前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定する。

【0046】

サーバは、ｍ個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を取得した後、このｍ個のキーポイント検出結果に基づいて、ｍ個の参照オブジェクトキーポイント検出モデルの、各オブジェクトキー部位の位置に対する予測結果が信頼できるか否かを判定する。即ち、各オブジェクトキー部位について、サーバはｍ個のキーポイント検出結果における当該オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、当該オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、当該オブジェクトキー部位が標的オブジェクトキー部位であると判定された場合、サーバはさらにｍ個のキーポイント検出結果における当該標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、当該標的オブジェクトキー部位に対応するラベル付け位置を決定する。さらに、サーバは標的訓練画像内の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置を利用して、当該標的訓練画像に対応するキーポイントラベル付け結果を構成することができる。

【0047】

空間一致性の観点から見れば、異なる参照オブジェクトキーポイント検出モデルの、標的訓練画像内の同一オブジェクトキー部位に対する位置予測結果は、基本的に一致していなければならない。即ち、異なる参照オブジェクトキーポイント検出モデルの、同一オブジェクトキー部位についての予測位置は相互間の距離が近くなくてはならない。もしｍ個のキーポイント検出結果における同一オブジェクトキー部位に対応する予測位置相互間の距離が遠ければ、このｍ個のキーポイント検出結果における当該オブジェクトキー部位に対応する予測位置は信頼できないことを表し、おそらく大きなノイズが存在する。このノイズが後続のモデル訓練に取り込まれないよう、本願実施例では当該オブジェクトキー部位を無視することを選択し、ｍ個のキーポイント検出結果における当該オブジェクトキー部位に対応する予測位置に基づいて、当該オブジェクトキー部位に対応するラベル付け位置を決定することがないようにする。即ち、当該オブジェクトキー部位に基づいて標的訓練画像に対応する擬似ラベルを生成することはしない。反対に、ｍ個のキーポイント検出結果における同一オブジェクトキー部位に対応する予測位置相互間の距離が近ければ、このｍ個のキーポイント検出結果における当該オブジェクトキー部位に対応する予測位置が信頼できることを表している。したがって、当該オブジェクトキー部位を標的オブジェクトキー部位と見なし、ｍ個のキーポイント検出結果における当該標的オブジェクトキー部位に対応する予測位置に基づいて、当該標的オブジェクトキー部位に対応するラベル付け位置を決定することができ、続けて当該標的オブジェクトキー部位に対応するラベル付け位置に基づいて、標的訓練画像に対応する擬似ラベルを決定することができる。

【0048】

選択可能な一実現形態において、サーバは以下の方法で、ｍ個の参照オブジェクトキーポイント検出モデルの各オブジェクトキー部位に対する位置予測結果が信頼できるか否かを判定してもよい。即ち、以下の方法で、各オブジェクトキー部位について、それが標的オブジェクトキー部位であるか否かを判定する。即ち、ｍ個のキーポイント検出結果における当該オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、当該オブジェクトキー部位に対応する参照位置を決定する。次に各キーポイント検出結果について、当該オブジェクトキー部位に対応するキーポイントの予測位置と、当該オブジェクトキーポイントに対応する参照位置との距離を特定して、当該距離に基づいて当該キーポイント検出結果がオブジェクトキー部位に対応する標的キーポイント検出結果に属しているか否かを判定する。さらに、ｍ個のキーポイント検出結果における当該オブジェクトキー部位に対応する標的キーポイント検出結果の、標的数を集計する。当該標的数が所定数を超えている場合、当該オブジェクトキー部位を標的オブジェクトキー部位であると判定できる。当該標的数が所定数を超えていない場合、当該オブジェクトキー部位は非標的オブジェクトキー部位であると判定できる。

【0049】

なお、オブジェクトキー部位に対応するキーポイントの予測位置は、参照オブジェクトキーポイント検出モデルによる標的訓練画像に対するオブジェクトキーポイント検出処理で得られたものであり、参照オブジェクトキーポイント検出モデルが出力したオブジェクトキー部位の位置予測結果である。オブジェクトキー部位に対応する参照位置は、複数の参照オブジェクトキーポイント検出モデルのキーポイント検出結果における当該オブジェクトキー部位の位置予測結果に基づいて特定されたものであり、例えば，複数のキーポイント検出結果における当該オブジェクトキー部位に対応する予測位置を平均化処理して得られたものである。複数のキーポイント検出結果における当該オブジェクトキー部位に対応する予測位置の分布状況を反映するために用いられる。

【0050】

上記の実現プロセスが理解されやすいよう、以下、オブジェクトキー部位である「頭部」について、標的オブジェクトキー部位であるか否かを判定する場合を例として、上記の実現プロセスを例示的に説明する。頭部について、それが標的オブジェクトキー部位に属しているか否かを判定するとき、サーバはｍ個のキーポイント検出結果における頭部に対応するキーポイントの予測位置の平均値を計算して、頭部に対応する参照位置とする。次に、当該頭部に対応する参照位置を中心として、各キーポイント検出結果について、そのうちの頭部に対応するキーポイントの予測位置と当該参照位置との間の距離を特定し、当該距離が第１の所定距離（例えば各位置に対して正規化処理を行った場合、当該第１の所定距離は０．１とすることができる）より小さいか否かを判断する。小さい場合は、当該キーポイント検出結果は頭部に対応する標的キーポイント検出結果に属していると判定し、反対に小さくない場合は、当該キーポイント検出結果は頭部に対応する標的キーポイント検出結果に属していないと判定する。ｍ個のキーポイント検出結果すべてについて上記処理が完了したら、このｍ個のキーポイント検出結果における頭部に対応する標的キーポイント検出結果における標的数を集計する。当該頭部に対応する標的数が所定数量（例えばｍ／２）を超えている場合、頭部が標的オブジェクトキー部位に属していると判定できる。反対に、当該頭部に対応する標的数が所定数量を超えていない場合、頭部は非標的オブジェクトキー部位に属していると判定できる。

【0051】

なお、上記第１の所定距離、所定数量などのパラメータは、いずれも実際の必要に応じて設定することができ、本願はそれについてはここでなんら限定しない。また、上記のオブジェクトキー部位に対応する参照位置を決定する実現形態、およびキーポイント検出結果がオブジェクトキー部位に対応する標的キーポイント検出結果に属するか否かを判定する実現形態も、実際の必要に応じて設定することができ、本願はそれについてもなんら限定しない。

【0052】

上記方法により、ｍ個の参照オブジェクトキーポイント検出モデルの各オブジェクトキー部位に対する位置予測結果が信頼できるか否かを判定することで、判定結果の信頼性が保証され、信頼性が低いオブジェクトキー部位の位置予測結果を有効にふるい落とすことができる。したがって、続いて決定される標的訓練画像に対応する擬似ラベルが高い信頼性を有することが保証され、そこに大量のノイズが混入することが回避できる。

【0053】

上記方法で各オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定する場合、サーバはさらに以下の方法で標的オブジェクトキー部位に対応するラベル付け位置を決定することができる。即ち、標的オブジェクトキー部位に対応する各標的キーポイント検出結果について、そのうちの当該標的オブジェクトキー部位に対応するキーポイントの予測位置を特定して、当該標的オブジェクトキー部位に対応する標的予測位置とし、さらに、当該標的オブジェクトキー部位に対応する各標的予測位置に基づいて、当該標的オブジェクトキー部位に対応するラベル付け位置を決定する。

【0054】

例示的に、ある標的オブジェクトキー部位について、サーバは当該標的オブジェクトキー部位に対応する各標的キーポイント検出結果における当該標的オブジェクトキー部位に対応するキーポイントの予測位置を取得して、当該標的オブジェクトキー標的に対応する標的予測位置とすることができる。さらに、サーバは当該標的オブジェクトキー部位に対応する各標的予測位置の平均値を計算して、当該標的オブジェクトキー部位に対応するラベル付け位置とすることができる。

【0055】

このように、標的オブジェクトキー部位に対応する標的キーポイント検出結果における当該標的オブジェクトキー部位の位置予測結果のみに基づいて、当該標的オブジェクトキー部位に対応するラベル付け位置を決定することで、決定したラベル付け位置の正確性を保証することができる。

【0056】

なお、実際の運用においては，サーバはその他の方法を用いて標的オブジェクトキー部位に対応するラベル付け位置を決定してもよい。例えば、標的オブジェクトキー部位に対応する参照位置（即ちｍ個のキーポイント検出結果における当該標的オブジェクトキー部位に対応するキーポイントの予測位置の平均値）をそのまま当該標的オブジェクトキー部位に対応するラベル付け位置としてもよい。本願はここではサーバが標的オブジェクトキー部位に対応するラベル付け位置を決定する方法についてなんら限定しない。

【0057】

任意選択として、標的訓練画像が標的ビデオにおけるビデオフレームである場合、サーバは時系列の連続性に着眼して、上記標的オブジェクトキー部位に対してさらなる判定を行い、上記標的オブジェクトキー部位を保持するか否かを決定してもよい。

【0058】

即ち、サーバは標的ビデオにおける標的訓練画像と隣り合うビデオフレームを参照訓練画像に決定するとともに、当該参照訓練画像に対応するキーポイントラベル付け結果を取得することができる。当該キーポイントラベル付け結果には、当該参照訓練画像内の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれている。次に、各標的オブジェクトキー部位について、その標的訓練画像に対応するキーポイントラベル付け結果におけるラベル付け位置を第１の位置に決定し、その参照訓練画像に対応するキーポイントラベル付け結果におけるラベル付け位置を第２の位置に決定する。当該第１の位置と当該第２の位置との距離に基づいて、標的訓練画像に対応するキーポイントラベル付け結果における、当該第１の位置を保持するか否かと、参照訓練画像に対応するキーポイントラベル付け結果における、当該第２の位置を保持するか否かを決定する。

【0059】

実際の運用において，ビデオの隣り合うビデオフレーム間では大きな差異は存在しないはずである。これは隣り合うビデオフレームにおける要検出オブジェクト上のオブジェクトキー部位の変化の度合いも大きくないことを意味している。これに基づいて、本願実施例ではビデオの隣り合う２つのビデオフレームのそれぞれに対応するキーポイントラベル付け結果に関する標的オブジェクトキー部位対して、さらなる判定処理を行うことができる。

【0060】

具体的には、サーバは標的訓練画像が属する標的ビデオを特定するとともに、当該標的ビデオにおける当該標的訓練画像と隣り合うビデオフレームを特定して参照訓練画像とする。当該参照訓練画像は標的訓練画像の１つ前のビデオフレームでもよいし、標的訓練画像の１つ後のビデオフレームでもよい。そして、当該参照訓練画像に対応するキーポイントラベル付け結果を取得する。当該参照訓練画像に対応するキーポイントラベル付け結果の生成方法は、上記で説明した標的訓練画像に対応するキーポイントラベル付け結果の生成方法と同じであり、当該参照訓練画像に対応するキーポイントラベル付け結果には、当該参照訓練画像内の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれている。

【0061】

標的訓練画像および参照訓練画像内の各標的オブジェクトキー部位について、サーバは標的訓練画像に対応するキーポイントラベル付け結果における、当該標的オブジェクトキー部位に対応するラベル付け位置を特定して第１の位置とし、参照訓練画像に対応するキーポイントラベル付け結果における、当該標的オブジェクトキー部位に対応するラベル付け位置を特定して第２の位置とする。次に、当該第１の位置と第２の位置との距離を計算して、当該距離が第２の所定距離（例えば、各位置に対して正規化処理を行った場合、当該第２の所定距離は０．２とすることができる）より小さいか否かを判定し、小さい場合は、標的訓練画像および参照訓練画像のそれぞれに対応するキーポイントラベル付け結果における、当該標的オブジェクトキー部位に対応するラベル付け位置（即ち第１の位置および第２の位置）を保持してよい。反対に、小さくない場合、標的訓練画像および参照訓練画像のそれぞれに対応するキーポイントラベル付け結果における、当該標的オブジェクトキー部位に対応するラベル付け位置を削除してよい。即ち、当該標的オブジェクトキー部位を無効なオブジェクトキー部位と見なす。

【0062】

なお、上記第２の所定距離は実際の必要に応じて設定すればよく、本願はここでなんら限定しない。

【0063】

このように、上記方法により、時系列の連続性に基づいて標的オブジェクトキー部位をさらにスクリーニング処理することで、決定されたキーポイントラベル付け結果の正確性を高めることに寄与し、キーポイントラベル付け結果内に存在するおそれがあるノイズをさらにふるい落とすことができる。

【0064】

ステップ２０３：前記標的訓練画像と、それに対応するキーポイントラベル付け結果とを、訓練サンプルとする。前記キーポイントラベル付け結果には、各前記標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれている。

【0065】

サーバは、上記方法で標的訓練画像に対応するキーポイントラベル付け結果（当該標的訓練画像内の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置を含んでいる）を得た後で、当該標的訓練画像およびそれに対応するキーポイントラベル付け結果を利用して、実際使用する予定の標的オブジェクトキーポイント検出モデルを訓練するための訓練サンプルを構成することができる。なお、ここで標的訓練画像に対応するキーポイントラベル付け結果とは、実質的には当該標的訓練画像に対応する擬似ラベルである。

【0066】

ステップ２０４：前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練する。

【0067】

実際の運用においては，サーバは上記ステップ２０１～ステップ２０３によって大量の訓練サンプルを生成し、さらに、生成した訓練サンプルを利用して、実際使用する予定の標的オブジェクトキーポイント検出モデルを訓練することができる。

【0068】

補足説明すると、標的オブジェクトキーポイント検出モデルは訓練を要する、画像内の要検出オブジェクト上のオブジェクトキー部位の所在位置を検出するためのモデルであり、実際使用する予定のモデルである。通常の場合、実際の運用における検出効率を保証するため、当該標的オブジェクトキーポイント検出モデルのモデル構造は一般的に比較的シンプルである。即ち、当該標的オブジェクトキーポイント検出モデルの複雑度は、通常、上記参照オブジェクトキーポイント検出モデルの複雑度より低い。例示的に、当該標的オブジェクトキーポイント検出モデルは、体感ゲームに適用される、プレイヤーの肢体動作の変化を検出するためのモデルであり、カメラで撮影した画像内の人体に対して重要関節点位置検出を行って、当該人体の動作姿勢を特定するために用いられる。

【0069】

選択可能な一実現形態において、サーバは図４に示すフローに基づいて、標的オブジェクトキーポイント検出モデルに対する訓練を実現する。図４に示すように、サーバは標的キーポイント検出モデルを訓練する場合、具体的には以下のステップを実行する必要がある。

【0070】

ステップ２０４１：前記標的オブジェクトキーポイント検出モデルにより、前記訓練サンプルにおける前記標的訓練画像に対してオブジェクトキーポイント検出処理を行って、前記標的訓練画像に対応する訓練キーポイント検出結果を得る。前記訓練キーポイント検出結果には複数のオブジェクトキー部位のそれぞれに対応するキーポイントの訓練予測位置が含まれている。

【0071】

サーバは、具体的に訓練サンプルを利用して標的オブジェクトキーポイント検出モデルを訓練する場合、訓練サンプルにおける標的訓練画像を当該標的オブジェクトキーポイント検出モデルに入力する。当該標的オブジェクトキーポイント検出モデルは、入力された標的訓練画像に対して分析処理を行うことにより、当該標的訓練画像に対応する訓練キーポイント検出結果を出力することができる。当該訓練キーポイント検出結果には、標的訓練画像内の複数のオブジェクトキー部位のそれぞれに対応するキーポイントの訓練予測位置が含まれている。

【0072】

なお、標的オブジェクトキーポイント検出モデルと上述の参照オブジェクトキーポイント検出モデルの動作原理は基本的に同じであり、両者のモデル構造のみに違いがある。通常の場合、標的オブジェクトキーポイント検出モデルの構造は、参照オブジェクトキーポイント検出モデルの構造よりシンプルである。これに基づいて、標的オブジェクトキーポイント検出モデルの動作原理も図３と同様であってもよい。即ち、サイズがＨ×Ｗである標的訓練画像が標的オブジェクトキーポイント検出モデルに入力され、当該標的オブジェクトキーポイント検出モデルが当該標的訓練画像を処理することで、出力される訓練キーポイント検出結果は、サイズがＫ×Ｈ×Ｗのヒートマップとなる。ここで、第ｋ枚目のヒートマップｙｋは、第ｋ番目のオブジェクトキー部位に対応するキーポイントの予測位置を表すために用いられる。

【0073】

ステップ２０４２：前記標的訓練画像に対応する訓練キーポイント検出結果と、前記訓練サンプルにおける前記キーポイントラベル付け結果とに基づいて、標的損失関数を構築する。

【0074】

サーバは、標的オブジェクトキーポイント検出モデルを利用して標的訓練画像に対してキーポイント検出処理を行って、当該標的訓練画像に対応する訓練キーポイント検出結果を得た後、当該訓練キーポイント検出結果と訓練サンプルにおけるキーポイントラベル付け結果との差異に基づいて、標的損失関数を構築する。

【0075】

選択可能な一実現形態において、サーバは以下の方法で標的損失関数を構築する。即ち、訓練キーポイント検出結果における各キーポイントについて、当該キーポイントに対応するオブジェクトキー部位が、キーポイントラベル付け結果における標的オブジェクトキー部位であるか否かを判定し、Ｙｅｓの場合、当該キーポイントに対応する訓練予測位置および当該キーポイントに対応する標的オブジェクトキー部位のラベル付け位置に基づいて、当該キーポイントに対応する損失項を構築するとともに、当該キーポイントに対応する損失項に、対応する第１の損失重みを設定する。Ｎｏの場合、当該キーポイントに対応する訓練予測位置に基づいて、当該キーポイントに対応する損失項を構築するとともに、前記キーポイントに対応する損失項に、対応する第２の損失重みを設定する。ここで第１の損失重みは０より大きく、第２の損失重みは０に等しい。さらに、訓練キーポイント検出結果における各キーポイントのそれぞれに対応する損失項と、それに対応する損失重みとに基づいて、標的損失関数を構築する。

【0076】

ステップ２０２に対する説明内容からわかるように、本願実施例では標的訓練画像に対応するキーポイントラベル付け結果を判定する場合、各オブジェクトキー部位について標的オブジェクトキー部位であるか否かを判断して、標的オブジェクトキー部位に対応するラベル付け位置のみを決定し、標的オブジェクトキー部位に対応するラベル付け位置のみを利用して、キーポイントラベル付け結果を判定する。このプロセスにおいて、いくつかのオブジェクトキー部位に対応するキーポイントが無視される。これらオブジェクトキー部位に対応するキーポイントは実際には存在するであろうが、本願実施例では一連の判定処理を通じて、これらのオブジェクトキー部位に対応するキーポイントを必ずしも信頼できないと見なし、したがってそれらを標的訓練画像に対応するキーポイントラベル付け結果に加えていない。標的損失関数を構築するときに、上記の無視されたオブジェクトキー部位に対応するキーポイントが実際に存在していないものと誤認して、誤った誤差逆伝播を招き、訓練された標的オブジェクトキーポイント検出モデルの性能に影響を与えることを防ぐため、本願実施例では重み付けした平均二乗誤差（ＭｅａｎｓｑｕａｒｅｄＥｒｒｏｒ，ＭＳＥ）損失関数を革新的に設計し、標的損失関数とする。

【0077】

具体的には、訓練キーポイント検出結果における各キーポイントについて、サーバはまず当該キーポイントに対応するオブジェクトキー部位がキーポイントラベル付け結果におけるいずれかの標的オブジェクトキー部位であるか否かを判断する。即ち、当該キーポイントラベル付け結果に、当該キーポイントに対応するオブジェクトキー部位のラベル付け位置が存在するか否かを判断する。Ｙｅｓの場合、サーバは当該キーポイントに対応する訓練予測位置と、キーポイントラベル付け結果における当該キーポイントに対応するオブジェクトキー部位のラベル付け位置との差異に基づいて、当該キーポイントに対応する損失項を構築するとともに、当該損失項に０より大きい第１の損失重み（例えば１）を設定する。Ｎｏの場合、サーバは当該キーポイントに対応する訓練予測位置および所定の参照ラベル付け位置（ランダムに設定してよい）に基づいて、当該キーポイントに対応する損失項を構築するとともに、当該損失項に０に等しい第２の損失重みを設定する。そして、サーバは訓練キーポイント検出結果における、各キーポイントのそれぞれに対応する損失項およびそれに対応する損失重みに基づいて、標的損失関数を構築する。

【0078】

標的損失関数構築の具体的な数式を式（１）に示す。

【数1】

【0079】

【0080】

任意選択として、標的訓練画像が標的ビデオにおけるビデオフレームである場合、サーバは時系列の連続性に着眼して第１の参照損失関数を構築して、上記標的損失関数および当該第１の参照損失関数に基づいて、標的オブジェクトキーポイント検出モデルを共同で訓練することもできる。

【0081】

即ち、サーバは標的ビデオにおける標的訓練画像と隣り合うビデオフレームを参照訓練画像に決定するとともに、当該参照訓練画像に対応する訓練キーポイント検出結果を取得する。ここで参照訓練画像に対応する訓練キーポイント検出結果とは、標的オブジェクトキーポイント検出モデルで当該参照訓練画像に対してオブジェクトキーポイント検出処理を行って得たものであり、当該参照訓練画像内の複数のオブジェクトキー部位のそれぞれに対応するキーポイントの訓練予測位置が含まれている。そして、サーバは標的訓練画像および参照訓練画像のそれぞれに対応する訓練キーポイント検出結果に基づいて、第１の参照損失関数を構築することができる。

【0082】

実際の運用において、ビデオの隣り合うビデオフレーム間では大きな差異は存在しないはずである。これは隣り合うビデオフレームにおける要検出オブジェクト上のオブジェクトキー部位の変化の度合いも大きくないことを意味している。これに基づいて、本願実施例ではフレーム間の連続性を拘束するための第１の参照損失関数を革新的に設計した。即ち、標的オブジェクトキーポイント検出モデルによる、隣り合う２つのビデオフレームに対する訓練キーポイント検出結果に基づいて、標的オブジェクトキーポイント検出モデルを補助訓練するための第１の参照損失関数を構築して、当該第１の参照損失関数によりフレーム間のオブジェクトキー部位の位置の変化度合いが大きくなりすぎないよう拘束する。

【0083】

具体的に実現する場合、サーバは各オブジェクトキー部位について、標的訓練画像内の当該オブジェクトキー部位に対応するキーポイントの訓練予測位置を特定して第３の位置とし、参照訓練画像内の当該オブジェクトキー部位に対応するキーポイントの訓練予測位置を特定して第４の位置とすることができる。そして、第３の位置と第４の位置との距離に基づいて、当該オブジェクトキー部位に対応する損失項を構築し、当該損失項に対応する損失重みを設定する。さらに、サーバは各オブジェクトキー部位のそれぞれに対応する損失項と、それに対応する損失重みに基づいて、当該第１の参照損失関数を構築することができる。

【0084】

例示的に、各オブジェクトキー部位について、サーバは、標的訓練画像に対応する訓練キーポイント予測結果における、当該オブジェクトキー部位に対応するキーポイントの予測位置を特定して第３の位置とし、参照訓練画像に対応する訓練キーポイント予測結果における、当該オブジェクトキー部位に対応するキーポイントの予測位置を特定して第４の位置とする。次に、サーバは当該第３の位置と当該第４の位置との距離を計算し、当該距離に基づいて当該オブジェクトキー部位に対応する損失項を構築するとともに、当該距離に基づいて当該損失項に対応する損失重みを決定する。例えば、当該距離が第３の所定距離（例えば、各位置に対して正規化処理を行った場合、当該第３の所定距離は０．１とすることができる）より小さい場合、当該損失項に対応する損失重みを０に決定し、当該距離が第３の所定距離より小さくない場合、当該損失項に対応する損失重みを１に決定することができる。もちろん、当該距離が第３の所定距離より小さい場合と第３の所定距離より小さくない場合の２つの場合に対して、サーバはしかるべきその他の損失重みを設定してもよく、第３の所定距離より小さい場合に設定する損失重みが、第３の所定距離より小さくない場合に設定する損失重みよりも小さいことさえ確保されればよい。そして、サーバは各オブジェクトキー部位のそれぞれに対応する損失項および損失重みに基づいて、当該第１の参照損失関数を構築する。

【0085】

第１の参照損失関数構築の具体的な数式を式（２）に示す。

【数2】

【0086】

【0087】

このように、上記方法でフレーム間の連続性を拘束するための第１の参照損失関数を導入することにより、訓練される標的オブジェクトキーポイント検出モデルが速やかに収斂することに寄与し、モデル訓練効率を高めるとともに、訓練される標的オブジェクトキーポイント検出モデルのモデル性能も向上させることができる。

【0088】

任意選択として、本願実施例はさらに、知識蒸留の概念を標的オブジェクトキーポイント検出モデルの訓練プロセスに導入して、訓練される標的オブジェクトキーポイント検出モデルのモデル性能をより一層向上させることができる。知識蒸留とは、複雑モデル（教師モデルとも称する）で学習した知識を利用して単純モデル（生徒モデルとも称する）を指導するモデル訓練方式であり、複雑モデルに相当する性能を単純モデルに持たせるとともに、当該単純モデルのパラメータ数を複雑モデルのパラメータ数よりも大幅に減少させ、これによりモデルの圧縮と加速を実現することを意図している。

【0089】

即ち、サーバは、いずれかの参照オブジェクトキーポイント検出により標的訓練画像を処理した場合に生成される第１の中間処理結果と、標的オブジェクトキーポイント検出モデルで標的訓練画像を処理した場合に生成される第２の中間処理結果とを取得することができる。さらに、当該第１の中間処理結果および当該第２の中間処理結果に基づいて、第２の参照損失関数を構築する。

【0090】

例示的に、サーバはｍ個の参照オブジェクトキーポイント検出モデルから、訓練される標的オブジェクトキーポイント検出モデルのモデル構造に近い参照オブジェクトキーポイント検出モデルを選択し、教師モデルとする。そして、当該教師モデルで標的訓練画像を処理して生成された中間処理結果を取得し、第１の中間処理結果とする。例えば、当該教師モデルで標的訓練画像を処理したとき、そのうちのいずれかの特徴抽出層で標的訓練画像から抽出された特徴を取得して、第１の中間処理結果とする。サーバは標的オブジェクトキーポイント検出モデルを利用して当該標的訓練画像を処理した場合、当該標的オブジェクトキーポイント検出モデルで当該標的訓練画像を処理して生成された中間処理結果を取得して、第２の中間処理結果とすることができる。例えば、当該標的オブジェクトキーポイント検出モデルで標的訓練画像を処理したとき、そのうちのいずれかの特徴抽出層で標的訓練画像から抽出された特徴を取得して、第２の中間結果とする。補足説明すると、ここで取得される第１の中間処理結果と第２の中間処理結果は、同じ次元数を有していなければならない。また、同一の処理段階から得たものでなければならない。例えば、第１の中間処理結果と第２の中間処理結果は、それぞれ参照オブジェクトキーポイント検出モデルと標的オブジェクトキーポイント検出モデルの符号化段階で得られたものであり、および／または、第１の中間処理結果と第２の中間処理結果は、それぞれ参照オブジェクトキーポイント検出モデルと標的オブジェクトキーポイント検出モデルの復号段階で得られたものである。本願実施例はここで第１の中間処理結果および第２の中間処理結果に対してなんら限定しない。

【0091】

サーバは、第１の中間処理結果および第２の中間処理結果を取得した後、第１の中間処理結果と第２の中間処理結果との差異に基づいて、第２の参照損失関数を構築することができる。当該第２の参照損失関数で標的オブジェクトキーポイント検出モデルを訓練する場合、当該第２の損失関数の最小化を訓練目標として、訓練する必要がある標的オブジェクトキーポイント検出モデルのモデルパラメータを調整する。

【0092】

このように、上記方法により、知識蒸留の概念に基づいて構築した第２の参照損失関数を導入して、モデル性能が優れた参照オブジェクトキーポイント検出モデルを利用して標的オブジェクトキーポイント検出モデルの訓練を指導することにより、標的オブジェクトキーポイント検出モデルのモデル性能の向上に寄与するとともに、訓練される標的オブジェクトキーポイント検出モデルを速やかに収斂させ、モデル訓練効率を向上させることに寄与する。

【0093】

ステップ２０４３：前記標的損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調整する。

【0094】

サーバは、ステップ２０４２により、標的オブジェクトキーポイント検出モデルを訓練するための標的損失関数を構築したあと、当該標的損失関数の最小化を訓練目標として、標的オブジェクトキーポイント検出モデルのモデルパラメータを調整して、当該標的オブジェクトキーポイント検出モデルの収斂を促す。

【0095】

なお、サーバがさらにフレーム間の連続性を拘束するための第１の参照損失関数を導入している場合、サーバは標的損失関数および当該第１の参照損失関数に基づいて、当該標的オブジェクトキーポイント検出モデルのモデルパラメータを調整できる。

【0096】

具体的には、サーバは下の式（３）により、標的損失関数および第１の参照損失関数に基づいて、モデル訓練段階の総損失関数を構築することができる。
Ｌ＝Ｌ_ｍｓｅ＋λ・Ｌ_{ｃｏｎｓｉｓｔｅｎｃｙ} ……（３）

【0097】

但し、Ｌはモデル訓練段階の総損失関数であり、Ｌ_ｍｓｅは標的損失関数であり、Ｌ_{ｃｏｎｓｉｓｔｅｎｃｙ}は第１の参照損失関数であり、λは予め第１の参照損失関数に設定された重みである。

【0098】

さらに、当該総損失関数の最小化を訓練目標として、標的オブジェクトキーポイント検出モデルのモデルパラメータを調整することにより、当該標的オブジェクトキーポイント検出モデルの収斂を促す。

【0099】

なお、サーバがさらに知識蒸留の概念に基づいて構築された第２の参照損失関数を導入している場合、サーバは標的損失関数および当該第２の参照損失関数に基づいて、当該標的オブジェクトキーポイント検出モデルのモデルパラメータを調整できる。

【0100】

具体的には、サーバは上述の標的損失関数および第１の参照損失関数に基づいて総損失関数を構築する方法と類似した方法を用いて、標的損失関数および当該第２の参照損失関数に基づいて、モデル訓練段階の総損失関数を構築することができる。さらに、当該総損失関数の最小化を訓練目標として、標的オブジェクトキーポイント検出モデルのモデルパラメータを調整することにより、当該標的オブジェクトキーポイント検出モデルの収斂を促す。

【0101】

なお、サーバが上記第１の参照損失関数および第２の参照損失関数を同時に導入している場合、サーバは標的損失関数と第１の参照損失関数と第２の参照損失関数とに基づいて、当該標的オブジェクトキーポイント検出モデルのモデルパラメータを調整できる。即ち、サーバは第１の参照損失関数および第２の参照損失関数にそれぞれ対応する重みを設定し、さらに、標的損失関数と、第１の参照損失関数およびそれに対応する重みと、第２の参照損失関数およびそれに対応する重みとに基づいて、モデル訓練段階の総損失関数を構築する。そして、当該総損失関数の最小化を訓練モデルとして、標的オブジェクトキーポイント検出モデルのモデルパラメータを調整して、当該標的オブジェクトキーポイント検出モデルの収斂を促す。

【0102】

サーバは異なる標的訓練画像に基づいて上記ステップ２０４１～ステップ２０４３を繰り返し実行して、当該標的オブジェクトキーポイント検出モデルがモデル訓練終了条件を満たすまで、標的オブジェクトキーポイント検出モデルに対する反復訓練を実現する。このとき訓練で得られた標的オブジェクトキーポイント検出モデルが、実際使用することができる標的オブジェクトキーポイント検出モデルとなる。ここで訓練終了条件とは、例えば訓練された標的オブジェクトキーポイント検出モデルのモデル性能が、所定条件（例えば標的オブジェクトキーポイント検出モデルの検出正確率が所定の正確率閾値に達したなど）を満たすことであってよい。また例えば、標的オブジェクトキーポイント検出モデルのモデル性能が、それ以上顕著に向上しない（例えばテストサンプルセットを利用して、数サイクル訓練された標的オブジェクトキーポイント検出モデルをそれぞれテストし、数サイクル訓練された標的オブジェクトキーポイント検出モデルの検出正確性の差異が所定の差異閾値より小さいと判定されるなど）ことであってもよい。さらに、例えば標的オブジェクトキーポイント検出モデルの反復訓練回数が所定回数に達したことであってもよい。本願はここで当該訓練終了条件に対してなんら限定しない。

【0103】

【0104】

本願実施例で提供するモデル訓練方法がより一層理解されやすいよう、以下では当該モデル訓練方法により、体感ゲームにおいてプレイヤーの姿勢を検出するための人体キーポイント検出モデルを訓練する場合を例として、当該モデル訓練方法を全面的且つ例示的に説明する。

【0105】

体感ゲームとは、身体を使って体験するゲームを指し、従来の単にコントローラーボタンで入力する操作方式をブレイクスルーして、肢体の動作の変化を通じて操作する、一種の新型電子ゲームである。体感ゲームを進めるプロセスにおいて、カメラはプレイヤーの肢体を含む画像を撮影し、撮影した画像をバックグラウンドのゲームサーバへ伝送する。ゲームサーバは、人体キーポイント検出モデルにより、画像内のプレイヤーの骨格の重要関節点の位置を検出して、これに基づいてプレイヤーがしている肢体動作を認識し、対応するゲームロジックを実行する。図５は上記体感ゲームの全体的インプリメントアーキテクチャ図である。

【0106】

【0107】

本願実施例で提供する技術案に係るコアモジュールは、主に２つある。１つは擬似ラベル生成ネットワークで、既存の構造が複雑で高性能な複数の人体キーポイント検出モデルを使って、無ラベルのビデオにおけるビデオフレームに対して人体キーポイント検出処理を行い、各人体キーポイント検出モデルそれぞれの検出結果に基づいて、当該ビデオフレームに対応する擬似ラベルを生成し、それを後続のモデル訓練プロセスに使用する。もう１つはフレーム間連続性拘束損失関数であり、ビデオフレーム間の人物の動作変化の度合いは大きくないはずだという前提条件に基づいて、フレーム間連続性損失関数を設計し、モデルが教師なし学習を実現できるようにする。

【0108】

続いて、上記２つのコアモジュールについてそれぞれ詳細に説明する。

【0109】

図６に示すように、擬似ラベル生成ネットワークは人体キーポイント予測モジュールと、予測結果統合モジュールとを含む。

【0110】

【0111】

予測結果統合モジュールは、以下のステップによってｍ個の予測結果の統合を完了するために用いられる。統合のプロセスにおいて、本願実施例は予測結果に対して空間次元および時間次元においてそれぞれ厳密なフィルタリング処理を行うことで、生成される擬似ラベルがより高い正確性を有することを保証する。具体的な統合方法は以下のとおりである。

【0112】

【0113】

【0114】

【0115】

（４）上記の空間次元および時間次元のフィルタリング処理を経ることで、正確性が高い擬似ラベルを得ることができる。しかし上記処理によって、多くの無視される人体部位が存在することになる。これら人体部位は実際には存在しており、本願では人体キーポイント検出モデルのそれらに対する検出結果が信頼できないと見なしたので、後続のモデル訓練プロセスに投入しないだけである。もしそのままＭＳＥ損失関数に基づいてモデル訓練を行うと、これらキーポイントが実際に存在していないと誤認して誤った誤差逆伝播を招き、訓練される人体キーポイント検出モデルの性能に影響するおそれがある。この問題を解決するため、本願実施例では重み付けしたＭＳＥ損失関数を設計し、擬似ラベル内の当該人体部位が無視された場合、当該人体部位に対応する損失項の損失重みを０とする。このようにすることで誤った逆伝播を防ぐことができる。本願実施例で提案する重み付けしたＭＳＥ損失関数は下式のとおりである。

【0116】

【数3】

【0117】

【0118】

また、本願実施例では１つのビデオの前後に隣り合う２つのビデオフレーム間に大きな変化による差異が存在しないこと、即ち隣り合うビデオフレーム内の人体部位の変化の度合いは大きくないことを見出した。この知見に基づいて、本願はさらに人体キーポイント検出モデルの教師なし学習を実現するための、フレーム間の連続性の拘束関数を設計することで、当該人体キーポイント検出モデルがビデオに対して予測するときにフレーム間のキーポイント座標の跳躍幅が大きくなりすぎないことを保証する。当該損失関数は具体的には下式のとおりである。

【0119】

【数4】

【0120】

【0121】

以上をまとめると、本願実施例で提供するスキームの訓練段階全体の損失関数は下式のとおりである。
Ｌ＝Ｌ_ｍｓｅ＋λ・Ｌ_{ｃｏｎｓｉｓｔｅｎｃｙ}

【0122】

但し、λは予めＬ_{ｃｏｎｓｉｓｔｅｎｃｙ}に設定された重みである。

【0123】

そして、サーバは当該損失関数Ｌに基づいて、訓練する必要がある人体キーポイント検出モデルを訓練する。

【0124】

ＣＯＣＯ－ｗｈｏｌｅｂｏｄｙ人体キーポイント検出公開テストセットを利用して、上記方法で訓練された人体キーポイント検出モデルをテストしたところ、全クラス平均適合率（ｍｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ，ｍＡＰ）の指標は０．４５７から０．５２１に上昇した。

【0125】

本願発明者はさらに、体感ゲームに現在応用されている人体キーポイント検出モデルと上記方法で訓練された人体キーポイント検出モデルとの比較試験を行った。比較試験の結果は図７に示すとおりである。（ａ）は本願実施例で提供するスキームで訓練された人体キーポイント検出モデルによって特定された検出結果であり、（ｂ）は従来の人体キーポイント検出モデルによって特定された検出結果である。比較したところ、（ａ）は（ｂ）よりも正確であり、（ａ）の左右の足に対応するキーポイントは位置が逆になっていないが、（ｂ）の左右の足に対応するキーポイントは位置が逆になっていることがわかった。

【0126】

なお、本願実施例で提供するモデル訓練方法は、体感ゲームのシーンの応用される人体キーポイント検出モデルを訓練するために用いることができるだけでなく、その他のシーンのオブジェクトキーポイント検出モデルを訓練するために用いることができる。例えばビデオ撮影のシーンで人体または動物に特殊効果を加えるための機能は、オブジェクトキーポイント検出モデルで画像内のオブジェクトのキーポイントを検出する必要があることが多い。本願実施例で提供するスキームは、このようなシーンでのオブジェクトキーポイント検出モデルを訓練するためにも使用できる。ここでは本願実施例で提供するスキームが適用される応用シーンについてなんら限定しない。

【0127】

なお、本願の具体的な実施形態におけるユーザ情報（例えばカメラで撮影した画像）などに関わるデータは、本願の上記実施例が具体的製品または技術で運用される場合、ユーザの許可または同意を得る必要があり、さらに関連データの収集、使用および処理については、関連国または地域の関連法律法規および規準を遵守しなければならない。

【0128】

以上で説明したモデル訓練方法について、上記モデル訓練方法が実際に応用および実現されるよう、本願はさらに対応するモデル訓練装置を提供する。

【0129】

図８を参照されたい。図８は上記の図２に示すモデル訓練方法に対応するモデル訓練装置８００の構造模式図である。図８に示すように、当該モデル訓練装置８００はキーポイント検出モジュール８０１と、部位ラベル付けモジュール８０２と、サンプル生成モジュール８０３と、モデル訓練モジュール８０４とを含む。キーポイント検出モジュール８０１は、ｍ個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記ｍ個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得るために用いられる。前記キーポイント検出結果には、前記標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている。前記ｍは１より大きい整数である。部位ラベル付けモジュール８０２は、各前記オブジェクトキー部位について、前記ｍ個のキーポイント検出結果における、前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、Ｙｅｓの場合、前記ｍ個のキーポイント検出結果における、前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定するために用いられる。サンプル生成モジュール８０３は、前記標的訓練画像と、それに対応するキーポイントラベル付け結果とを、訓練サンプルとするために用いられる。前記キーポイントラベル付け結果には、各前記標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれている。モデル訓練モジュール８０４は、前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練するために用いられる。

【0130】

任意選択として、図８に示すモデル訓練装置を土台として、前記部位ラベル付けモジュール８０２は具体的に、前記ｍ個のキーポイント検出結果における、前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応する参照位置を決定し、各前記キーポイント検出結果について、前記オブジェクトキー部位に対応するキーポイントの予測位置と前記オブジェクトキー部位に対応する参照位置との距離を特定し、前記距離に基づいて、前記キーポイント検出結果が前記オブジェクトキー部位に対応する標的キーポイント検出結果に属しているか否かを判定し、前記ｍ個のキーポイント検出結果における、前記オブジェクトキー部位に対応する標的キーポイント検出結果の標的数を集計し、前記標的数が所定数を超えている場合、前記オブジェクトキー部位が標的オブジェクトキー部位であると判定し、前記標的数が前記所定数を超えていない場合、前記オブジェクトキー部位は無効オブジェクトキー部位であると判定するために用いられる。

【0131】

任意選択として、図８に示すモデル訓練装置を土台として、前記部位ラベル付けモジュール８０２は具体的に、前記標的オブジェクトキー部位に対応する各標的キーポイント検出結果について、前記標的オブジェクトキー部位に対応するキーポイントの予測位置を特定して、前記標的オブジェクトキー部位に対応する標的予測位置とし、前記標的オブジェクトキー部位に対応する各標的予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定するために用いられる。

【0132】

任意選択として、図８に示すモデル訓練装置を土台として、図９を参照されたい。図９は本願実施例で提供する別のモデル訓練装置９００の構造模式図である。図９に示すように、前記標的訓練画像が標的ビデオにおけるビデオフレームである場合、前記装置はさらに、参照データ取得モジュール９０１と、ラベル付け結果スクリーニングモジュール９０２とを含む。参照データ取得モジュール９０１は、前記標的ビデオにおける前記標的訓練画像と隣り合うビデオフレームを特定して参照訓練画像とし、前記参照訓練画像に対応するキーポイントラベル付け結果を取得するために用いられる。ラベル付け結果スクリーニングモジュール９０２は、各前記標的オブジェクトキー部位について、前記標的訓練画像に対応するキーポイントラベル付け結果におけるラベル付け位置を特定して第１の位置とし、前記参照訓練画像に対応するキーポイントラベル付け結果におけるラベル付け位置を特定して第２の位置とし、前記第１の位置と前記第２の位置との距離に基づいて、前記標的訓練画像に対応するキーポイントラベル付け結果における、前記第１の位置を保持するか否かと、前記参照訓練画像に対応するキーポイントラベル付け結果における、前記第２の位置を保持するか否かを決定するために用いられる。

【0133】

任意選択として、図８に示すモデル訓練装置を土台として、前記キーポイント検出モジュール８０１は具体的に、各前記参照オブジェクトキーポイント検出モデルについて、前記参照オブジェクトキーポイント検出モデルによって前記標的訓練画像に対してオブジェクトキーポイント検出処理を行うことで、前記標的訓練画像内の各ピクセルが前記オブジェクトキー部位に属している信頼度を特定し、前記標的訓練画像内の、前記オブジェクトキー部位に属している信頼度が所定の信頼度閾値よりも高いピクセルに基づいて、前記参照オブジェクトキーポイント検出モデルに対応するキーポイント検出結果を特定するために用いられる。

【0134】

任意選択として、図８に示すモデル訓練装置を土台として、図１０を参照されたい。図１０は本願実施例で提供する別のモデル訓練装置１０００の構造模式図である。図１０に示すように、前記モデル訓練モジュール８０４は、キーポイント検出サブモジュール１００１と、損失関数構築サブモジュール１００２と、パラメータ調整サブモジュール１００３とを含む。キーポイント検出サブモジュール１００１は、前記標的オブジェクトキーポイント検出モデルにより、前記訓練サンプルにおける前記標的訓練画像に対してオブジェクトキーポイント検出処理を行って、前記標的訓練画像に対応する訓練キーポイント検出結果を得るために用いられる。前記訓練キーポイント検出結果には複数のオブジェクトキー部位のそれぞれに対応するキーポイントの訓練予測位置が含まれている。損失関数構築サブモジュール１００２は、前記標的訓練画像に対応する訓練キーポイント検出結果と、前記訓練サンプルにおける前記キーポイントラベル付け結果とに基づいて、標的損失関数を構築するために用いられる。パラメータ調整サブモジュール１００３は、前記標的損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調整するために用いられる。

【0135】

任意選択として、図１０に示すモデル訓練装置を土台として、前記損失関数構築サブモジュール１００２は具体的に、前記訓練キーポイント検出結果における各キーポイントについて、前記キーポイントに対応するオブジェクトキー部位が、前記キーポイントラベル付け結果における標的オブジェクトキー部位であるか否かを判定し、Ｙｅｓの場合、前記キーポイントに対応する訓練予測位置および前記キーポイントに対応する標的オブジェクトキー部位のラベル付け位置に基づいて、前記キーポイントに対応する損失項を構築するとともに、前記キーポイントに対応する損失項に、対応する第１の損失重みを設定し、Ｎｏの場合、前記キーポイントに対応する訓練予測位置に基づいて、前記キーポイントに対応する損失項を構築するとともに、前記キーポイントに対応する損失項に、対応する第２の損失重みを設定し、前記訓練キーポイント検出結果における各キーポイントのそれぞれに対応する損失項と、それに対応する損失重みとに基づいて、前記標的損失関数を構築するために用いられる。第１の損失重みは０より大きく、第２の損失重みは０に等しい。

【0136】

任意選択として、図１０に示すモデル訓練装置を土台として、前記損失関数構築サブモジュール１００２はさらに、前記標的ビデオにおける前記標的訓練画像と隣り合うビデオフレームを特定して参照訓練画像とし、前記参照訓練画像に対応する訓練キーポイント検出結果を取得し、前記標的訓練画像および前記参照訓練画像のそれぞれに対応する訓練キーポイント検出結果に基づいて、第１の参照損失関数を構築するために用いられ、前記パラメータ調整サブモジュール１００３は具体的に、前記標的損失関数および前記第１の参照損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調整するために用いられる。

【0137】

任意選択として、前記損失関数構築サブモジュール１００２は具体的に、各前記オブジェクトキー部位について、前記標的訓練画像内の前記オブジェクトキー部位に対応するキーポイントの訓練予測位置を特定して第３の位置とし、前記参照訓練画像内の前記オブジェクトキー部位に対応するキーポイントの訓練予測位置を特定して第４の位置とし、前記第３の位置と前記第４の位置との距離に基づいて、前記オブジェクトキー部位に対応する損失項を構築し、前記損失項に対応する損失重みを設定し、各前記オブジェクトキー部位のそれぞれに対応する損失項と、それに対応する損失重みに基づいて、前記第１の参照損失関数を構築するために用いられる。

【0138】

任意選択として、図１０に示すモデル訓練装置を土台として、前記損失関数構築サブモジュール１００２はさらに、前記参照オブジェクトキーポイント検出モデルで前記標的訓練画像を処理した場合に生成される第１の中間処理結果と、前記標的オブジェクトキーポイント検出モデルで前記標的訓練画像を処理した場合に生成される第２の中間処理結果とを取得して、前記第１の中間処理結果および前記第２の中間処理結果に基づいて、第２の参照損失関数を構築するために用いられ、前記パラメータ調整サブモジュール１００３は具体的に、前記標的損失関数および前記第２の参照損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調整するために用いられる。

【0139】

上記モデル訓練装置により実際使用する予定の標的オブジェクトキーポイント検出モデルを訓練するための訓練サンプルを生成するとき、複数の構造が複雑な参照オブジェクトキーポイント検出モデルによって、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、複数のキーポイント検出結果を得る。次に、各キーポイント検出結果における同一オブジェクトキー部位の予測位置が、基本的に一致していなければならないという原理に基づいて、各オブジェクトキー部位について、各キーポイント検出結果における当該オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、各参照オブジェクトキーポイント検出モデルの、当該オブジェクトキー部位に対する位置予測結果が信頼できるか否かを評価する。即ち当該オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定する。各参照オブジェクトキーポイント検出モデルの、当該オブジェクトキー部位に対する位置予測結果が信頼できると判定された場合、さらに、当該標的オブジェクトキー部位に対応するラベル付け位置、即ち擬似ラベルを決定する。そして、当該標的訓練画像と、その中の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置とを利用して、訓練サンプルを構成する。このように、位置予測結果が信頼できないオブジェクトキー部位を無視して、位置予測結果が信頼できるオブジェクトキー部位に対応するラベル付け位置のみを利用して擬似ラベルとするので、決定した擬似ラベルに存在するノイズを有効に減少させ、当該擬似ラベルの正確性を向上させることができる。したがって、このような擬似ラベルを含む訓練サンプルに基づいて、実際使用する予定の、構造が比較的シンプルな標的オブジェクトキーポイント検出モデルを訓練すれば、訓練された標的オブジェクトキーポイント検出モデルの性能をある程度保証することができる。

【0140】

本願実施例はさらにモデルを訓練するためのコンピュータ機器を提供する。当該コンピュータ機器は具体的には端末機器またはサーバであってよい。以下ではハードウェアの実体化に着眼して、本願実施例で提供する端末機器およびサーバを紹介する。

【0141】

図１１を参照されたい。図１１は本願実施例で提供する端末機器の構造模式図である。図１１に示すように、説明の便宜上、本願実施例と関連する部分のみを示した。記載されていない具体的な技術の詳細は、本願実施例の方法部分を参照されたい。当該端末は携帯電話、タブレットコンピュータ、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、販売端末（ＰｏｉｎｔｏｆＳａｌｅｓ，ＰＯＳ）、車載コンピュータなど任意の端末機器を含みうるが、端末がコンピュータである場合を例とする。

【0142】

図１１は本願実施例で提供する端末に関連するコンピュータの構造の一部のブロック図である。図１１に示すように、コンピュータはＲＦ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ）回路１１１０、メモリ１１２０、入力ユニット１１３０（タッチパネル１１３１およびその他の入力機器１１３２を含む）、表示ユニット１１４０（表示パネル１１４１を含む）、センサ１１５０、音声回路１１６０（スピーカ１１６１およびマイクロフォン１１６２に接続されてもよい）、ＷｉＦｉ（登録商標）モジュール１１７０、プロセッサ１１８０、電源１１９０などの部材を含む。当業者であれば理解できるように、図１１に示したコンピュータの構造はコンピュータを限定するものではなく、図示したよりも多いかまたは少ない部材を含んでもよいし、いずれかの部材を組み合わせてもよいし、部材の配置が異なってもよい。

【0143】

メモリ１１２０はソフトウェアプログラムおよびモジュールを記憶するために用いられ、プロセッサ１１８０はメモリ１１２０に記憶されたソフトウェアプログラムおよびモジュールを実行することにより、コンピュータの各種機能アプリケーションおよびデータ処理を実行する。メモリ１１２０は主としてプログラム記憶エリアとデータ記憶エリアを含み、プログラム記憶エリアは操作システムや、少なくとも１つの機能に必要なアプリケーションプログラム（例えば音声再生機能、画像再生機能など）等を記憶できる。データ記憶エリアは、コンピュータの使用に応じて生成されたデータ（例えば音声データ、電話帳など）などを記憶できる。また、メモリ１１２０は高速ランダムアクセスメモリを含んでもよいし、例えば少なくとも１つの磁気ディスク記憶デバイス、フラッシュ記憶デバイスといった不揮発性メモリ、またはその他揮発性のソリッドステート記憶デバイスを含んでもよい。

【0144】

プロセッサ１１８０はコンピュータのコントロールセンタであり、各種インタフェースおよび回線を介してコンピュータ全体の各部分と接続され、メモリ１１２０内に記憶されたソフトウェアプログラムおよび／またはモジュールを動作させるか実行させること、およびメモリ１１２０内に記憶されたデータを呼び出してコンピュータの各種機能および処理データを実行することにより、コンピュータに対する全体的監督を行う。任意選択として、プロセッサ１１８０は１つまたは複数の処理ユニットを含みうる。プロセッサ１１８０はアプリケーションプロセッサおよび変調／復調プロセッサと統合可能であることが好ましい。アプリケーションプロセッサは主として操作システム、ユーザインタフェース、アプリケーションプログラムなどを処理し、変調／復調プロセッサは主として無線通信を処理する。尚、上記変調／復調プロセッサはプロセッサ１１８０に統合されなくてもよい。

【0145】

本願実施例において、当該端末が含むプロセッサ１１８０は、さらに以下の機能を有する。ｍ（ｍは１より大きい整数）個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記ｍ個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得る。前記キーポイント検出結果には前記標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている。各前記オブジェクトキー部位について、前記ｍ個のキーポイント検出結果における前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、Ｙｅｓの場合、前記ｍ個のキーポイント検出結果における前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定する。前記標的訓練画像と、それに対応する、各前記標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれているキーポイントラベル付け結果とを、訓練サンプルとする。前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練する。

【0146】

任意選択として、前記プロセッサ１１８０はさらに本願実施例で提供するモデル訓練方法の任意の一実現形態のステップを実行するために用いられる。

【0147】

図１２を参照されたい。図１２は本願実施例で提供するサーバ１２００の構造模式図である。当該サーバ１２００は設定または性能の違いにより比較的大きな差異が生じるが、１つまたは複数のＣＰＵ（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ）１２２２（例えば，１つまたは複数のプロセッサ）およびメモリ１２３２を含み、１つまたは複数の、アプリケーションプログラム１２４２またはデータ１２４４を記憶した記憶媒体１２３０（例えば１つまたは複数のマスストレージ機器）を含むことができる。メモリ１２３２および記憶媒体１２３は一時的メモリでもよいし非一時的メモリでもよい。記憶媒体１２３０のプログラムは、１つまたは複数のモジュール（図示せず）を含み、各モジュールはサーバ内の一連の指令操作を含む。さらに、ＣＰＵ１２２２は記憶媒体１２３０と通信して、サーバ１２００上で記憶媒体１２３０における一連の指令操作を実行するように構成されている。

【0148】

サーバ１２００はさらに１つまたは複数の電源１２２６、１つまたは複数の有線または無線ネットワークインタフェース１２５０、１つまたは複数の入出力インタフェース１２５８、および／または、１つまたは複数のオペレーションシステム、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒ（登録商標）、ＭａｃＯＳＸ（登録商標），Ｕｎｉｘ（登録商標），Ｌｉｎｕｘ（登録商標），ＦｒｅｅＢＳＤ（登録商標）などを含むことができる。

【0149】

上記実施例における、サーバによって実行されるステップは、当該図１２に示すサーバ構造に基づいている。ＣＰＵ１２２２は以下のステップを実行するために用いられる。

【0150】

ｍ（ｍは１より大きい整数）個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記ｍ個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得るステップであって、前記キーポイント検出結果には前記標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている、ステップと、各前記オブジェクトキー部位について、前記ｍ個のキーポイント検出結果における前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、Ｙｅｓの場合、前記ｍ個のキーポイント検出結果における前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定するステップと、前記標的訓練画像と、それに対応する、各前記標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれているキーポイントラベル付け結果とを、訓練サンプルとするステップと、前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練するステップと、を含む。

【0151】

任意選択として、ＣＰＵ１２２２はさらに本願実施例で提供するモデル訓練方法の任意の一実現形態のステップを実行するために用いられる。

【0152】

本願実施例はさらに、コンピュータプログラムを記憶するためのコンピュータ可読記憶媒体を提供する。当該コンピュータプログラムは上記の各実施例に記載のモデル訓練方法のうちのいずれか１つの実施形態を実行するために用いられる。

【0153】

本願実施例はさらに、コンピュータ可読記憶媒体に記憶されたコンピュータ指令を含む、コンピュータプログラム製品またはコンピュータプログラムを提供する。コンピュータ機器のプロセッサが、コンピュータ可読記憶媒体から当該コンピュータ指令を読み取り、プロセッサが当該コンピュータ指令を実行することにより、当該コンピュータ機器に上記の各実施例に記載のモデル訓練方法のうちのいずれか１つの実施形態を実行させる。

【0154】

当業者であれば理解されることであるが、説明がわかりやすく簡潔になるよう、上記で説明したシステム、装置およびユニットの具体的動作プロセスは前述の方法実施例における対応するプロセスを参考にできるので、ここでは繰り返して説明しない。

【0155】

本願が提供するいくつかの実施例において開示された、システム、装置および方法は、その他の形態によって実現できることは理解されよう。例えば、上記の装置の実施例は例示的なものにすぎず、例えば前記ユニットの区分は、一種の論理機能の区分にすぎず、実際に具現化する場合は別の区分方法もありうる。例えば、複数のユニットやアセンブリを結合したり、あるいは別のシステムに統合したりしてもよいし、または一部の特徴を省略したり、実行しなくてもよい。なお、明示した、または論じた相互間の結合、直接結合または通信接続は、なんらかのインタフェース、装置、あるいはユニットを介した間接結合または通信接続であってもよいし、電気的、機械的、またはその他の形態であってもよい。

【0156】

前記の分離した部材として説明したユニットは、物理的に分離していてもよいし、そうでなくてもよい。ユニットとして示した部材は、物理的なユニットでもよいしそうでなくてもよく、一か所に位置してもよいし、複数のネットワークユニットに分散していてもよい。実際の必要に応じて一部またはすべてのユニットを選択して本実施例のスキームの目的を実現することができる。

【0157】

また、本願の各実施例における各機能ユニットは、１つの処理ユニットに集積されていてもよいし、各ユニットが物理的に独立して存在してもよいし、２つまたは２つ以上のユニットが１つのユニットに集積されていてもよい。上記集積されたユニットは、ハードウェアの形式で実現してもよいしソフトウェア機能ユニットの形式で実現してもよい。

【0158】

前記集積されたユニットは、ソフトウェア機能ユニットの形式で実現され、独立した製品として販売または使用される場合、１つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解に基づけば、本願の技術案の本質、言うなれば従来技術に貢献する部分か、または当該技術案のすべてもしくは一部は、ソフトウェア製品の形で体現されうる。当該コンピュータソフトウェア製品は１つの記憶媒体に記憶され、１台のコンピュータ機器（パーソナルコンピュータ、サーバ、またはネットワーク機器などでありうる）に本願の各実施例に記載の方法の全部または一部のステップを実行させるための、いくつかの指令を含んでいる。前述の記憶媒体は、ＵＳＢ、モバイルハードディスク、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスクまたは光ディスクなど、コンピュータプログラムを記憶可能な各種の媒体を含む。

【0159】

なお、本願における「少なくとも１つ（項）」とは１つまたは複数を指し、「複数の」は２つまたは２つ以上を指す。「および／または」とは、関連する対象の関連関係を示すために用いられ、３種類の関係が存在することを表し、例えば「Ａおよび／またはＢ」は、Ａのみ存在する状況、Ｂのみ存在する状況、ＡとＢが同時に存在する状況の３種類の状況を示している。但しＡとＢは、単数でも複数でもよい。記号「／」は一般的に、前後に関連付けられた対象が「または」の関係にあることを示している。「以下の少なくとも１項（個）」またはその類似表現は、これらの項における任意の組合せを指し、単一項（個）または複数項（個）の任意の組合せを含む。例えば，「ａ、ｂ、またはｃのうちの少なくとも１項（個）」は、ａ、ｂ、ｃ、ａとｂ、ａとｃ、ｂとｃ、または、ａとｂとｃを表す。但し、ａ、ｂ、ｃは単独でも複数であってもよい。

【0160】

上記のように、上記の実施例は、本願の技術案を説明するためのものであり、限定するためのものではない。上記の実施例を参照して本願を詳細に説明したが、当業者であれば、上記各実施例に記載された技術スキームを修正したり、或いはそのうちの一部の技術特徴の均等な置換を行うことが可能であると理解できよう。しかしこれらの修正または置換は、対応する技術案の本質を、本願の各実施例の技術案の主旨および範囲から逸脱させるものではない。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【手続補正書】

【提出日】2024-04-02

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】請求項１３

【補正方法】変更

【補正の内容】

【請求項13】

プロセッサと、メモリとを含み、
前記メモリはコンピュータプログラムを記憶するために用いられ、
前記プロセッサは前記コンピュータプログラムに基づいて、請求項１～９のいずれか一項に記載のモデル訓練方法を実行するために用いられる、
コンピュータ機器。

【手続補正2】

【補正対象書類名】特許請求の範囲

【補正対象項目名】請求項１４

【補正方法】変更

【補正の内容】

【請求項14】

コンピュータプログラムを記憶するために用いられるコンピュータ可読記憶媒体であって、前記コンピュータプログラムは請求項１～９のいずれか一項に記載のモデル訓練方法を実行するために用いられる、
コンピュータ可読記憶媒体。

【手続補正3】

【補正対象書類名】特許請求の範囲

【補正対象項目名】請求項１５

【補正方法】変更

【補正の内容】

【請求項15】

コンピュータに、
請求項１～９のいずれか一項に記載のモデル訓練方法を実行させるための、
コンピュータプログラム。

【手続補正5】

【補正対象書類名】明細書

【補正対象項目名】００５４

【補正方法】変更

【補正の内容】

【0054】

例示的に、ある標的オブジェクトキー部位について、サーバは当該標的オブジェクトキー部位に対応する各標的キーポイント検出結果における当該標的オブジェクトキー部位に対応するキーポイントの予測位置を取得して、当該標的オブジェクトキー部位に対応する標的予測位置とすることができる。さらに、サーバは当該標的オブジェクトキー部位に対応する各標的予測位置の平均値を計算して、当該標的オブジェクトキー部位に対応するラベル付け位置とすることができる。

【手続補正6】

【補正対象書類名】明細書

【補正対象項目名】００６９

【補正方法】変更

【補正の内容】

【0069】

選択可能な一実現形態において、サーバは図４に示すフローに基づいて、標的オブジェクトキーポイント検出モデルに対する訓練を実現する。図４に示すように、サーバは標的オブジェクトキーポイント検出モデルを訓練する場合、具体的には以下のステップを実行する必要がある。

【手続補正7】

【補正対象書類名】明細書

【補正対象項目名】００９１

【補正方法】変更

【補正の内容】

【0091】

サーバは、第１の中間処理結果および第２の中間処理結果を取得した後、第１の中間処理結果と第２の中間処理結果との差異に基づいて、第２の参照損失関数を構築することができる。当該第２の参照損失関数で標的オブジェクトキーポイント検出モデルを訓練する場合、当該第２の参照損失関数の最小化を訓練目標として、訓練する必要がある標的オブジェクトキーポイント検出モデルのモデルパラメータを調整する。

【手続補正8】

【補正対象書類名】明細書

【補正対象項目名】０１０１

【補正方法】変更

【補正の内容】

【0101】

なお、サーバが上記第１の参照損失関数および第２の参照損失関数を同時に導入している場合、サーバは標的損失関数と第１の参照損失関数と第２の参照損失関数とに基づいて、当該標的オブジェクトキーポイント検出モデルのモデルパラメータを調整できる。即ち、サーバは第１の参照損失関数および第２の参照損失関数にそれぞれ対応する重みを設定し、さらに、標的損失関数と、第１の参照損失関数およびそれに対応する重みと、第２の参照損失関数およびそれに対応する重みとに基づいて、モデル訓練段階の総損失関数を構築する。そして、当該総損失関数の最小化を訓練目標として、標的オブジェクトキーポイント検出モデルのモデルパラメータを調整して、当該標的オブジェクトキーポイント検出モデルの収斂を促す。

【手続補正9】

【補正対象書類名】明細書

【補正対象項目名】０１１０

【補正方法】変更

【補正の内容】

【0110】