IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

特表2024-534684モデル訓練方法、装置、機器、媒体およびプログラム
<>
  • 特表-モデル訓練方法、装置、機器、媒体およびプログラム 図1
  • 特表-モデル訓練方法、装置、機器、媒体およびプログラム 図2
  • 特表-モデル訓練方法、装置、機器、媒体およびプログラム 図3
  • 特表-モデル訓練方法、装置、機器、媒体およびプログラム 図4
  • 特表-モデル訓練方法、装置、機器、媒体およびプログラム 図5
  • 特表-モデル訓練方法、装置、機器、媒体およびプログラム 図6
  • 特表-モデル訓練方法、装置、機器、媒体およびプログラム 図7
  • 特表-モデル訓練方法、装置、機器、媒体およびプログラム 図8
  • 特表-モデル訓練方法、装置、機器、媒体およびプログラム 図9
  • 特表-モデル訓練方法、装置、機器、媒体およびプログラム 図10
  • 特表-モデル訓練方法、装置、機器、媒体およびプログラム 図11
  • 特表-モデル訓練方法、装置、機器、媒体およびプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-20
(54)【発明の名称】モデル訓練方法、装置、機器、媒体およびプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240912BHJP
【FI】
G06T7/00 350B
G06T7/00 660B
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024520050
(86)(22)【出願日】2022-09-21
(85)【翻訳文提出日】2024-04-02
(86)【国際出願番号】 CN2022120169
(87)【国際公開番号】W WO2023093244
(87)【国際公開日】2023-06-01
(31)【優先権主張番号】202111398623.5
(32)【優先日】2021-11-24
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100112656
【弁理士】
【氏名又は名称】宮田 英毅
(74)【代理人】
【識別番号】100089118
【弁理士】
【氏名又は名称】酒井 宏明
(72)【発明者】
【氏名】温少国
(72)【発明者】
【氏名】王君樂
(72)【発明者】
【氏名】許子瀟
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA04
5L096DA02
5L096FA09
5L096FA66
5L096FA69
5L096GA51
5L096GA55
5L096KA04
(57)【要約】
本願実施例は人工知能分野におけるモデル訓練方法および関連装置を開示する。当該方法は、m個の参照オブジェクトキーポイント検出モデルにより標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、m個の標的訓練画像内の複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置を含むキーポイント検出結果を得るステップと、各オブジェクトキー部位について、m個のキーポイント検出結果における当該オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、当該オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定するステップと、Yesの場合、当該標的オブジェクトキー部位に対応するラベル付け位置を決定するステップと、標的訓練画像と、その中の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置とを、訓練サンプルとするステップと、訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練するステップとを含む。当該方法によれば、訓練された標的オブジェクトキーポイント検出モデルの性能を向上させることができる。
【特許請求の範囲】
【請求項1】
コンピュータ機器によって実行されるモデル訓練方法であって、
m(mは1より大きい整数)個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記m個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得るステップであって、前記キーポイント検出結果には前記標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている、ステップと、
各前記オブジェクトキー部位について、m個のキーポイント検出結果における前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、Yesの場合、前記m個のキーポイント検出結果における前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定するステップと、
前記標的訓練画像と、それに対応する、各前記標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれているキーポイントラベル付け結果とを、訓練サンプルとするステップと、
前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練するステップと、を含む、
モデル訓練方法。
【請求項2】
m個のキーポイント検出結果における前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定する前記ステップは、
前記m個のキーポイント検出結果における、前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位に対応する参照位置を決定するステップと、
各前記キーポイント検出結果について、前記オブジェクトキー部位に対応するキーポイントの予測位置と前記オブジェクトキー部位に対応する参照位置との距離を特定し、前記距離に基づいて、前記キーポイント検出結果が前記オブジェクトキー部位に対応する標的キーポイント検出結果に属しているか否かを判定するステップと、
前記m個のキーポイント検出結果における、前記オブジェクトキー部位に対応する標的キーポイント検出結果の標的数を集計するステップと、
前記標的数が所定数を超えている場合、前記オブジェクトキー部位が標的オブジェクトキー部位であると判定し、前記標的数が前記所定数を超えていない場合、前記オブジェクトキー部位は非標的オブジェクトキー部位であると判定するステップと、を含む、
請求項1に記載のモデル訓練方法。
【請求項3】
前記m個のキーポイント検出結果における前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定する前記ステップは、
前記標的オブジェクトキー部位に対応する各標的キーポイント検出結果について、前記標的オブジェクトキー部位に対応するキーポイントの予測位置を特定して、前記標的オブジェクトキー部位に対応する標的予測位置とするステップと、
前記標的オブジェクトキー部位に対応する各標的予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定するステップと、を含む、
請求項2に記載のモデル訓練方法。
【請求項4】
前記標的訓練画像が標的ビデオにおけるビデオフレームである場合、さらに、
前記標的ビデオにおける前記標的訓練画像と隣り合うビデオフレームを特定して参照訓練画像とし、前記参照訓練画像に対応するキーポイントラベル付け結果を取得するステップと、
各前記標的オブジェクトキー部位について、前記標的訓練画像に対応するキーポイントラベル付け結果におけるラベル付け位置を特定して第1の位置とし、前記参照訓練画像に対応するキーポイントラベル付け結果におけるラベル付け位置を特定して第2の位置とし、前記第1の位置と前記第2の位置との距離に基づいて、前記標的訓練画像に対応するキーポイントラベル付け結果における、前記第1の位置を保持するか否かと、前記参照訓練画像に対応するキーポイントラベル付け結果における、前記第2の位置を保持するか否かとを決定するステップと、を含む、
請求項1に記載のモデル訓練方法。
【請求項5】
m個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記m個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得る前記ステップは、
各前記参照オブジェクトキーポイント検出モデルについて、前記参照オブジェクトキーポイント検出モデルによって前記標的訓練画像に対してオブジェクトキーポイント検出処理を行うことで、前記標的訓練画像内の各ピクセルが前記オブジェクトキー部位に属している信頼度を特定するステップと、
前記標的訓練画像内の、前記オブジェクトキー部位に属している信頼度が所定の信頼度閾値よりも高いピクセルに基づいて、前記参照オブジェクトキーポイント検出モデルに対応するキーポイント検出結果を特定するステップと、を含む、
請求項1に記載のモデル訓練方法。
【請求項6】
前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練する前記ステップは、
前記標的オブジェクトキーポイント検出モデルにより、前記訓練サンプルにおける前記標的訓練画像に対してオブジェクトキーポイント検出処理を行って、前記標的訓練画像に対応する訓練キーポイント検出結果を得るステップであって、前記訓練キーポイント検出結果には複数のオブジェクトキー部位のそれぞれに対応するキーポイントの訓練予測位置が含まれている、ステップと、
前記標的訓練画像に対応する訓練キーポイント検出結果と、前記訓練サンプルにおける前記キーポイントラベル付け結果とに基づいて、標的損失関数を構築するステップと、
前記標的損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調節するステップと、を含む、
請求項1に記載のモデル訓練方法。
【請求項7】
前記標的訓練画像に対応する訓練キーポイント検出結果と、前記訓練サンプルにおける前記キーポイントラベル付け結果とに基づいて、標的損失関数を構築する前記ステップは、
前記訓練キーポイント検出結果における各キーポイントについて、前記キーポイントに対応するオブジェクトキー部位が、前記キーポイントラベル付け結果における標的オブジェクトキー部位であるか否かを判定し、Yesの場合、前記キーポイントに対応する訓練予測位置および前記キーポイントに対応する標的オブジェクトキー部位のラベル付け位置に基づいて、前記キーポイントに対応する損失項を構築するとともに、前記キーポイントに対応する損失項に、対応する第1の損失重みを設定し、Noの場合、前記キーポイントに対応する訓練予測位置に基づいて、前記キーポイントに対応する損失項を構築するとともに、前記キーポイントに対応する損失項に、対応する第2の損失重みを設定するステップと、
前記訓練キーポイント検出結果における各キーポイントのそれぞれに対応する損失項と、それに対応する損失重みとに基づいて、前記標的損失関数を構築するステップと、を含み、
前記第1の損失重みは0より大きく、前記第2の損失重みは0に等しい、
請求項6に記載のモデル訓練方法。
【請求項8】
前記標的訓練画像が標的ビデオにおけるビデオフレームである場合、さらに、
前記標的ビデオにおける前記標的訓練画像と隣り合うビデオフレームを特定して参照訓練画像とし、前記参照訓練画像に対応する訓練キーポイント検出結果を取得するステップと、
前記標的訓練画像および前記参照訓練画像のそれぞれに対応する訓練キーポイント検出結果に基づいて、第1の参照損失関数を構築するステップと、を含み、
前記標的損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調節する前記ステップは、
前記標的損失関数および前記第1の参照損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調整するステップを含む、
請求項6に記載のモデル訓練方法。
【請求項9】
前記標的訓練画像および前記参照訓練画像のそれぞれに対応する訓練キーポイント検出結果に基づいて、第1の参照損失関数を構築する前記ステップは、
各前記オブジェクトキー部位について、前記標的訓練画像内の前記オブジェクトキー部位に対応するキーポイントの訓練予測位置を特定して第3の位置とし、前記参照訓練画像内の前記オブジェクトキー部位に対応するキーポイントの訓練予測位置を特定して第4の位置とし、前記第3の位置と前記第4の位置との距離に基づいて、前記オブジェクトキー部位に対応する損失項を構築し、前記損失項に対応する損失重みを設定するステップと、
各前記オブジェクトキー部位のそれぞれに対応する損失項と、それに対応する損失重みに基づいて、前記第1の参照損失関数を構築するステップと、を含む、
請求項8に記載のモデル訓練方法。
【請求項10】
前記参照オブジェクトキーポイント検出モデルで前記標的訓練画像を処理した場合に生成される第1の中間処理結果と、前記標的オブジェクトキーポイント検出モデルで前記標的訓練画像を処理した場合に生成される第2の中間処理結果とを取得するステップと、
前記第1の中間処理結果および前記第2の中間処理結果に基づいて、第2の参照損失関数を構築するステップと、を含み、
前記標的損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調節する前記ステップは、
前記標的損失関数および前記第2の参照損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調整するステップを含む、
請求項6または8に記載のモデル訓練方法。
【請求項11】
m(mは1より大きい整数)個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記m個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得るために用いられるキーポイント検出モジュールであって、前記キーポイント検出結果には、前記標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている、キーポイント検出モジュールと、
各前記オブジェクトキー部位について、m個のキーポイント検出結果における、前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、Yesの場合、前記m個のキーポイント検出結果における、前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定するために用いられる、部位ラベル付けモジュールと、
前記標的訓練画像と、それに対応する、各前記標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれているキーポイントラベル付け結果とを、訓練サンプルとするために用いられる、サンプル生成モジュールと、
前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練するために用いられる、モデル訓練モジュールと、を含む、
モデル訓練装置。
【請求項12】
前記部位ラベル付けモジュールは具体的には、
前記m個のキーポイント検出結果における、前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位に対応する参照位置を決定し、
各前記キーポイント検出結果について、前記オブジェクトキー部位に対応するキーポイントの予測位置と前記オブジェクトキー部位に対応する参照位置との距離を特定し、前記距離に基づいて、前記キーポイント検出結果が前記オブジェクトキー部位に対応する標的キーポイント検出結果に属しているか否かを判定し、
前記m個のキーポイント検出結果における、前記オブジェクトキー部位に対応する標的キーポイント検出結果の標的数を集計し、
前記標的数が所定数を超えている場合、前記オブジェクトキー部位が標的オブジェクトキー部位であると判定し、前記標的数が前記所定数を超えていない場合、前記オブジェクトキー部位は非標的オブジェクトキー部位であると判定するために用いられる、
請求項11に記載のモデル訓練装置。
【請求項13】
プロセッサと、メモリとを含み、
前記メモリはコンピュータプログラムを記憶するために用いられ、
前記プロセッサは前記コンピュータプログラムに基づいて、請求項1~10のいずれか一項に記載のモデル訓練方法を実行するために用いられる、
コンピュータ機器。
【請求項14】
コンピュータプログラムを記憶するために用いられるコンピュータ可読記憶媒体であって、前記コンピュータプログラムは請求項1~10のいずれか一項に記載のモデル訓練方法を実行するために用いられる、
コンピュータ可読記憶媒体。
【請求項15】
コンピュータプログラムまたは指令を含むコンピュータプログラム製品であって、前記コンピュータプログラムまたは前記指令がプロセッサによって実行された場合、請求項1~10のいずれか一項に記載のモデル訓練方法が実現される、
コンピュータプログラム製品。

【発明の詳細な説明】
【技術分野】
【0001】
本願は2021年11月24日に中国専利局に出願された、出願番号202111398623.5、発明の名称「モデル訓練方法および関連装置」の中国専利出願の優先権を主張し、そのすべての内容を援用により本願に組み入れる。
【0002】
本願は人工知能の技術分野に関し、特にモデル訓練に関する。
【背景技術】
【0003】
人体キーポイント検出技術または人体姿勢推定技術と呼ばれる技術は、画像内の人体骨格の重要な関節点(例えば鼻、左右の目、左右の耳、左右の肩、左右の肘、左右の手首、左右の臀部、左右の膝、左右の踝など)の位置を認識するために用いられる。人体キーポイント検出技術は、今や多くのシーンで広く応用されている。例えば、体感ゲームのシーンでは、人体キーポイント検出技術はプレイヤーの肢体の動作の変化を検出して、検出結果に応じて後続の対応するゲームロジックを実行できるようにするために用いられる。
【0004】
人体キーポイント検出技術は、主として人体キーポイント検出モデルをベースとして実現される。即ち、人体キーポイント検出モデルにより、入力された画像に基づいて、その中の人体骨格上の重要関節点の位置を特定する。実際の運用においては,人体キーポイントデータをラベル付けするのは非常に時間と労力がかかり、人体キーポイント検出モデルを訓練するための十分な訓練データをラベル付けするのは容易ではない。しかも、人体キーポイントの検出効率を確保するためには、実際に投入して使用する人体キーポイント検出モデルが複雑すぎてもいけない。したがって、関連技術において実際使用する予定の人体キーポイント検出モデルを訓練する場合、通常はまず構造が複雑で高性能な人体キーポイント検出モデルを利用して、ラベル付けしていない画像に対して人体キーポイント検出処理を行って、当該画像内の人体キーポイントの位置を特定して当該画像の擬似ラベルとし、次に当該画像およびその擬似ラベルを訓練サンプルとし、当該訓練サンプルを利用して、実際使用する予定の、構造がよりシンプルな人体キーポイント検出モデルの訓練を行っている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、構造が複雑な人体キーポイント検出モデルであるとしても、モデル性能には限界があり、決定した擬似ラベルの正確性を確保するのは難しく、上記の方式で生成した擬似ラベルには、通常多くのノイズが存在している。したがって、このような擬似ラベルを含む訓練サンプルを利用して、実際使用する予定の人体キーポイント検出モデルを訓練すると、訓練された人体キーポイント検出モデルの性能に影響してしまう。
【0006】
本願実施例で提供するモデル訓練方法および関連装置は、決定される擬似ラベルの正確性を高め、ひいては当該擬似ラベルを含む訓練サンプルに基づいて訓練された人体キーポイント検出モデルの性能を向上させることができる。
【課題を解決するための手段】
【0007】
これに鑑みて、本願の第1の態様で提供するモデル訓練方法は、m(mは1より大きい整数)個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記m個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得るステップであって、前記キーポイント検出結果には前記標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている、ステップと、各前記オブジェクトキー部位について、前記m個のキーポイント検出結果における前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、Yesの場合、前記m個のキーポイント検出結果における前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定するステップと、前記標的訓練画像と、それに対応する、各前記標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれているキーポイントラベル付け結果とを、訓練サンプルとするステップと、前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練するステップと、を含む。
【0008】
本願の第2の態様で提供するモデル訓練装置は、m(mは1より大きい整数)個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記m個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得るために用いられるキーポイント検出モジュールであって、前記キーポイント検出結果には、前記標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている、キーポイント検出モジュールと、各前記オブジェクトキー部位について、前記m個のキーポイント検出結果における、前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、Yesの場合、前記m個のキーポイント検出結果における、前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定するために用いられる、部位ラベル付けモジュールと、前記標的訓練画像と、それに対応する、各前記標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれているキーポイントラベル付け結果とを、訓練サンプルとするために用いられる、サンプル生成モジュールと、前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練するために用いられる、モデル訓練モジュールと、を含む。
【0009】
本願の第3の態様で提供するコンピュータ機器は、プロセッサと、メモリとを含み、前記メモリはコンピュータプログラムを記憶するために用いられ、前記プロセッサは前記コンピュータプログラムに基づいて、上記第1の態様のモデル訓練方法のステップを実行するために用いられる。
【0010】
本願の第4の態様で提供するコンピュータ可読記憶媒体は、コンピュータプログラムを記憶するために用いられるコンピュータ可読記憶媒体であって、前記コンピュータプログラムは上記の第1の態様のモデル訓練方法のステップを実行するために用いられる。
【0011】
本願の第5の態様で提供するコンピュータプログラム製品またはコンピュータプログラムは、コンピュータ指令を含み、当該コンピュータ指令はコンピュータ可読記憶媒体に記憶されている。コンピュータ機器のプロセッサが、コンピュータ可読記憶媒体から当該コンピュータ指令を読み取り、プロセッサが当該コンピュータ指令を実行することにより、当該コンピュータ機器に上記の第1の態様のモデル訓練方法のステップを実行させる。
【発明の効果】
【0012】
以上の技術案からわかるように、本願実施例は次のような利点を有する。
【0013】
本願実施例ではモデル訓練方法を提供する。当該方法では実際使用する予定の標的オブジェクトキーポイント検出モデルを訓練するための訓練サンプルを生成するとき、m(mは1より大きい整数)個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、m個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得る。ここで各キーポイント検出結果は、標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置を含んでいる。次に、各キーポイント検出結果における同一オブジェクトキー部位の予測位置が、基本的に一致していなければならないという原理に基づいて、各オブジェクトキー部位について、各キーポイント検出結果における当該オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、各参照オブジェクトキーポイント検出モデルの、当該オブジェクトキー部位に対する位置予測結果が信頼できるか否かを評価する。即ち当該オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定する。各参照オブジェクトキーポイント検出モデルの、当該オブジェクトキー部位に対する位置予測結果が信頼できると判定された場合、さらに、当該標的オブジェクトキー部位に対応するラベル付け位置、即ち擬似ラベルを決定する。さらに、当該標的訓練画像と、その中の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置を利用して、訓練サンプルを構成する。このようにして、位置予測結果が信頼できないオブジェクトキー部位を無視し、位置予測結果が信頼できるオブジェクトキー部位のラベル付け位置のみを利用して擬似ラベルとすることで、決定された擬似ラベルに存在するノイズを有効に減少させ、当該擬似ラベルの正確性を向上させることができる。したがって、当該擬似ラベルを含む訓練サンプルに基づいて、実際使用する予定の、構造が比較的シンプルな標的オブジェクトキーポイント検出モデルを訓練すれば、訓練された標的オブジェクトキーポイント検出モデルの性能をある程度保証することができる。
【図面の簡単な説明】
【0014】
図1図1は本願実施例で提供するモデル訓練方法の応用シーンの模式図である。
図2図2は本願実施例で提供するモデル訓練方法のフロー概要図である。
図3図3は本願実施例で提供する参照オブジェクトキーポイント検出モデルの動作原理の模式図である。
図4図4は本願実施例で提供する標的オブジェクトキーポイント検出モデルの訓練フロー概要図である。
図5図5は本願実施例で提供する体感ゲームの全体的インプリメントアーキテクチャ図である。
図6図6は本願実施例で提供する体感ゲームに応用される人体キーポイント検出モデルの訓練アーキテクチャ模式図である。
図7図7は本願実施例で提供する人体キーポイント検出モデルのテスト結果の模式図である。
図8図8は本願実施例で提供するモデル訓練装置の構造模式図である。
図9図9は本願実施例で提供する別のモデル訓練装置の構造模式図である。
図10図10は本願実施例で提供するさらに別のモデル訓練装置の構造模式図である。
図11図11は本願実施例で提供する端末機器の構造模式図である。
図12図12は本願実施例で提供するサーバの構造模式図である。
【発明を実施するための形態】
【0015】
本願のスキームが当業者によりよく理解されるよう、以下、本願の実施例における図面と組み合わせて本願の実施例の技術スキームを明確且つ全面的に説明する。もちろん、説明される実施例は本願の実施例の一部にすぎず、すべてではない。本願の実施例に基づいて当業者が創意工夫を要さずに得た他のすべての実施例は、いずれも本願の保護範囲に属する。
【0016】
本願の明細書、特許請求の範囲および上記図面における「第1」、「第2」、「第3」、「第4」等(もしあれば)は、類似した対象を区別するために用いるものであり、必ずしも特定の順番や前後の順序を説明するためのものではない。このように使用される用語は状況に応じて互換可能であり、それにより、ここで説明する本願の実施例は、図示したり説明した順序以外の順序で実施することが可能であると理解されたい。また、「含む」、「備える」、およびそれらの何らかの変形である用語は、排他的でない包含をカバーすることを意図している。例えば、一連のステップまたは手段を含むプロセス、方法、システム、製品または機器は、明確に列挙されたそれらステップや手段に限らず、明確には列挙されていないステップや手段、あるいはこれらのプロセス、方法、製品または機器に固有の他のステップや手段を含みうる。
【0017】
人工知能技術の研究と進歩に伴い、人工知能技術は、例えばよく見かけるスマート住宅、スマートウェアラブル機器、バーチャルアシスタント、スマートスピーカー、インテリジェントマーケティング、無人運転、自動運転、無人機、ロボット、スマート医療、スマートカスタマーサービス、車のインターネット化(IoV)、自動運転、高度道路交通システム(ITS)など、多くの分野で研究と応用が展開されている。技術の発展に伴って、人工知能技術がより多くの分野で応用され、より重要な価値を発揮するであろうことは確実である。
【0018】
本願実施例で提供するスキームは人工知能のコンピュータビジュアルテクノロジーに関し、上記の各種分野への応用が可能である。以下の実施例で具体的に説明する。
【0019】
関連技術においては、構造が複雑なオブジェクトキーポイント検出モデルによる、未ラベル付け画像に対するキーポイント検出結果を、そのまま当該未ラベル付け画像に対応する擬似ラベルとし、さらに、当該未ラベル付け画像およびそれに対応する擬似ラベルからなる訓練サンプルを利用して、構造がシンプルな、実際使用する予定のオブジェクトキーポイント検出モデルの訓練を行う。当該方法で生成された擬似ラベルには、通常多くのノイズが存在し、正確性が低い。これにより訓練されたオブジェクトキーポイント検出モデルのモデル性能に悪い影響を与えてしまう。
【0020】
上記関連技術に存在する課題を解決するため、本願実施例ではモデル訓練方法を提供する。当該モデル訓練方法では、まずm(mは1より大きい整数)個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行い、m個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得る。ここでの各キーポイント検出結果は、標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置を含んでいる。次に、各オブジェクトキー部位について、m個のキーポイント検出結果における当該オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、当該オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定する。Yesであれば、m個のキーポイント検出結果における当該標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、当該標的オブジェクトキー部位に対応するラベル付け位置を決定する。さらに、当該標的訓練画像と、その中の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置とを訓練サンプルとし、当該訓練サンプルに基づいて、実際使用する予定の、構造が比較的シンプルな標的オブジェクトキーポイント検出モデルを訓練する。
【0021】
上記モデル訓練方法により、実際使用する予定の標的オブジェクトキーポイント検出モデルを訓練するための訓練サンプルを生成するとき、構造が複雑な複数の参照オブジェクトキーポイント検出モデルによって、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、複数のキーポイント検出結果を得る。次に、各キーポイント検出結果における同一オブジェクトキー部位の予測位置が、基本的に一致していなければならないという原理に基づいて、各オブジェクトキー部位について、各キーポイント検出結果における当該オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、各参照オブジェクトキーポイント検出モデルの、当該オブジェクトキー部位に対する位置予測結果が信頼できるか否かを評価する。即ち当該オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定する。各参照オブジェクトキーポイント検出モデルの、当該オブジェクトキー部位に対する位置予測結果が信頼できると判定された場合、さらに、当該標的オブジェクトキー部位に対応するラベル付け位置、即ち擬似ラベルを決定する。そして、当該標的訓練画像と、その中の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置とを利用して、訓練サンプルを構成する。このように、位置予測結果が信頼できないオブジェクトキー部位を無視して、位置予測結果が信頼できるオブジェクトキー部位に対応するラベル付け位置のみを利用して擬似ラベルとするので、決定した擬似ラベルに存在するノイズを有効に減少させ、当該擬似ラベルの正確性を向上させることができる。したがって、このような擬似ラベルを含む訓練サンプルに基づいて、実際使用する予定の、構造が比較的シンプルな標的オブジェクトキーポイント検出モデルを訓練すれば、訓練された標的オブジェクトキーポイント検出モデルの性能をある程度保証することができる。
【0022】
なお、本願実施例で提供するモデル訓練方法は、画像処理能力を備えたコンピュータ機器によって実行することができる。当該コンピュータ機器は、端末機器またはサーバでありうる。端末機器は具体的にはコンピュータ、スマートフォン、タブレットコンピュータ、PDA(Personal Digital Assistant)などでありうる。サーバは具体的にはアプリケーションサーバまたはウェブサーバでありうる。実際に配置する場合、スタンドアローンサーバでもよいし、複数の物理サーバからなるグループサーバまたはクラウドサーバでもよい。本願実施例に係る処理データ(訓練画像、キーポイント検出結果、キーポイントラベル付け結果など)は、ブロックチェーンに保存することができる。
【0023】
本願実施例で提供するモデル訓練方法が理解されやすいよう、以下では当該モデル訓練方法の実行主体がサーバである場合を例として、当該モデル訓練方法の応用シーンを例示的に説明する。
【0024】
図1を参照されたい。図1は本願実施例で提供するモデル訓練方法の応用シーンの模式図である。図1に示すように当該応用シーンにはサーバ110とデータベース120が含まれる。サーバ110はネットワークを通じてデータベース120からデータを取得することができる。あるいは、データベース120がサーバ110内に統合されていてもよい。サーバ110は本願実施例で提供するモデル訓練方法を実行して、実際使用する予定の、構造が比較的シンプルな標的オブジェクトキーポイント検出モデルを訓練するために用いられる。データベース120は未ラベルの訓練画像を記憶するために用いられる。
【0025】
実際の運用においては,サーバ110はデータベース120から標的訓練画像を取得できる。当該標的訓練画像には要検出オブジェクトが含まれ、当該要検出オブジェクトにはいくつかのオブジェクトキー部位が含まれている。例えば,標的訓練画像には鮮明かつ完全な要検出人体が含まれる。
【0026】
次に、サーバ110はm(mは1より大きい整数)個の参照オブジェクトキーポイント検出モデルにより、取得した標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行い、m個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得ることができる。ここでの各キーポイント検出結果には、標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている。付け加えると、上記参照オブジェクトキーポイント検出モデルは、予め訓練されているオブジェクトキーポイント検出モデルであり、通常、画像内の要検出オブジェクト上の各オブジェクトキー部位の位置を比較的正確に検出でき、モデル構造も一般的に比較的複雑である。
【0027】
一例として、上記各参照オブジェクトキーポイント検出モデルは、人体骨格上の各重要関節の位置を検出するための、参照人体キーポイント検出モデルであってよい。したがって、各参照人体キーポイント検出モデルにより、標的訓練画像に対してそれぞれ人体キーポイント検出処理を行い、各参照人体キーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得る。当該キーポイント検出結果は、標的訓練画像内の要検出人体の各重要関節のそれぞれに対応するキーポイントの予測位置を含んでいる。
【0028】
続いて、サーバ110は各オブジェクトキー部位について、このm個のキーポイント検出結果における当該オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、このm個の参照オブジェクトキーポイント検出モデルの当該オブジェクトキー部位の位置に対する予測結果が信頼できるか否かを判定する。即ち、当該オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定する。当該オブジェクトキー部位が標的オブジェクトキー部位であると判定した場合、m個のキーポイント検出結果における当該標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、当該標的オブジェクトキー部位に対応するラベル付け位置を決定する。
【0029】
なお、異なる参照オブジェクトキーポイント検出モデルの、標的訓練画像内の同一オブジェクトキー部位に対する位置予測結果は、基本的に一致していなければならない。即ち、異なる参照オブジェクトキーポイント検出モデルの同一オブジェクトキー部位についての予測位置は、相互の距離が小さくなくてはならない。もしm個のキーポイント検出結果における同一オブジェクトキー部位に対する予測位置相互の距離が大きければ、このm個のキーポイント検出結果における当該オブジェクトキー部位に対応する予測位置が信頼できないことを表し、おそらく大きなノイズが存在する。このノイズが後続のモデル訓練に取り込まれないよう、当該オブジェクトキー部位を無視してよく、m個のキーポイント検出結果における当該オブジェクトキー部位に対する予測位置に基づいて、当該オブジェクトキー部位に対応するラベル付け位置を決定することがないようにする。反対に、m個のキーポイント検出結果の同一オブジェクトキー部位に対する予測位置相互の距離が小さければ、このm個のキーポイント検出結果における当該オブジェクトキー部位に対応する予測位置が信頼できることを表している。したがって、当該オブジェクトキー部位を標的オブジェクトキー部位と見なし、m個のキーポイント検出結果における当該標的オブジェクトキー部位に対応する予測位置に基づいて、当該標的オブジェクトキー部位に対応するラベル付け位置を決定する。
【0030】
標的訓練画像内の各オブジェクトキー部位に対して上記処理を実行して、標的訓練画像内の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置を得た後、当該標的訓練画像内の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置を利用して、当該標的訓練画像に対応するキーポイントラベル付け結果、即ち当該標的訓練画像に対応する擬似ラベルを構成する。さらに、標的訓練画像およびそれ対応するキーポイントラベル付け結果を、訓練サンプルとすることができる。
【0031】
さらに、上記方法で構築した訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練する。当該標的オブジェクトキーポイント検出モデルは実際使用する予定のオブジェクトキーポイント検出モデル、例えば、体感ゲームに適用されプレイヤーの肢体動作を認識するために用いられる人体キーポイント検出モデルである。実際に使用するオブジェクトキーポイント検出モデルは高い検出効率を備える必要があると考えられる。したがって、通常はモデル構造が比較的シンプルなオブジェクトキーポイント検出モデルを、上記標的オブジェクトキーポイント検出モデルとする。
【0032】
なお、図1に示す応用シーンは一例に過ぎず、実際の運用においては、本願実施例で提供するモデル訓練方法を他のシーンに適用することもできる。本願実施例で提供するモデル訓練方法を適用する応用シーンについて、ここではなんら限定しない。
【0033】
次に、方法実施例により本願が提供するモデル訓練方法を詳細に説明する。
【0034】
図2を参照されたい。図2は本願実施例で提供するモデル訓練方法のフロー概要図である。説明の便宜上、下記の実施例でも当該モデル訓練方法の実行主体がサーバである場合を例として説明する。図2に示すように、当該モデル訓練方法は以下のステップを含む。
【0035】
ステップ201:m個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記m個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得る。前記キーポイント検出結果には、前記標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている。前記mは1より大きい整数である。
【0036】
本願実施例において、サーバが標的訓練画像について、対応する擬似ラベルを生成する場合、まずm個の参照オブジェクトキーポイント検出モデルにより、当該標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、m個の参照オブジェクトキーポイント検出モデル各々の、当該標的訓練画像に対するキーポイント検出結果を得る。即ちm個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得る。ここで、各キーポイント検出結果には、標的訓練画像内の複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置がそれぞれ含まれている。
【0037】
補足説明すると、擬似ラベルとは半教師あり学習で常用される訓練データである。通常の場合、性能がより優れた複雑なモデルによってラベル無しデータを処理して、当該ラベル無しデータに対応する擬似ラベルを得るが、当該擬似ラベルは不正確なおそれがある。本願実施例において、標的訓練画像に対応する擬似ラベルは、m個の参照オブジェクトキーポイント検出モデルの当該標的訓練画像に対するキーポイント検出結果に基づいて決定される。本願の主旨は、一連の処理フローによりm個の参照オブジェクトキーポイント検出モデルの当該標的訓練画像に対するキーポイント検出結果を処理して、当該標的訓練画像内のオブジェクトキー部位の位置を比較的正確に反映した擬似ラベルを得ることにより、当該擬似ラベルを含む訓練サンプルに基づいて訓練される標的オブジェクトキーポイント検出モデルの性能を向上させることにある。
【0038】
補足説明すると、参照オブジェクトキーポイント検出モデルは、予め訓練された、画像内の要検出オブジェクト上のオブジェクトキー部位の所在位置を検出するためのモデルであり、一般的に比較的正確にオブジェクトキー部位の所在位置を検出することができる。通常の場合、参照オブジェクトキーポイント検出モデルが正確にオブジェクトキー部位の位置を検出できるようにするために、参照オブジェクトキーポイント検出モデルには比較的複雑なモデル構造が設定される。例示的に、上記各参照オブジェクトキーポイント検出モデルは、画像内の人体上の各重要関節の所在位置を検出するための参照人体キーポイント検出モデルであり、当該参照人体キーポイント検出モデルのキーポイント検出結果は人体の姿勢の特定に用いられる。なお、本願実施例におけるm個の参照オブジェクトキーポイント検出モデルは、同一の訓練サンプルセットに基づいて訓練されたものでもよいし、異なる訓練サンプルセットに基づいて訓練されたものでもよい。本願はこれについてなんら限定しない。
【0039】
補足説明すると、標的訓練画像とは要検出オブジェクトを含む画像であり、その中の要検出オブジェクト上には、いくつかのオブジェクトキー部位が含まれている。ここでのオブジェクトキー部位は、要検出オブジェクトの当該要検出オブジェクトの姿勢を反映できる部位を含む。例示的に、当該標的訓練画像は鮮明かつ完全な要検出人体を含んだ画像であり、当該要検出人体には、いくつかの重要関節、例えば鼻、左右の目、左右の耳、左右の肩、左右の肘、左右の手首、左右の臀部、左右の膝、左右の踝などが含まれている。
【0040】
補足説明すると、参照オブジェクトキーポイント検出モデルに対応するキーポイント検出結果は、当該参照オブジェクトキーポイント検出モデルが標的訓練画像に対して行ったオブジェクトキーポイント検出処理によって得られたものであり、当該キーポイント検出結果には、標的訓練画像内の要検出オブジェクト上の各オブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている。例示的に、標的訓練画像をサイズがH×Wの画像であると仮定すると、参照オブジェクトキーポイント検出モデルが当該標的訓練画像に対してオブジェクトキーポイント検出処理を行うと、サイズがK×H×Wのヒートマップが出力される。但し、Kは検出する必要があるオブジェクトキー部位の数であり、K×H×Wのヒートマップのうち第k枚目のヒートマップは、標的訓練画像内の第k番目のオブジェクトキー部位に対応するキーポイント的予測位置を示すために用いられる。
【0041】
選択可能な一実現形態において、サーバは以下の方法で各参照オブジェクトキーポイント検出モデルに対応するキーポイント検出結果を取得してもよい。即ち、各参照オブジェクトキーポイント検出モデルについて、当該参照オブジェクトキーポイント検出モデルによって標的訓練画像に対してオブジェクトキーポイント検出処理を行うことで、当該標的訓練画像内の各ピクセルの、オブジェクトキー部位に属している信頼度を特定する。次に、当該標的訓練画像内の、オブジェクトキー部位に属している信頼度が所定の信頼度閾値よりも高いピクセルに基づいて、当該参照オブジェクトキーポイント検出モデルに対応するキーポイント検出結果を特定する。
【0042】
具体的には、図3は本願実施例で提供する参照オブジェクトキーポイント検出モデルの動作原理の模式図である。図3に示すように、サーバがサイズがH×Wである標的訓練画像を某参照オブジェクトキーポイント検出モデルに入力すると、当該参照オブジェクトキーポイント検出モデルは当該標的訓練画像に対して分析処理を行って、それに応じてサイズがK×H×Wのヒートマップを出力する。当該ヒートマップは実質的にはK枚のサイズがH×Wのヒートマップからなり、サイズがH×Wの各ヒートマップには、標的訓練画像内の各ピクセルの、当該ヒートマップに対応するオブジェクトキー部位に属している信頼度が含まれている。例えば,第k枚目のサイズがH×Wのヒートマップにおいて、各ピクセルが対応する信頼度を有しており、当該信頼度は対応するピクセルが第k番目のオブジェクトキー部位に属している確率を表わしている。
【0043】
サイズがH×Wである各ヒートマップに対して、サーバはそのうちの対応する信頼度が所定信頼度(例えば0.5)以下のピクセルを無視することができる。例えば、このようなピクセルに対応する信頼度を直接0に調整して、当該ヒートマップに対応するオブジェクトキー部位に属していないものと見なす。そして対応する信頼度が当該所定信頼度よりも高いピクセルのみに基づいて、当該ヒートマップに対応するオブジェクトキー部位の予測位置を特定する。例えば、このようなピクセルに対応する信頼度を1に調整して、当該ヒートマップに対応するオブジェクトキー部位に属していると黙認する。したがって、当該ヒートマップにおける、対応する信頼度が1に等しいピクセルの位置が、当該ヒートマップに対応するオブジェクトキー部位の予測位置を反映することができる。このように、上記の方法でサイズがH×WであるK枚のヒートマップの一次スクリーニング処理を完了すると、一次スクリーニング処理で得られたサイズがK×H×Wのヒートマップを、当該参照オブジェクト検出モデルに対応するキーポイント検出結果とすることができる。
【0044】
このように、参照オブジェクトキーポイント検出モデルの実際の検出結果を前処理して、当該参照オブジェクトキーポイント検出モデルに対応するキーポイント検出結果を得ることにより、キーポイント検出結果におけるノイズを一層減少させることができる。同時に、サーバがこのようなノイズに対して後続の不必要な処理を行わずにすみ、処理の所要資源が減少するとともに、後続の処理効率を向上させることができる。
【0045】
ステップ202:各前記オブジェクトキー部位について、前記m個のキーポイント検出結果における前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、Yesの場合、前記m個のキーポイント検出結果における前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定する。
【0046】
サーバは、m個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を取得した後、このm個のキーポイント検出結果に基づいて、m個の参照オブジェクトキーポイント検出モデルの、各オブジェクトキー部位の位置に対する予測結果が信頼できるか否かを判定する。即ち、各オブジェクトキー部位について、サーバはm個のキーポイント検出結果における当該オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、当該オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、当該オブジェクトキー部位が標的オブジェクトキー部位であると判定された場合、サーバはさらにm個のキーポイント検出結果における当該標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、当該標的オブジェクトキー部位に対応するラベル付け位置を決定する。さらに、サーバは標的訓練画像内の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置を利用して、当該標的訓練画像に対応するキーポイントラベル付け結果を構成することができる。
【0047】
空間一致性の観点から見れば、異なる参照オブジェクトキーポイント検出モデルの、標的訓練画像内の同一オブジェクトキー部位に対する位置予測結果は、基本的に一致していなければならない。即ち、異なる参照オブジェクトキーポイント検出モデルの、同一オブジェクトキー部位についての予測位置は相互間の距離が近くなくてはならない。もしm個のキーポイント検出結果における同一オブジェクトキー部位に対応する予測位置相互間の距離が遠ければ、このm個のキーポイント検出結果における当該オブジェクトキー部位に対応する予測位置は信頼できないことを表し、おそらく大きなノイズが存在する。このノイズが後続のモデル訓練に取り込まれないよう、本願実施例では当該オブジェクトキー部位を無視することを選択し、m個のキーポイント検出結果における当該オブジェクトキー部位に対応する予測位置に基づいて、当該オブジェクトキー部位に対応するラベル付け位置を決定することがないようにする。即ち、当該オブジェクトキー部位に基づいて標的訓練画像に対応する擬似ラベルを生成することはしない。反対に、m個のキーポイント検出結果における同一オブジェクトキー部位に対応する予測位置相互間の距離が近ければ、このm個のキーポイント検出結果における当該オブジェクトキー部位に対応する予測位置が信頼できることを表している。したがって、当該オブジェクトキー部位を標的オブジェクトキー部位と見なし、m個のキーポイント検出結果における当該標的オブジェクトキー部位に対応する予測位置に基づいて、当該標的オブジェクトキー部位に対応するラベル付け位置を決定することができ、続けて当該標的オブジェクトキー部位に対応するラベル付け位置に基づいて、標的訓練画像に対応する擬似ラベルを決定することができる。
【0048】
選択可能な一実現形態において、サーバは以下の方法で、m個の参照オブジェクトキーポイント検出モデルの各オブジェクトキー部位に対する位置予測結果が信頼できるか否かを判定してもよい。即ち、以下の方法で、各オブジェクトキー部位について、それが標的オブジェクトキー部位であるか否かを判定する。即ち、m個のキーポイント検出結果における当該オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、当該オブジェクトキー部位に対応する参照位置を決定する。次に各キーポイント検出結果について、当該オブジェクトキー部位に対応するキーポイントの予測位置と、当該オブジェクトキーポイントに対応する参照位置との距離を特定して、当該距離に基づいて当該キーポイント検出結果がオブジェクトキー部位に対応する標的キーポイント検出結果に属しているか否かを判定する。さらに、m個のキーポイント検出結果における当該オブジェクトキー部位に対応する標的キーポイント検出結果の、標的数を集計する。当該標的数が所定数を超えている場合、当該オブジェクトキー部位を標的オブジェクトキー部位であると判定できる。当該標的数が所定数を超えていない場合、当該オブジェクトキー部位は非標的オブジェクトキー部位であると判定できる。
【0049】
なお、オブジェクトキー部位に対応するキーポイントの予測位置は、参照オブジェクトキーポイント検出モデルによる標的訓練画像に対するオブジェクトキーポイント検出処理で得られたものであり、参照オブジェクトキーポイント検出モデルが出力したオブジェクトキー部位の位置予測結果である。オブジェクトキー部位に対応する参照位置は、複数の参照オブジェクトキーポイント検出モデルのキーポイント検出結果における当該オブジェクトキー部位の位置予測結果に基づいて特定されたものであり、例えば,複数のキーポイント検出結果における当該オブジェクトキー部位に対応する予測位置を平均化処理して得られたものである。複数のキーポイント検出結果における当該オブジェクトキー部位に対応する予測位置の分布状況を反映するために用いられる。
【0050】
上記の実現プロセスが理解されやすいよう、以下、オブジェクトキー部位である「頭部」について、標的オブジェクトキー部位であるか否かを判定する場合を例として、上記の実現プロセスを例示的に説明する。頭部について、それが標的オブジェクトキー部位に属しているか否かを判定するとき、サーバはm個のキーポイント検出結果における頭部に対応するキーポイントの予測位置の平均値を計算して、頭部に対応する参照位置とする。次に、当該頭部に対応する参照位置を中心として、各キーポイント検出結果について、そのうちの頭部に対応するキーポイントの予測位置と当該参照位置との間の距離を特定し、当該距離が第1の所定距離(例えば各位置に対して正規化処理を行った場合、当該第1の所定距離は0.1とすることができる)より小さいか否かを判断する。小さい場合は、当該キーポイント検出結果は頭部に対応する標的キーポイント検出結果に属していると判定し、反対に小さくない場合は、当該キーポイント検出結果は頭部に対応する標的キーポイント検出結果に属していないと判定する。m個のキーポイント検出結果すべてについて上記処理が完了したら、このm個のキーポイント検出結果における頭部に対応する標的キーポイント検出結果における標的数を集計する。当該頭部に対応する標的数が所定数量(例えばm/2)を超えている場合、頭部が標的オブジェクトキー部位に属していると判定できる。反対に、当該頭部に対応する標的数が所定数量を超えていない場合、頭部は非標的オブジェクトキー部位に属していると判定できる。
【0051】
なお、上記第1の所定距離、所定数量などのパラメータは、いずれも実際の必要に応じて設定することができ、本願はそれについてはここでなんら限定しない。また、上記のオブジェクトキー部位に対応する参照位置を決定する実現形態、およびキーポイント検出結果がオブジェクトキー部位に対応する標的キーポイント検出結果に属するか否かを判定する実現形態も、実際の必要に応じて設定することができ、本願はそれについてもなんら限定しない。
【0052】
上記方法により、m個の参照オブジェクトキーポイント検出モデルの各オブジェクトキー部位に対する位置予測結果が信頼できるか否かを判定することで、判定結果の信頼性が保証され、信頼性が低いオブジェクトキー部位の位置予測結果を有効にふるい落とすことができる。したがって、続いて決定される標的訓練画像に対応する擬似ラベルが高い信頼性を有することが保証され、そこに大量のノイズが混入することが回避できる。
【0053】
上記方法で各オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定する場合、サーバはさらに以下の方法で標的オブジェクトキー部位に対応するラベル付け位置を決定することができる。即ち、標的オブジェクトキー部位に対応する各標的キーポイント検出結果について、そのうちの当該標的オブジェクトキー部位に対応するキーポイントの予測位置を特定して、当該標的オブジェクトキー部位に対応する標的予測位置とし、さらに、当該標的オブジェクトキー部位に対応する各標的予測位置に基づいて、当該標的オブジェクトキー部位に対応するラベル付け位置を決定する。
【0054】
例示的に、ある標的オブジェクトキー部位について、サーバは当該標的オブジェクトキー部位に対応する各標的キーポイント検出結果における当該標的オブジェクトキー部位に対応するキーポイントの予測位置を取得して、当該標的オブジェクトキー標的に対応する標的予測位置とすることができる。さらに、サーバは当該標的オブジェクトキー部位に対応する各標的予測位置の平均値を計算して、当該標的オブジェクトキー部位に対応するラベル付け位置とすることができる。
【0055】
このように、標的オブジェクトキー部位に対応する標的キーポイント検出結果における当該標的オブジェクトキー部位の位置予測結果のみに基づいて、当該標的オブジェクトキー部位に対応するラベル付け位置を決定することで、決定したラベル付け位置の正確性を保証することができる。
【0056】
なお、実際の運用においては,サーバはその他の方法を用いて標的オブジェクトキー部位に対応するラベル付け位置を決定してもよい。例えば、標的オブジェクトキー部位に対応する参照位置(即ちm個のキーポイント検出結果における当該標的オブジェクトキー部位に対応するキーポイントの予測位置の平均値)をそのまま当該標的オブジェクトキー部位に対応するラベル付け位置としてもよい。本願はここではサーバが標的オブジェクトキー部位に対応するラベル付け位置を決定する方法についてなんら限定しない。
【0057】
任意選択として、標的訓練画像が標的ビデオにおけるビデオフレームである場合、サーバは時系列の連続性に着眼して、上記標的オブジェクトキー部位に対してさらなる判定を行い、上記標的オブジェクトキー部位を保持するか否かを決定してもよい。
【0058】
即ち、サーバは標的ビデオにおける標的訓練画像と隣り合うビデオフレームを参照訓練画像に決定するとともに、当該参照訓練画像に対応するキーポイントラベル付け結果を取得することができる。当該キーポイントラベル付け結果には、当該参照訓練画像内の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれている。次に、各標的オブジェクトキー部位について、その標的訓練画像に対応するキーポイントラベル付け結果におけるラベル付け位置を第1の位置に決定し、その参照訓練画像に対応するキーポイントラベル付け結果におけるラベル付け位置を第2の位置に決定する。当該第1の位置と当該第2の位置との距離に基づいて、標的訓練画像に対応するキーポイントラベル付け結果における、当該第1の位置を保持するか否かと、参照訓練画像に対応するキーポイントラベル付け結果における、当該第2の位置を保持するか否かを決定する。
【0059】
実際の運用において,ビデオの隣り合うビデオフレーム間では大きな差異は存在しないはずである。これは隣り合うビデオフレームにおける要検出オブジェクト上のオブジェクトキー部位の変化の度合いも大きくないことを意味している。これに基づいて、本願実施例ではビデオの隣り合う2つのビデオフレームのそれぞれに対応するキーポイントラベル付け結果に関する標的オブジェクトキー部位対して、さらなる判定処理を行うことができる。
【0060】
具体的には、サーバは標的訓練画像が属する標的ビデオを特定するとともに、当該標的ビデオにおける当該標的訓練画像と隣り合うビデオフレームを特定して参照訓練画像とする。当該参照訓練画像は標的訓練画像の1つ前のビデオフレームでもよいし、標的訓練画像の1つ後のビデオフレームでもよい。そして、当該参照訓練画像に対応するキーポイントラベル付け結果を取得する。当該参照訓練画像に対応するキーポイントラベル付け結果の生成方法は、上記で説明した標的訓練画像に対応するキーポイントラベル付け結果の生成方法と同じであり、当該参照訓練画像に対応するキーポイントラベル付け結果には、当該参照訓練画像内の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれている。
【0061】
標的訓練画像および参照訓練画像内の各標的オブジェクトキー部位について、サーバは標的訓練画像に対応するキーポイントラベル付け結果における、当該標的オブジェクトキー部位に対応するラベル付け位置を特定して第1の位置とし、参照訓練画像に対応するキーポイントラベル付け結果における、当該標的オブジェクトキー部位に対応するラベル付け位置を特定して第2の位置とする。次に、当該第1の位置と第2の位置との距離を計算して、当該距離が第2の所定距離(例えば、各位置に対して正規化処理を行った場合、当該第2の所定距離は0.2とすることができる)より小さいか否かを判定し、小さい場合は、標的訓練画像および参照訓練画像のそれぞれに対応するキーポイントラベル付け結果における、当該標的オブジェクトキー部位に対応するラベル付け位置(即ち第1の位置および第2の位置)を保持してよい。反対に、小さくない場合、標的訓練画像および参照訓練画像のそれぞれに対応するキーポイントラベル付け結果における、当該標的オブジェクトキー部位に対応するラベル付け位置を削除してよい。即ち、当該標的オブジェクトキー部位を無効なオブジェクトキー部位と見なす。
【0062】
なお、上記第2の所定距離は実際の必要に応じて設定すればよく、本願はここでなんら限定しない。
【0063】
このように、上記方法により、時系列の連続性に基づいて標的オブジェクトキー部位をさらにスクリーニング処理することで、決定されたキーポイントラベル付け結果の正確性を高めることに寄与し、キーポイントラベル付け結果内に存在するおそれがあるノイズをさらにふるい落とすことができる。
【0064】
ステップ203:前記標的訓練画像と、それに対応するキーポイントラベル付け結果とを、訓練サンプルとする。前記キーポイントラベル付け結果には、各前記標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれている。
【0065】
サーバは、上記方法で標的訓練画像に対応するキーポイントラベル付け結果(当該標的訓練画像内の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置を含んでいる)を得た後で、当該標的訓練画像およびそれに対応するキーポイントラベル付け結果を利用して、実際使用する予定の標的オブジェクトキーポイント検出モデルを訓練するための訓練サンプルを構成することができる。なお、ここで標的訓練画像に対応するキーポイントラベル付け結果とは、実質的には当該標的訓練画像に対応する擬似ラベルである。
【0066】
ステップ204:前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練する。
【0067】
実際の運用においては,サーバは上記ステップ201~ステップ203によって大量の訓練サンプルを生成し、さらに、生成した訓練サンプルを利用して、実際使用する予定の標的オブジェクトキーポイント検出モデルを訓練することができる。
【0068】
補足説明すると、標的オブジェクトキーポイント検出モデルは訓練を要する、画像内の要検出オブジェクト上のオブジェクトキー部位の所在位置を検出するためのモデルであり、実際使用する予定のモデルである。通常の場合、実際の運用における検出効率を保証するため、当該標的オブジェクトキーポイント検出モデルのモデル構造は一般的に比較的シンプルである。即ち、当該標的オブジェクトキーポイント検出モデルの複雑度は、通常、上記参照オブジェクトキーポイント検出モデルの複雑度より低い。例示的に、当該標的オブジェクトキーポイント検出モデルは、体感ゲームに適用される、プレイヤーの肢体動作の変化を検出するためのモデルであり、カメラで撮影した画像内の人体に対して重要関節点位置検出を行って、当該人体の動作姿勢を特定するために用いられる。
【0069】
選択可能な一実現形態において、サーバは図4に示すフローに基づいて、標的オブジェクトキーポイント検出モデルに対する訓練を実現する。図4に示すように、サーバは標的キーポイント検出モデルを訓練する場合、具体的には以下のステップを実行する必要がある。
【0070】
ステップ2041:前記標的オブジェクトキーポイント検出モデルにより、前記訓練サンプルにおける前記標的訓練画像に対してオブジェクトキーポイント検出処理を行って、前記標的訓練画像に対応する訓練キーポイント検出結果を得る。前記訓練キーポイント検出結果には複数のオブジェクトキー部位のそれぞれに対応するキーポイントの訓練予測位置が含まれている。
【0071】
サーバは、具体的に訓練サンプルを利用して標的オブジェクトキーポイント検出モデルを訓練する場合、訓練サンプルにおける標的訓練画像を当該標的オブジェクトキーポイント検出モデルに入力する。当該標的オブジェクトキーポイント検出モデルは、入力された標的訓練画像に対して分析処理を行うことにより、当該標的訓練画像に対応する訓練キーポイント検出結果を出力することができる。当該訓練キーポイント検出結果には、標的訓練画像内の複数のオブジェクトキー部位のそれぞれに対応するキーポイントの訓練予測位置が含まれている。
【0072】
なお、標的オブジェクトキーポイント検出モデルと上述の参照オブジェクトキーポイント検出モデルの動作原理は基本的に同じであり、両者のモデル構造のみに違いがある。通常の場合、標的オブジェクトキーポイント検出モデルの構造は、参照オブジェクトキーポイント検出モデルの構造よりシンプルである。これに基づいて、標的オブジェクトキーポイント検出モデルの動作原理も図3と同様であってもよい。即ち、サイズがH×Wである標的訓練画像が標的オブジェクトキーポイント検出モデルに入力され、当該標的オブジェクトキーポイント検出モデルが当該標的訓練画像を処理することで、出力される訓練キーポイント検出結果は、サイズがK×H×Wのヒートマップとなる。ここで、第k枚目のヒートマップykは、第k番目のオブジェクトキー部位に対応するキーポイントの予測位置を表すために用いられる。
【0073】
ステップ2042:前記標的訓練画像に対応する訓練キーポイント検出結果と、前記訓練サンプルにおける前記キーポイントラベル付け結果とに基づいて、標的損失関数を構築する。
【0074】
サーバは、標的オブジェクトキーポイント検出モデルを利用して標的訓練画像に対してキーポイント検出処理を行って、当該標的訓練画像に対応する訓練キーポイント検出結果を得た後、当該訓練キーポイント検出結果と訓練サンプルにおけるキーポイントラベル付け結果との差異に基づいて、標的損失関数を構築する。
【0075】
選択可能な一実現形態において、サーバは以下の方法で標的損失関数を構築する。即ち、訓練キーポイント検出結果における各キーポイントについて、当該キーポイントに対応するオブジェクトキー部位が、キーポイントラベル付け結果における標的オブジェクトキー部位であるか否かを判定し、Yesの場合、当該キーポイントに対応する訓練予測位置および当該キーポイントに対応する標的オブジェクトキー部位のラベル付け位置に基づいて、当該キーポイントに対応する損失項を構築するとともに、当該キーポイントに対応する損失項に、対応する第1の損失重みを設定する。Noの場合、当該キーポイントに対応する訓練予測位置に基づいて、当該キーポイントに対応する損失項を構築するとともに、前記キーポイントに対応する損失項に、対応する第2の損失重みを設定する。ここで第1の損失重みは0より大きく、第2の損失重みは0に等しい。さらに、訓練キーポイント検出結果における各キーポイントのそれぞれに対応する損失項と、それに対応する損失重みとに基づいて、標的損失関数を構築する。
【0076】
ステップ202に対する説明内容からわかるように、本願実施例では標的訓練画像に対応するキーポイントラベル付け結果を判定する場合、各オブジェクトキー部位について標的オブジェクトキー部位であるか否かを判断して、標的オブジェクトキー部位に対応するラベル付け位置のみを決定し、標的オブジェクトキー部位に対応するラベル付け位置のみを利用して、キーポイントラベル付け結果を判定する。このプロセスにおいて、いくつかのオブジェクトキー部位に対応するキーポイントが無視される。これらオブジェクトキー部位に対応するキーポイントは実際には存在するであろうが、本願実施例では一連の判定処理を通じて、これらのオブジェクトキー部位に対応するキーポイントを必ずしも信頼できないと見なし、したがってそれらを標的訓練画像に対応するキーポイントラベル付け結果に加えていない。標的損失関数を構築するときに、上記の無視されたオブジェクトキー部位に対応するキーポイントが実際に存在していないものと誤認して、誤った誤差逆伝播を招き、訓練された標的オブジェクトキーポイント検出モデルの性能に影響を与えることを防ぐため、本願実施例では重み付けした平均二乗誤差(Mean squared Error,MSE)損失関数を革新的に設計し、標的損失関数とする。
【0077】
具体的には、訓練キーポイント検出結果における各キーポイントについて、サーバはまず当該キーポイントに対応するオブジェクトキー部位がキーポイントラベル付け結果におけるいずれかの標的オブジェクトキー部位であるか否かを判断する。即ち、当該キーポイントラベル付け結果に、当該キーポイントに対応するオブジェクトキー部位のラベル付け位置が存在するか否かを判断する。Yesの場合、サーバは当該キーポイントに対応する訓練予測位置と、キーポイントラベル付け結果における当該キーポイントに対応するオブジェクトキー部位のラベル付け位置との差異に基づいて、当該キーポイントに対応する損失項を構築するとともに、当該損失項に0より大きい第1の損失重み(例えば1)を設定する。Noの場合、サーバは当該キーポイントに対応する訓練予測位置および所定の参照ラベル付け位置(ランダムに設定してよい)に基づいて、当該キーポイントに対応する損失項を構築するとともに、当該損失項に0に等しい第2の損失重みを設定する。そして、サーバは訓練キーポイント検出結果における、各キーポイントのそれぞれに対応する損失項およびそれに対応する損失重みに基づいて、標的損失関数を構築する。
【0078】
標的損失関数構築の具体的な数式を式(1)に示す。
【数1】
【0079】
【0080】
任意選択として、標的訓練画像が標的ビデオにおけるビデオフレームである場合、サーバは時系列の連続性に着眼して第1の参照損失関数を構築して、上記標的損失関数および当該第1の参照損失関数に基づいて、標的オブジェクトキーポイント検出モデルを共同で訓練することもできる。
【0081】
即ち、サーバは標的ビデオにおける標的訓練画像と隣り合うビデオフレームを参照訓練画像に決定するとともに、当該参照訓練画像に対応する訓練キーポイント検出結果を取得する。ここで参照訓練画像に対応する訓練キーポイント検出結果とは、標的オブジェクトキーポイント検出モデルで当該参照訓練画像に対してオブジェクトキーポイント検出処理を行って得たものであり、当該参照訓練画像内の複数のオブジェクトキー部位のそれぞれに対応するキーポイントの訓練予測位置が含まれている。そして、サーバは標的訓練画像および参照訓練画像のそれぞれに対応する訓練キーポイント検出結果に基づいて、第1の参照損失関数を構築することができる。
【0082】
実際の運用において、ビデオの隣り合うビデオフレーム間では大きな差異は存在しないはずである。これは隣り合うビデオフレームにおける要検出オブジェクト上のオブジェクトキー部位の変化の度合いも大きくないことを意味している。これに基づいて、本願実施例ではフレーム間の連続性を拘束するための第1の参照損失関数を革新的に設計した。即ち、標的オブジェクトキーポイント検出モデルによる、隣り合う2つのビデオフレームに対する訓練キーポイント検出結果に基づいて、標的オブジェクトキーポイント検出モデルを補助訓練するための第1の参照損失関数を構築して、当該第1の参照損失関数によりフレーム間のオブジェクトキー部位の位置の変化度合いが大きくなりすぎないよう拘束する。
【0083】
具体的に実現する場合、サーバは各オブジェクトキー部位について、標的訓練画像内の当該オブジェクトキー部位に対応するキーポイントの訓練予測位置を特定して第3の位置とし、参照訓練画像内の当該オブジェクトキー部位に対応するキーポイントの訓練予測位置を特定して第4の位置とすることができる。そして、第3の位置と第4の位置との距離に基づいて、当該オブジェクトキー部位に対応する損失項を構築し、当該損失項に対応する損失重みを設定する。さらに、サーバは各オブジェクトキー部位のそれぞれに対応する損失項と、それに対応する損失重みに基づいて、当該第1の参照損失関数を構築することができる。
【0084】
例示的に、各オブジェクトキー部位について、サーバは、標的訓練画像に対応する訓練キーポイント予測結果における、当該オブジェクトキー部位に対応するキーポイントの予測位置を特定して第3の位置とし、参照訓練画像に対応する訓練キーポイント予測結果における、当該オブジェクトキー部位に対応するキーポイントの予測位置を特定して第4の位置とする。次に、サーバは当該第3の位置と当該第4の位置との距離を計算し、当該距離に基づいて当該オブジェクトキー部位に対応する損失項を構築するとともに、当該距離に基づいて当該損失項に対応する損失重みを決定する。例えば、当該距離が第3の所定距離(例えば、各位置に対して正規化処理を行った場合、当該第3の所定距離は0.1とすることができる)より小さい場合、当該損失項に対応する損失重みを0に決定し、当該距離が第3の所定距離より小さくない場合、当該損失項に対応する損失重みを1に決定することができる。もちろん、当該距離が第3の所定距離より小さい場合と第3の所定距離より小さくない場合の2つの場合に対して、サーバはしかるべきその他の損失重みを設定してもよく、第3の所定距離より小さい場合に設定する損失重みが、第3の所定距離より小さくない場合に設定する損失重みよりも小さいことさえ確保されればよい。そして、サーバは各オブジェクトキー部位のそれぞれに対応する損失項および損失重みに基づいて、当該第1の参照損失関数を構築する。
【0085】
第1の参照損失関数構築の具体的な数式を式(2)に示す。
【数2】
【0086】
【0087】
このように、上記方法でフレーム間の連続性を拘束するための第1の参照損失関数を導入することにより、訓練される標的オブジェクトキーポイント検出モデルが速やかに収斂することに寄与し、モデル訓練効率を高めるとともに、訓練される標的オブジェクトキーポイント検出モデルのモデル性能も向上させることができる。
【0088】
任意選択として、本願実施例はさらに、知識蒸留の概念を標的オブジェクトキーポイント検出モデルの訓練プロセスに導入して、訓練される標的オブジェクトキーポイント検出モデルのモデル性能をより一層向上させることができる。知識蒸留とは、複雑モデル(教師モデルとも称する)で学習した知識を利用して単純モデル(生徒モデルとも称する)を指導するモデル訓練方式であり、複雑モデルに相当する性能を単純モデルに持たせるとともに、当該単純モデルのパラメータ数を複雑モデルのパラメータ数よりも大幅に減少させ、これによりモデルの圧縮と加速を実現することを意図している。
【0089】
即ち、サーバは、いずれかの参照オブジェクトキーポイント検出により標的訓練画像を処理した場合に生成される第1の中間処理結果と、標的オブジェクトキーポイント検出モデルで標的訓練画像を処理した場合に生成される第2の中間処理結果とを取得することができる。さらに、当該第1の中間処理結果および当該第2の中間処理結果に基づいて、第2の参照損失関数を構築する。
【0090】
例示的に、サーバはm個の参照オブジェクトキーポイント検出モデルから、訓練される標的オブジェクトキーポイント検出モデルのモデル構造に近い参照オブジェクトキーポイント検出モデルを選択し、教師モデルとする。そして、当該教師モデルで標的訓練画像を処理して生成された中間処理結果を取得し、第1の中間処理結果とする。例えば、当該教師モデルで標的訓練画像を処理したとき、そのうちのいずれかの特徴抽出層で標的訓練画像から抽出された特徴を取得して、第1の中間処理結果とする。サーバは標的オブジェクトキーポイント検出モデルを利用して当該標的訓練画像を処理した場合、当該標的オブジェクトキーポイント検出モデルで当該標的訓練画像を処理して生成された中間処理結果を取得して、第2の中間処理結果とすることができる。例えば、当該標的オブジェクトキーポイント検出モデルで標的訓練画像を処理したとき、そのうちのいずれかの特徴抽出層で標的訓練画像から抽出された特徴を取得して、第2の中間結果とする。補足説明すると、ここで取得される第1の中間処理結果と第2の中間処理結果は、同じ次元数を有していなければならない。また、同一の処理段階から得たものでなければならない。例えば、第1の中間処理結果と第2の中間処理結果は、それぞれ参照オブジェクトキーポイント検出モデルと標的オブジェクトキーポイント検出モデルの符号化段階で得られたものであり、および/または、第1の中間処理結果と第2の中間処理結果は、それぞれ参照オブジェクトキーポイント検出モデルと標的オブジェクトキーポイント検出モデルの復号段階で得られたものである。本願実施例はここで第1の中間処理結果および第2の中間処理結果に対してなんら限定しない。
【0091】
サーバは、第1の中間処理結果および第2の中間処理結果を取得した後、第1の中間処理結果と第2の中間処理結果との差異に基づいて、第2の参照損失関数を構築することができる。当該第2の参照損失関数で標的オブジェクトキーポイント検出モデルを訓練する場合、当該第2の損失関数の最小化を訓練目標として、訓練する必要がある標的オブジェクトキーポイント検出モデルのモデルパラメータを調整する。
【0092】
このように、上記方法により、知識蒸留の概念に基づいて構築した第2の参照損失関数を導入して、モデル性能が優れた参照オブジェクトキーポイント検出モデルを利用して標的オブジェクトキーポイント検出モデルの訓練を指導することにより、標的オブジェクトキーポイント検出モデルのモデル性能の向上に寄与するとともに、訓練される標的オブジェクトキーポイント検出モデルを速やかに収斂させ、モデル訓練効率を向上させることに寄与する。
【0093】
ステップ2043:前記標的損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調整する。
【0094】
サーバは、ステップ2042により、標的オブジェクトキーポイント検出モデルを訓練するための標的損失関数を構築したあと、当該標的損失関数の最小化を訓練目標として、標的オブジェクトキーポイント検出モデルのモデルパラメータを調整して、当該標的オブジェクトキーポイント検出モデルの収斂を促す。
【0095】
なお、サーバがさらにフレーム間の連続性を拘束するための第1の参照損失関数を導入している場合、サーバは標的損失関数および当該第1の参照損失関数に基づいて、当該標的オブジェクトキーポイント検出モデルのモデルパラメータを調整できる。
【0096】
具体的には、サーバは下の式(3)により、標的損失関数および第1の参照損失関数に基づいて、モデル訓練段階の総損失関数を構築することができる。
L=Lmse+λ・Lconsistency ……(3)
【0097】
但し、Lはモデル訓練段階の総損失関数であり、Lmseは標的損失関数であり、Lconsistencyは第1の参照損失関数であり、λは予め第1の参照損失関数に設定された重みである。
【0098】
さらに、当該総損失関数の最小化を訓練目標として、標的オブジェクトキーポイント検出モデルのモデルパラメータを調整することにより、当該標的オブジェクトキーポイント検出モデルの収斂を促す。
【0099】
なお、サーバがさらに知識蒸留の概念に基づいて構築された第2の参照損失関数を導入している場合、サーバは標的損失関数および当該第2の参照損失関数に基づいて、当該標的オブジェクトキーポイント検出モデルのモデルパラメータを調整できる。
【0100】
具体的には、サーバは上述の標的損失関数および第1の参照損失関数に基づいて総損失関数を構築する方法と類似した方法を用いて、標的損失関数および当該第2の参照損失関数に基づいて、モデル訓練段階の総損失関数を構築することができる。さらに、当該総損失関数の最小化を訓練目標として、標的オブジェクトキーポイント検出モデルのモデルパラメータを調整することにより、当該標的オブジェクトキーポイント検出モデルの収斂を促す。
【0101】
なお、サーバが上記第1の参照損失関数および第2の参照損失関数を同時に導入している場合、サーバは標的損失関数と第1の参照損失関数と第2の参照損失関数とに基づいて、当該標的オブジェクトキーポイント検出モデルのモデルパラメータを調整できる。即ち、サーバは第1の参照損失関数および第2の参照損失関数にそれぞれ対応する重みを設定し、さらに、標的損失関数と、第1の参照損失関数およびそれに対応する重みと、第2の参照損失関数およびそれに対応する重みとに基づいて、モデル訓練段階の総損失関数を構築する。そして、当該総損失関数の最小化を訓練モデルとして、標的オブジェクトキーポイント検出モデルのモデルパラメータを調整して、当該標的オブジェクトキーポイント検出モデルの収斂を促す。
【0102】
サーバは異なる標的訓練画像に基づいて上記ステップ2041~ステップ2043を繰り返し実行して、当該標的オブジェクトキーポイント検出モデルがモデル訓練終了条件を満たすまで、標的オブジェクトキーポイント検出モデルに対する反復訓練を実現する。このとき訓練で得られた標的オブジェクトキーポイント検出モデルが、実際使用することができる標的オブジェクトキーポイント検出モデルとなる。ここで訓練終了条件とは、例えば訓練された標的オブジェクトキーポイント検出モデルのモデル性能が、所定条件(例えば標的オブジェクトキーポイント検出モデルの検出正確率が所定の正確率閾値に達したなど)を満たすことであってよい。また例えば、標的オブジェクトキーポイント検出モデルのモデル性能が、それ以上顕著に向上しない(例えばテストサンプルセットを利用して、数サイクル訓練された標的オブジェクトキーポイント検出モデルをそれぞれテストし、数サイクル訓練された標的オブジェクトキーポイント検出モデルの検出正確性の差異が所定の差異閾値より小さいと判定されるなど)ことであってもよい。さらに、例えば標的オブジェクトキーポイント検出モデルの反復訓練回数が所定回数に達したことであってもよい。本願はここで当該訓練終了条件に対してなんら限定しない。
【0103】
上記モデル訓練方法により、実際使用する予定の標的オブジェクトキーポイント検出モデルを訓練するための訓練サンプルを生成するとき、構造が複雑な複数の参照オブジェクトキーポイント検出モデルによって、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、複数のキーポイント検出結果を得る。次に、各キーポイント検出結果における同一オブジェクトキー部位の予測位置が、基本的に一致していなければならないという原理に基づいて、各オブジェクトキー部位について、各キーポイント検出結果における当該オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、各参照オブジェクトキーポイント検出モデルの、当該オブジェクトキー部位に対する位置予測結果が信頼できるか否かを評価する。即ち当該オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定する。各参照オブジェクトキーポイント検出モデルの、当該オブジェクトキー部位に対する位置予測結果が信頼できると判定された場合、さらに、当該標的オブジェクトキー部位に対応するラベル付け位置、即ち擬似ラベルを決定する。そして、当該標的訓練画像と、その中の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置とを利用して、訓練サンプルを構成する。このように、位置予測結果が信頼できないオブジェクトキー部位を無視して、位置予測結果が信頼できるオブジェクトキー部位に対応するラベル付け位置のみを利用して擬似ラベルとするので、決定した擬似ラベルに存在するノイズを有効に減少させ、当該擬似ラベルの正確性を向上させることができる。したがって、このような擬似ラベルを含む訓練サンプルに基づいて、実際使用する予定の、構造が比較的シンプルな標的オブジェクトキーポイント検出モデルを訓練すれば、訓練された標的オブジェクトキーポイント検出モデルの性能をある程度保証することができる。
【0104】
本願実施例で提供するモデル訓練方法がより一層理解されやすいよう、以下では当該モデル訓練方法により、体感ゲームにおいてプレイヤーの姿勢を検出するための人体キーポイント検出モデルを訓練する場合を例として、当該モデル訓練方法を全面的且つ例示的に説明する。
【0105】
体感ゲームとは、身体を使って体験するゲームを指し、従来の単にコントローラーボタンで入力する操作方式をブレイクスルーして、肢体の動作の変化を通じて操作する、一種の新型電子ゲームである。体感ゲームを進めるプロセスにおいて、カメラはプレイヤーの肢体を含む画像を撮影し、撮影した画像をバックグラウンドのゲームサーバへ伝送する。ゲームサーバは、人体キーポイント検出モデルにより、画像内のプレイヤーの骨格の重要関節点の位置を検出して、これに基づいてプレイヤーがしている肢体動作を認識し、対応するゲームロジックを実行する。図5は上記体感ゲームの全体的インプリメントアーキテクチャ図である。
【0106】
【0107】
本願実施例で提供する技術案に係るコアモジュールは、主に2つある。1つは擬似ラベル生成ネットワークで、既存の構造が複雑で高性能な複数の人体キーポイント検出モデルを使って、無ラベルのビデオにおけるビデオフレームに対して人体キーポイント検出処理を行い、各人体キーポイント検出モデルそれぞれの検出結果に基づいて、当該ビデオフレームに対応する擬似ラベルを生成し、それを後続のモデル訓練プロセスに使用する。もう1つはフレーム間連続性拘束損失関数であり、ビデオフレーム間の人物の動作変化の度合いは大きくないはずだという前提条件に基づいて、フレーム間連続性損失関数を設計し、モデルが教師なし学習を実現できるようにする。
【0108】
続いて、上記2つのコアモジュールについてそれぞれ詳細に説明する。
【0109】
図6に示すように、擬似ラベル生成ネットワークは人体キーポイント予測モジュールと、予測結果統合モジュールとを含む。
【0110】
【0111】
予測結果統合モジュールは、以下のステップによってm個の予測結果の統合を完了するために用いられる。統合のプロセスにおいて、本願実施例は予測結果に対して空間次元および時間次元においてそれぞれ厳密なフィルタリング処理を行うことで、生成される擬似ラベルがより高い正確性を有することを保証する。具体的な統合方法は以下のとおりである。
【0112】
【0113】
【0114】
【0115】
(4)上記の空間次元および時間次元のフィルタリング処理を経ることで、正確性が高い擬似ラベルを得ることができる。しかし上記処理によって、多くの無視される人体部位が存在することになる。これら人体部位は実際には存在しており、本願では人体キーポイント検出モデルのそれらに対する検出結果が信頼できないと見なしたので、後続のモデル訓練プロセスに投入しないだけである。もしそのままMSE損失関数に基づいてモデル訓練を行うと、これらキーポイントが実際に存在していないと誤認して誤った誤差逆伝播を招き、訓練される人体キーポイント検出モデルの性能に影響するおそれがある。この問題を解決するため、本願実施例では重み付けしたMSE損失関数を設計し、擬似ラベル内の当該人体部位が無視された場合、当該人体部位に対応する損失項の損失重みを0とする。このようにすることで誤った逆伝播を防ぐことができる。本願実施例で提案する重み付けしたMSE損失関数は下式のとおりである。
【0116】
【数3】
【0117】
【0118】
また、本願実施例では1つのビデオの前後に隣り合う2つのビデオフレーム間に大きな変化による差異が存在しないこと、即ち隣り合うビデオフレーム内の人体部位の変化の度合いは大きくないことを見出した。この知見に基づいて、本願はさらに人体キーポイント検出モデルの教師なし学習を実現するための、フレーム間の連続性の拘束関数を設計することで、当該人体キーポイント検出モデルがビデオに対して予測するときにフレーム間のキーポイント座標の跳躍幅が大きくなりすぎないことを保証する。当該損失関数は具体的には下式のとおりである。
【0119】
【数4】
【0120】
【0121】
以上をまとめると、本願実施例で提供するスキームの訓練段階全体の損失関数は下式のとおりである。
L=Lmse+λ・Lconsistency
【0122】
但し、λは予めLconsistencyに設定された重みである。
【0123】
そして、サーバは当該損失関数Lに基づいて、訓練する必要がある人体キーポイント検出モデルを訓練する。
【0124】
COCO-wholebody人体キーポイント検出公開テストセットを利用して、上記方法で訓練された人体キーポイント検出モデルをテストしたところ、全クラス平均適合率(mean Average Precision,mAP)の指標は0.457から0.521に上昇した。
【0125】
本願発明者はさらに、体感ゲームに現在応用されている人体キーポイント検出モデルと上記方法で訓練された人体キーポイント検出モデルとの比較試験を行った。比較試験の結果は図7に示すとおりである。(a)は本願実施例で提供するスキームで訓練された人体キーポイント検出モデルによって特定された検出結果であり、(b)は従来の人体キーポイント検出モデルによって特定された検出結果である。比較したところ、(a)は(b)よりも正確であり、(a)の左右の足に対応するキーポイントは位置が逆になっていないが、(b)の左右の足に対応するキーポイントは位置が逆になっていることがわかった。
【0126】
なお、本願実施例で提供するモデル訓練方法は、体感ゲームのシーンの応用される人体キーポイント検出モデルを訓練するために用いることができるだけでなく、その他のシーンのオブジェクトキーポイント検出モデルを訓練するために用いることができる。例えばビデオ撮影のシーンで人体または動物に特殊効果を加えるための機能は、オブジェクトキーポイント検出モデルで画像内のオブジェクトのキーポイントを検出する必要があることが多い。本願実施例で提供するスキームは、このようなシーンでのオブジェクトキーポイント検出モデルを訓練するためにも使用できる。ここでは本願実施例で提供するスキームが適用される応用シーンについてなんら限定しない。
【0127】
なお、本願の具体的な実施形態におけるユーザ情報(例えばカメラで撮影した画像)などに関わるデータは、本願の上記実施例が具体的製品または技術で運用される場合、ユーザの許可または同意を得る必要があり、さらに関連データの収集、使用および処理については、関連国または地域の関連法律法規および規準を遵守しなければならない。
【0128】
以上で説明したモデル訓練方法について、上記モデル訓練方法が実際に応用および実現されるよう、本願はさらに対応するモデル訓練装置を提供する。
【0129】
図8を参照されたい。図8は上記の図2に示すモデル訓練方法に対応するモデル訓練装置800の構造模式図である。図8に示すように、当該モデル訓練装置800はキーポイント検出モジュール801と、部位ラベル付けモジュール802と、サンプル生成モジュール803と、モデル訓練モジュール804とを含む。キーポイント検出モジュール801は、m個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記m個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得るために用いられる。前記キーポイント検出結果には、前記標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている。前記mは1より大きい整数である。部位ラベル付けモジュール802は、各前記オブジェクトキー部位について、前記m個のキーポイント検出結果における、前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、Yesの場合、前記m個のキーポイント検出結果における、前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定するために用いられる。サンプル生成モジュール803は、前記標的訓練画像と、それに対応するキーポイントラベル付け結果とを、訓練サンプルとするために用いられる。前記キーポイントラベル付け結果には、各前記標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれている。モデル訓練モジュール804は、前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練するために用いられる。
【0130】
任意選択として、図8に示すモデル訓練装置を土台として、前記部位ラベル付けモジュール802は具体的に、前記m個のキーポイント検出結果における、前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応する参照位置を決定し、各前記キーポイント検出結果について、前記オブジェクトキー部位に対応するキーポイントの予測位置と前記オブジェクトキー部位に対応する参照位置との距離を特定し、前記距離に基づいて、前記キーポイント検出結果が前記オブジェクトキー部位に対応する標的キーポイント検出結果に属しているか否かを判定し、前記m個のキーポイント検出結果における、前記オブジェクトキー部位に対応する標的キーポイント検出結果の標的数を集計し、前記標的数が所定数を超えている場合、前記オブジェクトキー部位が標的オブジェクトキー部位であると判定し、前記標的数が前記所定数を超えていない場合、前記オブジェクトキー部位は無効オブジェクトキー部位であると判定するために用いられる。
【0131】
任意選択として、図8に示すモデル訓練装置を土台として、前記部位ラベル付けモジュール802は具体的に、前記標的オブジェクトキー部位に対応する各標的キーポイント検出結果について、前記標的オブジェクトキー部位に対応するキーポイントの予測位置を特定して、前記標的オブジェクトキー部位に対応する標的予測位置とし、前記標的オブジェクトキー部位に対応する各標的予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定するために用いられる。
【0132】
任意選択として、図8に示すモデル訓練装置を土台として、図9を参照されたい。図9は本願実施例で提供する別のモデル訓練装置900の構造模式図である。図9に示すように、前記標的訓練画像が標的ビデオにおけるビデオフレームである場合、前記装置はさらに、参照データ取得モジュール901と、ラベル付け結果スクリーニングモジュール902とを含む。参照データ取得モジュール901は、前記標的ビデオにおける前記標的訓練画像と隣り合うビデオフレームを特定して参照訓練画像とし、前記参照訓練画像に対応するキーポイントラベル付け結果を取得するために用いられる。ラベル付け結果スクリーニングモジュール902は、各前記標的オブジェクトキー部位について、前記標的訓練画像に対応するキーポイントラベル付け結果におけるラベル付け位置を特定して第1の位置とし、前記参照訓練画像に対応するキーポイントラベル付け結果におけるラベル付け位置を特定して第2の位置とし、前記第1の位置と前記第2の位置との距離に基づいて、前記標的訓練画像に対応するキーポイントラベル付け結果における、前記第1の位置を保持するか否かと、前記参照訓練画像に対応するキーポイントラベル付け結果における、前記第2の位置を保持するか否かを決定するために用いられる。
【0133】
任意選択として、図8に示すモデル訓練装置を土台として、前記キーポイント検出モジュール801は具体的に、各前記参照オブジェクトキーポイント検出モデルについて、前記参照オブジェクトキーポイント検出モデルによって前記標的訓練画像に対してオブジェクトキーポイント検出処理を行うことで、前記標的訓練画像内の各ピクセルが前記オブジェクトキー部位に属している信頼度を特定し、前記標的訓練画像内の、前記オブジェクトキー部位に属している信頼度が所定の信頼度閾値よりも高いピクセルに基づいて、前記参照オブジェクトキーポイント検出モデルに対応するキーポイント検出結果を特定するために用いられる。
【0134】
任意選択として、図8に示すモデル訓練装置を土台として、図10を参照されたい。図10は本願実施例で提供する別のモデル訓練装置1000の構造模式図である。図10に示すように、前記モデル訓練モジュール804は、キーポイント検出サブモジュール1001と、損失関数構築サブモジュール1002と、パラメータ調整サブモジュール1003とを含む。キーポイント検出サブモジュール1001は、前記標的オブジェクトキーポイント検出モデルにより、前記訓練サンプルにおける前記標的訓練画像に対してオブジェクトキーポイント検出処理を行って、前記標的訓練画像に対応する訓練キーポイント検出結果を得るために用いられる。前記訓練キーポイント検出結果には複数のオブジェクトキー部位のそれぞれに対応するキーポイントの訓練予測位置が含まれている。損失関数構築サブモジュール1002は、前記標的訓練画像に対応する訓練キーポイント検出結果と、前記訓練サンプルにおける前記キーポイントラベル付け結果とに基づいて、標的損失関数を構築するために用いられる。パラメータ調整サブモジュール1003は、前記標的損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調整するために用いられる。
【0135】
任意選択として、図10に示すモデル訓練装置を土台として、前記損失関数構築サブモジュール1002は具体的に、前記訓練キーポイント検出結果における各キーポイントについて、前記キーポイントに対応するオブジェクトキー部位が、前記キーポイントラベル付け結果における標的オブジェクトキー部位であるか否かを判定し、Yesの場合、前記キーポイントに対応する訓練予測位置および前記キーポイントに対応する標的オブジェクトキー部位のラベル付け位置に基づいて、前記キーポイントに対応する損失項を構築するとともに、前記キーポイントに対応する損失項に、対応する第1の損失重みを設定し、Noの場合、前記キーポイントに対応する訓練予測位置に基づいて、前記キーポイントに対応する損失項を構築するとともに、前記キーポイントに対応する損失項に、対応する第2の損失重みを設定し、前記訓練キーポイント検出結果における各キーポイントのそれぞれに対応する損失項と、それに対応する損失重みとに基づいて、前記標的損失関数を構築するために用いられる。第1の損失重みは0より大きく、第2の損失重みは0に等しい。
【0136】
任意選択として、図10に示すモデル訓練装置を土台として、前記損失関数構築サブモジュール1002はさらに、前記標的ビデオにおける前記標的訓練画像と隣り合うビデオフレームを特定して参照訓練画像とし、前記参照訓練画像に対応する訓練キーポイント検出結果を取得し、前記標的訓練画像および前記参照訓練画像のそれぞれに対応する訓練キーポイント検出結果に基づいて、第1の参照損失関数を構築するために用いられ、前記パラメータ調整サブモジュール1003は具体的に、前記標的損失関数および前記第1の参照損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調整するために用いられる。
【0137】
任意選択として、前記損失関数構築サブモジュール1002は具体的に、各前記オブジェクトキー部位について、前記標的訓練画像内の前記オブジェクトキー部位に対応するキーポイントの訓練予測位置を特定して第3の位置とし、前記参照訓練画像内の前記オブジェクトキー部位に対応するキーポイントの訓練予測位置を特定して第4の位置とし、前記第3の位置と前記第4の位置との距離に基づいて、前記オブジェクトキー部位に対応する損失項を構築し、前記損失項に対応する損失重みを設定し、各前記オブジェクトキー部位のそれぞれに対応する損失項と、それに対応する損失重みに基づいて、前記第1の参照損失関数を構築するために用いられる。
【0138】
任意選択として、図10に示すモデル訓練装置を土台として、前記損失関数構築サブモジュール1002はさらに、前記参照オブジェクトキーポイント検出モデルで前記標的訓練画像を処理した場合に生成される第1の中間処理結果と、前記標的オブジェクトキーポイント検出モデルで前記標的訓練画像を処理した場合に生成される第2の中間処理結果とを取得して、前記第1の中間処理結果および前記第2の中間処理結果に基づいて、第2の参照損失関数を構築するために用いられ、前記パラメータ調整サブモジュール1003は具体的に、前記標的損失関数および前記第2の参照損失関数に基づいて、前記標的オブジェクトキーポイント検出モデルのモデルパラメータを調整するために用いられる。
【0139】
上記モデル訓練装置により実際使用する予定の標的オブジェクトキーポイント検出モデルを訓練するための訓練サンプルを生成するとき、複数の構造が複雑な参照オブジェクトキーポイント検出モデルによって、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、複数のキーポイント検出結果を得る。次に、各キーポイント検出結果における同一オブジェクトキー部位の予測位置が、基本的に一致していなければならないという原理に基づいて、各オブジェクトキー部位について、各キーポイント検出結果における当該オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、各参照オブジェクトキーポイント検出モデルの、当該オブジェクトキー部位に対する位置予測結果が信頼できるか否かを評価する。即ち当該オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定する。各参照オブジェクトキーポイント検出モデルの、当該オブジェクトキー部位に対する位置予測結果が信頼できると判定された場合、さらに、当該標的オブジェクトキー部位に対応するラベル付け位置、即ち擬似ラベルを決定する。そして、当該標的訓練画像と、その中の各標的オブジェクトキー部位のそれぞれに対応するラベル付け位置とを利用して、訓練サンプルを構成する。このように、位置予測結果が信頼できないオブジェクトキー部位を無視して、位置予測結果が信頼できるオブジェクトキー部位に対応するラベル付け位置のみを利用して擬似ラベルとするので、決定した擬似ラベルに存在するノイズを有効に減少させ、当該擬似ラベルの正確性を向上させることができる。したがって、このような擬似ラベルを含む訓練サンプルに基づいて、実際使用する予定の、構造が比較的シンプルな標的オブジェクトキーポイント検出モデルを訓練すれば、訓練された標的オブジェクトキーポイント検出モデルの性能をある程度保証することができる。
【0140】
本願実施例はさらにモデルを訓練するためのコンピュータ機器を提供する。当該コンピュータ機器は具体的には端末機器またはサーバであってよい。以下ではハードウェアの実体化に着眼して、本願実施例で提供する端末機器およびサーバを紹介する。
【0141】
図11を参照されたい。図11は本願実施例で提供する端末機器の構造模式図である。図11に示すように、説明の便宜上、本願実施例と関連する部分のみを示した。記載されていない具体的な技術の詳細は、本願実施例の方法部分を参照されたい。当該端末は携帯電話、タブレットコンピュータ、PDA(Personal Digital Assistant)、販売端末(Point of Sales,POS)、車載コンピュータなど任意の端末機器を含みうるが、端末がコンピュータである場合を例とする。
【0142】
図11は本願実施例で提供する端末に関連するコンピュータの構造の一部のブロック図である。図11に示すように、コンピュータはRF(Radio Frequency)回路1110、メモリ1120、入力ユニット1130(タッチパネル1131およびその他の入力機器1132を含む)、表示ユニット1140(表示パネル1141を含む)、センサ1150、音声回路1160(スピーカ1161およびマイクロフォン1162に接続されてもよい)、WiFi(登録商標)モジュール1170、プロセッサ1180、電源1190などの部材を含む。当業者であれば理解できるように、図11に示したコンピュータの構造はコンピュータを限定するものではなく、図示したよりも多いかまたは少ない部材を含んでもよいし、いずれかの部材を組み合わせてもよいし、部材の配置が異なってもよい。
【0143】
メモリ1120はソフトウェアプログラムおよびモジュールを記憶するために用いられ、プロセッサ1180はメモリ1120に記憶されたソフトウェアプログラムおよびモジュールを実行することにより、コンピュータの各種機能アプリケーションおよびデータ処理を実行する。メモリ1120は主としてプログラム記憶エリアとデータ記憶エリアを含み、プログラム記憶エリアは操作システムや、少なくとも1つの機能に必要なアプリケーションプログラム(例えば音声再生機能、画像再生機能など)等を記憶できる。データ記憶エリアは、コンピュータの使用に応じて生成されたデータ(例えば音声データ、電話帳など)などを記憶できる。また、メモリ1120は高速ランダムアクセスメモリを含んでもよいし、例えば少なくとも1つの磁気ディスク記憶デバイス、フラッシュ記憶デバイスといった不揮発性メモリ、またはその他揮発性のソリッドステート記憶デバイスを含んでもよい。
【0144】
プロセッサ1180はコンピュータのコントロールセンタであり、各種インタフェースおよび回線を介してコンピュータ全体の各部分と接続され、メモリ1120内に記憶されたソフトウェアプログラムおよび/またはモジュールを動作させるか実行させること、およびメモリ1120内に記憶されたデータを呼び出してコンピュータの各種機能および処理データを実行することにより、コンピュータに対する全体的監督を行う。任意選択として、プロセッサ1180は1つまたは複数の処理ユニットを含みうる。プロセッサ1180はアプリケーションプロセッサおよび変調/復調プロセッサと統合可能であることが好ましい。アプリケーションプロセッサは主として操作システム、ユーザインタフェース、アプリケーションプログラムなどを処理し、変調/復調プロセッサは主として無線通信を処理する。尚、上記変調/復調プロセッサはプロセッサ1180に統合されなくてもよい。
【0145】
本願実施例において、当該端末が含むプロセッサ1180は、さらに以下の機能を有する。m(mは1より大きい整数)個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記m個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得る。前記キーポイント検出結果には前記標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている。各前記オブジェクトキー部位について、前記m個のキーポイント検出結果における前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、Yesの場合、前記m個のキーポイント検出結果における前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定する。前記標的訓練画像と、それに対応する、各前記標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれているキーポイントラベル付け結果とを、訓練サンプルとする。前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練する。
【0146】
任意選択として、前記プロセッサ1180はさらに本願実施例で提供するモデル訓練方法の任意の一実現形態のステップを実行するために用いられる。
【0147】
図12を参照されたい。図12は本願実施例で提供するサーバ1200の構造模式図である。当該サーバ1200は設定または性能の違いにより比較的大きな差異が生じるが、1つまたは複数のCPU(central processing units)1222(例えば,1つまたは複数のプロセッサ)およびメモリ1232を含み、1つまたは複数の、アプリケーションプログラム1242またはデータ1244を記憶した記憶媒体1230(例えば1つまたは複数のマスストレージ機器)を含むことができる。メモリ1232および記憶媒体123は一時的メモリでもよいし非一時的メモリでもよい。記憶媒体1230のプログラムは、1つまたは複数のモジュール(図示せず)を含み、各モジュールはサーバ内の一連の指令操作を含む。さらに、CPU1222は記憶媒体1230と通信して、サーバ1200上で記憶媒体1230における一連の指令操作を実行するように構成されている。
【0148】
サーバ1200はさらに1つまたは複数の電源1226、1つまたは複数の有線または無線ネットワークインタフェース1250、1つまたは複数の入出力インタフェース1258、および/または、1つまたは複数のオペレーションシステム、例えばWindows Server(登録商標)、Mac OS X(登録商標),Unix(登録商標), Linux(登録商標),FreeBSD(登録商標)などを含むことができる。
【0149】
上記実施例における、サーバによって実行されるステップは、当該図12に示すサーバ構造に基づいている。CPU 1222は以下のステップを実行するために用いられる。
【0150】
m(mは1より大きい整数)個の参照オブジェクトキーポイント検出モデルにより、標的訓練画像に対してそれぞれオブジェクトキーポイント検出処理を行って、前記m個の参照オブジェクトキーポイント検出モデルのそれぞれに対応するキーポイント検出結果を得るステップであって、前記キーポイント検出結果には前記標的訓練画像における複数のオブジェクトキー部位のそれぞれに対応するキーポイントの予測位置が含まれている、ステップと、各前記オブジェクトキー部位について、前記m個のキーポイント検出結果における前記オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記オブジェクトキー部位が標的オブジェクトキー部位であるか否かを判定し、Yesの場合、前記m個のキーポイント検出結果における前記標的オブジェクトキー部位に対応するキーポイントの予測位置に基づいて、前記標的オブジェクトキー部位に対応するラベル付け位置を決定するステップと、前記標的訓練画像と、それに対応する、各前記標的オブジェクトキー部位のそれぞれに対応するラベル付け位置が含まれているキーポイントラベル付け結果とを、訓練サンプルとするステップと、前記訓練サンプルに基づいて、標的オブジェクトキーポイント検出モデルを訓練するステップと、を含む。
【0151】
任意選択として、CPU1222はさらに本願実施例で提供するモデル訓練方法の任意の一実現形態のステップを実行するために用いられる。
【0152】
本願実施例はさらに、コンピュータプログラムを記憶するためのコンピュータ可読記憶媒体を提供する。当該コンピュータプログラムは上記の各実施例に記載のモデル訓練方法のうちのいずれか1つの実施形態を実行するために用いられる。
【0153】
本願実施例はさらに、コンピュータ可読記憶媒体に記憶されたコンピュータ指令を含む、コンピュータプログラム製品またはコンピュータプログラムを提供する。コンピュータ機器のプロセッサが、コンピュータ可読記憶媒体から当該コンピュータ指令を読み取り、プロセッサが当該コンピュータ指令を実行することにより、当該コンピュータ機器に上記の各実施例に記載のモデル訓練方法のうちのいずれか1つの実施形態を実行させる。
【0154】
当業者であれば理解されることであるが、説明がわかりやすく簡潔になるよう、上記で説明したシステム、装置およびユニットの具体的動作プロセスは前述の方法実施例における対応するプロセスを参考にできるので、ここでは繰り返して説明しない。
【0155】
本願が提供するいくつかの実施例において開示された、システム、装置および方法は、その他の形態によって実現できることは理解されよう。例えば、上記の装置の実施例は例示的なものにすぎず、例えば前記ユニットの区分は、一種の論理機能の区分にすぎず、実際に具現化する場合は別の区分方法もありうる。例えば、複数のユニットやアセンブリを結合したり、あるいは別のシステムに統合したりしてもよいし、または一部の特徴を省略したり、実行しなくてもよい。なお、明示した、または論じた相互間の結合、直接結合または通信接続は、なんらかのインタフェース、装置、あるいはユニットを介した間接結合または通信接続であってもよいし、電気的、機械的、またはその他の形態であってもよい。
【0156】
前記の分離した部材として説明したユニットは、物理的に分離していてもよいし、そうでなくてもよい。ユニットとして示した部材は、物理的なユニットでもよいしそうでなくてもよく、一か所に位置してもよいし、複数のネットワークユニットに分散していてもよい。実際の必要に応じて一部またはすべてのユニットを選択して本実施例のスキームの目的を実現することができる。
【0157】
また、本願の各実施例における各機能ユニットは、1つの処理ユニットに集積されていてもよいし、各ユニットが物理的に独立して存在してもよいし、2つまたは2つ以上のユニットが1つのユニットに集積されていてもよい。上記集積されたユニットは、ハードウェアの形式で実現してもよいしソフトウェア機能ユニットの形式で実現してもよい。
【0158】
前記集積されたユニットは、ソフトウェア機能ユニットの形式で実現され、独立した製品として販売または使用される場合、1つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解に基づけば、本願の技術案の本質、言うなれば従来技術に貢献する部分か、または当該技術案のすべてもしくは一部は、ソフトウェア製品の形で体現されうる。当該コンピュータソフトウェア製品は1つの記憶媒体に記憶され、1台のコンピュータ機器(パーソナルコンピュータ、サーバ、またはネットワーク機器などでありうる)に本願の各実施例に記載の方法の全部または一部のステップを実行させるための、いくつかの指令を含んでいる。前述の記憶媒体は、USB、モバイルハードディスク、ROM(Read-Only Memory)、RAM(Random Access Memory)、磁気ディスクまたは光ディスクなど、コンピュータプログラムを記憶可能な各種の媒体を含む。
【0159】
なお、本願における「少なくとも1つ(項)」とは1つまたは複数を指し、「複数の」は2つまたは2つ以上を指す。「および/または」とは、関連する対象の関連関係を示すために用いられ、3種類の関係が存在することを表し、例えば「Aおよび/またはB」は、Aのみ存在する状況、Bのみ存在する状況、AとBが同時に存在する状況の3種類の状況を示している。但しAとBは、単数でも複数でもよい。記号「/」は一般的に、前後に関連付けられた対象が「または」の関係にあることを示している。「以下の少なくとも1項(個)」またはその類似表現は、これらの項における任意の組合せを指し、単一項(個)または複数項(個)の任意の組合せを含む。例えば,「a、b、またはcのうちの少なくとも1項(個)」は、a、b、c、aとb、aとc、bとc、または、aとbとcを表す。但し、a、b、cは単独でも複数であってもよい。
【0160】
上記のように、上記の実施例は、本願の技術案を説明するためのものであり、限定するためのものではない。上記の実施例を参照して本願を詳細に説明したが、当業者であれば、上記各実施例に記載された技術スキームを修正したり、或いはそのうちの一部の技術特徴の均等な置換を行うことが可能であると理解できよう。しかしこれらの修正または置換は、対応する技術案の本質を、本願の各実施例の技術案の主旨および範囲から逸脱させるものではない。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
【手続補正書】
【提出日】2024-04-02
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】請求項13
【補正方法】変更
【補正の内容】
【請求項13】
プロセッサと、メモリとを含み、
前記メモリはコンピュータプログラムを記憶するために用いられ、
前記プロセッサは前記コンピュータプログラムに基づいて、請求項1~のいずれか一項に記載のモデル訓練方法を実行するために用いられる、
コンピュータ機器。
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】請求項14
【補正方法】変更
【補正の内容】
【請求項14】
コンピュータプログラムを記憶するために用いられるコンピュータ可読記憶媒体であって、前記コンピュータプログラムは請求項1~のいずれか一項に記載のモデル訓練方法を実行するために用いられる、
コンピュータ可読記憶媒体。
【手続補正3】
【補正対象書類名】特許請求の範囲
【補正対象項目名】請求項15
【補正方法】変更
【補正の内容】
【請求項15】
コンピュータに、
請求項1~のいずれか一項に記載のモデル訓練方法を実行させるための
コンピュータプログラム。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0054
【補正方法】変更
【補正の内容】
【0054】
例示的に、ある標的オブジェクトキー部位について、サーバは当該標的オブジェクトキー部位に対応する各標的キーポイント検出結果における当該標的オブジェクトキー部位に対応するキーポイントの予測位置を取得して、当該標的オブジェクトキー部位に対応する標的予測位置とすることができる。さらに、サーバは当該標的オブジェクトキー部位に対応する各標的予測位置の平均値を計算して、当該標的オブジェクトキー部位に対応するラベル付け位置とすることができる。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0069
【補正方法】変更
【補正の内容】
【0069】
選択可能な一実現形態において、サーバは図4に示すフローに基づいて、標的オブジェクトキーポイント検出モデルに対する訓練を実現する。図4に示すように、サーバは標的オブジェクトキーポイント検出モデルを訓練する場合、具体的には以下のステップを実行する必要がある。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0091
【補正方法】変更
【補正の内容】
【0091】
サーバは、第1の中間処理結果および第2の中間処理結果を取得した後、第1の中間処理結果と第2の中間処理結果との差異に基づいて、第2の参照損失関数を構築することができる。当該第2の参照損失関数で標的オブジェクトキーポイント検出モデルを訓練する場合、当該第2の参照損失関数の最小化を訓練目標として、訓練する必要がある標的オブジェクトキーポイント検出モデルのモデルパラメータを調整する。
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0101
【補正方法】変更
【補正の内容】
【0101】
なお、サーバが上記第1の参照損失関数および第2の参照損失関数を同時に導入している場合、サーバは標的損失関数と第1の参照損失関数と第2の参照損失関数とに基づいて、当該標的オブジェクトキーポイント検出モデルのモデルパラメータを調整できる。即ち、サーバは第1の参照損失関数および第2の参照損失関数にそれぞれ対応する重みを設定し、さらに、標的損失関数と、第1の参照損失関数およびそれに対応する重みと、第2の参照損失関数およびそれに対応する重みとに基づいて、モデル訓練段階の総損失関数を構築する。そして、当該総損失関数の最小化を訓練目標として、標的オブジェクトキーポイント検出モデルのモデルパラメータを調整して、当該標的オブジェクトキーポイント検出モデルの収斂を促す。
【手続補正9】
【補正対象書類名】明細書
【補正対象項目名】0110
【補正方法】変更
【補正の内容】
【0110】
【手続補正10】
【補正対象書類名】明細書
【補正対象項目名】0113
【補正方法】変更
【補正の内容】
【0113】
【国際調査報告】