(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-10-26
(54)【発明の名称】モデル訓練方法、人体姿勢検出方法、装置、デバイスおよび記憶媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20231019BHJP
G06V 10/82 20220101ALI20231019BHJP
G06N 3/0464 20230101ALI20231019BHJP
G06N 3/09 20230101ALI20231019BHJP
【FI】
G06T7/00 350C
G06V10/82
G06T7/00 660B
G06N3/0464
G06N3/09
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023523270
(86)(22)【出願日】2021-10-26
(85)【翻訳文提出日】2023-04-17
(86)【国際出願番号】 CN2021126275
(87)【国際公開番号】W WO2022089391
(87)【国際公開日】2022-05-05
(31)【優先権主張番号】202011176560.4
(32)【優先日】2020-10-28
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】320010240
【氏名又は名称】ビゴ テクノロジー ピーティーイー. リミテッド
【住所又は居所原語表記】30 PASIR PANJANG ROAD,#15-31A,MAPLETREE BUSINESS CITY,SINGAPORE 117440
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】▲賈▼ 森
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA02
5L096DA01
5L096FA09
5L096FA67
5L096FA69
5L096GA30
5L096HA11
5L096KA04
(57)【要約】
モデル訓練方法、人体姿勢検出方法、装置、デバイスおよび媒体を開示する。当該モデル訓練方法は、現在の反復に対応する画像訓練サンプルを現在の姿勢検出ネットワークモデルに入力し、画像訓練サンプルのデータ形式に基づいて、現在の反復に対応する第1の損失関数を得ることと、得られたカメラパラメータに基づいて、姿勢検出ネットワークモデルの現在の出力結果に対して再投影処理を行い、再投影処理の結果に基づいて、現在の反復に対応する第2の損失関数を得ることと、第1の損失関数および第2の損失関数によって形成されたフィッティング損失関数に基づいて、姿勢検出ネットワークモデルを逆伝播し、次の反復のための姿勢検出ネットワークモデルを得ることと、を含む。
【特許請求の範囲】
【請求項1】
現在の反復に対応する画像訓練サンプルを現在の姿勢検出ネットワークモデルに入力し、前記画像訓練サンプルのデータ形式に基づいて、前記現在の反復に対応する第1の損失関数を得ることと、
得られたカメラパラメータに基づいて、前記姿勢検出ネットワークモデルの現在の出力結果に対して再投影処理を行い、再投影処理の結果に基づいて、前記現在の反復に対応する第2の損失関数を得ることと、
前記第1の損失関数および前記第2の損失関数によって形成されたフィッティング損失関数に基づいて、前記姿勢検出ネットワークモデルを逆伝播し、次の反復のための姿勢検出ネットワークモデルを得て、反復終了条件を満たすまで次の反復に入ることにより、姿勢検出ネットワークモデルに対する訓練を実現することと、
を含む、
モデル訓練方法。
【請求項2】
前記姿勢検出ネットワークモデルは、完全畳み込みネットワークの構造を用いて構築されたヒートマップ回帰ネットワークモデルであり、
画像訓練サンプルのデータ形式は、自然シーンサンプル画像-キーポイント2次元座標のラベル形式、または制約シーンサンプル画像-キーポイント2次元座標およびキーポイント3次元座標のラベル形式である、
請求項1に記載の方法。
【請求項3】
前記前記画像訓練サンプルのデータ形式に基づいて、前記現在の反復に対応する第1の損失関数を得ることは、
前記画像訓練サンプルのデータ形式が自然シーンサンプル画像-キーポイント2次元座標のラベル形式である場合、前記姿勢検出ネットワークモデルの現在の出力結果から第1の現在確率ヒートマップを抽出することと、
予め確定された第1の標準確率ヒートマップを取得し、前記第1の標準確率ヒートマップと前記第1の現在確率ヒートマップに基づいて、前記現在の反復に対応する第1の損失関数を得ることと、
を含み、
ここで、前記第1の標準確率ヒートマップは、前記画像訓練サンプルにおけるキーポイント2次元座標に対する変換によって確定される、
請求項2に記載の方法。
【請求項4】
前記前記第1の標準確率ヒートマップと前記第1の現在確率ヒートマップに基づいて、 前記現在の反復に対応する第1の損失関数を得ることは、
前記第1の標準確率ヒートマップに対応するデータと前記第1の現在確率ヒートマップに対応するデータの第1の差分式を確定することと、
前記第1の差分式に基づいて形成されたユークリッドノルムの第1の二乗式を、前記現在の反復に対応する第1の損失関数として確定することと、
を含む、
請求項3に記載の方法。
【請求項5】
前記前記画像訓練サンプルのデータ形式に基づいて、前記現在の反復に対応する第1の損失関数を得ることは、
前記画像訓練サンプルのデータ形式が制約シーンサンプル画像-キーポイント2次元座標およびキーポイント3次元座標のラベル形式である場合、前記姿勢検出ネットワークモデルから出力された現在ヒートマップ集合を取得し、ここで、前記現在ヒートマップ集合は、一枚の第2の現在確率ヒートマップ及び現在3次元座標ヒートマップ群を含むことと、
予め確定された標準ヒートマップ集合を取得し、前記標準ヒートマップ集合と前記現在ヒートマップ集合に基づいて、前記現在の反復に対応する第1の損失関数を得ることと、
を含み、
ここで、前記標準ヒートマップ集合は、前記画像訓練サンプルにおけるキーポイント3次元座標に対する変換によって確定され、前記標準ヒートマップ集合は、一枚の第2の標準確率ヒートマップ及び標準3次元座標ヒートマップ群を含む、
請求項2に記載の方法。
【請求項6】
前記前記標準ヒートマップ集合と前記現在ヒートマップ集合に基づいて、前記現在の反復に対応する第1の損失関数を得ることは、
前記第2の標準確率ヒートマップに対応するデータと前記第2の現在確率ヒートマップに対応するデータの第2の差分式を確定することと、
前記標準3次元座標ヒートマップ群に対応するデータと前記現在3次元座標ヒートマップ群に対応するデータの第3の差分式を確定することと、
前記第2の差分式に基づいてユークリッドノルムの第2の二乗式を形成し、前記第3の差分式に基づいてユークリッドノルムの第3の二乗式を形成することと、
前記第2の二乗式と前記第3の二乗式とを加算して、前記現在の反復に対応する第1の損失関数を構成することと、
を含む、
請求項5に記載の方法。
【請求項7】
前記得られたカメラパラメータに基づいて、前記姿勢検出ネットワークモデルの現在の出力結果に対して再投影処理を行うことは、
前記画像訓練サンプルに含まれるカメラパラメータを取得し、または、前記画像訓練サンプルに対応して前記姿勢検出ネットワークモデルの1つの出力ブランチから出力されたカメラパラメータを取得することと、
前記姿勢検出ネットワークモデルの現在の出力結果から現在3次元横座標ヒートマップ及び現在3次元縦座標ヒートマップを抽出することと、
前記カメラパラメータ、前記現在3次元横座標ヒートマップ及び前記現在3次元縦座標ヒートマップに基づいて、設定された再投影の公式を組み合わせて、前記画像訓練サンプルにおけるキーポイントの現在2次元横座標ヒートマップ及び現在2次元縦座標ヒートマップを確定することと、
前記現在2次元横座標ヒートマップ及び現在2次元縦座標ヒートマップにより形成された現在2次元横座標ヒートマップ群を前記再投影処理の結果とすることと、
を含む、
請求項1に記載の方法。
【請求項8】
前記再投影処理の結果に基づいて、前記現在の反復に対応する第2の損失関数を得ることは、
予め確定された標準2次元座標ヒートマップ群を取得し、ここで、前記標準2次元座標ヒートマップ群は、前記画像訓練サンプルにおけるキーポイント2次元座標またはキーポイント3次元座標に対する変換によって確定され、標準2次元横座標ヒートマップ及び標準2次元縦座標ヒートマップを含むことと、
前記標準2次元座標ヒートマップ群に対応するデータと前記現在2次元横座標ヒートマップ群に対応するデータの第4の差分式を確定することと、
前記第4の差分式に基づいて形成されたユークリッドノルムの第4の二乗式を、前記現在の反復に対応する第2の損失関数として確定することと、
を含む、
請求項7に記載の方法。
【請求項9】
前記フィッティング損失関数は、前記第1の損失関数と前記第2の損失関数との和である、請求項1から8のいずれか1項に記載の方法。
【請求項10】
前記画像訓練サンプルにおけるサンプル画像は、単眼カメラによりキャプチャされた単眼画像である、請求項1から8のいずれか1項に記載の方法。
【請求項11】
検出すべき人物実景画像を取得することと、
前記人物実景画像をプリセット姿勢検出ネットワークモデルに入力し、ここで、前記プリセット姿勢検出ネットワークモデルは、請求項1から10のいずれか1項に記載の方法で訓練することにより得られることと、
前記プリセット姿勢検出ネットワークモデルの出力結果に基づいて、前記人物実景画像の人物に対して人体姿勢検出を行うことにより、前記人物の複数のキーポイントの3次元空間位置座標を取得することと、
を含む、
人体姿勢検出方法。
【請求項12】
前記出力結果には、複数のキーポイントの確率ヒートマップ及び3次元座標ヒートマップ群が含まれ、
前記前記プリセット姿勢検出ネットワークモデルの出力結果に基づいて、前記人物実景画像の人物に対して人体姿勢検出を行うことにより、前記人物の複数のキーポイントの3次元空間位置座標を取得することは、
各キーポイントに対して、前記確率ヒートマップから最大確率値に対応する確率座標点を確定し、前記確率座標点の現在位置座標を取得することと、
前記3次元座標図群に含まれる3次元横座標ヒートマップ、3次元縦座標ヒートマップ及び3次元奥行座標ヒートマップのそれぞれにおいて、前記現在位置座標に対応する数値を探すことと、
探された数値に基づいて、前記各キーポイントの3次元空間位置座標を構成することと、
を含む、
請求項11に記載の方法。
【請求項13】
前記人物実景画像における人物の複数のキーポイントの3次元空間位置座標に基づいて、前記人物実景画像を対応する人物カートゥーン画像に変換することをさらに含む、
請求項11または12に記載の方法。
【請求項14】
現在の反復に対応する画像訓練サンプルを現在の姿勢検出ネットワークモデルに入力し、前記画像訓練サンプルのデータ形式に基づいて、前記現在の反復に対応する第1の損失関数を得るように構成される第1の情報確定モジュールと、
得られたカメラパラメータに基づいて、前記姿勢検出ネットワークモデルの現在の出力結果に対して再投影処理を行い、再投影処理の結果に基づいて、前記現在の反復に対応する第2の損失関数を得るように構成される第2の情報確定モジュールと、
前記第1の損失関数および前記第2の損失関数によって形成されたフィッティング損失関数に基づいて、前記姿勢検出ネットワークモデルを逆伝播し、次の反復のための姿勢検出ネットワークモデルを得て、反復終了条件を満たすまで次の反復に入ることにより、姿勢検出ネットワークモデルに対する訓練を実現するように構成されるモデル訓練モジュールと、
を含む、
モデル訓練装置。
【請求項15】
検出すべき人物実景画像を取得するように構成される情報取得モジュールと、
前記人物実景画像をプリセット姿勢検出ネットワークモデルに入力するように構成され、ここで、前記プリセット姿勢検出ネットワークモデルは、請求項1から10のいずれか1項に記載の方法で訓練することにより得られる情報入力モジュールと、
前記プリセット姿勢検出ネットワークモデルの出力結果に基づいて、前記人物実景画像の人物に対して人体姿勢検出を行うことにより、前記人物の複数のキーポイントの3次元空間位置座標を取得するように構成される情報確定モジュールと、
を含む、
人体姿勢検出装置。
【請求項16】
メモリ、プロセッサ、および前記メモリに記憶され且つ前記プロセッサ上で実行可能なコンピュータプログラムを含み、ここで、前記プロセッサが前記コンピュータプログラムを実行するとき、請求項1から13のいずれか1項に記載の方法を実現する、コンピュータデバイス。
【請求項17】
コンピュータプログラムが記憶され、ここで、前記プログラムがプロセッサによって実行されるとき、請求項1から13のいずれか1項に記載の方法を実現する、コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連する出願の援用
本出願は、2020年10月28日に中国特許庁に提出された出願番号202011176560.4の中国特許出願の優先権を主張し、その全ての内容は参照により本出願に援用する。
【0002】
本出願は、空間位置検出技術の分野に関し、例えばモデル訓練方法、人体姿勢検出方法、装置、デバイスおよび媒体に関するものである。
【背景技術】
【0003】
人工知能技術の急速な発展に伴い、人工ニューラルネットワークは、広く応用されている。人工ニューラルネットワークは、ニューラルネットワークとも呼ばれ、脳神経のシナプス結合の構造をシミュレーションして情報処理を行うモデルである。3次元空間位置検出の分野では、ニューラルネットワーク技術を用いて、人体3次元姿勢検出のための姿勢推定ニューラルネットワークモデルを構築することができる。
【0004】
人体3次元姿勢の検出を研究することは、コンピュータビジョンの分野において重要な問題となっている。このような技術は、コンピュータが人間の行動を理解するための基礎と考えられる。ヒューマン・コンピュータ・インタラクション、映画・テレビの特効、インタラクティブエンタテインメントなどの分野で広範な応用の将来性がある。一般的に、人体姿勢検出は、人体を含む画像から人体キーポイントを検出し、人体キーポイントの3次元空間位置座標を取得することに相当する。
【0005】
しかしながら、人体3次元姿勢を検出するための姿勢検出ニューラルネットワークモデルには、次のような問題がある。即ち、問題1として、業界で有効な自然シーン3次元人体ラベル手段が不足しているため、高品質の制約なしシーンラベルデータが不足している。問題2として、モデルは、収束するのが困難である問題を持って、したがって、姿勢検出ニューラルネットワークモデルに基づいて自然シーンにおける人体3次元姿勢の正確な検出を実現することができない。
【発明の概要】
【課題を解決するための手段】
【0006】
本出願は、モデル訓練方法、人体姿勢検出方法、装置、デバイスおよび媒体を提供し、人体姿勢検出に必要なネットワークモデルの有効な訓練を実現し、人体姿勢検出結果の精度を保証した。
【0007】
本出願は、現在の反復に対応する画像訓練サンプルを現在の姿勢検出ネットワークモデルに入力し、前記画像訓練サンプルのデータ形式に基づいて、前記現在の反復に対応する第1の損失関数を得ることと、
得られたカメラパラメータに基づいて、前記姿勢検出ネットワークモデルの現在の出力結果に対して再投影処理を行い、再投影処理の結果に基づいて、前記現在の反復に対応する第2の損失関数を得ることと、
前記第1の損失関数および前記第2の損失関数によって形成されたフィッティング損失関数に基づいて、前記姿勢検出ネットワークモデルを逆伝播し、次の反復のための姿勢検出ネットワークモデルを得て、反復終了条件を満たすまで次の反復に入ることにより、姿勢検出ネットワークモデルに対する訓練を実現することと、
を含む、
モデル訓練方法に関する。
【0008】
本出願は、検出すべき人物実景画像を取得することと、
前記人物実景画像をプリセット姿勢検出ネットワークモデルに入力し、ここで、前記プリセット姿勢検出ネットワークモデルは、上記実施例による方法で訓練することにより得られることと、
前記プリセット姿勢検出ネットワークモデルの出力結果に基づいて、前記人物実景画像の人物に対して人体姿勢検出を行うことにより、前記人物の複数のキーポイントの3次元空間位置座標を取得することと、
を含む、
人体姿勢検出方法に関する。
【0009】
本出願は、現在の反復に対応する画像訓練サンプルを現在の姿勢検出ネットワークモデルに入力し、前記画像訓練サンプルのデータ形式に基づいて、前記現在の反復に対応する第1の損失関数を得るように構成される第1の情報確定モジュールと、
得られたカメラパラメータに基づいて、前記姿勢検出ネットワークモデルの現在の出力結果に対して再投影処理を行い、再投影処理の結果に基づいて、前記現在の反復に対応する第2の損失関数を得るように構成される第2の情報確定モジュールと、
前記第1の損失関数および前記第2の損失関数によって形成されたフィッティング損失関数に基づいて、前記姿勢検出ネットワークモデルを逆伝播し、次の反復のための姿勢検出ネットワークモデルを得て、反復終了条件を満たすまで次の反復に入ることにより、姿勢検出ネットワークモデルに対する訓練を実現するように構成されるモデル訓練モジュールと、
を含む、
モデル訓練装置に関する。
【0010】
本出願は、検出すべき人物実景画像を取得するように構成される情報取得モジュールと、
前記人物実景画像をプリセット姿勢検出ネットワークモデルに入力するように構成され、ここで、前記プリセット姿勢検出ネットワークモデルは、請求項1から10のいずれか1項に記載の方法で訓練することにより得られる情報入力モジュールと、
前記プリセット姿勢検出ネットワークモデルの出力結果に基づいて、前記人物実景画像の人物に対して人体姿勢検出を行うことにより、前記人物の複数のキーポイントの3次元空間位置座標を取得するように構成される情報確定モジュールと、
を含む、
人体姿勢検出装置に関する。
【0011】
本出願は、メモリ、プロセッサ、およびメモリに記憶され且つプロセッサ上で実行可能なコンピュータプログラムを含み、前記プロセッサが前記コンピュータプログラムを実行するとき、上記方法を実現するコンピュータデバイスに関する。
【0012】
本出願は、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行されるとき、上記方法を実現するコンピュータ可読記憶媒体に関する。
【図面の簡単な説明】
【0013】
【
図1】本出願の実施例1によるモデル訓練方法のフローチャートである。
【
図2】本出願の実施例2によるモデル訓練方法のフローチャートである。
【
図2a】本出願の実施例2による姿勢検出ネットワークモデルを訓練するための構造の概略図である。
【
図3】本出願の実施例3による人体姿勢検出方法のフローチャートである。
【
図4】本出願の実施例4によるモデル訓練装置の構成のブロック図である。
【
図5】本出願の実施例5による人体姿勢検出装置の構成のブロック図である。
【
図6】本出願の実施例6によるコンピュータデバイスの構成のブロック図である。
【発明を実施するための形態】
【0014】
以下、図面と実施例を参照して本出願を説明する。本明細書で説明される具体的な実施例は、本出願を説明するためにのみ使用される。説明を容易にするために、図面には本出願に関連するもののみが示されている。
【0015】
例示的な実施例を議論する前に言及すべきは、いくつかの例示的な実施例がフローチャートとして描かれる処理または方法として記述されていることである。フローチャートでは、複数のステップが逐次的な処理として説明されるが、その多くが並列的に、同期的に、または同時に実行されてもよい。また、複数のステップの順序を再配置することができる。処理は、その動作が完了すると終了されてもよいが、図面に含まれない追加のステップを有してもよい。前記処理は、方法、関数、規程、サブルーチン、サブプログラムなどに対応することができる。
【0016】
実施例1
図1は、本出願の実施例1によるモデル訓練方法のフローチャートであり、当該方法は、モデル訓練装置によって実行されてもよく、ここで、当該装置は、ソフトウェアおよび/またはハードウェアによって実現されることができ、一般的にコンピュータデバイスに統合される。
【0017】
人体姿勢検出に用いられるニューラルネットワークモデルでは、座標回帰ネットワークモデルとヒートマップ回帰ネットワークモデルが、よく見られる2種類のネットワークモデルであり、座標回帰ネットワークモデルの場合、当該モデルの構造は、通常、畳み込みネットワークのフロントエンドと完全接続ネットワークのバックエンドで構成され、当該ネットワークモデルによる人体姿勢検出では、人体キーポイントの3次元座標を直接に出力することができるが、このようなネットワークモデルの欠点が以下の通りであり、即ち、収束が困難であり、自然シーンでの3次元ラベルデータを取得しにくいという問題もあり、ヒートマップ回帰ネットワークモデルの場合、このようなモデルの構造は、通常、完全畳み込みネットワークのみで構成され、出力結果は、人体キーポイントの座標ヒートマップであり、この後、ヒートマップを解析することによりキーポイントの3次元座標を得る必要があり、このようなネットワークモデルの欠点が以下の通りであり、即ち、訓練サンプルに対する要求が高く、制約なしシーンでの2次元ラベルデータの利用が困難であり、同様に、自然シーンでの3次元ラベルデータを取得しにくいという問題もあり、この結果、当該ネットワークを実際のシーンに適用することが困難である。そこで、本出願の実施例では、以下のモデル訓練方法を提供し、即ち、ヒートマップ回帰ネットワークのネットワーク構造を利用し、画像領域における再投影及び容易に取得できる画像訓練サンプルにより、上記ネットワークモデル訓練に存在する問題を効果的に解決することができる。
【0018】
図1に示されたように、本実施例1によるモデル訓練方法は、以下のステップを含む。
【0019】
S101では、現在の反復に対応する画像訓練サンプルを現在の姿勢検出ネットワークモデルに入力し、前記画像訓練サンプルのデータ形式に基づいて、前記現在の反復に対応する第1の損失関数を得る。
【0020】
本実施例では、画像訓練サンプルは、予め収集された「サンプル画像-座標ラベル」のデータペアであり、ここで、サンプル画像は、単眼カメラによりキャプチャされた人物を含む単眼画像であってもよく、座標ラベルは、サンプル画像に含まれる人物のキーポイント座標であってもよく、当該キーポイント座標は、サンプル画像におけるキーポイントの2次元平面座標であってもよい。サンプル画像が制約シーンで収集された特定の画像である場合、当該キーポイント座標は、当該制約シーンでキーポイントが備える3次元空間座標であってもよい。
【0021】
単眼カメラは、一般的な画像収集デバイスであり、応用範囲が広く、入手しやすいという特徴を備え、当該単眼カメラのみで本実施例の画像訓練サンプルにおけるサンプル画像を取得することが可能であり、本実施例の訓練に必要なデータの構築が容易で、収集が容易であることをよりよく体現している。
【0022】
同時に、前記現在の反復は、モデル訓練中の反復動作のうちの1つを実現するものとして理解することができ、本実施例では、モデルの反復訓練において、モデル訓練を行う動作ステップは、各反復において同じであると考えられる。
【0023】
本ステップでは、現在の反復に入った後、モデル訓練に参加する画像訓練サンプルを選択し、当該画像訓練サンプルは、予め収集された訓練サンプルセットから選択されることができる。この後、選択された画像訓練サンプルを、現在の反復で訓練を必要とする姿勢検出ネットワークモデルに入力することができ、ここで、本実施例で用いられる姿勢検出ネットワークモデルは、完全畳み込みネットワークの構造を用いて構築されたヒートマップ回帰ネットワークモデルであってもよい。姿勢検出ネットワークモデルは、入力された画像訓練サンプルを処理することができ、同時に、当該画像訓練サンプルのデータ形式に基づいて、当該現在の反復でモデル訓練を行うために必要な第1の損失関数を取得することができる。
【0024】
本実施例における画像訓練サンプルのデータ形式は、自然シーンサンプル画像-キーポイント2次元座標のラベル形式、または制約シーンサンプル画像-キーポイント2次元座標およびキーポイント3次元座標のラベル形式であってもよい。即ち、1つは、サンプル画像が自然シーンで収集され、対応するラベルがキーポイント2次元座標であり、もう1つは、サンプル画像が制約シーンで収集され、対応するラベルがキーポイント2次元ラベル及びキーポイント3次元座標である。
【0025】
異なるデータ形式を備える画像訓練サンプルに含まれるデータ情報は異なり、本実施例では、画像訓練サンプルに含まれるデータ情報により、どのような第1の損失関数を用いて後続の訓練を行うかを決定することができる。例示的には、画像訓練サンプルにキーポイント2次元座標のみが含まれている場合、キーポイント2次元座標に対応するデータ情報をネットワークモデルの出力結果と組み合わせて、第1の損失関数を形成することしか考えられず、このとき取得した第1の損失関数によって逆学習に参加する場合、姿勢検出ネットワークモデルが自然シーンに備わる画像特徴を効果的に学習できることが保証される。
【0026】
また例えば、画像訓練サンプルにキーポイント3次元座標も含まれている場合、キーポイント2次元座標及びキーポイント3次元座標に対応するデータ情報をネットワークモデルの出力結果と組み合わせて、第1の損失関数を形成することが考えられる。このとき取得した第1の損失関数によってモデルの逆学習に参加する場合、姿勢検出ネットワークモデルが正確な3次元姿勢予測能力を効果的に学習できることが保証される。
【0027】
S102では、得られたカメラパラメータに基づいて、前記姿勢検出ネットワークモデルの現在の出力結果に対して再投影処理を行い、再投影処理の結果に基づいて、前記現在の反復に対応する第2の損失関数を得る。
【0028】
本実施例では、姿勢検出ネットワークモデルの訓練に対して、複数の損失関数を組み合わせて、特性を全面的に訓練する効果を達成することができる。したがって、上記S101で第1の損失関数を確定した後、本実施例ではさらにS102で第2の損失関数を確定する必要がある。
【0029】
当該姿勢検出ネットワークモデルにより画像訓練サンプルを処理すると、現在の出力結果を取得することができ、当該現在の出力結果には、各キーポイントに対して3次元空間座標を確定するのに必要なヒートマップ群が含まれ、本ステップでは、画像訓練サンプルにおけるサンプル画像の収集の依拠になるカメラパラメータにより、現在の出力結果を2次元空間に再投影することができ、これにより、2次元空間でキーポイントが備えるヒートマップ群を取得することができる。
【0030】
本ステップでは現在の出力結果に対して再投影処理を行なった後の再投影処理の結果を、当該画像訓練サンプルにおけるサンプル画像の2次元空間で対応する標準数値セットと組み合わせて、現在の反復における第2の損失関数を取得することができる。ここで、サンプル画像の2次元空間で対応する標準数値セットに対して、画像訓練サンプルのデータ形式がキーポイント3次元座標のラベルであると仮定すると、まずキーポイント3次元座標の再投影を行ってからヒートマップ変換を行うことにより取得することができ、画像訓練サンプルのデータ形式がキーポイント2次元座標のラベルであると仮定すると、キーポイント2次元座標のヒートマップ変換を直接に行うことができる。
【0031】
S103では、前記第1の損失関数および前記第2の損失関数によって形成されたフィッティング損失関数に基づいて、前記姿勢検出ネットワークモデルを逆伝播し、次の反復のための姿勢検出ネットワークモデルを得て、反復終了条件を満たすまで次の反復を新たな現在の反復としてS101に戻る。
【0032】
本実施例では、第1の損失関数および第2の損失関数を直接に統合してフィッティング損失関数を形成することができ、本実施形態は、フィッティング損失関数を前記第1の損失関数と前記第2の損失関数との和として確定する統合形態を採用することができる。
【0033】
ニューラルネットワークモデルの訓練では、逆伝播法は、ネットワークの出力が目標と一致するまで、ネットワークの重み(フィルタとも呼ばれる)を絶えず更新して調整することができ、勾配を効果的に計算する方法である。本出願の実施例では、現在の反復に対応するフィッティング損失関数を確定した後、当該フィッティング損失関数を用いて現在採用された姿勢検出ネットワークモデルを逆伝播すると、ネットワークの重みが調整された後の姿勢検出ネットワークモデルを得ることができ、当該調整後の姿勢検出ネットワークモデルは、次の反復におけるモデルの訓練に用いられることができる。本出願の実施例は、逆伝播のプロセスを限定するものではなく、状況に応じて設定されることができる。
【0034】
上記S101からS103の実行後、1回の反復におけるモデル訓練が完了したことに相当し、この場合、現在の反復の後に反復終了条件を満たしたか否かを判定することができ、反復終了条件を満たしていない場合、次の反復を新たな現在の反復として、再び上記S101に戻って実行することができ、反復終了条件を満たす場合、モデル訓練が完了したことに相当し、本実施例によるモデル訓練方法を終了することができる。ここで、反復終了条件とは、サンプルセットにおける画像訓練サンプルの全てがモデル訓練に参加することであってもよく、または、現在の反復において訓練された後のネットワークモデルと前回の反復において訓練された後のネットワークモデルのネットワークの重みの変化が合理的な誤差範囲内にあることであってもよい。
【0035】
本出願の実施例1によるモデル訓練方法は、画像訓練サンプルを特定することなく、2次元ラベルが施された自然シーン画像、または2次元ラベル及び3次元ラベルが施された制約シーン画像だけでモデル訓練を行うことができ、訓練サンプルの収集の難易度を下げ、訓練データと実際の適用シーンとの領域差異を減少させ、ネットワーク訓練の実現を保証した。同時に、従来の座標領域における再投影処理に比べて、上記技術案は、簡単かつ効果的に画像領域における再投影を実現し、画像領域においてモデル訓練全体を完了し、モデル訓練の安定と迅速な収束に有利である。このように訓練されたモデルを用いて人体姿勢検出を行う場合、人物画像における人物キーポイントの3次元空間座標をより正確に検出することができ、人体3次元姿勢検出の精度を効果的に向上させることができる。
【0036】
実施例2
図2は、本出願の実施例2によるモデル訓練方法のフローチャートであり、本実施例2では、上記実施例をもとに説明し、本実施例では、前記画像訓練サンプルのデータ形式に基づいて、前記現在の反復に対応する第1の損失関数を得ることは、前記姿勢検出ネットワークモデルの現在の出力結果から第1の現在確率ヒートマップを抽出することと、予め確定された第1の標準確率ヒートマップを取得し、前記第1の標準確率ヒートマップと前記第1の現在確率ヒートマップに基づいて、前記現在の反復に対応する第1の損失関数を得ることと、を含み、ここで、前記第1の標準確率ヒートマップは、前記画像訓練サンプルにおけるキーポイント2次元座標に対する変換によって確定される。
【0037】
または、前記画像訓練サンプルのデータ形式に基づいて、前記現在の反復に対応する第1の損失関数を得ることは、前記画像訓練サンプルのデータ形式が制約シーンサンプル画像-キーポイント2次元座標およびキーポイント3次元座標のラベル形式である場合、前記姿勢検出ネットワークモデルから出力された現在ヒートマップ集合を取得し、ここで、現在ヒートマップ集合は、一枚の第2の現在確率ヒートマップ及び現在3次元座標ヒートマップ群を含むことと、予め確定された標準ヒートマップ集合を取得し、前記標準ヒートマップ集合と前記現在ヒートマップ集合に基づいて、前記現在の反復に対応する第1の損失関数を得ることと、を含み、ここで、前記標準ヒートマップ集合は、前記画像訓練サンプルにおけるキーポイント3次元座標に対する変換によって確定され、前記標準ヒートマップ集合は、一枚の第2の標準確率ヒートマップ及び標準3次元座標ヒートマップ群を含む。
【0038】
同時に、本実施例では、得られたカメラパラメータに基づいて、前記姿勢検出ネットワークモデルの現在の出力結果に対して再投影処理を行うことは、前記画像訓練サンプルに含まれるカメラパラメータを取得し、または、前記画像訓練サンプルに対応して前記姿勢検出ネットワークモデルの1つの出力ブランチから出力されたカメラパラメータを取得することと、前記姿勢検出ネットワークモデルの現在の出力結果から現在3次元横座標ヒートマップ及び現在3次元縦座標ヒートマップを抽出することと、前記カメラパラメータ、現在3次元横座標ヒートマップ及び現在3次元縦座標ヒートマップに基づいて、設定された再投影の公式を組み合わせて、前記画像訓練サンプルにおけるキーポイントの現在2次元横座標ヒートマップ及び現在2次元縦座標ヒートマップを確定することと、前記現在2次元横座標ヒートマップ及び現在2次元縦座標ヒートマップにより形成された現在2次元横座標ヒートマップ群を再投影処理の結果とすることと、を含む。
【0039】
上記技術案に加えて、本実施例2では、再投影処理の結果に基づいて、前記現在の反復に対応する第2の損失関数を得ることは、予め確定された標準2次元座標ヒートマップ群を取得し、ここで、前記標準2次元座標ヒートマップ群は、前記画像訓練サンプルにおけるキーポイント2次元座標またはキーポイント3次元座標に対する変換によって確定され、標準2次元横座標ヒートマップ及び標準2次元縦座標ヒートマップを含むことと、前記標準2次元座標ヒートマップ群に対応するデータと前記現在2次元横座標ヒートマップ群に対応するデータの第4の差分式を確定することと、前記第4の差分式に基づいて形成されたユークリッドノルムの第4の二乗式を、前記現在の反復に対応する第2の損失関数として確定することと、を含む。
【0040】
図2に示されたように、本出願の実施例2によるモデル訓練方法は、以下の動作を含む。
【0041】
S201では、現在の反復に対応する画像訓練サンプルを現在の姿勢検出ネットワークモデルに入力する。
【0042】
S202では、前記画像訓練サンプルのデータ形式を確定する。
【0043】
本実施例では、画像訓練サンプルに実際に含まれるデータ情報により、当該画像訓練サンプルのデータ形式を確定することができ、例えば、画像訓練サンプルにサンプル画像、キーポイント2次元座標およびキーポイント3次元座標のデータ情報が含まれると仮定すると、画像訓練サンプルのデータ形式が制約シーンサンプル画像-キーポイント2次元座標およびキーポイント3次元座標のラベル形式であると考えられ、また例えば、画像訓練サンプルにサンプル画像及びキーポイント2次元座標のデータ情報のみが含まれると仮定すると、データ形式が自然シーンサンプル画像-キーポイント2次元座標のラベル形式であると考えられる。
【0044】
本実施例の下記S203およびS204では、データ形式が自然シーンサンプル画像-キーポイント2次元座標のラベル形式である場合の第1の損失関数の確定プロセスを提供する。
【0045】
S203では、前記データ形式が自然シーンサンプル画像-キーポイント2次元座標のラベル形式である場合、前記姿勢検出ネットワークモデルの現在の出力結果から第1の現在確率ヒートマップを抽出する。
【0046】
本実施例では、画像訓練サンプルのデータ形式にかかわらず、姿勢検出ネットワークモデルによって取得された現在の出力結果は、各キーポイントに対応するヒートマップ集合であり、対応する当該ヒートマップ集合には、当該キーポイントの確率ヒートマップ及び3次元空間座標を表す3次元座標ヒートマップ群が実際に含まれる。本ステップでは、取得された姿勢検出ネットワークモデルの現在の出力結果から、各キーポイントに対応する確率ヒートマップを抽出し、第1の現在確率ヒートマップと記すことができる。
【0047】
S204では、予め確定された第1の標準確率ヒートマップを取得し、前記第1の標準確率ヒートマップと前記第1の現在確率ヒートマップに基づいて、前記現在の反復に対応する第1の損失関数を得る。
【0048】
本実施例では、前記第1の標準確率ヒートマップは、当該画像訓練サンプル中におけるサンプル画像が本当に備える確率ヒートマップとして考えられ、当該第1の標準確率ヒートマップは、前記画像訓練サンプルにおけるキーポイント2次元座標に対する変換によって確定される。例示的には、キーポイントの2次元座標が既知の場合、座標領域にある当該2次元座標によって、画像領域にある確率ヒートマップを取得することができる。
【0049】
モデル訓練における損失関数の形成は、モデルから出力された結果とマークアップされた実際の結果との比較に依存し、本ステップでは、第1の標準確率ヒートマップと前記第1の現在確率ヒートマップに対応するデータとの比較によって、当該現在の反復に対応する第1の損失関数を取得することができる。
【0050】
本実施例では、前記第1の標準確率ヒートマップと前記第1の現在確率ヒートマップに基づいて、前記現在の反復に対応する第1の損失関数を得ることは、前記第1の標準確率ヒートマップに対応するデータと前記第1の現在確率ヒートマップに対応するデータの第1の差分式を確定することと、前記第1の差分式に基づいて形成されたユークリッドノルムの第1の二乗式を、前記現在の反復に対応する第1の損失関数として確定することと、を含む。
【0051】
本実施例では、各ヒートマップは、含まれる複数の画素点がそれぞれ対応するデータ値を備えるグラフ行列として考えられ、本実施例では、グラフ行列をヒートマップに対応するデータと見なすことができ、これにより、前記第1の標準確率ヒートマップに対応するデータと前記第1の現在確率ヒートマップに対応するデータの第1の差分式を、第1の標準確率ヒートマップに対応するグラフ行列と第1の現在確率ヒートマップに対応するグラフ行列との行列差と見なすことができる。
【0052】
例示的には、
【数1】
が第1の標準確率ヒートマップのグラフ行列を表し、h1が第1の現在確率ヒートマップのグラフ行列を表すと仮定すると、第1の差分式は
【数2】
で表され、
【数3】
は第1の差分式によって形成されるユークリッドノルムを表し、本実施例では、
【数4】
の2乗、即ち
【数5】
を第1の二乗式と見なすことができ、当該第1の二乗式を現在の反復に対応する第1の損失関数と見なすことができるので、当該第1の損失関数が
【数6】
と表されることができる。
【0053】
本実施例の下記S205およびS206では、データ形式が制約シーンサンプル画像-キーポイント2次元座標およびキーポイント3次元座標のラベル形式である場合の第1の損失関数の確定プロセスを提供する。
【0054】
S205では、前記データ形式が制約シーンサンプル画像-キーポイント2次元座標およびキーポイント3次元座標のラベル形式である場合、前記姿勢検出ネットワークモデルから出力された現在ヒートマップ集合を取得する。
【0055】
本実施例では、姿勢検出ネットワークモデルが画像訓練サンプルを処理して取得された現在の出力結果には、各キーポイントに対応するヒートマップ集合が実際に含まれ、本実施例に記載されたヒートマップ集合は、現在ヒートマップ集合である。区別を容易にするために、本ステップでは、キーポイントに対応する現在ヒートマップ集合に含まれた確率ヒートマップを、第2の現在確率ヒートマップと記し、含まれた3次元座標ヒートマップ群を現在3次元座標ヒートマップ群と記す。
【0056】
S206では、予め確定された標準ヒートマップ集合を取得し、前記標準ヒートマップ集合と前記現在ヒートマップ集合に基づいて、前記現在の反復に対応する第1の損失関数を得る。
【0057】
本実施例では、前記標準ヒートマップ集合は、当該画像訓練サンプルにおけるサンプル画像が本当に備えるヒートマップ集合として考えられ、当該標準ヒートマップ集合は、当該画像訓練サンプルに含まれたキーポイント2次元座標及びキーポイント3次元座標に対する変換によって確定され、例示的には、キーポイントの2次元座標が既知の場合、座標領域にある当該2次元座標によって、画像領域にある確率ヒートマップを取得することができ、同時に、キーポイントの3次元座標が既知の場合、座標領域にある当該3次元座標によって、画像領域にある3次元座標の3つの座標方向にそれぞれ対応する座標ヒートマップを取得することができ、3つの座標方向の座標ヒートマップで3次元座標ヒートマップ群を構成する。
【0058】
本実施例では、上記取得された確率ヒートマップを第2のラベル確率ヒートマップと記し、3次元座標ヒートマップ群を標準3次元座標ヒートマップ群と記す。また、3次元座標ヒートマップ群が既知の場合、再投影することにより、当該画像訓練サンプルの2次元座標ヒートマップ群を取得することもできる。
【0059】
同様に、画像訓練サンプルは、上記データ形式で、現在の反復によって確定された第1の損失関数に対応し、同様に画像訓練サンプルの実際の結果と出力された結果との比較にも依存する。例示的には、本ステップでは、第2の標準確率ヒートマップ、及び標準3次元座標ヒートマップ群に対応するデータを、それぞれ、第2の現在確率ヒートマップ及び現在3次元座標ヒートマップ群に対応するデータと比較することによって、当該現在の反復に対応する第1の損失関数を取得することができる。
【0060】
本実施例では、前記標準ヒートマップ集合と前記現在ヒートマップ集合に基づいて、前記現在の反復に対応する第1の損失関数を得ることは、前記第2の標準確率ヒートマップに対応するデータと前記第2の現在確率ヒートマップに対応するデータの第2の差分式を確定することと、前記標準3次元座標ヒートマップ群に対応するデータと前記現在3次元座標ヒートマップ群に対応するデータの第3の差分式を確定することと、前記第2の差分式に基づいてユークリッドノルムの第2の二乗式を形成し、前記第3の差分式に基づいてユークリッドノルムの第3の二乗式を形成することと、前記第2の二乗式と前記第3の二乗式とを加算して、前記現在の反復に対応する第1の損失関数を構成することと、を含む。
【0061】
同様に、本ステップでは、第2の標準確率ヒートマップ、第2の現在確率ヒートマップに対応するデータは、いずれもグラフ行列であり、標準3次元座標ヒートマップ群及び現在3次元座標ヒートマップ群に対応するデータは、それぞれ3つのグラフ行列で構成することができる。
【0062】
例示的には、
【数7】
が第2の標準確率ヒートマップのグラフ行列を表し、h2が第2の現在確率図のグラフ行列を表すと仮定すると、第2の差分式は
【数8】
で表され、
【数9】
が標準3次元座標ヒートマップ群のグラフ行列の集合を表し、P
3dが現在3次元座標ヒートマップ群のグラフ行列の集合を表すと仮定すると、第3の差分式は
【数10】
で表され、同時に、前記第2の差分式に基づいて形成されたユークリッドノルムの第2の二乗式は、
【数11】
で表され、前記第3の差分式に基づいて形成されたユークリッドノルムの第3の二乗式は、
【数12】
で表される。最終的に、
【数13】
で第1の損失関数を表すことができる。
【0063】
本実施例の下記S207からS210では、現在の出力結果に対して再投影処理を行うための実施プロセスを提供する。
【0064】
S207では、前記画像訓練サンプルに含まれるカメラパラメータを取得し、または、前記画像訓練サンプルに対応して前記姿勢検出ネットワークモデルの1つの出力ブランチから出力されたカメラパラメータを取得する。
【0065】
本実施例では、サンプル画像のカメラパラメータは、形成された画像訓練サンプルに直接に含まれてもよく、この場合、本ステップでは、画像訓練サンプルに含まれたカメラパラメータを直接に取得することができる。また、当該カメラパラメータは、画像訓練サンプルに直接に存在しない可能性があるが、姿勢検出ネットワークモデルから別の出力ブランチを追加することができ、当該出力ブランチからモデル処理後に抽出されたカメラパラメータを取得する。
【0066】
S208では、前記姿勢検出ネットワークモデルの現在の出力結果から現在3次元横座標ヒートマップ及び現在3次元縦座標ヒートマップを抽出する。
【0067】
姿勢検出ネットワークモデルがサンプル画像を処理した後の現在の出力結果には、キーポイントに対応する確率ヒートマップ及び3次元座標ヒートマップ群が含まれている。本実施例では、現在の出力結果の3次元座標ヒートマップ群には現在3次元横座標ヒートマップ及び現在3次元縦座標ヒートマップが含まれると考えられる。これにより、本ステップによって、現在の出力結果に含まれる現在3次元横座標ヒートマップ及び現在3次元縦座標ヒートマップを取得することができる。
【0068】
S209では、前記カメラパラメータ、現在3次元横座標ヒートマップ及び現在3次元縦座標ヒートマップに基づいて、設定された再投影の公式を組み合わせて、前記画像訓練サンプルにおけるキーポイントの現在2次元横座標ヒートマップ及び現在2次元縦座標ヒートマップを確定する。
【0069】
本実施例では、前記カメラパラメータは、焦点距離パラメータfx、fy、および主光軸パラメータcx、cyを含み、現在3次元横座標ヒートマップは、対応するグラフ行列P3d(x)で表されることができ、現在3次元横座標ヒートマップは、対応するグラフ行列P3d(y)で表されることができ、前記再投影の公式は、以下のように表されることができ、即ち、
P2d(x)=fx・P3d(x)+cx、P2d(y)=fy・P3d(y)+cy
【0070】
ここで、P2d(x)及びP2d(y)は、それぞれ、前記画像訓練サンプルにおける対応するキーポイントの現在2次元横座標ヒートマップ及び現在2次元縦座標ヒートマップとして表される。
【0071】
S210では、前記現在2次元横座標ヒートマップ及び現在2次元縦座標ヒートマップにより形成された現在2次元横座標ヒートマップ群を再投影処理の結果とする。
【0072】
本ステップでは、上記の現在2次元横座標ヒートマップ及び現在2次元縦座標ヒートマップに基づいて形成された現在2次元横座標ヒートマップ群を再投影処理の重投影処理結果と見なすことができる。
【0073】
本実施例の下記S211からS213では、第2の損失関数の確定プロセスを提供する。
【0074】
S211では、予め確定された標準2次元座標ヒートマップ群を取得する。
【0075】
本実施例では、前記標準2次元座標ヒートマップ群は、前記画像訓練サンプルにおけるキーポイント2次元座標に対する変換によって確定され、標準2次元座標ヒートマップ群に標準2次元横座標ヒートマップ及び標準2次元縦座標ヒートマップが含まれる。
【0076】
S212では、前記標準2次元座標ヒートマップ群に対応するデータと前記現在2次元横座標ヒートマップ群に対応するデータの第4の差分式を確定する。
【0077】
本実施例では、前記標準2次元座標ヒートマップ群に対応するデータは、当該標準2次元座標ヒートマップ群のグラフ行列
【数14】
で表され、現在2次元横座標ヒートマップ群は、当該標準現在2次元座標ヒートマップ群のグラフ行列P
2dで表され、これにより、
【数15】
を第4の差分式と見なすことができる。
【0078】
S213では、前記第4の差分式に基づいて形成されたユークリッドノルムの第4の二乗式を、前記現在の反復に対応する第2の損失関数として確定する。
【0079】
本実施例では、前記第4の差分式に基づいて形成されたユークリッドノルムの第4の二乗式は、
【数16】
で表される。最終的に、
【数17】
で第2の損失関数を表すことができる。
【0080】
S214では、前記第1の損失関数および前記第2の損失関数によって形成されたフィッティング損失関数に基づいて、前記姿勢検出ネットワークモデルを逆伝播し、次の反復のための姿勢検出ネットワークモデルを得て、反復終了条件を満たすまで次の反復を新たな現在の反復としてS201に戻る。
【0081】
本実施例では、フィッティング損失関数は、Loss=Loss1+Loss2で表されることができる。
【0082】
本実施例によるモデル訓練方法の実現を理解しやすくするために、
図2aは、本出願の実施例において姿勢検出ネットワークモデルを訓練するための構造の概略図であり、
図2aに示されたように、
図2aに入力すべきサンプル画像21、姿勢検出ネットワークモデル22、第1のヒートマップ群23(確率ヒートマップ及び3次元座標ヒートマップ群を含む)、カメラパラメータ24及び第2のヒートマップ群25が示される。
【0083】
第1のヒートマップ群23は、主にネットワークモデルのコア出力ブランチから出力され、人体キーポイントの3次元空間座標を確定するために使用され、
図2aに示されたように、人体キーポイントの3次元空間座標から人体の輪郭図を確定することができる。第2のヒートマップ群25は、主に、ネットワークモデルの別の出力ブランチから出力されたカメラパラメータ24と第1のヒートマップ群23との組み合わせによる再投影処理に基づいて取得される。
【0084】
図2aにモデル訓練の概略図が示され、採用された画像訓練サンプルは、主に単眼カメラによって収集され、同時に、主に第1のヒートマップ群23及びサンプル画像に対応するラベルデータ(キーポイント2次元座標またはキーポイント3次元座標)によって第1の損失関数Loss1を確定し、第2のヒートマップ群25及びサンプル画像に対応するラベルデータ(キーポイント2次元座標またはキーポイント3次元座標)によって第2の損失関数Loss2を確定する。この例から分かるように、本実施例によるモデル訓練方法は、訓練サンプルの収集が容易であるという特徴を備え、また、画像領域のみで訓練を行うため、当該訓練方法は、訓練が安定し且つ収束が速いという特徴も備えている。
【0085】
本出願の実施例2では、第1の損失関数の確定プロセスおよび第2の損失関数の確定プロセスを説明するモデル訓練方法を提供する。本実施例による方法を利用して、姿勢検出ネットワークモデルに対して訓練学習のための損失関数を2つ設定したことに相当し、そして、姿勢検出ネットワークモデルから出力された確率ヒートマップ、3次元座標ヒートマップ群および2次元座標ヒートマップ群と、標準確率ヒートマップ、標準3次元座標ヒートマップ群および標準2次元座標ヒートマップ群との比較によって、2つの損失関数の確定を実現する。当該方法の実現に関し、同時に簡単に収集できる画像データをサンプル画像として利用し、再投影と組み合わせて半教師あり訓練を行うことができ、良好な汎化性を備え、しかも画像領域における完全畳み込み構造のみを採用し、訓練過程が完全に画像領域で行われることを保証し、この結果、訓練過程中に勾配消失あるいは勾配爆発などの訓練に影響する要素を回避させ、訓練が安定し且つ収束が速いという目的を実現した。同時に、このように訓練されたモデルを用いて人体姿勢検出を行う場合、人物画像における人物キーポイントの3次元空間座標をより正確に検出することができ、人体3次元姿勢検出の精度を効果的に向上させることができる。
【0086】
実施例3
図3は、本出願の実施例3による人体姿勢検出方法のフローチャートであり、当該方法は、人体姿勢検出装置によって実行され、ここで、当該装置は、ソフトウェアおよび/またはハードウェアによって実現されることができ、一般的にコンピュータデバイスに統合される。
図3に示されたように、当該方法は、以下のステップを含む。
【0087】
S301では、検出すべき人物実景画像を取得する。
【0088】
例示的には、当該人物実景画像は、従来の画像キャプチャデバイスによって取得され、画像キャプチャデバイスは、携帯電話、カメラ付きノートパソコンまたはタブレットであってもよい。人体姿勢を検出する必要がある場合、本ステップにより、検出すべき人物実景画像を先に取得することができる。
【0089】
S302では、前記人物実景画像をプリセット姿勢検出ネットワークモデルに入力する。
【0090】
前記プリセット姿勢検出ネットワークモデルは、本出願の実施例による任意のモデル訓練方法を用いて訓練することにより得られる。
【0091】
S303では、前記プリセット姿勢検出ネットワークモデルの出力結果に基づいて、前記人物実景画像の人物に対して人体姿勢検出を行うことにより、前記人物の複数のキーポイントの3次元空間位置座標を取得する。
【0092】
例示的には、姿勢検出ネットワークモデルによる処理後の出力結果が、キーポイントに対応するヒートマップ群であり、各キーポイントについて、取得したヒートマップ群を用いて、ヒートマップ群におけるヒートマップの解析により、対応する3次元空間位置座標を得ることができる。
【0093】
本出願の実施例3による人体姿勢検出方法では、上述したモデル訓練の方法を用いて訓練して得られた姿勢検出ネットワークモデルを用いて、人体姿勢検出に必要なヒートマップ群を取得し、当該姿勢検出ネットワークモデルによって得られたヒートマップ群は、人物画像における人物キーポイントの3次元空間座標をより正確に検出することができ、人体3次元姿勢検出の精度を効果的に向上させることができる。
【0094】
本出願の実施例3の一選択可能な実施例として、最適化された出力結果は、複数のキーポイントの確率ヒートマップ及び3次元座標ヒートマップ群を含み、相応的に、本選択可能な実施例では、前記プリセット姿勢検出ネットワークモデルの出力結果に基づいて、前記人物実景画像の人物に対して人体姿勢検出を行うことにより、前記人物の複数のキーポイントの3次元空間位置座標を取得することを以下のように最適化し、即ち、各キーポイントに対して、前記確率ヒートマップから最大確率値に対応する確率座標点を確定し、前記確率座標点の現在位置座標を取得し、前記3次元座標図群に含まれる3次元横座標ヒートマップ、3次元縦座標ヒートマップ及び3次元奥行座標ヒートマップのそれぞれにおいて、前記現在位置座標に対応する数値を探し、探された数値に基づいて、前記キーポイントの3次元空間位置座標を構成する。
【0095】
本選択可能な実施例では、キーポイントの3次元空間位置座標の確定を実現し、姿勢検出ネットワークモデルによって、確定すべき3次元空間位置座標のキーポイントごとに、対応するヒートマップ群を取得することができ、当該ヒートマップ群にはキーポイントの確率ヒートマップが含まれ、確率ヒートマップは、キーポイントが異なる座標にある場合の確率値を示し、キーポイントの3次元座標ヒートマップ群も含まれ、当該3次元座標ヒートマップ群には3次元横座標ヒートマップ、3次元縦座標ヒートマップ及び3次元奥行座標ヒートマップが含まれ、各座標ヒートマップには、当該座標方向にキーポイントが持ち得る座標値が示される。
【0096】
キーポイントの確率ヒートマップから1つの最大確率値を確定することができ、当該最大確率値は、当該確率ヒートマップ上で1つの確率座標点に対応し、最大確率値は、キーポイントが当該確率座標点に基づいて確定された3次元空間位置にある確率が最大であることを示し、与えられた3次元座標ヒートマップ群では、異なる座標ヒートマップから当該確率座標点に対応する数値を検索することができ、確定された数値を対応する座標方向における座標値とし、これにより、確定された3つの座標値を用いてキーポイントの3次元空間位置座標を構成することができる。
【0097】
例示的には、確率ヒートマップから確定された確率座標点が(x1、y1)であると仮定すると、3次元横座標ヒートマップ、3次元縦座標ヒートマップ及び3次元奥行座標ヒートマップのそれぞれにおいて座標値が(x1、y1)の点を見つけることができ、異なるヒートマップにおいて当該点に対応する目標数値を取得することができ、最終的に3つの目標数値に基づいて、キーポイントの3次元空間位置座標を取得する。
【0098】
本実施例の別の選択可能な実施例として、当該人体姿勢検出方法では、前記人物実景画像における人物の複数のキーポイントに基づく3次元空間位置座標を追加し、前記人物実景画像を対応する人物カートゥーン画像に変換する。
【0099】
本選択可能な実施例では、確定されたキーポイントの3次元空間位置座標を、人物実景画像から人物カートゥーン画像への変換に用いることができ、人体3次元姿勢検出の実際の応用シーンを提供することに相当する。人物実景画像におけるキーポイントの3次元空間位置座標が確定された後、1つの基準人物カートゥーン画像において、キーポイントの元の3次元空間位置座標を調整することで、キーポイントが上記で確定された3次元空間位置座標を備え、これにより、基準人物カートゥーン画像における人体位置の調整を実現することに相当し、人体実景画像に対応した人物カートゥーン画像が形成される。
【0100】
実施例4
図4は、本出願の実施例4によるモデル訓練装置の構成のブロック図であり、当該装置は、ソフトウェアおよび/またはハードウェアによって実現されることができ、一般的にコンピュータデバイスに統合され、モデル訓練方法を実行することで、モデル訓練を行うことができる。
図4に示されたように、当該装置は、第1の情報確定モジュール41、第2の情報確定モジュール42及びモデル訓練モジュール43を含む。
【0101】
第1の情報確定モジュール41は、現在の反復に対応する画像訓練サンプルを現在の姿勢検出ネットワークモデルに入力し、前記画像訓練サンプルのデータ形式に基づいて、前記現在の反復に対応する第1の損失関数を得るように構成され、第2の情報確定モジュール42は、得られたカメラパラメータに基づいて、前記姿勢検出ネットワークモデルの現在の出力結果に対して再投影処理を行い、再投影処理の結果に基づいて、前記現在の反復に対応する第2の損失関数を得るように構成され、モデル訓練モジュール43は、前記第1の損失関数および前記第2の損失関数によって形成されたフィッティング損失関数に基づいて、前記姿勢検出ネットワークモデルを逆伝播し、次の反復のための姿勢検出ネットワークモデルを得て、反復終了条件を満たすまで次の反復に入ることにより、姿勢検出ネットワークモデルに対する訓練を実現するように構成される。
【0102】
本出願の実施例4によるモデル訓練装置は、画像訓練サンプルを特定することなく、2次元ラベルが施された自然シーン画像、または2次元ラベル及び3次元ラベルが施された制約シーン画像だけでモデル訓練を行うことができ、訓練サンプルの収集の難易度を下げ、訓練データと実際の適用シーンとの領域差異を減少させ、ネットワーク訓練の実現を保証した。同時に、従来の座標領域における再投影処理に比べて、上記の技術案は、簡単かつ効果的に画像領域における再投影を実現し、画像領域においてモデル訓練全体を完了し、モデル訓練の安定と迅速な収束に有利である。このように訓練されたモデルを用いて人体姿勢検出を行う場合、人物画像における人物キーポイントの3次元空間座標をより正確に検出することができ、人体3次元姿勢検出の精度を効果的に向上させることができる。
【0103】
実施例5
図5は、本出願の実施例5による人体姿勢検出装置の構成のブロック図であり、当該装置は、ソフトウェアおよび/またはハードウェアによって実現されることができ、一般的にコンピュータデバイスに統合され、人体姿勢検出方法を実行することで、人体キーポイントの3次元空間位置の確定を実現することができる。
図5に示されたように、当該装置は、情報取得モジュール51、情報入力モジュール52及び情報確定モジュール53を含む。
【0104】
情報取得モジュール51は、検出すべき人物実景画像を取得するように構成され、情報入力モジュール52は、前記人物実景画像をプリセット姿勢検出ネットワークモデルに入力するように構成され、ここで、前記プリセット姿勢検出ネットワークモデルは、本出願の実施例によるモデル訓練方法を用いて訓練することにより得られ、情報確定モジュール53は、前記プリセット姿勢検出ネットワークモデルの出力結果に基づいて、前記人物実景画像の人物に対して人体姿勢検出を行うことにより、前記人物の複数のキーポイントの3次元空間位置座標を取得するように構成される。
【0105】
本実施例による人体姿勢検出装置は、上述したモデル訓練の方法を用いて訓練して得られた姿勢検出ネットワークモデルを用いて、人体姿勢検出に必要なヒートマップ群を取得し、当該姿勢検出ネットワークモデルによって得られたヒートマップ群は、人物画像における人物キーポイントの3次元空間座標をより正確に検出することができ、人体3次元姿勢検出の精度を効果的に向上させることができる。
【0106】
実施例6
図6は、本出願の実施例6によるコンピュータデバイスの構成のブロック図であり、本出願の実施例6では、コンピュータデバイスを提供し、当該コンピュータデバイスには、本出願の実施例によるモデル訓練装置および/または人体姿勢検出装置を統合することができる。
【0107】
図6に示されたように、コンピュータデバイス700は、メモリ701、プロセッサ702およびメモリ701に記憶され且つプロセッサ702上で実行可能なコンピュータプログラムを含み、前記プロセッサ702が前記コンピュータプログラムを実行するとき、本出願の実施例によるモデル訓練方法および/または人体姿勢検出方法を実現する。
【0108】
同時に、本出願の実施例6では、コンピュータ実行可能な命令を含む記憶媒体をさらに提供し、前記コンピュータ実行可能な命令は、コンピュータのプロセッサによって実行されるとき、本出願の実施例によるモデル訓練方法および/または人体姿勢検出方法を実行する。
【0109】
記憶媒体とは、任意の様々な種類のメモリデバイスまたは記憶デバイスである。「記憶媒体」という用語は、例えばコンパクトディスク読み取り専用メモリ(Compacy Disc Read-Only Memory、CD-ROM)、フロッピーディスクまたは磁気テープ装置などのインストールメディア、例えばダイナミック・ランダム・アクセス・メモリ(Dynamic Random Access Memory、DRAM)、ダブルデータレートランダムアクセスメモリ(Double Data Rate Random Access Memory、DDRRAM)、スタティック・ランダム・アクセス・メモリ(Static Random Access Memory、SRAM)、拡張データ出力ランダムアクセスメモリ(Extended Data Output Random Access Memory、EDORAM)、ラムバス(Rambur)RAMなどのコンピュータシステムメモリまたはランダムアクセスメモリ、例えばフラッシュメモリ、磁気媒体(例えばハードディスクや光記憶装置)などの不揮発性メモリ、レジスタや他の類似したタイプのメモリ素子などを含む。記憶媒体は、非一時的記憶媒体であってもよく、記憶媒体は、他のタイプのメモリまたはそれらの組み合わせを含んでもよい。なお、記憶媒体は、プログラムが実行される第1のコンピュータタシステムに配置されてもよいし、異なる第2のコンピュータシステムに配置されてもよく、第2のコンピュータシステムは、ネットワーク(例えばインターネット)を介して第1のコンピュータタシステムに接続される。第2のコンピュータシステムは、実行のために第1のコンピュータにプログラム命令を提供することができる。「記憶媒体」という用語は、異なる場所(例えば、ネットワークを介して接続された異なるコンピュータシステム)に配置されることができる2つ以上の記憶媒体を含むことができる。記憶媒体は、1つ以上のプロセッサによって実行可能なプログラム命令(例えば、コンピュータプログラムとして実現される)を記憶することができる。
【0110】
上記実施例によるモデル訓練装置、人体姿勢検出装置、記憶媒体及びコンピュータデバイスは、本出願の各実施例による方法を実行することができ、方法を実行することに応じた機能モジュールと効果を備える。上記実施例で詳細に説明されていない技術的詳細について、本出願の各実施例による方法を参照することができる。
【国際調査報告】