(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-11
(45)【発行日】2024-11-19
(54)【発明の名称】入力画像の処理方法、入力画像の処理装置及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20241112BHJP
G06V 10/40 20220101ALI20241112BHJP
【FI】
G06T7/00 300F
G06V10/40
(21)【出願番号】P 2023567046
(86)(22)【出願日】2022-03-23
(86)【国際出願番号】 JP2022013764
(87)【国際公開番号】W WO2022234741
(87)【国際公開日】2022-11-10
【審査請求日】2023-10-31
(31)【優先権主張番号】10202104691X
(32)【優先日】2021-05-05
(33)【優先権主張国・地域又は機関】SG
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【氏名又は名称】家入 健
(72)【発明者】
【氏名】山崎 智史
(72)【発明者】
【氏名】ペー ウェイ ジアン
(72)【発明者】
【氏名】オング フイ ラム
(72)【発明者】
【氏名】オング ホン イェン
【審査官】豊田 好一
(56)【参考文献】
【文献】特開2007-233997(JP,A)
【文献】特表2020-535568(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 10/40
(57)【特許請求の範囲】
【請求項1】
プロセッサにより、入力画像の特徴の投影キーポイント及び直接キーポイントを取得し、
前記投影キーポイントは前記入力画像の3Dレンダリングから投影された前記特徴の第1の座標セットを含み、前記直接キーポイントは前記特徴の2Dレンダリングに基づく前記特徴の第2の座標セットを含み、
前記プロセッサにより、前記投影キーポイント及び前記直接キーポイントに基づく信頼性スコアを計算し、
前記信頼性スコアが高いほど、前記投影キーポイント及び前記直接キーポイントの精度が高いことを示す、
入力画像の処理方法。
【請求項2】
前記直接キーポイントの可視性値をさらに取得し、
前記可視性値は前記2Dレンダリングによって計算され、
前記信頼性スコアの計算は、さらに、前記可視性値、前記投影キーポイント及び前記直接キーポイントに数式を適用する、
請求項1に記載の入力画像の処理方法。
【請求項3】
前記2Dレンダリングはヒートマップレンダリングであり、
前記特徴のヒートマップレンダリングは前記特徴の1つ以上の座標セットを有し、前記1つ以上の座標セットのそれぞれは確率値を有し、
前記第2の座標セットは、前記1つ以上の座標セットの中で最高の確率値を有する、
請求項2に記載の入力画像の処理方法。
【請求項4】
前記信頼性スコアを閾値と比較し、
前記信頼性スコアが前記閾値よりも低い場合、前記投影キーポイント及び前記直接キーポイントが
排除される、
請求項1に記載の入力画像の処理方法。
【請求項5】
プロセッサと通信し、前記プロセッサによって実行可能な記録されたコンピュータプログラムを格納するメモリを備え、
前記コンピュータプログラムの実行により、少なくとも、
入力画像の特徴の投影キーポイント及び直接キーポイントを取得し、
前記投影キーポイントは前記入力画像の3Dレンダリングから投影された特徴の第1の座標セットを含み、前記直接キーポイントは前記特徴の2Dレンダリングに基づく前記特徴の第2の座標セットを含み、
前記投影キーポイント及び前記直接キーポイントに基づく信頼性スコアを計算し、
前記信頼性スコアが高いほど、前記投影キーポイント及び前記直接キーポイントの精度が高いことを示す、
入力画像の処理装置。
【請求項6】
前記メモリ及び前記コンピュータプログラムが前記プロセッサによって実行されることで
、さらに、前記直接キーポイントの可視性値を取得し、
前記可視性値は前記2Dレンダリングによって計算され、
前記信頼性スコアの計算は、さらに、前記可視性値、前記投影キーポイント及び前記直接キーポイントに数式を適用する、
請求項5に記載の入力画像の処理装置。
【請求項7】
前記2Dレンダリングはヒートマップレンダリングであり、
前記特徴のヒートマップレンダリングは前記特徴の1つ以上の座標セットを含み、前記1つ以上の座標セットのそれぞれは確率値を有し、
前記第2の座標セットは、が前記1つ以上の座標セットの中で、最高の確率値を有する、
請求項6に記載の入力画像の処理装置。
【請求項8】
前記メモリ及び前記コンピュータプログラムが前記プロセッサによって実行されることで
、さらに、前記信頼性スコアを閾値と比較し、
前記信頼性スコアが前記閾値より低い場合、前記投影キーポイント及び前記直接キーポイントが拒否される、
請求項5に記載の入力画像の処理装置。
【請求項9】
入力画像の特徴の投影キーポイント及び直接キーポイントを取得する処理と、
前記投影キーポイント及び前記直接キーポイントに基づく信頼性スコアを計算する処理と、をコンピュータに実行させ、
前記投影キーポイントは前記入力画像の3Dレンダリングから投影された前記特徴の第1の座標セットを含み、前記直接キーポイントは前記特徴の2Dレンダリングに基づく前記特徴の第2の座標セットを含み、
前記信頼性スコアが高いほど、前記投影キーポイント及び前記直接キーポイントの精度が高いことを示す、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、広範には画像処理方法及び装置に関するが、これらに限定されるものではない。
【背景技術】
【0002】
2D画像から3Dオブジェクトをレンダリングする画像処理は、学術研究のみならず、企業向け市場においても注目されている。例えば、衣服のデザインを目的として、人物の写真から3Dの人物アバターを生成できる。この技術は、スポーツシーンの分析や不審行動の分析など、多くの応用分野において有用である。
【0003】
HMR(human mesh recovery)などの回帰ベースの3Dでの人物及び形状の推定は、入力画像から人体モデルを推定してレンダリングする方法の1つである(非特許文献1を参照)。この方法では、画像を分析して、画像に存在する人体の形状を特定する。特定された人体の形状の頂点及び表面の3D座標を生成するとともに、特定された人体の形状について、3D座標におけるカメラの視野及び角度を判定する。その後、これらの出力から、2D投影体キーポイント(KPT)を算出できる。
【先行技術文献】
【非特許文献】
【0004】
【文献】Kanazawa, Angjoo, et al. "End-to-end recovery of human shape and pose. " Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018
【発明の概要】
【発明が解決しようとする課題】
【0005】
回帰ベースの人物モデルフィッティングの既存技術においては、結果の信頼度、すなわち結果が正確であるという信頼度を保証することは困難である。複数の人が存在する混雑した場所の画像では、HMRによってすべての人体を識別できるわけではなく、1つの人体レンダリングのみを識別して、出力が生成されることがある。画像内の人物が部分的にしか見えない場合には、結果の出力も不正確になるおそれが有る。しかし、上述のシナリオによって発生するおそれの有る不正確な結果をフィルタリングする方法は存在しない。
【0006】
既存の2D人体KPT推定技術とは異なり、HMRでは、トレーニングデータから正確な2D投影KPTを学習するのは困難である。HMRは、2D投影KPTの直接的な回帰結合損失によってトレーニングできる。しかし、KPTヒートマップ学習のような他の2D人体KPTトレーニング技術と比較して、この損失は、トレーニングデータから多くの教師あり信号を取ることができない。
【0007】
ここでは、上記の問題の1つ以上に対処する画像処理装置及び方法の実施の形態を開示する。
【0008】
さらに、他の望ましい特徴及び特性は、添付図面及び本開示における背景技術と併せて、以下の詳細な説明及び添付の請求項から明らかになるであろう。
【課題を解決するための手段】
【0009】
第1の形態においては、本開示は、プロセッサにより、入力画像の特徴の投影キーポイント及び直接キーポイントを取得し、前記投影キーポイントは前記入力画像の3Dレンダリングから投影された前記特徴の第1の座標セットを含み、前記直接キーポイントは前記特徴の2Dレンダリングに基づく前記特徴の第2の座標セットを含み、前記プロセッサにより、前記投影キーポイント及び前記直接キーポイントに基づく信頼性スコアを計算し、前記信頼性スコアが高いほど、前記投影キーポイント及び前記直接キーポイントの精度が高いことを示す、入力画像の処理方法を提供する。
【0010】
第2の形態においては、本開示は、プロセッサと通信し、前記プロセッサによって実行可能な記録されたコンピュータプログラムを格納するメモリを備え、前記コンピュータプログラムの実行により、少なくとも、入力画像の特徴の投影キーポイント及び直接キーポイントを取得し、前記投影キーポイントは前記入力画像の3Dレンダリングから投影された特徴の第1の座標セットを含み、前記直接キーポイントは前記特徴の2Dレンダリングに基づく前記特徴の第2の座標セットを含み、前記投影キーポイント及び前記直接キーポイントに基づく信頼性スコアを計算し、前記信頼性スコアが高いほど、前記投影キーポイント及び前記直接キーポイントの精度が高いことを示す、入力画像の処理装置を提供する。
【0011】
第3の形態においては、本開示は、第2の形態にかかる前記装置と、少なくとも1つの撮像装置と、を備える、入力画像の処理システムを提供する。
【0012】
第4の形態においては、本開示は、プロセッサにより、入力画像の各特徴の投影キーポイント及び直接キーポイントを取得し、前記投影キーポイントは前記入力画像の3Dレンダリングから投影された各特徴の第1の座標セットを含み、前記直接キーポイントは各特徴の2Dレンダリングに基づく各特徴の第2の座標セットを含み、前記プロセッサにより、前記投影キーポイントのそれぞれ及び前記直接キーポイントのそれぞれに基づく各特徴の整合性損失値を計算し、前記プロセッサにより、各特徴の前記整合性損失値及び前記入力画像のグランドトゥルスデータに基づいて総損失を計算し、前記総損失に基づいて総損失誤差を導出し、前記プロセッサにより、前記総損失誤差をモデルレンダリングへ伝播させる、入力画像のモデルレンダリングのトレーニング方法を提供する。
【0013】
第5の形態においては、本開示は、プロセッサと通信し、前記プロセッサによって実行可能な記録されたコンピュータプログラムを格納するメモリを備え、前記コンピュータプログラムの実行により、少なくとも、入力画像の各特徴の投影キーポイント及び直接キーポイントを取得し、前記投影キーポイントは前記入力画像の3Dレンダリングから投影された各特徴の第1の座標のセットを含み、前記直接キーポイントは各特徴の2Dレンダリングに基づく各特徴の第2の座標セットを含み、前記投影キーポイントのそれぞれ及び前記直接キーポイントのそれぞれに基づく整合性損失値を計算し、各特徴の前記整合性損失値及び前記入力画像のグランドトゥルスデータに基づいて総損失を計算し、前記総損失に基づいて総損失誤差を導出し、前記総損失誤差をモデルレンダリングへ伝播させる、入力画像のモデルレンダリングのトレーニング装置を提供する。
【0014】
第6の形態においては、本開示は、第5の形態にかかる前記装置と、少なくとも1つの撮像装置と、を備える、入力画像のモデルレンダリングのトレーニングシステムを提供する。
【図面の簡単な説明】
【0015】
添付の図面は、個別の図全体にわたって同一の参照番号が同一又は機能的に同様の要素を指すものであってよく、以下の詳細な説明とともに本明細書に組み込まれ、かつ、その一部を形成するものであり、非限定的な例として、様々な実施の形態を示し、様々な原理及び利点の説明するために有用である。
【0016】
本発明の実施の形態は、単なる例示として、図面と併せて、以下の記述による説明から、当業者によりよく理解され、かつ、容易に明らかになるであろう。
【
図1】本開示の各種の実施の形態にかかる2D画像から3Dメッシュを生成する処理を例示する図である。
【
図2A】隠れた人物や人体のキーポイントの可視性欠如によって生成されるおそれのある不正確な3D人体モデルのそれぞれを示す図である。
【
図2B】隠れた人物や人体のキーポイントの可視性欠如よって生成されるおそれのある不正確な3D人体モデルのそれぞれを示す図である。
【
図3】本開示の各種の実施の形態にかかるキーポイントヒートマップ推定を示す図である。
【
図4】本開示の各種の実施の形態にかかる、2D姿勢の可視性及び整合性に基づく信頼性スコア計算のフロー図である。
【
図5】本開示の各種の実施の形態にかかる、取得した信頼性スコアと閾値とがどのように比較され得るかを示す図である。
【
図6】本開示の各種の実施の形態にかかる信頼性スコア計算のための構成図である。
【
図7】本開示の各種の実施の形態にかかる信頼性スコア計算のフローチャートの例である。
【
図8】本開示の各種の実施の形態にかかる整合性損失の計算を伴う拡張HMRネットワークアーキテクチャを示す図である。
【
図9】本開示の各種の実施の形態にかかるモデルトレーニング計算のための構成図である。
【
図10】本開示の各種の実施の形態にかかるトレーニング画像のモデルレンダリングのトレーニングのフローチャートの例である。
【
図11】本開示の各種の実施の形態にかかる入力画像の処理システムを示すブロック図である。
【
図12】先行する図の方法を実行するために使用可能な例示的な計算装置を示す図である。
【発明を実施するための形態】
【0017】
用語の説明
キーポイント(KPT)は、頭頂部、肩、肘、その他の類似の体の部位又は関節などの、体の部位の点を指す。利用可能な人体キーポイントは、鼻、目の内側の部分、目の外側の部分、耳、口の右側及び左側、手首、各指関節、左右の腰、膝、足首、かかと、足、つま先、その他の同様の体の部位又は関節などの体の部位も含む。
【0018】
3Dの姿勢及び形状のリグレッサは、ヒューマンメッシュ(頂点と表面)の3次元位置を推定するモジュール又は処理、及び、入力画像において識別される2Dの人体の形状及び姿勢に合致した3Dのヒューマンメッシュをレンダリングするためのカメラの3Dの位置及び角度の一方又は両方を含むカメラパラメータを指す。モジュールは、例えば、トレーニング可能なニューラルネットワークモデルであってもよい。3Dの人物の姿勢及び形状の推定処理の例を
図1に示す。
図1では、入力画像102を処理することで、画像102に示されている人物を代表するキーポイントが取得される。これらのキーポイントは、画像102に示されている人物の形状及び姿勢に合致した3Dメッシュ104の推定に使用される。そして、テクスチャオーバーレイを3Dメッシュ104に適用して、3Dモデル106を形成してもよい。3Dモデル106から、さらなるテクスチャの改善が可能であることが理解されよう。生成された3Dモデル106(又は、その改良版)は、衣服デザイン用のデザイナーツール、監視用途、不審行動の分析、ゲーム及びその他の類似用途など、様々な用途のためのアバターとして使用できる。
【0019】
特徴-当該技術において一般的に使用されるように、特徴は、人間が読み取り/解釈できない場合があり得る値の任意のベクトルであってもよい。特徴は、例えば、2D画像から抽出されてもよい。画像から特徴を抽出する処理は、画像内の対象物の特徴を定量化する処理を指す。人物の姿勢推定及び/又はヒューマンメッシュリカバリのために、抽出された特徴からキーポイントが生成されてもよい。抽出された特徴は、例えば、人物の姿勢推定を改善するためのトレーニング可能なニューラルネットワークモデルで使用されてもよい。
【0020】
誤差伝播(error propagation)又は逆伝播(back propagation)は、ニューラルネットワークモデルに適合するアルゴリズムを指す。各重みに対する勾配を、個別に、簡素かつ直接に計算(naive direct computation)するのとは異なり、逆伝播は、単一の入出力例(single input-output example)について、ネットワークモデルの重みに対する損失関数の勾配を計算するものであり、効率的に計算を行う。
【0021】
グラウンドトゥルスデータは、機械学習モデルの入出力例を指す。HMRモデルトレーニングの場合には、通常、入力及び出力は、それぞれ画像及び3Dヒューマンメッシュである。通常、損失関数は入出力例によって計算される。機械学習モデルは、誤差伝播により損失関数を最小化することで、入力から同様の結果を出力する傾向がある。
【0022】
実施の形態
同じ符号を有する可能性のあるステップ及び/又は特徴が、添付図面のいずれか1つ以上で参照されている場合、これらのステップ及び/又は特徴は、説明の便宜上、異なる意味が示されない限り、同じ機能又は動作であるものとする。
【0023】
なお、「背景技術」の欄に記載される議論及び先行技術の構成に関する上述の議論は、その使用を通じて公知を形成する装置についての議論に関連している。このような議論は、当該装置がいかなる形であれ当該技術分野における一般的な知識の一部を形成することを、本願の発明者又は特許出願人が表明したものと解釈すべきではない。
【0024】
エンドツーエンド(End-to-end)HMRは、回帰ベースの3Dの人物の姿勢及び形状の推定の一形態であり、画像内で識別された人体形状に最も適合する人体モデルを生成するための画像の処理に基づくものである。入力は、人体が写り込んでいると予想される画像である。出力は、識別された人体の頂点及び表面の3D座標と、識別された人体に対する、3次元座標でのカメラの位置及び角度である。そして、これらの出力から、2D投影キーポイント(すなわち、例えばX-Y座標での2D平面上に定義されたキーポイント)を計算することができる。人物の形状及び姿勢のエンドツーエンドリカバリの処理例では、入力画像を回帰的に処理して、識別された人体の頂点及び表面の3D座標と、入力画像内で識別された人体に対する3次元座標でのカメラの位置及び角度などの出力を、推定及び判定できる。3D人体モデルは、これらの出力に基づいて生成されてもよい。その後、キーポイントを3D人体モデルから2D投影平面に投影して、2D投影キーポイントを形成してもよい。
【0025】
しかし、上述したような回帰ベースの人物モデルフィッティングの既存技術では、特に複数の人物が写っている画像のように、人体が隠れていたり、可視性が欠如しているような困難な状況では、正確な人体モデルの出力は困難なのが一般的である。例えば、
図2Aは、画像200においてキャプチャされた隠れた人物が存在するために生成されるおそれのある不正確な3D人体モデル202を示している。
図2Bは、画像204で撮影された人物の人体キーポイントが見えないことで生成されるおそれのある不正確な3D人体モデル206を示している。回帰ベースの人物モデルフィッティングから得られた結果が正確であるという信頼水準を確保することは、一般的に困難である。また、人体キーポイントが見えていないため、不正確な結果をフィルタリングする方法も存在しない。
【0026】
回帰ベースの人物モデルフィッティングから投影された2Dキーポイントの精度も、問題である。既存の2D人体キーポイント推定技術とは異なり、HMRは、トレーニングデータから正確な2D投影キーポイントを学習するのは困難である。HMRは2D投影KPTの直接的な回帰結合損失によってトレーニングできる。しかし、KPTヒートマップ学習のような他の2D人体KPTトレーニング技術と比較して、この損失は、トレーニングデータから多くの教師あり信号を取ることはない。
【0027】
図3は、KPTヒートマップ推定のフロー
図300を示している。入力画像302は、2Dキーポイント推定処理304を介して処理され、入力画像302の各キーポイントのヒートマップ、例えばヒートマップ306を識別する。ヒートマップは、様々な変動確率の領域を有するマップとして一般化でき、ヒートマップに関連付けられたキーポイントの位置は、確率マップにおいて最も高い確率を有する座標によって推定できる。また、可視性又は信頼値についてもヒートマップから導出することができる。可視性又は信頼値は、マップの最高の確率値であってもよい。現在、ヒートマップ学習手法のような2Dトレーニング方法をHMRで利用する方法はない。
【0028】
図4は、上記の問題に対処するために、2D姿勢の可視性及び整合性に基づく信頼性スコアの計算のフロー
図400を示す。信頼性スコアの計算は、可視的なキーポイントは精度の点でより高い信頼値を有する傾向があり、異なる方法の間で結果が一致している場合には結果が正確であり、より高い信頼性を有するという前提に基づいている。フロー
図400では、入力画像402の特徴に対して、投影されたキーポイントが取得される。(例えば、上記のような3D姿勢及び形状の回帰技術や、この技術分野における既知の3D推定技術による)3D姿勢及び形状の推定処理404を、3Dレンダリング406の生成に用いられる入力画像402の特徴に対して適用し、その後、3D-2Dキーポイント投影処理408を3Dレンダリング406に適用して特徴に関連付けられた投影キーポイントの座標を取得することで、投影キーポイントを取得することができる。投影キーポイントは、入力画像402の3Dレンダリング406から投影された特徴の座標セットで構成される。入力画像402の複数の特徴から複数の投影キーポイント410を取得できる。
【0029】
さらに、入力画像402の特徴の2Dレンダリングに基づいて、直接キーポイントを取得する。具体的には、(例えば、
図3で示されるヒートマップ推定や、当該技術分野において既知の他の2D推定技術を使用することで)入力画像402の特徴に2Dキーポイント推定処理412を適用して、直接キーポイントを取得できる。直接キーポイントは、入力画像402の2Dレンダリングに基づいた特徴の座標セットで構成される。2Dレンダリングがヒートマップレンダリングである場合、ヒートマップレンダリングは、特徴の1つ以上の座標セットで構成され、1つ以上の座標セットのそれぞれが確率値を有し、直接キーポイントの座標セットが1つ以上の座標セットの中で最高の確率値を有する。複数の直接キーポイント414が、入力画像402の複数の特徴から取得できる。
【0030】
その後、416において、投影キーポイント及び直接キーポイントに基づいて信頼性スコアが計算され、信頼性スコアが高いほど投影キーポイント及び直接キーポイントの精度が高いことを示す。信頼性スコアは、例えば、以下のような式を適用して計算できる。
【数1】
【0031】
上式は、投影キーポイント及び直接キーポイントについて取得した位置又は座標と、直接キーポイントの可視性値vと、に基づいている。上式では、まず、投影キーポイント及び直接キーポイントに基づいて整合性スコアを計算し、次いで、整合性スコアと可視性値vとを乗算して信頼性スコアを計算する。整合性スコア計算でのチューニングパラメータαは、この計算においてより正確なスコアを取得するために、実験に基づいて手動でチューニング可能な予め固定された値であってもよい。可視性値vは、2Dキーポイント推定処理412中で取得されてもよい。例えば、ヒートマップ推定が処理412に対して使用されている場合、可視性値は、関連付けられた特徴のヒートマップの最高の確率値であってもよい。当該技術分野において既知の他の2D推定技術を、可視性値を取得する対応する方法で利用できることは、言うまでもない。上式を適用することにより、投影キーポイント及び直接キーポイントの精度を好適に示す信頼性スコアが取得される。
【0032】
また、
図5に示すように、得られた信頼性スコアは、閾値と比較されてもよい。例えば、信頼性スコア計算処理502の完了後に信頼性スコアが得られ、信頼性スコア閾値処理504において、信頼性スコアが信頼性スコア閾値と比較される。信頼性スコアが入力画像の特徴506の閾値よりも低い場合、特徴506に関連付けられた投影キーポイント及び直接キーポイントは、不正確と判断されてもよい。信頼性スコアが入力画像の特徴508の閾値以上の場合、特徴508に関連付けられた投影キーポイント及び直接キーポイントは、正確と判断されてもよい。これにより、不正確な結果を特定して、排除することができる。
【0033】
図6に、上述の信頼性スコア計算のための構成
図600を示す。特徴抽出器602は、入力画像から特徴を抽出するために用いられる。3D姿勢推定器604は、抽出された特徴の投影キーポイントを取得するために、当該技術において既知の3D推定技術を適用する。2D姿勢推定器606は、抽出された特徴の直接キーポイントを取得するために、当該技術において既知の2D推定技術を適用する。整合性スコア計算器608は、上式の整合性計算部分を処理416に適用するなどして、投影キーポイント及び直接キーポイントに基づいて整合性スコアを計算し、取得する。その後、信頼性スコア計算器610は、整合性スコア及び直接キーポイントの可視性値に基づいて信頼性スコアを計算し、取得する。可視性値は、2D姿勢推定器606によって計算され、信頼性スコア計算器610に入力され、可視性値と整合性スコアとに基づいた式が適用される。式は、処理416について既に説明したものであり、整合性スコアと可視性値とを乗算して、信頼性スコアが取得される。
【0034】
図7は、信頼性スコア計算のフローチャートの例700を示している。この処理は、ステップ702から開始する。ステップ704では、人体が現れている画像が入力される。ステップ706では、特徴抽出器によって、入力画像から特徴が抽出される。ステップ708では、3D姿勢及び形状リグレッサにより、抽出された特徴から、3D姿勢及びカメラ位置が推定される。ステップ710では、推定された3D姿勢及びカメラ位置から、2D投影キーポイントが計算される。ステップ712では、2Dキーポイント推定器によって、2Dキーポイントヒートマップが推定される。ステップ714では、キーポイントヒートマップから、2D直接キーポイントと、関連付けられた可視性値が取得される。ステップ716では、2D投影キーポイント及び2D直接キーポイントから、整合性スコアが計算される。ステップ718では、整合性スコア及び可視性値から、信頼性スコアが計算される。その後、この処理はステップ720で終了する。
【0035】
図8に示すように、3D姿勢及び形状の回帰手法からの投影キーポイントと、2D推定手法からの直接キーポイントと、を比較する上述の手法は、整合性損失の計算によって、HMRネットワークアーキテクチャにさらに拡張することができる。このアーキテクチャでは、1つの特徴抽出器が、2Dキーポイント推定器と3D姿勢及び形状推定器との間で共有される。異なる技術(すなわち、3D推定及び2D推定)から得られたにもかかわらず互いに一致する結果は、より正確であると考えられることが、このアーキテクチャの基本的前提である。ディープラーニングを通じて正確なキーポイントを取得するための画像処理結果を好適に改善するために、入力画像のモデルレンダリングのトレーニングに、このアーキテクチャを利用してもよい。
【0036】
図8では、抽出した特徴を取得するために、入力画像802は、特徴抽出器によって特徴抽出処理804を受ける。入力画像802は、2Dキーポイントデータ及び3Dキーポイントデータの両方を含むグラウンドトゥルスデータで構成されている。グラウンドトゥルスデータは、画像802のモデルレンダリングをトレーニングする場合に、総損失を最小限に抑えるために用いられてもよい。投影キーポイントは、入力画像802の特徴に対して取得される。(例えば、上記のような3D姿勢及び形状の回帰技術や、この技術分野において既知の3D推定技術による)3D姿勢及び形状の推定処理806を、3Dレンダリング808の生成に用いられる入力画像802の特徴に対して適用し、その後、3D-2Dキーポイント投影処理810を3Dレンダリング808に適用して、特徴に関連付けられた投影キーポイントの座標を取得することで、投影キーポイントを取得することができる。投影キーポイントは、入力画像802の3Dレンダリング808から投影された特徴の座標セットで構成される。入力画像802の複数の抽出された特徴から、複数の投影キーポイント812が取得できる。また、抽出された特徴ごとに3Dキーポイント損失L3Dを取得するために、3Dレンダリングには3D姿勢及び形状の損失計算処理814が適用され、2D投影キーポイント損失計算処理816を通じて、特徴ごとに2D投影キーポイント損失Lprojが計算される。3Dキーポイント損失は、関連する抽出された特徴の推定3Dキーポイントの位置とグランドトゥルス3Dキーポイントの位置との間の誤差に対応し、2D投影キーポイント損失は、投影キーポイントの位置とグランドトゥルス2Dキーポイントの位置との間の誤差に対応する。
【0037】
入力画像802の抽出された特徴の2Dレンダリングに基づいて、直接キーポイントも取得される。具体的には、(例えば、
図3で示されるヒートマップ推定や、当該技術分野において既知の他の2D推定技術を使用によって)入力画像802の抽出された特徴に2Dキーポイント推定処理818を適用することで、直接キーポイントを取得できる。直接キーポイントは、入力画像802の2Dレンダリングに基づいた特徴の座標セットで構成される。2Dレンダリングがヒートマップレンダリングの場合、ヒートマップレンダリングは、特徴の1つ以上の座標セットで構成され、1つ以上の座標セットのそれぞれが確率値を有し、直接キーポイントの座標セットが1つ以上の座標セットの中で最高の確率値を有する。入力画像802の抽出された複数の特徴から、複数の直接キーポイント820が取得できる。また、抽出された特徴ごとに2D直接キーポイント損失L2Dを取得するために、2Dレンダリングには、2D直接キーポイント損失計算処理822が適用される。2D直接キーポイント損失は、直接キーポイントの位置とグランドトゥルス2Dキーポイントの位置との間の誤差に対応する。
【0038】
その後、824において、整合性損失値が投影キーポイント及び直接キーポイントに基づいて計算され、整合性損失値が低いほど、投影キーポイント及び直接キーポイントの精度が高いことを示す。
整合性スコアLcは、例えば、以下のような式を適用して計算できる。
【数2】
【0039】
上式は、投影キーポイント及び直接キーポイントの取得位置又は座標と、直接キーポイントの可視性値vと、に基づいている。上式は、まず、投影キーポイント、直接キーポイント及び関連する可視性値vに基づいて整合性損失を計算し、次いで、複数の抽出された特徴に対して取得されたすべての整合性損失を加算する。可視性値vは、2Dキーポイント推定処理818中に取得されてもよい。例えば、ヒートマップ推定が処理818に対して使用されている場合、可視性値は、関連付けられた特徴のヒートマップの最高の確率値であってもよい。当該技術分野において既知の他の2D推定技術を、可視性値を取得する対応する方法で利用できることは、言うまでもない。上式を適用することにより、投影キーポイント及び直接キーポイントの精度を好適に示す整合性損失値が取得される。
【0040】
さらに、整合性損失値を、総損失L
Totalの計算に使用してもよい。
図8に示すようなアーキテクチャを用いたトレーニング処理は、総損失L
Totalを最小限に抑えることを目指している。例えば、以下の式を適用することで、L
Totalを所得してもよい。
【数3】
【0041】
上式では、3D姿勢及び形状の損失L3D、2D投影キーポイント損失Lproj、2D直接損失L2D、整合性損失Lcのそれぞれに重みwを適用し、合計することで総損失LTotalを求めている。重みwは、モデルのトレーニングにおいて予め固定された値であってもよく、より正確なモデルをトレーニングして取得するために、3D姿勢及び形状の損失L3D、2D投影キーポイント損失Lproj、2D直接損失L2D、整合性損失Lcのそれぞれに対して、実験に基づいて重み値を手動で調整してもよい。トレーニング処理によって総損失LTotalを最小化することで、入力画像802のモデルレンダリングの全体的な精度を好適に向上させることができる。
【0042】
図9は、上記のようなモデルトレーニング計算のための構成
図900を示している。特徴抽出器902は、入力画像から特徴を抽出するために用いられてもよい。3D姿勢推定器904は、抽出された特徴の3Dキーポイント及び2D投影キーポイントを取得するために、当該技術分野において既知の3D推定技術を適用する。3D損失計算器906は、入力画像の3Dキーポイント及び3Dグラウンドトゥルスデータに基づいて3Dキーポイント損失を計算するとともに、入力画像の2D投影キーポイント及びグラウンドトゥルスデータに基づいて2D投影キーポイント損失を計算する。2D姿勢推定器908は、抽出された特徴の直接キーポイントを取得するために、当該技術分野において既知の2D推定技術を適用する。2D損失計算器910は、入力画像の2D直接キーポイント及び2Dグラウンドトゥルスデータに基づいて2D直接キーポイント損失を計算し、取得する。整合性損失計算器912は、処理824に上述の式を適用するなどして、抽出された特徴ごとに、2D投影キーポイント、2D直接キーポイント及び直接キーポイントの可視性値に基づいて、整合性損失を計算し、取得する。可視性値は2D姿勢推定器908で計算され、整合性損失計算器912に入力され、整合性損失を取得するために上述の式が適用される。最後に、全損失計算器914は、例えば、3Dキーポイント損失、2D投影キーポイント損失、2D直接キーポイント損失及び整合性損失のそれぞれに重みを適用して加算したものを入力として、上述の全損失式を適用することで、全損失値を計算し、取得する。重みは、モデルのトレーニングにおいて予め固定された値としてもよく、より正確なモデルをトレーニングして取得するために、3Dキーポイント損失、2D投影キーポイント損失、2D直接キーポイント損失及び整合性損失のそれぞれについて、実験に基づいて重み値を手動で調整してもよい。
【0043】
図10は、トレーニング画像のモデルレンダリングのトレーニングのフローチャートの例1000を示している。この処理は、ステップ1002から始まる。ステップ1004では、2D及び3Dのキーポイント位置を含むグラウンドトゥルスデータを有するトレーニング画像が入力される。ステップ1006では、特徴抽出器によって入力画像から特徴が抽出される。ステップ1008では、3D姿勢及び形状リグレッサにより、抽出された特徴から3D姿勢及びカメラ位置が推定され、抽出された特徴の3Dキーポイントが取得される。ステップ1010では、推定された3D姿勢及びカメラ位置から、2D投影キーポイントが計算される。ステップ1012では、2Dキーポイント推定器により、抽出された特徴から2D人体キーポイントヒートマップが推定される。ステップ1014では、キーポイントヒートマップから2D直接キーポイントに関連付けられた可視性値が取得される。ステップ1016では、抽出されたすべての特徴について、2D投影キーポイント、2D直接キーポイント及び関連付けられた可視性値から、整合性損失が計算される。ステップ1018では、3Dキーポイント損失、2D投影キーポイント損失、2D直接キーポイント損失及び整合性損失の重み値を入力として、これらを加算することで、全損失が計算され、取得される。ステップ1020では、取得された全損失の誤差が、モデル全体に伝播される。その後、ステップ1022にて処理が終了する。
【0044】
図11は、各種の実施の形態にかかる入力画像処理システム1100を示すブロック図である。一例では、画像入力の管理は、少なくとも撮像装置1102及び装置1104によって行われる。システム1100は、装置1104と通信する撮像装置1102を有する。実装において、装置1104は、一般的に、少なくとも1つのプロセッサ1106と、コンピュータプログラムコードを有する少なくとも1つのメモリ1108と、を含む物理デバイスとして説明されてもよい。少なくとも1つのメモリ1108及びコンピュータプログラムコードは、少なくとも1つのプロセッサ1106とともに、
図7及び
図10の一方又は両方に示された動作を、物理デバイスが実行するように構成される。プロセッサ1106は、撮像装置1102から画像を受信するか、データベース1110から画像を取得するように構成される。
【0045】
撮像装置1102は、画像を入力できる装置であってもよい。例えば、デジタル画像を入力でき、又は、画像をスキャンしてスキャンした画像を入力として使用するように、画像の物理コピーを入力できる。撮像装置1102は、2D及び3Dキーポイント情報を有するグラウンドトゥルスデータを含むトレーニング画像を受信するように構成されてもよい。撮像装置は、画像を撮像し、その画像を装置1104の入力画像として使用できるカメラであってもよい。
【0046】
装置1104は、撮像装置1102及びデータベース1110と通信するものとして構成されてもよい。一例では、装置1104は、撮像装置1102から入力画像を受信してもよいし、又は、データベース1110から入力画像を取得してもよく、装置1104のプロセッサ1106での処理後、入力画像の抽出された特徴の投影キーポイント及び直接キーポイントに基づいて信頼性スコアを計算してもよい。信頼性スコアが高いほど、投影キーポイント及び直接キーポイントの精度は高い。装置1104は、抽出された各特徴の整合性損失の値と入力画像のグランドトゥルスデータに基づいて総損失を計算し、総損失に基づいて総損失誤差を導出し、総損失誤差をモデルレンダリングに伝播させるように構成されてもよい。
【0047】
図12は、以下において同じ意味でコンピュータシステム1200又は装置1200と称される、例示的な計算装置1200を示している。
図11に示すシステム1100又は既出の図の方法を実装するために、1つ以上の、上述のような計算装置1200を用いてもよい。計算装置1200についての以下の説明は例示に過ぎず、これによって制限されるものではない。
【0048】
図12に示すように、例示である計算装置1200は、ソフトウェアルーチンを実行するためのプロセッサ1204を有する。明確化のため、単一のプロセッサが表示されているが、計算装置1200はマルチプロセッサシステムを含んでいてもよい。プロセッサ1204は、計算装置1200の他のコンポーネントと通信するための通信インフラストラクチャ1206に接続される。通信インフラストラクチャ1206は、例えば、通信バス、クロスバー又はネットワークを含んでいてもよい。
【0049】
計算装置1200は、ランダムアクセスメモリ(RAM)などの一次メモリ1208と、二次メモリ1210と、をさらに有する。二次メモリ1210は、例えば、ハードディスクドライブ、ソリッドステートドライブ又はハイブリッドドライブであってもよいストレージドライブ1212、及び/又は、磁気テープドライブ、光ディスクドライブ、ソリッドステートストレージドライブ(USBフラッシュドライブ、フラッシュメモリデバイス、ソリッドステートドライブ又はメモリカードなど)などを有していてもよいリムーバブルストレージドライブ1214を含んでもよい。リムーバブルストレージドライブ1214は、既知の方法で、リムーバブルストレージ媒体1218からの読み出し及びリムーバブルストレージ媒体1218への書き込みの一方又は両方を行う。リムーバブルストレージ媒体1218は、磁気テープ、光ディスク、不揮発性メモリ記憶媒体などを含んでもよく、リムーバブルストレージドライブ1214によって読み書きされる。関連技術における当業者であれば理解できるように、リムーバブルストレージ媒体1218は、コンピュータが実行可能なプログラムコード命令及びデータの一方又は両方を格納した、コンピュータが読み取り可能な記憶媒体を含む。
【0050】
別の実装においては、二次メモリ1210は、コンピュータプログラム又は他の命令を計算装置1200にロードできるようにするために、他の同様の手段を追加的又は代替的に含んでいてもよい。このような手段には、例えば、リムーバブルストレージユニット1222及びインターフェイス1220を含めることができる。リムーバブルストレージユニット1222及びインターフェイス1220の例としては、プログラムカートリッジ及びカートリッジインターフェイス(ビデオゲームコンソールデバイスに見られるものなど)、リムーバブルメモリチップ(例えばEPROM又はPROM)及び関連ソケット、リムーバブルソリッドステート記憶装置(例えば、USBフラッシュドライブ、フラッシュメモリデバイス、ソリッドステートドライブ又はメモリカード)、その他のリムーバブルストレージユニット1222及びインターフェイス1220を含んでいてもよく、これらによってソフトウェア及びデータをリムーバブルストレージユニット1222からコンピュータシステム1200に転送することができる。
【0051】
また、計算装置1200は、少なくとも1つの通信インターフェイス1224を含む。通信インターフェイス1224によって、通信経路1226を介して計算装置1200と外部デバイスとの間で、ソフトウェア及びデータを転送することができる。本発明の各種の実施の形態においては、通信インターフェイス1224によって、計算装置1200と、公的データ又は私的データの通信ネットワークなどのデータ通信ネットワークと、の間でデータを転送することができる。通信インターフェイス1224は、上述のような相互接続されたコンピュータネットワークの一部を形成する、異なる計算装置1200間でデータのやり取りを行うために用いられてもよい。通信インターフェイス1224の例は、モデム、ネットワークインターフェイス(イーサネットカードなど)、通信ポート(シリアル、パラレル、プリンタ、GPIB、IEEE 1394、RJ45、USBなど)、付属回路を有するアンテナなどを含むことができる。通信インターフェイス1224は、有線であってもよく、無線であってもよい。通信インターフェイス1224を介して転送されるソフトウェア及びデータは、通信インターフェイス1224で受信可能な電子信号、電磁信号、光学信号又はその他の信号の形式である。これらの信号は、通信経路1226を介して、通信インターフェイスに提供される。
【0052】
図12に示すように、計算装置1200は、関連するディスプレイ1230に画像をレンダリングする操作を実行するディスプレイインターフェイス1202と、関連するスピーカー1234を介してオーディオコンテンツを再生する操作を実行するオーディオインターフェイス1232と、さらに有してもよい。
【0053】
ここで用いられる「プログラム製品」(又は、非一時的なコンピュータ可読媒体であってもよいコンピュータ可読媒体)という用語は、部分的に、リムーバブルストレージ媒体1218、リムーバブルストレージユニット1222及びストレージドライブ1212に取り付けられたハードディスク又は通信経路1226(無線リンクまたはケーブル)を介して通信インターフェイス1224にソフトウェアを運ぶ搬送波を指すものであってもよい。コンピュータ可読記憶媒体(またはコンピュータ可読媒体)は、実行及び/又は処理のために記録された命令及び/又はデータを計算装置1200に提供する、任意の非一時的かつ不揮発性の有形記憶媒体を指す。このような記憶媒体の例としては、磁気テープ、CD-ROM、DVD、Blu-ray(登録商標)ディスク、ハードディスクドライブ、ROMまたは集積回路、ソリッドステートストレージドライブ(USBフラッシュドライブ、フラッシュメモリデバイス、ソリッドステートドライブ、メモリカードなど)、ハイブリッドドライブ、光磁気ディスク又はPCMCIAカードなどのコンピュータ可読カードなどが有り、これらのデバイスが計算装置1200の内部に有るか、又は、外部に有るかは問わない。計算装置1200へのソフトウェア、アプリケーションプログラム、命令及び/又はデータの提供に関わる可能性のある一時的又は無形のコンピュータ可読伝送媒体の例としては、無線又は赤外線の伝送チャネルだけでなく、別のコンピュータ又はネットワーク化されたデバイスへのネットワーク接続、電子メールの送信及びウェブサイトなどに記録された情報などを含むインターネット又はイントラネットがある。
【0054】
コンピュータプログラム(コンピュータプログラムコードとも呼ばれる)は、一次メモリ1208及び二次メモリ1210の一方又は両方に格納される。コンピュータプログラムは、通信インターフェイス1224を介して受信することもできる。このようなコンピュータプログラムが実行されることで、計算装置1200は、ここで説明する実施の形態の1つ以上の特徴を実現できる。各種の実施の形態において、コンピュータプログラムが実行されることで、プロセッサ1204が上述の実施の形態の特徴を実現できる。したがって、このようなコンピュータプログラムは、コンピュータシステム1200のコントローラとして振る舞う。
【0055】
ソフトウェアは、コンピュータプログラム製品に格納され、リムーバブルストレージドライブ1214、ストレージドライブ1212又はインターフェイス1220を使用して、計算装置1200にロードされる。コンピュータプログラム製品は、非一時的なコンピュータ可読媒体であってもよい。また、コンピュータプログラム製品は、通信経路1226を介してコンピュータシステム1200にダウンロードされてもよい。ソフトウェアがプロセッサ1204によって実行されることで、計算装置1200はここで説明される実施の形態の機能を実行する。
【0056】
図12の実施の形態は、単なる例示であるものと理解されるべきである。よって、いくつかの実施の形態では、計算装置1200の1つ以上の特徴を省略してもよい。また、いくつかの実施の形態では、計算装置1200の1つ以上の特徴を組み合わせてもよい。さらに、いくつかの実施の形態では、計算装置1200の1つ以上の特徴が、1つ以上の部品に分割されてもよい。
【0057】
広範に説明される本発明の精神または範囲から逸脱することなく、特定の実施の形態に示されているように、本発明に対して、多数のバリエーション及び修正の一方又は両方を加えることができることは、当業者にとっては言うまでも無い。例えば、上述では、主に視覚的インターフェイス上での警報を提示している。しかし、音声での警報のような別のタイプの警報の提示を代替的な実施の形態で使用して、同様の方法を実装できることは、言うまでも無い。例えば、アクセスポイントの追加、ログインルーチンの変更など、いくつかの変更を検討し、かつ、組み込むことができる。したがって、本実施の形態は、全ての点において例示的であり、限定的ではないと考えられる。
【0058】
例えば、上述の実施の形態の全部又は一部は、以下のように付記として記述することができるが、これには限定されない。
【0059】
(付記1)プロセッサにより、入力画像の特徴の投影キーポイント及び直接キーポイントを取得し、前記投影キーポイントは前記入力画像の3Dレンダリングから投影された前記特徴の第1の座標セットを含み、前記直接キーポイントは前記特徴の2Dレンダリングに基づく前記特徴の第2の座標セットを含み、前記プロセッサにより、前記投影キーポイント及び前記直接キーポイントに基づく信頼性スコアを計算し、前記信頼性スコアが高いほど、前記投影キーポイント及び前記直接キーポイントの精度が高いことを示す、入力画像の処理方法。
【0060】
(付記2)前記直接キーポイントの可視性値をさらに取得し、前記可視性値は前記2Dレンダリングによって計算され、前記信頼性スコアの計算は、さらに、前記可視性値、前記投影キーポイント及び前記直接キーポイントに数式を適用する、付記1に記載の入力画像の処理方法。
【0061】
(付記3)前記2Dレンダリングはヒートマップレンダリングであり、前記特徴のヒートマップレンダリングは前記特徴の1つ以上の座標セットを有し、前記1つ以上の座標セットのそれぞれは確率値を有し、前記第2の座標セットは、前記1つ以上の座標セットの中で最高の確率値を有する、付記2に記載の入力画像の処理方法。
【0062】
(付記4)前記信頼性スコアを閾値と比較し、前記信頼性スコアが前記閾値よりも低い場合、前記投影キーポイント及び前記直接キーポイントが拒否される、付記1に記載の入力画像の処理方法。
【0063】
(付記5)プロセッサにより、入力画像の各特徴の投影キーポイント及び直接キーポイントを取得し、前記投影キーポイントは前記入力画像の3Dレンダリングから投影された各特徴の第1の座標セットを含み、前記直接キーポイントは各特徴の2Dレンダリングに基づく各特徴の第2の座標セットを含み、前記プロセッサにより、前記投影キーポイントのそれぞれ及び前記直接キーポイントのそれぞれに基づく各特徴の整合性損失値を計算し、前記プロセッサにより、各特徴の前記整合性損失値及び前記入力画像のグランドトゥルスデータに基づいて総損失を計算し、前記総損失に基づいて総損失誤差を導出し、前記プロセッサにより、前記総損失誤差をモデルレンダリングへ伝播させる、入力画像のモデルレンダリングのトレーニング方法。
【0064】
(付記6)前記直接キーポイントの可視性値をさらに取得し、前記可視性値は前記2Dレンダリングによって計算され、前記整合性損失の計算は、さらに、前記可視性値、前記投影キーポイント及び前記直接キーポイントに数式を適用する、付記5に記載の入力画像のモデルレンダリングのトレーニング方法。
【0065】
(付記7)前記2Dレンダリングはヒートマップレンダリングであり、前記特徴のヒートマップレンダリングは前記特徴それぞれについて1つ以上の座標セットを含み、前記1つ以上の座標セットのそれぞれが確率値を有し、前記第2の座標セットは、前記1つ以上の座標セットの中で、最高の確率値を有する、付記5に記載の入力画像のモデルレンダリングのトレーニング方法。
【0066】
(付記8)前記プロセッサは、前記入力画像の前記3Dレンダリングから、各特徴の3Dキーポイントをさらに取得する、付記6に記載の入力画像のモデルレンダリングのトレーニング方法。
【0067】
(付記9)前記グランドトゥルスデータは、グランドトゥルス2Dキーポイント及びグランドトゥルス3Dキーポイントを含み、前記総損失の計算は、さらに、前記投影キーポイントの位置と前記グランドトゥルス2Dキーポイントの位置との間の誤差に対応する2D投影キーポイント損失と、前記3Dキーポイントの位置と前記グランドトゥルス3Dキーポイントの位置との間の誤差に対応する3Dキーポイント損失と、前記直接キーポイントの位置と前記グランドトゥルス2Dキーポイントの位置との間の誤差に対応する2Dキーポイント損失と、を有する数式を適用する、付記8に記載の入力画像のモデルレンダリングのトレーニング方法。
【0068】
(付記10)前記総損失の計算は、さらに、前記2D投影キーポイント損失、前記3Dキーポイント損失、前記2Dキーポイント損失及び前記整合性損失値の少なくとも1つに重みを適用する、付記9に記載の入力画像のモデルレンダリングのトレーニング方法。
【0069】
(付記11)プロセッサと通信し、前記プロセッサによって実行可能な記録されたコンピュータプログラムを格納するメモリを備え、前記コンピュータプログラムの実行により、少なくとも、入力画像の特徴の投影キーポイント及び直接キーポイントを取得し、前記投影キーポイントは前記入力画像の3Dレンダリングから投影された特徴の第1の座標セットを含み、前記直接キーポイントは前記特徴の2Dレンダリングに基づく前記特徴の第2の座標セットを含み、前記投影キーポイント及び前記直接キーポイントに基づく信頼性スコアを計算し、前記信頼性スコアが高いほど、前記投影キーポイント及び前記直接キーポイントの精度が高いことを示す、入力画像の処理装置。
【0070】
(付記12)前記メモリ及び前記コンピュータプログラムが前記プロセッサによって実行されることで、前記装置は、さらに、前記直接キーポイントの可視性値を取得し、前記可視性値は前記2Dレンダリングによって計算され、前記信頼性スコアの計算は、さらに、前記可視性値、前記投影キーポイント及び前記直接キーポイントに数式を適用する、付記11に記載の入力画像の処理装置。
【0071】
(付記13)前記2Dレンダリングはヒートマップレンダリングであり、前記特徴のヒートマップレンダリングは前記特徴の1つ以上の座標セットを含み、前記1つ以上の座標セットのそれぞれは確率値を有し、前記第2の座標セットは、が前記1つ以上の座標セットの中で、最高の確率値を有する、付記12に記載の入力画像の処理装置。
【0072】
(付記14)前記メモリ及び前記コンピュータプログラムが前記プロセッサによって実行されることで、前記装置は、さらに、前記信頼性スコアを閾値と比較し、前記信頼性スコアが前記閾値より低い場合、前記投影キーポイント及び前記直接キーポイントが拒否される、付記11に記載の入力画像の処理装置。
【0073】
(付記15)プロセッサと通信し、前記プロセッサによって実行可能な記録されたコンピュータプログラムを格納するメモリを備え、前記コンピュータプログラムの実行により、少なくとも、入力画像の各特徴の投影キーポイント及び直接キーポイントを取得し、前記投影キーポイントは前記入力画像の3Dレンダリングから投影された各特徴の第1の座標のセットを含み、前記直接キーポイントは各特徴の2Dレンダリングに基づく各特徴の第2の座標セットを含み、前記投影キーポイントのそれぞれ及び前記直接キーポイントのそれぞれに基づく整合性損失値を計算し、各特徴の前記整合性損失値及び前記入力画像のグランドトゥルスデータに基づいて総損失を計算し、前記総損失に基づいて総損失誤差を導出し、前記総損失誤差をモデルレンダリングへ伝播させる、入力画像のモデルレンダリングのトレーニング装置。
【0074】
(付記16)前記メモリ及び前記コンピュータプログラムが前記プロセッサによって実行されることで、前記装置は、さらに、前記直接キーポイントの可視性値を取得し、前記可視性値は2Dレンダリングによって計算され、前記整合性損失値の計算は、さらに、前記可視性値、前記投影キーポイント及び前記直接キーポイントに数式を適用する、付記15に記載の入力画像のモデルレンダリングのトレーニング装置。
【0075】
(付記17)前記2Dレンダリングはヒートマップレンダリングであり、前記特徴のヒートマップレンダリングは前記特徴の1つ以上の座標セットを含み、前記1つ以上の座標セットのそれぞれが確率値を有し、前記第2の座標セットは、前記1つ以上の座標セットの中で、最高の確率値を有する、付記16に記載の入力画像のモデルレンダリングのトレーニング装置。
【0076】
(付記18)前記メモリ及び前記コンピュータプログラムが前記プロセッサによって実行されることで、前記装置は、さらに、前記入力画像の前記3Dレンダリングから各特徴の3Dキーポイントを取得する、付記15に記載の入力画像のモデルレンダリングのトレーニング装置。
【0077】
(付記19)前記グランドトゥルスデータは、グランドトゥルス2Dキーポイント及びグランドトゥルス3Dキーポイントを含み、前記メモリ及び前記コンピュータプログラムが前記プロセッサによって実行されることで、前記装置は、さらに、前記投影キーポイントの位置と前記グランドトゥルス2Dキーポイントの位置との間の誤差に対応する2D投影キーポイント損失と、前記3Dキーポイントの位置と前記グランドトゥルス3Dキーポイントの位置との間の誤差に対応する3Dキーポイント損失と、前記直接キーポイントの位置と前記グランドトゥルス2Dキーポイントの位置との間の誤差に対応する2Dキーポイント損失と、を含む数式を適用して、前記総損失を計算する、付記18に記載の入力画像のモデルレンダリングのトレーニング装置。
【0078】
(付記20)前記メモリ及び前記コンピュータプログラムが前記プロセッサによって実行されることで、前記装置は、さらに、前記2D投影キーポイント損失、前記3Dキーポイント損失、前記2Dキーポイント損失及び前記整合性損失値の少なくとも1つに重みを適用する、付記19に記載の入力画像のモデルレンダリングのトレーニング装置。
【0079】
(付記21)付記11~14のいずれか1つに記載の前記装置と、少なくとも1つの撮像装置と、を備える、入力画像の処理システム。
【0080】
(付記22)付記15~20のいずれか1つに記載の前記装置と、少なくとも1つの撮像装置と、を備える、入力画像のモデルレンダリングのトレーニングシステム。
【0081】
本発明は、実施の形態を参照して特に示され、かつ、説明されているが、本発明はこれらの実施の形態に例に限定されるものではない。本発明の精神および範囲から逸脱することなく、形態および細部に様々な変更を加えることができることは、当業者には理解されるであろう。
【0082】
本出願は、2021年5月5日に出願されたシンガポール特許出願10202104691Xに基づき、かつ、本出願を基礎とする優先権の利益を主張するものであり、本出願においる開示は参照によりその全体が本出願に組み込まれる。