特許7586344 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7586344入力画像の処理方法、入力画像の処理装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-11

(45)【発行日】2024-11-19

(54)【発明の名称】入力画像の処理方法、入力画像の処理装置及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20241112BHJP

G06V 10/40 20220101ALI20241112BHJP

【ＦＩ】

G06T7/00 300F

G06V10/40

【請求項の数】 9

(21)【出願番号】P 2023567046

(86)(22)【出願日】2022-03-23

(65)【公表番号】

(43)【公表日】2024-04-11

(86)【国際出願番号】 JP2022013764

(87)【国際公開番号】W WO2022234741

(87)【国際公開日】2022-11-10

【審査請求日】2023-10-31

(31)【優先権主張番号】10202104691X

(32)【優先日】2021-05-05

(33)【優先権主張国・地域又は機関】SG

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100103894

【弁理士】

【氏名又は名称】家入健

(72)【発明者】

【氏名】山崎智史

(72)【発明者】

【氏名】ペーウェイジアン

(72)【発明者】

【氏名】オングフイラム

(72)【発明者】

【氏名】オングホンイェン

【審査官】豊田好一

(56)【参考文献】

【文献】特開２００７－２３３９９７（ＪＰ，Ａ）

【文献】特表２０２０－５３５５６８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｖ１０／４０

(57)【特許請求の範囲】

【請求項1】

プロセッサにより、入力画像の特徴の投影キーポイント及び直接キーポイントを取得し、
前記投影キーポイントは前記入力画像の３Ｄレンダリングから投影された前記特徴の第１の座標セットを含み、前記直接キーポイントは前記特徴の２Ｄレンダリングに基づく前記特徴の第２の座標セットを含み、
前記プロセッサにより、前記投影キーポイント及び前記直接キーポイントに基づく信頼性スコアを計算し、
前記信頼性スコアが高いほど、前記投影キーポイント及び前記直接キーポイントの精度が高いことを示す、
入力画像の処理方法。

【請求項2】

前記直接キーポイントの可視性値をさらに取得し、
前記可視性値は前記２Ｄレンダリングによって計算され、
前記信頼性スコアの計算は、さらに、前記可視性値、前記投影キーポイント及び前記直接キーポイントに数式を適用する、
請求項１に記載の入力画像の処理方法。

【請求項3】

前記２Ｄレンダリングはヒートマップレンダリングであり、
前記特徴のヒートマップレンダリングは前記特徴の１つ以上の座標セットを有し、前記１つ以上の座標セットのそれぞれは確率値を有し、
前記第２の座標セットは、前記１つ以上の座標セットの中で最高の確率値を有する、
請求項２に記載の入力画像の処理方法。

【請求項4】

前記信頼性スコアを閾値と比較し、
前記信頼性スコアが前記閾値よりも低い場合、前記投影キーポイント及び前記直接キーポイントが排除される、
請求項１に記載の入力画像の処理方法。

【請求項5】

プロセッサと通信し、前記プロセッサによって実行可能な記録されたコンピュータプログラムを格納するメモリを備え、
前記コンピュータプログラムの実行により、少なくとも、
入力画像の特徴の投影キーポイント及び直接キーポイントを取得し、
前記投影キーポイントは前記入力画像の３Ｄレンダリングから投影された特徴の第１の座標セットを含み、前記直接キーポイントは前記特徴の２Ｄレンダリングに基づく前記特徴の第２の座標セットを含み、
前記投影キーポイント及び前記直接キーポイントに基づく信頼性スコアを計算し、
前記信頼性スコアが高いほど、前記投影キーポイント及び前記直接キーポイントの精度が高いことを示す、
入力画像の処理装置。

【請求項6】

前記メモリ及び前記コンピュータプログラムが前記プロセッサによって実行されることで、さらに、前記直接キーポイントの可視性値を取得し、
前記可視性値は前記２Ｄレンダリングによって計算され、
前記信頼性スコアの計算は、さらに、前記可視性値、前記投影キーポイント及び前記直接キーポイントに数式を適用する、
請求項５に記載の入力画像の処理装置。

【請求項7】

前記２Ｄレンダリングはヒートマップレンダリングであり、
前記特徴のヒートマップレンダリングは前記特徴の１つ以上の座標セットを含み、前記１つ以上の座標セットのそれぞれは確率値を有し、
前記第２の座標セットは、が前記１つ以上の座標セットの中で、最高の確率値を有する、
請求項６に記載の入力画像の処理装置。

【請求項8】

前記メモリ及び前記コンピュータプログラムが前記プロセッサによって実行されることで、さらに、前記信頼性スコアを閾値と比較し、
前記信頼性スコアが前記閾値より低い場合、前記投影キーポイント及び前記直接キーポイントが拒否される、
請求項５に記載の入力画像の処理装置。

【請求項9】

入力画像の特徴の投影キーポイント及び直接キーポイントを取得する処理と、
前記投影キーポイント及び前記直接キーポイントに基づく信頼性スコアを計算する処理と、をコンピュータに実行させ、
前記投影キーポイントは前記入力画像の３Ｄレンダリングから投影された前記特徴の第１の座標セットを含み、前記直接キーポイントは前記特徴の２Ｄレンダリングに基づく前記特徴の第２の座標セットを含み、
前記信頼性スコアが高いほど、前記投影キーポイント及び前記直接キーポイントの精度が高いことを示す、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、広範には画像処理方法及び装置に関するが、これらに限定されるものではない。

【背景技術】

【0002】

２Ｄ画像から３Ｄオブジェクトをレンダリングする画像処理は、学術研究のみならず、企業向け市場においても注目されている。例えば、衣服のデザインを目的として、人物の写真から３Ｄの人物アバターを生成できる。この技術は、スポーツシーンの分析や不審行動の分析など、多くの応用分野において有用である。

【0003】

ＨＭＲ（human mesh recovery）などの回帰ベースの３Ｄでの人物及び形状の推定は、入力画像から人体モデルを推定してレンダリングする方法の１つである（非特許文献１を参照）。この方法では、画像を分析して、画像に存在する人体の形状を特定する。特定された人体の形状の頂点及び表面の３Ｄ座標を生成するとともに、特定された人体の形状について、３Ｄ座標におけるカメラの視野及び角度を判定する。その後、これらの出力から、２Ｄ投影体キーポイント（ＫＰＴ）を算出できる。

【先行技術文献】

【非特許文献】

【0004】

【文献】Kanazawa, Angjoo, et al. "End-to-end recovery of human shape and pose. " Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018

【発明の概要】

【発明が解決しようとする課題】

【0005】

回帰ベースの人物モデルフィッティングの既存技術においては、結果の信頼度、すなわち結果が正確であるという信頼度を保証することは困難である。複数の人が存在する混雑した場所の画像では、ＨＭＲによってすべての人体を識別できるわけではなく、１つの人体レンダリングのみを識別して、出力が生成されることがある。画像内の人物が部分的にしか見えない場合には、結果の出力も不正確になるおそれが有る。しかし、上述のシナリオによって発生するおそれの有る不正確な結果をフィルタリングする方法は存在しない。

【0006】

既存の２Ｄ人体ＫＰＴ推定技術とは異なり、ＨＭＲでは、トレーニングデータから正確な２Ｄ投影ＫＰＴを学習するのは困難である。ＨＭＲは、２Ｄ投影ＫＰＴの直接的な回帰結合損失によってトレーニングできる。しかし、ＫＰＴヒートマップ学習のような他の２Ｄ人体ＫＰＴトレーニング技術と比較して、この損失は、トレーニングデータから多くの教師あり信号を取ることができない。

【0007】

ここでは、上記の問題の１つ以上に対処する画像処理装置及び方法の実施の形態を開示する。

【0008】

さらに、他の望ましい特徴及び特性は、添付図面及び本開示における背景技術と併せて、以下の詳細な説明及び添付の請求項から明らかになるであろう。

【課題を解決するための手段】

【0009】

第１の形態においては、本開示は、プロセッサにより、入力画像の特徴の投影キーポイント及び直接キーポイントを取得し、前記投影キーポイントは前記入力画像の３Ｄレンダリングから投影された前記特徴の第１の座標セットを含み、前記直接キーポイントは前記特徴の２Ｄレンダリングに基づく前記特徴の第２の座標セットを含み、前記プロセッサにより、前記投影キーポイント及び前記直接キーポイントに基づく信頼性スコアを計算し、前記信頼性スコアが高いほど、前記投影キーポイント及び前記直接キーポイントの精度が高いことを示す、入力画像の処理方法を提供する。

【0010】

第２の形態においては、本開示は、プロセッサと通信し、前記プロセッサによって実行可能な記録されたコンピュータプログラムを格納するメモリを備え、前記コンピュータプログラムの実行により、少なくとも、入力画像の特徴の投影キーポイント及び直接キーポイントを取得し、前記投影キーポイントは前記入力画像の３Ｄレンダリングから投影された特徴の第１の座標セットを含み、前記直接キーポイントは前記特徴の２Ｄレンダリングに基づく前記特徴の第２の座標セットを含み、前記投影キーポイント及び前記直接キーポイントに基づく信頼性スコアを計算し、前記信頼性スコアが高いほど、前記投影キーポイント及び前記直接キーポイントの精度が高いことを示す、入力画像の処理装置を提供する。

【0011】

第３の形態においては、本開示は、第２の形態にかかる前記装置と、少なくとも１つの撮像装置と、を備える、入力画像の処理システムを提供する。

【0012】

第４の形態においては、本開示は、プロセッサにより、入力画像の各特徴の投影キーポイント及び直接キーポイントを取得し、前記投影キーポイントは前記入力画像の３Ｄレンダリングから投影された各特徴の第１の座標セットを含み、前記直接キーポイントは各特徴の２Ｄレンダリングに基づく各特徴の第２の座標セットを含み、前記プロセッサにより、前記投影キーポイントのそれぞれ及び前記直接キーポイントのそれぞれに基づく各特徴の整合性損失値を計算し、前記プロセッサにより、各特徴の前記整合性損失値及び前記入力画像のグランドトゥルスデータに基づいて総損失を計算し、前記総損失に基づいて総損失誤差を導出し、前記プロセッサにより、前記総損失誤差をモデルレンダリングへ伝播させる、入力画像のモデルレンダリングのトレーニング方法を提供する。

【0013】

第５の形態においては、本開示は、プロセッサと通信し、前記プロセッサによって実行可能な記録されたコンピュータプログラムを格納するメモリを備え、前記コンピュータプログラムの実行により、少なくとも、入力画像の各特徴の投影キーポイント及び直接キーポイントを取得し、前記投影キーポイントは前記入力画像の３Ｄレンダリングから投影された各特徴の第１の座標のセットを含み、前記直接キーポイントは各特徴の２Ｄレンダリングに基づく各特徴の第２の座標セットを含み、前記投影キーポイントのそれぞれ及び前記直接キーポイントのそれぞれに基づく整合性損失値を計算し、各特徴の前記整合性損失値及び前記入力画像のグランドトゥルスデータに基づいて総損失を計算し、前記総損失に基づいて総損失誤差を導出し、前記総損失誤差をモデルレンダリングへ伝播させる、入力画像のモデルレンダリングのトレーニング装置を提供する。

【0014】

第６の形態においては、本開示は、第５の形態にかかる前記装置と、少なくとも１つの撮像装置と、を備える、入力画像のモデルレンダリングのトレーニングシステムを提供する。

【図面の簡単な説明】

【0015】

添付の図面は、個別の図全体にわたって同一の参照番号が同一又は機能的に同様の要素を指すものであってよく、以下の詳細な説明とともに本明細書に組み込まれ、かつ、その一部を形成するものであり、非限定的な例として、様々な実施の形態を示し、様々な原理及び利点の説明するために有用である。

【0016】

本発明の実施の形態は、単なる例示として、図面と併せて、以下の記述による説明から、当業者によりよく理解され、かつ、容易に明らかになるであろう。

【図1】本開示の各種の実施の形態にかかる２Ｄ画像から３Ｄメッシュを生成する処理を例示する図である。

【図2A】隠れた人物や人体のキーポイントの可視性欠如によって生成されるおそれのある不正確な３Ｄ人体モデルのそれぞれを示す図である。

【図2B】隠れた人物や人体のキーポイントの可視性欠如よって生成されるおそれのある不正確な３Ｄ人体モデルのそれぞれを示す図である。

【図3】本開示の各種の実施の形態にかかるキーポイントヒートマップ推定を示す図である。

【図4】本開示の各種の実施の形態にかかる、２Ｄ姿勢の可視性及び整合性に基づく信頼性スコア計算のフロー図である。

【図5】本開示の各種の実施の形態にかかる、取得した信頼性スコアと閾値とがどのように比較され得るかを示す図である。

【図6】本開示の各種の実施の形態にかかる信頼性スコア計算のための構成図である。

【図7】本開示の各種の実施の形態にかかる信頼性スコア計算のフローチャートの例である。

【図8】本開示の各種の実施の形態にかかる整合性損失の計算を伴う拡張ＨＭＲネットワークアーキテクチャを示す図である。

【図9】本開示の各種の実施の形態にかかるモデルトレーニング計算のための構成図である。

【図10】本開示の各種の実施の形態にかかるトレーニング画像のモデルレンダリングのトレーニングのフローチャートの例である。

【図11】本開示の各種の実施の形態にかかる入力画像の処理システムを示すブロック図である。

【図12】先行する図の方法を実行するために使用可能な例示的な計算装置を示す図である。

【発明を実施するための形態】

【0017】

用語の説明
キーポイント（ＫＰＴ）は、頭頂部、肩、肘、その他の類似の体の部位又は関節などの、体の部位の点を指す。利用可能な人体キーポイントは、鼻、目の内側の部分、目の外側の部分、耳、口の右側及び左側、手首、各指関節、左右の腰、膝、足首、かかと、足、つま先、その他の同様の体の部位又は関節などの体の部位も含む。

【0018】

３Ｄの姿勢及び形状のリグレッサは、ヒューマンメッシュ（頂点と表面）の３次元位置を推定するモジュール又は処理、及び、入力画像において識別される２Ｄの人体の形状及び姿勢に合致した３Ｄのヒューマンメッシュをレンダリングするためのカメラの３Ｄの位置及び角度の一方又は両方を含むカメラパラメータを指す。モジュールは、例えば、トレーニング可能なニューラルネットワークモデルであってもよい。３Ｄの人物の姿勢及び形状の推定処理の例を図１に示す。図１では、入力画像１０２を処理することで、画像１０２に示されている人物を代表するキーポイントが取得される。これらのキーポイントは、画像１０２に示されている人物の形状及び姿勢に合致した３Ｄメッシュ１０４の推定に使用される。そして、テクスチャオーバーレイを３Ｄメッシュ１０４に適用して、３Ｄモデル１０６を形成してもよい。３Ｄモデル１０６から、さらなるテクスチャの改善が可能であることが理解されよう。生成された３Ｄモデル１０６（又は、その改良版）は、衣服デザイン用のデザイナーツール、監視用途、不審行動の分析、ゲーム及びその他の類似用途など、様々な用途のためのアバターとして使用できる。

【0019】

特徴－当該技術において一般的に使用されるように、特徴は、人間が読み取り／解釈できない場合があり得る値の任意のベクトルであってもよい。特徴は、例えば、２Ｄ画像から抽出されてもよい。画像から特徴を抽出する処理は、画像内の対象物の特徴を定量化する処理を指す。人物の姿勢推定及び／又はヒューマンメッシュリカバリのために、抽出された特徴からキーポイントが生成されてもよい。抽出された特徴は、例えば、人物の姿勢推定を改善するためのトレーニング可能なニューラルネットワークモデルで使用されてもよい。

【0020】

誤差伝播（error propagation）又は逆伝播（back propagation）は、ニューラルネットワークモデルに適合するアルゴリズムを指す。各重みに対する勾配を、個別に、簡素かつ直接に計算（naive direct computation）するのとは異なり、逆伝播は、単一の入出力例（single input-output example）について、ネットワークモデルの重みに対する損失関数の勾配を計算するものであり、効率的に計算を行う。

【0021】

グラウンドトゥルスデータは、機械学習モデルの入出力例を指す。ＨＭＲモデルトレーニングの場合には、通常、入力及び出力は、それぞれ画像及び３Ｄヒューマンメッシュである。通常、損失関数は入出力例によって計算される。機械学習モデルは、誤差伝播により損失関数を最小化することで、入力から同様の結果を出力する傾向がある。

【0022】

実施の形態
同じ符号を有する可能性のあるステップ及び／又は特徴が、添付図面のいずれか１つ以上で参照されている場合、これらのステップ及び／又は特徴は、説明の便宜上、異なる意味が示されない限り、同じ機能又は動作であるものとする。

【0023】

なお、「背景技術」の欄に記載される議論及び先行技術の構成に関する上述の議論は、その使用を通じて公知を形成する装置についての議論に関連している。このような議論は、当該装置がいかなる形であれ当該技術分野における一般的な知識の一部を形成することを、本願の発明者又は特許出願人が表明したものと解釈すべきではない。

【0024】

エンドツーエンド（End-to-end）ＨＭＲは、回帰ベースの３Ｄの人物の姿勢及び形状の推定の一形態であり、画像内で識別された人体形状に最も適合する人体モデルを生成するための画像の処理に基づくものである。入力は、人体が写り込んでいると予想される画像である。出力は、識別された人体の頂点及び表面の３Ｄ座標と、識別された人体に対する、３次元座標でのカメラの位置及び角度である。そして、これらの出力から、２Ｄ投影キーポイント（すなわち、例えばＸ－Ｙ座標での２Ｄ平面上に定義されたキーポイント）を計算することができる。人物の形状及び姿勢のエンドツーエンドリカバリの処理例では、入力画像を回帰的に処理して、識別された人体の頂点及び表面の３Ｄ座標と、入力画像内で識別された人体に対する３次元座標でのカメラの位置及び角度などの出力を、推定及び判定できる。３Ｄ人体モデルは、これらの出力に基づいて生成されてもよい。その後、キーポイントを３Ｄ人体モデルから２Ｄ投影平面に投影して、２Ｄ投影キーポイントを形成してもよい。

【0025】

しかし、上述したような回帰ベースの人物モデルフィッティングの既存技術では、特に複数の人物が写っている画像のように、人体が隠れていたり、可視性が欠如しているような困難な状況では、正確な人体モデルの出力は困難なのが一般的である。例えば、図２Ａは、画像２００においてキャプチャされた隠れた人物が存在するために生成されるおそれのある不正確な３Ｄ人体モデル２０２を示している。図２Ｂは、画像２０４で撮影された人物の人体キーポイントが見えないことで生成されるおそれのある不正確な３Ｄ人体モデル２０６を示している。回帰ベースの人物モデルフィッティングから得られた結果が正確であるという信頼水準を確保することは、一般的に困難である。また、人体キーポイントが見えていないため、不正確な結果をフィルタリングする方法も存在しない。

【0026】

回帰ベースの人物モデルフィッティングから投影された２Ｄキーポイントの精度も、問題である。既存の２Ｄ人体キーポイント推定技術とは異なり、ＨＭＲは、トレーニングデータから正確な２Ｄ投影キーポイントを学習するのは困難である。ＨＭＲは２Ｄ投影ＫＰＴの直接的な回帰結合損失によってトレーニングできる。しかし、ＫＰＴヒートマップ学習のような他の２Ｄ人体ＫＰＴトレーニング技術と比較して、この損失は、トレーニングデータから多くの教師あり信号を取ることはない。

【0027】

図３は、ＫＰＴヒートマップ推定のフロー図３００を示している。入力画像３０２は、２Ｄキーポイント推定処理３０４を介して処理され、入力画像３０２の各キーポイントのヒートマップ、例えばヒートマップ３０６を識別する。ヒートマップは、様々な変動確率の領域を有するマップとして一般化でき、ヒートマップに関連付けられたキーポイントの位置は、確率マップにおいて最も高い確率を有する座標によって推定できる。また、可視性又は信頼値についてもヒートマップから導出することができる。可視性又は信頼値は、マップの最高の確率値であってもよい。現在、ヒートマップ学習手法のような２Ｄトレーニング方法をＨＭＲで利用する方法はない。

【0028】

図４は、上記の問題に対処するために、２Ｄ姿勢の可視性及び整合性に基づく信頼性スコアの計算のフロー図４００を示す。信頼性スコアの計算は、可視的なキーポイントは精度の点でより高い信頼値を有する傾向があり、異なる方法の間で結果が一致している場合には結果が正確であり、より高い信頼性を有するという前提に基づいている。フロー図４００では、入力画像４０２の特徴に対して、投影されたキーポイントが取得される。（例えば、上記のような３Ｄ姿勢及び形状の回帰技術や、この技術分野における既知の３Ｄ推定技術による）３Ｄ姿勢及び形状の推定処理４０４を、３Ｄレンダリング４０６の生成に用いられる入力画像４０２の特徴に対して適用し、その後、３Ｄ－２Ｄキーポイント投影処理４０８を３Ｄレンダリング４０６に適用して特徴に関連付けられた投影キーポイントの座標を取得することで、投影キーポイントを取得することができる。投影キーポイントは、入力画像４０２の３Ｄレンダリング４０６から投影された特徴の座標セットで構成される。入力画像４０２の複数の特徴から複数の投影キーポイント４１０を取得できる。

【0029】

さらに、入力画像４０２の特徴の２Ｄレンダリングに基づいて、直接キーポイントを取得する。具体的には、（例えば、図３で示されるヒートマップ推定や、当該技術分野において既知の他の２Ｄ推定技術を使用することで）入力画像４０２の特徴に２Ｄキーポイント推定処理４１２を適用して、直接キーポイントを取得できる。直接キーポイントは、入力画像４０２の２Ｄレンダリングに基づいた特徴の座標セットで構成される。２Ｄレンダリングがヒートマップレンダリングである場合、ヒートマップレンダリングは、特徴の１つ以上の座標セットで構成され、１つ以上の座標セットのそれぞれが確率値を有し、直接キーポイントの座標セットが１つ以上の座標セットの中で最高の確率値を有する。複数の直接キーポイント４１４が、入力画像４０２の複数の特徴から取得できる。

【0030】

その後、４１６において、投影キーポイント及び直接キーポイントに基づいて信頼性スコアが計算され、信頼性スコアが高いほど投影キーポイント及び直接キーポイントの精度が高いことを示す。信頼性スコアは、例えば、以下のような式を適用して計算できる。

【数1】

【0031】

上式は、投影キーポイント及び直接キーポイントについて取得した位置又は座標と、直接キーポイントの可視性値ｖと、に基づいている。上式では、まず、投影キーポイント及び直接キーポイントに基づいて整合性スコアを計算し、次いで、整合性スコアと可視性値ｖとを乗算して信頼性スコアを計算する。整合性スコア計算でのチューニングパラメータαは、この計算においてより正確なスコアを取得するために、実験に基づいて手動でチューニング可能な予め固定された値であってもよい。可視性値ｖは、２Ｄキーポイント推定処理４１２中で取得されてもよい。例えば、ヒートマップ推定が処理４１２に対して使用されている場合、可視性値は、関連付けられた特徴のヒートマップの最高の確率値であってもよい。当該技術分野において既知の他の２Ｄ推定技術を、可視性値を取得する対応する方法で利用できることは、言うまでもない。上式を適用することにより、投影キーポイント及び直接キーポイントの精度を好適に示す信頼性スコアが取得される。

【0032】

また、図５に示すように、得られた信頼性スコアは、閾値と比較されてもよい。例えば、信頼性スコア計算処理５０２の完了後に信頼性スコアが得られ、信頼性スコア閾値処理５０４において、信頼性スコアが信頼性スコア閾値と比較される。信頼性スコアが入力画像の特徴５０６の閾値よりも低い場合、特徴５０６に関連付けられた投影キーポイント及び直接キーポイントは、不正確と判断されてもよい。信頼性スコアが入力画像の特徴５０８の閾値以上の場合、特徴５０８に関連付けられた投影キーポイント及び直接キーポイントは、正確と判断されてもよい。これにより、不正確な結果を特定して、排除することができる。

【0033】

図６に、上述の信頼性スコア計算のための構成図６００を示す。特徴抽出器６０２は、入力画像から特徴を抽出するために用いられる。３Ｄ姿勢推定器６０４は、抽出された特徴の投影キーポイントを取得するために、当該技術において既知の３Ｄ推定技術を適用する。２Ｄ姿勢推定器６０６は、抽出された特徴の直接キーポイントを取得するために、当該技術において既知の２Ｄ推定技術を適用する。整合性スコア計算器６０８は、上式の整合性計算部分を処理４１６に適用するなどして、投影キーポイント及び直接キーポイントに基づいて整合性スコアを計算し、取得する。その後、信頼性スコア計算器６１０は、整合性スコア及び直接キーポイントの可視性値に基づいて信頼性スコアを計算し、取得する。可視性値は、２Ｄ姿勢推定器６０６によって計算され、信頼性スコア計算器６１０に入力され、可視性値と整合性スコアとに基づいた式が適用される。式は、処理４１６について既に説明したものであり、整合性スコアと可視性値とを乗算して、信頼性スコアが取得される。

【0034】

図７は、信頼性スコア計算のフローチャートの例７００を示している。この処理は、ステップ７０２から開始する。ステップ７０４では、人体が現れている画像が入力される。ステップ７０６では、特徴抽出器によって、入力画像から特徴が抽出される。ステップ７０８では、３Ｄ姿勢及び形状リグレッサにより、抽出された特徴から、３Ｄ姿勢及びカメラ位置が推定される。ステップ７１０では、推定された３Ｄ姿勢及びカメラ位置から、２Ｄ投影キーポイントが計算される。ステップ７１２では、２Ｄキーポイント推定器によって、２Ｄキーポイントヒートマップが推定される。ステップ７１４では、キーポイントヒートマップから、２Ｄ直接キーポイントと、関連付けられた可視性値が取得される。ステップ７１６では、２Ｄ投影キーポイント及び２Ｄ直接キーポイントから、整合性スコアが計算される。ステップ７１８では、整合性スコア及び可視性値から、信頼性スコアが計算される。その後、この処理はステップ７２０で終了する。

【0035】

図８に示すように、３Ｄ姿勢及び形状の回帰手法からの投影キーポイントと、２Ｄ推定手法からの直接キーポイントと、を比較する上述の手法は、整合性損失の計算によって、ＨＭＲネットワークアーキテクチャにさらに拡張することができる。このアーキテクチャでは、１つの特徴抽出器が、２Ｄキーポイント推定器と３Ｄ姿勢及び形状推定器との間で共有される。異なる技術（すなわち、３Ｄ推定及び２Ｄ推定）から得られたにもかかわらず互いに一致する結果は、より正確であると考えられることが、このアーキテクチャの基本的前提である。ディープラーニングを通じて正確なキーポイントを取得するための画像処理結果を好適に改善するために、入力画像のモデルレンダリングのトレーニングに、このアーキテクチャを利用してもよい。

【0036】

図８では、抽出した特徴を取得するために、入力画像８０２は、特徴抽出器によって特徴抽出処理８０４を受ける。入力画像８０２は、２Ｄキーポイントデータ及び３Ｄキーポイントデータの両方を含むグラウンドトゥルスデータで構成されている。グラウンドトゥルスデータは、画像８０２のモデルレンダリングをトレーニングする場合に、総損失を最小限に抑えるために用いられてもよい。投影キーポイントは、入力画像８０２の特徴に対して取得される。（例えば、上記のような３Ｄ姿勢及び形状の回帰技術や、この技術分野において既知の３Ｄ推定技術による）３Ｄ姿勢及び形状の推定処理８０６を、３Ｄレンダリング８０８の生成に用いられる入力画像８０２の特徴に対して適用し、その後、３Ｄ－２Ｄキーポイント投影処理８１０を３Ｄレンダリング８０８に適用して、特徴に関連付けられた投影キーポイントの座標を取得することで、投影キーポイントを取得することができる。投影キーポイントは、入力画像８０２の３Ｄレンダリング８０８から投影された特徴の座標セットで構成される。入力画像８０２の複数の抽出された特徴から、複数の投影キーポイント８１２が取得できる。また、抽出された特徴ごとに３Ｄキーポイント損失Ｌ３Ｄを取得するために、３Ｄレンダリングには３Ｄ姿勢及び形状の損失計算処理８１４が適用され、２Ｄ投影キーポイント損失計算処理８１６を通じて、特徴ごとに２Ｄ投影キーポイント損失Ｌｐｒｏｊが計算される。３Ｄキーポイント損失は、関連する抽出された特徴の推定３Ｄキーポイントの位置とグランドトゥルス３Ｄキーポイントの位置との間の誤差に対応し、２Ｄ投影キーポイント損失は、投影キーポイントの位置とグランドトゥルス２Ｄキーポイントの位置との間の誤差に対応する。

【0037】

入力画像８０２の抽出された特徴の２Ｄレンダリングに基づいて、直接キーポイントも取得される。具体的には、（例えば、図３で示されるヒートマップ推定や、当該技術分野において既知の他の２Ｄ推定技術を使用によって）入力画像８０２の抽出された特徴に２Ｄキーポイント推定処理８１８を適用することで、直接キーポイントを取得できる。直接キーポイントは、入力画像８０２の２Ｄレンダリングに基づいた特徴の座標セットで構成される。２Ｄレンダリングがヒートマップレンダリングの場合、ヒートマップレンダリングは、特徴の１つ以上の座標セットで構成され、１つ以上の座標セットのそれぞれが確率値を有し、直接キーポイントの座標セットが１つ以上の座標セットの中で最高の確率値を有する。入力画像８０２の抽出された複数の特徴から、複数の直接キーポイント８２０が取得できる。また、抽出された特徴ごとに２Ｄ直接キーポイント損失Ｌ２Ｄを取得するために、２Ｄレンダリングには、２Ｄ直接キーポイント損失計算処理８２２が適用される。２Ｄ直接キーポイント損失は、直接キーポイントの位置とグランドトゥルス２Ｄキーポイントの位置との間の誤差に対応する。

【0038】

その後、８２４において、整合性損失値が投影キーポイント及び直接キーポイントに基づいて計算され、整合性損失値が低いほど、投影キーポイント及び直接キーポイントの精度が高いことを示す。整合性スコアＬｃは、例えば、以下のような式を適用して計算できる。

【数2】

【0039】

上式は、投影キーポイント及び直接キーポイントの取得位置又は座標と、直接キーポイントの可視性値ｖと、に基づいている。上式は、まず、投影キーポイント、直接キーポイント及び関連する可視性値ｖに基づいて整合性損失を計算し、次いで、複数の抽出された特徴に対して取得されたすべての整合性損失を加算する。可視性値ｖは、２Ｄキーポイント推定処理８１８中に取得されてもよい。例えば、ヒートマップ推定が処理８１８に対して使用されている場合、可視性値は、関連付けられた特徴のヒートマップの最高の確率値であってもよい。当該技術分野において既知の他の２Ｄ推定技術を、可視性値を取得する対応する方法で利用できることは、言うまでもない。上式を適用することにより、投影キーポイント及び直接キーポイントの精度を好適に示す整合性損失値が取得される。

【0040】

さらに、整合性損失値を、総損失Ｌ_{Ｔｏｔａｌ}の計算に使用してもよい。図８に示すようなアーキテクチャを用いたトレーニング処理は、総損失Ｌ_{Ｔｏｔａｌ}を最小限に抑えることを目指している。例えば、以下の式を適用することで、Ｌ_{Ｔｏｔａｌ}を所得してもよい。

【数3】

【0041】

上式では、３Ｄ姿勢及び形状の損失Ｌ３Ｄ、２Ｄ投影キーポイント損失Ｌｐｒｏｊ、２Ｄ直接損失Ｌ２Ｄ、整合性損失Ｌｃのそれぞれに重みｗを適用し、合計することで総損失Ｌ_{Ｔｏｔａｌ}を求めている。重みｗは、モデルのトレーニングにおいて予め固定された値であってもよく、より正確なモデルをトレーニングして取得するために、３Ｄ姿勢及び形状の損失Ｌ３Ｄ、２Ｄ投影キーポイント損失Ｌｐｒｏｊ、２Ｄ直接損失Ｌ２Ｄ、整合性損失Ｌｃのそれぞれに対して、実験に基づいて重み値を手動で調整してもよい。トレーニング処理によって総損失Ｌ_{Ｔｏｔａｌ}を最小化することで、入力画像８０２のモデルレンダリングの全体的な精度を好適に向上させることができる。

【0042】

図９は、上記のようなモデルトレーニング計算のための構成図９００を示している。特徴抽出器９０２は、入力画像から特徴を抽出するために用いられてもよい。３Ｄ姿勢推定器９０４は、抽出された特徴の３Ｄキーポイント及び２Ｄ投影キーポイントを取得するために、当該技術分野において既知の３Ｄ推定技術を適用する。３Ｄ損失計算器９０６は、入力画像の３Ｄキーポイント及び３Ｄグラウンドトゥルスデータに基づいて３Ｄキーポイント損失を計算するとともに、入力画像の２Ｄ投影キーポイント及びグラウンドトゥルスデータに基づいて２Ｄ投影キーポイント損失を計算する。２Ｄ姿勢推定器９０８は、抽出された特徴の直接キーポイントを取得するために、当該技術分野において既知の２Ｄ推定技術を適用する。２Ｄ損失計算器９１０は、入力画像の２Ｄ直接キーポイント及び２Ｄグラウンドトゥルスデータに基づいて２Ｄ直接キーポイント損失を計算し、取得する。整合性損失計算器９１２は、処理８２４に上述の式を適用するなどして、抽出された特徴ごとに、２Ｄ投影キーポイント、２Ｄ直接キーポイント及び直接キーポイントの可視性値に基づいて、整合性損失を計算し、取得する。可視性値は２Ｄ姿勢推定器９０８で計算され、整合性損失計算器９１２に入力され、整合性損失を取得するために上述の式が適用される。最後に、全損失計算器９１４は、例えば、３Ｄキーポイント損失、２Ｄ投影キーポイント損失、２Ｄ直接キーポイント損失及び整合性損失のそれぞれに重みを適用して加算したものを入力として、上述の全損失式を適用することで、全損失値を計算し、取得する。重みは、モデルのトレーニングにおいて予め固定された値としてもよく、より正確なモデルをトレーニングして取得するために、３Ｄキーポイント損失、２Ｄ投影キーポイント損失、２Ｄ直接キーポイント損失及び整合性損失のそれぞれについて、実験に基づいて重み値を手動で調整してもよい。

【0043】

図１０は、トレーニング画像のモデルレンダリングのトレーニングのフローチャートの例１０００を示している。この処理は、ステップ１００２から始まる。ステップ１００４では、２Ｄ及び３Ｄのキーポイント位置を含むグラウンドトゥルスデータを有するトレーニング画像が入力される。ステップ１００６では、特徴抽出器によって入力画像から特徴が抽出される。ステップ１００８では、３Ｄ姿勢及び形状リグレッサにより、抽出された特徴から３Ｄ姿勢及びカメラ位置が推定され、抽出された特徴の３Ｄキーポイントが取得される。ステップ１０１０では、推定された３Ｄ姿勢及びカメラ位置から、２Ｄ投影キーポイントが計算される。ステップ１０１２では、２Ｄキーポイント推定器により、抽出された特徴から２Ｄ人体キーポイントヒートマップが推定される。ステップ１０１４では、キーポイントヒートマップから２Ｄ直接キーポイントに関連付けられた可視性値が取得される。ステップ１０１６では、抽出されたすべての特徴について、２Ｄ投影キーポイント、２Ｄ直接キーポイント及び関連付けられた可視性値から、整合性損失が計算される。ステップ１０１８では、３Ｄキーポイント損失、２Ｄ投影キーポイント損失、２Ｄ直接キーポイント損失及び整合性損失の重み値を入力として、これらを加算することで、全損失が計算され、取得される。ステップ１０２０では、取得された全損失の誤差が、モデル全体に伝播される。その後、ステップ１０２２にて処理が終了する。

【0044】

図１１は、各種の実施の形態にかかる入力画像処理システム１１００を示すブロック図である。一例では、画像入力の管理は、少なくとも撮像装置１１０２及び装置１１０４によって行われる。システム１１００は、装置１１０４と通信する撮像装置１１０２を有する。実装において、装置１１０４は、一般的に、少なくとも１つのプロセッサ１１０６と、コンピュータプログラムコードを有する少なくとも１つのメモリ１１０８と、を含む物理デバイスとして説明されてもよい。少なくとも１つのメモリ１１０８及びコンピュータプログラムコードは、少なくとも１つのプロセッサ１１０６とともに、図７及び図１０の一方又は両方に示された動作を、物理デバイスが実行するように構成される。プロセッサ１１０６は、撮像装置１１０２から画像を受信するか、データベース１１１０から画像を取得するように構成される。

【0045】

撮像装置１１０２は、画像を入力できる装置であってもよい。例えば、デジタル画像を入力でき、又は、画像をスキャンしてスキャンした画像を入力として使用するように、画像の物理コピーを入力できる。撮像装置１１０２は、２Ｄ及び３Ｄキーポイント情報を有するグラウンドトゥルスデータを含むトレーニング画像を受信するように構成されてもよい。撮像装置は、画像を撮像し、その画像を装置１１０４の入力画像として使用できるカメラであってもよい。

【0046】

装置１１０４は、撮像装置１１０２及びデータベース１１１０と通信するものとして構成されてもよい。一例では、装置１１０４は、撮像装置１１０２から入力画像を受信してもよいし、又は、データベース１１１０から入力画像を取得してもよく、装置１１０４のプロセッサ１１０６での処理後、入力画像の抽出された特徴の投影キーポイント及び直接キーポイントに基づいて信頼性スコアを計算してもよい。信頼性スコアが高いほど、投影キーポイント及び直接キーポイントの精度は高い。装置１１０４は、抽出された各特徴の整合性損失の値と入力画像のグランドトゥルスデータに基づいて総損失を計算し、総損失に基づいて総損失誤差を導出し、総損失誤差をモデルレンダリングに伝播させるように構成されてもよい。

【0047】

図１２は、以下において同じ意味でコンピュータシステム１２００又は装置１２００と称される、例示的な計算装置１２００を示している。図１１に示すシステム１１００又は既出の図の方法を実装するために、１つ以上の、上述のような計算装置１２００を用いてもよい。計算装置１２００についての以下の説明は例示に過ぎず、これによって制限されるものではない。

【0048】

図１２に示すように、例示である計算装置１２００は、ソフトウェアルーチンを実行するためのプロセッサ１２０４を有する。明確化のため、単一のプロセッサが表示されているが、計算装置１２００はマルチプロセッサシステムを含んでいてもよい。プロセッサ１２０４は、計算装置１２００の他のコンポーネントと通信するための通信インフラストラクチャ１２０６に接続される。通信インフラストラクチャ１２０６は、例えば、通信バス、クロスバー又はネットワークを含んでいてもよい。

【0049】

計算装置１２００は、ランダムアクセスメモリ（ＲＡＭ）などの一次メモリ１２０８と、二次メモリ１２１０と、をさらに有する。二次メモリ１２１０は、例えば、ハードディスクドライブ、ソリッドステートドライブ又はハイブリッドドライブであってもよいストレージドライブ１２１２、及び／又は、磁気テープドライブ、光ディスクドライブ、ソリッドステートストレージドライブ（ＵＳＢフラッシュドライブ、フラッシュメモリデバイス、ソリッドステートドライブ又はメモリカードなど）などを有していてもよいリムーバブルストレージドライブ１２１４を含んでもよい。リムーバブルストレージドライブ１２１４は、既知の方法で、リムーバブルストレージ媒体１２１８からの読み出し及びリムーバブルストレージ媒体１２１８への書き込みの一方又は両方を行う。リムーバブルストレージ媒体１２１８は、磁気テープ、光ディスク、不揮発性メモリ記憶媒体などを含んでもよく、リムーバブルストレージドライブ１２１４によって読み書きされる。関連技術における当業者であれば理解できるように、リムーバブルストレージ媒体１２１８は、コンピュータが実行可能なプログラムコード命令及びデータの一方又は両方を格納した、コンピュータが読み取り可能な記憶媒体を含む。

【0050】

別の実装においては、二次メモリ１２１０は、コンピュータプログラム又は他の命令を計算装置１２００にロードできるようにするために、他の同様の手段を追加的又は代替的に含んでいてもよい。このような手段には、例えば、リムーバブルストレージユニット１２２２及びインターフェイス１２２０を含めることができる。リムーバブルストレージユニット１２２２及びインターフェイス１２２０の例としては、プログラムカートリッジ及びカートリッジインターフェイス（ビデオゲームコンソールデバイスに見られるものなど）、リムーバブルメモリチップ（例えばＥＰＲＯＭ又はＰＲＯＭ）及び関連ソケット、リムーバブルソリッドステート記憶装置（例えば、ＵＳＢフラッシュドライブ、フラッシュメモリデバイス、ソリッドステートドライブ又はメモリカード）、その他のリムーバブルストレージユニット１２２２及びインターフェイス１２２０を含んでいてもよく、これらによってソフトウェア及びデータをリムーバブルストレージユニット１２２２からコンピュータシステム１２００に転送することができる。

【0051】

また、計算装置１２００は、少なくとも１つの通信インターフェイス１２２４を含む。通信インターフェイス１２２４によって、通信経路１２２６を介して計算装置１２００と外部デバイスとの間で、ソフトウェア及びデータを転送することができる。本発明の各種の実施の形態においては、通信インターフェイス１２２４によって、計算装置１２００と、公的データ又は私的データの通信ネットワークなどのデータ通信ネットワークと、の間でデータを転送することができる。通信インターフェイス１２２４は、上述のような相互接続されたコンピュータネットワークの一部を形成する、異なる計算装置１２００間でデータのやり取りを行うために用いられてもよい。通信インターフェイス１２２４の例は、モデム、ネットワークインターフェイス（イーサネットカードなど）、通信ポート（シリアル、パラレル、プリンタ、ＧＰＩＢ、ＩＥＥＥ１３９４、ＲＪ４５、ＵＳＢなど）、付属回路を有するアンテナなどを含むことができる。通信インターフェイス１２２４は、有線であってもよく、無線であってもよい。通信インターフェイス１２２４を介して転送されるソフトウェア及びデータは、通信インターフェイス１２２４で受信可能な電子信号、電磁信号、光学信号又はその他の信号の形式である。これらの信号は、通信経路１２２６を介して、通信インターフェイスに提供される。

【0052】

図１２に示すように、計算装置１２００は、関連するディスプレイ１２３０に画像をレンダリングする操作を実行するディスプレイインターフェイス１２０２と、関連するスピーカー１２３４を介してオーディオコンテンツを再生する操作を実行するオーディオインターフェイス１２３２と、さらに有してもよい。

【0053】

ここで用いられる「プログラム製品」（又は、非一時的なコンピュータ可読媒体であってもよいコンピュータ可読媒体）という用語は、部分的に、リムーバブルストレージ媒体１２１８、リムーバブルストレージユニット１２２２及びストレージドライブ１２１２に取り付けられたハードディスク又は通信経路１２２６（無線リンクまたはケーブル）を介して通信インターフェイス１２２４にソフトウェアを運ぶ搬送波を指すものであってもよい。コンピュータ可読記憶媒体（またはコンピュータ可読媒体）は、実行及び／又は処理のために記録された命令及び／又はデータを計算装置１２００に提供する、任意の非一時的かつ不揮発性の有形記憶媒体を指す。このような記憶媒体の例としては、磁気テープ、ＣＤ－ＲＯＭ、ＤＶＤ、Ｂｌｕ－ｒａｙ（登録商標）ディスク、ハードディスクドライブ、ＲＯＭまたは集積回路、ソリッドステートストレージドライブ（ＵＳＢフラッシュドライブ、フラッシュメモリデバイス、ソリッドステートドライブ、メモリカードなど）、ハイブリッドドライブ、光磁気ディスク又はＰＣＭＣＩＡカードなどのコンピュータ可読カードなどが有り、これらのデバイスが計算装置１２００の内部に有るか、又は、外部に有るかは問わない。計算装置１２００へのソフトウェア、アプリケーションプログラム、命令及び／又はデータの提供に関わる可能性のある一時的又は無形のコンピュータ可読伝送媒体の例としては、無線又は赤外線の伝送チャネルだけでなく、別のコンピュータ又はネットワーク化されたデバイスへのネットワーク接続、電子メールの送信及びウェブサイトなどに記録された情報などを含むインターネット又はイントラネットがある。

【0054】

コンピュータプログラム（コンピュータプログラムコードとも呼ばれる）は、一次メモリ１２０８及び二次メモリ１２１０の一方又は両方に格納される。コンピュータプログラムは、通信インターフェイス１２２４を介して受信することもできる。このようなコンピュータプログラムが実行されることで、計算装置１２００は、ここで説明する実施の形態の１つ以上の特徴を実現できる。各種の実施の形態において、コンピュータプログラムが実行されることで、プロセッサ１２０４が上述の実施の形態の特徴を実現できる。したがって、このようなコンピュータプログラムは、コンピュータシステム１２００のコントローラとして振る舞う。

【0055】

ソフトウェアは、コンピュータプログラム製品に格納され、リムーバブルストレージドライブ１２１４、ストレージドライブ１２１２又はインターフェイス１２２０を使用して、計算装置１２００にロードされる。コンピュータプログラム製品は、非一時的なコンピュータ可読媒体であってもよい。また、コンピュータプログラム製品は、通信経路１２２６を介してコンピュータシステム１２００にダウンロードされてもよい。ソフトウェアがプロセッサ１２０４によって実行されることで、計算装置１２００はここで説明される実施の形態の機能を実行する。

【0056】

図１２の実施の形態は、単なる例示であるものと理解されるべきである。よって、いくつかの実施の形態では、計算装置１２００の１つ以上の特徴を省略してもよい。また、いくつかの実施の形態では、計算装置１２００の１つ以上の特徴を組み合わせてもよい。さらに、いくつかの実施の形態では、計算装置１２００の１つ以上の特徴が、１つ以上の部品に分割されてもよい。

【0057】

広範に説明される本発明の精神または範囲から逸脱することなく、特定の実施の形態に示されているように、本発明に対して、多数のバリエーション及び修正の一方又は両方を加えることができることは、当業者にとっては言うまでも無い。例えば、上述では、主に視覚的インターフェイス上での警報を提示している。しかし、音声での警報のような別のタイプの警報の提示を代替的な実施の形態で使用して、同様の方法を実装できることは、言うまでも無い。例えば、アクセスポイントの追加、ログインルーチンの変更など、いくつかの変更を検討し、かつ、組み込むことができる。したがって、本実施の形態は、全ての点において例示的であり、限定的ではないと考えられる。

【0058】

例えば、上述の実施の形態の全部又は一部は、以下のように付記として記述することができるが、これには限定されない。

【0059】

（付記１）プロセッサにより、入力画像の特徴の投影キーポイント及び直接キーポイントを取得し、前記投影キーポイントは前記入力画像の３Ｄレンダリングから投影された前記特徴の第１の座標セットを含み、前記直接キーポイントは前記特徴の２Ｄレンダリングに基づく前記特徴の第２の座標セットを含み、前記プロセッサにより、前記投影キーポイント及び前記直接キーポイントに基づく信頼性スコアを計算し、前記信頼性スコアが高いほど、前記投影キーポイント及び前記直接キーポイントの精度が高いことを示す、入力画像の処理方法。

【0060】

（付記２）前記直接キーポイントの可視性値をさらに取得し、前記可視性値は前記２Ｄレンダリングによって計算され、前記信頼性スコアの計算は、さらに、前記可視性値、前記投影キーポイント及び前記直接キーポイントに数式を適用する、付記１に記載の入力画像の処理方法。

【0061】

（付記３）前記２Ｄレンダリングはヒートマップレンダリングであり、前記特徴のヒートマップレンダリングは前記特徴の１つ以上の座標セットを有し、前記１つ以上の座標セットのそれぞれは確率値を有し、前記第２の座標セットは、前記１つ以上の座標セットの中で最高の確率値を有する、付記２に記載の入力画像の処理方法。

【0062】

（付記４）前記信頼性スコアを閾値と比較し、前記信頼性スコアが前記閾値よりも低い場合、前記投影キーポイント及び前記直接キーポイントが拒否される、付記１に記載の入力画像の処理方法。

【0063】

（付記５）プロセッサにより、入力画像の各特徴の投影キーポイント及び直接キーポイントを取得し、前記投影キーポイントは前記入力画像の３Ｄレンダリングから投影された各特徴の第１の座標セットを含み、前記直接キーポイントは各特徴の２Ｄレンダリングに基づく各特徴の第２の座標セットを含み、前記プロセッサにより、前記投影キーポイントのそれぞれ及び前記直接キーポイントのそれぞれに基づく各特徴の整合性損失値を計算し、前記プロセッサにより、各特徴の前記整合性損失値及び前記入力画像のグランドトゥルスデータに基づいて総損失を計算し、前記総損失に基づいて総損失誤差を導出し、前記プロセッサにより、前記総損失誤差をモデルレンダリングへ伝播させる、入力画像のモデルレンダリングのトレーニング方法。

【0064】

（付記６）前記直接キーポイントの可視性値をさらに取得し、前記可視性値は前記２Ｄレンダリングによって計算され、前記整合性損失の計算は、さらに、前記可視性値、前記投影キーポイント及び前記直接キーポイントに数式を適用する、付記５に記載の入力画像のモデルレンダリングのトレーニング方法。

【0065】

（付記７）前記２Ｄレンダリングはヒートマップレンダリングであり、前記特徴のヒートマップレンダリングは前記特徴それぞれについて１つ以上の座標セットを含み、前記１つ以上の座標セットのそれぞれが確率値を有し、前記第２の座標セットは、前記１つ以上の座標セットの中で、最高の確率値を有する、付記５に記載の入力画像のモデルレンダリングのトレーニング方法。

【0066】

（付記８）前記プロセッサは、前記入力画像の前記３Ｄレンダリングから、各特徴の３Ｄキーポイントをさらに取得する、付記６に記載の入力画像のモデルレンダリングのトレーニング方法。

【0067】

（付記９）前記グランドトゥルスデータは、グランドトゥルス２Ｄキーポイント及びグランドトゥルス３Ｄキーポイントを含み、前記総損失の計算は、さらに、前記投影キーポイントの位置と前記グランドトゥルス２Ｄキーポイントの位置との間の誤差に対応する２Ｄ投影キーポイント損失と、前記３Ｄキーポイントの位置と前記グランドトゥルス３Ｄキーポイントの位置との間の誤差に対応する３Ｄキーポイント損失と、前記直接キーポイントの位置と前記グランドトゥルス２Ｄキーポイントの位置との間の誤差に対応する２Ｄキーポイント損失と、を有する数式を適用する、付記８に記載の入力画像のモデルレンダリングのトレーニング方法。

【0068】

（付記１０）前記総損失の計算は、さらに、前記２Ｄ投影キーポイント損失、前記３Ｄキーポイント損失、前記２Ｄキーポイント損失及び前記整合性損失値の少なくとも１つに重みを適用する、付記９に記載の入力画像のモデルレンダリングのトレーニング方法。

【0069】

（付記１１）プロセッサと通信し、前記プロセッサによって実行可能な記録されたコンピュータプログラムを格納するメモリを備え、前記コンピュータプログラムの実行により、少なくとも、入力画像の特徴の投影キーポイント及び直接キーポイントを取得し、前記投影キーポイントは前記入力画像の３Ｄレンダリングから投影された特徴の第１の座標セットを含み、前記直接キーポイントは前記特徴の２Ｄレンダリングに基づく前記特徴の第２の座標セットを含み、前記投影キーポイント及び前記直接キーポイントに基づく信頼性スコアを計算し、前記信頼性スコアが高いほど、前記投影キーポイント及び前記直接キーポイントの精度が高いことを示す、入力画像の処理装置。

【0070】

（付記１２）前記メモリ及び前記コンピュータプログラムが前記プロセッサによって実行されることで、前記装置は、さらに、前記直接キーポイントの可視性値を取得し、前記可視性値は前記２Ｄレンダリングによって計算され、前記信頼性スコアの計算は、さらに、前記可視性値、前記投影キーポイント及び前記直接キーポイントに数式を適用する、付記１１に記載の入力画像の処理装置。

【0071】

（付記１３）前記２Ｄレンダリングはヒートマップレンダリングであり、前記特徴のヒートマップレンダリングは前記特徴の１つ以上の座標セットを含み、前記１つ以上の座標セットのそれぞれは確率値を有し、前記第２の座標セットは、が前記１つ以上の座標セットの中で、最高の確率値を有する、付記１２に記載の入力画像の処理装置。

【0072】

（付記１４）前記メモリ及び前記コンピュータプログラムが前記プロセッサによって実行されることで、前記装置は、さらに、前記信頼性スコアを閾値と比較し、前記信頼性スコアが前記閾値より低い場合、前記投影キーポイント及び前記直接キーポイントが拒否される、付記１１に記載の入力画像の処理装置。

【0073】

（付記１５）プロセッサと通信し、前記プロセッサによって実行可能な記録されたコンピュータプログラムを格納するメモリを備え、前記コンピュータプログラムの実行により、少なくとも、入力画像の各特徴の投影キーポイント及び直接キーポイントを取得し、前記投影キーポイントは前記入力画像の３Ｄレンダリングから投影された各特徴の第１の座標のセットを含み、前記直接キーポイントは各特徴の２Ｄレンダリングに基づく各特徴の第２の座標セットを含み、前記投影キーポイントのそれぞれ及び前記直接キーポイントのそれぞれに基づく整合性損失値を計算し、各特徴の前記整合性損失値及び前記入力画像のグランドトゥルスデータに基づいて総損失を計算し、前記総損失に基づいて総損失誤差を導出し、前記総損失誤差をモデルレンダリングへ伝播させる、入力画像のモデルレンダリングのトレーニング装置。

【0074】

（付記１６）前記メモリ及び前記コンピュータプログラムが前記プロセッサによって実行されることで、前記装置は、さらに、前記直接キーポイントの可視性値を取得し、前記可視性値は２Ｄレンダリングによって計算され、前記整合性損失値の計算は、さらに、前記可視性値、前記投影キーポイント及び前記直接キーポイントに数式を適用する、付記１５に記載の入力画像のモデルレンダリングのトレーニング装置。

【0075】

（付記１７）前記２Ｄレンダリングはヒートマップレンダリングであり、前記特徴のヒートマップレンダリングは前記特徴の１つ以上の座標セットを含み、前記１つ以上の座標セットのそれぞれが確率値を有し、前記第２の座標セットは、前記１つ以上の座標セットの中で、最高の確率値を有する、付記１６に記載の入力画像のモデルレンダリングのトレーニング装置。

【0076】

（付記１８）前記メモリ及び前記コンピュータプログラムが前記プロセッサによって実行されることで、前記装置は、さらに、前記入力画像の前記３Ｄレンダリングから各特徴の３Ｄキーポイントを取得する、付記１５に記載の入力画像のモデルレンダリングのトレーニング装置。

【0077】

（付記１９）前記グランドトゥルスデータは、グランドトゥルス２Ｄキーポイント及びグランドトゥルス３Ｄキーポイントを含み、前記メモリ及び前記コンピュータプログラムが前記プロセッサによって実行されることで、前記装置は、さらに、前記投影キーポイントの位置と前記グランドトゥルス２Ｄキーポイントの位置との間の誤差に対応する２Ｄ投影キーポイント損失と、前記３Ｄキーポイントの位置と前記グランドトゥルス３Ｄキーポイントの位置との間の誤差に対応する３Ｄキーポイント損失と、前記直接キーポイントの位置と前記グランドトゥルス２Ｄキーポイントの位置との間の誤差に対応する２Ｄキーポイント損失と、を含む数式を適用して、前記総損失を計算する、付記１８に記載の入力画像のモデルレンダリングのトレーニング装置。

【0078】

（付記２０）前記メモリ及び前記コンピュータプログラムが前記プロセッサによって実行されることで、前記装置は、さらに、前記２Ｄ投影キーポイント損失、前記３Ｄキーポイント損失、前記２Ｄキーポイント損失及び前記整合性損失値の少なくとも１つに重みを適用する、付記１９に記載の入力画像のモデルレンダリングのトレーニング装置。

【0079】

（付記２１）付記１１～１４のいずれか１つに記載の前記装置と、少なくとも１つの撮像装置と、を備える、入力画像の処理システム。

【0080】

（付記２２）付記１５～２０のいずれか１つに記載の前記装置と、少なくとも１つの撮像装置と、を備える、入力画像のモデルレンダリングのトレーニングシステム。

【0081】

本発明は、実施の形態を参照して特に示され、かつ、説明されているが、本発明はこれらの実施の形態に例に限定されるものではない。本発明の精神および範囲から逸脱することなく、形態および細部に様々な変更を加えることができることは、当業者には理解されるであろう。

【0082】

本出願は、２０２１年５月５日に出願されたシンガポール特許出願１０２０２１０４６９１Ｘに基づき、かつ、本出願を基礎とする優先権の利益を主張するものであり、本出願においる開示は参照によりその全体が本出願に組み込まれる。

【図1】