IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フライエ・ユニバーシタイト・ブリュッセルの特許一覧 ▶ ツリーディーズ・エスペーエルエルの特許一覧

特表2022-544353裸の身体の形状を身体の隠れているスキャン像から推定する方法
<>
  • 特表-裸の身体の形状を身体の隠れているスキャン像から推定する方法 図1
  • 特表-裸の身体の形状を身体の隠れているスキャン像から推定する方法 図2
  • 特表-裸の身体の形状を身体の隠れているスキャン像から推定する方法 図3
  • 特表-裸の身体の形状を身体の隠れているスキャン像から推定する方法 図4a
  • 特表-裸の身体の形状を身体の隠れているスキャン像から推定する方法 図4b
  • 特表-裸の身体の形状を身体の隠れているスキャン像から推定する方法 図4c
  • 特表-裸の身体の形状を身体の隠れているスキャン像から推定する方法 図5
  • 特表-裸の身体の形状を身体の隠れているスキャン像から推定する方法 図6
  • 特表-裸の身体の形状を身体の隠れているスキャン像から推定する方法 図7
  • 特表-裸の身体の形状を身体の隠れているスキャン像から推定する方法 図8
  • 特表-裸の身体の形状を身体の隠れているスキャン像から推定する方法 図9
  • 特表-裸の身体の形状を身体の隠れているスキャン像から推定する方法 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-10-18
(54)【発明の名称】裸の身体の形状を身体の隠れているスキャン像から推定する方法
(51)【国際特許分類】
   G06V 10/774 20220101AFI20221011BHJP
   G06T 7/00 20170101ALI20221011BHJP
   G06V 10/82 20220101ALI20221011BHJP
【FI】
G06V10/774
G06T7/00 660B
G06T7/00 350C
G06V10/82
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022502059
(86)(22)【出願日】2020-07-10
(85)【翻訳文提出日】2022-03-10
(86)【国際出願番号】 EP2020069611
(87)【国際公開番号】W WO2021009062
(87)【国際公開日】2021-01-21
(31)【優先権主張番号】19186137.6
(32)【優先日】2019-07-12
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TENSORFLOW
(71)【出願人】
【識別番号】522013164
【氏名又は名称】フライエ・ユニバーシタイト・ブリュッセル
(71)【出願人】
【識別番号】522013175
【氏名又は名称】ツリーディーズ・エスペーエルエル
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ペンペン・フ
(72)【発明者】
【氏名】アドリアン・ムントーヌ
(72)【発明者】
【氏名】ヌールバクシュ・ナスタラン
(72)【発明者】
【氏名】ステファン・スタージェス
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA09
5L096CA02
5L096DA02
5L096HA08
5L096HA11
5L096JA11
5L096KA04
(57)【要約】
ニューラルネットワークをトレーニングするための、身体の隠れている形状と、対応する覆いが取り去られている形状とからなるトレーニングデータセットを生成する方法が提供され、この方法は、コンピューティング手段により、複数の身体の複数の裸の形状を表す複数の第1の表面表現を含む第1のデータセットを生成するステップと、複数の身体の複数のシミュレートされた隠れている形状を得るために、コンピュータ実施プログラムを用いて、複数の裸の形状をバーチャル的に隠すステップと、複数のシミュレートされた隠れている形状をスキャニングシミュレータに適用するステップであって、スキャニングシミュレータが、複数のシミュレートされた隠れている形状を表す複数の第2の表面表現を含む第2のデータセットを生成する、ステップとを含む。
【特許請求の範囲】
【請求項1】
ニューラルネットワークをトレーニングするための、身体の隠れている形状と、対応する覆いが取り去られている形状とからなるトレーニングデータセットを生成する方法であって、
コンピューティング手段により、複数の身体の複数の裸の形状を表す複数の第1の表面表現を含む第1のデータセットを生成するステップと、
前記複数の身体の複数のシミュレートされた隠れている形状を得るために、コンピュータ実施プログラムを用いて、前記複数の裸の形状を仮想的に隠すステップと、
前記複数のシミュレートされた隠れている形状をスキャニングシミュレータに適用するステップであって、前記スキャニングシミュレータが、前記複数のシミュレートされた隠れている形状を表す複数の第2の表面表現を含む第2のデータセットを生成する、ステップと
を含む方法。
【請求項2】
前記第1の表面表現が、複数のポーズをとる複数の裸の形状を表す、請求項1に記載の方法。
【請求項3】
前記シミュレートされた隠れている形状が、多層表面を含む、請求項1または2に記載の方法。
【請求項4】
前記スキャニングシミュレータが、前記多層表面を含む前記シミュレートされた隠れている形状を、単一層表面を表す前記第2の表面表現に変換する、請求項3に記載の方法。
【請求項5】
前記スキャニングシミュレータが、写真測量法ベースのシミュレータである、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記スキャニングシミュレータが、ノイズモデルを含み、前記ノイズモデルが、シミュレートされたノイズを前記複数の第2の表面表現に追加する、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記スキャニングシミュレータが、多角形の隅に配置されている複数のカメラシミュレータを含み、前記シミュレートされた隠れている形状が、前記多角形の中心に配置され、前記複数のカメラシミュレータが、異なる視野角から前記シミュレートされた隠れている形状を撮像する、請求項1から6のいずれか一項に記載の方法。
【請求項8】
前記複数の第2の表面表現の節点に関連する信頼度値を生成するステップを含む、請求項1から7のいずれか一項に記載の方法。
【請求項9】
前記第1の表面表現が第1の点群であり、および/または、前記第2の表面表現が第2の点群である、請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記第2の点群の点に関連する信頼度値を生成するステップを含む、請求項9に記載の方法。
【請求項11】
前記複数の裸の形状が、複数の人間または動物の身体の複数の非着衣の形状を表し、仮想的に隠す前記ステップが、前記複数の非着衣の形状を仮想的に着衣させるステップを含み、前記複数のシミュレートされた隠れている形状が、前記複数の人間または動物の身体の複数のシミュレートされた着衣した形状である、請求項1から10のいずれか一項に記載の方法。
【請求項12】
前記複数のシミュレートされた着衣した形状が、有利にはタイトフィットの服飾およびルーズフィットの服飾を含む、複数の服飾スタイルにおいてシミュレートされた着衣した形状を含む、請求項11に記載の方法。
【請求項13】
ニューラルネットワークをトレーニングする方法であって、
請求項1から12のいずれか一項に記載の方法により、隠れている形状と、対応する裸の形状とからなるトレーニングデータセットを生成するステップと、
前記第1のデータセットおよび前記第2のデータセットを前記ニューラルネットワークに適用するステップであって、前記第1のデータセットが、グラウンドトゥルースデータセットとみなされる、ステップと
を含む方法。
【請求項14】
前記複数の第2の表面表現が、請求項8または10に記載の方法により得られる関連する信頼度値とともに節点を含み、前記信頼度値が、入力として前記ニューラルネットワークに与えられる、請求項13に記載の方法。
【請求項15】
裸の形状を身体の物理的に隠れている形状から推定する方法であって、
請求項13または14に記載の方法により、ニューラルネットワークをトレーニングするステップと、
三次元カメラデバイスにより、前記物理的に隠れている形状をスキャンし、前記物理的に隠れている形状を表す第3の表面表現を生成するステップと、
前記第3の表面表現を前記ニューラルネットワークに適用するステップであって、前記ニューラルネットワークが、前記身体の推定された裸の形状を表す第4の表面表現を出力する、ステップと
を含む方法。
【請求項16】
前記ノイズモデルが、前記三次元カメラデバイスに関連するノイズシグネチャを表す、請求項6を引用する請求項15に記載の方法。
【請求項17】
前記ニューラルネットワークが、前記第3の表面表現のポーズと実質的に同じポーズで前記第4の表面表現を出力する、請求項2を引用する請求項15または16に記載の方法。
【請求項18】
コンピュータにおいて実行されると、請求項1から17のいずれか一項に記載の方法を行うように構成されている、コンピュータプログラムコード。
【請求項19】
請求項13または14に記載の方法によりトレーニングされるニューラルネットワークを備えたコンピュータと、前記ニューラルネットワークに動作可能に接続される三次元カメラデバイスとを備え、前記コンピュータが、請求項15から17のいずれか一項に記載の方法を行うように構成されている、システム。
【請求項20】
ニューラルネットワークをトレーニングするためのトレーニングデータセットであって、複数の身体の複数の裸の形状を表す複数の第1の表面表現を含む第1のデータセットと、前記複数の身体の隠れている形状を表す複数の第2の表面表現を含む第2のデータセットとを含み、前記第1のデータセットおよび前記第2のデータセットが、請求項1から12のいずれか一項に記載の方法により得られる、トレーニングデータセット。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ニューラルネットワーク、詳細にはディープラーニングネットワークをトレーニングするための、隠れている、たとえば着衣した身体の形状と、対応する裸の、たとえば非着衣の身体の形状とからなるトレーニングデータセットを生成する方法に関する。本発明はまた、トレーニングデータセットを使用して、ニューラルネットワークをトレーニングする方法に関する。本発明はまた、トレーニングされたニューラルネットワークを使用して、裸の、たとえば非着衣の身体の形状を、スキャンされた隠れている、たとえば着衣した身体の形状から推定するための方法および対応するシステムに関する。身体は、人間もしくは動物の身体、すなわち物体の身体を指すことができる。
【背景技術】
【0002】
着衣した人間の身体の形状およびポーズを推定することは、バーチャル試着ツール、非接触身体計測、およびバーチャルリアリティにおけるアバター作成など、かなりの数の新たに出現したアプリケーションにとってきわめて重要な仕事である。身体の形状の推定方法の精度に影響をもたらす重要な側面は、データ取得および身体の予測モデルである。
【0003】
正確な身体の形状は、衣服をまとっていない人をスキャンすることによって得ることができることは明らかであるが、その手順は、多くの人にとっていまだに便利でなく、しばしばプライバシーに対する権利を侵害するものである。このことはまた、スキャンされるために肌にぴったりした衣服を着用する必要がある場合も同様である。したがって、身体の形状を、着衣した身体のスキャン像から推定するように特に設計されている方法を確立することが望ましい。着衣した身体のスキャン像により作業する際の主な課題は、非剛性の布地の変形が被験者のポーズの変化から生じることによって引き起こされる。
【0004】
既存の身体の形状の推定方法では、この課題について、統計的な人間の身体モデルが、スキャンされた着衣した身体にフィットするという条件付き最適化問題として系統的に説明しているが、それは、計算コストが高くつき、初期化パラメータに影響されやすい。より良い精度を得るために、いくつかの方法では、着衣した人間のメッシュのシーケンスが、それらの入力データとして採用されている。例として、Anguelov D.らのACM Transactions on graphics (TOG)、24、408~416(2005)には、異なるポーズを使用して形状を最適化することによって、着衣した人間のスキャン像シーケンスにフィットさせるためのSCAPE(Shape Completion and Animation of People)という名称の統計的形状モデルについて記載されている。しかしながら、統計的モデルは、通常、過度に平滑であり、特徴の細部が欠けている。これを解決するために、Loper M.らのACM Transactions on graphics (TOG)、34、248(2015)には、着衣した人間のシーケンスにフィットさせるためのSMPL(Skinned Multi-Person Linear Model)という名称の公開の頂点ベースのモデルについて記載されており、より多くのパラメータを最適化することによって詳細な結果が得られている。最適化ベースの方法は大きな結果を生み出すことができるが、計算コストが高くつき、初期化、異なるタイプの様々なノイズ源、および不完全なデータに影響されやすい。これらの問題を克服するためには、いずれのテンプレートもまたは初期化ステップもなしに、身体の形状を予測する高速な方法が何よりも重要である。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Anguelov D. et al.,ACM Transactions on graphics (TOG),24,408~416,2005
【非特許文献2】Loper M. et al.,ACM Transactions on graphics (TOG),34,248,2015
【非特許文献3】Bastioni, M,MB-Lab,https://github.com/animate1978/MB-Lab,10/02/2019
【非特許文献4】CLO,www.clo3d.com
【非特許文献5】Blenderのオープンソース3Dコンピュータグラフィックスソフトウェア,www.blender.org
【非特許文献6】Yuan, W., Khot, T., Held, D., Mertz, C., Hebert, M.,PCN(Point Completion Network),International Conference on 3D Vision (3DV),728~737,2018
【非特許文献7】Achlioptas, P., Diamanti, O., Mitliagkas, I., Guibas, L.,Learning Representations and Generative Models for 3D Point Clouds,arXiv preprint arXiv:1707.02392,2017
【非特許文献8】Yang, Y., Feng, C., Shen, Y., Tian, D.,FoldingNet: Interpretable Unsupervised Learning on 3D Point Clouds,arXiv preprint arXiv:1712.07262,2017
【非特許文献9】Qi, C.R. et al.,Pointnet: Deep learning on Point Sets for 3d Classification and Segmentation,IEEE Conference on Computer Vision and Pattern Recognition,4,2017
【非特許文献10】Ge, L. et al.,Hand PointNet: 3d Hand Pose Estimation using Point Sets,IEEE Conference on Computer Vision and Pattern Recognitionの議事録,8417~8426,2018
【非特許文献11】L. Ge, Y. Cai, J. Weng, J. Yuan,Hand pointnet: 3d hand pose estimation using point sets,IEEE Conference on Computer Vision and Pattern Recognitionの議事録,pp. 8417~8426,2018
【非特許文献12】Y. Yang, C. Feng, Y. Shen, D. Tian,Foldingnet: Point cloud auto-encoder via deep grid deformation,IEEE Conference on Computer Vision and Pattern Recognitionの議事録,pp. 206~215,2018
【非特許文献13】Kingma, D.P., Ba, J.,Adam: A Method for Stochastic Optimization,arXiv preprint arXiv:1412.6980,2014
【非特許文献14】Abadi, M., Barham, P., Chen, J., Chen, Z., Davis, A., Dean, J., Devin, M, Ghemawat, S., Irving, G., Isard, M., Kudlur, M.,Tensorflow: a System for Large-scale Machine Learning,TensorFlow,OSDI,265~283,2016
【非特許文献15】Hasler, N., Stoll, C., Rosenhahn, B., Thormaehlen, T., Seidel, H.P.,Estimating body shape of dressed humans,Computers & Graphics,33(3),pp.211~216,2009
【非特許文献16】Kanazawa, A., Black, M.J., Jacobs, D.W., Malik, J.,End-to-end recovery of human shape and pose,IEEE Conference on Computer Vision and Pattern Recognitionの議事録,pp. 7122~7131,2018
【非特許文献17】T. Groueix, M. Fisher, V. G. Kim, B. C. Russell, M. Aubry,3dcoded: 3d correspondences by deep deformation,European Conference on Computer Vision (ECCV)の議事録,pp. 230~246,2018
【非特許文献18】M. Kowalski, J. Naruniec, M. Daniluk,Livescan3d: A fast and inexpensive 3d data acquisition system for multiple kinect v2 sensors,International Conference on 3D Vision,IEEE,pp. 318~325,2015
【非特許文献19】P. Hu, T. Komura, D. Holden, Y. Zhong,Scanning and animating characters dressed in multiple-layer garments,The Visual Computer,33巻,第6~8号,pp. 961~969,2017
【非特許文献20】PhotoScan,https://www.agisoft.com/
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の目的は、上述の弱点を克服することである。具体的には、本発明の目的は、より少ない労力により、および/または従来技術よりも正確である身体の形状予測モデルを得ることを可能にすることである。
【課題を解決するための手段】
【0007】
身体の形状を推定するためにニューラルネットワークをトレーニングし検証するには、着衣した人間の身体と、それらの対応する非着衣の身体とからなるデータセットが必要である。スキャニングテクノロジーによって制限されている3Dスキャナは、被験者の最も外側の表面しか得ることができない。そのため、衣服によって遮蔽された、下にある身体の幾何形状を同時に捕捉することは不可能である。1つの直感的解決策は、まず、被験者に自分の衣服を脱ぎ、スキャニング中に静止ポーズを維持する、またはある運動を行うように頼み、次いで、同じ被験者に自分の衣服をまた身に付け、スキャニング中に同じ静止ポーズを維持する、または同じ運動を行うように頼むことになる。この形での静止ポーズのスキャニングは、被験者が、スキャニング中に絶対にじっとしたままであるようにトレーニングされているか、または必要なだけ高速なスキャナが使用されるかのいずれかの場合に可能である。しかしながら、トレーニングデータセットのサイズ要件が大きいことに起因して、この手法によりデータ収集を行うことは、きわめて高くつき、時間がかかる。さらには、このやり方で運動シーケンスをスキャンするために、衣服のあり、なしで同一の動作を再現することは、人間の被験者にとってほぼ不可能であり、その結果は、十分に信頼できるものになることができない。ポーズフィッティングおよび浸透解像は、この問題を単に視覚的に「解決する(fix)」ことはできるが、さらなる誤差をもたらすことになる。
【0008】
本発明者らは、着衣した人間の点群を対応する身体の点群に変換するために非線形関数を学習するためのやり方を見出した。点群は、3Dスキャナによって生成される生データである。
【0009】
より概括的には、本発明の態様は、人間または動物の身体の裸体の、すなわち、非着衣の形状を推定することを対象とするだけでなく、同様に、物体の形状にも適用可能であり、たとえば、コーティングもしくはカバーリングの1つまたは複数の層によって隠されている物体の身体の裸の形状を推定することも対象とする。
【0010】
そのため、本発明の第1の態様によれば、添付の特許請求の範囲に提示されている、ニューラルネットワークをトレーニングするために、隠れている、たとえば着衣した身体の形状と、対応する覆いを取り去った、すなわち、裸の、たとえば非着衣の身体の形状とからなるトレーニングデータセットを生成する方法が提供される。
【0011】
本明細書に記載の、身体の隠れている形状と、対応する覆いを取り去った形状とからなるトレーニングデータセットを生成する方法は、第1のデータセットをコンピュータ生成するステップを含む。第1のデータセットは、複数の身体の複数の裸の形状を表す複数の第1の表面表現を含む。複数の身体の複数のシミュレートされた隠れている形状を得るために、コンピュータ実施プログラムを用いて、複数の裸の形状を(仮想的に)隠す。複数のシミュレートされた隠れている形状は、スキャニングシミュレータに適用される。スキャニングシミュレータは、複数のシミュレートされた隠れている形状を表す複数の第2の表面表現を含む第2のデータセットを生成する。
【0012】
本発明の第2の態様によれば、添付の特許請求の範囲に提示されている、ニューラルネットワークをトレーニングする方法が提供される。
【0013】
本発明の第3の態様によれば、添付の特許請求の範囲に提示されている、隠れている、たとえば非着衣の身体の形状を、物理的に隠れている、たとえば着衣した身体の形状から推定する方法が提供される。
【0014】
本発明の第4の態様によれば、添付の特許請求の範囲に提示されているコンピュータプログラムコードが提供される。
【0015】
本発明の第5の態様によれば、添付の特許請求の範囲に提示されているシステムが提供される。
【0016】
本発明の第6の態様によれば、添付の特許請求の範囲に提示されている、ニューラルネットワークをトレーニングするためのトレーニングデータセットが提供される。
【0017】
本発明においては、裸の身体の形状推定は、トレーニングされたニューラルネットワーク、有利にはディープラーニングネットワークによって行われている。このニューラルネットワークは、本明細書に記載の態様により開発された特定のトレーニングデータセットを使用してトレーニング済みである。トレーニングデータセットは、コンピュータ生成によって排他的に獲得済みである対応する(すなわち、対にされ、位置合わせされた)隠れている(着衣した)身体の形状と裸の(非着衣の)身体の形状とを含む。トレーニングデータセットは、有利には、異なるポーズの身体の形状を含み、それにより、ニューラルネットワークは、裸の身体の形状を、異なるポーズの隠れている身体のスキャン像から推定することが可能になる。トレーニングデータセットを純粋にコンピュータ生成により生成することによって、形状、ポーズ、寸法、および着衣スタイルの変化が大きい身体を含む非常に大きいトレーニングデータセットを得ることができる。これにより、ニューラルネットワークをより効果的にトレーニングすることが可能になる。さらには、本発明の態様によりトレーニングデータセットをコンピュータ生成することによって、よく位置合わせされ、対にされた、着衣した身体メッシュと非着衣の身体メッシュとを得ることができ、それにより、ニューラルネットワークを、精度を高めてトレーニングすることが可能になる。
【0018】
次に、本発明の態様について、同じ参照数字が同じ特徴を示す添付の図面を参照して詳細に説明する。
【図面の簡単な説明】
【0019】
図1】10人の非着衣の身体の形状(5人の男性、5人の女性)からなる、本発明によるグラウンドトゥルース(ground truth)データセットを表す図である。
図2】異なるポーズの、異なる服飾スタイルで着衣している、図1の1人の男性および1人の女性の身体の形状を表す図である。
図3】三次元スキャニングシミュレーションの図であり、(a)は、提示されたバーチャルスキャナのカメラ位置の正面図であり、(b)は、提示されたバーチャルスキャナのカメラ位置の上面図であり、(c)は、各カメラによって捕捉された点群がグレースケールで強調されているスキャン像データであり、(d)は、シミュレートされたノイズのクローズアップであり、(e)は、シミュレートされたくぼみのクローズアップであり、(f)は、遮蔽部のクローズアップである。
図4】(a)は、非着衣の身体のメッシュサンプルの図であり、(b)は、(a)についての着衣した人間メッシュサンプルの図であり、(c)は、スキャナシミュレータを使用した(b)のスキャン像の図である。
図5】トレーニングされたニューラルネットワークを得るための、本発明による方法のステップの概観図である。バーチャルスキャナにより得られる着衣した身体の形状データセットは、身体の形状のすべての向きを位置合わせするためのOriented Bounding Box(OBB)正規化へと供給され、その後、グラウンドトゥルースデータセットと一緒に、エンコーダ/デコーダニューラルネットワークに供給される。
図6】本発明によるデータセットによりトレーニングされるニューラルネットワークにより女性の身体の形状を推定した後のテスト結果の図である。上の行は、トレーニングされたニューラルネットワークへの入力としての着衣した人間スキャン像であり、中間の行は、推定された身体であり、下の行は、グラウンドトゥルースである。
図7】本発明の態様による、ニューラルネットワークをトレーニングする方法の方法ステップを表す図である。
図8】本明細書に記載の、非着衣の身体の形状を、着衣した身体の形状から推定するためのシステムを概略的に表す図である。
図9】実験2について、従来技術の方法との再構成誤差の比較を表す図である。各点のグレーの強さは、ミリメートルの単位で頂点ごとの誤差を示している。
図10】異なるスキャナにより得られた実際のスキャン像からの非着衣の身体の推定結果と、図9の同じ身体推定方法により行われた実際のスキャン像からの非着衣の身体の推定結果との視覚的比較を表す図である。上の行の身体は、スキャナ[4]によりスキャンされ、中間の行の身体は、スキャナ[5]によりスキャンされ、下の行の身体は、スキャナ[6]によりスキャンされたものである。
【発明を実施するための形態】
【0020】
本発明の態様は、非着衣の人間の身体の形状を、着衣した身体のスキャン像から推定する特定の分野について説明する。本明細書に説明する態様が、概して、物体または人間の身体の裸の形状を、隠れている形状のスキャン像から推定することに適用され得ることに留意すると好都合になる。具体的には、本明細書に使用される着衣(dressed)または非着衣(undressed)という用語は、それぞれ、少なくとも部分的に隠れており(concealed)、裸(bare)である(または覆いが取り去られている(unveiled))ことを指すことができる。
【0021】
非着衣の身体の形状を、着衣した身体のスキャン像から推定するためにニューラルネットワークを学習することの1つの問題は、グラウンドトゥルースデータ(非着衣の身体の形状)と、対応する着衣したデータとを含む信頼できるトレーニングデータセットを有することである。従来技術のトレーニングデータセットは、着衣した身体の形状しか含まず、非着衣の形状は、着衣した形状から構成または推定しなくてはならず、そのことはまさに根本的問題であり、行うことはかなり困難である。
【0022】
本発明においては、異なる手法が踏襲され、すなわち、トレーニングデータセットは、コンピュータを用いて生成される非着衣の(裸体の)身体の形状の第1のデータセットから始まって生成される。第1のデータセットを開発するための異なる種類のソフトウェアパッケージが存在する(たとえば、https://github.com/animate1978/MB-Labから入手可能なBastioni, MのMB-Lab、10/02/2019)。例として、第1のデータセットは、図1に示されているように、異なる身体の形状の少なくとも3人の、有利には少なくとも5人の非着衣の(裸体の)男性被験者、および少なくとも3人の、有利には少なくとも5人の非着衣の(裸体の)女性被験者を含むことができる。それらの形状は、プロの画家の経験により確立され得る。Manuel Bastioni Labソフトウェアパッケージによって提供される重要な利点は、よく定義されたスケルトンおよびスキニングのウェイトがあらかじめ定義されていることである。
【0023】
第1のデータセットの異なる身体の形状は、表面メッシュなど、任意の適切なデジタル形式で、好ましくは点群として提供され得る。
【0024】
第1のデータセットの身体の形状はすべて、単一ポーズとすることができる。しかしながら、異なるポーズでの身体の形状を提供することは有利になる。異なるポーズは、ストレッチしている、組んでいるなどの四肢、たとえば、腕および/または脚のうちの1つまたは複数の異なる向き、好ましくは、異なる展開状態または関節状態をとる身体を指す場合がある。これは、たとえば、第1のデータセットの身体の形状を開発するのに使用されるソフトウェアパッケージから直接、異なるポーズを生成するといった異なるやり方で得ることができる。別の可能性は、特定の身体の形状の運動シーケンスを得ることを可能にする専用のソフトウェアパッケージを使用することである。歩行、身体の回転、膝の引上げ、スクワット、U字ポーズのひねり、およびウォーミングアップを含む運動シーケンスが、線形ブレンドスキニングによって適用されてもよい。
【0025】
したがって、第1のデータセットは、1つまたは複数のポーズもしくは姿勢の異なる身体のタイプ(性別、年齢、身体のプロポーションなど)の複数の非着衣の身体の形状を含むことができる。第1のデータセットは、したがって、身体の形状および姿勢のグラウンドトゥルースを表す。
【0026】
第1のデータセットの複数の非着衣の身体の形状は、有利には、三角形および頂点を含む身体メッシュとして提供される。例として、1つの身体メッシュは、少なくとも5000個の頂点、有利には少なくとも10000個の頂点、有利には少なくとも15000個の頂点を含むことができる。
【0027】
次に、第2のデータセットが、着衣した身体の形状に対応して、第1のデータセットから生成される。
【0028】
この目的のために、CLO(www.clo3d.com)など、適切な市販の服飾CADモデリングソフトウェアを使用して、第1のデータセットの身体の形状に付ける衣類をシミュレートすることができる。より大きいデータセットを得るために、第1のデータセットからの身体の形状には、異なる服飾スタイル、たとえば、Tシャツおよび長ズボン、長袖の重ね着の衣服、幅の広い衣服、たとえば女性用のドレスおよび男性用の幅の広いズボン、サッカーのウェア、ならびに幅の広い長袖の衣服のうちの1つまたは複数により着衣し得る。各被験者は、複数の服飾スタイルにより着衣し得る。CLOなどのいくつかのソフトウェアパッケージは、現実的な着衣した人間アニメーションシーケンスを得るのに使用され得る物理ベースのシミュレーションエンジンを含む。異なる服飾スタイルの例は、図2に示されている。服飾スタイルには、靴を含めることができる。
【0029】
服飾工程を迅速化するために、自動着衣技法を使用することができる。そのような技法においては、複数の衣類を含む衣類テンプレートが使用される。衣類テンプレートは、複数の衣類または衣服が与えられる1つまたは複数の基準の(非着衣の)身体を含むことができる。基準の身体は、メッシュまたは点群として提供され得、上記に示した適切な市販の服飾CADモデリングソフトウェアを使用して衣類を着せることができる。
【0030】
これらの衣類のうちの1つまたはそれらの組合せは、衣類テンプレートから、第1のデータセットの複数の非着衣の身体の形状に転写される。有利には、衣類の頂点は、基準の身体の三角形に拘束付けられる(bound)。有利には、衣類の各頂点は、たった1つの三角形ではなく、基準の身体の少なくとも3つの、好ましくは6つの最も近い三角形上に拘束付けられる。この単純な改良により、結果的に、着衣し直された衣類の表面が平滑になり得る。実際、有利には、第1のデータセットの複数の身体メッシュは、対応する、可能性としては同様の意味論上の頂点および三角形を有し、それらはまた、衣類を転写するのに使用される基準の身体の意味論上の頂点および三角形に対応することができる。結果として、変形した衣類は、目標の身体の形状およびポーズによって速く推測可能である。この拘束付けが局所演算(local operation)であるとき、しわなどのより現実的な服飾細部が、衣類を目標の身体に転写する間に合成されることになる。
【0031】
多数の身体ポーズおよび多数の服飾スタイルを生成することによって、着衣した身体の形状の数の大きさが効果的に増大し得る。有利には、本発明の方法においては、身体のタイプ(形状)およびポーズのうちの一方またはそれらの組合せで互いに異なっている少なくとも5000個の、有利には少なくとも10000個の、有利には少なくとも20000個の、有利には少なくとも25000個のシミュレートされた着衣した身体の形状が生成される。1つの例においては、上述の方法論に基づいて、48,100個のシミュレートされた着衣した人間のメッシュが構築され、各メッシュは、対応するグラウンドトゥルース(非着衣の)形状を有する。たとえば、着衣した形状が、同じ非着衣の身体の形状に与えられる異なる服飾スタイルを指す場合、多数の着衣した身体の形状は、(非着衣の)同じグラウンドトゥルースを共有することができることに留意すると好都合になる。
【0032】
三次元スキャナシミュレータが、第2のデータセットを生成するために、シミュレートされた着衣した身体の形状に適用される。
【0033】
上述のシミュレーションにより得られた着衣した身体の形状は、人間の身体のスキャニングを含む現実世界のシナリオを表していない、きれいな、密な、詳細な3D身体モデルである。ノイズは、現実の人間の3Dスキャニングシナリオにおいては、捕捉された点群および他の表面表現に影響を及ぼす重要な摂動であり、したがって、本発明においては、ノイズ摂動をトレーニングデータセットにおいて考慮に入れる。
【0034】
その上、合成の着衣した人間モデルは、3Dデータとしてアクセスできる多層の服飾を有するが、現実シナリオの人間3Dスキャニングは、単一層の表面表現をもたらすことになる。
【0035】
上記の問題に対処するために、現実的3Dスキャナをシミュレートし測定結果に影響を及ぼす固有のノイズ摂動を組み込んでいるバーチャルスキャニング方法論が使用される。中心極限定理(Central Limit Theorem)によれば、取得パイプラインにおける様々なノイズ源は、ガウスノイズ分布に組み合わさる。したがって、バーチャルスキャナからの結果として生じる深さデータは、ガウスノイズによって破損させられ、現実世界の取得手順におけるノイズがシミュレートされ得る。
【0036】
たとえば、バーチャルスキャナは、図3(a)および(b)に示されている図の4つの異なる点から被験者の4つの深さ画像を捕捉する四カメラ(飛行時間型の)システムとして構築される。4つのカメラは、正方形の隅に配置され、着衣した身体の形状は、正方形の(幾何学的)中心に置かれる。より多くのカメラまたはより少ないカメラがバーチャルスキャナにおいて実装されてもよいことに留意すると好都合になる。ガウスノイズが、現実世界において使用されることになる3Dカメラ(スキャナ)のノイズシグネチャを表すスキャンされたデータに追加される。これらのカメラにより、深さ画像を得ることが可能になる。捕捉された深さ画像は、3D点群に逆投影され、それは、次の等式を用いてカメラの外部パラメータを利用することによって位置合わせされ得る。
【0037】
【数1】
【0038】
式中、Sは、結果として生じる着衣した人間の疑似スキャン像であり、Rは、カメラの外部マトリクスであり、Cは、1つのカメラからのデータであり、mは、カメラの数である。
【0039】
上述のシミュレーション方法論を使用して得られたアニメーション化された着衣した人間のメッシュのそれぞれについての点群または任意の他の適切な表面表現は、バーチャルスキャナによって、容易に生成され得る。
【0040】
図3(c)~(f)を参照すると、現実的なスキャンされた点群は、スキャナシミュレータ(バーチャルスキャナ)から得ることができることがわかる。ノイズ、くぼみ、および遮蔽部が、バーチャル3Dスキャナによって捕捉される点群に存在する。結果として生じるデータセットは、着衣した人間のスキャンされた点群(メッシュ)の第2のデータセットと、きれいなグラウンドトゥルースの身体の点群(メッシュ)の第1のデータセットとからなる。バーチャルスキャナは、Blenderのオープンソース3Dコンピュータグラフィックスソフトウェア(www.blender.org)において実装された。
【0041】
有利には、法線、色、および曲率などの局所プロパティが、点群に関連付けされ得る。この目的のために、オフセットと呼ばれるプロパティが、第2のデータセットの身体のメッシュの各頂点(すなわち、点)に割り当てられる。スキャンされた着衣した身体のメッシュ(第2のデータセット)上の各頂点
【数2】
について、対応する頂点
【数3】
が、関連のグラウンドトゥルースの身体のメッシュ(第1のデータセット)、たとえば、最近点として決定される。
【数4】
のオフセットが、以下のように決定される。
【0042】
【数5】
【0043】
このオフセットは、さらに後述するニューラルネットワークをトレーニングするために使用され得る。
【0044】
第1のデータセット(非着衣の身体の形状)と第2のデータセット(着衣した身体の形状)はともに、有利には、点群として、または少なくとも、非着衣の身体の形状を物理的に3Dスキャンされた着衣モデルから推定することを可能にするようにニューラルネットワークをトレーニングするためにニューラルネットワークに入力されるのに適している形式で利用可能である。
【0045】
身体の形状推定モデルの問題は、次のように表すことができる。
B=d(e(D))
式中、eは、エンコーダを示し、dは、デコーダを示し、Dは、きれいな場合またはノイズが多い場合がある着衣した人間の点群であり、Bは、身体の推定された点群である。これは、身体の形状および姿勢の推定が、Dを所与としてBを予測するように定義され得ることを意味している。この定式化の下では、DとBとの間の明確な対応関係は存在しないことに留意されたい。DからBへのマッピングは、上述のデータセットに基づいてトレーニングされるニューラルネットワークにより行われる。
【0046】
図5を参照すると、1つの例において、ニューラルネットワーク10は、エンコーダ/デコーダのアーキテクチャとして構成されている。第1に、エンコーダ11は、k次元の特徴ベクトルを生成することによって入力点群Dを記述する。第2に、デコーダ12は、生成された特徴ベクトルを使用して(非着衣の)身体点群を作り出す。デコーダ12は、International Conference on 3D Vision (3DV)、728~737 (2018)におけるYuan, W.、Khot, T.、Held, D.、Mertz, C.、およびHebert, M.のPCN(Point Completion Network)に記載されているものとすることができ、Achlioptas, P.、Diamanti, O.、Mitliagkas, I.、およびGuibas, L.のLearning Representations and Generative Models for 3D Point Clouds、arXiv preprint arXiv:1707.02392 (2017)に記載の完全結合型デコーダ(fully-connected decoder)と、Yang, Y.、Feng, C.、Shen, Y.、およびTian, D.のFoldingNet: Interpretable Unsupervised Learning on 3D Point Clouds、arXiv preprint arXiv:1712.07262 (2017)に記載の折畳み型デコーダ(folding-based decoder)との組合せである。完全結合型デコーダは、疎らな点群を予測するのに適しており、一方、折畳み型デコーダは、密な点群を推定する際によく働く。これらのデコーダの組合せは、点群の局所特性と大域特性とをともに捕らえることが可能になり、それを構成するデコーダの性能を上回る。
【0047】
ディープニューラルネットワークのトレーニングには、よく定義された損失関数が必要である。損失関数は、ニューラルネットワークがいかによく身体の点群を推定しているかについて、出力をグラウンドトゥルースの身体の形状の点群と比較することによって評価する。点群の不規則性に起因して、費用関数は、点の全順列が同じ結果につながるようなやり方で定義すべきである。これを実行するために、Chamfer Distance(CD)およびEarth Mover's Distance (EMD)などの順列不変関数が使用され得る。予測された点群C1とグラウンドトゥルース点群C2との間のChamfer距離は、以下のように定義される。
【0048】
【数6】
【0049】
式中、C1およびC2は、それぞれ、異なるサイズ|C1|、|C2|とすることができる。この関数は、各点と他の集合におけるその最近傍との間のすべての距離を平均化する。この距離尺度を用いると、均一な分布による点群を生成するニューラルネットワークにつながらない。この問題に取り組みために、Earth Mover's Distanceが使用され得る。C1とC2との間のEMD距離は、以下のように定義される。
【0050】
【数7】
【0051】
式中、Φ:C1→C2は、双射である。この距離尺度により、C1とC2との間の平均の点間距離を最小化することができる。点間マッピングは、予測された点群の均一性を確保する。しかしながら、最適なΦを見つけることは、特に高解像度の点群の場合、計算コストが高くつく。両方の損失関数を活用するために、完全結合型デコーダによって予測される疎らな身体の点群は、CD損失値とEMD損失値との和によって評価され得、一方、折畳み型デコーダによって予測される密な身体の点群は、CD損失関数によって評価される。
【0052】
より具体的には、初期の身体推定損失を、EMDを使用して、以下のように決定することができる。
【0053】
【数8】
【0054】
式中φ(ν)は、予測された初期の非着衣の身体の頂点(点)
【数9】
におけるνという対応点を表す。このEMDは、予測された初期の非着衣の身体の頂点
【数10】
と、初期のグラウンドトゥルース(GT)の身体の頂点
【数11】
との間の誤差である。
【0055】
続いて、粗い再構成損失を、初期の身体推定損失と同様に、EMDを使用して、以下のように決定することができる。
【0056】
【数12】
【0057】
式中、φ(ν)は、予測された粗い非着衣の身体の頂点
【数13】
におけるνという対応点を表す。このEMDは、予測された粗い非着衣の身体の頂点
【数14】
と、粗いグラウンドトゥルース(GT)の身体の頂点
【数15】
との間の誤差である。
【0058】
続いて、細かい再構成損失を、対称Chamfer Distance(symmetric chamfer distance、SCD)を使用して、以下のように決定することができる。
【0059】
【数16】
【0060】
SCDは、推定された密な非着衣の身体の頂点
【数17】
と、グラウンドトゥルース(GT)の身体の頂点
【数18】
との間の平均最近点距離である。
【0061】
オプションで、オフセット損失を示すさらなる損失関数が、上記の損失関数に追加され、有利には、頂点オフセットΔOをトレーニングするのに使用される。オフセット損失OLは、以下のように定義することができる。
【0062】
【数19】
【0063】
式中、OL(ΔO,ΔOGT)は、l1損失であり、それは、予測されたオフセットΔOと、グラウンドトゥルースオフセット
【数20】
との間の誤差を最小化する。
【0064】
有利には、上記の損失関数を組み合わせて、以下のように定義される最終的な損失関数が得られる。
【0065】
【数21】
【0066】
式中、αOL、αinitial、αcoarse、およびαSCDは、各項の寄与を調整する重みである。
【0067】
第1のデータセットおよび第2のデータセットは、有利には、任意の適切な表面表現のテータセットとしてニューラルネットワークに入力される。有利には、データセットは、点群として入力される。点群の使用を可能にする可能なネットワークアーキテクチャは、IEEE Conference on Computer Vision and Pattern Recognition、4 (2017)のQi, C.R.らのPointnet: Deep learning on Point Sets for 3d Classification and Segmentationに記載されている。
【0068】
第1のデータセットおよび第2のデータセットの処理の課題は、身体の大域的向きの大きい変化に対処することである。従来、幾何学的データは、すべてのメッシュまたは点群を境界ボックスの中心に置いて、それらを単位球面にスケーリングすることによって正規化され得る。しかしながら、このことは、出力された身体の点群が、入力された着衣した人間のスキャン像の向きに非常に依存しているとき、余計な作業である場合がある。向きに対する不変性を達成するための別の有利なやり方は、IEEE Conference on Computer Vision and Pattern Recognitionの議事録、8417~8426(2018)におけるGe, L.らのHand PointNet: 3d Hand Pose Estimation using Point Setsに記載のOriented Bounding Box (OBB)正規化と呼ばれる進化型正規化法を採用することである。
【0069】
そのため、第2のデータセット、および有利には第1のデータセットの得られた点群は、まず、それらの向きを正規化させてから、正規化モジュール13におけるトレーニングに向けてニューラルネットワークに入力されることになる。
【0070】
バーチャルスキャナ14において実装されるノイズに起因して、第2のデータセットの点がすべて、等しい程度の信頼性を有するわけではなくなる。困難な領域(たとえば、脇の下)においてスキャナによって生成される点は、身体の非常に見えやすい部分に位置する点よりもノイズが生じやすい。別の重要な観察事項は、布地が身体に対して密着している領域に位置する点は、布地が身体に対してゆったりしている困難な領域に位置する点よりも正確な身体の形状推定結果につながりやすいことである。有利には、信頼度を第2のデータセットの点群のそれぞれに関連付ける信頼度マップが、第2のデータセットにおいて生成される。信頼度マップは、有利には、身体の形状を正しく推定する際にそれをガイドするためにニューラルネットワークに入力される。
【0071】
信頼度値をコンピュータ計算する可能なやり方は、その信頼度値を3D点ごとに(または他の表面表現、たとえばメッシュ、ベジエ曲線などが使用される場合には、選択された節点において)ノイズの局所分散(local variance)に反比例させることである。これらの分散は、様々なポーズについての着衣した身体のデータセットおよび非着衣の均等物を使用して推定され得る。結果として生じる分散が高いほど、対応する3D点の信頼度は低くなる。別の可能性は、着衣した身体のモデルと、対応する非着衣の身体の形状との間の各点における相対距離を考慮に入れることである。様々な身体のポーズについての平均相対距離および相対距離の分散は、コンピュータ計算され得る。信頼度は、結果として生じる分散に反比例する。
【0072】
図7を参照すると、第1のデータセットおよび第2のデータセットによりニューラルネットワークをトレーニングする方法100は、座標(x、y、z)によりn個の点からなる入力点群を生成するために、着衣した身体のメッシュをバーチャルスキャンする第1のステップ101を含む。入力点群は、正規化された点群を得るために、ステップ102において正規化される。例として、正規化は、たとえば、IEEE Conference on Computer Vision and Pattern Recognition、2018の議事録pp. 8417~8426におけるL. Ge、Y. Cai、J. Weng、およびJ. Yuanの「Hand pointnet: 3d hand pose estimation using point sets」に記載のOBB正規化として行うことができる。有利には、正規化された点群は、m個の正規化された点を含むサブサンプリングされた点群を得るためにサブサンプリングされ、ただし、m<nである。有利には、たとえば、上述したサブサンプリングされた点群の点について、オフセットが決定される。m個のサブサンプリングされた点とオフセットとの間の残差は、初期の非着衣の身体の点を表す。初期の非着衣の身体の点は、ステップ103においてニューラルネットワークのエンコーダ部に供給される。エンコーダは、これらの点における特徴を学習するためにこれらの初期の身体の点を消費する。エンコーダからの特徴は、粗いまたは疎らな身体の点を出力するためにステップ104においてニューラルネットワークのデコーダ部に供給される。たとえば、上述したCDおよび/またはEMDを実装するデコーダは、粗い身体の点を生成するために多層パーセプトロン(MLP)モジュールにより実装され得る。次いで、デコーダは、ステップ105において、粗い身体の点を精緻化して密な非着衣の身体の点群を得る。デコーダは、粗い身体の点を精緻化するように構成されている折畳みモジュールを含むことができる。折畳みモジュールは、上述したCDにより実装され得る。IEEE Conference on Computer Vision and Pattern Recognition、2018の議事録pp. 206~215におけるY. Yang、C. Feng、Y. Shen、
およびD. Tianの「Foldingnet: Point cloud auto-encoder via deep grid deformation」に記載の折畳みモジュールが実装され得る。デコーダは、オプションで、精緻化された粗い身体の点を非正規化する非正規化モジュールを含み、密な身体の点を得ることができる。精緻化ステップ105は、オプションで、点群/身体メッシュの元のスケールおよび向きを回復するために非正規化ステップ106を含む。
【0073】
図8を参照すると、システム200は、三次元(3D)身体スキャニングデバイス202に接続されたコンピューティングデバイス201を備える。3D身体スキャニングデバイス202は、多角形(polygon)の隅に配置され多角形の中心領域に位置決めされた身体をスキャンするように構成された1つまたは複数のカメラ203を備えることができる。カメラ203は、この目的に適している任意のカメラ、たとえば、飛行時間(TOF)カメラとすることができる。
【0074】
コンピューティングデバイス201は、本明細書に説明するトレーニングされたニューラルネットワーク10を備え、ニューラルネットワークとの間でデータを受信および/または送信するためにニューラルネットワーク10に結合されている1つまたは複数のユーザアプリケーション204を含むことができる。ユーザアプリケーション204のうちの1つは、着衣した身体のスキャン像を受け取るために3D身体スキャニングデバイス202に動作可能に結合され得、そのスキャン像は、次いで、非着衣の身体のメッシュを推定するために、トレーニングされたニューラルネットワーク10に供給される。
【0075】
実験1
上記の方法は、テスト済みである。48100個のモデルのトレーニングデータセットを上述の手順を用いて得た。スキャニングシミュレーションを、構造化光カメラ(structured-light camera)用に設計されているノイズモデルを有するKinect v1ブレンダのシミュレーションにより行った。データセットを、90%、5%、および5%ずつ、それぞれ、トレーニングデータセット、検証データセット、およびテスト用データセットに分割した。トレーニングは、Kingma, D.P.、およびBa, J.のAdam: A Method for Stochastic Optimization、arXiv preprint arXiv:1412.6980 (2014)に記載のAdamオプティマイザを使用して行った。TensorFlow(OSDI、265~283、(2016)におけるAbadi, M.、Barham, P.、Chen, J.、Chen, Z.、Davis, A.、Dean, J.、Devin, M、Ghemawat, S.、Irving, G.、Isard, M.、およびKudlur, M.のTensorflow: a System for Large-scale Machine Learning)に基づいて、デスクトップPC(Intel(R) Xeon(R) Silver 4112 CPU @ 2.60GHz 64GB RAM GPU GeForce GTX 1080Ti)における50個のエポックおよびバッチサイズ16について、初期学習率0.0001を使用した。学習率は、50K反復ごとに0.7ずつ低下させる。エンコーダにおける入力点群、エンコーダにおける特徴ベクトル、デコーダにおける疎らな出力、およびデコーダにおける密な出力のサイズは、それぞれ6144、1024、2048、および16384であった。デコーダによって予測される疎らな身体の点群は、CD損失値とEMD損失値との和によって評価し、一方、折畳み型デコーダによって予測される密な身体の点群は、CD損失関数によって評価した。
【0076】
推定された身体の形状を、テスト用データからのグラウンドトゥルースの身体の点群と比較した。ドレスなどの幅広の衣服から身体の形状を推定することはより困難であるので、性能を女性データに関してテストした。結果は、表1に示されている。いくつかの比較グラフィカル形状が、図6に示されている。
【0077】
表1: 推定された身体の形状の数値結果である。各女性被験者に対して、服飾スタイルごとに10フレームが、テスト用データセットからランダムに選択され(項5.1参照)、グラウンドトゥルース(GT)の身体のメッシュと方法結果との間のミリメートル単位の平均の点間距離が報告された。
注記: FHDは、前方ハウスドルフ距離(forward Hausdorff distance)、すなわち、GTの全点から、推定された身体上の点までの距離の全点からの最小距離を推定された身体の全点について平均化したものである。RHDは、逆ハウスドルフ距離(reverse Hausdorff distance)、すなわち、推定された身体の全点からGTにおける点までの最小距離をすべてのBについて平均化したものである。AVGは、FHDとRHDとの平均である。
【0078】
【表1】
【0079】
実験2
100,000人の男性モデルおよび100,000人の女性モデルのトレーニングデータセットを上述の手順を用いて生成した。3つのタイプの衣服を各々に着せ、したがって、600,000個の着衣したスキャン像と、対応する200,000個のグラウンドトゥルースの身体の形状が得られた。このデータセットは、本明細書において以降、BUGデータセットと呼ぶ。トレーニング段階においては、データセットを、97%、2%、および1%ずつ、それぞれ、トレーニング、検証、およびテスト用に分割した。トレーニングは、実験1のようにAdamオプティマイザを使用して行った。学習率は、50K反復ごとに0.7ずつ低下させた。等式(5)による損失関数を使用した。等式(5)に定義された各項の重みを、αOL=1、αinitial=1、αcoarse=1、およびαCD=1に設定した。広く使用されている評価距離尺度Chamfer Distance (CD)を使用した。CD誤差は、再構成された身体のメッシュとグラウンドトゥルースの身体のメッシュとの間の平均ユークリッド距離である。測定単位は、mmである。CD誤差を以下のように定義した。
【0080】
【数22】
【0081】
頂点間誤差の平均値および平均標準偏差を計算した。
【0082】
トレーニングされたニューラルネットワークを、BUGデータセットによりテストした。BUGデータセットは、グラウンドトゥルースのポーズした身体のモデルを含み、それを使用して、本発明の方法を従来技術の方法と定量的に比較した。この実験においては、[INV]とラベル付けされた本発明の方法を、[1]Hasler, N.、Stoll, C.、Rosenhahn, B.、Thormaehlen, T.、およびSeidel, H.P.の2009、Estimating body shape of dressed humans、Computers & Graphics、33(3)、pp.211~216、[2]IEEE Conference on Computer Vision and Pattern Recognitionの議事録(pp. 7122~7131)におけるKanazawa, A.、Black, M.J.、Jacobs, D.W.、およびMalik, J.の2018、End-to-end recovery of human shape and pose、[3]European Conference on Computer Vision (ECCV)、2018の議事録pp. 230~246におけるT. Groueix、M. Fisher、V. G. Kim、B. C. Russell、およびM. Aubry、「3dcoded: 3d correspondences by deep deformation」と比較した。評価は、2000個の身体メッシュを含むBUGテスト用データセットに基づいた。図9は、いくつかの推定された身体の形状の誤差マップを示している。本発明の方法を使用して推定された身体の形状の頂点の90%超が10mm未満の頂点ごとの誤差を有し、それによって、従来技術の基準方法の性能を上回る。
【0083】
実験3
センサノイズおよび欠測データに対する本発明の方法のロバスト性をテストした。[4]Multi-Kinectスキャニング(2015 International Conference on 3D Vision、IEEE、2015、pp. 318~325におけるM. Kowalski、J. Naruniec、およびM. Danilukの「Livescan3d: A fast and inexpensive 3d data acquisition system for multiple kinect v2 sensors」、[5]Microsoft Kinect Version 2およびターンテーブルスキャニングシステム(P. Hu, T. Komura、D. Holden、およびY. Zhong、「Scanning and animating characters dressed in multiple-layer garments」、The Visual Computer、33巻、第6~8号、pp. 961~969、2017)、ならびに[6]PhotoScan (https://www.agisoft.com/)と呼ばれる写真測量スキャニングシステムを含む3つの一般的なスキャニングシステムを使用して、3人の被験者を捕捉し、非着衣の身体の形状を、本発明の方法[INV]を使用するスキャン像から推定し、方法[1]~[3]と比較した。図10は、視覚的比較を示している。結果[1]は、極度の浸透問題を有し、結果[2]は、形状および姿勢の観点から不正確であり、結果[3]は、より太って、不自然に変形している。それとは反対に、本発明による方法の結果は、もっともらしく信頼できる。推定された身体(明るく色付けされた領域)は、衣類(暗く色付けされた領域)のほぼ内側にある。[4]からのスキャン像は、非常にノイズが多く、不完全であり、不正確に位置合わせされている。[5]からのスキャン像は、頭の領域に欠測データを有するが、きれいなメッシュである。[6]からのスキャン像は、腕および股の領域にノイズを有する。[1]の性能は、予期せぬノイズに起因して低下する。[2]の誤差は大きい。[3]の性能は、維持されるように思われるが、推定された身体は、やはり、現実と比較してサイズが大き過ぎる。本発明の方法の結果は、従来技術の方法の結果と最良に比較されるような結果となった。これにより、非着衣の身体の形状を着衣した身体スキャン像から推定する本発明の方法が、異なるスキャナによって捕捉されたスキャン像に関して使用可能であり、大きいノイズレベルおよび欠測データに対してロバストであることを可能にすることが証明される。
【0084】
本発明はまた、実行時間の観点で、従来技術の方法を性能が上回る結果となった。本発明の方法の1つのスキャン像に基づく再構成時間は、5.8秒であったが、[1]の場合、11分であり、[3]の場合、1分であった。[2]の再構成時間は、1つの写真に基づいて2.5分であった。その上、方法[1]および[3]には、追加的に先行モデルが与えられることが必要であり、方法[2]には、二次元の接合部が与えられることが必要であり、それらはいずれも、本発明の方法に必要ではなかった。そのような追加のデータが、現実世界の適用例において必ずしも利用可能とは限らない。
【0085】
可能な適用例は、人間の身体のスキャニング、人間生体認証、ファッション品、具体的には、人間または動物が身に付けることになる服飾履物および服飾アクセサリ、ならびに自動物体認識の分野である。
【符号の説明】
【0086】
10 ニューラルネットワーク
11 エンコーダ
12 デコーダ
13 正規化モジュール
14 バーチャルスキャナ
100 方法
200 システム
201 コンピューティングデバイス
202 三次元(3D)身体スキャニングデバイス
203 カメラ
204 ユーザアプリケーション
図1
図2
図3
図4a
図4b
図4c
図5
図6
図7
図8
図9
図10
【国際調査報告】