IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フィッティングボックスの特許一覧

特表2024-506637画像内の対象物を検出およびモデル化するための機械学習システムの学習法、対応するコンピュータプログラム製品、および機器
<>
  • 特表-画像内の対象物を検出およびモデル化するための機械学習システムの学習法、対応するコンピュータプログラム製品、および機器 図1
  • 特表-画像内の対象物を検出およびモデル化するための機械学習システムの学習法、対応するコンピュータプログラム製品、および機器 図2a
  • 特表-画像内の対象物を検出およびモデル化するための機械学習システムの学習法、対応するコンピュータプログラム製品、および機器 図2b
  • 特表-画像内の対象物を検出およびモデル化するための機械学習システムの学習法、対応するコンピュータプログラム製品、および機器 図2c
  • 特表-画像内の対象物を検出およびモデル化するための機械学習システムの学習法、対応するコンピュータプログラム製品、および機器 図2d
  • 特表-画像内の対象物を検出およびモデル化するための機械学習システムの学習法、対応するコンピュータプログラム製品、および機器 図3
  • 特表-画像内の対象物を検出およびモデル化するための機械学習システムの学習法、対応するコンピュータプログラム製品、および機器 図4a
  • 特表-画像内の対象物を検出およびモデル化するための機械学習システムの学習法、対応するコンピュータプログラム製品、および機器 図4b
  • 特表-画像内の対象物を検出およびモデル化するための機械学習システムの学習法、対応するコンピュータプログラム製品、および機器 図5
  • 特表-画像内の対象物を検出およびモデル化するための機械学習システムの学習法、対応するコンピュータプログラム製品、および機器 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-14
(54)【発明の名称】画像内の対象物を検出およびモデル化するための機械学習システムの学習法、対応するコンピュータプログラム製品、および機器
(51)【国際特許分類】
   G06V 10/70 20220101AFI20240206BHJP
   G06T 7/00 20170101ALI20240206BHJP
   G06F 18/213 20230101ALI20240206BHJP
   G06N 3/08 20230101ALI20240206BHJP
   G06N 20/00 20190101ALI20240206BHJP
【FI】
G06V10/70
G06T7/00 350B
G06T7/00 660A
G06F18/213
G06N3/08
G06N20/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023548249
(86)(22)【出願日】2022-02-10
(85)【翻訳文提出日】2023-09-04
(86)【国際出願番号】 FR2022050240
(87)【国際公開番号】W WO2022171960
(87)【国際公開日】2022-08-18
(31)【優先権主張番号】2101319
(32)【優先日】2021-02-11
(33)【優先権主張国・地域又は機関】FR
(81)【指定国・地域】
(71)【出願人】
【識別番号】523264633
【氏名又は名称】フィッティングボックス
(74)【代理人】
【識別番号】100098394
【弁理士】
【氏名又は名称】山川 茂樹
(72)【発明者】
【氏名】ナチュレル,グザヴィエ
(72)【発明者】
【氏名】シュクルン,アリエル
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096FA02
5L096FA06
5L096KA04
(57)【要約】
本発明は、機械学習システムの学習法に関する。そのような方法によれば、機械学習システムは、対象物および/または特徴領域を表す実像および少なくとも1つの仮想要素を備える拡張現実画像を得るステップと、拡張現実画像ごとに、拡張現実画像の少なくとも1つの所与の仮想要素に関して、所与の仮想要素をセグメント化するためのモデル、および所与の仮想要素のパラメータ表示に対応する1組の輪郭点を備える学習情報を得るステップと、複数の拡張現実画像および学習情報に基づき学習し、機械学習システムが所与の画像内の対象物および/または特徴領域を検出およびモデル化可能にする1組のパラメータを与えるステップとを行う。
【選択図】図1
【特許請求の範囲】
【請求項1】
少なくとも1つの所与の画像内に表現された少なくとも1つの対象物および/または前記少なくとも1つの所与の画像の少なくとも1つの特徴領域を検出およびモデル化するための機械学習システムの学習法であって、
前記機械学習システムは、
前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域を表す実像および少なくとも1つの仮想要素を備える複数の拡張現実画像を生成するステップと、
前記拡張現実画像ごとに、前記拡張現実画像の少なくとも1つの所与の仮想要素に関して、
前記所与の仮想要素から得た前記所与の仮想要素のセグメント化モデル、および
前記所与の仮想要素から得た、前記所与の仮想要素のパラメータ表示に対応する1組の輪郭点、または前記パラメータ表示
とを備える学習情報を得るステップと、
前記複数の拡張現実画像および前記学習情報から学習し、前記機械学習システムが前記少なくとも1つの所与の画像内の前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域を検出して、
前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域のセグメント化モデル、ならびに
前記少なくとも1つの対象物および/もしくは前記少なくとも1つの特徴領域のパラメータ表示に対応する1組の輪郭点、または前記パラメータ表示
とを備える対応するモデル化情報を決定可能にする1組のパラメータを与えるステップとを遂行することを特徴とする学習法。
【請求項2】
前記拡張現実画像ごとに、前記機械学習システムの前記学習は、一方では前記所与の仮想要素の前記セグメント化モデル、および他方では前記所与の仮想要素の前記パラメータ表示に対応する前記1組の輪郭点からの共同学習を備える、請求項1に記載の学習法。
【請求項3】
前記共同学習は、一方では前記所与の仮想要素の前記セグメント化モデルに関連する交差エントロピーと、他方では前記所与の仮想要素の前記パラメータ表示に対応する前記1組の輪郭点に関連するユークリッド距離との間の一次結合に依存するコスト関数を実行する、請求項2に記載の学習法。
【請求項4】
前記実画像は顔の実例を備え、前記学習情報は、前記所与の仮想要素の前記パラメータ表示に対応する前記1組の輪郭点のうち少なくとも1つの前記輪郭点に関して、前記輪郭点が見えるかどうか、または前記顔により隠されているかどうかを示す可視性情報を備える、請求項1から請求項3のいずれか一項に記載の学習法。
【請求項5】
前記コスト関数は、前記輪郭点の前記可視性に関連するバイナリ交差エントロピーにさらに依存する、請求項2に従属するときの請求項4に記載の学習法。
【請求項6】
少なくとも1つの画像内に表現された少なくとも1つの対象物および/または前記少なくとも1つの画像の少なくとも1つの特徴領域の検出およびモデル化法であって、
請求項1から請求項5のいずれか一項に記載の学習法を実行することにより訓練された機械学習システムは、前記少なくとも1つの画像内の前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域の検出を遂行し、前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域のモデル化情報の決定を遂行する検出およびモデル化法。
【請求項7】
前記機械学習システムは、請求項2または請求項2に従属するときの請求項3から請求項5のいずれか一項に記載の学習法を実行することにより訓練され、
前記決定は、
前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域の前記セグメント化モデル、ならびに
前記少なくとも1つの対象物および/もしくは前記少なくとも1つの前記特徴領域の前記パラメータ表示に対応する前記1組の輪郭点
の共同決定を備える、
請求項6に記載の検出およびモデル化法。
【請求項8】
前記機械学習システムは、請求項4または請求項4に従属するときの請求項5に記載の学習法を実行することにより訓練され、前記少なくとも1つの画像は所与の顔の表現を備え、前記機械学習システムは、前記少なくとも1つの対象物および/または前記少なくとも1つの前記特徴領域の前記パラメータ表示に対応する前記1組の輪郭点のうち少なくとも1つの所与の輪郭点に関して、前記所与の輪郭点が見えるかどうか、または所与の顔により隠されているかどうかを示す可視性情報をさらに決定する、請求項6または7に記載の検出およびモデル化法。
【請求項9】
前記少なくとも1つの画像は、前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域の異なる視界をそれぞれ表現する複数の画像を備え、前記検出および前記モデル化は、前記複数の画像ごとに共同で実行される、請求項6から請求項8のいずれか一項に記載の検出およびモデル化法。
【請求項10】
コンピュータプログラム製品であって、コンピュータ上で前記プログラムを実行するとき、請求項1から請求項9のいずれか一項に記載の方法を実行するためのプログラムコード命令を備えるコンピュータプログラム製品。
【請求項11】
少なくとも1つの画像内に表現された少なくとも1つの対象物および/または前記少なくとも1つの画像の少なくとも1つの特徴領域を検出およびモデル化するための機器であって、
前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域を表す実像および少なくとも1つの仮想要素を備える複数の拡張現実画像を生成するステップと、
前記拡張現実画像ごとに、前記拡張現実画像の少なくとも1つの所与の仮想要素に関して、
前記所与の仮想要素から得た前記所与の仮想要素のセグメント化モデル、および
前記所与の仮想要素から得た、前記所与の仮想要素のパラメータ表示に対応する1組の輪郭点、または前記パラメータ表示と
を備える学習情報を得るステップと、
前記複数の拡張現実画像および前記学習情報から学習し、記機械学習システムが少なくとも1つの所与の画像内の前前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域を検出して、
前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域のセグメント化モデル、ならびに
前記少なくとも1つの対象物および/もしくは前記少なくとも1つの特徴領域のパラメータ表示に対応する1組の輪郭点、または前記パラメータ表示
とを備える対応するモデル化情報を決定可能にする1組のパラメータを与えるステップと
を実行するように構成された少なくとも1つのプロセッサおよび/または少なくとも1つの専用計算機を備えることを特徴とする機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の分野は、画像処理の分野である。
【0002】
より詳細には、本発明は、対象物および/または画像内で検出された特徴領域(たとえば目、鼻など)を検出およびモデル化するための方法に関する。
【0003】
本発明には、詳細には1つの眼鏡の仮想試験のための数多くの適用分野があるが、排他的ではない。
【背景技術】
【0004】
本明細書の残りの部分では、詳細には、本発明出願の発明者らが直面してきた1つの眼鏡の仮想試験の分野での既存の問題について記述する。当然のことながら、本発明はこの特定の出願分野に限定されないが、画像内に表現された任意のタイプの対象物および/またはそのような画像の任意のタイプの特徴領域(すなわち、関心のある画像の一部分)の検出およびモデル化に関して関心がある。
【0005】
考慮されている対象物および/または特徴領域を検出するために、いくつかの対象物および/またはいくつかの特徴領域の特徴点を使用することは従来技術から公知である。たとえば、目の隅は従来、画像内の個人の目を検出できるようにする特徴点として使用されている。鼻、または口の隅などの他の特徴点もまた、顔の検出のために考慮されてよい。一般に、顔の検出の品質は、使用する特徴点の数および位置に依存する。そのような技法は、詳細には本特許出願を提出している会社の、仏国特許発明第2955409号明細書で公開された仏国特許、および国際公開第2016/135078号で公開された国際特許出願に記述されている。
【0006】
製造された対象物に関しては、たとえば縁部または隅を特徴点と考えてよい。
【0007】
しかしながら、そのような特徴点を使用することにより、検出する際に、したがって、該当する場合には考慮されている対象物および/または特徴領域をモデル化する際に精度の欠如につながる。
【0008】
代わりに、考慮されている対象物および/または特徴領域の特徴点を人工的に生成するために、場合によっては手作業による画像注釈を検討することがある。しかしながら、この点ではこの場合も、考慮されている対象物および/または特徴領域を検出する際に精度の欠如が指摘される。該当する場合には、そのような不正確さは、そのようにして検出された対象物および/または特徴領域をモデル化する際に問題を引き起こす可能性がある。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】仏国特許発明第2955409号明細書
【特許文献2】国際公開第2016/135078号
【非特許文献】
【0010】
【非特許文献1】Ronneberger、Fischer & Brox、「U-Net: Convolutional Networks for Biomedical Image Segmentation(生物医学的画像セグメント化用の畳込みネットワーク)」、2015年
【非特許文献2】Chen、Zhu、Papandreou、Schroff、& Adam、「Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation(意味画像セグメント化のためのAtrous分離可能畳込みを伴うエンコーダ-デコーダ)」、2018年
【発明の概要】
【発明が解決しようとする課題】
【0011】
その結果、画像内に示された1つ(もしくは複数)の対象物および/または考慮されている画像内に存在する1つ(もしくは複数)の特徴領域を正確に検出およびモデル化できるようにする技法が必要である。
【課題を解決するための手段】
【0012】
本発明の実施形態では、少なくとも1つの所与の画像内に表現された少なくとも1つの対象物および/または前記少なくとも1つの所与の画像の少なくとも1つの特徴領域を検出およびモデル化するための機械学習システムの学習法を提供する。そのような方法によれば、機械学習システムは、
-前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域を表す実像および少なくとも1つの仮想要素を備える複数の拡張現実画像を生成するステップと、
-拡張現実画像ごとに、拡張現実画像の少なくとも1つの所与の仮想要素に関して、
-所与の仮想要素から得た前記所与の仮想要素のセグメント化モデル、および
-所与の仮想要素から得た、前記所与の仮想要素のパラメータ表示に対応する1組の輪郭点、または前記パラメータ表示
を備える学習情報を得るステップと、
-複数の拡張現実画像および学習情報を学習し、前記機械学習システムが前記少なくとも1つの所与の画像内の前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域を検出して、
-前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域のセグメント化モデル、および
-前記少なくとも1つの対象物および/もしくは前記少なくとも1つの特徴領域のパラメータ表示に対応する1組の輪郭点、または前記パラメータ表示
を備える対応するモデル化情報を決定可能にする1組のパラメータを与えるステップと
を遂行する。
【0013】
その結果、本発明は、機械学習システム(たとえば、従来のニューラルネットワーク)が所与の画像(たとえば、眼鏡を装着している人の顔を示す図)内の1つ(もしくは複数)の対象物(たとえば、1つの眼鏡)および/または1つ(もしくは複数)の特徴領域(たとえば、目の輪郭または虹彩の輪郭)を検出可能にするように機械学習システムを学習させて、対応するモデル化情報を決定するための新しく創意に富む解決手段を提供する。
【0014】
より詳細には、1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域を表す仮想要素を備える拡張現実画像から学習を行う。その結果(たとえば、1つまたは複数の仮想要素によりシミュレートされた対象物および/または特徴領域のバイナリマスクによる)セグメント化、および輪郭の全面にわたる点の分配は正確に行われる。たとえば、これにより、そのような点の手作業による注釈に固有の不明確さを解決できるようになる。たとえば、点の分配は、1つまたは複数の仮想要素によりシミュレートされた対象物の2Dもしくは3Dのパラメータ表示(たとえば、3DMMモデル(「3D Morphable Model」))および/または特徴領域の2Dもしくは3Dのパラメータ表示に対応する。この手法では、注釈は正確であり、輪郭点からパラメータ表示に戻ることは容易である。
【0015】
さらに、そのような仮想要素を使用することにより、隠されているという問題を解決できるようになり、したがって、耳により隠された眼鏡のつる(temple)の端部、またはまぶたにより隠された虹彩を伴う場合にあってよいような不完全な注釈を得ることを回避できるようになる。実データ(画像)と仮想対象物の間の混合物により、機械学習システムを実際の適用事例に特化できるようになる。その結果、拡張現実画像は、画像の現実感と十分な可変性のある画像および注釈を作り出す容易さとの間のトレードオフを提供する。
【0016】
実施形態では、拡張現実画像ごとに、機械学習システムの学習は、所与の仮想要素のセグメント化モデル、および所与の仮想要素のパラメータ表示に対応する1組の輪郭点からの共同学習を備える。
【0017】
その結果、互いに強化する、機械学習システムの学習、セグメント化モデルの学習、および1組の輪郭点の学習に関して相乗効果が得られる。セグメント化モデルにより、適切に検出された仮想対象物の画素数を最大にすることにより(すなわち、対象物に属するとして誤って検出された画素数を最小にすることにより)精度を改善できるようになる。さらに、そのようにして検出された1組の点は、整合性のある対象物の形状に対応する。本事例では、この整合性は、点がパラメトリックモデルから生じるという事実により強化される。その結果、実像を取り込んだカメラの位置とは無関係に、および拡張現実画像内の対象物のセットアップとは無関係に、整合性のある対象物の形状が得られる。
【0018】
実施形態では、共同学習は、所与の仮想要素のセグメント化モデルに関連する交差エントロピーと所与の仮想要素のパラメータ表示に対応する1組の輪郭点に関連するユークリッド距離との間の一次結合に依存するコスト関数を実行する。
【0019】
たとえば、機械学習システムは、セグメント化モデルを学習するための分岐、および1組の輪郭点を学習するための分岐を備える。その結果、交差エントロピーは、セグメント化モデルを学習するための分岐と関連づけられ、ユークリッド距離は、1組の輪郭点を学習するための分岐と関連づけられる。
【0020】
いくつかの実施形態では、実像は顔の実例を含む。学習情報は、所与の仮想要素のパラメータ表示に対応する1組の輪郭点のうち少なくとも1つの輪郭点に関して、輪郭点が見えるかどうか、または顔により隠されているかどうかを示す可視性情報を備える。
【0021】
その結果、輪郭点の可視性が考慮される。
【0022】
いくつかの実施形態では、コスト関数は、輪郭点の可視性に関連するバイナリ交差エントロピーにさらに依存する。
【0023】
いくつかの実施形態では、学習情報は、前記所与の仮想要素のパラメータ表示を備える。
【0024】
その結果、機械学習システムは、考慮されているパラメータ表示を直接に与えることが可能になる。
【0025】
本発明はまた、少なくとも1つの画像内に表現された少なくとも1つの対象物および/または前記少なくとも1つの画像の少なくとも1つの特徴領域の検出およびモデル化法に関する。そのような検出およびモデル化法は(前述の実施形態の任意の1つによる)上述の学習法を実行することにより訓練された機械学習システムにより実行される。そのような検出およびモデル化法によれば、機械学習システムは、前記少なくとも1つの画像内の前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域の検出を遂行し、前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域のモデル化情報の決定を遂行する。
【0026】
その結果、1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域を表す仮想要素を含む拡張現実画像から学習を行うと、1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域のモデル化に伴うモデル化情報の整合性が保証される。さらに、1つ(または複数)の対象物と1つ(または複数)の特徴領域(たとえば、目、虹彩、鼻)の両方が同時に検出されモデル化される場合、相乗効果が得られ、対象物および特徴領域のうち一方だけの検出およびモデル化と比較して、対象物および特徴領域に関して得られる性能が改善される。
【0027】
前述の実施形態のうちいくつかでは、機械学習システムの学習は、一方では所与の仮想要素のセグメント化モデル、および他方では所与の仮想要素のパラメータ表示に対応する1組の輪郭点からの共同学習を備える。これらの実施形態のうちいくつかでは、検出およびモデル化法で実行される決定は、
-前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域のセグメント化モデル、および
-前記少なくとも1つの対象物および/もしくは前記少なくとも1つの特徴領域のパラメータ表示に対応する1組の輪郭点
の共同決定とする。
【0028】
前述の実施形態では、機械学習システムの共同学習は、一方では所与の仮想要素のセグメント化モデルに関連する交差エントロピーと、他方では所与の仮想要素のパラメータ表示に対応する1組の輪郭点に関連するユークリッド距離との間の一次結合に依存するコスト関数を実行する。これらの実施形態のうちいくつかでは、検出およびモデル化法で実行される共同決定は、一方では前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域のセグメント化モデルに関連する交差エントロピーと、他方では前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域のパラメータ表示に対応する1組の輪郭点に関連するユークリッド距離との間の一次結合に依存する所与のコスト関数を実行する。
【0029】
前述の実施形態では、機械学習システムの学習は、顔の実例を備える実像を備える拡張現実画像を実行する。これらの実施形態のうちいくつかでは、前記少なくとも1つの画像は所与の顔の表現を備え、機械学習システムは、前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域のパラメータ表示に対応する1組の輪郭点のうち少なくとも1つの所与の輪郭点に関して、所与の輪郭点が見えるかどうか、または所与の顔により隠されているかどうかを示す可視性情報をさらに決定する。
【0030】
その結果、機械学習システムは輪郭点の可視性をさらに決定する。
【0031】
前述の実施形態では、機械学習システムの共同学習の間に実行されるコスト関数は、輪郭点の可視性に関連するバイナリ交差エントロピーにさらに依存する。これらの実施形態のうちいくつかでは、検出およびモデル化法で実行される決定は所与のコスト関数を実行する。そのような所与のコスト関数は、前記所与の輪郭点の可視性に関連するバイナリ交差エントロピーにさらに依存する。
【0032】
前述の実施形態のうちいくつかでは、学習情報は所与の仮想要素のパラメータ表示を備える。これらの実施形態のうちいくつかでは、モデル化情報は、前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域のパラメータ表示を備える。
【0033】
いくつかの実施形態では、前記少なくとも1つの画像は、前記少なくとも1つの対象物および/または前記少なくとも1つの特徴領域の異なる視界をそれぞれ表現する複数の画像を備える。検出だけではなく決定も前記複数の画像ごとに共同で実行される。
【0034】
その結果、1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域のモデル化情報の検出および決定の性能は改善される。
【0035】
本発明はまた、コンピュータ上で実行するとき、本発明の異なる実施形態のいずれかによる、本明細書で上記に記述するような方法を実行するためのプログラムコード命令を備えるコンピュータプログラムに関する。
【0036】
本発明はまた、少なくとも1つの画像内に示された少なくとも1つの対象物および/または前記少なくとも1つの画像の少なくとも1つの特徴領域を検出およびモデル化するための機器に関する。そのような機器は、本発明による(前述の異なる実施形態のうち任意の1つによる)学習法のステップを実行するように構成された少なくとも1つのプロセッサおよび/または少なくとも1つの専用計算機を備える。その結果、この機器の特徴および有利な点は、これまで記述した学習法の対応するステップの特徴および有利な点と同じである。その結果として、この機器の特徴および有利な点についてさらに詳細に記述しない。
【0037】
いくつかの実施形態では、前記少なくとも1つのプロセッサおよび/または前記少なくとも1つの専用計算機は、本発明による(前述の異なる実施形態のうち任意の1つによる)検出およびモデル化法のステップを実行するようにさらに構成される。その結果、この機器の特徴および有利な点は、これまで記述した検出およびモデル化法の対応するステップの特徴および有利な点と同じである。その結果として、この機器の特徴および有利な点についてさらに詳細に記述しない。
【0038】
いくつかの実施形態では、上述の機器は前述の機械学習システムを備える。
【0039】
いくつかの実施形態では、上述の機器は前述の機械学習システムである。
【0040】
本発明の他の目的、特徴、および有利な点は、図面を参照して単なる例示でしかない、限定しない例として示す以下の記述を読むことより明確に明らかになるであろう。
【図面の簡単な説明】
【0041】
図1】本発明の実施形態による、少なくとも1つの画像内に示された1つ(もしくは複数)の対象物および/または前記考慮されている少なくとも1つの画像の1つ(もしくは複数)の特徴領域の検出およびモデル化のための、機械学習システムの学習法のステップを示す。
図2a】顔の実例を備える実像を例示する。
図2b図2aの実像および1つの眼鏡を備える拡張現実画像を例示する。
図2c図2bの拡張現実画像の1つの眼鏡のセグメント化モデルを例示する。
図2d図2bの拡張現実画像の1つの眼鏡のパラメータ表示に対応する1組の輪郭点を例示する。
図3】本発明の実施形態による、少なくとも1つの画像内に示された1つ(もしくは複数)の対象物および/または前記考慮されている少なくとも1つの画像の1つ(もしくは複数)の特徴領域の検出およびモデル化法のステップを示す。
図4a】顔および1つの眼鏡の実例を備える画像を例示する。
図4b図4aの画像の1つの眼鏡のセグメント化モデルだけではなく図4aの画像の1つの眼鏡のパラメータ表示に対応する1組の輪郭点も例示する。
図5】画像内の目のパラメータ表示に対応する1組の輪郭点だけではなく考慮されている目の虹彩も例示する。
図6】本発明の実施形態による、図1の学習法および/または図3の検出およびモデル化法のいくつかのステップの実行を可能にする機器の構造例を示す。
【発明を実施するための形態】
【0042】
本発明の一般的原理は、拡張現実画像を使用して、機械学習システム(たとえば、従来のニューラルネットワーク)が所与の画像(たとえば、眼鏡を装着している人の顔を示す図)内の1つ(もしくは複数)の対象物(たとえば、1つの眼鏡)および/または1つ(もしくは複数)の特徴領域(たとえば、目の輪郭または目の虹彩の輪郭、鼻)を検出可能にするように機械学習システムを訓練するステップ、および対応するモデル化情報を決定するステップを遂行することに基づく。
【0043】
より詳細には、そのような拡張現実画像は、考慮されている1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域を表現する実像および少なくとも1つの仮想要素を備える。
【0044】
畳込みニューラルネットワークの学習は、大量の注釈付きデータを必要とする。これらのデータを獲得し注釈を付ける費用は非常に高い。さらに、注釈精度は保証されず、それにより、そのようにして作成された推論モデルの頑強性および精度は制限される。パラメータ表示された2Dまたは3Dのモデルから得られる合成対象物の画像を使用することにより、大量の学習データを有することができるようになるだけではなく、2Dまたは3Dの注釈点の位置決めおよび可視性を保証することもできるようになる。これらの仮想対象物は、実像から設定または推定されてよい現実的環境マップ(「環境マッピング」)により照明される。さらに、そのような仮想要素を使用することにより、隠されているという問題を解決できるようになり、したがって、注釈操作者が注釈を任意に選択するために不完全な、または整合しない注釈を得ることを回避できるようになる。
【0045】
さらに、拡張現実画像と相補的に、対応する仮想要素に関連するセグメント化モデルを備える学習情報だけではなく、考慮されている仮想要素のパラメータ表示に対応する1組の輪郭点も備える学習情報を使用することを提案する。
【0046】
その結果(たとえば、1つまたは複数の仮想要素によりシミュレートされた対象物および/または特徴領域のバイナリマスクによる)セグメント化および輪郭上の点の分配は正確に行われ、実像の注釈を必要としない。
【0047】
本出願の残りの部分では、「機械学習システム」により、学習モデルの訓練を遂行するだけではなく、考慮されているモデルを使用するようにも構成されたシステムであると理解されたい。
【0048】
図1を参照すると、本発明による、少なくとも1つの画像内に表現された1つ(もしくは複数)の対象物および/または前記考慮されている少なくとも1つの画像の1つ(もしくは複数)の特徴領域の検出およびモデル化のための機械学習システム(たとえば、従来のニューラルネットワーク)の学習法PA100のステップである。また、考慮されている方法PA100のステップの実行例についても図2a、図2b、図2c、および図2dを参照して論じる。より詳細には、図2a、図2b、図2c、および図2dの例によれば、実像200は顔220の実例を備え、仮想要素210は1つの眼鏡である。それに対応して、図2cは、図2bの1つの仮想眼鏡のセグメント化モデル210msを例示し、図2dは、図2bの1つの仮想眼鏡のパラメータ表示に対応する1組の輪郭点210ptを例示する。より明確にするために、以下で図2a、図2b、図2c、および図2dの要素の参照を使用して、以下で限定しない手法で方法PA100の特性を例示する。
【0049】
図1に戻ると、ステップE110の間、機械学習システムは、1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域を表す実像200および少なくとも1つの仮想要素210を備える複数の拡張現実画像200raを得る。
【0050】
たとえば、各拡張現実画像200raは、実像200の中に仮想要素210を専用に挿入するツールのおかげで生成される。いくつかの変形形態では、拡張現実画像200raの生成は(たとえば、ガウスノイズ、ぼかしを追加することによって)少なくとも1つの仮想要素210を増加させて、その後に実像200の中に挿入することを備える。そのような増加はたとえば、実像から設定または推定されてよい現実的環境マップを使用して仮想対象物の照明を備える。その結果、仮想要素210の現実感、および/または実像200の中への仮想要素210の統合は改善される。たとえば、そのような改善された現実感により、学習だけではなく、実像に関する検出性能の改善も容易にできるようになる。
【0051】
たとえば、そのようにして生成した拡張現実画像200raは、考慮されている拡張現実画像200raを得るために機械学習システムがアクセスするデータベースに記憶される。
【0052】
図1に戻ると、ステップE120の間、機械学習システムは、拡張現実画像ごとに、考慮されている拡張現実画像200raの少なくとも1つの仮想要素210に関して、以下を備える学習情報を得る。
-所与の仮想要素210のセグメント化モデル210ms。たとえば、そのようなセグメント化モデルは、所与の仮想要素210によりシミュレートされた1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域のバイナリマスクである。
-所与の仮想要素210のパラメータ表示に対応する1組の輪郭点210pt。たとえば、点の分配は、所与の仮想要素210によりシミュレートされた1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域の2Dまたは3Dのパラメータ表示に対応する。たとえば、そのようなパラメータ表示(パラメトリックモデルとも呼ばれる)は3DMMモデル(「3D Morphable Model」を意味する)である。たとえば、3Dパラメータ表示に関連して、3D対象物の輪郭点は、実像を取り込んだカメラの観点から輪郭を表現する3D対象物の表面の上への測地曲線の投影およびパラメータ表示により2Dで参照されてよい。
【0053】
その結果、輪郭210ptにわたるセグメント化および点の分配は正確に行われ、セグメント化モデル210msおよび1組の輪郭点210ptは、対応する仮想要素210から直接に得られるが、考慮されている仮想要素210を備える拡張現実画像の後処理により得られない。たとえば、これにより、そのような点の手作業による注釈に固有の不明確さを解決できるようになるだけではなく、輪郭点210ptからパラメータ表示に容易に戻ることができるようになる。
【0054】
いくつかの実施形態では、学習情報はセグメント化モデル210msおよび(これらの輪郭点210ptの座標の代わりに)輪郭点210ptのパラメータ表示を備える。このパラメータ表示は、仮想要素210のモデル化から導出されてよい、または仮想要素210の特有な帰納的モデル化であってよい。たとえば、機械学習システムは、輪郭点210ptが後で見いだされる1つまたは複数のスプラインの制御点を学習する。この場合、機械学習システムの出力は、不変のコスト関数(たとえば、制御点とグラウンドトゥルースの間のユークリッド距離)を伴うこれらのモデル化パラメータ(たとえば、制御点)から構成される。これが可能であるためには、モデル化パラメータから輪郭点210ptに切り替えできるようにする変換は微分可能であるべきであり、その結果、勾配は機械学習システムの学習アルゴリズムにより逆伝播できる。
【0055】
いくつかの実施形態では、学習情報は、セグメント化モデル210msと輪郭点210ptの間の整合性という追加項目をさらに備える。この整合性は、セグメント化モデル210msと輪郭点210ptにより範囲を定められた表面との間の交点により測定される。この目的のために(たとえば、従来技術の周知のドローネー(Delaunay)アルゴリズムにより)この表面にわたりメッシュを規定し、メッシュはその後、この表面を一様な値で彩色する(「満たす」)差分レンダリングエンジンにより使用される。その後、セグメント化の近接性および描画された表面の画素を測定する整合性項目(たとえば、交差エントロピー)を画定できる。
【0056】
たとえば、学習情報は、対応する拡張現実画像200raを参照して前述のデータベースに記憶される。
【0057】
図1に戻ると、ステップE130の間、機械学習システムは、複数の拡張現実画像200raおよび学習情報に基づき学習段階を実行する。そのような学習により、機械学習システムが少なくとも1つの所与の画像内の考慮されている1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域を検出して、対応するモデル化情報を決定できるようになる1組のパラメータ(または学習モデル)を生成できるようになる。
【0058】
たとえば、そのような学習の所与の反復中、学習システムの入力は、仮想要素210を備える拡張現実画像200raである。学習はまた、拡張現実画像200raに関連する学習情報を実行する。たとえば、学習情報は、仮想対象物210のセグメント化モデル210msおよび仮想対象物210の輪郭点210ptである。たとえば仮想要素210のパラメトリック3Dモデルによる仮想要素210の知識により、セグメント化モデル210msに関して画像内の3Dモデルの投影を通して、および輪郭点210ptに関してモデルの点のサンプリングにより、好ましい手法でこれらの学習情報を生成できるようになる。学習システムの出力は、仮想要素のセグメント化モデルおよび仮想要素の輪郭点210pt、または仮想要素のパラメータ表示である。学習は、集束するまで学習システムの出力を学習情報と比較することにより行われる。学習システムの出力がパラメータ表示(たとえば、3DMM、スプライン、ベジエ曲線など)である場合、輪郭点はこれらのパラメータから決定され、真の輪郭点と比較される。
【0059】
いくつかの実施形態では、拡張現実画像200raごとに、機械学習システムの学習は、セグメント化モデル210msおよび1組の輪郭点210ptからの共同学習を備える。その結果、互いに強化する、機械学習システムの学習、セグメント化モデル210msの学習、および1組の輪郭点210ptの学習に関して相乗効果が得られる。
【0060】
たとえば、機械学習システムは、セグメント化モデル210msを学習するための分岐、および1組の輪郭点210ptを学習するための分岐を備える。交差エントロピーは、セグメント化モデルを学習するための分岐と関連づけられ、ユークリッド距離は、1組の輪郭点を学習するための分岐と関連づけられる。共同学習は、セグメント化モデル210msに関連する交差エントロピーと1組の輪郭点210ptに関連するユークリッド距離の間の一次結合に依存するコスト関数を実行する。
【0061】
いくつかの実施形態では、機械学習システムは、畳込み型意味セグメント化ネットワークである。たとえば、機械学習システムは、Ronneberger、Fischer & Broxによる2015年の論文、「U-Net:Convolutional Networks for Biomedical Image Segmentation(生物医学的画像セグメント化用の畳込みネットワーク)」で記述されたような「Unet」型ネットワーク、またはChen、Zhu、Papandreou、Schroff、& Adamによる2018年の論文、「Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation(意味画像セグメント化のためのAtrous分離可能畳込みを伴うエンコーダ-デコーダ)」で記述されたような「Deeplabv3+」型のネットワークである。
【0062】
「U-Net」の場合、ネットワークの構造を修正して、セグメント化モデルおよび1組の輪郭点を共同で学習してよい。たとえば、デコーダ部分の最後の畳込み層で2つの分岐(セグメント化モデルを学習するための分岐および1組の輪郭点を学習するための分岐)への分割が行われる。その結果、セグメント化モデルの学習と1組の輪郭点の学習の間の整合性が確実になる。さらに、全結合層が後に続くプーリング層により、1組の輪郭点の学習専用の分岐の次元を低減できるようになる。
【0063】
「Deeplabv3+」の場合、低レベル特性およびエンコーダ特性を連結するステップは4倍の解像度で遂行される。たとえば、2つの分岐(セグメント化モデルを学習するための分岐および1組の輪郭点を学習するための分岐)への分裂が行われるのはこのレベルである。いくつかの実装形態では、畳込み層、最大プーリング(maximum pooling)(または「最大値プーリング(max pooling)」)を伴うプーリング層、および最終的に1組の輪郭点を学習するための全結合層を追加可能である。
【0064】
図2a、図2b、図2c、および図2dに示す例によれば、図2dの1組の輪郭点210ptは詳細には、拡張現実画像200raを生成するために実像200の中に仮想の1つの眼鏡が挿入されると、顔220により隠された輪郭点210ptを備える。その結果、そのような仮想要素を使用することにより、隠されているという問題を解決できるようになり、したがって、耳により眼鏡のつるの端部が隠された本例でそうなる可能性があるような不完全な注釈を得ることを回避できるようになる。
【0065】
その結果、実像200が顔の実例を備える方法PA100の実施形態では、学習情報は、1組の点のうち少なくとも1つの輪郭点210ptに関して、輪郭点210ptが見えるかどうか、または顔220により隠されているかどうかを示す可視性に関する情報を備える。その結果、輪郭点の可視性が考慮される。
【0066】
たとえば、機械学習システムが、たとえば「Unet」型または「Deeplabv3+」型の従来型の意味セグメント化ネットワークである前述の実施形態では、コスト関数は、輪郭点210ptの可視性に関連するバイナリ交差エントロピーにさらに依存する。
【0067】
いくつかの実施形態では、学習情報は、所与の仮想要素210のパラメータ表示を、したがって、間接的に、所与の仮想要素210によりシミュレートされた1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域のパラメータ表示を備える。その結果、機械学習システムは、考慮されているパラメータ表示を直接に与えることが可能になる。
【0068】
いくつかの実施形態では、方法PA100は、機械学習システムが、注釈付き実像を備える実データから、ステップE310の実行中に与えられた1組のパラメータを改良する、学習を改良するステップを備える。そのような注釈は手作業で、または自動的に(たとえば、フェイス・パーシング(face parsing)・アルゴリズムを実行することにより)行われる。
【0069】
次に図3を参照すると、本発明の実施形態による、少なくとも1つの画像内に表現された1つ(もしくは複数)の対象物および/または前記少なくとも1つの画像の1つ(もしくは複数)の特徴領域の検出およびモデル化法のステップについて記述する。
【0070】
より詳細には、本技法による検出およびモデル化法は(前述の実施形態のうち任意の1つによる)上述の学習法PA100を実行することにより訓練された前述の機械学習システムにより実行される。
【0071】
その結果、ステップE310の間、機械学習システムは、少なくとも1つの画像(実像または拡張画像)内の1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域の検出、ならびに1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域のモデル化情報の決定を遂行する。
【0072】
その結果、考慮されている1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域を表す仮想要素210を備える拡張現実画像200raから学習を行うと、1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域のモデル化に伴うモデル化情報の整合性が保証される。
【0073】
さらに、前記少なくとも1つの画像の少なくとも1つの対象物(たとえば、1つの眼鏡)と少なくとも1つの特徴領域(たとえば、目、虹彩、鼻)の両方を同時に検出およびモデル化する実施形態では相乗効果が得られ、前記少なくとも1つの対象物および前記少なくとも1つの特徴領域のうち一方だけの検出およびモデル化と比較して、前記少なくとも1つの対象物および前記少なくとも1つの特徴領域の検出およびモデル化に関して得られる性能が改善される。
【0074】
いくつかの実施形態では、モデル化情報は、
-1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域のセグメント化モデル、ならびに
-1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域のパラメータ表示に対応する1組の輪郭点
を備える。
【0075】
その結果、輪郭点から得られるモデルのパラメータ表示に戻ることは容易である。
【0076】
図1を参照して本明細書で上記に記述するいくつかの実施形態では、機械学習システムの学習は、セグメント化モデル210msおよび1組の輪郭点210ptからの共同学習を備える。これらの実施形態のいくつかでは、ステップE310は、1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域のセグメント化モデル、ならびに1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域のパラメータ表示に対応する1組の輪郭点の共同決定を備える。
【0077】
図1を参照して本明細書で上記に記述するいくつかの実施形態では、共同学習は、セグメント化モデル210msに関連する交差エントロピーと1組の輪郭点210ptに関連するユークリッド距離の間の一次結合に基づきコスト関数を実行する。これらの実施形態のうちいくつかでは、ステップE310の検出およびモデル化は、セグメント化モデルに関連する交差エントロピーと1組の点に関連するユークリッド距離の間の一次結合に依存する前述のコスト関数を実行する。
【0078】
図1を参照して本明細書で上記に記述するいくつかの実施形態では、学習情報は、輪郭点210ptが見えるかどうか、または顔220により隠されているがどうかを示す可視性情報を備える。これらの実施形態のうちいくつかでは、ステップE310の検出およびモデル化は、少なくとも1つの輪郭点に関して、輪郭点が見えるかどうか、またはステップ310の間に分析された画像の顔により隠されているどうかを示す可視性情報をさらに決定する。その結果、機械学習システムは、輪郭点の可視性をさらに決定する。これらの実施形態のうちいくつかは、学習のために図1を参照して本明細書で上記に記述する対応する実施形態で実行されるような輪郭点の可視性に関連するバイナリ交差エントロピーの損失に依存するコスト関数を実行する。
【0079】
図1を参照して本明細書で上記に記述するいくつかの実施形態では、学習情報は、拡張現実画像で使用される仮想要素のパラメータ表示を、したがって間接的に、考慮されている仮想要素によりシミュレートされた1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域のパラメータ表示を備える。その結果、これらの実施形態のうちいくつかでは、ステップE310の決定およびモデル化は、ステップE310の間に分析される画像で検出された1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域のパラメータ表示を決定する。
【0080】
いくつかの実施形態では、1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域は、考慮されている1つ(もしくは複数)の対象物および/または考慮されている1つ(もしくは複数)の特徴領域の異なる視界をそれぞれ表現する複数の画像の中に表現される。この手法では、ステップE310の間、複数の画像のうち異なる画像での検出およびモデル化の共同実行により、考慮されている1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域のモデル化情報を、改善された手法で決定できるようになる。
【0081】
いくつかの実施形態では、ステップE310の間に機械学習システムが分析すべき画像の位置が正規化される。たとえば、顔の所定の下位区分の一部分(たとえば、目)に関して画像が顔を表現するとき、たとえば顔面マーカ(「目印」)を使用して、考慮されている下位区分の一部分の領域の大きさを変更する。これらのマーカは、任意の公知のマーカ検出法または顔認識法により得られてよい。その結果、モデル化情報を検出および決定するステップE310は、大きさを変更された領域ごとに実行される。この手法では、1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域の検出だけではなく、対応するモデル化情報の決定も容易になる。
【0082】
いくつかの実施形態では、特徴点(たとえば、鼻の位置、テンプルポイント(temple point)の位置)を示すために、ステップE310の間に機械学習システムが分析すべき画像にわたりマーカ(たとえば、顔面マーカ)を追加する。たとえば、これらのマーカは、顔分析アルゴリズムにより得られてよい。この手法では、1つ(もしくは複数)の対象物および/または1つ(もしくは複数)の特徴領域の検出だけではなく、対応するモデル化情報の決定も容易になる。
【0083】
次に、最初に図4aおよび図4bを参照して検出およびモデル化法のステップの実行例について論じる。この例によれば、画像400は顔420の実例を備える。さらに、機械学習システムは、たとえば図2a、図2b、図2c、および図2dを参照して本明細書で上記に記述するような拡張現実画像から1つの眼鏡を検出およびモデル化するように訓練されていると仮定する。その結果、画像400内で検出およびモデル化すべき対象物410は1つの眼鏡である。ステップE310を実行することにより、機械学習システムは、考慮されている1つの眼鏡のセグメント化モデル410msおよび1組の輪郭点410ptを備えるモデル化情報を決定する。詳細には、図4bの1組の輪郭点410ptは、画像400内で顔420により隠されている輪郭点410ptを備える。その結果、本明細書に記述する方法により、隠されているという問題を解決できるようになり、したがって、耳により眼鏡のつるの端部が隠されている本例でそうなる可能性があるような不完全な注釈を得ることを回避できるようになる。
【0084】
次に、図5を参照して、検出およびモデル化法のステップの別の実行例について論じる。より詳細には、この例によれば、画像500は顔の部分的実例を備える。検出およびモデル化すべき特徴領域510zcは、画像500内に表現された目である。さらに、機械学習システムは、目をモデル化するために目の高さに置かれた1つまたは複数の仮想要素を備える拡張現実画像から目を検出およびモデル化するように訓練されていると仮定する。この手法では、ステップE310を実行することにより、機械学習システムは、詳細には考慮されている目の1組の輪郭点510ptだけではなく、この場合は虹彩も備える特徴領域510zcに関するモデル化情報を決定する。
【0085】
次に、図6を参照すると、本発明の実施形態による、図1の学習法PA100および/または図3の検出およびモデル化法のいくつかのステップを実行できるようにする機器600について記述する。
【0086】
機器600は、ランダム・アクセス・メモリ603(すなわち、RAMメモリ)と、たとえば1つ(または複数)のプロセッサを装備し、読出し専用メモリ601(たとえば、ROMメモリまたはハードディスク)に記憶されたコンピュータプログラムにより制御される処理ユニット602とを備える。初期化時、コンピュータプログラムのコード命令はたとえば、処理ユニット602のプロセッサにより実行される前に、動作しているメモリ603の中にロードされる。
【0087】
この図6は、いくつかの可能な手法の中でも、機器600が(図1および図3を参照して本明細書で上記に記述する実施形態および/または変形形態のうち任意の1つによる)図1の学習法PA100および/または図3の検出およびモデル化法のいくつかのステップを遂行するように機器600を作るための1つの特定の手法だけを例示する。実際は、これらのステップは、一連の命令を備えるプログラムを実行するプログラム可能な計算機(PCコンピュータ、1つ(もしくは複数)のDSPプロセッサ、または1つ(もしくは複数)のマイクロコントローラ)上で、または専用計算機(たとえば、1つ(もしくは複数)のFPGAまたは1つ(もしくは複数)のASICなどの1組の論理ゲート、または任意の他のハードウェアモジュール)上で区別せずに行われてよい。
【0088】
機器600が少なくとも部分的に、再プログラム可能計算機を用いて作られる場合、対応するプログラム(すなわち、命令の順列)は(CD-ROM、DVD-ROM、フラッシュディスクなどの)取外し可能な記憶媒体に記憶できる、または記憶できず、この記憶媒体は、コンピュータまたはプロセッサにより部分的にまたは完全に読出し可能である。
【0089】
いくつかの実施形態では、機器600は機械学習システムを備える。
【0090】
いくつかの実施形態では、機器600は機械学習システムである。
図1
図2a
図2b
図2c
図2d
図3
図4a
図4b
図5
図6
【国際調査報告】