特許7617854 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エシロール・アンテルナシオナルの特許一覧

特許7617854機械学習ベースの視覚機器選択の装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3
4
5A
5B
6A
6B
6C
6D
6E
7A
7B
7C
7D
8A
8B
8C
8D
8E
9A
9B
9C
9D
9E
9F
10A
10B
10C
10D
11A
11B
11C
11D
11E
11F
11G
11H
11I
11J
11K
11L
11M
11N
11O
11P
11Q
11R
12A
12B
13A
13B
13C
13D
13E
13F
14
15A
15B
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-01-09

(45)【発行日】2025-01-20

(54)【発明の名称】機械学習ベースの視覚機器選択の装置

(51)【国際特許分類】

G06T 7/00 20170101AFI20250110BHJP

【ＦＩ】

G06T7/00 660A

【請求項の数】 12

(21)【出願番号】P 2021565083

(86)(22)【出願日】2020-04-09

(65)【公表番号】

(43)【公表日】2022-07-06

(86)【国際出願番号】 EP2020060263

(87)【国際公開番号】W WO2020224915

(87)【国際公開日】2020-11-12

【審査請求日】2023-03-17

(31)【優先権主張番号】19305568.8

(32)【優先日】2019-05-03

(33)【優先権主張国・地域又は機関】EP

(73)【特許権者】

【識別番号】518007555

【氏名又は名称】エシロール・アンテルナシオナル

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100133400

【弁理士】

【氏名又は名称】阿部達彦

(72)【発明者】

【氏名】ジュリアン・アンドシュ

(72)【発明者】

【氏名】エステル・ネッテ

【審査官】伊知地和之

(56)【参考文献】

【文献】米国特許出願公開第２０１７／０１６９５０１（ＵＳ，Ａ１）

【文献】米国特許第０８７０８４９４（ＵＳ，Ｂ１）

【文献】特開２００３－０７５７８５（ＪＰ，Ａ）

【文献】中国特許出願公開第１０７８６２３３４（ＣＮ，Ａ）

【文献】杉本昭彦，社員３０００人と画像６万枚が深層学習の教師役似合うメガネを提案する「ＪＩＮＳＢＲＡＩＮ」，日経ビッグデータ第３４号，日本，日経ＢＰ社，2016年12月10日，p.12

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｖ１０／００－２０／９０

Ｇ０６Ｖ３０／４１８

Ｇ０６Ｖ４０／１６

Ｇ０６Ｖ４０／２０

ＣＳＤＢ（日本国特許庁）

(57)【特許請求の範囲】

【請求項1】

適合した視覚機器を決定する装置であって、
処理回路を備え、
前記処理回路は、
少なくとも１つの入力を受信することであって、前記少なくとも１つの入力は人の顔の画像を含む、受信することと、
ニューラルネットワークを前記少なくとも１つの入力に適用することであって、前記ニューラルネットワークは、前記少なくとも１つの入力の少なくとも１つの適合尺度を生成する、適用することと、
前記ニューラルネットワークによって生成された前記少なくとも１つの適合尺度に基づいて前記適合した視覚機器を決定することと、
を行うように構成され、
前記少なくとも１つの適合尺度は、前記人の顔と視覚機器との間の適合を定量化する尺度を提供する相関的同期に対応し、
前記ニューラルネットワークは暗黙的入力を含み、前記暗黙的入力は予め定義される１組の視覚機器であり、前記ニューラルネットワークにより生成される少なくとも１つの適合尺度は、前記少なくとも１つの入力と前記予め定義された１組の視覚機器のそれぞれ１つとの少なくとも１つの一致スコアであり、
前記適合した視覚機器を決定するために、前記処理回路は、
最大である前記少なくとも１つの一致スコアを選択する
ように更に構成され、前記最大の少なくとも１つの一致スコアは、前記少なくとも１つの入力の前記人の顔に最良に一致する前記予め定義された１組の視覚機器の１つであり、
前記最大の少なくとも１つの一致スコアは、前記少なくとも１つの一致スコアを含むベクトルから選択され、前記ベクトルにおける前記少なくとも１つの一致スコアのそれぞれは、前記予め定義された１組の視覚機器の１つに対応し、前記少なくとも１つの一致スコアは、ラベラーのグループのうちの、同じ値の前記少なくとも１つの一致スコアが割り当てられたラベラーの割合に基づく、装置。

【請求項2】

前記少なくとも１つの入力は、視覚機器の画像を含む、請求項１に記載の装置。

【請求項3】

前記少なくとも１つの入力は、前記人の顔の画像を含み、前記人は視覚機器を装用している、請求項１に記載の装置。

【請求項4】

前記少なくとも１つの入力は、処理済みの少なくとも１つの入力であり、前記処理済みの少なくとも１つの入力は、前記人の顔の画像から特定される形態学的特徴を含む、請求項１に記載の装置。

【請求項5】

前記少なくとも１つの入力は、処理済みの少なくとも１つの入力であり、前記処理済みの少なくとも１つの入力は、前記視覚機器の前記画像から特定される視覚機器属性を含む、請求項２に記載の装置。

【請求項6】

前記少なくとも１つの入力は前記人の視覚的測定を含み、前記視覚的測定は前記人の視力を示す、請求項１に記載の装置。

【請求項7】

前記処理回路は、
トレーニングデータベースで前記ニューラルネットワークをトレーニングするように更に構成され、
前記トレーニングデータベースはトレーニング画像のコーパスを含み、前記トレーニング画像のコーパスは、人々の顔の画像及び視覚機器の画像を含み、前記人々の顔の画像のうちの画像と前記視覚機器の画像のうちの画像との各組合せは、前記トレーニングデータベースにおいて、ラベラーのグループにより割り当てられた少なくとも１つのトレーニング適合尺度と関連付けられる、請求項１に記載の装置。

【請求項8】

前記トレーニング画像のコーパスは、視覚機器を装用している人々の画像を含み、前記視覚機器を装用している人々の画像の各画像は、前記トレーニングデータベースにおいて、前記ラベラーのグループにより割り当てられた少なくとも１つのトレーニング適合尺度と関連付けられる、請求項７に記載の装置。

【請求項9】

前記適合した視覚機器を決定するために、前記処理回路は、
前記少なくとも１つの入力に対応する座標を計算することと、
前記予め定義された１組の視覚機器のそれぞれ１つと関連付けられたクラスタの重心を計算することと、
前記座標と前記クラスタの各重心との間の距離を計算することであって、前記距離はベクトルにおいてランク付けられる、計算することと、
前記座標と前記クラスタの各重心との間の距離を最小にする前記クラスタのうちのクラスタを選択することと、
を行うように更に構成される、請求項１に記載の装置。

【請求項10】

前記予め定義された１組の視覚機器のそれぞれ１つと関連付けられたクラスタは、前記ニューラルネットワークのトレーニング中、少なくとも１つのトレーニング一致スコアを最大にする少なくとも１つのトレーニング入力に対応する一致座標を含み、前記少なくとも１つのトレーニング入力は、前記人の顔の形態学的特徴を含む、請求項９に記載の装置。

【請求項11】

適合した視覚機器を決定する方法であって、
処理回路により少なくとも１つの入力を受信することであって、前記少なくとも１つの入力は人の顔の画像を含む、受信することと、
前記処理回路によりニューラルネットワークを前記少なくとも１つの入力に適用することであって、前記ニューラルネットワークは、前記少なくとも１つの入力の少なくとも１つの適合尺度を生成する、適用することと、
前記処理回路により、前記ニューラルネットワークによって生成された前記少なくとも１つの適合尺度に基づいて前記適合した視覚機器を決定することと、
を含み、
前記少なくとも１つの適合尺度は、前記人の顔と視覚機器との間の適合を定量化する尺度を提供する相関的同期に対応し、
前記適合した視覚機器を決定するために、前記処理回路によって、最大の少なくとも１つの一致スコアを選択し、前記最大の少なくとも１つの一致スコアは、前記少なくとも１つの入力の前記人の顔に最良に一致する予め定義された１組の視覚機器の１つであり、
前記ニューラルネットワークは暗黙的入力を含み、前記暗黙的入力は予め定義される１組の視覚機器であり、前記ニューラルネットワークにより生成される少なくとも１つの適合尺度は、前記少なくとも１つの入力と前記予め定義された１組の視覚機器のそれぞれ１つとの少なくとも１つの一致スコアであり、
前記最大の少なくとも１つの一致スコアは、前記少なくとも１つの一致スコアを含むベクトルから選択され、前記ベクトルにおける前記少なくとも１つの一致スコアのそれぞれは、前記予め定義された１組の視覚機器の１つに対応し、前記少なくとも１つの一致スコアは、ラベラーのグループのうちの、同じ値の前記少なくとも１つの一致スコアが割り当てられたラベラーの割合に基づく、方法。

【請求項12】

コンピュータ可読命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記コンピュータ可読命令は、コンピュータにより実行されると、前記コンピュータに、適合した視覚機器を決定する方法を実行させ、前記方法は、
少なくとも１つの入力を受信することであって、前記少なくとも１つの入力は人の顔の画像を含む、受信することと、
ニューラルネットワークを前記少なくとも１つの入力に適用することであって、前記ニューラルネットワークは、前記少なくとも１つの入力の少なくとも１つの適合尺度を生成する、適用することと、
前記ニューラルネットワークによって生成された前記少なくとも１つの適合尺度に基づいて前記適合した視覚機器を決定することと、
を含み、
前記少なくとも１つの適合尺度は、前記人の顔と視覚機器との間の適合を定量化する尺度を提供する相関的同期に対応し、
前記適合した視覚機器を決定するために、最大の少なくとも１つの一致スコアを選択し、前記最大の少なくとも１つの一致スコアは、前記少なくとも１つの入力の前記人の顔に最良に一致する予め定義された１組の視覚機器の１つであり、
前記ニューラルネットワークは暗黙的入力を含み、前記暗黙的入力は予め定義される１組の視覚機器であり、前記ニューラルネットワークにより生成される少なくとも１つの適合尺度は、前記少なくとも１つの入力と前記予め定義された１組の視覚機器のそれぞれ１つとの少なくとも１つの一致スコアであり、
前記最大の少なくとも１つの一致スコアは、前記少なくとも１つの一致スコアを含むベクトルから選択され、前記ベクトルにおける前記少なくとも１つの一致スコアのそれぞれは、前記予め定義された１組の視覚機器の１つに対応し、前記少なくとも１つの一致スコアは、ラベラーのグループのうちの、同じ値の前記少なくとも１つの一致スコアが割り当てられたラベラーの割合に基づく、非一時的コンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、眼鏡類に関し、特に患者の顔との視覚機器のマッチングに関する。

【背景技術】

【0002】

新しい視覚機器又は眼鏡類の選択中、患者は多くの場合、患者の顔での新しい眼鏡類の美観の判断において自己熟考に任せられる。同時に、患者は、顔での新しい眼鏡類についての自身の意見及び顔への新しい眼鏡類の適合についての第三者（例えば、友人、家族、専門家等）の仮説意見に対処し得る。美的魅力を適切な視覚の眼鏡類必要性と一緒に考慮した眼鏡類選択作業は厄介であることがあり、ユーザ、ユーザの医師、及びユーザの友人が必ず気に入る新しい眼鏡類を自信を持って購入する効率的な方法はない。本発明は、この問題への解決策を提供する。

【0003】

上記「背景」説明は、本開示の状況を概して提示することを目的とする。この背景セクションに記載される範囲の本発明者らの努力及び他の点では出願時に先行技術としての資格がないことがある説明の態様は、明示的にも暗示的にも本発明に対する先行技術として認められない。

【発明の概要】

【課題を解決するための手段】

【0004】

本開示は、適合した視覚機器を決定する装置、方法、及びコンピュータ可読記憶媒体に関する。

【0005】

実施形態によれば、本開示は、適合した視覚機器を決定する装置であって、処理回路を備え、処理回路は、少なくとも１つの入力を受信することであって、少なくとも１つの入力は人の顔の画像を含む、受信することと、ニューラルネットワークを少なくとも１つの入力に適用することであって、ニューラルネットワークは、少なくとも１つの入力の少なくとも１つの適合尺度を生成する、適用することと、ニューラルネットワークによって生成された少なくとも１つの適合尺度に基づいて適合した視覚機器を決定することとを行うように構成され、少なくとも１つの適合尺度は、人の顔と視覚機器との間の相関的同期に対応する、装置に更に関する。

【0006】

実施形態によれば、本開示は、適合した視覚機器を決定する方法であって、処理回路により少なくとも１つの入力を受信することであって、少なくとも１つの入力は人の顔の画像を含む、受信することと、処理回路によりニューラルネットワークを少なくとも１つの入力に適用することであって、ニューラルネットワークは、少なくとも１つの入力の少なくとも１つの適合尺度を生成する、適用することと、処理回路により、ニューラルネットワークによって生成された少なくとも１つの適合尺度に基づいて適合した視覚機器を決定することとを含み、ニューラルネットワークは暗黙的入力を含み、少なくとも１つの適合尺度は、人の顔と視覚機器との間の相関的同期に対応する、方法に更に関する。

【0007】

上記段落は、大まかな紹介として提供されており、以下の特許請求の範囲の限定を意図しない。本明細書に記載された様々な特徴及び利点のより良い理解は、例示的な実施形態及びその付随する図面を説明する以下の詳細な説明を参照することによって得られるであろう。

【0008】

本開示のより完全な理解及びそれに付随する利点の多くは、添付図面と併せて考慮される場合、以下の詳細な説明を参照することによってよりよく理解されるため、容易に得られよう。

【図面の簡単な説明】

【0009】

【図1】本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツールの実施態様の流れ図である。

【図2A】本開示の例示的な実施形態による画像入力プロセスの態様の概略図である。

【図2B】本開示の例示的な実施形態による画像準備プロセスの態様の概略図である。

【図3】本開示の例示的な実施形態による画像準備プロセスの態様の概略図である。

【図4】本開示の例示的な実施形態による視覚機器選択ツールのニューラルネットワークのトレーニングプロセスの流れ図の態様である。

【図5A】本開示の例示的な実施形態によるラベリングプロセスの入力の概略図である。

【図5B】本開示の例示的な実施形態によるラベリングプロセスの概略図である。

【図6A】本開示の例示的な実施形態による機械学習ベースの視覚機器選択のトレーニングプロセスへの入力のグラフィックである。

【図6B】本開示の例示的な実施形態による機械学習ベースの視覚機器選択のトレーニングプロセスへの入力のグラフィックである。

【図6C】本開示の例示的な実施形態による機械学習の視覚機器選択のトレーニングプロセスへの入力のグラフィックである。

【図6D】本開示の例示的な実施形態による機械学習の視覚機器選択のトレーニングプロセスへの入力のグラフィックである。

【図6E】本開示の例示的な実施形態による機械学習の視覚機器選択のトレーニングプロセスへの入力のグラフィックである。

【図7A】本開示の例示的な実施形態による入力のラベリングを示す概略図である。

【図7B】本開示の例示的な実施形態による入力のラベリングを示す概略図である。

【図7C】本開示の例示的な実施形態による入力のラベリングを示す概略図である。

【図7D】本開示の例示的な実施形態による入力のラベリングを示す概略図である。

【図8A】本開示の例示的な実施形態による複数のラベリンググループを示す概略図である。

【図8B】本開示の例示的な実施形態による複数のラベリンググループによる入力のラベリングを示す概略図である。

【図8C】本開示の例示的な実施形態による複数のラベリンググループによる入力のラベリングを示す概略図である。

【図8D】本開示の例示的な実施形態による複数のラベリンググループによる入力のラベリングを示す概略図である。

【図8E】本開示の例示的な実施形態による複数のラベリンググループによる入力のラベリングを示す概略図である。

【図9A】本開示の例示的な実施形態によるラベリンググループを示す概略図である。

【図9B】本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツールのトレーニングプロセスへの入力のグラフィックである。

【図9C】本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツールのトレーニングプロセスへの入力のグラフィックである。

【図9D】本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツールのトレーニングプロセスへの入力のグラフィックである。

【図9E】本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツールのトレーニングプロセスへの入力のグラフィックである。

【図9F】本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツールのトレーニングプロセスへの入力のグラフィックである。

【図10A】本開示の例示的な実施形態によるラベリンググループによる入力のラベリングを示す概略図である。

【図10B】本開示の例示的な実施形態によるラベリンググループによる入力のラベリングを示す概略図である。

【図10C】本開示の例示的な実施形態によるラベリンググループによる入力のラベリングを示す概略図である。

【図10D】本開示の例示的な実施形態によるラベリンググループによる入力のラベリングを示す概略図である。

【図11A】本開示の例示的な実施形態による、入力は形態学的特徴及び視覚機器属性である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。

【図11B】本開示の例示的な実施形態による、入力は形態学的特徴及び視覚機器属性である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。

【図11C】本開示の例示的な実施形態による、入力は顔画像及び視覚機器属性である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。

【図11D】本開示の例示的な実施形態による、入力は形態学的特徴及び視覚機器画像である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。

【図11E】本開示の例示的な実施形態による、入力は顔の画像及び視覚機器の画像である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。

【図11F】本開示の例示的な実施形態による、入力は形態学的特徴、視覚的測定値、及び視覚機器の画像である、機械学習ベースの視覚機器属性のニューラルネットワークの概略図である。

【図11G】本開示の例示的な実施形態による、入力は形態学的特徴、視覚的測定値、及び視覚機器属性である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。

【図11H】本開示の例示的な実施形態による、入力は顔の画像、視覚的測定値、及び視覚機器属性である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。

【図11I】本開示の例示的な実施形態による、入力は形態学的特徴、視覚的測定値、及び視覚機器の画像である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。

【図11J】本開示の例示的な実施形態による、入力は顔の画像、視覚的測定値、及び視覚機器の画像である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。

【図11K】本開示の例示的な実施形態による、入力は形態学的特徴である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。

【図11L】本開示の例示的な実施形態による、入力は形態学的特徴である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。

【図11M】本開示の例示的な実施形態による、入力は形態学的特徴である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。

【図11N】本開示の例示的な実施形態による、入力は形態学的特徴である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。

【図11O】本開示の例示的な実施形態による、入力は形態学的特徴及び視覚的測定値である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。

【図11P】本開示の例示的な実施形態による、入力は形態学的特徴及び視覚的測定値である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。

【図11Q】本開示の例示的な実施形態による、入力は顔の画像及び視覚的測定値である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。

【図11R】本開示の例示的な実施形態による、入力は顔の画像及び視覚的測定値である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。

【図12A】本開示の例示的な実施形態によるニューラルネットワークトレーニングプロセスのトレーニングデータベースの準備を示す概略図である。

【図12B】入力は計量的顔ランドマーク座標である、機械学習ベースの視覚機器選択ツールのトレーニングプロセスのニューラルネットワークの概略図である。

【図13A】本開示の例示的な実施形態による、異種入力データを扱うように構成されたニューラルネットワークの一般化された流れ図である。

【図13B】本開示の例示的な実施形態による、異種入力データを扱うように構成されたニューラルネットワークの一般化された流れ図の態様である。

【図13C】本開示の例示的な実施形態による、異種入力データを扱うように構成されたニューラルネットワークの一般化された流れ図の態様である。

【図13D】本開示の例示的な実施形態による、異種入力データを扱うように構成されたニューラルネットワークの一般化された流れ図の態様である。

【図13E】本開示の例示的な実施形態による、異種入力データを扱うように構成されたニューラルネットワークの一般化された流れ図の態様である。

【図13F】本開示の例示的な実施形態による、異種入力データを扱うように構成されたニューラルネットワークの一般化された流れ図の態様である。

【図14】本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツールのニューラルネットワークのトレーニングの流れ図である。

【図15A】人工ニューラルネットワークの実施態様の一般化された流れ図である。

【図15B】本開示の例示的な実施形態による畳み込みニューラルネットワークの実施態様のフローチャートである。

【図16】フィードフォワード人工ニューラルネットワークの一例である。

【図17】本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツールのハードウェア構成である。

【発明を実施するための形態】

【0010】

用語「ａ」又は「ａｎ」は、本明細書で使用されるとき、１つ又は１つ以上として定義される。用語「複数」は、本明細書で使用されるとき、２つ又は２つ以上として定義される。用語「別の」は、本明細書で使用されるとき、少なくとも２つ以上として定義される。用語「含む（ｉｎｃｌｕｄｉｎｇ）」及び／又は「有する（ｈａｖｉｎｇ）」は、本明細書で使用されるとき、含む（ｃｏｍｐｒｉｓｉｎｇ）（すなわち、オープン用語）として定義される。用語「視覚機器」、「眼鏡（ｅｙｅｇｌａｓｓ）」、「眼鏡（ｅｙｅｇｌａｓｓｅｓ）」、及び「複数の視覚機器」は、フレーム及びレンズの両方を有する装置を指すのに同義で使用し得る。用語「視覚機器」は、１つの視覚機器を指すのに使用し得、一方、用語「複数の視覚機器」は、２つ以上の視覚機器を指すのに使用し得る。本文書全体を通しての「一実施形態」、「特定の実施形態」、「実施形態」、「実施態様」、「例」、又は同様の用語への言及は、その実施形態と関連して説明された特定の特徴、構造、又は特性が本開示の少なくとも１つの実施形態に含まれることを意味する。同様に、用語「顔の画像」及び「人の顔の画像」は、同義で使用し得る対応する用語である。したがって、本明細書全体を通して種々の箇所におけるそのような句の出現は、必ずしも全てが同じ実施形態を参照している訳ではない。さらに、特定の特徴、構造、又は特性は、無制限に１つ又は複数の実施形態で任意の適した様式で組み合わせることができる。

【0011】

今日、視覚機器又は眼鏡を探している患者又は他のユーザには多くの場合、眼科的に適切であり且つ見て美しい物に関するガイダンスが殆ど与えられない。人によっては、カルチャー傾向が決断を左右する。他の人にとっては、友人及び家族の意見が最も重要である。なお人間工学的適合及び視力を優先する人にとっては、熟練した視覚専門家の意見が必要である。現在、ユーザは、上記特徴のうちの幾つかではあるが全てではない特徴を提供する手法にアクセスすることができる。例えば、一手法では、決定木を実施して、視覚機器のフレームを、個人の顔のランドマークから検出された形態学的特徴と一致することができ、この一致は理想的な視覚機器を決める。別の手法では、ユーザのテイスト及び習慣を特定するために、ユーザに、特に自身の様式、ライフスタイル、及び性格に関する問いに答えるように求め得る。次に、そのような特色を使用して、決定木又はコンテンツベースのフィルタリングの実施に基づいて理想的な視覚機器を提案することができる。上記の拡張である更に別の手法は、ユーザの閲覧履歴の分析を実行して、ユーザに関連するように見えるフレーム等の視覚機器特徴（例えば、コンテンツベースのフィルタリング）又はユーザが最も近い消費者プロファイル（例えば、協調ベースのフィルタリング）を特定するユーザ嗜好モデルを利用する。

【0012】

上記手法は、ユーザのニーズに部分的に対処するが、視覚機器選択を行うとき、ロバストでエンドツーエンドの入力をユーザに提供しない。このために、本開示は、形態学的特徴、構造的特徴、眼科需要、及び美的魅力に基づいて、適合した視覚機器選択をユーザに提示する機械学習ベースの視覚機器選択ツールを記載する。

【0013】

これより図を参照すると、図１は、本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツール（ＭＬ－ＶＥＳＴ）１００の一般化された流れ図である。ＭＬ－ＶＥＳＴ１００は、入力準備プロセス１１０、機械学習適用プロセス１１５、及び視覚機器選択プロセス１２５を含むことができる。まず、ユーザは、入力１０５をＭＬ－ＶＥＳＴ１０００に提供する。ニューラルネットワークトレーニングに基づいて、入力１０５は、機械学習適用プロセス１１５に直接適用する１１４ことができ、又は入力準備プロセス１１０に提供することができ、入力準備プロセス１１０では、入力１０５は、機械学習適用プロセス１１５の特定の実施仕様に従って準備される。実施形態では、入力１０５は、準備を必要とし、したがって、入力準備プロセス１１０に提供されるユーザの顔の画像であることができる。準備された入力又は準備された画像は次に、機械学習適用プロセス１１５に渡すことができる。適合尺度１２０は、機械学習適用プロセス１１５から生成することができ、ユーザの顔に対応する、準備された画像は、視覚機器又は眼鏡の「適合」に基づいてスコア付けられ、適合は、ユーザの顔と視覚機器との適合を定量化する尺度を提供する相関的同期である。視覚機器のスコア付けされた１つの適合尺度１２０又は複数の適合尺度１２０の大きさに基づいて、視覚機器選択プロセス１２５は、入力を提供したユーザの顔に理想的な眼鏡を選択し得る。実施形態では、ユーザは、ユーザの顔の画像及び関心のある視覚機器の画像を提供し得る。画像の処理において、ＭＬ－ＶＥＳＴ１００は、適合尺度１２０の所定の閾値と比較された場合、視覚機器がユーザへの理想的な視覚機器として選択されるべきであることを示す適合尺度１２０を生成し得る。実施形態では、適合尺度１２０は、信頼度閾値と比較された場合、適合尺度１２０が正確であるか否かを示す信頼度と関連付けられ得る。別の実施形態では、ユーザは、顔の画像のみを入力として提供し得、理想的な視覚機器又は適合する視覚機器は、複数の眼鏡のデータベースから選択される視覚機器であってもよく、又は例えば、ユーザにより予め選択されるか、若しくはユーザに提供される眼鏡のサブセットから選択し得る。このために、上述したように、選択された各視覚機器の適合尺度１２０を生成することができ、生成された適合尺度１２０の比較は、理想的な視覚機器として選択すべき視覚機器を示すことができる。そして、この理想的な視覚機器をユーザに推奨することができ、理想的な視覚機器は、美的外観及び視力に関するユーザの好みに関連してユーザの独自の形態学的特性を反映している。

【0014】

図２Ａは、ユーザによりＭＬ－ＶＥＳＴに提供することができる少なくとも１つの入力２０５を説明する。図１を参照して説明したように、少なくとも１つの入力２０５は、入力準備プロセスに提供することができ、又は機械学習適用プロセスに直接提供することができる。ユーザにより提供される少なくとも１つの入力２０５は、特に、ユーザの顔の画像２０６、ユーザの顔の画像及び別個に提供される視覚機器の画像２０７、視覚機器を装用しているユーザの顔の画像２０８、及びユーザに対応する視覚的測定２０９を含むことができる。視覚的測定は、視力の標準眼科測定であることができる。

【0015】

図２Ｂに示されるように、入力準備プロセスに提供される際、上述した少なくとも１つの入力はそれぞれ、機械学習適用プロセスに提供される前、準備することができる。したがって、図２Ｂは、受信した少なくとも１つの入力に対して実施することができる入力準備プロセス２１０を記載する。実施形態では、本明細書に記載の入力準備プロセス２１０は、ＭＬ－ＶＥＳＴの適用中、ユーザによって提供される入力及びＭＬ－ＶＥＳＴのニューラルネットワークのトレーニング中、提供される入力に対して実施することができる。

【0016】

ＭＬ－ＶＥＳＴの適用中又はＭＬ－ＶＥＳＴのトレーニング中に適用されるように、高レベルから、入力準備プロセス２１０は少なくとも１つの入力準備関数２１１を実行し、少なくとも１つの入力準備出力２１３を生成する。当業者には理解されるように、少なくとも１つの入力準備関数２１１及び少なくとも１つの入力準備出力２１３は、ＭＬ－ＶＥＳＴの適用中及びＭＬ－ＶＥＳＴのニューラルネットワークのトレーニング中、同様のプロセスが実行されるように選択することができる。

【0017】

低レベルから、少なくとも１つの入力準備関数２１１は、例えば特に、画像分類、画像区分化、及び畳み込み２１２を含むことができる。画像区分化は、ＭＬ－ＶＥＳＴのニューラルネットワークのトレーニング中及びＭＬ－ＶＥＳＴの適用中の両方で、少なくとも１つの入力の関連する特性を検出するのに実行することができる。少なくとも１つの入力準備出力２１３と呼ばれるこれらの関連する特性は、例えば、「顔の幅」及び「鼻のサイズ」等の形態学的特徴であってもよく、又は「フレーム形状」及び「フレーム色」等の視覚機器属性であってもよい。追加の形態学的特徴は、顔の形状、皮膚の色、目の色、髪の色等を含む。そのような形態学的特徴は、上述したような画像処理（すなわち、画像区分化／分類）を介して計算してもよく、又は入力画像において手動で特定若しくは測定されてもよく、手動測定では、特徴の寸法を正確に算出するために較正物体が必要とされる。追加の視覚機器属性は、レンズの幅、レンズの高さ、ブリッジ距離、テンプル長等を含むことができる。そのような視覚機器属性は、上記のように、上述したような画像処理（すなわち、画像区分化／分類）を介して計算してもよく、又は入力画像において手動で特定若しくは測定されてもよく、手動測定では、属性を正確に算出するために較正物体が必要とされる。幾つかの場合、視覚機器属性には、視覚機器属性を含むデータベースからアクセスすることができる。

【0018】

実施形態では、上述した画像区分化及び画像分類に加えて、畳み込み２１２を少なくとも１つの入力に対して実行することができる。畳み込み２１２は、畳み込みフィルタの使用を含むことができ、特徴抽出を促進することができる。後述するように、畳み込み２１２は、ＭＬ－ＶＥＳＴのニューラルネットワークによって実行されてもよく、それにより、入力準備プロセス２１０がなくなる。

【0019】

実施形態では、少なくとも１つの入力は、入力準備プロセス２１０に提供されてもよく、又は機械学習適用プロセスに直接提供されてもよい。例えば、少なくとも１つの入力は、対応するユーザの視覚的測定であることができる。ユーザにより提供される少なくとも１つの入力は、ＳＰＨ及びＡＤＤを含むことができ、ＭＬ－ＶＥＳＴのニューラルネットワークに提供することができる。

【0020】

図３を参照すると、入力準備プロセスに続き、必要な場合、準備された少なくとも１つの入力をＭＬ－ＶＥＳＴの機械学習適用プロセス３１５に送ることができる。一般に、機械学習適用プロセスへの入力は、機械学習適用プロセスに直接提供される少なくとも１つの入力（例えば、顔の画像及び視覚機器の画像、顔の画像、視覚機器を装用している顔の画像）及び準備された少なくとも１つの入力（例えば、顔の画像からの形態学的特徴、視覚機器の画像からの視覚機器属性）を含むことができる。一緒に考慮すると、ＭＬ－ＶＥＳＴのニューラルネットワークの入力の幾つかの使用事例を考慮することができる：（１）顔の画像及び視覚機器の画像から又は視覚機器を装用している顔の画像から取得される形態学的特徴及び視覚機器属性、（２）顔の画像及び視覚機器属性、（３）形態学的特徴及び視覚機器属性、（４）顔の画像及び視覚機器の画像、（５）形態学的特徴、視覚機器属性、及び視覚的測定、（６）顔の画像、視覚機器属性、及び視覚的測定、（７）形態学的特徴、視覚機器の画像、及び視覚的測定、（８）顔の画像、視覚機器の画像、及び視覚的測定、（９）形態学的特徴、（１０）顔の画像、（１１）形態学的特徴及び視覚的測定、（１２）顔の画像及び視覚的測定。

【0021】

図３に戻ると、選択された使用事例（上述）に基づいて、機械学習を準備された少なくとも１つの入力に適用することができ、適合尺度３２０は、機械学習適用プロセス３１５の出力として生成することができる。各使用事例でのＭＬ－ＶＥＳＴのニューラルネットワークの詳細な説明について後続図を参照して提供する。１つの適合尺度の大きさの評価又は複数の適合尺度の大きさの比較を次に使用して、ユーザに理想的な視覚機器３２５を選択することができる。

【0022】

適合尺度３２０のタイプ及び結果として選択される理想的な視覚機器３２５は、ＭＬ－ＶＥＳＴのニューラルネットワークのトレーニングに基づくことができる。したがって、図４Ａは、ＭＬ－ＶＥＳＴの機械学習適用プロセス中に使用されるニューラルネットワークのトレーニングの流れ図を提供する。

【0023】

一般に、トレーニングは、理想的な入力をＭＬ－ＶＥＳＴ及に提供し、ラベリングプロセス４４０中、ラベラーのグループにラベラーグループスコアを提供して、トレーニング適合尺度データ又は「グラウンドトゥルース」データを生成することを含む。ニューラルネットワーク４３０をトレーニングするために、ＭＬ－ＶＥＳＴのニューラルネットワーク４３０によって生成された適合尺度４２０は、ラベリングプロセス４４０中、ラベラーグループによってスコア付けられたトレーニング適合尺度と比較することができる。それらの間で生成された誤差値４３８を評価することができ、ＭＬ－ＶＥＳＴのニューラルネットワーク４３０により生成される将来の適合尺度が、ラベリングプロセス４４０中にスコア付けられる適合尺度に関してますます正確になるように、ＭＬ－ＶＥＳＴのニューラルネットワーク４３０のパラメータをそれに従って調整する４３９ことができる。

【0024】

特に、トレーニングはまず、トレーニングデータベース４３６から受信した少なくとも１つの入力４０５を含む。図２Ａで示唆されたように、トレーニングデータベース４３６は、顔の画像、視覚機器の画像と並べられた顔の画像、視覚機器を装用している顔の画像、及びユーザの目の視力に対応する視覚的測定を含む複数の入力で構成することができる。トレーニングデータベース４３６に記憶された複数の入力は、人々及び多種多様な視覚機器の渾然一体とした集団からものであることが意図され、ＭＬ－ＶＥＳＴがランダムユーザに対して理想的な視覚機器をロバストに選択することができる。しかしながら、トレーニングデータベース４３６に記憶される複数の入力が、任意の多種多様な入力であることができ、特定の用途に合わせることができることを理解することができる。例えば、トレーニングデータベース４３６に記憶される複数の入力は、特に、集団からの人々の顔の画像（又はその形態学的特徴）、顔の画像に対応する視覚的測定、及び視覚機器の画像（又はその視覚機器属性）を含むことができる。

【0025】

複数の入力からの少なくとも１つの入力４０５は、所望であれば、入力準備プロセス４１０に提供することができ、又はニューラルネットワーク４３０に直接提供することができる。さらに、少なくとも１つの入力４０５はラベリングプロセス４４０に提供することができる。実施形態では、入力準備プロセス４１０及びラベリングプロセス４４０に同時に提供される少なくとも１つの入力４０５は、図５Ａに示されるように、トレーニングデータベースに記憶される複数の入力のサブセットであることができる。１つの場合では、サブセットは顔の画像及び視覚機器の画像を含むことができる。したがって、トレーニングされたニューラルネットワーク４３０は、任意の視覚機器の適合尺度４２０を生成することが可能である。別の場合、サブセットは顔の画像のみを含むことができる。視覚機器の各画像に対して顔の画像を提供するのではなく、顔の画像は視覚機器の予め定義されたリストと共に提供され、視覚機器の予め定義されるリストは、ニューラルネットワーク４３０への暗黙的な入力である。ニューラルネットワーク４３０をトレーニングするに当たり、顔の画像は、視覚機器の予め定義されたリストの各視覚機器と突き合わせてスコア（すなわちラベル）付けることができ、その場合、ニューラルネットワーク４３０の出力は、顔の画像との視覚機器の予め定義されたリストの各視覚機器の一致スコアのリストであることができる。換言すれば、暗黙的な入力は、視覚機器の画像の選択されたサブセット又は予め定義されたリストであることができる。視覚機器の選択されたサブセットは、使用事例で説明されるように、顔の画像の評価に使用することができ、視覚機器の選択されたサブセットの各視覚機器には、顔の画像に対する適合スコアが与えられる。トレーニングデータベース４３６に記憶される複数の入力の、暗黙的入力を含む入力の選択は、ＭＬ－ＶＥＳＴのニューラルネットワーク４３０の特定の実施に基づくことができることを理解することができる。

【0026】

実施形態によれば、先に紹介したように、ラベリングプロセス４４０は、ニューラルネットワーク４３０がトレーニングし、それにより、適合尺度を正確に分類又は予測する仕方を学習するベースとなることができる「グラウンドトゥルース」又はトレーニングデータを提供することができる。本開示の状況では、ラベリングプロセス４４０は、特に、少なくとも１つの入力として提供された複数の画像のそれぞれのスコア付け及びコメント付けを含むことができる。

【0027】

実施形態では、ラベラーは、例えば、視覚機器の画像と並べられた入力画像からの人の顔を見て、それについてのスコア及びコメントを提供し得る。図５Ａを参照すると、ラベリングプロセスへの入力は、上述したように、視覚機器の画像と並べられた顔の画像５０８、視覚機器を装用している顔の画像５０９、及び顔の画像に対応する視覚的測定５４９を含む。加えて、ラベリングプロセスへの入力は、仮想視覚機器を装用している顔の画像５５２を含むことができる。「仮想試着動作」と呼ばれる仮想視覚機器を装用している顔の画像５５２は、特定の視覚機器を装用している顔の真正画像が利用可能ではない場合、顔に装用された視覚機器をラベラーが視覚化する方法を提供する。ラベリングプロセス内で生成された仮想試着動作は、まず、視覚機器のパターンのみが残るように視覚機器の画像を歪み除去し、次に、視覚機器のパターンを顔の画像にコピーし、それにより、視覚機器を装用している顔の真正画像をエミュレートすることにより作成することができる。次に、仮想試着動作を評価し、ノーマルとしてラベラーによりラベル付けることができる。

【0028】

上記紹介した場合、ラベラーは、ＭＬ－ＶＥＳＴのニューラルネットワークの出力層の特性を定義するラベル、一連のラベル、又はスコアを提供する。例えば、図５Ｂを参照すると、ラベリングプロセス５４０は、バイナリ視覚機器適合５４１と参照される、視覚機器が顔に合っているか否かを判断することを含むことができる。ラベリングプロセス５４０は、全体視覚機器一致スコア５４２と参照される、視覚機器と顔との一致スコアを特定することを更に含むことができる。さらに、ラベリングプロセス５４０は、基準による視覚機器一致５４３と参照される、予め定義された基準リストの各基準について視覚機器と顔との一致スコアを特定することを含むことができる。この予め定義される基準リストは、例えば特に、フレーム幅に対する顔の幅の一致スコア、フレーム形状に対する顔の形状の一致スコア、フレーム高さに対する顔の下部形状の一致スコア、及びフレーム色／装飾に対する皮膚の広の一致スコアを含むことができる。ラベリングプロセス５４０の上記ラベルは、対応する値として表すことができる。例えば、バイナリ視覚機器適合は０又は１で表すことができ、全体視覚機器一致スコア５４２は０～Ｎのスコアとして表すことができ（例えば、５つ星のうち２つ星）、基準による視覚機器一致スコアは、各基準について０～Ｎのスコアで表すことができる（例えば、５つ星のうち４つ星）。ラベリングプロセス５４０の特定のプロセスに従って各画像のラベルを提供することに加えて、ラベラーは特定のラベルが何故割り当てられたかについてのコメント５４４を提供することができ、コメント５４４は、例えば特に、「この視覚機器はこの顔の幅には大きすぎる」又は「この視覚機器はこの皮膚の色には暗すぎる」等の句を含む。実施形態では、ラベリングプロセス５４０は、顔の画像及び視覚機器の画像に加えて、顔の画像に対応する視覚的測定を含むことができ、視覚の専門知識を有する人は、ラベリング時、視力を考慮することが可能である。

【0029】

上記ラベリングプロセスは、顔と視覚機器との可能な全ての組合せがラベル付けられるまで繰り返すことができることを理解することができる。例えば、視覚機器の複数の画像との顔の１つの画像の各組合せのレベルを提供することができる。

【0030】

これより図４Ａに戻ると、ラベリングプロセス４４０のラベルがニューラルネットワーク４３０の出力となることの理解と共に、ニューラルネットワーク４３０をトレーニングすることができる。ニューラルネットワークのトレーニングのより完全であるが、それでもなお一般的な説明を図１４～図１６に関して説明する。図４Ａに示されるように、処理された少なくとも１つの入力は、ニューラルネットワーク４３０の第１の隠れ層又は入力層に提供することができる。一例では、ニューラルネットワーク４３０は、全結合ニューラルネットワークであることができ、ニューラルネットワークの各全結合層は、前の層の特徴又は出力の全ての組合せから学習することができる。入力準備プロセス４１０に関して論考したように、ニューラルネットワーク４３０の入力層は使用事例に従って様々であり得る。処理済みの少なくとも１つの入力をニューラルネットワーク４３０のＮ隠れ層に通した後、適合尺度４２０を出力層から生成することができる。生成された適合尺度４２０は、ラベリングプロセス４４０のラベル又はトレーニング適合尺度に必ず一致する。したがって、適合尺度４２０の値は、誤差判断４３８において、ラベリングプロセス４４０のラベル又はトレーニングデータと比較されて、ニューラルネットワーク４３０の出力の正確性を判断し得る。誤差判断４３８に基づいて、トレーニングプロセス４３５は、ニューラルネットワーク４３０の第１の隠れ層に進み又は戻り得、各隠れ層の係数／重みは、誤差判断４３８の誤差に基づいて更新することができる。示されるように、ＭＬ－ＶＥＳＴ及びニューラルネットワーク４３０のトレーニングプロセス４３５は特に、誤差判断４３８が基準を満たすまで続けることができる。基準は、誤差値又は反復回数を含む多種多様な基準の１つであることができる。適合尺度とトレーニングデータとの誤差が誤差判断４３８の基準を満たすと、ニューラルネットワーク４３０は、ＭＬ－ＶＥＳＴ内で実施可能な状態になる。

【0031】

ＭＬ－ＶＥＳＴ内の実施中、適合尺度４２０は、少なくとも１つの入力を記述する複数の適合尺度４２０の１つであることができ、少なくとも１つの入力は、人の顔の画像及び視覚機器データベースの複数の視覚機器の各視覚機器を含み、適合尺度４２０は、図４Ｂに示される視覚機器選択プロセス４２５に更に出力することができる。視覚機器選択プロセス４２５は、複数の適合尺度４２０のそれぞれを取得し、適合した視覚機器を選択することができる。１つの場合では、適合した視覚機器は、付随するコメントと共に、ニューラルネットワーク４３０のトレーニング４３５により定められるように、バイナリ視覚機器適合、全体視覚機器一致スコア、又は基準による視覚機器一致スコアを最大化する。別の場合、適合した視覚機器は、付随するコメントと共に、バイナリ視覚機器適合、全体視覚機器一致スコア、又は基準による視覚機器一致スコアのそれぞれを所定の閾値と比較することにより決定することができる。

【0032】

図６Ａ～図６ＥはＭＬ－ＶＥＳＴの例示的な入力を示す。例えば、図６Ａは、ＭＬ－ＶＥＳＴのトレーニングの少なくとも１つの入力がトレーニングデータベースから取得された入力画像を含む事例を記載しており、入力画像は、人々の顔の画像と、それとは別個に視覚機器の画像６０８とを含む。図６Ｂは、少なくとも１つの入力が人々の顔の画像６０７及び視覚機器属性６５１を含むＭＬ－ＶＥＳＴのトレーニングの入力を示し、視覚機器属性６５１はトレーニングデータベースから同様に取得される。図６Ａに鑑みて、図６Ｃは、ＭＬ－ＶＥＳＴのトレーニングの少なくとも１つの入力が、視覚機器を装用している人々の顔の画像６０９を含む事例を示す。図６Ｄ及び図６Ｅは、少なくとも１つの入力として、顔の画像の形態学的特徴を含み、形態学的特徴はトレーニングデータベースに記憶される。図６Ｄを参照すると、ＭＬ－ＶＥＳＴの少なくとも１つの入力は、顔の画像の形態学的特徴６５３及びトレーニングデータベースの複数の視覚機器の視覚機器属性６５１であることができる。図６Ｅに示されるように、トレーニングデータベースから取得される少なくとも１つの入力は、顔の画像の形態学的特徴６５３及び視覚機器の画像６０５を含むことができる。

【0033】

図７Ａは、図５に鑑みて記載されたラベリングプロセスを反映し、ラベリングプロセスへの少なくとも１つの入力７０５は、人の顔の画像と、それとは別個に視覚機器の画像を含む。図７Ａの少なくとも１つの入力７０５又は別の実施形態では処理済みの少なくとも１つの入力は、ラベラーによりラベル付けることができる。実施形態では、ラベラーはラベラーのグループ７４５の１つである。図７Ａに関して、ラベラーのグループ７４５は渾然一体となった人々のグループであることができる。視覚機器を有する人の顔の画像に関する渾然一体となった人々のグループのそれぞれのラベルは、図５に記載のように、バイナリ視覚機器適合７４１、全体視覚機器一致スコア７４２、及び基準による視覚機器一致スコア７４３を含むことができる。これらのラベルは、ラベラーのグループ７４５により決定されるように、「グラウンドトゥルース」として又はＭＬ－ＶＥＳＴのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。上記ラベリングプロセスは、人々の顔の画像と、トレーニングデータベースの複数の視覚機器のうちの視覚機器との各組合せに対して繰り返すことができる。

【0034】

図７Ｂは、図５に鑑みて記載されたラベリングプロセスを反映し、少なくとも１つの入力７０５は、視覚機器を装用している人の顔の画像を含む。図７Ｂの少なくとも１つの入力７０５又は別の実施形態では処理済みの少なくとも１つの入力は、ラベラーによりラベル付けることができる。実施形態では、ラベラーはラベラーのグループ７４５の１つである。図７Ｂに関して、ラベラーのグループ７４５は渾然一体となった人々のグループであることができる。視覚機器を装用している人々の顔の画像に関する渾然一体となった人々のグループのそれぞれのラベルは、図５に記載のように、バイナリ視覚機器適合７４１、全体視覚機器一致スコア７４２、及び基準による視覚機器一致スコア７４３を含むことができる。これらのラベルは、ラベラーのグループ７４５により決定されるように、「グラウンドトゥルース」として又はＭＬ－ＶＥＳＴのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。上記ラベリングプロセスは、トレーニングデータベースの複数の画像の視覚機器を装用している人々の顔の画像のそれぞれ１つに対して繰り返すことができる。

【0035】

図７Ｃは、図５に鑑みて記載されたラベリングプロセスを反映し、少なくとも１つの入力７０５は、人の顔の画像と、視覚機器の画像とを含む。図７Ｂの少なくとも１つの入力７０５は、ラベラーによりラベル付けることができる。実施形態では、ラベラーのタスクを容易にするために、少なくとも１つの入力７０５は処理済みの少なくとも１つの入力であることができる。処理済みの少なくとも１つの入力は、仮想試着動作７５２又は２ＤＶＴＯであることができ、顔の画像及び視覚機器の画像は、顔が視覚機器を装用しているように見えることができるように操作される。処理済みの少なくとも１つの入力に関する適合スコアを提供するラベラーのグループ７４５は、渾然一体とした人々のグループであることができる。図５に記載のように、視覚機器を「装用している」人の顔の画像の仮想試着動作７５２に関する渾然一体とした人々のグループのそれぞれのラベルは、バイナリ視覚機器適合７４１、全体視覚機器一致スコア７４２、及び基準による視覚機器一致スコア７４３を含む。これらのラベルは、ラベラーのグループ７４５により決定されるように、「グラウンドトゥルース」として又はＭＬ－ＶＥＳＴのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。上記ラベリングプロセスは、トレーニングデータベースの複数の画像のうちの視覚機器を「装用している」顔の画像のそれぞれ１つの仮想試着動作７５２に対して繰り返すことができる。

【0036】

図７Ｄは、図５に鑑みて記載されたラベリングプロセスを反映し、少なくとも１つの入力７０５は、人の顔の画像を含む。図７Ｂの少なくとも１つの入力７０５は、例えば、トレーニングデータベースから選択された視覚機器の画像のサブセット７３２のうちの視覚機器の仮想試着動作７５２に鑑みてラベラーによりラベル付けることができる。仮想試着動作７５２に関する適合スコアを提供するラベラーのグループ７４５は、渾然一体とした人々のグループであることができる。図５に記載のように、サブセットの視覚機器を「装用している」人の顔の画像の仮想試着動作７５２に関する渾然一体とした人々のグループのそれぞれのラベルは、バイナリ視覚機器適合７４１、全体視覚機器一致スコア７４２、及び基準による視覚機器一致スコア７４３を含む。これらのラベルは、ラベラーのグループ７４５により決定されるように、「グラウンドトゥルース」として又はＭＬ－ＶＥＳＴのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。一例では、上記ラベリングプロセスは、視覚機器１又はＶＥ１からＶＥ２、そしてＶＥＮまでのトレーニングデータベースの視覚機器の画像のサブセットのうちの視覚機器を「装用している」人々の顔の画像のそれぞれ１つに対して仮想試着動作７５２に対して繰り返される。

【0037】

実施形態によれば、ラベリングプロセスのラベラーのグループは、図８Ａに記載のように、関連する特色を有するサブグループを含む。例えば、ラベラーのグループ８４５は、ラベラーの複数のカテゴリ８５０を含み得、ラベラーの複数のカテゴリ８５０の各カテゴリは共通項によりリンクされる。ラベラーの一カテゴリでは、各ラベラーは一般に、例えば特に、性別、年齢、社会職業カテゴリ、地域、及び様式等の消費者グループとして定義される。これらのラベラーは、例えば、「飛行機に頻繁に乗る５０代男性」、「子供がいる仕事中毒の４０代女性」等の消費者グループの組合せとして更に定義することができる。したがって、ラベラーの複数のカテゴリ８５０のそれぞれを図４Ａのトレーニングプロセスに適用することで、ニューラルネットワークは、ニューラルネットワークの出力が、上述したように定義される人々のグループの意見を反映するようにトレーニングすることができる。例えば、「２０代有職独身女性」として定義されたラベラーのカテゴリの意見でトレーニングされたニューラルネットワークは、それに従ってラベラーのそのようなカテゴリの意見を示す適合尺度を生成する。ＭＬ－ＶＥＳＴの実施中、ラベラーの所望のカテゴリ８５０は、関心のある特定の意見を提供するようにユーザにより予め選択し得る。

【0038】

ラベラーのグループのラベラーのカテゴリを変えることにより、ＭＬ－ＶＥＳＴはユーザの望みに従って調整することができることを理解することができる。例えば、ユーザは、地元の男性の意見に従って自身の顔でどの視覚機器が最もよく見え得るかを知りたいことがある。別の場合、ユーザは、セレブリティの意見に従って自身の顔でどの視覚機器が最もよく見え得るかを知りたいことがある。いずれの場合でも、ＭＬ－ＶＥＳＴ及び内部のラベラーのグループは、所望の意見を反映する結果を達成するために、必要な変更を加えて調整し得る。

【0039】

このために、図８Ｂは、ラベラーのグループがラベラーの複数のカテゴリの１つであることができ、少なくとも１つの入力８０５が視覚機器の画像と並べて表示された顔の画像を含むことができるような、図５に鑑みて記載されたラベリングプロセスを反映する。図８Ｂの少なくとも１つの入力８０５又は別の実施形態では処理済みの少なくとも１つの入力は、ラベラーのグループによりラベル付けることができる。ラベラーのグループはラベラーの第１のカテゴリ８４６であることができ、ラベラーのＮ個ものカテゴリ８４７であり得、各カテゴリは、例えば、従来の消費者区分基準（図８Ａに記載）によって定義される人々の特定のグループを反映する。顔の画像及び視覚機器の画像の並べられた表示に関するラベラーの第１のカテゴリ８４６からラベラーの第Ｎのカテゴリ８４７までのそれぞれのラベルは、図５に記載のように、バイナリ視覚機器適合８４１、全体視覚機器一致スコア８４２、及び基準による視覚機器一致スコア８４３を含む。これらのラベルは、ラベラーのカテゴリにより決定されるように、「グラウンドトゥルース」として又はＭＬ－ＶＥＳＴのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。一例では、上記ラベリングプロセスは、顔の画像とトレーニングデータベースの複数の視覚機器のうちの視覚機器との各組合せに対して繰り返される。

【0040】

図８Ｃは、ラベラーのグループはラベラーの複数のカテゴリの１つであることができ、少なくとも１つの入力８０５が視覚機器を装用している顔の画像を含むことができるような、図５に鑑みて記載されたラベリングプロセスを反映する。図８Ｃの少なくとも１つの入力８０５又は別の実施形態では処理済みの少なくとも１つの入力は、ラベラーのグループによりラベル付けることができる。ラベラーのグループはラベラーの第１のカテゴリ８４６であることができ、ラベラーのＮ個ものカテゴリ８４７であり得、各カテゴリは、例えば、従来の消費者区分基準（図８Ａに記載）によって定義される人々の特定のグループを反映する。視覚機器を装用している顔の画像に関するラベラーの第１のカテゴリ８４６からラベラーの第Ｎのカテゴリ８４７までのそれぞれのラベルは、図５に記載のように、バイナリ視覚機器適合８４１、全体視覚機器一致スコア８４２、及び基準による視覚機器一致スコア８４３を含む。これらのラベルは、ラベラーのカテゴリにより決定されるように、「グラウンドトゥルース」として又はＭＬ－ＶＥＳＴのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。一例では、上記ラベリングプロセスは、顔の画像とトレーニングデータベースの複数の視覚機器のうちの視覚機器との各組合せに対して繰り返される。

【0041】

図７Ｃに鑑みて、図８Ｄは、ラベラーのグループがラベラーの複数のカテゴリの１つであることができ、少なくとも１つの入力８０５が視覚機器の画像と並べられた顔の画像を含むことができるようなラベリングを反映する。図８Ｄの少なくとも１つの入力８０５又は別の実施形態では処理済みの少なくとも１つの入力は、ラベラーのグループによりラベル付けることができる。実施形態では、ラベラーのタスクを容易にするために、少なくとも１つの入力８０５は処理済みの少なくとも１つの入力であることができる。処理済みの少なくとも１つの入力は、仮想試着動作８５２であることができ、顔の画像及び視覚機器の画像は、顔が視覚機器を装用しているように見えるように操作される。ラベラーのグループはラベラーの第１のカテゴリ８４６であることができ、ラベラーのＮ個ものカテゴリ８４７であり得、各カテゴリは、例えば、従来の消費者区分基準（図８Ａに記載）によって定義される人々の特定のグループを反映する。サブセットの視覚機器を「装用している」顔の画像の仮想試着動作８５２に関するラベラーの第１のカテゴリ８４６からラベラーの第Ｎのカテゴリ８４７までのそれぞれのラベルは、図５に記載のように、バイナリ視覚機器適合８４１、全体視覚機器一致スコア８４２、及び基準による視覚機器一致スコア８４３を含むことができる。これらのラベルは、ラベラーのカテゴリにより決定されるように、「グラウンドトゥルース」として又はＭＬ－ＶＥＳＴのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。一例では、上記ラベリングプロセスは、トレーニングデータベースの複数の視覚機器のうちの視覚機器を「装用している」顔の画像の各組合せの仮想試着動作８５２に対して繰り返される。

【0042】

図７Ｄに鑑みて、図８Ｅは、ラベラーのグループがラベラーの複数のカテゴリの１つであることができ、少なくとも１つの入力８０５が人の顔の画像を含むことができるようなラベリングを反映する。実施形態では、ラベラーのタスクを容易にするために、少なくとも１つの入力８０５は仮想試着動作８５２であることができ、顔の画像及びトレーニングデータベースから選択された視覚機器の画像のサブセット８３２の視覚機器の画像は、顔が視覚機器を「装用している」ように見えるよう操作され組み合わせられる。ラベラーのグループはラベラーの第１のカテゴリ８４６であることができ、ラベラーのＮ個ものカテゴリ８４７であり得、各カテゴリは、例えば、従来の消費者区分基準（図８Ａに記載）によって定義される人々の特定のグループを反映する。サブセットの視覚機器を「装用している」顔の画像の仮想試着動作８５２に関するラベラーの第１のカテゴリ８４６からラベラーの第Ｎのカテゴリ８４７までのそれぞれのラベルは、図５に記載のように、バイナリ視覚機器適合８４１、全体視覚機器一致スコア８４２、及び基準による視覚機器一致スコア８４３を含むことができる。これらのラベルは、ラベラーのカテゴリにより決定されるように、「グラウンドトゥルース」として又はＭＬ－ＶＥＳＴのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。上記ラベリングプロセスは、視覚機器１又はＶＥ１からＶＥ２、そしてＶＥＮまでのトレーニングデータベースの視覚機器の画像のサブセットのうちの視覚機器を「装用している」人々の顔の画像のそれぞれ１つの仮想試着動作８５２に対して繰り返すことができる。

【0043】

実施形態によれば、図９Ａを参照すると、ラベラー９４５のグループは、ラベラーの複数のカテゴリを含み得、ラベラーの複数のカテゴリの１つは専門家ラベラーのカテゴリ９４８である。専門家ラベラーの上記カテゴリ９４８は異種であることができ、又は専門家ラベラーのサブカテゴリに分割することができる。例えば、専門家ラベラーのカテゴリ９４８は、特に、アイケア専門家、美容師、及び人相学者を含むことができる。別の場合、アイケア専門家、美容師、及び人相学者等は、サブカテゴリを含むことができ、顔と視覚機器との組合せに職業特有のラベルを提供することができる。

【0044】

このために、図９Ｂ～図９Ｆの例示的な少なくとも１つの入力及び処理済みの少なくとも１つの入力に示されるように、ラベラーの専門家ラベラーカテゴリを含むことで、少なくとも１つの入力の追加の特性を定義し、ラベリング中に考慮できるようにする。例えば、図９Ｂは、トレーニングデータベースから取得されるＭＬ－ＶＥＳＴのトレーニングの少なくとも１つの入力９０５が、顔の画像と、それとは別個に視覚機器の画像９０８を含む事例を記載する。さらに、アイケア専門家である専門家ラベラーの場合に起因して、少なくとも１つの入力の顔の画像は、例えば特に、処方箋及び瞳孔間距離等の視覚的測定９４９と更に関連付けることができる。同様に、図９Ｃは、顔の画像及び視覚機器属性９５１を含むＭＬ－ＶＥＳＴのトレーニングの少なくとも１つの入力９０５を示し、視覚機器属性９５１は、図３について説明したプロセスと略同様の入力準備プロセスから特定される。さらに、図９Ｂと同様に、少なくとも１つの入力９０５の人々の顔は、上述等の視覚的測定９４９と関連付けることができる。図９Ｂに鑑みて、図９Ｄは、ＭＬ－ＶＥＳＴのトレーニングの少なくとも１つの入力９０５が、視覚機器を装用している顔の画像９０９を含む事例を示す。さらに、図９Ｄの少なくとも１つの入力９０５は、上述したように、視覚的測定９４９と更に関連付けることができる。図９Ｅを参照すると、ＭＬ－ＶＥＳＴの少なくとも１つの入力９０５は、顔の画像の形態学的特徴９５３及びトレーニングデータベースの複数の視覚機器の視覚機器属性９５１を含むことができる。さらに、顔の画像の形態学的特徴９５３は、上述等の視覚的測定９４９と関連付けることができる。図９Ｆを参照すると、ＭＬ－ＶＥＳＴの少なくとも１つの入力９０５は、顔の画像の形態学的特徴９５３及びトレーニングデータベースの視覚機器の画像を含むことができる。さらに、顔の画像の形態学的特徴９５３は、上述等の視覚的測定９４９と関連付けることができる。

【0045】

図１０Ａは、図５に鑑みて記載されたラベリングプロセスを反映し、少なくとも１つの入力１００５は、顔の画像と、それとは別個に視覚機器の画像とを含む。さらに、図１０Ａは、専門家ラベラー１０４８であり、一例ではアイケア専門家であり得るラベラーのグループ１０４５を利用するため、少なくとも１つの入力１００５は、顔の画像と関連付けられた視覚的測定１０４９を含むことができる。示唆したように、図１０Ａの少なくとも１つの入力１００５又は別の実施形態では処理済みの少なくとも１つの入力は、ラベラーのグループ１０４５の専門家ラベラーのカテゴリ１０４８によりラベル付けることができる。専門家ラベラーのカテゴリ１０４８のそれぞれのラベルは、図５に記載のように、バイナリ視覚機器適合１０４１、全体視覚機器一致スコア１０４２、及び基準による視覚機器一致スコア１０４３を含むことができる。さらに、これらのラベルは、視覚機器の適合についてのコメント、アイケア専門家の場合、視覚的測定値１０４９に向けられた視覚的測定１０４９の状況でのコメントを含み得る。これらのラベルは、専門家ラベラーのカテゴリ１０４８により決定されるように、「グラウンドトゥルース」として又はＭＬ－ＶＥＳＴのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。一例では、上記ラベリングプロセスは、顔の画像とトレーニングデータベースの複数の視覚機器のうちの視覚機器との各組合せに対して繰り返される。

【0046】

図１０Ｂは、図５に鑑みて記載されたラベリングプロセスを反映し、少なくとも１つの入力１００５は、視覚機器を装用している顔の画像を含む。さらに、図１０Ｂは、専門家ラベラー１０４８であり、一例ではアイケア専門家であり得るラベラー１０４９のグループを利用するため、少なくとも１つの入力１００５は、視覚機器を装用している顔の画像と関連付けられた視覚的測定１０４９を含むことができる。示唆したように、図１０Ｂの少なくとも１つの入力１００５又は別の実施形態では処理済みの少なくとも１つの入力は、ラベラーのグループ１０４５の専門家ラベラーのカテゴリ１０４８によりラベル付けることができる。専門家ラベラーのカテゴリ１０４８のそれぞれのラベルは、図５に記載のように、バイナリ視覚機器適合１０４１、全体視覚機器一致スコア１０４２、及び基準による視覚機器一致スコア１０４３を含むことができる。さらに、これらのラベルは、視覚機器の適合についてのコメント、アイケア専門家の場合、視覚的測定値１０４９に向けられた視覚的測定１０４９の状況でのコメントを含み得る。これらのラベルは、専門家ラベラーのカテゴリ１０４８により決定されるように、「グラウンドトゥルース」として又はＭＬ－ＶＥＳＴのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。上記ラベリングプロセスは、トレーニングデータベースの複数の画像の視覚機器を装用している顔の画像のそれぞれ１つに対して繰り返すことができる。

【0047】

図１０Ｃは、図５に鑑みて記載されたラベリングプロセスを反映し、少なくとも１つの入力１００５は、顔の画像と、それとは別個に視覚機器の画像とを含む。図１０Ｃの少なくとも１つの入力１００５又は別の実施形態では処理済みの少なくとも１つの入力は、ラベラーのグループ１０４５によりラベル付けることができ、ラベラーのグループ１０４５は専門家ラベラー１０４８である。実施形態では、ラベラーのタスクを容易にするために、少なくとも１つの入力１００５は処理済みの少なくとも１つの入力であることができる。処理済みの少なくとも１つの入力は、仮想試着動作１０５２であることができ、顔の画像及び視覚機器の画像は、顔が視覚機器を装用しているように見えるように操作される。専門家ラベラーのカテゴリ１０４８のラベルは、図５に記載のように、バイナリ視覚機器適合１０４１、全体視覚機器一致スコア１０４２、及び基準による視覚機器一致スコア１０４３を含むことができる。これらのラベルは、専門家ラベラーのカテゴリ１０４８により決定されるように、「グラウンドトゥルース」として又はＭＬ－ＶＥＳＴのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。上記ラベリングプロセスは、トレーニングデータベースの複数の視覚機器のうちの視覚機器を「装用している」顔の画像の各組合せの仮想試着動作８５２に対して繰り返すことができる。

【0048】

図１０Ｄは、図５に鑑みて記載されたラベリングプロセスを反映し、少なくとも１つの入力１００５は、顔の画像と、顔の画像と関連付けられた視覚的測定１０４９とを含む。実施形態では、ラベラーのタスクを容易にするために、少なくとも１つの入力１００５は処理済みの少なくとも１つの入力であることができ、処理済みの少なくとも１つの入力は、仮想試着動作１０５２であり、顔の画像及びトレーニングデータベースから選択された視覚機器の画像のサブセット１０３２の視覚機器の画像は、顔が視覚機器を「装用している」ように見えるよう操作され組み合わせられる。専門家ラベラーのカテゴリ１０４８のラベルは、図５に記載のように、バイナリ視覚機器適合１０４１、全体視覚機器一致スコア１０４２、及び基準による視覚機器一致スコア１０４３を含むことができる。これらのラベルは、専門家ラベラーのカテゴリ１０４８により決定されるように、「グラウンドトゥルース」として又はＭＬ－ＶＥＳＴのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。一例では、上記ラベリングプロセスは、視覚機器１又はＶＥ１からＶＥ２、そしてＶＥＮまでのトレーニングデータベースの視覚機器の画像のサブセットのうちの視覚機器を「装用している」人々の顔の画像のそれぞれ１つの仮想試着動作１０５２に対して繰り返される。

【0049】

ラベリングプロセスの上記ラベリング方式のそれぞれは、図４Ａで紹介されるＭＬ－ＶＥＳＴのトレーニングプロセス内で実施することができる。特に、図３に関して説明した使用事例を参照すると、ＭＬ－ＶＥＳＴの実施態様は、図１１Ａ～図１１Ｒに示されるように進むことができる。本明細書及び図面において適切な場合、「視覚機器」は「ＶＥ」と略されており、これは相互に交換可能であり得ることを理解することができる。

【0050】

事例（１）の例示的な実施形態である図１１Ａを参照すると、少なくとも１つの入力１１０５は、ニューラルネットワーク１１１５に入力される前、入力準備プロセス１１１０に渡すことができる。少なくとも１つの入力１１０５は、顔の画像及び視覚機器の画像を含み得、視覚機器の画像は、顔の画像と共に提供され、又はデータベースの複数の視覚機器から選択される。入力準備プロセス１１１０は、実施形態によれば、顔の画像から形態学的特徴１１５３を導出し、視覚機器の画像から視覚機器属性１１５１を導出する画像処理又は手動測定を含み得る。さらに、視覚機器属性１１５１はデータベースからの要求により取得し得る。処理された少なくとも１つの入力は、ニューラルネットワーク１１１５の入力層１１１６に送ることができ、そこでニューラルネットワーク１１１５が適用される。ニューラルネットワーク１１１５の構造は、データ準備（均質化、正則化等を含む）及び全結合ニューラルネットワーク及び／又は畳み込み＋全結合ニューラルネットワークを含むことができる。ラベリングプロセス中、ラベラーのグループにより定義されるように、ニューラルネットワーク１１１５の出力層１１１７は、ラベルについてのニューラルネットワーク１１１５の予測を反映する。この予測は、少なくとも１つの入力１１０５の組合せについてニューラルネットワーク１１１５により生成される適合尺度１１２０であることができる。

【0051】

上記と同様に、事例（１）の例示的な実施形態である図１１Ｂをこれより参照すると、少なくとも１つの入力１１０５は、ニューラルネットワーク１１１５に入力される前、入力準備プロセス１１１０に渡すことができる。少なくとも１つの入力１１０５は、視覚機器を装用した顔の画像を含み得る。入力準備プロセス１１１０は、実施形態によれば、顔の画像及び視覚機器の画像から形態学的特徴１１５３及び視覚機器の画像から視覚機器属性１１５１をそれぞれ導出する画像処理又は手動測定を含み得る。処理された少なくとも１つの入力は、ニューラルネットワーク１１１５の入力層１１１６に送ることができ、そこでニューラルネットワーク１１１５が適用される。ラベラーのグループにより定義されるように、出力層１１１７は、ラベルについてのニューラルネットワーク１１１５の予測を反映する。この予測は、少なくとも１つの入力１１０５の各組合せについてニューラルネットワーク１１１５により生成される適合尺度１１２０である。

【0052】

事例（２）の例示的な実施形態である図１１Ｃは、少なくとも１つの入力１１０５が顔の画像及び視覚機器の画像を含み、視覚機器の画像は、顔の画像と共に提供され、又はデータベースの複数の視覚機器から選択される、ＭＬ－ＶＥＳＴの概略図を提供する。顔の画像は、ニューラルネットワーク１１１５に直接渡すことができる。前と同様に、視覚機器の画像は、ニューラルネットワーク１１１５に送られる前、入力準備プロセス１１１０に渡すことができる。ニューラルネットワーク１１１５の構造は、データ準備（均質化、正則化等を含む）及び全結合ニューラルネットワーク及び／又は畳み込み＋全結合ニューラルネットワークを含むことができる。そのために、視覚機器の画像は、画像処理及び手動測定を介して準備されて、視覚機器属性１１５１を生成することができる。さらに、上記視覚機器属性１１５１は、データベースからの要求を介して取得することができる。先の実施形態と異なり、顔の画像に適用される入力準備プロセス１１１０は、ニューラルネットワーク１１１５の外部であってもよく、又はニューラルネットワーク１１１５と統合されてもよい。例えば、畳み込みニューラルネットワーク１１１２を顔の画像に適用して、特徴抽出を実行し、ニューラルネットワーク１１１５の入力層（ここで、視覚機器の画像の処理された少なくとも１つの入力と出会う）への入力に向けて画像を準備し得る。少なくとも１つの１１０５の両方を準備した後、処理された少なくとも１つの入力はニューラルネットワーク１１１５の入力層に送ることができ、そこでニューラルネットワーク１１１５が適用される。ラベラーのグループにより示されるように、出力層１１１７は、ラベルについてのニューラルネットワーク１１１５の予測を反映する。この予測は、少なくとも１つの入力１１０５の各組合せについてニューラルネットワーク１１１５により生成される適合尺度１１２０である。

【0053】

事例（３）の例示的な実施形態である図１１Ｄは、少なくとも１つの入力１１０５が顔の画像及び視覚機器の画像を含み、視覚機器の画像は、顔の画像と共に提供され、又はデータベースの複数の視覚機器から選択される、ＭＬ－ＶＥＳＴの概略図を提供する。視覚機器の画像は、ニューラルネットワーク１１１５に直接渡すことができる。前と同様に、顔の画像は、ニューラルネットワーク１１１５に送られる前、入力準備プロセス１１１０に渡すことができる。そのために、顔の画像は、画像処理及び手動測定を介して準備されて、形態学的特徴１１５３を生成することができる。先の実施形態と異なり、視覚機器の画像に適用される入力準備プロセス１１１０は、ニューラルネットワーク１１１５の外部であってもよく、又はニューラルネットワーク１１１５と統合されてもよい。例えば、畳み込みニューラルネットワーク１１１２を視覚機器の画像に適用して、特徴抽出を実行し、ニューラルネットワーク１１１５の入力層（ここで、顔の処理済み入力画像と出会う）への入力に向けて画像を準備し得る。少なくとも１つの１１０５の両方を準備した後、処理された少なくとも１つの入力はニューラルネットワーク１１１５の入力層に送ることができ、そこでニューラルネットワーク１１１５が適用される。ニューラルネットワーク１１１５の構造は、データ準備（均質化、正則化等を含む）及び全結合ニューラルネットワーク及び／又は畳み込み＋全結合ニューラルネットワークを含むことができる。ラベラーのグループにより示されるように、出力層１１１７は、ラベルについてのニューラルネットワーク１１１５の予測を反映する。この予測は、少なくとも１つの入力１１０５の各組合せについてニューラルネットワーク１１１５により生成される適合尺度１１２０である。

【0054】

事例（４）の例示的な実施形態である図１１Ｅは、少なくとも１つの入力１１０５が顔の画像及び視覚機器の画像を含み、視覚機器の画像は、顔の画像と共に提供され、又はデータベースの複数の視覚機器から選択される、ＭＬ－ＶＥＳＴの概略図を提供する。少なくとも１つの入力１１０５はニューラルネットワーク１１１５に直接渡すことができ、ここで畳み込みが実行される。前と同様に、少なくとも１つの入力に適用される入力準備プロセス１１１０は、ニューラルネットワーク１１１５の外部であってもよく、又はニューラルネットワーク１１１５と統合されてもよい。例えば、畳み込みニューラルネットワーク１１１２は、視覚機器の画像及び顔の画像を含む少なくとも１つの入力１１０５に適用されて、特徴抽出を実行し、ニューラルネットワーク１１１５の入力層への入力に向けて画像を準備し得る。畳み込みにより少なくとも１つの１１０５の両方を準備した後、処理された少なくとも１つの入力はニューラルネットワーク１１１５の入力層に送ることができ、そこでニューラルネットワーク１１１５が適用される。ニューラルネットワーク１１１５の構造は、データ準備（均質化、正則化等を含む）及び全結合ニューラルネットワーク及び／又は畳み込み＋全結合ニューラルネットワークを含むことができる。ラベラーのグループにより示されるように、出力層は、ラベルについてのニューラルネットワーク１１１５の予測を反映する。この予測は、少なくとも１つの入力１１０５の各組合せについてニューラルネットワーク１１１５により生成される適合尺度１１２０である。

【0055】

事例（５）の例示的な実施形態である図１１Ｆを参照し、図１１Ａを考慮すると、少なくとも１つの入力１１０５は、ニューラルネットワーク１１１５に入力される前、入力準備プロセス１１１０に渡すことができる。少なくとも１つの入力１１０５は、顔の画像及び視覚機器の画像を含み得、視覚機器の画像は、顔の画像と共に提供され、又はデータベースの複数の視覚機器から選択される。加えて、少なくとも１つの入力１１０５は、顔の画像に対応する視覚的測定１１４９を含み得る。入力準備プロセス１１１０は、実施形態によれば、顔の画像から形態学的特徴１１５３を導出し、視覚機器の画像から視覚機器属性１１５１を導出する画像処理又は手動測定を含み得る。さらに、視覚機器属性１１５１はデータベースからの要求により取得し得る。処理された少なくとも１つの入力は、ニューラルネットワーク１１１５の入力層１１１６に送ることができ、そこでニューラルネットワーク１１１５が適用される。ラベリングプロセス中、ラベラーのグループにより定義されるように、ニューラルネットワーク１１１５の出力層１１１７は、ラベルについてのニューラルネットワーク１１１５の予測を反映する。一例では、ラベラーのグループは専門家ラベラーであることができる。この予測は、少なくとも１つの入力１１０５の組合せについてニューラルネットワーク１１１５により生成される適合尺度１１２０であることができる。

【0056】

事例（５）の例示的な実施形態である図１１Ｇを参照し、図１１Ｂを考慮すると、少なくとも１つの入力１１０５は、ニューラルネットワーク１１１５に入力される前、入力準備プロセス１１１０に渡すことができる。少なくとも１つの入力１１０５は、視覚機器を装用した顔の画像を含み得る。さらに、少なくとも１つの入力１１０５は、視覚機器を装用した顔の画像に対応する視覚的測定１１４９を含むことができる。入力準備プロセス１１１０は、実施形態によれば、顔の画像及び視覚機器の画像から形態学的特徴１１５３及び視覚機器の画像から視覚機器属性１１５１をそれぞれ導出する画像処理又は手動測定を含み得る。処理された少なくとも１つの入力は視覚的測定１１４９と共に、ニューラルネットワーク１１１５の入力層１１１６に送ることができ、そこでニューラルネットワーク１１１５が適用される。ラベラーのグループ、実施形態では専門家ラベラーにより定義されるように、出力層１１１７は、ラベルについてのニューラルネットワーク１１１５の予測を反映する。この予測は、少なくとも１つの入力１１０５の各組合せについてニューラルネットワーク１１１５により生成される適合尺度１１２０である。

【0057】

事例（６）の例示的な実施形態である図１１Ｈは、図１１Ｃを考慮して、少なくとも１つの入力１１０５が顔の画像及び視覚機器の画像を含み、視覚機器の画像は、顔の画像と共に提供され、又はデータベースの複数の視覚機器から選択される、ＭＬ－ＶＥＳＴの概略図を提供する。有する人の顔の画像は、ニューラルネットワーク１１１５に直接渡すことができる。加えて、少なくとも１つの入力１１０５は、顔の画像に対応する視覚的測定１１４９を含む。前と同様に、視覚機器の画像は、ニューラルネットワーク１１１５に送られる前、入力準備プロセス１１１０に渡すことができる。そのために、視覚機器の画像は、画像処理及び手動測定を介して準備されて、視覚機器属性１１５１を生成することができる。さらに、上記視覚機器属性１１５１は、データベースからの要求を介して取得することができる。先の実施形態と異なり、顔の画像に適用される入力準備プロセス１１１０は、ニューラルネットワーク１１１５の外部であってもよく、又はニューラルネットワーク１１１５と統合されてもよい。例えば、畳み込みニューラルネットワーク１１１２を顔の画像に適用して、特徴抽出を実行し、ニューラルネットワーク１１１５の入力層（ここで、視覚機器の画像の処理された少なくとも１つの入力と出会う）への入力に向けて画像を準備し得る。少なくとも１つの１１０５の両方を準備した後、処理された少なくとも１つの入力は視覚的測定１１４９と共に、ニューラルネットワーク１１１５の入力層に送ることができ、そこでニューラルネットワーク１１１５が適用される。ラベラーのグループ、実施形態では専門家ラベラーにより示されるように、出力層１１１７は、ラベルについてのニューラルネットワーク１１１５の予測を反映する。この予測は、少なくとも１つの入力１１０５の各組合せについてニューラルネットワーク１１１５により生成される適合尺度１１２０である。

【0058】

図１１Ｄを考慮して、事例（７）の例示的な実施形態である図１１Ｉは、少なくとも１つの入力１１０５が顔の画像及び視覚機器の画像を含み、視覚機器の画像は、顔の画像と共に提供され、又はデータベースの複数の視覚機器から選択される、ＭＬ－ＶＥＳＴの概略図を提供する。視覚機器の画像は、ニューラルネットワーク１１１５に直接渡すことができる。加えて、少なくとも１つの入力１１０５は、顔の画像に対応する視覚的測定１１４９を含む。前と同様に、顔の画像は、ニューラルネットワーク１１１５に送られる前、入力準備プロセス１１１０に渡すことができる。そのために、顔の画像は、画像処理及び手動測定を介して準備されて、形態学的特徴１１５３を生成することができる。先の実施形態と異なり、視覚機器の画像に適用される入力準備プロセス１１１０は、ニューラルネットワーク１１１５の外部であってもよく、又はニューラルネットワーク１１１５と統合されてもよい。例えば、畳み込みニューラルネットワーク１１１２を視覚機器の画像に適用して、特徴抽出を実行し、ニューラルネットワーク１１１５の入力層（ここで、顔の処理済み入力画像と出会う）への入力に向けて画像を準備し得る。少なくとも１つの１１０５の両方を準備した後、処理された少なくとも１つの入力はニューラルネットワーク１１１５の入力層に送ることができ、そこでニューラルネットワーク１１１５が適用される。ラベラーのグループ、実施形態では専門家ラベラーにより示されるように、出力層１１１７は、ラベルについてのニューラルネットワーク１１１５の予測を反映する。この予測は、少なくとも１つの入力１１０５の各組合せについてニューラルネットワーク１１１５により生成される適合尺度１１２０である。

【0059】

事例（８）の例示的な実施形態である図１１Ｊは、図１１Ｅを考慮して、少なくとも１つの入力１１０５が顔の画像及び視覚機器の画像を含み、視覚機器の画像は、顔の画像と共に提供され、又はデータベースの複数の視覚機器から選択される、ＭＬ－ＶＥＳＴの概略図を提供する。少なくとも１つの入力１１０５はニューラルネットワーク１１１５に直接渡すことができ、ここで畳み込みが実行される。加えて、少なくとも１つの入力１１０５は、顔の画像に対応する視覚的測定１１４９を含むことができる。前と同様に、少なくとも１つの入力１１０５に適用される入力準備プロセス１１１０は、ニューラルネットワーク１１１５の外部であってもよく、又はニューラルネットワーク１１１５と統合されてもよい。例えば、畳み込みニューラルネットワーク１１１２は、視覚機器の画像及び顔の画像を含む少なくとも１つの入力１１０５に適用されて、特徴抽出を実行し、ニューラルネットワーク１１１５の入力層への入力に向けて画像を準備し得る。畳み込みにより少なくとも１つの１１０５の両方を準備した後、処理された少なくとも１つの入力は視覚的測定１１４９と共にニューラルネットワーク１１１５の入力層に送ることができ、そこでニューラルネットワーク１１１５が適用される。ラベラーのグループ、実施形態では専門家ラベラーにより示されるように、出力層１１１７は、ラベルについてのニューラルネットワーク１１１５の予測を反映する。この予測は、少なくとも１つの入力１１０５の各組合せについてニューラルネットワーク１１１５により生成される適合尺度１１２０である。

【0060】

図１１Ｋは、図８Ｅに鑑みて、少なくとも１つの入力１１０５が顔の画像を含むＭＬ－ＶＥＳＴの概略図を反映する。事例（９）を反映したそのようなプロセスでは、少なくとも１つの入力１１０５は、少なくとも１つの入力１１０５を視覚機器の画像のサブセット１１３２の各視覚機器と突き合わせて評価できるようにするアーキテクチャを有するニューラルネットワーク１１１５に通すことができる。実施形態では、少なくとも１つの入力１１０５は、ニューラルネットワーク１１１５に渡される前、入力準備プロセス１１１０に渡すことができる。そのために、顔の画像は、画像処理及び手動測定を介して準備されて、形態学的特徴１１５３を生成することができる。

【0061】

先の実施形態と異なり、データベース１１５５から取得された視覚機器の画像のサブセット１１３２は、少なくとも１つの入力１１０５としてニューラルネットワーク１１１５に提供されない。代わりに、ニューラルネットワーク１１１５は少なくとも１つの入力１１０５に適用され、ニューラルネットワーク１１１５は、部分的に視覚機器の画像のサブセット１１３２に基づいてトレーニングされる。実施形態によれば、ニューラルネットワーク１１１５のトレーニングの状況において、データベース１１５５からの視覚機器の画像のサブセット１１３２の視覚機器の各画像の前処理が必要とされる。

【0062】

データベース１１５５からの視覚機器の画像のサブセット１１３２の各視覚機器ｉについて、顔の各画像で導出された形態学的特徴ｊに鑑みて、統計学的適合スコアを計算することができる。統計学的適合スコアは、（１）形態学的特徴ｊに関して視覚機器の画像ｉに同じバイナリスコア（事例バイナリスコア０又は１）を与え、（２）データベース１１５５からの視覚機器の画像のサブセット１１３２内の形態学的特徴ｊに関して同じ一致スコア（０～Ｎの事例一致スコア）を与え、又は（３）データベース１１５５からの視覚機器の画像のサブセット１１３２内の形態学的特徴ｊに関して視覚機器の画像ｉに特定された基準リストの各項目により同じ一致スコアを与えたか、若しくは同じランクを有した（各項目の０～Ｎの事例一致スコア）ラベラーの割合ｐ_ｊｉを含むことができる。先の各状況について、所与の形態学的特徴ｊの割合ｐ_ｊｉに関連付けられた以下のベクトルを得ることができる。１つのベクトルは、視覚機器の画像のサブセット１１３２の画像ｉとの顔の画像の形態学的特徴ｊの適合にそれぞれ対応するＮ個の二進値｛０，１｝のベクトルであることができる。第２のベクトルは０～Ｘの整数値のベクトルであることができ、各整数値は、顔の画像への視覚機器の画像のサブセット１１３２の画像ｉの一致スコアに対応する。第３のベクトルは、０～ＸのＭ個の整数値のＮ個のリストｌのベクトルであることができ、各リストｌの各整数値は、１組のＭ個の一致ルールの各ルールでの顔の画像に対する視覚機器の画像のサブセット１１３２の画像ｉの一致スコアに対応する。次に、上述した前処理に鑑みて、トレーニングを開始することができる。トレーニングへの少なくとも１つの入力は形態学的特徴であることができ、ニューラルネットワークは、畳み込み層及び全結合層を有する組合せニューラルネットワークとして構成することができる。加えて、活性化関数は、正規化線形ユニット（ＲｅＬＵ）を含め、ｐ_ｊｉ個の重みが関連付けられた任意の種類の標準活性化関数であることができる。一致情報を含む関連付けられたベクトルは、ターゲットベクトルと呼ぶことができる。ニューラルネットワークのトレーニングは、ターゲットベクトル全体に対して又は選択ニューロンを特にトレーニングするターゲットベクトルの構成要素に対して首尾よく行うことができる。

【0063】

これより図１１Ｋに戻ると、ニューラルネットワーク１１１５の出力層１１１７は、適合尺度１１２０についてのニューラルネットワーク１１１５の予測を反映する。適合尺度１１２０は一致スコア１１２１であることができ、上述したベクトルの１つであることができる。特に、一致スコア１１２１は、（１）それぞれが視覚機器のＮの画像のサブセット１１３２の画像ｉとの顔の画像の形態学的特徴ｊの適合に対応するＮ個の二進値｛０，１｝のベクトル、（２）それぞれが顔の画像への視覚機器の画像のサブセット１１３２の画像ｉの一致スコア１１２１に対応する０～Ｘの整数値のベクトル、又は（３）０～ＸのＭ個の整数値のＮ個のリストｌのベクトルであって、各リストｌの各整数値は、１組のＭ個の一致ルールの各ルールでの顔の画像に対する視覚機器のＮの画像のサブセット１１３２の画像ｉの一致スコア１１２１に対応する、ベクトルであることができる。実施形態では、一致スコア１１２１の予測は、少なくとも１つの入力１１０５とデータベース１１５５からの視覚機器の画像のサブセット１１３２との各組合せについてニューラルネットワーク１１１５により生成することができ、データベース１１５５は、「ＶＥ１」、「ＶＥ２」、及び「ＶＥＮ」までの視覚機器の連続画像を含む。実施形態では、データベース１１５５は、小売店で入手可能な視覚機器の画像の予め選択されたサブセット又はユーザに関連付けられた特定の特性に適切であると先に特定された視覚機器の画像の予め選択されたサブセットであることができる。

【0064】

図１１Ｌは、図８Ｅに鑑みて、少なくとも１つの入力１１０５が顔の画像を含むＭＬ－ＶＥＳＴの概略図を反映する。事例（９）を反映したそのようなプロセスでは、少なくとも１つの入力１１０５は、少なくとも１つの入力１１０５を形態学的特徴及び視覚機器の画像のサブセットの各視覚機器に関連付けられた対応する視覚機器属性に鑑みて評価できるようにするアーキテクチャを有するニューラルネットワーク１１１５に通すことができる。実施形態では、少なくとも１つの入力１１０５は、ニューラルネットワーク１１１５に渡される前、入力準備プロセス１１１０に渡すことができる。そのために、顔の画像は、画像処理及び手動測定を介して準備されて、形態学的特徴１１５３を生成することができる。先の実施形態と異なり、視覚機器の画像のサブセットの各視覚機器に関連付けられた視覚機器又は視覚機器属性は、少なくとも１つの入力１１０５としてニューラルネットワーク１１１５に提供されない。代わりに、ニューラルネットワーク１１１５は少なくとも１つの入力１１０５に適用され、ニューラルネットワーク１１１５は、部分的に形態学的特徴及び視覚機器の画像のサブセットの各視覚機器に関連付けられた対応する視覚機器属性に基づいてトレーニングされる。実施形態によれば、ニューラルネットワーク１１１５のトレーニングの状況において、顔の画像の形態学的特徴に鑑みたデータベースからの視覚機器の画像のサブセットの視覚機器の各画像の前処理１１３３が必要とされる。前処理１１３３は、Ｆ_ｊｉを定義する座標情報、最良一致が視覚機器ｉ又はＶＥｉである形態学的特徴ｊ、及び座標対｛視覚機器ｉ，形態学的特徴ｊ｝に最高スコアを与えるＮｐラベラーの割合ｐ_ｊｉを含む。

【0065】

このために、視覚機器の画像のサブセットの視覚機器ｉの各画像について、顔の画像の形態学的特徴に鑑みて、統計学的適合スコアを計算することができる。統計学的適合スコアは、（１）視覚機器ｉを形態学的特徴ｊに関連付け（バイナリスコア１）、（２）形態学的特徴ｊに関して視覚機器の画像のサブセットの視覚機器ｉに同じ一致スコアを与えたか、若しくは同じランクを有し（事例一致スコア０～Ｎ）、又は（３）顔情報ｊに関して視覚機器の画像のサブセットの視覚機器ｉに特定された基準リストの各項目により同じ一致スコアを与えたか、若しくは同じランクを有した（各項目で０～Ｎの事例一致スコア）ラベラーの割合ｐ_ｊｉを含むことができる。簡潔にするために、不完全なデータセットは無視され、ラベラーが、形態学的特徴ｊに対する視覚機器の画像のサブセットからの各視覚機器ｉの一致スコア（０～Ｎ）を与えた場合のみを仮定することができる。さらに、形態学的特徴ｊの各エントリについて、各ラベラーの最高スコアを有する視覚機器属性のみが保持される。上記に鑑みて、視覚機器の画像のサブセットの各視覚機器ｉを全ての形態学的特徴Ｆ_ｊｉに関連付ける行列を得ることができる。形態学的特徴Ｆ_ｊｉは、ラベラーの割合ｐ_ｊｉによる最良一致を含むことができる。

【0066】

次に、上述した前処理に鑑みて、トレーニングを開始することができる。トレーニングへの少なくとも１つの入力は形態学的特徴及び視覚的測定であることができ、ニューラルネットワークは、畳み込み層及び全結合層を有する組合せニューラルネットワークとして構成することができる。全結合層は埋め込み用に構成される。Ｄニューロンの全結合層である埋め込み層１１１８は、前処理中に特定された各視覚機器ｉに関する、ベクトル空間における形態学的特徴のベクトル表現を含む。埋め込み層１１１８内に含まれるＤ次元のベクトル空間１１１９の各クラスタｉは、視覚機器を表し、各形態学的特徴はＤベクトル座標により表すことができる。

【0067】

トレーニング中、ランダムサンプリングを実施して、特定の数の形態学的特徴対をランダムに選択することができ、形態学的特徴対は｛Ｆ_ｋｉ，Ｆ_ｌｉ｝として定義される。例示的な対として、Ｆ_ｋｉ及びＦ_ｌｉは、各割合ｐ_ｋｉ及びｐ_ｌｉを有する視覚機器ｉに対する良好な一致であると判断される。その場合、バックプロパゲーションは、２つの活性化関数ｆ（Ｆ_ｋｉ，ｐ_ｋｉ）とｆ（Ｆ_ｌｉ，ｐ_ｌｉ）との間の差分を最小化すると見なすことができ、式中、ｆは活性化関数である。例示的な対として、Ｆ_ｋｉ及びＦ_ｉｉは、割合ｐ_ｋｉ及びｐ_ｌｉをそれぞれ有する視覚機器ｉに関する不良な一致と判断される。その場合、バックプロパゲーションは、２つの活性化関数ｆ（Ｆ_ｋｉ，ｐ_ｋｉ）とｆ（Ｆ_ｌｉ，ｐ_ｌｉ）との間の差分を最大化すると見なすことができ、式中、ｆは活性化関数である。

【0068】

これより図１１Ｌに戻ると、ニューラルネットワーク１１１５の出力層１１１７は、適合尺度１１２０についてのニューラルネットワーク１１１５の予測を反映する。適合尺度１１２０は、次元ベクトル空間１１１９における形態学的特徴Ｆ_ｉｊの座標であることができる。形態学的特徴Ｆ_ｉｊの座標の後処理は、（１）Ｄ次元ベクトル空間１１１９における各クラスタｉの重心を計算することと、（２）出力座標と各クラスタｉの重心との間の距離を計算し、それにより、出力座標に最も近いものから最も遠いものへの視覚機器（各クラスタｉの重心）のランクを含むベクトルを生成することとを含むことができる。実施形態では、形態学的特徴Ｆ_ｉｊの座標の予測は、形態学的特徴及びニューラルネットワーク１１１５がトレーニングされたデータベースからの視覚機器の画像のサブセットの対応する視覚機器属性に鑑みて考慮された少なくとも１つの入力１１０５のそれぞれについて、ニューラルネットワーク１１１５により生成することができる。実施形態では、データベースは、小売店で入手可能な視覚機器の画像の予め選択されたサブセット又はユーザに関連付けられた特定の特性に適切であると先に特定された視覚機器の画像の予め選択されたサブセットであることができる。

【0069】

図１１Ｍは、少なくとも１つの入力１１０５が顔の画像を含むＭＬ－ＶＥＳＴの概略図を反映する。事例（１０）を反映したそのようなプロセスでは、少なくとも１つの入力１１０５は、少なくとも１つの入力１１０５を視覚機器の画像のサブセット１１３２の各視覚機器と突き合わせて評価できるようにするアーキテクチャを有するニューラルネットワーク１１１５に通すことができる。実施形態では、少なくとも１つの入力１１０５は、ニューラルネットワーク１１１５に直接渡すことができ、ここで畳み込みが実行される。畳み込みは、例えば、顔の画像を含む少なくとも１つの入力１１０５に適用される畳み込みニューラルネットワーク１１１２により実行されて、特徴抽出を実行し、ニューラルネットワーク１１１５の入力層への入力に向けて顔の画像を準備することができる。

【0070】

【0071】

【0072】

これより図１１Ｍに戻ると、ニューラルネットワーク１１１５の出力層１１１７は、適合尺度１１２０についてのニューラルネットワーク１１１５の予測を反映する。適合尺度１１２０は一致スコア１１２１であることができ、上述したベクトルの１つであることができる。特に、一致スコア１１２１は、（１）それぞれが視覚機器のＮの画像のサブセット１１３２の画像ｉとの顔の画像の形態学的特徴ｊの適合に対応するＮ個の二進値｛０，１｝のベクトル、（２）それぞれが顔の画像への視覚機器の画像のサブセット１１３２の画像ｉの一致スコア１１２１に対応する０～Ｘの整数値のベクトル、又は（３）０～ＸのＭ個の整数値のＮ個のリストｌのベクトルであって、各リストｌの各整数値は、１組のＭ個の一致ルールの各ルールでの顔の画像に対する視覚機器のＮの画像のサブセット１１３２の画像ｉの一致スコア１１２１に対応する、ベクトルであることができる。実施形態では、一致スコア１１２１の予測は、少なくとも１つの入力１１０５とデータベース１１５５からの視覚機器の画像のサブセット１１３２との各組合せについてニューラルネットワーク１１１５により生成することができ、データベース１１５５は、「ＶＥ１」、「ＶＥ２」、及び「ＶＥＮ」までの視覚機器の連続画像を含む。実施形態では、データベース１１５５は、小売店で入手可能な視覚機器の画像の予め選択されたサブセット又はユーザに関連付けられた特定の特性に適切であると先に特定された視覚機器の画像の予め選択されたサブセットであることができる。

【0073】

図１１Ｎは、少なくとも１つの入力１１０５が顔の画像を含むＭＬ－ＶＥＳＴの概略図を反映する。事例（１０）を反映したそのようなプロセスでは、少なくとも１つの入力１１０５は、少なくとも１つの入力１１０５を形態学的特徴及び視覚機器の画像のサブセットの各視覚機器に関連付けられた対応する視覚機器属性と突き合わせて評価できるようにするアーキテクチャを有するニューラルネットワーク１１１５に通すことができる。実施形態では、少なくとも１つの入力１１０５は、ニューラルネットワーク１１１５に直接渡すことができ、ここで畳み込みが実行される。畳み込みは、例えば、顔の画像を含む少なくとも１つの入力１１０５に適用される畳み込みニューラルネットワーク１１１２により実行されて、特徴抽出を実行し、ニューラルネットワーク１１１５の入力層への入力に向けて顔の画像を準備することができる。

【0074】

先の実施形態と異なり、視覚機器の画像のサブセットの各視覚機器に関連付けられた視覚機器属性及び対応する形態学的特徴は、少なくとも１つの入力１１０５としてニューラルネットワーク１１１５に提供されない。代わりに、ニューラルネットワーク１１１５は少なくとも１つの入力１１０５に適用され、ニューラルネットワーク１１１５は、部分的に形態学的特徴及び視覚機器の画像のサブセットの各視覚機器に関連付けられた対応する視覚機器属性に基づいてトレーニングされる。実施形態によれば、ニューラルネットワーク１１１５のトレーニングの状況において、顔の画像の形態学的特徴に鑑みたデータベースからの視覚機器の画像のサブセットの視覚機器の各画像の前処理１１３３が必要とされる。前処理１１３３は、Ｆ_ｊｉを定義する座標情報、最良一致が視覚機器ｉである顔画像ｊ、及び座標対｛視覚機器ｉ，顔画像ｊ｝に最高スコアを与えるＮｐラベラーの割合ｐ_ｊｉを含む。

【0075】

このために、視覚機器の画像のサブセットの視覚機器ｉの各画像について、顔の画像の顔画像１１０５に鑑みて、統計学的適合スコアを計算することができる。統計学的適合スコアは、（１）視覚機器ｉを顔画像ｊに関連付け（バイナリスコア１）、（２）顔の画像の顔画像ｊに関して視覚機器の画像のサブセットの視覚機器ｉに同じ一致スコアを与えたか、若しくは同じランクを有し（事例一致スコア０～Ｎ）、又は（３）、顔画像ｊに関して視覚機器の画像のサブセットの視覚機器ｉに特定された基準リストの各項目により同じ一致スコアを与えたか、若しくは同じランクを有した（各項目で０～Ｎの事例一致スコア）ラベラーの割合ｐ_ｊｉを含むことができる。簡潔にするために、不完全なデータセットは無視され、ラベラーが、顔画像ｊに対する視覚機器の画像のサブセットからの各視覚機器ｉの一致スコア（０～Ｎ）を与えた場合のみを仮定することができる。さらに、顔画像ｊの各エントリについて、各ラベラーの最高スコアを有する視覚機器属性のみが保持される。上記に鑑みて、視覚機器の画像のサブセットの各視覚機器ｉを全ての顔画像Ｆ_ｊｉに関連付ける行列を得ることができる。行列Ｆ_ｊｉは、ラベラーの割合ｐ_ｊｉによる最良一致を含むことができる。

【0076】

次に、上述した前処理に鑑みて、トレーニングを開始することができる。トレーニングへの少なくとも１つの入力は顔画像及び視覚的測定であることができ、ニューラルネットワークは、畳み込み層及び全結合層を有する組合せニューラルネットワークとして構成することができる。全結合層は埋め込み用に構成される。Ｄニューロンの全結合層である埋め込み層１１１８は、前処理中に特定された各視覚機器ｉに関する、ベクトル空間における顔画像のベクトル表現を含む。埋め込み層１１１８内に含まれるＤ次元のベクトル空間１１１９の各クラスタｉは、視覚機器を表し、各顔画像はＤベクトル座標により表すことができる。

【0077】

トレーニング中、ランダムサンプリングを実施して、特定の数の顔画像対をランダムに選択することができ、形態学的特徴対は｛Ｆ_ｋｉ，Ｆ_ｌｉ｝として定義される。例示的な対として、Ｆ_ｋｉ及びＦ_ｌｉは、各割合ｐ_ｋｉ及びｐ_ｌｉを有する視覚機器ｉに対する良好な一致であると判断される。その場合、バックプロパゲーションは、２つの活性化関数ｆ（Ｆ_ｋｉ，ｐ_ｋｉ）とｆ（Ｆ_ｌｉ，ｐ_ｌｉ）との間の差分を最小化すると見なすことができ、式中、ｆは活性化関数である。例示的な対として、Ｆ_ｋｉ及びＦ_ｌｉは、割合ｐ_ｋｉ及びｐ_ｌｉをそれぞれ有する視覚機器ｉに関する不良な一致と判断される。その場合、バックプロパゲーションは、２つの活性化関数ｆ（Ｆ_ｋｉ，ｐ_ｋｉ）とｆ（Ｆ_ｌｉ，ｐ_ｌｉ）との間の差分を最大化すると見なすことができ、式中、ｆは活性化関数である。

【0078】

これより図１１Ｎに戻ると、ニューラルネットワーク１１１５の出力層１１１７は、適合尺度１１２０についてのニューラルネットワーク１１１５の予測を反映する。適合尺度１１２０は、次元ベクトル空間１１１９における顔画像Ｆ_ｉｊの座標であることができる。顔画像Ｆ_ｉｊの座標の後処理は、（１）Ｄ次元ベクトル空間１１１９における各クラスタｉの重心を計算することと、（２）出力座標と各クラスタｉの重心との間の距離を計算し、それにより、出力座標に最も近いものから最も遠いものへの視覚機器（各クラスタｉの重心）のランクを含むベクトルを生成することとを含むことができる。実施形態では、顔画像Ｆ_ｉｊの座標の予測は、形態学的特徴及びデータベースからの視覚機器の画像のサブセットの各画像に関連付けられた視覚機器属性に鑑みて、少なくとも１つの入力１１０５のそれぞれについてニューラルネットワーク１１１５により生成することができる。実施形態では、データベースは、小売店で入手可能な視覚機器の画像の予め選択されたサブセット又はユーザに関連付けられた特定の特性に適切であると先に特定された視覚機器の画像の予め選択されたサブセットであることができる。

【0079】

図１１Ｏは、少なくとも１つの入力１１０５が顔の画像を含むＭＬ－ＶＥＳＴの概略図を反映する。事例（１１）を反映したそのようなプロセスでは、少なくとも１つの入力１１０５は、少なくとも１つの入力１１０５を視覚機器の画像のサブセット１１３２の各視覚機器と突き合わせて評価できるようにするアーキテクチャを有するニューラルネットワーク１１１５に通すことができる。実施形態では、少なくとも１つの入力１１０５は、ニューラルネットワーク１１１５に渡される前、入力準備プロセス１１１０に渡すことができる。そのために、顔の画像は、画像処理及び手動測定を介して準備されて、形態学的特徴１１５３を生成することができる。上記に加えて、少なくとも１つの入力１１０５は、顔の画像に対応する視覚的測定１１４９を含むことができる。

【0080】

【0081】

データベース１１５５からの視覚機器の画像のサブセット１１３２の各視覚機器ｉについて、顔の各画像で導出された形態学的特徴ｊに鑑みて、統計学的適合スコアを計算することができる。統計学的適合スコアは、（１）形態学的特徴ｊに関して視覚機器の画像ｉに同じバイナリスコア（事例バイナリスコア０又は１）を与え、（２）データベース１１５５からの視覚機器の画像のサブセット１１３２内の形態学的特徴ｊに関して同じ一致スコア（０～Ｎの事例一致スコア）を与え、又は（３）データベース１１５５からの視覚機器の画像のサブセット１１３２内の形態学的特徴ｊに関して視覚機器の画像ｉに特定された基準リストの各項目により同じ一致スコアを与えたか、若しくは同じランクを有した（各項目の０～Ｎの事例一致スコア）ラベラーの割合ｐ_ｊｉを含むことができる。先の各状況について、所与の形態学的特徴ｊの割合ｐ_ｊｉに関連付けられた以下のベクトルを得ることができる。１つのベクトルは、視覚機器のＮ個の画像のサブセット１１３２の画像ｉとの顔の画像の形態学的特徴ｊの適合にそれぞれ対応するＮ個の二進値｛０，１｝のベクトルであることができる。第２のベクトルは０～Ｘの整数値のベクトルであることができ、各整数値は、顔の画像への視覚機器の画像のサブセット１１３２の画像ｉの一致スコアに対応する。第３のベクトルは、０～ＸのＭ個の整数値のＮ個のリストｌのベクトルであることができ、各リストｌの各整数値は、１組のＭ個の一致ルールの各ルールでの顔の画像に対する視覚機器の画像のサブセット１１３２の画像ｉの一致スコアに対応する。次に、上述した前処理に鑑みて、トレーニングを開始することができる。トレーニングへの少なくとも１つの入力は形態学的特徴であることができ、ニューラルネットワークは、畳み込み層及び全結合層を有する組合せニューラルネットワークとして構成することができる。加えて、活性化関数は、正規化線形ユニット（ＲｅＬＵ）を含め、ｐ_ｊｉ個の重みが関連付けられた任意の種類の標準活性化関数であることができる。一致情報を含む関連付けられたベクトルは、ターゲットベクトルと呼ぶことができる。ニューラルネットワークのトレーニングは、ターゲットベクトル全体に対して又は選択ニューロンを特にトレーニングするターゲットベクトルの構成要素に対して首尾よく行うことができる。

【0082】

これより図１１Ｏに戻ると、処理された少なくとも１つの入力は視覚的測定１１４９と共に、ニューラルネットワーク１１１５の入力層に渡すことができる。ニューラルネットワーク１１１５の出力層１１１７は、適合尺度１１２０についてのニューラルネットワーク１１１５の予測を反映する。適合尺度１１２０は一致スコア１１２１であることができ、上述したベクトルの１つであることができる。特に、一致スコア１１２１は、（１）それぞれが視覚機器のＮの画像のサブセット１１３２の画像ｉとの顔の画像の形態学的特徴ｊの適合に対応するＮ個の二進値｛０，１｝のベクトル、（２）それぞれが顔の画像への視覚機器のＮ個の画像のサブセット１１３２の画像ｉの一致スコア１１２１に対応する０～Ｘの整数値のベクトル、又は（３）０～ＸのＭ個の整数値のＮ個のリストｌのベクトルであって、各リストｌの各整数値は、１組のＭ個の一致ルールの各ルールでの顔の画像に対する視覚機器のＮの画像のサブセット１１３２の画像ｉの一致スコア１１２１に対応する、ベクトルであることができる。実施形態では、一致スコア１１２１の予測は、少なくとも１つの入力１１０５とデータベース１１５５からの視覚機器の画像のサブセット１１３２との各組合せについてニューラルネットワーク１１１５により生成することができ、データベース１１５５は、「ＶＥ１」、「ＶＥ２」、及び「ＶＥＮ」までの視覚機器の連続画像を含む。実施形態では、データベース１１５５は、小売店で入手可能な視覚機器の画像の予め選択されたサブセット又はユーザに関連付けられた特定の特性に適切であると先に特定された視覚機器の画像の予め選択されたサブセットであることができる。

【0083】

図１１Ｐは、少なくとも１つの入力１１０５が顔の画像を含むＭＬ－ＶＥＳＴの概略図を反映する。事例（１１）を反映したそのようなプロセスでは、少なくとも１つの入力１１０５は、少なくとも１つの入力１１０５を形態学的特徴及び視覚機器の画像のサブセットの各視覚機器に関連付けられた対応する視覚機器属性と突き合わせて評価できるようにするアーキテクチャを有するニューラルネットワーク１１１５に通すことができる。実施形態では、少なくとも１つの入力１１０５は、ニューラルネットワーク１１１５に送られる前、入力準備プロセス１１１０に渡すことができる。そのために、顔の画像は、画像処理及び手動測定を介して準備されて、形態学的特徴１１５３を生成することができる。加えて、少なくとも１つの入力１１０５は、顔の画像に対応する視覚的測定１１４９を含むことができる。

【0084】

先の実施形態と異なり、視覚機器の画像のサブセットの各視覚機器に関連付けられた視覚機器属性及び対応する形態学的特徴は、少なくとも１つの入力１１０５としてニューラルネットワーク１１１５に提供されない。代わりに、ニューラルネットワーク１１１５は少なくとも１つの入力１１０５に適用され、ニューラルネットワーク１１１５は、部分的に形態学的特徴及び視覚機器の画像のサブセットの各視覚機器に関連付けられた対応する視覚機器属性に基づいてトレーニングされる。実施形態によれば、ニューラルネットワーク１１１５のトレーニングの状況において、顔の画像の形態学的特徴に鑑みたデータベースからの視覚機器の画像のサブセットの視覚機器の各画像の前処理１１３３が必要とされる。前処理１１３３は、Ｆ_ｊｉを定義する座標情報、最良一致が視覚機器ｉである形態学的特徴ｊ、並びに座標対｛視覚機器ｉ，形態学的特徴ｊ｝に最高スコアを与えるＮｐラベラーの割合ｐ_ｊｉを含む。

【0085】

このために、視覚機器の画像のサブセットの視覚機器ｉの各画像について、顔の画像の形態学的特徴に鑑みて、統計学的適合スコアを計算することができる。統計学的適合スコアは、（１）視覚機器ｉを形態学的特徴ｊに関連付け（バイナリスコア１）、（２）顔の画像の形態学的特徴ｊに関して視覚機器の画像のサブセットの視覚機器ｉに同じ一致スコアを与えたか、若しくは同じランクを有し（事例一致スコア０～Ｎ）、又は（３）顔情報ｊに関して視覚機器の画像のサブセットの視覚機器ｉに特定された基準リストの各項目により同じ一致スコアを与えたか、若しくは同じランクを有した（各項目で０～Ｎの事例一致スコア）ラベラーの割合ｐ_ｊｉを含むことができる。簡潔にするために、不完全なデータセットは無視され、ラベラーが、形態学的特徴ｊに対する視覚機器の画像のサブセットからの各視覚機器ｉの一致スコア（０～Ｎ）を与えた場合のみを仮定することができる。さらに、形態学的特徴ｊの各エントリについて、各ラベラーの最高スコアを有する視覚機器属性のみが保持される。上記に鑑みて、視覚機器の画像のサブセットの各視覚機器ｉを全ての形態学的特徴Ｆ_ｊｉに関連付ける行列を得ることができる。形態学的特徴Ｆ_ｊｉは、ラベラーの割合ｐ_ｊｉによる最良一致を含むことができる。

【0086】

【0087】

トレーニング中、ランダムサンプリングを実施して、特定の数の形態学的特徴対をランダムに選択することができ、形態学的特徴対は｛Ｆ_ｋｉ，Ｆ_ｌｉ｝として定義される。例示的な対として、Ｆ_ｋｉ及びＦ_ｌｉは、各割合ｐ_ｋｉ及びｐ_ｌｉを有する視覚機器ｉに対する良好な一致であると判断される。その場合、バックプロパゲーションは、２つの活性化関数ｆ（Ｆ_ｋｉ，ｐ_ｋｉ）とｆ（Ｆ_ｌｉ，ｐ_ｌｉ）との間の差分を最小化すると見なすことができ、式中、ｆは活性化関数である。例示的な対として、Ｆ_ｋｉ及びＦ_ｌｉは、割合ｐ_ｋｉ及びｐ_ｌｉをそれぞれ有する視覚機器ｉに関する不良な一致と判断される。その場合、バックプロパゲーションは、２つの活性化関数ｆ（Ｆ_ｋｉ，ｐ_ｋｉ）とｆ（Ｆ_ｌｉ，ｐ_ｌｉ）との間の差分を最大化すると見なすことができ、式中、ｆは活性化関数である。

【0088】

これより図１１Ｐに戻ると、ニューラルネットワーク１１１５の出力層１１１７は、適合尺度１１２０についてのニューラルネットワーク１１１５の予測を反映する。適合尺度１１２０は、次元ベクトル空間１１１９における形態学的特徴Ｆ_ｉｊの座標であることができる。形態学的特徴Ｆ_ｉｊの座標の後処理は、（１）Ｄ次元ベクトル空間１１１９における各クラスタｉの重心を計算することと、（２）出力座標と各クラスタｉの重心との間の距離を計算し、それにより、出力座標に最も近いものから最も遠いものへの視覚機器（各クラスタｉの重心）のランクを含むベクトルを生成することとを含むことができる。実施形態では、形態学的特徴Ｆ_ｉｊの座標の予測は、形態学的特徴及び視覚機器の画像のサブセットの対応する視覚機器属性に鑑みて、少なくとも１つの入力１１０５について、ニューラルネットワーク１１１５により生成することができる。実施形態では、データベースは、小売店で入手可能な視覚機器の画像の予め選択されたサブセット又はユーザに関連付けられた特定の特性に適切であると先に特定された視覚機器の画像の予め選択されたサブセットであることができる。

【0089】

図１１Ｑは、少なくとも１つの入力１１０５が顔の画像を含むＭＬ－ＶＥＳＴの概略図を反映する。事例（１２）を反映したそのようなプロセスでは、少なくとも１つの入力１１０５は、少なくとも１つの入力１１０５を視覚機器の画像のサブセット１１３２の各視覚機器と突き合わせて評価できるようにするアーキテクチャを有するニューラルネットワーク１１１５に通すことができる。実施形態では、少なくとも１つの入力１１０５は、ニューラルネットワーク１１１５に直接渡すことができ、ここで畳み込みが実行される。畳み込みは、例えば、顔の画像を含む少なくとも１つの入力１１０５に適用される畳み込みニューラルネットワーク１１１２により実行されて、特徴抽出を実行し、ニューラルネットワーク１１１５の入力層への入力に向けて顔の画像を準備することができる。加えて、少なくとも１つの入力１１０５は、顔の画像に対応する視覚的測定１１４９を含むことができる。

【0090】

【0091】

【0092】

これより図１１Ｑに戻ると、ニューラルネットワーク１１１５の出力層１１１７は、適合尺度１１２０についてのニューラルネットワーク１１１５の予測を反映する。適合尺度１１２０は一致スコア１１２１であることができ、上述したベクトルの１つであることができる。特に、一致スコア１１２１は、（１）それぞれが視覚機器のＮの画像のサブセット１１３２の画像ｉとの顔の画像の形態学的特徴ｊの適合に対応するＮ個の二進値｛０，１｝のベクトル、（２）それぞれが顔の画像への視覚機器の画像のサブセット１１３２の画像ｉの一致スコア１１２１に対応する０～Ｘの整数値のベクトル、又は（３）０～ＸのＭ個の整数値のＮ個のリストｌのベクトルであって、各リストｌの各整数値は、１組のＭ個の一致ルールの各ルールでの顔の画像に対する視覚機器のＮの画像のサブセット１１３２の画像ｉの一致スコア１１２１に対応する、ベクトルであることができる。実施形態では、一致スコア１１２１の予測は、少なくとも１つの入力１１０５とデータベース１１５５からの視覚機器の画像のサブセット１１３２との各組合せについてニューラルネットワーク１１１５により生成することができ、データベース１１５５は、「ＶＥ１」、「ＶＥ２」、及び「ＶＥＮ」までの視覚機器の連続画像を含む。実施形態では、データベース１１５５は、小売店で入手可能な視覚機器の画像の予め選択されたサブセット又はユーザに関連付けられた特定の特性に適切であると先に特定された視覚機器の画像の予め選択されたサブセットであることができる。

【0093】

図１１Ｒは、少なくとも１つの入力１１０５が顔の画像を含むＭＬ－ＶＥＳＴの概略図を反映する。事例（１２）を反映したそのようなプロセスでは、少なくとも１つの入力１１０５は、少なくとも１つの入力１１０５を形態学的特徴及び視覚機器の画像のサブセットの各視覚機器に関連付けられた対応する視覚機器属性と突き合わせて評価できるようにするアーキテクチャを有するニューラルネットワーク１１１５に通すことができる。実施形態では、少なくとも１つの入力１１０５は、ニューラルネットワーク１１１５に直接渡すことができ、ここで畳み込みが実行される。畳み込みは、例えば、顔の画像を含む少なくとも１つの入力１１０５に適用される畳み込みニューラルネットワーク１１１２により実行されて、特徴抽出を実行し、ニューラルネットワーク１１１５の入力層への入力に向けて顔の画像を準備することができる。加えて、少なくとも１つの入力１１０５は、顔の画像に対応する視覚的測定１１４９を含むことができる。

【0094】

【0095】

このために、視覚機器の画像のサブセットの視覚機器ｉの各画像について、顔の画像の顔画像１１０５に鑑みて、統計学的適合スコアを計算することができる。統計学的適合スコアは、（１）視覚機器ｉを顔画像ｊに関連付け（バイナリスコア１）、（２）顔の画像の顔画像ｊに関して視覚機器の画像のサブセットの視覚機器ｉに同じ一致スコアを与えたか、若しくは同じランクを有し（事例一致スコア０～Ｎ）、又は（３）、顔画像ｊに関して視覚機器の画像のサブセットの視覚機器ｉに特定された基準リストの各項目により同じ一致スコアを与えたか、若しくは同じランクを有した（各項目で０～Ｎの事例一致スコア）ラベラーの割合ｐ_ｊｉを含むことができる。簡潔にするために、不完全なデータセットは無視され、ラベラーが、顔画像ｊに対する視覚機器の画像のサブセットからの各視覚機器ｉの一致スコア（０～Ｎ）を与えた場合のみを仮定することができる。さらに、顔画像ｊの各エントリについて、各ラベラーの最高スコアを有する視覚機器属性のみが保持される。上記に鑑みて、視覚機器の画像のサブセットの各視覚機器ｉを全ての顔画像Ｆ_ｊｉに関連付ける行列を得ることができる。顔画像Ｆ_ｊｉは、ラベラーの割合ｐ_ｊｉによる最良一致を含むことができる。

【0096】

【0097】

トレーニング中、ランダムサンプリングを実施して、特定の数の形態学的特徴対をランダムに選択することができ、形態学的特徴対は｛Ｆ_ｋｉ，Ｆ_ｌｉ｝として定義される。例示的な対として、Ｆ_ｋｉ及びＦ_ｌｉは、各割合ｐ_ｋｉ及びｐ_ｌｉを有する視覚機器ｉに対する良好な一致であると判断される。その場合、バックプロパゲーションは、２つの活性化関数ｆ（Ｆ_ｋｉ，ｐ_ｋｉ）とｆ（Ｆ_ｌｉ，ｐ_ｌｉ）との間の差分を最小化すると見なすことができ、式中、ｆは活性化関数である。例示的な対として、Ｆ_ｋｉ及びＦ_ｌｉは、割合ｐ_ｋｉ及びｐ_ｌｉをそれぞれ有する視覚機器ｉに関する不良な一致と判断される。その場合、バックプロパゲーションは、２つの活性化関数ｆ（Ｆ_ｋｉ，ｐ_ｋｉ）とｆ（Ｆ_ｌｉ，ｐ_ｌｉ）との間の差分を最大化すると見なすことができ、式中、ｆは活性化関数である。

【0098】

これより図１１Ｒに戻ると、ニューラルネットワーク１１１５の出力層１１１７は、適合尺度１１２０についてのニューラルネットワーク１１１５の予測を反映する。適合尺度１１２０は、次元ベクトル空間１１１９における顔画像Ｆ_ｉｊ座標であることができる。顔画像Ｆ_ｉｊの座標の後処理は、（１）Ｄ次元ベクトル空間１１１９における各クラスタｉの重心を計算することと、（２）出力座標と各クラスタｉの重心との間の距離を計算し、それにより、出力座標に最も近いものから最も遠いものへの視覚機器（各クラスタｉの重心）のランクを含むベクトルを生成することとを含むことができる。実施形態では、顔画像Ｆ_ｉｊの座標の予測は、形態学的特徴及びデータベースからの視覚機器の画像のサブセットの対応する視覚機器属性に鑑みて、少なくとも１つの入力１１０５のそれぞれについて、ニューラルネットワーク１１１５により生成することができる。実施形態では、データベースは、小売店で入手可能な視覚機器の画像の予め選択されたサブセット又はユーザに関連付けられた特定の特性に適切であると先に特定された視覚機器の画像の予め選択されたサブセットであることができる。

【0099】

本開示の実施形態によれば、ＭＬ－ＶＥＳＴのニューラルネットワークは、視覚機器の理想的な座標を反映したユーザの適合尺度を決定するように構成することができる。このために、図１２Ａは、上述したＭＬ－ＶＥＳＴの構造が略同様である、内部で使用されるラベリングプロセスを反映している。まず、入力画像１２０５を受信することができる。入力画像１２０５は、画像準備プロセス１２１０に送ることができ、それにより、顔ランドマークの座標が特定される。これらの顔ランドマークは、第１に、尺度の距離を確保できるように画像を較正し、第２に、従来の画像処理又は深層学習技法を介して人の顔の画像のランドマークを検出して、これらのランドマークの尺度座標を抽出し、第３に、解剖学的基準点（例えば、顎の最も低い点）に対してこれらの抽出された座標を正則化することにより特定することができる。これらの抽出され正則化された座標は、入力層としてニューラルネットワークのトレーニングプロセス１２３５に送ることができる。上述したように、ＭＬ－ＶＥＳＴの実施中、これと同じ画像準備プロセス１２１０を辿ることができる。次に、処理された入力画像はラベリングプロセス１２４０に渡すことができ、ラベラーのグループ、特に専門家ラベラーのカテゴリ１２４８が処理済み入力画像をラベル付ける。一例では、専門家ラベラーのカテゴリは、３Ｄモデリングの専門家により支援されるアイケア専門家であることができ、画像の人の顔の形態学的特徴に従って理想的な視覚機器が生成されるように写真の顔の画像をモデリングすることができる。一例では、モデルは、理想的な視覚機器の内部及び外部輪郭ランドマークに対応する尺度座標を構成することができる。前と同様に、理想的な視覚機器尾これらの内部及び外部輪郭ランドマークは、解剖学的基準点（例えば、顎の最も低い点）に正則化することができ、ニューラルネットワークの出力１２２０として使用することができる。換言すれば、理想的な視覚機器１１２０の上記ランドマークは、トレーニング中、トレーニングデータとして機能し、ＭＬ－ＶＥＳＴの実施中、ニューラルネットワークの出力層を定義する。前と同様に、トレーニングプロセス１２３５をトレーニングデータベース内の人々の顔の複数の画像のそれぞれに対して繰り返すことができることを理解することができる。

【0100】

ラベリングプロセスの上記ラベリング方式は、ＭＬ－ＶＥＳＴ内で実施することができる。特に、実施態様は図１２Ｂに示されるように処理し得る。

【0101】

図１２Ｂを参照すると、入力画像１２０５は、ニューラルネットワーク１２１５に渡す前、画像準備プロセス１２１０に渡すことができる。入力画像１２０５は、人の顔の画像を含み得る。画像準備プロセス１２１０は、実施形態によれば、人の顔の画像の形態学的特徴及びランドマークを導出する画像処理を含み得る。処理された入力画像は、ニューラルネットワーク１２１５の入力層に送ることができ、そこでニューラルネットワーク１２１５が入力画像に適用される。ラベラーのグループにより示されるように、出力層は、ラベルに関するニューラルネットワーク１２１５の予測を反映する。この予測又は適合尺度１２２０は、画像の人の顔についてニューラルネットワーク１２１５により生成された理想的な視覚機器の座標を反映する。図１２Ｂ及びＭＬ－ＶＥＳＴ内にはっきりと示された図１２Ａのトレーニングされたニューラルネットワークの実施中、出力された理想的な視覚機器座標は、データベース内の複数の視覚機器の座標と比較することができ、最も高度に相関するものがユーザに適合した視覚機器として選択される。

【0102】

図１３Ａ～図１３Ｆは、本開示のＭＬ－ＶＥＳＴのニューラルネットワークの例示的な実施及び構成要素を示す。

【0103】

レビューとして、ＭＬ－ＶＥＳＴのニューラルネットワークへの入力の幾つかの使用事例を考慮することができる：（１）顔の画像及び視覚機器の画像から又は視覚機器を装用している顔の画像から取得される形態学的特徴及び視覚機器属性、（２）顔の画像及び視覚機器属性、（３）形態学的特徴及び視覚機器属性、（４）顔の画像及び視覚機器の画像、（５）形態学的特徴、視覚機器属性、及び視覚的測定、（６）顔の画像、視覚機器属性、及び視覚的測定、（７）形態学的特徴、視覚機器の画像、及び視覚的測定、（８）顔の画像、視覚機器の画像、及び視覚的測定、（９）形態学的特徴、（１０）顔の画像、（１１）形態学的特徴及び視覚的測定、（１２）顔の画像及び視覚的測定。

【0104】

事例（１）、事例（４）、事例（９）、及び事例（１０）を除く全ての事例では、２つの異種入力ストリームを組み込まなければならない。顔の画像及び視覚機器の画像を処理するために、図１３Ａに示され、図１３Ｂに詳述されるように、畳み込み＋全結合ニューラルネットワークセクションを使用することができる。このために、ニューラルネットワークは、畳み込み層の連続を利用し、各層は、種々のサイズ、パディング、ストライド、及び深度を有する畳み込みフィルタの後に、活性化層（例えば、ＲｅＬＵ、漏洩ＲｅＬＵ）又はプーリングフィルタ（例えば、最大プーリング、平均プーリング）が続くもので構成される。次に、最後の畳み込み層をベクトル化することができ、取得されたベクトルの各実数は、全結合層を通して処理することができ、活性化関数は、ＲｅＬＵ、漏洩ＲｅＬＵ、シグモイド、及びＴａｎＨ等を含む群から選択することができる。

【0105】

この時点で、ニューラルネットワークのノードのサブセットは、最終出力に先立ってまだ処理されていないままである。図１３Ｃに示される「データ準備＋全結合」ニューラルネットワークセクションは、実数及び例えば、形態学的特徴、視覚機器属性、及び視覚的測定を表す文字列の列記を含むデータを処理するのに使用することができる。まず、データを集約して、異種データのベクトルを形成することができる。次に、ベクトルを均質化して、実数のみを取得することができる。このために、列記は、列記内の項目の順番に対応する整数で置換することができる。例えば、「黄色」は、「空白」、「黄色」、「オレンジ」、「赤」等を含む利用可能な色の列記において「２」番目の項目であるため、色である「黄色」は「２」で置換することができる。各特性は項目の英数字で置換することができる。次に、全結合層を通して取得されたベクトルの各実数を処理することができ、処理は、特に、ＲｅＬＵ、漏洩ＲｅＬＵ、シグモイド、及びＴａｎＨを含む群から選択される活性化関数により導出される。

【0106】

均質化後、未処理ノードがまだ存在し得る。「畳み込み＋全結合」ネットワークセクションと「データ準備＋全結合」ネットワークセクションとの両方の出力を結合するために、（１）各ネットワークセクションの出力ベクトルを統合して一意のベクトルを生成しなければならず、（２）図１３Ｄに示されるように、「出力準備」ネットワークセクションを通して一意のベクトルを処理しなければならない。「出力準備」ネットワークセクションは、活性化関数がＲｅＬＵ、漏洩ＲｅＬＵ、シグモイド、及びＴａｎＨ等を含む群から選択されたものである全結合層の連続からなることができる。これらの全結合層の数及びサイズは所望の出力に基づくことができる。例えば、出力が、事例（１）～（８）の場合に可能であるように一意である場合、最後の全結合層は、視覚機器が、入力として与えられた顔の画像に適合する確率（０～１の実数）を表す１つのノードからなり得る。そのような場合、確率は、（１）所望の出力が（一致）二進値である場合、閾値として（例えば、閾値＝０．５）定義することができ、又は所望の出力が（一致）スコアである場合、予め定義されるスコア付け範囲に合うようにスケーリングする（例えば、スコアが０～１０の場合、確率は１０で乗算される）ことができる。

【0107】

図１３Ｅに示されるように、出力は２つ以上のノードであり得る。事例（１）～事例（８）で可能なように、出力が複数であるが、各出力が同じ（且つ一意の）視覚機器に関わる場合、各出力値が特定の基準にリンクされた一致スコアであるとき）、スコア付けの基準と同数のノードが最後の全結合層に存在し得、各ノードは、視覚機器が、基準ｉに関して、入力として与えられた顔の画像に適合する確率（０～１の実数）を表す。次に、所望の出力が（一致）スコアである場合（例えば、スコアが１～１０の場合、確率は１０で乗算される）、確率は、予め定義されたスコア付け範囲に合うようにスケーリングし得る。事例（９）～事例（１２）で可能であり、図１３Ｆに示されるように、出力が複数であるが、各出力が幾つかの視覚機器に関わり得る場合、スコア付けの基準の数をスコア付けする視覚機器の数で乗算した数のノードが最後の全結合層に存在し得、各ノードは、視覚機器が、基準ｉに関して、入力として与えられた顔の画像に適合する確率（０～１の実数）を表す。そのような場合、確率は、（１）所望の出力が（一致）二進値である場合、閾値として（例えば、閾値＝０．５）定義することができ、又は（２）所望の出力が（一致）スコアである場合、予め定義されるスコア付け範囲に合うようにスケーリングする（例えば、スコアが０～１０の場合、確率は１０で乗算される）ことができる。

【0108】

事例（１）に関して、入力として顔の画像及び視覚機器の画像の処理済みの特徴のみがあるため、上述したものと同様に少なくとも１つの「データ準備＋全結合」ニューラルネットワークセクションが存在し得、「データ準備＋全結合」ニューラルネットワークセクションの出力は、上述したように処理されて、所望の出力に達し得る。

【0109】

事例（４）に関して、入力として顔の画像及び視覚機器の画像の両方があるため、各画像に１つずつ、少なくとも２つの「畳み込み＋全結合」ニューラルネットワークセクションが存在し得、２つのネットワークセクションの出力は、上述したのと同様に結合されて、所望の出力に達することができる。

【0110】

事例（９）（図１１Ｋ）及び事例（１０）（図１１Ｍ）の例示的なベクトル実施形態に関して、入力として顔の画像しかないため、少なくとも１つの「畳み込み＋全結合」ニューラルネットワークセクションがあり得る。

【0111】

事例（１０）（図１１Ｎ）及び事例（１２）（図１１Ｒ）の例示的な座標ベースの実施形態に関して、視覚的測定と共に入力として顔の画像があるため、少なくとも１つの「畳み込み＋全結合」ニューラルネットワークセクションがあり得、全結合層は埋め込みを含む。

【0112】

図１４は、トレーニングデータを使用してニューラルネットワークをトレーニングするトレーニングプロセス４３５の実施態様の非限定的な例である。上述したように、トレーニングデータは、例えば、有線又は無線接続を介して接続されたトレーニングデータベースを含む１つ又は複数のソースからの複数のラベル付き入力画像又はデータを含むことができる。

【0113】

プロセス４３５の動作１４８０において、ニューラルネットワークの係数の初期推測が生成される。例えば、初期推測は、収集されているデータ及びデータ内の関連するインジケータの事前知識に基づくことができる。さらに、初期推測は、ＬｅＣｕｎの初期化、Ｘａｖｉｅｒの初期化、及びＫａｉｍｉｎｇの初期化の１つに基づくことができる。

【0114】

プロセス４３５の動作１４８１は、ニューラルネットワークをトレーニングする最適化法の非限定的な例を提供する。プロセス４３５の動作１４８１において、ラベル付きデータ（すなわち、グラウンドトゥルース）とニューラルネットワークの現在反復において適用されたニューラルネットワークの出力データとの間の差分の尺度（例えば、距離尺度）を表す誤差が計算される（例えば、損失関数又はコスト関数を使用して）。誤差は、任意の既知のコスト関数又はトレーニングデータ間の距離尺度を使用して計算することができる。さらに、特定の実施態様では、誤差／損失関数は、ヒンジ損失及び交差エントロピー損失の１つ又は複数を使用して計算することができる。一例では、損失関数は、ニューラルネットワークの出力（Ｓ_ＮＮ）とラベル付きグラウンドトゥルースデータ（Ｓ_ＡＧＴ）との間の平均二乗誤差、すなわち、

【数1】

として定義することができ、
式中、ｎはトレーニング物体の数である。この損失は、特に確率的勾配降下法を含む最適化法を使用して最小化することができる。

【0115】

さらに、損失関数は正則化手法と組み合わせて、ネットワークがトレーニングデータに表される特定のインスタンスに過剰適合するのを阻止することができる。正則化は、機械学習問題で過剰適合を阻止するのに役立つことができる。トレーニングが長すぎる場合、モデルが十分な表現力を有すると仮定すると、ネットワークは、過剰適合と呼ばれる、そのデータセットに特有のノイズを学習することになる。過剰適合の場合、ニューラルネットワークは不良一般化になり、ノイズがデータセット間で変動するため、分散が大きくなる。バイアス及び分散の和が最小であるとき、最小総誤差が生じる。したがって、可能な限り単純な方法でデータを説明して、トレーニングされたネットワークが、トレーニングデータにおけるノイズに特定の解ではなく、一般解を表す尤度を最大化する極小に達することが望ましい。この目標は、例えば、重み正則化、ラッソ正則化、リッジ正則化、又は弾性ネット正則化を早期に停止することにより達成することができる。

【0116】

特定の実施態様では、ニューラルネットワークはバックプロパゲーションを使用してトレーニングされる。バックプロパゲーションは、ニューラルネットワークのトレーニングに使用することができ、勾配降下最適化法と併せて使用される。フォワードパス中、アルゴリズムは、現在のパラメータΘに基づいてネットワークの予測を計算する。次に、これらの予測は損失関数に入力され、損失関数により、対応するグラウンドトゥルースラベル（すなわち、ラベル付きデータ）と比較される。バックワードパス中、モデルは、現在のパラメータに関する損失関数の勾配を計算し、その後、パラメータは、損失が最小化される方向において予め定義されたサイズのステップサイズをとることにより更新される（例えば、Ｎｅｓｔｅｒｏｖ運動量法及び種々の適応法のような加速法では、より素早く収束して損失関数を最適化するステップサイズを選択することができる）。

【0117】

バックプロパゲーションが実行される最適化法は、勾配降下、バッチ勾配降下、確率的勾配降下、及びミニバッチ確率的勾配降下の１つ又は複数を使用することができる。さらに、最適化法は、例えば、Ｎｅｓｔｅｒｏｖ運動量技法又はＡｄａｇｒａｄ劣勾配法、Ａｄａｇｒａｄ法のＡｄａｄｅｌｔａ又はＲＭＳＰｒｏｐパラメータ更新変形、及びＡｄａｍ適応最適化技法等の適応法を含め、深層ネットワークにおける確率的勾配降下の収束速度を速める１つ又は複数の運動量更新技法を最適化手法において使用して加速することができる。最適化法は、ヤコビ行列を更新ステップに組み込むことにより二次法を適用することもできる。

【0118】

フォワードパス及びバックワードパスは、ネットワークの各層を通して増分的に実行することができる。フォワードパスにおいて、実行は、入力を第１の層に供給することにより開始され、それにより、後続層の入力活性化を生み出す。このプロセスは、最後の層における損失関数に達するまで繰り返される。バックワードパス中、最後の層は、それ自体の学習可能なパラメータ（もしあれば）及びそれ自体の入力に対する勾配を計算し、この勾配は、前層の上流派生物として機能する。このプロセスは、入力層に達するまで繰り返される。

【0119】

図１４に示される非限定的な例に戻ると、ネットワークの変化の関数を計算することができ（例えば、誤差勾配）、この誤差変化を使用して、ニューラルネットワークの重み／係数の続く変化の方向及びステップサイズを選択することができるため、プロセス４３５の動作１４８２は誤差変化を特定する。このようにして誤差勾配を計算することは、勾配降下最適化法の特定の実施と一貫する。特定の他の実施態様では、当業者には理解されるように、この動作は省略することができ、且つ／又は別の最適化アルゴリズム（例えば、模擬アニーリング遺伝アルゴリズムのような非勾配降下最適化アルゴリズム）に従った別の動作で置換することができる。

【0120】

プロセス４３５の動作１４８３において、ニューラルネットワークの新しい組の係数が決定される。例えば、重み／係数は、勾配降下最適化法又は過剰緩和加速法でのように、動作１４８２において計算された変化を使用して更新することができる。

【0121】

プロセス４３５の動作１４８４において、新しい誤差値が、ニューラルネットワークの更新された重み／係数を使用して計算される。

【0122】

プロセス４３５の動作１４８５において、予め定義された停止基準を使用して、ネットワークのトレーニングが完了したか否かを判断する。例えば、予め定義される停止基準は、新しい誤差及び／又は実行された総反復回数が予め定義された閾値を超えるか否かを評価することができる。例えば、停止基準は、新しい誤差が予め定義された閾値を下回る場合又は最大反復回数に達した場合、満たすことができる。停止基準が満たされない場合、プロセス４３５において実行されるトレーニングプロセスは、動作１４８２に戻り、新しい重み及び係数を使用して動作１４８２を繰り返すことにより反復ループの開始に戻って継続する（反復ループは動作１４８２、１４８３、１４８４、及び１４８５を含む）。停止基準が満たされる場合、プロセス４３５で実行されるトレーニングプロセスは完了する。

【0123】

図１５Ａは、プロセス４３５の実施態様の流れ図を示す。図１５Ａは、例えば、図１１Ａ～図１１Ｅに示されるような全結合層を含むフィードフォワード人工ニューラルネットワーク（ＡＮＮ）における任意のタイプの層に対して一般的である。本開示のＡＮＮは、畳み込み、プーリング、バッチ正則化、及び活性化の画像処理ニューラルネットワークが先行する全結合層を含むことができ、当業者には理解されるように、図１５Ａ及び図１５Ｂの組合せである流れ図を生成する。図１５Ａに示されるプロセス４３５の実施は、本開示のＡＮＮを本開示の各トレーニングデータに適用することにも対応する。

【0124】

動作１５８６において、ニューロン（すなわちノード）間の接続に対応する重み／係数が、処理済み入力画像データに対応する各入力に適用される。

【0125】

動作１５８７において、重み付き入力が合算される。次層の所与のニューロンに接続する非ゼロの重み／係数のみが、前層で表される処理済み入力画像データにおいて地域局在化する場合、動作１５８６と動作１５８７との組合せは基本的に、畳み込み動作の実行と同一である。

【0126】

動作１５８８において、各閾値が各ニューロンの加重和に適用される。

【0127】

プロセス１５８９において、重み付けステップ、合算ステップ、及び閾値処理ステップが各後続層に対して繰り替えされる。

【0128】

図１５Ｂは、図１１Ｃ～図１１Ｅで論考されたように、画像準備ステップ中、畳み込みニューラルネットワークが適用されて、本開示のＡＮＮの適用に向けて入力画像を準備する、プロセス４３５の別の実施態様の流れ図を示す。したがって、図１５Ｂに示されるプロセス４３５の実施は、畳み込みニューラルネットワークの非限定的な実施態様を使用した隠れ層における入力画像データへの動作に対応する。

【0129】

動作１５９０において、畳み込み層の計算が、上述したように、当業者による畳み込み層の理解に従って実行される。

【0130】

動作１５９１において、畳み込みに続き、当業者には理解されるように、バッチ正則化を実行して、前層の出力における変動を制御することができる。

【0131】

動作１５９２において、バッチ正則化に続き、活性化の上記説明に従って且つ当業者による活性化の理解に従って活性化が実行される。一例では、活性化関数は、上述したように、正規化活性化関数又は例えばＲｅＬＵである。

【0132】

別の実施態様では、動作１５９２のＲｅＬＵ層は、動作１５９１のバッチ正則化層に先立って実行し得る。

【0133】

動作１５９３において、バッチ正則化及び活性化に続く畳み込み層からの出力は、プーリング層の上記説明に従って且つ当業者のプーリング層の理解に従って実行されるプーリング層への入力である。

【0134】

動作１５９４において、畳み込み層、プーリング層、バッチ正則化層、及びＲｅＬＵ層のステップを予め定義された数の層に対して全体的又は部分的に繰り返すことができる。上記層に続き（又は上記層と混合して）、ＲｅＬＵ層からの出力は、図９ＡのＡＮＮ層に関して提供された説明に従って実行される予め定義された数のＡＮＮ層に供給することができる。最後の出力は、先に説明したように、処理済みの入力画像特性である。

【0135】

畳み込みニューラルネットワークアーキテクチャに関して、一般に畳み込み層は入力層の近くに配置され、一方、高レベル推論を実行する全結合層は、損失関数に向かってアーキテクチャの更に先に配置される。プーリング層は、畳み込み後に挿入され、フィルタの空間範囲の低減、ひいては学習可能なパラメータ量の低減を提供することができる。バッチ正則化層は、外れ値への勾配の乱れを統制し、学習プロセスを加速化させる。活性化層も種々の層に組み込まれて、非線形性を導入し、ネットワークが複雑な予測関係を学習できるようにする。活性化関数は、飽和活性化関数（例えば、シグモイド若しくは双曲正接活性化関数）又は正規化活性化関数（例えば、上述したＲｅＬＵ）であることができる。

【0136】

図１６は、本開示に記載等のＡＮＮにおける層間の相互接続の一例を示す。ＡＮＮは全結合及び図１５Ｂに鑑みて畳み込み、プーリング、バッチ正則化、及び活性化層を含むことができ、これらについては全て上述及び後述する。実施形態では、畳み込みニューラルネットワーク層はＡＮＮ内に埋め込むことができる。代替的には、畳み込みニューラルネットワークは、ＡＮＮの前に配置することができ、畳み込みニューラルネットワークの出力層は、ＡＮＮの入力層を部分的に定義する。ＡＮＮに対する畳み込みニューラルネットワークの配置は、畳み込みニューラルネットワークが部分的に、ＡＮＮの入力層に処理済み入力画像を提供するのと同程度、重要である。

【0137】

なお図１６を参照すると、図１６は、Ｎ個の入力、Ｋ個の隠れ層、及び３つの出力を有する一般ＡＮＮの一例を示す。各層はノード（ニューロンとも呼ばれる）で構成され、各ノードは、入力の加重和を実行し、加重和の結果を閾値と比較して、出力を生成する。ＡＮＮは、閾値、結合重み、又はノード数及び／又はノードの接続等のアーキテクチャの詳細を変えることによりクラスのメンバが得られる関数のクラスを構成する。ＡＮＮにおけるノードはニューロン（又はニューロンノード）と呼ぶことができ、ニューロンは、ＡＮＮシステムの異なる層間に相互接続を有することができる。最も単純なＡＮＮは３層を有し、オートエンコーダと呼ばれる。本開示のＣＮＮは、４層以上のニューロンを有することができ、入力ニューロンと同数の出力ニューロンを有することができ：

【数2】

式中、Ｎは、処理済み入力画像データにおけるデータエントリ数である。シナプス（すなわち、ニューロン間の接続）は、計算においてデータを操作する「重み」（「係数」又は「重み係数」とも同義で呼ばれる）と呼ばれる値を記憶する。ＡＮＮの出力は３つのタイプのパラメータに依存する：（ｉ）ニューロンの異なる層間の相互接続パターン、（ｉｉ）相互接続の重みを更新する学習プロセス、及び（ｉｉｉ）ニューロンの加重和をその出力活性化に変換する活性化関数。

【0138】

数学的には、ニューロンのネットワーク関数ｍ（ｘ）は、他の関数の合成として更に定義することができる他の関数ｎ_ｉ（ｘ）の合成として定義される。これは、ネットワーク構造として好都合に表現することができ、矢印は、図１６に示されるように、変数間の従属性を示す。例えば、ＡＮＮは非線形加重和：
ｍ（ｘ）＝Ｋ（Σ_ｉｗ_ｉｎ_ｉ（ｘ））
を使用することができ、式中、Ｋ（一般に活性化関数と呼ばれる）は、双曲正接等の何らかの予め定義される関数である。

【0139】

図１６では、ニューロン（すなわちノード）は閾値関数の周囲の円で示されている。図１６に示される非限定的な例では、入力は、線形関数の周囲の円として示され、矢印はニューロン間の有向通信を示す。特定の実施態様では、ＡＮＮはフィードフォワードネットワークである。

【0140】

本開示のＡＮＮは、関数Ｆのクラス内をサーチし、１組の観測を使用して学習して、何らかの最適な意味（例えば、上述したプロセス４３５の動作１４８５で使用される停止基準を満たす）で特定のタスクを解くｍ＊∈Ｆを見つけることにより、特定のタスクを達成するように動作する。例えば、特定の実施態様では、これは、最適解ｍ＊について、Ｃ（ｍ＊）≦Ｃ（ｍ）∀ｍ∈Ｆであるようなコスト関数Ｃ：Ｆ→ｍを定義することにより達成することができる（すなわち、解は、最適解の費用未満の費用を有さない）。コスト関数Ｃは、特定の解が解くべき問題への最適解からどれくらい離れているかの尺度である（例えば、誤差）。学習アルゴリズムは、解空間を繰り返しサーチして、可能な限り最小の費用を有する関数を見つける。特定の実施態様では、費用はデータのサンプル（すなわち、トレーニングデータ）にわたり最小化される。

【0141】

図１７をこれより参照すると、図１７は、本開示の例示的な実施形態によるＭＬ－ＶＥＳＴのハードウェア説明である。

【0142】

図１７では、ＭＬ－ＶＥＳＴは、上述したプロセスを実行するＣＰＵ１７６０を含む。ＭＬ－ＶＥＳＴは、汎用コンピュータ又は特定の専用機であり得る。一実施形態では、ＭＬ－ＶＥＳＴは、プロセッサ１７６０が視覚機器選択（特に先の開示を参照して論考したプロセスの何れか）を実行するようにプログラムされる場合、専用機になる。

【0143】

代替又は追加として、当業者が認識するように、ＣＰＵ１７６０は、ＦＰＧＡ、ＡＳＩＣ、ＰＬＤで又は離散論理回路を使用して実施し得る。さらに、ＣＰＵ１７６０は、平行して協働作業して、上述した本発明のプロセスの命令を実行する複数のプロセスとして実施し得る。

【0144】

ＭＬ－ＶＥＳＴは、ネットワーク１７７５とインターフェースする、ＩｎｔｅｌＥｔｈｅｒｎｅｔＰＲＯネットワークインターフェースカード等のネットワークコントローラ１７６３も含む。理解することができるように、ネットワーク１７７５は、インターネット等の公開ネットワークであってもよく、又はＬＡＮ若しくはＷＡＮネットワーク等の私設ネットワークであってもよく、又はそれらの任意の組合せであってもよく、ＰＳＴＮ又はＩＳＤＮサブネットワークを含むこともできる。ネットワーク１７７５は、Ｅｔｈｅｒｎｅｔネットワーク等の有線であってもよく、又はＥＤＧＥ、３Ｇ、及び４Ｇ無線セルラシステムを含むセルラネットワーク等の無線であってもよい。無線ネットワークは、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ、又は既知の任意の他の無線形態の通信であることができる。

【0145】

トレーニングプロセス４３５中、入力トレーニング画像は、ネットワーク１７７５を介してＭＬ－ＶＥＳＴに無線接続され、又は記憶装置コントローラ１７７２を通したＭＬ－ＶＥＳＴとのハードワイヤード接続を介して接続されたトレーニングデータベース１７３６から取得することができる。実施形態では、トレーニングデータベース１７３６は視覚機器データベースである。

【0146】

ＭＬ－ＶＥＳＴは、モニタ等のディスプレイ１７６５とインターフェースする、グラフィックスカード又はグラフィックスアダプタ等のディスプレイコントローラ１７６４を更に含む。汎用Ｉ／Ｏインターフェース１７６６は、キーボード及び／又はマウス１７６７及びディスプレイ１７６５上又はディスプレイ１７６５とは別個のタッチスクリーンパネル１７６８とインターフェースする。汎用Ｉ／Ｏインターフェースは、プリンタ及びスキャナを含む多種多様な周辺機器１７６９にも接続する。

【0147】

サウンドコントローラ１７７０もＭＬ－ＶＥＳＴに提供されて、スピーカ／マイクロホン１７７１とインターフェースし、それによりサウンド及び／又は音楽を提供する。

【0148】

汎用記憶装置コントローラ１７７２は記憶装置媒体ディスク１７６２を通信バス１７７３に接続し、通信バス１７７３は、ＭＬ－ＶＥＳＴの全ての構成要素を相互接続するＩＳＡ、ＥＩＳＡ、ＶＥＳＡ等であり得る。ディスプレイ１７６５、キーボード及び／又はマウス１７６７、及びディスプレイコントローラ１７６４、記憶装置コントローラ１７７２、ネットワークコントローラ１７６３、サウンドコントローラ１７７０、及び汎用Ｉ／Ｏインターフェース１７６６の一般的な特徴及び機能の説明は、これらの特徴は既知であるため、簡潔にするために本明細書では省かれる。

【0149】

本開示に記載の例示的な回路要素は、他の要素で置換し得、本明細書に提供される例とは異なる構造を有してもよい。さらに、本明細書に記載の特徴を実行するように構成された回路は、複数の回路ユニット（例えばチップ）で実施してもよく、又は特徴は１つのチップセット上の回路に組み合わせてもよい。

【0150】

本明細書に記載の機能及び特徴は、システムの種々の分散構成要素により実行してもよい。例えば、１つ又は複数のプロセッサがこれらのシステム機能を実行してもよく、プロセッサは、ネットワークで通信する複数の構成要素にわたり分散する。分散構成要素は、種々の人間インターフェース及び通信デバイス（例えば、ディスプレイモニタ、スマートフォン、タブレット、個人情報端末（ＰＤＡ））に加えて、処理を共有し得る１つ又は複数のクライアント機及びサーバ機を含み得る。ネットワークは、ＬＡＮ若しくはＷＡＮ等の私設ネットワークであってもよく、又はインターネット等の公開ネットワークであってもよい。システムへの入力は、直接ユーザ入力を介して受信されてもよく、リアルタイムで又はバッチプロセスとしてリモートで受信されてもよい。さらに、幾つかの実施態様は、記載されたものと同一ではないモジュール又はハードウェアで実行してもよい。したがって、他の実施態様も請求項に記載され得る範囲内にある。

【0151】

明らかなことに、上記教示に鑑みて多くの変更及び変更が可能である。したがって、添付の特許請求の範囲内で、本明細書に特に説明した以外の方法で本発明を実施してもよいことを理解されたい。

【0152】

本開示の実施形態は、以下の説明においても記載することができる。

【0153】

（１）適合した視覚機器を決定する装置であって、処理回路を備え、処理回路は、少なくとも１つの入力を受信することであって、少なくとも１つの入力は人の顔の画像を含む、受信することと、ニューラルネットワークを少なくとも１つの入力に適用することであって、ニューラルネットワークは、少なくとも１つの入力の少なくとも１つの適合尺度を生成する、適用することと、ニューラルネットワークによって生成された少なくとも１つの適合尺度に基づいて適合した視覚機器を決定することとを行うように構成され、少なくとも１つの適合尺度は、人の顔と視覚機器との間の相関的同期に対応する、装置。

【0154】

（２）少なくとも１つの入力は、視覚機器の画像を含む、（１）に記載の装置。

【0155】

（３）少なくとも１つの入力は、人の顔の画像を含み、人は視覚機器を装用している、（１）又は（２）に記載の装置。

【0156】

（４）少なくとも１つの入力は、処理済みの少なくとも１つの入力であり、処理済みの少なくとも１つの入力は、人の顔の画像から特定される形態学的特徴を含む、（１）～（３）の何れか１つに記載の装置。

【0157】

（５）少なくとも１つの入力は、処理済みの少なくとも１つの入力であり、処理済みの少なくとも１つの入力は、視覚機器の画像から特定される視覚機器属性を含む、（１）～（４）の何れか１つに記載の装置。

【0158】

（６）少なくとも１つの入力は人の視覚的測定を含み、視覚的測定は人の視力を示す、（１）～（５）の何れか１つに記載の装置。

【0159】

（７）処理回路は、トレーニングデータベースでニューラルネットワークをトレーニングするように更に構成され、トレーニングデータベースはトレーニング画像のコーパスを含み、トレーニング画像のコーパスは、人々の顔の画像及び視覚機器の画像を含み、人々の顔の画像のうちの画像と視覚機器の画像のうちの画像との各組合せは、トレーニングデータベースにおいて、ラベラーのグループにより割り当てられた少なくとも１つのトレーニング適合尺度と関連付けられる、（１）～（６）の何れか１つに記載の装置。

【0160】

（８）トレーニング画像のコーパスは、視覚機器を装用している人々の画像を含み、視覚機器を装用している人々の画像の各画像は、トレーニングデータベースにおいて、ラベラーのグループにより割り当てられた少なくとも１つのトレーニング適合尺度と関連付けられる、（１）～（７）の何れか１つに記載の装置。

【0161】

（９）ニューラルネットワークは暗黙的入力を含み、暗黙的入力は予め定義される１組の視覚機器であり、ニューラルネットワークにより生成される少なくとも１つの適合尺度は、少なくとも１つの入力と予め定義された１組の視覚機器のそれぞれ１つとの少なくとも１つの一致スコアである、（１）～（８）の何れか１つに記載の装置。

【0162】

（１０）適合した視覚機器を決定するために、処理回路は、最大である少なくとも１つの一致スコアを選択するように更に構成され、最大の少なくとも１つの一致スコアは、少なくとも１つの入力の人の顔に最良に一致する予め定義された１組の視覚機器の１つである、（１）～（９）の何れか１つに記載の装置。

【0163】

（１１）最大の少なくとも１つの一致スコアは、少なくとも１つの一致スコアを含むベクトルから選択され、ベクトルにおける少なくとも１つの一致スコアのそれぞれは、予め定義された１組の視覚機器の１つに対応し、少なくとも１つの一致スコアは、ラベラーのグループのうちの、同じ値の少なくとも１つの一致スコアが割り当てられたラベラーの割合に基づく、（１）～（１０）の何れか１つに記載の装置。

【0164】

（１２）適合した視覚機器を決定するために、処理回路は、少なくとも１つの入力に対応する座標を計算することと、予め定義された１組の視覚機器のそれぞれ１つと関連付けられたクラスタの重心を計算することと、座標とクラスタの各重心との間の距離を計算することであって、距離はベクトルにおいてランク付けられる、計算することと、座標とクラスタの各重心との間の距離を最小にするクラスタのうちのクラスタを選択することとを行うように更に構成される、（１）～（１１）の何れか１つに記載の装置。

【0165】

（１３）予め定義された１組の視覚機器のそれぞれ１つと関連付けられたクラスタは、ニューラルネットワークのトレーニング中、少なくとも１つのトレーニング一致スコアを最大にする少なくとも１つのトレーニング入力に対応する一致座標を含み、少なくとも１つのトレーニング入力は、人の顔の形態学的特徴を含む、（１）～（１２）の何れか１つに記載の装置。

【0166】

（１４）適合した視覚機器を決定する方法であって、処理回路により少なくとも１つの入力を受信することであって、少なくとも１つの入力は人の顔の画像を含む、受信することと、処理回路によりニューラルネットワークを少なくとも１つの入力に適用することであって、ニューラルネットワークは、少なくとも１つの入力の少なくとも１つの適合尺度を生成する、適用することと、処理回路により、ニューラルネットワークによって生成された少なくとも１つの適合尺度に基づいて適合した視覚機器を決定することとを含み、少なくとも１つの適合尺度は、人の顔と視覚機器との間の相関的同期に対応する、方法。

【0167】

（１５）コンピュータ可読命令を記憶する非一時的コンピュータ可読記憶媒体であって、コンピュータ可読命令は、コンピュータにより実行されると、コンピュータに、適合した視覚機器を決定する方法を実行させ、方法は、少なくとも１つの入力を受信することであって、少なくとも１つの入力は人の顔の画像を含む、受信することと、ニューラルネットワークを少なくとも１つの入力に適用することであって、ニューラルネットワークは、少なくとも１つの入力の少なくとも１つの適合尺度を生成する、適用することと、ニューラルネットワークによって生成された少なくとも１つの適合尺度に基づいて適合した視覚機器を決定することとを含み、少なくとも１つの適合尺度は、人の顔と視覚機器との間の相関的同期に対応する、非一時的コンピュータ可読記憶媒体。

【0168】

（１６）少なくとも１つのトレーニング適合尺度は、人の顔との視覚機器の適合の部分評価を含む、（１）～（１３）の何れか１つに記載の装置。

【0169】

（１７）ラベラーのグループは眼科医を含む、（１）～（１３）及び（１６）の何れか１つに記載の装置。

【0170】

（１８）適合した視覚機器を決定するために、処理回路は、少なくとも１つの適合尺度を所定の閾値と比較するように更に構成される、（１）～（１３）、（１６）、及び（１７）の何れか１つに記載の装置。

【0171】

（１９）少なくとも１つの入力は、視覚機器の画像を含む、（１４）に記載の方法。

【0172】

（２０）少なくとも１つの入力は、人の顔の画像を含み、人は視覚機器を装用している、（１４）又は（１９）の何れか１つに記載の方法。

【0173】

（２１）少なくとも１つの入力は、処理済みの少なくとも１つの入力であり、処理済みの少なくとも１つの入力は、人の顔の画像から特定される形態学的特徴を含む、（１４）、（１９）、及び（２０）の何れか１つに記載の方法。

【0174】

（２２）少なくとも１つの入力は、処理済みの少なくとも１つの入力であり、処理済みの少なくとも１つの入力は、視覚機器の画像から特定される視覚機器属性を含む、（１４）及び（１９）～（２１）の何れか１つに記載の方法。

【0175】

（２３）少なくとも１つの入力は人の視覚的測定を含み、視覚的測定は人の視力を示す、（１４）及び（１９）～（２２）の何れか１つに記載の方法。

【0176】

（２４）処理回路により、トレーニングデータベースでニューラルネットワークをトレーニングすることを更に含み、トレーニングデータベースはトレーニング画像のコーパスを含み、トレーニング画像のコーパスは、人々の顔の画像及び視覚機器の画像を含み、人々の顔の画像のうちの画像と視覚機器の画像のうちの画像との各組合せは、トレーニングデータベースにおいて、ラベラーのグループにより割り当てられた少なくとも１つのトレーニング適合尺度と関連付けられる、（１４）及び（１９）～（２３）の何れか１つに記載の方法。

【0177】

（２５）トレーニング画像のコーパスは、視覚機器を装用している人々の画像を含み、視覚機器を装用している人々の画像の各画像は、トレーニングデータベースにおいて、ラベラーのグループにより割り当てられた少なくとも１つのトレーニング適合尺度と関連付けられる、（１４）及び（１９）～（２４）の何れか１つに記載の方法。

【0178】

（２６）ニューラルネットワークは暗黙的入力を含み、暗黙的入力は予め定義される１組の視覚機器であり、ニューラルネットワークにより生成される少なくとも１つの適合尺度は、少なくとも１つの入力と予め定義された１組の視覚機器のそれぞれ１つとの少なくとも１つの一致スコアである、（１４）及び（１９）～（２５）の何れか１つに記載の方法。

【0179】

（２７）適合した視覚機器を決定するために、処理回路により、最大である少なくとも１つの一致スコアを選択することを更に含み、最大の少なくとも１つの一致スコアは、少なくとも１つの入力の人の顔に最良に一致する予め定義された１組の視覚機器の１つである、（１４）及び（１９）～（２６）の何れか１つに記載の方法。

【0180】

（２８）最大の少なくとも１つの一致スコアは、少なくとも１つの一致スコアを含むベクトルから選択され、ベクトルにおける少なくとも１つの一致スコアのそれぞれは、予め定義された１組の視覚機器の１つに対応し、少なくとも１つの一致スコアは、ラベラーのグループのうちの、同じ値の少なくとも１つの一致スコアが割り当てられたラベラーの割合に基づく、（１４）及び（１９）～（２７）の何れか１つに記載の方法。

【0181】

（２９）適合した視覚機器を決定するために、処理回路により、少なくとも１つの入力に対応する座標を計算することと、処理回路により、予め定義された１組の視覚機器のそれぞれ１つと関連付けられたクラスタの重心を計算することと、処理回路により、座標とクラスタの各重心との間の距離を計算することであって、距離はベクトルにおいてランク付けられる、計算することと、処理回路により、座標とクラスタの各重心との間の距離を最小にするクラスタのうちのクラスタを選択することとを更に含む（１４）及び（１９）～（２８）の何れか１つに記載の方法。

【0182】

（３０）予め定義された１組の視覚機器のそれぞれ１つと関連付けられたクラスタは、ニューラルネットワークのトレーニング中、少なくとも１つのトレーニング一致スコアを最大にする少なくとも１つのトレーニング入力に対応する一致座標を含み、少なくとも１つのトレーニング入力は、人の顔の形態学的特徴を含む、（１４）及び（１９）～（２９）の何れか１つに記載の方法。

【0183】

（３１）少なくとも１つのトレーニング適合尺度は、人の顔との視覚機器の適合の部分評価を含む、（１４）及び（１９）～（３０）の何れか１つに記載の方法。

【0184】

（３２）ラベラーのグループは眼科医を含む、（１４）及び（１９）～（３１）の何れか１つに記載の方法。

【0185】

（３３）適合した視覚機器を決定するために、処理回路により、少なくとも１つの適合尺度を所定の閾値と比較することを更に含む、（１４）及び（１９）～（３２）の何れか１つに記載の方法。

【0186】

（３４）少なくとも１つの入力は、視覚機器の画像を含む、（１５）に記載の方法。

【0187】

（３５）少なくとも１つの入力は、人の顔の画像を含み、人は視覚機器を装用している、（１５）又は（３４）に記載の方法。

【0188】

（３６）少なくとも１つの入力は、処理済みの少なくとも１つの入力であり、処理済みの少なくとも１つの入力は、人の顔の画像から特定される形態学的特徴を含む、（１５）、（３４）、及び（３５）の何れか１つに記載の方法。

【0189】

（３７）少なくとも１つの入力は、処理済みの少なくとも１つの入力であり、処理済みの少なくとも１つの入力は、視覚機器の画像から特定される視覚機器属性を含む、（１５）及び（３４）～（３６）の何れか１つに記載の方法。

【0190】

（３８）少なくとも１つの入力は人の視覚的測定を含み、視覚的測定は人の視力を示す、（１５）及び（３４）～（３７）の何れか１つに記載の方法。

【0191】

（３９）トレーニングデータベースでニューラルネットワークをトレーニングすることを更に含み、トレーニングデータベースはトレーニング画像のコーパスを含み、トレーニング画像のコーパスは、人々の顔の画像及び視覚機器の画像を含み、人々の顔の画像のうちの画像と視覚機器の画像のうちの画像との各組合せは、トレーニングデータベースにおいて、ラベラーのグループにより割り当てられた少なくとも１つのトレーニング適合尺度と関連付けられる、（１５）及び（３４）～（３８）の何れか１つに記載の方法。

【0192】

（４０）トレーニング画像のコーパスは、視覚機器を装用している人々の画像を含み、視覚機器を装用している人々の画像の各画像は、トレーニングデータベースにおいて、ラベラーのグループにより割り当てられた少なくとも１つのトレーニング適合尺度と関連付けられる、（１５）及び（３４）～（３９）の何れか１つに記載の方法。

【0193】

（４１）ニューラルネットワークは暗黙的入力を含み、暗黙的入力は予め定義される１組の視覚機器であり、ニューラルネットワークにより生成される少なくとも１つの適合尺度は、少なくとも１つの入力と予め定義された１組の視覚機器のそれぞれ１つとの少なくとも１つの一致スコアである、（１５）及び（３４）～（４０）の何れか１つに記載の方法。

【0194】

（４２）適合した視覚機器を決定するために、最大である少なくとも１つの一致スコアを選択することを更に含み、最大の少なくとも１つの一致スコアは、少なくとも１つの入力の人の顔に最良に一致する予め定義された１組の視覚機器の１つである、（１５）及び（３４）～（４１）の何れか１つに記載の方法。

【0195】

（４３）最大の少なくとも１つの一致スコアは、少なくとも１つの一致スコアを含むベクトルから選択され、ベクトルにおける少なくとも１つの一致スコアのそれぞれは、予め定義された１組の視覚機器の１つに対応し、少なくとも１つの一致スコアは、ラベラーのグループのうちの、同じ値の少なくとも１つの一致スコアが割り当てられたラベラーの割合に基づく、（１５）及び（３４）～（４２）の何れか１つに記載の方法。

【0196】

（４４）適合した視覚機器を決定するために、少なくとも１つの入力に対応する座標を計算することと、予め定義された１組の視覚機器のそれぞれ１つと関連付けられたクラスタの重心を計算することと、座標とクラスタの各重心との間の距離を計算することであって、距離はベクトルにおいてランク付けられる、計算することと、クラスタのうち、座標とクラスタの各重心との間の距離を最小にするクラスタを選択することとを更に含む、（１５）及び（３４）～（４３）の何れか１つに記載の方法。

【0197】

（４５）予め定義された１組の視覚機器のそれぞれ１つと関連付けられたクラスタは、ニューラルネットワークのトレーニング中、少なくとも１つのトレーニング一致スコアを最大にする少なくとも１つのトレーニング入力に対応する一致座標を含み、少なくとも１つのトレーニング入力は、人の顔の形態学的特徴を含む、（１５）及び（３４）～（４４）の何れか１つに記載の方法。

【0198】

（４６）少なくとも１つのトレーニング適合尺度は、人の顔との視覚機器の適合の部分評価を含む、（１５）及び（３４）～（４５）の何れか１つに記載の方法。

【0199】

（４７）ラベラーのグループは眼科医を含む、（１５）及び（３４）～（４６）の何れか１つに記載の方法。

【0200】

（４８）適合した視覚機器を決定するために、少なくとも１つの適合尺度を所定の閾値と比較することを更に含む、（１５）及び（３４）～（４７）の何れか１つに記載の方法。

【0201】

したがって、上記論考は、本発明の単なる例示的な実施形態を開示し記載している。当業者ならば理解するように、本発明は、本発明の趣旨又は基本特性から逸脱せずに他の特定の形態で実施してもよい。したがって、本発明の開示は、本発明の範囲及び他の請求項の限定ではなく例示として意図される。本開示は、本明細書における教示の容易に認識できるあらゆる変形を含め、本発明の趣旨が公共に捧げられないように上述の請求項の用語の範囲を部分的に定義する。

【符号の説明】

【0202】

１００機械学習ベースの視覚機器選択ツール
１０５入力
１１０入力準備プロセス
１１５機械学習適用プロセス
１２０適合尺度
１２５視覚機器選択プロセス

【図1】