(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-09
(45)【発行日】2025-01-20
(54)【発明の名称】機械学習ベースの視覚機器選択の装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20250110BHJP
【FI】
G06T7/00 660A
(21)【出願番号】P 2021565083
(86)(22)【出願日】2020-04-09
(86)【国際出願番号】 EP2020060263
(87)【国際公開番号】W WO2020224915
(87)【国際公開日】2020-11-12
【審査請求日】2023-03-17
(32)【優先日】2019-05-03
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】518007555
【氏名又は名称】エシロール・アンテルナシオナル
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ジュリアン・アンドシュ
(72)【発明者】
【氏名】エステル・ネッテ
【審査官】伊知地 和之
(56)【参考文献】
【文献】米国特許出願公開第2017/0169501(US,A1)
【文献】米国特許第08708494(US,B1)
【文献】特開2003-075785(JP,A)
【文献】中国特許出願公開第107862334(CN,A)
【文献】杉本 昭彦,社員3000人と画像6万枚が深層学習の教師役 似合うメガネを提案する「JINS BRAIN」,日経ビッグデータ 第34号,日本,日経BP社,2016年12月10日,p.12
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
CSDB(日本国特許庁)
(57)【特許請求の範囲】
【請求項1】
適合した視覚機器を決定する装置であって、
処理回路を備え、
前記処理回路は、
少なくとも1つの入力を受信することであって、前記少なくとも1つの入力は人の顔の画像を含む、受信することと、
ニューラルネットワークを前記少なくとも1つの入力に適用することであって、前記ニューラルネットワークは、前記少なくとも1つの入力の少なくとも1つの適合尺度を生成する、適用することと、
前記ニューラルネットワークによって生成された前記少なくとも1つの適合尺度に基づいて前記適合した視覚機器を決定することと、
を行うように構成され、
前記少なくとも1つの適合尺度は、前記人の顔と視覚機器との間の適合を定量化する尺度を提供する相関的同期に対応し、
前記ニューラルネットワークは暗黙的入力を含み、前記暗黙的入力は予め定義される1組の視覚機器であり、前記ニューラルネットワークにより生成される少なくとも1つの適合尺度は、前記少なくとも1つの入力と前記予め定義された1組の視覚機器のそれぞれ1つとの少なくとも1つの一致スコアであり、
前記適合した視覚機器を決定するために、前記処理回路は、
最大である前記少なくとも1つの一致スコアを選択する
ように更に構成され、前記最大の少なくとも1つの一致スコアは、前記少なくとも1つの入力の前記人の顔に最良に一致する前記予め定義された1組の視覚機器の1つであり、
前記最大の少なくとも1つの一致スコアは、前記少なくとも1つの一致スコアを含むベクトルから選択され、前記ベクトルにおける前記少なくとも1つの一致スコアのそれぞれは、前記予め定義された1組の視覚機器の1つに対応し、前記少なくとも1つの一致スコアは、ラベラーのグループのうちの、同じ値の前記少なくとも1つの一致スコアが割り当てられたラベラーの割合に基づく、装置。
【請求項2】
前記少なくとも1つの入力は、視覚機器の画像を含む、請求項1に記載の装置。
【請求項3】
前記少なくとも1つの入力は、前記人の顔の画像を含み、前記人は視覚機器を装用している、請求項1に記載の装置。
【請求項4】
前記少なくとも1つの入力は、処理済みの少なくとも1つの入力であり、前記処理済みの少なくとも1つの入力は、前記人の顔の画像から特定される形態学的特徴を含む、請求項1に記載の装置。
【請求項5】
前記少なくとも1つの入力は、処理済みの少なくとも1つの入力であり、前記処理済みの少なくとも1つの入力は、前記視覚機器の前記画像から特定される視覚機器属性を含む、請求項2に記載の装置。
【請求項6】
前記少なくとも1つの入力は前記人の視覚的測定を含み、前記視覚的測定は前記人の視力を示す、請求項1に記載の装置。
【請求項7】
前記処理回路は、
トレーニングデータベースで前記ニューラルネットワークをトレーニングするように更に構成され、
前記トレーニングデータベースはトレーニング画像のコーパスを含み、前記トレーニング画像のコーパスは、人々の顔の画像及び視覚機器の画像を含み、前記人々の顔の画像のうちの画像と前記視覚機器の画像のうちの画像との各組合せは、前記トレーニングデータベースにおいて、ラベラーのグループにより割り当てられた少なくとも1つのトレーニング適合尺度と関連付けられる、請求項1に記載の装置。
【請求項8】
前記トレーニング画像のコーパスは、視覚機器を装用している人々の画像を含み、前記視覚機器を装用している人々の画像の各画像は、前記トレーニングデータベースにおいて、前記ラベラーのグループにより割り当てられた少なくとも1つのトレーニング適合尺度と関連付けられる、請求項7に記載の装置。
【請求項9】
前記適合した視覚機器を決定するために、前記処理回路は、
前記少なくとも1つの入力に対応する座標を計算することと、
前記予め定義された1組の視覚機器のそれぞれ1つと関連付けられたクラスタの重心を計算することと、
前記座標と前記クラスタの各重心との間の距離を計算することであって、前記距離はベクトルにおいてランク付けられる、計算することと、
前記座標と前記クラスタの各重心との間の距離を最小にする前記クラスタのうちのクラスタを選択することと、
を行うように更に構成される、請求項1に記載の装置。
【請求項10】
前記予め定義された1組の視覚機器のそれぞれ1つと関連付けられたクラスタは、前記ニューラルネットワークのトレーニング中、少なくとも1つのトレーニング一致スコアを最大にする少なくとも1つのトレーニング入力に対応する一致座標を含み、前記少なくとも1つのトレーニング入力は、前記人の顔の形態学的特徴を含む、請求項9に記載の装置。
【請求項11】
適合した視覚機器を決定する方法であって、
処理回路により少なくとも1つの入力を受信することであって、前記少なくとも1つの入力は人の顔の画像を含む、受信することと、
前記処理回路によりニューラルネットワークを前記少なくとも1つの入力に適用することであって、前記ニューラルネットワークは、前記少なくとも1つの入力の少なくとも1つの適合尺度を生成する、適用することと、
前記処理回路により、前記ニューラルネットワークによって生成された前記少なくとも1つの適合尺度に基づいて前記適合した視覚機器を決定することと、
を含み、
前記少なくとも1つの適合尺度は、前記人の顔と視覚機器との間の適合を定量化する尺度を提供する相関的同期に対応し、
前記適合した視覚機器を決定するために、前記処理回路によって、最大
の少なくとも1つの一致スコアを選択し、前記最大の少なくとも1つの一致スコアは、前記少なくとも1つの入力の前記人の顔に最良に一致す
る予め定義された1組の視覚機器の1つであり、
前記ニューラルネットワークは暗黙的入力を含み、前記暗黙的入力は予め定義される1組の視覚機器であり、前記ニューラルネットワークにより生成される少なくとも1つの適合尺度は、前記少なくとも1つの入力と前記予め定義された1組の視覚機器のそれぞれ1つとの少なくとも1つの一致スコアであり、
前記最大の少なくとも1つの一致スコアは、前記少なくとも1つの一致スコアを含むベクトルから選択され、前記ベクトルにおける前記少なくとも1つの一致スコアのそれぞれは、前記予め定義された1組の視覚機器の1つに対応し、前記少なくとも1つの一致スコアは、ラベラーのグループのうちの、同じ値の前記少なくとも1つの一致スコアが割り当てられたラベラーの割合に基づく、方法。
【請求項12】
コンピュータ可読命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記コンピュータ可読命令は、コンピュータにより実行されると、前記コンピュータに、適合した視覚機器を決定する方法を実行させ、前記方法は、
少なくとも1つの入力を受信することであって、前記少なくとも1つの入力は人の顔の画像を含む、受信することと、
ニューラルネットワークを前記少なくとも1つの入力に適用することであって、前記ニューラルネットワークは、前記少なくとも1つの入力の少なくとも1つの適合尺度を生成する、適用することと、
前記ニューラルネットワークによって生成された前記少なくとも1つの適合尺度に基づいて前記適合した視覚機器を決定することと、
を含み、
前記少なくとも1つの適合尺度は、前記人の顔と視覚機器との間の適合を定量化する尺度を提供する相関的同期に対応し、
前記適合した視覚機器を決定するために、最大
の少なくとも1つの一致スコアを選択し、前記最大の少なくとも1つの一致スコアは、前記少なくとも1つの入力の前記人の顔に最良に一致す
る予め定義された1組の視覚機器の1つであり、
前記ニューラルネットワークは暗黙的入力を含み、前記暗黙的入力は予め定義される1組の視覚機器であり、前記ニューラルネットワークにより生成される少なくとも1つの適合尺度は、前記少なくとも1つの入力と前記予め定義された1組の視覚機器のそれぞれ1つとの少なくとも1つの一致スコアであり、
前記最大の少なくとも1つの一致スコアは、前記少なくとも1つの一致スコアを含むベクトルから選択され、前記ベクトルにおける前記少なくとも1つの一致スコアのそれぞれは、前記予め定義された1組の視覚機器の1つに対応し、前記少なくとも1つの一致スコアは、ラベラーのグループのうちの、同じ値の前記少なくとも1つの一致スコアが割り当てられたラベラーの割合に基づく、非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、眼鏡類に関し、特に患者の顔との視覚機器のマッチングに関する。
【背景技術】
【0002】
新しい視覚機器又は眼鏡類の選択中、患者は多くの場合、患者の顔での新しい眼鏡類の美観の判断において自己熟考に任せられる。同時に、患者は、顔での新しい眼鏡類についての自身の意見及び顔への新しい眼鏡類の適合についての第三者(例えば、友人、家族、専門家等)の仮説意見に対処し得る。美的魅力を適切な視覚の眼鏡類必要性と一緒に考慮した眼鏡類選択作業は厄介であることがあり、ユーザ、ユーザの医師、及びユーザの友人が必ず気に入る新しい眼鏡類を自信を持って購入する効率的な方法はない。本発明は、この問題への解決策を提供する。
【0003】
上記「背景」説明は、本開示の状況を概して提示することを目的とする。この背景セクションに記載される範囲の本発明者らの努力及び他の点では出願時に先行技術としての資格がないことがある説明の態様は、明示的にも暗示的にも本発明に対する先行技術として認められない。
【発明の概要】
【課題を解決するための手段】
【0004】
本開示は、適合した視覚機器を決定する装置、方法、及びコンピュータ可読記憶媒体に関する。
【0005】
実施形態によれば、本開示は、適合した視覚機器を決定する装置であって、処理回路を備え、処理回路は、少なくとも1つの入力を受信することであって、少なくとも1つの入力は人の顔の画像を含む、受信することと、ニューラルネットワークを少なくとも1つの入力に適用することであって、ニューラルネットワークは、少なくとも1つの入力の少なくとも1つの適合尺度を生成する、適用することと、ニューラルネットワークによって生成された少なくとも1つの適合尺度に基づいて適合した視覚機器を決定することとを行うように構成され、少なくとも1つの適合尺度は、人の顔と視覚機器との間の相関的同期に対応する、装置に更に関する。
【0006】
実施形態によれば、本開示は、適合した視覚機器を決定する方法であって、処理回路により少なくとも1つの入力を受信することであって、少なくとも1つの入力は人の顔の画像を含む、受信することと、処理回路によりニューラルネットワークを少なくとも1つの入力に適用することであって、ニューラルネットワークは、少なくとも1つの入力の少なくとも1つの適合尺度を生成する、適用することと、処理回路により、ニューラルネットワークによって生成された少なくとも1つの適合尺度に基づいて適合した視覚機器を決定することとを含み、ニューラルネットワークは暗黙的入力を含み、少なくとも1つの適合尺度は、人の顔と視覚機器との間の相関的同期に対応する、方法に更に関する。
【0007】
上記段落は、大まかな紹介として提供されており、以下の特許請求の範囲の限定を意図しない。本明細書に記載された様々な特徴及び利点のより良い理解は、例示的な実施形態及びその付随する図面を説明する以下の詳細な説明を参照することによって得られるであろう。
【0008】
本開示のより完全な理解及びそれに付随する利点の多くは、添付図面と併せて考慮される場合、以下の詳細な説明を参照することによってよりよく理解されるため、容易に得られよう。
【図面の簡単な説明】
【0009】
【
図1】本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツールの実施態様の流れ図である。
【
図2A】本開示の例示的な実施形態による画像入力プロセスの態様の概略図である。
【
図2B】本開示の例示的な実施形態による画像準備プロセスの態様の概略図である。
【
図3】本開示の例示的な実施形態による画像準備プロセスの態様の概略図である。
【
図4】本開示の例示的な実施形態による視覚機器選択ツールのニューラルネットワークのトレーニングプロセスの流れ図の態様である。
【
図5A】本開示の例示的な実施形態によるラベリングプロセスの入力の概略図である。
【
図5B】本開示の例示的な実施形態によるラベリングプロセスの概略図である。
【
図6A】本開示の例示的な実施形態による機械学習ベースの視覚機器選択のトレーニングプロセスへの入力のグラフィックである。
【
図6B】本開示の例示的な実施形態による機械学習ベースの視覚機器選択のトレーニングプロセスへの入力のグラフィックである。
【
図6C】本開示の例示的な実施形態による機械学習の視覚機器選択のトレーニングプロセスへの入力のグラフィックである。
【
図6D】本開示の例示的な実施形態による機械学習の視覚機器選択のトレーニングプロセスへの入力のグラフィックである。
【
図6E】本開示の例示的な実施形態による機械学習の視覚機器選択のトレーニングプロセスへの入力のグラフィックである。
【
図7A】本開示の例示的な実施形態による入力のラベリングを示す概略図である。
【
図7B】本開示の例示的な実施形態による入力のラベリングを示す概略図である。
【
図7C】本開示の例示的な実施形態による入力のラベリングを示す概略図である。
【
図7D】本開示の例示的な実施形態による入力のラベリングを示す概略図である。
【
図8A】本開示の例示的な実施形態による複数のラベリンググループを示す概略図である。
【
図8B】本開示の例示的な実施形態による複数のラベリンググループによる入力のラベリングを示す概略図である。
【
図8C】本開示の例示的な実施形態による複数のラベリンググループによる入力のラベリングを示す概略図である。
【
図8D】本開示の例示的な実施形態による複数のラベリンググループによる入力のラベリングを示す概略図である。
【
図8E】本開示の例示的な実施形態による複数のラベリンググループによる入力のラベリングを示す概略図である。
【
図9A】本開示の例示的な実施形態によるラベリンググループを示す概略図である。
【
図9B】本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツールのトレーニングプロセスへの入力のグラフィックである。
【
図9C】本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツールのトレーニングプロセスへの入力のグラフィックである。
【
図9D】本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツールのトレーニングプロセスへの入力のグラフィックである。
【
図9E】本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツールのトレーニングプロセスへの入力のグラフィックである。
【
図9F】本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツールのトレーニングプロセスへの入力のグラフィックである。
【
図10A】本開示の例示的な実施形態によるラベリンググループによる入力のラベリングを示す概略図である。
【
図10B】本開示の例示的な実施形態によるラベリンググループによる入力のラベリングを示す概略図である。
【
図10C】本開示の例示的な実施形態によるラベリンググループによる入力のラベリングを示す概略図である。
【
図10D】本開示の例示的な実施形態によるラベリンググループによる入力のラベリングを示す概略図である。
【
図11A】本開示の例示的な実施形態による、入力は形態学的特徴及び視覚機器属性である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。
【
図11B】本開示の例示的な実施形態による、入力は形態学的特徴及び視覚機器属性である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。
【
図11C】本開示の例示的な実施形態による、入力は顔画像及び視覚機器属性である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。
【
図11D】本開示の例示的な実施形態による、入力は形態学的特徴及び視覚機器画像である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。
【
図11E】本開示の例示的な実施形態による、入力は顔の画像及び視覚機器の画像である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。
【
図11F】本開示の例示的な実施形態による、入力は形態学的特徴、視覚的測定値、及び視覚機器の画像である、機械学習ベースの視覚機器属性のニューラルネットワークの概略図である。
【
図11G】本開示の例示的な実施形態による、入力は形態学的特徴、視覚的測定値、及び視覚機器属性である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。
【
図11H】本開示の例示的な実施形態による、入力は顔の画像、視覚的測定値、及び視覚機器属性である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。
【
図11I】本開示の例示的な実施形態による、入力は形態学的特徴、視覚的測定値、及び視覚機器の画像である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。
【
図11J】本開示の例示的な実施形態による、入力は顔の画像、視覚的測定値、及び視覚機器の画像である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。
【
図11K】本開示の例示的な実施形態による、入力は形態学的特徴である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。
【
図11L】本開示の例示的な実施形態による、入力は形態学的特徴である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。
【
図11M】本開示の例示的な実施形態による、入力は形態学的特徴である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。
【
図11N】本開示の例示的な実施形態による、入力は形態学的特徴である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。
【
図11O】本開示の例示的な実施形態による、入力は形態学的特徴及び視覚的測定値である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。
【
図11P】本開示の例示的な実施形態による、入力は形態学的特徴及び視覚的測定値である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。
【
図11Q】本開示の例示的な実施形態による、入力は顔の画像及び視覚的測定値である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。
【
図11R】本開示の例示的な実施形態による、入力は顔の画像及び視覚的測定値である、機械学習ベースの視覚機器選択ツールのニューラルネットワークの概略図である。
【
図12A】本開示の例示的な実施形態によるニューラルネットワークトレーニングプロセスのトレーニングデータベースの準備を示す概略図である。
【
図12B】入力は計量的顔ランドマーク座標である、機械学習ベースの視覚機器選択ツールのトレーニングプロセスのニューラルネットワークの概略図である。
【
図13A】本開示の例示的な実施形態による、異種入力データを扱うように構成されたニューラルネットワークの一般化された流れ図である。
【
図13B】本開示の例示的な実施形態による、異種入力データを扱うように構成されたニューラルネットワークの一般化された流れ図の態様である。
【
図13C】本開示の例示的な実施形態による、異種入力データを扱うように構成されたニューラルネットワークの一般化された流れ図の態様である。
【
図13D】本開示の例示的な実施形態による、異種入力データを扱うように構成されたニューラルネットワークの一般化された流れ図の態様である。
【
図13E】本開示の例示的な実施形態による、異種入力データを扱うように構成されたニューラルネットワークの一般化された流れ図の態様である。
【
図13F】本開示の例示的な実施形態による、異種入力データを扱うように構成されたニューラルネットワークの一般化された流れ図の態様である。
【
図14】本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツールのニューラルネットワークのトレーニングの流れ図である。
【
図15A】人工ニューラルネットワークの実施態様の一般化された流れ図である。
【
図15B】本開示の例示的な実施形態による畳み込みニューラルネットワークの実施態様のフローチャートである。
【
図16】フィードフォワード人工ニューラルネットワークの一例である。
【
図17】本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツールのハードウェア構成である。
【発明を実施するための形態】
【0010】
用語「a」又は「an」は、本明細書で使用されるとき、1つ又は1つ以上として定義される。用語「複数」は、本明細書で使用されるとき、2つ又は2つ以上として定義される。用語「別の」は、本明細書で使用されるとき、少なくとも2つ以上として定義される。用語「含む(including)」及び/又は「有する(having)」は、本明細書で使用されるとき、含む(comprising)(すなわち、オープン用語)として定義される。用語「視覚機器」、「眼鏡(eyeglass)」、「眼鏡(eyeglasses)」、及び「複数の視覚機器」は、フレーム及びレンズの両方を有する装置を指すのに同義で使用し得る。用語「視覚機器」は、1つの視覚機器を指すのに使用し得、一方、用語「複数の視覚機器」は、2つ以上の視覚機器を指すのに使用し得る。本文書全体を通しての「一実施形態」、「特定の実施形態」、「実施形態」、「実施態様」、「例」、又は同様の用語への言及は、その実施形態と関連して説明された特定の特徴、構造、又は特性が本開示の少なくとも1つの実施形態に含まれることを意味する。同様に、用語「顔の画像」及び「人の顔の画像」は、同義で使用し得る対応する用語である。したがって、本明細書全体を通して種々の箇所におけるそのような句の出現は、必ずしも全てが同じ実施形態を参照している訳ではない。さらに、特定の特徴、構造、又は特性は、無制限に1つ又は複数の実施形態で任意の適した様式で組み合わせることができる。
【0011】
今日、視覚機器又は眼鏡を探している患者又は他のユーザには多くの場合、眼科的に適切であり且つ見て美しい物に関するガイダンスが殆ど与えられない。人によっては、カルチャー傾向が決断を左右する。他の人にとっては、友人及び家族の意見が最も重要である。なお人間工学的適合及び視力を優先する人にとっては、熟練した視覚専門家の意見が必要である。現在、ユーザは、上記特徴のうちの幾つかではあるが全てではない特徴を提供する手法にアクセスすることができる。例えば、一手法では、決定木を実施して、視覚機器のフレームを、個人の顔のランドマークから検出された形態学的特徴と一致することができ、この一致は理想的な視覚機器を決める。別の手法では、ユーザのテイスト及び習慣を特定するために、ユーザに、特に自身の様式、ライフスタイル、及び性格に関する問いに答えるように求め得る。次に、そのような特色を使用して、決定木又はコンテンツベースのフィルタリングの実施に基づいて理想的な視覚機器を提案することができる。上記の拡張である更に別の手法は、ユーザの閲覧履歴の分析を実行して、ユーザに関連するように見えるフレーム等の視覚機器特徴(例えば、コンテンツベースのフィルタリング)又はユーザが最も近い消費者プロファイル(例えば、協調ベースのフィルタリング)を特定するユーザ嗜好モデルを利用する。
【0012】
上記手法は、ユーザのニーズに部分的に対処するが、視覚機器選択を行うとき、ロバストでエンドツーエンドの入力をユーザに提供しない。このために、本開示は、形態学的特徴、構造的特徴、眼科需要、及び美的魅力に基づいて、適合した視覚機器選択をユーザに提示する機械学習ベースの視覚機器選択ツールを記載する。
【0013】
これより図を参照すると、
図1は、本開示の例示的な実施形態による機械学習ベースの視覚機器選択ツール(ML-VEST)100の一般化された流れ図である。ML-VEST100は、入力準備プロセス110、機械学習適用プロセス115、及び視覚機器選択プロセス125を含むことができる。まず、ユーザは、入力105をML-VEST1000に提供する。ニューラルネットワークトレーニングに基づいて、入力105は、機械学習適用プロセス115に直接適用する114ことができ、又は入力準備プロセス110に提供することができ、入力準備プロセス110では、入力105は、機械学習適用プロセス115の特定の実施仕様に従って準備される。実施形態では、入力105は、準備を必要とし、したがって、入力準備プロセス110に提供されるユーザの顔の画像であることができる。準備された入力又は準備された画像は次に、機械学習適用プロセス115に渡すことができる。適合尺度120は、機械学習適用プロセス115から生成することができ、ユーザの顔に対応する、準備された画像は、視覚機器又は眼鏡の「適合」に基づいてスコア付けられ、適合は、ユーザの顔と視覚機器との適合を定量化する尺度を提供する相関的同期である。視覚機器のスコア付けされた1つの適合尺度120又は複数の適合尺度120の大きさに基づいて、視覚機器選択プロセス125は、入力を提供したユーザの顔に理想的な眼鏡を選択し得る。実施形態では、ユーザは、ユーザの顔の画像及び関心のある視覚機器の画像を提供し得る。画像の処理において、ML-VEST100は、適合尺度120の所定の閾値と比較された場合、視覚機器がユーザへの理想的な視覚機器として選択されるべきであることを示す適合尺度120を生成し得る。実施形態では、適合尺度120は、信頼度閾値と比較された場合、適合尺度120が正確であるか否かを示す信頼度と関連付けられ得る。別の実施形態では、ユーザは、顔の画像のみを入力として提供し得、理想的な視覚機器又は適合する視覚機器は、複数の眼鏡のデータベースから選択される視覚機器であってもよく、又は例えば、ユーザにより予め選択されるか、若しくはユーザに提供される眼鏡のサブセットから選択し得る。このために、上述したように、選択された各視覚機器の適合尺度120を生成することができ、生成された適合尺度120の比較は、理想的な視覚機器として選択すべき視覚機器を示すことができる。そして、この理想的な視覚機器をユーザに推奨することができ、理想的な視覚機器は、美的外観及び視力に関するユーザの好みに関連してユーザの独自の形態学的特性を反映している。
【0014】
図2Aは、ユーザによりML-VESTに提供することができる少なくとも1つの入力205を説明する。
図1を参照して説明したように、少なくとも1つの入力205は、入力準備プロセスに提供することができ、又は機械学習適用プロセスに直接提供することができる。ユーザにより提供される少なくとも1つの入力205は、特に、ユーザの顔の画像206、ユーザの顔の画像及び別個に提供される視覚機器の画像207、視覚機器を装用しているユーザの顔の画像208、及びユーザに対応する視覚的測定209を含むことができる。視覚的測定は、視力の標準眼科測定であることができる。
【0015】
図2Bに示されるように、入力準備プロセスに提供される際、上述した少なくとも1つの入力はそれぞれ、機械学習適用プロセスに提供される前、準備することができる。したがって、
図2Bは、受信した少なくとも1つの入力に対して実施することができる入力準備プロセス210を記載する。実施形態では、本明細書に記載の入力準備プロセス210は、ML-VESTの適用中、ユーザによって提供される入力及びML-VESTのニューラルネットワークのトレーニング中、提供される入力に対して実施することができる。
【0016】
ML-VESTの適用中又はML-VESTのトレーニング中に適用されるように、高レベルから、入力準備プロセス210は少なくとも1つの入力準備関数211を実行し、少なくとも1つの入力準備出力213を生成する。当業者には理解されるように、少なくとも1つの入力準備関数211及び少なくとも1つの入力準備出力213は、ML-VESTの適用中及びML-VESTのニューラルネットワークのトレーニング中、同様のプロセスが実行されるように選択することができる。
【0017】
低レベルから、少なくとも1つの入力準備関数211は、例えば特に、画像分類、画像区分化、及び畳み込み212を含むことができる。画像区分化は、ML-VESTのニューラルネットワークのトレーニング中及びML-VESTの適用中の両方で、少なくとも1つの入力の関連する特性を検出するのに実行することができる。少なくとも1つの入力準備出力213と呼ばれるこれらの関連する特性は、例えば、「顔の幅」及び「鼻のサイズ」等の形態学的特徴であってもよく、又は「フレーム形状」及び「フレーム色」等の視覚機器属性であってもよい。追加の形態学的特徴は、顔の形状、皮膚の色、目の色、髪の色等を含む。そのような形態学的特徴は、上述したような画像処理(すなわち、画像区分化/分類)を介して計算してもよく、又は入力画像において手動で特定若しくは測定されてもよく、手動測定では、特徴の寸法を正確に算出するために較正物体が必要とされる。追加の視覚機器属性は、レンズの幅、レンズの高さ、ブリッジ距離、テンプル長等を含むことができる。そのような視覚機器属性は、上記のように、上述したような画像処理(すなわち、画像区分化/分類)を介して計算してもよく、又は入力画像において手動で特定若しくは測定されてもよく、手動測定では、属性を正確に算出するために較正物体が必要とされる。幾つかの場合、視覚機器属性には、視覚機器属性を含むデータベースからアクセスすることができる。
【0018】
実施形態では、上述した画像区分化及び画像分類に加えて、畳み込み212を少なくとも1つの入力に対して実行することができる。畳み込み212は、畳み込みフィルタの使用を含むことができ、特徴抽出を促進することができる。後述するように、畳み込み212は、ML-VESTのニューラルネットワークによって実行されてもよく、それにより、入力準備プロセス210がなくなる。
【0019】
実施形態では、少なくとも1つの入力は、入力準備プロセス210に提供されてもよく、又は機械学習適用プロセスに直接提供されてもよい。例えば、少なくとも1つの入力は、対応するユーザの視覚的測定であることができる。ユーザにより提供される少なくとも1つの入力は、SPH及びADDを含むことができ、ML-VESTのニューラルネットワークに提供することができる。
【0020】
図3を参照すると、入力準備プロセスに続き、必要な場合、準備された少なくとも1つの入力をML-VESTの機械学習適用プロセス315に送ることができる。一般に、機械学習適用プロセスへの入力は、機械学習適用プロセスに直接提供される少なくとも1つの入力(例えば、顔の画像及び視覚機器の画像、顔の画像、視覚機器を装用している顔の画像)及び準備された少なくとも1つの入力(例えば、顔の画像からの形態学的特徴、視覚機器の画像からの視覚機器属性)を含むことができる。一緒に考慮すると、ML-VESTのニューラルネットワークの入力の幾つかの使用事例を考慮することができる:(1)顔の画像及び視覚機器の画像から又は視覚機器を装用している顔の画像から取得される形態学的特徴及び視覚機器属性、(2)顔の画像及び視覚機器属性、(3)形態学的特徴及び視覚機器属性、(4)顔の画像及び視覚機器の画像、(5)形態学的特徴、視覚機器属性、及び視覚的測定、(6)顔の画像、視覚機器属性、及び視覚的測定、(7)形態学的特徴、視覚機器の画像、及び視覚的測定、(8)顔の画像、視覚機器の画像、及び視覚的測定、(9)形態学的特徴、(10)顔の画像、(11)形態学的特徴及び視覚的測定、(12)顔の画像及び視覚的測定。
【0021】
図3に戻ると、選択された使用事例(上述)に基づいて、機械学習を準備された少なくとも1つの入力に適用することができ、適合尺度320は、機械学習適用プロセス315の出力として生成することができる。各使用事例でのML-VESTのニューラルネットワークの詳細な説明について後続図を参照して提供する。1つの適合尺度の大きさの評価又は複数の適合尺度の大きさの比較を次に使用して、ユーザに理想的な視覚機器325を選択することができる。
【0022】
適合尺度320のタイプ及び結果として選択される理想的な視覚機器325は、ML-VESTのニューラルネットワークのトレーニングに基づくことができる。したがって、
図4Aは、ML-VESTの機械学習適用プロセス中に使用されるニューラルネットワークのトレーニングの流れ図を提供する。
【0023】
一般に、トレーニングは、理想的な入力をML-VEST及に提供し、ラベリングプロセス440中、ラベラーのグループにラベラーグループスコアを提供して、トレーニング適合尺度データ又は「グラウンドトゥルース」データを生成することを含む。ニューラルネットワーク430をトレーニングするために、ML-VESTのニューラルネットワーク430によって生成された適合尺度420は、ラベリングプロセス440中、ラベラーグループによってスコア付けられたトレーニング適合尺度と比較することができる。それらの間で生成された誤差値438を評価することができ、ML-VESTのニューラルネットワーク430により生成される将来の適合尺度が、ラベリングプロセス440中にスコア付けられる適合尺度に関してますます正確になるように、ML-VESTのニューラルネットワーク430のパラメータをそれに従って調整する439ことができる。
【0024】
特に、トレーニングはまず、トレーニングデータベース436から受信した少なくとも1つの入力405を含む。
図2Aで示唆されたように、トレーニングデータベース436は、顔の画像、視覚機器の画像と並べられた顔の画像、視覚機器を装用している顔の画像、及びユーザの目の視力に対応する視覚的測定を含む複数の入力で構成することができる。トレーニングデータベース436に記憶された複数の入力は、人々及び多種多様な視覚機器の渾然一体とした集団からものであることが意図され、ML-VESTがランダムユーザに対して理想的な視覚機器をロバストに選択することができる。しかしながら、トレーニングデータベース436に記憶される複数の入力が、任意の多種多様な入力であることができ、特定の用途に合わせることができることを理解することができる。例えば、トレーニングデータベース436に記憶される複数の入力は、特に、集団からの人々の顔の画像(又はその形態学的特徴)、顔の画像に対応する視覚的測定、及び視覚機器の画像(又はその視覚機器属性)を含むことができる。
【0025】
複数の入力からの少なくとも1つの入力405は、所望であれば、入力準備プロセス410に提供することができ、又はニューラルネットワーク430に直接提供することができる。さらに、少なくとも1つの入力405はラベリングプロセス440に提供することができる。実施形態では、入力準備プロセス410及びラベリングプロセス440に同時に提供される少なくとも1つの入力405は、
図5Aに示されるように、トレーニングデータベースに記憶される複数の入力のサブセットであることができる。1つの場合では、サブセットは顔の画像及び視覚機器の画像を含むことができる。したがって、トレーニングされたニューラルネットワーク430は、任意の視覚機器の適合尺度420を生成することが可能である。別の場合、サブセットは顔の画像のみを含むことができる。視覚機器の各画像に対して顔の画像を提供するのではなく、顔の画像は視覚機器の予め定義されたリストと共に提供され、視覚機器の予め定義されるリストは、ニューラルネットワーク430への暗黙的な入力である。ニューラルネットワーク430をトレーニングするに当たり、顔の画像は、視覚機器の予め定義されたリストの各視覚機器と突き合わせてスコア(すなわちラベル)付けることができ、その場合、ニューラルネットワーク430の出力は、顔の画像との視覚機器の予め定義されたリストの各視覚機器の一致スコアのリストであることができる。換言すれば、暗黙的な入力は、視覚機器の画像の選択されたサブセット又は予め定義されたリストであることができる。視覚機器の選択されたサブセットは、使用事例で説明されるように、顔の画像の評価に使用することができ、視覚機器の選択されたサブセットの各視覚機器には、顔の画像に対する適合スコアが与えられる。トレーニングデータベース436に記憶される複数の入力の、暗黙的入力を含む入力の選択は、ML-VESTのニューラルネットワーク430の特定の実施に基づくことができることを理解することができる。
【0026】
実施形態によれば、先に紹介したように、ラベリングプロセス440は、ニューラルネットワーク430がトレーニングし、それにより、適合尺度を正確に分類又は予測する仕方を学習するベースとなることができる「グラウンドトゥルース」又はトレーニングデータを提供することができる。本開示の状況では、ラベリングプロセス440は、特に、少なくとも1つの入力として提供された複数の画像のそれぞれのスコア付け及びコメント付けを含むことができる。
【0027】
実施形態では、ラベラーは、例えば、視覚機器の画像と並べられた入力画像からの人の顔を見て、それについてのスコア及びコメントを提供し得る。
図5Aを参照すると、ラベリングプロセスへの入力は、上述したように、視覚機器の画像と並べられた顔の画像508、視覚機器を装用している顔の画像509、及び顔の画像に対応する視覚的測定549を含む。加えて、ラベリングプロセスへの入力は、仮想視覚機器を装用している顔の画像552を含むことができる。「仮想試着動作」と呼ばれる仮想視覚機器を装用している顔の画像552は、特定の視覚機器を装用している顔の真正画像が利用可能ではない場合、顔に装用された視覚機器をラベラーが視覚化する方法を提供する。ラベリングプロセス内で生成された仮想試着動作は、まず、視覚機器のパターンのみが残るように視覚機器の画像を歪み除去し、次に、視覚機器のパターンを顔の画像にコピーし、それにより、視覚機器を装用している顔の真正画像をエミュレートすることにより作成することができる。次に、仮想試着動作を評価し、ノーマルとしてラベラーによりラベル付けることができる。
【0028】
上記紹介した場合、ラベラーは、ML-VESTのニューラルネットワークの出力層の特性を定義するラベル、一連のラベル、又はスコアを提供する。例えば、
図5Bを参照すると、ラベリングプロセス540は、バイナリ視覚機器適合541と参照される、視覚機器が顔に合っているか否かを判断することを含むことができる。ラベリングプロセス540は、全体視覚機器一致スコア542と参照される、視覚機器と顔との一致スコアを特定することを更に含むことができる。さらに、ラベリングプロセス540は、基準による視覚機器一致543と参照される、予め定義された基準リストの各基準について視覚機器と顔との一致スコアを特定することを含むことができる。この予め定義される基準リストは、例えば特に、フレーム幅に対する顔の幅の一致スコア、フレーム形状に対する顔の形状の一致スコア、フレーム高さに対する顔の下部形状の一致スコア、及びフレーム色/装飾に対する皮膚の広の一致スコアを含むことができる。ラベリングプロセス540の上記ラベルは、対応する値として表すことができる。例えば、バイナリ視覚機器適合は0又は1で表すことができ、全体視覚機器一致スコア542は0~Nのスコアとして表すことができ(例えば、5つ星のうち2つ星)、基準による視覚機器一致スコアは、各基準について0~Nのスコアで表すことができる(例えば、5つ星のうち4つ星)。ラベリングプロセス540の特定のプロセスに従って各画像のラベルを提供することに加えて、ラベラーは特定のラベルが何故割り当てられたかについてのコメント544を提供することができ、コメント544は、例えば特に、「この視覚機器はこの顔の幅には大きすぎる」又は「この視覚機器はこの皮膚の色には暗すぎる」等の句を含む。実施形態では、ラベリングプロセス540は、顔の画像及び視覚機器の画像に加えて、顔の画像に対応する視覚的測定を含むことができ、視覚の専門知識を有する人は、ラベリング時、視力を考慮することが可能である。
【0029】
上記ラベリングプロセスは、顔と視覚機器との可能な全ての組合せがラベル付けられるまで繰り返すことができることを理解することができる。例えば、視覚機器の複数の画像との顔の1つの画像の各組合せのレベルを提供することができる。
【0030】
これより
図4Aに戻ると、ラベリングプロセス440のラベルがニューラルネットワーク430の出力となることの理解と共に、ニューラルネットワーク430をトレーニングすることができる。ニューラルネットワークのトレーニングのより完全であるが、それでもなお一般的な説明を
図14~
図16に関して説明する。
図4Aに示されるように、処理された少なくとも1つの入力は、ニューラルネットワーク430の第1の隠れ層又は入力層に提供することができる。一例では、ニューラルネットワーク430は、全結合ニューラルネットワークであることができ、ニューラルネットワークの各全結合層は、前の層の特徴又は出力の全ての組合せから学習することができる。入力準備プロセス410に関して論考したように、ニューラルネットワーク430の入力層は使用事例に従って様々であり得る。処理済みの少なくとも1つの入力をニューラルネットワーク430のN隠れ層に通した後、適合尺度420を出力層から生成することができる。生成された適合尺度420は、ラベリングプロセス440のラベル又はトレーニング適合尺度に必ず一致する。したがって、適合尺度420の値は、誤差判断438において、ラベリングプロセス440のラベル又はトレーニングデータと比較されて、ニューラルネットワーク430の出力の正確性を判断し得る。誤差判断438に基づいて、トレーニングプロセス435は、ニューラルネットワーク430の第1の隠れ層に進み又は戻り得、各隠れ層の係数/重みは、誤差判断438の誤差に基づいて更新することができる。示されるように、ML-VEST及びニューラルネットワーク430のトレーニングプロセス435は特に、誤差判断438が基準を満たすまで続けることができる。基準は、誤差値又は反復回数を含む多種多様な基準の1つであることができる。適合尺度とトレーニングデータとの誤差が誤差判断438の基準を満たすと、ニューラルネットワーク430は、ML-VEST内で実施可能な状態になる。
【0031】
ML-VEST内の実施中、適合尺度420は、少なくとも1つの入力を記述する複数の適合尺度420の1つであることができ、少なくとも1つの入力は、人の顔の画像及び視覚機器データベースの複数の視覚機器の各視覚機器を含み、適合尺度420は、
図4Bに示される視覚機器選択プロセス425に更に出力することができる。視覚機器選択プロセス425は、複数の適合尺度420のそれぞれを取得し、適合した視覚機器を選択することができる。1つの場合では、適合した視覚機器は、付随するコメントと共に、ニューラルネットワーク430のトレーニング435により定められるように、バイナリ視覚機器適合、全体視覚機器一致スコア、又は基準による視覚機器一致スコアを最大化する。別の場合、適合した視覚機器は、付随するコメントと共に、バイナリ視覚機器適合、全体視覚機器一致スコア、又は基準による視覚機器一致スコアのそれぞれを所定の閾値と比較することにより決定することができる。
【0032】
図6A~
図6EはML-VESTの例示的な入力を示す。例えば、
図6Aは、ML-VESTのトレーニングの少なくとも1つの入力がトレーニングデータベースから取得された入力画像を含む事例を記載しており、入力画像は、人々の顔の画像と、それとは別個に視覚機器の画像608とを含む。
図6Bは、少なくとも1つの入力が人々の顔の画像607及び視覚機器属性651を含むML-VESTのトレーニングの入力を示し、視覚機器属性651はトレーニングデータベースから同様に取得される。
図6Aに鑑みて、
図6Cは、ML-VESTのトレーニングの少なくとも1つの入力が、視覚機器を装用している人々の顔の画像609を含む事例を示す。
図6D及び
図6Eは、少なくとも1つの入力として、顔の画像の形態学的特徴を含み、形態学的特徴はトレーニングデータベースに記憶される。
図6Dを参照すると、ML-VESTの少なくとも1つの入力は、顔の画像の形態学的特徴653及びトレーニングデータベースの複数の視覚機器の視覚機器属性651であることができる。
図6Eに示されるように、トレーニングデータベースから取得される少なくとも1つの入力は、顔の画像の形態学的特徴653及び視覚機器の画像605を含むことができる。
【0033】
図7Aは、
図5に鑑みて記載されたラベリングプロセスを反映し、ラベリングプロセスへの少なくとも1つの入力705は、人の顔の画像と、それとは別個に視覚機器の画像を含む。
図7Aの少なくとも1つの入力705又は別の実施形態では処理済みの少なくとも1つの入力は、ラベラーによりラベル付けることができる。実施形態では、ラベラーはラベラーのグループ745の1つである。
図7Aに関して、ラベラーのグループ745は渾然一体となった人々のグループであることができる。視覚機器を有する人の顔の画像に関する渾然一体となった人々のグループのそれぞれのラベルは、
図5に記載のように、バイナリ視覚機器適合741、全体視覚機器一致スコア742、及び基準による視覚機器一致スコア743を含むことができる。これらのラベルは、ラベラーのグループ745により決定されるように、「グラウンドトゥルース」として又はML-VESTのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。上記ラベリングプロセスは、人々の顔の画像と、トレーニングデータベースの複数の視覚機器のうちの視覚機器との各組合せに対して繰り返すことができる。
【0034】
図7Bは、
図5に鑑みて記載されたラベリングプロセスを反映し、少なくとも1つの入力705は、視覚機器を装用している人の顔の画像を含む。
図7Bの少なくとも1つの入力705又は別の実施形態では処理済みの少なくとも1つの入力は、ラベラーによりラベル付けることができる。実施形態では、ラベラーはラベラーのグループ745の1つである。
図7Bに関して、ラベラーのグループ745は渾然一体となった人々のグループであることができる。視覚機器を装用している人々の顔の画像に関する渾然一体となった人々のグループのそれぞれのラベルは、
図5に記載のように、バイナリ視覚機器適合741、全体視覚機器一致スコア742、及び基準による視覚機器一致スコア743を含むことができる。これらのラベルは、ラベラーのグループ745により決定されるように、「グラウンドトゥルース」として又はML-VESTのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。上記ラベリングプロセスは、トレーニングデータベースの複数の画像の視覚機器を装用している人々の顔の画像のそれぞれ1つに対して繰り返すことができる。
【0035】
図7Cは、
図5に鑑みて記載されたラベリングプロセスを反映し、少なくとも1つの入力705は、人の顔の画像と、視覚機器の画像とを含む。
図7Bの少なくとも1つの入力705は、ラベラーによりラベル付けることができる。実施形態では、ラベラーのタスクを容易にするために、少なくとも1つの入力705は処理済みの少なくとも1つの入力であることができる。処理済みの少なくとも1つの入力は、仮想試着動作752又は2D VTOであることができ、顔の画像及び視覚機器の画像は、顔が視覚機器を装用しているように見えることができるように操作される。処理済みの少なくとも1つの入力に関する適合スコアを提供するラベラーのグループ745は、渾然一体とした人々のグループであることができる。
図5に記載のように、視覚機器を「装用している」人の顔の画像の仮想試着動作752に関する渾然一体とした人々のグループのそれぞれのラベルは、バイナリ視覚機器適合741、全体視覚機器一致スコア742、及び基準による視覚機器一致スコア743を含む。これらのラベルは、ラベラーのグループ745により決定されるように、「グラウンドトゥルース」として又はML-VESTのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。上記ラベリングプロセスは、トレーニングデータベースの複数の画像のうちの視覚機器を「装用している」顔の画像のそれぞれ1つの仮想試着動作752に対して繰り返すことができる。
【0036】
図7Dは、
図5に鑑みて記載されたラベリングプロセスを反映し、少なくとも1つの入力705は、人の顔の画像を含む。
図7Bの少なくとも1つの入力705は、例えば、トレーニングデータベースから選択された視覚機器の画像のサブセット732のうちの視覚機器の仮想試着動作752に鑑みてラベラーによりラベル付けることができる。仮想試着動作752に関する適合スコアを提供するラベラーのグループ745は、渾然一体とした人々のグループであることができる。
図5に記載のように、サブセットの視覚機器を「装用している」人の顔の画像の仮想試着動作752に関する渾然一体とした人々のグループのそれぞれのラベルは、バイナリ視覚機器適合741、全体視覚機器一致スコア742、及び基準による視覚機器一致スコア743を含む。これらのラベルは、ラベラーのグループ745により決定されるように、「グラウンドトゥルース」として又はML-VESTのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。一例では、上記ラベリングプロセスは、視覚機器1又はVE1からVE2、そしてVE Nまでのトレーニングデータベースの視覚機器の画像のサブセットのうちの視覚機器を「装用している」人々の顔の画像のそれぞれ1つに対して仮想試着動作752に対して繰り返される。
【0037】
実施形態によれば、ラベリングプロセスのラベラーのグループは、
図8Aに記載のように、関連する特色を有するサブグループを含む。例えば、ラベラーのグループ845は、ラベラーの複数のカテゴリ850を含み得、ラベラーの複数のカテゴリ850の各カテゴリは共通項によりリンクされる。ラベラーの一カテゴリでは、各ラベラーは一般に、例えば特に、性別、年齢、社会職業カテゴリ、地域、及び様式等の消費者グループとして定義される。これらのラベラーは、例えば、「飛行機に頻繁に乗る50代男性」、「子供がいる仕事中毒の40代女性」等の消費者グループの組合せとして更に定義することができる。したがって、ラベラーの複数のカテゴリ850のそれぞれを
図4Aのトレーニングプロセスに適用することで、ニューラルネットワークは、ニューラルネットワークの出力が、上述したように定義される人々のグループの意見を反映するようにトレーニングすることができる。例えば、「20代有職独身女性」として定義されたラベラーのカテゴリの意見でトレーニングされたニューラルネットワークは、それに従ってラベラーのそのようなカテゴリの意見を示す適合尺度を生成する。ML-VESTの実施中、ラベラーの所望のカテゴリ850は、関心のある特定の意見を提供するようにユーザにより予め選択し得る。
【0038】
ラベラーのグループのラベラーのカテゴリを変えることにより、ML-VESTはユーザの望みに従って調整することができることを理解することができる。例えば、ユーザは、地元の男性の意見に従って自身の顔でどの視覚機器が最もよく見え得るかを知りたいことがある。別の場合、ユーザは、セレブリティの意見に従って自身の顔でどの視覚機器が最もよく見え得るかを知りたいことがある。いずれの場合でも、ML-VEST及び内部のラベラーのグループは、所望の意見を反映する結果を達成するために、必要な変更を加えて調整し得る。
【0039】
このために、
図8Bは、ラベラーのグループがラベラーの複数のカテゴリの1つであることができ、少なくとも1つの入力805が視覚機器の画像と並べて表示された顔の画像を含むことができるような、
図5に鑑みて記載されたラベリングプロセスを反映する。
図8Bの少なくとも1つの入力805又は別の実施形態では処理済みの少なくとも1つの入力は、ラベラーのグループによりラベル付けることができる。ラベラーのグループはラベラーの第1のカテゴリ846であることができ、ラベラーのN個ものカテゴリ847であり得、各カテゴリは、例えば、従来の消費者区分基準(
図8Aに記載)によって定義される人々の特定のグループを反映する。顔の画像及び視覚機器の画像の並べられた表示に関するラベラーの第1のカテゴリ846からラベラーの第Nのカテゴリ847までのそれぞれのラベルは、
図5に記載のように、バイナリ視覚機器適合841、全体視覚機器一致スコア842、及び基準による視覚機器一致スコア843を含む。これらのラベルは、ラベラーのカテゴリにより決定されるように、「グラウンドトゥルース」として又はML-VESTのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。一例では、上記ラベリングプロセスは、顔の画像とトレーニングデータベースの複数の視覚機器のうちの視覚機器との各組合せに対して繰り返される。
【0040】
図8Cは、ラベラーのグループはラベラーの複数のカテゴリの1つであることができ、少なくとも1つの入力805が視覚機器を装用している顔の画像を含むことができるような、
図5に鑑みて記載されたラベリングプロセスを反映する。
図8Cの少なくとも1つの入力805又は別の実施形態では処理済みの少なくとも1つの入力は、ラベラーのグループによりラベル付けることができる。ラベラーのグループはラベラーの第1のカテゴリ846であることができ、ラベラーのN個ものカテゴリ847であり得、各カテゴリは、例えば、従来の消費者区分基準(
図8Aに記載)によって定義される人々の特定のグループを反映する。視覚機器を装用している顔の画像に関するラベラーの第1のカテゴリ846からラベラーの第Nのカテゴリ847までのそれぞれのラベルは、
図5に記載のように、バイナリ視覚機器適合841、全体視覚機器一致スコア842、及び基準による視覚機器一致スコア843を含む。これらのラベルは、ラベラーのカテゴリにより決定されるように、「グラウンドトゥルース」として又はML-VESTのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。一例では、上記ラベリングプロセスは、顔の画像とトレーニングデータベースの複数の視覚機器のうちの視覚機器との各組合せに対して繰り返される。
【0041】
図7Cに鑑みて、
図8Dは、ラベラーのグループがラベラーの複数のカテゴリの1つであることができ、少なくとも1つの入力805が視覚機器の画像と並べられた顔の画像を含むことができるようなラベリングを反映する。
図8Dの少なくとも1つの入力805又は別の実施形態では処理済みの少なくとも1つの入力は、ラベラーのグループによりラベル付けることができる。実施形態では、ラベラーのタスクを容易にするために、少なくとも1つの入力805は処理済みの少なくとも1つの入力であることができる。処理済みの少なくとも1つの入力は、仮想試着動作852であることができ、顔の画像及び視覚機器の画像は、顔が視覚機器を装用しているように見えるように操作される。ラベラーのグループはラベラーの第1のカテゴリ846であることができ、ラベラーのN個ものカテゴリ847であり得、各カテゴリは、例えば、従来の消費者区分基準(
図8Aに記載)によって定義される人々の特定のグループを反映する。サブセットの視覚機器を「装用している」顔の画像の仮想試着動作852に関するラベラーの第1のカテゴリ846からラベラーの第Nのカテゴリ847までのそれぞれのラベルは、
図5に記載のように、バイナリ視覚機器適合841、全体視覚機器一致スコア842、及び基準による視覚機器一致スコア843を含むことができる。これらのラベルは、ラベラーのカテゴリにより決定されるように、「グラウンドトゥルース」として又はML-VESTのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。一例では、上記ラベリングプロセスは、トレーニングデータベースの複数の視覚機器のうちの視覚機器を「装用している」顔の画像の各組合せの仮想試着動作852に対して繰り返される。
【0042】
図7Dに鑑みて、
図8Eは、ラベラーのグループがラベラーの複数のカテゴリの1つであることができ、少なくとも1つの入力805が人の顔の画像を含むことができるようなラベリングを反映する。実施形態では、ラベラーのタスクを容易にするために、少なくとも1つの入力805は仮想試着動作852であることができ、顔の画像及びトレーニングデータベースから選択された視覚機器の画像のサブセット832の視覚機器の画像は、顔が視覚機器を「装用している」ように見えるよう操作され組み合わせられる。ラベラーのグループはラベラーの第1のカテゴリ846であることができ、ラベラーのN個ものカテゴリ847であり得、各カテゴリは、例えば、従来の消費者区分基準(
図8Aに記載)によって定義される人々の特定のグループを反映する。サブセットの視覚機器を「装用している」顔の画像の仮想試着動作852に関するラベラーの第1のカテゴリ846からラベラーの第Nのカテゴリ847までのそれぞれのラベルは、
図5に記載のように、バイナリ視覚機器適合841、全体視覚機器一致スコア842、及び基準による視覚機器一致スコア843を含むことができる。これらのラベルは、ラベラーのカテゴリにより決定されるように、「グラウンドトゥルース」として又はML-VESTのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。上記ラベリングプロセスは、視覚機器1又はVE1からVE2、そしてVE Nまでのトレーニングデータベースの視覚機器の画像のサブセットのうちの視覚機器を「装用している」人々の顔の画像のそれぞれ1つの仮想試着動作852に対して繰り返すことができる。
【0043】
実施形態によれば、
図9Aを参照すると、ラベラー945のグループは、ラベラーの複数のカテゴリを含み得、ラベラーの複数のカテゴリの1つは専門家ラベラーのカテゴリ948である。専門家ラベラーの上記カテゴリ948は異種であることができ、又は専門家ラベラーのサブカテゴリに分割することができる。例えば、専門家ラベラーのカテゴリ948は、特に、アイケア専門家、美容師、及び人相学者を含むことができる。別の場合、アイケア専門家、美容師、及び人相学者等は、サブカテゴリを含むことができ、顔と視覚機器との組合せに職業特有のラベルを提供することができる。
【0044】
このために、
図9B~
図9Fの例示的な少なくとも1つの入力及び処理済みの少なくとも1つの入力に示されるように、ラベラーの専門家ラベラーカテゴリを含むことで、少なくとも1つの入力の追加の特性を定義し、ラベリング中に考慮できるようにする。例えば、
図9Bは、トレーニングデータベースから取得されるML-VESTのトレーニングの少なくとも1つの入力905が、顔の画像と、それとは別個に視覚機器の画像908を含む事例を記載する。さらに、アイケア専門家である専門家ラベラーの場合に起因して、少なくとも1つの入力の顔の画像は、例えば特に、処方箋及び瞳孔間距離等の視覚的測定949と更に関連付けることができる。同様に、
図9Cは、顔の画像及び視覚機器属性951を含むML-VESTのトレーニングの少なくとも1つの入力905を示し、視覚機器属性951は、
図3について説明したプロセスと略同様の入力準備プロセスから特定される。さらに、
図9Bと同様に、少なくとも1つの入力905の人々の顔は、上述等の視覚的測定949と関連付けることができる。
図9Bに鑑みて、
図9Dは、ML-VESTのトレーニングの少なくとも1つの入力905が、視覚機器を装用している顔の画像909を含む事例を示す。さらに、
図9Dの少なくとも1つの入力905は、上述したように、視覚的測定949と更に関連付けることができる。
図9Eを参照すると、ML-VESTの少なくとも1つの入力905は、顔の画像の形態学的特徴953及びトレーニングデータベースの複数の視覚機器の視覚機器属性951を含むことができる。さらに、顔の画像の形態学的特徴953は、上述等の視覚的測定949と関連付けることができる。
図9Fを参照すると、ML-VESTの少なくとも1つの入力905は、顔の画像の形態学的特徴953及びトレーニングデータベースの視覚機器の画像を含むことができる。さらに、顔の画像の形態学的特徴953は、上述等の視覚的測定949と関連付けることができる。
【0045】
図10Aは、
図5に鑑みて記載されたラベリングプロセスを反映し、少なくとも1つの入力1005は、顔の画像と、それとは別個に視覚機器の画像とを含む。さらに、
図10Aは、専門家ラベラー1048であり、一例ではアイケア専門家であり得るラベラーのグループ1045を利用するため、少なくとも1つの入力1005は、顔の画像と関連付けられた視覚的測定1049を含むことができる。示唆したように、
図10Aの少なくとも1つの入力1005又は別の実施形態では処理済みの少なくとも1つの入力は、ラベラーのグループ1045の専門家ラベラーのカテゴリ1048によりラベル付けることができる。専門家ラベラーのカテゴリ1048のそれぞれのラベルは、
図5に記載のように、バイナリ視覚機器適合1041、全体視覚機器一致スコア1042、及び基準による視覚機器一致スコア1043を含むことができる。さらに、これらのラベルは、視覚機器の適合についてのコメント、アイケア専門家の場合、視覚的測定値1049に向けられた視覚的測定1049の状況でのコメントを含み得る。これらのラベルは、専門家ラベラーのカテゴリ1048により決定されるように、「グラウンドトゥルース」として又はML-VESTのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。一例では、上記ラベリングプロセスは、顔の画像とトレーニングデータベースの複数の視覚機器のうちの視覚機器との各組合せに対して繰り返される。
【0046】
図10Bは、
図5に鑑みて記載されたラベリングプロセスを反映し、少なくとも1つの入力1005は、視覚機器を装用している顔の画像を含む。さらに、
図10Bは、専門家ラベラー1048であり、一例ではアイケア専門家であり得るラベラー1049のグループを利用するため、少なくとも1つの入力1005は、視覚機器を装用している顔の画像と関連付けられた視覚的測定1049を含むことができる。示唆したように、
図10Bの少なくとも1つの入力1005又は別の実施形態では処理済みの少なくとも1つの入力は、ラベラーのグループ1045の専門家ラベラーのカテゴリ1048によりラベル付けることができる。専門家ラベラーのカテゴリ1048のそれぞれのラベルは、
図5に記載のように、バイナリ視覚機器適合1041、全体視覚機器一致スコア1042、及び基準による視覚機器一致スコア1043を含むことができる。さらに、これらのラベルは、視覚機器の適合についてのコメント、アイケア専門家の場合、視覚的測定値1049に向けられた視覚的測定1049の状況でのコメントを含み得る。これらのラベルは、専門家ラベラーのカテゴリ1048により決定されるように、「グラウンドトゥルース」として又はML-VESTのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。上記ラベリングプロセスは、トレーニングデータベースの複数の画像の視覚機器を装用している顔の画像のそれぞれ1つに対して繰り返すことができる。
【0047】
図10Cは、
図5に鑑みて記載されたラベリングプロセスを反映し、少なくとも1つの入力1005は、顔の画像と、それとは別個に視覚機器の画像とを含む。
図10Cの少なくとも1つの入力1005又は別の実施形態では処理済みの少なくとも1つの入力は、ラベラーのグループ1045によりラベル付けることができ、ラベラーのグループ1045は専門家ラベラー1048である。実施形態では、ラベラーのタスクを容易にするために、少なくとも1つの入力1005は処理済みの少なくとも1つの入力であることができる。処理済みの少なくとも1つの入力は、仮想試着動作1052であることができ、顔の画像及び視覚機器の画像は、顔が視覚機器を装用しているように見えるように操作される。専門家ラベラーのカテゴリ1048のラベルは、
図5に記載のように、バイナリ視覚機器適合1041、全体視覚機器一致スコア1042、及び基準による視覚機器一致スコア1043を含むことができる。これらのラベルは、専門家ラベラーのカテゴリ1048により決定されるように、「グラウンドトゥルース」として又はML-VESTのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。上記ラベリングプロセスは、トレーニングデータベースの複数の視覚機器のうちの視覚機器を「装用している」顔の画像の各組合せの仮想試着動作852に対して繰り返すことができる。
【0048】
図10Dは、
図5に鑑みて記載されたラベリングプロセスを反映し、少なくとも1つの入力1005は、顔の画像と、顔の画像と関連付けられた視覚的測定1049とを含む。実施形態では、ラベラーのタスクを容易にするために、少なくとも1つの入力1005は処理済みの少なくとも1つの入力であることができ、処理済みの少なくとも1つの入力は、仮想試着動作1052であり、顔の画像及びトレーニングデータベースから選択された視覚機器の画像のサブセット1032の視覚機器の画像は、顔が視覚機器を「装用している」ように見えるよう操作され組み合わせられる。専門家ラベラーのカテゴリ1048のラベルは、
図5に記載のように、バイナリ視覚機器適合1041、全体視覚機器一致スコア1042、及び基準による視覚機器一致スコア1043を含むことができる。これらのラベルは、専門家ラベラーのカテゴリ1048により決定されるように、「グラウンドトゥルース」として又はML-VESTのニューラルネットワークのトレーニング中、トレーニングデータとしてデプロイすることができ、ニューラルネットワークの出力層を定義することができる。一例では、上記ラベリングプロセスは、視覚機器1又はVE1からVE2、そしてVE Nまでのトレーニングデータベースの視覚機器の画像のサブセットのうちの視覚機器を「装用している」人々の顔の画像のそれぞれ1つの仮想試着動作1052に対して繰り返される。
【0049】
ラベリングプロセスの上記ラベリング方式のそれぞれは、
図4Aで紹介されるML-VESTのトレーニングプロセス内で実施することができる。特に、
図3に関して説明した使用事例を参照すると、ML-VESTの実施態様は、
図11A~
図11Rに示されるように進むことができる。本明細書及び図面において適切な場合、「視覚機器」は「VE」と略されており、これは相互に交換可能であり得ることを理解することができる。
【0050】
事例(1)の例示的な実施形態である
図11Aを参照すると、少なくとも1つの入力1105は、ニューラルネットワーク1115に入力される前、入力準備プロセス1110に渡すことができる。少なくとも1つの入力1105は、顔の画像及び視覚機器の画像を含み得、視覚機器の画像は、顔の画像と共に提供され、又はデータベースの複数の視覚機器から選択される。入力準備プロセス1110は、実施形態によれば、顔の画像から形態学的特徴1153を導出し、視覚機器の画像から視覚機器属性1151を導出する画像処理又は手動測定を含み得る。さらに、視覚機器属性1151はデータベースからの要求により取得し得る。処理された少なくとも1つの入力は、ニューラルネットワーク1115の入力層1116に送ることができ、そこでニューラルネットワーク1115が適用される。ニューラルネットワーク1115の構造は、データ準備(均質化、正則化等を含む)及び全結合ニューラルネットワーク及び/又は畳み込み+全結合ニューラルネットワークを含むことができる。ラベリングプロセス中、ラベラーのグループにより定義されるように、ニューラルネットワーク1115の出力層1117は、ラベルについてのニューラルネットワーク1115の予測を反映する。この予測は、少なくとも1つの入力1105の組合せについてニューラルネットワーク1115により生成される適合尺度1120であることができる。
【0051】
上記と同様に、事例(1)の例示的な実施形態である
図11Bをこれより参照すると、少なくとも1つの入力1105は、ニューラルネットワーク1115に入力される前、入力準備プロセス1110に渡すことができる。少なくとも1つの入力1105は、視覚機器を装用した顔の画像を含み得る。入力準備プロセス1110は、実施形態によれば、顔の画像及び視覚機器の画像から形態学的特徴1153及び視覚機器の画像から視覚機器属性1151をそれぞれ導出する画像処理又は手動測定を含み得る。処理された少なくとも1つの入力は、ニューラルネットワーク1115の入力層1116に送ることができ、そこでニューラルネットワーク1115が適用される。ラベラーのグループにより定義されるように、出力層1117は、ラベルについてのニューラルネットワーク1115の予測を反映する。この予測は、少なくとも1つの入力1105の各組合せについてニューラルネットワーク1115により生成される適合尺度1120である。
【0052】
事例(2)の例示的な実施形態である
図11Cは、少なくとも1つの入力1105が顔の画像及び視覚機器の画像を含み、視覚機器の画像は、顔の画像と共に提供され、又はデータベースの複数の視覚機器から選択される、ML-VESTの概略図を提供する。顔の画像は、ニューラルネットワーク1115に直接渡すことができる。前と同様に、視覚機器の画像は、ニューラルネットワーク1115に送られる前、入力準備プロセス1110に渡すことができる。ニューラルネットワーク1115の構造は、データ準備(均質化、正則化等を含む)及び全結合ニューラルネットワーク及び/又は畳み込み+全結合ニューラルネットワークを含むことができる。そのために、視覚機器の画像は、画像処理及び手動測定を介して準備されて、視覚機器属性1151を生成することができる。さらに、上記視覚機器属性1151は、データベースからの要求を介して取得することができる。先の実施形態と異なり、顔の画像に適用される入力準備プロセス1110は、ニューラルネットワーク1115の外部であってもよく、又はニューラルネットワーク1115と統合されてもよい。例えば、畳み込みニューラルネットワーク1112を顔の画像に適用して、特徴抽出を実行し、ニューラルネットワーク1115の入力層(ここで、視覚機器の画像の処理された少なくとも1つの入力と出会う)への入力に向けて画像を準備し得る。少なくとも1つの1105の両方を準備した後、処理された少なくとも1つの入力はニューラルネットワーク1115の入力層に送ることができ、そこでニューラルネットワーク1115が適用される。ラベラーのグループにより示されるように、出力層1117は、ラベルについてのニューラルネットワーク1115の予測を反映する。この予測は、少なくとも1つの入力1105の各組合せについてニューラルネットワーク1115により生成される適合尺度1120である。
【0053】
事例(3)の例示的な実施形態である
図11Dは、少なくとも1つの入力1105が顔の画像及び視覚機器の画像を含み、視覚機器の画像は、顔の画像と共に提供され、又はデータベースの複数の視覚機器から選択される、ML-VESTの概略図を提供する。視覚機器の画像は、ニューラルネットワーク1115に直接渡すことができる。前と同様に、顔の画像は、ニューラルネットワーク1115に送られる前、入力準備プロセス1110に渡すことができる。そのために、顔の画像は、画像処理及び手動測定を介して準備されて、形態学的特徴1153を生成することができる。先の実施形態と異なり、視覚機器の画像に適用される入力準備プロセス1110は、ニューラルネットワーク1115の外部であってもよく、又はニューラルネットワーク1115と統合されてもよい。例えば、畳み込みニューラルネットワーク1112を視覚機器の画像に適用して、特徴抽出を実行し、ニューラルネットワーク1115の入力層(ここで、顔の処理済み入力画像と出会う)への入力に向けて画像を準備し得る。少なくとも1つの1105の両方を準備した後、処理された少なくとも1つの入力はニューラルネットワーク1115の入力層に送ることができ、そこでニューラルネットワーク1115が適用される。ニューラルネットワーク1115の構造は、データ準備(均質化、正則化等を含む)及び全結合ニューラルネットワーク及び/又は畳み込み+全結合ニューラルネットワークを含むことができる。ラベラーのグループにより示されるように、出力層1117は、ラベルについてのニューラルネットワーク1115の予測を反映する。この予測は、少なくとも1つの入力1105の各組合せについてニューラルネットワーク1115により生成される適合尺度1120である。
【0054】
事例(4)の例示的な実施形態である
図11Eは、少なくとも1つの入力1105が顔の画像及び視覚機器の画像を含み、視覚機器の画像は、顔の画像と共に提供され、又はデータベースの複数の視覚機器から選択される、ML-VESTの概略図を提供する。少なくとも1つの入力1105はニューラルネットワーク1115に直接渡すことができ、ここで畳み込みが実行される。前と同様に、少なくとも1つの入力に適用される入力準備プロセス1110は、ニューラルネットワーク1115の外部であってもよく、又はニューラルネットワーク1115と統合されてもよい。例えば、畳み込みニューラルネットワーク1112は、視覚機器の画像及び顔の画像を含む少なくとも1つの入力1105に適用されて、特徴抽出を実行し、ニューラルネットワーク1115の入力層への入力に向けて画像を準備し得る。畳み込みにより少なくとも1つの1105の両方を準備した後、処理された少なくとも1つの入力はニューラルネットワーク1115の入力層に送ることができ、そこでニューラルネットワーク1115が適用される。ニューラルネットワーク1115の構造は、データ準備(均質化、正則化等を含む)及び全結合ニューラルネットワーク及び/又は畳み込み+全結合ニューラルネットワークを含むことができる。ラベラーのグループにより示されるように、出力層は、ラベルについてのニューラルネットワーク1115の予測を反映する。この予測は、少なくとも1つの入力1105の各組合せについてニューラルネットワーク1115により生成される適合尺度1120である。
【0055】
事例(5)の例示的な実施形態である
図11Fを参照し、
図11Aを考慮すると、少なくとも1つの入力1105は、ニューラルネットワーク1115に入力される前、入力準備プロセス1110に渡すことができる。少なくとも1つの入力1105は、顔の画像及び視覚機器の画像を含み得、視覚機器の画像は、顔の画像と共に提供され、又はデータベースの複数の視覚機器から選択される。加えて、少なくとも1つの入力1105は、顔の画像に対応する視覚的測定1149を含み得る。入力準備プロセス1110は、実施形態によれば、顔の画像から形態学的特徴1153を導出し、視覚機器の画像から視覚機器属性1151を導出する画像処理又は手動測定を含み得る。さらに、視覚機器属性1151はデータベースからの要求により取得し得る。処理された少なくとも1つの入力は、ニューラルネットワーク1115の入力層1116に送ることができ、そこでニューラルネットワーク1115が適用される。ラベリングプロセス中、ラベラーのグループにより定義されるように、ニューラルネットワーク1115の出力層1117は、ラベルについてのニューラルネットワーク1115の予測を反映する。一例では、ラベラーのグループは専門家ラベラーであることができる。この予測は、少なくとも1つの入力1105の組合せについてニューラルネットワーク1115により生成される適合尺度1120であることができる。
【0056】
事例(5)の例示的な実施形態である
図11Gを参照し、
図11Bを考慮すると、少なくとも1つの入力1105は、ニューラルネットワーク1115に入力される前、入力準備プロセス1110に渡すことができる。少なくとも1つの入力1105は、視覚機器を装用した顔の画像を含み得る。さらに、少なくとも1つの入力1105は、視覚機器を装用した顔の画像に対応する視覚的測定1149を含むことができる。入力準備プロセス1110は、実施形態によれば、顔の画像及び視覚機器の画像から形態学的特徴1153及び視覚機器の画像から視覚機器属性1151をそれぞれ導出する画像処理又は手動測定を含み得る。処理された少なくとも1つの入力は視覚的測定1149と共に、ニューラルネットワーク1115の入力層1116に送ることができ、そこでニューラルネットワーク1115が適用される。ラベラーのグループ、実施形態では専門家ラベラーにより定義されるように、出力層1117は、ラベルについてのニューラルネットワーク1115の予測を反映する。この予測は、少なくとも1つの入力1105の各組合せについてニューラルネットワーク1115により生成される適合尺度1120である。
【0057】
事例(6)の例示的な実施形態である
図11Hは、
図11Cを考慮して、少なくとも1つの入力1105が顔の画像及び視覚機器の画像を含み、視覚機器の画像は、顔の画像と共に提供され、又はデータベースの複数の視覚機器から選択される、ML-VESTの概略図を提供する。有する人の顔の画像は、ニューラルネットワーク1115に直接渡すことができる。加えて、少なくとも1つの入力1105は、顔の画像に対応する視覚的測定1149を含む。前と同様に、視覚機器の画像は、ニューラルネットワーク1115に送られる前、入力準備プロセス1110に渡すことができる。そのために、視覚機器の画像は、画像処理及び手動測定を介して準備されて、視覚機器属性1151を生成することができる。さらに、上記視覚機器属性1151は、データベースからの要求を介して取得することができる。先の実施形態と異なり、顔の画像に適用される入力準備プロセス1110は、ニューラルネットワーク1115の外部であってもよく、又はニューラルネットワーク1115と統合されてもよい。例えば、畳み込みニューラルネットワーク1112を顔の画像に適用して、特徴抽出を実行し、ニューラルネットワーク1115の入力層(ここで、視覚機器の画像の処理された少なくとも1つの入力と出会う)への入力に向けて画像を準備し得る。少なくとも1つの1105の両方を準備した後、処理された少なくとも1つの入力は視覚的測定1149と共に、ニューラルネットワーク1115の入力層に送ることができ、そこでニューラルネットワーク1115が適用される。ラベラーのグループ、実施形態では専門家ラベラーにより示されるように、出力層1117は、ラベルについてのニューラルネットワーク1115の予測を反映する。この予測は、少なくとも1つの入力1105の各組合せについてニューラルネットワーク1115により生成される適合尺度1120である。
【0058】
図11Dを考慮して、事例(7)の例示的な実施形態である
図11Iは、少なくとも1つの入力1105が顔の画像及び視覚機器の画像を含み、視覚機器の画像は、顔の画像と共に提供され、又はデータベースの複数の視覚機器から選択される、ML-VESTの概略図を提供する。視覚機器の画像は、ニューラルネットワーク1115に直接渡すことができる。加えて、少なくとも1つの入力1105は、顔の画像に対応する視覚的測定1149を含む。前と同様に、顔の画像は、ニューラルネットワーク1115に送られる前、入力準備プロセス1110に渡すことができる。そのために、顔の画像は、画像処理及び手動測定を介して準備されて、形態学的特徴1153を生成することができる。先の実施形態と異なり、視覚機器の画像に適用される入力準備プロセス1110は、ニューラルネットワーク1115の外部であってもよく、又はニューラルネットワーク1115と統合されてもよい。例えば、畳み込みニューラルネットワーク1112を視覚機器の画像に適用して、特徴抽出を実行し、ニューラルネットワーク1115の入力層(ここで、顔の処理済み入力画像と出会う)への入力に向けて画像を準備し得る。少なくとも1つの1105の両方を準備した後、処理された少なくとも1つの入力はニューラルネットワーク1115の入力層に送ることができ、そこでニューラルネットワーク1115が適用される。ラベラーのグループ、実施形態では専門家ラベラーにより示されるように、出力層1117は、ラベルについてのニューラルネットワーク1115の予測を反映する。この予測は、少なくとも1つの入力1105の各組合せについてニューラルネットワーク1115により生成される適合尺度1120である。
【0059】
事例(8)の例示的な実施形態である
図11Jは、
図11Eを考慮して、少なくとも1つの入力1105が顔の画像及び視覚機器の画像を含み、視覚機器の画像は、顔の画像と共に提供され、又はデータベースの複数の視覚機器から選択される、ML-VESTの概略図を提供する。少なくとも1つの入力1105はニューラルネットワーク1115に直接渡すことができ、ここで畳み込みが実行される。加えて、少なくとも1つの入力1105は、顔の画像に対応する視覚的測定1149を含むことができる。前と同様に、少なくとも1つの入力1105に適用される入力準備プロセス1110は、ニューラルネットワーク1115の外部であってもよく、又はニューラルネットワーク1115と統合されてもよい。例えば、畳み込みニューラルネットワーク1112は、視覚機器の画像及び顔の画像を含む少なくとも1つの入力1105に適用されて、特徴抽出を実行し、ニューラルネットワーク1115の入力層への入力に向けて画像を準備し得る。畳み込みにより少なくとも1つの1105の両方を準備した後、処理された少なくとも1つの入力は視覚的測定1149と共にニューラルネットワーク1115の入力層に送ることができ、そこでニューラルネットワーク1115が適用される。ラベラーのグループ、実施形態では専門家ラベラーにより示されるように、出力層1117は、ラベルについてのニューラルネットワーク1115の予測を反映する。この予測は、少なくとも1つの入力1105の各組合せについてニューラルネットワーク1115により生成される適合尺度1120である。
【0060】
図11Kは、
図8Eに鑑みて、少なくとも1つの入力1105が顔の画像を含むML-VESTの概略図を反映する。事例(9)を反映したそのようなプロセスでは、少なくとも1つの入力1105は、少なくとも1つの入力1105を視覚機器の画像のサブセット1132の各視覚機器と突き合わせて評価できるようにするアーキテクチャを有するニューラルネットワーク1115に通すことができる。実施形態では、少なくとも1つの入力1105は、ニューラルネットワーク1115に渡される前、入力準備プロセス1110に渡すことができる。そのために、顔の画像は、画像処理及び手動測定を介して準備されて、形態学的特徴1153を生成することができる。
【0061】
先の実施形態と異なり、データベース1155から取得された視覚機器の画像のサブセット1132は、少なくとも1つの入力1105としてニューラルネットワーク1115に提供されない。代わりに、ニューラルネットワーク1115は少なくとも1つの入力1105に適用され、ニューラルネットワーク1115は、部分的に視覚機器の画像のサブセット1132に基づいてトレーニングされる。実施形態によれば、ニューラルネットワーク1115のトレーニングの状況において、データベース1155からの視覚機器の画像のサブセット1132の視覚機器の各画像の前処理が必要とされる。
【0062】
データベース1155からの視覚機器の画像のサブセット1132の各視覚機器iについて、顔の各画像で導出された形態学的特徴jに鑑みて、統計学的適合スコアを計算することができる。統計学的適合スコアは、(1)形態学的特徴jに関して視覚機器の画像iに同じバイナリスコア(事例バイナリスコア0又は1)を与え、(2)データベース1155からの視覚機器の画像のサブセット1132内の形態学的特徴jに関して同じ一致スコア(0~Nの事例一致スコア)を与え、又は(3)データベース1155からの視覚機器の画像のサブセット1132内の形態学的特徴jに関して視覚機器の画像iに特定された基準リストの各項目により同じ一致スコアを与えたか、若しくは同じランクを有した(各項目の0~Nの事例一致スコア)ラベラーの割合pjiを含むことができる。先の各状況について、所与の形態学的特徴jの割合pjiに関連付けられた以下のベクトルを得ることができる。1つのベクトルは、視覚機器の画像のサブセット1132の画像iとの顔の画像の形態学的特徴jの適合にそれぞれ対応するN個の二進値{0,1}のベクトルであることができる。第2のベクトルは0~Xの整数値のベクトルであることができ、各整数値は、顔の画像への視覚機器の画像のサブセット1132の画像iの一致スコアに対応する。第3のベクトルは、0~XのM個の整数値のN個のリストlのベクトルであることができ、各リストlの各整数値は、1組のM個の一致ルールの各ルールでの顔の画像に対する視覚機器の画像のサブセット1132の画像iの一致スコアに対応する。次に、上述した前処理に鑑みて、トレーニングを開始することができる。トレーニングへの少なくとも1つの入力は形態学的特徴であることができ、ニューラルネットワークは、畳み込み層及び全結合層を有する組合せニューラルネットワークとして構成することができる。加えて、活性化関数は、正規化線形ユニット(ReLU)を含め、pji個の重みが関連付けられた任意の種類の標準活性化関数であることができる。一致情報を含む関連付けられたベクトルは、ターゲットベクトルと呼ぶことができる。ニューラルネットワークのトレーニングは、ターゲットベクトル全体に対して又は選択ニューロンを特にトレーニングするターゲットベクトルの構成要素に対して首尾よく行うことができる。
【0063】
これより
図11Kに戻ると、ニューラルネットワーク1115の出力層1117は、適合尺度1120についてのニューラルネットワーク1115の予測を反映する。適合尺度1120は一致スコア1121であることができ、上述したベクトルの1つであることができる。特に、一致スコア1121は、(1)それぞれが視覚機器のNの画像のサブセット1132の画像iとの顔の画像の形態学的特徴jの適合に対応するN個の二進値{0,1}のベクトル、(2)それぞれが顔の画像への視覚機器の画像のサブセット1132の画像iの一致スコア1121に対応する0~Xの整数値のベクトル、又は(3)0~XのM個の整数値のN個のリストlのベクトルであって、各リストlの各整数値は、1組のM個の一致ルールの各ルールでの顔の画像に対する視覚機器のNの画像のサブセット1132の画像iの一致スコア1121に対応する、ベクトルであることができる。実施形態では、一致スコア1121の予測は、少なくとも1つの入力1105とデータベース1155からの視覚機器の画像のサブセット1132との各組合せについてニューラルネットワーク1115により生成することができ、データベース1155は、「VE1」、「VE2」、及び「VE N」までの視覚機器の連続画像を含む。実施形態では、データベース1155は、小売店で入手可能な視覚機器の画像の予め選択されたサブセット又はユーザに関連付けられた特定の特性に適切であると先に特定された視覚機器の画像の予め選択されたサブセットであることができる。
【0064】
図11Lは、
図8Eに鑑みて、少なくとも1つの入力1105が顔の画像を含むML-VESTの概略図を反映する。事例(9)を反映したそのようなプロセスでは、少なくとも1つの入力1105は、少なくとも1つの入力1105を形態学的特徴及び視覚機器の画像のサブセットの各視覚機器に関連付けられた対応する視覚機器属性に鑑みて評価できるようにするアーキテクチャを有するニューラルネットワーク1115に通すことができる。実施形態では、少なくとも1つの入力1105は、ニューラルネットワーク1115に渡される前、入力準備プロセス1110に渡すことができる。そのために、顔の画像は、画像処理及び手動測定を介して準備されて、形態学的特徴1153を生成することができる。先の実施形態と異なり、視覚機器の画像のサブセットの各視覚機器に関連付けられた視覚機器又は視覚機器属性は、少なくとも1つの入力1105としてニューラルネットワーク1115に提供されない。代わりに、ニューラルネットワーク1115は少なくとも1つの入力1105に適用され、ニューラルネットワーク1115は、部分的に形態学的特徴及び視覚機器の画像のサブセットの各視覚機器に関連付けられた対応する視覚機器属性に基づいてトレーニングされる。実施形態によれば、ニューラルネットワーク1115のトレーニングの状況において、顔の画像の形態学的特徴に鑑みたデータベースからの視覚機器の画像のサブセットの視覚機器の各画像の前処理1133が必要とされる。前処理1133は、F
jiを定義する座標情報、最良一致が視覚機器i又はVEiである形態学的特徴j、及び座標対{視覚機器i,形態学的特徴j}に最高スコアを与えるNpラベラーの割合p
jiを含む。
【0065】
このために、視覚機器の画像のサブセットの視覚機器iの各画像について、顔の画像の形態学的特徴に鑑みて、統計学的適合スコアを計算することができる。統計学的適合スコアは、(1)視覚機器iを形態学的特徴jに関連付け(バイナリスコア1)、(2)形態学的特徴jに関して視覚機器の画像のサブセットの視覚機器iに同じ一致スコアを与えたか、若しくは同じランクを有し(事例一致スコア0~N)、又は(3)顔情報jに関して視覚機器の画像のサブセットの視覚機器iに特定された基準リストの各項目により同じ一致スコアを与えたか、若しくは同じランクを有した(各項目で0~Nの事例一致スコア)ラベラーの割合pjiを含むことができる。簡潔にするために、不完全なデータセットは無視され、ラベラーが、形態学的特徴jに対する視覚機器の画像のサブセットからの各視覚機器iの一致スコア(0~N)を与えた場合のみを仮定することができる。さらに、形態学的特徴jの各エントリについて、各ラベラーの最高スコアを有する視覚機器属性のみが保持される。上記に鑑みて、視覚機器の画像のサブセットの各視覚機器iを全ての形態学的特徴Fjiに関連付ける行列を得ることができる。形態学的特徴Fjiは、ラベラーの割合pjiによる最良一致を含むことができる。
【0066】
次に、上述した前処理に鑑みて、トレーニングを開始することができる。トレーニングへの少なくとも1つの入力は形態学的特徴及び視覚的測定であることができ、ニューラルネットワークは、畳み込み層及び全結合層を有する組合せニューラルネットワークとして構成することができる。全結合層は埋め込み用に構成される。Dニューロンの全結合層である埋め込み層1118は、前処理中に特定された各視覚機器iに関する、ベクトル空間における形態学的特徴のベクトル表現を含む。埋め込み層1118内に含まれるD次元のベクトル空間1119の各クラスタiは、視覚機器を表し、各形態学的特徴はDベクトル座標により表すことができる。
【0067】
トレーニング中、ランダムサンプリングを実施して、特定の数の形態学的特徴対をランダムに選択することができ、形態学的特徴対は{Fki,Fli}として定義される。例示的な対として、Fki及びFliは、各割合pki及びpliを有する視覚機器iに対する良好な一致であると判断される。その場合、バックプロパゲーションは、2つの活性化関数f(Fki,pki)とf(Fli,pli)との間の差分を最小化すると見なすことができ、式中、fは活性化関数である。例示的な対として、Fki及びFiiは、割合pki及びpliをそれぞれ有する視覚機器iに関する不良な一致と判断される。その場合、バックプロパゲーションは、2つの活性化関数f(Fki,pki)とf(Fli,pli)との間の差分を最大化すると見なすことができ、式中、fは活性化関数である。
【0068】
これより
図11Lに戻ると、ニューラルネットワーク1115の出力層1117は、適合尺度1120についてのニューラルネットワーク1115の予測を反映する。適合尺度1120は、次元ベクトル空間1119における形態学的特徴F
ijの座標であることができる。形態学的特徴F
ijの座標の後処理は、(1)D次元ベクトル空間1119における各クラスタiの重心を計算することと、(2)出力座標と各クラスタiの重心との間の距離を計算し、それにより、出力座標に最も近いものから最も遠いものへの視覚機器(各クラスタiの重心)のランクを含むベクトルを生成することとを含むことができる。実施形態では、形態学的特徴F
ijの座標の予測は、形態学的特徴及びニューラルネットワーク1115がトレーニングされたデータベースからの視覚機器の画像のサブセットの対応する視覚機器属性に鑑みて考慮された少なくとも1つの入力1105のそれぞれについて、ニューラルネットワーク1115により生成することができる。実施形態では、データベースは、小売店で入手可能な視覚機器の画像の予め選択されたサブセット又はユーザに関連付けられた特定の特性に適切であると先に特定された視覚機器の画像の予め選択されたサブセットであることができる。
【0069】
図11Mは、少なくとも1つの入力1105が顔の画像を含むML-VESTの概略図を反映する。事例(10)を反映したそのようなプロセスでは、少なくとも1つの入力1105は、少なくとも1つの入力1105を視覚機器の画像のサブセット1132の各視覚機器と突き合わせて評価できるようにするアーキテクチャを有するニューラルネットワーク1115に通すことができる。実施形態では、少なくとも1つの入力1105は、ニューラルネットワーク1115に直接渡すことができ、ここで畳み込みが実行される。畳み込みは、例えば、顔の画像を含む少なくとも1つの入力1105に適用される畳み込みニューラルネットワーク1112により実行されて、特徴抽出を実行し、ニューラルネットワーク1115の入力層への入力に向けて顔の画像を準備することができる。
【0070】
先の実施形態と異なり、データベース1155から取得された視覚機器の画像のサブセット1132は、少なくとも1つの入力1105としてニューラルネットワーク1115に提供されない。代わりに、ニューラルネットワーク1115は少なくとも1つの入力1105に適用され、ニューラルネットワーク1115は、部分的に視覚機器の画像のサブセット1132に基づいてトレーニングされる。実施形態によれば、ニューラルネットワーク1115のトレーニングの状況において、データベース1155からの視覚機器の画像のサブセット1132の視覚機器の各画像の前処理が必要とされる。
【0071】
データベース1155からの視覚機器の画像のサブセット1132の各視覚機器iについて、顔の各画像で導出された形態学的特徴jに鑑みて、統計学的適合スコアを計算することができる。統計学的適合スコアは、(1)形態学的特徴jに関して視覚機器の画像iに同じバイナリスコア(事例バイナリスコア0又は1)を与え、(2)データベース1155からの視覚機器の画像のサブセット1132内の形態学的特徴jに関して同じ一致スコア(0~Nの事例一致スコア)を与え、又は(3)データベース1155からの視覚機器の画像のサブセット1132内の形態学的特徴jに関して視覚機器の画像iに特定された基準リストの各項目により同じ一致スコアを与えたか、若しくは同じランクを有した(各項目の0~Nの事例一致スコア)ラベラーの割合pjiを含むことができる。先の各状況について、所与の形態学的特徴jの割合pjiに関連付けられた以下のベクトルを得ることができる。1つのベクトルは、視覚機器の画像のサブセット1132の画像iとの顔の画像の形態学的特徴jの適合にそれぞれ対応するN個の二進値{0,1}のベクトルであることができる。第2のベクトルは0~Xの整数値のベクトルであることができ、各整数値は、顔の画像への視覚機器の画像のサブセット1132の画像iの一致スコアに対応する。第3のベクトルは、0~XのM個の整数値のN個のリストlのベクトルであることができ、各リストlの各整数値は、1組のM個の一致ルールの各ルールでの顔の画像に対する視覚機器の画像のサブセット1132の画像iの一致スコアに対応する。次に、上述した前処理に鑑みて、トレーニングを開始することができる。トレーニングへの少なくとも1つの入力は形態学的特徴であることができ、ニューラルネットワークは、畳み込み層及び全結合層を有する組合せニューラルネットワークとして構成することができる。加えて、活性化関数は、正規化線形ユニット(ReLU)を含め、pji個の重みが関連付けられた任意の種類の標準活性化関数であることができる。一致情報を含む関連付けられたベクトルは、ターゲットベクトルと呼ぶことができる。ニューラルネットワークのトレーニングは、ターゲットベクトル全体に対して又は選択ニューロンを特にトレーニングするターゲットベクトルの構成要素に対して首尾よく行うことができる。
【0072】
これより
図11Mに戻ると、ニューラルネットワーク1115の出力層1117は、適合尺度1120についてのニューラルネットワーク1115の予測を反映する。適合尺度1120は一致スコア1121であることができ、上述したベクトルの1つであることができる。特に、一致スコア1121は、(1)それぞれが視覚機器のNの画像のサブセット1132の画像iとの顔の画像の形態学的特徴jの適合に対応するN個の二進値{0,1}のベクトル、(2)それぞれが顔の画像への視覚機器の画像のサブセット1132の画像iの一致スコア1121に対応する0~Xの整数値のベクトル、又は(3)0~XのM個の整数値のN個のリストlのベクトルであって、各リストlの各整数値は、1組のM個の一致ルールの各ルールでの顔の画像に対する視覚機器のNの画像のサブセット1132の画像iの一致スコア1121に対応する、ベクトルであることができる。実施形態では、一致スコア1121の予測は、少なくとも1つの入力1105とデータベース1155からの視覚機器の画像のサブセット1132との各組合せについてニューラルネットワーク1115により生成することができ、データベース1155は、「VE1」、「VE2」、及び「VE N」までの視覚機器の連続画像を含む。実施形態では、データベース1155は、小売店で入手可能な視覚機器の画像の予め選択されたサブセット又はユーザに関連付けられた特定の特性に適切であると先に特定された視覚機器の画像の予め選択されたサブセットであることができる。
【0073】
図11Nは、少なくとも1つの入力1105が顔の画像を含むML-VESTの概略図を反映する。事例(10)を反映したそのようなプロセスでは、少なくとも1つの入力1105は、少なくとも1つの入力1105を形態学的特徴及び視覚機器の画像のサブセットの各視覚機器に関連付けられた対応する視覚機器属性と突き合わせて評価できるようにするアーキテクチャを有するニューラルネットワーク1115に通すことができる。実施形態では、少なくとも1つの入力1105は、ニューラルネットワーク1115に直接渡すことができ、ここで畳み込みが実行される。畳み込みは、例えば、顔の画像を含む少なくとも1つの入力1105に適用される畳み込みニューラルネットワーク1112により実行されて、特徴抽出を実行し、ニューラルネットワーク1115の入力層への入力に向けて顔の画像を準備することができる。
【0074】
先の実施形態と異なり、視覚機器の画像のサブセットの各視覚機器に関連付けられた視覚機器属性及び対応する形態学的特徴は、少なくとも1つの入力1105としてニューラルネットワーク1115に提供されない。代わりに、ニューラルネットワーク1115は少なくとも1つの入力1105に適用され、ニューラルネットワーク1115は、部分的に形態学的特徴及び視覚機器の画像のサブセットの各視覚機器に関連付けられた対応する視覚機器属性に基づいてトレーニングされる。実施形態によれば、ニューラルネットワーク1115のトレーニングの状況において、顔の画像の形態学的特徴に鑑みたデータベースからの視覚機器の画像のサブセットの視覚機器の各画像の前処理1133が必要とされる。前処理1133は、Fjiを定義する座標情報、最良一致が視覚機器iである顔画像j、及び座標対{視覚機器i,顔画像j}に最高スコアを与えるNpラベラーの割合pjiを含む。
【0075】
このために、視覚機器の画像のサブセットの視覚機器iの各画像について、顔の画像の顔画像1105に鑑みて、統計学的適合スコアを計算することができる。統計学的適合スコアは、(1)視覚機器iを顔画像jに関連付け(バイナリスコア1)、(2)顔の画像の顔画像jに関して視覚機器の画像のサブセットの視覚機器iに同じ一致スコアを与えたか、若しくは同じランクを有し(事例一致スコア0~N)、又は(3)、顔画像jに関して視覚機器の画像のサブセットの視覚機器iに特定された基準リストの各項目により同じ一致スコアを与えたか、若しくは同じランクを有した(各項目で0~Nの事例一致スコア)ラベラーの割合pjiを含むことができる。簡潔にするために、不完全なデータセットは無視され、ラベラーが、顔画像jに対する視覚機器の画像のサブセットからの各視覚機器iの一致スコア(0~N)を与えた場合のみを仮定することができる。さらに、顔画像jの各エントリについて、各ラベラーの最高スコアを有する視覚機器属性のみが保持される。上記に鑑みて、視覚機器の画像のサブセットの各視覚機器iを全ての顔画像Fjiに関連付ける行列を得ることができる。行列Fjiは、ラベラーの割合pjiによる最良一致を含むことができる。
【0076】
次に、上述した前処理に鑑みて、トレーニングを開始することができる。トレーニングへの少なくとも1つの入力は顔画像及び視覚的測定であることができ、ニューラルネットワークは、畳み込み層及び全結合層を有する組合せニューラルネットワークとして構成することができる。全結合層は埋め込み用に構成される。Dニューロンの全結合層である埋め込み層1118は、前処理中に特定された各視覚機器iに関する、ベクトル空間における顔画像のベクトル表現を含む。埋め込み層1118内に含まれるD次元のベクトル空間1119の各クラスタiは、視覚機器を表し、各顔画像はDベクトル座標により表すことができる。
【0077】
トレーニング中、ランダムサンプリングを実施して、特定の数の顔画像対をランダムに選択することができ、形態学的特徴対は{Fki,Fli}として定義される。例示的な対として、Fki及びFliは、各割合pki及びpliを有する視覚機器iに対する良好な一致であると判断される。その場合、バックプロパゲーションは、2つの活性化関数f(Fki,pki)とf(Fli,pli)との間の差分を最小化すると見なすことができ、式中、fは活性化関数である。例示的な対として、Fki及びFliは、割合pki及びpliをそれぞれ有する視覚機器iに関する不良な一致と判断される。その場合、バックプロパゲーションは、2つの活性化関数f(Fki,pki)とf(Fli,pli)との間の差分を最大化すると見なすことができ、式中、fは活性化関数である。
【0078】
これより
図11Nに戻ると、ニューラルネットワーク1115の出力層1117は、適合尺度1120についてのニューラルネットワーク1115の予測を反映する。適合尺度1120は、次元ベクトル空間1119における顔画像F
ijの座標であることができる。顔画像F
ijの座標の後処理は、(1)D次元ベクトル空間1119における各クラスタiの重心を計算することと、(2)出力座標と各クラスタiの重心との間の距離を計算し、それにより、出力座標に最も近いものから最も遠いものへの視覚機器(各クラスタiの重心)のランクを含むベクトルを生成することとを含むことができる。実施形態では、顔画像F
ijの座標の予測は、形態学的特徴及びデータベースからの視覚機器の画像のサブセットの各画像に関連付けられた視覚機器属性に鑑みて、少なくとも1つの入力1105のそれぞれについてニューラルネットワーク1115により生成することができる。実施形態では、データベースは、小売店で入手可能な視覚機器の画像の予め選択されたサブセット又はユーザに関連付けられた特定の特性に適切であると先に特定された視覚機器の画像の予め選択されたサブセットであることができる。
【0079】
図11Oは、少なくとも1つの入力1105が顔の画像を含むML-VESTの概略図を反映する。事例(11)を反映したそのようなプロセスでは、少なくとも1つの入力1105は、少なくとも1つの入力1105を視覚機器の画像のサブセット1132の各視覚機器と突き合わせて評価できるようにするアーキテクチャを有するニューラルネットワーク1115に通すことができる。実施形態では、少なくとも1つの入力1105は、ニューラルネットワーク1115に渡される前、入力準備プロセス1110に渡すことができる。そのために、顔の画像は、画像処理及び手動測定を介して準備されて、形態学的特徴1153を生成することができる。上記に加えて、少なくとも1つの入力1105は、顔の画像に対応する視覚的測定1149を含むことができる。
【0080】
先の実施形態と異なり、データベース1155から取得された視覚機器の画像のサブセット1132は、少なくとも1つの入力1105としてニューラルネットワーク1115に提供されない。代わりに、ニューラルネットワーク1115は少なくとも1つの入力1105に適用され、ニューラルネットワーク1115は、部分的に視覚機器の画像のサブセット1132に基づいてトレーニングされる。実施形態によれば、ニューラルネットワーク1115のトレーニングの状況において、データベース1155からの視覚機器の画像のサブセット1132の視覚機器の各画像の前処理が必要とされる。
【0081】
データベース1155からの視覚機器の画像のサブセット1132の各視覚機器iについて、顔の各画像で導出された形態学的特徴jに鑑みて、統計学的適合スコアを計算することができる。統計学的適合スコアは、(1)形態学的特徴jに関して視覚機器の画像iに同じバイナリスコア(事例バイナリスコア0又は1)を与え、(2)データベース1155からの視覚機器の画像のサブセット1132内の形態学的特徴jに関して同じ一致スコア(0~Nの事例一致スコア)を与え、又は(3)データベース1155からの視覚機器の画像のサブセット1132内の形態学的特徴jに関して視覚機器の画像iに特定された基準リストの各項目により同じ一致スコアを与えたか、若しくは同じランクを有した(各項目の0~Nの事例一致スコア)ラベラーの割合pjiを含むことができる。先の各状況について、所与の形態学的特徴jの割合pjiに関連付けられた以下のベクトルを得ることができる。1つのベクトルは、視覚機器のN個の画像のサブセット1132の画像iとの顔の画像の形態学的特徴jの適合にそれぞれ対応するN個の二進値{0,1}のベクトルであることができる。第2のベクトルは0~Xの整数値のベクトルであることができ、各整数値は、顔の画像への視覚機器の画像のサブセット1132の画像iの一致スコアに対応する。第3のベクトルは、0~XのM個の整数値のN個のリストlのベクトルであることができ、各リストlの各整数値は、1組のM個の一致ルールの各ルールでの顔の画像に対する視覚機器の画像のサブセット1132の画像iの一致スコアに対応する。次に、上述した前処理に鑑みて、トレーニングを開始することができる。トレーニングへの少なくとも1つの入力は形態学的特徴であることができ、ニューラルネットワークは、畳み込み層及び全結合層を有する組合せニューラルネットワークとして構成することができる。加えて、活性化関数は、正規化線形ユニット(ReLU)を含め、pji個の重みが関連付けられた任意の種類の標準活性化関数であることができる。一致情報を含む関連付けられたベクトルは、ターゲットベクトルと呼ぶことができる。ニューラルネットワークのトレーニングは、ターゲットベクトル全体に対して又は選択ニューロンを特にトレーニングするターゲットベクトルの構成要素に対して首尾よく行うことができる。
【0082】
これより
図11Oに戻ると、処理された少なくとも1つの入力は視覚的測定1149と共に、ニューラルネットワーク1115の入力層に渡すことができる。ニューラルネットワーク1115の出力層1117は、適合尺度1120についてのニューラルネットワーク1115の予測を反映する。適合尺度1120は一致スコア1121であることができ、上述したベクトルの1つであることができる。特に、一致スコア1121は、(1)それぞれが視覚機器のNの画像のサブセット1132の画像iとの顔の画像の形態学的特徴jの適合に対応するN個の二進値{0,1}のベクトル、(2)それぞれが顔の画像への視覚機器のN個の画像のサブセット1132の画像iの一致スコア1121に対応する0~Xの整数値のベクトル、又は(3)0~XのM個の整数値のN個のリストlのベクトルであって、各リストlの各整数値は、1組のM個の一致ルールの各ルールでの顔の画像に対する視覚機器のNの画像のサブセット1132の画像iの一致スコア1121に対応する、ベクトルであることができる。実施形態では、一致スコア1121の予測は、少なくとも1つの入力1105とデータベース1155からの視覚機器の画像のサブセット1132との各組合せについてニューラルネットワーク1115により生成することができ、データベース1155は、「VE1」、「VE2」、及び「VE N」までの視覚機器の連続画像を含む。実施形態では、データベース1155は、小売店で入手可能な視覚機器の画像の予め選択されたサブセット又はユーザに関連付けられた特定の特性に適切であると先に特定された視覚機器の画像の予め選択されたサブセットであることができる。
【0083】
図11Pは、少なくとも1つの入力1105が顔の画像を含むML-VESTの概略図を反映する。事例(11)を反映したそのようなプロセスでは、少なくとも1つの入力1105は、少なくとも1つの入力1105を形態学的特徴及び視覚機器の画像のサブセットの各視覚機器に関連付けられた対応する視覚機器属性と突き合わせて評価できるようにするアーキテクチャを有するニューラルネットワーク1115に通すことができる。実施形態では、少なくとも1つの入力1105は、ニューラルネットワーク1115に送られる前、入力準備プロセス1110に渡すことができる。そのために、顔の画像は、画像処理及び手動測定を介して準備されて、形態学的特徴1153を生成することができる。加えて、少なくとも1つの入力1105は、顔の画像に対応する視覚的測定1149を含むことができる。
【0084】
先の実施形態と異なり、視覚機器の画像のサブセットの各視覚機器に関連付けられた視覚機器属性及び対応する形態学的特徴は、少なくとも1つの入力1105としてニューラルネットワーク1115に提供されない。代わりに、ニューラルネットワーク1115は少なくとも1つの入力1105に適用され、ニューラルネットワーク1115は、部分的に形態学的特徴及び視覚機器の画像のサブセットの各視覚機器に関連付けられた対応する視覚機器属性に基づいてトレーニングされる。実施形態によれば、ニューラルネットワーク1115のトレーニングの状況において、顔の画像の形態学的特徴に鑑みたデータベースからの視覚機器の画像のサブセットの視覚機器の各画像の前処理1133が必要とされる。前処理1133は、Fjiを定義する座標情報、最良一致が視覚機器iである形態学的特徴j、並びに座標対{視覚機器i,形態学的特徴j}に最高スコアを与えるNpラベラーの割合pjiを含む。
【0085】
このために、視覚機器の画像のサブセットの視覚機器iの各画像について、顔の画像の形態学的特徴に鑑みて、統計学的適合スコアを計算することができる。統計学的適合スコアは、(1)視覚機器iを形態学的特徴jに関連付け(バイナリスコア1)、(2)顔の画像の形態学的特徴jに関して視覚機器の画像のサブセットの視覚機器iに同じ一致スコアを与えたか、若しくは同じランクを有し(事例一致スコア0~N)、又は(3)顔情報jに関して視覚機器の画像のサブセットの視覚機器iに特定された基準リストの各項目により同じ一致スコアを与えたか、若しくは同じランクを有した(各項目で0~Nの事例一致スコア)ラベラーの割合pjiを含むことができる。簡潔にするために、不完全なデータセットは無視され、ラベラーが、形態学的特徴jに対する視覚機器の画像のサブセットからの各視覚機器iの一致スコア(0~N)を与えた場合のみを仮定することができる。さらに、形態学的特徴jの各エントリについて、各ラベラーの最高スコアを有する視覚機器属性のみが保持される。上記に鑑みて、視覚機器の画像のサブセットの各視覚機器iを全ての形態学的特徴Fjiに関連付ける行列を得ることができる。形態学的特徴Fjiは、ラベラーの割合pjiによる最良一致を含むことができる。
【0086】
次に、上述した前処理に鑑みて、トレーニングを開始することができる。トレーニングへの少なくとも1つの入力は形態学的特徴及び視覚的測定であることができ、ニューラルネットワークは、畳み込み層及び全結合層を有する組合せニューラルネットワークとして構成することができる。全結合層は埋め込み用に構成される。Dニューロンの全結合層である埋め込み層1118は、前処理中に特定された各視覚機器iに関する、ベクトル空間における形態学的特徴のベクトル表現を含む。埋め込み層1118内に含まれるD次元のベクトル空間1119の各クラスタiは、視覚機器を表し、各形態学的特徴はDベクトル座標により表すことができる。
【0087】
トレーニング中、ランダムサンプリングを実施して、特定の数の形態学的特徴対をランダムに選択することができ、形態学的特徴対は{Fki,Fli}として定義される。例示的な対として、Fki及びFliは、各割合pki及びpliを有する視覚機器iに対する良好な一致であると判断される。その場合、バックプロパゲーションは、2つの活性化関数f(Fki,pki)とf(Fli,pli)との間の差分を最小化すると見なすことができ、式中、fは活性化関数である。例示的な対として、Fki及びFliは、割合pki及びpliをそれぞれ有する視覚機器iに関する不良な一致と判断される。その場合、バックプロパゲーションは、2つの活性化関数f(Fki,pki)とf(Fli,pli)との間の差分を最大化すると見なすことができ、式中、fは活性化関数である。
【0088】
これより
図11Pに戻ると、ニューラルネットワーク1115の出力層1117は、適合尺度1120についてのニューラルネットワーク1115の予測を反映する。適合尺度1120は、次元ベクトル空間1119における形態学的特徴F
ijの座標であることができる。形態学的特徴F
ijの座標の後処理は、(1)D次元ベクトル空間1119における各クラスタiの重心を計算することと、(2)出力座標と各クラスタiの重心との間の距離を計算し、それにより、出力座標に最も近いものから最も遠いものへの視覚機器(各クラスタiの重心)のランクを含むベクトルを生成することとを含むことができる。実施形態では、形態学的特徴F
ijの座標の予測は、形態学的特徴及び視覚機器の画像のサブセットの対応する視覚機器属性に鑑みて、少なくとも1つの入力1105について、ニューラルネットワーク1115により生成することができる。実施形態では、データベースは、小売店で入手可能な視覚機器の画像の予め選択されたサブセット又はユーザに関連付けられた特定の特性に適切であると先に特定された視覚機器の画像の予め選択されたサブセットであることができる。
【0089】
図11Qは、少なくとも1つの入力1105が顔の画像を含むML-VESTの概略図を反映する。事例(12)を反映したそのようなプロセスでは、少なくとも1つの入力1105は、少なくとも1つの入力1105を視覚機器の画像のサブセット1132の各視覚機器と突き合わせて評価できるようにするアーキテクチャを有するニューラルネットワーク1115に通すことができる。実施形態では、少なくとも1つの入力1105は、ニューラルネットワーク1115に直接渡すことができ、ここで畳み込みが実行される。畳み込みは、例えば、顔の画像を含む少なくとも1つの入力1105に適用される畳み込みニューラルネットワーク1112により実行されて、特徴抽出を実行し、ニューラルネットワーク1115の入力層への入力に向けて顔の画像を準備することができる。加えて、少なくとも1つの入力1105は、顔の画像に対応する視覚的測定1149を含むことができる。
【0090】
先の実施形態と異なり、データベース1155から取得された視覚機器の画像のサブセット1132は、少なくとも1つの入力1105としてニューラルネットワーク1115に提供されない。代わりに、ニューラルネットワーク1115は少なくとも1つの入力1105に適用され、ニューラルネットワーク1115は、部分的に視覚機器の画像のサブセット1132に基づいてトレーニングされる。実施形態によれば、ニューラルネットワーク1115のトレーニングの状況において、データベース1155からの視覚機器の画像のサブセット1132の視覚機器の各画像の前処理が必要とされる。
【0091】
データベース1155からの視覚機器の画像のサブセット1132の各視覚機器iについて、顔の各画像で導出された形態学的特徴jに鑑みて、統計学的適合スコアを計算することができる。統計学的適合スコアは、(1)形態学的特徴jに関して視覚機器の画像iに同じバイナリスコア(事例バイナリスコア0又は1)を与え、(2)データベース1155からの視覚機器の画像のサブセット1132内の形態学的特徴jに関して同じ一致スコア(0~Nの事例一致スコア)を与え、又は(3)データベース1155からの視覚機器の画像のサブセット1132内の形態学的特徴jに関して視覚機器の画像iに特定された基準リストの各項目により同じ一致スコアを与えたか、若しくは同じランクを有した(各項目の0~Nの事例一致スコア)ラベラーの割合pjiを含むことができる。先の各状況について、所与の形態学的特徴jの割合pjiに関連付けられた以下のベクトルを得ることができる。1つのベクトルは、視覚機器の画像のサブセット1132の画像iとの顔の画像の形態学的特徴jの適合にそれぞれ対応するN個の二進値{0,1}のベクトルであることができる。第2のベクトルは0~Xの整数値のベクトルであることができ、各整数値は、顔の画像への視覚機器の画像のサブセット1132の画像iの一致スコアに対応する。第3のベクトルは、0~XのM個の整数値のN個のリストlのベクトルであることができ、各リストlの各整数値は、1組のM個の一致ルールの各ルールでの顔の画像に対する視覚機器の画像のサブセット1132の画像iの一致スコアに対応する。次に、上述した前処理に鑑みて、トレーニングを開始することができる。トレーニングへの少なくとも1つの入力は形態学的特徴であることができ、ニューラルネットワークは、畳み込み層及び全結合層を有する組合せニューラルネットワークとして構成することができる。加えて、活性化関数は、正規化線形ユニット(ReLU)を含め、pji個の重みが関連付けられた任意の種類の標準活性化関数であることができる。一致情報を含む関連付けられたベクトルは、ターゲットベクトルと呼ぶことができる。ニューラルネットワークのトレーニングは、ターゲットベクトル全体に対して又は選択ニューロンを特にトレーニングするターゲットベクトルの構成要素に対して首尾よく行うことができる。
【0092】
これより
図11Qに戻ると、ニューラルネットワーク1115の出力層1117は、適合尺度1120についてのニューラルネットワーク1115の予測を反映する。適合尺度1120は一致スコア1121であることができ、上述したベクトルの1つであることができる。特に、一致スコア1121は、(1)それぞれが視覚機器のNの画像のサブセット1132の画像iとの顔の画像の形態学的特徴jの適合に対応するN個の二進値{0,1}のベクトル、(2)それぞれが顔の画像への視覚機器の画像のサブセット1132の画像iの一致スコア1121に対応する0~Xの整数値のベクトル、又は(3)0~XのM個の整数値のN個のリストlのベクトルであって、各リストlの各整数値は、1組のM個の一致ルールの各ルールでの顔の画像に対する視覚機器のNの画像のサブセット1132の画像iの一致スコア1121に対応する、ベクトルであることができる。実施形態では、一致スコア1121の予測は、少なくとも1つの入力1105とデータベース1155からの視覚機器の画像のサブセット1132との各組合せについてニューラルネットワーク1115により生成することができ、データベース1155は、「VE1」、「VE2」、及び「VE N」までの視覚機器の連続画像を含む。実施形態では、データベース1155は、小売店で入手可能な視覚機器の画像の予め選択されたサブセット又はユーザに関連付けられた特定の特性に適切であると先に特定された視覚機器の画像の予め選択されたサブセットであることができる。
【0093】
図11Rは、少なくとも1つの入力1105が顔の画像を含むML-VESTの概略図を反映する。事例(12)を反映したそのようなプロセスでは、少なくとも1つの入力1105は、少なくとも1つの入力1105を形態学的特徴及び視覚機器の画像のサブセットの各視覚機器に関連付けられた対応する視覚機器属性と突き合わせて評価できるようにするアーキテクチャを有するニューラルネットワーク1115に通すことができる。実施形態では、少なくとも1つの入力1105は、ニューラルネットワーク1115に直接渡すことができ、ここで畳み込みが実行される。畳み込みは、例えば、顔の画像を含む少なくとも1つの入力1105に適用される畳み込みニューラルネットワーク1112により実行されて、特徴抽出を実行し、ニューラルネットワーク1115の入力層への入力に向けて顔の画像を準備することができる。加えて、少なくとも1つの入力1105は、顔の画像に対応する視覚的測定1149を含むことができる。
【0094】
先の実施形態と異なり、視覚機器の画像のサブセットの各視覚機器に関連付けられた視覚機器属性及び対応する形態学的特徴は、少なくとも1つの入力1105としてニューラルネットワーク1115に提供されない。代わりに、ニューラルネットワーク1115は少なくとも1つの入力1105に適用され、ニューラルネットワーク1115は、部分的に形態学的特徴及び視覚機器の画像のサブセットの各視覚機器に関連付けられた対応する視覚機器属性に基づいてトレーニングされる。実施形態によれば、ニューラルネットワーク1115のトレーニングの状況において、顔の画像の形態学的特徴に鑑みたデータベースからの視覚機器の画像のサブセットの視覚機器の各画像の前処理1133が必要とされる。前処理1133は、Fjiを定義する座標情報、最良一致が視覚機器iである顔画像j、及び座標対{視覚機器i,顔画像j}に最高スコアを与えるNpラベラーの割合pjiを含む。
【0095】
このために、視覚機器の画像のサブセットの視覚機器iの各画像について、顔の画像の顔画像1105に鑑みて、統計学的適合スコアを計算することができる。統計学的適合スコアは、(1)視覚機器iを顔画像jに関連付け(バイナリスコア1)、(2)顔の画像の顔画像jに関して視覚機器の画像のサブセットの視覚機器iに同じ一致スコアを与えたか、若しくは同じランクを有し(事例一致スコア0~N)、又は(3)、顔画像jに関して視覚機器の画像のサブセットの視覚機器iに特定された基準リストの各項目により同じ一致スコアを与えたか、若しくは同じランクを有した(各項目で0~Nの事例一致スコア)ラベラーの割合pjiを含むことができる。簡潔にするために、不完全なデータセットは無視され、ラベラーが、顔画像jに対する視覚機器の画像のサブセットからの各視覚機器iの一致スコア(0~N)を与えた場合のみを仮定することができる。さらに、顔画像jの各エントリについて、各ラベラーの最高スコアを有する視覚機器属性のみが保持される。上記に鑑みて、視覚機器の画像のサブセットの各視覚機器iを全ての顔画像Fjiに関連付ける行列を得ることができる。顔画像Fjiは、ラベラーの割合pjiによる最良一致を含むことができる。
【0096】
次に、上述した前処理に鑑みて、トレーニングを開始することができる。トレーニングへの少なくとも1つの入力は形態学的特徴及び視覚的測定であることができ、ニューラルネットワークは、畳み込み層及び全結合層を有する組合せニューラルネットワークとして構成することができる。全結合層は埋め込み用に構成される。Dニューロンの全結合層である埋め込み層1118は、前処理中に特定された各視覚機器iに関する、ベクトル空間における形態学的特徴のベクトル表現を含む。埋め込み層1118内に含まれるD次元のベクトル空間1119の各クラスタiは、視覚機器を表し、各形態学的特徴はDベクトル座標により表すことができる。
【0097】
トレーニング中、ランダムサンプリングを実施して、特定の数の形態学的特徴対をランダムに選択することができ、形態学的特徴対は{Fki,Fli}として定義される。例示的な対として、Fki及びFliは、各割合pki及びpliを有する視覚機器iに対する良好な一致であると判断される。その場合、バックプロパゲーションは、2つの活性化関数f(Fki,pki)とf(Fli,pli)との間の差分を最小化すると見なすことができ、式中、fは活性化関数である。例示的な対として、Fki及びFliは、割合pki及びpliをそれぞれ有する視覚機器iに関する不良な一致と判断される。その場合、バックプロパゲーションは、2つの活性化関数f(Fki,pki)とf(Fli,pli)との間の差分を最大化すると見なすことができ、式中、fは活性化関数である。
【0098】
これより
図11Rに戻ると、ニューラルネットワーク1115の出力層1117は、適合尺度1120についてのニューラルネットワーク1115の予測を反映する。適合尺度1120は、次元ベクトル空間1119における顔画像F
ij座標であることができる。顔画像F
ijの座標の後処理は、(1)D次元ベクトル空間1119における各クラスタiの重心を計算することと、(2)出力座標と各クラスタiの重心との間の距離を計算し、それにより、出力座標に最も近いものから最も遠いものへの視覚機器(各クラスタiの重心)のランクを含むベクトルを生成することとを含むことができる。実施形態では、顔画像F
ijの座標の予測は、形態学的特徴及びデータベースからの視覚機器の画像のサブセットの対応する視覚機器属性に鑑みて、少なくとも1つの入力1105のそれぞれについて、ニューラルネットワーク1115により生成することができる。実施形態では、データベースは、小売店で入手可能な視覚機器の画像の予め選択されたサブセット又はユーザに関連付けられた特定の特性に適切であると先に特定された視覚機器の画像の予め選択されたサブセットであることができる。
【0099】
本開示の実施形態によれば、ML-VESTのニューラルネットワークは、視覚機器の理想的な座標を反映したユーザの適合尺度を決定するように構成することができる。このために、
図12Aは、上述したML-VESTの構造が略同様である、内部で使用されるラベリングプロセスを反映している。まず、入力画像1205を受信することができる。入力画像1205は、画像準備プロセス1210に送ることができ、それにより、顔ランドマークの座標が特定される。これらの顔ランドマークは、第1に、尺度の距離を確保できるように画像を較正し、第2に、従来の画像処理又は深層学習技法を介して人の顔の画像のランドマークを検出して、これらのランドマークの尺度座標を抽出し、第3に、解剖学的基準点(例えば、顎の最も低い点)に対してこれらの抽出された座標を正則化することにより特定することができる。これらの抽出され正則化された座標は、入力層としてニューラルネットワークのトレーニングプロセス1235に送ることができる。上述したように、ML-VESTの実施中、これと同じ画像準備プロセス1210を辿ることができる。次に、処理された入力画像はラベリングプロセス1240に渡すことができ、ラベラーのグループ、特に専門家ラベラーのカテゴリ1248が処理済み入力画像をラベル付ける。一例では、専門家ラベラーのカテゴリは、3Dモデリングの専門家により支援されるアイケア専門家であることができ、画像の人の顔の形態学的特徴に従って理想的な視覚機器が生成されるように写真の顔の画像をモデリングすることができる。一例では、モデルは、理想的な視覚機器の内部及び外部輪郭ランドマークに対応する尺度座標を構成することができる。前と同様に、理想的な視覚機器尾これらの内部及び外部輪郭ランドマークは、解剖学的基準点(例えば、顎の最も低い点)に正則化することができ、ニューラルネットワークの出力1220として使用することができる。換言すれば、理想的な視覚機器1120の上記ランドマークは、トレーニング中、トレーニングデータとして機能し、ML-VESTの実施中、ニューラルネットワークの出力層を定義する。前と同様に、トレーニングプロセス1235をトレーニングデータベース内の人々の顔の複数の画像のそれぞれに対して繰り返すことができることを理解することができる。
【0100】
ラベリングプロセスの上記ラベリング方式は、ML-VEST内で実施することができる。特に、実施態様は
図12Bに示されるように処理し得る。
【0101】
図12Bを参照すると、入力画像1205は、ニューラルネットワーク1215に渡す前、画像準備プロセス1210に渡すことができる。入力画像1205は、人の顔の画像を含み得る。画像準備プロセス1210は、実施形態によれば、人の顔の画像の形態学的特徴及びランドマークを導出する画像処理を含み得る。処理された入力画像は、ニューラルネットワーク1215の入力層に送ることができ、そこでニューラルネットワーク1215が入力画像に適用される。ラベラーのグループにより示されるように、出力層は、ラベルに関するニューラルネットワーク1215の予測を反映する。この予測又は適合尺度1220は、画像の人の顔についてニューラルネットワーク1215により生成された理想的な視覚機器の座標を反映する。
図12B及びML-VEST内にはっきりと示された
図12Aのトレーニングされたニューラルネットワークの実施中、出力された理想的な視覚機器座標は、データベース内の複数の視覚機器の座標と比較することができ、最も高度に相関するものがユーザに適合した視覚機器として選択される。
【0102】
図13A~
図13Fは、本開示のML-VESTのニューラルネットワークの例示的な実施及び構成要素を示す。
【0103】
レビューとして、ML-VESTのニューラルネットワークへの入力の幾つかの使用事例を考慮することができる:(1)顔の画像及び視覚機器の画像から又は視覚機器を装用している顔の画像から取得される形態学的特徴及び視覚機器属性、(2)顔の画像及び視覚機器属性、(3)形態学的特徴及び視覚機器属性、(4)顔の画像及び視覚機器の画像、(5)形態学的特徴、視覚機器属性、及び視覚的測定、(6)顔の画像、視覚機器属性、及び視覚的測定、(7)形態学的特徴、視覚機器の画像、及び視覚的測定、(8)顔の画像、視覚機器の画像、及び視覚的測定、(9)形態学的特徴、(10)顔の画像、(11)形態学的特徴及び視覚的測定、(12)顔の画像及び視覚的測定。
【0104】
事例(1)、事例(4)、事例(9)、及び事例(10)を除く全ての事例では、2つの異種入力ストリームを組み込まなければならない。顔の画像及び視覚機器の画像を処理するために、
図13Aに示され、
図13Bに詳述されるように、畳み込み+全結合ニューラルネットワークセクションを使用することができる。このために、ニューラルネットワークは、畳み込み層の連続を利用し、各層は、種々のサイズ、パディング、ストライド、及び深度を有する畳み込みフィルタの後に、活性化層(例えば、ReLU、漏洩ReLU)又はプーリングフィルタ(例えば、最大プーリング、平均プーリング)が続くもので構成される。次に、最後の畳み込み層をベクトル化することができ、取得されたベクトルの各実数は、全結合層を通して処理することができ、活性化関数は、ReLU、漏洩ReLU、シグモイド、及びTanH等を含む群から選択することができる。
【0105】
この時点で、ニューラルネットワークのノードのサブセットは、最終出力に先立ってまだ処理されていないままである。
図13Cに示される「データ準備+全結合」ニューラルネットワークセクションは、実数及び例えば、形態学的特徴、視覚機器属性、及び視覚的測定を表す文字列の列記を含むデータを処理するのに使用することができる。まず、データを集約して、異種データのベクトルを形成することができる。次に、ベクトルを均質化して、実数のみを取得することができる。このために、列記は、列記内の項目の順番に対応する整数で置換することができる。例えば、「黄色」は、「空白」、「黄色」、「オレンジ」、「赤」等を含む利用可能な色の列記において「2」番目の項目であるため、色である「黄色」は「2」で置換することができる。各特性は項目の英数字で置換することができる。次に、全結合層を通して取得されたベクトルの各実数を処理することができ、処理は、特に、ReLU、漏洩ReLU、シグモイド、及びTanHを含む群から選択される活性化関数により導出される。
【0106】
均質化後、未処理ノードがまだ存在し得る。「畳み込み+全結合」ネットワークセクションと「データ準備+全結合」ネットワークセクションとの両方の出力を結合するために、(1)各ネットワークセクションの出力ベクトルを統合して一意のベクトルを生成しなければならず、(2)
図13Dに示されるように、「出力準備」ネットワークセクションを通して一意のベクトルを処理しなければならない。「出力準備」ネットワークセクションは、活性化関数がReLU、漏洩ReLU、シグモイド、及びTanH等を含む群から選択されたものである全結合層の連続からなることができる。これらの全結合層の数及びサイズは所望の出力に基づくことができる。例えば、出力が、事例(1)~(8)の場合に可能であるように一意である場合、最後の全結合層は、視覚機器が、入力として与えられた顔の画像に適合する確率(0~1の実数)を表す1つのノードからなり得る。そのような場合、確率は、(1)所望の出力が(一致)二進値である場合、閾値として(例えば、閾値=0.5)定義することができ、又は所望の出力が(一致)スコアである場合、予め定義されるスコア付け範囲に合うようにスケーリングする(例えば、スコアが0~10の場合、確率は10で乗算される)ことができる。
【0107】
図13Eに示されるように、出力は2つ以上のノードであり得る。事例(1)~事例(8)で可能なように、出力が複数であるが、各出力が同じ(且つ一意の)視覚機器に関わる場合、各出力値が特定の基準にリンクされた一致スコアであるとき)、スコア付けの基準と同数のノードが最後の全結合層に存在し得、各ノードは、視覚機器が、基準iに関して、入力として与えられた顔の画像に適合する確率(0~1の実数)を表す。次に、所望の出力が(一致)スコアである場合(例えば、スコアが1~10の場合、確率は10で乗算される)、確率は、予め定義されたスコア付け範囲に合うようにスケーリングし得る。事例(9)~事例(12)で可能であり、
図13Fに示されるように、出力が複数であるが、各出力が幾つかの視覚機器に関わり得る場合、スコア付けの基準の数をスコア付けする視覚機器の数で乗算した数のノードが最後の全結合層に存在し得、各ノードは、視覚機器が、基準iに関して、入力として与えられた顔の画像に適合する確率(0~1の実数)を表す。そのような場合、確率は、(1)所望の出力が(一致)二進値である場合、閾値として(例えば、閾値=0.5)定義することができ、又は(2)所望の出力が(一致)スコアである場合、予め定義されるスコア付け範囲に合うようにスケーリングする(例えば、スコアが0~10の場合、確率は10で乗算される)ことができる。
【0108】
事例(1)に関して、入力として顔の画像及び視覚機器の画像の処理済みの特徴のみがあるため、上述したものと同様に少なくとも1つの「データ準備+全結合」ニューラルネットワークセクションが存在し得、「データ準備+全結合」ニューラルネットワークセクションの出力は、上述したように処理されて、所望の出力に達し得る。
【0109】
事例(4)に関して、入力として顔の画像及び視覚機器の画像の両方があるため、各画像に1つずつ、少なくとも2つの「畳み込み+全結合」ニューラルネットワークセクションが存在し得、2つのネットワークセクションの出力は、上述したのと同様に結合されて、所望の出力に達することができる。
【0110】
事例(9)(
図11K)及び事例(10)(
図11M)の例示的なベクトル実施形態に関して、入力として顔の画像しかないため、少なくとも1つの「畳み込み+全結合」ニューラルネットワークセクションがあり得る。
【0111】
事例(10)(
図11N)及び事例(12)(
図11R)の例示的な座標ベースの実施形態に関して、視覚的測定と共に入力として顔の画像があるため、少なくとも1つの「畳み込み+全結合」ニューラルネットワークセクションがあり得、全結合層は埋め込みを含む。
【0112】
図14は、トレーニングデータを使用してニューラルネットワークをトレーニングするトレーニングプロセス435の実施態様の非限定的な例である。上述したように、トレーニングデータは、例えば、有線又は無線接続を介して接続されたトレーニングデータベースを含む1つ又は複数のソースからの複数のラベル付き入力画像又はデータを含むことができる。
【0113】
プロセス435の動作1480において、ニューラルネットワークの係数の初期推測が生成される。例えば、初期推測は、収集されているデータ及びデータ内の関連するインジケータの事前知識に基づくことができる。さらに、初期推測は、LeCunの初期化、Xavierの初期化、及びKaimingの初期化の1つに基づくことができる。
【0114】
プロセス435の動作1481は、ニューラルネットワークをトレーニングする最適化法の非限定的な例を提供する。プロセス435の動作1481において、ラベル付きデータ(すなわち、グラウンドトゥルース)とニューラルネットワークの現在反復において適用されたニューラルネットワークの出力データとの間の差分の尺度(例えば、距離尺度)を表す誤差が計算される(例えば、損失関数又はコスト関数を使用して)。誤差は、任意の既知のコスト関数又はトレーニングデータ間の距離尺度を使用して計算することができる。さらに、特定の実施態様では、誤差/損失関数は、ヒンジ損失及び交差エントロピー損失の1つ又は複数を使用して計算することができる。一例では、損失関数は、ニューラルネットワークの出力(S
NN)とラベル付きグラウンドトゥルースデータ(S
AGT)との間の平均二乗誤差、すなわち、
【数1】
として定義することができ、
式中、nはトレーニング物体の数である。この損失は、特に確率的勾配降下法を含む最適化法を使用して最小化することができる。
【0115】
さらに、損失関数は正則化手法と組み合わせて、ネットワークがトレーニングデータに表される特定のインスタンスに過剰適合するのを阻止することができる。正則化は、機械学習問題で過剰適合を阻止するのに役立つことができる。トレーニングが長すぎる場合、モデルが十分な表現力を有すると仮定すると、ネットワークは、過剰適合と呼ばれる、そのデータセットに特有のノイズを学習することになる。過剰適合の場合、ニューラルネットワークは不良一般化になり、ノイズがデータセット間で変動するため、分散が大きくなる。バイアス及び分散の和が最小であるとき、最小総誤差が生じる。したがって、可能な限り単純な方法でデータを説明して、トレーニングされたネットワークが、トレーニングデータにおけるノイズに特定の解ではなく、一般解を表す尤度を最大化する極小に達することが望ましい。この目標は、例えば、重み正則化、ラッソ正則化、リッジ正則化、又は弾性ネット正則化を早期に停止することにより達成することができる。
【0116】
特定の実施態様では、ニューラルネットワークはバックプロパゲーションを使用してトレーニングされる。バックプロパゲーションは、ニューラルネットワークのトレーニングに使用することができ、勾配降下最適化法と併せて使用される。フォワードパス中、アルゴリズムは、現在のパラメータΘに基づいてネットワークの予測を計算する。次に、これらの予測は損失関数に入力され、損失関数により、対応するグラウンドトゥルースラベル(すなわち、ラベル付きデータ)と比較される。バックワードパス中、モデルは、現在のパラメータに関する損失関数の勾配を計算し、その後、パラメータは、損失が最小化される方向において予め定義されたサイズのステップサイズをとることにより更新される(例えば、Nesterov運動量法及び種々の適応法のような加速法では、より素早く収束して損失関数を最適化するステップサイズを選択することができる)。
【0117】
バックプロパゲーションが実行される最適化法は、勾配降下、バッチ勾配降下、確率的勾配降下、及びミニバッチ確率的勾配降下の1つ又は複数を使用することができる。さらに、最適化法は、例えば、Nesterov運動量技法又はAdagrad劣勾配法、Adagrad法のAdadelta又はRMSPropパラメータ更新変形、及びAdam適応最適化技法等の適応法を含め、深層ネットワークにおける確率的勾配降下の収束速度を速める1つ又は複数の運動量更新技法を最適化手法において使用して加速することができる。最適化法は、ヤコビ行列を更新ステップに組み込むことにより二次法を適用することもできる。
【0118】
フォワードパス及びバックワードパスは、ネットワークの各層を通して増分的に実行することができる。フォワードパスにおいて、実行は、入力を第1の層に供給することにより開始され、それにより、後続層の入力活性化を生み出す。このプロセスは、最後の層における損失関数に達するまで繰り返される。バックワードパス中、最後の層は、それ自体の学習可能なパラメータ(もしあれば)及びそれ自体の入力に対する勾配を計算し、この勾配は、前層の上流派生物として機能する。このプロセスは、入力層に達するまで繰り返される。
【0119】
図14に示される非限定的な例に戻ると、ネットワークの変化の関数を計算することができ(例えば、誤差勾配)、この誤差変化を使用して、ニューラルネットワークの重み/係数の続く変化の方向及びステップサイズを選択することができるため、プロセス435の動作1482は誤差変化を特定する。このようにして誤差勾配を計算することは、勾配降下最適化法の特定の実施と一貫する。特定の他の実施態様では、当業者には理解されるように、この動作は省略することができ、且つ/又は別の最適化アルゴリズム(例えば、模擬アニーリング遺伝アルゴリズムのような非勾配降下最適化アルゴリズム)に従った別の動作で置換することができる。
【0120】
プロセス435の動作1483において、ニューラルネットワークの新しい組の係数が決定される。例えば、重み/係数は、勾配降下最適化法又は過剰緩和加速法でのように、動作1482において計算された変化を使用して更新することができる。
【0121】
プロセス435の動作1484において、新しい誤差値が、ニューラルネットワークの更新された重み/係数を使用して計算される。
【0122】
プロセス435の動作1485において、予め定義された停止基準を使用して、ネットワークのトレーニングが完了したか否かを判断する。例えば、予め定義される停止基準は、新しい誤差及び/又は実行された総反復回数が予め定義された閾値を超えるか否かを評価することができる。例えば、停止基準は、新しい誤差が予め定義された閾値を下回る場合又は最大反復回数に達した場合、満たすことができる。停止基準が満たされない場合、プロセス435において実行されるトレーニングプロセスは、動作1482に戻り、新しい重み及び係数を使用して動作1482を繰り返すことにより反復ループの開始に戻って継続する(反復ループは動作1482、1483、1484、及び1485を含む)。停止基準が満たされる場合、プロセス435で実行されるトレーニングプロセスは完了する。
【0123】
図15Aは、プロセス435の実施態様の流れ図を示す。
図15Aは、例えば、
図11A~
図11Eに示されるような全結合層を含むフィードフォワード人工ニューラルネットワーク(ANN)における任意のタイプの層に対して一般的である。本開示のANNは、畳み込み、プーリング、バッチ正則化、及び活性化の画像処理ニューラルネットワークが先行する全結合層を含むことができ、当業者には理解されるように、
図15A及び
図15Bの組合せである流れ図を生成する。
図15Aに示されるプロセス435の実施は、本開示のANNを本開示の各トレーニングデータに適用することにも対応する。
【0124】
動作1586において、ニューロン(すなわちノード)間の接続に対応する重み/係数が、処理済み入力画像データに対応する各入力に適用される。
【0125】
動作1587において、重み付き入力が合算される。次層の所与のニューロンに接続する非ゼロの重み/係数のみが、前層で表される処理済み入力画像データにおいて地域局在化する場合、動作1586と動作1587との組合せは基本的に、畳み込み動作の実行と同一である。
【0126】
動作1588において、各閾値が各ニューロンの加重和に適用される。
【0127】
プロセス1589において、重み付けステップ、合算ステップ、及び閾値処理ステップが各後続層に対して繰り替えされる。
【0128】
図15Bは、
図11C~
図11Eで論考されたように、画像準備ステップ中、畳み込みニューラルネットワークが適用されて、本開示のANNの適用に向けて入力画像を準備する、プロセス435の別の実施態様の流れ図を示す。したがって、
図15Bに示されるプロセス435の実施は、畳み込みニューラルネットワークの非限定的な実施態様を使用した隠れ層における入力画像データへの動作に対応する。
【0129】
動作1590において、畳み込み層の計算が、上述したように、当業者による畳み込み層の理解に従って実行される。
【0130】
動作1591において、畳み込みに続き、当業者には理解されるように、バッチ正則化を実行して、前層の出力における変動を制御することができる。
【0131】
動作1592において、バッチ正則化に続き、活性化の上記説明に従って且つ当業者による活性化の理解に従って活性化が実行される。一例では、活性化関数は、上述したように、正規化活性化関数又は例えばReLUである。
【0132】
別の実施態様では、動作1592のReLU層は、動作1591のバッチ正則化層に先立って実行し得る。
【0133】
動作1593において、バッチ正則化及び活性化に続く畳み込み層からの出力は、プーリング層の上記説明に従って且つ当業者のプーリング層の理解に従って実行されるプーリング層への入力である。
【0134】
動作1594において、畳み込み層、プーリング層、バッチ正則化層、及びReLU層のステップを予め定義された数の層に対して全体的又は部分的に繰り返すことができる。上記層に続き(又は上記層と混合して)、ReLU層からの出力は、
図9AのANN層に関して提供された説明に従って実行される予め定義された数のANN層に供給することができる。最後の出力は、先に説明したように、処理済みの入力画像特性である。
【0135】
畳み込みニューラルネットワークアーキテクチャに関して、一般に畳み込み層は入力層の近くに配置され、一方、高レベル推論を実行する全結合層は、損失関数に向かってアーキテクチャの更に先に配置される。プーリング層は、畳み込み後に挿入され、フィルタの空間範囲の低減、ひいては学習可能なパラメータ量の低減を提供することができる。バッチ正則化層は、外れ値への勾配の乱れを統制し、学習プロセスを加速化させる。活性化層も種々の層に組み込まれて、非線形性を導入し、ネットワークが複雑な予測関係を学習できるようにする。活性化関数は、飽和活性化関数(例えば、シグモイド若しくは双曲正接活性化関数)又は正規化活性化関数(例えば、上述したReLU)であることができる。
【0136】
図16は、本開示に記載等のANNにおける層間の相互接続の一例を示す。ANNは全結合及び
図15Bに鑑みて畳み込み、プーリング、バッチ正則化、及び活性化層を含むことができ、これらについては全て上述及び後述する。実施形態では、畳み込みニューラルネットワーク層はANN内に埋め込むことができる。代替的には、畳み込みニューラルネットワークは、ANNの前に配置することができ、畳み込みニューラルネットワークの出力層は、ANNの入力層を部分的に定義する。ANNに対する畳み込みニューラルネットワークの配置は、畳み込みニューラルネットワークが部分的に、ANNの入力層に処理済み入力画像を提供するのと同程度、重要である。
【0137】
なお
図16を参照すると、
図16は、N個の入力、K個の隠れ層、及び3つの出力を有する一般ANNの一例を示す。各層はノード(ニューロンとも呼ばれる)で構成され、各ノードは、入力の加重和を実行し、加重和の結果を閾値と比較して、出力を生成する。ANNは、閾値、結合重み、又はノード数及び/又はノードの接続等のアーキテクチャの詳細を変えることによりクラスのメンバが得られる関数のクラスを構成する。ANNにおけるノードはニューロン(又はニューロンノード)と呼ぶことができ、ニューロンは、ANNシステムの異なる層間に相互接続を有することができる。最も単純なANNは3層を有し、オートエンコーダと呼ばれる。本開示のCNNは、4層以上のニューロンを有することができ、入力ニューロンと同数の出力ニューロンを有することができ:
【数2】
式中、Nは、処理済み入力画像データにおけるデータエントリ数である。シナプス(すなわち、ニューロン間の接続)は、計算においてデータを操作する「重み」(「係数」又は「重み係数」とも同義で呼ばれる)と呼ばれる値を記憶する。ANNの出力は3つのタイプのパラメータに依存する:(i)ニューロンの異なる層間の相互接続パターン、(ii)相互接続の重みを更新する学習プロセス、及び(iii)ニューロンの加重和をその出力活性化に変換する活性化関数。
【0138】
数学的には、ニューロンのネットワーク関数m(x)は、他の関数の合成として更に定義することができる他の関数n
i(x)の合成として定義される。これは、ネットワーク構造として好都合に表現することができ、矢印は、
図16に示されるように、変数間の従属性を示す。例えば、ANNは非線形加重和:
m(x)=K(Σ
iw
in
i(x))
を使用することができ、式中、K(一般に活性化関数と呼ばれる)は、双曲正接等の何らかの予め定義される関数である。
【0139】
図16では、ニューロン(すなわちノード)は閾値関数の周囲の円で示されている。
図16に示される非限定的な例では、入力は、線形関数の周囲の円として示され、矢印はニューロン間の有向通信を示す。特定の実施態様では、ANNはフィードフォワードネットワークである。
【0140】
本開示のANNは、関数Fのクラス内をサーチし、1組の観測を使用して学習して、何らかの最適な意味(例えば、上述したプロセス435の動作1485で使用される停止基準を満たす)で特定のタスクを解くm*∈Fを見つけることにより、特定のタスクを達成するように動作する。例えば、特定の実施態様では、これは、最適解m*について、C(m*)≦C(m)∀m∈Fであるようなコスト関数C:F→mを定義することにより達成することができる(すなわち、解は、最適解の費用未満の費用を有さない)。コスト関数Cは、特定の解が解くべき問題への最適解からどれくらい離れているかの尺度である(例えば、誤差)。学習アルゴリズムは、解空間を繰り返しサーチして、可能な限り最小の費用を有する関数を見つける。特定の実施態様では、費用はデータのサンプル(すなわち、トレーニングデータ)にわたり最小化される。
【0141】
図17をこれより参照すると、
図17は、本開示の例示的な実施形態によるML-VESTのハードウェア説明である。
【0142】
図17では、ML-VESTは、上述したプロセスを実行するCPU1760を含む。ML-VESTは、汎用コンピュータ又は特定の専用機であり得る。一実施形態では、ML-VESTは、プロセッサ1760が視覚機器選択(特に先の開示を参照して論考したプロセスの何れか)を実行するようにプログラムされる場合、専用機になる。
【0143】
代替又は追加として、当業者が認識するように、CPU1760は、FPGA、ASIC、PLDで又は離散論理回路を使用して実施し得る。さらに、CPU1760は、平行して協働作業して、上述した本発明のプロセスの命令を実行する複数のプロセスとして実施し得る。
【0144】
ML-VESTは、ネットワーク1775とインターフェースする、Intel Ethernet PROネットワークインターフェースカード等のネットワークコントローラ1763も含む。理解することができるように、ネットワーク1775は、インターネット等の公開ネットワークであってもよく、又はLAN若しくはWANネットワーク等の私設ネットワークであってもよく、又はそれらの任意の組合せであってもよく、PSTN又はISDNサブネットワークを含むこともできる。ネットワーク1775は、Ethernetネットワーク等の有線であってもよく、又はEDGE、3G、及び4G無線セルラシステムを含むセルラネットワーク等の無線であってもよい。無線ネットワークは、Wi-Fi、Bluetooth、又は既知の任意の他の無線形態の通信であることができる。
【0145】
トレーニングプロセス435中、入力トレーニング画像は、ネットワーク1775を介してML-VESTに無線接続され、又は記憶装置コントローラ1772を通したML-VESTとのハードワイヤード接続を介して接続されたトレーニングデータベース1736から取得することができる。実施形態では、トレーニングデータベース1736は視覚機器データベースである。
【0146】
ML-VESTは、モニタ等のディスプレイ1765とインターフェースする、グラフィックスカード又はグラフィックスアダプタ等のディスプレイコントローラ1764を更に含む。汎用I/Oインターフェース1766は、キーボード及び/又はマウス1767及びディスプレイ1765上又はディスプレイ1765とは別個のタッチスクリーンパネル1768とインターフェースする。汎用I/Oインターフェースは、プリンタ及びスキャナを含む多種多様な周辺機器1769にも接続する。
【0147】
サウンドコントローラ1770もML-VESTに提供されて、スピーカ/マイクロホン1771とインターフェースし、それによりサウンド及び/又は音楽を提供する。
【0148】
汎用記憶装置コントローラ1772は記憶装置媒体ディスク1762を通信バス1773に接続し、通信バス1773は、ML-VESTの全ての構成要素を相互接続するISA、EISA、VESA等であり得る。ディスプレイ1765、キーボード及び/又はマウス1767、及びディスプレイコントローラ1764、記憶装置コントローラ1772、ネットワークコントローラ1763、サウンドコントローラ1770、及び汎用I/Oインターフェース1766の一般的な特徴及び機能の説明は、これらの特徴は既知であるため、簡潔にするために本明細書では省かれる。
【0149】
本開示に記載の例示的な回路要素は、他の要素で置換し得、本明細書に提供される例とは異なる構造を有してもよい。さらに、本明細書に記載の特徴を実行するように構成された回路は、複数の回路ユニット(例えばチップ)で実施してもよく、又は特徴は1つのチップセット上の回路に組み合わせてもよい。
【0150】
本明細書に記載の機能及び特徴は、システムの種々の分散構成要素により実行してもよい。例えば、1つ又は複数のプロセッサがこれらのシステム機能を実行してもよく、プロセッサは、ネットワークで通信する複数の構成要素にわたり分散する。分散構成要素は、種々の人間インターフェース及び通信デバイス(例えば、ディスプレイモニタ、スマートフォン、タブレット、個人情報端末(PDA))に加えて、処理を共有し得る1つ又は複数のクライアント機及びサーバ機を含み得る。ネットワークは、LAN若しくはWAN等の私設ネットワークであってもよく、又はインターネット等の公開ネットワークであってもよい。システムへの入力は、直接ユーザ入力を介して受信されてもよく、リアルタイムで又はバッチプロセスとしてリモートで受信されてもよい。さらに、幾つかの実施態様は、記載されたものと同一ではないモジュール又はハードウェアで実行してもよい。したがって、他の実施態様も請求項に記載され得る範囲内にある。
【0151】
明らかなことに、上記教示に鑑みて多くの変更及び変更が可能である。したがって、添付の特許請求の範囲内で、本明細書に特に説明した以外の方法で本発明を実施してもよいことを理解されたい。
【0152】
本開示の実施形態は、以下の説明においても記載することができる。
【0153】
(1)適合した視覚機器を決定する装置であって、処理回路を備え、処理回路は、少なくとも1つの入力を受信することであって、少なくとも1つの入力は人の顔の画像を含む、受信することと、ニューラルネットワークを少なくとも1つの入力に適用することであって、ニューラルネットワークは、少なくとも1つの入力の少なくとも1つの適合尺度を生成する、適用することと、ニューラルネットワークによって生成された少なくとも1つの適合尺度に基づいて適合した視覚機器を決定することとを行うように構成され、少なくとも1つの適合尺度は、人の顔と視覚機器との間の相関的同期に対応する、装置。
【0154】
(2)少なくとも1つの入力は、視覚機器の画像を含む、(1)に記載の装置。
【0155】
(3)少なくとも1つの入力は、人の顔の画像を含み、人は視覚機器を装用している、(1)又は(2)に記載の装置。
【0156】
(4)少なくとも1つの入力は、処理済みの少なくとも1つの入力であり、処理済みの少なくとも1つの入力は、人の顔の画像から特定される形態学的特徴を含む、(1)~(3)の何れか1つに記載の装置。
【0157】
(5)少なくとも1つの入力は、処理済みの少なくとも1つの入力であり、処理済みの少なくとも1つの入力は、視覚機器の画像から特定される視覚機器属性を含む、(1)~(4)の何れか1つに記載の装置。
【0158】
(6)少なくとも1つの入力は人の視覚的測定を含み、視覚的測定は人の視力を示す、(1)~(5)の何れか1つに記載の装置。
【0159】
(7)処理回路は、トレーニングデータベースでニューラルネットワークをトレーニングするように更に構成され、トレーニングデータベースはトレーニング画像のコーパスを含み、トレーニング画像のコーパスは、人々の顔の画像及び視覚機器の画像を含み、人々の顔の画像のうちの画像と視覚機器の画像のうちの画像との各組合せは、トレーニングデータベースにおいて、ラベラーのグループにより割り当てられた少なくとも1つのトレーニング適合尺度と関連付けられる、(1)~(6)の何れか1つに記載の装置。
【0160】
(8)トレーニング画像のコーパスは、視覚機器を装用している人々の画像を含み、視覚機器を装用している人々の画像の各画像は、トレーニングデータベースにおいて、ラベラーのグループにより割り当てられた少なくとも1つのトレーニング適合尺度と関連付けられる、(1)~(7)の何れか1つに記載の装置。
【0161】
(9)ニューラルネットワークは暗黙的入力を含み、暗黙的入力は予め定義される1組の視覚機器であり、ニューラルネットワークにより生成される少なくとも1つの適合尺度は、少なくとも1つの入力と予め定義された1組の視覚機器のそれぞれ1つとの少なくとも1つの一致スコアである、(1)~(8)の何れか1つに記載の装置。
【0162】
(10)適合した視覚機器を決定するために、処理回路は、最大である少なくとも1つの一致スコアを選択するように更に構成され、最大の少なくとも1つの一致スコアは、少なくとも1つの入力の人の顔に最良に一致する予め定義された1組の視覚機器の1つである、(1)~(9)の何れか1つに記載の装置。
【0163】
(11)最大の少なくとも1つの一致スコアは、少なくとも1つの一致スコアを含むベクトルから選択され、ベクトルにおける少なくとも1つの一致スコアのそれぞれは、予め定義された1組の視覚機器の1つに対応し、少なくとも1つの一致スコアは、ラベラーのグループのうちの、同じ値の少なくとも1つの一致スコアが割り当てられたラベラーの割合に基づく、(1)~(10)の何れか1つに記載の装置。
【0164】
(12)適合した視覚機器を決定するために、処理回路は、少なくとも1つの入力に対応する座標を計算することと、予め定義された1組の視覚機器のそれぞれ1つと関連付けられたクラスタの重心を計算することと、座標とクラスタの各重心との間の距離を計算することであって、距離はベクトルにおいてランク付けられる、計算することと、座標とクラスタの各重心との間の距離を最小にするクラスタのうちのクラスタを選択することとを行うように更に構成される、(1)~(11)の何れか1つに記載の装置。
【0165】
(13)予め定義された1組の視覚機器のそれぞれ1つと関連付けられたクラスタは、ニューラルネットワークのトレーニング中、少なくとも1つのトレーニング一致スコアを最大にする少なくとも1つのトレーニング入力に対応する一致座標を含み、少なくとも1つのトレーニング入力は、人の顔の形態学的特徴を含む、(1)~(12)の何れか1つに記載の装置。
【0166】
(14)適合した視覚機器を決定する方法であって、処理回路により少なくとも1つの入力を受信することであって、少なくとも1つの入力は人の顔の画像を含む、受信することと、処理回路によりニューラルネットワークを少なくとも1つの入力に適用することであって、ニューラルネットワークは、少なくとも1つの入力の少なくとも1つの適合尺度を生成する、適用することと、処理回路により、ニューラルネットワークによって生成された少なくとも1つの適合尺度に基づいて適合した視覚機器を決定することとを含み、少なくとも1つの適合尺度は、人の顔と視覚機器との間の相関的同期に対応する、方法。
【0167】
(15)コンピュータ可読命令を記憶する非一時的コンピュータ可読記憶媒体であって、コンピュータ可読命令は、コンピュータにより実行されると、コンピュータに、適合した視覚機器を決定する方法を実行させ、方法は、少なくとも1つの入力を受信することであって、少なくとも1つの入力は人の顔の画像を含む、受信することと、ニューラルネットワークを少なくとも1つの入力に適用することであって、ニューラルネットワークは、少なくとも1つの入力の少なくとも1つの適合尺度を生成する、適用することと、ニューラルネットワークによって生成された少なくとも1つの適合尺度に基づいて適合した視覚機器を決定することとを含み、少なくとも1つの適合尺度は、人の顔と視覚機器との間の相関的同期に対応する、非一時的コンピュータ可読記憶媒体。
【0168】
(16)少なくとも1つのトレーニング適合尺度は、人の顔との視覚機器の適合の部分評価を含む、(1)~(13)の何れか1つに記載の装置。
【0169】
(17)ラベラーのグループは眼科医を含む、(1)~(13)及び(16)の何れか1つに記載の装置。
【0170】
(18)適合した視覚機器を決定するために、処理回路は、少なくとも1つの適合尺度を所定の閾値と比較するように更に構成される、(1)~(13)、(16)、及び(17)の何れか1つに記載の装置。
【0171】
(19)少なくとも1つの入力は、視覚機器の画像を含む、(14)に記載の方法。
【0172】
(20)少なくとも1つの入力は、人の顔の画像を含み、人は視覚機器を装用している、(14)又は(19)の何れか1つに記載の方法。
【0173】
(21)少なくとも1つの入力は、処理済みの少なくとも1つの入力であり、処理済みの少なくとも1つの入力は、人の顔の画像から特定される形態学的特徴を含む、(14)、(19)、及び(20)の何れか1つに記載の方法。
【0174】
(22)少なくとも1つの入力は、処理済みの少なくとも1つの入力であり、処理済みの少なくとも1つの入力は、視覚機器の画像から特定される視覚機器属性を含む、(14)及び(19)~(21)の何れか1つに記載の方法。
【0175】
(23)少なくとも1つの入力は人の視覚的測定を含み、視覚的測定は人の視力を示す、(14)及び(19)~(22)の何れか1つに記載の方法。
【0176】
(24)処理回路により、トレーニングデータベースでニューラルネットワークをトレーニングすることを更に含み、トレーニングデータベースはトレーニング画像のコーパスを含み、トレーニング画像のコーパスは、人々の顔の画像及び視覚機器の画像を含み、人々の顔の画像のうちの画像と視覚機器の画像のうちの画像との各組合せは、トレーニングデータベースにおいて、ラベラーのグループにより割り当てられた少なくとも1つのトレーニング適合尺度と関連付けられる、(14)及び(19)~(23)の何れか1つに記載の方法。
【0177】
(25)トレーニング画像のコーパスは、視覚機器を装用している人々の画像を含み、視覚機器を装用している人々の画像の各画像は、トレーニングデータベースにおいて、ラベラーのグループにより割り当てられた少なくとも1つのトレーニング適合尺度と関連付けられる、(14)及び(19)~(24)の何れか1つに記載の方法。
【0178】
(26)ニューラルネットワークは暗黙的入力を含み、暗黙的入力は予め定義される1組の視覚機器であり、ニューラルネットワークにより生成される少なくとも1つの適合尺度は、少なくとも1つの入力と予め定義された1組の視覚機器のそれぞれ1つとの少なくとも1つの一致スコアである、(14)及び(19)~(25)の何れか1つに記載の方法。
【0179】
(27)適合した視覚機器を決定するために、処理回路により、最大である少なくとも1つの一致スコアを選択することを更に含み、最大の少なくとも1つの一致スコアは、少なくとも1つの入力の人の顔に最良に一致する予め定義された1組の視覚機器の1つである、(14)及び(19)~(26)の何れか1つに記載の方法。
【0180】
(28)最大の少なくとも1つの一致スコアは、少なくとも1つの一致スコアを含むベクトルから選択され、ベクトルにおける少なくとも1つの一致スコアのそれぞれは、予め定義された1組の視覚機器の1つに対応し、少なくとも1つの一致スコアは、ラベラーのグループのうちの、同じ値の少なくとも1つの一致スコアが割り当てられたラベラーの割合に基づく、(14)及び(19)~(27)の何れか1つに記載の方法。
【0181】
(29)適合した視覚機器を決定するために、処理回路により、少なくとも1つの入力に対応する座標を計算することと、処理回路により、予め定義された1組の視覚機器のそれぞれ1つと関連付けられたクラスタの重心を計算することと、処理回路により、座標とクラスタの各重心との間の距離を計算することであって、距離はベクトルにおいてランク付けられる、計算することと、処理回路により、座標とクラスタの各重心との間の距離を最小にするクラスタのうちのクラスタを選択することとを更に含む(14)及び(19)~(28)の何れか1つに記載の方法。
【0182】
(30)予め定義された1組の視覚機器のそれぞれ1つと関連付けられたクラスタは、ニューラルネットワークのトレーニング中、少なくとも1つのトレーニング一致スコアを最大にする少なくとも1つのトレーニング入力に対応する一致座標を含み、少なくとも1つのトレーニング入力は、人の顔の形態学的特徴を含む、(14)及び(19)~(29)の何れか1つに記載の方法。
【0183】
(31)少なくとも1つのトレーニング適合尺度は、人の顔との視覚機器の適合の部分評価を含む、(14)及び(19)~(30)の何れか1つに記載の方法。
【0184】
(32)ラベラーのグループは眼科医を含む、(14)及び(19)~(31)の何れか1つに記載の方法。
【0185】
(33)適合した視覚機器を決定するために、処理回路により、少なくとも1つの適合尺度を所定の閾値と比較することを更に含む、(14)及び(19)~(32)の何れか1つに記載の方法。
【0186】
(34)少なくとも1つの入力は、視覚機器の画像を含む、(15)に記載の方法。
【0187】
(35)少なくとも1つの入力は、人の顔の画像を含み、人は視覚機器を装用している、(15)又は(34)に記載の方法。
【0188】
(36)少なくとも1つの入力は、処理済みの少なくとも1つの入力であり、処理済みの少なくとも1つの入力は、人の顔の画像から特定される形態学的特徴を含む、(15)、(34)、及び(35)の何れか1つに記載の方法。
【0189】
(37)少なくとも1つの入力は、処理済みの少なくとも1つの入力であり、処理済みの少なくとも1つの入力は、視覚機器の画像から特定される視覚機器属性を含む、(15)及び(34)~(36)の何れか1つに記載の方法。
【0190】
(38)少なくとも1つの入力は人の視覚的測定を含み、視覚的測定は人の視力を示す、(15)及び(34)~(37)の何れか1つに記載の方法。
【0191】
(39)トレーニングデータベースでニューラルネットワークをトレーニングすることを更に含み、トレーニングデータベースはトレーニング画像のコーパスを含み、トレーニング画像のコーパスは、人々の顔の画像及び視覚機器の画像を含み、人々の顔の画像のうちの画像と視覚機器の画像のうちの画像との各組合せは、トレーニングデータベースにおいて、ラベラーのグループにより割り当てられた少なくとも1つのトレーニング適合尺度と関連付けられる、(15)及び(34)~(38)の何れか1つに記載の方法。
【0192】
(40)トレーニング画像のコーパスは、視覚機器を装用している人々の画像を含み、視覚機器を装用している人々の画像の各画像は、トレーニングデータベースにおいて、ラベラーのグループにより割り当てられた少なくとも1つのトレーニング適合尺度と関連付けられる、(15)及び(34)~(39)の何れか1つに記載の方法。
【0193】
(41)ニューラルネットワークは暗黙的入力を含み、暗黙的入力は予め定義される1組の視覚機器であり、ニューラルネットワークにより生成される少なくとも1つの適合尺度は、少なくとも1つの入力と予め定義された1組の視覚機器のそれぞれ1つとの少なくとも1つの一致スコアである、(15)及び(34)~(40)の何れか1つに記載の方法。
【0194】
(42)適合した視覚機器を決定するために、最大である少なくとも1つの一致スコアを選択することを更に含み、最大の少なくとも1つの一致スコアは、少なくとも1つの入力の人の顔に最良に一致する予め定義された1組の視覚機器の1つである、(15)及び(34)~(41)の何れか1つに記載の方法。
【0195】
(43)最大の少なくとも1つの一致スコアは、少なくとも1つの一致スコアを含むベクトルから選択され、ベクトルにおける少なくとも1つの一致スコアのそれぞれは、予め定義された1組の視覚機器の1つに対応し、少なくとも1つの一致スコアは、ラベラーのグループのうちの、同じ値の少なくとも1つの一致スコアが割り当てられたラベラーの割合に基づく、(15)及び(34)~(42)の何れか1つに記載の方法。
【0196】
(44)適合した視覚機器を決定するために、少なくとも1つの入力に対応する座標を計算することと、予め定義された1組の視覚機器のそれぞれ1つと関連付けられたクラスタの重心を計算することと、座標とクラスタの各重心との間の距離を計算することであって、距離はベクトルにおいてランク付けられる、計算することと、クラスタのうち、座標とクラスタの各重心との間の距離を最小にするクラスタを選択することとを更に含む、(15)及び(34)~(43)の何れか1つに記載の方法。
【0197】
(45)予め定義された1組の視覚機器のそれぞれ1つと関連付けられたクラスタは、ニューラルネットワークのトレーニング中、少なくとも1つのトレーニング一致スコアを最大にする少なくとも1つのトレーニング入力に対応する一致座標を含み、少なくとも1つのトレーニング入力は、人の顔の形態学的特徴を含む、(15)及び(34)~(44)の何れか1つに記載の方法。
【0198】
(46)少なくとも1つのトレーニング適合尺度は、人の顔との視覚機器の適合の部分評価を含む、(15)及び(34)~(45)の何れか1つに記載の方法。
【0199】
(47)ラベラーのグループは眼科医を含む、(15)及び(34)~(46)の何れか1つに記載の方法。
【0200】
(48)適合した視覚機器を決定するために、少なくとも1つの適合尺度を所定の閾値と比較することを更に含む、(15)及び(34)~(47)の何れか1つに記載の方法。
【0201】
したがって、上記論考は、本発明の単なる例示的な実施形態を開示し記載している。当業者ならば理解するように、本発明は、本発明の趣旨又は基本特性から逸脱せずに他の特定の形態で実施してもよい。したがって、本発明の開示は、本発明の範囲及び他の請求項の限定ではなく例示として意図される。本開示は、本明細書における教示の容易に認識できるあらゆる変形を含め、本発明の趣旨が公共に捧げられないように上述の請求項の用語の範囲を部分的に定義する。
【符号の説明】
【0202】
100 機械学習ベースの視覚機器選択ツール
105 入力
110 入力準備プロセス
115 機械学習適用プロセス
120 適合尺度
125 視覚機器選択プロセス