(58)【調査した分野】(Int.Cl.,DB名)
前記画像処理モジュールが、バウンディングボックスを使用して、前記セルフィー内に存在する背景特徴から前記顔のうちの少なくとも一部分を分離する、顔検出及び計数モジュールを含む、請求項1に記載のシステム。
前記SQIモジュールが、前記バウンディングボックス内の画素の画像サイズに対する比率を計算することによって、前記カメラまでの距離の画像品質メトリックを判定する、カメラまでの距離モジュールを含む、請求項2に記載のシステム。
前記バウンディングボックス内の画素の画像サイズに対する比率が0.8より大きい場合に、前記論理は、前記コンピュータに、前記画像捕捉デバイスが接近し過ぎていることをユーザに伝達させる、請求項3に記載のシステム。
前記バウンディングボックス内の画素の画像サイズに対する比率が0.4未満である場合に、前記論理は、前記コンピュータに、前記画像捕捉デバイスが離れ過ぎていることをユーザに伝達させる、請求項3に記載のシステム。
前記画像処理モジュールが、前記少なくとも1つのランドマークが存在するかどうかを判定するための、畳み込みニューラルネットワーク(CNN)の形態のランドマーク検出モジュールを含む、請求項1乃至5のいずれか一項に記載のシステム。
前記SQIモジュールが、前記セルフィー内の少なくとも2つのランドマーク点間の画素ベースの距離を、母集団の前記ランドマーク点間の既知の平均距離と比較することによって、前記カメラまでの距離の画像品質メトリックを判定する、カメラまでの距離モジュールを含む、請求項1乃至6のいずれか一項に記載のシステム。
前記SQIモジュールが、ぼやけ係数及びAlexnet CNNの最後の層から抽出された特徴のうちの少なくとも1つから形成されたぼやけ特徴ベクトルによって訓練されたCNNの形態のぼやけ検出モジュールを含む、請求項1乃至8のいずれか一項に記載のシステム。
前記SQIモジュールが、前記オクルージョンの画像品質メトリックについて前記正規化された画像を解析するオクルージョンモジュールを含み、前記オクルージョンモジュールが、少なくとも1つの局所バイナリパターン特徴を少なくとも1つのCNNベースのAlexnet特徴と融合することによって形成されたオクルージョン特徴ベクトルを生成する、請求項1乃至9のいずれか一項に記載のシステム。
前記SQIモジュールが、前記表情の画像品質メトリックについて前記正規化されたセルフィーを解析する表情モジュールを含み、前記表情モジュールが、局所バイナリパターン、勾配のヒストグラム、深層学習技術、又はこれらの組み合わせを適用して、表情特徴ベクトルを判定する、請求項1乃至10のいずれか一項に記載のシステム。
前記画像品質メトリックに関連するメッセージがユーザに表示され、前記メッセージは、オクルージョンが存在し、前記セルフィーがぼやけており、前記画像捕捉デバイスが接近し過ぎており、前記画像捕捉デバイスが離れ過ぎており、顔の表情が存在し、照明が不十分であり、影が存在し、又はこれらの組み合わせが存在することを前記ユーザに示す、請求項1乃至13のいずれか一項に記載のシステム。
【発明を実施するための形態】
【0009】
化粧品業界では、様々な画像解析システム及び方法が使用されており、消費者に肌のプロファイル、肌年齢の予測、カスタマイズされたスキンケア製品の推奨事項、及びスキンケアレジメンを提供している。セルフィーは最近撮影されている写真の最も一般的な種類のうちの1つであるため、従来の肌モデル/肌解析システムで使用される画像の全てではないにしても、ほとんどがセルフィーであることは珍しくない。しかしながら、カメラの品質、照光、ユーザのスキル、カメラからの距離等に関連する画像品質のばらつきが大きいことに起因して、セルフィーを解析することが問題となることがある。画像品質は、従来の画像解析システムによって提供される肌解析予測/結果の精度に直接影響を及ぼし得る。したがって、より低い画像品質は、精度の低い年齢予測、肌状態プロファイル、製品推奨事項、及び/又はレジメン推奨事項をもたらす可能性がある。逆に、より高い品質のセルフィーは、通常、より良好な画像解析結果をもたらす。
【0010】
いくつかの従来の肌解析システムは、例えば、いわゆるワイヤフレーム等のいくつかの既知の方法のうちの1つを使用することによって、セルフィーの画像品質を改善しようと試みるものであり、これは、より一貫した距離又は角度を有するセルフィーを生成するのに役立つ。しかしながら、従来の画像解析システム及び方法は、例えば、トリミング/境界付け、フィルタリング、コントラスト/色の正規化等の、画像品質に影響を及ぼし得る複数の要因に基づく画像品質の包括的な表示を使用していない。
【0011】
本システム及び方法は、新規なセルフィー品質指数及びユーザフィードバックシステムを利用して、ユーザがより高い品質のセルフィー画像を撮影するのを支援することにより、低品質画像の問題に対処する。好適な肌解析システムによって使用される場合、より高い品質の画像は、肌年齢予測、肌状態プロファイル、スキンケア製品の推奨事項、及び/又はスキンケアレジメンの推奨事項の精度を改善することができる。理想的には、本システム及び方法は、ユーザが、画像解析フィールド内のいくつかによる卓越性の標準である「パスポート品質」セルフィーを捕捉するのに役立ち得る。
【0012】
定義
本明細書で使用するところの「約」とは、値プラスマイナス20パーセント(+/−20%)又はそれよりも低い値(例えば、15%、10%未満、若しくは更には5%未満)に等しい範囲を指すことで、値を修飾する。
【0013】
「畳み込みニューラルネットワーク」とは、フィードフォワード人工ニューラルネットワークの一種であり、個々のニューロンが視野の重複領域に応答するようにタイル状になっている。
【0014】
本明細書におけるシステムの様々な構成要素を指すとき、「連結される」とは、構成要素が互いに電気的、電子的、及び/又は機械的に通信していることを意味する。
【0015】
「配置される」とは、要素が別の要素に対して特定の場所に位置付けされることを意味する。
【0016】
「特徴ベクトル」とは、デジタル画像内の物体の1つ以上の特性を記述する情報を含む一連の特徴を意味する。特徴ベクトル内の各特徴は、通常、1つ以上の数で表されるが、所望に応じて任意の好適なインジケータ(文字、記号、色等)が使用されてもよい。
【0017】
「画像捕捉デバイス」とは、人物の画像を捕捉/記録できるデジタルカメラ又はフィルム使用カメラ等のデバイスを意味する。
【0018】
「接合された」とは、要素を他の要素に直接固着することにより、要素を別の要素に直接固定する構成、及び要素を中間部材(複数可)に固着し、これが次に他の要素に固着されることにより、要素が別の要素に間接的に固定される構成を意味する。
【0019】
「マクロ特徴」とは、ヒトの顔上又はその付近に見られる比較的大きな身体的特徴である。マクロ特徴としては、顔形状、耳、眼、口、鼻、毛髪、及び眉が挙げられるが、これらに限定されない。
【0020】
「ミクロ特徴」とは、ヒトの顔上に見られる老化肌及び/又は肌疾患と一般的に関連付けられている比較的小さい特徴である。ミクロ特徴としては、小じわ、しわ、乾燥肌特徴(例えば、肌の皮剥)、及び色素沈着障害(例えば、色素沈着過剰状態)が挙げられるが、これらに限定されない。ミクロ特徴は、マクロ特徴を含まない。
【0021】
「マスキング」とは、関心領域内に配置された画素により接近している又は同じRGB値を有する画素を用いて、画像内のマクロ特徴の中に及び/又はそれに近接して配置された画素のうちの少なくともいくつかをデジタル的に置き換えるプロセスを指す。
【0022】
本明細書における「モデル」とは、一組の状況、システム、又は自然発生現象を予測、説明、又は模倣するために使用される数学的方程式、アルゴリズム、又はコンピュータソフトウェアを指す。
【0023】
「関心領域」又は「RoI」とは、解析が所望される画像の具体的に区分された部分を意味する。関心領域の非限定的な例としては、以下により詳細に記載されるバウンディングボックス内の画像の一部分が挙げられる。RoIの他の例としては、額、頬、鼻唇溝、眼下のエリア、又は下顎に配置された肌の部分を描写することが挙げられる。いくつかの実例では、RoIは、1つ以上のマクロ特徴がマスキングされた顔の画像の一部分であってもよい。
【0024】
「セルフィー」とは、当人、別の人物、又は自動画像捕捉システム(例えば、写真ブース又はセキュリティカメラ)によって撮影された人物のデジタル写真を指す。セルフィーは、人物の顔と、捕捉された画像内の関連する背景特徴と、を含む。
【0025】
本明細書における「ユーザ」とは、例えば、デバイスユーザ、製品ユーザ、システムユーザ等を含む、少なくとも本明細書で提供される特徴を使用する人物を指す。
【0026】
画像解析システム
本明細書における画像解析システムは、肌状態の解析のために、例えば、訓練された畳み込みニューラルネットワークに、好適な品質の画像が提供されることを確実にするために、未加工のデジタル画像が1つ以上の画像品質モジュールによって処理及び/又は解析されるマルチステップシステムとして構成されてもよい。画像品質モジュールは、第1の工程で定性解析のために画像を処理し、次いで、処理された画像を定性解析して、第2の工程において、セルフィーの画像品質に関連する1つ以上の定性的メトリックを測定するように構成されてもよい。画像品質が品質の閾値レベルを満たしている場合、画像は次いで、好適な肌モデルを使用して更に解析されてもよい。
【0027】
特定の画像品質モジュールによって解析されたメトリック(複数可)は、別のモジュールによって解析されたメトリック(複数可)と同じであっても異なっていてもよい。本システムのモジュールによって解析され得る定性的メトリックのいくつかの非限定的な例は、顔位置、ランドマーク検出、マスキング、画像内に存在する顔の数、カメラからの距離、顔の比率、オクルージョン、顔の表情、ぼやけ、及び照明(方向、位置、強度、及び/又はコントラスト)である。次いで、画像品質モジュールからの解析の結果を使用して、セルフィーの品質を反映するセルフィー品質指数(「SQI」)スコアを生成してもよい。
【0028】
いくつかの実例では、システムは、モバイルコンピューティングデバイス又は別々のディスプレイデバイス(例えば、コンピュータモニタ)上のディスプレイを介して、解析の進行状況をユーザに表示してもよい。例えば、ディスプレイは、システムが解析を実施しているという表示を伴う一連の定性的画像メトリック(例えば、カメラまでの距離、ぼやけ、照光、オクルージョン、表情)をユーザに示すことによって、解析の進行状況をシミュレートしてもよい。いくつかの実例では、セルフィーは、更に、一連のメトリック解析に対応するように修正されてもよい。例えば、システムは、セルフィーがぼやけについて解析されていることをユーザに示してもよく、セルフィーはぼやけたように見えるようになってから、焦点が合うようになってもよい。次に、システムは、画像のコントラスト又は輝度を変化させながら、適切な照光のためにセルフィーが解析されていることをユーザに示してもよい。解析が完了すると、システムは、様々なモジュールによって検出された、セルフィーの品質に影響を及ぼし得るSQIスコア及び/又は任意の問題を表示してもよい。セルフィーの品質スコアに応じて、ユーザは、更なる解析のためにセルフィーを送信するか、又はセルフィーを再撮影するかの選択肢を提供されてもよい。
【0029】
いくつかの実例では、SQIスコアが所定の閾値を満たしている場合、好適な肌モデルを使用して解析される。一方、SQIスコアが所定の閾値を満たしていない場合、システムは、セルフィーが不満足であり、かつ/又は画像が更なる解析を受けないようにすることをユーザに(例えば、視覚又は音声キューを介して)促してもよい。使用されるスコアリングスケールに応じて、閾値は、最小閾値又は最大閾値であってもよい。追加的に又は代替的に、システムは、例えば、どのメトリックが不満足であったか、及び/又は不満足なメトリックを改善する方法を伝達することによって、セルフィーが不満足であった理由に関する情報をユーザに提供してもよい。
【0030】
図1は、人物の画像を捕捉及び解析するための例示的な肌解析システム10を描写する。
図1に例示されるシステム10は、ネットワーク100(例えば、携帯電話ネットワーク、公衆交換電話網、衛星ネットワーク、及び/又はインターネット等の広域ネットワーク、ワイヤレスフィデリティ、Wi−Max、ZigBee(商標)、及び/若しくはBluetooth(商標)等のローカルエリアネットワーク、並びに/又は他の好適な形態のネットワーキング機能の形態)を含む。ネットワーク100には、モバイルコンピューティングデバイス102、リモートコンピューティングデバイス104、及び訓練コンピューティングデバイス108が連結されている。
【0031】
モバイルコンピューティングデバイス102は、携帯電話、タブレット、ラップトップ、携帯情報端末、並びに/又はデジタル写真のような画像を捕捉、格納、及び/若しくは転送するように構成された他のコンピューティングデバイスであってもよい。したがって、モバイルコンピューティングデバイス102は、デジタルカメラのような画像捕捉デバイス103を含んでもよく、かつ/又は他のデバイスから画像を受信するように構成されてもよい。モバイルコンピューティングデバイス102は、画像捕捉論理144a及びインターフェース論理144bを格納する非一時的メモリ構成要素140aを含んでもよい。非一時的メモリ構成要素140aは、ランダムアクセスメモリ(SRAM、DRAM等)、読み出し専用メモリ(read only memory、ROM)、レジスタ、及び/又は他の形態のコンピューティング格納ハードウェアを含んでもよい。画像捕捉論理144a及びインターフェース論理144bは、ソフトウェア構成要素、ハードウェア回路、ファームウェア、及び/又は他のコンピューティングインフラストラクチャを含んでもよい。画像捕捉論理144aは、ユーザのデジタル画像上の捕捉、格納、前処理、解析、転送、及び/又は他の機能の実施を容易にし得る。いくつかの実例では、画像捕捉論理144aは、例えば、スマートフォン「アプリ」の形態で、本明細書に記載されるスマートセルフィーモジュールのいくつか若しくは全部を含んでもよく、又は全く含まなくてもよい。インターフェース論理144bは、質問、選択肢等を含み得る、1つ以上のユーザインターフェースをユーザに提供するように構成されてもよい。モバイルコンピューティングデバイス102はまた、ネットワーク100を介して他のコンピューティングデバイスと通信するために構成されてもよい。
【0032】
リモートコンピューティングデバイス104はまた、ネットワーク100に連結されてもよく、ユーザの顔の捕捉された画像内の肌年齢に寄与する肌特徴を位置特定及び解析することによって、ユーザの肌年齢を判定することができる畳み込みニューラルネットワークを作成、格納、及び/又は訓練するために構成されたサーバ(若しくは複数のサーバ)、パーソナルコンピュータ、モバイルコンピュータ、及び/又は他のコンピューティングデバイスとして構成されてもよい。例えば、CNNは、リモートコンピューティングデバイス104の非一時的メモリ構成要素140bに、論理144c及び144dとして格納されてもよい。小じわ、しわ、黒い(加齢による)斑点、不均一な肌の色合い、シミ、毛穴の広がり、赤味、黄色味、これらの組み合わせ等の、一般に知覚される肌の欠陥は全て、ユーザの肌年齢に寄与するように訓練されたCNNによって識別され得る。
【0033】
リモートコンピューティングデバイス104は、訓練論理144c、解析論理144d、及び/又は処理論理144eを格納する非一時的メモリ構成要素140bを含んでもよい。非一時的メモリ構成要素140bは、ランダムアクセスメモリ(SRAM、DRAM等)、読み出し専用メモリ(ROM)、レジスタ、及び/又は他の形態のコンピューティング格納ハードウェアを含んでもよい。訓練論理144c、解析論理144d、及び/又は処理論理144eは、ソフトウェア構成要素、ハードウェア回路、ファームウェア、及び/又は他のコンピューティングインフラストラクチャを含んでもよい。訓練論理144cは、CNNの作成及び/又は訓練を容易にし、これによりCNNの作成及び/又は操作を容易にし得る。処理論理144eは、モバイルコンピューティングデバイス102(又は他のコンピューティングデバイス)から受信した画像を解析論理144dによる解析のために処理する。いくつかの例では、処理論理144eは、本明細書に記載される画像品質解析モジュールのいくつか若しくは全部を含んでもよく、又は全く含まなくてもよい。画像処理は、マクロ特徴識別、マスキング、分割、及び/又は他の画像変更プロセスを含んでもよく、これは以下により詳細に記載される。解析論理144dは、処理された画像を解析して、見かけ肌年齢、肌状態診断、製品推奨等を提供するための少なくとも1つの肌モデル(例えば、1つ以上のCNNの形態で)を含む。
【0034】
いくつかの実例では、訓練コンピューティングデバイス108は、CNNの訓練を容易にするようにネットワーク100に連結されてもよい。例えば、トレーナは、訓練コンピューティングデバイス108を介して、顔又は肌の1つ以上のデジタル画像をCNNに提供してもよい。トレーナはまた、CNNに、どの評価が正しいか及びどの評価が正しくないかを知らせる情報、並びにその他の指示(例えば、実年齢)を提供してもよい。トレーナからの入力に基づいて、CNNは、以下でより詳細に説明するように、自動的に適応してもよい。
【0035】
システム10はまた、モバイルコンピューティングデバイス102と同様に動作し得るキオスクコンピューティングデバイス106を含み得るが、1つ以上の製品を販売し、かつ/又は現金若しくは電子商取引の形態で支払いを受け取ることもできる。当然ながら、支払い及び/又は製品販売も提供するモバイルコンピューティングデバイス102が本明細書で企図されることを理解されたい。いくつかの実例では、キオスクコンピューティングデバイス106及び/又はモバイルコンピューティングデバイス102はまた、CNNの訓練を容易にするように構成されてもよい。したがって、モバイルコンピューティングデバイス102及びリモートコンピューティングデバイス104について描写及び/又は記載したハードウェア及びソフトウェアは、キオスクコンピューティングデバイス106、訓練コンピューティングデバイス108、及び/又は他のデバイスに含まれてもよい。
【0036】
また、リモートコンピューティングデバイス104が
図1に画像処理及び画像解析を実施するものとして描写されているが、これは一例に過ぎないこともまた理解されたい。画像処理及び/又は画像解析は、所望に応じて、任意の好適なコンピューティングデバイスによって実施されてもよい。
【0037】
画像品質モジュール及びセルフィー品質指数スコア
本明細書における画像品質モジュールは、画像処理モジュール及びSQIモジュールを含み得る。画像が、モバイル及び/又はリモートコンピューティングデバイスに連結された好適な画像捕捉デバイスによって捕捉されると、画像処理モジュール(複数可)は、SQIモジュールによる品質メトリック解析のために未加工画像を処理し、又は更なる解析に好適でないものとして画像を分類してもよい。SQIモジュールは、画像品質の様々なメトリック(以下でより詳細に論じられる)に対応する1つ以上の特徴ベクトルを提供してもよく、これを使用して、セルフィー品質指数スコアを計算する。各SQIモジュールから出力される特徴ベクトルは、SQIスコアに等しく又は不均衡に寄与し得る。例えば、1つのSQIモジュールからの出力は、他のSQIモジュールのうちの1つ以上(例えば、2×、3×、4×、5×、6×、又は更には7×ほど多く)よりも多くのSQIスコアに寄与するように重み付けされてもよい。
【0038】
本明細書におけるシステム及び方法では、SQIスコアは、ユーザに伝達され、及び/又は画像解析プロセスにおける後続のステップを判定するために使用されてもよい。SQIスコアは、バイナリの(例えば、0又は1、はい又はいいえ、合格又は不合格)、スケーリングされた(例えば、1〜10又は1〜100のスケールの値)、及び/又は定性的な(例えば、不良、適度、良、優秀)ものあってもよい。例えば、バイナリスコアリング形式では、各SQIモジュールは、画像が所定の最小の品質基準を満たす場合に品質メトリックスコア1を生成し、又は画像が最小の品質基準を満たさない場合に品質メトリックスコア0を生成してもよい。この例には8個のSQIモジュールが存在し、全てがSQIスコアに等しく寄与する場合、SQIスコアは0〜8の範囲であり得る。スケーリングされたスコア形式の一例では、8個のSQIモジュールの各々からの特徴ベクトルは、1〜10のスケールに関する値として提供されてもよく、1は、その特定の特徴ベクトルの最低品質メトリックに対応する。SQIモジュールからのスコアを組み合わせて、8〜80の範囲のSQIスコアを提供してもよく、かつ/又は組み合わせたスコアを平均して、1〜10の範囲のSQIスコアを提供してもよい。当然ながら、SQIスコアは、SQIモジュールの個々の特徴ベクトルを組み合わせる任意の好適な方法によって計算され、かつ/又は所望に応じて任意の形式で提示されてもよいことを理解されたい。
【0039】
いくつかの実例では、SQIスコアは、セルフィーの品質を改善するために、ユーザに対してフィードバックを使用生成されてもよい。例えば、以下でより詳細に記載されるSQIスコアを計算するために使用される1つ以上の特徴ベクトルは、セルフィーの品質を改善するためのガイダンス及び/又はプロンプトを(例えば、モバイルコンピューティングデバイスディスプレイを介して)ユーザに提供するために、システムによって使用されてもよい。この例では、SQIスコアが最小閾値を下回る(例えば、1〜10のスケールで6、5、4、又は3を下回る)、又は最大閾値を上回る(例えば、10が最低品質に相当する1〜10のスケールで4、5、6、又は7を上回る)場合に、システムは、ユーザにセルフィーを再撮影するように促してもよい。いくつかの実例では、個々の特徴ベクトルのうちの1つ以上が最小許容閾値を下回る(例えば、ぼやけが1〜10のスケールで3又は2未満である)場合、システムは、ユーザにセルフィーを再撮影するように促してもよい。いくつかの実例では、SQIスコアが閾値を満たすが、依然として所望の又は理想的な品質レベル未満の場合、セルフィーを再撮影し、又はセルフィーを解析する選択がユーザに提供されてもよい。いくつかの実例では、SQIスコアを使用して、画像を品質カテゴリ(例えば、不良、適度、良、優秀)に分類してもよく、これは次いで、ユーザに伝達され得る。いくつかの実例では、ユーザは、例えば、ユーザのSQIスコアを、ユーザの以前のSQIスコアと比較することによって、又はユーザの母集団の平均SQIスコアと比較することによって、ユーザのSQIスコアを改善するように促されてもよい。
【0040】
画像処理モジュール
画像品質モジュールは、1つ以上の画像処理モジュールを含んでもよい。画像処理モジュールは、画像内の顔を位置特定及び/又は計数し、画像内の顔から異なるゾーンを抽出し、ランドマークとして1つ以上の顔特徴を使用して顔を位置合わせし、かつ/又は顔を共通座標系に正規化するように構成されてもよい。いくつかの実例では、画像処理モジュールは、顔検出及び計数モジュール(Face Detection and Counting module、「FDCモジュール」)、ランドマーク検出モジュール(Landmark Detection module、「LDモジュール」)、及び/又は顔位置合わせモジュール(Face Registration module、「FRモジュール」)を含んでもよい。
【0041】
いくつかの実例では、画像処理段階の第1の工程は、顔検出及び計数モジュールがセルフィー画像内に顔が存在するかどうか、及び/又は顔がいくつ存在するかを判定することである。FDCモジュールによって単一の顔が検出された場合、FDCモジュールは、例えば、バウンディングボックスを使用して、画像の残りの部分から顔を分離し、次いで、分離された顔をランドマーク検出モジュールに渡してもよい。複数の顔が検出された場合、FDCモジュール又は制御アプリケーション(すなわち、様々なモジュール間及び/又はモジュールとシステムの他の構成要素との間の特定の相互作用を調整する論理)は、画像の処理を継続するかどうかを判定してもよい。例えば、FDCモジュールは、画像内に存在する最大の顔(例えば、画素面積の合計に基づいて)、及び/又は画像の中心に最も接近して位置特定されている顔を選択し、選択された顔を分離し、かつ分離された顔をLDモジュールに渡してもよい。いくつかの実例では、複数の顔が画像内で検出された場合、FDCモジュールは、システムに、画像内で複数の顔が検出されたことをユーザに伝達させ、かつ/又は画像内に存在する1つの顔のみのセルフィーを再撮影するようにユーザに促させてもよい。
【0042】
FDCモジュールは、当該技術分野において既知の任意の好適な顔検出技術を使用してもよい。本明細書における使用に好適であり得る顔検出技術のいくつかの非限定的な例としては、M.Mathiasらによって「Face Detection Without Bells and Whistles」ECCV,.2014に記載されている「Bells and Whistle」技法、Wuらによって「Funnel−Structured Cascade for Multi−View Face Detection with Alignment−Awareness」 Neurocomputing,2016に記載されているSeeta技法、並びにPaul Viola及びMichael Jonesによって「Robust Real−time Object Detection」IJCV,2001に記載されているViola−Jones技法が挙げられる。
【0043】
図2は、バウンディングボックス202内のセルフィー200の例示的な図である。バウンディングボックス202は、関心領域(例えば、額、頬、眼、下顎、及び口等の顔特徴)を含む画像の一部分を、画像200の残りの部分から分離する。バウンディングボックス202は、背景物体、顔のマクロ特徴、若しくは他の身体部分、及び/又はその部分(例えば、毛髪、耳、及び肩)を除去するようにサイズ決定されてもよい。
図2に描写するバウンディングボックスは矩形であるが、バウンディングボックスは、所望に応じて任意の好適な形状であり得ることを理解されたい。いくつかの実例では、バウンディングボックスは、顔の輪郭と同一の広がりを持っていてもよい。
【0044】
図3は、FDCモジュールが画像内の複数の顔を検出する一例を示す。この例では、FDCモジュールは、システムにエラーメッセージ302を提供して、複数の顔が検出されたことをユーザに示す。システムはまた、視覚キュー304及び306によって示されるように、セルフィーを再撮影するための口頭要求を提供してもよい。システムはまた、ユーザがセルフィーを再撮影するために使用するボタン308を提供してもよい。いくつかの実例では、FDCモジュールは、システムに、モバイルコンピューティングデバイス310のディスプレイ上の画像内で検出された画像及び/又は顔300のうちの1つを表示させてもよい。
【0045】
FDCモジュールから顔の分離された画像を受け取ると、ランドマーク検出モジュールは、顔の画像を解析して、様々な顔のランドマーク点を識別し(すなわち、位置特定及び/又は解析し)、顔の画像の少なくともいくつかは、画像を正規化するために顔位置合わせモジュールによって使用されてもよい。顔上で識別されたランドマーク点は、顔のランドマーク検出アルゴリズムによって事前決定又は選択されてもよい。本システムにおける使用に好適であり得るランドマーク検出アルゴリズムのいくつかの非限定的な例としては、タスク制約付きディープ畳み込みネットワーク(tasks-constrained deep convolutional networks、「TCDCN」)及びDlib and The Menpo Projectから入手可能なランドマーク検出ソフトウェアアプリケーションが挙げられる。いくつかの実例では、LDモジュールは、システムに、画像内に存在する1つ以上の顔のマクロ特徴をマスキングさせてもよい。顔のランドマークが検出されない場合、LDモジュールは、システムに、セルフィーの任意の更なる解析を控えさせ、かつ/又はセルフィーを再撮影するようにユーザに求めてもよい。
【0046】
図4は、顔400上の様々なマクロ特徴(例えば、眼、眉、鼻、頬、下顎、顎、及び毛髪)に対応するランドマーク点402を含む顔400の画像を示す。
図4に示す例では、眼、眉、鼻、口、及び顔の周囲を位置特定するために、68個のランドマーク点が使用される。例えば、各眉は、眉の長さに沿って延在する5個の点を使用して位置特定していてもよい。各眼は、上眼瞼及び下眼瞼の各々の2点、並びに眼の内側及び外側角部の各々の1点が配置された6点を使用して位置特定されてもよい。鼻は、鼻梁に沿って鼻の端部まで延在する4点を使用して位置特定されてもよい。口は、口の各角部の2点、上唇の上部分及び下唇の下部分の各々の5点、上唇の下部分及び下唇の上部分の各々の3点を使用して配置された20点を使用して位置特定されてもよい。顔の輪郭又は境界は、1つのこめかみから(例えば、生え際において)顎の線、下顎の周り、及び反対側の顎線を上がって反対側のこめかみに(例えば、生え際において)延在する17点を使用して位置特定されてもよい。当然ながら、所望に応じて、任意の数のランドマーク点及び/又は顔特徴が使用されてもよいことを理解されたい。
【0047】
ランドマーク検出モジュールによる解析の後、画像及び識別されたランドマーク点は、顔位置合わせモジュールに渡され、画像不整合の問題を解決するのに役立つ。また、SQIモジュールのための特徴を抽出する際の被写体間の差異を最小化するために、画像を共通座標系に正規化及び位置合わせすることも重要である。したがって、空間的に敏感な特徴は、異なる画像にわたってSQIモジュールによって一貫して抽出することができる。
【0048】
いくつかの実例は、
図5Aに示すように、4つのランドマーク点が選択されてもよく、これは、各眼の外側角部510及び511、並びに口の外側角部512及び513を含んでもよい。円515は、
図5Bに示すように、円の外周が4つの青色のランドマーク510、511、512、及び513と交差するように内接し得る。円515の方程式は、以下のように定義することができる。
x
2+y
2+Ax+By+C=0
【0049】
上記の内接円の方程式には3つの未知数(A、B、及びC)があるため、各々、3つのランドマーク点を使用する3つの方程式が使用され得る。この例では、使用されるランドマーク点が4つ存在するため、4つの点の組み合わせを全て実施することができる(すなわち、「4つの選択3」)。したがって、円515は、外周部と除外された点との間に最小の最小二乗距離(R)を有するものとして説明することができる。次に、θを2つの眼のランドマーク及び2つの唇の角部によって画定される平均ベクトルによって判定することができる。これにより、長さR及び角度θを有する仮想線を計算することができる。次いで、
図5Cに示すように、画像は−θだけ回転され、円515の中心を基準点として使用して、かつ中心点の左右に1.2Rまで、全長2.4Rで、及び上下2Rで、全長4Rでトリミングされる。本明細書における使用に好適であり得る正規化方法の非限定的な例は、Jiansheng Chenらによる「Image Quality Assessment Based on Learning to Rank」,IEEE Signal Processing Letters,Vol.22,No.1,pp.90−94,2015に記載されている。
【0050】
図6は、前処理モジュールを通る画像のフローパス600を示す。ブロック602において、画像処理デバイスによって画像が捕捉される。ブロック602において捕捉された画像は、顔検出及び計数モジュール604に提供される。更なる処理及び/又は解析のために顔が識別された後、顔検出情報(例えば、顔エリアバウンディングボックス)は、ランドマーク検出モジュール606に渡される。ランドマーク検出モジュール606は、1つ以上のランドマーク点を使用して、事前決定又は学習され得る顔のランドマークを識別する。次いで、ランドマーク情報及び捕捉された画像は、顔正規化モジュール608に渡される。顔正規化モジュール608は、2つ以上の顔ランドマーク又はランドマーク点間の関係(例えば、距離及び/又は角度)を使用して、画像をどのくらい回転させるべきかを判定することができる。
【0051】
セルフィー品質指数モジュール
画像処理モジュールによる処理後、元の画像、検出されたランドマーク、及び最終的に位置合わせされた画像は、画像品質を判定するために1つ以上のSQIモジュールに渡される。各SQIモジュールは、1つ以上のモデル(例えば、CNN)と、任意に、その機能/解析を実施するための好適な制御論理を含んでもよい。いくつかの実例では、制御論理は、システムの処理及び/又は訓練論理の一部であってもよい。各SQIモジュールによって行われる解析は、必ずしも任意の他のモジュールの解析結果に依存するわけではないので、SQIモジュールは、連続的に動作する必要はない。しかしながら、2つ以上のSQIモジュールが連続して動作することが望ましい場合があり、そのような実施形態が本明細書で企図される。本システム及び方法における使用に好適であり得るSQIモジュールのいくつかの非限定的な例としては、ぼやけ検出モジュール、カメラまでの距離モジュール、顔比率モジュール、オクルージョンモジュール、表情モジュール、及び照明モジュールが挙げられる。本明細書におけるSQIモジュールの各々は、別個のモジュールとして独立して、又は集合的に単一モジュールとして機能し得る、1つ以上のサブモジュールを更に含んでもよい。例えば、本システムは、方向、位置、強度、及び/又はコントラストサブモジュールを含む照明モジュールを含んでもよい。追加的に又は代替的に、本システムは、オクルージョン及び/又は表情モジュールのための頬及び額サブモジュールを含んでもよい。サブモジュールは、各々、SQIスコアへの入力を提供してもよく、又は各サブモジュールからのスコアを組み合わせて、モジュールの複合スコアを提供してもよく、これは次いで、SQIスコアの計算に使用される。
【0052】
いくつかの実例では、特徴ベクトルが所定の閾値レベルの品質を満たす場合、システムは、その特定の特徴が不十分であることを(例えば、モバイルコンピューティングデバイスからの視覚又は音声キューを介して)ユーザに伝達し、かつ/又はセルフィーを再撮影するようにユーザに促してもよい。いくつかの例では、システムは、不満足な特徴を改善する方法を示す有用なヒントを提供してもよい。
【0053】
SQIモジュールの画像解析結果を使用して、セルフィーがシステムの解析論理によって解析されるのに十分な品質であるかどうかを判定することができる。特定の特徴又は特徴ベクトルが許容可能な閾値レベルの品質(「低品質特徴」)を満たさない場合、システムは、画像が解析論理に渡されないようにしてもよい。いくつかの実例では、システムは、画像が解析論理に渡されないようにする前に、SQIモジュールによって検出される、2つ以上の低品質特徴を必要とする場合がある。いくつかの実例では、SQIモジュールは、特徴が許容可能な閾値レベルの品質を満たすかどうかのバイナリ表示(すなわち、0、1)を提供するように構成されてもよい。いくつかの実例では、SQIモジュールは、最低品質から最高品質の連続体(例えば、1〜10、又は更には1〜100)に基づいてスケーリングされたスコアを提供するように構成されてもよい。例えば、品質スケールが上昇すると、モジュールは、認識するように訓練された特徴の最低品質の例に1又は更にはゼロのスコアを割り当て、かつ認識するように訓練された特徴の最高品質の例に10又は更には100のスコアを割り当ててもよい。逆に、品質スケールが下降すると、モジュールは、認識するように訓練された特徴の最高品質の例に1又は更にはゼロのスコアを割り当て、かつ認識するように訓練された特徴の最低品質の例に10又は更には100のスコアを割り当ててもよい。モジュールのいくつか又は全部からのスコアを組み合わせて、全体的なSQIスコアを提供してもよく、これは、任意に、閾値スコアと比較され得る。いくつかの実例では、SQIモジュールの解析結果は、別のモジュールよりもSQIスコアに、より寄与する(又はより寄与しない)ように重み付けされてもよい。
【0054】
いくつかの実例では、SQIモジュールは、ぼやけ検出モジュールを含んでもよい。ぼやけた画像は、精度の低い画像解析結果を生成する傾向があり、したがって、最小限のぼやけを用いてセルフィーを解析することが望ましい。ぼやけ検出モジュールは、セルフィー画像におけるぼやけの量又は焦点の欠如を測定し、これは次いで、セルフィーの品質を改善するために個々に及び/又はSQIスコアの一部として使用され得る。
【0055】
ぼやけ検出モジュールは、抽出及び一緒に融合されたいくつかの特徴から形成されたぼやけ特徴ベクトルによって訓練されたCNNとして構成されてもよい。ぼやけ特徴ベクトルを形成するために使用され得る1つの特徴は、ぼやけ係数である。いくつかの実例では、数回の連続したぼやけの繰り返しの後、正規化された画像のラプラシアン測定値の差を取ることによって、ぼやけ係数を生成してもよい。追加的に又は代替的に、ラプラシアン測定値の最大、平均、絶対和、及び/又は標準偏差を使用して、ぼやけ特徴ベクトルの一部又は全部を形成してもよい。ぼやけ係数を生成する例示的な方法は、Frederique Crete−Roffetらによる「The Blur Effect:Perception and Estimation with a New No−Reference Perceptual Blur Metric」,SPIE Electronic Imaging Symposium Conf.Human Vision and Electronic Imaging,Jan 2007,San Jose,United States.XII,pp.EI 6492−16,2007に記載されている。
【0056】
いくつかの実例では、ぼやけ特徴ベクトルは、例えば、TreeBagger分類器(すなわち、ブートストラップ集約(「バギング」)決定木)を使用して訓練されたAlexnet畳み込みニューラルネットワークの最後の層から抽出された特徴を含み得る。Alexnet CNNは、Alex Krizhevskyらによる「Advances in Neural Information Processing Systems 25」(NIPS 2012)の一部である「ImageNet Classification with Deep Convolutional Neural Networks」に記載されているCNNを指す。Alexnet CNNは、深層学習のためのコンピュータビジョン手法を利用する。この手法は、画像(例えば、セルフィー又は正規化された顔画像)を、画像内のパターンを調べるために開発された、従来のコンピュータビジョン特徴のヒストグラム、例えば、ローカルバイナリパターン(Local Binary Patterns、「LBP」)又は勾配のヒストグラム(Histogram of Gradients、「HoG」)特徴等に変換する。訓練セット内の全ての画像に対してヒストグラムが生成されると、ヒストグラムは、CNNを教示する代表的な特徴として使用することができる。ブートストラップ集約決定木は、個々の決定木の結果を組み合わせて、過剰適合の効果を低減し、かつ一般化を改善する。好適なTreeBagger分類器を選択するための技法は、当業者には既知である。
【0057】
画像を解析した後、ぼやけ検出モジュールは、バイナリ値(例えば、「良」又は「不良」)又はスケーリングされた値(例えば、1〜10の値)を使用して、画像内で検出されたぼやけの量(「ぼやけ検出スコア」)を定量化し、かつ制御アプリケーション、処理論理、及び/又は解析論理にスコアを提供してもよい。いくつかの実例では、ぼやけ検出モジュールによる解析のスコア及び/又は他の結果は、ぼやけ検出モジュールを更に訓練するためにシステムの訓練論理に提供されてもよい。ぼやけ検出モジュールのスコアは、SQIスコアを生成するために、例えば特徴ベクトルとして、他のSQIモジュールからの出力と組み合わせることができる。
【0058】
いくつかの実例では、ぼやけ検出スコアは、ディスプレイを介してユーザに提供されてもよい。ぼやけ検出スコアが閾値を下回る場合、システムは、画像内でぼやけが検出されたことをユーザに伝達してもよい。例えば、ぼやけ検出モジュールが、画像内で検出されたぼやけの量を1〜10のスケールで4及び7であるものとして定量化する場合、システムは、画像内にぼやけが存在するという表示をユーザに提供し、ただし所望に応じてなおも画像を解析することを可能にしてもよい。この例を続けると、ぼやけ検出スコアが4未満である場合、システムは、画像がぼやけすぎていること、及び/又はユーザが画像を再撮影することをユーザに示してもよい。いくつかの実例では、システムは、画像内のぼやけの量を減少させるためにヒントをユーザに提供してもよい。
【0059】
いくつかの実例では、SQIモジュールは、カメラまでの距離モジュール(Distance to Camera module、「DtoCモジュール」)を含んでもよく、これは、訓練可能なモデル(例えば、CNN)の形態であってもよい。DtoCモジュールは、通常、x〜yの範囲の全体的な画像サイズに対してバウンディングボックス内で検出された画素の比率を計算し、かつこの比率をカメラからの顔の距離と相関させてもよい。バウンディングボックス画素の画像サイズに対する比率が高すぎる(例えば、0.8、0.9よりも大きい、又は更には1よりも大きい)場合、システムは、カメラが顔に接近し過ぎていることをユーザに示し、かつ/又はユーザがセルフィーを再撮影することを要求してもよい。バウンディングボックス画素の画像サイズに対する比率が低すぎる(例えば、0.4、0.3未満、又は更には0.2未満)場合、システムは、カメラが顔から離れ過ぎていることをユーザに示し、かつ/又はユーザがセルフィーを再撮影することを要求してもよい。
【0060】
追加的に又は代替的に、DtoCモジュールは、既知の人体計測データを較正ターゲットとして使用してもよい。つまり、異なる画像捕捉距離で回帰モデルを訓練するときに、人物の顔上の異なるランドマーク特徴間又はランドマーク点間の既知の距離を、ターゲット(例えば、疑似「グラウンドトゥルース」)として使用することができる。例えば、DtoCモジュールによって使用されるモデルは、異なる距離(例えば、12インチ、24インチ、及び36インチ)の異なる画像捕捉デバイス(例えば、iPhone 6、iPhone 6+、及びSamsung Galaxy S7)から収集された好適な数の画像(例えば、20〜1000、25〜500、又は更には30〜100)を使用して訓練されてもよい。次いで、検出された距離を既知の人体計測データと比較して、モデルの精度を判定することができる。較正ターゲットとして人体計測データを使用する方法の非限定的な例は、I.Konigらによる「The New context:Screen To face distance」、2014 8th International Symposium On Medical Information And Communication Technology(ISMICT),pages 1−5.IEEE,2014に記載されている。
【0061】
DtoCモジュールは、画像内で検出される特定の顔特徴間の画素数を計算することによって、捕捉距離を判定してもよい。例えば、DtoCモジュールは、ランドマーク検出モジュールによって識別された68個のランドマーク点のうちの2つ以上の間の画素数を計算することによって、捕捉距離を判定してもよい。いくつかの実例では、DtoCモジュールは、ランドマーク検出モジュールからのいくつかの又は更には全てのランドマーク点を使用して、様々な人体計測距離、例えば、瞳孔間幅(瞳孔間の距離)、両眼幅(眼の外側角部の間の距離)、耳珠間幅(顔幅)、メントン−鼻下長(鼻の下と上唇との間の距離)、及び顔の長さ等を検出してもよい。これらのうち、モデルを訓練するために、瞳孔間幅、両眼幅、及びメントン−鼻下長を使用することが特に望ましい場合がある。
【0062】
DtoCモジュールは、カメラスコアまでの距離を生成してもよく、この距離は、バイナリスコア、スケーリングされたスコア、又は更にはモジュールによって判定されたカメラからの実際の距離であってもよい。カメラスコアまでの距離は、SQIスコアの生成に使用されてもよく、カメラまでの距離が離れ過ぎており、又は接近し過ぎているという表示をユーザに提供し、カメラスコアまでの距離をユーザに提供し、カメラスコアまでのより良好な距離を達成する方法に関するヒントを提供し、かつ/又はDtoCモジュールを訓練する。
【0063】
本明細書におけるSQIモジュールは、画像品質に望ましくない影響を及ぼす顔又は顔の一部分を遮断する物体があるかどうかを判定するオクルージョン検出モジュールを含んでもよい。モジュールによって検出され得るオクルージョンのいくつかの非限定的な例としては、額及び/若しくは頬上の毛髪、又は顔上若しくは顔の前の手又は他の物体(例えば、眼鏡、手、帽子、及び顔の前の襟)が挙げられる。顔の各領域のラベル、並びに信頼度測定値はオクルージョン検出モジュールによって生成されてもよい。いくつかの実例では、1つ以上のコンピュータビジョンベースのLBP特徴及び1つ以上のCNNベースのAlexnet特徴を融合して、オクルージョン特徴ベクトルを生成してもよい。オクルージョン検出モジュールは、Tree Bagger分類器を使用して訓練されてもよい。
【0064】
オクルージョンモジュールは、バイナリスコア(例えば、オクルージョン又はオクルージョンなし)、スケーリングされたスコア、又はこれらの組み合わせであり得るオクルージョンスコアを生成してもよい。オクルージョンスコアは、SQIスコアを生成するのを支援し、顔又は顔の一部分を遮断する物体が存在するという表示をユーザに提供し、ユーザが存在するオクルージョンを伴わずに画像を再撮影することを要求し、かつ/又はオクルージョンモジュールを訓練するために使用されてもよい。
【0065】
本明細書におけるSQIモジュールは、セルフィーを解析して顔の表情が存在するかどうかを判定する、表情モジュールを含んでもよい。顔の表情によって引き起こされる顔のマクロ特徴及び顔のミクロ特徴のサイズ、形状、及び/又は位置の変化は、解析論理による画像の解析に望ましくない影響を及ぼし、より精度の低い結果をもたらす可能性がある。したがって、本システムでは、顔が、情動的表情(例えば、笑顔、笑嗽、しかめっ面、又は驚きの表現、恐怖、嫌悪感、若しくは怒り)を含むものではなく、顔が中立的な表情を有するセルフィーを解析することが望ましい。
【0066】
表情モジュールは、コンピュータビジョン技法(例えば、LBP又はHoG)、深層学習技法(例えば、CNN)、又はこれらの組み合わせに基づくモデルを含んでもよい。モジュールは、顔全体、又は顔の一部分のみ(例えば、頬、額、口、又は他の関心領域(複数可))を調べて、情動的又は中立の表情が存在するかどうかを判定してもよい。情動的表情が存在する場合、システムは、画像が解析のために解析論理に渡されないようにし、かつ/又は画像内で情動的表情が検出されたという表示をユーザに提供してもよい。例えば、システムは「笑っているようです」とユーザに伝えてもよい。
【0067】
いくつかの実例では、表情モジュールは、顔の表情がセルフィーの品質に影響を及ぼす程度を定量化してもよい。例えば、表情モジュールは、バイナリの(例えば、表情が存在するか否かを示す)、スケーリングされた(例えば、1〜10、ここで、1は極端な情動的表情を示し、10は中立の表情を表す)、又はこれらの組み合わせであり得る表情スコアを生成してもよい。表情スコアは、SQIスコアを生成するのを支援し、画像内で画像品質に影響を及ぼす表情が検出されたことをユーザに示し、ユーザが中立の表情の画像を再撮影することを要求し、かつ/又は表情モジュールを訓練するために使用されてもよい。
【0068】
SQIモジュールは、ユーザによって撮影されたセルフィーが適切な照光条件を有するかどうかを判定するための照明モジュールを含んでもよい。照光条件が不適切である場合、システムは、所望の定性的メトリックを判定することができない場合がある。考慮すべき照明の様々なモダリティが存在するため、望ましい顔のメトリックを正常に抽出できるかどうかを判定する際には、様々な照明要因を考慮することが望ましい場合がある。選択された照明要因は、照明モジュール内のサブモジュールとして構成されてもよい。サブモジュールの解析出力は、個々に又は集合的に使用されて、SQIスコアを計算する際に使用するための照明特徴ベクトルを判定してもよい。いくつかの実例では、1つ以上の照明サブモジュールによって解析される照明要因は、照明の方向、照明の位置、コントラスト、及び照明の強度を含む。
【0069】
理想的には、セルフィーを撮影するときに顔全体に照光することすらあるため、照明の方向は重要である。照光さえも、関心特徴(例えば、しわ又は不均一な色素沈着)が不明瞭になり、又は洗い流されないことを確実にするのに役立つ。しかしながら、セルフィーが撮影される照光条件は、しばしば理想的ではなく、複数の照光源が存在し得る。したがって、照明サブモジュールの方向は、画像内の照光がどちらの方向に偏っているかという表示を提供する。いくつかの実例では、照明サブモジュールの方向は、光源及び/又は照光の方向を特定の方法で変更するためのフィードバックをユーザに提供してもよい。
【0070】
いくつかの実例では、照明の方向(Direction of Illumination、「DoI」)サブモジュールは、コンピュータビジョン技術を使用して、所望の特徴の勾配のヒストグラムを作成してもよい。例えば、DoIモジュールは、正規化された画像の局所化された部分の発生を計数してもよく、これは、同様の照明角度が存在する画像の場合も同様のはずである。次いで、特徴HoG及び割り当てられたラベルは、コンピュータモデリングの当業者に既知である好適なアルゴリズム(複数可)(例えば、多項式カーネルサポートベクトルマシン)を使用して解析することができる。いくつかの実例では、DoIモジュールは、左、右、上、下、及び/又は更には対応する異なるクラスの照明の方向の分類器を含んでもよい。DoIサブモジュールは、サブモジュールによって検出された照明の方向の表示を提供してもよい。いくつかの実例では、DoIサブモジュールは、照明モジュールによって生成された照明特徴ベクトル内の特徴として、又は照明の方向及び/若しくは画像品質に関するフィードバックをユーザに提供するために使用することができる、照明の方向の品質スコアを生成してもよい。
【0071】
本明細書における照明モジュールは、特徴の組み合わせを使用して画像を修飾する照明強度サブモジュールを含んでもよい。いくつかの実例では、照明強度サブモジュールは、コンピュータビジョン(例えば、HoG)及び/又は深層学習(例えば、Alexnet)技術を使用して、正規化された画像からLBP特徴部を抽出し、次いで、階調ヒストグラム及び知覚輝度メトリックでLBP特徴部を融合させてもよい。知覚輝度は、以下の式に従って判定されてもよい。
知覚輝度=(0.241R
2+0.691G
2+0.068B
2)
1/2
式中、R、G、及びBは、赤色、緑色、青色(「RGB」)カラーモデルからの色値である。
【0072】
照明強度サブモジュールは、サブモジュールによって検出された照明の強度の表示を提供してもよい。いくつかの実例では、照明強度サブモジュールは、照明特徴ベクトル内の特徴として、又は照明の強度及び/若しくは画像品質に関するフィードバックをユーザに提供するために使用することができる品質スコア(例えば、バイナリの、スケーリングされた、又はこれらの組み合わせ)を生成してもよい。
【0073】
本明細書における照明モジュールは、複数のソースから生成された特徴をグラウンドトゥルースラベルに関連付ける、照明コントラストサブモジュールを含んでもよい。画像のコントラストが不十分である場合、システムが顔のマクロ特徴及び/又はミクロ特徴を互い及び/又は画像背景から区別することは困難であり得、これは解析論理による解析に望ましくない影響を及ぼす可能性がある。照明コントラストサブモジュールで使用される特徴は、照明強度サブモジュール(例えば、色相、彩度、及び値(HSV)色空間ヒストグラムと融合されたLBP特徴、並びに知覚輝度メトリック)で使用されるものと同じ又は類似であってもよい。照明コントラストサブモジュールは、サブモジュールによって検出された照明のコントラストの表示を提供してもよい。いくつかの実例では、照明コントラストサブモジュールは、照明特徴ベクトル内の特徴として、又は照明の強度及び/若しくは画像品質に関するフィードバックをユーザに提供するために使用することができる品質スコア(例えば、バイナリの、スケーリングされた、又はこれらの組み合わせ)を生成してもよい。
【0074】
いくつかの実例では、照明モジュールは、画像が屋内又は屋外環境内で捕捉されたかどうかを判定することができる照明位置(Illumination Location、「IL」)サブモジュールを含んでもよい。正規化された画像を使用する他の照明サブモジュールとは異なり、ILサブモジュールは、訓練及び試験のためにセルフィー画像全体を使用する。ILサブモジュールは、屋外の場合は木、道路等、屋内の場合は家具、流し台等の照光固有ではないキューを識別するように訓練することができる。ILサブモジュールは、照明コントラストサブモジュールと同じ特徴のセット(例えば、LBP特徴)を使用するように構成されてもよい。
【0075】
畳み込みニューラルネットワーク
解析論理及び画像品質モジュールの少なくともいくつかを含む、本明細書におけるシステム及び方法は、インシリコ肌モデルとして機能する、訓練された畳み込みニューラルネットワークを使用する。CNNは、セルフィー又はその一部分を解析し、所望のメトリックを判定するために使用される。本システムにおける使用に好適であり得るインシリコ肌モデル(すなわち、CNN)における深層学習の一例は、Shermanらによって出願された同時係属中の米国特許出願第15/465,292号に記載されている。本明細書におけるCNNは、層内の各画素に同じフィルタを使用するニューロン集合体の複数の層を含んでもよい。部分的かつ完全に接続された層の様々な組み合わせにおける各画素に対して同じフィルタを使用することにより、システムのメモリ及び処理要件が低減される。いくつかの実例では、CNNは、訓練され、画像、画像セグメント、及び/又は関心領域の離散畳み込みニューラルネットワークとして機能する、複数の深層ネットワークを含む。
【0076】
図8は、本明細書における使用のためのCNN構成の一例を示す。
図8に示すように、CNN800は、この例では、関心領域の額、眼下エリア、頬/鼻唇溝、及び下顎の部分を含み得る、個々の関心領域又はその一部分を解析するための4つの個別の深層ネットワークを含む。当然のことながら、CNNは、所望に応じて、より少ない深層ネットワーク又はより多くの深層ネットワークを含み得ることを理解されたい。各深層ネットワークからの画像解析結果を使用して、その対応する関心領域に関する特徴ベクトルを提供してもよい。
【0077】
本明細書におけるCNNは、哺乳類の視覚野が画像の重要な特徴を認識することを学習するのと同様に、CNNに画像のどの部分が関心特徴に寄与するかを学習させる、深層学習技術を使用して訓練されてもよい。例えば、CNNは、画像の特徴に寄与する画素の位置、色、及び/又は陰影(例えば、明るさ又は暗さ)を判定するために訓練されてもよい。いくつかの実例では、CNN訓練は、ネステロフ運動量(及び/又は他のアルゴリズム)を伴うミニバッチ確率的勾配降下(stochastic gradient descent、SGD)を使用することを含んでもよい。確率的勾配降下を利用する例は、米国特許第8,582,807号に開示されている。
【0078】
いくつかの実例では、CNNは、訓練されていないCNNに、学習するための多数の捕捉された画像を提供することによって訓練されてもよい。いくつかの実例では、CNNは、教師あり学習と呼ばれるプロセスを通じて、所望の特徴ベクトルに寄与する画像内の特徴を識別するように学習することができる。「教師あり学習」とは、一般に、画像内の目的の特徴ベクトルが事前に決定されている画像を解析することによって、CNNが訓練されることを意味する。所望の精度に応じて、訓練画像の数は、少数の画像から多数の画像(例えば、数百又は数千)から画像の連続した入力まで(すなわち、連続した訓練を提供するために)変化し得る。
【0079】
図9は、本明細書における使用のための畳み込みニューラルネットワーク900の一例を示している。CNN900は、入力画像905(例えば、関心領域又はその一部分)、1つ以上の畳み込み層C
1、C
2、1つ以上のサブサンプリング層S
1及びS
2、1つ以上の部分的に接続された層、1つ以上の完全に接続された層、並びに出力を含んでもよい。解析を開始するために、又はCNNを訓練するために、画像905(例えば、ユーザの画像)がCNN900に入力される。CNNは、画像の1つ以上の部分をサンプリングして、第1の畳み込み層C
1に1つ以上の特徴マップを作成してもよい。例えば、
図9に示すように、CNNは、画像905の6つの部分をサンプリングして、第1の畳み込み層C
1に6つの特徴マップを作成してもよい。次に、CNNは、第1の畳み込み層C
1内の特徴マップの1つ以上の部分をサブサンプリングして、第1のサブサンプリング層S
1を作成してもよい。いくつかの実例では、特徴マップのサブサンプリングされた部分は、特徴マップのエリアの半分であってもよい。例えば、特徴マップが画像905から29×29画素のサンプルエリアを含む場合、サブサンプリングされたエリアは14×14画素であってもよい。CNN900は、第2の畳み込み層C
2及び第2のサブサンプリング層S
2を提供するために、1つ以上の追加のレベルのサンプリング及びサブサンプリングを実施してもよい。CNN900は、所望に応じて、任意の数の畳み込み層及びサブサンプリング層を含み得ることを理解されたい。最終サブサンプリング層(例えば、
図9の層S
2)が完了すると、CNN900は、全てのニューロンが1つおきのニューロンに接続されている、完全に接続された層F
1を生成する。完全に接続された層F
1から、CNNは、画像品質のメトリックに関連する出力を生成することができる。
【0080】
実施例:SQIスコアの生成
ユーザは、従来のスマートフォンカメラ(例えば、Apple iPhone(登録商標)5ブランドスマートフォン、又はSamsung Galaxy(登録商標)S6ブランドのスマートフォン、これらの新しいバージョン等)を使用してセルフィーを撮影する。スマートフォンは、解析のためにリモートコンピュータにセルフィーを提供するネイティブアプリケーション(すなわち、デバイス自体上に記憶されたアプリケーション)を含む。セルフィーはまた、ウェブベースのアプリケーション(すなわち、モバイルコンピューティングデバイス上に記憶されたインターネットブラウザソフトウェアを介してアクセスされるウェブサイトから起動されるアプリケーション)を介して解析するためにリモートコンピュータに提供されてもよく、又はセルフィーは、解析に必要とされる処理論理及び/又は解析論理をサポートするのに十分な処理電力及びメモリを有する場合、モバイルコンピューティングデバイスによって解析されてもよいことを理解されたい。この例では、顔計数及び検出モジュール又はランドマーク検出モジュールが、顔若しくは好適なランドマークを検出できない、又は1つ以上の顔を検出した場合、SQIスコアは0として返され、ユーザは、セルフィーを再撮影するように促される。顔検出、ランドマーク検出、及び顔正規化モジュールが正常に実行される(すなわち、単一の顔が識別されて分離され、所望の顔のランドマークが検出され、顔が正規化される)場合、正規化された画像は、解析のためにSQIモジュールに渡される。
【0081】
この例のシステムは、3つの変数を使用してSQIスコアを計算する。第1の変数は、信頼度スコアである。信頼度スコアは0〜1の数であり、かつ各SQIモジュールからの特徴ベクトルの定量化である(すなわち、これは、オクルージョンモジュールからのオクルージョンスコア、ぼやけモジュールからのぼやけスコア、表情モジュールからの表情スコア等である)。マシン学習ベースのモジュールの場合、信頼度スコアは、サポートベクトルマシンの超平面からの距離である。カメラまでの距離モジュールについては、バウンディングボックス内の画素の画像サイズに対する比率である。この例では、合計9つの信頼度スコアがSQIモジュールから返される。この例で解析された品質メトリックは、頬オクルージョン、額オクルージョン、頬表情、額表情、ぼやけ、照明の方向、照明のコントラスト、照明の強度、及びカメラまでの距離である。
【0082】
SQIスコアを計算するために使用される第2の変数は、SQIスコア上の各SQIモジュールの重要度を反映するモジュール重みである。この例では、照明は他の品質メトリックよりも重要であると見なされ、したがって、照明モジュール(すなわち、方向、コントラスト、及び強度)には、モジュール重み0.2が与えられ、他方のSQIモジュールには0.1のモジュール重みが与えられる。いくつかの実例では、ユーザの行動に応じてSQIモジュールを重み付けすることが望ましい場合がある。例えば、ユーザがプロンプトに従って低品質特徴(例えば、オクルージョン)を改善できない場合、対応するモジュールは、ユーザの補正の欠如を補償するために重み付けされてもよい。
【0083】
SQIスコアを計算するために使用される第3の変数は、各SQIモジュールによって提供されるカテゴリ分類予測を反映する、予測カテゴリスコアである。オクルージョンモジュール(頬及び額)は、セルフィーが「オクルージョンなし」又は「オクルージョンの存在」カテゴリ(すなわち、はい又はいいえカテゴリ)に属するかどうかを予測する。SQIモジュールは、セルフィー(例えば、2、3、4、又は更には5以上)の予測される任意の数のカテゴリを有してもよい。各モジュールに関する予測カテゴリのうち、少なくとも1つは「肯定」カテゴリであり、残りは「否定」カテゴリである。肯定カテゴリには、+1の予測カテゴリスコアが与えられ、否定カテゴリには、−1の予測カテゴリスコアが与えられる。この例では、9個の予測カテゴリスコアを使用してSQIスコアを計算する。本例の予測カテゴリを以下の表1に示す。
【0085】
SQIスコアは、各SQIモジュールに対する信頼度スコア×モジュール重み×予測カテゴリスコアで乗じることによって、次いで、9つのSQIモジュール/サブモジュール全てで、正規化された最大及び最小合計を計算することによって計算される。
【0086】
本明細書にて開示された寸法及び値は、列挙された正確な数値に厳密に限定されるものとして理解されるべきではない。その代わりに、特に指示がない限り、このような寸法はそれぞれ、列挙された値とその値を囲む機能的に同等な範囲との両方を意味することが意図されている。例えば、「40mm」として開示される寸法は、「約40mm」を意味するものとする。
【0087】
相互参照される又は関連する全ての特許又は特許出願、及び本出願が優先権又はその利益を主張する任意の特許出願又は特許を含む、本出願に引用される全ての文書は、除外又は限定することを明言しない限りにおいて、参照によりその全容が本明細書に援用される。いかなる文献の引用も、本明細書中で開示又は特許請求される任意の発明に対する先行技術であるとはみなされず、あるいはそれを単独で又は他の任意の参考文献(単数又は複数)と組み合わせたときに、そのような発明全てを教示、示唆又は開示するとはみなされない。更に、本文書における用語の任意の意味又は定義が、参照することによって組み込まれた文書内の同じ用語の意味又は定義と矛盾する場合、本文書におけるその用語に与えられた意味又は定義が適用されるものとする。
【0088】
本発明の特定の実施形態を例示及び説明してきたが、本発明の趣旨及び範囲から逸脱することなく他の様々な変更及び修正を行うことができる点は当業者には明白であろう。したがって、本発明の範囲内に含まれるそのような全ての変更及び修正は、添付の特許請求の範囲にて網羅することを意図したものである。