IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三星電子株式会社の特許一覧

<>
  • 特開-イメージ処理方法及び装置 図1
  • 特開-イメージ処理方法及び装置 図2
  • 特開-イメージ処理方法及び装置 図3
  • 特開-イメージ処理方法及び装置 図4
  • 特開-イメージ処理方法及び装置 図5
  • 特開-イメージ処理方法及び装置 図6
  • 特開-イメージ処理方法及び装置 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025010050
(43)【公開日】2025-01-20
(54)【発明の名称】イメージ処理方法及び装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20250109BHJP
【FI】
G06T7/00 660A
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2024105572
(22)【出願日】2024-06-28
(31)【優先権主張番号】202310795975.7
(32)【優先日】2023-06-30
(33)【優先権主張国・地域又は機関】CN
(31)【優先権主張番号】10-2024-0058033
(32)【優先日】2024-04-30
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】390019839
【氏名又は名称】三星電子株式会社
【氏名又は名称原語表記】Samsung Electronics Co.,Ltd.
【住所又は居所原語表記】129,Samsung-ro,Yeongtong-gu,Suwon-si,Gyeonggi-do,Republic of Korea
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【弁理士】
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】リ,ジンジ
(72)【発明者】
【氏名】ワン,カイ
(72)【発明者】
【氏名】グオ,ズドォン
(72)【発明者】
【氏名】ベク,ジウォン
(72)【発明者】
【氏名】ハン,スンジュ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096CA02
5L096DA02
5L096FA09
5L096FA16
5L096FA59
5L096FA62
5L096FA69
5L096GA51
5L096HA11
5L096JA05
5L096KA04
(57)【要約】
【課題】イメージ処理方法及び装置が提供される。
【解決手段】その方法は、入力顔イメージから顔のキーポイントを検出する動作と、顔のキーポイントに基づいて入力顔イメージの顔領域及び入力顔イメージの顔特徴領域を決定する動作と、顔特徴領域が第1予め設定された条件を満足する場合、入力顔イメージを無効顔イメージとして決定する動作とを含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
イメージ処理方法であって、
入力顔イメージから顔のキーポイントを検出する動作と、
前記顔のキーポイントに基づいて、前記入力顔イメージの顔領域及び前記入力顔イメージの顔特徴領域を決定する動作と、
前記顔特徴領域が第1予め設定された条件を満足する場合、前記入力顔イメージを無効顔イメージとして決定する動作と、
を含み、
前記第1予め設定された条件は、前記顔特徴領域の形状に関する形状条件、前記顔特徴領域の位置と前記顔領域の位置との間の関係に関する位置条件、又は、その組み合わせを含む、イメージ処理方法。
【請求項2】
前記形状条件は、前記顔特徴領域の前記形状が予め設定された形状であるとき満足される、請求項1に記載のイメージ処理方法。
【請求項3】
前記位置条件は、前記顔領域の前記位置が前記顔特徴領域の前記位置と互いに対応しないとき満足される、請求項1に記載のイメージ処理方法。
【請求項4】
前記顔領域及び前記顔特徴領域を決定する動作は、
前記顔のキーポイントを含む領域を前記顔領域として決定する動作と、
前記顔のキーポイントのうち、顔の輪郭に対応する輪郭キーポイント以外の特徴キーポイントを含む領域を前記顔特徴領域として決定する動作と、
を含む、請求項1に記載のイメージ処理方法。
【請求項5】
前記位置条件は、
前記顔領域の顔エンベロップボックスの幅方向の位置が、前記顔特徴領域の特徴エンベロップボックスの幅方向の位置と互いに対応しないとき満足され、
前記形状条件は、
前記特徴エンベロップボックスの形状が予め設定された形状であるとき満足され、
前記顔エンベロップボックスは、前記顔のキーポイントを含む最小のサイズのボックスであり、
前記特徴エンベロップボックスは、前記顔のキーポイントのうち前記顔特徴領域に属するキーポイントを含む最小の大きさのボックスである、請求項1に記載のイメージ処理方法。
【請求項6】
前記特徴エンベロップボックスの縦横比が第1閾値よりも大きい場合、前記特徴エンベロップボックスの前記形状は、前記予め設定された形状であると決定され、
前記顔エンベロップボックスの高さ方向の中心軸と前記特徴エンベロップボックスの高さ方向の中心軸との間の距離と前記顔エンベロップボックスの幅間の比率が第2閾値よりも小さい場合、前記顔エンベロップボックスの幅方向の位置が、前記顔特徴領域の前記特徴エンベロップボックスの幅方向の位置と互いに対応しないものと決定される、請求項5に記載のイメージ処理方法。
【請求項7】
前記イメージ処理方法は、
前記入力顔イメージから顔領域ボックスを検出する動作と、
前記顔領域ボックスが第2予め設定された条件を満足する場合、前記入力顔イメージを無効顔イメージとして決定する動作と、
をさらに含み、
前記第2予め設定された条件は、前記顔領域ボックスが非顔として決定されるかに関する顔条件、前記顔領域ボックスと前記顔領域が空間的に互いに対応しないかに関する空間条件、又は、その組み合わせを含む、請求項1に記載のイメージ処理方法。
【請求項8】
前記入力顔イメージを前記無効顔イメージとして決定する動作は、
前記入力顔イメージの前記顔領域ボックスを拡大して前記顔領域ボックスをアップデートする動作と、
前記アップデートされた顔領域ボックスが顔を含む確率を示す前記アップデートされた顔領域ボックスの顔の信頼度を決定する動作と、
前記顔の信頼度が第3閾値よりも大きく第4閾値よりも小さい場合、顔分類モデルを用いて前記アップデートされた顔領域ボックスを前記非顔として決定する動作と、
を含む、請求項7に記載のイメージ処理方法。
【請求項9】
前記入力顔イメージを無効顔イメージとして決定する動作は、
前記顔領域ボックスと前記顔領域の顔エンベロップボックスの空間的な重複程度に基づいて、前記顔領域ボックスと前記顔領域が空間的に互いに対応しないかを決定する動作を含み、
前記顔エンベロップボックスは、前記顔のキーポイントを含む最小の大きさのボックスである、請求項7に記載のイメージ処理方法。
【請求項10】
前記顔領域ボックスと前記顔領域が空間的に互いに対応しないかを決定する動作は、
前記顔領域ボックスと前記顔エンベロップボックスとの間のIOU(intersection over union)を決定する動作と、
前記IOUが第5閾値よりも小さい場合、前記顔領域ボックスと前記顔領域が空間的に互いに対応しないものと決定する動作と、
を含む、請求項9に記載のイメージ処理方法。
【請求項11】
ハードウェアに結合して請求項1~請求項10のいずれか一項に記載の方法を実行させるためにコンピュータで読み出し可能な記録媒体に格納されたコンピュータプログラム。
【請求項12】
電子装置であって、
1つ以上のプロセッサと、
命令語を格納するメモリと、
を含み、
前記命令語は、前記1つ以上のプロセッサによって実行される場合、前記電子装置により、
入力顔イメージから顔のキーポイントを検出する動作と、
前記顔のキーポイントに基づいて、前記入力顔イメージの顔領域及び前記入力顔イメージの顔特徴領域を決定する動作と、
前記顔特徴領域が第1予め設定された条件を満足する場合、前記入力顔イメージを無効顔イメージとして決定する動作と、
が実行され、
前記第1予め設定された条件は、前記顔特徴領域の形状に関する形状条件、前記顔特徴領域の位置と前記顔領域の位置との間の関係に関する位置条件、又は、その組み合わせを含む、電子装置。
【請求項13】
前記形状条件は、前記顔特徴領域の前記形状が予め設定された形状であるとき満足され、
前記位置条件は、前記顔領域の前記位置が前記顔特徴領域の前記位置と互いに対応しないとき満足される、請求項12に記載の電子装置。
【請求項14】
前記顔領域及び前記顔特徴領域を決定する動作は、
前記顔のキーポイントを含む領域を前記顔領域として決定する動作と、
前記顔のキーポイントのうち、顔の輪郭に対応する輪郭キーポイント以外の特徴キーポイントを含む領域を前記顔特徴領域として決定する動作と、
を含む、請求項12に記載の電子装置。
【請求項15】
前記位置条件は、前記顔領域の顔エンベロップボックスの幅方向の位置が前記顔特徴領域の特徴エンベロップボックスの幅方向の位置と互いに対応しないとき満足され、
前記形状条件は、
前記特徴エンベロップボックスの形状が予め設定された形状であるとき満足され、
前記顔エンベロップボックスは、前記顔のキーポイントを含む最小の大きさのボックスであり、
前記特徴エンベロップボックスは、前記顔のキーポイントのうち前記顔特徴領域に属するキーポイントを含む最小の大きさのボックスである、請求項12に記載の電子装置。
【請求項16】
前記特徴エンベロップボックスの縦横比が第1閾値よりも大きい場合、前記特徴エンベロップボックスの前記形状は前記予め設定された形状であると決定され、
前記顔エンベロップボックスの高さ方向の中心軸と前記特徴エンベロップボックスの高さ方向の中心軸との間の距離と前記顔エンベロップボックスの幅間の比率が第2閾値よりも小さい場合、前記顔エンベロップボックスの幅方向の位置が前記顔特徴領域の前記特徴エンベロップボックスの幅方向の位置と互いに対応しないものと決定される、請求項15に記載の電子装置。
【請求項17】
前記命令語は、前記1つ以上のプロセッサによって実行される場合、前記電子装置により、
前記入力顔イメージから顔領域ボックスを検出する動作と、
前記顔領域ボックスが第2予め設定された条件を満足する場合、前記入力顔イメージを無効顔イメージとして決定する動作と、
が実行され、
前記第2予め設定された条件は、前記顔領域ボックスが非顔として決定されるかに関する顔条件、前記顔領域ボックスと前記顔領域が空間的に互いに対応しないかに関する空間条件、又は、その組み合わせを含む、請求項12に記載の電子装置。
【請求項18】
前記入力顔イメージを前記無効顔イメージとして決定する動作は、
前記入力顔イメージの前記顔領域ボックスを拡大して前記顔領域ボックスをアップデートする動作と、
前記アップデートされた顔領域ボックスが顔を含む確率を示す前記アップデートされた顔領域ボックスの顔の信頼度を決定する動作と、
前記顔の信頼度が第3閾値よりも大きくて第4閾値よりも小さい場合、顔分類モデルを用いて前記アップデートされた顔領域ボックスを前記非顔として決定する動作と、
を含む、請求項17に記載の電子装置。
【請求項19】
前記入力顔イメージを無効顔イメージとして決定する動作は、
前記顔領域ボックスと前記顔領域の顔エンベロップボックスの空間的な重複程度に基づいて、前記顔領域ボックスと前記顔領域が空間的に互いに対応しないかを決定する動作を含み、
前記顔エンベロップボックスは、前記顔のキーポイントを含む最小の大きさのボックスである、請求項17に記載の電子装置。
【請求項20】
イメージ処理方法であって、
入力イメージからキーポイントを検出する動作と、
前記キーポイントに基づいて前記入力イメージの領域及び前記入力イメージの特徴領域を決定する動作と、
前記特徴領域の縦横比、前記入力イメージの前記領域の高さ方向の中心軸と前記特徴領域の高さ方向の中心軸間の距離と前記入力イメージの幅間の比率、又は、その組み合わせに基づいて前記入力イメージを無効イメージとして決定する動作と、
を含む、イメージ処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
以下の実施形態はイメージ処理方法及び装置に関する。
【背景技術】
【0002】
認識プロセスの技術的な自動化は、例えば、特殊な算出構造としてプロセッサで具現された人工知能(例えば、ニューラルネットワークモデル)モデルを介して具現され、これは相当にトレーニングされた後に入力パターンと出力パターンとの間で算出上直観的なマッピングを提供することができる。このようなマッピングを生成するトレーニングされた能力は、人工知能の学習能力といえる。しかも、特化したトレーニングにより、このように特化してトレーニングされた人工知能は、例えば、トレーニングしていない入力パターンに対して比較的に正確な出力を生成する一般化能力を有し得る。このような人工知能技術は、身元認識、例えば、顔認識に用いられる。
【発明の概要】
【課題を解決するための手段】
【0003】
一実施形態によれば、イメージ処理方法は、入力顔イメージから顔のキーポイントを検出する動作と、顔のキーポイントに基づいて入力顔イメージの顔領域及び入力顔イメージの顔特徴領域を決定する動作と、顔特徴領域が第1予め設定された条件を満足する場合、入力顔イメージを無効顔イメージとして決定する動作とを含み、第1予め設定された条件は、顔特徴領域の形状に関する形状条件、顔特徴領域の位置と顔領域の位置との間の関係に関する位置条件、又はその組み合わせを含む。
【0004】
電子装置において、1つ以上のプロセッサ及び命令語を格納するメモリを含み、命令語は、1つ以上のプロセッサによって実行される場合、電子装置により、入力顔イメージから顔のキーポイントを検出する動作と、顔のキーポイントに基づいて入力顔イメージの顔領域及び入力顔イメージの顔特徴領域を決定する動作と、顔特徴領域が第1予め設定された条件を満足する場合、入力顔イメージを無効顔イメージとして決定する動作が行われ、第1予め設定された条件は、顔特徴領域の形状に関する形状条件、顔特徴領域の位置と顔領域の位置との間の関係に関する位置条件、又は、その組み合わせを含む。
【0005】
一実施形態によると、イメージ処理方法は、入力イメージからキーポイントを検出する動作と、キーポイントに基づいて入力イメージの領域及び入力イメージの特徴領域を決定する動作と、特徴領域の縦横比、入力イメージの領域の高さ方向の中心軸と特徴領域の高さ方向の中心軸間の距離と入力イメージの幅間の比率、又は、その組み合わせに基づいて入力イメージを無効イメージとして決定する動作を含む。
【発明の効果】
【0006】
本発明によると、イメージ処理方法及び装置を提供することができる。
【図面の簡単な説明】
【0007】
図1】一実施形態に係るイメージ処理方法を例示的に示すフローチャートである。
図2】一実施形態に係る入力顔イメージの顔特徴領域及び顔領域を例示的に示す図である。
図3】一実施形態に係る顔分類モデルを利用した顔認識動作を例示的に示す図である。
図4】一実施形態に係る顔分類モデルを利用した顔認識動作を例示的に示す図である。
図5】一実施形態に係る入力顔イメージの顔領域ボックス及び顔領域を例示的に示す図である。
図6】一実施形態に係る予め設定された条件を利用した顔認識動作を例示的に示す図である。
図7】一実施形態に係る電子装置の構成を例示的に示す図である。
【発明を実施するための形態】
【0008】
実施形態に対する特定な構造的又は機能的な説明は単なる例示のための目的として開示されたものであって、様々な形態に変更されることができる。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。
【0009】
第1又は第2などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に、第2構成要素は第1構成要素にも命名することができる。
【0010】
いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。
【0011】
単数の表現は、文脈上、明白に異なる意味を有しない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
【0012】
本明細書において、「A又はBのうち少なくとも1つ」、及び「A、B、又はCのうち少なくとも1つ」のような文句は、その文句のうち該当する文句と共に羅列された項目のいずれか1つ、又はそれらの全ての可能な組み合わせを含むことができる。
【0013】
異なるように定義さがれない限り技術的又は科学的な用語を含み、ここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されなければならず、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
【0014】
以下、添付する図面を参照しながら実施形態を詳細に説明する。図面を参照して説明する際に、図面符号に拘わらず同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。
【0015】
図1は、一実施形態に係るイメージ処理方法を例示的に示すフローチャートであり、図2は、一実施形態に係る入力顔イメージの顔特徴領域及び顔領域を例示的に示す図である。
【0016】
一実施形態によれば、顔認識は、顔検出、顔のキーポイント検出、顔整列、顔特徴抽出、顔特徴比較、又はその組み合わせを含んでもよい。顔認識に人工知能モデル(例えば、ニューラルネットワークモデル)を使用することができる。例えば、人工知能モデルは、顔検出モデル、顔のキーポイント検出モデル、顔分類モデル、又はその組み合わせを含んでもよい。顔特徴抽出の性能は、入力顔イメージの品質の影響を受ける。例えば、入力顔イメージの品質が低い場合に顔の誤認識が発生し得る。例えば、入力顔イメージで顔の面積が極めて小さい場合と、入力顔イメージで顔の偏向角度が極めて大きい場合と、入力顔イメージから正面の顔検出に失敗した場合と、入力顔イメージの画質が顔を識別し難いレベルに低い場合などが存在し得るが、これに制限されることはない。
【0017】
一実施形態によれば、顔検出の際に不適な入力顔イメージをフィルタリングすることで顔認識の正確度を向上させることができる。例えば、低い品質の顔イメージ及び/又は非顔イメージをフィルタリングすることで顔認識の正確度が向され得る。
【0018】
図1を参照すると、動作110において、電子装置は、入力顔イメージから顔のキーポイントを検出する。電子装置は、顔のキーポイント検出モデルを用いて入力顔イメージから顔のキーポイントを検出することができる。例えば、顔のキーポイント検出モデルは、入力顔イメージから顔のキーポイントを検出するようトレーニングされた人工知能モデル(例えば、ニューラルネットワークモデル)であってもよい。この場合、顔のキーポイント検出モデルは、機械学習を介して入力顔イメージから顔のキーポイントを検出するように予めトレーニングされる。顔のキーポイントは、顔の特徴部位の位置を識別するために使用されるポイントを含む。例えば、顔の特徴部位は、顔の輪郭、目、瞳、眉毛、鼻、口、耳などを含むが、これに制限されることはない。
【0019】
動作120において、電子装置は、顔のキーポイントに基づいて入力顔イメージの顔領域及び入力顔イメージの顔特徴領域を決定する。顔特徴領域は、サリエンシー領域(salient area)であってもよい。電子装置は、顔のキーポイントが位置している領域に基づいて顔部位に対応する領域を決定することができる。
【0020】
電子装置は、顔のキーポイントを含む領域を顔領域として決定することができる。例えば、電子装置は、顔全体を含む領域を顔領域として決定してもよい。顔全体を含む領域は、顔のキーポイントを全て含む領域である。例えば、電子装置は、図2に示す入力顔イメージ200で、顔のキーポイント201を含む顔のキーポイントを全て含む領域210を顔領域として決定してもよい。
【0021】
電子装置は、顔のキーポイントのうち顔の輪郭に対応する輪郭キーポイント以外の特徴キーポイントを含む領域220を顔特徴領域として決定することができる。顔特徴領域は、顔領域に比べて身元認識のための顔のキーポイントをさらに多く含んでいる。言い換えれば、顔特徴領域は、顔領域に比べてより多くの身元認識のための識別情報を含み得る。例えば、顔のキーポイントのうち、外郭のキーポイントは輪郭キーポイントに該当する。例えば、顔外郭のキーポイントは、顔のキーポイントのうち最も外郭のポイント及び/又は最も外郭のポイントから一定の距離にあるか、及び/又は最も外郭のキーポイントと一定の関係を有するキーポイントであってもよい。例えば、顔特徴領域は、予め設定された顔の特徴部位(例えば、左側の目中心、右側の目中心、鼻先、左側口元、右側口元)に該当する領域を含んでもよい。予め設定された顔の特徴部位に該当する領域以外の領域は、顔の輪郭領域である。顔の輪郭領域のキーポイントは、輪郭キーポイントに該当する。図2に示す入力顔イメージ200において領域220は、予め設定された顔の特徴部位に該当する特徴キーポイントを含むことができる。
【0022】
動作130において、電子装置は、顔特徴領域が第1予め設定された条件を満足する場合、入力顔イメージを無効顔イメージとして決定する。第1予め設定された条件は、顔特徴領域の形状に関する形状条件、顔特徴領域の位置と顔領域の位置との間の関係に関する位置条件、又は、その組み合わせを含んでもよい。形状条件は、顔特徴領域の形状が予め設定された形状であるとき満足される。位置条件は、顔領域の位置が顔特徴領域の位置と互いに対応しないとき満足される。顔特徴領域が第1予め設定された条件を満足する場合、電子装置は、無効顔イメージに決定された入力顔イメージをフィルタリングする。この場合、電子装置は、無効顔イメージに決定された入力顔イメージ以外のイメージを用いて認証手続を行うことができる。
【0023】
例えば、入力顔イメージの顔が極端的な頭ポーズ(例えば、制限されない例示として、大きい角度の側面の顔など)を有する場合、顔の輪郭情報に比べて顔特徴情報は識別し難い。例えば、この場合、顔領域が容易に検出されるが、顔特徴領域の位置は頭そのものなどによって遮られ、信頼できる顔特徴領域を取得することができない。
【0024】
一実施形態によれば、電子装置は、顔特徴領域の形状が予め設定された形状(例えば、制限されない例示として、細長い形態など)であるかを確認することで、入力顔イメージ内の顔が極端的な頭ポーズを有するかを決定することができる。電子装置は、特徴エンベロップボックス(envelope box)の形状が予め設定された形状であるとき、第1予め設定された条件の形状条件が満足されるものと決定することができる。特徴エンベロップボックスは、顔のキーポイントのうち、顔特徴領域に属するキーポイントを含む最小の大きさのボックスである。例えば、顔特徴領域に対応する図2に示す領域220は、特徴エンベロップボックスとして決定されてもよい。例えば、特徴エンベロップボックスは、EF=(E、E、F、F)のように示す。EFは特徴エンベロップボックス、Eは位置Eのx座標、Eは位置Eのy座標、Fは位置Fのx座標、Fは位置Fのy座標を示す。特徴エンベロップボックスは、左上頂点の座標である(E、E)及び右下頂点の座標である(F、F)に表示されるが、これに制限されることはない。
【0025】
一実施形態によれば、電子装置は、特徴エンベロップボックスの縦横比が第1閾値よりも大きい場合、特徴エンベロップボックスの形状が予め設定された形状であると決定することができる。例えば、電子装置は、下記の数式(1)を用いて特徴エンベロップボックスの形状が予め設定された形状であるかを決定してもよい。
【0026】
【数1】
【0027】
数式(1)において、HWRは特徴エンベロップボックスの縦横比、Eは特徴エンベロップボックスの左上頂点のx座標、Eは特徴エンベロップボックスの左上頂点のy座標、Fは特徴エンベロップボックスの右下頂点のx座標、Fは特徴エンベロップボックスの右下頂点のy座標、Tは第1閾値を示す。第1閾値は、予め設定されてもよい。第1閾値は、試験的に決定されてもよい。例えば、第1閾値は2.8であってもよいが、これに制限されることはない。
【0028】
特徴エンベロップボックスの縦横比が第1閾値よりも小さい場合、電子装置は、特徴エンベロップボックスの形状が予め設定されていない形状であるものと決定することができる。この場合、入力顔イメージの顔が極端的な頭ポーズを有しないこと、例えば、顔が正面顔のように正常なポーズを有するものと決定されてもよい。このような入力顔イメージは、顔特徴領域に関連する追加的な処理なしに身元認識に利用することができる。
【0029】
位置条件は、顔領域の位置が顔特徴領域の位置と互いに対応しないとき満足される。一実施形態によれば、位置条件は、顔領域の顔エンベロップボックスの幅方向の位置が顔特徴領域の特徴エンベロップボックスの幅方向の位置と互いに対応しないとき満足される。顔エンベロップボックスは、顔のキーポイントを含む最小の大きさのボックスであり、特徴エンベロップボックスは、顔のキーポイントのうち、顔特徴領域に属するキーポイントを含む最小の大きさのボックスである。例えば、顔領域に対応する図2に示す領域210は、顔エンベロップボックスとして決定されてもよい。例えば、顔エンベロップボックスは、CD=(C、C、D、D)に示す。CDは顔エンベロップボックス、Cは位置Cのx座標、Cは位置Cのy座標、Dは位置Dのx座標、Dは位置Dのy座標を示す。特徴エンベロップボックスは、左上頂点の座標である(C、C)及び右下頂点の座標である(D、D)のように表示されるが、これに制限されることはない。
【0030】
一実施形態によれば、電子装置は、顔エンベロップボックスの高さ方向の中心軸と特徴エンベロップボックスの高さ方向の中心軸との間の距離と顔エンベロップボックスの幅間の比率が第2閾値よりも小さい場合、顔エンベロップボックスの幅方向の位置が顔特徴領域の特徴エンベロップボックスの幅方向の位置と互いに対応しないものと決定することができる。例えば、電子装置は、下記の数式(2)を用いて顔領域の位置が顔特徴領域の位置と互いに対応しないかを決定してもよい。
【0031】
【数2】
【0032】
数式(2)において、MRRは顔領域と顔特徴領域との間の位置関係、Cは顔エンベロップボックスの左上頂点のx座標、Dは顔エンベロップボックスの右下頂点のx座標、Eは特徴エンベロップボックスの左上頂点のx座標、Fは特徴エンベロップボックスの右下頂点のx座標を示す。(F+E)/2は、顔エンベロップボックスの高さ方向の中心軸を示し、(D+C)/2は、特徴エンベロップボックスの高さ方向の中心軸を示す。D-Cは顔エンベロップボックスの幅を示す。一実施形態によれば、幅方向はx軸、高さ方向はy軸に対応する。幅方向の位置はx座標、高さ方向の位置はy座標を介して特定される。顔領域と顔特徴領域との間の位置関係MRRが第2閾値よりも小さい場合、電子装置は、顔エンベロップボックスの幅方向の位置が顔特徴領域の特徴エンベロップボックスの幅方向の位置と互いに対応しないものと決定することができる。第2閾値はTに示す。他の例として、顔領域と顔特徴領域との間の位置関係MRRが異なる閾値以上である場合、電子装置は、顔エンベロープボックスの幅方向位置が顔特徴領域の特徴エンベロープボックスの幅方向位置と互いに対応しないものとして決定することができる。例えば、第2閾値は0.15であってもよいが、これに制限されることはない。
【0033】
MRRがT以下である場合、顔特徴領域と顔領域の位置が互いに対応しないことがある。この場合、入力顔イメージで顔特徴領域と顔領域との間の構造的な一貫性が足りない。このような入力顔イメージは顔認識の正確度を低下させる。一実施形態によれば、このような顔イメージは干渉イメージに該当する。第2閾値は試験的に決定されてもよい。
【0034】
一実施形態によれば、顔認識技術の正確度をテストするためにノイズを含むテストデータセットが定義される。テストデータセットは、ポジティブサンプル対(positive sample pair)及びネガティブサンプル対(negative sample pair)を含む。ポジティブサンプル対は、同じ人に対応する2つのイメージを含んでもよい。ネガティブサンプル対は、異なる人に対応する2つのイメージを含んでもよい。テストの結果は、TAR(true accept rate)及びFAR(false accept rate)を用いて評価される。TARは下記の数式(3)、FARは下記の数式(4)を用いてそれぞれ算出される。
【0035】
【数3】
【0036】
【数4】
【0037】
数式(3)及び数式(4)において、Tは閾値を示す。セキュリティ上の理由でFARは低く設定されてもよい。数式(3)を用いてFARを満足する閾値Tが決定される。数式(4)を用いてTARが最終の評価指標として決定される。実施形態によれば、干渉サンプルが識別されることができる。本テストでは、実施形態のイメージ処理方法によりフィルタリングされたイメージサンプルであるか否かに関係なく、全てのサンプル対が登録失敗のサンプル対として見なされているまま、全体サンプル対のうち登録失敗のサンプル対の比率が登録失敗率として算出される。登録失敗のサンプル対はTAR及びFAR算出に利用されてもよく、登録失敗のサンプル対のスコアは0として見なす。
【0038】
サンプル対は、コサインの類似性を用いて比較される。例えば、サンプルの比較スコアは数式(5)のように示す。
【0039】
【数5】
【0040】
数式(5)において、A及びBはサンプル対の2つのイメージの各特徴ベクトル、nは特徴ベクトルの次元(dimension)を示す。サンプル対が高いサンプルの比較スコアを有するほど、該当サンプル対はポジティブサンプル対である確率が高い。
【0041】
テストの結果によれば、実施形態のイメージ処理方法は、干渉サンプルフィルタリングの正確度を大きく向上させることができる。例えば、イメージの頭回転角度が90度よりも大きいか90度に近い場合、該当イメージは肉眼でも有効ではないように見え、このようなイメージに対する作業から信頼できる身元情報を取得し難い。顔領域と顔特徴領域の構造的な一貫性に基づいて、このようなイメージをフィルタリングすることが効果的である。
【0042】
実施形態に係るイメージ処理方法は、干渉の激しい顔イメージをターゲット方式でフィルタリングすることができ、一般的な顔認識過程を変更したり計算量を増加しなくても認識の正確度を効率よく向上させることができる。このようなイメージ処理方法のフィルタリングによれば、顔検出モデル及び/又は顔のキーポイント検出モデルにエラーが発生したり、顔イメージに不完全な顔が含まれている状況も考慮される。
【0043】
一実施形態によれば、電子装置は、顔領域ボックスを利用した顔イメージの再分類、及び/又は顔領域ボックスと顔領域との間の空間的な一貫性に基づいて無効顔イメージを決定することができる。一実施形態によれば、電子装置は、入力顔イメージから顔領域ボックスを検出し、顔領域ボックスが第2予め設定された条件を満足する場合、入力顔イメージを無効顔イメージとして決定することができる。顔領域ボックスは、顔検出モデルによって検出される。第2予め設定された条件は、顔領域ボックスが非顔として決定されるかに関する顔条件、顔領域ボックスと顔領域が空間的に互いに対応しないかに関する空間条件、又は、その組み合わせを含んでもよい。
【0044】
図3及び図4は、一実施形態に係る顔分類モデルを利用した顔認識動作を例示的に示す図である。図3を参照すると、ステップ310において、電子装置は、入力顔イメージから顔領域ボックスを検出する。一実施形態によれば、顔検出モデルによって顔領域ボックスが検出されることができる。例えば、顔検出モデルは、入力顔イメージから顔領域ボックスを検出するようにトレーニングされた人工知能モデル(例えば、ニューラルネットワークモデル)であってもよい。この場合、顔検出モデルは、機械学習を介して入力顔イメージから顔領域ボックスを検出するように予めトレーニングされてもよい。顔領域は、キーポイント検出モデルによって検出された顔のキーポイントに基づいて決定され、顔領域ボックスは顔検出モデルによって検出され得る。
【0045】
ステップ320において、電子装置は、顔領域ボックスを拡大して顔領域ボックスをアップデートする。初期の顔領域ボックスは顔の一部のみを含んでもよく、顔全体を含まなくてもよい。一実施形態によれば、顔領域ボックスが顔全体を含むように顔領域ボックスを拡大して顔領域ボックスをアップデートすることができる。例えば、電子装置は、入力顔イメージから拡大した顔領域ボックスに対応する部分イメージを抽出し、アップデートされた顔領域ボックスを決定してもよい。
【0046】
一実施形態によれば、電子装置は、顔領域ボックスの中心点を基準にして顔領域ボックスを予め設定された倍数(例えば、1.1倍)に拡大することができる。相違に、顔領域ボックスの各点と中心点との間の距離を一定の倍数に拡大することも可能であり、顔領域ボックスの面積を一定の倍数に拡大することも可能であるが、これに制限されることはない。
【0047】
ステップ330において、電子装置は、アップデートされた顔領域ボックスの顔の信頼度を決定する。顔の信頼度は、入力顔イメージが顔に該当するかを示す。電子装置は、顔の信頼度に基づいて顔分類モデルを使用する必要があるかを決定してもよい。顔の信頼度は、信頼度推定モデルを用いて算出される。信頼度推定モデルは人工知能モデル(例えば、ニューラルネットワークモデル)であって、顔分類モデルに比べて小さくて軽いモデルである。顔の信頼度に関する2つの閾値を使用することで、算出資源の無駄遣いを減らし得る。
【0048】
ステップ340において、電子装置は、顔の信頼度に基づいて顔領域ボックスが非顔であるかを決定する。顔の信頼度が第3閾値よりも小さい場合、入力顔イメージが顔イメージである可能性が低い。第3閾値はTに示す。この場合、顔分類モデルを利用した分類作業は不要なこともある。例えば、図4において、入力顔イメージB1は顔分類モデルに入力されず、直ちに非顔イメージとして判断される。非顔イメージは無効イメージに該当する。
【0049】
顔の信頼度が第4閾値よりも大きい場合、入力顔イメージが顔イメージである可能性が高い。第4閾値はTに示す。この場合にも、顔分類モデルを利用した分類作業が不要である。例えば、図4において、入力顔イメージB4は顔分類モデルに入力されず、直ちに顔イメージとして判断される。顔イメージは有効イメージに該当する。
【0050】
顔の信頼度が第3閾値よりも大きく第4閾値よりも小さい場合、入力顔イメージが顔イメージである可能性を予測し難しいこともある。この場合、顔分類モデルを利用した分類作業が必要である。この場合、電子装置は、顔分類モデルを用いてアップデートされた顔領域ボックスを顔又は非顔として決定することができる。例えば、図4において、入力顔イメージB2、B3は顔分類モデルに入力されてもよい。
【0051】
一実施形態によれば、顔分類モデルは、顔領域ボックスの入力に応じて顔領域ボックスに顔特徴が含まれているかを決定することができる。例えば、顔分類モデルは、顔領域ボックスを顔又は非顔として分類してもよい。ここで、顔領域ボックスは、アップデートされた顔領域ボックスであってもよい。顔領域ボックスのアップデートは、顔領域ボックスの拡大を含むことができる。一実施形態によれば、顔領域ボックスは、顔分類モデルの固定された入力サイズに適するよう拡大され得る。顔分類モデルは、顔領域ボックスが顔イメージであるか非顔イメージであるかを分類するようにトレーニングされた人工知能モデル(例えば、ニューラルネットワークモデル)である。この場合、顔分類モデルは、機械学習を介して顔領域ボックスが顔イメージであるか非顔イメージであるかを分類するように予めトレーニングされ得る。
【0052】
実施形態によれば、多様性及び均衡性が保障されたデータセットを用いて顔分類モデルがトレーニングされることができる。均衡性は、ポジティブサンプルとネガティブサンプルとの間の均衡性を意味する。
【0053】
データセットは、顔イメージサンプルに該当するポジティブサンプル及び非顔イメージサンプルに該当するネガティブサンプルを含んでもよい。ポジティブサンプルは、与えられたイメージから顔領域を抽出して取得されることができる。例えば、拡大した顔領域ボックス、顔ラベルボックス、及び顔ラベルボックスとのIOU(intersection over union)が特定の条件を満足するウィンドウのうち少なくとも1つから完全な顔が抽出され得る。ネガティブサンプルは、非顔領域を与えられたイメージから非顔領域を抽出して取得され得る。
【0054】
実施形態に係るイメージ処理方法によって様々な干渉サンプルがフィルタリングされることができる。例えば、身元情報の取得が難しい環境的なノイズ、又は激しく遮られているものが含まれたイメージ、品質の低い顔イメージなどがフィルタリングされるが、これに制限されることはない。実施形態に係るイメージ処理によって顔認識の正確度が向上し、認識結果の信頼性は向上される。実施形態に係る顔の信頼度基盤のイメージ処理方法は、最小限の資源で優れた結果を提供できる。
【0055】
図5は、一実施形態に係る入力顔イメージの顔領域ボックス及び顔領域を例示的に示す図である。図5を参照すると、電子装置は、顔領域ボックス520と顔領域が空間的に互いに対応するかに関する空間条件が満足されるかを決定することができる。電子装置は、空間条件が満足されることに基づいて第2予め設定された条件の満足有無を決定してもよい。電子装置は、空間条件及び/又は第2予め設定された条件が満足される場合、入力顔イメージ500を無効顔イメージとして決定する。
【0056】
一実施形態によれば、電子装置は、顔領域ボックス520と顔領域の顔エンベロップボックス510の空間上の重複程度に基づいて、顔領域ボックス520と顔領域が空間的に互いに対応しないかを決定することができる。顔エンベロップボックス510は、顔のキーポイントを含む最小の大きさのボックスであってもよい。顔エンベロップボックス510は、CD=(C、C、D、D)に示す。顔領域ボックス520はAB=(A、A、B、B)に示す。顔のキーポイントは、顔のキーポイント検出モデルによって検出され、顔のキーポイントに基づいて顔エンベロップボックス510が決定される。顔領域ボックス520は、顔検出モデルによって検出され得る。
【0057】
一実施形態によれば、電子装置は、顔領域ボックス520と顔エンベロップボックス510との間のIOUを決定し、IOUが第5閾値よりも小さい場合、顔領域ボックス520と顔領域が空間的に互いに対応しないものと決定する。第5閾値はTに示す。IOUは、顔領域ボックス520と顔エンベロップボックス510との間の重複程度を測定するために用いられる。例えば、IOUは、下記の数式6を用いて算出される。
【0058】
【数6】
【0059】
IOUが第5閾値よりも小さい場合、電子装置は、顔領域ボックス520と顔領域が空間的に対応しないものと決定する。この場合、顔領域ボックス520と顔領域との間の空間的な一貫性が足りなく、入力顔イメージを利用した顔認識に困難がある。第5閾値は試験的に決定されてもよい。例えば、第5閾値は0.47であってもよいが、これに制限されることはない。
【0060】
図6は、一実施形態に係る予め設定された条件を利用した顔認識動作を例示的に示す図である。図6を参照すると、ステップ610において、電子装置は、入力顔イメージに基づいて顔領域、顔特徴領域、顔領域ボックス、又はその組み合わせを決定する。電子装置は、キーポイント検出モデルを用いて入力顔イメージの顔のキーポイントを検出することができる。電子装置は、顔のキーポイントに基づいて顔領域及び顔特徴領域を決定することができる。例えば、電子装置は、顔のキーポイントに基づいて、顔領域に対応する顔エンベロップボックス及び顔特徴領域に対応する特徴エンベロップボックスを決定してもよい。電子装置は、顔検出モデルを用いて顔領域ボックスを決定してもよい。
【0061】
ステップ620において、電子装置は、第1予め設定された条件が満足されたかをチェックする。第1予め設定された条件は、顔特徴領域の形状に関する形状条件、顔特徴領域の位置と顔領域の位置との間の関係に関する位置条件、又は、その組み合わせを含んでもよい。形状条件は、顔特徴領域の形状が予め設定された形状であるとき満足され、位置条件は、顔領域の位置が顔特徴領域の位置と互いに対応しないとき満足される。第1予め設定された条件が満足された場合、ステップ650において、電子装置は入力顔イメージを捨てる。
【0062】
ステップ630において、電子装置は、第2予め設定された条件が満足されたかをチェックする。第2予め設定された条件は、顔領域ボックスが非顔として決定されるかに関する顔条件、顔領域ボックスと顔領域が空間的に互いに対応しないかに関する空間条件、又はその組み合わせを含んでもよい。顔条件は、顔領域ボックスが非顔として決定されるとき満足され、空間条件は、顔領域ボックスと顔領域が空間的に互いに対応しないとき満足される。第2予め設定された条件が満足された場合、ステップ650において、電子装置は入力顔イメージを捨てる。
【0063】
ステップ620及びステップ630は、並列的に実行されてもよい。ステップ620の第1予め設定された条件とステップ630の第2予め設定された条件のいずれか1つが満足された場合、ステップ650が実行される。第1予め設定された条件と第2予め設定された条件の両方が満足されていない場合、ステップ640が実行される。
【0064】
ステップ640において、電子装置は、入力顔イメージに関する顔認識の後続処理を行う。例えば、後続処理は、顔整列、顔特徴抽出、顔特徴比較、又はその組み合わせを含んでもよい。後続処理には、ステップ610の顔検出の結果(例えば、顔領域ボックス)及び/又はステップ610の顔のキーポイント検出結果(例えば、顔のキーポイント)を用いてもよい。電子装置は、後続処理のための追加的な人工知能モデル(例えば、ニューラルネットワークモデル)を含んでもよく、追加的な人工知能モデルを用いて後続処理を行ってもよい。ステップ640で、後続処理が実行される入力顔イメージは有効顔イメージに該当し、ステップ650で捨てられる入力顔イメージは無効顔イメージに該当する。
【0065】
ステップ640及びステップ650以後に次のフレームに関してステップ610が実行される。例えば、入力ビデオに対する顔認識が実行され、入力ビデオは連続的なイメージフレームを含むことができる。ステップ610の入力顔イメージは、このような連続的なイメージフレームの1つであってもよい。連続的なイメージフレームに関してステップ610~ステップ640が繰り返し実行されてもよい。
【0066】
図7は、一実施形態に係る電子装置の構成を例示的に示す図である。図7を参照すると、電子装置700は、1つ以上のプロセッサ710、メモリ720、カメラ730、格納装置740、入力装置750、出力装置760、及びネットワークインターフェース770を含み、これは通信バス780を介して通信することができる。例えば、電子装置700は、移動電話、スマートフォン、PDA、ネットブック、タブレットコンピュータ、ラップトップコンピュータなどのようなモバイル装置、スマートウォッチ、スマートバンド、スマートメガネなどのようなウェアラブルデバイス、デスクトップ、サーバなどのようなコンピューティング装置、テレビ、スマートテレビ、冷蔵庫などのような家電製品、ドアラックなどのようなセキュリティ装置、自律走行車両、スマート車両などのような車両の少なくとも一部として実現されてもよい。
【0067】
1つ以上のプロセッサ710は、電子装置700内で実行するための機能及び命令語を実行する。例えば、1つ以上のプロセッサ710は、メモリ720又は格納装置740に格納された命令語を処理する。命令語は、1つ以上のプロセッサ710によって実行される場合、電子装置700により、図1図6を参照して説明された動作が行われる。
【0068】
メモリ720は、コンピュータで読み出し可能な格納媒体、又はコンピュータで読み出し可能な格納装置を含んでもよい。メモリ720は、1つ以上のプロセッサ710によって実行するための命令語を格納し、電子装置700によってソフトウェア及び/又はアプリケーションが実行される間に関連情報を格納することができる。
【0069】
カメラ730は、写真及び/又はビデオを撮影する。格納装置740は、コンピュータで読み出し可能な格納媒体又はコンピュータで読み出し可能な格納装置を含む。格納装置740は、メモリ720よりもさらに多い量の情報を格納し、情報を長期間格納することができる。例えば、格納装置740は、磁気ハードディスク、光ディスク、フラッシュメモリ、フロッピーディスク、又はその技術分野で知られている他の形態の不揮発性メモリを含んでもよい。
【0070】
入力装置750は、キーボード及びマウスを通した伝統的な入力方式、タッチ入力、音声入力、及びイメージ入力のような新しい入力方式を介してユーザから入力を受信することができる。例えば、入力装置750は、キーボード、マウス、タッチスクリーン、マイクロホン、又は、ユーザから入力を検出し、検出された入力を電子装置700に伝達できる任意の他の装置を含んでもよい。出力装置760は、視覚的、聴覚的、又は触覚的なチャネルを介してユーザに電子装置700の出力を提供することができる。出力装置760は、例えば、ディスプレイ、タッチスクリーン、スピーカ、振動発生装置、又はユーザに出力を提供できる任意の他の装置を含んでもよい。ネットワークインターフェース770は、有線又は無線ネットワークを介して外部装置と通信できる。
【0071】
以上で説明された実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合わせで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
【0072】
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組み合わせを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
【0073】
本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合わせて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。
【0074】
上記で説明したハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
【0075】
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順に実行され、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態に結合又は組み合わせられてもよく、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
【0076】
したがって、他の具現、他の実施形態及び特許請求の範囲と均等なものも後述する特許請求範囲の範囲に属する。
【符号の説明】
【0077】
200 入力顔イメージ
201 顔のキーポイント
210、220 領域

図1
図2
図3
図4
図5
図6
図7