IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 南京郵電大学の特許一覧

<>
  • 特表-多層前処理に基づく高速顔検出方法 図1
  • 特表-多層前処理に基づく高速顔検出方法 図2
  • 特表-多層前処理に基づく高速顔検出方法 図3
  • 特表-多層前処理に基づく高速顔検出方法 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-05-31
(54)【発明の名称】多層前処理に基づく高速顔検出方法
(51)【国際特許分類】
   G06V 10/82 20220101AFI20230524BHJP
   G06T 7/00 20170101ALI20230524BHJP
   G06T 7/90 20170101ALI20230524BHJP
【FI】
G06V10/82
G06T7/00 350C
G06T7/90 C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022512825
(86)(22)【出願日】2021-04-29
(85)【翻訳文提出日】2022-02-24
(86)【国際出願番号】 CN2021091026
(87)【国際公開番号】W WO2022198751
(87)【国際公開日】2022-09-29
(31)【優先権主張番号】202110322204.7
(32)【優先日】2021-03-25
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】518371489
【氏名又は名称】南京郵電大学
【氏名又は名称原語表記】NANJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS
【住所又は居所原語表記】No.66 Xin Mofan Road, Gulou Nanjing, Jiangsu 210003 China
(74)【代理人】
【識別番号】110000291
【氏名又は名称】弁理士法人コスモス国際特許商標事務所
(72)【発明者】
【氏名】張 暉
(72)【発明者】
【氏名】叶 子皓
(72)【発明者】
【氏名】趙 海涛
(72)【発明者】
【氏名】孫 雁飛
(72)【発明者】
【氏名】朱 洪波
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096FA06
5L096FA18
5L096FA59
5L096FA69
5L096GA40
5L096GA41
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
本願は、入力された原画像に対して色空間変換を実行することと、楕円肌色モデルを使用して、画像における肌色領域を抽出することと、形態学的操作により肌色領域を補正することと、有効検索位置フィルタリング方法により、被検フレームを生成することと、重ね合わせの程度が高すぎる被検フレームを併合することと、畳み込みニューラルネットワークを使用して各被検フレームを1つずつ検出することと、最終的な顔位置決めフレームの座標を計算することとを含む顔検出方法を開示する。
【選択図】図1
【特許請求の範囲】
【請求項1】
被検出画像をRGB色空間からYCbCr色空間に変換するS101と、
楕円肌色モデルを使用して、S101で取得された画像のピクセルごとに肌色ピクセルであるかどうかを判断し、肌色領域を取得するS102であって、いずれかのピクセルの青の色度と赤の色度の成分が楕円肌色モデルの要件を満たしている場合、前記ピクセルを前記肌色ピクセルとして判断するS102と、
S102で取得された前記肌色領域を形態学的処理して、処理済み肌色領域を取得するS103と、
S103で処理して取得された前記処理済み肌色領域に対して有効検索位置フィルタリングを行い、有効検索位置を取得し、輪郭抽出技術を利用して有効検索位置の輪郭を抽出し、各輪郭に対応して1つの被検フレームを生成するS104と、
顔検出機能を有する畳み込みニューラルネットワークを使用して、S104で取得された前記被検フレームを1つずつ検出し、前記被検フレーム内の顔位置決め座標を示すS105と、
前記被検フレームの座標及び前記被検フレーム内の前記顔位置決め座標に基づいて、顔位置決めフレームの座標を確定するS106とを含む顔検出方法。
【請求項2】
前記楕円肌色モデルの要件は、
【数21】
であり、
ここで、Cbは前記ピクセルの前記青の色度の成分を表し、Crは前記ピクセルの前記赤の色度の成分を表す請求項1に記載の方法。
【請求項3】
前記処理済み肌色領域に対して有効検索位置フィルタリングを行うステップは、
フィルタ行列を使用して前記処理済み肌色領域に対して有効検索位置フィルタリングを行うことであって、前記処理済み肌色領域におけるピクセル値、前記フィルタ行列におけるピクセル値及び前記有効検索位置におけるピクセル値は下記の式を満たすことを含み、
【数22】
ここで、dst(i,j)は有効検索位置dstにおける座標(i,j)でのピクセル値を表し、src(i+x,j+y)は肌色領域srcにおける座標(i+x,j+y)でのピクセル値を表し、f(x,y)はフィルタ行列fにおける座標(x,y)でのピクセル値を表し、前記フィルタ行列fのサイズは(2a+1)×(2b+1)であり、中心座標は(0,0)であり、tは予め設定された有効検索率ESRの閾値を表し、areaは前記フィルタ行列fにおける、値が1であるピクセルの数を表す請求項1に記載の方法。
【請求項4】
前記被検フレームの左上角の座標(left,top)及び右下角の座標(right,bottom)はそれぞれ、
【数23】
それぞれ輪郭外接矩形の左上角及び右下角の座標を表す請求項3に記載の方法。
【請求項5】
前記有効検索率は、前記被検フレームにおける前記肌色領域の面積と前記被検フレームとの面積との比として定義される請求項3に記載の方法。
【請求項6】
前記被検出画像を前記RGB色空間から前記YCbCr色空間に変換するステップは、
下記の式を利用して、前記被検出画像に対して前記色空間変換を行うことを含み、
【数24】
ここで、Y、Cb、Crは、前記ピクセルの輝度、前記青の色度の成分、前記赤の色度の成分をそれぞれ表し、R、G、Bは、前記ピクセルの赤、緑、青の成分をそれぞれ表す請求項1に記載の方法。
【請求項7】
前記肌色領域を形態学的処理するステップは、
開操作でゆるい肌色ポイントや細線構造を取り除くことを含む請求項1に記載の方法。
【請求項8】
前記肌色領域を形態学的処理するステップは、
閉操作で、穴を埋め、ギャップを埋めることを更に含む請求項7に記載の方法。
【請求項9】
前記被検フレームは、少なくとも被検フレームA及び被検フレームBを含み、前記S104は、
前記被検フレームA、Bを併合し、前記被検フレームAとBを併合して取得された被検フレームCの面積が前記被検フレームAとBの面積の和以下である場合、前記被検フレームAとBを併合し、そうでない場合、被検フレームAとBを併合しないことを更に含む請求項1に記載の方法。
【請求項10】
前記被検フレームCの左上角の座標
【数25】
それぞれ前記被検フレームBの左上角の座標及び右下角の座標である請求項9に記載の方法。
【請求項11】
前記顔位置決めフレームの左上角の座標(l,t)及び右下角の座標(r,b)はそれぞれ、
【数26】
それぞれ、前記畳み込みニューラルネットワークから出力された、前記被検フレームCのいずれかの顔位置決めフレームの左上角の座標及び右下角の座標である請求項9に記載の方法。
【請求項12】
コンピュータプログラムを格納するメモリと、前記コンピュータプログラムを実行すると、請求項1~11のいずれか1項に記載の方法のステップを実施するプロセッサとを含むコンピュータデバイス。
【請求項13】
プロセッサによって実行されると、請求項1~11のいずれか1項に記載の方法のステップを実施するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、ターゲット検出の分野に関し、具体的には、多層前処理によって顔検出を高速で正確に行う方法に関する。
【0002】
本願は、2021年3月25日に中国特許局に提出された出願番号が2021103222047であり、発明の名称が「多層前処理に基づく高速顔検出方法」である中国特許出願の優先権を主張し、その全体が参照により本願に組み込まれる。
【背景技術】
【0003】
顔認識技術は、監視、セキュリティ、人事管理や画像制作のさまざまな分野で広く使用されている重要な技術である。顔認識技術には、顔の検出と識別の2つの部分があり、この中で、顔検出とは、画像内のすべての顔が現れる位置を検出することであるが、顔識別とは、2つの顔が同じ人物であるかどうかを判断することである。すべての顔の位置が検出された場合にのみ次のステップが実行できるため、顔検出は顔認識技術の基礎である。
【0004】
ターゲット検出分野の1つのサブ分野としての顔検出には、デジタル画像機能と分類アルゴリズムを組み合わせたHaarカスケード分類器や、深層学習の分野での畳み込みニューラルネットワークなど、多くの成熟したアルゴリズムがある。この中で、畳み込みニューラルネットワークは、現在最も高度なアルゴリズムの1つとして、顔検出の問題で非常にうまく機能している。最適に設計され、完全にトレーニングされたさまざまな畳み込みニューラルネットワークは、さまざまな照明、角度、さらには部分的に遮断された場合でさえも高精度で顔を検出できる。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願の例示的な実施例は、複数の画像処理方法と畳み込みニューラルネットワーク技術を組み合わせており、畳み込みニューラルネットワークの演算が遅いという問題を解決することを目的とする多層前処理に基づく高速顔検出方法を提供する。
【課題を解決するための手段】
【0006】
本願の一形態では、多層前処理に基づく高速顔検出方法を提供し、具体的な操作ステップは、
被検出画像をRGB色空間からYCbCr色空間に変換するS101と、
楕円肌色モデルを使用して、S101で取得された画像のピクセルごとに肌色ピクセルであるかどうかを判断し、肌色領域を取得するS102であって、いずれかのピクセルの青の色度と赤の色度の成分が楕円肌色モデルの要件を満たしている場合、前記ピクセルを前記肌色ピクセルとして判断するS102と、
S102で取得された前記肌色領域を形態学的処理して、処理済み肌色領域を取得するS103と、
S103で処理して取得された前記処理済み肌色領域に対して有効検索位置フィルタリングを行い、有効検索位置を取得し、輪郭抽出技術を利用して有効検索位置の輪郭を抽出し、各輪郭に対応して1つの被検フレームを生成するS104と、
顔検出機能を有する畳み込みニューラルネットワークを使用して、S104で取得された前記被検フレームを1つずつ検出し、前記被検フレーム内の顔位置決め座標を示すS105と、
前記被検フレームの座標及び前記被検フレーム内の前記顔位置決め座標に基づいて、顔位置決めフレームの座標を確定するS106とを含む。
【0007】
一実施例では、前記楕円肌色モデルの要件は、
【数1】
であり、
ここで、Cbはピクセルの青の色度の成分を表し、Crはピクセルの赤の色度の成分を表す。
【0008】
一実施例では、前記処理済み肌色領域に対して有効検索位置フィルタリングを行うステップは、
フィルタ行列を使用して前記処理済み肌色領域に対して有効検索位置フィルタリングを行うことであって、前記処理済み肌色領域におけるピクセル値、前記フィルタ行列におけるピクセル値及び前記有効検索位置におけるピクセル値は下記の式を満たすことを含み、
【数2】
ここで、dst(i,j)は有効検索位置dstにおける座標(i,j)でのピクセル値であり、src(i+x,j+y)は肌色領域srcにおける座標(i+x,j+y)でのピクセル値であり、f(x,y)はフィルタ行列fにおける座標(x,y)でのピクセル値であり、フィルタ行列fのサイズは(2a+1)×(2b+1)であり、中心座標は(0,0)であり、tは予め設定された有効検索率ESR閾値であり、areaはフィルタ行列fにおける、値が1であるピクセルの数である。
【0009】
一実施例では、被検フレームの左上角の座標(left, top)及び右下角の座標(right, bottom)はそれぞれ、
【数3】
それぞれ輪郭外接矩形の左上角及び右下角の座標である。
【0010】
一実施例では、前記有効検索率は、前記被検フレームにおける前記肌色領域の面積と前記被検フレームの面積との比として定義される。
【0011】
一実施例では、前記被検出画像を前記RGB色空間から前記YCbCr色空間に変換するステップは、
下記の式を利用して、前記被検出画像に対して前記色空間変換を行うことを含み、
【数4】
ここで、Y、Cb、Crは、ピクセルの輝度、青の色度の成分、赤の色度の成分をそれぞれ表し、R、G、Bはピクセルの赤、緑、青の成分をそれぞれ表す。
【0012】
一実施例では、前記肌色領域を形態学的処理するステップは、開操作でゆるい肌色ポイントや細線構造を取り除くことを含む。
【0013】
一実施例では、前記肌色領域を形態学的処理するステップは、閉操作で、穴を埋め、ギャップを埋めることを更に含む。
【0014】
一実施例では、前記被検フレームは、少なくとも被検フレームA及び被検フレームBを含み、前記S104は、
前記被検フレームA、Bを併合し、前記被検フレームAとBを併合して取得された被検フレームCの面積が前記被検フレームAとBの面積の和以下である場合、前記被検フレームAとBを併合し、そうでない場合、被検フレームAとBを併合しないことを更に含む。
【0015】
一実施例では、被検フレームCの左上角の
【数5】
それぞれ被検フレームBの左上角の座標及び右下角の座標である。
【0016】
一実施例では、S106における顔位置決めフレームの左上角及び右下角の座標はそれぞれ、
【数6】
それぞれ畳み込みニューラルネットワークから出力された、被検フレームCのある顔を位置決める左上角及び右下角の座標である。
【0017】
一実施例では、有効検索率は、被検フレームにおける肌色領域面積と被検フレームの面積との比として定義される。
【0018】
本願の別の形態では、コンピュータプログラムを格納するメモリと、前記コンピュータプログラムを実行すると、上記の実施例のいずれかに記載の方法のステップを実施するプロセッサとを含むコンピュータデバイスを提供する。
【0019】
本願の更に別の形態では、プロセッサによって実行されると、上記の実施例のいずれかに記載の方法のステップを実施するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供する。
【0020】
有益な効果は以下のとおりである。本願は、顔検出畳み込みニューラルネットワークの高精度を維持しながら、多層前処理技術により検索が必要な領域のサイズを縮小し、それによってその実行速度を大幅に向上させることができる。
【図面の簡単な説明】
【0021】
図1】本願の一実施例に係る多層前処理に基づく高速顔検出方法のフローチャートである。
図2】本願の一実施例に係る有効検索位置フィルタリング(ESPFフィルタリング)の模式図である。
図3】本願の一実施例に係る被検フレームの生成の模式図である。
図4】本願の一実施例に係る被検フレームの併合の模式図である。
【発明を実施するための形態】
【0022】
前述のように、最適に設計され、完全にトレーニングされたさまざまな畳み込みニューラルネットワークは、さまざまな照明、角度、さらには部分的に遮断された場合でさえも高精度で顔を検出できるが、畳み込みニューラルネットワークにも独自の欠点があり、つまり、高速な演算は、強力な浮動小数点演算機能を備えたGPUに大きく依存している。コスト、体積や電力の制約により、小さなエッジ端末では畳み込みニューラルネットワークの高速演算をサポートすることは困難である。
【0023】
本出願の目的、技術的解決手段および利点をより明確にするために、本出願は、図面および実施例を参照して、以下でさらに詳細に説明される。本明細書に記載の特定の実施例は、本出願を解釈するためにのみ使用され、本出願を限定するものではないことを理解されたい。
【0024】
本出願の技術的解決策を、図面および特定の実施例と併せて、以下でさらに詳しく説明する。
【0025】
図1に示す実施例では、多層前処理に基づく高速顔検出方法は、具体的には下記の操作ステップを含む。
【0026】
S101:入力画像(被検出画像)を色空間変換し、デフォルトのRGB色空間からYCbCr色空間に変換する。これは、YCbCrが色の輝度と色度を分離したため、さまざまな照明条件で色を分類するシーンに適しているためである。
【0027】
コンピュータ分野では、画像またはビデオのエンコーディングのほとんどはRGB色空間に基づいているため、YCbCrを使用する場合は、まずRGB色空間をYCbCr色空間に変換する必要がある。赤、緑、青の3色に対する人間の目の感度は同じではないため、輝度Yを変換するときは、赤、緑、青に異なる重みを付ける必要がある。具体的な換算式は次のとおりである。
【数7】
【0028】
S102:楕円肌色モデルを使用して、S101で取得された画像のピクセルごとに肌色ピクセルであるかどうかを判断し、肌色領域を取得し、いずれかのピクセルの青の色度と赤の色度の成分が楕円肌色モデルの要件を満たしている場合、前記ピクセルを前記肌色ピクセルとして判断する。
【0029】
多数の肌色を統計したところ、YCbCr空間では、肌色はほぼ楕円柱状の分布を示しており、つまり、CbCr平面では、肌色の分布は楕円に近いことがわかった。統計研究によると、Crを横軸、Cbを縦軸として平面直交座標系を確立する場合、肌色楕円の中心位置は(155,113)、長軸の長さは30、短軸の長さは20、傾斜角は45°(反時計回り)である。したがって、肌色楕円の方程式は次のようになる。
【数8】
【0030】
肌色楕円モデルを作成した後、1つのピクセルについては、青の色度Cbと赤の色度Crの成分によって構成されるポイントが肌色楕円内にある場合、肌色ピクセルであると判断でき、そうでない場合は、非肌色ピクセルである。式2を簡略化して、ピクセルが肌色のピクセルである判断が得られる条件は次のようになる。
【数9】
【0031】
S101では、RGB画像がYCbCr空間に変換された後、そのうちのあるピクセルのCbおよびCr成分が式3を満たす場合、そのピクセルは肌色ピクセルと見なすことができる。入力画像における各ピクセルに対して、式3で判断することにより、肌色領域(または肌色マスク)を取得できる。
【0032】
S103:S102で取得された前記肌色領域を形態学的処理して、処理済み肌色領域を取得する。
【0033】
形態学的操作は、2値化された画像の形状の特徴を処理するための画像処理の分野における一連の技術である。基本的な考え方は、特定の形状の構造要素とルールを使用して画像のピクセル値を変更することで、ノイズの除去、穴やギャップの埋め、グリッチのトリミング、エッジの平滑化の効果を実現し、これにより、さらなる画像分析とターゲット認識を実現することである。基本的な形態学的操作には、侵食(Erosion)と膨張(Dilation)が含まれる。侵食はノイズやグリッチなどの微細構造を除去するために使用され、膨張は穴やギャップを埋めるために使用される。侵食操作を行う場合、構造要素を入力画像上でピクセルごとにスライドさせ、構造要素内のすべての1値が向かい合っている入力画像ピクセルを対応ピクセルと呼び、スライドごとに対応ピクセルの最小値を構造要素のアンカーポイント位置に向かい合っている出力画像のピクセルに書き込む。これは次の式で表される。
【数10】
【0034】
ここで、dst、src、Eは出力画像、入力画像及び構造要素をそれぞれ表し、構造要素はアンカーポイントを座標中心とし、(i,j)は現在の構造要素のアンカーポイント位置座標であり、(x,y)はアンカーポイントに対する構造要素のオフセットである。式4は、侵食プロセス中に、構造要素の1値領域が入力画像の1値領域で完全に覆われている場合にのみ、出力画像のアンカーポイント位置のピクセル値が1であることを示している。これにより、画像の1値領域の輪郭が縮小し、つまり、視覚的に1値領域が侵食されているように見える。膨張操作は、最小値が最大値になることを除いて、侵食操作と同様であり、その式は次のとおりである。
【数11】
【0035】
式5は、膨張プロセス中に、構造要素の1値領域が入力画像の0値領域で完全に覆われている場合にのみ、出力画像のアンカーポイント位置でのピクセル値が0であることを示している。これにより、画像の1値領域の輪郭が拡張し、つまり、視覚的には1値領域が膨張されているように見える。侵食と膨張は、肌色領域の面積に大きな変化を引き起こす。
【0036】
肌色領域のサイズに影響を与えずにノイズを取り除き、穴やギャップを埋めるには、開操作(Opening)と閉操作(Closing)を使用する必要がある。開操作とは、同じ構造要素で画像を順次侵食および膨張することを指す。閉操作により、小さな接続を切断し、ノイズを除去することができる。閉操作とは、最初に膨張し、次に腐食することを指し、これにより、隣接する領域を接続したり、穴やギャップを埋めたりすることができる。取得された肌色領域に形態学的処理を行い、開操作によりゆるい肌色ポイントや細線構造を取り除き、閉操作により肌色領域の小さい穴を埋め、小さなギャップを埋める。開操作と閉操作は、ノイズを取り除き、穴やギャップを埋めながら、肌色領域の面積にほとんど影響を与えない。S102で取得された肌色マスクをそれぞれ開操作、閉操作して、最終的な肌色マスクを取得することができる。
【0037】
S104:S103で処理して取得された前記処理済み肌色領域に対して有効検索位置フィルタリングを行い、有効検索位置を取得し、輪郭抽出技術を利用して有効検索位置の輪郭を抽出し、各輪郭に対応して1つの被検フレームを生成する。
【0038】
最終的に取得された肌色領域に対して有効検索位置フィルタリング(Effective Search Position Filtering、ESPF)を行い、すべての有効検索位置ピクセル領域を取得する。ESPFフィルタリングは、特殊な画像フィルタリング操作であり、楕円形状のフィルタ行列及び有効検索率(Effective Search Rate、ESR)に基づくフィルタリング計算操作を使用した。ここで、有効検索率は、被検フレームにおける肌色領域面積Aと被検フレーム面積との比Aとして定義され、その式は次の通りである。
【数12】
【0039】
ESPFの計算過程は次の式で表すことができる。
【数13】
【0040】
式におけるdst、src及びfは、それぞれ出力画像、入力画像及びフィルタ行列である。フィルタ行列のサイズは(2a+1)×(2b+1)であり、中心座標は(0,0)であり、tは予め設定されたESR閾値であり、areaはフィルタ行列における1値ピクセルの数である。ESPFフィルタリング中に使用されるフィルタ行列は楕円行列であり、図2におけるフィルタ行列に示すように、そのうちの1値は矩形に内接する標準的な楕円形として配列される。
【0041】
図2に示すように、ESPFフィルタリングの出力画像は有効検索位置であり、さらに輪郭抽出技術を利用してそのうちの有効検索位置の輪郭を抽出し、各輪郭に対して1つの被検フレームを生成する。被検フレームは、輪郭外接矩形を周囲に一定の距離だけ拡張することによって得られ、当該輪郭外接矩形の4つの辺はいずれも輪郭に外接し、各辺は画像の各辺に平行である。拡張距離はフィルタ行列のサイズの半分に等しい。輪郭外接矩形フレームの左上角及び右下角の座標がそれぞれ
【数14】
フィルタ行列のサイズが(2a+1)×(2b+1)であると、拡張することで取得された被検フレームの左上角の座標及び右下角の座標は、
【数15】
である。
【0042】
最終的に被検フレームを生成する効果は図3に示され、ESPFフィルタリング後に取得された各被検フレームはESRが高い。このとき、面積が小さい肌色領域、細長い肌色領域等の非顔肌色部分がESPFフィルタリングにより取り除かれ、肌色領域が連通するという問題も解決される。
【0043】
S105:顔検出機能を有する畳み込みニューラルネットワークを使用して、S104で取得された前記被検フレームを1つずつ検出し、前記被検フレーム内の顔位置決め座標を示す。
【0044】
併合できる被検フレームがあるかどうかを確認し、それらをすべて併合して、最終被検フレームを取得する。被検フレームを併合することは、併合する必要がある2つの被検フレームAとBを1つのより大きな被検フレームCに置き換えことであり、被検フレームCはAとBを完全に覆うとともに、面積をできるだけ小さくする必要があり、従って、被検フレームCの左上角の座標及び右下角の座標は、次のとおりである。
【数16】
【0045】
また、被検フレームを併合するには、総面積が増加しないという条件を満たす、即ち、
【数17】
を満たすべきである。図4は、被検フレームを併合した効果を示し、大面積で重ね合わせた2対の被検フレームは併合され、畳み込みニューラルネットワークによって検索する必要がある面積がさらに削減され、検索効率が向上する。
【0046】
S106:前記被検フレームの座標及び前記被検フレーム内の前記顔位置決め座標に基づいて、顔位置決めフレームの座標を確定して、顔検出結果を取得する。
【0047】
顔検出機能を有する畳み込みニューラルネットワークを使用して、各最終被検フレームを1つずつ検出し、その中の顔位置決め座標を出力し、ここで出力される位置決め座標は被検フレームに対するものである。
【0048】
ステップ7:畳み込みニューラルネットワークは、被検フレームに対する被検フレーム内のすべての顔位置決めフレームの座標を出力し、被検フレームの左上角及び右下角の座標が
【数18】
であり、畳み込みニューラルネットワークによって出力されるある顔位置決めフレームの左上角及び右下角の座標が
【数19】
であると、当該顔位置決めフレームの左上角及び右下角の実際座標はそれぞれ下記の通りである。
【数20】
【0049】
被検フレームの座標及びその中の顔位置決め座標に基づいて顔位置決めフレームの画像での実際座標を計算し出力し、最終的な顔検出結果を取得する。
【0050】
理解できるように、図1のフローチャートにおける各ステップは、矢印で示されるように順次表示されているが、これらのステップは必ずしも矢印で示された順序で順番に実行されるとは限らない。本明細書に明示的に記載されていない限り、これらのステップの実行は厳密には限定されず、これらのステップは他の順序で実行されてもよい。さらに、図1における少なくとも一部のステップは複数のサブステップ又は複数の段階を含んでもよく、これらのサブステップ又は段階は必ずしも同時に実行及び完了する必要はないが、異なる時間に実行されてもよく、これらのサブステップ又は段階の実行順序も必ずしも順次実行する必要はなく、他のステップや他のステップのサブステップ又は段階の少なくとも一部と交代又は交互に実行されてもよい。
【0051】
当業者は、上記の実施例の方法におけるプロセスの全部または一部が、コンピュータプログラムを介して関連するハードウェアに指示することによって完了でき、前記コンピュータプログラムが不揮発性コンピュータ可読記憶媒体に格納できることを理解することができ、当該コンピュータプログラムが実行されるときに、上記の各方法の実施例のフローを含んでもよい。ここで、本出願で提供される様々な実施例で使用される、メモリ、ストレージ、データベースまたは他の媒体の任意の引用は、不揮発性および/または揮発性メモリを含んでもよい。不揮発性メモリには、読み取り専用メモリ(ROM)、プログラマブルROM(PROM)、電気的にプログラム可能なROM(EPROM)、電気的に消去可能なプログラマブルROM(EEPROM)、またはフラッシュメモリが含まれてもよい。揮発性メモリには、ランダムアクセスメモリ(RAM)または外部キャッシュメモリが含まれてもよい。例として、限定ではないが、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、強化型SDRAM(ESDRAM)、同期リンク(Synchlink)DRAM(SLDRAM)、メモリバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRDRAM)やメモリバスダイナミックRAM(RDRAM)などのさまざまな形態で入手できる。
【0052】
上記の実施例の各技術的特徴は任意に組み合わせることができ、簡潔に説明するために、上記の実施例における各技術的特徴のすべての可能な組み合わせは記載されていないが、これらの技術的特徴の組み合わせに矛盾がない限り、本明細書に記載されている範囲とみなされるべきである。
【0053】
上記の実施例は、本出願のいくつかの実施例だけを示し、その説明は、具体的かつ詳細であるが、本発明の特許の範囲に対する限定として解釈されるべきではない。ただし、当業者にとって、本出願の概念から逸脱することなく、いくつかの補正および改良を行うことができ、それらはすべて本出願の保護範囲に属する。したがって、本出願の特許の保護範囲は、添付の特許請求の範囲に従うものとする。
図1
図2
図3
図4
【国際調査報告】