IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京京▲東▼尚科信息技▲術▼有限公司の特許一覧 ▶ 北京京東世紀貿易有限公司の特許一覧

特許7559063フェイスパーシング方法および関連デバイス
<>
  • 特許-フェイスパーシング方法および関連デバイス 図1
  • 特許-フェイスパーシング方法および関連デバイス 図2
  • 特許-フェイスパーシング方法および関連デバイス 図3
  • 特許-フェイスパーシング方法および関連デバイス 図4
  • 特許-フェイスパーシング方法および関連デバイス 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-20
(45)【発行日】2024-10-01
(54)【発明の名称】フェイスパーシング方法および関連デバイス
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240924BHJP
   G06V 10/82 20220101ALI20240924BHJP
【FI】
G06T7/00 350C
G06T7/00 660A
G06V10/82
【請求項の数】 12
(21)【出願番号】P 2022528685
(86)(22)【出願日】2020-08-18
(65)【公表番号】
(43)【公表日】2023-01-19
(86)【国際出願番号】 CN2020109826
(87)【国際公開番号】W WO2021098300
(87)【国際公開日】2021-05-27
【審査請求日】2023-05-22
(31)【優先権主張番号】201911125557.7
(32)【優先日】2019-11-18
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】519274389
【氏名又は名称】北京京▲東▼尚科信息技▲術▼有限公司
【氏名又は名称原語表記】BEIJING JINGDONG SHANGKE INFORMATION TECHNOLOGY CO., LTD.
【住所又は居所原語表記】8TH FLOOR OF BUILDING, NO. 76, ZHICHUN ROAD, HAIDIAN DISTRICT, BEIJING 100086, PEOPLE’S REPUBLIC OF CHINA
(73)【特許権者】
【識別番号】517241916
【氏名又は名称】北京京東世紀貿易有限公司
【氏名又は名称原語表記】BEIJING JINGDONG CENTURY TRADING CO., LTD.
【住所又は居所原語表記】Room 201, 2/F, Block C, No.18, Kechuang 11th Street, Beijing Economic and Technological Development Zone, Beijing 100176, China
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】▲劉▼ ▲穎▼▲ル▼
(72)【発明者】
【氏名】石 ▲海▼林
(72)【発明者】
【氏名】▲梅▼ 涛
【審査官】菊池 伸郎
(56)【参考文献】
【文献】中国特許出願公開第108062543(CN,A)
【文献】中国特許出願公開第109255784(CN,A)
【文献】中国特許出願公開第110348322(CN,A)
【文献】Tao Ruan et al.,“Devilin the Details: Towards Accurate Single and Multiple Human Parsing”,[online],2018年11月29日,[retrieved on 2024-02-15], https://arxiv.org/abs/1809.05996
【文献】@klis(himkt),“多クラス交差エントロピー誤差関数とソフトマックス関数,その美しき微分”,[online],2018年08月19日,[retrieved on 2024-02-15], https://qiita.com/klis/items/4ad3032d02ff815e09e6
【文献】“Machine Learning forFinance”,[online],2019年05月,[retrieved on 2024-02-15], https://subscription.packtpub.com/book/data/9781789136364/1/ch01lvl1sec21/measuring-model-loss
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 10/82
(57)【特許請求の範囲】
【請求項1】
フェイス・パーシング・ニューラル・ネットワークのトレーニング方法であって、
各ピクセルが属する顔内の領域を用いて注釈付けされたサンプルの顔画像を使用して、前記フェイス・パーシング・ニューラル・ネットワークを事前にトレーニングするステップを備え、
前記トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力顔画像に従って顔画像の各ピクセルが属する顔内の領域を出力するように構成され、
前記フェイス・パーシング・ニューラル・ネットワークは、セマンティック知覚サブネットワーク、境界知覚サブネットワーク、および融合サブネットワークを含み、
前記セマンティック知覚サブネットワークは、前記サンプルの顔画像からセマンティック特徴を抽出するように構成され、前記セマンティック特徴が、前記サンプルの顔画像の各ピクセルが様々な顔内の領域に属する確率を表し、
前記境界知覚サブネットワークは、前記サンプルの顔画像から境界特徴を抽出するように構成され、前記境界特徴は、前記サンプルの顔画像の各ピクセルが異なる顔内の領域間の境界に属する確率を表し、
前記融合サブネットワークは、連結されたセマンティック特徴と境界特徴を処理して、前記サンプルの顔画像の各ピクセルが属する顔内の領域を取得するように構成され
前記フェイス・パーシング・ニューラル・ネットワークの前記融合サブネットワークは、前記連結されたセマンティック特徴と境界特徴を処理して、前記サンプルの顔画像の融合特徴を取得するように構成され、前記融合特徴は、前記サンプルの顔画像の各ピクセルが様々な顔内の領域に属する予測確率と、前記サンプルの顔画像の各ピクセルが前記境界に属する予測確率とを表し、前記融合特徴は、前記サンプルの顔画像の各ピクセルが属する顔内の領域を決定するように構成され、
前記フェイス・パーシング・ニューラル・ネットワークをトレーニングする際に使用する損失関数は、前記セマンティック知覚サブネットワークの損失関数と、前記境界知覚サブネットワークの損失関数と、前記融合サブネットワークの損失関数とを含み、
前記セマンティック知覚サブネットワークの損失関数は、前記セマンティック特徴の各ピクセルが様々な顔内の領域に属する予測確率と、前記セマンティック特徴の各ピクセルが実際に属する顔内の領域とに従って決定され、
前記境界知覚サブネットワークの損失関数は、前記境界特徴の各ピクセルが異なる顔内の領域間の境界に属する予測確率と、前記境界特徴の各ピクセルが実際に境界に属するか否かとに従って決定され、
前記融合サブネットワークの損失関数が、前記融合特徴の各ピクセルが様々な顔内の領域に属する予測確率と、前記融合特徴の各ピクセルが実際に属する顔内の領域と、前記融合特徴の各ピクセルが前記境界に属するか否かとに従って決定され、前記融合サブネットワークの損失関数が、前記融合特徴の各ピクセルが様々な顔内の領域に属する予測確率と前記融合特徴の各ピクセルが実際に属する顔内の領域とに関する損失関数、および前記融合特徴の各ピクセルの重み係数という2つの成分の積によって決定され、前記融合特徴の各ピクセルの前記重み係数が、各ピクセルが実際に前記境界に属する場合と比較して、各ピクセルが実際に前記境界に属さない場合に小さい、
トレーニング方法。
【請求項2】
前記セマンティック知覚サブネットワークの損失関数Lsは、
【数1】
であり、Nは、前記セマンティック特徴のピクセル総数であり、iは、前記セマンティック特徴のピクセルの識別子であり、Cは、顔内の領域のカテゴリの総数であり、jは、前記顔内の領域のカテゴリの識別子であり、ピクセルiが顔内の領域jに実際に属している場合ysij=1であり、ピクセルiが顔内の領域jに実際に属していない場合ysij=0であり、psijは、ピクセルiが顔内の領域jに属する予測確率である、請求項1に記載のトレーニング方法。
【請求項3】
前記境界知覚サブネットワークの損失関数Lbは、
【数2】
であり、Nは、前記境界特徴のピクセル総数であり、iは、前記境界特徴のピクセルの識別子であり、ピクセルiが実際に境界に属している場合ybi=1であり、ピクセルiが実際に境界に属していない場合ybi=0であり、pbiは、ピクセルiが境界に属している予測確率である、請求項1に記載のトレーニング方法。
【請求項4】
前記融合サブネットワークの損失関数Lfは、
【数3】
であり、Nは、前記融合特徴のピクセル総数であり、iは、前記融合特徴のピクセルの識別子であり、Cは、顔内の領域のカテゴリの総数であり、jは、前記顔内の領域のカテゴリの識別子であり、ピクセルiが顔内の領域jに実際に属している場合ysij=1であり、ピクセルiが顔内の領域jに実際に属していない場合ysij=0であり、psijは、ピクセルiが顔内の領域jに属する予測確率であり、ピクセルiが実際に境界に属している場合wi>1であり、ピクセルiが実際に境界に属していない場合wi=1である、請求項1に記載のトレーニング方法。
【請求項5】
請求項1~4のいずれか一項に記載のトレーニング方法を使用してフェイス・パーシング・ニューラル・ネットワークをトレーニングすることによって事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークを取得するステップと、
前記事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークに顔画像を入力するステップと、
前記フェイス・パーシング・ニューラル・ネットワークのセマンティック知覚サブネットワークを使用して、前記顔画像からセマンティック特徴を抽出するステップであって、前記セマンティック特徴は、前記顔画像の各ピクセルが様々な顔内の領域に属する確率を表す、ステップと、
前記フェイス・パーシング・ニューラル・ネットワークの境界知覚サブネットワークを使用して前記顔画像から境界特徴を抽出するステップであって、前記境界特徴は、前記顔画像の各ピクセルが異なる顔内の領域間の境界に属する確率を表す、ステップと、
前記フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して前記連結されたセマンティック特徴と境界特徴を処理して、前記顔画像の各ピクセルが属する顔内の領域を取得するステップと
を備える、フェイスパーシング方法。
【請求項6】
前記セマンティック知覚サブネットワークが畳み込み層を含み、
セマンティック知覚サブネットワークを使用して前記顔画像からセマンティック特徴を抽出するステップが、前記畳み込み層を使用して前記顔画像に拡張畳み込みを実行して、畳み込み特徴を取得するステップを備える、請求項5に記載のフェイスパーシング方法。
【請求項7】
前記セマンティック知覚サブネットワークがプール層を備え、
セマンティック知覚サブネットワークを使用して前記顔画像からセマンティック特徴を抽出するステップがさらに、前記プール層を使用して畳み込み特徴のマルチスケールプーリングを実行して、マルチスケールのプールされた特徴を取得するステップと、前記マルチスケールのプールされた特徴と前記畳み込み特徴とを連結するステップとを備える、請求項5に記載のフェイスパーシング方法。
【請求項8】
前記境界知覚サブネットワークおよび前記融合サブネットワークは、畳み込み層を備える、請求項5に記載のフェイスパーシング方法。
【請求項9】
各ピクセルが属する顔内の領域を用いて注釈付けされたサンプルの顔画像を使用して、フェイス・パーシング・ニューラル・ネットワークを事前にトレーニングするように構成されたフェイス・パーシング・ニューラル・ネットワークのためのトレーニング装置であって、
前記トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力顔画像に従って顔画像の各ピクセルが属する顔内の領域を出力するように構成され、
前記フェイス・パーシング・ニューラル・ネットワークは、セマンティック知覚サブネットワーク、境界知覚サブネットワーク、および融合サブネットワークを含み、
前記セマンティック知覚サブネットワークは、前記サンプルの顔画像からセマンティック特徴を抽出するように構成され、前記セマンティック特徴が、前記サンプルの顔画像の各ピクセルが様々な顔内の領域に属する確率を表し、
前記境界知覚サブネットワークは、前記サンプルの顔画像から境界特徴を抽出するように構成され、前記境界特徴は、前記サンプルの顔画像の各ピクセルが異なる顔内の領域間の境界に属する確率を表し、
前記融合サブネットワークは、連結されたセマンティック特徴と境界特徴を処理して、前記サンプルの顔画像の各ピクセルが属する顔内の領域を取得するように構成され
前記フェイス・パーシング・ニューラル・ネットワークの前記融合サブネットワークは、前記連結されたセマンティック特徴と境界特徴を処理して、前記サンプルの顔画像の融合特徴を取得するように構成され、前記融合特徴は、前記サンプルの顔画像の各ピクセルが様々な顔内の領域に属する予測確率と、前記サンプルの顔画像の各ピクセルが前記境界に属する予測確率とを表し、前記融合特徴は、前記サンプルの顔画像の各ピクセルが属する顔内の領域を決定するように構成され、
前記フェイス・パーシング・ニューラル・ネットワークをトレーニングする際に使用する損失関数は、前記セマンティック知覚サブネットワークの損失関数と、前記境界知覚サブネットワークの損失関数と、前記融合サブネットワークの損失関数とを含み、
前記セマンティック知覚サブネットワークの損失関数は、前記セマンティック特徴の各ピクセルが様々な顔内の領域に属する予測確率と、前記セマンティック特徴の各ピクセルが実際に属する顔内の領域とに従って決定され、
前記境界知覚サブネットワークの損失関数は、前記境界特徴の各ピクセルが異なる顔内の領域間の境界に属する予測確率と、前記境界特徴の各ピクセルが実際に境界に属するか否かとに従って決定され、
前記融合サブネットワークの損失関数が、前記融合特徴の各ピクセルが様々な顔内の領域に属する予測確率と、前記融合特徴の各ピクセルが実際に属する顔内の領域と、前記融合特徴の各ピクセルが前記境界に属するか否かとに従って決定され、前記融合サブネットワークの損失関数が、前記融合特徴の各ピクセルが様々な顔内の領域に属する予測確率と前記融合特徴の各ピクセルが実際に属する顔内の領域とに関する損失関数、および前記融合特徴の各ピクセルの重み係数という2つの成分の積によって決定され、前記融合特徴の各ピクセルの前記重み係数が、各ピクセルが実際に前記境界に属する場合と比較して、各ピクセルが実際に前記境界に属さない場合に小さい、
トレーニング装置。
【請求項10】
事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークを取得するように構成された請求項9に記載のトレーニング装置と、
前記事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークに顔画像を入力するように構成された画像入力モジュールと、
前記フェイス・パーシング・ニューラル・ネットワークのセマンティック知覚サブネットワークを使用して、前記顔画像からセマンティック特徴を抽出するように構成されたセマンティック特徴抽出モジュールであって、前記セマンティック特徴は、前記顔画像の各ピクセルが様々な顔内の領域に属する確率を表す、セマンティック特徴抽出モジュールと、
前記フェイス・パーシング・ニューラル・ネットワークの境界知覚サブネットワークを使用して前記顔画像から境界特徴を抽出するように構成された境界特徴抽出モジュールであって、前記境界特徴は、前記顔画像の各ピクセルが異なる顔内の領域間の境界に属する確率を表す、境界特徴抽出モジュールと、
前記フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して前記連結されたセマンティック特徴と境界特徴を処理して、前記顔画像の各ピクセルが属する顔内の領域を取得するように構成されたフェイスパーシングモジュールと
を備える、フェイスパーシング装置。
【請求項11】
電子デバイスであって、
メモリと、
前記メモリに結合されたプロセッサとを備え、前記プロセッサが、前記メモリに記憶された命令に基づいて、請求項58のいずれか一項に記載のフェイスパーシング方法、あるいは請求項1~4のいずれか一項に記載のトレーニング方法を実行するように構成される、電子デバイス。
【請求項12】
コンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体であって、コンピュータ命令は、プロセッサによる実行時に、請求項58のいずれか一項に記載のフェイスパーシング方法、あるいは請求項1~4のいずれか一項に記載のトレーニング方法を実行する、非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照本出願は、その全体が参照により本出願に組み込まれる、2019年11月18日に出願された中国特許出願201911125557.7に基づき、該出願の優先権の利益を主張する。
【0002】
本開示は、人工知能の分野に関し、特に、フェイスパーシング方法および装置、フェイスパーシングネットワークについてのトレーニング方法および装置、電子デバイスおよび非一時的コンピュータ可読記憶媒体に関する。
【背景技術】
【0003】
フェイスパーシングは、顔画像中の各ピクセルにセマンティックラベルを割当てて、各ピクセルが属する顔領域、髪、顔の皮膚、眉、目、鼻、口などを表すことを指す。
【0004】
近年、ディープラーニングの発達および人工知能技術の成熟に伴い、フェイスパーシング技術は、顔の合成、顔の拡張現実技術など、顔関連のアプリケーションにますます採用されている。
【発明の概要】
【課題を解決するための手段】
【0005】
本開示の第1の態様では、フェイスパーシング方法が提供され、該方法は、事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークに顔画像を入力するステップと、フェイス・パーシング・ニューラル・ネットワークのセマンティック知覚サブネットワークを使用して、顔画像からセマンティック特徴を抽出するステップであって、セマンティック特徴は、顔画像の各ピクセルが様々な顔領域に属する確率を表す、ステップと、フェイス・パーシング・ニューラル・ネットワークの境界知覚サブネットワークを使用して顔画像から境界特徴を抽出するステップであって、境界特徴は、顔画像の各ピクセルが異なる顔領域間の境界に属する確率を表す、ステップと、フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して連結されたセマンティック特徴と境界特徴を処理して、顔画像の各ピクセルが属する顔領域を取得するステップとを備える、
【0006】
いくつかの実施形態では、フェイスパーシング方法はさらに、各ピクセルが属する顔領域を用いて注釈付けされたサンプルの顔画像を使用して、フェイス・パーシング・ニューラル・ネットワークをトレーニングするステップをさらに備え、トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力顔画像に従って顔画像の各画像が属する顔領域を出力する。
【0007】
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークをトレーニングする際に使用される損失関数は、セマンティック知覚サブネットワークの損失関数と境界知覚サブネットワークの損失関数とを含み、セマンティック知覚サブネットワークの損失関数は、セマンティック特徴の各ピクセルが様々な顔領域に属する予測確率と、セマンティック特徴の各ピクセルが実際に属する顔領域とに従って決定され、境界知覚サブネットワークの損失関数は、境界特徴の各ピクセルが異なる顔領域間の境界に属する予測確率と、境界特徴の各ピクセルが実際に境界に属するか否かとに従って決定される。
【0008】
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して連結されたセマンティック特徴と境界特徴を処理して、顔画像の各ピクセルが属する顔領域を取得するステップは、フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して連結されたセマンティック特徴と境界特徴を処理して、顔画像の融合特徴を取得するステップであって、融合特徴が顔画像の各ピクセルが様々な顔領域に属する予測確率と、顔画像の各ピクセルが境界に属する予測確率とを表す、ステップと、融合特徴に従って顔画像の各ピクセルが属する顔領域を決定するステップとを備える。
【0009】
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークをトレーニングする際に使用される損失関数が融合サブネットワークの損失関数をさらに含み、融合サブネットワークの損失関数が、融合特徴の各ピクセルが様々な顔領域に属する予測確率と、融合特徴の各ピクセルが実際に属する顔領域と、融合特徴の各ピクセルが境界に属するか否かとに従って決定される。
【0010】
いくつかの実施形態では、セマンティック知覚サブネットワークの損失関数Lsは、
【数1】
である。
【0011】
Nは、セマンティック特徴のピクセル総数であり、iは、セマンティック特徴のピクセルの識別子であり、Cは、顔領域のカテゴリの総数であり、jは、顔領域のカテゴリの識別子であり、ピクセルiが顔領域jに実際に属している場合ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合ys ij=0であり、ps ijは、ピクセルiが顔領域jに属する予測確率である。
【0012】
境界知覚サブネットワークの損失関数Lbは、
【数2】
である。
【0013】
Nは、境界特徴のピクセル総数であり、iは、境界特徴のピクセルの識別子であり、ピクセルiが実際に境界に属している場合yb i=1であり、ピクセルiが実際に境界に属していない場合yb i=0であり、pb iは、ピクセルiが境界に属している予測確率である。
【0014】
融合サブネットワークの損失関数Lfは、
【数3】
である。
【0015】
Nは、融合特徴のピクセル総数であり、iは、融合特徴のピクセルの識別子であり、Cは、顔領域のカテゴリの総数であり、jは、顔領域のカテゴリの識別子であり、ピクセルiが顔領域jに実際に属している場合ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合ys ij=0であり、ps ijは、ピクセルiが顔領域jに属する予測確率であり、ピクセルiが実際に境界に属している場合wi>1であり、ピクセルiが実際に境界に属していない場合wi=1である。
【0016】
いくつかの実施形態では、セマンティック知覚サブネットワークが畳み込み層を含み、セマンティック知覚サブネットワークを使用して顔画像からセマンティック特徴を抽出するステップが、畳み込み層を使用して顔画像に拡張畳み込みを実行して、畳み込み特徴を取得するステップを備える。
【0017】
いくつかの実施形態では、セマンティック知覚サブネットワークがプール層を備え、セマンティック知覚サブネットワークを使用して顔画像からセマンティック特徴を抽出するステップがさらに、プール層を使用して畳み込み特徴のマルチスケールプーリングを実行して、マルチスケールのプールされた特徴を取得するステップと、マルチスケールのプールされた特徴と畳み込み特徴とを連結するステップとを備える。
【0018】
いくつかの実施形態では、境界知覚サブネットワークおよび融合サブネットワークは、畳み込み層を備える。
【0019】
本開示の第2の態様では、フェイス・パーシング・ニューラル・ネットワークのトレーニング方法が提供され、該方法は、各ピクセルが属する顔領域を用いて注釈付けされたサンプルの顔画像を使用して、フェイス・パーシング・ニューラル・ネットワークを事前にトレーニングするステップを備え、トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力顔画像に従って顔画像の各ピクセルが属する顔領域を出力するように構成され、フェイス・パーシング・ニューラル・ネットワークは、セマンティック知覚サブネットワーク、境界知覚サブネットワーク、および融合サブネットワークを含み、セマンティック知覚サブネットワークは、サンプルの顔画像からセマンティック特徴を抽出するように構成され、セマンティック特徴が、サンプルの顔画像の各ピクセルが様々な顔領域に属する確率を表し、境界知覚サブネットワークは、サンプルの顔画像から境界特徴を抽出するように構成され、境界特徴は、サンプルの顔画像の各ピクセルが異なる顔領域間の境界に属する確率を表し、融合サブネットワークは、連結されたセマンティック特徴と境界特徴を処理して、サンプルの顔画像の各ピクセルが属する顔領域を取得する。
【0020】
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークをトレーニングする際に使用する損失関数は、セマンティック知覚サブネットワークの損失関数と、境界知覚サブネットワークの損失関数とを含み、セマンティック知覚サブネットワークの損失関数は、セマンティック特徴の各ピクセルが様々な顔領域に属する予測確率と、セマンティック特徴の各ピクセルが実際に属する顔領域とに従って決定され、境界知覚サブネットワークの損失関数は、境界特徴の各ピクセルが異なる顔領域間の境界に属する予測確率と、境界特徴の各ピクセルが実際に境界に属するか否かとに従って決定される。
【0021】
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークは、連結されたセマンティック特徴と境界特徴を処理して、サンプルの顔画像の融合特徴を取得するように構成され、融合特徴は、サンプルの顔画像の各ピクセルが様々な顔領域に属する予測確率およびサンプルの顔画像の各ピクセルが境界に属する予測確率を表し、融合特徴は、サンプルの顔画像の各ピクセルが属する顔領域を決定するように構成される。
【0022】
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークをトレーニングする際に使用する損失関数は、融合サブネットワークの損失関数を含み、融合サブネットワークの損失関数が、融合特徴の各ピクセルが様々な顔領域に属する予測確率と、融合特徴の各ピクセルが実際に属する顔領域と、融合特徴の各ピクセルが境界に属するか否かとに従って決定される。
【0023】
いくつかの実施形態では、セマンティック知覚サブネットワークの損失関数Lsは、
【数4】
である。
【0024】
Nは、セマンティック特徴のピクセル総数であり、iは、セマンティック特徴のピクセルの識別子であり、Cは、顔領域のカテゴリの総数であり、jは、顔領域のカテゴリの識別子であり、ピクセルiが顔領域jに実際に属している場合ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合ys ij=0であり、ps ijは、ピクセルiが顔領域jに属する予測確率である。
【0025】
いくつかの実施形態では、境界知覚サブネットワークの損失関数Lbは、
【数5】
である。
【0026】
Nは、境界特徴のピクセル総数であり、iは、境界特徴のピクセルの識別子であり、ピクセルiが実際に境界に属している場合yb i=1であり、ピクセルiが実際に境界に属していない場合yb i=0であり、pb iは、ピクセルiが境界に属している予測確率である。
【0027】
いくつかの実施形態では、融合サブネットワークの損失関数Lfは、
【数6】
である。
【0028】
Nは、融合特徴のピクセル総数であり、iは、融合特徴のピクセルの識別子であり、Cは、顔領域のカテゴリの総数であり、jは、顔領域のカテゴリの識別子であり、ピクセルiが顔領域jに実際に属している場合ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合ys ij=0であり、ps ijは、ピクセルiが顔領域jに属する予測確率であり、ピクセルiが実際に境界に属している場合wi>1であり、ピクセルiが実際に境界に属していない場合wi=1である。
【0029】
本開示の第3の態様では、フェイスパーシング装置が提供され、該装置は、事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークに顔画像を入力するように構成された画像入力モジュールと、フェイス・パーシング・ニューラル・ネットワークのセマンティック知覚サブネットワークを使用して、顔画像からセマンティック特徴を抽出するように構成されたセマンティック特徴抽出モジュールであって、セマンティック特徴は、顔画像の各ピクセルが様々な顔領域に属する確率を表す、セマンティック特徴抽出モジュールと、フェイス・パーシング・ニューラル・ネットワークの境界知覚サブネットワークを使用して顔画像から境界特徴を抽出するように構成された境界特徴抽出モジュールであって、境界特徴は、顔画像の各ピクセルが異なる顔領域間の境界に属する確率を表す、境界特徴抽出モジュールと、フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して連結されたセマンティック特徴と境界特徴を処理して、顔画像の各ピクセルが属する顔領域を取得するように構成されたフェイスパーシングモジュールとを備える。
【0030】
いくつかの実施形態では、フェイスパーシング装置はさらに、各ピクセルが属する顔領域を用いて注釈付けされたサンプルの顔画像を使用して、フェイス・パーシング・ニューラル・ネットワークをトレーニングするように構成されたネットワークトレーニングモジュールを備え、前記トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力された顔画像に従って入力された顔画像の各ピクセルが属する顔領域を出力する。
【0031】
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークをトレーニングするためにネットワークトレーニングモジュールによって採用される損失関数は、セマンティック知覚サブネットワークの損失関数と、境界知覚サブネットワークの損失関数とを含み、セマンティック知覚サブネットワークの損失関数は、セマンティック特徴の各ピクセルが様々な顔領域に属する予測確率と、セマンティック特徴の各ピクセルが実際に属する顔領域とに従って決定され、境界知覚サブネットワークの損失関数は、境界特徴の各ピクセルが異なる顔領域間の境界に属する予測確率と、境界特徴の各ピクセルが実際に境界に属するか否かとに従って決定される。
【0032】
いくつかの実施形態では、フェイスパーシングモジュールは、フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して連結されたセマンティック特徴と境界特徴を処理して、顔画像の各ピクセルが属する顔領域を取得することであって、融合特徴が顔画像の各ピクセルが様々な顔領域に属する予測確率と、顔画像の各ピクセルが境界に属する予測確率とを表す、ことと、融合特徴に従って顔画像の各ピクセルが属する顔領域を決定することとを行うように構成される。
【0033】
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークをトレーニングするためにネットワークトレーニングモジュールによって採用される損失関数はさらに、融合サブネットワークの損失関数を含み、融合サブネットワークの損失関数は、融合特徴の各ピクセルが様々な顔領域に属する予測確率と、融合特徴の各ピクセルが実際に属する顔領域と、融合特徴の各ピクセルが境界に属するか否かとに従って決定される。
【0034】
いくつかの実施形態では、セマンティック知覚サブネットワークの損失関数Lsは、
【数7】
である。
【0035】
Nは、セマンティック特徴のピクセル総数であり、iは、セマンティック特徴のピクセルの識別子であり、Cは、顔領域のカテゴリの総数であり、jは、顔領域のカテゴリの識別子であり、ピクセルiが顔領域jに実際に属している場合ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合ys ij=0であり、ps ijは、ピクセルiが顔領域jに属する予測確率である。
【0036】
いくつかの実施形態では、境界知覚サブネットワークの損失関数Lbは、
【数8】
である。
【0037】
Nは、境界特徴のピクセル総数であり、iは、境界特徴のピクセルの識別子であり、ピクセルiが実際に境界に属している場合yb i=1であり、ピクセルiが実際に境界に属していない場合yb i=0であり、pb iは、ピクセルiが境界に属している予測確率である。
【0038】
いくつかの実施形態では、融合サブネットワークの損失関数Lfは、
【数9】
である。
【0039】
Nは、融合特徴のピクセル総数であり、iは、融合特徴のピクセルの識別子であり、Cは、顔領域のカテゴリの総数であり、jは、顔領域のカテゴリの識別子であり、ピクセルiが顔領域jに実際に属している場合ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合ys ij=0であり、ps ijは、ピクセルiが顔領域jに属する予測確率であり、ピクセルiが実際に境界に属している場合wi>1であり、ピクセルiが実際に境界に属していない場合wi=1である。
【0040】
いくつかの実施形態では、セマンティック知覚サブネットワークが畳み込み層を含み、セマンティック特徴抽出モジュールは、畳み込み層を使用して顔画像に拡張畳み込みを実行して、畳み込み特徴を取得するように構成される。
【0041】
いくつかの実施形態では、セマンティック知覚サブネットワークはさらに、プール層を備え、セマンティック特徴抽出モジュールはさらに、プール層を使用して畳み込み特徴のマルチスケールプーリングを実行して、マルチスケールのプールされた特徴を取得し、マルチスケールのプールされた特徴と畳み込み特徴とを連結するように構成される。
【0042】
いくつかの実施形態では、境界知覚サブネットワークおよび融合サブネットワークは畳み込み層を含む。
【0043】
本開示の第4の態様では、フェイス・パーシング・ニューラル・ネットワークのためのトレーニング装置が提供され、該トレーニング装置は、各ピクセルが属する顔領域を用いて注釈付けされたサンプルの顔画像を使用して、フェイス・パーシング・ニューラル・ネットワークを事前にトレーニングするように構成され、トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力顔画像に従って顔画像の各ピクセルが属する顔領域を出力するように構成され、フェイス・パーシング・ニューラル・ネットワークは、セマンティック知覚サブネットワーク、境界知覚サブネットワーク、および融合サブネットワークを含み、セマンティック知覚サブネットワークは、サンプルの顔画像からセマンティック特徴を抽出するように構成され、セマンティック特徴が、サンプルの顔画像の各ピクセルが様々な顔領域に属する確率を表し、境界知覚サブネットワークは、サンプルの顔画像から境界特徴を抽出するように構成され、境界特徴は、サンプルの顔画像の各ピクセルが異なる顔領域間の境界に属する確率を表し、融合サブネットワークは、連結されたセマンティック特徴と境界特徴を処理して、サンプルの顔画像の各ピクセルが属する顔領域を取得する。
【0044】
本開示の第5の態様では、電子デバイスが提供され、該電子デバイスが、メモリと、メモリに結合されたプロセッサとを備え、プロセッサが、メモリに記憶された命令に基づいて、フェイスパーシング方法あるいはレーニング方法を実行するように構成される。
【0045】
本開示の第6の態様では、コンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体であって、コンピュータ命令は、プロセッサによる実行時に、フェイスパーシング方法あるいはトレーニング方法を実行する。
【0046】
本発明の他の特徴および利点は、添付の図面を参照して本開示の例示的な実施形態の以降の詳細な説明から明らかになるであろう。
【0047】
本開示の実施形態または先行技術の技術的解決策をより明確に説明するために、実施形態または先行技術の説明に使用される必要のある図面について以下に簡単な紹介をする。以下に示される図面が単に本開示の実施形態の一部に過ぎないことは明らかである。当業者はまた、発明の努力が含まれないことを前提として、そのような図面に従う他の図面を獲得してもよい。
【図面の簡単な説明】
【0048】
図1】本開示のいくつかの実施形態によるフェイス・パーシング・ニューラル・ネットワークの構造図を示す図である。
図2】本開示のいくつか実施形態によるフェイスパーシング方法のフローチャートを示す図である。
図3】3つのフェイスパーシングモデルに対応する視覚的なフェイスパーシング結果を示す図である。
図4】本開示のいくつかの実施形態によるフェイスパーシング装置の構造図を示す図である。
図5】本開示のいくつかの実施形態による電子デバイスの構造図を示す図である。
【発明を実施するための形態】
【0049】
実施形態の図面を参照しながら本開示の実施形態の技術的解決策が、以下に明確かつ完全に記載される。当然ながら、本開示のすべての実施形態ではなく、いくつかの実施形態のみが本明細書に記載されている。少なくとも1つの例示的な実施形態の以下の説明は、実際には単なる例示であり、本発明、その応用または使用に対する限定を意図するものではない。創造的な努力なしに本開示の実施形態に基づいて当業者によって得られる他のすべての実施形態は、本開示の保護範囲に含まれるものである。
【0050】
セマンティックセグメンテーションは、コンピュータビジョンにおける基本タスクである。セマンティックセグメンテーションでは、視覚的入力が、異なるセマンティック解釈可能なカテゴリにセグメント分けされる必要がある。発明者は、フェイスパーシングがピクセルレベルのセマンティックセグメンテーションタスクであると確信している。ディープラーニングは強固な特徴抽出能力を有するが、境界領域(異なる顔の領域間のエリア)のピクセルをセグメント化するための能力は改善の必要がある。2つの理由があり、第1に、境界ピクセルは、異なるカテゴリの交差領域に位置し、一定のセマンティックの混同を有するとともに区別し難いピクセルに属するためであり、第2に、ストライドが1より大きいプーリングと畳み込みは、受容野を増加させる可能性があるが、特徴マップの解像度を低下させる可能性もあり、特に境界領域の情報が失われる可能性があるためである。上記2つの態様が、境界領域のピクセルが区別し難い主な理由である。
【0051】
従来のフェイスパーシング技術は、主に、ニューラルネットワークの基本構造を変更することによって、またはブロック処理を通して、フェイスパーシングの性能を改善するものであり、その両方が、特徴マップ全体を対象とする動作であり、境界領域のピクセルに対して具体的に何も行わないため、それらは依然として境界領域の低いセグメンテーションの精度の問題を解決できていない。フェイスパーシングタスクについて、顔領域全体における境界領域の比率は、シーン分析および他のタスクの比率より大きく、境界領域の識別精度の向上は、フェイスパーシングの精度の向上に直結する。一例としてフェイスパーシングを取り上げながら、開示はフェイスパーシングの精度の向上方法について論じる。
【0052】
本開示によって解決されるべき技術的問題は、フェイスパーシングの精度の向上方法である。
【0053】
本開示は、顔画像内の異なる顔領域間の境界ピクセルを識別するようにニューラルネットワークの能力を改善でき、フェイスパーシングの精度を向上することができる。
【0054】
第1に、本開示に採用するフェイス・パーシング・ニューラル・ネットワークのいくつかの実施形態が、図1を参照して紹介される。
【0055】
図1は、本開示のいくつかの実施形態によるフェイス・パーシング・ニューラル・ネットワークの構造図を示す。図1に示すように、フェイス・パーシング・ニューラル・ネットワークは、3つのブランチ:セマンティック知覚サブネットワーク、境界知覚サブネットワーク、および融合サブネットワークを含む。セマンティック知覚サブネットワークは、畳み込み層とプール層を有し得る。境界知覚サブネットワークおよび融合サブネットワークは、畳み込み層を有し得る。
【0056】
(1)セマンティック知覚サブネットワーク
セマンティック知覚サブネットワークは、顔画像からセマンティック特徴を抽出するために、入力RGB(赤、緑、および青)顔画像のセマンティックセグメンテーション(すなわち、各ピクセルにセマンティックラベル(目、鼻など)が与えられる)のために使用され、セマンティック特徴は、顔画像の各ピクセルが様々な顔領域に属する確率を表す。PSPNet(Pyramid Spatial Pooling Network:ピラミッド空間プーリングネットワーク)およびDeeplabなど、メインストリームのセグメンテーションネットワークがセマンティック知覚サブネットワークに採用され得る。この実施形態では、好ましくは、スケルトンセグメンテーションネットワークとして残差ネットワークResNet-101が採用される。セマンティック知覚サブネットワークによって抽出されたセマンティック特徴(特徴マップ)のサイズは、N×C×W×Hであり、Nはバッチサイズを表し、Cはセマンティックラベルカテゴリの数を表し、WおよびHはセマンティック特徴の幅および高さを表す。
【0057】
(2)境界知覚サブネットワーク
境界知覚サブネットワークは、顔画像から境界特徴を抽出するために使用され、境界特徴は、顔画像の各ピクセルが異なる顔領域間の境界に属する確率を表す。換言すると、境界知覚サブネットワークは、入力RGB顔画像の各ピクセルが境界領域に属しているかどうかを予測するバイナリ分類問題を扱うことができる。例としてスケルトンセグメンテーションネットワークとしてResNet(残差ネットワーク)-101を取り上げると、ResNet-101の5つの畳み込みブロックのうちの3つの中間の畳み込みブロックの各々の最後の畳み込み層から、境界知覚サブネットワークが畳み込み特徴を抽出できる。次いで、3つの畳み込み特徴が、同じサイズにマッピングされ(例えば、畳み込み特徴の画像サイズがリサイズ動作によって変更される)、組み合わせ畳み込み特徴に連結される。次いで、組み合わせ畳み込み特徴は、一連の畳み込み動作を介して新しい特徴空間にマッピングされる。出力境界特徴のサイズ(予測された境界マップ)は、N×2×W×Hであり、N、W、およびHは、セマンティック知覚サブネットワークに一致し、チャネル数のみが異なる。境界特徴のチャネル数は2である(ピクセルが境界に属するかどうかを示す)。境界特徴の各ピクセルは、ピクセルが前景(境界)と背景(非境界)にそれぞれ属する確率を表す2次元ベクトルに対応する。
【0058】
(3)融合サブネットワーク
融合サブネットワークは、入力RGB顔画像の正確なセマンティックセグメンテーションのために使用され、すなわち、連結されたセマンティック特徴と境界特徴を畳み込み、顔画像の融合特徴を取得する。融合特徴は、顔画像の各ピクセルが様々な顔領域に属する予測確率と、顔画像の各ピクセルが境界に属する予測確率とを表す。融合特徴の特徴マップのサイズもN×C×W×Hであり、Nはバッチサイズを表し、Cはカテゴリの数を表し、WおよびHは出力特徴マップの幅および高さを表す。融合サブネットワークはさらに、融合特徴に従って、特にソフトマックス正規化関数によって顔画像の各ピクセルが属する顔領域を決定する。
【0059】
(4)フェイス・パーシング・ニューラル・ネットワークのトレーニング
フェイス・パーシング・ニューラル・ネットワークをトレーニングする際、各ピクセルが属する顔領域によって注釈付けされたサンプルの顔画像を使用して、フェイス・パーシング・ニューラル・ネットワークをトレーニングする。トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力顔画像に従って、顔画像の各ピクセルが属する顔領域を出力できる。
【0060】
(5)フェイス・パーシング・ニューラル・ネットワークの損失関数
フェイス・パーシング・ニューラル・ネットワークに使用される損失関数Lは、セマンティック知覚サブネットワークの損失関数Ls、境界知覚サブネットワークの損失関数Lbを含み、すなわち、L=λ1Ls2Lbであり、ここで、λ1およびλ2の両方は、ゼロより大きく、2つの異なるブランチの損失関数の重みである。
【0061】
セマンティック知覚サブネットワークの損失関数は、セマンティック特徴の各ピクセルが様々な顔領域に属する予測確率およびセマンティック特徴の各ピクセルが実際に属する顔領域に従って決定される。例えば、セマンティック知覚サブネットワークの損失関数Lsは、
【数10】
である。
【0062】
ここで、Nは、セマンティック特徴のピクセル総数であり、iは、セマンティック特徴のピクセルの識別子であり、Cは、顔領域のカテゴリ総数であり、jは、顔領域のカテゴリの識別子である。ピクセルiが顔領域jに実際に属している場合、ys ij=1である。ピクセルiが顔領域jに実際に属していない場合、ys ij=0である。ps ijは、ピクセルiが顔領域jに属すると予測された確率であり、すなわち、ソフトマックスの後のセマンティック知覚サブネットワークにより抽出されたセマンティック特徴の出力値である。
【0063】
境界知覚サブネットワークの損失関数は、境界特徴の各ピクセルが異なる顔領域間の境界に属している予測確率と、境界特徴の各ピクセルが実際に境界に属しているか否かとに従って決定される。例えば、境界知覚サブネットワークの損失関数Lbは、
【数11】
である。
【0064】
ここで、Nは、境界特徴のピクセル総数であり、iは、境界特徴のピクセルの識別子である。ピクセルiが境界に実際に属している場合、yb i=1であり、ピクセルiが境界に実際に属していない場合、yb i=0である。pb iは、ピクセルiが境界に属している予測確率である。境界知覚サブネットワークの境界マップ(正解:Ground truth)を使用して、各ピクセルが境界領域に属しているか否かを示す。上述の損失関数を最適化することにより、境界知覚サブネットワークは、各ピクセルが境界領域に属する確率を予測するために、顔画像の境界情報を最大限に活用することができる。
【0065】
フェイス・パーシング・ニューラル・ネットワークをトレーニングするために使用される損失関数Lはさらに、融合サブネットワークの損失関数Lfを含むことができ、すなわち、L=λ1Ls2Lb3Lfであり、λ1、λ2、およびλ3はいずれも、ゼロより大きく、3つの異なるブランチの損失関数の重みである。当業者は、λ1、λ2、およびλ3が、フェイス・パーシング・ニューラル・ネットワークの一部のブランチのより良いパフォーマンスのために、実際の必要性に応じて調整され得ることを理解されたい。例えば、λ2がより大きく設定される場合、より良い境界知覚パフォーマンスがフェイス・パーシング・ニューラル・ネットワークにおいて達成され得る。
【0066】
融合サブネットワークの損失関数は、融合特徴の各ピクセルが様々な顔領域に属する予測確率、融合特徴の各ピクセルが実際に属する顔領域、および融合特徴の各ピクセルが境界に属するか否かに従って決定される。例えば、融合サブネットワークの損失関数Lfは、
【数12】
である。
【0067】
ここで、Nは、融合特徴のピクセル総数であり、iは、融合特徴のピクセルの識別子であり、Cは、顔領域のカテゴリ総数であり、jは、顔領域のカテゴリの識別子である。ピクセルiが顔領域jに実際に属している場合、ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合、ys ij=0である。ps ijは、ピクセルiが顔領域jに属すると予測された確率である。wiは、重みマップのピクセルiに対応する値であり、ピクセルiの重み係数を示す。ピクセルiが境界に実際に属している(すなわち、yb i=1)場合、wi>1(wi=1+αであり、αは境界ピクセルの重みを増やすために使用される正の値である)である。ピクセルiが境界に実際に属していない(すなわち、yb i=0)場合、wi=1である。境界知覚サブネットワークの境界マップ(正解)を使用して、重みマップが、境界ピクセルの損失を重み付けするように構築され得る。
【0068】
当業者は、フェイス・パーシング・ニューラル・ネットワークの各ブランチによって実現される関数が各ブランチに対応する損失関数に依存していることを理解されたい。様々なブランチに対応した損失関数からなる全損失関数を用いてフェイス・パーシング・ニューラル・ネットワークをトレーニングした後、フェイス・パーシング・ニューラル・ネットワークの各ブランチは、対応する関数を有することができる。また、本実施形態におけるλ1、λ2、λ3、およびαは、実験結果に従って調整および決定され得る。
【0069】
本実施形態は、フェイス・パーシング・ニューラル・ネットワークを提供する。一方では、より多くの境界ピクセル情報が、境界知覚特徴およびセマンティック知覚特徴を組み合わせることによって取得され、もう一方では、境界ピクセルの損失が、境界ピクセルの影響を改善するために重み付けされる。したがって、本実施形態によって提供されるフェイス・パーシング・ニューラル・ネットワークは、顔画像の異なる顔領域(間)に属する境界ピクセルに対してよりセンシティブであり、区別および認識しにくい境界ピクセルに対してより注意を払うことができる。
【0070】
本開示のフェイスパーシング方法のいくつかの実施形態が、図2を参照して以下に説明される。
【0071】
図2は、本開示のいくつかの実施形態によるフェイスパーシング方法のフローチャートを示す。図2に示すように、本実施形態はステップS201~S204を含む。
【0072】
ステップS201では、顔画像が、事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークに入力される。
【0073】
ステップS202では、セマンティック特徴が、フェイス・パーシング・ニューラル・ネットワークのセマンティック知覚サブネットワークを使用して顔画像から抽出され、セマンティック特徴が、顔画像の各ピクセルが様々な顔領域に属する確率を表す。
【0074】
いくつかの実施形態では、拡張畳み込みまたは膨張畳み込みが、畳み込み層を使用して顔画像に対して実行され、畳み込み特徴を取得する。
【0075】
例えば、解像度情報の損失を減らすために、拡張畳み込みが、ResNet-101の第5の畳み込みブロックに採用されることがあり、その結果、出力特徴マップの解像度が、入力顔画像の1/32になる代わりに入力顔画像の1/16となり、それにより、顔画像の詳細情報をある程度保持する。当業者は、拡張畳み込みが他の畳み込みブロックに使用でき、かつ複数の畳み込みブロックに使用できることを理解されたい。
【0076】
いくつかの実施形態では、畳み込み特徴は、プール層を使用してマルチスケールのプールされた特徴を取得することにより、複数のスケールにわたってプールされ、次いで畳み込み特徴と連結される。
【0077】
例えば、顔画像のグローバル特徴のより良い使用のため、PSPNetのマルチスケールのプール動作が採用され得る。図1に示すように、ResNet-101の第5の畳み込みブロックの最後の畳み込み層から出力された畳み込み特徴は、4つのスケール、すなわち、1×1、2×2、4×4、および6×6にわたってプルールされる次いで、これらのプールされた特徴は、ラベル予測のためにプールされていない畳み込み特徴と連結される。当業者は、異なるサイズのこれらの特徴が連結前に同じサイズにマッピングされ(例えば、プールされた特徴の画像サイズを変更するためのリサイズ動作を使用して)、次いで結合されたプールされた特徴に連結され得ることを理解されたい。
【0078】
ステップS203では、境界特徴が、フェイス・パーシング・ニューラル・ネットワークの境界知覚サブネットワークを使用して顔画像から抽出され、境界特徴は、顔画像の各ピクセルが異なる顔領域間の境界に属する確率を表す。
【0079】
ステップS204では、セマンティック特徴および境界特徴が、それらが連結されるとき、フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して処理されて、顔画像の各ピクセルが属する顔領域を取得する。
【0080】
この実施形態は、顔画像の異なる顔領域間の境界ピクセルを区別するように、ニューラルネットワークの能力を改善でき、フェイスパーシングの精度および全体の性能を改善する。
【0081】
本開示の有効性は、以下の実験データによってより直感的に検証することができる。
【0082】
様々なブランチの貢献度が、LaPaフェイスパーシングデータセット上で比較される。LaPaデータセットは、22000個の顔画像を含み、それぞれが、106点のランドマークおよび11個のカテゴリピクセルレベルのフェイスパーシング注釈を含む。11個のカテゴリは、髪、肌、左眉、右眉、左目、右目、鼻、上唇、口の中、下唇、および背景を含む。3つのモデルが比較され、モデルAはセマンティック知覚サブネットワークのみを使用した結果を表し、モデルBは、境界知覚サブネットワークおよび融合サブネットワークをモデルAに加えた性能を表すが、損失の重みはない、すなわち、Lfではwiが常に1に設定され、モデルCは、モデルBに損失の重みを加えた、すなわち、αの導入後の性能を表す。3つモデルの性能比較の結果を表1に示す。表1の値はF値である。F値は、統計における2つの分類モデルの精度を測定するために使用されるインデックスであり、分類モデルの適合率と再現率を同時に考慮し、モデルの適合率と再現率の加重平均と見なすことができる。F値は、最大値が1であり、最小値が0である。F値の計算式は以下である。
【0083】
【表1】
【0084】
表1から分かるように、モデルBの平均F値は、モデルAと比較して0.87%増えており、各サブクラスがある程度の改善を有し、このことは、境界知覚サブネットワークを加えることが、全体のフェイスパーシング精度を効果的に改善できるということを証明している。モデルBと比較して、モデルCの平均F値は、1.1%増えており、このことは、境界マップを使用して境界領域におけるピクセルの損失を重み付けることも効果的であることを証明している。モデルCは、各サブクラスで高い認識精度性能を達成している。境界知覚特徴および境界マップを使用して境界ピクセル損失を重み付けすることはどちらも、フェイスパーシングの性能を向上するために効果的な方法であることが分かる。図3は、3つのフェイスパーシングモデルに対応する視覚フェイスパーシング結果を示す。図3に示すように、第1の列はオリジナルの入力画像を示し、後の4列は、第1の列の画像の点線のボックスの拡大部分の結果である。第2の列は、モデルAに対応するフェイスパーシング結果を示し、第3の列は、モデルBに対応するフェイスパーシング結果を示し、第4の列は、モデルCに対応するフェイスパーシング結果を示し、第5の列は、真の値を示す。
【0085】
本開示のフェイスパーシング装置のいくつかの実施形態は、図4を参照して以下に説明する。
【0086】
図4は、本開示のいくつかの実施形態によるフェイスパーシング装置の構造図を示す。図4に示すように、本実施形態のフェイスパーシング装置40は、
事前トレーニングされたフェイス・パーシング・ニューラル・ネットワークに顔画像を入力するように構成された画像入力モジュール401と、フェイス・パーシング・ニューラル・ネットワークのセマンティック知覚サブネットワークを使用して顔画像からセマンティック特徴を抽出するように構成されたセマンティック特徴抽出モジュール402であって、セマンティック特徴が顔画像の各ピクセルが様々な顔領域に属している確率を表す、セマンティック特徴抽出モジュール402と、フェイス・パーシング・ニューラル・ネットワークの境界知覚サブネットワークを使用して顔画像から境界特徴を抽出するように構成された境界特徴抽出モジュール403であって、境界特徴が、顔画像の各ピクセルが異なる顔領域間の境界に属する確率を表す、境界特徴抽出モジュール403と、顔画像の各ピクセルが属する顔領域を取得するためにフェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して連結されたセマンティック特徴および境界特徴を処理するように構成されたフェイスパーシングモジュール404とを備える。
【0087】
いくつかの実施形態では、フェイスパーシング装置40はさらに、各ピクセルが属する顔領域を用いて注釈付けされたサンプルの顔画像を使用してフェイス・パーシング・ニューラル・ネットワークをトレーニングするように構成されたネットワークトレーニングモジュールを備え、トレーニングされたフェイス・パーシング・ニューラル・ネットワークは、入力顔画像に従って顔画像の各ピクセルが属する顔領域を出力できる。
【0088】
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークをトレーニングするためにネットワークトレーニングモジュール400によって採用される損失関数は、セマンティック知覚サブネットワークの損失関数と、境界知覚サブネットワークの損失関数とを含む。セマンティック知覚サブネットワークの損失関数は、セマンティック特徴の各ピクセルが様々な顔領域に属する予測確率と、セマンティック特徴の各ピクセルが実際に属する顔領域とに従って決定される。境界知覚サブネットワークの損失関数は、境界特徴の各ピクセルが異なる顔領域間の境界に属する予測確率と、境界特徴の各ピクセルが実際に境界に属するか否かとに従って決定される。
【0089】
いくつかの実施形態では、フェイスパーシングモジュール404は、フェイス・パーシング・ニューラル・ネットワークの融合サブネットワークを使用して連結されたセマンティック特徴と境界特徴を処理して、顔画像の各ピクセルが属する顔領域を取得することであって、融合特徴が顔画像の各ピクセルが様々な顔領域に属する予測確率と、顔画像の各ピクセルが境界に属する予測確率とを表す、ことと、融合特徴に従って顔画像の各ピクセルが属する顔領域を決定することとを行うように構成される。
【0090】
いくつかの実施形態では、フェイス・パーシング・ニューラル・ネットワークをトレーニングするためにネットワークトレーニングモジュール400によって採用される損失関数が融合サブネットワークの損失関数をさらに含む。融合サブネットワークの損失関数が、融合特徴の各ピクセルが様々な顔領域に属する予測確率と、融合特徴の各ピクセルが実際に属する顔領域と、融合特徴の各ピクセルが境界に属するか否かとに従って決定される。
【0091】
いくつかの実施形態では、例えば、セマンティック知覚サブネットワークの損失関数Lsは、
【数13】
である。
【0092】
ここで、Nは、セマンティック特徴のピクセル総数であり、iは、セマンティック特徴のピクセルの識別子であり、Cは、顔領域のカテゴリ総数であり、jは、顔領域のカテゴリの識別子である。ピクセルiが顔領域jに実際に属している場合、ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合、ys ij=0である。ps ijは、ピクセルiが顔領域jに属すると予測された確率である。
【0093】
いくつかの実施形態では、境界知覚サブネットワークの損失関数Lbは、
【数14】
である。
【0094】
ここで、Nは、境界特徴のピクセル総数であり、iは、境界特徴のピクセルの識別子である。ピクセルiが境界に実際に属している場合、yb i=1であり、ピクセルiが境界に実際に属していない場合、yb i=0である。pb iは、ピクセルiが境界に属している予測確率である。
【0095】
いくつかの実施形態では、融合サブネットワークの損失関数Lfは、
【数15】
である。
【0096】
ここで、Nは、融合特徴のピクセル総数であり、iは、融合特徴のピクセルの識別子であり、Cは、顔領域のカテゴリ総数であり、jは、顔領域のカテゴリの識別子である。ピクセルiが顔領域jに実際に属している場合、ys ij=1であり、ピクセルiが顔領域jに実際に属していない場合、ys ij=0である。ps ijは、ピクセルiが顔領域jに属すると予測された確率である。ピクセルiが境界に実際に属している場合、wi>1であり、ピクセルiが境界に実際に属していない場合、wi=1である。
【0097】
いくつかの実施形態では、セマンティック知覚サブネットワークは畳み込み層を含む。セマンティック特徴抽出モジュール402は、畳み込み層を使用して顔画像に対して拡張畳み込みを実行して、畳み込み特徴を取得するように構成される。
【0098】
いくつかの実施形態では、セマンティック知覚サブネットワークはさらにプーリング層を有する。セマンティック特徴抽出モジュール402はさらに、プーリング層を使用して畳み込み特徴のマルチスケールプーリングを実行して、マルチスケールのプールされた特徴を取得し、マルチスケールのプールされた特徴と畳み込み特徴とを連結するように構成される。
【0099】
いくつかの実施形態では、境界知覚サブネットワークおよび融合サブネットワークは畳み込み層を有する。
【0100】
この実施形態では、ニューラルネットワークが顔画像の異なる顔領域間の境界ピクセルを区別する能力を向上し、フェイスパーシングの精度および全体の性能を改善する。
【0101】
以下に、図5を参照しながら本開示の電子デバイスのいくつかの他の実施形態を説明する。
【0102】
図5は、本開示のいくつかの実施形態による電子デバイスの構造図を示す。図5に示すように、本実施形態の電子デバイス50は、メモリ510とメモリ510に結合されたプロセッサ520とを備える。プロセッサ520は、メモリ510に格納された命令に基づいて、上述の実施形態の任意の1つに従ってフェイスパーシング方法を実行するように構成される。
【0103】
メモリ510は、例えば、システムメモリ、固定不揮発性記憶媒体などを含み得る。システムメモリは、例えば、オペレーティングシステム、アプリケーションプログラム、ブートローダ(Boot Loader)、および他のプログラムを記憶する。
【0104】
電子デバイス50は、入出力インターフェース530、ネットワークインターフェース540、ストレージインターフェース550などをさらに備える。これらのインターフェース530、540、550、メモリ510、およびプロセッサ520は、例えば、バス560を介して接続され得る。入出力インターフェース530は、ディスプレイ、マウス、キーボード、およびタッチスクリーンなど入出力デバイスのための接続インターフェースを提供する。ネットワークインターフェース540は、様々なネットワークデバイスのための接続インターフェースを提供する。ストレージインターフェース550は、SDカードおよびUSBフラッシュディスクなど外部記憶デバイスのための接続インターフェースを提供する。
【0105】
本開示はさらに、プロセッサによる実行時に、上述の実施形態の任意の1つのフェイスパーシング方法を実装するコンピュータ命令を記憶したコンピュータ可読媒体を提供する。
【0106】
本開示は、本開示の実施形態による方法のフローチャートおよび/またはブロック図、装置(システム)およびコンピュータプログラム製品を参照して説明される。フローチャートおよび/またはブロック図の各プロセスおよび/またはブロック、並びにフローチャートおよび/またはブロック図のプロセスおよび/またはブロックの組み合わせは、コンピュータプログラム命令によって実施され得る。コンピュータプログラム製品は、汎用コンピュータのプロセッサ、専用コンピュータのプロセッサ、組み込みプロセッサ、または他のプログラム可能なデータ処理デバイスに提供されてマシンを生成し、コンピュータまたは他のプログラム可能なデータ処理デバイスによって実行される命令が、フローチャートの1つまたは複数のフローおよび/またはブロック図の1つまたは複数のブロックに指定される機能を実現する手段を生成する。
【0107】
コンピュータプログラム命令はまた、コンピュータ可読メモリデバイスに格納に格納され、コンピュータまたは他のプログラム可能なデータ処理デバイスに、コンピュータ可読メモリデバイスに記憶された命令が、フローチャートの1つまたは複数のフローおよび/またはブロック図の1つまたは複数のブロックに指定される機能を実現する命令手段を含む製造品を製造するための指定の方法で動作するように指示できる。
【0108】
これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能なデバイスにロードされ、コンピュータまたは他のプログラム可能なデバイス上で一連の動作ステップを実行して、コンピュータまたは他のプログラム可能なデバイス上で実行された命令がフローチャートの1つまたは複数のフローおよび/またはブロック図の1つまたは複数のブロックに指定される機能を実現するように、コンピュータ実施プロセスを生成できる。
【0109】
上記は、単に本開示の好ましい実施形態であり、本開示を限定するものではない。本開示の精神および原理の範囲内で、任意の変更、置き換え、改善などが本開示の保護範囲に含まれる。
【符号の説明】
【0110】
400 ネットワークトレーニングモジュール
401 画像入力モジュール
402 セマンティック特徴抽出モジュール
403 境界特徴抽出モジュール
404 フェイスパーシングモジュール
50 電子デバイス
510 メモリ
520 プロセッサ
530 入出力インターフェース
540 ネットワークインターフェース
550 ストレージインターフェース
図1
図2
図3
図4
図5