(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023118151
(43)【公開日】2023-08-25
(54)【発明の名称】人の顔に装着物を着用した顔画像及びラベリング画像を生成するプログラム、装置及び方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20230818BHJP
【FI】
G06T7/00 660A
G06T7/00 350C
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022020927
(22)【出願日】2022-02-15
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】楊 博
(72)【発明者】
【氏名】呉 剣明
(72)【発明者】
【氏名】服部 元
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA08
5L096DA01
5L096HA08
5L096HA11
5L096JA11
5L096JA18
5L096KA04
5L096KA15
(57)【要約】
【課題】機械学習エンジン用の教師データとして、人の顔に装着物を着用した顔画像及びラベリング画像を人工的に生成することができるプログラム等を提供する。
【解決手段】人の顔が映り込む原画像を入力し、人の顔に装着物が着用された教師顔画像と、当該教師顔画像から装着物領域を識別可能な教師ラベリング画像とを生成するようにコンピュータを機能させるプログラムにおいて、原画像から、人の顔画像を検出する顔領域検出手段と、検出された顔領域画像に、顔の向き及び傾きに応じた装着物画像を重畳させた教師顔画像を生成する教師顔画像生成手段と、検出された顔領域画像から、ラベリング画像を生成するラベリング画像生成エンジンと、ラベリング画像に対して、教師顔画像に重畳された装着物画像の領域に装着物ラベルを付与する装着物ラベル付与部として機能させる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
人の顔が映り込む原画像を入力し、人の顔に装着物が着用された教師顔画像と、当該教師顔画像から装着物領域を識別可能な教師ラベリング画像とを生成するようにコンピュータを機能させるプログラムにおいて、
原画像から、人の顔領域画像を検出する顔領域検出手段と、
検出された顔領域画像に、顔の向き及び傾きに応じた装着物画像を重畳させた教師顔画像を生成する教師顔画像生成手段と、
検出された顔領域画像から、ラベリング画像を生成するラベリング画像生成エンジンと、
ラベリング画像に対して、教師顔画像に重畳された装着物画像の領域に装着物ラベルを付与する装着物ラベル付与部と
してコンピュータを機能させることを特徴とするプログラム。
【請求項2】
装着物は、マスク、メガネ、ゴーグル又はサングラスである
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
【請求項3】
ラベリング画像は、入力された顔領域画像の画素毎に、セマンティックセグメンテーションに基づく領域ラベルを付与したものである
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。
【請求項4】
教師顔画像生成手段は、
向きが異なる複数の装着物画像を予め蓄積し、
検出された顔領域から特徴点を検出し、特徴点から顔の向き及び傾きを検出し、
顔の向きに応じた装着物画像を選択し、
選択された装着物画像を、顔の傾きに応じて回転させて、教師顔画像の人の顔領域に重畳させた教師顔画像を生成する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。
【請求項5】
ラベリング画像生成エンジンは、
訓練段階として、教師顔画像を入力し、教師ラベリング画像を出力するように再訓練し、
推定段階として、人の顔に装着物が着用された対象顔画像を入力し、装着物ラベルを付与した対象ラベリング画像を出力する
ようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のプログラム。
【請求項6】
ラベリング画像生成エンジンは、Face Parsingモデルである
ようにコンピュータを機能させることを特徴とする請求項5に記載のプログラム。
【請求項7】
請求項5又は6によって再訓練されたラベリング画像生成エンジンと、
対象顔画像から表情ラベルを推定する表情認識エンジンと
してコンピュータを機能させるプログラムであって、
訓練段階として、
教師顔画像と教師表情ラベルとを対応付けた教師データを用いて、
ラベリング画像生成エンジンが、教師顔画像を入力し、顔領域画像及び装着物領域画像を出力し、
装着物領域画像を逆算した画像を、顔領域画像に対して乗算し、顔露出領域を導出し、
表情認識エンジンが、教師顔画像と顔露出領域画像及び装着物領域画像とを入力し、教師表情ラベルを出力するように訓練し、
推定段階として、
ラベリング画像生成エンジンが、対象顔画像を入力し、顔領域画像及び装着物領域画像を出力し、
装着物領域画像を逆算した画像を、顔領域画像に対して乗算し、顔露出領域を導出し、
表情認識エンジンが、対象顔画像と顔露出領域画像及び装着物領域画像とを入力し、表情ラベルを出力する
ようにコンピュータを機能させることを特徴とするプログラム。
【請求項8】
表情認識エンジンは、
顔画像と顔露出領域画像とを乗算した画像から、第1の特徴量を出力する第1のエンコーダと、
顔画像と装着物領域画像とを乗算した画像から、第2の特徴量を出力する第2のエンコーダと、
第1の特徴量及び第2の特徴量を入力し、顔露出領域画像と装着物領域画像との関連性を考慮した第1のクロス特徴量及び第2のクロス特徴量を出力するクロスアテンションと、
第1のクロス特徴量及び第2のクロス特徴量を融合し、表情ラベルを出力する多層パーセプトロンと
してコンピュータを機能させることを特徴とする請求項7に記載のプログラム。
【請求項9】
人の顔が映り込む原画像を入力し、人の顔に装着物が着用された教師顔画像と、当該教師顔画像から装着物領域を識別可能な教師ラベリング画像とを生成する画像生成装置において、
原画像から、人の顔領域画像を検出する顔領域検出手段と、
検出された顔領域画像に、顔の向き及び傾きに応じた装着物画像を重畳させた教師顔画像を生成する教師顔画像生成手段と、
検出された顔領域画像から、ラベリング画像を生成するラベリング画像生成エンジンと、
ラベリング画像に対して、教師顔画像に重畳された装着物画像の領域に装着物ラベルを付与する装着物ラベル付与部と
を有することを特徴とする画像生成装置。
【請求項10】
人の顔が映り込む原画像を入力し、人の顔に装着物が着用された教師顔画像と、当該教師顔画像から装着物領域を識別可能な教師ラベリング画像とを生成する装置の画像生成方法において、
原画像から、人の顔領域画像を検出する第1のステップと、
検出された顔領域画像に、顔の向き及び傾きに応じた装着物画像を重畳させた教師顔画像を生成する第2のステップと、
ラベリング画像生成エンジンを用いて、検出された顔領域画像から、ラベリング画像を生成する第3のステップと、
ラベリング画像に対して、教師顔画像に重畳された装着物画像の領域に装着物ラベルを付与する第4のステップと
を実行することを特徴とする画像生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人の顔が映り込む画像から、ラベリング画像を生成する技術に関する。例えばマスクのような装着物が着用された顔画像から、その表情を認識する用途に適する。
【背景技術】
【0002】
撮影画像から人や対象物を認識する機械学習エンジンの技術が発展してきている。特に、顔画像からその本人を認識する顔認識の精度は、深層学習(Deep Learning)技術の発展と共に、急激に向上している。例えばfacebook社は、深層学習を用いた顔認識技術DeepFace(登録商標)の精度が97.35%に達したと発表した(例えば非特許文献1参照)。
【0003】
また、機械学習エンジンの学習モデルを訓練するために、大量の教師顔画像を使用する必要があるが、例えば世界87か国以上から収集された約70億の感情特徴量を用いて、感情を認識する技術もある(例えば非特許文献2参照)。
【0004】
従来、感情毎に大量の顔画像の特徴量を予め学習しており、顔画像から感情を認識する技術がある(例えば特許文献1参照)。具体的には、Ekman 7分類表情モデル(ニュートラル、喜び、嫌悪、怒り、サプライズ、悲しみ、恐怖)や、ポジティブ・ネガティブ・ニュートラルの3分類感情モデルなどがある。
【0005】
また、対象人物の状態に基づく複数の認識モード毎に、認識器を予め備え、顔認識時に、認識モードに応じたいずれか1つの認識器を適用する技術もある(例えば特許文献2参照)。対象人物の顔の状態としては、マスク、メガネ、サングラス、帽子等の着用の有無がある。この技術によれば、対象人物の顔の閉鎖領域から認識モードを選択し、その認識モードに基づく認識器が認証の成否を判定する。即ち、各認識器は、閉鎖領域が異なる教師顔画像から訓練されたものである。
【0006】
更に、マスクで覆われていない目の周辺の特徴点を抽出し且つ照合する「マスク着用に特化した」顔認証エンジンの技術もある(例えば非特許文献3参照)。これは、顔認識の機械学習エンジンに対して、マスクやゴーグルを着用した顔や表情の教師顔画像を大量に訓練させている。特に、表情の判定には、目、鼻、口、頬、顔面の筋肉など特徴量を抽出して学習させる必要がある。この技術によれば、マスク着用時の1:1認証で99.9%以上という認証率を達成したとしている。
【0007】
更に、マスク着用とマスク無しの2種類の顔画像から2分類モデルによって訓練する技術もある(例えば非特許文献4参照)。この技術によれば、アテンション(注意機構)を用いて、顔露出領域とマスク領域とを分離できるヒートマップを獲得する。そして、それぞれのヒートマップから、顔露出領域とマスク領域と間の関連付けの特徴量を同時に学習できるようにし、汎用性・高精度な表情認識(3種類の表情対応)を実現する。
【0008】
更に、顔画像における目の周りの部分のみを切り出して、目の周りの領域の特徴量のみを深層学習で学習し、表情認識(7種類の表情対応)を実現する技術もある(例えば非特許文献5参照)。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2011-150381号公報
【特許文献2】特開2018-165983号公報
【非特許文献】
【0010】
【非特許文献1】Taigman, Yaniv, et al. "Deepface: Closing the gap to human-level performance in face verification." Proceedings of the IEEE conference on computer vision and pattern recognition. 2014.、[online]、[令和4年2月10日検索]、インターネット<URL:https://ieeexplore.ieee.org/document/6909616>
【非特許文献2】affectiva、[online]、[令和4年2月10日検索]、インターネット<URL:https://affectiva.jp/reason.html>
【非特許文献3】「NEC、マスク着用に特化した顔認証エンジンを開発--認証率は99.9%以上」、[online]、[令和4年2月10日検索]、インターネット<URL: https://japan.cnet.com/article/35160036/>
【非特許文献4】Bo Yang, Jianming Wu, Gen Hattori, “Face mask aware robust facial expression recognition during the covid-19 pandemic” IEEE ICIP conference(2021).、[online]、[令和4年2月10日検索]、インターネット<URL:https://ieeexplore.ieee.org/document/9506047>
【非特許文献5】Giovanna Castellano, Berardina De Carolis, Nicola Macchiarulo, “Automatic Emotion Recognition from Facial Expression when Wearing a Mask” ACM CHItaly(2021)、[online]、[令和4年2月10日検索]、インターネット<URL:https://www.researchgate.net/publication/353229755_Automatic_Emotion_Recognition_from_Facial_Expressions_when_Wearing_a_Mask>
【非特許文献6】B.Yang, J.Wu, and G.Hattori, “Facial Expression Recognition with the advent of face masks”, ACM MUM 2020, pp335-337, November 2020.、[online]、[令和4年2月10日検索]、インターネット<URL:https://dl.acm.org/doi/abs/10.1145/3428361.3432075>
【非特許文献7】「メイクアプリやヘアカラーアプリがiOSでつくれる 機械学習で顔の部品を分離」、[online]、[令和4年2月10日検索]、インターネット<URL:https://qiita.com/john-rocky/items/6b846c1cdb152bded40b>
【非特許文献8】A survey of Visual Transformers, Yang Liu etc.、[online]、[令和4年2月10日検索]、インターネット<URL:https://arxiv.org/abs/2111.06091>
【非特許文献9】CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification, Chun-Fu (Richard) Chen etc.、[online]、[令和4年2月10日検索]、インターネット<URL:https://arxiv.org/abs/2103.14899>
【発明の概要】
【発明が解決しようとする課題】
【0011】
近年、新型コロナウイルス感染症が流行して以来、顔にマスクやゴーグルを着用することが一般的になっている。このような装着物を顔に着用した場合、顔の面積の最大70%が覆われてしまう。
【0012】
例えば非特許文献1の技術によれば、顔や表情を十分に認識できないという課題が生じる。一般的な顔認識アルゴリズムによれば、顔画像から目、鼻、口、頬、顔面の筋肉など、可能な限り多くの特徴量を取り込む必要がある。顔表情認識の用途の場合、例えば顔にマスクを着用することによって、鼻・口のほとんど、及び、頬・顔面の筋肉の大半から、特徴量を抽出できなくなってしまう。
【0013】
また、例えば非特許文献3の技術によれば、顔認証の認識精度が高くても、顔表情の認識精度は大きく低下することとなる。顔表情の認識は、1:1で本人を認証する顔認識と違って、目の周辺の特徴点だけでは、万人に適用可能であって汎用的な学習モデルを構築することが難しい。マスク着用の場合、鼻・口のほとんど、及び、頬・顔面の筋肉の大半について特徴量の抽出ができないためである。
【0014】
更に、例えば非特許文献4の技術によれば、顔露出領域とマスク領域とを分離して精度を向上させているが、顔露出領域とマスク領域それぞれの認識精度の重み(ウェイト)を自動的に学習することができない。この技術によれば、経験値によって、顔露出領域:マスク領域を、0.9:0.1としているに過ぎない。
【0015】
更に、例えば非特許文献5の技術によれば、顔画像から目の周りの部分のみを切り出しているに過ぎず、顔露出領域のみの特徴量しか考慮していない。結局に、マスク領域周りの特徴量までも考慮したものではない。
【0016】
これに対し、本願の発明者らは、人の顔画像から、顔露出領域と装着物領域との相関関係を考慮して、それぞれの特徴量を学習して融合させることができないか、と考えた。それによって、表情認識の学習精度を高めることができる。
そのためには、機械学習エンジン用の教師データとして、人の顔に装着物を着用した顔画像及びラベリング画像を人工的に生成することができないか、と考えた。ラベリング画像を用いることによって、顔画像から、顔露出領域と装着物領域とを分離するこができるためである。
【0017】
そこで、本発明は、機械学習エンジン用の教師データとして、人の顔に装着物を着用した顔画像及びラベリング画像を人工的に生成することができるプログラム、装置及び方法を提供することを目的とする。これによって、顔露出領域と着用物領域との相関関係を考慮してそれぞれの特徴量を融合させて、マスクを着用した顔画像であっても、表情認識の精度を高めることができる。
【課題を解決するための手段】
【0018】
本発明によれば、人の顔が映り込む原画像を入力し、人の顔に装着物が着用された教師顔画像と、当該教師顔画像から装着物領域を識別可能な教師ラベリング画像とを生成するようにコンピュータを機能させるプログラムにおいて、
原画像から、人の顔領域画像を検出する顔領域検出手段と、
検出された顔領域画像に、顔の向き及び傾きに応じた装着物画像を重畳させた教師顔画像を生成する教師顔画像生成手段と、
検出された顔領域画像から、ラベリング画像を生成するラベリング画像生成エンジンと、
ラベリング画像に対して、教師顔画像に重畳された装着物画像の領域に装着物ラベルを付与する装着物ラベル付与部と
してコンピュータを機能させることを特徴とする。
【0019】
本発明のプログラムにおける他の実施形態によれば、
装着物は、マスク、メガネ、ゴーグル又はサングラスである
ようにコンピュータを機能させることも好ましい。
【0020】
本発明のプログラムにおける他の実施形態によれば、
ラベリング画像は、入力された顔領域画像の画素毎に、セマンティックセグメンテーションに基づく領域ラベルを付与したものである
ようにコンピュータを機能させることも好ましい。
【0021】
本発明のプログラムにおける他の実施形態によれば、
教師顔画像生成手段は、
向きが異なる複数の装着物画像を予め蓄積し、
検出された顔領域から特徴点を検出し、特徴点から顔の向き及び傾きを検出し、
顔の向きに応じた装着物画像を選択し、
選択された装着物画像を、顔の傾きに応じて回転させて、教師顔画像の人の顔領域に重畳させた教師顔画像を生成する
ようにコンピュータを機能させることも好ましい。
【0022】
本発明のプログラムにおける他の実施形態によれば、
ラベリング画像生成エンジンは、
訓練段階として、教師顔画像を入力し、教師ラベリング画像を出力するように再訓練し、
推定段階として、人の顔に装着物が着用された対象顔画像を入力し、装着物ラベルを付与した対象ラベリング画像を出力する
ようにコンピュータを機能させることも好ましい。
【0023】
本発明のプログラムにおける他の実施形態によれば、
ラベリング画像生成エンジンは、Face Parsingモデルである
ようにコンピュータを機能させることも好ましい。
【0024】
本発明によれば、
前述したように再訓練されたラベリング画像生成エンジンと、
対象顔画像から表情ラベルを推定する表情認識エンジンと
してコンピュータを機能させるプログラムであって、
訓練段階として、
教師顔画像と教師表情ラベルとを対応付けた教師データを用いて、
ラベリング画像生成エンジンが、教師顔画像を入力し、顔領域画像及び装着物領域画像を出力し、
装着物領域画像を逆算した画像を、顔領域画像に対して乗算し、顔露出領域を導出し、
表情認識エンジンが、教師顔画像と顔露出領域画像及び装着物領域画像とを入力し、教師表情ラベルを出力するように訓練し、
推定段階として、
ラベリング画像生成エンジンが、対象顔画像を入力し、顔領域画像及び装着物領域画像を出力し、
装着物領域画像を逆算した画像を、顔領域画像に対して乗算し、顔露出領域を導出し、
表情認識エンジンが、対象顔画像と顔露出領域画像及び装着物領域画像とを入力し、表情ラベルを出力する
ようにコンピュータを機能させることを特徴とする。
【0025】
本発明のプログラムにおける他の実施形態によれば、
表情認識エンジンは、
顔画像と顔露出領域画像とを乗算した画像から、第1の特徴量を出力する第1のエンコーダと、
顔画像と装着物領域画像とを乗算した画像から、第2の特徴量を出力する第2のエンコーダと、
第1の特徴量及び第2の特徴量を入力し、顔露出領域画像と装着物領域画像との関連性を考慮した第1のクロス特徴量及び第2のクロス特徴量を出力するクロスアテンションと、
第1のクロス特徴量及び第2のクロス特徴量を融合し、表情ラベルを出力する多層パーセプトロンと
してコンピュータを機能させることも好ましい。
【0026】
本発明によれば、人の顔が映り込む原画像を入力し、人の顔に装着物が着用された教師顔画像と、当該教師顔画像から装着物領域を識別可能な教師ラベリング画像とを生成する画像生成装置において、
原画像から、人の顔領域画像を検出する顔領域検出手段と、
検出された顔領域画像に、顔の向き及び傾きに応じた装着物画像を重畳させた教師顔画像を生成する教師顔画像生成手段と、
検出された顔領域画像から、ラベリング画像を生成するラベリング画像生成エンジンと、
ラベリング画像に対して、教師顔画像に重畳された装着物画像の領域に装着物ラベルを付与する装着物ラベル付与部と
を有することを特徴とする。
【0027】
本発明によれば、人の顔が映り込む原画像を入力し、人の顔に装着物が着用された教師顔画像と、当該教師顔画像から装着物領域を識別可能な教師ラベリング画像とを生成する装置の画像生成方法において、
原画像から、人の顔領域画像を検出する第1のステップと、
検出された顔領域画像に、顔の向き及び傾きに応じた装着物画像を重畳させた教師顔画像を生成する第2のステップと、
ラベリング画像生成エンジンを用いて、検出された顔領域画像から、ラベリング画像を生成する第3のステップと、
ラベリング画像に対して、教師顔画像に重畳された装着物画像の領域に装着物ラベルを付与する第4のステップと
を実行することを特徴とする。
【発明の効果】
【0028】
本発明のプログラム、装置及び方法によれば、機械学習エンジン用の教師データとして、人の顔に装着物を着用した顔画像及びラベリング画像を人工的に生成することができるプログラム、装置及び方法を提供することを目的とする。これによって、顔露出領域と着用物領域との相関関係を考慮してそれぞれの特徴量を融合させて、マスクを着用した顔画像であっても、表情認識の精度を高めることができる。
【図面の簡単な説明】
【0029】
【
図1】本発明における画像生成装置の機能構成図である。
【
図3】教師顔画像生成部の処理を表す説明図である。
【
図5】既存のラベリング画像生成エンジンの処理を表す説明図である。
【
図6】装着物ラベル付与部の処理を表す説明図である。
【
図7】再訓練のラベリング画像生成エンジンの処理を表す説明図である。
【
図8】本発明における表情認識装置の機能構成図である。
【発明を実施するための形態】
【0030】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0031】
本発明の特徴としては、機械学習エンジン用の教師データとして、人の顔に装着物を着用した顔画像及びラベリング画像を人工的に生成することにある。
そのために、
図1~6によれば、人の顔が映り込む原画像を入力し、「教師顔画像」及び「教師ラベリング画像」を生成する画像生成装置として説明する。
また、
図7によれば、機械学習エンジン(後述するラベリング画像生成エンジン)を、教師顔画像及び教師ラベリング画像によって訓練した画像生成装置として説明する。
そして、
図8によれば、人の顔に装着物を着用した顔画像から顔表情を認識する、機械学習エンジン(後述する表情認識エンジン)を含む表情認識装置として説明する。
【0032】
図1は、本発明における画像生成装置の機能構成図である。
【0033】
図1によれば、画像生成装置1は、原画像蓄積部10と、顔領域検出部11と、教師顔画像生成部12と、ラベリング画像生成エンジン131及び132と、装着物ラベル付与部14とを有する。これら機能構成部は、画像生成装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、装置の画像生成方法としても理解できる。
【0034】
即ち、
図1の画像生成装置1によれば、人の顔が映り込む原画像から、「教師顔画像」及び「教師ラベリング画像」を、セット毎に出力していく。
「原画像」とは、装着物が着用されていない人の顔が映り込んだ画像である。
「教師顔画像」とは、装着物が着用された人の顔が映り込んだ画像である。装着物としては、代表的にマスクであるとして説明するが、それに限られず、メガネ、ゴーグル又はサングラスのようなものであってもよい。
「教師ラベリング画像」とは、教師顔画像から装着物領域を識別可能な教師ラベリング画像である。ここで、ラベリング画像とは、教師領域画像の画素毎に、セマンティックセグメンテーションに基づく領域ラベルを付与したものである。領域ラベルとしては、少なくとも顔領域及び装着物領域が区別されるものである。
【0035】
[原画像蓄積部10]
原画像蓄積部10は、原画像を大量に蓄積したものである。原画像には、人の顔に装着物が着用されてないものを前提とする。原画像蓄積部10は、原画像を逐次、顔領域検出部11へ出力する。
【0036】
[顔領域検出部11]
顔領域検出部11は、原画像から、人の顔領域画像(例えばバウンディングボックス)を検出する。検出された顔領域画像は、教師顔画像生成部12及びラベリング画像生成エンジン131へ出力される。
【0037】
図2は、顔領域検出部の説明図である。
図2(a)によれば、原画像には、2人の女性の顔が映り込んでいる。
図2(b)によれば、顔領域検出部11が、2人それぞれの顔領域画像を検出する。
【0038】
顔領域検出部11には、具体的には、R-CNN(Regions with Convolutional Neural Networks)やSSD(Single Shot Multibox Detector)を用いる。
R-CNNは、四角形の顔領域を畳み込みニューラルネットワークの特徴と組み合わせて、顔領域のサブセットを検出する(領域提案)。次に、領域提案からCNN特徴量を抽出する。そして、CNN特徴量を用いて予め学習したサポートベクタマシンによって、領域提案のバウンディングボックスを調整する。
SSDは、機械学習を用いた一般対象物検知のアルゴリズムであって、デフォルトボックス(default boxes)という長方形のバウンディングボックスを決定する。1枚の画像上に、大きさの異なるデフォルトボックスを多数重畳させ、そのボックス毎に予測値を計算する。各デフォルトボックスについて、自身が対象物からどのくらい離れていて、どのくらい大きさが異なるのか、とする位置を予測することができる。
【0039】
[教師顔画像生成部12]
教師顔画像生成部12は、検出された顔領域画像に、顔の向き及び傾きに応じた装着物画像を重畳させた教師顔画像を生成する。
【0040】
図3は、教師顔画像生成部の処理を表す説明図である。
【0041】
図3によれば、教師顔画像生成部12は、以下のようにS121~S123を実行する。この技術には、「人の顔に装着物が着用された新たな教師顔画像を人工的に生成するプログラム、装置及び方法」に基づく既存技術を用いる(例えば非特許文献6参照)。
【0042】
(S121:特徴点の検出)
最初に、顔領域画像から特徴点(例えば68個のキーポイント)を検出する。そして、特徴点の展開から、各部位(目、鼻、口、眉、顎)が検出される。
例えばDlibの公式サイトによれば、顔の特徴点の学習済みモデル(例えば非特許文献4参照)が開示されている。この学習済みモデルは、3837枚(train:3148/test:689)のアノテーションが付くデータセットに対して訓練されたものである(例えば非特許文献5参照)。
【0043】
次に、特徴点から「顔の向き及び傾き」を検出する。
【0044】
【0045】
正面垂線と鼻中心線との間の角度を、顔の傾きとして表している。
図4(a)によれば、顔の向きは、正面向きであって、顔の傾きは、正面垂線である。
図4(b)によれば、顔の向きは、正面向きから見て「右向き」であって、顔の傾きは、正面垂線から見て「右回り30度」である。
【0046】
鼻中心のポイントの座標点から、「左頬の端点」と「右頬の端点」とそれぞれの距離が算出されている。
右顎の端点と鼻中心との間の距離が、左顎の端点と鼻中心との間との間の距離よりも第1の所定閾値以上長い場合、顔の向きは「左向き」であると判定する。
左向き: 左顎の端点と鼻中心間との間の距離<右顎の端点と鼻中心との間の距離
同様に、左顎の端点と鼻中心との間の距離が、右顎の端点と鼻中心との間の距離よりも第1の所定閾値以上長い場合、顔の向きは「右向き」と判定する。
右向き: 左顎の端点と鼻中心間との間の距離>右顎の端点と鼻中心との間の距離
そして、左顎の端点と鼻中心との間の距離が、右顎の端点と鼻中心との間の距離との差が第2の所定閾値以下で小さい場合(2つの距離がほぼ一致する場合)、顔の向きは「正面向き」と判定する。
【0047】
(S122:装着物画像の選択)
向きが異なる複数の装着物画像が予め蓄積されており、顔の向きに応じた装着物画像を選択する。
装着物「マスク」の画像が、予め蓄積されている。ここで、正面向きのマスク画像と、右向きのマスク画像とが蓄積されている。勿論、同じ向きであっても、色や形状が異なる複数のマスク画像が蓄積されていることも好ましい。マスクの場合、例えば布製、不織布製、平型、ブリーツ型、立体型など様々な形状がある。
勿論、他の実施形態として、同じ種類のマスク画像であっても、「やや右向き」「45度右向き」「完全右向き」のように段階的に蓄積したものであってもよい。
【0048】
そして、顔の向きに応じた装着物画像が選択される。このとき、顔の向きが同一であって異なる装着物(マスク)画像を複数選択するものであってもよい。その場合、異なる装着物を装着した複数の顔画像が生成されることとなる。
図4(a)及び(b)によれば、右向きのマスク画像が、装着物画像蓄積部130から選択される。そして、右向きマスク画像について、顔の左側距離(左頬の特徴点と鼻中心との間の距離)と右側距離(右頬の特徴点と鼻中心との間の距離)とに応じて、マスク画像のサイズがリスケール(拡大/縮小)される。これによって、装着物画像の幅及び高さを、顔の着用領域(鼻中心、下・左・右顎の端点から囲まれる領域)の幅及び高さと一致させるように調整する。
そして、
図4(b)の場合、更に、マスク画像を、鼻中心線(鼻中心と顎との間の直線)に対して、右回り30度に傾ける。
【0049】
また、他の実施形態として、1枚の教師顔画像に対して、複数の装着物画像を選択し、その装着物画像それぞれを重畳させて、複数の教師顔画像を更に人工的に生成するものであってもよい。例えば異なる種類や色や形状のマスク画像をそれぞれ、人の顔領域に重畳させることによって、水増しされた大量の教師顔画像を生成することができる。
【0050】
更に、他の実施形態としいて、装着物画像が3次元モデルであれば、その3次元モデルを顔の向き及び傾きに応じて回転させ、その位置で撮影した2次元の装着物画像を出力するものであってもよい。
【0051】
(S123:装着物を重畳した画像の生成)
選択された装着物画像を、顔の傾きに応じて回転させて、教師顔画像の人の顔領域に重畳させた教師顔画像を生成する。
最終的に生成された装着物が重畳された顔画像は、教師顔画像として出力されると共に、装着物ラベル付与部14へ出力される。
【0052】
[ラベリング画像生成エンジン131]
ラベリング画像生成エンジン131は、検出された顔領域画像から、ラベリング画像を生成する。
【0053】
図5は、既存のラベリング画像生成エンジンの処理を表す説明図である。
【0054】
ラベリング画像とは、例えばFacing Parsingに基づくものである(例えば非特許文献7参照)。このエンジンは、例えばCelebAMask-HQ datasetのような既存の大量のデータセットによって予め訓練された機械学習エンジンである。顔画像に対して、目・鼻・口などの領域にラベルを付与したラベリング画像を生成する。
生成されたラベリング画像は、装着物ラベル付与部14へ出力される。
【0055】
[装着物ラベル付与部14]
装着物ラベル付与部14は、ラベリング画像に対して、教師顔画像に重畳された装着物画像の領域に装着物ラベルを付与する。
このとき、教師顔画像における人の顔の特徴点の向き及び傾きと、装着物画像(例えばマスク画像)の向き及び傾きとが一致するように、教師顔画像の顔領域に装着物画像を重畳させる。
【0056】
図6は、装着物ラベル付与部の処理を表す説明図である。
【0057】
装着物ラベル付与部14、少なくとも以下の2つの領域を区別できるようする。
顔領域画像
装着物領域画像(マスク領域画像)
そして、教師顔画像生成部12から出力された教師顔画像と、装着物ラベル付与部14から出力された教師ラベリング画像とは、セットとして出力される。
【0058】
[ラベリング画像生成エンジン132]
ラベリング画像生成エンジン132は、前述したラベリング画像生成エンジン131と同じものである。ラベリング画像生成エンジン131は、装着物が着用されていない顔画像にラベルを付与するべく訓練されたものであるのに対し、ラベリング画像生成エンジン132は、装着物が着用された顔画像に対して訓練されたものである。即ち、自動的に、装着物(マスク)を着用した顔画像を生成し、その顔画像に対するセマンティックセグメンテーションのアノテーション(再ラベリング)が実行される。
ラベリング画像生成エンジン132は、ラベリング画像生成エンジン131に対して、人工的に生成された教師データによって水増しして再訓練されたものである。
【0059】
図7は、再訓練のラベリング画像生成エンジンの処理を表す説明図である。
【0060】
<訓練段階>装着物を着用した人の顔が映り込む教師顔画像を入力し、当該教師顔画像に対応する教師ラベリング画像を出力するように再訓練する。
<推定段階>装着物を着用した人の顔が映り込む対象顔画像を入力し、装着物ラベルを付与した対象ラベリング画像を出力する。
これによって、対象顔画像から、顔領域と装着物領域とを区分することができる。
【0061】
本発明によれば、装着物を着用していない人の顔画像から、装着物を着用した教師顔画像と、装着物領域を区分可能な教師ラベリング画像とを、人工的に生成することができる。これによって、人手によるラベル付け作業をする必要がなくなると共に、結果的に、装着物を着用した顔画像に基づく大量の教師データを短時間で作成可能となる。このような教師データを用いて、既存のFacing Parsingモデルを再訓練することによって、装着物を着用した人の顔画像に高精度に対応した機械学習エンジンを構築することができる。
【0062】
図8は、本発明における表情認識装置の機能構成図である。
【0063】
表情認識装置2は、人の顔画像(対象画像)を入力することによって、その顔の表情(ラベル)を推定することができる。
図8によれば、表情認識装置2は、前述した再訓練されたラベリング画像生成エンジン132と、対象顔画像から表情ラベルを推定する表情認識エンジン15として機能することによって実現される。
【0064】
<訓練段階>
教師顔画像と教師表情ラベルとを対応付けた教師データを用いる。
教師顔画像<->教師表情ラベル
教師表情ラベルとしては、3分類(ポジティブ、ネガティブ、ニュートラル)であってもよいし、Ekmanの7分類であってもよい。
その上で、ラベリング画像生成エンジン132が、教師顔画像を入力し、「顔領域画像」及び「装着物領域画像」を出力する。
次に、装着物領域画像を逆算(1からの減算)した画像を、顔領域画像に対して乗算し、顔露出領域を導出する。
そして、表情認識エンジン25は、教師顔画像と顔露出領域画像及び装着物領域画像とを入力し、教師表情ラベルを出力するように訓練する。
【0065】
ここで、表情認識エンジン25は、以下の要素から構成される。
第1のエンコーダ:顔画像と顔露出領域画像とを乗算した画像から、第1の特徴量を出力する。具体的にはVisual-Transformerモデルとも称される(例えば非特許文献8参照)。
【0066】
第2のエンコーダ:顔画像と装着物領域画像とを乗算した画像から、第2の特徴量を出力する。第1のエンコーダと同種のものである。
【0067】
クロスアテンション(Cross-attention):第1の特徴量及び第2の特徴量を入力し、顔露出領域画像と装着物領域画像との関連性を考慮した第1のクロス特徴量及び第2のクロス特徴量を出力する(例えば非特許文献9参照)。これは、顔露出領域と装着物領域とに与える注意ウェイト(重み)を自己適応的に調整する。非特許文献9に記載の半分attentionを利用し、顔露出領域の特徴量と関連性が高い装着物領域の特徴量を学習することによって、両領域の各部の重要さを分段的に学習することができる。
例えば顔表情を認識する場合、重みは、β>(1-β)となると想定される。顔表情認識について、例えば、顔露出領域からの顔表情認識にβ=0.9の重みが付与された場合、装着物領域からの顔表情推定に1-β=0.1の重みが付与されるようになる。クロスアテンションによれば、重みβが自己適応的に調整される。例えば、顔露出領域の重みβが、装着物領域の重み1-βよりも重くなる場合、顔露出領域からの表情認識の結果を強く反映したものとなる。
【0068】
多層パーセプトロン:第1のクロス特徴量及び第2のクロス特徴量を融合し、表情ラベルを出力する。
【0069】
<推定段階>
表情認識装置2は、<推定段階>として、人の顔が映り込む対象画像から、顔表情を推定することができる。ここで、対象画像は、装着物(マスク)を着用した顔画像を想定する。
【0070】
ラベリング画像生成エンジン132は、対象顔画像を入力し、顔領域画像及び装着物領域画像を出力する。
次に、装着物領域画像を逆算(1からの減算)した画像を、顔領域画像に対して乗算し、顔露出領域を導出する。
そして、表情認識エンジン25が、対象顔画像と顔露出領域画像及び装着物領域画像とを入力し、表情ラベルを出力する。
【0071】
前述しように、表情認識エンジン25によれば、顔露出領域の特徴量だけでなく、装着物(マスク)領域の特徴量も利用して、表情を認識することができる。その際、顔露出領域から認識された表情と、装着物領域から認識された表情との相関関係も考慮される。
顔露出領域については、例えばマスクに覆われていない目の周辺領域に表情が表れやすい。特に、表情は眉間のシワなどに表れやすい。一方で、マスク領域についても、顔全体、特に鼻・口・頬における筋肉の変化によって、マスク自体にシワが生じて変形することとなる。本願の発明者らは、顔露出領域の特徴量と、マスク領域の特徴量との相関関係を考慮して、表情を認識するべく、クロスアテンション及び多層パーセプトロンを適用した。
【0072】
以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、機械学習エンジン用の教師データとして、人の顔に装着物を着用した顔画像及びラベリング画像を人工的に生成することができるプログラム、装置及び方法を提供することを目的とする。これによって、顔露出領域と着用物領域との相関関係を考慮してそれぞれの特徴量を融合させて、マスクを着用した顔画像であっても、表情認識の精度を高めることができる。
【0073】
尚、これにより、コロナ禍にあっても「顔にマスクを装着したユーザは、そのマスクを取り外すことなく、その表情を推定することができる」ことから、国連が主導する持続可能な開発目標(SDGs)の目標3「あらゆる年齢のすべての人々の健康的な生活を確保し、福祉を推進する」に貢献することが可能となる。
【0074】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0075】
1 画像生成装置
10 原画像蓄積部
11 顔領域検出部
12 教師顔画像生成部
131 ラベリング画像生成エンジン(既存)
132 ラベリング画像生成エンジン(再訓練)
14 装着物ラベル付与部
2 表情認識装置
25 表情認識エンジン