IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人NHKエンジニアリングシステムの特許一覧

特開2023-58839顔画像学習装置、顔画像認識装置及びそれらのプログラム
<>
  • 特開-顔画像学習装置、顔画像認識装置及びそれらのプログラム 図1
  • 特開-顔画像学習装置、顔画像認識装置及びそれらのプログラム 図2
  • 特開-顔画像学習装置、顔画像認識装置及びそれらのプログラム 図3
  • 特開-顔画像学習装置、顔画像認識装置及びそれらのプログラム 図4
  • 特開-顔画像学習装置、顔画像認識装置及びそれらのプログラム 図5
  • 特開-顔画像学習装置、顔画像認識装置及びそれらのプログラム 図6
  • 特開-顔画像学習装置、顔画像認識装置及びそれらのプログラム 図7
  • 特開-顔画像学習装置、顔画像認識装置及びそれらのプログラム 図8
  • 特開-顔画像学習装置、顔画像認識装置及びそれらのプログラム 図9
  • 特開-顔画像学習装置、顔画像認識装置及びそれらのプログラム 図10
  • 特開-顔画像学習装置、顔画像認識装置及びそれらのプログラム 図11
  • 特開-顔画像学習装置、顔画像認識装置及びそれらのプログラム 図12
  • 特開-顔画像学習装置、顔画像認識装置及びそれらのプログラム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023058839
(43)【公開日】2023-04-26
(54)【発明の名称】顔画像学習装置、顔画像認識装置及びそれらのプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230419BHJP
【FI】
G06T7/00 350C
G06T7/00 660A
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021168595
(22)【出願日】2021-10-14
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(71)【出願人】
【識別番号】591053926
【氏名又は名称】一般財団法人NHKエンジニアリングシステム
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】望月 貴裕
(72)【発明者】
【氏名】河合 吉彦
(72)【発明者】
【氏名】藤井 真人
(72)【発明者】
【氏名】苗村 昌秀
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096EA13
5L096EA15
5L096EA16
5L096EA37
5L096FA67
5L096FA69
5L096HA11
5L096JA05
5L096KA04
(57)【要約】
【課題】学習が容易で、装着物を装着している人物を精度よく認識できる顔画像認識装置を提供する。
【解決手段】顔画像認識装置3は、登録用顔画像9Bと認識用顔画像9Cとの処理対象領域を画像特徴が少ない状態に変換する変換部30と、登録用顔画像9Bを深層学習モデルに入力することで登録用顔画像9Bの特徴ベクトルを取得し、取得した登録用顔画像9Bの特徴ベクトルを人物毎に登録する登録部31と、認識用顔画像9Cを深層学習モデルに入力することで認識用顔画像9Cの特徴ベクトルを取得し、取得した認識用顔画像9Cの特徴ベクトルと登録部31が登録した人物毎の特徴ベクトルとの比較結果に基づいて、人物を認識する認識部32とを備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
装着物により顔が遮蔽されていない学習用顔画像を用いて、前記装着物により顔の一部が遮蔽されている認識用顔画像から人物を認識するための深層学習モデルを生成する顔画像学習装置であって、
前記装着物の存在が想定される処理対象領域を予め設定し、前記学習用顔画像の処理対象領域を画像特徴が少ない状態に変換する変換部と、
前記変換部が変換した学習用顔画像を深層学習することで、前記深層学習モデルを生成する学習部と、
を備えることを特徴とする顔画像学習装置。
【請求項2】
前記変換部は、前記学習用顔画像の処理対象領域に含まれる画素を同一画素値若しくはランダムな画素値に置き換えるか、又は、前記学習用顔画像の処理対象領域を削除することを特徴とする請求項1に記載の顔画像学習装置。
【請求項3】
前記変換部は、前記処理対象領域を変換後の学習用顔画像が所定のアスペクト比となるように伸縮し、前記所定のアスペクト比に伸縮された学習用顔画像の処理対象領域を画像特徴が少ない状態に変換することを特徴とする請求項1又は請求項2に記載の顔画像学習装置。
【請求項4】
前記変換部は、前記学習用顔画像を垂直方向に異なる量だけスライドさせ、スライド量が異なる複数パターンの前記学習用顔画像の処理対象領域を画像特徴が少ない状態に変換し、
前記学習部は、前記学習用顔画像のパターン毎に前記深層学習モデルを生成することを特徴とする請求項1から請求項3の何れか一項に記載の顔画像学習装置。
【請求項5】
請求項1に記載の顔画像学習装置で生成した深層学習モデルを用いて、装着物により顔の一部が遮蔽されている認識用顔画像から人物を認識する顔画像認識装置であって、
前記装着物の存在が想定される処理対象領域を予め設定し、前記装着物により顔が遮蔽されていない登録用顔画像と前記認識用顔画像との処理対象領域を画像特徴が少ない状態に変換する変換部と、
前記変換部が変換した登録用顔画像を前記深層学習モデルに入力することで前記登録用顔画像の特徴ベクトルを取得し、取得した前記登録用顔画像の特徴ベクトルを前記人物毎に登録する登録部と、
前記変換部が変換した認識用顔画像を前記深層学習モデルに入力することで前記認識用顔画像の特徴ベクトルを取得し、取得した前記認識用顔画像の特徴ベクトルと前記登録部が登録した前記人物毎の特徴ベクトルとの比較結果に基づいて、前記人物を認識することを特徴とする認識部と、
を備えることを特徴とする顔画像認識装置。
【請求項6】
前記変換部は、前記登録用顔画像と前記認識用顔画像との処理対象領域に含まれる画素を同一画素値若しくはランダムな画素値に置き換えるか、又は、前記登録用顔画像と前記認識用顔画像との処理対象領域を削除することを特徴とする請求項5に記載の顔画像認識装置。
【請求項7】
前記変換部は、前記処理対象領域を変換後の登録用顔画像と認識用顔画像とが所定のアスペクト比となるように伸縮し、前記所定のアスペクト比に伸縮された登録用顔画像と認識用顔画像との処理対象領域を画像特徴が少ない状態に変換することを特徴とする請求項5又は請求項6に記載の顔画像認識装置。
【請求項8】
前記変換部は、前記登録用顔画像と前記認識用顔画像とを垂直方向に異なる量だけスライドさせ、スライド量が異なる複数パターンの前記登録用顔画像と前記認識用顔画像との処理対象領域を画像特徴が少ない状態に変換し、
前記登録部は、請求項4に記載のパターン毎に生成した深層学習モデルに前記変換部が変換した登録用顔画像を入力することで、前記人物及び前記パターン毎に前記登録用顔画像の特徴ベクトルを取得し、取得した前記登録用顔画像の特徴ベクトルを前記人物及び前記パターン毎に登録し、
前記認識部は、前記パターン毎に生成した深層学習モデルに前記変換部が変換した認識用顔画像を入力することで前記パターン毎に前記認識用顔画像の特徴ベクトルを取得し、前記登録用顔画像と前記認識用顔画像との特徴ベクトル同士の組み合わせで内積を算出し、算出した前記内積が最大となる人物を認識結果とすることを特徴とする請求項5から請求項7の何れか一項に記載の顔画像認識装置。
【請求項9】
コンピュータを、請求項1から請求項4の何れか一項に記載の顔画像学習装置として機能させるためのプログラム。
【請求項10】
コンピュータを、請求項5から請求項8の何れか一項に記載の顔画像認識装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、顔画像学習装置、顔画像認識装置、及び、それらのプログラムに関する。
【背景技術】
【0002】
コロナ禍の現在、マスクやサングラスなどの装着物で顔の一部が遮蔽されていることは珍しくない。従来の画像認識装置では、入力された顔画像又は登録された顔画像において、顔の一部が装着物によって遮蔽されている場合、顔画像の認識精度が低下してしまう。
【0003】
この問題に対処すべく、従来技術が幾つか提案されている(例えば、特許文献1,2及び非特許文献1)。特許文献1に記載の技術は、顔画像で顔を遮蔽している装着物の有無を判定するものである。装着物がある場合、特許文献1に記載の技術では、その装着物の高さ情報を取得し、高さ情報を基にして三次元顔モデルを作成する。その後、特許文献1に記載の技術では、この三次元顔モデルから遮蔽部分の顔画像を復元し、顔画像認識処理を適用する。
【0004】
特許文献2に記載の技術は、顔画像を複数の小領域に分割し、標準的な顔を表す画像と比較して、サングラスやマスクなどの装着物に関連付けられた領域を判定するものである。そして、特許文献2に記載の技術では、装着物の領域を除外した遮蔽領域を基に顔画像認識を行うことで、その精度低下を抑制する。
【0005】
非特許文献1に記載の技術は、装着物のない顔画像にマスク画像を顔の向きに合わせて合成する手法により、既存の大規模顔画像データベースからマスク装着顔画像のデータベースを生成するものである。非特許文献1に記載の技術によれば、マスク装着顔画像の大規模なデータベースを容易に構築すると共に、このデータベースによりマスク装着時の顔画像を精度よく認識できる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2018-163481号公報
【特許文献2】特開2020-38731号公報
【非特許文献】
【0007】
【非特許文献1】Aqeel Anwar, Arijit Raychowdhury, “Masked Face Recognition for Secure Authentication,” arXiv:2008.22204v1, 2020年
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかし、特許文献1に記載の技術では、顔認識時に装着物のない同一人物の顔画像を取得する前提であり、コロナ禍で日常的なマスク装着時では装着物のない顔画像の取得が困難なことから、認識精度が低下してしまう。
【0009】
特許文献2に記載の技術では、遮蔽領域の判定精度を維持できることが前提であり、遮蔽領域の抽出不調により、認識精度の低下を招く可能性がある。また、特許文献2に記載の技術では、遮蔽領域のない顔画像の学習によって得られた特徴量を使用しており、遮蔽領域を除いた顔領域に最適な特徴量となっておらず、認識精度が低下することもある。
【0010】
非特許文献1に記載の技術では、あくまでマスク画像を顔画像に合成した合成画像を使用する前提であり、合成画像の精度及び合成するマスク画像の種類に影響されてしまい、認識精度が低下することがある。さらに、非特許文献1に記載の技術では、マスク画像を合成するので、学習に手間を要するという課題もある。
【0011】
そこで、本発明は、学習が容易で、装着物を装着している人物を精度よく認識できる顔画像学習装置、顔画像認識装置、及び、それらのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0012】
前記課題を解決するため、本発明に係る顔画像学習装置は、装着物により顔が遮蔽されていない学習用顔画像を用いて、装着物により顔の一部が遮蔽されている認識用顔画像から人物を認識するための深層学習モデルを生成する顔画像学習装置であって、変換部と、学習部とを備える構成とした。
【0013】
かかる構成によれば、変換部は、装着物の存在が想定される処理対象領域を予め設定し、学習用顔画像の処理対象領域を画像特徴が少ない状態に変換する。
学習部は、変換部が変換した学習用顔画像を深層学習することで、深層学習モデルを生成する。
【0014】
このように、顔画像学習装置は、マスクなどの装着物の存在が想定される処理対象領域を画像特徴が少ない状態に変換するので、深層学習モデルを生成するために装着物を装着している人物の顔画像を準備する必要がなく、学習が容易である。この深層学習モデルを用いれば、装着物の有無による画像特徴の差異が少なくなり、装着物を装着している人物を精度よく認識できる。
【0015】
また、前記課題を解決するため、本発明に係る顔画像認識装置は、前記顔画像学習装置で生成した深層学習モデルを用いて、装着物により顔の一部が遮蔽されている認識用顔画像から人物を認識する顔画像認識装置であって、変換部と、登録部と、認識部とを備える構成とした。
【0016】
かかる構成によれば、変換部は、装着物の存在が想定される処理対象領域を予め設定し、装着物により顔が遮蔽されていない登録用顔画像と認識用顔画像との処理対象領域を画像特徴が少ない状態に変換する。
登録部は、変換部が変換した登録用顔画像を深層学習モデルに入力することで登録用顔画像の特徴ベクトルを取得し、取得した登録用顔画像の特徴ベクトルを人物毎に登録する。
認識部は、変換部が変換した認識用顔画像を深層学習モデルに入力することで認識用顔画像の特徴ベクトルを取得し、取得した認識用顔画像の特徴ベクトルと登録部に登録されている人物毎の特徴ベクトルとの比較結果に基づいて、人物を認識する。
【0017】
このように、顔画像学習装置は、マスクなどの装着物の存在が想定される処理対象領域を画像特徴が少ない状態に変換するので、装着物の有無による画像特徴の差異が少なくなり、装着物を装着している人物を精度よく認識できる。この深層学習モデルは、装着物を装着している人物の顔画像を準備する必要がなく、学習が容易である。
【0018】
なお、本発明は、コンピュータを前記した顔画像学習装置又は顔画像認識装置として機能させるためのプログラムで実現することもできる。
【発明の効果】
【0019】
本発明によれば、学習が容易で、装着物を装着している人物を精度よく認識することができる。
【図面の簡単な説明】
【0020】
図1】実施形態に係る顔認識装置の構成を示すブロック図である。
図2】実施形態において、(a)は学習用顔画像の一例を説明する説明図であり、(b)は登録用顔画像の一例を説明する説明図であり、(c)は認識用顔画像の一例を説明する説明図である。
図3】実施形態において、(a)~(c)は学習用顔画像の回転を説明する説明図である。
図4】実施形態において、(a)~(c)は学習用顔画像の正規化を説明する説明図である。
図5】実施形態において、(a)及び(b)は学習用顔画像の補間を説明する説明図である。
図6】実施形態において、(a)及び(b)は処理対象領域の同一画素値での置き換えを説明する説明図である。
図7】実施形態において、(a)は処理対象領域のランダムな画素値での置き換えを説明する説明図であり、(b)は処理対象領域の削除を説明する説明図である。
図8】実施形態において、(a)~(d)は学習用顔画像のスライドを説明する説明図である。
図9】実施形態において、(a)及び(b)は学習用顔画像の伸縮を説明する説明図である。
図10】実施形態において、小さな処理対象領域の設定を説明する説明図である。
図11】実施形態において、(a)及び(b)は深層学習モデルの一例を説明する説明図である。
図12】実施形態において、パターン毎の学習、登録及び認識を説明する説明図である。
図13】実施形態に係る顔認識装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0021】
以下、本発明の実施形態について図面を参照して説明する。但し、以下に説明する各実施形態は、本発明の技術思想を具体化するためのものであって、特定的な記載がない限り、本発明を以下のものに限定しない。また、同一の手段には同一の符号を付し、説明を省略する場合がある。
【0022】
[顔認識装置の概要]
以下、図1を参照し、実施形態に係る顔認識装置1の概要について説明する。
図1に示すように、顔認識装置1は、人物を認識するものであり、顔画像学習装置2と、顔画像認識装置3と、記憶部4とを備える。また、顔認識装置1は、学習用顔画像9Aと、登録用顔画像9Bと、認識用顔画像9Cという、3種類の顔画像を入力とする。
【0023】
学習用顔画像9Aは、後記する深層学習モデルの生成に利用するための顔画像である。例えば、学習用顔画像9Aは、様々な人物の顔画像で構成されている学習用顔画像データベース(不図示)から取得してもよい。図2(a)に示すように、学習用顔画像9Aは、マスクやサングラスなどの装着物90により顔が遮蔽されていない顔画像である。
【0024】
登録用顔画像9Bは、認識対象となる人物を顔画像認識装置3に登録するための顔画像である。この登録用顔画像9Bは、識別対象の人物毎に集められた複数の顔画像で構成されている。図2(b)に示すように、登録用顔画像9Bは、装着物90により顔が遮蔽されていない顔画像である。
【0025】
認識用顔画像9Cは、認識対象となる人物の顔画像である。図2(c)に示すように、認識用顔画像9Cは、装着物90により顔が遮蔽されている顔画像である。本実施形態では、装着物90としてのマスクにより顔の下部領域の一部が遮蔽されていることする。
なお、学習用顔画像9A、登録用顔画像9B及び認識用顔画像9Cは、既知の顔領域検出処理により、顔領域及び両目位置を検出できることとする。
【0026】
まず、顔認識装置1では、学習用顔画像9Aを用いて、顔画像学習装置2が深層学習モデルを生成する。次に、顔認識装置1では、登録用顔画像9Bを用いて、顔画像認識装置3が認識対象となる人物を識別情報に紐づけて登録する。そして、顔認識装置1では、認識用顔画像9Cを用いて、顔画像認識装置3が人物を認識する。
【0027】
[顔画像学習装置の構成]
図1を参照し、顔画像学習装置2の構成について、具体的に説明する。
顔画像学習装置2は、装着物90により顔が遮蔽されていない学習用顔画像9Aを用いて、装着物90により顔の一部が遮蔽されている認識用顔画像9Cから人物を認識するための深層学習モデルを生成するものである。図1に示すように、顔画像学習装置2は、変換部20と、学習部21とを備える。
【0028】
変換部20は、装着物90の存在が想定される処理対象領域を予め設定し、学習用顔画像9Aの処理対象領域を画像特徴が少ない状態に変換するものである。そして、変換部20は、処理対象領域が変換された学習用顔画像9Aを学習部21に出力する。ここで、変換部20は、高精度な深層学習モデルを生成するため、以下で説明するような前処理を学習用顔画像9Aに施した後、学習用顔画像9Aの処理対象領域を変換してもよい。
【0029】
<学習用顔画像の前処理>
まず、変換部20による学習用顔画像9Aの前処理を説明する。
変換部20は、図3(a)の学習用顔画像9Aに既知の顔領域検出処理を施し、学習用顔画像9Aから両目位置を検出する。例えば、顔領域検出処理としては、参考文献1に記載の手法を利用できる。
参考文献1:OpenCV,[online],[令和3年9月21日検索],インターネット<URL:https://opencv.org/>
【0030】
変換部20は、検出された両目位置に基づいて、学習用顔画像9Aに回転補正を施してもよい。具体的には、変換部20は、図3(b)に示すように、右目位置E及び左目位置Eを通過する直線FLRが水平線Fと一致するように、学習用顔画像9Aを回転させる。図3(c)には、回転補正後の学習用顔画像9Aを図示した。
【0031】
また、変換部20は、回転補正後の学習用顔画像9Aを正規化してもよい。具体的には、変換部20は、図4(a)に示すように、右目位置Eと左目位置Eとの長さFが、学習用顔画像9Aの横幅Wに対して一定の比率となるように学習用顔画像9Aを伸縮する(例えば、長さF:横幅W=1:2)。さらに、変換部20は、図4(b)に示すように、両目の中間位置Eを学習用顔画像9Aの中心に一致させると共に、学習用顔画像9Aを正方形に変形してもよい(アスペクト比1:1)。図4(c)には、正規化後の学習用顔画像9Aを図示した。
【0032】
図5(a)に示すように、学習用顔画像9Aを切り出す前の元画像9Dにおいて、顔領域が端に位置しており、学習用顔画像9Aで必要な画素領域が欠落する場合がある。なお、図5(a)では、説明を分かりやすくするため、元画像9Dで欠落する画素領域を破線で図示した。この場合、変換部20は、欠落する画素領域を一定の画素値で補間してもよい。例えば、変換部20は、図5(b)に示すように、学習用顔画像9Aで欠落する画素領域を画素値=0(黒色)で補間する。
なお、変換部20は、これらの前処理を必ず学習用顔画像9Aを実行する必要はなく、必要に応じて実行すればよい。
【0033】
<処理対象領域の変換>
続いて、変換部20による処理対象領域の変換を説明する。
変換部20は、装着物90の存在が想定される処理対象領域を学習用顔画像9Aに予め設定する。ここでは、顔認識装置1の利用者が、図示を省略したマウスやキーボードを操作して、処理対象領域を手動で設定する。図6(a)に示すように、装着物90としてマスクの装着を想定する場合、マスクで遮蔽される顔の下部領域の一部を処理対象領域91として設定する。なお、装着物90としてサングラスの装着を想定する場合、サングラスで遮蔽される顔の上部領域の一部を処理対象領域91として設定すればよい(不図示)。
【0034】
変換部20は、学習用顔画像9Aの処理対象領域91を画像特徴が少ない状態に変換する。具体的には、変換部20は、学習用顔画像9Aの処理対象領域91に含まれる画素を同一画素値若しくはランダムな画素値に置き換えるか、又は、学習用顔画像9Aの処理対象領域91を削除する。本実施形態では、変換部20は、図6(b)に示すように、学習用顔画像9Aの処理対象領域91に含まれる画素を画素値=0(黒色)に置き換えることとする。このように、学習用顔画像9Aの処理対象領域91が画像特徴の少ない状態に変換されるので、後記する深層学習では、処理対象領域91以外の領域で顔の特徴をより効果的に学習することができる。
【0035】
なお、変換部20は、学習用顔画像9Aの処理対象領域91に含まれる各画素の画素値を、疑似乱数で算出したランダムな画素値で置き換えればよい。図7(a)には、処理対象領域91の各画素をランダムな画素値で置き換えた学習用顔画像9Aを図示した。
また、変換部20が学習用顔画像9Aの処理対象領域91を削除した場合、図7(b)に示すように、学習用顔画像9Aは、顔の上部領域のみが残る横長の画像となる。
【0036】
ここで、装着物90を装着する位置のゆらぎや、顔領域検出処理による顔領域や両目位置の不正確さを考慮して、処理対象領域91から外れる顔領域が異なるように、複数パターンの学習用顔画像9Aに変換してもよい。つまり、変換部20は、学習用顔画像9Aを垂直方向に異なる量だけスライドさせ、スライド量が異なる複数パターンの学習用顔画像9Aの処理対象領域91を画像特徴が少ない状態に変換する。
【0037】
例えば、変換部20は、図8(a)の学習用顔画像9Aをスライドさせずに、図8(b)に示すように、その学習用顔画像9Aの処理対象領域91を画素値=0(黒色)に置き換える。また、変換部20は、図8(a)の学習用顔画像9Aの両目位置を垂直方向で上側にスライドさせて、図8(c)に示すように、その学習用顔画像9Aの処理対象領域91を画素値=0(黒色)に置き換える(但し、KはK≧1を満たす整数)。また、変換部20は、図8(a)の学習用顔画像9Aの両目位置を垂直方向で上側にさらにスライドさせて、図8(d)に示すように、その学習用顔画像9Aの処理対象領域91を画素値=0(黒色)に置き換える(但し、LはL>Kを満たす整数)。以後、処理対象領域を変換後の学習用顔画像を「変換学習用顔画像」と表記する場合がある。つまり、1枚の学習用顔画像9Aが、スライド量が異なるLパターンの変換学習用顔画像9A~9Aに変換される。これら変換学習用顔画像9A~9Aは、処理対象領域91が同一位置に配置され、処理対象領域91以外の顔領域が異なる画像である。なお、学習用顔画像9Aのスライド量及びパターン数Lは、任意で設定できる。
【0038】
このように、変換部20は、正規化された学習用顔画像9Aを基本として、基本となる学習用顔画像9Aの両目位置を垂直方向で上側にスライドさせて新たな変換学習用顔画像9A~9Aを生成し、新たな学習用顔画像9A~9Aの処理対象領域91を変換する。従って、顔画像学習装置2は、その人物らしさを表わす顔領域が多く含まれる変換学習用顔画像9A~9Aで深層学習を行うことができるので、認識精度がさらに向上する。
【0039】
図9(a)に示すように、学習用顔画像9Aを切り出す際に元画像9Dの画素領域が不足してしまい、学習用顔画像9Aが横長になる場合がある。なお、図9(a)では、元画像9Dで不足する画素領域を破線で図示した。この場合、変換部20は、処理対象領域91を変換後の学習用顔画像9Aが所定のアスペクト比となるように伸縮し、所定のアスペクト比に伸縮された学習用顔画像9Aの処理対象領域91を画像特徴が少ない状態に変換すればよい。例えば、変換部20は、図9(b)に示すように、変換学習用顔画像9Aが正方形(アスペクト比1:1)となるように学習用顔画像9Aを伸縮する。
【0040】
なお、処理対象領域91は、任意の形状及びサイズで設定できる。例えば、図10に示すように、変換部20は、図6と比べて、処理対象領域91を小さなサイズで設定してもよい。この場合、変換部20は、図8と同様、学習用顔画像9Aを垂直方向に異なる量だけスライドさせることもできる。
【0041】
図1に戻り、顔画像学習装置2の説明を続ける。
学習部21は、変換部20が変換した学習用顔画像9Aを深層学習することで、深層学習モデルを生成するものである。ここで、学習部21は、畳み込みニューラルネットワークなどの一般的な深層学習モデルを利用できる。
【0042】
本実施形態では、学習部21は、図11(a)に示すように、畳み込みニューラルネットワークの一つであるResNeXtを深層学習モデル210として利用する。例えば、深層学習モデル210は、入力層211と、中間層(全結合層)212と、出力層213とを有する。例えば、出力層213が12883次元であり、出力層213の直前の全結合層212Aが2048次元である。このとき、深層学習モデル210では、2048次元の中間層212の特徴マップを特徴ベクトルとして利用できる。さらに、図11(b)に示すように、深層学習モデル210では、少ない次元数で計算コストを抑制できるため、出力層213とその前の全結合層212Aとの間に、全結合層212Aより少ない次元数の全結合層214を挿入してもよい。例えば、全結合層214が256次元であり、全結合層214の特徴マップを特徴ベクトルとして利用する。
【0043】
ここで、学習部21は、写っている人物が予め分かっている学習用顔画像9Aのパターン毎に深層学習モデル210を生成する。つまり、学習部21は、スライド量が異なるLパターンの変換学習用顔画像9A~9Aのそれぞれから、L個の深層学習モデル210を生成する。そして、学習部21は、生成した深層学習モデル210を記憶部4に書き込む。
【0044】
<作用・効果>
このように、顔画像学習装置2は、マスクなどの装着物90の存在が想定される処理対象領域91を画像特徴が少ない状態に変換するので、深層学習モデル210を生成するために、装着物90を装着している人物の顔画像を準備する必要がなく、学習が容易である。この深層学習モデル210を用いれば、装着物90の有無による画像特徴の差異が少なくなり、装着物90を装着している人物を精度よく認識できる。
【0045】
[顔画像認識装置の構成]
図1に戻り、顔画像認識装置3の構成について、具体的に説明する。
顔画像認識装置3は、顔画像学習装置2で生成した深層学習モデル210を用いて、装着物90により顔の一部が遮蔽されている認識用顔画像9Cから人物を認識するものである。図1に示すように、顔画像認識装置3は、変換部30と、登録部31と、認識部32とを備える。
【0046】
変換部30は、装着物90の存在が想定される処理対象領域91を予め設定し、装着物90により顔が遮蔽されていない登録用顔画像9Bと認識用顔画像9Cとの処理対象領域91を画像特徴が少ない状態に変換するものである。具体的には、変換部30は、登録用顔画像9Bと認識用顔画像9Cとの処理対象領域91に含まれる画素を同一画素値若しくはランダムな画素値に置き換えるか、又は、登録用顔画像9Bと認識用顔画像9Cとの処理対象領域91を削除する。このようにして、登録用顔画像9Bと認識用顔画像9Cとの処理対象領域91が、画像特徴の少ない状態に変換される。
【0047】
ここで、変換部30は、登録用顔画像9Bと認識用顔画像9Cとを垂直方向に異なる量だけスライドさせ、スライド量が異なる複数パターンの登録用顔画像9Bと認識用顔画像9Cとの処理対象領域91を画像特徴が少ない状態に変換してもよい。
例えば、変換部30には、人物がP人の場合、P枚の登録用顔画像9Bが入力される(但し、PはP≧1を満たす整数)。この場合、変換部30は、図8と同様、P枚の登録用顔画像9Bのそれぞれを、スライド量が異なるMパターンの登録用顔画像9Bに変換する(但し、MはM>Kを満たす整数)。
また、例えば、変換部30は、図8と同様、1枚の認識用顔画像9Cを、スライド量が異なるNパターンの認識用顔画像9Cに変換する(但し、NはN>Kを満たす整数)。
【0048】
さらに、変換部30は、図9と同様、処理対象領域91を変換後の登録用顔画像9Bと認識用顔画像9Cとが所定のアスペクト比となるように伸縮し、所定のアスペクト比に伸縮された登録用顔画像9Bと認識用顔画像9Cとの処理対象領域91を画像特徴が少ない状態に変換してもよい。以後、処理対象領域を変換後の登録用顔画像を「変換登録用顔画像」と表記し、処理対象領域を変換後の認識用顔画像を「変換認識用顔画像」と表記する場合がある。
【0049】
本実施形態では、変換部30は、人物を登録する際に登録用顔画像9Bが入力されるので、この登録用顔画像9Bの処理対象領域91を変換し、変換登録用顔画像9Bを登録部31に出力する。また、変換部30は、人物を認識する際に認識用顔画像9Cが入力されるので、この認識用顔画像9Cの処理対象領域91を変換し、変換認識用顔画像9Cを認識部32に出力する。
以上のように、変換部30は、学習用顔画像9Aの代わりに登録用顔画像9B及び認識用顔画像9Cを扱う以外、変換部20と同様の処理を行うので、これ以上の説明を省略する。
【0050】
登録部31は、変換部30が変換した登録用顔画像9Bを深層学習モデル210に入力することで登録用顔画像9Bの特徴ベクトルを取得し、取得した登録用顔画像9Bの特徴ベクトルを人物毎に登録するものである。
【0051】
本実施形態では、登録部31は、ある人物の登録用顔画像9Bを記憶部4の深層学習モデル210に入力する。すると、登録部31は、記憶部4の深層学習モデル210から登録用顔画像9Bの特徴ベクトルが出力されるので、各人物の識別情報に紐づけて登録用顔画像9Bの特徴ベクトルを記憶部4に書き込む。ここで、識別情報とは、各人物を一意に識別できる情報(例えば、氏名やID)のことである。例えば、顔認識装置1の利用者が、図示を省略したマウスやキーボードを操作して、識別情報を手動で入力する。
【0052】
ここで、登録部31は、パターン毎に生成した深層学習モデル210に変換部30が変換した登録用顔画像を入力することで、人物及びパターン毎に登録用顔画像9Bの特徴ベクトルを取得し、取得した登録用顔画像9Bの特徴ベクトルを人物及びパターン毎に登録してもよい(詳細後記)。
【0053】
認識部32は、変換部30が変換した認識用顔画像9Cを深層学習モデル210に入力することで認識用顔画像9Cの特徴ベクトルを取得し、取得した認識用顔画像9Cの特徴ベクトルと登録部31が登録した人物毎の特徴ベクトルとの比較結果に基づいて、人物を認識するものである。
【0054】
本実施形態では、認識部32は、認識用顔画像9Cを記憶部4の深層学習モデル210に入力する。すると、認識部32は、記憶部4の深層学習モデル210から認識用顔画像9Cの特徴ベクトルが出力される。そして、認識部32は、取得した認識用顔画像9Cの特徴ベクトルと、記憶部4に記憶されている各人物の登録用顔画像9Bの特徴ベクトルとを比較し、認識用顔画像9Cに含まれる顔がどの人物であるかを認識する。例えば、認識部32は、認識用顔画像9Cの特徴ベクトルと、各人物の登録用顔画像9Bの特徴ベクトルとの内積などの一般的な手法で比較できる。この場合、認識部32は、内積が最大値となる特徴ベクトルに紐付けられた識別情報を認識結果として出力する。
【0055】
ここで、認識部32は、パターン毎に生成した深層学習モデルに変換部30が変換した認識用顔画像9Cを入力することでパターン毎に認識用顔画像9Cの特徴ベクトルを取得し、登録用顔画像9Bと認識用顔画像9Cとの特徴ベクトル同士の組み合わせで内積を算出し、算出した内積が最大となる人物を認識結果としてもよい(詳細後記)。
【0056】
記憶部4は、深層学習モデル210及び登録された人物の特徴ベクトルを記憶するメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)などの一般的な記憶装置である。
【0057】
<パターン毎の学習、登録及び認識>
図12を参照し、パターン毎の学習、登録及び認識について説明する。
図12に示すように、変換部20は、1枚の学習用顔画像9Aを、Lパターンの変換学習用顔画像9A,…,9A,…,9Aに変換する。そして、学習部21は、Lパターンの深層学習モデル210を生成する。
また、変換部30は、人物一人あたり、1枚の登録用顔画像9Bを、Mパターンの変換登録用顔画像9B,…,9B,…,9Bに変換する。人物がP人の場合、登録部31は、Lパターンの深層学習モデル210にP×Mパターンの変換登録用顔画像9B,…,9B,…,9Bを入力し、深層学習モデル210から取得したP×L×M個の特徴ベクトルを登録する。
【0058】
さらに、変換部30が、1枚の認識用顔画像9Cを、Nパターンの変換認識用顔画像9C,…,9C,…,9Cに変換する。この場合、認識部32は、Lパターンの深層学習モデル210にNパターンの変換認識用顔画像9C,…,9C,…,9Cを入力し、深層学習モデル210からL×N個の認識用顔画像9Cの特徴ベクトルを取得する。そして、認識部32は、P×L×M個の登録用顔画像9Bの特徴ベクトルと、L×N個の認識用顔画像9Cの特徴ベクトルとの内積を算出する。図12に示すように、特徴ベクトル同士の組み合わせは、P×L×M×L×N通りになる。そして、認識部32は、これらの組み合わせで特徴ベクトル同士の内積を算出し、算出した内積が最大となる人物を認識結果として出力する。
【0059】
なお、登録部31は、計算コストと精度とのバランスを考慮し、P×L×M個の組み合わせを絞り込んで特徴ベクトルを登録してもよい。また、認識部32は、計算コストと精度とのバランスを考慮し、P×L×M×L×N個の組み合わせを絞り込んで特徴ベクトル同士の内積を算出してもよい。
【0060】
<作用・効果>
このように、顔画像認識装置3は、マスクなどの装着物90の存在が想定される処理対象領域91を画像特徴が少ない状態に変換すると共に、深層学習モデル210を用いるので、装着物の有無による画像特徴の差異が少なくなり、装着物90を装着している人物を精度よく認識できる。
【0061】
[顔認識装置の処理]
図13を参照し、顔認識装置1の処理について説明する。
図13に示すように、ステップS1において、変換部20は、処理対象領域91を予め設定し、学習用顔画像9Aの処理対象領域91を画像特徴が少ない状態に変換する。また、変換部30は、処理対象領域91を予め設定し、登録用顔画像9Bと認識用顔画像9Cとの処理対象領域91を画像特徴が少ない状態に変換する。
【0062】
ステップS2において、学習部21は、ステップS1で変換した学習用顔画像9Aを深層学習することで、深層学習モデル210を生成する。例えば、学習部21は、畳み込みニューラルネットワークの一つであるResNeXtを深層学習モデル210として利用する
【0063】
ステップS3において、登録部31は、ステップS1で変換した登録用顔画像9Bを深層学習モデル210に入力することで登録用顔画像9Bの特徴ベクトルを取得し、取得した登録用顔画像9Bの特徴ベクトルを人物毎に登録する。
【0064】
ステップS4において、認識部32は、変換部30が変換した認識用顔画像9Cを深層学習モデル210に入力することで認識用顔画像9Cの特徴ベクトルを取得する。そして、認識部32は、取得した認識用顔画像9Cの特徴ベクトルと登録部31が登録した人物毎の特徴ベクトルとの比較結果に基づいて、人物を認識する。
【0065】
以上、実施形態を詳述してきたが、本発明は前記した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
前記した実施形態では、学習用顔画像、登録用顔画像及び認識用顔画像のアスペクト比が1:1であることとして説明したが、これに限定されない。
【0066】
前記した実施形態では、顔画像学習装置及び顔画像認識装置がそれぞれ変換部を備えることとして説明したが、2つの変換部を一体化してもよい。また、前記した実施形態では、顔画像学習装置及び顔画像認識装置が別々の装置であることとして説明したが、2つの装置を一体化してもよい。また、前記した実施形態では、記憶部が顔画像学習装置及び顔画像認識装置から独立した装置であることとして説明したが、顔画像学習装置又は顔画像認識装置が記憶部を備えてもよい。
【0067】
前記した実施形態では、1人の人物に対して登録用顔画像が1枚であることとして説明したが、1人の人物に対して登録用顔画像が2枚以上あってもよい。この場合、1人の人物に対して登録用顔画像の特徴ベクトルを複数登録し、各特徴ベクトルを用いて認識を行う。
【0068】
前記した実施形態では、畳み込みニューラルネットワークがResNeXtであることとして説明したが、これに限定されない。例えば、LeNet、AlexNet、VGGなどの畳み込みニューラルネットワークを利用できる。
【0069】
前記した実施形態では、顔画像学習装置及び顔画像認識装置が独立したハードウェアであることとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、前記した顔画像学習装置又は顔画像認識装置として機能させるためのプログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、CD-ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。
【符号の説明】
【0070】
1 顔認識装置
2 顔画像学習装置
3 顔画像認識装置
4 記憶部
20 変換部
21 学習部
30 変換部
31 登録部
32 認識部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13