特開2023-58839 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人ＮＨＫエンジニアリングシステムの特許一覧

特開2023-58839顔画像学習装置、顔画像認識装置及びそれらのプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023058839

(43)【公開日】2023-04-26

(54)【発明の名称】顔画像学習装置、顔画像認識装置及びそれらのプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20230419BHJP

【ＦＩ】

G06T7/00 350C

G06T7/00 660A

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2021168595

(22)【出願日】2021-10-14

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(71)【出願人】

【識別番号】591053926

【氏名又は名称】一般財団法人ＮＨＫエンジニアリングシステム

(74)【代理人】

【識別番号】110001807

【氏名又は名称】弁理士法人磯野国際特許商標事務所

(72)【発明者】

【氏名】望月貴裕

(72)【発明者】

【氏名】河合吉彦

(72)【発明者】

【氏名】藤井真人

(72)【発明者】

【氏名】苗村昌秀

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096EA13

5L096EA15

5L096EA16

5L096EA37

5L096FA67

5L096FA69

5L096HA11

5L096JA05

5L096KA04

(57)【要約】

【課題】学習が容易で、装着物を装着している人物を精度よく認識できる顔画像認識装置を提供する。
【解決手段】顔画像認識装置３は、登録用顔画像９Ｂと認識用顔画像９Ｃとの処理対象領域を画像特徴が少ない状態に変換する変換部３０と、登録用顔画像９Ｂを深層学習モデルに入力することで登録用顔画像９Ｂの特徴ベクトルを取得し、取得した登録用顔画像９Ｂの特徴ベクトルを人物毎に登録する登録部３１と、認識用顔画像９Ｃを深層学習モデルに入力することで認識用顔画像９Ｃの特徴ベクトルを取得し、取得した認識用顔画像９Ｃの特徴ベクトルと登録部３１が登録した人物毎の特徴ベクトルとの比較結果に基づいて、人物を認識する認識部３２とを備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

装着物により顔が遮蔽されていない学習用顔画像を用いて、前記装着物により顔の一部が遮蔽されている認識用顔画像から人物を認識するための深層学習モデルを生成する顔画像学習装置であって、
前記装着物の存在が想定される処理対象領域を予め設定し、前記学習用顔画像の処理対象領域を画像特徴が少ない状態に変換する変換部と、
前記変換部が変換した学習用顔画像を深層学習することで、前記深層学習モデルを生成する学習部と、
を備えることを特徴とする顔画像学習装置。

【請求項2】

前記変換部は、前記学習用顔画像の処理対象領域に含まれる画素を同一画素値若しくはランダムな画素値に置き換えるか、又は、前記学習用顔画像の処理対象領域を削除することを特徴とする請求項１に記載の顔画像学習装置。

【請求項3】

前記変換部は、前記処理対象領域を変換後の学習用顔画像が所定のアスペクト比となるように伸縮し、前記所定のアスペクト比に伸縮された学習用顔画像の処理対象領域を画像特徴が少ない状態に変換することを特徴とする請求項１又は請求項２に記載の顔画像学習装置。

【請求項4】

前記変換部は、前記学習用顔画像を垂直方向に異なる量だけスライドさせ、スライド量が異なる複数パターンの前記学習用顔画像の処理対象領域を画像特徴が少ない状態に変換し、
前記学習部は、前記学習用顔画像のパターン毎に前記深層学習モデルを生成することを特徴とする請求項１から請求項３の何れか一項に記載の顔画像学習装置。

【請求項5】

請求項１に記載の顔画像学習装置で生成した深層学習モデルを用いて、装着物により顔の一部が遮蔽されている認識用顔画像から人物を認識する顔画像認識装置であって、
前記装着物の存在が想定される処理対象領域を予め設定し、前記装着物により顔が遮蔽されていない登録用顔画像と前記認識用顔画像との処理対象領域を画像特徴が少ない状態に変換する変換部と、
前記変換部が変換した登録用顔画像を前記深層学習モデルに入力することで前記登録用顔画像の特徴ベクトルを取得し、取得した前記登録用顔画像の特徴ベクトルを前記人物毎に登録する登録部と、
前記変換部が変換した認識用顔画像を前記深層学習モデルに入力することで前記認識用顔画像の特徴ベクトルを取得し、取得した前記認識用顔画像の特徴ベクトルと前記登録部が登録した前記人物毎の特徴ベクトルとの比較結果に基づいて、前記人物を認識することを特徴とする認識部と、
を備えることを特徴とする顔画像認識装置。

【請求項6】

前記変換部は、前記登録用顔画像と前記認識用顔画像との処理対象領域に含まれる画素を同一画素値若しくはランダムな画素値に置き換えるか、又は、前記登録用顔画像と前記認識用顔画像との処理対象領域を削除することを特徴とする請求項５に記載の顔画像認識装置。

【請求項7】

前記変換部は、前記処理対象領域を変換後の登録用顔画像と認識用顔画像とが所定のアスペクト比となるように伸縮し、前記所定のアスペクト比に伸縮された登録用顔画像と認識用顔画像との処理対象領域を画像特徴が少ない状態に変換することを特徴とする請求項５又は請求項６に記載の顔画像認識装置。

【請求項8】

前記変換部は、前記登録用顔画像と前記認識用顔画像とを垂直方向に異なる量だけスライドさせ、スライド量が異なる複数パターンの前記登録用顔画像と前記認識用顔画像との処理対象領域を画像特徴が少ない状態に変換し、
前記登録部は、請求項４に記載のパターン毎に生成した深層学習モデルに前記変換部が変換した登録用顔画像を入力することで、前記人物及び前記パターン毎に前記登録用顔画像の特徴ベクトルを取得し、取得した前記登録用顔画像の特徴ベクトルを前記人物及び前記パターン毎に登録し、
前記認識部は、前記パターン毎に生成した深層学習モデルに前記変換部が変換した認識用顔画像を入力することで前記パターン毎に前記認識用顔画像の特徴ベクトルを取得し、前記登録用顔画像と前記認識用顔画像との特徴ベクトル同士の組み合わせで内積を算出し、算出した前記内積が最大となる人物を認識結果とすることを特徴とする請求項５から請求項７の何れか一項に記載の顔画像認識装置。

【請求項9】

コンピュータを、請求項１から請求項４の何れか一項に記載の顔画像学習装置として機能させるためのプログラム。

【請求項10】

コンピュータを、請求項５から請求項８の何れか一項に記載の顔画像認識装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、顔画像学習装置、顔画像認識装置、及び、それらのプログラムに関する。

【背景技術】

【0002】

コロナ禍の現在、マスクやサングラスなどの装着物で顔の一部が遮蔽されていることは珍しくない。従来の画像認識装置では、入力された顔画像又は登録された顔画像において、顔の一部が装着物によって遮蔽されている場合、顔画像の認識精度が低下してしまう。

【0003】

この問題に対処すべく、従来技術が幾つか提案されている（例えば、特許文献１，２及び非特許文献１）。特許文献１に記載の技術は、顔画像で顔を遮蔽している装着物の有無を判定するものである。装着物がある場合、特許文献１に記載の技術では、その装着物の高さ情報を取得し、高さ情報を基にして三次元顔モデルを作成する。その後、特許文献１に記載の技術では、この三次元顔モデルから遮蔽部分の顔画像を復元し、顔画像認識処理を適用する。

【0004】

特許文献２に記載の技術は、顔画像を複数の小領域に分割し、標準的な顔を表す画像と比較して、サングラスやマスクなどの装着物に関連付けられた領域を判定するものである。そして、特許文献２に記載の技術では、装着物の領域を除外した遮蔽領域を基に顔画像認識を行うことで、その精度低下を抑制する。

【0005】

非特許文献1に記載の技術は、装着物のない顔画像にマスク画像を顔の向きに合わせて合成する手法により、既存の大規模顔画像データベースからマスク装着顔画像のデータベースを生成するものである。非特許文献1に記載の技術によれば、マスク装着顔画像の大規模なデータベースを容易に構築すると共に、このデータベースによりマスク装着時の顔画像を精度よく認識できる。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０１８－１６３４８１号公報

【特許文献2】特開２０２０－３８７３１号公報

【非特許文献】

【0007】

【非特許文献1】Aqeel Anwar, Arijit Raychowdhury, “Masked Face Recognition for Secure Authentication,” arXiv:2008.22204v1, 2020年

【発明の概要】

【発明が解決しようとする課題】

【0008】

しかし、特許文献１に記載の技術では、顔認識時に装着物のない同一人物の顔画像を取得する前提であり、コロナ禍で日常的なマスク装着時では装着物のない顔画像の取得が困難なことから、認識精度が低下してしまう。

【0009】

特許文献２に記載の技術では、遮蔽領域の判定精度を維持できることが前提であり、遮蔽領域の抽出不調により、認識精度の低下を招く可能性がある。また、特許文献２に記載の技術では、遮蔽領域のない顔画像の学習によって得られた特徴量を使用しており、遮蔽領域を除いた顔領域に最適な特徴量となっておらず、認識精度が低下することもある。

【0010】

非特許文献１に記載の技術では、あくまでマスク画像を顔画像に合成した合成画像を使用する前提であり、合成画像の精度及び合成するマスク画像の種類に影響されてしまい、認識精度が低下することがある。さらに、非特許文献１に記載の技術では、マスク画像を合成するので、学習に手間を要するという課題もある。

【0011】

そこで、本発明は、学習が容易で、装着物を装着している人物を精度よく認識できる顔画像学習装置、顔画像認識装置、及び、それらのプログラムを提供することを課題とする。

【課題を解決するための手段】

【0012】

前記課題を解決するため、本発明に係る顔画像学習装置は、装着物により顔が遮蔽されていない学習用顔画像を用いて、装着物により顔の一部が遮蔽されている認識用顔画像から人物を認識するための深層学習モデルを生成する顔画像学習装置であって、変換部と、学習部とを備える構成とした。

【0013】

かかる構成によれば、変換部は、装着物の存在が想定される処理対象領域を予め設定し、学習用顔画像の処理対象領域を画像特徴が少ない状態に変換する。
学習部は、変換部が変換した学習用顔画像を深層学習することで、深層学習モデルを生成する。

【0014】

このように、顔画像学習装置は、マスクなどの装着物の存在が想定される処理対象領域を画像特徴が少ない状態に変換するので、深層学習モデルを生成するために装着物を装着している人物の顔画像を準備する必要がなく、学習が容易である。この深層学習モデルを用いれば、装着物の有無による画像特徴の差異が少なくなり、装着物を装着している人物を精度よく認識できる。

【0015】

また、前記課題を解決するため、本発明に係る顔画像認識装置は、前記顔画像学習装置で生成した深層学習モデルを用いて、装着物により顔の一部が遮蔽されている認識用顔画像から人物を認識する顔画像認識装置であって、変換部と、登録部と、認識部とを備える構成とした。

【0016】

かかる構成によれば、変換部は、装着物の存在が想定される処理対象領域を予め設定し、装着物により顔が遮蔽されていない登録用顔画像と認識用顔画像との処理対象領域を画像特徴が少ない状態に変換する。
登録部は、変換部が変換した登録用顔画像を深層学習モデルに入力することで登録用顔画像の特徴ベクトルを取得し、取得した登録用顔画像の特徴ベクトルを人物毎に登録する。
認識部は、変換部が変換した認識用顔画像を深層学習モデルに入力することで認識用顔画像の特徴ベクトルを取得し、取得した認識用顔画像の特徴ベクトルと登録部に登録されている人物毎の特徴ベクトルとの比較結果に基づいて、人物を認識する。

【0017】

このように、顔画像学習装置は、マスクなどの装着物の存在が想定される処理対象領域を画像特徴が少ない状態に変換するので、装着物の有無による画像特徴の差異が少なくなり、装着物を装着している人物を精度よく認識できる。この深層学習モデルは、装着物を装着している人物の顔画像を準備する必要がなく、学習が容易である。

【0018】

なお、本発明は、コンピュータを前記した顔画像学習装置又は顔画像認識装置として機能させるためのプログラムで実現することもできる。

【発明の効果】

【0019】

本発明によれば、学習が容易で、装着物を装着している人物を精度よく認識することができる。

【図面の簡単な説明】

【0020】

【図1】実施形態に係る顔認識装置の構成を示すブロック図である。

【図2】実施形態において、（ａ）は学習用顔画像の一例を説明する説明図であり、（ｂ）は登録用顔画像の一例を説明する説明図であり、（ｃ）は認識用顔画像の一例を説明する説明図である。

【図3】実施形態において、（ａ）～（ｃ）は学習用顔画像の回転を説明する説明図である。

【図4】実施形態において、（ａ）～（ｃ）は学習用顔画像の正規化を説明する説明図である。

【図5】実施形態において、（ａ）及び（ｂ）は学習用顔画像の補間を説明する説明図である。

【図6】実施形態において、（ａ）及び（ｂ）は処理対象領域の同一画素値での置き換えを説明する説明図である。

【図7】実施形態において、（ａ）は処理対象領域のランダムな画素値での置き換えを説明する説明図であり、（ｂ）は処理対象領域の削除を説明する説明図である。

【図8】実施形態において、（ａ）～（ｄ）は学習用顔画像のスライドを説明する説明図である。

【図9】実施形態において、（ａ）及び（ｂ）は学習用顔画像の伸縮を説明する説明図である。

【図10】実施形態において、小さな処理対象領域の設定を説明する説明図である。

【図11】実施形態において、（ａ）及び（ｂ）は深層学習モデルの一例を説明する説明図である。

【図12】実施形態において、パターン毎の学習、登録及び認識を説明する説明図である。

【図13】実施形態に係る顔認識装置の動作を示すフローチャートである。

【発明を実施するための形態】

【0021】

以下、本発明の実施形態について図面を参照して説明する。但し、以下に説明する各実施形態は、本発明の技術思想を具体化するためのものであって、特定的な記載がない限り、本発明を以下のものに限定しない。また、同一の手段には同一の符号を付し、説明を省略する場合がある。

【0022】

［顔認識装置の概要］
以下、図１を参照し、実施形態に係る顔認識装置１の概要について説明する。
図1に示すように、顔認識装置１は、人物を認識するものであり、顔画像学習装置２と、顔画像認識装置３と、記憶部４とを備える。また、顔認識装置１は、学習用顔画像９Ａと、登録用顔画像９Ｂと、認識用顔画像９Ｃという、３種類の顔画像を入力とする。

【0023】

学習用顔画像９Ａは、後記する深層学習モデルの生成に利用するための顔画像である。例えば、学習用顔画像９Ａは、様々な人物の顔画像で構成されている学習用顔画像データベース（不図示）から取得してもよい。図２（ａ）に示すように、学習用顔画像９Ａは、マスクやサングラスなどの装着物９０により顔が遮蔽されていない顔画像である。

【0024】

登録用顔画像９Ｂは、認識対象となる人物を顔画像認識装置３に登録するための顔画像である。この登録用顔画像９Ｂは、識別対象の人物毎に集められた複数の顔画像で構成されている。図２（ｂ）に示すように、登録用顔画像９Ｂは、装着物９０により顔が遮蔽されていない顔画像である。

【0025】

認識用顔画像９Ｃは、認識対象となる人物の顔画像である。図２（ｃ）に示すように、認識用顔画像９Ｃは、装着物９０により顔が遮蔽されている顔画像である。本実施形態では、装着物９０としてのマスクにより顔の下部領域の一部が遮蔽されていることする。
なお、学習用顔画像９Ａ、登録用顔画像９Ｂ及び認識用顔画像９Ｃは、既知の顔領域検出処理により、顔領域及び両目位置を検出できることとする。

【0026】

まず、顔認識装置１では、学習用顔画像９Ａを用いて、顔画像学習装置２が深層学習モデルを生成する。次に、顔認識装置１では、登録用顔画像９Ｂを用いて、顔画像認識装置３が認識対象となる人物を識別情報に紐づけて登録する。そして、顔認識装置１では、認識用顔画像９Ｃを用いて、顔画像認識装置３が人物を認識する。

【0027】

［顔画像学習装置の構成］
図１を参照し、顔画像学習装置２の構成について、具体的に説明する。
顔画像学習装置２は、装着物９０により顔が遮蔽されていない学習用顔画像９Ａを用いて、装着物９０により顔の一部が遮蔽されている認識用顔画像９Ｃから人物を認識するための深層学習モデルを生成するものである。図１に示すように、顔画像学習装置２は、変換部２０と、学習部２１とを備える。

【0028】

変換部２０は、装着物９０の存在が想定される処理対象領域を予め設定し、学習用顔画像９Ａの処理対象領域を画像特徴が少ない状態に変換するものである。そして、変換部２０は、処理対象領域が変換された学習用顔画像９Ａを学習部２１に出力する。ここで、変換部２０は、高精度な深層学習モデルを生成するため、以下で説明するような前処理を学習用顔画像９Ａに施した後、学習用顔画像９Ａの処理対象領域を変換してもよい。

【0029】

＜学習用顔画像の前処理＞
まず、変換部２０による学習用顔画像９Ａの前処理を説明する。
変換部２０は、図３（ａ）の学習用顔画像９Ａに既知の顔領域検出処理を施し、学習用顔画像９Ａから両目位置を検出する。例えば、顔領域検出処理としては、参考文献１に記載の手法を利用できる。
参考文献１：ＯｐｅｎＣＶ，［online］，［令和３年９月２１日検索］，インターネット＜URL：https://opencv.org/＞

【0030】

変換部２０は、検出された両目位置に基づいて、学習用顔画像９Ａに回転補正を施してもよい。具体的には、変換部２０は、図３（ｂ）に示すように、右目位置Ｅ_Ｒ及び左目位置Ｅ_Ｌを通過する直線Ｆ_ＬＲが水平線Ｆ_Ｈと一致するように、学習用顔画像９Ａを回転させる。図３（ｃ）には、回転補正後の学習用顔画像９Ａを図示した。

【0031】

また、変換部２０は、回転補正後の学習用顔画像９Ａを正規化してもよい。具体的には、変換部２０は、図４（ａ）に示すように、右目位置Ｅ_Ｒと左目位置Ｅ_Ｌとの長さＦ_Ｅが、学習用顔画像９Ａの横幅Ｗに対して一定の比率となるように学習用顔画像９Ａを伸縮する（例えば、長さＦ_Ｅ：横幅Ｗ＝１：２）。さらに、変換部２０は、図４（ｂ）に示すように、両目の中間位置Ｅ_Ｃを学習用顔画像９Ａの中心に一致させると共に、学習用顔画像９Ａを正方形に変形してもよい（アスペクト比１：１）。図４（ｃ）には、正規化後の学習用顔画像９Ａを図示した。

【0032】

図５（ａ）に示すように、学習用顔画像９Ａを切り出す前の元画像９Ｄにおいて、顔領域が端に位置しており、学習用顔画像９Ａで必要な画素領域が欠落する場合がある。なお、図５（ａ）では、説明を分かりやすくするため、元画像９Ｄで欠落する画素領域を破線で図示した。この場合、変換部２０は、欠落する画素領域を一定の画素値で補間してもよい。例えば、変換部２０は、図５（ｂ）に示すように、学習用顔画像９Ａで欠落する画素領域を画素値＝０（黒色）で補間する。
なお、変換部２０は、これらの前処理を必ず学習用顔画像９Ａを実行する必要はなく、必要に応じて実行すればよい。

【0033】

＜処理対象領域の変換＞
続いて、変換部２０による処理対象領域の変換を説明する。
変換部２０は、装着物９０の存在が想定される処理対象領域を学習用顔画像９Ａに予め設定する。ここでは、顔認識装置１の利用者が、図示を省略したマウスやキーボードを操作して、処理対象領域を手動で設定する。図６（ａ）に示すように、装着物９０としてマスクの装着を想定する場合、マスクで遮蔽される顔の下部領域の一部を処理対象領域９１として設定する。なお、装着物９０としてサングラスの装着を想定する場合、サングラスで遮蔽される顔の上部領域の一部を処理対象領域９１として設定すればよい（不図示）。

【0034】

変換部２０は、学習用顔画像９Ａの処理対象領域９１を画像特徴が少ない状態に変換する。具体的には、変換部２０は、学習用顔画像９Ａの処理対象領域９１に含まれる画素を同一画素値若しくはランダムな画素値に置き換えるか、又は、学習用顔画像９Ａの処理対象領域９１を削除する。本実施形態では、変換部２０は、図６（ｂ）に示すように、学習用顔画像９Ａの処理対象領域９１に含まれる画素を画素値＝０（黒色）に置き換えることとする。このように、学習用顔画像９Ａの処理対象領域９１が画像特徴の少ない状態に変換されるので、後記する深層学習では、処理対象領域９１以外の領域で顔の特徴をより効果的に学習することができる。

【0035】

なお、変換部２０は、学習用顔画像９Ａの処理対象領域９１に含まれる各画素の画素値を、疑似乱数で算出したランダムな画素値で置き換えればよい。図７（ａ）には、処理対象領域９１の各画素をランダムな画素値で置き換えた学習用顔画像９Ａを図示した。
また、変換部２０が学習用顔画像９Ａの処理対象領域９１を削除した場合、図７（ｂ）に示すように、学習用顔画像９Ａは、顔の上部領域のみが残る横長の画像となる。

【0036】

ここで、装着物９０を装着する位置のゆらぎや、顔領域検出処理による顔領域や両目位置の不正確さを考慮して、処理対象領域９１から外れる顔領域が異なるように、複数パターンの学習用顔画像９Ａに変換してもよい。つまり、変換部２０は、学習用顔画像９Ａを垂直方向に異なる量だけスライドさせ、スライド量が異なる複数パターンの学習用顔画像９Ａの処理対象領域９１を画像特徴が少ない状態に変換する。

【0037】

例えば、変換部２０は、図８（ａ）の学習用顔画像９Ａをスライドさせずに、図８（ｂ）に示すように、その学習用顔画像９Ａ_１の処理対象領域９１を画素値＝０（黒色）に置き換える。また、変換部２０は、図８（ａ）の学習用顔画像９Ａの両目位置を垂直方向で上側にスライドさせて、図８（ｃ）に示すように、その学習用顔画像９Ａ_Ｋの処理対象領域９１を画素値＝０（黒色）に置き換える（但し、ＫはＫ≧１を満たす整数）。また、変換部２０は、図８（ａ）の学習用顔画像９Ａの両目位置を垂直方向で上側にさらにスライドさせて、図８（ｄ）に示すように、その学習用顔画像９Ａ_Ｌの処理対象領域９１を画素値＝０（黒色）に置き換える（但し、ＬはＬ＞Ｋを満たす整数）。以後、処理対象領域を変換後の学習用顔画像を「変換学習用顔画像」と表記する場合がある。つまり、１枚の学習用顔画像９Ａが、スライド量が異なるＬパターンの変換学習用顔画像９Ａ_１～９Ａ_Ｌに変換される。これら変換学習用顔画像９Ａ_１～９Ａ_Ｌは、処理対象領域９１が同一位置に配置され、処理対象領域９１以外の顔領域が異なる画像である。なお、学習用顔画像９Ａのスライド量及びパターン数Ｌは、任意で設定できる。

【0038】

このように、変換部２０は、正規化された学習用顔画像９Ａを基本として、基本となる学習用顔画像９Ａの両目位置を垂直方向で上側にスライドさせて新たな変換学習用顔画像９Ａ_１～９Ａ_Ｌを生成し、新たな学習用顔画像９Ａ_１～９Ａ_Ｌの処理対象領域９１を変換する。従って、顔画像学習装置２は、その人物らしさを表わす顔領域が多く含まれる変換学習用顔画像９Ａ_１～９Ａ_Ｌで深層学習を行うことができるので、認識精度がさらに向上する。

【0039】

図９（ａ）に示すように、学習用顔画像９Ａを切り出す際に元画像９Ｄの画素領域が不足してしまい、学習用顔画像９Ａが横長になる場合がある。なお、図９（ａ）では、元画像９Ｄで不足する画素領域を破線で図示した。この場合、変換部２０は、処理対象領域９１を変換後の学習用顔画像９Ａが所定のアスペクト比となるように伸縮し、所定のアスペクト比に伸縮された学習用顔画像９Ａの処理対象領域９１を画像特徴が少ない状態に変換すればよい。例えば、変換部２０は、図９（ｂ）に示すように、変換学習用顔画像９Ａが正方形（アスペクト比１：１）となるように学習用顔画像９Ａを伸縮する。

【0040】

なお、処理対象領域９１は、任意の形状及びサイズで設定できる。例えば、図１０に示すように、変換部２０は、図６と比べて、処理対象領域９１を小さなサイズで設定してもよい。この場合、変換部２０は、図８と同様、学習用顔画像９Ａを垂直方向に異なる量だけスライドさせることもできる。

【0041】

図１に戻り、顔画像学習装置２の説明を続ける。
学習部２１は、変換部２０が変換した学習用顔画像９Ａを深層学習することで、深層学習モデルを生成するものである。ここで、学習部２１は、畳み込みニューラルネットワークなどの一般的な深層学習モデルを利用できる。

【0042】

本実施形態では、学習部２１は、図１１（ａ）に示すように、畳み込みニューラルネットワークの一つであるＲｅｓＮｅＸｔを深層学習モデル２１０として利用する。例えば、深層学習モデル２１０は、入力層２１１と、中間層（全結合層）２１２と、出力層２１３とを有する。例えば、出力層２１３が１２８８３次元であり、出力層２１３の直前の全結合層２１２Ａが２０４８次元である。このとき、深層学習モデル２１０では、２０４８次元の中間層２１２の特徴マップを特徴ベクトルとして利用できる。さらに、図１１（ｂ）に示すように、深層学習モデル２１０では、少ない次元数で計算コストを抑制できるため、出力層２１３とその前の全結合層２１２Ａとの間に、全結合層２１２Ａより少ない次元数の全結合層２１４を挿入してもよい。例えば、全結合層２１４が２５６次元であり、全結合層２１４の特徴マップを特徴ベクトルとして利用する。

【0043】

ここで、学習部２１は、写っている人物が予め分かっている学習用顔画像９Ａのパターン毎に深層学習モデル２１０を生成する。つまり、学習部２１は、スライド量が異なるＬパターンの変換学習用顔画像９Ａ_１～９Ａ_Ｌのそれぞれから、Ｌ個の深層学習モデル２１０を生成する。そして、学習部２１は、生成した深層学習モデル２１０を記憶部４に書き込む。

【0044】

＜作用・効果＞
このように、顔画像学習装置２は、マスクなどの装着物９０の存在が想定される処理対象領域９１を画像特徴が少ない状態に変換するので、深層学習モデル２１０を生成するために、装着物９０を装着している人物の顔画像を準備する必要がなく、学習が容易である。この深層学習モデル２１０を用いれば、装着物９０の有無による画像特徴の差異が少なくなり、装着物９０を装着している人物を精度よく認識できる。

【0045】

［顔画像認識装置の構成］
図１に戻り、顔画像認識装置３の構成について、具体的に説明する。
顔画像認識装置３は、顔画像学習装置２で生成した深層学習モデル２１０を用いて、装着物９０により顔の一部が遮蔽されている認識用顔画像９Ｃから人物を認識するものである。図１に示すように、顔画像認識装置３は、変換部３０と、登録部３１と、認識部３２とを備える。

【0046】

変換部３０は、装着物９０の存在が想定される処理対象領域９１を予め設定し、装着物９０により顔が遮蔽されていない登録用顔画像９Ｂと認識用顔画像９Ｃとの処理対象領域９１を画像特徴が少ない状態に変換するものである。具体的には、変換部３０は、登録用顔画像９Ｂと認識用顔画像９Ｃとの処理対象領域９１に含まれる画素を同一画素値若しくはランダムな画素値に置き換えるか、又は、登録用顔画像９Ｂと認識用顔画像９Ｃとの処理対象領域９１を削除する。このようにして、登録用顔画像９Ｂと認識用顔画像９Ｃとの処理対象領域９１が、画像特徴の少ない状態に変換される。

【0047】

ここで、変換部３０は、登録用顔画像９Ｂと認識用顔画像９Ｃとを垂直方向に異なる量だけスライドさせ、スライド量が異なる複数パターンの登録用顔画像９Ｂと認識用顔画像９Ｃとの処理対象領域９１を画像特徴が少ない状態に変換してもよい。
例えば、変換部３０には、人物がＰ人の場合、Ｐ枚の登録用顔画像９Ｂが入力される（但し、ＰはＰ≧１を満たす整数）。この場合、変換部３０は、図８と同様、Ｐ枚の登録用顔画像９Ｂのそれぞれを、スライド量が異なるＭパターンの登録用顔画像９Ｂに変換する（但し、ＭはＭ＞Ｋを満たす整数）。
また、例えば、変換部３０は、図８と同様、１枚の認識用顔画像９Ｃを、スライド量が異なるＮパターンの認識用顔画像９Ｃに変換する（但し、ＮはＮ＞Ｋを満たす整数）。

【0048】

さらに、変換部３０は、図９と同様、処理対象領域９１を変換後の登録用顔画像９Ｂと認識用顔画像９Ｃとが所定のアスペクト比となるように伸縮し、所定のアスペクト比に伸縮された登録用顔画像９Ｂと認識用顔画像９Ｃとの処理対象領域９１を画像特徴が少ない状態に変換してもよい。以後、処理対象領域を変換後の登録用顔画像を「変換登録用顔画像」と表記し、処理対象領域を変換後の認識用顔画像を「変換認識用顔画像」と表記する場合がある。

【0049】

本実施形態では、変換部３０は、人物を登録する際に登録用顔画像９Ｂが入力されるので、この登録用顔画像９Ｂの処理対象領域９１を変換し、変換登録用顔画像９Ｂを登録部３１に出力する。また、変換部３０は、人物を認識する際に認識用顔画像９Ｃが入力されるので、この認識用顔画像９Ｃの処理対象領域９１を変換し、変換認識用顔画像９Ｃを認識部３２に出力する。
以上のように、変換部３０は、学習用顔画像９Ａの代わりに登録用顔画像９Ｂ及び認識用顔画像９Ｃを扱う以外、変換部２０と同様の処理を行うので、これ以上の説明を省略する。

【0050】

登録部３１は、変換部３０が変換した登録用顔画像９Ｂを深層学習モデル２１０に入力することで登録用顔画像９Ｂの特徴ベクトルを取得し、取得した登録用顔画像９Ｂの特徴ベクトルを人物毎に登録するものである。

【0051】

本実施形態では、登録部３１は、ある人物の登録用顔画像９Ｂを記憶部４の深層学習モデル２１０に入力する。すると、登録部３１は、記憶部４の深層学習モデル２１０から登録用顔画像９Ｂの特徴ベクトルが出力されるので、各人物の識別情報に紐づけて登録用顔画像９Ｂの特徴ベクトルを記憶部４に書き込む。ここで、識別情報とは、各人物を一意に識別できる情報（例えば、氏名やＩＤ）のことである。例えば、顔認識装置１の利用者が、図示を省略したマウスやキーボードを操作して、識別情報を手動で入力する。

【0052】

ここで、登録部３１は、パターン毎に生成した深層学習モデル２１０に変換部３０が変換した登録用顔画像を入力することで、人物及びパターン毎に登録用顔画像９Ｂの特徴ベクトルを取得し、取得した登録用顔画像９Ｂの特徴ベクトルを人物及びパターン毎に登録してもよい（詳細後記）。

【0053】

認識部３２は、変換部３０が変換した認識用顔画像９Ｃを深層学習モデル２１０に入力することで認識用顔画像９Ｃの特徴ベクトルを取得し、取得した認識用顔画像９Ｃの特徴ベクトルと登録部３１が登録した人物毎の特徴ベクトルとの比較結果に基づいて、人物を認識するものである。

【0054】

本実施形態では、認識部３２は、認識用顔画像９Ｃを記憶部４の深層学習モデル２１０に入力する。すると、認識部３２は、記憶部４の深層学習モデル２１０から認識用顔画像９Ｃの特徴ベクトルが出力される。そして、認識部３２は、取得した認識用顔画像９Ｃの特徴ベクトルと、記憶部４に記憶されている各人物の登録用顔画像９Ｂの特徴ベクトルとを比較し、認識用顔画像９Ｃに含まれる顔がどの人物であるかを認識する。例えば、認識部３２は、認識用顔画像９Ｃの特徴ベクトルと、各人物の登録用顔画像９Ｂの特徴ベクトルとの内積などの一般的な手法で比較できる。この場合、認識部３２は、内積が最大値となる特徴ベクトルに紐付けられた識別情報を認識結果として出力する。

【0055】

ここで、認識部３２は、パターン毎に生成した深層学習モデルに変換部３０が変換した認識用顔画像９Ｃを入力することでパターン毎に認識用顔画像９Ｃの特徴ベクトルを取得し、登録用顔画像９Ｂと認識用顔画像９Ｃとの特徴ベクトル同士の組み合わせで内積を算出し、算出した内積が最大となる人物を認識結果としてもよい（詳細後記）。

【0056】

記憶部４は、深層学習モデル２１０及び登録された人物の特徴ベクトルを記憶するメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）などの一般的な記憶装置である。

【0057】

＜パターン毎の学習、登録及び認識＞
図１２を参照し、パターン毎の学習、登録及び認識について説明する。
図１２に示すように、変換部２０は、１枚の学習用顔画像９Ａを、Ｌパターンの変換学習用顔画像９Ａ_１，…，９Ａ_Ｋ，…，９Ａ_Ｌに変換する。そして、学習部２１は、Ｌパターンの深層学習モデル２１０を生成する。
また、変換部３０は、人物一人あたり、１枚の登録用顔画像９Ｂを、Ｍパターンの変換登録用顔画像９Ｂ_１，…，９Ｂ_Ｋ，…，９Ｂ_Ｍに変換する。人物がＰ人の場合、登録部３１は、Ｌパターンの深層学習モデル２１０にＰ×Ｍパターンの変換登録用顔画像９Ｂ_１，…，９Ｂ_Ｋ，…，９Ｂ_Ｍを入力し、深層学習モデル２１０から取得したＰ×Ｌ×Ｍ個の特徴ベクトルを登録する。

【0058】

さらに、変換部３０が、１枚の認識用顔画像９Ｃを、Ｎパターンの変換認識用顔画像９Ｃ_１，…，９Ｃ_Ｋ，…，９Ｃ_Ｎに変換する。この場合、認識部３２は、Ｌパターンの深層学習モデル２１０にＮパターンの変換認識用顔画像９Ｃ_１，…，９Ｃ_Ｋ，…，９Ｃ_Ｎを入力し、深層学習モデル２１０からＬ×Ｎ個の認識用顔画像９Ｃの特徴ベクトルを取得する。そして、認識部３２は、Ｐ×Ｌ×Ｍ個の登録用顔画像９Ｂの特徴ベクトルと、Ｌ×Ｎ個の認識用顔画像９Ｃの特徴ベクトルとの内積を算出する。図１２に示すように、特徴ベクトル同士の組み合わせは、Ｐ×Ｌ×Ｍ×Ｌ×Ｎ通りになる。そして、認識部３２は、これらの組み合わせで特徴ベクトル同士の内積を算出し、算出した内積が最大となる人物を認識結果として出力する。

【0059】

なお、登録部３１は、計算コストと精度とのバランスを考慮し、Ｐ×Ｌ×Ｍ個の組み合わせを絞り込んで特徴ベクトルを登録してもよい。また、認識部３２は、計算コストと精度とのバランスを考慮し、Ｐ×Ｌ×Ｍ×Ｌ×Ｎ個の組み合わせを絞り込んで特徴ベクトル同士の内積を算出してもよい。

【0060】

＜作用・効果＞
このように、顔画像認識装置３は、マスクなどの装着物９０の存在が想定される処理対象領域９１を画像特徴が少ない状態に変換すると共に、深層学習モデル２１０を用いるので、装着物の有無による画像特徴の差異が少なくなり、装着物９０を装着している人物を精度よく認識できる。

【0061】

［顔認識装置の処理］
図１３を参照し、顔認識装置１の処理について説明する。
図１３に示すように、ステップＳ１において、変換部２０は、処理対象領域９１を予め設定し、学習用顔画像９Ａの処理対象領域９１を画像特徴が少ない状態に変換する。また、変換部３０は、処理対象領域９１を予め設定し、登録用顔画像９Ｂと認識用顔画像９Ｃとの処理対象領域９１を画像特徴が少ない状態に変換する。

【0062】

ステップＳ２において、学習部２１は、ステップＳ１で変換した学習用顔画像９Ａを深層学習することで、深層学習モデル２１０を生成する。例えば、学習部２１は、畳み込みニューラルネットワークの一つであるＲｅｓＮｅＸｔを深層学習モデル２１０として利用する

【0063】

ステップＳ３において、登録部３１は、ステップＳ１で変換した登録用顔画像９Ｂを深層学習モデル２１０に入力することで登録用顔画像９Ｂの特徴ベクトルを取得し、取得した登録用顔画像９Ｂの特徴ベクトルを人物毎に登録する。

【0064】

ステップＳ４において、認識部３２は、変換部３０が変換した認識用顔画像９Ｃを深層学習モデル２１０に入力することで認識用顔画像９Ｃの特徴ベクトルを取得する。そして、認識部３２は、取得した認識用顔画像９Ｃの特徴ベクトルと登録部３１が登録した人物毎の特徴ベクトルとの比較結果に基づいて、人物を認識する。

【0065】

以上、実施形態を詳述してきたが、本発明は前記した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
前記した実施形態では、学習用顔画像、登録用顔画像及び認識用顔画像のアスペクト比が１：１であることとして説明したが、これに限定されない。

【0066】

前記した実施形態では、顔画像学習装置及び顔画像認識装置がそれぞれ変換部を備えることとして説明したが、２つの変換部を一体化してもよい。また、前記した実施形態では、顔画像学習装置及び顔画像認識装置が別々の装置であることとして説明したが、２つの装置を一体化してもよい。また、前記した実施形態では、記憶部が顔画像学習装置及び顔画像認識装置から独立した装置であることとして説明したが、顔画像学習装置又は顔画像認識装置が記憶部を備えてもよい。

【0067】

前記した実施形態では、１人の人物に対して登録用顔画像が１枚であることとして説明したが、１人の人物に対して登録用顔画像が２枚以上あってもよい。この場合、１人の人物に対して登録用顔画像の特徴ベクトルを複数登録し、各特徴ベクトルを用いて認識を行う。

【0068】

前記した実施形態では、畳み込みニューラルネットワークがＲｅｓＮｅＸｔであることとして説明したが、これに限定されない。例えば、ＬｅＮｅｔ、ＡｌｅｘＮｅｔ、ＶＧＧなどの畳み込みニューラルネットワークを利用できる。

【0069】

前記した実施形態では、顔画像学習装置及び顔画像認識装置が独立したハードウェアであることとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるＣＰＵ、メモリ、ハードディスク等のハードウェア資源を、前記した顔画像学習装置又は顔画像認識装置として機能させるためのプログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、ＣＤ－ＲＯＭやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。

【符号の説明】

【0070】

１顔認識装置
２顔画像学習装置
３顔画像認識装置
４記憶部
２０変換部
２１学習部
３０変換部
３１登録部
３２認識部

【図1】