(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024067313
(43)【公開日】2024-05-17
(54)【発明の名称】画像識別装置およびプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240510BHJP
G06V 10/70 20220101ALI20240510BHJP
【FI】
G06T7/00 350B
G06V10/70
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022177285
(22)【出願日】2022-11-04
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100141139
【弁理士】
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【弁理士】
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【弁理士】
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【弁理士】
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】河合 吉彦
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096CA01
5L096DA02
5L096HA11
5L096KA04
(57)【要約】
【課題】被覆の有無(マスク等着用画像とマスク等未着用画像)を区別しながらより適切に扱い、識別精度を向上させることのできる画像識別装置を提供する。
【解決手段】画像識別装置は、特徴抽出部と人物ラベル推定部と被覆有無推定部とを備える。特徴抽出部は、入力される画像に基づいて画像の特徴を抽出して出力する。人物ラベル推定部は、特徴抽出部が抽出した特徴に基づいて人物に対応したラベルごとのスコアを算出する。被覆有無推定部は、特徴抽出部が抽出した特徴に基づいて、画像内に、人物の顔の一部を覆い隠す被覆が含まれるか否かを表す情報を出力する。特徴抽出部と人物ラベル推定部と被覆有無推定部とは、学習用画像と、学習用画像についての正解の人物に対応したラベルの情報と、学習用画像が人物の顔の一部を覆い隠す被覆が含まれるか否かを表す正解の情報との組として与えられる学習用データに基づいて機械学習を行う。
【選択図】
図1
【特許請求の範囲】
【請求項1】
入力される画像に基づいて前記画像の特徴を抽出して出力する特徴抽出部と、
前記特徴抽出部が抽出した前記特徴に基づいて人物に対応したラベルごとのスコアを算出する人物ラベル推定部と、
前記特徴抽出部が抽出した前記特徴に基づいて、前記画像内に、前記人物の顔の一部を覆い隠す被覆が含まれるか否かを表す情報を出力する被覆有無推定部と、
を備え、
前記特徴抽出部と、前記人物ラベル推定部と、前記被覆有無推定部とは、学習用画像と、前記学習用画像についての正解の人物に対応したラベルの情報と、前記学習用画像が人物の顔の一部を覆い隠す被覆が含まれるか否かを表す正解の情報との組として与えられる学習用データに基づいて機械学習を行うことが可能なように構成された、
画像識別装置。
【請求項2】
前記学習用画像を前記特徴抽出部に入力した際に、前記人物ラベル推定部が算出した前記ラベルごとのスコアと、前記被覆有無推定部が推定した前記被覆が含まれるか否かを表す情報と、前記正解の人物に対応したラベルの情報と、前記被覆が含まれるか否かを表す正解の情報と、に基づいて損失を算出する損失算出部、
をさらに備え、
前記特徴抽出部と、前記人物ラベル推定部と、前記被覆有無推定部とは、算出された前記損失に基づいてそれぞれの内部の機械学習を行うように構成される、
請求項1に記載の画像識別装置。
【請求項3】
前記特徴抽出部と、前記人物ラベル推定部と、前記被覆有無推定部と、のそれぞれはニューラルネットワークを用いて構成され、
前記特徴抽出部と、前記人物ラベル推定部と、前記被覆有無推定部とは、前記損失に基づいてそれぞれのニューラルネットワークの内部の重みパラメーターを更新する、
請求項2に記載の画像識別装置。
【請求項4】
前記被覆は、前記画像内の人物の口の部分を少なくとも覆い隠すマスクである、
請求項1から3までのいずれか一項に記載の画像識別装置。
【請求項5】
入力される画像に基づいて前記画像の特徴を抽出して出力する特徴抽出部と、
前記特徴抽出部が抽出した前記特徴に基づいて人物に対応したラベルごとのスコアを算出する人物ラベル推定部と、
前記特徴抽出部が抽出した前記特徴に基づいて、前記画像内に、前記人物の顔の一部を覆い隠す被覆が含まれるか否かを表す情報を出力する被覆有無推定部と、
を備え、
前記特徴抽出部と、前記人物ラベル推定部と、前記被覆有無推定部とは、学習用画像と、前記学習用画像についての正解の人物に対応したラベルの情報と、前記学習用画像が人物の顔の一部を覆い隠す被覆が含まれるか否かを表す正解の情報との組として与えられる学習用データに基づいて機械学習を行うことが可能なように構成される、
画像識別装置、としてコンピューターを機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像識別装置およびプログラムに関する。
【背景技術】
【0002】
機械学習の手法を用いることによって顔画像に含まれる人物を識別する技術が用いられている。従来の技術では、人物の識別情報(ID、ラベル)が付与された顔画像を学習データとして用いて機械学習を行っている。
【0003】
特許文献1には、入力データがどのクラスに属するかを、設定された2以上のクラスを包含するクラスを含む複数のクラスの何れにデータが属するかを識別する識別器に基づいて、識別するという識別手段が記載されている。また、特許文献1には、前記識別手段がニューラルネットワークを用いて識別を行い得ることが記載されている。また、特許文献1には、入力データとして人間の顔が写る画像データを取得し、その入力データが2以上の人物個人を示すクラスを包含するクラスを含む複数のクラスの何れにデータが属するかを識別する識別器が記載されている。さらに、特許文献1には、設定されたクラスに属する学習データに基づいて、識別器のパラメーターを調整する調整手段、を有する調整装置が記載されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
近年では、感染症対策等のためにマスクを着用している人物が増えている。また、感染症対策の目的に限らず、帽子やサングラスなど顔の一部分を覆い隠す物を着用している人物もいる。従来技術では、こういったマスク等(被覆)を着用している人物をも識別するためには、マスク等を着用している顔画像とマスク等未着用の顔画像との両方を学習データとして含めて学習を行う方法が考えられる。
【0006】
しかしながら、従来技術では、マスク等着用画像とマスク等未着用画像を区別なく扱っており、そのことが識別精度低下の一因となっている可能性があると考え得る。
【0007】
本発明は、上記の課題認識に基づいて行なわれたものであり、マスク等着用画像とマスク等未着用画像とを区別しながらより適切に扱い、識別精度を向上させることのできる画像識別装置およびプログラムを提供しようとするものである。
【課題を解決するための手段】
【0008】
[1]上記の課題を解決するため、本発明の一態様による画像識別装置は、入力される画像に基づいて前記画像の特徴を抽出して出力する特徴抽出部と、前記特徴抽出部が抽出した前記特徴に基づいて人物に対応したラベルごとのスコアを算出する人物ラベル推定部と、前記特徴抽出部が抽出した前記特徴に基づいて、前記画像内に、前記人物の顔の一部を覆い隠す被覆が含まれるか否かを表す情報を出力する被覆有無推定部と、を備え、前記特徴抽出部と、前記人物ラベル推定部と、前記被覆有無推定部とは、学習用画像と、前記学習用画像についての正解の人物に対応したラベルの情報と、前記学習用画像が人物の顔の一部を覆い隠す被覆が含まれるか否かを表す正解の情報との組として与えられる学習用データに基づいて機械学習を行うことが可能なように構成されたものである。
【0009】
[2]また、本発明の一態様は、上記[1]の画像識別装置において、前記学習用画像を前記特徴抽出部に入力した際に、前記人物ラベル推定部が算出した前記ラベルごとのスコアと、前記被覆有無推定部が推定した前記被覆が含まれるか否かを表す情報と、前記正解の人物に対応したラベルの情報と、前記被覆が含まれるか否かを表す正解の情報と、に基づいて損失を算出する損失算出部、をさらに備え、前記特徴抽出部と、前記人物ラベル推定部と、前記被覆有無推定部とは、算出された前記損失に基づいてそれぞれの内部の機械学習を行うように構成されるものである。
【0010】
[3]また、本発明の一態様は、上記[2]の画像識別装置において、前記特徴抽出部と、前記人物ラベル推定部と、前記被覆有無推定部と、のそれぞれはニューラルネットワークを用いて構成され、前記特徴抽出部と、前記人物ラベル推定部と、前記被覆有無推定部とは、前記損失に基づいてそれぞれのニューラルネットワークの内部の重みパラメーターを更新するというものである。
【0011】
[4]また、本発明の一態様は、上記[1]から[3]までのいずれかの画像識別装置において、前記被覆は、前記画像内の人物の口の部分を少なくとも覆い隠すマスクである、というものである。
【0012】
[5]また、本発明の一態様は、入力される画像に基づいて前記画像の特徴を抽出して出力する特徴抽出部と、前記特徴抽出部が抽出した前記特徴に基づいて人物に対応したラベルごとのスコアを算出する人物ラベル推定部と、前記特徴抽出部が抽出した前記特徴に基づいて、前記画像内に、前記人物の顔の一部を覆い隠す被覆が含まれるか否かを表す情報を出力する被覆有無推定部と、を備え、前記特徴抽出部と、前記人物ラベル推定部と、前記被覆有無推定部とは、学習用画像と、前記学習用画像についての正解の人物に対応したラベルの情報と、前記学習用画像が人物の顔の一部を覆い隠す被覆が含まれるか否かを表す正解の情報との組として与えられる学習用データに基づいて機械学習を行うことが可能なように構成される、画像識別装置、としてコンピューターを機能させるプログラムである。
【発明の効果】
【0013】
本発明によれば、人物ラベルの正解だけではなく被覆の有無に関する正解にも基づいて、特徴抽出部等の学習を行える。これにより、人物ラベル推定の精度が向上する。
【図面の簡単な説明】
【0014】
【
図1】本発明の実施形態による画像識別装置の概略機能構成を示すブロック図である。
【
図2】同実施形態による画像識別装置の主要部のより具体的な構成の例を示す概略図である。
【
図3】同実施形態による画像識別装置1の内部構成の例を示すブロック図である。
【発明を実施するための形態】
【0015】
次に、本発明の一実施形態について、図面を参照しながら説明する。
【0016】
本実施形態が基礎とする技術(従来手法)では、画像に含まれる人物を識別するために、ニューラルネットワークの学習を行う。ニューラルネットワークを用いた識別器の学習には、人物の識別情報(ラベルあるいはIDなどと呼ばれる)が付与された顔画像を学習データとして用いる。ネットワークの基本構造としては、既存のAlexNetやResNet、InceptionNet、EfficientNetなどが利用できる。識別器の全体構造としては、そういったネットワークの後段に全結合層を接続した形態となる。全結合層の次元数は、学習データに含まれる人物ラベルの種類数である。一例として合計1万人分の顔画像を学習データとして用いる場合には、全結合層からの出力1万次元のベクトルである。学習時には、この全結合層からの出力と正解ラベルとのクロスエントロピーを損失関数として、確率的勾配降下法などによって損失を最小化するように、ニューラルネットワークの内部パラメーターの値を調整する。上記のクロスエントロピーc(y,t)の算出式は、下の式(1)の通りである。
【0017】
【0018】
ここで、kは全結合層の次元数である。tiは正解ラベル(k次元のベクトル)の第i番目(0≦i≦k-1)の要素であり、yiは上記の全結合層からの出力(k次元のベクトル)の第i番目(0≦i≦k-1)の要素である。
【0019】
この手法を用いて人物を識別する際には、学習済みのニューラルネットワークの出力(学習時の全結合層への入力に相当)を特徴ベクトルとして利用する。識別対象の顔画像をニューラルネットワークに入力し、その出力を当該画像の特徴ベクトル(当該画像に含まれる人の特徴ベクトル)とする。次に、あらかじめ算出しておいた人物名が既知の特徴ベクトルとの距離を計測する。距離としては、例えば、ユークリッド距離あるいは余弦距離などを使用することができる。最後に、距離が最小となった人物ラベル(そのラベルに対応する人物名)を識別結果とする。このようにすることで、学習データに含まれていなかった人物も識別することができる。なお、学習時と識別時の人物の集合が同一の場合には、全結合層の出力をそのまま利用することもできる。
【0020】
本実施形態では、上記の基礎の手法に加えて、人物ラベルを出力する全結合層とは別に、被覆の有無(例えば、マスクを着用しているか否か)を出力する2次元の全結合層をニューラルネットワークに接続する。そして、これら2つの全結合層の両方からの出力の損失を最小化するようにニューラルネットワーク等の機械学習手段の学習を行うことによって、人物の識別精度の向上を図る。
【0021】
図1は、本実施形態による画像識別装置の概略機能構成を示すブロック図である。図示するように、画像識別装置1は、画像入力部11と、特徴抽出部12と、人物ラベル推定部13と、被覆有無推定部14と、損失算出部15とを含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。
【0022】
ここで、被覆とは、人物の一部を覆い隠すものである。本実施形態では、被覆は、特に、頭部(顔を含む)の一部を覆い隠すものである。被覆は、例えば、感染症防止用等のマスク(口や鼻を覆う)や、サングラスや、帽子等であってよいが、それらに限定されるものではない。マスクやサングラスや帽子等は、それらを着用した人物の移った画像において、人物が本来持つ外見的な特徴を隠す。つまり、それらは、人物の特徴の情報の一部を消す作用を有する。
【0023】
図1に示す構成の特徴は、画像識別装置1内に被覆有無推定部14を設けた点である。被覆有無推定部14は、特徴抽出部12からの出力に基づいて、被覆の有無(例えば、人物がマスクを着用しているか否か)を推定する。画像識別装置1の学習時には、人物ラベル推定部13が推定する人物ラベルの情報と正解の人物ラベルの情報との差だけではなく、被覆有無推定部14が推定する被覆の有無の情報と被覆の有無についての正解の情報との差を用いる。つまり、損失算出部15は、人物のラベルのみに関する損失ではなく、人物のラベルと被覆の有無との両方に関する損失を算出する。そして、画像識別装置1は、人物ラベル推定部13と被覆有無推定部14との両方の学習を同時に行う。これにより、画像識別装置1は、人物識別の精度を向上させる。
【0024】
以下では、画像識別装置1を構成する各部の機能をさらに詳細に説明する。
【0025】
画像入力部11は、処理対象の画像を取り込み、その画像を特徴抽出部12に渡す。処理対象の画像は、例えば、所定の色空間(RGB等)で表わされたカラーの静止画像である。画像は、縦方向および横方向に配列された多数の画素から成る。各々の画素は画素値を持つ。ここでの処理対象の画像(入力画像)は、高さh[画素]×幅w[画素]×チャンネル数cの形態の画像であってよい。チャンネルは、一例として、R(赤)、G(緑)、B(青)の3原色に対応した3つのチャンネルであってよい。画像入力部11によって供給される処理対象の画像は、人の顔が写された画像である。なお、顔(頭部)の一部が例えば感染症防止用のマスク等で被覆されていてもよい。
【0026】
特徴抽出部12は、画像入力部11から渡される画像の特徴を抽出し、その特徴を人物ラベル推定部13および被覆有無推定部14に渡す。特徴抽出部12は、機械学習の手法を用いて顔画像に関する特徴を抽出するように構成されている。特徴抽出部12は、例えばニューラルネットワークを用いて構成することができる。特徴抽出部12で用いられるニューラルネットワークは、上記の入力画像を入力して、長さnの(即ち、n次元の(nは正整数))特徴ベクトルを出力するものであれば、その具体的な形態には制約はない。特徴抽出部12は、例えば、下の参考文献1、2、および3に示すような既存技術によるAlexNet、ResNet、EfficientNet等のネットワーク構造を有するニューラルネットワークを用いることができる。
【0027】
[参考文献1] A. Krizhevsky, el. Al.,”ImageNet classification with deep convolutional neural networks”,Comm. of ACM,2017.
[参考文献2] K. He, el. Al.,“Deep residual learning for image recognition” ,CVPR,pp.770-778,2016.
[参考文献3] T. Mingxing and Q. V. Le,“EfficientNet: Rethinking model scaling for convolutional neural networks”,ICML,2019
【0028】
人物ラベル推定部13は、特徴抽出部12から渡される特徴に基づいて、入力画像に含まれる人物が誰であるかを推定する。言い換えれば、人物ラベル推定部13は、入力画像に含まれる人物に対応する人物ラベルを推定する。学習データにm人分(mは正整数)の顔画像を含まれている場合、人物ラベル推定部13は、特徴抽出部12から渡されるn次元の特徴ベクトルを基に、m次元のベクトルを算出する。人物ラベル推定部13が算出するm次元のベクトルの各要素は、各人物らしさを表すスコアの値である。つまり、人物ラベル推定部13は、特徴抽出部12が抽出した特徴に基づいて、人物に対応したラベルごとのスコアを算出する。人物ラベル推定部13は、全結合層のネットワークを用いて構成され得る。
【0029】
人物ラベル推定部13は、推定結果を出力することができる。人物ラベル推定部13は、上記のm次元のベクトルを外部に出力してもよいし、そのm次元のベクトルを基に特定される人物ラベルそのもの(単数のラベル、あるいは複数の候補のラベル)を外部に出力してもよい。
【0030】
被覆有無推定部14は、特徴抽出部12から渡される特徴に基づいて、入力画像に含まれる人物に関して被覆の有無を推定する。ここで被覆とは、人間の顔の一部あるいは頭部の一部を覆い隠すものである。被覆は、例えば、感染症防止用等のマスク(口や鼻を覆う)や、サングラスや、帽子等であってよいが、ここに例示したものには限定されない。つまり、被覆は、一例として、入力される画像内の人物の口の部分を少なくとも覆い隠すマスクであってよい。
【0031】
被覆有無推定部14は、特徴抽出部12から渡されるn次元の特徴ベクトルを基に、2次元のベクトルを算出する。被覆有無推定部14が算出する2次元のベクトルの各要素は、被覆あり(マスク等着用)および被覆なし(マスク等未着用)のそれぞれのスコアの値である。つまり、被覆有無推定部14は、特徴抽出部12が抽出した特徴に基づいて、識別対象の画像内に、人物の顔の一部を覆い隠す被覆が含まれるか否かを表す情報を出力する。被覆有無推定部14は、全結合層のネットワークを用いて構成され得る。
【0032】
特徴抽出部12と、人物ラベル推定部13と、被覆有無推定部14とは、それらの学習を行うために動作する場合もあるし、入力される未知の画像の移る人物のラベルを推定したり被覆の有無を推定したりするために動作する場合もある。学習を行う場合には、次に説明する損失算出部15が算出する損失を用いる。
【0033】
損失算出部15は、人物ラベル推定部13および被覆有無推定部14のそれぞれの学習を行うための損失を算出する。
【0034】
つまり、損失算出部15は、人物ラベル推定部13から出力されるm次元ベクトルと人物識別に関する正解ラベルとから、下の式(2)による損失cp(yp,tp)を算出する。
【0035】
【0036】
ここで、ypは、人物ラベル推定部13から出力されるm次元ベクトルである。
yp
iは、ypの第i番目(0≦i≦m-1)の要素である。なお、0≦yp
i≦1となるようにypを適宜正規化してもよい。
また、tpは、人物ラベルの正解を表すm次元ベクトルである。
tp
iは、tpの第i番目(0≦i≦m-1)の要素である。
正解を表すベクトルtpにおいて、正解に対応する要素の値のみが1であり、その他の要素の値を0とする。
【0037】
また、損失算出部15は、被覆有無推定部14から出力される2次元ベクトルと被覆の有無に関する正解ラベルとから、下の式(3)による損失cs(ys,ts)を算出する。
【0038】
【0039】
ここで、ysは、被覆有無推定部14から出力される2次元ベクトルである。ys
iは、ysの第i番目(i=0,1)の要素である。なお、0≦ys
i≦1となるようにysを適宜正規化してもよい。また、tsは、被覆の有無に関する正解を表す2次元ベクトルである。ts
iは、tsの第i番目(i=0,1)の要素である。被覆有無の正解を表すベクトルtsにおいて、正解に対応する要素の値が1であり、他方の(即ち、不正解の)要素の値を0とする。
【0040】
また、損失算出部15は、下の式(4)によって総合損失lossを算出する。
【0041】
【0042】
ここで、αは、人物ラベル推定部13と被覆有無推定部14との出力をどのようなバランスで重視するかを表すパラメーターである。αを0とした場合には、被覆の有無を考慮せずに学習を行うこと(即ち、従来技術と同様)となる。画像識別装置1の学習を行う場合には、上記の総合損失lossを最小化するように、例えば確率的勾配降下法などを用いてネットワーク全体(特徴抽出部12、人物ラベル推定部13、および被覆有無推定部14)に含まれるノードにおける重み(パラメーター値)を調整する。ニューラルネットワークの内部のパラメーターを調整する手法自体は既存技術に属する。なお、学習の際には、予め準備した学習用データが適切に供給されるようにする。
【0043】
つまり、特徴抽出部12と、人物ラベル推定部13と、被覆有無推定部14とは、学習用画像と、前記学習用画像についての正解の人物に対応したラベルの情報と、前記学習用画像が人物の顔の一部を覆い隠す被覆が含まれるか否かを表す正解の情報との組として与えられる学習用データに基づいて、機械学習を行うことが可能なように構成されている。
【0044】
図2は、上記の画像識別装置1の主要部のより具体的な構成の例を示す概略図である。図示する構成では、ニューラルネットワーク112からの出力は、全結合層113と全結合層114とのそれぞれに入力される。
【0045】
ニューラルネットワーク112は、人の顔を含んだ画像を入力し、その画像の特徴を抽出して出力する。ニューラルネットワーク112は、
図1における特徴抽出部12として機能する。ニューラルネットワーク112として使用し得るネットワークの形態については、既に説明した通りである。ニューラルネットワーク112を構成する各ノードにおいては、重みのパラメーターに基づく計算が行われる。ニューラルネットワーク112の内部のパラメーターの値は、調整(更新)可能である。ニューラルネットワーク112は、高さh[画素]×幅w[画素]×チャンネル数cの画像を入力し、n次元のベクトル(特徴)を出力する。
【0046】
全結合層113は、ニューラルネットワーク112から出力されるn次元のベクトル(特徴)を入力し、m次元のベクトルを出力する。全結合層113は、
図1における人物ラベル推定部13として機能する。m次元のベクトルは、m個の人物ラベルそれぞれのスコアを表す。入力されるn次元のベクトルを結合してm次元のベクトルを算出する際の重みのパラメーターの値は、調整(更新)可能である。
【0047】
全結合層114は、ニューラルネットワーク112から出力されるn次元のベクトル(特徴)を入力し、2次元のベクトルを出力する。全結合層114は、
図1における被覆有無推定部14として機能する。2次元のベクトルは、被覆(マスク等)あり、あるいは被覆(マスク等)なしの、2通りの状態それぞれのスコアを表す。入力されるn次元のベクトルを結合して2次元のベクトルを算出する際の重みのパラメーターの値は、調整(更新)可能である。
【0048】
画像識別装置1の学習を行う際には、損失算出部15が算出した誤差(ロス)に基づいて、誤差逆伝播法を用いることによって、全結合層113、全結合層114、およびニューラルネットワーク112のそれぞれが持つ内部パラメーターの値を調整する。誤差逆伝播法自体は、既存技術に属する手法である。
【0049】
つまり、
図1に示した特徴抽出部12と、人物ラベル推定部13と、被覆有無推定部14とのそれぞれはニューラルネットワークを用いて構成される。特徴抽出部12と、人物ラベル推定部13と、被覆有無推定部14とは、損失算出部15が算出する損失に基づいて、それぞれのニューラルネットワークの内部の重みパラメーターを更新する。
【0050】
以上説明した本実施形態の構成では、単に人物ラベルの正解だけではなく、被覆の有無に関する正解をも用いてニューラルネットワークの学習を行うこととなる。つまり、被覆の有無(例えば、マスクの着用の有無)に依存する形で、特徴抽出部12のニューラルネットワークによる特徴抽出用の内部パラメーターの値が調整される。つまり、人物の顔全体の中で鼻の一部や口を覆うマスクを着用している画像が入力されたときには、マスクによって覆われていない顔の上部を重要視するように特徴抽出部の内部パラメーターが調整されると考え得る。即ち、このような作用によって、本実施形態の構成を用いることで識別精度が向上すると推測することができる。
【0051】
図3は、上記実施形態における画像識別装置1の内部構成の例を示すブロック図である。画像識別装置1は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置901と、RAM902と、入出力ポート903と、入出力デバイス904や905等と、バス906と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置901は、RAM902等から読み込んだプログラムに含まれる命令を実行する。中央処理装置901は、各命令にしたがって、RAM902にデータを書き込んだり、RAM902からデータを読み出したり、算術演算や論理演算を行ったりする。RAM902は、データやプログラムを記憶する。RAM902に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、RAMは、「ランダムアクセスメモリー」の略である。入出力ポート903は、中央処理装置901が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス904や905は、入出力デバイスである。入出力デバイス904や905は、入出力ポート903を介して中央処理装置901との間でデータをやりとりする。バス906は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置901は、バス906を介してRAM902のデータを読んだり書いたりする。また、例えば、中央処理装置901は、バス906を介して入出力ポートにアクセスする。
【0052】
なお、上述した実施形態における画像識別装置1の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。つまり、「コンピューター読み取り可能な記録媒体」とは、非一過性の(non-transitory)コンピューター読み取り可能な記録媒体であってよい。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0053】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【0054】
[実証実験]
上記実施形態の効果を検証するために評価実験を実施したので、その結果を次に説明する。
【0055】
この実験においては、
図1に示した構成を有する画像識別装置1の学習を行うために、
学習データとして、約10万人分、合計約300万枚の顔画像を利用した。
また、式(4)におけるパラメーターαの値を0.1に設定した。特徴を抽出するためのニューラルネットワークの構造としては、IResNet50(参考文献4)を利用した。
[参考文献4] Ionut Cosmin Duta, el. Al.,“Improved residual networks for image and video recognition”,arXiv:2004.04989,2020.
【0056】
本実験においては、精度検証のために、LFWデータセット(http://vis-www.cs.umass.edu/lfw/)と、mfr2データセット(参考文献5)とを利用した。これらのデータセットは、顔識別分野の性能比較において広く利用されている。LFWデータセットは、マスク未着用の顔画像のみのデータセットである。mfr2はマスク着用の顔画像を含むデータセットである。
[参考文献5] A. Anwar and A. Raychowdhury,“Masked face recognition for secure authentication”, CoPR, abs/2008.11104, 2020
【0057】
評価尺度として、データセット内において他人を同一人物と誤認識する割合(FAR,false acceptance rate)が0.1%となるように閾値を設定したときに、同一人物を同一人物と正しく認識できる割合(VAL)での評価を行う。なお、評価結果の信頼性向上のため、10-Fold交差検定によって評価した。
【0058】
実験結果は、下の表1の通りである。この表の実験結果における従来技術は、上記の総合損失lossを求める数式においてパラメーターαの値を0に設定した場合の結果を示す。
【0059】
【0060】
表に示すように、LFWデータセット(マスク未着用の顔画像のみ)においては、本実施形態の識別精度は、従来技術のそれを下回ることなくほぼ同等の精度となった。具体的には、本実施形態の識別精度は従来技術のそれを0.03%上回った。つまり、本実施形態の構成をとることによる、マスク未着用の顔画像の識別性能への悪影響はなかったと言える。他方で、mfr2データセット(マスク着用の顔画像を含む)においては、本実施形態の識別精度は96.73%であり、従来技術の識別精度の92.88%よりも3.85%向上した。つまり、本実施形態によって、マスク着用画像を含む場合の識別精度が向上することが実証された。
【0061】
つまり、本実施形態によれば、被覆のある人物(マスク着用者等)の画像が含まれる場合について、人物の識別精度を向上させることができる。
【産業上の利用可能性】
【0062】
本発明は、例えば、人物の外見的特徴に基づく識別の処理等に利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。
【符号の説明】
【0063】
1 画像識別装置
11 画像入力部
12 特徴抽出部
13 人物ラベル推定部
14 被覆有無推定部
15 損失算出部
112 ニューラルネットワーク
113,114 全結合層
901 中央処理装置
902 RAM
903 入出力ポート
904,905 入出力デバイス
906 バス