(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-27
(45)【発行日】2024-09-04
(54)【発明の名称】画像処理装置及び方法、及び撮像装置及びその制御方法
(51)【国際特許分類】
H04N 23/611 20230101AFI20240828BHJP
H04N 23/67 20230101ALI20240828BHJP
H04N 23/71 20230101ALI20240828BHJP
G03B 15/00 20210101ALI20240828BHJP
G06T 7/00 20170101ALI20240828BHJP
【FI】
H04N23/611
H04N23/67 100
H04N23/71
G03B15/00 Q
G06T7/00 660A
(21)【出願番号】P 2020069276
(22)【出願日】2020-04-07
【審査請求日】2023-04-06
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】椿原 一志
【審査官】▲徳▼田 賢二
(56)【参考文献】
【文献】特開2006-174022(JP,A)
【文献】特開2017-046290(JP,A)
【文献】特開2014-203135(JP,A)
【文献】特開2020-008899(JP,A)
【文献】特開2020-052822(JP,A)
【文献】特開2012-104964(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 23/611
H04N 23/67
H04N 23/71
G03B 15/00
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
撮影して得られた画像から、被写体を検出する被写体検出手段と、
焦点状態を含む前記被写体の複数の状態に応じて、被写体を認証するために用いる複数の
ニューラルネットワークのいずれかを選択する選択手段と、
前記選択手段により選択した
ニューラルネットワークを用いて
前記被写体の特徴量を抽出し、当該抽出した特徴量を用いて前記被写体を認証する認証手段と
、を有し、
前記認証手段は、前記複数のニューラルネットワークを含み、前記複数のニューラルネットワークは、入力を受け付ける前記被写体の画像データの正規化サイズが異なり、かつ畳み込み層とプーリング層のネットワーク規模が異なることを特徴とする画像処理装置。
【請求項2】
前記認証手段は、
前記被写体検出手段により検出された前記被写体の状態を異ならせて
、特徴量を抽出し、
前記被写体の状態を異ならせて抽出された前記被写体の特徴量を、前記被写体の状態に対応する前記複数の
ニューラルネットワークのいずれかに
学習させる
ことを特徴とする請求項
1に記載の画像処理装置。
【請求項3】
前記
認証手段は、前記複数の
ニューラルネットワークの内、前記特徴量の抽出に用いたニューラルネットワーク
に前記特徴量を
学習させる
ことを特徴とする請求項
2に記載の画像処理装置。
【請求項4】
前記被写体を予め決められた大きさに拡大または縮小する拡大縮小手段を更に有し、
前記
認証手段は、前記拡大縮小手段により処理された前記被写体から、特徴量を抽出することを特徴とする請求項
1乃至
3のいずれか1項に記載の画像処理装置。
【請求項5】
前記選択手段は、前記被写体の焦点状態と、解像度とに基づいて、前記複数の
ニューラルネットワークのいずれかを選択することを特徴とする請求項1乃至
4のいずれか1項に記載の画像処理装置。
【請求項6】
撮像手段と、
請求項1乃至
5のいずれか1項に記載の画像処理装置と
を有することを特徴とする撮像装置。
【請求項7】
前記認証手段により認証された被写体に対して、フォーカスおよび露出を制御することを特徴とする請求項
6に記載の撮像装置。
【請求項8】
被写体検出手段が、撮影して得られた画像から、被写体を検出する被写体検出工程と、
選択手段が、焦点状態を含む前記被写体の複数の状態に応じて、被写体を認証するために用いる複数の
ニューラルネットワークのいずれかを選択する選択工程と、
認証手段が、前記選択工程で選択した
ニューラルネットワークを用いて
前記被写体の特徴量を抽出し、当該抽出した特徴量を用いて前記被写体を認証する認証工程と
、を有し、
前記複数のニューラルネットワークは前記認証手段に含まれ、入力を受け付ける前記被写体の画像データの正規化サイズが異なり、かつ畳み込み層とプーリング層のネットワーク規模が異なることを特徴とする画像処理方法。
【請求項9】
撮像手段に画像を撮影させる工程と、
被写体検出手段に、撮影して得られた画像から、被写体を検出させる被写体検出工程と、
選択手段に、焦点状態を含む前記被写体の複数の状態に応じて、被写体を認証するために用いる複数の
ニューラルネットワークのいずれかを選択させる選択工程と、
認証手段に、前記選択工程で選択した
ニューラルネットワークを用いて
前記被写体の特徴量を抽出し、当該抽出した特徴量を用いて前記被写体を認証させる認証工程と
、を有し、
前記複数のニューラルネットワークは前記認証手段に含まれ、入力を受け付ける前記被写体の画像データの正規化サイズが異なり、かつ畳み込み層とプーリング層のネットワーク規模が異なることを特徴とする撮像装置の制御方法。
【請求項10】
コンピュータを、請求項1乃至
5のいずれか1項に記載の画像処理装置の各手段として機能させるためのプログラム。
【請求項11】
請求項
10に記載のプログラムを記憶したコンピュータが読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置及び方法、及び撮像装置及びその制御方法に関し、特に、撮影画像に対する個人認証を行う技術に関する。
【背景技術】
【0002】
近年の撮像装置では、撮影した画像に写る顔を判別して個人認証を行うことで、登録済の個人かどうかを判別し、登録済の個人の顔と判別した場合には、その顔の人物を主被写体と判定し、主被写体のフォーカスや露出が適切になるように制御するものがある。この場合、より適切な制御を行うためには、いかに精度よく個人認証を行えるかが重要であり、特許文献1においては、顔画像データのサイズに応じて顔の特徴点の検出手法を切り替える方法が提案されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1の顔認識装置では、顔画像データのサイズにより顔の特徴点の検出手法を切り替えているが、その顔にフォーカスが合っていないようなデフォーカス状態では個人認証精度が落ちるという課題がある。
【0005】
本発明は上記問題点を鑑みてなされたものであり、デフォーカス状態であっても、被写体の認証精度の低下を抑制することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明の画像処理装置は、撮影して得られた画像から、被写体を検出する被写体検出手段と、焦点状態を含む前記被写体の複数の状態に応じて、被写体を認証するために用いる複数のニューラルネットワークのいずれかを選択する選択手段と、前記選択手段により選択したニューラルネットワークを用いて前記被写体の特徴量を抽出し、当該抽出した特徴量を用いて前記被写体を認証する認証手段と、を有し、前記認証手段は、前記複数のニューラルネットワークを含み、前記複数のニューラルネットワークは、入力を受け付ける前記被写体の画像データの正規化サイズが異なり、かつ畳み込み層とプーリング層のネットワーク規模が異なることを特徴とする。
【発明の効果】
【0007】
本発明によれば、デフォーカス状態であっても、被写体の認証精度の低下を抑制することができる。
【図面の簡単な説明】
【0008】
【
図1】本発明の実施形態における撮像装置の概略構成を示すブロック図。
【
図2】実施形態における画像処理エンジンの構成を示すブロック図。
【
図3】実施形態における撮像素子の構成を示す概略平面図。
【
図4】実施形態における辞書への特徴量データの登録処理の説明図。
【
図5】実施形態における主被写体候補判定処理のフローチャート。
【
図6】実施形態における撮影画像とデフォーカス量画像の一例を示す図。
【
図7】実施形態における正規化済画像データの一例を示す図。
【
図9】実施形態における撮像画像とデフォーカス量画像の別の例を示す図。
【
図10】実施形態における主被写体判定後の撮像画像を示す図。
【
図11】第2の実施形態における個人認証処理を示す図。
【
図12】第2の実施形態における辞書登録方法の説明図。
【発明を実施するための形態】
【0009】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
【0010】
<第1の実施形態>
図1は、第1の実施形態における画像処理機能を有する撮像装置の概略構成を示すブロック図である。なお、以下の説明では、本実施形態の画像処理を撮像装置において行う例について説明するが、撮像装置により得られる画像データに対して、撮像装置の外部の画像処理装置により本実施形態の画像処理を実施してもよい。
【0011】
制御部(CPU)101は、撮像装置全体の制御を担う。レンズ102は、焦点距離や絞りの状態を変更可能である。撮像素子103は、例えばCMOSセンサであって、レンズ102により結像した光を電気信号に変換して画像信号を出力する機能を有すると共に、デフォーカス量の取得に用いられる焦点検出信号を取得可能な構成を有する。なお、撮像素子103の構成については詳細を後述する。
【0012】
信号処理部104は、撮像素子103から入力される画像信号に対して、ホワイトバランスやガンマ補正等の所定の信号処理を行い、バス110を介して、メモリ109に画像データを転送する機能を有する。
【0013】
JPEG符号/復号化部105は、メモリ109に保持された画像データをJPEG形式の圧縮画像データに符号化したり、逆にメモリ109に保持されたJPEG画像データ(圧縮データ)を復号する機能を有する。
【0014】
メモリカードコントローラ106は、メモリ109に保持された各種データをメモリカード107に記録したり、逆にメモリカード107に記録されている各種データをメモリ109に読み込む機能を有する。また制御部101で処理されるファイルシステムを通じて、各種ファイルの記録、読み込みを行うことができる。
【0015】
フラッシュメモリ108は、不揮発性メモリであって、制御部101で動作させるプログラムの格納及び各種設定データ等の保存に利用され、フラッシュメモリ108に記録されたデータは、撮像装置の電源が切られた状態でも保持される。個人特徴量の前記データベースである辞書A114及び辞書B115は、フラッシュメモリ108に格納されており、個人認証のための辞書データの追加、削除が可能な構成となっている。
【0016】
メモリ109は、画像データ等のデータを保持する事が可能な大容量のメモリであるが、フラッシュメモリ108とは異なり、撮像装置の電源が切られると保持していたデータが消失する揮発性メモリである。
【0017】
バス110は、制御部101から各ブロックへのコマンドの伝達や、メモリ109と各ブロック間のデータ伝送を行う経路となる。
【0018】
画像処理エンジン111は、制御部101からの設定、制御により、メモリ109に保持された画像データに対し、各種画像処理を高速に行う機能を有する。画像処理エンジン111は、
図2に示すように、現像処理部201、デフォーカス情報生成部202、回転処理部203、拡大縮小処理部204、トリミング処理部205、顔検出部206(被写体検出手段)を含む、様々な画像処理部で構成されている。本実施形態では、各処理部はそれぞれ専用のハードウェアで構成され、並列処理可能であるものとする。なお、並列処理性が重要でない場合には、画像処理エンジンは、画像処理専用の画像処理プロセッサと、そのプロセッサ上で動作する各処理部のソフトウェアで構成されても良い。あるいは制御部101と、制御部101上で動作するソフトウェアで構成されても良く、さらにはそれらの組み合わせで構成されていても良い。
【0019】
表示部112は、復号された画像データの表示デバイスとしての利用、また撮影時のライブビュー画像を表示するためのビューファインダーとしての機能も有する。また、ユーザが本装置を操作する場合の操作画面としての機能も兼ね備える。
【0020】
個人認証処理部113は、特徴量抽出部116と、特徴量照合部117とを含み、特徴量抽出部116は、所定の画像サイズ、向きに整えられた、正規化済み顔画像データから、特徴量を抽出する処理を行う。そして、抽出された特徴量と、既に辞書A114及び辞書B115に登録されている特定の個人の特徴量との照合処理を特徴量照合部117が行うことによって、辞書A114及び辞書B115に登録済の個人を認証する。
【0021】
特徴量としては、顔の輪郭、目、鼻、口の相対的位置情報等が使用される。また、顔画像の正規化は、顔検出部206による顔画像領域の検出、トリミング処理部205による顔領域のみの切り出し、回転処理部203による回転、拡大縮小処理部204による拡大縮小処理によって実現される。本実施形態の撮像装置では、撮像画像に対して個人認証処理を行い、登録済の個人を検出した場合には、それらを主被写体としてフォーカスや露出の制御が行われる。
【0022】
ここで
図3を用いて、撮像素子103の構成について説明する。
図3(a)は、撮像素子103を構成する画素302の配列の一例を示しており、画素302が二次元的に規則的に配列されている。
図3(b)は1つの画素302を拡大したものであり、1つのマイクロレンズ301に対して、一対の光電変換部303A,303Bから構成されている。
【0023】
図1に示す信号処理部104は、撮像素子103の各画素302の光電変換部303Aから得られるデータ(A信号)のみを集めて構成されるデータ(以下、「A像」と呼ぶ。)と、光電変換部303Bから得られるデータ(B信号)のみを集めて構成されるデータ(以下、「B像」と呼ぶ。)とを、バス110経由でメモリ109に保持する。A像とB像は、位相差方式の焦点検出処理に用いることができる。また、画素毎にA信号とB信号を加算することで、画像信号(A+B信号)を得ることができる。なお、各画素から、A信号と、画素内でA信号とB信号を加算したA+B信号を読み出し、A+B信号からA信号を差し引くことで、B信号を得るようにしてもよい。すなわち、各画素から、一対の焦点検出信号と、画像信号とを取得可能に読み出すように制御すればよい。
【0024】
画像処理エンジン111内のデフォーカス情報生成部202は、光学系の瞳の異なる領域を通過した光束間に生じる複数の被写体像(すなわちメモリ109に保持されたA像とB像)の位相差に基づいて、撮影された画像に含まれる各被写体までのデフォーカス状態(焦点状態)を表すデフォーカス量画像を生成する。A像、B像からのデフォーカス量画像の具体的な生成方法については、例えば特開2016-9062号公報で述べられているような公知の手法を用いればよい。
【0025】
次に、辞書A114及び辞書B115への特徴量データの登録処理について、
図4を用いて説明する。
【0026】
まず、主被写体として認証したい人物の顔画像を撮像装置で予め撮影するが、本実施形態では、その際に顔にフォーカスが合った状態の顔画像401と、フォーカスをあえてずらしたデフォーカス状態の顔画像402とを撮影する。そして、それぞれの顔に対して、個人認証処理部113により特徴量データの抽出を行い、フォーカスが合った状態の顔画像データから抽出した特徴量データを辞書A114に、デフォーカス状態の顔画像データから抽出した特徴量データを辞書B115に登録する。このように人物の登録処理を行うことで、辞書A114はフォーカスが合った状態のときに顔画像データとの照合に適した辞書となり、辞書B115はデフォーカス状態のときに顔画像データとの照合に適した辞書となる。
【0027】
次に、本実施形態の撮像装置における主被写体候補判定処理について、
図5及び
図6を用いて説明する。
図5は、本実施形態における主被写体候補判定処理を示すフローチャートである。なお、
図5に示す処理は、制御部101による制御に基づいて実施される。なお、主被写体候補判定処理を行う際には、メモリ109に、画像信号(A+B信号)から成る画像(以下、「撮像画像」と呼ぶ。)と、デフォーカス情報生成部202によって生成されたデフォーカス量画像とが記憶された状態であるものとする。
図6は、一例として、撮像画像601とデフォーカス量画像611を示している。
【0028】
デフォーカス量画像611は、それぞれの画素における相対的なデフォーカス量を、画素値に変換して画像化したものである。デフォーカス量画像611において、被写体615が比較的デフォーカス量が小さい被写体を示しており、続いて被写体616、617の順でデフォーカス量が増えていき、画像が黒に近づくにつれてデフォーカス量が大きい事を示している。すなわち画像中で最も遠方でデフォーカス量が大きい背景等は、最も黒い状態で表現されている。一方、フォーカス位置より手前方向にデフォーカス量が増えるにつれて、その画素は白く表現されている。
【0029】
S501からの主被写体候補判定処理が開始されると、S502では、顔検出部206により顔の検出処理が行われる。
図6に示す例では、メモリ109に保持された撮像画像601から、顔602~604が検出された状態を示している。
【0030】
続くS503では、顔検出部206からの検出完了割り込みを受けた制御部101は、検出結果として、検出された顔数と、それぞれの顔の位置、向き、サイズを、顔検出部206から取得する。
【0031】
そして、S504では、デフォーカス量画像を用いて、検出された顔それぞれについて、各顔に対応する顔領域に含まれる画素のデフォーカス量の平均を取得する事で、顔デフォーカス量を取得する。
図6に示す例では、顔602~604に対応するデフォーカス量画像611における顔領域612~614それぞれに含まれる画素のデフォーカス量の平均をそれぞれ取得する。
【0032】
S505では、検出された顔それぞれに対し、回転処理部203により所定の顔の向きに揃え、拡大縮小処理部204により所定のサイズに揃え、最後にトリミング処理部205により所定の向き・サイズの矩形領域とした顔画像データを生成する。そのように生成された正規化済み顔画像データの様子を
図7に示す。顔画像データ701、702、703はそれぞれ、検出された顔602、603、604の顔画像データに対する正規化済み顔画像データとなっている。
【0033】
続いて、S506において、生成された正規化済み顔画像データすべてについて、個人認証処理を行ったかどうかを判定し、生成された正規化済み顔画像データすべてについてS507~S510に示すの処理を繰り返す。
【0034】
まず、S507では、認証対象の顔、すなわち、1つの正規化済み顔画像データに対して、個人認証処理において特徴量データの照合に適用する辞書の選択を行う。この適用辞書の選択方法について、
図8の表を用いて説明する。
【0035】
図8は、特徴量データの照合に適用する辞書の選択方法を示す表であって、正規化済み顔画像データの解像度とデフォーカス量との組み合わせにより、辞書A114と辞書B115のいずれを用いるか、または、認証自体を行わないかを示している。ここでは、解像度を高・中・低とし、デフォーカス量を小・中・大とする。なお、解像度及びデフォーカス量を分類する際の具体的な閾値は、撮像装置やレンズの特性に応じて適宜設定すればよい。
【0036】
例えば、
図7の顔画像データ701~703について、顔画像データ701及び702については、縮小する事によりサイズが正規化されたとすると、解像度高に分類される。一方、顔画像データ703については、少し拡大することによりサイズの正規化がなされたものとすると、解像度中に分類される。
【0037】
また、顔画像データ701~703に対応する、
図6のデフォーカス量画像611における顔領域612~614では、デフォーカス量は全て小のため、全て、デフォーカス量小に分類される。
【0038】
解像度とデフォーカス量とを組み合わせる事で、
図8の表から、解像度高、デフォーカス量小である顔画像データ701に対しては、辞書Aが選択される。同様に、顔画像データ702についても、辞書Aが選択される。更に、解像度中、デフォーカス量小である顔画像データ703に対しても、辞書Aが選択される。この場合、結果的には全ての顔画像データに対して辞書Aが選択されることになる。
【0039】
S508では、各顔画像データに対して、S507で選択された辞書を用いて照合を行うことで、個人認証を行う。辞書に登録済の顔と判定された場合には(S509でYES)、その顔を主被写体候補として設定する(S510)。
【0040】
すべての顔画像データに対して、個人認証処理が完了すると(S506でNO)、主被写体候補判定処理を終了する(S511)。
【0041】
この主被写体候補判定処理により、複数の顔が主被写体候補と判定された場合には、そのいずれかを主被写体とするかを決定するための主被写体決定処理が実行される。例えば、最も顔のサイズが大きい主被写体候補を主被写体候補として決定したり、あるいは辞書に登録する際に主被写体の優先度を登録しておくことで、より優先度の高いものを主被写体として決定したりするようにしてもよい。
【0042】
主被写体が決定されると、その被写体に対してフォーカスや露出が適正になるように撮像制御が行われる。
【0043】
ここで
図8の表を用いて、辞書Bが選択されるケースや、「認証しない」が選択されるケースについて補足説明する。
【0044】
例えば、
図8に示すように、解像度中、デフォーカス量小の場合、デフォーカス量が小さいにも関わらず辞書Bが選択される。その理由として、このような顔画像データは、個人認証処理のための顔画像データの正規化処理において、大きな拡大率での拡大処理がされている。このような拡大処理を、例えば線形補完のような方法で行う場合には、デフォーカス画像と似たようなボケたような画像になることから、辞書Bを選択した方が照合率が上がると考えらえるためである。
【0045】
また、「認証しない」については、正規化処理前の顔画像データの解像度が低すぎたり、デフォーカス量が大きすぎたり、またそれらの組み合わせにより、個人認証を正しく行うための情報が消失していると考えられるような顔画像データと判断できる。そのため、個人認証処理そのものを行わないように考慮して設定されている。
【0046】
続いて
図5のS507における適用辞書選択処理において、顔毎に異なる辞書が選択される例を説明する。
図9に、撮像画像901とデフォーカス量画像911を示す。撮像画像901の場合、顔903は他の顔902、904よりも遠くの位置にあり、そのサイズも若干小さく、また、顔903に対応する顔領域913のデフォーカス量も他の顔よりも大きめの状態(他の顔よりも黒く表示)を表している。このような画像の場合には、適用辞書選択処理(S507)では以下のような動作となる。
【0047】
顔902、904については、
図6に示す顔602、604の状態と同様であるため、辞書Aが選択される。一方、顔903は、
図6に示す顔603よりも顔画像サイズが小さく、デフォーカス量が大きくなっているため、S503の正規化処理において、少し拡大された状態となる。正規化処理された顔903は、
図7の顔704のようになる。この場合、
図8の表において、解像度中、デフォーカス量中に対応した辞書Bが選択される。また、S508の個人認証処理では、辞書Bと照合して個人認証処理が実行される。辞書Bはデフォーカス量の大きめな顔画像データに対する特徴量が予め登録されているため、顔903に対しては、より適した個人認証処理となり、辞書Aとの照合よりも適合率が上がり、正しく認証できる確率が高くなる。
【0048】
ここで、仮に顔902、904が未登録の顔と判定され、顔903のみ登録済の顔と判定された場合には、顔903が主被写体候補として設定される。従って、その後の主被写体決定処理において顔903の人物が主被写体と決定され、
図10のように顔1002にフォーカスが移動される。このように、撮影者が所望するフォーカス状態に自動制御し、撮影することが可能となる。
【0049】
このように、本実施形態の撮像装置では、デフォーカス状態の顔画像に対しても、個人認証の成功率を高くすることができるため、主被写体とすべき人物に対するデフォーカス状態を解消するように制御することが可能となる。
【0050】
なお、本実施形態では、デフォーカス量画像を取得する方法として、
図3に示したような、光学系の瞳の異なる領域から入射する光束間に生じる被写体像の位相差に基づいて生成する構成について説明したが、他の構成や方法を代用または併用しても良い。例えば、視点の異なる少なくとも2つ以上の多視点画像を取得するために、撮像系を複数のレンズ及び撮像素子で構成した複眼カメラとしても良い。また、TOF(Time Of Flight)カメラを付加する事で、模様の変化が乏しく、位相差情報が取得しにくい被写体に対する測距性能が向上するように構成しても良い。
【0051】
また本実施形態では、辞書A、辞書Bという2種類の辞書を用いる場合で説明したが、より多くの種類の辞書を持つように構成しても良く、その場合は、
図8の表における解像度及びデフォーカス量の分類数を増やす事で、辞書を切り替えるように構成しても良い
【0052】
<第2の実施形態>
次に、本発明の第2の実施形態について説明する。第2の実施形態では、第1の実施形態における個人認証処理部113に、いわゆるディープラーニングの手法であるニューラルネットワーク(Neural Network)を利用する場合について説明する。なお、第2の実施形態における撮像装置の構成は、
図1乃至
図3を参照して第1の実施形態で説明したものと同様であるため、説明を省略する。以下の説明では、第1の実施形態と異なる部分について説明する。
【0053】
はじめに、第2の実施形態におけるニューラルネットワークについて説明する。
図11はニューラルネットワークにおいて、画像分類への適用で有名なCNN(Convolutional Newral Network)を利用する例を示している。CNNは、複数の畳み込み層やプーリング層で構成されるネットワーク前半部分1102、1107と、全結合層で構成されるネットワーク後半部分1103、1108とに分けることができる。前半部分1102、1107は
図1における特徴量抽出部116に相当する部分で、後半部分1103、1108は特徴量照合部117に相当する部分と考えることができる。
【0054】
このCNNに対して顔画像データを入力すると、最終的にはN次元の出力値1104、1109が得られる。ここでNは、それぞれのCNNで識別・分類可能な個人数Nと同じである。特定の個人の顔画像データを入力した場合には、N次元の出力のうち、特定の要素の出力(例えば、
図11に示すN次元の出力値1104における「A」)のみ高い値を出力するように、前半部分1102や後半部分1103のネットワークのパラメータを調整して学習させることで、それぞれの要素と個人を一対一で関連付けることができる。このような関連付けが完了したCNNを、学習済CNNと呼ぶ。
【0055】
本実施形態では、学習済CNNを2種類用意する。
図11の例では、符号1102~1104で構成されるCNNと、符号1107~1109で構成されるCNNである。以降、それぞれをCNN大、CNN小と呼んで区別する。CNN大とCNN小は、入力させる顔画像データの正規化サイズが異なっており、CNN小の方がサイズの小さな顔画像データを扱うものとする。それに合わせて符号1107の畳み込み層・プーリング層のネットワーク規模も小さいものとなっている。したがってCNN小で行われる演算処理も、CNN大で行われる演算処理量よりも小さくて済むという違いがある。
【0056】
CNN小に対して学習させる顔画像データ1105や1106は、CNN大に学習させる顔画像データ1101を加工して生成する。具体的にはCNN小向けの正規化サイズに縮小した顔画像データ1105や、さらにデフォーカスフィルタをかけた後の顔画像データ1106を学習画像として用いる。このように学習させる事で、CNN小については、低解像度の顔画像データやデフォーカス画像に対して最適化された学習が行われる事となる。本実施形態では、このように多数(N人)の個人に対する様々な顔画像データを用いて上記学習を実施済みのCNNを使用する。
【0057】
続いて、第2の実施形態における辞書登録について
図12を用いて説明する。この辞書登録は、第1の実施形態で
図4を参照して説明した処理に変えて行われる。
【0058】
本撮像装置の利用者は、撮像装置で所望の人物の顔画像を予め撮影しておき、その顔画像データから得られる特徴量データを辞書に登録しておく。顔画像登録の際には、顔にフォーカスが合った状態の顔画像1201と、フォーカスをあえてずらしたデフォーカス状態の顔画像1205を撮影する。顔画像1201の顔データに対しては、個人認証処理部113において、CNN大に入力してその出力値を特徴量データとして辞書Aに登録する。なお、CNN大は学習済の顔データに対しては特定の要素のみ高い出力値を出力するが、新たに登録する顔画像データは未学習のため、N次元の出力値全てを特徴量データとして辞書に登録しておく。
【0059】
さらに顔画像1201の顔画像データをCNN小向けの正規化画像サイズに縮小した顔画像1204やデフォーカス状態の顔画像1205の顔画像データに対しては、CNN小に入力させて、その出力値を特徴量データとして辞書Bに登録する。他の人物に対しても同様の辞書登録を行う。これにより、辞書Aはフォーカスが合った状態の顔画像データとの照合に適した辞書となり、一方辞書Bはデフォーカス状態や低解像度の顔画像データの照合に適した辞書となる。
【0060】
上記のように登録された辞書を用いた主被写体候補判定処理は、第1の実施形態における
図5の主被写体候補判定処理とほぼ同じであるが、S508の個人認証処理が第1の実施形態と異なる。以下、第2の実施形態における個人認証処理について説明する。
【0061】
S508の個人認証処理においては、S507で選択されたのが辞書Aか辞書Bかに依存し、辞書Aが選択された場合には、CNN大向けのサイズに正規化された顔画像データに対してCNN大による個人認証処理を実行する。一方、辞書Bが選択された場合には、CNN小向けのサイズに正規化された顔画像データに対してCNN小による個人認証処理を実行する。
【0062】
このように、第2の実施形態によれば、辞書の切り替えだけではなく、個人認証処理自体も切り替えることで、より精度の高い認証が行えるようになる。また、先に説明した通りCNN小による認証処理はCNN大による認証処理よりも演算量が少なくて済むため、辞書Bが選択された場合には、個人認証処理の演算負荷を小さくすることができる。
【0063】
なお、上述した例では、人物の顔を抽出して個人認証を行う場合について説明したが、認証を行う対象は、人物に限られるものでは無い。例えば、ペットや車両等、所望の被写体の認証を行うようにしてもよい。
【0064】
<他の実施形態>
なお、本発明は、複数の機器から構成されるシステムに適用しても、一つの機器からなる装置に適用してもよい。
【0065】
また、本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0066】
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
【符号の説明】
【0067】
101:制御部(CPU)、102:レンズ、103:撮像素子、104:信号処理部、105:JPEG符号/復号化部、106:メモリカードコントローラ、108:フラッシュメモリ、109:メモリ、111:画像処理エンジン、112:表示部、113:個人認証処理部、114:辞書A、115:辞書B、116:特徴量抽出部、117:特徴量照合部、201:現像処理部、202:デフォーカス情報生成部、203:回転処理部、204:拡大縮小処理部、205:トリミング処理部、206:顔検出部、301:マイクロレンズ、302:画素