特許7545228 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7545228画像処理装置及び方法、及び撮像装置及びその制御方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-27

(45)【発行日】2024-09-04

(54)【発明の名称】画像処理装置及び方法、及び撮像装置及びその制御方法

(51)【国際特許分類】

H04N 23/611 20230101AFI20240828BHJP

H04N 23/67 20230101ALI20240828BHJP

H04N 23/71 20230101ALI20240828BHJP

G03B 15/00 20210101ALI20240828BHJP

G06T 7/00 20170101ALI20240828BHJP

【ＦＩ】

H04N23/611

H04N23/67 100

H04N23/71

G03B15/00 Q

G06T7/00 660A

【請求項の数】 11

(21)【出願番号】P 2020069276

(22)【出願日】2020-04-07

(65)【公開番号】P2021166352

(43)【公開日】2021-10-14

【審査請求日】2023-04-06

(73)【特許権者】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】110003281

【氏名又は名称】弁理士法人大塚国際特許事務所

(72)【発明者】

【氏名】椿原一志

【審査官】▲徳▼田賢二

(56)【参考文献】

【文献】特開２００６－１７４０２２（ＪＰ，Ａ）

【文献】特開２０１７－０４６２９０（ＪＰ，Ａ）

【文献】特開２０１４－２０３１３５（ＪＰ，Ａ）

【文献】特開２０２０－００８８９９（ＪＰ，Ａ）

【文献】特開２０２０－０５２８２２（ＪＰ，Ａ）

【文献】特開２０１２－１０４９６４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ２３／６１１

Ｈ０４Ｎ２３／６７

Ｈ０４Ｎ２３／７１

Ｇ０３Ｂ１５／００

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

撮影して得られた画像から、被写体を検出する被写体検出手段と、
焦点状態を含む前記被写体の複数の状態に応じて、被写体を認証するために用いる複数のニューラルネットワークのいずれかを選択する選択手段と、
前記選択手段により選択したニューラルネットワークを用いて前記被写体の特徴量を抽出し、当該抽出した特徴量を用いて前記被写体を認証する認証手段と、を有し、
前記認証手段は、前記複数のニューラルネットワークを含み、前記複数のニューラルネットワークは、入力を受け付ける前記被写体の画像データの正規化サイズが異なり、かつ畳み込み層とプーリング層のネットワーク規模が異なることを特徴とする画像処理装置。

【請求項2】

前記認証手段は、
前記被写体検出手段により検出された前記被写体の状態を異ならせて、特徴量を抽出し、
前記被写体の状態を異ならせて抽出された前記被写体の特徴量を、前記被写体の状態に対応する前記複数のニューラルネットワークのいずれかに学習させる
ことを特徴とする請求項１に記載の画像処理装置。

【請求項3】

前記認証手段は、前記複数のニューラルネットワークの内、前記特徴量の抽出に用いたニューラルネットワークに前記特徴量を学習させる
ことを特徴とする請求項２に記載の画像処理装置。

【請求項4】

前記被写体を予め決められた大きさに拡大または縮小する拡大縮小手段を更に有し、
前記認証手段は、前記拡大縮小手段により処理された前記被写体から、特徴量を抽出することを特徴とする請求項１乃至３のいずれか１項に記載の画像処理装置。

【請求項5】

前記選択手段は、前記被写体の焦点状態と、解像度とに基づいて、前記複数のニューラルネットワークのいずれかを選択することを特徴とする請求項１乃至４のいずれか１項に記載の画像処理装置。

【請求項6】

撮像手段と、
請求項１乃至５のいずれか１項に記載の画像処理装置と
を有することを特徴とする撮像装置。

【請求項7】

前記認証手段により認証された被写体に対して、フォーカスおよび露出を制御することを特徴とする請求項６に記載の撮像装置。

【請求項8】

被写体検出手段が、撮影して得られた画像から、被写体を検出する被写体検出工程と、
選択手段が、焦点状態を含む前記被写体の複数の状態に応じて、被写体を認証するために用いる複数のニューラルネットワークのいずれかを選択する選択工程と、
認証手段が、前記選択工程で選択したニューラルネットワークを用いて前記被写体の特徴量を抽出し、当該抽出した特徴量を用いて前記被写体を認証する認証工程と、を有し、
前記複数のニューラルネットワークは前記認証手段に含まれ、入力を受け付ける前記被写体の画像データの正規化サイズが異なり、かつ畳み込み層とプーリング層のネットワーク規模が異なることを特徴とする画像処理方法。

【請求項9】

撮像手段に画像を撮影させる工程と、
被写体検出手段に、撮影して得られた画像から、被写体を検出させる被写体検出工程と、
選択手段に、焦点状態を含む前記被写体の複数の状態に応じて、被写体を認証するために用いる複数のニューラルネットワークのいずれかを選択させる選択工程と、
認証手段に、前記選択工程で選択したニューラルネットワークを用いて前記被写体の特徴量を抽出し、当該抽出した特徴量を用いて前記被写体を認証させる認証工程と、を有し、
前記複数のニューラルネットワークは前記認証手段に含まれ、入力を受け付ける前記被写体の画像データの正規化サイズが異なり、かつ畳み込み層とプーリング層のネットワーク規模が異なることを特徴とする撮像装置の制御方法。

【請求項10】

コンピュータを、請求項１乃至５のいずれか１項に記載の画像処理装置の各手段として機能させるためのプログラム。

【請求項11】

請求項１０に記載のプログラムを記憶したコンピュータが読み取り可能な記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理装置及び方法、及び撮像装置及びその制御方法に関し、特に、撮影画像に対する個人認証を行う技術に関する。

【背景技術】

【0002】

近年の撮像装置では、撮影した画像に写る顔を判別して個人認証を行うことで、登録済の個人かどうかを判別し、登録済の個人の顔と判別した場合には、その顔の人物を主被写体と判定し、主被写体のフォーカスや露出が適切になるように制御するものがある。この場合、より適切な制御を行うためには、いかに精度よく個人認証を行えるかが重要であり、特許文献１においては、顔画像データのサイズに応じて顔の特徴点の検出手法を切り替える方法が提案されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特許第５７８７６８６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、特許文献１の顔認識装置では、顔画像データのサイズにより顔の特徴点の検出手法を切り替えているが、その顔にフォーカスが合っていないようなデフォーカス状態では個人認証精度が落ちるという課題がある。

【0005】

本発明は上記問題点を鑑みてなされたものであり、デフォーカス状態であっても、被写体の認証精度の低下を抑制することを目的とする。

【課題を解決するための手段】

【0006】

上記目的を達成するために、本発明の画像処理装置は、撮影して得られた画像から、被写体を検出する被写体検出手段と、焦点状態を含む前記被写体の複数の状態に応じて、被写体を認証するために用いる複数のニューラルネットワークのいずれかを選択する選択手段と、前記選択手段により選択したニューラルネットワークを用いて前記被写体の特徴量を抽出し、当該抽出した特徴量を用いて前記被写体を認証する認証手段と、を有し、前記認証手段は、前記複数のニューラルネットワークを含み、前記複数のニューラルネットワークは、入力を受け付ける前記被写体の画像データの正規化サイズが異なり、かつ畳み込み層とプーリング層のネットワーク規模が異なることを特徴とする。

【発明の効果】

【0007】

本発明によれば、デフォーカス状態であっても、被写体の認証精度の低下を抑制することができる。

【図面の簡単な説明】

【0008】

【図1】本発明の実施形態における撮像装置の概略構成を示すブロック図。

【図2】実施形態における画像処理エンジンの構成を示すブロック図。

【図3】実施形態における撮像素子の構成を示す概略平面図。

【図4】実施形態における辞書への特徴量データの登録処理の説明図。

【図5】実施形態における主被写体候補判定処理のフローチャート。

【図6】実施形態における撮影画像とデフォーカス量画像の一例を示す図。

【図7】実施形態における正規化済画像データの一例を示す図。

【図8】実施形態における辞書選択表を示す図。

【図9】実施形態における撮像画像とデフォーカス量画像の別の例を示す図。

【図10】実施形態における主被写体判定後の撮像画像を示す図。

【図11】第２の実施形態における個人認証処理を示す図。

【図12】第２の実施形態における辞書登録方法の説明図。

【発明を実施するための形態】

【0009】

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

【0010】

＜第１の実施形態＞
図１は、第１の実施形態における画像処理機能を有する撮像装置の概略構成を示すブロック図である。なお、以下の説明では、本実施形態の画像処理を撮像装置において行う例について説明するが、撮像装置により得られる画像データに対して、撮像装置の外部の画像処理装置により本実施形態の画像処理を実施してもよい。

【0011】

制御部（ＣＰＵ）１０１は、撮像装置全体の制御を担う。レンズ１０２は、焦点距離や絞りの状態を変更可能である。撮像素子１０３は、例えばＣＭＯＳセンサであって、レンズ１０２により結像した光を電気信号に変換して画像信号を出力する機能を有すると共に、デフォーカス量の取得に用いられる焦点検出信号を取得可能な構成を有する。なお、撮像素子１０３の構成については詳細を後述する。

【0012】

信号処理部１０４は、撮像素子１０３から入力される画像信号に対して、ホワイトバランスやガンマ補正等の所定の信号処理を行い、バス１１０を介して、メモリ１０９に画像データを転送する機能を有する。

【0013】

ＪＰＥＧ符号／復号化部１０５は、メモリ１０９に保持された画像データをＪＰＥＧ形式の圧縮画像データに符号化したり、逆にメモリ１０９に保持されたＪＰＥＧ画像データ（圧縮データ）を復号する機能を有する。

【0014】

メモリカードコントローラ１０６は、メモリ１０９に保持された各種データをメモリカード１０７に記録したり、逆にメモリカード１０７に記録されている各種データをメモリ１０９に読み込む機能を有する。また制御部１０１で処理されるファイルシステムを通じて、各種ファイルの記録、読み込みを行うことができる。

【0015】

フラッシュメモリ１０８は、不揮発性メモリであって、制御部１０１で動作させるプログラムの格納及び各種設定データ等の保存に利用され、フラッシュメモリ１０８に記録されたデータは、撮像装置の電源が切られた状態でも保持される。個人特徴量の前記データベースである辞書Ａ１１４及び辞書Ｂ１１５は、フラッシュメモリ１０８に格納されており、個人認証のための辞書データの追加、削除が可能な構成となっている。

【0016】

メモリ１０９は、画像データ等のデータを保持する事が可能な大容量のメモリであるが、フラッシュメモリ１０８とは異なり、撮像装置の電源が切られると保持していたデータが消失する揮発性メモリである。

【0017】

バス１１０は、制御部１０１から各ブロックへのコマンドの伝達や、メモリ１０９と各ブロック間のデータ伝送を行う経路となる。

【0018】

画像処理エンジン１１１は、制御部１０１からの設定、制御により、メモリ１０９に保持された画像データに対し、各種画像処理を高速に行う機能を有する。画像処理エンジン１１１は、図２に示すように、現像処理部２０１、デフォーカス情報生成部２０２、回転処理部２０３、拡大縮小処理部２０４、トリミング処理部２０５、顔検出部２０６（被写体検出手段）を含む、様々な画像処理部で構成されている。本実施形態では、各処理部はそれぞれ専用のハードウェアで構成され、並列処理可能であるものとする。なお、並列処理性が重要でない場合には、画像処理エンジンは、画像処理専用の画像処理プロセッサと、そのプロセッサ上で動作する各処理部のソフトウェアで構成されても良い。あるいは制御部１０１と、制御部１０１上で動作するソフトウェアで構成されても良く、さらにはそれらの組み合わせで構成されていても良い。

【0019】

表示部１１２は、復号された画像データの表示デバイスとしての利用、また撮影時のライブビュー画像を表示するためのビューファインダーとしての機能も有する。また、ユーザが本装置を操作する場合の操作画面としての機能も兼ね備える。

【0020】

個人認証処理部１１３は、特徴量抽出部１１６と、特徴量照合部１１７とを含み、特徴量抽出部１１６は、所定の画像サイズ、向きに整えられた、正規化済み顔画像データから、特徴量を抽出する処理を行う。そして、抽出された特徴量と、既に辞書Ａ１１４及び辞書Ｂ１１５に登録されている特定の個人の特徴量との照合処理を特徴量照合部１１７が行うことによって、辞書Ａ１１４及び辞書Ｂ１１５に登録済の個人を認証する。

【0021】

特徴量としては、顔の輪郭、目、鼻、口の相対的位置情報等が使用される。また、顔画像の正規化は、顔検出部２０６による顔画像領域の検出、トリミング処理部２０５による顔領域のみの切り出し、回転処理部２０３による回転、拡大縮小処理部２０４による拡大縮小処理によって実現される。本実施形態の撮像装置では、撮像画像に対して個人認証処理を行い、登録済の個人を検出した場合には、それらを主被写体としてフォーカスや露出の制御が行われる。

【0022】

ここで図３を用いて、撮像素子１０３の構成について説明する。
図３（ａ）は、撮像素子１０３を構成する画素３０２の配列の一例を示しており、画素３０２が二次元的に規則的に配列されている。図３（ｂ）は１つの画素３０２を拡大したものであり、１つのマイクロレンズ３０１に対して、一対の光電変換部３０３Ａ，３０３Ｂから構成されている。

【0023】

図１に示す信号処理部１０４は、撮像素子１０３の各画素３０２の光電変換部３０３Ａから得られるデータ（Ａ信号）のみを集めて構成されるデータ（以下、「Ａ像」と呼ぶ。）と、光電変換部３０３Ｂから得られるデータ（Ｂ信号）のみを集めて構成されるデータ（以下、「Ｂ像」と呼ぶ。）とを、バス１１０経由でメモリ１０９に保持する。Ａ像とＢ像は、位相差方式の焦点検出処理に用いることができる。また、画素毎にＡ信号とＢ信号を加算することで、画像信号（Ａ＋Ｂ信号）を得ることができる。なお、各画素から、Ａ信号と、画素内でＡ信号とＢ信号を加算したＡ＋Ｂ信号を読み出し、Ａ＋Ｂ信号からＡ信号を差し引くことで、Ｂ信号を得るようにしてもよい。すなわち、各画素から、一対の焦点検出信号と、画像信号とを取得可能に読み出すように制御すればよい。

【0024】

画像処理エンジン１１１内のデフォーカス情報生成部２０２は、光学系の瞳の異なる領域を通過した光束間に生じる複数の被写体像（すなわちメモリ１０９に保持されたＡ像とＢ像）の位相差に基づいて、撮影された画像に含まれる各被写体までのデフォーカス状態（焦点状態）を表すデフォーカス量画像を生成する。Ａ像、Ｂ像からのデフォーカス量画像の具体的な生成方法については、例えば特開２０１６－９０６２号公報で述べられているような公知の手法を用いればよい。

【0025】

次に、辞書Ａ１１４及び辞書Ｂ１１５への特徴量データの登録処理について、図４を用いて説明する。

【0026】

まず、主被写体として認証したい人物の顔画像を撮像装置で予め撮影するが、本実施形態では、その際に顔にフォーカスが合った状態の顔画像４０１と、フォーカスをあえてずらしたデフォーカス状態の顔画像４０２とを撮影する。そして、それぞれの顔に対して、個人認証処理部１１３により特徴量データの抽出を行い、フォーカスが合った状態の顔画像データから抽出した特徴量データを辞書Ａ１１４に、デフォーカス状態の顔画像データから抽出した特徴量データを辞書Ｂ１１５に登録する。このように人物の登録処理を行うことで、辞書Ａ１１４はフォーカスが合った状態のときに顔画像データとの照合に適した辞書となり、辞書Ｂ１１５はデフォーカス状態のときに顔画像データとの照合に適した辞書となる。

【0027】

次に、本実施形態の撮像装置における主被写体候補判定処理について、図５及び図６を用いて説明する。図５は、本実施形態における主被写体候補判定処理を示すフローチャートである。なお、図５に示す処理は、制御部１０１による制御に基づいて実施される。なお、主被写体候補判定処理を行う際には、メモリ１０９に、画像信号（Ａ＋Ｂ信号）から成る画像（以下、「撮像画像」と呼ぶ。）と、デフォーカス情報生成部２０２によって生成されたデフォーカス量画像とが記憶された状態であるものとする。図６は、一例として、撮像画像６０１とデフォーカス量画像６１１を示している。

【0028】

デフォーカス量画像６１１は、それぞれの画素における相対的なデフォーカス量を、画素値に変換して画像化したものである。デフォーカス量画像６１１において、被写体６１５が比較的デフォーカス量が小さい被写体を示しており、続いて被写体６１６、６１７の順でデフォーカス量が増えていき、画像が黒に近づくにつれてデフォーカス量が大きい事を示している。すなわち画像中で最も遠方でデフォーカス量が大きい背景等は、最も黒い状態で表現されている。一方、フォーカス位置より手前方向にデフォーカス量が増えるにつれて、その画素は白く表現されている。

【0029】

Ｓ５０１からの主被写体候補判定処理が開始されると、Ｓ５０２では、顔検出部２０６により顔の検出処理が行われる。図６に示す例では、メモリ１０９に保持された撮像画像６０１から、顔６０２～６０４が検出された状態を示している。

【0030】

続くＳ５０３では、顔検出部２０６からの検出完了割り込みを受けた制御部１０１は、検出結果として、検出された顔数と、それぞれの顔の位置、向き、サイズを、顔検出部２０６から取得する。

【0031】

そして、Ｓ５０４では、デフォーカス量画像を用いて、検出された顔それぞれについて、各顔に対応する顔領域に含まれる画素のデフォーカス量の平均を取得する事で、顔デフォーカス量を取得する。図６に示す例では、顔６０２～６０４に対応するデフォーカス量画像６１１における顔領域６１２～６１４それぞれに含まれる画素のデフォーカス量の平均をそれぞれ取得する。

【0032】

Ｓ５０５では、検出された顔それぞれに対し、回転処理部２０３により所定の顔の向きに揃え、拡大縮小処理部２０４により所定のサイズに揃え、最後にトリミング処理部２０５により所定の向き・サイズの矩形領域とした顔画像データを生成する。そのように生成された正規化済み顔画像データの様子を図７に示す。顔画像データ７０１、７０２、７０３はそれぞれ、検出された顔６０２、６０３、６０４の顔画像データに対する正規化済み顔画像データとなっている。

【0033】

続いて、Ｓ５０６において、生成された正規化済み顔画像データすべてについて、個人認証処理を行ったかどうかを判定し、生成された正規化済み顔画像データすべてについてＳ５０７～Ｓ５１０に示すの処理を繰り返す。

【0034】

まず、Ｓ５０７では、認証対象の顔、すなわち、１つの正規化済み顔画像データに対して、個人認証処理において特徴量データの照合に適用する辞書の選択を行う。この適用辞書の選択方法について、図８の表を用いて説明する。

【0035】

図８は、特徴量データの照合に適用する辞書の選択方法を示す表であって、正規化済み顔画像データの解像度とデフォーカス量との組み合わせにより、辞書Ａ１１４と辞書Ｂ１１５のいずれを用いるか、または、認証自体を行わないかを示している。ここでは、解像度を高・中・低とし、デフォーカス量を小・中・大とする。なお、解像度及びデフォーカス量を分類する際の具体的な閾値は、撮像装置やレンズの特性に応じて適宜設定すればよい。

【0036】

例えば、図７の顔画像データ７０１～７０３について、顔画像データ７０１及び７０２については、縮小する事によりサイズが正規化されたとすると、解像度高に分類される。一方、顔画像データ７０３については、少し拡大することによりサイズの正規化がなされたものとすると、解像度中に分類される。

【0037】

また、顔画像データ７０１～７０３に対応する、図６のデフォーカス量画像６１１における顔領域６１２～６１４では、デフォーカス量は全て小のため、全て、デフォーカス量小に分類される。

【0038】

解像度とデフォーカス量とを組み合わせる事で、図８の表から、解像度高、デフォーカス量小である顔画像データ７０１に対しては、辞書Ａが選択される。同様に、顔画像データ７０２についても、辞書Ａが選択される。更に、解像度中、デフォーカス量小である顔画像データ７０３に対しても、辞書Ａが選択される。この場合、結果的には全ての顔画像データに対して辞書Ａが選択されることになる。

【0039】

Ｓ５０８では、各顔画像データに対して、Ｓ５０７で選択された辞書を用いて照合を行うことで、個人認証を行う。辞書に登録済の顔と判定された場合には（Ｓ５０９でＹＥＳ）、その顔を主被写体候補として設定する（Ｓ５１０）。

【0040】

すべての顔画像データに対して、個人認証処理が完了すると（Ｓ５０６でＮＯ）、主被写体候補判定処理を終了する（Ｓ５１１）。

【0041】

この主被写体候補判定処理により、複数の顔が主被写体候補と判定された場合には、そのいずれかを主被写体とするかを決定するための主被写体決定処理が実行される。例えば、最も顔のサイズが大きい主被写体候補を主被写体候補として決定したり、あるいは辞書に登録する際に主被写体の優先度を登録しておくことで、より優先度の高いものを主被写体として決定したりするようにしてもよい。

【0042】

主被写体が決定されると、その被写体に対してフォーカスや露出が適正になるように撮像制御が行われる。

【0043】

ここで図８の表を用いて、辞書Ｂが選択されるケースや、「認証しない」が選択されるケースについて補足説明する。

【0044】

例えば、図８に示すように、解像度中、デフォーカス量小の場合、デフォーカス量が小さいにも関わらず辞書Ｂが選択される。その理由として、このような顔画像データは、個人認証処理のための顔画像データの正規化処理において、大きな拡大率での拡大処理がされている。このような拡大処理を、例えば線形補完のような方法で行う場合には、デフォーカス画像と似たようなボケたような画像になることから、辞書Ｂを選択した方が照合率が上がると考えらえるためである。

【0045】

また、「認証しない」については、正規化処理前の顔画像データの解像度が低すぎたり、デフォーカス量が大きすぎたり、またそれらの組み合わせにより、個人認証を正しく行うための情報が消失していると考えられるような顔画像データと判断できる。そのため、個人認証処理そのものを行わないように考慮して設定されている。

【0046】

続いて図５のＳ５０７における適用辞書選択処理において、顔毎に異なる辞書が選択される例を説明する。図９に、撮像画像９０１とデフォーカス量画像９１１を示す。撮像画像９０１の場合、顔９０３は他の顔９０２、９０４よりも遠くの位置にあり、そのサイズも若干小さく、また、顔９０３に対応する顔領域９１３のデフォーカス量も他の顔よりも大きめの状態（他の顔よりも黒く表示）を表している。このような画像の場合には、適用辞書選択処理（Ｓ５０７）では以下のような動作となる。

【0047】

顔９０２、９０４については、図６に示す顔６０２、６０４の状態と同様であるため、辞書Ａが選択される。一方、顔９０３は、図６に示す顔６０３よりも顔画像サイズが小さく、デフォーカス量が大きくなっているため、Ｓ５０３の正規化処理において、少し拡大された状態となる。正規化処理された顔９０３は、図７の顔７０４のようになる。この場合、図８の表において、解像度中、デフォーカス量中に対応した辞書Ｂが選択される。また、Ｓ５０８の個人認証処理では、辞書Ｂと照合して個人認証処理が実行される。辞書Ｂはデフォーカス量の大きめな顔画像データに対する特徴量が予め登録されているため、顔９０３に対しては、より適した個人認証処理となり、辞書Ａとの照合よりも適合率が上がり、正しく認証できる確率が高くなる。

【0048】

ここで、仮に顔９０２、９０４が未登録の顔と判定され、顔９０３のみ登録済の顔と判定された場合には、顔９０３が主被写体候補として設定される。従って、その後の主被写体決定処理において顔９０３の人物が主被写体と決定され、図１０のように顔１００２にフォーカスが移動される。このように、撮影者が所望するフォーカス状態に自動制御し、撮影することが可能となる。

【0049】

このように、本実施形態の撮像装置では、デフォーカス状態の顔画像に対しても、個人認証の成功率を高くすることができるため、主被写体とすべき人物に対するデフォーカス状態を解消するように制御することが可能となる。

【0050】

なお、本実施形態では、デフォーカス量画像を取得する方法として、図３に示したような、光学系の瞳の異なる領域から入射する光束間に生じる被写体像の位相差に基づいて生成する構成について説明したが、他の構成や方法を代用または併用しても良い。例えば、視点の異なる少なくとも２つ以上の多視点画像を取得するために、撮像系を複数のレンズ及び撮像素子で構成した複眼カメラとしても良い。また、ＴＯＦ（ＴｉｍｅＯｆＦｌｉｇｈｔ）カメラを付加する事で、模様の変化が乏しく、位相差情報が取得しにくい被写体に対する測距性能が向上するように構成しても良い。

【0051】

また本実施形態では、辞書Ａ、辞書Ｂという２種類の辞書を用いる場合で説明したが、より多くの種類の辞書を持つように構成しても良く、その場合は、図８の表における解像度及びデフォーカス量の分類数を増やす事で、辞書を切り替えるように構成しても良い

【0052】

＜第２の実施形態＞
次に、本発明の第２の実施形態について説明する。第２の実施形態では、第１の実施形態における個人認証処理部１１３に、いわゆるディープラーニングの手法であるニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を利用する場合について説明する。なお、第２の実施形態における撮像装置の構成は、図１乃至図３を参照して第１の実施形態で説明したものと同様であるため、説明を省略する。以下の説明では、第１の実施形態と異なる部分について説明する。

【0053】

はじめに、第２の実施形態におけるニューラルネットワークについて説明する。図１１はニューラルネットワークにおいて、画像分類への適用で有名なＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｗｒａｌＮｅｔｗｏｒｋ）を利用する例を示している。ＣＮＮは、複数の畳み込み層やプーリング層で構成されるネットワーク前半部分１１０２、１１０７と、全結合層で構成されるネットワーク後半部分１１０３、１１０８とに分けることができる。前半部分１１０２、１１０７は図１における特徴量抽出部１１６に相当する部分で、後半部分１１０３、１１０８は特徴量照合部１１７に相当する部分と考えることができる。

【0054】

このＣＮＮに対して顔画像データを入力すると、最終的にはＮ次元の出力値１１０４、１１０９が得られる。ここでＮは、それぞれのＣＮＮで識別・分類可能な個人数Ｎと同じである。特定の個人の顔画像データを入力した場合には、Ｎ次元の出力のうち、特定の要素の出力（例えば、図１１に示すＮ次元の出力値１１０４における「Ａ」）のみ高い値を出力するように、前半部分１１０２や後半部分１１０３のネットワークのパラメータを調整して学習させることで、それぞれの要素と個人を一対一で関連付けることができる。このような関連付けが完了したＣＮＮを、学習済ＣＮＮと呼ぶ。

【0055】

本実施形態では、学習済ＣＮＮを２種類用意する。図１１の例では、符号１１０２～１１０４で構成されるＣＮＮと、符号１１０７～１１０９で構成されるＣＮＮである。以降、それぞれをＣＮＮ大、ＣＮＮ小と呼んで区別する。ＣＮＮ大とＣＮＮ小は、入力させる顔画像データの正規化サイズが異なっており、ＣＮＮ小の方がサイズの小さな顔画像データを扱うものとする。それに合わせて符号１１０７の畳み込み層・プーリング層のネットワーク規模も小さいものとなっている。したがってＣＮＮ小で行われる演算処理も、ＣＮＮ大で行われる演算処理量よりも小さくて済むという違いがある。

【0056】

ＣＮＮ小に対して学習させる顔画像データ１１０５や１１０６は、ＣＮＮ大に学習させる顔画像データ１１０１を加工して生成する。具体的にはＣＮＮ小向けの正規化サイズに縮小した顔画像データ１１０５や、さらにデフォーカスフィルタをかけた後の顔画像データ１１０６を学習画像として用いる。このように学習させる事で、ＣＮＮ小については、低解像度の顔画像データやデフォーカス画像に対して最適化された学習が行われる事となる。本実施形態では、このように多数（Ｎ人）の個人に対する様々な顔画像データを用いて上記学習を実施済みのＣＮＮを使用する。

【0057】

続いて、第２の実施形態における辞書登録について図１２を用いて説明する。この辞書登録は、第１の実施形態で図４を参照して説明した処理に変えて行われる。

【0058】

本撮像装置の利用者は、撮像装置で所望の人物の顔画像を予め撮影しておき、その顔画像データから得られる特徴量データを辞書に登録しておく。顔画像登録の際には、顔にフォーカスが合った状態の顔画像１２０１と、フォーカスをあえてずらしたデフォーカス状態の顔画像１２０５を撮影する。顔画像１２０１の顔データに対しては、個人認証処理部１１３において、ＣＮＮ大に入力してその出力値を特徴量データとして辞書Ａに登録する。なお、ＣＮＮ大は学習済の顔データに対しては特定の要素のみ高い出力値を出力するが、新たに登録する顔画像データは未学習のため、Ｎ次元の出力値全てを特徴量データとして辞書に登録しておく。

【0059】

さらに顔画像１２０１の顔画像データをＣＮＮ小向けの正規化画像サイズに縮小した顔画像１２０４やデフォーカス状態の顔画像１２０５の顔画像データに対しては、ＣＮＮ小に入力させて、その出力値を特徴量データとして辞書Ｂに登録する。他の人物に対しても同様の辞書登録を行う。これにより、辞書Ａはフォーカスが合った状態の顔画像データとの照合に適した辞書となり、一方辞書Ｂはデフォーカス状態や低解像度の顔画像データの照合に適した辞書となる。

【0060】

上記のように登録された辞書を用いた主被写体候補判定処理は、第１の実施形態における図５の主被写体候補判定処理とほぼ同じであるが、Ｓ５０８の個人認証処理が第１の実施形態と異なる。以下、第２の実施形態における個人認証処理について説明する。

【0061】

Ｓ５０８の個人認証処理においては、Ｓ５０７で選択されたのが辞書Ａか辞書Ｂかに依存し、辞書Ａが選択された場合には、ＣＮＮ大向けのサイズに正規化された顔画像データに対してＣＮＮ大による個人認証処理を実行する。一方、辞書Ｂが選択された場合には、ＣＮＮ小向けのサイズに正規化された顔画像データに対してＣＮＮ小による個人認証処理を実行する。

【0062】

このように、第２の実施形態によれば、辞書の切り替えだけではなく、個人認証処理自体も切り替えることで、より精度の高い認証が行えるようになる。また、先に説明した通りＣＮＮ小による認証処理はＣＮＮ大による認証処理よりも演算量が少なくて済むため、辞書Ｂが選択された場合には、個人認証処理の演算負荷を小さくすることができる。

【0063】

なお、上述した例では、人物の顔を抽出して個人認証を行う場合について説明したが、認証を行う対象は、人物に限られるものでは無い。例えば、ペットや車両等、所望の被写体の認証を行うようにしてもよい。

【0064】

＜他の実施形態＞
なお、本発明は、複数の機器から構成されるシステムに適用しても、一つの機器からなる装置に適用してもよい。

【0065】

また、本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【0066】

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

【符号の説明】

【0067】

１０１：制御部（ＣＰＵ）、１０２：レンズ、１０３：撮像素子、１０４：信号処理部、１０５：ＪＰＥＧ符号／復号化部、１０６：メモリカードコントローラ、１０８：フラッシュメモリ、１０９：メモリ、１１１：画像処理エンジン、１１２：表示部、１１３：個人認証処理部、１１４：辞書Ａ、１１５：辞書Ｂ、１１６：特徴量抽出部、１１７：特徴量照合部、２０１：現像処理部、２０２：デフォーカス情報生成部、２０３：回転処理部、２０４：拡大縮小処理部、２０５：トリミング処理部、２０６：顔検出部、３０１：マイクロレンズ、３０２：画素

【図1】