特許7513094 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7513094検出装置、学習装置、検出方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-01

(45)【発行日】2024-07-09

(54)【発明の名称】検出装置、学習装置、検出方法及びプログラム

(51)【国際特許分類】

G06F 18/213 20230101AFI20240702BHJP

G06N 3/045 20230101ALI20240702BHJP

G06N 3/084 20230101ALI20240702BHJP

G06V 10/82 20220101ALI20240702BHJP

G06V 40/16 20220101ALI20240702BHJP

G10L 15/16 20060101ALI20240702BHJP

【ＦＩ】

G06F18/213

G06N3/045

G06N3/084

G06V10/82

G06V40/16

G10L15/16

【請求項の数】 9

(21)【出願番号】P 2022533017

(86)(22)【出願日】2020-07-03

(86)【国際出願番号】 JP2020026278

(87)【国際公開番号】W WO2022003982

(87)【国際公開日】2022-01-06

【審査請求日】2022-12-09

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100107331

【弁理士】

【氏名又は名称】中村聡延

(74)【代理人】

【識別番号】100104765

【弁理士】

【氏名又は名称】江上達夫

(74)【代理人】

【識別番号】100131015

【弁理士】

【氏名又は名称】三輪浩誉

(72)【発明者】

【氏名】高橋巧一

【審査官】多賀実

(56)【参考文献】

【文献】米国特許出願公開第２０２０／００１２８８７（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１４／０２５７８０５（ＵＳ，Ａ１）

【文献】国際公開第２０１６／０２６０６３（ＷＯ，Ａ１）

【文献】特開平０９－０６５０３２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｇ０６Ｆ１８／００－１８／４０

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｖ１０／００－４０／７０

Ｇ１０Ｌ１５／１６

(57)【特許請求の範囲】

【請求項1】

検出対象に関するデータを取得する取得手段と、
前記検出対象が有する属性の複数の候補に共通する共通特徴量を、前記データから抽出する共通特徴量抽出手段と、
前記共通特徴量に基づき、前記複数の候補の各々に対する前記検出対象の特徴情報を検出する特徴情報検出手段と、
前記データに基づき、前記属性を判別する属性判別手段と、
判別された前記属性に対応する前記特徴情報を出力する出力手段と、
を有する検出装置。

【請求項2】

前記共通特徴量抽出手段は、前記データを入力した場合に前記共通特徴量に関する情報を出力するように学習されたニューラルネットワークに基づき、前記共通特徴量を生成する、請求項１に記載の検出装置。

【請求項3】

前記特徴情報検出手段及び前記属性判別手段は、共通のパラメータにより構成された前記ニューラルネットワークから出力される共通の出力結果に基づき、夫々の処理を実行する、請求項２に記載の検出装置。

【請求項4】

前記特徴情報検出手段は、前記ニューラルネットワークの出力結果が入力された場合に、前記特徴情報を出力するように前記複数の候補ごとに学習された検出器に基づき、前記複数の候補の各々に対する前記特徴情報を検出し、
前記属性判別手段は、前記ニューラルネットワークの出力結果が入力された場合に、前記属性の判別結果を出力するように学習された判別器に基づき、前記属性を判別する、請求項２または３に記載の検出装置。

【請求項5】

前記複数の候補の各々に対する前記検出器と、前記判別器とは、前記ニューラルネットワークのパラメータを共有して学習される、請求項４に記載の検出装置。

【請求項6】

前記共通特徴量抽出手段は、前記データを入力した場合に前記共通特徴量に関する情報を出力するように学習されたニューラルネットワークである第１ニューラルネットワークと、前記データを入力した場合に前記属性判別手段に入力する特徴量を出力するように学習されたニューラルネットワークである第２ニューラルネットワークとを含む、請求項１または２に記載の検出装置。

【請求項7】

前記特徴情報検出手段は、前記第１ニューラルネットワークの出力結果が入力された場合に、前記特徴情報を出力するように前記複数の候補ごとに学習された検出器に基づき、前記複数の候補の各々に対する前記特徴情報を検出し、
前記複数の候補の各々に対する前記検出器は、前記第１ニューラルネットワークのパラメータを共有して学習される、請求項６に記載の検出装置。

【請求項8】

コンピュータにより、
検出対象に関するデータを取得し、
前記検出対象が有する属性の複数の候補に共通する共通特徴量を、前記データから抽出し、
前記共通特徴量に基づき、前記複数の候補の各々に対する前記検出対象の特徴情報を検出し、
前記データに基づき、前記属性を判別し、
判別された前記属性に対応する前記特徴情報を出力する、
検出方法。

【請求項9】

検出対象に関するデータを取得し、
前記検出対象が有する属性の複数の候補に共通する共通特徴量を、前記データから抽出し、
前記共通特徴量に基づき、前記複数の候補の各々に対する前記検出対象の特徴情報を検出し、
前記データに基づき、前記属性を判別し、
判別された前記属性に対応する前記特徴情報を出力する処理をコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、検出対象の特徴を検出する処理を行う検出装置、検出方法及び記憶媒体の技術分野に関する。

【背景技術】

【0002】

顔特徴点検出は顔画像から目の瞳中心などの特徴点を検出する技術であり、検出された顔特徴点情報は顔認証や表情分析などに利用される。精度よく顔認証や表情分析を行うためには、目や鼻、口の位置や形状を正確に知ることが必要不可欠である。非特許文献１～非特許文献５には、顔特徴点検出に関連する技術が開示されている。

【先行技術文献】

【非特許文献】

【0003】

【文献】Zhen-Hua Feng, Josef Kittler, Muhammad Awais, Patrik Huber, Xiao-Jun Wu, 「Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks」, Computer Vision and Pattern Recognition, 2018.

【文献】Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, 「Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields」, Computer Vision and Pattern Recognition, 2018.

【文献】Wenyan Wu, Shuo Yang, 「Leveraging Intra and Inter-Dataset Variations for Robust Face Alignment」, Computer Vision and Pattern Recognition, 2017.

【文献】Paul Viola, Michael Jones, 「Rapid Object Detection Using a Boosted Cascade of Simple Features」, Computer Vision and Pattern Recognition, 2011.

【文献】Karen Simonyan, Andrew Zisserman, 「Very Deep Convolutional Networks for Large-Scale Image Recognition」, International Conference on Learning Representations, 2015.

【発明の概要】

【発明が解決しようとする課題】

【0004】

横を向いた人物の顔認証や表情分析では、画面に向かって奥側の目や口角が見えなくなるため、正面顔の場合と横顔の場合とで使用する特徴点を切り替える必要がある。人物の顔以外においても、検出対象が一時的または部分的に異なる属性を有する場合には、検出対象の属性に応じて、検出対象の特徴点又は特徴量等を検出する必要がある。

【0005】

本開示の目的は、上記の課題を勘案し、検出対象の複数の属性に対応可能な特徴の検出を好適に行うことが可能な検出装置、検出方法及び記憶媒体を提供することである。

【課題を解決するための手段】

【0006】

検出装置の一の態様は、検出対象に関するデータを取得する取得手段と、
前記検出対象が有する属性の複数の候補に共通する共通特徴量を、前記データから抽出する共通特徴量抽出手段と、
前記共通特徴量に基づき、前記複数の候補の各々に対する前記検出対象の特徴情報を検出する特徴情報検出手段と、
前記データに基づき、前記属性を判別する属性判別手段と、
判別された前記属性に対応する前記特徴情報を出力する出力手段と、
を有する検出装置である。

【0007】

検出方法の一の態様は、コンピュータにより、
検出対象に関するデータを取得し、
前記検出対象が有する属性の複数の候補に共通する共通特徴量を、前記データから抽出し、
前記共通特徴量に基づき、前記複数の候補の各々に対する前記検出対象の特徴情報を検出し、
前記データに基づき、前記属性を判別し、
判別された前記属性に対応する前記特徴情報を出力する、
検出方法である。

【0008】

プログラムの一の態様は、検出対象に関するデータを取得し、
前記検出対象が有する属性の複数の候補に共通する共通特徴量を、前記データから抽出し、
前記共通特徴量に基づき、前記複数の候補の各々に対する前記検出対象の特徴情報を検出し、
前記データに基づき、前記属性を判別し、
判別された前記属性に対応する前記特徴情報を出力する処理をコンピュータに実行させるプログラムである。

【図面の簡単な説明】

【0010】

【図1】第１実施形態における顔特徴点検出装置の機能的な構成を示すブロック図である。

【図2】第１実施形態における顔特徴点検出装置の動作の手順を示すフローチャートの一例である。

【図3】正面向きの顔画像を示す。

【図4】右向きの顔画像を示す。

【図5】左向きの顔画像を示す。

【図6】図３で示した正面向きの顔画像に対して、正面用顔特徴点を明示した図である。

【図7】図４で示した右向きの顔画像に対して、右向き用顔特徴点を明示した図である。

【図8】図５で示した左向きの顔画像に対して、左向き用顔特徴点を明示した図である。

【図9】顔特徴点検出装置のハードウェア構成の一例である。

【図10】ネットワークの全体構成図である。

【図11】図１０に示されるネットワークの学習方法の概要図である。

【図12】図１１に示される学習方法の手順を示すフローチャートの一例である。

【図13】第２実施形態における検出装置のブロック構成図である。

【図14】第２実施形態における検出装置の処理手順を示すフローチャートの一例である。

【図15】第３実施形態における顔特徴点検出装置の共通特徴量抽出手段、顔特徴点検出手段及び顔向き判別手段に関する構成図である。

【図16】第４実施形態における顔特徴点検出装置の共通特徴量抽出手段、顔特徴点検出手段及び顔向き判別手段に関する構成図である。

【図17】第４実施形態における顔共通特徴量抽出手段、顔特徴点検出手段及び顔向き判別手段の学習方法の概要図である。

【図18】第４実施形態における学習装置による学習処理の手順を示すフローチャートの一例である。

【図19】第５実施形態における顔特徴点検出装置の機能的な構成を示すブロック図である。

【発明を実施するための形態】

【0011】

以下、図面を参照しながら、検出装置、検出方法及び記憶媒体の実施形態について説明する。

【0012】

＜第１実施形態＞
（１）機能ブロック
図１は、第１実施形態における顔特徴点検出装置１の機能的な構成を示すブロック図である。第１実施形態における顔特徴点検出装置１は、機能的には、画像入力手段１１と、顔検出手段１２と、共通特徴量抽出手段１３と、顔特徴点検出手段１４と、顔向き判別手段１５と、顔特徴点結果出力手段１６とを有する。なお、図１では、データの授受が行われるブロック同士を実線により結んでいるが、データの授受が行われるブロックの組合せは図１に限定されない。後述する他の機能ブロックの図においても同様である。

【0013】

画像入力手段１１は、処理対象となる画像（「処理対象画像」とも呼ぶ。）を取得する。画像入力手段１１は、処理対象画像として、少なくとも人の顔を示した画像（顔画像）を取得する。画像入力手段１１は、処理対象画像を、顔特徴点検出装置１とは別の外部装置から、有線若しくは無線による直接通信又はネットワークを介した通信により受信してもよく、顔特徴点検出装置１に内蔵されたメモリ等から抽出してもよい。画像入力手段１１は、取得した処理対象画像を、顔検出手段１２に供給する。

【0014】

顔検出手段１２は、画像入力手段１１が取得した処理対象画像から顔領域を検出する。この場合、顔検出手段１２は、任意の顔検出手法を用いて、顔領域の検出を行ってもよい。顔領域は、例えば、処理対象画像中の人物の顔全体を内包するバウンディングボックスとして定義されてもよく、矩形以外の任意の形状により区分けされてもよい。顔検出手段１２は、検出した顔領域を示す情報（「顔領域情報」とも呼ぶ。）を、共通特徴量抽出手段１３に供給する。顔領域情報は、例えば、処理対象画像から顔領域部分を抽出した画像又は当該画像のサイズを正規化した画像である。

【0015】

共通特徴量抽出手段１３は、予め学習されたニューラルネットワークによって、顔検出手段１２が検出した顔領域情報に基づき、顔の向きの候補毎の顔特徴点検出において共通して使用される特徴量（「共通特徴量」とも呼ぶ。）を抽出する。第１実施形態では、一例として、顔の向きの候補は、正面向き、右向き、左向きの３種類であるものとする。また、顔の向きの候補毎の顔特徴点検出として、正面向き用の顔特徴点検出、右向き用の顔特徴点検出、及び、左向き用顔特徴点検出が行われる。

【0016】

そして、上記のニューラルネットワークには、各顔特徴点検出において共通のパラメータが適用される。上記のニューラルネットワークは、顔領域情報が入力された場合に、共通特徴量に関する情報を出力するように予め学習されており、学習により得られた重み等のパラメータが共通特徴量抽出手段１３により参照可能に記憶されている。共通特徴量抽出手段１３は、抽出した共通特徴量を、顔特徴点検出手段１４及び顔向き判別手段１５に供給する。そして、顔特徴点検出手段１４及び顔向き判別手段１５は、共通特徴量抽出手段１３が生成した共通特徴量を共用し（即ち共通の共通特徴量を用い）、夫々の処理を実行する。

【0017】

顔特徴点検出手段１４は、共通特徴量抽出手段１３が抽出した共通特徴量に基づき、正面向き用顔特徴点検出、右向き用顔特徴点検出及び左向き用顔特徴点検出を夫々行う。ここで、正面向き用顔特徴点検出において検出される顔特徴点は、顔の器官や骨格などの情報によって定義されており、例えば、瞳中心、鼻の頭頂部などが該当する。また、右向き用顔特徴点検出では、顔が右を向いていることにより顔の右半分が見えなくなるため、左目の瞳中心、鼻の頭頂部などが顔特徴点として検出される。また、左向き用顔特徴点検出では、顔が左を向いていることにより顔の左半分が見えなくなるため、右目の瞳中心、鼻の頭頂部などが顔特徴点として検出される。顔特徴点検出手段１４は、各顔特徴点検出の検出結果を、顔特徴点結果出力手段１６に供給する。

【0018】

顔向き判別手段１５は、共通特徴量抽出手段１３が抽出した共通特徴量に基づき、処理対象画像に示された顔の向きの判別を行う。本実施形態では、顔の向きの候補が正面向き、右向き、左向きの３つであることから、顔向き判別手段１５は、処理対象画像に示された顔の向きがこれらの３つの候補のいずれであるかを判別する。顔向き判別手段１５は、例えば、ニューラルネットワークにより構成される。このニューラルネットワークの具体的な構成例及び学習方法については、図１０～図１２を参照して後述する。顔向き判別手段１５は、顔の向きの判別結果を、顔特徴点結果出力手段１６に供給する。

【0019】

顔特徴点結果出力手段１６は、顔特徴点検出手段１４が出力する顔の向きの候補毎の顔特徴点検出の検出結果から、顔向き判別手段１５が判別した顔の向きに対応する顔特徴点の検出結果を選択する。そして、顔特徴点結果出力手段１６は、選択した顔特徴点を示す情報（「顔特徴点情報」とも呼ぶ。）を出力する。

【0020】

なお、顔特徴点検出装置１は、複数の装置により構成されてもよい。即ち、画像入力手段１１と、顔検出手段１２と、共通特徴量抽出手段１３と、顔特徴点検出手段１４と、顔向き判別手段１５と、顔特徴点結果出力手段１６とは、複数の装置により構成された顔特徴点検出装置１により実現されてもよい。この場合、顔特徴点検出装置１を構成する複数の装置は、予め割り当てられた処理を実行するために必要な情報の授受を、有線又は無線での直接通信により又はネットワークを介した通信により他の装置と行う。

【0021】

（２）処理フロー
図２は、第１実施形態における顔特徴点検出装置１の動作の手順を示すフローチャートの一例である。

【0022】

まず、顔特徴点検出装置１の画像入力手段１１は、人物の顔画像を、処理対象画像として取得する（ステップＳ１１１）。次に、顔検出手段１２は、入力された処理対象画像から顔領域を検出する（ステップＳ１１２）。

【0023】

次に、共通特徴量抽出手段１３は、顔検出手段１２が生成した顔領域情報から、ニューラルネットワークによって、正面向き用・右向き用・左向き用の各顔特徴点検出に共通して使用される共通特徴量を計算（抽出）する（ステップＳ１１３）。

【0024】

次に、顔特徴点検出手段１４は、ステップＳ１１３で計算した共通特徴量に基づき、顔の向きの候補毎の顔特徴点を検出する（ステップＳ１１４）。具体的には、顔特徴点検出手段１４は、正面向き用顔特徴点検出、右向き用顔特徴点検出及び左向き用顔特徴点検出を夫々行い、正面向き用、右向き用及び左向き用の顔特徴点を検出する。

【0025】

次に、顔向き判別手段１５は、ステップＳ１１３で抽出した共通特徴量に基づき、処理対象画像に示された顔の向きを判別する（ステップＳ１１５）。

【0026】

次に、顔特徴点結果出力手段１６は、ステップＳ１１４及びステップＳ１１５の処理結果に基づき、顔特徴点検出結果を出力する（ステップＳ１１６）。具体的には、顔特徴点結果出力手段１６は、ステップＳ１１４で検出された正面向き用顔特徴点、右向き用顔特徴点、左向き用顔特徴点のうち、ステップＳ１１５で判別された顔の向きに対応する顔特徴点を選択する。そして、顔特徴点結果出力手段１６は、選択した顔特徴点を示す顔特徴点情報を、顔特徴点検出結果として出力する。

【0027】

（３）実施例
次に、本実施形態における顔特徴点検出装置１の具体的な動作及び構成を示す実施例について説明する。まず、図２を引き続き参照し、顔特徴点検出装置１が実行する具体的な動作について説明する。

【0028】

（３－１）ステップＳ１１１
ステップＳ１１１では、画像入力手段１１は、人物の顔を含む顔画像を処理対象画像として取得する。本実施例では、画像入力手段１１は、処理対象画像として、正面向きの顔画像、右向きの顔画像または左向きの顔画像のいずれかを取得する。図３は、正面向きの顔画像を示す。図４は、右向きの顔画像を示す。図５は、左向きの顔画像を示す。

【0029】

（３－２）ステップＳ１１２
ステップＳ１１２では、顔検出手段１２は、入力された画像から顔領域を検出し、顔領域画像として処理対象画像からクロップする。この場合、顔検出手段１２は、非特許文献４に開示されている顔検出手法、又はその他の種々の顔検出手法を用いて、顔領域の検出を行ってもよい。

【0030】

（３－３）ステップＳ１１３
ステップＳ１１３では、共通特徴量抽出手段１３は、畳み込みニューラルネットワークの入力層から最終隠れ層までを使用した構造をもつ畳み込みニューラルネットワークを使用して、共通特徴量の抽出を行う。共通特徴量抽出手段１３は、上記の畳み込みニューラルネットワークとして、例えば、非特許文献５に開示されているＶＧＧネットワークを使用する。ＶＧＧネットワークの場合、最終隠れ層は１０００個のニューロンを持つ全結合層であり、１０００次元の特徴量が抽出される。なお、共通特徴量抽出手段１３は、ＶＧＧネットワーク以外の任意の畳み込みニューラルネットワークを用いてもよい。

【0031】

（３－４）ステップＳ１１４
ステップＳ１１４では、顔特徴点検出手段１４は、共通特徴量抽出手段１３で抽出された特徴量から、正面向き用・右向き用・左向き用の顔特徴点検出を行う。それぞれの顔特徴点の定義は、顔の器官や骨格などの情報によって決定される。検出される顔特徴点は、特徴点ごとに、画像（詳しくは処理対象画像又は顔領域画像）内の座標を示すｘ座標およびｙ座標の二つの数字の組で表現される。

【0032】

図６は、図３で示した正面向きの顔画像に対して、正面向き用の顔特徴点を明示した図である。図６は、検出対象の５点の特徴点Ｐ１～Ｐ５を×印により示している。ここで、特徴点Ｐ１、Ｐ２は、両目の瞳中心に相当し、特徴点Ｐ３は、鼻の頭頂部に相当し、特徴点Ｐ４、Ｐ５は、両口角に相当する。

【0033】

図７は、図４で示した右向きの顔画像に対して、右向き用の顔特徴点を明示した図である。図７は、検出対象の３点の特徴点Ｐ２、Ｐ３、Ｐ５を×印により示している。ここで、特徴点Ｐ２は、左目の瞳中心に相当し、特徴点Ｐ３は、鼻の頭頂部に相当し、特徴点Ｐ５は、左口角に相当する。なお、図６に示した正面用顔特徴点のうち、右目の瞳中心と右口角の２点の特徴点Ｐ１、Ｐ４は、顔が右を向いてしまっているため見えず、使用しない。

【0034】

図８は、図５で示した左向きの顔画像に対して、左向き用顔特徴点を明示した図である。図８は、検出対象の３点の特徴点Ｐ１、Ｐ３、Ｐ４を×印により示している。ここで、特徴点Ｐ１は、右目の瞳中心に相当し、特徴点Ｐ３は、鼻の頭頂部に相当し、特徴点Ｐ４は、右口角に相当する。なお、図６に示した正面用顔特徴点のうち、左目の瞳中心と右口角の２点の特徴点Ｐ２、Ｐ５は、顔が左を向いてしまっているため見えず、使用しない。

【0035】

図６～図８に示すように特徴点が定義されている場合、顔特徴点検出手段１４は、５点の正面用顔特徴点の座標として、５点分のｘ座標及びｙ座標を夫々示す１０個の数値を出力する。さらに、顔特徴点検出手段１４は、３点の右向き用顔特徴点の座標として、３点分のｘ座標及びｙ座標を夫々示す６個の数値を出力し、３点の左向き用顔特徴点の座標として、３点分のｘ座標及びｙ座標を夫々示す６個の数値を出力する。この場合、顔特徴点検出手段１４は、例えば、共通特徴量抽出手段１３を構成するＶＧＧネットワークの１０００個のニューロンの出力を入力とし、正面向き用の顔特徴点として１０個のニューロンを持つ全結合層、右向き用の顔特徴点として６個のニューロンを持つ全結合層、左向き用の顔特徴点として６個のニューロンを持つ全結合層をそれぞれ接続したネットワークを構成する。顔特徴点検出手段１４の具体的な構成例については、後述の図１０を参照して説明する。

【0036】

（３－５）ステップＳ１１５
ステップＳ１１５では、顔向き判別手段１５は、共通特徴量抽出手段１３で抽出された特徴量に基づき、顔の向きの判別を行う。この場合、顔向き判別手段１５は、予め定められた顔の向きの候補（本実施形態では正面、右、左の３個の候補）から、確からしさが最も高い顔の向きの候補を、処理対象画像における顔の向きとして判別する。顔の向きは、一例では、４５度以上右を向いた場合を右向き、４５度以上左を向いた場合を左向き、それ以外を正面向きと定義される。

【0037】

判別された顔の向きを示す情報は、それぞれの顔向きの確からしさを確率として持つ３個のニューロンにより示される。この場合、顔向き判別手段１５は、例えば、共通特徴量抽出手段１３で抽出されたＶＧＧネットワークの１０００個のニューロンの出力を入力とし、３つの顔の向きの候補（正面、右、左）に夫々対応する３個のニューロンを持つ全結合層と、Ｓｏｆｔｍａｘ層とを直列に接続したネットワークにより実現される。上記ネットワークは、共通特徴量抽出手段１３で抽出されたＶＧＧネットワークの１０００個のニューロンの出力が入力された場合に、顔向きの各候補に対する確からしさを示す確率（確信度）を出力する。そして、正面向きの０．９、右向きが０．１、左向きが０．０と出力されたとすると、顔向き判別手段１５は、最も確率が高い正面向きを、処理対象画像における顔の向きとして判別する。顔向き判別手段１５の具体的な構成例については、後述の図１０を参照して説明する。

【0038】

（３－６）ステップＳ１１６
ステップＳ１１６では、顔特徴点結果出力手段１６は、顔特徴点検出手段１４で検出された各顔の向きの３つの候補に対応する顔特徴点のうち、顔向き判別手段１５で判別された顔向きの顔特徴点を選択し、選択した顔特徴点を示す顔特徴点情報をディスプレイなどに出力する。

【0039】

なお、顔特徴点結果出力手段１６は、顔特徴点情報をディスプレイに表示する代わりに、顔特徴点検出装置１内の他の処理ブロックに供給してもよく、顔特徴点検出装置１内又は顔特徴点検出装置１と接続するメモリ（記憶装置）に記憶してもよく、顔特徴点検出装置１以外の外部装置に送信してもよい。上述の処理ブロック又は外部装置は、例えば、顔特徴点情報を、予め登録された人物の顔の特徴点のデータベースと照合することで人を識別する顔認証を行う認証ブロック又は認証装置などであってもよい。上記の処理ブロックは、特徴情報に基づき、検出対象に関する識別を行う識別手段の一例である。

【0040】

（３－７）顔特徴点検出装置のハードウェア構成
図９は、顔特徴点検出装置１のハードウェア構成の一例である。顔特徴点検出装置１は、ハードウェアとして、プロセッサ５と、メモリ６と、インターフェース７とを含む。プロセッサ５、メモリ６及びインターフェース７は、データバス８を介して接続されている。

【0041】

プロセッサ５は、メモリ６に記憶されているプログラムを実行することにより、顔特徴点検出装置１の全体の制御を行うコントローラ（演算装置）として機能する。プロセッサ５は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＴＰＵ（Tensor Processing Unit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）、量子プロセッサなどのプロセッサである。プロセッサ５は、複数のプロセッサから構成されてもよい。プロセッサ５は、コンピュータの一例である。

【0042】

メモリ６は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ６には、顔特徴点検出装置１が実行する処理を実行するためのプログラムが記憶される。また、メモリ６には、顔検出手段１２、共通特徴量抽出手段１３、顔特徴点検出手段１４、顔向き判別手段１５を夫々機能させるために必要なパラメータが記憶されている。例えば、メモリ６は、共通特徴量抽出手段１３がニューラルネットワークを構成するために必要なパラメータを記憶している。上記のパラメータは、例えば、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの各種パラメータを含む。パラメータは、機械学習により顔特徴点検出装置１又は他の装置により生成された後、メモリ６に記憶されている。なお、パラメータは、顔特徴点検出装置１が参照可能であればよく、顔特徴点検出装置１以外の１又は複数の外部装置（記憶媒体を含む）により記憶されてもよい。

【0043】

インターフェース７は、顔特徴点検出装置１と他の装置とを電気的に接続するためのインターフェースである。これらのインターフェースは、他の装置とデータの送受信を無線により行うためのネットワークアダプタなどのワイアレスインタフェースであってもよく、他の装置とケーブル等により接続するためのハードウェアインターフェースであってもよい。

【0044】

なお、顔特徴点検出装置１のハードウェア構成は、図９に示す構成に限定されない。例えば、顔特徴点検出装置１は、入力装置、ディスプレイなどの表示装置、音出力装置の少なくとも一方を含んでもよい。

【0045】

ここで、図１において説明した画像入力手段１１、顔検出手段１２、共通特徴量抽出手段１３、顔特徴点検出手段１４、顔向き判別手段１５及び顔特徴点結果出力手段１６の各要素は、例えば、プロセッサ５がプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素の少なくとも一部は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組合せ等により実現してもよい。また、これらの各構成要素の少なくとも一部は、例えばＦＰＧＡ（field-programmable gate array）又はマイクロコントローラ等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。また、各構成要素の少なくとも一部は、ＡＳＳＰ（Application Specific Standard Produce）やＡＳＩＣ（Application Specific Integrated Circuit）により構成されてもよい。このように、上述の各構成要素は、種々のハードウェアにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。

【0046】

（３－８）ネットワークの構成及び学習
図１０は、第１実施形態において共通特徴量抽出手段１３、顔特徴点検出手段１４及び顔向き判別手段１５により構成されるネットワークの全体構成図である。図１０に示されるネットワークは、共通特徴量抽出手段１３の畳み込みニューラルネットワーク３１と、顔特徴点検出手段１４の顔向きの３つの候補に夫々対応する全結合層４１～４３と、顔向き判別手段１５の全結合層５１及びＳｏｆｔｍａｘ層５２とを含む。

【0047】

全結合層４１～４３及び全結合層５１は、畳み込みニューラルネットワーク３１の出力を共用するように並列に配置されている。そして、全結合層４１は、正面向き用顔特徴点として１０個の数値を出力し、全結合層４２は、右向き用顔特徴点として６個の数値を出力し、全結合層４３は、左向き用顔特徴点として６個の数値を出力する。このように、全結合層４１～４３は、それぞれ、畳み込みニューラルネットワーク３１の出力結果が入力された場合に顔の向きの候補毎の顔特徴点を出力するように学習されたモデル（顔特徴点の検出器）である。

【0048】

全結合層５１は、顔向きの３つの候補に夫々対応する３つの出力をＳｏｆｔｍａｘ層５２に入力し、Ｓｏｆｔｍａｘ層５２は、顔向きの３つの候補に夫々対応する確からしさを示す確率を出力する。全結合層５１は、畳み込みニューラルネットワーク３１の出力結果が入力された場合に顔の向きの判別結果を出力するように学習されたモデル（顔の向きの判別器）である。

【0049】

図１１は、図１０に示される畳み込みニューラルネットワーク３１の学習方法の概要図である。なお、図１０に示される畳み込みニューラルネットワーク３１の学習は、顔特徴点検出装置１により行われてもよく、顔特徴点検出装置１以外の装置により行われてもよい。ここで、畳み込みニューラルネットワーク３１Ａ～３１Ｄは、図１０に示す畳み込みニューラルネットワーク３１を学習により生成する過程で一時的に生成する畳み込みニューラルネットワークである。

【0050】

学習では、顔向きの３つ候補に対応する顔特徴点検出と顔向き判別とに夫々対応する４つの異なるタスクを取り扱っており、これらのタスクの学習を個別に行う場合にはタスク数と同数の４本のネットワークの学習が必要となる。

【0051】

まず、正面向き用の顔特徴点検出のタスクでは、顔領域画像と正面向き用の顔特徴点の座標の正解値とのペアが登録された正面用顔特徴点学習ＤＢ（ＤａｔａＢａｓｅ）６１を参照し、直列に接続した畳み込みニューラルネットワーク３１Ａと全結合層４１との学習を行う。この場合、例えば、顔領域画像を畳み込みニューラルネットワーク３１Ａに入力した場合に全結合層４１から出力される１０個の座標値と正解の座標値との損失（例えばＬ１ロス）が最小となるように、畳み込みニューラルネットワーク３１Ａと全結合層４１の重みパラメータを決定する。なお、損失を最小化するように上述のパラメータを決定するアルゴリズムは、勾配降下法や誤差逆伝播法などの機械学習において用いられる任意の学習アルゴリズムであってもよい。

【0052】

次に、右向き用顔特徴点検出のタスクでは、顔領域画像と右向き用顔特徴点座標の正解値とのペアが登録された右向き用顔特徴点学習ＤＢ６２を参照し、直列に接続した畳み込みニューラルネットワーク３１Ｂと全結合層４２との学習を行う。この場合、例えば、顔領域画像をニューラルネットワーク３１Ｂに入力した場合に全結合層４２から出力される６個の座標値と正解の座標値とのＬ１ロスが最小となるように、畳み込みニューラルネットワーク３１Ｂと全結合層４２の重みパラメータを決定する。

【0053】

次に、左向き用顔特徴点検出のタスクでは、顔領域画像と左向き用顔特徴点の座標の正解値とのペアが登録された左向き用顔特徴点学習ＤＢ６３を参照し、直列に接続した畳み込みニューラルネットワーク３１Ｃと全結合層４３との学習を行う。この場合、例えば、顔領域画像をニューラルネットワーク３１Ｃに入力した場合に全結合層４３から出力される６個の座標値と正解の座標値とのＬ１ロスが最小となるように、畳み込みニューラルネットワーク３１Ｃと全結合層４３の重みパラメータを決定する。

【0054】

次に、顔向き判別のタスクでは、顔領域画像と顔向きの正解値（正解ラベル）とのペアが登録された顔向き判別用学習ＤＢ６４を参照し、この順により直列に接続した畳み込みニューラルネットワーク３１Ｄと全結合層５１とＳｏｆｔｍａｘ層５２との学習を行う。この場合、例えば、顔領域画像を畳み込みニューラルネットワーク３１Ｄに入力した場合にＳｏｆｔｍａｘ層５２から出力される３個の確率に関する損失（例えばＣｒｏｓｓ－Ｅｎｔｒｏｐｙロス）が最小となるように、畳み込みニューラルネットワーク３１Ｄと全結合層５１とＳｏｆｔｍａｘ層５２とのパラメータを決定する。

【0055】

本実施形態では、各タスクにおいて使用される畳み込みニューラルネットワーク３１Ａ～３１Ｄはいずれも同じ構造であり、重みを共通として同時学習を行う。これにより、学習が完了するとタスクと同数の４本のネットワークが得られるが、畳み込みニューラルネットワーク３１Ａ～３１Ｄのパラメータは４本のネットワークとも同一となる。したがって、学習後、畳み込みニューラルネットワーク３１Ａ～３１Ｄをどれか一つ選択し、その出力と、各全結合層４１～４３、５１の入力とを接続することで、図１０に示されるような、単一のネットワークを構成することができる。また、４つのタスクは全て顔の特徴抽出に関連するタスクであり、同時学習することでマルチタスク学習の効果によって、精度よく顔特徴点を検出可能なパラメータを取得することが期待できる。ここで、「同時学習」とは、図１０に示すニューラルネットワーク３１を生成するために４つのタスクを順不同により行うことを指し、必ずしも同じタイミングにより学習することを必要としない。

【0056】

図１２は、図１１に示す処理を実行する学習装置による学習処理の手順を示すフローチャートの一例である。学習装置は、顔特徴点検出装置１であってもよく、顔特徴点検出装置１以外の装置であってもよい。

【0057】

まず、学習装置は、正面用顔特徴点学習ＤＢ６１を参照し、直列に接続した畳み込みニューラルネットワーク３１Ａと全結合層４１との学習を行う（ステップＳ１５１）。次に、学習装置は、右向き用顔特徴点学習ＤＢ６２を参照し、直列に接続した畳み込みニューラルネットワーク３１Ｂと全結合層４２との学習を行う（ステップＳ１５２）。さらに、学習装置は、左向き用顔特徴点学習ＤＢ６３を参照し、直列に接続した畳み込みニューラルネットワーク３１Ｃと全結合層４３との学習を行う（ステップＳ１５３）。さらに、学習装置は、顔向き判別用学習ＤＢ６４を参照し、この順により直列に接続した畳み込みニューラルネットワーク３１Ｄと全結合層５１とＳｏｆｔｍａｘ層５２との学習を行う（ステップＳ１５４）。なお、ステップＳ１５１～ステップＳ１５４の処理は、順不同であり、順番が入れ替わって行われてもよい。また、ステップＳ１５１～ステップＳ１５４の各ステップで用いられる入力用データと正解データとの組数は、１組分であってもよく、所定組数分であってもよい。

【0058】

次に、学習装置は、学習が終了したか否か判定する（ステップＳ１５５）。例えば、学習装置は、正面用顔特徴点学習ＤＢ６１、右向き用顔特徴点学習ＤＢ６２、左向き用顔特徴点学習ＤＢ６３及び顔向き判別用学習ＤＢ６４に記憶された全てのデータを用いて学習を行った場合に、学習が終了したと判定する。他の例では、学習装置は、他の例では、ステップＳ１５１～ステップＳ１５４の各ステップで算出される損失がいずれも所定の閾値以下となった場合に、学習が終了したと判定する。さらに別の例では、学習装置は、ステップＳ１５１～ステップＳ１５４を所定の規定回数繰り返した場合に、学習が終了したと判定する。

【0059】

そして、学習装置は、学習が終了したと判定した場合（ステップＳ１５５；Ｙｅｓ）、ネットワークの結合を行う（ステップＳ１５６）。具体的には、学習装置は、畳み込みニューラルネットワーク３１Ａ～３１Ｄをどれか一つ選択し、その出力と、各全結合層４１～４３、５１の入力とを接続することで、図１０に示されるような、単一のネットワークを構成する。なお、学習装置は、構成したネットワークのパラメータを、顔特徴点検出装置１が顔特徴点検出において参照するメモリ又は記憶装置に記憶してもよく、顔特徴点検出装置１に送信してもよい。一方、学習装置は、学習が終了していないと判定した場合（ステップＳ１５５；Ｎｏ）、ステップＳ１５１へ処理を戻す。

【0060】

なお、本実施形態において、顔特徴点検出手段１４は、正面向き、右向き、左向きの３つの顔の向きの候補の顔特徴点検出を行っているが、任意の３以上のＮ種類の顔の向きの候補に対する顔特徴点検出を行ってもよい。例えば、顔特徴点検出手段１４は、正面用・右向き用・左向き用・下向き用の４つの顔の向きの候補の顔特徴点検出を行ってもよい。この場合、顔向き判別手段１５は、Ｎ種類の顔の向きの候補から処理対象画像に示された顔の向きを選択する。そして、顔特徴点結果出力手段１６は、Ｎ種類の顔の向きの候補に対する顔特徴点検出手段１４の顔特徴点検出結果から、顔向き判別手段１５が選択した顔の向きに対応する顔特徴点を示す顔特徴点情報を出力する。

【0061】

（４）第１実施形態における効果
次に、第１実施形態の顔特徴点検出装置１が実行する処理の効果について補足説明する。

【0062】

一般に、顔特徴点検出に深層学習を利用した手法がいくつか存在するが、大きく分けて２つに分類される。一つは、回帰に基づく手法である。回帰に基づく手法は、画像を入力とし、顔特徴点の二次元座標を出力する手法である。回帰に基づく手法の一例は、非特許文献１に記載されている。もう一つは、ヒートマップに基づく手法である。ヒートマップに基づく手法は、画像を入力とし、各特徴点の存在確率をヒートマップとして出力する手法である。ヒートマップに基づく手法の一例は、非特許文献２に記載されている。

【0063】

回帰に基づく手法は、座標値を必ず出力するため、例えば横を向いて見えなくなった顔特徴点を取り扱うことができないという欠点がある。一方で、ヒートマップに基づく手法は確率をゼロと表現することで、顔特徴点が見えていないことを取り扱うことができる。しかしながら、ヒートマップに基づく手法は顔特徴点の数だけヒートマップを出力するが、回帰に基づく手法は顔特徴点の数だけ二次元座標値を出力すればよいため、回帰に基づく手法のほうがネットワークの規模が小さく、高速に実行可能である。

【0064】

ここで、横を向いた人物の顔認証や表情分析では、画面に向かって奥側の目や口角が見えなくなるため、正面顔の場合と横顔の場合とで使用する特徴点を切り替える必要がある。そして、複数の顔の向きに対応する顔特徴点検出器を構成する際には、以下に述べる課題が存在する。

【0065】

第一の課題は、要求されるファイルサイズやメモリサイズが増大してしまうことである。正面向き、および、横向きの両方の顔に対応した顔特徴点検出器を構成する場合、１つの案では、正面向きの顔特徴点と横向きの顔特徴点をそれぞれ別に定義し、正面向き用・右向き用・左向き用の顔特徴点検出器を個別に学習することで、３つのモデルを用意する。そして、顔特徴点検出処理の前に、別途用意した正面向き・右向き・左向きの顔向き判別処理を使用し、正面向き用・右向き用・左向き用の顔特徴点検出器から使用するモデルを選択する。すなわち、この案では、顔向き判別器１つと顔特徴点検出器３つの合計４種類のモデルを個別に準備する。この場合、各顔特徴点検出器は、夫々、特徴点検出のための特徴量抽出を行う層を有しており、各モデルを個別に準備するために要求されるファイルサイズやメモリサイズが増大してしまう。

【0066】

第二の課題は、回帰に基づく手法は画像中に存在しない顔特徴点を取り扱えず、正面向き用・右向き用・左向き用の顔特徴点を単一のモデルで学習することができないことである。回帰に基づく手法は、ヒートマップに基づく手法より高速に計算可能であることが利点であるが、正面の時に見えているが横を向くと見えなくなるような特徴点は、取り扱うことができない。なお、正面向き用の特徴点データと横向きのデータセットを同時に学習する方法は、非特許文献３に記載されている。しかしながら、正面向きか横向きかの区別がつかず、どの結果を選択すればよいかは不明である。

【0067】

以上を勘案し、第１実施形態では、顔の向きの候補毎の顔特徴点検出において共通して用いられる共通特徴量の抽出を行うニューラルネットワークを共通化し、顔の向き毎の顔特徴点検出のタスク及び顔向き判別のタスクを同時に学習する。そして、顔特徴点検出装置１は、推論段階では、処理対象画像に基づき、複数の顔の向きの候補に対する顔特徴点検出において共通して用いられる共通特徴量を抽出し、顔の向きによって顔特徴点の結果を自動で切り替える。これにより、顔特徴点検出装置１は、複数の顔の向きに対応する顔特徴点検出を好適に実行することができる。これに加えて、顔特徴点検出装置１は、共通特徴量の抽出を行うニューラルネットワークを設けることで、顔の向き毎に個別の特徴量抽出を行う構成とする場合と比較して、パラメータを記憶するための要求メモリサイズを好適に削減し、かつ、マルチタスク学習の効果等により高精度な顔特徴点検出を提供することができる。そして、本実施形態に基づき、顔特徴点検出を行うことで、顔特徴点を用いた顔認証による人物の識別などの種々の応用の精度を好適に向上させることができる。

【0068】

＜第２実施形態＞
図１３は、第２実施形態における検出装置１Ｘのブロック構成図である。検出装置１Ｘは、主に、取得手段１２Ｘと、共通特徴量抽出手段１３Ｘと、特徴情報検出手段１４Ｘと、属性判別手段１５Ｘと、出力手段１６Ｘと、を有する。

【0069】

取得手段１２Ｘは、検出対象に関するデータを取得する。「データ」は、例えば、第１実施形態における顔領域情報である。なお、データは、検出対象を表す画像に限らず、検出対象が発する音を示す音データなどであってもよい。「検出対象」は、後述の特徴情報の検出の対象となるものを指し、例えば第１実施形態における顔である。取得手段１２Ｘは、例えば、第１実施形態において、処理対象画像から顔領域情報（顔領域画像）を生成する顔検出手段１２とすることができる。なお、取得手段１２Ｘは、処理対象画像から顔領域情報を生成する代わりに、他の装置が処理対象画像から生成した顔領域情報を取得してもよい。

【0070】

共通特徴量抽出手段１３Ｘは、検出対象が有する属性の複数の候補に共通する共通特徴量を、データから抽出する。「属性」は、検出時に依存して一時的または部分的に異なってデータに表れる検出対象の性質であり、第１実施形態では、顔の向きに相当する。共通特徴量抽出手段１３Ｘは、第１実施形態における共通特徴量抽出手段１３とすることができる。

【0071】

特徴情報検出手段１４Ｘは、共通特徴量に基づき、複数の候補の各々に対する特徴情報を検出する。「特徴情報」は、複数の候補の各々の特徴を表す情報である。特徴情報は、例えば、データが画像である場合には、画像中の検出対象の特徴点を示す情報であり、データが音データである場合には、音データ中の検出対象の特徴的な周波数等を示す音響（音声）特徴量を示す情報である。特徴情報検出手段１４Ｘは、第１実施形態における顔特徴点検出手段１４とすることができる。

【0072】

属性判別手段１５Ｘは、データに基づき、検出対象の属性を判別する。言い換えると、属性判別手段１５Ｘは、データに基づき、データの検出時点での検出対象の属性を判別する。属性判別手段１５Ｘは、第１実施形態における顔向き判別手段１５とすることができる。

【0073】

出力手段１６Ｘは、判別された属性に対応する特徴情報を出力する。言い換えると、出力手段１６Ｘは、特徴情報検出手段１４Ｘが検出した属性の複数の候補の各々に対する特徴情報から、属性判別手段１５Ｘが判別した属性に対応する特徴情報を選択して出力する。この場合、出力手段１６Ｘは、検出装置１Ｘ内の他の処理ブロックに特徴情報を出力してもよく、外部装置に特徴情報を出力してもよい。出力手段１６Ｘは、第１実施形態における顔特徴点結果出力手段１６とすることができる。

【0074】

図１４は、第２実施形態における検出装置１Ｘの処理手順を示すフローチャートの一例である。まず、取得手段１２Ｘは、検出対象に関するデータを取得する（ステップＳ２１１）。次に、共通特徴量抽出手段１３Ｘは、検出対象が有する属性の複数の候補に共通する共通特徴量を、データから抽出する（ステップＳ２１２）。特徴情報検出手段１４Ｘは、共通特徴量に基づき、複数の候補の各々に対する特徴情報を検出する（ステップＳ２１３）。属性判別手段１５Ｘは、データに基づき、検出対象の属性を判別する（ステップＳ２１４）。出力手段１６Ｘは、判別された属性に対応する特徴情報を出力する（ステップＳ２１５）。なお、ステップＳ２１３とステップＳ２１４とは、処理順序が逆であってもよく、同時に実行されてもよい。

【0075】

第２実施形態によれば、検出装置１Ｘは、複数の属性の候補を有する検出対象について、検出対象の属性に応じた特徴情報を好適に検出し、出力することができる。

【0076】

次に、顔以外を検出対象とする応用例について補足説明する。

【0077】

第１応用例では、検出装置１Ｘは、指紋認証又は静脈認証において用いられる指紋の特徴点の検出を行ってもよい。この場合、取得手段１２Ｘは、上記データとして、指紋又は静脈を示した画像を取得する。共通特徴量抽出手段１３Ｘは、指紋又は静脈に関する属性（例えば、指紋又は静脈の向き）の複数の候補に共通する共通特徴量を、画像から抽出する。特徴情報検出手段１４Ｘは、共通特徴量に基づき、複数の候補の各々に対する指紋又は静脈の特徴点を示す情報を検出する。属性判別手段１５Ｘは、画像に基づき、画像に示された指紋又は静脈の属性を判別する。出力手段１６Ｘは、判別された属性に対応する指紋又は静脈の特徴点を示す情報を出力する。

【0078】

第２応用例では、検出装置１Ｘは、声認証において用いられる音響特徴量の検出を行ってもよい。この場合、取得手段１２Ｘは、上記データとして、人の声が含まれる音データを取得する。共通特徴量抽出手段１３Ｘは、声に関する属性（例えば、発声者の性別又は年齢等に関する属性）の複数の候補に共通する特徴量である共通特徴量を、音データから抽出する。特徴情報検出手段１４Ｘは、共通特徴量に基づき、複数の候補の各々に対する音響特徴量を示す情報を検出する。属性判別手段１５Ｘは、音データに基づき、音データに含まれる声の属性を判別する。出力手段１６Ｘは、判別された属性に対応する音響特徴量を示す情報を出力する。

【0079】

その他、検出装置１Ｘは、例えば、チャネルごとの識別に用いる特徴情報の検出を行ってもよい。この場合、検出装置１Ｘは、共通特徴量の抽出、チャネルごとの特徴情報の検出、チャネルの判別、及び判別したチャネルに対応する特徴情報の出力を、第１及び第２応用例と同様に行う。

【0080】

このように、第２実施形態に係る検出装置１Ｘは、複数の属性の候補を有する任意の対象について、属性に応じた特徴情報を好適に検出し、出力することができる。

【0081】

＜第３実施形態＞
図１５は、第３実施形態における顔特徴点検出装置１Ａの共通特徴量抽出手段１３、顔特徴点検出手段１４及び顔向き判別手段１５に関する構成図である。第３実施形態では、共通特徴量抽出手段１３が単一の畳み込みニューラルネットワーク３１を有する代わりに、顔特徴点検出手段１４に接続する畳み込みニューラルネットワーク３１Ｘと、顔向き判別手段１５に接続する畳み込みニューラルネットワーク３１Ｙとを夫々有する点において、第１実施形態と異なる。その他、第１実施形態と同一構成要素については、適宜同一符号を付し、その説明を省略する。畳み込みニューラルネットワーク３１Ｘは、「第１ニューラルネットワーク」の一例であり、畳み込みニューラルネットワーク３１Ｙは、「第２ニューラルネットワーク」の一例である。

【0082】

畳み込みニューラルネットワーク３１Ｘは、顔領域画像が入力された場合に、正面向き用・右向き用・左向き用の各顔特徴点検出に共通して使用される共通特徴量を推論するように学習される。畳み込みニューラルネットワーク３１Ｘは、推論した共通特徴量を、顔特徴点検出手段１４の全結合層４１～４３に夫々供給する。また、畳み込みニューラルネットワーク３１Ｙは、顔領域画像が入力された場合に、顔の向きの判別に使用する特徴量（「顔向き判別特徴量」とも呼ぶ。）を推論するように学習される。畳み込みニューラルネットワーク３１Ｙは、推論した顔向き判別特徴量を、顔向き判別手段１５の全結合層５１に供給する。

【0083】

ここで、畳み込みニューラルネットワーク３１Ｘ、３１Ｙの学習について、図１１及び図１２を再び参照して説明する。

【0084】

畳み込みニューラルネットワーク３１Ｘの学習では、学習装置は、図１１に示す畳み込みニューラルネットワーク３１Ａ～３１Ｃの重みを共通として、ステップＳ１５１～ステップＳ１５３の学習を行う。即ち、ステップＳ１５１～ステップＳ１５３において使用される畳み込みニューラルネットワーク３１Ａ～３１Ｃは、はいずれも同じ構造であり、重みを共通として同時学習が行われる。そして、ステップＳ１５５において学習が終了したと判定した後のステップＳ１５６でのネットワークの結合において、学習装置は、畳み込みニューラルネットワーク３１Ａ～３１Ｃのどれか一つを畳み込みニューラルネットワーク３１Ｘとして選択し、その出力と、各全結合層４１～４３の入力とを接続する（図１５参照）。

【0085】

また、畳み込みニューラルネットワーク３１Ｙの学習では、学習装置は、ニューラルネットワーク３１Ａ～３１Ｃと重みを共有しないニューラルネットワーク３１Ｄを用いて、ステップＳ１５４の学習を行う。この場合、ニューラルネットワーク３１Ｄは、ニューラルネットワーク３１Ａ～３１Ｃと同じ構造であってもよく、異なる構造であってもよい。この場合、ステップＳ１５４の学習では、顔特徴点検出手段１４の学習に用いられる畳み込みニューラルネットワーク３１Ａ～３１Ｃと重みを共有せずにニューラルネットワーク３１Ｄの学習が行われるため、顔向き判定に特化した顔向き判別特徴量を出力するようにニューラルネットワーク３１Ｄの学習が行われる。そして、ステップＳ１５５において学習が終了したと判定した後のステップＳ１５６でのネットワークの結合において、学習装置は、畳み込みニューラルネットワーク３１Ｄを、畳み込みニューラルネットワーク３１Ｙとみなし、その出力と、各全結合層５１の入力とを接続する（図１５参照）。

【0086】

このように、第３実施形態によれば、顔特徴点検出装置１Ａは、正面向き用・右向き用・左向き用の各顔特徴点検出に共通して使用される共通特徴量を１つの畳み込みニューラルネットワーク３１Ｘにより抽出することができる。また、顔特徴点検出装置１Ａは、顔向き判定に適した顔向き判別特徴量を畳み込みニューラルネットワーク３１Ｙにより抽出することができる。

【0087】

＜第４実施形態＞
図１６は、第４実施形態における顔特徴点検出装置１Ｂの共通特徴量抽出手段１３、顔特徴点検出手段１４及び顔向き判別手段１５に関する構成図である。第４実施形態では、顔向き判別手段１５は、（正面向き，右向き，左向き）のいずれかと、（上向き，下向き）のいずれかとの組を、判別結果として出力する点において、第１実施形態と異なる。その他、第１実施形態と同一構成要素については、適宜同一符号を付し、その説明を省略する。以後では、便宜上、３つの顔向きの候補（正面向き，右向き，左向き）を、顔向き候補の第１グループ、２つの顔向きの候補（上向き，下向き）を、顔向き候補の第２グループとする。

【0088】

この場合、図１６に示すように、顔特徴点検出手段１４は、第１実施形態において説明した全結合層４１～４３に加えて、全結合層４４及び全結合層４５を有する。そして、全結合層４１～４５及び全結合層５１は、畳み込みニューラルネットワーク３１の出力を共用するように並列に配置されている。ここで、全結合層４４は、畳み込みニューラルネットワーク３１から出力される共通特徴量が入力された場合に、所定個数分の座標値に相当する数値を上向き用顔特徴点として出力する。また、全結合層４５は、畳み込みニューラルネットワーク３１から出力される共通特徴量が入力された場合に、所定個数分の座標値に相当する数値を下向き用顔特徴点として出力する。

【0089】

また、顔向き判別手段１５は、顔向きの候補の第１グループに属する（正面向き，右向き，左向き）のいずれかと、顔向き候補の第２グループに属する（上向き，下向き）のいずれかとの組を、判別結果として出力する。この場合、例えば、顔向き判別手段１５は、第１グループの（正面向き、右向き、左向き）のうちＳｏｆｔｍａｘ層５２が出力する確率（確信度）が最も高い向きと、第２グループの（上向き、下向き）のうちＳｏｆｔｍａｘ層５２が出力した確率が最も高い向きとの組を、判別結果として出力する。なお、顔向き判別手段１５は、第１グループの（正面向き、右向き、左向き）に対応する確率を出力するＳｏｆｔｍａｘ層と、第２グループの（上向き、下向き）に対する確率を出力するＳｏｆｔｍａｘ層とを、Ｓｏｆｔｍａｘ層５２として有してもよい。その後、顔特徴点結果出力手段１６は、判別結果として顔向き判別手段１５から出力された２つの顔向きに対応する顔特徴点を示す顔特徴点情報を出力する。

【0090】

図１７は、図１６に示される共通特徴量抽出手段１３、顔特徴点検出手段１４及び顔向き判別手段１５の学習方法の概要図である。学習では、顔向きの５つ候補に対応する顔特徴点検出と顔向き判別とに夫々対応する６つの異なるタスクを扱い、各タスクにおいて使用する畳み込みニューラルネットワーク３１Ａ～３１Ｆの重みを共通として学習を行う。

【0091】

ここで、第４実施形態では、学習装置は、第１実施形態において説明した４つのタスクに加えて、上向き用の顔特徴点検出のタスクと、下向き用の顔特徴点検出のタスクとを行う。上向き用の顔特徴点検出のタスクでは、顔領域画像と上向き用の顔特徴点の座標の正解値とのペアが登録された上向き用顔特徴点学習ＤＢ６５を参照し、直列に接続した畳み込みニューラルネットワーク３１Ｅと全結合層４４との学習を行う。この場合、例えば、顔領域画像をニューラルネットワーク３１Ｅに入力した場合に全結合層４４から出力される座標値と正解の座標値とのＬ１ロスが最小となるように、畳み込みニューラルネットワーク３１Ｅと全結合層４４の重みパラメータを決定する。下向き用の顔特徴点検出のタスクでは、顔領域画像と下向き用の顔特徴点の座標の正解値とのペアが登録された下向き用顔特徴点学習ＤＢ６６を参照し、直列に接続した畳み込みニューラルネットワーク３１Ｆと全結合層４５との学習を行う。この場合、例えば、顔領域画像をニューラルネットワーク３１Ｆに入力した場合に全結合層４５から出力される座標値と正解の座標値とのＬ１ロスが最小となるように、畳み込みニューラルネットワーク３１Ｆと全結合層４５の重みパラメータを決定する。

【0092】

図１８は、図１７に示す処理を実行する学習装置による学習処理の手順を示すフローチャートの一例である。

【0093】

まず、学習装置は、正面用顔特徴点学習ＤＢ６１を参照し、直列に接続した畳み込みニューラルネットワーク３１Ａと全結合層４１との学習を行う（ステップＳ１６１）。次に、学習装置は、右向き用顔特徴点学習ＤＢ６２を参照し、直列に接続した畳み込みニューラルネットワーク３１Ｂと全結合層４２との学習を行う（ステップＳ１６２）。さらに、学習装置は、左向き用顔特徴点学習ＤＢ６３を参照し、直列に接続した畳み込みニューラルネットワーク３１Ｃと全結合層４３との学習を行う（ステップＳ１６３）。さらに、学習装置は、上向き用顔特徴点学習ＤＢ６５を参照し、直列に接続した畳み込みニューラルネットワーク３１Ｅと全結合層４４との学習を行う（ステップＳ１６４）。さらに、学習装置は、下向き用顔特徴点学習ＤＢ６６を参照し、直列に接続した畳み込みニューラルネットワーク３１Ｆと全結合層４５との学習を行う（ステップＳ１６５）。さらに、学習装置は、顔向き判別用学習ＤＢ６４を参照し、この順により直列に接続した畳み込みニューラルネットワーク３１Ｄと全結合層５１とＳｏｆｔｍａｘ層５２との学習を行う（ステップＳ１６６）。なお、ステップＳ１６１～ステップＳ１６６の処理は、順不同であり、順番が入れ替わって行われてもよい。また、ステップＳ１６１～ステップＳ１６６の各ステップで用いられる入力用データと正解データとの組数は、１組分であってもよく、所定組数分であってもよい。

【0094】

次に、学習装置は、学習が終了したか否か判定する（ステップＳ１６７）。例えば、学習装置は、正面用顔特徴点学習ＤＢ６１、右向き用顔特徴点学習ＤＢ６２、左向き用顔特徴点学習ＤＢ６３、顔向き判別用学習ＤＢ６４、上向き用顔特徴点学習ＤＢ６５及び下向き用顔特徴点学習ＤＢ６６に記憶された全てのデータを用いて学習を行った場合に、学習が終了したと判定する。他の例では、学習装置は、他の例では、ステップＳ１６１～ステップＳ１６６の各ステップで算出される損失がいずれも所定の閾値以下となった場合に、学習が終了したと判定する。さらに別の例では、学習装置は、ステップＳ１６１～ステップＳ１６６を所定の規定回数繰り返した場合に、学習が終了したと判定する。

【0095】

そして、学習装置は、学習が終了したと判定した場合（ステップＳ１６７；Ｙｅｓ）、ネットワークの結合を行う（ステップＳ１６８）。具体的には、学習装置は、畳み込みニューラルネットワーク３１Ａ～３１Ｅをどれか一つ選択し、その出力と、各全結合層４１～４５、５１の入力とを接続することで、図１６に示されるような、単一のネットワークを構成する。一方、学習装置は、学習が終了していないと判定した場合（ステップＳ１６７；Ｎｏ）、ステップＳ１６１へ処理を戻す。

【0096】

なお、第４実施形態に係る共通特徴量抽出手段１３は、第３実施形態と同様に、顔特徴点検出手段１４に共通特徴量を出力する畳み込みニューラルネットワークと、顔向き判別手段１５に顔向き判別特徴量を出力する畳み込みニューラルネットワークとを、夫々有してもよい。

【0097】

第４実施形態によれば、顔特徴点検出装置１は、検出された顔が正面、右向き、又は左向きのいずれであるかの判別に加えて、上向きか下向きかについても好適に判別することができる。なお、グループ数は、上述した２つに限られず、検出対象に応じて任意の数のグループに検出対象の属性の候補が分けられてもよい。この場合、グループ毎に検出対象の属性の判別が行われる。

【0098】

＜第５実施形態＞
図１９は、第５実施形態における顔特徴点検出装置１Ｃの機能的な構成を示すブロック図である。顔特徴点検出装置１Ｃは、畳み込みニューラルネットワーク３１等の学習に使用する各学習ＤＢを更新する点において、第１実施形態における顔特徴点検出装置１と異なる。その他、第１実施形態と同一構成要素については、適宜同一符号を付し、その説明を省略する。なお、第５実施形態は、第３実施形態又は／及び第４実施形態と組み合わせてもよい。

【0099】

顔特徴点結果出力手段１６は、画像入力手段１１が処理対象画像を取得した場合に顔特徴点検出手段１４が出力する顔特徴点の検出結果及び顔向き判別手段１５が出力する顔向き判別結果に基づき、顔特徴点学習ＤＢ６１～６３のいずれかと、顔向き判別用学習ＤＢ６４とを更新する。具体的には、顔特徴点結果出力手段１６は、顔検出手段１２が出力する顔領域画像と、顔向き判別手段１５が判別した顔向きに対応する顔特徴点座標との組を、入力用データと正解データとの組として、顔向き判別手段１５が判別した顔向きに対応する顔特徴点学習ＤＢ６１～６３のいずれかに登録する。また、顔特徴点結果出力手段１６は、顔検出手段１２が出力する顔領域画像と、顔向き判別手段１５が判別した顔向きを示すラベル（タグ）とを、入力用データと正解データとの組として、顔向き判別用学習ＤＢ６４に登録する。その後、顔特徴点学習ＤＢ６１～６３、顔特徴点学習ＤＢ６１～６３に登録されたデータは、図１１において説明した畳み込みニューラルネットワーク３１等の学習において好適に用いられる。

【0100】

このように、第５実施形態では、顔特徴点検出装置１Ｃは、畳み込みニューラルネットワーク３１等の学習用データを、処理対象画像への処理結果に応じて好適に生成し、学習ＤＢを更新することができる。

【0101】

なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記憶媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

【0102】

その他、上記の各実施形態の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。

【0103】

［付記１］
検出対象に関するデータを取得する取得手段と、
前記検出対象が有する属性の複数の候補に共通する共通特徴量を、前記データから抽出する共通特徴量抽出手段と、
前記共通特徴量に基づき、前記複数の候補の各々に対する前記検出対象の特徴情報を検出する特徴情報検出手段と、
前記データに基づき、前記属性を判別する属性判別手段と、
判別された前記属性に対応する前記特徴情報を出力する出力手段と、
を有する検出装置。
［付記２］
前記共通特徴量抽出手段は、前記データを入力した場合に前記共通特徴量に関する情報を出力するように学習されたニューラルネットワークに基づき、前記共通特徴量を生成する、付記１に記載の検出装置。
［付記３］
前記特徴情報検出手段及び前記属性判別手段は、共通のパラメータにより構成された前記ニューラルネットワークから出力される共通の出力結果に基づき、夫々の処理を実行する、付記２に記載の検出装置。
［付記４］
前記特徴情報検出手段は、前記ニューラルネットワークの出力結果が入力された場合に、前記特徴情報を出力するように前記複数の候補ごとに学習された検出器に基づき、前記複数の候補の各々に対する前記特徴情報を検出し、
前記属性判別手段は、前記ニューラルネットワークの出力結果が入力された場合に、前記属性の判別結果を出力するように学習された判別器に基づき、前記属性を判別する、付記２または３に記載の検出装置。
［付記５］
前記複数の候補の各々に対する前記検出器と、前記判別器とは、前記ニューラルネットワークのパラメータを共有して学習される、付記４に記載の検出装置。
［付記６］
前記共通特徴量抽出手段は、前記データを入力した場合に前記共通特徴量に関する情報を出力するように学習されたニューラルネットワークである第１ニューラルネットワークと、前記データを入力した場合に前記属性判別手段に入力する特徴量を出力するように学習されたニューラルネットワークである第２ニューラルネットワークとを含む、付記１または２に記載の検出装置。
［付記７］
前記特徴情報検出手段は、前記第１ニューラルネットワークの出力結果が入力された場合に、前記特徴情報を出力するように前記複数の候補ごとに学習された検出器に基づき、前記複数の候補の各々に対する前記特徴情報を検出し、
前記複数の候補の各々に対する前記検出器は、前記第１ニューラルネットワークのパラメータを共有して学習される、付記６に記載の検出装置。
［付記８］
前記出力手段は、判別された前記属性に対応する前記特徴情報に基づき、前記ニューラルネットワークの学習用データを生成する、付記２～７のいずれか一項に記載の検出装置。
［付記９］
前記複数の候補は、複数のグループに分けられており、
前記属性判別手段は、前記複数のグループの各々に対し、前記属性を夫々判別する、付記１～８のいずれか一項に記載の検出装置。
［付記１０］
前記特徴情報に基づき、前記検出対象に関する識別を行う識別手段をさらに有する、付記１～９のいずれか一項に記載の検出装置。
［付記１１］
前記データは、前記検出対象である人物の顔を示す画像であり、
前記属性は、前記画像に示された前記顔の向きであり
前記共通特徴量抽出手段は、前記画像に基づき、前記顔の向きの複数の候補に共通する前記共通特徴量を生成し、
前記特徴情報検出手段は、前記共通特徴量に基づき、前記複数の候補の各々に対する前記画像内の前記顔の特徴点を、前記特徴情報として検出し、
前記属性判別手段は、前記画像に基づき、前記画像における前記顔の向きを判別し、
前記出力手段は、判別された前記顔の向きに対応する前記特徴点を出力する、付記１～１０のいずれか一項に記載の検出装置。
［付記１２］
前記データは、指紋又は静脈を示す画像であり、
前記共通特徴量抽出手段は、前記画像に基づき、前記指紋又は静脈が有する属性の複数の候補に共通する前記共通特徴量を生成し、
前記特徴情報検出手段は、前記共通特徴量に基づき、前記複数の候補の各々に対する前記画像内の前記指紋又は静脈の特徴点を、前記特徴情報として検出し、
前記属性判別手段は、前記画像に基づき、前記属性を判別し、
前記出力手段は、判別された前記属性に対応する前記特徴点を出力する、付記１～１０のいずれか一項に記載の検出装置。
［付記１３］
前記データは、声が含まれる音データであり、
前記共通特徴量抽出手段は、前記音データに基づき、前記声の属性の複数の候補に共通する前記共通特徴量を生成し、
前記特徴情報検出手段は、前記共通特徴量に基づき、前記複数の候補の各々に対する前記声の特徴量を、前記特徴情報として検出し、
前記属性判別手段は、前記音データに基づき、前記声の属性を判別し、
前記出力手段は、判別された前記声の属性に対応する前記特徴量を出力する、付記１～１０のいずれか一項に記載の検出装置。
［付記１４］
コンピュータにより、
検出対象に関するデータを取得し、
前記検出対象が有する属性の複数の候補に共通する共通特徴量を、前記データから抽出し、
前記共通特徴量に基づき、前記複数の候補の各々に対する前記検出対象の特徴情報を検出し、
前記データに基づき、前記属性を判別し、
判別された前記属性に対応する前記特徴情報を出力する、
検出方法。
［付記１５］
検出対象に関するデータを取得し、
前記検出対象が有する属性の複数の候補に共通する共通特徴量を、前記データから抽出し、
前記共通特徴量に基づき、前記複数の候補の各々に対する前記検出対象の特徴情報を検出し、
前記データに基づき、前記属性を判別し、
判別された前記属性に対応する前記特徴情報を出力する処理をコンピュータに実行させるプログラムが格納された記憶媒体。
［付記１６］
検出対象に関するデータが入力された場合に、前記検出対象が有する属性の複数の候補に共通する共通特徴量に関する情報を出力するニューラルネットワークの学習を行う学習手段を有する、学習装置。
［付記１７］
コンピュータにより、
検出対象に関するデータが入力された場合に、前記検出対象が有する属性の複数の候補に共通する共通特徴量に関する情報を出力するニューラルネットワークの学習を行う、学習方法。
［付記１８］
検出対象に関するデータが入力された場合に、前記検出対象が有する属性の複数の候補に共通する共通特徴量に関する情報を出力するニューラルネットワークの学習を行う処理をコンピュータに実行させるプログラムが格納された記憶媒体。
［付記１９］
検出対象に関するデータが入力された場合に、前記検出対象が有する属性の複数の候補に共通する共通特徴量に関する情報を出力するニューラルネットワークと、前記ニューラルネットワークの出力結果を入力として、前記複数の候補の各々に対する前記検出対象の特徴情報を出力する検出器と、前記ニューラルネットワークの出力結果を入力として、前記属性の判別結果を出力する判別器との学習を行う学習手段を有し、
前記学習手段は、前記複数の候補の各々に対する前記検出器と、前記判別器とを、前記ニューラルネットワークのパラメータを共有して学習を行う、学習装置。
［付記２０］
互いに異なる学習データベースを用いて、同じ構造を持つ複数の畳み込みニューラルネットワークを個別に学習させ、互いに異なる学習データベースを用いた学習結果に基づいて、複数の畳み込みニューラルネットワークのパラメータの重みをそれぞれ更新し、個別に学習を完了した複数のニューラルネットワークのパラメータの重みを共有させることによって、単一の畳み込みニューラルネットワークを生成する学習装置。
［付記２１］
コンピュータにより、
検出対象に関するデータが入力された場合に、前記検出対象が有する属性の複数の候補に共通する共通特徴量に関する情報を出力するニューラルネットワークと、前記ニューラルネットワークの出力結果を入力として、前記複数の候補の各々に対する前記検出対象の特徴情報を出力する検出器と、前記ニューラルネットワークの出力結果を入力として、前記属性の判別結果を出力する判別器との学習を行う場合に、前記複数の候補の各々に対する前記検出器と、前記判別器とを、前記ニューラルネットワークのパラメータを共有して学習を行う、学習方法。
［付記２２］
検出対象に関するデータが入力された場合に、前記検出対象が有する属性の複数の候補に共通する共通特徴量に関する情報を出力するニューラルネットワークと、前記ニューラルネットワークの出力結果を入力として、前記複数の候補の各々に対する前記検出対象の特徴情報を出力する検出器と、前記ニューラルネットワークの出力結果を入力として、前記属性の判別結果を出力する判別器との学習を行う場合に、前記複数の候補の各々に対する前記検出器と、前記判別器とを、前記ニューラルネットワークのパラメータを共有して学習を行う処理をコンピュータに実行させるプログラムが格納された記憶媒体。

【0104】

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。

【符号の説明】

【0105】

１、１Ａ～１Ｃ顔特徴点検出装置
１Ｘ検出装置
１１画像入力手段
１２顔検出手段
１３共通特徴量抽出手段
１４顔特徴点検出手段
１５顔向き判別手段
１６顔特徴点結果出力手段

【図1】