特許7597217 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7597217学習装置、推定装置、それらの方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-12-02

(45)【発行日】2024-12-10

(54)【発明の名称】学習装置、推定装置、それらの方法、およびプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20241203BHJP

A61B 3/113 20060101ALI20241203BHJP

G06N 3/045 20230101ALI20241203BHJP

【ＦＩ】

G06T7/00 350C

A61B3/113

G06N3/045

G06T7/00 660A

【請求項の数】 8

(21)【出願番号】P 2023528808

(86)(22)【出願日】2021-06-15

(86)【国際出願番号】 JP2021022704

(87)【国際公開番号】W WO2022264269

(87)【国際公開日】2022-12-22

【審査請求日】2023-09-27

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】100121706

【弁理士】

【氏名又は名称】中尾直樹

(74)【代理人】

【識別番号】100128705

【弁理士】

【氏名又は名称】中村幸雄

(74)【代理人】

【識別番号】100147773

【弁理士】

【氏名又は名称】義村宗洋

(72)【発明者】

【氏名】高島瑛彦

(72)【発明者】

【氏名】増村亮

【審査官】岡本俊威

(56)【参考文献】

【文献】特開２０１９－１５９５１８（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１９／０３７７４０９（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ａ６１Ｂ３／１１３

Ｇ０６Ｎ３／０４５

(57)【特許請求の範囲】

【請求項1】

モデルパラメータ^θ_gまたは^θ_pを用いて、ニューラルネットワークの関数により学習用顔画像S^bを中間特徴vに変換する共有ネットワーク部と、
前記モデルパラメータ^θ_gを用いて、ニューラルネットワークの関数により前記中間特徴vを推定視線角度ベクトルZ'_gに変換する視線角度ネットワーク部と、
前記推定視線角度ベクトルZ'_gと前記学習用顔画像S^bに対する視線角度正解ラベルとを用いて、前記モデルパラメータ^θ_gを更新する視線角度モデルパラメータ最適化部と、
前記モデルパラメータ^θ_pを用いて、ニューラルネットワークの関数により中間特徴vを推定有効視野確率ベクトルZ'_pに変換する有効視野ネットワーク部と、
前記推定有効視野確率ベクトルZ'_pと前記学習用顔画像S^bに対する有効視野正解ラベルとを用いて、前記モデルパラメータ^θ_pを更新する有効視野モデルパラメータ最適化部とを含み、
前記モデルパラメータ^θ_gに対応する学習済みのモデルパラメータθ_gと、前記モデルパラメータ^θ_pに対応する学習済みのモデルパラメータθ_pを取得する、
学習装置。

【請求項2】

請求項１の学習装置で学習したモデルパラメータθ_gを用いる推定装置であって、
前記共有ネットワーク部とそれに続く前記視線角度ネットワーク部のネットワークアーキテクチャと、前記モデルパラメータθ_gとを用いて、推定対象の顔画像Sから視線角度を推定する視線角度推定部を含む、
推定装置。

【請求項3】

請求項１の学習装置で学習したモデルパラメータθ_pを用いる推定装置であって、
前記共有ネットワーク部とそれに続く前記有効視野ネットワーク部のネットワークアーキテクチャと、前記モデルパラメータθ_pとを用いて、前記顔画像Sから有効視野確率を推定し、前記有効視野確率の推定値に基づき有効視野内か否かを判定する有効視野判定部を含む、
推定装置。

【請求項4】

請求項１の学習装置で学習したモデルパラメータθ_gとモデルパラメータθ_pとを用いる推定装置であって、
前記共有ネットワーク部とそれに続く前記視線角度ネットワーク部のネットワークアーキテクチャと、前記モデルパラメータθ_gとを用いて、推定対象の顔画像Sから視線角度を推定する視線角度推定部と、
前記共有ネットワーク部とそれに続く前記有効視野ネットワーク部のネットワークアーキテクチャと、前記モデルパラメータθ_pとを用いて、前記顔画像Sから有効視野確率を推定し、前記有効視野確率の推定値に基づき有効視野内か否かを判定する有効視野判定部とを含む、
推定装置。

【請求項5】

モデルパラメータ^θ_gまたは^θ_pを用いて、ニューラルネットワークの関数により学習用顔画像S^bを中間特徴vに変換する共有ネットワークステップと、
前記モデルパラメータ^θ_gを用いて、ニューラルネットワークの関数により前記中間特徴vを推定視線角度ベクトルZ'_gに変換する視線角度ネットワークステップと、
前記推定視線角度ベクトルZ'_gと前記学習用顔画像S^bに対する視線角度正解ラベルとを用いて、前記モデルパラメータ^θ_gを更新する視線角度モデルパラメータ最適化ステップと、
前記モデルパラメータ^θ_pを用いて、ニューラルネットワークの関数により中間特徴vを推定有効視野確率ベクトルZ'_pに変換する有効視野ネットワークステップと、
前記推定有効視野確率ベクトルZ'_pと前記学習用顔画像S^bに対する有効視野正解ラベルとを用いて、前記モデルパラメータ^θ_pを更新する有効視野モデルパラメータ最適化ステップとを含み、
前記モデルパラメータ^θ_gに対応する学習済みのモデルパラメータθ_gと、前記モデルパラメータ^θ_pに対応する学習済みのモデルパラメータθ_pを取得する、
学習方法。

【請求項6】

請求項５の学習方法で学習したモデルパラメータθ_gを用いる推定方法であって、
前記共有ネットワークステップとそれに続く前記視線角度ネットワークステップのネットワークアーキテクチャと、前記モデルパラメータθ_gとを用いて、推定対象の顔画像Sから視線角度を推定する視線角度推定ステップを含む、
推定方法。

【請求項7】

請求項５の学習方法で学習したモデルパラメータθ_pを用いる推定方法であって、
前記共有ネットワークステップとそれに続く前記有効視野ネットワークステップのネットワークアーキテクチャと、前記モデルパラメータθ_pとを用いて、前記顔画像Sから有効視野確率を推定し、前記有効視野確率の推定値に基づき有効視野内か否かを判定する有効視野判定ステップを含む、
推定方法。

【請求項8】

請求項１の学習装置、または、請求項２から請求項４の何れかの推定装置として、コンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、顔画像から視線角度と有効視野を推定する推定技術と、推定する際に用いるパラメータの学習技術に関する。

【背景技術】

【0002】

視線角度とは、左目、右目の眼球の瞳孔の向きを表す回転角度である。視線角度を画像から推定することができると、人間が何を注視しているのか、またはキョロキョロしている、など眼球の運動状態が分かり、人間の状態、内面理解を分析することができる。視線角度推定は、一般にニューラルネットワークを利用して行われる。従来技術では、視線角度のみを目領域画像からニューラルネットワークモデルを用いて、回帰をする学習を行う。視線角度の正解ラベルはベクトルデータであり、眼球の水平成分、垂直成分の各回転角度値の連続データである。ニューラルネットワークによる視線角度推定に用いるパラメータの学習では、例えば画像認識等で広く用いられている畳み込み層、プーリング層を用いて画像の特徴を抽出し、その後の全結合層により、視線角度のベクトルデータへの回帰を行うことで、視線角度を推定することができる。

【0003】

非特許文献１は、ニューラルネットワークを用いて視線角度を推定する手法である。

【0004】

一方、人物が物体を認識しているか、どうかを判別する尺度として有効視野を活用する手法がある。有効視野とは眼球の水平角度-15度以上15度以下、垂直角度-12度以上8度以下の範囲を示し（図１参照）、人間はこの範囲にある対象物を明に認識することができる。逆に有効視野外の物体の認識力は極端に低下する。例えばユースケースとして対象物をロボットとすると、カメラが搭載されているロボットが、カメラに映っている人間から認識されているか、認識されていないかを有効視野尺度を用いて判別することができる。具体的には、人間がロボットに対して顔を向けているのにも関わらず、視線角度が有効視野外の場合は、ロボットを認識していなく、有効視野内の場合はロボットを認識していると判定できる。図１は、人間の視野と視野特性を表す図である。図２は、有効視野内（ものがあると認識できている範囲）と有効視野外（ものがあると認識できていない範囲）を示す図である。

【先行技術文献】

【非特許文献】

【0005】

【文献】Xucong Zhang, Yusuke Sugano, Mario Fritz, Andreas Bulling, "Appearance-Based Gaze Estimation in the Wild", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015

【発明の概要】

【発明が解決しようとする課題】

【0006】

従来の視線角度推定に用いるモデルパラメータの学習では視線角度のみをニューラルネットワークで回帰する手法を用いており、視線角度が有効視野内か有効視野外かは推定視線角度からのルール判定によって判別する。また、従来技術は視線角度の誤差最小化のみを行っており、有効視野内か外かは考慮していない学習を行っている。視線角度の推定誤差の傾向として、正解角度の絶対値が大きくなるほど、誤差も大きくなり、有効視野境界である水平角度-15度付近および15度付近（図３の破線で囲んだ部分）、垂直角度-12度付近および８度付近も角度誤差が大きくなる傾向がある。このため、推定した視線角度から、ルールにて有効視野を判定する手法では、有効視野境界付近では、有効視野の判定精度が低下する問題がある。

【0007】

本発明は、視線角度と有効視野判定の両者の特徴を捉えた高精度な視線角度推定、有効視野判定を行うことができる推定装置、学習装置、それらの方法、およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0008】

上記の課題を解決するために、本発明の一態様によれば、学習装置は、モデルパラメータ^θ_gまたは^θ_pを用いて、ニューラルネットワークの関数により学習用顔画像S^bを中間特徴vに変換する共有ネットワーク部と、モデルパラメータ^θ_gを用いて、ニューラルネットワークの関数により中間特徴vを推定視線角度ベクトルZ'_gに変換する視線角度ネットワーク部と、推定視線角度ベクトルZ'_gと学習用顔画像S^bに対する視線角度正解ラベルとを用いて、モデルパラメータ^θ_gを更新する視線角度モデルパラメータ最適化部と、モデルパラメータ^θ_pを用いて、ニューラルネットワークの関数により中間特徴vを推定有効視野確率ベクトルZ'_pに変換する有効視野ネットワーク部と、推定有効視野確率ベクトルZ'_pと学習用顔画像S^bに対する有効視野正解ラベルとを用いて、モデルパラメータ^θ_pを更新する有効視野モデルパラメータ最適化部とを含み、モデルパラメータ^θ_gに対応する学習済みのモデルパラメータθ_gと、モデルパラメータ^θ_pに対応する学習済みのモデルパラメータθ_pを取得する。

【発明の効果】

【0009】

本発明によれば、視線角度と有効視野判定の両者の特徴を捉えた高精度な視線角度推定、有効視野判定を行うことができるという効果を奏する。

【図面の簡単な説明】

【0010】

【図1】人間の視野と視野特性を表す図。

【図2】有効視野内と有効視野外を示す図。

【図3】推定角度誤差を説明するための図。

【図4】第一実施形態に係る推定システムの構成例を示す図。

【図5】第一実施形態に係る学習装置の機能ブロック図。

【図6】第一実施形態に係る学習装置の処理フローの例を示す図。

【図7】第一実施形態に係る推定装置の機能ブロック図。

【図8】第一実施形態に係る推定装置の処理フローの例を示す図。

【図9】本手法を適用するコンピュータの構成例を示す図。

【発明を実施するための形態】

【0011】

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

【0012】

＜第一実施形態のポイント＞
本実施形態は、視線角度の推定に用いるモデルパラメータと、有効視野の判定に用いるモデルパラメータを、同時に学習装置にて学習する。学習データには、学習用顔画像と、それに対する視線角度の正解ラベルY^gと、有効視野の正解ラベルY^pを持つ。ニューラルネットワークの構成は、共有ネットワーク部と、その後段に分岐する視線角度ネットワーク部と有効視野ネットワーク部である。共有ネットワーク部は学習用顔画像を入力とし、視線角度と有効視野の両者の特徴を獲得する学習が期待でき、後段の視線角度ネットワーク部では、視線角度を回帰し、有効視野ネットワーク部では有効視野内の確率を計算し、それぞれの正解ラベルを用いて推定値の誤差最小化を行い、モデルパラメータを更新する。推定時には、それぞれ、視線角度推定部、有効視野判定部を用いる。視線角度推定部は、共有ネットワーク部とそれに続く視線角度ネットワーク部のネットワークアーキテクチャと、学習装置で学習したモデルパラメータを用いて、視線角度の推定を行う。同様に、有効視野判定部は、共有ネットワーク部とそれに続く有効視野ネットワーク部のネットワークアーキテクチャと、学習装置で学習したモデルパラメータを用いて、有効視野の判定を行う。

【0013】

＜第一実施形態＞
図４は第一実施形態に係る推定システムの構成例を示す。

【0014】

推定システムは、学習装置１００と、推定装置２００とを含む。

【0015】

学習装置１００および推定装置２００は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置１００および推定装置２００は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置１００および推定装置２００に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。学習装置１００および推定装置２００の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置１００および推定装置２００が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも学習装置１００および推定装置２００がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、学習装置１００および推定装置２００の外部に備える構成としてもよい。

【0016】

まず、学習装置１００について説明する。

【0017】

＜学習装置１００＞
学習装置１００は、学習データD=(S₁,T^g ₁,T^p ₁),…,(S_|M|,T^g _|M|,T^p _|M|)を入力とし、学習データDを用いてモデルパラメータθ_g,θ_pを学習し、学習済みのモデルパラメータθ_g,θ_pを出力する。ここで、Mは学習データDのデータサイズである。S_m(m=1,…,M)は、学習用顔画像である。学習用顔画像は、例えば、顔だけを切り出した画像、または、目領域だけを切り出した画像のどちらでもよい。例えば、学習用顔画像の解像度は224x224ピクセル、RGB３チャンネルを持つ。T^g _m(m=1,…,M)は、視線角度の正解ラベル（以下、「視線角度正解ラベル」ともいう）であり、例えば、視線角度の水平、垂直回転角度を格納したベクトルデータであり、[-35,56]のようなデータ形式をとる。T^p _m(m=1,…,M)は、有効視野の正解ラベル（以下、「有効視野正解ラベル」ともいう）であり、例えば、有効視野内である場合は[1]、有効視野外である場合[0]となる。

【0018】

図５は、学習装置１００の機能ブロック図を、図６はその処理フローを示す。

【0019】

学習装置１００は、共有ネットワーク部１２０と、視線角度ネットワーク部１３０と、視線角度モデルパラメータ最適化部１４０と、有効視野ネットワーク部１５０と、有効視野モデルパラメータ最適化部１６０とを含む。

【0020】

以下、各部の概要について説明する。

【0021】

共有ネットワーク部１２０は、学習用顔画像を入力とし、視線角度と有効視野の両者の特徴を学習し、中間特徴を出力する任意のニューラルネットワークを用いて、中間特徴を取得する。

【0022】

視線角度ネットワーク部１３０は、中間特徴を入力とし、視線角度の推定値を出力する任意のニューラルネットワークを用いて、視線角度の推定値を取得する。

【0023】

視線角度モデルパラメータ最適化部１４０は、視線角度の推定値と視線角度の正解ラベルを入力とし、視線角度の推定値の誤差を計算し、誤差に基づいてモデルパラメータθ_gを更新する。

【0024】

有効視野ネットワーク部１５０は、中間特徴を入力とし、有効視野内である確率(推定有効視野確率)を出力する任意のニューラルネットワークを用いて、推定有効視野確率を取得する。

【0025】

有効視野モデルパラメータ最適化部１６０は、推定有効視野確率と有効視野の正解ラベルを入力とし、推定有効視野確率の誤差を計算し、誤差に基づいてモデルパラメータθ_pを更新する。

【0026】

上述の処理は、１バッチ（学習データのうち部分的に選択した一塊のデータ）の学習手順を示したものであり、これを繰り返して、全データの学習を任意の回数、行えるものとする。

【0027】

以下、各部の詳細について説明する。

【0028】

＜共有ネットワーク部１２０＞
入力：学習用顔画像S₁,…,S_|M|、更新したモデルパラメータ^θ_gまたは^θ_pのうち共有ネットワーク部１２０を構成するニューラルネットワークに対応するパラメータ
出力：１バッチの中間特徴v
共有ネットワーク部１２０は、任意のニューラルネットワークで構成されており、例えば、４層の畳み込み層などで構成される。

【0029】

共有ネットワーク部１２０は、変換処理に先立ち、更新したモデルパラメータ^θ_g(視線角度モデルパラメータ最適化部１４０の出力値)または^θ_p(有効視野モデルパラメータ最適化部１６０の出力値)のうち共有ネットワーク部１２０を構成する任意のニューラルネットワークに対応するパラメータを受け取る。

【0030】

共有ネットワーク部１２０は、更新したモデルパラメータ^θ_gまたは^θ_pのうち共有ネットワーク部１２０を構成する任意のニューラルネットワークに対応するパラメータを用いて、任意のニューラルネットワークの関数により学習用顔画像S^bを中間特徴vに変換する（Ｓ１２０）。学習用顔画像S^bは、学習用顔画像S₁,…,S_|M|をバッチ単位に分割したものである。１バッチの学習用顔画像S^bは、例えば、１６枚の画像で構成される。例えば、あるバッチの学習用顔画像S^bがQ枚の画像で構成される場合、q番目の画像に対応する中間特徴をv_qとし、v=[v₁,v₂,…,v_Q]とする。ただし、q=1,2,…,Qである。

【0031】

＜視線角度ネットワーク部１３０＞
入力：１バッチの中間特徴v、更新したモデルパラメータ^θ_gのうち視線角度ネットワーク部１３０を構成するニューラルネットワークに対応するパラメータ
出力：推定視線角度ベクトルZ'_g
視線角度ネットワーク部１３０は、任意のニューラルネットワークで構成されており、例えば２層の全結合層などで構成される。

【0032】

視線角度ネットワーク部１３０は、変換処理に先立ち、更新したモデルパラメータ^θ_g(視線角度モデルパラメータ最適化部１４０の出力値)のうち視線角度ネットワーク部１３０を構成する任意のニューラルネットワークに対応するパラメータを受け取る。

【0033】

視線角度ネットワーク部１３０は、受け取ったパラメータを用いて、任意のニューラルネットワークの関数により中間特徴vを推定視線角度ベクトルZ'_gに変換する（Ｓ１３０）。推定視線角度ベクトルとは、視線角度の水平回転角度の推定値、垂直回転角度の推定値を格納したベクトルデータである。別の言い方をすると、推定視線角度ベクトルとは、視線角度ベクトルの推定値である。視線角度ベクトルとは、視線角度の水平回転角度、垂直回転角度を格納したベクトルデータである。回転角度の範囲は-180度～180度の範囲を持ち、例えば視線角度ベクトルは、[-35,56]などのベクトルとなる。例えば、あるバッチのq番目の中間特徴v_qに対応する推定視線角度ベクトルをZ'_g,qとし、Z'_g=[Z'_g,1,Z'_g,2,…,Z'_g,Q]とする。推定視線角度ベクトルZ'_g,qが、[-35,56]のようなベクトルとなる。

【0034】

＜視線角度モデルパラメータ最適化部１４０＞
入力：推定視線角度ベクトルZ'_g、視線角度正解ラベルT^g ₁,…,T^g _|M|
出力：更新したモデルパラメータ^θ_gまたは学習済みモデルパラメータθ_g
モデルパラメータ^θ_gおよびθ_gは、共有ネットワーク部１２０を構成するニューラルネットワークに対応するパラメータと視線角度ネットワーク部１３０を構成するニューラルネットワークに対応するパラメータとを連結したものである。

【0035】

視線角度モデルパラメータ最適化部１４０は、推定視線角度ベクトルZ'_gと視線角度正解ラベルT^g ₁,…,T^g _|M|とを用いて、モデルパラメータ^θ_gを更新し（Ｓ１４０）、最適化を行う。例えば、視線角度モデルパラメータ最適化部１４０は、推定視線角度ベクトルZ'_gと視線角度正解ラベルT^g ₁,…,T^g _|M|との間の誤差を計算し、誤差を最小化するようにモデルパラメータ^θ_gを更新し、最適化を行う。誤差は例えばMSE誤差やMAE誤差などを用いることができ、パラメータの更新方法としては勾配降下法等を用いることができる。

【0036】

＜有効視野ネットワーク部１５０＞
入力：１バッチの中間特徴v、更新したモデルパラメータ^θ_pのうち有効視野ネットワーク部１５０を構成するニューラルネットワークに対応するパラメータ
出力：推定有効視野確率ベクトルZ'_p
有効視野ネットワーク部１５０は、任意のニューラルネットワークで構成されており、例えば２層の全結合層などで構成される。

【0037】

有効視野ネットワーク部１５０は、変換処理に先立ち、更新したモデルパラメータ^θ_p(有効視野モデルパラメータ最適化部１６０の出力値)のうち有効視野ネットワーク部１５０を構成する任意のニューラルネットワークに対応するパラメータを受け取る。

【0038】

有効視野ネットワーク部１５０は、受け取ったパラメータを用いて、任意のニューラルネットワークの関数により１バッチの中間特徴vを推定有効視野確率ベクトルZ'_pに変換する（Ｓ１５０）。推定有効視野確率ベクトルとは、有効視野確率の推定値(推定有効視野確率)からなるベクトルであり、有効視野確率とは学習用顔画像の視線向きが有効視野内であるかどうかの確率である。別の言い方をすると、有効視野確率は、学習用顔画像を撮影するカメラが学習用顔画像の被写体の有効視野内に存在するか否かの確率である。例えば、あるバッチのq番目の中間特徴v_qに対応する推定有効視野確率をZ'_p,qとし、Z'_p=[Z'_p,1,Z'_p,2,…,Z'_g,Q]とする。

【0039】

＜有効視野モデルパラメータ最適化部１６０＞
入力：推定有効視野確率ベクトルZ'_p、有効視野正解ラベルT^p ₁,…,T^p _|M|
出力：更新したモデルパラメータ^θ_pまたは学習済みモデルパラメータθ_p
モデルパラメータ^θ_pおよびθ_pは、共有ネットワーク部１２０を構成するニューラルネットワークに対応するパラメータと有効視野ネットワーク部１５０を構成するニューラルネットワークに対応するパラメータとを連結したものである。

【0040】

有効視野モデルパラメータ最適化部１６０は、推定有効視野確率ベクトルZ'_pと有効視野正解ラベルT^p ₁,…,T^p _|M|とを用いて、モデルパラメータ^θ_pを更新し（Ｓ１６０）、最適化を行う。例えば、有効視野モデルパラメータ最適化部１６０は、推定有効視野確率ベクトルZ'_pと有効視野正解ラベルT^p ₁,…,T^p _|M|との間の誤差を計算し、誤差を最小化するようにモデルパラメータ^θ_pを更新し、最適化を行う。誤差は例えばクロスエントロピー誤差などを用いることができ、パラメータの更新方法としては勾配降下法等を用いることができる。

【0041】

上述の処理Ｓ１２０～Ｓ１６０を所定の条件を満たすまで繰り返す（Ｓ１７０）。所定の条件とは、パラメータの更新が収束したか否かを判断するための条件であり、例えば、所定の条件を(i)更新回数が所定の回数を超えたこと、(ii)更新前後のパラメータの差分が所定の値よりも小さいことなどとしてもよい。

【0042】

さらに、上述の処理Ｓ１２０～Ｓ１７０を全てのバッチデータ(学習データ)に対して行う。例えば、未処理のバッチデータがあるか否かを判定し（Ｓ１８０）、未処理のバッチデータがある場合には上述の処理Ｓ１２０～Ｓ１７０を行い（Ｓ１８０のNO）、未処理のバッチデータがない場合（Ｓ１８０のYES）には処理を終了する。

【0043】

全てのバッチデータに対して上述の処理を行った後、最終的に得られた、更新したモデルパラメータ^θ_g、^θ_pを学習済みモデルパラメータθ_g、θ_pとして出力する。

【0044】

次に、推定装置２００について説明する。

【0045】

＜推定装置２００＞
推定装置２００は、推定処理に先立ち、学習済みのモデルパラメータθ_g,θ_pを受け取る。推定装置２００は、推定対象の顔画像Sを入力とし、学習済みのモデルパラメータθ_gを用いて視線角度を推定し、学習済みのモデルパラメータθ_pを用いて有効視野確率を推定し、推定視線角度ベクトルZ_g、有効視野の判定結果Z_pを出力する。

【0046】

図７は、推定装置２００の機能ブロック図を、図８はその処理フローを示す。

【0047】

推定装置２００は、視線角度推定部２１０と、有効視野判定部２２０とを含む。

【0048】

以下、各部の詳細について説明する。

【0049】

＜視線角度推定部２１０＞
入力: 顔画像S、モデルパラメータθ_g
出力: 顔画像Sに対する推定視線角度ベクトルZ_g
視線角度推定部２１０は、推定処理に先立ち、モデルパラメータθ_gを受け取る。

【0050】

視線角度推定部２１０は、共有ネットワーク部１２０とそれに続く視線角度ネットワーク部１３０のネットワークアーキテクチャと、モデルパラメータθ_gとを用いて、顔画像Sから視線角度を推定し（Ｓ２１０）、推定値（推定視線角度ベクトルZ_g）を求める。例えば、共有ネットワーク部１２０が４層の畳み込み層からなる任意のニューラルネットワークで構成され、視線角度ネットワーク部１３０が２層の全結合層からなる任意のニューラルネットワークで構成される場合、視線角度推定部２１０は、共有ネットワーク部１２０と視線角度ネットワーク部１３０とに対応する４層の畳み込み層と２層の全結合層とからなるニューラルネットワークで構成され、このニューラルネットワークでモデルパラメータθ_gを用いる。

【0051】

＜有効視野判定部２２０＞
入力: 顔画像S、モデルパラメータθ_p
出力: 顔画像Sに対する有効視野の判定結果Z_p
有効視野判定部２２０は、推定処理に先立ち、モデルパラメータθ_pを受け取る。

【0052】

有効視野判定部２２０は、共有ネットワーク部１２０とそれに続く有効視野ネットワーク部１５０のネットワークアーキテクチャと、モデルパラメータθ_pとを用いて、顔画像Sから有効視野確率を推定し、有効視野確率の推定値に基づき有効視野内か否かを判定する（Ｓ２２０）。例えば、有効視野判定部２２０は、有効視野確率の推定値と所定の閾値との大小関係に基づき、有効視野内であるか否かを判定する。例えば、有効視野判定部２２０は、有効視野確率の推定値が所定の閾値(例えば、0.5)以上の場合には有効視野内であることを示す判定結果を出力し、所定の閾値未満の場合には有効視野外であることを示す判定結果を出力する。ただし、有効視野判定部２２０は、有効視野確率の推定値そのものを判定結果として出力してもよい。例えば、共有ネットワーク部１２０が４層の畳み込み層からなる任意のニューラルネットワークで構成され、有効視野ネットワーク部１５０が２層の全結合層からなる任意のニューラルネットワークで構成される場合、有効視野判定部２２０は、共有ネットワーク部１２０と有効視野ネットワーク部１５０とに対応する４層の畳み込み層と２層の全結合層とからなるニューラルネットワークで構成され、このニューラルネットワークでモデルパラメータθ_pを用いる。

【0053】

＜効果＞
以上の構成により、視線角度と有効視野判定の両者の特徴を捉えた高精度な視線角度推定および有効視野判定ができる。

【0054】

＜変形例＞
本実施形態では、推定装置２００は、視線角度と有効視野確率とを推定しているが、何れか一方のみを推定する構成としてもよい。その場合であっても、学習時には、視線角度と有効視野の推定に用いるモデルパラメータを１つのニューラルネットワークの系で学習しているため、視線角度と有効視野判定の両者の特徴を捉えた高精度な視線角度推定または有効視野判定を行うことができる。

【0055】

＜効果＞
以上の構成により、視線角度と有効視野判定の両者の特徴を捉えた高精度な視線角度推定、有効視野判定が行うことができる。

【0056】

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

【0057】

＜プログラム及び記録媒体＞
上述の各種の処理は、図９に示すコンピュータの記憶部２０２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

【0058】

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

【0059】

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

【0060】

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

【0061】

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【図1】