特開2024-17313 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-17313学習プログラム、識別プログラム、学習方法および識別方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024017313

(43)【公開日】2024-02-08

(54)【発明の名称】学習プログラム、識別プログラム、学習方法および識別方法

(51)【国際特許分類】

G06V 40/16 20220101AFI20240201BHJP

G06T 7/00 20170101ALI20240201BHJP

G06V 10/40 20220101ALI20240201BHJP

G06T 7/20 20170101ALI20240201BHJP

【ＦＩ】

G06V40/16 B

G06T7/00 350B

G06V10/40

G06T7/20 300B

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2022119862

(22)【出願日】2022-07-27

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】川村亮介

(72)【発明者】

【氏名】村瀬健太郎

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096JA11

5L096KA04

(57)【要約】

【課題】ＡＵの識別精度を高める。
【解決手段】実施形態の学習プログラムは、取得する処理と、分類する処理と、算出する処理と、学習する処理とをコンピュータに実行させる。取得する処理は、人物の顔を含む複数の画像を取得する。分類する処理は、顔の特定の部位の動きに関連するＡＵの発生の有無と、ＡＵの発生有りの画像に対するオクルージョンの有無との組み合わせとに基づいて、複数の画像を分類する。算出する処理は、分類された複数の画像のそれぞれを機械学習モデルに入力して画像の特徴量を算出する。学習する処理は、ＡＵの発生有りの画像と、ＡＵの発生有りの画像に対するオクルージョン有りの画像との特徴量間の第１の距離が小さくなるとともに、ＡＵの発生有りの画像に対するオクルージョン有りの画像と、ＡＵの発生なしの画像に対するオクルージョン有りの画像との特徴量間の第２の距離が大きくなるように機械学習モデルを学習する。
【選択図】図２

【特許請求の範囲】

【請求項1】

人物の顔を含む複数の画像を取得し、
前記顔の特定の部位の動きに関連するアクションユニットの発生の有無と、前記アクションユニットの発生有りの画像に対するオクルージョンの有無との組み合わせとに基づいて、前記複数の画像を分類し、
前記分類された複数の画像のそれぞれを機械学習モデルに入力して前記画像の特徴量を算出し、
前記アクションユニットの発生有りの画像と、当該アクションユニットの発生有りの画像に対するオクルージョン有りの画像との特徴量間の第１の距離が小さくなるとともに、前記アクションユニットの発生有りの画像に対するオクルージョン有りの画像と、前記アクションユニットの発生なしの画像に対するオクルージョン有りの画像との特徴量間の第２の距離が大きくなるように前記機械学習モデルを学習する、
処理をコンピュータに実行させる学習プログラム。

【請求項2】

前記取得する処理は、前記アクションユニットの発生の有無を示す正解情報とともに入力された画像に基づいて、前記アクションユニットの発生の有無が付与された人物の複数の顔画像を記憶する記憶部を参照し、前記入力された画像におけるアクションユニットの発生の有無とは当該アクションユニットの発生の有無が逆の画像を取得する、
ことを特徴とする請求項１に記載の学習プログラム。

【請求項3】

前記取得する処理は、前記入力された画像および前記取得した画像に基づいて、当該画像の一部を隠蔽してオクルージョン有りの画像を取得する、
ことを特徴とする請求項２に記載の学習プログラム。

【請求項4】

前記取得する処理は、前記アクションユニットに関する動作箇所の少なくとも一部を隠蔽する、
ことを特徴とする請求項３に記載の学習プログラム。

【請求項5】

前記学習する処理は、前記第１の距離をｄ_ｏ、前記第２の距離をｄ_ａｕ、前記第１の距離に関するマージンパラメータをｍ_ｏ、前記第２の距離に関するマージンパラメータをｍ_ａｕとしたときの次の式（１）の損失関数Ｌｏｓｓに基づいて前記機械学習モデルを学習する、

【数1】

ことを特徴とする請求項１に記載の学習プログラム。

【請求項6】

前記アクションユニットの発生の有無を示す正解情報が付与された画像を前記機械学習モデルに入力して得られた特徴量を入力した場合に、前記正解情報が示すアクションユニットの発生の有無を出力するように識別モデルを学習する処理をさらにコンピュータに実行させる、
ことを特徴とする請求項１に記載の学習プログラム。

【請求項7】

人物の顔の特定の部位の動きに関するアクションユニットの発生の有無と、前記アクションユニットの発生有りの画像に対するオクルージョンの有無との組み合わせとに基づいて分類された複数の画像のそれぞれを機械学習モデルに入力して前記画像の特徴量を算出し、前記アクションユニットの発生有りの画像と、当該アクションユニットの発生有りの画像に対するオクルージョン有りの画像との特徴量間の距離が小さくなるとともに、前記アクションユニットの発生有りの画像に対するオクルージョン有りの画像と、前記アクションユニットの発生なしの画像に対するオクルージョン有りの画像との特徴量間の距離が大きくなるように学習された前記機械学習モデルを取得し、
人物の顔を含む識別対象の画像を、取得した前記機械学習モデルに入力して得られた特徴量に基づいて、前記識別対象の画像に含まれる人物の顔における特定のアクションユニットの発生の有無を識別する、
処理をコンピュータに実行させる識別プログラム。

【請求項8】

【請求項9】

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、学習プログラム、識別プログラム、学習方法および識別方法に関する。

【背景技術】

【0002】

近年の画像処理技術の発達により、人間の心理状態の機微な変化を表情（驚き、喜び、哀しみ等）から検知し、心理状態の変化に応じた処理を行うシステムの開発が進んでいる。この表情検知に用いるための表情の変化を記述する代表的な手法の１つとして、ＡＵｓ(Action Units)を用いた表情の記述がある（表情は複数のＡＵの組み合わせを含む）。

【0003】

ＡＵは、表情を顔の部位と表情筋に基づいて分解して定量化した顔の動きの動作単位であり、ＡＵ１（眉の内側を上げる）、ＡＵ４（眉を下げる）、ＡＵ１２（唇両端を引き上げる）等、表情筋の動きに対応して数十種定義されている。表情検知時には、検知対象の顔画像よりこれらＡＵのOccurrence（発生の有無）を識別し、発生したＡＵをもとに微細な表情の変化を認識する。

【0004】

顔画像から各ＡＵの発生の有無を識別する従来技術としては、機械学習による認識モデルに顔画像のデータを入力して得られた出力に基づいて各ＡＵの発生の有無を識別するものが知られている。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】JAA-Net: Joint Facial Action Unit Detection and Face Alignment via Adaptive Attention

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、上記の従来技術では、顔画像の一部に髪の毛、マスク等による隠蔽（以下、「オクルージョン」とも称する）があると、各ＡＵの発生の有無の識別精度が悪くなるという問題がある。例えば、顔画像において、あるＡＵの発生部位が一部隠蔽された場合、その部位が動いたか否かの認識は困難なものとなる。一例として、眉間の一部が髪の毛で隠れた場合には、ＡＵ４（眉を下げる）等の眉間の動きは認識しにくくなる。

【0007】

１つの側面では、ＡＵの識別精度を高めることができる学習プログラム、識別プログラム、学習方法および識別方法を提供することを目的とする。

【課題を解決するための手段】

【0008】

１つの案では、学習プログラムは、取得する処理と、分類する処理と、算出する処理と、学習する処理とをコンピュータに実行させる。取得する処理は、人物の顔を含む複数の画像を取得する。分類する処理は、顔の特定の部位の動きに関連するアクションユニットの発生の有無と、アクションユニットの発生有りの画像に対するオクルージョンの有無との組み合わせとに基づいて、複数の画像を分類する。算出する処理は、分類された複数の画像のそれぞれを機械学習モデルに入力して画像の特徴量を算出する。学習する処理は、アクションユニットの発生有りの画像と、アクションユニットの発生有りの画像に対するオクルージョン有りの画像との特徴量間の第１の距離が小さくなるとともに、アクションユニットの発生有りの画像に対するオクルージョン有りの画像と、アクションユニットの発生なしの画像に対するオクルージョン有りの画像との特徴量間の第２の距離が大きくなるように機械学習モデルを学習する。

【発明の効果】

【0009】

ＡＵの識別精度を高めることができる。

【図面の簡単な説明】

【0010】

【図1】図１は、顔画像の一例を説明する説明図である。

【図2】図２は、特徴量算出を説明する説明図である。

【図3】図３は、特徴量算出の学習を説明する説明図である。

【図4】図４は、特徴量からの識別学習を説明する説明図である。

【図5】図５は、第１の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。

【図6】図６は、第１の実施形態にかかる情報処理装置の動作例を示すフローチャートである。

【図7】図７は、第２の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。

【図8】図８は、第２の実施形態にかかる情報処理装置の動作例を示すフローチャートである。

【図9】図９は、コンピュータ構成の一例を説明する説明図である。

【図10】図１０は、表情認識ルールの一例を示す図である。

【発明を実施するための形態】

【0011】

以下、図面を参照して、実施形態にかかる学習プログラム、識別プログラム、学習方法および識別方法を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する学習プログラム、識別プログラム、学習方法および識別方法は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。

【0012】

［表情認識システム］
本実施にかかる表情認識システムの全体構成について説明をする。表情認識システムは、複数のカメラと、映像データの解析を実行する情報処理装置とを有する。また、情報処理装置は、カメラで撮影された人物の顔画像から、表情認識モデルを用いて、人物の表情を認識する。表情認識モデルは、人物の特徴量の一例である表情に関する表情情報を生成する機械学習モデルの一例である。具体的には、表情認識モデルは、表情を顔の部位と表情筋に基づいて分解して定量化する手法であるＡＵ（Action Unit：アクションユニット）を推定する機械学習モデルである。この表情認識モデルは、画像データの入力に応じて、表情を特定するために設定されるＡＵ１からＡＵ２８の各ＡＵの発生強度（例えば５段階評価）で表現した「ＡＵ１：２、ＡＵ２：５、ＡＵ４：１、・・・」のような表情認識結果を出力する。

【0013】

表情認識ルールは、表情認識モデルの出力結果を用いて表情を認識するためのルールである。図１０は、表情認識ルールの一例を示す図である。図１０に示すように、表情認識ルールは、「表情」と「推定結果」を対応付けて記憶する。「表情」は、認識対象の表情であり、「推定結果」は、各表情に該当するＡＵ１からＡＵ２８の各ＡＵの強度である。図１０の例では、「ＡＵ１が強度２、ＡＵ２が強度５、ＡＵ３が強度０・・・」の場合は表情「笑顔」と認識されることを示している。なお、表情認識ルールは、管理者等により予め登録されたデータである。

【0014】

（実施形態の概要）
図１は、顔画像の一例を説明する説明図である。図１に示すように、顔画像１００、１０１は、人物の顔１１０を含む画像である。顔画像１００の顔１１０のように、顔面に対する隠蔽がない場合（オクルージョン無し）は、眉間にしわがよる（ＡＵ０４）について、その発生の有無を正しく識別することができる。

【0015】

これに対し、顔画像１０１のように、顔１１０の髪１１１により眉間の一部が隠されている場合（オクルージョン有り）は、オクルージョンによって眉間部分の皮膚のしわが見えにくくなり、例えば髪１１１のエッジがしわと誤認識されたりすることがある。したがって、従来技術による認識モデルでは、眉間部分にオクルージョンが有る場合、眉間にしわがよる（ＡＵ０４）について、その発生の有無を正しく識別することが困難になる。

【0016】

図２は、特徴量算出を説明する説明図である。図２に示すように、実施形態にかかる情報処理装置では、いくつかのパターンに分類された顔画像１００ａ、１００ｂ、１００ｃのそれぞれを特徴量算出モデルＭ１に入力し、各画像に関する特徴量（第１の特徴量１２０ａ、第２の特徴量１２０ｂ、第３の特徴量１２０ｃ）を算出する。なお、以下の説明において、各画像に関する特徴量を特に区別しない場合は、特徴量１２０と称するものとする。

【0017】

ここで、特徴量算出モデルＭ１は、入力した画像に対してその画像に関する特徴量１２０を算出して出力する機械学習モデルである。この特徴量算出モデルＭ１には、ＧＭＣＮＮ（Generative Multi-column Convolutional Neural Networks）やＧＡＮ（Generative Adversarial Networks）等のニューラルネットワークが適用できる。この特徴量算出モデルＭ１に入力される画像は、静止画像であってもよいし、時系列順の画像列であってもよい。また、特徴量算出モデルＭ１が算出する特徴量１２０については、画像に含まれる顔の表情筋の動きなどを示すベクトル情報、各ＡＵのIntensity（発生強度）など、入力した画像の特徴を示す情報であればいずれであってもよい。

【0018】

顔画像１００ａは、唇両端を引き上げる（ＡＵ１５）という動作単位（ＡＵ）が顔１１０に生じている画像である（オクルージョンは生じていない）。この顔画像１００ａを特徴量算出モデルＭ１に入力して算出された特徴量が、第１の特徴量１２０ａである。なお、実施形態では、唇両端を引き上げる（ＡＵ１５）の発生の有無を例示しているが、ＡＵについてはＡＵ１５に限定するものではなく任意である。

【0019】

顔画像１００ｂは、唇両端を引き上げる（ＡＵ１５）というＡＵが生じている顔１１０において、口元の遮蔽物１１２によりオクルージョンが生じている画像である。この顔画像１００ｂを特徴量算出モデルＭ１に入力して算出された特徴量が、第２の特徴量１２０ｂである。

【0020】

顔画像１００ｃは、唇両端を引き上げる（ＡＵ１５）というＡＵが生じていない顔１１０において、口元の遮蔽物１１２によりオクルージョンが生じている画像である。この顔画像１００ｃを特徴量算出モデルＭ１に入力して算出された特徴量が、第３の特徴量１２０ｃである。なお、以下の説明において、顔画像１００ａ、１００ｂ、１００ｃを特に区別しない場合は、顔画像１００と称するものとする。

【0021】

実施形態にかかる情報処理装置は、ＡＵの発生有り（オクルージョン無し）の顔画像１００ａの第１の特徴量１２０ａと、ＡＵの発生有りの顔画像１００ａに対するオクルージョン有りの顔画像１００ｂの第２の特徴量１２０ｂとの間の第１の距離（ｄ_ｏ）を求める。ついで、実施形態にかかる情報処理装置は、第１の距離（ｄ_ｏ）が小さくなるように、特徴量算出モデルＭ１の学習を行う。

【0022】

また、実施形態にかかる情報処理装置は、ＡＵの発生有りの顔画像１００ａに対するオクルージョン有りの顔画像１００ｂの第２の特徴量１２０ｂと、ＡＵの発生無しの画像に対するオクルージョン有りの顔画像１００ｃの第３の特徴量１２０ｃとの間の第２の距離（ｄ_ａｕ）を求める。ついで、実施形態にかかる情報処理装置は、第２の距離（ｄ_ａｕ）が大きくなるように、特徴量算出モデルＭ１の学習を行う。

【0023】

例えば、情報処理装置は、顔画像１００をニューラルネットワークに入力することで、ニューラルネットワークからの特徴量を取得する。そして、情報処理装置は、取得した特徴量において、正解データとの誤差が小さくなるように、ニューラルネットワークのパラメータを変更した機械学習モデルを生成する。第１の距離（ｄ_ｏ）が小さくなるとともに、第２の距離（ｄ_ａｕ）が大きくなるように特徴量算出モデルＭ１を学習する。

【0024】

図３は、特徴量算出の学習を説明する説明図である。図３に示すように、実施形態にかかる情報処理装置は、第１の距離（ｄ_ｏ）が小さくなるとともに、第２の距離（ｄ_ａｕ）が大きくなるように特徴量算出モデルＭ１を学習することで、特徴量算出モデルＭ１が出力する特徴量に遮蔽物１１２によるオクルージョンの影響が及ぶことを軽減することができる。

【0025】

例えば、ＡＵの発生有りの顔画像１００ａ、１００ｂを学習後の特徴量算出モデルＭ１に入力した場合には、オクルージョンの有無による差異が特徴量に生じにくくなる。また、ともにオクルージョン有りであるがＡＵの発生の有無が異なる顔画像１００ｂ、１００ｃを学習後の特徴量算出モデルＭ１に入力した場合には、ＡＵの発生の有無による差異が特徴量に生じやすくなる。

【0026】

なお、実施形態にかかる情報処理装置は、第１の距離（ｄ_ｏ）が小さくなるとともに、第２の距離（ｄ_ａｕ）が大きくなる特徴量算出モデルＭ１の学習については、次の式（１）の損失関数（Ｌｏｓｓ）に基づいて行う。ここで、ｍ_ｏ、ｍ_ａｕは、それぞれ第１の距離（ｄ_ｏ）、第２の距離（ｄ_ａｕ）に関するマージンパラメータである。このマージンパラメータは、損失関数（Ｌｏｓｓ）の演算時における距離のマージンを調整するものであり、例えばユーザが任意に設定した設定値とする。

【0027】

【数1】

【0028】

式（１）の損失関数（Ｌｏｓｓ）では、第１の距離（ｄ_ｏ）が大きく、互いにＡＵの発生有りであってもオクルージョンの有無で特徴量間に差が生じてしまっている場合はロスが大きくなる。また、式（１）の損失関数（Ｌｏｓｓ）では、第２の距離（ｄ_ａｕ）が小さく、互いにＡＵの発生の有無が異なるが、オクルージョンにより特徴量間に差が生じていない場合にはロスが大きくなる。

【0029】

また、実施形態にかかる情報処理装置は、上記の特徴量算出モデルＭ１にＡＵの発生の有無を示す正解情報が付与された画像を入力して得られた特徴量をもとに、ＡＵの発生の有無を識別する識別モデルを学習する。この識別モデルは、特徴量算出モデルＭ１とは別のニューラルネットワークによる機械学習モデルであってもよいし、特徴量算出モデルＭ１の後段に配置された識別層であってもよい。

【0030】

図４は、特徴量からの識別学習を説明する説明図である。図４に示すように、実施形態にかかる情報処理装置は、ＡＵの発生の有無を示す正解情報が付与された顔画像１００を学習済みの特徴量算出モデルＭ１に入力して特徴量１２０を得る。ここで、正解情報は、各ＡＵの発生の有無を示す配列（ＡＵ１，ＡＵ２，…）等である。例えば、配列（１，０，…）が正解情報として顔画像１００に付与されている場合、顔画像１００において、ＡＵ１の発生有りが示されている。

【0031】

実施形態にかかる情報処理装置は、特徴量１２０を識別モデルＭ２に入力した場合、正解情報が示すＡＵの発生の有無に対応した値を識別モデルＭ２が出力するように識別モデルＭ２のパラメータをアップデートすることで、識別モデルＭ２の学習を行う。実施形態にかかる情報処理装置は、このように学習した特徴量算出モデルＭ１、識別モデルＭ２を用いることで、識別対象の顔画像より、その顔におけるＡＵの発生の有無を識別することができる。

【0032】

例えば、情報処理装置は、特徴量１２０をニューラルネットワークに入力することで、ニューラルネットワークからのＡＵの発生の有無を示す特徴量を取得する。そして、情報処理装置は、取得した特徴量において、正解データとの誤差が小さくなるように、ニューラルネットワークのパラメータを変更した機械学習モデルを生成する。

【0033】

（第１の実施形態）
図５は、第１の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図５に示すように、情報処理装置１は、画像入力部１１、顔領域抽出部１２、部分隠蔽画像生成部１３、ＡＵ比較画像生成部１４、画像データベース１５、画像セット生成部１６、特徴量算出部１７、距離算出部１８、距離学習実行部１９、ＡＵ認識学習実行部２０および識別部２１を有する。

【0034】

画像入力部１１は、通信回線等を介して外部より画像の入力を受け付ける処理部である。具体的には、画像入力部１１は、特徴量算出モデルＭ１、識別モデルＭ２の学習時には学習元となる画像とＡＵの発生の有無を示す正解情報の入力を受け付ける。また、画像入力部１１は、識別時には識別対象となる画像の入力を受け付ける。

【0035】

顔領域抽出部１２は、画像入力部１１が受け付けた画像に含まれる顔領域を抽出する処理部である。顔領域抽出部１２は、公知の顔認識処理により、画像入力部１１が受け付けた画像から顔領域を特定し、特定した顔領域を顔画像１００とする。ついで、顔領域抽出部１２は、特徴量算出モデルＭ１、識別モデルＭ２の学習時には顔画像１００を部分隠蔽画像生成部１３、ＡＵ比較画像生成部１４および画像セット生成部１６に出力する。また、顔領域抽出部１２は、識別時には顔画像１００を識別部２１に出力する。

【0036】

部分隠蔽画像生成部１３は、顔領域抽出部１２およびＡＵ比較画像生成部１４より出力された顔画像１００（オクルージョン無し）について一部分を隠蔽したオクルージョン有りの画像（顔画像１００ｂ、１００ｃ）を生成する処理部である。具体的には、部分隠蔽画像生成部１３は、オクルージョン無しの顔画像１００に対し、正解情報として示されたＡＵの発生の有りの動作箇所の少なくとも一部を隠すようにマスキングした画像を生成する。ついで、部分隠蔽画像生成部１３は、生成した画像（オクルージョン有りの画像）を画像セット生成部１６へ出力する。

【0037】

例えば、正解情報として唇両端を引き上げる（ＡＵ１５）ことが示されている場合、部分隠蔽画像生成部１３は、ＡＵ１５に対応した動作箇所である口周りの一部を隠すようにマスキングした画像を生成する。他のＡＵに対応する動作箇所についても同様である。例えば、正解情報として眉の内側を上げる（ＡＵ１）ことが示されている場合、部分隠蔽画像生成部１３は、ＡＵ１に対応した動作箇所である眉の一部を隠すようにマスキングした画像を生成する。

【0038】

なお、マスキングについては、動作箇所の一部をマスクするものに限定するものではなく、動作箇所以外をマスクしてもよい。例えば、部分隠蔽画像生成部１３は、顔画像１００の全体領域に対してランダムに指定した一部の領域をマスクしてもよい。

【0039】

ＡＵ比較画像生成部１４は、顔領域抽出部１２より出力された顔画像１００について、正解情報が示すＡＵの発生の有無とは逆の画像を生成する処理部である。具体的には、ＡＵ比較画像生成部１４は、ＡＵの発生の有無が付与された人物の複数の顔画像を記憶する画像データベース１５を参照し、正解情報が示すＡＵの発生の有無とは逆の画像を取得する。ＡＵ比較画像生成部１４は、取得した画像を部分隠蔽画像生成部１３および画像セット生成部１６へ出力する。

【0040】

ここで、画像データベース１５は、複数の顔画像を格納するデータベースである。画像データベース１５に格納された顔画像それぞれには、各ＡＵの発生の有無を示す情報（例えば各ＡＵの発生の有無を示す配列（ＡＵ１，ＡＵ２，…））が付与されている。

【0041】

ＡＵ比較画像生成部１４は、この画像データベース１５を参照し、例えばＡＵ１の発生有りとする配列（１，０，…）が正解情報である場合、ＡＵ１の発生無し（０，＊（任意），…）に該当する顔画像を取得する。これにより、ＡＵ比較画像生成部１４は、入力された学習元となる顔画像１００に対して、ＡＵの発生の有無が逆となる画像を得る。

【0042】

すなわち、画像入力部１１、顔領域抽出部１２、部分隠蔽画像生成部１３およびＡＵ比較画像生成部１４は、人物の顔を含む複数の画像を取得する取得部の一例である。

【0043】

画像セット生成部１６は、顔領域抽出部１２、部分隠蔽画像生成部１３およびＡＵ比較画像生成部１４から出力された顔画像（顔画像１００ａ、１００ｂ、１００ｃ）について、ＡＵの発生の有無と、ＡＵの発生有りの画像に対するオクルージョンの有無とを組み合わせたいずれかのパターンに分類した画像セットを生成する処理部である。すなわち、画像セット生成部１６は、複数の画像のそれぞれを分類する分類部の一例である。

【0044】

具体的には、画像セット生成部１６は、第１の距離（ｄ_ｏ）と、第２の距離（ｄ_ａｕ）とを得るための画像セット（顔画像１００ａ、１００ｂ、１００ｃ）に分類する。

【0045】

一例として、画像セット生成部１６は、ＡＵ有りの正解情報が付与された入力画像について顔領域抽出部１２より出力された顔画像１００ａ、顔画像１００ａに対するマスキングの後に部分隠蔽画像生成部１３より出力された顔画像１００ｂ、および、顔画像１００ａとはＡＵの発生の有無が逆となる画像としてＡＵ比較画像生成部１４より生成され、部分隠蔽画像生成部１３によるマスキングの後に出力された顔画像１００ｃの３種の画像を組み合わせる。

【0046】

なお、画像セット生成部１６は、第１の距離（ｄ_ｏ）を得るための画像セット（顔画像１００ａ、１００ｂ）と、第２の距離（ｄ_ａｕ）を得るための画像セット（顔画像１００ｂ、１００ｃ）とに分類してもよい。

【0047】

特徴量算出部１７は、画像セット生成部１６が生成した画像セットの各画像に関する特徴量１２０を算出する処理部である。具体的には、特徴量算出部１７は、画像セットの各画像を特徴量算出モデルＭ１に入力することで、特徴量算出モデルＭ１からの出力（特徴量１２０）を得る。

【0048】

距離算出部１８は、特徴量算出部１７が算出した画像セットの各画像に関する特徴量１２０をもとに、第１の距離（ｄ_ｏ）と、第２の距離（ｄ_ａｕ）とを算出する処理部である。具体的には、距離算出部１８は、顔画像１００ａ、１００ｂを組み合わせた画像セットによる特徴量をもとに、第１の距離（ｄ_ｏ）を算出する。同様に、距離算出部１８は、顔画像１００ｂ、１００ｃを組み合わせた画像セットによる特徴量をもとに、第２の距離（ｄ_ａｕ）を算出する。

【0049】

距離学習実行部１９は、距離算出部１８が算出した第１の距離（ｄ_ｏ）と、第２の距離（ｄ_ａｕ）とをもとに、第１の距離（ｄ_ｏ）が小さくなるとともに、第２の距離（ｄ_ａｕ）が大きくなるように特徴量算出モデルＭ１を学習する処理部である。具体的には、距離学習実行部１９は、上述した式（１）の損失関数におけるロスを小さくするように、逆誤差伝搬法等の公知の手法を用いて特徴量算出モデルＭ１のパラメータを調整する。

【0050】

距離学習実行部１９は、学習後の特徴量算出モデルＭ１に関するパラメータ等を記憶装置（図示しない）に格納する。よって、識別時において、識別部２１は、記憶装置に格納された情報を参照することで、距離学習実行部１９による学習後の特徴量算出モデルＭ１を得ることができる。

【0051】

ＡＵ認識学習実行部２０は、ＡＵの発生の有無を示す正解情報と、特徴量算出部１７により算出された特徴量１２０とをもとに、識別モデルＭ２の学習を行う処理部である。具体的には、ＡＵ認識学習実行部２０は、特徴量１２０を識別モデルＭ２に入力した場合、正解情報が示すＡＵの発生の有無に対応した値を識別モデルＭ２が出力するように識別モデルＭ２のパラメータをアップデートする。

【0052】

ＡＵ認識学習実行部２０は、学習後の識別モデルＭ２に関するパラメータ等を記憶装置（図示しない）に格納する。よって、識別時において、識別部２１は、記憶装置に格納された情報を参照することで、ＡＵ認識学習実行部２０による学習後の識別モデルＭ２を得ることができる。

【0053】

識別部２１は、識別時において、顔領域抽出部１２が識別対象となる画像より抽出した顔画像１００をもとに、ＡＵの発生の有無を識別する処理部である。

【0054】

具体的には、識別部２１は、記憶装置に格納された情報を参照して特徴量算出モデルＭ１および識別モデルＭ２に関するパラメータを得ることで、特徴量算出モデルＭ１および識別モデルＭ２を構築する。ついで、識別部２１は、顔領域抽出部１２が抽出した顔画像１００を特徴量算出モデルＭ１に入力し、顔画像１００に関する特徴量１２０を得る。ついで、識別部２１は、得られた特徴量１２０を識別モデルＭ２に入力することで、ＡＵの発生の有無を示す情報を得る。識別部２１は、このようにして得られた識別結果（ＡＵの発生の有無）を、例えば表示装置などに出力する。

【0055】

図６は、第１の実施形態にかかる情報処理装置１の動作例を示すフローチャートである。図６に示すように、処理が開始されると、画像入力部１１は、学習元となる画像（正解情報を含む）の入力を受け付ける（Ｓ１１）。

【0056】

ついで、顔領域抽出部１２は、入力された画像に対して顔認識処理を施すことで顔周辺領域を抽出する（Ｓ１２）。ついで、部分隠蔽画像生成部１３は、顔周辺領域画像（顔画像１００）に対して隠蔽マスク画像を重畳する（Ｓ１３）。これにより、部分隠蔽画像生成部１３は、顔画像１００（オクルージョン無し）に対するオクルージョン有りの隠蔽画像を生成する。

【0057】

ついで、ＡＵ比較画像生成部１４は、顔周辺領域画像（顔画像１００）とＡＵの発生の有無が逆のＡＵ比較画像を画像データベース１５より選択して取得する。ついで、部分隠蔽画像生成部１３は、取得したＡＵ比較画像に対して隠蔽マスク画像を重畳する（Ｓ１４）。これにより、部分隠蔽画像生成部１３は、ＡＵ比較画像（オクルージョン無し）に対するオクルージョン有りの画像を生成する。

【0058】

ついで、画像セット生成部１６は、隠蔽画像と、隠蔽する前の画像（顔周辺領域画像（顔画像１００））、ＡＵ比較画像（オクルージョン有り）をペアにして登録する（Ｓ１５）。ついで、特徴量算出部１７は、画像ペアの３種の画像それぞれから特徴量１２０（第１の特徴量１２０ａ、第２の特徴量１２０ｂおよび第３の特徴量１２０ｃ）を算出する（Ｓ１６）。

【0059】

ついで、距離算出部１８は、隠蔽画像と顔周辺領域画像の特徴量間の距離（ｄ_ｏ）と、隠蔽画像とＡＵ比較画像（オクルージョン有り）の特徴量間の距離（ｄ_ａｕ）を算出する（Ｓ１７）。

【0060】

ついで、距離学習実行部１９は、距離算出部１８により得られた距離（ｄ_ｏ、ｄ_ａｕ）で、第１の距離（ｄ_ｏ）が小さくなるとともに、第２の距離（ｄ_ａｕ）が大きくなるように特徴量算出モデルＭ１を学習する（Ｓ１８）。

【0061】

ついで、ＡＵ認識学習実行部２０は、特徴量算出モデルＭ１で隠蔽画像の特徴量１２０を算出する。ついで、ＡＵ認識学習実行部２０は、算出した特徴量１２０を識別モデルＭ２に入力した場合に正解情報が示すＡＵの発生の有無に対応した値を識別モデルＭ２が出力するように、ＡＵ認識学習を行い（Ｓ１９）、処理を終了する。

【0062】

（第２の実施形態）
図７は、第２の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図７に示すように、第２の実施形態にかかる情報処理装置１ａは、予め顔画像を抽出した画像データの入力を受け付ける顔画像入力部１１ａを有する構成である。すなわち、第２の実施形態にかかる情報処理装置１ａでは、顔領域抽出部１２がない点が第１の実施形態にかかる情報処理装置１とは異なっている。

【0063】

図８は、第２の実施形態にかかる情報処理装置１ａの動作例を示すフローチャートである。図８に示すように、情報処理装置１ａでは、顔画像入力部１１ａが顔画像の入力を受け付ける（Ｓ１１ａ）ことから、顔周辺領域の抽出（Ｓ１２）を行わなくてもよい。

【0064】

（効果）
以上のように、情報処理装置１、１ａは、人物の顔を含む複数の画像を取得する。情報処理装置１、１ａは、顔の動きに関する特定の動作単位（ＡＵ）の発生の有無と、動作単位の発生有りの画像に対するオクルージョンの有無とを組み合わせたいずれかのパターンに複数の画像のそれぞれを分類する。情報処理装置１、１ａは、パターンに分類された画像のそれぞれを特徴量算出モデルＭ１に入力して画像の特徴量を算出する。画像入力部１１、１ａは、動作単位の発生有りの画像と、動作単位の発生有りの画像に対するオクルージョン有りの画像との特徴量間の第１の距離が小さくなるとともに、動作単位の発生有りの画像に対するオクルージョン有りの画像と、動作単位の発生なしの画像に対するオクルージョン有りの画像との特徴量間の第２の距離が大きくなるように特徴量算出モデルＭ１を学習する。

【0065】

このように、情報処理装置１、１ａでは、オクルージョンの影響を軽減し、特定の動作単位（ＡＵ）の発生による顔画像の変化の大きさを特徴量として出力するように特徴量算出モデルＭ１を学習することができる。したがって、学習後の特徴量算出モデルＭ１に識別対象の画像を入力して得られた特徴量を用いてＡＵの識別を行うことで、識別対象の画像にオクルージョンがある場合であっても、精度よくＡＵの発生の有無を識別することができる。

【0066】

また、情報処理装置１、１ａは、動作単位の発生の有無を示す正解情報とともに入力された画像に基づいて、動作単位の発生の有無が付与された人物の複数の顔画像を記憶する画像データベース１５を参照し、入力された画像における動作単位の発生の有無とは動作単位の発生の有無が逆の画像を取得する。これにより、情報処理装置１、１ａでは、入力された画像より、動作単位の発生の有りおよび動作単位の発生無しの両方の画像を得ることができる。

【0067】

また、情報処理装置１、１ａは、入力された画像および画像データベース１５を参照して取得した画像に基づいて、画像の一部を隠蔽してオクルージョン有りの画像を取得する。これにより、情報処理装置１、１ａでは、入力された画像より、動作単位の発生の有りおよび無しの画像におけるオクルージョン有りの画像を得ることができる。

【0068】

また、情報処理装置１、１ａは、オクルージョン有りの画像を取得する際に、動作単位に関する動作箇所の少なくとも一部を隠蔽する。これにより、情報処理装置１、１ａでは、動作単位に関する動作箇所の少なくとも一部が隠蔽されたオクルージョン有りの画像を得ることができる。したがって、情報処理装置１、１ａでは、動作単位に関する動作箇所の少なくとも一部が隠蔽されたオクルージョン有りの画像を用いて特徴量算出モデルＭ１の学習を進められることから、動作箇所が隠蔽されるケースについて効率よく学習することができる。

【0069】

また、情報処理装置１、１ａは、第１の距離をｄ_ｏ、第２の距離をｄ_ａｕ、第１の距離に関するマージンパラメータをｍ_ｏ、第２の距離に関するマージンパラメータをｍ_ａｕとしたときの式（１）の損失関数Ｌｏｓｓに基づいて特徴量算出モデルＭ１を学習する。これにより、情報処理装置１、１ａでは、損失関数Ｌｏｓｓにより、第１の距離が小さくなるとともに、第２の距離が大きくなるように特徴量算出モデルＭ１を学習することができる。

【0070】

また、情報処理装置１、１ａは、動作単位の発生の有無を示す正解情報が付与された画像を特徴量算出モデルＭ１に入力して得られた特徴量を入力した場合に、正解情報が示す動作単位の発生の有無を出力するように識別モデルＭ２を学習する。これにより、情報処理装置１、１ａでは、特徴量算出モデルＭ１に入力して得られた特徴量をもとに、動作単位の発生の有無を識別する識別モデルＭ２を学習することができる。

【0071】

また、情報処理装置１、１ａは、学習された特徴量算出モデルＭ１を取得し、人物の顔を含む識別対象の画像を、取得した特徴量算出モデルＭ１に入力して得られた特徴量に基づいて、識別対象の画像に含まれる人物の顔における特定の動作単位の発生の有無を識別する。これにより、情報処理装置１、１ａは、識別対象の画像においてオクルージョンがある場合であっても、特徴量算出モデルＭ１より得られた特徴量に基づいて精度よく特定の動作単位の発生の有無を識別することができる。

【0072】

（その他）
なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

【0073】

また、情報処理装置１、１ａの各種処理機能（画像入力部１１、顔画像入力部１１ａ、顔領域抽出部１２、部分隠蔽画像生成部１３、ＡＵ比較画像生成部１４、画像セット生成部１６、特徴量算出部１７、距離算出部１８、距離学習実行部１９、ＡＵ認識学習実行部２０および識別部２１）は、ＣＰＵ（またはＭＰＵ、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、情報処理装置１で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。

【0074】

ところで、上記の実施形態で説明した各種処理機能は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータ構成（ハードウエア）の一例を説明する。図９は、コンピュータ構成の一例を説明位する説明図である。

【0075】

図９に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、データ入力を受け付ける入力装置２０２と、モニタ２０３と、スピーカ２０４とを有する。また、コンピュータ２００は、記憶媒体からプログラム等を読み取る媒体読取装置２０５と、各種装置と接続するためのインタフェース装置２０６と、有線または無線により外部機器と通信接続するための通信装置２０７とを有する。また、情報処理装置１は、各種情報を一時記憶するＲＡＭ２０８と、ハードディスク装置２０９とを有する。また、コンピュータ２００内の各部（２０１～２０９）は、バス２１０に接続される。

【0076】

ハードディスク装置２０９には、上記の各種処理機能（例えば画像入力部１１、顔画像入力部１１ａ、顔領域抽出部１２、部分隠蔽画像生成部１３、ＡＵ比較画像生成部１４、画像セット生成部１６、特徴量算出部１７、距離算出部１８、距離学習実行部１９、ＡＵ認識学習実行部２０および識別部２１）における各種の処理を実行するためのプログラム２１１が記憶される。また、ハードディスク装置２０９には、プログラム２１１が参照する各種データ２１２が記憶される。入力装置２０２は、例えば、操作者から操作情報の入力を受け付ける。モニタ２０３は、例えば、操作者が操作する各種画面を表示する。インタフェース装置２０６は、例えば印刷装置等が接続される。通信装置２０７は、ＬＡＮ（Local Area Network）等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。

【0077】

ＣＰＵ２０１は、ハードディスク装置２０９に記憶されたプログラム２１１を読み出して、ＲＡＭ２０８に展開して実行することで、上記の各種処理機能に関する各種の処理を行う。なお、プログラム２１１は、ハードディスク装置２０９に記憶されていなくてもよい。例えば、コンピュータ２００が読み取り可能な記憶媒体に記憶されたプログラム２１１を読み出して実行するようにしてもよい。コンピュータ２００が読み取り可能な記憶媒体は、例えば、ＣＤ－ＲＯＭやＤＶＤディスク、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にこのプログラム２１１を記憶させておき、コンピュータ２００がこれらからプログラム２１１を読み出して実行するようにしてもよい。

【0078】

以上の実施形態に関し、さらに以下の付記を開示する。

【0079】

（付記１）人物の顔を含む複数の画像を取得し、
前記顔の特定の部位の動きに関連するアクションユニットの発生の有無と、前記アクションユニットの発生有りの画像に対するオクルージョンの有無との組み合わせとに基づいて、前記複数の画像を分類し、
前記分類された複数の画像のそれぞれを機械学習モデルに入力して前記画像の特徴量を算出し、
前記アクションユニットの発生有りの画像と、当該アクションユニットの発生有りの画像に対するオクルージョン有りの画像との特徴量間の第１の距離が小さくなるとともに、前記アクションユニットの発生有りの画像に対するオクルージョン有りの画像と、前記アクションユニットの発生なしの画像に対するオクルージョン有りの画像との特徴量間の第２の距離が大きくなるように前記機械学習モデルを学習する、
処理をコンピュータに実行させる学習プログラム。

【0080】

（付記２）前記取得する処理は、前記アクションユニットの発生の有無を示す正解情報とともに入力された画像に基づいて、前記アクションユニットの発生の有無が付与された人物の複数の顔画像を記憶する記憶部を参照し、前記入力された画像におけるアクションユニットの発生の有無とは当該アクションユニットの発生の有無が逆の画像を取得する、
ことを特徴とする付記１に記載の学習プログラム。

【0081】

（付記３）前記取得する処理は、前記入力された画像および前記取得した画像に基づいて、当該画像の一部を隠蔽してオクルージョン有りの画像を取得する、
ことを特徴とする付記２に記載の学習プログラム。

【0082】

（付記４）前記取得する処理は、前記アクションユニットに関する動作箇所の少なくとも一部を隠蔽する、
ことを特徴とする付記３に記載の学習プログラム。

【0083】

（付記５）前記学習する処理は、前記第１の距離をｄ_ｏ、前記第２の距離をｄ_ａｕ、前記第１の距離に関するマージンパラメータをｍ_ｏ、前記第２の距離に関するマージンパラメータをｍ_ａｕとしたときの式（１）の損失関数Ｌｏｓｓに基づいて前記機械学習モデルを学習する、
ことを特徴とする付記１に記載の学習プログラム。

【0084】

（付記６）前記アクションユニットの発生の有無を示す正解情報が付与された画像を前記機械学習モデルに入力して得られた特徴量を入力した場合に、前記正解情報が示すアクションユニットの発生の有無を出力するように識別モデルを学習する処理をさらにコンピュータに実行させる、
ことを特徴とする付記１に記載の学習プログラム。

【0085】

（付記７）人物の顔の特定の部位の動きに関するアクションユニットの発生の有無と、前記アクションユニットの発生有りの画像に対するオクルージョンの有無との組み合わせとに基づいて分類された複数の画像のそれぞれを機械学習モデルに入力して前記画像の特徴量を算出し、前記アクションユニットの発生有りの画像と、当該アクションユニットの発生有りの画像に対するオクルージョン有りの画像との特徴量間の距離が小さくなるとともに、前記アクションユニットの発生有りの画像に対するオクルージョン有りの画像と、前記アクションユニットの発生なしの画像に対するオクルージョン有りの画像との特徴量間の距離が大きくなるように学習された前記機械学習モデルを取得し、
人物の顔を含む識別対象の画像を、取得した前記機械学習モデルに入力して得られた特徴量に基づいて、前記識別対象の画像に含まれる人物の顔における特定のアクションユニットの発生の有無を識別する、
処理をコンピュータに実行させる識別プログラム。

【0086】

（付記８）人物の顔を含む複数の画像を取得し、
前記顔の特定の部位の動きに関連するアクションユニットの発生の有無と、前記アクションユニットの発生有りの画像に対するオクルージョンの有無との組み合わせとに基づいて、前記複数の画像を分類し、
前記分類された複数の画像のそれぞれを機械学習モデルに入力して前記画像の特徴量を算出し、
前記アクションユニットの発生有りの画像と、当該アクションユニットの発生有りの画像に対するオクルージョン有りの画像との特徴量間の第１の距離が小さくなるとともに、前記アクションユニットの発生有りの画像に対するオクルージョン有りの画像と、前記アクションユニットの発生なしの画像に対するオクルージョン有りの画像との特徴量間の第２の距離が大きくなるように前記機械学習モデルを学習する、
処理をコンピュータが実行する学習方法。

【0087】

（付記９）前記取得する処理は、前記アクションユニットの発生の有無を示す正解情報とともに入力された画像に基づいて、前記アクションユニットの発生の有無が付与された人物の複数の顔画像を記憶する記憶部を参照し、前記入力された画像におけるアクションユニットの発生の有無とは当該アクションユニットの発生の有無が逆の画像を取得する、
ことを特徴とする付記８に記載の学習方法。

【0088】

（付記１０）前記取得する処理は、前記入力された画像および前記取得した画像に基づいて、当該画像の一部を隠蔽してオクルージョン有りの画像を取得する、
ことを特徴とする付記９に記載の学習方法。

【0089】

（付記１１）前記取得する処理は、前記アクションユニットに関する動作箇所の少なくとも一部を隠蔽する、
ことを特徴とする付記１０に記載の学習方法。

【0090】

（付記１２）前記学習する処理は、前記第１の距離をｄ_ｏ、前記第２の距離をｄ_ａｕ、前記第１の距離に関するマージンパラメータをｍ_ｏ、前記第２の距離に関するマージンパラメータをｍ_ａｕとしたときの式（１）の損失関数Ｌｏｓｓに基づいて前記機械学習モデルを学習する、
ことを特徴とする付記８に記載の学習方法。

【0091】

（付記１３）前記アクションユニットの発生の有無を示す正解情報が付与された画像を前記機械学習モデルに入力して得られた特徴量を入力した場合に、前記正解情報が示すアクションユニットの発生の有無を出力するように識別モデルを学習する処理をさらにコンピュータに実行させる、
ことを特徴とする付記８に記載の学習方法。

【0092】

（付記１４）人物の顔の特定の部位の動きに関するアクションユニットの発生の有無と、前記アクションユニットの発生有りの画像に対するオクルージョンの有無との組み合わせとに基づいて分類された複数の画像のそれぞれを機械学習モデルに入力して前記画像の特徴量を算出し、前記アクションユニットの発生有りの画像と、当該アクションユニットの発生有りの画像に対するオクルージョン有りの画像との特徴量間の距離が小さくなるとともに、前記アクションユニットの発生有りの画像に対するオクルージョン有りの画像と、前記アクションユニットの発生なしの画像に対するオクルージョン有りの画像との特徴量間の距離が大きくなるように学習された前記機械学習モデルを取得し、
人物の顔を含む識別対象の画像を、取得した前記機械学習モデルに入力して得られた特徴量に基づいて、前記識別対象の画像に含まれる人物の顔における特定のアクションユニットの発生の有無を識別する、
処理をコンピュータが実行する識別方法。

【符号の説明】

【0093】

１、１ａ…情報処理装置
１１…画像入力部
１１ａ…顔画像入力部
１２…顔領域抽出部
１３…部分隠蔽画像生成部
１４…ＡＵ比較画像生成部
１５…画像データベース
１６…画像セット生成部
１７…特徴量算出部
１８…距離算出部
１９…距離学習実行部
２０…ＡＵ認識学習実行部
２１…識別部
１００、１００ａ～１００ｃ、１０１…顔画像
１１０、１１０ａ…顔
１１１…髪
１１２…遮蔽物
１２０…特徴量
１２０ａ…第１の特徴量
１２０ｂ…第２の特徴量
１２０ｃ…第３の特徴量
２００…コンピュータ
２０１…ＣＰＵ
２０２…入力装置
２０３…モニタ
２０４…スピーカ
２０５…媒体読取装置
２０６…インタフェース装置
２０７…通信装置
２０８…ＲＡＭ
２０９…ハードディスク装置
２１０…バス
２１１…プログラム
２１２…各種データ
Ｍ１…特徴量算出モデル
Ｍ２…識別モデル

【図1】