特開2023-168081 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2023-168081訓練データ生成プログラム、訓練データ生成方法及び訓練データ生成装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023168081

(43)【公開日】2023-11-24

(54)【発明の名称】訓練データ生成プログラム、訓練データ生成方法及び訓練データ生成装置

(51)【国際特許分類】

G06T 7/20 20170101AFI20231116BHJP

G06T 7/00 20170101ALI20231116BHJP

G06V 10/774 20220101ALI20231116BHJP

【ＦＩ】

G06T7/20 300A

G06T7/00 350C

G06V10/774

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022079723

(22)【出願日】2022-05-13

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】内田昭嘉

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096DA01

5L096EA03

5L096EA13

5L096EA35

5L096FA09

5L096FA67

5L096GA34

5L096HA02

5L096HA11

5L096KA04

5L096KA15

(57)【要約】

【課題】顔画像上のマーカの動きおよびラベルの対応関係が歪んだ訓練データが生成されるのを抑制すること。
【解決手段】訓練データ生成プログラムは、マーカが付された人物の顔を含む撮像画像を取得し、取得した撮像画像から抽出された人物の顔画像の画像サイズを変更し、取得した撮像画像に含まれるマーカの位置を特定し、人物の顔の表情を構成する単位から成るとともに前記マーカの位置に対応するアクションユニットの発生強度を示すラベルを生成し、撮像画像の撮影時の人物の撮影位置または撮像画像上の人物の顔サイズに基づいて、生成されたラベルを補正し、画像サイズが変更された顔画像からマーカが削除された訓練用顔画像に、補正されたラベルを付与することによって機械学習用の訓練データを生成する、処理をコンピュータに実行させる。
【選択図】図５

【特許請求の範囲】

【請求項1】

マーカが付された人物の顔を含む撮像画像を取得し、
取得した前記撮像画像から抽出された前記人物の顔画像の画像サイズを変更し、
取得した前記撮像画像に含まれる前記マーカの位置を特定し、
前記人物の顔の表情を構成する単位から成るとともに前記マーカの位置に対応するアクションユニットの発生強度を示すラベルを生成し、
前記撮像画像の撮影時の前記人物の撮影位置または前記撮像画像上の前記人物の顔サイズに基づいて、生成された前記ラベルを補正し、
前記画像サイズが変更された前記顔画像から前記マーカが削除された訓練用顔画像に、補正された前記ラベルを付与することによって機械学習用の訓練データを生成する、
処理をコンピュータに実行させることを特徴とする訓練データ生成プログラム。

【請求項2】

前記補正する処理は、基準の撮影位置に対する前記人物の撮影位置の比、または、基準の顔サイズに対する前記人物の顔サイズの比に基づいて前記ラベルを補正する処理を含む、
ことを特徴とする請求項１に記載の訓練データ生成プログラム。

【請求項3】

前記取得する処理は、前記人物の顔が異なるカメラポジションまたは異なるカメラアングルで撮影された第１の撮像画像および第２の撮像画像を取得する処理を含み、
前記補正する処理は、前記第１の撮像画像に対応する前記マーカの移動量から生成されたラベルを補正し、前記第２の撮像画像の撮影時の前記人物の撮影位置または前記第２の撮像画像上の前記人物の顔サイズに基づいて、前記第２の撮像画像から切り出された顔画像の画像サイズが正規化された顔画像の画像サイズを補正する処理を含み、
前記訓練データを生成する処理は、前記第１の撮像画像に前記人物の顔画像の切出し、前記画像サイズの正規化および前記マーカの削除が実行されることにより得られた第１の訓練用顔画像に前記補正する処理で補正された前記ラベルを付与することにより第１の訓練データを生成し、前記補正する処理で前記画像サイズが補正された顔画像から前記マーカが削除された第２の訓練用顔画像に、前記第１の訓練データに付与されたラベルと同一のラベルを付与することにより第２の訓練データを生成する処理を含む、
ことを特徴とする請求項１に記載の訓練データ生成プログラム。

【請求項4】

前記補正する処理は、補正後の画像サイズが機械学習モデルの入力サイズよりも大きい場合、補正後の顔画像から前記機械学習モデルの入力サイズに対応する領域を切り出し、補正後の画像サイズが機械学習モデルの入力サイズよりも小さい場合、前記機械学習モデルの入力サイズに不足する分の余白部を補正後の顔画像に追加する処理を含む、
ことを特徴とする請求項３に記載の訓練データ生成プログラム。

【請求項5】

前記第１の撮像画像は、カメラポジションがアイレベルであり、かつカメラアングルが水平アングルで撮影された画像に対応し
前記第２の撮像画像は、カメラポジションがアイレベル以外であるか、あるいはカメラアングルが水平アングル以外で撮影された画像に対応する、
ことを特徴とする請求項３に記載の訓練データ生成プログラム。

【請求項6】

マーカが付された人物の顔を含む撮像画像を取得し、
取得した前記撮像画像から抽出された前記人物の顔画像の画像サイズを変更し、
取得した前記撮像画像に含まれる前記マーカの位置を特定し、
前記人物の顔の表情を構成する単位から成るとともに前記マーカの位置に対応するアクションユニットの発生強度を示すラベルを生成し、
前記撮像画像の撮影時の前記人物の撮影位置または前記撮像画像上の前記人物の顔サイズに基づいて、生成された前記ラベルを補正し、
前記画像サイズが変更された前記顔画像から前記マーカが削除された訓練用顔画像に、補正された前記ラベルを付与することによって機械学習用の訓練データを生成する、
処理をコンピュータが実行することを特徴とする訓練データ生成方法。

【請求項7】

マーカが付された人物の顔を含む撮像画像を取得し、
取得した前記撮像画像から抽出された前記人物の顔画像の画像サイズを変更し、
取得した前記撮像画像に含まれる前記マーカの位置を特定し、
前記人物の顔の表情を構成する単位から成るとともに前記マーカの位置に対応するアクションユニットの発生強度を示すラベルを生成し、
前記撮像画像の撮影時の前記人物の撮影位置または前記撮像画像上の前記人物の顔サイズに基づいて、生成された前記ラベルを補正し、
前記画像サイズが変更された前記顔画像から前記マーカが削除された訓練用顔画像に、補正された前記ラベルを付与することによって機械学習用の訓練データを生成する、
処理を実行する制御部を含む訓練データ生成装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、訓練データ生成技術に関する。

【背景技術】

【0002】

ノンバーバルコミュニケーションにおいて、表情は重要な役割を果たしている。人を理解し、センシングするためには、表情推定技術は重要である。表情推定のためのツールとしてＡＵ（Action Unit：アクションユニット）と呼ばれる手法が知られている。ＡＵは、表情を顔の部位と表情筋に基づいて分解して定量化する手法である。

【0003】

ＡＵ推定エンジンは、大量の訓練データに基づく機械学習がベースにあり、訓練データとして、顔表情の画像データと、各ＡＵのOccurrence（発生の有無）やIntensity（発生強度）とが用いられる。また、訓練データのOccurrenceやIntensityは、Coder（コーダ）と呼ばれる専門家によりAnnotation（アノテーション）される。

【0004】

このように、訓練データの生成をコーダ等によるアノテーションに委ねたのでは、費用及び時間のコストがかかるため、訓練データを大量に生成することが困難な側面がある。このような側面から、ＡＵ推定の訓練データを生成する生成装置が提案されている。

【0005】

例えば、生成装置は、顔を含む撮像画像に含まれるマーカの位置を特定し、初期状態、例えば無表情状態におけるマーカ位置からの移動量に基づいてＡＵの強度を判定する。その一方で、生成装置は、撮像画像から顔領域を切り出して画像サイズを正規化することにより顔画像を生成する。そして、生成装置は、生成された顔画像にＡＵの強度などを含むラベルを付与することによって機械学習用の訓練データを生成する。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０１２－８９４９号公報

【特許文献2】国際公開第２０２２／０２４２７２号

【特許文献3】米国特許出願公開第２０２１／０２７１８６２号明細書

【特許文献4】米国特許出願公開第２０１９／０２９４８６８号明細書

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら、上記の生成装置では、同一のマーカの移動量が撮影される場合、撮像画像に対する切り出しおよび正規化などの加工により、加工後の顔画像の間でマーカの動きにギャップが生じる一方で、各顔画像には、同一のＡＵの強度のラベルが付与される。このように、顔画像上のマーカの動きおよびラベルの対応関係が歪んだ訓練データが機械学習に用いられる場合、同様の表情変化が撮影された撮像画像が入力された機械学習モデルが出力するＡＵの強度の推定値にばらつきが生じるので、ＡＵ推定の精度が低下する。

【0008】

１つの側面では、本発明は、顔画像上のマーカの動きおよびラベルの対応関係が歪んだ訓練データが生成されるのを抑制できる訓練データ生成プログラム、訓練データ生成方法及び訓練データ生成装置を提供することを目的とする。

【課題を解決するための手段】

【0009】

１つの側面にかかる訓練データ生成プログラムは、人物の顔を含む撮像画像を取得し、前記撮像画像から前記人物の顔画像を切り出して画像サイズを正規化し、前記撮像画像に含まれるマーカの位置を特定し、アクションユニットに対応する前記マーカの基準位置と、特定された前記マーカの位置とから得られる前記マーカの移動量に基づいて、前記アクションユニットの発生強度に対応するラベルを生成し、前記撮像画像の撮影時の前記人物の撮影位置または前記撮像画像上の前記人物の顔サイズに基づいて前記ラベルを補正し、正規化された顔画像から前記マーカが削除された訓練用顔画像に、補正された前記ラベルを付与することによって機械学習用の訓練データを生成する、処理をコンピュータに実行させる。

【発明の効果】

【0010】

一実施形態によれば、顔画像上のマーカの動きおよびラベルの対応関係が歪んだ訓練データが生成されるのを抑制できる。

【図面の簡単な説明】

【0011】

【図1】図１は、システムの動作例を示す模式図である。

【図2】図２は、カメラの配置例を示す図である。

【図3】図３は、撮像画像の加工例を示す模式図である。

【図4】図４は、課題の一側面を示す模式図である。

【図5】図５は、訓練データ生成装置の機能構成例を示すブロック図である。

【図6】図６は、マーカの移動の一例について説明する図である。

【図7】図７は、発生強度の判定方法を説明する図である。

【図8】図８は、発生強度の判定方法の一例を説明する図である。

【図9】図９は、マスク画像の作成方法の一例を説明する図である。

【図10】図１０は、マスク画像の作成方法の一例を説明する図である。

【図11】図１１は、被験者の撮影例を示す模式図である。

【図12】図１２は、被験者の撮影例を示す模式図である。

【図13】図１３は、被験者の撮影例を示す模式図である。

【図14】図１４は、被験者の撮影例を示す模式図である。

【図15】図１５は、全体処理の手順を示すフローチャートである。

【図16】図１６は、判定処理の手順を示すフローチャートである。

【図17】図１７は、画像加工処理の手順を示すフローチャートである。

【図18】図１８は、補正処理の手順を示すフローチャートである。

【図19】図１９は、カメラユニットの一例を示す模式図である。

【図20】図２０は、訓練データの生成事例を示す図である。

【図21】図２１は、訓練データの生成事例を示す図である。

【図22】図２２は、被験者の撮影例を示す模式図である。

【図23】図２３は、補正後顔画像の一例を示す図である。

【図24】図２４は、補正後顔画像の一例を示す図である。

【図25】図２５は、基準カメラ以外に適用する補正処理の手順を示すフローチャートである。

【図26】図２６は、ハードウェア構成例を示す図である。

【発明を実施するための形態】

【0012】

以下、添付図面を参照して本願に係る訓練データ生成プログラム、訓練データ生成方法及び訓練データ生成装置の実施例について説明する。各実施例には、あくまで１つの例や側面を示すに過ぎず、このような例示により数値や機能の範囲、利用シーンなどは限定されない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

【実施例0013】

＜システム構成＞
図１は、システムの動作例を示す模式図である。図１に示すように、システム１には、撮像装置３１と、測定装置３２と、訓練データ生成装置１０と、機械学習装置５０とが含まれ得る。

【0014】

撮像装置３１は、あくまで一例として、ＲＧＢ（Red、Green、Blue）カメラなどにより実現され得る。測定装置３２は、あくまで一例として、ＩＲ（infrared：赤外線）カメラなどにより実現され得る。このように、撮像装置３１は、あくまで一例として、可視光に対応する分光感度を有する一方で、赤外光に対応する分光感度を有する。これら撮像装置３１及び測定装置３２は、マーカが付された人物の顔に向けた状態で配置され得る。以下、マーカが顔に付された人物が撮影対象とされることとし、このように撮影対象とされる人物のことを「被験者」と記載する場合がある。

【0015】

これら撮像装置３１による撮影および測定装置３２による測定が行われる際、被験者は表情を変化させていく。これにより、訓練データ生成装置１０は、時系列に沿って表情が変化していく様子を撮像画像１１０として取得することができる。また、撮像装置３１は、撮像画像１１０として動画を撮像してもよい。このような動画も、時系列に並べられた複数の静止画とみなすことができる。また、被験者は、自由に表情を変化させてもよいし、あらかじめ定められたシナリオに沿って表情を変化させてもよい。

【0016】

マーカは、あくまで一例として、ＩＲ反射（再帰性反射）マーカにより実現される。このようなマーカによるＩＲ反射を利用して、測定装置３２は、モーションキャプチャを行うことができる。

【0017】

図２は、カメラの配置例を示す図である。図２に示すように、測定装置３２は、複数のＩＲカメラ３２Ａ～３２Ｅを用いるマーカトラッキングシステムにより実現される。このようなマーカトラッキングシステムによれば、ステレオ撮影によりＩＲ反射マーカの位置を測定することができる。これらＩＲカメラ３２Ａ～３２Ｅのそれぞれの間の相対位置関係は、カメラキャリブレーションによりあらかじめ補正することができる。なお、図２には、ＩＲカメラ３２Ａ～３２Ｅの５つのカメラユニットがマーカトラッキングシステムに用いられる例を示すが、マーカトラッキングシステムに用いられるＩＲカメラの個数は任意であってよい。

【0018】

また、被験者の顔には、対象とするＡＵ（例：ＡＵ１からＡＵ２８）をカバーするように、複数のマーカが付される。マーカの位置は、被験者の表情の変化に応じて変化する。例えば、マーカ４０１は、眉の根元付近に配置される。また、マーカ４０２及びマーカ４０３は、豊麗線の付近に配置される。マーカは、１つ以上のＡＵ及び表情筋の動きに対応した皮膚の上に配置されてもよい。また、マーカは、しわの寄り等により、テクスチャ変化が大きくなる皮膚の上を避けて配置されてもよい。なお、ＡＵは、人物の顔の表情を構成する単位である。

【0019】

さらに、被験者には、基準点マーカが付された器具４０が装着される。被験者の表情が変化しても、器具４０に付された基準点マーカの位置は変化しないものとする。このため、訓練データ生成装置１０は、基準点マーカからの相対的な位置の変化により、顔に付されたマーカの位置の変化を測定することができる。このような基準マーカの数を３つ以上にすることで、訓練データ生成装置１０は、３次元空間におけるマーカの位置を特定することができる。

【0020】

器具４０は、例えばヘッドバンドであり、顔の輪郭外に基準点マーカを配置する。また、器具４０は、ＶＲヘッドセット及び固い素材のマスク等であってもよい。その場合、訓練データ生成装置１０は、器具４０のリジッド表面を基準点マーカとして利用することができる。

【0021】

これらＩＲカメラ３２Ａ～３２Ｅや器具４０を用いて実現されるマーカトラッキングシステムによれば、マーカの位置を高精度に特定することができる。例えば、３次元空間上のマーカの位置を０．１ｍｍ以下の誤差で測定できる。

【0022】

このような測定装置３２によれば、測定結果１２０として、マーカの位置などを始め、被験者の頭部の３次元空間上の位置なども得ることができる。以下、３次元空間上の座標位置のことを「３Ｄ位置」と記載する場合がある。

【0023】

訓練データ生成装置１０は、被験者の顔が撮像された撮像画像１１０から生成される訓練用顔画像１１３にＡＵの発生強度などを含むラベルが付与された訓練データを生成する訓練データ生成機能を提供する。あくまで一例として、訓練データ生成装置１０は、撮像装置３１により撮像された撮像画像１１０及び測定装置３２により測定された測定結果１２０を取得する。そして、訓練データ生成装置１０は、測定結果１２０として得られたマーカの移動量に基づいて当該マーカに対応するＡＵの発生強度１２１を判定する。

【0024】

ここで言う「発生強度」は、あくまで一例として、各ＡＵが発生している強度をＡからＥの５段階評価で表現し、「ＡＵ１：２、ＡＵ２：５、ＡＵ４：１、…」のようにアノテーションが行われたデータであってよい。なお、発生強度は、５段階評価で表現されるものに限られるものではなく、例えば２段階評価（発生の有無）によって表現されても良い。この場合、あくまで一例として、５段階評価のうち評価が２以上である場合、「有」と表現される一方で、評価が２未満である場合、「無」と表現されることとしてもよい。

【0025】

ＡＵの発生強度１２１の判定と共に、訓練データ生成装置１０は、撮像装置３１により撮像された撮像画像１１０に、顔領域の切り出しや画像サイズの正規化、画像中のマーカの除去などの加工を実行する。これにより、訓練データ生成装置１０は、撮像画像１１０から訓練用顔画像１１３を生成する。

【0026】

図３は、撮像画像の加工例を示す模式図である。図３に示すように、撮像画像１１０に顔検出が実行される（Ｓ１）。これにより、縦１９２０×横１０８０ピクセルの撮像画像１１０から縦７２６×横７２６ピクセルの顔領域１１０Ａが検出される。このように検出された顔領域１１０Ａに対応する部分画像が撮像画像１１０から切り出される（Ｓ２）。これにより、縦７２６×横７２６ピクセルの切出し顔画像１１１が得られる。

【0027】

このように切出し顔画像１１１を生成するのは、次の点で有効であるからである。１つの側面として、マーカは、あくまで訓練データに付与するラベルであるＡＵの発生強度を判定するためものであり、機械学習モデルｍによるＡＵの発生強度の判定に影響を与えないように撮像画像１１０から削除される。マーカの削除時には、画像上に存在するマーカの位置が探索されるが、撮像画像１１０全体が探索領域とされる場合に比べて、探索領域を顔領域１１０Ａに絞り込む場合、計算量を数倍から数十倍にわたって削減できる。他の側面として、訓練データＴＲのデータセットが格納される場合、顔領域１１０Ａ以外の無駄な領域を格納せずともよくなる。例えば、図３に示す訓練サンプルの例で言えば、縦１９２０×横１０８０ピクセルの撮像画像１１０から縦７２６×横７２６ピクセルの切出し顔画像１１１まで画像サイズを削減できる。

【0028】

その後、切出し顔画像１１１は、機械学習モデルｍ、例えばＣＮＮ（Convolved Neural Network）の入力層のサイズ以下となる幅および高さの入力サイズにリサイズされる。例えば、機械学習モデルｍの入力サイズが縦５１２×横５１２ピクセルであるとしたとき、縦７２６×横７２６ピクセルの切出し顔画像１１１は、縦５１２×横５１２ピクセルの画像サイズに正規化される（Ｓ３）。これにより、縦５１２×横５１２ピクセルの正規化顔画像１１２が得られる。さらに、正規化顔画像１１２からマーカが削除される（Ｓ４）。これらステップＳ１～ステップＳ４の結果、縦５１２×横５１２ピクセルの訓練用顔画像１１３が得られる。

【0029】

その上で、訓練データ生成装置１０は、訓練用顔画像１１３と、正解ラベルとするＡＵの発生強度１２１とが対応付けられた訓練データＴＲを含むデータセットを生成する。そして、訓練データ生成装置１０は、訓練データＴＲのデータセットを機械学習装置５０へ出力する。

【0030】

機械学習装置５０は、訓練データ生成装置１０から出力された訓練データＴＲのデータセットを用いて機械学習を実行する機械学習機能を提供する。例えば、機械学習装置５０は、訓練用顔画像１１３を機械学習モデルｍの説明変数とし、正解ラベルとするＡＵの発生強度１２１を機械学習モデルｍの目的変数とし、ディープラーニング等の機械学習のアルゴリズムに従って機械学習モデルｍを訓練する。これにより、撮像画像から得られる顔画像を入力としてＡＵの発生強度の推定値を出力する機械学習モデルＭが生成される。

【0031】

＜課題の一側面＞
上記の背景技術で説明した通り、上記の撮像画像に対する加工が行われる場合、顔画像上のマーカの動きおよびラベルの対応関係が歪んだ訓練データが生成されるという側面がある。

【0032】

このように対応関係が歪められる事例として、被験者の顔のサイズに個人差がある場合、同一の被験者が異なる撮影位置で撮影される場合などが挙げられる。これらの事例では、同一のマーカの移動量が観測される場合であっても、撮像画像１１０から異なる画像サイズの切出し顔画像１１１が切り出される。

【0033】

図４は、課題の一側面を示す模式図である。図４には、同一のマーカの移動量ｄ１が撮影された２つの撮像画像から切り出された切出し画像１１１ａおよび切出し顔画像１１１ｂが示されている。なお、切出し画像１１１ａおよび切出し顔画像１１１ｂは、撮像装置３１の光学中心および被験者の顔の間の距離で撮影されたこととする。

【0034】

図４に示すように、切出し画像１１１ａは、大顔の被験者ａが撮像された撮像画像から縦７２０×横７２０ピクセルの顔領域が切り出された部分画像である。一方、切出し顔画像１１１ｂは、小顔の被験者ｂが撮像された撮像画像から縦３６０×横３６０ピクセルの顔領域が切り出された部分画像である。

【0035】

これら切出し画像１１１ａおよび切出し顔画像１１１ｂは、機械学習モデルｍの入力層のサイズである縦５１２×横５１２ピクセルの画像サイズに正規化される。これにより、正規化顔画像１１２ａでは、マーカの移動量がｄ１からｄ１１（＜ｄ１）へ縮小される。一方、正規化顔画像１１２ｂでは、マーカの移動量がｄ１からｄ１２（＞ｄ１）へ拡大される。このように、正規化顔画像１１２ａおよび正規化顔画像１１２ｂの間でマーカの移動量にギャップが生じる。

【0036】

その一方で、被験者ａおよび被験者ｂのいずれにおいても、測定装置３２により同一のマーカの移動量ｄ１が測定結果１２０として得られるので、正規化顔画像１１２ａおよび正規化顔画像１１２ｂには、同一のＡＵの発生強度１２１がラベルとして付与される。

【0037】

この結果、正規化顔画像１１２ａに対応する訓練用顔画像では、当該訓練用顔画像上のマーカの移動量が測定装置３２による実測値ｄ１よりも小さいｄ１１に縮小される一方で、正解のラベルには、実測値ｄ１に対応するＡＵの発生強度が付与される。加えて、正規化顔画像１１２ｂに対応する訓練用顔画像では、当該訓練用顔画像上のマーカの移動量が測定装置３２による実測値ｄ１よりも大きいｄ１２に拡大される一方で、正解のラベルには、実測値ｄ１に対応するＡＵの発生強度が付与される。

【0038】

このように、正規化顔画像１１２ａおよび正規化顔画像１１２ｂからは、顔画像上のマーカの動きおよびラベルの対応関係が歪められた訓練データが生成され得る。なお、ここでは、被験者の顔のサイズに個人差がある場合を例に挙げたが、撮像装置３１の光学中心からの距離が異なる撮影位置で同一の被験者が撮影される場合も同様の課題が生じ得る。

【0039】

＜課題解決アプローチの一側面＞
そこで、本実施例に係る訓練データ生成機能は、撮像装置３１の光学中心及び被験者の頭部の間の距離または撮像画像上の顔サイズに基づいて測定装置３２により測定されたマーカ移動量に対応するＡＵの発生強度のラベルを補正する。

【0040】

これにより、顔領域の切出しや画像サイズの正規化などの加工により変動する顔画像上のマーカの動きに合わせてラベルを補正することができる。

【0041】

したがって、本実施例に係る訓練データ生成機能によれば、顔画像上のマーカの動きおよびラベルの対応関係が歪んだ訓練データが生成されるのを抑制できる。

【0042】

＜訓練データ生成装置１０の構成＞
図５は、訓練データ生成装置１０の機能構成例を示すブロック図である。図５には、訓練データ生成装置１０が有する機械学習機能に関連するブロックが模式化されている。図５に示すように、訓練データ生成装置１０は、通信制御部１１と、記憶部１３と、制御部１５とを有する。なお、図１には、上記の訓練データ生成機能に関連する機能部が抜粋して示されているに過ぎず、図示以外の機能部が訓練データ生成装置１０に備わることとしてもよい。

【0043】

通信制御部１１は、他の装置、例えば撮像装置３１や測定装置３２、機械学習装置５０などとの間で通信制御を行う機能部である。例えば、通信制御部１１は、ＬＡＮ（Local Area Network）カードなどのネットワークインタフェイスカードにより実現されてよい。１つの側面として、通信制御部１１は、撮像装置３１により撮像された撮像画像１１０及び測定装置３２により測定された測定結果１２０を受け付けたりする。他の側面として、通信制御部１１は、訓練用顔画像１１３および正解ラベルとするＡＵの発生強度１２１とが対応付けられた訓練データのデータセットを機械学習装置５０へ出力する。

【0044】

記憶部１３は、各種のデータを記憶する機能部である。あくまで一例として、記憶部１３は、訓練データ生成装置１０の内部、外部または補助のストレージにより実現される。例えば、記憶部１３は、マーカとＡＵの対応関係を表すＡＵ情報１３Ａなどの各種のデータを記憶することができる。このようなＡＵ情報１３Ａ以外にも、記憶部１３は、撮像装置３１のカメラパラメータやキャリブレーション結果などの各種のデータを記憶することができる。

【0045】

制御部１５は、訓練データ生成装置１０の全体制御を行う処理部である。例えば、制御部１５は、ハードウェアプロセッサにより実現される。この他、制御部１５は、ハードワイヤードロジックにより実現されてもよい。図５に示すように、制御部１５は、特定部１５Ａと、判定部１５Ｂと、画像加工部１５Ｃと、補正係数算出部１５Ｄと、補正部１５Ｅと、生成部１５Ｆとを有する。

【0046】

特定部１５Ａは、撮像画像に含まれるマーカの位置を特定する処理部である。特定部１５Ａは、撮像画像に含まれる複数のマーカのそれぞれの位置を特定する。さらに、時系列に沿って複数の画像が取得された場合、特定部１５Ａは、各画像についてマーカの位置を特定する。このように撮像画像上のマーカの位置を特定すると共に、特定部１５Ａは、器具４０に付された基準マーカとの位置関係を基に、各マーカの平面上又は空間上の座標、例えば３Ｄ位置を特定することができる。なお、特定部１５Ａは、マーカの位置を、基準座標系から定めてもよいし、基準面の投影位置から定めてもよい。

【0047】

判定部１５Ｂは、ＡＵの判定基準と複数のマーカの位置とに基づいて、複数のＡＵのそれぞれの発生の有無を判定する処理部である。判定部１５Ｂは、複数のＡＵのうち発生している１以上のＡＵについて、発生強度を判定する。このとき、判定部１５Ｂは、複数のＡＵのうちマーカに対応するＡＵが、判定基準とマーカの位置とに基づいて発生していると判定された場合に、当該マーカに対応するＡＵを選択することができる。

【0048】

例えば、判定部１５Ｂは、判定基準に含まれる第１のＡＵに対応付けられた第１のマーカの基準位置と、特定部１５Ａによって特定された第１のマーカの位置との距離に基づいて算出した第１のマーカの移動量を基に、第１のＡＵの発生強度を判定する。なお、第１のマーカは、特定のＡＵに対応する１つ、あるいは複数マーカということができる。

【0049】

ＡＵの判定基準は、例えば、複数のマーカのうち、ＡＵ毎にＡＵの発生強度を判定するために使用される１又は複数のマーカを示す。ＡＵの判定基準は、複数のマーカの基準位置を含んでもよい。ＡＵの判定基準は、複数のＡＵのそれぞれについて、発生強度の判定に使用されるマーカの移動量と発生強度との関係（換算ルール）を含んでもよい。なお、マーカの基準位置は、被験者が無表情な状態（いずれのＡＵも発生していない）の撮像画像における複数のマーカの各位置に応じて定められてもよい。

【0050】

ここで、図６を用いて、マーカの移動について説明する。図６は、マーカの移動の一例について説明する図である。図６の符号１１０－１～符号１１０－３は、撮像装置３１の一例に対応するＲＧＢカメラによって撮像された撮像画像である。また、撮像画像は、符号１１０－１、符号１１０－２、符号１１０－３の順で撮像されたものとする。例えば、撮像画像１１０－１は、被験者が無表情であるときの画像である。訓練データ生成装置１０は、撮像画像１１０－１のマーカの位置を、移動量が０の基準位置とみなすことができる。

【0051】

図６に示すように、被験者は、眉を寄せるような表情を取っている。このとき、表情の変化に従い、マーカ４０１の位置は下方向に移動している。その際、マーカ４０１の位置と、器具４０に付された基準マーカとの間の距離は大きくなっている。

【0052】

また、マーカ４０１の基準マーカからのＸ方向及びＹ方向の距離の変動値は、図７のように表される。図７は、発生強度の判定方法を説明する図である。図７に示すように、判定部１５Ｂは、変動値を発生強度に換算することができる。なお、発生強度は、ＦＡＣＳ（Facial Action Coding System）に準じて５段階に量子化されたものであってもよいし、変動量に基づく連続量として定義されたものであってもよい。

【0053】

判定部１５Ｂが変動量を発生強度に換算するルールとしては、様々なものが考えられる。判定部１５Ｂは、あらかじめ定められた１つのルールに従って換算を行ってもよいし、複数のルールで換算を行い、最も発生強度が大きいものを採用するようにしてもよい。

【0054】

例えば、判定部１５Ｂは、被験者が最大限表情を変化させたときの変動量である最大変動量をあらかじめ取得しておき、変動量の最大変動量に対する割合に基づいて発生強度を換算してもよい。また、判定部１５Ｂは、従来手法によりコーダがタグ付けしたデータを用いて最大変動量を定めておいてもよい。また、判定部１５Ｂは、変動量を発生強度にリニアに換算してもよい。また、判定部１５Ｂは、複数の被験者の事前測定から作成された近似式を用いて換算を行ってもよい。

【0055】

また、例えば、判定部１５Ｂは、判定基準としてあらかじめ設定された位置と、特定部１５Ａによって特定された第１のマーカの位置とに基づいて算出した第１のマーカの移動ベクトルを基に発生強度を判定することができる。この場合、判定部１５Ｂは、第１のマーカの移動ベクトルと、第１のＡＵに対してあらかじめ規定された規定ベクトルとの合致度合いを基に、第１のＡＵの発生強度を判定する。また、判定部１５Ｂは、既存のＡＵ推定エンジンを使って、ベクトルの大きさと発生強度の対応を補正してもよい。

【0056】

図８は、発生強度の判定方法の一例を説明する図である。例えば、ＡＵ４に対応するＡＵ４規定ベクトルが（－２ｍｍ，－６ｍｍ）のようにあらかじめ定められているものとする。このとき、判定部１５Ｂは、マーカ４０１の移動ベクトルとＡＵ４規定ベクトルの内積を計算し、ＡＵ４規定ベクトルの大きさで規格化する。ここで、内積がＡＵ４規定ベクトルの大きさと一致すれば、判定部１５Ｂは、ＡＵ４の発生強度を５段階中の５と判定する。一方、内積がＡＵ４規定ベクトルの半分であれば、例えば、前述のリニアな換算ルールの場合は、判定部１５Ｂは、ＡＵ４の発生強度を５段階中の３と判定する。

【0057】

また、例えば、図８に示すように、ＡＵ１１に対応するＡＵ１１ベクトルの大きさが３ｍｍのようにあらかじめ定められているものとする。このとき、判定部１５Ｂは、マーカ４０２とマーカ４０３の間の距離の変動量がＡＵ１１ベクトルの大きさと一致すれば、判定部１４３は、ＡＵ１１の発生強度を５段階中の５と判定する。一方、距離の変動量がＡＵ４ベクトルの半分であれば、例えば、前述のリニアな換算ルールの場合は、判定部１５Ｂは、ＡＵ１１の発生強度を５段階中の３と判定する。このように、判定部１５Ｂは、特定部１５Ａによって特定された第１のマーカの位置及び第２のマーカの位置との間の距離の変化を基に、発生強度を判定することができる。

【0058】

画像加工部１５Ｃは、撮像画像を訓練用画像へ加工する処理部である。あくまで一例として、画像加工部１５Ｃは、撮像装置３１により撮像された撮像画像１１０に、顔領域の切り出しや画像サイズの正規化、画像中のマーカの除去などの加工を実行する。

【0059】

図３を用いて説明した通り、画像加工部１５Ｃは、撮像画像１１０に顔検出を実行する（Ｓ１）。これにより、縦１９２０×横１０８０ピクセルの撮像画像１１０から縦７２６×横７２６ピクセルの顔領域１１０Ａが検出される。そして、画像加工部１５Ｃは、顔検出で検出された顔領域１１０Ａに対応する部分画像を撮像画像１１０から切り出す（Ｓ２）。これにより、縦７２６×横７２６ピクセルの切出し顔画像１１１が得られる。その後、画像加工部１５Ｃは、縦７２６×横７２６ピクセルの切出し顔画像１１１を、機械学習モデルｍの入力サイズに対応する縦５１２×横５１２ピクセルの画像サイズに正規化する（Ｓ３）。これにより、縦５１２×横５１２ピクセルの正規化顔画像１１２が得られる。さらに、画像加工部１５Ｃは、正規化顔画像１１２からマーカを削除する（Ｓ４）。これらステップＳ１～ステップＳ４の結果、縦１９２０×横１０８０ピクセルの撮像画像１１０から縦５１２×横５１２ピクセルの訓練用顔画像１１３が得られる。

【0060】

このようなマーカの削除について補足する。あくまで一例として、マスク画像を用いてマーカを削除することができる。図９は、マスク画像の作成方法の一例を説明する図である。図９の符号１１２は、正規化顔画像の一例である。まず、画像加工部１５Ｃは、あらかじめ意図的に付けられたマーカの色を抽出して代表色として定義する。そして、図９に示す符号１１２ｄのように、画像加工部１５Ｃは、代表色近傍の色の領域画像を生成する。さらに、図９に示す符号１１２Ｄのように、画像加工部１５Ｃは、代表色近傍の色の領域に対し収縮、膨張等の処理を行い、マーカ削除用のマスク画像を生成する。また、マーカの色を顔の色としては存在しにくい色に設定しておくことで、マーカの色の抽出精度を向上させてもよい。

【0061】

図１０は、マーカの削除方法の一例を説明する図である。図１０に示すように、まず、画像加工部１５Ｃは、動画から取得した静止画から生成される正規化顔画像１１２に対し、マスク画像を適用する。さらに、画像加工部１５Ｃは、マスク画像を適用した画像を例えばニューラルネットワークに入力し、処理済みの画像として訓練用顔画像１１３を得る。なお、ニューラルネットワークは、被験者のマスクありの画像及びマスクなしの画像等を用いて学習済みであるものとする。なお、動画から静止画を取得することにより、表情変化の途中データが得られることや、短時間で大量のデータが得られることがメリットとして生じる。また、画像加工部１５Ｃは、ニューラルネットワークとして、ＧＭＣＮＮ（Generative Multi-column Convolutional Neural Networks）やＧＡＮ（Generative Adversarial Networks）を用いてもよい。

【0062】

なお、画像加工部１５Ｃがマーカを削除する方法は、上記のものに限られない。例えば、画像加工部１５Ｃは、あらかじめ定められたマーカの形状を基にマーカの位置を検出し、マスク画像を生成してもよい。また、ＩＲカメラ３２とＲＧＢカメラ３１の相対位置のキャリブレーションを事前に行うようにしてもよい。この場合、画像加工部１５Ｃは、ＩＲカメラ３２によるマーカトラッキングの情報からマーカの位置を検出することができる。

【0063】

また、画像加工部１５Ｃは、マーカにより異なる検出方法を採用してもよい。例えば、鼻上のマーカは動きが少なく、形状を認識しやすいため、画像加工部１５Ｃは、形状認識により位置を検出してもよい。また、口横のマーカは動きが大きく、形状を認識しにくいため、画像加工部１５Ｃは、代表色を抽出する方法で位置を検出してもよい。

【0064】

図５の説明に戻り、補正係数算出部１５Ｄは、訓練用顔画像に付与されるラベルの補正に用いる補正係数を算出する処理部である。

【0065】

１つの側面として、補正係数算出部１５Ｄは、被験者の顔サイズに応じてラベルを補正する側面からラベルに乗算される「顔サイズ補正係数」を算出する。図１１及び図１２は、被験者の撮影例を示す模式図である。図１１及び図１２には、撮像装置３１の一例として、被験者の顔の正面に配置されるＲＧＢカメラが基準カメラ３１Ａとして示されると共に、基準被験者ｅ０および被験者ａの両者が基準位置で撮影される様子が示されている。なお、ここで言う「基準位置」は、基準カメラ３１Ａの光学中心からの距離がＬ０である位置のことを指す。

【0066】

図１１に示すように、実寸の顔サイズの幅および高さが基準サイズＳ０である基準被験者ｅ０が基準カメラ３１Ａにより撮影される場合の撮像画像上の顔サイズを幅Ｐ０×高さＰ０ピクセルとする。ここで言う「撮像画像上の顔サイズ」は、撮像画像に顔検出が実行されることにより得られる顔領域のサイズに対応する。このような撮像画像上の基準被験者ｅ０の顔サイズＰ０は、あらかじめキャリブレーションを実行しておくことにより設定値として獲得できる。

【0067】

一方、図１２に示すように、ある被験者ａが基準カメラ３１Ａにより撮影された場合の撮像画像上の顔サイズが幅Ｐ１×高さＰ１ピクセルであるとしたとき、基準被験者ｅ０に対する被験者ａの撮像画像上の顔サイズの比を顔サイズ補正係数Ｃ１として算出できる。すなわち、図１２に示す例に従えば、補正係数算出部１５Ｄは、顔サイズ補正係数Ｃ１を「Ｐ０／Ｐ１」と算出することができる。

【0068】

このような顔サイズ補正係数Ｃ１をラベルに乗算することで、被験者の顔サイズに個人差等のばらつきがある場合でも、被験者ａの撮像画像が正規化される画像サイズに合わせてラベルを補正できる。例えば、被験者ａおよび基準被験者ｅ０の間で共通のＡＵに対応する同一のマーカの移動量が撮影される事例を挙げる。このとき、被験者ａの顔サイズが基準被験者ｅ０の顔サイズよりも大きい場合、すなわち「Ｐ１＞Ｐ０」である場合、被験者ａの訓練用顔画像上のマーカの移動量は、正規化処理が一因となって基準被験者ｅ０の訓練用顔画像上のマーカの移動量に比べて小さくなる。このような場合においても、被験者ａの訓練用顔画像に付与するラベルに顔サイズ補正係数Ｃ１＝（Ｐ０／Ｐ１）＜１を乗算することにより、ラベルを小さく補正できる。

【0069】

他の側面として、補正係数算出部１５Ｄは、被験者の頭部位置に応じてラベルを補正する側面からラベルに乗算される「位置補正係数」を算出する。図１３は、被験者の撮影例を示す模式図である。図１３には、撮像装置３１の一例として、被験者ａの顔の正面に配置されるＲＧＢカメラが基準カメラ３１Ａとして示されると共に、被験者ａが基準位置を含む異なる位置で撮影される様子が示されている。

【0070】

図１３に示すように、撮影位置ｋ１で被験者ａが撮影される場合、基準位置に対する撮影位置ｋ１の比を位置補正係数Ｃ２として算出できる。例えば、測定装置３２は、マーカの位置のみならず、被験者ａの頭部の３Ｄ位置もモーションキャプチャで測定可能であるので、このような頭部の３Ｄ位置を測定結果１２０から参照できる。このため、測定結果１２０として得られる被験者ａの頭部の３Ｄ位置に基づいて基準カメラ３１Ａおよび被験者ａの間の距離Ｌ１を算出できる。このような撮影位置ｋ１に対応する距離Ｌ１および基準位置に対応する距離Ｌ０から、位置補正係数Ｃ２を「Ｌ１／Ｌ０」と算出できる。

【0071】

このような位置補正係数Ｃ２をラベルに乗算することで、被験者ａの撮影位置にばらつきがある場合でも、被験者ａの撮像画像が正規化される画像サイズに合わせてラベルを補正できる。例えば、基準位置および撮影位置ｋ１の間で共通のＡＵに対応する同一のマーカの移動量が撮影される事例を挙げる。このとき、撮影位置ｋ１に対応する距離Ｌ１が基準位置に対応する距離Ｌ０よりも小さい場合、すなわちＬ１＜Ｌ０である場合、撮影位置ｋ１の訓練用顔画像上のマーカの移動量は、正規化処理が一因となって基準位置の訓練用顔画像上のマーカの移動量に比べて小さくなる。このような場合においても、撮影位置ｋ１の訓練用顔画像に付与するラベルに位置補正係数Ｃ２＝（Ｌ１／Ｌ０）＜１を乗算することにより、ラベルを小さく補正できる。

【0072】

更なる側面として、補正係数算出部１５Ｄは、上記の「顔サイズ補正係数Ｃ１」および上記の「位置補正係数Ｃ２」が統合された「統合補正係数Ｃ３」を算出することもできる。図１４は、被験者の撮影例を示す模式図である。図１４には、撮像装置３１の一例として、被験者ａの顔の正面に配置されるＲＧＢカメラが基準カメラ３１Ａとして示されると共に、被験者ａが基準位置を含む異なる位置で撮影される様子が示されている。

【0073】

図１４に示すように、撮影位置ｋ２で被験者ａが撮影される場合、測定結果１２０として得られる被験者ａの頭部の３Ｄ位置に基づいて、補正係数算出部１５Ｄは、基準カメラ３１Ａの光学中心からの距離Ｌ１を算出できる。このような基準カメラ３１Ａの光学中心からの距離Ｌ１に応じて、補正係数算出部１５Ｄは、位置補正係数Ｃ２を「Ｌ１／Ｌ０」と算出できる。

【0074】

さらに、補正係数算出部１５Ｄは、被験者ａの撮像画像に対する顔検出の結果として得られる撮像画像上の被験者ａの顔サイズＰ１、すなわち幅Ｐ１×高さＰ１ピクセルを取得できる。このような撮像画像上の被験者ａの顔サイズＰ１に基づいて、補正係数算出部１５Ｄは、基準位置における被験者ａの顔サイズの推定値Ｐ１′を算出できる。例えば、基準位置および撮影位置ｋ２の比から、Ｐ１′は、下記の式（１）の導出に従って「Ｐ１／（Ｌ１／Ｌ０）」と算出できる。さらに、補正係数算出部１５Ｄは、被験者ａおよび基準被験者ｅ０の間の基準位置の顔サイズの比から、顔サイズ補正係数Ｃ１を「Ｐ０／Ｐ１′」と算出できる。

【0075】

Ｐ１′＝Ｐ１×（Ｌ０／Ｌ１）
＝Ｐ１／（Ｌ１／Ｌ０）・・・（１）

【0076】

これら位置補正係数Ｃ２および顔サイズ補正係数Ｃ１を統合することにより、補正係数算出部１５Ｄは、統合補正係数Ｃ３を算出する。すなわち、統合補正係数Ｃ３は、下記の式（２）の導出に従って「（Ｐ０／Ｐ１）×（Ｌ１／Ｌ０）」と算出できる。

【0077】

Ｃ３＝Ｐ０／Ｐ１′
＝Ｐ０÷｛Ｐ１／（Ｌ１／Ｌ０）｝
＝Ｐ０×（１／Ｐ１）×（Ｌ１／Ｌ０）
＝（Ｐ０／Ｐ１）×（Ｌ１／Ｌ０）・・・（２）

【0078】

図５の説明に戻り、補正部１５Ｅは、ラベルを補正する処理部である。あくまで一例として、補正部１５Ｅは、下記の式（３）に示す通り、判定部１５Ｂにより判定されたＡＵの発生強度、すなわちラベルに補正係数算出部１５Ｄにより算出された統合補正係数Ｃ３を乗算することにより、ラベルの補正を実現できる。なお、ここでは、ラベルに統合補正係数Ｃ３を乗算する例を挙げたが、これはあくまで一例であって、ラベルには、式（４）や式（５）に示す通り、顔サイズ補正係数Ｃ１を乗算することとしてもよいし、位置補正係数Ｃ２を乗算することとしてもよい。

【0079】

例１：補正後ラベル＝Ｌａｂｅｌ×Ｃ３
＝Ｌａｂｅｌ×（Ｐ０／Ｐ１）×（Ｌ１／Ｌ０）・・・（３）
例２：補正後ラベル＝Ｌａｂｅｌ×Ｃ１
＝Ｌａｂｅｌ×（Ｐ０／Ｐ１）・・・（４）
例３：補正後ラベル＝Ｌａｂｅｌ×Ｃ２
＝Ｌａｂｅｌ×（Ｌ１／Ｌ０）・・・（５）

【0080】

生成部１５Ｆは、訓練データを生成する処理部である。あくまで一例として、生成部１５Ｆは、画像加工部１５Ｃにより生成された訓練用顔画像に補正部１５Ｅにより補正されたラベルを付与することによって機械学習用の訓練データを生成する。このような訓練データの生成が撮像装置３１により撮像される撮像画像単位で実行されることにより、訓練データのデータセットが得られる。

【0081】

例えば、訓練データのデータセットを用いて機械学習装置５０が実行する際、訓練データ生成装置１０によって生成された訓練データを既存の訓練データに加えて機械学習を実行してもよい。

【0082】

あくまで一例として、訓練データは、画像を入力として、発生しているＡＵを推定する推定モデルの機械学習に使用できる。また、推定モデルは各ＡＵに特化したモデルであってもよい。推定モデルが特定のＡＵに特化したものである場合、訓練データ生成装置１０は、生成した訓練データを、当該特定のＡＵに関する情報のみを訓練ラベルとする訓練データに変更してもよい。つまり、訓練データ生成装置１０は、特定のＡＵと異なる他のＡＵが発生している画像に関しては、他のＡＵに関する情報を削除して、当該特定のＡＵは発生していない旨の情報を訓練ラベルとして付加することができる。

【0083】

本実施例によれば、必要な訓練データの見積もりを行うことができる。一般に、機械学習を実施するためには、膨大な計算コストがかかる。計算コストには、時間やＧＰＵ等の使用量が含まれる。

【0084】

データセットの質及び量が改善すると、機械学習によって得られるモデルの精度は改善する。そのため、事前に目標精度に対して必要なデータセットの質及び量の大まかな見積もりができれば、計算コストが削減される。ここで、例えば、データセットの質は、マーカの削除率及び削除精度である。また、例えば、データセットの量は、データセット数及び被験者の人数である。

【0085】

ＡＵの組み合わせ中には、互いの相関が高い組み合わせがある。このため、あるＡＵに対して行った見積りは、当該ＡＵと相関が高い他のＡＵに適用できると考えられる。例えば、ＡＵ１８とＡＵ２２の相関は高いことが知られており、対応するマーカが共通する場合がある。このため、ＡＵ１８の推定精度が目標に達する程度のデータセットの質及び量の見積もりができれば、ＡＵ２２の推定精度が目標に達する程度のデータセットの質及び量の大まかな見積もりが可能になる。

【0086】

機械学習装置５０により生成された機械学習モデルＭは、ＡＵの発生強度の推定を実行する推定装置（不図示）へ提供され得る。推定装置は、機械学習装置５０によって生成された機械学習モデルＭを用いて、実際に推定を行う。推定装置は、人物の顔が写った画像であって、各ＡＵの発生強度が未知である画像を取得し、取得された画像を機械学習モデルＭへ入力することにより機械学習モデルＭが出力するＡＵの発生強度をＡＵの推定結果として任意の出力先へ出力できる。このような出力先は、あくまで一例として、ＡＵの発生強度を用いて顔の表情を推定したり、あるいは理解度や満足度を算出したりする装置、プログラム、あるいはサービスなどであってよい。

【0087】

＜処理の流れ＞
次に、訓練データ生成装置１０の処理の流れについて説明する。ここでは、訓練データ生成装置１０により実行される（１）全体処理を説明した後に、（２）判定処理、（３）画像加工処理、（４）補正処理を説明することとする。

【0088】

（１）全体処理
図１５は、全体処理の手順を示すフローチャートである。図１５に示すように、撮像装置３１により撮像された撮像画像及び測定装置３２により測定された測定結果が取得される（ステップＳ１０１）。

【0089】

続いて、特定部１５Ａおよび判定部１５Ｂは、ステップＳ１０１で取得された撮像画像及び測定結果に基づいて、ＡＵの発生強度を判定する「判定処理」を実行する（ステップＳ１０２）。

【0090】

そして、画像加工部１５Ｃは、ステップＳ１０１で取得された撮像画像を訓練用画像へ加工する「画像加工処理」を実行する（ステップＳ１０３）。

【0091】

その後、補正係数算出部１５Ｄおよび補正部１５Ｅは、ステップＳ１０２で判定されたＡＵの判定強度、すなわちラベルを補正する「補正処理」を実行する（ステップＳ１０４）。

【0092】

その上で、生成部１５Ｆは、ステップＳ１０３で生成された訓練用顔画像にステップＳ１０４で補正されたラベルを付与することにより訓練データを生成し（ステップＳ１０５）、処理を終了する。

【0093】

なお、図１５に示すステップＳ１０４の処理は、切出し顔画像が正規化された後であれば任意のタイミングで実行できる。例えば、必ずしもマーカが削除された後に限らず、マーカが削除される前にステップＳ１０４の処理が実行されることとしてもよい。

【0094】

（２）判定処理
図１６は、判定処理の手順を示すフローチャートである。図１６に示すように、特定部１５Ａは、ステップＳ１０１で取得された撮像画像に含まれるマーカの位置をステップＳ１０１で取得された測定結果に基づいて特定する（ステップＳ３０１）。

【0095】

そして、判定部１５Ｂは、ＡＵ情報１３Ａに含まれるＡＵの判定基準とステップＳ３０１で特定された複数のマーカの位置とに基づいて、撮像画像で発生している発生ＡＵを判定する（ステップＳ３０２）。

【0096】

その後、判定部１５Ｂは、ステップＳ３０２で判定された発生ＡＵの個数Ｍに対応する回数の分、ステップＳ３０４およびステップＳ３０５の処理を繰り返すループ処理１を実行する。

【0097】

すなわち、判定部１５Ｂは、ステップＳ３０１で特定したマーカの位置のうち、ｍ番目の発生ＡＵの推定に割り当てられたマーカの位置と基準位置を基に、マーカの移動ベクトルを計算する（ステップＳ３０４）。そして、判定部１５Ｂは、移動ベクトルを基にｍ番目の発生ＡＵの発生強度、すなわちラベルを判定する（ステップＳ３０５）。

【0098】

このようなループ処理１が繰り返されることにより、発生ＡＵごとに発生強度を判定できる。なお、図１６に示すフローチャートでは、ステップＳ３０４およびステップＳ３０５の処理が反復として実行される例を挙げたが、これに限定されず、発生ＡＵごとに並列して実行されることとしてもよい。

【0099】

（３）画像加工処理
図１７は、画像加工処理の手順を示すフローチャートである。図１７に示すように、画像加工部１５Ｃは、ステップＳ１０１で取得された撮像画像に顔検出を実行する（ステップＳ５０１）。そして、画像加工部１５Ｃは、ステップＳ５０１で検出された顔領域に対応する部分画像を撮像画像から切り出す（ステップＳ５０２）。

【0100】

その後、画像加工部１５Ｃは、ステップＳ５０２で切出された切出し顔画像を、機械学習モデルｍの入力サイズに対応する画像サイズに正規化する（ステップＳ５０３）。その上で、画像加工部１５Ｃは、ステップＳ５０３で正規化された正規化顔画像からマーカを削除し（ステップＳ５０４）、処理を終了する。

【0101】

これらステップＳ５０１～ステップＳ５０４の処理の結果、撮像画像から訓練用顔画像が得られる。

【0102】

（４）補正処理
図１８は、補正処理の手順を示すフローチャートである。図１８に示すように、補正係数算出部１５Ｄは、ステップＳ１０１で取得された測定結果として得られる被験者の頭部の３Ｄ位置に基づいて、基準カメラ３１Ａから被験者の頭部までの距離Ｌ１を算出する（ステップＳ７０１）。

【0103】

続いて、補正係数算出部１５Ｄは、ステップＳ７０１で算出された距離Ｌ１に応じて位置補正係数を算出する（ステップＳ７０２）。さらに、補正係数算出部１５Ｄは、被験者の撮像画像に対する顔検出の結果として得られる撮像画像上の被験者の顔サイズに基づいて、基準位置における被験者の顔サイズの推定値Ｐ１′を算出する（ステップＳ７０３）。

【0104】

その後、補正係数算出部１５Ｄは、基準位置における被験者の顔サイズの推定値Ｐ１′と、被験者および基準被験者の間の基準位置の顔サイズの比とから、統合補正係数を算出する（ステップＳ７０４）。

【0105】

その上で、補正部１５Ｅは、ステップＳ３０４で判定されたＡＵの発生強度、すなわちラベルにステップＳ７０４で算出された統合補正係数を乗算することにより、ラベルを補正し（ステップＳ７０５）、処理を終了する。

【0106】

＜効果の一側面＞
上述してきたように、本実施例に係る訓練データ生成装置１０は、撮像装置３１の光学中心及び被験者の頭部の間の距離または撮像画像上の顔サイズに基づいて測定装置３２により測定されたマーカ移動量に対応するＡＵの発生強度のラベルを補正する。これにより、顔領域の切出しや画像サイズの正規化などの加工により変動する顔画像上のマーカの動きに合わせてラベルを補正することができる。したがって、本実施例に係る訓練データ生成装置１０によれば、顔画像上のマーカの動きおよびラベルの対応関係が歪んだ訓練データが生成されるのを抑制できる。

【実施例0107】

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。

【0108】

＜撮像装置３１の応用例＞
上記の実施例１では、撮像装置３１の一例として、被験者の顔の正面に配置されるＲＧＢカメラを基準カメラ３１Ａとして例示したが、基準カメラ３１Ａ以外にもＲＧＢカメラが配置されてもよい。例えば、撮像装置３１は、基準カメラを含む複数のＲＧＢカメラによりカメラユニットとして実現されてもよい。

【0109】

図１９は、カメラユニットの一例を示す模式図である。図１９に示すように、撮像装置３１は、基準カメラ３１Ａ、上方カメラ３１Ｂおよび下方カメラ３１Ｃの３つのＲＧＢカメラを含むカメラユニットとして実現されてもよい。

【0110】

例えば、基準カメラ３１Ａは、被験者の顔の正面、いわゆるアイレベルのカメラポジションに水平のカメラアングルで配置される。また、上方カメラ３１Ｂは、被験者の顔の正面上方にハイアングルで配置される。さらに、下方カメラ３１Ｃは、被験者の顔の正面下方にローアングルで配置される。

【0111】

このようなカメラユニットによれば、被験者が発現させる表情の変化を複数のカメラアングルで撮影できるので、同一のＡＵについて被験者の顔の向きが異なる複数の訓練用顔画像を生成できる。

【0112】

なお、図１９に示すカメラポジションは、あくまで一例に過ぎず、必ずしも被験者の顔の正面にカメラを配置せずともよく、被験者の顔の左前方や左側面、右前方、右側面などに向けてカメラを配置してもよい。また、図１９に示すカメラの個数もあくまで一例に過ぎず、任意の個数のカメラが配置されることを妨げない。

【0113】

＜カメラユニット適用時の課題の一側面＞
図２０及び図２１は、訓練データの生成事例を示す図である。図２０及び図２１には、基準カメラ３１Ａにより撮像された撮像画像から生成された訓練用画像１１３Ａと、上方カメラ３１Ｂにより撮像された撮像画像から生成された訓練用画像１１３Ｂとが例示されている。なお、図２０及び図２１に示す訓練用画像１１３Ａおよび訓練用画像１１３Ｂは、被験者の表情の変化が同期して撮像された撮像画像から生成されることとする。

【0114】

図２０に示すように、訓練用画像１１３Ａには、ラベルＡが付与される一方で、訓練用画像１１３Ｂには、ラベルＢが付与される。この場合、異なるカメラアングルで撮影される同一のＡＵに異なるラベルが付与されることになる。この結果、被験者の顔が撮影される向きにばらつきがある場合、同一のＡＵであっても異なるラベルを出力する機械学習モデルＭが生成される一因になる。

【0115】

一方、図２１に示すように、訓練用画像１１３ＡにラベルＡが付与されると共に、訓練用画像１１３ＢにもラベルＡが付与される。この場合、異なるカメラアングルで撮影される同一のＡＵに単一のラベルを付与できる。この結果、被験者の顔が撮影される向きにばらつきがある場合でも、単一のラベルを出力する機械学習モデルＭを生成できる。

【0116】

このことから、同一のＡＵが異なるカメラアングルで撮影される場合、基準カメラ３１Ａ、上方カメラ３１Ｂおよび下方カメラ３１Ｃにより撮像される撮像画像の各々から生成される訓練用顔画像には、単一のラベルを付与するのが好ましい。

【0117】

このとき、顔画像上のマーカの動きおよびラベルの対応関係を維持させるには、画像変換よりもラベル値（数値）変換の方が計算量の面などで有利である。しかしながら、複数のカメラの各々により撮像される撮像画像ごとにラベルを補正すると、カメラごとに異なるラベルが付与されるので、単一のラベルを付与することが困難な側面がある。

【0118】

＜課題解決アプローチの一側面＞
このような側面から、訓練データ生成装置１０は、ラベルを補正する代わりに、ラベルに合わせて訓練用顔画像の画像サイズを補正することもできる。このとき、カメラユニットに含まれる全てのカメラに対応する全ての正規化顔画像の画像サイズを補正することもできれば、一部のカメラ、例えば基準カメラ以外のカメラ群に対応する一部の正規化顔画像の画像サイズを補正することもできる。

【0119】

このような画像サイズの補正係数の算出方法について説明する。あくまで一例として、カメラユニットに含まれるカメラをＮ個に一般化し、基準カメラ３１Ａのカメラ番号を０とし、上方カメラ３１Ｂのカメラ番号を１とし、アンダーバーに後続してカメラ番号を付すことで、カメラを識別することとする。

【0120】

以下、あくまで一例として、カメラ番号を識別するインデックスｎ＝１とし、上方カメラ３１Ｂに対応する正規化顔画像の画像サイズを補正する補正係数の算出方法について例示するが、上方カメラ３１Ｂに限定されない。すなわち、インデックスｎ＝０、あるいはｎが２以上である場合も同様にして画像サイズの補正係数を算出できるのは言うまでもない。

【0121】

図２２は、被験者の撮影例を示す模式図である。図２２には、上方カメラ３１Ｂが抜粋して示されている。図２２に示すように、撮影位置ｋ３で被験者ａが撮影される場合、測定結果１２０として得られる被験者ａの頭部の３Ｄ位置に基づいて、補正係数算出部１５Ｄは、上方カメラ３１Ｂの光学中心から被験者ａの顔までの距離Ｌ１＿１を算出できる。このような距離Ｌ１＿１と、基準位置に対応する距離Ｌ０＿１との比から、補正係数算出部１５Ｄは、画像サイズの位置補正係数を「Ｌ１＿１／Ｌ０＿１」と算出できる。

【0122】

さらに、補正係数算出部１５Ｄは、被験者ａの撮像画像に対する顔検出の結果として得られる撮像画像上の被験者ａの顔サイズＰ１＿１、すなわち幅Ｐ１＿１×高さＰ１＿１ピクセルを取得できる。このような撮像画像上の被験者ａの顔サイズＰ１に基づいて、補正係数算出部１５Ｄは、基準位置における被験者ａの顔サイズの推定値Ｐ１＿１′を算出できる。例えば、Ｐ１＿１′は、基準位置および撮影位置ｋ３の比から、「Ｐ１＿１／（Ｌ１＿１／Ｌ０＿１）」と算出できる。

【0123】

そして、補正係数算出部１５Ｄは、基準位置における被験者の顔サイズの推定値Ｐ１＿１′と、被験者ａ及び基準被験者ｅ０の間の基準位置の顔サイズの比とから、画像サイズの統合補正係数Ｋを「（Ｐ１＿１／Ｐ０＿１）×（Ｌ０＿１／Ｌ１＿１）」と算出する。

【0124】

その後、補正部１５Ｅは、画像サイズの統合補正係数Ｋ＝（Ｐ１＿１／Ｐ０＿１）×（Ｌ０＿１／Ｌ１＿１）に従って、上方カメラ３１Ｂの撮像画像から生成された正規化顔画像の画像サイズを変更する。例えば、正規化顔画像の画像サイズは、上方カメラ３１Ｂの撮像画像から生成された正規化顔画像の幅及び高さのピクセル数の各々に画像サイズの統合補正係数Ｋ＝（Ｐ１＿１／Ｐ０＿１）×（Ｌ０＿１／Ｌ１＿１）が乗算された画像サイズに変更される。このような正規化顔画像の画像サイズ変更により、補正後顔画像が得られる。

【0125】

図２３及び図２４は、補正後顔画像の一例を示す図である。図２３及び図２４には、上方カメラ３１Ｂの撮像画像から生成された切出し顔画像１１１Ｂと、切出し顔画像１１１Ｂが正規化された正規化顔画像の画像サイズが統合補正係数Ｋに基づいて変更された補正後顔画像１１４Ｂとが示されている。さらに、図２３には、画像サイズの統合補正係数Ｋが１以上である場合の補正後顔画像１１４Ｂが示される一方で、図２４には、画像サイズの統合補正係数Ｋが１未満である場合の補正後顔画像１１４Ｂが示されている。さらに、図２３及び図２４には、機械学習モデルｍの入力サイズの一例である縦５１２×横５１２ピクセルに対応する画像サイズが破線で示されている。

【0126】

図２３に示すように、画像サイズの統合補正係数Ｋが１以上である場合、補正後顔画像１１４Ｂの画像サイズは、機械学習モデルｍの入力サイズである縦５１２×横５１２ピクセルよりも大きくなる。この場合、補正後顔画像１１４Ｂから機械学習モデルｍの入力サイズに対応する縦５１２×横５１２ピクセルの領域の再切出しを実行することにより、訓練用顔画像１１５Ｂが生成される。なお、図２３には、説明の便宜上、顔検出エンジンが検出する顔領域に含まれる余白部を０％として顔領域を検出する例を挙げたが、余白部をα％、例えば数１０％程度に設定することで、再切出し後の訓練用顔画像１１５Ｂから顔部分が欠落することを抑制できる。

【0127】

一方、図２４に示すように、画像サイズの統合補正係数Ｋが１未満である場合、補正後顔画像１１４Ｂの画像サイズは、機械学習モデルｍの入力サイズである縦５１２×横５１２ピクセルよりも小さくなる。この場合、機械学習モデルｍの入力サイズに対応する縦５１２×横５１２ピクセルに不足する分の余白部を補正後顔画像１１４Ｂに追加することにより、訓練用顔画像１１５Ｂが生成される。

【0128】

以上のような画像サイズ変更による補正は、ラベル補正に比べて計算量が大きくなる側面があるので、一部のカメラ、例えば基準カメラ３１Ａの撮像画像から生成される正規化画像には画像補正を実行せずにラベル補正を実行することもできる。

【0129】

この場合、基準カメラ３１Ａに対応する正規化顔画像には、図１８に示す補正処理を適用する一方で、基準カメラ３１Ａ以外のカメラに対応する正規化顔画像には、図２５に対応する補正処理を適用することとすればよい。

【0130】

図２５は、基準カメラ以外に適用する補正処理の手順を示すフローチャートである。図２５に示すように、補正係数算出部１５Ｄは、基準カメラ３１Ａ以外のカメラの個数Ｎ－１に対応する回数の分、ステップＳ９０１からステップＳ９０７までの処理を繰り返すループ処理１を実行する。

【0131】

すなわち、補正係数算出部１５Ｄは、ステップＳ１０１で取得された測定結果として得られる被験者の頭部の３Ｄ位置に基づいて、カメラ番号ｎのカメラ３１ｎから被験者の頭部までの距離Ｌ１＿ｎを算出する（ステップＳ９０１）。

【0132】

続いて、補正係数算出部１５Ｄは、ステップＳ９０１で算出された距離Ｌ１＿ｎと、基準位置に対応する距離Ｌ０＿ｎとに基づいてカメラ番号ｎの画像サイズの位置補正係数「Ｌ１＿ｎ／Ｌ０＿ｎ」を算出する（ステップＳ９０２）。

【0133】

そして、補正係数算出部１５Ｄは、カメラ番号ｎの撮像画像に対する顔検出の結果として得られる撮像画像上の被験者の顔サイズに基づいて、基準位置における被験者の顔サイズの推定値「Ｐ１＿ｎ′＝Ｐ１＿ｎ／（Ｌ１＿ｎ／Ｌ０＿ｎ）」を算出する（ステップＳ９０３）。

【0134】

続いて、補正係数算出部１５Ｄは、基準位置における被験者の顔サイズの推定値Ｐ１＿ｎ′と、被験者ａ及び基準被験者ｅ０の間の基準位置の顔サイズの比とから、カメラ番号ｎの画像サイズの統合補正係数「Ｋ＝（Ｐ１＿ｎ／Ｐ０＿ｎ）×（Ｌ０＿ｎ／Ｌ１＿ｎ）」を算出する（ステップＳ９０４）。

【0135】

そして、補正係数算出部１５Ｄは、基準カメラ３１Ａのラベルの統合補正係数、すなわち図１８に示すステップＳ７０４で算出された統合補正係数Ｃ３を参照する（ステップＳ９０５）。

【0136】

その上で、補正部１５Ｅは、ステップＳ９０４で算出されたカメラ番号ｎの画像サイズの統合補正係数Ｋと、ステップＳ９０５で参照された基準カメラ３１Ａのラベルの統合補正係数とに基づいて正規化顔画像の画像サイズを変更する（ステップＳ９０６）。例えば、正規化顔画像の画像サイズは、（Ｐ１＿ｎ／Ｐ０＿ｎ）×（Ｌ０＿ｎ／Ｌ１＿ｎ）×（Ｐ０＿０／Ｐ１＿０）×（Ｌ１＿０／Ｌ０＿０）倍に変更される。これにより、カメラ番号ｎの訓練用顔画像が得られる。

【0137】

このようにステップＳ９０６で得られたカメラ番号ｎの訓練用顔画像には、図１５に示すステップＳ１０５に進んだ段階で、次のようなラベルが付与される。すなわち、カメラ番号ｎの訓練用顔画像には、基準カメラ３１Ａの撮像画像から生成された訓練用顔画像（画像サイズ変更なし）に付与される補正後ラベル、すなわちＬａｂｅｌ×（Ｐ０／Ｐ１）×（Ｌ１／Ｌ０）と同一のラベルが付与される。これにより、全てのカメラの訓練用顔画像に対する単一ラベルの付与を実現できる。

【0138】

＜適用例＞
なお、上記の実施例１では、訓練データ生成装置１０及び機械学習装置５０の各々が個別の装置とされる場合を例示したが、訓練データ生成装置１０が機械学習装置５０の機能を併せ持つこととしてもよい。

【0139】

なお、上記の実施例では、判定部１５Ｂが、マーカの移動量を基にＡＵの発生強度を判定するものとして説明した。一方で、マーカが動かなかったことも、判定部１５Ｂによる発生強度の判定基準になり得る。

【0140】

また、マーカの周囲には、検出しやすい色が配置されていてもよい。例えば、中央にＩＲマーカを置いた丸い緑色の粘着シールを被験者に付してもよい。この場合、訓練データ生成装置１０は、撮像画像から緑色の丸い領域を検出し、当該領域をＩＲマーカごと削除することができる。

【0141】

上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値等は、あくまで一例であり、任意に変更することができる。

【0142】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

【0143】

＜ハードウェア＞
次に、実施例１および実施例２で説明したコンピュータのハードウェア構成例を説明する。図２６は、ハードウェア構成例を説明する図である。図２６に示すように、訓練データ生成装置１０は、通信装置１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図２６に示した各部は、バス等で相互に接続される。

【0144】

通信装置１０ａは、ネットワークインタフェイスカードなどであり、他のサーバとの通信を行う。ＨＤＤ１０ｂは、図５に示した機能を動作させるプログラムやＤＢなどを記憶する。

【0145】

プロセッサ１０ｄは、図５に示された処理部と同様の処理を実行するプログラムをＨＤＤ１００ｂ等から読み出してメモリ１００ｃに展開することで、図５等で説明した機能を実行するプロセスを動作させる。例えば、このプロセスは、訓練データ生成装置１０が有する処理部と同様の機能を実行する。具体的には、プロセッサ１０ｄは、特定部１５Ａ、判定部１５Ｂ、画像加工部１５Ｃ、補正係数算出部１５Ｄ、補正部１５Ｅおよび生成部１５Ｆ等と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、プロセッサ１０ｄは、特定部１５Ａ、判定部１５Ｂ、画像加工部１５Ｃ、補正係数算出部１５Ｄ、補正部１５Ｅおよび生成部１５Ｆ等と同様の処理を実行するプロセスを実行する。

【0146】

このように、訓練データ生成装置１０は、プログラムを読み出して実行することで訓練データ生成方法を実行する情報処理装置として動作する。また、訓練データ生成装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施形態と同様の機能を実現することもできる。なお、この他の実施形態でいうプログラムは、訓練データ生成装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

【0147】

上記のプログラムは、インターネットなどのネットワークを介して配布することができる。また、上記のプログラムは、任意の記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。例えば、記録媒体は、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＭＯ（Magneto－Optical disk）、ＤＶＤ（Digital Versatile Disc）などにより実現され得る。

【0148】

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

【0149】

（付記１）マーカが付された人物の顔を含む撮像画像を取得し、
取得した前記撮像画像から抽出された前記人物の顔画像の画像サイズを変更し、
取得した前記撮像画像に含まれる前記マーカの位置を特定し、
前記人物の顔の表情を構成する単位から成るとともに前記マーカの位置に対応するアクションユニットの発生強度を示すラベルを生成し、
前記撮像画像の撮影時の前記人物の撮影位置または前記撮像画像上の前記人物の顔サイズに基づいて、生成された前記ラベルを補正し、
前記画像サイズが変更された前記顔画像から前記マーカが削除された訓練用顔画像に、補正された前記ラベルを付与することによって機械学習用の訓練データを生成する、
処理をコンピュータに実行させることを特徴とする訓練データ生成プログラム。

【0150】

（付記２）前記補正する処理は、基準の撮影位置に対する前記人物の撮影位置の比、または、基準の顔サイズに対する前記人物の顔サイズの比に基づいて前記ラベルを補正する処理を含む、
ことを特徴とする付記１に記載の訓練データ生成プログラム。

【0151】

（付記３）前記取得する処理は、前記人物の顔が異なるカメラポジションまたは異なるカメラアングルで撮影された第１の撮像画像および第２の撮像画像を取得する処理を含み、
前記補正する処理は、前記第１の撮像画像に対応する前記マーカの移動量から生成されたラベルを補正し、前記第２の撮像画像の撮影時の前記人物の撮影位置または前記第２の撮像画像上の前記人物の顔サイズに基づいて、前記第２の撮像画像から切り出された顔画像の画像サイズが正規化された顔画像の画像サイズを補正する処理を含み、
前記訓練データを生成する処理は、前記第１の撮像画像に前記人物の顔画像の切出し、前記画像サイズの正規化および前記マーカの削除が実行されることにより得られた第１の訓練用顔画像に前記補正する処理で補正された前記ラベルを付与することにより第１の訓練データを生成し、前記補正する処理で前記画像サイズが補正された顔画像から前記マーカが削除された第２の訓練用顔画像に、前記第１の訓練データに付与されたラベルと同一のラベルを付与することにより第２の訓練データを生成する処理を含む、
ことを特徴とする付記１に記載の訓練データ生成プログラム。

【0152】

（付記４）前記補正する処理は、補正後の画像サイズが機械学習モデルの入力サイズよりも大きい場合、補正後の顔画像から前記機械学習モデルの入力サイズに対応する領域を切り出し、補正後の画像サイズが機械学習モデルの入力サイズよりも小さい場合、前記機械学習モデルの入力サイズに不足する分の余白部を補正後の顔画像に追加する処理を含む、
ことを特徴とする付記３に記載の訓練データ生成プログラム。

【0153】

（付記５）前記第１の撮像画像は、カメラポジションがアイレベルであり、かつカメラアングルが水平アングルで撮影された画像に対応し
前記第２の撮像画像は、カメラポジションがアイレベル以外であるか、あるいはカメラアングルが水平アングル以外で撮影された画像に対応する、
ことを特徴とする付記３に記載の訓練データ生成プログラム。

【0154】

（付記６）マーカが付された人物の顔を含む撮像画像を取得し、
取得した前記撮像画像から抽出された前記人物の顔画像の画像サイズを変更し、
取得した前記撮像画像に含まれる前記マーカの位置を特定し、
前記人物の顔の表情を構成する単位から成るとともに前記マーカの位置に対応するアクションユニットの発生強度を示すラベルを生成し、
前記撮像画像の撮影時の前記人物の撮影位置または前記撮像画像上の前記人物の顔サイズに基づいて、生成された前記ラベルを補正し、
前記画像サイズが変更された前記顔画像から前記マーカが削除された訓練用顔画像に、補正された前記ラベルを付与することによって機械学習用の訓練データを生成する、
処理をコンピュータが実行することを特徴とする訓練データ生成方法。

【0155】

（付記７）前記補正する処理は、基準の撮影位置に対する前記人物の撮影位置の比、または、基準の顔サイズに対する前記人物の顔サイズの比に基づいて前記ラベルを補正する処理を含む、
ことを特徴とする付記６に記載の訓練データ生成方法。

【0156】

（付記８）前記取得する処理は、前記人物の顔が異なるカメラポジションまたは異なるカメラアングルで撮影された第１の撮像画像および第２の撮像画像を取得する処理を含み、
前記補正する処理は、前記第１の撮像画像に対応する前記マーカの移動量から生成されたラベルを補正し、前記第２の撮像画像の撮影時の前記人物の撮影位置または前記第２の撮像画像上の前記人物の顔サイズに基づいて、前記第２の撮像画像から切り出された顔画像の画像サイズが正規化された顔画像の画像サイズを補正する処理を含み、
前記訓練データを生成する処理は、前記第１の撮像画像に前記人物の顔画像の切出し、前記画像サイズの正規化および前記マーカの削除が実行されることにより得られた第１の訓練用顔画像に前記補正する処理で補正された前記ラベルを付与することにより第１の訓練データを生成し、前記補正する処理で前記画像サイズが補正された顔画像から前記マーカが削除された第２の訓練用顔画像に、前記第１の訓練データに付与されたラベルと同一のラベルを付与することにより第２の訓練データを生成する処理を含む、
ことを特徴とする付記６に記載の訓練データ生成方法。

【0157】

（付記９）前記補正する処理は、補正後の画像サイズが機械学習モデルの入力サイズよりも大きい場合、補正後の顔画像から前記機械学習モデルの入力サイズに対応する領域を切り出し、補正後の画像サイズが機械学習モデルの入力サイズよりも小さい場合、前記機械学習モデルの入力サイズに不足する分の余白部を補正後の顔画像に追加する処理を含む、
ことを特徴とする付記８に記載の訓練データ生成方法。

【0158】

（付記１０）前記第１の撮像画像は、カメラポジションがアイレベルであり、かつカメラアングルが水平アングルで撮影された画像に対応し
前記第２の撮像画像は、カメラポジションがアイレベル以外であるか、あるいはカメラアングルが水平アングル以外で撮影された画像に対応する、
ことを特徴とする付記８に記載の訓練データ生成方法。

【0159】

（付記１１）マーカが付された人物の顔を含む撮像画像を取得し、
取得した前記撮像画像から抽出された前記人物の顔画像の画像サイズを変更し、
取得した前記撮像画像に含まれる前記マーカの位置を特定し、
前記人物の顔の表情を構成する単位から成るとともに前記マーカの位置に対応するアクションユニットの発生強度を示すラベルを生成し、
前記撮像画像の撮影時の前記人物の撮影位置または前記撮像画像上の前記人物の顔サイズに基づいて、生成された前記ラベルを補正し、
前記画像サイズが変更された前記顔画像から前記マーカが削除された訓練用顔画像に、補正された前記ラベルを付与することによって機械学習用の訓練データを生成する、
処理を実行する制御部を含む訓練データ生成装置。

【0160】

（付記１２）前記補正する処理は、基準の撮影位置に対する前記人物の撮影位置の比、または、基準の顔サイズに対する前記人物の顔サイズの比に基づいて前記ラベルを補正する処理を含む、
ことを特徴とする付記１１に記載の訓練データ生成装置。

【0161】

（付記１３）前記取得する処理は、前記人物の顔が異なるカメラポジションまたは異なるカメラアングルで撮影された第１の撮像画像および第２の撮像画像を取得する処理を含み、
前記補正する処理は、前記第１の撮像画像に対応する前記マーカの移動量から生成されたラベルを補正し、前記第２の撮像画像の撮影時の前記人物の撮影位置または前記第２の撮像画像上の前記人物の顔サイズに基づいて、前記第２の撮像画像から切り出された顔画像の画像サイズが正規化された顔画像の画像サイズを補正する処理を含み、
前記訓練データを生成する処理は、前記第１の撮像画像に前記人物の顔画像の切出し、前記画像サイズの正規化および前記マーカの削除が実行されることにより得られた第１の訓練用顔画像に前記補正する処理で補正された前記ラベルを付与することにより第１の訓練データを生成し、前記補正する処理で前記画像サイズが補正された顔画像から前記マーカが削除された第２の訓練用顔画像に、前記第１の訓練データに付与されたラベルと同一のラベルを付与することにより第２の訓練データを生成する処理を含む、
ことを特徴とする付記１１に記載の訓練データ生成装置。

【0162】

（付記１４）前記補正する処理は、補正後の画像サイズが機械学習モデルの入力サイズよりも大きい場合、補正後の顔画像から前記機械学習モデルの入力サイズに対応する領域を切り出し、補正後の画像サイズが機械学習モデルの入力サイズよりも小さい場合、前記機械学習モデルの入力サイズに不足する分の余白部を補正後の顔画像に追加する処理を含む、
ことを特徴とする付記１３に記載の訓練データ生成装置。

【0163】

（付記１５）前記第１の撮像画像は、カメラポジションがアイレベルであり、かつカメラアングルが水平アングルで撮影された画像に対応し
前記第２の撮像画像は、カメラポジションがアイレベル以外であるか、あるいはカメラアングルが水平アングル以外で撮影された画像に対応する、
ことを特徴とする付記１３に記載の訓練データ生成装置。

IP Force 特許公報掲載プロジェクト 2022.1.31 β版