(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-06
(45)【発行日】2024-12-16
(54)【発明の名称】対象物の瞬間的な状態を認識すべきフレームを抽出するプログラム、装置及び方法
(51)【国際特許分類】
G06T 7/20 20170101AFI20241209BHJP
G06T 7/00 20170101ALI20241209BHJP
【FI】
G06T7/20 300B
G06T7/00 350C
(21)【出願番号】P 2022039300
(22)【出願日】2022-03-14
【審査請求日】2024-01-17
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】楊 博
(72)【発明者】
【氏名】呉 剣明
(72)【発明者】
【氏名】服部 元
【審査官】橋爪 正樹
(56)【参考文献】
【文献】特開2020-057111(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00- 7/90
(57)【特許請求の範囲】
【請求項1】
対象物の瞬間的な状態を認識すべきフレームを抽出するようにコンピュータを機能させるプログラムにおいて、
訓練段階として、
前記対象物の瞬間的な状態が映り込む時系列の複数のフレームから、状態有りの強度が最も高いフレームを尤度1として時系列の中心とした正規分布を作成し、フレーム毎に
前記正規分布の尤度を付与した教師データを用いて、
前記フレームを説明変数とし、
前記正規分布の尤度を目的変数として訓練した機械学習エンジンと
して機能させ、
推定段階として、
前記機械学習エンジンは、対象物の瞬間的な状態が映り込む時系列の複数のフレームを入力し、フレーム毎に尤度を推定し、
時系列の複数のフレームに対する各尤度から、正規分布を再生する正規分布回帰手段と、
前記正規分布回帰手段によって再生された前記正規分布における±所定区間に含まれる複数のフレームを、認識フレームとして抽出するフレーム抽出手段と
してコンピュータを機能させることを特徴とするプログラム。
【請求項2】
前記対象物の瞬間的な状態とは、人の顔について、表情無し、表情有り、表情無しへと変化する状態であり、
前記機械学習エンジンの教師データについて、
前記状態有りとは、
前記表情有りとする
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
【請求項3】
人の顔が映り込むフレームを入力し、表情ラベルを推定する表情認識エンジンと
して機能させ、
前記表情認識エンジンは、
前記フレーム抽出手段によって抽出された認識フレームのみを入力し、表情ラベルを推定する
ようにコンピュータを機能させることを特徴とする請求項2に記載のプログラム。
【請求項4】
前記正規分布回帰手段によって再生された前記正規分布の±所定区間に含まれるフレームの中で、最も-側のフレームを、オンセットフレームとし、最も+側のフレームを、オフセットフレームとして、
オンセットフレームの撮影時刻と、オフセットフレームの撮影時刻との差を、状態持続時間として検出する状態持続時間検出手段と
してコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。
【請求項5】
前記フレーム抽出手段における前記正規分布の±所定区間は、±2σである
ようにコンピュータを機能させることを特徴とする請求項4に記載のプログラム。
【請求項6】
前記機械学習エンジンは、時系列のフレームを入力し、
所定時間より長い系列で予測したマクロ特徴量を抽出するマクロ特徴量抽出手段と、
前記所定時間以下の短い系列で予測したミクロ特徴量を抽出するミクロ特徴量抽出手段と、
前記マクロ特徴量と
前記ミクロ特徴量とを融合した融合特徴量を出力する融合層と、
前記融合特徴量から、前記正規分布の尤度を出力するように訓練した誤差逆伝播手段と
を有するようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載のプログラム。
【請求項7】
前記マクロ特徴量抽出手段は、深層学習モデルのAU(ActionUnits)特徴量抽出エンジンであり、
前記ミクロ特徴量抽出手段は、深層学習モデルのOpticalFlow特徴量抽出エンジンである
ようにコンピュータを機能させることを特徴とする請求項6に記載のプログラム。
【請求項8】
対象物の瞬間的な状態を認識すべきフレームを抽出する装置において、
訓練段階として、
前記対象物の瞬間的な状態が映り込む時系列の複数のフレームから、状態有りの強度が最も高いフレームを尤度1として時系列の中心とした正規分布を作成し、フレーム毎に
前記正規分布の尤度を付与した教師データを用いて、
前記フレームを説明変数とし、
前記正規分布の尤度を目的変数として訓練した機械学習エンジンと
を有し、
推定段階として、
前記機械学習エンジンは、対象物の瞬間的な状態が映り込む時系列の複数のフレームを入力し、フレーム毎に尤度を推定し、
時系列の複数のフレームに対する各尤度から、正規分布を再生する正規分布回帰手段と、
前記正規分布回帰手段によって再生された前記正規分布における±所定区間に含まれる複数のフレームを、認識フレームとして抽出するフレーム抽出手段と
を有することを特徴とする装置。
【請求項9】
対象物の瞬間的な状態を認識すべきフレームを抽出する装置の認識フレーム抽出方法において、
装置は、
訓練段階として、
前記対象物の瞬間的な状態が映り込む時系列の複数のフレームから、状態有りの強度が最も高いフレームを尤度1として時系列の中心とした正規分布を作成し、フレーム毎に
前記正規分布の尤度を付与した教師データを用いて、機械学習エンジン
を、
前記フレームを説明変数とし、
前記正規分布の尤度を目的変数として訓練する第1のステップ
を実行し、
推定段階として、
前記機械学習エンジンが、対象物の瞬間的な状態が映り込む時系列の複数のフレームを入力し、フレーム毎に尤度を推定する第21のステップと、
時系列の複数のフレームに対する各尤度から、正規分布を再生する第22のステップと、
第22のステップによって再生された前記正規分布における±所定区間に含まれる複数のフレームを、認識フレームとして抽出する第23のステップと
を実行する
ことを特徴とする認識フレーム抽出方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、撮影映像に映り込む対象物の瞬間的な状態を認識するためのフレームを抽出する技術に関する。特に、人の顔表情を認識する技術に適する。
【背景技術】
【0002】
近年、社会環境に応じて、人とコンピュータとの間のコミュニケーションを良好にするためにHCI(Human-Computer Interaction)の技術が注目されている。この技術によれば、人の心理に基づく身体的特性を分析する。このとき、人の心理状況の変化を、表情の変化として瞬間的に検出する必要がある。
【0003】
従来、人の顔表情をリアルタイムに認識する技術がある(例えば特許文献1参照)。この技術によれば、最初に、肌色領域の重心と入力画像の中心と合致するように撮影された顔画像から、眼と口の位置を推定する。その両眼の位置に基づいて顔の傾き角を推定し、その角度だけ検出領域内の顔画像を回転させる。回転した検出領域に対して、2次元離散コサイン変換によって、無表情検出時からの空間周波数成分の変化を求める。そして、遺伝的アルゴリズムによって予め学習されたパラメータを用いて、空間周波数成分の変化を3次元顔モデルの変形に変換して、顔表情を再現する。
【0004】
また、ユーザの顔における複数の部位の変形量から、ユーザの表情の変化点を検出する技術もある(例えば特許文献2参照)。この技術によれば、複数の部位の変形量を、AU(Action Unit)特徴量として取得する。これらAU特徴量を主成分分析し、各主成分の係数から所定時間毎の平均値を算出する。その平均値に基づいて、ユーザの表情が変化した時点を検出する。
【0005】
顔画像から検出されたAU特徴量から、深層学習モデルを用いて、表情の開始(Onset)と終了(Offset)とのタイミングを検出する技術もある(例えば非特許文献1参照)。
また、顔画像から検出されたオプティカルフロー(Optical Flow)特徴量から、深層学習モデルを用いて、表情の開始(Onset)と終了(Offset)とのタイミングを検出する技術もある(例えば非特許文献2参照)。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2000-268161号公報
【文献】特開2018-036734号公報
【非特許文献】
【0007】
【文献】Bo Yang, Jianming Wu, Gen Hattori, etc. “Facial Action Unit-based Deep Learning Framework for Spotting Macro- and Micro-expressions in Long Video Sequences”, ACM Multimedia conference(2021).
【文献】Gen-Bing Liong, John See, Lai-Kuan Wong, “Shallow Optical Flow Three-Stream CNN for Macro- and Micro-expression Spotting from Long Videos”, IEEE ICIP conference(2021).
【発明の概要】
【発明が解決しようとする課題】
【0008】
特許文献1に記載の技術によれば、顔表情が発生した際に、表情の開始(Onset)と終了(Offset)とのタイミングを検出するものではない。また、眼と口以外の位置の特徴の変化を検出するものでもない。
また、特許文献2と非特許文献1及び2とに記載の技術によれば、表情変化のタイミングの判断基準が予め仮定として設定したものであって、多様な表情変化に対して最適化を実現するものではない。
また、前述した先行技術文献のいずれも、単一の特徴量の利用に限定されており、多様な表情変化に応じて優位な特徴量を抽出するものでもない。
【0009】
表情認識エンジンによって人の顔表情を認識する前段階として、表情の開始(Onset)と終了(Offset)とのタイミングを検出することは重要である。その開始と終了との間のフレームのみを、表情認識の対象とすることができる。即ち、それ以外のフレームについて表情認識で処理する必要がない。
本願の発明者らは、前述した先行技術に対して、表情変化のタイミングの判断基準は、多様な表情変化に対して最適化を実現するものでなくてはならない、と考えた。また、単一の特徴量の優位性に依存することも好ましくない、と考えた。
【0010】
そこで、本発明は、映像に映り込む対象物の瞬間的な状態を認識するためのフレームを抽出するプログラム、装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明によれば、対象物の瞬間的な状態を認識すべきフレームを抽出するようにコンピュータを機能させるプログラムにおいて、
訓練段階として、
前記対象物の瞬間的な状態が映り込む時系列の複数のフレームから、状態有りの強度が最も高いフレームを尤度1として時系列の中心とした正規分布を作成し、フレーム毎に前記正規分布の尤度を付与した教師データを用いて、前記フレームを説明変数とし、前記正規分布の尤度を目的変数として訓練した機械学習エンジンと
して機能させ、
推定段階として、
前記機械学習エンジンは、対象物の瞬間的な状態が映り込む時系列の複数のフレームを入力し、フレーム毎に尤度を推定し、
時系列の複数のフレームに対する各尤度から、正規分布を再生する正規分布回帰手段と、
前記正規分布回帰手段によって再生された前記正規分布における±所定区間に含まれる複数のフレームを、認識フレームとして抽出するフレーム抽出手段と
してコンピュータを機能させることを特徴とする。
【0012】
本発明のプログラムにおける他の実施形態によれば、
前記対象物の瞬間的な状態とは、人の顔について、表情無し、表情有り、表情無しへと変化する状態であり、
前記機械学習エンジンの教師データについて、前記状態有りとは、前記表情有りとする
ようにコンピュータを機能させることも好ましい。
【0013】
本発明のプログラムにおける他の実施形態によれば、
人の顔が映り込むフレームを入力し、表情ラベルを推定する表情認識エンジンと
して機能させ、
前記表情認識エンジンは、前記フレーム抽出手段によって抽出された認識フレームのみを入力し、表情ラベルを推定する
ようにコンピュータを機能させることも好ましい。
【0014】
本発明のプログラムにおける他の実施形態によれば、
前記正規分布回帰手段によって再生された前記正規分布の±所定区間に含まれるフレームの中で、最も-側のフレームを、オンセットフレームとし、最も+側のフレームを、オフセットフレームとして、
オンセットフレームの撮影時刻と、オフセットフレームの撮影時刻との差を、状態持続時間として検出する状態持続時間検出手段と
してコンピュータを機能させることも好ましい。
【0015】
本発明のプログラムにおける他の実施形態によれば、
前記フレーム抽出手段における前記正規分布の±所定区間は、±2σである
ようにコンピュータを機能させることも好ましい。
【0016】
本発明のプログラムにおける他の実施形態によれば、
前記機械学習エンジンは、時系列のフレームを入力し、
所定時間より長い系列で予測したマクロ特徴量を抽出するマクロ特徴量抽出手段と、
前記所定時間以下の短い系列で予測したミクロ特徴量を抽出するミクロ特徴量抽出手段と、
前記マクロ特徴量と前記ミクロ特徴量とを融合した融合特徴量を出力する融合層と、
前記融合特徴量から、前記正規分布の尤度を出力するように訓練した誤差逆伝播手段と
を有するようにコンピュータを機能させることも好ましい。
【0017】
本発明のプログラムにおける他の実施形態によれば、
前記マクロ特徴量抽出手段は、深層学習モデルのAU(ActionUnits)特徴量抽出エンジンであり、
前記ミクロ特徴量抽出手段は、深層学習モデルのOpticalFlow特徴量抽出エンジンである
ようにコンピュータを機能させることも好ましい。
【0018】
本発明によれば、対象物の瞬間的な状態を認識すべきフレームを抽出する装置において、
訓練段階として、
前記対象物の瞬間的な状態が映り込む時系列の複数のフレームから、状態有りの強度が最も高いフレームを尤度1として時系列の中心とした正規分布を作成し、フレーム毎に前記正規分布の尤度を付与した教師データを用いて、前記フレームを説明変数とし、前記正規分布の尤度を目的変数として訓練した機械学習エンジンと
を有し、
推定段階として、
前記機械学習エンジンは、対象物の瞬間的な状態が映り込む時系列の複数のフレームを入力し、フレーム毎に尤度を推定し、
時系列の複数のフレームに対する各尤度から、正規分布を再生する正規分布回帰手段と、
前記正規分布回帰手段によって再生された前記正規分布における±所定区間に含まれる複数のフレームを、認識フレームとして抽出するフレーム抽出手段と
を有することを特徴とする。
【0019】
本発明によれば、対象物の瞬間的な状態を認識すべきフレームを抽出する装置の認識フレーム抽出方法において、
装置は、
訓練段階として、
前記対象物の瞬間的な状態が映り込む時系列の複数のフレームから、状態有りの強度が最も高いフレームを尤度1として時系列の中心とした正規分布を作成し、フレーム毎に前記正規分布の尤度を付与した教師データを用いて、機械学習エンジンを、前記フレームを説明変数とし、前記正規分布の尤度を目的変数として訓練する第1のステップ
を実行し、
推定段階として、
前記機械学習エンジンが、対象物の瞬間的な状態が映り込む時系列の複数のフレームを入力し、フレーム毎に尤度を推定する第21のステップと、
時系列の複数のフレームに対する各尤度から、正規分布を再生する第22のステップと、
第22のステップによって再生された前記正規分布における±所定区間に含まれる複数のフレームを、認識フレームとして抽出する第23のステップと
を実行する
ことを特徴とする。
【発明の効果】
【0020】
本発明のプログラム、装置及び方法によれば、本発明は、映像に映り込む対象物の瞬間的な状態を認識するためのフレームを抽出することができる。
【図面の簡単な説明】
【0021】
【
図1】本発明におけるアプリケーションサーバを有するシステム構成図である。
【
図2】本発明における認識フレーム抽出部の機能構成図である。
【
図3】本発明における訓練段階の教師データを表す説明図である。
【
図4】本発明における推定段階の機械学習エンジン及び正規分布回帰部の説明図である。
【
図5】表情認識エンジンに入力する認識フレームを表す説明図である。
【
図6】本発明における機械学習エンジンの機能構成図である。
【発明を実施するための形態】
【0022】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0023】
図1は、本発明におけるアプリケーションサーバを有するシステム構成図である。
【0024】
図1のシステムによれば、アプリケーションサーバ1は、インターネットに接続されたサーバとして機能する。アプリケーションサーバ1は、ユーザによって操作される端末2から、人の顔が映り込む映像を受信する。そして、その映像から、人の顔表情を認識し、多様なアプリケーションによって処理する。
【0025】
図1によれば、アプリケーションサーバ1は、認識フレーム抽出部11と、表情認識エンジン12とを有する。
認識フレーム抽出部11は、本発明の本質的な機能構成部であって、映像に映り込む対象物の瞬間的な状態を認識するためのフレームを抽出するものである。「対象物の瞬間的な状態」としては、例えば人の顔表情であってもよいし、勿論、それに限定するものではない。
表情認識エンジン12は、教師映像によって予め訓練された学習モデルを構築したものである。表情認識エンジン12は、認識フレーム抽出部11によって抽出された、人の顔が映り込む複数の認識フレームのみを入力し、表情ラベルを推定する。表情認識エンジン12は、既存のものであってもよい。
【0026】
端末2は、カメラを搭載しており、人の顔を撮影した映像を、アプリケーションサーバ1へ送信する。端末2は、各ユーザによって所持されるスマートフォンや携帯端末であって、携帯電話網又は無線LANのようなアクセスネットワークに接続する。
勿論、端末2は、スマートフォン等に限られず、例えば宅内に設置されたWebカメラであってもよい。また、Webカメラによって撮影された映像データがSDカードに記録され、その記録された映像データがアプリケーションサーバ1へ入力されるものであってもよい。
【0027】
図2は、本発明における認識フレーム抽出部の機能構成図である。
【0028】
認識フレーム抽出部11は、対象物の瞬間的な状態(例えば人の顔表情)を認識すべきフレームを抽出するものである。
図2によれば、認識フレーム抽出部11は、機械学習エンジン111と、正規分布回帰部112と、フレーム抽出部113と、状態持続時間検出部114とを有する。これら機能構成部は、サーバに搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、認識フレーム抽出方法としても理解できる。
【0029】
[機械学習エンジン111]
機械学習エンジン111は、<教師データ>を用いた<訓練段階>と<推定段階>とからなる。
【0030】
<教師データ>
図3は、本発明における訓練段階の教師データを表す説明図である。
【0031】
最初に、教師データとなる、対象物の瞬間的な状態が映り込む時系列の複数のフレームから、「状態有りの強度が最も高いフレーム(Apex frame)」を尤度1として時系列の中心とした正規分布(normal distribution)(又はガウス関数(Gaussian function))を作成する。
【0032】
ここで、顔表情認識の場合、「状態有り」とは、「表情有り」とする。
「対象物の瞬間的な状態」とは、人の顔の場合、表情無し、表情有り、表情無しへと変化する状態であるとする。
また、「状態有りの強度が最も高いフレーム」とは、所定時間帯(例えば1秒間)の中で、何らかの表情(笑い、怒り、泣くなど)が最も強く検出されたフレームを意味する。
例えば1秒間の映像である場合、10ms毎のフレームとすると、100フレーム/秒となる。各フレームは、以下のように変化する。
表情無し(状態有りの強度が低い高いフレーム)
↓
表情有り(状態有りの強度が最も高いフレーム)
↓
表情無し(状態有りの強度が最も低いフレーム)
【0033】
これは、「状態有りの強度が最も高いフレーム」を中心にして、その前段は、表情無しから表情有りへ変化する途中であり、その後段は、表情有りから表情無しへ変化する途中となる。そのように考えると、所定時間帯の中で、「状態有りの強度が最も高いフレーム」を平均値として、尤度を状態有りの強度とした正規分布と見なすことができる。
尤度0:表情無し(表情有りの強度が最も低い)
↓
尤度1:表情有り(表情有りの強度が最も高い)
↓
尤度0:表情無し(表情有りの強度が最も低い)
【0034】
正規分布は、データが平均値の付近に集積する確率分布を表す。
N(μ,σ2)=1/√(2πσ2)・exp(-(x-μ)2/(2σ2))
μ:平均
σ2:分散
N:正規分布(ガウス関数)
ここで、平均μとなるフレームは、状態有りの強度が最も高いフレームを表す。
そして、フレーム毎に、正規分布の尤度[0,1]の実数を付与したものを、「教師データ」とする。
【0035】
尚、ここで注目すべきは、非特許文献1及び2と異なって、時間窓を不要とし、フレーム毎に表情の強度(尤度)を、ラベルとして付与したことにある。
【0036】
<訓練段階>
機械学習エンジン111は、訓練段階として、教師データを入力して訓練する。即ち、機械学習エンジン111は、フレーム(人の顔が映り込む画像)を説明変数とし、尤度(表情有りの強度が強いほど1に近づく)を目的変数として訓練する。これによって、内部パラメータを構築する。
【0037】
<推定段階>
図4は、本発明における推定段階の機械学習エンジン及び正規分布回帰部の説明図である。
【0038】
機械学習エンジン111は、対象物(人の顔)の瞬間的な状態(表情)が映り込む時系列の複数のフレームを、推定対象として入力し、フレーム毎に、尤度(表情有りの強度)を推定する。
推定された尤度は、逐次、正規分布回帰部112へ出力される。
【0039】
[正規分布回帰部112]
正規分布回帰部112は、時系列の複数のフレームに対する各尤度から、正規分布を再生する。
図5によれば、縦軸を尤度とした正規分布が再生されている。
【0040】
[フレーム抽出部113]
フレーム抽出部113は、正規分布における±所定区間に含まれる複数のフレームを、認識フレームとして抽出する。
それら認識フレームは、顔表情認識エンジン12へ出力される。顔表情認識エンジン12は、それら認識フレームのみついて、顔表情を解析すればよい。
【0041】
図5は、表情認識エンジンに入力する認識フレームを表す説明図である。
【0042】
正規分布の±所定区間に含まれるフレームの中で、最も-側のフレームを、オンセット(Onset)フレーム(表情変化の開始)とし、最も+側のフレームを、オフセット(Offset)フレーム(表情変化の終了)とする。ここで、正規分布の±所定区間は、±2σであるとしてもよい。即ち、この所定区間内には、表情有りの強度が最も強いフレームが含まれていることを意味する。
【0043】
尚、ここで注目すべきは、顔表情の強度が高いフレームを検出する際に、何らかの閾値(Threshold)を設定する必要がない。特に、各フレームの尤度の視点ではなく、正規分布を再生した後、所定区間に含まれる複数のフレーム(オンセットフレームとオフセットフレームとの間のフレーム)にのみを、表情認識エンジン12へ出力すればよい。
【0044】
[状態持続時間検出部114]
状態持続時間検出部114は、オンセットフレームの撮影時刻と、オフセットフレームの撮影時刻との差を、状態持続時間として検出する。
状態持続時間は、顔表情認識エンジン12へ出力される。顔表情認識エンジン12は、その状態持続時間だけ、映像から顔表情を解析すればよい。
【0045】
図6は、本発明における機械学習エンジンの機能構成図である。
【0046】
機械学習エンジン111は、マクロ特徴量抽出部1111と、ミクロ特徴量抽出部1112と、融合層1113と、誤差逆伝播部1114とを有する。
機械学習エンジン111に入力された時系列のフレームは、マクロ特徴量抽出部1111及びミクロ特徴量抽出部1112に入力される。
【0047】
[マクロ特徴量抽出部1111]
マクロ特徴量抽出部1111は、比較的長い系列で予測したマクロ特徴量を抽出する。
マクロ特徴量抽出部1111は、具体的には、マクロ特徴の抽出に優位性を持つ、深層学習モデルのAU(ActionUnits)特徴量抽出エンジンである。
AU特徴量とは、顔の筋肉に基づく複数箇所(眉、頬、顎など)の動きを組み合わせて、表情変化を特徴量として表したものである。これは、人の顔の中で、0.5秒~4秒程度の比較的長い表情存続(duration)であって、顔表情の強度(intensity)も比較的高いフレームの特徴を表す。一般に、AU特徴量は、顔面動作符号化システム(FACS(Facial Action Coding System))として用いられている。
【0048】
[ミクロ特徴量抽出部1112]
ミクロ特徴量抽出部1112は、比較的短い系列で予測したミクロ特徴量を抽出する。
ミクロ特徴量抽出部1112は、具体的には、ミクロ特徴の抽出に優位性を持つ、深層学習モデルのOpticalFlow特徴量抽出エンジンである。
OpticalFlow特徴量とは、対象物の変化によって生じる隣接フレーム間で、同一の特徴点の変位をベクトルで表現したものである。これは、人の顔の中で、0.5秒以下の比較的短い表情存続(duration)であって、顔表情の強度(intensity)も比較的低いフレームの特徴を表す。OpticalFlowは、例えば、空間方向のCNN(Spatial stream ConvNet)と時系列方向のCNN(Temporal stream ConvNet)とによって、Two-stream ConvNetsを構成する。顔表情を画像で捉える場合、連続フレーム間で明るさ(appearance)が変わらず、隣接する画素は似たような動きをするために、OpticalFlowにも適する。
【0049】
[融合層1113]
融合層1113は、マクロ特徴量とミクロ特徴量とを融合した融合特徴量を出力する。マクロ特徴量とミクロ特徴量とを融合することによって、両特徴量の優位性を、自己適用的に学習することができる。
融合層1113は、TextCNN/ GRU/ LSTM/ Transformerなどの自己適応な深層学習モデルによって、マクロ特徴量とミクロ特徴量とを結合するものであってもよい。融合層1113は、両方の特徴量に与える注意ウェイトを、自己適応的に調整することができ、予測結果を最適化することができる。
【0050】
[誤差逆伝播部1114]
誤差逆伝播部1114は、融合特徴量を入力し、正解となる正規分布の尤度を出力するように訓練する。
【0051】
図6の機械学習エンジン111を、
図2の認識フレーム抽出部に組み込むことによって、マクロ表情及びミクロ表情の両方を考慮して、表情の開始及び終了のタイミングの検出精度を最適化することができる。
【0052】
以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、映像に映り込む対象物の瞬間的な状態を認識するためのフレームを抽出することができる。
【0053】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0054】
1 アプリケーションサーバ
11 認識フレーム抽出部
111 機械学習エンジン
1111 マクロ特徴量抽出部
1112 ミクロ特徴量抽出部
1113 融合層
1114 誤差逆伝播部
112 正規分布回帰部
113 フレーム抽出部
114 状態持続時間検出部
12 表情認識エンジン
2 端末