特開2023-184309 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社コーセーの特許一覧

特開2023-184309情報処理装置の動作方法、情報処理装置、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
4C
4D
5
6
7A
7B
7C
7D
7E
8
9A
9B
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023184309

(43)【公開日】2023-12-28

(54)【発明の名称】情報処理装置の動作方法、情報処理装置、及びプログラム

(51)【国際特許分類】

G06T 7/20 20170101AFI20231221BHJP

G06T 7/00 20170101ALI20231221BHJP

A61B 5/16 20060101ALI20231221BHJP

【ＦＩ】

G06T7/20 300B

G06T7/00 130

A61B5/16 100

【審査請求】未請求

【請求項の数】28

【出願形態】ＯＬ

(21)【出願番号】P 2022098379

(22)【出願日】2022-06-17

(71)【出願人】

【識別番号】000145862

【氏名又は名称】株式会社コーセー

(74)【代理人】

【識別番号】100147485

【弁理士】

【氏名又は名称】杉村憲司

(74)【代理人】

【識別番号】230118913

【弁護士】

【氏名又は名称】杉村光嗣

(74)【代理人】

【識別番号】100139491

【弁理士】

【氏名又は名称】河合隆慶

(72)【発明者】

【氏名】小竹山祐輝

(72)【発明者】

【氏名】中村理恵

【テーマコード（参考）】

4C038

5L096

【Ｆターム（参考）】

4C038PP03

4C038PQ06

4C038PS07

5L096BA18

5L096CA04

5L096FA06

5L096FA09

5L096HA02

5L096JA11

5L096JA22

(57)【要約】（修正有）

【課題】顔の表情の変化を定量的に評価する情報処理装置、その動作方法及びプログラムを提供する。
【解決手段】情報処理装置の動作方法は、顔画像を取得しＳ２０，複数の顔画像それぞれから抽出した特徴点を基に求めた複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じた複数の表情強度に分類しＳ２２、各表情強度における複数の分布を分布毎の要素と時間変化量の組合せの態様に応じた複数の表情パターンに分類しＳ２４、顔画像から得られる表情分布を雰囲気パターンに分類するＳ２６。
【選択図】図２

【特許請求の範囲】

【請求項1】

情報処理装置の動作方法であって、
複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類する第１ステップと、
各表情強度における複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じた複数の表情パターンに分類する第２ステップと、
を含む動作方法。

【請求項2】

請求項１において、
前記第１のステップは、前記複数の要素の時間変化量を、対応する顔画像における顔の正面視に対応するように補正するステップを含む、
動作方法。

【請求項3】

請求項１において、
前記第２のステップは、各表情強度における分布毎の前記要素と前記時間変化量の組合せの態様を示す情報を出力し、前記要素と前記時間変化量の組合せの態様に対応する表情パターンの情報の入力を受け付けるステップを更に含む、
動作方法。

【請求項4】

請求項１において、
複数の顔画像それぞれに対応する前記複数の表情パターンの時間分布を当該時間分布の態様に応じて複数の雰囲気パターンに分類する第３ステップを更に含む、
動作方法。

【請求項5】

請求項４において、
前記第３ステップでは、前記複数の表情パターンにそれぞれの表情強度に応じた重みが付与される、
動作方法。

【請求項6】

請求項１～５のいずれかにおいて、
前記要素は前記顔画像における特徴点対の間の距離である、
動作方法。

【請求項7】

複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類し、各表情強度における複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じた複数の表情パターンに分類する制御部を有する、
情報処理装置。

【請求項8】

請求項７において、
前記制御部は、前記複数の要素の時間変化量の分布を前記複数の表情強度に分類するとき、当該複数の要素の時間変化量を、対応する顔画像における顔の正面視に対応するように補正する、
情報処理装置。

【請求項9】

請求項７において、
各表情強度における分布毎の前記要素と前記時間変化量の組合せの態様を示す情報を
出力する出力部と、
前記要素と前記時間変化量の組合せの態様に対応する表情パターンの情報の入力を受け付ける入力部と、
を更に有する情報処理装置。

【請求項10】

請求項７において、
各顔画像に対応する前記表情パターンの情報を出力する出力部を更に有する情報処理装置。

【請求項11】

請求項７において、
前記制御部は、更に、複数の顔画像それぞれに対応する前記複数の表情パターンの時間分布を当該時間分布の態様に応じて複数の雰囲気パターンに分類し、
各顔画像に対応する前記雰囲気パターンの情報を出力する出力部を更に有する、
情報処理装置。

【請求項12】

請求項１１において、
前記制御部は、前記複数の雰囲気パターンの分類を行うとき、前記複数の表情パターンにそれぞれの表情強度に応じた重みを付与する、
情報処理装置。

【請求項13】

請求項７～１２のいずれかにおいて、
前記要素は前記顔画像における特徴点対の間の距離である、
情報処理装置。

【請求項14】

情報処理装置により実行されることで、当該情報処理装置が、
複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類する第１ステップと、
各表情強度における複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じた複数の表情パターンに分類する第２ステップと、
を実行する、
プログラム。

【請求項15】

請求項１４において、
前記第１のステップは、前記複数の要素の時間変化量を、対応する顔画像における顔の正面視に対応するように補正するステップを含む、
プログラム。

【請求項16】

請求項１４において、
前記第２のステップは、各表情強度における分布毎の前記要素と前記時間変化量の組合せの態様を示す情報を出力し、前記要素と前記時間変化量の組合せの態様に対応する表情パターンの情報の入力を受け付けるステップを更に含む、
プログラム。

【請求項17】

請求項１４において、
複数の顔画像それぞれに対応する前記複数の表情パターンの時間分布を当該時間分布の態様に応じて複数の雰囲気パターンに分類する第３ステップを更に含む、
プログラム。

【請求項18】

請求項１４において、
前記第３ステップでは、前記複数の表情パターンにそれぞれの表情強度に応じた重みが付与される、
プログラム。

【請求項19】

請求項１４～１８のいずれかにおいて、
前記要素は前記顔画像における特徴点対の間の距離である、
プログラム。

【請求項20】

情報処理装置の動作方法であって、
前記情報処理装置が、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類するための情報を格納しており、
対象顔画像を取得するステップと、
前記対象顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する表情強度の情報を出力するステップと、
を含む動作方法。

【請求項21】

情報処理装置の動作方法であって、
前記情報処理装置が、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類し、各表情強度に対応する複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じて複数の表情パターンに分類するための情報を格納しており、
対象顔画像を取得するステップと、
前記対象顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する表情パターンの情報を出力するステップと、
を含む動作方法。

【請求項22】

情報処理装置の動作方法であって、
前記情報処理装置が、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類し、各表情強度に対応する複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じて複数の表情パターンに分類し、複数の顔画像それぞれに対応する前記複数の表情パターンの時間分布を当該時間分布の態様に応じて複数の雰囲気パターンに分類するための情報を格納しており、
対象顔画像を取得するステップと、
前記対象顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する雰囲気パターンの情報を出力するステップと、
を含む動作方法。

【請求項23】

複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類するための情報を格納する記憶部と、
入力される顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する表情強度の情報を出力する制御部と、
を有する情報処理装置。

【請求項24】

複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類し、各表情強度に対応する複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じて複数の表情パターンに分類するための情報を格納する記憶部と、
入力される顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する表情パターンの情報を出力する制御部と、
を有する情報処理装置。

【請求項25】

複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類し、各表情強度に対応する複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じて複数の表情パターンに分類し、複数の顔画像それぞれに対応する前記複数の表情パターンの時間分布を当該時間分布の態様に応じて複数の雰囲気パターンに分類するための情報を格納する記憶部と、
入力される顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する雰囲気パターンの情報を出力する制御部と、
を有する情報処理装置。

【請求項26】

情報処理装置により実行されるプログラムであって、
前記情報処理装置は、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類するための情報を格納しており、
対象顔画像を取得するステップと、
前記対象顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する表情強度の情報を出力するステップと、
を前記情報処理装置に実行させるプログラム。

【請求項27】

情報処理装置により実行されるプログラムであって、
前記情報処理装置は、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類し、各表情強度に対応する複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じて複数の表情パターンに分類するための情報を格納しており、
対象顔画像を取得するステップと、
前記対象顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する表情パターンの情報を出力するステップと、
を前記情報処理装置に実行させるプログラム。

【請求項28】

情報処理装置により実行されるプログラムであって、
前記情報処理装置が、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類し、各表情強度に対応する複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じて複数の表情パターンに分類し、複数の顔画像それぞれに対応する前記複数の表情パターンの時間分布を当該時間分布の態様に応じて複数の雰囲気パターンに分類するための情報を格納しており、
対象顔画像を取得するステップと、
前記対象顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する雰囲気パターンの情報を出力するステップと、
を前記情報処理装置に実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理装置の動作方法、情報処理装置、及びプログラムに関する。

【背景技術】

【0002】

人物の顔の見た目が他者に与える印象は、表情を含む種々の要因により左右される。美容分野においては、表情を分析、評価するための技術が種々提案されている。例えば、特許文献１には、顔の表情から得られる印象に相関関係を有する皮膚変化の物理量を特定する方法が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２０－６１１９４号

【発明の概要】

【発明が解決しようとする課題】

【0004】

顔の表情から得られる印象はいわば主観的に言語化された類型に過ぎず、そのような類型に相関関係を有する因子を特定しても、必ずしも表情乃至表情の変化そのものを定量的に評価することにはならない。

【0005】

上記に鑑み、以下では、顔の表情の変化を定量的に評価することを可能にする、情報処理装置の動作方法等を開示する。

【課題を解決するための手段】

【0006】

上記課題を解決するために本開示における情報処理装置の動作方法は、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類する第１ステップと、各表情強度における複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じた複数の表情パターンに分類する第２ステップと、を含む。

【0007】

また、本開示における情報処理装置は、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類し、各表情強度における複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じた複数の表情パターンに分類する制御部を有する。

【0008】

さらに、本開示におけるプログラムは、情報処理装置により実行されることで、当該情報処理装置が、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類する第１ステップと、
各表情強度における複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じた複数の表情パターンに分類する第２ステップと、を実行する。

【0009】

さらに、本開示における別の情報処理装置の動作方法は、前記情報処理装置が、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類するための情報を格納しており、対象顔画像を取得するステップと、前記対象顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する表情強度の情報を出力するステップと、を含む動作方法である。

【0010】

さらに、本開示における更に別の情報処理装置の動作方法は、前記情報処理装置が、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類し、各表情強度に対応する複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じて複数の表情パターンに分類するための情報を格納しており、対象顔画像を取得するステップと、前記対象顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する表情パターンの情報を出力するステップと、を含む動作方法である。

【0011】

さらに、本開示における更に別の情報処理装置の動作方法は、前記情報処理装置が、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類し、各表情強度に対応する複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じて複数の表情パターンに分類し、複数の顔画像それぞれに対応する前記複数の表情パターンの時間分布を当該時間分布の態様に応じて複数の雰囲気パターンに分類するための情報を格納しており、対象顔画像を取得するステップと、前記対象顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する雰囲気パターンの情報を出力するステップと、を含む動作方法である。

【0012】

さらに、本開示における別の情報処理装置は、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類するための情報を格納する記憶部と、入力される顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する表情強度の情報を出力する制御部と、を有する。

【0013】

さらに、本開示における更に別の情報処理装置は、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類し、各表情強度に対応する複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じて複数の表情パターンに分類するための情報を格納する記憶部と、入力される顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する表情パターンの情報を出力する制御部と、を有する。

【0014】

さらに、本開示における更に別の情報処理装置は、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類し、各表情強度に対応する複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じて複数の表情パターンに分類し、複数の顔画像それぞれに対応する前記複数の表情パターンの時間分布を当該時間分布の態様に応じて複数の雰囲気パターンに分類するための情報を格納する記憶部と、入力される顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する雰囲気パターンの情報を出力する制御部と、
を有する。

【0015】

さらに、本開示における別のプログラムは、情報処理装置が、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類するための情報を格納しており、対象顔画像を取得するステップと、前記対象顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する表情強度の情報を出力するステップと、を前記情報処理装置に実行させるプログラムである。

【0016】

さらに、本開示における更に別のプログラムは、情報処理装置が、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類し、各表情強度に対応する複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じて複数の表情パターンに分類するための情報を格納しており、対象顔画像を取得するステップと、前記対象顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する表情パターンの情報を出力するステップと、を前記情報処理装置に実行させるプログラムである。

【0017】

さらに、本開示における更に別のプログラムは、情報処理装置が、複数の顔画像それぞれにおける複数の要素の時間変化量の分布を、分布毎の前記時間変化量の大きさに応じて複数の表情強度に分類し、各表情強度に対応する複数の前記分布を分布毎の前記要素と前記時間変化量の組合せの態様に応じて複数の表情パターンに分類し、複数の顔画像それぞれに対応する前記複数の表情パターンの時間分布を当該時間分布の態様に応じて複数の雰囲気パターンに分類するための情報を格納しており、対象顔画像を取得するステップと、前記対象顔画像における前記要素の時間変化量に基づいて、当該顔画像に対応する雰囲気パターンの情報を出力するステップと、を前記情報処理装置に実行させるプログラムである。

【発明の効果】

【0018】

本開示における情報処理装置の動作方法等によれば、顔の表情の変化を定量的に評価することが可能になる。

【図面の簡単な説明】

【0019】

【図1】情報処理システムの構成例を示す図である。

【図2】サーバ装置の動作手順例を示すフローチャート図である。

【図3】サーバ装置の動作手順例を示すフローチャート図である。

【図4A】表情要素について説明する図である。

【図4B】正面化補正について説明する図である。

【図4C】距離行列について説明する図である。

【図4D】時間別距離行列について説明する図である。

【図5】表情強度について説明する図である。

【図6】サーバ装置の動作手順例を示すフローチャート図である。

【図7A】時間別距離行列の主成分について説明する図である。

【図7B】時間別距離行列の主成分について説明する図である。

【図7C】時間別距離行列の主成分について説明する図である。

【図7D】時間別距離行列の主成分について説明する図である。

【図7E】表情パターンについて説明する図である。

【図8】サーバ装置の動作手順例を示すフローチャート図である。

【図9A】表情パターンの時間分布について説明する図である。

【図9B】雰囲気パターンについて説明する図である。

【図10】実施例における情報処理システムの動作手順例を示すシーケンス図である。

【図11】実施例における出力画像の例を説明する図である。

【図12】実施例における情報処理システムの動作手順例を示すシーケンス図である。

【図13】実施例における出力画像の例を説明する図である。

【発明を実施するための形態】

【0020】

以下、本発明の実施の形態について説明する。

【0021】

［システム構成］
図１は、本発明の一実施形態の構成例を示す図である。情報処理システム１は、ネットワーク１１を介して互いに情報通信可能に接続されるサーバ装置１０と端末装置１２とを有する。情報処理システム１では、端末装置１２から送られる各種情報を用いてサーバ装置１０が機械学習を行う。端末装置１２は、例えば、一以上のパーソナルコンピュータである。端末装置１２は、タブレット端末装置、スマートフォン等を含んでもよい。サーバ装置１０は、例えば、一以上のサーバコンピュータである。サーバ装置１０が単一のサーバコンピュータである場合、サーバ装置１０は、本実施形態における動作を連係して実行しクラウドサービスを提供する複数のサーバコンピュータであってもよい。ネットワーク１１は、例えば、ＬＡＮ（Local Area Network）、インターネット、アドホックネットワーク、ＭＡＮ(Metropolitan Area Network)、移動体通信網もしくは他のネットワーク又はこれらいずれかの組合せである。

【0022】

サーバ装置１０は、人物の顔を撮像して得られる、人物の顔全体を含む顔画像を端末装置１２から取得する。顔画像は、動画像であって、時間的に連続した複数フレームの画像を有する。サーバ装置１０は、本実施形態における「情報処理装置」として、次の動作を行う。サーバ装置１０は、複数の顔画像それぞれにおける複数の要素（以下、表情要素という）の時間変化量（以下、単に変化量という）の分布（以下、単に変化量分布という）を、変化量分布毎の変化量の大きさに応じて複数の表情強度に分類する第１ステップ（以下、表情強度分類ステップという）と、各表情強度における複数の変化量分布を変化量分布毎の表情要素と変化量の組合せの態様に応じて複数の表情パターンに分類する第２ステップ（以下、表情パターン分類ステップという）とを実行する。よって、サーバ装置１０によれば、表情の変化を表情強度又は表情パターンに分類するので、表情の変化を定量的に評価することが可能となる。さらに、サーバ装置１０は、複数の顔画像それぞれに対応する複数の表情パターンの時間分布（以下、表情分布という）をその表情分布の態様に応じて複数の雰囲気パターンに分類する第３ステップ（以下、雰囲気分類ステップ）を実行する。よって、サーバ装置１０によれば、表情の変化に起因する雰囲気を分類するので、表情の変化により醸し出され言語化仕切れない雰囲気といった事象であっても、定量的に評価することが可能となる。

【0023】

次いで、サーバ装置１０及び端末装置１２の構成について説明する。

【0024】

サーバ装置１０は、通信部１０１、記憶部１０２、制御部１０３、入力部１０５、及び出力部１０６を有する。これらの構成は、サーバ装置１０が二以上のサーバコンピュータで構成される場合には、二以上のサーバコンピュータに適宜に配置される。

【0025】

通信部１０１は、一以上の通信用インタフェースを含む。通信用インタフェースは、例えば、ＬＡＮインタフェースである。通信部１０１は、サーバ装置１０の動作に用いられる情報を受信し、またサーバ装置１０の動作によって得られる情報を送信する。サーバ装置１０は、通信部１０１によりネットワーク１１に接続され、ネットワーク１１経由で端末装置１２と情報通信を行う。

【0026】

記憶部１０２は、例えば、主記憶装置、補助記憶装置、又はキャッシュメモリとして機能する一以上の半導体メモリ、一以上の磁気メモリ、一以上の光メモリ、又はこれらのうち少なくとも２種類の組み合わせを含む。半導体メモリは、例えば、ＲＡＭ（Random Access Memory）又はＲＯＭ（Read Only Memory）である。ＲＡＭは、例えば、ＳＲＡＭ（Static RAM）又はＤＲＡＭ（Dynamic RAM）である。ＲＯＭは、例えば、ＥＥＰＲＯＭ（Electrically Erasable Programmable ROM）である。記憶部１０２は、制御部１０３の動作に用いられる情報と、制御部１０３の動作によって得られた情報とを格納する。

【0027】

制御部１０３は、一以上のプロセッサ、一以上の専用回路、又はこれらの組み合わせを含む。プロセッサは、例えば、ＣＰＵ（Central Processing Unit）などの汎用プロセッサ、又は特定の処理に特化したＧＰＵ（Graphics Processing Unit）等の専用プロセッサである。専用回路は、例えば、ＦＰＧＡ（Field-Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）等である。制御部１０３は、サーバ装置１０の各部を制御しながら、サーバ装置１０の動作に係る情報処理を実行する。

【0028】

サーバ装置１０の機能は制御部１０３に含まれるプロセッサが、制御プログラムを実行することにより実現される。制御プログラムは、プロセッサを制御部１０３として機能させるためのプログラムである。また、サーバ装置１０の一部又は全ての機能が、制御部１０３に含まれる専用回路により実現されてもよい。また、制御プログラムは、制御部１０３により読取り可能な非一過性の記録・記憶媒体に格納され、制御部１０３が媒体から読み取ってもよい。

【0029】

入力部１０５は、一以上の入力用インタフェースを含む。入力用インタフェースは、例えば、物理キー、静電容量キー、ポインティングデバイス、ディスプレイと一体的に設けられたタッチスクリーン、又は音声入力を受け付けるマイクロフォンである。入力部１０５は、サーバ装置１０の動作に用いられる情報を入力する操作を受け付け、入力される情報を制御部１０３に送る。

【0030】

出力部１０６は、一以上の出力用インタフェースを含む。出力用インタフェースは、例えば、ディスプレイ又はスピーカである。ディスプレイは、例えば、ＬＣＤ（Liquid Crystal Display）又は有機ＥＬ（Electro-Luminescence）ディスプレイである。出力部１０６は、サーバ装置１０の動作によって得られる情報を出力する。

【0031】

端末装置１２は、通信部１２１、記憶部１２２、制御部１２３、入力部１２５及び出力部１２６を有する。

【0032】

通信部１２１は、有線又は無線ＬＡＮ規格に対応する通信モジュール、ＬＴＥ、４Ｇ、５Ｇ等の移動体通信規格に対応するモジュール等を有する。端末装置１２は、通信部１２１により、近傍のルータ装置又は移動体通信の基地局を介してネットワーク１１に接続され、ネットワーク１１経由でサーバ装置１０等と情報通信を行う。

【0033】

記憶部１２２は一以上の半導体メモリ、一以上の磁気メモリ、一以上の光メモリ、又はこれらのうち少なくとも２種類の組み合わせを含む。半導体メモリは、例えば、ＲＡＭ又はＲＯＭである。ＲＡＭは、例えば、ＳＲＡＭ又はＤＲＡＭである。ＲＯＭは、例えば、ＥＥＰＲＯＭである。記憶部１２２は、例えば、主記憶装置、補助記憶装置、又はキャッシュメモリとして機能する。記憶部１２２は、制御部１２３の動作に用いられる情報と、制御部１２３の動作によって得られた情報とを格納する。

【0034】

制御部１２３は、例えば、ＣＰＵ、ＭＰＵ（Micro Processing Unit）等の一以上の汎用プロセッサ、又は特定の処理に特化したＧＰＵ等の一以上の専用プロセッサを有する。あるいは、制御部１２３は、一以上の、ＦＰＧＡ、ＡＳＩＣ等の専用回路を有してもよい。制御部１２３は、制御・処理プログラムに従って動作したり、あるいは、回路として実装された動作手順に従って動作したりすることで、端末装置１２の動作を統括的に制御する。そして、制御部１２３は、通信部１２１を介してサーバ装置１０等と各種情報を送受し、本実施形態にかかる動作を実行する。

【0035】

端末装置１２の機能は、制御部１２３に含まれるプロセッサが制御プログラムを実行することにより実現される。制御プログラムは、プロセッサを制御部１２３として機能させるためのプログラムである。また、端末装置１２の一部又は全ての機能が、制御部１２３に含まれる専用回路により実現されてもよい。また、制御プログラムは、制御部１２３に読取り可能な非一過性の記録・記憶媒体に格納され、制御部１２３が媒体から読み取ってもよい。

【0036】

入力部１２５は、一以上の入力用インタフェースを含む。入力用インタフェースは、例えば、物理キー、静電容量キー、ポインティングデバイス、およびディスプレイと一体的に設けられたタッチスクリーンを含む。また、入力用インタフェースは、音声入力を受け付けるマイクロフォン、及び撮像画像を取り込むカメラを含む。更に、入力用インタフェースは、画像コードをスキャンするスキャナ又はカメラ、ＩＣカードリーダを含んでもよい。入力部１２５は、制御部１２３の動作に用いられる情報を入力する操作を受け付け、入力される情報を制御部１２３に送る。また、入力部１２５は、カメラによる撮像画像を制御部１２３に送る。

【0037】

出力部１２６は、一以上の出力用インタフェースを含む。出力用インタフェースは、例えば、ディスプレイ、及びスピーカを含む。ディスプレイは、例えば、ＬＣＤ又は有機ＥＬディスプレイである。出力部１２６は、制御部１２３の動作によって得られる情報を出力する。

【0038】

［サーバ装置１０の動作］
図２は、サーバ装置１０の動作例を説明するためのフローチャート図である。各ステップは、制御部１０３により実行される。

【0039】

ステップＳ２０において、制御部１０３は、顔画像を取得する。顔画像は、人物の顔を撮像することにより生成される動画像である。顔画像は、例えば、毎秒３０フレームの静止画像を含む。例えば、端末装置１３により撮像された顔画像、又は端末装置１３に格納された顔画像が、端末装置１３からサーバ装置１０へ送られる。サーバ装置１０では、複数の顔画像を制御部１０３が通信部１０１を介して受けて記憶部１０２に格納する。あるいは、制御部１０３は、オペレータが入力部１０５に対して行う操作、又はオペレータが端末装置１２の入力部１２５に対して行う操作に応答して端末装置１２からサーバ装置１０へ送られる指示に応じて、オープンデータから複数の顔画像を取得してもよい。

【0040】

ステップＳ２２において、制御部１０３は、顔画像における表情強度分類ステップを行う。表情強度分類ステップの詳細な手順が図３に示される。

【0041】

図３は、表情強度分類ステップに係るサーバ装置１０の動作例を説明するためのフローチャート図である。図３の手順は、制御部１０３により実行される。

【0042】

制御部１０３は、すべての顔画像につき、順次、ステップＳ３２、Ｓ３４及びＳ３６を実行する（ステップＳ３０）。

【0043】

ステップＳ３２において、制御部１０３は、各顔画像において特徴点の抽出と、特徴点の正面化補正を行う。特徴点は、表情変化の際に特徴的に動く、眉、目及び口の端点及びこれらを結ぶ輪郭上の点、鼻筋、鼻翼の輪郭、及び顎の輪郭上の点等を含む。制御部１０３は、顔画像におけるフレーム画像毎に、任意の画像認識処理により特徴点を抽出する。例えば、制御部１０３は、顔特徴量抽出ライブラリを用いたランドマーク検知により、図４Ａに示すように、フレーム画像４０から特徴点Ｐ－ｎ（ｎは任意の自然数）を抽出する。また、制御部１０３は、顔画像が斜め方向から見た顔の画像である場合に得られる特徴点Ｐ－ｎの配置を、正面化補正により、正面視の顔画像に対応する配置に補正する。例えば、制御部１０３は、landmark-based approachesを用いて、図４Ｂに示すように、斜め方向から見た顔画像における特徴点Ｐ－ｎの配置例４１を、正面視に対応する配置例４２に補正する。サーバ装置１０の記憶部１０２には、正面視の顔画像における特徴点Ｐ－ｎの基準位置の情報が格納されており、制御部１０３は、各特徴点Ｐ－ｎをそれぞれの基準位置に近づけることで、正面化補正を行う。あるいは、制御部１０３は、Appearance-based frontalizationその他のアルゴリズムを用いて正面化補正を行ってもよい。

【0044】

ステップＳ３４において、制御部１０３は、各顔画像において表情要素を導出する。表情要素は、一対の特徴点Ｐ－ｎ間の距離である。例えば、制御部１０３は、図４Ｃに示すように、特徴点Ｐ－ｎの距離行列４３を生成する。距離行列４３は、Ｎ個の特徴点のうち総当たりによる２つの特徴点の間の距離を成分とする、Ｎ×Ｎ行列である。距離行列４３では、ｉ行ｊ列（ｉ、ｊはＮ以下の任意の自然数）の成分の値は、特徴点Ｐ－ｉとＰ－ｊの間の距離に対応し、ここでは距離の大きさがグレースケールの濃度により表現される。

【0045】

ステップＳ３６において、制御部１０３は、各顔画像について、表情要素の変化量分布を導出する。表情要素の変化量は、例えば、数十ミリ秒の時間差における表情要素の差分として求められる。制御部１０３は、距離行列４３を異なる時点において導出し、両者の差分を各成分につき求めることで、図４Ｄに示すように、時間差分距離行列４４を導出する。時間差分距離行列４４は、Ｎ×Ｎ行列であり、ｉ行ｊ列の成分Ｐ（ｉ，ｊ）の値は、特徴点Ｐ－ｉとＰ－ｊの間の距離の時間変化量に対応する。すなわち、時間差分距離行列４４は、表情要素に対する変化量分布を示す。ここで、時間差分距離行列４４の時点ｔにおける成分の値をＬＦＭｔとすると、特徴点Ｐ－ｉとＰ－ｊの距離の時間差Ｔにおける変化量は以下の式により表される。

ここでは、変化量の大きさがグレースケールの濃度により表現される。なお、同じ被写体を撮像して得られる一の顔画像であっても、異なる時間帯においては、異なる変化量分布が導出される。

【0046】

制御部１０３は、すべての顔画像につきステップＳ３２、Ｓ３４及びＳ３６が完了するまで処理を繰り返す（ステップＳ３０）。

【0047】

ステップＳ３８において、制御部１０３は、複数の顔画像それぞれにおける表情要素の変化量分布を、変化量分布毎の変化量の大きさに応じて表情強度に分類する。

【0048】

まず、制御部１０３は、変化量分布毎の変化量の大きさとして、時間差分距離行列４４の行列総和を、例えば表情強度を測る表情強度メトリクスＦＥＭ(Facial Expression Metric)として、以下の式により導出する。

【0049】

次いで、制御部１０３は、行列総和ＦＥＭｔの確率分布を、複数の表情強度、例えば、強表情、中間表情、弱表情Ｉ、及び弱表情ＩＩの４つの表情強度に分類する。分類には、任意のアルゴリズム、基準値等が用いられる。図５には、約１００００個の３０ミリ秒毎の時間差分距離行列４４から得られる確率分布を、箱ひげ図を用いて表情強度に分類した例が示される。ここでは、上側外れ値が上位２．２％に、中央値が上位５０％に、第１四分位点が上位２５％に、第３四分位点が上位７５％に対応する確率分布において、最大値～上側外れ値の最小値の確率分布５１が強表情、上側外れ値の最小値～第１四分位点の確率分布５２が中間表情、第１四分位点～中央値の確率分布５３が弱表情Ｉ、第３四分位点～最小値の確率分布５４が弱表情ＩＩに分類される。制御部１０３は、各時間差分距離行列４４に対し分類した表情強度の種別を対応付けて記憶部１０２に格納する。また、制御部１０３は、各時間差分距離行列４４の行列総和ＦＥＭｔを表情強度に分類するときの基準値を、記憶部１０２に格納する。

【0050】

図３に示したステップＳ３０～Ｓ３８を制御部１０３が実行することで、複数の顔画像それぞれにおける複数の表情要素の変化量分布、つまり特徴点Ｐ－ｎの時間差分距離行列４４が、変化量の大きさ、つまり行列総和ＦＥＭｔに応じて複数の表情強度に分類される。

【0051】

図２に戻ると、制御部１０３は、ステップＳＳ２２を終了してステップＳ２４に進み、ステップＳ２４において表情パターン分類ステップを行う。表情パターン分類ステップの詳細な手順が、図６に示される。

【0052】

図６は、表情パターン分類ステップに係るサーバ装置１０の動作例を説明するためのフローチャート図である。図６の手順は、制御部１０３により実行される。

【0053】

制御部１０３は、強表情、中間表情、弱表情Ｉ、及び弱表情ＩＩのすべての表情強度毎に、ステップＳ６２、Ｓ６４及びＳ６６を実行する（ステップＳ６０）。

【0054】

ステップＳ６２において、制御部１０３は、処理対象の表情強度に分類された表情要素の変化量分布を取得する。制御部１０３は、強表情、中間表情、弱表情Ｉ、及び弱表情ＩＩのうち、処理対象の表情強度に分類された一以上の時間差分距離行列４４を記憶部１０２から読み出す。

【0055】

ステップＳ６２において、制御部１０３は、表情要素の変化量分布における主成分を抽出する。主成分は、変化量分布毎の時間変化量の大きさに寄与する度合いが他より大きい成分である。つまり、時間差分距離行列４４の主成分は、成分Ｐ（ｉ，ｊ）を行列総和ＦＥＭｔに対する寄与率が相対的に高い成分に次元圧縮して得られる成分である。

【0056】

ステップＳ６４において、制御部１０３は、主成分を表情パターンに分類する。主成分は、時間差分距離行列４４において表情要素と変化量の組合せの態様を示し、表情パターンに対応する。例えば、制御部１０３は、時間差分距離行列４４の主成分に対し崩壊型ギブスサンプリングによるＧＭＭ（Gaussian Mixture Model）推論を行って、主成分を表情パターンに分類する。

【0057】

そして、制御部１０３は、すべての表情強度につきステップＳ６２、Ｓ６４及びＳ６６を行うと、図６の手順を終了する（ステップＳ６０）。

【0058】

図６の手順により分類される表情パターンの例が、図７Ａ～７Ｄに示される。図７Ａ～７Ｄには、顔画像のフレーム画像２０から約７０個の特徴点をランドマーク検知により抽出した場合における、時間差分距離行列４４の主成分の分布例が表情パターンとして示される。ここでは、主成分の大きさがグレースケールの濃度により表現される。

【0059】

図７Ａは、強表情に分類される時間差分距離行列４４での、表情パターン７１－１、７１－２及び７１－３を示す。表情パターン７１－１は、４３．８％の寄与率を有する主成分の分布例であり、この主成分は口の縦の動きに伴う表情要素の時間変化量に対応する。また、表情パターン７１－２は、２１．３％の寄与率を有する主成分の分布例であり、この主成分は顔の頷きと目の動きに伴う表情要素の時間変化量に対応する。そして、表情パターン７１－３は、１８．３％の寄与率を有する主成分の分布例であり、この主成分は目と口の動きに伴う表情要素の時間変化量に対応する。

【0060】

図７Ｂは、中間表情に分類される時間差分距離行列４４での、表情パターン７２－１、７２－２及び７２－３を示す。表情パターン７２－１は、２９．６％の寄与率を有する主成分の分布例であり、この主成分は口の縦の動きに伴う表情要素の時間変化量に対応する。また、表情パターン７２－２は、２６．５％の寄与率を有する主成分の分布例であり、この主成分は顔の頷きと目の動きに伴う表情要素の時間変化量に対応する。そして、表情パターン７２－３は、２０．４％の寄与率を有する主成分の分布例であり、この主成分は目と口の動きに伴う表情要素の時間変化量に対応する。

【0061】

図７Ｃは、弱表情Ｉに分類される時間差分距離行列４４での、表情パターン７３－１、７３－２及び７３－３を示す。表情パターン７３－１は、２６．９％の寄与率を有する主成分の分布例であり、この主成分は口の縦の動きに伴う表情要素の時間変化量に対応する。また、表情パターン７３－２は、２６．１％の寄与率を有する主成分の分布例であり、この主成分は顔の頷きと目の動きに伴う表情要素の時間変化量に対応する。そして、表情パターン７３－３は、１８．６％の寄与率を有する主成分の分布例であり、この主成分は目と口の動きに伴う表情要素の時間変化量に対応する。

【0062】

図７Ｄは、弱表情ＩＩに分類される時間差分距離行列４４での、表情パターン７４－１、７４－２及び７４－３を示す。表情パターン７４－１は、２１．９％の寄与率を有する主成分の分布例であり、この主成分は口の縦の動きに伴う表情要素の時間変化量に対応する。また、表情パターン７４－２は、２０．９％の寄与率を有する主成分の分布例であり、この主成分は顔の頷きと目の動きに伴う表情要素の時間変化量に対応する。そして、表情パターン７４－３は、１６．７％の寄与率を有する主成分の分布例であり、この主成分は目と口の動きに伴う表情要素の時間変化量に対応する。

【0063】

図７Ａ～７Ｄに示されるように、異なる表情強度において、表情要素が共通する表情パターンには、主成分の分布の態様にある程度の類似が見られる。例えば、口の縦の動きに対応する表情パターン７１－１、７２－１、７３－１及び７４－１の態様は互いに類似する。また、顔の頷きと目の動きに対応する表情パターン７１－２、７２－２、７３－２及び７４－２の態様は互いに類似する。そして、目と口の動きに対応する表情パターン７１－３、７２－３、７３－３及び７４－３の態様は互いに類似する。

【0064】

なお、図７Ａ～７Ｄでは、表情強度毎の３通りの表情パターンが示されたが、表情パターンの数はここに示す例に限られない。例えば、図５で示した、約１００００個の３０ミリ秒毎の時間差分距離行列４４から得られる確率分布を強表情、中間表情、弱表情Ｉ、及び弱表情ＩＩの４つの表情強度に分類し、各表情強度において時間差分距離行列４４から抽出した主成分に対し崩壊型ギブスサンプリングによるＧＭＭ（Gaussian Mixture Model）推論を行って表情パターンに分類した場合、各表情強度において１０個前後のクラスターが確認された。まず表情強度分類を行い、表情強度毎の表情パターン分類を行うことで、例えば、弱表情Ｉ、弱表情ＩＩにおいて行列総和ＦＥＭｔの強度によるクラスタリング精度への影響を抑制することが可能となる。

【0065】

図６の手順により制御部１０３が動作することで、表情強度に分類された表情要素の変化量分布を表情パターンに分類するための、分類モデルが生成される。かかる分類モデル（以下、表情パターン分類モデルという）が、記憶部１０２に格納される。

【0066】

また、制御部１０３は、顔画像を表情パターンに分類したとき、顔画像に対応する表情パターンの情報を出力部１０６に出力してもよい。図７Ｅは、出力部１０６による表示画像の例を示す。表示画像７００は、表情変化を示す２つのフレーム画像をそれぞれ有する３つの顔画像７５－１、７５－２及び７５－３と、各顔画像に対応する表情パターンを示す時間差分距離行列の画像７６－１、７６－２及び７６－３と、各表情パターンが分類された表情強度の情報７７－１、７７－２及び７７－３とを含む。かかる表示画像７００により、オペレータは顔画像と表情強度及び表情パターンの対応付けを視認することが可能となる。

【0067】

あるいは、制御部１０３は、ステップＳ６６の替わりに、時間差分距離行列４４において表情要素と変化量の組合せの態様を示す主成分の分布を出力部１０６により表示し、オペレータが主成分の分布を表情パターンに分類し、分類結果を入力部１０５により入力してもよい。例えば、制御部１０３が、例えば、図７Ｅで示したような、表情変化を示すフレーム画像を有する顔画像と、主成分の分布例とを含む表示画像７００を表示し、各分布例に対するラベリングのための情報の入力を受け付けて、ラベリングに従って主成分の分布を表情パターンに分類してもよい。この場合、制御部１０３は、ラベリングされた主成分の分布を教師データとして機械学習を行い、表情パターン分類モデルを生成することが可能である。

【0068】

図２に戻ると、制御部１０３は、ステップＳＳ２４を終了してステップＳ２６に進み、ステップＳ２６において雰囲気パターン分類を行う。ステップＳ２６の詳細な手順が、図８に示される。

【0069】

図８は、雰囲気パターン分類ステップに係るサーバ装置１０の動作例を説明するためのフローチャート図である。図８の手順は、制御部１０３により実行される。

【0070】

制御部１０３は、すべての顔画像につき、順次、ステップＳ８２を行う（ステップＳ８０）。

【0071】

ステップＳ８２において、制御部１０３は、各顔画像における表情分布を導出する。顔画像は、一定の再生時間を有する動画像であるので、表情強度分類ステップ、表情パターン分類ステップが実行された時点で、各顔画像の再生時間にわたって所定時間（例えば３０ミリ秒）毎の時間差分距離行列４４が導出され、各行列総和ＦＥＭｔに応じた表情強度、その表情強度において主成分の分布態様に応じた表情パターンが導出されている。制御部１０３は、顔画像毎の再生時間にわたる表情パターンの時間分布を導出する。

【0072】

制御部１０３は、すべての顔画像につきステップＳ８２が完了するまで処理を繰り返す（ステップＳ８０）。こうして導出される表情分布の例が図９Ａに示される。図９Ａには、１１個の顔画像９０１～９１１における、強表情、中間表情、弱表情Ｉ、及び弱表情ＩＩそれぞれに分類される表情パターンの時間分布が、顔時間の再生時間を正規化した帯グラフにより示される。ここでは、表情パターンにより異なるハッチングで帯グラフが表現される。

【0073】

ステップＳ８４において、制御部１０３は、複数の顔画像から得られた表情分布を、表情分布の態様に応じて複数の雰囲気パターンに分類する。制御部１０３は、例えば、クラスタリングなどの教師なし学習により、表情分布を複数の雰囲気パターンに分類する。制御部１０３は、表情分布に表情強度に応じた重みを付して、表情分布を雰囲気パターンに分類してもよい。例えば、出現頻度が低い強表情ほど大きい重みが付され、出現頻度が高い弱表情ほど小さい重みが付されることで、ある程度表情分布が正規化される。

【0074】

図８の手順により制御部１０３が動作することで、顔画像から得られる表情分布を雰囲気パターンに分類するための、分類モデルが生成される。かかる分類モデル（以下、雰囲気パターン分類モデルという）が、記憶部１０２に格納される。

【0075】

また、制御部１０３は、顔画像を雰囲気パターンに分類したとき、顔画像に対応する雰囲気パターンの情報を出力部１０６に出力してもよい。図９Ｂは、出力部１０６による表示画像の例を示す。表示画像９００は、１１個の顔画像の任意の時点のフレーム画像９２１～９３１と、各顔画像に対応する雰囲気パターンを示す帯グラフ９０１～９１１とを含む。かかる表示画像９００により、オペレータは顔画像と雰囲気パターンの対応付けを視認することが可能となる。

【0076】

顔画像に対し顔画像から受ける雰囲気を主観的に言語化したラベル付けを行って得られる教師データを用いて機械学習する場合、教師データに用いられるラベリングに従った分類はできても、言語化し切れない表情強度、表情パターン又は雰囲気パターンを分類することは困難である。その点、本実施形態によれば、言語化し切れない表情の変化を、定量的に表情強度、表情パターン又は雰囲気パターンに分類することができ、顔の表情の変化を定量的に評価することが可能となる。

【0077】

［実施例１］
図１０は、実施例における情報処理システム１の動作例を説明するためのシーケンス図である。図１０の手順は、少なくとも本実施形態の手順で得られた表情強度分類のための情報、表情パターン分類のための情報（表情パターン分類モデル）を有するサーバ装置１０と端末装置１２の連係動作に関する。端末装置１２は、例えば、種々のカウンセリングを提供する接客担当者を選択するユーザにより用いられる。かかるカウンセリングには、例えば、美容に関する助言が含まれる。また、カウンセリングは、対面形式でも、オンラインのビデオ通話形式でもよい。図１０の手順は、例えば、ユーザが店舗又は自宅等で端末装置１２を用いて接客担当者をカウンセリングに先立ち選択する際に実行される。

【0078】

ステップＳ１００において、端末装置１２は、顔画像と表情情報の要求をサーバ装置１０へ送る。顔画像は、接客担当者を事前に撮像して得られる動画像であって、サーバ装置１０に格納される。表情情報は、顔画像が分類される表情強度と表情パターンとを含む。制御部１２３は、ユーザによる入力部１２５への操作に応答して、通信部１２１によりサーバ装置１０へ顔画像と表情情報の要求のための情報を送る。サーバ装置１０では、制御部１０３が、通信部１０１を介して端末装置１２からの情報を受ける。

【0079】

ステップＳ１０２において、サーバ装置１０は、顔画像を取得する。制御部１０３は、記憶部１０２に予め格納された接客担当者の顔画像を読み出す。

【0080】

ステップＳ１０４において、サーバ装置１０は、各顔画像につき表情強度分類ステップと表情パターン分類ステップを実行する。制御部１０３は、各顔画像の再生時間にわたって所定時間（例えば３０ミリ秒）毎の時間差分距離行列４４を導出する。さらに、制御部１０３は、それぞれの時間差分距離行列４４の行列総和ＦＥＭｔを導出し、主成分を導出する。さらに、制御部１０３は、各行列総和ＦＥＭｔに応じた表情強度を特定する。そして、制御部１０３は、表情パターン分類モデルを用いて、各行列総和ＦＥＭｔを表情パターンに分類する。記憶部１０２には、分類される表情パターンを描写するための文字情報が予め格納されていてもよい。

【0081】

ステップＳ１０６において、サーバ装置１０は、出力用の顔画像と表情情報とを端末装置１２へ送る。制御部１０３は、顔画像と表情情報とを通信部１０１により端末装置１２へ送る。端末装置１２では、制御部１１３が、通信部１２１を介してサーバ装置１０からの情報を受ける。

【0082】

ステップＳ１０８において、端末装置１２は、顔画像と表情情報とを表示する。制御部１２３は、顔画像と、表情強度及び表情パターンを示す表情情報とを出力部１２６により表示する。出力部１２６は、例えば、図１１に示すような表示画像１１０を表示する。表示画像１１０は、３人の接客担当者それぞれの顔画像の２フレーム分の画像１１１－１、１１２－２及び１１１－３と、それぞれに対応する表情パターンを表す時間差分距離行列の画像１１０－１、１１０－２及び１１０－３と、それぞれの表情パターンを示す文字列１１２－１、１１２－２及び１１２－３とを含む。

【0083】

このような実施例によれば、ユーザは表示画像１１０を視認することで、接客担当者の顔画像、その表情強度、つまり表情変化に伴う顔の動きの大きさ、及び表情パターンの種類を認識でき、より自分の嗜好に適した接客担当者を選択することが可能となる。

【0084】

［実施例２］
図１２は、別の実施例における情報処理システム１の動作例を説明するためのシーケンス図である。図１２の手順は、本実施形態の手順で得られた表情強度分類のための情報、表情パターン分類のための情報（分類モデル）、雰囲気パターン分類のための情報（分類モデル）を有するサーバ装置１０と端末装置１２の連係動作に関する。端末装置１２は、例えば、種々のカウンセリングを提供する接客担当者、又はその監督者により用いられる。図１２の手順は、例えば、接客担当者又はその監督者が、接客担当者の表情を評価する際に実行される。

【0085】

ステップＳ１２０において、端末装置１２は被写体を撮像し、顔画像を取得する。端末装置１２の制御部１２３は、入力部１２５に対するユーザの操作に応答して、入力部１２５に含まれるカメラにより撮像を行う。被写体は、例えば、接客担当者である。これにより、端末装置１２は顔画像を取得する。

【0086】

ステップＳ１２２において、端末装置１２は、顔画像と、雰囲気情報の要求とをサーバ装置１０へ送る。雰囲気情報は、顔画像に対応する雰囲気パターンの情報である。制御部１２３は、ユーザによる入力部１２５への操作に応答して、通信部１２１によりサーバ装置１０へ顔画像と雰囲気情報の要求のための情報とを送る。サーバ装置１０では、制御部１０３が、通信部１０１を介して端末装置１２からの情報を受ける。

【0087】

ステップＳ１２４において、サーバ装置１０は、顔画像につき雰囲気パターン分類を行う。制御部１０３は、各顔画像の再生時間にわたって所定時間（例えば３０ミリ秒）毎の時間差分距離行列４４を導出する。さらに、制御部１０３は、それぞれの時間差分距離行列４４の行列総和ＦＥＭｔを導出し、主成分を導出する。さらに、制御部１０３は、各行列総和ＦＥＭｔに応じた表情強度を特定する。さらに、制御部１０３は、表情強度毎に行列総和ＦＥＭｔを表情パターンに分類する。そして、制御部１０３は、雰囲気パターン分類モデルを用いて、各画像における表情分布を雰囲気パターンに分類する。

【0088】

ステップＳ１２６において、サーバ装置１０は、出力用の顔画像と雰囲気情報とを端末装置１２へ送る。制御部１０３は、顔画像と表情情報とを通信部１０１により端末装置１２へ送る。端末装置１２では、制御部１１３が、通信部１２１を介してサーバ装置１０からの情報を受ける。

【0089】

ステップＳ１２８において、端末装置１２は、顔画像と雰囲気情報とを表示する。制御部１１３は、顔画像と、雰囲気パターンを示す表情情報とを出力部１２６により表示する。出力部１２６は、例えば、図１３に示すような表示画像１３０を表示する。表示画像１３０は、接客担当者の顔画像の数フレーム分の画像１３０－１、雰囲気パターンを示す表情分布の帯グラフ１３０－２、及び、雰囲気パターンを示す文字列１３０－３を含む。

【0090】

このような実施例によれば、接客担当者又はその監督者は、表示画像１２０を視認することで、接客担当者の顔画像と表情変化により醸し出される雰囲気パターンを認識でき、定量的かつより客観的に接客担当者の雰囲気を評価することが可能となる。

【0091】

この実施例において、ステップＳ１２０で顔画像を撮像する代わりに、オープンソースにおける既存の顔画像を取得して、被写体の表情の表情パターン、雰囲気パターン等を評価することが可能である。そうすることで、例えば、他社の接客担当者等の表情パターン又は雰囲気パターンを評価し、自らの表情パターン又は雰囲気パターンの改善に活用することが可能となる。

【0092】

以上のとおり、本実施形態によれば、表情の変化を定量的な表情強度、表情パターンとして評価することが可能となる。さらに、表情の変化により醸し出され言語化仕切れない雰囲気パターンであっても、定量的に評価することが可能となる。

【0093】

上述においては、サーバ装置１０が「情報処理装置」に対応した。しかしながら、サーバ装置１０と端末装置１２とが連係動作することで「情報処理装置」を構成してもよいし、端末装置１２が「情報処理装置」に対応してもよい。

【0094】

上述の実施形態において、端末装置１２の動作を規定する処理・制御プログラムは、サーバ装置１０の記憶部１０２又は他のサーバ装置の記憶部に記憶されていて、ネットワーク１１経由で端末装置１２にダウンロードされてもよいし、コンピュータに読取り可能な非一過性の記録・記憶媒体に格納され、端末装置１２が媒体から読み取ってもよい。

【0095】

上述において、実施形態を諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形及び修正を行うことが容易であることに注意されたい。従って、これらの変形及び修正は本開示の範囲に含まれることに留意されたい。例えば、各手段、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段、ステップ等を１つに組み合わせたり、或いは分割したりすることが可能である。

【符号の説明】

【0096】

１０：サーバ装置
１１：ネットワーク
１２：端末装置
１０１、１２１：通信部
１０２、１２２：記憶部
１０３、１２３：制御部
１０５、１２５：入力部
１０６、１２６：出力部
４０：フレーム画像
４３：距離行列
４４：時間差分距離行列
Ｐ－ｎ：特徴点

【図1】