特許第6872757号(P6872757)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人 東京大学の特許一覧

特許6872757集団状態推定装置、集団状態推定方法及び集団状態推定プログラム
<>
  • 特許6872757-集団状態推定装置、集団状態推定方法及び集団状態推定プログラム 図000002
  • 特許6872757-集団状態推定装置、集団状態推定方法及び集団状態推定プログラム 図000003
  • 特許6872757-集団状態推定装置、集団状態推定方法及び集団状態推定プログラム 図000004
  • 特許6872757-集団状態推定装置、集団状態推定方法及び集団状態推定プログラム 図000005
  • 特許6872757-集団状態推定装置、集団状態推定方法及び集団状態推定プログラム 図000006
  • 特許6872757-集団状態推定装置、集団状態推定方法及び集団状態推定プログラム 図000007
  • 特許6872757-集団状態推定装置、集団状態推定方法及び集団状態推定プログラム 図000008
  • 特許6872757-集団状態推定装置、集団状態推定方法及び集団状態推定プログラム 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6872757
(24)【登録日】2021年4月22日
(45)【発行日】2021年5月19日
(54)【発明の名称】集団状態推定装置、集団状態推定方法及び集団状態推定プログラム
(51)【国際特許分類】
   G06F 3/01 20060101AFI20210510BHJP
   H04N 21/258 20110101ALI20210510BHJP
   H04N 21/431 20110101ALI20210510BHJP
   A61B 5/16 20060101ALI20210510BHJP
   G06F 3/0481 20130101ALI20210510BHJP
【FI】
   G06F3/01 510
   H04N21/258
   H04N21/431
   A61B5/16 120
   G06F3/0481
【請求項の数】5
【全頁数】11
(21)【出願番号】特願2018-117745(P2018-117745)
(22)【出願日】2018年6月21日
(65)【公開番号】特開2019-219987(P2019-219987A)
(43)【公開日】2019年12月26日
【審査請求日】2020年6月16日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100129230
【弁理士】
【氏名又は名称】工藤 理恵
(72)【発明者】
【氏名】徳永 徹郎
(72)【発明者】
【氏名】高田 英明
(72)【発明者】
【氏名】巻口 誉宗
(72)【発明者】
【氏名】吉田 海渡
(72)【発明者】
【氏名】世田 圭佑
(72)【発明者】
【氏名】鳴海 拓志
(72)【発明者】
【氏名】谷川 智洋
(72)【発明者】
【氏名】廣瀬 通孝
【審査官】 ▲高▼瀬 健太郎
(56)【参考文献】
【文献】 特開2011−186521(JP,A)
【文献】 特開2008−272019(JP,A)
【文献】 特表2015−502624(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/01
A61B 5/16
G06F 3/0481
H04N 21/258
H04N 21/431
(57)【特許請求の範囲】
【請求項1】
複数の人を撮影した映像を入力する映像取得手段と、
前記映像から前記複数の人それぞれの状態を推定する人物状態推定手段と、
前記複数の人それぞれの状態に基づいて前記複数の人の集団の状態を推定する集団状態推定手段と、
前記集団の状態に応じて、前記複数の人の集団の状態を示すアバターを生成するアバター生成手段と、を有し、
前記人物状態推定手段は、
前記映像から前記複数の人の顔を検出する顔検出手段と、
前記複数の人の顔のそれぞれについて、顔の表情を計測する表情計測手段と、
前記複数の人の顔のそれぞれについて、顔の視線方向を計測する視線計測手段と、
前記複数の人の顔のそれぞれについて、頷きを計測する頷き計測手段と、
前記表情計測手段、前記視線計測手段、前記頷き計測手段の計測結果に基づいて前記複数の人それぞれの状態を推定する個人状態推定手段と、
を有することを特徴とする集団状態推定装置。
【請求項2】
前記複数の人それぞれの状態は、複数種類の各表情分類のスコア、視対象物体の情報、頷き状態を含み、
前記集団状態推定手段は、各表情分類のスコアの平均を求め、各視対象物体が見られている合計数を求め、頷いている人の割合を求めて、前記集団の状態を推定することを特徴とする請求項1に記載の集団状態推定装置。
【請求項3】
前記アバター生成手段は、前記スコアの平均が最大な表情分類に応じた顔の画像を利用してアバターを生成し、前記合計数が最大な前記視対象物体に応じて前記アバターの向きを決め、前記頷いている人の割合に応じて前記アバターの顔の頷き角度を決めることを特徴とする請求項2に記載の集団状態推定装置。
【請求項4】
コンピュータが実行する集団状態推定方法であって、
複数の人を撮影した映像を入力するステップと、
前記映像から前記複数の人それぞれの状態を推定するステップと、
前記複数の人それぞれの状態に基づいて前記複数の人の集団の状態を推定するステップと、
前記集団の状態に応じて、前記複数の人の集団の状態を示すアバターを生成するステップと、を有し、
前記複数の人それぞれの状態を推定するステップは、
前記映像から前記複数の人の顔を検出するステップと、
前記複数の人の顔のそれぞれについて、顔の表情を計測するステップと、
前記複数の人の顔のそれぞれについて、顔の視線方向を計測するステップと、
前記複数の人の顔のそれぞれについて、頷きを計測する頷きステップと、
前記顔の表情、前記顔の視線、前記頷きの計測結果に基づいて前記複数の人それぞれの状態を推定するステップと、
を有することを特徴とする集団状態推定方法。
【請求項5】
請求項1乃至3のいずれかに記載の集団状態推定装置の各部としてコンピュータを動作させることを特徴とする集団状態推定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、集団の状態を推定し提示する技術に関する。
【背景技術】
【0002】
従来、複数人からなる聴衆の集団的感情を認識し、聴衆にプレゼンテーションを行っている話者のプレゼンテーションの進行を支援するシステムが提案されている(特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第5233159号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
講演やプレゼンテーション等において、話者が聴衆に向けて話をする時、話者は聴衆の興味や理解度を推測するために、聴衆を見て、その人の興味や理解度等の状態を推測し把握しながら話すことがある。しかし、聴衆の人数が多くなると、聴衆全体を見ることができないため、聴衆全体の興味や理解度を把握できなくなる。
【0005】
上記特許文献1に記載の技術は、プレゼンテーションの話者に、聴衆の関心対象およびスライドの注目度合いの分布情報を示すことで、話者の聴衆状態把握を支援している。
【0006】
講演やプレゼンテーション等において、話者は話しながら、瞬時に、聴衆の状態を推測し把握する必要がある。そのためには、話者が通常行う、聴衆を構成する各人を見て興味や理解度等の状態を推測する行為を変えずに、聴衆の状態を推測し把握できる必要がある。
【0007】
本発明は、上記に鑑みてなされたものであり、講演者が聴衆の状態をより容易に把握することを目的とする。
【課題を解決するための手段】
【0008】
本発明にかかる集団状態推定装置は、複数の人を撮影した映像を入力する映像取得手段と、前記映像から前記複数の人それぞれの状態を推定する人物状態推定手段と、前記複数の人それぞれの状態に基づいて前記複数の人の集団の状態を推定する集団状態推定手段と、前記集団の状態に応じて、前記複数の人の集団の状態を示すアバターを生成するアバター生成手段と、を有し、前記人物状態推定手段は、前記映像から前記複数の人の顔を検出する顔検出手段と、前記複数の人の顔のそれぞれについて、顔の表情を計測する表情計測手段と、前記複数の人の顔のそれぞれについて、顔の視線方向を計測する視線計測手段と、前記複数の人の顔のそれぞれについて、頷きを計測する頷き計測手段と、前記表情計測手段、前記視線計測手段、前記頷き計測手段の計測結果に基づいて前記複数の人それぞれの状態を推定する個人状態推定手段と、を有することを特徴とする。
【0009】
本発明にかかる集団状態推定方法は、コンピュータが実行する集団状態推定方法であって、複数の人を撮影した映像を入力するステップと、前記映像から前記複数の人それぞれの状態を推定するステップと、前記複数の人それぞれの状態に基づいて前記複数の人の集団の状態を推定するステップと、前記集団の状態に応じて、前記複数の人の集団の状態を示すアバターを生成するステップと、を有し、前記複数の人それぞれの状態を推定するステップは、前記映像から前記複数の人の顔を検出するステップと、前記複数の人の顔のそれぞれについて、顔の表情を計測するステップと、前記複数の人の顔のそれぞれについて、顔の視線方向を計測するステップと、前記複数の人の顔のそれぞれについて、頷きを計測する頷きステップと、前記顔の表情、前記顔の視線、前記頷きの計測結果に基づいて前記複数の人それぞれの状態を推定するステップと、を有することを特徴とする。
【0010】
本発明にかかる集団状態推定プログラムは、上記集団状態推定装置の各部としてコンピュータを動作させることを特徴とする。
【発明の効果】
【0011】
本発明によれば、講演者が聴衆の状態をより容易に把握することができる。
【図面の簡単な説明】
【0012】
図1】本実施形態の集団状態推定装置を含む集団状態推定システムの構成を示す図である。
図2】本実施形態の集団状態推定装置の構成を示す機能ブロック図である。
図3】表情計測結果データの例を示す図である。
図4】視線計測結果データの例を示す図である。
図5】頷き計測結果データの例を示す図である。
図6】状態推定部の構成を示す機能ブロック図である。
図7】集団状態推定部の生成した集団状態を示すデータの例を示す図である。
図8】本実施形態の集団状態推定装置の処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0013】
以下、本発明の実施の形態について図面を用いて説明する。
【0014】
図1は、本実施形態の集団状態推定装置1を含む集団状態推定システムの構成を示す図である。集団状態推定システムは、話者が聴衆の前でプレゼンテーションを行う会場などに配置され、話者が聴衆の状態(例えば理解度や興味の対象など)を把握するために用いられる。
【0015】
図1に示す集団状態推定システムは、集団状態推定装置1、カメラ装置2、及びアバター提示装置3を含む。集団状態推定装置1は、カメラ装置2およびアバター提示装置3と有線または無線により接続される。
【0016】
カメラ装置2は、聴衆を撮影し、撮影した映像を集団状態推定装置1へ送信する。カメラ装置2は、聴衆全体を撮影できる位置に配置される。カメラ装置2は、聴衆の一部のみを撮影できる位置に配置してもよい。複数台のカメラ装置2を用いて聴衆全体を撮影してもよい。
【0017】
集団状態推定装置1は、聴衆を撮影した映像を解析して聴衆全体の状態を推定し、聴衆全体の状態に応じたアバターのデータを作成してアバター提示装置3へ送信する。アバターは、聴衆全体の状態を集約して表現するキャラクタであり、本実施形態では聴衆全体の状態を1つのアバターで表現する。聴衆の一部の状態をアバターで表現してもよいし、聴衆全体を複数のアバターで表現してもよい。例えば、聴衆全体を幾つかの集団に分割し、各集団の状態を複数のアバターのそれぞれで表現してもよい。
【0018】
アバター提示装置3は、聴衆全体の状態に応じたアバターを話者に提示する。アバター提示装置3は、話者が視認できる位置に配置される。話者は、アバター提示装置3に表示されたアバターにより聴衆の状態(理解度や興味の対象など)を判断しながら、プレゼンテーションを進める。
【0019】
次に、本実施形態の集団状態推定装置1について説明する。
【0020】
図2は、本実施形態の集団状態推定装置1の構成を示す機能ブロック図である。集団状態推定装置1は、映像取得部11、顔検出部12、表情計測部13、視線計測部14、頷き計測部15、状態推定部16、及び集約アバター生成部17を備える。集団状態推定装置1が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは集団状態推定装置1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。
【0021】
集団状態推定装置1が備える各部を複数の装置に分けてもよいし、集団状態推定装置1が備える各部の全部または一部をクラウドで実現してもよい。集団状態推定装置1がカメラ機能およびアバター提示機能を備えてもよい。
【0022】
映像取得部11は、カメラ装置2から映像データを受け取り、映像データのフレームごとの画像データを取得する。映像取得部11は、画像データおよびその時刻情報(絶対時刻または相対時刻またはフレーム番号でもよい)を顔検出部12へ渡す。本実施形態では、聴衆の状態をリアルタイムに推定してアバターを表示するが、映像取得部11は、プレゼンテーション時に聴衆を撮影しておいた映像を記憶装置から受信してもよい。撮影済の映像から聴衆の状態を推定してアバターを表示することで、話者がプレゼンテーションを見返す際に聴衆の反応を確認することができる。
【0023】
顔検出部12は、画像に含まれる人間の顔を検出し、検出した顔に識別子(顔ID)を付与する。顔検出部12は、時刻情報、検出した顔の数、及び検出した顔を囲む矩形画像データと顔IDの組み合わせを表情計測部13、視線計測部14、及び頷き計測部15に渡す。画像から複数の顔が検出された場合は、矩形画像データと顔IDの組み合わせは複数となる。顔検出部12が各計測部に渡す矩形画像データは、矩形に切り出した画像データの実体でもよいし、その画像データの格納場所を示すポインタでもよい。あるいは、映像取得部11が取得した画像データとその画像データにおける矩形の座標情報の組み合わせでもよい。
【0024】
検出した顔に顔IDを付与する際には、過去のフレームの顔の位置と、処理中フレームの顔の位置との距離がある閾値以内の場合は同一の顔IDを付与する。画像から顔を検出する手法としては、例えば、Haar―Like特徴量を用いる方法(Paul Viola, Michael Jones, "Rapid Object Detection using a Boosted Cascade of Simple Features", Computer Vision and Pattern Recognition, 2001. CVPR 2001.)が知られている。本実施形態においても、この方法を利用できる。
【0025】
表情計測部13は、時刻情報、検出した顔の数、及び矩形画像データと顔IDの組み合わせを受け取り、矩形画像データのそれぞれを処理して矩形画像データごとに矩形内の顔の表情を計測する。顔画像から表情を計測する手法としては、例えば、ニューラルネットワークを用いる方法(Hiroshi KOBAYASHI, Fumio HARA, The Recognition of Basic Facial Expressions by Neural Network, Transactions of the Society of Instrument and Control Engineers, Released March 27, 2009, Online ISSN 1883-8189, Print ISSN 0453-4654)が知られている。本実施形態においても、この方法を利用してよい。
【0026】
表情計測結果データの形式としては、図3に示すように、複数種類の表情分類がそれぞれスコアを持つ形式とする。図3の例では、表情を8つに分類し、8つの表情分類のそれぞれにスコアを付与している。時刻情報、検出した顔の数、顔IDと表情スコアの組み合わせを状態推定部16に渡す。検出した顔の数が複数の場合は、顔IDと表情スコアの組み合わせの数も複数となる。
【0027】
視線計測部14は、時刻情報、検出した顔の数、及び矩形画像データと顔IDの組み合わせを受け取り、矩形画像データのそれぞれを処理して矩形画像データごとに矩形内の顔の視線方向を計測する。顔画像から視線方向を計測する手法としては、例えば、顔の特徴点を検出・追跡することにより推定する方法(山添 大丈, 内海 章, 安部 伸治, 「顔特徴点追跡による単眼視線推定」, 映像情報メディア学会誌 61 巻 (2007) 12 号 p. 1750-1755)が知られている。本実施形態においても、この方法を利用してよい。
【0028】
視線計測結果データの形式としては、図4に示すように、撮影空間内に定義した座標系における両目の中点の座標(視点座標)と視線方向を示す3次元のベクトルの組み合わせとする。時刻情報、検出した顔の数、顔IDと視点座標と視線方向の組み合わせを状態推定部16に渡す。検出した顔の数が複数の場合は、顔IDと視点座標と視線方向の組み合わせの数も複数となる。
【0029】
頷き計測部15は、時刻情報、検出した顔の数、及び矩形画像データと顔IDの組み合わせを受け取り、同一顔IDの矩形画像データについて過去のフレームの矩形画像データも合わせて参照し、矩形内の顔の動きを計測する。頷き計測部15は、顔の動きの計測に必要な過去の矩形画像データあるいは矩形画像データから検出した顔の向きを一時的に保持しておく。顔映像から頷きを検出する方法としては、例えば、顔の特徴点を検出することにより顔の向きを推定し、過去のフレームの顔の向きを参照することで、上下方向の速度および距離を求め、ある閾値以上であれば、頷き中とみなすことができる。
【0030】
頷き計測結果データの形式としては、図5に示すように、時刻情報、検出した顔の数、顔IDと頷き状態であるか否かの組み合わせ、頷き状態である場合は頷き開始時刻情報を状態推定部16に渡す。検出した顔の数が複数の場合は、顔IDと頷き状態であるか否かの組み合わせの数も複数となる。
【0031】
状態推定部16は、画像から検出した顔のそれぞれについて計測した表情、視線、及び頷きの状態を受け取り、各状態から各個人の状態を推定し、各個人の状態をまとめて聴衆全体の状態を推定する。
【0032】
図6に、状態推定部16の機能ブロック図を示す。状態推定部16は、表情データ受信部161、視線データ受信部162、頷きデータ受信部163、視対象推測部164、個人状態推定部165、及び集団状態推定部166を備える。
【0033】
表情データ受信部161は、表情計測部13から時刻情報、検出した顔の数、顔IDと表情スコアの組み合わせを受け取り、必要に応じてデータ形式を変換して、時刻情報と顔IDをキーとして表情スコアの組み合わせと検出した顔の数を個人状態推定部165に渡す。
【0034】
視線データ受信部162は、視線計測部14から時刻情報、検出した顔の数、顔IDと視点座標と視線方向の組み合わせを受け取り、必要に応じてデータ形式を変換して、時刻情報と顔IDをキーとして視点座標と視線方向の組み合わせと検出した顔の数を視対象推測部164に渡す。
【0035】
頷きデータ受信部163は、頷き計測部15から時刻情報、検出した顔の数、顔IDと頷き状態と頷き開始時刻情報の組み合わせを受け取り、必要に応じてデータ形式を変換して、時刻情報と顔IDをキーとして頷き状態と頷き開始時刻情報の組み合わせと検出した顔の数とを個人状態推定部165に渡す。
【0036】
視対象推測部164は、視線データ受信部162から時刻情報と顔IDをキーとして視点座標と視線方向の組み合わせと検出した顔の数を受け取り、聴衆の居る空間情報と照らし合わせることで、検出した顔のそれぞれの視対象を推測する。聴衆の居る空間において、聴衆が見ていることを検知したい物体の位置や大きさを3次元座標の情報で予め設定しておく。視点座標を始点として視線方向を指すベクトルが、物体と交差する場合はその物体を見ているとみなす。物体としては例えば、話者や話者が表示される画面、資料が表示されるスクリーンなどがある。視対象推測部164は、時刻情報と顔IDをキーとして視対象物体と検出した顔の数を個人状態推定部165に渡す。視対象物体には予め設定した物体の名称(例えば「話者」「スクリーン」など)を記載する。視対象物体がない場合は「なし」とする。
【0037】
個人状態推定部165は、表情データ受信部161、視対象推測部164、及び頷きデータ受信部163から時刻情報と顔IDをキーとして表情スコア、視対象物体、及び頷き状態のデータを受け取り、同じ時刻で同じ顔IDのデータが揃ったときに、その時刻のその顔IDの状態推定処理を行う。シンプルな実装としては、時刻情報と顔IDと検出した顔の数をキーとして、表情スコア、視対象物体、頷き状態と頷き開始時刻情報の組み合わせの形式にデータ変換する方法がある。個人状態推定部165は、時刻情報と顔IDと検出した顔の数をキーとして、表情スコア、視対象物体、及び頷き状態と頷き開始時刻情報の組み合わせを集団状態推定部166に渡す。
【0038】
集団状態推定部166は、時刻情報と顔IDと検出した顔の数をキーとして、表情スコア、視対象物体、頷き状態と頷き開始時刻情報の組み合わせを受け取り、ある時刻に検出した顔の数と、受け取った情報の中で同一時刻の顔IDの数が一致したときに、その時刻の集団状態推定処理を行う。具体的には、集団状態推定部166は、同一時刻のデータが揃うと、表情スコアの平均を求め、各物体が見られている合計数を求め、頷き状態の割合を求める。表情スコアの形式が、図3で示したように、複数種類の表情分類のそれぞれがスコアを持つ形式であれば、同一時刻の各表情分類のスコアを足し合わせて、同一時刻に検出した顔の数で割る。図7に、集団状態推定部166の生成した集団状態を示すデータの例を示す。図7のデータは、時刻情報、検出顔数、表情スコア、視対象物体、及び頷き状態の割合の情報を含む。集団状態推定部166は、集団状態を示すデータを集約アバター生成部17に渡す。
【0039】
集約アバター生成部17は、ある時刻における集団状態を示すデータを受け取り、アバターを生成する。本実施形態では、少なくとも顔を含むアバターを3次元CGで描画する。アバターは、全身、上半身、あるいは顔だけであってもよい。
【0040】
集約アバター生成部17は、表情スコアをもとに、スコア値が最大の表情分類を判定し、その表情分類の顔の画像データを読み出して、アバターのモデルの顔のテクスチャーとする。アバターの顔のテクスチャーとなる画像データは表情分類ごとに予め用意しておく。
【0041】
集約アバター生成部17は、視対象物体をもとに、見られている数が最大の物体を判定し、物体に応じた視線方向を向くように、アバターのモデルの向きを変形させる。物体に応じた視線方向はあらかじめ設定しておく。例えば、物体が話者であれば正面、物体がスクリーンであれば右上45度とする。
【0042】
集約アバター生成部17は、頷き状態の割合をもとに、頷きの角度を判定し、アバターのモデルをその角度だけ下に向ける。
【0043】
集約アバター生成部17は、以上のように生成したアバターの3DCGデータをアバター提示装置3に渡す。
【0044】
アバター提示装置3は、受け取ったアバターの3DCGデータをレンダリングしてディズプレイ等の画面表示装置に表示する。アバター提示装置3は、人型のロボットでもよい。アバター提示装置3がロボットの場合は、集団状態推定装置1はロボットの制御(例えば表情の制御、顔の向きの制御)に必要なデータを生成する。
【0045】
次に、本実施形態の集団状態推定装置1の処理の流れについて説明する。
【0046】
図8は、本実施形態の集団状態推定装置1の処理の流れを示すフローチャートである。
【0047】
映像取得部11は、カメラ装置2から映像を受け取り、映像データのフレームごとの画像データを取得する(ステップS11)。
【0048】
顔検出部12は、画像に含まれる人間の顔を検出する(ステップS12)。
【0049】
表情計測部13は、ステップS12で検出された顔ごとに、顔の表情を計測する(ステップS13)。
【0050】
視線計測部14は、ステップS12で検出された顔ごとに、視線方向を計測する(ステップS14)。
【0051】
頷き計測部15は、ステップS12で検出された顔ごとに、頷き状態を計測する(ステップS15)。
【0052】
ステップS13〜S15の処理は、並列して実行してもよいし、実行する順序を変えてもよい。
【0053】
個人状態推定部165は、同じ時刻の同じ顔に対するステップS13〜S15の計測結果が揃うと、その時刻におけるその顔の状態を推定する(ステップS16)。
【0054】
集団状態推定部166は、同じ時刻の画像から検出された全ての顔に対するステップS16の推定結果が揃うと、その時刻における集団の状態を推定する(ステップS17)。
【0055】
集約アバター生成部17は、ステップS17で推定した集団の状態に応じたアバターのデータを作成する(ステップS18)。
【0056】
アバター提示装置3は、アバターのデータに基づくアバターを話者に提示する(ステップS19)。
【0057】
以上説明したように、本実施形態の集団状態推定装置1は、映像取得部11が聴衆を撮影した映像を受け取り、顔検出部12が映像に含まれる人間の顔を検出し、表情計測部13、視線計測部14、及び頷き計測部15が、検出した顔の表情、視線、及び頷き状態を計測し、個人状態推定部165が計測した表情、視線、及び頷き状態に基づいて各顔の状態を推定し、集団状態推定部166が各顔の状態に基づいて聴衆全体の状態を推定し、集約アバター生成部17が聴衆全体の状態に基づいてアバターを生成し、アバター提示装置3が生成されたアバターを表示する。このように、本実施形態の集団状態推定装置1は、映像内の聴衆の反応をまとめて少人数のアバターとして提示するので、講演者が聴衆全体の状態をより容易に把握できる。
【符号の説明】
【0058】
1…集団状態推定装置
11…映像取得部
12…顔検出部
13…表情計測部
14…視線計測部
15…頷き計測部
16…状態推定部
161…表情データ受信部
162…視線データ受信部
163…頷きデータ受信部
164…視対象推測部
165…個人状態推定部
166…集団状態推定部
17…集約アバター生成部
2…カメラ装置
3…アバター提示装置
図1
図2
図3
図4
図5
図6
図7
図8