(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-25
(45)【発行日】2023-10-03
(54)【発明の名称】検出方法、通知方法、検出プログラムおよび通知プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20230926BHJP
G06T 7/20 20170101ALI20230926BHJP
【FI】
G06T7/00 660A
G06T7/20 300B
(21)【出願番号】P 2019220364
(22)【出願日】2019-12-05
【審査請求日】2022-08-09
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】斎藤 淳哉
(72)【発明者】
【氏名】村瀬 健太郎
【審査官】山田 辰美
(56)【参考文献】
【文献】特開2005-277462(JP,A)
【文献】特開2014-206903(JP,A)
【文献】特表2005-531080(JP,A)
【文献】特開2002-149145(JP,A)
【文献】特開2005-063163(JP,A)
【文献】特開2018-196922(JP,A)
【文献】特開2018-032164(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
対象人物の撮影画像を順次取得し、
順次取得した前記対象人物の撮影画像それぞれの顔画像から前記撮影画像の撮影時における前記対象人物の感情を推定し、
推定した前記感情がネガティブの感情である第1の時間区間を特定し、
取得した前記対象人物の撮影画像それぞれに基づいて、前記第1の時間区間において
前記対象人物が目を凝らす動作をしているか否かを判定し、
前記第1の時間区間内において前記
目を凝らす動作をしていると判定された場合は、前記第1の時間区間に対応する推定した前記感情をネガティブでない感情に変更する、
処理をコンピュータが実行することを特徴とする検出方法。
【請求項2】
前記対象人物とは異なる第1の人物の前記対象人物に対する説明内容を取得し、
取得した前記対象人物に対する説明内容と、推定した前記感情とを対応付けて記憶し、
前記第1の時間区間内において前記特定の動作をしていないと判定された場合は、対応付けて記憶した情報より前記感情がネガティブである時間区間に対応する説明内容を抽出し、
抽出した前記説明内容を前記第1の人物に通知する、
処理をさらに前記コンピュータが実行することを特徴とする請求項1に記載の検出方法。
【請求項3】
前記対象人物とは異なる第1の人物が前記対象人物に対して説明する際の音声情報を前記第1の人物が利用する第1の装置から取得し、
取得した前記対象人物に対する音声情報と、推定した前記感情とを対応付けて記憶し、
前記第1の時間区間内において前記特定の動作をしていないと判定された場合は、対応付けて記憶した情報より前記感情がネガティブである時間区間に対応する音声情報を抽出し、
抽出した前記音声情報を前記第1の人物に通知する、
処理をさらに前記コンピュータが実行することを特徴とする請求項1に記載の検出方法。
【請求項4】
前記音声情報の説明に関連する資料を前記対象人物が利用する第2の装置の表示画面に表示させる処理をさらに前記コンピュータが実行し、
前記判定する処理は、前記対象人物が前記第2の装置の表示画面に表示された資料を見ていることに応じた動作をしているか否かを判定する処理を含み、
前記変更する処理は、連続してネガティブの感情であると判定された時間区間内において前記資料を見ていることに応じた動作をしていると判定された場合は、当該時間区間に対応する推定した前記感情をネガティブでない感情に変更する処理を含む、
ことを特徴とする請求項3に記載の検出方法。
【請求項5】
前記判定する処理は、前記対象人物と相対する表示画面に対して前記対象人物が画面方向に移動していること、もしくは前記対象人物が前記表示画面と平行する方向に移動していることの少なくとも一方に基づき、前記目を凝らす動作をしているか否かを判定する処理を含む、
ことを特徴とする請求項
1に記載の検出方法。
【請求項6】
第1の人物が第2の人物に対して説明する際の音声情報を、前記第1の人物が利用する第1の装置から取得し、
前記音声情報の説明に関連する資料を前記第2の人物が利用する第2の装置の表示画面に表示させるとともに、前記第2の装置が撮影した前記第2の人物の撮影画像を取得し、
取得した前記第2の人物の撮影画像の顔画像から感情を推定し、
推定した前記感情がネガティブの感情である時間区間を特定し、
取得した前記第2の人物の撮影画像それぞれに基づいて、前記時間区間において前記第2の人物が目を凝らす動作をしているか否かを判定し、
前記時間区間内において前記目を凝らす動作をしていると判定された場合は、前記時間区間に対応する推定した前記感情をネガティブでない感情に変更し、
前記第1の装置から取得した音声情報の中から、特定した前記時間区間に対応する音声情報を抽出し、
抽出した前記音声情報を前記第1の装置へ通知する、
処理をコンピュータが実行することを特徴とする通知方法。
【請求項7】
対象人物の撮影画像を順次取得し、
順次取得した前記対象人物の撮影画像それぞれの顔画像から前記撮影画像の撮影時における前記対象人物の感情を推定し、
推定した前記感情がネガティブの感情である第1の時間区間を特定し、
取得した前記対象人物の撮影画像それぞれに基づいて、前記第1の時間区間において
前記対象人物が目を凝らす動作をしているか否かを判定し、
前記第1の時間区間内において前記
目を凝らす動作をしていると判定された場合は、前記第1の時間区間に対応する推定した前記感情をネガティブでない感情に変更する、
処理をコンピュータに実行させることを特徴とする検出プログラム。
【請求項8】
第1の人物が第2の人物に対して説明する際の音声情報を、前記第1の人物が利用する第1の装置から取得し、
前記音声情報の説明に関連する資料を前記第2の人物が利用する第2の装置の表示画面に表示させるとともに、前記第2の装置が撮影した前記第2の人物の撮影画像を取得し、
取得した前記第2の人物の撮影画像の顔画像から感情を推定し、
推定した前記感情がネガティブの感情である時間区間を特定し、
取得した前記第2の人物の撮影画像それぞれに基づいて、前記時間区間において前記第2の人物が目を凝らす動作をしているか否かを判定し、
前記時間区間内において前記目を凝らす動作をしていると判定された場合は、前記時間区間に対応する推定した前記感情をネガティブでない感情に変更し、
前記第1の装置から取得した音声情報の中から、特定した前記時間区間に対応する音声情報を抽出し、
抽出した前記音声情報を前記第1の装置へ通知する、
処理をコンピュータに実行させることを特徴とする通知プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、検出技術に関する。
【背景技術】
【0002】
近年、商談や会議などでは、Web会議等を活用して遠隔で実施することがある。このように、商談や会議を遠隔で実施する場合、互いのディスプレイを介して資料等を共有して説明を進める事となるため、説明者は相手の顔に注意を払いにくく、相手の感情を検出しづらくなる。したがって、説明者においては、相手の感情を検出して提示する技術が重要なものとなる。相手の感情を検出する従来技術としては、カメラの画像をニューラルネットワークに入力して感情を検出する技術が知られている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の従来技術では、相手の感情が不快(ネガティブ)である時間区間の検出精度が低いという問題がある。それに伴い、相手の感情が連続してネガティブであることを説明者が知ることが困難な場合がある。
【0005】
1つの側面では、不快な感情を検出することを支援できる検出方法、通知方法、検出プログラムおよび通知プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
第1の案では、検出方法は、取得する処理と、推定する処理と、特定する処理と、判定する処理と、変更する処理とをコンピュータが実行する。取得する処理は、対象人物の撮影画像を順次取得する。推定する処理は、順次取得した対象人物の撮影画像それぞれの顔画像から撮影画像の撮影時における対象人物の感情を推定する。特定する処理は、推定した感情がネガティブの感情である第1の時間区間を特定する。判定する処理は、取得した対象人物の撮影画像それぞれに基づいて、第1の時間区間内において特定の動作をしているか否かを判定する。変更する処理は、第1の時間区間内において特定の動作をしていると判定された場合は、時間区間に対応する推定した感情をネガティブでない感情に変更する。
【発明の効果】
【0007】
不快な感情の検出を支援できる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施形態の概要を説明する説明図である。
【
図2】
図2は、第1の実施形態にかかる判定装置の機能構成例を示すブロック図である。
【
図3】
図3は、第1の実施形態にかかる判定装置の動作例を示すフローチャートである。
【
図4】
図4は、フラグの付与処理の一例を示すフローチャートである。
【
図5A】
図5Aは、画面方向の変動判定処理を例示するフローチャートである。
【
図5B】
図5Bは、顔と画面との距離の算出を説明する説明図である。
【
図6A】
図6Aは、横方向の変動判定処理を例示するフローチャートである。
【
図6B】
図6Bは、画面中心に対する顔の横方向距離の算出を説明する説明図である。
【
図7】
図7は、第2の実施形態にかかるシステム構成例を示すブロック図である。
【
図8】
図8は、第2の実施形態にかかるシステムの動作例を示すフローチャートである。
【
図9】
図9は、感情記憶部の記憶例を説明する説明図である。
【
図11】
図11は、第3の実施形態にかかるシステムの動作例を示すフローチャートである。
【
図12】
図12は、感情記憶部の記憶例を説明する説明図である。
【
図14】
図14は、プログラムを実行するコンピュータの一例を示すブロック図である。
【発明を実施するための形態】
【0009】
以下、図面を参照して、実施形態にかかる検出方法、通知方法、検出プログラムおよび通知プログラムを説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する検出方法、通知方法、検出プログラムおよび通知プログラムは、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。
【0010】
図1は、実施形態の概要を説明する説明図である。
図1に示すように、本実施形態では、表示画面2に説明資料などを表示してWeb会議等を行う人を対象人物1とし、カメラ3で対象人物1を順次撮影した撮影画像により対象人物1の感情を検出するケースを例示して説明する。
【0011】
例えば、対象人物1の表情では、同様な表情となる場合であっても、対象人物1の表情と感情とがリンクして感情がネガティブであるケースと、感情がネガティブでないケース(表情と感情とがリンクしないケース)がある。具体的には、小さい文字をみようと目を凝らしているときは、表情と感情とがリンクしないケースに当てはまり、感情がネガティブでなくともネガティブであると検出されることがある。このようなことから、対象人物1を順次撮影した撮影画像により対象人物1の感情を検出する場合には、対象人物1の不快(ネガティブ)な感情の検出において、検出精度が低くなることがある。
【0012】
そこで、本実施形態では、対象人物1を順次撮影した撮影画像により感情がネガティブであるとした時間区間T1~T3において、対象人物1と表示画面2との距離が変化する、顔が横に動かないなどの目を凝らす身体動作C1が含まれる場合には、その時間区間はネガティブな感情でないものとする。これにより、目を凝らす身体動作C1が含まれる時間区間T1、T2については、対象人物1の表情からは感情がネガティブであると判定されたとしても、感情がネガティブでないものと検出することができる。したがって、本実施形態では、対象人物1の感情が連続して不快(ネガティブ)である時間区間の検出精度を高めることができる。
【0013】
(第1の実施形態)
図2は、第1の実施形態にかかる判定装置の機能構成例を示すブロック図である。
【0014】
図2に示すように、判定装置10は、例えばカメラ3による対象人物1の撮影画像を受け付けて対象人物1の感情の判定結果を出力するPC(Personal Computer)などの情報処理装置である。判定装置10は、動画取得部11、表情判定部12、凝視動作判定部13および判定結果決定部14を有する。
【0015】
動画取得部11は、カメラ3が撮影した対象人物1の撮影画像(以後、カメラ画像とも呼ぶ)を順次取得する処理部である。対象人物1のカメラ画像は、例えば所定のフレームレート(例えば30fps)で撮影した動画像である。動画取得部11は、カメラ3より順次取得した対象人物1のカメラ画像(動画像)を表情判定部12および凝視動作判定部13へ出力する。
【0016】
表情判定部12は、順次取得した対象人物1のカメラ画像(動画像)それぞれについて、対象人物1の感情が不快(ネガティブ)に見える表情であるか否かを判定する処理部である。
【0017】
具体的には、表情判定部12は、対象人物1のカメラ画像それぞれ(動画像の各フレーム画像)をニューラルネットワークに入力して表情を検出する従来技術などにより、カメラ画像それぞれにおいて対象人物1が不快(ネガティブ)な感情を有する表情としているか否かを判定する。表情判定部12は、対象人物1が不快(ネガティブ)な感情を有する表情である場合はTRUE、対象人物1が不快(ネガティブ)な感情を有さない表情である場合はFALSEとして、対象人物1のカメラ画像それぞれの判定結果を判定結果決定部14に出力する。
【0018】
凝視動作判定部13は、順次取得した対象人物1のカメラ画像それぞれ(動画像の各フレーム)について、対象人物1が目を凝らす身体動作C1をしているか否かを判定する処理部である。
【0019】
具体的には、凝視動作判定部13は、処理対象のカメラ画像と、時間的に前後するカメラ画像(前後のフレーム)との差分をもとに、対象人物1と表示画面2との距離が変化する、顔が横に動かない等の目を凝らす身体動作C1に対応する所定の動作をしているか否かを判定する。
【0020】
より具体的には、凝視動作判定部13は、対象人物1と表示画面2との距離が変化している、もしくは顔が横に動かないと判定したとき、対象人物1が目を凝らす身体動作C1をしているもの(TRUE)と判定する。なお、凝視動作判定部13は、対象人物1と表示画面2との距離が変化している、もしくは顔が横に動かないと判定しなかったとき、対象人物1が目を凝らす身体動作C1をしていないもの(FALSE)と判定する。次いで、凝視動作判定部13は、対象人物1のカメラ画像それぞれの判定結果を判定結果決定部14に出力する。
【0021】
判定結果決定部14は、表情判定部12および凝視動作判定部13の判定結果をもとに、対象人物1のカメラ画像それぞれにおける対象人物1の感情の判定結果を決定し、決定した判定結果を対象人物1の感情の検出結果として出力する処理部である。
【0022】
具体的には、判定結果決定部14は、表情判定部12の判定結果より、対象人物1の感情が不快(ネガティブ)に見える表情であると判定されたとき、対象人物1の感情はネガティブであると判定する。ただし、判定結果決定部14は、凝視動作判定部13の判定結果をもとに、目を凝らす身体動作C1が起きていると判定された時間区間を含む、連続してネガティブに見える表情と判定された時間区間については、対象人物1の感情はネガティブな感情ではないものとして判定を変更する。次いで、判定結果決定部14は、対象人物1のカメラ画像それぞれに対応する、各時刻における対象人物1の感情の判定結果を、対象人物1の感情の検出結果として出力する。
【0023】
図3は、第1の実施形態にかかる判定装置の動作例を示すフローチャートである。
【0024】
図3に示すように、判定装置10における処理が開始されると、動画取得部11は、カメラ3より対象人物1を撮影した入力動画を取得し(S1)、入力動画のフレーム画像それぞれを表情判定部12および凝視動作判定部13へ出力する。
【0025】
次いで、表情判定部12は、入力動画における時間フレームごとに、フレーム画像より対象人物1の表情を判定し、ネガティブに見える表情であるか否かを示すフラグを付与する(S2)。具体的には、表情判定部12は、時間フレームごとの判定結果を格納する判定結果テーブル16に、対象人物1が不快(ネガティブ)な感情を有する表情である場合はTRUEを、対象人物1が不快(ネガティブ)な感情を有さない表情である場合はFALSEを格納する。
【0026】
次いで、凝視動作判定部13は、入力動画における時間フレームごとに、フレーム画像より対象人物1の動作を判定し、目を凝らす身体動作C1をしているか否かを示すフラグを付与する(S3)。具体的には、凝視動作判定部13は、対象人物1が目を凝らす身体動作C1をしている場合はTRUEを、対象人物1が目を凝らす身体動作C1をしていない場合はFALSEを判定結果テーブル16に格納する。
【0027】
ここで、目を凝らす身体動作C1をしているか否かを示すフラグの付与処理(S3)の詳細を説明する。
図4はフラグの付与処理の一例を示すフローチャートである。
【0028】
図4に示すように、処理が開始されると、凝視動作判定部13は、時間フレームごとのループ処理を実行する(S10~S15)。ここで、ループ処理において処理対象となる現フレームをiとする。
【0029】
各ループ処理において、凝視動作判定部13は、現フレーム(i)におけるカメラ画像を取得する(S11)。次いで、凝視動作判定部13は、対象人物1に相対する表示画面2への対象人物1の変動(画面方向の変動)を判定する判定処理(S12)と、表示画面2と平行する方向(横方向)への対象人物1の変動を判定する判定処理(S13)とを実行する。
【0030】
画面方向の変動を判定する判定処理(S12)では、凝視動作判定部13は、フレーム画像ごとに、対象人物1の顔とカメラ3との距離を算出し、算出した距離の履歴を保存しておく。次いで、凝視動作判定部13は、現フレーム(i)の距離と、所定数(N)前のフレームの距離との割合が閾値以下/閾値以上であった場合に対象人物1の顔の位置が画面方向に変動していると判定する。
【0031】
図5Aは、画面方向の変動判定処理を例示するフローチャートである。
図5Bは、顔と画面との距離の算出を説明する説明図である。
【0032】
図5Aに示すように、S12において、凝視動作判定部13は、フレーム画像から表示画面2と相対する相手(対象人物1)の顔(目)と、表示画面2との距離を算出する(S20)。
【0033】
例えば、カメラ3の位置と表示画面2の位置はほぼ同じであり、相手の目はカメラ3のほぼ正面にあるものと仮定する。このような仮定のもと、凝視動作判定部13は、例えば顔認証API(Application Programming Interface)の1つであるOpenFaceでフレーム画像より検出した両目の二次元平面座標から次の式(1)より、現フレームにおける、画面と顔の距離diを算出する。
【0034】
【0035】
図5Bに示すように、式(1)におけるEは、対象人物1の両目の中心から一方の目までの距離である。また、Dは、視点Iからカメラ3の投影面Pまでの焦点距離である。また、x
i
Rは、フレーム(i)の右目のx座標であり、x
i
Lは、フレーム(i)の左目のx座標である。また、y
i
Rは、フレーム(i)の右目のy座標であり、y
i
Lは、フレーム(i)の左目のy座標である。
【0036】
式(1)に示すように、凝視動作判定部13は、フレーム画像にける対象人物1の両目の二次元平面座標より投影面Pにおける、両目の中心から一方の目までの距離riを求めた上で、E、Dの値よりdiの値を算出する。なお、E、Dは後の式(2)の算出時に消えるので、仮にE=D=1としてもよい。
【0037】
次いで、凝視動作判定部13は、相手(対象人物1)の顔と表示画面2の距離の時間変化をもとに、顔と表示画面2の距離が時間変動しているか否かを判定する(S21)。
【0038】
例えば、凝視動作判定部13は、各フレームで算出した距離(di)の履歴を保存しておく。次いで、凝視動作判定部13は、次の式(2)より、現フレームの距離(di)とNフレーム前の距離(di-N)の割合を求める。
【0039】
【0040】
次いで、凝視動作判定部13は、求めた距離の割合が閾値以下もしくは閾値以上であった場合、変動していると判定する。
【0041】
図4に戻り、横方向の変動を判定する判定処理(S13)では、凝視動作判定部13は、フレーム画像ごとに、横方向について相手(対象人物1)の顔の中心と、カメラ3の中心との距離を算出し、算出した距離の履歴を保存しておく。次いで、凝視動作判定部13は、現フレーム(i)の距離と、所定数(N)前のフレームの距離との割合が閾値以下/閾値以上であった場合に対象人物1の顔の位置が横方向に変動していると判定する。
【0042】
図6Aは、横方向の変動判定処理を例示するフローチャートである。
図6Bは、画面中心に対する顔の横方向距離の算出を説明する説明図である。
【0043】
図6Aに示すように、S13において、凝視動作判定部13は、フレーム画像から、表示画面2と平行する横方向について、相手(対象人物1)の顔の中心と画面中心の距離を算出する(S30)。
【0044】
例えば、カメラ3の位置と表示画面2の位置はほぼ同じであり、相手の顔と表示画面2との距離はほぼ変化しないものと仮定する。このような仮定のもと、凝視動作判定部13は、例えば顔認証APIの1つであるOpenFaceでフレーム画像より検出した両目の二次元平面座標から次の式(3)より、現フレームにおける、画面の中心と両目の中心の距離wiを算出する。
【0045】
【0046】
図6Bに示すように、式(3)におけるDは、視点Iからカメラ3の投影面Pまでの焦点距離である。また、x
i
Rは、フレーム(i)の右目のx座標であり、x
i
Lは、フレーム(i)の左目のx座標である。また、y
i
Rは、フレーム(i)の右目のy座標であり、y
i
Lは、フレーム(i)の左目のy座標である。また、x
Cは、画面中心のx座標である。また、dは、視点Iから対象人物1の顔までの距離であり、一定と仮定する。
【0047】
式(3)に示すように、凝視動作判定部13は、フレーム画像にける対象人物1の両目の二次元平面座標などにより、投影面Pにおける、画面の中心から両目の中心までの距離viを求めた上で、D、dの値よりwiの値を算出する。なお、D、dは後の式(4)の算出時に消えるので、仮にD=d=1としてもよい。
【0048】
次いで、凝視動作判定部13は、相手(対象人物1)の顔の中心と画面中心の距離の時間変化をもとに、顔の中心と画面中心の距離が時間変動しているか否かを判定する(S31)。
【0049】
例えば、凝視動作判定部13は、各フレームで算出した距離(wi)の履歴を保存しておく。次いで、凝視動作判定部13は、次の式(4)より、現フレームの距離(wi)とNフレーム前の距離(wi-N)の割合を求める。
【0050】
【0051】
次いで、凝視動作判定部13は、求めた距離の割合が閾値以下もしくは閾値以上であった場合、変動していると判定する。
【0052】
図4に戻り、S12、S13に次いで、凝視動作判定部13は、「顔の位置が画面方向に変動している」もしくは「顔の位置が横方向に変動していない」と判定されているとき、対象人物1は目を凝らす身体動作C1をしていることを示すフラグを付与する。
【0053】
図3に戻り、S3に次いで、判定結果決定部14は、S2において付与したネガティブに見える表情のフラグをもとに、ネガティブに見える表情であれば対象人物1はネガティブな感情であるとするフラグを(暫定的に)付与する(S4)。具体的には、判定結果決定部14は、判定結果テーブル16の各フレームにおいて、ネガティブに見える表情のフラグをネガティブな感情のフラグにコピーする。
【0054】
次いで、判定結果決定部14は、判定結果テーブル16において、ネガティブに見える表情のフラグ(TRUE)が連続してつけられたフレーム群をまとめる(S5)。すなわち、判定結果決定部14は、連続してネガティブに見える表情の時間区間を1つに纏める。
【0055】
次いで、判定結果決定部14は、判定結果テーブル16においてまとめたフレーム群の中に、目を凝らす身体動作C1のフラグ(TRUE)が付与されたフレームが存在するか否かを判定する。次いで、判定結果決定部14は、フレーム群内に目を凝らす身体動作C1のフラグが付与されたフレームがある場合、そのフレーム群内の全フレームのネガティブな感情のフラグ(TRUE)を削除する。具体的には、判定結果決定部14は、ネガティブな感情のフラグ(TRUE)をネガティブな感情ではないことを示すフラグ(FALSE)に置き換える。
【0056】
次いで、判定結果決定部14は、フレームごとに判定したネガティブな感情のフラグ(TRUE/FALSE)を出力する(S7)。次いで、判定結果決定部14は、処理終了の指示あり等の、所定の終了条件を満たすか否かを判定する(S8)。終了条件を満たさない場合(S8:No)、判定結果決定部14は、S1へ処理を戻して処理を継続する。終了条件を満たす場合(S8:Yes)、判定結果決定部14は、処理を終了する。
【0057】
以上のように、判定装置10では、動画取得部11、表情判定部12、凝視動作判定部13および判定結果決定部14を有する。動画取得部11は、対象人物1のカメラ3による撮影画像を順次取得する。表情判定部12は、順次取得した対象人物1の撮影画像それぞれの顔画像から撮影画像の撮影時における対象人物1の感情を推定する。凝視動作判定部13は、取得した対象人物1の撮影画像それぞれから予め設定された動作(例えば目を凝らす動作)をしているか否かを判定する。判定結果決定部14は、表情判定部12が推定した感情から連続してネガティブの感情である時間区間を特定する。また、判定結果決定部14は、連続してネガティブの感情であると判定された時間区間内において予め設定された動作(例えば目を凝らす動作)をしていると判定された場合は、その時間区間に対応する推定した感情をネガティブでない感情に変更する。
【0058】
これにより、判定装置10では、連続してネガティブの感情であると判定された時間区間内において、ネガティブな感情を抱いた時の表情と類似する所定の動作が含まれる場合、対象人物1の感情はネガティブでないものと検出できる。したがって、判定装置10では、ネガティブな感情を抱いた時の表情と類似する動作が不快な感情と誤判定されることを抑止でき、不快な感情の検出が適切にできるように支援することができる。
【0059】
次に、上記の判定装置10を実際のWeb会議のシステムに組み入れた第2、第3の実施形態として、Web会議終了後に、説明相手(対象人物1)がネガティブに感じた説明箇所(説明資料、説明者の音声)を説明者に対して可視化するケースを例示する。
【0060】
(第2の実施形態)
図7は、第2の実施形態にかかるシステム構成例を示すブロック図である。
図7に示すように、Web会議のシステムでは、説明者4側の表示画面5と、対象人物1側の表示画面2との表示内容を共通のものとし、説明者4の操作によりWeb会議の説明資料を表示画面2、5に表示させることで、Web会議が進行するものとする。また、Web会議中において、説明者4と対象人物1とは、通信により音声の会話が可能となっている。
【0061】
具体的には、Web会議のシステムは、説明者4が利用する端末装置20と、対象人物1が利用する端末装置30と、端末装置20、30と通信可能に接続し、Web会議を仲介するサーバ装置40とを有する。なお、本実施形態ではサーバ装置40を介してWeb会議を行う構成を例示するが、サーバ装置40に関する機能を端末装置20または端末装置30に持たせることで、サーバ装置40を不要とする構成としてもよい。
【0062】
端末装置20は、表示部21、音声録音部22、音声再生部23、Web会議操作取得部24および説明資料取得部25を有する。
【0063】
表示部21は、説明者4側の表示画面5への表示を行う処理部である。例えば、表示部21は、サーバ装置40より表示が指示されたWeb会議で用いる説明資料などを表示画面5に表示する。
【0064】
音声録音部22は、端末装置20側における音声を取得(録音)する処理部である。例えば、音声録音部22は、Web会議中に説明者4が発する音声を取得し、取得した音声をサーバ装置40へ通知する。
【0065】
音声再生部23は、端末装置20側において音声再生を行う処理部である。例えば、音声再生部23は、Web会議中にサーバ装置40から通知された音声(例えば対象人物1の音声)を再生する。
【0066】
Web会議操作取得部24は、Web会議において説明者4が端末装置20に対して行う各種操作を取得する処理部である。例えば、Web会議操作取得部24は、Web会議において説明者4が行った操作内容をサーバ装置40へ通知する。
【0067】
説明資料取得部25は、Web会議で表示画面2、5に表示するための説明資料を取得する処理部である。例えば、説明資料取得部25は、Web会議で用いるための説明資料のデータ(例えばプレゼンテーション資料、文書、画像等)を端末装置20に接続された記憶媒体などから読み出して取得する。説明資料取得部25は、取得した説明資料のデータをサーバ装置40へ送信する。
【0068】
端末装置30は、表示部31、音声録音部32、音声再生部33、Web会議操作取得部34および動画取得部11を有する。
【0069】
表示部31は、対象人物1側の表示画面2への表示を行う処理部である。例えば、表示部31は、サーバ装置40より表示が指示されたWeb会議で用いる説明資料などを表示画面5に表示する。
【0070】
音声録音部32は、端末装置30側における音声を取得(録音)する処理部である。例えば、音声録音部32は、Web会議中に対象人物1が発する音声を取得し、取得した音声をサーバ装置40へ通知する。
【0071】
音声再生部33は、端末装置30側において音声再生を行う処理部である。例えば、音声再生部33は、Web会議中にサーバ装置40から通知された音声(例えば説明者4の音声)を再生する。
【0072】
Web会議操作取得部34は、Web会議において対象人物1が端末装置30に対して行う各種操作を取得する処理部である。例えば、Web会議操作取得部34は、Web会議において対象人物1が行った操作内容をサーバ装置40へ通知する。
【0073】
サーバ装置40は、表情判定部12、凝視動作判定部13、判定結果決定部14、Web会議制御部41、音声認識部42、感情記憶部43および感情提示部44を有する。
【0074】
Web会議制御部41は、Web会議に関する各種動作を制御する処理部である。例えば、Web会議制御部41は、Web会議で用いる説明資料のデータを端末装置20より受信し、受信した説明資料のデータを表示部21、表示部31に表示させる。このとき、Web会議制御部41は、Web会議操作取得部24、34による操作に応じて、説明資料のページ送り等を行う。また、Web会議制御部41は、Web会議中に端末装置20より受信した音声を端末装置30の音声再生部33より出力させる。また、Web会議制御部41は、Web会議中に端末装置30より受信した音声を端末装置20の音声再生部23より出力させる。
【0075】
音声認識部42は、音声録音部22、32が取得した音声の内容をテキスト(以後、音声テキストともよぶ)に変換する音声認識処理を行う処理部である。例えば、音声認識部42は、音声録音部22が取得した音声より音声認識処理を行うことで、説明者4が対象人物1に対して説明する際の音声内容を示す音声テキストを取得する。
【0076】
感情記憶部43は、Web会議開始後の時刻ごとに、判定結果決定部14が判定した対象人物1の感情(ネガティブであるか否か)を記憶する。具体的には、感情記憶部43は、Web会議開始後の時刻ごとに、対象人物1の感情とともに、取得した音声情報(例えば音声認識部42が取得した音声テキスト)や、説明者4の説明内容(例えば説明資料の中で表示画面2、5に表示しているページや表示箇所など)を示す情報を対応付けて記憶する。
【0077】
なお、音声情報については、本実施形態では音声認識部42が取得した音声テキストとするが、音声テキストへの音声認識処理前の音声データであってもよく、特に音声テキストに限定しない。
【0078】
感情提示部44は、感情記憶部43に記憶されたWeb会議開始後の時刻ごとの、対象人物1の感情(ネガティブであるか否か)をもとに、対象人物1の感情がネガティブであると判定された時間区間を特定し、特定した時間区間を示す情報を説明者4に提示する処理部である。
【0079】
例えば、感情提示部44は、感情記憶部43を参照し、対象人物1の感情がネガティブであると判定された時間区間の開始時刻および終了時刻や、Web会議開始から終了までの時間領域に占める時間区間の位置などを棒グラフなどで視覚化した情報を表示部21より表示画面5に表示させる。
【0080】
また、感情提示部44は、感情記憶部43に記憶されたWeb会議開始後の時刻ごとの、Web会議における音声情報(例えば音声認識部42が取得した音声テキスト)を参照し、対象人物1の感情がネガティブである時間区間に対応する音声情報を説明者4に提示する。例えば、感情提示部44は、対象人物1の感情がネガティブである時間区間に対応する、説明者4の音声テキストを表示部21より表示画面5に表示させる。また、感情提示部44は、対象人物1の感情がネガティブである時間区間に対応する、説明者4の音声データを音声再生部23より再生してもよい。
【0081】
また、感情提示部44は、感情記憶部43に記憶されたWeb会議開始後の時刻ごとの、Web会議における説明者4の説明内容(例えば説明資料の中で表示画面2、5に表示しているページや表示箇所など)を参照し、対象人物1の感情がネガティブである時間区間に対応する説明内容を説明者4に提示する。例えば、感情提示部44は、対象人物1の感情がネガティブである時間区間に対応する、説明資料の中の表示ページや表示箇所を表示部21より表示画面5に表示させる。
【0082】
図8は、第2の実施形態にかかるシステムの動作例を示すフローチャートである。
【0083】
図8に示すように、処理が開始されると、説明者4のWeb会議操作取得部24によるWeb会議の開始の指示などにより、Web会議制御部41は、端末装置20、30によるWeb会議を開始する(S40)。
【0084】
次いで、Web会議制御部41は、Web会議で用いる説明資料のデータを端末装置20より受信し、説明資料を表示部21、表示部31より説明者4側および説明相手(対象人物1)側の表示画面2、5に表示させる(S41)。
【0085】
次いで、Web会議制御部41は、Web会議操作取得部24より説明者4の説明資料の操作を取得し、取得した操作に応じたページ送り等を実施する(S42)。
【0086】
次いで、説明者4が利用する端末装置20の音声録音部22は、説明者4の音声を取得し、取得した音声をサーバ装置40へ送信する。音声認識部42は、取得した説明者4の音声を音声テキストに変換する(S43)。
【0087】
また、対象人物1が利用する端末装置30の動画取得部11は、説明相手(対象人物1)の動画を取得し、取得した動画をサーバ装置40の表情判定部12および凝視動作判定部13へ送信する。判定結果決定部14は、前述したとおり、対象人物1の動画による表情判定部12および凝視動作判定部13の判定結果をもとに対象人物1の感情を判定する(S44)。
【0088】
次いで、感情記憶部43は、取得した音声における説明者4の発話休止のタイミングごとに、音声認識部42で変換した音声テキストと、判定結果決定部14により判定された感情と、Web会議中の時刻とを対応付けて記憶する(S45)。
【0089】
図9は、感情記憶部43の記憶例を説明する説明図である。
図9に示すように、感情記憶部43は、Web会議中の説明者4における発話休止のタイミングで区切った時刻ごとに、説明者4の音声テキストと、対象人物1の感情とを対応付けて記憶する。
【0090】
Web会議の後、感情提示部44は、感情記憶部43を参照し、説明相手(対象人物1)の感情がネガティブであると判定された時間区間を特定し、特定した時間区間を示す情報を説明者4側の表示画面5に表示させる(S46)。具体的には、感情提示部44は、対象人物1の感情がネガティブである時間区間について、時間区間の開始時刻および終了時刻や、Web会議開始から終了までの時間領域に占める時間区間の位置などを棒グラフなどで視覚化した情報を表示部21より表示画面5に表示させる。
【0091】
次いで、感情提示部44は、Web会議操作取得部24より説明者4の時間区間の選択操作を受け付け、選択された時間区間に対応する音声テキストを感情記憶部43より読み出す。次いで、感情提示部44は、読み出した音声テキストを説明者4側の表示画面5に表示させる(S47)。
【0092】
図10は、表示画面の一例を説明する説明図である。
図10に示すように、感情提示部44のS46、S47により、Web会議中の対象人物1の感情を説明者4に対して可視化して提示する表示画面50には、例えば、時間区間表示領域51、カーソル52および詳細情報表示領域53が含まれる。
【0093】
時間区間表示領域51は、対象人物1の感情(ネガティブである/ネガティブでない)の推移を、対象人物1の感情がネガティブでない時間区間51aと、対象人物1の感情がネガティブである時間区間51bとで区切って表示する。この時間区間表示領域51により、説明者4は、Web会議中のどの時間帯で対象人物1がネガティブな感情となっているかを容易に把握することができる。
【0094】
カーソル52は、Web会議操作取得部24を介して説明者4より操作される。詳細情報表示領域53は、カーソル52により選択された時間区間51a、51bに関する詳細情報を表示する。例えば、図示例では、対象人物1の感情がネガティブである時間区間51bに対するカーソル52の選択により、その時間区間51bにおける音声テキストが詳細情報表示領域53に表示されている。これにより、説明者4は、対象人物1の感情がネガティブである時間区間51bにおいて、対象人物1に対して行った説明内容(音声テキスト)を容易に知ることができる。
【0095】
(第3の実施形態)
第3の実施形態に用いられるシステム構成は第2の実施形態と同様であるため、システム構成に関する説明は省略する。
図11は、第3の実施形態にかかるシステムの動作例を示すフローチャートである。
【0096】
図11に示すように、処理が開始されると、説明者4のWeb会議操作取得部24によるWeb会議の開始の指示などにより、Web会議制御部41は、端末装置20、30によるWeb会議を開始する(S50)。
【0097】
次いで、Web会議制御部41は、Web会議で用いる説明資料のデータを端末装置20より受信し、説明資料を表示部21、表示部31より説明者4側および説明相手(対象人物1)側の表示画面2、5に表示させる(S51)。
【0098】
次いで、Web会議制御部41は、Web会議操作取得部24より説明者4の説明資料の操作を取得し、取得した操作に応じたページ送り等を実施する(S52)。
【0099】
次いで、対象人物1が利用する端末装置30の動画取得部11は、説明相手(対象人物1)の動画を取得し、取得した動画をサーバ装置40の表情判定部12および凝視動作判定部13へ送信する。判定結果決定部14は、前述したとおり、対象人物1の動画による表情判定部12および凝視動作判定部13の判定結果をもとに対象人物1の感情を判定する(S53)。
【0100】
次いで、感情記憶部43は、説明資料のページ切り替えのタイミングごとに、説明資料の対象ページと、判定結果決定部14により判定された感情と、Web会議中の時刻とを対応付けて記憶する(S54)。
【0101】
図12は、感情記憶部43の記憶例を説明する説明図である。
図12に示すように、感情記憶部43は、Web会議中の説明者4による説明資料のページ切り替えタイミングで区切った時刻ごとに、説明資料の対象ページと、対象人物1の感情とを対応付けて記憶する。
【0102】
Web会議の後、感情提示部44は、感情記憶部43を参照し、説明相手(対象人物1)の感情がネガティブであると判定された時間区間を特定し、特定した時間区間を示す情報を説明者4側の表示画面5に表示させる(S55)。具体的には、感情提示部44は、対象人物1の感情がネガティブである時間区間について、時間区間の開始時刻および終了時刻や、Web会議開始から終了までの時間領域に占める時間区間の位置などを棒グラフなどで視覚化した情報を表示部21より表示画面5に表示させる。
【0103】
次いで、感情提示部44は、Web会議操作取得部24より説明者4の時間区間の選択操作を受け付け、選択された時間区間に対応する説明資料の対象ページを感情記憶部43より読み出す。次いで、感情提示部44は、読み出した説明資料の対象ページを説明者4側の表示画面5に表示させる(S56)。
【0104】
図13は、表示画面の一例を説明する説明図である。
図13に示すように、詳細情報表示領域53には、対象人物1の感情がネガティブである時間区間51bに対するカーソル52の選択により、その時間区間51bにおける説明資料の対象ページの内容が表示される。これにより、説明者4は、対象人物1の感情がネガティブである時間区間51bにおいて、対象人物1に対して行った説明内容(説明資料の対象ページ)を容易に知ることができる。
【0105】
以上のように、対象人物1の感情を検出するシステム(例えばWeb会議システム)では、動画取得部11、表情判定部12、凝視動作判定部13および判定結果決定部14を有する。動画取得部11は、対象人物1のカメラ3による撮影画像を順次取得する。表情判定部12は、順次取得した対象人物1の撮影画像それぞれの顔画像から撮影画像の撮影時における対象人物1の感情を推定する。凝視動作判定部13は、取得した対象人物1の撮影画像それぞれから予め設定された動作(例えば目を凝らす動作)をしているか否かを判定する。判定結果決定部14は、表情判定部12が推定した感情から連続してネガティブの感情である時間区間を特定する。また、判定結果決定部14は、連続してネガティブの感情であると判定された時間区間内において予め設定された動作(例えば目を凝らす動作)をしていると判定された場合は、その時間区間に対応する推定した感情をネガティブでない感情に変更する。
【0106】
これにより、対象人物1の感情を検出するシステムでは、連続してネガティブの感情であると判定された時間区間内において、ネガティブな感情を抱いた時の表情と類似する所定の動作が含まれる場合、対象人物1の感情はネガティブでないものと検出できる。したがって、対象人物1の感情を検出するシステムでは、ネガティブな感情を抱いた時の表情と類似する動作が不快な感情と誤判定されることを抑止でき、不快な感情の検出が適切にできるように支援することができる。
【0107】
また、対象人物1の感情を検出するシステムでは、対象人物1とは異なる説明者4の対象人物1に対する説明内容を取得し、感情記憶部43は、取得した対象人物1に対する説明内容と、推定した感情とを対応付けて記憶する。また、対象人物1の感情を検出するシステムにおいて、感情提示部44は、感情記憶部43が対応付けて記憶した情報に基づき、感情がネガティブである時間区間に対応する説明内容を抽出し、抽出した説明内容を説明者4の端末装置20に通知する。
【0108】
これにより、対象人物1の感情を検出するシステムでは、対象人物1の感情がネガティブである時間区間に対応する説明内容を、説明者4に対して分かりやすく提示することができる。
【0109】
また、対象人物1の感情を検出するシステムでは、説明者4が対象人物1に対して説明する際の音声情報を説明者4が利用する端末装置20から取得し、感情記憶部43は、取得した対象人物1に対する音声情報と、推定した感情とを対応付けて記憶する。また、対象人物1の感情を検出するシステムにおいて、感情提示部44は、感情記憶部43が対応付けて記憶した情報に基づき、感情がネガティブである時間区間に対応する音声情報を抽出し、抽出した音声情報を説明者4の端末装置20に通知する。
【0110】
これにより、対象人物1の感情を検出するシステムでは、対象人物1の感情がネガティブである時間区間に対応する、対象人物1に対する音声情報を、説明者4に対して分かりやすく提示することができる。
【0111】
また、対象人物1の感情を検出するシステムでは、音声情報の説明に関連する資料を対象人物1が利用する端末装置30の表示画面2に表示させる。また、対象人物1の感情を検出するシステムでは、対象人物1が端末装置30の表示画面2に表示された資料を見ていることに応じた動作をしているか否かを判定する。また、対象人物1の感情を検出するシステムでは、連続してネガティブの感情であると判定された時間区間内において資料を見ていることに応じた動作をしていると判定された場合は、その時間区間に対応する推定した感情をネガティブでない感情に変更する。
【0112】
対象人物1の感情を検出するシステムでは、表示画面2に表示された資料を対象人物1が見ていることに応じた動作が、不快な感情と誤判定されることを抑止でき、不快な感情の検出が適切にできるように支援することができる。
【0113】
また、判定対象の予め設定された動作は、対象人物1の目を凝らす動作である。したがって、連続してネガティブの感情であると判定された時間区間内においてネガティブな感情を抱いた時の表情と類似する目を凝らす動作が含まれる場合には、感情はネガティブでないものと検出できる。これにより、目を凝らす動作が不快な感情と誤判定されることを抑止できる。
【0114】
また、対象人物1の感情を検出するシステムでは、対象人物1と相対する表示画面2に対して対象人物1が画面方向に移動していること、もしくは対象人物1が表示画面2と平行する方向に移動していることの少なくとも一方に基づき、目を凝らす動作をしているか否かを判定する。これにより、対象人物1と相対する表示画面2の表示内容(例えば説明資料)に対する、対象人物1の目を凝らす動作を適切に判別できる。
【0115】
また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、表情判定部12と凝視動作判定部13とを統合してもよい。また、図示した各処理は、上記の順番に限定されるものでなく、処理内容を矛盾させない範囲において、同時に実施してもよく、順序を入れ替えて実施してもよい。
【0116】
さらに、各装置で行われる各種処理機能は、CPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。
【0117】
ところで、上記の各実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の各実施形態と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。
図14は、プログラムを実行するコンピュータの一例を示すブロック図である。
【0118】
図14に示すように、コンピュータ100は、各種演算処理を実行するCPU101と、データ入力を受け付ける入力装置102と、モニタ103とを有する。また、コンピュータ100は、記憶媒体からプログラム等を読み取る媒体読取装置104と、各種装置と接続するためのインタフェース装置105と、他の情報処理装置等と有線または無線により接続するための通信装置106とを有する。また、コンピュータ100は、各種情報を一時記憶するRAM107と、ハードディスク装置108とを有する。また、各装置101~108は、バス109に接続される。
【0119】
ハードディスク装置108には、
図1に示した判定装置10の各処理部(例えば動画取得部11、表情判定部12、凝視動作判定部13および判定結果決定部14)や
図7に例示した端末装置20、30、サーバ装置40の各処理部と同様の機能を有するプログラム108Aが記憶される。また、ハードディスク装置108には、動画取得部11、表情判定部12、凝視動作判定部13および判定結果決定部14等を実現するための各種データが記憶される。入力装置102は、例えば、コンピュータ100の利用者から操作情報等の各種情報の入力を受け付ける。モニタ103は、例えば、コンピュータ100の利用者に対して表示画面等の各種画面を表示する。インタフェース装置105は、例えば印刷装置等が接続される。通信装置106は、図示しないネットワークと接続され、他の情報処理装置と各種情報をやりとりする。
【0120】
CPU101は、ハードディスク装置108に記憶されたプログラム108Aを読み出して、RAM107に展開して実行することで、各種の処理に関するプロセスを実行する。これらのプロセスは、
図1に示した判定装置10の各処理部や
図7に例示したサーバ装置40の各処理部として機能させることができる。
【0121】
なお、上記のプログラム108Aは、ハードディスク装置108に記憶されていなくてもよい。例えば、コンピュータ100が読み取り可能な記憶媒体に記憶されたプログラム108Aを、コンピュータ100が読み出して実行するようにしてもよい。コンピュータ100が読み取り可能な記憶媒体は、例えば、CD-ROMやDVD(Digital Versatile Disc)、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にプログラム108Aを記憶させておき、コンピュータ100がこれらからプログラム108Aを読み出して実行するようにしてもよい。
【0122】
以上の実施形態に関し、さらに以下の付記を開示する。
【0123】
(付記1)対象人物の撮影画像を順次取得し、
順次取得した前記対象人物の撮影画像それぞれの顔画像から前記撮影画像の撮影時における前記対象人物の感情を推定し、
推定した前記感情がネガティブの感情である第1の時間区間を特定し、
取得した前記対象人物の撮影画像それぞれに基づいて、前記第1の時間区間において特定の動作をしているか否かを判定し、
前記第1の時間区間内において前記特定の動作をしていると判定された場合は、前記第1の時間区間に対応する推定した前記感情をネガティブでない感情に変更する、
処理をコンピュータが実行することを特徴とする検出方法。
【0124】
(付記2)前記対象人物とは異なる第1の人物の前記対象人物に対する説明内容を取得し、
取得した前記対象人物に対する説明内容と、推定した前記感情とを対応付けて記憶し、
前記第1の時間区間内において前記特定の動作をしていないと判定された場合は、対応付けて記憶した情報より前記感情がネガティブである時間区間に対応する説明内容を抽出し、
抽出した前記説明内容を前記第1の人物に通知する、
処理をさらに前記コンピュータが実行することを特徴とする付記1に記載の検出方法。
【0125】
(付記3)前記対象人物とは異なる第1の人物が前記対象人物に対して説明する際の音声情報を前記第1の人物が利用する第1の装置から取得し、
取得した前記対象人物に対する音声情報と、推定した前記感情とを対応付けて記憶し、
前記第1の時間区間内において前記特定の動作をしていないと判定された場合は、対応付けて記憶した情報より前記感情がネガティブである時間区間に対応する音声情報を抽出し、
抽出した前記音声情報を前記第1の人物に通知する、
処理をさらに前記コンピュータが実行することを特徴とする付記1に記載の検出方法。
【0126】
(付記4)前記音声情報の説明に関連する資料を前記対象人物が利用する第2の装置の表示画面に表示させる処理をさらに前記コンピュータが実行し、
前記判定する処理は、前記対象人物が前記第2の装置の表示画面に表示された資料を見ていることに応じた動作をしているか否かを判定する処理を含み、
前記変更する処理は、連続してネガティブの感情であると判定された時間区間内において前記資料を見ていることに応じた動作をしていると判定された場合は、当該時間区間に対応する推定した前記感情をネガティブでない感情に変更する処理を含む、
ことを特徴とする付記3に記載の検出方法。
【0127】
(付記5)前記動作は、前記対象人物の目を凝らす動作である、
ことを特徴とする付記1乃至4のいずれか一に記載の検出方法。
【0128】
(付記6)前記判定する処理は、前記対象人物と相対する表示画面に対して前記対象人物が画面方向に移動していること、もしくは前記対象人物が前記表示画面と平行する方向に移動していることの少なくとも一方に基づき、前記目を凝らす動作をしているか否かを判定する処理を含む、
ことを特徴とする付記5に記載の検出方法。
【0129】
(付記7)第1の人物が第2の人物に対して説明する際の音声情報を、前記第1の人物が利用する第1の装置から取得し、
前記音声情報の説明に関連する資料を前記第2の人物が利用する第2の装置の表示画面に表示させるとともに、前記第2の装置が撮影した前記第2の人物の撮影画像を取得し、
取得した前記第2の人物の撮影画像の顔画像から感情を推定し、
推定した前記感情がネガティブの感情である時間区間を特定し、
前記第1の装置から取得した音声情報の中から、特定した前記時間区間に対応する音声情報を抽出し、
抽出した前記音声情報を前記第1の装置へ通知する、
処理をコンピュータが実行することを特徴とする通知方法。
【0130】
(付記8)対象人物の撮影画像を順次取得し、
順次取得した前記対象人物の撮影画像それぞれの顔画像から前記撮影画像の撮影時における前記対象人物の感情を推定し、
推定した前記感情がネガティブの感情である第1の時間区間を特定し、
取得した前記対象人物の撮影画像それぞれに基づいて、前記第1の時間区間内において特定の動作をしているか否かを判定し、
前記第1の時間区間内において前記特定の動作をしていると判定された場合は、前記第1の時間区間に対応する推定した前記感情をネガティブでない感情に変更する、
処理をコンピュータに実行させることを特徴とする検出プログラム。
【0131】
(付記9)前記対象人物とは異なる第1の人物の前記対象人物に対する説明内容を取得し、
取得した前記対象人物に対する説明内容と、推定した前記感情とを対応付けて記憶し、
前記第1の時間区間内において前記特定の動作をしていないと判定された場合は、対応付けて記憶した情報より前記感情がネガティブである時間区間に対応する説明内容を抽出し、
抽出した前記説明内容を前記第1の人物に通知する、
処理をさらに前記コンピュータに実行させることを特徴とする付記8に記載の検出プログラム。
【0132】
(付記10)前記対象人物とは異なる第1の人物が前記対象人物に対して説明する際の音声情報を前記第1の人物が利用する第1の装置から取得し、
取得した前記対象人物に対する音声情報と、推定した前記感情とを対応付けて記憶し、
前記第1の時間区間内において前記特定の動作をしていないと判定された場合は、対応付けて記憶した情報より前記感情がネガティブである時間区間に対応する音声情報を抽出し、
抽出した前記音声情報を前記第1の人物に通知する、
処理をさらに前記コンピュータに実行させることを特徴とする付記8に記載の検出プログラム。
【0133】
(付記11)前記音声情報の説明に関連する資料を前記対象人物が利用する第2の装置の表示画面に表示させる処理をさらに前記コンピュータが実行し、
前記判定する処理は、前記対象人物が前記第2の装置の表示画面に表示された資料を見ていることに応じた動作をしているか否かを判定する処理を含み、
前記変更する処理は、連続してネガティブの感情であると判定された時間区間内において前記資料を見ていることに応じた動作をしていると判定された場合は、当該時間区間に対応する推定した前記感情をネガティブでない感情に変更する処理を含む、
ことを特徴とする付記10に記載の検出プログラム。
【0134】
(付記12)前記動作は、前記対象人物の目を凝らす動作である、
ことを特徴とする付記8乃至11のいずれか一に記載の検出プログラム。
【0135】
(付記13)前記判定する処理は、前記対象人物と相対する表示画面に対して前記対象人物が画面方向に移動していること、もしくは前記対象人物が前記表示画面と平行する方向に移動していることの少なくとも一方に基づき、前記目を凝らす動作をしているか否かを判定する処理を含む、
ことを特徴とする付記12に記載の検出プログラム。
【0136】
(付記14)第1の人物が第2の人物に対して説明する際の音声情報を、前記第1の人物が利用する第1の装置から取得し、
前記音声情報の説明に関連する資料を前記第2の人物が利用する第2の装置の表示画面に表示させるとともに、前記第2の装置が撮影した前記第2の人物の撮影画像を取得し、
取得した前記第2の人物の撮影画像の顔画像から感情を推定し、
推定した前記感情がネガティブの感情である時間区間を特定し、
前記第1の装置から取得した音声情報の中から、特定した前記時間区間に対応する音声情報を抽出し、
抽出した前記音声情報を前記第1の装置へ通知する、
処理をコンピュータに実行させることを特徴とする通知プログラム。
【符号の説明】
【0137】
1…対象人物
2、5、50…表示画面
3…カメラ
4…説明者
10…判定装置
11…動画取得部
12…表情判定部
13…凝視動作判定部
14…判定結果決定部
16…判定結果テーブル
20、30…端末装置
21、31…表示部
22、32…音声録音部
23、33…音声再生部
24、34…Web会議操作取得部
25…説明資料取得部
40…サーバ装置
41…Web会議制御部
42…音声認識部
43…感情記憶部
44…感情提示部
51…時間区間表示領域
51a、51b、T1~T3…時間区間
52…カーソル
53…詳細情報表示領域
100…コンピュータ
101…CPU
102…入力装置
103…モニタ
104…媒体読取装置
105…インタフェース装置
106…通信装置
107…RAM
108…ハードディスク装置
108A…プログラム
109…バス
C1…身体動作
I…視点
P…投影面