特許7705177 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社Ｉ’ｍｂｅｓｉｄｅｙｏｕの特許一覧

特許7705177動画像分析システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-07-01

(45)【発行日】2025-07-09

(54)【発明の名称】動画像分析システム

(51)【国際特許分類】

H04N 7/15 20060101AFI20250702BHJP

【ＦＩ】

H04N7/15

【請求項の数】 3

(21)【出願番号】P 2023529317

(86)(22)【出願日】2021-06-23

(86)【国際出願番号】 JP2021023777

(87)【国際公開番号】W WO2022269802

(87)【国際公開日】2022-12-29

【審査請求日】2024-06-24

(73)【特許権者】

【識別番号】520408744

【氏名又は名称】株式会社Ｉ’ｍｂｅｓｉｄｅｙｏｕ

(74)【代理人】

【識別番号】110002790

【氏名又は名称】Ｏｎｅｉｐ弁理士法人

(72)【発明者】

【氏名】神谷渉三

【審査官】松元伸次

(56)【参考文献】

【文献】特開２０２０－１５４０９３（ＪＰ，Ａ）

【文献】特開２０２１－０２２９０９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ａ６１Ｂ５／０６－５／２２

Ｇ０６Ｔ１／００－１／４０

３／００－７／９０

Ｇ０６Ｖ１０／００－２０／９０

３０／４１８

４０／１６

４０／２０

Ｈ０４Ｎ７／１０

７／１４－７／１７３

７／２０－７／５６

２１／００－２１／８５８

(57)【特許請求の範囲】

【請求項1】

複数のユーザでオンラインセッションが行われる環境においてオンラインセッション中にユーザが画面に表示されているか否かによらず前記ユーザを撮影することによって得られる動画像をもとに前記ユーザの反応を分析する動画像分析システムであって、
複数の前記ユーザの夫々について、前記オンラインセッション中に前記ユーザを撮影することによって得られる動画像を取得する動画像取得部と、
前記動画像取得部により取得された動画像に基づいて、前記ユーザについて生体反応の変化を解析する解析部と、
前記解析部により得られた生体反応の変化が生じたタイミングより前において前記ユーザとは異なる他のユーザが前記ユーザに対する言動を行っている動画像の区間を特定し、該区間に含まれる動画像に基づいて、前記他のユーザの前記言動に対する評価情報を生成する評価情報生成部と、
生成された前記評価情報が所定の条件を満たす場合に、所定の条件を満たす前記評価情報とともに、当該評価情報と紐づけられる前記ユーザの前記言動が含まれる前記動画像を含むフィードバック情報を前記ユーザの端末に出力する出力制御部と、
を備える動画像分析システム。

【請求項2】

請求項１に記載の動画像分析システムであって、
前記評価情報生成部は、前記他のユーザについての前記動画像に基づいて前記評価情報を生成する、動画像分析システム。

【請求項3】

請求項１または２に記載の動画像分析システムであって、
前記評価情報生成部は、前記ユーザの前記生体反応の解析結果に基づいて、前記ユーザの言動に対する前記評価情報を生成する、動画像分析システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、複数人の参加者で行われるオンラインセッションによって得られる動画像をもとに参加者の生体反応を解析する動画像分析システムに関する。

【背景技術】

【0002】

発言者の発言に対して他者が受ける感情を解析する技術が知られている（例えば、特許文献１参照）。対象者の表情の変化を長期間にわたり時系列的に解析し、その間に抱いた感情を推定する技術も知られている（例えば、特許文献２参照）。感情の変化に最も影響を与えた要素を特定する技術も知られている（例えば、特許文献３～５参照）。対象者の普段の表情と現在の表情とを比較して、表情が暗い場合にアラートを発する技術も知られている（例えば、特許文献６参照）。対象者の平常時（無表情時）の表情と現在の表情とを比較して、対象者の感情の度合いを判定するようにした技術も知られている（例えば、特許文献７～９参照）。組織としての感情や、個人が感じるグループ内の雰囲気を分析する技術も知られている（例えば、特許文献１０、１１参照）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９－５８６２５号公報

【文献】特開２０１６－１４９０６３号公報

【文献】特開２０２０－８６５５９号公報

【文献】特開２０００－７６４２１号公報

【文献】特開２０１７－２０１４９９号公報

【文献】特開２０１８－１１２８３１号公報

【文献】特開２０１１－１５４６６５号公報

【文献】特開２０１２－８９４９号公報

【文献】特開２０１３－３００号公報

【文献】特開２０１１－１８６５２１号公報

【文献】ＷＯ１５／１７４４２６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

上述したすべての技術は、現実空間におけるコミュニケーションが主である状況におけるサブ的な機能にすぎない。即ち、昨今の業務のＤＸ（ＤｉｇｉｔａｌＴｒａｎｓｆｏｒｍａｔｉｏｎ）化や、世界的な感染症の流行等を受け、業務や授業等のコミュニケーションがオンラインで行われることが主とされる状況に生まれたものではない。

【0005】

本発明は、会議や講義等、オンラインコミュニケーションが主となる状況において、より効率的なコミュニケーションを行うために、これらのコミュニケーションを客観的に評価することを目的とする。

【課題を解決するための手段】

【0006】

本発明によれば、複数のユーザでオンラインセッションが行われる環境においてオンラインセッション中にユーザが画面に表示されているか否かによらず前記ユーザを撮影することによって得られる動画像をもとに前記ユーザの反応を分析する動画像分析システムであって、複数の前記ユーザの夫々について、前記オンラインセッション中に前記ユーザを撮影することによって得られる動画像を取得する動画像取得部と、前記動画像取得部により取得された動画像に基づいて、前記ユーザについて生体反応の変化を解析する解析部と、前記解析部により得られた生体反応の解析結果が所定の条件を満たしているタイミングに基づいて前記ユーザとは異なる他のユーザが前記ユーザに対する言動を行っている動画像の区間を特定する特定部と、該区間に含まれる動画像に基づいて、前記他のユーザの前記言動に対する評価情報を生成する評価情報生成部と、生成された前記評価情報が所定の条件を満たす場合に、前記評価情報に基づく前記ユーザに対するフィードバック情報を前記ユーザの端末に出力する出力制御部と、を備える動画像分析システムが得られる。

【発明の効果】

【0007】

本開示によれば、ビデオセッションの動画像を分析評価することにより、特に内容に関する評価を客観的に行うことができる。

【0008】

特に、本発明によれば、オンラインコミュニケーションが主となる状況において、より効率的なコミュニケーションを行うために、交わされたコミュニケーションを客観的に評価することができる。

【図面の簡単な説明】

【0009】

【図1】本発明の実施の形態によるシステム全体図を示す図である。

【図2】本発明の実施の形態による評価端末の機能ブロック図の一例である。

【図3】本発明の実施の形態による評価端末の機能構成例１を示す図である。

【図4】本発明の実施の形態による評価端末の機能構成例２を示す図である。

【図5】本発明の実施の形態による評価端末の機能構成例３を示す図である。

【図6】図６の機能構成例３による画面表示例である。

【図7】図６の機能構成例３による他の画面表示例である。

【図8】本発明の実施の形態による評価端末の機能構成例３の他の構成を示す図である。

【図9】本発明の実施の形態による評価端末の機能構成例３の他の構成を示す図である。

【図10】本実施形態に係るシステムの機能構成の一例を示す図である。

【図11】本実施形態に係る評価対象区間の特定の例について説明するための図である。

【図12】本実施形態に係る評価出力部による出力態様の一例を示す図である。

【発明を実施するための形態】

【0010】

本開示の実施形態の内容を列記して説明する。本開示は、以下のような構成を備える。
（項目１）
複数のユーザでオンラインセッションが行われる環境においてオンラインセッション中にユーザが画面に表示されているか否かによらず前記ユーザを撮影することによって得られる動画像をもとに前記ユーザの反応を分析する動画像分析システムであって、
複数の前記ユーザの夫々について、前記オンラインセッション中に前記ユーザを撮影することによって得られる動画像を取得する動画像取得部と、
前記動画像取得部により取得された動画像に基づいて、前記ユーザについて生体反応の変化を解析する解析部と、
前記解析部により得られた生体反応の変化が生じたタイミングより前において前記ユーザとは異なる他のユーザが前記ユーザに対する言動を行っている動画像の区間を特定し、該区間に含まれる動画像に基づいて、前記他のユーザの前記言動に対する評価情報を生成する評価情報生成部と、
生成された前記評価情報が所定の条件を満たす場合に、前記評価情報に基づく前記ユーザに対するフィードバック情報を前記ユーザの端末に出力する出力制御部と、
を備える動画像分析システム。
（項目２）
項目１に記載の動画像分析システムであって、
前記評価情報生成部は、前記他のユーザについての前記動画像に基づいて前記評価情報を生成する、動画像分析システム。
（項目３）
項目１または２に記載の動画像分析システムであって、
前記評価情報生成部は、前記ユーザの前記生体反応の解析結果に基づいて、前記ユーザの言動に対する前記評価情報を生成する、動画像分析システム。
（項目４）
項目１～３のいずれか１項に記載の動画像分析システムであって、
前記出力制御部は、前記フィードバック情報として、所定の条件を満たす前記評価情報とともに、当該評価情報と紐づけられる前記ユーザの前記言動が含まれる前記動画像に関する情報を出力する、動画像分析システム。

【0011】

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

【0012】

＜基本機能＞
本実施形態のビデオセッション評価システムは、複数人でビデオセッション（以下、一方向及び双方向含めてオンラインセッションという）が行われる環境において、当該複数人の中の解析対象者について他者とは異なる特異的な感情（自分または他人の言動に対して起こる気持ち。快・不快またはその程度など）を解析し評価するシステムである。オンラインセッションは、例えばオンライン会議、オンライン授業、オンラインチャットなどであり、複数の場所に設置された端末をインターネットなどの通信ネットワークを介してサーバに接続し、当該サーバを通じて複数の端末間で動画像をやり取りできるようにしたものである。オンラインセッションで扱う動画像には、端末を使用するユーザの顔画像や音声が含まれる。また、動画像には、複数のユーザが共有して閲覧する資料などの画像も含まれる。各端末の画面上に顔画像と資料画像とを切り替えて何れか一方のみを表示させたり、表示領域を分けて顔画像と資料画像とを同時に表示させたりすることが可能である。また、複数人のうち１人の画像を全画面表示させたり、一部または全部のユーザの画像を小画面に分割して表示させたりすることが可能である。端末を使用してオンラインセッションに参加する複数のユーザのうち、何れか１人または複数人を解析対象者として指定することが可能である。例えば、オンラインセッションの主導者、進行者または管理者（以下、まとめて主催者という）が何れかのユーザを解析対象者として指定する。オンラインセッションの主催者は、例えばオンライン授業の講師、オンライン会議の議長やファシリテータ、コーチングを目的としたセッションのコーチなどである。オンラインセッションの主催者は、オンラインセッションに参加する複数のユーザの中の一人であるのが普通であるが、オンラインセッションに参加しない別人であってもよい。なお、解析対象者を指定せず全ての参加者を解析対象としてもよい。また、オンラインセッションの主導者、進行者または管理者（以下、まとめて主催者という）が何れかのユーザを解析対象者として指定することも可能である。オンラインセッションの主催者は、例えばオンライン授業の講師、オンライン会議の議長やファシリテータ、コーチングを目的としたセッションのコーチなどである。オンラインセッションの主催者は、オンラインセッションに参加する複数のユーザの中の一人であるのが普通であるが、オンラインセッションに参加しない別人であってもよい。

【0013】

本実施の形態によるビデオセッション評価システムは、複数の端末間においてビデオセッションセッションが確立された場合に、当該ビデオセッションから取得される少なくとも動画像を表示される。表示された動画像は、端末によって取得され、動画像内に含まれる少なくとも顔画像を所定のフレーム単位ごとに識別される。その後、識別された顔画像に関する評価値が算出される。当該評価値は必要に応じて共有される。特に、本実施の形態においては、取得した動画像は当該端末に保存され、端末上で分析評価され、その結果が当該端末のユーザに提供される。従って、例えば個人情報を含むビデオセッションや機密情報を含むビデオセッションであっても、その動画自体を外部の評価機関等に提供することなく分析評価できる。また、必要に応じて、当該評価結果（評価値）だけを外部端末に提供することによって、結果を可視化したり、クロス分析等行うことができる。

【0014】

図１に示されるように、本実施の形態によるビデオセッション評価システムは、少なくともカメラ部及びマイク部等の入力部と、ディスプレイ等の表示部とスピーカー等の出力部とを有するユーザ端末１０、２０と、ユーザ端末１０、２０に双方向のビデオセッションを提供するビデオセッションサービス端末３０と、ビデオセッションに関する評価の一部を行う評価端末４０とを備えている。

【0015】

＜ハードウェア構成例＞
以下に説明する各機能ブロック、機能単位、機能モジュールは、例えばコンピュータに備えられたハードウェア、ＤＳＰ（Digital Signal Processor）、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。本明細書において説明するシステム及び端末による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。本実施形態に係る情報共有支援装置１０の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することが可能である。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

【0016】

本実施の形態による評価端末は、ビデオセッションサービス端末から動画像を取得し、当該動画像内に含まれる少なくとも顔画像を所定のフレーム単位ごとに識別すると共に、顔画像に関する評価値を算出する（詳しくは後述する）。

【0017】

＜動画の取得方法＞
図２に示されるように、ビデオセッションサービス端末が提供するビデオセッションサービス（以下、単に「本サービス」と言うことがある」）は、ユーザ端末１０、２０に対して双方向に画像および音声によって通信が可能となるものである。本サービスは、ユーザ端末のディスプレイに相手のユーザ端末のカメラ部で取得した動画像を表示し、相手のユーザ端末のマイク部で取得した音声をスピーカーから出力可能となっている。また、本サービスは双方の又はいずれかのユーザ端末によって、動画像及び音声（これらを合わせて「動画像等」という）を少なくともいずれかのユーザ端末上の記憶部に記録（レコーディング）することが可能に構成されている。記録された動画像情報Ｖｓ（以下「記録情報」という）は、記録を開始したユーザ端末にキャッシュされつついずれかのユーザ端末のローカルのみに記録されることとなる。ユーザは、必要があれば当該記録情報を本サービスの利用の範囲内で自分で視聴、他者に共有等行うこともできる。

【0018】

＜機能構成例１＞
図４は、本実施形態による構成例を示すブロック図である。図４に示すように、本実施形態のビデオセッション評価システムは、ユーザ端末１０が有する機能構成として実現される。すなわち、ユーザ端末１０はその機能として、動画像取得部１１、生体反応解析部１２、特異判定部１３、関連事象特定部１４、クラスタリング部１５および解析結果通知部１６を備えている。

【0019】

動画像取得部１１は、オンラインセッション中に各端末が備えるカメラにより複数人（複数のユーザ）を撮影することによって得られる動画像を各端末から取得する。各端末から取得する動画像は、各端末の画面上に表示されるように設定されているものか否かは問わない。すなわち、動画像取得部１１は、各端末に表示中の動画像および非表示中の動画像を含めて、動画像を各端末から取得する。

【0020】

生体反応解析部１２は、動画像取得部１１により取得された動画像（画面上に表示中のものか否かは問わない）に基づいて、複数人のそれぞれについて生体反応の変化を解析する。本実施形態において生体反応解析部１２は、動画像取得部１１により取得された動画像を画像のセット（フレーム画像の集まり）と音声とに分離し、それぞれから生体反応の変化を解析する。

【0021】

例えば、生体反応解析部１２は、動画像取得部１１により取得された動画像から分離したフレーム画像を用いてユーザの顔画像を解析することにより、表情、目線、脈拍、顔の動きの少なくとも１つに関する生体反応の変化を解析する。また、生体反応解析部１２は、動画像取得部１１により取得された動画像から分離した音声を解析することにより、ユーザの発言内容、声質の少なくとも１つに関する生体反応の変化を解析する。

【0022】

人は感情が変化すると、それが表情、目線、脈拍、顔の動き、発言内容、声質などの生体反応の変化となって現れる。本実施形態では、ユーザの生体反応の変化を解析することを通じて、ユーザの感情の変化を解析する。本実施形態において解析する感情は、一例として、快／不快の程度である。本実施形態において生体反応解析部１２は、生体反応の変化を所定の基準に従って数値化することにより、生体反応の変化の内容を反映させた生体反応指標値を算出する。

【0023】

表情の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定し、事前に機械学習させた画像解析モデルに従って特定した顔の表情を複数に分類する。そして、その分類結果に基づいて、連続するフレーム画像間でポジティブな表情変化が起きているか、ネガティブな表情変化が起きているか、およびどの程度の大きさの表情変化が起きているかを解析し、その解析結果に応じた表情変化指標値を出力する。

【0024】

目線の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から目の領域を特定し、両目の向きを解析することにより、ユーザがどこを見ているかを解析する。例えば、表示中の話者の顔を見ているか、表示中の共有資料を見ているか、画面の外を見ているかなどを解析する。また、目線の動きが大きいか小さいか、動きの頻度が多いか少ないかなどを解析するようにしてもよい。目線の変化はユーザの集中度にも関連する。生体反応解析部１２は、目線の変化の解析結果に応じた目線変化指標値を出力する。

【0025】

脈拍の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定する。そして、顔の色情報（ＲＧＢのＧ）の数値を捉える学習済みの画像解析モデルを用いて、顔表面のＧ色の変化を解析する。その結果を時間軸に合わせて並べることによって色情報の変化を表した波形を形成し、この波形から脈拍を特定する。人は緊張すると脈拍が速くなり、気持ちが落ち着くと脈拍が遅くなる。生体反応解析部１２は、脈拍の変化の解析結果に応じた脈拍変化指標値を出力する。

【0026】

顔の動きの変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定し、顔の向きを解析することにより、ユーザがどこを見ているかを解析する。例えば、表示中の話者の顔を見ているか、表示中の共有資料を見ているか、画面の外を見ているかなどを解析する。また、顔の動きが大きいか小さいか、動きの頻度が多いか少ないかなどを解析するようにしてもよい。顔の動きと目線の動きとを合わせて解析するようにしてもよい。例えば、表示中の話者の顔をまっすぐ見ているか、上目遣いまたは下目使いに見ているか、斜めから見ているかなどを解析するようにしてもよい。生体反応解析部１２は、顔の向きの変化の解析結果に応じた顔向き変化指標値を出力する。

【0027】

発言内容の解析は、例えば以下のようにして行う。すなわち、生体反応解析部１２は、指定した時間（例えば、３０～１５０秒程度の時間）の音声について公知の音声認識処理を行うことによって音声を文字列に変換し、当該文字列を形態素解析することにより、助詞、冠詞などの会話を表す上で不要なワードを取り除く。そして、残ったワードをベクトル化し、ポジティブな感情変化が起きているか、ネガティブな感情変化が起きているか、およびどの程度の大きさの感情変化が起きているかを解析し、その解析結果に応じた発言内容指標値を出力する。

【0028】

声質の解析は、例えば以下のようにして行う。すなわち、生体反応解析部１２は、指定した時間（例えば、３０～１５０秒程度の時間）の音声について公知の音声解析処理を行うことによって音声の音響的特徴を特定する。そして、その音響的特徴に基づいて、ポジティブな声質変化が起きているか、ネガティブな声質変化が起きているか、およびどの程度の大きさの声質変化が起きているかを解析し、その解析結果に応じた声質変化指標値を出力する。

【0029】

生体反応解析部１２は、以上のようにして算出した表情変化指標値、目線変化指標値、脈拍変化指標値、顔向き変化指標値、発言内容指標値、声質変化指標値の少なくとも１つを用いて生体反応指標値を算出する。例えば、表情変化指標値、目線変化指標値、脈拍変化指標値、顔向き変化指標値、発言内容指標値および声質変化指標値を重み付け計算することにより、生体反応指標値を算出する。

【0030】

特異判定部１３は、解析対象者について解析された生体反応の変化が、解析対象者以外の他者について解析された生体反応の変化と比べて特異的か否かを判定する。本実施形態において、特異判定部１３は、生体反応解析部１２により複数のユーザのそれぞれについて算出された生体反応指標値に基づいて、解析対象者について解析された生体反応の変化が他者と比べて特異的か否かを判定する。

【0031】

例えば、特異判定部１３は、生体反応解析部１２により複数人のそれぞれについて算出された生体反応指標値の分散を算出し、解析対象者について算出された生体反応指標値と分散との対比により、解析対象者について解析された生体反応の変化が他者と比べて特異的か否かを判定する。

【0032】

解析対象者について解析された生体反応の変化が他者と比べて特異的である場合として、次の３パターンが考えられる。１つ目は、他者については特に大きな生体反応の変化が起きていないが、解析対象者について比較的大きな生体反応の変化が起きた場合である。２つ目は、解析対象者については特に大きな生体反応の変化が起きていないが、他者について比較的大きな生体反応の変化が起きた場合である。３つ目は、解析対象者についても他者についても比較的大きな生体反応の変化が起きているが、変化の内容が解析対象者と他者とで異なる場合である。

【0033】

関連事象特定部１４は、特異判定部１３により特異的であると判定された生体反応の変化が起きたときに解析対象者、他者および環境の少なくとも１つに関して発生している事象を特定する。例えば、関連事象特定部１４は、解析対象者について特異的な生体反応の変化が起きたときにおける解析対象者自身の言動を動画像から特定する。また、関連事象特定部１４は、解析対象者について特異的な生体反応の変化が起きたときにおける他者の言動を動画像から特定する。また、関連事象特定部１４は、解析対象者について特異的な生体反応の変化が起きたときにおける環境を動画像から特定する。環境は、例えば画面に表示中の共有資料、解析対象者の背景に写っているものなどである。

【0034】

クラスタリング部１５は、特異判定部１３により特異的であると判定された生体反応の変化（例えば、目線、脈拍、顔の動き、発言内容、声質のうち１つまたは複数の組み合わせ）と、当該特異的な生体反応の変化が起きたときに発生している事象（関連事象特定部１４により特定された事象）との相関の程度を解析し、相関が一定レベル以上であると判定された場合に、その相関の解析結果に基づいて解析対象者または事象をクラスタリングする。

【0035】

例えば、特異的な生体反応の変化がネガティブな感情変化に相当するものであり、当該特異的な生体反応の変化が起きたときに発生している事象もネガティブな事象である場合には一定レベル以上の相関が検出される。クラスタリング部１５は、その事象の内容やネガティブな度合い、相関の大きさなどに応じて、あらかじめセグメント化した複数の分類の何れかに解析対象者または事象をクラスタリングする。

【0036】

同様に、特異的な生体反応の変化がポジティブな感情変化に相当するものであり、当該特異的な生体反応の変化が起きたときに発生している事象もポジティブな事象である場合には一定レベル以上の相関が検出される。クラスタリング部１５は、その事象の内容やポジティブな度合い、相関の大きさなどに応じて、あらかじめセグメント化した複数の分類の何れかに解析対象者または事象をクラスタリングする。

【0037】

解析結果通知部１６は、特異判定部１３により特異的であると判定された生体反応の変化、関連事象特定部１４により特定された事象、およびクラスタリング部１５によりクラスタリングされた分類の少なくとも１つを、解析対象者の指定者（解析対象者またはオンラインセッションの主催者）に通知する。

【0038】

例えば、解析結果通知部１６は、解析対象者について他者とは異なる特異的な生体反応の変化が起きたとき（上述した３パターンの何れか。以下同様）に発生している事象として解析対象者自身の言動を解析対象者自身に通知する。これにより、解析対象者は、自分がある言動を行ったときに他者とは違う感情を持っていることを把握することができる。このとき、解析対象者について特定された特異的な生体反応の変化も併せて解析対象者に通知するようにしてもよい。さらに、対比される他者の生体反応の変化を更に解析対象者に通知するようにしてもよい。

【0039】

例えば、解析対象者が普段どおりの感情で特に意識せずに行った言動、または、解析対象者がある感情を伴って特に意識して行った言動に対して他者が受けた感情と、言動の際に解析対象者自身が抱いていた感情とが相違している場合に、そのときの解析対象者自身の言動が解析対象者に通知される。これにより、自分の意識に反して他者の受けが良い言動や他者の受けが良くない言動などを発見することも可能である。

【0040】

また、解析結果通知部１６は、解析対象者について他者とは異なる特異的な生体反応の変化が起きたときに発生している事象を、特異的な生体反応の変化と共にオンラインセッションの主催者に通知する。これにより、オンラインセッションの主催者は、指定した解析対象者に特有の現象として、どのような事象がどのような感情の変化に影響を与えているのかを知ることができる。そして、その把握した内容に応じて適切な処置を解析対象者に対して行うことが可能となる。

【0041】

また、解析結果通知部１６は、解析対象者について他者とは異なる特異的な生体反応の変化が起きたときに発生している事象または解析対象者のクラスタリング結果をオンラインセッションの主催者に通知する。これにより、オンラインセッションの主催者は、指定した解析対象者がどの分類にクラスタリングされたかによって、解析対象者に特有の行動の傾向を把握したり、今後起こり得る行動や状態などを予測したりすることができる。そして、それに対して適切な処置を解析対象者に対して行うことが可能となる。

【0042】

なお、上記実施形態では、生体反応の変化を所定の基準に従って数値化することによって生体反応指標値を算出し、複数人のそれぞれについて算出された生体反応指標値に基づいて、解析対象者について解析された生体反応の変化が他者と比べて特異的か否かを判定する例について説明したが、この例に限定されない。例えば、以下のようにしてもよい。

【0043】

すなわち、生体反応解析部１２は、複数人のそれぞれについて目線の動きを解析して目線の方向を示すヒートマップを生成する。特異判定部１３は、生体反応解析部１２により解析対象者について生成されたヒートマップと他者について生成されたヒートマップとの対比により、解析対象者について解析された生体反応の変化が、他者について解析された生体反応の変化と比べて特異的か否かを判定する。

【0044】

このように、本実施の形態においては、ビデオセッションの動画像をユーザ端末１０のローカルストレージに保存し、ユーザ端末１０上で上述した分析を行うこととしている。ユーザ端末１０のマシンスペックに依存する可能性があるとはいえ、動画像の情報を外部に提供することなく分析することが可能となる。

【0045】

＜機能構成例２＞
図５に示すように、本実施形態のビデオセッション評価システムは、機能構成として、動画像取得部１１、生体反応解析部１２および反応情報提示部１３ａを備えていてもよい。

【0046】

反応情報提示部１３ａは、画面に表示されていない参加者を含めて生体反応解析部１２ａにより解析された生体反応の変化を示す情報を提示する。例えば、反応情報提示部１３ａは、生体反応の変化を示す情報をオンラインセッションの主導者、進行者または管理者（以下、まとめて主催者という）に提示する。オンラインセッションの主催者は、例えばオンライン授業の講師、オンライン会議の議長やファシリテータ、コーチングを目的としたセッションのコーチなどである。オンラインセッションの主催者は、オンラインセッションに参加する複数のユーザの中の一人であるのが普通であるが、オンラインセッションに参加しない別人であってもよい。

【0047】

このようにすることにより、オンラインセッションの主催者は、複数人でオンラインセッションが行われる環境において、画面に表示されていない参加者の様子も把握することができる。

【0048】

＜機能構成例３＞
図６は、本実施形態による構成例を示すブロック図である。図６に示すように、本実施形態のビデオセッション評価システムは、機能構成として、上述した実施の形態１と類似する機能については同一つの参照符号を付して説明を省略することがある。

【0049】

本実施の形態によるシステムは、ビデオセッションの映像を取得するカメラ部及び音声を取得するマイク部と、動画像を分析及び評価する解析部、取得した動画像を評価することによって得られた情報に基づいて表示オブジェクト（後述する）を生成するオブジェクト生成部、前記ビデオセッション実行中にビデオセッションの動画像と表示オブジェクトの両方を表示する表示部と、を備えている。

【0050】

解析部は、上述した説明と同様に、動画像取得部１１、生体反応解析部１２、特異判定部１３、関連事象特定部１４、クラスタリング部１５および解析結果通知部１６を備えている。各要素の機能については上述したとおりである。

【0051】

図７に示されるように、オブジェクト生成部は、解析部によってビデオセッションから取得される動画像を解析した結果に基づいて、必要に応じて、当該認識した顔の部分を示すオブジェクト５０と、上述した分析・評価した内容を示す情報１００を当該動画像に重畳して表示する。当該オブジェクト５０は、複数人の顔が動画像内に移っている場合には、複数人全員の顔を識別し、表示することとしてもよい。

【0052】

また、オブジェクト５０は、例えば、相手側の端末において、ビデオセッションのカメラ機能を停止している場合（即ち、物理的にカメラを覆う等ではなく、ビデオセッションのアプリケーション内においてソフトウェア的に停止している場合）であっても、相手側のカメラで相手の顔を認識していた場合には、相手の顔が位置している部分にオブジェクト５０やオブジェクト１００を表示することとしてもよい。これにより、カメラ機能がオフになっていたとしても、相手側が端末の前にいることがお互い確認することが可能となる。この場合、例えば、ビデオセッションのアプリケーションにおいては、カメラから取得した情報を非表示にする一方、解析部によって認識された顔に対応するオブジェクト５０やオブジェクト１００のみを表示することとしてもよい。また、ビデオセッションから取得される映像情報と、解析部によって認識され得られた情報とを異なる表示レイヤーに分け、前者の情報に関するレイヤーを非表示にすることとしてもよい。

【0053】

オブジェクト５０やオブジェクト１００は、複数の動画像を表示する領域がある場合には、すべての領域又は一部の領域のみに表示することとしてもよい。例えば、図８に示されるように、ゲスト側の動画像のみに表示することとしてもよい。

【0054】

以上説明した基本構成例１乃至基本構成例３において説明した発明の実施の形態は、単独の装置として実現されてもよく、一部または全部がネットワークで接続された複数の装置（例えばクラウドサーバ）等により実現されてもよい。例えば、各端末１０の制御部１１０およびストレージ１３０は、互いにネットワークで接続された異なるサーバにより実現されてもよい。即ち、本システムは、ユーザ端末１０、２０と、ユーザ端末１０、２０に双方向のビデオセッションを提供するビデオセッションサービス端末３０と、ビデオセッションに関する評価を行う評価端末４０とを含んでいるところ、以下のような構成のバリエーション組み合わせが考えられる。
（１）すべてをユーザ端末のみで処理
図８に示されるように、解析部による処理をビデオセッションを行っている端末で行うことにより、（一定の処理能力は必要なものの）ビデオセッションを行っている時間と同時に（リアルタイムに）分析・評価結果を得ることができる。
（２）ユーザ端末と評価端末とで処理
図９に示されるように、ネットワーク等で接続された評価端末に解析部を備えさせることとしてもよい。この場合、ユーザ端末で取得された動画像は、ビデオセッションと同時に又は事後的に評価端末に共有され、評価端末における解析部によって分析・評価されたのちに、オブジェクト５０及びオブジェクト１００の情報がユーザ端末に動画像データと共に又は別に（即ち、少なくとも解析データを含む情報が）共有され表示部に表示される。

【0055】

上述した機能構成例１乃至機能構成例３の各構成又はそれらの組み合わせを用いて、以下のシステムが実現する。

【0056】

＜実施の形態＞
本開示の一実施形態による動画像分析システム（以下、単に「システム」という）は、複数人の参加者でオンラインセッションが行われる環境において、当該参加者の全員又は特定の参加者のみを撮影することによって得られる動画像をもとに参加者の反応を解析・分析するものである。分析は、オンラインセッション中に参加者が画面に表示されているか否かによらず行われるものとしてもよい。例えば、本実施形態に係るシステム（解析部）は、動画像を分析することにより、ユーザ同士のコミュニケーションの量や頻度、そのときの感情といった内容を統計的に分析して出力する。また、上述した解析部は、ユーザの感情だけではなく、上記の動画像に基づいて発言の内容を解析する。かかる発言の内容の解析は、例えば動画像に対する公知の音声解析技術や自然言語処理技術により行われ得る。

【0057】

かかる解析の対象としては、例えば、一のユーザの言動であり得る。一のユーザの言動により、それを受けた他のユーザが反応し、かかる反応が解析され得る。この反応は、オンラインセッションにおいては見逃されやすく、フィードバックが容易ではない。特に、他人の反応に対して自己肯定感を得られにくいユーザにとっては、他人の反応を特に重要視する。

【0058】

そこで、本実施形態では、自らの言動についてより的確にフィードバックを受け、自己肯定感を高めることが可能となるシステムを実現する。

【0059】

図１０は、本実施形態に係るシステムの機能構成の一例を示す図である。図１０に示すシステムは、解析結果ＤＢ２１と、特定部２２と、評価情報生成部２３と、出力制御部２４とを備える。解析結果ＤＢ２１は、上述する記憶媒体等により実現され得る。また、特定部２２と、評価情報生成部２３と、出力制御部２４とは、例えばユーザ端末１０、２０や、評価端末４０などに設けられる記憶媒体等に記憶されるプログラムをメモリ等に読み込みＣＰＵ等のプロセッサが実行することにより実現され得る。

【0060】

解析結果ＤＢ２１は、例えば上述する各種機能部により得られる解析結果のデータを格納するデータベースである。解析結果のデータは、例えば上述したユーザの生体反応の変化から得られる解析結果のデータであってもよいし、ユーザの発言に関する解析結果のデータであってもよい。これらの解析結果は、オンラインセッションの動画像の解析により得られる。また、これらの解析結果のデータには、ユーザを特定するユーザＩＤや、ユーザに起因する動画像上の動きの解析の結果得られた解析情報、またはユーザのユーザ端末に対する入力により生成される入力情報等が、ユーザ情報として含まれてよい。

【0061】

特定部２２は、解析部により得られた生体反応の解析結果が所定の条件を満たしているタイミングに基づいて、解析対象である一のユーザとは異なる他のユーザが、一のユーザに対する言動を行っている動画像の区間を特定する機能を有する。具体的には、特定部２２は、解析結果ＤＢ２１からオンラインセッションの解析結果を取得し、一のユーザの生体反応の解析結果が所定の基準を超えたタイミングにおいて、そのような生体反応の変化を生じさせたと思われる他のユーザの言動を行っている動画像の区間を特定する。なお、特定部２２は、生体反応の解析結果が所定の基準を満たしているタイミングだけではなく、所定の基準を超える（または下回る）ような生体反応の変化が生じているタイミングも、区間の特定のための情報として用いてもよい。また、かかる動画像の区間は、例えば、生体反応の解析結果が所定の基準を満たしたタイミングと同じ区間であるか、それよりも前の区間であり得る。区間の開始または終了のタイミングは、例えば生体反応の変化が生じたタイミングまたは生体反応タイミング等に応じて定められ得る。かかる区間は、他のユーザの言動に対応する時系列の区間の前および／または後ろの言動についての解析結果のデータから得られるコンテクスト情報に基づいて、特定されてもよい。なお、かかるコンテクスト情報は、前後の区間に含まれる言動に関する情報の解析結果だけではなく、例えば他のユーザの生体反応の変化の解析結果を用いてもよい。所定の基準とは、例えば、ユーザのポジティブな生体反応に対応する言動を評価したい場合は、ポジティブな反応に関する解析結果のための基準であり得る。所定の条件は、一または複数の生体反応の種類（例えば、ポジティブ、ネガティブ、楽しさ、悲しさ、怒り等）に基づく条件であり得る。

【0062】

評価情報生成部２３は、特定された発話区間に含まれる動画像に基づいて、他のユーザの言動に対する評価情報を生成する機能を有する。具体的には、評価情報生成部２３は、上記区間に含まれる動画像から他のユーザの言動に対して、評価情報を生成する。ユーザの言動は、例えば、動画像から得られる音声情報に基づく発話内容や、他のユーザの動画像の解析結果から得られる生体反応に関する内容を含みうる。発話内容については、例えば公知の音声解析技術により音声情報に対して行われる解析により取得され得る。また、評価情報生成部２３は、言動を受けた一のユーザの動画像の解析結果に基づいて、評価情報を生成してもよい。評価情報は、例えば、一のユーザの生体反応がどのような言動を受けたものであるかを特定する情報や、かかる言動がどのような属性に属するものであるか（例えばポジティブ、ネガティブ、楽しさ、悲しさ、怒り等）の情報や、該言動の適正さ等のフィードバックに関する情報を含みうる。このような評価情報を生成することで、他のユーザが一のユーザに与えた言動の影響を把握することができ、話し相手に対する影響をより適切に認知することができる。

【0063】

図１１は、本実施形態に係る評価対象区間の特定の例について説明するための図である。図１１に示すグラフ１０００は、オンラインセッションにおいてユーザＡとユーザＢが会話をしているときの、ユーザＢの生体反応の解析結果を示したグラフ（反応グラフ）と、ユーザＡとユーザＢのそれぞれの発話区間を示している。このとき、まず特定部２２は、例えばユーザＡが発話しているときにユーザＢの反応グラフの値が所定の基準を満たしているか、または所定の基準を満たす（下回る）ような変化を見せている区間１００１、１００２を特定する。次に、特定部２２は、区間１００１、１００２に対応するユーザＡの発話区間１００５、１００６を特定する。評価情報生成部２３は、かかる発話区間１００５、１００６におけるユーザＡの言動に基づいて評価情報を生成し得る。

【0064】

なお、発話区間１００６は、発話区間１００５と異なり、ユーザＢの反応グラフの値が所定の基準を満たしている区間１００２の開始タイミングよりも前の、生体反応の解析結果の値が低い区間も含めた区間１００４に対応する発話区間も含めている。これにより、どの言動がきっかけでユーザＢの反応が変化したかをより詳細に知ることができる。

【0065】

なお、特定部２２は、ユーザＢの発話区間においても、ユーザＢの反応グラフの値が所定の基準を満たしている区間１００３に対応するユーザＢの発話区間１００７を特定し、評価情報生成部２３が、かかる発話区間１００７におけるユーザＢの言動に基づいて評価情報を生成してもよい。これにより、ユーザＢがどのような言動を行っているときにユーザＢの心理にどのような影響を与えているかを把握することができる。

【0066】

出力制御部２４は、特定された区間における評価情報を出力する機能を有し得る。出力制御部２４は、例えば評価情報を、評価結果に応じて表示態様を変化させて出力してもよい。例えば、本実施形態の例示においては、オンラインセッションにおけるユーザＡによるユーザＢに対する言動についてユーザＢに所定の基準についていい影響を与えた場合は、かかる言動に関する情報について、色彩によるヒートマップやオブジェクトの形状等の表示態様を変化させて、ユーザ端末１０、２０等の画面に出力してもよい。これにより直感的にユーザＡへのフィードバックの結果を把握することができる。

【0067】

また、出力制御部２４は、言動に関する評価情報を、言動に対応する区間と紐付けて出力してもよい。これにより、どの区間における言動がユーザにとって良い（または悪い）ものであったかどうかを容易に把握することができる。なお、出力制御部２４による評価情報の出力態様は特に限定されない。

【0068】

また、出力制御部２４は、生成された評価情報が所定の条件を満たす場合に、評価情報に基づくユーザに対するフィードバック情報をユーザ端末１０、２０に出力する機能を有してもよい。所定の条件とは、例えば、評価情報が、評価対象である言動が解析対象であるユーザに対してポジティブなものであったかどうか等を含みうる。つまり、一のユーザの動画像の解析結果が、ポジティブな生体反応が優位であることが判明した場合に、かかる解析に対応する言動の内容が、相手にとってポジティブなものであることを示す評価情報が得られている場合に、出力制御部２４はかかる評価情報に基づいてフィードバック情報として出力する。かかる所定の条件は、ポジティブなものに限られず、ネガティブ、楽しさ、悲しさ、怒り等の種々の感情に基づく基準等であってもよい。

【0069】

また、出力制御部２４は、かかるフィードバック情報として、所定の条件を満たす評価情報とともに、評価情報と紐づけられ記ユーザの言動が含まれる動画像に関する情報を出力してもよい。例えば、出力制御部２４は、評価情報がポジティブなものであるという条件を満たす場合に、かかる評価情報とともに、ポジティブな印象を与えたとされる言動を含む動画像を出力してもよい。これにより、どのような言動が相手を喜ばせるものか、ユーザにとって有用なものであるかを容易に把握することができる。かかる動画像は、言動を含む区間を抽出したものであってもよい。また、動画像ではなく、言動に関するテキスト情報や、言動をしているときの動画像の解析結果等が出力されてもよい。

【0070】

図１２は、本実施形態に係るシステムによる処理の流れの一例を示すフローチャートである。まず、特定部２２は、解析結果が所定の基準を満たしたタイミングに基づいて、ユーザの言動の評価対象の区間を特定する（ステップＳ１０１）。次に、評価情報生成部２３は、区間におけるユーザの言動の解析を行い（ステップＳ１０３）、解析結果に基づいて評価情報を生成する（ステップＳ１０５）。

【0071】

次に、出力制御部２４は、生成された評価情報に基づいてフィードバック情報を生成し、かかる情報をユーザ端末１０、２０等に出力する（ステップＳ１０７）。

【0072】

以上、本開示の一実施形態によれば、一のユーザの言動が他のユーザに対してどのような影響を与えたかを評価することができる。特に、どの言動が一のユーザにとって有用であり、相手を喜ばせたものであるかなど、自らの言動をポジティブにとらえることができ、自己肯定感を高めることができる。

【0073】

本明細書においてフローチャート図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

【0074】

以上説明した実施の形態を適宜組み合わせて実施することとしてもよい。また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

【符号の説明】

【0075】

１０、２０ユーザ端末
２２特定部
２３評価情報生成部
２４出力制御部
３０ビデオセッションサービス端末
４０評価端末

【図1】