IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通クライアントコンピューティング株式会社の特許一覧

<>
  • 特開-遠隔会議システム及びプログラム 図1
  • 特開-遠隔会議システム及びプログラム 図2
  • 特開-遠隔会議システム及びプログラム 図3
  • 特開-遠隔会議システム及びプログラム 図4
  • 特開-遠隔会議システム及びプログラム 図5
  • 特開-遠隔会議システム及びプログラム 図6
  • 特開-遠隔会議システム及びプログラム 図7
  • 特開-遠隔会議システム及びプログラム 図8
  • 特開-遠隔会議システム及びプログラム 図9
  • 特開-遠隔会議システム及びプログラム 図10
  • 特開-遠隔会議システム及びプログラム 図11
  • 特開-遠隔会議システム及びプログラム 図12
  • 特開-遠隔会議システム及びプログラム 図13
  • 特開-遠隔会議システム及びプログラム 図14
  • 特開-遠隔会議システム及びプログラム 図15
  • 特開-遠隔会議システム及びプログラム 図16
  • 特開-遠隔会議システム及びプログラム 図17
  • 特開-遠隔会議システム及びプログラム 図18
  • 特開-遠隔会議システム及びプログラム 図19
  • 特開-遠隔会議システム及びプログラム 図20
  • 特開-遠隔会議システム及びプログラム 図21
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023020622
(43)【公開日】2023-02-09
(54)【発明の名称】遠隔会議システム及びプログラム
(51)【国際特許分類】
   H04N 7/15 20060101AFI20230202BHJP
   G06F 3/16 20060101ALI20230202BHJP
   G06F 3/01 20060101ALI20230202BHJP
   G10L 25/63 20130101ALI20230202BHJP
【FI】
H04N7/15
G06F3/16 650
G06F3/16 620
G06F3/01 510
G10L25/63
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021126092
(22)【出願日】2021-07-30
(71)【出願人】
【識別番号】518133201
【氏名又は名称】富士通クライアントコンピューティング株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】渡 正一
【テーマコード(参考)】
5C164
5E555
【Fターム(参考)】
5C164FA10
5C164UB41S
5C164UB81S
5C164VA07P
5C164YA12
5E555AA48
5E555AA61
5E555AA76
5E555BA02
5E555BA13
5E555BB02
5E555BB13
5E555BC17
5E555BD09
5E555CA02
5E555CA47
5E555CB03
5E555CB05
5E555CB64
5E555DB03
5E555DB18
5E555DB32
5E555DB44
5E555DC13
5E555DC18
5E555DD02
5E555DD06
5E555DD07
5E555EA05
5E555EA07
5E555EA08
5E555EA09
5E555EA19
5E555EA20
5E555EA23
5E555FA00
(57)【要約】
【課題】参加者の感情や体調に基づく状態を正確に把握し、参加者の状態に応じて会議を円滑に進めることを可能にする。
【解決手段】遠隔会議システムは、第1情報処理装置を使用する第1参加者の音声データに基づいて第1参加者の感情に関する感情情報を生成する感情判定部と、第1参加者の画像データに基づいて第1参加者の体調に関する体調情報を生成する体調判定部と、感情情報又は体調情報の少なくとも一方に基づいて、第1情報処理装置以外の第2情報処理装置を使用する第2参加者が第1参加者に対して発信する声かけ文言の候補を示す声かけ情報を含む支援情報を生成する支援処理部と、を備える。
【選択図】図3
【特許請求の範囲】
【請求項1】
ネットワークを介して接続された複数の情報処理装置の間で情報の送受を可能にする遠隔会議システムであって、
第1情報処理装置を使用する第1参加者の音声データに基づいて前記第1参加者の感情に関する感情情報を生成する感情判定部と、
前記第1参加者の画像データに基づいて前記第1参加者の体調に関する体調情報を生成する体調判定部と、
前記感情情報又は前記体調情報の少なくとも一方に基づいて、前記第1情報処理装置以外の第2情報処理装置を使用する第2参加者が前記第1参加者に対して発信する声かけ文言の候補を示す声かけ情報を含む支援情報を生成する支援処理部と、
を備える遠隔会議システム。
【請求項2】
前記支援情報は、前記感情情報又は前記体調情報の少なくとも一方に基づいて生成された前記第1参加者の状態を視覚的に表現するための状態表現情報を含む、
請求項1に記載の遠隔会議システム。
【請求項3】
前記第2情報処理装置のディスプレイに支援画像を表示させる出力部を更に備え、
前記支援画像は、前記状態表現情報に基づいて前記第1参加者の状態を視覚的に表現する第1表示領域と、前記第1参加者の状態に対応する前記声かけ文言の候補が表示される第2表示領域とを含む、
請求項2に記載の遠隔会議システム。
【請求項4】
前記声かけ文言の発信を前記第2情報処理装置から前記第1情報処理装置に対してのみ可能にする直接発信処理部、
を更に備える請求項1~3のいずれか1項に記載の遠隔会議システム。
【請求項5】
前記感情判定部、前記体調判定部、及び前記支援処理部は、学習済みモデルを利用して構成される、
請求項1~4のいずれか1項に記載の遠隔会議システム。
【請求項6】
前記音声データ、前記画像データ、前記感情情報、前記体調情報、及び前記支援情報が記憶される中間記憶部、
を更に備える請求項5に記載の遠隔会議システム。
【請求項7】
ネットワークを介して接続された複数の情報処理装置の間で情報の送受を可能にするシステムにおいて利用されるコンピュータに、
第1情報処理装置を使用する第1参加者の音声データに基づいて前記第1参加者の感情に関する感情情報を生成する処理と、
前記第1参加者の画像データに基づいて前記第1参加者の体調に関する体調情報を生成する処理と、
前記感情情報又は前記体調情報の少なくとも一方に基づいて、前記第1情報処理装置以外の第2情報処理装置を使用する第2参加者が前記第1参加者に対して発信する声かけ文言の候補を示す声かけ情報を含む支援情報を生成する処理と、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、遠隔会議システム及びプロブラムに関する。
【背景技術】
【0002】
近年、ネットワークに接続された複数の情報処理装置を利用してリアルタイムに画像や音声のやり取りを行うことにより、地理的に離れた場所での会議を可能にする遠隔会議システムが利用されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006-262010号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記のようなシステムを利用して会議を行う場合、実際に対面して会議を行う場合に比べ、参加者の感情や体調を把握することが困難である。
【0005】
そこで、本開示の課題の一つは、参加者の感情や体調に基づく状態を正確に把握し、参加者の状態に応じて会議を円滑に進めることが可能な遠隔会議システム及びプログラムを提供することである。
【課題を解決するための手段】
【0006】
本開示の第1態様は、ネットワークを介して接続された複数の情報処理装置の間で情報の送受を可能にする遠隔会議システムであって、第1情報処理装置を使用する第1参加者の音声データに基づいて前記第1参加者の感情に関する感情情報を生成する感情判定部と、前記第1参加者の画像データに基づいて前記第1参加者の体調に関する体調情報を生成する体調判定部と、前記感情情報又は前記体調情報の少なくとも一方に基づいて、前記第1情報処理装置以外の第2情報処理装置を使用する第2参加者が前記第1参加者に対して発信する声かけ文言の候補を示す声かけ情報を含む支援情報を生成する支援処理部と、を備えるものである。
【0007】
また、本開示の第2態様は、ネットワークを介して接続された複数の情報処理装置の間で情報の送受を可能にするシステムにおいて利用されるコンピュータに、第1情報処理装置を使用する第1参加者の音声データに基づいて前記第1参加者の感情に関する感情情報を生成する処理と、前記第1参加者の画像データに基づいて前記第1参加者の体調に関する体調情報を生成する処理と、前記感情情報又は前記体調情報の少なくとも一方に基づいて、前記第1情報処理装置以外の第2情報処理装置を使用する第2参加者が前記第1参加者に対して発信する声かけ文言の候補を示す声かけ情報を含む支援情報を生成する処理と、を実行させるプログラムである。
【発明の効果】
【0008】
本開示によれば、参加者の感情や体調に基づく状態を正確に把握し、参加者の状態に応じて会議を円滑に進めることが可能となる。
【図面の簡単な説明】
【0009】
図1図1は、第1実施形態にかかる遠隔会議システムの概略的な構成の一例を示す図である。
図2図2は、第1実施形態にかかる情報処理装置のハードウェア構成の一例を示すブロック図である。
図3図3は、第1実施形態にかかる遠隔会議システムの機能構成の一例を示すブロック図である。
図4図4は、第1実施形態にかかる感情判定部の構成の一例を示す図である。
図5図5は、第1実施形態にかかる体調判定部の構成の一例を示す図である。
図6図6は、第1実施形態にかかる支援処理部の構成の一例の示す図である。
図7図7は、第1実施形態にかかる声かけ文言選択モデルによる処理の一例を示す図である。
図8図8は、第1実施形態にかかる文書DBに記憶されるデータのデータ構造の一例を示す図である。
図9図9は、第1実施形態にかかる文書DBに記憶されるデータの具体例を示す図である。
図10図10は、第1実施形態にかかる中間DBに記憶されるデータのデータ構造の一例を示す図である。
図11図11は、第1実施形態にかかる支援画像の一例を示す図である。
図12図12は、第1実施形態にかかる声かけ支援画像の第1例を示す図である。
図13図13は、第1実施形態にかかる声かけ支援画像の第2例を示す図である。
図14図14は、第1実施形態にかかる遠隔会議システムにおける処理の一例を示すフローチャートである。
図15図15は、第2実施形態にかかる支援処理部の構成の一例を示す図である。
図16図16は、第2実施形態にかかる支援画像の一例を示す図である。
図17図17は、第2実施形態において第2情報処理装置から第1情報処理装置に対し声かけ文言を直接発信する際の処理の一例を示すフローチャートである。
図18図18は、第3実施形態にかかる支援画像の一例を示す図である。
図19図19は、第3実施形態において第2情報処理装置から第1情報処理装置に対し声かけ文言を直接発信する際の処理の一例を示すフローチャートである。
図20図20は、第4実施形態にかかる遠隔会議システムの概略的な構成の一例を示す図である。
図21図21は、第4実施形態にかかるサーバの機能構成の一例を示すブロック図である。
【発明を実施するための形態】
【0010】
以下、本開示の実施形態を図面に基づいて説明する。以下に記載する実施形態の構成、並びに当該構成によってもたらされる作用及び効果は、あくまで一例であって、以下の記載内容に限られるものではない。
【0011】
(第1実施形態)
図1は、第1実施形態にかかる遠隔会議システム1の概略的な構成の一例を示す図である。本実施形態にかかる遠隔会議システム1は、複数の情報処理装置11A~11Dと、ネットワーク12とを含む。複数の情報処理装置11A~11Dのそれぞれは、画像及び音声の入出力が可能な端末装置であり、例えばパーソナルコンピュータ等であり得る。ここでは、複数の情報処理装置11A~11Dのそれぞれが複数の会議の参加者10A~10Dのそれぞれにより操作される状態が例示されている。ネットワーク12は、複数の情報処理装置11A~11Dを互いに通信可能に接続するネットワークであり、例えばWAN(Wide Area Network)、LAN(Local Area Network)等であり得る。複数の情報処理装置11A~11Dのそれぞれにはディスプレイ、カメラ、ヘッドセット(スピーカ及びマイク)等が接続され、複数の参加者10A~10Dのそれぞれは、他の参加者10A~10Dの映像や音声をリアルタイムに視聴しながら会議を進行できる。以下、複数の参加者10A~10Dを区別する必要がない場合には、それらを参加者10と記載する場合がある。また、複数の情報処理装置11A~11Dを区別する必要がない場合には、それらを情報処理装置11と記載する場合がある。
【0012】
図2は、第1実施形態にかかる情報処理装置11のハードウェア構成の一例を示すブロック図である。ここで例示する情報処理装置11は、汎用コンピュータと同様の構成を有し、CPU(Central Processing Unit)21、RAM(Random Access Memory)22、ROM(Read Only Memory)23、補助記憶装置24、ユーザI/F(Interface)25、及び通信I/F26を備える。
【0013】
CPU21は、ROM23や補助記憶装置24に記憶されたプログラムに従いRAM22をワーキングエリアとして所定の演算処理を行う。補助記憶装置24は、不揮発性メモリであり、CPU21の処理に必要な各種データを記憶する。ユーザI/F25は、ユーザ(参加者10)と情報処理装置11との間で情報の送受を可能にするデバイスであり、ディスプレイ、キーボード、カメラ、スピーカ、マイク等であり得る。通信I/F26は、ネットワーク20を介して他の情報処理装置11と所定の規格に準じた通信を確立するためのデバイスである。なお、情報処理装置11の構成は上記に限定されるものではない。
【0014】
図3は、第1実施形態にかかる遠隔会議システム1の機能構成の一例を示すブロック図である。本実施形態にかかる遠隔会議システム1は、音声データ取得部101、画像データ取得部102、感情判定部103、体調判定部104、支援処理部105、及び出力部106を有する。これらの機能的構成要素101~106は、例えば図2に例示するような情報処理装置11のハードウェア要素とソフトウェア要素(ROM23や補助記憶装置24に記憶されたプログラム等)との協働により構成され得る。
【0015】
音声データ取得部101は、参加者10が発する音声の音声データを取得する。
【0016】
画像データ取得部102は、参加者10を撮像して得られた画像の画像データを取得する。
【0017】
感情判定部103は、音声データ取得部101により取得された音声データに基づいて、当該音声データに対応する参加者10の感情を判定し、当該参加者10の感情に関する感情情報を生成する。
【0018】
体調判定部104は、画像データ取得部102により取得された画像データに基づいて、当該画像データに対応する参加者10の体調を判定し、当該参加者10の体調に関する体調情報を生成する。
【0019】
支援処理部105は、感情判定部103により生成された感情情報又は体調判定部104により生成された体調情報の少なくとも一方に基づいて支援情報を生成する。支援情報とは、会議を円滑に進行させるための情報である。支援処理部105は、支援情報として、声かけ文言情報を生成する。声かけ文言情報とは、感情判定又は体調判定の対象となった第1参加者10(感情判定に使用された音声を発した者又は体調判定に使用された画像を撮像された者)以外の第2参加者10が、当該第1参加者10に対して発信する声かけ文言の候補を示す情報である。声かけ文言とは、相手(第1参加者10)の状態に応じて定められる任意の文言(メッセージ)であり、主に相手の気持ちを向上させることを目的とする文言である。また、支援処理部105は、支援情報として、第1参加者10の状態を視覚的に表現するための状態表現情報を生成してもよい。声かけ文言情報及び状態表現情報については後述する。
【0020】
出力部106は、支援処理部105により生成された支援情報を含む支援画像を第2参加者10が使用する情報処理装置11(第2情報処理装置)のディスプレイに表示させる。
【0021】
上記構成により、第2参加者10は、第1参加者10に対して第1参加者10の状態(感情や体調)に適合した声かけを行いやすくなり、会議の円滑化を図ることができる。
【0022】
図4は、第1実施形態にかかる感情判定部103の構成の一例を示す図である。本実施形態にかかる感情判定部103は、機械学習により生成された学習済みモデルである感情予測モデル121を利用して参加者10の感情を判定(予測)する。感情予測モデル121は、参加者10の音声の音声データ111の入力に対して感情の種別を示す感情情報151を出力する。図4に例示する感情情報151は、所定のパラメータからなる判定値が70%より大きい場合には「興奮」であり、当該判定値が40%より大きく70%以下である場合には「安定」であり、当該判定値が40%以下である場合には「不安」であることを示している。
【0023】
本実施形態においては、音声データ111及び感情情報151は中間DB(Data Base)131に記憶される。中間DB131の具体的構成は、そこに記憶されているデータが、第2参加者10が使用する情報処理装置11により利用可能であればどのような構成であってもよいが、例えば第2参加者10が使用する情報処理装置11の補助記憶装置24等を利用して構成され得る。
【0024】
図5は、第1実施形態にかかる体調判定部104の構成の一例を示す図である。本実施形態にかかる体調判定部104は、機械学習により生成された学習済みモデルである体調予測モデル122を利用して参加者10の体調を判定(予測)する。体調予測モデル122は、参加者10の画像の画像データ112の入力に対して体調の種別を示す体調情報152を出力する。図5に例示する体調情報152は、所定のパラメータからなる判定値が70%より大きい場合には「元気」であり、当該判定値が40%より大きく70%以下である場合には「普通」であり、当該判定値が40%以下である場合には「不調」であることを示している。画像データ112及び体調情報152は、中間DB131に記憶される。
【0025】
図6は、第1実施形態にかかる支援処理部105の構成の一例の示す図である。本実施形態にかかる支援処理部105は、声かけ文言選択モデル123及び状態表現情報生成部125を含む。声かけ文言選択モデル123は、機械学習により生成された学習済みモデルである。声かけ文言選択モデル123は、上記のように生成された感情情報151又は体調情報152に基づいて、予め複数の声かけ文言が記憶された文言DB132から参加者10の状態に適合する声かけ文言を選択し、選択した1以上の声かけ文言の候補を示す声かけ文言情報を生成する。状態表現情報生成部125は、感情情報151又は体調情報152に基づいて第1参加者10の状態を第2参加者10が使用する情報処理装置11のディスプレイにおいて視覚的に表現するための状態表現情報を生成する。支援処理部105は、上記のような声かけ文言情報及び状態表現情報を支援情報として出力する。支援情報は、中間DB13に記憶される。
【0026】
図7は、第1実施形態にかかる声かけ文言選択モデル123による処理の一例を示す図である。図7において、第1参加者10の感情が「安定」であり、体調が「元気」である場合の例が示されている。このような場合、声かけ文言選択モデル123は、文言DB132から「何か問題はありませんか?」、「何か課題はありませんか?」、「納期に問題はないですか?」等の声かけ文言を選択(抽出)し、これらを声かけ文言の候補とする声かけ文言情報153を出力する。また、第1参加者10の感情が「不安」であったり、体調が「不調」であったりする場合には、第1参加者10を労わるような声かけ文言が候補として選択される。
【0027】
図8は、第1実施形態にかかる文言DB132に記憶されるデータのデータ構造の一例を示す図である。文言DB132に記憶されるデータは、種別、判定値、及びテキストデータに区分されている。種別の区分には、感情に対応することを示す「感情」又は体調に対応することを示す「体調」が格納される。判定値の区分には、感情判定部103又は体調判定部104の処理により使用された判定値が格納される。テキストデータの区分には、声かけ文言を構成するテキストが格納される。
【0028】
図9は、第1実施形態にかかる文言DB132に記憶されるデータの具体例を示す図である。図9において、左列には感情の判定値に対応する声かけ文言が例示され、右列には体調の判定値に対応する声かけ文言が例示されている。図9に示すように、相手(第1参加者10)の感情又は体調に適合する文言が予め登録されている。
【0029】
図10は、第1実施形態にかかる中間DB131に記憶されるデータのデータ構造の一例を示す図である。中間DB131に記憶されるデータは、種別、ウィンドウID、処理ID、データサイズ、及びデータ情報に区分されている。種別の区分には、音声、画像、又はテキスト(声かけ文言)のいずれかが格納される。ウィンドウIDの区分には、対象となるウィンドウ(第2参加者10が使用している情報処理装置11のディスプレイにおいて第1参加者10に対応するウィンドウ)を特定する識別情報が格納される。処理IDの区分には、処理の対象となるデータを特定する識別情報が格納される。データ情報の区分には、種別に対応するデータ自体が格納される。
【0030】
図11は、第1実施形態にかかる支援画像161の一例を示す図である。支援画像161は、遠隔会議システム1による遠隔会議の実行中において、特定の参加者10が使用する情報処理装置11のディスプレイに表示される。特定の参加者10は、第2参加者に該当し、例えば会議全体を管理する立場にある者等であり得る。
【0031】
図11に例示する支援画像161は、図1において参加者10Dが使用する情報処理装置11Dのディスプレイに表示されるものであり、他の参加者10A~10Cのそれぞれに割り当てられたウィンドウ171A~171Cを含んでいる。ウィンドウ171Aには情報処理装置11Aを使用している参加者10Aの映像が映し出され、ウィンドウ171Bには情報処理装置11Bを使用している参加者10Bの映像が映し出され、ウィンドウ171Cには情報処理装置11Cを使用している参加者10Cの映像が映し出されている。また、ウィンドウ171A~171Cのそれぞれには、表情アイコン181が含まれている。表情アイコン181は、各参加者10A~10Cの状態を視覚的に示す状態表示情報の一例である。すなわち、ウィンドウ171Aの表情アイコン181は参加者10Aの状態を示し、ウィンドウ171Bの表情アイコン181は参加者10Bの状態を示し、ウィンドウ171Cの表情アイコン181は参加者10Cの状態を示している。図11に示す例では、参加者10Aは良好な状態であり、参加者10Bは普通の状態であり、参加者10Cは不調の状態である。
【0032】
図12は、第1実施形態にかかる声かけ支援画像185の第1例を示す図である。声かけ支援画像185は、ある参加者10が他の参加者10に対して行う声かけを支援するための画像である。図12には、情報処理装置11Dを使用している参加者10D(第2参加者の一例)が、情報処理装置11Aを使用している参加者10A(第1参加者の一例)に対して行う声かけを支援するための声かけ支援画像185が例示されている。本実施形態においては、情報処理装置11Dのディスプレイ上でカーソル175を参加者10Aに対応するウィンドウ171A内の表情アイコン181に合わせることにより、声かけ支援画像185が表示される。本実施形態にかかる声かけ支援画像185には、参加者10Aの状態を文字で表現する状態メッセージ186と、参加者10Aの状態に適合した声かけ文言リスト187とが含まれている。図12に示される例では、参加者10Aの状態は「元気です」であり、参加者10Dから参加者10Aへの声かけ文言の候補として「何かいいことがありましたか?」及び「作業の進捗はいかがですか?」という文言が提示されている。
【0033】
図13は、第1実施形態にかかる声かけ支援画像185の第2例を示す図である。図13には、情報処理装置11Dを使用している参加者10D(第2参加者の一例)が、情報処理装置11Cを使用している参加者10C(第1参加者の一例)に対して行う声かけを支援するための声かけ支援画像185が例示されている。情報処理装置11Dのディスプレイ上でカーソル175を参加者10Cに対応するウィンドウ171C内の表情アイコン181に合わせることにより、声かけ支援画像185が表示される。図13に示される例では、参加者10Cの状態は「気分がすぐれないようです」であり、参加者10Dから参加者10Cへの声かけ文言の候補として「大丈夫ですか?」及び「何か問題ありましたか?」という文言が提示されている。
【0034】
上記のように、第2参加者10Dが使用している情報処理装置11Dのディスプレイ上に、第1参加者10A,10Cの状態に対応した声かけ文言の候補が提示される。これにより、第2参加者10Dは、第1参加者10A,10Cの状態に適した声かけをしやすくなり、会議の円滑化を図ることができる。
【0035】
図14は、第1実施形態にかかる遠隔会議システム1における処理の一例を示すフローチャートである。ここでは、参加者10Aが第1参加者であり、参加者10Dが第2参加者であるものとする。
【0036】
先ず、音声データ取得部101及び画像データ取得部102が各参加者10の音声データ111及び画像データ112を取得する(S101)。出力部106は第2参加者10D以外の参加者10A~10Cのそれぞれについてウィンドウ171A~171Cを作成し、情報処理装置11Dのディスプレイに表示させる(S102)。取得された音声データは中間DB131に登録(記憶)され(S103)、取得された画像データ112が中間DB131に登録される(S104)。
【0037】
感情判定部103は中間DB131から第1参加者10Aの音声データ111を抽出し(S201)、当該音声データ111に基づいて感情予測モデル121により第1参加者10Aの感情を予測し、第1参加者10Aの感情に関する感情情報151を生成する(S202)。また、体調判定部104は中間DB131から第1参加者10Aの画像データ112を抽出し(S203)、当該画像データ112に基づいて体調予測モデル122により第1参加者10Aの体調を予測し、第1参加者10Bの体調に関する体調情報152を生成する(S204)。その後、支援処理部105は感情情報151又は体調情報152の少なくとも一方に基づいて声かけ文言選択モデル123により第1参加者10Aの状態に適した声かけ文言の候補を示す声かけ文言情報を生成する(S205)。生成された声かけ文言情報を含む支援情報は、中間DB131に登録される。
【0038】
その後、出力部106は情報処理装置11Dのディスプレイ上のカーソル175の位置情報を取得し(S105)、カーソル175が第1参加者10Aに対応するウィンドウ171A内の表情アイコン181の位置にあるか否かを判定する(S106)。カーソル175が表情アイコン181の位置にない場合(S106:No)、ステップS105が再度実行される。カーソル175が表情アイコン181の位置にある場合(S106:Yes)、第1参加者10Aに対応する声かけ文言情報(支援情報)を中間DB131から取得し(S107)、出力部106は当該声かけ文言情報に基づく声かけ支援画像185(声かけ文言リスト187)を情報処理装置11Dのディスプレイに表示させる(S108)。
【0039】
上記のように、中間DB131を利用することにより、学習済みモデルを利用して行われるAI処理(ステップS201~S205)と、AIを利用しないメイン処理(S101~S108)との間におけるデータの受け渡しを効率的に行うことができる。
【0040】
上記実施形態によれば、参加者の感情や体調に基づく状態を正確に把握し、参加者の状態に適した声かけを行うことができる。これにより、遠隔会議を円滑に進めることが可能となる。
【0041】
以下に、他の実施形態について図面を参照して説明するが、第1実施形態と同一又は同様の箇所については同一の符号を付してその説明を省略する場合がある。
【0042】
(第2実施形態)
図15は、第2実施形態にかかる支援処理部105の構成の一例を示す図である。本実施形態は、第2参加者10が第1参加者10に対して声かけをする際に、当該声かけが第1参加者10にのみ発信される(他の参加者10には発信されない)ようにする手段を有している点で第1実施形態と相違する。
【0043】
本実施形態にかかる支援処理部105は、直接発信処理部201を有する。直接発信処理部201は、声かけ文言の発信を、第2参加者10(例えば参加者10D)が使用する第2情報処理装置11(例えば情報処理装置11D)から第1参加者10(例えば参加者10C)が使用する第1情報処理装置11(例えば情報処理装置11C)に対してのみ可能にするための処理を行う。
【0044】
図16は、第2実施形態にかかる支援画像161の一例を示す図である。ここでは、声かけの対象となる第1参加者が参加者10Cであり、声かけを行う第2参加者が参加者10Dであるものとする。第2参加者10Dが使用する第2情報処理装置11Dのディスプレイに表示される本実施形態にかかる支援画像161において、第1参加者10Cに対応するウィンドウ171Cには、直接発信用アイコン189が含まれている。第2参加者10Dがカーソル175を直接発信用アイコン189の位置に合わせて所定の操作(例えばマウスのクリック操作等)を行うと、第2参加者10Dの音声は、第1参加者10Cが使用する第1情報処理装置11Cにのみ発信され、他の情報処理装置11A,11Bには発信されない。
【0045】
図17は、第2実施形態において第2情報処理装置11Dから第1情報処理装置11Cに対し声かけ文言を直接発信する際の処理の一例を示すフローチャートである。直接発信処理部201は、第2情報処理装置11Dにおいて音声入力フラグ及び音声出力フラグをクリア(0に設定)した後(S301)、第2情報処理装置11Dの音声入力がミュート状態であるかミュート解除状態であるかを判定する(S302)。
【0046】
音声入力がミュート状態である場合(S302:ミュート)、直接発信処理部201は音声入力フラグを1に設定し(S303)、音声入力のミュート状態を解除する(S304)。その後、直接発信処理部201は第2情報処理装置11Dの音声出力がミュート状態であるかミュート解除状態であるかを判定する(S305)。音声入力がミュート解除状態である場合(S302:ミュート解除)、ステップS305が実行される。
【0047】
音声出力がミュート解除状態である場合(S305:ミュート解除)、直接発信処理部201は音声出力フラグを1に設定し(S306)、音声出力をミュート状態にする(S307)。その後、直接発信処理部201は第2情報処理装置11Dのディスプレイにおけるカーソル175の位置に対応するウィンドウIDを取得し(S308)、マイク入力から第2参加者10Dの音声データ111を作成し(S309)、取得したウィンドウIDに対応する情報処理装置、即ち第1情報処理装置11Aに音声データ111を送信するための処理を行う(S310)。
【0048】
その後、直接発信処理部201は第2情報処理装置11Dのマウスの左ボタンが押されているか否かを判定し(S311)、左ボタンが押されている場合(S311:押されている)、ステップS309に戻り、第2参加者10Dの音声データ111の第1情報処理装置11Aへの送信が継続される。一方、左ボタンが押されていない場合(S311:押されていない)、直接発信処理部201は音声入力フラグが1であるか0であるかを判定する(S312)。音声入力フラグが1である場合(S312:=1)、直接発信処理部201は第2情報処理装置11Dの音声入力をミュート状態にし(S313)、音声出力フラグが1であるか0であるかを判定する(S314)。音声入力フラグが0である場合(S312:=0)、ステップS314が実行される。音声出力フラグが1である場合(S314:=1)、直接発信処理部201は第2情報処理装置11Dの音声出力のミュート状態を解除し(S315)、本ルーチンは終了する。音声出力フラグが0である場合(S314:=0)、本ルーチンは終了する。上記のような処理により、第2参加者10Dがマウスの左ボタンを押している間に発した音声が、第1参加者10Cが使用する第1情報処理装置11Cからのみ出力されるようにすることができる。
【0049】
上記のように、本実施形態によれば、参加者10は特定の参加者10に対してのみ声かけ文言を発信することが可能となる。
【0050】
(第3実施形態)
本実施形態は、第2参加者10が第1参加者10に対してのみ声かけを行う際に、自らの発声ではなく、自動音声により当該声かけを行う手段を有している点で第2実施形態と相違する。
【0051】
図18は、第3実施形態にかかる支援画像161の一例を示す図である。ここでは、声かけの対象となる第1参加者が参加者10Cであり、声かけを行う第2参加者が参加者10Dであるものとする。第2参加者10Dが使用する第2情報処理装置11Dのディスプレイに表示される本実施形態にかかる支援画像161は、図13に示される第1実施形態にかかる支援画像161と同様であるが、カーソル175を用いて本実施形態に特有の機能が実現される。本実施形態においては、図18に示されるように、第2参加者10Dがカーソル175を声かけ文言リスト187内の所望の声かけ文言の位置に合わせて所定の操作(例えばマウスのクリック操作等)を行うと、当該声かけ文言が自動音声として第1参加者10Cが使用する第1情報処理装置11Cのみから出力される。
【0052】
図19は、第3実施形態において第2情報処理装置11Dから第1情報処理装置11Cに対し声かけ文言を直接発信する際の処理の一例を示すフローチャートである。本実施形態にかかる直接発信処理部201(図15参照)は、第2情報処理装置11Dにおいて音声入力フラグ及び音声出力フラグをクリア(0に設定)した後(S401)、第2情報処理装置11Dの音声入力がミュート状態であるかミュート解除状態であるかを判定する(S402)。
【0053】
音声入力がミュート状態である場合(S402:ミュート)、直接発信処理部201は音声入力フラグを1に設定し(S403)、音声入力のミュート状態を解除する(S404)。その後、直接発信処理部201は第2情報処理装置11Dの音声出力がミュート状態であるかミュート解除状態であるかを判定する(S405)。音声入力がミュート解除状態である場合(S402:ミュート解除)、ステップS405が実行される。
【0054】
音声出力がミュート解除状態である場合(S405:ミュート解除)、直接発信処理部201は音声出力フラグを1に設定し(S406)、音声出力をミュート状態にする(S407)。その後、直接発信処理部201は第2情報処理装置11Dのディスプレイにおけるカーソル175の位置に対応するウィンドウIDを取得し(S408)、カーソル175の位置に対応する声かけ文言のテキストデータを取得し(S409)、当該テキストデータを所定の音声合成エンジンにより音声データ111に変換する(S410)。そして、直接発信処理部201は当該音声データ111を、取得したウィンドウIDに対応する情報処理装置、即ち第1情報処理装置11Aに送信するための処理を行う(S411)。
【0055】
その後、直接発信処理部201は音声入力フラグが1であるか0であるかを判定する(S412)。音声入力フラグが1である場合(S412:=1)、直接発信処理部201は第2情報処理装置11Dの音声入力をミュート状態にし(S413)、音声出力フラグが1であるか0であるかを判定する(S414)。音声入力フラグが0である場合(S412:=0)、ステップS414が実行される。音声出力フラグが1である場合(S414:=1)、直接発信処理部201は第2情報処理装置11Dの音声出力のミュート状態を解除し(S415)、本ルーチンは終了する。音声出力フラグが0である場合(S414:=0)、本ルーチンは終了する。上記のような処理により、第2参加者10Dが声かけ文言リスト187から所望の声かけ文言を選択する操作を行うことにより、当該声かけ文言の自動音声が、第1参加者10Cが使用する第1情報処理装置11Cのみから出力されるようにすることができる。
【0056】
上記のように、本実施形態によれば、参加者10は特定の参加者10にのみ声かけ文言を自動音声により発信することが可能となる。
【0057】
(第4実施形態)
図20は、第4実施形態にかかる遠隔会議システム1の概略的な構成の一例を示す図である。本実施形態にかかる遠隔会議システム1は、サーバ301を含み、サーバ301が学習済みモデルを利用して行われる処理の少なくとも一部を実行する点で第1実施形態と相違する。
【0058】
図21は、第4実施形態にかかるサーバ301の機能構成の一例を示すブロック図である。サーバ301のハードウェア構成は特に限定されるべきものではなく、例えば図2に例示するような構成であり得る。本実施形態にかかるサーバ301は、上述した音声データ取得部101、画像データ取得部102、感情判定部103、体調判定部104、及び支援処理部105に加え、通信部311を有する。
【0059】
通信部311は、ネットワーク12に接続している複数の情報処理装置11との間で通信を確立する。通信部311は、複数の情報処理装置11のそれぞれから音声データ111及び画像データ112を受信し、支援処理部105により生成された支援情報を特定の情報処理装置11(第2参加者が使用する第2情報処理装置)に送信する。
【0060】
上記のように、比較的演算負荷が高いAI処理(感情判定部103、体調判定部104、及び支援処理部105における処理)をサーバ301に実行させることにより、情報処理装置11の演算負荷を軽減できる。
【0061】
また、上述した実施形態においては、支援情報は、感情情報151又は体調情報152の少なくとも一方に基づいて生成された第1参加者の状態を視覚的に表現するための状態表現情報を含む。これにより、参加者は他の参加者の状態を簡便に把握できる。
【0062】
また、上述した実施形態においては、第2情報処理装置のディスプレイに支援画像161を表示させる出力部106を更に備え、支援画像161は、状態表現情報に基づいて第1参加者の状態を視覚的に表現する第1表示領域(表情アイコン181が表示される領域)と、第1参加者の状態に対応する声かけ文言の候補が表示される第2表示領域(声かけ文言リスト187が表示される領域)とを含む。これにより、第2参加者は第1参加者の状態の把握と、適切な声かけ文言の選択とを簡便に行うことができる。
【0063】
また、上述した実施形態においては、声かけ文言の発信を第2情報処理装置から第1情報処理装置に対してのみ可能にする直接発信処理部201が備えられる。これにより、第1参加者以外の参加者に対する不要な声を避けることができる。
【0064】
また、上述した実施形態においては、感情判定部103、体調判定部104、及び支援処理部105は、学習済みモデルを利用して構成される。これにより、感情の予測、体調の予測、及び支援情報の生成を高い精度で行うことができる。
【0065】
また、上述した実施形態においては、音声データ111、画像データ112、感情情報151、体調情報152、及び支援情報が記憶される中間記憶部(中間DB131)が備えられる。これにより、AIを利用する処理とAIを利用しない処理との間におけるデータの受け渡しを効率的に行うことができる。
【0066】
上記機能を実現するプログラムは、例えばCPUに搭載された記憶素子に予め記憶された状態で提供され得るが、これに限定されるものではない。プログラムは、例えば、CD-ROM等の適宜な記憶媒体に記憶された状態で提供されてもよいし、インターネット等のコンピュータネットワークを介して提供されてもよい。
【0067】
以上、本発明の実施形態を説明したが、実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0068】
1…遠隔会議システム、10A~10D…参加者、11,11A~11D…情報処理装置、12…ネットワーク、101…音声データ取得部、102…画像データ取得部、103…感情判定部、104…体調判定部、105…支援処理部、106…出力部、111…音声データ、112…画像データ、121…感情予測モデル、122…体調予測モデル、123…声かけ文言選択モデル、125…状態表現情報生成部、131…中間DB(中間記憶部)、132…文言DB、151…感情情報、152…体調情報、153…声かけ文言情報、161…支援画像、171A~171C…ウィンドウ、175…カーソル、181…表情アイコン、185…声かけ支援画像、186…状態メッセージ、187…声かけ文言リスト、189…直接発信用アイコン、201…直接発信処理部、301…サーバ、311…通信部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21