特開2023-20622 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通クライアントコンピューティング株式会社の特許一覧

特開2023-20622遠隔会議システム及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023020622

(43)【公開日】2023-02-09

(54)【発明の名称】遠隔会議システム及びプログラム

(51)【国際特許分類】

H04N 7/15 20060101AFI20230202BHJP

G06F 3/16 20060101ALI20230202BHJP

G06F 3/01 20060101ALI20230202BHJP

G10L 25/63 20130101ALI20230202BHJP

【ＦＩ】

H04N7/15

G06F3/16 650

G06F3/16 620

G06F3/01 510

G10L25/63

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2021126092

(22)【出願日】2021-07-30

(71)【出願人】

【識別番号】518133201

【氏名又は名称】富士通クライアントコンピューティング株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】渡正一

【テーマコード（参考）】

5C164

5E555

【Ｆターム（参考）】

5C164FA10

5C164UB41S

5C164UB81S

5C164VA07P

5C164YA12

5E555AA48

5E555AA61

5E555AA76

5E555BA02

5E555BA13

5E555BB02

5E555BB13

5E555BC17

5E555BD09

5E555CA02

5E555CA47

5E555CB03

5E555CB05

5E555CB64

5E555DB03

5E555DB18

5E555DB32

5E555DB44

5E555DC13

5E555DC18

5E555DD02

5E555DD06

5E555DD07

5E555EA05

5E555EA07

5E555EA08

5E555EA09

5E555EA19

5E555EA20

5E555EA23

5E555FA00

(57)【要約】

【課題】参加者の感情や体調に基づく状態を正確に把握し、参加者の状態に応じて会議を円滑に進めることを可能にする。
【解決手段】遠隔会議システムは、第１情報処理装置を使用する第１参加者の音声データに基づいて第１参加者の感情に関する感情情報を生成する感情判定部と、第１参加者の画像データに基づいて第１参加者の体調に関する体調情報を生成する体調判定部と、感情情報又は体調情報の少なくとも一方に基づいて、第１情報処理装置以外の第２情報処理装置を使用する第２参加者が第１参加者に対して発信する声かけ文言の候補を示す声かけ情報を含む支援情報を生成する支援処理部と、を備える。
【選択図】図３

【特許請求の範囲】

【請求項1】

ネットワークを介して接続された複数の情報処理装置の間で情報の送受を可能にする遠隔会議システムであって、
第１情報処理装置を使用する第１参加者の音声データに基づいて前記第１参加者の感情に関する感情情報を生成する感情判定部と、
前記第１参加者の画像データに基づいて前記第１参加者の体調に関する体調情報を生成する体調判定部と、
前記感情情報又は前記体調情報の少なくとも一方に基づいて、前記第１情報処理装置以外の第２情報処理装置を使用する第２参加者が前記第１参加者に対して発信する声かけ文言の候補を示す声かけ情報を含む支援情報を生成する支援処理部と、
を備える遠隔会議システム。

【請求項2】

前記支援情報は、前記感情情報又は前記体調情報の少なくとも一方に基づいて生成された前記第１参加者の状態を視覚的に表現するための状態表現情報を含む、
請求項１に記載の遠隔会議システム。

【請求項3】

前記第２情報処理装置のディスプレイに支援画像を表示させる出力部を更に備え、
前記支援画像は、前記状態表現情報に基づいて前記第１参加者の状態を視覚的に表現する第１表示領域と、前記第１参加者の状態に対応する前記声かけ文言の候補が表示される第２表示領域とを含む、
請求項２に記載の遠隔会議システム。

【請求項4】

前記声かけ文言の発信を前記第２情報処理装置から前記第１情報処理装置に対してのみ可能にする直接発信処理部、
を更に備える請求項１～３のいずれか１項に記載の遠隔会議システム。

【請求項5】

前記感情判定部、前記体調判定部、及び前記支援処理部は、学習済みモデルを利用して構成される、
請求項１～４のいずれか１項に記載の遠隔会議システム。

【請求項6】

前記音声データ、前記画像データ、前記感情情報、前記体調情報、及び前記支援情報が記憶される中間記憶部、
を更に備える請求項５に記載の遠隔会議システム。

【請求項7】

ネットワークを介して接続された複数の情報処理装置の間で情報の送受を可能にするシステムにおいて利用されるコンピュータに、
第１情報処理装置を使用する第１参加者の音声データに基づいて前記第１参加者の感情に関する感情情報を生成する処理と、
前記第１参加者の画像データに基づいて前記第１参加者の体調に関する体調情報を生成する処理と、
前記感情情報又は前記体調情報の少なくとも一方に基づいて、前記第１情報処理装置以外の第２情報処理装置を使用する第２参加者が前記第１参加者に対して発信する声かけ文言の候補を示す声かけ情報を含む支援情報を生成する処理と、
を実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、遠隔会議システム及びプロブラムに関する。

【背景技術】

【0002】

近年、ネットワークに接続された複数の情報処理装置を利用してリアルタイムに画像や音声のやり取りを行うことにより、地理的に離れた場所での会議を可能にする遠隔会議システムが利用されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２００６－２６２０１０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

上記のようなシステムを利用して会議を行う場合、実際に対面して会議を行う場合に比べ、参加者の感情や体調を把握することが困難である。

【0005】

そこで、本開示の課題の一つは、参加者の感情や体調に基づく状態を正確に把握し、参加者の状態に応じて会議を円滑に進めることが可能な遠隔会議システム及びプログラムを提供することである。

【課題を解決するための手段】

【0006】

本開示の第１態様は、ネットワークを介して接続された複数の情報処理装置の間で情報の送受を可能にする遠隔会議システムであって、第１情報処理装置を使用する第１参加者の音声データに基づいて前記第１参加者の感情に関する感情情報を生成する感情判定部と、前記第１参加者の画像データに基づいて前記第１参加者の体調に関する体調情報を生成する体調判定部と、前記感情情報又は前記体調情報の少なくとも一方に基づいて、前記第１情報処理装置以外の第２情報処理装置を使用する第２参加者が前記第１参加者に対して発信する声かけ文言の候補を示す声かけ情報を含む支援情報を生成する支援処理部と、を備えるものである。

【0007】

また、本開示の第２態様は、ネットワークを介して接続された複数の情報処理装置の間で情報の送受を可能にするシステムにおいて利用されるコンピュータに、第１情報処理装置を使用する第１参加者の音声データに基づいて前記第１参加者の感情に関する感情情報を生成する処理と、前記第１参加者の画像データに基づいて前記第１参加者の体調に関する体調情報を生成する処理と、前記感情情報又は前記体調情報の少なくとも一方に基づいて、前記第１情報処理装置以外の第２情報処理装置を使用する第２参加者が前記第１参加者に対して発信する声かけ文言の候補を示す声かけ情報を含む支援情報を生成する処理と、を実行させるプログラムである。

【発明の効果】

【0008】

本開示によれば、参加者の感情や体調に基づく状態を正確に把握し、参加者の状態に応じて会議を円滑に進めることが可能となる。

【図面の簡単な説明】

【0009】

【図1】図１は、第１実施形態にかかる遠隔会議システムの概略的な構成の一例を示す図である。

【図2】図２は、第１実施形態にかかる情報処理装置のハードウェア構成の一例を示すブロック図である。

【図3】図３は、第１実施形態にかかる遠隔会議システムの機能構成の一例を示すブロック図である。

【図4】図４は、第１実施形態にかかる感情判定部の構成の一例を示す図である。

【図5】図５は、第１実施形態にかかる体調判定部の構成の一例を示す図である。

【図6】図６は、第１実施形態にかかる支援処理部の構成の一例の示す図である。

【図7】図７は、第１実施形態にかかる声かけ文言選択モデルによる処理の一例を示す図である。

【図8】図８は、第１実施形態にかかる文書ＤＢに記憶されるデータのデータ構造の一例を示す図である。

【図9】図９は、第１実施形態にかかる文書ＤＢに記憶されるデータの具体例を示す図である。

【図10】図１０は、第１実施形態にかかる中間ＤＢに記憶されるデータのデータ構造の一例を示す図である。

【図11】図１１は、第１実施形態にかかる支援画像の一例を示す図である。

【図12】図１２は、第１実施形態にかかる声かけ支援画像の第１例を示す図である。

【図13】図１３は、第１実施形態にかかる声かけ支援画像の第２例を示す図である。

【図14】図１４は、第１実施形態にかかる遠隔会議システムにおける処理の一例を示すフローチャートである。

【図15】図１５は、第２実施形態にかかる支援処理部の構成の一例を示す図である。

【図16】図１６は、第２実施形態にかかる支援画像の一例を示す図である。

【図17】図１７は、第２実施形態において第２情報処理装置から第１情報処理装置に対し声かけ文言を直接発信する際の処理の一例を示すフローチャートである。

【図18】図１８は、第３実施形態にかかる支援画像の一例を示す図である。

【図19】図１９は、第３実施形態において第２情報処理装置から第１情報処理装置に対し声かけ文言を直接発信する際の処理の一例を示すフローチャートである。

【図20】図２０は、第４実施形態にかかる遠隔会議システムの概略的な構成の一例を示す図である。

【図21】図２１は、第４実施形態にかかるサーバの機能構成の一例を示すブロック図である。

【発明を実施するための形態】

【0010】

以下、本開示の実施形態を図面に基づいて説明する。以下に記載する実施形態の構成、並びに当該構成によってもたらされる作用及び効果は、あくまで一例であって、以下の記載内容に限られるものではない。

【0011】

（第１実施形態）
図１は、第１実施形態にかかる遠隔会議システム１の概略的な構成の一例を示す図である。本実施形態にかかる遠隔会議システム１は、複数の情報処理装置１１Ａ～１１Ｄと、ネットワーク１２とを含む。複数の情報処理装置１１Ａ～１１Ｄのそれぞれは、画像及び音声の入出力が可能な端末装置であり、例えばパーソナルコンピュータ等であり得る。ここでは、複数の情報処理装置１１Ａ～１１Ｄのそれぞれが複数の会議の参加者１０Ａ～１０Ｄのそれぞれにより操作される状態が例示されている。ネットワーク１２は、複数の情報処理装置１１Ａ～１１Ｄを互いに通信可能に接続するネットワークであり、例えばＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）等であり得る。複数の情報処理装置１１Ａ～１１Ｄのそれぞれにはディスプレイ、カメラ、ヘッドセット（スピーカ及びマイク）等が接続され、複数の参加者１０Ａ～１０Ｄのそれぞれは、他の参加者１０Ａ～１０Ｄの映像や音声をリアルタイムに視聴しながら会議を進行できる。以下、複数の参加者１０Ａ～１０Ｄを区別する必要がない場合には、それらを参加者１０と記載する場合がある。また、複数の情報処理装置１１Ａ～１１Ｄを区別する必要がない場合には、それらを情報処理装置１１と記載する場合がある。

【0012】

図２は、第１実施形態にかかる情報処理装置１１のハードウェア構成の一例を示すブロック図である。ここで例示する情報処理装置１１は、汎用コンピュータと同様の構成を有し、ＣＰＵ（Central Processing Unit）２１、ＲＡＭ（Random Access Memory）２２、ＲＯＭ（Read Only Memory）２３、補助記憶装置２４、ユーザＩ／Ｆ（Interface）２５、及び通信Ｉ／Ｆ２６を備える。

【0013】

ＣＰＵ２１は、ＲＯＭ２３や補助記憶装置２４に記憶されたプログラムに従いＲＡＭ２２をワーキングエリアとして所定の演算処理を行う。補助記憶装置２４は、不揮発性メモリであり、ＣＰＵ２１の処理に必要な各種データを記憶する。ユーザＩ／Ｆ２５は、ユーザ（参加者１０）と情報処理装置１１との間で情報の送受を可能にするデバイスであり、ディスプレイ、キーボード、カメラ、スピーカ、マイク等であり得る。通信Ｉ／Ｆ２６は、ネットワーク２０を介して他の情報処理装置１１と所定の規格に準じた通信を確立するためのデバイスである。なお、情報処理装置１１の構成は上記に限定されるものではない。

【0014】

図３は、第１実施形態にかかる遠隔会議システム１の機能構成の一例を示すブロック図である。本実施形態にかかる遠隔会議システム１は、音声データ取得部１０１、画像データ取得部１０２、感情判定部１０３、体調判定部１０４、支援処理部１０５、及び出力部１０６を有する。これらの機能的構成要素１０１～１０６は、例えば図２に例示するような情報処理装置１１のハードウェア要素とソフトウェア要素（ＲＯＭ２３や補助記憶装置２４に記憶されたプログラム等）との協働により構成され得る。

【0015】

音声データ取得部１０１は、参加者１０が発する音声の音声データを取得する。

【0016】

画像データ取得部１０２は、参加者１０を撮像して得られた画像の画像データを取得する。

【0017】

感情判定部１０３は、音声データ取得部１０１により取得された音声データに基づいて、当該音声データに対応する参加者１０の感情を判定し、当該参加者１０の感情に関する感情情報を生成する。

【0018】

体調判定部１０４は、画像データ取得部１０２により取得された画像データに基づいて、当該画像データに対応する参加者１０の体調を判定し、当該参加者１０の体調に関する体調情報を生成する。

【0019】

支援処理部１０５は、感情判定部１０３により生成された感情情報又は体調判定部１０４により生成された体調情報の少なくとも一方に基づいて支援情報を生成する。支援情報とは、会議を円滑に進行させるための情報である。支援処理部１０５は、支援情報として、声かけ文言情報を生成する。声かけ文言情報とは、感情判定又は体調判定の対象となった第１参加者１０（感情判定に使用された音声を発した者又は体調判定に使用された画像を撮像された者）以外の第２参加者１０が、当該第１参加者１０に対して発信する声かけ文言の候補を示す情報である。声かけ文言とは、相手（第１参加者１０）の状態に応じて定められる任意の文言（メッセージ）であり、主に相手の気持ちを向上させることを目的とする文言である。また、支援処理部１０５は、支援情報として、第１参加者１０の状態を視覚的に表現するための状態表現情報を生成してもよい。声かけ文言情報及び状態表現情報については後述する。

【0020】

出力部１０６は、支援処理部１０５により生成された支援情報を含む支援画像を第２参加者１０が使用する情報処理装置１１（第２情報処理装置）のディスプレイに表示させる。

【0021】

上記構成により、第２参加者１０は、第１参加者１０に対して第１参加者１０の状態（感情や体調）に適合した声かけを行いやすくなり、会議の円滑化を図ることができる。

【0022】

図４は、第１実施形態にかかる感情判定部１０３の構成の一例を示す図である。本実施形態にかかる感情判定部１０３は、機械学習により生成された学習済みモデルである感情予測モデル１２１を利用して参加者１０の感情を判定（予測）する。感情予測モデル１２１は、参加者１０の音声の音声データ１１１の入力に対して感情の種別を示す感情情報１５１を出力する。図４に例示する感情情報１５１は、所定のパラメータからなる判定値が７０％より大きい場合には「興奮」であり、当該判定値が４０％より大きく７０％以下である場合には「安定」であり、当該判定値が４０％以下である場合には「不安」であることを示している。

【0023】

本実施形態においては、音声データ１１１及び感情情報１５１は中間ＤＢ（Data Base）１３１に記憶される。中間ＤＢ１３１の具体的構成は、そこに記憶されているデータが、第２参加者１０が使用する情報処理装置１１により利用可能であればどのような構成であってもよいが、例えば第２参加者１０が使用する情報処理装置１１の補助記憶装置２４等を利用して構成され得る。

【0024】

図５は、第１実施形態にかかる体調判定部１０４の構成の一例を示す図である。本実施形態にかかる体調判定部１０４は、機械学習により生成された学習済みモデルである体調予測モデル１２２を利用して参加者１０の体調を判定（予測）する。体調予測モデル１２２は、参加者１０の画像の画像データ１１２の入力に対して体調の種別を示す体調情報１５２を出力する。図５に例示する体調情報１５２は、所定のパラメータからなる判定値が７０％より大きい場合には「元気」であり、当該判定値が４０％より大きく７０％以下である場合には「普通」であり、当該判定値が４０％以下である場合には「不調」であることを示している。画像データ１１２及び体調情報１５２は、中間ＤＢ１３１に記憶される。

【0025】

図６は、第１実施形態にかかる支援処理部１０５の構成の一例の示す図である。本実施形態にかかる支援処理部１０５は、声かけ文言選択モデル１２３及び状態表現情報生成部１２５を含む。声かけ文言選択モデル１２３は、機械学習により生成された学習済みモデルである。声かけ文言選択モデル１２３は、上記のように生成された感情情報１５１又は体調情報１５２に基づいて、予め複数の声かけ文言が記憶された文言ＤＢ１３２から参加者１０の状態に適合する声かけ文言を選択し、選択した１以上の声かけ文言の候補を示す声かけ文言情報を生成する。状態表現情報生成部１２５は、感情情報１５１又は体調情報１５２に基づいて第１参加者１０の状態を第２参加者１０が使用する情報処理装置１１のディスプレイにおいて視覚的に表現するための状態表現情報を生成する。支援処理部１０５は、上記のような声かけ文言情報及び状態表現情報を支援情報として出力する。支援情報は、中間ＤＢ１３に記憶される。

【0026】

図７は、第１実施形態にかかる声かけ文言選択モデル１２３による処理の一例を示す図である。図７において、第１参加者１０の感情が「安定」であり、体調が「元気」である場合の例が示されている。このような場合、声かけ文言選択モデル１２３は、文言ＤＢ１３２から「何か問題はありませんか？」、「何か課題はありませんか？」、「納期に問題はないですか？」等の声かけ文言を選択（抽出）し、これらを声かけ文言の候補とする声かけ文言情報１５３を出力する。また、第１参加者１０の感情が「不安」であったり、体調が「不調」であったりする場合には、第１参加者１０を労わるような声かけ文言が候補として選択される。

【0027】

図８は、第１実施形態にかかる文言ＤＢ１３２に記憶されるデータのデータ構造の一例を示す図である。文言ＤＢ１３２に記憶されるデータは、種別、判定値、及びテキストデータに区分されている。種別の区分には、感情に対応することを示す「感情」又は体調に対応することを示す「体調」が格納される。判定値の区分には、感情判定部１０３又は体調判定部１０４の処理により使用された判定値が格納される。テキストデータの区分には、声かけ文言を構成するテキストが格納される。

【0028】

図９は、第１実施形態にかかる文言ＤＢ１３２に記憶されるデータの具体例を示す図である。図９において、左列には感情の判定値に対応する声かけ文言が例示され、右列には体調の判定値に対応する声かけ文言が例示されている。図９に示すように、相手（第１参加者１０）の感情又は体調に適合する文言が予め登録されている。

【0029】

図１０は、第１実施形態にかかる中間ＤＢ１３１に記憶されるデータのデータ構造の一例を示す図である。中間ＤＢ１３１に記憶されるデータは、種別、ウィンドウＩＤ、処理ＩＤ、データサイズ、及びデータ情報に区分されている。種別の区分には、音声、画像、又はテキスト（声かけ文言）のいずれかが格納される。ウィンドウＩＤの区分には、対象となるウィンドウ（第２参加者１０が使用している情報処理装置１１のディスプレイにおいて第１参加者１０に対応するウィンドウ）を特定する識別情報が格納される。処理ＩＤの区分には、処理の対象となるデータを特定する識別情報が格納される。データ情報の区分には、種別に対応するデータ自体が格納される。

【0030】

図１１は、第１実施形態にかかる支援画像１６１の一例を示す図である。支援画像１６１は、遠隔会議システム１による遠隔会議の実行中において、特定の参加者１０が使用する情報処理装置１１のディスプレイに表示される。特定の参加者１０は、第２参加者に該当し、例えば会議全体を管理する立場にある者等であり得る。

【0031】

図１１に例示する支援画像１６１は、図１において参加者１０Ｄが使用する情報処理装置１１Ｄのディスプレイに表示されるものであり、他の参加者１０Ａ～１０Ｃのそれぞれに割り当てられたウィンドウ１７１Ａ～１７１Ｃを含んでいる。ウィンドウ１７１Ａには情報処理装置１１Ａを使用している参加者１０Ａの映像が映し出され、ウィンドウ１７１Ｂには情報処理装置１１Ｂを使用している参加者１０Ｂの映像が映し出され、ウィンドウ１７１Ｃには情報処理装置１１Ｃを使用している参加者１０Ｃの映像が映し出されている。また、ウィンドウ１７１Ａ～１７１Ｃのそれぞれには、表情アイコン１８１が含まれている。表情アイコン１８１は、各参加者１０Ａ～１０Ｃの状態を視覚的に示す状態表示情報の一例である。すなわち、ウィンドウ１７１Ａの表情アイコン１８１は参加者１０Ａの状態を示し、ウィンドウ１７１Ｂの表情アイコン１８１は参加者１０Ｂの状態を示し、ウィンドウ１７１Ｃの表情アイコン１８１は参加者１０Ｃの状態を示している。図１１に示す例では、参加者１０Ａは良好な状態であり、参加者１０Ｂは普通の状態であり、参加者１０Ｃは不調の状態である。

【0032】

図１２は、第１実施形態にかかる声かけ支援画像１８５の第１例を示す図である。声かけ支援画像１８５は、ある参加者１０が他の参加者１０に対して行う声かけを支援するための画像である。図１２には、情報処理装置１１Ｄを使用している参加者１０Ｄ（第２参加者の一例）が、情報処理装置１１Ａを使用している参加者１０Ａ（第１参加者の一例）に対して行う声かけを支援するための声かけ支援画像１８５が例示されている。本実施形態においては、情報処理装置１１Ｄのディスプレイ上でカーソル１７５を参加者１０Ａに対応するウィンドウ１７１Ａ内の表情アイコン１８１に合わせることにより、声かけ支援画像１８５が表示される。本実施形態にかかる声かけ支援画像１８５には、参加者１０Ａの状態を文字で表現する状態メッセージ１８６と、参加者１０Ａの状態に適合した声かけ文言リスト１８７とが含まれている。図１２に示される例では、参加者１０Ａの状態は「元気です」であり、参加者１０Ｄから参加者１０Ａへの声かけ文言の候補として「何かいいことがありましたか？」及び「作業の進捗はいかがですか？」という文言が提示されている。

【0033】

図１３は、第１実施形態にかかる声かけ支援画像１８５の第２例を示す図である。図１３には、情報処理装置１１Ｄを使用している参加者１０Ｄ（第２参加者の一例）が、情報処理装置１１Ｃを使用している参加者１０Ｃ（第１参加者の一例）に対して行う声かけを支援するための声かけ支援画像１８５が例示されている。情報処理装置１１Ｄのディスプレイ上でカーソル１７５を参加者１０Ｃに対応するウィンドウ１７１Ｃ内の表情アイコン１８１に合わせることにより、声かけ支援画像１８５が表示される。図１３に示される例では、参加者１０Ｃの状態は「気分がすぐれないようです」であり、参加者１０Ｄから参加者１０Ｃへの声かけ文言の候補として「大丈夫ですか？」及び「何か問題ありましたか？」という文言が提示されている。

【0034】

上記のように、第２参加者１０Ｄが使用している情報処理装置１１Ｄのディスプレイ上に、第１参加者１０Ａ，１０Ｃの状態に対応した声かけ文言の候補が提示される。これにより、第２参加者１０Ｄは、第１参加者１０Ａ，１０Ｃの状態に適した声かけをしやすくなり、会議の円滑化を図ることができる。

【0035】

図１４は、第１実施形態にかかる遠隔会議システム１における処理の一例を示すフローチャートである。ここでは、参加者１０Ａが第１参加者であり、参加者１０Ｄが第２参加者であるものとする。

【0036】

先ず、音声データ取得部１０１及び画像データ取得部１０２が各参加者１０の音声データ１１１及び画像データ１１２を取得する（Ｓ１０１）。出力部１０６は第２参加者１０Ｄ以外の参加者１０Ａ～１０Ｃのそれぞれについてウィンドウ１７１Ａ～１７１Ｃを作成し、情報処理装置１１Ｄのディスプレイに表示させる（Ｓ１０２）。取得された音声データは中間ＤＢ１３１に登録（記憶）され（Ｓ１０３）、取得された画像データ１１２が中間ＤＢ１３１に登録される（Ｓ１０４）。

【0037】

感情判定部１０３は中間ＤＢ１３１から第１参加者１０Ａの音声データ１１１を抽出し（Ｓ２０１）、当該音声データ１１１に基づいて感情予測モデル１２１により第１参加者１０Ａの感情を予測し、第１参加者１０Ａの感情に関する感情情報１５１を生成する（Ｓ２０２）。また、体調判定部１０４は中間ＤＢ１３１から第１参加者１０Ａの画像データ１１２を抽出し（Ｓ２０３）、当該画像データ１１２に基づいて体調予測モデル１２２により第１参加者１０Ａの体調を予測し、第１参加者１０Ｂの体調に関する体調情報１５２を生成する（Ｓ２０４）。その後、支援処理部１０５は感情情報１５１又は体調情報１５２の少なくとも一方に基づいて声かけ文言選択モデル１２３により第１参加者１０Ａの状態に適した声かけ文言の候補を示す声かけ文言情報を生成する（Ｓ２０５）。生成された声かけ文言情報を含む支援情報は、中間ＤＢ１３１に登録される。

【0038】

その後、出力部１０６は情報処理装置１１Ｄのディスプレイ上のカーソル１７５の位置情報を取得し（Ｓ１０５）、カーソル１７５が第１参加者１０Ａに対応するウィンドウ１７１Ａ内の表情アイコン１８１の位置にあるか否かを判定する（Ｓ１０６）。カーソル１７５が表情アイコン１８１の位置にない場合（Ｓ１０６：Ｎｏ）、ステップＳ１０５が再度実行される。カーソル１７５が表情アイコン１８１の位置にある場合（Ｓ１０６：Ｙｅｓ）、第１参加者１０Ａに対応する声かけ文言情報（支援情報）を中間ＤＢ１３１から取得し（Ｓ１０７）、出力部１０６は当該声かけ文言情報に基づく声かけ支援画像１８５（声かけ文言リスト１８７）を情報処理装置１１Ｄのディスプレイに表示させる（Ｓ１０８）。

【0039】

上記のように、中間ＤＢ１３１を利用することにより、学習済みモデルを利用して行われるＡＩ処理（ステップＳ２０１～Ｓ２０５）と、ＡＩを利用しないメイン処理（Ｓ１０１～Ｓ１０８）との間におけるデータの受け渡しを効率的に行うことができる。

【0040】

上記実施形態によれば、参加者の感情や体調に基づく状態を正確に把握し、参加者の状態に適した声かけを行うことができる。これにより、遠隔会議を円滑に進めることが可能となる。

【0041】

以下に、他の実施形態について図面を参照して説明するが、第１実施形態と同一又は同様の箇所については同一の符号を付してその説明を省略する場合がある。

【0042】

（第２実施形態）
図１５は、第２実施形態にかかる支援処理部１０５の構成の一例を示す図である。本実施形態は、第２参加者１０が第１参加者１０に対して声かけをする際に、当該声かけが第１参加者１０にのみ発信される（他の参加者１０には発信されない）ようにする手段を有している点で第１実施形態と相違する。

【0043】

本実施形態にかかる支援処理部１０５は、直接発信処理部２０１を有する。直接発信処理部２０１は、声かけ文言の発信を、第２参加者１０（例えば参加者１０Ｄ）が使用する第２情報処理装置１１（例えば情報処理装置１１Ｄ）から第１参加者１０（例えば参加者１０Ｃ）が使用する第１情報処理装置１１（例えば情報処理装置１１Ｃ）に対してのみ可能にするための処理を行う。

【0044】

図１６は、第２実施形態にかかる支援画像１６１の一例を示す図である。ここでは、声かけの対象となる第１参加者が参加者１０Ｃであり、声かけを行う第２参加者が参加者１０Ｄであるものとする。第２参加者１０Ｄが使用する第２情報処理装置１１Ｄのディスプレイに表示される本実施形態にかかる支援画像１６１において、第１参加者１０Ｃに対応するウィンドウ１７１Ｃには、直接発信用アイコン１８９が含まれている。第２参加者１０Ｄがカーソル１７５を直接発信用アイコン１８９の位置に合わせて所定の操作（例えばマウスのクリック操作等）を行うと、第２参加者１０Ｄの音声は、第１参加者１０Ｃが使用する第１情報処理装置１１Ｃにのみ発信され、他の情報処理装置１１Ａ，１１Ｂには発信されない。

【0045】

図１７は、第２実施形態において第２情報処理装置１１Ｄから第１情報処理装置１１Ｃに対し声かけ文言を直接発信する際の処理の一例を示すフローチャートである。直接発信処理部２０１は、第２情報処理装置１１Ｄにおいて音声入力フラグ及び音声出力フラグをクリア（０に設定）した後（Ｓ３０１）、第２情報処理装置１１Ｄの音声入力がミュート状態であるかミュート解除状態であるかを判定する（Ｓ３０２）。

【0046】

音声入力がミュート状態である場合（Ｓ３０２：ミュート）、直接発信処理部２０１は音声入力フラグを１に設定し（Ｓ３０３）、音声入力のミュート状態を解除する（Ｓ３０４）。その後、直接発信処理部２０１は第２情報処理装置１１Ｄの音声出力がミュート状態であるかミュート解除状態であるかを判定する（Ｓ３０５）。音声入力がミュート解除状態である場合（Ｓ３０２：ミュート解除）、ステップＳ３０５が実行される。

【0047】

音声出力がミュート解除状態である場合（Ｓ３０５：ミュート解除）、直接発信処理部２０１は音声出力フラグを１に設定し（Ｓ３０６）、音声出力をミュート状態にする（Ｓ３０７）。その後、直接発信処理部２０１は第２情報処理装置１１Ｄのディスプレイにおけるカーソル１７５の位置に対応するウィンドウＩＤを取得し（Ｓ３０８）、マイク入力から第２参加者１０Ｄの音声データ１１１を作成し（Ｓ３０９）、取得したウィンドウＩＤに対応する情報処理装置、即ち第１情報処理装置１１Ａに音声データ１１１を送信するための処理を行う（Ｓ３１０）。

【0048】

その後、直接発信処理部２０１は第２情報処理装置１１Ｄのマウスの左ボタンが押されているか否かを判定し（Ｓ３１１）、左ボタンが押されている場合（Ｓ３１１：押されている）、ステップＳ３０９に戻り、第２参加者１０Ｄの音声データ１１１の第１情報処理装置１１Ａへの送信が継続される。一方、左ボタンが押されていない場合（Ｓ３１１：押されていない）、直接発信処理部２０１は音声入力フラグが１であるか０であるかを判定する（Ｓ３１２）。音声入力フラグが１である場合（Ｓ３１２：＝１）、直接発信処理部２０１は第２情報処理装置１１Ｄの音声入力をミュート状態にし（Ｓ３１３）、音声出力フラグが１であるか０であるかを判定する（Ｓ３１４）。音声入力フラグが０である場合（Ｓ３１２：＝０）、ステップＳ３１４が実行される。音声出力フラグが１である場合（Ｓ３１４：＝１）、直接発信処理部２０１は第２情報処理装置１１Ｄの音声出力のミュート状態を解除し（Ｓ３１５）、本ルーチンは終了する。音声出力フラグが０である場合（Ｓ３１４：＝０）、本ルーチンは終了する。上記のような処理により、第２参加者１０Ｄがマウスの左ボタンを押している間に発した音声が、第１参加者１０Ｃが使用する第１情報処理装置１１Ｃからのみ出力されるようにすることができる。

【0049】

上記のように、本実施形態によれば、参加者１０は特定の参加者１０に対してのみ声かけ文言を発信することが可能となる。

【0050】

（第３実施形態）
本実施形態は、第２参加者１０が第１参加者１０に対してのみ声かけを行う際に、自らの発声ではなく、自動音声により当該声かけを行う手段を有している点で第２実施形態と相違する。

【0051】

図１８は、第３実施形態にかかる支援画像１６１の一例を示す図である。ここでは、声かけの対象となる第１参加者が参加者１０Ｃであり、声かけを行う第２参加者が参加者１０Ｄであるものとする。第２参加者１０Ｄが使用する第２情報処理装置１１Ｄのディスプレイに表示される本実施形態にかかる支援画像１６１は、図１３に示される第１実施形態にかかる支援画像１６１と同様であるが、カーソル１７５を用いて本実施形態に特有の機能が実現される。本実施形態においては、図１８に示されるように、第２参加者１０Ｄがカーソル１７５を声かけ文言リスト１８７内の所望の声かけ文言の位置に合わせて所定の操作（例えばマウスのクリック操作等）を行うと、当該声かけ文言が自動音声として第１参加者１０Ｃが使用する第１情報処理装置１１Ｃのみから出力される。

【0052】

図１９は、第３実施形態において第２情報処理装置１１Ｄから第１情報処理装置１１Ｃに対し声かけ文言を直接発信する際の処理の一例を示すフローチャートである。本実施形態にかかる直接発信処理部２０１（図１５参照）は、第２情報処理装置１１Ｄにおいて音声入力フラグ及び音声出力フラグをクリア（０に設定）した後（Ｓ４０１）、第２情報処理装置１１Ｄの音声入力がミュート状態であるかミュート解除状態であるかを判定する（Ｓ４０２）。

【0053】

音声入力がミュート状態である場合（Ｓ４０２：ミュート）、直接発信処理部２０１は音声入力フラグを１に設定し（Ｓ４０３）、音声入力のミュート状態を解除する（Ｓ４０４）。その後、直接発信処理部２０１は第２情報処理装置１１Ｄの音声出力がミュート状態であるかミュート解除状態であるかを判定する（Ｓ４０５）。音声入力がミュート解除状態である場合（Ｓ４０２：ミュート解除）、ステップＳ４０５が実行される。

【0054】

音声出力がミュート解除状態である場合（Ｓ４０５：ミュート解除）、直接発信処理部２０１は音声出力フラグを１に設定し（Ｓ４０６）、音声出力をミュート状態にする（Ｓ４０７）。その後、直接発信処理部２０１は第２情報処理装置１１Ｄのディスプレイにおけるカーソル１７５の位置に対応するウィンドウＩＤを取得し（Ｓ４０８）、カーソル１７５の位置に対応する声かけ文言のテキストデータを取得し（Ｓ４０９）、当該テキストデータを所定の音声合成エンジンにより音声データ１１１に変換する（Ｓ４１０）。そして、直接発信処理部２０１は当該音声データ１１１を、取得したウィンドウＩＤに対応する情報処理装置、即ち第１情報処理装置１１Ａに送信するための処理を行う（Ｓ４１１）。

【0055】

その後、直接発信処理部２０１は音声入力フラグが１であるか０であるかを判定する（Ｓ４１２）。音声入力フラグが１である場合（Ｓ４１２：＝１）、直接発信処理部２０１は第２情報処理装置１１Ｄの音声入力をミュート状態にし（Ｓ４１３）、音声出力フラグが１であるか０であるかを判定する（Ｓ４１４）。音声入力フラグが０である場合（Ｓ４１２：＝０）、ステップＳ４１４が実行される。音声出力フラグが１である場合（Ｓ４１４：＝１）、直接発信処理部２０１は第２情報処理装置１１Ｄの音声出力のミュート状態を解除し（Ｓ４１５）、本ルーチンは終了する。音声出力フラグが０である場合（Ｓ４１４：＝０）、本ルーチンは終了する。上記のような処理により、第２参加者１０Ｄが声かけ文言リスト１８７から所望の声かけ文言を選択する操作を行うことにより、当該声かけ文言の自動音声が、第１参加者１０Ｃが使用する第１情報処理装置１１Ｃのみから出力されるようにすることができる。

【0056】

上記のように、本実施形態によれば、参加者１０は特定の参加者１０にのみ声かけ文言を自動音声により発信することが可能となる。

【0057】

（第４実施形態）
図２０は、第４実施形態にかかる遠隔会議システム１の概略的な構成の一例を示す図である。本実施形態にかかる遠隔会議システム１は、サーバ３０１を含み、サーバ３０１が学習済みモデルを利用して行われる処理の少なくとも一部を実行する点で第１実施形態と相違する。

【0058】

図２１は、第４実施形態にかかるサーバ３０１の機能構成の一例を示すブロック図である。サーバ３０１のハードウェア構成は特に限定されるべきものではなく、例えば図２に例示するような構成であり得る。本実施形態にかかるサーバ３０１は、上述した音声データ取得部１０１、画像データ取得部１０２、感情判定部１０３、体調判定部１０４、及び支援処理部１０５に加え、通信部３１１を有する。

【0059】

通信部３１１は、ネットワーク１２に接続している複数の情報処理装置１１との間で通信を確立する。通信部３１１は、複数の情報処理装置１１のそれぞれから音声データ１１１及び画像データ１１２を受信し、支援処理部１０５により生成された支援情報を特定の情報処理装置１１（第２参加者が使用する第２情報処理装置）に送信する。

【0060】

上記のように、比較的演算負荷が高いＡＩ処理（感情判定部１０３、体調判定部１０４、及び支援処理部１０５における処理）をサーバ３０１に実行させることにより、情報処理装置１１の演算負荷を軽減できる。

【0061】

また、上述した実施形態においては、支援情報は、感情情報１５１又は体調情報１５２の少なくとも一方に基づいて生成された第１参加者の状態を視覚的に表現するための状態表現情報を含む。これにより、参加者は他の参加者の状態を簡便に把握できる。

【0062】

また、上述した実施形態においては、第２情報処理装置のディスプレイに支援画像１６１を表示させる出力部１０６を更に備え、支援画像１６１は、状態表現情報に基づいて第１参加者の状態を視覚的に表現する第１表示領域（表情アイコン１８１が表示される領域）と、第１参加者の状態に対応する声かけ文言の候補が表示される第２表示領域（声かけ文言リスト１８７が表示される領域）とを含む。これにより、第２参加者は第１参加者の状態の把握と、適切な声かけ文言の選択とを簡便に行うことができる。

【0063】

また、上述した実施形態においては、声かけ文言の発信を第２情報処理装置から第１情報処理装置に対してのみ可能にする直接発信処理部２０１が備えられる。これにより、第１参加者以外の参加者に対する不要な声を避けることができる。

【0064】

また、上述した実施形態においては、感情判定部１０３、体調判定部１０４、及び支援処理部１０５は、学習済みモデルを利用して構成される。これにより、感情の予測、体調の予測、及び支援情報の生成を高い精度で行うことができる。

【0065】

また、上述した実施形態においては、音声データ１１１、画像データ１１２、感情情報１５１、体調情報１５２、及び支援情報が記憶される中間記憶部（中間ＤＢ１３１）が備えられる。これにより、ＡＩを利用する処理とＡＩを利用しない処理との間におけるデータの受け渡しを効率的に行うことができる。

【0066】

上記機能を実現するプログラムは、例えばＣＰＵに搭載された記憶素子に予め記憶された状態で提供され得るが、これに限定されるものではない。プログラムは、例えば、ＣＤ－ＲＯＭ等の適宜な記憶媒体に記憶された状態で提供されてもよいし、インターネット等のコンピュータネットワークを介して提供されてもよい。

【0067】

以上、本発明の実施形態を説明したが、実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0068】

１…遠隔会議システム、１０Ａ～１０Ｄ…参加者、１１，１１Ａ～１１Ｄ…情報処理装置、１２…ネットワーク、１０１…音声データ取得部、１０２…画像データ取得部、１０３…感情判定部、１０４…体調判定部、１０５…支援処理部、１０６…出力部、１１１…音声データ、１１２…画像データ、１２１…感情予測モデル、１２２…体調予測モデル、１２３…声かけ文言選択モデル、１２５…状態表現情報生成部、１３１…中間ＤＢ（中間記憶部）、１３２…文言ＤＢ、１５１…感情情報、１５２…体調情報、１５３…声かけ文言情報、１６１…支援画像、１７１Ａ～１７１Ｃ…ウィンドウ、１７５…カーソル、１８１…表情アイコン、１８５…声かけ支援画像、１８６…状態メッセージ、１８７…声かけ文言リスト、１８９…直接発信用アイコン、２０１…直接発信処理部、３０１…サーバ、３１１…通信部

【図1】