(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024120348
(43)【公開日】2024-09-05
(54)【発明の名称】データ処理装置、データ処理方法及びデータ処理システム
(51)【国際特許分類】
H04N 7/15 20060101AFI20240829BHJP
H04N 21/233 20110101ALI20240829BHJP
H04N 21/2343 20110101ALI20240829BHJP
【FI】
H04N7/15
H04N21/233
H04N21/2343
【審査請求】有
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2023027085
(22)【出願日】2023-02-24
(71)【出願人】
【識別番号】523066772
【氏名又は名称】KDDIアジャイル開発センター株式会社
(74)【代理人】
【識別番号】110004222
【氏名又は名称】弁理士法人創光国際特許事務所
(74)【代理人】
【識別番号】100166006
【弁理士】
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【弁理士】
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【弁理士】
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】南 翔太郎
(72)【発明者】
【氏名】本田 悠真
(72)【発明者】
【氏名】浅川 善則
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA10
5C164GA07
5C164PA31
5C164PA41
5C164SB02P
5C164SB04P
5C164VA13P
(57)【要約】
【課題】リモート会議の臨場感を向上させる。
【解決手段】データ処理装置1は、第1拠点においてリモート会議に参加する一以上の第1参加者の第1画像データと、第2拠点においてリモート会議に参加する第2参加者の音声および第2参加者に対応する第2画像データと、を取得する。また、データ処理装置1は、第1画像データに第2画像データの少なくとも一部を合成することにより第1合成画像データを生成し、第1合成画像データにおける第2画像データの少なくとも一部の位置に基づいて第2参加者の音声を処理することにより第1処理済音声データを生成する。さらに、データ処理装置1は、第3拠点においてリモート会議に参加する一以上の第3参加者がリモート会議の視聴のために使用する一以上の電子機器に第1合成画像データと第1処理済音声データとを送信する。
【選択図】
図4
【特許請求の範囲】
【請求項1】
3以上の拠点間でリモート会議を行うシステムにおけるデータ処理装置であって、
第1拠点において前記リモート会議に参加する一以上の第1参加者を撮像することにより生成された第1画像データを取得する第1取得部と、
第2拠点において前記リモート会議に参加する第2参加者の音声と、前記第2参加者に対応する第2画像データと、を取得する第2取得部と、
前記第1画像データに前記第2画像データの少なくとも一部を合成することにより第1合成画像データを生成する画像データ生成部と、
前記第1合成画像データにおける前記第2画像データの少なくとも一部の位置に基づいて前記第2参加者の音声を処理することにより第1処理済音声データを生成する音声データ生成部と、
第3拠点において前記リモート会議に参加する一以上の第3参加者が前記リモート会議の視聴のために使用する一以上の電子機器に前記第1合成画像データと前記第1処理済音声データとを送信するデータ送信部と、
を有するデータ処理装置。
【請求項2】
前記第3拠点において前記リモート会議に参加する前記一以上の第3参加者を撮像することにより生成された第3画像データを取得する第3取得部をさらに有し、
前記画像データ生成部は、前記第3画像データに前記第2画像データの少なくとも一部を合成することにより第2合成画像データをさらに生成し、
前記データ送信部は、前記一以上の第1参加者が前記リモート会議の視聴のために使用する一以上の電子機器に前記第2合成画像データと前記第2参加者の音声データとをさらに送信する、
請求項1に記載のデータ処理装置。
【請求項3】
前記画像データ生成部は、前記第1画像データと前記第3画像データとを合成した第3合成画像データをさらに生成し、
前記データ送信部は、前記第3合成画像データを前記第2参加者が使用する情報端末に送信する、
請求項2に記載のデータ処理装置。
【請求項4】
前記画像データ生成部は、前記第1画像データにおいて前記一以上の第1参加者が含まれていない位置に前記第2画像データの少なくとも一部を合成することにより前記第1合成画像データを生成する、
請求項1に記載のデータ処理装置。
【請求項5】
前記データ送信部は、前記第1画像データを前記第2参加者が使用する情報端末に送信し、
前記画像データ生成部は、前記情報端末に表示された前記第1画像データに基づく画像において指定された位置に前記第2画像データの少なくとも一部を合成することにより前記第1合成画像データを生成する、
請求項1に記載のデータ処理装置。
【請求項6】
前記データ送信部は、前記第1画像データを前記リモート会議の主催者として登録された参加者が使用する情報端末に送信し、
前記画像データ生成部は、前記情報端末に表示された前記第1画像データに基づく画像において指定された位置に前記第2画像データの少なくとも一部を合成することにより前記第1合成画像データを生成する、
請求項1に記載のデータ処理装置。
【請求項7】
前記データ送信部は、前記一以上の第1参加者が前記リモート会議の視聴のために使用する一以上の電子機器に前記第1画像データを送信し、
前記画像データ生成部は、当該一以上の電子機器を介して取得した前記第1画像データに基づいて前記第1拠点に設置された表示装置が表示した前記第1画像データに基づく画像において指定された位置に前記第2画像データの少なくとも一部を合成することにより前記第1合成画像データを生成する、
請求項1に記載のデータ処理装置。
【請求項8】
前記データ送信部は、前記一以上の第3参加者が前記リモート会議の視聴のために使用する一以上の電子機器に前記第1画像データを送信し、
前記画像データ生成部は、当該一以上の電子機器を介して取得した前記第1画像データに基づいて前記第3拠点に設置された表示装置が表示した前記第1画像データに基づく画像において指定された位置に前記第2画像データの少なくとも一部を合成することにより前記第1合成画像データを生成する、
請求項1に記載のデータ処理装置。
【請求項9】
前記音声データ生成部は、前記第1合成画像データにおける前記第2画像データの少なくとも一部の位置に基づいて、前記第3拠点の第1位置に設置された第1位置スピーカに出力するための第1位置音声データと、前記第3拠点の第2位置に設置された第2位置スピーカに出力するための第2位置音声データと、を含む前記第1処理済音声データを生成する、
請求項1に記載のデータ処理装置。
【請求項10】
前記リモート会議の属性の設定を受け付ける設定受付部をさらに有し、
前記第2取得部は、前記第2参加者の撮像画像データ又はアバター画像データの少なくともいずれかを取得し、
前記画像データ生成部は、前記リモート会議の属性に基づいて、前記第2画像データとして前記撮像画像データを用いるか前記アバター画像データを用いるかを決定する、
請求項1に記載のデータ処理装置。
【請求項11】
コンピュータが実行する、
第1拠点においてリモート会議に参加する一以上の第1参加者を撮像することにより生成された第1画像データを取得するステップと、
第2拠点において前記リモート会議に参加する第2参加者の音声と、前記第2参加者に対応する第2画像データと、を取得するステップと、
前記第1画像データに前記第2画像データの少なくとも一部を合成することにより第1合成画像データを生成するステップと、
前記第1合成画像データにおける前記第2画像データの少なくとも一部の位置に基づいて前記第2参加者の音声を処理することにより第1処理済音声データを生成するステップと、
第3拠点において前記リモート会議に参加する一以上の第3参加者が前記リモート会議の視聴のために使用する一以上の電子機器に前記第1合成画像データと前記第1処理済音声データとを送信するステップと、
を有するデータ処理方法。
【請求項12】
3以上の拠点間でリモート会議を行うデータ処理システムであって、
第1拠点に設置された第1電子機器と、
第2拠点に設置された第2電子機器と、
第3拠点に設置された第3電子機器と、
前記第1拠点において前記リモート会議に参加する一以上の第1参加者を撮像することにより生成された第1画像データを前記第1電子機器から取得する第1取得部と、
前記第2拠点において前記リモート会議に参加する第2参加者の音声と、前記第2参加者に対応する第2画像データと、を前記第2電子機器から取得する第2取得部と、
前記第1画像データに前記第2画像データの少なくとも一部を合成することにより第1合成画像データを生成する画像データ生成部と、
前記第1合成画像データにおける前記第2画像データの少なくとも一部の位置に基づいて前記第2参加者の音声を処理することにより第1処理済音声データを生成する音声データ生成部と、
第3拠点において前記リモート会議に参加する一以上の第3参加者が前記リモート会議の視聴のために使用する一以上の前記第3電子機器に前記第1合成画像データと前記第1処理済音声データとを送信するデータ送信部と、
を有するデータ処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理装置、データ処理方法及びデータ処理システムに関する。
【背景技術】
【0002】
従来、離れた場所にいる複数の人が会議をするためのリモート会議システムが知られている(例えば、特許文献1を参照)。従来のリモート会議システムでは、複数の会議参加者それぞれの撮像画像を仮想の会議テーブルに配置した画像を作成することにより、臨場感を高めている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来のリモート会議システムでは、複数の会議参加者それぞれの個別の撮像画像が仮想の会議テーブルに配置されていたが、一部の会議参加者が実際の会議室に集まっており、一部の会議参加者が離れた拠点から会議に参加するという場合がある。このような場合に、仮想の会議テーブルの周囲に、それぞれの拠点で撮像された画像をそのまま配置すると、臨場感が低下してしまう。
【0005】
本発明の目的の1つは、リモート会議の臨場感を向上させることにある。
【課題を解決するための手段】
【0006】
本発明の第1の態様のデータ処理装置は、3以上の拠点間でリモート会議を行うシステムにおけるデータ処理装置であって、第1拠点において前記リモート会議に参加する一以上の第1参加者を撮像することにより生成された第1画像データを取得する第1取得部と、第2拠点において前記リモート会議に参加する第2参加者の音声と、前記第2参加者に対応する第2画像データと、を取得する第2取得部と、前記第1画像データに前記第2画像データの少なくとも一部を合成することにより第1合成画像データを生成する画像データ生成部と、前記第1合成画像データにおける前記第2画像データの少なくとも一部の位置に基づいて前記第2参加者の音声を処理することにより第1処理済音声データを生成する音声データ生成部と、第3拠点において前記リモート会議に参加する一以上の第3参加者が前記リモート会議の視聴のために使用する一以上の電子機器に前記第1合成画像データと前記第1処理済音声データとを送信するデータ送信部と、を有する。
【0007】
前記データ処理装置は、前記第3拠点において前記リモート会議に参加する前記一以上の第3参加者を撮像することにより生成された第3画像データを取得する第3取得部をさらに有し、前記画像データ生成部は、前記第3画像データに前記第2画像データの少なくとも一部を合成することにより第2合成画像データをさらに生成し、前記データ送信部は、前記一以上の第1参加者が前記リモート会議の視聴のために使用する一以上の電子機器に前記第2合成画像データと前記第2参加者の音声データとをさらに送信してもよい。
【0008】
前記画像データ生成部は、前記第1画像データと前記第3画像データとを合成した第3合成画像データをさらに生成し、前記データ送信部は、前記第3合成画像データを前記第2参加者が使用する情報端末に送信してもよい。
【0009】
前記画像データ生成部は、前記第1画像データにおいて前記一以上の第1参加者が含まれていない位置に前記第2画像データの少なくとも一部を合成することにより前記第1合成画像データを生成してもよい。
【0010】
前記データ送信部は、前記第1画像データを前記第2参加者が使用する情報端末に送信し、前記画像データ生成部は、前記情報端末に表示された前記第1画像データに基づく画像において指定された位置に前記第2画像データの少なくとも一部を合成することにより前記第1合成画像データを生成してもよい。
【0011】
前記データ送信部は、前記第1画像データを前記リモート会議の主催者として登録された参加者が使用する情報端末に送信し、前記画像データ生成部は、前記情報端末に表示された前記第1画像データに基づく画像において指定された位置に前記第2画像データの少なくとも一部を合成することにより前記第1合成画像データを生成してもよい。
【0012】
前記データ送信部は、前記一以上の第1参加者が前記リモート会議の視聴のために使用する一以上の電子機器に前記第1画像データを送信し、前記画像データ生成部は、当該一以上の電子機器を介して取得した前記第1画像データに基づいて前記第1拠点に設置された表示装置が表示した前記第1画像データに基づく画像において指定された位置に前記第2画像データの少なくとも一部を合成することにより前記第1合成画像データを生成してもよい。
【0013】
前記データ送信部は、前記一以上の第3参加者が前記リモート会議の視聴のために使用する一以上の電子機器に前記第1画像データを送信し、前記画像データ生成部は、当該一以上の電子機器を介して取得した前記第1画像データに基づいて前記第3拠点に設置された表示装置が表示した前記第1画像データに基づく画像において指定された位置に前記第2画像データの少なくとも一部を合成することにより前記第1合成画像データを生成してもよい。
【0014】
前記音声データ生成部は、前記第1合成画像データにおける前記第2画像データの少なくとも一部の位置に基づいて、前記第3拠点の第1位置に設置された第1位置スピーカに出力するための第1位置音声データと、前記第3拠点の第2位置に設置された第2位置スピーカに出力するための第2位置音声データと、を含む前記第1処理済音声データを生成してもよい。
【0015】
前記リモート会議の属性の設定を受け付ける設定受付部をさらに有し、前記第2取得部は、前記第2参加者の撮像画像データ又はアバター画像データの少なくともいずれかを取得し、前記画像データ生成部は、前記リモート会議の属性に基づいて、前記第2画像データとして前記撮像画像データを用いるか前記アバター画像データを用いるかを決定してもよい。
【0016】
本発明の第2の態様のデータ処理方法は、コンピュータが実行する、第1拠点においてリモート会議に参加する一以上の第1参加者を撮像することにより生成された第1画像データを取得するステップと、第2拠点において前記リモート会議に参加する第2参加者の音声と、前記第2参加者に対応する第2画像データと、を取得するステップと、前記第1画像データに前記第2画像データの少なくとも一部を合成することにより第1合成画像データを生成するステップと、前記第1合成画像データにおける前記第2画像データの少なくとも一部の位置に基づいて前記第2参加者の音声を処理することにより第1処理済音声データを生成するステップと、第3拠点において前記リモート会議に参加する一以上の第3参加者が前記リモート会議の視聴のために使用する一以上の電子機器に前記第1合成画像データと前記第1処理済音声データとを送信するステップと、を有する。
【0017】
本発明の第3の態様のデータ処理システムは、3以上の拠点間でリモート会議を行うデータ処理システムであって、第1拠点に設置された第1電子機器と、第2拠点に設置された第2電子機器と、第3拠点に設置された第3電子機器と、前記第1拠点において前記リモート会議に参加する一以上の第1参加者を撮像することにより生成された第1画像データを前記第1電子機器から取得する第1取得部と、前記第2拠点において前記リモート会議に参加する第2参加者の音声と、前記第2参加者に対応する第2画像データと、を前記第2電子機器から取得する第2取得部と、前記第1画像データに前記第2画像データの少なくとも一部を合成することにより第1合成画像データを生成する画像データ生成部と、前記第1合成画像データにおける前記第2画像データの少なくとも一部の位置に基づいて前記第2参加者の音声を処理することにより第1処理済音声データを生成する音声データ生成部と、第3拠点において前記リモート会議に参加する一以上の第3参加者が前記リモート会議の視聴のために使用する一以上の前記第3電子機器に前記第1合成画像データと前記第1処理済音声データとを送信するデータ送信部と、を有する。
【発明の効果】
【0018】
本発明によれば、リモート会議の臨場感を向上させることができるという効果を奏する。
【図面の簡単な説明】
【0019】
【
図1】データ処理システムの概要を説明するための図である。
【
図2】各拠点で表示される画像の例を模式的に示す図である。
【
図3】複数の拠点間での画像及び音声のデータの流れの概要を示す図である。
【
図5】第2参加者が第2画像データを合成する位置を指定する方法を説明するための図である。
【
図6】空席領域が作り出される例を模式的に示す図である。
【
図7】空席領域が作り出された状態の画像の例を模式的に示す図である。
【
図8】データ処理装置1における処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0020】
[データ処理システムSの概要]
図1は、データ処理システムSの概要を説明するための図である。データ処理システムSは、複数の拠点にいる複数の人がリモート会議をするためのシステムである。以下の説明において、リモート会議に参加する人を参加者という。
【0021】
図1には、第1拠点、第2拠点及び第3拠点が示されており、これらの拠点はネットワークNにより接続されている。ネットワークNは、例えばインターネット又はイントラネットを含む。ネットワークNには、データ処理装置1と各拠点の電子機器とが接続されている。ネットワークNには、有線及び無線の少なくとも1つが含まれてよい。例えば、ネットワークNは、有線によって構成されてもよいし、無線によって構成されてもよいし、有線区間及び無線区間の双方を含んで構成されてもよい。無線による通信には、例えば、セルラー通信、無線LAN(local area network)通信、及び、衛星通信の少なくとも1つが含まれてよい。データ処理システムSには、4以上の拠点が含まれていてもよい。
【0022】
第1拠点には、ルータ21と、コンピュータ22と、カメラ23と、ディスプレイ24と、スピーカ25(スピーカ25L及びスピーカ25R)が設置されている。第1拠点においては、一以上の第1参加者である参加者A1、A2、A3、A4がテーブルの周囲に着席している。ルータ21、コンピュータ22、カメラ23、ディスプレイ24及びスピーカ25は、第1拠点において参加者A1、A2、A3、A4がリモート会議を視聴するために使用する電子機器(第1電子機器に対応)である。
【0023】
本実施形態においては、カメラ23がマイクロホンを有しており、カメラ23が第1拠点内を撮影した第1画像に基づく第1画像データと第1拠点内の第1音声に基づく第1音声データとを生成する場合を例示するが、これらの電子機器は一体化されていてもよく、さらに多くの電子機器により同等の機能が提供されてもよい。
【0024】
第2拠点には、コンピュータ31(第2電子機器に対応)が設置されている。コンピュータ31は、カメラ、マイクロホン及びスピーカを有する。第2拠点においては、コンピュータ31の前に第2参加者である参加者Bが着席している。コンピュータ31は、参加者Bを撮影した第2画像に基づく第2画像データと参加者Bの第2音声に基づく第2音声データとを生成する。
【0025】
第3拠点には、ルータ41と、コンピュータ42と、カメラ43と、ディスプレイ44と、スピーカ45(スピーカ45L及びスピーカ45R)が設置されている。第3拠点においては、参加者C1、C2、C3、C4がテーブルの周囲に着席している。ルータ41、コンピュータ42、カメラ43、ディスプレイ44及びスピーカ45は、第3拠点において一以上の第3参加者である参加者C1、C2、C3、C4がリモート会議を視聴するために使用する電子機器(第3電子機器に対応)である。
【0026】
本実施形態においては、カメラ43がマイクロホンを有しており、カメラ43が第3拠点内を撮影した第3画像に基づく第3画像データと第3拠点内の第3音声に基づく第3音声データとを生成する場合を例示するが、これらの電子機器は一体化されていてもよく、さらに多くの電子機器により同等の機能が提供されてもよい。
【0027】
以下において、複数の参加者A1、A2、A3、A4を区別しない場合、「参加者A」のように略記することがある。同様に、複数の参加者C1、C2、C3、C4を区別しない場合、「参加者C」のように略記することがある。
【0028】
第1拠点、第2拠点及び第3拠点の少なくとも1つにおいて、カメラは、例えば、複数の方向から参加者A、B又はCを撮影するために複数台設けられている。また、第1拠点、第2拠点及び第3拠点の少なくとも1つにおいて、マイクロホンは、個々の参加者A、B又はCが使用するピンマイクロホンであってもよい。
【0029】
データ処理装置1は、複数の拠点間でのリモート会議をするための各種の処理を実行するコンピュータであり、例えばクラウドサーバである。詳細については後述するが、データ処理装置1は、ある拠点から送られてきた画像及び音声を他の拠点に送信する。これにより、各拠点の参加者は、他の複数の拠点の参加者の画像を見ながら、他の複数の拠点の参加者の音声を聞くことができる。例えば、第3拠点に設置されたディスプレイ44には、第1拠点の参加者A1~A4の画像とともに、第2拠点の参加者Bの画像が表示され、参加者A1~A4の音声と参加者Bの音声がスピーカ45から出力される。
【0030】
ここで、例えば第1拠点の参加者A1~A4と第2拠点の参加者Bとが同じ組織(例えば部署又は会社)に属しており、参加者C1~C4が他の組織に属しているような場合、参加者C1~C4にとっては、参加者A1~A4と参加者Bとがディスプレイ44において別々に(例えば、複数に区分された表示領域の異なる領域に)表示されていると違和感がある。そこで、データ処理装置1は、第1拠点から送られてきた第1画像に第2拠点から送られてきた第2画像データの少なくとも一部を合成することにより、参加者Bが第1拠点の参加者A1~A4と一緒に第1拠点からリモート会議に参加しているかのごとく見えるようにする。第2画像データの少なくとも一部は、第2画像データにおいて参加者Bが示されている領域のデータである。以下の説明において、第2画像データの少なくとも一部を合成することを、第2画像データを合成するという場合がある。また、「画像データ」は、適宜、「画像」と略称される場合がある。
【0031】
図2は、各拠点で表示される画像の例を模式的に示す図である。
図2(a)は第1拠点のディスプレイ24に表示される画像、
図2(b)は第2拠点のコンピュータ31に表示される画像、
図2(c)は第3拠点のディスプレイ44に表示される画像である。
図2は、第2拠点の参加者Bが第1拠点の参加者A1~A4と同じ組織に属している場合に各拠点に表示される画像を示している。
図2に示す表示態様は一例に過ぎず、後述するように、各種の設定又は条件によって表示態様が決定されてもよい。
【0032】
図2(a)に示すように、第1拠点には第3拠点で参加者C1~C4が撮影された第3画像に、第2拠点で参加者Bが撮影された第2画像が合成された画像が表示される。参加者Bは参加者C1~C4と異なる組織に属しているため、参加者Bは、参加者C1~C4が着席しているテーブルから離れた位置に表示されている。このような表示態様によって、第1拠点の参加者A1~A4は、参加者Bが参加者C1~C4の属する組織と同じ組織には属していないことを直感的に理解できる。なお、参加者Bの表示と共に、例えば、参加者Bが参加者C1~C4の属する組織とは異なる組織に属していることを示す情報が第1拠点のディスプレイ24に表示されてもよい。
【0033】
図2(b)に示すように、第2拠点には、第1拠点で参加者A1~A4が撮影された第1画像と第3拠点で参加者C1~C4が撮影された第3画像とが、それぞれ異なる領域に表示されている。このように表示されることで、参加者Bは、第1拠点の様子と第3拠点の様子を同時に見ることができる。
【0034】
図2(c)に示すように、第3拠点には、第1拠点で参加者A1~A4が撮影された第1画像に、第2拠点で参加者Bが撮影された第2画像が合成された画像が表示される。参加者Bは参加者A1~A4と同じ組織に属しているため、参加者Bは、参加者A1~A4が着席しているテーブルの周囲に着席しているかのように表示されている。このような画像が第3拠点で表示されることで、参加者C1~C4は、参加者Bが第1拠点で参加者A1~A4と一緒にリモート会議に参加しているかのような臨場感を得ることができる。なお、参加者Bの表示と共に、例えば、参加者Bが第1拠点には実際には居ないこと(例えば、第1拠点へのリモート参加であること)を示す情報が第3拠点のディスプレイ44に表示されてもよい。
【0035】
[複数の拠点間でのデータの流れ]
図3は、複数の拠点間での画像及び音声のデータの流れの概要を示す図である。第1拠点のルータ21は、カメラ23が生成した第1画像データ及び第1音声データをデータ処理装置1に送信する。第2拠点のコンピュータ31は、生成した第2画像データ及び第2音声データをデータ処理装置1に送信する。第3拠点のルータ41は、カメラ43が生成した第3画像データ及び第3音声データをデータ処理装置1に送信する。
【0036】
データ処理装置1は、受信した第1画像データ、第2画像データ及び第3画像データの一部を合成して、各拠点に送信する合成画像データを作成する。また、データ処理装置1は、受信した第1音声データ、第2音声データ又は第3音声データを処理して、各拠点に送信する処理済音声データを作成する。処理済音声データは、例えば
図2(c)において、第1画像データに合成される第2画像データの位置から参加者Bの音声が聞こえるように第2音声が処理されたステレオ音声データ又は三次元音声データである。なお、
図2(a)の例において、参加者Bはテーブルから離れた位置に表示されるため、参加者Bの第2音声データに対して第2画像データの合成位置に基づく音声処理を行わない方が、第1拠点の第1参加者A1~A4にとって自然である。したがって、データ処理装置1は、参加者Bの第2音声データに対して第2画像データの合成位置に基づく音声処理を行わない。
【0037】
データ処理装置1は、第1画像データに第2画像データが合成された第1合成画像データ、第2音声データが処理された第1処理済音声データ、及び第1音声データを第3拠点に送信する。データ処理装置1は、第1画像データ、第1音声データ、第3画像データ及び第3音声データを第2拠点に送信する。データ処理装置1は、第3画像データに第2画像データが合成された第2合成画像データ、第2音声データ、及び第3音声データを第1拠点に送信する。なお、データ処理装置1は、第3画像データにおける第2画像データの合成位置によっては、第1処理済音声データと同様に、第2音声データを合成位置に基づいて処理した第2処理済音声データを第1拠点に送信してもよい。例えば、参加者Bの第2画像データが、第3拠点の第3画像データにおいて、
図2(c)の例と同様に、第1拠点の第1画像データにおける合成位置と同等の位置に合成される場合、データ処理装置1は、第3画像データにおける第2画像データの合成位置に基づいて処理した第2処理済音声データを第1拠点に送信する。
【0038】
[データ処理装置1の構成及び動作]
図4は、データ処理装置1の構成を示す図である。データ処理装置1は、通信部11と、記憶部12と、制御部13と、を有する。制御部13は、第1取得部131と、第2取得部132と、第3取得部133と、設定受付部134と、画像データ生成部135と、音声データ生成部136と、データ送信部137と、を有する。第1取得部131、第2取得部132、及び、第3取得部133の一部又は全部は、1つの取得部に統合されてもよい。
【0039】
通信部11は、ネットワークNを介してルータ21、コンピュータ31又はルータ41との間でデータを送信するための通信インターフェースを有する。通信部11は、ルータ21から受信した第1画像データ及び第1音声データを第1取得部131に入力する。通信部11は、コンピュータ31から受信した第2画像データ及び第2音声データを第2取得部132に入力する。通信部11は、ルータ41から受信した第3画像データ及び第3音声データを第3取得部133に入力する。
【0040】
通信部11は、ルータ21、コンピュータ31、ルータ41又は他の情報端末が送信した設定データを設定受付部134に入力する。設定データは、例えば、リモート会議の属性、参加者の属性、又は画面に表示する画像の態様を示すデータであり、リモート会議の主催者、又はいずれかの参加者により入力されたデータである。リモート会議の主催者は、複数の参加者に含まれていてもよく、複数の参加者に含まれていなくてもよい。
【0041】
また、通信部11は、データ送信部137から入力された各種のデータを各拠点に送信する。具体的には、通信部11は、
図3に示したように、合成画像のデータ及び処理済音声又は未処理の音声のデータ等を各拠点において参加者がリモート会議を視聴するために使用する一以上の電子機器に送信する。
【0042】
記憶部12は、例えばROM(Read Only Memory)、RAM(Random Access Memory)及びSSD(Solid State Drive)等の記憶媒体を有する。記憶部12は、制御部13が実行するプログラムを記憶する。また、記憶部12は、通信部11が受信した各種の設定データを記憶する。さらに、記憶部12は、各拠点から送信された画像データ及び音声データを一時的に記憶する。
【0043】
制御部13は、例えばCPU(Central Processing Unit)を有する。制御部13は、記憶部12に記憶されたプログラムを実行することにより、第1取得部131、第2取得部132、第3取得部133、設定受付部134、画像データ生成部135、音声データ生成部136及びデータ送信部137として機能する。
【0044】
第1取得部131は、第1拠点においてリモート会議に参加する一以上の第1参加者を撮像することにより生成された第1画像データを取得する。また、第1取得部131は、第1拠点において取得された一以上の第1参加者の音声を含む第1音声データを取得する。第1取得部131は、通信部11を介して第1画像データ及び第1音声データを取得する。第1取得部131は、第1画像データを音声データ生成部136に入力し、第1音声データを画像データ生成部135に入力する。
【0045】
第2取得部132は、第2拠点においてリモート会議に参加する第2参加者の第2音声データと、第2参加者に対応する第2画像データと、を取得する。第2画像データは、第2拠点において第2参加者を撮像することにより生成された撮像画像データであってもよく、予め作成された第2参加者のアバター画像データであってもよい。すなわち、第2取得部132は、第2参加者の撮像画像データ又はアバター画像データの少なくともいずれかを取得してもよい。第2取得部132は、例えば、撮像画像データ及びアバター画像データのうち、画像データ生成部135から要求された方の画像データを取得する。
【0046】
また、第2取得部132は、第2拠点において取得された第2参加者の音声を含む第2音声データを取得する。第2取得部132は、通信部11を介して第2画像データ及び第2音声データを取得する。第2取得部132は、第2画像データを画像データ生成部135に入力し、第2音声データを音声データ生成部136に入力する。
【0047】
第3取得部133は、第3拠点においてリモート会議に参加する一以上の第3参加者を撮像することにより生成された第3画像データを取得する。また、第3取得部133は、第3拠点において取得された一以上の第3参加者の音声を含む第3音声データを取得する。第3取得部133は、通信部11を介して第3画像データ及び第3音声データを取得する。第3取得部133は、第3画像データを画像データ生成部135に入力し、第3音声データを音声データ生成部136に入力する。
【0048】
設定受付部134は、通信部11を介して、リモート会議の主催者、又はいずれかの参加者により入力された設定データを取得することにより、各種の設定を受け付ける。設定受付部134は、不図示のキーボード及びマウス等のユーザインターフェースを介して設定を受け付けてもよい。設定受付部134は、例えばリモート会議の属性の設定を受け付ける。設定受付部134は、受け付けたリモート会議の属性を画像データ生成部135に通知する。
【0049】
画像データ生成部135は、リモート会議に参加している各拠点に設置されたディスプレイに表示される画像データを生成する。画像データ生成部135は、ある拠点のディスプレイに表示される画像データとして、他の複数の拠点から送られてきた複数の画像データの少なくとも一部を合成した合成画像データを生成する。画像データ生成部135は生成した合成画像データをデータ送信部137に入力する。
【0050】
一例として、画像データ生成部135は、
図2(c)に示したように、第1拠点の第1画像データ内に第2拠点の第2参加者の第2画像データを合成した第1合成画像データを生成する。画像データ生成部135は、
図2(a)に示したように、第3拠点の第3画像データ内に第2拠点の第2参加者の第2画像データを合成した第2合成画像データを生成する。さらに、画像データ生成部135は、
図2(b)に示したように、第1拠点の第1画像データと第3拠点の第2画像データとを合成した第2拠点用の第3合成画像データを生成する。
【0051】
音声データ生成部136は、リモート会議に参加している各拠点に設置されたスピーカから出力される音声データを生成する。音声データ生成部136は、例えば、第1合成画像データにおける第2画像データの位置に基づいて第2参加者の音声を処理することにより、第3拠点の参加者に聞かせる音声に対応する第1処理済音声データを生成する。
【0052】
音声データ生成部136は、第2合成画像データにおける第2画像データの位置に基づいて第2参加者の音声を処理することにより、第1拠点の参加者に聞かせる音声に対応する第2処理済音声データを生成してもよいし、第2参加者の音声を処理せずに出力してもよい。例えば
図2(a)に示したように、第2合成画像データにおいて第2参加者Bの第2画像データが第3拠点の第3参加者C1~C4から離れた位置に合成される場合、音声データ生成部136は、参加者Bの第2音声データに対して第2画像データの合成位置に基づく音声処理を適用しない。一方、第2合成画像データにおいて参加者Bの第2画像データが、
図2(c)の例と同様に、第3拠点の第3参加者C1~C4の着席するテーブルの周囲の位置に合成される場合、音声データ生成部136は、参加者Bの第2音声データに対して第2画像データの合成位置に基づく音声処理を適用する。音声データ生成部136は、第1拠点の第1参加者の音声と第3拠点の第3参加者の音声とを含み、第2拠点の第2参加者に聞かせるための音声データを生成してもよい。音声データ生成部136は生成した第1処理済音声データをデータ送信部137に入力する。
【0053】
音声データ生成部136は、ある拠点のスピーカから出力される音声データとして、他の複数の拠点から送られてきた複数の音声を含むマルチチャンネルの処理済音声データを生成する。マルチチャンネルの処理済音声データは、第1位置(例えば右側)スピーカと第2位置(例えば左側)スピーカから出力される第1位置音声データと第2位置音声データとを含む。マルチチャンネルの処理済音声データは、3以上の位置に対応する3以上の音声データを含んでもよい。
【0054】
一例として、音声データ生成部136は、第1合成画像データにおける第2画像の位置に基づいて、第3拠点の第1位置に設置された第1位置スピーカに出力するための第1位置音声データと、第3拠点の第2位置に設置された第2位置スピーカに出力するための第2位置音声データと、を含む第1処理済音声データを生成する。具体的には、音声データ生成部136は、第2参加者の第2画像の位置が第2位置よりも第1位置に近い場合に、第1位置音声データに含まれる第2参加者の音声の割合が、第2位置音声データに含まれる第2参加者の音声の割合よりも大きくなるように処理した第1処理済音声データを生成する。
【0055】
音声データ生成部136は、逆に、第2参加者の第2画像の位置が第1位置よりも第2位置に近い場合に、第2位置音声データに含まれる第2参加者の音声の割合が、第1位置音声データに含まれる第2参加者の音声の割合よりも大きくなるように処理した第1処理済音声データを生成する。なお、第2参加者の第2画像の位置が、第1位置及び第2位置に対してそれぞれ同等の距離である場合、音声データ生成部136は、第1位置音声データ及び第2位置音声データのそれぞれに含まれる第2参加者の音声の割合が同等であるように処理した第1処理済音声データを生成してよい。
【0056】
音声データ生成部136は、第1合成画像データにおける第2画像データの位置の第1拠点における奥行方向の位置を特定した結果にさらに基づいて、第1処理済音声データを生成してもよい。一例として、
図2(c)に示した例の場合、第2参加者の第2画像データの位置は、第1参加者A1~A4よりも奥側なので、音声データ生成部136は、第2参加者Bの音声が第1参加者A1~A4の音声よりも小さくなるように処理した第1処理済音声データを生成してもよい。音声データ生成部136がこのような第1処理済音声データを生成することで、当該データに基づく音声を聞く参加者の臨場感が高まる。
【0057】
なお、第2参加者の第2画像の位置が、第2位置よりも第1位置に近いか、第1位置よりも第2位置に近いかによらず、音声データ生成部136は、第2参加者の属性によって、第1位置音声データに含まれる第2参加者の音声の割合が増えるように処理した第1処理済音声データを生成してもよい。音声データ生成部136は、例えば、第2参加者の声の大きさ、声質、声の通りやすさといった属性を基に、上述したような音声データの割合制御を行ってもよい。具体的には、音声データ生成部136は、第2参加者が第1参加者よりも手前側にいるとしても、第2参加者の声の大きさが閾値未満である場合、又は声質が聞こえづらいという条件を満たす場合、第2参加者の音声の割合が増えるようにしてもよい。
【0058】
データ送信部137は、画像データ生成部135から入力された画像データ及び音声データ生成部136から入力された音声データを、通信部11を介して、それぞれのデータを送信するべき拠点に向けて送信する。具体的には、データ送信部137は、第3拠点においてリモート会議に参加する一以上の第3参加者がリモート会議の視聴のために使用する一以上の電子機器に第1合成画像データと第1処理済音声データとを送信する。
【0059】
データ送信部137は、一以上の第1参加者がリモート会議の視聴のために使用する一以上の電子機器に第2合成画像データと、第2音声データ又は第2処理済音声データとをさらに送信してもよい。データ送信部137は、第3合成画像データを第2参加者が使用する情報端末に送信してもよい。すなわち、データ送信部137は、第2参加者がリモート会議の視聴のために使用するコンピュータ31に第1画像データ、第1音声データ、第3画像データ及び第3音声データを送信してもよい。データ送信部137は、リモート会議の主催者又は参加者から設定を受け付けるためのデータを各拠点に向けて送信してもよい。
【0060】
なお、上述したデータ処理装置1の機能(例えば、制御部13の各種機能)は、複数のデータ処理装置1によって実現されてもよい。例えば、画像データの生成、音声データの生成といった各種の処理は、複数のデータ処理装置1(例えば、複数のサーバのそれぞれに搭載されたプロセッサ)によって分散して行われてもよい。
【0061】
[合成画像データの生成方法]
以下、画像データ生成部135が合成画像データを生成する処理の詳細を説明する。
画像データ生成部135は、例えば、第1拠点の一以上の第1参加者が写っている第1画像データに第2拠点の第2参加者の第2画像データの少なくとも一部を合成することにより、第3拠点のディスプレイに表示される第1合成画像データを生成する。画像データ生成部135は、例えば
図2(c)に示したように、第1画像において一以上の第1参加者が含まれていない位置に第2画像データの少なくとも一部を合成することにより第1合成画像データを生成する。
【0062】
画像データ生成部135は、例えば、第1画像データにおける予め記憶部12に記憶された顔の標準画像データとの類似度が閾値以上の領域を顔の領域として特定し、特定した領域と異なる領域に第2画像データを合成する。画像データ生成部135は、参加者の身体の領域を特定し、特定した領域と異なる領域に第2画像データを合成してもよい。
【0063】
画像データ生成部135が第2画像データを合成する位置を決定する方法は任意であり、記憶部12に記憶された合成位置情報を参照することにより、予め決定された位置に第2画像データを合成してもよい。画像データ生成部135は、例えば、第1画像データの右上又は左上に第2画像データを合成してもよく、第1画像データの下方の領域に第2画像データを合成してもよい。第1画像データの下方の領域に第2画像データが合成された場合、第3拠点の第3参加者が、第2参加者が第1拠点の第1参加者よりも第3拠点に近いという印象を受けやすくなる。
【0064】
画像データ生成部135は、リモート会議の主催者又は参加者が指定した位置に第2画像データを合成してもよい。一例として、データ送信部137は、第1画像データを第2参加者が使用する情報端末であるコンピュータ31に送信し、画像データ生成部135は、コンピュータ31に表示された第1画像データに基づく画像において第2参加者により指定された位置に第2画像データの少なくとも一部を合成することにより第1合成画像データを生成する。画像データ生成部135がこのように動作することで、第2参加者は、自身が望ましいと思う位置に自身の画像が表示されるようにすることができる。なお、データ送信部137がコンピュータ31に送信する第1画像データは、第1拠点から送信された第1画像データから一以上の第1参加者の画像以外の部分が改変された画像データであってもよい。
【0065】
図5は、第2参加者が第2画像データを合成する位置を指定する方法を説明するための図である。
図5(a)は、第2拠点のコンピュータ31に表示される、合成位置を指定するための画面である。
図5(a)に示す画面においては、第2画像データを合成できる位置として、星マークX、星マークYの位置が示されている。
図5(b)は、第2参加者が
図5(a)における星マークXの位置を指定した場合に第3拠点のディスプレイ44に表示される第1合成画像データである。
図5(c)は、第2参加者が
図5(a)における星マークYの位置を指定した場合に第3拠点のディスプレイ44に表示される第2合成画像データである。
【0066】
画像データ生成部135は、例えば、人を示す基準画像データとの類似度が閾値以上の領域を第1画像データ内で探索することにより、第1画像データにおける第1参加者の画像の領域を特定し、特定した領域以外の領域に、第2画像データを合成できる位置を示すマークを付した画像をコンピュータ31に表示させる。画像データ生成部135は、特定した領域以外の領域における、第1参加者の画像の領域の大きさと同程度の大きさの領域の中心位置に、第2画像データを合成できる位置を示すマークを付した画像をコンピュータ31に表示させてもよい。画像データ生成部135がこのようにして、第2画像データを合成できる位置を第2参加者に提示することで、第2参加者が適切に位置を指定することができる。
【0067】
データ送信部137が、第1画像データをリモート会議の主催者として登録された参加者が使用する情報端末に送信し、画像データ生成部135は、主催者の情報端末に表示された第1画像データに基づく画像において指定された位置に第2画像データの少なくとも一部を合成することにより第1合成画像データを生成してもよい。画像データ生成部135がこのように動作することで、リモート会議の主催者が、複数の参加者の関係又はリモート会議の目的等に適した位置に第2参加者の画像を配置することができる。
【0068】
データ送信部137が、一以上の第1参加者がリモート会議の視聴のために使用する一以上の電子機器に第1画像データを送信し、画像データ生成部135は、当該一以上の電子機器(例えばルータ21又はコンピュータ22)を介して取得した第1画像データに基づいて第1拠点に設置された表示装置であるディスプレイ24が表示した第1画像において指定された位置に第2画像データの少なくとも一部を合成することにより第1合成画像データを生成してもよい。画像データ生成部135がこのように動作することで、第1拠点の参加者が第1画像データに基づく画像を見ながら席を移動して、適切な位置に第2画像データを配置することが可能になる。
【0069】
データ送信部137が、一以上の第3参加者がリモート会議の視聴のために使用する一以上の電子機器に第1画像データを送信し、画像データ生成部135は、当該一以上の電子機器(例えばルータ41又はコンピュータ42)を介して取得した第1画像データに基づいて第3拠点に設置された表示装置であるディスプレイ44が表示した第1画像データに基づく画像において指定された位置に第2画像データの少なくとも一部を合成することにより第1合成画像データを生成してもよい。画像データ生成部135がこのように動作することで、第1合成画像データに基づく画像を見る第3参加者にとって見やすい位置に第2画像データを配置することが可能になる。
【0070】
ところで、ある拠点の複数の参加者の画像の間に他の拠点の参加者の画像を配置する方がよい場合と、拠点ごとに参加者の画像を表示させる領域を分ける方がよい場合とがある。一例として、画像データ生成部135は、第1拠点から送られてきた第1画像データに複数の第1参加者が含まれており、他の少なくとも1つの拠点(例えば第2拠点)から送られてきた第2画像データに1人の第2参加者が含まれている場合、
図2(c)に示したように、複数の第1参加者の間に第2参加者の画像を配置した第1合成画像データを生成する。
【0071】
画像データ生成部135は、複数の参加者が参加し得る拠点として第1拠点が登録されている場合に、複数の第1参加者の間に第2参加者の画像を配置した第1合成画像データを生成してもよい。画像データ生成部135がこのような第1合成画像データを生成することで、第1合成画像データに基づく画像を見る第3拠点の第3参加者の臨場感が高まる。
【0072】
画像データ生成部135は、第1拠点から送られてきた第1画像データに複数の第1参加者が含まれており、かつ第3拠点から送られてきた第3画像データに複数の第3参加者が含まれている場合、
図2(b)に示したように、第1画像データと第3画像データとを異なる領域に配置した画像データを生成する。画像データ生成部135は、第1拠点及び第3拠点のそれぞれが、複数の参加者が参加し得る拠点として登録されている場合に、第1画像データと第3画像データとを異なる領域に配置した画像データを生成してもよい。
【0073】
画像データ生成部135は、第3拠点から送られてきた第3画像データに複数の第3参加者が含まれており、他の少なくとも1つの拠点(例えば第2拠点)から送られてきた第2画像データに1人の第2参加者が含まれている場合、
図2(a)に示したように、第1拠点のディスプレイに表示される画像データとして、第2参加者の第2画像データを第3画像データに合成することにより第2合成画像データを生成する。
【0074】
画像データ生成部135は、設定受付部134が受け付けた設定の内容に基づいて、
図2(a)に示したように、ある拠点の複数の参加者が写っている領域と異なる領域に他の拠点の参加者の画像を配置するか、ある拠点の複数の参加者が写っている領域内に他の拠点の参加者の画像を配置するかを決定してもよい。複数の参加者が写っている領域は、例えば、複数の参加者の画像を含む最も小さな長円又は楕円の領域である。
【0075】
一例として、画像データ生成部135は、第1拠点の第1参加者と第2拠点の第2参加者とが同じ部署又は企業に属している場合のように、異なる拠点の参加者を同じ領域に表示させるように設定されている場合に、第1拠点の一以上の第1参加者が写っている領域内に第2参加者の第2画像を配置する。一方、画像データ生成部135は、第3拠点の第3参加者と第2拠点の第2参加者とが異なる部署又は企業に属している場合のように、異なる拠点の参加者を同じ領域に表示させないように設定されている場合に、第3拠点の一以上の第3参加者が写っている領域と異なる領域に第2参加者の第2画像を配置する。画像データ生成部135がこのように動作することで、各拠点の参加者の所属関係に適した態様で表示されるので、臨場感がさらに高まる。また、各拠点における参加者の関係性の視認性が向上し、例えば、会議の円滑な進行に資することが期待できる。
【0076】
[第2参加者の第2画像データを合成できる位置を指定することが難しい場合]
第1画像データに多数の第1参加者が含まれている場合のように、
図5(a)に示したような位置指定が難しい場合がある。例えば、第1拠点に対応する第1画像において第2参加者が位置できる候補の位置又は領域(別言すると、空席位置又は空席領域)が存在しない場合があり得る。
【0077】
このようなケースにおいて、画像データ生成部135は、第1拠点に対応する第1画像データの少なくとも一部を加工あるいは改変することにより、第2参加者のための空席領域を作り出してよい。非限定的な一例として、画像データ生成部135は、第1画像データ又は第3画像データにおけるテーブルに対応する画像データのサイズあるいは形状を変更(例えば、長さ方向に延伸あるいは拡張)することによって、第2参加者の第2画像を配置可能な空席領域を仮想的に作り出してよい。
【0078】
図6は、空席領域が作り出される例を模式的に示す図である。
図6(a)は、第3拠点におけるテーブルの周囲に5名の参加者A1~A5が位置しており、当該テーブルの周囲には第2参加者に対応する第2画像を合成可能な位置(又は領域)の候補が存在しない例を示している。
【0079】
この場合に、画像データ生成部135は、例えば
図6(b)に示すように、第1拠点の第1画像データにおけるテーブルに対応する画像データ(以下において「テーブル画像データ」と称することがある)を、テーブルの長さ方向(矢印で示す方向)に延伸加工する。このような加工によって、テーブル周囲に第2参加者の第2画像を合成可能な空席領域が仮想的に作り出される。
図6(b)は、テーブルを挟んで対面する2つの空席領域X1及びY1が作り出される例を示している。画像データ生成部135は、これら2つの候補である空席領域X1及びY1のいずれか1つを、第2参加者の画像を合成できる位置として示す画面を第2参加者に提示する。
【0080】
図7は、空席領域が作り出された状態の画像の例を模式的に示す例である。
図7(a)においては、第1拠点のテーブルT1に仮想的なテーブルT2が追加されており、テーブルT2の周囲に空席領域X1及びY1が表示されている。この画面において第2参加者が空席領域X1又はY1を指定することで、画像データ生成部135は、指定された領域に第2参加者の第2画像を合成した、
図7(b)に示すような第1合成画像データを生成する。
【0081】
画像データ生成部135によるこのような処理によって、第2参加者の第2画像が第3拠点において表示される第3画像に合成できないようなケースを減らすことができるため、会議の臨場感を損なわずに、第2参加者を第3拠点に仮想的に登場させられる確率を高めることができる。
【0082】
なお、画像データ生成部135は、第1画像データ内に空席領域がないことを条件にして空席領域を作り出してもよいが、空席領域がある場合に空席領域を作り出してもよい。一例として、画像データ生成部135は、いずれかの参加者から、空席領域を増やすための指示を受けたことに応じて空席領域を作り出してもよい。
【0083】
また、画像データ生成部135は、第1画像データ内の空席領域の有無に依らずに、仮想的なテーブルT2を第1画像データにおいて配置してもよい。例えば、画像データ生成部135は、第3拠点のディスプレイ44に表示されたテーブルT1に、第3拠点に配置された現実のテーブルが視覚的に繋がって見えるように仮想的なテーブルT2を第1画像データに配置してよい。あるいは、画像データ生成部135は、例えば、ディスプレイ44に表示されたテーブルT1に、第3拠点に配置された現実のテーブルが近接して配置されているかのように見せるために仮想的なテーブルT2を第1画像データに配置してもよい。
【0084】
このような仮想テーブルT2の配置によって、第3拠点における参加者は、第1拠点と第3拠点とがあたかも1つの会議室空間において会議を行っているかのように感じることができ、会議の一体感や会議の臨場感を更に向上できる。
【0085】
[第2参加者の撮像画像データの加工]
ところで、第2拠点では、第2参加者が、リモート会議に使用するラップトップPCのような情報端末のカメラに向かって正対している場合がある。このような場合、データ処理装置1において取得される第2拠点の第2画像データは、第2参加者を正面から撮像した画像データ(以下、「正面画像データ」も称する)である。
【0086】
このような正面画像データを第1画像データ(又は第3拠点の第3画像データ)にそのまま合成した場合、第1画像データ(又は第3画像データ)において、第1拠点(又は第3拠点)における参加者の顔の向き又は身体の向きと、第2参加者の顔の向き又は身体の向きとが一致しない可能性がある。
【0087】
例えば、第1拠点のディスプレイ24に視線を向けた姿勢の第1参加者が含まれる第1画像データに、第2拠点における第2参加者の正面画像データをそのまま合成した場合、ディスプレイ24から逸れた方向に視線を向けた姿勢の第2参加者が含まれる合成画像データが生成される。第3拠点の第3画像データに第2参加者の正面画像データが合成される場合も同様である。
【0088】
このような場合、不自然な向きに配置された第2参加者を含む合成画像データが、第3拠点又は第1拠点において表示されるため、リモート会議の一体感あるいは臨場感が低下し得る。このような不自然さを低減すべく、画像データ生成部135は、第2画像データを加工(例えば、変形)することにより、合成画像データにおける第2参加者の向きを調整してよい。
【0089】
例えば、画像データ生成部135は、第2画像データにおける第2参加者の顔領域に対応する画像データ(以下、「顔画像データ」とも称する)を、視線方向がディスプレイ24(又はディスプレイ44)に向かう方向となるように変形する。一例として、画像データ生成部135は、第2画像データの手前方向に視線方向が向くように顔画像データを変形する。また、画像データ生成部135は、例えば、第2画像データにおける第2参加者の身体領域に対応する画像データ(以下、「身体画像データ」とも称する)を、第1画像データ(又は第3画像データ)におけるテーブルの配置方向に基づいて、当該テーブルに向かう方向に変形する。
【0090】
別言すると、画像データ生成部135は、第2画像データに含まれる顔画像と身体画像とに個別に(例えば、異なる)画像処理を施すことにより第2参加者の撮像画像データを変形してよい。
【0091】
以上のような第2画像データの加工処理によって、第1拠点(又は第3拠点)において表示される合成画像データにおける第2参加者の不自然さを軽減できる。したがって、リモート会議の一体感あるいは臨場感が低下することを抑制できる。
【0092】
[撮像画像とアバター画像の利用]
各拠点に設置されたディスプレイに表示される画像には、各参加者の撮像画像が表示されてもよいが、各参加者のアバター画像が表示されてもよい。画像データ生成部135は、例えば設定受付部134が受け付けたリモート会議の主催者又は参加者による設定の内容に基づいて、各参加者の撮像画像データを含む合成画像データを生成するか、各参加者のアバター画像データを含む合成画像データを生成するかを決定する。
【0093】
画像データ生成部135は、ディスプレイに同時に表示される複数の拠点の複数の参加者の画像が、撮像画像又はアバター画像のいずれかに統一されるようにしてもよい。一例として、画像データ生成部135は、第1拠点の第1参加者の画像をアバター画像とすることが設定された場合、第2拠点の第2参加者の画像を撮像画像にするかアバター画像にするかの設定が行われていないとしても、第1参加者のアバター画像データが含まれる第1画像データに第2参加者のアバター画像データを合成することにより第1合成画像データを生成する。
【0094】
一方、画像データ生成部135は、第1拠点の第1参加者の画像を撮像画像とすることが設定された場合、第2拠点の第2参加者の画像を撮像画像にするかアバター画像にするかの設定が行われていないとしても、第1参加者の撮像画像データが含まれる第1画像データに第2参加者の撮像画像データを合成することにより第1合成画像データを生成する。このように、画像データ生成部135が、撮像画像データ又はアバター画像データのいずれか一方により構成される合成画像データを生成することで、一部の参加者の画像の種類が異なることによる違和感が生じることを防げる。
【0095】
画像データ生成部135は、設定受付部134を介して設定されたリモート会議の属性に基づいて、第2画像データとして撮像画像データを用いるかアバター画像データを用いるかを決定してもよい。一例として、画像データ生成部135は、リモート会議の属性が社内会議である場合に第2画像データとしてアバター画像データを使用し、リモート会議の属性が社外の人との会議である場合に撮像画像データを使用する。画像データ生成部135がこのように動作することで、例えば、アバター画像を表示すれば足りるリモート会議のために第2参加者が服装を整える必要がなくなる。
【0096】
[データ処理装置1における処理の流れ]
図8は、データ処理装置1における処理の流れを示すフローチャートである。
図8に示すフローチャートは、リモート会議の主催者がリモート会議を開始する操作を行い、リモート会議を開始する要求を設定受付部134が取得した時点から開始している。
【0097】
リモート会議が開始すると、第1取得部131から第3取得部133は、第1画像データ、第2画像データ、第3画像データを取得する(S11)。
図8には示していないが、第1取得部131から第3取得部133は、継続的に第1画像データ、第2画像データ、第3画像データを取得する。
【0098】
この間、設定受付部134は、第2画像データを合成する位置を指定する要求が第2拠点のコンピュータ31から送信されてきたか否かを監視する(S12)。設定受付部134が、合成位置を指定する要求を受けたと判定した場合(S12においてYES)、画像データ生成部135は、第2参加者が第1拠点の参加者と同じ組織に所属しているか否かを判定する(S13)。
【0099】
画像データ生成部135は、第2参加者が第1拠点の参加者と同じ組織に所属していると判定した場合(S13においてYES)、第1画像データに基づく位置指定画面データを第2拠点のコンピュータ31に送信する(S14)。画像データ生成部135は、第2参加者が第1拠点の参加者と同じ組織に所属しておらず第3拠点の参加者と同じ組織に所属していると判定した場合(S13においてNO)、第3画像データに基づく位置指定画面を第2拠点のコンピュータ31に送信する(S15)。画像データ生成部135は、位置指定画面をコンピュータ31に送信した後に、第2参加者が指定した位置を示す情報をコンピュータ31から取得した場合、当該情報が示す位置を第2画像の合成位置に決定する(S16)。
【0100】
S12において所定の期間にわたって合成位置を指定する要求が送られてこない場合(S12においてNO)、画像データ生成部135は、第2参加者の指示によることなく第2画像データの合成位置を決定する(S16)。一例として、画像データ生成部135は、第2参加者が第1拠点の参加者と同じ組織に所属している場合に、第1画像データにおいて第1参加者の画像データが含まれていない領域内の位置を第2画像データの合成位置に決定し、第2参加者が第3拠点の参加者と同じ組織に所属している場合に、第3画像データにおいて第3参加者の画像が含まれていない領域内の位置を第2画像データの合成位置に決定する。
【0101】
続いて、画像データ生成部135は、第1画像データ又は第3画像データにおける合成位置に第2画像データを配置することにより、合成画像データを生成する(S17)。また、音声データ生成部136は、第1画像データにおける第2画像データの合成位置に基づいて処理済音声データを生成する(S18)。一方、音声データ生成部136は、第3画像データにおける第2画像データの合成位置に基づいた音声処理は行わずに第2参加者の未処理の音声データを出力する。なお、第1参加者、第2参加者、及び、第3参加者の全てが同じ組織に所属している場合、画像データ生成部135は、第1画像データ及び第3画像データの双方に第2画像データを合成してもよい。この場合、音声データ生成部136は、第1画像データ及び第3画像データにおける第2画像データそれぞれの合成位置に基づいて処理済音声データを生成する。データ送信部137は、画像データ生成部135が生成した合成画像データ、及び音声データ生成部136が生成した処理済音声データあるいは未処理の音声データを、各データに対応する拠点に送信する(S19)。なお、合成画像データの生成(S17)は、処理済音声データの生成(S18)よりも後に行われてもよいし、処理済音声データの生成(S18)と並行して行われてもよい。
【0102】
設定受付部134がリモート会議を終了するための指示をリモート会議の主催者から受けていない場合(S20においてNO)、第1取得部131から第3取得部133は、第1画像データ、第2画像データ、第3画像データを取得し(S21)、画像データ生成部135、音声データ生成部136及びデータ送信部137は、S17からS19までの処理を繰り返す。設定受付部134がリモート会議を終了するための指示をリモート会議の主催者から受けた場合(S20においてYES)、制御部13は処理を終了する。
【0103】
[変形例1]
以上の説明においては、第2拠点が1つだけであり、第2参加者が1名だけであったが、第2拠点が複数存在してもよく、第2拠点に複数の第2参加者がいてもよい。この場合、画像データ生成部135は、複数の第2参加者に対応する複数の第2画像データそれぞれの一部を、第1画像データにおける一以上の第1参加者に対応する位置と異なる位置、又は、第3画像データにおける一以上の第3参加者に対応する位置と異なる位置に合成する。
【0104】
また、第1拠点の参加者と第3拠点の参加者とが同じ組織に属しており、第2拠点に表示される画像において、第1拠点の一以上の第1参加者と第3拠点の一以上の第3参加者とが混在した状態で表示される方がよいという場合もある。このような場合、画像データ生成部135は、第1画像データ及び第3画像データから、一以上の第1参加者の画像データと一以上の第3参加者の画像データとを抽出し、抽出した複数の画像データを合成することにより、第2拠点に送信する合成画像データを生成してもよい。
【0105】
[データ処理装置1による効果]
以上説明したように、画像データ生成部135は、第1拠点、第2拠点、第3拠点に参加者がいるリモート会議において、第1拠点で撮影された一以上の第1参加者の画像データを含む第1画像データに、第2拠点で撮影された第2参加者の第2画像データの少なくとも一部を合成することにより合成画像データを生成する。また、音声データ生成部136は、合成画像データにおける第2画像データの位置に基づいて第2参加者の音声を処理することにより処理済音声データを生成する。そして、データ送信部137は、合成画像データ及び処理済音声データを第3拠点における第3参加者が視聴できるように、第3拠点の一以上の電子機器に送信する。データ処理装置1がこのように構成されていることで、第3拠点の第3参加者は、第1拠点の一以上の第1参加者と一緒に第2参加者がリモート会議に参加しているような臨場感を得ることができる。
【0106】
上述した実施の形態において、「画像データ」には2次元データに限られず3次元データ(例えば、参加者を立体的に表すホログラムデータ)が含まれてもよい。例えば、3次元ホログラフィ技術によって参加者を立体的に表示(あるいは投影)する場合に、上述した実施の形態において説明したような画像処理が適用されてもよい。
【0107】
上述した実施の形態において、「拠点」という用語は、例えば、「ベース」、「スペース」、「会議室」、あるいは「部屋」といった、リモート会議に参加する人が位置する場所を意味する用語に読み替えられてもよい。「組織」という用語は、例えば、「団体」、「グループ」、「チーム」、あるいは「サークル」といった人の集まり(集団)を意味する用語に読み替えられてもよい。また、「送信」という用語は、例えば、「出力」に読み替えられてよく、「(画像データの)合成」という用語は、例えば、「重畳」に読み替えられてもよい。「特定」という用語は、例えば、「検出」あるいは「識別」に読み替えられてもよい。
【0108】
また、上述した実施の形態に例示した構成について使用した「~部」という用語は、例えば、「~手段」、「~回路」、あるいは「~デバイス」といった他の用語に互いに読み替えられてもよい。
【0109】
また、上述した実施の形態において、「第1」、「第2」、「第3」といった用語は、2以上の要素間を区別するために便宜的に用いられ、当該用語が参照する要素の物理量、優劣、あるいは順序を限定しない。
【0110】
なお、本発明により、国連が主導する持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」に貢献することが可能となる。
【0111】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0112】
1 データ処理装置
11 通信部
12 記憶部
13 制御部
21 ルータ
22 コンピュータ
23 カメラ
24 ディスプレイ
25 スピーカ
31 コンピュータ
41 ルータ
42 コンピュータ
43 カメラ
44 ディスプレイ
45 スピーカ
131 第1取得部
132 第2取得部
133 第3取得部
134 設定受付部
135 画像データ生成部
136 音声データ生成部
137 データ送信部