(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024150589
(43)【公開日】2024-10-23
(54)【発明の名称】通信端末装置
(51)【国際特許分類】
G06F 3/01 20060101AFI20241016BHJP
H04N 7/15 20060101ALI20241016BHJP
H04N 7/18 20060101ALI20241016BHJP
H04S 7/00 20060101ALI20241016BHJP
【FI】
G06F3/01 510
G06F3/01 570
H04N7/15
H04N7/18 U
H04S7/00 320
【審査請求】有
【請求項の数】2
【出願形態】OL
(21)【出願番号】P 2024114786
(22)【出願日】2024-07-18
(62)【分割の表示】P 2022518567の分割
【原出願日】2020-04-30
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
(71)【出願人】
【識別番号】519155642
【氏名又は名称】佐藤 塁
(74)【代理人】
【識別番号】110000279
【氏名又は名称】弁理士法人ウィルフォート国際特許事務所
(72)【発明者】
【氏名】佐藤 塁
(57)【要約】 (修正有)
【課題】遠隔地にいるユーザ同士の良好な対話を実現する通信端末装置を提供する。
【解決手段】通信端末装置は、自装置を用いる自ユーザの声を含む音声を取得し、所定のユーザ空間上にある物体の三次元データを形成可能にする視覚情報を取得し、ユーザ空間の視覚情報に基づいて自ユーザの視点位置を特定し、ユーザ空間の視覚情報に基づく画像伝達情報と、音声に基づく音声伝達情報とを他装置に伝達し、ユーザ空間を固定的に配置した第1仮想空間と他装置のユーザ空間が固定的に配置された第2仮想空間とを所定の相対位置および相対角度で配置した共有仮想空間に対して相対位置が固定された表示面に、他装置から伝達された画像伝達情報に基づいて、自ユーザの視点位置から見える共有仮想空間の画像を表示し、他装置から伝達された音声伝達情報に基づいて音声を出力する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
通信回線を介して複数で相互接続する通信端末装置であって、
自装置を用いる自ユーザの声を含む音声を取得する音声取得部と、
所定のユーザ空間上にある人物の三次元データを形成可能にする視覚情報を取得する視覚情報取得部と、
前記ユーザ空間の視覚情報に基づく画像伝達情報と、前記音声に基づく音声伝達情報とを他装置に伝達する情報伝達部と、
前記自装置のユーザ空間と前記他装置のユーザ空間とを配置した共有仮想空間に対して相対位置が固定された表示面に、前記他装置から伝達された画像伝達情報に基づいて、前記共有仮想空間上にある人物の三次元データを、前記自ユーザの視点位置から前記表示面を介して共有仮想空間上の前記人物の三次元データを見たときのような見え方となる前記三次元データの表示画像を生成し、表示する画像表示部と、
前記他装置から伝達された音声伝達情報に基づいて音声を出力する音声出力部と、
を有する通信端末装置。
【請求項2】
前記ユーザ空間の視覚情報に基づいて前記自ユーザの視点位置を特定する人物捕捉部を更に有する、
請求項1に記載の通信端末装置。
【請求項3】
前記人物捕捉部は、前記ユーザ空間の視覚情報に基づいて、前記自ユーザを検出し、
前記情報伝達部は、前記自ユーザが検出されると、前記画像伝達情報として、前記自ユーザの顔部分を表す情報を前記他装置に送信し、
前記画像表示部は、前記他装置から受信した顔部分を表す情報に基づく顔画像を含む画像を前記表示面に表示する、
請求項1に記載の通信端末装置。
【請求項4】
前記情報伝達部は、前記自ユーザが検出されると、前記画像伝達情報として、更に、前記自ユーザの骨格を表す情報を前記他装置に送信し、
前記画像表示部は、前記他装置から受信した顔部分を表す情報に基づく顔画像と、前記他装置から受信した骨格を表す情報に基づく画像とを含む前記共有仮想空間の画像を前記表示面に表示する、
請求項1に記載の通信端末装置。
【請求項5】
前記画像表示部は、前記共有仮想空間の人物を加工処理が可能な点群および/もしくはポリゴンメッシュにより表示する、
請求項1に記載の通信端末装置。
【請求項6】
前記音声出力部は、前記他装置から伝達された音声伝達情報に基づいて、前記共有仮想空間における前記他装置のユーザ空間が配置された方向から聞こえる音声を再生する、
請求項1に記載の通信端末装置。
【請求項7】
前記ユーザ空間における所定の位置をユーザ定位置とし、
前記視覚情報取得部は、それぞれの撮像方向の視覚情報を取得する複数の撮像器を有し、前記複数の撮像器は、それぞれが、互いに隔離して前記ユーザ定位置との相対位置を固定し、前記ユーザ空間の少なくとも一部が撮像される方向に前記撮像方向を向けて配置され、
前記情報伝達部は、前記他装置の複数の撮像器のうち、前記撮像器の撮像方向と、前記他装置のユーザ定位置と前記自装置のユーザ定位置を結ぶ直線との相対角度に基づいて選択した撮像器のみについて、当該撮像器で取得された視覚情報に基づく画像伝達情報を、前記他装置から取得する、
請求項1に記載の通信端末装置。
【請求項8】
前記ユーザ空間における所定の位置をユーザ定位置とし、
前記視覚情報取得部は、前記ユーザ定位置から所定の方向をユーザ定方向とし、前記ユーザ定方向の右側に配置された右側撮像器と、前記ユーザ定方向の左側に配置された左側撮像器とを含み、
前記情報伝達部は、前記共有仮想空間において前記自装置のユーザ定位置から前記ユーザ定方向の右側に前記他装置のユーザ定位置が配置される場合には前記他装置の右側撮像器による情報を含み前記他装置の左側撮像器による情報を含まない画像伝達情報を前記他装置から取得し、前記共有仮想空間において前記自装置のユーザ定位置から前記ユーザ定方向の左側に前記他装置のユーザ定位置が配置される場合には前記他装置の左側撮像器による情報を含み前記他装置の右側撮像器による情報を含まない画像伝達情報を前記他装置から受信する、
請求項1に記載の通信端末装置。
【請求項9】
前記ユーザ空間における所定の位置をユーザ定位置とし前記ユーザ定位置から所定の方向をユーザ定方向とし、
前記画像表示部は、互いに並んだ第1線と第2線のそれぞれの上に前記自装置および前記他装置のうち少なくとも1つの装置のユーザ定位置を配置し、前記第1線上にユーザ定位置が配置された装置のユーザ定方向を前記第2線に向かう方向とし、前記第2線上にユーザ定位置が配置された装置のユーザ定方向を前記第1線に向かう方向とするように、前記共有仮想空間を形成する、
請求項1に記載の通信端末装置。
【請求項10】
前記ユーザ空間における所定の位置をユーザ定位置とし前記ユーザ定位置から所定の方向をユーザ定方向とし、
前記画像表示部は、前記自装置および前記他装置のユーザ定位置をリングもしくは多角形状に配置し、前記自装置および前記他装置のユーザ定方向を前記リングもしくは多角形の内側に向かう方向とするように、前記共有仮想空間を形成する、
請求項1に記載の通信端末装置。
【請求項11】
前記ユーザ空間における所定の位置をユーザ定位置とし前記ユーザ定位置から所定の方向をユーザ定方向とし、
前記画像表示部は、所定の線上に前記自装置および前記他装置のユーザ定位置を配置し、前記自装置および前記他装置のユーザ定方向を前記線に対して同一方向とするように、前記共有仮想空間を形成する、
請求項1に記載の通信端末装置。
【請求項12】
前記ユーザ定位置から所定の方向をユーザ定方向とし、
前記画像表示部は、前記ユーザ定位置から見て前記ユーザ定方向に配置された矩形で平面の表示面を有する正面表示器と、前記ユーザ定位置から見て前記ユーザ定方向の右側に配置された矩形で平面の表示面を有する右側表示器と、前記ユーザ定位置から見て前記ユーザ定方向の左側に配置された矩形で平面の表示面を有する左側表示器とを有し、前記右側表示器の表示面は、前記正面表示器の表示面の右辺に近接し、前記左側表示器の表示面は、前記正面表示器の表示面の左辺と近接する、
請求項1に記載の通信端末装置。
【請求項13】
前記画像表示部は、前記正面表示器、前記左側表示器、前記右側表示器からなる3つの表示器の底辺に近接して配置され矩形の上面に表示面を有する下側表示器を更に有する、および/または、前記正面表示器、前記左側表示器、前記右側表示器からなる3つの表示器の天井側の辺に近接して配置され矩形の下面に表示面を有する上側表示器を更に有する、
請求項12に記載の通信端末装置。
【請求項14】
前記ユーザ空間における所定の位置をユーザ定位置とし、
前記画像表示部は、前記ユーザ定位置から見て前記ユーザ定方向に配置された矩形で平面の表示面を有する正面表示器と、前記正面表示器の底辺に近接して配置され矩形の上面に表示面を有する下側表示器を更に有する、および/または、前記正面表示器の上辺に近接して配置され矩形の下面に表示面を有する上側表示器を更に有する、
請求項1に記載の通信端末装置。
【請求項15】
前記ユーザ空間における所定の位置をユーザ定位置とし、
前記画像表示部は、前記表示面が前記ユーザ定位置を水平方向に囲む内面である、
請求項1に記載の通信端末装置。
【請求項16】
前記画像表示部は、前記ユーザ定位置を水平方向に囲む内面である表示面を有する表示器と、前記表示器の底辺に近接して配置され矩形の上面に表示面を有する下側表示器を更に有する、および/または、前記正面表示器の上辺に近接して配置され矩形の下面に表示面を有する上側表示器を更に有する、
請求項15に記載の通信端末装置。
【請求項17】
前記ユーザ空間における所定の位置をユーザ定位置とし、
前記画像表示部は、前記表示面の少なくとも一部の外縁近傍が前記ユーザ定位置に向かって湾曲している、
請求項1に記載の通信端末装置。
【請求項18】
前記画像表示部は、前記表示面の少なくとも一部の外縁近傍が前記ユーザ定位置に向かって湾曲している表示面を有する表示器と、前記表示器の底辺に近接して配置され矩形の上面に表示面を有する下側表示器を更に有する、および/または、前記正面表示器の上辺に近接して配置され矩形の下面に表示面を有する上側表示器を更に有する、
請求項17に記載の通信端末装置。
【請求項19】
前記画像表示部は、前記表示面が柱形状の外周面である、
請求項1に記載の通信端末装置。
【請求項20】
前記自装置に対応するオブジェクトと前記他装置に対応するオブジェクトを移動可能に配置することができる画面を表示し、前記画面に対する前記オブジェクトの配置により、前記共有仮想空間に対する前記自装置および前記他装置のユーザ空間の配置の指定を受け付ける配置指定受付部を更に有する、
請求項1に記載の通信端末装置。
【請求項21】
前記音声取得部と前記視覚情報取得部と前記情報伝達部と前記画像表示部と前記音声出力部とが筐体に内蔵され、前記視覚情報取得部の撮像器が前記筐体の所定の位置に配設され、平面の表示面を備える少なくとも1つ以上の表示器に接続され前記画像表示部による画像のデータを前記表示器に出力する少なくとも1つ以上の外部出力端子が前記筐体に設けられ、
前記画像表示部は、前記表示面のサイズと前記筐体に対する前記表示面の相対位置および相対姿勢の指定を受け、前記指定に基づいて、前期共有空間上にある人物の三次元データを、前記自ユーザの視点位置から前記表示面を介して共有仮想空間上の前記人物の三次元データを見たときのような見え方となる前記三次元データの表示画像を生成し、前記外部出力端子から出力する、
請求項1に記載の通信端末装置。
【請求項22】
前記情報伝達部は、前記画像伝達情報に含まれている人物の該画像伝達情報に含まれていない部分の情報を補完する、
請求項1に記載の通信端末装置。
【請求項23】
外部接続端子を更に有し、
前記音声取得部、前記視覚情報取得部、人物捕捉部、前記情報伝達部、前記画像表示部、前記音声出力部の少なくともひとつに対する制御を受け付けるための制御情報を前記外部接続端子から入力する、
請求項1に記載の通信端末装置。
【請求項24】
前記人物捕捉部は、前記自ユーザが所定の動作を行ったことを検知し、
前記音声取得部、前記視覚情報取得部、前記情報伝達部、前記画像表示部、前記音声出力部の少なくともひとつが前記動作に対応する処理を実行する、
請求項1に記載の通信端末装置。
【請求項25】
前記人物捕捉部は、前記自ユーザが前記共有仮想空間上の物体に手をかざす第1動作と、前記物体に向けた手を握って移動させる第2動作とを検知し、
前記画像表示部は、前記第1動作が検知された後に前記第2動作が検知されたら前記物体を移動させ、前記第1動作が検知されずに前記第2動作が検知されても前記物体を移動させない、
請求項21に記載の通信端末装置。
【請求項26】
前記画像表示部は、前記画像を前記表示面に表示する表示装置と、前記ユーザが着用する三次元眼鏡装置とを有し、
前記表示装置は、前記視点位置に応じて、視差を有する左眼用画像および右眼用画像を生成し、前記表示面に表示し、
前記三次元眼鏡装置は、前記左眼用画像を前記自ユーザの左眼に見せ、前記右眼用画像を前記自ユーザの右眼に見せる、
請求項1に記載の通信端末装置。
【請求項27】
前記人物捕捉部は、所望の心理状態の指定を受けると、前記視覚情報における前記自ユーザの顔部分を前記心理状態を表す表情に加工し、
前記情報伝達部は、前記自ユーザの顔部分が加工された視覚情報に基づく画像伝達情報を他装置に伝達する、
請求項1に記載の通信端末装置。
【請求項28】
通信回線を介して複数で相互接続する通信端末装置による通信方法であって、
前記通信端末装置が、
自装置を用いる自ユーザの声を含む音声を取得し、
所定のユーザ空間上にある人物の三次元データを形成可能にする視覚情報を取得し、
前記ユーザ空間の視覚情報に基づく画像伝達情報と、前記音声に基づく音声伝達情報とを他装置に伝達し、
前記自装置のユーザ空間と前記他装置のユーザ空間とを配置した共有仮想空間に対して相対位置が固定された表示面に、前記他装置から伝達された画像伝達情報に基づいて、前期共有空間上にある人物の三次元データを、前記自ユーザの視点位置から前記表示面を介して共有仮想空間上の前記人物の三次元データを見たときのような見え方となる前記三次元データの表示画像を生成し、表示し、
前記他装置から伝達された音声伝達情報に基づいて音声を出力する、
通信方法。
【請求項29】
コンピュータを通信回線を介して複数で相互接続する通信端末装置の制御装置として動作させるためのソフトウェアプログラムであって、
自装置を用いる自ユーザの声を含む音声を取得し、
所定のユーザ空間上にある人物の三次元データを形成可能にする視覚情報を取得し、
前記ユーザ空間の視覚情報に基づく画像伝達情報と、前記音声に基づく音声伝達情報とを他装置に伝達し、
前記自装置のユーザ空間と前記他装置のユーザ空間とを配置した共有仮想空間に対して相対位置が固定された表示面に、前記他装置から伝達された画像伝達情報に基づいて、前期共有空間上にある人物の三次元データを、前記自ユーザの視点位置から前記表示面を介して共有仮想空間上の前記人物の三次元データを見たときのような見え方となる前記三次元データの表示画像を生成し、表示し、
前記他装置から伝達された音声伝達情報に基づいて音声を出力する、
手順をコンピュータに実行させるためのソフトウェアプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、遠隔地にいるユーザ同士の良好な対話を実現する通信端末装置に関する。
【背景技術】
【0002】
遠隔でのコミュニケーションの手段として、汎用的なパーソナルコンピュータ等で行うウェブ会議、専用の機器を用いるテレビ会議、スマートフォン等で利用可能なビデオ通話がある。いずれも遠隔地にいる相手を主に正面から撮影した映像を平面の画面に表示し、音声で通話を行うというものである。そのため、実際に同じ空間にいて対面で会話をしているような感覚は得にくい。これに対して、仮想空間を共有してコミュニケーションの質を高める様々な技術が提案されている。
【0003】
特許文献1には、複数のメンバーが同一の空間を共有する遠隔会議システムが開示されている。特許文献1の遠隔会議システムは、サーバ装置と複数のクライエント装置から構成される。クライエント装置は、ユーザが装着する、加速度センサおよびディスプレイ装置を有するヘッドセットと、赤外線センサと撮像手段と収音手段とを有する3次元形状取得センサと、を有する。サーバ装置は、クライエント装置から送信された深度信号を用いてユーザの動作解析を行い、動作解析に基づくCG(コンピュータグラフィック)を生成し、実物体データを表示し、拡張現実空間を合成し、合成した拡張現実空間の情報をクライエント装置に送信する。クライエント装置は、サーバ装置から受信した拡張現実空間情報に基づいて、ヘッドセットのディスプレイ装置に画像を表示し、スピーカに音声信号を出力する。また、特許文献1には、CGの形状情報に、予め取得しておいた顔のテクスチャを張り付けることも開示されている。
【0004】
特許文献2には、仮想空間を複数のユーザで共有し、各ユーザの実空間における位置と仮想空間における位置を対応させる技術が開示されている。特許文献2に開示された仮想空間共有システムは、離れた場所にいる複数のユーザのそれぞれの場所における位置情報と視界情報を検出する手段と、その位置情報および視界情報を送信し、各ユーザ宛てに送信された仮想空間情報をそれぞれ受信するユーザ制御手段と、各ユーザの位置情報および視界情報を受信し、複数のユーザで共有する1つの仮想空間内で各ユーザの位置情報に応じた位置に各ユーザを表す仮想オブジェクトを配置し、各ユーザの位置情報および視界情報に応じた各ユーザの視点からそれぞれ対応する仮想空間を表示する仮想空間情報を生成し、各ユーザ宛てに送信する情報処理手段と、各ユーザごとにそれぞれのユーザ制御手段に受信した仮想空間情報を入力し、各ユーザの視点から見た仮想空間を表示する表示手段とを備える。
【0005】
特許文献3には、仮想現実空間共有システムにおいて通信負荷を低減する技術が開示されている。特許文献3に開示された技術は、第1ユーザによって使用される第1端末と第2ユーザによって使用される第2端末との間で仮想現実空間を共有する仮想現実空間共有システムにおいて、前記第1端末に表示するための仮想現実空間画像を生成する画像生成装置が、前記第2端末から仮想現実空間における前記第2ユーザの位置と視線方向とを含む視線情報を取得する視線情報取得部と、前記第2端末からの前記視線情報に基づいて前記第1端末に表示するための仮想現実空間画像を生成する画像生成部と、前記画像生成部によって生成された前記仮想現実空間画像を前記第1端末へ供給する画像供給部と、を備える。また、特許文献3には、仮想現実空間に相手ユーザの代わりにアバター等のオブジェクトを表示し、そのオブジェクトの顔の向きを相手ユーザの顔の向きと一致させることが開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2015-184986号公報
【特許文献2】特開2002-149581号公報
【特許文献3】特開2017-078891号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
人と人とが対面で行うコミュニケーションによる意思疎通や信頼関係構築などにおいて、お互いの動作、姿勢、表情、顔色、視線などが非言語(non-verbal)の情報伝達手段として重要な役割を果たすと言われている。仮想空間を共有して行うコミュニケーションにおいてもこれら非言語情報の伝達が重要となる。
【0008】
しかし、特許文献1の技術では、複数のユーザが共有する仮想空間に現れる相手ユーザはアバター等のCGの画像、あるいは予め取得しておいた顔のテクスチャを相手ユーザの形状に張り付けた画像となる。特許文献2の技術では、複数のユーザが共有する仮想空間に現れる相手ユーザは仮想オブジェクトとなる。特許文献3の技術では、複数のユーザが共有する仮想空間に現れる相手ユーザはアバターとなる。そのため、特許文献1~3の技術を用いたコミュニケーションは、非言語の情報伝達が十分とは言えなかった。
【0009】
また、特許文献1~3のいずれにおいても、ヘッドマウントディスプレイを頭に装着することは、ユーザにとって不快であると共に、対面での会話と異なる違和感を与えるものである。
【0010】
本発明の目的は、遠隔地にいるユーザ同士の良好な対話を実現する技術を提供することである。
【課題を解決するための手段】
【0011】
本開示のひとつの態様による通信端末装置は、自装置を用いる自ユーザの声を含む音声を取得する音声取得部と、所定のユーザ空間上にある人物の三次元データを形成可能にする視覚情報を取得する視覚情報取得部と、ユーザ空間の視覚情報に基づいて自ユーザの視点位置を特定する人物捕捉部と、ユーザ空間の視覚情報に基づく画像伝達情報と、音声に基づく音声伝達情報とを他装置に伝達する情報伝達部と、ユーザ空間を固定的に配置した第1仮想空間と他装置のユーザ空間が固定的に配置された第2仮想空間とを所定の相対位置および相対角度で配置した共有仮想空間に対して相対位置が固定された表示面に、他装置から伝達された画像伝達情報に基づいて、自ユーザの視点位置から見える共有仮想空間の画像を表示する画像表示部と、他装置から伝達された音声伝達情報に基づいて音声を出力する音声出力部と、を有する。
【発明の効果】
【0012】
本開示のひとつの態様によれば、遠隔地にいるユーザ同士の良好な対話を実現する通信端末装置を提供できる。
【図面の簡単な説明】
【0013】
【
図1】実施形態による通信システムのブロック図である。
【
図2】実施形態による通信端末装置のブロック図である。
【
図3】画像を表示する処理について説明するための概念図である。
【
図4】表示面に共有仮想空間の画像が表示された様子を示す図である。
【
図5】表示面に表示される画像の変化の様子を示す図である。
【
図6】実施例1による通信端末装置のブロック図である。
【
図7】実施例1による通信端末装置の概略平面図である。
【
図8】実施例1の通信端末装置の概略斜視図である。
【
図9】実施例1における画像表示処理のフローチャートである。
【
図10】実施例1における配置指定画面の一例を示す図である。
【
図11】複数のユーザが同じ会議室で対面で行う会議が模擬的に実現された遠隔会議の様子を示す概念図である。
【
図12】他の構成による遠隔会議の様子を示す概念図である。
【
図13】更に他の構成による遠隔会議の様子を示す概念図である。
【
図14】点群を加工した画面が表示面に表示された様子を示す概念図である。
【
図15】実施例3による通信端末装置のブロック図である。
【
図16】実施例3による通信端末装置の概略平面図である。
【
図17】実施例3の通信端末装置の概略斜視図である。
【
図18】実施例4による通信端末装置のブロック図である。
【
図19】実施例4による通信端末装置の概略平面図である。
【
図20】実施例4の通信端末装置の概略斜視図である。
【
図21】実施例4における画像表示処理のフローチャートである。
【
図22】実施例5による通信端末装置のブロック図である。
【
図23】実施例5による通信端末装置の概略平面図である。
【
図24】実施例5の通信端末装置の概略斜視図である。
【
図25】実施例5における配置指定画面の一例を示す図である。
【
図26】複数のユーザが共有スペースでの対面による対話が擬似的に実現された様子を示す概念図である。
【
図27】実施例6による通信端末装置のブロック図である。
【
図28】実施例6による通信端末装置の概略平面図である。
【
図29】実施例6の通信端末装置の概略斜視図である。
【
図30】実施例6のユーザから得られる視界を示す概念図である。
【発明を実施するための形態】
【0014】
以下、本発明の実施形態について図面を参照して説明する。
【0015】
図1は、本実施形態による通信システムのブロック図である。通信システム1は、複数の通信端末装置10を備えている。通信システム1は、遠隔にいる複数のユーザ91があたかも同じ空間で対面で対話しているような体験を再現するシステムである。複数の通信端末装置10は、基本的に同様の構成および機能を備え、通信ネットワーク90を介して相互に接続可能である。
【0016】
なお、ここでは、ある通信端末装置10に着目し、その通信端末装置10を自装置と称し、その自装置を用いるユーザ91を自ユーザと称し、自装置と異なる通信端末装置10を他装置と称し、他装置を用いるユーザ91を他ユーザと称する場合がある。他装置は1つ以上であればよく、複数であってもよい。
【0017】
図2は、本実施形態による通信端末装置のブロック図である。通信端末装置10は、音声取得部11と、視覚情報取得部12と、人物捕捉部13と、情報伝達部14と、画像表示部15と、音声出力部16とを有する。
【0018】
本実施形態では、通信端末装置10を用いているユーザ91が存在するであろう実空間の所定の範囲をユーザ空間とし、そのユーザ空間内でユーザ91が動くことを想定している。
【0019】
音声取得部11は、ユーザ空間にいるユーザ91の声を含む音声を取得する。例えば、音声取得部11は、不図示のマイクロフォンを備え、マイクロフォンにより音声の情報を取得する。
【0020】
視覚情報取得部12は、ユーザ空間にある物体の三次元データを生成可能にする視覚情報を取得する。三次元データは、三次元空間上の三次元オブジェクトを表現するデータであればよく、特に具体的手法は限定されない。ユーザ空間にある物体には、通信端末装置10を用いているユーザ91が含まれうる。視覚情報は、例えば画像の情報および深度の情報を含む。また、視覚情報は、例えば30~60fps(frames per second)といった所定のフレームレートで取得される。視覚情報取得部12は、不図示のイメージセンサおよび不図示の深度センサを備え、イメージセンサにより画像をリアルタイムで取得し、深度センサにより深度をリアルタイムで取得してもよい。
【0021】
人物捕捉部13は、視覚情報取得部12で取得されたユーザ空間の画像および/または深度に基づいて、ユーザ91の視点位置を特定する。ここで視点とは眼球がある位置のことである。視点位置は、三次元空間上の位置であり、例えば、三軸の直交座標系の座標で表すことができる。例えば、人物捕捉部13は、画像および/または深度の情報に基づいてユーザ空間内の人物をリアルタイムで検出し、更に、検出された人物の頭部を特定し、その頭部の中央をユーザ91の視点位置とする。なお、視点位置は、ユーザ91の視点の位置あるいはユーザ91の視点とみなすことができる位置であればよく、本実施形態の例に限定されない。顔認識処理または人物認識処理により認識された顔の領域の中央、あるいは認識された両目の中央をユーザ91の視点位置としてもよい。
【0022】
情報伝達部14は、視覚情報取得部12で取得されたユーザ空間の画像および深度に基づく画像伝達情報と、音声取得部11で取得された音声に基づく音声伝達情報とを、他装置に伝達する。
【0023】
画像伝達情報は、他装置の画像表示部15による画像の再生を可能にする情報である。画像伝達情報は、例えば、視覚情報取得部12で取得されたままの画像および深度の情報を含んでいてもよいし、それらを圧縮した情報を含んでいてもよいし、それらの一部が削減された情報を含んでいてもよいし、人物の特徴点のみの画像および深度の情報を含んでいてもよい。特徴点は、ユーザ91の顔および身体の特徴点であり、例えば、腕の関節の位置、眼の位置、口の位置などを示す。これらの特徴点の情報から人物の姿勢、動作、および表情の再現が可能となる。
【0024】
音声伝達情報は、他装置の音声出力部16による音声の出力を可能にする情報である。音声伝達情報は、例えば、音声取得部11で取得されたままの音声の情報を含んでいてもよいし、それらを圧縮した情報を含んでいてもよいし、それらの一部が削減された情報を含んでいてもよいし、それらを加工した情報をふくんでいてもよい。
【0025】
画像表示部15は、自装置のユーザ空間を固定的に配置した第1仮想空間と、他装置のユーザ空間が固定的に配置された第2仮想空間とを所定の相対位置に配置した共有仮想空間を形成し、その仮想空間に対して相対位置が固定された表示面に、他装置から伝達された画像伝達情報に基づいて、自ユーザの視点位置から見える共有仮想空間の画像を表示する。なお、自装置で取得された視覚情報に基づき他装置の表示面に表示する画像を生成する処理を行う物理的実体が存在する場所は特に限定されない。当該処理を、自装置にて行っても良いし、他装置にて行ってもよいし、自装置と他装置の間でクラウドコンピューティングにより行ってもよい。
【0026】
自ユーザの視点位置が人物捕捉部13によりリアルタイムで更新され、画像表示部15は、リアルタイムで更新される自ユーザの視点位置の情報を用い、リアルタイムの視点位置から見える共有仮想空間の映像を表示面に表示する。その結果、表示面には運動視差を有する映像が映し出される。
【0027】
画像が表示される表示面は、特に限定されず、ディスプレイ装置の画像を表示する表示面や、プロジェクタの画像が投射される表示面などを含む。表示面は、1つまたは複数の平面で構成されてもよい。表示面が矩形で平面であれば、表示面を、その表示面に含まれる点毎に三次元空間における位置により表すことをしなくても、表示面全体としての位置(例えば中心の位置)、姿勢(例えばロール角、ピッチ角、およびヨー角)、およびサイズ(例えば縦および横それぞれの長さ)により表すことができる。また、表示面は、1つまたは複数の曲面で構成されてもよい。例えば、円筒形の内面の周方向の所定角度範囲に渡る曲面であれば、円筒の断面の半径と、円筒の高さと、円の中心から見て曲面がひろがる角度範囲とにより、一意に決まる。また、他の例として、球形の内面の所定角度範囲に渡る曲面であれば、球の半径と、球の中心から見た角度範囲(ロール角、ピッチ角、およびヨー角)により、一意に決まる。曲面の表示面は、一般に、その表示面に含まれる各点の三次元空間における位置で表すことができる。更に、表示面は、1つまたは複数の曲面と、1つまたは複数の平面とを含んで構成されてもよい。
【0028】
このように、自ユーザにとって共有仮想空間上の他ユーザがそこに存在するかのように錯覚させるべく確からしく自然な画像に見えるような処理として、本実施形態では、他装置から伝達された画像および深度の情報に基づいて共有仮想空間の三次元オブジェクトのデータ(以下、三次元データ)を生成し、表示面に表示する画像を生成するとき、三次元データに定義された共有仮想空間における三次元オブジェクトを表示面、すなわち二次元の面に投影させるような射影変換を行う。ただし、同様な効果を得る他の処理手法を用いてもよい。他の処理手法の例として、共有仮想空間を基準座標空間とし、その基準座標空間において三次元データの各点をその各点と視点位置とを結ぶ直線が表示面と交わる点に投影するという手法がある。また、表示面に表示する画像を生成する他の処理方法として、経験則に従った特定の行列や数値の四則演算処理を、画像や画像がもつ三次元パラメータに対して行うことにしてもよい。
【0029】
図3は、画像を表示する処理について説明するための概念図である。
図3には、第1仮想空間21と、第2仮想空間31と、共有仮想空間41とが上方から見た平面図により示されている。
図3には、図に表す都合で、空間が平面で示されているが、高さ方向にも広がっている。
【0030】
画像表示部15は、自装置のユーザ空間22を固定的に配置した第1仮想空間21を定義する。
図3の例では、視覚情報取得部12が、画像を取得するイメージセンサと深度を取得する深度センサを一体的に構成した撮像器40を有するものとし、ユーザ空間22は撮像器40の画角範囲に拡がる空間としている。ただし、ユーザ空間22の大きさおよび形状は特に限定されない。第1仮想空間21の大きさおよび形状は特に限定されない。第1仮想空間21の大きさは無限大であってもよい。自装置のユーザ空間22には、人物捕捉部13により特定された自ユーザ23の視点位置24が存在する。
【0031】
また、画像表示部15は、他装置のユーザ空間32を固定的に配置した第2仮想空間31を定義する。第2仮想空間31の大きさおよび形状も特に限定されない。第2仮想空間31の大きさは無限大であってもよい。
図3の例では、第2仮想空間31と第1仮想空間21は大きさおよび形状が等しい例を示している。しかし、それらは必ずしも等しくなくてもよい。他装置のユーザ空間32には他ユーザ33が存在し、他ユーザ33の画像および深度は他装置により取得され、その画像および深度の情報に基づく画像伝達情報が自装置に伝達される。
【0032】
画像表示部15は、第1仮想空間21と第2仮想空間31とを所定の相対位置に配置した共有仮想空間41を定義する。ここでは、共有仮想空間41は第1仮想空間21と第2仮想空間31とを重ね合わせたものとなっている。共有仮想空間41には自ユーザ23の視点位置24と他ユーザ33とが存在することになる。
【0033】
さらに、画像表示部15は、共有仮想空間41に対する相対位置が固定された表示面42に、他装置から伝達された画像伝達情報に基づいて、自ユーザ23の視点位置24から見える共有仮想空間の画像を表示する。
【0034】
図4は、表示面に共有仮想空間の画像が表示された様子を示す図である。
【0035】
撮像器40で取得された画像および/または深度に基づいて特定された自ユーザ23の視点位置24から見える共有仮想空間41の画像が表示面42に表示されている。自ユーザ23からは自身の前に他ユーザ33が居るように見える。
【0036】
なお、画像表示部15は、互いに接続された通信端末装置10のユーザ空間に実際に存在する物体だけでなく、複数の通信端末装置10が共通する仮想的な物体を共有仮想空間41に構成し、表示面にその画像を表示可能としてもよい。例えば、ある通信端末装置10にてユーザ91が視覚情報取得部12の撮像器に、ある実在の物体をかざすと、視覚情報取得部12がその物体の三次元データを取得し、複数の通信端末装置10にて、画像表示部15がその三次元データに基づく仮想的な物体を共有仮想空間41上に構成することを可能にしてもよい。
【0037】
音声出力部16は、他装置から伝達された音声伝達情報に基づいて音声を出力する。音声出力部16は、例えば、不図示のスピーカを備え、スピーカにより音声を出力する。その際、音声出力部16は、ステレオ方式、サラウンド方式、三次元音響方式などにより、他装置から伝達された音声伝達情報に基づく音声を、共有仮想空間41における他ユーザのユーザ定位置が配置された方向から聞こえる音声として再現してもよい。遠隔地の複数人が仮想空間において互いの実写画像と立体音響によるコミュニケーションを行うことができる。
【0038】
図5は、表示面に表示される画像の変化の様子を示す図である。
【0039】
上述したように、人物捕捉部13が自ユーザ23の視点位置24を特定し、画像表示部15は、表示面42に、他装置から伝達された画像伝達情報に基づいて、自ユーザ23の視点位置24から見える共有仮想空間の画像を表示する。したがって、
図5に示すように、仮に他ユーザ33が動かなかったとしても、自ユーザ23の視点位置24が変化すれば、運動視差により、表示面42に表示される画像は変化する。例えば、自ユーザ23は視点位置24を正面から右方向にずらせば、他ユーザ33の斜め左の横顔を覗き込むことも可能である。
【0040】
以上説明したように、本実施形態によれば、通信端末装置10は他の通信端末装置10と仮想空間を共有し、その仮想空間に相対位置が固定された表示面42に、その仮想空間を共有している他ユーザ33の実写の姿を自ユーザ23の視点位置24から見えるように表示するので、遠隔地の複数人が共有する仮想空間において互いの実写の画像を見ながら行う良好なコミュニケーションが実現される。
【0041】
なお、
図2に示した音声取得部11、視覚情報取得部12、情報伝達部14、人物捕捉部13、音声出力部16、および画像表示部15が実行する処理をソフトウェアプログラムにより規定し、メモリおよびプロセッサを有するコンピュータがそのソフトウェアプログラムを実行することにしてもよい。
【0042】
以下、より具体的な実施例について説明する。
【実施例0043】
実施例1では、複数のユーザが同じ会議室で対面で行う会議を模擬的に実現する遠隔会議システムを例示する。実施例1の遠隔会議システムは基本的な構成は
図1~
図4に示した実施形態による通信システム1と同じである。
【0044】
図6は、実施例1による通信端末装置のブロック図である。本実施例による通信端末装置10は、音声取得部11と、視覚情報取得部12と、人物捕捉部13と、情報伝達部14と、画像表示部15と、音声出力部16と、配置指定受付部17とを有する。音声取得部11、視覚情報取得部12、人物捕捉部13、情報伝達部14、画像表示部15、および音声出力部16は、基本的に、
図2に示した実施形態のものと同様である。配置指定受付部17は、共有仮想空間41に対する自装置のユーザ空間22および他装置のユーザ空間32の配置をユーザ91からの指定により受け付け、他装置と共有する。本実施例では、視覚情報取得部12が3つの撮像器40A、40B、40Cを備え、画像表示部15が3つの表示器42A、42B、42Cを備えている。本実施例では、視覚情報取得部12および画像表示部15は、配置指定受付部17により受け付けられた配置に基づき、後述する動作を行う。
【0045】
図7は、実施例1による通信端末装置の概略平面図である。
図8は、実施例1の通信端末装置の概略斜視図である。
【0046】
図7に示すように、実施例1では、ユーザ空間22における所定の位置をユーザ定位置51とし、そのユーザ定位置51から所定の方向をユーザ定方向52とする。例えば、ユーザ定位置51は通信端末装置10を用いているユーザ91が主に存在するであろう位置である。例えば、ユーザ定方向52は、通信端末装置10を用いているユーザ91が主に向いているであろう方向である。
【0047】
図8に示すように、表示器42A~42Cはいずれも矩形で平面の表示面を有し、表示面をユーザ定位置51に向けて配置された表示装置である。表示器42Bは、ユーザ定位置51から見てユーザ定方向52に配置される。表示器42Cは、ユーザ定位置51から見てユーザ定方向52の右側に配置される。表示器42Aは、ユーザ定位置51から見てユーザ定方向52の左側に配置される。表示器42A~42Cはいずれも表示面をユーザ定位置51に向けて配置される。表示器42Cは、表示器42Bと互いの表示面同士で90°以上180°未満の角度が好ましく、本実施例では90°で、表示器42Bの右辺に近接しているが、ユーザが快適に本装置を利用できる限りにおいて90°未満の角度で配置されていてもよい。表示器42Aは、表示器42Bと互いの表示面同士で90°以上180°未満の角度が好ましく、本実施例では90°で、表示器42Bの左辺と近接しているが、ユーザが快適に本装置を利用できる限りに90°未満の角度で配置されていてもよい。また、表示器42A~42Cはいずれも水平面に対して90°で立たせた例を示しているが、水平面に対して0°~180°の間で角度をつけてもよい。
【0048】
撮像器40A~40Cは、それぞれがユーザ定位置51との相対位置が固定され、ユーザ定方向52に対する相対方向が固定されて、互いに隔離して、撮像方向をユーザ定位置51に向けユーザ空間22の少なくとも一部が撮像されるように配置されている。好ましくは、撮像器40Bは、表示器42Bの表示面の上辺の中央近傍に配置される。撮像器40Aは、表示器42Aの表示面の上辺、あるいは表示器42Aの表示面の左辺に配置される。撮像器40Cは、表示器42Cの表示面の上辺、あるいは表示器42Cの表示面の右辺に配置される。本実施例では、
図8に示すように、撮像器40Aは表示器42Aの表示面の左辺に配置され、撮像器40Cは表示器42Cの表示面の右辺に配置されている。
【0049】
図9は、実施例1における画像表示処理のフローチャートである。画像表示処理は、自装置が他装置との相互通信による遠隔会議を実現する処理であり、主に情報伝達部14、画像表示部15、および配置指定受付部17により実行される。
【0050】
まず、ステップS101にて、配置指定受付部17は、共有仮想空間41に対する自装置および他装置の配置の指定を受け付ける。自装置の表示器42A~42Cおよび撮像器40A~40Cに対してユーザ空間22およびユーザ定位置51が固定的に定義され、他装置の表示器42A~42Cおよび撮像器40A~40Cに対してユーザ空間32および他装置のユーザ定位置が固定的に定義されているので、共有仮想空間41に対する自装置および他装置の配置を受け付けることにより、共有仮想空間41に対するユーザ空間22、32と、ユーザ定位置51と、他装置のユーザ定位置との配置を決定できる。
【0051】
このとき、配置指定受付部17は、例えば、自装置に対応するオブジェクトと他装置に対応するオブジェクトを移動可能に配置できる共有空間を上方から見た平面図による配置指定画面を表示器42Bの表示面に表示し、平面図に対して指定されたオブジェクトの位置に基づいて、共有仮想空間41に対するユーザ空間22、32の配置の指定を受け付けることにしてもよい。
【0052】
図10は、実施例1における配置指定画面の一例を示す図である。配置指定画面60には会議室領域61と決定ボタン63が含まれている。会議室領域61は、仮想的な会議室に相当する共有仮想空間41を模した平面図である。会議室領域61には、会議に参加する各メンバーが利用する通信端末装置10に相当するオブジェクトである机アイコン62が配置されている。机アイコン62は、例えばマウス操作あるいは表示器42Bへのタッチ操作や後述するジェスチャ操作により移動させたり固定させたりできる。会議室領域61の形状および大きさを変更できるようにしてもよい。ここでは一例として会議室領域61が共有仮想空間41を模したものとしているので、会議室領域61の形状および大きさに応じて共有仮想空間41の形状および大きさを決定してもよい。決定ボタン63が押下されると、そのときの会議室領域61に対する机アイコン62の配置に基づいて、共有仮想空間41における各通信端末装置10のユーザ空間22、32、ユーザ定位置51、および他装置のユーザ定位置の配置が決定される。
【0053】
複数人が向かい合う会議の場面がある。交渉などで複数人対複数人で向かい合う会議の典型的な形態がある。1人対1人、1人対複数人など様々な配置が可能であるが、
図10の例では、6人のユーザが3人対3人で対向する配置が例示されている。また、ここでは、X社に所属するAさん、Bさん、Cさんと、Y社に所属するDさん、Eさん、Fさんとが向かい合って配置されているが、この所属と配置の関係は例示である。
【0054】
また、ここでは、配置指定受付部17は、ユーザ91が机アイコン62を自由に移動させて配置を指定する例を示したが、他の例も可能である。例えば、配置指定受付部17が配置の指定を補助してもよいし、配置指定受付部17が配置を自動で設定あるいは提案してもよい。
【0055】
配置指定受付部17が配置の指定を補助する場合、典型的な複数の配置構成のパターンを予め用意しておき、ユーザ91にいずれかを選択させることにしてもよい。配置指定受付部17は、例えば、最初に会議に参加するユーザの人数が入力されると、その人数に対応するパターンをユーザに提示し、いずれかを選択させることにしてもよい。
【0056】
また、配置指定受付部17が配置を自動で設定あるいは提案する場合、例えば、この会議が何らかの発表を行う場である場合に、メインプレゼンターは、会議参加者全員からよく見える位置(
図10の例では、X社Bさん、Y社Eさんの位置)に配置されるようにしてもよい。また、例えば、会議での発言量の多寡でメインプレゼンターを特定し、配置を設定することにしてもよい。
【0057】
本実施例では、互いに平行な2つの直線のそれぞれの上に複数の通信端末装置10のユーザ定位置51を配置し、各直線上の通信端末装置10のユーザ定方向52を他方の直線に垂直に向かう方向とすることで実現できる。なお、ここでユーザ定位置51の直線上への配置は厳密な位置決めを意味するものではなく、またユーザ定方向52の直線への垂直な方向づけは厳密な方向決めを意味するものではない。どちらも複数の通信端末装置10のユーザが会議において机を横に並べている状態が模擬できる程度でよい。
【0058】
ステップS102にて、情報伝達部14は、共有仮想空間における自装置の撮像器40A~40Cの撮像方向と、他装置のユーザ定位置と自装置のユーザ定位置とを結ぶ直線との相対角度に基づいて、他装置のユーザ定位置の所定範囲内(例えばユーザ空間)から自装置のユーザ定位置の所定範囲内(例えばユーザ空間)にある物体を見たときに見える部分の画像が取得されるように撮像器を選択し、選択した撮像器で取得される画像および深度の情報を含む画像伝達情報をその他装置に送信する。
【0059】
情報伝達部14は、共有仮想空間41において自装置のユーザ定位置51からユーザ定方向52の右側に他装置のユーザ定位置が配置される場合には、右側にある撮像器40Cによる情報を含み、左側にある撮像器40Aによる情報を含まない画像伝達情報を他装置に送信すればよい。また、情報伝達部14は、共有仮想空間41において自装置のユーザ定位置51からユーザ定方向52の左側に他装置のユーザ定位置が配置される場合には、左側にある撮像器40Aによる情報を含み右側にある撮像器40Cによる情報を含まない画像伝達情報を他装置に送信すればよい。
【0060】
例えば、自ユーザ23がX社のAさんであり、他ユーザ33がY社のFさんであるという組合せに着目すると、自装置の左側にある撮像器40Aで取得されるX社のAさんの画像および深度のデータがなくても、他装置においてY社のFさんの視点位置から見える範囲のX社のAさんの画像を生成することができる。そのため、X社のAさんが用いる自装置の情報伝達部14は、撮像器14Bと撮像器14Cで取得される画像および深度のデータに基づく画像伝達情報を、Y社のFさんが用いる他装置に伝達する。また、自ユーザ23がX社のAさんであり、他ユーザ33がX社のBさんであるという組合せに着目すると、自装置の左側にある撮像器40Aで取得されるX社のAさんの画像および深度のデータがなくても、他装置においてX社のBさんの視点位置から見える範囲のX社のAさんの画像を生成することができる。X社のAさんが用いる自装置の情報伝達部14は、撮像器14Bと撮像器14Cで取得される画像および深度のデータに基づく画像伝達情報を、X社のBさんが用いる他装置に伝達する。
【0061】
なお、ここでは、情報伝達部14は、複数の撮像器40A~40Cのうち、その撮像器の撮像方向と、他装置のユーザ定位置と自装置のユーザ定位置を結ぶ直線との相対角度に基づいて撮像器を選択する処理を例示したが、他の例も可能である。例えば、情報伝達部14は、複数の撮像器40A~40Cのうち、その撮像器の撮像方向と、他装置のユーザ定位置と自装置のユーザ定位置を結ぶ直線との相対角度に加え、他装置の表示面の位置、角度、および大きさに基づいて、撮像器を選択することにしてもよい。その場合、情報伝達部14は、他装置のユーザ定位置の所定範囲内(例えばユーザ空間)から他装置の表示面を介して自装置のユーザ定位置の所定範囲内(例えばユーザ空間)にある物体を見たときに見える部分の画像が取得されるように撮像器を選択してもよい。なお、ここでは、自ユーザの情報伝達部14が通信ネットワーク90へ送る画像伝達情報をあらかじめ選択してから送る例を示したが、この方法に限らない。情報伝達部14は一度すべての撮像器から得られた画像伝達情報を通信ネットワーク90上のサーバに送信した後に、このサーバ側で画像伝達情報を取捨選択する処理を行って他ユーザに送る方式をとってもよい。また、ステップS102における送信データの選択は必ず行うものではなく、データ通信帯域が十分確保でき、ネットワーク上のデータ量の削減が不要な環境下においてはこのステップをスキップしてもよい。
【0062】
次に、ステップS103にて、画像表示部15は、表示器42A、42B、42Cの表示面に、他装置から伝達された画像伝達情報に基づいて、自ユーザ23の視点位置24から見える共有仮想空間41の画像を表示する。共有仮想空間41には各ユーザのユーザ空間22、32が固定的に配置されているので、自ユーザ23の視点位置24からは、その配置に応じた位置にいる他ユーザが見える。
【0063】
図11は、複数のユーザが同じ会議室で対面で行う会議が模擬的に実現された遠隔会議の様子を示す概念図である。
図11には、
図10に示した配置が模擬的に実現された例が示されている。画像表示部15は、互いに平行な第1直線と第2直線のそれぞれの上に自装置および他装置のうち少なくとも1つの装置のユーザ定位置51を配置し、第1直線上にユーザ定位置が配置された装置のユーザ定方向52を第1直線に対して垂直に第2直線に向かう方向とし、第2直線上にユーザ定位置51が配置された装置のユーザ定方向52を第2直線に対して垂直に第1直線に向かう方向とするように、共有仮想空間を形成すればよい。
【0064】
図11における手前側には、X社のAさんとBさんとCさんが直線上に横に並び奥を向いている。奥側には、Y社のDさんとEさんとFさんが直線上に横に並び手前を向いている。Aさん、Bさん、Cさん、Dさん、Eさん、Fさんは、実際にはそれぞれ異なる場所で通信端末装置10を用いている。それぞれのユーザの通信端末装置10の表示器42A~42Cには、
図11に示した配置で、それぞれのユーザの視点位置から見える共有仮想空間41の画像が表示される。それにより、全てのユーザは、
図11に示したような配置で会議室に机を並べた6人で会議しているときのそれぞれの座席からの視界が得られる。
【0065】
次に、ステップS104にて、配置指定受付部17は、共有仮想空間41に対する自装置および他装置の配置を変更する要求があるか否か判定する。配置の変更の要求があれば、配置指定受付部17は、ステップS101に戻り配置の指定を受け付ける。
【0066】
自ユーザあるいは他ユーザは、
図10に例示した配置指定画面60に対する操作により、会議室に相当する共有仮想空間41の形状および大きさと、会議室における各ユーザの配置に相当する共有仮想空間41に対するユーザ空間の配置を変更することができる。
【0067】
図12は、他の構成による遠隔会議の様子を示す概念図である。
図12の例では、実際にはそれぞれ異なる場所で通信端末装置10を用いているX社のAさん、Bさん、Cさんが、共有仮想空間41において円卓を囲むように対面している。画像表示部15は、所定の円上もしくは多角形状に自装置および他装置のユーザ定位置51を配置し、自装置および他装置のユーザ定方向を円もしくは多角形の中心に向かう方向とするように、共有仮想空間41を形成すればよい。
【0068】
図13は、更に他の構成による遠隔会議の様子を示す概念図である。
図13の例では、実際にはそれぞれ異なる場所で通信端末装置10を用いているX社のAさん、Bさん、Cさんが、共有仮想空間41において、互いに横に並んで、画像の共有が可能な画像画面65を向いている。画像表示部15は、所定の直線上に自装置および他装置のユーザ定位置51を配置し、自装置および他装置のユーザ定方向を直線に対して垂直な同一方向とするように、共有仮想空間41を形成すればよい。複数のユーザが横並びになって、一緒に仮想空間上の巨大スクリーンに投影された映像を見ることができる。例えば、通信端末装置10に接続したパーソナルコンピュータ上の映像や、撮影現場で取得された映像をリアルタイムでストリーミング再生された映像などである。また、共有仮想空間をユーザ全員が内側に包含されるような広さの球体として定義し、その球体の内側にストリーミング再生中もしくは撮影済みの360°映像を貼り付けることで空間全体を共有しながら一緒に見るという利用が可能である。なお、
図13の画像画面65は、複数の通信端末装置10が共通する仮想的な物体として共有仮想空間41に構成し、表示面にその画像を表示したものである。
図13の例では、画像画面65には、Cさんのパーソナルコンピュータ68に表示されている画像が表示されている。
【0069】
ステップS104にて配置の変更の要求がなければ、ステップS105にて、画像表示部15は、遠隔会議の終了の要求があるか否か判定する。遠隔会議の終了の要求がなければ、画像表示部15はステップS103に戻る。遠隔会議の終了の要求があれば、通信端末装置10は遠隔会議を終了する。
【0070】
本実施例によれば、自装置と他装置の仮想空間を重ね合わせて共有し、その仮想空間に相対位置が固定された表示面に、その仮想空間にいる他ユーザの実写の姿を自ユーザの視点位置から見えるように表示するので、遠隔地の複数人が共有する仮想空間において互いの実写の画像を見ながら行う良好なコミュニケーションが実現される。
【0071】
また、本実施例によれば、3つの撮像器40A~40Cのうち、撮像方向と、他装置のユーザ定位置と自装置のユーザ定位置51を結ぶ直線との相対角度に基づいて選択した撮像器のみについて、その撮像器で取得された視覚情報に基づく画像伝達情報を、その他装置に送信することもできるので、自装置から他装置に送信する画像伝達情報が削減され、ネットワーク上のデータ量を低減することもできる。
【0072】
また、本実施例によれば、
図7、
図8に示したように、表示面がユーザ定位置51を囲むように配置されるので、共有仮想空間41を広い角度範囲で表示する構成をコンパクトな占有スペースにより実現することができる。
【0073】
また、本実施例によれば、画面上で平面図の中で会議室の机を動かす感覚で自装置と他装置の位置関係を容易に設定することができる。
【0074】
また、本実施例において、画像表示部15は、他装置から伝達された画像および深度の情報に基づいて、第2仮想空間の物体を点群もしくはポリゴンメッシュで表す共有仮想空間41の三次元データを生成し、生成した三次元データに基づいて、自ユーザ23の視点位置24から見える共有仮想空間41の画像を表示面に表示することにしてもよい。その際、画像表示部15は、点群の点を加工可能にしてもよい。例えば、画像表示部15は、三次元データにおける自ユーザの手前側にある三次元オブジェクトが表現された点の表示サイズを小さくすることにより、その三次元オブジェクトを半透明に表示し、後ろにある三次元オブジェクトも見えるようにしてもよい。点群により表示される人物を半透明に加工することにより、人物の顔あるいは体による非言語情報を残しつつ人物の背後の情報も伝達することができる。例えば、文字を書いている手を半透明にし、書いているときに手で隠れている文字を見えるようにすることで、手の動きによる非言語情報と書かれた文字の情報を同時に伝えることができる。また、例えば、文字を書いている人物を半透明にし、書いているとき人物の姿に隠れている文字を見えるようにすることで、人物の動きによる非言語情報と書かれた文字の情報を同時に伝えることができる。
図14は、点群を加工した画面が表示面に表示された様子を示す概念図である。
図14には、表示器42A、42B、42Cの表示面に、点群を加工して半透明に表示された他ユーザ33の背景にある仮想空間上のホワイトボード35の文字が見えている様子が示されている。ここでは、点群の点の表示サイズを変化させる加工を例示したが、他の様々な加工も可能である。例えば、点群を構成する各点の色を変えたり、表示する点をまびいたり、各点を特定の形状をもった立体オブジェクトに置換するなどしたうえで描画させる加工も可能である。こうした加工により、例えば、外殻形状だけを維持した単色の人物に変換し、化粧をしていない女性ユーザの使用や、表情や着衣物を特定されない目的での使用にあわせた人物表現が可能となる。また、伝達するデータ量の削減および実写画像によるリアルな表現を避けるために人体の顔以外の部分について、取得された画像および/または深度情報から計算によって求められた骨格を表す情報に対し、仮想的な3DCGオブジェクトを用いて肉付けすることで、人物の姿勢や動作を表現するような加工も可能である。あるいは、顔以外、もしくは顔と片手以外は描画させないなど、骨格を表す情報をもとに表示するユーザの体の部位を選択的に表示することも可能である。加えて、あるユーザが注目されるように、ユーザの周囲に光をまとわせて目立たせたり、一方で、あるユーザ以外が注目されないように、各点を視点位置に応じた背景色に近い色で適切に着色することで背景に溶け込むようにさせて目立たせなくする加工、いわゆる光学迷彩を実装することも可能である。
【0075】
また、本実施例では、人物捕捉部13が常時継続的にユーザ91の視点位置24を特定し、画像表示部15が、その視点位置24を追跡して、その視点位置24から見える共有仮想空間41の画像を表示器42A~42Cの表示面に表示する例を示した。この構成は、ユーザ91が動いたときに運動視差によりユーザ91に視覚的に臨場感を与えるものである。しかし、会議などの場面では、ユーザ91の視点位置24の動きが大きくないことがある。そのような場合を考慮すると、ユーザ91の視点位置24を常時追跡しない構成も可能である。
【0076】
他の例として、画像表示部15は、人物捕捉部13でユーザ91の視点位置24を一旦特定したら、視点位置24を固定してそこから見える共有仮想空間41の画像を表示器42A~42Cの表示面に表示することにしてもよい。例えば、事前のセンシング動作において、ユーザ91に自然な姿勢を採らせ、その間に、人物捕捉部13が視点位置24を特定することにしてもよい。あるいは、人物捕捉部13が一定時間の間に視点位置24の特定を複数回実行し、その平均値を平均視点位置とし、画像表示部15は、平均視点位置から見える共有仮想空間41の画像を表示器42A~42Cの表示面に表示することにしてもよい。あるいは、人物捕捉部13は一定時間の間はユーザ91の視点位置24を継続的に算出し、画像表示部15が、その視点位置24を追跡して、その視点位置24から見える共有仮想空間41の画像を表示器42A~42Cの表示面に表示し、その間に、人物捕捉部13が平均視点位置を算出し、画像表示部15が人物捕捉部13により特定される視点位置24から平均視点位置に所定時間をかけて収束させることにしてもよい。
【0077】
さらに他の例として、画像表示部15は、予め基準視点位置を定めておき、基準指定位置から見える共有仮想空間41の画像を表示器42A~42Cの表示面に表示することにしてもよい。その場合、人物捕捉部13がユーザ91の視点位置24を特定する処理は不要となる。基準視点位置として、例えば、標準的な体格の人物が通信端末装置10を用いるとき視点位置を用いてもよい。あるいは、通信端末装置10を用いた複数のユーザの視点位置を測定し、その平均値を基準指定位置として用いることにしてもよい。このような計算や定義により固定された視点位置は、各ユーザが通信ネットワーク90に接続した際に通信ネットワーク90上のサーバに保存された情報を読み込むこと、もしくは、自ユーザの通信端末装置に保存された情報を読み込むことで、以前に本装置を使用した際に決定した視点位置を再度使うことにしてもよい。
【0078】
なお、本実施例の通信端末装置10は、例えば、1人用の会議ブースを構成する。この会議ブースは同じ部屋に複数配置される可能性がある。また、在宅ワークのために会議ブースが個人の住宅に配置される可能性もある。そのような場合には、ユーザ91の声が周囲に漏れないように騒音対策が採られることが好ましい。そこで、音声出力部16は、イヤホン、ネックスピーカーなどにより音声を出力できるものであってもよい。また、音声出力部16は、ユーザ定位置51に向かう指向性を有するスピーカーを有するものであってもよい。さらに、通信端末装置10は、消音スピーカーにより周囲に漏れるユーザ91の音声を低減するものであってもよい。さらに、音声出力部16からの出力を完全に切り、他ユーザからの声は音声出力部16からの出力の代わりに、音声認識技術により文字化されて画像表示部15に出力されてもよい。
【0079】
また、本実施例では、画像表示部15が3つの表示器42A~42Cを備える例を示したが、他の構成も可能である。例えば、画像表示部15は、表示器42A~42Cに加え、表示器42A、42B、42Cの底辺に近接して配置され矩形の上面に表示面を有する表示器をさらに備えてもよい。さらに、画像表示部15は、表示器42A、42B、42Cの天井方向の辺に近接して配置され矩形の下面に表示面を有する表示器を備えてもよい。そのいずれの場合も、画像表示部15は、リアルタイムで更新される自ユーザの視点位置の情報を用い、リアルタイムの視点位置から見える共有仮想空間の映像を4つの表示器の表示面に表示する。
図13に示したように各装置のユーザ定位置51およびユーザ定方向52を配置して複数のユーザが一緒にスクリーン映像を見るという利用形態において、共有仮想空間の映像を下面や上面まで視野が広がる視野でみることができる。また、通信端末装置10はアプリケーションソフトウェアを実行可能なコンピュータの機能を持ち、例えば、上面に表示面を有する表示器の表示面にアプリケーションソフトウェアの画面を表示してもよい。その場合に、その表示器をタッチパネル式ディスプレイとし、ユーザ91によるアプリケーションソフトウェアの操作を受け付けてもよい。なお、ここで記載した上面に表示面を有する表示器および下面に表示面を有する表示器の配置は、水平面に対して0°から180°までの角度で配置されていてもよい。
【0080】
また、本実施例では、撮像器40Aが表示器42Aの表示面の上辺あるいは左辺に配置され、撮像器40Cが表示器42Cの表示面の上辺あるいは表示面の右辺に配置される例を示した。しかし、本構成に限定されることはない。他の例として、撮像器40Aが表示器42Aの表示面の上辺と表示器42Bの表示面の上辺が互い隣接する位置に配置され、撮像器40Cが表示器42Cの表示面の上辺と表示器42Bの表示面の上辺が互いに隣接する位置に配置されてもよいし、それら表示器の辺の直上や近接した位置でなくともよい。撮像器40A~40Cを配置する目的は自ユーザ23のイメージ画像および深度情報を自ユーザの全体像を取得できるように広く取得するため、もしくは、自ユーザの顔の表情や掌など特定部位をより高解像度で取得するためであり、その目的に合わせて、撮像器40A~40Cはそれぞれユーザ定位置51に対し遠ざけるように配置されていてもよいし、近づけるように配置されていてもよい。また、各撮像器と各表示器とは直接もしくは接続具などを介して間接的に接続されていなくとも、それらの相対位置や相対角度が固定される方法であれば、例えば、画像表示部15が固定的に配置されている室内の床に立たせた固定金具や天井からつるされた固定金具などに各表示器が固定されていてもよい。
【0081】
また、本実施例の通信端末装置10は、外部接続端子を有し、その外部接続端子にパーソナルコンピュータを接続し、パーソナルコンピュータから制御できてもよい。通信端末装置10は、音声取得部11、視覚情報取得部12、人物捕捉部13、情報伝達部14、画像表示部15、音声出力部16、および配置指定受付部17に関する制御を受け付けるための制御用データを外部接続端子から出力し、それに対する制御情報を外部接続端子から入力する。例えば、配置指定受付部17は、
図10に示した配置指定画面60のデータを外部接続端子を介してパーソナルコンピュータに出力し、机アイコン62を移動させるなどの制御情報をパーソナルコンピュータから外部接続端子を介して取得し、取得した制御情報に基づいて共有仮想空間41に対するユーザ空間22、32の配置の指定を受け付けてもよい。また、画像表示部15は、パーソナルコンピュータから外部接続端子を介して取得される制御情報に基づいて、
図13に例示した画像画面65を共有仮想空間41に構成し、表示面にその画像を表示することにしてもよい。外部接続端子は、一例として、有線LAN端子やUSB端子である。制御情報はパーソナルコンピュータと通信端末装置10との間で直接やりとりされる、もしくは、通信ネットワーク90上のサーバを介してやりとりされる。このとき物理的な接続端子でなくとも無線LANやBluetooth等による無線接続であってもよい。またほかの例としてHDMI(High-Definition Multimedia Interface)(HDMIは登録商標)の通信規格に従う端子である。制御情報は、HDMIキャプチャ情報の中に挿入して伝送される。また、いずれの場合においても、パーソナルコンピュータから通信端末装置10への一方的な制御信号の送信、すなわち通信端末装置10からパーソナルコンピュータへの制御データが送られない状況での制御であってもよい。
【0082】
また、本実施例の通信端末装置10は、ユーザ91がジェスチャにより制御できてもよい。通信端末装置10は、手を用いた所定の動作(以下、制御動作という)と、音声取得部11、視覚情報取得部12、情報伝達部14、画像表示部15、音声出力部16、および配置指定受付部17に関する所定の制御とを予め対応付けたジェスチャ設定情報を格納しておく。人物捕捉部13が捕捉した人物の動作を監視し、人物が制御動作を行ったことを検知すると、ジェスチャ設定情報にて制御動作に対応付けられている制御を、音声取得部11、視覚情報取得部12、情報伝達部14、画像表示部15、音声出力部16、または配置指定受付部17に指示する。
一例として、複数の通信端末装置10が共有する仮想的な物体として共有仮想空間41に構成し、表示面にその画像を表示した物体を移動させる操作について述べる。ジェスチャ設定情報には、物体に手をかざすという第1制御動作とその物体を選択された状態にするという第1制御とが対応づけられ、物体に向けて握った手を移動するという第2制御動作とその物体を共有仮想空間41内で移動させるという第2制御とが対応付けられている。視覚情報取得部12で取得される視覚情報に基づいて人物捕捉部13が第1制御動作を検知する。人物捕捉部13で第1制御動作が検知されると、画像表示部15は物体を選択された状態にする。このとき、人物捕捉部13は、共有仮想空間41上での視点位置24と開いた手の中央位置とを結ぶ直線上あるいは、肘や肩関節など体の特定部位の関節位置と手の中央位置とを結ぶ直線上、あるいはそのどちらかの直線の近傍にある物体をユーザ41が選択した物体であると判断し、画像表示部15は、その物体を選択された状態にする。例えば、物体を例えば色、光、影などによる強調表示することにより、その物体が選択されたことを表してもよい。第1制御動作が検知されたことあるいは物体が選択状態になったことは、情報伝達部14から他装置に通知されてもよい。その状態で、人物捕捉部13が第2制御動作を検知すると、画像表示部15は共有仮想空間41上でその物体を移動させる。このとき、画像表示部15は、第1制御動作が検知された後に第2制御動作が検知されたら物体を移動させるが、第1制御動作が検知されずに第2制御動作が検知されたときには物体を移動させない。共有仮想空間41で物体が移動したことは、画像伝達情報により他装置にも伝わり、他装置の表示においても物体が移動する。なお、ここでは仮想的な物体の移動を例示したが、ジェスチャにより移動する物体は特に限定されない。例えば、
図13に示した画像画面65を移動させたり、サイズ、位置、角度を変化させたりするものとしてもよい。
【0083】
また、本実施例では、通信端末装置10は、1つの視点位置24から見た共有仮想空間41の画像を表示面に表示するものとしたが、この例に限定されることはない。変形例として、通信端末装置10は、左右の眼の視差を与えた共有仮想空間41の2つの画像(以下、それぞれを左眼用画像、右眼用画像という)からなる画像を表示することにしてもよい。画像表示部15は、画像を表示面に表示する表示装置と、ユーザ91が着用する三次元眼鏡装置とを有する。画像表示部15は、左眼用画像および右眼用画像を生成し、表示面に表示する。三次元眼鏡装置は、左眼用画像をユーザ91の左眼に見せ、右眼用画像をユーザ91の右眼に見せる。左右の眼に視差を持たせることで、画像に立体感を与え、より高い臨場感および没入感をユーザ91に与えることができる。なお、左右の眼に視差を有する画像を見せる手法は特に限定されない。例えば、アナグリフ式であってもよいし、偏光式であってもよいし、液晶シャッター式であってもよい。なお、一般に三次元眼鏡はヘッドマウントディスプレイのように不安感や不快感を与えることはない。
【0084】
なお、本実施例では、自装置と他装置とで全く同じ共有仮想空間41を共有する例を示したが、これに限定されることはない。他の例として、共有仮想空間41に対する自装置のユーザ空間22および他装置のユーザ空間32の配置を自装置と他装置とで異ならせてもよい。例えば、各装置の表示器の配置やサイズを考慮してユーザ91にとって違和感ない範囲で、自ユーザから他ユーザの表情や動作が見えやすいように、それぞれに配置を調整してもよい。自装置と他装置とで異なる配置の共有仮想空間41を用いる場合には、各装置が用いる配置の情報すべての装置で共有し、それぞれの装置が他のそれぞれの装置に視覚情報を送信すべき撮像器を選択することしてもよい。あるいは、各装置が他の各装置にどの方向から撮像された視覚情報が欲しいかを指定し、各装置は各装置へ当該装置が指定した方向から撮像した視覚情報を送ることにしてもよい。
【0085】
また、本実施例では、通信端末装置10が、顔部分についてはリアルタイムの実写画像を表示する例を示したが、この例に限定されることはない。他の例として、送信側の装置からはユーザ91の心理状態を受信側の装置に通知し、受信側の装置では通知された心理状態に基づいて表示するユーザの表情を加工することにしてもよい。自装置の情報伝達部14は、自装置の人物捕捉部13が自ユーザの表情から自ユーザの心理状態を推定する。例えば、自ユーザが、喜んでいる状態、怒っている状態、悲しんでいる状態、楽しんでいる状態、会話内容に合意している状態、合意していない状態、理解できていない状態のいずれであるかを推定する。自装置の情報伝達部14は、人物捕捉部13で推定された心理状態の情報を、顔部分の画像の代わりに、画像伝達情報として受信側の装置に送信する。受信側の装置では、通知された心理状態の情報に基づいて、送信側のユーザの顔部分の画像を生成し、表示する。これによれば、相手の心理という可視化しづらい定性的な情報を可視化でき、より戦略的に有効なコミュニケーションを実現するための補助となりうる。また、装置間で伝達するデータ量を削減することができる。
【0086】
また、さらに他の例として、送信側の装置がユーザ91の所望により、ユーザ91の視覚情報における顔の表情をユーザ91が所望する心理状態を表す表情に加工可能にしてもよい。自装置の人物捕捉部13は、ユーザ91から所望の心理状態の指定を受けると、ユーザ91の顔の表情を指定された心理状態を表す表情に加工する。情報伝達部14は、人物捕捉部13で顔の表情が加工された画像伝達情報を他装置に送信する。ユーザ91の所望により表情を加工することができるので、表情から伝わる情報をユーザ91が意図的に利用して有効なコミュニケーションを図ることができる。
実施例1では、通信端末装置10は、他装置に送信すべき画像を取得する撮像器を選択し、選択した撮像器で取得される画像および深度の情報を含む画像伝達情報をその他装置に送信する。これにより、自装置から他装置へ送信する画像伝達情報のデータ量を削減している。実施例2では、更に自装置から他装置へ送信する画像伝達情報のデータ量を削減する例を示す。
ステップS102にて、実施例2では、人物捕捉部13が、視覚情報取得部12で取得されるユーザ空間22の画像および/または深度に基づいて、ユーザ空間22内に自ユーザを検出し、情報伝達部14が、視覚情報取得部12で取得されるユーザ空間22の画像および/または深度の情報から検出された自ユーザの顔部分を表す情報と、自ユーザの骨格を表す情報とを生成し、それらの情報を画像伝達情報として他装置に送信する。ここで骨格を表す情報とは、人物の体勢の特定を可能にする情報であり、例えば、頭、胴、尻、肩、肘、手、膝、踵など身体の特徴的な箇所の位置を示す情報であってもよい。ここでいう人物の体勢は、ポーズや動作などを人間が目で見てコミュニケーションに役立つ非言語情報が得られる程度の人体の形態である。どの程度まで詳細で正確な体勢の特定を要するかは特に限定されない。
ステップS103にて、実施例2では、画像表示部15は、他装置から受信した顔部分を表す情報に基づく顔画像と、他装置から受信した骨格を表す情報に基づく人物の体勢の画像とを合成した人物を含む、共有仮想空間の3次元オブジェクトを、ユーザの視点位置に合わせて適切に2次元の画像に変換し表示器42A~42Cの表示面に表示する。骨格を表す情報に基づく人物の体勢の画像は、例えば、骨格を表す情報に対し、仮想的な3DCGオブジェクトを用いて肉付けすることで、人物の姿勢や動作を表現するような加工をした画像であってもよい。
本実施例によれば、送信側の通信端末装置10から受信側の通信端末装置10に撮像された全体の情報を送らなくてよいので、通信端末装置10間で伝達するデータ量を削減することができる。また、人体の顔以外の部分は仮想的なオブジェクトで表現されるので、実写画像のリアルな表示を避けることが可能となる。