IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル インコーポレイテッドの特許一覧

<>
  • 特許-3Dテレプレゼンスシステム 図1
  • 特許-3Dテレプレゼンスシステム 図2
  • 特許-3Dテレプレゼンスシステム 図3A
  • 特許-3Dテレプレゼンスシステム 図3B
  • 特許-3Dテレプレゼンスシステム 図4
  • 特許-3Dテレプレゼンスシステム 図5
  • 特許-3Dテレプレゼンスシステム 図6
  • 特許-3Dテレプレゼンスシステム 図7A
  • 特許-3Dテレプレゼンスシステム 図7B
  • 特許-3Dテレプレゼンスシステム 図7C
  • 特許-3Dテレプレゼンスシステム 図7D
  • 特許-3Dテレプレゼンスシステム 図7E
  • 特許-3Dテレプレゼンスシステム 図7F
  • 特許-3Dテレプレゼンスシステム 図7G
  • 特許-3Dテレプレゼンスシステム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-26
(45)【発行日】2024-03-05
(54)【発明の名称】3Dテレプレゼンスシステム
(51)【国際特許分類】
   H04N 13/268 20180101AFI20240227BHJP
   H04N 13/243 20180101ALI20240227BHJP
   H04N 13/307 20180101ALI20240227BHJP
   H04N 13/305 20180101ALI20240227BHJP
   H04N 13/194 20180101ALI20240227BHJP
   H04N 7/15 20060101ALI20240227BHJP
【FI】
H04N13/268
H04N13/243
H04N13/307
H04N13/305
H04N13/194
H04N7/15
【請求項の数】 15
【外国語出願】
(21)【出願番号】P 2021170889
(22)【出願日】2021-10-19
(62)【分割の表示】P 2019505022の分割
【原出願日】2017-09-08
(65)【公開番号】P2022009242
(43)【公開日】2022-01-14
【審査請求日】2021-10-22
(31)【優先権主張番号】62/385,685
(32)【優先日】2016-09-09
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】ゴールドマン,ダニエル
(72)【発明者】
【氏名】ローレンス,ジェイソン
(72)【発明者】
【氏名】ホイバーズ,アンドリュー
(72)【発明者】
【氏名】ラッセル,アンドリュー・イアン
(72)【発明者】
【氏名】サイツ,スティーブン・エム
【審査官】佐野 潤一
(56)【参考文献】
【文献】特表2013-511075(JP,A)
【文献】米国特許出願公開第2015/0097925(US,A1)
【文献】特表平08-505745(JP,A)
【文献】特開2005-303683(JP,A)
【文献】特開2013-125985(JP,A)
【文献】中国特許出願公開第101866056(CN,A)
【文献】特開2010-171573(JP,A)
【文献】特開2013-128181(JP,A)
【文献】特開2012-169822(JP,A)
【文献】特開2012-010084(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 13/00
H04N 21/00
H04N 7/15
H04N 7/18
H04N 23/60
H04N 5/66
H04N 5/74
(57)【特許請求の範囲】
【請求項1】
テレプレゼンス端末であって、
画素グリッドの前方に配置されたマイクロレンズアレイを含むレンチキュラディスプレイと、
画像センサと、
赤外線エミッタと、
赤外線深度センサと、
処理装置と、
命令を格納するメモリとを備え、これらの命令は、実行されると、前記処理装置に、
前記画像センサによって捕捉された可視光に基づいて、画像データを決定することと、
前記赤外線エミッタによって出射され、前記赤外線深度センサによって捕捉された赤外線に基づいて、深度データを決定することと、
前記テレプレゼンス端末のユーザの位置を決定することと、
前記深度データおよび前記画像データをリモート端末に伝達することと、
リモート端末から送信されたリモート画像データおよびリモート深度データを受信することと、
前記リモート画像データに基づいて、前記画素グリッドの第1画素サブセットを用いて、前記決定された位置にいる前記ユーザの第1視点から前記マイクロレンズアレイを通って見える第1表示画像を生成することと、
前記リモート画像データおよび前記リモート深度データに基づいて、前記画素グリッドの第2画素サブセットを用いて、前記決定された位置にいる前記ユーザの第2視点から前記マイクロレンズアレイを通って見える第2表示画像を生成することとを含む動作を実行させ、
前記第1表示画像および前記第2表示画像は、視差をシミュレートするように、前記ユーザの前記決定された位置に基づいて生成され、
シミュレートされた前記視差は、前記リモート端末のリモートユーザの肖像を前記ユーザと対面するように前記ユーザから前記マイクロレンズアレイの反対側のオフセット距離(O)に表示させ
前記深度データは、前記レンチキュラディスプレイから前記ユーザまでの所定距離(L)、前記オフセット距離(O)、前記レンチキュラディスプレイの幅(W)および前記レンチキュラディスプレイの水平有効解像度(R)に基づいて計算された水平深度サンプル間隔(d)で収集され、
前記水平深度サンプル間隔dは、d=(L+O)/L×W/Rとして計算される、テレプレゼンス端末。
【請求項2】
前記テレプレゼンス端末の前記ユーザの前記位置は、前記深度データに基づいて決定される、請求項1に記載のテレプレゼンス端末。
【請求項3】
前記テレプレゼンス端末の前記ユーザの前記位置は、前記画像データに基づいて決定される、請求項1に記載のテレプレゼンス端末。
【請求項4】
前記テレプレゼンス端末は、
前記レンチキュラディスプレイの第1側に配置された第1マイクロホンおよび前記レンチキュラディスプレイの第2側に配置された第2マイクロホンを含むマイクロホンアセンブリと、
前記レンチキュラディスプレイの前記第1側に配置された第1スピーカおよび前記レンチキュラディスプレイの前記第2側に配置された第2スピーカを含むスピーカアセンブリとをさらに備え、
前記命令は、前記処理装置に、
前記マイクロホンアセンブリを用いて、指向性音声データを捕捉することと、
前記指向性音声データを前記リモート端末に送信することと、
前記リモート端末からリモート指向性音声データを受信することと、
前記リモート指向性音声データに基づいて、前記スピーカアセンブリを用いて音声を出力することとを含む動作をさらに実行させる、請求項1に記載のテレプレゼンス端末。
【請求項5】
前記マイクロホンアセンブリは、3つ以上のマイクロホンを含む、請求項4に記載のテレプレゼンス端末。
【請求項6】
前記テレプレゼンス端末は、少なくとも1つのカメラユニットを含むカメラアセンブリを備え、
前記カメラユニットは、前記画像センサと前記赤外線エミッタと前記赤外線深度センサとを含み、
前記赤外線エミッタは、前記レンチキュラディスプレイに対向するユーザに前記レンチキュラディスプレイを介して赤外線を出射する、請求項1に記載のテレプレゼンス端末。
【請求項7】
テレプレゼンス端末であって、
画素グリッドの前方に配置されたマイクロレンズアレイを含むディスプレイと、
画像センサと、
赤外線エミッタと、
赤外線深度センサと、
処理装置と、
命令を格納するメモリとを備え、これらの命令は、実行されると、前記処理装置に、
前記画像センサによって捕捉された可視光に基づいて、画像データを決定することと、
前記赤外線エミッタによって出射され、前記赤外線深度センサによって捕捉された赤外線に基づいて、深度データを決定することと、
前記テレプレゼンス端末のユーザの位置を決定することと、
前記深度データおよび前記画像データをリモート端末に伝達することと、
リモート端末から送信されたリモート画像データおよびリモート深度データを受信することと、
前記リモート画像データに基づいて、前記画素グリッドの第1画素サブセットを用いて、前記決定された位置にいる前記ユーザの第1視点から前記マイクロレンズアレイを通って見える第1表示画像を生成することと、
前記リモート画像データおよび前記リモート深度データに基づいて、前記画素グリッドの第2画素サブセットを用いて、前記決定された位置にいる前記ユーザの第2視点から前記マイクロレンズアレイを通って見える第2表示画像を生成することとを含む動作を実行させ、
前記第1表示画像および前記第2表示画像は、視差をシミュレートするように、前記ユーザの前記決定された位置に基づいて生成され、
シミュレートされた前記視差は、前記リモート端末のリモートユーザの肖像を前記ユーザから前記マイクロレンズアレイの反対側のオフセット距離に表示させ、
前記テレプレゼンス端末は、少なくとも1つのカメラユニットを含むカメラアセンブリを備え、
前記カメラユニットは、前記画像センサと前記赤外線エミッタと前記赤外線深度センサとを含み、
前記赤外線エミッタは、前記ディスプレイに対向するユーザに前記ディスプレイを介して赤外線を出射し、
前記ディスプレイは、透明であり、かつオフ状態と点灯状態との間で切替可能であり、
前記命令は、可視光および赤外線の捕捉を前記ディスプレイの前記オフ状態と同期させることを含む動作をさらに前記処理装置に実行させる、テレプレゼンス端末。
【請求項8】
前記マイクロレンズアレイのマイクロレンズの少なくとも一部は、第1材料から作られ、前記マイクロレンズアレイの前記マイクロレンズの少なくとも一部は、第2材料から作られ、
前記第1材料は、実質的に電流に影響されない材料であり、前記第2材料は、実質的に電流に影響される材料であり、
前記第1材料および前記第2材料に電流を印加していないときに、前記第1材料と前記第2材料とは、異なる屈折率を有し、
前記第2材料に電流を印加する場合、前記電流によって前記第2材料の屈折率は前記第1材料の屈折率と同様になるように変化し、
前記命令は、前記処理装置に、可視光および赤外線の捕捉を前記ディスプレイの前記オフ状態と同期させる場合、前記処理装置に、前記第2材料に前記電流を印加させる、請求項7に記載のテレプレゼンス端末。
【請求項9】
入射光を分割し、前記分割された入射光を前記画像センサおよび前記赤外線深度センサに伝送するビームスプリッタをさらに備える、請求項1に記載のテレプレゼンス端末。
【請求項10】
方法であって、
テレプレゼンス端末の赤外線エミッタを用いて、第1赤外線を生成することと、
前記テレプレゼンス端末の赤外線深度センサを用いて、第2赤外線を受光することと、
前記第1赤外線および前記第2赤外線に基づいて、捕捉された深度データを決定することと、
画像センサによって捕捉された可視光に基づいて、捕捉された画像データを決定することと、
前記テレプレゼンス端末のユーザの位置を決定することと、
前記捕捉された深度データおよび前記捕捉された画像データをリモート端末に送信することと、
画素グリッドの第1サブセットを用いて、前記リモート端末から受信された画像データに基づいて、前記決定された位置にいる前記ユーザの第1視点からマイクロレンズアレイを通って見える第1表示画像を生成することと、
画素グリッドの第2サブセットを用いて、前記リモート端末から受信された前記画像データおよび深度データに基づいて、前記決定された位置にいる前記ユーザの第2視点から前記マイクロレンズアレイを通って見える第2表示画像を生成することとを含み、
前記第2表示画像は、視差効果を形成するように、前記ユーザの前記決定された位置および前記受信された深度データの組み合わせに基づいて、前記第1表示画像とは異なるように生成され、
前記視差効果は、前記リモート端末のリモートユーザの肖像を前記ユーザと対面するように前記ユーザから前記マイクロレンズアレイの反対側のオフセット距離(O)に表示させ
前記方法はさらに、前記テレプレゼンス端末のレンチキュラディスプレイから前記ユーザまでの所定距離(L)、前記オフセット距離(O)、前記レンチキュラディスプレイの幅(W)および前記レンチキュラディスプレイの水平有効解像度(R)に基づいて計算された水平深度サンプル間隔(d)で前記深度データを収集することを含み、
前記水平深度サンプル間隔dは、d=(L+O)/L×W/Rとして計算される、方法。
【請求項11】
マイクロホンアセンブリを用いて、指向性音声データを捕捉することと、
前記指向性音声データを前記リモート端末に送信することと、
前記リモート端末からリモート指向性音声データを受信することと、
前記リモート指向性音声データに基づいて、スピーカアセンブリを用いて音声を出力することとをさらに含む、請求項10に記載の方法。
【請求項12】
テレプレゼンス端末の赤外線エミッタを用いて、第1赤外線を生成することと、
前記テレプレゼンス端末の赤外線深度センサを用いて、第2赤外線を受光することと、
前記第1赤外線および前記第2赤外線に基づいて、捕捉された深度データを決定することと、
画像センサによって捕捉された可視光に基づいて、捕捉された画像データを決定することと、
前記テレプレゼンス端末のユーザの位置を決定することと、
前記捕捉された深度データおよび前記捕捉された画像データをリモート端末に送信することと、
画素グリッドの第1サブセットを用いて、前記リモート端末から受信された画像データに基づいて、前記決定された位置にいる前記ユーザの第1視点からマイクロレンズアレイを通って見える第1表示画像を生成することと、
画素グリッドの第2サブセットを用いて、前記リモート端末から受信された前記画像データおよび深度データに基づいて、前記決定された位置にいる前記ユーザの第2視点から前記マイクロレンズアレイを通って見える第2表示画像を生成することとを含み、
前記第2表示画像は、視差効果を形成するように、前記ユーザの前記決定された位置および前記受信された深度データの組み合わせに基づいて、前記第1表示画像とは異なるように生成され、
前記視差効果は、前記リモート端末のリモートユーザの肖像を前記ユーザから前記マイクロレンズアレイの反対側のオフセット距離に表示させ、
前記テレプレゼンス端末は、前記画素グリッドの前方に配置された前記マイクロレンズアレイを含むディスプレイを備え、
前記ディスプレイは、透明であり、
前記赤外線エミッタは、前記ディスプレイに対向するユーザに前記ディスプレイを介して赤外線を出射し、
前記赤外線エミッタから出射された赤外線は、前記ディスプレイを通過した後に前記ユーザに反射され、
前記画像センサおよび前記赤外線深度センサは、前記ユーザに反射された後に前記ディスプレイを通過した光を受光し、
前記赤外線深度センサを用いて、前記第2赤外線を受光することは、
前記第2赤外線の捕捉と同期させて前記ディスプレイをオフ状態にすることと、
前記オフ状態の前記ディスプレイおよび前記画素グリッドを通った前記第2赤外線を捕捉することと、
前記ディスプレイを点灯状態にすることとを含む、方法。
【請求項13】
プログラムであって、前記プログラムは、少なくとも1つのプロセッサによって実行されると、コンピューティングシステムに、少なくとも以下のこと、すなわち、
テレプレゼンス端末の赤外線エミッタを用いて、第1赤外線を生成することと、
前記テレプレゼンス端末の赤外線深度センサを用いて、第2赤外線を受光することと、
前記第1赤外線および前記第2赤外線に基づいて、深度データを決定することと、
画像センサによって捕捉された可視光に基づいて、画像データを決定することと、
前記テレプレゼンス端末のユーザの位置を決定することと、
前記深度データおよび前記画像データをリモート端末に送信することと、
前記テレプレゼンス端末のレンチキュラディスプレイを用いて、前記リモート端末から受信された画像データに基づいて、前記決定された位置にいる前記ユーザの第1視点から見える第1表示画像を生成することと、
前記レンチキュラディスプレイを用いて、前記リモート端末から受信された前記画像データおよび深度データに基づいて、前記決定された位置にいる前記ユーザの第2視点から見える第2表示画像を生成することとを実行させるように構成され、
前記第2表示画像は、視差効果を形成するように、前記ユーザの前記決定された位置および前記受信された深度データの組み合わせに基づいて、前記第1表示画像とは異なるように生成され、
前記視差効果は、前記リモート端末のリモートユーザの肖像を前記ユーザと対面するように前記ユーザから前記レンチキュラディスプレイの反対側のオフセット距離(O)に表示させ
前記深度データは、前記レンチキュラディスプレイから前記ユーザまでの所定距離(L)、前記オフセット距離(O)、前記レンチキュラディスプレイの幅(W)および前記レンチキュラディスプレイの水平有効解像度(R)に基づいて計算された水平深度サンプル間隔(d)で収集され、
前記水平深度サンプル間隔dは、d=(L+O)/L×W/Rとして計算される、プログラム。
【請求項14】
前記オフセット距離は、所定の深度サンプル間隔に基づいて決定される、請求項13に記載のプログラム。
【請求項15】
プログラムであって、前記プログラムは、少なくとも1つのプロセッサによって実行されると、コンピューティングシステムに、少なくとも以下のこと、すなわち、
テレプレゼンス端末の赤外線エミッタを用いて、第1赤外線を生成することと、
前記テレプレゼンス端末の赤外線深度センサを用いて、第2赤外線を受光することと、
前記第1赤外線および前記第2赤外線に基づいて、深度データを決定することと、
画像センサによって捕捉された可視光に基づいて、画像データを決定することと、
前記テレプレゼンス端末のユーザの位置を決定することと、
前記深度データおよび前記画像データをリモート端末に送信することと、
前記テレプレゼンス端末のレンチキュラディスプレイを用いて、前記リモート端末から受信された画像データに基づいて、前記決定された位置にいる前記ユーザの第1視点から見える第1表示画像を生成することと、
前記レンチキュラディスプレイを用いて、前記リモート端末から受信された前記画像データおよび深度データに基づいて、前記決定された位置にいる前記ユーザの第2視点から見える第2表示画像を生成することとを実行させるように構成され、
前記第2表示画像は、視差効果を形成するように、前記ユーザの前記決定された位置および前記受信された深度データの組み合わせに基づいて、前記第1表示画像とは異なるように生成され、
前記視差効果は、前記リモート端末のリモートユーザの肖像を前記ユーザから前記レンチキュラディスプレイの反対側のオフセット距離に表示させ、
前記オフセット距離は、所定の深度サンプル間隔に基づいて決定され、
前記深度データは、前記レンチキュラディスプレイから前記ユーザまでの所定距離(L)、前記オフセット距離(O)、前記レンチキュラディスプレイの幅(W)および前記レンチキュラディスプレイの水平有効解像度(R)に基づいて計算された水平深度サンプル間隔(d)で収集され
前記水平深度サンプル間隔dは、d=(L+O)/L×W/Rとして計算される、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本願は、2016年9月9日に出願され、「3Dテレプレゼンスシステム」と題された米国特許仮出願第62/385685号の優先権を主張し、当該出願の全ての内容は、参照により本明細書に組み込まれる。
【背景技術】
【0002】
背景
テレビ会議システムなどの会議システムは、様々な環境に使用され、参加者が同一の場所にいる必要がなく、仮想会議を行う可能性を与える。テレビ会議システムは、例えば、ディスプレイ、通信リンク、スピーカおよびマイクロホンを備えるため、参加者は、リモート参加者を見ることができ、リモート参加者と通信することができる。参加者が話す相手を見ることができるため、テレビ会議システムは、書面または口頭による通信よりも、議論されている話題をより良く理解することができる。また、テレビ会議システムの場合、全ての参加者が同一の場所にいる必要がないため、会議の予定をより簡単に行うことができる。さらに、テレビ会議システムの場合、移動する必要がないため、資源(例えば、時間および金銭)の浪費を減らすことができる。従来のテレビ会議システムは、通常、通信システム(例えば、電話、VoIPシステムなど)、標準のビデオモニタ(例えば、CRTディスプレイ、プラズマディスプレイ、HDディスプレイ、LEDディスプレイ、またはLCDディスプレイ)、カメラ、マイクロホン、およびスピーカを含む。
【発明の概要】
【0003】
概要
以下の本開示の実施形態は、テレビ会議システムおよびテレプレゼンスシステムに関する。少なくともいくつかの実装形態は、ヘッドマウントディスプレイ、ヘッドフォン、および/または他の任意種類の物理的な部材を使用しない3Dテレプレゼンスを提供する。
【0004】
一局面において、テレプレゼンス端末は、画素グリッドの前方に配置されたマイクロレンズアレイを有するディスプレイを含む。また、この端末は、画像センサと、赤外線エミッタと、赤外線深度センサとを含むことができる。この端末は、処理装置と、命令を格納するメモリとをさらに含むことができる。これらの命令は、実行されると、画像センサによって捕捉された可視光に基づいて、画像データを決定することと、赤外線エミッタによって出射され、赤外線深度センサによって捕捉された赤外線に基づいて、深度データを決定することとを含む動作を処理装置に実行させることができる。また、動作は、深度データおよび画像データをリモートテレプレゼンス端末に伝達することと、リモートテレプレゼンス端末から送信されたリモート画像データおよびリモート深度データを受信することとを含むことができる。動作は、リモート画像データに基づいて、画素グリッドの第1画素サブセットを用いて、第1視点からマイクロレンズアレイを通って見える第1表示画像を生成することと、リモート画像データおよびリモート深度データに基づいて、画素グリッドの第2画素サブセットを用いて、第2視点からマイクロレンズアレイを通って見える第2表示画像を生成することをさらに含むことができる。
【0005】
いくつかの実施形態において、第1表示画像および第2表示画像は、視差をシミュレートする差異を有するように、受信された深度データに基づいて生成されてもよい。この場合、命令は、テレプレゼンス端末のユーザの位置を決定することを含む動作をさらに処理装置に実行させることができる。テレプレゼンス端末のユーザの位置は、例えば、深度データおよび/または画像データに基づいて決定されてもよい。例えば、第1表示画像およ
び第2表示画像は、視差をシミュレートする差異を有するように、決定されたユーザの位置に基づいて生成されてもよい。
【0006】
いくつかの実施形態において、命令は、リモート画像データおよびリモート深度データ並びにテレプレゼンス端末のユーザの決定された位置を用いて、ディスプレイに3D立体画像を生成することを含む動作をさらに処理装置に実行させることができる。
【0007】
上記の実施形態と組み合わせることができるいくつかの実施形態において、命令は、第1方向において、第1表示画像の第1部分を生成することと、第2方向において、第2表示画像の第2部分を生成することとを含む動作をさらに処理装置に実行させることができる。例えば、マイクロレンズアレイのマイクロレンズは、1つ以上の角度に光を出射しおよび/または1つ以上の異なる方向に異なる画素値を表示するように構成することができる。第1方向は、第1位置に基づいて決定されてもよく、第2方向は、第2位置に基づいて決定されてもよい。
【0008】
いくつかの実施形態において、命令は、赤外線エミッタによって出射された第1赤外線と、第1赤外線の出射光路に位置する物体によって反射され、赤外線深度センサによって捕捉された第2赤外線との間の位相オフセットを測定するためのタイムオブフライト法に基づいて、深度データを決定することを含む動作をさらに処理装置に実行させることができる。
【0009】
いくつかの実施形態において、テレプレゼンス端末は、ディスプレイの第1側に配置された第1マイクロホンおよびディスプレイの第2側に配置された第2マイクロホンを含むマイクロホンアセンブリと、ディスプレイの第1側に配置された第1スピーカおよびディスプレイの第2側に配置された第2スピーカを含むスピーカアセンブリとをさらに備えることができる。このような実施形態において、命令は、マイクロホンアセンブリを用いて、指向性音声データを捕捉することと、指向性音声データをリモート端末に伝達することと、リモート端末からリモート指向性音声データを受信することと、リモート指向性音声データに基づいて、スピーカアセンブリを用いて音声を出力することとを含む動作をさらに処理装置に実行させることができる。
【0010】
テレプレゼンス端末は、画像センサと赤外線エミッタと赤外線深度センサとを含む少なくとも1つのカメラユニットを含むカメラアセンブリを備えることができる。ディスプレイが透明である場合、少なくとも1つのカメラユニットは、ディスプレイの後方に配置されてもよい。透明ディスプレイの場合、ディスプレイは、オフ状態と点灯状態との間で切り替えることができ、命令は、可視光および赤外線の捕捉をディスプレイのオフ状態と同期させることを含む動作をさらに処理装置に実行させることができる。このような実施形態において、マイクロレンズアレイのマイクロレンズは、第1材料および第2材料から作られてもよい。第1材料は、実質的に電流に影響されない材料であり、第2材料は、実質的に電流に影響される材料である。第1材料と第2材料とは、電流を第1材料および第2材料に印加していないときに異なる屈折率を有する。
【0011】
いくつかの実施形態において、テレプレゼンス端末は、入射光を分割し、分割された入射光を画像センサおよび赤外線深度センサに伝送するビームスプリッタをさらに備えることができる。したがって、ビームスプリッタは、画像センサおよび赤外線深度センサが同様の光線を受光するように入射光を分割することができる。
【0012】
他の局面において、方法は、赤外線エミッタを用いて、第1赤外線を生成することを含む。また、方法は、赤外線深度センサを用いて、第2赤外線を受光することを含む。第2赤外線は、出射された第1赤外線の反射によって引き起こされてもよい。また、方法は、
第1赤外線および第2赤外線に基づいて、取得された深度データを決定すること、および画像センサによって捕捉された可視光に基づいて、取得された画像データを決定することを含むことができる。また、方法は、取得された深度データおよび取得された画像データをリモート端末に伝達することを含むことができる。方法は、画素グリッドの第1サブセットを用いて、リモート端末から受信された画像データに基づいて、第1位置からマイクロレンズアレイを通って見える第1表示画像を生成することと、画素グリッドの第2サブセットを用いて、リモート端末から受信された画像データおよび深度データに基づいて、第2位置からマイクロレンズアレイを通って見える第2表示画像を生成することとをさらに含むことができる。
【0013】
別の局面において、非一時的コンピュータ可読記憶媒体は、命令を格納する。これらの命令は、少なくとも1つのプロセッサによって実行されると、少なくとも以下のこと、すなわち、赤外線エミッタを用いて、第1赤外線を生成することと、赤外線深度センサを用いて、第2赤外線を受光することと、第1赤外線および第2赤外線に基づいて、深度データを決定することと、画像センサによって捕捉された可視光に基づいて、画像データを決定することと、深度データおよび画像データをリモートテレプレゼンス端末に送信することと、レンチキュラディスプレイ(lenticular display)を用いて、リモート端末から受信された画像データに基づいて、第1位置から見える第1表示画像を生成することと、レンチキュラディスプレイを用いて、リモート端末から受信された画像データおよび深度データに基づいて、第2位置から見える第2表示画像を生成することとをコンピューティングシステムに実行させるように構成される。深度データは、リモート端末から受信されてもよい。
【0014】
この局面の他の実施形態は、各々が上記に要約した方法の動作を実行するように構成された対応のコンピュータシステム、装置、および1つ以上のコンピュータ記憶装置に記録されたコンピュータプログラムを含む。
【0015】
一局面において、テレプレゼンスシステム内のローカル端末は、ディスプレイを含む。ディスプレイは、画素グリッドの前方に配置されたマイクロレンズアレイを含む。ローカル端末は、1つ以上のカメラユニットをさらに含む。カメラユニットは、レンズと、画像センサと、赤外線エミッタと、赤外線深度センサとを含むことができる。ローカル端末は、処理装置と、実行されると処理装置に動作を実行させる命令を格納するメモリとをさらに含む。動作は、ローカル端末の画像センサによって捕捉された可視光に基づいて、ローカル画像データを決定することと、ローカル端末の赤外線深度センサによって捕捉された赤外線に基づいて、ローカル深度データを決定することとを含むことができる。ローカル深度データは、ローカル端末に対して視聴者の位置に依存することができる。また、動作は、ローカル深度データおよびローカル画像データをリモートテレビ会議端末に送信することを含むことができる。また、動作は、リモート画像データおよびローカル位置データ(例えば、ローカル深度データ)に基づいて、マイクロレンズアレイのマイクロレンズを通って、第1方向に第1画像の第1部分を生成することを含むことができる。位置データは、場所-位置データと呼ぶことができる。リモート画像データは、リモートテレビ会議端末から発信され、リモート深度データに依存することができる。また、動作は、リモート画像データおよびローカル位置データに基づいて、マイクロレンズアレイのマイクロレンズを通って、第2方向に第2画像を生成することを含むことができる。ローカル位置データは、ローカルテレビ会議端末から発信されてもよい。第1方向および第2方向は、ローカル位置データに応じて異なってもよい。例えば、第1方向は、第1位置(例えば、ユーザの第1目)から見える方向であってもよく、第2方向は、第2位置(例えば、ユーザの第2目)から見える方向あってもよい。いくつかの実施形態において、端末は、各々が1つ以上のレンズを含むことができる複数のカメラユニットを備えることができる。いくつかの実施形態において、1つ以上の画像の一部は、マイクロレンズアレイの各マイクロ
レンズ上に生成されてもよい。いくつかの実施形態において、第1方向は、第1画像の一部を表示するように、複数の画素から第1画素を選択することによって決定されてもよく、第2方向は、第2画像の一部を表示するように、複数の画素から第2画素を選択することによって決定されてもよい。
【0016】
この局面のいくつかの実施形態において、ローカル位置データは、ローカル端末のユーザに対応する位置データを含む。いくつかの実施形態において、位置データは、深度データを含むことができる。
【0017】
この局面の他の実施形態は、テレビ会議システムのメモリに格納された命令に従って、処理装置の動作を実行するように構成された対応の方法を含む。
【0018】
別の局面において、3Dテレプレゼンスを提供するための方法は、赤外線エミッタを用いて第1赤外線を生成することと、赤外線深度センサを用いて第2赤外線を受光することとを含む。第1赤外線および第2赤外線に基づいて、深度データを決定することができ、画像センサによって捕捉された可視光に基づいて、画像データを決定することができる。決定された深度データおよび決定された画像データは、リモートテレビ会議端末に送信することができる。リモートテレビ会議端末から受信された画像データに基づいて、ローカル端末のマイクロレンズアレイのマイクロレンズを通って、第1方向に第1画像を生成し、リモートテレビ会議端末から受信された画像データおよびローカル端末のユーザに対応する位置データに基づいて、ローカル端末のマイクロレンズアレイのマイクロレンズを通って、第2方向に第2画像を生成する。第1画像と第2画像とは、位置データによって異なる。
【0019】
この局面のいくつかの実施形態において、マイクロレンズアレイのマイクロレンズを通って第1画像および/または第2画像を生成することは、画像センサによって画像が撮影されたユーザに対応する位置データにさらに基づいて行われる。
【0020】
1つ以上の実施形態の詳細は、添付の図面および以下の説明に記載される。他の特徴は、説明および図面並びに特許請求の範囲から明らかになるだろう。
【0021】
様々な図面において、同様の参照記号は、同様の要素を示す。
【図面の簡単な説明】
【0022】
図1】開示された実施形態に従ったテレビ会議システムの一例を示す図である。
図2】開示された実施形態に従ったテレビ会議システムの一例を示す図である。
図3A】開示された実施形態に従ったテレビ会議端末の一例を示す図である。
図3B】開示された実施形態に従ったテレビ会議端末の一例を示す図である。
図4】開示された実施形態に従ったカメラユニットの一例を示す図である。
図5】開示された実施形態に従ったテレビ会議端末に3D画像を生成するためのプロセスを示すフローチャートである。
図6】開示された実施形態に従った技術を実現するために使用され得るコンピュータ装置の一例を示す図である。
図7A】実施形態に係る深さおよび投影の例である。
図7B】実施形態に係る深さおよび投影の例である。
図7C】実施形態に係る深さおよび投影の例である。
図7D】実施形態に係る深さおよび投影の例である。
図7E】実施形態に係る深さおよび投影の例である。
図7F】実施形態に係る深さおよび投影の例である。
図7G】実施形態に係る深さおよび投影の例である。
図8】実施形態に係る3Dテレプレゼンスシステムを示す概略図である。
【発明を実施するための形態】
【0023】
詳細な説明
従来のテレビ会議システムは、(例えば、ビデオを有しない)リモート会議よりも対面会議に近い体験を提供するが、「実在の」会議体験を損なう制限を有する。例えば、伝統的なテレビ会議のディスプレイは、2D画像を提示し、実在の深度を表現する能力が限られている。その結果、テレビ会議の参加者は、他の参加者との共存感を有しない。さらに、従来のテレビ会議システムのカメラの配置によって、参加者は、直接なアイコンタクトを取ることができない。すなわち、各参加者が各々のディスプレイを直視しているが、カメラは、ディスプレイを通って参加者の画像を取得していない。一部のテレビ会議システムは、仮想現実に近いテレビ会議体験を提供するが、この場合、3D画像の表現を体験するために、参加者は、ヘッドマウントディスプレイ、ゴーグルまたは3Dメガネを着用する必要がある。
【0024】
したがって、本明細書に開示された実施形態は、ヘッドマウントディスプレイおよび3Dメガネを使用することなく、従来のテレビ会議システムに比べてより現実的な対面体験を提供する3Dテレプレゼンスシステムに関する。テレビ会議システムおよび画像会議システムは、テレプレゼンスシステムのいくつかの例である。開示された実施形態に従って、3Dテレプレゼンスシステムは、マイクロレンズアレイに配置された複数のマイクロレンズを含み、メガネを使用する必要のない(glasses-free)3Dレンチキュラディスプレイ(lenticular display)を備えることができる。いくつかの実施形態によれば、マイクロレンズアレイは、複数のマイクロレンズ群(またはサブアレイ)を含むことができ、複数のマイクロレンズ群(またはサブアレイ)の各々は、1つ以上の角度に光を出射しおよび/または1つ以上の異なる方向に異なる色の画素値(例えば、RGB画素値)を表示するように構成された数個のマイクロレンズを含む。マイクロレンズ群/サブアレイをディスプレイに含むによって、異なる視野角に異なる画像を示すことができる(すなわち、異なる視点から異なる画像を見える)。3Dテレプレゼンスシステムのいくつかの実施形態において、複数のマイクロレンズ群の各々は、少なくとも2つのマイクロレンズを含み、3D画像は、少なくとも1つのマイクロレンズを通って、第1画像の一部(例えば、第1画素)を第1方向に投影することによって生成され、少なくとも1つの他のマイクロレンズを通って、第2画像の一部(例えば、第2画素)を第2方向に投影することによって生成されてもよい。第2画像は、第1画像と同様であってもよいが、視差をシミュレートするように第1画像からシフトされてもよい。これによって、視聴者に3D立体画像を生成することができる。
【0025】
また、本明細書に開示された3Dテレプレゼンスシステムは、1つ以上のカメラユニットを有するカメラアセンブリを含むことができる。各カメラユニットは、可視光(例えば、色)を捕捉するための画像センサと、赤外線エミッタと、赤外線エミッタから出射され、視聴者および視聴者の周囲の物体から反射された赤外線を捕捉するための赤外線深度センサとを含むことができる。いくつかの実施形態において、カメラユニットの1つ以上の構成要素(例えば、画像センサ、赤外線エミッタおよび赤外線深度センサ)は、同一の場所に配置されなくてもよい。いくつかの実施形態において、3Dテレプレゼンスシステムの第1端末は、捕捉された可視光および捕捉された赤外線の組み合わせを用いて、第1端末画像データおよび第1端末深度データを生成することができる。これらのデータは、3Dテレプレゼンスシステムの第2端末に送信される。いくつかの実施形態において、3Dテレプレゼンスシステムの第1端末は、3Dテレプレゼンスシステムの第2端末から第2端末画像データおよび第2端末深度データを受信し、第2端末画像データおよび第2端末深度データ並びに(例えば、第1端末の深度データに基づいて決定された)第1端末に対するユーザの位置に関連する位置データを用いて、第1端末のディスプレイ上に3D立体
画像を生成することができる。
【0026】
3Dテレプレゼンスシステム100の一実装例は、図1に示されている。2人のユーザ105aおよび105bは、3Dテレプレゼンスシステム100を用いて、リモートで対面通信を行うことができる。第1ユーザ105aは、第2ユーザ105bから離れた場所にいる。第2ユーザ105bは、ディスプレイ125上に表示された第1ユーザ105aの3D画像を見る。いくつかの実施形態において、ディスプレイ125は、第1ユーザ105aおよび第2ユーザ105bの共存をシミュレートするために、第2ユーザ105bから一定の距離に配置され且つ適切なサイズを有する。例えば、ディスプレイ125は、第2ユーザ105bからテーブルの向こう側の1mの位置に配置されてもよく、ディスプレイ125は、1mのディスプレイであってもよい。カメラアセンブリ180は、可視光および赤外線を捕捉するように構成されてもよい。3Dテレプレゼンスシステム100(例えば、第2ユーザ105bによって使用されている端末)は、捕捉された可視光および赤外線を用いて、(図1に示されていない)第1ユーザ105aが見ているディスプレイに第2ユーザ105bの3D立体画像を表示することができる。いくつかの実施形態において、システム100は、1つ以上のマイクロホンおよび/またはスピーカ(例えば、スピーカアレイ)を含むことができる。このようなシステム100は、マイクロホンおよび/またはスピーカを用いて、立体的な音声をシミュレートすることができる(例えば、音声は、音源の位置に応じて立体的に生成される)。
【0027】
図2は、2人のユーザの間に3Dテレビ会議を行うための3Dテレプレゼンスシステム100を示すブロック図である。図2に示す実装例において、各々のユーザ(例えば、第1参加者および第2参加者)に対応する各端末120は、ネットワーク190を介して通信することができる。
【0028】
図2に示す3Dテレプレゼンスシステム100は、コンピュータ化することができる。この場合、図示された各構成要素は、ネットワーク190を介して他のコンピューティング装置と通信するように構成されたコンピューティング装置またはコンピューティング装置の一部を含む。例えば、各端末120は、ネットワーク190を介して他のコンピューティング装置とデータを送受信するように構成された1つ以上のコンピューティング装置、例えば、デスクトップ、ノートブックまたは携帯式コンピューティング装置を含むことができる。いくつかの実施形態において、各端末120は、特殊用途のテレビ会議装置であってもよい。この場合、端末120の各構成要素は、同一のハウジングに配置されている。いくつかの実施形態において、各端末120間の通信は、会議の設定、解散および/またはスケジューリングを管理するための1つ以上のサーバまたはコンピューティングクラスタ(図示せず)によって、促進されてもよい。いくつかの実施形態、例えば図2に示す実装例において、端末120は、ポイントツーポイント通信プロトコルを用いて通信することができる。
【0029】
図2に示す実装例において、端末120は、テレビ会議の参加者によって使用される。いくつかの実施形態において、参加者は、同様の端末を使用している。例えば、テレビ会議中の通信を容易にするために、各参加者は、同様の構成または仕様を有する同型番の端末120または同様の方法で構成された端末120を使用することができる。いくつかの実施形態において、参加者によって使用された端末は、異なってもよいが、各端末は、画像および深度データを送受信し、ヘッドマウントディスプレイまたは3Dメガネを使用せず、3D立体画像を生成するように構成されている。説明を簡単にするために、図2の実装例は、3Dテレプレゼンスシステム100の両端に配置された同一の端末120を示している。
【0030】
いくつかの実施形態において、端末120は、ディスプレイ125を含む。いくつかの
実施形態において、ディスプレイ125は、メガネを使用する必要のない3Dレンチキュラディスプレイを含むことができる。ディスプレイ125は、複数のマイクロレンズからなるマイクロレンズアレイを含むことができる。いくつかの実施形態において、マイクロレンズアレイのマイクロレンズを用いて、第1位置から見える第1表示画像および第2位置から見える第2表示画像を生成することができる。ディスプレイ125は、視差をシミュレートするように、ユーザの第1眼の位置に対応する第1位置からマイクロレンズアレイを通って見られるように画素グリッドの一部に第1表示画像を形成し、ユーザの第2眼の位置に対応する第2位置からマイクロレンズアレイを通って見られるように画素グリッドの一部に第1表示画像から深度シフトされるものを表す第2表示画像を形成することによって、3D立体画像を生成することができる。例えば、画素グリッドは、マイクロレンズアレイを通って参加者の左眼によって見られるように意図した第1表示画像を表示することができ、マイクロレンズアレイを通って参加者の右眼によって見られるように意図した第2表示画像を表示することができる。第1位置および第2位置は、ディスプレイに対する視聴者の位置(例えば、横方向/垂直方向の場所、位置、深度、左眼または右眼の位置)に基づくことができる。いくつかの実施形態において、第1表示画像を生成するための第1方向および第2表示画像を生成するための第2方向は、マイクロレンズアレイに関連する画素のアレイから、特定の画素を選択することによって決定されてもよい。
【0031】
いくつかの実施形態において、マイクロレンズアレイは、2つのマイクロレンズからなるマイクロレンズ対を複数含むことができ、ディスプレイ125は、少なくとも2つのマイクロレンズを用いて画像を表示ことができる。いくつかの実施形態において、処理装置130は、ディスプレイ125に対して参加者の位置(この位置は、開示された実施形態に従って、カメラアセンブリ180によって取得されてもよい)に対応する位置情報に基づいて、マイクロレンズを通って画像を見ることができる出射光線を選択することによって、左眼用画像および右眼用画像を表示することができる。いくつかの実施形態において、複数のマイクロレンズの各々は、いくつかの画素を覆う(例えば、その上方に配置されるまたはそれに関連付けられる)ことができる。これによって、各画素は、ディスプレイ125の前方のいくつかの限られた方向から見ることができる。視聴者の位置が既知である場合、一方の眼から見える各レンズの下方の(ディスプレイ125全体の)画素サブセットおよび他方の眼から見えるディスプレイ125の画素サブセットを特定することができる。各画素に対して、ユーザの目の位置から見える仮想視点に対応する適切な表示画像を選択することで、各目は、正しい画像を見ることができる。
【0032】
処理装置130は、1つ以上の中央処理装置、グラフィック処理装置、他の種類の処理装置、またはそれらの組み合わせを含むことができる。
【0033】
いくつかの実施形態において、マイクロレンズを通って少なくとも2つの画像を端末のユーザに同時に投影するための方向を決定するために、さまざまなメカニズムを用いて、端末に対するユーザの位置を決定することができる。例えば、赤外線追跡システムは、ユーザに関連付けられた1つ以上のマーカ(例えば、ユーザのメガネまたは帽子に取り付けられた反射マーカ)を使用することができる。他の例として、赤外線カメラを使用することができる。赤外線カメラは、少なくとも2つの画像からユーザの目の位置を特定し、三角法で3D位置を測定することができる比較的に高速の顔検出器を用いて、構成することができる。さらに別の例として、色画素(例えば、RGB画素)および深度センサを用いて、ユーザの位置情報を決定する(例えば、直接的に決定する)ことができる。いくつかの実施形態において、このようなシステムを用いて精確な追跡を行うためのフレームレートは、少なくとも60Hz(例えば、120Hz以上)あってもよい。
【0034】
いくつかの実施形態において、ディスプレイ125は、切替可能な透明の3Dレンチキュラディスプレイを含むことができる。このような実施形態のディスプレイ125におい
て、テレビ会議中にアイコンタクトをシミュレートするために、カメラアセンブリ180をディスプレイ125の後方に配置することができる。いくつかの実施形態において、ディスプレイ125は、人間の目またはカメラレンズに容易に検知できない程十分に小さい有機発光ダイオード(OLED)を含むことができる。これによって、ディスプレイ125は、事実上透明である。また、これらのOLEDは、十分な明るさを有することができる。そのため、これらのOLEDが点灯されたときに、発光面積が各OLEDの面積よりも著しく大きい。その結果、OLEDは、人間の目またはカメラレンズには容易に見えなくても、十分な明るさでディスプレイ125を照らすことができ、隙間なく表示画像を形成することができる。切替可能な透明の3Dレンチキュラディスプレイにおいて、OLEDは、ガラスを連続するOLED列の間に配置するように、ガラス基板に埋め込まれてもよい。このように配置することによって、ディスプレイ125は、OLEDが点灯されていないときに透明になるが、OLEDが点灯されているときに(ディスプレイ125に表示されている画像によって)不透明になる。
【0035】
カメラアセンブリ180がディスプレイ125の後方に配置される実施形態において、OLEDが点灯されているときに、カメラアセンブリ180は、可視光および赤外線を捕捉することができない。ディスプレイ125が切替可能な透明の3Dレンチキュラディスプレイを含む実施形態において、処理装置130は、ディスプレイ125のOLEDの点灯とカメラアセンブリ180を同期させることができる。したがって、OLEDが点灯されているときに、カメラアセンブリ180は、可視光または赤外線を捕捉しないが、OLEDが点灯されていないとき、カメラアセンブリ180は、開示された実施形態に従って、画像データ、深度データおよび/または位置データを決定するための可視光および赤外線を捕捉する。処理装置130は、人間の目が検知できる速度よりも速い速度、例えば毎秒90フレームの速度で、ディスプレイ125のOLEDの点灯とカメラアセンブリ180の画像取得を同期させることができる。
【0036】
ディスプレイ125がレンチキュラディスプレイであるため、カメラアセンブリ180が切替不能な透明の3Dレンチキュラディスプレイの後方に配置された場合、ディスプレイ125のレンチキュラ特性によって、カメラアセンブリ180によって捕捉される可視光および赤外線に歪みが生じる。したがって、いくつかの実施形態において、ディスプレイ125は、切替可能な透明の3Dレンチキュラディスプレイである。切替可能な透明の3Dレンチキュラディスプレイの実施形態において、マイクロレンズアレイのマイクロレンズは、第1材料および第2材料から作ることができる。例えば、少なくとも一部のマイクロレンズは、第1材料から作ることができ、少なくとも一部のマイクロレンズは、第2材料から作ることができる。第1材料は、電流に影響されない(例えば、実質的に影響されない)材料であってもよく、第2材料は、電流に影響される(例えば、実質的に影響される)材料であってもよい。第2材料に電流を印加していないときに、第1材料と第2材料とは、異なる屈折率を有することができる。したがって、第1材料からなるマイクロレンズと第2材料からなるマイクロレンズとの間の境界に屈折をもたらすことによって、レンチキュラディスプレイを形成することができる。第2材料に電流を印加すると、電流によって第2材料の屈折率が第1材料の屈折率と同様になるように変化するため、ディスプレイ125のレンチキュラ特性を中和する。これによって、2種の材料が均一な屈折を有する単一の長方形スラブを形成するため、画像は、歪みなくディスプレイを通過することができる。いくつかの実施形態において、電流は、第1材料と第2材料の両方に印加される。この場合、電流は、第2材料に上述した影響を与え、第1材料に影響を与えない。したがって、ディスプレイ125が画像を投影するとき(例えば、OLEDが点灯されているとき)に、処理装置130は、マイクロレンズアレイに電流を印加せず、ディスプレイ125は、(例えばオンのとき)レンチキュラアレイとして機能することができる。ディスプレイ125のOLEDが点灯されておらず、処理装置130がカメラアセンブリ180に可視光および赤外線を捕捉するように命令する場合、処理装置130は、ディスプレ
イ125に電流を印加することによって、第2材料からなるマイクロレンズに影響を与えることができる。電流を印加すると、第2材料からなるマイクロレンズの屈折率が変化するため、ディスプレイ125は、レンチキュラアレイとして機能しなくなる(例えば、ディスプレイ125は、透明になるまたはレンチキュラ効果のない透明ガラス板として機能する)。
【0037】
いくつかの実施形態において、端末120は、処理装置130を含むことができる。処理装置130は、画像を表示するようにディスプレイ125を命令する(例えば、トリガする)機能および動作を実行することができる。いくつかの実施形態において、処理装置130は、カメラアセンブリ180と通信することによって、端末120のユーザの位置および場所を表す原始データを受信することができる。また、処理装置130は、ネットワークアダプタ160と通信することによって、テレビ会議に参加している他の端末120から画像データおよび深度データを受信することができる。処理装置130は、開示された実施形態に従って、カメラアセンブリ180端末から受信された位置および場所データ並びにネットワークアダプタ160から受信された画像データおよび深度データを用いて、ディスプレイ125上に3D立体画像を形成することができる。
【0038】
いくつかの実施形態において、処理装置130は、機能および動作を実行することによって、カメラアセンブリ180端末から受信された原始データを画像データ、深度データおよび/または位置データに変換し、ネットワークアダプタ160を介して、テレビ会議に参加している他の端末120に通信することができる。例えば、テレビ会議中に、カメラアセンブリ180は、端末120のユーザによって反射された可視光および/または赤外線を捕捉することができる。カメラアセンブリ180は、捕捉された可視光および/または赤外線に対応する電子信号を処理装置130に送信することができる。処理装置130は、捕捉された可視光および/または赤外線を分析し、画像データ(例えば、画像を形成することができる画素セットのRGB値に対応するデータ)および/または深度データ(例えば、形成された画像内の画素セットの各RGB値の深度に対応するデータ)を決定することができる。いくつかの実施形態において、処理装置130は、ネットワーク190を介して画像データまたは深度データを通信する前に、より少ないメモリまたは帯域幅を使用するように、画像データおよび/または深度データを圧縮または符号化することができる。同様に、処理装置130は、3D立体画像を形成する前に、受信した画像データまたは深度データを解凍または復号することができる。
【0039】
いくつかの実施によれば、端末120は、スピーカアセンブリ140およびマイクロホンアセンブリ150を含むことができる。スピーカアセンブリ140は、テレビ会議中に他の端末120端末から受信された音声データに対応する音声を放送することができる。スピーカアセンブリ140は、例えば指向性音声を放送するために、複数の場所に配置された1つ以上のスピーカを含むことができる。マイクロホンアセンブリ150は、端末120のユーザに対応する音声を捕捉することができる。マイクロホンアセンブリ150は、例えば指向性音声を放送するために、複数の場所に配置された1つ以上のスピーカを含むことができる。いくつかの実施形態において、処理ユニット(例えば、処理装置130)は、マイクロホンアセンブリ150によって捕捉され、ネットワークアダプタ160およびネットワーク190を介してテレビ会議に参加している他の端末120に送信された音声を圧縮または符号化することができる。
【0040】
また、端末120は、I/O装置170を含むことができる。I/O装置170は、端末120が参加しているテレビ会議を制御するための入力装置および/または出力装置を含むことができる。例えば、I/O装置170は、ディスプレイ125のコントラスト、輝度またはズームを調整するために使用され得るボタンまたはタッチスクリーンを含むことができる。また、I/O装置170は、ディスプレイ125上に表示された画像に注釈
を付けるまたはテレビ会議に参加している他の端末120に送信されるコメントを付けるために使用され得るキーボードインターフェイスを含むことができる。
【0041】
いくつかの実施形態によれば、端末120は、カメラアセンブリ180を含む。カメラアセンブリ180は、1つ以上のカメラユニットを含むことができる。いくつかの実施形態において、カメラアセンブリ180は、ディスプレイ125の後方に配置されたいくつかのカメラユニットと、ディスプレイ125の外縁部に隣接して配置された1つ以上のカメラユニット(すなわち、カメラアセンブリ180の後方に配置されていないカメラユニット)とを含む。例えば、カメラアセンブリ180は、1つのカメラユニット、3つのカメラユニット、または6つのカメラユニットを含むことができる。カメラアセンブリ180の各カメラユニットは、画像センサ、赤外線センサおよび/または赤外線エミッタを含むことができる。以下に説明される図4は、カメラユニット182の一実装例をより詳細に示している。
【0042】
いくつかの実施形態において、端末120は、メモリ185を含むことができる。実施形態に応じて、メモリ185は、1つ以上の揮発性メモリユニットまたは1つ以上の不揮発性メモリユニットであってもよい。メモリ185は、任意種類のコンピュータ可読媒体、例えば磁気ディスクまたは光ディスク、もしくは固体メモリであってもよい。いくつかの実施形態によれば、メモリ185は、開示された実施形態に従って、処理装置130に機能および動作を実行させる命令を格納することができる。
【0043】
いくつかの実施形態において、3Dテレプレゼンスシステム100の端末120は、テレビ会議を容易にするために、端末間に様々な種類のデータを通信する。いくつかの実施形態において、端末120は、各端末120のユーザに対応する画像データ、深度データ、音声データおよび/または位置データを通信することができる。各端末120の処理装置130は、受信された画像データ、深度データおよび/または位置データを用いて、ディスプレイ125上に3D立体画像を形成することができる。処理装置130は、音声データを翻訳して、音声データに対応する音声を放送するようにスピーカアセンブリ140を命令することができる。いくつかの実施形態において、画像データ、深度データ、音声データおよび/または位置データは、圧縮または符号化されてもよく、処理装置130は、機能および動作を実行することによって、これらのデータを解凍または復号してもよい。いくつかの実施形態において、画像データは、例えば、JPEGまたはMPEGなどの標準的な画像フォーマットであってもよい。いくつかの実施形態において、深度データは、例えば、1対1の対応関係で、画像データの各画素に対応する深度値を特定する行列であってもよい。同様に、音声データは、当技術分野に既知の標準的な音声ストリーミングフォーマットであってもよく、いくつかの実施形態において、VoIP(Voice over Internet Protocol)技術を使用してもよい。
【0044】
実施形態に応じて、ネットワーク190は、1つ以上の任意種類のネットワーク、例えば、1つ以上のローカルエリアネットワーク、ワイドエリアネットワーク、パーソナルエリアネットワーク、電話ネットワークおよび/または利用可能な有線および/または無線通信プロトコルを介してアクセスできるインターネットを含むことができる。例えば、ネットワーク190は、各端末120が通信するときに利用するインターネット接続を含むことができる。安全なネットワーク通信リンクおよび非安全なネットワーク通信リンクを含む他のネットワークの任意の組み合わせが、本明細書に記載されているシステムに使用できると考えられる。
【0045】
図3Aは、端末120の一実装例を示している。この実装例において、カメラアセンブリ180は、ディスプレイ125の外縁部に配置された3つのカメラユニット182を含む。図3Aの実装例は、3つのカメラユニット182、すなわち、ディスプレイ125の
上部に配置された第1カメラユニット、ディスプレイ125の左側に配置された第2カメラユニット、およびディスプレイ125の右側に配置された第3カメラユニットを含む。図3Aの実装例において、ディスプレイ125は、メガネを使用する必要のない3Dレンチキュラディスプレイであってもよい。いくつかの実施形態によれば、カメラアセンブリ180の各カメラユニット182は、レンズ310と、赤外線エミッタ320とを含むことができる。カメラユニット182は、レンズ310を用いて、端末120のユーザに対応する可視光および赤外線を捕捉する。いくつかの実施形態において、赤外線エミッタ320は、赤外線を出射することができ、出射された赤外線は、端末120のユーザおよびユーザの周囲から反射され、レンズ310によって捕捉される(以下、図4を参照してより詳細に説明する)。
【0046】
図3Bは、端末120の他の実装例を示している。この実装例において、ディスプレイ125は、開示された実施形態と同様に、メガネを使用する必要なく切替可能な透明の3Dレンチキュラディスプレイである。また、この実装例において、カメラアセンブリ180をディスプレイ125の後方に配置することができる。カメラアセンブリ180をディスプレイ125の後方に配置すると、カメラアセンブリ180のカメラユニット182は、端末120のユーザがよく見る位置に配置されているため、テレビ会議中に直接なアイコンタクトをする可能性を増やすことができる。従来のテレビ会議システムでは、単一のカメラは、通常、テレビ会議の参加者が見ているディスプレイの外縁部に配置される。その結果、テレビ会議中に参加者の間のアイコンタクトが妨げられる。メガネを使用する必要なく切替可能な透明の3Dレンチキュラディスプレイを使用することによって、カメラアセンブリ180をスクリーンの後方に配置することができ、テレビ会議中のアイコンタクトを増やすことができる。
【0047】
図3Aおよび図3Bがディスプレイ125に近接する様々な位置に配置された複数のカメラユニット182を有するカメラアセンブリ180のいくつかの実装例を示すが、本開示の主旨および範囲から逸脱することなく、カメラユニット182をディスプレイ125に近接する他の位置に配置してもよい。例えば、図3Aおよび図3Bに示された実装例において、3つのカメラユニット182がディスプレイ125に近接して配置されているが、他の実施形態は、より多いまたはより少ないカメラユニット182を含むことができる。また、図3Aおよび図3Bに示された実装例において、カメラアセンブリ180のカメラユニット182が固定位置に配置されたが、カメラユニット182は、いくつかの実施形態に従って調整可能または移動可能あってもよい。例えば、1つ以上のカメラユニット182は、端末120のユーザに関連する位置データに応じて、そのカメラユニット182の位置および/または回転を調整する可動アクチュエータに接続されてもよい。
【0048】
図4は、いくつかの実施形態において、カメラアセンブリ180の例示的なカメラユニット182、カメラアセンブリ180の赤外線エミッタ320から出射された赤外線の出射光路410、およびカメラアセンブリ180によって受光された可視光および赤外線の受光光路420を示している。カメラユニット182は、赤外線エミッタ320と、レンズ310と、ビームスプリッタ440と、画像センサ450と、赤外線深度センサ460とを含むことができる。いくつかの実施形態によれば、赤外線エミッタ320は、出射光路410として赤外光波を出射する。出射光路410は、ユーザ105から反射され、レンズ310を通ってカメラユニット182によって捕捉される受光光路420の一部になる。また、受光光路420は、レンズ310を通る可視光(例えば、可視スペクトル範囲内の光)を含んでもよい。ビームスプリッタ440は、捕捉された光を分割して、画像センサ450および赤外線深度センサ460に伝送する。いくつかの実施形態において、画像センサ450および赤外線深度センサ460は、捕捉された光の周波数および位相に対応する原始データを処理装置130に送信することができる。
【0049】
いくつかの実施形態において、画像センサ450は、可視光を捕捉し、捕捉された可視光を赤-緑-青(RGB)値、CMYK色値および/またはYUV色値に相関させることができる画像センサであってもよい。いくつかの実施形態において、画像センサ450は、高精細度(HD)または4K解像度の画像センサであってもよい。
【0050】
いくつかの実施形態において、赤外線エミッタ320および赤外線深度センサ460は各々、タイムオブフライト型エミッタおよびタイムオブフライト型センサであってもよい。このような実施形態において、赤外線エミッタ320は、正弦波パルスの赤外線を出射する。赤外線は、その光路に位置する物体から反射され、カメラアセンブリ180に戻り、赤外線深度センサ460によって捕捉されてもよい。いくつかの実施形態において、赤外線深度センサ460(または他の実施形態において、処理装置130)は、赤外線エミッタ320によって出射された正弦波パルスの赤外線と赤外線深度センサ460によって検出された正弦波パルスの赤外線との間の位相オフセットを決定することができる。この位相オフセットを用いて、例えば深度を決定することができる。いくつかの実施形態において、赤外線エミッタ320および赤外線深度センサ460は各々、アクティブステレオ、非構造化ライトステレオ、または補助投影テクスチャ(説明の便宜上、総称してアクティブステレオと呼ばれる)エミッタおよびセンサであってもよい。このような実施形態において、赤外線エミッタ320は、非構造化高周波テクスチャの赤外線を出射し、この赤外線は、その光路に位置する物体から反射され、カメラアセンブリ180に戻ることができる。アクティブステレオの実施形態において、物体の深度を計算するために、複数のカメラユニット内の赤外線深度センサ460が必要である。いくつかの実施形態において、赤外線エミッタ320および赤外線深度センサ460は各々、符号化ライトステレオエミッタおよび符号化ライトステレオセンサであってもよい。符号化ライトステレオの実施形態において、赤外線エミッタ320は、特定パターンの光を生成し、この特定パターンの光を用いて、ステレオ三角測量を実行することによって、取得された画像内の点の深度を決定することができる。
【0051】
いくつかの実施形態によれば、ビームスプリッタ440は、画像センサ450および赤外線深度センサ460が同一の光を受光するように入射光を分割する。いくつかの実施形態において、画像センサ450および赤外線深度センサ460は、同様または実質的に同様の幾何学形状を有する。これによって、画像センサ450の幾何学形状にある点に対応する可視光の周波数は、赤外線深度センサ460の幾何学形状にある点に対応する赤外線の周波数に直接対応する。その結果、画像センサ450によって取得された画像内の画素のRGB値は、赤外線深度センサ460によって取得された画像内の同一位置にある画素の深度値と1対1に対応する。いくつかの実施形態において、画像センサ450および赤外線深度センサ460によって取得された画像を用いて、画像センサ450によって捕捉されたRGB画像の深度メッシュを作成することができる。画像センサ450および赤外線深度センサ460が同様の幾何学形状を有するため、較正なしでまたは僅かな較正で、深度メッシュを作成することができる。
【0052】
図5は、開示された実施形態に従ったテレビ会議端末に3D立体画像を生成するための例示的な画像表示プロセス500を示すフローチャートである。いくつかの実施形態によれば、画像表示プロセス500は、テレビ会議端末の1つ以上の構成要素、例えば端末120によって実行されてもよい。以下では、テレビ会議端末が画像表示プロセス500を実行すると説明するが、本開示の主旨および範囲から逸脱することなく、テレビ会議端末に3D画像を生成するように構成されたコンピュータシステムの他の構成要素は、画像表示プロセス500を実行することができる。
【0053】
ステップ510において、ローカル端末のカメラユニットの赤外線エミッタは、第1赤外線を生成する。第1赤外線は、その光路に位置する物体から反射される。ステップ52
0において、ローカル端末のカメラユニットは、反射された赤外線を受光する。ステップ530において、カメラユニットの赤外線深度センサは、受光された第2赤外線を取得し、原始データをローカル端末の処理ユニットに提供し、処理ユニットは、第1赤外線と第2赤外線との間の差に基づいて、深度データを決定する。いくつかの実施形態において、ステップ530は、端末120の赤外線深度センサまたは他の構成要素によって実行されてもよい。いくつかの実施形態において、深度データは、第1赤外線と第2赤外線との間の位相オフセットを測定するタイムオブフライト法に基づいて決定される。いくつかの他の実施形態において、アクティブステレオまたは符号化ライトステレオなどの異なる技法を使用することができる。
【0054】
ステップ540において、ローカル端末は、捕捉された可視光から画像データを決定する。いくつかの実施形態において、ローカル端末のカメラユニットの一部である画像センサは、可視光を捕捉し、捕捉された可視光から画像データを決定することができる。いくつかの実施形態において、画像センサは、捕捉された可視光に対応する原始データを決定し、ローカル端末の処理ユニット(例えば、グラフィック処理ユニット130)に通信することによって、画像データを決定することができる。いくつかの実施形態において、ステップ540は、ステップ510、520および530のうちの1つ以上と同時に実行されてもよい。
【0055】
ステップ550において、ローカル端末は、取得された深度データおよび取得された画像データをリモート端末に伝達する。ローカル端末は、リモート端末から深度データおよび画像データを受信し、受信したデータを用いて、(例えば、左眼に対応する)第1画像および(例えば、右眼に対応する)第2画像を含む3D立体画像を生成することができる。ステップ560において、端末は、ローカル端末のディスプレイを構成するマイクロレンズアレイのマイクロレンズを介して、第1画像を生成する。第1画像は、受信した画像データおよびローカル位置データに基づくことができる。ステップ570において、ローカル端末は、ローカル端末のディスプレイを構成するマイクロレンズアレイのマイクロレンズを介して、第2画像を生成することができる。第2画像は、受信した画像データおよびローカル位置データの両方に基づくことができる。ローカル位置データは、ローカル端末に対する視聴者(例えば、視聴者の目)の位置を示すことができる。少なくともいくつかの実施形態において、第1画像および第2画像は、リモート端末から受信した深度データの少なくとも一部に基づいて生成されてもよい。いくつかの実施形態において、ステップ560および570は、異なる順序でまたは同時に実行されてもよい。
【0056】
いくつかの実施形態において、端末120は、配線でディスプレイ125に接続された専用コンピューティング装置を含むことができる。このような実施形態において、処理装置130、スピーカアセンブリ140、マイクロホンアセンブリ150、ネットワークアダプタ160、I/O装置170およびメモリ185は、ユーザによって簡単に取り外せないように、ディスプレイ125と共にハウジング内に配置されてもよく、またはディスプレイ125に接続されてもよい(すなわち、互いに半田で接続されるまたはディスプレイ125のハウジングを開かずに接続を切断できない)。いくつかの実施形態において、処理装置130、スピーカアセンブリ140、マイクロホンアセンブリ150、ネットワークアダプタ160、I/O装置170およびメモリ185によって実行された機能は、ディスプレイ125およびカメラアセンブリに接続された外部の汎用コンピューティング装置によって実行されてもよい。このような実施形態において、汎用コンピューティング装置は、開示された3Dテレプレゼンスシステムの実施形態に従って動作を実行することができ、ディスプレイ125に電子信号を送信することによって、ディスプレイを「駆動」して、3D画像を生成することができる。
【0057】
特定の順序でプロセス500を図示および説明したが、このプロセスは、特定の順序に
限定されず、いくつかの実施形態において、プロセス500の少なくともいくつかのステップを異なる順序で実行してもよい。また、いくつかの実施形態において、プロセス500の様々なステップを同時に実行してもよい。
【0058】
図6は、本明細書に記載の技術と共に使用することができる汎用のコンピューティング装置600の一例を示している。コンピューティング装置600は、ラップトップ、デスクトップ、タブレット、ワークステーション、パーソナルデジタルアシスタント、テレビ、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピューティング装置などの様々な形態のデジタルコンピュータを表すように意図している。図示された構成要素、それらの接続および関係並びにそれらの機能は、例示的なものに過ぎず、開示された実施形態の実装例を限定するものではない。
【0059】
コンピューティング装置600は、プロセッサ602と、メモリ604と、記憶装置606と、メモリ604および高速拡張ポート610に接続している高速コントローラ608と、低速拡張ポート614および記憶装置606を連結する低速コントローラ612とを含む。プロセッサ602は、半導体プロセッサであってもよい。メモリ604は、半導体メモリであってもよい。構成要素602、604、606、608、610および612は、様々なバスを用いて相互に接続され、共通のマザーボード上に実装されてもよく、または適切な他の方法で実装されてもよい。プロセッサ602は、メモリ604または記憶装置606に記憶された命令を含むコンピューティング装置600内に実行される命令を処理することによって、外部入力/出力装置のGUIに、例えば高速インターフェイス608に接続されたディスプレイ616にグラフィック情報を表示することができる。他の実施態様において、複数のプロセッサおよび/または複数のバスは、複数のメモリおよび複数種類のメモリと共に、適切に使用されることができる。また、各装置が(例えば、サーババンク、一群のブレードサーバ、またはマルチプロセッサシステムとして)必要な動作の一部を実行するように、複数のコンピューティング装置600を接続することができる。
【0060】
メモリ604は、コンピューティング装置600に情報を格納する。一実施形態において、メモリ604は、揮発性メモリユニットである。別の実施形態において、メモリ604は、不揮発性メモリユニットである。メモリ604は、別の形態のコンピュータ可読媒体、例えば、磁気ディスクまたは光ディスクであってもよい。
【0061】
記憶装置606は、コンピューティング装置600に大容量の記憶を提供することができる。一実施形態において、記憶装置606は、例えば、フロッピー(登録商標)ディスク装置、ハードディスク装置、光学ディスク装置、テープディスク装置、フラッシュメモリまたは他の同様の固体メモリ装置、または記憶エリアネットワークまたは他の構成内の装置を含むアレイ記憶装置などのコンピュータ可読媒体を含むことができる。コンピュータプログラム製品は、情報担体に有形的に具体化することができる。また、コンピュータプログラム製品は、命令を含むことができる。これらの命令は、実行されると、上述したような1つ以上の方法を実行することができる。情報担体は、例えば、メモリ604、記憶装置606、またはプロセッサ602上のメモリなどのコンピュータ可読媒体または機械可読媒体である。
【0062】
高速コントローラ608は、コンピューティング装置600の高速の帯域幅集約動作を管理し、低速コントローラ612は、低速の帯域幅集約動作を管理する。このような機能の割り当ては、例示に過ぎない。一実施形態において、高速コントローラ608は、メモリ604、(例えば、グラフィックプロセッサまたはアクセラレータを介して)ディスプレイ616、および様々な拡張カード(図示せず)を挿入できる高速拡張ポート610に連結される。この実施形態において、低速コントローラ612は、記憶装置606および
低速拡張ポート614に連結される。様々な通信ポート(例えば、USB、ブルートゥース(登録商標)、イーサネット(登録商標)、無線イーサネット)を含み得る低速拡張ポートは、例えば、キーボード、ポインティング装置、スキャナなどの1つ以上の入出力装置に連結されてもよく、またはネットワークアダプタを介して、スイッチまたはルータなどのネットワーキング装置に連結されてもよい。
【0063】
図示のように、コンピューティング装置600は、いくつかの異なる形態で実装されてもよい。例えば、コンピューティング装置600は、標準サーバ620として実装されてもよく、または標準サーバのグループ内に複数回実装されてもよい。また、コンピューティング装置600は、サーバラックシステム624の一部として実装されてもよい。さらに、コンピューティング装置600は、ラップトップコンピュータ622のようなパーソナルコンピュータに実装されてもよい。代替的には、コンピューティング装置600の要素は、モバイル装置(図示せず)内の他の要素と組み合わてもよい。このような装置の各々は、1つ以上のコンピューティング装置600を含むことができ、システムの全体は、互いに通信できる複数のコンピューティング装置600から構成されることができる。
【0064】
本明細書に記載のシステムおよび技術の様々な実装例は、デジタル電子回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェアおよび/またはそれらの組み合わせで実現することができる。これらの様々な実装例は、プログラム可能なシステム上で実行可能および/または解釈可能な1つ以上のコンピュータプログラムにおける実装を含むことができる。このプログラム可能なシステムは、記憶システムからデータおよび命令を受信し、データおよび命令を記憶システムに送信するように記憶システムに連結された少なくとも1つのプログラム可能な専用または汎用のプロセッサ、少なくとも1つの入力装置、および少なくとも1つの出力装置を含む。
【0065】
(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られている)これらのコンピュータプログラムは、プログラム可能なプロセッサ用の機械命令を含み、高度な手続き型プログラミング言語および/または高度なオブジェクト指向プログラミング言語で実装することができ、および/またはアセンブリ言語/機械言語で実装することができる。「機械可読媒体」という用語は、本明細書に使用された場合、プログラム可能なプロセッサに機械命令および/またはデータを提供するために使用された機械可読信号としての機械命令を受け取る機械可読媒体を含む任意のコンピュータプログラム製品、機械および/または装置(例えば、磁気ディスク、光学ディスク、メモリ、プログラム可能な論理装置(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラム可能なプロセッサに提供するために使用された任意の信号を指す。
【0066】
本明細書に記載のシステムおよび技術は、バックエンド要素(例えば、データサーバ)を含むコンピューティングシステム、またはミドルウェア要素(例えば、アプリケーションサーバ)を含むコンピューティングシステム、またはフロントエンド要素(例えば、ユーザが本明細書に記載のシステムおよび技術の実装と情報交換を行うことができるグラフィカルユーザインターフェイスまたはウェブブラウザを含むクライアントコンピュータ)を含むコンピューティングシステム、またはバックエンド要素、ミドルウェア要素およびフロントエンド要素の任意の組み合わせを含むコンピューティングシステムに実装されてもよい。これらのシステム要素は、任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットを含む。
【0067】
コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバとは、一般的に互いにリモートであり、典型的には通信ネットワークを介して情報交換を行う。クライアントとサーバとの関係は、各々のコンピュータ上で動作しており、互いにクライアント-サーバ関係を有するコンピュータプログラムに依存する。
【0068】
図7A~7Gは、3Dテレプレゼンスシステム700の実装例を示す概略図である。3Dテレプレゼンスシステム700は、3Dテレプレゼンスシステム100の一例である。図7Gは、側面図である。
【0069】
3Dテレプレゼンスシステム700は、ディスプレイ725と、カメラユニット782a、782b、および782cを含むカメラアセンブリとを含む。ローカル参加者705aおよびリモート参加者は、3Dテレプレゼンスシステム700を使用するテレビ会議に参加している。リモート参加者の肖像705bは、ディスプレイ725によって生成される。ディスプレイ725の3D機能は、少なくともローカル参加者705aに対して、リモート参加者がローカル参加者705aからディスプレイ725の反対側に位置するように、肖像705bを生成することができる。
【0070】
いくつかの実施形態において、ディスプレイ725は、約1920×1080の有効解像度を有する4Kレンチキュラディスプレイ画面を含むことができる。他の実際の解像度および有効解像度も可能である。ディスプレイ725は、1.3mの幅Wを有してもよい。いくつかの実施形態において、ディスプレイ725は、1~1.5mの幅Wを有する。いくつかの実施形態において、ディスプレイ725は、0.5~2mの幅Wを有する。いくつかの実施形態において、ディスプレイ725は、0.5m未満または2mを超える幅を有してもよい。
【0071】
ディスプレイ725は、色値および深度値(例えば、RGB+D)を含むグラフィックデータを受信して表示するように構成されてもよい。いくつかの実施形態において、ディスプレイ725は、ディスプレイ725から距離Lに位置する点の周りの枠にいるローカル参加者を撮像するように構成される。いくつかの実施形態において、Lは、例えば、1m、約1m、1.2mまたは別の距離である。また、ディスプレイ725は、リモート参加者がディスプレイ725の後方からオフセット距離Oにいるように、リモート参加者の肖像を生成するように構成されてもよい。いくつかの実施形態において、オフセット距離Oは、0.2m、約0.2m、0.3mまたは別の距離である。
【0072】
図示のように、カメラユニット782a、782bおよび782cは、対応の視野784a、784bおよび784cを有する。視野784a、784bおよび784cは、カメラユニットの焦点距離に対応する水平視野角(θhorizで示す)および水平範囲(rhorizで示す)を有してもよい。水平範囲は、カメラユニットが適切な画像および深度を取得できるように、カメラに対してローカル参加者705aを位置させるべき距離に対応してもよい。いくつかの実施形態において、カメラユニット782a、782bおよび782cは、同様の水平視野角および水平範囲を有するように構成される。いくつかの実施形態において、水平視野角は、57°である。いくつかの実施形態において、水平視野角は、55~60°の間にある。さらに、水平視野角は、45°~70°の間にあってもよい。他の実施形態は、異なる水平視野角で構成されたカメラユニットを含むこともできる。いくつかの実施形態において、水平範囲は、1.2mに等しいまたはほぼ等しい。いくつかの実施形態において、水平範囲は、1m~1.5mの間にある。水平範囲は、0.5mより大きく2m未満であってもよい。他の水平範囲も可能である。
【0073】
様々な構成のシステム700は、様々な水平深度サンプル間隔(dで示す)をサポート
することができる。水平深度サンプル間隔は、ディスプレイ725上に3D画像を生成するために使用されるリモート側の深度値間の水平距離に対応する。例えば、システム700の様々な実施形態は、水平深度サンプル間隔に影響を与えることができる。いくつかの実施形態は、0.8mmの水平深度サンプル間隔を有する。しかしながら、他の実施形態は、他の水平深度サンプル間隔を有する。いくつかの実施形態において、水平深度サンプル間隔は、以下の式を用いて計算することができる。
【0074】
【数1】
【0075】
式中、Lは、ローカル参加者705aの目からディスプレイ825までの距離であり、Oは、ディスプレイ725からリモート参加者の肖像までの投影オフセット距離であり、Wは、ディスプレイ725の幅であり、Rは、ディスプレイ725の水平有効解像度である。
【0076】
例えば、いくつかの実施形態において、システム700は、レンチキュラディスプレイ上に第1画像および第2画像を生成するように構成されてもよい。第2画像は、第1画像とは異なるように生成される。これによって、リモート参加者の肖像を表示装置の後方のオフセット距離に表示させるように、ユーザに視差効果を形成する。いくつかの実施形態において、オフセット距離は、所定の深度サンプル間隔に基づいて決定される。いくつかの実施形態において、(例えば、カメラユニット782a、782bまたは782cの)1つ以上の赤外線深度センサは、深度サンプリングレートで深度サンプルを収集することによって、所定のオフセット距離をサポートするように構成されてもよい。例えば、深度データは、ディスプレイからユーザまでの所定距離、リモート参加者の肖像までのオフセット距離、ディスプレイの幅、およびディスプレイの水平有効解像度に基づいて、(例えば、上記の式に従って)計算された水平深度サンプル間隔で収集されてもよい。
【0077】
いくつかの実施形態において、システム700は、ローカル参加者705aの頭が位置すべきヘッドボックス790を規定することができる。ヘッドボックス790は、例えば、ディスプレイ725を見ることができ、カメラユニット782a、782bおよび782cの視野が重なり、ローカル参加者705aの画像および/または深度を取得できる物理的な領域であってもよい。いくつかの実施形態において、ヘッドボックス790は、0.6mの高さ(hで示す)および0.6mの幅(wで示す)を有することができる。他の実施形態において、ヘッドボックス790は、異なる高さおよび/または幅を有してもよい。通常、ヘッドボックス790の境界は、物理的に規定されていないが、様々な技術を用いて(例えば、ローカル参加者705aの頭がヘッドボックス790から離れたときに、警告を表示することによって)ディスプレイ725上でローカル参加者705aに示されてもよい。
【0078】
いくつかの実施形態において、ヘッドボックス790の中心から測定する場合、ローカル参加者705aの視野792は、約66°の視野角を有する。他の実施形態において、視野792の視野角は、50~80°の間にある。他の視野角も可能である。いくつかの実施形態において、ローカル参加者705aの有効視野794は、ヘッドボックス790の異なる位置において異なるローカル参加者705aの視野に基づいて拡大される。例えば、いくつかの実施形態において、有効視野794は、約107°である。いくつかの実施形態において、ディスプレイ725は、有効視野794のより大きな水平幅(Kで示す)に亘って最小水平深度サンプル間隔をサポートするようにより高い解像度を有する。例
えば、システムのいくつかの実施形態は、少なくとも約2270画素の水平有効解像度を有するディスプレイ725を含む。
【0079】
図7Gに示すように、ディスプレイ725は、高さHを有する。いくつかの実施形態において、高さHは、0.8mに等しいまたは0.8mにほぼ等しい。いくつかの実施形態において、高さHは、0.5~1.5mの間にある。他の実施形態において、高さHは、0.5m未満または1.5mを超えてもよい。
【0080】
カメラユニット782a、782bおよび782cは、対応の視野784a、784bおよび784cを有する。視野784a、784bおよび784cは、カメラユニットの焦点距離に対応する垂直視野角(θvertで示す)および垂直範囲(rvertで示す)を有してもよい。垂直範囲は、カメラユニットが適切な画像および深度を取得できるように、カメラに対してローカル参加者705aを位置させるべき距離に対応してもよい。いくつかの実施形態において、カメラユニット782a、782bおよび782cは、同様の水平視野角および水平範囲を有するように構成される。いくつかの実施形態において、垂直視野角は、68°である。いくつかの実施形態において、垂直視野角は、65~75°の間にある。さらに、垂直視野角は、50°~80°の間にあってもよい。他の実施形態は、異なる垂直視野角で構成されたカメラユニットを含むこともできる。いくつかの実施形態において、垂直範囲は、1mに等しいまたは1mにほぼ等しい。いくつかの実施形態において、垂直範囲は、0.5~1.5mの間にある。垂直方向の範囲は、0.5m未満でも1.5mを超えてもよい。他の垂直方向の範囲も可能である。
【0081】
図8は、3Dテレプレゼンスシステム800の実装例を示す概略図である。3Dテレプレゼンスシステム800は、3Dテレプレゼンスシステム100の一例である。
【0082】
いくつかの実施形態において、システム800は、ディスプレイ825と、カメラユニット882a、882b、882c、882dおよび882eを含むカメラアセンブリと、スピーカ842aおよび842bを含むスピーカアセンブリと、マイクロホン852aおよび852bを含むマイクロホンアセンブリと、視線追跡モジュール890とを備える。例えば、カメラユニットは、ディスプレイ825の周りの異なる位置に配置することができる。図示の例では、カメラユニット882aおよび82bは、ディスプレイ825の上方に配置され、カメラユニット882cは、ディスプレイ825の一方側に配置され、カメラユニット882は、ディスプレイ825の他方側に配置され、カメラユニット882eは、ディスプレイ825の下方に配置されている。いくつかの実施形態において、指向性または立体的な音声を生成および録音することができるように、スピーカおよびマイクロホンは、様々な場所に配置されている。例えば、スピーカ842aおよびマイクロホン852aは、ディスプレイ825の一方側に配置され、スピーカ842bおよびマイクロホン852bは、ディスプレイ825の他方側に配置されている。いくつかの実施形態において、マイクロホンアセンブリは、3つ以上のマイクロホン(例えば、4つのマイクロホン)を含む。同様に、いくつかの実施形態において、スピーカアセンブリは、3つ以上のスピーカ(例えば、4つのスピーカ)を含む。
【0083】
視線追跡モジュール890は、ディスプレイ825の周りの様々な位置に配置されてもよい。視線追跡モジュール890は、ローカル参加者(図示せず)の眼球位置/場所および/またはローカル参加者の注視方向または注視目標を特定するように構成された1つ以上のカメラまたは他の種類の撮像装置を含むことができる。また、視線追跡モジュール890は、ユーザの他の特徴、例えば口の特徴または他の顔の特徴を追跡することができる。さらに、いくつかの実施形態において、視線追跡モジュールは、カメラアセンブリのカメラユニット882a、882b、882c、882dおよび882eに比べてより高いフレームレートで動作するカメラを含む。追加的または代替的に、カメラアセンブリのカ
メラユニットは、視線追跡を実行してもよい。
【0084】
複数の実施形態を説明したことにも拘わらず、本発明の精神および範囲から離脱することなく、様々な変更を成し得ることが理解されるであろう。
【0085】
また、望ましい結果を達成するために、図示の論理フローは、示された特定の順序でまたは逐次に行う必要がない。図示のフローに他のステップを追加してもよく、または図示のフローから他のステップを省いてもよい。記載のシステムに他の要素を追加してもよく、システムから他の要素を除去してもよい。したがって、他の実施形態は、添付の特許請求の範囲内に含まれる。
図1
図2
図3A
図3B
図4
図5
図6
図7A
図7B
図7C
図7D
図7E
図7F
図7G
図8