(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-17
(54)【発明の名称】エッジ処理を使用してARデバイスおよび非ARデバイスとの共有仮想会話空間を生成するための装置
(51)【国際特許分類】
H04N 19/597 20140101AFI20240410BHJP
H04N 19/46 20140101ALI20240410BHJP
【FI】
H04N19/597
H04N19/46
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023548251
(86)(22)【出願日】2022-12-13
(85)【翻訳文提出日】2023-08-09
(86)【国際出願番号】 US2022052645
(87)【国際公開番号】W WO2023149955
(87)【国際公開日】2023-08-10
(32)【優先日】2022-02-07
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-12-08
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ソダガル,イラジ
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MA04
5C159MA05
5C159PP03
5C159PP13
5C159RC11
5C159SS26
5C159UA02
5C159UA05
(57)【要約】
コンピュータコードを有する方法および装置が含まれる。コンピュータコードは、1つ以上のプロセッサに、非ARデバイスおよびARデバイスからビデオデータを獲得させるように構成され、ARデバイスは第1ルームにおける第1ユーザによって使用され、かつ、非ARデバイスは第1ルームとは別の第2ルームにおける第2ユーザによって装着されており、ビデオデータに基づいて、第1ルームにおけるARシーン内で第2ユーザが表示されるべき位置に対する非ARデバイスの向きを決定し、かつ、向きの決定に基づいて、非ARデバイスシーン情報をストリーミングさせるように構成されている。
【特許請求の範囲】
【請求項1】
拡張現実(AR)ビデオストリーミングのための方法であって、
非ARデバイスおよびARデバイスから、それぞれに、ビデオデータを獲得するステップであり、
前記非ARデバイスは、第1ルームにおける第1ユーザによって使用され、かつ、
前記ARデバイスは、前記第1ルームとは別の第2ルームにおける第2ユーザによって装着される、
ステップと、
ARシーンをレンダリングしない前記非ARデバイスから、ARシーン記述を獲得するステップと、
前記非ARデバイスから獲得された前記ARシーン記述を解析すること、および、レンダリングすることによって、クラウドデバイスによる仮想シーンを生成するステップと、
前記非ARデバイスから獲得したARシーン記述に基づいて、前記第1ルームにおけるARシーン内で前記第2ユーザが表示される位置に対する前記非ARデバイスの向きを決定するステップと、
前記向きの決定に基づいて、前記レンダリングされた仮想シーンを非ARデバイスに対してストリーミングするステップと、
を含む、方法。
【請求項2】
前記ARシーンにおける前記第2ユーザが表示されるべき位置は、前記非ARデバイスを介した前記第1ユーザのビュー選択に基づいて、決定される、
請求項1に記載の方法。
【請求項3】
前記レンダリングされた仮想シーンを前記非ARデバイスに対してストリーミングする前記ステップは、
前記非ARデバイスを介した前記第1ユーザの選択に応じて、360ビデオおよび2Dビデオのうち少なくとも1つをストリーミングするステップ、
を含む、請求項1に記載の方法。
【請求項4】
前記レンダリングされた仮想シーンは、前記非ARデバイスとは別のクラウドデバイスで生成される、
請求項1に記載の方法。
【請求項5】
前記クラウドデバイスは、前記ビデオデータに基づいてARレンダリングを実行し、かつ、前記レンダリングされた仮想シーンを前記非ARデバイスに提供する、
請求項4に記載の方法。
【請求項6】
前記レンダリングされた仮想シーンは、前記第1ルームにおける位置に仮想的にオーバーレイされた前記第2ユーザを含む、
請求項5に記載の方法。
【請求項7】
前記第2ユーザが前記第1ルームにおいて仮想的にオーバーレイされる前記位置は、前記非ARデバイスおよび前記クラウドデバイスのうち少なくとも1つが、前記レンダリングされた仮想シーンのストリーミングの最中に前記第2ユーザをオーバーレイするための前記第1ルームにおける専用位置であると決定した、前記第1ルームにおける位置である、
請求項6に記載の方法。
【請求項8】
前記クラウドデバイスは、さらに、
前記第1ルームにおいて前記非ARデバイスを移動している前記第1ユーザを介して、前記非ARデバイスのビュー切替に基づいて、更新されたシーン情報を前記非ARデバイスに提供する、
請求項5に記載の方法。
【請求項9】
前記第1ルームからの音声および前記第2ルームからの音声が、混合され、かつ、前記レンダリングされた仮想シーンと共に前記非ARデバイスに提供される、
請求項1に記載の方法。
【請求項10】
前記ARデバイスの前記第2ユーザは、AR環境において前記ARシーンを視聴し、
一方で、前記非ARデバイスの前記第1ユーザは、前記ARシーン記述に従って、前記非AR環境において前記ARシーンを視聴する、
請求項1に記載の方法。
【請求項11】
拡張現実(AR)ビデオストリーミングのための装置であって、
コンピュータプログラムコードを保管するように構成されている、少なくとも1つのメモリと、
前記コンピュータプログラムコードにアクセスし、かつ、前記コンピュータプログラムコードによって指示されたように動作する、ように構成されている、少なくとも1つのプロセッサと、を含み、
前記コンピュータプログラムコードは、
前記少なくとも1つのプロセッサに、非ARデバイスおよびARデバイスから、それぞれに、ビデオデータを獲得させるように構成されており、前記非ARデバイスは、第1ルームにおける第1ユーザによって使用され、かつ、前記ARデバイスは、前記第1ルームとは別の第2ルームにおける第2ユーザによって装着される、獲得コードと、
前記少なくとも1つのプロセッサに、ARシーンをレンダリングしない前記非ARデバイスから、ARシーン記述を獲得させるように構成されている、さらなる獲得コードと、
前記非ARデバイスから獲得された前記ARシーン記述を解析すること、および、レンダリングすることによって、クラウドデバイスによる仮想シーンを生成することと、
前記少なくとも1つのプロセッサに、前記非ARデバイスから獲得したARシーン記述に基づいて、前記第1ルームにおけるARシーン内で前記第2ユーザが表示される位置に対する前記非ARデバイスの向きを決定させるように構成されている、決定コードと、
前記少なくとも1つのプロセッサに、前記向きの決定に基づいて、前記レンダリングされた仮想シーンを非ARデバイスに対してストリーミングさせるように構成されている、ストリーミングコードと、
を含む、装置。
【請求項12】
前記ARシーンにおける前記第2ユーザの表示すべき位置は、前記非ARデバイスを介した前記第1ユーザのビュー選択に基づいて、決定される、
請求項11に記載の装置。
【請求項13】
前記レンダリングされた仮想シーンを前記非ARデバイスに対してストリーミングすることは、
前記非ARデバイスを介した前記第1ユーザの選択に応じて、360ビデオおよび2Dビデオのうちの少なくとも1つをストリーミングすること、を含む、
請求項11に記載の装置。
【請求項14】
前記レンダリングされた仮想シーンは、前記非ARデバイスとは別のクラウドデバイスで生成される、
請求項11に記載の装置。
【請求項15】
前記クラウドデバイスは、前記ビデオデータに基づいてARレンダリングを実行し、かつ、前記レンダリングされた仮想シーンを前記非ARデバイスに提供する、
請求項14に記載の装置。
【請求項16】
前記レンダリングされた仮想シーンは、前記第1ルームにおける位置に仮想的にオーバーレイされた前記第2ユーザを含む、
請求項15に記載の装置。
【請求項17】
前記第2ユーザが前記第1ルームにおいて仮想的にオーバーレイされる前記位置は、前記非ARデバイスおよび前記クラウドデバイスのうち少なくとも1つが、前記レンダリングされた仮想シーンのストリーミングの最中に前記第2ユーザをオーバーレイするための前記第1ルームにおける専用位置であると決定した、前記第1ルームにおける位置である、
請求項16に記載の装置。
【請求項18】
前記クラウドデバイスは、さらに、
前記第1ルームにおいて前記非ARデバイスを移動している前記第1ユーザを介して、前記非ARデバイスのビュー切替に基づいて、更新されたシーン情報を前記非ARデバイスに提供する、
請求項15に記載の装置。
【請求項19】
前記第1ルームからの音声および前記第2ルームからの音声が、混合され、かつ、前記レンダリングされた仮想シーンと共に前記非ARデバイスに提供される、
請求項11に記載の装置。
【請求項20】
コンピュータで実行可能な複数の命令を含むコンピュータプログラムあって、前記命令が実行されると、前記コンピュータにプロセスを実施させ、
前記プロセスは、
非ARデバイスおよびARデバイスから、それぞれに、ビデオデータを獲得するステップであり、
前記非ARデバイスは、第1ルームにおける第1ユーザによって使用され、かつ、
前記ARデバイスは、前記第1ルームとは別の第2ルームにおける第2ユーザによって装着される、
ステップと、
ARシーンをレンダリングしない前記非ARデバイスから、ARシーン記述を獲得するステップと、
前記非ARデバイスから獲得された前記ARシーン記述を解析すること、および、レンダリングすることによって、クラウドデバイスによる仮想シーンを生成するステップと、
前記非ARデバイスから獲得したARシーン記述に基づいて、前記第1ルームにおけるARシーン内で前記第2ユーザが表示される位置に対する前記非ARデバイスの向きを決定するステップと、
前記向きの決定に基づいて、前記レンダリングされた仮想シーンを非ARデバイスに対してストリーミングするステップと、
を含む、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、拡張現実(AR)デバイスを用いて仮想会話セッションを提供することに向けられている。そこでは、各参加者は、彼らのローカル空間における他の全ての参加者を見るが、そのローカル空間における参加者の配置は他の参加者と同じである。すなわち、例示的な実施形態に従って、人々は、まるで彼ら全てが平凡であり、かつ、同じまたは類似の配向であるかのように、同じ構成で座っているか/立っている/等である。
【0002】
関連出願への相互参照
本出願は、2022年2月7日に出願された米国仮特許出願US63/307,534および2022年12月8日に出願された米国仮特許出願US18/077,672について優先権を主張するものであり、その内容は、ここにおいて、その全体が引用により明示的に組み込まれている。
【背景技術】
【0003】
ARストリーミングデバイスが会議に他の参加者のイメージを提供する場合でさえも、非ARデバイスが360ビデオまたは2Dビデオ機能を有していても、非ARデバイスは、ARビデオ会議に参加できないことがある。
【発明の概要】
【0004】
1つ以上の異なる技術的問題に対処するために、この開示は、ネットワークオーバーヘッドおよびサーバ計算オーバーヘッドを低減するための技術的ソリューションを提供し、一方で、解決された要素に様々な操作を適用するオプションを提供して、その結果、これらの操作を使用する際に、それらの実用性および技術的シグナリング特徴の一部が改善され得る。
【0005】
コンピュータプログラムコードを保管するように構成されたメモリ、および、コンピュータプログラムコードにアクセスし、かつ、コンピュータプログラムコードによって指示されるように動作するように構成された1つ以上のプロセッサ、を含む方法および装置が含まれる。本コンピュータプログラムコードは、少なくとも1つのプロセッサに、非ARデバイスおよびARデバイスから、それぞれに、ビデオデータを獲得させるように構成された獲得コードであり、前記非ARデバイスは、第1ルームにおける第1ユーザによって使用され、かつ、前記ARデバイスは、前記第1ルームとは別の第2ルームにおける第2ユーザによって装着されるものと、少なくとも1つのプロセッサに、ARシーンをレンダリングしない前記非ARデバイスから、ARシーン記述を獲得させるように構成された獲得コードと、少なくとも1つのプロセッサに、前記非ARデバイスから獲得された前記シーン記述を解析すること、および、レンダリングすることによって、クラウドデバイスによる仮想シーンを生成させるように構成された生成コードと、少なくとも1つのプロセッサに、前記非ARデバイスから獲得したARシーン記述に基づいて、前記第1ルームにおけるARシーン内で前記第2ユーザが表示される位置に対する前記非ARデバイスの向きを決定させるように構成された獲得コードと、少なくとも1つのプロセッサに、前記向きの決定に基づいて、前記レンダリングされた仮想シーンを非ARデバイスに対してストリーミングさせるように構成されたストリーミングコードと、を含む。例示的な実施形態に従って、非ARデバイスは、例示的な実施形態に従った、ラップトップ、スマートTV、スマートフォン、等といった、ARシーンをレンダリングするように構成されていないデバイスであってよく、そして、ARデバイスは、ARシーンをレンダリングするように構成されたデバイスであってよく、かつ、ガラスタイプのAR/複合現実デバイスなどを含み得る。
【0006】
例示的な実施形態に従って、ARシーンにおける第2ユーザが表示されるべき位置は、非ARデバイスを介した第1ユーザのビュー選択に基づいて決定される。
【0007】
例示的な実施形態に従って、シーン情報を非ARデバイスに対してストリーミングすることは、非ARデバイスを介した第1ユーザの選択に応じて、360ビデオおよび2Dビデオのうち少なくとも1つをストリーミングすること、を含む。
【0008】
例示的な実施形態に従って、シーン情報は、非ARデバイスとは別のクラウドデバイスで生成される。
【0009】
例示的な実施形態に従って、クラウドデバイスは、ビデオデータに基づいてARレンダリングを実行し、かつ、シーン情報を非ARデバイスに提供する。
【0010】
例示的な実施形態に従って、シーン情報は、第1ルームにおける位置に仮想的にオーバーレイされた第2ユーザを含む。
【0011】
例示的な実施形態に従って、第2ユーザが第1ルームにおいて仮想的にオーバーレイされる位置は、非ARデバイスおよびクラウドデバイスのうち少なくとも1つが、シーン情報のストリーミングの最中に第2ユーザをオーバーレイするための第1ルームにおける専用位置であると決定した、第1ルームにおける位置である。
【0012】
例示的な実施形態に従って、ラウドデバイスは、さらに、第1ルームにおいて非ARデバイスを移動している第1ユーザを介して、非ARデバイスのビュー切替に基づいて、更新されたシーン情報を非ARデバイスに提供する。
【0013】
例示的な実施形態に従って、第1ルームからの音声および第2ルームからの音声が、混合され、かつ、シーン情報と共に非ARデバイスに提供される。
【0014】
例示的な実施形態に従って、ARデバイスの第2ユーザは、AR環境においてシーンを視聴し、一方で、非ARデバイスの第1ユーザは、シーン記述に従って、非AR環境においてシーンを視聴する。
【図面の簡単な説明】
【0015】
開示された技術的事項(subject matter)のさらなる特徴、性質、および種々の利点が、以下の詳細な説明および添付図面からより明らかになるだろう。
【
図1】
図1は、実施形態に従った、単純化された概略図である。
【
図2】
図2は、実施形態に従った、単純化された概略図である。
【
図3】
図3は、実施形態に従った、デコーダに関する単純化されたブロック図である。
【
図4】
図4は、実施形態に従った、エンコーダに関する簡略化されたブロック図である。
【
図5】
図5は、実施形態に従った、単純化されたブロック図である。
【
図6】
図6は、実施形態に従った、単純化されたブロック図である。
【
図7】
図7は、実施形態に従った、単純化されたブロック図である。
【
図8】
図8は、実施形態に従った、単純化されたブロック図である。
【
図9】
図9は、実施形態に従った、単純化されたブロック図である。
【
図10】
図10は、実施形態に従った、単純化された図である。
【
図11】
図11は、実施形態に従った、単純化されたブロック図である。
【
図12】
図12は、実施形態に従った、単純化されたブロック図である。
【
図13】
図13は、実施形態に従った、単純化されたブロックおよびタイミング図である。
【発明を実施するための形態】
【0016】
以下に説明する提案された機能は、個別に使用されてよく、または、任意の順序で組み合わせて使用されてよい。さらに、実施形態は、処理回路(例えば、1つ以上のプロセッサまたは1つ以上の集積回路)によって実施されてよい。一つの例において、1つ以上のプロセッサは、非一時的なコンピュータ可読媒体に保管されたプログラムを実行する。
【0017】
図1は、本開示の一つの実施形態に従った通信システム100の単純化されたブロック図を示している。通信システム100は、ネットワーク105を介して相互接続された少なくとも2つの端末102および103を含み得る。データの単方向伝送(unidirectional transmission)のために、第1端末103は、ネットワーク105を介して他の端末102に伝送するためにローカル位置においてビデオデータをコード化(code)することができる。第2端末102は、ネットワーク105から他の端末のコード化ビデオデータ(coded video data)を受信し、コード化データを復号(decode)して、回復されたビデオデータを表示することができる。単方向データ伝送は、メディアサービスアプリケーション、等において一般的であり得る。
【0018】
図1は、例えば、ビデオ会議の最中に発生し得るコード化ビデオの双方向伝送をサポートするために提供される端末101および104の第2ペアを示している。データの双方向伝送のために、各端末101および104は、ネットワーク105を介して他の端末へ伝送するためにローカル位置においてキャプチャされたビデオデータをコード化することができる。各端末101および104は、また、他方の端末によって送信されたコード化ビデオデータを受信することができ、コード化データを復号し、そして、回復されたビデオデータをローカル表示装置に表示することができる。
【0019】
図1において、端末101、102、103、および104は、サーバ、パーソナルコンピュータ、およびスマートフォンとして示されてよいが、本開示の原理は、そのように限定されるものではない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、及び/又は、専用のビデオ会議装置に適用される。ネットワーク105は、例えば、有線及び/又は無線通信ネットワークを含む、端末101、102、103、および104の間でコード化ビデオデータを伝達する任意の数のネットワークを表している。通信ネットワーク105は、回線交換及び/又はパケット交換チャネルにおけるデータを交換することができる。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、及び/又は、インターネットを含む。本説明の目的のために、ネットワーク105のアーキテクチャおよびトポロジは、ここにおいて以下で説明されない限り、本開示の動作にとって重要ではない。
【0020】
図2は、開示された技術的事項に関する一つの応用例として、ストリーミング環境におけるビデオエンコーダおよびデコーダの配置を示している。開示される技術的事項は、例えば、ビデオ会議、デジタルTV、CD、DVD、メモリスティック、等を含むデジタルメディアに圧縮ビデオの保管すること、などを含む、他のビデオ対応アプリケーション(video enabled application)に対して等しく適用可能であり得る。
【0021】
ストリーミングシステムは、例えば、非圧縮ビデオサンプルストリーム213を生成する、ビデオソース201、例えば、デジタルカメラを含み得る、キャプチャサブシステム203を含み得る。そのサンプルストリーム213は、エンコーディングされた(encoded)ビデオビットストリームと比較されたときに、高データ量として強調されてよく、そして、カメラ201に結合されたエンコーダ202によって処理することができる。エンコーダ202は、以下で、より詳細に説明されるように、開示される技術的事項の態様を可能にし、または、実施するためのハードウェア、ソフトウェア、または、それらの組み合わせを含み得る。エンコーディングされたビデオビットストリーム204は、サンプルストリームと比較されたときに、低データ量として強調されてよく、将来の使用のためにストリーミングサーバ205上に保管することができる。1つ以上のストリーミングクライアント212および207は、エンコーディングされたビデオビットストリーム204のコピー208および206を検索(retrieve)するために、ストリーミングサーバ205にアクセスすることができる。クライアント212は、ビデオデコーダ211を含むことができ、それは、エンコーディングされたビデオビットストリーム208の着信コピーを復号し、そして、ディスプレイ209または他のレンダリング装置(図示なし)上にレンダリングされ得る、発信(outgoing)ビデオサンプルストリーム210を生成する。いくつかのストリーミングシステムにおいて、ビデオビットストリーム204、206、および208は、所定のビデオコーディング/圧縮標準に従って、エンコーディングすることができる。これらの標準の例は、上述されており、そして、さらに、ここにおいて説明される。
【0022】
、
図3は、本発明の一つの実施形態に従ったビデオデコーダ300の機能ブロック図である。
【0023】
受信器302は、デコーダ300によって復号される1つ以上のコーデッ(codec)クビデオシーケンスを受信することができ、同一または別の実施形態においては、一度に1つのコード化ビデオシーケンスであり、ここで、各コード化ビデオシーケンスのデコーディングは、他のコード化ビデオシーケンスから独立している。コード化ビデオシーケンスは、チャネル301から受信されてよく、それは、コード化ビデオデータを保管するストレージ装置へのハードウェア/ソフトウェアリンクであり得る。受信器302は、エンコーディングされたビデオデータを、他のデータ、例えば、コード化オーディオデータ及び/又は補助的なデータストリームと共に受信することができ、それらそれぞれが使用しているエンティティ(図示なし)に転送されてよい。受信器302は、コード化ビデオシーケンスを他のデータから分離することができる。ネットワークジッタに対抗(combat)するために、バッファメモリ303は、受信器302とエントロピーデコーダ/パーサ304(以下、「パーサ(“parser”)」という)との間に結合されている。受信器302が、十分な帯域幅および可制御性の保管/転送装置から、または、アイソクロナス(isosychronous)ネットワークから、データを受信している場合、バッファ303は、必要でないか、または、小さくすることができる。インターネットといったベストエフォートパケットネットワーク上で使用するためには、バッファ303が必要とされてよく、それは、比較的に大きくすることができ、そして、有利なことに適応サイズとすることができる。
【0024】
ビデオデコーダ300は、エントロピーコード化ビデオシーケンスからシンボル313を再構成するためのパーサ304を含み得る。これらのシンボルのカテゴリは、デコーダ300の動作を管理するために使用される情報、および、デコーダの不可欠な部分ではないが、それに結合することができる、ディスプレイ312といったレンダリング装置を制御するための潜在的な情報を含んでいる。レンダリング装置のための制御情報は、補足強化情報(Supplementary Enhancement Information、SEI message)、または、ビデオユーザビリティ情報パラメータセットフラグメント(図示なし)の形態であり得る。パーサ304は、受信したコード化ビデオシーケンスを解析/エントロピー復号化(entropy-decode)することができる。コード化ビデオシーケンスのコーディングは、ビデオコーディング技術または標準に従うことができ、そして、可変長コーディング、ハフマン(Huffman)コーディング、コンテキスト感度を伴うか又は伴わない算術コーディング、などを含む、当業者にとって周知の原理に従うことができる。パーサ304は、グループに対応する少なくとも1つのパラメータに基づいて、ビデオデコーダ内のピクセルのサブグループの少なくとも1つに対するサブグループパラメータのセットを、コード化ビデオシーケンスから、抽出することができる。サブグループは、ピクチャグループ(GOP)、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット(CU)、ブロック、変換ユニット(TU)、予測ユニット(PU)、などを含み得る。エントロピーデコーダ/パーサは、また、コード化ビデオシーケンスから、変換係数、量子化パラメータ値、動きベクトル、等といった、情報も抽出することができる。
【0025】
パーサ304は、シンボル313を生成するように、バッファ303から受信されたビデオシーケンスに対してエントロピー復号化/解析演算を実行することができる。パーサ304は、エンコーディングされたデータを受信し、そして、特定のシンボル313を選択的に復号することができる。さらに、パーサ304は、特定のシンボル313が、動き補償予測ユニット306、スケーラ/逆変換ユニット305、イントラ予測ユニット307、または、ループフィルタ311のいずれに提供されるべきかを決定することができる。
【0026】
シンボル313の再構成は、コード化ビデオピクチャ、または、その部分のタイプ(インターおよびイントラピクチャ、インターおよびイントラブロック、といったもの)、および、他の要因に応じて、複数の異なるユニットを含み得る。どのユニットが、そして、どのように関与するかは、パーサ304によってコード化ビデオシーケンスから解析される、サブグループ制御情報によって制御することができる。パーサ304と以下の複数ユニットとの間のそういったサブグループ制御情報のフローは、明確化のために図示されていない。
【0027】
既に説明した機能ブロック以外に、デコーダ300は、以下で説明されるように、概念的には、いくつかの機能ユニットへと細分することができる。商業的制約の下で動作する実際の実装において、これらのユニットの多くは、互いに密接に相互作用し、そして、少なくとも部分的に、互いに統合することができる。しかしながら、開示された技術的事項を説明する目的のためには、以下の機能ユニットへの概念的な細分化(subdivision)が適切である。
【0028】
第1ユニットは、スケーラ/逆変換ユニット305である。スケーラ/逆変換ユニット305は、量子化された変換係数、並びに、どの変換を使用すべきか、ブロックサイズ、量子化ファクタ、量子化スケーリングマトリクス、等を含む、制御情報を、パーサ304からシンボル313として受け取る。サンプル値を含むブロックを出力することができ、それは、アグリゲータ310へと入力され得る。
【0029】
場合によっては、スケーラ/逆変換305の出力サンプルは、イントラコード化ブロック、すなわち、以前に再構成されたピクチャからの予測情報を使用していないが、現在ピクチャの以前に再構成された部分からの予測情報を使用することができるブロック、に関係することができる。そうした予測情報は、イントラピクチャ予測ユニット307によって提供され得る。場合によっては、イントラピクチャ予測ユニット307は、現在(部分的に再構成された)ピクチャ309からフェッチされた周辺の既に再構成されている情報を使用して、再構成下のブロックと同じサイズおよび形状のブロックを生成する。アグリゲータ310は、場合によっては、サンプル単位ごとに、イントラ予測ユニット307が生成した予測情報を、スケーラ/逆変換ユニット305によって提供されるように、出力サンプル情報に加算する。
【0030】
他の場合において、スケーラ/逆変換ユニット305の出力サンプルは、インターコード化され、かつ、潜在的に動き補償されたブロックに関係することができる。そうした場合に、動き補償予測ユニット306は、予測に使用されるサンプルをフェッチするために、参照ピクチャメモリ308にアクセスすることができる。ブロックに関するシンボル313に従って、フェッチされたサンプルを動き補償した後で、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ310によってスケーラ/逆変換ユニットの出力に追加され得る(この場合、残余(residual)サンプルまたは残余信号と呼ばれる)。動き補償ユニットが予測サンプルをフェッチする、参照ピクチャメモリ形式内のアドレスは、動きベクトルによって制御することができる。動きベクトルは、例えば、X、Y、および、参照ピクチャ成分を有することができる、シンボル313の形式で、動き補償ユニットに利用可能である。動き補償は、また、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリからフェッチされたサンプル値の補間、動きベクトル予測機構、等も含み得る。
【0031】
アグリゲータ310の出力サンプルは、ループフィルタユニット311において様々なループフィルタリング技術に従うことができる。ビデオ圧縮技術は、コード化ビデオビットストリームに含まれ、かつ、パーサ304からのシンボル313としてループフィルタユニット311に利用可能にされるパラメータによって制御される、インループフィルタ技術を含み得るが、コード化ピクチャまたはコード化ビデオシーケンスの(デコーディング順序で)の以前部分のデコーディングの最中に獲得されたメタ情報にも応答することができ、同様に、以前に再構成され、かつ、ループフィルタ処理されたサンプル値に応答することもできる。
【0032】
ループフィルタユニット311の出力は、レンダリング装置であり得る、ディスプレイ312に出力することができ、同様に、将来のイントラピクチャ予測で使用するために参照ピクチャメモリ557に保管することができる、サンプルストリームであり得る。
【0033】
所定のコード化ピクチャは、一旦完全に再構成されると、将来の予測のための参照ピクチャとして使用することができる。一旦、コード化ピクチャが完全に再構成され、かつ、コード化ピクチャが(例えば、パーサ304によって)参照ピクチャとして識別されると、現在の参照ピクチャ309は、参照ピクチャバッファ308の一部になることができ、そして、新しい現在ピクチャメモリが、後に続くのコード化ピクチャの再構成を始める前に再割り当てされ得る。
【0034】
ビデオデコーダ300は、ITU-TRec.H.265といった、標準において文書化され得る既定のビデオ圧縮技術に従って、デコーディング動作を実行することができる。コード化ビデオシーケンスは、ビデオ圧縮技術文書または標準、および、特には、その中のプロファイル文書において規定された、ビデオ圧縮技術または標準のシンタックスに従うという意味で、使用されているビデオ圧縮技術または標準によって規定されたシンタックスに従うことができる。また、コンプライアンスに必要なのは、コード化ビデオシーケンスの複雑さが、ビデオ圧縮技術または標準のレベルによって定義された範囲内にあることである。場合によっては、レベルが、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート(例えば、メガサンプル毎秒で測定される)、最大参照ピクチャサイズ、などを制限する。レベルによって設定された制限は、場合によっては、コード化ビデオシーケンスにおいて信号化される仮想参照デコーダ(Hypothetical Reference Decoder、HRD)仕様、および、HRDバッファ管理のためのメタデータを通じて、さらに制限することができる。
【0035】
一つの実施形態において、受信器302は、コード化ビデオと共に追加的な(冗長な)データを受信することができる。追加データは、コード化ビデオシーケンスの一部として含まれてよい。追加データは、データを適切にデコーディングするため、かつ/あるいは、元のビデオデータをより正確に再構成するために、ビデオデコーダ300によって使用され得る。追加データは、例えば、一時的、空間的、または、信号対雑音比(SNR)強化層、冗長スライス、冗長ピクチャ、前方誤り訂正符号、などの形態であり得る。
【0036】
図4は、本開示の一つの実施形態に従った、ビデオエンコーダ400の機能ブロック図であり得る。
【0037】
エンコーダ400は、エンコーダ400によってコード化されるビデオピクチャをキャプチャし得る、ビデオソース401(エンコーダの一部ではない)からビデオサンプルを受信することができる。
【0038】
ビデオソース401は、任意の適切なビット深度(例えば、8ビット、10ビット、12ビット、…)、任意の色空間(例えば、BT.601 Y CrCB、RGB、…)、および、任意の適切なサンプリング構造(例えば、Y CrCb 4:2:0、Y CrCb 4:4:4)であり得る、デジタルビデオサンプルストリームの形態で、エンコーダ(303)によってコード化されるソースビデオシーケンスを提供することができる。メディアサービスシステムにおいて、ビデオソース401は、前もって準備されたビデオを保管しているストレージ装置であり得る。ビデオ会議システムにおいて、ビデオソース401は、ビデオシーケンスとしてローカルピクチャ情報をキャプチャするカメラであり得る。ビデオデータは、連続して鑑賞されるときに、動きを伝える複数の個々のピクチャとして提供され得る。ピクチャ自体は、ピクセルの空間アレイとして構成されてよく、ここで、各ピクセルは、使用中のサンプリング構造、色空間、等に応じて、1つ以上のサンプルを含み得る。当業者であれば、ピクセルとサンプルとの間の関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てている。
【0039】
一つの実施形態に従って、エンコーダ400は、ソースビデオシーケンスのピクチャを、リアルタイムで、または、アプリケーションによって要求される他の任意の時間制約の下で、コード化ビデオシーケンス410へとコード化し、かつ、圧縮することができる。適切なコード化速度を実施することは、コントローラ402の1つの機能である。コントローラは、後述するように、他の機能ユニットを制御し、そして、これらのユニットに機能的に結合されている。結合は、明瞭にするために、図示されていない。コントローラによって設定されるパラメータは、レート制御関連パラメータ(ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値、…)、ピクチャサイズ、ピクチャグループ(group of pictures、GOP)レイアウト、最大動きベクトル探索範囲、などを含み得る。当業者であれば、コントローラ402の他の機能を、所定のシステム設計のために最適化されたビデオエンコーダ400に関し得るものとして、容易に特定することができる。
【0040】
いくつかのビデオエンコーダは、当業者が「コーディングループ(“coding loop”)」として容易に認識するように動作する。過度に単純化された説明として、コーディングループは、エンコーダ(例えば、ソースコーダ403)(コード化される入力ピクチャおよび参照ピクチャに基づいてシンボルを作成する責任を負う)のエンコーディング化部分、および、(リモート)デコーダも、また、作成するであろう、サンプルデータを作成するためにシンボルを再構成する、エンコーダ400に組み込まれた(ローカル)デコーダ406(開示された技術的事項において考慮されるビデオ圧縮技術において、シンボルとコード化ビデオビットストリームとの間のいかなる圧縮も可逆(lossless)であるため)から構成することができる。再構成されたサンプルストリームは、参照ピクチャメモリ405に対する入力である。シンボルストリームのデコーディングは、デコーダの場所(ローカルまたはリモート)とは無関係にビット正確(bit-exact)な結果をもたらすので、参照ピクチャバッファの内容も、また、ローカルエンコーダとリモートエンコーダとの間でビット正確である。別の言葉で言えば、エンコーダの予測部分は、デコーディングの最中に予測を使用するときにデコーダが「見る(“see”)」であろうサンプル値と正確に同一のサンプル値を、参照ピクチャサンプルとして「見る」。参照ピクチャ共時性(synchronicity)(および、例えばチャネルエラーのせいで、共時性を維持できない場合に、結果として生じるドリフト)のこの基本原理は、当業者にとって周知である。
【0041】
「ローカル(“local”)」デコーダ406の動作は、
図3に関連して上記で既に詳細に説明した「リモート(“remote”)」デコーダ300の動作と同一である。しかしながら、また、簡単に
図4も参照すると、シンボルが利用可能であり、かつ、エントロピーコーダ(coder)408およびパーサ304によるコード化ビデオシーケンスへのシンボルのエンコーディング/デコーディングが可逆であり得るので、チャネル301、受信器302、バッファ303、および、パーサ304を含む、デコーダ300のエントロピー復号化部分は、ローカルデコーダ406において完全には実装されなくてよい。
【0042】
この時点で行うことができる観察は、デコーダに存在する解析/エントロピー復号化以外の任意のデコーダ技術も、また、対応するエンコーダにおいて、実質的に同一の機能形態で、存在する必要があるということである。エンコーダ技術の説明は、包括的に説明されたデコーダ技術の逆であるため、簡略化することができる。所定の領域においてのみ、より詳細な説明が要求され、そして、以下で提供されている。
【0043】
その動作の一部として、ソースコーダ403は、動き補償予測コーディングを実行することができる。それは、「参照フレーム(“reference frames”)」として指定されたビデオシーケンスからの1つ以上の以前にコード化されたフレームを参照して、入力フレームを予測的にコード化する。このようにして、コーディングエンジン407は、入力フレームのピクセルブロックと、入力フレームに対する予測参照として選択され得る、参照フレームのピクセルブロックとの間の差異をコード化する。
【0044】
ローカルビデオデコーダ406は、ソースコーダ403によって生成されたシンボルに基づいて、参照フレームとして指定され得るフレームのコード化ビデオデータをデコーディングすることができる。コーディングエンジン407の動作は、有利なことに、非可逆プロセスであってよい。コード化ビデオデータがビデオデコーダ(
図4には示されていない)でデコーディングされ得る場合、再構成されたビデオシーケンスは、典型的には、いくらかのエラーを伴うソースビデオシーケンスのレプリカであり得る。ローカルビデオデコーダ406は、参照フレーム上でビデオデコーダによって実行され得るデコーディングプロセスを複製(replicate)し、そして、再構成された参照フレームが参照ピクチャメモリ405に保管されるようにし得る。それは、例えば、キャッシュであり得る。このようにして、エンコーダ400は、遠端(far-end)ビデオデコーダによって獲得される(伝送エラーがない)、再構成参照フレームと共通の内容を有する、再構成参照フレームのコピーをローカルに保管することができる。
【0045】
予測器404は、コーディングエンジン407について予測検索を実行することができる。すなわち、コード化される新しいフレームについて、予測器404は、参照ピクチャメモリ405を、サンプルデータ(候補参照ピクセルブロックとして)、または、新しいピクチャに対する適切な予測基準として機能し得る、参照ピクチャ動きベクトル、ブロック形状、等といった、所定のメタデータについて検索することができる。予測器404は、適切な予測基準を見つけるために、サンプルのブロック毎ピクセル(block-by-pixel)ブロックベースで動作することができる。場合によっては、予測器404によって獲得された検索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ405に保管された複数の参照ピクチャから引き出された予測参照を有し得る。
【0046】
コントローラ402は、例えば、ビデオデータをエンコーディングするために使用されるパラメータおよびサブグループパラメータの設定を含む、ビデオコーダ403のコーディング動作を管理することができる。
【0047】
全ての上述した機能ユニットの出力は、エントロピーコーダ408においてエントロピーコーディングされ得る。エントロピーコーダは、例えばハフマンコーディング、可変長コーディング、算術コーディング、などとして当業者に知られている技術に従って、シンボルを可逆(loss-less)圧縮することによって、様々な機能ユニットにより生成されたシンボルを、コード化ビデオシーケンスへと変換する。
【0048】
送信器409は、エントロピーコーダ408によって作成されたコード化ビデオシーケンスをバッファリングすることができ、エンコーディングされたビデオデータを保管するであろうストレージ装置へのハードウェア/ソフトウェアリンクであり得る、通信チャネル411を介して、送信のための準備をする。送信器409は、ビデオコーダ403からのコード化ビデオデータを、送信される他のデータ、例えば、コード化オーディオデータ及び/又は補助データストリーム(ソースは図示なし)とマージすることができる。
【0049】
コントローラ402は、エンコーダ400の動作を管理することができる。コーディングの最中に、コントローラ405は、各コード化ピクチャに所定のコード化ピクチャタイプを割り当てることができ、これは、それぞれのピクチャに適用され得るコーディング技術に影響を及ぼすことができる。例えば、ピクチャは、しばしば、以下のフレームタイプのうち1つとして割り当てられてよい。
【0050】
イントラピクチャ(Iピクチャ)は、予測のソースとしてシーケンス内の他のフレームを使用することなく、コーディングおよびデコーディングされ得るものであってよい。いくつかのビデオコーデックは、例えば、独立デコーダリフレッシュピクチャ(Independent Decoder Refresh Pictures)を含む、異なるタイプのイントラピクチャを許容する。当業者であれば、Iピクチャのこれらの変形例、および、それらのそれぞれのアプリケーションと機能を認識している。
【0051】
予測ピクチャ(Pピクチャ)は、各ブロックのサンプル値を予測するために、最大でも1つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用して、コーディングおよびデコーディングされ得るものであってよい。
【0052】
双方向予測ピクチャ(Bi-directionally Predictive Picture、B picture)は、各ブロックのサンプル値を予測するために、最大でも2つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用して、コーディングおよびデコーディングされ得るものであってよい。同様に、複数予測ピクチャ(multiple-predictive pictures)は、単一ブロックの再構成のために、2つ以上の参照ピクチャおよび関連するメタデータを使用することができる。
【0053】
ソースピクチャは、一般に、複数のサンプルブロック(例えば、それぞれ4×4、8×8、4×8、または16×16サンプルのブロック)へと空間的に再分割されてよく、そして、ブロック毎(block-by-block basis)にコード化される。ブロックは、ブロックのそれぞれのピクチャに対して適用されるコーディング割り当てによって決定されるように、他の(既にコード化された)ブロックを参照して予測的にコード化され得る。例えば、Iピクチャのブロックは、非予測的にコード化されてよく、もしくは、それらは同じピクチャの既にコード化されたブロックを参照して予測的にコード化されてもよい(空間予測またはイントラ予測)。Pピクチャのピクセルブロックは、以前にコード化された1つの参照ピクチャを参照して、空間予測を介して、または、時間予測を介して、非予測的にコード化されてよい。Bピクチャのブロックは、以前にコード化された1つまたは2つの参照ピクチャを参照して、空間予測を介して、または、時間予測を介して、非予測的にコード化されてよい。
【0054】
ビデオコーダ400は、ITU-T Rec. H.265といった、所定のビデオコーディング技術または標準に従って、コーディング動作を実行することができる。その動作において、ビデオコーダ400は、入力ビデオシーケンスにおける時間的および空間的冗長性を利用する予測コーディング動作を含む、様々な圧縮動作を実行することができる。コード化ビデオデータは、従って、使用されているビデオコーディング技術または標準によって指定されたシンタックスに従うことができる。
【0055】
一つの実施形態において、送信器409は、エンコーディングされたビデオと共に追加データを送信することができる。ソースコーダ403は、そうしたデータをコード化ビデオシーケンスの一部として含み得る。追加データは、時間/空間/SNR強化層(enhancement layer)、冗長ピクチャおよびスライスといった他の形式の冗長データ、補足強化情報(Supplementary Enhancement Information、SEI)メッセージ、視覚的有用性情報(Visual Usability Information、VUI)パラメータセットフラグメント、などを含み得る。
【0056】
図5は、例示的な実施形態に従った、スタンドアロンAR(STAR)デバイスについてエンドツーエンド(end-to-end)アーキテクチャの実施例500であり、5G STARユーザ機器(UE)受信器600、ネットワーク/クラウド501、および5GUE(送信者)700を示している。
図6は、例示的な実施形態に従った、STARUE受信器600のための1つ以上の構成に係るさらなる詳細な実施例600であり、そして、
図7は、例示的な実施形態に従った、5G UE送信器700のための1つ以上の構成に係るさらなる詳細な実施例700である。3GPP TR26.998は、5Gネットワークにおけるガラスタイプ(glass-type)の拡張現実/混合現実(AR/MR)デバイスに対するサポートを定義している。そして、ここにおける例示的な実施形態に従って、少なくとも2つのデバイスクラスが考慮されている。1)複雑なAR/MRコンテンツをデコーディングおよび再生することが完全に可能なデバイス(スタンドアロンARまたはSTAR)、および、2)より小さな計算リソース及び/又は小さな物理サイズ(従って、バッテリ)を有し、かつ、計算の大部分が、デバイスではなく、5Gエッジサーバ、ネットワーク、またはクラウド上で実行される場合にのみ(エッジ依存ARまたはEDGAR)、そうしたアプリケーションを実行することが可能なデバイス、である。
【0057】
そして、例示的な実施形態に従って、以下で説明されるように、その中で共有されたAR会話体験の全ての参加者がARデバイスを有し、各参加者はARシーンにおいて他の参加者を見る、共有された会話ユースケースを体験することができる。ここで、参加者は、ローカル物理シーンにおけるオーバーレイであり、そのシーンにおける参加者の配置は全ての受信デバイスにおいて一貫しており、例えば、各ローカル空間の人々は互いに対して同じ位置/座席配置を有しており、そして、そうした仮想空間は、同じ空間にいるという感覚を作り出すが、ルームは、それぞれの人が物理的に位置している実際のルームまたは空間であるため、ルームは参加者によって変動する。
【0058】
例えば、
図5-
図7に関して示される例示的な実施形態に従って、ネットワーク/クラウド501上の没入型(immersive)メディア処理機能は、様々なデバイスからアップリンクストリームを受信し、そして、単一の仮想会議室における個々の参加者の配置を定義するシーン記述(scene description)を作成する。シーン記述、並びに、エンコーディングされたメディアストリームが、各受信参加者に対して配信される。受信参加者の5G STAR UE600は、3Dビデオおよびオーディオストリームを受信し、デコーディングし、かつ、処理し、そして、受信したシーン記述、および、そのARランタイムから受信した情報を使用して、それらをレンダリングして、他の全ての参加者を伴う仮想会議室のARシーンを作成する。参加者のための仮想ルームは、彼ら自身の物理スペースに基づいているが、ルーム内の他の全ての参加者の座席/位置の配置は、このセッションにおける他の全ての参加者の仮想ルームと一貫している。
【0059】
例示的な実施形態に従って、また、EDGARデバイスアーキテクチャに関する実施例800を示す
図8も参照する。ここでは、5G EDGAR UE900といった、デバイス自体は、重い処理を行うことができない。従って、受信されたコンテンツについてシーン解析およびメディア解析が、クラウド/エッジ801において実行され、そして、次いで、少数のメディアコンポーネントを伴う単純化されたARシーンが、処理およびレンダリングのためにデバイスに対して配信される。
図9は、例示的な実施形態に従った、5G EDGAR UE900のより詳細な実施例を示している。
【0060】
しかしながら、
図5-
図9の例示的な実施形態に関するような能力を有していても、没入型メディア機能においては、仮にあれば、共通仮想空間シーン記述を構築することに関して1つ以上の技術的問題が存在し得る。そして、以下で説明されるように、そうした実施形態は、没入型メディア処理機能のコンテキストにおいて技術的に改善され、全ての参加者が、ローカルARシーン内で同じ参加者の相対的な配置を体験できるように、全ての参加者に対して提供されるであろうシーン記述を生成する。
【0061】
図10は、ユーザA 10、ユーザB 11、およびユーザT 12が、AR会議室に参加し、かつ、ユーザの1人以上がRデバイスを持たない、実施例1000を示している。示されるように、ユーザA 10は、オフィス1001にいて、様々な数の椅子を伴う会議室内に座っており、そして、ユーザA 10は、その椅子を受け持っている。ユーザB 11は、彼らのリビングルーム1002にいて、ラブシートに座っており、彼のリビングルームには、2人用の1つ以上のカウチ、並びに、椅子およびテーブルといった他の家具も、また、存在している。ユーザT 12は、空港ラウンジ1003で、1つ以上の他のコーヒーテーブルの間でコーヒーテーブルを横切ってベンチを有するベンチにいる。
【0062】
そして、AR環境を見ると、そこでは、オフィス1001において、ユーザA 10のARは、ユーザA 10に対して、ユーザB 11に対応する仮想ユーザB 11v1、および、ユーザT 12に対応する仮想ユーザT 12v1を示し、そして、その結果、仮想ユーザB 11v1および仮想ユーザT 12v1が、オフィス1001において、ユーザA 10と同様に、オフィスの椅子である家具に座っているように、ユーザA 10に対して示されている。そして、実施例1200におけるリビングルーム1202を見ると、その中で、ユーザB 11のARは、ユーザT 12に対応しているが、リビングルーム1202におけるソファに座っている、仮想ユーザT 12v2、および、オフィス1201におけるオフィスチェアではなく、リビングルーム1202における家具に座っているユーザA 10に対応している仮想ユーザA 10v1を示している。また、空港ラウンジ1203も見ると、そこでは、ユーザT 12のARは、ユーザA 10に対応しているが、空港ラウンジ1203のテーブルに座っている、仮想ユーザA 10v2、および、仮想ユーザA 10v2の向かいのテーブルに座っている仮想ユーザB 11v2も示している。そして、これらのオフィス1201、リビングルーム1202、および、空港ラウンジ1203のそれぞれにおいて、各ルームの更新されたシーン記述は、位置/座席配置に関して他のルームと一貫している。例えば、ユーザA 10は、ユーザ11又はその仮想表現に対して相対的に反時計回りに示され、それは、ルーム毎にユーザT 12又はその仮想表現に対して相対的に時計回りに示されている。
【0063】
しかし、AR技術は、ARをサポートしないが、VRまたは2Dビデオを解析することができるデバイスのための仮想空間の作成および使用を組み込むための任意の試みに限定されてきており、そして、ここにおける実施形態は、そうしたデバイスが共有されたAR会話サービスに参加した場合に、ARシーンと一貫性のある仮想シーンを作成するための改善された技術プロシージャを提供する。
【0064】
図11は、例示的な実施形態に従った、非ARデバイス1101、および、クラウド/エッジ1102を伴うエンドツーエンドアーキテクチャに係る実施例1100を示している。
図12は、例示的な非ARデバイス1101に係るさらに詳細なブロック図を示している。
【0065】
図11および
図12に示されるように、非AR UE 1101は、360ビデオまたは2Dビデオをレンダリングすることができるデバイスであるが、いかなるAR機能も有していない。しかしながら、クラウド/エッジ1102上のエッジ機能は、ライブラリから選択された仮想ルームにおける受信シーン、レンダリングシーン、並びに、没入型視覚および音声オブジェクトのARレンダリングが可能である。次いで、ビデオ全体がエンコーディングされ、そして、デコーディングおよびレンダリングのために装置1101に対して配信される。
【0066】
かくして、エッジ/クラウド1102上のAR処理が同じ仮想ルームの複数のビデオを生成することができるといった、マルチビュー機能が存在し得る。異なる角度から、および、異なるビューポートを使用するものである。そして、デバイス1101は、これらのビデオのうちの1つ以上を受信することができ、必要に応じてビデオ間を切り替え、または、所望のビューポート/アングルのみをストリーミングするように、エッジ/クラウド処理に対してコマンドを送信する。
【0067】
また、背景変更する能力も存在し得る。ここで、装置1101上のユーザは、提供されたライブラリから所望のルーム背景を選択することができる。例えば、異なる会議室、または、さらに、リビングルームおよびレイアウトのうち1つである。そして、クラウド/エッジ1102は、選択された背景を使用し、かつ、それに応じて、仮想ルームを作成する。
【0068】
図13は、受信側(receiving)非AR UE 1101に対する没入型AR会話のための例示的なコールフローについて、例示的なタイミング
図1300を示している。説明目的のために、この図では、詳細なコールフローを示すことなく、1つの送信者だけが示されている。
【0069】
ARアプリケーションモジュール21、メディアプレーヤモジュール22、および、メディアアクセス機能モジュール23が示されており、これらは、受信側非AR UE 1101のモジュールであるもの考えられ得る。クラウド/エッジ分割レンダリングモジュール24も、また、示されている。ネットワーククラウド1102それぞれのメディア配信モジュール25およびシーングラフ合成モジュール26も、また、示されている。5G送信者UEモジュール700も、また、示されている。
【0070】
S1-S6は、セッション確立フェーズと考えることができる。ARアプリケーションモジュール21は、S1において、メディアアクセス機能モジュール23に対してセッションの開始を要求することができ、そして、メディアアクセス機能モジュール23は、S2において、クラウド/エッジ分割レンダリングモジュール24に対してセッションの開始を要求することができる。
【0071】
クラウド/エッジ分割レンダリングモジュール24は、S3において、シーングラフ合成モジュール26とのセッション交渉を実施することができ、それは、従って、5G送信者UE700と交渉することができる。成功した場合には、次いでS5において、クラウド/エッジ分割レンダリングモジュールは、メディアアクセス機能モジュール23に確認応答(acknowledgement)を送信することができ、そして、メディアアクセス機能モジュール23は、ARアプリケーションモジュール21に確認応答を送信することができる。
【0072】
その後、S7は、メディアパイプライン構成ステージであると考えることができ、そこでは、メディアアクセス機能モジュール23およびクラウド/エッジ分割レンダリングモジュール24それぞれが、それぞれのパイプラインを構成する。そして、次いで、そのパイプライン構成の後で、s8においてARアプリケーションモジュールからメディアプレーヤモジュール22へ、および、s9においてメディアプレーヤモジュール22からメディアアクセス機能モジュール23へ、並びに、S10においてメディアアクセス機能モジュール23からクラウド/エッジ分割レンダリングモジュール24への信号により、セッションが開始され得る。
【0073】
次いで、S11からS13までのポーズループ(pose loop)ステージが存在し、そこでは、S11において、ポーズデータはメディアプレーヤモジュール22からARアプリケーションモジュール21に提供され、そして、S12において、ARアプリケーションモジュールが、ポーズデータ12をメディアアクセス機能モジュール23に提供し、その後、メディアアクセス機能モジュール23は、ポーズデータをクラウド/エッジ分割レンダリングモジュール24に提供することができる。
【0074】
S14からS16までは、共有体験ストリームステージと考えることができ、そこでは、S14において、5G送信者UE 700が、S14でメディアストリームをメディア配信モジュール25に提供し、そして、S15において、ARデータをシーングラフ合成モジュール26に提供することができる。次いで、シーングラフ合成モジュール25は、受信したARデータに基づいて1つ以上のシーンを合成することができ、そして、S16において、シーンおよびシーン更新をクラウド/エッジ分割レンダリングモジュール24に提供し、そして、また、メディア配信モジュール25は、S17において、メディアストリームをクラウド/エッジ分割レンダリングモジュールに提供することができる。これは、例示的な実施形態に従って、ARシーンをレンダリングしない非ARデバイスからARシーン記述子を獲得すること、および、非ARデバイスから獲得されたシーン記述を解析およびレンダリングすることによりクラウドデバイスによって仮想シーンを生成すること、を含み得る。
【0075】
S18からS19までは、メディアアップリンクステージと考えることができ、そこでは、メディアプレーヤモジュール22が、ローカルユーザからのメディアデータをキャプチャおよび処理し、そして、S18において、そのメディアデータをメディアアクセス機能モジュール23に提供することができる。次いで、メディアアクセスモジュール23は、メディアをエンコーディングし、そして、S19において、メディアストリームをクラウド/エッジ分割レンダリングモジュール24に提供することができる。
【0076】
S19とS20との間は、メディアダウンリンクステージと考えられ、そこでは、クラウド/エッジ分割レンダリングモジュール24が、シーン解析を実施し、そして、ARレンダリングを完了することができる。その後、S20およびS21は、メディアストリームループステージを構成すると考えられる。S20において、クラウド/エッジ分割レンダリングモジュール24は、メディアストリームをメディアアクセス機能モジュール23に提供することができ、メディアアクセス機能モジュールは、次いで、メディアをデコーディングし、そして、S21において、メディアレンダリングをメディアプレーヤ22に提供することができる。
【0077】
例示的な実施形態に従ったそうした機能により、非AR UE 1101は、シースルーディスプレイを有さず、そして、従って、ARシーンを作成することができないけれども、それにもかかわらず、VRまたは2Dビデオをレンダリングすることができるディスプレイを活用することができる。かくして、その没入型メディア処理機能は、共通シーン記述を生成するだけであり、他の参加者およびシーンに対する各参加者の相対位置を記述している。シーン自体は、上述のように、ARシーンとしてレンダリングされる前に、各デバイスにおいてポーズ情報を用いて調整される必要がある。そして、エッジまたはクラウド上のARレンダリングプロセスは、ARシーンを解析し、そして、簡略化されたVR-2Dシーンを作成することができる。
【0078】
例示的な実施形態に従って、この開示は、VRまたは2-dビデオ装置といった、非ARデバイスのためのEDGARデバイスの同様な分割レンダリング処理を使用し、この場合のエッジ/クラウドARレンダリング処理といった特徴は、いかなるARシーンも生成しない。代わりに、所与の背景(会議室といったもの)に対する没入型メディア処理機能から受信したシーン記述を解析およびレンダリングすることによって、仮想シーンを生成し、そして、会議室におけるシーン記述によって記述された場所に各参加者をレンダリングする。
【0079】
また、結果として生じるビデオは、受信する非ARデバイスの能力に応じて、360ビデオまたは2Dビデオとすることができ、そして、結果として生じたビデオが、例示的な実施形態に従って、非ARデバイスから受信した位置情報を考慮して生成される。
【0080】
また、非ARデバイスを有する他の各参加者は、
図10に示されるように、会議室の360/2Dビデオ上に2Dビデオオーバーレイとして追加され、そして、会議室は、
図10に示されるようにバーチャルピクチャがオーバーレイされる家具の1つのように、これらのオーバーレイに使用される専用の領域を有することもできる。
【0081】
また、全ての参加者からのオーディオ信号が、必要に応じて、混合されてよく、ルーム内で音声を搬送する単一チャンネルオーディオを生成する。ビデオは、単一の360ビデオまたは2-Dビデオとしてエンコーディングされ、そして、装置に配信されてよく、そして、任意的に、複数のビデオ(マルチビュー)ソースを生成することができ、それぞれが、例示的な実施形態に従って、異なるビューから同じ仮想会議室をキャプチャし、そして、それらのビューを装置に提供する。
【0082】
さらに、非AR UEデバイス1101は、デバイスディスプレイにおけるオーディオおよびレンダリングと共に、360ビデオ、及び/又は、好みの1つ以上のマルチビュービデオを受信することができ、そして、ユーザは、異なるビュー間を切り替えることができ、または、ビューデバイスを移動または回転させることによって、360ビデオのビューポートを変更し、そして、従って、ビデオを見ながら仮想ルーム内をナビゲートすることができる。
【0083】
上述の技術は、コンピュータ可読命令を使用し、かつ、1つ以上のコンピュータ可読媒体に物理的に保管されたコンピュータソフトウェアとして、または、特定的に構成された1つ以上のハードウェアプロセッサによって、実施することができる。例えば、
図14は、開示された技術的事項に係る所定の実施形態を実施するのに適したコンピュータシステム1400を示している。
【0084】
コンピュータソフトウェアは、任意の適切なマシンコードまたはコンピュータ言語を使用してコード化することができ、アセンブリ、コンパイル、リンクなどのメカニズムに従うことができ、直接的に、または、解釈、マイクロコード実行、等を介して、コンピュータ中央処理装置(CPU)、グラフィック処理装置(GPU)、等によって実行することができる、命令を含むコードを生成する。
【0085】
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム装置、モノのインターネット装置、等を含む、様々なタイプのコンピュータ又はそのコンポーネント上で実行することができる。
【0086】
コンピュータシステム1400のために
図14に示されるコンポーネントは、本質的に例示的なものであり、そして、本開示の実施形態を実施するコンピュータソフトウェアの使用または機能の範囲に関して、なんらの制限を示唆するように意図されたものではない。また、コンポーネントの構成は、コンピュータシステム1400の例示的な実施形態に示されたコンポーネントのいずれか1つまたは組み合わせに関連する依存性または要件を有するものとして解釈されるべきではない。
【0087】
コンピュータシステム1400は、所定のヒューマンインターフェイス入力装置を含み得る。そうしたヒューマンインターフェイス入力装置は、例えば、触覚入力(キーストローク、スワイプ、データグローブ動作、といったもの)、音声入力(音声、拍手、といったもの)、視覚入力(ジェスチャー、といったもの)、嗅覚入力(図示なし)を通じて、1人以上の人間ユーザによる入力に応答することができる。ヒューマンインターフェイス装置は、また、オーディオ(音声、音楽、環境音、といったもの)、イメージ(走査イメージ、静止画像カメラから獲得された写真イメージ、といったもの)、ビデオ(2次元ビデオ、立体ビデオを含む3次元ビデオ、といったもの)など、必ずしも人間による意識入力に直接的には関係しない所定のメディアをキャプチャするために使用することもできる。
【0088】
入力ヒューマンインターフェイス装置は、キーボード1401、マウス1402、トラックパッド1403、タッチスクリーン1410、ジョイスティック1405、マイクロフォン1406、スキャナ1408、カメラ1407のうちの1つ以上(それぞれ1つだけ図示されている)を含み得る。
【0089】
コンピュータシステム1400は、また、所定のヒューマンインターフェイス出力装置を含み得る。そうしたヒューマンインターフェイス出力装置は、例えば、触覚出力、音、光、および、匂い/味を通じて、1人以上の人間ユーザの感覚を刺激することができる。そうしたヒューマンインターフェイス出力装置は、触覚出力装置(例えば、タッチスクリーン1410またはジョイスティック1405による触覚フィードバックであるが、入力装置として機能しない触覚フィードバック装置もあり得る)、音声出力装置(スピーカ1409、ヘッドフォン(図示なし)、といったもの)、視覚出力装置(CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含む、スクリーン1410といったものであり、それぞれがタッチスクリーン入力機能を有し又は有せず、それぞれが触覚フィードバック機能を有し又は有せず-その一部が、ステレオ出力といった手段、すなわち、仮想現実眼鏡(図示なし)、ホログラフィックディスプレイ、およびスモークタンク(図示なし)を介して、2次元視覚出力または3次元以上の出力を出力することができる)、および、プリンタ(図示なし)を含み得る。
【0090】
コンピュータシステム1400は、また、人間がアクセス可能なストレージ装置、および、それらの関連媒体を含み得る。CD/DVD 1411を用いるCD/DVD ROM/RW1420を含む光学媒体といった媒体、または、同様の媒体、サムドライブ(thumb-drive)1422、リムーバブルハードドライブまたはソリッドステートドライブ1423、テープおよびフロッピー(登録商標)ディスク(図示なし)といった従来の磁気媒体、セキュリティドングル(図示なし)等といった専用ROM/ASIC/PLDベースの装置、といったものである。
【0091】
当業者は、また、ここで開示された技術的事項に関連して使用される「コンピュータ可読媒体」という用語は、伝送媒体、搬送波、または、他の一時的信号を包含しないことを理解すべきである。
【0092】
コンピュータシステム1400は、また、1つ以上の通信ネットワーク1498へのインターフェイス1499を含むこともできる。ネットワーク1498は、例えば、無線、有線、光であってよい。ネットワーク1498は、さらに、ローカル、ワイドエリア、メトロポリタン、車両および工業、リアルタイム、遅延耐性、などであり得る。ネットワーク1498の例は、イーサネット(登録商標)といったローカルエリアネットワーク、無線LAN、GSM、3G、4G、5G、LTEなどを含むセルラネットワーク、ケーブルTV、衛星TV、および地上放送TVを含むTV有線または無線のワイドエリアデジタルネットワーク、CANBusを含む車両および産業用、などを含む所定のネットワーク1498は、一般に、所定の汎用データポートまたはペリフェラルバス(1450および1451)に接続される外部ネットワークインターフェイスアダプタ(例えば、コンピュータシステム1400のUSBポート、といったもの)を必要とし、他のものは、一般に、以下で説明されるように、システムバスに接続することによってコンピュータシステム1400のコアへと統合される(例えば、PCコンピュータシステムへのイーサネットインターフェイス、または、スマートフォンコンピュータシステムへのセルラネットワークインターフェイス)。これらのネットワーク1498のいずれかを使用して、コンピュータシステム1400は他のエンティティと通信することができる。そうした通信は、単方向、受信のみ(例えば、放送TV)、単方向送信のみ(例えば、所定のCANバス(CANbus)装置に対するCANバス)、または、双方向であり得る。例えば、ローカルまたはワイドエリアデジタルネットワークを使用する他のコンピュータシステムに対するものである。所定のプロトコルおよびプロトコルスタックは、上述のように、これらのネットワークおよびネットワークインターフェイスそれぞれにおいて使用することができる。
【0093】
前述のヒューマンインターフェイス装置、ヒューマンアクセス可能ストレージ装置、およびネットワークインターフェイスは、コンピュータシステム1400のコア1440に接続することができる。
【0094】
コア1440は、1つ以上の中央処理ユニット(CPU)1441、グラフィックス処理ユニット(GPU)1442、グラフィックスアダプタ1417、フィールドプログラマブルゲートアレイ(FPGA)1443の形態の専用プログラマブル処理ユニット、所定のタスクのためのハードウェアアクセラレータ1444、などを含み得る。これらのデバイスは、リードオンリーメモリ(ROM)1445、ランダムアクセスメモリ1446、非ユーザアクセス可能内蔵ハードドライブ、SSD、等の内蔵大容量ストレージ装置1447と共に、システムバス1448を介して接続することができる。いくつかのコンピュータシステムにおいて、システムバス1448は、追加のCPU、GPU、等による拡張を可能にするための1つ以上の物理的プラグの形態でアクセス可能であり得る。周辺装置は、コアのシステムバス1448に直接的に接続されるか、または、ペリフェラルバス1451を介して接続される。ペリフェラルバスのためのアーキテクチャは、PCI、USB、等を含んでいる。
【0095】
CPU 1441、GPU 1442、FPGA 1443、およびアクセラレータ1444は、組み合わされて、上述のコンピュータコードを構成することができる、所定の命令を実行することができる。そのコンピュータコードは、ROM1445またはRAM1446に保管することができる。遷移データも、また、RAM1446に保管することができ、一方で、永久データは、例えば、内蔵大容量ストレージ装置1447に保管することができる。1つ以上のCPU 1441、GPU 1442、大容量ストレージ装置1447、ROM 1445、RAM 1446、などに密接に関連付けることができる、キャッシュメモリの使用を通じて、いずれかのメモリデバイスへの高速ストレージおよび検索を可能にすることができる。
【0096】
コンピュータ可読媒体は、その上に、様々なコンピュータ実装される動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであってよく、または、コンピュータソフトウェア技術における当業者にとって周知であり、かつ、利用可能な種類のものであり得る。
【0097】
限定するものではなく一つの例として、コンピュータシステム1400に対応するアーキテクチャ、そして、具体的にはコア1440は、1つ以上の有形の、コンピュータ可読媒体に具現化されたソフトウェアを実行するプロセッサ(CPU、GPU、FPGA、アクセラレータ、等を含む)の結果としての機能を提供することができる。そうしたコンピュータ可読媒体は、上述のようなユーザアクセス可能大容量ストレージ装置、並びに、コア内蔵大容量ストレージ装置1447またはROM 1445といった、非一時的な性質のコア1440に係る所定のストレージ装置に関連付けられた媒体であり得る。本開示の様々な実施形態を実施するソフトウェアは、そうした装置に保管され、そして、コア1440によって実行され得る。コンピュータ可読媒体は、特定の必要性に応じて、1つ以上のメモリデバイスまたはチップを含み得る。ソフトウェアは、コア1440および具体的にはその中のプロセッサ(CPU、GPU、FPGA、等を含む)に、RAM1446に保管されたデータ構造を定義すること、および、ソフトウェアによって定義されたプロセスに従って、そうしたデータ構造を修正することを含む、ここにおいて説明された、特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または、代替として、コンピュータシステムは、ここにおいて説明された特定のプロセスまたは特定のプロセスの特定の部分を実行するソフトウェアの代わりに、もしくは、一緒に動作することができる、ハードウェアに組み込まれ、または、そうでなければ、回路(例えば、アクセラレータ1444)に組み込まれたロジックの結果として、機能性を提供することができる。ソフトウェアへの言及は、必要に応じて、論理を包含することができ、逆もまた同様である。コンピュータ可読媒体への言及は、必要に応じて、実行のためのソフトウェアを保管する回路(集積回路(IC)といったもの)、実行のためのロジックを具体化する回路、またはその両方を包含し得る。本開示は、ハードウェアおよびソフトウェアの任意の適切な組み合わせを包含する。
【0098】
この開示はいくつかの例示的な実施形態を説明してきたが、本開示の範囲内に入る、変更、置換、および種々の代替、等価物が存在している。従って、当業者であれば、ここにおいては明示的に示されておらず、また、説明されていないが、本開示の原理を具体化し、そして、従って、その精神および範囲内にある、多数のシステムおよび方法を考案することができることが理解されるだろう。
【国際調査報告】