(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-03
(54)【発明の名称】複数の参加者に対してネットワーク上に共有の仮想AR会話空間を作成するための装置
(51)【国際特許分類】
H04N 5/93 20060101AFI20240327BHJP
【FI】
H04N5/93
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023565567
(86)(22)【出願日】2022-12-13
(85)【翻訳文提出日】2023-10-25
(86)【国際出願番号】 US2022052668
(87)【国際公開番号】W WO2023149956
(87)【国際公開日】2023-08-10
(32)【優先日】2022-02-07
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-12-08
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】イーラジ・ソダガー
(57)【要約】
1つまたは複数のプロセッサに、ARデバイスからビデオを取得させ、ビデオデータに基づいて、それぞれの物理空間内のオブジェクトに対するARデバイスのユーザの向きを決定させ、向きに基づいた共通シーン記述の生成を生成させ、共通シーン記述に基づいて、ARデバイスのうちの1つが位置する第1の物理空間内のオブジェクトにユーザが仮想的にオーバーレイされるように、ARデバイスのうちの別のARデバイスのユーザを表示するようにARデバイスのうちの少なくとも1つを制御させるように構成されたコンピュータコードを含む方法および装置が含まれる。
【特許請求の範囲】
【請求項1】
拡張現実(AR)ビデオストリーミングのための方法であって、
第1のARデバイスおよび第2のARデバイスからビデオデータを取得するステップであって、前記第1のARデバイスは、第1の物理空間内で第1のユーザによって装着されており、前記第2のARデバイスは、前記第1の物理空間とは別の第2の物理空間内で第2のユーザによって装着されている、ステップと、
前記ビデオデータに基づいて、前記第1の物理空間内の任意のオブジェクトに対する前記第1のユーザの第1の向きを決定するステップと、
前記ビデオデータに基づいて、前記第2の物理空間上の任意のオブジェクトに対する第2のユーザの第2の向きを決定するステップと、
前記第1の向きおよび前記第2の向きを決定することに基づいて、前記第1のARデバイスおよび前記第2のARデバイスの両方についての共通シーン記述を生成するステップと、
前記共通シーン記述に基づいて、前記第1のユーザが位置している前記第1の物理空間を含む仮想シーン内のオブジェクトにオーバーレイされた前記第2のユーザの表現を前記第1のユーザに表示するように前記第1のARデバイスを制御するステップと
を含む、方法。
【請求項2】
前記共通シーン記述を生成するステップは、前記第1のARデバイスによって実施される、
請求項1に記載の方法。
【請求項3】
前記共通シーン記述を生成するステップは、前記第1のARデバイスおよび前記第2のARデバイスの各々とは別個のネットワークデバイスによって実施される、
請求項1に記載の方法。
【請求項4】
前記第1の物理空間内の前記オブジェクトに仮想的にオーバーレイされた前記第2のユーザを表示するように前記第1のARデバイスを制御するステップが、前記第1の物理空間内の少なくとも1つの他のオブジェクトの部分に前記第2のユーザを仮想的にオーバーレイするかどうかをチェックするステップにさらに基づく、
請求項1に記載の方法。
【請求項5】
第3のARデバイスから第3のビデオデータを取得するステップであって、前記第3のARデバイスは、第3の物理空間内の第3のユーザによって装着されている、ステップと、
前記第3のビデオデータに基づいて、前記第3の物理空間内の任意のオブジェクトに対する前記第3のユーザの第3の向きを決定するステップと、
前記第3の向きを決定するステップにさらに基づいて前記共通シーン記述を生成するステップと
をさらに含む、請求項1に記載の方法。
【請求項6】
前記共通シーン記述に基づいて、前記第3のユーザが前記第1の物理空間内の第2のオブジェクトに仮想的にオーバーレイされるように、前記第1のユーザに前記第3のユーザを表示するように前記第1のARデバイスを制御するステップ、
をさらに含む、請求項5に記載の方法。
【請求項7】
前記オブジェクトに仮想的にオーバーレイされた前記第2のユーザおよび前記第2のオブジェクト上にオーバーレイされた前記第3のユーザの向きは、前記第2のユーザおよび前記第3のユーザの各々の相対的な視点に対して、前記第2の物理空間および前記第3の物理空間の各々において対応する向きで前記第1のユーザが他のオブジェクトに仮想的にオーバーレイされるべきであるとの決定に基づいて決定される、
請求項6に記載の方法。
【請求項8】
前記第1の物理空間、前記第2の物理空間、および前記第3の物理空間の少なくとも1つは、住居内の物理空間であり、
前記第1の物理空間、前記第2の物理空間、および前記第3の物理空間のうちの他のものは、オフィスおよび公共空間のいずれかにある、
請求項7に記載の方法。
【請求項9】
前記第1のオブジェクトおよび前記第2のオブジェクトの少なくとも一方は、オフィスの椅子であり、
前記第3のオブジェクトは、二人掛けのソファ、長椅子、およびコーヒーテーブルのうちの1つである、
請求項7に記載の方法。
【請求項10】
前記共通シーン記述は、前記第1のARデバイス、前記第2のARデバイス、および前記第3のARデバイスの各々に提供される、
請求項5に記載の方法。
【請求項11】
拡張現実(AR)ビデオストリーミングのための装置であって、
コンピュータ・プログラム・コードを記録するように構成された少なくとも1つのメモリと、
前記コンピュータ・プログラム・コードにアクセスし、前記コンピュータ・プログラム・コードによって命令されたように動作するように構成された少なくとも1つのプロセッサと
を備え、前記コンピュータ・プログラム・コードは、
前記少なくとも1つのプロセッサに、第1のARデバイスおよび第2のARデバイスからビデオデータを取得させるように構成された取得コードであって、前記第1のARデバイスは、第1の物理空間内で第1のユーザによって装着されており、前記第2のARデバイスは、前記第1の物理空間とは別の第2の物理空間内で第2のユーザによって装着されている、取得コードと、
前記少なくとも1つのプロセッサに、前記ビデオデータに基づいて、前記第1の物理空間内の任意のオブジェクトに対する前記第1のユーザの第1の向きと、前記第2の物理空間上の任意のオブジェクトに対する第2のユーザの第2の向きとを決定させるように構成された決定コードと、
前記第1の向きおよび前記第2の向きを決定することに基づいて、前記少なくとも1つのプロセッサに、前記第1のARデバイスおよび前記第2のARデバイスの両方についての共通シーン記述を生成させるように構成された生成コードと、
前記少なくとも1つのプロセッサに、前記共通シーン記述に基づいて、前記第1のユーザが位置している前記第1の物理空間を含む仮想シーン内のオブジェクトにオーバーレイされた前記第2のユーザの表現を前記第1のユーザに表示するように前記第1のARデバイスを制御させるように構成された制御コードと
を含む、装置。
【請求項12】
前記共通シーン記述を生成することは、前記第1のARデバイスによって実施される、
請求項11に記載の装置。
【請求項13】
前記共通シーン記述を生成することは、前記第1のARデバイスおよび前記第2のARデバイスの各々とは別個のネットワークデバイスによって実施される、
請求項11に記載の装置。
【請求項14】
前記第1の物理空間内の前記オブジェクトに仮想的にオーバーレイされた前記第2のユーザを表示するように前記第1のARデバイスを制御することが、前記第1の物理空間内の少なくとも1つの他のオブジェクトの部分に前記第2のユーザを仮想的にオーバーレイするかどうかをチェックすることにさらに基づく、
請求項11に記載の装置。
【請求項15】
前記コンピュータ・プログラム・コードは、
前記少なくとも1つのプロセッサに、第3のARデバイスから第3のビデオデータを取得させるように構成された更なる取得コードであって、前記第3のARデバイスは、第3の物理空間内の第3のユーザによって装着されている、更なる取得コードと、
前記少なくとも1つのプロセッサに、前記第3のビデオデータに基づいて、前記第3の物理空間内の任意のオブジェクトに対する前記第3のユーザの第3の向きを決定させるように構成された決定コードと、
前記第3の向きを決定するステップにさらに基づいて、前記少なくとも1つのプロセッサに、前記共通シーン記述を生成させるように構成された更なる生成コードと
を含む、請求項11に記載の装置。
【請求項16】
前記コンピュータ・プログラム・コードは、
前記少なくとも1つのプロセッサに、前記共通シーン記述に基づいて、前記第3のユーザが前記第1の物理空間内の第2のオブジェクトに仮想的にオーバーレイされるように、前記第1のユーザに前記第3のユーザを表示するように前記第1のARデバイスを制御させるように構成された更なる制御コード
をさらに含む、請求項15に記載の装置。
【請求項17】
前記オブジェクトに仮想的にオーバーレイされた前記第2のユーザおよび前記第2のオブジェクト上にオーバーレイされた前記第3のユーザの向きは、前記第2のユーザおよび前記第3のユーザの各々の相対的な視点に対して、前記第2の物理空間および前記第3の物理空間の各々において対応する向きで前記第1のユーザが他のオブジェクトに仮想的にオーバーレイされるべきであるとの決定に基づいて決定される、
請求項16に記載の装置。
【請求項18】
前記第1の物理空間、前記第2の物理空間、および前記第3の物理空間の少なくとも1つは、住居内の物理空間であり、
前記第1の物理空間、前記第2の物理空間、および前記第3の物理空間のうちの他のものは、オフィスおよび公共空間のいずれかにある、
請求項17に記載の装置。
【請求項19】
前記第1のオブジェクトおよび前記第2のオブジェクトの少なくとも一方は、オフィスの椅子であり、
前記第3のオブジェクトは、二人掛けのソファ、長椅子、およびコーヒーテーブルのうちの1つである、
請求項17に記載の装置。
【請求項20】
コンピュータに処理を実行させるプログラムを記録した非一時的なコンピュータ可読媒体であって、前記処理は、
第1のARデバイスおよび第2のARデバイスからビデオデータを取得することであって、前記第1のARデバイスは、第1の物理空間内で第1のユーザによって装着されており、前記第2のARデバイスは、前記第1の物理空間とは別の第2の物理空間内で第2のユーザによって装着されている、取得することと、
前記ビデオデータに基づいて、前記第1の物理空間内の任意のオブジェクトに対する前記第1のユーザの第1の向きを決定することと、
前記ビデオデータに基づいて、前記第2の物理空間上の任意のオブジェクトに対する第2のユーザの第2の向きを決定することと、
前記第1の向きおよび前記第2の向きを決定することに基づいて、前記第1のARデバイスおよび前記第2のARデバイスの両方についての共通シーン記述を生成することと、
前記共通シーン記述に基づいて、前記第1のユーザが位置している前記第1の物理空間を含む仮想シーン内のオブジェクトに仮想的にオーバーレイされた前記第2のユーザの表現を前記第1のユーザに表示するように前記第1のARデバイスを制御することと
を含む、非一時的なコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本願は、2022年2月7日に出願された米国仮出願第63/307,552号、および2022年12月8日に出願された米国出願第18/063,403号の優先権を主張し、これらの内容は、全体が参照により本願に明示的に組み込まれる。
【0002】
本開示は、例示的な実施形態による、拡張現実(AR)デバイスを用いて仮想会話セッションを提供することを対象としており、それにおいて各参加者は自分達のローカル空間内の他のすべての参加者を見ているが、ローカル空間内の参加者の配置が他者と同じ、すなわち、参加者らが同じ設定の中で座っている/立っている/などであり、あたかも全員が共通の場所に居て、同じまたは同様の方に向いているかのようである。
【背景技術】
【0003】
ARストリーミングデバイスが他の参加者の画像を会議に提供できても、それらのARデバイスは、他の参加者の仮想オーバーレイを、異なる物理空間内の各ユーザの様々なオブジェクトおよび深度に同期させることができず、または各ARユーザが、自分達自身のそれぞれの環境において、各AR参加者により共有される同様の向きで、他のARユーザを見えるようにすることができない。
【発明の概要】
【課題を解決するための手段】
【0004】
1つ以上の異なる技術的問題に対処するために、本開示は、ネットワークオーバーヘッドおよびサーバの計算オーバーヘッドを低減する技術的解決策を提供する一方で、解決された要素に様々な動作を適用するオプションを提供し、その結果、これらのオプションを使用するとその実用性、および技術的なシグナリング機能が一部改善され得る。
【0005】
コンピュータ・プログラム・コードを記憶するように構成されたメモリと、コンピュータ・プログラム・コードにアクセスし、コンピュータ・プログラム・コードによって命令されたように動作するように構成された1つまたは複数のプロセッサと、を含む方法および装置が含まれる。コンピュータ・プログラム・コードは、少なくとも1つのプロセッサに、第1のARデバイスおよび第2のARデバイスからビデオデータを取得させるように構成された取得コードであって、第1のARデバイスは、第1の物理空間内で第1のユーザによって装着されており、第2のARデバイスは、第1の物理空間とは別の第2の物理空間内で第2のユーザによって装着されている、取得コードと、少なくとも1つのプロセッサに、ビデオデータに基づいて、第1の物理空間内の任意のオブジェクトに対する第1のユーザの第1の向きと、第2の物理空間上の任意のオブジェクトに対する第2のユーザの第2の向きとを決定させるように構成された決定コードと、第1の向きおよび第2の向きを決定するステップに基づいて、少なくとも1つのプロセッサに、第1のARデバイスおよび第2のARデバイスの両方のための共通シーン記述を生成させるように構成された生成コードと、少なくとも1つのプロセッサに、共通シーン記述に基づいて、第1のユーザが位置している第1の物理空間を含む仮想シーン内のオブジェクトにオーバーレイされた第2のユーザの表現を第1のユーザに表示するように第1のARデバイスを制御させるように構成された制御コードとを含む。本明細書で説明するように、物理空間は、部屋の1つであってもよく、または屋外空間などの部屋以外の他の空間であってもよく、オブジェクトは、例示的な実施形態による1つまたは複数の家具などであってもよい。
【0006】
例示的な実施形態によれば、共通シーン記述の生成するステップは、第1のARデバイスによって実施される。
【0007】
例示的な実施形態によれば、共通シーン記述を生成するステップは、第1のARデバイスおよび第2のARデバイスの各々とは別個のネットワークデバイスによって実施される。
【0008】
例示的な実施形態によれば、第1の物理空間内のオブジェクトに仮想的にオーバーレイされた第2のユーザを表示するように第1のARデバイスを制御するステップが、第1の物理空間内の少なくとも1つの他のオブジェクトの部分に第2のユーザを仮想的にオーバーレイするかどうかをチェックするステップにさらに基づく。
【0009】
例示的な実施形態によれば、コンピュータ・プログラム・コードは、少なくとも1つのプロセッサに、第3のARデバイスから第3のビデオデータを取得させるように構成された更なる取得コードであって、第3のARデバイスは、第3の物理空間内で第3のユーザによって装着されている、更なる取得コードと、少なくとも1つのプロセッサに、第3のビデオデータに基づいて、第3の物理空間内の任意のオブジェクトに対する第3のユーザの第3の向きを決定させるように構成された更なる決定コードと、および第3の向きを決定するステップにさらに基づいて、少なくとも1つのプロセッサに、共通シーン記述を生成させるように構成された更なる生成コードと、を含む。
【0010】
例示的な実施形態によれば、コンピュータ・プログラム・コードは、少なくとも1つのプロセッサに、共通シーン記述に基づいて、第3のユーザが第1の物理空間内の第2のオブジェクトに仮想的にオーバーレイされるように、第1のユーザに第3のユーザを表示するように第1のARデバイスを制御させるように構成された更なる制御コードをさらに含む。
【0011】
例示的な実施形態によれば、オブジェクトに仮想的にオーバーレイされた第2のユーザおよび第2のオブジェクト上にオーバーレイされた第3のユーザの向きは、第2のユーザおよび第3のユーザの各々の相対的な視点に対して、第1のユーザが第2の物理空間および第3の物理空間の各々において対応する向きで他のオブジェクトに仮想的にオーバーレイされるべきであるとの決定に基づいて決定される。
【0012】
例示的な実施形態によれば、第1の物理空間、第2の物理空間、および第3の物理空間の少なくとも1つは、住居内の物理空間であり、第1の物理空間、第2の物理空間、および第3の物理空間のうちの他のものは、オフィスおよび公共空間のいずれかにある。
【0013】
例示的な実施形態によれば、第1のオブジェクトおよび第2のオブジェクトの少なくとも一方は、オフィスの椅子であり、第3のオブジェクトは、二人掛けのソファ、長椅子、およびコーヒーテーブルのうちの1つである。
【0014】
例示的な実施形態によれば、共通シーン記述は、第1のARデバイス、第2のARデバイス、および第3のARデバイスの各々に提供される。
【0015】
開示された主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。
【図面の簡単な説明】
【0016】
【
図3】実施形態によるデコーダに関する簡略化されたブロック図である。
【
図4】実施形態によるエンコーダに関する簡略化されたブロック図である。
【
図5】実施形態による簡略化されたブロック図である。
【
図6】実施形態による簡略化されたブロック図である。
【
図7】実施形態による簡略化されたブロック図である。
【
図8】実施形態による簡略化されたブロック図である。
【
図9】実施形態による簡略化されたブロック図である。
【
図13】実施形態による簡略化されたフローチャートである。
【発明を実施するための形態】
【0017】
以下で考察する提案された特徴は、別々に使用されてもよいし、任意の順序で組み合わされてもよい。さらに、実施形態は、処理回路(例えば、1つもしくは複数のプロセッサまたは1つもしくは複数の集積回路)によって実施されてもよい。一例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に記録されたプログラムを実行する。
【0018】
図1は、本開示の一実施形態による通信システム100の簡略化されたブロック図を例示する。通信システム100は、ネットワーク105を介して相互接続された少なくとも2つの端末102、103を含み得る。データの単方向伝送のために、第1の端末103は、ネットワーク105を介して他方の端末102に伝送するためにローカル位置でビデオデータを符号化し得る。第2の端末102は、ネットワーク105から他方の端末の符号化済ビデオデータを受信し、符号化済データを復号し、復元されたビデオデータを表示し得る。単方向データ伝送は、メディアサービング用途などで一般的であり得る。
【0019】
図1は、例えばビデオ会議中に発生する可能性がある符号化ビデオの双方向伝送をサポートするために提供される端末101および104の第2のペアを例示する。データの双方向伝送のために、各端末101および104は、ネットワーク105を介して他方の端末に送信するためにローカル位置で、取り込んだビデオデータを符号化し得る。各端末101および104もまた、他方の端末によって送信された符号化ビデオデータを受信し得、符号化データを復号し得、復元ビデオデータをローカルの表示装置に表示し得る。
【0020】
図1では、端末101、102、103および104は、サーバ、パーソナルコンピュータおよびスマートフォンとして例示され得るが、本開示の原理はそのように限定されるものではない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、および/または専用のビデオ会議機器を伴う用途を見出す。ネットワーク105は、例えば有線および/または無線通信ネットワークを含む、端末101、102、103および104の間で、符号化済ビデオデータを伝達する、任意の数のネットワークを表す。通信ネットワーク105は、回路交換および/またはパケット交換チャネルにおいてデータを交換し得る。代表的なネットワークは、電気通信ネットワーク、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークおよび/またはインターネットを含む。本考察の目的のために、ネットワーク105のアーキテクチャおよびトポロジは、本明細書で以下に説明されない限り、本開示の動作にとって重要ではない場合がある。
【0021】
図2は、開示される主題の用途の一例として、ストリーミング環境におけるビデオエンコーダおよびビデオデコーダの配置を例示する。開示された主題は、例えば、ビデオ会議、デジタルTV、ならびにCD、DVD、およびメモリスティックなどを含むデジタル媒体への圧縮ビデオの記憶などを含む他のビデオ対応用途に等しく適用可能とすることができる。
【0022】
ストリーミングシステムは、例えば非圧縮ビデオ・サンプル・ストリーム213を作成する、例えばデジタルカメラなどのビデオソース201を含むことができるキャプチャサブシステム203を含み得る。そのサンプルストリーム213は、符号化されたビデオビットストリームと比較して高いデータボリュームとして強調されてもよく、カメラ201に結合されたエンコーダ202によって処理することができる。エンコーダ202は、以下でより詳細に説明するように、開示される主題の態様を可能にするか、または実施するために、ハードウェア、ソフトウェア、またはそれらの組合せを含むことができる。符号化されたビデオビットストリーム204は、サンプルストリームと比較してより低いデータボリュームとして強調されてもよく、将来の使用のためにストリーミングサーバ205に記録することができる。1つまたは複数のストリーミングクライアント212および207は、ストリーミングサーバ205にアクセスして、符号化されたビデオビットストリーム204のコピー208および206を取り出すことができる。クライアント212は、符号化されたビデオビットストリームの着信コピー208を復号し、ディスプレイ209または他のレンダリングデバイス(図示せず)上にレンダリングすることができる送出ビデオ・サンプル・ストリーム210を作成するビデオデコーダ211を含むことができる。一部のストリーミングシステムでは、ビデオビットストリーム204、206および208は、特定のビデオコーディング/圧縮規格に従って符号化することができる。これらの規格の例は、上記で言及されており、本明細書でさらに説明される。
【0023】
図3は、本発明の一実施形態によるビデオデコーダ300の機能ブロック図であり得る。
【0024】
受信器302は、デコーダ300によって復号される1つまたは複数のコーデック・ビデオ・シーケンスを受信してもよく、同じまたは別の実施形態では、一度に1つの符号化ビデオシーケンスを受信してもよく、各符号化ビデオシーケンスの復号は、他の符号化ビデオシーケンスから独立している。符号化ビデオシーケンスは、チャネル301から受信され得、チャネルは、符号化されたビデオデータを記録する記憶装置へのハードウェア/ソフトウェアリンクであり得る。受信器302は、それぞれの使用エンティティ(図示せず)に転送され得る他のデータ、例えば符号化オーディオデータおよび/または補助データストリームとともに、符号化されたビデオデータを受信し得る。受信器302は、コーディング済ビデオシーケンスを他のデータから分離することができる。ネットワークジッタに対抗するために、バッファメモリ303が、受信器302とエントロピーデコーダ/パーサ304(以降、「パーサ」)との間に結合されてもよい。受信器302が十分な帯域幅と制御性を持つ記憶/転送装置から、またはアイソシンクロナスネットワークからデータを受信している場合、バッファ303は必要なくてもよい、または小さい場合もある。インターネットなどのベスト・エフォート・パケット・ネットワークで使用する場合、バッファ303が必要とされる場合があり、比較的大きくすることができ、有利には適応サイズとすることができる。
【0025】
ビデオデコーダ300は、エントロピー符号化ビデオシーケンスからシンボル313を再構成するためのパーサ304を含み得る。これらのシンボルのカテゴリは、デコーダ300の動作を管理するために使用される情報、および潜在的に、デコーダの不可欠な部分ではないが、それに結合することができるディスプレイ312などのレンダリング装置を制御するための情報を含む。レンダリング装置の制御情報は、補足拡張情報(SEIメッセージ)またはビデオユーザビリティ情報パラメータ・セット・フラグメント(図示せず)の形式であり得る。パーサ304は、受信した符号化ビデオシーケンスを解析/エントロピー復号し得る。符号化ビデオシーケンスのコーディングは、ビデオコーディング技術または標準規格に従うことができ、可変長コーディング、ハフマンコーディング、文脈依存性を伴うまたは伴わない算術コーディングなどを含む、当業者に周知の原理に従うことができる。パーサ304は、コーディング済ビデオシーケンスから、そのグループに対応する少なくとも1つのパラメータに基づいて、ビデオデコーダ内のピクセルのサブグループのうちの少なくとも1つのサブグループパラメータのセットを抽出することができる。サブグループは、ピクチャのグループ(GOP)、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット(CU)、ブロック、変換ユニット(TU)、予測ユニット(PU)などを含むことができる。エントロピーデコーダ/パーサはまた、変換係数、量子化器パラメータ値、動きベクトルなどの符号化ビデオシーケンス情報から抽出し得る。
【0026】
パーサ304は、シンボル313を作成するために、バッファ303から受信したビデオシーケンスに対してエントロピー復号/解析動作を行い得る。パーサ304は、符号化されたデータを受信し、特定のシンボル313を選択的に復号し得る。さらに、パーサ304は、特定のシンボル313が、動き補償予測ユニット306、スケーラ/逆変換ユニット305、イントラ予測ユニット307、またはループフィルタ311に提供されるべきかどうかを決定し得る。
【0027】
シンボル313の再構成には、符号化ビデオピクチャまたはその一部(インターピクチャおよびイントラピクチャ、インターブロックおよびイントラブロックなど)のタイプ、ならびにその他の要因に応じて、複数の異なるユニットを関与させることができる。どのユニットがどのように関与しているかは、パーサ304によって、コーディング済ビデオシーケンスから解析されたサブグループ制御情報によって管理することができる。パーサ304と以下の複数のユニットとの間のそのようなサブグループ制御情報の流れは、明確にするために図示されていない。
【0028】
すでに言及した機能ブロックの他に、デコーダ300は、以下で説明するように、いくつかの機能ユニットに概念的に細分化することができる。商業的な制約の下で動作する実際の実施態様では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合させることができる。しかしながら、開示されている主題を説明する目的のために、以下の機能ユニットへの概念的な細分化が適切である。
【0029】
第1のユニットは、スケーラ/逆変換ユニット305である。スケーラ/逆変換ユニット305は、量子化された変換係数、および使用する変換、ブロックサイズ、量子化因子、量子化スケーリングマトリクスなどを含む制御情報をパーサ304からシンボル313として受け取る。それは、アグリゲータ310に入力することができるサンプル値を含むブロックを出力することができる。
【0030】
場合によっては、スケーラ/逆変換305の出力サンプルは、イントラ符号化ブロックに関係することがある。すなわち、以前に再構成されたピクチャからの予測情報を使用していないが、現在のピクチャの以前に再構成された部分からの予測情報を使用することができるブロックである。そのような予測情報は、イントラピクチャ予測ユニット307によって提供することができる。場合によっては、イントラピクチャ予測ユニット307は、現在の(部分的に再構築された)ピクチャ309からフェッチされた周囲のすでに再構築された情報を使用して、再構築中のブロックと同じサイズおよび形状のブロックを生成する。アグリゲータ310は、場合によっては、サンプルごとに、イントラ予測ユニット307が生成した予測情報を、スケーラ/逆変換ユニット305によって提供される出力サンプル情報に追加する。
【0031】
他の場合には、スケーラ/逆変換ユニット305の出力サンプルは、インター符号化され、潜在的に動き補償されたブロックに関係することがある。そのような場合、動き補償予測ユニット306は、参照ピクチャメモリ308にアクセスして、予測に使用されるサンプルをフェッチすることができる。フェッチされたサンプルをブロックに関係するシンボル313に従って動き補償した後に、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ310によってスケーラ/逆変換ユニットの出力に追加することができる(この場合、残差サンプルまたは残差信号と呼ばれる)。動き補償ユニットが予測サンプルをフェッチする参照ピクチャメモリ形式内のアドレスは、動きベクトルによって制御することができ、例えば、X、Y、および参照ピクチャ成分を有することができるシンボル313の形式で動き補償ユニットに利用可能とすることができる。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリからフェッチされたサンプル値の補間、動きベクトル予測機構などを含むことができる。
【0032】
アグリゲータ310の出力サンプルは、ループ・フィルタ・ユニット311における様々なループフィルタリング技術の適用を受けることができる。ビデオ圧縮技術は、符号化ビデオビットストリームに含まれるパラメータによって制御され、パーサ304からのシンボル313としてループ・フィルタ・ユニット311で利用可能とされるループ内フィルタ技術を含むことができるが、符号化ピクチャまたは符号化ビデオシーケンスの以前の(復号順で)部分の復号中に取得されたメタ情報に応答したり、以前に再構成およびループフィルタされたサンプル値に応答したりすることもできる。
【0033】
ループ・フィルタ・ユニット311の出力は、レンダリング装置312に出力することができるだけでなく、将来のインターピクチャ予測で使用するために参照ピクチャメモリ557に記録することができるサンプルストリームとすることができる。
【0034】
特定の符号化ピクチャは、完全に再構成されると、将来の予測のための参照ピクチャとして使用することができる。符号化ピクチャが完全に再構成され、符号化ピクチャが(例えば、パーサ304によって)参照ピクチャとして識別されていると、現在の参照ピクチャ309は参照ピクチャバッファ308の一部になることができ、以下の符号化ピクチャの再構成を開始する前に、新しい現在のピクチャメモリを再配分することができる。
【0035】
ビデオデコーダ300は、ITU-T Rec.H.265などの規格に文書化され得る所定のビデオ圧縮技術に従って復号動作を行い得る。コーディング済ビデオシーケンスは、ビデオ圧縮技術文書または規格、具体的にはその中のプロファイル文書に指定されるように、ビデオ圧縮技術または標準規格のシンタックスに忠実であるという意味において、使用されているビデオ圧縮技術または標準規格によって指定されたシンタックスに準拠し得る。また、コンプライアンスのために必要なのは、コーディング済ビデオシーケンスの複雑さが、ビデオ圧縮技術または標準規格のレベルによって定義された範囲内にあることであり得る。場合によっては、レベルは、最大ピクチャサイズ、最大フレームレート、(例えば、毎秒メガサンプル単位で測定された)最大再構成サンプルレート、最大参照ピクチャサイズなどを制限する。レベルによって設定された限界は、場合によっては、仮想参照デコーダ(HRD)仕様、および符号化ビデオシーケンスでシグナリングされるHRDバッファ管理のメタデータによってさらに制限されることがある。
【0036】
一実施形態では、受信器302は、符号化されたビデオとともに追加の(冗長な)データを受信し得る。追加のデータは、コーディング済ビデオシーケンスの一部として含まれ得る。追加のデータは、データを適切にデコードするため、および/または元のビデオデータをより正確に再構築するために、ビデオデコーダ300によって使用され得る。追加のデータは、例えば、時間層、空間層、または信号対雑音比(SNR)強化層、冗長スライス、冗長ピクチャ、前方誤り訂正符号などの形式にすることができる。
【0037】
図4は、本開示の一実施形態によるビデオエンコーダ400の機能ブロック図であり得る。
【0038】
エンコーダ400は、エンコーダ400によって符号化すべきビデオ画像を取り込み得るビデオソース401(エンコーダの一部ではない)からビデオサンプルを受信し得る。
【0039】
ビデオソース401は、エンコーダ(303)によってコーディングされるソース・ビデオ・シーケンスを、任意の適切なビット深度(例えば、8ビット、10ビット、12ビット、…)であり得、任意の色空間(例えば、BT.601 Y CrCB、RGB、…)および適切なサンプリング構造(例えば、Y CrCb 4:2:0、Y CrCb 4:4:4)であり得るデジタルビデオ・サンプル・ストリームの形態で提供し得る。メディア供給システムでは、ビデオソース401は、これまでに準備されたビデオを記録する記憶装置であり得る。ビデオ会議システムでは、ビデオソース401は、ローカル画像情報をビデオシーケンスとして取り込むカメラであり得る。ビデオデータは、順番に見たときに動きを与える複数の個別のピクチャとして提供され得る。ピクチャ自体は、ピクセルの空間配列として編成され、各ピクセルは、使用中のサンプリング構造、色空間などに応じて、1つまたは複数のサンプルを含むことができる。当業者は、ピクセルとサンプルとの間の関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てている。
【0040】
一実施形態によれば、エンコーダ400は、リアルタイムで、または用途によって必要とされる他の任意の時間制約下で、ソース・ビデオ・シーケンスのピクチャを符号化ビデオシーケンス410に符号化および圧縮し得る。適切なコーディング速度にすることが、コントローラ402の1つの機能である。コントローラは、以下に説明するように他の機能ユニットを制御し、これらのユニットに機能的に結合される。分かりやすくするために、結合は描かれていない。コントローラによって設定されるパラメータには、レート制御関連パラメータ(ピクチャスキップ、量子化器、レート歪み最適化手法のラムダ値など)、ピクチャサイズ、ピクチャのグループ(GOP)レイアウト、最大動きベクトル検索範囲などを含めることができる。当業者であれば、コントローラ402の他の機能は、それらが特定のシステム設計のために最適化されたビデオエンコーダ400に関係し得るため、容易に識別することができる。
【0041】
一部のビデオエンコーダは、当業者が「コーディングループ」として容易に認識するものにおいて動作する。過度に簡略化した説明として、コーディングループは、エンコーダ402(以降「ソースコーダ」)(符号化される入力ピクチャと参照ピクチャに基づいてシンボルを作成する役割を果たす)のエンコーディング部分、およびシンボルを再構築して(リモート)デコーダも作成するであろうサンプルデータを作成するエンコーダ400に組み込まれた(ローカル)デコーダ406で構成され得る(シンボルと符号化ビデオビットストリームとの間の任意の圧縮は、開示された主題で考慮されているビデオ圧縮技術では無損失であるため)。再構築されたサンプルストリームは、参照ピクチャメモリ405に入力される。シンボルストリームのデコーディングは、デコーダの場所(ローカルまたはリモート)に関係なくビットイグザクト結果をもたらすため、参照ピクチャバッファコンテンツもまた、ローカルエンコーダとリモートエンコーダとの間でビットイグザクトである。言い換えると、エンコーダの予測部分は、デコーディング中に予測を使用するときにデコーダが「見る」のとまったく同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャの同期性(および、例えばチャネル誤りのために同期性を維持できない場合に結果として生じるドリフト)のこの基本原理は、当業者には周知である。
【0042】
「ローカル」デコーダ406の動作は、「リモート」デコーダ300の動作と同じであってよく、これは、
図3に関連して上記で詳細にすでに説明されている。しかしながら、
図4も簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ408およびパーサ304による符号化ビデオシーケンスへのシンボルの符号化/復号は可逆的であり得るため、チャネル301、受信器302、バッファ303およびパーサ304を含むデコーダ300のエントロピー復号部分は、ローカルデコーダ406で完全には実施されない場合がある。
【0043】
この時点で述べることができる所見は、デコーダに存在する解析/エントロピー復号以外の任意のデコーダ技術もまた、実質的に同一の機能形式で、対応するエンコーダに必ず存在する必要があるということである。エンコーダ技術の説明は、包括的に説明されているデコーダ技術の逆であるため、省略することができる。特定の領域に関してのみ、より詳細な説明が必要とされ、以下に提供される。
【0044】
その動作の一部として、ソースコーダ403は、動き補償予測コーディングを実行し得、これは、「参照フレーム」として指定された、ビデオシーケンスからの1つ以上の以前に符号化されたフレームを参照して入力フレームを予測的に符号化する。この方法において、コーディングエンジン407は、入力フレームの画素ブロックと、入力フレームへの予測参照として選択され得る参照フレームの画素ブロックとの差を符号化する。
【0045】
ローカル・ビデオ・デコーダ406は、ソースコーダ403によって作成されたシンボルに基づいて、参照フレームとして指定され得るフレームの符号化ビデオデータを復号し得る。コーディングエンジン407の動作は、有利には、非可逆プロセスであり得る。符号化ビデオデータがビデオデコーダ(
図4には示されていない)で復号され得るとき、再構成されたビデオシーケンスは、通常、多少の誤差を伴うソース・ビデオ・シーケンスの複製であり得る。ローカル・ビデオ・デコーダ406は、参照フレームに対してビデオデコーダによって行われ得る復号プロセスを複製し、再構成された参照フレームを参照ピクチャキャッシュ405に記録させ得る。このようにして、エンコーダ400は、(伝送エラーのない)遠端のビデオデコーダによって取得されることになる再構成された参照フレームとして共通の内容を有する再構成された参照フレームのコピーをローカルに記録し得る。
【0046】
予測器404は、コーディングエンジン407のための予測検索を行い得る。すなわち、コーディングすべき新しいフレームに対して、予測器404は、サンプルデータ(候補参照画素ブロックとして)、または新しいピクチャの適切な予測参照として機能し得る、参照ピクチャ動きベクトル、ブロック形状などの特定のメタデータを求めて参照ピクチャメモリ405を検索し得る。予測器404は、適切な予測参照を見出すために、画素ブロックごとのサンプルブロックに基づいて動作し得る。場合によっては、予測器404によって取得された検索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ405に記録された複数の参照ピクチャから引き出された予測参照を有し得る。
【0047】
コントローラ402は、例えば、ビデオデータを符号化するために使用されるパラメータおよびサブグループパラメータの設定を含む、ビデオコーダ403のコーディング動作を管理し得る。
【0048】
すべての前述の機能ユニットの出力は、エントロピーコーダ408でエントロピーコーディングを受け得る。エントロピーコーダは、例えばハフマンコーディング、可変長コーディング、算術コーディングなどの、当業者に既知の技術に従ってシンボルを可逆圧縮することにより、様々な機能ユニットによって生成されたシンボルを符号化ビデオシーケンスに変換する。
【0049】
送信器409は、エントロピーコーダ408によって作成された符号化ビデオシーケンスをバッファに入れて、符号化されたビデオデータを記録することになる記憶装置へのハードウェア/ソフトウェアリンクであり得る通信チャネル411を介した送信のためにそれを準備し得る。送信器409は、ビデオコーダ403からの符号化ビデオデータを、送信すべき他のデータ、例えば、符号化音声データおよび/または補助データストリーム(ソースは図示せず)とマージし得る。
【0050】
コントローラ402は、エンコーダ400の動作を管理し得る。コーディング中に、コントローラ405は、各符号化ピクチャに特定の符号化ピクチャタイプを割り当て得、これは、それぞれのピクチャに適用され得るコーディング技術に影響を及ぼし得る。例えば、ピクチャは、多くの場合、以下のフレームタイプのうちの1つとして割り当てられ得る。
【0051】
イントラピクチャ(Iピクチャ)は、シーケンス内の任意の他のフレームを予測のソースとして使用せずに符号化および復号され得るピクチャであり得る。いくつかのビデオコーデックは、例えば独立デコーダリフレッシュピクチャなどを含む、様々なタイプのイントラピクチャを可能にする。当業者は、Iピクチャのそれらの変形形態ならびにそれらのそれぞれの用途および特徴を認識している。
【0052】
予測ピクチャ(Pピクチャ)は、各ブロックのサンプル値を予測するために最大で1つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用して符号化および復号され得るピクチャであり得る。
【0053】
双方向予測ピクチャ(Bピクチャ)は、各ブロックのサンプル値を予測するために、最大で2つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用して符号化および復号され得るものであり得る。同様に、複数の予測ピクチャは、単一のブロックの再構成のために3つ以上の参照ピクチャおよび関連メタデータを使用することができる。
【0054】
ソースピクチャは、一般に、複数のサンプルブロック(例えば、それぞれ4×4、8×8、4×8、または16×16サンプルのブロック)に空間的に細分化され、ブロックごとにコーディングされ得る。ブロックは、ブロックのそれぞれのピクチャに適用されたコーディング割り当てによって決定されるように、他の(すでに符号化)ブロックを参照して予測的に符号化されてもよい。例えば、Iピクチャのブロックは、非予測的にコーディングされてもよく、または同じピクチャのすでにコーディング済ブロックを参照して予測的にコーディングされてもよい(空間予測またはイントラ予測)。Pピクチャの画素ブロックは、空間予測を介して、または以前にコーディングされた1つの参照ピクチャを参照する時間予測を介して、非予測的にコーディングされ得る。Bピクチャの画素ブロックは、空間予測を介して、または以前に符号化された1つまたは2つの参照ピクチャを参照する時間予測を介して、非予測的に符号化され得る。
【0055】
ビデオコーダ400は、ITU-T Rec.H.265などの所定のビデオコーディング技術または規格に従ってコーディング動作を行い得る。その動作において、ビデオコーダ400は、入力ビデオシーケンスにおける時間的および空間的冗長性を活用する予測コーディング動作を含む、様々な圧縮動作を行い得る。したがって、符号化されたビデオデータは、使用されているビデオコーディング技術または規格によって指定された構文に準拠し得る。
【0056】
一実施形態では、送信器409は、符号化されたビデオとともに追加のデータを送信し得る。ソースコーダ403は、そのようなデータを、コーディング済ビデオシーケンスの一部として含み得る。追加のデータは、時間層/空間層/SNR強化層、冗長なピクチャおよびスライスなどの他の形式の冗長データ、補足拡張情報(SEI)メッセージ、視覚ユーザビリティ情報(VUI)パラメータ・セット・フラグメントなどを含み得る。
【0057】
図5は、5G STARユーザ装置(UE)の受信器600、ネットワーク/クラウド501、および5G UE(送信器)700を示す、例示的な実施形態によるスタンドアロンAR(STAR)デバイスのためのエンドツーエンドアーキテクチャの例500である。
図6は、例示的な実施形態によるSTAR UE受信器600のための1つまたは複数の構成のさらなる詳細な例600であり、
図7は、例示的な実施形態による5G UE送信器700のための1つまたは複数の構成のさらなる詳細な例700である。3GPP TR 26.998(「3GPP」は登録商標)は、5Gネットワークにおけるグラスタイプの拡張現実/複合現実(AR/MR)デバイスのサポートを規定している。また、本明細書の例示的な実施形態によれば、1)複雑なAR/MRコンテンツ(スタンドアロンAR、すなわちSTAR)を完全に復号および再生することができるデバイスと、2)より小さい計算リソースおよび/またはより小さい物理サイズ(したがって、バッテリ)を有し、計算の大部分がデバイス(エッジ依存AR、すなわちEDGAR)ではなく5Gエッジサーバ、ネットワーク、またはクラウドで実行される場合にのみそのようなアプリケーションを実行することができるデバイスとの少なくとも2つのデバイスのクラスが考えられる。
【0058】
また、例示的な実施形態によれば、以下に説明するように、共有の会話のユースケースを経験することができ、それにおいて、共有のAR会話体験の全参加者がARデバイスを有し、各参加者がARシーン内の他の参加者を見て、参加者がローカル物理シーン内のオーバーレイであり、すべての受信デバイスにおいてシーン内の参加者の配置が一致しており、例えば、各ローカル空間内の人々が互いに対して同じ位置/座席の配置を有し、そのような仮想空間は、同じ空間に居るという感覚を作り出すが、物理空間は実際の物理空間または各人が物理的に位置する空間であるため、物理空間は参加者ごとに異なる。
【0059】
例えば、
図5~
図7に関して示された例示的な実施形態によれば、ネットワーク/クラウド501上の没入型メディア処理機能は、様々なデバイスからアップリンクストリームを受信し、単一の仮想会議物理空間内の個々の参加者の配置を定義するシーン記述を構成する。シーン記述および符号化メディアストリームは、各受信参加者に配信される。受信参加者の5G STAR UE600は、3Dビデオおよびオーディオストリームを受信し、復号し、処理し、受信したシーン記述およびそのARランタイムから受信した情報を使用してそれらをレンダリングし、他のすべての参加者との仮想会議物理空間のARシーンを作成する。参加者用の仮想物理空間は自身の物理空間に基づいているが、物理空間内の他のすべての参加者の座席/位置配置は、このセッションにおける他のすべての参加者の仮想物理空間と一致する。
【0060】
例示的な実施形態によれば、EDGARデバイスアーキテクチャに関する例800を示す
図8も参照されたく、5G EDGAR UE900などのデバイス自体は、大量の処理を行うことができない。したがって、受信されたコンテンツに対するシーン解析およびメディア解析は、クラウド/エッジ801において実行され、次いで、少数のメディアコンポーネントを有する単純化されたARシーンが、処理およびレンダリングのためにデバイスに配信される。
図9は、例示的な実施形態による5G EDGAR UE900のより詳細な例を示す。
【0061】
しかしながら、
図5~
図9の例示的な実施形態に関するような機能であっても、没入メディア機能に共通の仮想空間シーン記述を構築することに関する1つまたは複数の技術的問題が存在する可能性がある。また、後述するように、そのような実施形態は、すべての参加者がローカルARシーン内の参加者の同じ相対的配置を体験することができるように、すべての参加者に提供されるシーン記述を生成するために、没入型メディア処理機能のコンテキストにおいて技術的に改善される。
【0062】
図10は、ユーザA10、ユーザB11、およびユーザT12がAR会議の物理空間に参加することになっている例1000を示している。図示されているように、ユーザA10はオフィス1001におり、様々な数の椅子を備える会議の物理空間に座っており、ユーザA10は椅子に座っている。ユーザB11は、自分の生活物理空間1002内にあり、二人掛けのソファに座っており、また、自分の生活物理空間の一台または複数の二人用の長椅子、ならびに椅子およびテーブルなどの他のオブジェクトも存在する。ユーザT12は空港のロビー1003のベンチにいるが、1つまたは複数の他のコーヒーテーブルの中のとあるコーヒーテーブルを横切るとベンチがある。
【0063】
図13の例示的なフローチャート1300で説明したように、
図12は、没入メディア機能が相対位置を記述する一般的なシーン記述を生成するように、各参加者の位置および全体的なレイアウトに関する情報を受信する各ARデバイスによって互いの視点、オブジェクト、および姿勢に一致する相対的な向きで互いに表されるが、ユーザA10、B11、およびT12がそれぞれ独自のそれぞれの領域で仮想会議を共有する例1200を示している。その一般的なシーン記述は、
図1100の例において記述1101として示されており、ルートノード13およびノード:ユーザA10のノード10n(少なくともグラフの目的のためにアリスと命名することができる)、ユーザB11のノード11n(少なくともグラフの目的のためにボブと命名することができる)、およびユーザT12のノード12n(少なくともグラフの目的のためにトムと命名することができる)を示すCSG1102として示された共通シーングラフ(CSG)に対応する。
【0064】
CSG1102および記述1101は、すべての参加デバイスへ送信され得る。各デバイスのARランタイムエンジンは、椅子、テーブル、ソファ、およびベンチの実際のレイアウトおよび位置に基づいてシーングラフをカスタマイズする。それは、各参加者のメディアオブジェクトを復号およびレンダリングし、カスタマイズされたシーングラフに従ってARシーンにオーバーレイする。
【0065】
図13は、ユーザA10、ユーザB11、およびユーザT12の各々、および/または任意の他の参加者などのユーザの各デバイスによって実行され得る没入型メディア処理機能(IMPF)の例示的なフローチャート1300を示す。
【0066】
S131において、人が自分の空間で見ているものの1つまたは複数の写真:アリスの会議用の物理的な空間およびテーブル、ボブの生活物理空間、ならびにトムの空港のロビー、ユーザのそれぞれのキャプチャデバイスに応じて、以下の、1つまたは複数の写真またはビデオ、物理空間の深度マップ、および物理空間の相対的なサイズのいずれかを提供することができる。あるいは、S132において、そのような情報は、CSGのための参加者の数を導出するIMPFに加えて導出され得る。また、S133において、オフィス1001、生活物理空間1002、および空港のロビー1003などの受信された各々の物理空間について、プロセスは、オブジェクト検出を使用して各物理空間の位置を検索し、参加者をオーバーレイするための1つ以上の可能な正しい位置を識別し、各々の参加者の各々の位置を見つけるために継続する。この例では、2人の参加者としての2つの位置が、オフィス1001、生活物理空間1002、および空港のロビー1003のそれぞれに追加され、それに応じて、物理空間内の参加者の位置を含むシーン記述を始動させる。
【0067】
S134において、導出されたすべての物理空間シーン記述の比較が行われ、そこから、すべての対応する物理空間内のすべての参加者の位置が同じであり、その物理空間に対して意味上妥当である共通シーン記述(CSG)が導出される。例えば、
図12の例1200について言及すると、オフィス1001において、ユーザA10のARは、ユーザA10に、ユーザB11に対応する仮想ユーザB11v1、およびユーザT12に対応する仮想ユーザT12v1を示し、仮想ユーザB11v1および仮想ユーザT12v1は、ユーザA10と同様に、オフィス1001のオブジェクト、すなわちオフィスの椅子に座っているようにユーザA10に示される。また、ユーザB11のためのARが、ユーザT12に対応するが、生活物理空間1202内の長椅子に座っている仮想ユーザT12v2と、ユーザA10に対応する仮想ユーザA10v1が、またオフィス1201のオフィスの椅子ではなく、生活物理空間1202のオブジェクトに座っている例1200の生活物理空間1202を参照されたい。ユーザT12のARが、ユーザA10に対応するが空港のロビー1203のテーブルに座っている仮想ユーザA10v2と、同じく仮想ユーザA10v2の反対側のテーブルに座っている仮想ユーザB11v2とを示す空港のロビー1203も参照されたい。また、これらのオフィス1201、生活物理空間1202、および空港のロビー1203の各々において、各物理空間の更新されたシーン記述は、場所/座席配置に関して他の物理空間と一致する。例えば、ユーザA10は、ユーザ11に対して相対的に反時計回り、またはユーザT12に対しても相対的に時計回りであるその仮想表現、または物理空間ごとのその仮想表現として示されている。また、S135において、満足のいく向きおよび配置にS134において到達した場合、すべてのデバイスに対する導出された共通シーン記述(CSG)、そうでない場合、プロセスがすべての参加しているデバイスに提供する満足のいくCSGをチェックしている間に、S131、S132、およびS133のうちの1つまたは複数からさらなる情報が取得される。
【0068】
図13の例示的なフローチャート1300の各ステップは、
図5の例500の5G STAR US600などの各参加デバイスによって実施され得、または
図8の例800のクラウド/エッジ801などのクラウドエッジによって、または
図5および
図13のいずれかに関して例示されたデバイスのうちの1つまたは複数によって、部分的または大部分が実施されてもよい。
【0069】
前述した技術は、コンピュータ可読命令を使用し、1つ以上のコンピュータ可読媒体に物理的に記憶されたコンピュータソフトウェアとして、または具体的に構成される1つ以上のハードウェアプロセッサによって実装され得る。例えば、
図14は、開示されている主題の特定の実施形態を実施するのに適したコンピュータシステム1400を示す。
【0070】
コンピュータソフトウェアは、コンピュータ中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)などによって、直接に、または解釈、マイクロコードの実行などを介して実行できる命令を含むコードを作成するために、アセンブリ、コンパイル、リンクなどの機構の適用を受け得る、任意の適切な機械コードまたはコンピュータ言語を使用して符号化されることができる。
【0071】
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム機、モノのインターネットデバイスなどを含む様々なタイプのコンピュータまたはコンピュータの構成要素上で実行することができる。
【0072】
コンピュータシステム1400に関して
図14に示されている構成要素は、本質的に例示であり、本開示の実施形態を実施するコンピュータソフトウェアの使用または機能の範囲に関する限定を示唆することを意図されていない。構成要素の構成も、コンピュータシステム1400の例示的な実施形態に例示される構成要素のいずれか1つまたは組合せに関連する依存関係または要件を有すると解釈されるべきではない。
【0073】
コンピュータシステム1400は、特定のヒューマンインターフェース入力デバイスを含み得る。そのようなヒューマンインターフェース入力デバイスは、例えば、触覚入力(キーストローク、スワイプ、データグローブの動きなど)、音声入力(声、拍手など)、視覚入力(ジェスチャなど)、嗅覚入力(図示せず)を介して、1人または複数の人間ユーザによる入力に応答することができる。ヒューマン・インターフェース・デバイスは、オーディオ(音声、音楽、環境音など)、画像(走査画像、写真画像は静止画像カメラから取得など)、ビデオ(2次元ビデオ、立体ビデオを含む3次元ビデオなど)など、必ずしも人間による意識的な入力に直接関連しない特定の媒体を取り込むためにも使用され得る。
【0074】
入力ヒューマン・インターフェース・デバイスは、キーボード1401、マウス1402、トラックパッド1403、タッチスクリーン1410、ジョイスティック1405、マイク1406、スキャナ1408、カメラ1407のうちの1つまたは複数(それぞれの1つのみが図示される)を含み得る。
【0075】
コンピュータシステム1400は、特定のヒューマンインターフェース出力デバイスも含み得る。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および臭い/味を通じて、1人または複数の人間のユーザの感覚を刺激し得る。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン1410、またはジョイスティック1405による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスが存在する可能性もある)、音声出力デバイス(スピーカ1409、ヘッドホン(図示せず)など)、視覚的出力デバイス(CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン1410などであり、それぞれにタッチスクリーン入力機能を備えたものと備えていないものがあり、それぞれに触覚フィードバック機能の備えたものと備えていないものがあり、その一部は、ステレオグラフィック出力、仮想現実の眼鏡(図示せず)、ホログラフィックディスプレイおよびスモークタンク(図示せず)などの手段を介して二次元の視覚的出力、または三次元を超える出力を出力することが可能であり得る)、ならびにプリンタ(図示せず)を含み得る。
【0076】
コンピュータシステム1400はまた、人間がアクセス可能な記憶装置と、それらに関連付けられた媒体、例えば、CD/DVD1411または同様の媒体を備えたCD/DVD ROM/RW1420、サムドライブ1422、取り外し可能なハードドライブまたはソリッドステートドライブ1423、テープおよびフロッピーディスク(図示せず)などのレガシー磁気媒体、セキュリティドングル(図示せず)などの専用のROM/ASIC/PLDベースのデバイスを含めた光学媒体などを含むこともできる。
【0077】
当業者はまた、本開示の主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解するべきである。
【0078】
コンピュータシステム1400は、1つまたは複数の通信ネットワーク1498へのインターフェース1499も含むことができる。ネットワーク1498は、例えば、無線、有線、光とすることができる。さらに、ネットワーク1498は、ローカル、広域、大都市圏、車両および産業、リアルタイム、遅延耐性などである場合がある。ネットワーク1498の例は、イーサネットなどのローカル・エリア・ネットワーク、無線LAN、GSM、3G、4G、5G、LTEなどを含むセルラネットワーク、ケーブルテレビ、衛星テレビおよび地上波放送テレビを含むTV有線または無線広域デジタルネットワーク、CANBusなどを含む車両用および産業用などを含む。特定のネットワーク1498は一般に、特定の汎用目的のデータポートまたは周辺バス(1450および1451)(例えば、コンピュータシステム1400のUSBポートなど)に連結された外部のネットワーク・インターフェース・アダプタを必要とし、その他のものは一般に、以下に説明するようにシステムバスへの連結によってコンピュータシステム1400のコアに統合される(例えば、PCコンピュータシステムへのイーサネットインターフェースまたはスマートフォン・コンピュータ・システムへのセルラ・ネットワーク・インターフェース)。これらのネットワーク1498のいずれかを使用して、コンピュータシステム1400は他のエンティティと通信することができる。そのような通信は、単方向の受信のみ(例えば、放送TV)、単方向送信のみ(例えば、特定のCANbusデバイスへのCANbus)、または双方向、例えばローカルエリアまたは広域デジタルネットワークを使用する他のコンピュータシステムへの通信であり得る。特定のプロトコルおよびプロトコルスタックは、上述したように、それらのネットワークおよびネットワークインターフェースの各々で使用され得る。
【0079】
前述のヒューマン・インターフェース・デバイス、ヒューマンアクセス可能な記憶装置、およびネットワークインターフェースは、コンピュータシステム1400のコア1440に連結することができる。
【0080】
コア1440は、1つまたは複数の中央処理装置(CPU)1441、グラフィック処理装置(GPU)1442、グラフィックアダプタ1417、フィールドプログラマブルゲート領域(FPGA)1443の形式の専用のプログラマブル処理装置、特定のタスク用のハードウェアアクセラレータ1444などを含むことができる。これらのデバイスは、読み取り専用メモリ(ROM)1445、ランダムアクセスメモリ1446、ユーザがアクセスすることができない内部ハードドライブ、SSDなどの内部大容量記憶装置1447とともに、システムバス1448を介して接続され得る。一部のコンピュータシステムでは、システムバス1448に、1つまたは複数の物理的プラグの形態でアクセスして、追加のCPU、GPUなどによる拡張を可能にすることもできる。周辺機器は、コアのシステムバス1448に直接、または周辺バス1451を介して結合することができる。周辺バス用のアーキテクチャには、PCI、USBなどが含まれる。
【0081】
CPU1441、GPU1442、FPGA1443、およびアクセラレータ1444は、組み合わせて、前述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ROM1445またはRAM1446に記録することができる。移行データもまたRAM1446に記録することができるが、永続的データは、例えば内部大容量記憶装置1447に記録することができる。1つまたは複数のCPU1441、GPU1442、大容量記憶装置1447、ROM1445、RAM1446などと密接に関連付けることができるキャッシュメモリを使用することにより、メモリデバイスのいずれかへの高速記憶および高速取り出しを可能にすることできる。
【0082】
コンピュータ可読媒体は、様々なコンピュータ実装動作を実施するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであってもよく、またはコンピュータソフトウェア技術の当業者に周知の利用可能な種類のものであってもよい。
【0083】
一例として、限定としてではなく、アーキテクチャ、具体的にはコア1440を有するコンピュータシステム1400は、1つまたは複数の有形のコンピュータ可読媒体で具体化されたソフトウェアを実行するプロセッサ(CPU、GPU、FPGA、アクセラレータなどを含む)の結果として機能を提供することができる。そのようなコンピュータ可読媒体は、上記で紹介したようにユーザがアクセス可能な大容量記憶装置の他、コア内部大容量記憶装置1447またはROM1445などの非一時的性質のコア1440の特定の記憶装置にも関連付けられた媒体とすることができる。本開示の様々な実施形態を実施するソフトウェアは、そのようなデバイスに記録し、コア1440によって実行することができる。コンピュータ可読媒体は、特定の必要性に応じて、1つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア1440、具体的にはその中のプロセッサ(CPU、GPU、FPGAなどを含む)に、RAM1446に記録されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスに従って、そのようなデータ構造を変更することを含む、本明細書に記載の特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、本明細書に記載の特定のプロセスまたは特定のプロセスの特定の部分を実行するためにソフトウェアの代わりにまたはそれと一緒に動作することができる回路(例えば、アクセラレータ1444)に配線された、または他の方法で具体化されたロジックの結果として機能を提供することができる。ソフトウェアへの参照にはロジックを包含することができ、必要に応じてその逆も可能である。コンピュータ可読媒体への言及は、必要に応じて、実行のためのソフトウェアを記憶する回路(集積回路(IC)など)、実行のための論理を具現化する回路、またはその両方を包含することができる。本開示は、ハードウェアとソフトウェアの任意の適切な組合せを包含する。
【0084】
本開示はいくつかの例示的な実施形態を記載しているが、本開示の範囲内に入る変更、置換、および様々な代替の均等物が存在する。したがって、当業者は、本明細書では明示的に示されていないか、または記載されていないが、本開示の原理を具体化し、したがってその趣旨および範囲内にある多数のシステムおよび方法を考案できることが理解されよう。
【符号の説明】
【0085】
100 通信システム
101 端末
102 第2の端末
103 第1の端末
105 ネットワーク
201 ビデオソース
201 カメラ
202 エンコーダ
203 キャプチャサブシステム
204 ビデオビットストリーム
205 ストリーミングサーバ
208 コピー
209 ディスプレイ
210 ストリーム
211 ビデオデコーダ
212 ストリーミングクライアント
213 ストリーム
300 デコーダ
301 チャネル
302 受信器
303 バッファメモリ
303 エンコーダ
304 パーサ
305 スケーラ/逆変換ユニット
306 動き補償予測ユニット
307 イントラ予測ユニット
308 参照ピクチャメモリ
308 参照ピクチャバッファ
309 現在の参照ピクチャ
310 アグリゲータ
311 ループフィルタ
311 ユニット
312 レンダリング装置
312 ディスプレイ
313 シンボル
400 エンコーダ
401 ソース
402 エンコーダ
402 コントローラ
403 ソースコーダ
403 ビデオコーダ
404 予測器
405 コントローラ
405 参照ピクチャキャッシュ
405 参照ピクチャメモリ
406 デコーダ
407 コーディングエンジン
408 エントロピーコーダ
409 送信器
410 符号化ビデオシーケンス
411 通信チャネル
500 例
501 クラウド
557 参照ピクチャメモリ
600 受信器
700 例
800 例
801 エッジ
1000 例
1001 オフィス
1002 生活物理空間
1003 ロビー
1101 記述
1102 CSG
1200 例
1201 オフィス
1202 生活物理空間
1203 ロビー
1300 フローチャート
1400 コンピュータシステム
1401 キーボード
1402 マウス
1403 トラックパッド
1405 ジョイスティック
1406 マイク
1407 カメラ
1408 スキャナ
1409 デバイススピーカ
1410 タッチスクリーン
1417 グラフィックアダプタ
1422 サムドライブ
1423 ソリッドステートドライブ
1440 コア
1441 CPU
1442 GPU
1443 FPGA
1444 アクセラレータ
1445 ROM
1446 RAM
1447 大容量記憶装置
1448 システムバス
1450 周辺バス
1451 周辺バス
1498 通信ネットワーク
1499 インターフェース
【手続補正書】
【提出日】2023-10-25
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
拡張現実(AR)ビデオストリーミングのための方法であって、
第1のARデバイスおよび第2のARデバイスからビデオデータを取得するステップであって、前記第1のARデバイスは、第1の物理空間内で第1のユーザによって装着されており、前記第2のARデバイスは、前記第1の物理空間とは別の第2の物理空間内で第2のユーザによって装着されている、ステップと、
前記ビデオデータに基づいて、前記第1の物理空間内の任意のオブジェクトに対する前記第1のユーザの第1の向きを決定するステップと、
前記ビデオデータに基づいて、前記第2の物理空間上の任意のオブジェクトに対する第2のユーザの第2の向きを決定するステップと、
前記第1の向きおよび前記第2の向きを決定することに基づいて、前記第1のARデバイスおよび前記第2のARデバイスの両方についての共通シーン記述を生成するステップと、
前記共通シーン記述に基づいて、前記第1のユーザが位置している前記第1の物理空間を含む仮想シーン内の
第1のオブジェクトにオーバーレイされた前記第2のユーザの表現を前記第1のユーザに表示するように前記第1のARデバイスを制御するステップと
を含む、方法。
【請求項2】
前記共通シーン記述を生成するステップは、前記第1のARデバイスによって実施される、
請求項1に記載の方法。
【請求項3】
前記共通シーン記述を生成するステップは、前記第1のARデバイスおよび前記第2のARデバイスの各々とは別個のネットワークデバイスによって実施される、
請求項1に記載の方法。
【請求項4】
前記
第1のオブジェクト
にオーバーレイされた前記第2のユーザ
の表現を
前記第1のユーザに表示するように前記第1のARデバイスを制御するステップが、前記第1の物理空間内の少なくとも1つの他のオブジェクトの部分に前記第2のユーザを仮想的にオーバーレイするかどうかをチェックするステップにさらに基づく、
請求項1に記載の方法。
【請求項5】
第3のARデバイスから第3のビデオデータを取得するステップであって、前記第3のARデバイスは、第3の物理空間内の第3のユーザによって装着されている、ステップと、
前記第3のビデオデータに基づいて、前記第3の物理空間内の任意のオブジェクトに対する前記第3のユーザの第3の向きを決定するステップと、
前記第3の向きを決定するステップにさらに基づいて前記共通シーン記述を生成するステップと
をさらに含む、請求項1に記載の方法。
【請求項6】
前記共通シーン記述に基づいて、前記第3のユーザが前記第1の物理空間内の第2のオブジェクトに仮想的にオーバーレイされるように、前記第1のユーザに前記第3のユーザを表示するように前記第1のARデバイスを制御するステップ、
をさらに含む、請求項5に記載の方法。
【請求項7】
前記
第1のオブジェクト
にオーバーレイされた前記第2のユーザおよび前記第2のオブジェク
トにオーバーレイされた前記第3のユーザの向きは、前記第2のユーザおよび前記第3のユーザの各々の相対的な視点に対して、前記第2の物理空間および前記第3の物理空間の各々において対応する向きで前記第1のユーザが他のオブジェクトに仮想的にオーバーレイされるべきであるとの決定に基づいて決定される、
請求項6に記載の方法。
【請求項8】
前記第1の物理空間、前記第2の物理空間、および前記第3の物理空間の少なくとも1つは、住居内の物理空間であり、
前記第1の物理空間、前記第2の物理空間、および前記第3の物理空間のうちの他のものは、オフィスおよび公共空間のいずれかにある、
請求項7に記載の方法。
【請求項9】
前記第1の
物理空間内の任意のオブジェクトおよび前記第2の
物理空間内の任意のオブジェクトの少なくとも一方は、オフィスの椅子
を含み、
前記第3の
物理空間内の任意のオブジェクトは、二人掛けのソファ、長椅子、およびコーヒーテーブルのうちの1つ
を含む、
請求項
5に記載の方法。
【請求項10】
前記共通シーン記述は、前記第1のARデバイス、前記第2のARデバイス、および前記第3のARデバイスの各々に提供される、
請求項5に記載の方法。
【請求項11】
拡張現実(AR)ビデオストリーミングのための装置であって、
コンピュータ・プログラム・コードを記録するように構成された少なくとも1つのメモリと、
前記コンピュータ・プログラム・コードにアクセスし、前記コンピュータ・プログラム・コード
によって命令され、請求項1から10のうちのいずれか一項に記載の方法を実行するように構成された少なくとも1つのプロセッサと
を備え
る、
装置。
【請求項12】
請求項1から10のうちのいずれか一項に記載の方法をコンピュータ
に実行させる
命令を含む、コンピュータプログラム。
【国際調査報告】