特表2024-513815 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・アメリカ・エルエルシーの特許一覧

特表2024-513815シーンに関連付けられたマンハッタンレイアウトを推定するための方法、装置及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9A
9B
9C
10A
10B
10C
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-03-27

(54)【発明の名称】シーンに関連付けられたマンハッタンレイアウトを推定するための方法、装置及びコンピュータプログラム

(51)【国際特許分類】

G06V 10/44 20220101AFI20240319BHJP

G06T 7/00 20170101ALI20240319BHJP

G06T 7/60 20170101ALI20240319BHJP

G06T 7/579 20170101ALI20240319BHJP

【ＦＩ】

G06V10/44

G06T7/00 C

G06T7/60 300

G06T7/579

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023560170

(86)(22)【出願日】2022-11-08

(85)【翻訳文提出日】2023-09-28

(86)【国際出願番号】 US2022079437

(87)【国際公開番号】W WO2023149969

(87)【国際公開日】2023-08-10

(31)【優先権主張番号】63/306,001

(32)【優先日】2022-02-02

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/981,156

(32)【優先日】2022-11-04

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】520353802

【氏名又は名称】テンセント・アメリカ・エルエルシー

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100150197

【弁理士】

【氏名又は名称】松尾直樹

(72)【発明者】

【氏名】ハイチャオ・ジュ

(72)【発明者】

【氏名】ビン・ジアン

(72)【発明者】

【氏名】ウェイウェイ・フェン

(72)【発明者】

【氏名】ル・ヘ

(72)【発明者】

【氏名】ケリン・リュウ

(72)【発明者】

【氏名】シャン・リュウ

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096BA08

5L096FA03

5L096FA05

5L096FA79

(57)【要約】

シーンの複数の２次元（２Ｄ）画像が受信される。複数の２Ｄ画像の各々のジオメトリ情報および意味情報が決定される。ジオメトリ情報は、それぞれの２Ｄ画像における検出された線および基準方向を示す。意味情報は、それぞれの２Ｄ画像におけるピクセルの分類情報を含む。シーンのそれぞれの２Ｄ画像に関連付けられたレイアウト推定は、それぞれの２Ｄ画像のジオメトリ情報および意味情報に基づいて決定される。シーンに関連付けられた結合レイアウト推定は、シーンの複数の２Ｄ画像に関連付けられた複数の決定されたレイアウト推定に基づいて決定される。シーンに関連付けられたマンハッタンレイアウトは、結合レイアウト推定に基づいて生成される。マンハッタンレイアウトは、互いに直交する壁面を含むシーンの少なくとも３次元（３Ｄ）形状を含む。

【特許請求の範囲】

【請求項1】

シーンに関連付けられたマンハッタンレイアウトを推定するための方法であって、前記方法は、
前記シーンの複数の２次元（２Ｄ）画像を受信するステップと、
前記複数の２Ｄ画像の各々のジオメトリ情報および意味情報を決定するステップであって、前記ジオメトリ情報は、前記それぞれの２Ｄ画像において検出された線および基準方向を示し、前記意味情報は、前記それぞれの２Ｄ画像におけるピクセルの分類情報を含む、ステップと、
前記それぞれの２Ｄ画像の前記ジオメトリ情報および前記意味情報に基づいて、前記シーンの前記それぞれの２Ｄ画像に関連付けられたレイアウト推定を決定するステップと、
前記シーンの前記複数の２Ｄ画像に関連付けられた複数の前記決定されたレイアウト推定に基づいて、前記シーンに関連付けられた結合レイアウト推定を決定するステップと、
前記結合レイアウト推定に基づいて、前記シーンに関連付けられた前記マンハッタンレイアウトを生成するステップであって、前記マンハッタンレイアウトは、互いに直交する壁面を含む前記シーンの少なくとも３次元（３Ｄ）形状を含む、ステップとを含む、方法。

【請求項2】

前記ジオメトリ情報および前記意味情報を決定する前記ステップは、
前記複数の２Ｄ画像のうちの第１の２Ｄ画像の第１のジオメトリ情報を抽出するステップであって、前記第１のジオメトリ情報は、検出された線、前記第１の２Ｄ画像の基準方向、天井から地面までの第１の距離とカメラから前記地面までの第２の距離との比、または前記複数の２Ｄ画像のうちの前記第１の２Ｄ画像と第２の２Ｄ画像との間の相対姿勢のうちの少なくとも１つを含む、ステップと、
前記第１の２Ｄ画像のピクセルをラベル付けして第１の意味情報を生成するステップであって、前記第１の意味情報は、前記第１の２Ｄ画像における前記ピクセルの第１の構造情報を示す、ステップとをさらに含む、請求項１に記載の方法。

【請求項3】

前記シーンの前記それぞれの２Ｄ画像に関連付けられた前記レイアウト推定を決定する前記ステップは、
前記第１の２Ｄ画像の前記第１のジオメトリ情報および前記第１の意味情報に基づいて、前記シーンに関連付けられた前記複数の前記決定されたレイアウト推定の第１のレイアウト推定を決定するステップとをさらに含み、
前記第１のレイアウト推定を決定する前記ステップは、
前記検出された線の各々が前記シーンにおける壁の境界に対応する境界線であるかどうかを決定するステップと、
前記検出された線の前記境界線を前記第１の２Ｄ画像の前記基準方向と位置合わせするステップと、
２Ｄ多角形ノイズ除去および階段除去のうちの１つを用いて、前記位置合わせされた境界線に基づいて前記第１のレイアウト推定を示す第１の多角形を生成するステップとをさらに含む、請求項２に記載の方法。

【請求項4】

前記第１の多角形を生成する前記ステップが、
前記境界線の天井境界線と床境界線との組み合わせに基づいて、複数の未完了境界線を推定するステップと、
前記複数の未完了境界線のうちの一対の未完了境界線を、（ｉ）前記一対の未完了境界線が平行であることに応答して前記一対の未完了境界線に垂直線を追加するステップ、および（ｉｉ）前記一対の未完了境界線のうちの少なくとも１つを拡張するステップであって、その結果、前記一対の未完了境界線の交点が前記拡張された一対の未完了境界線上に位置する、ステップのうちの一方に基づいて接続するステップとのうちの１つに基づいて前記境界線の前記複数の未完了境界線を完成させるステップをさらに含む、請求項３に記載の方法。

【請求項5】

前記シーンに関連付けられた前記結合レイアウト推定を決定する前記ステップは、
多角形和アルゴリズムを介して複数の多角形を結合することによって基準多角形を決定するステップであって、前記複数の多角形の各々は、前記複数の前記決定されたレイアウト推定のそれぞれのレイアウト推定に対応する、ステップと、
前記基準多角形に基づいて収縮多角形を決定するステップであって、前記収縮多角形は、前記基準多角形のエッジから更新される更新されたエッジを含む、ステップと、
前記２Ｄ多角形ノイズ除去および前記階段除去のうちの１つを用いて、前記収縮多角形に基づいて最終多角形を決定するステップであって、前記最終多角形が、前記シーンに関連付けられた前記結合レイアウト推定に対応する、ステップとをさらに含む、請求項３に記載の方法。

【請求項6】

前記収縮多角形を決定する前記ステップは、
前記基準多角形の前記エッジについて前記複数の多角形から複数の候補エッジを決定するステップであって、前記複数の候補エッジの各々は、前記基準多角形のそれぞれのエッジに対応する、ステップと、
前記基準多角形の前記対応する１つまたは複数のエッジよりも前記複数の２Ｄ画像において元のビュー位置に近い前記１つまたは複数の候補エッジに応答して、前記基準多角形の１つまたは複数のエッジを前記対応する１つまたは複数の候補エッジで置き換えることにより、前記収縮多角形の前記更新されたエッジを生成するステップとをさらに含む、請求項５に記載の方法。

【請求項7】

前記複数の候補エッジの各々は、前記基準多角形の前記対応するエッジと平行であり、
前記それぞれの候補エッジと前記基準多角形の前記対応するエッジとの間の投影された重複部分は、閾値よりも大きい、
請求項６に記載の方法。

【請求項8】

前記シーンに関連付けられた前記結合レイアウト推定を決定する前記ステップは、
前記最終多角形のエッジを含むエッジ集合を決定するステップと、
前記エッジ集合に基づいて複数のエッジグループを生成するステップと、
前記エッジ集合の１つまたは複数のエッジグループの複数の平均エッジによって示される前記最終多角形の複数の内縁を生成するステップであって、前記複数のエッジグループの前記１つまたは複数のエッジグループの各々は、目標値よりも大きいそれぞれの数のエッジを含み、前記複数の平均エッジの各々は、前記１つまたは複数のエッジグループのうちのそれぞれの１つのエッジを平均化することによって取得される、ステップとをさらに含む、請求項５に記載の方法。

【請求項9】

前記複数のエッジグループは、第１のエッジグループを含み、
前記第１のエッジグループは、第１のエッジおよび第２のエッジをさらに含み、前記第１のエッジおよび前記第２のエッジは平行であり、前記第１のエッジと前記第２のエッジとの間の距離は第１の閾値未満であり、前記第１のエッジと前記第２のエッジとの間の投影された重複領域は第２の閾値より大きい、
請求項８に記載の方法。

【請求項10】

前記シーンに関連付けられた前記マンハッタンレイアウトを生成する前記ステップは、
前記結合レイアウト推定から三角形分割された三角形メッシュ、前記結合レイアウト推定から四角形分割された四辺形メッシュ、前記三角形メッシュおよび前記四辺形メッシュのうちの１つからサンプリングされたサンプリング点、またはボクセル化を介して前記三角形メッシュおよび前記四辺形メッシュのうちの１つから生成された離散グリッドのうちの１つに基づいて、前記シーンに関連付けられた前記マンハッタンレイアウトを生成するステップをさらに含む、請求項１に記載の方法。

【請求項11】

前記シーンに関連付けられた前記マンハッタンレイアウトは、前記結合レイアウト推定から三角形分割された前記三角形メッシュに基づいて生成され、
前記シーンに関連付けられた前記マンハッタンレイアウトを生成する前記ステップは、
前記結合レイアウト推定を三角形分割することによって、前記シーンにおける天井面および床面を生成するステップと、
前記シーンにおける天井境界線および床境界線を囲む長方形を三角形分割することによって前記シーンにおいて前記壁面を生成するステップと、
レイキャスティングベースのプロセスを介して前記シーンに関連付けられた前記マンハッタンレイアウトのテクスチャを生成するステップとをさらに含む、請求項１０に記載の方法。

【請求項12】

シーンに関連付けられたマンハッタンレイアウトを推定するための装置であって、前記装置は、
前記シーンの複数の２次元（２Ｄ）画像を受信し、
前記複数の２Ｄ画像の各々のジオメトリ情報および意味情報を決定し、前記ジオメトリ情報は、前記それぞれの２Ｄ画像において検出された線および基準方向を示し、前記意味情報は、前記それぞれの２Ｄ画像におけるピクセルの分類情報を含み、
前記それぞれの２Ｄ画像の前記ジオメトリ情報および前記意味情報に基づいて、前記シーンの前記それぞれの２Ｄ画像に関連付けられたレイアウト推定を決定し、
前記シーンの前記複数の２Ｄ画像に関連付けられた複数の前記決定されたレイアウト推定に基づいて、前記シーンに関連付けられた結合レイアウト推定を決定し、
前記結合レイアウト推定に基づいて、前記シーンに関連付けられた前記マンハッタンレイアウトを生成し、前記マンハッタンレイアウトは、互いに直交する壁面を含む前記シーンの少なくとも３次元（３Ｄ）形状を含む
ように構成された処理回路を備える、装置。

【請求項13】

前記処理回路は、
前記複数の２Ｄ画像のうちの第１の２Ｄ画像の第１のジオメトリ情報を抽出し、前記第１のジオメトリ情報は、検出された線、前記第１の２Ｄ画像の基準方向、天井から地面までの第１の距離とカメラから前記地面までの第２の距離との比、または前記複数の２Ｄ画像のうちの前記第１の２Ｄ画像と第２の２Ｄ画像との間の相対姿勢のうちの少なくとも１つを含み、
前記第１の２Ｄ画像のピクセルをラベル付けして第１の意味情報を生成し、前記第１の意味情報は、前記第１の２Ｄ画像における前記ピクセルの第１の構造情報を示すように構成される、請求項１２に記載の装置。

【請求項14】

前記処理回路は、
前記第１の２Ｄ画像の前記第１のジオメトリ情報および前記第１の意味情報に基づいて、前記シーンに関連付けられた前記複数の前記決定されたレイアウト推定の第１のレイアウト推定を決定するように構成され、
前記第１のレイアウト推定を決定するために、前記処理回路は、
前記検出された線の各々が前記シーンにおける壁の境界に対応する境界線であるかどうかを決定し、
前記検出された線の前記境界線を前記第１の２Ｄ画像の前記基準方向と位置合わせし、
２Ｄ多角形ノイズ除去および階段除去のうちの１つを用いて、前記位置合わせされた境界線に基づいて前記第１のレイアウト推定を示す第１の多角形を生成するようにさらに構成される、請求項１３に記載の装置。

【請求項15】

前記処理回路は、
前記境界線の天井境界線と床境界線との組み合わせに基づいて、複数の未完了境界線を推定することと、
前記複数の未完了境界線のうちの一対の未完了境界線を、（ｉ）前記一対の未完了境界線が平行であることに応答して前記一対の未完了境界線に垂直線を追加すること、および（ｉｉ）前記一対の未完了境界線のうちの少なくとも１つを拡張することであって、その結果、前記一対の未完了境界線の交点が前記拡張された一対の未完了境界線上に位置する、ことのうちの一方に基づいて接続することとのうちの１つに基づいて前記境界線の前記複数の未完了境界線を完成させるように構成される、請求項１４に記載の装置。

【請求項16】

前記処理回路は、
多角形和アルゴリズムを介して複数の多角形を結合することによって基準多角形を決定し、前記複数の多角形の各々は、前記複数の前記決定されたレイアウト推定のそれぞれのレイアウト推定に対応し、
前記基準多角形に基づいて収縮多角形を決定し、前記収縮多角形は、前記基準多角形のエッジから更新される更新されたエッジを含み、
前記２Ｄ多角形ノイズ除去および前記階段除去のうちの１つを用いて、前記収縮多角形に基づいて最終多角形を決定し、前記最終多角形が、前記シーンに関連付けられた前記結合レイアウト推定に対応するように構成される、請求項１４に記載の装置。

【請求項17】

前記処理回路は、
前記基準多角形の前記エッジについて前記複数の多角形から複数の候補エッジを決定し、前記複数の候補エッジの各々は、前記基準多角形のそれぞれのエッジに対応し、
前記基準多角形の前記対応する１つまたは複数のエッジよりも前記複数の２Ｄ画像において元のビュー位置に近い前記１つまたは複数の候補エッジに応答して、前記基準多角形の１つまたは複数のエッジを前記対応する１つまたは複数の候補エッジで置き換えることにより、前記収縮多角形の前記更新されたエッジを生成するように構成される、請求項１６に記載の装置。

【請求項18】

前記複数の候補エッジの各々は、前記基準多角形の前記対応するエッジと平行であり、
前記それぞれの候補エッジと前記基準多角形の前記対応するエッジとの間の投影された重複部分は、閾値よりも大きい、
請求項１７に記載の装置。

【請求項19】

前記処理回路は、
前記最終多角形のエッジを含むエッジ集合を決定し、
前記エッジ集合に基づいて複数のエッジグループを生成し、
前記エッジ集合の１つまたは複数のエッジグループの複数の平均エッジによって示される前記最終多角形の複数の内縁を生成し、前記複数のエッジグループの前記１つまたは複数のエッジグループの各々は、目標値よりも大きいそれぞれの数のエッジを含み、前記複数の平均エッジの各々は、前記１つまたは複数のエッジグループのうちのそれぞれの１つのエッジを平均化することによって取得されるように構成される、請求項１６に記載の装置。

【請求項20】

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、２０２２年１１月４日に出願された米国特許出願第１７／９８１，１５６号「ジオメトリおよび意味情報を使用したマンハッタンレイアウト推定」に対する優先権の利益を主張し、同出願は、２０２２年２月２日に出願された米国仮出願第６３／３０６，００１号「ジオメトリおよび意味セグメンテーション情報を使用した複数のパノラマ画像からのマンハッタンレイアウト推定のための方法」に対する優先権の利益を主張する。先行出願の開示は、その全体が参照により本明細書に組み込まれる。

【0002】

本開示は、一般に、画像コーディングに関連する実施形態を説明する。

【背景技術】

【0003】

本明細書で提供される背景技術の説明は、本開示のコンテキストを一般的に提示することを目的とする。本発明者らの研究は、この背景技術の項に記載されている限りにおいて、および出願時に先行技術として認められない可能性がある説明の態様は、本開示に対する先行技術として明示的にも暗示的にも認められない。

【0004】

３次元（３Ｄ）空間または形状における世界のオブジェクト、世界の環境などの世界をキャプチャし表現するための種々の技術が開発されてきた。世界の３Ｄ表現により、より没入型のインタラクション、およびより没入型のコミュニケーションができるようになる可能性がある。いくつかの例では、そのような没入型コンテンツを表すために３Ｄ形状が広く使用されている。

【発明の概要】

【課題を解決するための手段】

【0005】

本開示の態様は、画像コーディング（例えば、圧縮および展開）のための方法および装置を提供する。いくつかの例では、画像コーディングのための装置は処理回路を含む。

【0006】

本開示の一態様によれば、シーンに関連付けられたマンハッタンレイアウトを推定するための方法が提供される。本方法では、シーンの複数の２次元（２Ｄ）画像を受信することができる。複数の２Ｄ画像の各々のジオメトリ情報および意味情報を決定することができる。ジオメトリ情報は、それぞれの２Ｄ画像において検出された線および基準方向を示すことができる。意味情報は、それぞれの２Ｄ画像においてピクセルの分類情報を含むことができる。シーンのそれぞれの２Ｄ画像に関連付けられたレイアウト推定は、それぞれの２Ｄ画像のジオメトリ情報および意味情報に基づいて決定することができる。シーンに関連付けられた結合レイアウト推定は、シーンの複数の２Ｄ画像に関連付けられた複数の決定されたレイアウト推定に基づいて決定することができる。シーンに関連付けられたマンハッタンレイアウトは、結合レイアウト推定に基づいて生成することができる。マンハッタンレイアウトは、互いに直交する壁面を含むシーンの少なくとも３次元（３Ｄ）形状を含むことができる。

【0007】

ジオメトリ情報および意味情報を決定するために、複数の２Ｄ画像のうちの第１の２Ｄ画像の第１のジオメトリ情報を抽出することができる。第１のジオメトリ情報は、検出された線、第１の２Ｄ画像の基準方向、天井から地面までの第１の距離とカメラから地面までの第２の距離との比、または複数の２Ｄ画像のうちの第１の２Ｄ画像と第２の２Ｄ画像の間の相対姿勢（例えば、角度または距離）のうちの少なくとも１つを含むことができる。第１の２Ｄ画像のピクセルは、第１の意味情報を生成するためにラベル付けされることができ、第１の意味情報は、第１の２Ｄ画像においてピクセルの第１の構造情報を示すことができる。

【0008】

シーンのそれぞれの２Ｄ画像に関連付けられたレイアウト推定を決定するために、シーンに関連付けられた複数のレイアウト推定の第１のレイアウト推定を、第１の２Ｄ画像の第１のジオメトリ情報および第１の意味情報に基づいて決定することができる。第１のレイアウト推定を決定するために、検出された線の各々がシーンにおける壁の境界に対応する境界線であるかどうかを決定することができる。検出された線の境界線は、第１の２Ｄ画像の基準方向と位置合わせすることができる。第１のレイアウト推定を示す第１の多角形は、２Ｄ多角形ノイズ除去および階段除去のうちの１つを用いて位置合わせされた境界線に基づいて生成することができる。

【0009】

第１の多角形を生成するために、境界線の複数の未完了境界線は、（ｉ）境界線の天井境界線および床境界線の組み合わせに基づいて複数の未完了境界線を推定すること、および（ｉｉ）複数の未完了境界線の一対の未完了境界線を接続することのうちの１つに基づいて完成することができる。一対の未完了境界線は、（ｉ）一対の未完了境界線が平行であることに応じて一対の未完了境界線に垂直線を追加すること、および（ｉｉ）一対の未完了境界線の少なくとも１つを拡張することであって、その結果、一対の未完了境界線の交点が拡張された一対の未完了境界線上に位置する、ことの１つに基づいて接続することができる。

【0010】

シーンに関連付けられた結合レイアウト推定を決定するために、基準多角形は、多角形和アルゴリズムを介して複数の多角形を結合することによって決定することができる。複数の多角形の各々は、複数の決定されたレイアウト推定のそれぞれのレイアウト推定に対応することができる。収縮多角形は、基準多角形に基づいて決定することができる。収縮多角形は、基準多角形のエッジから更新される更新されたエッジを含むことができる。最終多角形は、２Ｄ多角形ノイズ除去および階段除去のうちの１つを用いて収縮多角形に基づいて決定することができる。最終多角形は、シーンに関連付けられた結合レイアウト推定に対応することができる。

【0011】

収縮多角形を決定するために、基準多角形のエッジの複数の多角形から複数の候補エッジを決定することができる。複数の候補エッジの各々は、基準多角形のそれぞれのエッジに対応することができる。収縮多角形の更新されたエッジは、基準多角形の対応する１つまたは複数のエッジよりも複数の画像における元のビュー位置に近い１つまたは複数の候補エッジに応答して、基準多角形の１つまたは複数のエッジを対応する１つまたは複数の候補エッジで置き換えることによって生成することができる。

【0012】

いくつかの実施形態では、複数の候補エッジの各々は、基準多角形の対応するエッジに平行であることができる。それぞれの候補エッジと基準多角形の対応するエッジの間の投影された重複部分は、閾値よりも大きくすることができる。

【0013】

シーンに関連付けられた結合レイアウト推定を決定するために、最終多角形のエッジを含むエッジ集合を決定することができる。エッジ集合に基づいて複数のエッジグループを生成することができる。最終多角形の複数の内縁を生成することができる。複数の内縁は、エッジ集合の１つまたは複数のエッジグループの複数の平均エッジによって示すことができる。複数のエッジグループのうちの１つまたは複数のエッジグループの各々は、目標値よりも大きいそれぞれの数のエッジを含むことができる。複数の平均エッジの各々は、１つまたは複数のエッジグループのそれぞれ１つのエッジを平均化することによって取得することができる。

【0014】

いくつかの実施形態では、複数のエッジグループは、第１のエッジグループを含むことができる。第１のエッジグループは、第１のエッジおよび第２のエッジをさらに含むことができる。第１のエッジおよび第２のエッジは平行であることができる。第１のエッジと第２のエッジの間の距離は、第１の閾値未満であることができる。第１のエッジと第２のエッジとの間の投影された重複領域は、第２の閾値よりも大きくすることができる。

【0015】

シーンに関連付けられたマンハッタンレイアウトを生成するために、シーンに関連付けられたマンハッタンレイアウトは、結合レイアウト推定から三角形分割された三角形メッシュ、結合レイアウト推定から四角形分割された四辺形メッシュ、三角形メッシュおよび四辺形メッシュのうちの１つからサンプリングされたサンプリング点、またはボクセル化を介して三角形メッシュおよび四辺形メッシュのうちの１つから生成された離散グリッドのうちの１つに基づいて生成することができる。

【0016】

いくつかの実施形態では、シーンに関連付けられたマンハッタンレイアウトは、結合レイアウト推定から三角形分割された三角形メッシュに基づいて生成することができる。したがって、シーンに関連付けられたマンハッタンレイアウトを生成するために、結合レイアウト推定を三角形分割することによって、シーンにおける天井面および床面を生成することができる。シーンにおける壁面は、シーンにおける天井境界線および床境界線を囲む長方形を三角形分割することによって生成することができる。シーンに関連付けられたマンハッタンレイアウトのテクスチャは、レイキャスティングベースのプロセスを介して生成することができる。

【0017】

本開示の別の態様によれば、装置が提供される。装置は、処理回路を含む。処理回路は、シーンに関連付けられたマンハッタンレイアウトを推定するための方法のいずれかを実行するように構成することができる。

【0018】

本開示の態様はまた、コンピュータによって実行されると、シーンに関連付けられたマンハッタンレイアウトを推定するための方法のいずれかをコンピュータに実行させる命令を記憶する非一時的コンピュータ可読媒体を提供する。

【0019】

開示された主題のさらなる特徴、性質および様々な利点は、以下の詳細な説明および添付の図面から、より明らかになるであろう。

【図面の簡単な説明】

【0020】

【図1】いくつかの例における通信システムのブロック図を示す。

【図2】いくつかの例におけるストリーミングシステムのブロック図を示す。

【図3】いくつかの例における点群フレームをエンコーディングするためのエンコーダのブロック図を示す。

【図4】いくつかの例における点群フレームに対応する圧縮されたビットストリームをデコーディングするためのデコーダのブロック図を示す。

【図5】いくつかの例におけるビデオデコーダのブロック図を示す。

【図6】いくつかの例におけるビデオエンコーダのブロック図を示す。

【図7】いくつかの例における、点群フレームをエンコーディングするためのエンコーダのブロック図を示す。

【図8】いくつかの例における点群フレームに対応する圧縮されたビットストリームをデコーディングするためのデコーダのブロック図を示す。

【図9A】いくつかの例における一例示的なパノラマ画像を示す図である。

【図9B】いくつかの例においてジオメトリ情報でマークされた一例示的なパノラマ画像を示す図である。

【図9C】いくつかの例において意味情報でマークされた一例示的なパノラマ画像を示す図である。

【図10A】いくつかの例における一例示的な推定された部屋レイアウトを示す図である。

【図10B】いくつかの例における推定された部屋レイアウトを表す一例示的な多角形を示す図である。

【図10C】いくつかの例において多角形に基づいて生成された一例示的な３次元メッシュを示す図である。

【図11】いくつかの例におけるマンハッタンレイアウトを推定するためのシステムの概要を示す図である。

【図12】いくつかの例における画像処理のためのフレームワークのブロック図を示す。

【図13】いくつかの例におけるシーンに関連付けられたマンハッタンレイアウトを推定するプロセスの概要を示すフローチャートである。

【図14】いくつかの例におけるコンピュータシステムの概略図である。

【発明を実施するための形態】

【0021】

本開示の態様は、３次元（３Ｄ）メディア処理の分野における技術を含む。

【0022】

３Ｄキャプチャ、３Ｄモデリング、３Ｄレンダリングなどの進歩など、３Ｄメディア処理における技術的開発は、一部のプラットフォームおよびデバイスにわたる３Ｄメディアコンテンツのユビキタスな存在を促進してきた。一例では、赤ん坊の最初の一歩をある大陸でキャプチャすることができ、メディア技術は、祖父母が別の大陸で赤ん坊を見て（場合によっては相互作用して）、赤ん坊との没入型体験を楽しむということを可能にすることができる。本開示の一態様によれば、没入型体験を改善するために、３Ｄモデルはますます高度化されており、３Ｄモデルの作成および消費は、データストレージおよびデータ伝送リソースなどの相当量のデータリソースを占有する。

【0023】

いくつかの実施形態では、点群およびメッシュを３Ｄモデルとして使用して、没入型コンテンツを表すことができる。

【0024】

点群は、概して、３Ｄ空間内のポイントのセットを指すことができ、各ポイントは、色、材料特性、テクスチャ情報、強度属性、反映率属性、動き関連属性、モダリティ属性、および種々の他の属性などの関連する属性を有する。点群は、オブジェクトまたはシーンをかかる点の合成として再構築するために使用され得る。

【0025】

オブジェクトのメッシュ（メッシュモデルとも称される）は、オブジェクトの表面を記述する多角形を含み得る。各多角形は、３Ｄ空間における多角形の頂点と、頂点がどのように多角形に接続されるかの情報とによって定義することができる。頂点がどのように接続されるかの情報は、接続性情報と称される。いくつかの例では、メッシュはまた、頂点に関連付けられた、色、法線などの属性を含み得る。

【0026】

いくつかの実施形態では、点群圧縮（ＰＣＣ）のための一部のコーディングツールが、メッシュ圧縮のために使用され得る。例えば、メッシュを再メッシュ化して、新しいメッシュを生成することができ、新しいメッシュの頂点の接続性情報を推測する（または事前定義する）ことができる。新しいメッシュの頂点、および新しいメッシュの頂点に関連付けられた属性は、点群内の点と見なすことができ、ＰＣＣコーデックを使用して圧縮することができる。

【0027】

点群は、オブジェクトまたはシーンをかかる点の合成として再構築するために使用され得る。点は、様々な設定で複数のカメラ、深度センサまたはライダを使用してキャプチャされることができ、再構成されたシーンまたはオブジェクトを現実的に表現するために数千から最大数十億の点で構成され得る。パッチは、概して、点群によって記述される表面の連続したサブセットを指すことができる。一例では、パッチは、互いからの偏差が閾値量未満である表面法線ベクトルを有する点を含む。

【0028】

ＰＣＣは、Ｇ－ＰＣＣと称されるジオメトリベースの方式、Ｖ－ＰＣＣと称されるビデオコーディングベースの方式など、種々の方式に従って実行され得る。本開示の一部の態様によれば、Ｇ－ＰＣＣは、３Ｄジオメトリを直接エンコーディングし、ビデオコーディングと多くを共有することのない純粋にジオメトリベースの手法であり、Ｖ－ＰＣＣは、ビデオコーディングに大きく基づく。例えば、Ｖ－ＰＣＣは、３Ｄクラウドの点を２Ｄグリッド（画像）のピクセルにマッピングすることができる。Ｖ－ＰＣＣ方式は、点群圧縮のために汎用ビデオコーデックを利用することができる。本開示におけるＰＣＣコーデック（エンコーダ／デコーダ）は、Ｇ－ＰＣＣコーデック（エンコーダ／デコーダ）またはＶ－ＰＣＣコーデックとすることができる。

【0029】

本開示の一態様によれば、Ｖ－ＰＣＣ方式は、ビデオコーデックを使用して、点群のジオメトリ、占有、およびテクスチャを３つの別個のビデオシーケンスとして圧縮することができる。３つのビデオシーケンスを解釈するために必要な追加のメタデータは、別々に圧縮される。ビットストリーム全体の小部分はメタデータであり、これは、一例ではソフトウェア実装形態を使って効率的にエンコーディング／デコーディングされることができる。情報の大部分は、ビデオコーデックによって処理される。

【0030】

図１は、いくつかの例における通信システム（１００）のブロック図を示す。通信システム（１００）は、例えばネットワーク（１５０）を介して互いに通信可能な複数の端末デバイスを含む。例えば、通信システム（１００）は、ネットワーク（１５０）を介して相互接続された一対の端末デバイス（１１０）および（１２０）を含む。図１の例では、第１の対の端末デバイス（１１０）および（１２０）は、点群データの単方向送信を実行することができる。例えば、端末デバイス（１１０）は、端末デバイス（１１０）に接続されたセンサ（１０５）によってキャプチャされた点群（例えば、構造を表す点）を圧縮することができる。圧縮点群は、例えばビットストリームの形態で、ネットワーク（１５０）を介して他の端末デバイス（１２０）に送信することができる。端末デバイス（１２０）は、ネットワーク（１５０）から圧縮点群を受信し、ビットストリームを展開して点群を再構築し、再構築された点群を適切に表示することができる。単方向データ送信は、メディアサービングアプリケーションなどにおいて一般的であり得る。

【0031】

図１の例では、端末デバイス（１１０）および（１２０）は、サーバおよびパーソナルコンピュータとして示され得るが、本開示の原理はそのように限定されないことがある。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、ゲーム端末、メディアプレーヤ、および／または専用３次元（３Ｄ）機器に用途を見出す。ネットワーク（１５０）は、端末デバイス（１１０）と（１２０）との間で圧縮点群を送信する任意の数のネットワークを表す。ネットワーク（１５０）は、例えば、ワイヤライン（有線）および／またはワイヤレス通信ネットワークを含み得る。ネットワーク（１５０）は、回線交換チャネルおよび／またはパケット交換チャネルでデータを交換することができる。代表的なネットワークには、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネットなどが含まれる。

【0032】

図２は、いくつかの例におけるストリーミングシステム（２００）のブロック図を示す。ストリーミングシステム（２００）は、点群の使用アプリケーションである。開示される主題は、３Ｄテレプレゼンスアプリケーション、仮想現実アプリケーションなどの他の点群対応アプリケーションに等しく適用可能であり得る。

【0033】

ストリーミングシステム（２００）は、キャプチャサブシステム（２１３）を含み得る。キャプチャサブシステム（２１３）は、点群ソース（２０１）、例えば光検出および測距（ＬＩＤＡＲ）システム、３Ｄカメラ、３Ｄスキャナ、非圧縮点群をソフトウェアで生成するグラフィック生成コンポーネント、および例えば非圧縮の点群（２０２）を生成する同様のものを含み得る。一例では、点群（２０２）は、３Ｄカメラによってキャプチャされた点を含む。点群（２０２）は、圧縮点群（２０４）（圧縮点群のビットストリーム）と比較して高いデータ量を強調するために太線で示されている。圧縮点群（２０４）は、点群ソース（２０１）に結合されたエンコーダ（２０３）を含む電子デバイス（２２０）によって生成することができる。エンコーダ（２０３）は、以下でより詳細に説明されるように、開示される主題の態様を可能にするかまたは実装するためのハードウェア、ソフトウェア、またはそれらの組み合わせを含み得る。圧縮点群（２０４）（または圧縮点群（２０４）のビットストリーム）は、点群（２０２）のストリームと比較してデータ量が少ないことを強調するために細い線で示されており、将来の使用のためにストリーミングサーバ（２０５）に記憶することができる。図２のクライアントサブシステム（２０６）および（２０８）などの１つまたは複数のストリーミングクライアントサブシステムは、ストリーミングサーバ（２０５）にアクセスして、圧縮点群（２０４）のコピー（２０７）および（２０９）を取り出すことができる。クライアントサブシステム（２０６）は、例えば電子デバイス（２３０）内にデコーダ（２１０）を含み得る。デコーダ（２１０）は、圧縮点群の入力コピー（２０７）をデコーディングし、レンダリングデバイス（２１２）上でレンダリングすることができる再構築された点群（２１１）の出力ストリームを作成する。

【0034】

電子デバイス（２２０）および（２３０）は、他の構成要素（図示せず）を含むことができることに留意されたい。例えば、電子デバイス（２２０）はデコーダ（図示せず）を含むことができ、電子デバイス（２３０）はエンコーダ（図示せず）も含み得る。

【0035】

一部のストリーミングシステムでは、圧縮点群（２０４）、（２０７）、および（２０９）（例えば、圧縮点群のビットストリーム）は、一部の規格に従って圧縮され得る。いくつかの例では、点群の圧縮においてビデオコーディング規格が使用される。それらの規格の例は、高効率ビデオコーディング（ＨＥＶＣ）、汎用ビデオコーディング（ＶＶＣ）などを含む。

【0036】

図３は、いくつかの実施形態による、点群フレームをエンコーディングするためのＶ－ＰＣＣエンコーダ（３００）のブロック図を示す。いくつかの実施形態では、Ｖ－ＰＣＣエンコーダ（３００）は、通信システム（１００）およびストリーミングシステム（２００）で使用することができる。例えば、エンコーダ（２０３）は、Ｖ－ＰＣＣエンコーダ（３００）と同様に構成され、動作することができる。

【0037】

Ｖ－ＰＣＣエンコーダ（３００）は、点群フレームを非圧縮入力として受信し、圧縮点群フレームに対応するビットストリームを生成する。いくつかの実施形態では、Ｖ－ＰＣＣエンコーダ（３００）は、点群ソース（２０１）などの点群ソースから点群フレームを受信することができる。

【0038】

図３の例では、Ｖ－ＰＣＣエンコーダ（３００）は、パッチ生成モジュール（３０６）と、パッチパッキングモジュール（３０８）と、ジオメトリ画像生成モジュール（３１０）と、テクスチャ画像生成モジュール（３１２）と、パッチ情報モジュール（３０４）と、占有マップモジュール（３１４）と、平滑化モジュール（３３６）と、画像パディングモジュール（３１６）および（３１８）と、グループ拡張モジュール（３２０）と、ビデオ圧縮モジュール（３２２）、（３２３）および（３３２）と、補助パッチ情報圧縮モジュール（３３８）と、エントロピー圧縮モジュール（３３４）と、マルチプレクサ（３２４）とを含む。

【0039】

本開示の一態様によれば、Ｖ－ＰＣＣエンコーダ（３００）は、圧縮点群を展開点群に変換して戻すために使用される何らかのメタデータ（例えば、占有マップおよびパッチ情報）とともに、３Ｄ点群フレームを画像ベースの表現に変換する。いくつかの例では、Ｖ－ＰＣＣエンコーダ（３００）は、３Ｄ点群フレームをジオメトリ画像、テクスチャ画像、および占有マップに変換し、次いで、ビデオコーディング技術を使用して、ジオメトリ画像、テクスチャ画像、および占有マップをビットストリームにエンコーディングすることができる。概して、ジオメトリ画像は、ピクセルに投影された点に関連付けられたジオメトリ値で満たされたピクセルを有する２Ｄ画像であり、ジオメトリ値で満たされたピクセルはジオメトリサンプルと称されることがある。テクスチャ画像は、ピクセルに投影された点に関連付けられたテクスチャ値で満たされたピクセルを有する２Ｄ画像であり、テクスチャ値で満たされたピクセルは、テクスチャサンプルと称されることがある。占有マップは、パッチによって占有されているか占有されていないかを示す値で満たされたピクセルを有する２Ｄ画像である。

【0040】

パッチ生成モジュール（３０６）は、点群をパッチのセットにセグメント化し（例えば、パッチは、点群によって記述される表面の連続サブセットとして定義される）、これは、各パッチが２Ｄ空間内の平面に対して深度フィールドによって記述され得るように、重複していてもしていなくてもよい。いくつかの実施形態では、パッチ生成モジュール（３０６）は、点群を、滑らかな境界を有する最小数のパッチに分解するとともに、再構築エラーを最小化することを目的とする。

【0041】

いくつかの例では、パッチ情報モジュール（３０４）は、パッチのサイズおよび形状を示すパッチ情報を収集することができる。いくつかの例では、パッチ情報は、画像フレームにパッキングされ、次いで、補助パッチ情報圧縮モジュール（３３８）によってエンコーディングされて、圧縮された補助パッチ情報を生成することができる。

【0042】

いくつかの例では、パッチパッキングモジュール（３０８）は、抽出されたパッチを２次元（２Ｄ）グリッド上にマッピングする一方で、未使用の空間を最小化し、グリッドのＭ×Ｍ（例えば、１６×１６）ブロックごとに一意のパッチが関連付けられることを保証するように構成される。効率的なパッチパッキングは、未使用空間を最小化すること、または時間的一貫性を保証することのいずれかによって、圧縮効率に直接影響を及ぼすことができる。

【0043】

ジオメトリ画像生成モジュール（３１０）は、所与のパッチ位置における点群のジオメトリに関連付けられた２Ｄジオメトリ画像を生成することができる。テクスチャ画像生成モジュール（３１２）は、所与のパッチ位置における点群のテクスチャに関連付けられた２Ｄテクスチャ画像を生成することができる。ジオメトリ画像生成モジュール（３１０）およびテクスチャ画像生成モジュール（３１２）は、パッキングプロセス中に計算された３Ｄ－２Ｄマッピングを利用して、点群のジオメトリおよびテクスチャを画像として記憶する。複数の点が同じサンプルに投影される場合をより良好に処理するために、各パッチは、層と称される２つの画像上に投影される。一例では、ジオメトリ画像は、ＹＵＶ４２０－８ビットフォーマットのＷ×Ｈの単色フレームによって表される。テクスチャ画像を生成するために、テクスチャ生成手順は、再サンプリングされた点に関連付けられる色を計算するために、再構築された／平滑化されたジオメトリを利用する。

【0044】

占有マップモジュール（３１４）は、各ユニットにおけるパディング情報を記述する占有マップを生成することができる。例えば、占有画像は、グリッドの各セルについて、セルが空き空間に属するか、または点群に属するかを示すバイナリマップを含む。一例では、占有マップは、各ピクセルについて、ピクセルがパディングされるか否かを記述するバイナリ情報を使用する。別の例では、占有マップは、ピクセルのブロックがパディングされるか否かをピクセルのブロックごとに記述するバイナリ情報を使用する。

【0045】

占有マップモジュール（３１４）によって生成された占有マップは、可逆コーディングまたは非可逆コーディングを使用して圧縮することができる。可逆コーディングが使用されるとき、エントロピー圧縮モジュール（３３４）は、占有マップを圧縮するために使用される。非可逆コーディングが使用される場合、ビデオ圧縮モジュール（３３２）は、占有マップを圧縮するために使用される。

【0046】

パッチパッキングモジュール（３０８）は、画像フレーム内にパッキングされた２Ｄパッチ間に一部の空きスペースを残すことができることに留意されたい。画像パディングモジュール（３１６）および（３１８）は、２Ｄビデオおよび画像コーデックに適し得る画像フレームを生成するために、空きスペースを充填する（パディングと称される）ことができる。画像パディングは、背景充填とも称され、未使用の空間を冗長な情報で充填することができる。いくつかの例では、良好な背景充填は、ビットレートを最小限に増加させるが、パッチ境界の周りに著しいコーディング歪みをもたらさない。

【0047】

ビデオ圧縮モジュール（３２２）、（３２３）、および（３３２）は、ＨＥＶＣ、ＶＶＣなどの適切なビデオコーディング規格に基づいて、パディングされたジオメトリ画像、パディングされたテクスチャ画像、および占有マップなどの２Ｄ画像をエンコーディングすることができる。一例では、ビデオ圧縮モジュール（３２２）、（３２３）、および（３３２）は、別々に動作する個々の構成要素である。ビデオ圧縮モジュール（３２２）、（３２３）、および（３３２）は、別の例では単一の構成要素として実装され得ることに留意されたい。

【0048】

いくつかの例では、平滑化モジュール（３３６）は、再構築されたジオメトリ画像の平滑化された画像を生成するように構成される。平滑化された画像は、テクスチャ画像生成モジュール（３１２）に提供することができる。次いで、テクスチャ画像生成モジュール（３１２）は、再構築されたジオメトリ画像に基づいて、テクスチャ画像の生成を調整することができる。例えば、パッチ形状（例えば、ジオメトリ）がエンコーディングおよびデコーディング中にわずかにひずんだとき、パッチ形状における歪みを補正するためにテクスチャ画像を生成するときに歪みが考慮に入れられ得る。

【0049】

いくつかの実施形態では、グループ拡張モジュール（３２０）は、再構築された点群のコーディング利得ならびに視覚的品質を改善するために、オブジェクト境界の周りのピクセルを冗長な低周波コンテンツでパディングするように構成される。

【0050】

マルチプレクサ（３２４）は、圧縮されたジオメトリ画像、圧縮されたテクスチャ画像、圧縮された占有マップ、圧縮された補助パッチ情報を、圧縮されたビットストリームに多重化することができる。

【0051】

図４は、いくつかの例における、点群フレームに対応する圧縮されたビットストリームをデコーディングするためのＶ－ＰＣＣデコーダ（４００）のブロック図を示す。いくつかの例では、Ｖ－ＰＣＣデコーダ（４００）は、通信システム（１００）およびストリーミングシステム（２００）で使用することができる。例えば、デコーダ（２１０）は、Ｖ－ＰＣＣデコーダ（４００）と同様に動作するように構成することができる。Ｖ－ＰＣＣデコーダ（４００）は、圧縮されたビットストリームを受信し、圧縮されたビットストリームに基づいて再構築された点群を生成する。

【0052】

図４の例では、Ｖ－ＰＣＣデコーダ（４００）は、デマルチプレクサ（４３２）と、ビデオ展開モジュール（４３４）および（４３６）と、占有マップ展開モジュール（４３８）と、補助パッチ情報展開モジュール（４４２）と、ジオメトリ再構築モジュール（４４４）と、平滑化モジュール（４４６）と、テクスチャ再構築モジュール（４４８）と、色平滑化モジュール（４５２）とを含む。

【0053】

デマルチプレクサ（４３２）は、圧縮されたビットストリームを受信し、圧縮されたテクスチャ画像、圧縮されたジオメトリ画像、圧縮された占有マップ、および圧縮された補助パッチ情報に分離することができる。

【0054】

ビデオ展開モジュール（４３４）および（４３６）は、適切な規格（例えば、ＨＥＶＣ、ＶＶＣなど）に従って圧縮画像をデコーディングし、展開画像を出力することができる。例えば、ビデオ展開モジュール（４３４）は、圧縮されたテクスチャ画像をデコーディングし、展開されたテクスチャ画像を出力し、ビデオ展開モジュール（４３６）は、圧縮されたジオメトリ画像をデコーディングし、展開されたジオメトリ画像を出力する。

【0055】

占有マップ展開モジュール（４３８）は、適切な規格（例えば、ＨＥＶＣ、ＶＶＣなど）に従って圧縮された占有マップをデコーディングし、展開された占有マップを出力することができる。

【0056】

補助パッチ情報展開モジュール（４４２）は、適切な規格（例えば、ＨＥＶＣ、ＶＶＣなど）に従って圧縮された補助パッチ情報をデコーディングし、展開された補助パッチ情報を出力することができる。

【0057】

ジオメトリ再構築モジュール（４４４）は、展開されたジオメトリ画像を受信し、展開された占有マップおよび展開された補助パッチ情報に基づいて、再構築された点群ジオメトリを生成することができる。

【0058】

平滑化モジュール（４４６）は、パッチのエッジにおける不一致を平滑化することができる。平滑化手順は、圧縮アーチファクトに起因してパッチ境界で生じ得る潜在的な不連続性を軽減することを目的とする。いくつかの実施形態では、平滑化フィルタが、圧縮／展開によって引き起こされ得る歪みを軽減するために、パッチ境界上に位置するピクセルに適用され得る。

【0059】

テクスチャ再構築モジュール（４４８）は、展開されたテクスチャ画像および平滑化されたジオメトリに基づいて、点群内の点のテクスチャ情報を決定することができる。

【0060】

色平滑化モジュール（４５２）は、着色の不一致を平滑化することができる。３Ｄ空間内の非近傍パッチは、しばしば、２Ｄビデオ内で互いに隣接してパッキングされる。いくつかの例では、非近傍パッチからのピクセル値は、ブロックベースのビデオコーデックによって混合され得る。色平滑化の目標は、パッチ境界に現れる可視アーチファクトを低減することである。

【0061】

図５は、いくつかの例におけるビデオデコーダ（５１０）のブロック図を示す。ビデオデコーダ（５１０）は、Ｖ－ＰＣＣデコーダ（４００）において使用することができる。例えば、ビデオ展開モジュール（４３４）および（４３６）、占有マップ展開モジュール（４３８）は、ビデオデコーダ（５１０）と同様に構成され得る。

【0062】

ビデオデコーダ（５１０）は、コーディングされたビデオシーケンスなどの圧縮画像からシンボル（５２１）を再構築するためのパーサ（５２０）を含み得る。これらのシンボルのカテゴリは、ビデオデコーダ（５１０）の動作を管理するために使用される情報を含む。パーサ（５２０）は、受信されたコーディングされたビデオシーケンスを構文解析／エントロピーデコーディングすることができる。コーディングされたビデオシーケンスのコーディングは、ビデオコーディング技術または規格に従うことができ、コンテキスト依存性ありまたはなしの可変長コーディング、ハフマンコーディング、算術コーディングなどを含む様々な原理に従うことができる。パーサ（５２０）は、グループに対応する少なくとも１つのパラメータに基づいて、コーディングされたビデオシーケンスから、ビデオデコーダ内のピクセルのサブグループのうちの少なくとも１つに関するサブグループパラメータのセットを抽出し得る。サブグループは、ピクチャグループ（ＧＯＰ）、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット（ＣＵ）、ブロック、変換ユニット（ＴＵ）、予測ユニット（ＰＵ）などを含むことができる。パーサ（５２０）はまた、変換係数、量子化器パラメータ値、動きベクトルなどのようなコーディングされたビデオシーケンス情報から抽出してもよい。

【0063】

パーサ（５２０）は、シンボル（５２１）を作成するために、バッファメモリから受信されたビデオシーケンスに対してエントロピーデコーディング／構文解析動作を実行することができる。

【0064】

シンボル（５２１）の復元は、（ピクチャ間およびピクチャ内、ブロック間およびブロック内などの）コーディングされたビデオピクチャまたはその一部のタイプ、ならびに他の要因に応じて、複数の異なるユニットを含むことができる。どのユニットがどのように関与しているかは、パーサ（５２０）によってコーディングされたビデオシーケンスから構文解析されたサブグループ制御情報によって制御することができる。パーサ（５２０）と以下の複数のユニットとの間のそのようなサブグループ制御情報の流れは、明確にするために図示されていない。

【0065】

すでに述べられた機能ブロック以外に、ビデオデコーダ（５１０）は、以下で説明されるように、概念的にいくつかの機能ユニットに細分することができる。商業的制約の下で動作する実際の実装形態では、これらのユニットの多くは、互いに密接に相互作用し、少なくとも部分的に互いに統合することができる。しかしながら、開示された主題を説明する目的で、以下の機能ユニットへの概念的細分化が適切である。

【0066】

第１のユニットはスケーラ／逆変換ユニット（５５１）である。スケーラ／逆変換ユニット（５５１）は、量子化された変換係数と、どの変換を使用するか、ブロックサイズ、量子化係数、量子化スケーリング行列などを含む制御情報とを、シンボル（複数可）（５２１）としてパーサ（５２０）から受信する。スケーラ／逆変換ユニット（５５１）は、アグリゲータ（５５５）に入力することができるサンプル値を含むブロックを出力することができる。

【0067】

場合によっては、スケーラ／逆変換ユニット（５５１）の出力サンプルは、イントラコーディングされたブロック、すなわち、以前に再構成されたピクチャからの予測情報を使用していないが、現在のピクチャの以前に再構成された部分からの予測情報を使用することができるブロックに関連する可能性がある。そのような予測情報を、イントラピクチャ予測ユニット（５５２）が提供することができる。場合によっては、イントラピクチャ予測ユニット（５５２）は、現在のピクチャバッファ（５５８）からフェッチされた周囲のすでに再構成された情報を使用して、再構成中のブロックと同じサイズおよび形状のブロックを生成する。現在のピクチャバッファ（５５８）は、例えば、部分的に再構成された現在のピクチャおよび／または完全に再構成された現在のピクチャをバッファする。アグリゲータ（５５５）は、場合によっては、イントラ予測ユニット（５５２）が生成した予測情報を、スケーラ／逆変換ユニット（５５１）が提供した出力サンプル情報に、サンプル単位で付加する。

【0068】

他の場合には、スケーラ／逆変換ユニット（５５１）の出力サンプルは、インターコーディングされ、潜在的に動作補償されたブロックに関連することができる。そのような場合、動き補償予測ユニット（５５３）は、基準ピクチャメモリ（５５７）にアクセスして、予測に使用されるサンプルをフェッチすることができる。ブロックに関係するシンボル（５２１）に従ってフェッチされたサンプルを動き補償した後、これらのサンプルを、出力サンプル情報を生成するために、アグリゲータ（５５５）によって、スケーラ／逆変換ユニット（５５１）の出力（この場合、残差サンプルまたは残差信号と呼ばれる）に追加することができる。動き補償予測ユニット（５５３）が予測サンプルをフェッチする基準ピクチャメモリ（５５７）内のアドレスを、例えば、Ｘ、Ｙ、および基準ピクチャ成分を有し得るシンボル（５２１）の形式で動き補償予測ユニット（５５３）に利用可能な動きベクトルによって、制御することができる。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに基準ピクチャメモリ（５５７）から、フェッチされたサンプル値の補間、動きベクトル予測機構などを含むことができる。

【0069】

アグリゲータ（５５５）の出力サンプルは、ループフィルタユニット（５５６）において様々なループフィルタリング技術を受けることができる。ビデオ圧縮技術は、（コーディングされたビデオビットストリームとも呼ばれる）コーディングされたビデオシーケンスに含まれるパラメータによって制御され、パーサ（５２０）からのシンボル（５２１）としてループフィルタユニット（５５６）に利用可能にされるインループフィルタ技術を含むことができるが、コーディングされたピクチャまたはコーディングされたビデオシーケンスの（デコーディング順序で）前の部分のデコーディング中に取得されたメタ情報に応答するだけでなく、以前に再構築およびループフィルタリングされたサンプル値に応答することもできる。

【0070】

ループフィルタユニット（５５６）の出力は、レンダリングデバイスに出力することができるとともに、将来のインターピクチャ予測で使用するために基準ピクチャメモリ（５５７）に記憶することができるサンプルストリームとすることができる。

【0071】

完全に再構成されると、特定のコーディングされたピクチャは、将来の予測のための基準ピクチャとして使用することができる。例えば、現在のピクチャに対応するコーディングされたピクチャが完全に再構成され、コーディングされたピクチャが（例えば、パーサ（５２０）によって）基準ピクチャとして識別されると、現在のピクチャバッファ（５５８）は、基準ピクチャメモリ（５５７）の一部になることができ、新規の現在のピクチャバッファを、後続のコーディングされたピクチャの再構成を開始する前に再配置することができる。

【0072】

ビデオデコーダ（５１０）は、例えばＩＴＵ－ＴＲｅｃ．Ｈ．２６５などの規格における所定のビデオ圧縮技術に従ってデコーディング動作を実行し得る。コーディングされたビデオシーケンスが、ビデオ圧縮技術または規格のシンタックスと、ビデオ圧縮技術または規格において文書化されたプロファイルの両方を順守するという意味で、コーディングされたビデオシーケンスは、使用されているビデオ圧縮技術または規格によって指定されたシンタックスに準拠することができる。具体的には、プロファイルは、ビデオ圧縮技術または規格において利用可能なすべてのツールの中から、特定のツールを、そのプロファイル下でそれらだけが利用可能なツールとして選択することができる。また、コンプライアンスのために必要なのは、コーディングされたビデオシーケンスの複雑さが、ビデオ圧縮技術または規格のレベルによって定義された範囲内にあることであり得る。場合によっては、レベルは、最大ピクチャサイズ、最大フレームレート、（例えば、毎秒メガサンプル単位で測定された）最大再構成サンプルレート、最大基準ピクチャサイズなどを制限する。レベルによって設定される制限は、場合によっては、仮想基準デコーダ（ＨＲＤ）の仕様、およびコーディングされたビデオシーケンス内でシグナリングされるＨＲＤバッファ管理用のメタデータによってさらに制限され得る。

【0073】

図６は、本開示の一実施形態によるビデオエンコーダ（６０３）のブロック図を示す。ビデオエンコーダ（６０３）は、点群を圧縮するＶ－ＰＣＣエンコーダ（３００）において使用することができる。一例では、ビデオ圧縮モジュール（３２２）および（３２３）と、ビデオ圧縮モジュール（３３２）とは、エンコーダ（６０３）と同様に構成される。

【0074】

ビデオエンコーダ（６０３）は、パディングされたジオメトリ画像、パディングされたテクスチャ画像などの画像を受信し、圧縮された画像を生成してもよい。

【0075】

一実施形態によれば、ビデオエンコーダ（６０３）は、ソースビデオシーケンスのピクチャ（画像）を、リアルタイムで、またはアプリケーションによって必要とされる任意の他の時間的制約の下で、コーディングされたビデオシーケンス（圧縮画像）にコーディングおよび圧縮することができる。適切なコーディング速度を実施することは、コントローラ（６５０）の１つの機能である。いくつかの実施形態では、コントローラ（６５０）は、以下で説明される他の機能ユニットを制御し、他の機能ユニットに機能的に結合される。結合は、明確にするために図示されていない。コントローラ（６５０）によって設定されるパラメータは、レート制御関連パラメータ（ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値、…）、ピクチャサイズ、ピクチャグループ（ＧＯＰ）レイアウト、最大動きベクトル探索範囲などを含むことができる。コントローラ（６５０）は、特定のシステム設計のために最適化されたビデオエンコーダ（６０３）に関連する他の適切な機能を有するように構成することができる。

【0076】

いくつかの実施形態では、ビデオエンコーダ（６０３）は、コーディングループで動作するように構成される。過度に簡略化された説明として、一例では、コーディングループは、（例えば、コーディングされるべき入力ピクチャと基準ピクチャ（複数可）とに基づいて、シンボルストリームなどのシンボルを作成することを担う）ソースコーダ（６３０）と、ビデオエンコーダ（６０３）に埋め込まれた（ローカル）デコーダ（６３３）とを含み得る。デコーダ（６３３）は、（リモート）デコーダも作成するのと同様の方法で、シンボルを再構築してサンプルデータを作成する（シンボルとコーディングされたビデオビットストリームとの間の任意の圧縮は、開示される主題において考慮されるビデオ圧縮技術において可逆であるため）。再構築されたサンプルストリーム（サンプルデータ）は、基準ピクチャメモリ（６３４）に入力される。シンボルストリームのデコーディングは、デコーダの位置（ローカルまたはリモート）に関係なくビットイグザクトな結果をもたらすため、基準ピクチャメモリ（６３４）の内容も、ローカルエンコーダとリモートエンコーダとの間でビットイグザクトである。言い換えれば、エンコーダの予測部分は、デコーディング中に予測を使用するときにデコーダが「見る」ことになるのと全く同じサンプル値を基準ピクチャサンプルとして「見る」。基準ピクチャの同期性（および、例えば、チャネルエラーのために同期性が維持できない場合に結果として生じるドリフト）のこの基本原理は、いくつかの関連技術でも使用される。

【0077】

「ローカル」デコーダ（６３３）の動作は、図５と併せて上記で詳細にすでに説明されている、ビデオデコーダ（５１０）などの「リモート」デコーダの動作と同じであり得る。しかしながら、図５も簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ（６４５）およびパーサ（５２０）によるコーディングされたビデオシーケンスへのシンボルのエンコーディング／デコーディングが可逆であり得るため、パーサ（５２０）を含むビデオデコーダ（５１０）のエントロピーデコーディング部分は、ローカルデコーダ（６３３）において完全には実装されないことがある。

【0078】

動作中、いくつかの例では、ソースコーダ（６３０）は、「基準ピクチャ」として指定されたビデオシーケンスからの１つまたは複数の以前にコーディングされたピクチャを参照して入力ピクチャを予測的にコーディングする、動き補償予測コーディングを実行することができる。このようにして、コーディングエンジン（６３２）は、入力ピクチャのピクセルブロックと、入力ピクチャに対する予測基準（複数可）として選択され得る基準ピクチャ（複数可）のピクセルブロックとの間の差分をコーディングする。

【0079】

ローカルビデオデコーダ（６３３）は、ソースコーダ（６３０）によって作成されたシンボルに基づいて、基準ピクチャとして指定され得るピクチャのコーディングされたビデオデータをデコーディングし得る。コーディングエンジン（６３２）の動作は、有利には、非可逆プロセスであってもよい。コーディングされたビデオデータが（図６には示されていない）ビデオデコーダでデコーディングされ得るとき、再構築されたビデオシーケンスは、典型的には、いくつかのエラーを伴うソースビデオシーケンスのレプリカであり得る。ローカルビデオデコーダ（６３３）は、基準ピクチャに対してビデオデコーダによって実行され得るデコーディングプロセスを複製し、再構築された基準ピクチャを基準ピクチャキャッシュ（６３４）に記憶させることができる。このようにして、ビデオエンコーダ（６０３）は、（送信エラーなしで）遠端ビデオデコーダによって取得されることになる再構成された基準ピクチャとして共通のコンテンツを有する再構成された基準ピクチャのコピーをローカルに記憶し得る。

【0080】

予測子（６３５）は、コーディングエンジン（６３２）のための予測検索を実施することができる。すなわち、コーディングされる新しいピクチャの場合、予測子（６３５）は、新しいピクチャのための適切な予測基準として役立つことができる、（候補基準画素ブロックとしての）サンプルデータまたは基準ピクチャ動きベクトル、ブロック形状などの特定のメタデータを求めて、基準ピクチャメモリ（６３４）を検索することができる。予測子（６３５）は、適切な予測基準を見つけるために、ピクセルブロックごとにサンプルブロックに対して動作することができる。場合によっては、予測子（６３５）によって取得された検索結果によって決定されるように、入力ピクチャは、基準ピクチャメモリ（６３４）に記憶された複数の基準ピクチャから引き出された予測基準を有することができる。

【0081】

コントローラ（６５０）は、例えば、ビデオデータをエンコーディングするために使用されるパラメータおよびサブグループパラメータの設定を含む、ソースコーダ（６３０）のコーディング動作を管理し得る。

【0082】

すべての前述の機能ユニットの出力は、エントロピーコーダ（６４５）内でエントロピーコーディングを受け得る。エントロピーコーダ（６４５）は、ハフマンコーディング、可変長コーディング、算術コーディングなどの技術に従ってシンボルを可逆圧縮することによって、種々の機能ユニットによって生成されたシンボルをコーディングされたビデオシーケンスに変換する。

【0083】

コントローラ（６５０）は、ビデオエンコーダ（６０３）の動作を管理することができる。コーディング中、コントローラ（６５０）は、各コーディングされたピクチャに特定のコーディングされたピクチャタイプを割り当てることができ、これは、それぞれのピクチャに適用され得るコーディング技術に影響を及ぼす場合がある。例えば、ピクチャは、しばしば、以下のピクチャタイプのうちの１つとして割り当てられてもよい。

【0084】

イントラピクチャ（Ｉピクチャ）は、予測のソースとしてシーケンス内のいかなる他のピクチャも使用せずにコーディングおよびデコーディングされ得るピクチャであり得る。いくつかのビデオコーデックは、例えば、独立デコーダリフレッシュ（「ＩＤＲ」）ピクチャを含む、異なるタイプのイントラピクチャを可能にする。当業者は、Ｉピクチャのそれらの変形形態、ならびにそれらのそれぞれの用途および特徴を認識している。

【0085】

予測ピクチャ（Ｐピクチャ）は、各ブロックのサンプル値を予測するために、多くとも１つの動きベクトルおよび基準インデックスを使用するイントラ予測またはインター予測を使用して、コーディングおよびデコーディングされ得るピクチャであり得る。

【0086】

双方向予測ピクチャ（Ｂピクチャ）は、各ブロックのサンプル値を予測するために、多くとも２つの動きベクトルおよび基準インデックスを使用するイントラ予測またはインター予測を使用して、コーディングおよびデコーディングされ得るピクチャであり得る。同様に、複数の予測ピクチャは、単一ブロックの復元のために３つ以上の基準ピクチャおよび関連するメタデータを使用することができる。

【0087】

ソースピクチャは、通常、複数のサンプルブロック（例えば、各々４×４、８×８、４×８、または１６×１６サンプルのブロック）に空間的に細分化され、ブロックごとにコーディングされてもよい。ブロックは、ブロックのそれぞれのピクチャに適用されたコーディング割り当てによって決定される他の（すでにコーディングされた）ブロックを参照して予測的にコーディングされ得る。例えば、Ｉピクチャのブロックは、非予測的にコーディングされ得るか、または、同じピクチャのすでにコーディングされたブロックを参照して予測的にコーディングされ得る（空間予測またはイントラ予測）。Ｐピクチャのピクセルブロックは、１つの以前にコーディングされた基準ピクチャを参照して、空間予測を介して、または時間予測を介して、予測的にコーディングされてもよい。Ｂピクチャのブロックは、１つまたは２つの以前にコーディングされた基準ピクチャを参照して、空間予測を介してまたは時間予測を介して予測的にコーディングされてもよい。

【0088】

ビデオエンコーダ（６０３）は、ＩＴＵ－ＴＲｅｃ．Ｈ．２６５などの所定のビデオコーディング技術または規格に従ってコーディング動作を実行することができる。その動作において、ビデオエンコーダ（６０３）は、入力ビデオシーケンスにおける時間および空間の冗長性を利用する予測コーディング動作を含む、様々な圧縮動作を実施し得る。したがって、コーディングされたビデオデータは、使用されているビデオコーディング技術または規格によって指定された構文に準拠することができる。

【0089】

ビデオは、時間シーケンスにおける複数のソースピクチャ（画像）の形態であり得る。イントラピクチャ予測（しばしば、イントラ予測と略される）は、所与のピクチャにおける空間相関を利用し、インターピクチャ予測は、ピクチャ間の（時間または他の）相関を利用する。一例では、現在のピクチャと呼ばれる、エンコーディング／デコーディング中の特定のピクチャがブロックに分割される。現在のピクチャ内のブロックが、ビデオ内で、以前にコーディングされ、未だバッファされている基準ピクチャ内の基準ブロックに類似しているとき、現在のピクチャ内のブロックを、動きベクトルと呼ばれるベクトルによってコーディングすることができる。動きベクトルは、基準ピクチャ中の基準ブロックを指し、複数の基準ピクチャが使用されている場合、基準ピクチャを識別する第３の次元を有することができる。

【0090】

いくつかの実施形態では、インターピクチャ予測において双予測技術が使用され得る。双予測技術によれば、第１の基準ピクチャおよび第２の基準ピクチャなどの２つの基準ピクチャが使用され、これらは両方ともビデオ内の現在のピクチャのデコーディング順より前にある（しかし、表示順序は、それぞれ過去および未来のものであってもよい）。第１の基準ピクチャ内の第１の基準ブロックを指し示す第１の動きベクトルによって、および第２の基準ピクチャ内の第２の基準ブロックを指し示す第２の動きベクトルによって、現在のピクチャ内のブロックをコーディングすることができる。ブロックは、第１の基準ブロックと第２の基準ブロックとの組み合わせによって予測され得る。

【0091】

さらに、コーディング効率を向上させるために、インターピクチャ予測においてマージモード技術を使用することができる。

【0092】

本開示のいくつかの実施形態によれば、インターピクチャ予測やイントラピクチャ予測などの予測は、ブロック単位で実行される。例えば、ＨＥＶＣ規格によれば、ビデオピクチャのシーケンス中のピクチャは、圧縮のためにコーディングツリーユニット（ＣＴＵ）に分割され、ピクチャ中のＣＴＵは、６４×６４ピクセル、３２×３２ピクセル、または１６×１６ピクセルなど、同じサイズを有する。一般に、ＣＴＵは、３つのコーディングツリーブロック（ＣＴＢ）を含み、それらは１つのルマＣＴＢおよび２つのクロマＣＴＢである。各ＣＴＵを、１つまたは複数のコーディングユニット（ＣＵ）に再帰的に四分木分割することができる。例えば、６４×６４ピクセルのＣＴＵを、６４×６４ピクセルの１個のＣＵに、または３２×３２ピクセルの４個のＣＵに、または１６×１６ピクセルの１６個のＣＵに、分割することができる。一例では、各ＣＵが、インター予測タイプまたはイントラ予測タイプなど、ＣＵの予測タイプを決定するために解析される。ＣＵは、時間的予測可能性および／または空間的予測可能性に応じて、１つまたは複数の予測ユニット（ＰＵ）に分割される。一般に、各ＰＵは、１つのルマ予測ブロック（ＰＢ）、および２つのクロマＰＢを含む。一実施形態では、コーディング（エンコーディング／デコーディング）における予測動作は、予測ブロックの単位で実施される。予測ブロックの一例としてルマ予測ブロックを使用すると、予測ブロックは、８×８ピクセル、１６×１６ピクセル、８×１６ピクセル、１６×８ピクセルなどのピクセルについての値（例えば、ルマ値）の行列を含む。

【0093】

図７は、いくつかの例におけるＧ－ＰＣＣエンコーダ（７００）のブロック図を示す。Ｇ－ＰＣＣエンコーダ（７００）は、点群データを受信し、点群データを圧縮して、圧縮点群データを搬送するビットストリームを生成するように構成することができる。一実施形態では、Ｇ－ＰＣＣエンコーダ（７００）は、位置量子化モジュール（７１０）と、重複点除去モジュール（７１２）と、八分木エンコーディングモジュール（７３０）と、属性転送モジュール（７２０）と、詳細レベル（ＬＯＤ）生成モジュール（７４０）と、属性予測モジュール（７５０）と、残差量子化モジュール（７６０）と、算術コーディングモジュール（７７０）と、逆残差量子化モジュール（７８０）と、加算モジュール（７８１）と、再構築された属性値を記憶するためのメモリ（７９０）とを含み得る。

【0094】

図示のように、入力点群（７０１）は、Ｇ－ＰＣＣエンコーダ（７００）で受信することができる。点群（７０１）の位置（例えば、３Ｄ座標）は、量子化モジュール（７１０）に提供される。量子化モジュール（７１０）は、座標を量子化して、量子化された位置を生成するように構成される。重複点除去モジュール（７１２）は、量子化された位置を受信し、重複点を識別および除去するためにフィルタプロセスを実行するように構成される。八分木エンコーディングモジュール（７３０）は、重複点除去モジュール（７１２）からフィルタリングされた位置を受信し、八分木ベースのエンコーディングプロセスを実行して、ボクセルの３Ｄグリッドを記述する一連の占有コードを生成するように構成される。占有コードは、算術コーディングモジュール（７７０）に提供される。

【0095】

属性転送モジュール（７２０）は、入力点群の属性を受信し、複数の属性値がそれぞれのボクセルに関連付けられているときに属性転送プロセスを実行して各ボクセルの属性値を決定するように構成される。属性転送プロセスは、八分木エンコーディングモジュール（７３０）から出力された並べ替えられた点に対して実行することができる。転送動作後の属性は、属性予測モジュール（７５０）に提供される。ＬＯＤ生成モジュール（７４０）は、八分木エンコーディングモジュール（７３０）から出力された並べ替えられた点に対して動作し、点を異なるＬＯＤに再編成するように構成される。ＬＯＤ情報は、属性予測モジュール（７５０）に供給される。

【0096】

属性予測モジュール（７５０）は、ＬＯＤ生成モジュール（７４０）からのＬＯＤ情報によって示されるＬＯＤベースの順序に従って点を処理する。属性予測モジュール（７５０）は、メモリ（７９０）に記憶された現在点の近傍点の集合の再構築された属性に基づいて、現在点についての属性予測を生成する。その後、属性転送モジュール（７２０）から受信した元の属性値およびローカルに生成された属性予測に基づいて、予測残差を取得することができる。候補インデックスがそれぞれの属性予測プロセスにおいて使用されるとき、選択された予測候補に対応するインデックスが算術コーディングモジュール（７７０）に提供され得る。

【0097】

残差量子化モジュール（７６０）は、属性予測モジュール（７５０）から予測残差を受信し、量子化残差を生成するために量子化を実行するように構成される。量子化された残差は、算術コーディングモジュール（７７０）に提供される。

【0098】

逆残差量子化モジュール（７８０）は、残差量子化モジュール（７６０）から量子化された残差を受信し、残差量子化モジュール（７６０）において実行された量子化演算の逆を実行することによって、再構築された予測残差を生成するように構成される。加算モジュール（７８１）は、逆残差量子化モジュール（７８０）から再構築された予測残差を受信し、属性予測モジュール（７５０）からそれぞれの属性予測を受信するように構成される。再構築された予測残差と属性予測とを組み合わせることによって、再構築された属性値が生成され、メモリに記憶される（７９０）。

【0099】

算術コーディングモジュール（７７０）は、占有コード、候補インデックス（使用される場合）、量子化された残差（生成される場合）、および他の情報を受信し、受信された値または情報をさらに圧縮するためにエントロピーエンコーディングを実行するように構成される。その結果、圧縮された情報を搬送する圧縮されたビットストリーム（７０２）を生成することができる。ビットストリーム（７０２）は、圧縮されたビットストリームをデコーディングするデコーダに送信されるか、もしくは別の方法で提供されてもよく、または記憶デバイスに記憶されてもよい。

【0100】

図８は、一実施形態によるＧ－ＰＣＣデコーダ（８００）のブロック図を示す。Ｇ－ＰＣＣデコーダ（８００）は、圧縮されたビットストリームを受信し、点群データ展開を実行してビットストリームを展開し、デコーディングされた点群データを生成するように構成することができる。一実施形態では、Ｇ－ＰＣＣデコーダ（８００）は、算術デコーディングモジュール（８１０）と、逆残差量子化モジュール（８２０）と、八分木デコーディングモジュール（８３０）と、ＬＯＤ生成モジュール（８４０）と、属性予測モジュール（８５０）と、再構築された属性値を記憶するためのメモリ（８６０）とを含み得る。

【0101】

示されるように、圧縮されたビットストリーム（８０１）は、算術デコーディングモジュール（８１０）において受信され得る。算術デコーディングモジュール（８１０）は、圧縮されたビットストリーム（８０１）をデコーディングして、量子化された残差（生成された場合）と点群の占有コードとを取得するように構成される。八分木デコーディングモジュール（８３０）は、占有コードに従って点群内の点の再構築された位置を決定するように構成される。ＬＯＤ生成モジュール（８４０）は、再構築された位置に基づいて点を異なるＬＯＤに再編成し、ＬＯＤベースの順序を決定するように構成される。逆残差量子化モジュール（８２０）は、算術デコーディングモジュール（８１０）から受信した量子化された残差に基づいて、再構築された残差を生成するように構成される。

【0102】

属性予測モジュール（８５０）は、属性予測プロセスを実行して、ＬＯＤに基づく順序に従って点の属性予測を決定するように構成される。例えば、現在点の属性予測は、メモリ（８６０）に記憶された現在点の近傍点の再構築された属性値に基づいて決定することができる。いくつかの例では、属性予測は、現在点についての再構築された属性を生成するために、それぞれの再構築された残差と組み合わせられ得る。

【0103】

属性予測モジュール（８５０）から生成された再構築された属性のシーケンスは、八分木デコーディングモジュール（８３０）から生成された再構築された位置とともに、一例ではＧ－ＰＣＣデコーダ（８００）から出力されるデコーディングされた点群（８０２）に対応する。加えて、再構築された属性もメモリ（８６０）に記憶され、その後、後続の点の属性予測を導出するために使用することができる。

【0104】

種々の実施形態において、エンコーダ（３００）、デコーダ（４００）、エンコーダ（７００）、および／またはデコーダ（８００）は、ハードウェア、ソフトウェア、またはそれらの組み合わせを用いて実装され得る。例えば、エンコーダ（３００）、デコーダ（４００）、エンコーダ（７００）、および／またはデコーダ（８００）は、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）など、ソフトウェアとともにまたはソフトウェアなしで動作する１つまたは複数の集積回路（ＩＣ）などの処理回路を用いて実装することができる。別の例では、エンコーダ（３００）、デコーダ（４００）、エンコーダ（７００）、および／またはデコーダ（８００）は、不揮発性（または非一時的）コンピュータ可読記憶媒体に記憶された命令を含むソフトウェアまたはファームウェアとして実装することができる。命令は、１つまたは複数のプロセッサなどの処理回路によって実行されると、処理回路に、エンコーダ（３００）、デコーダ（４００）、エンコーダ（７００）、および／またはデコーダ（８００）の機能を実行させる。

【0105】

本明細書で開示される属性予測技術を実装するように構成された属性予測モジュール（７５０）および（８５０）は、図７および図８に示されているものと同様または異なる構造を有し得る他のデコーダまたはエンコーダに含まれ得ることに留意されたい。加えて、エンコーダ（７００）およびデコーダ（８００）は、種々の例において、同じデバイスまたは別個のデバイスに含まれ得る。

【0106】

本開示は、シーンの様々なパノラマからのシーンのマンハッタンレイアウトの推定を含む、マンハッタンレイアウトの推定に関する実施形態を含む。実施形態は、仮想旅行などの仮想現実および拡張現実アプリケーションを作成するために使用することができる。例えば、マンハッタンレイアウトは、ジオメトリ形状およびセグメンテーション情報を利用して多数のパノラマ画像から推定することができる。

【0107】

ロボット工学、仮想現実、および拡張現実などの用途では、画像から部屋のレイアウトを推定することが一般的な手法である。部屋のレイアウトは、特定の基準点に対する部屋の壁の位置、向き、および高さを含むことができる。例えば、壁の交点、３Ｄメッシュ、または点群を採用して、部屋のレイアウトを描写することができる。部屋のマンハッタンレイアウトでは、部屋の壁は互いに垂直である。パノラマ画像は、パノラマカメラなどのカメラを介して生成することができる。パノラマ画像は、部屋のレイアウトを描写するために適用することができる。しかしながら、複数のパノラマ画像を分析することによる部屋のマンハッタンレイアウトの推定は困難であり得る。パノラマ（またはパノラマ画像）は、シーンにおける３６０度の情報をカプセル化することができ、３６０度の情報は、透視画像よりもはるかに多くのデータを含むことができる。

【0108】

部屋のマンハッタンレイアウトは、複数のパノラマビュー（またはパノラマ画像）からの情報（例えば、ピクセル）のジオメトリ情報および意味セグメンテーションを使用して推定することができる。意味セグメンテーションは、ラベルまたはカテゴリを画像におけるすべてのピクセルに関連付ける深層学習アルゴリズムを使用して実行することができる。意味セグメンテーションを使用して、別個のカテゴリを形成するピクセルの集合を認識することができる。

【0109】

単一のパノラマは部屋のレイアウトの正確な表現を提供しない可能性があるため、複数のパノラマ（またはパノラマ画像）を使用して部屋のマンハッタンレイアウトを推定することができる。例えば、部屋におけるオブジェクトが部屋の壁の境界を遮る可能性があるか、または部屋が非常に大きく、単一のパノラマ画像が部屋を完全にキャプチャしない可能性がある。ジオメトリ情報は、部屋のマンハッタンレイアウトの２つの主な方向（例えば、Ｘ方向およびＺ方向）、ならびにパノラマから抽出された線分情報を含むことができる。しかしながら、ジオメトリ情報は部屋のジオメトリ内容に焦点を合わせているため、ジオメトリ情報は意味情報を欠いている場合がある。したがって、意味セグメンテーションを使用して、パノラマのピクセルの意味情報を提供することができる。意味セグメンテーションは、パノラマ（またはパノラマ画像）のラベル付けを参照して、パノラマの各ピクセルのそれぞれのカテゴリを決定することができる。例えば、ピクセルは、意味セグメンテーションに基づいて部屋内の床、壁などのうちの１つとしてラベル付けすることができる。

【0110】

図９Ａ～図９Ｃは、パノラマの一例示的なジオメトリおよび意味表現を示す。図９Ａに示すように、パノラマ（９００）が提供され、パノラマ（９００）はホテルの部屋のシーンを含むことができる。図９Ｂでは、パノラマ（９００）は、ジオメトリ線分の情報でマークすることができる。図９Ｃでは、意味セグメンテーションに基づいて部屋のピクセルの意味情報を提供することができる。例えば、部屋のピクセルの意味情報は、天井（９０２）、床（９０４）、ソファ（９０６）、壁（９０８）などを示すことができる。

【0111】

部屋のレイアウトは、３Ｄメッシュ、境界線、および点群を含む様々な方法で表すことができる。本開示では、部屋の３Ｄメッシュおよび境界線を使用して、部屋のレイアウトを記述することができる。境界線は、１つまたは複数の多角形によって表すことができ、部屋の３Ｄメッシュは、多角形から作成することができる。

【0112】

図１０Ａ～図１０Ｃは、部屋の一例示的な多角形表現および一例示的なメッシュ表現を示す。図１０Ａに示すように、推定された部屋レイアウト（１０００）を提供することができる。図１０Ｂでは、推定された部屋レイアウトの多角形表現（１００２）を提供することができ、部屋レイアウトの角には０～７などの数字でラベル付けすることができる。図１０Ｃでは、多角形（１００２）から３Ｄメッシュ（１００４）を生成することができる。図１０Ａ～図１０Ｃによれば、部屋レイアウト（例えば、（１０００））が確立されると、壁面を床面に投影して多角形（例えば、（１００２））を取得することができる。次に、多角形および壁の高さが取得されると、レイアウトおよび３Ｄメッシュ（例えば、（１００４））を導出することができる。

【0113】

本開示では、部屋のマンハッタンレイアウトの推定は、シーン（例えば、部屋レイアウト（１０００））のジオメトリ情報および意味情報に基づいて多角形（例えば、多角形（１００２））を推定することによって行うことができる。多角形は、有向グラフＧ＝（ｖ、ｅ）で表すことができ、ｖは多角形の角の集合であり、ｅは角を接続するエッジの集合である。各角ジョイントの位置は、カメラ位置に対する２Ｄ空間における２Ｄ座標（ｘ、ｙ）として定義することができる。各エッジは、有向線分（ｐ_ｓ、ｐ_ｅ）として表すことができ、ｐ_ｓ∈ｖおよびｐ_ｅ∈ｖは、それぞれエッジの始点および終点である。各エッジの線関数は、ａｘ＋ｂｙ＋ｃ＝０として表すことができ、ここで、ｎ＝（ａ、ｂ）は

【数1】

を満たす線の法線であり、ｃは定数実数である。

【0114】

図１１は、シーン（例えば、部屋）のマンハッタンレイアウトを推定するためのシステム（またはプロセス）（１１００）の概要を示す。図１１に示すように、（１１１０）で、入力画像を提供することができる。入力画像は、シーンのパノラマ（または複数のパノラマ画像）の集合を含むことができる。パノラマの集合は、シーンをより正確に表現するために異なるビュー位置からシーンをキャプチャすることができる。プロセス（１１００）のステップ（１１２０）およびステップ（１１３０）では、各パノラマ画像のジオメトリ情報を抽出することができ、対応するパノラマ画像からの意味セグメンテーションに基づいて各パノラマの意味情報を決定することができる。ジオメトリ情報（またはジオメトリ要因）は、（１）各パノラマ画像において検出された線、（２）各パノラマ画像の主方向（例えば、Ｘ方向およびＺ方向）、（３）部屋の天井から部屋の地面までの距離とカメラから地面までの距離との間の比、および（４）２つのそれぞれのパノラマ画像間などのパノラマ画像間の相対姿勢（例えば、相対的な位置、角度、または距離）を含むことができる。意味情報は、意味セグメンテーションを介して取得することができる。意味セグメンテーションは、パノラマ画像の各ピクセルに意味的意味（例えば、床、ドアなど）を割り当てることができる。ステップ（１１４０）で、シーンのそれぞれのレイアウトを、各パノラマ画像のジオメトリ情報および意味セグメンテーションに基づいて推定することができる。ステップ（１１５０）で、各パノラマ画像（またはパノラマの画像）から推定されたレイアウトを組み合わせて、部屋レイアウトの最終推定を生成することができる。ステップ（１１６０）で、推定されたレイアウト（または、部屋レイアウトの最終推定）に基づいて、部屋の３Ｄメッシュ（または、マンハッタンレイアウト）を生成することができる。

【0115】

図１１のステップ（１１４０）の例のように、各パノラマ画像のジオメトリ情報および意味情報に基づいてシーン（例えば、部屋）に関連付けられたレイアウト推定を決定するために、意味セグメンテーションの結果を使用して、パノラマ（またはパノラマ画像）の各線分が部屋の壁の境界を表すかどうかを決定することができる。パノラマ画像における点ｐ_０、ｐ_１、．．．、ｐ_ｎのシーケンスとして表される線ｌを考えると、各点ｐ_ｉの近傍ピクセルが壁を含むか否かをチェックすることができる。点ｐ_ｉの近傍ピクセルが壁のみを含むか、または壁ピクセルをまったく有さない場合、点ｐ_ｉは境界点と見なされない場合がある。境界点の数が特定の閾値を超える場合、例えば、点の８０％が境界である場合には、点線（または線）ｌを境界（または境界線）として指定することができる。

【0116】

境界線は、パノラマの主要な方向（または主方向）と位置合わせすることができる。境界線を主要な方向と位置合わせするために、各境界線を水平面（例えば、Ｘ－Ｚ平面）上に投影することができる。２つの主方向（例えば、ＸおよびＺ）が垂直であるため、投影された境界線と２つの主方向との間の角度を計算することができる。次いで、投影された境界線を投影された境界線の中心の周りで回転させて、投影された境界線を主方向に平行にすることができる。

【0117】

しかしながら、画像（またはパノラマ画像）内のオブジェクトが境界線を遮る可能性がある。したがって、１つまたは複数の境界線は未完了であり得る。第１の手法では、天井境界線と床境界線との組み合わせを使用して、未完了境界線を推定する（または１つまたは複数の未完了境界線を完成させる）ことができる。例えば、各床線（または床境界線）は、天井線（または天井境界線）に対応することができ、床線と天井線との間の距離をシーン内で固定することができる。天井線および床線には、それぞれ未完了境界線を投影することができる。天井および床の対応する投影境界（または投影境界線）上の未完了境界線の点の座標は、以下とすることができる。
ｐ_ｃ，１，ｐ_ｃ，２，ｐ_ｃ，３，…，ｐ_ｃ，ｎ
ｐ_ｆ，１，ｐ_ｆ，２，ｐ_ｆ，３，…，ｐ_ｆ，ｎ
天井から地面までの第１の距離と、カメラから地面までの第２の距離との間の比ｒに基づいて、未完了境界線の点をスケーリング（または推定）して、以下の式（１）の天井境界線および床境界線上の投影点を組み合わせることができる。

【数2】

【0118】

第２の手法では、投影された線分（例えば、水平面上に投影された境界線）は、マンハッタンレイアウト仮説を使用して接続することができる。マンハッタンレイアウト仮説で定義されているように、２つの接続された境界の各対は、平行または垂直であり得る。したがって、投影された境界線は、シーンの画像空間（例えば、Ｘ－Ｙ－Ｚ空間）における境界線の元の空間座標に従ってソートすることができる。２つの線（または境界線）が平行であるとき、垂直線を追加して２つの線を一緒に結合することができる。２つの線が垂直であるとき、２つの線の交点が２つの線分（または２つの線）上にあるかどうかを決定することができる。交点が２つの線上にないことに応答して、２つの線分（または２つの線）は、交点が２つの線分上に配置され得るように延長され得る。

【0119】

多角形は、第１および第２の手法の１つまたは組み合わせに基づいて取得することができる。いくつかの実施形態では、２Ｄ多角形ノイズ除去、階段除去などのジオメトリ処理方法を使用して多角形を洗練することができる。これにより、パノラマ画像に基づいて複数の多角形を取得することができる。各多角形は、それぞれのパノラマ画像から導出され、シーンのそれぞれのレイアウト推定を示すことができる（例えば、部屋）。

【0120】

既存の曲線（または線分）のノイズ除去には、様々な手法を適用することができる。一例では、曲線（または線分）の境界をノイズの多い点を伴う領域に適合させることができ、次いで領域の細線化を適用することができる。一例では、ガウシアンカーネルなどのマルチスケール分析を適用することができる。マルチスケール分析は、衝撃検出器で鋭い点を保存し、曲線を滑らかな弧および角の集合として出力することができる。別の例では、ガウス平滑化は、ｎ＝３０個の近傍数などの固定されたｎ個の数を用いて、ローカル分析によって推定されるノイズに適用することができる。

【0121】

階段除去は、階段アーチファクトを低減することができる。階段アーチファクトは、１次元信号ノイズ除去、２次元画像ノイズ除去、およびビデオノイズ除去などの多くのノイズ除去タスクで観察され得る一般的なアーチファクトであり得る。画像ノイズ除去技術は、画像信号の１つまたは複数の領域を平坦化し、それによって画像信号に階段アーチファクトを生成することができる。その結果、階段アーチファクトは、画像信号の１つまたは複数の領域において、そうでなければ滑らかに変化する画像信号における望ましくない誤ったステップまたは望ましくない平坦な領域として現れる場合がある。

【0122】

図１１のステップ（１１５０）の例のように、各パノラマ画像からのそれぞれのレイアウト推定に基づいてシーンのレイアウト推定を生成するために、パノラマ画像間の推定された相対位置に基づいて、前のステップ（例えば、ステップ（１１４０））で導出された多角形を同じ座標系に変換することができる。ステップ（１１４０）からの変換された（または導出された）多角形は、ｐｏｌｙ_０、ｐｏｌｙ_１、．．．ｐｏｌｙ_ｎとして表すことができる。シーンのレイアウト推定を生成するために、２つの別々のプロセス、すなわち輪郭推定および内縁推定を採用してレイアウトを取得することができる。

【0123】

輪郭推定では、レイアウト推定の輪郭を決定することができる。輪郭推定は、変換された多角形ｐｏｌｙ_０、ｐｏｌｙ_１、．．．ｐｏｌｙ_ｎをベースライン多角形ｐｏｌｙ_ｂａｓｅとして一緒に結合するために多角形和アルゴリズムを利用することができる。

【0124】

次いで、ベースライン多角形ｐｏｌｙ_ｂａｓｅを収縮させて、収縮多角形ｐｏｌｙ_{ｓｈｕｒｉｎｋ}を形成することができる。ベースライン多角形ｐｏｌｙ_ｂａｓｅを収縮させるために、ベースライン多角形ｐｏｌｙ_ｂａｓｅの各エッジｅ_ｉについて候補エッジ

【数3】

を決定することができる。候補エッジＥは、元の変換された多角形ｐｏｌｙ_０、ｐｏｌｙ_１、．．．ｐｏｌｙ_ｎから選択することができ、以下の条件のうちの少なくとも１つを満たす。
（１）各エッジ

【数4】

はｅ_ｉに平行であり、
（２）ｅ_ｉに対する

【数5】

の投影された重複率は、閾値よりも大きく、例えば７０％である。投影された重複率は、

【数6】

をｅ_ｉに投影し、次いでｅ_ｉの線分上の

【数7】

の線分の投影部分の比を計算することによって決定することができる。

【0125】

すべての候補エッジ

【数8】

の中で、原点ビュー位置（例えば、元のパノラマ画像におけるエッジの位置）により近い候補エッジ

【数9】

を使用して、ｅ_ｉを置き換えることができる。したがって、１つまたは複数の候補エッジ

【数10】

が原点ビュー位置に近いとき、１つまたは複数のエッジｅ_ｉは、対応する１つまたは複数の候補エッジ

【数11】

で置き換えることができる。

【0126】

ベースライン多角形ｐｏｌｙ_ｂａｓｅの形成では、変換された多角形ｐｏｌｙ_０、ｐｏｌｙ_１、．．．ｐｏｌｙ_ｎのすべてのエッジがベースライン多角形ｐｏｌｙ_ｂａｓｅで一緒にマージされ、基準多角形のエッジｅ_ｉと変換された多角形のエッジとの間の一致は考慮されなくてもよい。基準多角形ｐｏｌｙ_ｂａｓｅを各変換された多角形に投影することにより、１つまたは複数の候補エッジ

【数12】

が原点ビュー位置に近いとき、１つまたは複数のｅ_ｉを対応する１つまたは複数の候補エッジ

【数13】

で置き換えることができる。したがって、基準多角形のエッジｅ_ｉと変換多角形のエッジとを方向、サイズ、位置などにおいて一致させることができる。

【0127】

次いで、ベースライン多角形ｐｏｌｙ_ｂａｓｅのエッジｅ_ｉの各々を、対応する候補エッジ

【数14】

と比較することができる。対応する候補エッジ

【数15】

が原点ビュー位置に近いかどうかに基づいて、それぞれのエッジｅ_ｉを保持または置換することができる。収縮多角形ｐｏｌｙ_{ｓｈｕｒｉｎｋ}は、ベースライン多角形ｐｏｌｙ_ｂａｓｅの１つまたは複数のエッジｅ_ｉを置き換えることによって形成することができる。

【0128】

最終多角形ｐｏｌｙ_{ｆｉｎａｌ}は、２Ｄ多角形ノイズ除去、階段除去などのジオメトリ処理方法を使用することにより、収縮多角形に基づいてさらに取得することができる。

【0129】

内縁推定は、最終多角形ｐｏｌｙ_{ｆｉｎａｌ}の内縁を復元するように構成することができる。内縁を復元するために、最終多角形ｐｏｌｙ_{ｆｉｎａｌ}の内側にある変換された多角形ｐｏｌｙ_０、ｐｏｌｙ_１、．．．ｐｏｌｙ_ｎのすべてのエッジを集合Ｅ’に入れることができる。次に、空間ベースのエッジ投票戦略を使用して、エッジをクラスタリング（またはグループ化）することができる。例えば、最終多角形ｐｏｌｙ_{ｆｉｎａｌ}における２つのエッジは、２つのエッジが以下の条件のうちの少なくとも１つを満たすときにグループ化することができる。
（１）２つのエッジは平行である。
（２）２つのエッジ間の距離は、第１の閾値未満など、十分に小さい。
（３）２つのエッジ間の投影された重複は、第２の閾値よりも大きいなど、十分に大きい。

【0130】

さらに、エッジのグループが特定の数を超えるエッジを含む場合、エッジのグループの平均エッジを計算して、最終多角形ｐｏｌｙ_{ｆｉｎａｌ}の復元された内縁を表すことができる。したがって、エッジのグループの平均エッジを、復元された内縁として最終多角形ｐｏｌｙ_{ｆｉｎａｌ}に追加することができる。

【0131】

部屋の３Ｄ形状（またはマンハッタンレイアウト）は、様々な表現を使用して推定多角形（例えば、最終多角形ｐｏｌｙ_{ｆｉｎａｌ}）に基づいて生成することができる。

【0132】

一実施形態では、部屋の３Ｄ形状は、三角形メッシュを使用して生成することができる。例えば、部屋の天井面および床面は、最終多角形ｐｏｌｙ_{ｆｉｎａｌ}を三角形分割することによって生成することができる。部屋の壁面は、天井境界線および床境界線によって囲まれた長方形を三角形分割することによって生成することができる。３Ｄメッシュ（または３Ｄ形状）のテクスチャを生成するために、レイキャスティングベースの方法をさらに適用することができる。

【0133】

一実施形態では、四辺形を使用して、最終多角形ｐｏｌｙ_{ｆｉｎａｌ}を四角形分割することによって部屋の３Ｄ形状を表すことができる。

【0134】

一実施形態では、点群を使用して、三角形メッシュまたは四辺形メッシュから点をサンプリングすることによって部屋の３Ｄ形状を表すことができる。三角形メッシュは、最終多角形ｐｏｌｙ_{ｆｉｎａｌ}を三角形分割することによって取得することができる。四辺形メッシュは、最終多角形ｐｏｌｙ_{ｆｉｎａｌ}を四角形分割することによって取得することができる。

【0135】

一実施形態では、部屋の３Ｄ形状は、最終多角形をボクセル化することによって生成することができる。したがって、３Ｄモデル（例えば、最終多角形ｐｏｌｙ_{ｆｉｎａｌ}）を体積データ（例えば、部屋の３Ｄ形状）に変換することによって、ボクセル（または３Ｄ形状）を作成することができる。

【0136】

本開示では、シーン（例えば、部屋）のマンハッタンレイアウトを推定するための方法を提供することができる。シーンのマンハッタンレイアウトは、シーンに関連付けられたジオメトリ情報および意味セグメンテーション情報を使用して、シーンの複数のパノラマ画像から推定することができる。

【0137】

一実施形態では、主方向、線分、および意味セグメンテーションを一緒に使用して、複数のパノラマ画像の単一のパノラマ（またはパノラマ画像）からシーンのレイアウトを推定することができる。

【0138】

一実施形態では、パノラマ画像の姿勢情報（例えば、角度または距離）を使用して、各パノラマのレイアウトを最終レイアウト推定に組み合わせることができる。

【0139】

一実施形態では、最終多角形を三角形分割すること（例えば、ｐｏｌｙ_{ｆｉｎａｌ}）、最終多角形を四角形分割すること、最終多角形に基づいて点群を生成すること、またはモデルをボクセル化すること（例えば、最終レイアウト推定または最終多角形ｐｏｌｙ_{ｆｉｎａｌ}）によって、最終的な部屋のレイアウトから３Ｄ形状（またはマンハッタンレイアウト）を生成することができる。

【0140】

一実施形態では、複数のパノラマにおける線分は、線検出方法によって検出することができる。例えば、図１１のステップ（１１４０）に示すように、意味セグメンテーションは、パノラマ画像の各ピクセルに意味的意味（例えば、床、ドアなど）を割り当てることができる。意味セグメンテーションの結果を使用して、パノラマ（またはパノラマ画像）の各線分が部屋の壁の境界を表すかどうかを決定することができる。

【0141】

一実施形態では、パノラマ画像の主方向（例えば、ＸおよびＺ方向）は、パノラマ画像内の線分の統計情報を分析することによって取得することができる。

【0142】

一実施形態では、パノラマ画像の意味セグメンテーションは、深層学習ベースの意味セグメンテーション技術を使用して達成することができる。例えば、意味セグメンテーションは、ラベルまたはカテゴリを画像の各ピクセル（例えば、シーンのパノラマ画像）に関連付ける深層学習アルゴリズムとすることができる。

【0143】

一実施形態では、パノラマ画像のパノラマポーズ推定（例えば、角度または距離）は、画像位置合わせ技術を使用して達成することができる。２つのパノラマ画像の位置合わせに基づいて、２つのパノラマ画像間の相対角度または相対距離を決定することができる。

【0144】

一実施形態では、シーンの天井からシーンの地面までの距離とカメラから地面までの距離との間の比を、セグメンテーション情報を使用して計算することができる。

【0145】

図１２は、本開示のいくつかの実施形態による画像処理のためのフレームワーク（１２００）の図を示す。フレームワーク（１２００）は、ビデオエンコーダ（１２１０）およびビデオデコーダ（１２５０）を含む。ビデオエンコーダ（１２１０）は、シーン（例えば、部屋）の複数のパノラマ画像などの入力（１２０５）をビットストリーム（１２４５）にエンコーディングし、ビデオデコーダ（１２５０）は、ビットストリーム（１２４５）をデコーディングして、シーンのマンハッタンレイアウトなどの再構成された３Ｄ形状（１２９５）を生成する。

【0146】

ビデオエンコーダ（１２１０）は、例えば、コンピュータ、サーバコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、ゲームデバイス、ＡＲデバイス、ＶＲデバイスなどの任意の適切なデバイスとすることができる。ビデオデコーダ（１２５０）は、例えば、コンピュータ、クライアントコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、ゲームデバイス、ＡＲデバイス、ＶＲデバイスなどの任意の適切なデバイスとすることができる。ビットストリーム（１２４５）は、任意の適切な通信ネットワーク（図示せず）を介してビデオエンコーダ（１２１０）からビデオデコーダ（１２５０）に送信することができる。

【0147】

図１２の例では、ビデオエンコーダ（１２１０）は、一緒に結合されたセグメンテーションモジュール（１２２０）、エンコーダ（１２３０）、および抽出モジュール（１２４０）を含む。セグメンテーションモジュール（１２２０）は、シーンに関連付けられたパノラマ画像の各ピクセルに意味的意味（例えば、床、ドアなど）を割り当てるように構成される。各パノラマ画像の意味情報は、エンコーダ（１２３０）へのビットストリーム（１２２５）を通してエンコーダ（１２３０）に送信することができる。抽出モジュール（１２４０）は、各パノラマ画像のジオメトリ情報を抽出するように構成される。ジオメトリ情報は、ビットストリーム（１２２７）を通してエンコーダ（１２３０）に送信することができる。エンコーダ（１２３０）は、各パノラマ画像のジオメトリ情報および意味情報に基づいてシーンの３Ｄ形状（またはマンハッタンレイアウト）を生成するように構成される。例えば、エンコーダ（１２３０）は、各パノラマ画像に基づいてシーンのそれぞれのレイアウト推定（または多角形）を生成することができる。パノラマ画像のレイアウト推定を融合して、最終的なレイアウト推定（または最終多角形）を形成することができる。シーンの３Ｄ形状は、最終多角形を三角形分割すること、最終多角形を四角形分割すること、最終多角形に基づいて点群を生成すること、または最終多角形をボクセル化することによって生成することができる。

【0148】

図１２の例では、ビットストリーム（１２４５）は、ビデオデコーダ（１２５０）に提供される。ビデオデコーダ（１２５０）は、図１２に示すように一緒に結合されたデコーダ（１２６０）および再構成モジュール（１２９０）を含む。一例では、デコーダ（１２６０）はエンコーダ（１２３０）に対応し、エンコーダ（１２３０）によってエンコーディングされたビットストリーム（１２４５）をデコーディングし、デコーディングされた情報（１２６５）を生成することができる。デコーディングされた情報（１２６５）は、再構成モジュール（１２９０）にさらに提供することができる。したがって、再構成モジュール（１２９０）は、デコーディングされた情報（１２６５）に基づいてシーンの３Ｄ形状（またはマンハッタンレイアウト）（１２９５）を再構成することができる。

【0149】

図１３は、本開示の一実施形態によるプロセス（１３００）の概要を示すフローチャートを示す。様々な実施形態では、プロセス（１３００）は、処理回路によって実行される。いくつかの実施形態では、プロセス（１３００）はソフトウェア命令で実装され、したがって、処理回路がソフトウェア命令を実行すると、処理回路はプロセス（１３００）を実行する。プロセスは（Ｓ１３０１）から始まり、（Ｓ１３１０）に進む。

【0150】

（Ｓ１３１０）では、シーンの複数の２次元（２Ｄ）画像が受信される。

【0151】

（Ｓ１３２０）では、複数の２Ｄ画像の各々のジオメトリ情報および意味情報が決定される。ジオメトリ情報は、それぞれの２Ｄ画像における検出された線および基準方向を示す。意味情報は、それぞれの２Ｄ画像におけるピクセルの分類情報を含む。

【0152】

（Ｓ１３３０）では、シーンのそれぞれの２Ｄ画像に関連付けられたレイアウト推定は、それぞれの２Ｄ画像のジオメトリ情報および意味情報に基づいて決定される。

【0153】

（Ｓ１３４０）では、シーンに関連付けられた結合レイアウト推定は、シーンの複数の２Ｄ画像に関連付けられた複数の決定されたレイアウト推定に基づいて決定される。

【0154】

（Ｓ１３５０）では、シーンに関連付けられたマンハッタンレイアウトは、結合レイアウト推定に基づいて生成される。マンハッタンレイアウトは、互いに直交する壁面を含むシーンの少なくとも３次元（３Ｄ）形状を含む。

【0155】

【0156】

シーンのそれぞれの２Ｄ画像に関連付けられたレイアウト推定を決定するために、シーンに関連付けられた複数の決定されたレイアウト推定の第１のレイアウト推定を、第１の２Ｄ画像の第１のジオメトリ情報および第１の意味情報に基づいて決定することができる。第１のレイアウト推定を決定するために、検出された線の各々がシーンにおける壁の境界に対応する境界線であるかどうかを決定することができる。検出された線の境界線は、第１の２Ｄ画像の基準方向と位置合わせすることができる。第１のレイアウト推定を示す第１の多角形は、２Ｄ多角形ノイズ除去および階段除去のうちの１つを用いて位置合わせされた境界線に基づいて生成することができる。

【0157】

【0158】

【0159】

収縮多角形を決定するために、基準多角形のエッジの複数の多角形から複数の候補エッジを決定することができる。複数の候補エッジの各々は、基準多角形のそれぞれのエッジに対応することができる。収縮多角形の更新されたエッジは、基準多角形の対応する１つまたは複数のエッジよりも複数の２Ｄ画像における元のビュー位置に近い１つまたは複数の候補エッジに応答して、基準多角形の１つまたは複数のエッジを対応する１つまたは複数の候補エッジで置き換えることによって生成することができる。

【0160】

【0161】

【0162】

【0163】

【0164】

【0165】

上述された技術は、コンピュータ可読命令を使用するコンピュータソフトウェアとして実装され、１つまたは複数のコンピュータ可読媒体に物理的に記憶することができる。例えば、図１４は、開示されている主題の特定の実施形態を実施するのに適したコンピュータシステム（１４００）を示している。

【0166】

コンピュータソフトウェアは、アセンブリ、コンパイル、リンクなどのメカニズムを受けることができる任意の適切な機械コードまたはコンピュータ言語を使用してコーディングされ、１つまたは複数のコンピュータ中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）などによって直接、または解釈、マイクロコード実行などを介して、実行され得る命令を含むコードを作成することができる。

【0167】

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム機、モノのインターネットデバイスなどを含む様々なタイプのコンピュータまたはコンピュータの構成要素上で実行することができる。

【0168】

コンピュータシステム（１４００）に関して図１４に示されている構成要素は、本質的に例示であり、本開示の実施形態を実施するコンピュータソフトウェアの使用または機能の範囲に関するいかなる限定も示唆することを意図されていない。また、構成要素の構成は、コンピュータシステム（１４００）の例示的な実施形態に示される構成要素のいずれか１つまたは組み合わせに関するいかなる依存性または要件も有するものとして解釈されるべきではない。

【0169】

コンピュータシステム（１４００）は、特定のヒューマンインターフェース入力デバイスを含み得る。そのようなヒューマンインターフェース入力デバイスは、例えば、（キーストローク、スワイプ、データグローブの動きなどの）触覚入力、（音声、拍手などの）オーディオ入力、（ジェスチャなどの）視覚入力、（描写されていない）嗅覚入力を介して、１人または複数の人間のユーザによる入力に応答することができる。ヒューマンインターフェースデバイスは、（音声、音楽、周囲の音などの）オーディオ、（走査画像、静止画カメラから取得された写真画像などの）画像、（２次元ビデオ、立体ビデオを含む３次元ビデオなどの）ビデオなどの、人間による意識的な入力に必ずしも直接関連しない特定の媒体をキャプチャするために使用することもできる。

【0170】

入力ヒューマンインターフェースデバイスには、キーボード（１４０１）、マウス（１４０２）、トラックパッド（１４０３）、タッチスクリーン（１４１０）、データグローブ（図示せず）、ジョイスティック（１４０５）、マイクロフォン（１４０６）、スキャナ（１４０７）、カメラ（１４０８）のうちの１つまたは複数が含まれてもよい（各々の１つのみが図示されている）。

【0171】

コンピュータシステム（１４００）はまた、特定のヒューマンインターフェース出力デバイスも含み得る。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および臭い／味を介して、１人または複数の人間ユーザの感覚を刺激している場合がある。そのようなヒューマンインターフェース出力デバイスには、触覚出力デバイス（例えば、タッチスクリーン（１４１０）、データグローブ（図示せず）、またはジョイスティック（１４０５）による触覚フィードバック、しかし入力デバイスとして機能しない触覚フィードバックデバイスが存在する可能性もある）、（スピーカ（１４０９）、ヘッドフォン（図示せず）などの）オーディオ出力デバイス、（ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン（１４１０）など、各々タッチスクリーン入力機能の有無にかかわらず、各々触覚フィードバック機能の有無にかかわらず、それらのうちのいくつかは、ステレオグラフィック出力、仮想現実眼鏡（図示せず）、ホログラフィックディスプレイ、およびスモークタンク（図示せず）などの手段を介して２次元視覚出力または３次元以上の出力を出力することが可能な場合がある）視覚出力デバイス、ならびにプリンタ（図示せず）が含まれてもよい。

【0172】

コンピュータシステム（１４００）はまた、人間がアクセス可能なストレージデバイス、ならびにＣＤ／ＤＶＤまたは同様の媒体（１４２１）を有するＣＤ／ＤＶＤＲＯＭ／ＲＷ（１４２０）を含む光学メディア、サムドライブ（１４２２）、リムーバブルハードドライブまたはソリッドステートドライブ（１４２３）、テープおよびフロッピーディスクなどのレガシー磁気媒体（図示せず）、セキュリティドングルなどの専用のＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイス（図示せず）など、それらの関連媒体も含むことができる。

【0173】

当業者はまた、本開示の主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解するべきである。

【0174】

コンピュータシステム（１４００）はまた、１つまたは複数の通信ネットワーク（１４５５）へのインターフェース（１４５４）も含むことができる。ネットワークは、例えば、無線、有線、光とすることができる。ネットワークはさらに、ローカル、ワイドエリア、メトロポリタン、車両および産業用、リアルタイム、遅延耐性、などとすることができる。ネットワークの例は、イーサネットなどのローカルエリアネットワークと、無線ＬＡＮと、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどを含むセルラネットワークと、ケーブルＴＶ、衛星ＴＶ、地上波放送ＴＶを含むＴＶ有線または無線ワイドエリアデジタルネットワークと、ＣＡＮＢｕｓを含む車両および産業用と、などを含む。特定のネットワークは一般に、特定の汎用データポートまたは周辺バス（１４４９）（例えば、コンピュータシステム（１４００）のＵＳＢポートなど）に接続された外部ネットワークインターフェースアダプタを必要とし、他のものは一般に、以下に説明されるようにシステムバスへの接続によってコンピュータシステム（１４００）のコアに統合される（例えば、ＰＣコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラネットワークインターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム（１４００）は他のエンティティと通信することができる。このような通信は、単方向受信のみ（例えば、ＴＶ放送）、単方向送信のみ（例えば、特定のＣＡＮｂｕｓデバイスへのＣＡＮｂｕｓ）、または例えば、ローカルまたはワイドエリアデジタルネットワークを使用する他のコンピュータシステムとの双方向とすることができる。特定のプロトコルおよびプロトコルスタックは、上述したように、それらのネットワークおよびネットワークインターフェースの各々で使用され得る。

【0175】

前述のヒューマンインターフェースデバイス、人間がアクセス可能なストレージデバイス、およびネットワークインターフェースは、コンピュータシステム（１４００）のコア（１４４０）に接続されることができる。

【0176】

コア（１４４０）は、１つまたは複数の中央処理装置（ＣＰＵ）（１４４１）、グラフィックス処理装置（ＧＰＵ）（１４４２）、フィールドプログラマブルゲートエリア（ＦＰＧＡ）（１４４３）の形態の専用プログラマブル処理装置、特定のタスク用のハードウェアアクセラレータ（１４４４）、グラフィックスアダプタ（１４５０）などを含むことができる。これらのデバイスは、読み取り専用メモリ（ＲＯＭ）（１４４５）、ランダムアクセスメモリ（１４４６）、ユーザがアクセスできない内部ハードドライブ、ＳＳＤなどの内部大容量ストレージ（１４４７）と共に、システムバス（１４４８）を介して接続され得る。いくつかのコンピュータシステムでは、システムバス（１４４８）は、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にするために、１つまたは複数の物理プラグの形態でアクセスされることができる。周辺デバイスは、コアのシステムバス（１４４８）に直接接続されるか、または周辺バス（１４４９）を介して接続されることができる。一例では、スクリーン（１４１０）はグラフィックスアダプタ（１４５０）に接続されることができる。周辺バス用のアーキテクチャには、ＰＣＩ、ＵＳＢなどが含まれる。

【0177】

ＣＰＵ（１４４１）、ＧＰＵ（１４４２）、ＦＰＧＡ（１４４３）、およびアクセラレータ（１４４４）は、組み合わせて前述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ＲＯＭ（１４４５）またはＲＡＭ（１４４６）に記憶され得る。移行データはまた、ＲＡＭ（１４４６）に記憶され得るが、永久データは、例えば、内部大容量ストレージ（１４４７）に記憶され得る。１つまたは複数のＣＰＵ（１４４１）、ＧＰＵ（１４４２）、大容量ストレージ（１４４７）、ＲＯＭ（１４４５）、ＲＡＭ（１４４６）などと密接に関連付けられることができるキャッシュメモリの使用を介して、メモリデバイスのいずれへの高速記憶および取り出しも可能にされることができる。

【0178】

コンピュータ可読媒体は、様々なコンピュータ実装動作を実施するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであってもよく、またはコンピュータソフトウェア技術の当業者に周知の利用可能な種類のものであってもよい。

【0179】

限定の目的ではなく一例として、アーキテクチャ、具体的にはコア（１４４０）を有するコンピュータシステム（１４００）は、１つまたは複数の有形のコンピュータ可読媒体で具現化されたソフトウェアを実行するプロセッサ（複数可）（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）の結果として機能を提供することができる。このようなコンピュータ可読媒体は、上記で紹介されたようなユーザがアクセス可能な大容量ストレージ、およびコア内部大容量ストレージ（１４４７）またはＲＯＭ（１４４５）などの非一時的な性質のコア（１４４０）の特定のストレージ、に関連付けられた媒体とすることができる。本開示の様々な実施形態を実施するソフトウェアは、このようなデバイスに記憶され、コア（１４４０）によって実行されることができる。コンピュータ可読媒体は、特定の必要性に応じて、１つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア（１４４０）、および具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ（１４４６）に記憶されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスに従ってこのようなデータ構造を修正することを含む、本明細書に記載の特定のプロセス、または特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、本明細書に記載の特定の処理、または特定の処理の特定の部分を実行するために、ソフトウェアの代わりに、またはソフトウェアと共に動作し得る回路（例えば、アクセラレータ（１４４４））に配線された、またはそうでなければ具体化された論理の結果として機能を提供することができる。ソフトウェアへの言及は、必要に応じて、論理を包含することができ、その逆も同様である。コンピュータ可読媒体への言及は、必要に応じて、実行のためのソフトウェアを記憶する回路（集積回路（ＩＣ）など）、実行のための論理を具現化する回路、またはその両方を包含することができる。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを包含する。

【0180】

本開示はいくつかの例示的な実施形態を記載しているが、本開示の範囲内に入る変更、置換、および様々な代替の均等物が存在する。したがって、当業者は、本明細書に明示的に示されていないかまたは記載されていないが、本開示の原理を具現化し、したがって本開示の趣旨および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。

【符号の説明】

【0181】

１００通信システム、１０５センサ、１１０端末デバイス、１２０端末デバイス、１５０ネットワーク、２００ストリーミングシステム、２０１点群ソース、２０２点群、２０３エンコーダ、２０４圧縮点群、２０５ストリーミングサーバ、２０６クライアントサブシステム、２０７圧縮点群のコピー、２０８クライアントサブシステム、２０９圧縮点群のコピー、２１０デコーダ、２１１レンダリングすることができる再構築された点群、２１２レンダリングデバイス、２１３キャプチャサブシステム、２２０電子デバイス、２３０電子デバイス、３００Ｖ－ＰＣＣエンコーダ、３０４パッチ情報モジュール、３０６パッチ生成モジュール、３０８パッチパッキングモジュール、３１０ジオメトリ画像生成モジュール、３１２テクスチャ画像生成モジュール、３１４占有マップモジュール、３１６画像パディングモジュール、３１８画像パディングモジュール、３２０グループ拡張モジュール、３２２ビデオ圧縮モジュール、３２３ビデオ圧縮モジュール、３２４マルチプレクサ、３３２ビデオ圧縮モジュール、３３４エントロピー圧縮モジュール、３３６平滑化モジュール、３３８補助パッチ情報圧縮モジュール、４００Ｖ－ＰＣＣデコーダ、４３２デマルチプレクサ、４３４ビデオ展開モジュール、４３６ビデオ展開モジュール、４３８占有マップ展開モジュール、４４２補助パッチ情報展開モジュール、４４４ジオメトリ再構築モジュール、４４６平滑化モジュール、４４８テクスチャ再構築モジュール、４５２色平滑化モジュール、５１０ビデオデコーダ、５２０パーサ、５２１シンボル、５５１スケーラ／逆変換ユニット、５５２イントラ予測ユニット、５５３動き補償予測ユニット、５５５アグリゲータ、５５６ループフィルタユニット、５５７基準ピクチャメモリ、５５８現在のピクチャバッファ、６０３ビデオエンコーダ、６３０ソースコーダ、６３２コーディングエンジン、６３３（ローカル）デコーダ、６３４基準ピクチャメモリ、６３５予測子、６４５エントロピーコーダ、６５０コントローラ、７００Ｇ－ＰＣＣエンコーダ、７０１入力点群、７０２圧縮されたビットストリーム、７１０位置量子化モジュール、７１２重複点除去モジュール、７２０属性転送モジュール、７３０八分木エンコーディングモジュール、７４０詳細レベル生成モジュール、７５０属性予測モジュール、７６０残差量子化モジュール、７７０算術コーディングモジュール、７８０逆残差量子化モジュール、７８１加算モジュール、７９０再構築された属性値を記憶するためのメモリ、８００Ｇ－ＰＣＣデコーダ、８０１圧縮されたビットストリーム、８０２デコーディングされた点群、８１０算術デコーディングモジュール、８２０逆残差量子化モジュール、８３０八分木デコーディングモジュール、８４０ＬＯＤ生成モジュール、８５０属性予測モジュールモジュール、８６０再構築された属性値を記憶するためのメモリ、９００パノラマ、９０２天井、９０４床、９０６ソファ、９０８壁、１０００部屋レイアウト、１００２多角形、１００４３Ｄメッシュ、１１００プロセス、１１１０入力パノラマ、１１２０ジオメトリ情報の抽出、１１３０意味セグメンテーション、１１４０単一のパノラマレイアウトの推定、１１５０複数のパノラマレイアウトの融合、１１６０レイアウト＆メッシュの生成、１２００フレームワーク、１２０５入力、１２１０ビデオエンコーダ、１２２０セグメンテーションモジュール、１２２５エンコーダへのビットストリーム、１２２７ビットストリーム、１２３０エンコーダ、１２４０抽出モジュール、１２４５ビットストリーム、１２５０ビデオデコーダ、１２６０デコーダ、１２６５デコーディングされた情報、１２９０再構成モジュール、１２９５再構成された３Ｄ形状、１３００プロセス、１４００コンピュータシステム、１４０１キーボード、１４０２マウス、１４０３トラックパッド、１４０５ジョイスティック、１４０６マイクロフォン、１４０７スキャナ、１４０８カメラ、１４０９スピーカ、１４１０タッチスクリーン、１４２０ＣＤ／ＤＶＤＲＯＭ／ＲＷ、１４２１ＣＤ／ＤＶＤまたは同様の媒体、１４２２サムドライブ、１４２３リムーバブルハードドライブまたはソリッドステートドライブ、１４４０コア、１４４１中央処理装置（ＣＰＵ）、１４４２グラフィックス処理装置（ＧＰＵ）、１４４３フィールドプログラマブルゲートエリア（ＦＰＧＡ）、１４４４特定のタスク用のハードウェアアクセラレータ、１４４５読み取り専用メモリ（ＲＯＭ）、１４４６ランダムアクセスメモリ、１４４７内部大容量ストレージ、１４４８システムバス、１４４９周辺バス、１４５０グラフィックスアダプタ、１４５４ネットワークインターフェース、１４５５通信ネットワーク

【図1】