IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・アメリカ・エルエルシーの特許一覧

特表2024-513815シーンに関連付けられたマンハッタンレイアウトを推定するための方法、装置及びコンピュータプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-27
(54)【発明の名称】シーンに関連付けられたマンハッタンレイアウトを推定するための方法、装置及びコンピュータプログラム
(51)【国際特許分類】
   G06V 10/44 20220101AFI20240319BHJP
   G06T 7/00 20170101ALI20240319BHJP
   G06T 7/60 20170101ALI20240319BHJP
   G06T 7/579 20170101ALI20240319BHJP
【FI】
G06V10/44
G06T7/00 C
G06T7/60 300
G06T7/579
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023560170
(86)(22)【出願日】2022-11-08
(85)【翻訳文提出日】2023-09-28
(86)【国際出願番号】 US2022079437
(87)【国際公開番号】W WO2023149969
(87)【国際公開日】2023-08-10
(31)【優先権主張番号】63/306,001
(32)【優先日】2022-02-02
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/981,156
(32)【優先日】2022-11-04
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】ハイチャオ・ジュ
(72)【発明者】
【氏名】ビン・ジアン
(72)【発明者】
【氏名】ウェイウェイ・フェン
(72)【発明者】
【氏名】ル・ヘ
(72)【発明者】
【氏名】ケリン・リュウ
(72)【発明者】
【氏名】シャン・リュウ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA08
5L096FA03
5L096FA05
5L096FA79
(57)【要約】
シーンの複数の2次元(2D)画像が受信される。複数の2D画像の各々のジオメトリ情報および意味情報が決定される。ジオメトリ情報は、それぞれの2D画像における検出された線および基準方向を示す。意味情報は、それぞれの2D画像におけるピクセルの分類情報を含む。シーンのそれぞれの2D画像に関連付けられたレイアウト推定は、それぞれの2D画像のジオメトリ情報および意味情報に基づいて決定される。シーンに関連付けられた結合レイアウト推定は、シーンの複数の2D画像に関連付けられた複数の決定されたレイアウト推定に基づいて決定される。シーンに関連付けられたマンハッタンレイアウトは、結合レイアウト推定に基づいて生成される。マンハッタンレイアウトは、互いに直交する壁面を含むシーンの少なくとも3次元(3D)形状を含む。
【特許請求の範囲】
【請求項1】
シーンに関連付けられたマンハッタンレイアウトを推定するための方法であって、前記方法は、
前記シーンの複数の2次元(2D)画像を受信するステップと、
前記複数の2D画像の各々のジオメトリ情報および意味情報を決定するステップであって、前記ジオメトリ情報は、前記それぞれの2D画像において検出された線および基準方向を示し、前記意味情報は、前記それぞれの2D画像におけるピクセルの分類情報を含む、ステップと、
前記それぞれの2D画像の前記ジオメトリ情報および前記意味情報に基づいて、前記シーンの前記それぞれの2D画像に関連付けられたレイアウト推定を決定するステップと、
前記シーンの前記複数の2D画像に関連付けられた複数の前記決定されたレイアウト推定に基づいて、前記シーンに関連付けられた結合レイアウト推定を決定するステップと、
前記結合レイアウト推定に基づいて、前記シーンに関連付けられた前記マンハッタンレイアウトを生成するステップであって、前記マンハッタンレイアウトは、互いに直交する壁面を含む前記シーンの少なくとも3次元(3D)形状を含む、ステップとを含む、方法。
【請求項2】
前記ジオメトリ情報および前記意味情報を決定する前記ステップは、
前記複数の2D画像のうちの第1の2D画像の第1のジオメトリ情報を抽出するステップであって、前記第1のジオメトリ情報は、検出された線、前記第1の2D画像の基準方向、天井から地面までの第1の距離とカメラから前記地面までの第2の距離との比、または前記複数の2D画像のうちの前記第1の2D画像と第2の2D画像との間の相対姿勢のうちの少なくとも1つを含む、ステップと、
前記第1の2D画像のピクセルをラベル付けして第1の意味情報を生成するステップであって、前記第1の意味情報は、前記第1の2D画像における前記ピクセルの第1の構造情報を示す、ステップとをさらに含む、請求項1に記載の方法。
【請求項3】
前記シーンの前記それぞれの2D画像に関連付けられた前記レイアウト推定を決定する前記ステップは、
前記第1の2D画像の前記第1のジオメトリ情報および前記第1の意味情報に基づいて、前記シーンに関連付けられた前記複数の前記決定されたレイアウト推定の第1のレイアウト推定を決定するステップとをさらに含み、
前記第1のレイアウト推定を決定する前記ステップは、
前記検出された線の各々が前記シーンにおける壁の境界に対応する境界線であるかどうかを決定するステップと、
前記検出された線の前記境界線を前記第1の2D画像の前記基準方向と位置合わせするステップと、
2D多角形ノイズ除去および階段除去のうちの1つを用いて、前記位置合わせされた境界線に基づいて前記第1のレイアウト推定を示す第1の多角形を生成するステップとをさらに含む、請求項2に記載の方法。
【請求項4】
前記第1の多角形を生成する前記ステップが、
前記境界線の天井境界線と床境界線との組み合わせに基づいて、複数の未完了境界線を推定するステップと、
前記複数の未完了境界線のうちの一対の未完了境界線を、(i)前記一対の未完了境界線が平行であることに応答して前記一対の未完了境界線に垂直線を追加するステップ、および(ii)前記一対の未完了境界線のうちの少なくとも1つを拡張するステップであって、その結果、前記一対の未完了境界線の交点が前記拡張された一対の未完了境界線上に位置する、ステップのうちの一方に基づいて接続するステップとのうちの1つに基づいて前記境界線の前記複数の未完了境界線を完成させるステップをさらに含む、請求項3に記載の方法。
【請求項5】
前記シーンに関連付けられた前記結合レイアウト推定を決定する前記ステップは、
多角形和アルゴリズムを介して複数の多角形を結合することによって基準多角形を決定するステップであって、前記複数の多角形の各々は、前記複数の前記決定されたレイアウト推定のそれぞれのレイアウト推定に対応する、ステップと、
前記基準多角形に基づいて収縮多角形を決定するステップであって、前記収縮多角形は、前記基準多角形のエッジから更新される更新されたエッジを含む、ステップと、
前記2D多角形ノイズ除去および前記階段除去のうちの1つを用いて、前記収縮多角形に基づいて最終多角形を決定するステップであって、前記最終多角形が、前記シーンに関連付けられた前記結合レイアウト推定に対応する、ステップとをさらに含む、請求項3に記載の方法。
【請求項6】
前記収縮多角形を決定する前記ステップは、
前記基準多角形の前記エッジについて前記複数の多角形から複数の候補エッジを決定するステップであって、前記複数の候補エッジの各々は、前記基準多角形のそれぞれのエッジに対応する、ステップと、
前記基準多角形の前記対応する1つまたは複数のエッジよりも前記複数の2D画像において元のビュー位置に近い前記1つまたは複数の候補エッジに応答して、前記基準多角形の1つまたは複数のエッジを前記対応する1つまたは複数の候補エッジで置き換えることにより、前記収縮多角形の前記更新されたエッジを生成するステップとをさらに含む、請求項5に記載の方法。
【請求項7】
前記複数の候補エッジの各々は、前記基準多角形の前記対応するエッジと平行であり、
前記それぞれの候補エッジと前記基準多角形の前記対応するエッジとの間の投影された重複部分は、閾値よりも大きい、
請求項6に記載の方法。
【請求項8】
前記シーンに関連付けられた前記結合レイアウト推定を決定する前記ステップは、
前記最終多角形のエッジを含むエッジ集合を決定するステップと、
前記エッジ集合に基づいて複数のエッジグループを生成するステップと、
前記エッジ集合の1つまたは複数のエッジグループの複数の平均エッジによって示される前記最終多角形の複数の内縁を生成するステップであって、前記複数のエッジグループの前記1つまたは複数のエッジグループの各々は、目標値よりも大きいそれぞれの数のエッジを含み、前記複数の平均エッジの各々は、前記1つまたは複数のエッジグループのうちのそれぞれの1つのエッジを平均化することによって取得される、ステップとをさらに含む、請求項5に記載の方法。
【請求項9】
前記複数のエッジグループは、第1のエッジグループを含み、
前記第1のエッジグループは、第1のエッジおよび第2のエッジをさらに含み、前記第1のエッジおよび前記第2のエッジは平行であり、前記第1のエッジと前記第2のエッジとの間の距離は第1の閾値未満であり、前記第1のエッジと前記第2のエッジとの間の投影された重複領域は第2の閾値より大きい、
請求項8に記載の方法。
【請求項10】
前記シーンに関連付けられた前記マンハッタンレイアウトを生成する前記ステップは、
前記結合レイアウト推定から三角形分割された三角形メッシュ、前記結合レイアウト推定から四角形分割された四辺形メッシュ、前記三角形メッシュおよび前記四辺形メッシュのうちの1つからサンプリングされたサンプリング点、またはボクセル化を介して前記三角形メッシュおよび前記四辺形メッシュのうちの1つから生成された離散グリッドのうちの1つに基づいて、前記シーンに関連付けられた前記マンハッタンレイアウトを生成するステップをさらに含む、請求項1に記載の方法。
【請求項11】
前記シーンに関連付けられた前記マンハッタンレイアウトは、前記結合レイアウト推定から三角形分割された前記三角形メッシュに基づいて生成され、
前記シーンに関連付けられた前記マンハッタンレイアウトを生成する前記ステップは、
前記結合レイアウト推定を三角形分割することによって、前記シーンにおける天井面および床面を生成するステップと、
前記シーンにおける天井境界線および床境界線を囲む長方形を三角形分割することによって前記シーンにおいて前記壁面を生成するステップと、
レイキャスティングベースのプロセスを介して前記シーンに関連付けられた前記マンハッタンレイアウトのテクスチャを生成するステップとをさらに含む、請求項10に記載の方法。
【請求項12】
シーンに関連付けられたマンハッタンレイアウトを推定するための装置であって、前記装置は、
前記シーンの複数の2次元(2D)画像を受信し、
前記複数の2D画像の各々のジオメトリ情報および意味情報を決定し、前記ジオメトリ情報は、前記それぞれの2D画像において検出された線および基準方向を示し、前記意味情報は、前記それぞれの2D画像におけるピクセルの分類情報を含み、
前記それぞれの2D画像の前記ジオメトリ情報および前記意味情報に基づいて、前記シーンの前記それぞれの2D画像に関連付けられたレイアウト推定を決定し、
前記シーンの前記複数の2D画像に関連付けられた複数の前記決定されたレイアウト推定に基づいて、前記シーンに関連付けられた結合レイアウト推定を決定し、
前記結合レイアウト推定に基づいて、前記シーンに関連付けられた前記マンハッタンレイアウトを生成し、前記マンハッタンレイアウトは、互いに直交する壁面を含む前記シーンの少なくとも3次元(3D)形状を含む
ように構成された処理回路を備える、装置。
【請求項13】
前記処理回路は、
前記複数の2D画像のうちの第1の2D画像の第1のジオメトリ情報を抽出し、前記第1のジオメトリ情報は、検出された線、前記第1の2D画像の基準方向、天井から地面までの第1の距離とカメラから前記地面までの第2の距離との比、または前記複数の2D画像のうちの前記第1の2D画像と第2の2D画像との間の相対姿勢のうちの少なくとも1つを含み、
前記第1の2D画像のピクセルをラベル付けして第1の意味情報を生成し、前記第1の意味情報は、前記第1の2D画像における前記ピクセルの第1の構造情報を示すように構成される、請求項12に記載の装置。
【請求項14】
前記処理回路は、
前記第1の2D画像の前記第1のジオメトリ情報および前記第1の意味情報に基づいて、前記シーンに関連付けられた前記複数の前記決定されたレイアウト推定の第1のレイアウト推定を決定するように構成され、
前記第1のレイアウト推定を決定するために、前記処理回路は、
前記検出された線の各々が前記シーンにおける壁の境界に対応する境界線であるかどうかを決定し、
前記検出された線の前記境界線を前記第1の2D画像の前記基準方向と位置合わせし、
2D多角形ノイズ除去および階段除去のうちの1つを用いて、前記位置合わせされた境界線に基づいて前記第1のレイアウト推定を示す第1の多角形を生成するようにさらに構成される、請求項13に記載の装置。
【請求項15】
前記処理回路は、
前記境界線の天井境界線と床境界線との組み合わせに基づいて、複数の未完了境界線を推定することと、
前記複数の未完了境界線のうちの一対の未完了境界線を、(i)前記一対の未完了境界線が平行であることに応答して前記一対の未完了境界線に垂直線を追加すること、および(ii)前記一対の未完了境界線のうちの少なくとも1つを拡張することであって、その結果、前記一対の未完了境界線の交点が前記拡張された一対の未完了境界線上に位置する、ことのうちの一方に基づいて接続することとのうちの1つに基づいて前記境界線の前記複数の未完了境界線を完成させるように構成される、請求項14に記載の装置。
【請求項16】
前記処理回路は、
多角形和アルゴリズムを介して複数の多角形を結合することによって基準多角形を決定し、前記複数の多角形の各々は、前記複数の前記決定されたレイアウト推定のそれぞれのレイアウト推定に対応し、
前記基準多角形に基づいて収縮多角形を決定し、前記収縮多角形は、前記基準多角形のエッジから更新される更新されたエッジを含み、
前記2D多角形ノイズ除去および前記階段除去のうちの1つを用いて、前記収縮多角形に基づいて最終多角形を決定し、前記最終多角形が、前記シーンに関連付けられた前記結合レイアウト推定に対応するように構成される、請求項14に記載の装置。
【請求項17】
前記処理回路は、
前記基準多角形の前記エッジについて前記複数の多角形から複数の候補エッジを決定し、前記複数の候補エッジの各々は、前記基準多角形のそれぞれのエッジに対応し、
前記基準多角形の前記対応する1つまたは複数のエッジよりも前記複数の2D画像において元のビュー位置に近い前記1つまたは複数の候補エッジに応答して、前記基準多角形の1つまたは複数のエッジを前記対応する1つまたは複数の候補エッジで置き換えることにより、前記収縮多角形の前記更新されたエッジを生成するように構成される、請求項16に記載の装置。
【請求項18】
前記複数の候補エッジの各々は、前記基準多角形の前記対応するエッジと平行であり、
前記それぞれの候補エッジと前記基準多角形の前記対応するエッジとの間の投影された重複部分は、閾値よりも大きい、
請求項17に記載の装置。
【請求項19】
前記処理回路は、
前記最終多角形のエッジを含むエッジ集合を決定し、
前記エッジ集合に基づいて複数のエッジグループを生成し、
前記エッジ集合の1つまたは複数のエッジグループの複数の平均エッジによって示される前記最終多角形の複数の内縁を生成し、前記複数のエッジグループの前記1つまたは複数のエッジグループの各々は、目標値よりも大きいそれぞれの数のエッジを含み、前記複数の平均エッジの各々は、前記1つまたは複数のエッジグループのうちのそれぞれの1つのエッジを平均化することによって取得されるように構成される、請求項16に記載の装置。
【請求項20】
前記複数のエッジグループは、第1のエッジグループを含み、
前記第1のエッジグループは、第1のエッジおよび第2のエッジをさらに含み、前記第1のエッジおよび前記第2のエッジは平行であり、前記第1のエッジと前記第2のエッジとの間の距離は第1の閾値未満であり、前記第1のエッジと前記第2のエッジとの間の投影された重複領域は第2の閾値より大きい、
請求項19に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2022年11月4日に出願された米国特許出願第17/981,156号「ジオメトリおよび意味情報を使用したマンハッタンレイアウト推定」に対する優先権の利益を主張し、同出願は、2022年2月2日に出願された米国仮出願第63/306,001号「ジオメトリおよび意味セグメンテーション情報を使用した複数のパノラマ画像からのマンハッタンレイアウト推定のための方法」に対する優先権の利益を主張する。先行出願の開示は、その全体が参照により本明細書に組み込まれる。
【0002】
本開示は、一般に、画像コーディングに関連する実施形態を説明する。
【背景技術】
【0003】
本明細書で提供される背景技術の説明は、本開示のコンテキストを一般的に提示することを目的とする。本発明者らの研究は、この背景技術の項に記載されている限りにおいて、および出願時に先行技術として認められない可能性がある説明の態様は、本開示に対する先行技術として明示的にも暗示的にも認められない。
【0004】
3次元(3D)空間または形状における世界のオブジェクト、世界の環境などの世界をキャプチャし表現するための種々の技術が開発されてきた。世界の3D表現により、より没入型のインタラクション、およびより没入型のコミュニケーションができるようになる可能性がある。いくつかの例では、そのような没入型コンテンツを表すために3D形状が広く使用されている。
【発明の概要】
【課題を解決するための手段】
【0005】
本開示の態様は、画像コーディング(例えば、圧縮および展開)のための方法および装置を提供する。いくつかの例では、画像コーディングのための装置は処理回路を含む。
【0006】
本開示の一態様によれば、シーンに関連付けられたマンハッタンレイアウトを推定するための方法が提供される。本方法では、シーンの複数の2次元(2D)画像を受信することができる。複数の2D画像の各々のジオメトリ情報および意味情報を決定することができる。ジオメトリ情報は、それぞれの2D画像において検出された線および基準方向を示すことができる。意味情報は、それぞれの2D画像においてピクセルの分類情報を含むことができる。シーンのそれぞれの2D画像に関連付けられたレイアウト推定は、それぞれの2D画像のジオメトリ情報および意味情報に基づいて決定することができる。シーンに関連付けられた結合レイアウト推定は、シーンの複数の2D画像に関連付けられた複数の決定されたレイアウト推定に基づいて決定することができる。シーンに関連付けられたマンハッタンレイアウトは、結合レイアウト推定に基づいて生成することができる。マンハッタンレイアウトは、互いに直交する壁面を含むシーンの少なくとも3次元(3D)形状を含むことができる。
【0007】
ジオメトリ情報および意味情報を決定するために、複数の2D画像のうちの第1の2D画像の第1のジオメトリ情報を抽出することができる。第1のジオメトリ情報は、検出された線、第1の2D画像の基準方向、天井から地面までの第1の距離とカメラから地面までの第2の距離との比、または複数の2D画像のうちの第1の2D画像と第2の2D画像の間の相対姿勢(例えば、角度または距離)のうちの少なくとも1つを含むことができる。第1の2D画像のピクセルは、第1の意味情報を生成するためにラベル付けされることができ、第1の意味情報は、第1の2D画像においてピクセルの第1の構造情報を示すことができる。
【0008】
シーンのそれぞれの2D画像に関連付けられたレイアウト推定を決定するために、シーンに関連付けられた複数のレイアウト推定の第1のレイアウト推定を、第1の2D画像の第1のジオメトリ情報および第1の意味情報に基づいて決定することができる。第1のレイアウト推定を決定するために、検出された線の各々がシーンにおける壁の境界に対応する境界線であるかどうかを決定することができる。検出された線の境界線は、第1の2D画像の基準方向と位置合わせすることができる。第1のレイアウト推定を示す第1の多角形は、2D多角形ノイズ除去および階段除去のうちの1つを用いて位置合わせされた境界線に基づいて生成することができる。
【0009】
第1の多角形を生成するために、境界線の複数の未完了境界線は、(i)境界線の天井境界線および床境界線の組み合わせに基づいて複数の未完了境界線を推定すること、および(ii)複数の未完了境界線の一対の未完了境界線を接続することのうちの1つに基づいて完成することができる。一対の未完了境界線は、(i)一対の未完了境界線が平行であることに応じて一対の未完了境界線に垂直線を追加すること、および(ii)一対の未完了境界線の少なくとも1つを拡張することであって、その結果、一対の未完了境界線の交点が拡張された一対の未完了境界線上に位置する、ことの1つに基づいて接続することができる。
【0010】
シーンに関連付けられた結合レイアウト推定を決定するために、基準多角形は、多角形和アルゴリズムを介して複数の多角形を結合することによって決定することができる。複数の多角形の各々は、複数の決定されたレイアウト推定のそれぞれのレイアウト推定に対応することができる。収縮多角形は、基準多角形に基づいて決定することができる。収縮多角形は、基準多角形のエッジから更新される更新されたエッジを含むことができる。最終多角形は、2D多角形ノイズ除去および階段除去のうちの1つを用いて収縮多角形に基づいて決定することができる。最終多角形は、シーンに関連付けられた結合レイアウト推定に対応することができる。
【0011】
収縮多角形を決定するために、基準多角形のエッジの複数の多角形から複数の候補エッジを決定することができる。複数の候補エッジの各々は、基準多角形のそれぞれのエッジに対応することができる。収縮多角形の更新されたエッジは、基準多角形の対応する1つまたは複数のエッジよりも複数の画像における元のビュー位置に近い1つまたは複数の候補エッジに応答して、基準多角形の1つまたは複数のエッジを対応する1つまたは複数の候補エッジで置き換えることによって生成することができる。
【0012】
いくつかの実施形態では、複数の候補エッジの各々は、基準多角形の対応するエッジに平行であることができる。それぞれの候補エッジと基準多角形の対応するエッジの間の投影された重複部分は、閾値よりも大きくすることができる。
【0013】
シーンに関連付けられた結合レイアウト推定を決定するために、最終多角形のエッジを含むエッジ集合を決定することができる。エッジ集合に基づいて複数のエッジグループを生成することができる。最終多角形の複数の内縁を生成することができる。複数の内縁は、エッジ集合の1つまたは複数のエッジグループの複数の平均エッジによって示すことができる。複数のエッジグループのうちの1つまたは複数のエッジグループの各々は、目標値よりも大きいそれぞれの数のエッジを含むことができる。複数の平均エッジの各々は、1つまたは複数のエッジグループのそれぞれ1つのエッジを平均化することによって取得することができる。
【0014】
いくつかの実施形態では、複数のエッジグループは、第1のエッジグループを含むことができる。第1のエッジグループは、第1のエッジおよび第2のエッジをさらに含むことができる。第1のエッジおよび第2のエッジは平行であることができる。第1のエッジと第2のエッジの間の距離は、第1の閾値未満であることができる。第1のエッジと第2のエッジとの間の投影された重複領域は、第2の閾値よりも大きくすることができる。
【0015】
シーンに関連付けられたマンハッタンレイアウトを生成するために、シーンに関連付けられたマンハッタンレイアウトは、結合レイアウト推定から三角形分割された三角形メッシュ、結合レイアウト推定から四角形分割された四辺形メッシュ、三角形メッシュおよび四辺形メッシュのうちの1つからサンプリングされたサンプリング点、またはボクセル化を介して三角形メッシュおよび四辺形メッシュのうちの1つから生成された離散グリッドのうちの1つに基づいて生成することができる。
【0016】
いくつかの実施形態では、シーンに関連付けられたマンハッタンレイアウトは、結合レイアウト推定から三角形分割された三角形メッシュに基づいて生成することができる。したがって、シーンに関連付けられたマンハッタンレイアウトを生成するために、結合レイアウト推定を三角形分割することによって、シーンにおける天井面および床面を生成することができる。シーンにおける壁面は、シーンにおける天井境界線および床境界線を囲む長方形を三角形分割することによって生成することができる。シーンに関連付けられたマンハッタンレイアウトのテクスチャは、レイキャスティングベースのプロセスを介して生成することができる。
【0017】
本開示の別の態様によれば、装置が提供される。装置は、処理回路を含む。処理回路は、シーンに関連付けられたマンハッタンレイアウトを推定するための方法のいずれかを実行するように構成することができる。
【0018】
本開示の態様はまた、コンピュータによって実行されると、シーンに関連付けられたマンハッタンレイアウトを推定するための方法のいずれかをコンピュータに実行させる命令を記憶する非一時的コンピュータ可読媒体を提供する。
【0019】
開示された主題のさらなる特徴、性質および様々な利点は、以下の詳細な説明および添付の図面から、より明らかになるであろう。
【図面の簡単な説明】
【0020】
図1】いくつかの例における通信システムのブロック図を示す。
図2】いくつかの例におけるストリーミングシステムのブロック図を示す。
図3】いくつかの例における点群フレームをエンコーディングするためのエンコーダのブロック図を示す。
図4】いくつかの例における点群フレームに対応する圧縮されたビットストリームをデコーディングするためのデコーダのブロック図を示す。
図5】いくつかの例におけるビデオデコーダのブロック図を示す。
図6】いくつかの例におけるビデオエンコーダのブロック図を示す。
図7】いくつかの例における、点群フレームをエンコーディングするためのエンコーダのブロック図を示す。
図8】いくつかの例における点群フレームに対応する圧縮されたビットストリームをデコーディングするためのデコーダのブロック図を示す。
図9A】いくつかの例における一例示的なパノラマ画像を示す図である。
図9B】いくつかの例においてジオメトリ情報でマークされた一例示的なパノラマ画像を示す図である。
図9C】いくつかの例において意味情報でマークされた一例示的なパノラマ画像を示す図である。
図10A】いくつかの例における一例示的な推定された部屋レイアウトを示す図である。
図10B】いくつかの例における推定された部屋レイアウトを表す一例示的な多角形を示す図である。
図10C】いくつかの例において多角形に基づいて生成された一例示的な3次元メッシュを示す図である。
図11】いくつかの例におけるマンハッタンレイアウトを推定するためのシステムの概要を示す図である。
図12】いくつかの例における画像処理のためのフレームワークのブロック図を示す。
図13】いくつかの例におけるシーンに関連付けられたマンハッタンレイアウトを推定するプロセスの概要を示すフローチャートである。
図14】いくつかの例におけるコンピュータシステムの概略図である。
【発明を実施するための形態】
【0021】
本開示の態様は、3次元(3D)メディア処理の分野における技術を含む。
【0022】
3Dキャプチャ、3Dモデリング、3Dレンダリングなどの進歩など、3Dメディア処理における技術的開発は、一部のプラットフォームおよびデバイスにわたる3Dメディアコンテンツのユビキタスな存在を促進してきた。一例では、赤ん坊の最初の一歩をある大陸でキャプチャすることができ、メディア技術は、祖父母が別の大陸で赤ん坊を見て(場合によっては相互作用して)、赤ん坊との没入型体験を楽しむということを可能にすることができる。本開示の一態様によれば、没入型体験を改善するために、3Dモデルはますます高度化されており、3Dモデルの作成および消費は、データストレージおよびデータ伝送リソースなどの相当量のデータリソースを占有する。
【0023】
いくつかの実施形態では、点群およびメッシュを3Dモデルとして使用して、没入型コンテンツを表すことができる。
【0024】
点群は、概して、3D空間内のポイントのセットを指すことができ、各ポイントは、色、材料特性、テクスチャ情報、強度属性、反映率属性、動き関連属性、モダリティ属性、および種々の他の属性などの関連する属性を有する。点群は、オブジェクトまたはシーンをかかる点の合成として再構築するために使用され得る。
【0025】
オブジェクトのメッシュ(メッシュモデルとも称される)は、オブジェクトの表面を記述する多角形を含み得る。各多角形は、3D空間における多角形の頂点と、頂点がどのように多角形に接続されるかの情報とによって定義することができる。頂点がどのように接続されるかの情報は、接続性情報と称される。いくつかの例では、メッシュはまた、頂点に関連付けられた、色、法線などの属性を含み得る。
【0026】
いくつかの実施形態では、点群圧縮(PCC)のための一部のコーディングツールが、メッシュ圧縮のために使用され得る。例えば、メッシュを再メッシュ化して、新しいメッシュを生成することができ、新しいメッシュの頂点の接続性情報を推測する(または事前定義する)ことができる。新しいメッシュの頂点、および新しいメッシュの頂点に関連付けられた属性は、点群内の点と見なすことができ、PCCコーデックを使用して圧縮することができる。
【0027】
点群は、オブジェクトまたはシーンをかかる点の合成として再構築するために使用され得る。点は、様々な設定で複数のカメラ、深度センサまたはライダを使用してキャプチャされることができ、再構成されたシーンまたはオブジェクトを現実的に表現するために数千から最大数十億の点で構成され得る。パッチは、概して、点群によって記述される表面の連続したサブセットを指すことができる。一例では、パッチは、互いからの偏差が閾値量未満である表面法線ベクトルを有する点を含む。
【0028】
PCCは、G-PCCと称されるジオメトリベースの方式、V-PCCと称されるビデオコーディングベースの方式など、種々の方式に従って実行され得る。本開示の一部の態様によれば、G-PCCは、3Dジオメトリを直接エンコーディングし、ビデオコーディングと多くを共有することのない純粋にジオメトリベースの手法であり、V-PCCは、ビデオコーディングに大きく基づく。例えば、V-PCCは、3Dクラウドの点を2Dグリッド(画像)のピクセルにマッピングすることができる。V-PCC方式は、点群圧縮のために汎用ビデオコーデックを利用することができる。本開示におけるPCCコーデック(エンコーダ/デコーダ)は、G-PCCコーデック(エンコーダ/デコーダ)またはV-PCCコーデックとすることができる。
【0029】
本開示の一態様によれば、V-PCC方式は、ビデオコーデックを使用して、点群のジオメトリ、占有、およびテクスチャを3つの別個のビデオシーケンスとして圧縮することができる。3つのビデオシーケンスを解釈するために必要な追加のメタデータは、別々に圧縮される。ビットストリーム全体の小部分はメタデータであり、これは、一例ではソフトウェア実装形態を使って効率的にエンコーディング/デコーディングされることができる。情報の大部分は、ビデオコーデックによって処理される。
【0030】
図1は、いくつかの例における通信システム(100)のブロック図を示す。通信システム(100)は、例えばネットワーク(150)を介して互いに通信可能な複数の端末デバイスを含む。例えば、通信システム(100)は、ネットワーク(150)を介して相互接続された一対の端末デバイス(110)および(120)を含む。図1の例では、第1の対の端末デバイス(110)および(120)は、点群データの単方向送信を実行することができる。例えば、端末デバイス(110)は、端末デバイス(110)に接続されたセンサ(105)によってキャプチャされた点群(例えば、構造を表す点)を圧縮することができる。圧縮点群は、例えばビットストリームの形態で、ネットワーク(150)を介して他の端末デバイス(120)に送信することができる。端末デバイス(120)は、ネットワーク(150)から圧縮点群を受信し、ビットストリームを展開して点群を再構築し、再構築された点群を適切に表示することができる。単方向データ送信は、メディアサービングアプリケーションなどにおいて一般的であり得る。
【0031】
図1の例では、端末デバイス(110)および(120)は、サーバおよびパーソナルコンピュータとして示され得るが、本開示の原理はそのように限定されないことがある。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、ゲーム端末、メディアプレーヤ、および/または専用3次元(3D)機器に用途を見出す。ネットワーク(150)は、端末デバイス(110)と(120)との間で圧縮点群を送信する任意の数のネットワークを表す。ネットワーク(150)は、例えば、ワイヤライン(有線)および/またはワイヤレス通信ネットワークを含み得る。ネットワーク(150)は、回線交換チャネルおよび/またはパケット交換チャネルでデータを交換することができる。代表的なネットワークには、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネットなどが含まれる。
【0032】
図2は、いくつかの例におけるストリーミングシステム(200)のブロック図を示す。ストリーミングシステム(200)は、点群の使用アプリケーションである。開示される主題は、3Dテレプレゼンスアプリケーション、仮想現実アプリケーションなどの他の点群対応アプリケーションに等しく適用可能であり得る。
【0033】
ストリーミングシステム(200)は、キャプチャサブシステム(213)を含み得る。キャプチャサブシステム(213)は、点群ソース(201)、例えば光検出および測距(LIDAR)システム、3Dカメラ、3Dスキャナ、非圧縮点群をソフトウェアで生成するグラフィック生成コンポーネント、および例えば非圧縮の点群(202)を生成する同様のものを含み得る。一例では、点群(202)は、3Dカメラによってキャプチャされた点を含む。点群(202)は、圧縮点群(204)(圧縮点群のビットストリーム)と比較して高いデータ量を強調するために太線で示されている。圧縮点群(204)は、点群ソース(201)に結合されたエンコーダ(203)を含む電子デバイス(220)によって生成することができる。エンコーダ(203)は、以下でより詳細に説明されるように、開示される主題の態様を可能にするかまたは実装するためのハードウェア、ソフトウェア、またはそれらの組み合わせを含み得る。圧縮点群(204)(または圧縮点群(204)のビットストリーム)は、点群(202)のストリームと比較してデータ量が少ないことを強調するために細い線で示されており、将来の使用のためにストリーミングサーバ(205)に記憶することができる。図2のクライアントサブシステム(206)および(208)などの1つまたは複数のストリーミングクライアントサブシステムは、ストリーミングサーバ(205)にアクセスして、圧縮点群(204)のコピー(207)および(209)を取り出すことができる。クライアントサブシステム(206)は、例えば電子デバイス(230)内にデコーダ(210)を含み得る。デコーダ(210)は、圧縮点群の入力コピー(207)をデコーディングし、レンダリングデバイス(212)上でレンダリングすることができる再構築された点群(211)の出力ストリームを作成する。
【0034】
電子デバイス(220)および(230)は、他の構成要素(図示せず)を含むことができることに留意されたい。例えば、電子デバイス(220)はデコーダ(図示せず)を含むことができ、電子デバイス(230)はエンコーダ(図示せず)も含み得る。
【0035】
一部のストリーミングシステムでは、圧縮点群(204)、(207)、および(209)(例えば、圧縮点群のビットストリーム)は、一部の規格に従って圧縮され得る。いくつかの例では、点群の圧縮においてビデオコーディング規格が使用される。それらの規格の例は、高効率ビデオコーディング(HEVC)、汎用ビデオコーディング(VVC)などを含む。
【0036】
図3は、いくつかの実施形態による、点群フレームをエンコーディングするためのV-PCCエンコーダ(300)のブロック図を示す。いくつかの実施形態では、V-PCCエンコーダ(300)は、通信システム(100)およびストリーミングシステム(200)で使用することができる。例えば、エンコーダ(203)は、V-PCCエンコーダ(300)と同様に構成され、動作することができる。
【0037】
V-PCCエンコーダ(300)は、点群フレームを非圧縮入力として受信し、圧縮点群フレームに対応するビットストリームを生成する。いくつかの実施形態では、V-PCCエンコーダ(300)は、点群ソース(201)などの点群ソースから点群フレームを受信することができる。
【0038】
図3の例では、V-PCCエンコーダ(300)は、パッチ生成モジュール(306)と、パッチパッキングモジュール(308)と、ジオメトリ画像生成モジュール(310)と、テクスチャ画像生成モジュール(312)と、パッチ情報モジュール(304)と、占有マップモジュール(314)と、平滑化モジュール(336)と、画像パディングモジュール(316)および(318)と、グループ拡張モジュール(320)と、ビデオ圧縮モジュール(322)、(323)および(332)と、補助パッチ情報圧縮モジュール(338)と、エントロピー圧縮モジュール(334)と、マルチプレクサ(324)とを含む。
【0039】
本開示の一態様によれば、V-PCCエンコーダ(300)は、圧縮点群を展開点群に変換して戻すために使用される何らかのメタデータ(例えば、占有マップおよびパッチ情報)とともに、3D点群フレームを画像ベースの表現に変換する。いくつかの例では、V-PCCエンコーダ(300)は、3D点群フレームをジオメトリ画像、テクスチャ画像、および占有マップに変換し、次いで、ビデオコーディング技術を使用して、ジオメトリ画像、テクスチャ画像、および占有マップをビットストリームにエンコーディングすることができる。概して、ジオメトリ画像は、ピクセルに投影された点に関連付けられたジオメトリ値で満たされたピクセルを有する2D画像であり、ジオメトリ値で満たされたピクセルはジオメトリサンプルと称されることがある。テクスチャ画像は、ピクセルに投影された点に関連付けられたテクスチャ値で満たされたピクセルを有する2D画像であり、テクスチャ値で満たされたピクセルは、テクスチャサンプルと称されることがある。占有マップは、パッチによって占有されているか占有されていないかを示す値で満たされたピクセルを有する2D画像である。
【0040】
パッチ生成モジュール(306)は、点群をパッチのセットにセグメント化し(例えば、パッチは、点群によって記述される表面の連続サブセットとして定義される)、これは、各パッチが2D空間内の平面に対して深度フィールドによって記述され得るように、重複していてもしていなくてもよい。いくつかの実施形態では、パッチ生成モジュール(306)は、点群を、滑らかな境界を有する最小数のパッチに分解するとともに、再構築エラーを最小化することを目的とする。
【0041】
いくつかの例では、パッチ情報モジュール(304)は、パッチのサイズおよび形状を示すパッチ情報を収集することができる。いくつかの例では、パッチ情報は、画像フレームにパッキングされ、次いで、補助パッチ情報圧縮モジュール(338)によってエンコーディングされて、圧縮された補助パッチ情報を生成することができる。
【0042】
いくつかの例では、パッチパッキングモジュール(308)は、抽出されたパッチを2次元(2D)グリッド上にマッピングする一方で、未使用の空間を最小化し、グリッドのM×M(例えば、16×16)ブロックごとに一意のパッチが関連付けられることを保証するように構成される。効率的なパッチパッキングは、未使用空間を最小化すること、または時間的一貫性を保証することのいずれかによって、圧縮効率に直接影響を及ぼすことができる。
【0043】
ジオメトリ画像生成モジュール(310)は、所与のパッチ位置における点群のジオメトリに関連付けられた2Dジオメトリ画像を生成することができる。テクスチャ画像生成モジュール(312)は、所与のパッチ位置における点群のテクスチャに関連付けられた2Dテクスチャ画像を生成することができる。ジオメトリ画像生成モジュール(310)およびテクスチャ画像生成モジュール(312)は、パッキングプロセス中に計算された3D-2Dマッピングを利用して、点群のジオメトリおよびテクスチャを画像として記憶する。複数の点が同じサンプルに投影される場合をより良好に処理するために、各パッチは、層と称される2つの画像上に投影される。一例では、ジオメトリ画像は、YUV420-8ビットフォーマットのW×Hの単色フレームによって表される。テクスチャ画像を生成するために、テクスチャ生成手順は、再サンプリングされた点に関連付けられる色を計算するために、再構築された/平滑化されたジオメトリを利用する。
【0044】
占有マップモジュール(314)は、各ユニットにおけるパディング情報を記述する占有マップを生成することができる。例えば、占有画像は、グリッドの各セルについて、セルが空き空間に属するか、または点群に属するかを示すバイナリマップを含む。一例では、占有マップは、各ピクセルについて、ピクセルがパディングされるか否かを記述するバイナリ情報を使用する。別の例では、占有マップは、ピクセルのブロックがパディングされるか否かをピクセルのブロックごとに記述するバイナリ情報を使用する。
【0045】
占有マップモジュール(314)によって生成された占有マップは、可逆コーディングまたは非可逆コーディングを使用して圧縮することができる。可逆コーディングが使用されるとき、エントロピー圧縮モジュール(334)は、占有マップを圧縮するために使用される。非可逆コーディングが使用される場合、ビデオ圧縮モジュール(332)は、占有マップを圧縮するために使用される。
【0046】
パッチパッキングモジュール(308)は、画像フレーム内にパッキングされた2Dパッチ間に一部の空きスペースを残すことができることに留意されたい。画像パディングモジュール(316)および(318)は、2Dビデオおよび画像コーデックに適し得る画像フレームを生成するために、空きスペースを充填する(パディングと称される)ことができる。画像パディングは、背景充填とも称され、未使用の空間を冗長な情報で充填することができる。いくつかの例では、良好な背景充填は、ビットレートを最小限に増加させるが、パッチ境界の周りに著しいコーディング歪みをもたらさない。
【0047】
ビデオ圧縮モジュール(322)、(323)、および(332)は、HEVC、VVCなどの適切なビデオコーディング規格に基づいて、パディングされたジオメトリ画像、パディングされたテクスチャ画像、および占有マップなどの2D画像をエンコーディングすることができる。一例では、ビデオ圧縮モジュール(322)、(323)、および(332)は、別々に動作する個々の構成要素である。ビデオ圧縮モジュール(322)、(323)、および(332)は、別の例では単一の構成要素として実装され得ることに留意されたい。
【0048】
いくつかの例では、平滑化モジュール(336)は、再構築されたジオメトリ画像の平滑化された画像を生成するように構成される。平滑化された画像は、テクスチャ画像生成モジュール(312)に提供することができる。次いで、テクスチャ画像生成モジュール(312)は、再構築されたジオメトリ画像に基づいて、テクスチャ画像の生成を調整することができる。例えば、パッチ形状(例えば、ジオメトリ)がエンコーディングおよびデコーディング中にわずかにひずんだとき、パッチ形状における歪みを補正するためにテクスチャ画像を生成するときに歪みが考慮に入れられ得る。
【0049】
いくつかの実施形態では、グループ拡張モジュール(320)は、再構築された点群のコーディング利得ならびに視覚的品質を改善するために、オブジェクト境界の周りのピクセルを冗長な低周波コンテンツでパディングするように構成される。
【0050】
マルチプレクサ(324)は、圧縮されたジオメトリ画像、圧縮されたテクスチャ画像、圧縮された占有マップ、圧縮された補助パッチ情報を、圧縮されたビットストリームに多重化することができる。
【0051】
図4は、いくつかの例における、点群フレームに対応する圧縮されたビットストリームをデコーディングするためのV-PCCデコーダ(400)のブロック図を示す。いくつかの例では、V-PCCデコーダ(400)は、通信システム(100)およびストリーミングシステム(200)で使用することができる。例えば、デコーダ(210)は、V-PCCデコーダ(400)と同様に動作するように構成することができる。V-PCCデコーダ(400)は、圧縮されたビットストリームを受信し、圧縮されたビットストリームに基づいて再構築された点群を生成する。
【0052】
図4の例では、V-PCCデコーダ(400)は、デマルチプレクサ(432)と、ビデオ展開モジュール(434)および(436)と、占有マップ展開モジュール(438)と、補助パッチ情報展開モジュール(442)と、ジオメトリ再構築モジュール(444)と、平滑化モジュール(446)と、テクスチャ再構築モジュール(448)と、色平滑化モジュール(452)とを含む。
【0053】
デマルチプレクサ(432)は、圧縮されたビットストリームを受信し、圧縮されたテクスチャ画像、圧縮されたジオメトリ画像、圧縮された占有マップ、および圧縮された補助パッチ情報に分離することができる。
【0054】
ビデオ展開モジュール(434)および(436)は、適切な規格(例えば、HEVC、VVCなど)に従って圧縮画像をデコーディングし、展開画像を出力することができる。例えば、ビデオ展開モジュール(434)は、圧縮されたテクスチャ画像をデコーディングし、展開されたテクスチャ画像を出力し、ビデオ展開モジュール(436)は、圧縮されたジオメトリ画像をデコーディングし、展開されたジオメトリ画像を出力する。
【0055】
占有マップ展開モジュール(438)は、適切な規格(例えば、HEVC、VVCなど)に従って圧縮された占有マップをデコーディングし、展開された占有マップを出力することができる。
【0056】
補助パッチ情報展開モジュール(442)は、適切な規格(例えば、HEVC、VVCなど)に従って圧縮された補助パッチ情報をデコーディングし、展開された補助パッチ情報を出力することができる。
【0057】
ジオメトリ再構築モジュール(444)は、展開されたジオメトリ画像を受信し、展開された占有マップおよび展開された補助パッチ情報に基づいて、再構築された点群ジオメトリを生成することができる。
【0058】
平滑化モジュール(446)は、パッチのエッジにおける不一致を平滑化することができる。平滑化手順は、圧縮アーチファクトに起因してパッチ境界で生じ得る潜在的な不連続性を軽減することを目的とする。いくつかの実施形態では、平滑化フィルタが、圧縮/展開によって引き起こされ得る歪みを軽減するために、パッチ境界上に位置するピクセルに適用され得る。
【0059】
テクスチャ再構築モジュール(448)は、展開されたテクスチャ画像および平滑化されたジオメトリに基づいて、点群内の点のテクスチャ情報を決定することができる。
【0060】
色平滑化モジュール(452)は、着色の不一致を平滑化することができる。3D空間内の非近傍パッチは、しばしば、2Dビデオ内で互いに隣接してパッキングされる。いくつかの例では、非近傍パッチからのピクセル値は、ブロックベースのビデオコーデックによって混合され得る。色平滑化の目標は、パッチ境界に現れる可視アーチファクトを低減することである。
【0061】
図5は、いくつかの例におけるビデオデコーダ(510)のブロック図を示す。ビデオデコーダ(510)は、V-PCCデコーダ(400)において使用することができる。例えば、ビデオ展開モジュール(434)および(436)、占有マップ展開モジュール(438)は、ビデオデコーダ(510)と同様に構成され得る。
【0062】
ビデオデコーダ(510)は、コーディングされたビデオシーケンスなどの圧縮画像からシンボル(521)を再構築するためのパーサ(520)を含み得る。これらのシンボルのカテゴリは、ビデオデコーダ(510)の動作を管理するために使用される情報を含む。パーサ(520)は、受信されたコーディングされたビデオシーケンスを構文解析/エントロピーデコーディングすることができる。コーディングされたビデオシーケンスのコーディングは、ビデオコーディング技術または規格に従うことができ、コンテキスト依存性ありまたはなしの可変長コーディング、ハフマンコーディング、算術コーディングなどを含む様々な原理に従うことができる。パーサ(520)は、グループに対応する少なくとも1つのパラメータに基づいて、コーディングされたビデオシーケンスから、ビデオデコーダ内のピクセルのサブグループのうちの少なくとも1つに関するサブグループパラメータのセットを抽出し得る。サブグループは、ピクチャグループ(GOP)、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット(CU)、ブロック、変換ユニット(TU)、予測ユニット(PU)などを含むことができる。パーサ(520)はまた、変換係数、量子化器パラメータ値、動きベクトルなどのようなコーディングされたビデオシーケンス情報から抽出してもよい。
【0063】
パーサ(520)は、シンボル(521)を作成するために、バッファメモリから受信されたビデオシーケンスに対してエントロピーデコーディング/構文解析動作を実行することができる。
【0064】
シンボル(521)の復元は、(ピクチャ間およびピクチャ内、ブロック間およびブロック内などの)コーディングされたビデオピクチャまたはその一部のタイプ、ならびに他の要因に応じて、複数の異なるユニットを含むことができる。どのユニットがどのように関与しているかは、パーサ(520)によってコーディングされたビデオシーケンスから構文解析されたサブグループ制御情報によって制御することができる。パーサ(520)と以下の複数のユニットとの間のそのようなサブグループ制御情報の流れは、明確にするために図示されていない。
【0065】
すでに述べられた機能ブロック以外に、ビデオデコーダ(510)は、以下で説明されるように、概念的にいくつかの機能ユニットに細分することができる。商業的制約の下で動作する実際の実装形態では、これらのユニットの多くは、互いに密接に相互作用し、少なくとも部分的に互いに統合することができる。しかしながら、開示された主題を説明する目的で、以下の機能ユニットへの概念的細分化が適切である。
【0066】
第1のユニットはスケーラ/逆変換ユニット(551)である。スケーラ/逆変換ユニット(551)は、量子化された変換係数と、どの変換を使用するか、ブロックサイズ、量子化係数、量子化スケーリング行列などを含む制御情報とを、シンボル(複数可)(521)としてパーサ(520)から受信する。スケーラ/逆変換ユニット(551)は、アグリゲータ(555)に入力することができるサンプル値を含むブロックを出力することができる。
【0067】
場合によっては、スケーラ/逆変換ユニット(551)の出力サンプルは、イントラコーディングされたブロック、すなわち、以前に再構成されたピクチャからの予測情報を使用していないが、現在のピクチャの以前に再構成された部分からの予測情報を使用することができるブロックに関連する可能性がある。そのような予測情報を、イントラピクチャ予測ユニット(552)が提供することができる。場合によっては、イントラピクチャ予測ユニット(552)は、現在のピクチャバッファ(558)からフェッチされた周囲のすでに再構成された情報を使用して、再構成中のブロックと同じサイズおよび形状のブロックを生成する。現在のピクチャバッファ(558)は、例えば、部分的に再構成された現在のピクチャおよび/または完全に再構成された現在のピクチャをバッファする。アグリゲータ(555)は、場合によっては、イントラ予測ユニット(552)が生成した予測情報を、スケーラ/逆変換ユニット(551)が提供した出力サンプル情報に、サンプル単位で付加する。
【0068】
他の場合には、スケーラ/逆変換ユニット(551)の出力サンプルは、インターコーディングされ、潜在的に動作補償されたブロックに関連することができる。そのような場合、動き補償予測ユニット(553)は、基準ピクチャメモリ(557)にアクセスして、予測に使用されるサンプルをフェッチすることができる。ブロックに関係するシンボル(521)に従ってフェッチされたサンプルを動き補償した後、これらのサンプルを、出力サンプル情報を生成するために、アグリゲータ(555)によって、スケーラ/逆変換ユニット(551)の出力(この場合、残差サンプルまたは残差信号と呼ばれる)に追加することができる。動き補償予測ユニット(553)が予測サンプルをフェッチする基準ピクチャメモリ(557)内のアドレスを、例えば、X、Y、および基準ピクチャ成分を有し得るシンボル(521)の形式で動き補償予測ユニット(553)に利用可能な動きベクトルによって、制御することができる。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに基準ピクチャメモリ(557)から、フェッチされたサンプル値の補間、動きベクトル予測機構などを含むことができる。
【0069】
アグリゲータ(555)の出力サンプルは、ループフィルタユニット(556)において様々なループフィルタリング技術を受けることができる。ビデオ圧縮技術は、(コーディングされたビデオビットストリームとも呼ばれる)コーディングされたビデオシーケンスに含まれるパラメータによって制御され、パーサ(520)からのシンボル(521)としてループフィルタユニット(556)に利用可能にされるインループフィルタ技術を含むことができるが、コーディングされたピクチャまたはコーディングされたビデオシーケンスの(デコーディング順序で)前の部分のデコーディング中に取得されたメタ情報に応答するだけでなく、以前に再構築およびループフィルタリングされたサンプル値に応答することもできる。
【0070】
ループフィルタユニット(556)の出力は、レンダリングデバイスに出力することができるとともに、将来のインターピクチャ予測で使用するために基準ピクチャメモリ(557)に記憶することができるサンプルストリームとすることができる。
【0071】
完全に再構成されると、特定のコーディングされたピクチャは、将来の予測のための基準ピクチャとして使用することができる。例えば、現在のピクチャに対応するコーディングされたピクチャが完全に再構成され、コーディングされたピクチャが(例えば、パーサ(520)によって)基準ピクチャとして識別されると、現在のピクチャバッファ(558)は、基準ピクチャメモリ(557)の一部になることができ、新規の現在のピクチャバッファを、後続のコーディングされたピクチャの再構成を開始する前に再配置することができる。
【0072】
ビデオデコーダ(510)は、例えばITU-T Rec.H.265などの規格における所定のビデオ圧縮技術に従ってデコーディング動作を実行し得る。コーディングされたビデオシーケンスが、ビデオ圧縮技術または規格のシンタックスと、ビデオ圧縮技術または規格において文書化されたプロファイルの両方を順守するという意味で、コーディングされたビデオシーケンスは、使用されているビデオ圧縮技術または規格によって指定されたシンタックスに準拠することができる。具体的には、プロファイルは、ビデオ圧縮技術または規格において利用可能なすべてのツールの中から、特定のツールを、そのプロファイル下でそれらだけが利用可能なツールとして選択することができる。また、コンプライアンスのために必要なのは、コーディングされたビデオシーケンスの複雑さが、ビデオ圧縮技術または規格のレベルによって定義された範囲内にあることであり得る。場合によっては、レベルは、最大ピクチャサイズ、最大フレームレート、(例えば、毎秒メガサンプル単位で測定された)最大再構成サンプルレート、最大基準ピクチャサイズなどを制限する。レベルによって設定される制限は、場合によっては、仮想基準デコーダ(HRD)の仕様、およびコーディングされたビデオシーケンス内でシグナリングされるHRDバッファ管理用のメタデータによってさらに制限され得る。
【0073】
図6は、本開示の一実施形態によるビデオエンコーダ(603)のブロック図を示す。ビデオエンコーダ(603)は、点群を圧縮するV-PCCエンコーダ(300)において使用することができる。一例では、ビデオ圧縮モジュール(322)および(323)と、ビデオ圧縮モジュール(332)とは、エンコーダ(603)と同様に構成される。
【0074】
ビデオエンコーダ(603)は、パディングされたジオメトリ画像、パディングされたテクスチャ画像などの画像を受信し、圧縮された画像を生成してもよい。
【0075】
一実施形態によれば、ビデオエンコーダ(603)は、ソースビデオシーケンスのピクチャ(画像)を、リアルタイムで、またはアプリケーションによって必要とされる任意の他の時間的制約の下で、コーディングされたビデオシーケンス(圧縮画像)にコーディングおよび圧縮することができる。適切なコーディング速度を実施することは、コントローラ(650)の1つの機能である。いくつかの実施形態では、コントローラ(650)は、以下で説明される他の機能ユニットを制御し、他の機能ユニットに機能的に結合される。結合は、明確にするために図示されていない。コントローラ(650)によって設定されるパラメータは、レート制御関連パラメータ(ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値、…)、ピクチャサイズ、ピクチャグループ(GOP)レイアウト、最大動きベクトル探索範囲などを含むことができる。コントローラ(650)は、特定のシステム設計のために最適化されたビデオエンコーダ(603)に関連する他の適切な機能を有するように構成することができる。
【0076】
いくつかの実施形態では、ビデオエンコーダ(603)は、コーディングループで動作するように構成される。過度に簡略化された説明として、一例では、コーディングループは、(例えば、コーディングされるべき入力ピクチャと基準ピクチャ(複数可)とに基づいて、シンボルストリームなどのシンボルを作成することを担う)ソースコーダ(630)と、ビデオエンコーダ(603)に埋め込まれた(ローカル)デコーダ(633)とを含み得る。デコーダ(633)は、(リモート)デコーダも作成するのと同様の方法で、シンボルを再構築してサンプルデータを作成する(シンボルとコーディングされたビデオビットストリームとの間の任意の圧縮は、開示される主題において考慮されるビデオ圧縮技術において可逆であるため)。再構築されたサンプルストリーム(サンプルデータ)は、基準ピクチャメモリ(634)に入力される。シンボルストリームのデコーディングは、デコーダの位置(ローカルまたはリモート)に関係なくビットイグザクトな結果をもたらすため、基準ピクチャメモリ(634)の内容も、ローカルエンコーダとリモートエンコーダとの間でビットイグザクトである。言い換えれば、エンコーダの予測部分は、デコーディング中に予測を使用するときにデコーダが「見る」ことになるのと全く同じサンプル値を基準ピクチャサンプルとして「見る」。基準ピクチャの同期性(および、例えば、チャネルエラーのために同期性が維持できない場合に結果として生じるドリフト)のこの基本原理は、いくつかの関連技術でも使用される。
【0077】
「ローカル」デコーダ(633)の動作は、図5と併せて上記で詳細にすでに説明されている、ビデオデコーダ(510)などの「リモート」デコーダの動作と同じであり得る。しかしながら、図5も簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ(645)およびパーサ(520)によるコーディングされたビデオシーケンスへのシンボルのエンコーディング/デコーディングが可逆であり得るため、パーサ(520)を含むビデオデコーダ(510)のエントロピーデコーディング部分は、ローカルデコーダ(633)において完全には実装されないことがある。
【0078】
動作中、いくつかの例では、ソースコーダ(630)は、「基準ピクチャ」として指定されたビデオシーケンスからの1つまたは複数の以前にコーディングされたピクチャを参照して入力ピクチャを予測的にコーディングする、動き補償予測コーディングを実行することができる。このようにして、コーディングエンジン(632)は、入力ピクチャのピクセルブロックと、入力ピクチャに対する予測基準(複数可)として選択され得る基準ピクチャ(複数可)のピクセルブロックとの間の差分をコーディングする。
【0079】
ローカルビデオデコーダ(633)は、ソースコーダ(630)によって作成されたシンボルに基づいて、基準ピクチャとして指定され得るピクチャのコーディングされたビデオデータをデコーディングし得る。コーディングエンジン(632)の動作は、有利には、非可逆プロセスであってもよい。コーディングされたビデオデータが(図6には示されていない)ビデオデコーダでデコーディングされ得るとき、再構築されたビデオシーケンスは、典型的には、いくつかのエラーを伴うソースビデオシーケンスのレプリカであり得る。ローカルビデオデコーダ(633)は、基準ピクチャに対してビデオデコーダによって実行され得るデコーディングプロセスを複製し、再構築された基準ピクチャを基準ピクチャキャッシュ(634)に記憶させることができる。このようにして、ビデオエンコーダ(603)は、(送信エラーなしで)遠端ビデオデコーダによって取得されることになる再構成された基準ピクチャとして共通のコンテンツを有する再構成された基準ピクチャのコピーをローカルに記憶し得る。
【0080】
予測子(635)は、コーディングエンジン(632)のための予測検索を実施することができる。すなわち、コーディングされる新しいピクチャの場合、予測子(635)は、新しいピクチャのための適切な予測基準として役立つことができる、(候補基準画素ブロックとしての)サンプルデータまたは基準ピクチャ動きベクトル、ブロック形状などの特定のメタデータを求めて、基準ピクチャメモリ(634)を検索することができる。予測子(635)は、適切な予測基準を見つけるために、ピクセルブロックごとにサンプルブロックに対して動作することができる。場合によっては、予測子(635)によって取得された検索結果によって決定されるように、入力ピクチャは、基準ピクチャメモリ(634)に記憶された複数の基準ピクチャから引き出された予測基準を有することができる。
【0081】
コントローラ(650)は、例えば、ビデオデータをエンコーディングするために使用されるパラメータおよびサブグループパラメータの設定を含む、ソースコーダ(630)のコーディング動作を管理し得る。
【0082】
すべての前述の機能ユニットの出力は、エントロピーコーダ(645)内でエントロピーコーディングを受け得る。エントロピーコーダ(645)は、ハフマンコーディング、可変長コーディング、算術コーディングなどの技術に従ってシンボルを可逆圧縮することによって、種々の機能ユニットによって生成されたシンボルをコーディングされたビデオシーケンスに変換する。
【0083】
コントローラ(650)は、ビデオエンコーダ(603)の動作を管理することができる。コーディング中、コントローラ(650)は、各コーディングされたピクチャに特定のコーディングされたピクチャタイプを割り当てることができ、これは、それぞれのピクチャに適用され得るコーディング技術に影響を及ぼす場合がある。例えば、ピクチャは、しばしば、以下のピクチャタイプのうちの1つとして割り当てられてもよい。
【0084】
イントラピクチャ(Iピクチャ)は、予測のソースとしてシーケンス内のいかなる他のピクチャも使用せずにコーディングおよびデコーディングされ得るピクチャであり得る。いくつかのビデオコーデックは、例えば、独立デコーダリフレッシュ(「IDR」)ピクチャを含む、異なるタイプのイントラピクチャを可能にする。当業者は、Iピクチャのそれらの変形形態、ならびにそれらのそれぞれの用途および特徴を認識している。
【0085】
予測ピクチャ(Pピクチャ)は、各ブロックのサンプル値を予測するために、多くとも1つの動きベクトルおよび基準インデックスを使用するイントラ予測またはインター予測を使用して、コーディングおよびデコーディングされ得るピクチャであり得る。
【0086】
双方向予測ピクチャ(Bピクチャ)は、各ブロックのサンプル値を予測するために、多くとも2つの動きベクトルおよび基準インデックスを使用するイントラ予測またはインター予測を使用して、コーディングおよびデコーディングされ得るピクチャであり得る。同様に、複数の予測ピクチャは、単一ブロックの復元のために3つ以上の基準ピクチャおよび関連するメタデータを使用することができる。
【0087】
ソースピクチャは、通常、複数のサンプルブロック(例えば、各々4×4、8×8、4×8、または16×16サンプルのブロック)に空間的に細分化され、ブロックごとにコーディングされてもよい。ブロックは、ブロックのそれぞれのピクチャに適用されたコーディング割り当てによって決定される他の(すでにコーディングされた)ブロックを参照して予測的にコーディングされ得る。例えば、Iピクチャのブロックは、非予測的にコーディングされ得るか、または、同じピクチャのすでにコーディングされたブロックを参照して予測的にコーディングされ得る(空間予測またはイントラ予測)。Pピクチャのピクセルブロックは、1つの以前にコーディングされた基準ピクチャを参照して、空間予測を介して、または時間予測を介して、予測的にコーディングされてもよい。Bピクチャのブロックは、1つまたは2つの以前にコーディングされた基準ピクチャを参照して、空間予測を介してまたは時間予測を介して予測的にコーディングされてもよい。
【0088】
ビデオエンコーダ(603)は、ITU-T Rec.H.265などの所定のビデオコーディング技術または規格に従ってコーディング動作を実行することができる。その動作において、ビデオエンコーダ(603)は、入力ビデオシーケンスにおける時間および空間の冗長性を利用する予測コーディング動作を含む、様々な圧縮動作を実施し得る。したがって、コーディングされたビデオデータは、使用されているビデオコーディング技術または規格によって指定された構文に準拠することができる。
【0089】
ビデオは、時間シーケンスにおける複数のソースピクチャ(画像)の形態であり得る。イントラピクチャ予測(しばしば、イントラ予測と略される)は、所与のピクチャにおける空間相関を利用し、インターピクチャ予測は、ピクチャ間の(時間または他の)相関を利用する。一例では、現在のピクチャと呼ばれる、エンコーディング/デコーディング中の特定のピクチャがブロックに分割される。現在のピクチャ内のブロックが、ビデオ内で、以前にコーディングされ、未だバッファされている基準ピクチャ内の基準ブロックに類似しているとき、現在のピクチャ内のブロックを、動きベクトルと呼ばれるベクトルによってコーディングすることができる。動きベクトルは、基準ピクチャ中の基準ブロックを指し、複数の基準ピクチャが使用されている場合、基準ピクチャを識別する第3の次元を有することができる。
【0090】
いくつかの実施形態では、インターピクチャ予測において双予測技術が使用され得る。双予測技術によれば、第1の基準ピクチャおよび第2の基準ピクチャなどの2つの基準ピクチャが使用され、これらは両方ともビデオ内の現在のピクチャのデコーディング順より前にある(しかし、表示順序は、それぞれ過去および未来のものであってもよい)。第1の基準ピクチャ内の第1の基準ブロックを指し示す第1の動きベクトルによって、および第2の基準ピクチャ内の第2の基準ブロックを指し示す第2の動きベクトルによって、現在のピクチャ内のブロックをコーディングすることができる。ブロックは、第1の基準ブロックと第2の基準ブロックとの組み合わせによって予測され得る。
【0091】
さらに、コーディング効率を向上させるために、インターピクチャ予測においてマージモード技術を使用することができる。
【0092】
本開示のいくつかの実施形態によれば、インターピクチャ予測やイントラピクチャ予測などの予測は、ブロック単位で実行される。例えば、HEVC規格によれば、ビデオピクチャのシーケンス中のピクチャは、圧縮のためにコーディングツリーユニット(CTU)に分割され、ピクチャ中のCTUは、64×64ピクセル、32×32ピクセル、または16×16ピクセルなど、同じサイズを有する。一般に、CTUは、3つのコーディングツリーブロック(CTB)を含み、それらは1つのルマCTBおよび2つのクロマCTBである。各CTUを、1つまたは複数のコーディングユニット(CU)に再帰的に四分木分割することができる。例えば、64×64ピクセルのCTUを、64×64ピクセルの1個のCUに、または32×32ピクセルの4個のCUに、または16×16ピクセルの16個のCUに、分割することができる。一例では、各CUが、インター予測タイプまたはイントラ予測タイプなど、CUの予測タイプを決定するために解析される。CUは、時間的予測可能性および/または空間的予測可能性に応じて、1つまたは複数の予測ユニット(PU)に分割される。一般に、各PUは、1つのルマ予測ブロック(PB)、および2つのクロマPBを含む。一実施形態では、コーディング(エンコーディング/デコーディング)における予測動作は、予測ブロックの単位で実施される。予測ブロックの一例としてルマ予測ブロックを使用すると、予測ブロックは、8×8ピクセル、16×16ピクセル、8×16ピクセル、16×8ピクセルなどのピクセルについての値(例えば、ルマ値)の行列を含む。
【0093】
図7は、いくつかの例におけるG-PCCエンコーダ(700)のブロック図を示す。G-PCCエンコーダ(700)は、点群データを受信し、点群データを圧縮して、圧縮点群データを搬送するビットストリームを生成するように構成することができる。一実施形態では、G-PCCエンコーダ(700)は、位置量子化モジュール(710)と、重複点除去モジュール(712)と、八分木エンコーディングモジュール(730)と、属性転送モジュール(720)と、詳細レベル(LOD)生成モジュール(740)と、属性予測モジュール(750)と、残差量子化モジュール(760)と、算術コーディングモジュール(770)と、逆残差量子化モジュール(780)と、加算モジュール(781)と、再構築された属性値を記憶するためのメモリ(790)とを含み得る。
【0094】
図示のように、入力点群(701)は、G-PCCエンコーダ(700)で受信することができる。点群(701)の位置(例えば、3D座標)は、量子化モジュール(710)に提供される。量子化モジュール(710)は、座標を量子化して、量子化された位置を生成するように構成される。重複点除去モジュール(712)は、量子化された位置を受信し、重複点を識別および除去するためにフィルタプロセスを実行するように構成される。八分木エンコーディングモジュール(730)は、重複点除去モジュール(712)からフィルタリングされた位置を受信し、八分木ベースのエンコーディングプロセスを実行して、ボクセルの3Dグリッドを記述する一連の占有コードを生成するように構成される。占有コードは、算術コーディングモジュール(770)に提供される。
【0095】
属性転送モジュール(720)は、入力点群の属性を受信し、複数の属性値がそれぞれのボクセルに関連付けられているときに属性転送プロセスを実行して各ボクセルの属性値を決定するように構成される。属性転送プロセスは、八分木エンコーディングモジュール(730)から出力された並べ替えられた点に対して実行することができる。転送動作後の属性は、属性予測モジュール(750)に提供される。LOD生成モジュール(740)は、八分木エンコーディングモジュール(730)から出力された並べ替えられた点に対して動作し、点を異なるLODに再編成するように構成される。LOD情報は、属性予測モジュール(750)に供給される。
【0096】
属性予測モジュール(750)は、LOD生成モジュール(740)からのLOD情報によって示されるLODベースの順序に従って点を処理する。属性予測モジュール(750)は、メモリ(790)に記憶された現在点の近傍点の集合の再構築された属性に基づいて、現在点についての属性予測を生成する。その後、属性転送モジュール(720)から受信した元の属性値およびローカルに生成された属性予測に基づいて、予測残差を取得することができる。候補インデックスがそれぞれの属性予測プロセスにおいて使用されるとき、選択された予測候補に対応するインデックスが算術コーディングモジュール(770)に提供され得る。
【0097】
残差量子化モジュール(760)は、属性予測モジュール(750)から予測残差を受信し、量子化残差を生成するために量子化を実行するように構成される。量子化された残差は、算術コーディングモジュール(770)に提供される。
【0098】
逆残差量子化モジュール(780)は、残差量子化モジュール(760)から量子化された残差を受信し、残差量子化モジュール(760)において実行された量子化演算の逆を実行することによって、再構築された予測残差を生成するように構成される。加算モジュール(781)は、逆残差量子化モジュール(780)から再構築された予測残差を受信し、属性予測モジュール(750)からそれぞれの属性予測を受信するように構成される。再構築された予測残差と属性予測とを組み合わせることによって、再構築された属性値が生成され、メモリに記憶される(790)。
【0099】
算術コーディングモジュール(770)は、占有コード、候補インデックス(使用される場合)、量子化された残差(生成される場合)、および他の情報を受信し、受信された値または情報をさらに圧縮するためにエントロピーエンコーディングを実行するように構成される。その結果、圧縮された情報を搬送する圧縮されたビットストリーム(702)を生成することができる。ビットストリーム(702)は、圧縮されたビットストリームをデコーディングするデコーダに送信されるか、もしくは別の方法で提供されてもよく、または記憶デバイスに記憶されてもよい。
【0100】
図8は、一実施形態によるG-PCCデコーダ(800)のブロック図を示す。G-PCCデコーダ(800)は、圧縮されたビットストリームを受信し、点群データ展開を実行してビットストリームを展開し、デコーディングされた点群データを生成するように構成することができる。一実施形態では、G-PCCデコーダ(800)は、算術デコーディングモジュール(810)と、逆残差量子化モジュール(820)と、八分木デコーディングモジュール(830)と、LOD生成モジュール(840)と、属性予測モジュール(850)と、再構築された属性値を記憶するためのメモリ(860)とを含み得る。
【0101】
示されるように、圧縮されたビットストリーム(801)は、算術デコーディングモジュール(810)において受信され得る。算術デコーディングモジュール(810)は、圧縮されたビットストリーム(801)をデコーディングして、量子化された残差(生成された場合)と点群の占有コードとを取得するように構成される。八分木デコーディングモジュール(830)は、占有コードに従って点群内の点の再構築された位置を決定するように構成される。LOD生成モジュール(840)は、再構築された位置に基づいて点を異なるLODに再編成し、LODベースの順序を決定するように構成される。逆残差量子化モジュール(820)は、算術デコーディングモジュール(810)から受信した量子化された残差に基づいて、再構築された残差を生成するように構成される。
【0102】
属性予測モジュール(850)は、属性予測プロセスを実行して、LODに基づく順序に従って点の属性予測を決定するように構成される。例えば、現在点の属性予測は、メモリ(860)に記憶された現在点の近傍点の再構築された属性値に基づいて決定することができる。いくつかの例では、属性予測は、現在点についての再構築された属性を生成するために、それぞれの再構築された残差と組み合わせられ得る。
【0103】
属性予測モジュール(850)から生成された再構築された属性のシーケンスは、八分木デコーディングモジュール(830)から生成された再構築された位置とともに、一例ではG-PCCデコーダ(800)から出力されるデコーディングされた点群(802)に対応する。加えて、再構築された属性もメモリ(860)に記憶され、その後、後続の点の属性予測を導出するために使用することができる。
【0104】
種々の実施形態において、エンコーダ(300)、デコーダ(400)、エンコーダ(700)、および/またはデコーダ(800)は、ハードウェア、ソフトウェア、またはそれらの組み合わせを用いて実装され得る。例えば、エンコーダ(300)、デコーダ(400)、エンコーダ(700)、および/またはデコーダ(800)は、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)など、ソフトウェアとともにまたはソフトウェアなしで動作する1つまたは複数の集積回路(IC)などの処理回路を用いて実装することができる。別の例では、エンコーダ(300)、デコーダ(400)、エンコーダ(700)、および/またはデコーダ(800)は、不揮発性(または非一時的)コンピュータ可読記憶媒体に記憶された命令を含むソフトウェアまたはファームウェアとして実装することができる。命令は、1つまたは複数のプロセッサなどの処理回路によって実行されると、処理回路に、エンコーダ(300)、デコーダ(400)、エンコーダ(700)、および/またはデコーダ(800)の機能を実行させる。
【0105】
本明細書で開示される属性予測技術を実装するように構成された属性予測モジュール(750)および(850)は、図7および図8に示されているものと同様または異なる構造を有し得る他のデコーダまたはエンコーダに含まれ得ることに留意されたい。加えて、エンコーダ(700)およびデコーダ(800)は、種々の例において、同じデバイスまたは別個のデバイスに含まれ得る。
【0106】
本開示は、シーンの様々なパノラマからのシーンのマンハッタンレイアウトの推定を含む、マンハッタンレイアウトの推定に関する実施形態を含む。実施形態は、仮想旅行などの仮想現実および拡張現実アプリケーションを作成するために使用することができる。例えば、マンハッタンレイアウトは、ジオメトリ形状およびセグメンテーション情報を利用して多数のパノラマ画像から推定することができる。
【0107】
ロボット工学、仮想現実、および拡張現実などの用途では、画像から部屋のレイアウトを推定することが一般的な手法である。部屋のレイアウトは、特定の基準点に対する部屋の壁の位置、向き、および高さを含むことができる。例えば、壁の交点、3Dメッシュ、または点群を採用して、部屋のレイアウトを描写することができる。部屋のマンハッタンレイアウトでは、部屋の壁は互いに垂直である。パノラマ画像は、パノラマカメラなどのカメラを介して生成することができる。パノラマ画像は、部屋のレイアウトを描写するために適用することができる。しかしながら、複数のパノラマ画像を分析することによる部屋のマンハッタンレイアウトの推定は困難であり得る。パノラマ(またはパノラマ画像)は、シーンにおける360度の情報をカプセル化することができ、360度の情報は、透視画像よりもはるかに多くのデータを含むことができる。
【0108】
部屋のマンハッタンレイアウトは、複数のパノラマビュー(またはパノラマ画像)からの情報(例えば、ピクセル)のジオメトリ情報および意味セグメンテーションを使用して推定することができる。意味セグメンテーションは、ラベルまたはカテゴリを画像におけるすべてのピクセルに関連付ける深層学習アルゴリズムを使用して実行することができる。意味セグメンテーションを使用して、別個のカテゴリを形成するピクセルの集合を認識することができる。
【0109】
単一のパノラマは部屋のレイアウトの正確な表現を提供しない可能性があるため、複数のパノラマ(またはパノラマ画像)を使用して部屋のマンハッタンレイアウトを推定することができる。例えば、部屋におけるオブジェクトが部屋の壁の境界を遮る可能性があるか、または部屋が非常に大きく、単一のパノラマ画像が部屋を完全にキャプチャしない可能性がある。ジオメトリ情報は、部屋のマンハッタンレイアウトの2つの主な方向(例えば、X方向およびZ方向)、ならびにパノラマから抽出された線分情報を含むことができる。しかしながら、ジオメトリ情報は部屋のジオメトリ内容に焦点を合わせているため、ジオメトリ情報は意味情報を欠いている場合がある。したがって、意味セグメンテーションを使用して、パノラマのピクセルの意味情報を提供することができる。意味セグメンテーションは、パノラマ(またはパノラマ画像)のラベル付けを参照して、パノラマの各ピクセルのそれぞれのカテゴリを決定することができる。例えば、ピクセルは、意味セグメンテーションに基づいて部屋内の床、壁などのうちの1つとしてラベル付けすることができる。
【0110】
図9A図9Cは、パノラマの一例示的なジオメトリおよび意味表現を示す。図9Aに示すように、パノラマ(900)が提供され、パノラマ(900)はホテルの部屋のシーンを含むことができる。図9Bでは、パノラマ(900)は、ジオメトリ線分の情報でマークすることができる。図9Cでは、意味セグメンテーションに基づいて部屋のピクセルの意味情報を提供することができる。例えば、部屋のピクセルの意味情報は、天井(902)、床(904)、ソファ(906)、壁(908)などを示すことができる。
【0111】
部屋のレイアウトは、3Dメッシュ、境界線、および点群を含む様々な方法で表すことができる。本開示では、部屋の3Dメッシュおよび境界線を使用して、部屋のレイアウトを記述することができる。境界線は、1つまたは複数の多角形によって表すことができ、部屋の3Dメッシュは、多角形から作成することができる。
【0112】
図10A図10Cは、部屋の一例示的な多角形表現および一例示的なメッシュ表現を示す。図10Aに示すように、推定された部屋レイアウト(1000)を提供することができる。図10Bでは、推定された部屋レイアウトの多角形表現(1002)を提供することができ、部屋レイアウトの角には0~7などの数字でラベル付けすることができる。図10Cでは、多角形(1002)から3Dメッシュ(1004)を生成することができる。図10A図10Cによれば、部屋レイアウト(例えば、(1000))が確立されると、壁面を床面に投影して多角形(例えば、(1002))を取得することができる。次に、多角形および壁の高さが取得されると、レイアウトおよび3Dメッシュ(例えば、(1004))を導出することができる。
【0113】
本開示では、部屋のマンハッタンレイアウトの推定は、シーン(例えば、部屋レイアウト(1000))のジオメトリ情報および意味情報に基づいて多角形(例えば、多角形(1002))を推定することによって行うことができる。多角形は、有向グラフG=(v、e)で表すことができ、vは多角形の角の集合であり、eは角を接続するエッジの集合である。各角ジョイントの位置は、カメラ位置に対する2D空間における2D座標(x、y)として定義することができる。各エッジは、有向線分(p、p)として表すことができ、p∈vおよびp∈vは、それぞれエッジの始点および終点である。各エッジの線関数は、ax+by+c=0として表すことができ、ここで、n=(a、b)は
【数1】
を満たす線の法線であり、cは定数実数である。
【0114】
図11は、シーン(例えば、部屋)のマンハッタンレイアウトを推定するためのシステム(またはプロセス)(1100)の概要を示す。図11に示すように、(1110)で、入力画像を提供することができる。入力画像は、シーンのパノラマ(または複数のパノラマ画像)の集合を含むことができる。パノラマの集合は、シーンをより正確に表現するために異なるビュー位置からシーンをキャプチャすることができる。プロセス(1100)のステップ(1120)およびステップ(1130)では、各パノラマ画像のジオメトリ情報を抽出することができ、対応するパノラマ画像からの意味セグメンテーションに基づいて各パノラマの意味情報を決定することができる。ジオメトリ情報(またはジオメトリ要因)は、(1)各パノラマ画像において検出された線、(2)各パノラマ画像の主方向(例えば、X方向およびZ方向)、(3)部屋の天井から部屋の地面までの距離とカメラから地面までの距離との間の比、および(4)2つのそれぞれのパノラマ画像間などのパノラマ画像間の相対姿勢(例えば、相対的な位置、角度、または距離)を含むことができる。意味情報は、意味セグメンテーションを介して取得することができる。意味セグメンテーションは、パノラマ画像の各ピクセルに意味的意味(例えば、床、ドアなど)を割り当てることができる。ステップ(1140)で、シーンのそれぞれのレイアウトを、各パノラマ画像のジオメトリ情報および意味セグメンテーションに基づいて推定することができる。ステップ(1150)で、各パノラマ画像(またはパノラマの画像)から推定されたレイアウトを組み合わせて、部屋レイアウトの最終推定を生成することができる。ステップ(1160)で、推定されたレイアウト(または、部屋レイアウトの最終推定)に基づいて、部屋の3Dメッシュ(または、マンハッタンレイアウト)を生成することができる。
【0115】
図11のステップ(1140)の例のように、各パノラマ画像のジオメトリ情報および意味情報に基づいてシーン(例えば、部屋)に関連付けられたレイアウト推定を決定するために、意味セグメンテーションの結果を使用して、パノラマ(またはパノラマ画像)の各線分が部屋の壁の境界を表すかどうかを決定することができる。パノラマ画像における点p、p、...、pのシーケンスとして表される線lを考えると、各点pの近傍ピクセルが壁を含むか否かをチェックすることができる。点pの近傍ピクセルが壁のみを含むか、または壁ピクセルをまったく有さない場合、点pは境界点と見なされない場合がある。境界点の数が特定の閾値を超える場合、例えば、点の80%が境界である場合には、点線(または線)lを境界(または境界線)として指定することができる。
【0116】
境界線は、パノラマの主要な方向(または主方向)と位置合わせすることができる。境界線を主要な方向と位置合わせするために、各境界線を水平面(例えば、X-Z平面)上に投影することができる。2つの主方向(例えば、XおよびZ)が垂直であるため、投影された境界線と2つの主方向との間の角度を計算することができる。次いで、投影された境界線を投影された境界線の中心の周りで回転させて、投影された境界線を主方向に平行にすることができる。
【0117】
しかしながら、画像(またはパノラマ画像)内のオブジェクトが境界線を遮る可能性がある。したがって、1つまたは複数の境界線は未完了であり得る。第1の手法では、天井境界線と床境界線との組み合わせを使用して、未完了境界線を推定する(または1つまたは複数の未完了境界線を完成させる)ことができる。例えば、各床線(または床境界線)は、天井線(または天井境界線)に対応することができ、床線と天井線との間の距離をシーン内で固定することができる。天井線および床線には、それぞれ未完了境界線を投影することができる。天井および床の対応する投影境界(または投影境界線)上の未完了境界線の点の座標は、以下とすることができる。
c,1,pc,2,pc,3,…,pc,n
f,1,pf,2,pf,3,…,pf,n
天井から地面までの第1の距離と、カメラから地面までの第2の距離との間の比rに基づいて、未完了境界線の点をスケーリング(または推定)して、以下の式(1)の天井境界線および床境界線上の投影点を組み合わせることができる。
【数2】
【0118】
第2の手法では、投影された線分(例えば、水平面上に投影された境界線)は、マンハッタンレイアウト仮説を使用して接続することができる。マンハッタンレイアウト仮説で定義されているように、2つの接続された境界の各対は、平行または垂直であり得る。したがって、投影された境界線は、シーンの画像空間(例えば、X-Y-Z空間)における境界線の元の空間座標に従ってソートすることができる。2つの線(または境界線)が平行であるとき、垂直線を追加して2つの線を一緒に結合することができる。2つの線が垂直であるとき、2つの線の交点が2つの線分(または2つの線)上にあるかどうかを決定することができる。交点が2つの線上にないことに応答して、2つの線分(または2つの線)は、交点が2つの線分上に配置され得るように延長され得る。
【0119】
多角形は、第1および第2の手法の1つまたは組み合わせに基づいて取得することができる。いくつかの実施形態では、2D多角形ノイズ除去、階段除去などのジオメトリ処理方法を使用して多角形を洗練することができる。これにより、パノラマ画像に基づいて複数の多角形を取得することができる。各多角形は、それぞれのパノラマ画像から導出され、シーンのそれぞれのレイアウト推定を示すことができる(例えば、部屋)。
【0120】
既存の曲線(または線分)のノイズ除去には、様々な手法を適用することができる。一例では、曲線(または線分)の境界をノイズの多い点を伴う領域に適合させることができ、次いで領域の細線化を適用することができる。一例では、ガウシアンカーネルなどのマルチスケール分析を適用することができる。マルチスケール分析は、衝撃検出器で鋭い点を保存し、曲線を滑らかな弧および角の集合として出力することができる。別の例では、ガウス平滑化は、n=30個の近傍数などの固定されたn個の数を用いて、ローカル分析によって推定されるノイズに適用することができる。
【0121】
階段除去は、階段アーチファクトを低減することができる。階段アーチファクトは、1次元信号ノイズ除去、2次元画像ノイズ除去、およびビデオノイズ除去などの多くのノイズ除去タスクで観察され得る一般的なアーチファクトであり得る。画像ノイズ除去技術は、画像信号の1つまたは複数の領域を平坦化し、それによって画像信号に階段アーチファクトを生成することができる。その結果、階段アーチファクトは、画像信号の1つまたは複数の領域において、そうでなければ滑らかに変化する画像信号における望ましくない誤ったステップまたは望ましくない平坦な領域として現れる場合がある。
【0122】
図11のステップ(1150)の例のように、各パノラマ画像からのそれぞれのレイアウト推定に基づいてシーンのレイアウト推定を生成するために、パノラマ画像間の推定された相対位置に基づいて、前のステップ(例えば、ステップ(1140))で導出された多角形を同じ座標系に変換することができる。ステップ(1140)からの変換された(または導出された)多角形は、poly、poly、...polyとして表すことができる。シーンのレイアウト推定を生成するために、2つの別々のプロセス、すなわち輪郭推定および内縁推定を採用してレイアウトを取得することができる。
【0123】
輪郭推定では、レイアウト推定の輪郭を決定することができる。輪郭推定は、変換された多角形poly、poly、...polyをベースライン多角形polybaseとして一緒に結合するために多角形和アルゴリズムを利用することができる。
【0124】
次いで、ベースライン多角形polybaseを収縮させて、収縮多角形polyshurinkを形成することができる。ベースライン多角形polybaseを収縮させるために、ベースライン多角形polybaseの各エッジeについて候補エッジ
【数3】
を決定することができる。候補エッジEは、元の変換された多角形poly、poly、...polyから選択することができ、以下の条件のうちの少なくとも1つを満たす。
(1)各エッジ
【数4】
はeに平行であり、
(2)eに対する
【数5】
の投影された重複率は、閾値よりも大きく、例えば70%である。投影された重複率は、
【数6】
をeに投影し、次いでeの線分上の
【数7】
の線分の投影部分の比を計算することによって決定することができる。
【0125】
すべての候補エッジ
【数8】
の中で、原点ビュー位置(例えば、元のパノラマ画像におけるエッジの位置)により近い候補エッジ
【数9】
を使用して、eを置き換えることができる。したがって、1つまたは複数の候補エッジ
【数10】
が原点ビュー位置に近いとき、1つまたは複数のエッジeは、対応する1つまたは複数の候補エッジ
【数11】
で置き換えることができる。
【0126】
ベースライン多角形polybaseの形成では、変換された多角形poly、poly、...polyのすべてのエッジがベースライン多角形polybaseで一緒にマージされ、基準多角形のエッジeと変換された多角形のエッジとの間の一致は考慮されなくてもよい。基準多角形polybaseを各変換された多角形に投影することにより、1つまたは複数の候補エッジ
【数12】
が原点ビュー位置に近いとき、1つまたは複数のeを対応する1つまたは複数の候補エッジ
【数13】
で置き換えることができる。したがって、基準多角形のエッジeと変換多角形のエッジとを方向、サイズ、位置などにおいて一致させることができる。
【0127】
次いで、ベースライン多角形polybaseのエッジeの各々を、対応する候補エッジ
【数14】
と比較することができる。対応する候補エッジ
【数15】
が原点ビュー位置に近いかどうかに基づいて、それぞれのエッジeを保持または置換することができる。収縮多角形polyshurinkは、ベースライン多角形polybaseの1つまたは複数のエッジeを置き換えることによって形成することができる。
【0128】
最終多角形polyfinalは、2D多角形ノイズ除去、階段除去などのジオメトリ処理方法を使用することにより、収縮多角形に基づいてさらに取得することができる。
【0129】
内縁推定は、最終多角形polyfinalの内縁を復元するように構成することができる。内縁を復元するために、最終多角形polyfinalの内側にある変換された多角形poly、poly、...polyのすべてのエッジを集合E’に入れることができる。次に、空間ベースのエッジ投票戦略を使用して、エッジをクラスタリング(またはグループ化)することができる。例えば、最終多角形polyfinalにおける2つのエッジは、2つのエッジが以下の条件のうちの少なくとも1つを満たすときにグループ化することができる。
(1)2つのエッジは平行である。
(2)2つのエッジ間の距離は、第1の閾値未満など、十分に小さい。
(3)2つのエッジ間の投影された重複は、第2の閾値よりも大きいなど、十分に大きい。
【0130】
さらに、エッジのグループが特定の数を超えるエッジを含む場合、エッジのグループの平均エッジを計算して、最終多角形polyfinalの復元された内縁を表すことができる。したがって、エッジのグループの平均エッジを、復元された内縁として最終多角形polyfinalに追加することができる。
【0131】
部屋の3D形状(またはマンハッタンレイアウト)は、様々な表現を使用して推定多角形(例えば、最終多角形polyfinal)に基づいて生成することができる。
【0132】
一実施形態では、部屋の3D形状は、三角形メッシュを使用して生成することができる。例えば、部屋の天井面および床面は、最終多角形polyfinalを三角形分割することによって生成することができる。部屋の壁面は、天井境界線および床境界線によって囲まれた長方形を三角形分割することによって生成することができる。3Dメッシュ(または3D形状)のテクスチャを生成するために、レイキャスティングベースの方法をさらに適用することができる。
【0133】
一実施形態では、四辺形を使用して、最終多角形polyfinalを四角形分割することによって部屋の3D形状を表すことができる。
【0134】
一実施形態では、点群を使用して、三角形メッシュまたは四辺形メッシュから点をサンプリングすることによって部屋の3D形状を表すことができる。三角形メッシュは、最終多角形polyfinalを三角形分割することによって取得することができる。四辺形メッシュは、最終多角形polyfinalを四角形分割することによって取得することができる。
【0135】
一実施形態では、部屋の3D形状は、最終多角形をボクセル化することによって生成することができる。したがって、3Dモデル(例えば、最終多角形polyfinal)を体積データ(例えば、部屋の3D形状)に変換することによって、ボクセル(または3D形状)を作成することができる。
【0136】
本開示では、シーン(例えば、部屋)のマンハッタンレイアウトを推定するための方法を提供することができる。シーンのマンハッタンレイアウトは、シーンに関連付けられたジオメトリ情報および意味セグメンテーション情報を使用して、シーンの複数のパノラマ画像から推定することができる。
【0137】
一実施形態では、主方向、線分、および意味セグメンテーションを一緒に使用して、複数のパノラマ画像の単一のパノラマ(またはパノラマ画像)からシーンのレイアウトを推定することができる。
【0138】
一実施形態では、パノラマ画像の姿勢情報(例えば、角度または距離)を使用して、各パノラマのレイアウトを最終レイアウト推定に組み合わせることができる。
【0139】
一実施形態では、最終多角形を三角形分割すること(例えば、polyfinal)、最終多角形を四角形分割すること、最終多角形に基づいて点群を生成すること、またはモデルをボクセル化すること(例えば、最終レイアウト推定または最終多角形polyfinal)によって、最終的な部屋のレイアウトから3D形状(またはマンハッタンレイアウト)を生成することができる。
【0140】
一実施形態では、複数のパノラマにおける線分は、線検出方法によって検出することができる。例えば、図11のステップ(1140)に示すように、意味セグメンテーションは、パノラマ画像の各ピクセルに意味的意味(例えば、床、ドアなど)を割り当てることができる。意味セグメンテーションの結果を使用して、パノラマ(またはパノラマ画像)の各線分が部屋の壁の境界を表すかどうかを決定することができる。
【0141】
一実施形態では、パノラマ画像の主方向(例えば、XおよびZ方向)は、パノラマ画像内の線分の統計情報を分析することによって取得することができる。
【0142】
一実施形態では、パノラマ画像の意味セグメンテーションは、深層学習ベースの意味セグメンテーション技術を使用して達成することができる。例えば、意味セグメンテーションは、ラベルまたはカテゴリを画像の各ピクセル(例えば、シーンのパノラマ画像)に関連付ける深層学習アルゴリズムとすることができる。
【0143】
一実施形態では、パノラマ画像のパノラマポーズ推定(例えば、角度または距離)は、画像位置合わせ技術を使用して達成することができる。2つのパノラマ画像の位置合わせに基づいて、2つのパノラマ画像間の相対角度または相対距離を決定することができる。
【0144】
一実施形態では、シーンの天井からシーンの地面までの距離とカメラから地面までの距離との間の比を、セグメンテーション情報を使用して計算することができる。
【0145】
図12は、本開示のいくつかの実施形態による画像処理のためのフレームワーク(1200)の図を示す。フレームワーク(1200)は、ビデオエンコーダ(1210)およびビデオデコーダ(1250)を含む。ビデオエンコーダ(1210)は、シーン(例えば、部屋)の複数のパノラマ画像などの入力(1205)をビットストリーム(1245)にエンコーディングし、ビデオデコーダ(1250)は、ビットストリーム(1245)をデコーディングして、シーンのマンハッタンレイアウトなどの再構成された3D形状(1295)を生成する。
【0146】
ビデオエンコーダ(1210)は、例えば、コンピュータ、サーバコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、ゲームデバイス、ARデバイス、VRデバイスなどの任意の適切なデバイスとすることができる。ビデオデコーダ(1250)は、例えば、コンピュータ、クライアントコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、ゲームデバイス、ARデバイス、VRデバイスなどの任意の適切なデバイスとすることができる。ビットストリーム(1245)は、任意の適切な通信ネットワーク(図示せず)を介してビデオエンコーダ(1210)からビデオデコーダ(1250)に送信することができる。
【0147】
図12の例では、ビデオエンコーダ(1210)は、一緒に結合されたセグメンテーションモジュール(1220)、エンコーダ(1230)、および抽出モジュール(1240)を含む。セグメンテーションモジュール(1220)は、シーンに関連付けられたパノラマ画像の各ピクセルに意味的意味(例えば、床、ドアなど)を割り当てるように構成される。各パノラマ画像の意味情報は、エンコーダ(1230)へのビットストリーム(1225)を通してエンコーダ(1230)に送信することができる。抽出モジュール(1240)は、各パノラマ画像のジオメトリ情報を抽出するように構成される。ジオメトリ情報は、ビットストリーム(1227)を通してエンコーダ(1230)に送信することができる。エンコーダ(1230)は、各パノラマ画像のジオメトリ情報および意味情報に基づいてシーンの3D形状(またはマンハッタンレイアウト)を生成するように構成される。例えば、エンコーダ(1230)は、各パノラマ画像に基づいてシーンのそれぞれのレイアウト推定(または多角形)を生成することができる。パノラマ画像のレイアウト推定を融合して、最終的なレイアウト推定(または最終多角形)を形成することができる。シーンの3D形状は、最終多角形を三角形分割すること、最終多角形を四角形分割すること、最終多角形に基づいて点群を生成すること、または最終多角形をボクセル化することによって生成することができる。
【0148】
図12の例では、ビットストリーム(1245)は、ビデオデコーダ(1250)に提供される。ビデオデコーダ(1250)は、図12に示すように一緒に結合されたデコーダ(1260)および再構成モジュール(1290)を含む。一例では、デコーダ(1260)はエンコーダ(1230)に対応し、エンコーダ(1230)によってエンコーディングされたビットストリーム(1245)をデコーディングし、デコーディングされた情報(1265)を生成することができる。デコーディングされた情報(1265)は、再構成モジュール(1290)にさらに提供することができる。したがって、再構成モジュール(1290)は、デコーディングされた情報(1265)に基づいてシーンの3D形状(またはマンハッタンレイアウト)(1295)を再構成することができる。
【0149】
図13は、本開示の一実施形態によるプロセス(1300)の概要を示すフローチャートを示す。様々な実施形態では、プロセス(1300)は、処理回路によって実行される。いくつかの実施形態では、プロセス(1300)はソフトウェア命令で実装され、したがって、処理回路がソフトウェア命令を実行すると、処理回路はプロセス(1300)を実行する。プロセスは(S1301)から始まり、(S1310)に進む。
【0150】
(S1310)では、シーンの複数の2次元(2D)画像が受信される。
【0151】
(S1320)では、複数の2D画像の各々のジオメトリ情報および意味情報が決定される。ジオメトリ情報は、それぞれの2D画像における検出された線および基準方向を示す。意味情報は、それぞれの2D画像におけるピクセルの分類情報を含む。
【0152】
(S1330)では、シーンのそれぞれの2D画像に関連付けられたレイアウト推定は、それぞれの2D画像のジオメトリ情報および意味情報に基づいて決定される。
【0153】
(S1340)では、シーンに関連付けられた結合レイアウト推定は、シーンの複数の2D画像に関連付けられた複数の決定されたレイアウト推定に基づいて決定される。
【0154】
(S1350)では、シーンに関連付けられたマンハッタンレイアウトは、結合レイアウト推定に基づいて生成される。マンハッタンレイアウトは、互いに直交する壁面を含むシーンの少なくとも3次元(3D)形状を含む。
【0155】
ジオメトリ情報および意味情報を決定するために、複数の2D画像のうちの第1の2D画像の第1のジオメトリ情報を抽出することができる。第1のジオメトリ情報は、検出された線、第1の2D画像の基準方向、天井から地面までの第1の距離とカメラから地面までの第2の距離との比、または複数の2D画像のうちの第1の2D画像と第2の2D画像の間の相対姿勢(例えば、角度または距離)のうちの少なくとも1つを含むことができる。第1の2D画像のピクセルは、第1の意味情報を生成するためにラベル付けされることができ、第1の意味情報は、第1の2D画像においてピクセルの第1の構造情報を示すことができる。
【0156】
シーンのそれぞれの2D画像に関連付けられたレイアウト推定を決定するために、シーンに関連付けられた複数の決定されたレイアウト推定の第1のレイアウト推定を、第1の2D画像の第1のジオメトリ情報および第1の意味情報に基づいて決定することができる。第1のレイアウト推定を決定するために、検出された線の各々がシーンにおける壁の境界に対応する境界線であるかどうかを決定することができる。検出された線の境界線は、第1の2D画像の基準方向と位置合わせすることができる。第1のレイアウト推定を示す第1の多角形は、2D多角形ノイズ除去および階段除去のうちの1つを用いて位置合わせされた境界線に基づいて生成することができる。
【0157】
第1の多角形を生成するために、境界線の複数の未完了境界線は、(i)境界線の天井境界線および床境界線の組み合わせに基づいて複数の未完了境界線を推定すること、および(ii)複数の未完了境界線の一対の未完了境界線を接続することのうちの1つに基づいて完成することができる。一対の未完了境界線は、(i)一対の未完了境界線が平行であることに応じて一対の未完了境界線に垂直線を追加すること、および(ii)一対の未完了境界線の少なくとも1つを拡張することであって、その結果、一対の未完了境界線の交点が拡張された一対の未完了境界線上に位置する、ことの1つに基づいて接続することができる。
【0158】
シーンに関連付けられた結合レイアウト推定を決定するために、基準多角形は、多角形和アルゴリズムを介して複数の多角形を結合することによって決定することができる。複数の多角形の各々は、複数の決定されたレイアウト推定のそれぞれのレイアウト推定に対応することができる。収縮多角形は、基準多角形に基づいて決定することができる。収縮多角形は、基準多角形のエッジから更新される更新されたエッジを含むことができる。最終多角形は、2D多角形ノイズ除去および階段除去のうちの1つを用いて収縮多角形に基づいて決定することができる。最終多角形は、シーンに関連付けられた結合レイアウト推定に対応することができる。
【0159】
収縮多角形を決定するために、基準多角形のエッジの複数の多角形から複数の候補エッジを決定することができる。複数の候補エッジの各々は、基準多角形のそれぞれのエッジに対応することができる。収縮多角形の更新されたエッジは、基準多角形の対応する1つまたは複数のエッジよりも複数の2D画像における元のビュー位置に近い1つまたは複数の候補エッジに応答して、基準多角形の1つまたは複数のエッジを対応する1つまたは複数の候補エッジで置き換えることによって生成することができる。
【0160】
いくつかの実施形態では、複数の候補エッジの各々は、基準多角形の対応するエッジに平行であることができる。それぞれの候補エッジと基準多角形の対応するエッジの間の投影された重複部分は、閾値よりも大きくすることができる。
【0161】
シーンに関連付けられた結合レイアウト推定を決定するために、最終多角形のエッジを含むエッジ集合を決定することができる。エッジ集合に基づいて複数のエッジグループを生成することができる。最終多角形の複数の内縁を生成することができる。複数の内縁は、エッジ集合の1つまたは複数のエッジグループの複数の平均エッジによって示すことができる。複数のエッジグループのうちの1つまたは複数のエッジグループの各々は、目標値よりも大きいそれぞれの数のエッジを含むことができる。複数の平均エッジの各々は、1つまたは複数のエッジグループのそれぞれ1つのエッジを平均化することによって取得することができる。
【0162】
いくつかの実施形態では、複数のエッジグループは、第1のエッジグループを含むことができる。第1のエッジグループは、第1のエッジおよび第2のエッジをさらに含むことができる。第1のエッジおよび第2のエッジは平行であることができる。第1のエッジと第2のエッジの間の距離は、第1の閾値未満であることができる。第1のエッジと第2のエッジとの間の投影された重複領域は、第2の閾値よりも大きくすることができる。
【0163】
シーンに関連付けられたマンハッタンレイアウトを生成するために、シーンに関連付けられたマンハッタンレイアウトは、結合レイアウト推定から三角形分割された三角形メッシュ、結合レイアウト推定から四角形分割された四辺形メッシュ、三角形メッシュおよび四辺形メッシュのうちの1つからサンプリングされたサンプリング点、またはボクセル化を介して三角形メッシュおよび四辺形メッシュのうちの1つから生成された離散グリッドのうちの1つに基づいて生成することができる。
【0164】
いくつかの実施形態では、シーンに関連付けられたマンハッタンレイアウトは、結合レイアウト推定から三角形分割された三角形メッシュに基づいて生成することができる。したがって、シーンに関連付けられたマンハッタンレイアウトを生成するために、結合レイアウト推定を三角形分割することによって、シーンにおける天井面および床面を生成することができる。シーンにおける壁面は、シーンにおける天井境界線および床境界線を囲む長方形を三角形分割することによって生成することができる。シーンに関連付けられたマンハッタンレイアウトのテクスチャは、レイキャスティングベースのプロセスを介して生成することができる。
【0165】
上述された技術は、コンピュータ可読命令を使用するコンピュータソフトウェアとして実装され、1つまたは複数のコンピュータ可読媒体に物理的に記憶することができる。例えば、図14は、開示されている主題の特定の実施形態を実施するのに適したコンピュータシステム(1400)を示している。
【0166】
コンピュータソフトウェアは、アセンブリ、コンパイル、リンクなどのメカニズムを受けることができる任意の適切な機械コードまたはコンピュータ言語を使用してコーディングされ、1つまたは複数のコンピュータ中央処理装置(CPU)、グラフィックス処理装置(GPU)などによって直接、または解釈、マイクロコード実行などを介して、実行され得る命令を含むコードを作成することができる。
【0167】
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム機、モノのインターネットデバイスなどを含む様々なタイプのコンピュータまたはコンピュータの構成要素上で実行することができる。
【0168】
コンピュータシステム(1400)に関して図14に示されている構成要素は、本質的に例示であり、本開示の実施形態を実施するコンピュータソフトウェアの使用または機能の範囲に関するいかなる限定も示唆することを意図されていない。また、構成要素の構成は、コンピュータシステム(1400)の例示的な実施形態に示される構成要素のいずれか1つまたは組み合わせに関するいかなる依存性または要件も有するものとして解釈されるべきではない。
【0169】
コンピュータシステム(1400)は、特定のヒューマンインターフェース入力デバイスを含み得る。そのようなヒューマンインターフェース入力デバイスは、例えば、(キーストローク、スワイプ、データグローブの動きなどの)触覚入力、(音声、拍手などの)オーディオ入力、(ジェスチャなどの)視覚入力、(描写されていない)嗅覚入力を介して、1人または複数の人間のユーザによる入力に応答することができる。ヒューマンインターフェースデバイスは、(音声、音楽、周囲の音などの)オーディオ、(走査画像、静止画カメラから取得された写真画像などの)画像、(2次元ビデオ、立体ビデオを含む3次元ビデオなどの)ビデオなどの、人間による意識的な入力に必ずしも直接関連しない特定の媒体をキャプチャするために使用することもできる。
【0170】
入力ヒューマンインターフェースデバイスには、キーボード(1401)、マウス(1402)、トラックパッド(1403)、タッチスクリーン(1410)、データグローブ(図示せず)、ジョイスティック(1405)、マイクロフォン(1406)、スキャナ(1407)、カメラ(1408)のうちの1つまたは複数が含まれてもよい(各々の1つのみが図示されている)。
【0171】
コンピュータシステム(1400)はまた、特定のヒューマンインターフェース出力デバイスも含み得る。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および臭い/味を介して、1人または複数の人間ユーザの感覚を刺激している場合がある。そのようなヒューマンインターフェース出力デバイスには、触覚出力デバイス(例えば、タッチスクリーン(1410)、データグローブ(図示せず)、またはジョイスティック(1405)による触覚フィードバック、しかし入力デバイスとして機能しない触覚フィードバックデバイスが存在する可能性もある)、(スピーカ(1409)、ヘッドフォン(図示せず)などの)オーディオ出力デバイス、(CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン(1410)など、各々タッチスクリーン入力機能の有無にかかわらず、各々触覚フィードバック機能の有無にかかわらず、それらのうちのいくつかは、ステレオグラフィック出力、仮想現実眼鏡(図示せず)、ホログラフィックディスプレイ、およびスモークタンク(図示せず)などの手段を介して2次元視覚出力または3次元以上の出力を出力することが可能な場合がある)視覚出力デバイス、ならびにプリンタ(図示せず)が含まれてもよい。
【0172】
コンピュータシステム(1400)はまた、人間がアクセス可能なストレージデバイス、ならびにCD/DVDまたは同様の媒体(1421)を有するCD/DVD ROM/RW(1420)を含む光学メディア、サムドライブ(1422)、リムーバブルハードドライブまたはソリッドステートドライブ(1423)、テープおよびフロッピーディスクなどのレガシー磁気媒体(図示せず)、セキュリティドングルなどの専用のROM/ASIC/PLDベースのデバイス(図示せず)など、それらの関連媒体も含むことができる。
【0173】
当業者はまた、本開示の主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解するべきである。
【0174】
コンピュータシステム(1400)はまた、1つまたは複数の通信ネットワーク(1455)へのインターフェース(1454)も含むことができる。ネットワークは、例えば、無線、有線、光とすることができる。ネットワークはさらに、ローカル、ワイドエリア、メトロポリタン、車両および産業用、リアルタイム、遅延耐性、などとすることができる。ネットワークの例は、イーサネットなどのローカルエリアネットワークと、無線LANと、GSM、3G、4G、5G、LTEなどを含むセルラネットワークと、ケーブルTV、衛星TV、地上波放送TVを含むTV有線または無線ワイドエリアデジタルネットワークと、CANBusを含む車両および産業用と、などを含む。特定のネットワークは一般に、特定の汎用データポートまたは周辺バス(1449)(例えば、コンピュータシステム(1400)のUSBポートなど)に接続された外部ネットワークインターフェースアダプタを必要とし、他のものは一般に、以下に説明されるようにシステムバスへの接続によってコンピュータシステム(1400)のコアに統合される(例えば、PCコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラネットワークインターフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム(1400)は他のエンティティと通信することができる。このような通信は、単方向受信のみ(例えば、TV放送)、単方向送信のみ(例えば、特定のCANbusデバイスへのCANbus)、または例えば、ローカルまたはワイドエリアデジタルネットワークを使用する他のコンピュータシステムとの双方向とすることができる。特定のプロトコルおよびプロトコルスタックは、上述したように、それらのネットワークおよびネットワークインターフェースの各々で使用され得る。
【0175】
前述のヒューマンインターフェースデバイス、人間がアクセス可能なストレージデバイス、およびネットワークインターフェースは、コンピュータシステム(1400)のコア(1440)に接続されることができる。
【0176】
コア(1440)は、1つまたは複数の中央処理装置(CPU)(1441)、グラフィックス処理装置(GPU)(1442)、フィールドプログラマブルゲートエリア(FPGA)(1443)の形態の専用プログラマブル処理装置、特定のタスク用のハードウェアアクセラレータ(1444)、グラフィックスアダプタ(1450)などを含むことができる。これらのデバイスは、読み取り専用メモリ(ROM)(1445)、ランダムアクセスメモリ(1446)、ユーザがアクセスできない内部ハードドライブ、SSDなどの内部大容量ストレージ(1447)と共に、システムバス(1448)を介して接続され得る。いくつかのコンピュータシステムでは、システムバス(1448)は、追加のCPU、GPUなどによる拡張を可能にするために、1つまたは複数の物理プラグの形態でアクセスされることができる。周辺デバイスは、コアのシステムバス(1448)に直接接続されるか、または周辺バス(1449)を介して接続されることができる。一例では、スクリーン(1410)はグラフィックスアダプタ(1450)に接続されることができる。周辺バス用のアーキテクチャには、PCI、USBなどが含まれる。
【0177】
CPU(1441)、GPU(1442)、FPGA(1443)、およびアクセラレータ(1444)は、組み合わせて前述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ROM(1445)またはRAM(1446)に記憶され得る。移行データはまた、RAM(1446)に記憶され得るが、永久データは、例えば、内部大容量ストレージ(1447)に記憶され得る。1つまたは複数のCPU(1441)、GPU(1442)、大容量ストレージ(1447)、ROM(1445)、RAM(1446)などと密接に関連付けられることができるキャッシュメモリの使用を介して、メモリデバイスのいずれへの高速記憶および取り出しも可能にされることができる。
【0178】
コンピュータ可読媒体は、様々なコンピュータ実装動作を実施するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであってもよく、またはコンピュータソフトウェア技術の当業者に周知の利用可能な種類のものであってもよい。
【0179】
限定の目的ではなく一例として、アーキテクチャ、具体的にはコア(1440)を有するコンピュータシステム(1400)は、1つまたは複数の有形のコンピュータ可読媒体で具現化されたソフトウェアを実行するプロセッサ(複数可)(CPU、GPU、FPGA、アクセラレータなどを含む)の結果として機能を提供することができる。このようなコンピュータ可読媒体は、上記で紹介されたようなユーザがアクセス可能な大容量ストレージ、およびコア内部大容量ストレージ(1447)またはROM(1445)などの非一時的な性質のコア(1440)の特定のストレージ、に関連付けられた媒体とすることができる。本開示の様々な実施形態を実施するソフトウェアは、このようなデバイスに記憶され、コア(1440)によって実行されることができる。コンピュータ可読媒体は、特定の必要性に応じて、1つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア(1440)、および具体的にはその中のプロセッサ(CPU、GPU、FPGAなどを含む)に、RAM(1446)に記憶されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスに従ってこのようなデータ構造を修正することを含む、本明細書に記載の特定のプロセス、または特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、本明細書に記載の特定の処理、または特定の処理の特定の部分を実行するために、ソフトウェアの代わりに、またはソフトウェアと共に動作し得る回路(例えば、アクセラレータ(1444))に配線された、またはそうでなければ具体化された論理の結果として機能を提供することができる。ソフトウェアへの言及は、必要に応じて、論理を包含することができ、その逆も同様である。コンピュータ可読媒体への言及は、必要に応じて、実行のためのソフトウェアを記憶する回路(集積回路(IC)など)、実行のための論理を具現化する回路、またはその両方を包含することができる。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを包含する。
【0180】
本開示はいくつかの例示的な実施形態を記載しているが、本開示の範囲内に入る変更、置換、および様々な代替の均等物が存在する。したがって、当業者は、本明細書に明示的に示されていないかまたは記載されていないが、本開示の原理を具現化し、したがって本開示の趣旨および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。
【符号の説明】
【0181】
100 通信システム、105 センサ、110 端末デバイス、120 端末デバイス、150 ネットワーク、200 ストリーミングシステム、201 点群ソース、202 点群、203 エンコーダ、204 圧縮点群、205 ストリーミングサーバ、206 クライアントサブシステム、207 圧縮点群のコピー、208 クライアントサブシステム、209 圧縮点群のコピー、210 デコーダ、211 レンダリングすることができる再構築された点群、212 レンダリングデバイス、213 キャプチャサブシステム、220 電子デバイス、230 電子デバイス、300 V-PCCエンコーダ、304 パッチ情報モジュール、306 パッチ生成モジュール、308 パッチパッキングモジュール、310 ジオメトリ画像生成モジュール、312 テクスチャ画像生成モジュール、314 占有マップモジュール、316 画像パディングモジュール、318 画像パディングモジュール、320 グループ拡張モジュール、322 ビデオ圧縮モジュール、323 ビデオ圧縮モジュール、324 マルチプレクサ、332 ビデオ圧縮モジュール、334 エントロピー圧縮モジュール、336 平滑化モジュール、338 補助パッチ情報圧縮モジュール、400 V-PCCデコーダ、432 デマルチプレクサ、434 ビデオ展開モジュール、436 ビデオ展開モジュール、438 占有マップ展開モジュール、442 補助パッチ情報展開モジュール、444 ジオメトリ再構築モジュール、446 平滑化モジュール、448 テクスチャ再構築モジュール、452 色平滑化モジュール、510 ビデオデコーダ、520 パーサ、521 シンボル、551 スケーラ/逆変換ユニット、552 イントラ予測ユニット、553 動き補償予測ユニット、555 アグリゲータ、556 ループフィルタユニット、557 基準ピクチャメモリ、558 現在のピクチャバッファ、603 ビデオエンコーダ、630 ソースコーダ、632 コーディングエンジン、633 (ローカル)デコーダ、634 基準ピクチャメモリ、635 予測子、645 エントロピーコーダ、650 コントローラ、700 G-PCCエンコーダ、701 入力点群、702 圧縮されたビットストリーム、710 位置量子化モジュール、712 重複点除去モジュール、720 属性転送モジュール、730 八分木エンコーディングモジュール、740 詳細レベル生成モジュール、750 属性予測モジュール、760 残差量子化モジュール、770 算術コーディングモジュール、780 逆残差量子化モジュール、781 加算モジュール、790 再構築された属性値を記憶するためのメモリ、800 G-PCCデコーダ、801 圧縮されたビットストリーム、802 デコーディングされた点群、810 算術デコーディングモジュール、820 逆残差量子化モジュール、830 八分木デコーディングモジュール、840 LOD生成モジュール、850 属性予測モジュールモジュール、860 再構築された属性値を記憶するためのメモリ、900 パノラマ、902 天井、904 床、906 ソファ、908 壁、1000 部屋レイアウト、1002 多角形、1004 3Dメッシュ、1100 プロセス、1110 入力パノラマ、1120 ジオメトリ情報の抽出、1130 意味セグメンテーション、1140 単一のパノラマレイアウトの推定、1150 複数のパノラマレイアウトの融合、1160 レイアウト&メッシュの生成、1200 フレームワーク、1205 入力、1210 ビデオエンコーダ、1220 セグメンテーションモジュール、1225 エンコーダへのビットストリーム、1227 ビットストリーム、1230 エンコーダ、1240 抽出モジュール、1245 ビットストリーム、1250 ビデオデコーダ、1260 デコーダ、1265 デコーディングされた情報、1290 再構成モジュール、1295 再構成された3D形状、1300 プロセス、1400 コンピュータシステム、1401 キーボード、1402 マウス、1403 トラックパッド、1405 ジョイスティック、1406 マイクロフォン、1407 スキャナ、1408 カメラ、1409 スピーカ、1410 タッチスクリーン、1420 CD/DVD ROM/RW、1421 CD/DVDまたは同様の媒体、1422 サムドライブ、1423 リムーバブルハードドライブまたはソリッドステートドライブ、1440 コア、1441 中央処理装置(CPU)、1442 グラフィックス処理装置(GPU)、1443 フィールドプログラマブルゲートエリア(FPGA)、1444 特定のタスク用のハードウェアアクセラレータ、1445 読み取り専用メモリ(ROM)、1446 ランダムアクセスメモリ、1447 内部大容量ストレージ、1448 システムバス、1449 周辺バス、1450 グラフィックスアダプタ、1454 ネットワークインターフェース、1455 通信ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8
図9A
図9B
図9C
図10A
図10B
図10C
図11
図12
図13
図14
【手続補正書】
【提出日】2023-09-28
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
シーンに関連付けられたマンハッタンレイアウトを推定するための方法であって、前記方法は、
前記シーンの複数の2次元(2D)画像を受信するステップと、
前記複数の2D画像の各々のジオメトリ情報および意味情報を決定するステップであって、前記ジオメトリ情報は、前記それぞれの2D画像において検出された線および基準方向を示し、前記意味情報は、前記それぞれの2D画像におけるピクセルの分類情報を含む、ステップと、
前記それぞれの2D画像の前記ジオメトリ情報および前記意味情報に基づいて、前記シーンの前記それぞれの2D画像に関連付けられたレイアウト推定を決定するステップと、
前記シーンの前記複数の2D画像に関連付けられた複数の前記決定されたレイアウト推定に基づいて、前記シーンに関連付けられた結合レイアウト推定を決定するステップと、
前記結合レイアウト推定に基づいて、前記シーンに関連付けられた前記マンハッタンレイアウトを生成するステップであって、前記マンハッタンレイアウトは、互いに直交する壁面を含む前記シーンの少なくとも3次元(3D)形状を含む、ステップとを含む、方法。
【請求項2】
前記ジオメトリ情報および前記意味情報を決定する前記ステップは、
前記複数の2D画像のうちの第1の2D画像の第1のジオメトリ情報を抽出するステップであって、前記第1のジオメトリ情報は、検出された線、前記第1の2D画像の基準方向、天井から地面までの第1の距離とカメラから前記地面までの第2の距離との比、または前記複数の2D画像のうちの前記第1の2D画像と第2の2D画像との間の相対姿勢のうちの少なくとも1つを含む、ステップと、
前記第1の2D画像のピクセルをラベル付けして第1の意味情報を生成するステップであって、前記第1の意味情報は、前記第1の2D画像における前記ピクセルの第1の構造情報を示す、ステップとをさらに含む、請求項1に記載の方法。
【請求項3】
前記シーンの前記それぞれの2D画像に関連付けられた前記レイアウト推定を決定する前記ステップは、
前記第1の2D画像の前記第1のジオメトリ情報および前記第1の意味情報に基づいて、前記シーンに関連付けられた前記複数の前記決定されたレイアウト推定の第1のレイアウト推定を決定するステップとをさらに含み、
前記第1のレイアウト推定を決定する前記ステップは、
前記検出された線の各々が前記シーンにおける壁の境界に対応する境界線であるかどうかを決定するステップと、
前記検出された線の前記境界線を前記第1の2D画像の前記基準方向と位置合わせするステップと、
2D多角形ノイズ除去および階段除去のうちの1つを用いて、前記位置合わせされた境界線に基づいて前記第1のレイアウト推定を示す第1の多角形を生成するステップとをさらに含む、請求項2に記載の方法。
【請求項4】
前記第1の多角形を生成する前記ステップが、
前記境界線の天井境界線と床境界線との組み合わせに基づいて、複数の未完了境界線を推定するステップと、
前記複数の未完了境界線のうちの一対の未完了境界線を、(i)前記一対の未完了境界線が平行であることに応答して前記一対の未完了境界線に垂直線を追加するステップ、および(ii)前記一対の未完了境界線のうちの少なくとも1つを拡張するステップであって、その結果、前記一対の未完了境界線の交点が前記拡張された一対の未完了境界線上に位置する、ステップのうちの一方に基づいて接続するステップとのうちの1つに基づいて前記境界線の前記複数の未完了境界線を完成させるステップをさらに含む、請求項3に記載の方法。
【請求項5】
前記シーンに関連付けられた前記結合レイアウト推定を決定する前記ステップは、
多角形和アルゴリズムを介して複数の多角形を結合することによって基準多角形を決定するステップであって、前記複数の多角形の各々は、前記複数の前記決定されたレイアウト推定のそれぞれのレイアウト推定に対応する、ステップと、
前記基準多角形に基づいて収縮多角形を決定するステップであって、前記収縮多角形は、前記基準多角形のエッジから更新される更新されたエッジを含む、ステップと、
前記2D多角形ノイズ除去および前記階段除去のうちの1つを用いて、前記収縮多角形に基づいて最終多角形を決定するステップであって、前記最終多角形が、前記シーンに関連付けられた前記結合レイアウト推定に対応する、ステップとをさらに含む、請求項3に記載の方法。
【請求項6】
前記収縮多角形を決定する前記ステップは、
前記基準多角形の前記エッジについて前記複数の多角形から複数の候補エッジを決定するステップであって、前記複数の候補エッジの各々は、前記基準多角形のそれぞれのエッジに対応する、ステップと、
前記基準多角形の前記対応する1つまたは複数のエッジよりも前記複数の2D画像において元のビュー位置に近い前記1つまたは複数の候補エッジに応答して、前記基準多角形の1つまたは複数のエッジを前記対応する1つまたは複数の候補エッジで置き換えることにより、前記収縮多角形の前記更新されたエッジを生成するステップとをさらに含む、請求項5に記載の方法。
【請求項7】
前記複数の候補エッジの各々は、前記基準多角形の前記対応するエッジと平行であり、
前記それぞれの候補エッジと前記基準多角形の前記対応するエッジとの間の投影された重複部分は、閾値よりも大きい、
請求項6に記載の方法。
【請求項8】
前記シーンに関連付けられた前記結合レイアウト推定を決定する前記ステップは、
前記最終多角形のエッジを含むエッジ集合を決定するステップと、
前記エッジ集合に基づいて複数のエッジグループを生成するステップと、
前記エッジ集合の1つまたは複数のエッジグループの複数の平均エッジによって示される前記最終多角形の複数の内縁を生成するステップであって、前記複数のエッジグループの前記1つまたは複数のエッジグループの各々は、目標値よりも大きいそれぞれの数のエッジを含み、前記複数の平均エッジの各々は、前記1つまたは複数のエッジグループのうちのそれぞれの1つのエッジを平均化することによって取得される、ステップとをさらに含む、請求項5に記載の方法。
【請求項9】
前記複数のエッジグループは、第1のエッジグループを含み、
前記第1のエッジグループは、第1のエッジおよび第2のエッジをさらに含み、前記第1のエッジおよび前記第2のエッジは平行であり、前記第1のエッジと前記第2のエッジとの間の距離は第1の閾値未満であり、前記第1のエッジと前記第2のエッジとの間の投影された重複領域は第2の閾値より大きい、
請求項8に記載の方法。
【請求項10】
前記シーンに関連付けられた前記マンハッタンレイアウトを生成する前記ステップは、
前記結合レイアウト推定から三角形分割された三角形メッシュ、前記結合レイアウト推定から四角形分割された四辺形メッシュ、前記三角形メッシュおよび前記四辺形メッシュのうちの1つからサンプリングされたサンプリング点、またはボクセル化を介して前記三角形メッシュおよび前記四辺形メッシュのうちの1つから生成された離散グリッドのうちの1つに基づいて、前記シーンに関連付けられた前記マンハッタンレイアウトを生成するステップをさらに含む、請求項1に記載の方法。
【請求項11】
前記シーンに関連付けられた前記マンハッタンレイアウトは、前記結合レイアウト推定から三角形分割された前記三角形メッシュに基づいて生成され、
前記シーンに関連付けられた前記マンハッタンレイアウトを生成する前記ステップは、
前記結合レイアウト推定を三角形分割することによって、前記シーンにおける天井面および床面を生成するステップと、
前記シーンにおける天井境界線および床境界線を囲む長方形を三角形分割することによって前記シーンにおいて前記壁面を生成するステップと、
レイキャスティングベースのプロセスを介して前記シーンに関連付けられた前記マンハッタンレイアウトのテクスチャを生成するステップとをさらに含む、請求項10に記載の方法。
【請求項12】
シーンに関連付けられたマンハッタンレイアウトを推定するための装置であって、前記装置は、請求項1から11のいずれか一項に記載の方法を実行する、装置。
【請求項13】
1つまたは複数の命令を含むコンピュータプログラムであって、1つまたは複数のプロセッサによって実行されると、請求項1から11のいずれか一項に記載の方法を前記1つまたは複数のプロセッサに実行させる、コンピュータプログラム。
【国際調査報告】