(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-11-30
(54)【発明の名称】画像コンテンツを処理するための方法及び装置
(51)【国際特許分類】
H04N 19/597 20140101AFI20221122BHJP
H04N 13/194 20180101ALI20221122BHJP
H04N 13/178 20180101ALI20221122BHJP
H04N 19/70 20140101ALI20221122BHJP
H04N 19/85 20140101ALI20221122BHJP
G06T 7/593 20170101ALI20221122BHJP
H04N 13/282 20180101ALI20221122BHJP
【FI】
H04N19/597
H04N13/194
H04N13/178
H04N19/70
H04N19/85
G06T7/593
H04N13/282
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022519776
(86)(22)【出願日】2020-09-29
(85)【翻訳文提出日】2022-04-11
(86)【国際出願番号】 EP2020077179
(87)【国際公開番号】W WO2021063919
(87)【国際公開日】2021-04-08
(32)【優先日】2019-09-30
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】521547600
【氏名又は名称】インターデジタル ブイシー ホールディングス フランス,エスアーエス
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】ドイエン、ディディエ
(72)【発明者】
【氏名】ガルピン、フランク
(72)【発明者】
【氏名】ボワソン、ギヨーム
【テーマコード(参考)】
5C061
5C159
5L096
【Fターム(参考)】
5C061AB10
5C159KK01
5C159KK61
5C159LA02
5C159MA16
5C159NN41
5C159PP03
5C159PP13
5C159RC11
5C159TA01
5C159TD15
5C159TD16
5C159UA02
5C159UA05
5L096AA09
5L096CA05
5L096CA22
5L096DA01
5L096EA14
5L096FA66
5L096FA67
(57)【要約】
画像コンテンツを処理するための方法及びシステムが提供される。本方法は、少なくとも1つのカメラによって捕捉されたコンテンツ画像に関する情報を受信することを含む。コンテンツには、歪んだ領域及び歪んでいない領域の両方を含む画像の多視点表現が含まれる。次いで、カメラパラメータ及び画像パラメータを取得及び使用して、当該画像内のどの領域が歪んでおらず、どの領域が歪んでいるかを決定する。これは、決定された歪んでいない情報及び歪んだ情報を使用して、画像の深度マップを計算するために使用される。次いで、歪んだ領域及び歪んでいない領域及び深度マップの計算を使用する最終立体画像がレンダリングされる。
【選択図】
図7
【特許請求の範囲】
【請求項1】
方法であって、
少なくとも1つのカメラによって捕捉されたコンテンツ画像に関する情報を受信することであって、
前記コンテンツ画像が、歪んだ領域及び歪んでいない領域の両方を含む画像の多視点表現を含む、受信することと、
カメラパラメータ及び画像パラメータのうちの少なくとも1つを取得することと、
前記少なくとも1つの画像を使用して、前記画像内のどの領域が歪んでおらず、どの領域が歪んでいるかを示すカメラパラメータ歪み情報を取得することと、
前記歪み情報を使用して、前記画像の深度マップを計算することと、を含む、方法。
【請求項2】
装置であって、
1つ以上のプロセッサであって、
少なくとも1つのカメラによって捕捉されたコンテンツ画像に関する情報を受信することであって、前記コンテンツ画像が、歪んだ領域及び歪んでいない領域の両方を含む画像の多視点表現を含む、受信することと、
カメラパラメータ及び画像パラメータのうちの少なくとも1つを取得することと、
前記少なくとも1つの画像を使用して、前記画像内のどの領域が歪んでおらず、どの領域が歪んでいるかを示すカメラパラメータ歪み情報を取得することと、前記歪み情報を使用して、前記画像の深度マップを提供することと、を行うために構成されている、1つ以上のプロセッサを備える、装置。
【請求項3】
前記歪み情報及び前記深度マップを使用する最終立体画像をレンダリングすることを更に含む、請求項1に記載の方法。
【請求項4】
前記1つ以上のプロセッサが、前記歪んだ領域及び歪んでいない領域並びに深度マップの計算を使用する最終立体画像をレンダリングするために構成されている、請求項2に記載の装置。
【請求項5】
少なくとも一対のカメラが、多視点画像を捕捉するために使用される、請求項1若しくは3に記載の方法又は請求項2若しくは4に記載の装置。
【請求項6】
前記パラメータが、前記カメラペアのための行列を提供するためにも使用される、請求項5に記載の方法又は請求項5に記載の装置。
【請求項7】
前記歪み情報が、歪んだコンテンツを取得するために提供される、請求項5若しくは6に記載の方法又は請求項5若しくは6に記載の装置。
【請求項8】
前記歪み情報が、歪んだコンテンツのアドレスを取得するために提供される、請求項7に記載の方法又は請求項7に記載の装置。
【請求項9】
前記カメラペアのための行列が、歪みパラメータも含む、請求項5若しくは6に記載の方法又は請求項5若しくは6に記載の装置。
【請求項10】
前記歪み情報が、歪み補償値を提供して、ワープマップを計算するために使用される、請求項9に記載の方法又は請求項9に記載の装置。
【請求項11】
前記カメラペアと関連付けられた前記行列が、ワープマップを決定するために使用される、請求項9に記載の方法又は請求項9に記載の装置。
【請求項12】
前記ワープマップが、動きベクトルの精密化として更に定義される、請求項11に記載の方法又は請求項11に記載の装置。
【請求項13】
前記ワープマップが、予測モード(mvd)と関連付けられている、請求項12に記載の方法又は請求項12に記載の装置。
【請求項14】
プロセッサに、請求項1、3又は5~13のいずれか一項に記載の方法を実施させるための命令を内部に記憶している、非一時的なプロセッサ可読媒体。
【請求項15】
請求項1、3又は5~13のいずれか一項に記載の方法に従って実行するためのプログラムコードの命令を運ぶ、非一時的な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本実施形態は、概して、画像処理に関し、より詳細には、送信されたカメラパラメータを使用して捕捉された画像内の深度マップを使用することに関する。
【背景技術】
【0002】
従来のカメラは、可視光に敏感な二次元センサデバイス上の三次元シーンから光を捕捉する。そのような撮像デバイスで使用される感光技術は、多くの場合、例えば、電荷結合デバイス(charge coupled device、CCD)又は相補型金属酸化物技術(complementary metal oxide technology、CMOS)など、電子に光子を変換することができる半導体技術に基づく。デジタル画像光センサは、例えば、典型的には、感光電池のアレイを含み、各電池は、入射光を捕捉するように構成されている。空間情報を提供する2D画像は、画像センサデバイスの各感光電池によって捕捉された光の総量の測定から取得される。2D画像は、光の強度及び光センサの空間点における光の色に関する情報を提供することができるが、入射光の方向に情報は提供されない。
【0003】
視覚認知は事後に作成される必要があるため、捕捉された2D画像から3D又は4Dレンダリングを生成することは複雑である。正確な視覚認識を作成する際の2つの重要な考慮事項は、視差推定及び深度マップ計算を用いて行う必要がある。深度マップは、視点からのシーンオブジェクトの表面の距離に関する情報を含む画像又は画像チャネルである。言い換えれば、深度マップは、各画素が、カメラに対してその位置で観察されている物体の距離(又は距離の逆数、若しくは距離の関数である任意の情報)を記録する特別な画像である。深度マップは、例えば、同じ視野を観察するいくつかのカメラを使用して計算され、視点間の視差の変動で深度が推測され得る。実際には、推定された深度マップは、偽の画素を示す。多くの理由により、深度マップ推定が困難になる。これらの困難のいくつかは、1つのカメラから次のカメラに部分的にマスクされている物体、異なる位置で観察された物体からの反射光の変動、視差推定困難を作製するテクスチャを含まないか、又はほとんど含まない表面、及びカメラ間の感度変動を含むことができる。
【0004】
視差推定及び概念は、視覚認知において重要であり、2つの異なる視線に沿って見られる物体の視位置における変位又は差として定義され得、それらの2つの線間の傾斜角によって測定され得る。各人間の眼は、異なる及び重複するわずかに異なる視線を有する。この概念は、深度の知覚を達成することを可能にする。視差はまた、物体をわずかに異なる角度から見る光学機器にも影響を与える。
【0005】
映像及びストリーミングコンテンツでは、立体視覚認知を提供することがまた更に複雑になる。異なる角度で捕捉された同じシーン画像の複数の視点が、適切な視差及び深度マップを作成するために提供される場合がある。しかしながら、関連データが広範囲であるため、ストレージ及び処理は困難になる。例えば、動き視差を提供するために、多視点コンテンツに関するデータが必要である。コンテンツに関する情報は、視点間に十分な重なりを提供するが、異なる視野角で効果を提供することができるような十分な高密度でなければならない。これは、送信されるデータ量を低減するために、任意の圧縮アルゴリズムを有効活用してアドレス指定する必要がある重要な要素の1つである(それぞれのカメラパラメータも考慮する必要がある)。残念ながら、従来技術では、現在のところ、この分野において容易で実用的な技術が提供されていない。その結果、捕捉されるデータを少なくし、三次元及び四次元の視覚認知を提供するために使用される技術を提供することが望ましい。
【発明の概要】
【0006】
画像コンテンツを処理するための方法及びシステムが提供される。本方法は、少なくとも1つのカメラによって捕捉されたコンテンツ画像に関する情報を受信することを含む。コンテンツには、歪んだ領域及び歪んでいない領域の両方を含む画像の多視点表現が含まれる。次いで、カメラパラメータ及び画像パラメータを取得及び使用して、当該画像内のどの領域が歪んでおらず、どの領域が歪んでいるかを決定する。これは、決定された歪んでいない情報及び歪んだ情報を使用して、画像の深度マップを計算するために使用される。次いで、歪んだ領域及び歪んでいない領域及び深度マップの計算を使用する最終立体画像がレンダリングされる。
【図面の簡単な説明】
【0007】
ここで、単なる例として、以下の図面を参照して、異なる実施形態を説明する。
【0008】
【
図1】実施形態による、多視点カメラを提供する概略図である。
【0009】
【
図2】一実施形態による、その関連する深度マップを有するシーンの図である。
【0010】
【
図3】1つの視点の1つの画素がカメラ位置を関連付けている、一実施形態による図である。
【0011】
【0012】
【
図5】歪んだコンテンツ及び関連する歪んだマッピングの図である。
【0013】
【
図6】1つ以上の実施形態による、符号化及び復号化システムの概略図である。
【0014】
【0015】
【
図8-1】多視点獲得情報を提供するテーブルの図である。
【
図8-2】多視点獲得情報を提供するテーブルの図である。
【0016】
【
図9】2×2のカメラパラメータを有する、一実施形態による科学的計算のテーブル図である。
【0017】
【
図10】科学的表現で行列を表すテーブル図である。
【0018】
【
図11】科学的表現形式で歪みパラメータを有する、一実施形態によるテーブルを提供する。
【0019】
【
図12-1】歪みパラメータを含むテーブルの別の図である。
【
図12-2】歪みパラメータを含むテーブルの別の図である。
【0020】
【
図13-1】一実施形態による、2×2のカメラパラメータと組み合わされた歪みがないワープマップを提供する更に別のテーブルである。
【
図13-2】一実施形態による、2×2のカメラパラメータと組み合わされた歪みがないワープマップを提供する更に別のテーブルである。
【
図13-3】一実施形態による、2×2のカメラパラメータと組み合わされた歪みがないワープマップを提供する更に別のテーブルである。
【0021】
【
図14-1】
図14-1、
図14-2及び
図14-3は、2×2のカメラアレイを有する実施形態のための歪みがないワープマップパラメータを有する更に別のテーブルの図である。
【
図14-2】2×2のカメラアレイを有する実施形態のための歪みがないワープマップパラメータを有する更に別のテーブルの図である。
【
図14-3】2×2のカメラアレイを有する実施形態のための歪みがないワープマップパラメータを有する更に別のテーブルの図である。
【0022】
【
図15-1】2つのワープマップを有する、一実施形態によるテーブルを提供する。
【
図15-2】2つのワープマップを有する、一実施形態によるテーブルを提供する。
【発明を実施するための形態】
【0023】
大部分の画像捕捉は、二次元画像を提供する。これらの画像の三又は四次元レンダリングを作成するために、異なる技術を使用することができる。例えば、シーンの2つ以上の視点は、ステレオペアの較正済み又は未較正のカメラを使用して、若しくは単一のカメラを使用して複数の画像を通して、あるいはライトフィールドカメラ/プレノプティックカメラを使用するときなど、異なる角度から同じ画像を捕捉することによって、その再構成に使用することができる。
【0024】
多次元視覚認知の再現を可能にするために、送信された多視点コンテンツには、有効である深度情報などの関連情報が含まれる必要がある。2つ以上のカメラ又は角度が使用されるとき、各カメラの深度マップは、十分に定義されたMVD又は多視点及び深度形式で必要とされる。この情報は、映像圧縮/圧縮解除のための高効率映像コード化(High Efficiency Video Coding、HEVC)規格などの技術の延長に使用される形式で、入力として送信されることが多い。
【0025】
先に述べたように、動き視差を提供するために、多視点コンテンツは、視点間に十分な重なりを提供するが、異なる視野角で効果を発揮できるような十分な高密度でなければならないが、そのためには多くの捕捉された情報を必要とするので、送信されるデータ量を低減するために圧縮アルゴリズムが重要になる。以前、HEVCコーデックの3D-HEVC及びMV-HEVCの拡張機能として、視点間予測が導入された。当時、多視点カメラシステムは、主に水平のみのシステムと見なされており、予測機構は、水平方向のみを有効活用していた。したがって、インタビュー差は、水平差異として定義された。この差異を使用して、別の視点における対応する画素を計算することが可能であった。現在のカメラアレイは、もはや水平のみではなく、2Dであるか、又は更に3D配置である。隣接する視点の対応する画素を計算するには、それぞれのカメラパラメータを考慮しなければならない、より複雑な処理を必要とする。これらの問題及び欠陥に対処するために、歪み情報などのカメラを特徴付けるための追加情報が提供されるべきである。一実施形態では、一対のカメラモードを導入して、それぞれの視点の画素位置を計算するための係数行列を表すことができる。
【0026】
コンテンツ(6DoFコンテンツなど)の配信を標的とするMPEG-Iプログラムは、エンドユーザがコンテンツ内を移動し、視差を認知することを可能にすることができる。クライアント側のレンダリングされたコンテンツは、観察者の頭部の動きにリアルタイムで適合させる必要がある。この視差を作成するために、通常の2Dコンテンツだけでなく、視聴者が自身の頭部を動かしたときに、初期角度では見えないが、異なる角度から見える可能性があるものに対応するコンテンツも配信する必要がある。このコンテンツは、典型的には、カメラアレイによって捕捉することができ、各カメラは、わずかに異なる角度及び異なる位置からそのシーンを見る。カメラ間の距離によって、システムが提供できる視差量がおおよそ決まる。そのような場合の多視点コンテンツを送信するためのデータ量は、網羅的であり得る。更に、任意の視聴位置を正しくレンダリングするための中間視点を合成することができるように、いくつかの深度マップをテクスチャと関連付けて送信する必要がある。MVD形式は、このようなコンテンツを配信するために過去に既に使用されている。例えば、HEVCの3D-HEVCの拡張機能のための入力形式として既に使用されていた。この規格では、カメラパラメータは、デコーダ側で使用されるSEIメッセージとして送信された。
【0027】
場合によっては、特にレンダリングが体積的に網羅的であるとき、カメラパラメータは、入力視点のいずれかの空間内の所与の点の対応する位置を正確に計算するために、必須である。例えば、3D-HEVCでは、多視点コンテンツは、水平に整列されたカメラからのみ提供され、次にそれらを後で調整することができる。これは、異なる視点が、同じグリッド上にそれぞれのカメラ主点を有するために事前処理されたことを意味する。これはまた、空間内の所与の点について、2つの異なるカメラに対応する2つの異なる視点におけるそれらの位置間の距離が、水平方向にのみ表される差異であることを意味する。
【0028】
水平に整列されていない複数のカメラが使用されるとき、歪み補正などの任意の事前処理を考慮せずに調整されることはない。何かしらの較正が望ましくあり得、カメラパラメータが重要になる。必要なカメラパラメータには、
外部パラメータ、
固有パラメータ、及び
歪みパラメータが含まれる。
【0029】
固有パラメータは、その焦点距離、スキュー、歪み、及び画像中心などのカメラの内部特性に対処する。一方、外部パラメータは、全体的にそれらの位置及び向きについて記載する。固有パラメータを知ることは、ユークリッド空間内のシーンの構造を推定することを可能にし、精度を低下させるレンズの歪みを除去するため、3Dコンピュータビジョンにとって非常に重要な最初のステップとなる。幾何光学では、歪みは、直線投影からの偏差であり、シーン内の直線が画像内の直線を維持する投影である。それは光学収差の形態である。
【0030】
図6は、1つ以上の実施形態による、符号化及び復号化システムの一般的な概要を概略的に示す。
図6のシステムは、1つ以上の機能を実施するように構成されている。事前処理モジュール30は、符号化デバイス40によって符号化するためのコンテンツを準備するために提供され得る。事前処理モジュール30は、多画像の獲得、獲得された複数の画像を共通の空間にマージすることを実施することができる。獲得された映像データ表現に応じて、事前処理モジュール30は、マッピング空間変化を実施することができる。符号化された後、符号化された没入型映像データ又は3D CGIであり得るデータは、典型的には、例えば、ゲートウェイに存在する任意のネットワークインターフェースに実装され得る。次いで、データは、インターネットなどの通信ネットワークを通じて送信されるが、任意の他のネットワークも想定され得る。次いで、データは、必要に応じてネットワークインターフェース60を介して受信される。ネットワークインターフェース60は、ゲートウェイ、テレビ、セットトップボックス、ヘッドマウントディスプレイデバイス、没入型(投影)壁、又は任意の没入型映像レンダリングデバイス内で実装され得る。受信後、データは、復号化デバイス700に送られる。次に、復号化されたデータは、プレーヤとすることができるコンポーネント80によって処理される。次いで、データをレンダリングデバイス90のために準備する。
【0031】
デコーダ側では、カメラパラメータがストリームから抽出され、計算が実施されて、異なる視点の対応する画素位置を計算する(例えば、復号化プロセスにおける視点予測のために)。これらの計算には、行列積及び逆行列計算が含まれ、非常に計算が集中する可能性がある。デコーダの複雑さを低減するために、エンコーダ側でこれらのカメラパラメータを事前に計算し、デコーダの観点から、これらを改善された方法でビットストリームに送信することが可能である。
【0032】
図1は、多視点カメラ100の例示的な図を提供する。この例では、1つ以上の深度マップと関連付けられることができる16台のカメラアレイ110(110として表される4台のカメラ×4台のカメラベース)が提供される。一実施形態では、深度マップは、8ビット表現の深さを使用できる可能性があるが、これは必須ではなく、代替の実施形態において変化する場合がある。加えて、
図1は、しかしながら、例としてのみ提供されており、より多くの又はより少ないカメラ部材を有するアレイを備えた他のアレイ配置が、代替の実施形態において提供され得る。特定のカメラアレイを含む
図1の例では、捕捉された視点間の重なりは重要であり、重要な圧縮ステップを必要とする。
図2a及び
図2bでは、理解するのを容易にするために、画像の図が、
図2a及び
図2bの関連する深度マップ(210及び220で参照)に示されている。
【0033】
図8は、多視点獲得情報の例示を提供する、関連するテーブル(テーブル1)を示す。このテーブルは、HEVCにおけるSEIメッセージシンタックスを提供する。SEIメッセージは、カメラの固有及び外部パラメータを記載する。現在、パラメータは、視点のいずれかにおける空間内の所与の点の対応する位置を正確に計算するために、デコーダによって必要とされている。更に、先の記載には、各カメラに関連付けられた任意の歪みパラメータが含まれない。HEVCのSEIメッセージに記載されたカメラのモデルは、歪んでいないカメラのみを考慮している。歪んでいるか否かであり得る、あらゆる種類のコンテンツを考慮するために、歪みパラメータについて記載するための機会を提供することが重要である。
【0034】
従来技術によって提示される別の制限は、カメラパラメータが記載されている方法(HEVC規格のG.14.2.6セクション)において、それらが使用されるために必要とする計算量である。各回転又は並進行列の各値は、科学的表記法で与えられる。これは、符号(1ビット)、指数(6ビット)、及び仮数(vビット)に相当する。固有パラメータ(焦点及びスキュー及び主点)もまた、同じ表記法を使用して記載される。この表記法は、デコーダ側で使用される前にいくつかの計算を必要とする。代替の実施形態では、これらのパラメータの平行な32ビットの固定小数点バージョンを送って、デコーダ側の計算を簡素化することが可能である。
【0035】
一実施形態では、デコーダ側の計算を簡素化することは、カメラパラメータを操作するときに行われる計算の一部を除去することである可能性がある。一実施形態では、後述するように、この全計算を非常に正確な方法で実施することができ、それに対応して、1つの視点から別の視点への空間内の所与の点の位置が提示され得る。これにより、情報の抽出が、1つのカメラに対応する1つの位置を別のカメラに対応する別の位置に変換することを可能にする。一実施形態では、事前に計算された行列を、特にデコーダ側で必要な計算量を簡素化するために、提供することができる。
【0036】
別の実施形態では、各視点の獲得に関連付けられているカメラパラメータがあるとき、
・ あらゆる種類のコンテンツ(歪んでいないか否か)の使用を確実にするためにカメラの歪みパラメータを積分する
・ 事前に計算された行列積を提案することによって、デコーダの計算負荷を簡素化して、2つのカメラのグループからの画素の投影及び非投影に対処する
・ 事前に計算されたワープマップ及び非ワープマップを提案することによって、デコーダ側の歪みの計算を簡素化する、カメラパラメータの送信を可能にする技術を使用することができる。
【0037】
加えて、多視点及び深度フォーマットを提示した概念の理解を容易にするために、エンコーダの入力形式で提供される。(多視点+深度とは、各視点についてRGBコンテンツが同じ画素解像度で深度マップと関連付けられていることを意味する。この深度マップは、当業者には既知であるように、任意の手段(計算、測定など)によって生成され得る。一実施形態では、このようなコンテンツを複数のカメラから正しく有効活用するために、焦点距離又は主点位置など、カメラの相対位置(外部パラメータ)及び個々のカメラパラメータ(固有パラメータ)を決定するために較正段階が必要である。
【0038】
一実施形態では、この較正段階は、特定の試験パターン及び関連するソフトウェアを使用して、撮影前に行われる。本明細書で使用される実施形態のいくつかと併せて開発及び使用される技術を理解するために、多視点及び深度コンテンツ情報の圧縮に関するいくつかの背景材料を探索する必要がある。この目的のために、空間内の異なる点の様々な視点を使用する例を探索し、空間内のこれらの点のうちの少なくとも1つについて異なる視点における対応する画素位置を計算することが有用である。一実施形態では、
図3に示されるように、1つの視点の1つの画素について、この点について別のカメラによって獲得されたかのように対応する位置を決定するために、関連するカメラ位置を計算することができる。この例では、この点の位置は、カメラcのP(u、v)であり(310として参照)、これはまた、320で参照されるように、カメラc’によって獲得された場合の位置P’(u’、v’)に対応する。
【0039】
本実施形態では、点Pに関する情報がある場合、固有及び外部パラメータは、P’の計算を可能にするために使用される。普通のピンホールとして較正されたカメラを考慮する。仮にその固有行列を
【数1】
とすると、
・ fは、射出ひとみからセンサまでの距離を示し、画素で表され、文献上「焦点距離」と呼ばれることが多く、
・
【数2】
は、いわゆる「主点」の画素座標、すなわち、センサ上へのピンホールの直交投影を示し、
・ α及びγは、それぞれ、画素のアスペクト比及びセンサのスキュー係数を示す。
【0040】
一実施形態では、
【数3】
が、カメラの座標系(Coordinate System、CS)における所与の点の座標である場合、その画像投影
【数4】
の座標は、
【数5】
によって与えられ(画素で)、
式中、記号≡は、同次ベクトル
【数6】
間の当量関係を示す。
仮に
【数7】
とすると、カメラの姿勢行列を示し、式中、
【数8】
は、それぞれ、参照座標系(CS)におけるカメラの向き及び位置を示す。カメラの外部行列は、
【数9】
によって定義されており、
【数10】
の場合、それぞれ、カメラCS及び参照CS内の同じ点の座標を示し、次いで、
【数11】
を示す。これは、
図4を検討することによって更に理解することができる。
図4では、カメラ座標系(410)が、並進行列(420)中の並進行列を使用して示される。
【0041】
所与のカメラ及び現在の視点の場合、#cをその指数とする。
【数12】
を現在の画素とし、zをその推定深度とする。参照視点#c’における対応する一致は、
【数13】
である。
これらのパラメータ及び式(1)の場合、カメラごとに送信しながら空間内の1つの点について異なる視点の対応する画素位置を計算することが可能である。
- 行列K(固有パラメータ)
- 行列R及びT(回転行列及び並進行列)
K
-1及びR
-1は、式(1)を実施するためにデコーダ側で計算されるべきである。これは最先端の状態であり、K、R、及びTは、SEIメッセージとして送信されるデータである(当業者には既知であるように、HEVC規格のG.14.2.6セクションに記載されている)。
実施形態1a:2×2のカメラパラメータ、データの科学的表現
【0042】
別の視点上への1つの画素の投影を事前に計算するために、固有及び外部行列を送信する代わりに、2つのカメラの各グループを、式(1)に対応する行列の必要な積を送信することが可能である。Pを、P=(R T)に置き換え、Qを、Q=(R^(-1)-R^(-1).T)に置き換える。
【数14】
方程式の右側の計算
【数15】
【0043】
次いで、最終的に、エラー!参照元が見つかりません。と記述される。
【数16】
ストレージに関しては、2×2カメラパラメータのアプローチは、したがってカメラペア当たり3×3行列A_cc’及び3×1ベクトルB_cc’のみを必要とする。
【数17】
式中、
【数18】
【0044】
理論的には、カメラペアの任意の組み合わせを送信することができ、これはn台のカメラに対してn2組の情報を意味する。それにもかかわらず、一実施形態では、全ての組み合わせにおいて(既に復号化された視点を使用して)復号化される視点の予測は必要とされない。符号化された視点間の通常の依存関係に従って、所与の数のカメラペアのみが必要である。送信されるペアの数は、n2「台のカメラペア」の代わりに2*n順である可能性が高い。
【0045】
図9は、2×2のカメラパラメータの例を有する、一実施形態によるテーブル(テーブル2)を提供する。このテーブルは、科学的表現の計算及び数字を提供する。また、先に述べたように式(2)は、これらの同次座標を得るために、zによって暗黙の除算が必要であることに留意されたい。デコーダ側で行われる計算を簡素化するために、この除算は、所与のビット数のシフトによって近似することができる(所与の丸めエラーを導入する)。この例では、a/zは、a/(floor(log2(z)))によって置き換えられる。
実施形態1b:2×2のカメラパラメータ、データの固定小数点表現
【0046】
図10のテーブル(テーブル3)にも示されるこの実施形態では、科学的表現におけるAcc’及びBcc’行列の両方の任意の値を表す代わりに、そのような情報を固定小数点表現で提示することが可能である。このように、このテーブルに現れるコンポーネントは、このテーブルで提供されるエントリを示すように修正される。しかしながら、本文書の残りについて、残りの実施形態のうちのいずれかについて、パラメータが科学的表記法で記載されている場合、これらのパラメータの各々の固定小数点表現の仕様を検討することが可能であることに留意されたい。その後、同じパラメータを固定小数点表現で扱う同様の実施形態が提案される可能性がある。
光学的歪みを提示する多視点コンテンツ。
【0047】
先の記載は、光学系によってもたらされる歪みを除去するために、カメラからの元のコンテンツが修正されていることを意味する歪んでないコンテンツに基づいていた。ここで、この歪みを補正することなく、コンテンツを考慮する。ピンホールモデルは、実際の光学系で生じる幾何学的歪みのために、正確な対応を提供することができない。まず、
【数19】
は、固有行列の最初の2行を示すものとする。また、
【数20】
は、逆固有行列の最初の2行を示すものとする。
【数21】
を、所与のカメラの3D点のCSとする。対応する同次ベクトル
【数22】
を考慮する
【0048】
光学的歪みを考慮に入れると、画像投影方程式は以下のようになる。
【数23】
【数24】
は、歪みによって誘発された前方ワーピング演算子を示す。Wは、通常、多項式であり、したがって、浮動小数点形式の一組の係数によって定義される。
{a
k}
k≦N
文献には、様々な歪みモデルが存在する。例えば、Zhangは、半径方向の歪みの最初の2項のみを考慮する(Z.Zhang、「A flexible new technique for camera calibration」、IEEE Trans.Pattern Analysis & Machine Intelligence,vol.22,no.11,pp.1330~1334,Nov.2000):
【数25】
式中、
【数26】
は、投影の半径を示す。
一方、彼の有名なMatlabツールボックス(http://www.vision.caltech.edu/bouguetj/calib_doc/)では、Bouguetは、接線歪みと高次の半径方向の歪みも考慮した、より高性能の5係数モデルを使用している。
【数27】
式中、
【数28】
そのような多項式モデルを反転させることは、有理分数をもたらし、これは、無意味な計算の複雑さを誘発するであろう。歪みがない
1ワーピングを同じ次数の多項式で近似することは、非常に簡単である。
1「歪みがない」という表現は、「逆歪み」という意味で、歪んだ光線(光学系の画像センサに到達する)から物体全体の歪んでいない光線に戻るワーピングに対応する。
【0049】
現在、歪んだコンテンツに対するいくつかの実施形態をここで探索することができる。最初の1つは、多項式計算を必要とするが、メタデータを最もコンパクトな形態に制限する。その後、ループ性能を改善するが、歪みがないワープマップを事前に計算する必要がある。
実施形態2:多項式演算を特徴とする歪みパラメータ
【0050】
本実施形態では、既に適用されたモデルに基づいて、歪みによって記載されるパラメータの数は変化し得る。送信する第1の情報は、(既知のモデルのリストの中で)適用されるモデルである。パラメータの数は、モデルから推測される。歪み情報及び歪みがない情報の両方は、復号化側での歪みがない係数を計算することを回避するために送られる。シンタックスの観点では、そのような情報の送信は、
図11(テーブル4)に反映される。
実施形態3:2×2のカメラパラメータ表現と組み合わせた多項式計算を特徴とする歪みパラメータ
【0051】
歪み式(1)を考慮するとき、以下のようになる。
【数29】
式中、
【数30】
そして、回転行列及び並進ベクトルに戻る。
【数31】
これは、以下のように再公式化することができる。
【数32】
式中、
【数33】
また、歪みがあるため、単一の線形代数演算として計算することができない点にも留意されたい。加えて、本実施形態は、カメラ2台当たり、3×3行列
【数34】
及び3×1ベクトル
【数35】
に加えて、カメラ1台当たり、2つの多項式W
c並びに
【数36】
及び2つの2×3行列
【数37】
並びに
【数38】
のストレージを必要とする。
【0052】
これは、
図12に示されており、テーブル5(実施形態3、2×2のカメラペアパラメータと組み合わせた歪みパラメータ、科学的表現)を参照する。
実施形態4:2×2のカメラパラメータ表現と組み合わせた歪みがないワープマップを使用する歪んだコンテンツ
【0053】
図5は、歪んだコンテンツ及び関連する歪んだマッピングの図である。以前の方程式セットでは、多項式計算
【数39】
は、歪みがないワープマップ
【数40】
を使用することによって回避することができ、
【数41】
は、
【数42】
によって定義される。
式(5)は、以下のようになる。
【数43】
又は等価に、
【数44】
これは、以下のように再公式化することができる。
【数45】
式中、
【数46】
【0054】
ストレージに関しては、本実施形態は、カメラ2台当たり、3×3行列
【数47】
及び3×1ベクトル
【数48】
に加えて、カメラ1台当たり、1つの多項式W
c、1つの歪みがないマップ
【数49】
及び1つの2×3行列
【数50】
(2つの多項式並びに2つの2×3行列の代わりに)を必要とする。
【0055】
また、歪みがないワープマップの事前計算により、多項式計算の半分を節約することができることに留意されたい。ワープマップは、入力画像よりも低い解像度を提示し得る。その場合、ワープされた位置は、事前に計算されたノードから補間される。サブサンプル処理係数は、送信する情報量を低減するために、水平方向及び垂直方向の両方に適用することができる。これは、テーブル6で参照されるように、
図13に更に示されている。
【0056】
別の実施形態では、アンワープマップのサブサンプル処理係数を定義する代わりに(サブサンプル処理係数X及びサブサンプル処理係数Y)、歪みがないマップの水平及び垂直のサイズが直接送信される。
図13のテーブル6は、テーブル7として参照されるように、
図14に示されるように修正される。同様の実施形態は、サブサンプル処理係数をマップのサイズ(歪みがないマップ及び歪みマップの両方について)に置き換えることによって、実施形態5について提案することができることにも留意されたい。
実施形態5:2×2のカメラパラメータ表現と組み合わせた歪みワープマップ及び歪みがないワープマップを使用する歪んだコンテンツ
また、ワープマップは、
【数51】
を定義することによって、残りの多項式計算を回避するために使用することができる。
【数52】
は、以下のとおりである。
【数53】
この場合、式(4)は、以下のようになる。
【数54】
式中、
【数55】
又は等価に、
【数56】
これは、以下のように再公式化することができる。
【数57】
式中、
【数58】
送信に関しては、本実施形態は、カメラ2台当たり、3×3行列
【数59】
及び1×3ベクトル
【数60】
に加えて、カメラ1台当たり、2つのワープマップ
【数61】
を必要とする。これは、
図15、テーブル8で捕捉される。
【0057】
図7は、一実施形態のフローチャート図である。
図7では、ステップ700において、少なくとも1つのカメラによって捕捉されたコンテンツの周りのプロセッサなどから、情報が受信される。複数のカメラが使用され、コンテンツが複数の画像又は複数の角度からの同じ画像を含むことが可能である。受信された情報は、一実施形態では、710に示されるようなコンテンツの歪んでいない、及び歪んだレンダリングのためのカメラパラメータを含む。次いで、ステップ720において、行列がカメラのために計算される。ステップ730では、歪んだコンテンツに対処するために歪みパラメータが取得される。ステップ740では、歪みパラメータを含むカメラペアの行列に対して計算が行われる。ステップ750では、歪み補償の計算を簡素化するためにワープマップが計算され、次いで、ステップ760で最終画像がレンダリングされる。
【手続補正書】
【提出日】2022-05-30
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
方法であって、
少なくとも一対のカメラによって少なくとも捕捉されたコンテンツ画像に関する情報を受信することであって、
前記コンテンツ画像が、歪んだコンテンツ及び歪んでいないコンテンツの両方を含む画像の多視点表現を含む、受信することと、
カメラパラメータ及び画像パラメータのうちの少なくとも1つを取得することと、
前記少なくとも1つの画像を使用して、前記多視点表現内のどのコンテンツが歪んでおらず、どのコンテンツが歪んでいるかを示すカメラパラメータ歪み情報を取得することと、
前記歪み情報を使用して、前記画像の深度マップを計算することと、
前記歪み情報及び前記深度マップを使用する最終立体画像をレンダリングすることと、を含む、方法。
【請求項2】
前記パラメータが、前記カメラペアのための行列を提供するために使用される、請求項1に記載の方法。
【請求項3】
前記歪み情報が、歪んだコンテンツを取得するために提供される、請求項1又は2に記載の方法。
【請求項4】
前記歪み情報が、歪んだコンテンツのアドレスを取得するために提供される、請求項3に記載の方法。
【請求項5】
前記カメラペアのための行列が、歪みパラメータを含む、請求項1又は2に記載の方法。
【請求項6】
前記歪み情報が、歪み補償値を提供して、ワープマップを計算するために使用される、請求項5に記載の方法。
【請求項7】
前記カメラペアと関連付けられた前記行列が、ワープマップを決定するために使用される、請求項5に記載の方法。
【請求項8】
前記ワープマップが、動きベクトルの精密化として更に定義される、請求項7に記載の方法。
【請求項9】
前記ワープマップが、予測モード(mvd)と関連付けられている、請求項8に記載の方法。
【請求項10】
装置であって、
1つ以上のプロセッサであって、
少なくとも一対のカメラによって少なくとも捕捉されたコンテンツ画像に関する情報を受信することであって、前記コンテンツ画像が、歪んだ領域及び歪んでいない領域の両方を含む画像の多視点表現を含む、受信することと、
カメラパラメータ及び画像パラメータのうちの少なくとも1つを取得することと、
前記少なくとも1つの画像を使用して、前記多視点表現内のどのコンテンツが歪んでおらず、どのコンテンツが歪んでいるかを示すカメラパラメータ歪み情報を取得することと、前記歪み情報を使用して、前記画像の深度マップを提供することと、
前記歪んだ領域及び歪んでいない領域並びに深度マップの計算を使用する最終立体画像をレンダリングすることと、を行うために構成されている、1つ以上のプロセッサを備える、装置。
【請求項11】
前記パラメータが、前記カメラペアのための行列を提供するために使用される、請求項10に記載の装置。
【請求項12】
前記歪み情報が、歪んだコンテンツを取得するために提供される、請求項10又は11に記載の装置。
【請求項13】
前記歪み情報が、歪んだコンテンツのアドレスを取得するために提供される、請求項12に記載の装置。
【請求項14】
前記カメラペアのための行列が、歪みパラメータも含む、請求項10又は11に記載の装置。
【請求項15】
前記歪み情報が、歪み補償値を提供して、ワープマップを計算するために使用される、請求項14に記載の装置。
【請求項16】
前記カメラペアと関連付けられた前記行列が、ワープマップを決定するために使用される、請求項14に記載の装置。
【請求項17】
前記ワープマップが、動きベクトルの精密化として更に定義される、請求項16に記載の装置。
【請求項18】
前記ワープマップが、予測モード(mvd)と関連付けられている、請求項17に記載の装置。
【請求項19】
プロセッサに、請求項1~10のいずれか一項に記載の方法を実施させるための命令を内部に記憶している、非一時的なプロセッサ可読媒体。
【請求項20】
請求項1~10のいずれか一項に記載の方法に従って実行するためのプログラムコードの命令を運ぶ、非一時的な記憶媒体。
【国際調査報告】