IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コーニンクレッカ フィリップス エヌ ヴェの特許一覧

特許7527351シーンの画像キャプチャの品質を評価するための装置及び方法
<>
  • 特許-シーンの画像キャプチャの品質を評価するための装置及び方法 図1
  • 特許-シーンの画像キャプチャの品質を評価するための装置及び方法 図2
  • 特許-シーンの画像キャプチャの品質を評価するための装置及び方法 図3
  • 特許-シーンの画像キャプチャの品質を評価するための装置及び方法 図4
  • 特許-シーンの画像キャプチャの品質を評価するための装置及び方法 図5
  • 特許-シーンの画像キャプチャの品質を評価するための装置及び方法 図6
  • 特許-シーンの画像キャプチャの品質を評価するための装置及び方法 図7
  • 特許-シーンの画像キャプチャの品質を評価するための装置及び方法 図8
  • 特許-シーンの画像キャプチャの品質を評価するための装置及び方法 図9
  • 特許-シーンの画像キャプチャの品質を評価するための装置及び方法 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-25
(45)【発行日】2024-08-02
(54)【発明の名称】シーンの画像キャプチャの品質を評価するための装置及び方法
(51)【国際特許分類】
   H04N 17/00 20060101AFI20240726BHJP
   G06T 15/20 20110101ALI20240726BHJP
   G06T 19/00 20110101ALI20240726BHJP
   G06T 7/00 20170101ALI20240726BHJP
【FI】
H04N17/00 200
G06T15/20 500
G06T19/00 A
G06T7/00 Q
【請求項の数】 20
(21)【出願番号】P 2022516051
(86)(22)【出願日】2020-09-08
(65)【公表番号】
(43)【公表日】2022-11-22
(86)【国際出願番号】 EP2020075045
(87)【国際公開番号】W WO2021048107
(87)【国際公開日】2021-03-18
【審査請求日】2023-09-07
(31)【優先権主張番号】19196992.2
(32)【優先日】2019-09-12
(33)【優先権主張国・地域又は機関】EP
【早期審査対象出願】
(73)【特許権者】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
【氏名又は名称原語表記】Koninklijke Philips N.V.
【住所又は居所原語表記】High Tech Campus 52, 5656 AG Eindhoven,Netherlands
(74)【代理人】
【識別番号】110001690
【氏名又は名称】弁理士法人M&Sパートナーズ
(72)【発明者】
【氏名】ヴァーエカンプ クリスティアン
【審査官】公文代 康祐
(56)【参考文献】
【文献】特許第6407460(JP,B1)
【文献】特表2013-535898(JP,A)
【文献】特表2016-513384(JP,A)
【文献】Daniel Scharstein, Richard Szeliski, and Ramin Zabih,"A Taxonomy and Evaluation of Dense Two-Frame Stereo Correspondence Algorithms",Proceedings of the IEEE Workshop on Stereo and Multi-Baseline Vision (SMBV 2001),米国,IEEE,2001年,p. 131-140
(58)【調査した分野】(Int.Cl.,DB名)
H04N 13/00-17/06
G06T 1/00- 1/60
G06T 7/00- 7/90
G06T 11/00-19/20
(57)【特許請求の範囲】
【請求項1】
シーンのモデルを格納するメモリ回路と、
カメラ構成の複数のカメラポーズに対する仮想キャプチャ画像を生成し、
前記モデルに基づいて前記カメラポーズに対する画像をレンダリングすることによって、前記仮想キャプチャ画像を生成する、
キャプチャ回路と、
前記モデルから前記仮想キャプチャ画像のモデル深度データを生成する深度生成回路と、
第1の処理を実行する第1の合成回路であって、
前記第1の処理は、前記シーンの領域内の複数の試験ポーズに対する第1のビュー画像を生成するように、前記モデル深度データに基づいて前記仮想キャプチャ画像を処理する、
第1の合成回路と、
前記仮想キャプチャ画像に基づいて前記仮想キャプチャ画像に対する推定深度データを生成する深度推定回路と、
第2の処理を実行する第2の合成回路であって、
前記第2の処理は、前記複数の試験ポーズに対する第2のビュー画像を生成するように、前記推定深度データに基づいて前記仮想キャプチャ画像を処理する、
第2の合成回路と、
前記モデルに基づいて前記複数の試験ポーズに対する画像をレンダリングすることによって、前記複数の試験ポーズに対する参照画像を生成する参照回路と、
前記カメラ構成、前記第1の処理、及び前記第2の処理のうちの少なくとも1つに対する品質メトリックを生成する品質回路であって、
前記品質メトリックの生成に際しては、前記第1のビュー画像、前記第2のビュー画像、及び前記参照画像の比較を用いる、
品質回路と
を備える、装置。
【請求項2】
前記第1の処理及び前記第2の処理のうちの少なくとも1つは、前記仮想キャプチャ画像の第1の仮想キャプチャ画像に対する深度マップモデルを生成することを含み、
前記第1の処理及び前記第2の処理のうちの少なくとも1つは、前記深度マップモデルを使用して、前記複数の試験ポーズのうちの試験ポーズに、前記第1の仮想キャプチャ画像をビューシフトすることを含む、請求項1に記載の装置。
【請求項3】
前記第1の処理及び前記第2の処理のうちの少なくとも1つは、少なくとも1つの深度モデルを使用して3Dポイントのセットを決定することを含み、
前記深度モデルは、前記仮想キャプチャ画像から決定され、
前記第1の処理及び前記第2の処理のうちの少なくとも1つは、前記仮想キャプチャ画像のうちの少なくとも1つの仮想キャプチャ画像を使用して、各3Dポイントの色を決定することを含み、
前記第1の処理及び前記第2の処理のうちの少なくとも1つは、前記3Dポイントの投影に基づいて、前記複数の試験ポーズのうちの試験ポーズのための新しい画像を合成することを含む、請求項1に記載の装置。
【請求項4】
前記品質メトリックは、前記第1のビュー画像に対する第1の品質メトリック、及び前記第2のビュー画像に対する第2の品質メトリックを含む、請求項1に記載の装置。
【請求項5】
前記品質回路は、複数のカメラ構成に対する品質メトリックを決定し、
前記品質回路は、前記第1の品質メトリック及び前記第2の品質メトリックの両方に応じて、前記複数のカメラ構成の中から選択する、請求項4に記載の装置。
【請求項6】
前記品質回路は、前記第1の品質メトリックが第1の基準を満たしていること、前記第2の品質メトリックが第2の基準を満たしていること、及び、前記第1の品質メトリックと前記第2の品質メトリックとの差分測定値が、第3の基準を満たしていることの少なくとも1つに応じて、前記複数のカメラ構成の中から、カメラ構成を選択する、請求項5に記載の装置。
【請求項7】
前記品質回路は、各第2のビュー画像に対する信号対雑音測定値を生成し、
前記品質回路は、前記第2のビュー画像に対する前記信号対雑音測定値に応じて前記品質メトリックを生成する、請求項1に記載の装置。
【請求項8】
前記第1の合成回路及び前記第2の合成回路のうちの少なくとも1つの処理は、エンコード及びデコードされた仮想キャプチャ画像に基づいた画像合成の前に、前記仮想キャプチャ画像のエンコード及びデコードを行うことを含む、請求項1に記載の装置。
【請求項9】
前記第1の処理及び前記第2の処理のうちの少なくとも1つは、前記モデル深度データ及び前記推定深度データのうちの少なくとも一方に基づいた画像合成の前に、前記仮想キャプチャ画像に関連付けられた前記モデル深度データ及び前記推定深度データのうちの少なくとも一方のエンコード及びデコードを行うことを含む、請求項1に記載の装置。
【請求項10】
前記エンコードを行うことは、不可逆的エンコードを行うことを有する、請求項8に記載の装置。
【請求項11】
少なくともいくつかのカメラポーズは、前記複数の試験ポーズのうちの少なくとも一つと同じである、請求項1に記載の装置。
【請求項12】
前記カメラポーズよりも10倍以上多い試験ポーズが存在する、請求項1に記載の装置。
【請求項13】
カメラ位置は、1次元配置を形成し、
試験位置は、2次元又は3次元配置を形成する、請求項1に記載の装置。
【請求項14】
画像キャプチャの品質を評価する方法であって、前記方法は、
シーンのモデルを格納するステップと、
前記モデルに基づいてカメラポーズに対する画像をレンダリングすることによって、カメラ構成の複数の前記カメラポーズに対する仮想キャプチャ画像を生成するステップと、
前記モデルから前記仮想キャプチャ画像に対するモデル深度データを生成するステップと、
前記モデル深度データに基づいて前記仮想キャプチャ画像を処理して、前記シーンの領域内の複数の試験ポーズに対する第1のビュー画像を生成するステップと、
前記仮想キャプチャ画像に基づいて、前記仮想キャプチャ画像に対する推定深度データを生成するステップと、
前記推定深度データに基づいて前記仮想キャプチャ画像を処理して、前記複数の試験ポーズに対する第2のビュー画像を生成するステップと、
前記モデルに基づいて前記複数の試験ポーズに対する画像をレンダリングすることによって、前記複数の試験ポーズに対する参照画像を生成するステップと、
前記カメラ構成、前記第1のビュー画像を生成する処理、及び前記第2のビュー画像を生成する処理のうちの少なくとも1つに対する品質メトリックを生成するステップであって、前記品質メトリックを生成する処理は、前記第1のビュー画像、前記第2のビュー画像、及び前記参照画像の比較を使用する、品質メトリックを生成するステップと
を有する、方法。
【請求項15】
非一時的媒体に格納されたコンピュータプログラムであって、プロセッサ上で実行されると、請求項14に記載の方法を実行する、コンピュータプログラム。
【請求項16】
第1の合成回路による処理及び第2の合成回路による処理のうちの少なくとも1つは、前記仮想キャプチャ画像の第1の仮想キャプチャ画像に対する深度マップモデルを生成することを含み、
前記第1の合成回路による処理及び前記第2の合成回路による処理のうちの少なくとも1つは、前記深度マップモデルを使用して、前記複数の試験ポーズのうちの試験ポーズに、前記第1の仮想キャプチャ画像をビューシフトすることを含む、請求項14に記載の方法。
【請求項17】
第1の合成回路による処理及び第2の合成回路による処理のうちの少なくとも1つは、少なくとも1つの深度モデルを使用して3Dポイントのセットを決定することを含み、
前記深度モデルは、前記仮想キャプチャ画像から決定され、
前記第1の合成回路による処理及び前記第2の合成回路による処理のうちの少なくとも1つは、前記仮想キャプチャ画像のうちの少なくとも1つの仮想キャプチャ画像を使用して、各3Dポイントの色を決定することを含み、
前記第1の合成回路による処理及び前記第2の合成回路による処理のうちの少なくとも1つは、前記3Dポイントの投影に基づいて、前記複数の試験ポーズのうちの試験ポーズのための新しい画像を合成することを含む、請求項14に記載の方法。
【請求項18】
前記品質メトリックは、前記第1のビュー画像に対する第1の品質メトリック、及び前記第2のビュー画像に対する第2の品質メトリックを含む、請求項14に記載の方法。
【請求項19】
複数のカメラ構成に対する品質メトリックを決定するステップと、
前記第1の品質メトリック及び前記第2の品質メトリックの両方に応じて、前記複数のカメラ構成の中から選択するステップとをさらに有する、請求項18に記載の方法。
【請求項20】
前記第1の品質メトリックが第1の基準を満たしていること、前記第2の品質メトリックが第2の基準を満たしていること、及び、前記第1の品質メトリックと前記第2の品質メトリックとの差分測定値が、第3の基準を満たしていることの少なくとも1つに応じて、前記複数のカメラ構成の中から、カメラ構成を選択するステップをさらに有する、請求項19に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、具体的には、仮想現実レンダリングのための現実のイベントのビデオキャプチャのためのように、複数のカメラによるシーンの画像キャプチャのための品質を評価するための装置及び方法に関する。
【背景技術】
【0002】
画像及びビデオアプリケーションの多様性及び範囲は、画像及びビデオの新しいサービスと、利用及び消費の手法とが継続的に開発及び導入されていることにより、近年大幅に増加している。
【0003】
例えば、ますます人気が高まっている1つのサービスは、視覚者がシステムとアクティブかつ動的に対話して、レンダリングのパラメータを変更できるように、画像シーケンスを提供することである。多くのアプリケーションで非常に魅力的な特徴は、例えば、視覚者が、提示されているシーン内を移動して「見回す」ことができるようにするなど、視覚者の有効なビュー位置及びビュー方向を変更する能力である。
【0004】
そのような特徴により、具体的に、仮想現実体感をユーザに提供できるようになる。これにより、ユーザは、例えば、仮想環境内を(比較的)自由に動き回り、自分の位置と、見ている場所とを動的に変更できるようになる。通常、そのようなバーチャルリアリティアプリケーションは、シーンの3次元モデルに基づいており、モデルは動的に評価されて、特定の要求されたビューを提供する。このアプローチは、例えば、一人称シューティングゲームのカテゴリなど、コンピュータやコンソール向けのゲームアプリケーションからよく知られている。
【0005】
多くの関心を集めている別のアプリケーションは、現実世界シーン、多くの場合、リアルタイムのイベントのビューの提供であり、小さな頭の動きや回転などの小さな視覚者の動きを可能にする。例えば、視覚者の小さな頭の動きに続いて、ローカルクライアントベースのビューの生成を可能にする例えばスポーツイベントのリアルタイムビデオブロードキャストは、スポーツイベントを見ているスタンドに座っているユーザの印象を与える。ユーザは、例えば、周りを見回すことができ、観客がスタンドのその位置にいるのと同じような自然な体感を得る。
【0006】
そのようなサービスを現実世界シーンに提供するためには、異なる位置からシーンをキャプチャする必要があるため、異なるカメラキャプチャポーズが使用される。しかしながら、これには、複数のカメラを同時に使用することを多く含み、複雑で費用のかかるキャプチャ処理が必要になる傾向がある。したがって、キャプチャ処理に必要な複雑さ及びリソースを最小限に抑えることが望ましい。しかしながら、多くの場合、所望されるパフォーマンスが得られる最小のキャプチャセットアップを決定することは非常に困難であり、実際の環境で物理的に実施及び試験されるためには、様々なキャプチャ構成が必要になることがよくある。
【0007】
最近、現実世界シーンの3Dキャプチャに基づくアプリケーションをサポートする位置追跡及び3Dインタラクションを備えたディスプレイデバイスの普及が進んでいる。結果として、マルチカメラキャプチャと、例えば6DoF(6自由度)処理との関連性及び重要性が急速に増加している。アプリケーションは、ライブコンサート、ライブスポーツ、テレプレゼンスを含む。自分の視点を自由に選択できるため、通常のビデオよりも存在感が増し、これらアプリケーションが充実する。さらに、観察者がライブでキャプチャされたシーンをナビゲートして対話できる没入型シナリオを考えることができる。ブロードキャストアプリケーションの場合、これには、製作側でのリアルタイムの深度推定と、クライアントデバイスでのリアルタイムのビュー合成とが必要になる。深度推定とビュー合成との両方がエラーをもたらし、これらエラーは、アルゴリズムの実施の詳細に依存する。さらに、最適なカメラ構成は、目的のアプリケーションと、キャプチャされるシーンの3D構造とに依存する。
【0008】
6DoFビデオキャプチャ/作成と圧縮との競合方法は、多くの場合、視覚的に比較され、圧縮の場合は定量的にも比較される。しかしながら、品質は、多くの場合、カメラセンサのタイプ、それらの空間構成(例えば、間隔など)、及びカメラパラメータによって決定される。そのようなキャプチャ構成の比較は、高価な機器と労働集約的なセットアップの作成とを伴うため、多くの場合、コストがかかる。
【0009】
例えば、ライブの6DoFビデオを製作するには、複数のカメラによるビデオキャプチャ、リアルタイム深度推定、圧縮、ストリーミング、及び再生が必要であり、進行中に正しい選択を行うために、システムパラメータ(例えば、カメラの数及びカメラ間の距離)の影響を事前に予測できることが望まれ、深度推定アルゴリズム又は他の処理が、画質に影響する。
【0010】
その結果、様々なキャプチャ構成及び処理を評価できるようにすることがますます求められるが、これは本質的に難しい処理であり、トライアルイベント及びシーンをキャプチャするために、通常、実験的なセットアップを作成し、これらセットアップを使用して評価することによって実行される。
【発明の概要】
【発明が解決しようとする課題】
【0011】
したがって、キャプチャ/カメラ構成及び/又は関連付けられた処理の品質を評価するために改善されたアプローチが望ましい。特に、操作の改善、柔軟性の向上、実施の容易さ、操作の容易さ、評価の容易さ、コストの削減、複雑さの軽減、及び/又はパフォーマンスの向上を可能にするアプローチが有利であろう。
【0012】
したがって、本発明は、好ましくは、上記の不利な点の1つ又は複数を単独で又は任意の組合せで緩和、軽減、又は排除しようとする。
【課題を解決するための手段】
【0013】
本発明の態様によれば、画像キャプチャの品質を評価するための装置が提供され、この装置は、シーンのモデルを格納するためのストアと、カメラ構成の複数のカメラポーズに対する仮想キャプチャ画像を生成するためのキャプチャ回路であって、モデルに基づいてカメラポーズに対する画像をレンダリングすることによって、仮想キャプチャ画像を生成するように構成された、キャプチャ回路と、モデルから仮想キャプチャ画像のモデル深度データを生成するための深度生成回路と、モデル深度データに基づいて仮想キャプチャ画像を処理して、シーンの領域内の複数の試験ポーズに対する第1のビュー画像を生成するための第1の合成回路と、仮想キャプチャ画像に基づいて、仮想キャプチャ画像に対する推定深度データを生成するための深度推定回路と、推定深度データに基づいて仮想キャプチャ画像を処理して、複数の試験ポーズに対する第2のビュー画像を生成するための第2の合成回路と、モデルに基づいて複数の試験ポーズに対する画像をレンダリングすることによって、複数の試験ポーズの参照画像を生成するための参照回路と、第1のビュー画像、第2のビュー画像、及び参照画像の比較に応じて、カメラ構成、第1のビュー画像を生成する処理、及び第2のビュー画像を生成する処理のうちの少なくとも1つに対する品質メトリックを生成するための品質回路とを備える。
【0014】
本発明は、カメラ構成及び/又は関連付けられた処理の品質を評価するための有利なアプローチを提供する。例えば、キャプチャシステムを実施及び試験する必要なしに、異なるカメラ構成及び/又は関連付けられた処理を評価及び/又は比較するために特に有利である。このアプローチは、実施される前に、特定のアプリケーションに対する異なるキャプチャアプローチを評価できる。したがって、設計上の決定及びキャプチャパラメータは、実行された分析に基づいて評価及び選択される。
【0015】
キャプチャ画像を考慮せずに直接レンダリングによって生成された試験ポーズのための両画像、モデルから生成された深度データに基づいて生成されたビュー画像、及び推定深度データに基づいて生成されたビュー画像を考慮することは、特に有利な情報を提供する。例えば、深度推定を改善することによって(カメラ構成により多くのカメラポーズを追加するか、又は深度モードを改善することによって)軽減できるエラー及びアーティファクトと、深度推定を改善しても改善できないエラー及びアーティファクトとを区別できる。
【0016】
このアプローチは、試験ポーズのビュー画像のキャプチャから合成までの処理経路全体の正確な評価を提供し、それによって、結果的に得られる、達成可能な品質の、より正確な評価を提供する。
【0017】
第1の合成回路及び第2の合成回路の処理は、具体的には、エンコード及びデコードを含む、分配経路のいくつか又はすべての処理ブロックを含む。
【0018】
いくつかの実施形態では、装置は、複数の異なるカメラ構成の品質メトリックを生成し、品質メトリックに応じて、複数の異なるカメラ構成からカメラ構成を選択するように構成される。
【0019】
ポーズは、位置及び/又は方位である。
【0020】
本発明の任意選択の特徴によれば、第1の合成回路及び第2の合成回路による処理のうちの少なくとも1つの処理は、仮想キャプチャ画像の第1の仮想キャプチャ画像に対する深度マップモデルを生成し、深度マップモデルを使用して、複数の試験ポーズのうちの試験ポーズに、第1の仮想キャプチャ画像をビューシフトすることを有する。
【0021】
このアプローチは、ビュー合成のために、深度マップを使用して、キャプチャ及びレンダリングシステムの特に有利な評価を提供する。
【0022】
本発明の任意選択の特徴によれば、第1の合成回路及び第2の合成回路による処理のうちの少なくとも1つの処理は、仮想キャプチャ画像から決定された少なくとも1つの深度モデルを使用して3Dポイントのセットを決定することと、仮想キャプチャ画像のうちの少なくとも1つの仮想キャプチャ画像を使用して、各3Dポイントの色を決定することと、3Dポイントの投影に基づいて、複数の試験ポーズのうちの試験ポーズのための新しい画像を合成することとを有する。
【0023】
アプローチは、ビュー合成に3Dポイント深度表現を使用して、キャプチャ及びレンダリングシステムの特に有利な評価を提供する。
【0024】
本発明の任意選択の特徴によれば、品質回路は、第1のビュー画像の第1の品質メトリック、及び第2のビュー画像の第2の品質メトリックを有するように品質メトリックを決定するように構成される。
【0025】
これは、多くの実施形態において特に有利な評価を提供し、具体的には、深度推定から得られる効果と、非理想的な深度推定によって引き起こされない効果との間の区別を可能にする。
【0026】
本発明の任意選択の特徴によれば、品質回路は、複数のカメラ構成の品質メトリックを決定し、第1の品質メトリック及び第2の品質メトリックの両方に応じて、複数のカメラ構成から選択するように構成される。
【0027】
このアプローチは、異なるカメラ構成間の評価及び選択のために特に有利なアプローチを提供する。
【0028】
本発明の任意選択の特徴によれば、品質回路は、少なくとも、第1の品質メトリックが第1の基準を満たしていること、第2の品質メトリックが第2の基準を満たしていること、及び、第1の品質メトリックと第2の品質メトリックとの差分測定値が、第3の基準を満たしていることに応じて、複数のカメラ構成から、カメラ構成を選択するように構成される。
【0029】
これは、多くの実施形態において特に有利なパフォーマンスを提供する。
【0030】
本発明の任意選択の特徴によれば、品質回路は、各第2のビュー画像に対する信号対雑音測定値を生成し、第2のビュー画像に対する信号対雑音測定値に応じて品質メトリックを生成するように構成される。
【0031】
これは、品質メトリックを決定するための特に有利なアプローチを提供する。特に、信号対雑音測定値は、カメラ構成及び関連付けられた処理の影響を評価するために特に有利であることが認識されている。
【0032】
信号対雑音比は、具体的には、ピーク信号対雑音比である。
【0033】
いくつかの実施形態では、品質回路は、各第1のビュー画像に対する信号対雑音測定値を生成し、第1のビュー画像に対する信号対雑音測定値に応じて品質メトリックを生成するように構成される。
【0034】
他の実施形態では、例えばビデオマルチメソッド評価融合測定値など、信号対雑音測定値又はピーク信号対雑音測定値以外の測定値が使用される。
【0035】
本発明の任意選択の特徴によれば、第1の合成回路及び第2の合成回路のうちの少なくとも1つの処理は、エンコード及びデコードされた仮想キャプチャ画像に基づいた画像合成の前に、仮想キャプチャ画像のエンコード及びデコードを行うことを有する。
【0036】
このアプローチは、カメラ構成とエンコード/デコードアルゴリズムとの両方の効果を同時に考慮することを有する、特に有利な評価を提供する。
【0037】
エンコード及びデコードは、例えば、フレーム/ビデオのエンコード/デコードを有し、画像又は深度のダウンスケーリング、画像及び深度の単一のテクスチャ(画像)へのパッキング、ビットストリームのフォーマットなど、様々な演算を含む。
【0038】
本発明の任意選択の特徴によれば、第1の合成回路及び第2の合成回路の少なくとも1つの処理は、モデル深度データ及び推定深度データのうちの少なくとも一方に基づいた画像合成の前に、仮想キャプチャ画像に関連付けられた深度データ及び推定深度データのうちの少なくとも一方のエンコード及びデコードを行うことを有する。
【0039】
このアプローチは、カメラ構成とエンコード/デコードアルゴリズムとの両方の効果を同時に考慮することを有する、特に有利な評価を提供する。
【0040】
本発明の任意選択の特徴によれば、エンコードを行うことは、不可逆的エンコードを行うことを有する。
【0041】
本発明の任意選択の特徴によれば、少なくともいくつかのカメラポーズは、少なくともいくつかの試験ポーズと同じである。
【0042】
本発明の任意選択の特徴によれば、カメラポーズよりも10倍以上多い試験ポーズが存在する。
【0043】
本発明の任意選択の特徴によれば、カメラ位置は、1次元配置を形成する一方、試験位置は、2次元又は3次元配置を形成する。
【0044】
本発明の任意選択の特徴によれば、2つの試験位置間の最大距離は1メートル以下である。
【0045】
いくつかの実施形態では、2つの試験位置間の最大距離は10メートル以下である。
【0046】
いくつかの実施形態では、2つの試験位置間の最大距離は10メートル以上である。
【0047】
本発明の態様によれば、画像キャプチャの品質を評価する方法が提供され、この方法は、シーンのモデルを格納することと、モデルに基づいてカメラポーズに対する画像をレンダリングすることによって、カメラ構成の複数のカメラポーズに対する仮想キャプチャ画像を生成することと、モデルから仮想キャプチャ画像のモデル深度データを生成することと、モデル深度データに基づいて仮想キャプチャ画像を処理して、シーンの領域内の複数の試験ポーズに対する第1のビュー画像を生成することと、仮想キャプチャ画像に基づいて、仮想キャプチャ画像に対する推定深度データを生成することと、推定深度データに基づいて仮想キャプチャ画像を処理して、複数の試験ポーズに対する第2のビュー画像を生成することと、モデルに基づいて複数の試験ポーズに対する画像をレンダリングすることによって、複数の試験ポーズに対する参照画像を生成することと、第1のビュー画像、第2のビュー画像、及び参照画像の比較に応じて、カメラ構成、第1のビュー画像を生成する処理、及び第2のビュー画像を生成する処理のうちの少なくとも1つに対する品質メトリックを生成することとを有する。
【0048】
本発明のこれら及び他の態様、特徴及び利点は、以下に記載される実施形態から明らかであり、参照して解明される。
【0049】
本発明の実施形態は、例としてのみ、図面を参照して説明される。
【図面の簡単な説明】
【0050】
図1】複数のカメラによるシーンの画像キャプチャの品質を評価するための装置の要素の例を示す図である。
図2図1の装置の試験ポーズのビュー領域の例を示す図である。
図3図1の装置の第2の合成回路及び/又は第1の合成回路によってエミュレートされる処理機能の例を示す図である。
図4図1の装置の第2の合成回路及び/又は第1の合成回路によってエミュレートされる処理機能の例を示す図である。
図5】シーンをキャプチャ及びレンダリングするための実験的なセットアップの例を示す図である。
図6図1の装置によってキャプチャ画像を選択する例を示す図である。
図7図1の装置によって決定された品質測定値の例を示す図である。
図8図1の装置によって決定された品質測定値の例を示す図である。
図9図1の装置によって異なるカメラ構成に基づいて決定された深度マップの例を示す図である。
図10図1の装置によって生成されたビュー画像の詳細の例を示す図である。
【発明を実施するための形態】
【0051】
図1は、複数のカメラによるシーンの画像キャプチャの品質を評価するための装置の要素の例を示す。装置は、他の視点からの画像を合成するために、画像のキャプチャ及びこれらキャプチャ画像の処理のための品質メトリックを具体的に決定する。装置は、特定のカメラ構成及び/又はシーンのキャプチャ画像の処理に関するシーンのモデルの評価に基づいている。
【0052】
装置は、シーンのモデルを格納するモデルストア101を備える。シーンは、実際のシーンを表現する仮想シーンであるか、又は完全に人工的に作成されたシーンである。しかしながら、このアプローチの利点は、キャプチャカメラ構成及び処理が使用されるシーンに密接に対応するようにシーンが選択又は作成されることである。例えば、評価が実行されるシステムが、システム内のサッカーの試合をキャプチャするために使用されることを目的とされている場合、仮想シーンは、サッカースタジアムに対応するように選択される。別の例として、品質評価が、コンサートホールにおけるコンサートをキャプチャするアプリケーションに対するものである場合、このコンサートホールの仮想シーンが使用される。シナリオによっては、より一般的なシーンが考慮される。例えば、調査中のシステムが風景をキャプチャすることを目的とされている場合、一般的な典型的な仮想風景シーンがキャプチャされる。場合によっては、モデルが実際のシーンから生成され、したがって、モデルによって表現されるシーンは、仮想シーン又は実際のシーンである。
【0053】
シーンのモデルは、シーン/モデル内の位置のビュー画像及び深度を決定できる任意の3次元モデルである。通常、モデルは、3次元オブジェクト、オブジェクト特性(例えば、光学特性)、及び光源で表現される。別の例として、モデルは、関連付けられたテクスチャを有する複数のメッシュで構成される。アルベドなどの特性は、オブジェクトの表面に付随される。ビュー画像は、オブジェクトの透明度や多重散乱などの物理学を考慮した高度なレイトレーシング方法を使用してモデルから形成される。
【0054】
モデルに基づいて、装置は、以下に説明されるように、様々なアプローチを使用して、シーンの領域における複数の試験ポーズに対する画像を合成する。次に、異なるアプローチの結果が比較され、この比較に基づいて品質メトリックが決定される。
【0055】
この分野では、配置とポーズという用語は、位置及び/又は方向/方位の一般的な用語として使用される。例えば、オブジェクト、カメラ、ヘッド、又はビューの位置及び方向/方位の組合せは、ポーズ又は配置と称される。したがって、配置又はポーズの指標は、6つの値/成分/自由度を有し、各値/成分は、通常、対応するオブジェクトの位置/場所又は方位/方向の個々の特性を記述する。もちろん、多くの状況において、配置又はポーズは、例えば、1つ又は複数の成分が、固定された、又は無関係であると見なされる場合、より少ない成分で考慮又は表現される(例えば、すべてのオブジェクトが同じ高さで水平方位を有すると見なされる場合、4つの成分は、オブジェクトのポーズの完全な表現を提供する)。以下では、ポーズという用語は、1つから(可能な最大の自由度に対応する)6つの値で表現される位置及び/又は方位を指すために使用される。
【0056】
試験ポーズと、これらによってカバーされる領域とは、評価される特定のアプリケーション/システムに応じて選択される。多くの実施形態では、試験ポーズは、比較的小さな領域をカバーするように選択される。具体的には、多くの実施形態において、試験ポーズは、1メートル以下の任意の2つの試験ポーズ間の最大距離を有するように選択される。例えば、図2に示されるように、比較的多数の試験ポーズが、(およそ)0.5m×0.5mの領域内の規則的な水平グリッドとして選択される。図示される例では、試験ポーズの数は15×15(すなわち、225ポーズ)で、グリッド距離は3cmである。所望の精度と、計算の複雑さとの間の好ましいトレードオフに応じて、これより多い又は少ない試験ポーズが、異なる実施形態で使用されることが理解されよう。しかしながら、多くの実施形態では、適切な計算の複雑さに対して高い精度を提供するために、50、100、200、又は5000以上の試験ポーズを有することが有利である。
【0057】
小さな領域内で多数の試験ポーズを使用する例は、特に、キャプチャ画像を使用して、例えば、ユーザがシーン内で自由に動き回ることはできないが、わずかに動く、又は通常の位置から頭を回転させることができる、制限された動きの自由を視覚者に提供するアプリケーションに対して、非常に正確な結果を提供する。そのようなアプリケーションはますます人気があり、例えば、指定された位置からスポーツイベントを見るような、多くの望ましいアプリケーションを提供する。
【0058】
他の実施形態では、シーンは、より異なる位置から見られることが望ましく、例えば、ユーザがシーン内をさらに動き回ることができること、又はイベントを異なる位置から見ることができることが望ましい。そのような実施形態では、より広い面積/領域をカバーする試験ポーズが選択される。
【0059】
品質メトリックの決定は、キャプチャ/カメラ構成に基づき、すなわち、品質メトリックは、特定のカメラ構成に対して決定される。カメラ構成は、カメラがシーンの画像をキャプチャできる1つ又は通常は複数のカメラポーズを有する。したがって、カメラ構成のカメラポーズは、シーンのキャプチャのためのポーズを表現し、特定のカメラ構成がシーンをキャプチャするのにどれだけ適しているかを判定するために、評価及び品質メトリックが使用される。カメラ構成は、キャプチャ構成とも称される。
【0060】
したがって、モデル及びカメラ構成は、それに応じて、シーンをキャプチャするためのセットアップで使用される実際のシーン及びカメラポーズを表現できる。
【0061】
多くのアプリケーションでは、カメラ構成は、比較的少数のカメラを備えており、実際、カメラポーズの数は通常、15台、10台、又は5台以下のカメラである。
【0062】
したがって、通常、試験ポーズの数は、カメラポーズの数よりも大幅に多く、通常は10倍以上になる。これは、多くの場合、システムの品質メトリックの、正確、網羅的、かつ有利な決定を提供する。
【0063】
いくつかの実施形態では、多数のキャプチャカメラが考慮される。例えば、サッカースタジアムの場合、必要なフライアラウンドモーションのタイプによっては、カメラの数は簡単に数百に達する。しかしながら、そのような実施形態においてさえ、評価のために使用される、より多くの数の試験ポーズが(潜在的に実質的に)存在する。
【0064】
さらに、図2の例のように、キャプチャカメラのカメラポーズ/位置は(少なくともいくつかのカメラについて)、多くの場合、試験ポーズ/位置に一致する。これは、実用的なアプローチを提供し、例えば、計算の複雑さを軽減する。それに加えて、キャプチャポーズと試験ポーズとを一致させると、MSE=0とあり、PSNRが定義されていない(除算を含む)ため、アルゴリズムが正しく動作するという基本的な試験を提供する。
【0065】
多くの実施形態では、カメラ構成は、一次元配置を形成し、多くの場合、キャプチャカメラの線形配置に対応するカメラ位置を有する。これは、多くの場合、非常に実用的であり、多くの実用的なカメラリグは、線形配置で配置される。そのような実施形態では、試験ポーズの位置は、多くの場合、2次元又は3次元配置で配置される。したがって、試験ポーズは、横方向のビューシフトから生じる影響のみならず、他の方向へのシフトから生じる影響も反映し、それによって、より一般的なユーザの振舞いを反映する。
【0066】
具体例が図2に示される。ここでは、(試験ポーズの周囲のリングによって示されるように)6つのインラインカメラポーズが、225の試験ポーズのうちの6つと揃っている。試験ポーズはカメラポーズの周囲に配置されるため、公称の中央位置からの動きが品質にどのように影響するかを判定できる。
【0067】
モデルストア101は、モデルに基づいて試験ポーズに対する画像をレンダリングすることによって、複数の試験ポーズに対する参照画像を生成するように構成された参照回路103に結合される。
【0068】
参照回路103は、モデルを直接評価し、画像をレンダリングすることによって参照画像を生成するように構成される。したがって、参照画像のレンダリングは、キャプチャ画像やカメラ構成とは無関係である。レンダリングは、モデルと特定の試験ポーズに直接依存する。異なる実施形態では、異なるレンダリングアルゴリズムが使用されることが理解されよう。しかしながら、多くの実施形態では、参照画像のレンダリングは、格納されたモデルに基づくレイトレーシング技法による。
【0069】
具体的な例として、レンダリングは、写実的なゲームや映画コンテンツを作成するために開発されたUnity、Unreal、及びBlender(オープンソース)などの市販のパッケージを使用する。そのような高度なパッケージは、通常、写実的な画像を提供するのみならず、例えば深度のような、他のデータを出力することもできる。
【0070】
したがって、参照画像は、モデル及び試験ポーズのみに基づき、レンダリングは、仮定、又は潜在的に雑音の多い、又は歪んだ処理を必要としないため、通常は非常に高い精度で生成される。したがって、参照画像は、特定の試験ポーズからのビューの正確な表現を提供すると見なされる。
【0071】
モデルはさらに、カメラ構成のカメラポーズのための仮想キャプチャ画像を生成するように構成されたキャプチャ回路105に結合される。したがって、キャプチャ回路105は、カメラポーズからのビューを反映する仮想キャプチャ画像、したがって、それらのポーズに配置されたカメラによってキャプチャされる画像を、レンダリングする。
【0072】
キャプチャカメラは、場合によっては、例えば、広角魚眼レンズを備えることに留意されたい。そのようなカメラをレイトレーシングすると、広角画像と、視覚的歪みを伴う深度とが得られる。これにより、これら画像は、所与の人間の目が受け取る、より制限されたビューポートを予測する試験画像とは異なるようになる。
【0073】
仮想キャプチャ画像をレンダリングするために使用されるレンダリングアルゴリズムは、モデルに基づき、具体的には、試験ポーズに対する画像をレンダリングするために参照回路103によって使用されるものと同じアルゴリズムである。実際、カメラポーズがいくつかの試験ポーズと一致する例では、それらのポーズに対する参照画像と、カメラポーズに対する仮想カメラ画像との両方を生成するために、同じレンダリングが使用される。
【0074】
したがって、キャプチャ画像は、所与のモデル/シーンのカメラ構成のポーズにおいて、カメラによってキャプチャされる画像に対応する。
【0075】
モデルストア101はさらに、キャプチャ画像のモデル深度データを生成するように構成された深度生成回路107に結合される。モデル深度データは、モデルから生成され、キャプチャ画像又はそのコンテンツに基づかない。モデル深度データは、具体的に、キャプチャ画像の各ピクセルから、画像によって表現される最も近いオブジェクトまでのモデル内の距離を決定することによって構成される。したがって、モデル深度データは、モデルの幾何学的特性を評価することによって生成され、例えば、キャプチャ画像を生成するレイトレーシングアルゴリズムの一部として決定される。
【0076】
したがって、モデル深度データは、キャプチャ画像のコンテンツのモデルにおける実際の深度を表現し、したがって、グラウンドトゥルース深度データと見なされ、すなわち、非常に正確な深度データであると見なされる。
【0077】
深度生成回路107及びキャプチャ回路105は、モデル深度データに基づいて仮想キャプチャ画像の処理を実行して、シーンの領域における複数の試験ポーズに対する第1のビュー画像を生成するように構成された第1の合成回路109に結合される。
【0078】
したがって、第1の合成回路109は、キャプチャ画像及びモデル深度データに基づいて、すなわち、グラウンドトゥルース深度データに基づいて、複数の試験ポーズのビュー画像を合成するための機能を備える。合成は、当業者に知られているように、ビューシフトなどを含む。
【0079】
さらに、いくつかの実施形態では、第1の合成回路109は、合成演算を含むだけであるが、多くの実施形態では、処理はさらに、評価されたアプリケーション/システムの処理又は分配経路の一部であるいくつかの機能又は演算を含む。例えば、後により詳細に説明されるように、処理は、エンコード、デコード、圧縮、解凍、ビュー選択、通信エラー導入などを含む。
【0080】
したがって、第1の合成回路109は、キャプチャ画像に基づいて、グラウンドトゥルース深度を仮定して、合成できる画像を生成する。したがって、結果的に得られる画像は、特定のキャプチャ構成だけではなく、処理の影響も反映する。
【0081】
モデルストア101はさらに、仮想キャプチャ画像に基づいて、仮想キャプチャ画像に対する推定深度データを生成するように構成された深度推定回路111に結合される。したがって、モデル自体に基づいて深度を決定する深度生成回路107とは対照的に、深度推定回路111は、キャプチャ画像に基づいて深度データを決定する。
【0082】
具体的には、深度推定回路111は、評価されるアプリケーション/システムにおいて使用される深度推定のための技法に基づいて深度推定を実行する。例えば、深度推定は、異なるキャプチャ画像内の対応する画像オブジェクトを検出し、これらの間の視差を判定することによって実行される。深度推定は、そのような視差によって与えられる。
【0083】
したがって、推定深度データは、実際のアプリケーション及び処理によって生成される深度推定を表現し、したがって、この深度推定によって導入される欠陥、エラー、及びアーティファクトを反映する。推定深度データは、モデル深度データよりも精度が低いと見なされるが、評価されたアプリケーション/システムにおいて実際に判定及び使用される深度のより良い推定値である。
【0084】
深度推定回路111及びキャプチャ回路105は、推定深度データに基づいて仮想キャプチャ画像の処理を実行して、複数の試験ポーズに対する第2のビュー画像を生成するように構成された第2の合成回路113に結合される。
【0085】
したがって、第2の合成回路113は、キャプチャ画像及び推定深度データに基づいて、すなわち、評価されたアプリケーションによって生成された予想深度データに基づいて、複数の試験ポーズのビュー画像を合成するための機能を有する。合成は、当業者に知られているような、ビューシフトなどを含む。
【0086】
さらに、いくつかの実施形態では、第2の合成回路113は、第1の合成回路109として、合成演算を含むだけであるが、多くの実施形態では、処理はさらに、エンコード、デコード、圧縮、解凍、ビューの選択、通信エラー導入など、評価されたアプリケーション/システムの処理又は分配経路の一部であるいくつかの機能又は演算をさらに含む。
【0087】
したがって、第2の合成回路113は、キャプチャ画像自体に基づいて合成される画像を生成する。結果的に得られる画像は、特定のキャプチャ構成だけではなく、処理の影響も反映する。それに加えて、第2のビュー画像は、非理想的な深度推定の影響を反映し、評価中のアプリケーション及びシステムにおいてエンドユーザ用に生成されると予想される画像を直接反映する。
【0088】
参照回路103、第1の合成回路109、及び第2の合成回路113は、第1のビュー画像、第2のビュー画像、及び参照画像の比較に応じて第1の品質メトリックを生成するように構成された品質回路115に結合される。
【0089】
品質メトリックは、異なる画像がどれほど類似しているかを反映するように具体的に決定される。具体的には、多くの実施形態では、品質メトリックは、(同じ試験ポーズについて、任意の適切な差分測定値又はメトリックにしたがって)第1のビュー画像、第2のビュー画像、及び参照画像の間の減少差分のための増加品質を反映する。
【0090】
品質メトリックは、カメラ構成の特性と、実行された処理の特性との両方(第1及び第2のビュー画像の両方)を反映する。したがって、品質メトリックは、カメラ構成、第1のビュー画像を生成するための処理、及び第2のビュー画像を生成するための処理のうちの少なくとも1つの影響を反映するように生成される。通常、メトリックは、これらすべてを反映するように生成される。
【0091】
したがって、装置は、複雑で、高価で、及び/又は困難な試験、及びキャプチャを実行することを必要とせずに、異なるカメラ構成及び/又は異なる処理の品質への影響を評価するための非常に効率的かつ正確なアプローチを提供する。
【0092】
このアプローチは、特に有利な評価を提供し、特に、グラウンドトゥルースデータ及び実際の推定データに基づいて生成された両ビュー画像を考慮することは、特に有利な情報を提供する。これは、キャプチャに依存しない参照画像との比較によってさらに悪化する。例えば、これを参照画像と比較することによって、特定のアプローチの品質への影響がどれほど大きいかを評価できるのみならず、深度推定を改善することによって、大幅な改善が達成できるか否かを判定することが可能である。深度推定の不完全性及び/又はキャプチャ構成への依存性の影響は、従来、評価と区別が非常に複雑であり、現在のアプローチは、他の手法では非常に困難な非常に効率的で有用な評価を提供する。
【0093】
特に、所与のキャプチャ構成について、深度推定又はビューシフト(オクルージョンを引き起こす)が低品質であるか否かを検出する能力は有用である。例えば、グラウンドトゥルースと推定深度との両方で品質が低下する場合、キャプチャ構成が、より多くのカメラを必要とするか、又はビューシフトが単純すぎて、(オクルージョンを処理するために)より多くの参照を含める必要があるか、又は、より高度な予測方法が必要とされる。
【0094】
個々の実施形態の特定の選好及び要件に応じて、異なる品質メトリック、及びそのようなメトリックを決定するためのアルゴリズム及び手順が、異なる実施形態において使用されることが理解されよう。具体的には、品質メトリックの決定は、使用される特定の深度推定及び画像合成アプローチを含む、正確なカメラ構成及び画像及び深度データの処理に依存する。
【0095】
多くの実施形態では、参照画像は、「正しい」画像であると見なされ、第1のビュー画像及び第2のビュー画像をそれぞれ、「理想的な」参照画像と比較することによって、2つの品質メトリックが生成される。これと、同じ試験ポーズに対する参照画像との差分に基づいて、ビュー画像ごとに部分品質メトリックが決定される。次に、部分品質メトリックが組み合わされ、例えば、合計又は平均化されて、第1のビュー画像のセット及び第2のビュー画像のセットのそれぞれの品質メトリックが提供される。品質メトリックは、2つの品質メトリックを有するように生成される(したがって、品質メトリックは、複数の成分を有する)。多くの実施形態では、品質回路115は、第1のビュー画像のセットの各ビュー画像に対する信号対雑音測定値を生成するように構成され、品質メトリックは、第1のビュー画像のこれら信号対雑音測定値に応じて生成される。例えば、信号対雑音測定値が、例えば、信号対雑音測定値を平均化することによって、単一の測定値に組み合わされる。
【0096】
同様に、多くの実施形態では、品質回路は、第2のビュー画像のセットの各ビュー画像に対する信号対雑音測定値を生成するように構成され、品質メトリックは、第2のビュー画像のこれら信号対雑音測定値に応じて生成される。例えば、信号対雑音測定値は、例えば信号対雑音測定値を平均化することによって、単一の測定値に組み合わされる。
【0097】
具体的な例として、例えば、
【数1】
のように、ピーク信号対雑音比(PSNR)が使用され、ここで、MSEは、ビュー画像のRGBカラーチャネルの平均二乗誤差である。PSNRは、必ずしもすべての状況において、絶対的なビデオ品質を評価するための最適なメトリックとして見なされないが、発明者は、単一のデータセット内で参照基準を提供することが有用である場合、図1のシステムにおける比較及び評価に特に有用であることを認識した。
【0098】
第1の合成回路109及び第2の合成回路113によって実行される処理は、前述のように単に、適切な視点シフトアルゴリズム使用して、キャプチャ画像及び関連付けられた深度データ(それぞれグラウンドトゥルース及び推定深度データ)に基づいて、他のポーズのためのビュー画像を合成するビュー合成演算からなる。そのようなアプローチは、例えば、評価されている特定のカメラ構成の品質への影響の合理的な評価を提供する品質メトリックを生成する。これは、例えば、複数のカメラ構成が評価されて、実世界のシーンをキャプチャするために使用するのに適したカメラ構成を決定する処理において使用される。
【0099】
しかしながら、多くの実施形態では、システムは、分配の特定の処理や、画像のキャプチャから画像のレンダリングまでの処理などの、他の態様の評価を含む。
【0100】
図3は、第1の合成回路109及び第2の合成回路113の処理に含まれる処理の例を示す。
【0101】
例では、キャプチャ画像は、画像エンコード機能301に供給され、深度データは、それぞれキャプチャ画像及び関連付けられた深度データのエンコードを実行する深度エンコード機能303に供給される。第1の合成回路109及び第2の合成回路113によって実行されるエンコードは、具体的には、評価されるシステムにおいて使用されるエンコードアルゴリズムと正確に同じである。
【0102】
重要なことに、キャプチャ画像データ及び深度データに対して実行されるエンコードは、適切なデータストリームにエンコードされるときに、キャプチャ画像及び/又は深度に含まれる情報が失われる、不可逆的エンコードである。したがって、多くの実施形態では、画像/深度データのエンコードは、画像/深度データの圧縮も含む。特に、不可逆的エンコード及び圧縮の影響は、他の効果や処理と相互作用するため、通常、評価が非常に困難であり、したがって、結果的に得られる影響は、多くの場合、エンコード自体以外の特徴に依存する。しかしながら、図1の装置は、そのような効果を評価及び考慮することを可能にする。
【0103】
エンコードは、分配のために画像/フレーム/深度をビットストリームに変換する任意の態様を含み、デコードは、ビットストリームから画像/フレーム/深度を復元するために必要な任意の処理又は演算を含むことが理解されるべきである。例えば、エンコード及びデコードは、画像又は深度のダウンスケーリング、単一のテクスチャ(画像)への画像及び深度をまとめたパッキング、ビットストリームフォーマット、圧縮などを含む一連の演算を含む。第1の合成回路109及び第2の合成回路113によって評価及び実施される正確な演算は、特定の実施形態の選好及び要件に依存する。
【0104】
典型的な分配システムでは、エンコードされたデータは、典型的には、エンコードされたキャプチャ画像データと、深度データとの両方を有する単一のデータストリームで通信される。したがって、第1の合成回路109及び/又は第2の合成回路113は、この通信を反映するための処理も含む。これは、通信機能305によって達成され、例えば、レイテンシ及び/又は通信エラーをもたらす。第1の合成回路109及び/又は第2の合成回路113はさらに、それぞれキャプチャ画像データ及び深度データのためのデコード機能307、309を含む。したがって、これらデコード機能307、309は、評価されている分配システムのクライアント/受信側で実行されるデコードに対応する。これらデコード機能307、309は、通常、エンコーダ301、303によって実行されるエンコードを補完する。
【0105】
次に、デコードされた画像データ及び深度データは、試験ポーズに対する画像を合成するように構成された画像合成器によって使用される。
【0106】
したがって、第1の合成回路109及び第2の合成回路113の処理は、画像合成自体を含むのみならず、カメラによる画像のキャプチャから、試験ポーズのビューの提示までの通信/分配のいくつかの又は実際にすべての態様を含む。さらに、処理は、評価されている実世界のシステムで使用されているものと一致し、実際にまったく同じアルゴリズム、手順、及び実際のコードが使用される。したがって、装置は、カメラ構成を評価する効率的な手段を提供するのみならず、さらに、ビュー画像を生成するための分配及び処理に関与する可能性のあるすべての処理及び機能の正確な評価を可能にする。
【0107】
このアプローチの特定の利点は、関連性があり適切であると見なされる機能及び特徴を正確に含めるように適合できることである。さらに、処理は、評価中のシステムで使用されているものとまったく同じアルゴリズム及び機能を含めることができるため、このアプローチは、システムにおいて達成できる品質の正確な指標を提供する。
【0108】
エンコード、デコード、通信、及び一般に画像及び深度を処理するための多くの変形及びアルゴリズムが知られており、任意の適切なアプローチが使用されることが理解されよう。他の実施形態では、より多くの又はより少ない機能が、第1の合成回路109及び/又は第2の合成回路113による処理に含まれることも理解されよう。例えば、処理は、ビュー合成を実行する場合、異なるキャプチャ画像から選択するための機能を含むか、又は画像演算(例えば、空間フィルタリング)がエンコード前に適用され、鮮明化処理がデコード後に実行されるなどである。
【0109】
また、図3は、キャプチャ画像データ及び深度データに適用される本質的に同じ処理を示しているが、これは必要又は必須ではなく、特定の実施形態に依存することも理解されよう。例えば、深度データが深度マップの形態である場合、画像データ処理と同様の機能がしばしば使用されるが、深度データが例えば3Dメッシュで表現される場合、深度データと画像データとの処理に大きな相違がある。
【0110】
同様に、ほとんどの実施形態では、第1の合成回路109及び第2の合成回路113による処理は、実質的に同じであるか、又はおそらく同一でさえある。多くの実施形態では、唯一の相違は、一方の合成回路が、グラウンドトゥルース深度データを使用するのに対し、他方の合成回路が、推定深度データを使用することである。しかしながら、他の実施形態では、第1の合成回路109及び第2の合成回路113による処理に相違があることが理解されよう。これは、例えば、計算負荷を軽減するために行われるか、又は、例えば、グラウンドトゥルース深度データ及び推定深度データが、異なるフォーマットで提供されるシナリオを反映する。
【0111】
このアプローチの特定の利点は、例えば新しいビューを合成する場合、異なる深度の表現、及び、深度を処理するための異なる処理に、簡単に適合できることである。
【0112】
特に、いくつかの実施形態では、グラウンドトゥルース深度データ及び推定深度データのうちの少なくとも一方は、具体的には、各キャプチャ画像に対する深度マップである深度マップモデルによって表現される。そのような深度マップは、多くの場合、画像データにも使用されるアルゴリズムを使用してエンコード及びデコードされる。
【0113】
そのような実施形態では、第1の合成回路109及び第2の合成回路113によって実行される画像合成機能は、深度マップモデルを使用して、仮想キャプチャ画像の試験ポーズへのビューシフトを実行する。具体的には、キャプチャ画像のピクセルは、画像内のそのピクセルに示される深度/視差に依存する量だけシフトされる。これにより、オクルージョン解除が発生したときに、生成された画像に穴が生じる。そのような穴は、例えば、熟練者に知られているように、インフィリング又は補間によって埋められる。深度マップモデルを使用することは、多くのシステムにおいて有利であり、図1の装置は、そのような処理を正確に反映するように適合される。
【0114】
他の実施形態では、他の深度データが適用され、他の画像合成アルゴリズムが使用される。
【0115】
例えば、多くの実施形態では、深度は、複数のキャプチャ画像から生成される単一の3Dモデルによって表現される。3Dモデルは、例えば、空間内の複数の3Dポイントによって表現される。複数のキャプチャ画像を組み合わせることによって、3Dポイントのおのおののための色が決定される。3Dポイントモデルはワールドスペースに存在するため、そこから任意のビューを合成できる。例えば、1つのアプローチは、試験ポーズにしたがって各3Dポイントを投影し、画像を形成することである。この処理は、ポイント投影を使用し、深度の順序を維持し、所与の3Dポイントに対応する色を、所与の試験ポーズ仮想カメラ画像における投影されたピクセル位置にマッピングする。深度の順序を維持すると、目に見える表面のみが画像に存在するようになる。いわゆるスプラッティングを使用して、ポイントがターゲットピクセルの一部をカバーする場合、ポイントの寄与を評価できる。
【0116】
他の変形例及びオプションに関し、図1の装置は、そのようなアプローチに容易に適合され、そのようなアプローチの特に魅力的な評価を提供する。多くの実施形態では、そのような複雑なアプローチは、第1の合成回路109及び/又は第2の合成回路113による処理に同じコード/アルゴリズムを単に含めることによって、残りの処理とともに評価される。
【0117】
前述のように、このアプローチにより、所与のカメラ構成及び処理のために達成される品質の正確で信頼性の高い評価が可能になる。このアプローチにより、複雑な物理的なセットアップや測定を必要とせずに、カメラ構成(又はカメラ構成の範囲)の品質評価を行うことができる。それに加えて、システムは、キャプチャ画像の処理、分配、及び合成に関与する様々な機能の品質評価を提供して、ビュー画像を生成できる。実際、装置は、カメラ構成、画像/深度処理(例えば、通信を含む)、又はその両方の有利な品質評価を提供する。
【0118】
装置は、特に、異なる可能なカメラ構成から選択するために使用される。異なるカメラ構成から選択するために専用の物理的測定及び試験を実行することは面倒で費用がかかるであろうが、図1の装置は、異なるカメラ構成を比較するために使用される正確な品質評価を可能にする。
【0119】
他の実施形態では、特定のカメラ構成が使用され、装置は、例えば、第1の合成回路109及び/又は第2の合成回路113による処理を含む、1つ又は複数の処理ステップの異なるアルゴリズム又はパラメータ設定を比較するために使用される。例えば、2つの代替の深度推定技法から選択する場合、両方の深度推定技法の品質メトリックを決定するために、図1の装置が使用され、最良のものが選択される。
【0120】
この顕著な利点は、評価される特定の特徴が、システムの様々な局面に基づいて評価されることである。例えば、キャプチャ画像又は深度推定自体の単純な比較は、例えば異なる機能間の相互作用を含まないため、比較的不正確な評価になる可能性が高い。
【0121】
多くの実施形態では、3つのタイプの合成画像、すなわち、キャプチャ画像を考慮せずに生成された参照画像、真の深度を考慮して生成された第1のビュー画像、及び推定された深度を考慮して生成された第2のビュー画像の使用が特に有利である。
【0122】
具体的には、シーンのモデルに基づいて評価されるシステムにより、キャプチャ画像から合成されたビュー画像を評価するための非常に正確なベースラインが可能になる。参照画像は、試験ポーズからの「正しい」画像又はビューと見なされるものの信頼できる参照を提供する。したがって、そのような参照画像との比較は、ビュー画像が試験ポーズから実際に見られる/キャプチャされるものとどれほど密接に一致するかについての非常に信頼できる正確な指標を提供する。
【0123】
さらに、グラウンドトゥルース深度データ及び推定深度データの両方に基づいて合成ビュー画像を生成することは、品質への影響を評価するのに特に有利な追加情報を提供する。もちろん、使用される深度推定アルゴリズムの品質と、品質への影響とを評価することは、特に有用である。したがって、異なる深度推定アルゴリズムから選択するのに非常に有利である。
【0124】
しかしながら、2つのタイプの深度データを考慮することの利点はまた、処理又はカメラ構成の他の要素を評価するための有利な情報を提供する。例えば、複数のカメラは通常、ピクセルが多すぎてビットレートが高すぎることを意味する。したがって、多くの場合、画像/深度のパッキング及び圧縮が必要となる。画像/深度のパッキング及び圧縮が、エラーパフォーマンスを支配するか否かを判定するために、明確な比較を提供するために、パッキング及び圧縮が、完全に省略される。
【0125】
実際、1つ又は複数の近くでキャプチャされた画像に、完全な深度を利用できる場合でも、別の視点の画像を完全に合成することは未だに可能ではない。この明確な理由は、オクルージョンアーティファクト及びイルミネーションの変更を含む(参照ビューとの角度が大きくなると、両方の効果が大きくなる)。このタイプのエラー又は劣化は、モデリングエラー又はビュー合成エラーと称される。
【0126】
深度推定は、別の不確実性を追加し、実際、一部の位置ではエラーが非常に大きくなり、実際、深度推定エラーのために合成全体が機能しなくなる可能性がある。
【0127】
グラウンドトゥルースと推定深度との両方について、PSNRなどの品質メトリックを決定することで、カメラ構成を更新する手法と、最高品質が達成されたか否かとをより適切に判断できる。例えば、グラウンドトゥルース深度を使用するPSNRが、推定深度のPSNRよりも実質的に優れていない場合は、キャプチャポーズ又は物理的なカメラをさらに追加することは有用ではない。
【0128】
このアプローチは、前述のように、異なるカメラ構成から選択するために使用される。例えば、可能なカメラ構成の範囲が考慮され、品質メトリックは、可能なすべてのカメラ構成に対して、図1の装置によって決定される。カメラ構成の複雑さ(例えば、カメラの数によって表現される)と、結果的に得られる品質との間の最良のトレードオフが達成されるカメラ構成が選択される。
【0129】
多くの実施形態では、図1の装置によって生成される品質メトリックは、前述したように、第1のビュー画像が参照画像にどれだけ一致しているかを反映する第1の品質メトリックと、第2のビュー画像が参照画像にどれだけ一致しているかを反映する第2の品質メトリックとの両方を含む。
【0130】
多くのそのような実施形態では、所与のカメラ構成の選択は、第1及び第2の品質メトリックの両方が、基準を満たすことに準じる。例えば、基準は、両方の品質メトリックがしきい値を上回っていること、すなわち、ビュー画像と参照画像との間の差分が、しきい値を下回っていることを必要とする。
【0131】
しかしながら、それに加えて、第1の品質メトリックと第2の品質メトリックとが互いに十分に接近していることも必要とされる。すなわち、これら差分が、所定のしきい値を下回っていることが必要とされる。この要件は、深度が十分正確に推定され、深度に関連する推定エラーが、実際に所与のキャプチャ構成を展開するときに品質問題を引き起こす可能性が低いという信頼を与えるという点で、追加の考慮事項を提供する。
【0132】
具体的な例として、異なる可能なカメラ構成から選択するために、装置が使用される。カメラ構成は、優先ステータスの順に個別に、及び順番に評価される。例えば、カメラ構成は、複雑さの順に評価され、例えば、カメラ構成がそれぞれ3、5、7、9台のカメラの線形配置に対応する場合、装置は、最初に3台のカメラのカメラ構成、次に5台のカメラのカメラ構成、次に7台のカメラのカメラ構成を評価し、最後に9台のカメラのカメラ構成を評価する。装置は、第1の品質メトリックが第1の基準を満たし(例えば、しきい値を超え)、第2の品質メトリックが第2の基準を満たし(例えば、しきい値を超え)、第1の品質メトリック及び第2の品質メトリックの差分測定値が、第3の基準を満たす、具体的には、差分測定値が、しきい値を下回るカメラ構成が決定されるまで、これらカメラ構成を順番に評価する。
【0133】
第1及び第2の品質メトリックはおのおの、合成品質が十分であることを示し、差分が小さく、グラウンドトゥルースを使用した場合と同様の合成結果が得られ、深度推定が失敗しないことが確実であるため、この選択基準は特に有利である。
【0134】
いくつかの実施形態では、第1の品質メトリックと第2の品質メトリックとの間の差分は、第1(合成された)及び第2のビュー画像間のPSNR(又は他の適切な信号対雑音比)の決定によって間接的に計算される。これは、有利な追加情報を提供する。例えば、第1のビュー画像と第2のビューとの両方のPSNRが、参照画像と比較されると高いが、相互に比較されると低い場合、その特定の構成/深度推定アルゴリズムの信頼性は、第1のビュー画像と第2のビュー画像との間のPSNRも低い場合と比較して低くなる。
【0135】
このアプローチでは、特にコンピュータグラフィックス(CG)モデル及び画像シミュレーションを使用して、6DoF(自由度)ビデオキャプチャの目的で、異なるカメラキャプチャ構成及び/又は画像処理を比較する。事前定義されたビュー領域と、一連のサンプリング位置/試験ポーズとが与えられると、キャプチャ構成ごとに単一の(場合によっては複合)品質メトリックが計算され、これら品質メトリックを使用して、最良のカメラ構成を選択でき、それによって、例えば、パフォーマンスを評価するために各システムを実際に構築して試験する必要がなくなる。
【0136】
6DoFビデオキャプチャ/作成と圧縮との競合する方法は、多くの場合、視覚的に比較され、圧縮の場合は定量的にも比較される。しかしながら、品質は、多くの場合、カメラセンサのタイプ、それらの空間構成(例えば、間隔)、及びカメラパラメータによって決定される。そのようなキャプチャ構成の比較は、多くの場合、高価な機器と労働集約的なセットアップの作成とを伴うため、多くの場合コストがかかる。本アプローチ及び図1の装置は、これら問題に対処する。
【0137】
具体的には、2つ以上の潜在的なキャプチャ構成(及び/又は処理アプローチ)を比較するために、アプリケーション(例えば、サッカー場)に適したCGシーンが使用され、モデルによって表現される。次に、一連のサンプル試験ポーズ(通常はグリッド上)が、事前設定された6DoFビュー領域の境界内で定義される。例えば写実的な画像の形態の仮想キャプチャ画像は、カメラポーズごと、及び評価されるキャプチャ構成ごとにレンダリングされる。次に、必要な処理(例えば、深度推定や圧縮など)が、推定深度データとグラウンドトゥルースデータとの両方を使用して、レンダリングされたキャプチャ画像に適用される。次のステップとして、6DoFビュー領域における一連の試験ポーズの表示画像が予測/合成される。結果は、参照画像と比較され、キャプチャ構成ごとに、単一の品質メトリック(すべてのサンプルの最大予測誤差など)を計算できる。最後に、すべてのキャプチャ構成の品質メトリックが比較され、エラーが最小の構成が選択される。
【0138】
このアプローチは、特に、異なるカメラ構成及び関連付けられた処理を評価する際のコストを削減できる。このアプローチでは、高価なカメラ機器を購入して、例えば、スポーツスタジアムの周囲などに設置する必要なく、システムのパフォーマンスが評価される。むしろ評価は、例えば現実的なCGサッカーモデル(フィールド及び選手を含む)に基づく。レイトレーシング画像は、深度を推定するためにも使用され、それによって、計算品質を適度に低く保つことができる。
【0139】
以下、具体例をより詳細に説明する。図1の装置は、この例では、具体的に、仮想シーンのレイトレーシング画像を使用して、所与のカメラキャプチャ構成の獲得を模擬する品質評価アプローチを提供する。画像は、リアルタイムの深度推定及びビュー合成ソフトウェアに渡される。次に、事前設定されたビューゾーンの試験ポーズのビューが合成され、結果的に得られた画像が、レイトレーシング画像(参照画像)と比較される。グラウンドトゥルース深度から合成された画像と、推定深度から合成された画像との両方を、レイトレーシング画像と比較することによって、モデリングエラーが、深度推定エラーから分離される。
【0140】
ライブの6DoFビデオを作成するには、複数のカメラを使用したビデオキャプチャ、リアルタイムの深度推定、圧縮、ストリーミング、及び再生が必要である。これら構成要素はすべて開発中であり、既製のソリューションを見つけるのは困難である。開発中に正しい選択を行うために、システムパラメータ(例えば、カメラ間のベースライン距離)及び深度推定アルゴリズムが画質に与える影響を事前に予測できることが望まれる。図1の装置は、この特定の例では、そのような問題に対処し、効率的な品質評価アプローチを提供する。
【0141】
この例は、映画の作成やゲーム開発に一般的に使用されているグラフィックスレンダリングエンジンであるBlenderによってサポートされるモデルを使用した実際の評価に基づく。この例では、Pythonインターフェース(例えば、バージョン2.79)を使用して、3cm間隔の15×15のアンカーの規則的なグリッドに配置されたカメラのレイトレース画像を作成する。結果的に得られるビューゾーンにより、観察者は、頭を後ろから前、及び左から右に動かすことができる(図2参照)。特に、立っている人のビューゾーンは、制限された頭の動きの視差を可能にする。キャプチャカメラポーズの所与のセットからのビュー合成の品質は、試験ポーズの均一なグリッドで評価される。
【0142】
Pythonを使用して、15×15画像のBlenderレイトレーシングを自動化し、試験ポーズのみならずキャプチャ画像の参照画像を生成する。3cmのサンプル間隔は、試験ポーズのx方向とy方向との両方で使用される特定の例にある。キャプチャリグの設計を事前に調査するための重要なパラメータのうちの1つのパラメータは、カメラ間隔(ベースライン)である。レイトレーシング画像を使用してキャプチャ画像を生成すると、目的のビューゾーン内の所与の最小品質レベルに最適なベースラインを見つけることができる。代表的なシーンとして、MakeHumanソフトウェアを使用して構築された人物シーン(以降、Humanと称される)と、Blenderデモファイルに基づいた車シーン(以降、Carと称される)とのキャプチャを考慮して、特定のアプローチが分析された。
【0143】
パフォーマンス及びシステムパラメータを、単純な測定値と比較するために、ピーク信号対雑音比が使用される。
【数2】
ここで、MSEは、RGBカラーチャネルの平均二乗誤差である。それに加えて、推定深度に基づく合成ビュー画像が、グラウンドトゥルース生成画像を使用して生成された合成画像と視覚的に比較された。
【0144】
この例は、図4に示されるようなシステムの評価に基づき、関連付けられた処理は、第1の合成回路109及び第2の合成回路113によって実施される。
【0145】
図4は、クライアントデバイスでのキャプチャからレンダリングまでのアルゴリズムブロックを示す。ライブブロードキャストの場合、深度推定及びマルチビュー登録は、ペア又はカメラの内因性及び外因性パラメータの較正と、それに続くマルチカメラポーズの絞り込みとを含む。具体的には、処理は、視差推定を含み、その後、推定された視差が正しいか誤っているかの確率を分類器が決定する。処理はGPUにおいて実施され、30Hzでリアルタイムのパフォーマンスを達成する。時間的相互フィルタは、深度誤差が少なくとも時間的に阻害しないように、深度マップが時間の関数として滑らかに変化することを保証する。
【0146】
図5は、6台のカメラが一列に配置されていることに対応するカメラ構成を備えたキャプチャリグ501、処理ユニット503、及びディスプレイ505を含む実験的なセットアップの例を示す。このシステムは、640×1080の解像度の6台のカメラフィードを処理し、6つの深度マップを計算し、6つの画像と6つの深度マップを単一の4Kビデオフレームにともにパックして、これをすべて30fpsで、リアルタイムでエンコードする。したがって、そのようなシステムは、ライブストリーミング用のスケーラブルな低コスト(コンシューマ向けハードウェア)のソリューションを形成する。ターゲット解像度に応じて、2台、4台、又は6台のカメラが、単一のPCに取り付けられ、各PCの出力を共通のサーバにストリーミングできる。複数のビデオのフレーム同期は、キャプチャ側で処理される。各PCの4K出力は、グラフィックカードに存在するエンコーダチップを使用してエンコードされる。システムは、通常のH.264又はHEVCビデオを出力できるか、又は、HLS/MPEG-DASHビデオフラグメントを直接生成して、アダプティブストリーミングを可能にできる。
【0147】
クライアント側では、ビューは、パックされたビデオとして受信され、プラットフォーム固有のハードウェアデコーダを使用してデコードされる。デコード後、アンパッキングに続いて、必要な参照キャプチャビュー及び深度マップが、パックされたフレームから抽出される。深度マップは、頂点シェーダを使用してメッシュに変換される。
【0148】
ストリーム選択は、クライアントデバイスで実行し、特定のポーズのビューを生成するために使用されるキャプチャポーズに対応するストリームのサブセットを選択する。図6を参照されたい。例えば、クライアントは、メタデータとして利用可能な参照ビューiのモデル行列Mを有すると想定される。ストリーム選択は、4×4のビュー行列Vleft及びVrightを使用して、各目に対して最も近い2つの参照視点を選択する。最も近い視点は、以下を使用して計算される。
【数3】
ここで、Mは、ビューiのモデル行列であり、均一座標p=(0,0,0,1)であり、Vは、左目又は右目のいずれかのビュー行列である。
【0149】
これは基本的に、各目について、関連付けられた深度情報を有する最も近いキャプチャ画像(通常は2つ)を使用して、目の画像を予測するアプローチに対応する。絶対値シンボルは、ベクトルを3D空間におけるスカラ距離に変換する。行列Vは、目の位置及び方位を記述し、行列Mは、各参照ビューの位置及び方位を記述する。argmin iは、すべての参照カメラで最小距離が取られることを示す。
【0150】
この例では、処理及びビューの合成は、3Dメッシュに基づく。具体的には、初期化時に、固定サイズの規則的な三角形メッシュが作成される。深度マップのサンプリングを介して、頂点シェーダは、メッシュの各頂点をクリップスペースの均一な出力位置に直接変換する。
【数4】
ここで、D(u,v)は、入力テクスチャ座標(u,v)における深度マップから導出された視差であり、Qは、深度行列に対する視差であり、PVeyeは、所与の目のモデル、ビュー、及び投影行列の積である。特定の例では、単純なフラグメントシェーダが使用されるが、原則として、より高度なオクルージョン処理及び/又は混合を使用して画質を向上させることができる。最も近い参照ビューと2番目に近い参照ビューとの両方をともに混合して、最終的な画像が予測される。これにより、原則として、6DoFビデオのスケーラブルなソリューションが可能になり、ユーザが移動している間、非常に多くのビューの限られたサブセットのみがユーザにストリーミングされる。混合は、例えば、参照ビューの近接性にのみ依存する。
【数5】
ここで、x及びxは、x軸に沿って、最も近い及び2番目に近いキャプチャされたビュー/画像までの距離である。この単純な混合方程式は、ビュー間の知覚的に滑らかな遷移と、オクルージョン領域におけるビュー合成の精度がわずかに低いこととの間のトレードオフを表現する。
【0151】
例として、図7及び図8は、3つの異なるカメラベースライン(カメラキャプチャポーズ間の12cm、6cm、及び3cmの距離)のビューゾーンにおけるPSNR変動を示す。
【0152】
図7は、推定視差/深度(下行)と比較されたグラウンドトゥルース視差(上行)を使用して、カメラベースラインを変化させた場合の30~50dBからのスケールでのビューゾーン内のシーンHumanのPSNR[dB]を示す。円は、カメラの位置を示す。
【0153】
図8は、推定視差/深度(下行)と比較されたグラウンドトゥルース視差(上行)を使用して、カメラベースラインを変化させた場合の30~50dBからのスケールでのビューゾーン内のシーンCarのPSNR[dB]を示す。円は、カメラの位置を示す。したがって、各図の上行は、グラウンドトゥルース深度マップを使用して作成され、下行は、推定深度マップを使用して作成される。グラウンドトゥルース深度と推定深度は、同様のパターンになり、ベースラインが小さいほど、ビューゾーンにおけるPSNRは高くなる。次の表は、24×24cmの領域で最小PSNRが報告されている2つのシーンの結果をまとめたものである。
【0154】
【表1】
【0155】
Humanシーンと比較した場合、CarシーンのPSNR値は体系的に低いことがわかる。これは、車内の透明なオブジェクト(窓)によるものであり、これに対して、ピクセルごとに単一の深度値を有するモデルは、明らかに単純すぎる。Carシーンでは、光沢のある及び/又は透明なオブジェクト部分の深度推定は失敗する。
【0156】
このアプローチにより、グラウンドトゥルース深度と推定深度とを直接比較できる。図9は、Humanについてのそのような比較を示す。図9は、異なるカメラベースラインについてのグラウンドトゥルース対推定視差/深度を示す。推定画像を生成するために、ベースラインの差分を補正するために、スケーリングが適用された。大きいベースラインにおけるエラーは、小さいベースラインにおいて消失する。
【0157】
ベースラインが小さいほど、視差推定誤差が少なくなることがわかる。合成は、より小さな空間距離でキャプチャされたビューから生じ、オクルージョン/イルミネーションの差分は、ベースラインが小さいほど小さいため、これは理解できる。レイトレーシングされたグラウンドトゥルース画像が利用可能であるため、試験ポーズのレイトレーシング画像(参照画像)、グラウンドトゥルースに基づく合成画像、及び深度推定に基づく合成画像間の視覚的比較ができる。図10は、Carシーンのそのような比較を示し、具体的には、レイトレーシングされた参照画像、グラウンドトゥルース深度を使用して合成されたビュー画像、及びビューイングゾーン内の異なる場所の画像に対する推定深度(B=0.03m)を使用して合成されたビュー画像間の、すなわち、異なる参照ポーズの視覚的比較を示す。
【0158】
グラウンドトゥルース深度を使用した場合、レイトレーシング画像(参照画像)と合成画像との間に目に見える違いはほとんどないことがわかる。推定深度を使用すると、画像がぼやけることがある。
【0159】
例の装置は、例えば、6DoFビデオブロードキャストシステムの品質を予測するための、例えばレイトレーシング画像に基づくシミュレーションアプローチを可能にする。エラー又は劣化は、例えば、カメラ間隔、リアルタイム深度推定、及びビュー合成によって生じ、説明されたアプローチは、これらすべてを評価する。
【0160】
このアプローチにより、モデリングエラーを推定エラーから分離/隔離でき、これは、深度推定及びビュー合成の改善を試みる場合に役立つ。このアプローチは、より複雑な(360度)キャプチャリグ又は潜在的に非常に大きなカメラアレイの設計のために使用される。
【0161】
明確化のための上記の説明は、異なる機能回路、ユニット、及びプロセッサを参照して本発明の実施形態を説明していることが理解されよう。しかしながら、本発明を損なうことなく、異なる機能回路、ユニット、又はプロセッサ間での機能の任意の適切な分配が使用されることは明らかであろう。例えば、別々のプロセッサ又はコントローラによって実行されるように示されている機能は、同じプロセッサ又はコントローラによって実行される。したがって、特定の機能ユニット又は回路への参照は、厳密な論理的又は物理的構造又は体系を示すものではなく、説明された機能を提供するための適切な手段への参照としてのみ見なされるべきである。
【0162】
本発明は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組合せを含む任意の適切な形態で実施される。本発明は、任意選択で、少なくとも部分的に、1つ又は複数のデータプロセッサ及び/又はデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして実施される。本発明の実施形態の要素及び構成要素は、任意の適切な手法で物理的、機能的、及び論理的に実施される。実際、機能は、単一のユニット、複数のユニット、又は他の機能ユニットの一部として実施される。したがって、本発明は、単一のユニットで実施され得るか、又は異なるユニット、回路、及びプロセッサ間で物理的及び機能的に分散される。
【0163】
本発明は、いくつかの実施形態に関連して説明されたが、本明細書に記載の特定の形態に限定されることを目的とされない。むしろ、本発明の範囲は、添付する特許請求の範囲によってのみ限定される。それに加えて、特徴は、特定の実施形態に関連して説明されているように見えるが、当業者は、説明された実施形態の様々な特徴を、本発明にしたがって組み合わせることができることを認識するであろう。請求項において、有するという用語は、他の要素又はステップの存在を排除しない。
【0164】
さらに、個別に列記されているが、複数の手段、要素、回路、又は方法のステップは、例えば、単一の回路、ユニット、又はプロセッサによって実施される。それに加えて、個々の特徴は、異なる請求項に含まれるが、これらはおそらく有利に組み合わされ、異なる請求項に含まれることは、特徴の組合せが、実現可能及び/又は有利ではないことを意味しない。また、請求項の1つのカテゴリに特徴が含まれていることは、このカテゴリへの限定を意味するのではなく、特徴が他の請求項のカテゴリに適切に適用可能であることを示す。さらに、請求項における特徴の順序は、特徴が動作しなければならない特定の順序を意味するものではなく、特に、方法の請求項における個々のステップの順序は、ステップがこの順序で実行されなければならないことを意味しない。むしろ、これらステップは、任意の適切な順序で実行される。それに加えて、単数の参照は、複数を除外しない。したがって、「第1の」、「第2の」などへの参照は、複数を排除しない。請求項における参照符号は、単に明確な例として提供されており、いかなる場合も請求項の範囲を限定するものとして解釈されるべきではない。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10