(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-05
(45)【発行日】2024-11-13
(54)【発明の名称】6-DOFビデオの完全な奥行きデータの生成
(51)【国際特許分類】
G06T 7/593 20170101AFI20241106BHJP
【FI】
G06T7/593
(21)【出願番号】P 2024514369
(86)(22)【出願日】2022-09-07
(86)【国際出願番号】 EP2022074785
(87)【国際公開番号】W WO2023041385
(87)【国際公開日】2023-03-23
【審査請求日】2024-03-04
(31)【優先権主張番号】PCT/CN2021/118795
(32)【優先日】2021-09-16
(33)【優先権主張国・地域又は機関】CN
(32)【優先日】2021-10-18
(33)【優先権主張国・地域又は機関】EP
【早期審査対象出願】
(73)【特許権者】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
【氏名又は名称原語表記】Koninklijke Philips N.V.
【住所又は居所原語表記】High Tech Campus 52, 5656 AG Eindhoven,Netherlands
(74)【代理人】
【識別番号】100122769
【氏名又は名称】笛田 秀仙
(74)【代理人】
【識別番号】100163809
【氏名又は名称】五十嵐 貴裕
(74)【代理人】
【識別番号】100145654
【氏名又は名称】矢ヶ部 喜行
(72)【発明者】
【氏名】チェン ホンシン
(72)【発明者】
【氏名】グー ハイ
(72)【発明者】
【氏名】マー フロン
【審査官】高野 美帆子
(56)【参考文献】
【文献】特表2020-529685(JP,A)
【文献】特開2012-194751(JP,A)
【文献】米国特許出願公開第2017/094259(US,A1)
【文献】米国特許第9307222(US,B1)
【文献】米国特許出願公開第2018/343442(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/593
(57)【特許請求の範囲】
【請求項1】
シーンの6自由度(6DoF)ビデオの奥行きデータを生成する方法であって、
前記シーンの画像の第1セットを取得するステップと、
前記画像の第1セットに基づいて奥行きコンポーネントの第1セットを生成するステップであって、各奥行きコンポーネントが複数の奥行き値を有する、ステップと、
奥行きコンポーネントの完全性を決定するために前記奥行きコンポーネントの第1セットを分析するステップと、
前記シーンの画像の第2セットを取得するステップと、
前記画像の第2セットに基づいて奥行きコンポーネントの第2セットを生成するステップと、
を有し、
前記奥行きコンポーネントの第1セットが過完備であることを前記分析が決定する場合、前記第2セット中の奥行きコンポーネントの数が前記第1セット中の奥行きコンポーネントの数よりも少なく選択され、過完備な前記奥行きコンポーネントの第1セットは、6DoFフレームをレンダリングするために十分であるよりも多くの前記シーンの奥行き情報を有し、
前記奥行きコンポーネントの第1セットが不完全であることを前記分析が決定する場合、前記第2セット中の奥行きコンポーネントの数は、前記第1セット中の奥行きコンポーネントの数よりも多く選択され、前記シーンの奥行き情報の一部が、不完全な前記奥行きコンポーネントの第1セットから欠落している、方法。
【請求項2】
前記画像の第1セットがカメラの第1グループにより取得され、前記奥行きコンポーネントの第1セットを分析するステップが、前記シーン中の1つまたは複数のオブジェクトが前記カメラの第1セットにどれだけ近いかの指標を決定することを含む、請求項1に記載の方法。
【請求項3】
奥行きコンポーネントは、少なくとも2つの画像に基づいて奥行き推定を実行することにより生成される奥行きマップを含む、請求項1または2に記載の方法。
【請求項4】
前記シーン中のいずれかのオブジェクトのカメラに対向する面が、前記画像の第1セットに対応する少なくとも2つのカメラの視野内で見えるかを決定するステップをさらに有し、奥行きコンポーネントの第2セットの生成が当該決定にさらに基づく、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記奥行きコンポーネントの第1セットの分析が、前記奥行きコンポーネントの第1セットにおいて前記シーン中のいずれかのオブジェクトが少なくとも部分的に遮蔽されているかを決定することを含む、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記奥行きコンポーネントの第1セットの分析が、前記奥行きコンポーネントの第1セットが可視アーチファクトおよび/または奥行きアーチファクトを含むかを決定することを含む、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記画像の第1セットがカメラの第1グループにより取得され、前記方法は、前記奥行きコンポーネントの第1セットの分析に基づいて前記画像の第2セットを取得するように構成されたカメラの第2グループを選択するステップをさらに有する、請求項1から6のいずれか一項に記載の方法。
【請求項8】
カメラのグループの選択が、所定のカメラグループのセットから所定のカメラグループを選択することを含み、所定のカメラグループの各々が、前記シーン中のオブジェクトが当該所定のカメラグループ中の少なくとも2つのカメラの視野内にあることが保証される当該所定のカメラグループからの最小限の距離に関連付けられる、請求項7に記載の方法。
【請求項9】
コンピュータにより実行され、当該コンピュータに請求項1から8のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
【請求項10】
シーンの6自由度(6DoF)ビデオの奥行きデータを生成するシステムであって、当該システムは、
前記シーンの画像の第1セットを取得し、
前記画像の第1セットに基づいて、各奥行きコンポーネントが複数の奥行き値を有する奥行きコンポーネントの第1セットを生成し、
奥行きコンポーネントの完全性を決定するために前記奥行きコンポーネントの第1セットを分析し、
前記シーンの画像の第2セットを取得し、
前記画像の第2セットに基づいて奥行きコンポーネントの第2セットを生成する、
ように構成されたプロセッサを有し、
前記奥行きコンポーネントの第1セットが過完備であることを前記分析が決定する場合、前記第2セット中の奥行きコンポーネントの数が前記第1セット中の奥行きコンポーネントの数よりも少なく選択され、過完備な前記奥行きコンポーネントの第1セットは、6DoFフレームをレンダリングするために十分であるよりも多くの前記シーンの奥行き情報を有し、
前記奥行きコンポーネントの第1セットが不完全であることを前記分析が決定する場合、前記第2セット中の奥行きコンポーネントの数は、前記第1セット中の奥行きコンポーネントの数よりも多く選択され、前記シーンの奥行き情報の一部が、不完全な前記奥行きコンポーネントの第1セットから欠落している、システム。
【請求項11】
前記画像の第1セットがカメラの第1グループにより取得され、前記プロセッサが、前記シーン中の1つまたは複数のオブジェクトが前記カメラの第1セットにどれだけ近いかの指標を決定することにより前記奥行きコンポーネントの第1セットを分析するように構成される、請求項10に記載のシステム。
【請求項12】
前記プロセッサが、前記シーン中のいずれかのオブジェクトのカメラに対向する面が、前記画像の第1セットに対応する少なくとも2つのカメラの視野内で見えるかを決定するようにさらに構成され、前記プロセッサが、当該決定に基づいて奥行きコンポーネントの第2セットを生成するようにさらに構成される、請求項10または11に記載のシステム。
【請求項13】
前記画像の第1セットがカメラの第1グループにより取得され、前記プロセッサが、前記奥行きコンポーネントの第1セットの分析に基づいて前記画像の第2セットを取得するように構成されたカメラのグループを選択するようにさらに構成される、請求項10から12のいずれか一項に記載のシステム。
【請求項14】
前記プロセッサが、所定のカメラグループのセットから所定のカメラグループを選択することによりカメラのグループを選択するように構成され、所定のカメラグループの各々が、前記シーン中のオブジェクトが当該所定のカメラグループ中の少なくとも2つのカメラの視野内にあることが保証される当該所定のカメラグループからの最小限の距離に関連付けられる、請求項13に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、シーンの奥行きデータを生成する分野に関する。特に、本発明は、シーンの6DoFビデオのための奥行きデータを生成する分野に関する。
【背景技術】
【0002】
バーチャルリアリティ(VR)ビデオは、ビデオの没入型体験をもたらすことができるVR技術の重要なアプリケーションである。一般に、VRビデオ技術は、3-DoF(自由度)と6-DoFとに分けることができる。3-DoF技術は、ユーザが自分の頭を自由に回転させて、ビデオシーン内の固定位置から異なる向きを見ることを可能にするだけである。しかしながら、6-DoF技術は、ユーザが異なる向きを選択することを可能にし、また、ユーザが、シーン内の自分の位置を自由に選択することを可能にする。
【0003】
3-DoFビデオ撮影は、シーンの異なる方向に向く最小限の数のカメラしか必要としない。一方、6-DoFビデオ撮影は、比較的大きなカメラアレイを必要とする。
【0004】
実際には、6-DoF VRビデオ撮影の場合、シーンに面する多数のカメラが存在し、2つの隣接するカメラごとに、奥行き画像を生成するために使用されるカメラ対を作成する。一対のカメラ間の距離は、ベースラインと呼ばれる。奥行き画像およびカメラによってキャプチャされた画像は、仮想ビューの画像をレンダリングするために使用されることができる。
【発明の概要】
【発明が解決しようとする課題】
【0005】
VRビデオ撮影システムでは、全てのリアルタイム画像がワークステーションに送信され、ワークステーションは奥行き推定アルゴリズムを実行して奥行き画像を生成する。したがって、多数のカメラを有するカメラアレイは、大量の計算リソースを必要とする。例えば、フットボールの試合の場合、50を超えるカメラが必要とされることがあり、したがって、1つのワークステーションでは、フットボールの試合のための奥行きデータの全てを計算するのに十分ではないことがある。明らかに、6DoFビデオの生成のための計算効率を改善する必要がある。
【0006】
米国特許出願公開第2017/094259(A1)号明細書は、動的カメラを用いた3D画像キャプチャに関連する技術を開示している。
【課題を解決するための手段】
【0007】
本発明は、請求項により規定される。
【0008】
本発明の一態様による例によれば、シーンの6自由度(6DoF)ビデオのための奥行きデータを生成するための方法が提供され、この方法は:
シーンの画像の第1セットを取得するステップと;
画像の第1セットに基づいて奥行きコンポーネントの第1セットを生成するステップと;
奥行きコンポーネントの完全性を決定するための奥行きコンポーネントの第1セットを分析するステップと;
シーンの画像の第2セットを取得するステップと、
前記画像の第2セットに基づいて奥行きコンポーネントの第2セットを生成するステップとを有し、
前記分析するステップが前記奥行きコンポーネントの第1セットが過完備(overcomplete)であると決定した場合、前記第2セット中の奥行きコンポーネントの数が前記第1セット中の奥行きコンポーネントの数よりも小さくなるように選択される。
【0009】
動的シーンの6DoFビデオを取得することは、動的シーン内のオブジェクトの奥行きがいつでも変化する可能性があるので、困難であるだろう。このために、オブジェクトがカメラに近づくと、例えば、それが依然として少なくとも2つのカメラの視野内にあるように近いオブジェクトについて奥行きデータが依然として取得されることができるように、カメラの大きなセットが使用されなければならない。
【0010】
しかしながら、多数のカメラを使用することは、大量のデータを取得する(および場合によっては送信する)ことも意味する。6DoFビデオ中のほとんどの時間は、6DoFビデオのための奥行きデータを取得するために大きなセット内の全てのカメラが必要とされるわけではない可能性が高い。これは、オブジェクトがカメラに近接していない場合に特に当てはまる。
【0011】
したがって、本発明者らは、6DoFビデオのフレーム内の奥行きコンポーネントの第1セットを分析し、奥行きコンポーネントの第1セットが完全であることを決定する分析に基づいて、第1セットよりも少ない数の奥行きコンポーネントを有する奥行きコンポーネントの第2セットを生成することを提案する。分析の方法については後述する。
【0012】
奥行きコンポーネントの完全性は、シーンのうちのどのくらいが奥行きコンポーネントにおいてキャプチャされているかを指す。シーンの奥行き情報の全てが奥行きコンポーネントでキャプチャされている場合、画像の正確なワーピングを可能にするのに十分なシーンの奥行き情報があるので、6DoFフレームを正確にレンダリングすることができる。
【0013】
奥行きコンポーネントの第1セットが完全であると決定することは、フレーム内のシーンの欠落した奥行き情報を伴わずに6DoFのフレームをレンダリングするのに十分なシーンの奥行き情報を有する奥行きコンポーネントの第1セットによって定義され得る。同様に、奥行きコンポーネントの第1セットが過完備であることを決定することは、成分の第1セットがシーンの十分以上の奥行き情報を有するによって定義され得る。言い換えれば、奥行きコンポーネントの過完備の第1セットは、冗長なまたは重複する奥行き情報を有し得る。
【0014】
完全性の評価は、奥行きコンポーネントの連続性を評価すること、奥行きコンポーネントにおけるギャップまたは遮蔽を識別すること、欠落した奥行き情報を識別すること、アーチファクトを識別することなどによって実行され得る。
【0015】
画像の第1セットおよび奥行きコンポーネントの第1セットは、6DoFビデオの第1フレームをレンダリングするために使用され得る。画像の第2セットおよび奥行きコンポーネントの第2セットは、6DoFビデオの第2フレームをレンダリングするために使用されることができ、第2フレームは第1フレームの後にある。
【0016】
画像は、カメラのグループから取得されることができる。カメラのグループは、シーンを撮像する全ての利用可能なカメラからカメラのサブセットを選択することによって選択され得る。カメラのグループは、カメラの1つまたは複数のペアを備えることができ、それによって、カメラペア内の両方のカメラによって取得された画像からの奥行きコンポーネントの生成を可能にする。カメラペアは、或るカメラと、カメラペアのグループ内の最も近い利用可能なカメラとを選択することによって形成され得る。
【0017】
奥行きコンポーネントは、シーンのための(例えば、画像のペアから生成される)奥行きマップまたは任意の他のタイプの奥行き情報(例えば、3Dメッシュ、点群など)からなることができる。言い換えれば、奥行きコンポーネントは、複数の奥行き値を含むシーンの任意の形態の奥行き情報であり得る。
【0018】
例えば、奥行きマップでは、各奥行き値は奥行きマップのピクセルに対応し得る。3Dメッシュでは、各奥行き値は3Dメッシュの頂点、エッジおよび/または面に対応し得る。点群では、各奥行き値が点群内のポイントに対応し得る。
【0019】
カメラペアが2つの隣接するカメラから構成される必要はない。実際、2つのカメラのベースライン(すなわち、カメラ間の距離)が大きいほど、奥行き画像の精度が高くなるので、互いに遠い2つのカメラのカメラペアであることが好ましい場合がある。したがって、固定数の選択されたカメラでは、選択されたカメラのベースラインの累積(すなわち合計)は、各ピクセルが少なくとも2つのカメラで見ることができるという要件を満たすときに最大化され得る。
【0020】
例えば、左から右に選択されたカメラは、1,2,3,4として番号付けされ得る。カメラペアが1~3、2~4および2~3である場合、ベースラインの累積は、カメラペア1~2、2~3および3~4の累積よりも大きく、したがって、奥行きコンポーネントの精度はより大きくなり得る。
【0021】
奥行きコンポーネントの第1セットを分析することは、シーン内のオブジェクトのうちの1つまたは複数が画像の第1セットを取得するために使用されるカメラの第1グループにどれだけ近いかの指標を決定することを含むことができる。
【0022】
本発明者らは、シーン内のオブジェクトの近接度の指標(または近さの指標)を決定することを提案する。この指標は、シーンを現在撮像しているカメラ(すなわち、第1グループ)に対して、1つまたは複数のオブジェクトがどれくらい近いかを示す。現在の第1カメラグループが奥行きデータを取得することができる距離よりもオブジェクトがカメラに近い場合、6DoFビデオの次のフレームを取得するために、カメラペアの第2グループが選択され、第2カメラグループは、カメラに最も近いオブジェクトの奥行きデータを取得することができる。
【0023】
この指標は、オブジェクトが第1カメラグループに物理的にどのくらい近いかの推定値である。この指標は、例えば、奥行きの単一の値または単一の非数値指標(すなわち、近い、遠いなど)であることができる。代替的に、この指標は、最も近いオブジェクトの奥行きに関する情報と、最も近いオブジェクトがシーン内のどこにあるかに関する情報とを含むことができる。
【0024】
この指標はまた、1つ以上のオブジェクトの奥行きに関する情報、およびいくつかの実施形態では、1つ以上のオブジェクトの位置の情報を含んでもよい。
【0025】
奥行きコンポーネントは、少なくとも2つの画像に対して奥行き推定を実行することによって生成される奥行きマップを有することができる。
【0026】
奥行きコンポーネントは、奥行きマップ/奥行き画像を有することができ、各奥行きマップはカメラペアから取得された画像から生成される。奥行きマップは、カメラペアから取得された2つのテクスチャ画像(すなわち、カメラペア中の各カメラからの画像)に対して(例えば、奥行き視差を介して)奥行き推定を実行することによって取得され得る。
【0027】
一実施形態では、近接度の指標は、最も低い奥行き値を有する奥行きマップの画素に基づき得る。
【0028】
本発明の文脈において、奥行きマップ及び奥行き画像という用語は等価であり、かつ交換可能である。
【0029】
本方法は、シーン内のオブジェクトのうちのいずれか1つのオブジェクトのカメラ対向面が第1カメラグループ内の少なくとも2つのカメラの視野内で可視でないかどうかを決定することをさらに含み得、奥行きコンポーネントの第2グループを生成することはこの決定にさらに基づく。
【0030】
オブジェクトのカメラ対向面は、カメラグループ内の少なくとも1つのカメラによって撮像される(すなわち、少なくとも1つのカメラの視野(FOV)内で可視である)オブジェクトの面であることができる。オブジェクトの全てのカメラ対向面が少なくとも2つのカメラによって撮像される(すなわち、少なくとも2つのカメラのFOV内である)ことを保証することにより、奥行きコンポーネントがより正確に生成されることが可能になる。
【0031】
例えば、1つまたは複数のカメラ対向面が奥行きコンポーネントにおいて可視でないと判定された場合、第2カメラグループは、シーンを撮像するために利用可能なカメラの全てを備えるように選択され得る。あるいは、少なくとも2つのカメラのFOVにおいて現在は見えないカメラ対向面を撮像することができる1つまたは複数のカメラを特定することができる。
【0032】
奥行きコンポーネントの第1セットを分析することは、シーン内の任意のオブジェクトが奥行きコンポーネントの第1セットにおいて少なくとも部分的に遮蔽されているかどうかを決定することをさらに含み得る。
【0033】
オブジェクトの遮蔽を決定するために奥行きコンポーネントの第1セットを分析することは、遮蔽がどこにあるかと、生成される後続の奥行きコンポーネントにおいて遮蔽を回避するために次の(第2)フレームのための後続の画像を取得するためにどのカメラが使用され得るかを特定することを含み得る。
【0034】
例えば、オブジェクトの遮蔽が奥行きコンポーネントにおいて決定される場合、カメラの第2グループは、利用可能なカメラの全てを含むように選択され得る。代替として、遮蔽を修正するための1つまたは複数のカメラが特定されることができ、特定されたカメラは第2グループに含まれる。
【0035】
奥行きコンポーネントの第1セットを分析することは、奥行きコンポーネントの第1セットが任意の視覚的アーチファクトおよび/または奥行きアーチファクトを有するかどうかを決定することをさらに含み得る。
【0036】
視覚的アーチファクトおよび奥行きアーチファクトは、シーンの特定の部分、シーン内のオブジェクト、またはオブジェクトの一部を撮像するカメラの欠如に起因して生じ得る。アーチファクトはまた、故障したカメラ(すなわち、例えば、レンズが曇っていること、またはカメラのセンサが誤動作していることに起因して、意図されたようにシーンを撮像しないカメラ)によっても発生する可能性があり、したがって、異なるまたは追加のカメラが、第2グループにおいて必要とされる可能性がある。
【0037】
奥行きコンポーネントを分析して、それらが視覚的アーチファクト及び/又は奥行きアーチファクトを有するかどうかを決定することは、さらに、アーチファクトが奥行きコンポーネントのどこにあるかを特定することと、後続の奥行きコンポーネントのアーチファクトを修正するために、次の(第2)フレームの後続の第2画像セットを取得するためにどのカメラを使用することができるかを特定することとを含むことができる。
【0038】
奥行き推定は、通常、2つのカメラ画像間の特徴照合アルゴリズムを使用する。特徴照合アルゴリズムは、第1画像内のピクセルを第2画像内のピクセルと照合することに失敗した場合、大きい照合誤差を出力する。したがって、アーチファクトは、奥行き推定中に特徴照合アルゴリズムによって出力された照合誤差を使用して識別され得る。加えて、アーチファクトを有する奥行きマップの領域は、2つの画像内のどの画素が大きな照合誤差を有するかをチェックすることによって識別され得る。
【0039】
本方法は、奥行きコンポーネントの第1セットの分析に基づいて画像の第2セットを取得するように構成されたカメラのグループを選択することをさらに含むことができる。
【0040】
本発明者らは、奥行きコンポーネントの第1セットを分析し、この分析に基づいて、どのカメラを使用して画像の第2セットを取得するかを選択することを提案する。画像の第2セットは、第1セットよりも少ない数の画像を有することができる。画像の第2セットは、奥行きコンポーネントの第2セットを生成するために使用される。
【0041】
カメラのグループは、画像の第2セット内の画像の数を減らし、したがって奥行きコンポーネントの第2セット内の奥行きコンポーネントの数も減らすように選択されることができる。
【0042】
カメラのグループを選択することは、少なくとも1つのカメラから見えるシーン内の全てのオブジェクトがカメラのグループ内の少なくとも2つのカメラの視野内に含まれるように、カメラペアを選択することを含み得る。カメラは、全てのオブジェクトの全ての(可視の)部分について奥行きが推定され得るように選択されることができる。
【0043】
カメラのグループを選択することは、カメラの事前定義されたグループのセットからカメラの事前定義されたグループを選択することを含むことができ、カメラの事前定義されたグループの各々は、シーン内のオブジェクトがカメラの事前定義されたグループ内の少なくとも2つのカメラの視野内にあることが保証される、カメラの事前定義されたグループからの最小距離に関連付けられる。
【0044】
事前定義されたカメラのグループにおけるカメラ間の距離およびカメラの視野の知識から、事前定義されたグループがオブジェクトの奥行き情報を適切に取得できなくなる前に、事前定義されたグループに対してオブジェクトが存在し得る最も近い/最小の距離を導出することが可能である。言い換えれば、最小距離は、事前定義されたグループ内のカメラ間の距離とカメラの視野とに基づいて、カメラの事前定義されたグループごとに導出されることができる。
【0045】
したがって、カメラの事前定義されたグループの各々は、奥行き情報をオブジェクトについて取得することができるように(事前定義されたグループ内の)2つのカメラの視野内にオブジェクトがあることが保証される(事前定義されたグループからの)最小距離に対応する。
【0046】
分析が奥行きコンポーネントの第1セットが不完全であると決定する場合、奥行きコンポーネントの第2セットは、奥行きコンポーネントの第1セットよりも多数の奥行きコンポーネントを有し得る。
【0047】
奥行きコンポーネントの第1セットが不完全であることを決定することは、6DoFのフレームをレンダリングするのに十分なシーンの奥行き情報を奥行きコンポーネントの第1セットが有しないことによって定義され得る。言い換えれば、奥行きコンポーネントの不完全な第1セットは、フレーム内のシーンの欠落した奥行き情報を有し得る。
【0048】
奥行きコンポーネントの第1セットが過完備であることを決定することは、シーン内の最も近いオブジェクトが、シーン内のオブジェクトがカメラの第2グループ内の少なくとも2つのカメラの視野内にあることが保証される最小距離よりもカメラの第1グループから離れていることを示す近さの指標に基づくことができ、ここで、カメラの第2グループはカメラの第1グループよりも少ないカメラを含む。
【0049】
奥行きコンポーネントの第1セットが不完全であると決定することは、シーン内の最も近いオブジェクトが、シーン内のオブジェクトがカメラの第1グループ内の少なくとも2つのカメラの視野内にあることが保証される最小距離よりも第1カメラグループにより近いことを示す近さの指標に基づくことができる。
【0050】
本発明はまた、処理システムを有するコンピューティングシステム上で実行され、シーンの6自由度(6DoF)ビデオのための奥行きデータを生成する方法のステップの全てを処理システムに実行させるコンピュータプログラムコードを含むコンピュータプログラム製品を提供する。
【0051】
本発明はまた、シーンの6自由度(6DoF)ビデオのための奥行きデータを生成するためのシステムを提供し、このシステムは、
シーンの画像の第1セットを取得し、
画像の第1セットに基づいて奥行きコンポーネントの第1セットを生成し、
奥行きコンポーネントの完全性を決定するために奥行きコンポーネントの第1セットを分析し、
シーンの画像の第2セットを取得し、
画像の第2セットに基づいて奥行きコンポーネントの第2セットを生成するように構成されたプロセッサを有し、
分析が奥行きコンポーネントの第1セットが過完備であると決定した場合、第2セット内の奥行きコンポーネントの数は、第1セット内の奥行きコンポーネントの数よりも小さくなるように選択される。
【0052】
プロセッサは、シーン内のオブジェクトのうちの1つまたは複数が第1カメラグループにどれだけ近いかの指標を決定することによって、奥行きコンポーネントの第1セットを分析するように構成され得る。
【0053】
プロセッサは、シーン内のオブジェクトのうちのいずれか1つのオブジェクトのカメラ対向面がカメラの第1グループ内の少なくとも2つのカメラの視野内で可視でないかどうかを決定するようにさらに構成されることができ、プロセッサは、当該決定に基づいて奥行きコンポーネントの第2グループを生成するようにさらに構成されることができる。
【0054】
プロセッサは、奥行きコンポーネントの第1セットの分析に基づいて、画像の第2セットを取得するように構成されるカメラのグループを選択するようにさらに構成され得る。
【0055】
プロセッサは、カメラの事前定義されたグループのセットからカメラの事前定義されたグループを選択することによって、カメラのグループを選択するように構成されることができ、カメラの事前定義されたグループの各々は、シーン中のオブジェクトがカメラの事前定義されたグループ中の少なくとも2つのカメラの視野内にあることが保証される、カメラの事前定義されたグループからの最小距離に関連付けられる。
【0056】
システムは、複数のカメラを含むカメラのグループをさらに備えることができる。
【0057】
本発明のこれらおよび他の態様は、以下に記載される実施形態から明らかになり、これを参照して説明される。
【図面の簡単な説明】
【0058】
本発明をより良く理解し、本発明をどのように実施することができるかをより明確に示すために、単なる例として、添付の図面を参照する。
【
図2】6つのカメラペアを有するカメラのアレイを示す図。
【
図3】4つのカメラペアを有するカメラのアレイを示す図。
【
図4】3つのカメラペアを有するカメラのアレイを示す図。
【
図5A】2つのカメラペアを有する2つのオブジェクトを撮像するカメラのアレイを示す図。
【
図5B】3つのカメラペアを有する2つのオブジェクトを撮像するカメラのアレイを示す図。
【
図6】本発明の実施形態によるフローチャートを示す。
【発明を実施するための形態】
【0059】
本発明は、図面を参照して説明される。
【0060】
詳細な説明および特定の例は、装置、システムおよび方法の例示的な実施形態を示しているが、例示のみを目的としたものであり、本発明の範囲を限定することを意図したものではないことを理解されたい。本発明の装置、システム及び方法のこれら及び他の特徴、態様、及び利点は、以下の説明、添付の特許請求の範囲、及び添付の図面からより良く理解されるあろう。図面は単に概略的なものであり、一定の縮尺で描かれていないことを理解されたい。また、同じ参照番号が、同じまたは類似の部分を示すために、図面全体にわたって使用されることを理解されたい。
【0061】
本発明は、シーンの6自由度(6DoF)ビデオのための奥行きデータを生成する方法を提供する。この方法は、シーンの画像の第1セットを取得することと、画像の第1セットに基づいて奥行きコンポーネントの第1セットを生成することと、奥行きコンポーネントの完全性を決定するために奥行きコンポーネントの第1セットを分析することとを含む。シーンの画像の第2セットがさらに取得され、画像の第2セットに基づいて奥行きコンポーネントの第2セットが生成され、分析が奥行きコンポーネントの第1セットが過完備であると決定した場合、第2セット内の奥行きコンポーネントの数は、第1セット内の奥行きコンポーネントの数よりも小さくなるように選択される。
【0062】
図1は、カメラ102のアレイを示す。各カメラ102は、対応する視野106を有する。視野106は、カメラ(102)3と4からなるカメラペア104についてのみ示されている。影付きの領域108は、カメラペア104によって取得された画像に基づいて奥行きデータを取得することができるシーンの領域を示す。
【0063】
一般に、シーンの奥行きデータを取得するために使用されるカメラペア104の数は、ビデオを撮影する空間のサイズに依存するだけでなく、シーン内の全てのオブジェクトがカメラペア104にどれだけ近いかにも依存する。オブジェクトがカメラペア104に非常に近い場合、いくつかのカメラ102は、奥行きデータを適切に推定するために、他のカメラ102の近くに移動されなければならない場合がある。言い換えれば、カメラペア104のベースラインは、オブジェクトが接近しているとき、短くあるべきである。しかしながら、オブジェクトがカメラペア104から遠い場合、ベースラインはより長くなり得る。他の全ての条件が同じなら、特徴マッチング/視差を使用するときに、より長いベースラインによって奥行き推定における精度が高くなるので、より長いベースラインが好ましいだろう。
【0064】
動的なシーン(例えば、フットボールの試合)では、背景は通常、カメラ102のアレイから非常に遠い。しかしながら、プレーヤは、時にはカメラ102のアレイに近接し、時にはそれらから遠くなるように、移動しているだろう。このため、必ずしも常に全てのカメラ102を互いに近接させる必要はない。しかしながら、VR撮影の間、全てのカメラ102は好ましくは固定されるべきであり、最悪の場合を考慮すると、十分なカメラ102が使用されるべきであり、それらは、接近しているオブジェクトの奥行きデータを取得するために、互いに十分に接近しているべきである。
【0065】
一旦カメラ102がセットアップされると、カメラ102の数およびそれらの相対位置は固定される可能性が高い。しかしながら、動的なシーンでは、奥行きデータを推定するためにカメラ102で得られた全ての画像を常に使用する必要はないことが認識されている。したがって、アルゴリズムは、取得された画像のサブセットを選択することができ、そしてこのサブセットは、検出されたシーンに従って奥行きデータを推定するために使用されることができる。これは、計算パワーを節約し、計算効率を改善することができる。
【0066】
要約すると、特許請求の範囲による本発明は、シーンの奥行きデータを推定するためにカメラ102のアレイから必要な画像を動的に選択し、それによって必要な計算パワーを低減する方法を提案する。
【0067】
カメラ102のアレイは、カメラ102からワークステーションに全ての画像を送信するためのワークステーションおよびケーブルをさらに含む6-DoF VRビデオ撮影システムの一部であることができる。ワークステーションは、第1フレームの各カメラペア104の奥行きデータを生成するように構成されたプロセッサを備えることができる。そして、ワークステーションは、特定のカメラペア104から必要な画像を選択することができ、これらの画像は、後続のフレームの奥行きデータをさらに推定するために必要である。必要な画像を選択することは、前のフレームの奥行きデータを分析することに基づく。
【0068】
前のフレームの奥行きデータを(例えば、アルゴリズムを介して)分析することは、前の推定された奥行きデータに従って、冗長なカメラペア104を検出し、除去することを含むことができる。オプションとして、現在選択されているカメラペア104が奥行きデータを推定するのに十分でないことを分析が検出した場合、より多くのカメラペア104を追加することができる。奥行きデータは、奥行き画像または奥行きマップであり得る。
【0069】
カメラペア104の選択は、以前の奥行きデータに基づくことができる。カメラペア104の選択はさらに、シーン内のオブジェクトの遮蔽の検出に基づくことができる。加えて、カメラペア104の選択は、シーンの特定のエリアにおける奥行き推定の失敗をチェックすることに基づくことができる。特定のカメラペア104からの画像に基づいて奥行きデータを推定するときに、特定の領域における奥行きおよび/または遮蔽を推定することができない場合、その特定領域の奥行きデータを取得することができる、より多くの(または異なる)カメラペア104が必要とされ得る。奥行きデータを分析する方法は、以下でさらに詳述される。
【0070】
カメラペア104の選択は、どの画像(すなわち、どのカメラペア104から)が奥行き推定のために使用されるかを定義する。したがって、奥行き推定の分析は、第1フレームの奥行きデータに基づいて、第2フレームのための奥行き推定のためにどの画像が使用されるかを選択するために使用され得る。この場合、全ての画像が第2フレームのためにカメラ102の全てから取得され得るが、画像の特定のサブセットのみが、選択されたカメラペアに基づいて選択される。一般に、或るフレームの奥行きデータは、後続のフレームにおける奥行き推定のためにどの画像が使用されるかを選択するために使用される。
【0071】
図2は、6つのカメラペア104(a~f)を有するカメラ102のアレイを示す。オブジェクトの奥行きを推定するために、オブジェクトは、或るカメラペア104の少なくとも2つのカメラ102の視野106内に存在しなければならない。画素の奥行きは、カメラペア104によってキャプチャされた2つの画像間の視差計算によって推定されることができる。
【0072】
影付きの領域108は、6つのカメラペア104a~fに基づいて奥行きを正確に推定することができる領域を定義する。破線202は、推定される奥行きデータもはや完全ではなくなる前に、オブジェクトが6つのカメラペア104a~fにどれだけ近くなり得るかを定める。6つのカメラペア104a~fを使用することによって、オブジェクトの各部分が少なくとも1つのカメラペア104において観察されることができることを確実にしながら、オブジェクトをカメラアレイに比較的近くすることができる。
【0073】
図3は、4つのカメラペア104a、104c、104eおよび104fを有するカメラ102のアレイを示す。
図1および
図2と同様に、影付きの領域108は、所与のカメラペア104a、104c、104eおよび104fに基づいて奥行きを正確に推定することができるシーンの領域を定義する。線302は、推定される奥行きデータもはや完全ではなくなる前に、オブジェクトが4つのカメラペア104a、104c、104eおよび104fにどれだけ近くなり得るかを定める。
【0074】
4つのカメラペア104a、104c、104eおよび104fのみを使用することによって、オブジェクトは、6つのカメラペア104a~fが使用されるとき(
図2を参照)ほどはカメラのアレイに近づくことができないが、奥行きデータは、6つのカメラペア104a~fの代わりに、4つのカメラペア104a、104c、104eおよび104fについてのみ推定されるだけでよい。
【0075】
図4は、3つのカメラペア104g、104hおよび104iを有するカメラ102のアレイを示す。
図1、
図2および
図3と同様に、影付きの領域108は、所与のカメラペア104g、104hおよび104iに基づいて奥行きを正確に推定することができるシーンの領域を定める。線402は、推定される奥行きデータもはや完全ではなくなる前に、オブジェクトが3つのカメラペア104g、104hおよび104iにどれだけ近くなり得るかを定める。
【0076】
3つのカメラペア104g、104hおよび104iのみを使用することによって、オブジェクトは、4つまたは6つのカメラペア104が使用されるとき(
図2および3を参照されたい)のようにはカメラのアレイに近づくことができないが、奥行きデータは、4つまたは6つのカメラペア104の代わりに、3つのカメラペア104g、104hおよび104iについて推定されるだけでよい。
【0077】
したがって、
図2、
図3および
図4に基づいて、奥行きデータが取得されるカメラペア104の数と、オブジェクトがカメラ102のアレイにどれだけ近づくことができるかとの間に明確な関係がある。例えば、オブジェクトがカメラ102のアレイから遠くに移動するとき、奥行きデータを推定するために必要な計算リソースが低減されることは明らかである。動的なシーンにおける奥行きデータが
図2に示される6つのカメラペア104a~fについて常に推定される場合、カメラ102のアレイに近接するオブジェクトが常に存在する可能性は低いので、これは、おそらく計算リソースの浪費である。
【0078】
実際には、カメラ102のアレイまでのオブジェクトの距離は(例えば、前のフレームからの奥行きデータに基づいて)既知であり、したがって、どのカメラペア104を選択するか(すなわち、次のフレームの奥行き推定にどの画像を使用するか)を見つける方法が必要である。
【0079】
6-DoFビデオの開始時には、システムは、それが観察するシーンについて全く分からない可能性がある。したがって、第1フレームの奥行きデータを推定するために多数のカメラペア104を使用することが有利であり得る(例えば、
図2に示されるように、第1フレームのために全ての2つの隣接するカメラごを使用する)。その後、第1フレームの奥行きデータを使用して、シーンの各部分が少なくとも1つのカメラペア104で見られることを保証する最小限の数のカメラペア104を選択することができる。
【0080】
加えて、カメラペア104のベースライン(すなわち、2つのカメラ間の距離)が大きいほど、奥行きデータは正確になる。したがって、使用される全てのカメラペア104の全てのベースラインの累積(すなわち、合計)は、カメラペア104を選択するときに最大化され得る。2つの条件(すなわち、少なくとも1つのカメラペア104によって撮像されたシーンの各部分および最大化されたベースラインの合計)を満たすようにカメラを選択するために、任意の種類の最適化方法(またはブルートフォース法)が使用され得る。カメラペア104が選択された後、選択されたカメラペア104を使用して、次のフレームの奥行きデータを推定することができる。この方法は、後続のフレームの各々に対して連続して使用できる。この方法は、いくつかのオブジェクトがカメラ102から離れるように移動しているときに適用可能である。
【0081】
一旦カメラペア104が選択され、奥行きデータ推定のために使用されると、いくつかのオブジェクトがいくつかのカメラに向かって移動している場合、次のフレームのためにより多くのカメラペア104が選択される必要がある可能性がある。オプションとして、全ての選択されたカメラペア104の奥行きデータを縫い合わせることができる。複数のカメラペア104から奥行きデータを縫い合わせることは、奥行きデータの全てが単一のコンポーネント(例えば、奥行き画像)に結合される(すなわち、ステッチされる)ことを伴う。ステッチアルゴリズムは、例えば、奥行き画像及び/又は奥行きマップを縫い合わせるために知られている。場合によっては、全ての奥行きデータを、例えば、ステッチアルゴリズムによって1つの奥行き画像として縫い合わせることができないことがある。
【0082】
奥行きデータの縫い合わせ中に誤差が検出された場合、奥行きギャップに対応する1つまたは複数のカメラペアが追加され得る。代替的に、全てのカメラペア104(例えば、
図2)を使用して、第2フレームの奥行きデータを推定し、次いで、第2フレームの推定された奥行きデータを使用して、第3フレームのためのカメラペア104を再選択することができる。カメラペア104を選択することは、カメラペア104によって取得された奥行きデータおよび/または奥行きデータから生成された縫い合わされたされた奥行きコンポーネントに基づくことができる。
【0083】
図5Aおよび5Bは、それぞれ2つおよび3つのカメラペア104により2つのオブジェクト502および504を撮像するカメラ102のアレイを示す。
図5Aおよび5Bのカメラ102のアレイは、簡潔さのために4つのカメラ102のみを含む。
図5Aでは、オブジェクト502は、選択されたカメラペア104aおよび104bに対してオブジェクト504を部分的に遮蔽している。領域506は、オブジェクト502によって遮られたシーンの領域を示す。したがって、オブジェクト504の一部は、カメラペア104aおよび104bの両方に対してオブジェクト502によって遮蔽されている。オブジェクト502がシーン内にない場合、オブジェクト504の全ての奥行きデータは、カメラペア104aおよび104bの両方によって推定されることができる。しかしながら、オブジェクト502によって引き起こされる遮蔽に起因して、奥行きデータは、これらのカメラペアを使用してオブジェクト504の全てについてもはや推定されることができない。
【0084】
図5Bでは、カメラペア104cも選択されている。オブジェクト502は、カメラペア104cに対してオブジェクト504を遮蔽せず、したがって、カメラペア104cによって奥行きデータを取得することができる。したがって、カメラペア104を選択するときには、オブジェクト遮蔽も考慮する必要があり得る。
【0085】
図6は、本発明の実施形態によるフローチャートを示す。6-DoFビデオの開始時に(すなわち、ビデオの第1フレームのために)、全てのカメラペアが使用されることができる(ステップ602)。ステップ604において、全てのカメラペアからの画像が受信され、ステップ606において、シーンの奥行きデータ(例えば、奥行き画像/奥行きマップ)を推定するために使用される。
図2に示すように、隣接する2つのカメラ毎からの画像を使用して、奥行きデータを生成することができる。ステップ608において、各々の選択されたカメラペアの奥行きデータは、スティッチアルゴリズムによって縫い合わせられることができる。
【0086】
ステップ610において、縫い合わされた奥行きデータを分析して、「エラー」が存在するかどうかを判定することができる。あるいは、(スティッチ608の前に)奥行きデータを分析することができる(610)。分析610が1つまたは複数のエラーを識別する場合、それは、選択されたカメラペアがそのシーンのための奥行きデータの完全なセットを取得するのに十分ではないことを意味する。言い換えれば、奥行きデータは、不完全であり得る。エラーは、オブジェクトがカメラアレイ内の少なくとも2つのカメラによって撮像されていない、オブジェクトが遮蔽されている、または或るカメラペアについて奥行きデータが完全でない(例えば、カメラのレンズが汚れている/破損している)ことを含む。エラーが発生した場合、ステップ612において、全てのカメラペアが再選択され、次のフレームのために使用されることができる。
【0087】
縫い合わされた奥行きデータにエラーが検出されない場合、これは、現在のフレーム内のシーンについて取得された奥行きデータが過完備である(すなわち、奥行きデータがシーンに必要とされるよりも多い/奥行きデータの一部が冗長であるかまたは複製されている)ことを意味し得る。この場合、最適化方法614を使用して、3つの条件を満たすカメラペアを選択することができる:選択されたカメラの数が最小であり、奥行きデータ内の各ピクセルに対応する現実世界のシーンの一部が少なくとも2つのカメラによって物理的に観察され(遮蔽が考慮される)、選択されたカメラペアのベースラインの累積が最大である。最適化方法614は、次のフレームのためのカメラペアを選択するために使用される(ステップ616)。各フレームについて、出力は、縫い合わされた奥行き画像であってもよい。
【0088】
明らかに、上記のカメラペアの選択は、奥行き推定のための画像ペアを取得するために使用される。しかしながら、カメラペアの選択は、どのカメラがシーンの画像を取得するかを選択すること、またはどのカメラの画像を奥行き推定に使用するかを選択することを伴い得る。奥行き推定のために3つ以上のカメラを選択することができる(例えば、カメラペアの代わりにより正確な奥行きデータのために3つのカメラを選択することができる)。
【0089】
当業者は、本明細書に記載の如何なる方法も実行するためのプロセッサを容易に開発することができる。したがって、フローチャートの各ステップは、プロセッサによって実行されるそれぞれの動作を表すことができ、プロセッサのそれぞれのモジュールによって実行され得る。
【0090】
上述したように、システムは、データ処理を行うためにプロセッサを利用する。プロセッサは、必要とされる様々な機能を実行するために、ソフトウェア及び/又はハードウェアを用いて、様々な方法で実施される。前記プロセッサは通例、ソフトウェア(例えば、マイクロコード)を用いて、必要とされる機能を行うようにプログラムされる1つ以上のマイクロプロセッサを用いる。プロセッサは、幾つかの機能を実行するための専用ハードウェアと、他の機能を実行するための1つ以上のプログラムされるマイクロプロセッサ及び関連する回路との組合せとして実施されてもよい。
【0091】
本開示の様々な実施形態に用いられる回路の例は、これらに限定されないが、従来のマイクロプロセッサ、特定用途向け集積回路(ASIC)及びフィールドプログラマブルゲートアレイ(FPGA)を含む。
【0092】
様々な実施において、前記プロセッサは、例えばRAM、PROM、EPROM及びEEPROMのような揮発性及び不揮発性コンピュータメモリである1つ以上の記憶媒体に関連付けられることができる。この記憶媒体は、1つ以上の処理器及び/又は制御器上で実行されるとき、必要とされる機能を実行する1つ以上のプログラムで符号化されることができる。様々な記憶媒体は、処理器又は制御器内に取り付けられてもよいし、あるいは、記憶媒体に記憶される1つ以上のプログラムが処理器に読み込まれるように搬送可能であることができる。
【0093】
開示された実施形態に対する変形例は、図面、開示、および添付の特許請求の範囲の検討から、特許請求された発明を実施する際に当業者によって理解され、実施されることができる。請求項において、単語「有する」は、他の要素又はステップを排除するものではなく、不定冠詞「a」又は「an」は、複数性を排除するものではない。
【0094】
単一のプロセッサ又は他のユニットが、請求項に列挙されるいくつかの項目の機能を果たすことができる。
【0095】
特定の手段が相互に異なる従属請求項に記載されているという単なる事実は、これらの手段の組み合わせが有利に使用されることができないことを示すものではない。
【0096】
コンピュータプログラムは他のハードウェアと一緒に、またはその一部として供給される光記憶媒体またはソリッドステート媒体などの適切な媒体上に記憶/配布されることができるが、インターネットまたは他の有線もしくは無線電気通信システムなどを介して、他の形態で配布されることもできる。
【0097】
「に適応する」という用語が請求項又は明細書に用いられる場合、「に適応する」という用語は、「ように構成される」と言う用語と同様であることを意味する。
【0098】
請求項におけるいかなる参照符号も、範囲を限定するものとして解釈されるべきではない。