特表2025-504307 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ クアルコム，インコーポレイテッドの特許一覧

特表2025-504307画像再投影のためのシステムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4A
4B
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2025-02-12

(54)【発明の名称】画像再投影のためのシステムおよび方法

(51)【国際特許分類】

G06T 15/20 20110101AFI20250204BHJP

H04N 23/68 20230101ALI20250204BHJP

H04N 23/60 20230101ALI20250204BHJP

H04N 23/63 20230101ALI20250204BHJP

G06V 20/20 20220101ALI20250204BHJP

G06T 7/223 20170101ALI20250204BHJP

【ＦＩ】

G06T15/20

H04N23/68

H04N23/60 500

H04N23/63

H04N23/60 300

G06V20/20

G06T7/223

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024539048

(86)(22)【出願日】2022-12-21

(85)【翻訳文提出日】2024-06-26

(86)【国際出願番号】 US2022082189

(87)【国際公開番号】W WO2023129855

(87)【国際公開日】2023-07-06

(31)【優先権主張番号】63/266,316

(32)【優先日】2021-12-31

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/931,063

(32)【優先日】2022-09-09

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＢＬＵ―ＲＡＹＤＩＳＣ

２．ＥＴＨＥＲＮＥＴ

(71)【出願人】

【識別番号】507364838

【氏名又は名称】クアルコム，インコーポレイテッド

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(74)【代理人】

【識別番号】100163522

【弁理士】

【氏名又は名称】黒田晋平

(72)【発明者】

【氏名】ピア・ゾーベル

(72)【発明者】

【氏名】ユヴァル・シュワルツ

(72)【発明者】

【氏名】タル・ザディック

(72)【発明者】

【氏名】イスハーク・マルツィアーノ

(72)【発明者】

【氏名】ロイ・ハードゥーン

(72)【発明者】

【氏名】メイア・ツール

(72)【発明者】

【氏名】ロン・ガイズマン

(72)【発明者】

【氏名】イェフダ・パステルナーク

【テーマコード（参考）】

5C122

5L096

【Ｆターム（参考）】

5C122DA03

5C122EA41

5C122FA04

5C122FA18

5C122FH04

5C122FH11

5C122FH12

5C122FH18

5C122FJ03

5C122FK09

5C122FK12

5C122FK21

5C122GC14

5C122GC52

5C122HA75

5C122HA88

5C122HB01

5C122HB05

5C122HB10

5L096AA09

5L096EA15

5L096EA16

5L096EA26

5L096HA04

(57)【要約】

撮像システムは、深度センサから（環境に対応する）深度データを受信し、画像センサから第１の画像データ（環境の描写）を受信する。撮像システムは、深度データに基づいて、第１の画像データにおける環境の描写の視点の変化に対応する第１の動きベクトルを生成する。撮像システムは、第１の動きベクトルに基づくグリッド反転を使用して、視点の変化について第１の画像データにおける環境の描写のそれぞれの画素が移動したそれぞれの距離を示す第２の動きベクトルを生成する。撮像システムは、第２の動きベクトルに従って第１の画像データを修正することによって第２の画像データを生成する。第２の画像データは、第１の画像データとは異なる視点からの環境の第２の描写を含む。いくつかの画像再投影アプリケーション（例えば、フレーム補間）は、深度データなしで実行することができる。

【特許請求の範囲】

【請求項1】

画像処理のための装置であって、
少なくとも１つのメモリと、
前記少なくとも１つのメモリに結合される少なくとも１つのプロセッサであって、
環境に対応する深度情報を含む深度データを受信することと、
画像センサによってキャプチャされた第１の画像データを受信することであって、前記第１の画像データは前記環境の描写を含む、受信することと、
少なくとも前記深度データに基づいて、前記第１の画像データ内の前記環境の前記描写の視点の変化に対応する第１の複数の動きベクトルを生成することと、
前記第１の複数の動きベクトルに基づくグリッド反転を使用して、前記視点の変化について前記第１の画像データにおける前記環境の前記描写のそれぞれの画素が移動したそれぞれの距離を示す第２の複数の動きベクトルを生成することと、
前記第２の複数の動きベクトルに従って前記第１の画像データを少なくとも部分的に修正することによって第２の画像データを生成することであって、前記第２の画像データは、前記第１の画像データとは異なる視点からの前記環境の第２の描写を含む、生成することと、
前記第２の画像データを出力することと
を行うように構成される、少なくとも１つのプロセッサと
を備える、装置。

【請求項2】

前記第２の画像データは、第１の時間と第３の時間との間の第２の時間に前記環境を描写するように構成される補間画像を含み、前記第１の画像データは、前記第１の時間または前記第３の時間のうちの少なくとも１つにおける前記環境を描写する少なくとも１つの画像を含む、請求項１に記載の装置。

【請求項3】

前記第１の画像データは、視差移動を含むビデオデータの複数のフレームを含み、前記第２の画像データは、前記視差移動を低減するビデオデータの前記複数のフレームの安定化された変形を含む、請求項１に記載の装置。

【請求項4】

前記第１の画像データは、第１の角度から前記画像センサを見ている人物を含み、前記第２の画像データは、前記第１の角度とは異なる第２の角度から前記画像センサを見ている前記人物を含む、請求項１に記載の装置。

【請求項5】

視点の変化は、角度に従い軸を中心とした視点の回転を含む、請求項１に記載の装置。

【請求項6】

視点の変化は、方向および距離に従った視点の並進を含む、請求項１に記載の装置。

【請求項7】

視点の変化は変換を含む、請求項１に記載の装置。

【請求項8】

前記視点の変化は、前記第１の画像データにおける前記環境の前記描写の元の視点と前記環境におけるオブジェクトの位置との間の軸に沿った移動を含み、前記オブジェクトの少なくとも一部は、前記第１の画像データ内に描写される、請求項１に記載の装置。

【請求項9】

前記少なくとも１つのプロセッサが、
前記第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて前記第２の画像データ内の１つまたは複数のギャップを識別し、
前記第２の画像データを出力する前に補間を使用して前記第２の画像データ内の前記１つまたはまたは複数のギャップを少なくとも部分的に埋めることによって前記第２の画像データを修正する、
ように構成される、請求項１に記載の装置。

【請求項10】

前記少なくとも１つのプロセッサが、
前記第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて前記第２の画像データ内の１つまたは複数のオクルージョン領域を識別し、
前記第２の画像データを出力する前にインペインティングを使用して前記第２の画像データ内の前記１つまたは複数のギャップを少なくとも部分的に埋めることによって前記第２の画像データを修正する
ように構成される、請求項１に記載の装置。

【請求項11】

前記少なくとも１つのプロセッサが、
前記第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて前記第２の画像データ内の１つまたは複数のオクルージョン領域を識別し、
前記第２の画像データを出力する前に１つまたは複数のトレーニング済み機械学習モデルを使用するインペインティングを使用して前記第２の画像データ内の前記１つまたは複数のギャップを少なくとも部分的に埋めることによって前記第２の画像データを修正する
ように構成される、請求項１に記載の装置。

【請求項12】

前記少なくとも１つのプロセッサが、
前記第２の複数の動きベクトル内の前記第１の画像データからの１つまたは複数の競合値に基づいて、前記第２の画像データ内の１つまたは複数の競合を識別し、
前記第２の複数の動きベクトルに関連付けられた移動データに基づいて、前記第１の画像データから前記１つまたは複数の競合値のうちの１つを選択する、
ように構成される、請求項１に記載の装置。

【請求項13】

前記深度情報は、第１の視点からの環境の三次元表現を含む、請求項１に記載の装置。

【請求項14】

前記深度データは、少なくとも１つの深度センサから受信される、請求項１に記載の装置。

【請求項15】

ディスプレイであって、前記第２の画像データを出力するために、前記少なくとも１つのプロセッサは、少なくとも前記ディスプレイを使用して前記第２の画像データを表示するように構成される、ディスプレイ
をさらに備える、請求項１に記載の装置。

【請求項16】

通信インターフェースであって、前記第２の画像データを出力するために、前記少なくとも１つのプロセッサは、少なくとも前記通信インターフェースを使用して少なくとも受信側デバイスに少なくとも前記第２の画像データを送信するように構成される、通信インターフェース
をさらに備える、請求項１に記載の装置。

【請求項17】

前記装置は、ヘッドマウントディスプレイ（ＨＭＤ）、モバイルハンドセット、またはワイヤレス通信デバイスのうちの少なくとも１つを含む、請求項１に記載の装置。

【請求項18】

画像処理のための方法であって、
環境に対応する深度情報を含む深度データを受信するステップと、
画像センサによってキャプチャされた第１の画像データを受信するステップであって、前記第１の画像データは前記環境の描写を含む、ステップと、
少なくとも前記深度データに基づいて、前記第１の画像データ内の前記環境の前記描写の視点の変化に対応する第１の複数の動きベクトルを生成するステップと、
前記第１の複数の動きベクトルに基づくグリッド反転を使用して、前記視点の変化について前記第１の画像データにおける前記環境の前記描写のそれぞれの画素が移動したそれぞれの距離を示す第２の複数の動きベクトルを生成するステップと、
前記第２の複数の動きベクトルに従って前記第１の画像データを少なくとも部分的に修正するステップによって第２の画像データを生成するステップであって、前記第２の画像データは、前記第１の画像データとは異なる視点からの前記環境の第２の描写を含む、ステップと、
前記第２の画像データを出力するステップと
を含む、方法。

【請求項19】

前記第２の画像データは、第１の時間と第３の時間との間の第２の時間に前記環境を描写するように構成される補間画像を含み、前記第１の画像データは、前記第１の時間または前記第３の時間のうちの少なくとも１つにおける前記環境を描写する少なくとも１つの画像を含む、請求項１８に記載の方法。

【請求項20】

前記第１の画像データは、視差移動を含むビデオデータの複数のフレームを含み、前記第２の画像データは、前記視差移動を低減するビデオデータの前記複数のフレームの安定化された変形を含む、請求項１８に記載の方法。

【請求項21】

前記第１の画像データは、第１の角度から前記画像センサを見ている人物を含み、前記第２の画像データは、前記第１の角度とは異なる第２の角度から前記画像センサを見ている前記人物を含む、請求項１８に記載の方法。

【請求項22】

視点の変化は、角度に従い軸を中心とした視点の回転を含む、請求項１８に記載の方法。

【請求項23】

視点の変化は、方向および距離に従った視点の並進を含む、請求項１８に記載の方法。

【請求項24】

視点の変化は変換を含む、請求項１８に記載の方法。

【請求項25】

前記視点の変化は、前記第１の画像データにおける前記環境の前記描写の元の視点と前記環境におけるオブジェクトの位置との間の軸に沿った移動を含み、前記オブジェクトの少なくとも一部は、前記第１の画像データ内に描写される、請求項１８に記載の方法。

【請求項26】

前記第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて前記第２の画像データ内の１つまたは複数のギャップを識別するステップと、
前記第２の画像データを出力する前に補間を使用して前記第２の画像データ内の前記１つまたは複数のギャップを少なくとも部分的に埋めるステップによって前記第２の画像データを修正するステップと、
をさらに含む、請求項１８に記載の方法。

【請求項27】

前記第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて前記第２の画像データ内の１つまたは複数のオクルージョン領域を識別するステップと、
前記第２の画像データを出力する前にインペインティングを使用して前記第２の画像データ内の前記１つまたは複数のギャップを少なくとも部分的に埋めるステップによって前記第２の画像データを修正するステップと、
をさらに含む、請求項１８に記載の方法。

【請求項28】

前記第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて前記第２の画像データ内の１つまたは複数のオクルージョン領域を識別するステップと、
前記第２の画像データを出力する前に１つまたは複数のトレーニング済み機械学習モデルを使用するインペインティングを使用して前記第２の画像データ内の前記１つまたは複数のギャップを少なくとも部分的に埋めるステップによって前記第２の画像データを修正するステップと、
をさらに含む、請求項１８に記載の方法。

【請求項29】

前記第２の複数の動きベクトル内の前記第１の画像データからの１つまたは複数の競合値に基づいて、前記第２の画像データ内の１つまたは複数の競合を識別するステップと、
前記第２の複数の動きベクトルに関連付けられた移動データに基づいて、前記第１の画像データから前記１つまたは複数の競合値のうちの１つを選択するステップと、
をさらに含む、請求項１８に記載の方法。

【請求項30】

前記第２の画像データを出力するステップは、少なくとも１つのディスプレイを使用して前記第２の画像データを表示させるステップを含む、請求項１８に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、画像処理に関する。より具体的には、本出願は、例えばグリッド反転を使用して、第２の視点からキャプチャされたように見える第２の画像を生成するために第１の視点からキャプチャされた第１の画像を再投影するシステムおよび方法に関する。

【背景技術】

【0002】

カメラは、画像センサを使用して、光を受け入れるとともに静止画像またはビデオフレームなどの画像フレームをキャプチャするデバイスである。カメラは、カメラの視野に対応する視点から環境を描写する画像をキャプチャする。

【0003】

エクステンデッドリアリティ（ＸＲ）デバイスは、例えば、ヘッドマウントディスプレイ（ＨＭＤ）またはモバイルハンドセットを通して、環境をユーザに表示するデバイスである。環境は、ユーザがいる現実世界の環境とは少なくとも部分的に異なる。ユーザは、一般に、例えば、ＨＭＤまたは他のデバイスを傾けるかまたは移動させることによって、環境のビューを対話式に変更することができる。仮想現実（Virtual reality、ＶＲ）、拡張現実（augmented reality、ＡＲ）、および複合現実（mixed reality、ＭＲ）は、ＸＲの例である。ＸＲデバイスは、環境から情報をキャプチャするセンサを含むことができる。

【発明の概要】

【0004】

いくつかの例では、画像処理のためのシステムおよび技術が説明される。いくつかの例では、撮像システムは、（環境に対応する）深度データを受信する。撮像システムは、画像センサによってキャプチャされた（環境の描写を含む）第１の画像データを受信する。撮像システムは、深度データに基づいて、第１の画像データにおける環境の描写の視点の変化に対応する第１の動きベクトルを生成する。撮像システムは、第１の動きベクトルに基づくグリッド反転を使用して、視点の変化について第１の画像データにおける環境の描写のそれぞれの画素が移動したそれぞれの距離を示す第２の動きベクトルを生成する。撮像システムは、第１の動きベクトルおよび／または第２の動きベクトルに従って第１の画像データを修正することによって第２の画像データを生成する。第２の画像データは、第１の画像データとは異なる視点からの環境の第２の描写を含む。撮像システムは、第２の画像データを出力する。いくつかの画像再投影アプリケーション（例えば、フレーム補間）は、深度データなしで実行することができる。

【0005】

一例では、画像処理のための装置が提供される。装置は、メモリと、メモリに結合された１つまたは複数のプロセッサ（例えば、回路で実装される）とを含む。１つまたは複数のプロセッサは、環境に対応する深度情報を含む深度データを受信し、画像センサによってキャプチャされた第１の画像データであって、第１の画像データは環境の描写を含む、第１の画像データを受信し、少なくとも深度データに基づいて、第１の画像データにおける環境の描写の視点の変化に対応する第１の複数の動きベクトルを生成し、第１の複数の動きベクトルに基づくグリッド反転を使用して、視点の変化について第１の画像データにおける環境の描写のそれぞれの画素が移動したそれぞれの距離を示す第２の複数の動きベクトルを生成し、第２の複数の動きベクトルに対応する第１の画像データを少なくとも部分的に修正することによって第２の画像データであって、第２の画像データは、第１の画像データとは異なる視点からの環境の第２の描写を含む、第２の画像データを生成し、第２の画像データを出力する、ように構成されており、これらを行うことができる。

【0006】

別の例では、画像処理の方法が提供される。方法は、環境に対応する深度情報を含む深度データを受信することと、画像センサによってキャプチャされた第１の画像データであって、第１の画像データ環境の描写を含む、第１の画像データを受信することと、少なくとも深度データに基づいて、第１の画像データにおける環境の描写の視点の変化に対応する第１の複数の動きベクトルを生成することと、第１の複数の動きベクトルに基づくグリッド反転を使用して、視点の変化について第１の画像データにおける環境の描写のそれぞれの画素が移動したそれぞれの距離を示す第２の複数の動きベクトルを生成することと、第２の複数の動きベクトルに対応する第１の画像データを少なくとも部分的に修正することによって第２の画像データであって、第２の画像データは、第１の画像データとは異なる視点からの環境の第２の描写を含む、第２の画像データを生成することと、第２の画像データを出力することと、を含む。

【0007】

別の例では、１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに、環境に対応する深度情報を含む深度データを受信させ、画像センサによってキャプチャされた第１の画像データであって、第１の画像データは環境の描写を含む、第１の画像データを受信させ、少なくとも深度データに基づいて、第１の画像データにおける環境の描写の視点の変化に対応する第１の複数の動きベクトルを生成させ、第１の複数の動きベクトルに基づくグリッド反転を使用して、視点の変化について第１の画像データにおける環境の描写のそれぞれの画素が移動したそれぞれの距離を示す第２の複数の動きベクトルを生成させ、第２の複数の動きベクトルに対応する第１の画像データを少なくとも部分的に修正することによって第２の画像データを生成させ、第２の画像データは、第１の画像データとは異なる視点からの環境の第２の描写を含み、第２の画像データを出力させる命令を記憶した、非一時的コンピュータ可読媒体が提供される。

【0008】

別の例では、画像処理のための装置が提供される。装置は、画像センサによってキャプチャされた第１の画像データであって、第１の画像データは環境の描写を含む、第１の画像データを受信する手段と、少なくとも深度データに基づいて、第１の画像データにおける環境の描写の視点の変化に対応する第１の複数の動きベクトルを生成する手段と、第１の複数の動きベクトルに基づくグリッド反転を使用して、視点の変化について第１の画像データにおける環境の描写のそれぞれの画素が移動したそれぞれの距離を示す第２の複数の動きベクトルを生成する手段と、第２の複数の動きベクトルに対応する第１の画像データを少なくとも部分的に修正することによって第２の画像データであって、第２の画像データは、第１の画像データとは異なる視点からの環境の第２の描写を含む、第２の画像データを生成する手段と、第２の画像データを出力する手段と、を含む。

【0009】

いくつかの態様では、第２の画像データは、第１の時間と第３の時間との間の第２の時間に環境を描写するように構成される補間画像を含み、第１の画像データは、第１の時間または第３の時間のうちの少なくとも１つにおける環境を描写する少なくとも１つの画像を含む。

【0010】

いくつかの態様では、第１の画像データは、視差移動を含むビデオデータの複数のフレームを含み、第２の画像データは、視差移動を低減するビデオデータの複数のフレームの安定化された変形を含む。

【0011】

いくつかの態様では、第１の画像データは、第１の角度から画像センサを見ている人物を含み、第２の画像データは、第１の角度とは異なる第２の角度から画像センサを見ている人物を含む。

【0012】

いくつかの態様では、視点の変化は、角度に従い軸を中心とした視点の回転を含む。いくつかの態様では、視点の変化は、方向および距離に従った視点の並進を含む。いくつかの態様では、視点の変化は変換を含む。いくつかの態様では、視点の変化は、第１の画像データにおける環境の描写の元の視点と環境におけるオブジェクトの位置との間の軸に沿った移動を含み、オブジェクトの少なくとも一部は、第１の画像データ内に描写される。

【0013】

いくつかの態様では、上述の方法、装置、およびコンピュータ可読媒体の１つまたは複数は、第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて第２の画像データ内の１つまたは複数のギャップを識別することと、第２の画像データを出力する前に補間を使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正することと、をさらに含む。

【0014】

いくつかの態様では、上述の方法、装置、およびコンピュータ可読媒体の１つまたは複数は、第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて第２の画像データ内の１つまたは複数のオクルージョン領域を識別することと、第２の画像データを出力する前にインペインティングを使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正することと、をさらに含む。

【0015】

いくつかの態様では、上述の方法、装置、およびコンピュータ可読媒体の１つまたは複数は、第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて第２の画像データ内の１つまたは複数のオクルージョン領域を識別することと、第２の画像データを出力する前に１つまたは複数のトレーニング済み機械学習モデルを使用するインペインティングを使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正することと、をさらに含む。

【0016】

いくつかの態様では、上述の方法、装置、およびコンピュータ可読媒体のうちの１つまたは複数は、第２の複数の動きベクトル内の第１の画像データからの１つまたは複数の競合値に基づいて第２の画像データ内の１つまたは複数の競合を識別することと、第２の複数の動きベクトルに関連付けられた移動データに基づいて第１の画像データから１つまたは複数の競合値のうちの１つを選択することと、をさらに含む。

【0017】

いくつかの態様では、深度情報は、第１の視点からの環境の三次元表現を含む。いくつかの態様では、深度データは少なくとも１つの深度センサから受信され、少なくとも１つの深度センサは、少なくとも１つの飛行時間センサを含む。

【0018】

いくつかの態様では、第２の画像データを出力することは、少なくとも１つのディスプレイを使用して第２の画像データを表示させることを含む。いくつかの態様では、第２の画像データを出力することは、少なくとも通信インターフェースを使用して少なくとも受信側デバイスに第２の画像データを送信させることを含む。

【0019】

いくつかの態様では、第１の画像データにおける環境の描写は、第１の視点からの環境を描写し、視点の変化は、第１の視点と、第２の画像データにおける環境の第２の描写に対応する異なる視点との間の変化である。

【0020】

いくつかの態様では、視点の変化は、視点の視差移動または軸を中心とした視点の回転のうちの少なくとも１つを含み、ユーザインターフェースを介して、視点の視差移動の距離の指示、または視点の回転の角度もしくは軸の指示のうちの１つを受信することをさらに含む。

【0021】

いくつかの態様では、上述の方法、装置、およびコンピュータ可読媒体のうちの１つまたは複数は、第１の複数の動きベクトルのそれぞれのエンドポイントにおける１つまたは複数のギャップに基づいて、第２の画像データ内に１つまたは複数のギャップを引き起こす第２の複数の動きベクトルにおける１つまたは複数のギャップを識別することと、第２の画像データを出力する前に補間を使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正することと、をさらに含む。

【0022】

いくつかの態様では、装置は、ウェアラブルデバイス、エクステンデッドリアリティデバイス（例えば、仮想現実（virtual reality、ＶＲ）デバイス、拡張現実（augmented reality、ＡＲ）デバイス、または複合現実（mixed reality、ＭＲ）デバイス）、ヘッドマウントディスプレイ（ＨＭＤ）デバイス、ワイヤレス通信デバイス、モバイルデバイス（例えば、携帯電話および／もしくはモバイルハンドセット並びに／またはいわゆる「スマートフォン」または他のモバイルデバイス）、カメラ、パーソナルコンピュータ、ラップトップコンピュータ、サーバコンピュータ、車両もしくは車両のコンピューティングデバイスもしくは構成要素、別のデバイス、あるいはそれらの組み合わせであり、それらの一部であり、および／またはそれらを含む。いくつかの態様では、装置は、１つまたは複数の画像をキャプチャするための１つのカメラまたは複数のカメラを含む。いくつかの態様では、装置は、１つまたは複数の画像、通知、および／または他の表示可能なデータを表示するためのディスプレイをさらに含む。いくつかの態様では、上記で説明された装置は、１つまたは複数のセンサ（例えば、１つまたは複数のジャイロスコープ、１つまたは複数のジャイロメータ、１つまたは複数の加速度計、それらの任意の組み合わせ、および／または他のセンサなどの、１つまたは複数の慣性測定ユニット（inertial measurement units、ＩＭＵｓ）を含み得る。

【0023】

本概要では、特許請求される主題の主要なまたは必須の特徴を特定することは意図されず、特許請求される主題の範囲を決定するために独立して使用されることも意図されない。本主題は、この特許の明細書全体、いずれかまたは全ての図面、および各請求項の適切な部分を参照することによって理解されるはずである。

【0024】

上記のことは、他の特徴および実施形態とともに、以下の明細書、特許請求の範囲、および添付図面を参照すると、より明らかになろう。

【0025】

本出願の例示的な実施形態について、以下の図面を参照して以下で詳細に説明する。

【図面の簡単な説明】

【0026】

【図1】いくつかの例による、画像キャプチャおよび処理システムの例示的なアーキテクチャを示すブロック図である。

【図2】いくつかの例による、様々な用途のための再投影動作を実行するための撮像システムの例示的なアーキテクチャを示すブロック図である。

【図3A】いくつかの例による、エクステンデッドリアリティ（ＸＲ）システムとして使用されるヘッドマウントディスプレイ（ＨＭＤ）を示す斜視図である。

【図3B】いくつかの例による、ユーザによって装着されている図３Ａのヘッドマウントディスプレイ（ＨＭＤ）を示す斜視図である。

【図4A】いくつかの例による、前向きカメラを含み、エクステンデッドリアリティ（ＸＲ）システムとして使用することができるモバイルハンドセットの前面を示す斜視図である。

【図4B】いくつかの例による、後ろ向きカメラを含み、エクステンデッドリアリティ（ＸＲ）システムとして使用することができるモバイルハンドセットの背面を示す斜視図である。

【図5】いくつかの例による、グリッド反転の例を示すブロック図である。

【図6】いくつかの例による、深度ベースの再投影の例を示す概念図である。

【図7】いくつかの例による、タイムワープエンジンによって実行されるタイムワープの例を示す概念図である。

【図8】いくつかの例による、深度センササポートエンジンによって実行される深度センササポートの例を示す概念図である。

【図9】いくつかの例による、３Ｄ安定化エンジンによって実行される３Ｄ安定化の例を示す概念図である。

【図10】いくつかの例による、３Ｄズームエンジンによって実行される３Ｄズーム（またはシネマティックズーム）の例を示す概念図である。

【図11】いくつかの例による、再投影ＳＡＴエンジンによって実行される再投影の例を示す概念図である。

【図12】いくつかの例による、頭部姿勢補正エンジンによって実行される頭部姿勢補正の例を示す概念図である。

【図13】いくつかの例による、ＸＲレイトステージ再投影エンジンによって実行されるＸＲレイトステージ再投影の例を示す概念図である。

【図14】いくつかの例による、特殊効果エンジンによって実行される特殊効果の例を示す概念図である。

【図15】いくつかの例による、行列演算に基づく画像再投影変換を示す概念図である。

【図16】いくつかの例による、深度データに基づくグリッド反転変換および３Ｄ変換を示すブロック図である。

【図17】いくつかの例による、動きベクトルに基づく画像再投影変換を示すブロック図である。

【図18】いくつかの例による、オクルージョンに対処するためのインペインティングの例を示す概念図である。

【図19】いくつかの例による、再投影およびグリッド反転システムのアーキテクチャを示すブロック図である。

【図20】いくつかの例による、三角歩行動作の例を示す概念図である。

【図21】いくつかの例による、オクルージョンマスキングの例を示す概念図である。

【図22】いくつかの例による、穴埋めの例を示す概念図である。

【図23】いくつかの例による、タイムワープエンジンによって実行されるタイムワープの追加の例を示す概念図である。

【図24】いくつかの例による、タイムワープエンジンのいくつかの例における、再投影エンジンの例示的なアーキテクチャを示すブロック図である。

【図25】いくつかの例による、時間的ブレ除去を伴うタイムワープエンジンのいくつかの例における、時間的ブレ除去を伴う再投影エンジンの例示的なアーキテクチャを示すブロック図である。

【図26】いくつかの例による、飛行時間（ＴｏＦ）センサのための深度センササポートエンジンの例示的なアーキテクチャを示すブロック図である。

【図27】いくつかの例による、深度センササポートエンジンによって実行される深度センササポートの追加の例を示す概念図である。

【図28】いくつかの例による、画像再投影エンジンおよびおよび／または３Ｄ安定化エンジンを含む撮像システムの例示的なアーキテクチャを示すブロック図である。

【図29】いくつかの例による、タイムワープエンジン処理を伴わない画像と比較した、タイムワープエンジンを用いて実行されるタイムワープの追加の例を示す概念図である。

【図30】いくつかの例による、３Ｄ安定化エンジンによって実行される３Ｄ安定化の追加の例を示す概念図である。

【図31】いくつかの例による、３Ｄズームエンジンによって実行される３Ｄズーム（またはシネマティックズーム）の追加の例を示す概念図である。

【図32】いくつかの例による、再投影ＳＡＴエンジンによって実行される再投影の追加の例を示す概念図である。

【図33】いくつかの例による、頭部姿勢補正エンジンによって実行される頭部姿勢補正の追加の例を示す概念図である。

【図34】いくつかの例による、グリッド反転の追加の例を示す概念図である。

【図35】いくつかの例による、ディープラーニングベースのインペインティングの使用の例を示す概念図である。

【図36】いくつかの例による、ディープラーニングを使用しないインペインティングの例を示す概念図である。

【図37】いくつかの例による、エッジ上でのエッジフィルタおよび深度フィルタの使用の例を示す概念図である。

【図38】いくつかの例による、再投影の例を示す概念図である。

【図39】いくつかの例による、メディア処理動作に使用することができるニューラルネットワークの例を示すブロック図である。

【図40】いくつかの例による、メディア処理のためのプロセスを示すフロー図である。

【図41】本明細書に記載される特定の態様を実施するためのコンピューティングシステムの例を示す図である。

【発明を実施するための形態】

【0027】

本開示の特定の態様および実施形態が、以下で提供される。当業者に明らかになるように、これらの態様および実施形態のうちのいくつかが独立して適用されてもよく、それらのうちのいくつかは組み合わせて適用されてもよい。以下の説明では、説明の目的のために、本出願の実施形態の完全な理解を提供するために具体的な詳細が記載される。しかしながら、様々な実施形態がこれらの具体的な詳細なしに実践され得ることが明らかであろう。図および説明は限定を意図するものではない。

【0028】

以下の説明は、例示的な実施形態を提供するにすぎず、本開示の範囲、適用可能性、または構成を限定することを意図しない。むしろ、例示的な実施形態の以下の説明は、例示的な実施形態を実装することを可能にする説明を当業者に提供する。添付の特許請求の範囲に記載の本出願の趣旨および範囲から逸脱することなく、要素の機能および構成において様々な変更が加えられてよいことを理解されたい。

【0029】

カメラは、画像センサを使用して、光を受け入れるとともに静止画像またはビデオフレームなどの画像フレームをキャプチャするデバイスである。「画像」、「画像フレーム」、および「フレーム」という用語は、本明細書では互換的に使用される。カメラは、様々な画像キャプチャおよび画像処理設定を用いて構成され得る。異なる設定は、外観の異なる画像をもたらす。ＩＳＯ、露光時間、開口サイズ、Ｆ／ストップ、シャッタ速度、焦点、および利得などのいくつかのカメラ設定は、１つまたは複数の画像フレームのキャプチャの前またはその間に決定されて適用される。例えば、設定またはパラメータは、１つまたは複数の画像フレームをキャプチャするための画像センサに適用され得る。コントラスト、明るさ、飽和度、鮮明さ、レベル、曲線、または色の変更などの他のカメラ設定は、１つまたは複数の画像フレームの後処理を構成し得る。例えば、設定またはパラメータは、画像センサによってキャプチャされた１つまたは複数の画像フレームを処理するためのプロセッサ（例えば、画像信号プロセッサまたはＩＳＰ）に適用され得る。

【0030】

深度センサは、深度センサから、深度センサがある環境の１つまたは複数の部分までの深度、範囲、または距離を測定するセンサである。深度センサの例は、光検出および測距（ＬＩＤＡＲ）センサ、無線検出および測距（ＲＡＤＡＲ）センサ、音響検出および測距（ＳＯＤＡＲ）センサ、音響航法および測距（ＳＯＮＡＲ）センサ、飛行時間（ＴｏＦ）センサ、構造化光センサ、またはこれらの組み合わせを含む。深度センサによってキャプチャされた深度データは、点群、３Ｄモデル、および／または深度画像を含むことができる。

【0031】

エクステンデッドリアリティ（ＸＲ）システムまたはデバイスは、仮想コンテンツをユーザに提供することができ、かつ／または物理環境（場面）の実世界ビューと（仮想コンテンツを含む）仮想環境とを組み合わせることができる。ＸＲシステムは、そのような組み合わされたＸＲ環境とのユーザ対話を容易にする。実世界ビューは、実世界オブジェクト（物理的オブジェクトとも呼ばれる）、例えば人、車両、建物、テーブル、椅子、および／または他の実世界オブジェクトもしくは物理的オブジェクトなどを含むことができる。ＸＲシステムまたはデバイスは、異なるタイプのＸＲ環境との対話を容易にすることができる（例えば、ユーザは、ＸＲシステムまたはデバイスを使用してＸＲ環境と対話することができる）。ＸＲシステムは、仮想現実（ＶＲ）環境との対話を容易にするＶＲシステム、拡張現実（ＡＲ）環境との対話を容易にするＡＲシステム、複合現実（ＭＲ）環境との対話を容易にするＭＲシステム、および／または他のＸＲシステムを含み得る。ＸＲシステムまたはデバイスの例は、特に、ヘッドマウントディスプレイ（ＨＭＤｓ）、スマートグラスを含む。場合によっては、ＸＲシステムは、ユーザが仮想コンテンツのアイテムと対話することを可能にするためにユーザの部分（例えば、ユーザの手および／または指先）を追跡することができる。

【0032】

撮像システムは、カメラの深度センサおよび画像センサを含むことができる。深度センサは、環境の点群、３Ｄモデル、深度画像、視差値のセット、および／または３Ｄ表現など、環境に対応する深度情報を含む深度データをキャプチャする。画像センサは、環境の２Ｄ描写を含む第１の画像データをキャプチャする。

【0033】

撮像システムは、動きベクトルの第１のセットを生成するために深度データを使用する。動きベクトルの第１のセットは、第１の視点から第２の視点への、第１の画像データにおける環境の描写の視点の変化に対応する。

【0034】

撮像システムは、動きベクトルの第２のセットを生成するために、動きベクトルの第１のセットにグリッド反転を適用する。動きベクトルの第２のセットは、第１の視点から第２の視点への視点の変化について、第１の画像データにおける環境の描写のそれぞれの画素が移動したそれぞれの距離を示す。場合によっては、グリッド反転を適用するために、撮像システムは、小さい動きよりも大きい動きを優先させることによって、および／または環境内でより遠いオブジェクトの動きよりも環境内でより近いオブジェクトの動きを優先させることによって、グリッド反転との競合を解決する。場合によっては、グリッド反転を適用するために、撮像システムは、補間を使用して欠落領域を埋める。

【0035】

撮像システムは、動きベクトルの第２のセットに従って画像データを修正することによって第２の画像データを生成する。例えば、撮像システムは、第１の画像データにおける環境の描写のそれぞれの画素の画素データを、動きベクトルの第２のセットによって示されるそれぞれの距離だけ移動させることによって、動きベクトルの第２のセットに従って画像データを修正することができる。第２の画像データは、第１の画像データとは異なる視点からの環境の第２の描写を含む。撮像システムは、例えば、第２の画像データを表示することによって、または第２の画像データを受信側デバイスに送信することによって、第２の画像データを出力する。

【0036】

グリッド反転に基づく動きベクトルの第２のセットに基づく第１の画像データの修正を通じて第２の画像データを生成することによって実行される視点の変化には、様々な有用な用途がある。例えば、視点の変化は、例えばユーザの手がカメラを不安定に保持することによって、および／またはユーザの歩みによって生じる可能性のある視差移動を低減または排除するために、ビデオデータの３Ｄ安定化に使用することができる。視点の変化は、２つの既存フレーム間に中間フレームを生成することによってビデオの有効フレームレートを増加させるために、フレーム補間に使用することができる。視点の変化は、アップスケーリングではなく環境内に進む真の前進により類似して見えるように、環境の背景よりも迅速に環境の前景をスケーリングする「３Ｄズーム」効果に使用することができる。視点の変化は、２つのセンサ（例えば、２つのカメラ、カメラと深度センサなど）間のオフセットに適応するために使用することができる。視点の変化は、例えば、ビデオ会議の場合によくあるように、カメラが実際には人物の上方または上方にあるときにカメラが人物の頭部と同じ高さに見えるようにするために、頭部姿勢補正に使用することができる。視点の変化は、異なる視点がレンダリングを終了していない場合であっても、環境上で異なる視点を迅速にシミュレートするために、ＸＲに使用することができる。視点の変化は、場面内のオブジェクトを中心とする回転をシミュレートする効果など、様々な特殊効果に使用することができる。

【0037】

いくつかの例では、画像処理のためのシステムおよび技術が説明される。いくつかの例では、撮像システムは、深度センサによってキャプチャされた（環境に対応する）深度データを受信し、撮像システムは、画像センサによってキャプチャされた第１の画像データ（環境の描写）を受信する。撮像システムは、深度データに基づいて、第１の画像データにおける環境の描写の視点の変化に対応する第１の動きベクトルを生成する。撮像システムは、第１の動きベクトルに基づくグリッド反転を使用して、視点の変化について第１の画像データにおける環境の描写のそれぞれの画素が移動したそれぞれの距離を示す第２の動きベクトルを生成する。撮像システムは、第１の動きベクトルおよび／または第２の動きベクトルに従って第１の画像データを修正することによって第２の画像データを生成する。第２の画像データは、第１の画像データとは異なる視点からの環境の第２の描写を含む。撮像システムは、第２の画像データを出力する。

【0038】

本明細書に記載される撮像システムおよび技術は、従来の画像処理システムに対するいくつかの技術的改善を提供する。例えば、本明細書に記載される画像処理システムおよび技術は、視点の任意の並進および／または回転移動について、異なる視点への再投影を提供することができる。本明細書に記載される画像処理システムおよび技術は、オプティカルフローを使用してビデオフレーム品質を改善すること、２つのセンサ間のオフセット距離を克服するために深度と画像データとを位置合わせすること、３Ｄ深度ベースビデオ安定化、３Ｄ深度ベースズーム（シネマティックズームとも呼ばれる）、２つのセンサ間のオフセット距離を克服するために２つの異なるカメラからの画像データを位置合わせすること、頭部姿勢補正、エクステンデッドリアリティ（ＸＲ）のための後期再投影、特殊効果、またはこれらの組み合わせを含む様々な用途のために、この再投影およびこれをサポートするグリッド反転技術を使用することができる。グリッド反転の使用は、効率の増加、計算負荷の減少、使用電力の減少、発熱の減少、および熱放散構成要素の必要性の減少を提供する。

【0039】

適用例の様々な態様が、図に関して説明される。図１は、画像キャプチャおよび処理システム１００のアーキテクチャを示すブロック図である。画像キャプチャおよび処理システム１００は、１つまたは複数の場面の画像（例えば、場面１１０の画像）をキャプチャして処理するために使用される様々な構成要素を含む。画像キャプチャおよび処理システム１００は、スタンドアロン画像（または写真）をキャプチャすることができ、かつ／または、特定の順序で複数の画像（またはビデオフレーム）を含むビデオをキャプチャすることができる。システム１００のレンズ１１５は、場面１１０に面し、場面１１０から光を受け入れる。レンズ１１５は、画像センサ１３０に向かって光を曲げる。レンズ１１５によって受けられた光は、１つまたは複数の制御機構１２０によって制御される開口を通過し、画像センサ１３０によって受けられる。いくつかの例では、場面１１０は環境内の場面である。いくつかの例では、場面１１０はユーザの少なくとも一部の場面である。例えば、場面１１０は、ユーザの眼の一方もしくは両方、および／またはユーザの顔の少なくとも一部分の場面であり得る。

【0040】

１つまたは複数の制御機構１２０は、画像センサ１３０からの情報に基づいて、かつ／または画像プロセッサ１５０からの情報に基づいて、露光、焦点、および／またはズームを制御し得る。１つまたは複数の制御機構１２０は、複数の機構および構成要素を含み得る。例えば、制御機構１２０は、１つまたは複数の露光制御機構１２５Ａ、１つまたは複数の焦点制御機構１２５Ｂ、および／または１つまたは複数のズーム制御機構１２５Ｃを含み得る。１つまたは複数の制御機構１２０は、アナログ利得、フラッシュ、ＨＤＲ、被写界深度、および／または他の画像キャプチャ特性を制御する制御機構などの、示されるもの以外の追加の制御機構を含んでもよい。

【0041】

制御機構１２０の焦点制御機構１２５Ｂは、焦点設定を取得することができる。いくつかの例では、焦点制御機構１２５Ｂは、メモリレジスタ内に焦点設定を記憶する。焦点設定に基づいて、焦点制御機構１２５Ｂは、画像センサ１３０の位置に対してレンズ１１５の位置を調整することができる。例えば、焦点設定に基づいて、焦点制御機構１２５Ｂは、モータまたはサーボを作動させることによって画像センサ１３０のより近くまたは画像センサ１３０からより遠くにレンズ１１５を動かし、それによって、焦点を調整することができる。場合によっては、画像センサ１３０の各フォトダイオードの上方の１つまたは複数のマイクロレンズなどの追加のレンズがシステム１００の中に含まれてよく、それらは各々、光がフォトダイオードに到達する前に、レンズ１１５から受けられる光を対応するフォトダイオードに向かって曲げる。焦点設定は、コントラスト検出自動焦点（contrast detection autofocus、ＣＤＡＦ）、位相検出自動焦点（ＰＤＡＦ）、またはそれらの何らかの組み合わせを介して決定されてよい。焦点設定は、制御機構１２０、画像センサ１３０、および／または画像プロセッサ１５０を使用して決定されてよい。焦点設定は、画像キャプチャ設定および／または画像処理設定と呼ばれることがある。

【0042】

制御機構１２０の露光制御機構１２５Ａは、露光設定を取得することができる。場合によっては、露光制御機構１２５Ａは、メモリレジスタ内に露光設定を記憶する。この露光設定に基づいて、露光制御機構１２５Ａは、開口のサイズ（例えば、開口サイズまたはＦ／ストップ）、開口が開放されている持続時間（例えば、露光時間またはシャッタ速度）、画像センサ１３０の感度（例えば、ＩＳＯ速度またはフィルム速度）、画像センサ１３０によって適用されるアナログ利得、またはそれらの任意の組み合わせを制御することができる。露光設定は、画像キャプチャ設定および／または画像処理設定と呼ばれることがある。

【0043】

制御機構１２０のズーム制御機構１２５Ｃは、ズーム設定を取得することができる。いくつかの例では、ズーム制御機構１２５Ｃは、メモリレジスタ内にズーム設定を記憶する。ズーム設定に基づいて、ズーム制御機構１２５Ｃは、レンズ１１５および１つまたは複数の追加のレンズを含むレンズ要素の組立体（レンズ組立体）の焦点距離を制御することができる。例えば、ズーム制御機構１２５Ｃは、１つまたは複数のモータまたはサーボを作動させてレンズのうちの１つまたは複数を互いに対して移動させることによって、レンズ組立体の焦点距離を制御することができる。ズーム設定は、画像キャプチャ設定および／または画像処理設定と呼ばれることがある。いくつかの例では、レンズ組立体は、同焦点ズームレンズまたは可変焦点ズームレンズを含んでよい。いくつかの例では、レンズ組立体は、場面１１０から光を最初に受け入れる（場合によっては、レンズ１１５であり得る）集束レンズを含んでよく、次いで、光が画像センサ１３０に到達する前に、集束レンズ（例えば、レンズ１１５）と画像センサ１３０との間の無限焦点ズームシステムを光が通過する。場合によっては、無限焦点ズームシステムは、等しいかまたは類似の焦点距離（例えば、閾値差内）の２つの正の（例えば、収束、凸）レンズを、それらの間の負の（例えば、発散、凹）レンズとともに含んでよい。場合によっては、ズーム制御機構１２５Ｃは、負のレンズ、および正のレンズのうちの一方または両方などの、無限焦点ズームシステムの中のレンズのうちの１つまたは複数を動かす。

【0044】

画像センサ１３０は、フォトダイオードまたは他の感光素子の１つまたは複数のアレイを含む。各フォトダイオードは、画像センサ１３０によって生み出される画像の中の特定の画素に最終的には対応する光の量を測定する。場合によっては、異なるフォトダイオードは、異なるカラーフィルタによって覆われてよく、したがって、フォトダイオードを覆うフィルタの色に整合する光を測定してよい。例えば、ベイヤーカラーフィルタは、赤のカラーフィルタ、青のカラーフィルタ、および緑のカラーフィルタを含み、画像の各画素は、赤のカラーフィルタで覆われる少なくとも１つのフォトダイオードからの赤い光のデータ、青のカラーフィルタで覆われる少なくとも１つのフォトダイオードからの青い光のデータ、および緑のカラーフィルタで覆われる少なくとも１つのフォトダイオードからの緑色の光のデータに基づいて生成される。他のタイプの色フィルタは、赤色、青色、および／または緑色フィルタの代わりに、またはそれらに加えて、黄色、マゼンダ、および／またはシアン（「エメラルド」とも呼ばれる）色フィルタを使用してよい。いくつかの画像センサは、カラーフィルタが完全になくてよく、代わりに、画素アレイ全体にわたって（場合によっては、垂直方向に積層された）異なるフォトダイオードを使用してもよい。画素アレイ全体にわたる異なるフォトダイオードは、異なるスペクトル感度曲線を有することができ、したがって、光の異なる波長に応答する。モノクロ画像センサも色フィルタがなくてよく、したがって、色深度もなくてよい。

【0045】

場合によっては、画像センサ１３０は、代替または追加として、ある時間において、かつ／またはいくつかの角度から、いくつかのフォトダイオードまたはいくつかのフォトダイオードの部分に光が到達するのを阻止する不透明なかつ／または反射性のマスクを含んでよく、それは位相検出自動焦点（ＰＤＡＦ）のために使用されてよい。画像センサ１３０はまた、フォトダイオードによって出力されたアナログ信号を増幅するためのアナログゲイン増幅器、並びに／または、フォトダイオードから出力された（および／もしくはアナログゲイン増幅器によって増幅された）アナログ信号をデジタル信号に変換するためのアナログデジタル変換器（ＡＤＣ）を含んでよい。場合によっては、その代わりにまたは追加として、制御機構１２０のうちの１つまたは複数に関して論じるいくつかの構成要素または機能が画像センサ１３０内に含まれてよい。画像センサ１３０は、電荷結合デバイス（charge-coupled device、ＣＣＤ）センサ、電子増倍ＣＣＤ（electron-multiplying CCD、ＥＭＣＣＤ）センサ、アクティブ画素センサ（active-pixel sensor、ＡＰＳ）、相補型金属酸化物半導体（complimentary metal-oxide semiconductor、ＣＭＯＳ）、ｎ型金属酸化物半導体（N-type metal-oxide-semiconductor、ＮＭＯＳ）、ハイブリッドＣＣＤ／ＣＭＯＳセンサ（例えば、ｓＣＭＯＳ）、またはそれらの何らかの他の組み合わせであってよい。

【0046】

画像プロセッサ１５０は、１つまたは複数の画像信号プロセッサ（image signal processors、ＩＳＰｓ）（ＩＳＰ１５４を含む）、１つまたは複数のホストプロセッサ（ホストプロセッサ１５２を含む）、および／またはコンピューティングシステム４１００に関して論じる任意の他のタイプのプロセッサ４１１０のうちの１つまたは複数などの、１つまたは複数のプロセッサを含んでよい。ホストプロセッサ１５２は、デジタル信号プロセッサ（digital signal processor、ＤＳＰ）および／または他のタイプのプロセッサであり得る。いくつかの実装形態では、画像プロセッサ１５０は、ホストプロセッサ１５２およびＩＳＰ１５４を含む単一の集積回路またはチップ（例えば、システムオンチップまたはＳｏＣと呼ばれる）である。場合によっては、チップは、１つまたは複数の入力／出力ポート（例えば、入力／出力（input/output、Ｉ／Ｏ）ポート１５６）、中央処理ユニット（central processing units、ＣＰＵｓ）、グラフィックス処理ユニット（graphics processing units、ＧＰＵｓ）、ブロードバンドモデム（例えば、３Ｇ、４ＧまたはＬＴＥ、５Ｇなど）、メモリ、接続性構成要素（例えば、Ｂｌｕｅｔｏｏｔｈ、全地球測位システム（Global Positioning System、ＧＰＳ）など）、それらの任意の組み合わせ、および／または他の構成要素を含んでもよい。Ｉ／Ｏポート１５６は、インターインテグレーテッドサーキット２（Inter-Integrated Circuit 2、Ｉ２Ｃ）インターフェース、インターインテグレーテッドサーキット３（Inter-Integrated Circuit 3、Ｉ３Ｃ）インターフェース、シリアル周辺インターフェース（Serial Peripheral Interface、ＳＰＩ）インターフェース、シリアル汎用入力／出力（General Purpose Input/Output、ＧＰＩＯ）インターフェース、モバイルインダストリプロセッサインターフェース（Mobile Industry Processor Interface、ＭＩＰＩ）（例えば、ＭＩＰＩＣＳＩ－２物理（physical、ＰＨＹ）層ポートもしくはインターフェースなど）、高度高性能バス（Advanced High-performance Bus、ＡＨＢ）バス、それらの任意の組み合わせ、および／または他の入力／出力ポートなどの、１つまたは複数のプロトコルまたは仕様による、任意の好適な入力／出力ポートまたはインターフェースを含み得る。１つの例示的な例では、ホストプロセッサ１５２は、Ｉ２Ｃポートを使用して画像センサ１３０と通信することができ、ＩＳＰ１５４は、ＭＩＰＩポートを使用して画像センサ１３０と通信することができる。

【0047】

画像プロセッサ１５０は、デモザイク処理、色空間変換、画像フレームダウンサンプリング、画素補間、自動露光（automatic exposure、ＡＥ）制御、自動利得制御（automatic gain control、ＡＧＣ）、ＣＤＡＦ、ＰＤＡＦ、自動ホワイトバランス、ＨＤＲ画像を形成するための画像フレームの統合、画像認識、オブジェクト認識、特徴認識、入力の受け入れ、出力の管理、メモリの管理、またはこれらの何らかの組み合わせなどの、いくつかのタスクを実施してもよい。画像プロセッサ１５０は、画像フレームおよび／または処理された画像を、ランダムアクセスメモリ（random access memory、ＲＡＭ）１４０および／もしくは４１２０、読み取り専用メモリ（read-only memory、ＲＯＭ）１４５および／もしくは４１２５、キャッシュ、メモリユニット、別の記憶デバイス、またはそれらの何らかの組み合わせに記憶することができる。

【0048】

様々な入力／出力（Ｉ／Ｏ）デバイス１６０が、画像プロセッサ１５０に接続されてよい。Ｉ／Ｏデバイス１６０は、ディスプレイスクリーン、キーボード、キーパッド、タッチスクリーン、トラックパッド、タッチ感知画面、プリンタ、任意の他の出力デバイス４１３５、任意の他の入力デバイス４１４５、またはそれらの何らかの組み合わせを含み得る。場合によっては、Ｉ／Ｏデバイス１６０の物理キーボードもしくはキーパッドを通じて、またはＩ／Ｏデバイス１６０のタッチスクリーンの仮想キーボードもしくはキーパッドを通じて、キャプションが画像処理デバイス１０５Ｂに入力されてもよい。Ｉ／Ｏ１６０は、システム１００と１つまたは複数の周辺デバイスとの間の有線接続を可能にする、１つまたは複数のポート、ジャック、または他のコネクタを含んでよく、システム１００は、それを介して、１つまたは複数の周辺デバイスからデータを受信してよく、かつ／または１つまたは複数の周辺デバイスへデータを送信してよい。Ｉ／Ｏ１６０は、システム１００と１つまたは複数の周辺デバイスとの間のワイヤレス接続を可能にする、１つまたは複数のワイヤレストランシーバを含んでよく、システム１００は、それを介して、１つまたは複数の周辺デバイスからデータを受信してよく、かつ／または１つまたは複数の周辺デバイスへデータを送信してよい。周辺デバイスは、前に説明したタイプのＩ／Ｏデバイス１６０のうちのいずれかを含んでよく、ポート、ジャック、ワイヤレストランシーバ、または他の有線および／もしくはワイヤレスのコネクタに結合されると、それら自体がＩ／Ｏデバイス１６０と見なされてよい。

【0049】

場合によっては、画像キャプチャおよび処理システム１００は、単一のデバイスであってもよい。場合によっては、画像キャプチャおよび処理システム１００は、画像キャプチャデバイス１０５Ａ（例えば、カメラ）および画像処理デバイス１０５Ｂ（例えば、カメラに結合されたコンピューティングデバイス）を含む、２つ以上の別々のデバイスであってもよい。いくつかの実装形態では、画像キャプチャデバイス１０５Ａおよび画像処理デバイス１０５Ｂは、例えば、１つまたは複数のワイヤ、ケーブル、もしくは他の電気的なコネクタを介して、かつ／または１つまたは複数のワイヤレストランシーバを介してワイヤレスに、結合されてよい。いくつかの実装形態では、画像キャプチャデバイス１０５Ａおよび画像処理デバイス１０５Ｂは、互いから切り離されていてよい。

【0050】

図１に示すように、垂直の破線は、図１の画像キャプチャおよび処理システム１００を、画像キャプチャデバイス１０５Ａおよび画像処理デバイス１０５Ｂをそれぞれ表す２つの部分へと分割する。画像キャプチャデバイス１０５Ａは、レンズ１１５と、制御機構１２０と、画像センサ１３０とを含む。画像処理デバイス１０５Ｂは、画像プロセッサ１５０（ＩＳＰ１５４およびホストプロセッサ１５２を含む）と、ＲＡＭ１４０と、ＲＯＭ１４５と、Ｉ／Ｏ１６０とを含む。場合によっては、ＩＳＰ１５４および／またはホストプロセッサ１５２などの、画像キャプチャデバイス１０５Ａに示すいくつかの構成要素は、画像キャプチャデバイス１０５Ａの中に含まれてよい。

【0051】

画像キャプチャおよび処理システム１００は、モバイルもしくは固定の電話ハンドセット（例えば、スマートフォン、携帯電話など）、デスクトップコンピュータ、ラップトップもしくはノートブックコンピュータ、タブレットコンピュータ、セットトップボックス、テレビ、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲーミングコンソール、ビデオストリーミングデバイス、インターネットプロトコル（Internet Protocol、ＩＰ）カメラ、または任意の他の好適な電子デバイスなどの、電子デバイスを含み得る。いくつかの例では、画像キャプチャおよび処理システム１００は、セルラーネットワーク通信、８０２．１１ｗｉ－ｆｉ通信、ワイヤレスローカルエリアネットワーク（wireless local area network、ＷＬＡＮ）通信、またはこれらの何らかの組み合わせなどの、ワイヤレス通信のための１つまたは複数のワイヤレストランシーバを含み得る。いくつかの実装形態では、画像キャプチャデバイス１０５Ａおよび画像処理デバイス１０５Ｂは、異なるデバイスであり得る。例えば、画像キャプチャデバイス１０５Ａはカメラデバイスを含んでよく、画像処理デバイス１０５Ｂは、モバイルハンドセット、デスクトップコンピュータ、または他のコンピューティングデバイスなどの、コンピューティングデバイスを含み得る。

【0052】

画像キャプチャおよび処理システム１００はいくつかの構成要素を含むものとして示されるが、画像キャプチャおよび処理システム１００は図１に示すものより多数の構成要素を含み得ることを、当業者は理解されよう。画像キャプチャおよび処理システム１００の構成要素は、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアの１つまたは複数の組み合わせを含み得る。例えば、いくつかの実装形態では、画像キャプチャおよび処理システム１００の構成要素は、１つまたは複数のプログラマブル電子回路（例えば、マイクロプロセッサ、ＧＰＵ、ＤＳＰ、ＣＰＵ、および／または他の適切な電子回路）を含み得る、電子回路もしくは他の電子ハードウェアを含んでよく、かつ／もしくはそれらを使用して実装されてよく、かつ／または、本明細書において説明する様々な動作を実施するために、コンピュータソフトウェア、ファームウェア、またはこれらの任意の組み合わせを含んでよく、かつ／もしくはそれらを使用して実装されてよい。ソフトウェアおよび／またはファームウェアは、コンピュータ可読記憶媒体上に記憶され、画像キャプチャおよび処理システム１００を実装する電子デバイスの１つまたは複数のプロセッサによって実行可能である、１つまたは複数の命令を含み得る。

【0053】

図２は、様々な用途のための再投影動作を実行するための撮像システム２００の例示的なアーキテクチャを示すブロック図である。いくつかの例では、撮像システム２００は、少なくとも１つの画像キャプチャおよび処理システム１００、画像キャプチャデバイス１０５Ａ、画像処理デバイス１０５Ｂ、またはそれらの組み合わせ（単数または複数）を含む。いくつかの例では、撮像システム２００は、少なくとも１つのコンピューティングシステム４１００を含む。いくつかの例では、撮像システム２００は、少なくとも１つのニューラルネットワーク３９００を含む。

【0054】

いくつかの例では、撮像システム２００は、１つまたは複数のセンサ２０５を含む。センサ２０５は、環境の態様に関する情報を測定および／または追跡するセンサデータをキャプチャし、撮像システム２００および／または撮像システム２００のユーザがその環境内にある。いくつかの例では、センサ２０５は、ユーザの身体および／またはユーザによる挙動に関する情報を測定および／または追跡するセンサデータをキャプチャすることができる。いくつかの例では、センサ２０５は、環境および／またはユーザの少なくとも一部に面する１つまたは複数のカメラを含む。１つまたは複数のカメラは、環境および／またはユーザの少なくとも一部の画像をキャプチャする１つまたは複数の画像センサを含むことができる。いくつかの例では、センサ２０５は、環境および／またはユーザの少なくとも一部に面する１つまたは複数の深度センサを含む。１つまたは複数の深度センサは、環境および／またはユーザの少なくとも一部の深度データ（例えば、深度画像、点群、３Ｄモデル、深度センサと環境の一部との間の範囲、深度センサと環境の一部との間の深度、および／または深度センサと環境の一部との間の距離）をキャプチャすることができる。いくつかの例では、深度データ（上記で列挙された深度データのタイプのいずれかなど）はまた、立体深度感知を使用して、ステレオカメラからの画像データを使用して決定することができる。いくつかの例では、深度データは、トレーニングデータに基づいてトレーニングされたトレーニング済み機械学習モデル（単数または複数）に画像データを入力することによって、ステレオカメラからの画像データを使用して決定することができる。トレーニングデータは、対応する深度データとともに、ステレオカメラ（または同様の立体視構成の他のカメラ）によってキャプチャされた他の画像を含む。いくつかの例では、センサ２０５は、マイクロフォン、加速度計、ジャイロスコープ、測位受信機、慣性計測ユニット（ＩＭＵｓ）、バイオメトリックセンサ、またはこれらの組み合わせなど、１つまたは複数の他のタイプのセンサを含む。図２では、１つまたは複数のセンサ２０５は、カメラアイコンおよびマイクロフォンアイコンとして示されている。

【0055】

センサ２０５は、１つまたは複数のカメラ、画像センサ、マイクロフォン、心拍数モニタ、オキシメータ、バイオメトリックセンサ、測位トランシーバ、慣性計測ユニット（ＩＭＵｓ）、加速度計、ジャイロスコープ、ジャイロメータ、気圧計、温度計、高度計、深度センサ、本明細書で説明される他のセンサ、またはこれらの組み合わせを含むことができる。深度センサの例は、光検出および測距（ＬＩＤＡＲ）センサ、無線検出および測距（ＲＡＤＡＲ）センサ、音響検出および測距（ＳＯＤＡＲ）センサ、音響航法および測距（ＳＯＮＡＲ）センサ、飛行時間（ＴｏＦ）センサ、構造化光センサ、またはこれらの組み合わせを含む。測位受信機の例は、全地球的航法衛星システム（ＧＮＳＳ）受信機、全地球測位システム（ＧＰＳ）受信機、セルラー信号トランシーバ、Ｗｉ－Ｆｉトランシーバ、ワイヤレスローカルエリアネットワーク（ＷＬＡＮ）トランシーバ、Ｂｌｕｅｔｏｏｔｈトランシーバ、ビーコントランシーバ、近距離通信（ＮＦＣ）トランシーバ、パーソナルエリアネットワーク（ＰＡＮ）トランシーバ、無線周波数識別（ＲＦＩＤ）トランシーバ、通信インターフェース４１４０、またはこれらの組み合わせを含む。いくつかの例では、１つまたは複数のセンサ２０５は、少なくとも１つの画像キャプチャおよび処理システム１００、画像キャプチャデバイス１０５Ａ、画像処理デバイス１０５Ｂ、またはこれらの組み合わせ（単数または複数）を含む。いくつかの例では、１つまたは複数のセンサ２０５は、コンピューティングシステム４１００の少なくとも１つの入力デバイス４１４５を含む。いくつかの実装形態では、センサ（単数または複数）２０５のうちの１つまたは複数は、他のセンサ（単数または複数）２０５からのセンサ読み取り値を補完または精緻化し得る。例えば、アプリケーションエンジン２１０および／または画像再投影エンジン２１５は、画像データおよび／または深度データを精緻化および／または補完するために、測位受信機、慣性計測ユニット（ＩＭＵｓ）、加速度計、ジャイロスコープ、および／または他のセンサからのセンサデータを使用することができる。例えば、アプリケーションエンジン２１０および／または画像再投影エンジン２１５は、画像データおよび／または深度データのキャプチャ中に、および／または画像安定化および／または動き補償を用いて、環境内の撮像システム２００の姿勢（例えば、３Ｄ位置座標および／または配向（例えば、ピッチ、ヨー、および／またはロール））を判定するのを支援するために、このようなセンサデータを使用することができる。

【0056】

いくつかの例では、撮像システム２００は、仮想コンテンツを生成する仮想コンテンツ生成器２０７を含む。仮想コンテンツは、二次元（２Ｄ）形状、三次元（３Ｄ）形状、２Ｄオブジェクト、３Ｄオブジェクト、２Ｄモデル、３Ｄモデル、２Ｄアニメーション、３Ｄアニメーション、２Ｄ画像、３Ｄ画像、テクスチャ、他の画像の部分、文字、文字列、またはこれらの組み合わせを含むことができる。いくつかの例では、撮像システム２００は、メディアデータ２８５を形成するために、仮想コンテンツ生成器２０７によって生成された仮想コンテンツをセンサ（単数または複数）２０５からのセンサデータと結合することができる。いくつかの例では、撮像システム２００は、仮想コンテンツ生成器２０７によって生成された仮想コンテンツをメディアデータ２８５と結合することができる。図２では、仮想コンテンツ生成器２０７によって生成された仮想コンテンツは、四面体として示されている。いくつかの例では、仮想コンテンツ生成器２０７は、コンピューティングシステム４１００のプロセッサ４１１０、画像プロセッサ１５０、ホストプロセッサ１５２、ＩＳＰ１５４、またはこれらの組み合わせなど、撮像システム２００の１つまたは複数のプロセッサ上で実行される、１つまたは複数のプログラムに対応する１つまたは複数の命令セットなどの１つまたは複数のソフトウェア要素を含む。いくつかの例では、仮想コンテンツ生成器２０７は、１つまたは複数のハードウェア要素を含む。例えば、仮想コンテンツ生成器２０７は、コンピューティングシステム４１００のプロセッサ４１１０、画像プロセッサ１５０、ホストプロセッサ１５２、ＩＳＰ１５４、またはこれらの組み合わせなどのプロセッサを含むことができる。いくつかの例では、仮想コンテンツ生成器２０７は、１つまたは複数のソフトウェア要素と１つまたは複数のハードウェア要素との組み合わせとを含む。

【0057】

撮像システム２００は、アプリケーションエンジン２１０のセットを含む。アプリケーションエンジン２１０は、センサ（単数または複数）２０５からメディアデータ２８５を受信する。メディアデータ２８５は、センサ（単数または複数）２０５によってキャプチャされる。メディアデータ２８５は、例えば１つまたは複数の画像またはこれらの一部を含む、画像データを含むことができる。画像データは、例えばビデオのビデオフレームを含むビデオデータを含むことができる。メディアデータ２８５は、例えば、深度画像、点群、３Ｄモデル、深度センサと環境の一部との間の範囲、深度センサと環境の一部との間の深度、および／または深度センサと環境の一部との間の距離、またはこれらの組み合わせを含む、深度データを含むことができる。メディアデータ２８５は、例えば、センサ（単数または複数）２０５の１つまたは複数のマイクロフォンによって記録されたオーディオを含むオーディオデータを含むことができる。場合によっては、オーディオデータは、画像データのビデオに対応するオーディオトラックを含むことができる。場合によっては、オーディオデータは、センサ（単数または複数）２０５の複数のマイクロフォンからのマルチチャネルオーディオとすることができ、例えば、環境内の異なる方向からセンサ（単数または複数）２０５に到達するオーディオに対応する別個のオーディオトラックを可能にする。メディアデータ２８５は、例えば、環境内の撮像システム２００の位置（例えば、緯度、経度、および／または高度）、撮像システム２００の配向（例えば、ピッチ、ヨー、および／またはロール）、撮像システム２００の移動速度、撮像システム２００の加速度、撮像システム２００の速度、撮像システム２００の運動量、撮像システム２００の回転、またはこれらの組み合わせを含む姿勢データを含むことができる。いくつかの例では、姿勢データは、撮像システム２００の測位受信機、慣性計測ユニット（ＩＭＵｓ）、加速度計、および／またはジャイロスコープを使用してキャプチャすることができる。いくつかの例では、撮像システム２００は、画像データ、深度データ、および／またはオーディオデータなどの他のタイプのメディアデータ２８５に基づく姿勢判定に基づいて、姿勢データの態様を推測することができ、姿勢データを精緻化することができる。

【0058】

アプリケーションエンジン２１０は、動きベクトルエンジン２２０およびグリッド反転エンジン２２５を有する画像再投影エンジン２１５を含む。画像再投影エンジン２１５の動きベクトルエンジン２２０は、環境の第１の視点から環境の第２の視点への移動に対応する動きベクトルの第１のセットを決定および／または生成することができる。いくつかの例では、動きベクトルエンジン２２０は、センサ（単数または複数）２０５の深度センサによってキャプチャされた深度データおよび／またはセンサ（単数または複数）２０５の画像センサによってキャプチャされた画像データに基づいて、環境の３Ｄ表現を識別または生成することができる。動きベクトルエンジン２２０は、環境の３Ｄ表現を、第１の視点からの環境を表すものから第２の視点からの環境を表すものに回転、並進、および／または変換することができる。動きベクトルエンジン２２０は、第１の視点から第２の視点へのこの視点の変化に基づいて動きベクトルの第１のセットを決定することができる。

【0059】

画像再投影エンジン２１５の動きベクトルエンジン２２０によって出力された動きベクトルは、グリッド反転エンジン２２５に出力することができる。画像再投影エンジン２１５のグリッド反転エンジン２２５は、動きベクトルの第２のセットを生成するために、動きベクトルに対してグリッド反転を実行することができる。画像再投影エンジン２１５は、修正済みメディアデータ２９０を生成するようにメディアデータ２８５の少なくともサブセットを修正するために、動きの第２のセットを使用することができる。例えば、画像再投影エンジン２１５は、第３の視点からの環境を描写するメディアデータ２８５の画像を受信することができ、修正済みメディアデータ２９０の修正された画像を生成するために動きベクトルの第２のセットを画像に適用することができる。修正された画像は、第４の視点からの環境を描写することができる。第３の視点から第４の視点への変化は、例えば同じ量、距離（単数または複数）、および／または角度（単数または複数）の回転、並進、および／または変換を適用する、第１の視点から第２の視点への変化と一致することができる。例えば、いくつかの例では、第１の視点から第２の視点への変化は、ある角度に従った視点の回転を含み、第３の視点から第４の視点への変化は、その角度に従った視点の回転を含む。いくつかの例では、第１の視点から第２の視点への変化は、ある方向および距離に従った視点の並進を含み、第３の視点から第４の視点への変化は、その方向および距離に従った視点の並進を含む。いくつかの例では、第１の視点から第２の視点への変化は変換を含み、第３の視点から第４の視点への変化は、変換に従った視点の並進を含む。

【0060】

いくつかの例では、画像再投影エンジン２１５は、コンピューティングシステム４１００のプロセッサ４１１０、画像プロセッサ１５０、ホストプロセッサ１５２、ＩＳＰ１５４、またはこれらの組み合わせなど、撮像システム２００の１つまたは複数のプロセッサ上で実行される、１つまたは複数のプログラムに対応する１つまたは複数の命令セットなどの１つまたは複数のソフトウェア要素を含む。いくつかの例では、画像再投影エンジン２１５は、１つまたは複数のハードウェア要素を含む。例えば、画像再投影エンジン２１５は、コンピューティングシステム４１００のプロセッサ４１１０、画像プロセッサ１５０、ホストプロセッサ１５２、ＩＳＰ１５４、および／またはこれらの組み合わせなどのプロセッサを含むことができる。いくつかの例では、画像再投影エンジン２１５は、１つまたは複数のソフトウェア要素と１つまたは複数のハードウェア要素との組み合わせを含む。

【0061】

いくつかの例では、画像再投影エンジン２１５は、センサ（単数または複数）２０５および／または仮想コンテンツ生成器２０７からメディアデータ２８５を入力として受信する、ＭＬシステム（単数または複数）および／またはトレーニング済みＭＬモデル（単数または複数）を含む。ＭＬシステム（単数または複数）および／またはトレーニング済みＭＬモデル（単数または複数）は、メディアデータ２８５および仮想コンテンツに基づいて修正済みメディアデータ２９０を出力する。場合によっては、ＭＬシステム（単数または複数）および／またはトレーニング済みＭＬモデル（単数または複数）は、修正済みメディアデータ２９０が、メディアデータ２８５内の環境の描写（単数または複数）および／または表現（単数または複数）の視点とは異なる視点からの環境の描写（単数または複数）および／または表現（単数または複数）を含むように、メディアデータ２８５および／または仮想コンテンツを修正することができる。いくつかの例では、画像再投影エンジン２１５のＭＬシステムおよび／またはトレーニング済みＭＬモデルは、１つまたは複数のニューラルネットワーク（ＮＮｓ）（例えば、ニューラルネットワーク３９００）、１つまたは複数の畳み込みニューラルネットワーク（ＣＮＮｓ）、１つまたは複数のトレーニング済み時間遅延ニューラルネットワーク（ＴＤＮＮｓ）、１つまたは複数のディープネットワーク、１つまたは複数のオートエンコーダ、１つまたは複数のディープビリーフネット（ＤＢＮｓ）、１つまたは複数のリカレントニューラルネットワーク（ＲＮＮｓ）、１つまたは複数の敵対的生成ネットワーク（ＧＡＮｓ）、１つまたは複数の他のタイプのニューラルネットワーク、１つまたは複数のトレーニング済みサポートベクターマシン（ＳＶＭｓ）、１つまたは複数のトレーニング済みランダムフォレスト（ＲＦｓ）、１つまたは複数のコンピュータビジョンシステム、１つまたは複数のディープラーニングシステム，またはこれらの組み合わせを含み得る。

【0062】

アプリケーションエンジン２１０は、様々な用途のために様々な方法で画像再投影エンジン２１５（例えば、動きベクトルエンジン２２０および／またはグリッド反転エンジン２２５を含む）による画像再投影を適用するいくつかのエンジンを含む。アプリケーションエンジン２１０のこれらのエンジンは、タイムワープエンジン２３０、深度センササポートエンジン２３５、３Ｄ安定化エンジン２４０、３Ｄズームエンジン２４５、再投影ＳＡＴエンジン２５０、頭部姿勢補正エンジン２５５、エクステンデッドリアリティ（ＸＲ）後期再投影エンジン２６０、および特殊効果エンジン２６５を含む。再投影ＳＡＴエンジン２５０内の「ＳＡＴ」は、センサ位置合わせ、空間位置合わせ変換またはその両方を指すことができる。再投影ＳＡＴエンジン２５０は、センサ位置合わせ、空間位置合わせ変換またはその両方を使用し得る。アプリケーションエンジン２１０のこれらのエンジンは、修正済みメディアデータ２９０を生成するようにメディアデータ２８５の少なくともサブセットを修正し、例えば、そうするために画像再投影エンジン２１５（例えば、動きベクトルエンジン２２０および／またはグリッド反転エンジン２２５を含む）による画像再投影を利用する。

【0063】

いくつかの例では、アプリケーションエンジン２１０のうちの少なくとも１つは、センサ（単数または複数）２０５および／または仮想コンテンツ生成器２０７からメディアデータ２８５を入力として受信するＭＬシステム（単数または複数）および／またはトレーニング済みＭＬモデル（単数または複数）を含む。ＭＬシステム（単数または複数）および／またはトレーニング済みＭＬモデル（単数または複数）は、メディアデータ２８５および仮想コンテンツに基づいて修正済みメディアデータ２９０を出力する。場合によっては、ＭＬシステム（単数または複数）および／またはトレーニング済みＭＬモデル（単数または複数）は、修正済みメディアデータ２９０が、メディアデータ２８５内の環境の（単数または複数）描写および／または表現（単数または複数）の視点とは異なる視点からの環境の描写（単数または複数）および／または表現（単数または複数）を含むように、メディアデータ２８５および／または仮想コンテンツを修正することができる。いくつかの例では、アプリケーションエンジン２１０のうちの少なくとも１つのＭＬシステムおよび／またはトレーニング済みＭＬモデルは、１つまたは複数のＮＮ、１つまたは複数のＣＮＮ、１つまたは複数のＴＤＮＮ、１つまたは複数のディープネットワーク、１つまたは複数のオートエンコーダ、１つまたは複数のＤＢＮ、１つまたは複数のＲＮＮ、１つまたは複数のＧＡＮ、１つまたは複数のトレーニング済みＳＶＭ、１つまたは複数のトレーニング済みＲＦ、１つまたは複数のコンピュータビジョンシステム、１つまたは複数のディープラーニングシステム、またはこれらの組み合わせを含み得る。

【0064】

いくつかの例では、画像再投影エンジン２１５を含むアプリケーションエンジン２１０は、メディアデータ２８５に組み込まれた仮想コンテンツ生成器２０７によって生成された仮想コンテンツを有するメディアデータ２８５を（例えば動きベクトルを判定するために）分析、処理、および／または修正することができる。いくつかの例では、画像再投影エンジン２１５を含むアプリケーションエンジン２１０は、メディアデータ２８５に組み込まれた仮想コンテンツ生成器２０７によって生成された仮想コンテンツのないメディアデータ２８５を（例えば動きベクトルを判定するために）分析、処理、および／または修正することができる。いくつかの例では、画像再投影エンジン２１５を含む、アプリケーションエンジン２１０によって出力された修正済みメディアデータ２９０は、例えば仮想コンテンツが、アプリケーションエンジン２１０に入力されたメディアデータ２８５に組み込まれた場合、仮想コンテンツ生成器２０７によって生成された仮想コンテンツを既に含むことができる。いくつかの例では、画像再投影エンジン２１５を含む、アプリケーションエンジン２１０によって出力された修正済みメディアデータ２９０は、例えば仮想コンテンツが、アプリケーションエンジン２１０に入力されたメディアデータ２８５に組み込まれなかった場合、仮想コンテンツ生成器２０７によって生成された仮想コンテンツを欠いている。このような例では、仮想コンテンツ生成器２０７によって生成された仮想コンテンツは、修正済みメディアデータ２９０がアプリケーションエンジン２１０によって出力された後、ただし修正済みメディアデータ２９０が出力デバイス（単数または複数）２７０および／またはトランシーバ（単数または複数）２７５を使用して出力される前に、修正済みメディアデータ２９０に追加されることが可能である。

【0065】

いくつかの例では、アプリケーションエンジン２１０のうちの少なくとも１つは、コンピューティングシステム４１００のプロセッサ４１１０、画像プロセッサ１５０、ホストプロセッサ１５２、ＩＳＰ１５４、またはこれらの組み合わせなど、撮像システム２００の１つまたは複数のプロセッサ上で実行される、１つまたは複数のプログラムに対応する１つまたは複数の命令セットなどの１つまたは複数のソフトウェア要素を含む。いくつかの例では、アプリケーションエンジン２１０のうちの少なくとも１つは、１つまたは複数のハードウェア要素を含む。例えば、アプリケーションエンジン２１０のうちの少なくとも１つは、コンピューティングシステム４１００のプロセッサ４１１０、画像プロセッサ１５０、ホストプロセッサ１５２、ＩＳＰ１５４、および／またはこれらの組み合わせなどのプロセッサを含むことができる。いくつかの例では、アプリケーションエンジン２１０のうちの少なくとも１つは、１つまたは複数のソフトウェア要素と１つまたは複数のハードウェア要素との組み合わせを含む。

【0066】

いくつかの例では、撮像システム２００は、修正済みメディアデータ２９０を出力するように構成されており、出力することができる１つまたは複数の出力デバイス２７０を含む。いくつかの例では、出力デバイス（単数または複数）２７０は、画像および／またはビデオなどの視覚メディアを表示するように構成されており、表示することができるディスプレイ（単数または複数）を含む。いくつかの例では、出力デバイス（単数または複数）２７０は、ラウドスピーカまたはヘッドホンまたは撮像システム２００をラウドスピーカもしくはヘッドホンに接続するように構成されるコネクタなどのオーディオ出力デバイス（単数または複数）を含む。オーディオ出力デバイス（単数または複数）は、音楽、音響効果、ビデオに対応するオーディオトラック、（例えばセンサ（単数または複数）２０５の）マイクロフォン（単数または複数）によって記録されたオーディオ記録、またはこれらの組み合わせなどのオーディオメディアを再生するように構成されており、再生することができる。出力デバイス（単数または複数）２７０は、環境の表現（例えば、センサ（単数または複数）２０５によってキャプチャされたメディアデータ２８５）、（例えば、仮想コンテンツ生成器２０７によって生成された）仮想コンテンツ、環境の表現と仮想コンテンツとの組み合わせ、環境の表現（単数または複数）および／または仮想コンテンツおよび／または（例えば、アプリケーションエンジン２１０および／または画像再投影エンジン２１５によって修正された）組み合わせに対する修正（単数または複数）、またはこれらの組み合わせを含むメディアを出力し得る。いくつかの例では、出力デバイス（単数または複数）２７０は、撮像システム２００のユーザに面することができる。例えば、出力デバイス（単数または複数）２７０のディスプレイ（単数または複数）は、撮像システム２００のユーザに面することができ、および／または撮像システム２００のユーザに（例えば、向かって）視覚メディアを表示することができる。同様に、出力デバイス（単数または複数）２７０のオーディオ出力デバイス（単数または複数）は、撮像システム２００のユーザに面することができ、撮像システム２００のユーザに（例えば、向かって）オーディオメディアを再生することができる。いくつかの例では、出力（単数または複数）デバイス２７０は、出力デバイス４１３５を含む。いくつかの例では、出力デバイス（単数または複数）４１３５は、出力デバイス２７０を含むことができる。図２では、出力デバイス（単数または複数）２７０は、視覚メディアデータを表示するディスプレイおよびオーディオメディアデータを再生する対応するラウドスピーカとして示されている。

【0067】

撮像システム２００はまた、例えば受信側デバイスにメディアを送信することによって、（例えば、画像再投影エンジン２１５を含む）アプリケーションエンジン２１０によって生成された修正済みメディアデータ２９０を出力するために撮像システム２００が使用することができる１つまたは複数のトランシーバ２７５も含む。受信側デバイスは、例えば、出力デバイス（単数または複数）のディスプレイ（単数または複数）を使用してメディアの視覚メディアデータを表示することによって、および／または出力デバイス（単数または複数）のオーディオ出力デバイス（単数または複数）を使用してメディアのオーディオメディアデータを再生することによって、それ自体の出力デバイス（単数または複数）を使用してメディアを出力することができる。トランシーバ（単数または複数）２７５は、有線またはワイヤレストランシーバ（単数または複数）、通信インターフェース（単数または複数）、アンテナ（単数または複数）、接続、結合、結合システム、またはこれらの組み合わせを含み得る。いくつかの例では、トランシーバ（単数または複数）２７５は、コンピューティングシステム４１００の通信インターフェース４１４０を含み得る。いくつかの例では、コンピューティングシステム４１００の通信インターフェース４１４０は、トランシーバ（単数または複数）２７５を含み得る。図２では、トランシーバ（単数または複数）２７５は、メディアデータを送信するワイヤレストランシーバ（単数または複数）２７５として示されている。

【0068】

いくつかの例では、撮像システム２００は、フィードバックエンジン２８０を含む。フィードバックエンジン２８０は、撮像システムのユーザインターフェースを通してユーザから受信したフィードバックを検出することができる。フィードバックエンジン２８０は、撮像システム２００の他のエンジンから受信した撮像システム２００の１つのエンジンに関するフィードバック、例えば１つのエンジンが他のエンジンからのデータを使用すると決定するか否かを検出することができる。フィードバックは、画像再投影エンジン２１５、動きベクトルエンジン２２０、グリッド反転エンジン２２５、タイムワープエンジン２３０、深度センササポートエンジン２３５、３Ｄ安定化エンジン２４０、３Ｄズームエンジン２４５、再投影ＳＡＴエンジン２５０、頭部姿勢補正エンジン２５５、ＸＲレイトステージ再投影エンジン２６０、特殊効果エンジン２６５、またはこれらの組み合わせなど、アプリケーションエンジン２１０のいずれかに関するフィードバックであり得る。フィードバックエンジン２８０によって受信されるフィードバックは、正のフィードバックまたは負のフィードバックとすることができる。例えば、撮像システム２００の１つのエンジンが撮像システム２００の他のエンジンからのデータを使用する場合、フィードバックエンジン２８０は、これを正のフィードバックとして解釈することができる。撮像システム２００の１つのエンジンが撮像システム２００の他のエンジンからのデータを拒否する場合、フィードバックエンジン２８０は、これを負のフィードバックとして解釈することができる。正のフィードバックはまた、センサ（単数または複数）２０５からのセンサデータの属性、および／またはユーザが微笑む、笑う、うなずく、正のフィードバックに関連付けられたボタンを押す、正のフィードバックに関連付けられたジェスチャを行う（例えば、親指を上げる）、肯定的な発言を行う（例えば、「はい」、「確認済み」、「オーケー」、「次」）、またはメディアに対して他の方法で肯定的に反応することなど、ユーザインターフェースからの入力に基づくことができる。負のフィードバックはまた、センサ（単数または複数）２０５からのセンサデータの属性、および／またはユーザが顔をしかめる、泣く、（例えば、「いいえ」の動きで）首を振る、負のフィードバックに関連付けられたボタンを押す、負のフィードバックに関連付けられたジェスチャを行う（例えば、親指を下げる）、否定的な発言を行う（例えば、「いいえ」、「否定」、「悪い」、「これではない」）、または仮想コンテンツに対して他の方法で否定的に反応することなど、ユーザインターフェースからの入力に基づくことができる。

【0069】

いくつかの例では、フィードバックエンジン２８０は、撮像システム２００の１つまたは複数のＭＬシステムを更新するために、トレーニングデータとして撮像システム２００の１つまたは複数のＭＬシステムにフィードバックを提供する。例えば、フィードバックエンジン２８０は、画像再投影エンジン２１５、動きベクトルエンジン２２０、グリッド反転エンジン２２５、タイムワープエンジン２３０、深度センササポートエンジン２３５、３Ｄ安定化エンジン２４０、３Ｄズームエンジン２４５、再投影ＳＡＴエンジン２５０、頭部姿勢補正エンジン２５５、ＸＲレイトステージ再投影エンジン２６０、特殊効果エンジン２６５、またはこれらの組み合わせなど、アプリケーションエンジン２１０のいずれかのＭＬシステム（単数または複数）および／またはトレーニング済みＭＬモデル（単数または複数）にトレーニングデータとしてフィードバックを提供することができる。正のフィードバックは、ＭＬシステム（単数または複数）および／またはトレーニング済みＭＬモデル（単数または複数）の出力に関連付けられた重みを強化および／または補強するために使用することができる。負のフィードバックは、ＭＬシステム（単数または複数）および／またはトレーニング済みＭＬモデル（単数または複数）の出力に関連付けられた重みを弱化および／または除去するために使用することができる。

【0070】

いくつかの例では、フィードバックエンジン２８０は、コンピューティングシステム４１００のプロセッサ４１１０、画像プロセッサ１５０、ホストプロセッサ１５２、ＩＳＰ１５４、および／またはこれらの組み合わせなどのプロセッサ上で実行される、プログラムに対応する命令セットなどのソフトウェア要素を含む。いくつかの例では、フィードバックエンジン２８０は、１つまたは複数のハードウェア要素を含む。例えば、フィードバックエンジン２８０は、コンピューティングシステム４１００のプロセッサ４１１０、画像プロセッサ１５０、ホストプロセッサ１５２、ＩＳＰ１５４、および／またはこれらの組み合わせなどのプロセッサを含むことができる。いくつかの例では、フィードバックエンジン２８０は、１つまたは複数のソフトウェア要素と１つまたは複数のハードウェア要素との組み合わせを含む。

【0071】

図３Ａは、エクステンデッドリアリティ（ＸＲ）システム２００として使用されるヘッドマウントディスプレイ（ＨＭＤ）３１０を示す斜視図３００である。ＨＭＤ３１０は、例えば、拡張現実（ＡＲ）ヘッドセット、仮想現実（ＶＲ）ヘッドセット、複合現実（ＭＲ）ヘッドセット、エクステンデッドリアリティ（ＸＲ）ヘッドセット、またはそれらの何らかの組み合わせであってもよい。ＨＭＤ３１０は、撮像システム２００の例であり得る。ＨＭＤ３１０は、ＨＭＤ３１０の前部に沿って第１のカメラ３３０Ａおよび第２のカメラ３３０Ｂを含む。第１のカメラ３３０Ａおよび第２のカメラ３３０Ｂは、撮像システム２００のセンサ（単数または複数）２０５の例であり得る。ＨＭＤ３１０は、ユーザの眼（単数または複数）がディスプレイ（単数または複数）３４０に面するときにユーザの眼（単数または複数）に面する第３のカメラ３３０Ｃおよび第４のカメラ３３０Ｄを含む。第３のカメラ３３０Ｃおよび第４のカメラ３３０Ｄは、撮像システム２００のセンサ２０５の例であり得る。いくつかの例では、ＨＭＤ３１０は、単一の画像センサを有する単一のカメラのみを有し得る。いくつかの例では、ＨＭＤ３１０は、第１のカメラ３３０Ａ、第２のカメラ３３０Ｂ、第３のカメラ３３０Ｃ、および第４のカメラ３３０Ｄに加えて、１つまたは複数の追加のカメラを含んでもよい。いくつかの例では、ＨＭＤ３１０は、第１のカメラ３３０Ａ、第２のカメラ３３０Ｂ、第３のカメラ３３０Ｃ、および第４のカメラ３３０Ｄに加えて１つまたは複数の追加のセンサを含んでもよく、これは他のタイプのセンサ２０５および／または撮像システム２００のセンサ（単数または複数）２０５も含み得る。いくつかの例では、第１のカメラ３３０Ａ、第２のカメラ３３０Ｂ、第３のカメラ３３０Ｃ、および／または第４のカメラ３３０Ｄは、画像キャプチャおよび処理システム１００、画像キャプチャデバイス１０５Ａ、画像処理デバイス１０５Ｂ、またはそれらの組み合わせの例であり得る。

【0072】

ＨＭＤ３１０は、ユーザ３２０の頭部にＨＭＤ３１０を装着しているユーザ３２０に見える１つまたは複数のディスプレイ３４０を含んでもよい。ＨＭＤ３１０の１つまたは複数のディスプレイ３４０は、撮像システム２００の出力デバイス（単数または複数）２７０の１つまたは複数のディスプレイの例とすることができる。いくつかの例では、ＨＭＤ３１０は、１つのディスプレイ３４０と２つのビューファインダとを含むことができる。２つのビューファインダは、ユーザ３２０の左眼用の左ビューファインダと、ユーザ３２０の右眼用の右ビューファインダとを含むことができる。左ビューファインダは、ユーザ３２０の左眼がディスプレイの左側を見るように向けることができる。右ビューファインダは、ユーザ３２０の左眼がディスプレイの右側を見るように向けることができる。いくつかの例では、ＨＭＤ３１０は、ユーザ３２０の左眼にコンテンツを表示する左ディスプレイと、ユーザ３２０の右眼にコンテンツを表示する右ディスプレイとを含む、２つのディスプレイ３４０を含んでもよい。ＨＭＤ３１０の１つまたは複数のディスプレイ３４０は、デジタル「パススルー」ディスプレイまたは光学「シースルー」ディスプレイであり得る。

【0073】

ＨＭＤ３１０は、ＨＭＤ３１０のユーザの１つまたは複数の耳にオーディオを出力するスピーカおよび／またはヘッドホンとして機能することができる、１つまたは複数のイヤピース３３５を含んでもよい。図３Ａおよび図３Ｂには１つのイヤピース３３５が示されているが、ＨＭＤ３１０は、ユーザの各耳（左耳および右耳）に１つのイヤピースを有する２つのイヤピースを含むことができることを理解されたい。いくつかの例では、ＨＭＤ３１０はまた、１つまたは複数のマイクロフォン（図示せず）を含むことができる。１つまたは複数のマイクロフォンは、撮像システム２００のセンサ（単数または複数）２０５の例とすることができる。１つまたは複数のイヤピースは、撮像システム２００の出力デバイス（単数または複数）２７０の例とすることができる。いくつかの例では、ＨＭＤ３１０によって１つまたは複数のイヤピース３３５を通してユーザに出力されるオーディオは、１つまたは複数のマイクロフォンを使用して記録されたオーディオを含む、またはそれに基づくことができる。

【0074】

図３Ｂは、ユーザ３２０によって装着されている図３Ａのヘッドマウントディスプレイ（ＨＭＤ）を示す斜視図３５０である。ユーザ３２０は、ユーザ３２０の眼の上でユーザ３２０の頭部にＨＭＤ３１０を装着する。ＨＭＤ３１０は、第１のカメラ３３０Ａおよび第２のカメラ３３０Ｂを用いて画像をキャプチャすることができる。いくつかの例では、ＨＭＤ３１０は、ディスプレイ（単数または複数）３４０を使用して、ユーザ３２０の眼に向かって１つまたは複数の出力画像を表示する。いくつかの例では、出力画像は、仮想コンテンツ生成器２０７によって生成され、コンポジタを使用して合成され、および／または出力デバイス（単数または複数）２７０のディスプレイ（単数または複数）によって表示された仮想コンテンツを含むことができる。出力画像は、例えば仮想コンテンツがオーバーレイされた状態で、第１のカメラ３３０Ａおよび第２のカメラ３３０Ｂによってキャプチャされた画像に基づくことができる。出力画像は、場合によっては、仮想コンテンツがオーバーレイされた、および／または他の修正を伴う、環境の立体視ビューを提供することができる。例えば、ＨＭＤ３１０は、第１のカメラ３３０Ａによってキャプチャされた画像に基づく第１の表示画像を、ユーザ３２０の右眼に表示することができる。ＨＭＤ３１０は、第２のカメラ３３０Ｂによってキャプチャされた画像に基づく第２の表示画像を、ユーザ３２０の左眼に表示することができる。例えば、ＨＭＤ３１０は、第１のカメラ３３０Ａおよび第２のカメラ３３０Ｂによってキャプチャされた画像の上にオーバーレイされた表示画像内に、オーバーレイされた仮想コンテンツを提供することができる。第３のカメラ３３０Ｃおよび第４のカメラ３３０Ｄは、ユーザがディスプレイ（単数または複数）３４０によって表示された表示画像を見る前、見ている間、および／または見た後に、眼の画像をキャプチャすることができる。このようにして、第３のカメラ３３０Ｃおよび／または第４のカメラ３３０Ｄからのセンサデータは、ユーザの眼（および／またはユーザの他の部分）による仮想コンテンツに対する反応をキャプチャすることができる。ＨＭＤ３１０のイヤピース３３５は、ユーザ３２０の耳内に示されている。ＨＭＤ３１０は、イヤピース３３５を通して、および／またはユーザ３２０の他方の耳（図示せず）内にあるＨＭＤ３１０の別のイヤピース（図示せず）を通して、オーディオをユーザ３２０に出力していてもよい。

【0075】

図４Ａは、前向きカメラを含み、エクステンデッドリアリティ（ＸＲ）システム２００として使用することができるモバイルハンドセット４１０の前面を示す斜視図４００である。モバイルハンドセット４１０は、撮像システム２００の例であり得る。モバイルハンドセット４１０は、例えば、携帯電話、衛星電話、ポータブルゲームコンソール、音楽プレーヤ、健康追跡デバイス、ウェアラブルデバイス、ワイヤレス通信デバイス、ラップトップ、モバイルデバイス、本明細書に記載する任意の他のタイプのコンピューティングデバイスもしくはコンピューティングシステム、またはそれらの組み合わせであってもよい。

【0076】

モバイルハンドセット４１０の前面４２０は、ディスプレイ４４０を含む。モバイルハンドセット４１０の前面４２０は、第１のカメラ４３０Ａおよび第２のカメラ４３０Ｂを含む。第１のカメラ４３０Ａおよび第２のカメラ４３０Ｂは、撮像システム２００のセンサ２０５の例であり得る。第１のカメラ４３０Ａおよび第２のカメラ４３０Ｂは、コンテンツ（例えば、メディア修正エンジン２３５に世って出力された修正済みメディア）がディスプレイ４４０に表示されている間、ユーザの眼（単数または複数）を含む、ユーザに面することができる。ディスプレイ４４０は、撮像システム２００の出力デバイス（単数または複数）２７０のディスプレイ（単数または複数）の例であり得る。

【0077】

第１のカメラ４３０Ａおよび第２のカメラ４３０Ｂは、モバイルハンドセット４１０の前面４２０上のディスプレイ４４０の周りのベゼル内に示されている。いくつかの例では、第１のカメラ４３０Ａおよび第２のカメラ４３０Ｂは、モバイルハンドセット４１０の前面４２０上のディスプレイ４４０から切り抜かれたノッチまたは切り欠きに配置することができる。いくつかの例では、第１のカメラ４３０Ａおよび第２のカメラ４３０Ｂは、ディスプレイ４４０とモバイルハンドセット４１０の残りの部分との間に配置されたアンダーディスプレイカメラであってもよく、その結果、光は、第１のカメラ４３０Ａおよび第２のカメラ４３０Ｂに到達する前にディスプレイ４４０の一部分を通過する。斜視図４００の第１のカメラ４３０Ａおよび第２のカメラ４３０Ｂは、前向きカメラである。第１のカメラ４３０Ａおよび第２のカメラ４３０Ｂは、モバイルハンドセット４１０の前面４２０の平面に垂直な方向を向いている。第１のカメラ４３０Ａおよび第２のカメラ４３０Ｂは、モバイルハンドセット４１０の１つまたは複数のカメラのうちの２つであってもよい。第１のカメラ４３０Ａおよび第２のカメラ４３０Ｂは、それぞれ第１および第２の画像センサであってもよい。いくつかの例では、モバイルハンドセット４１０の前面４２０は、単一のカメラのみを有することができる。

【0078】

いくつかの例では、モバイルハンドセット４１０の前面４２０は、第１のカメラ４３０Ａおよび第２のカメラ４３０Ｂに加えて、１つまたは複数の追加のカメラを含むことができる。１つまたは複数の追加のカメラもまた、撮像システム２００のセンサ２０５の例であり得る。いくつかの例では、モバイルハンドセット４１０の前面４２０は、第１のカメラ４３０Ａおよび第２のカメラ４３０Ｂに加えて、１つまたは複数の追加のセンサを含むことができる。１つまたは複数の追加のセンサもまた、撮像システム２００のセンサ２０５の例であり得る。場合によっては、モバイルハンドセット４１０の前面４２０は、２つ以上のディスプレイ４４０を含む。モバイルハンドセット４１０の前面４２０の１つまたは複数のディスプレイ４４０は、撮像システム２００の出力デバイス（単数または複数）２７０のディスプレイ（単数または複数）の例とすることができる。例えば、１つまたは複数のディスプレイ４４０は、１つまたは複数のタッチスクリーンディスプレイを含むことができる。

【0079】

モバイルハンドセット４１０は、モバイルハンドセット４１０のユーザの１つまたは複数の耳にオーディオを出力することができる、１つまたは複数のスピーカ４３５Ａおよび／または他のオーディオ出力デバイス（例えば、イヤホンまたはヘッドホンまたはそれらへのコネクタ）を含んでもよい。１つのスピーカ４３５Ａが図４Ａに示されているが、モバイルハンドセット４１０は、２つ以上のスピーカおよび／または他のオーディオデバイスを含むことができることを理解されたい。いくつかの例では、モバイルハンドセット４１０はまた、１つまたは複数のマイクロフォン（図示せず）を含むことができる。１つまたは複数のマイクロフォンは、センサ２０５、および／または撮像システム２００のセンサ（単数または複数）２０５の例とすることができる。いくつかの例では、モバイルハンドセット４１０は、モバイルハンドセット４１０の前面４２０に沿って、および／またはこれに隣接して１つまたは複数のマイクロフォンを含むことができ、これらのマイクロフォンは、撮像システム２００のセンサ２０５の例である。いくつかの例では、モバイルハンドセット４１０によって１つまたは複数のスピーカ４３５Ａおよび／または他のオーディオ出力デバイスを通してユーザに出力されるオーディオは、１つまたは複数のマイクロフォンを使用して記録されたオーディオを含む、またはそれに基づくことができる。

【0080】

図４Ｂは、後ろ向きカメラを含み、エクステンデッドリアリティ（ＸＲ）システム２００として使用することができるモバイルハンドセットの背面４６０を示す斜視図４５０である。モバイルハンドセット４１０は、モバイルハンドセット４１０の背面４６０上に第３のカメラ４３０Ｃおよび第４のカメラ４３０Ｄを含む。斜視図４５０の第３のカメラ４３０Ｃおよび第４のカメラ４３０Ｄは、後ろ向きである。第３のカメラ４３０Ｃおよび第４のカメラ４３０Ｄは、図２の撮像システム２００のセンサ（単数または複数）２０５の例であり得る。第３のカメラ４３０Ｃおよび第４のカメラ４３０Ｄは、モバイルハンドセット４１０の背面４６０の平面に垂直な方向を向いている。

【0081】

第３のカメラ４３０Ｃおよび第４のカメラ４３０Ｄは、モバイルハンドセット４１０の１つまたは複数のカメラのうちの２つであってもよい。いくつかの例では、モバイルハンドセット４１０の背面４６０は、単一のカメラのみを有することができる。いくつかの例では、モバイルハンドセット４１０の背面４６０は、第３のカメラ４３０Ｃおよび第４のカメラ４３０Ｄに加えて、１つまたは複数の追加のカメラを含むことができる。１つまたは複数の追加のカメラもまた、撮像システム２００のセンサ（単数または複数）２０５の例であり得る。いくつかの例では、モバイルハンドセット４１０の背面４６０は、第３のカメラ４３０Ｃおよび第４のカメラ４３０Ｄに加えて、１つまたは複数の追加のセンサを含むことができる。１つまたは複数の追加のセンサもまた、撮像システム２００のセンサ（単数または複数）２０５の例であり得る。いくつかの例では、第１のカメラ４３０Ａ、第２のカメラ４３０Ｂ、第３のカメラ４３０Ｃ、および／または第４のカメラ４３０Ｄは、画像キャプチャおよび処理システム１００、画像キャプチャデバイス１０５Ａ、画像処理デバイス１０５Ｂ、またはそれらの組み合わせの例であり得る。

【0082】

モバイルハンドセット４１０は、モバイルハンドセット４１０のユーザの１つまたは複数の耳にオーディオを出力することができる、１つまたは複数のスピーカ４３５Ｂおよび／または他のオーディオ出力デバイス（例えば、イヤホンまたはヘッドホンまたはそれらへのコネクタ）を含んでもよい。１つまたは複数のスピーカ４３５Ｂは、撮像システム２００の出力デバイス（単数または複数）２７０の例とすることができる。１つのスピーカ４３５Ｂが図４Ｂに示されているが、モバイルハンドセット４１０は、２つ以上のスピーカおよび／または他のオーディオデバイスを含むことができることを理解されたい。いくつかの例では、モバイルハンドセット４１０はまた、１つまたは複数のマイクロフォン（図示せず）を含むことができる。１つまたは複数のマイクロフォンは、センサ２０５、および／または撮像システム２００のセンサ（単数または複数）２０５の例とすることができる。いくつかの例では、モバイルハンドセット４１０は、モバイルハンドセット４１０の背面４６０に沿って、および／またはこれに隣接して１つまたは複数のマイクロフォンを含むことができ、これらのマイクロフォンは、撮像システム２００のセンサ（単数または複数）２０５の例である。いくつかの例では、モバイルハンドセット４１０によって１つまたは複数のスピーカ４３５Ｂおよび／または他のオーディオ出力デバイスを通してユーザに出力されるオーディオは、１つまたは複数のマイクロフォンを使用して記録されたオーディオを含む、またはそれに基づくことができる。

【0083】

モバイルハンドセット４１０は、前面４２０上のディスプレイ４４０をパススルーディスプレイとして使用することができる。例えば、ディスプレイ４４０は、出力画像を表示することができる。出力画像は、第３のカメラ４３０Ｃおよび／または第４のカメラ４３０Ｄによってキャプチャされた画像に基づくことができ、例えば、仮想コンテンツがオーバーレイされ、および／またはメディア修正エンジン２３５による修正が適用されている。第１のカメラ４３０Ａおよび／または第２のカメラ４３０Ｂは、ディスプレイ４４０上の仮想コンテンツを伴う出力画像の表示の前、その間、および／またはその後に、ユーザの眼（および／またはユーザの他の部分）の画像をキャプチャすることができる。このようにして、第１のカメラ４３０Ａおよび／または第２のカメラ４３０Ｂからのセンサデータは、ユーザの眼（および／またはユーザの他の部分）による仮想コンテンツに対する反応をキャプチャすることができる。

【0084】

図５は、グリッド反転の例を示す概念図である。グリッド反転への入力は、動きベクトル（ＭＶ）グリッドとして図５の第１の画像Ｉｍｇ１５１０から第２の画像Ｉｍｇ２５１５への黒い実線矢印を使用して示される、動きベクトルの第１のセットを含む。動きベクトルグリッドは、画素（または画素のグループ）ごとに、動きベクトル（ＭＶ）グリッド５０５内の動きベクトルを使用して、その画素（または画素のグループ）が環境内の第１の画像Ｉｍｇ１５１０（例えば、視覚または深度）とその環境内の第２の画像Ｉｍｇ２５１５（例えば、視覚または深度）との間でどの程度移動しようとしているかを示す。動きベクトルグリッド５０５は、画像の動きベクトルマップと呼ばれることがある。動きベクトルグリッド５０５の動きベクトルは、動きベクトルエンジン２２０を使用して、例えばオプティカルフローを使用して、決定することができる。

【0085】

グリッド反転エンジン２２５は、動きベクトルの第２のセット（逆ＭＶグリッド５２０）を生成するために動きベクトルの第１のグループ（動きベクトルグリッド５０５）内の動きベクトルの特性（単数または複数）（例えば、方向、原点、位置、長さ、および／またはサイズ）を変更する、グリッド反転を実行することができる。（ＭＶグリッド５０５におけるように）Ｉｍｇ１５１０からの各画素がＩｍｇ２５１５にどのように移動するかを示す代わりに、動きベクトルの第２のセット（逆ＭＶグリッド５２０）の動きベクトルは、Ｉｍｇ２５１５からの各画素がＩｍｇ１５１０にどのように戻ることができるかを示す。動きベクトルの第２のセット（逆ＭＶグリッド５２０）の動きベクトルは、図５の第２の画像Ｉｍｇ２５１５から第１の画像Ｉｍｇ１５１０に向かう黒い破線矢印を使用して示されている。

【0086】

図５の様々な黒いアイコンは、２つの画像Ｉｍｇ１５１０およびＩｍｇ２５１５に描写される環境内の様々な要素を表す。例えば、要素は、家、鳥、人物、車、および木を含む。ＭＶグリッド５０５によれば、家および木は、ＭＶグリッド５０５において０で表されるように、Ｉｍｇ１５１０からＩｍｇ２５１５まで移動していない。同様に、逆ＭＶグリッド５２０でも、家および木は、Ｉｍｇ２５１５からＩｍｇ１５１０まで移動していない。家は、両方とも家が位置するセル０におけるＭＶグリッド５０５および逆ＭＶグリッド５２０内の０で表される。木は、木が位置するセル８における逆ＭＶグリッド内の０によって表すことができるが、以下で論じられる車との競合があり、黒丸によって表される。鳥は、Ｉｍｇ１５１０からＩｍｇ２５１５へ（セル１からセル２へ）１グリッドセルだけ右に移動し、これはＭＶグリッド５０５内のセル１の１によって表される。鳥は、Ｉｍｇ２５１５からＩｍｇ１５１０へ（セル２からセル１へ）１グリッドセルだけ左に移動し、これは逆ＭＶグリッド５２０内のセル２の－１によって表される。値は、ＭＶグリッド５０５から逆ＭＶグリッド５２０に反転される（－１を乗じる）だけでなく、Ｉｍｇ１５１０内の要素の古い位置に対応するセルからＩｍｇ２５１５内の要素の新しい位置に対応するセルに移動もされる。鳥がＩｍｇ１５１０内にいたがＩｍｇ２５１５にはいないセル１の黒い星は、セル１に対応する画像の領域が欠落しており、逆ＭＶグリッド５２０において、（例えば、補間および／またはインペインティングを用いて）埋める必要があり得ることを示している。人物は、Ｉｍｇ１５１０からＩｍｇ２５１５へ（セル６からセル４へ）２グリッドセルだけ左に移動し、これはＭＶグリッド５０５内のセル６の－２によって表される。人物は、Ｉｍｇ２５１５からＩｍｇ１５１０へ（セル４からセル６へ）２グリッドセルだけ右に移動し、これは逆ＭＶグリッド５２０内のセル４の２によって表される。人物がＩｍｇ１５１０内にいたがＩｍｇ２５１５からはいなくなっているセル６の黒い星は、逆ＭＶグリッド５２０において、セル１に対応する画像の領域が欠落しており、（例えば、補間および／またはインペインティングを用いて）埋める必要があり得ることを示している。車は、Ｉｍｇ１５１０からＩｍｇ２５１５へ（セル７からセル８へ）１グリッドセルだけ右に移動し、これはＭＶグリッド５０５内の１によって表される。車は、Ｉｍｇ２５１５からＩｍｇ１５１０へ（セル８からセル７へ）１グリッドセルだけ左に移動し、これは逆ＭＶグリッド５２０内の－１によって表すことができる。しかしながら、車および木は、Ｉｍｇ２５１５内の同じグリッドセル（セル８）内にあり、したがって赤い丸は、逆ＭＶグリッド５２０のそのセル内の競合値（例えば、木については０、車については－１）を示す。

【0087】

図６は、深度ベースの再投影の例を示す概念図６００である。深度ベースの再投影は、画像再投影エンジン２１５によって実行される。この例は、工具箱が乗せられ、その周りにいくつかの椅子がある机を有する環境（世界場面６０５と呼ばれる）のカメラ画像６１０を示す。画像再投影エンジン２１５は、再投影画像６１５を生成するためにカメラ画像６１０を再投影するために、（例えば世界場面６０５の）環境の深度データ６２０を使用する。再投影画像６１５は、カメラ画像６１０（例えば、世界場面６０５）と同じ環境を描写するが、カメラ画像６１０と比較して再投影画像６１５内の異なる視点または地点から環境がキャプチャされたかのように再投影されている。図６に示される例では、再投影画像６１５は、カメラ画像６１０に描写された環境の視点または地点の左に並進した環境の視点または地点からキャプチャされたように見える。いくつかの例では、画像再投影エンジン２１５は、例えば深度データ６２０に基づいて、グリッド反転エンジン２２５によって生成された逆ＭＶグリッド（例えば、逆ＭＶグリッド５２０）を使用して画像再投影を実行することができる。

【0088】

図７は、タイムワープエンジン２３０によって実行されるタイムワープ７０５の例を示す概念図７００である。左側には、大きな、または密な動きベクトルマップ７２０が黒い実線矢印として示され、画素が画像フレームｎと画像フレームｎ－４との間でどのように移動するかを示している。画像フレームｎおよび画像フレームｎ－４は、高い垂直線として示されている。タイムワープ７０５は、例えば画像フレームｎから画像フレームｎ－１へ、画像フレームｎ－１から画像フレームｎ－２へ、画像フレームｎ－２から画像フレームｎ－３へ、および画像フレームｎ－３から画像フレームｎ－４へのより短い垂直矢印として示される、より小さい動きベクトルマップを作成するために、大きな、または密な動きベクトルマップ７２０上で（グリッド反転エンジン２２５を使用して）グリッド反転を使用する。

【0089】

より小さいベクトルマップを作成するために、タイムワープエンジン２３０はリサンプリングを使用する。例えば、より小さいベクトルマップを生成するために、タイムワープエンジン２３０は、例えば値に１／４を乗じることによって、動きベクトルマップ内の（フレームｎとフレームｎ－４との間の要素の移動の距離を表す）値を小さくする。加えて、タイムワープエンジン２３０は、図５のグリッド反転における値の移動と同様に、対応するフレーム内の各要素の新しい位置に値を移動させる。

【0090】

タイムワープ７０５は、例えばオプティカルフローがｋフレームごとにのみ実行される場合、既存の動きベクトルマップ間の動きベクトルマップを補間するために使用することができる。オプティカルフローは、実行するために多くの電力を使用する可能性がある計算コストが高い演算であるが、ここで実証されるタイムワープ７０５は、より低コストで低電力の演算である。したがって、オプティカルフローは、計算コストおよび電力使用量を削減するために控えめに使用することができるが、タイムワープ７０５は依然として、撮像システム２００が任意の２つの隣接するフレーム間（および場合により、任意の２つのフレーム間）のフレーム遷移ごとに動きベクトルを取得することを可能にすることができる。

【0091】

いくつかの例では、タイムワープ７０５によって生成されたより小さい動きベクトルマップは、例えばビデオのフレームレートを第１のフレームレートから第１のフレームレートよりも高い第２のフレームレートに増加させるために、ビデオの既存のフレーム間に追加のフレームを補間するために使用することができる。

【0092】

いくつかの例では、タイムワープ７０５によって生成されたより小さい動きベクトルマップは、ビデオの特定のフレームの品質を向上させるために使用することができる。例えば、ビデオの特定のフレームが不鮮明であるか、大量の圧縮アーチファクトを含むか、画像の撮影された場面を明瞭に見えにくくする圧縮アーチファクトを含むか、そうでなければ低品質に悩まされる場合には、タイムワープ７０５は、ビデオのこのようなフレームの品質を改善することができる。タイムワープ７０５は、ビデオの１つまたは複数の隣接または近くのフレームから動きベクトルマップを決定するために使用することができ、これらのフレームからの画像データは、問題の特定のフレームの画質を改善するように、問題の特定のフレームを置き換えるための修正された画像を生成するために使用することができる。概念図７００は、タイムワープ７０５が適用されていない左側の第１の画像７１０、およびタイムワープ７０５が適用されている右側の第２の画像７１５の、少年の画像の２つの事例を示しており、第１の画像７１０と比較して、第２の画像７１５の少年の描写の明確さを改善している。タイムワープ７０５を使用して改善された右側の画像７１５は、画像７１５における少年の描写の様々な線およびエッジを表すために実線を使用して示されるように、特に少年の描写における様々なエッジおよびその付近において、画像７１０よりも鮮明で明瞭に見える。加えて、いくつかの例では、ヘアパターン、ファブリックパターン、他のパターン、テキスト、ロゴ、および／または他のデザインなどのパターンは、タイムワープ７０５が適用されていない画像（例えば、左側の画像７１０）よりもタイムワープ７０５が適用されている画像（例えば、右側の画像７１５）の方が明瞭で鮮明に見える可能性がある。

【0093】

タイムワープ７０５の追加の例、およびタイムワープ７０５を使用する画像の改善が、図２３および図２９に示されている。

【0094】

図８は、深度センササポートエンジン２３５によって実行される深度センササポート８０５の例を示す概念図８００である。飛行時間（ＴｏＦ）センサを含み得る、画像センサ８１０のセットおよび深度センサ８１５のセットを含む、撮像システム２００上のセンサ２０５のクラスタが示されている。場合によっては、画像処理において、画像センサ８１０からの画像データおよび深度センサ８１５からの深度データは、例えばボケ、シミュレートされた被写界深度のブレ、オブジェクト認識などを生成するために、一緒に使用するのに有用であり得る。しかしながら、画像センサ８１０および深度センサ８１５は併置されない。代わりに、画像センサ８１０および深度センサ８１５は、オフセット８２０だけ互いにオフセットされる。したがって、画像センサ８１０からの画像データおよび深度センサ８１５からの深度データの使用は、オフセット８２０に起因する視点のわずかな不一致による視差問題をもたらす可能性がある。したがって、深度データ内の深度は、画像データ内に描写されたオブジェクトと一致しない場合がある。この不一致は、センサに近い環境内のオブジェクトに対して特に顕著であり得、画像データ対深度データにおいてかなり異なる位置に出現し得る。より遠くのオブジェクトは、画像データおよび深度データではより類似して見えることがある。

【0095】

この不一致を補正するために、いくつかの例では、画像再投影エンジン２１５は、画像センサ８１０の視点から来るように見えるように、深度センサ８１５からの深度データを再投影することができる。いくつかの例では、画像再投影エンジン２１５は、深度センサ８１５の視点から来るように見えるように、画像センサ８１０からの画像データを再投影することができる。画像再投影エンジン２１５が再投影を実行するために深度データが必要とされ得るので、画像再投影エンジン２１５は、適切な深度データについて、画像センサ８１０と深度センサ８１５との間の外部較正に依存することができる。

【0096】

図９は、３Ｄ安定化エンジン２４０によって実行される３Ｄ安定化９０５の例を示す概念図９００である。従来の安定化技術は、回転移動を補償することができるが、一般に、現実世界における並進（例えば、視差）移動を補償することはできない。環境の深度データに基づいて画像再投影エンジン２１５を使用する画像再投影は、並進移動、回転移動、またはその両方を含む視差移動を補正する真の３Ｄ安定化９０５を提供することができる。図９におけるオリジナル（オリジナル」）とラベル付けされた４つのビデオフレームを含む、センサ（単数または複数）２０５を使用してキャプチャされたビデオの各ビデオフレームについて、元のビデオフレームの安定化された変形（「安定」）を生成するために、画像再投影エンジン２１５を使用して再投影が実行される。結果的な再投影されたビデオフレームは、それらのそれぞれの視点が、線に垂直な任意の視差移動、または線に対応する軸（もしくは任意の他の軸）を中心とする任意の回転なしに、仮想安定化移動経路を表す線上に全て収まるように再投影される。線は、湾曲した移動経路を表すために湾曲していてもよいが、このような視差移動または回転に対応するいかなるギザギザのエッジも有さない。

【0097】

撮影された３Ｄ安定化９０５について、ビデオフレームによって示される入力ビデオは、異なる方向に、すなわち並進的に上方に、並進的に下方に、並進的に左に、並進的に右に、並進的に前方に、並進的に航法に、および／または回転的に（例えば、ピッチ、ヨー、およびロール）揺れている。画像再投影エンジン２１５は、環境上の視点を変更するために画像を再投影するので、揺れにおけるこれらの移動の全ては、画像再投影エンジン２１５を使用する再投影によって安定化される。

【0098】

場合によっては、ブランク領域は、安定化されたフレーム内に、例えばフレームのエッジに、および／またはフレーム内の人々の周りに（例えば、図９の右下の４つ目の安定化されたフレーム内の女性の右側に）出現する可能性がある。これらは、元の画像に対応するデータがないオクルージョン領域を表すことができる。これらのオクルージョン領域は、例えば補間および／またはインペインティング（例えば、ディープラーニングベースのインペインティング）を使用して、画像再投影エンジン２１５によって埋めることができる。３Ｄ安定化９０５の追加の例３２０５が、図３０に示されている。いくつかの例では、これらのブランク領域は黒色に見えてもよい。いくつかの例では、これらのブランク領域は白色に見えてもよい。図９では、これらのブランク領域は、白色で示されている。

【0099】

いくつかの例では、３Ｄ安定化のため、並びに画像再投影エンジン２１５の特定の他の用途のために、あたかも無限の距離にあるかのように遠くの画素を扱い、このような画素の位置を再投影下で不変にすることは、有用であり得る。いくつかの例では、画像再投影エンジン２１５は、あたかも無限の距離にあるかのように遠くの画素を扱うために無限遠を表す値に向かって並進値を滑らかに遷移させるために、並進減衰を使用することができる。

【0100】

図１０は、３Ｄズームエンジン２４５によって実行される３Ｄズーム１００５（シネマティックズームとも呼ばれる）の例を示す概念図１０００である。３Ｄズームエンジン２４５によって実行される３Ｄズーム１００５は、画像へのズームイン（例えば、画像の他の部分を除去しながら画像の特定の部分を拡大すること）、仮想カメラを異なる方向に移動させること（例えば、パン、回転など）、および／または他のタイプのズームを含むことができる。場合によっては、画像に対してデジタルズームを実行するために、図１０においてデジタルズーム（「ｄｉｇ．ｚｍ．」）としてラベル付けされた４つの画像のシーケンスに示されるように、全体画像が、従来はアップスケールされ、クロップされる。画像は、家の前のスケートボーダーを示している。デジタルズーム（またはいくつかの例では、光学ズームレンズまたはカメラおよび／もしくはレンズ間のスイッチを使用する光学ズーム）を実行することで、家の視野のかなりの部分が失われる。しかしながら、カメラがスケートボーダーに近付けられると、家の視野は、デジタルズームを使用して失われるほど多くは失われない。これは、スケートボーダーが家よりもカメラに近いからである。言い換えると、スケートボーダーは前景にあり、家は背景にある。

【0101】

３Ｄズーム１００５、または深度ベースのズームもしくはシネマティックズームは、環境におけるカメラの前方への移動、この場合はスケートボーダーに近付く移動をシミュレートするために、環境の深度データ１０２０に基づいて画像再投影エンジン２１５を使用する画像再投影を使用する。図１０で深度ベースのズーム（「ｄｅｐｔｈ．ｚｍ．」）としてラベル付けされた４つの画像のシーケンスに示されるように、スケートボーダーは、デジタルズームの場合と同程度にサイズが増加するが、家の被写界深度はあまり失われない。例えば、シーケンス内の４つの画像の最後において、家の４つの窓の範囲は、デジタルズーム下で少なくとも部分的にフレーム内にあるが、家の６つの窓の範囲は、３Ｄ深度ベースズーム下で少なくとも部分的にフレーム内にある（ただしこれらの窓のうちの１つは完全にスケートボーダーの後ろにある）。したがって、３Ｄ深度ベースズーム（またはシネマティックズーム）は、特に背景要素の視野の損失を最小限に抑える。３Ｄズーム１００５（または深度ベースのズームまたはシネマティックズーム）は、図３１に示されている。

【0102】

図１１は、再投影ＳＡＴエンジン２５０によって実行される再投影１１０５の例を示す概念図１１００である。撮像システム２００のセンサ２０５のクラスタが、望遠センサ１１１０、広角センサ１１１５、および他のセンサ１１２５とともに図１１に示されている。場合によっては、撮像システム２００は、例えば環境の画像に異なるレベルのズームを提供するために、望遠センサ１１１０と広角センサ１１１５との間で切り替えてもよい。しかしながら、図８の画像センサ８１０および深度センサ８１５を用いるシナリオと同様に、望遠センサ１１１０および広角センサ１１１５は併置されない。代わりに、望遠センサ１１１０と広角センサ１１１５との間にオフセット１１２０がある。したがって、望遠センサ１１１０と広角センサ１１１５との間で切り替えることで、視差効果を生じる。例えば、望遠センサ１１１０を使用してキャプチャされた望遠画像１１３０が撮影され（「ｔｅｌｅ」とラベル付けされる）、広角センサ１１１５を使用してキャプチャされ、望遠の視野に一致するようにクロップされた、すなわち望遠センサに移行する前にデジタルズームされた広角画像１１３５が撮影される（「ｗｉｄｅ」とラベル付けされる）。両方の画像は、遠くの背景の前の男性を描写している。望遠画像１１３０では、男性は、広角画像１１３５における男性の位置よりもわずかに右に写っている。

【0103】

図８の深度センササポート８０５と同様に、再投影ＳＡＴエンジン２５０は、深度データ１１６０に基づいてオフセット１１２０を補正するために再投影１１０５を実行することができる。例えば、再投影ＳＡＴエンジン２５０は、修正済み望遠画像１１４０（「ｍｏｄｉｆ．ｔｅｌｅ」とラベル付けされる）が（例えば、望遠画像１１３０のように）望遠センサ１１１０の視点ではなく（例えば、広角画像１１３５のように）広角センサ１１１５の視点からキャプチャされたように見えるように視点を修正するために望遠画像を修正するために、再投影１１０５を実行することができる。修正済み望遠画像１１４０では、男性は、未修正望遠画像１１３０における男性の位置よりもわずかに左に写っている。修正済み望遠画像１１４０では、男性は、広角画像１１３５における男性の位置と同様の位置に写っている。背景に対して男性を描写する画像データの視差移動によって引き起こされる黒い影が、修正済み望遠画像１１４０における男性の右に現れる。黒い影は、例えばさらに説明される補間および／またはインペインティングを使用して、画像データで埋めることができる「穴」を表す。

【0104】

いくつかの例では、再投影ＳＡＴエンジン２５０は、代わりに、修正された広角画像（図示せず）が、広角センサ１１１５の視点ではなく望遠センサ１１１０の視点からキャプチャされたように見えるように視点を修正するために広角画像を修正するために、深度データ１１６０に基づいて再投影１１０５を実行することができる。１つのセンサからのデジタルズーム画像のセットがスイッチの前の第２のセンサと一致するという画像推定に基づいてワープされる、センサ間の変換とは異なり、再投影ＳＡＴエンジン２５０は、深度データに基づいてオフセットを補正することができ、特により近いオブジェクト（例えば、前景にあるオブジェクトおよび／または閾値深度未満のオブジェクト）について、視差問題（例えば、視差誤差）を低減する。再投影１１０５の追加の例が図３２に示されている。

【0105】

図１２は、頭部姿勢補正エンジン２５５によって実行される頭部姿勢補正１２０５の例を示す概念図１２００である。場合によっては、ユーザの画像は、準最適角度および／または実際より良く見せない角度（例えば、ユーザの顔に垂直な垂直角度以外の角度）からキャプチャすることができる。例えば、ユーザが自分の自撮り画像をキャプチャするとき、またはビデオ会議のためにカメラを自分に向けるとき、画像がキャプチャされる角度は、ユーザが下、上、左、および／または右を見ているように見えるように、ユーザの頭部姿勢と整合しない場合が多い。場合によっては、長時間にわたって電話または他の撮像システム２００を保持することからユーザの手が疲れ、および／または不快になる可能性があり、これにより、ユーザの手が落ちるかまたは知覚の表面に寄りかかる際にこの問題を悪化させる可能性がある。

【0106】

頭部姿勢補正エンジン２５５によって実行される頭部姿勢補正１２０５は、ユーザの顔に垂直な垂直角度からの視点など、より最適なおよび／またはより良く見せる視点について仮想センサ位置を一致させるために実際のセンサを再投影するために、画像再投影エンジン２１５を使用して再投影を実行することができる。

【0107】

例えば、入力画像１２１０における女性の元の頭部姿勢は、女性の頭部の高さよりわずかに下からの実際より良く見せない角度からキャプチャされ、女性の首および顎領域を強調している。頭部姿勢補正１２０５は、ユーザの顔に垂直な垂直角度からの視点からの再投影画像１２１５を生成するために、入力画像１２１０および深度データ１２２０に基づいて画像再投影エンジン２１５を使用する。再投影画像１２１５は、はるかに良く見せる垂直角度から女性の顔を見ているように見え、入力画像１２１０のように女性の首および顎よりも女性の顔の特徴を強調している。頭部姿勢補正１２０５の追加の例が、図３３に示されている。

【0108】

図１３は、ＸＲレイトステージ再投影エンジン２６０によって実行されるＸＲレイトステージ再投影１３０５の例を示す概念図１３００である。いくつかのＸＲデバイス（例えば、ＨＭＤ１３２０）または他のモバイルデバイスは、バッテリ電力を節約するために、低フレームレートでそれらのセンサ２０５を使用してセンサデータ（例えば、画像、ビデオ、深度画像、および／または点群）をキャプチャする。フレームレートを改善するために低フレームレートセンサデータのフレーム間に追加のフレームを生成するために、補間を使用することができる。低フレームレートＸＲは、ユーザに吐き気をもたらす可能性があり、および／またはＸＲをジッタがあり非現実的であるように見せる可能性があるため、高フレームレートはＸＲアプリケーションにとって重要であり得る。

【0109】

補間技術は、ＸＲデバイス（例えば、ＨＭＤ１３２０）の視点の全ての変化を常に現実的に表すことができるとは限らない。例えば、補間は、ユーザがオブジェクトに近付いたり遠ざかったりすることをシミュレートするためにデジタルズームを使用してもよく、これは、図１０の３Ｄズーム１００５に関して説明されたものと同様の視野の不一致を引き起こす可能性がある。補間技術はまた、例えばＸＲデバイス（例えば、ＨＭＤ１３２０）の並進移動によって引き起こされる、視差移動に困難を有する場合もある。補間技術はまた、例えばＸＲデバイス（例えば、ＨＭＤ１３２０）の配向（例えば、ピッチ、ロール、および／またはヨー）の変化よって引き起こされる、回転移動に困難を有する場合もある。

【0110】

ＸＲレイトステージ再投影エンジン２６０によって実行されるＸＲレイトステージ再投影１３０５は、ＸＲデバイスの位置の変化に基づいて環境の画像を再投影するために、画像再投影エンジン２１５を使用して画像再投影を実行することができる。ＸＲデバイス（例えば、ＨＭＤ１３２０）の位置の変化は、ＸＲデバイス（例えば、ＨＭＤ１３２０）の姿勢センサからのセンサデータに基づいて決定することができ、これは画像センサまたは深度センサよりも少ない帯域幅および／または電力を使用し得る。ＸＲデバイス（例えば、ＨＭＤ１３２０）の位置の変化は、ＸＲデバイス（例えば、ＨＭＤ１３２０）のセンサ２０５の画像センサ、深度センサ、および／またはマイクロフォンからの画像データ、深度データ、および／またはオーディオデータに基づいて推測することができる。

【0111】

例えば、入力画像１３１０が示されており、これに基づいてＸＲレイトステージ再投影エンジン２６０は、ＸＲデバイスの一例であるＨＭＤ１３２０の配向の図示される変化に基づいてＸＲレイトステージ再投影１３０５を使用して再投影画像１３１５を生成する。

【0112】

図１４は、特殊効果エンジン２６５によって実行される特殊効果１４０５の例を示す概念図１４００である。特殊効果エンジン２６５によって実行される特殊効果１４０５は、オブジェクトの周りで回転するため、オブジェクトに沿ってパンするため、軸の周りで視点を回転させるため、経路に沿って視点を移動させるため、またはこれらの何らかの組み合わせのために入力画像１４１０を再投影するために、画像再投影エンジン２１５を使用して画像再投影を実行することができる。図１４に示される例では、環境の入力画像１４１０は、再投影画像１４１５を形成するために環境の異なる視点から再投影される。再投影画像１４１５における環境上の視点は、入力画像１４１０における環境上の視点の左にあり、例えば、工具箱を、入力画像１４１０に対して再投影画像１４１５において右に回転および／または傾斜するように見せる。

【0113】

図１５は、行列演算に基づく画像再投影変換を示す概念図１５００である。概念図１５００は、キャプチャ画像１５１０とは異なる視点から環境の再投影画像１５１５を生成するために、画像再投影エンジン２１５が環境のキャプチャ画像１５１０をどのように再投影することができるかを示す。画像再投影エンジン２１５は、センサ（単数または複数）２０５から、具体的にはカメラからキャプチャ画像１５１０を受信する。キャプチャ画像は、第１の視点（「ｆｉｒｓｔｐｅｒｓｐ．」）からの環境を描写する。キャプチャ画像１５１０の例が図１５に示されている。例えば、焦点距離ｆおよび深度とともにピンホールカメラパラダイムを使用して、撮像システムは、カメラに対して環境内のどこにオブジェクトがあるかを判定することができる。画像再投影エンジン２１５は、第１のカメラから第２のカメラに移動または再投影するために、第１のカメラ（オリジナルカメラ、ソースカメラ、または第１の視点としても知られる）を描写する内部行列３Ｄ世界における第２のカメラまたは仮想カメラ（ターゲットカメラ、または第２の視点としても知られる）を描写する第２の内部行列、および３Ｄ変換行列を使用することができる。いくつかの例では、画像再投影エンジンは、本明細書に記載される画像再投影と同じ原理に基づいて、第２の視点からの環境を描写する第２の深度マップを作成するために、深度再投影を実行することができる。さらに、レンズ歪み（例えば、径方向歪み）を考慮に入れる変換パラダイムなど、画像および／または深度再投影のために様々な変換パラダイムを使用することができる。

【0114】

画像再投影エンジン２１５は、例えば深度センサから、および／またはカメラ（例えば、立体深度感知、ＴｏＦセンサ、および／または構造化光）を使用する深度の判定に基づいて、深度マップ（「画像領域上の深度」）（例えば、深度データ６２０）を受信する。深度マップに基づいて、画像再投影エンジン２１５は、キャプチャ画像１５１０内に描写された椅子、またはテーブル、または工具箱のいずれかなど、キャプチャ画像１５１０内の任意の所与のオブジェクトの３Ｄ座標（例えば、Ｘ、Ｙ、およびＺ）における正確な位置を判定することができる。例えば、オブジェクトの深度、カメラ（Ｉｎｔｒｉｎｓｉｃ_ｃａｍ）の内部行列、およびキャプチャ画像１５１０内のオブジェクトの座標

【数1】

に基づいて、環境内のオブジェクトのＸ、Ｙ、およびＺ座標を判定するための式のセットが、図１５において識別される。式は以下の通りである。

【数2】

【0115】

カメラの内部行列（Ｉｎｔｒｉｎｓｉｃ_ｃａｍ）は、３Ｄカメラ座標を２Ｄ画像座標に変換するために使用することができ、以下に示されるように、焦点距離の測定値（単数または複数）（ｆ_ｘおよび／またはｆ_ｙ）および／または主点オフセット（単数または複数）（ｃ_ｘおよび／またはｃ_ｙ）に基づくことができる。

【数3】

【0116】

３Ｄ変換は、例えば以下に示されるように、ソースカメラ位置および再投影に対応するターゲットカメラ位置における内部行列に基づくことができる。

【数4】

【0117】

画像再投影エンジン２１５は、再投影の環境内で視点がどのように移動すべきか（例えば、カメラのシミュレートされた移動）を示す再投影行列を受信および／または決定する。図１５に描写される再投影行列内の値は、Ｒ１１、Ｒ１２、Ｒ１３、Ｔｘ、Ｒ２１、Ｒ２２、Ｒ２３、Ｔｙ、Ｒ３１、Ｒ３２、Ｒ３３、およびＴｚとラベル付けされる。別の例では、画像再投影エンジンは、（例えば、上記で示された計算の少なくともいくつかを実行することなく）変換を直接３Ｄ変換行列として得ることができる。再投影行列の形態で、環境内で視点がどのように移動すべきかを画像再投影エンジン２１５が知ると、画像再投影エンジン２１５は、以下のようにＸ_ｏｕｔ、Ｙ_ｏｕｔ、およびＺ_ｏｕｔを決定することによって、（例えば、再投影画像１５１５内で）カメラ移動の後のオブジェクトの環境内の新しい３Ｄ位置を決定することができる。

【数5】

【0118】

画像再投影エンジン２１５は、それぞれ

【数6】

として示される、再投影画像１５１５におけるオブジェクトの新しい座標を決定するために、座標Ｘ_ｏｕｔ、Ｙ_ｏｕｔ、およびＺ_ｏｕｔによって定義される、環境内のオブジェクトの新しい位置を使用することができる。再投影画像１５１５内のオブジェクトの新しい座標

【数7】

は、以下のように画像再投影エンジン２１５によって決定される。

【数8】

【0119】

画像再投影エンジン２１５は、キャプチャ画像１５１０から再投影画像１５１５へのオブジェクトの動きベクトルを決定するためにキャプチャ画像１５１０内のオブジェクトの座標

【数9】

と、再投影画像１５１５内のオブジェクトの新しい座標

【数10】

とを使用することができる。画像再投影エンジン２１５は、以下のように、動きベクトルの水平値をＭＶ_ｘとして、動きベクトルの垂直値をＭＶ_ｙとして、決定することができる。

【数11】

【0120】

画像再投影エンジン２１５は、キャプチャ画像１５１０内の任意のオブジェクトの任意の画素について、その画素が再投影画像１５１５内のどこに入るべきかを知るために、動きベクトルＭＶ_ｘおよびＭＶ_ｙを使用することができる。例示的な例では、椅子の一部は、キャプチャ画像１５１０から再投影画像１５１５へ右に４画素移動し得る。一方、工具箱は椅子よりもカメラに近いので、工具箱の一部は、キャプチャ画像１５１０から再投影画像１５１５へ右に１０画素移動し得る。したがって、オブジェクトごとに、画像再投影エンジン２１５は、キャプチャ画像１５１０と比較して、再投影画像１５１５内のどこにオブジェクトが移動すべきかを計算することができる。

【0121】

動きベクトルは、第２の画像データ内の画素位置への第１の画像データ内の各画素の画素変位を表すことができ、この変位は、第１および第２の視点の相対的な観察地点と深度の逆数とに依存する。上述のように、動きベクトルは、深度データ（例えば、上記の式における「Ｄｅｐｔｈ」）に基づいて決定することができる。例えば、いくつかの例では、動きベクトルは、深度データに基づいてキャプチャされた画像データから決定され得る３Ｄ座標（例えば、Ｘ、Ｙ、Ｚ）など、環境内のオブジェクト（単数または複数）の位置（単数または複数）に基づいて決定することができる。いくつかの例では、動きベクトルは、オブジェクト（単数または複数）の３Ｄ座標（例えば、Ｘ、Ｙ、Ｚ）の変換（例えば、３Ｄ変換）の出力（単数または複数）（例えば、Ｘ_ｏｕｔ、Ｙ_ｏｕｔ、Ｚ_ｏｕｔ）など、環境内のオブジェクト（単数または複数）の位置（単数または複数）の変換の出力（単数または複数）に基づいて決定することができる。

【0122】

いくつかの例では、カメラの焦点距離ｆもまた、上記の式のいくつかに組み込まれてもよい。例えば、環境内のオブジェクトのＸおよびＹ座標の決定は、焦点距離ｆと、例えば以下に示されるように、再投影画像１５１５内のオブジェクトの座標の決定

【数12】

とに基づいてもよい。

【数13】

【0123】

図１６は、深度データおよび３Ｄ変換に基づくグリッド反転変換を示すブロック図１６００である。グリッド反転変換は、（例えば、再投影行列の形態の）３Ｄ変換１６０５および深度マップ１６１０を取得し、図１５に示されるように、ＭＶ計算１６１５を使用して、キャプチャ画像１５１０から再投影画像１５１５への環境内のオブジェクトの動きを示す動きベクトル（ＭＶ）１６２０を生成する。いくつかの例では、初期の動きベクトルは、既存の動きベクトルと呼ぶこともできる。グリッド反転変換は、既存のＭＶ１６２０に対して逆動きベクトル１６３０へのグリッド反転１６２５を実行する。いくつかの例では、逆動きベクトルは、必要動きベクトルとも呼ばれることがある。

【0124】

図１７は、動きベクトルに基づく画像再投影変換を示すブロック図１７００である。ワープエンジン１７０５が示されており、これは画像再投影エンジン２１５の一部であってもよい。ワープエンジン１７０５は、最初に決定された動きベクトル（図１５～図１６のＭＶ）ではなく逆動きベクトル１７３０（例えば、図１５～図１６の逆ＭＶ）を使用する。これは、逆動きベクトル１７３０がアウトからインへの動きベクトルであるのに対して、最初に決定された動きベクトル（ＭＶ）はインからアウトへの動きベクトルだからである。アウトからインへの動きベクトル変換は、インからアウトへの動きベクトル変換よりも計算コストがかからない。特に、ワープエンジン１７０５が、逆動きベクトル１７３０などのアウトからインへの動きベクトルを使用して再投影画像１７１５を生成する場合には、ワープエンジン１７０５は、再投影画像のラスタ順（または逆ラスタ順、または任意の他の順序）で画素ごとに再投影画像１７１５を生成することができる。再投影画像１７１５内の画素ごとに、アウトからインへの逆動きベクトル１７３０はワープエンジン１７０５に、キャプチャ画像１７１０内の特定の位置から画素データを引き出し、キャプチャ画像１７１０からのその画素データで再投影画像１７１５のその画素を埋めるように指示する。例えば、再投影画像１７１５内の特定の画素について、ワープエンジン１７０５は、その画素の値がキャプチャ画像１７１０内で左に４画素の画素から取られるべきであると決定するなどのために、アウトからインへの逆動きベクトル１７３０を読み取ることができる。

【0125】

インからアウトへの動きベクトルは、（初期視点からの）場面の初期画像から（ターゲット視点からの）場面のターゲット画像への画素の動きを示す動きベクトルを指すことができる。最初に決定された動きベクトル（例えば、図１５～図１６のＭＶ）は、インからアウトへの動きベクトルの例とすることができる。アウトからインへの動きベクトルは、（ターゲット視点からの）場面のターゲット画像から（初期視点からの）場面の初期画像への画素の動きを示す動きベクトルを指すことができる。逆ＭＶ１７３０は、アウトからインへの動きベクトルの例とすることができる。

【0126】

ワープエンジン１７０５が（例えば、キャプチャ画像１７１０から再投影画像１７１５への）ワープを実行するとき、ワープのためのアウトからインへの動きベクトル（例えば、逆動きベクトル１７３０）の使用は、ワープのためのインからアウトへの動きベクトル（例えば、図１５～図１６のＭＶ）の使用に対する計算リソースの消費の削減を提供することができる。インからアウトへの動きベクトル（例えば、図１５～図１６のＭＶ）は、再投影画像１７１５に基づいて編成されるのではなくキャプチャ画像１７１０に基づいて編成される。一方、アウトからインへの動きベクトル（例えば、逆動きベクトル１７３０）は、代わりに、再投影画像１７１５に基づいて編成される。ワープエンジン１７０５が再投影画像１７１５を生成するためにワープを実行するとき、キャプチャ画像１７１０に基づく画素順に従って（例えば、キャプチャ画像１７１０に従うラスタ順で）再投影画像１７１５を生成するのではなく、再投影画像１７１５に基づく画素順に従って（例えば、再投影画像１７１５に従うラスタ順で）再投影画像１７１５を生成することが最適である。ワープのためのアウトからインへの動きベクトル（例えば、逆動きベクトル１７３０）の使用は、ワープエンジン１７０５が、再投影画像１７１５に基づく画素順に従って（例えば、再投影画像１７１５に従うラスタ順で）再投影画像１７１５を生成することを可能にすることができる。例えば、逆動きベクトル１７３０を使用して、ワープエンジン１７０５は、図５に関して説明されたように、任意の競合または欠落領域が既に解決された状態で、再投影画像１７１５の各画素を生成することができる。一方、ワープエンジン１７０５がインからアウトへの動きベクトルを使用して再投影画像１７１５内の画素のラスタ順で再投影画像１７１５を生成するために、ワープエンジン１７０５は、再投影画像１７１５のその特定の画素内で終わるべきデータを見つけるために、再投影画像１７１５の各特定の画素について、キャプチャ画像１７１０およびインからアウトへの動きベクトルの画素ごとの検索を通じて動きベクトルを介して繰り返し検索する。キャプチャ画像１７１０およびインからアウトへの動きベクトルを通じた繰り返し検索は、計算コストが高く、かなりの電力を使用する。場合によっては、ワープエンジン１７０５は、競合を解決するかまたは欠落領域を埋める必要がさらにあり得、これらの検索が誤った順序で動きベクトルを持ち出した場合、例えば遠くのオブジェクトよりも近くのオブジェクトを優先させるのではなく、近くのオブジェクトよりも遠くのオブジェクトを誤って優先させた場合に、競合を解決するかまたは欠落領域を埋める場合がある。したがって、インからアウトへの動きベクトル（例えば、図１５～図１６の動きベクトル）からアウトからインへの動きベクトル（例えば、逆動きベクトル１７３０）を生成するためにいくらかの計算コストがかかるとしても、ワープのためにアウトからインへの動きベクトル（例えば、逆動きベクトル１７３０）を使用することの最終結果は、依然として計算リソースの節約および精度の向上である。

【0127】

いくつかの例では、インからアウトへのＭＶを決定することは高コストであり得るので、インからアウトへのＭＶ（既存のＭＶ）は低解像度で、例えばキャプチャ画像の解像度の１／４で決定される。インからアウトへのＭＶにグリッド反転を適用することによってアウトからインへのＭＶ（必要ＭＶ）を生成することは、計算コストが高くない。さらにアウトからインへのＭＶ（必要ＭＶ）を使用する再投影は、計算コストが高くない。これらの演算の計算コストが高くない性質は、キャプチャ画像のフル解像度などのより高い解像度であっても、グリッド反転および／またはアウトからインへのＭＶ（必要ＭＶ）を使用する再投影が効率的に実行されることを可能にする。したがって、ワープエンジン１７０５は、より低い解像度でインからアウトへのＭＶ（既存のＭＶ）を決定するにもかかわらず、キャプチャ画像の完全な再投影となるように再投影画像を生成することができる。これは、計算リソースおよび電力の更なる節約を可能にする。

【0128】

グリッド反転エンジン２２５は、反転されたＭＶグリッドにおける欠落データおよび／または競合を処理するためのいくつかの機構を含む。先に説明されたように、グリッド反転エンジンは、ターゲット画像（例えば、再投影画像１７１５）内の画素の位置を相関させるために、ＭＶの位置を変更する。場合によっては、入力グリッド内のＭＶが指し示していない画素があり、したがって、反転のみを使用してこれらの位置にＭＶが配置されることはない。グリッド反転エンジンは、補間によるそのプロセス中に、反転されたＭＶグリッド内のこれらのセルを埋める。再び図５を参照すると、逆ＭＶグリッド５２０は、グリッド反転を介して生成され、星を使用してマークされた欠落セルを含む。例えば、逆ＭＶグリッド５２０内のセル１は、ＭＶグリッド５０５からの対応する動きベクトルを有さず、代わりにインペインティングを使用して埋められる。補間のための１つのオプションは、その隣接するセル０および２の値を使用してセル１の値を補間することである。例えば、補間のための重みは、距離によるものとすることができ、したがって、セル０では値０、セル２では値－１に基づいて、セル１の補間値は－１／２とすることができる。セル３、５、６、および７についても、同様のタイプの補間を実行することができる。

【0129】

グリッド反転エンジン２２５は、反転されたＭＶグリッドにおける競合を処理するための機構も含むことができる。場合によっては、ＭＶグリッド５０５内の複数のＭＶは、第２の画像（例えば、第２の画像Ｉｍｇ２５１５、再投影画像１７１５）内の同じ画素を指すことができ、こうして反転されたＭＶグリッド５２０内のＭＶの競合を作成し、グリッド反転エンジンが逆ＭＶグリッド５２５内の所与のセルについて競合値のうちの１つを選ぶ必要がある。このような競合の例が、逆ＭＶグリッド５２０のセル８に示されている。第１の画像Ｉｍｇ１５１０のセル７の車および第１の画像Ｉｍｇ１５１０のセル８の木の両方は、ＭＶグリッド５０５内のセル７および８から延在する動きベクトルごとに、第２の画像Ｉｍｇ２５１５内のセル８に対応する同じ画素内で終わる。その結果、逆ＭＶグリッド５２０のセル８に入れるために、グリッド反転エンジンがどの値を選ぶべきかが不明瞭になる可能性がある。

【0130】

競合を解決するために、グリッド反転エンジン２２５は、いずれかの値を選択することができる。いくつかの例では、競合値の加重平均を使用することができる。グリッド反転エンジン２２５が（例えば、深度データ６２０からの）２つのオブジェクトに対応する深度情報を有する場合、グリッド反転エンジン２２５は、センサ２０５により近いオブジェクトに対応する値を選択することができる。これは、多くの場合、より近いオブジェクトがより遠くのオブジェクトのビューを覆い、妨害し、または遮蔽するからである。グリッド反転エンジン２２５が２つのオブジェクトに対応する深度情報を欠いている場合、グリッド反転エンジン２２５は、他のヒューリスティックスまたは技術に基づいて値を選択することができ、例えば、より大きい動き、またはより大きく見えるオブジェクトに対応する値を選択することができる。移動が同じ速度であっても、より近いオブジェクトは、より遠くのオブジェクトの移動よりもセンサ２０５の視野のより多くの量を覆うように見えるので、より大きい動きを経験しているオブジェクトは、オブジェクトのサイズにかかわらず、センサ２０５により近い可能性がより高い。いくつかの例では、より大きく見えるオブジェクトもまた、センサ２０５により近い可能性がある。

【0131】

いくつかの例では、図５を参照すると、第１の画像Ｉｍｇ１５１０のセル７から第２の画像Ｉｍｇ２５１５のセル８に移動する車は、木よりもセンサ２０５に近く、その場合、グリッド反転エンジン２２５は、逆ＭＶグリッド５２０のセル８の値を（ＭＶグリッド５０５のセル７の１の対応する値の逆数となるように）－１になるように選択することができる。いくつかの例では、図５において、木は車よりもセンサ２０５に近く、その場合、グリッド反転エンジン２２５は、逆ＭＶグリッド５２０のセル８の値を（ＭＶグリッド５０５のセル８の０の対応する値に基づいて）０になるように選択することができる。いくつかの例では、グリッド反転エンジン２２５は、木と比較して、車の相対的な深度に関する情報を欠いている場合がある。そのような場合、車はより大きい動き（その値は、木の値０と比較してＭＶグリッド５０５内で１である）を経験しているので、車は木よりもセンサ２０５に近い可能性が高いため、逆ＭＶグリッド５２０のセル８の値は－１となるように選択される。いくつかの例では、車が画像（単数または複数）内で木よりも大きく見える場合、車は木よりもセンサ２０５に近い可能性が高いため、逆ＭＶグリッド５２０のセル８の値は－１となるように選択される。いくつかの例では、逆ＭＶグリッド５２０のセル８の値は、ＭＶグリッド５０５のセル７および８の値の逆数の平均として、－１／２となるように選択される。

【0132】

異なる種類の補間を実行することができ、一例では、補間は、隣接するセルまでの距離に基づいて値を重み付けすることができる。別の例では、補間は、隣接するものの深度に基づいて値を重み付けすることができる。他の方法を適用することもできる。例えば、逆ＭＶグリッド５２０のセル５、６、および７のようにより大きいギャップでは、補間は、近くのセルからの情報を遠くのセルからの情報よりも高く重み付けすることができる。例えば、逆ＭＶグリッド５２０のセル６の値は、逆ＭＶグリッド５２０のセル４の値（２）と逆ＭＶグリッド５２０のセル８の値との間の平均とすることができる。逆ＭＶグリッド５２０のセル８の値は、上述のように、セル８における競合がどのように解決されるかに依存し得る。逆ＭＶグリッド５２０のセル８の値が－１であると仮定すると、逆ＭＶグリッド５２０のセル６の値は」１／２とすることができる。逆ＭＶグリッドのセル５の値は、その補間において、逆ＭＶグリッド５２０のセル４の値（２）を逆ＭＶグリッド５２０のセル８の値より高く重み付け５２０することができ、例えば逆ＭＶグリッド５２０のセル４の値と逆ＭＶグリッド５２０のセル６の補間値との平均である。同様に、逆ＭＶグリッド５２０のセル７の値は、その補間において、逆ＭＶグリッド５２０のセル４の値（２）を逆ＭＶグリッド５２０のセル８の値より低く重み付けすることができ、例えば逆ＭＶグリッド５２０のセル８の値と逆ＭＶグリッド５２０のセル６の補間値との平均である。例えば、逆ＭＶグリッドのセル８の値が－１であると仮定すると、逆ＭＶグリッドのセル５の値を１．２５に設定することができ、その一方で逆ＭＶグリッドのセル７の値は－０．２５に設定することができる。

【0133】

図１８は、オクルージョンに対処するためのインペインティングの例を示す概念図１８００である。特定の再投影画像内のいくつかの領域は、入力画像からの適切なデータを有していない場合があり、したがって、このような再投影画像内のギャップまたはオクルージョンを表す場合がある。再投影画像１８０５において、オクルージョン領域は黒い領域として現れる。例えば、オクルージョン領域は、椅子の各々（特に左端の椅子）の左、工具箱の左、およびテーブルの左に見える。これらのオクルージョン領域は、センサ２０５に近いオブジェクトが左右に移動されるときに発生する可能性がある。再投影画像１８０５のオクルージョンマップ１８１０は、オクルージョン領域を白で示し、全ての非オクルージョン領域を黒で示す。撮像システム２００は、インペインティング画像１８１５を生成するために、インペインティングを使用してオクルージョン領域を埋めるように再投影画像１８０５を修正する。いくつかの例では、ディープラーニングベースのインペインティングが使用され、これは、再投影画像１８０５およびオクルージョンマップ１８１０に示されるオクルージョンと同様に、画像の原本およびオクルージョンを有する画像の第２のコピーを含むトレーニングデータに基づいてトレーニングされていてもよい、ディープラーニングベースのインペインティングに使用されるディープラーニングモデルのトレーニングに基づいてインテリジェントにインペインティングして高品質なインペインティングを提供する。ディープラーニングベースのインペインティングの例が、インペインティング画像１８１５に示されている。

【0134】

いくつかの例では、インペインティング動作のために、利用可能な計算帯域幅、および／または撮像システム２００の電力許容量に基づいて、補間またはインラインまたは最も近い値のインペインティングなど、より計算コストの低い形態のインペインティングを使用することができる。例えば補間および／またはインラインまたは最も近い値のインペインティングを使用する、補間ベースのインペインティングの例が、図１８の下部に３Ｄ深度ベースズームを使用して示されている。３Ｄ深度ベースズーム画像１８２５が図１８に示されており、スケートボードの以前の位置で、スケートボーダーの脚の間にオクルージョン領域１８３５が見えている。インペインティング画像１８３０は、このオクルージョン領域１８３５をインペインティングするために、補間ベースのインペインティング、例えば補間またはインラインまたは最も近い値のインペインティングを使用して示されている。

【0135】

図１９は、再投影およびグリッド反転システム１９０５のアーキテクチャを示すブロック図１９００である。再投影およびグリッド反転システム１９０５は、ラスタ順にデータを読み取ることができる。いくつかの例では、再投影およびグリッド反転システム１９０５は、ラスタ順にＭＶグリッド１９１０を読み取り、および／またはラスタ順に深度データを（例えば、深度センサから）読み取り（例えば、第１のオプション１９１５）、３Ｄ行列を得る。入力内の画素ごとに、入力内の各動きベクトルおよび／または深度値について、再投影およびグリッド反転システム１９０５は、出力内のある位置に出力内の画素を置く。各タイル番号は、出力における画素のグループを表す。ラスタ順に進むと、矢印１９３０で示される画素はタイル１に進み、矢印１９３５で示される画素はタイル２に進む。入力グリッド内で互いに近くない画素は、出力グリッド内ではより近付くことができる。これに基づいて、再投影およびグリッド反転システム１９０５がより多くのデータをタイルに書き込む必要がある場合、タイルをキャッシュ内に保持することは有用であり得る。例えば、再投影およびグリッド反転システム１９０５がタイル１から始まり、その後タイル２に移動する場合、再投影およびグリッド反転システム１９０５は、後に再びタイル１を必要とする場合がある。（再投影およびグリッド反転システム１９０５が最も長く使われていない（ＬＲＵ）キャッシングシステムに基づくことができる限り）キャッシュ内にタイルを保持することで、再投影およびグリッド反転システム１９０５は、タイルを再び迅速に修正し、これをＤＲＡＭから読み取らないことが可能になる。

【0136】

場合によっては、深度ベースの再投影を使用して、より近いオブジェクトは、遠くのオブジェクトよりも多く移動することができる。したがって、入力画像内の異なる領域からのオブジェクトは、再投影画像内の同じ領域に現れることができる。画素／矢印１９３０および画素／矢印１９４０は、入力（例えば、ＭＶグリッド１９１０）内の異なる位置から生じるが、出力内の同じ領域、例えばタイル１に収まる、これの一例である。したがって、再投影およびグリッド反転システム１９０５は、タイル１を修正する（例えば、タイル１を矢印１９４０によって示される画素の値で上書きする）ことができるように、メモリ内にタイル１を保持することができる。メモリハードウェア内に出力バッファ全体を保持することは過剰であり得るので、再投影およびグリッド反転システム１９０５は、メモリハードウェア内にタイルを保持するためのキャッシング機構を含むことができる。

【0137】

再投影およびグリッド反転システム１９０５がラスタ順の最初に始まり、これが再投影およびグリッド反転システム１９０５がタイルに（例えば、矢印１９３０によって示される画素の値をタイル１に）書き込むことを望む第１の時間である場合、再投影およびグリッド反転システム１９０５は、タイル１を単にリセットし、最初にＤＲＡＭからタイルを読み取る必要なく、問題の値をタイル１に書き込む。いくつかの例では、タイル１からの値は、キャッシュからＤＲＡＭに移動することができる。再投影およびグリッド反転システム１９０５は、読み取り／修正／書き込み動作をあまり多く実行する必要がないようキャッシュを使用するが、再投影およびグリッド反転システム１９０５は、必要なときには読み取り／修正／書き込み動作の能力を有する。タイルがキャッシュ内にある限り、再投影およびグリッド反転システム１９０５は、これらに直ちにアクセスすることができる。いずれかの時点で、キャッシュはフルになる可能性があり、再投影およびグリッド反転システム１９０５は、（ＬＲＵに基づいて）他のタイルのための空間を作るために、タイルをキャッシュからＤＲＡＭに送信することができる。いずれかの他の時点で、再投影およびグリッド反転システム１９０５は、キャッシュからＤＲＡＭに送信されたタイルを再び必要とし、すると再投影およびグリッド反転システム１９０５は、これを修正するためにタイルをＤＲＡＭからキャッシュに戻すことができ、いずれかの他の時点で、タイルをＤＲＡＭに書き込むことができる。

【0138】

加えて、再投影およびグリッド反転システム１９０５は、ＤＲＡＭからタイルを読み取ることによるレイテンシの問題を回避するために、再投影およびグリッド反転システム１９０５が必要なファイルを処理の前に前もって立ち上げることを可能にするプリフェッチ機構を有する。再投影およびグリッド反転システム１９０５は、順序付けられた方法で動作し、プリフェッチ機構は、再投影およびグリッド反転システム１９０５がキャッシュ内に必要とするものを常に有することを保証することができる。再投影およびグリッド反転システム１９０５は、再投影およびグリッド反転システム１９０５が順序付けられた方法でデータの全てを処理し、処理を必要とする全てのものをキャッシュ内に有することができることを確実にするために、プリフェッチと処理との間でランダムではなく決まったやり方で切り替えることができる。

【0139】

再投影およびグリッド反転システム１９０５は、第１のオプション１９１５において、深度データおよび３Ｄ行列を受信することができる。いくつかの例では、再投影およびグリッド反転システム１９０５は、深度データおよび３Ｄ行列からＭＶグリッド１９１０を生成することができる。再投影およびグリッド反転システム１９０５は、第２のオプション１９２０において、深度データおよび２Ｄ行列を有するＭＶグリッドを受信することができる。いくつかの例では、再投影およびグリッド反転システム１９０５は、深度データおよび２Ｄ行列を有するＭＶグリッドからＭＶグリッド１９１０を生成することができる。再投影およびグリッド反転システム１９０５が深度および３Ｄ行列を受信する場合（第１のオプション１９１５）、または再投影およびグリッド反転システム１９０５がＭＶグリッドおよび／または２Ｄ行列を受信する場合（第２のオプション１９２０）、再投影およびグリッド反転システム１９０５は、出力座標（ｏｕｔＣｏｏｒｄ）および出力データ（ｏｕｔＤａｔａ）を計算するためにその座標計算システムを使用する。いくつかの例では、出力データは、出力動きベクトル（ｏｕｔＭＶ）および出力深度（ｏｕｔＤｅｐｔｈ）を含むことができる。再投影およびグリッド反転システム１９０５はまた、オクルージョン領域がどこにあるかを判定するために、信頼度（ｏｕｔＣｏｎｆ）および／またはオクルージョン（ｏｕｔＯｃｃ）など、（ｏｕｔＤａｔａの一部として）追加の出力データを出力することができる。再投影およびグリッド反転システム１９０５からの出力は、１つまたは複数のバッファ、キャッシュ、または他のメモリへの出力データとして出力することができる。例示的な一例では、図１９の右側に示されている出力バッファ（またはキャッシュまたは他のメモリ）は、深度のための出力バッファ（またはキャッシュまたは他のメモリ）、（例えば深度および／または信頼度を有する）ＭＶグリッドのための出力バッファ（またはキャッシュまたは他のメモリ）、およびオクルージョンのための出力バッファ（またはキャッシュまたは他のメモリ）を含む。これらの出力バッファ（またはキャッシュまたは他のメモリ）は、複数の出力画像として出力することができる。プリフェッチ機構およびキャッシング機構は、３つのバッファを一度に処理することができる。各出力バッファは各タイルに異なる量のビットを記憶することができるので、プリフェッチ機構およびキャッシング機構は、全ての段階において全ての異なるレベルのビットおよび異なるサイズのタイルの間の同期を処理することができる。

【0140】

いくつかの例では、再投影およびグリッド反転システム１９０５は、動きベクトル操作、座標計算、キャッシング、プリフェッチ、および出力バッファの生成において特に効率的であるように設計された専用ハードウェアを使用する。いくつかの態様では、ＣＰＵまたはＧＰＵなどのプロセッサを使用して、特定の動作を実行することができる。

【0141】

いくつかの例では、出力信頼度（ｏｕｔＣｏｎｆ）は、特に再投影のために生成されるものではなく、深度センサからの深度測定の副産物である。いくつかの例では、取得された深度は、測定の不正確さおよび／または信頼度マップによって表すことができる他の問題に悩まされる可能性がある。信頼度マップおよび／または視覚（ＲＧＢ）画像に基づいて深度を改善することは、有益であり得る。再投影およびグリッド反転システム１９０５は、視覚（ＲＧＢ）画像と一致し、信頼度が再投影画像内の正しい領域で使用できるように、深度および信頼度を再投影することができる。深度がＲＧＢ画像と一致すると、再投影およびグリッド反転システム１９０５は、深度を改善するために信頼度を使用することができる。

【0142】

いくつかの例では、撮像システムは、入力画像（例えば、第１の画像Ｉｍｇ１５１０、キャプチャ画像１７１０）からの所与の画素が再投影画像（例えば、第２の画像Ｉｍｇ２５１５、再投影画像１７１５）内のどこに移動すべきかを決定するために、「三角歩行」動作を使用することができる。

【0143】

図２０は、三角歩行動作の例を示す概念図２０００である。いくつかの例では、入力画像からの異なる画素を、再投影画像内の異なる位置に移動させることができる。システムは、Ｘ個の入力を一度に処理することができ、Ｘは任意の整数値（例えば、３、４、５、６、１０など）に等しい。システムは、（入力のセットごとに）Ｙ個の出力三角形を生成することができ、Ｙは任意の整数値（例えば、６、７、８、９、１０、１５など）に等しい。入力内の画素は、画素ａ、画素ｂ、画素ｃなどを含む。いくつかの例では、入力画像内の画素ａからの画素データは、再投影画像内の位置のうちの第１の位置に移動させることができ、入力画像内の画素ｂからの画素データは、再投影画像内の位置のうちの第２の位置に移動させることができ、入力画像内の画素ｃからの画素データは、再投影画像内の位置のうちの第３の位置に移動させることができ、以下同様である。マップ（例えば、ＭＶグリッド５０５または逆ＭＶグリッド５２０）を通して、システムは、入力画像内の各画素が再投影画像内のどこに行くべきかを見出す。したがって、例示的な例では、入力画像の画素ａは出力の画素２０１０で終わり、入力の画素ｂは出力の画素２０１５で終わり、入力の画素１は出力の画素２０２０で終わり、以下同様である。入力画素ごとに、撮像システムは、入力画素の値が出力のどこで終わるように構成されるかを計算する。出力における特定の画素間の領域（例えば、画素２０１０、２０１５、および２０２０の間の網掛け三角形領域）では、撮像システムは、補間を使用して領域を埋める。補間を実行するために、撮像システムは、プロセッサ（例えば、ＧＰＵまたは他のプロセッサ）に、三角形の各々を別々に調べさせ、各出力画素について個別に１つずつ補間させることができる。

【0144】

しかしながら、効率を向上させるために、撮像システムは、図２０の出力側に大きな多角形、すなわち（画素２０１０、２０１５、および２０２０を有する三角形を含む）三角形の全ての組み合わせから作られる多角形を形成するように、三角形をまとめることができる。撮像システムは、補間に効果的であるように特に設計された専用ハードウェアプロセッサを有するか、または他のプロセッサに補間を実行させることができる（例えば、ＧＰＵまたは他のプロセッサ）。これらの三角形の多くは、互いに近く、類似した画像データを含むので、三角形の各々を別々に調べ、各出力画素について個別に補間するために撮像システムがプロセッサ（例えば、ＧＰＵ）を使用することは、非効率的であり得る。効率を改善するために、撮像システムは、三角形を多角形に統合することができ、プロセッサ（例えば、ＧＰＵ）に多角形全体を一度に調べさせ、多角形全体の画素にわたって補間を実行させることができる。

【0145】

撮像システムは、主歩行エンジン２０２５と、Ｎ個の三角形制御エンジン２０３０（Ｎは６、８、１０、または他の値などの任意の整数値に等しくすることができる）と、Ｍ個の画素補間エンジン２０３５（Ｍは６、８、１０、または他の値などの任意の整数値に等しくすることができ、いくつかの実装形態ではＮと等しくてもよい）とを含む。白色の破線のボックスとして示されている主歩行エンジン２０２５は、多角形全体を一度に調べる。Ｎ個の三角形制御エンジン２０３０は、そのうちの２つが破線と明るい網掛けのボックスとして示されており、各々が三角形のうちの１つを担当する。主歩行エンジン２０２５は、多角形全体を横断し、画像再投影のために撮像システムによって使用される出力位置および／または領域を効果的にプレスキャンし、データをキャッシュし、それによってさもなければＤＲＡＭからのデータの回収によって引き起こされる可能性のある遅延（例えば、充填、補間、または他の画像処理動作）を低減または排除するために、撮像システムにＤＲＡＭからデータ（例えば、タイル）をプリフェッチおよび／または回収させる。

【0146】

図２１は、クルージョンマスキングの例を示す概念図２１００である。オクルージョン領域は、画像再投影エンジン２１５が利用可能な画像データを有していない再投影画像の領域である。前述したように、画像再投影エンジン２１５は、最初にキャプチャされた画像において特定の値を持たない領域に対して補間を実行する。オクルージョン領域であっても、例えばこれらの領域が信頼できないデータで埋められるのを回避するために（例えば、ＤＲＡＭに何が起ころうと）、依然としてこの補間が実行される。画像２１１０は、このような信頼できないデータを使用する充填の例であり得る。再投影を実行するために、工具箱などの特定のオブジェクトは、特定の方向（例えば、水平方向）にわずかに伸張されてもよいが、この伸張は、一般に、悪影響を及ぼすほど重大ではなく、場合によっては、再投影画像における新しい視点の外観を向上させることができる。しかしながら、特定の領域では、穴またはギャップは、補間が信頼できなくなる閾値サイズを超え、これは画像再投影エンジン２１５によってオクルージョン領域であると判定することができる。

【0147】

いくつかの例では、画像再投影エンジン２１５は、コーナー深度に基づいてオクルージョン領域が存在すると判定することができる。例えば、画像再投影エンジン２１５は、領域のコーナーに置ける深度間の差が閾値差を越える場合に、（例えば、図２０の三角形または他の形状のように）オクルージョン領域が領域内に存在すると判定し得る。閾値差は、深度の最小値に基づいて変化し得る。

【0148】

（例えば、閾値差を超える領域のコーナーに置ける深度間の差に基づいて）オクルージョン領域が存在すると画像再投影エンジン２１５が判定すると、画像再投影エンジン２１５は、再投影画像のオクルージョン領域（単数または複数）を画像データで埋めるためにインペインティングを実行することができる。画像２１１０内の「信頼できない残りもの」は、オクルージョン領域内の工具箱の画像データの一部を使用する、インペインティングの１つの形態を表すことができる。場合によっては、このタイプのインペインティングは、画像２１１０内で異常に見える場合であっても、うまく機能し得る。いくつかの例では、オクルージョンは、ディープラーニングを使用して、例えば１つまたは複数のトレーニング済みＭＬモデルを使用して、実行されてもよい。

【0149】

図２２は、穴埋めの例を示す概念図２２００である。穴埋めは、動きベクトルデータが存在しないギャップにおける補間を指す。フロー２２２０は、穴埋めがオフにされた状態で、再投影画像は多くの視覚的アーチファクトを有し、例えば、工具箱およびカメラの近くにある他のオブジェクト上で特に顕著である視覚的アーチファクトパターンに黒と白のドットがあることを示している。穴埋めがオンにされると、再投影画像内の穴は補間を使用して埋められ、画像は、そのような視覚的アーチファクトまたは視覚的アーチファクトパターンなしできれいに見える。いくつかの例では、穴埋めは、補間の代わりに、または補間に加えて、ディープラーニングベースのインペインティングなどのインペインティングを使用することができる。

【0150】

図２３は、タイムワープエンジン２３０によって実行されるタイムワープ７０５の追加の例を示す概念図２３００である。タイムワープエンジン２３０は、ここではそれぞれフレームｎ＋１とフレームｎとの間、およびフレームｎとフレームｎ－１との間の密なオプティカルフローを計算する。入力フレームレート（フレーム毎秒（ＦＰＳ）単位）はＦｉｎに等しく、これは３０ＦＰＳ、６０ＦＰＳ、１２０ＦＰＳ、２４０ＦＰＳ、または他のフレームレートとすることができる。出力フレームレートはＦｏｕｔに等しく、これは６０ＦＰＳ、１２０ＦＰＳ、２４０ＦＰＳ、４８０ＦＰＳまたは他のフレームレートとすることができる。これらの密なオプティカルフローは、高品質で計算されるが、計算コストが高く、および／または大量の電力を使用する可能性がある。タイムワープエンジン２３０は、図７のタイムワープ７０５と同様に、他のフレーム間、例えばフレームｎ－１とｎとの間、またはフレームｎとｎ＋１との間により小さい部分オプティカルフローを生成するために、密なオプティカルフローを分割する。例えば、タイムワープエンジン２３０は、フレームｎ＋３／４、ｎ＋１／２、ｎ＋１／４、ｎ－１／４、ｎ－１／２、およびｎ－３／４についてより小さい部分オプティカルフローを生成するために、密なオプティカルフローを分割する。これらの部分オプティカルフローは、あたかも部分オプティカルフローの各々がオプティカルフロー計算を使用して直接計算されたかのように、オプティカルフローへの置換として機能することができる。これらの部分オプティカルフローは、この例のように４分の１に、または他の同様の分数に分解することができる。これらの部分オプティカルフローは、存在する場合、フレームｎ＋３／４、ｎ＋１／２、ｎ＋１／４、ｎ－１／４、ｎ－１／２、およびｎ－３／４において、既存のフレームを改善するために使用することができる。これらの部分オプティカルフローは、フレームｎ＋３／４、ｎ＋１／２、ｎ＋１／４、ｎ－１／４、ｎ－１／２、およびｎ－３／４において新しい補間フレームを生成するために使用することができる。いくつかの例では、タイムワープ７０５は、最初により低いフレームレート（例えば、３０または６０ｆｐｓ）でビデオのための密なオプティカルを生成し、計算された密なオプティカルフローをその間のフレームのためのオプティカルフローに分割するためにタイムワープ７０５を使用することによって、高フレームレート（例えば、９０、１２０、２４０、４８０、または９６０ｆｐｓ）でビデオのためのオプティカルフローを生成するために使用することができる。

【0151】

いくつかの例では、タイムワープエンジン２３０は、オプティカルフローのための動きベクトルを取得し、動きベクトルをグローバル行列と結合し、結合の後にタイムワープ７０５のように、結果を部分オプティカルフローまたは動きベクトルに分割することができる。

【0152】

タイムワープ７０５なしの画像およびタイムワープ７０５を使用する画像の画像鮮明化の利点の追加の例が示されている。詳細は、矢印で示される領域、例えば中央の画像の少年の髪、耳、およびＴシャツ、並びに右側の画像のマーキングに示されるように、タイムワープ７０５を使用して復元される。特に、ブレて見えるエッジおよび／または領域は破線を使用して表され、明瞭で鮮明に見えるエッジおよび／または領域は実線を使用して表される。

【0153】

図２４は、タイムワープエンジン２３０のいくつかの例における、再投影エンジン２４３４１の例示的なアーキテクチャを示すブロック図２４００である。オプティカルフローエンジン２４２０は、画像センサ２４１０およびダイナミックランダムアクセスメモリ（ＤＲＡＭ）２４１５を有するカメラ２４０５から、フレームｎおよびフレームｎ－Ｍを受信する。オプティカルフローエンジン２４２０は、動き情報を生成する。いくつかの例では、動き情報は、グローバル動きおよびローカル動きを含む、２つのタイプの動き情報を含む。例えば、行列（例えば、グローバル行列）は、場合によってはグローバル動きを表すことができる。オプティカルフローエンジンは、ローカル動きおよび３Ｄ動きを示すために、動きベクトルの密なグリッドを生成することができる。別の例では、動きベクトルの密なグリッドはまた、グローバル動き、および／またはローカル動き、３Ｄ動き、およびグローバル動きの組み合わせを示すことができる。

【0154】

グリッド反転エンジン２４２５は、オプティカルフローエンジン２４２０から動き情報（例えば、動きベクトルの密なグリッドおよび場合によってはグローバル動きを表す行列）を受信する。グリッド反転エンジン２４２５は複数回（Ｍ回）実行され、各実行が動きベクトルを分割し、動きベクトルの異なる部分を出力する。グリッド反転エンジン２４２５は、Ｍ個の動きベクトルを出力する。場合によっては、動きベクトルに係数を乗じることができる。動きベクトルは、異なる解像度を提供するために、ワープエンジン２４３０を使用してダウンスケールすることができる。ワープエンジン２４３０は、密なグリッドから動きベクトルを受信し、密な動きグリッドに対して何らかのワープ、スケーリング、および／または他の操作を実行することができる。いくつかの例では、ワープエンジン２４３０はまた、変換行列を取得し、これに基づいて密なグリッドをワープすることもできる。別の例では、ワープエンジン２４３０は、変換行列を取得し、これを密なグリッドと結合することができる。グリッド反転エンジン２４２５および／またはワープエンジン２４３０によって出力された逆動きベクトルは、逆動きベクトルに基づいて再投影画像を生成するために、画像処理エンジン２４４０に出力される。

【0155】

図２５は、時間的ブレ除去を伴うタイムワープエンジン２３０のいくつかの例における、時間的ブレ除去を伴う再投影エンジン２５３５の例示的なアーキテクチャを示すブロック図２５００である。図２５のアーキテクチャは、図２４のアーキテクチャと同様であるが、システムの時間的ブレ除去エンジン２５０５は、どのＭ個のフレームがブレているかを（例えば、動き検出および／または画像分析に基づいて）判定し、ブレたフレームをブレ除去および／または鮮明化するために、グリッド反転エンジン２４２５によって生成された部分動きベクトルを使用する。いくつかの例では、再投影エンジン２５３５の時間ディープラーニングアルゴリズムは、姿勢センサデータを分析し、各フレームのキャプチャ中にどの程度の移動（およびどの程度のブレ）があったかを見る。いくつかの例では、元の動きベクトルは、場合によっては更なる変換２５２０（例えば、縮小）の後に、オプティカルフローエンジン２４２０から画像処理エンジン２４４０に提供される。

【0156】

図２６は、深度センササポートエンジン２３５の例示的なアーキテクチャを示すブロック図２６００である。飛行時間（ＴｏＦ）センサは深度センサの例であるが、深度センササポートエンジン２３５は、いくつかの例では、本明細書に記載されるような異なるタイプの深度センサを使用することができる。例えば外れ値をフィルタリングすることおよび／またはノイズを正規化することによって、より高品質の深度値を提供するために深度センサからの深度値をクリーンアップするために、後処理を適用することができる。場合によっては、後処理は、深度とともに信頼度マップも受信してもよく、後処理はその後、信頼度マップをクリーンにすることもでき、および／または深度処理を支援するために信頼度マップを使用することができる。深度、および場合によっては信頼度が再投影エンジンに送信され、再投影エンジンは、例えば画像センサ（例えば、広角または望遠）と位置合わせするために、３Ｄ変換に基づいて深度画像および信頼度マップを再投影することができる。再投影エンジンは、再投影された深度値および信頼度値を生成してもよく、深度値および信頼度値をクリーンアップするためにもう一度深度後処理を通して実行され得る。深度後処理はまた、広角センサおよび望遠センサからの画像、および／または二次深度センサからの二次深度センサデータ（例えば、ＤＦＳ深度）を受け付けてもよく、深度後処理は、これをさらに改善して元の深度から生じる不正確さを補正するように深度を調整することができる。３Ｄ変換は、画像センサと深度センサとの間の３Ｄ較正に基づくことができる。深度センサおよび画像センサが互いに対して移動する場合（例えば、焦点変更、ズーム、ＯＩＳ、および／またはその他）、３Ｄ較正は、これを考慮し、３Ｄ変換を更新し得る。図２６の下部の二次深度フロー（すなわち、広角および望遠画像を有するＤＦＳ）は、例示的な例であることを理解されたい。別の例では、二次深度は、他の深度センサ、ディープラーニング深度エンジン、および／または任意の他の深度ソースから得ることができる。いくつかの例では、深度後処理は二次深度を有しない。いくつかの例では、深度後処理は、３つ以上の深度ソースを有することができる。

【0157】

図２７は、深度センササポートエンジン２３５によって実行される深度センササポート８０５の追加の例を示す概念図２７００である。これらの追加の例では、主画像センサ（例えば、ＲＧＢ３）および深度センサ（例えば、ＴＯＦシステム）は、回路基板上に示されている。深度マップおよび画像の両方が示されている。左側の例（投影位置合わせ２７０５）では、いくつかの要素が位置合わせされているが、図のテディベアまたは頭部など、カメラからの距離が異なる他のオブジェクトは、画像データと深度データとの間で位置合わせされていない。例えば、熊の深度データ（例えば、破線を使用して示される）は、熊の画像データと比較して右にある（視差シフト）。同様に、図の深度データ（例えば、破線を使用して示される）は、図の画像データと比較して右にある（視差シフト）。一方、右側の例（深度ベースの位置合わせ２７１０）では、視差が固定され、各オブジェクトの深度データおよび画像データが位置合わせされている。

【0158】

図２８は、画像再投影エンジン２１５および３Ｄ安定化エンジン２４０を含む撮像システムの例示的なアーキテクチャを示すブロック図２８００である。撮像システムは、入力を取得し、環境内の新しい位置に視点を再投影する。３Ｄ安定化の場合、任意の移動が揺れまたは震えを全く（またはほとんど）含まないように、カメラの揺れを低減または排除するために、および／またはカメラが安定しているおよび／または安定化された状態をシミュレートするために行うことができる。例えば、撮像システムの３Ｄ安定化エンジン２４０は、あたかも震えおよび／または揺れをほとんどまたは全く含まない仮想経路に沿ってビデオがキャプチャされたかのように、仮想経路を作成することができる。撮像システムはまた、タイムワープ、頭部姿勢補正、センササポートなど、本明細書に記載される画像再投影の他の用途のうちの少なくともいくつかに使用することができる。撮像システムは、入力として、画像データおよび／または深度データを受信し、データ内の任意の歪みを安定化または他の方法で補正し、次いで再投影エンジンにデータを提供する。３Ｄ安定化では、撮像システムの３Ｄ安定化エンジン２４０は、安定した滑らかな仮想経路を示す行列を作成することができる。撮像システムは、画像の視点を変更するために３Ｄ変換を作成することができる。例えば、３Ｄ安定化では、３Ｄ変換は、画像のそれぞれの視点が仮想経路（例えば、安定した滑らかな仮想経路）に沿った原点を有するように、一連の画像のそれぞれの視点を変更することができる。３Ｄ変換、および場合によっては仮想経路は、再投影エンジンに供給することができる。再投影エンジンは、（例えば、キャプチャ視点が仮想経路に沿うように）画像を識別された視点にワープさせるために、動きベクトル（ＭＶグリッド）を生成することができる。いくつかの例では、撮像システムは、別の動きベクトルグリッドを使用して、レンズおよび／またはローリングシャッタからのいかなる歪みも低減するために、画像に対してレンズ歪み補正（ＬＤＣ）および／またはローリングシャッタ補正（ＲＳＣ）を実行することができる。別の例では、動きベクトルおよび／または行列を使用して、他の歪みおよび／または変換誤差も補正することができる。図３０に示されるように、いくつかの例では、ＬＤＣおよびＲＳＣのための３Ｄ安定化およびグリッドは、両方からの動きベクトルを結合することによって互いに結合され、一緒にワープされる。ＭＶの新しいセットは、３Ｄ安定化およびＬＤＣおよびＲＳＣの両方を行うことができる。いくつかの例では、ＬＤＣおよびＲＳＣＭＶグリッドは、３Ｄ安定化ＭＶグリッドよりもまばらであり得、その場合、ＬＤＣおよびＲＳＣＭＶグリッドは、結合の前にアップスケールされてもよい。いくつかの例では、３Ｄ安定化ＭＶグリッドは、ＬＤＣおよびＲＳＣＭＶグリッドよりもまばらであり得、その場合、３Ｄ安定化ＭＶグリッドは、結合の前にアップスケールされてもよい。結合されたＭＶグリッドは、ワープを実行するワープエンジンに送信することができる。（再投影を介した）３Ｄ安定化、ＬＤＣ、およびＲＳＣが適用された、結果的な画像が示されている。

【0159】

オクルージョン領域は、３Ｄ安定化のための再投影の使用により、結果的な画像内に依然として残る可能性がある。深度再投影、オクルージョンマップ、画像の低解像度コピー（例えば、全視野（ＦｏＶ）を有する）、および／または画像からのＱ個の高解像度パッチ（例えば、６４×６４のサイズの５００個のパッチ、または任意の適切なサイズを有する他の数のパッチ）を、インペインティングを実行するために、ディープラーニングエンジン（ＮＳＰ）に送信することができる。例えば、３Ｄ安定化エンジン２４０は、１つの領域からパッチを取ることができるが、他の領域を読み取る必要はない。３Ｄ安定化エンジン２４０は、オクルージョンマップにより、高解像度パッチでどの領域に焦点を合わせるべきかを知っている。いくつかの例では、パッチおよびオクルージョンマップは小さく（例えば、オクルージョンマップはバイナリであるか、または３ビット、４ビット、６ビットなど、少数のビットを含むことができる）、パッチを、インペインティングを実行するためのディープラーニングエンジン（ＮＳＰ）への低コストな入力にする。深度再投影は、インペインティングに正しいタイプの材料が使用されることを保証するのに役立つことができる。例えば、ディープラーニングエンジン（ＮＳＰ）は、背景領域のインペインティングを行うために工具箱のように近くのオブジェクトを使用せず、背景領域のインペインティングのために使用する唯一のものは、同様の深度の背景領域からの画像データである。このスマートなインペインティングは効率的であり、より少ない電力を使用する。

【0160】

いくつかの例では、インペインティングは、時間フィルタリングを使用することができ、例えば、特定の領域の画像コンテンツを取り込むためにビデオ内の前の画像を使用する。例えば、前の画像が現在の画像フレーム内のオクルージョン領域に描写された場面の領域に明瞭な画像コンテンツを有する場合、前の画像からの画像データは、揺れを緩和させるために、インペインティングおよび／または３Ｄ安定化に使用することができる。パッチは、ディープラーニングエンジン（ＮＳＰ）によって出力されたインペインティングパッチを、結果的な画像の関連部分についてメモリ内に（例えば、直接ＤＲＡＭ内に）移動できるように、圧縮タイルと位置合わせすることができる。

【0161】

図２９は、タイムワープエンジン２３０処理を伴わない画像と比較した、タイムワープエンジン２３０を用いて実行されるタイムワープ７０５の追加の例を示す概念図２９００である。タイムワープエンジン２３０を用いる例は、特に画像内のエッジおよびコーナー並びにその周囲において、タイムワープエンジン２３０を用いない画像よりも明瞭で鮮明に見える。例えば、ブレて見えるエッジは、図２９の破線を使用して再投影されるが、共有されて鮮明に見えるエッジは、図２９の実線を使用して再投影される。

【0162】

図３０は、３Ｄ安定化エンジン２４０によって実行される３Ｄ安定化９０５の追加の例３００５を示す概念図３０００である。追加の例３００５は、元の（安定化されていない）形態および安定化された形態の両方で示される、ビデオの４つのビデオフレームを含む。再投影は、前述のように、揺れおよび／または視差移動を除去するために使用される。

【0163】

図３１は、３Ｄズームエンジン２４５によって実行される３Ｄズーム１００５の追加の例の概念図３１００である。デジタルズーム３１０５は、図の左側の破線のボックスおよび破線を使用して示されるように、クロップおよびアップスケールする。スケートボーダーの深度画像は、３Ｄ深度ベースズームと並んで示されている。３Ｄ深度ベースズームは、電話を男性に近付ける説明図３１１０に示されるように、カメラをスケートボーダーに近付けることをシミュレートするために、深度画像に基づく再投影を使用する。

【0164】

図３２は、再投影ＳＡＴエンジン２５０によって実行される再投影１１０５の追加の例を示す概念図３２００である。再投影１１０５は、１つのセンサの視点から異なるセンサの視点への再投影を使用して、オフセット分だけ視点をシフトさせる。

【0165】

図３３は、頭部姿勢補正エンジン２５５によって実行される頭部姿勢補正１２０５の追加の例の概念図３３００である。再投影の基礎である女性の頭部の深度画像３５１５が示されている。再投影画像１２１５のオクルージョンマップ３３２０も示されている。カメラに対する人物の相対位置の描写は、入力画像１２１０の下に示され、カメラが、わずかに上向きに角度を付けて、ユーザの顔のわずかに下から写真を撮影していることを示している。カメラに対する人物のシミュレートされた相対位置の描写は、再投影画像１２１５の下に示され、シミュレートされたカメラ位置が、入力画像１２１０がキャプチャされた位置からオフセット距離３３０５だけ離れて、および入力画像１２１０がキャプチャされた角度からオフセット角度３３１０だけ離れて、ユーザの顔の高度または高さと一致する高度または高さから写真を撮影していることを示している。再投影画像１２１５のキャプチャ角度は、人物の顔、身体、および／または重力に対して垂直である。

【0166】

図３４は、グリッド反転の追加の例を示す概念図３４００である。元のＭＶグリッドおよび逆ＭＶグリッドが、太陽および雲を有するターゲット画像について示されている。欠けているコンテンツが（補間および／またはインペインティングを介して）埋められることになる例は、星を使用して示されており、例えば、太陽の一部が入力画像では雲によって遮られたが、再投影画像では遮られていない。競合値の例は、丸を使用して示されており、例えば、雲と太陽の両方のデータがあり、雲が太陽の前にあるので、最終的に雲のデータが勝つ。

【0167】

図３５は、ディープラーニングベースのインペインティングの使用の例を示す概念図３５００である。画像のセットが示されており、画像のセットの各々は、セットの画像のうちの１つにオクルージョン領域３５０５を含む。オクルージョン領域は、ニューラルネットワーク３９００などのトレーニングされたディープラーニングインペインティングエンジンを使用して埋められる前は、空白として示されている。

【0168】

図３６は、ディープラーニングを使用しないインペインティングの使用の例を示す概念図３６００である。画像のセットは、縦列に配置して示されている。第１の列は、オクルージョン領域３６０５を含むグリッド反転エンジン（ＲＧＥ）によって出力された画像を含み、これらは空白として示されている。第２の列は、グリッド反転エンジン（ＲＧＥ）によって出力された画像を含み、オクルージョン領域３６０５を埋めるためにインペインティングが行われている。例えば、図３６のインペインティングは、補間および／またはインラインまたは最も近い値のインペインティングを使用することができる。インペインティングのためのパッチは、図示されるように類似性および／または優先度に基づいて選択することができる。第３の列は、オクルージョン領域３６０５のないグリッド反転エンジン（ＲＧＥ）によって出力された画像を含む。第３の列の画像は、オクルージョン領域３６０５が画像の第１の列にあるエッジのうちのいくつかの周りにブレまたは視覚的な「汚れ」を含み、これはモーションブラーと類似している能に見える可能性があり、グリッド反転エンジン（ＲＧＥ）を使用して変換されている最初にキャプチャされた画像からのオブジェクトの他の位置および／または描写によって引き起こされる可能性がある。

【0169】

図３７は、エッジ上でのエッジフィルタおよび深度フィルタの使用の例を示す概念図３７００である。エッジフィルタは、いくつかの例では、深度データおよび／または画像データにおけるブロック状のエッジを平滑化するために使用することができ、画像再投影の視覚的アーチファクトを低減することができる。フィルタは、３×３のサイズを有するように示されているが、場合により、フィルタはもっと大きくすることができる（例えば、４×４、６×６など）。エッジフィルタは、深度マップのエッジを検出することができる。エッジ上の深度フィルタは、補間された深度値を低減することができ、これらはいずれのオブジェクトにも属さない。

【0170】

図３８は、再投影の例を示す概念図３８００である。センサ２０５は、３Ｄ場面の画像（単数または複数）および深度データ（ｃａｍ１ｄｅｐｔｈ）をキャプチャするカメラｃａｍ１を含む。カメラ間３Ｄ並進は、透視カメラｃａｍ２を使用するために３Ｄ空間において画像（単数または複数）に描写された３Ｄ場面を再投影するために使用される。順方向マッピング（例えば、動きベクトルグリッド）は、破線を使用して示されている。逆方向マッピング（例えば、逆動きベクトルグリッド）は、ｃａｍ２からｃａｍ１に戻る実線を使用して示されている。

【0171】

図３９は、メディア処理動作に使用することができるニューラルネットワーク（ＮＮ）３９００の例を示すブロック図である。ニューラルネットワーク３９００は、畳み込みニューラルネットワーク（convolutional neural network、ＣＮＮ）、オートエンコーダ、ディープビリーフネット（deep belief net、ＤＢＮ）、回帰型ニューラルネットワーク（Recurrent Neural Network、ＲＮＮ）、敵対的生成ネットワーク（Generative Adversarial Network、ＧＡＮ）、および／または他のタイプのニューラルネットワークなど、任意のタイプのディープネットワークを含むことができる。ニューラルネットワーク３９００は、画像再投影エンジン２１５、動きベクトルエンジン２２０、グリッド反転エンジン２２５、タイムワープエンジン２３０、深度センササポートエンジン２３５、３Ｄ安定化エンジン２４０、３Ｄズームエンジン２４５、再投影ＳＡＴエンジン２５０、頭部姿勢補正エンジン２５５、ＸＲレイトステージ再投影エンジン２６０、特殊効果エンジン２６５、またはこれらの組み合わせなどのアプリケーションエンジン２１０のいずれかのニューラルネットワークなど、撮像システム２００の１つまたは複数のトレーニングされたニューラルネットワークのうちの１つの例であり得る。

【0172】

ニューラルネットワーク３９００の入力層３９１０は入力データを含む。入力層３９１０の入力データは、メディアデータ２８５、センサ（単数または複数）２０５からのセンサデータ、仮想コンテンツ生成器２０７からの仮想コンテンツ、またはこれらの組み合わせなど、１つまたは複数の入力画像フレームの画素を表すデータを含むことができる。入力層３９１０の入力データは、深度センサ（単数または複数）からの深度データを含むことができる。入力層３９１０の入力データは、動きベクトルおよび／またはオプティカルフローを含むことができる。入力層３９１０の入力データは、行列を含むことができる。入力層３９１０の入力データは、オクルージョンマップを含むことができる。

【0173】

画像は、生の画素データ（例えば、ベイヤーフィルタに基づいて画素ごとに単一の色を含む）を含む画像センサからの画像データ、または処理された画素値（例えば、ＲＧＢ画像のＲＧＢ画素）を含み得る。ニューラルネットワーク３９００は、複数の隠れ層３９１２Ａ、３９１２Ｂから３９１２Ｎを含む。隠れ層３９１２Ａ、３９１２Ｂから３９１２Ｎは、「Ｎ」個の隠れ層を含み、ここで、「Ｎ」は、１以上の整数である。隠れ層の個数は、所与の適用例にとって必要とされるのと同数の層を含むようにされ得る。ニューラルネットワーク３９００は、隠れ層３９１２Ａ、３９１２Ｂから３９１２Ｎによって実行される処理から生じる出力を提供する出力層３９１４をさらに含む。

【0174】

いくつかの例では、出力層３９１４は、修正済みメディアデータ２９０、本明細書で説明される任意の再投影画像、本明細書で説明される任意の再投影された深度データ、本明細書で説明される任意の動きベクトルまたはオプティカルフロー、本明細書で説明される任意のインペインティング画像データ、またはこれらの組み合わせなど、出力画像またはそれらの一部を提供することができる。

【0175】

ニューラルネットワーク３９００は、相互接続されたフィルタの多層ニューラルネットワークである。各フィルタは、入力データを表す特徴を学習するようにトレーニングされ得る。フィルタに関連する情報は異なる層の間で共有され、情報が処理されるにつれて各層が情報を保持する。場合によっては、ニューラルネットワーク３９００はフィードフォワードネットワークを含むことができ、その場合、ネットワークの出力がそれ自体にフィードバックされるフィードバック接続はない。場合によっては、ネットワーク３９００再帰ニューラルネットワークを含むことができ、これは、入力を読み取る間に、ノードにわたって情報が搬送されることを可能にするループを有することができる。

【0176】

場合によっては、様々な層間のノードとノードの相互接続を通じて、情報を層間で交換することができる。場合によっては、ネットワークは畳み込みニューラルネットワークを含むことができ、これは、ある層の中のあらゆるノードを次の層の中のあらゆる他のノードにつながないことがある。情報が層間で交換されるネットワークでは、入力層３９１０のノードは、第１の隠れ層３９１２Ａ中のノードのセットをアクティブ化することができる。例えば、図示のように、入力層３９１０の入力ノードの各々が第１の隠れ層３９１２Ａのノードの各々に接続され得る。隠れ層のノードは、各入力ノードの情報を、この情報にアクティブ化関数（例えば、フィルタ）を適用することによって、変換することができる。変換から導出された情報は、次いで、次の隠れ層３９１２Ｂのノードに渡され、それらのノードをアクティブ化することができ、それらのノードは、それら自体の指定された関数を実行することができる。例示的な機能には、畳み込み機能、ダウンサンプリング、アップスケーリング、データ変換、および／または任意の他の適切な機能がある。隠れ層３９１２Ｂの出力は、次いで、次の隠れ層のノードをアクティブ化することができ、以下同様である。最後の隠れ層３９１２Ｎの出力は、出力層３９１４の１つまたは複数のノードをアクティブ化することができ、出力層３９１４は、処理された出力画像を提供する。場合によっては、ニューラルネットワーク３９００の中のノード（例えば、ノード３９１６）は、複数の出力線を有するものとして示されるが、ノードは単一の出力を有し、ノードから出力されるものとして示される全ての線が同じ出力値を表す。

【0177】

場合によっては、各ノードまたはノード間の相互接続は、ニューラルネットワーク３９００のトレーニングから導出されるパラメータのセットである、重みを有することができる。例えば、ノード間の相互接続部は、相互接続されたノードについて学習された情報を表すことができる。相互接続は、（例えば、トレーニングデータセットに基づいて）調整され得る調整可能な数値重みを有することができ、ニューラルネットワーク３９００が、入力に対して適応的であること、およびますます多くのデータが処理されるにつれて学習できることを可能にする。

【0178】

ニューラルネットワーク３９００は、出力層３９１４を通して出力を提供するために、異なる隠れ層３９１２Ａ、３９１２Ｂから３９１２Ｎを使用して入力層３９１０中のデータからの特徴を処理するように事前トレーニングされる。

【0179】

図４０は、メディア処理のためのプロセスを示すフロー図である。プロセス４０００は、メディア処理システムよって実施され得る。いくつかの例では、メディア処理システムは、例えば、画像キャプチャおよび処理システム１００、画像キャプチャデバイス１０５Ａ、画像処理デバイス１０５Ｂ、画像プロセッサ１５０、ＩＳＰ１５４、ホストプロセッサ１５２、撮像システム２００、ＨＭＤ３１０、モバイルハンドセット４１０、再投影およびグリッド反転システム２４９０、図２５のシステム、図２６のシステム、図２７のシステム、図２８のシステム、ニューラルネットワーク３９００、コンピューティングシステム４１００、プロセッサ４１１０、またはこれらの組み合わせを含むことができる。

【0180】

動作４００５において、メディア処理システムは、環境に対応する深度情報を含む深度データを受信するように構成されており、受信することができる。いくつかの例では、深度情報は、第１の視点からの環境の表現の深度測定値を含み得る。いくつかの例では、深度情報は、環境に対応する点群を含む。いくつかの例では、深度データは、１つまたは複数の光検出および測距（ＬＩＤＡＲ）センサ、無線検出および測距（ＲＡＤＡＲ）センサ、音響検出および測距（ＳＯＤＡＲ）センサ、音響航法および測距（ＳＯＮＡＲ）センサ、飛行時間（ＴｏＦ）センサ、構造化光センサ、またはこれらの組み合わせなどの１つまたは複数の深度センサを使用してキャプチャされ得る。いくつかの例では、深度データは、例えばステレオカメラ構成を使用する立体深度感知に基づいて、１つまたは複数のカメラおよび／または画像センサを使用してキャプチャされてもよい。いくつかの例では、深度データは、画像キャプチャおよび処理システム１００、センサ２０５、カメラ３３０Ａ～３３０Ｂ、カメラ４３０Ａ～４３０Ｄ、画像センサ８１０、深度センサ８１５、望遠センサ１１１０、広角センサ１１１５、センサ１１２５、画像センサ２６１０、図３８のｃａｍ１、図３８のｃａｍ２、本明細書に記載される任意の他のセンサ、またはこれらの組み合わせを使用してキャプチャされ得る。深度データの例は、メディアデータ２８５、深度データ６２０、深度データ１０２０、深度データ１１６０、深度データ１２２０、図１５の深度データ、深度マップ１６１０、第１のオプション１９１５に関連付けられた深度データ、深度入力２４０２、図２６の深度、図２７の深度データ、図２８の深度データ、深度データ３３１５、深度画像３４１０、図３７の深度マップ、図３８のＣａｍ１ｄｅｐｔｈ、本明細書に記載される任意の他の深度データ、またはこれらの組み合わせを含む。

【0181】

動作４０１０において、メディア処理システムは、画像センサによってキャプチャされた第１の画像データを受信するように構成されており、受信することができ、第１の画像データは環境の描写を含む。いくつかの例では、第１の画像データは、画像キャプチャおよび処理システム１００、センサ２０５、カメラ３３０Ａ～３３０Ｂ、カメラ４３０Ａ～４３０Ｄ、画像センサ８１０、深度センサ８１５、望遠センサ１１１０、広角センサ１１１５、センサ１１２５、画像センサ２６１０、図３８のｃａｍ１、図３８のｃａｍ２、本明細書に記載される任意の他のセンサ、またはこれらの組み合わせを使用してキャプチャされ得る。第１の画像データの例は、ディアデータ２８５、第１の画像Ｉｍｇ１５１０、カメラ画像６１０、画像７１０、図９の「オリジナル」画像、図１０の元の非ズーム画像（ズーム前）、望遠画像１１３０、入力画像１２１０、入力画像１３１０、入力画像１４１０、キャプチャ画像１５１０、キャプチャ画像１７１０、フロー２３１０フロー２３２０の入力画像画像１、図２５のタイムワープ７０５のない入力画像、図２４～図２５のフレームｎおよびｎ－Ｍ、図２５のｍ個のブレたフレーム、図２６の広角および望遠画像、図２７の入力画像、図３０の「オリジナル」画像、図３１の非ズーム入力画像、図３４の入力画像、図３５の入力画像、図３６の入力画像、図３８の元の画素、入力層３９１０に提供される画像（単数または複数）、本明細書に記載される他の画像データ、またはこれらの組み合わせを含む。

【0182】

動作４０１５において、メディア処理システムは、少なくとも深度データに基づいて、第１の画像データにおける環境の描写の視点の変化に対応する第１の複数の動きベクトルを生成するように構成されており、生成することができる。第１の複数の動きベクトルの例は、ＭＶグリッド５０５内の動きベクトル、図１５の動きベクトル（例えば、ＭＶ_ｉｎ、ＭＶ_ｘ、ＭＶ_ｙ）、ＭＶ１６２０、図２３の密なＭＶ、オプティカルフローエンジン２４２０に関連付けられた動きベクトル、図２８のＭＶグリッド図３４の元のＭＶおよびＭＶグリッド、図３８の順方向マッピング、本明細書に記載される他の動きベクトル、またはこれらの組み合わせを含む。

【0183】

動作４０２０において、メディア処理システムは、第１の複数の動きベクトルに基づくグリッド反転を使用して、視点の変化について第１の画像データにおける環境の描写のそれぞれの画素が移動したそれぞれの距離を示す第２の複数の動きベクトルを生成するように構成されており、生成することができる。第２の複数の動きベクトルの例は、逆ＭＶグリッド５２０内の動きベクトル、逆ＭＶ１６３０、逆ＭＶ１７３０、グリッド反転エンジン２４２５に関連付けられた逆動きベクトル、図２８のＭＶグリッド、図２４の逆ＭＶおよびＭＶグリッド、図３８の逆方向マッピング、本明細書に記載される他の逆動きベクトル、またはこれらの組み合わせを含む。

【0184】

動作４０２５において、メディア処理システムは、第２の複数の動きベクトルに従って第１の画像データを少なくとも部分的に修正することによって第２の画像データを生成するように構成されており、生成することができ、第２の画像データは、第１の画像データとは異なる視点からの環境の第２の描写を含む。第２の画像データの例は、修正済みメディアデータ２９０、第２の画像Ｉｍｇ２５１５、再投影画像６１５、画像７１５、図９の「安定」画像、図１０の３Ｄズーム画像、修正された望遠画像１１４０、再投影画像１２１５、入力画像１３１５、再投影画像１４１５、再投影画像１５１５、再投影画像１７１５、再投影画像１８０５、インペインティング画像１８１５、再投影画像２１１０、再投影画像２１１５、フロー２２１０の再投影画像、フロー２２２０の再投影画像、図２３のタイムワープ７０５を用いる再投影画像、画像処理エンジン２４４０を使用して出力される画像、図２７の深度ベースの位置合わせ２７１０画像、図２９のタイムワープ画像、図３０の「安定」画像、図３１の深度ベース３Ｄズーム画像、図３４の出力画像、図３５の出力画像、図３６の出力画像、図３８の再投影された画素、出力層３９１４を使用して出力される画像（単数または複数）、本明細書に記載される他の画像データ、またはこれらの組み合わせを含む。

【0185】

いくつかの例では、第２の画像データは、第１の時間と第３の時間との間の第２の時間における環境を描写するように構成される補間画像を含む。このような例では、第１の画像データは、第１の時間または第３の時間のうちの少なくとも１つにおける環境を描写する少なくとも１つの画像を含む。このような画像補間の例は、図７および／または図２３のようにタイムワープ７０５を使用して実行することができる。いくつかの例では、撮像システムは、深度データを使用せずに補間画像を生成することができる。

【0186】

いくつかの例では、第１の画像データは、視差移動を示すビデオデータの複数のフレームを含み、第２の画像データは、視差移動を低減するビデオデータの複数のフレームの安定化された変形を含む。例えば、３Ｄ安定化９０５は、図９および／または図３０のように、視差移動、回転、またはこれらの組み合わせを安定化、低減、および／または排除することができる。

【0187】

いくつかの例では、第１の画像データは、第１の角度から画像センサを見ている人物を含み、第２の画像データは、第１の角度とは異なる第２の角度から画像センサを見ている人物を含む。この例は、図１２および／または図３３のように、頭部姿勢補正１２０５を含む。

【0188】

いくつかの例では、視点の変化は、角度に従い軸を中心とした視点の回転を含む。いくつかの例では、視点の変化は、方向および距離に従った視点の並進を含む。いくつかの例では、視点の変化は変換を含む。いくつかの例では、視点の変化は、第１の画像データにおける環境の描写の元の視点と環境におけるオブジェクトの位置との間の軸に沿った移動を含み、オブジェクトの少なくとも一部は、第１の画像データ内に描写される。いくつかの例では、回転、並進、変換、および／または移動は、例えば図７～図１４のいずれかにおいて、本明細書に記載される再投影および／またはワープのタイプのいずれかを実行するために必要とされるものに基づいて識別することができる。いくつかの例では、回転、並進、変換、および／または移動は、ユーザインターフェースを使用して識別することができる。いくつかの例では、視点の変化は、視点の視差移動または軸を中心とした視点の回転のうちの少なくとも１つを含み、ユーザインターフェースを介して、視点の視差移動の距離の指示、または視点の回転の角度もしくは軸の指示のうちの１つを受信することをさらに含む。

【0189】

動作４０３０において、メディア処理システムは、（例えば、出力デバイス（単数または複数）２７０を使用して）第２の画像データを出力するように構成されており、出力することができる。例えば、メディア処理システムは、第２の画像データを表示し、更なる処理のために第２の画像データを出力し、第２の画像データを記憶し、これらの任意の組み合わせを行い、および／または他の方法で第２の画像データを出力してもよい。

【0190】

いくつかの例では、第２の画像データを出力することは、少なくとも１つのディスプレイを使用して第２の画像データを表示させることを含む。いくつかの例では、第２の画像データを出力することは、少なくとも通信インターフェースを使用して少なくとも受信側デバイスに第２の画像データを送信させることを含む。

【0191】

いくつかの例では、メディア処理システムは、第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて第２の画像データ内の１つまたは複数のギャップを識別し、第２の画像データを出力する前に補間を使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正するように構成されており、これらを行うことができる。いくつかの例では、メディア処理システムは、第１の複数の動きベクトルのそれぞれのエンドポイントにおける１つまたは複数のギャップに基づいて、第２の画像データ内に１つまたは複数のギャップを引き起こす第２の複数の動きベクトル内の１つまたは複数のギャップを識別し、第２の画像データを出力する前に補間を使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正するように構成されており、これらを行うことができる。ギャップの例は、図５の星によって示される逆ＭＶグリッド５２０（および／または第２の画像Ｉｍｇ２５１５）内のギャップを含む。

【0192】

いくつかの例では、メディア処理システムは、第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて第２の画像データ内の１つまたは複数のオクルージョン領域を識別し、第２の画像データを出力する前にインペインティングを使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正するように構成されており、これらを行うことができる。インペインティングは、補間、機械学習、ニューラルネットワーク、またはこれらの組み合わせを使用することができる。インペインティングの例は、図１８、図２１、図２２、図２８、図３３、図３４、図３５、図３６、および／または図３７に示されている。

【0193】

いくつかの例では、メディア処理システムは、第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて第２の画像データ内の１つまたは複数のオクルージョン領域を識別し、第２の画像データを出力する前に１つまたは複数のトレーニング済み機械学習モデルを使用するインペインティングを使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正するように構成されており、これらを行うことができる。インペインティングは、補間、機械学習、ニューラルネットワーク、またはこれらの組み合わせを使用することができる。インペインティングの例は、図１８、図２１、図２２、図２８、図３３、図３４、図３５、図３６、および／または図３７に示されている。

【0194】

いくつかの例では、メディア処理システムは、第２の複数の動きベクトル内の第１の画像データからの１つまたは複数の競合値に基づいて第２の画像データ内の１つまたは複数の競合を識別し、第２の複数の動きベクトルに関連付けられた移動データに基づいて第１の画像データから１つまたは複数の競合値のうちの１つを選択するように構成されており、これらを行うことができる。１つまたは複数の競合の例は、逆ＭＶグリッド５２０のセル８における競合を含む。

【0195】

いくつかの例では、第１の画像データにおける環境の描写は、第１の視点からの環境を描写し、視点の変化は、第１の視点と、第２の画像データにおける環境の第２の描写に対応する異なる視点との間の変化である。いくつかの例では、第１の複数の動きベクトルは、第１の視点から異なる視点を指し、第２の複数の動きベクトルは、異なる視点から第１の視点を指す。

【0196】

いくつかの例では、本明細書に記載されるプロセス（例えば、プロセス４０００および／または本明細書に記載される他のプロセス）は、コンピューティングデバイスまたは装置によって実行されてもよい。いくつかの例では、本明細書に記載されるプロセスは、画像キャプチャおよび処理システム１００、画像キャプチャデバイス１０５Ａ、画像処理デバイス１０５Ｂ、画像プロセッサ１５０、ＩＳＰ１５４、ホストプロセッサ１５２、撮像システム２００、ＨＭＤ３１０、モバイルハンドセット４１０、再投影およびグリッド反転システム２４９０、図２３のシステム、図２４のシステム、図２５のシステム、図２６のシステム、図２８のシステム、図２９のシステム、ニューラルネットワーク３９００、コンピューティングシステム４１００、プロセッサ４１１０、またはこれらの組み合わせによって実行することができる。

【0197】

コンピューティングデバイスは、本明細書に記載されるプロセスを実行するためのリソース能力を有する、モバイルデバイス（例えば、携帯電話）、デスクトップコンピューティングデバイス、タブレットコンピューティングデバイス、ウェアラブルデバイス（例えば、ＶＲヘッドセット、ＡＲヘッドセット、ＡＲ眼鏡、ネットワーク接続されたウォッチもしくはスマートウォッチ、または他のウェアラブルデバイス）、サーバコンピュータ、自律ビークルもしくは自律ビークルのコンピューティングデバイス、ロボットデバイス、テレビ、および／または任意の他のコンピューティングデバイスなどの任意の好適なデバイスを含むことができる。場合によっては、コンピューティングデバイスまたは装置は、１つまたは複数の入力デバイス、１つまたは複数の出力デバイス、１つまたは複数のプロセッサ、１つまたは複数のマイクロプロセッサ、１つまたは複数のマイクロコンピュータ、１つまたは複数のカメラ、１つまたは複数のセンサ、および／または本明細書で説明するプロセスのステップを実行するように構成される他の構成要素（単数または複数）などの、様々な構成要素を含み得る。いくつかの例では、コンピューティングデバイスは、ディスプレイ、データを通信および／または受信するように構成されるネットワークインターフェース、それらの任意の組み合わせ、および／または他の構成要素（単数または複数）を含んでよい。ネットワークインターフェースは、インターネットプロトコル（ＩＰ）ベースのデータもしくは他のタイプのデータを通信および／または受信するように構成され得る。

【0198】

コンピューティングデバイスの構成要素は、回路に実装され得る。例えば、構成要素は、１つまたは複数のプログラマブル電子回路（例えば、マイクロプロセッサ、グラフィックス処理ユニット（ＧＰＵｓ）、デジタル信号プロセッサ（ＤＳＰｓ）、中央処理ユニット（ＣＰＵｓ）、および／または他の好適な電子回路）を含み得る、電子回路もしくは他の電子ハードウェアを含むことができる、および／もしくはそれらを使用して実装されることが可能であり、並びに／または本明細書で説明する様々な動作を実行するために、コンピュータソフトウェア、ファームウェア、もしくはそれらの任意の組み合わせを含むことができる、および／もしくはそれらを使用して実装されることが可能である。

【0199】

本明細書で説明するプロセスは、論理フロー図、ブロック図、または概念図として示されており、その動作は、ハードウェア、コンピュータ命令、またはそれらの組み合わせで実施され得る動作のシーケンスを表す。コンピュータ命令のコンテキストでは、動作は、１つまたは複数のプロセッサによって実行されたとき、記載された動作を実行する、１つまたは複数のコンピュータ可読記憶媒体上に記憶されたコンピュータ実行可能命令を表す。概して、コンピュータ実行可能命令は、特定の機能を実行するかまたは特定のデータタイプを実装するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。動作が説明される順序は、限定として解釈されることを意図せず、任意の数の説明される動作は、プロセスを実装するために任意の順序で、および／または並列に組み合わせることができる。

【0200】

加えて、本明細書において説明されるプロセスは、実行可能命令を用いて構成される１つまたは複数のコンピュータシステムの制御下で実行されてもよく、１つまたは複数のプロセッサ上で、ハードウェアによって、またはそれらの組み合わせで、まとめて実行するコード（例えば、実行可能命令、１つまたは複数のコンピュータプログラム、または１つまたは複数のアプリケーション）として実装されてもよい。上述のように、コードは、例えば、１つまたは複数のプロセッサによって実行可能な複数の命令を備えるコンピュータプログラムの形態で、コンピュータ可読記憶媒体または機械可読記憶媒体上に記憶されてもよい。コンピュータ可読記憶媒体または機械可読記憶媒体は、非一時的であってもよい。

【0201】

図４１は、本技術の特定の体要素実施するためのシステムの例を示す図である。特に、図４１は、例えば、システムの構成要素が接続４１０５を使用して互いに通信している、内部コンピューティングシステム、リモートコンピューティングシステム、カメラ、またはこれらの任意の構成要素を構成する、任意のコンピューティングデバイスであり得るコンピューティングシステム４１００の一例を示す。接続４１０５は、バスを使用する物理接続、またはチップセットアーキテクチャなどにおけるプロセッサ４１１０への直接接続とすることができる。接続４１０５はまた、仮想接続、ネットワーク接続、または論理接続とすることもできる。

【0202】

いくつかの実施形態では、コンピューティングシステム４１００は、本開示において説明する機能が、１つのデータセンタ、複数のデータセンタ、ピアネットワークなどに分散され得る分散型システムである。いくつかの実施形態では、説明するシステム構成要素の１つまたは複数は、構成要素の説明の対象である機能のうちのいくつかまたは全てを各々実施するような多くの構成要素を表す。いくつかの実施形態では、構成要素は物理デバイスまたは仮想デバイスとすることができる。

【0203】

例示的なシステム４１００は、少なくとも１つの処理装置（ＣＰＵまたはプロセッサ）４１１０と、読み取り専用メモリ（ＲＯＭ）４１２０およびランダムアクセスメモリ（ＲＡＭ）４１２５などのシステムメモリ４１１５を含む様々なシステム構成要素をプロセッサ４１１０に結合する接続４１０５とを含む。コンピューティングシステム４１００は、プロセッサ４１１０と直接接続されるか、プロセッサ４１１０に極めて近接しているか、またはプロセッサ４１１０の一部として統合される、高速メモリのキャッシュ４１１２を含むことができる。

【0204】

プロセッサ４１１０は、任意の汎用プロセッサと、記憶デバイス４１３０内に記憶され、プロセッサ４１１０、並びにソフトウェア命令が実際のプロセッサ設計に組み込まれた専用プロセッサを制御するように構成される、サービス４１３２、４１３４、および４１３６などのハードウェアサービスまたはソフトウェアサービスとを含むことができる。プロセッサ４１１０は基本的に、複数のコアまたはプロセッサ、バス、メモリコントローラ、キャッシュなどを含む、完全に自己完結型のコンピューティングシステムであってもよい。マルチコアプロセッサは、対称であってもよく、または非対称であってもよい。

【0205】

ユーザ対話を可能にするために、コンピューティングシステム４１００は、発話のためのマイクロフォン、ジェスチャ入力またはグラフィカル入力のためのタッチ感知画面、キーボード、マウス、モーション入力、発話などの、任意の数の入力機構を表すことができる、入力デバイス４１４５を含む。コンピューティングシステム４１００は、いくつかの出力機構の１つまたは複数であり得る出力デバイス４１３５も含むことができる。場合によっては、マルチモーダルシステムは、コンピューティングシステム４１００と通信するためにユーザが複数のタイプの入力／出力を提供することを可能にし得る。コンピューティングシステム４１００は、一般に、ユーザ入力およびシステム出力を支配し管理することができる通信インターフェース４１４０を含むことができる。通信インターフェースは、オーディオジャック／プラグ、マイクロフォンジャック／プラグ、ユニバーサルシリアルバス（universal serial bus、ＵＳＢ）ポート／プラグ、Ａｐｐｌｅ（登録商標）Ｌｉｇｈｔｎｉｎｇ（登録商標）ポート／プラグ、Ｅｔｈｅｒｎｅｔポート／プラグ、光ファイバーポート／プラグ、プロプライエタリ有線ポート／プラグ、ＢＬＵＥＴＯＯＴＨ（登録商標）ワイヤレス信号転送、ＢＬＵＥＴＯＯＴＨ（登録商標）低エネルギー（low energy、ＢＬＥ）ワイヤレス信号転送、ＩＢＥＡＣＯＮ（登録商標）ワイヤレス信号転送、無線周波識別（radio-frequency identification、ＲＦＩＤ）ワイヤレス信号転送、近距離通信（near-field communications、ＮＦＣ）ワイヤレス信号転送、専用短距離通信（dedicated short range communication、ＤＳＲＣ）ワイヤレス信号転送、８０２．１１Ｗｉ－Ｆｉワイヤレス信号転送、ワイヤレスローカルエリアネットワーク（ＷＬＡＮ）信号転送、可視光通信（Visible Light Communication、ＶＬＣ）、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス（Worldwide Interoperability for Microwave Access、ＷｉＭＡＸ）、赤外線（infrared、ＩＲ）通信ワイヤレス信号転送、公衆交換電話網（Public Switched Telephone Network、ＰＳＴＮ）信号転送、統合サービスデジタルネットワーク（Integrated Services Digital Network、ＩＳＤＮ）信号転送、３Ｇ／４Ｇ／５Ｇ／ＬＴＥセルラーデータネットワークワイヤレス信号転送、アドホックネットワーク信号転送、電波信号転送、マイクロ波信号転送、赤外線信号転送、可視光信号転送、紫外光信号転送、電磁スペクトルに沿ったワイヤレス信号転送、またはそれらの何らかの組み合わせを利用するものを含む、有線および／またはワイヤレスのトランシーバを使用する有線通信またはワイヤレス通信の受信および／または送信を実施し得るか、または容易にし得る。通信インターフェース４１４０はまた、１つまたは複数の全地球的航法衛星システム（Global Navigation Satellite System、ＧＮＳＳ）システムに関連する１つまたは複数の衛星からの１つまたは複数の信号の受信に基づいて、コンピューティングシステム４１００の位置を決定するために使用される、１つまたは複数のＧＮＳＳ受信機またはトランシーバを含んでもよい。ＧＮＳＳシステムは、限定はしないが、米国の全地球測位システム（ＧＰＳ）、ロシアの全地球航法衛星システム（Global Navigation Satellite System、ＧＬＯＮＡＳＳ）、中国の北斗航法衛星システム（BeiDou Navigation Satellite system、ＢＤＳ）、および欧州のＧａｌｉｌｅｏＧＮＳＳを含む。任意の特定のハードウェア配列で動作することに対して制約がなく、したがって、ここでの基本的な特徴は、それらが開発されるにつれて、改善されたハードウェア配列またはファームウェア配列のために容易に置き換えられてよい。

【0206】

記憶デバイス４１３０は、不揮発性および／または非一時的および／またはコンピュータ可読メモリデバイスとすることができ、磁気カセット、フラッシュメモリカード、固体メモリデバイス、デジタル多用途ディスク、カートリッジ、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、磁気ストリップ／ストライプ、任意の他の磁気記憶媒体、フラッシュメモリ、メモリスタメモリ、任意の他の固体メモリ、コンパクトディスク読み取り専用メモリ（compact disc read only memory、ＣＤ－ＲＯＭ）光ディスク、再書き込み可能コンパクトディスク（compact disc、ＣＤ）光ディスク、デジタルビデオディスク（digital video disk、ＤＶＤ）光ディスク、ブルーレイディスク（blu-ray disc、ＢＤＤ）光ディスク、ホログラフィック光ディスク、別の光媒体、セキュアデジタル（secure digital、ＳＤ）カード、マイクロセキュアデジタル（micro secure digital、ｍｉｃｒｏＳＤ）カード、メモリスティック（登録商標）カード、スマートカードチップ、ＥＭＶチップ、加入者識別モジュール（subscriber identity module、ＳＩＭ）カード、ミニ／マイクロ／ナノ／ピコＳＩＭカード、別の集積回路（integrated circuit、ＩＣ）チップ／カード、ランダムアクセスメモリ（ＲＡＭ）、スタティックＲＡＭ（static RAM、ＳＲＡＭ）、ダイナミックＲＡＭ（dynamic RAM、ＤＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、プログラマブル読み取り専用メモリ（programmable read-only memory、ＰＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（erasable programmable read-only memory、ＥＰＲＯＭ）、電気的消去可能プログラマブル読み取り専用メモリ（electrically erasable programmable read-only memory、ＥＥＰＲＯＭ）、フラッシュＥＰＲＯＭ（ｆｌａｓｈＥＰＲＯＭ、ＦＬＡＳＨＥＰＲＯＭ）、キャッシュメモリ（Ｌ１／Ｌ２／Ｌ３／Ｌ４／Ｌ５／Ｌ＃）、抵抗性ランダムアクセスメモリ（resistive random-access memory、ＲＲＡＭ／ＲｅＲＡＭ）、位相変化メモリ（phase change memory、ＰＣＭ）、スピン転送トルクＲＡＭ（spin transfer torque RAM、ＳＴＴ－ＲＡＭ）、別のメモリチップもしくはカートリッジ、および／またはそれらの組み合わせなどの、コンピュータによってアクセス可能であるデータを記憶できるハードディスクまたは他のタイプのコンピュータ可読媒体とすることができる。

【0207】

記憶デバイス４１３０は、このようなソフトウェアを定義するコードがプロセッサ４１１０によって実行されると、システムに機能を実施させる、ソフトウェアサービス、サーバ、サービスなどを含むことができる。いくつかの実施形態では、特定の機能を実施するハードウェアサービスは、機能を実行するために、プロセッサ４１１０、接続４１０５、出力デバイス４１３５などの必要なハードウェア構成要素に関してコンピュータ可読媒体内に記憶された、ソフトウェア構成要素を含むことができる。

【0208】

本明細書で使用する「コンピュータ可読媒体」という用語は、限定はしないが、携帯型または非携帯型の記憶デバイス、光記憶デバイス、並びに命令（単数または複数）および／またはデータを記憶、格納、または搬送することが可能な様々な他の媒体を含む。コンピュータ可読媒体は、データが記憶され、かつワイヤレスでもしくは有線接続を介して伝搬する搬送波および／または一時的な電子信号を含まない、非一時的媒体を含んでもよい。非一時的媒体の例は、磁気ディスクもしくはテープ、コンパクトディスク（compact disk、ＣＤ）もしくはデジタル多用途ディスク（digital versatile disk、ＤＶＤ）などの光記憶媒体、フラッシュメモリ、メモリ、またはメモリデバイスを含み得るがこれらに限定されない。コンピュータ可読媒体は、プロシージャ、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、または命令、データ構造、もしくはプログラムステートメントの任意の組み合わせを表し得る、その上に記憶されているコードおよび／または機械実行可能命令を有し得る。コードセグメントは、情報、データ、引数、パラメータ、またはメモリ内容を受け渡すことおよび／または受け取ることによって、別のコードセグメントまたはハードウェア回路に結合され得る。情報、引数、パラメータ、データなどは、メモリ共有、メッセージパッシング、トークンパッシング、ネットワーク伝送などを含む、任意の適切な手段を使用して渡され、転送され、または伝送されてもよい。

【0209】

いくつかの実施形態では、コンピュータ可読記憶デバイス、媒体、およびメモリは、ビットストリームなどを含むケーブルまたはワイヤレス信号を含み得る。しかしながら、非一時的コンピュータ可読記憶媒体に言及するとき、エネルギー、キャリア信号、電磁波、および信号自体などの媒体は明確に除外される。

【0210】

本明細書で提供する実施形態および例の完全な理解を与えるために、上記の説明において具体的な詳細が提供されている。しかしながら、実施形態がこれらの具体的な詳細なしに実践され得ることが当業者によって理解されよう。説明を分かりやすくするために、いくつかの事例では、本技術は、デバイス、デバイス構成要素、ソフトウェアの中で具現される方法におけるステップもしくはルーチン、またはハードウェアとソフトウェアとの組み合わせを備える機能ブロックを含む、個々の機能ブロックを含むものとして提示されることがある。図の中に示されおよび／または本明細書で説明するもの以外の、追加の構成要素が使用されてよい。例えば、不必要な詳細で実施形態を不明瞭にしないように、回路、システム、ネットワーク、プロセス、および他の構成要素がブロックダイアグラムの形態で構成要素として示されることがある。他の事例では、実施形態を不明瞭にすることを避けるために、よく知られている回路、プロセス、アルゴリズム、構造、および技法は、不必要な詳細なしに示すことがある。

【0211】

個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスまたは方法として上記で説明されてもよい。フローチャートは、動作を逐次プロセスとして説明することがあるが、動作の多くは並列にまたは同時に実行することができる。加えて、工程の順番は並べ替えられてもよい。プロセスは、その動作が完了するときに終了するが、図に含まれていない追加のステップを有することがある。プロセスは、メソッド、関数、プロシージャ、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応するとき、その終了は、その関数が呼出し関数またはメイン関数に戻ることに対応することができる。

【0212】

上記で説明した例によるプロセスおよび方法は、コンピュータ可読媒体に記憶されているか、あるいはそこから入手可能なコンピュータ実行可能命令を使用して実装され得る。そのような命令は、例えば、汎用コンピュータ、専用コンピュータ、もしくは処理デバイスにいくつかの機能もしくは機能の群を実施させるか、または場合によっては、いくつかの機能もしくは機能の群を実施するように汎用コンピュータ、専用コンピュータ、もしくは処理デバイスを構成する、命令およびデータを含み得る。使用されるコンピュータリソースの部分は、ネットワークを介してアクセス可能とすることができる。コンピュータ実行可能命令は、例えば、アセンブリ言語、ファームウェア、ソースコードなどの、バイナリ、中間フォーマット命令であってもよい。命令、使用される情報、および／または説明する例による方法の間に作成される情報を記憶するために使用されることがあるコンピュータ可読媒体の例としては、磁気または光ディスク、フラッシュメモリ、不揮発性メモリを備えたＵＳＢデバイス、ネットワーク接続された記憶デバイスなどが挙げられる。

【0213】

これらの開示に従ってプロセスおよび方法を実施するデバイスは、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせを含むことができ、様々なフォームファクタのうちのいずれかをとることができる。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードにおいて実装されるとき、必要なタスクを実行するためのプログラムコードまたはコードセグメント（例えば、コンピュータプログラム製品）は、コンピュータ可読媒体または機械可読媒体に記憶され得る。プロセッサ（単数または複数）は必要なタスクを実行し得る。フォームファクタの典型的な例は、ラップトップ、スマートフォン、携帯電話、タブレットデバイスまたは他の小スペース型パーソナルコンピュータ、携帯情報端末、ラックマウントデバイス、スタンドアロンデバイスなどを含む。本明細書で説明する機能性はまた、周辺装置またはアドインカードの中で具現され得る。このような機能性はまた、更なる例として、単一デバイス上の異なるチップ間で、またはそれにおいて実行される異なるプロセス間で、回路基板上において実装され得る。

【0214】

命令、このような命令を運ぶための媒体、それらを実行するためのコンピューティングリソース、およびこのようなコンピューティングリソースをサポートするための他の構造は、本開示で説明した機能を提供するための例示的な手段である。

【0215】

上記の説明では、本出願の態様はそれらの特定の実施形態を参照しながら説明されるが、本出願がそれらに限定されないことを当業者は認識されよう。したがって、本出願の例示的な実施形態が本明細書で詳細に説明されているが、本発明の概念が別のやり方で様々に具現および採用され得ること、並びに従来技術によって限定される場合を除き、添付の特許請求の範囲がこのような変形を含むものと解釈されることが意図されることを理解されたい。上記で説明した本出願の様々な特徴および態様は、個別にまたは共同で使用され得る。さらに、実施形態は、本明細書のより広い趣旨および範囲から逸脱することなく、本明細書で説明するもの以外の任意の数の環境および適用例において利用することができる。よって、本明細書および図面は限定的ではなく例示的と見なされるべきである。例示の目的のために、方法は特定の順序で説明された。代替実施形態では、方法は説明された順序とは異なる順序で実行され得ることを理解されたい。

【0216】

当業者は、本明細書で使用するよりも小さい（「＜」）およびよりも大きい（「＞」）という記号または用語は、本説明の範囲から逸脱することなく、それぞれ、以下（「≦」）および以上（「≧」）という記号で置き換えられ得ることを理解するであろう。

【0217】

構成要素が特定の動作を実行する「ように構成される」ものとして説明される場合、このような構成は、例えば、動作を実行するように電子回路もしくは他のハードウェアを設計することによって、動作を実行するようにプログラマブル電子回路（例えば、マイクロプロセッサ、または他の適切な電子回路）をプログラムすることによって、またはそれらの任意の組み合わせで達成され得る。

【0218】

「～に結合される」という句は、直接もしくは間接的のいずれかで別の構成要素に物理的に接続される任意の構成要素、および／または直接もしくは間接的のいずれかで別の構成要素と通信している（例えば、ワイヤード接続もしくはワイヤレス接続および／または他の好適な通信インターフェースを介して他の構成要素に接続される）任意の構成要素を指す。

【0219】

集合のうちの「少なくとも１つ」および／または集合のうちの「１つまたは複数」と記載する請求項の文言または他の文言は、集合の１つのメンバーまたは集合の（任意の組み合わせの）複数のメンバーが請求項を満たすことを示す。例えば、「ＡおよびＢのうちの少なくとも１つ」と記載する請求項の文言は、Ａ、Ｂ、またはＡおよびＢを意味する。別の例では、「Ａ、Ｂ、およびＣのうちの少なくとも１つ」と記載する請求項の文言は、Ａ、Ｂ、Ｃ、またはＡおよびＢ、またはＡおよびＣ、またはＢおよびＣ、またはＡおよびＢおよびＣを意味する。集合のうちの「少なくとも１つ」および／または集合のうちの「１つまたは複数」という文言は、集合の中で列挙されるアイテムにその集合を限定するものではない。例えば、「ＡおよびＢのうちの少なくとも１つ」を記述する請求項の文言は、Ａ、Ｂ、またはＡおよびＢを意味することができ、加えて、ＡおよびＢの集合に列挙されていない項目をさらに含むことができる。

【0220】

本明細書で開示する実施形態に関して説明した様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、ファームウェア、またはそれらの組み合わせとして実装され得る。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップについて、それらの機能性の観点から上記で概略的に説明した。このような機能性がハードウェアとして実装されるのか、それともソフトウェアとして実装されるのかは、特定の適用例およびシステム全体に課される設計上の制約に依存する。当業者は、説明した機能を特定の適用例ごとに様々な方法で実装し得るが、そのような実装の決定は、本出願の範囲から逸脱する原因として解釈されるべきではない。

【0221】

本明細書で説明する技法はまた、電子ハードウェア、コンピュータソフトウェア、ファームウェア、またはそれらの任意の組み合わせにおいて実装され得る。このような技法は、汎用コンピュータ、ワイヤレス通信デバイスハンドセット、またはワイヤレス通信デバイスハンドセットおよび他のデバイスにおける適用例を含む複数の用途を有する集積回路デバイスなどの、様々なデバイスのうちのいずれかにおいて実装され得る。モジュールまたは構成要素として説明する特徴はいずれも、集積化論理デバイスとして一体に、または個別であるが相互動作可能な論理デバイスとして別々に実装され得る。ソフトウェアで実装される場合、技法は、実行されると、上で説明された方法のうちの１つまたは複数を実施する命令を含むプログラムコードを備える、コンピュータ可読データ記憶媒体によって少なくとも部分的に実現されてよい。コンピュータ可読データ記憶媒体は、梱包材料を含み得るコンピュータプログラム製品の一部を形成し得る。コンピュータ可読媒体は、同期ダイナミックランダムアクセスメモリ（synchronous dynamic random access memory、ＳＤＲＡＭ）などのランダムアクセスメモリ（random access memory、ＲＡＭ）、読み取り専用メモリ（read-only memory、ＲＯＭ）、不揮発性ランダムアクセスメモリ（non-volatile random access memory、ＮＶＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（electrically erasable programmable read-only memory、ＥＥＰＲＯＭ）、ＦＬＡＳＨメモリ、磁気または光データ記憶媒体などの、メモリまたはデータ記憶媒体を備え得る。技法は加えて、または代わりに、伝搬される信号または波などの、コンピュータによってアクセスされ、読み取られ、および／または実行され得る命令またはデータ構造の形態でのプログラムコードを搬送または通信するコンピュータ可読通信媒体によって、少なくとも部分的に実現され得る。

【0222】

プログラムコードは、１つまたは複数のデジタル信号プロセッサ（digital signal processors、ＤＳＰｓ）、汎用マイクロプロセッサ、特定用途向け集積回路（application specific integrated circuits、ＡＳＩＣｓ）、フィールドプログラマブル論理アレイ（field programmable logic arrays、ＦＰＧＡｓ）、または他の等価な集積化もしくは個別の論理回路構成などの１つまたは複数のプロセッサを含み得る、プロセッサによって実行され得る。このようなプロセッサは、本開示に記載の技法のいずれかを実施するように構成され得る。汎用プロセッサは、マイクロプロセッサであってもよい代わりとして、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、またはステートマシンでもあってもよい。プロセッサはまた、例えば、ＤＳＰとマイクロプロセッサとの組み合わせなどのコンピューティングデバイスの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと連携した１つまたは複数のマイクロプロセッサ、または任意の他のこのような構成として実装されてよい。よって、本明細書で使用する「プロセッサ」という用語は、上記の構造、上記の構造の任意の組み合わせ、または本明細書で説明する技法の実装に適した任意の他の構造もしくは装置のうちのいずれかを指すことがある。加えて、いくつかの態様では、本明細書で説明した機能性は、符号化および復号のために構成される専用のソフトウェアモジュールもしくはハードウェアモジュール内に設けられてよく、または複合ビデオエンコーダデコーダ（combined video encoder-decoder、ＣＯＤＥＣ）内に組み込まれてよい。

【0223】

本開示の例示的な態様は以下を含む。

【0224】

態様１Ａ．画像処理のための装置であって、装置は、少なくとも１つのメモリと、少なくとも１つのメモリに結合された少なくとも１つのプロセッサとを備え、少なくとも１つのプロセッサは、ｅするように構成される。

【0225】

態様２Ａ．第２の画像データは、第１の時間と第３の時間との間の第２の時間に環境を描写するように構成される補間画像を含み、第１の画像データは、第１の時間または第３の時間のうちの少なくとも１つにおける環境を描写する少なくとも１つの画像を含む、態様１Ａに記載の装置。

【0226】

態様３Ａ．第１の画像データは、視差移動を含むビデオデータの複数のフレームを含み、第２の画像データは、視差移動を低減するビデオデータの複数のフレームの安定化された変形を含む、態様１Ａから２Ａのいずれか一項に記載の装置。

【0227】

態様４Ａ．第１の画像データは、第１の角度から画像センサを見ている人物を含み、第２の画像データは、第１の角度とは異なる第２の角度から画像センサを見ている人物を含む、態様１Ａから３Ａのいずれか一項に記載の装置。

【0228】

態様５Ａ．視点の変化は、角度に従い軸を中心とした視点の回転を含む、態様１Ａから４Ａのいずれか一項に記載の装置。

【0229】

態様６Ａ．視点の変化は、方向および距離に従った視点の並進を含む、態様１Ａから５Ａのいずれか一項に記載の装置。

【0230】

態様７Ａ．視点の変化は変換を含む、態様１Ａから６Ａのいずれか一項に記載の装置。

【0231】

態様８Ａ．視点の変化は、第１の画像データにおける環境の描写の元の視点と環境におけるオブジェクトの位置との間の軸に沿った移動を含み、オブジェクトの少なくとも一部は、第１の画像データ内に描写される、態様１Ａから７Ａのいずれか一項に記載の装置。

【0232】

態様９Ａ．少なくとも１つのプロセッサは、第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて第２の画像データ内の１つまたは複数のギャップを識別し、第２の画像データを出力する前に補間を使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正するように構成される、態様１Ａから８Ａのいずれか一項に記載の装置。

【0233】

態様１０Ａ．少なくとも１つのプロセッサは、第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて第２の画像データ内の１つまたは複数のオクルージョン領域を識別し、第２の画像データを出力する前にインペインティングを使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正するように構成される、態様１Ａから９Ａのいずれか一項に記載の装置。

【0234】

態様１１Ａ．少なくとも１つのプロセッサは、第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて第２の画像データ内の１つまたは複数のオクルージョン領域を識別し、第２の画像データを出力する前に１つまたは複数のトレーニング済み機械学習モデルを使用するインペインティングを使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正するように構成される、態様１Ａから１０Ａのいずれか一項に記載の装置。

【0235】

態様１２Ａ．少なくとも１つのプロセッサは、第２の複数の動きベクトル内の第１の画像データからの１つまたは複数の競合値に基づいて第２の画像データ内の１つまたは複数の競合を識別し、第２の複数の動きベクトルに関連付けられた移動データに基づいて第１の画像データから１つまたは複数の競合値のうちの１つを選択するように構成される、態様１Ａから１１Ａのいずれか一項に記載の装置。

【0236】

態様１３Ａ．深度情報は、第１の視点からの環境の三次元表現を含む、態様１Ａから１２Ａのいずれか一項に記載の装置。

【0237】

態様１４Ａ．深度データは、少なくとも１つの深度センサから受信される、態様１Ａから１３Ａのいずれか一項に記載の装置。

【0238】

態様１５Ａ．ディスプレイをさらに備え、第２の画像データを出力するために、少なくとも１つのプロセッサは、少なくともディスプレイを使用して第２の画像データを表示するように構成される、態様１Ａから１４Ａのいずれか一項に記載の装置。

【0239】

態様１６Ａ．通信インターフェースをさらに備え、第２の画像データを出力するために、少なくとも１つのプロセッサは、少なくとも通信インターフェースを使用して少なくとも受信側デバイスに少なくとも第２の画像データを送信するように構成される、態様１Ａから１５Ａのいずれか一項に記載の装置。

【0240】

態様１７Ａ．装置は、ヘッドマウントディスプレイ（ＨＭＤ）、モバイルハンドセット、またはワイヤレス通信デバイスのうちの少なくとも１つを含む、態様１Ａから１６Ａのいずれか一項に記載の装置。

【0241】

態様１８Ａ．第１の画像データにおける環境の描写は、第１の視点からの環境を描写し、視点の変化は、第１の視点と、第２の画像データにおける環境の第２の描写に対応する異なる視点との間の変化である、態様１Ａから１７Ａのいずれか一項に記載の装置。

【0242】

態様１９Ａ．視点の変化は、視点の視差移動または軸を中心とした視点の回転のうちの少なくとも１つを含み、少なくとも１つのプロセッサは、ユーザインターフェースを介して、視点の視差移動の距離の指示、または視点の回転の角度もしくは軸の指示のうちの１つを受信するように構成される、態様１Ａから１８Ａのいずれか一項に記載の装置。

【0243】

態様２０Ａ．少なくとも１つのプロセッサは、第１の複数の動きベクトルのそれぞれのエンドポイントにおける１つまたは複数のギャップに基づいて、第２の画像データ内に１つまたは複数のギャップを引き起こす第２の複数の動きベクトルの１つまたは複数のギャップを識別し、第２の画像データを出力する前に補間を使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正するように構成される、態様１Ａから１９のいずれか一項に記載の装置。

【0244】

態様２１Ａ．画像処理のための方法であって、方法は、環境に対応する深度情報を含む深度データを受信することと、画像センサによってキャプチャされた第１の画像データであって、第１の画像データは環境の描写を含む、第１の画像データを受信することと、少なくとも深度データに基づいて、第１の画像データにおける環境の描写の視点の変化に対応する第１の複数の動きベクトルを生成することと、第１の複数の動きベクトルに基づくグリッド反転を使用して、視点の変化について第１の画像データにおける環境の描写のそれぞれの画素が移動したそれぞれの距離を示す第２の複数の動きベクトルを生成することと、第２の複数の動きベクトルに対応する第１の画像データを少なくとも部分的に修正することによって第２の画像データであって、第２の画像データは、第１の画像データとは異なる視点からの環境の第２の描写を含む、第２の画像データを生成することと、第２の画像データを出力することと、を含む方法。

【0245】

態様２２Ａ．第２の画像データは、第１の時間と第３の時間との間の第２の時間に環境を描写するように構成される補間画像を含み、第１の画像データは、第１の時間または第３の時間のうちの少なくとも１つにおける環境を描写する少なくとも１つの画像を含む、態様２１Ａに記載の方法。

【0246】

態様２３Ａ．第１の画像データは、視差移動を含むビデオデータの複数のフレームを含み、第２の画像データは、視差移動を低減するビデオデータの複数のフレームの安定化された変形を含む、態様２１Ａから２２Ａのいずれか一項に記載の方法。

【0247】

態様２４Ａ．第１の画像データは、第１の角度から画像センサを見ている人物を含み、第２の画像データは、第１の角度とは異なる第２の角度から画像センサを見ている人物を含む、態様２１Ａから２３Ａのいずれか一項に記載の方法。

【0248】

態様２５Ａ．視点の変化は、角度に従い軸を中心とした視点の回転を含む、態様２１Ａから２４Ａのいずれか一項に記載の方法。

【0249】

態様２６Ａ．視点の変化は、方向および距離に従った視点の並進を含む、態様２１Ａから２５Ａのいずれか一項に記載の方法。

【0250】

態様２７Ａ．視点の変化は変換を含む、態様２１Ａから２６Ａのいずれか一項に記載の方法。

【0251】

態様２８Ａ．視点の変化は、第１の画像データにおける環境の描写の元の視点と環境におけるオブジェクトの位置との間の軸に沿った移動を含み、オブジェクトの少なくとも一部は、第１の画像データ内に描写される、態様２１Ａから２７Ａのいずれか一項に記載の方法。

【0252】

態様２９Ａ．第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて第２の画像データ内の１つまたは複数のギャップを識別することと、第２の画像データを出力する前に補間を使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正することと、をさらに含む、態様２１Ａから２８Ａのいずれか一項に記載の方法。

【0253】

態様３０Ａ．第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて第２の画像データ内の１つまたは複数のオクルージョン領域を識別することと、第２の画像データを出力する前にインペインティングを使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正することと、をさらに含む、態様２１Ａから２９Ａのいずれか一項に記載の方法。

【0254】

態様３１Ａ．第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて第２の画像データ内の１つまたは複数のオクルージョン領域を識別することと、第２の画像データを出力する前に１つまたは複数のトレーニング済み機械学習モデルを使用するインペインティングを使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正することと、をさらに含む、態様２１Ａから３０Ａのいずれか一項に記載の方法。

【0255】

態様３２Ａ．第２の複数の動きベクトル内の第１の画像データからの１つまたは複数の競合値に基づいて第２の画像データ内の１つまたは複数の競合を識別することと、第２の複数の動きベクトルに関連付けられた移動データに基づいて第１の画像データから１つまたは複数の競合値のうちの１つを選択することと、をさらに含む、態様２１Ａから３１Ａのいずれか一項に記載の方法。

【0256】

態様３３Ａ．深度情報は、第１の視点からの環境の三次元表現を含む、態様２１Ａから３２Ａのいずれか一項に記載の方法。

【0257】

態様３４Ａ．深度データは、少なくとも１つの深度センサから受信される、態様２１Ａから３３Ａのいずれか一項に記載の方法。

【0258】

態様３５Ａ．第２の画像データを出力することは、少なくとも１つのディスプレイを使用して第２の画像データを表示させることを含む、態様２１Ａから３４Ａのいずれか一項に記載の方法。

【0259】

態様３６Ａ．第２の画像データを出力することは、少なくとも通信インターフェースを使用して少なくとも受信側デバイスに第２の画像データを送信させることを含む、態様２１Ａから３５Ａのいずれか一項に記載の方法。

【0260】

態様３７Ａ．方法は、ヘッドマウントディスプレイ（ＨＭＤ）、モバイルハンドセット、またはワイヤレス通信デバイスのうちの少なくとも１つを含む装置を使用して実行される、態様２１Ａから３６Ａのいずれか一項に記載の方法。

【0261】

態様３８Ａ．第１の画像データにおける環境の描写は、第１の視点からの環境を描写し、視点の変化は、第１の視点と、第２の画像データにおける環境の第２の描写に対応する異なる視点との間の変化である、態様２１Ａから３７Ａのいずれか一項に記載の方法。

【0262】

態様３９Ａ．視点の変化は、視点の視差移動または軸を中心とした視点の回転のうちの少なくとも１つを含み、ユーザインターフェースを介して、視点の視差移動の距離の指示、または視点の回転の角度もしくは軸の指示のうちの１つを受信することをさらに含む、態様２１Ａから３８Ａのいずれか一項に記載の方法。

【0263】

態様４０Ａ．第１の複数の動きベクトルのそれぞれのエンドポイントにおける１つまたは複数のギャップに基づいて、第２の画像データ内に１つまたは複数のギャップを引き起こす第２の複数の動きベクトル内の１つまたは複数のギャップを識別することと、第２の画像データを出力する前に補間を使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正することと、をさらに含む、態様２１Ａから３９Ａのいずれか一項に記載の方法。

【0264】

態様４１Ａ．１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに、環境に対応する深度情報を含む深度データを受信させ、画像センサによってキャプチャされた第１の画像データであって、第１の画像データは環境の描写を含み、第１の画像データを受信させ、少なくとも深度データに基づいて、第１の画像データにおける環境の描写の視点の変化に対応する第１の複数の動きベクトルを生成させ、第１の複数の動きベクトルに基づくグリッド反転を使用して、視点の変化について第１の画像データにおける環境の描写のそれぞれの画素が移動したそれぞれの距離を示す第２の複数の動きベクトルを生成させ、第２の複数の動きベクトルに対応する第１の画像データを少なくとも部分的に修正することによって第２の画像データを生成させ、第２の画像データは、第１の画像データとは異なる視点からの環境の第２の描写を含み、第２の画像データを出力させる命令を記憶した、非一時的コンピュータ可読媒体。

【0265】

態様４２Ａ．態様２Ａから２０Ａのいずれか一項、および／または態様２２Ａから４０Ａのいずれか一項に記載の動作をさらに備える、態様４１Ａに記載の非一時的コンピュータ可読媒体。

【0266】

態様４３Ａ．画像処理のための装置であって、装置は、画像センサによってキャプチャされた第１の画像データであって、第１の画像データは環境の描写を含む、第１の画像データを受信する手段と、少なくとも深度データに基づいて、第１の画像データにおける環境の描写の視点の変化に対応する第１の複数の動きベクトルを生成する手段と、第１の複数の動きベクトルに基づくグリッド反転を使用して、視点の変化について第１の画像データにおける環境の描写のそれぞれの画素が移動したそれぞれの距離を示す第２の複数の動きベクトルを生成する手段と、第２の複数の動きベクトルに対応する第１の画像データを少なくとも部分的に修正することによって第２の画像データであって、第２の画像データは、第１の画像データとは異なる視点からの環境の第２の描写を含む、第２の画像データを生成する手段と、第２の画像データを出力する手段と、を備える装置。

【0267】

態様４４Ａ．態様２Ａから２０Ａのいずれか一項、および／または態様２２Ａから４０Ａのいずれか一項に記載の動作をさらに備える、態様４３Ａに記載の装置。

【0268】

態様１Ｂ．画像処理のための装置であって、装置は、少なくとも１つのメモリと、少なくとも１つのメモリに結合された１つまたは複数のプロセッサと、を備え、１つまたは複数のプロセッサは、深度センサによってキャプチャされた深度データを受信し、深度データは第１の視点からの環境の表現の三次元表現を含み、少なくとも深度データに基づいて、第１の視点から第２の視点への変化に対応する第１の複数の動きベクトルを判定し、画像センサによってキャプチャされた第１の画像データであって、第１の画像データは第３の視点からの環境を描写する、第１の画像データを受信し、第１の複数の動きベクトルに基づくグリッド反転を使用して、第３の視点から第４の視点への変化に対応する第２の複数の動きベクトルを判定し、第２の複数の動きベクトルに対応する第１の画像データを少なくとも部分的に修正することによって第２の画像データを生成し、第２の画像データは第４の視点からの環境を描写し、第２の画像データを出力する、ように構成される装置。

【0269】

態様２Ｂ．第２の画像データは、第１の時間と第３の時間との間の第２の時間に環境を描写するように構成される補間画像を含み、第１の画像データは、第１の時間における環境を描写する第１の画像と、第３の時間における環境を描写する第２の画像とを含む、態様１Ｂに記載の装置。

【0270】

態様３Ｂ．第１の画像データは、視差移動を含むビデオデータを含み、第２の画像データは、視差移動のないビデオデータの安定化された変形を含む、態様１Ｂから２Ｂのいずれか一項に記載の装置。

【0271】

態様４Ｂ．第１の画像データは、第１の角度から画像センサを見ている人物を含み描写し、第２の画像データは、第１の角度とは異なる第２の角度から画像センサを見ている人物を含み描写する、態様１Ｂから３Ｂのいずれか一項に記載の装置。

【0272】

態様５Ｂ．第４の視点は第１の視点である、態様１Ｂから４Ｂのいずれか一項に記載の装置。

【0273】

態様６Ｂ．第４の視点は第２の視点である、態様１Ｂから５Ｂのいずれか一項に記載の装置。

【0274】

態様７Ｂ．第１の視点から第２の視点への変化は、角度に従った視点の回転を含み、第３の視点から第４の視点への変化は、角度に従った視点の回転を含む、態様１Ｂから６Ｂのいずれか一項に記載の装置。

【0275】

態様８Ｂ．第１の視点から第２の視点への変化は、ある方向および距離に従った視点の並進を含み、第３の視点から第４の視点への変化は、その方向および距離に従った視点の並進を含む、態様１Ｂから７Ｂのいずれか一項に記載の装置。

【0276】

態様９Ｂ．第１の視点から第２の視点への変化は変換を含み、第３の視点から第４の視点への変化は変換を含む、態様１Ｂから８Ｂのいずれか一項に記載の装置。

【0277】

態様１０Ｂ．１つまたは複数のプロセッサは、第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて第２の画像データ内の１つまたは複数のギャップを識別し、第２の画像データを出力する前に補間を使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正するように構成される、態様１Ｂから９Ｂのいずれか一項に記載の装置。

【0278】

態様１１Ｂ．１つまたは複数のプロセッサは、第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて第２の画像データ内の１つまたは複数のオクルージョン領域を識別し、第２の画像データを出力する前にインペインティングを使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正するように構成される、態様１Ｂから１０Ｂのいずれか一項に記載の装置。

【0279】

態様１２Ｂ．画像処理のための方法であって、方法は、深度センサによってキャプチャされた深度データであって、深度データは、第１の視点方の環境の三次元表現を含む、深度データを受信することと、少なくとも深度データに基づいて、第１の視点から第２の視点への変化に対応する第１の複数の動きベクトルを判定することと、画像センサによってキャプチャされた第１の画像データであって、第１の画像データは、第３の視点からの環境を描写する、第１の画像データを受信することと、第１の複数の動きベクトルに基づくグリッド反転を使用して、第３の視点から第４の視点への変化に対応する第２の複数の動きベクトルを判定することと、第２の複数の動きベクトルに対応する第１の画像データを少なくとも部分的に修正することによって第２の画像データであって、第２の画像データは、第４の視点からの環境を描写する、第２の画像データを生成することと、第２の画像データを出力することと、を含む方法。

【0280】

態様１３Ｂ．第２の画像データは、第１の時間と第３の時間との間の第２の時間に環境を描写するように構成される補間画像を含み、第１の画像データは、第１の時間における環境を描写する第１の画像と、第３の時間における環境を描写する第２の画像とを含む、態様１２Ｂに記載の方法。

【0281】

態様１４Ｂ．第１の画像データは、視差移動を含むビデオデータを含み、第２の画像データは、視差移動のないビデオデータの安定化された変形を含む、態様１２Ｂから１３Ｂのいずれか一項に記載の方法。

【0282】

態様１５Ｂ．第１の画像データは、第１の角度から画像センサを見ている人物を含み描写し、第２の画像データは、第１の角度とは異なる第２の角度から画像センサを見ている人物を含み描写する、態様１２Ｂから１４Ｂのいずれか一項に記載の方法。

【0283】

態様１６Ｂ．第４の視点は第１の視点である、態様１２Ｂから１５ＢＢのいずれか一項に記載の方法。

【0284】

態様１７Ｂ．第４の視点は第２の視点である、態様１２Ｂから１６Ｂのいずれか一項に記載の方法。

【0285】

態様１８Ｂ．第１の視点から第２の視点への変化は、角度に従った視点の回転を含み、第３の視点から第４の視点への変化は、角度に従った視点の回転を含む、態様１２Ｂから１７Ｂのいずれか一項に記載の方法。

【0286】

態様１９Ｂ．第１の視点から第２の視点への変化は、ある方向および距離に従った視点の並進を含み、第３の視点から第４の視点への変化は、その方向および距離に従った視点の並進を含む、態様１２Ｂから１８Ｂのいずれか一項に記載の方法。

【0287】

態様２０Ｂ．第１の視点から第２の視点への変化は変換を含み、第３の視点から第４の視点への変化は変換を含む、態様１２Ｂから１９Ｂのいずれか一項に記載の方法。

【0288】

態様２１Ｂ．第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて第２の画像データ内の１つまたは複数のギャップを識別することと、第２の画像データを出力する前に補間を使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正することと、をさらに含む、態様１２Ｂから２０Ｂのいずれか一項に記載の方法。

【0289】

態様２２Ｂ．第２の複数の動きベクトル内の１つまたは複数のギャップに基づいて第２の画像データ内の１つまたは複数のオクルージョン領域を識別することと、第２の画像データを出力する前にインペインティングを使用して第２の画像データ内の１つまたは複数のギャップを少なくとも部分的に埋めることによって第２の画像データを修正することと、をさらに含む、態様１２Ｂから２１Ｂのいずれか一項に記載の方法。

【0290】

態様２３Ｂ．１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに、態様１Ｂから２２Ｂのいずれか一項に記載の動作を実行させる命令を記憶した、非一時的コンピュータ可読媒体。

【0291】

態様２４Ｂ．画像処理のための装置であって、態様１Ｂから２２Ｂのいずれか一項に記載の動作を実行するための１つまたは複数の手段を備える装置。

【図1】