IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特表2022-514246写真-ビデオベースの時空間ボリュメトリックキャプチャシステム
<>
  • 特表-写真-ビデオベースの時空間ボリュメトリックキャプチャシステム 図1
  • 特表-写真-ビデオベースの時空間ボリュメトリックキャプチャシステム 図2
  • 特表-写真-ビデオベースの時空間ボリュメトリックキャプチャシステム 図3
  • 特表-写真-ビデオベースの時空間ボリュメトリックキャプチャシステム 図4
  • 特表-写真-ビデオベースの時空間ボリュメトリックキャプチャシステム 図5
  • 特表-写真-ビデオベースの時空間ボリュメトリックキャプチャシステム 図6
  • 特表-写真-ビデオベースの時空間ボリュメトリックキャプチャシステム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-02-10
(54)【発明の名称】写真-ビデオベースの時空間ボリュメトリックキャプチャシステム
(51)【国際特許分類】
   H04N 5/232 20060101AFI20220203BHJP
   G06T 7/20 20170101ALI20220203BHJP
   G06T 13/40 20110101ALI20220203BHJP
   G06T 15/04 20110101ALI20220203BHJP
   G06T 17/00 20060101ALI20220203BHJP
【FI】
H04N5/232 290
G06T7/20 300B
G06T13/40
G06T15/04
G06T17/00
H04N5/232 190
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021534140
(86)(22)【出願日】2019-12-20
(85)【翻訳文提出日】2021-06-14
(86)【国際出願番号】 US2019068151
(87)【国際公開番号】W WO2020132631
(87)【国際公開日】2020-06-25
(31)【優先権主張番号】62/782,862
(32)【優先日】2018-12-20
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100092093
【弁理士】
【氏名又は名称】辻居 幸一
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100109335
【弁理士】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(72)【発明者】
【氏名】タシロ ケンジ
(72)【発明者】
【氏名】リー チュエン-チェン
(72)【発明者】
【氏名】ジャン チン
【テーマコード(参考)】
5B050
5B080
5C122
5L096
【Fターム(参考)】
5B050AA08
5B050AA09
5B050BA08
5B050BA09
5B050BA12
5B050CA01
5B050DA07
5B050EA24
5B050EA26
5B050FA02
5B080AA17
5B080CA00
5B080GA22
5C122DA02
5C122EA01
5C122FA06
5C122FA18
5C122FH11
5C122FH12
5C122HA36
5C122HA89
5C122HB01
5C122HB02
5L096AA09
5L096CA05
5L096HA02
(57)【要約】
写真-ビデオベースの時空間ボリュメトリックキャプチャシステムが、一連の高フレームレートのマシンビジョンビデオカメラを一連の高解像度写真カメラと組み合わせることによって、2つの別個の3D及び4Dスキャナシステムを必要とせずに高フレームレートかつ高解像度の4D動的人間ビデオをより効率的に生成する。このシステムは、マシンビジョンカメラ及び写真カメラの両方を使用して再構成された時間的に疎な一連の高解像度の3Dスキャンされたキーフレームから、4Dスキャンされたビデオデータの形状及びテクスチャ解像度を時間的にアップサンプリングすることよって、手動CG作業の必要性を低減する。初期化時に単一の静的テンプレートモデル(例えば、A又はTポーズ)を使用する典型的な動作キャプチャシステムとは異なり、この写真-ビデオベースの時空間ボリュメトリックキャプチャシステムは、4Dスキャンされたビデオシーケンスのロバストで動的な形状及びテクスチャ精緻化のために、高解像度の3Dテンプレートモデルの複数のキーフレームを記憶する。システムは、形状アップサンプリングのために、メッシュ追跡ベースの時間形状超解像を適用することができる。システムは、テクスチャアップサンプリングのために、機械学習ベースの時間テクスチャ超解像を適用することができる。
【選択図】 図1
【特許請求の範囲】
【請求項1】
1又は2以上の写真カメラ及び1又は2以上のビデオカメラを使用してコンテンツを取り込むステップと、
装置を使用して、前記1又は2以上の写真カメラ及び前記1又は2以上のビデオカメラをトリガして1又は2以上のキーフレームを取得するステップと、
前記装置を使用して、前記取り込まれたコンテンツ及び前記1又は2以上のキーフレームに基づいて1又は2以上のモデルを生成するステップと、
を含むことを特徴とする方法。
【請求項2】
前記コンテンツを取り込むステップは、動的顔表情及び/又は動的身体動作を取り込むステップを含む、
請求項1に記載の方法。
【請求項3】
トリガするステップは、トリガタイミングを利用して前記1又は2以上の写真カメラ及び前記1又は2以上のビデオカメラへのトリガを同時に生成するステップを含む、
請求項1に記載の方法。
【請求項4】
前記1又は2以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、
請求項3に記載の方法。
【請求項5】
前記1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む、
請求項3に記載の方法。
【請求項6】
前記1又は2以上の写真カメラのトリガタイミングは、前記装置、前記1又は2以上の写真カメラ、及び/又は前記1又は2以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む、
請求項3に記載の方法。
【請求項7】
前記1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、前記1又は2以上の写真カメラ及び前記1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける3Dスキャンされた高解像度のテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される、
請求項1に記載の方法。
【請求項8】
前記1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、
請求項1に記載の方法。
【請求項9】
前記顔表情及び身体動作を含む前記コンテンツ及び前記1又は2以上のモデルを使用してコンピュータグラフィックスを生成するステップをさらに含み、前記コンピュータグラフィックスを生成するステップは、前記コンテンツのキーフレーム及び前記コンテンツの非キーフレームを利用して前記キーフレーム間で遷移するステップを含む、
請求項1に記載の方法。
【請求項10】
1又は2以上の写真カメラ及び1又は2以上のビデオカメラにトリガ信号が送信されるトリガリングを実行して1又は2以上のキーフレームを取得し、
前記1又は2以上の写真カメラ及び前記1又は2以上のビデオカメラから取り込まれた前記1又は2以上のキーフレーム及びコンテンツに基づいて1又は2以上のモデルを生成する、
ためのアプリケーションを記憶する非一時的メモリと、
前記メモリに結合されて、前記アプリケーションを処理するように構成されたプロセッサと、
を備えることを特徴とする装置。
【請求項11】
トリガリングは、トリガタイミングを利用して、前記1又は2以上の写真カメラ及び前記1又は2以上のビデオカメラへのトリガを同時に生成することを含む、
請求項10に記載の装置。
【請求項12】
前記1又は2以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、
請求項11に記載の装置。
【請求項13】
前記1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む、
請求項11に記載の装置。
【請求項14】
前記1又は2以上の写真カメラのトリガタイミングは、前記装置、前記1又は2以上の写真カメラ、及び/又は前記1又は2以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む、
請求項11に記載の装置。
【請求項15】
前記1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、前記1又は2以上の写真カメラ及び前記1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の3Dスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される、
請求項10に記載の装置。
【請求項16】
前記1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、
請求項10に記載の装置。
【請求項17】
前記アプリケーションは、前記顔表情及び身体動作を含む前記コンテンツ及び前記1又は2以上のモデルを使用してコンピュータグラフィックスを生成するようにさらに構成され、前記コンピュータグラフィックスを生成することは、前記コンテンツのキーフレーム及び前記コンテンツの非キーフレームを利用して前記キーフレーム間で遷移することを含む、
請求項10に記載の装置。
【請求項18】
被写体の画像コンテンツを取り込むように構成された第1の装置の組と、
前記被写体のビデオコンテンツを取り込むように構成された第2の装置の組と、
コンピュータ装置と、
を備え、前記コンピュータ装置は、
トリガリングを実行して、前記画像コンテンツ及び前記ビデオコンテンツに基づく1又は2以上のキーフレームを取得し、
前記画像コンテンツ及び前記ビデオコンテンツ及び前記1又は2以上のキーフレームに基づいて1又は2以上のモデルを生成する、
ように構成される、
ことを特徴とするシステム。
【請求項19】
前記コンテンツを取り込むことは、顔表情及び/又は身体動作を取り込むことを含む、
請求項18に記載のシステム。
【請求項20】
トリガリングは、トリガタイミングを利用して、前記1又は2以上の写真カメラ及び前記1又は2以上のビデオカメラへのトリガを同時に生成することを含む、
請求項18に記載のシステム。
【請求項21】
前記1又は2以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、
請求項20に記載のシステム。
【請求項22】
前記1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む、
請求項20に記載のシステム。
【請求項23】
前記1又は2以上の写真カメラのトリガタイミングは、前記コンピュータ装置、前記第1の装置の組、及び/又は前記第2の装置の組によって特定の顔表情又は身体表現を自動的に検出することを含む、
請求項20に記載のシステム。
【請求項24】
前記1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、前記1又は2以上の写真カメラ及び前記1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の3Dスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される、
請求項18に記載のシステム。
【請求項25】
前記1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、
請求項18に記載のシステム。
【請求項26】
前記コンピュータ装置は、顔表情及び身体動作を含む前記画像コンテンツ及び前記ビデオコンテンツ及び前記1又は2以上のモデルを使用してコンピュータグラフィックスを生成するようにさらに構成され、前記コンピュータグラフィックスを生成することは、前記コンテンツのキーフレーム及び前記コンテンツの非キーフレームを利用して前記キーフレーム間で遷移することを含む、
請求項18に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願との相互参照〕
本出願は、2018年12月20日に出願された「アルベド対応の仮想人間デジタル化、3D CGモデリング及び自然再現映像のための時間効率の良いビデオベースの顔及び身体キャプチャシステム(TIME EFFICIENT VIDEO-BASED FACE AND BODY CAPTURE SYSTEM FOR ALBEDO-READY VIRTUAL HUMAN DIGITIZATION, 3D CG MODELING AND NATURAL REENACTMENT)」という名称の米国仮特許出願第62/782,862号の米国特許法第119条に基づく優先権を主張するものであり、この文献は全体が全ての目的で引用により本明細書に組み入れられる。
【0002】
本発明は、娯楽産業のための3次元コンピュータビジョン及びグラフィックスに関する。具体的には、本発明は、映画、TV、音楽及びゲームコンテンツ生成のために3次元コンピュータビジョン及びグラフィックスを取得して処理することに関する。
【背景技術】
【0003】
映画/TV業界では、物理的キャストが製作費の大部分である。さらに、物理的キャストの使用時には、負傷/事故による製作遅延のリスク、並びに移動のための複雑な手配及び調整の必要性がある。最近の傾向では、仮想製作物のためのデジタルヒューマンキャストの使用増加が示されている。デジタルキャストは、実際のキャストに危険なスタントアクションを行わせることなく人間能力を超えたスーパーヒーローアクションを可能にする。しかしながら、このようなVFXは高コストで時間が掛かり、高予算の続編映画又はTV番組にしか余裕がない。
【0004】
ゲーム業界では、リアルなゲームプレイユーザ体験の追求が続いている。過去10年間で、ゲーム製作費は10倍増加した。2020年には、平均的なAAAゲームの製作費は、映画予算と同様の推定2億5000万ドルに達する予定である。リアルなゲームプレイユーザ体験の最も大きな課題は、妥当な時間/コスト予算内でリアルなゲームキャラクタを製作することである。仮想人間製作は非常に手動的であり、時間が掛かり、高価である。一例として、1キャラクタ当たり8万ドル~15万ドルのコストが掛かり、複数のキャラクタでは容易に数百万ドルに上ってしまう。
【0005】
CGアートワークをゼロから手作りするのではなく、マルチビューカメラ3D/4Dスキャナによってリアルなデジタル人間モデルを効率的に製作することが最近の傾向である。カメラ取り込みベースの人間デジタル化(camera captured based human digitization)のための様々な3Dスキャナスタジオ(3Lateral、Avatta、TEN24、Pixel Light Effect、Eisko)及び4Dスキャナスタジオ(4DViews、Microsoft、8i、DGene)が世界規模で存在する。
【発明の概要】
【発明が解決しようとする課題】
【0006】
写真ベースの3Dスキャナスタジオは、複数の高解像度写真カメラ配列から成る。3Dスキャナスタジオは、自然な表面動特性を取り込むことができないので、通常はアニメーションのために手動CG作業を必要とする。ビデオベースの4Dスキャナ(4D=3D+時間)スタジオは、複数の高フレームレートマシンビジョンカメラ配列から成る。4Dスキャナスタジオは、自然な表面動特性を取り込むが、ビデオカメラの解像度によって忠実度が制限される。
【課題を解決するための手段】
【0007】
写真-ビデオベースの時空間ボリュメトリックキャプチャシステムは、初期化時の単一の静的テンプレートモデル(例えば、A又はTポーズ)ではなくさらに低いフレームレートで人間の動特性を取り込む時間的に疎な一連の高解像度の3Dスキャンされたキーフレームから、4Dスキャンされたビデオデータの解像度を時間的にアップサンプリングすることよって、2つの別個の3D及び4Dスキャナシステムを必要とせずに高フレームレートかつ高解像度の4D動的人間ビデオをより効率的に生成し、手動CG作業の必要性を低減する。また、トリガを利用することによって、低解像度マルチビュービデオが一般に高フレームレートで取り込まれるが、ビデオと同時に低フレームレートではあるが高解像度マルチビュー写真カメラが取り込まれるようにビデオ取得が最適化される。低フレームレートで同時にトリガされる写真カメラ及びビデオカメラの両方を使用して再構成された高解像度の3Dスキャンモデルとしてキーフレームが定められる。
【0008】
1つの態様では、方法が、1又は2以上の写真カメラ及び1又は2以上のビデオカメラを使用してコンテンツを取り込むステップと、装置を使用して、1又は2以上の写真カメラ及び1又は2以上のビデオカメラをトリガして1又は2以上のキーフレームを取得するステップと、装置を使用して、取り込まれたコンテンツ及び1又は2以上のキーフレームに基づいて1又は2以上のモデルを生成するステップとを含む。コンテンツを取り込むステップは、顔表情及び/又は身体動作を取り込むステップを含む。トリガするステップは、トリガタイミングを利用して1又は2以上の写真カメラ及び1又は2以上のビデオカメラへのトリガを同時に生成するステップを含む。1又は2以上の写真カメラのトリガタイミングは周期的トリガリングを含む。1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む。1又は2以上の写真カメラのトリガタイミングは、装置、1又は2以上の写真カメラ、及び/又は1又は2以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む。1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、1又は2以上の写真カメラ及び1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける3Dスキャンされた高解像度のテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンス(volumetric sequence)に対して、メッシュ追跡ベースの時間形状超解像(mesh-tracking based temporal shape super-resolution)を実行するために使用される。1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される。方法は、顔表情及び身体動作を含むコンテンツ及び1又は2以上のモデルを使用してコンピュータグラフィックスを生成するステップをさらに含み、コンピュータグラフィックスを生成するステップは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移するステップを含む。
【0009】
別の態様では、装置が、1又は2以上の写真カメラ及び1又は2以上のビデオカメラにトリガ信号が送信されるトリガリングを実行して1又は2以上のキーフレームを取得し、1又は2以上の写真カメラ及び1又は2以上のビデオカメラから取り込まれた1又は2以上のキーフレーム及びコンテンツに基づいて1又は2以上のモデルを生成するためのアプリケーションを記憶する非一時的メモリと、メモリに結合されて、アプリケーションを処理するように構成されたプロセッサとを備える。トリガリングは、トリガタイミングを利用して、1又は2以上の写真カメラ及び1又は2以上のビデオカメラへのトリガを同時に生成することを含む。1又は2以上の写真カメラのトリガタイミングは周期的トリガリングを含む。1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む。1又は2以上の写真カメラのトリガタイミングは、装置、1又は2以上の写真カメラ、及び/又は1又は2以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む。1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、1又は2以上の写真カメラ及び1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の3Dスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される。1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される。アプリケーションは、顔表情及び身体動作を含むコンテンツ及び1又は2以上のモデルを使用してコンピュータグラフィックスを生成するようにさらに構成され、コンピュータグラフィックスを生成することは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移することを含む。
【0010】
別の態様では、システムが、被写体の画像コンテンツを取り込むように構成された第1の装置の組と、被写体のビデオコンテンツを取り込むように構成された第2の装置の組と、コンピュータ装置とを備え、コンピュータ装置は、トリガリングを実行して、画像コンテンツ及びビデオコンテンツに基づく1又は2以上のキーフレームを取得し、画像コンテンツ及びビデオコンテンツ及び1又は2以上のキーフレームに基づいて1又は2以上のモデルを生成するように構成される。コンテンツを取り込むことは、顔表情及び/又は身体動作を取り込むことを含む。トリガリングは、トリガタイミングを利用して、1又は2以上の写真カメラ及び1又は2以上のビデオカメラへのトリガを同時に生成することを含む。1又は2以上の写真カメラのトリガタイミングは周期的トリガリングを含む。1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む。1又は2以上の写真カメラのトリガタイミングは、コンピュータ装置、第1の装置の組、及び/又は第2の装置の組によって特定の顔表情又は身体表現を自動的に検出することを含む。1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、1又は2以上の写真カメラ及び1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の3Dスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される。1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される。コンピュータ装置は、顔表情及び身体動作を含む画像コンテンツ及びビデオコンテンツ及び1又は2以上のモデルを使用してコンピュータグラフィックスを生成するようにさらに構成され、コンピュータグラフィックスを生成することは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移することを含む。
【図面の簡単な説明】
【0011】
図1】いくつかの実施形態による顔キャプチャシステム及び身体キャプチャシステムの図である。
図2】いくつかの実施形態によるトリガリング機構の図である。
図3】いくつかの実施形態によるメッシュ追跡の図である。
図4】いくつかの実施形態によるメッシュ追跡ベースの時間形状超解像の図である。
図5】いくつかの実施形態による機械学習ベースのテクスチャ超解像の図である。
図6】いくつかの実施形態による、時間効率の良いビデオベースのフレームレートキャプチャシステムの実装方法のフローチャートである。
図7】いくつかの実施形態による、写真-ビデオベースの時空間ボリュメトリックキャプチャシステムを実装するように構成された例示的なコンピュータ装置のブロック図である。
【発明を実施するための形態】
【0012】
時間効率が高いにもかかわらずフォトリアリスティックな3D顔及び身体キャプチャシステムが必要である。上述したように、1つの課題は、時間の掛かる写真画像ベースの3Dキャプチャシステム、及び結果として得られるモデル化とアニメーションとのパイプラインである。通常、被写体は、例えばカメラ及び様々な光の方向にわたって被写体の不自然な顔/身体表現を強要する様々な条件下でのスイーピング中に、顔の表情(又は身体のポーズ)毎に静止した状態を保つ。被写体は、様々な(例えば、>10の)顔表情又は身体ポーズにわたってこれを繰り返す。通常、最先端の顔取り込み光段階(face capture light stage)は、顔の表情毎に~20分の取り込み時間を必要とする。全てのデータが取り込まれると、CGアニメータが静的モデルを表情毎に整理して再メッシュし、アニメーションのためのFACS(顔面動作符号化システム(Face Action Coding System))ベースの動的アニメーション可能モデルを作成する。表情間の遷移は3Dスキャナによって取り込まれないので、通常、CGアニメータは詳細な表面動特性を手動で手作りし、通常はこのワークフローに数ヶ月掛かる。4Dスキャナは、アニメータの参照として使用されることが多いが、マシンビジョンビデオベースの4Dスキャナの解像度の限界に起因して、通常はFACSモデリングパイプラインで使用することができない。
【0013】
図1は、いくつかの実施形態による顔キャプチャシステム及び身体キャプチャシステムの図である。1又は2以上の写真カメラ100が画像を取得する。1又は2以上の写真カメラ100は、マルチビュー高解像度(例えば、42メガピクセル)写真カメラ(例えば、DSLRカメラ)とすることができるが、通常はフレームレートが制限される(例えば、2fps)。1又は2以上のビデオカメラ120がビデオ情報を取得する。1又は2以上のビデオカメラは、マルチビュー高フレームレートマシンビジョンカメラ(例えば、60fps)とすることができるが、解像度が制限される(例えば、8メガピクセル)。例えば、1又は2以上の写真カメラ100及び1又は2以上のビデオカメラ102は人物の画像及びビデオを取得し、ビデオは様々な顔の表情及び身体の動きを含む。
【0014】
写真カメラ及びビデオ(マシンビジョン)カメラへのトリガを同時に生成するためにトリガ機構104が実装される。トリガ機構104は、1又は2以上の写真カメラ100、1又は2以上のビデオカメラ102及び/又は1又は2以上のコンピュータ装置106に記憶されたアプリケーションなどにいずれかの方法で実装することができる。トリガ機構104が1又は2以上のコンピュータ装置106によって制御されるいくつかの実施形態では、トリガ機構104が、ビデオカメラのトリガ速度の方が高く維持された状態でマルチビュー写真カメラ100及びビデオカメラ102に同時にトリガを送信する(例えば、写真カメラでは2fps、ビデオカメラでは60fps)。
【0015】
いくつかの実施形態では、写真カメラ及びビデオカメラが両方同時にトリガされた時のフレームとしてキーフレームが定められ、従って高解像度の3Dテンプレートモデルが再構成される。他のフレームは、解像度の低いビデオカメラのみがトリガされた時の非キーフレームとして定められ、従って再構成される4Dモデルは、高解像度の3Dテンプレートキーフレームを使用してアップサンプリングされる。
【0016】
写真カメラのトリガタイミングは、1)周期的(例えば、2fps):ビデオベースの低解像度の4Dスキャンされたボリュメトリックシーケンス(例えば、60fps)を高解像度の3Dスキャンされたキーフレーム間でアップサンプリングするため、2)半自動:人間の観察者が特定の顔表情又は身体表現を検出する場合、及び3)自動:コンピュータ装置、1又は2以上の写真カメラ、及び/又は1又は2以上のビデオカメラによって(例えば、テンプレートマッチング、又は表現を検出するための他のいずれかの機構を使用して)特定の顔表情又は身体表現が検出される場合、という3つの使用事例を含む。
【0017】
1又は2以上のコンピュータ装置106は、取り込み処理を開始して、1又は2以上の写真カメラ100及び1又は2以上のビデオカメラ102から一連の画像/ビデオを取得する。画像/ビデオ情報は、1又は2以上のコンピュータ装置106において受け取られ、及び/又はこれらの1又は2以上のコンピュータ装置106に送信され、ここでビデオ情報が処理される。例えば、1又は2以上のコンピュータ装置106は、ビデオ情報を処理してCGコンテンツを生成する(例えば、モデリングを実行する)。
【0018】
システムは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、複数の高解像度の3Dスキャンされたテンプレートキーフレームモデルを使用して、写真カメラ100及びビデオカメラ102の両方によって取り込まれた複数のキーフレームにおける高解像度の3Dテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像(アップサンプリング)を実行することができる。システムは、複数のキーフレームにおいて同時にトリガされて取り込まれた高解像度及び低解像度UVテクスチャペア(マルチビュー写真カメラ100からの高解像度テクスチャ及びマルチビュービデオカメラ102からの低解像度テクスチャ)を訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像(アップサンプリング)を実行することもできる。
【0019】
図2は、いくつかの実施形態によるトリガリング機構の図である。上述したように、キーフレーム200は、写真カメラ及びビデオカメラが両方同時にトリガされた時のものであり、従って高解像度の3Dテンプレートモデルが再構成される。非キーフレーム202は、低解像度のビデオカメラのみがトリガされた時のものであり、従って再構成された4Dモデルは精緻化のためにアップサンプリングされる。非キーフレームは、1)メッシュ追跡ベースの時間形状超解像、及び2)機械学習ベースの時間テクスチャ超解像、を適用することによってキーフレームを使用して時間的にアップサンプリングされるように意図された低解像度のボリュメトリックシーケンスを含む。
【0020】
キーフレームでは、高解像度の3Dテンプレートモデルが再構成される。高解像度の形状再構成は、マルチビュー写真カメラ及びマシンビジョンカメラの両方を使用して実現される。機械学習ベースのテクスチャ超解像のための訓練データセットとして、高解像度及び低解像度UVテクスチャペアが使用される。
【0021】
写真カメラのトリガタイミングは、以下の3つの使用事例を含む。
周期的(例えば、2fps):ビデオベースの低解像度のボリュメトリックシーケンス(例えば、60fps)をキーフレーム間でアップサンプリングするため、
半自動:人間の観察者が特定の顔表情又は身体表現を検出する場合、
自動:特定の顔表情又は身体表現が検出される場合。
【0022】
図3は、いくつかの実施形態によるメッシュ追跡の図である。メッシュ追跡は、時間内に一貫してメッシュトポロジを位置合わせすることを伴う。
【0023】
図4は、いくつかの実施形態によるメッシュ追跡ベースの時間形状超解像の図である。
【0024】
図4の左側には、単一のテンプレートベースの動作取り込みを示す。詳細な表面動特性のロバストなアップサンプリングは存在しない。3Dスキャン及び4Dスキャンという2つの異なる段階が存在する。
【0025】
図4の右側には、詳細な表面動特性にロバストに適合するマルチキーフレームベースの形状超解像を示す。シーケンス内では、4Dスキャナが複数の3Dテンプレートと組み合わさっている。
【0026】
図5は、いくつかの実施形態による機械学習ベースのテクスチャ超解像の図である。
【0027】
図5の左側には、単一のテンプレートベースの動作取り込みを示す。追跡されたメッシュに基づく単一のテンプレートからの一定のテクスチャが存在する。
【0028】
図5の右側には、テクスチャ変更に適合してシーケンス内で複数のキーフレームテクスチャ訓練データセットを使用する機械学習ベースのテクスチャ超解像を示す。
【0029】
図6は、いくつかの実施形態による、写真-ビデオベースの時空間ボリュメトリックキャプチャシステムの実装方法のフローチャートである。ステップ600において、1又は2以上のビデオカメラ及び1又は2以上の写真カメラを使用して、顔表情及び身体動作を含むコンテンツ(例えば、画像/ビデオコンテンツ)を取り込む。ステップ602において、トリガリングを実行して1又は2以上のキーフレームを取得する。トリガリングは、写真カメラ及びビデオカメラに対して同時にトリガを生成することを含む。写真カメラのトリガタイミングは、1)周期的(例えば、2fps):低解像度のビデオベースの4Dスキャンされたボリュメトリックシーケンス(例えば、60fps)をキーフレームの高解像度の3Dスキャンされたテンプレートモデル間でアップサンプリングするため、2)半自動:人間の観察者が特定の顔表情又は身体表現を検出する場合、及び3)自動:コンピュータ装置によって(例えば、テンプレートマッチング、機械学習、及び/又は表現を検出するための他のいずれかの機構を使用して)特定の顔表情又は身体表現が検出される場合、という3つの使用事例を含む。ステップ604において、取得されたビデオを使用してコンテンツを生成する。例えば、取得されたコンテンツを使用して、映画又はその他のビデオ内にCGアバターを配置することができる。コンテンツの生成は、複数の高解像度テンプレートモデルを生成することを含むことができる。システムは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、複数の高解像度テンプレートモデルを使用して、写真カメラ及びビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度のテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像(アップサンプリング)を実行することができる。システムは、複数のキーフレームにおいて同時にトリガされて取り込まれた高解像度及び低解像度UVテクスチャペア(マルチビュー写真カメラからの高解像度テクスチャ及びマルチビュービデオカメラからの低解像度テクスチャ)を訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースのボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像(アップサンプリング)を実行することもできる。いくつかの実施形態では、これよりも少ない又はさらなるステップが実行される。いくつかの実施形態では、ステップの順序が変更される。
【0030】
図7は、いくつかの実施形態による、写真-ビデオベースの時空間ボリュメトリックキャプチャシステムを実装するように構成された例示的なコンピュータ装置のブロック図である。コンピュータ装置700は、3Dコンテンツを含む画像及びビデオなどの情報の取得、記憶、計算、処理、通信及び/又は表示のために使用することができる。コンピュータ装置700は、時間効率の良いビデオベースのフレームレートキャプチャシステムの態様のいずれかを実装することができる。一般に、コンピュータ装置700を実装するのに適したハードウェア構造は、ネットワークインターフェイス702、メモリ704、プロセッサ706、I/O装置708、バス710及び記憶装置712を含む。プロセッサの選択は、十分な速度の好適なプロセッサが選択される限り重要ではない。メモリ704は、当業で周知のいずれかの従来のコンピュータメモリとすることができる。記憶装置712は、ハードドライブ、CDROM、CDRW、DVD、DVDRW、高精細ディスク/ドライブ、ウルトラHDドライブ、フラッシュメモリカード、又はその他のいずれかの記憶装置を含むことができる。コンピュータ装置700は、1又は2以上のネットワークインターフェイス702を含むことができる。ネットワークインターフェイスの例としては、イーサネット又は他のタイプのLANに接続されたネットワークカードが挙げられる。(単複の)I/O装置708は、キーボード、マウス、モニタ、画面、プリンタ、モデム、タッチ画面、ボタンインターフェイス及びその他の装置のうちの1つ又は2つ以上を含むことができる。記憶装置712及びメモリ704には、写真-ビデオベースの時空間ボリュメトリックキャプチャシステムを実装するために使用される写真-ビデオベースの時空間ボリュメトリックキャプチャアプリケーション730が記憶されて、アプリケーションが通常処理されるように処理される可能性が高い。コンピュータ装置700には、図7に示すものよりも多くの又は少ないコンポーネントを含めることもできる。いくつかの実施形態では、写真-ビデオベースの時空間ボリュメトリックキャプチャハードウェア720が含まれる。図7のコンピュータ装置700は、写真-ビデオベースの時空間ボリュメトリックキャプチャシステムのためのアプリケーション730及びハードウェア720を含むが、写真-ビデオベースの時空間ボリュメトリックキャプチャシステムは、ハードウェア、ファームウェア、ソフトウェア、又はこれらのいずれかの組み合わせでコンピュータ装置上に実装することもできる。例えば、いくつかの実施形態では、写真-ビデオベースの時空間ボリュメトリックキャプチャアプリケーション730がメモリにプログラムされ、プロセッサを使用して実行される。別の例として、いくつかの実施形態では、写真-ビデオベースの時空間ボリュメトリックキャプチャハードウェア720が、写真-ビデオベースの時空間ボリュメトリックキャプチャシステムを実装するように特別に設計されたゲートを含むプログラムされたハードウェアロジックである。
【0031】
いくつかの実施形態では、(単複の)写真-ビデオベースの時空間ボリュメトリックキャプチャアプリケーション730が、複数のアプリケーション及び/又はモジュールを含む。いくつかの実施形態では、モジュールが1又は2以上のサブモジュールも含む。いくつかの実施形態では、これよりも少ない又はさらなるモジュールを含めることもできる。
【0032】
いくつかの実施形態では、写真-ビデオベースの時空間ボリュメトリックキャプチャハードウェア720が、レンズ、イメージセンサ及び/又は他のいずれかのカメラコンポーネントなどのカメラコンポーネントを含む。
【0033】
好適なコンピュータ装置の例としては、パーソナルコンピュータ、ラップトップコンピュータ、コンピュータワークステーション、サーバ、メインフレームコンピュータ、ハンドヘルドコンピュータ、携帯情報端末、セルラ/携帯電話機、スマート家電、ゲーム機、デジタルカメラ、デジタルカムコーダ、カメラ付き電話機、スマートホン、ポータブル音楽プレーヤ、タブレットコンピュータ、モバイル装置、ビデオプレーヤ、ビデオディスクライタ/プレーヤ(DVDライタ/プレーヤ、高精細ディスクライタ/プレーヤ、超高精細ディスクライタ/プレーヤなど)、テレビ、家庭用エンターテイメントシステム、拡張現実装置、仮想現実装置、スマートジュエリ(例えば、スマートウォッチ)、車両(例えば、自動走行車両)、又はその他のいずれかの好適なコンピュータ装置が挙げられる。
【0034】
本明細書で説明した写真-ビデオベースの時空間ボリュメトリックキャプチャシステムを利用するには、装置がトリガリングを使用して画像及びビデオコンテンツを取り込んでビデオコンテンツを取得する。写真-ビデオベースの時空間ボリュメトリックキャプチャシステムは、ユーザの支援を伴って、又はユーザの関与を伴わずに自動的に実行することができる。写真-ビデオベースの時空間ボリュメトリックシステムを実行するために、あらゆる数のカメラを利用することができる。
【0035】
動作中、写真-ビデオベースの時空間ボリュメトリックキャプチャシステムは、写真画像及びビデオを同時に取得して、写真カメラ及びビデオカメラの両方を使用して再構成された高解像度の3Dスキャンされたキーフレームテンプレートモデルから低解像度の4Dされたスキャンビデオをアップサンプリングすることによって、高フレームレートかつ高解像度の4Dスキャンされた人間の動的ボリュメトリックビデオを生成する。写真-ビデオベースの時空間ボリュメトリックキャプチャシステムは、オフライン形状及びテクスチャ超解像のためにシーケンス内で複数の高解像度テンプレートモデルを生成する。システムは、複数のキーフレーム高解像度テンプレートモデルを使用して、長い動作シーケンスにおける高解像度の表面動特性を復元するためのメッシュ追跡ベースの時間形状超解像を可能にする。典型的な動作キャプチャシステムは、単一のテンプレート(例えば、Aポーズ)から表面動特性(例えば、衣服)を復元するという限られた能力を有する。本明細書で説明するシステムは、高解像度及び低解像度UVテクスチャペアの複数のキーフレームデータセットを訓練のために提供することができる。
【0036】
動的4D人間の顔及び身体デジタル化のための写真-ビデオベースの時空間ボリュメトリックキャプチャシステムのいくつかの実施形態
1.1又は2以上の写真カメラ及び1又は2以上のビデオカメラを使用してコンテンツを取り込むステップと、装置を使用して、1又は2以上の写真カメラ及び1又は2以上のビデオカメラをトリガして1又は2以上のキーフレームを取得するステップと、装置を使用して、取り込まれたコンテンツ及び1又は2以上のキーフレームに基づいて1又は2以上のモデルを生成するステップと、を含む方法。
【0037】
2.コンテンツを取り込むステップは、顔表情及び/又は身体動作を取り込むステップを含む、条項1に記載の方法。
【0038】
3.トリガするステップは、トリガタイミングを利用して1又は2以上の写真カメラ及び1又は2以上のビデオカメラへのトリガを同時に生成するステップを含む、条項1に記載の方法。
【0039】
4.1又は2以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、条項3に記載の方法。
【0040】
5.1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む、条項3に記載の方法。
【0041】
6.1又は2以上の写真カメラのトリガタイミングは、装置、1又は2以上の写真カメラ、及び/又は1又は2以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む、条項3に記載の方法。
【0042】
7.1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、1又は2以上の写真カメラ及び1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける3Dスキャンされた高解像度のテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される、条項1に記載の方法。
【0043】
8.1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、条項1に記載の方法。
【0044】
9.顔表情及び身体動作を含むコンテンツ及び1又は2以上のモデルを使用してコンピュータグラフィックスを生成するステップをさらに含み、コンピュータグラフィックスを生成するステップは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移するステップを含む、条項1に記載の方法。
【0045】
10.1又は2以上の写真カメラ及び1又は2以上のビデオカメラにトリガ信号が送信されるトリガリングを実行して1又は2以上のキーフレームを取得し、1又は2以上の写真カメラ及び1又は2以上のビデオカメラから取り込まれた1又は2以上のキーフレーム及びコンテンツに基づいて1又は2以上のモデルを生成する、ためのアプリケーションを記憶する非一時的メモリと、メモリに結合されて、アプリケーションを処理するように構成されたプロセッサと、を備える装置。
【0046】
11.トリガリングは、トリガタイミングを利用して、1又は2以上の写真カメラ及び1又は2以上のビデオカメラへのトリガを同時に生成することを含む、条項10に記載の装置。
【0047】
12.1又は2以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、条項11に記載の装置。
【0048】
13.1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む、条項11に記載の装置。
【0049】
14.1又は2以上の写真カメラのトリガタイミングは、装置、1又は2以上の写真カメラ、及び/又は1又は2以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む、条項11に記載の装置。
【0050】
15.1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、1又は2以上の写真カメラ及び1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の3Dスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される、条項10に記載の装置。
【0051】
16.1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、条項10に記載の装置。
【0052】
17.アプリケーションは、顔表情及び身体動作を含むコンテンツ及び1又は2以上のモデルを使用してコンピュータグラフィックスを生成するようにさらに構成され、コンピュータグラフィックスを生成することは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移することを含む、条項10に記載の装置。
【0053】
18.被写体の画像コンテンツを取り込むように構成された第1の装置の組と、被写体のビデオコンテンツを取り込むように構成された第2の装置の組と、コンピュータ装置と、を備え、コンピュータ装置は、トリガリングを実行して、画像コンテンツ及びビデオコンテンツに基づく1又は2以上のキーフレームを取得し、画像コンテンツ及びビデオコンテンツ及び1又は2以上のキーフレームに基づいて1又は2以上のモデルを生成する、ように構成される、システム。
【0054】
19.コンテンツを取り込むことは、顔表情及び/又は身体動作を取り込むことを含む、条項18に記載のシステム。
【0055】
20.トリガリングは、トリガタイミングを利用して、1又は2以上の写真カメラ及び1又は2以上のビデオカメラへのトリガを同時に生成することを含む、条項18に記載のシステム。
【0056】
21.1又は2以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、条項20に記載のシステム。
【0057】
22.1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む、条項20に記載のシステム。
【0058】
23.1又は2以上の写真カメラのトリガタイミングは、コンピュータ装置、第1の装置の組、及び/又は第2の装置の組によって特定の顔表情又は身体表現を自動的に検出することを含む、条項20に記載のシステム。
【0059】
24.1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、1又は2以上の写真カメラ及び1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の3Dスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される、条項18に記載のシステム。
【0060】
25.1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、条項18に記載のシステム。
【0061】
26.コンピュータ装置は、顔表情及び身体動作を含む画像コンテンツ及びビデオコンテンツ及び1又は2以上のモデルを使用してコンピュータグラフィックスを生成するようにさらに構成され、コンピュータグラフィックスを生成することは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移することを含む、条項18に記載のシステム。
【符号の説明】
【0062】
100 写真カメラ
102 ビデオカメラ
104 トリガ機構
106 コンピュータ装置
図1
図2
図3
図4
図5
図6
図7
【国際調査報告】