(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-26
(54)【発明の名称】イメージ・ソースからのボリュメトリック・ビデオ
(51)【国際特許分類】
G06T 17/00 20060101AFI20240119BHJP
G06T 15/00 20110101ALI20240119BHJP
G06N 3/045 20230101ALI20240119BHJP
G06N 3/094 20230101ALI20240119BHJP
G06N 3/0475 20230101ALI20240119BHJP
【FI】
G06T17/00
G06T15/00
G06N3/045
G06N3/094
G06N3/0475
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2023539970
(86)(22)【出願日】2022-01-11
(85)【翻訳文提出日】2023-08-24
(86)【国際出願番号】 IL2022050046
(87)【国際公開番号】W WO2022149148
(87)【国際公開日】2022-07-14
(32)【優先日】2021-01-11
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522382624
【氏名又は名称】ユーム.コム リミテッド
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100161908
【氏名又は名称】藤木 依子
(72)【発明者】
【氏名】カガルリツキー,フセヴォロド
(72)【発明者】
【氏名】ケイナン,シャーリー
(72)【発明者】
【氏名】グリーン,アミール
(72)【発明者】
【氏名】バルーク,ヤイル
(72)【発明者】
【氏名】レブ,ロイ
(72)【発明者】
【氏名】バーンボイム,マイケル
(72)【発明者】
【氏名】タミール,マイケル
【テーマコード(参考)】
5B080
【Fターム(参考)】
5B080AA20
5B080BA00
5B080GA22
(57)【要約】
1以上の生きた対象物を含む1以上の2Dイメージからの前記1以上の生きた対象物を含む1以上の3Dモデルを生成する方法は、1以上の2Dイメージをジオメトリ・ニューラル・ネットワークへ入力する工程、1以上の3Dモデルと前記1以上の2Dイメージとをテクスチャ・ニューラル・ネットワークへ入力する工程、2Dイメージをジオメトリ/テクスチャ・ニューラル・ネットワークへ入力する工程、前記1以上の2Dイメージから潜在空間表現を生成する工程、2Dイメージをテクスチャ・ニューラル・ネットワークへ入力する工程、3Dテクスチャ表現を生成する工程、潜在空間表現から3D対象物を生成する工程、1つの3D対象物と1つの3Dテクスチャ表現とを組み合わせてテクスチャ付き3D対象物とする工程、2Dイメージから潜在空間表現を生成する工程、潜在空間表現をジオメトリ/テクスチャ・ニューラル・ネットワークへ入力する工程、潜在空間表現からテクスチャ付き3Dモデルを生成する工程を含む。
【特許請求の範囲】
【請求項1】
少なくとも1つの生きている対象物が含まれる少なくとも1つの2Dイメージからの前記少なくとも1つの生きている対象物が含まれる少なくとも1つの3Dモデルを生成する方法であって、
少なくとも1つの2Dイメージを得るステップと、
以下のステップのセットのうちの少なくとも1つを実行するステップであって、
セット1は、
前記少なくとも1つの2Dイメージを、少なくとも1つの3Dモデルを前記少なくとも1つの2Dイメージから生成するジオメトリ・ニューラル・ネットワークへ、入力するステップと、
前記少なくとも1つの3Dモデルと前記少なくとも1つの2Dイメージとを、テクスチャが付加された少なくとも1つの3Dモデルを前記少なくとも1つの3Dモデルから生成するテクスチャ・ニューラル・ネットワークへ、入力するステップと
であり、
セット2は、
前記少なくとも1つの2Dイメージを、テクスチャが付加された少なくとも1つの3Dモデルを前記少なくとも1つの2Dイメージから生成するジオメトリ/テクスチャ・ニューラル・ネットワークへ、入力するステップ
であり、
セット3は、
前記少なくとも1つの2Dイメージから少なくとも1つの潜在空間表現を生成するステップと、
前記少なくとも1つの2Dイメージをテクスチャ・ニューラル・ネットワークへ入力し、少なくとも1つの3Dテクスチャ表現を生成するステップと、
前記少なくとも1つの潜在空間表現から少なくとも1つの3D対象物を生成するステップと、
前記少なくとも1つの3D対象物と前記少なくとも1つの3Dテクスチャ表現とを組み合わせて、テクスチャが付加された少なくとも1つの3D対象物を生成するステップと
であり、
セット4は、
前記少なくとも1つの2Dイメージから少なくとも1つの潜在空間表現を生成するステップと、
前記少なくとも1つの潜在空間表現を、テクスチャが付加された少なくとも1つの3Dモデルを前記少なくとも1つの潜在空間表現から生成するジオメトリ/テクスチャ・ニューラル・ネットワークへ、入力するステップと
である、ステップと
を含み、それにより、前記少なくとも1つの2Dイメージからの前記少なくとも1つの生きている対象物を含むものでありテクスチャが付加されている前記少なくとも1つの3Dモデルを生成する
方法。
【請求項2】
請求項1に記載の方法であって、前記少なくとも1つの2Dイメージをクラウドへアップロードするステップと、前記セット1、前記セット2、前記セット3、および前記セット4を含むグループから選択された少なくとも1つのステップを行うステップと、テクスチャが付加された前記少なくとも1つの3Dモデルを、レンダリングを行う端末装置へダウンロードするステップとを更に含む方法。
【請求項3】
請求項1に記載の方法であって、テクスチャが付加された前記少なくとも1つの3Dモデルを予め準備した環境へはめ込むステップを更に含む方法。
【請求項4】
請求項1に記載の方法であって、少なくとも1つの敵対的生成ネットワーク(GAN)を提供するステップを更に含む方法。
【請求項5】
請求項4に記載の方法であって、前記ジオメトリ・ニューラル・ネットワークと、前記テクスチャ・ニューラル・ネットワークと、前記ジオメトリ/テクスチャ・ニューラル・ネットワークと、前記ジオメトリ・ニューラル・ネットワークおよび前記テクスチャ・ニューラル・ネットワークの双方とを含むグループの1つのメンバーについて、前記少なくとも1つのGANの一部としての訓練を行うステップを更に含む方法。
【請求項6】
請求項4に記載の方法であって、前記GANが、前記少なくとも1つの2Dイメージでは見えない前記少なくとも1つの3Dモデルの各部に関して、前記少なくとも1つの3Dモデルの現実的な完成形を生成するステップを更に含む方法。
【請求項7】
請求項1に記載の方法であって、セグメンテーション・ニューラル・ネットワークにより実装されるセグメンテーション段を提供するステップを更に含む方法。
【請求項8】
請求項7に記載の方法であって、前記セグメンテーション・ニューラル・ネットワークを介して、前記少なくとも1つのイメージの前景を前記少なくとも1つのイメージの背景から分離するステップを更に含む方法。
【請求項9】
請求項7に記載の方法であって、前記セグメンテーション段が前記少なくとも1つの生きている対象物を前記背景から分離するステップを更に含む方法。
【請求項10】
請求項9に記載の方法であって、前記セグメンテーション段が前記前景と前記少なくとも1つの生きている対象物とのうちの少なくとも1つを格納するステップを更に含む方法。
【請求項11】
請求項1に記載の方法であって、テクスチャが付加された前記少なくとも1つの3Dモデルを美化するステップと、テクスチャが付加された前記少なくとも1つの3Dモデルへ少なくとも1つのアクセサリを付加するステップと、テクスチャが付加された前記少なくとも1つの3Dモデルの少なくとも一部の少なくとも1つの色を強めるステップと、テクスチャが付加された前記少なくとも1つの3Dモデルの少なくとも一部の少なくとも1つの色を変更するステップと、テクスチャが付加された前記少なくとも1つの3Dモデルの衣装の少なくとも一品の少なくとも一部を変更するステップと、テクスチャが付加された前記少なくとも1つの3Dモデルのヘアスタイルの少なくとも一部を変更するステップと、テクスチャが付加された前記少なくとも1つの3Dモデルの少なくとも一部の少なくとも1つのテクスチャを変更するステップと、テクスチャが付加された前記少なくとも1つの3Dモデル少なくとも1つの物理的特徴を変更するステップとのうちの少なくとも1つのステップを更に含む方法。
【請求項12】
請求項1に記載の方法であって、テクスチャが付加された前記少なくとも1つの3Dモデルを圧縮して、圧縮された少なくとも1つの3Dモデルを生成するステップと、圧縮された前記少なくとも1つの3Dモデルを、レンダリングを行う前記端末装置へ入力するステップと、レンダリングを行う前記端末装置が、圧縮された前記少なくとも1つの3Dモデルから、少なくとも1つの2D出力イメージを生成するステップとを更に含む方法。
【請求項13】
請求項12に記載の方法であって、仮想カメラの視点から前記少なくとも1つの2D出力イメージを生成するステップを更に含む方法。
【請求項14】
請求項13に記載の方法であって、コンピュータ、モバイル・フォン、人工現実装置、仮想現実装置、およびこれらの任意の組み合わせを含むグループから、レンダリングを行う前記端末装置を選択するステップを更に含む方法。
【請求項15】
請求項13に記載の方法であって、前記少なくとも1つの2D出力イメージは人工現実イメージである、方法。
【請求項16】
請求項13に記載の方法であって、前記少なくとも1つの2D出力イメージは、仮想現実環境におけるイメージの生成のために構成され、予め定められた3D環境へはめ込まれる、方法。
【請求項17】
請求項1に記載の方法であって、前記少なくとも1つの潜在空間表現を圧縮して、圧縮された少なくとも1つの潜在空間表現を生成するステップと、前記少なくとも1つの潜在空間表現を、レンダリングを行う前記端末装置へ入力するステップと、レンダリングを行う前記端末装置が、少なくとも1つの3Dモデルを前記少なくとも1つの潜在空間表現から生成するステップとを更に含む方法。
【請求項18】
請求項1に記載の方法であって、前記少なくとも1つの潜在空間表現を、レンダリングを行う前記端末装置へ入力するステップと、レンダリングを行う前記端末装置が、少なくとも1つの3Dモデルを前記少なくとも1つの潜在空間表現から生成するステップとを更に含む方法。
【請求項19】
請求項14に記載の方法であって、前記少なくとも1つの3Dモデルから少なくとも1つの2D出力イメージを生成するステップを更に含む方法。
【請求項20】
請求項19に記載の方法であって、仮想カメラの視点から前記少なくとも1つの2D出力イメージを生成するステップを更に含む方法。
【請求項21】
請求項19に記載の方法であって、コンピュータ、モバイル・フォン、人工現実装置、仮想現実装置、およびこれらの任意の組み合わせを含むグループから、レンダリングを行う前記端末装置を選択するステップを更に含む方法。
【請求項22】
請求項19に記載の方法であって、前記少なくとも1つの2D出力イメージは人工現実イメージである、方法。
【請求項23】
請求項14に記載の方法であって、前記少なくとも1つの2D出力イメージは、仮想現実環境におけるイメージの生成のために構成され、予め定められた3D環境へはめ込まれる、方法。
【請求項24】
実行されると、少なくとも1つの生きている対象物が含まれる少なくとも1つの2Dイメージからの前記少なくとも1つの生きている対象物が含まれる少なくとも1つの3Dモデルを生成するように構成された実行可能パッケージであって、ソフトウェアを含み、
前記ソフトウェアは、
少なくとも1つの2Dイメージを得ることと、
以下のステップのセットのうちの少なくとも1つのセットを実行することであって、
セット1は、
前記少なくとも1つの2Dイメージを、少なくとも1つの3Dモデルを前記少なくとも1つの2Dイメージから生成するジオメトリ・ニューラル・ネットワークへ、入力するステップと、
前記少なくとも1つの3Dモデルと前記少なくとも1つの2Dイメージとを、テクスチャが付加された少なくとも1つの3Dモデルを前記少なくとも1つの3Dモデルから生成するテクスチャ・ニューラル・ネットワークへ、入力するステップと
であり、
セット2は、
前記少なくとも1つの2Dイメージを、テクスチャが付加された少なくとも1つの3Dモデルを前記少なくとも1つの2Dイメージから生成するジオメトリ/テクスチャ・ニューラル・ネットワークへ、入力するステップ
であり、
セット3は、
前記少なくとも1つの2Dイメージから少なくとも1つの潜在空間表現を生成するステップと、
前記少なくとも1つの2Dイメージをテクスチャ・ニューラル・ネットワークへ入力し、少なくとも1つの3Dテクスチャ表現を生成するステップと、
前記少なくとも1つの潜在空間表現から少なくとも1つの3D対象物を生成するステップと、
前記少なくとも1つの3D対象物と前記少なくとも1つの3Dテクスチャ表現とを組み合わせて、テクスチャが付加された少なくとも1つの3D対象物を生成するステップと
であり、
セット4は、
前記少なくとも1つの2Dイメージから少なくとも1つの潜在空間表現を生成するステップと、
前記少なくとも1つの潜在空間表現を、テクスチャが付加された少なくとも1つの3Dモデルを前記少なくとも1つの潜在空間表現から生成するジオメトリ/テクスチャ・ニューラル・ネットワークへ、入力するステップと
であることと、
を実行するよう構成され、
前記生きている対象物を含む、テクスチャが付加されている前記少なくとも1つの3Dモデルが、前記少なくとも1つの2Dイメージから生成される、
実行可能パッケージ。
【請求項25】
請求項24に記載の実行可能パッケージであって、前記少なくとも1つの2Dイメージをクラウドへアップロードする機能と、前記セット1、前記セット2、前記セット3、および前記セット4を含むグループから選択された少なくとも1つのステップを行う機能と、テクスチャが付加された前記少なくとも1つの3Dモデルを、レンダリングを行う端末装置へダウンロードする機能とのうちの少なくとも1つの機能を実行させるように構成されたソフトウェアを更に含む実行可能パッケージ。
【請求項26】
請求項24に記載の実行可能パッケージであって、テクスチャが付加された前記少なくとも1つの3Dモデルを予め準備した環境へはめ込む機能を行わせるように構成されたソフトウェアを更に含む実行可能パッケージ。
【請求項27】
請求項24に記載の実行可能パッケージであって、前記ソフトウェアは少なくとも1つの敵対的生成ネットワーク(GAN)を更に含む、実行可能パッケージ。
【請求項28】
請求項27に記載の実行可能パッケージであって、前記ジオメトリ・ニューラル・ネットワークと、前記テクスチャ・ニューラル・ネットワークと、前記ジオメトリ/テクスチャ・ニューラル・ネットワークと、前記ジオメトリ・ニューラル・ネットワークおよび前記テクスチャ・ニューラル・ネットワークの双方とを含むグループの1つのメンバーについて、前記少なくとも1つのGANの一部としての訓練を行う機能を実行させるように構成されたソフトウェアを更に含む実行可能パッケージ。
【請求項29】
請求項27に記載の実行可能パッケージであって、前記GANが、前記少なくとも1つの2Dイメージでは見えない前記少なくとも1つの3Dモデルの各部に関して、前記少なくとも1つの3Dモデルの現実的な完成形を生成するようにさせる機能を実行させるように構成されたソフトウェアを更に含む実行可能パッケージ。
【請求項30】
請求項24に記載の実行可能パッケージであって、セグメンテーション・ニューラル・ネットワークにより実装されるセグメンテーション段を提供するように構成されたソフトウェアを更に含む実行可能パッケージ。
【請求項31】
請求項30に記載の実行可能パッケージであって、前記セグメンテーション・ニューラル・ネットワークを介して、前記少なくとも1つのイメージの前景を前記少なくとも1つのイメージの背景から分離するように構成されたソフトウェアを更に含む実行可能パッケージ。
【請求項32】
請求項30に記載の実行可能パッケージであって、前記セグメンテーション段において前記少なくとも1つの生きている対象物を前記背景から分離するように構成されたソフトウェアを更に含む実行可能パッケージ。
【請求項33】
請求項32に記載の実行可能パッケージであって、前記セグメンテーション段において前記前景と前記少なくとも1つの生きている対象物とのうちの少なくとも1つを格納するように構成されたソフトウェアを更に含む実行可能パッケージ。
【請求項34】
請求項24に記載の実行可能パッケージであって、テクスチャが付加された前記少なくとも1つの3Dモデルを美化する機能と、テクスチャが付加された前記少なくとも1つの3Dモデルへ少なくとも1つのアクセサリを付加する機能と、テクスチャが付加された前記少なくとも1つの3Dモデルの少なくとも一部の少なくとも1つの色を強める機能と、テクスチャが付加された前記少なくとも1つの3Dモデルの少なくとも一部の少なくとも1つの色を変更する機能と、テクスチャが付加された前記少なくとも1つの3Dモデルの衣装の少なくとも一品の少なくとも一部を変更する機能と、テクスチャが付加された前記少なくとも1つの3Dモデルのヘアスタイルの少なくとも一部を変更する機能と、テクスチャが付加された前記少なくとも1つの3Dモデルの少なくとも一部の少なくとも1つのテクスチャを変更する機能と、テクスチャが付加された前記少なくとも1つの3Dモデル少なくとも1つの物理的特徴を変更する機能とのうちの少なくとも1つの機能を実行させるように構成されたソフトウェアを更に含む実行可能パッケージ。
【請求項35】
請求項24に記載の実行可能パッケージであって、テクスチャが付加された前記少なくとも1つの3Dモデルを圧縮して、圧縮された少なくとも1つの3Dモデルを生成する機能と、圧縮された前記少なくとも1つの3Dモデルを、レンダリングを行う前記端末装置へ入力する機能と、レンダリングを行う前記端末装置に、少なくとも1つの2D出力を生成させる機能とを実行させるように構成されたソフトウェアを更に含む実行可能パッケージ。
【請求項36】
請求項35に記載の実行可能パッケージであって、前記少なくとも1つの2D出力イメージは仮想カメラの視点から生成される、実行可能パッケージ。
【請求項37】
請求項36に記載の実行可能パッケージであって、コンピュータ、モバイル・フォン、人工現実装置、仮想現実装置、およびこれらの任意の組み合わせを含むグループから、レンダリングを行う前記端末装置が選択される、実行可能パッケージ。
【請求項38】
請求項36に記載の実行可能パッケージであって、前記少なくとも1つの2D出力イメージは人工現実イメージである、実行可能パッケージ。
【請求項39】
請求項36に記載の実行可能パッケージであって、前記少なくとも1つの2D出力イメージは、仮想現実環境におけるイメージの生成のために構成され、予め定められた3D環境へはめ込まれる、実行可能パッケージ。
【請求項40】
請求項24に記載の実行可能パッケージであって、前記少なくとも1つの潜在空間表現を圧縮して、圧縮された少なくとも1つの潜在空間表現を生成する機能と、前記少なくとも1つの潜在空間表現を、レンダリングを行う前記端末装置へ入力する機能と、レンダリングを行う前記端末装置に、少なくとも1つの3Dモデルを前記少なくとも1つの潜在空間表現から生成させる機能とを実行させるように構成されたソフトウェアを更に含む実行可能パッケージ。
【請求項41】
請求項24に記載の実行可能パッケージであって、前記少なくとも1つの潜在空間表現を、レンダリングを行う前記端末装置へ入力する機能と、レンダリングを行う前記端末装置に、少なくとも1つの3Dモデルを前記少なくとも1つの潜在空間表現から生成させる機能とを実行させるように構成されたソフトウェアを更に含む実行可能パッケージ。
【請求項42】
請求項41に記載の実行可能パッケージであって、少なくとも1つの2D出力イメージが前記少なくとも1つの3Dモデルから生成される、実行可能パッケージ。
【請求項43】
請求項41に記載の実行可能パッケージであって、前記少なくとも1つの2D出力イメージは仮想カメラの視点からのものである、実行可能パッケージ。
【請求項44】
請求項41に記載の実行可能パッケージであって、コンピュータ、モバイル・フォン、人工現実装置、仮想現実装置、およびこれらの任意の組み合わせを含むグループから、レンダリングを行う前記端末装置が選択される、実行可能パッケージ。
【請求項45】
請求項41に記載の実行可能パッケージであって、前記少なくとも1つの2D出力イメージは人工現実イメージである、実行可能パッケージ。
【請求項46】
請求項41に記載の実行可能パッケージであって、前記少なくとも1つの2D出力イメージは、仮想現実環境におけるイメージの生成のために構成され、予め定められた3D環境へはめ込まれる、実行可能パッケージ。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般的には、少なくとも1つの生きている対象物が含まれている少なくとも1つの2Dイメージから、その少なくとも1つの生きている対象物の1以上の3Dモデルを生成するシステムおよび方法と関連する。1以上の3Dモデルは、変更および増強することができる。結果として得られた1以上の3Dモデルは、少なくとも1つの2D表示イメージへと変換することができ、出力された2Dイメージ(1以上)の視点は、入力された2Dイメージ(1以上)の視点とは異なり得る。
【背景技術】
【0002】
米国特許第US8384714号は、人物のデジタル表現を作り出すための様々な方法、装置、および記憶媒体を開示する。コンピュータ実装される1つのそのような方法によると、人物のボリュメトリック表現とその人物のイメージとが互いに関連付けされる。基準点が見つけられるが、それらの基準点は、人物の2つの時間的に異なるイメージのぞれぞれで共通であり、それらの基準点は、2つのイメージの間での人物の動きを表す。ボリュメトリック・デフォーメーションが、基準点と人物のデジタル表現の相関との関数として、人物のデジタル表現へ適用される。きめ細かいデフォーメーションが、粗い/ボリュメトリックのデフォーメーションの関数として、適用される。適用されたデフォーメーションに応じて、人物の更新されたデジタル表現が生成される。
【0003】
しかしながら、US8384714は、3D(ボリュメトリック)イメージを生成するために複数のカメラを用いることを開示している。
【0004】
米国特許出願公開第US2015/0178988号は、対象物または存在物の写実的3D再構築モデルを生成する方法を教示し、前記方法は、
a)対象物または存在物の一連のイメージを周囲の複数のカメラからキャプチャすることと、
b)前記のキャプチャした一連のイメージから、前記の対象物または存在物のメッシュを生成することと、
c)前記の対象物または存在物の前記のキャプチャした一連のイメージから得られた情報を用いて、テクスチャ・アトラスを作ることと、
d)前記の生成されたメッシュを、重要部位の高精度のメッシュに従って変形させることと、
e)多関節スケルトン・モデルを用い、そのスケルトン・モデルの複数の頂点へボーン・ウエイト(bone weight)を割り当てることにより、前記メッシュのリギングを行うことと
を含み、前記方法は、前記の3Dモデルを発音モデル(articulation model)として生成することを含み、これは、完全に自動のフレームワークでのアニメーションを可能とする意味情報を更に用いる。
【0005】
しかしながら、US2015/0178988は、複数の入力用2Dイメージを必要とする。
【0006】
米国特許第US9317954号は、適応モデルを用いたフェイシャル・パフォーマンス・キャプチャの技術を教示する。例えば、コンピュータ実装される方法は、対象物の3次元スキャン映像を取得することと、3次元スキャン映像を用いてブレンド・シェイプのセットを含むカスタマイズしたデジタル・モデルを生成することとを含むことができ、ブレンド・シェイプのセットにおける1以上のブレンド・シェイプのそれぞれは、対象物の特徴の少なくとも一部を表す。この方法は、対象物のビデオ・データと深度データとを含む入力データを受け取ることと、セットのブレンド・シェイプの1以上のものを用いて入力データのフィッティングを行うことにより、対象物の体の変形を追跡することと、1以上の適応型主成分分析(adaptive principal component analysis)形状を用いて、入力データへの、精緻化した線形モデルのフィッティングを行うこととを、更に含むことができる。
【0007】
しかしながら、US9317954は、初期のイメージ(1以上)が3Dイメージである方法を教示している。
【0008】
米国特許第US10796480号は、ユーザの個人化した3D頭部モデルのイメージ・ファイルを生成する方法を開示し、この方法は、(i)ユーザの顔の少なくとも1つの2Dイメージを取得するステップと、(ii)ユーザの顔の少なくとも1つの2Dイメージに基づいて、自動化された顔の2Dランドマーク認識を行うステップと、(iii)シェイプ・プライア(shape prior)を用いて3Dの顔ジオメトリ再構築を提供するステップと、(iv)3Dの顔ジオメトリ再構築に関してのテクスチャ・マップの生成および補間を提供して、ユーザの個人化した3D頭部モデルを生成するステップと、(v)ユーザの個人化した3D頭部モデルのイメージ・ファイルを生成するステップとを含む。関連するシステムおよびコンピュータ・プログラム製品も開示されている。
【0009】
しかしながら、US10796480は、自動的に測定した顔の特徴を正確な顔へと変換するために、「シェイプ・プライア」、即ち、所定のエスニシティ特有の顔および体の形状を、必要とする。更に、受け入れ可能な体の3Dモデルを生成するために、手動での介入や複数のイメージが必要とされる。
【0010】
従って、1つの2Dイメージから、手動での介入無しで、少なくとも1つの変更可能および増強可能な3Dモデルを生成するシステムを提供することが必要とされているが、長く放置されている。
【発明の概要】
【0011】
本発明の目的は、少なくとも1つの生きている対象物が含まれている少なくとも1つの2Dイメージから、その少なくとも1つの生きている対象物の1以上の変更可能および増強可能な3Dモデルを生成するシステムおよび方法を提供することである。
【0012】
発明および発明の実際のインプリメンテーションをより良く理解できるように、ここで、限定するためのものではない単なる例として、添付の図面を参照して複数の実施形態について説明する。
【図面の簡単な説明】
【0013】
【
図1】
図1は、入力された2Dイメージを3Dモデルへと変換し、圧縮した3Dモデルを端末装置へ送る方法を概略的に示す。
【
図2】
図2は、2Dイメージを3Dモデルへと変換する方法の実施形態を概略的に示す。
【
図3a】
図3a、3b、および3cは、入力された2Dイメージを3Dモデルへと変換し、圧縮した3Dモデルを端末装置へ送る方法を概略的に示す。
【
図3b】
図3a、3b、および3cは、入力された2Dイメージを3Dモデルへと変換し、圧縮した3Dモデルを端末装置へ送る方法を概略的に示す。
【
図3c】
図3a、3b、および3cは、入力された2Dイメージを3Dモデルへと変換し、圧縮した3Dモデルを端末装置へ送る方法を概略的に示す。
【発明を実施するための形態】
【0014】
下記の説明は、本発明の全ての重要な部分に沿って、何れの当業者も前記の発明を使用できるようにするために提供しており、この発明を実施するための発明者が考える最適の態様を記載している。しかしながら、当業者には、様々な変更が残されていることは明らかであり、その理由は、本発明の包括的な本質は、2Dイメージから変更可能および増強可能な3Dモデルを生成する手段および方法を提供することと、具体的に定義しているからである。
【0015】
ここでは、「イメージ」という用語は、イメージング・デバイスによりキャプチャされる1つの画像を示す。高座の位置からキャプチャしたダンスする二人の光景は、イメージの例を構成するが、この例は限定のためのものではない。黒い背景で顔のみを示すようにした顔の眺めは、イメージの例を構成するが、この例は限定のためのものではない。
【0016】
ここでは、「一連のイメージ」という用語は、1つより多くのイメージを示し、その一連における各イメージとその次のイメージとは関連がある。一連のイメージは、典型的には、ビデオまたはフィルムの少なくとも一部を形成する。
【0017】
ここでは、「対象物」という用語は、元のイメージにおいて可視である個別のものを示す。
【0018】
ここでは、「モデル」という用語は、ソフトウェアにより生成された対象物を表したものを示す。限定を目的とせずここで用いる例として、人は対象物を構成する。ビデオ・イメージにキャプチャされている人もまた、対象物を構成する。ソフトウェアへ入力されて、それにより操作可能とされた人は、モデルを構成する。ソフトウェアから出力される人の3D表現もまた、モデルを構成する。
【0019】
モデルは、標準的な2Dイメージを撮ることができる任意のデバイスから、1つの3Dモデルまたは一連の3Dモデル(ボリュメトリック・ビデオ)を作り出すことを、可能とする。
【0020】
ボリュメトリック・ビデオは、この目的のために生成されたビデオ、古いビデオ、写真、およびこれらの任意の組み合わせから、生成することができる。例えば、既に死亡している人の写真や、子供のときの人の写真から、1以上の3Dモデルを構築することができる。別の例では、3Dモデル、一連の3Dモデル、またはボリュメトリック・ビデオは、コンサートや歴史に残る出来事などのような、フィルムにとらえられたイベントから生成することができる。別の例は、古い映画を「撮り直し」して、それにより、その映画のボリュメトリック・ビデオを生成することである。
【0021】
方法のステップ:
【0022】
1.1つのイメージまたは一連のイメージを取得する。
【0023】
2.イメージ(1以上)をリモート・デバイス(好ましくは、クラウド内にある)へアップロードする。これは、計算能力が限定されているデバイスがアプリケーションを実行することを可能とするが、その理由は、リモートで、より強力なデバイス(1以上)で、分析が行われるからである。
【0024】
3.3Dモデルを生成する。可能なオプションは下記のとおりである。
a.イメージ(1以上)を、3Dモデルを出力するジオメトリ・ニューラル・ネットワークへ入力し、次に、その結果を、そのモデルに対してのテクスチャを生成るすニューラル・ネットワークへ渡す。
b.イメージ(1以上)を、3Dモデルの生成と、そのモデルのテクスチャの生成との双方を扱うニューラル・ネットワークへ入力する。
c.幾つかの実施形態において、そのモデルを潜在空間(latent space)表現へと変換するオプションのステップを実行する。これは、ジオメトリ・ニューラル・ネットワークへの入力前に、またはジオメトリ・ニューラル・ネットワークまたはジオメトリ/テクスチャ・ニューラル・ネットワークからの出力後に、実行することができる。
【0025】
4.幾つかの実施形態において、3Dモデルに対して又は潜在空間表現においての何れかで、3Dモデルのジオメトリ、テクスチャ、または双方に対する変更を行うことができる。限定のためのものではない例としての変更は、美化、アクセサリの付加、色の強調、色の変更、衣類の変更、衣類の付加、髪型の変更、髪の付加、およびこれらの任意の組み合わせ、身体的特徴の変更である。
【0026】
5.増強や変更がなされた又はなされていない3Dモデルは、圧縮されて、レンダリングを行う端末装置へ送られる。幾つかの実施形態では、増強や変更がなされた又はなされていない潜在空間表現を、圧縮して、レンダリングを行う端末装置へ送ることができる。幾つかの実施形態では、増強や変更がなされた又はなされていない潜在空間表現が、圧縮されずに、レンダリングを行う端末装置へ送られるが、その理由は、潜在空間表現が既に圧縮されているからである。
a.幾つかの実施形態では、圧縮は3Dモデルに対して行われ、圧縮された3Dモデルは端末装置へ送られる。
b.幾つかの実施形態では、潜在空間表現から3Dモデルへの変換は、端末装置で行われる。潜在空間表現の圧縮が行われる場合、それは端末装置への送信の前に行われる。
【0027】
6.端末装置では、3Dモデルが、仮想カメラの視点から、2Dへとレンダリングされる。仮想カメラの視点は、元の入力の視点と同じである必要はない。限定するためのものではない例として、端末装置は、コンピュータ、モバイル・フォン、拡張現実ビューアー、または仮想現実(VR)ビューアーであり得る。ARビューアーは、コンピュータ、モバイル・フォン、ヘッドアップ・ディスプレイ、ヘッドセット、ゴーグル、眼鏡、またはこれらの任意の組み合わせであり得る。VRビューアーは、電話機、ヘッドセット、ヘルメット、ゴーグル、眼鏡、またはヘッドマウント式ディスプレイであり得る。端末装置での出力は、1つの2Dイメージ、一連の2Dイメージ、複数の2Dイメージ、1つの3Dモデル、一連の3Dモデル、および複数の3Dモデルであり得る。
【0028】
7.レンダリングされたイメージは、ARまたはVRの中に入れることができる。VRである場合、イメージは、選択された3D環境においてレンダリングされる。
【0029】
上記のものの何れかに関してのオプションの前処理段はセグメンテーション段を含み、これは、前景を背景から分離し、また、幾つかの実施形態では、1以上の対象物を背景から分離することができ、その1以上の対象物は、格納可能であり、更に分析可能であり、また、(望まれる場合は)背景および選択されていない対象物から離して操作可能である。セグメンテーション段は、セグメンテーション・ニューラル・ネットワークにより実装される。
【0030】
好適には、ステップ(3)とステップ(4)との何れかで、元のイメージ(1以上)では見えなかった何れかの部分を生成することにより、3Dモデルを完成させる。
【0031】
潜在空間表現を用いる実施形態に関しては、潜在空間を表すためにN数のフロート・ベクトル(float vector)が用いられる。幾つかの実施形態では、Nは128であるが、Nは、30から106の範囲であり得る。潜在空間ベクトルを受け取って3D表現を出力するジオメトリNNは「陰関数」型であり、そこでは、潜在空間ベクトルと点[x,y,z]のセットとを受け取り、各点(xi,yi,zi)に関して、その点が体の内側にあるか体の外側にあるかを記述するブール値を出力し、従って、3Dの体を記述する点のクラウドを生成する。
【0032】
幾つかの実施形態では、陰関数の出力は、各点(xi,yi,zi)に関して、色値(color value)と、その点が体の内側にあるか体の外側にあるかを記述するブール値とを含む。
【0033】
幾つかの実施形態では、各点(xi,yi,zi)に関して、NNは、点が3Dモデルの内側か外側かについてと、色値とを返す。
【0034】
限定するためではないが、色値は、CIE、RGB、YUV、HSL、HSV、CMYK、CIELUV、CIEUVW、およびCIELABとすることができる。
【0035】
別の方法は、入力したテクスチャを3Dモデルへ投影し、陰関数を用いて、元の2Dイメージでは見えていなかった3Dモデルの複数の部分を生成することである。
【0036】
幾つかの実施形態では、訓練セット(1以上)を用いてジオメトリック・ニューラル・ネットワーク(1以上)を訓練して、「正確」なテクスチャおよびジオメトリを3Dモデル(1以上)へ加えられるようにする。元のイメージ(1以上)は2Dなので、3Dモデルの一部は元の2Dイメージ(1以上)では見ることができず、従って、訓練セットにより、ジオメトリック・ニューラル・ネットワーク(1以上)は、欠落した部分を妥当に推定したものを3Dモデルへ付加することにより3Dモデルを完成させる方法を、学習する。そのような実施形態では、訓練されたNNは、本来は見えない部分(1以上)を、訓練セットから決定された、予想される欠落したテクスチャ(およびジオメトリ)を平均したもので満たす。限定するためのものではない例では、入力イメージは、バスケットボール・ジャージーを着た人の前面を示す。背面は見ることができず、その人のジャージーの背中側に付された番号が何であるかを伝える方法はない。訓練セットは、多くの様々な番号が付されたジャージーの背面を含むものであり得、従って、平均された出力から得られる「正確」な3Dモデルは、背面に番号の無いジャージーを含むものであろう。同様に、様々なジャージーでは、しわの位置が異なり得るので、ジャージーの背面はしわの無いものとなるであろう。
【0037】
好適な実施形態では、1以上の敵対的生成ネットワーク(GAN)を用いて、「正確」なモデルに代えて「現実的」なモデルを作成する。1以上のGANに代えて又はそれに加えて、1以上の変分エンコーダを用いることができる。GANでは、「生成ネットワーク」および「識別ネットワーク」という2つの型のネットワークが用いられる。生成ネットワークは、入力を作り出してそれを識別ネットワークへ供給し、識別ネットワークは、受け取った入力が本物か否かを判定する。識別ネットワークが本物(「現実的入力(realistic input)」)であると判断した入力は、生成ネットワークへフィードバックすることができ、次に、生成ネットワークは、その現実的入力を、生成ネットワークが後に生成する入力のインスタンスを改善するために、用いることができる。
【0038】
GANを訓練するために、「正解(ground truth)」入力および生成ネットワーク入力という2つの型の入力が用いられ、正解入力とは、外部の観察者が本物と考えるものである。バスケットボール・プレーヤーの多くの方向からの写真から生成されたそのバスケットボール・プレーヤーの3Dモデルは、正解入力の例であるが、この例は限定のためのものではない。限定のための例ではないが、「バスケットボール・プレーヤー訓練セット」は、2000年から2020年の間のニューヨーク・ニックスの全プレーヤーを含むことができる。限定のためではない別の例としての「バスケットボール・プレーヤー訓練セット」は、2000年から2020年の間の全てのNBAプレーヤーのランダムなサンプルであり得る。
【0039】
正解入力および生成ネットワーク入力は識別ネットワークへ供給され、識別ネットワークは、受け取った入力が正解か否かを判定する。識別ネットワーク入力については、その識別ネットワーク入力が現実的であったか否か、ということがトレーナー(trainer)により検査される。これは、識別ネットワーク出力、ブールの生成ネットワーク入力/正解入力と比較される。識別ネットワークを「だました」生成ネットワーク入力は、次に、生成ネットワークの将来の性能を向上させるために、生成ネットワークへフィードバックさせることができる。GANは、その識別ネットワーク出力が50%の割合で正しいときには、訓練されたと考えられる。
【0040】
全ての場合において、システムは、先入的知識が無くて元の対象物のジオメトリおよびテクスチャをよく知らないユーザが、現実的なテクスチャとされた3Dモデルまたは結果として得られた出力イメージ(1以上)が元の対象物を正確に再生している、と思い込むような十分に現実的なモデルを生成するように構成される。
【0041】
ジオメトリおよびテクスチャは、対象物の元のイメージ(1以上)では見えなかった部分に対して生成される。限定するためのものではない例として、元の対象物が人の上半身の正面の2Dイメージであった場合、出力される3Dモデルは、その人の脚および足を含むものであり得、また、頭の後ろ側および元のイメージにおいて見える横側の一部を含めてのヘアスタイル含むものであり得る。
【0042】
ジオメトリ・ニューラル・ネットワークおよびテクスチャ・ニューラル・ネットワークを用いる、またはジオメトリ・テクスチャ組み合わせ型ニューラル・ネットワークを用いる実施形態では、潜在空間表現を用いない。
【0043】
ジオメトリ・ニューラル・ネットワークを用いる幾つかの実施形態では、テクスチャは生成されず、従って、テクスチャ・ニューラル・ネットワークは不要である。
【0044】
幾つかの実施形態では、陰関数は、2Dイメージから直接的に生成される。幾つかの実施形態では、陰関数は、潜在空間表現から生成される。各点(xi,yi,zi)に関して、ニューラル・ネットワークの出力は、その点が体の内側か外側かということと、その点と関連する色とである。
【0045】
図1は、処理(1000)の実施形態を示す。単一のイメージ、複数の2Dイメージ、または一連の2Dイメージであり得る初期の2Dイメージ(1以上)(1005)が、クラウド(1010)へアップロードされる。幾つかのバージョンでは、イメージ(1以上)は、潜在空間表現(1020)を生成するニューラル・ネットワークへアップロードされ、その潜在空間表現は、ジオメトリ(1025)を生成するためにニューラル・ネットワークへ渡される。幾つかのバージョンでは、イメージ(1以上)は、ジオメトリ(1025)を生成するようにニューラル・ネットワークへ直接的にアップロードされる。次に、2Dイメージ(1以上)が3Dへと変換され、テクスチャが付加される(1030)。3Dモデル(1以上)(またはイメージの潜在空間表現)に対しての変更を行うことができる(図には示していない)。次に、結果として得られたテクスチャを付加された3Dモデル(1以上)(またはイメージの潜在空間表現)は、圧縮され(1035)、表示のために端末装置(1040)へ送られる。典型的には、端末装置は、表示のために、3Dモデル(1以上)を1以上の2D表現にしたものを生成する。しかしながら、表示は3Dホログラムとすることもできる。
【0046】
図2は、方法(1100)の実施形態のフローチャートを示す。1以上のイメージまたは一連のイメージが取得される(1105)。イメージ(1以上)は、新たなもの(システムによりキャプチャ)または古いもの(システムにより取得)であり得る。イメージ(1以上)は、クラウドへアップロードされ(1110)、1以上のボリュメトリック・イメージまたは1以上のボリュメトリック・モデルへと変換され、(1115)、それによりボリュメトリック・ビデオまたはボリュメトリック・モデルが生成される。この時点で、望まれる場合には、上述のように、1以上のモデルまたはイメージ(1以上)内の1以上の対象物の変更を行うことができる(1120)。結果として得られたモデル(1以上)またはイメージ(1以上)は、次に、上述のように、圧縮され(1125)、端末装置へ送られ(1130)、そこにおいて、1以上の2Dモデルまたは2Dイメージ、または一連の2Dモデルまたは2Dイメージへとレンダリングされる(1135)。結果的に得られた、レンダリングされ出力されたモデルまたはイメージ(1以上)は、1以上の異なる視点からの1以上の2Dイメージ、AR表示、VR表示、およびこれらの任意の組み合わせであり得る。
【0047】
図3A-Cは、テクスチャを付加された3Dモデルを生成する方法の例としての実施形態を示す。
【0048】
図3Aは、ジオメトリおよびテクスチャを生成するために異なるニューラル・ネットワークが用いられる方法(1200)を概略的に示す。2Dイメージ(1以上)(1205)が、ジオメトリ・ニューラル・ネットワーク(1210)とテクスチャ・ニューラル・ネットワーク(1215)とへ入力される。ジオメトリの抽出(1210)とテクスチャの抽出(1215)とは、示されているように並列に、または順に(示されていない)、行うことができる。次に、ジオメトリ(1210)とテクスチャ(1215)とを組み合わせて、それにより3D(ボリュメトリック)ビデオを生成することができる(1225)。
【0049】
図3Bは、ジオメトリとテクスチャとの双方を生成するために同じニューラル・ネットワークが用いられる方法(1300)を概略的に示す。2Dイメージ(1以上)(1302)がニューラル・ネットワーク(1305)へ入力され、このニューラル・ネットワークは、初期のイメージ(1以上)からジオメトリとテクスチャとの双方を決定することができる。そのジオメトリおよびテクスチャから、3D(ボリュメトリック)ビデオを生成することができる(1325)。
【0050】
図3Cは、ジオメトリとテクスチャとが潜在空間表現を介して生成される方法(1400)を概略的に示す。2Dイメージ(1以上)(1405)が、潜在空間表現へと変換され(1410)、次に、3D表現が生成される(1415)。3D(ボリュメトリック)ビデオは、クラウドまたは端末装置において、3D表現(1415)から生成することができる(示していない)。
【0051】
例1
ダンスしている人のビデオが生成されている。ダンスしている人の一連の3Dモデルがビデオから生成される。ダンスしている人の一連の3Dモデルは、次に、予め定めた3D環境の中へはめ込まれ、例えば、ソーシャル・メディアで公表される。結果として生じたものは、3D環境内の3Dのダンサーが含まれる3Dで、VRまたはARで、見ることができ、また、仮想カメラの視点から2Dで見ることができ、その仮想カメラの視点は、予め定めた形で、またはユーザに制御される形で、またはそれらの任意の組み合わせの形で動く。
【0052】
限定のためのものではない例として、元のビデオは、ムーンウォークを行っている人を含み得る。結果的に得られたボリュメトリック・ビデオは、次に、マイケル・ジャクソンのスリラーを含む予め準備した3D環境へ、はめ込むことができる。
【0053】
例2
ウェディングの写真やウェディングのビデオを、新婦と新郎との3Dホログラムに変換することができる。VRを用いてこれを表示する場合、ユーザは、結婚式の仮想の来客とすることができる。
【0054】
ARでは、ユーザは、例えば、ユーザのリビング・ルームでウェディング・ダンスをしている新郎新婦を見ることができる。
【0055】
例3
ビデオや映画に収められた歴史的イベントを3Dホログラムに変換することができる。歴史的イベントがVRまたはARで表示される場合、ユーザは、聴衆の一部として、また、おそらくはステージから、レッド・ツェッペリンのコンサートへ「参加する」こと、オペラを「観覧する」こと、ケネディの「イッヒ・ビン・アイン・ベルリーナー」演説や他の他のイベントを「見る」ことができる。
【0056】
同様に、VRでは、人は、映画のキャラクタと「なる」ことができ、俳優やセットに囲まれ、また、ARでは、ユーザの家や他の場所で映画の最後まで演じることができる。
【0057】
例4
スポーツ・カメラ・イメージを、ホログラムに変換し、そして、限定のためではない例としては、誰が視線を有していたかや、審判がどこを見ていたかや、ボールが内側にあったか外側にあったかや、オフサイドであったかや、或る選手から別の選手への反則行為があったかなどについての試合後の分析に用いることができる。更に、質問を行うことができ、質問は、審判は審判の立っている位置から攻撃を見ることができたか、審判がどこから見ていたか、何れの審判が攻撃を見ることができたか(見たはずであろうか)などである。
【0058】
セキュリティ・カメラもまた、3Dホログラムに変換することができる。そのようなホログラムは、泥棒を特定すること(限定のためではない例としては、容疑者のボディー・ランゲージが泥棒のものと同じであるか)や、セキュリティの欠陥(何れの警備員が侵入者を見ることができたか又は見ていたはずであるかや、侵入者がカメラの死角に隠れていたか)を特定することを支援するために、用いることができる。
【0059】
例5
ユーザは、ユーザ自身を3Dビデオ・ゲームへ「挿入する」ことができる。
【0060】
幾つかの実施形態では、ユーザは、少なくとも1つのビデオを作るが、そのビデオの中で、ユーザは、ゲームにおける少なくとも1つの予め定められた動き、例えば、限定ではないが、蹴る、殴る、走る、掘る、登る、および下るなどを行う。ビデオ(1以上)は、3Dへと変換され、それらの3Dシークエンスを用いるビデオ・ゲームへ挿入される。ユーザがそのゲームを行うとき、ユーザは、ユーザ自身をゲーム・キャラクタとして見ることになり、コマンドにより3Dシークエンスを実行させる。
【0061】
他の実施形態では、ユーザは、好適には、ユーザの体の全体の単一のイメージを撮ることができる。このイメージは3Dへと変換され、自動リギングを用いることによりその単一のイメージが操作されて1以上の3Dモデル・シークエンスが生成され、それにより、ゲームにおける少なくとも1つの予め定められた動きが生成される。それらのシークエンス(1以上)は、それらの3Dシークエンスを用いるビデオ・ゲームへ挿入される。ユーザがそのゲームを行うとき、ユーザは、ユーザ自身をゲーム・キャラクタとして見ることになり、コマンドにより3Dシークエンスを実行させる。
【0062】
例6
3Dモデル(1以上)の物理的特徴を変更することができる。限定のためではない例として、チェストのサイズを変更すること、バストのサイズや形を変更すること、モデルの筋肉を変更すること、モデルの性別を変更すること、年格好を変更すること、モデルがアニメ映画キャラクタのように見えるようにすること、モデルが外国人のように見えるようにすること、モデルが動物のように見えるようにすること、およびそれらを任意に組み合わせることが、可能である。
【0063】
限定のためではない例では、人の耳、眉毛、および肌の色を変更することができ、その人をバルカン人のようにすることができ、そのバルカン人をスター・トレックの一連のシーンへ挿入することができる。
【0064】
限定のためではない別の例では、ウェイト・リフティングを行っている人のビデオ撮影を行うことができ、それの3Dモデルを2回変更することができ、一回は、その人が筋骨たくましいようにして、容易に重りを上げているようにし、また、一回は、その人がひ弱であるようにして、かなりの困難を伴って重りを上げているようにする。
【0065】
限定のためではない別の例では、水着の女性のイメージを変更して、ツイッギー(細身のモデル)としての彼女が、ジェーン・マンスフィールド(曲線美の女優)としての彼女自身と遊歩道を歩くようにすることができる。
【0066】
限定のためではない更に別の例では、女性のモデルを、そのヘア・スタイル、衣装、および体型を変更することにより、彼女はルイ14世の宮廷の子供として18世紀の邸宅を出て、彼女はナポレオン時代の14歳のイギリス人女性へと変身し、次に、彼女の十代後半にはビクトリア朝中期のメキシコ人へと変身し、次に、彼女の二十代前半には第一次世界大戦の看護師へと変身し、彼女の二十代後半にはロシア人の「現代娘」へと変身し、彼女の三十代前半には第二次世界大戦のアメリカ人のパイロットへと変身し、以下同様に続き、最後に、彼女の四十代前半には22世紀の宇宙船に船長として所属する、といったように変えることができる。
【国際調査報告】