(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-18
(54)【発明の名称】2Dイメージを3Dモデルへと変換するために構成されたニューラル・ネットワークを訓練する方法
(51)【国際特許分類】
G06T 13/40 20110101AFI20240111BHJP
G06T 7/00 20170101ALI20240111BHJP
【FI】
G06T13/40
G06T7/00 350C
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2023539969
(86)(22)【出願日】2022-01-04
(85)【翻訳文提出日】2023-08-24
(86)【国際出願番号】 IL2022050012
(87)【国際公開番号】W WO2022149127
(87)【国際公開日】2022-07-14
(32)【優先日】2021-01-06
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522382624
【氏名又は名称】ユーム.コム リミテッド
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100161908
【氏名又は名称】藤木 依子
(72)【発明者】
【氏名】カガルリツキー,フセヴォロド
(72)【発明者】
【氏名】ケイナン,シャーリー
(72)【発明者】
【氏名】バーンボイム,マイケル
(72)【発明者】
【氏名】グリーン,アミール
(72)【発明者】
【氏名】モケイチェブ,アリク
(72)【発明者】
【氏名】ヘケル,マイケル
(72)【発明者】
【氏名】バルーク,ヤイル
(72)【発明者】
【氏名】ウォホルスタドテール,ギル
(72)【発明者】
【氏名】タルモン,ギラッド
(72)【発明者】
【氏名】タミール,マイケル
【テーマコード(参考)】
5B050
5L096
【Fターム(参考)】
5B050AA10
5B050BA08
5B050BA11
5B050BA12
5B050DA04
5B050EA05
5B050EA09
5B050EA24
5B050EA27
5L096FA12
5L096FA69
5L096JA03
5L096JA11
5L096KA04
(57)【要約】
2Dイメージを3Dモデルへと変換するように構成されるニューラル・ネットワークを訓練するためのデータベースを生成するための、コンピュータ実装される方法は、(a)3Dモデルを得るステップと、(b)少なくとも1つの視点から前記の3Dモデルを2Dフォーマットにレンダリングするステップと、(c)レンダリングされた前記2Dイメージ・フレームと、対応するサンプリングされた前記3Dモデルとのそれぞれを更に含む対を集めるステップとを含む。
【特許請求の範囲】
【請求項1】
2Dイメージを3Dモデルへと変換するように構成されるニューラル・ネットワークを訓練するためのデータベースを生成するための、コンピュータ実装される方法であって、前記データベースは前記2Dイメージとそれに対応する3Dモデルとを含むものであり、
a.サブステップのうちの少なくとも1つのものにより3Dモデルを得るステップであって、前記サブステップは、
i.少なくとも1つのキャラクタの3Dモデルを得て、前記3Dモデルのリギングおよびスキニングを行い、前記3Dモデルを目的のポーズへと動かすサブステップと、
ii.静的ポーズの前記少なくとも1つのキャラクタの複数のシングル・ボリュメトリック・イメージ・フレームをキャプチャするサブステップと、
iii.運動している前記少なくとも1つのキャラクタのボリュメトリック・ビデオをキャプチャするサブステップと
であり、前記サブステップ(i)ないし(iii)における前記少なくとも1つのキャラクタは互いに同じ又は互いに異なるものである、
前記サブステップのうちの少なくとも1つのものにより3Dモデルを得るステップと、
b.少なくとも1つの視点から前記3Dモデルを2Dフォーマットにレンダリングするステップと、
c.レンダリングされた前記2Dイメージ・フレームと、対応するサンプリングされた前記3Dモデルとをそれぞれに含む対を更に集めるステップと
を含む方法。
【請求項2】
請求項1に記載の方法であって、前記ステップaで取得した前記3Dモデルをサンプリングすることを含む方法。
【請求項3】
請求項1に記載の方法であって、前記3Dモデルの前記リギングおよび前記スキニングは、前記3Dモデルを少なくとも1つの2Dイメージへ投影して、それに基づく3Dポーズ見積を計算することにより行われる、方法。
【請求項4】
請求項3に記載の方法であって、前記3Dモデルの前記リギングおよび前記スキニングは自動的な形で行われる、方法。
【請求項5】
請求項1に記載の方法であって、前記データベースは、2Dイメージを3Dモデルへと変換するために構成されたニューラル・ネットワークを訓練するために使用可能である、方法。
【請求項6】
請求項1に記載の方法であって、前記静的ポースの少なくとも1つはTポーズまたはAポーズである、方法。
【請求項7】
2Dイメージを3Dモデルへと変換するように構成されるニューラル・ネットワークを訓練するためのデータベースを生成するための、コンピュータ実装されるシステムであって、前記データベースは収集した前記2Dイメージとそれに対応する3Dモデルとを含むものであり、
a.プロセッサと、
b.命令を記憶するメモリと
を含み、前記命令は、前記プロセッサにより実行されたときに、前記プロセッサへ、
i.サブステップのうちの少なくとも1つのものにより3Dモデルを得るステップであって、前記サブステップは、
1.所定のポーズの少なくとも1つのキャラクタの3Dモデルを得て、前記3Dモデルのリギングおよびスキニングを行い、前記3Dモデルを目的のポーズへと動かすサブステップと、
2.静的ポーズの前記少なくとも1つのキャラクタの複数のシングル・ボリュメトリック・イメージ・フレームをキャプチャするサブステップと、
3.運動している前記少なくとも1つのキャラクタのボリュメトリック・ビデオをキャプチャするサブステップと
である、前記サブステップのうちの少なくとも1つのものにより3Dモデルを得るステップと、
ii.前記サブステップ1ないし3における前記少なくとも1つのキャラクタは互いに同じ又は互いに異なるものであり、前記ステップiで取得した3Dモデルをサンプリングするステップと、
iii.前記3Dモデルを2Dフォーマットにレンダリングするステップと、
iv.レンダリングされた前記2Dイメージ・フレームと、対応するサンプリングされた前記3Dモデルとをそれぞれに含む対を更に集めるステップと
を行うことを指示する命令である、
システム。
【請求項8】
請求項7に記載のシステムであって、前記ステップaで取得した前記3Dモデルをサンプリングすることを含む、システム。
【請求項9】
請求項7に記載のシステムであって、前記3Dモデルの前記リギングおよび前記スキニングは、前記3Dモデルを少なくとも1つの2Dイメージへ投影して、それに基づく3Dポーズ見積を計算することにより行われる、システム。
【請求項10】
請求項9に記載のシステムであって、前記3Dモデルの前記リギングおよび前記スキニングは自動的な形で行われる、システム。
【請求項11】
請求項7に記載のシステムであって、前記データベースは、2Dイメージを3Dモデルへと変換するために構成されたニューラル・ネットワークを訓練するために使用可能である、システム。
【請求項12】
請求項7に記載のシステムであって、前記静的ポースの少なくとも1つはTポーズまたはAポーズである、システム。
【請求項13】
2Dイメージを3Dモデルへと変換するように構成されるニューラル・ネットワークを訓練するための方法を実行させるためのプロセッサへの命令を含む非一時的コンピュータ読取可能媒体であって、前記命令は、
a.サブステップのうちの少なくとも1つのものにより3Dモデルを得るステップであって、前記サブステップは、
i.所定のポーズの少なくとも1つのキャラクタの3Dモデルを得て、前記3Dモデルのリギングおよびスキニングを行い、前記3Dモデルを目的のポーズへと動かすサブステップと、
ii.静的ポーズの前記少なくとも1つのキャラクタの複数のボリュメトリック・イメージ・フレームをキャプチャするサブステップと、
iii.運動している前記少なくとも1つのキャラクタのボリュメトリック・ビデオをキャプチャするサブステップと
であり、前記サブステップiないしiiiにおける前記少なくとも1つのキャラクタは互いに同じ又は互いに異なるものである、
前記サブステップのうちの少なくとも1つのものにより3Dモデルを得るステップと、
b.前記3Dモデルを2Dフォーマットにレンダリングするステップと、
c.レンダリングされた前記2Dイメージ・フレームと、対応するサンプリングされた前記3Dモデルとをそれぞれに含む対を更に集めるステップと
を含む、
非一時的コンピュータ読取可能媒体。
【請求項14】
請求項13に記載の非一時的コンピュータ読取可能媒体であって、前記ステップaで取得した前記3Dモデルをサンプリングすることを含む一時的コンピュータ読取可能媒体。
【請求項15】
請求項13に記載の非一時的コンピュータ読取可能媒体であって、前記3Dモデルの前記リギングおよび前記スキニングは、前記3Dモデルを少なくとも1つの2Dイメージへ投影して、それに基づく3Dポーズ見積を計算することにより行われる、非一時的コンピュータ読取可能媒体。
【請求項16】
請求項15に記載の非一時的コンピュータ読取可能媒体であって、前記3Dモデルの前記リギングおよび前記スキニングは自動的な形で行われる、非一時的コンピュータ読取可能媒体。
【請求項17】
請求項13に記載の非一時的コンピュータ読取可能媒体であって、前記データベースは、2Dイメージを3Dモデルへと変換するために構成されたニューラル・ネットワークを訓練するために使用可能である、非一時的コンピュータ読取可能媒体。
【請求項18】
請求項13に記載の非一時的コンピュータ読取可能媒体であって、前記静的ポースの少なくとも1つはTポーズまたはAポーズである、非一時的コンピュータ読取可能媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ニューラル・ネットワークによるイメージ処理と関連し、より具体的には、2Dイメージ・フレームを3Dモデルへと変換することと関連する。
【背景技術】
【0002】
仮想/拡張現実コンテンツを維持する技術は、現在の社会において話題性のある技術となっており、生活における様々な場面に適用されている。3Dコンテンツは貧弱であり、また、それを撮影することに多くの費用がかかることが、現在の3Dビデオの開発を制限する1つの要因である。
【0003】
この技術では、2Dイメージをボリュメトリック・イメージへと変換するためにニューラル・ネットワークを使用できることが、知られている。例えば、CN10706745は、完全畳み込み(full convolutional)ニューラル・ネットワークに基づいて2Dフィルムを3Dフィルムへと変換する方法を開示する。当該方法は、1)写真撮影されたフィルムの2Dビデオの各フレームの2Dイメージを抽出するステップと、2)完全畳み込みニューラル・ネットワークを用いて各フレームの2Dイメージの特徴を抽出し、深度値を計算するステップと、3)各フレームの2Dイメージを、その深度値に従って彩色して、対応する3Dイメージを生成するステップと、4)全ての3Dイメージを連続的にまとめて3Dフィルムにするステップとを含む。
【0004】
ニューラル・ネットワークにより行われる変換の忠実度は、ニューラル・ネットワークの訓練に用いられるデータベースに応じたものとなる。従って、ニューラル・ネットワークの訓練に使用可能な、入力2Dイメージと出力3Dモデルとの対のデータベースを提供することが求められているが、長く放置されて未だに対処されていない。
【発明の概要】
【0005】
従って、本発明の1つの目的は、2Dイメージを3Dモデルへと変換するように構成されるニューラル・ネットワークを訓練するためのデータベースを生成するための、コンピュータ実装される方法を開示することである。データベースは、収集した前記の2Dイメージとそれに対応する3Dモデルとを含む。上記の方法は、(a)サブステップのうちの少なくとも1つのものにより3Dモデルを得るステップであって、前記サブステップは、(i)所定のポーズの少なくとも1つのキャラクタの3Dモデルを得て、前記3Dモデルのリギングおよびスキニングを行い、前記3Dモデルを目的のポーズへと動かすサブステップと、(ii)静的ポーズの前記少なくとも1つのキャラクタの複数のボリュメトリック・イメージ・フレームをキャプチャするサブステップと、(iii)運動している前記少なくとも1つのキャラクタのボリュメトリック・ビデオをキャプチャするサブステップとであり、前記サブステップ(i)ないし(iii)における前記少なくとも1つのキャラクタは互いに同じ又は互いに異なるものである、前記サブステップのうちの少なくとも1つのものにより3Dモデルを得るステップと、(b)前記3Dモデルを2Dフォーマットにレンダリングするステップと、(c)レンダリングされた前記2Dイメージ・フレームと、対応するサンプリングされた前記3Dモデルとをそれぞれに含む対を更に集めるステップとを含む。
【0006】
本発明の更なる目的は、ステップaで得た前記3Dモデルをサンプリングすることを含む請求項1に記載の方法を提供することである。
【0007】
本発明の更なる目的は、前記3Dモデルを少なくとも1つの2Dイメージへ投影して、それに基づく3Dポーズ見積を計算することにより、前記3Dモデルの前記のリギングおよびスキニングすることを提供することである。
【0008】
本発明の更なる目的は、自動的な形で行われる前記3Dモデルの前記のリギングおよびスキニングすることを提供することである。
【0009】
本発明の更なる目的は、2Dイメージを3Dモデルへと変換するために構成されたニューラル・ネットワークを訓練するために使用可能な前記データベースを提供することである。
【0010】
本発明の更なる目的は、TポーズまたはAポーズとして限定の無い形で定められる前記静的ポーズを提供することである。
【0011】
本発明の更なる目的は、2Dイメージを3Dモデルへと変換するように構成されるニューラル・ネットワークを訓練するためのデータベースを生成するための、コンピュータ実装されるシステムを開示することである。データベースは、収集した前記の2Dイメージとそれに対応する3Dモデルとを含む。前記のコンピュータ実装されるシステムは、(a)プロセッサと、(b)命令を記憶するメモリとを含み、前記命令は、前記プロセッサにより実行されたときに、前記プロセッサへ、(i)サブステップのうちの少なくとも1つのものにより3Dモデルを得るステップであって、前記サブステップは、(1)所定のポーズの少なくとも1つのキャラクタの3Dモデルを得て、前記3Dモデルのリギングおよびスキニングを行い、前記3Dモデルを目的のポーズへと動かすサブステップと、(2)静的ポーズの前記少なくとも1つのキャラクタの複数のボリュメトリック・イメージ・フレームをキャプチャするサブステップと、(3)運動している前記少なくとも1つのキャラクタのボリュメトリック・ビデオをキャプチャするサブステップとであり、前記サブステップ(1)ないし(3)における前記少なくとも1つのキャラクタは互いに同じ又は互いに異なるものである、前記サブステップのうちの少なくとも1つのものにより3Dモデルを得るステップと、(ii)前記3Dモデルを2Dフォーマットにレンダリングするステップと、(iii)レンダリングされた前記2Dイメージ・フレームと、対応するサンプリングされた前記3Dモデルとをそれぞれに含む対を更に集めるステップとを行うことを指示する命令である。
【0012】
本発明の更なる目的は、2Dイメージを3Dモデルへと変換するように構成されるニューラル・ネットワークを訓練するための方法を実行させるためのプロセッサへの命令を含む非一時的コンピュータ読取可能媒体を提供することである。上記の命令は、(a)サブステップのうちの少なくとも1つのものにより3Dモデルを得るステップであって、前記サブステップは、(i)所定のポーズの少なくとも1つのキャラクタの3Dモデルを得て、前記3Dモデルのリギングおよびスキニングを行い、前記3Dモデルを目的のポーズへと動かすサブステップと、(ii)静的ポーズの前記少なくとも1つのキャラクタの複数のボリュメトリック・イメージ・フレームをキャプチャするサブステップと、(iii)運動している前記少なくとも1つのキャラクタのボリュメトリック・ビデオをキャプチャするサブステップとであり、前記サブステップ(i)ないし(iii)における前記少なくとも1つのキャラクタは互いに同じ又は互いに異なるものである、前記サブステップのうちの少なくとも1つのものにより3Dモデルを得るステップと、(b)前記3Dモデルを2Dフォーマットにレンダリングするステップと、(c)レンダリングされた前記2Dイメージ・フレームと、対応するサンプリングされた前記3Dモデルとをそれぞれに含む対を更に集めるステップとを含む。
【0013】
発明を理解できるように、および実際にどのように実装できるかを見せるために、ここで、単なる非限定的な例として、添付の図面を参照して複数の実施形態を用いて説明を行う。
【図面の簡単な説明】
【0014】
【
図1】
図1ないし
図3は、2Dイメージを3Dモデルへと変換するように構成されたニューラル・ネットワークを訓練するためのデータベースを生成する方法の代替的な実施形態のフローチャートである。
【
図2】
図1ないし
図3は、2Dイメージを3Dモデルへと変換するように構成されたニューラル・ネットワークを訓練するためのデータベースを生成する方法の代替的な実施形態のフローチャートである。
【
図3】
図1ないし
図3は、2Dイメージを3Dモデルへと変換するように構成されたニューラル・ネットワークを訓練するためのデータベースを生成する方法の代替的な実施形態のフローチャートである。
【発明を実施するための形態】
【0015】
下記の説明は、何れの当業者も前記の発明を使用できるようにするために提供しており、この発明を実施するための発明者が考える最適の態様を記載している。しかしながら、当業者には、適合する様々な変更が残されていることは明らかであり、その理由は、本発明の包括的な本質は、具体的に、2Dイメージを3Dモデルへと変換するように構成されるニューラル・ネットワークを訓練するためのデータベースを生成するための、コンピュータ実装される方法と、前記の方法を実装するための、コンピュータ実装されるシステムと、前記の方法を実行させるためのプロセッサへの命令を含む非一時的コンピュータ読取可能媒体とを提供することと、定義しているからである。
【0016】
本発明の目的は、ニューラル・ネットワークでの処理により2Dイメージを3Dモデルへと変更することが可能なツールを提供することである。より具体的な達成しようとする課題は、ユーザ定義の2Dイメージがニューラル・ネットワークにより高忠実度で3Dモデルへと変換されるように、ニューラル・ネットワークを訓練するためのデータベースを作成することである。
【0017】
ここで、2Dイメージを3Dモデルへと変換するように構成されたニューラル・ネットワークを訓練するためのデータベースを生成する方法100のフローチャートを示す
図1を参照する。開始のステップ110では、3Dモデルを取得することが、3つの方法のうちの少なくとも1つのものにより実施される。3つの選択できる方法のうちの第1のものを参照すると、キャラクタの3Dモデルが取得される(ステップ111)。
【0018】
次に、取得した3Dモデルへリギングおよびスキニングを適用する(ステップ112)。3Dモデルを目的のポーズへと動かすことにより複数のイメージ・フレームを生成することができる(ステップ113)。3Dモデルを取得するための他の方法は、TポーズやAポーズなどのような様々な静的ポースの少なくとも1つのキャラクタのシングル・ボリュメトリック・イメージ・フレームをキャプチャすること(ステップ115)と、少なくとも1つのキャラクタのボリュメトリック・ビデオをキャプチャすること(ステップ117)とである。サブステップ111から117における少なくとも1つのキャラクタは、互いに同一であっても互いに異なっていてもよい。
【0019】
ステップ110で生成された3Dモデルは、ニューラル・ネットワークを訓練するために使用可能な生データのボディを3Dモデル形成する。ステップ110で取得した3Dモデルは、少なくとも1つの視点から2Dイメージ・フォーマットへとレンダリングされる(ステップ130)。そして、最後に、レンダリングされた2Dイメージ・フレームと、対応するサンプリングされた3Dモデルとのそれぞれにより形成される対が、ニューラル・ネットワークを訓練するためのデータベースへ集められる。
【0020】
ここで、第1の代替の実施形態100a示す
図2を参照するが、実施形態100aは、ステップ110で取得した3Dモデルの一部をサンプリングする(ステップ119)ことが実施形態100とは異なる。サンプリングされた3Dモデルは、
図1の方法100と同様に、2Dフォーマットへとレンダリングされる(ステップ130)。
【0021】
ここで、第2の代替の実施形態100bを示す
図2を参照する。前記3Dモデルを少なくとも1つの2Dイメージへ投影して、それに基づく3Dポーズ見積を計算することにより、3Dモデルのリギングおよびスキニング、メッシングを行うサブステップ112aへと、
図1の方法100のサブステップ112が置き換えられている。3Dモデルに関するリギングおよびスキニングは、自動的な形で行うことができる。
【0022】
上記の実施形態100、100a、および100bを実装するためのシステムと、これらの実施形態を実施させるためのプロセッサへの命令を含む非一時的コンピュータ読取可能媒体とは、本発明の範囲内にある。
【国際調査報告】