特表2024-514948 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ソニー・コンピュータエンタテインメントの特許一覧

特表2024-514948コンピューターシミュレーションにおける音声駆動による３Ｄ静的アセットの作成

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-04-03

(54)【発明の名称】コンピューターシミュレーションにおける音声駆動による３Ｄ静的アセットの作成

(51)【国際特許分類】

G06T 19/00 20110101AFI20240327BHJP

G06F 3/16 20060101ALI20240327BHJP

【ＦＩ】

G06T19/00 A

G06F3/16 650

G06F3/16 620

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023564623

(86)(22)【出願日】2022-04-22

(85)【翻訳文提出日】2023-10-20

(86)【国際出願番号】 US2022025958

(87)【国際公開番号】W WO2022235443

(87)【国際公開日】2022-11-10

(31)【優先権主張番号】17/307,988

(32)【優先日】2021-05-04

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】310021766

【氏名又は名称】株式会社ソニー・インタラクティブエンタテインメント

(74)【代理人】

【識別番号】100105924

【弁理士】

【氏名又は名称】森下賢樹

(72)【発明者】

【氏名】クリシュナムルティ、スーダ

(72)【発明者】

【氏名】テイラー、マイケル

【テーマコード（参考）】

5B050

【Ｆターム（参考）】

5B050AA10

5B050BA09

5B050BA11

5B050BA13

5B050BA15

5B050CA07

5B050CA08

5B050EA12

5B050EA13

5B050EA19

5B050EA26

5B050FA02

5B050FA05

5B050FA10

5B050FA13

(57)【要約】

【課題】テキストまたは音声から成り得る自然言語記述からの１つまたは複数のオブジェクトから成る３Ｄシーンが生成される（３００、３０２）。
【解決手段】アセット属性及び配置のような関連キーワードが記述から抽出される（３０３）。これらのキーワードを用い、生成モデルを用いて２Ｄ画像が生成される（３０４）。２Ｄから３Ｄオブジェクトを再構成するために、別のニューラルモデルが使用される（３０６）。３Ｄオブジェクトを、配置仕様に合うように組み立てる（３１０）ことができる。択一的に、３Ｄオブジェクトは、本明細書における仕様を満たすように、既存の３Ｄオブジェクトを変換することによって、または３Ｄ生成モデルを使用することによって生成される。
【選択図】図１

【特許請求の範囲】

【請求項1】

テキストを受信することと、
コンピューターシミュレーションアセットの２次元（２Ｄ）画像をレンダリングするために、少なくとも１つのニューラルネットワークを使用して前記テキストを処理することと、
前記２Ｄ画像を３次元（３Ｄ）アセットに変換することと、
少なくとも１つのコンピューターシミュレーションで前記３Ｄアセットを提示することと、
を含む、方法。

【請求項2】

前記テキストが、スピーチ変換から受信される、請求項１に記載の方法。

【請求項3】

少なくとも部分的に前記テキストに基づいて、オーディオを前記３Ｄアセットに関連付けることを含む、請求項１に記載の方法。

【請求項4】

前記スピーチ変換は、少なくとも１つの位置を示し、前記３Ｄアセットは、前記位置と一貫性がある、請求項２に記載の方法。

【請求項5】

前記スピーチ変換は、少なくとも複数のオブジェクトを示し、前記３Ｄアセットは、前記複数のオブジェクトと一貫性がある、請求項２に記載の方法。

【請求項6】

当前記３Ｄアセットを提示するより前に、前記３Ｄアセットを修正するためにアーティストコンピューターを使用することを含む、請求項１に記載の方法。

【請求項7】

前記３Ｄアセットの修正を前記アーティストコンピューターに入力するために、マイクロホンを使用することを含む、請求項６に記載の方法。

【請求項8】

一時的な信号ではなく、
２次元（２Ｄ）画像の写真を受信することと、
前記２Ｄ画像を３Ｄアセットに変換することと、
前記３Ｄアセットを少なくとも１つのコンピューターシミュレーションで提示することと、
のために少なくとも１つのプロセッサによって実行可能な命令を含む少なくとも１つのコンピューターメモリ
を備える、デバイス。

【請求項9】

前記命令は、少なくとも部分的にテキストに基づいて、前記３Ｄアセットにオーディオを関連付けるために実行可能である、請求項８に記載のデバイス。

【請求項10】

前記命令は、少なくとも１つの位置を示すスピーチを受信するために実行可能であり、前記３Ｄアセットは、前記位置と一貫性がある、請求項８に記載のデバイス。

【請求項11】

前記命令は、少なくとも複数のオブジェクトを示すスピーチを受信するために実行可能であり、前記３Ｄアセットは、前記複数のオブジェクトと一貫性がある、請求項８に記載のデバイス。

【請求項12】

前記命令は、前記３Ｄアセットを提示するより前に、アーティストコンピューターを使用して前記３Ｄアセットを修正するために実行可能である、請求項８に記載のデバイス。

【請求項13】

前記命令は、前記写真をアップロードするためのセレクタを有するユーザーインターフェース（ＵＩ）をディスプレイに提示するために実行可能である、請求項８に記載のデバイス。

【請求項14】

前記命令は、所望のアセットシーンを発話させるためのプロンプトを有するユーザーインターフェース（ＵＩ）をディスプレイに提示するために実行可能である、請求項８に記載のデバイス。

【請求項15】

少なくとも１つのプロセッサと、
前記プロセッサによって制御されるように構成された少なくとも１つのコンピューター出力デバイスと、
を備えた装置であって、
前記プロセッサが、
２次元（２Ｄ）画像を識別することと、
前記２Ｄ画像を３Ｄアセットに変換することと、
コンピューターシミュレーションで前記３Ｄアセットをオブジェクトとして使用することと、
を行う命令でプログラムされる、
前記装置。

【請求項16】

前記命令は、
前記２Ｄ画像の写真の入力に少なくとも部分的に基づき、前記２Ｄ画像を識別するために実行可能である、請求項１５に記載の装置。

【請求項17】

前記命令は、
前記２Ｄ画像を記述するテキスト入力に少なくとも部分的に基づき、前記２Ｄ画像を識別するために実行可能である、請求項１５に記載の装置。

【請求項18】

前記命令が、
スピーチ入力から前記テキスト入力を導出するために実行可能である、請求項１７に記載の装置。

【請求項19】

前記命令が、
少なくとも１つのニューラルネットワークを使用して、前記２Ｄ画像を記述するテキスト入力に少なくとも部分的に基づいて、前記２Ｄ画像を生成するために実行可能である、請求項１７に記載の装置。

【請求項20】

前記命令は、
少なくとも部分的にテキスト入力に基づき、前記３Ｄアセットにオーディオを関連づけるために実行可能である、請求項１５に記載の装置。

【請求項21】

前記命令は、
３Ｄ再構成の前に、前記２Ｄ画像をテキスト及び／または音声入力に基づいて修正するために実行可能である、請求項１５に記載の装置。

【請求項22】

前記命令は、
前記３Ｄアセットに対する環境影響の物理モデリングに少なくとも部分的に基づき、前記３Ｄアセットを変更するために実行可能である、請求項１５に記載の装置。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、必然的にコンピューター技術が原因となり、具体的な技術的改善を生じさせる、技術的に発明性のある非定型な解決策に関する。

【背景技術】

【0002】

本明細書で理解されるように、共通の背景オブジェクト等の一般的に使用されるコンピューターゲームアセットを使用して、コンピューターゲームの見える魅力を高める。

【発明の概要】

【0003】

本原理は、コンテンツクリエーターが望むアセットを自然言語入力として記述し、その（音声）入力から２Ｄまたは３Ｄアセットを作成することを可能にする。また、繰り返し使用するアーティストのための初期プロトタイプアセットの作成も容易になる。

【0004】

したがって、方法は、スピーチ変換などからテキストを受信することと、コンピューターシミュレーションアセットの２次元（２Ｄ）画像をレンダリングするために、少なくとも１つのニューラルネットワークを使用してテキストを処理することとを含む。この方法は、２Ｄ画像を３次元（３Ｄ）アセットに変換することも含む。本方法は、少なくとも１つのコンピューターシミュレーションで３Ｄアセットを提示することを含む。

【0005】

テキストは、キーボードまたはスピーチから入力することができ、少なくとも１つの位置を示すことができ、３Ｄアセットはこの位置と一貫性がある。テキスト／スピーチは少なくとも複数のオブジェクトを示すことができ、３Ｄアセットは複数のオブジェクトと一貫性がある。この方法は、３Ｄアセットを提示するより前に、３Ｄアセットを修正するためにアーティストコンピューターを使用することを含んでもよい。３Ｄアセットの修正をアーティストコンピューターに入力するために、マイクロホンを使用することができる。

【0006】

別の態様では、デバイスが、一時的信号ではない少なくとも１つのコンピューターメモリを含み、このコンピューターメモリは、２次元（２Ｄ）画像の写真を受信することのために、少なくとも１つのプロセッサによって実行可能な命令を含む。命令は、２Ｄ画像を３Ｄアセットに変換すること、及び３Ｄアセットを少なくとも１つのコンピューターシミュレーションで提示すること、のために実行可能である。

【0007】

別の態様では、装置が、少なくとも１つのプロセッサと、プロセッサによって制御されるように構成された少なくとも１つのコンピューター出力デバイスとを備える。プロセッサは、２次元（２Ｄ）画像を識別することと、２Ｄ画像を３Ｄアセットに変換することと、コンピューターシミュレーションで３Ｄアセットをオブジェクトとして使用することと、を行う命令でプログラムされる。

【0008】

本願の詳細は、その構造及び動作との両方について、添付の図面を参照すると最良に理解でき、図面において、類似の参照符号は、類似の部分を指す。

【図面の簡単な説明】

【0009】

【図1】本原理による実施例を含む例示的なシステムのブロック図である。

【図2】コンピューターシミュレーションアセットをテキスト識別するためにスピーチを入力することを人に促す例示的なスクリーンショットを示す。

【図3】３Ｄアセットに対する、スピーチをテキストに変換するための例示的なフローチャートフォーマットの例示的なロジックを示す。

【図4】コンピューターシミュレーションアセットを生成するために画像を入力することを人に促す例示的なスクリーンショットを示す。

【図5】画像を３Ｄアセットに変換するための例示的なフローチャートフォーマットの例示的なロジックを示す。

【図6】３Ｄアセットの位置及び部分に対して、テキストをスピーチから変換するために、例示的なフローチャートフォーマットの例示的なロジックを示す。

【図7】図６に関連する例示的なスクリーンショットを示す。

【図8】図６に関連する例示的なスクリーンショットを示す。

【図9】アセットの一部を修正するために、図６に関連する例示的なスクリーンショットを示す。

【図10】アセットの一部を修正するために、例示的なフローチャートフォーマットで例示的なロジックを示す。

【図11】３Ｄアセットと物理エンジンとの間のクローズドループ処理のために例示的なフローチャートフォーマットで例示的なロジックを示す。

【図12】２Ｄから３Ｄへのアセット生成のための技術の概要を示す。

【図13】制御された特徴変換のための技術を示す。

【図14】２Ｄから３Ｄへの再構成アプローチを示す。

【図15】２Ｄ入力を用いない３Ｄアセット生成のための技術を示す。

【発明を実施するための形態】

【0010】

本開示は、概して、限定ではないが、コンピューターゲームネットワーク等の家電製品（ＣＥ）デバイスネットワークの態様を含むコンピューターエコシステムに関する。本明細書のシステムはネットワークを通じて接続され得るサーバーコンポーネント及びクライアントコンポーネントを含み得、それにより、クライアントコンポーネントとサーバーコンポーネントとの間でデータが交換され得る。クライアントコンポーネントは、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）等のゲーム機またはＭｉｃｒｏｓｏｆｔ（登録商標）もしくはＮｉｎｔｅｎｄｏ（登録商標）もしくは他の製造者によって作成されたゲーム機、仮想現実（ＶＲ）ヘッドセット、拡張現実（ＡＲ）ヘッドセット、ポータブルテレビ（例えば、スマートテレビ、インターネット対応テレビ）、ラップトップ及びタブレットコンピューター等のポータブルコンピューター、ならびにスマートフォン及び下記に説明される追加例を含む他のモバイルデバイスを含む、１つ以上のコンピューティングデバイスを含み得る。これらのクライアントデバイスは、様々な動作環境で動作し得る。例えば、クライアントコンピューターの一部は、例として、Ｌｉｎｕｘ（登録商標）オペレーティングシステム、Ｍｉｃｒｏｓｏｆｔ（登録商標）のオペレーティングシステム、もしくはＵｎｉｘ（登録商標）オペレーティングシステム、またはＡｐｐｌｅ（登録商標）社もしくはＧｏｏｇｌｅ（登録商標）によって製造されたオペレーティングシステムを使用し得る。これらの動作環境を使用して、Ｍｉｃｒｏｓｏｆｔ（登録商標）もしくはＧｏｏｇｌｅ（登録商標）もしくはＭｏｚｉｌｌａ（登録商標）によって作成されたブラウザ、または下記に説明されるインターネットサーバーによってホストされるウェブサイトにアクセスできる他のブラウザプログラム等の１つ以上の閲覧プログラムを実行し得る。また、本原理に従った動作環境を使用して、１つ以上のコンピューターゲームプログラムを実行し得る。

【0011】

サーバー及び／またはゲートウェイは、インターネット等のネットワークを通じてデータを受信及び伝送するサーバーを構成する命令を実行する１つ以上のプロセッサを含み得る。または、クライアント及びサーバーは、ローカルイントラネットまたは仮想プライベートネットワークを通じて接続できる。サーバーまたはコントローラーは、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）等のゲーム機、パーソナルコンピューター等によってインスタンス化され得る。

【0012】

情報は、クライアントとサーバーとの間でネットワークを通じて交換され得る。この目的のために及びセキュリティのために、サーバー及び／またはクライアントは、ファイアウォール、ロードバランサ、テンポラリストレージ、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含み得る。１つ以上のサーバーは、ネットワークメンバーにオンラインソーシャルウェブサイト等のセキュアコミュニティを提供する方法を実施する装置を形成し得る。

【0013】

プロセッサは、アドレスライン、データライン、及び制御ライン等の様々なライン、ならびにレジスタ及びシフトレジスタによってロジックを実行できるシングルチッププロセッサまたはマルチチッププロセッサであり得る。

【0014】

一実施形態に含まれるコンポーネントは、他の実施形態では、任意の適切な組み合わせで使用できる。例えば、本明細書に説明される及び／または図で示される様々なコンポーネントのいずれかは、組み合わされ得る、交換され得る、または他の実施形態から排除され得る。

【0015】

「Ａ、Ｂ、及びＣのうちの少なくとも１つを有するシステム」（同様に「Ａ、Ｂ、またはＣのうちの少なくとも１つを有するシステム」及び「Ａ、Ｂ、Ｃのうちの少なくとも１つを有するシステム」）は、Ａ単独、Ｂ単独、Ｃ単独、Ａ及びＢを一緒に、Ａ及びＣを一緒に、Ｂ及びＣを一緒に、ならびに／またはＡ、Ｂ、及びＣ等を一緒に有するシステムを含む。

【0016】

ここで具体的に図１を参照すると、例示的なシステム１０が示され、システム１０は、本原理による、上述され及び下記に詳述される、例示的なデバイスの１つ以上を含み得る。システム１０に含まれる第１の例示的デバイスは、限定ではないが、テレビチューナ（同様に、テレビを制御するセットトップボックス）を有するインターネット対応テレビ等のオーディオビデオデバイス（ＡＶＤ）１２等の家電製品（ＣＥ）デバイスである。代わりに、ＡＶＤ１２は、また、コンピューター制御型インターネット対応（「スマート」）電話、タブレットコンピューター、ノートブックコンピューター、ＨＭＤ、ウェアラブルコンピューター制御デバイス、コンピューター制御型インターネット対応ミュージックプレイヤー、コンピューター制御型インターネット対応ヘッドフォン、インプラント可能な皮膚用デバイス等のコンピューター制御型インターネット対応のインプラント可能なデバイス等であり得る。とにかく、ＡＶＤ１２は、本原理を実施するように構成される（例えば、本原理を実施するように他のＣＥデバイスと通信し、本明細書に説明されるロジックを実行し、本明細書に説明されるいずれかの他の機能及び／または動作を行う）ことを理解されたい。

【0017】

したがって、そのような原理を実施するために、ＡＶＤ１２は、図１に示されるコンポーネントの一部または全てによって確立できる。例えば、ＡＶＤ１２は、１つ以上のディスプレイ１４を含み得、１つ以上のディスプレイ１４は、高解像度もしくは超解像度の「４Ｋ」またはより高い解像度のフラットスクリーンによって実装され得、ディスプレイのタッチによりユーザー入力信号を受信するためにタッチ対応であり得る。ＡＶＤ１２は、本原理に従ってオーディオを出力するための１つ以上のスピーカー１６と、可聴コマンドをＡＶＤ１２に入力して、ＡＶＤ１２を制御するための、例えば、オーディオ受信機／マイクロホン等の少なくとも１つの追加入力デバイス１８と、を含み得る。例示的なＡＶＤ１２は、また、１つ以上のプロセッサ２４の制御の下、インターネット、ＷＡＮ、ＬＡＮ等の少なくとも１つのネットワーク２２を通じて通信するための１つ以上のネットワークインターフェース２０を含み得る。また、グラフィックプロセッサを含み得る。したがって、インターフェース２０は、限定ではないが、Ｗｉ－Ｆｉ（登録商標）送受信機であり得、Ｗｉ－Ｆｉ（登録商標）送受信機は、限定ではないが、メッシュネットワークトランシーバー等の無線コンピューターネットワークインターフェースの例である。プロセッサ２４は、ディスプレイ１４をそこで画像を提示するように制御することと、そこから入力を受信すること等の本明細書に説明されるＡＶＤ１２の他の要素を含む本原理を実施するようにＡＶＤ１２を制御することを理解されたい。さらに、ネットワークインターフェース２０は、有線もしくは無線のモデムもしくはルータ、または、無線テレフォニ送受信機もしくは上述したＷｉ－Ｆｉ（登録商標）送受信機等の他の適切なインターフェースであり得ることに留意されたい。

【0018】

上述に加えて、ＡＶＤ１２は、また、別のＣＥデバイスに物理的に接続するための高精細マルチメディアインターフェース（ＨＤＭＩ（登録商標））ポートもしくはＵＳＢポート、及び／またはヘッドフォンを経由してＡＶＤ１２からユーザーにオーディオを提示するためにＡＶＤ１２にヘッドフォンを接続するためのヘッドフォンポート等の１つ以上の入力ポート２６を含み得る。例えば、入力ポート２６は、オーディオビデオコンテンツのケーブルまたは衛星ソース２６ａに有線でまたは無線で接続され得る。したがって、ソース２６ａは、分離もしくは統合されたセットトップボックス、またはサテライト受信機であり得る。または、ソース２６ａは、コンテンツを含むゲーム機またはディスクプレイヤーであり得る。ソース２６ａは、ゲーム機として実装されるとき、ＣＥデバイス４４に関連して下記に説明されるコンポーネントの一部または全てを含み得る。

【0019】

ＡＶＤ１２は、さらに、一時的信号ではない、ディスクベースストレージまたはソリッドステートストレージ等の１つ以上のコンピューターメモリ２８を含み得、これらのストレージは、いくつかの場合、スタンドアロンデバイスとして、またはＡＶプログラムを再生するためにＡＶＤのシャーシの内部もしくは外部のいずれかでパーソナルビデオ録画デバイス（ＰＶＲ）もしくはビデオディスクプレイヤーとして、または取り外し可能メモリ媒体として、ＡＶＤのシャーシ内で具現化される。また、いくつかの実施形態では、ＡＶＤ１２は、限定ではないが、サテライト基地局もしくは携帯電話基地局から地理的位置情報を受信し、情報をプロセッサ２４に提供し、及び／またはＡＶＤ１２がプロセッサ２４と併せて配置される高度を判定するように構成される、携帯電話受信機、ＧＰＳ受信機、及び／または高度計３０等の位置受信機または場所受信機を含み得る。コンポーネント３０は、また、３次元でのＡＶＤ１２の位置及び向きを判定するために、典型的に、加速度計、ジャイロスコープ、及び磁力計の組み合わせを含む慣性測定ユニット（ＩＭＵ）によって実現され得る。

【0020】

ＡＶＤ１２の説明を続けると、いくつかの実施形態では、ＡＶＤ１２は、１つ以上のカメラ３２を含み得、１つ以上のカメラ３２は、熱画像カメラ、ウェブカメラ等のデジタルカメラ、ならびに／または本原理に従って写真／画像及び／もしくはビデオを集めるように、ＡＶＤ１２に統合され、プロセッサ２４によって制御可能であるカメラであり得る。また、ＡＶＤ１２に含まれるのは、Ｂｌｕｅｔｏｏｔｈ（登録商標）及び／または近距離無線通信（ＮＦＣ）技術を各々使用して、他のデバイスと通信するためのＢｌｕｅｔｏｏｔｈ（登録商標）送受信機３４及び他のＮＦＣ要素３６であり得る。例示的なＮＦＣ素子は、無線自動識別（ＲＦＩＤ）素子であり得る。

【0021】

さらにまた、ＡＶＤ１２は、プロセッサ２４に入力を提供する１つ以上の補助センサ３８（例えば、加速度計、ジャイロスコープ、サイクロメータ等の運動センサ、または磁気センサ、赤外線（ＩＲ）センサ、光学センサ、速度センサ及び／またはケイデンスセンサ、ジェスチャセンサ（例えば、ジェスチャコマンドを検知するためのセンサ））を含み得る。ＡＶＤ１２は、プロセッサ２４に入力を提供する無線（ｏｖｅｒ－ｔｈｅ－ａｉｒ（ＯＴＡ））ＴＶ放送を受信するための無線テレビ放送ポート４０を含み得る。上述に加えて、ＡＶＤ１２は、また、赤外線（ＩＲ）データアソシエーション（ＩＲＤＡ）デバイス等のＩＲ伝送機及び／またはＩＲ受信機及び／またはＩＲ送受信機４２も含み得ることに留意されたい。バッテリー（図示せず）は、ＡＶＤ１２に給電するために提供され得、運動エネルギーを電力に変換してバッテリーを充電し、及び／またはＡＶＤ１２に給電し得る運動エネルギーハーベスターであり得る。グラフィックスプロセッシングユニット（ＧＰＵ）４４及びフィールドプログラマブルゲートアレイ４６も含み得る。

【0022】

さらに図１を参照すると、ＡＶＤ１２に加えて、システム１０は、１つ以上の他のＣＥデバイスタイプを含み得る。一例では、第１のＣＥデバイス４８は、ＡＶＤ１２に直接送信されたコマンドを介して及び／または後述のサーバーを経由して、コンピューターゲームのオーディオ及びビデオをＡＶＤ１２に送信するために使用できるコンピューターゲーム機であり得る一方、第２のＣＥデバイス５０は第１のＣＥデバイス４８と同様のコンポーネントを含み得る。示される例では、第２のＣＥデバイス５０は、プレイヤーによって操作されたコンピューターゲームコントローラー、またはプレイヤーによって装着されたヘッドマウントディスプレイ（ＨＭＤ）として構成され得る。示される例では、２つのＣＥデバイスだけが示され、より少ない数またはより多い数のデバイスが使用され得ることを理解されたい。本明細書のデバイスは、ＡＶＤ１２用に示されるコンポーネントの一部または全てを実装し得る。次の図に示されるコンポーネントのいずれかは、ＡＶＤ１２の場合に示されるコンポーネントの一部または全てを組み込み得る。

【0023】

ここで、上述の少なくとも１つのサーバー５２を参照すると、サーバー５２は、少なくとも１つのサーバープロセッサ５４と、ディスクベースストレージまたはソリッドステートストレージ等の少なくとも１つの有形コンピューター可読記憶媒体５６と、サーバープロセッサ５４の制御の下、ネットワーク２２を通じて図１の他のデバイスとの通信を可能にし、実際に、本原理に従ってサーバーとクライアントデバイスとの間の通信を容易にし得る少なくとも１つのネットワークインターフェース５８とを含む。ネットワークインターフェース５８は、例えば、有線もしくは無線のモデムもしくはルータ、Ｗｉ－Ｆｉ送受信機、または、例えば、無線テレフォニ送受信機等の他の適切なインターフェースであり得ることに留意されたい。

【0024】

したがって、いくつかの実施形態では、サーバー５２は、インターネットサーバーまたはサーバー「ファーム」全体であり得、「クラウド」機能を含み得、「クラウド」機能を行い得、それにより、システム１０のデバイスは、例えば、ネットワークゲーミングアプリケーションに関する例示的な実施形態ではサーバー５２を介して「クラウド」環境にアクセスし得る。または、サーバー５２は、１つ以上のゲーム機、または図１に示される他のデバイスと同じ部屋もしくはその近くにある他のコンピューターによって実装され得る。

【0025】

以下の図に示されるコンポーネントは、図１に示されるコンポーネントの一部または全てを含み得る。

【0026】

図２及び図３は、ゲーム設計者が、最初から、またはアセットライブラリに事前に記憶されたアセットに適応することによって、コンピューターゲーム等のコンピューターシミュレーションのための３次元（３Ｄ）アセット、典型的に、共通するキャラクタでないアセットを作成及び／または修正することを可能にするための技術を示す。

【0027】

図２に示されるように、ユーザーインターフェース２００は、本明細書に説明される任意のディスプレイ等のディスプレイ２０２に提示され、２０４において、設計者に所望のアセットの名前、例えば示される例では椅子の名前を話すことを促し得る。

【0028】

図３は、ブロック３００において、設計者の次のスピーチ（例えば「肘掛け、四脚、クッション付き表面、及び背もたれがあるブラウン椅子」）が受信され、ブロック３０２において、テキストに変換されることを示す。ブロック３０３は、キーワードを抽出するために、テキスト処理モジュールを使用してテキストからキーワードが抽出されることを示す。その例では、キーワード抽出の出力は、以下のようであり得る。
オブジェクト：椅子
色：ブラウン
脚：４脚
表面：クッション
背面：背もたれ付き

【0029】

そのテキストは、ブロック３０４において、要求されたアセットの２Ｄ画像を生成するために、１つ以上のニューラルネットワーク等の人工知能（ＡＩ）エンジンに入力され得る。画像は最初から生成可能であり得る、またはアセットのライブラリにアクセスすることによって選択され得る。ライブラリの検索は、まず、キーワードに一致する画像に対して行われ得、一致が見つからない場合だけ、人間の言語における教師ありトレーニングまたは教師なしトレーニングに基づいて、２Ｄまたは３Ｄ生成モデルにテキストを使用してアセットの画像をＡＩエンジンが生成し得る。

【0030】

ブロック３０４からブロック３０６に進むと、２Ｄ画像は、例えば、層スタッキングまたは３Ｄアナグリフ立体図の作成、偽高さ解消等の他の技術を使用する２Ｄから３Ｄへの変換システムを使用するアセットの３Ｄアセットに変換される。２Ｄから３Ｄへの再構成モデルを使用し得る。エンコーダー－デコーダーニューラルアーキテクチャを含み得、このエンコーダーは、入力として２Ｄ画像を取得し、エンコーディングを生成し、３Ｄデコーダーは、エンコーディングに基づいて３Ｄオブジェクトを生成する。したがって、３Ｄオブジェクトまたはアセットは、２Ｄから３Ｄへの再構成を使用して生成でき、生成ニューラルモデルを使用して３Ｄオブジェクトを生成し、次に、それをスペックに合わせて変換する、または所望のスペックに応じて既存の３Ｄモデルを変換する。さらなる詳細は、図５及び図１２～図１５に記載される。

【0031】

３Ｄアセットは、例えば、図２に示されるディスプレイに提示され得、ブロック３０８において、音声、またはポイントアンドクリックデバイスグラフィック操作入力等の他の入力を使用して、アセットに対するアーティスト修正を受信し得る。その修正は、アセットの特定の部分のサイズ、形状、色、スタイル（しかし、アセットの全ての部分ではない）、アセットの表面のテクスチャ等の変化を含み得る。ブロック３１０において、修正後の最終３Ｄアセットは、コンピューターシミュレーションにおいて使用するために生成される。

【0032】

図４は、４０４において、所望のアセットの写真を入力することをユーザーに促すために、本明細書で開示された任意のディスプレイ等のディスプレイ４０２に提示され得るＵＩ４００を示す。写真は、４０６において２Ｄ形式で描写されており、アップロードセレクタ４０８を選択することによって、図５の処理のためにアップロードできる。

【0033】

図５は、ブロック５００において、写真内のアセットの２Ｄ画像が受信されることを示す。ブロック５０２に移動すると、２Ｄ画像は３Ｄアセットに変換される。ブロック５０４に進むと、３Ｄアセットは、コンピューターシミュレーションで使用するためにアーティストまたは他のユーザーによって本明細書に説明されるように修正され得る。３Ｄアセット生成の追加の詳細について、下記に説明される図１２～図１５に示される。

【0034】

図６は、コンピューターシミュレーションにおいて、複数のアセット及びそれらの相互に対する所望の相対位置を指定するための例示的なロジックを示す。ブロック６００から始まり、ダイレクトテキスト入力または音声テキスト変換からのテキストが受信され、そのテキストは、アセットが名前で記述され、それらの互いに対する所望の相対位置が記述される。

【0035】

ブロック６０２に進み、必要に応じて、また、アセット全体に適用されないアセットの一部だけの記述を受信し得る。その記述が音声入力として受信される場合、ブロック６０４において、それはテキストに変換される。ブロック６０６において、生成的敵対的ネットワーク（ＧＡＮ）等のＡＩエンジンを使用して、事前に受信したアセットの記述及び位置に基づいて２Ｄ画像を生成し得、画像は、本明細書に説明される原則に従って、ブロック６０８において、３Ｄシーンに変換される。３Ｄアセットは、２Ｄフェーズを経由することなく直接的に生成され得る。

【0036】

図７には以下が示される。ＵＩ７００は、本明細書に説明される任意のディスプレイ等のディスプレイ７０２に提示され得る。ＵＩ７００は、７０６においてスピーチテキスト変換後にテキスト形式で提示され得る所望のアセットシーンの記述を人が話すためのプロンプト７０４を含み得る。示される例では、その人は、Ｇａｕｄｉスタイル椅子として形成された椅子の左前方にカウチがあるシーンを指定している。

【0037】

図８は、図７のプロセスの例示的な結果を示す。図７に記載された例を続けると、椅子の３Ｄアセット８０２の左前方に、カウチの３Ｄモデル８００が示され、椅子の背面８０４は、フリル８０６によって描画されたＧａｕｄｉスタイルである。ラベル８０８は、また、ＧＡＮが所望のタスクを正しく実行したかどうかをアーティストが確認できるように、画像が何を描写しようとしているかを示す各々の画像によって提示され得る。

【0038】

ラベルを検証するための１つの手法は、３Ｄモデルを２Ｄ画像にレンダリングすること、及びテキストから生成された２Ｄ画像と、３Ｄモデルからレンダリングされた２Ｄ画像との類似性を比較するための類似性メトリックを使用することである。

【0039】

図９は、本明細書に説明される任意のディスプレイ等のディスプレイ９０２に提示され得るＵＩ９００を示す。ＵＩ９００はテキスト９０４を含み得、そのテキストは、例えば、図８に示される椅子を修正するために、示される例では、ＧａｕｄｉスタイルからＬｏｕｉｓＸＩＶスタイルに修正するために、アーティストの音声入力からのスピーチ－テキスト変換を示す。その結果、図８に示される椅子の背面のフリルは、より装飾的で上品なスタイルに変化し、与えられた例が生じる。

【0040】

図１０は上記の開示に関連する別の原理を示す。ブロック１０００において、アセットに対する所望の修正を示すテキスト、例えば、スピーチから変換され得るテキストを受信する。所望の修正に基づいて、ブロック１００２において、要求された修正を満足するために、関連するアセットの部分が一緒に適切に合成される。これは、所望の修正が関連するものとして識別されるアセットにおける境界領域に沿って補間されたピクセルの重みを変化させることによって行われ得る。

【0041】

また、アセットに加えて、アーティストは所望の背景の地形、例えば「泥」もしくは「大理石の御室」、または他の地形を発声して言い表し得る。また、上述したように、アセットのサイズはアーティストによって指定され得る。例えば、アーティストは高さ２０フィートである椅子を指定し得る。これにより、シミュレーションのゲーム空間に組み込まれたアセットがオブジェクトの最高部等の他のアセットと干渉し合う場合、最高部が変形して椅子を収容するものとして自動的に現れるようにさせられ得る。これにより、人間とＡＩとの協調的方法が必要になり得る。ＡＩだけのアプローチを使用して、広い座部または背の高い椅子等、より定性的な要件を満たすことができる。

【0042】

図１１は追加の態様を示す。本明細書に説明したように３Ｄアセットが作成されると、ブロック１１００において、それは物理エンジンに入力され得る。ブロック１１０２に進むと、アセットを移動または変形させる傾向があるように物理エンジンによって計算された一定慣性テンソルを維持するために、アセットのジオメトリが例えばＧＡＮによって修正され得る。したがって、慣性テンソルは、アセットが力に反応する挙動を記述するために、物理エンジンによって解かれ得る。例えば、物理エンジンは、生成された３Ｄアセットの現在の構造的特徴に基づき、特定の力で押されたときに転倒するかどうかを判定できる。

【0043】

言い換えれば、ＡＩエンジンはアセットの構造の物理的特性を調べ、構造が物理にどのように反応するかを予測し、以前のオブジェクトの物理比をどのように維持するかを判定できる。制約が課され得、例えば、アセットが家具である場合、３Ｄアセットがどの程度の重量値でエミュレートされ得ようが、家具が転倒することを防止する属性を用いて生成する必要がある。これは、例えば、アセットの部分の寸法及び重量を適切に変更することによって、例えばアセットの様々な部分の総トルクをゼロに維持することによって達成され得る。言い換えれば、ルールベースのアプローチは、オブジェクト自体を生成するために、ＡＩと組み合わせることができる。ブロック１１０４において、更新されたアセット（またはその物理的判定）はＡＩエンジンにフィードバックされる。

【0044】

視覚的特性に加えて、本明細書に説明される技術を使用して、ＧＡＮ等の別個の各々のＡＩエンジンを使用してアセットの音響特性及び材料特性を修正し得る。例えば、ＧＡＮは、アセットがどのように力を吸収するかについてのアセットのプロパティを定めるために使用され得る。例えば、弾丸に当たった場合、アセットが粉砕もしくは割れるか、または弾丸を吸収するかを定める。手りゅう弾を表すアセットは、異なるアセットの存在下で異なる種類の爆発をもたらすように設計され得る。

【0045】

ここで、図１２を参照すると、２Ｄから３Ｄへのグラフィックアセット生成のための技術の概要が示される。図１２の技術は、新しいアセットのために、または既存の３Ｄモデルを変換するのが不可能であるときに有用である。この技術は生成及び変換をサポートする。

【0046】

ブロック１２００から始まり、上述の例を実施するために、椅子等のリアル２Ｄオブジェクトの写真等の表現１２０２が、２Ｄ合成のための条件付き生成ニューラルモデルに入力される。結果として得られる出力１２０４は、合成された椅子の２Ｄでの表現である。出力１２０４は、補間及び特徴編集のために、オプションの２Ｄ変換モデル１２０６に送信される。モデル１２０６は完全にＡＩベースであり得る、または、モデル１２０６はＡＩモデルと人間のオペレータとの間でインタラクティブであり得る。

【0047】

２Ｄ変換モデル１２０６は、示される例では、２Ｄで椅子の変換された合成表現１２０８を出力する。表現１２０８は、アセットライブラリに含まれ、アーティスト入力に使用され、３Ｄ再構成に使用され得る。

【0048】

実際には、椅子等の２Ｄで変換された合成表現１２０８及び／または２Ｄのリアルアセットの表現１２０２は、ニューラルモデル１２１０に入力され得る。ニューラルモデル１２１０は、２Ｄ表現を３Ｄ形状に変換して、アセットの再構築メッシュ１２１２を出力する。ニューラルモデル１２１０は、適切に、陰関数及びメッシュ変形を含む。必要に応じて、再構築メッシュ１２１２は、３Ｄアセットのテクスチャのニューラルレンダリングのためにテクスチャ変換モデル１２１４に入力され得る。

【0049】

図１３は特徴変換の制御を示す。ブロック１３００から始まり、２Ｄ生成モデル（生成的敵対的ネットワーク（ＧＡＮ）等）は、アセットを生成することを、テーブル及び椅子等の各々のアセットクラスでトレーニングされる。トレーニングは、教師あり、半教師あり、または教師なしであり得る。

【0050】

アセットが要求されるとき、本明細書で指定されたアセットに対して適切なトレーニングされたモデルが選択される。例えば、椅子、テーブル等を生成するために別個のモデルが存在する場合、指定されたアセットに基づいて、モデルが選択される。

【0051】

アーティストは、典型的に、テクスチャ、色、及び形状（ジオメトリ）等、変換するアセットの特性を指定する。生成されたアセットを変換して入力記述内のスペックを満たすように変換するために、ブロック１３０２において、生成は、注釈付き特徴（ｙラベル）とみなされ得る、記述から抽出されたキーワード（例えば属性）に基づいて調整される。ある例では、椅子の５つの特徴、すなわち、肘掛け、脚、背面、表面、及び風景（例えば、前面または後面）を使用し得る。

【0052】

ブロック１３０４に進むと、エンコーディングは、異なる重みを使用して、注釈付きの椅子に関して生成され得、その重みは、アーティストの仕様に最も合うように補間され得る。エンコーディングは、特徴軸Ｆ（ｉ）を発見するために教師あり分類器１３０６をトレーニングするために送信される。ブロック１３０８において、特徴が新たな椅子のために特徴軸と共に編集され得ることにより、特有の特徴がインタラクティブに制御され、属性が変換され（人間とＡＩとのコラボレーション）、例えば既存の椅子のアセットが背もたれ付き椅子に変更される。したがって、新たな椅子のためのエンコーディングＷ’は、既存の椅子のエンコーディングＷに、アルファ及び特徴軸Ｆ（ｉ）の積を加えたものであり、アルファは、経験的に判定または発見され得る。

【0053】

図１４はさらなるアプローチを示す。２Ｄにおけるリアルまたは合成の椅子の表現１４００は、形状エンコーディングのために、２Ｄエンコーダー－デコーダーニューラルモデル１４０２に送信される。２Ｄエンコーダーモデル１４０２は、畳み込みネットワークまたは同様のディープニューラルネットワークであり得る。エンコーダーモデル１４０２への入力１４００は、図１３において生成され、（オプションで）変換された画像であり得、所望のアセットの記述を満たす。必要に応じて、オブジェクトのテクスチャをエンコードするためにテクスチャエンコーダー１４０４も提供し得る。

【0054】

３Ｄデコーダー１４０６は、入力されたエンコーディングを取得し、３Ｄオブジェクトを生成する。３Ｄデコーダー１４０６は、また、畳み込みネットワークまたは同様のＤＮＮでもあり得る。３Ｄデコーダーの出力は、３Ｄアセットを表す再構成メッシュ１４０８である。

【0055】

ネットワークをトレーニングするために、３Ｄ出力を２Ｄ画像にレンダリングし、入力画像と比較できる。トレーニングは、入力及び出力が密接に一致するまで繰り返し継続できる。代わりに、メッシュ変形を使用し得る。

【0056】

エンコーダー－デコーダーモデルは、記述におけるスペックを満たすように３Ｄオブジェクトを変換する追加エンコーディング（例えば、テクスチャエンコーディング）を組み込むように適応し得る。

【0057】

３Ｄアセットを生成する代替的なアプローチについて図１５を参照すると、ブロック１５００で３ＤＧＡＮモデルは、３Ｄオブジェクトを生成することがトレーニングされる。ブロック１５０２において、アセットの各部分に対する部分エンコーディング、例えば椅子に関する肘掛け、脚、背面等のエンコーディングが抽出される。ブロック１５０４に進むと、部分エンコーディングは、所望のアセットの形状記述１５０６に基づいて変換される。ブロック１５０８に進むと、３Ｄアセットの生成は、スタイルまたはサイズまたは色等の非形状記述等の外観記述１５１０に基づいて調整される。３Ｄアセットの再構成メッシュ１５１２は、必要に応じて、テクスチャリング有りまたは無しで出力される。すなわち、３Ｄアセットモデルは指定されたテクスチャに基づいてレンダリングされ得る。３Ｄバリエーションは指定された属性に基づいて生成できる。

【0058】

いくつかの例示的な実施形態を参照して本原理を説明してきたが、これらは限定することを意図していないことと、様々な代替の配置を使用して、本明細書で請求される主題を実施し得ることとが認識される。

【図1】