IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ソニー・コンピュータエンタテインメントの特許一覧

特表2024-514948コンピューターシミュレーションにおける音声駆動による3D静的アセットの作成
<>
  • 特表-コンピューターシミュレーションにおける音声駆動による3D静的アセットの作成 図1
  • 特表-コンピューターシミュレーションにおける音声駆動による3D静的アセットの作成 図2
  • 特表-コンピューターシミュレーションにおける音声駆動による3D静的アセットの作成 図3
  • 特表-コンピューターシミュレーションにおける音声駆動による3D静的アセットの作成 図4
  • 特表-コンピューターシミュレーションにおける音声駆動による3D静的アセットの作成 図5
  • 特表-コンピューターシミュレーションにおける音声駆動による3D静的アセットの作成 図6
  • 特表-コンピューターシミュレーションにおける音声駆動による3D静的アセットの作成 図7
  • 特表-コンピューターシミュレーションにおける音声駆動による3D静的アセットの作成 図8
  • 特表-コンピューターシミュレーションにおける音声駆動による3D静的アセットの作成 図9
  • 特表-コンピューターシミュレーションにおける音声駆動による3D静的アセットの作成 図10
  • 特表-コンピューターシミュレーションにおける音声駆動による3D静的アセットの作成 図11
  • 特表-コンピューターシミュレーションにおける音声駆動による3D静的アセットの作成 図12
  • 特表-コンピューターシミュレーションにおける音声駆動による3D静的アセットの作成 図13
  • 特表-コンピューターシミュレーションにおける音声駆動による3D静的アセットの作成 図14
  • 特表-コンピューターシミュレーションにおける音声駆動による3D静的アセットの作成 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-03
(54)【発明の名称】コンピューターシミュレーションにおける音声駆動による3D静的アセットの作成
(51)【国際特許分類】
   G06T 19/00 20110101AFI20240327BHJP
   G06F 3/16 20060101ALI20240327BHJP
【FI】
G06T19/00 A
G06F3/16 650
G06F3/16 620
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023564623
(86)(22)【出願日】2022-04-22
(85)【翻訳文提出日】2023-10-20
(86)【国際出願番号】 US2022025958
(87)【国際公開番号】W WO2022235443
(87)【国際公開日】2022-11-10
(31)【優先権主張番号】17/307,988
(32)【優先日】2021-05-04
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】310021766
【氏名又は名称】株式会社ソニー・インタラクティブエンタテインメント
(74)【代理人】
【識別番号】100105924
【弁理士】
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】クリシュナムルティ、スーダ
(72)【発明者】
【氏名】テイラー、マイケル
【テーマコード(参考)】
5B050
【Fターム(参考)】
5B050AA10
5B050BA09
5B050BA11
5B050BA13
5B050BA15
5B050CA07
5B050CA08
5B050EA12
5B050EA13
5B050EA19
5B050EA26
5B050FA02
5B050FA05
5B050FA10
5B050FA13
(57)【要約】
【課題】テキストまたは音声から成り得る自然言語記述からの1つまたは複数のオブジェクトから成る3Dシーンが生成される(300、302)。
【解決手段】アセット属性及び配置のような関連キーワードが記述から抽出される(303)。これらのキーワードを用い、生成モデルを用いて2D画像が生成される(304)。2Dから3Dオブジェクトを再構成するために、別のニューラルモデルが使用される(306)。3Dオブジェクトを、配置仕様に合うように組み立てる(310)ことができる。択一的に、3Dオブジェクトは、本明細書における仕様を満たすように、既存の3Dオブジェクトを変換することによって、または3D生成モデルを使用することによって生成される。
【選択図】図1
【特許請求の範囲】
【請求項1】
テキストを受信することと、
コンピューターシミュレーションアセットの2次元(2D)画像をレンダリングするために、少なくとも1つのニューラルネットワークを使用して前記テキストを処理することと、
前記2D画像を3次元(3D)アセットに変換することと、
少なくとも1つのコンピューターシミュレーションで前記3Dアセットを提示することと、
を含む、方法。
【請求項2】
前記テキストが、スピーチ変換から受信される、請求項1に記載の方法。
【請求項3】
少なくとも部分的に前記テキストに基づいて、オーディオを前記3Dアセットに関連付けることを含む、請求項1に記載の方法。
【請求項4】
前記スピーチ変換は、少なくとも1つの位置を示し、前記3Dアセットは、前記位置と一貫性がある、請求項2に記載の方法。
【請求項5】
前記スピーチ変換は、少なくとも複数のオブジェクトを示し、前記3Dアセットは、前記複数のオブジェクトと一貫性がある、請求項2に記載の方法。
【請求項6】
当前記3Dアセットを提示するより前に、前記3Dアセットを修正するためにアーティストコンピューターを使用することを含む、請求項1に記載の方法。
【請求項7】
前記3Dアセットの修正を前記アーティストコンピューターに入力するために、マイクロホンを使用することを含む、請求項6に記載の方法。
【請求項8】
一時的な信号ではなく、
2次元(2D)画像の写真を受信することと、
前記2D画像を3Dアセットに変換することと、
前記3Dアセットを少なくとも1つのコンピューターシミュレーションで提示することと、
のために少なくとも1つのプロセッサによって実行可能な命令を含む少なくとも1つのコンピューターメモリ
を備える、デバイス。
【請求項9】
前記命令は、少なくとも部分的にテキストに基づいて、前記3Dアセットにオーディオを関連付けるために実行可能である、請求項8に記載のデバイス。
【請求項10】
前記命令は、少なくとも1つの位置を示すスピーチを受信するために実行可能であり、前記3Dアセットは、前記位置と一貫性がある、請求項8に記載のデバイス。
【請求項11】
前記命令は、少なくとも複数のオブジェクトを示すスピーチを受信するために実行可能であり、前記3Dアセットは、前記複数のオブジェクトと一貫性がある、請求項8に記載のデバイス。
【請求項12】
前記命令は、前記3Dアセットを提示するより前に、アーティストコンピューターを使用して前記3Dアセットを修正するために実行可能である、請求項8に記載のデバイス。
【請求項13】
前記命令は、前記写真をアップロードするためのセレクタを有するユーザーインターフェース(UI)をディスプレイに提示するために実行可能である、請求項8に記載のデバイス。
【請求項14】
前記命令は、所望のアセットシーンを発話させるためのプロンプトを有するユーザーインターフェース(UI)をディスプレイに提示するために実行可能である、請求項8に記載のデバイス。
【請求項15】
少なくとも1つのプロセッサと、
前記プロセッサによって制御されるように構成された少なくとも1つのコンピューター出力デバイスと、
を備えた装置であって、
前記プロセッサが、
2次元(2D)画像を識別することと、
前記2D画像を3Dアセットに変換することと、
コンピューターシミュレーションで前記3Dアセットをオブジェクトとして使用することと、
を行う命令でプログラムされる、
前記装置。
【請求項16】
前記命令は、
前記2D画像の写真の入力に少なくとも部分的に基づき、前記2D画像を識別するために実行可能である、請求項15に記載の装置。
【請求項17】
前記命令は、
前記2D画像を記述するテキスト入力に少なくとも部分的に基づき、前記2D画像を識別するために実行可能である、請求項15に記載の装置。
【請求項18】
前記命令が、
スピーチ入力から前記テキスト入力を導出するために実行可能である、請求項17に記載の装置。
【請求項19】
前記命令が、
少なくとも1つのニューラルネットワークを使用して、前記2D画像を記述するテキスト入力に少なくとも部分的に基づいて、前記2D画像を生成するために実行可能である、請求項17に記載の装置。
【請求項20】
前記命令は、
少なくとも部分的にテキスト入力に基づき、前記3Dアセットにオーディオを関連づけるために実行可能である、請求項15に記載の装置。
【請求項21】
前記命令は、
3D再構成の前に、前記2D画像をテキスト及び/または音声入力に基づいて修正するために実行可能である、請求項15に記載の装置。
【請求項22】
前記命令は、
前記3Dアセットに対する環境影響の物理モデリングに少なくとも部分的に基づき、前記3Dアセットを変更するために実行可能である、請求項15に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、必然的にコンピューター技術が原因となり、具体的な技術的改善を生じさせる、技術的に発明性のある非定型な解決策に関する。
【背景技術】
【0002】
本明細書で理解されるように、共通の背景オブジェクト等の一般的に使用されるコンピューターゲームアセットを使用して、コンピューターゲームの見える魅力を高める。
【発明の概要】
【0003】
本原理は、コンテンツクリエーターが望むアセットを自然言語入力として記述し、その(音声)入力から2Dまたは3Dアセットを作成することを可能にする。また、繰り返し使用するアーティストのための初期プロトタイプアセットの作成も容易になる。
【0004】
したがって、方法は、スピーチ変換などからテキストを受信することと、コンピューターシミュレーションアセットの2次元(2D)画像をレンダリングするために、少なくとも1つのニューラルネットワークを使用してテキストを処理することとを含む。この方法は、2D画像を3次元(3D)アセットに変換することも含む。本方法は、少なくとも1つのコンピューターシミュレーションで3Dアセットを提示することを含む。
【0005】
テキストは、キーボードまたはスピーチから入力することができ、少なくとも1つの位置を示すことができ、3Dアセットはこの位置と一貫性がある。テキスト/スピーチは少なくとも複数のオブジェクトを示すことができ、3Dアセットは複数のオブジェクトと一貫性がある。この方法は、3Dアセットを提示するより前に、3Dアセットを修正するためにアーティストコンピューターを使用することを含んでもよい。3Dアセットの修正をアーティストコンピューターに入力するために、マイクロホンを使用することができる。
【0006】
別の態様では、デバイスが、一時的信号ではない少なくとも1つのコンピューターメモリを含み、このコンピューターメモリは、2次元(2D)画像の写真を受信することのために、少なくとも1つのプロセッサによって実行可能な命令を含む。命令は、2D画像を3Dアセットに変換すること、及び3Dアセットを少なくとも1つのコンピューターシミュレーションで提示すること、のために実行可能である。
【0007】
別の態様では、装置が、少なくとも1つのプロセッサと、プロセッサによって制御されるように構成された少なくとも1つのコンピューター出力デバイスとを備える。プロセッサは、2次元(2D)画像を識別することと、2D画像を3Dアセットに変換することと、コンピューターシミュレーションで3Dアセットをオブジェクトとして使用することと、を行う命令でプログラムされる。
【0008】
本願の詳細は、その構造及び動作との両方について、添付の図面を参照すると最良に理解でき、図面において、類似の参照符号は、類似の部分を指す。
【図面の簡単な説明】
【0009】
図1】本原理による実施例を含む例示的なシステムのブロック図である。
図2】コンピューターシミュレーションアセットをテキスト識別するためにスピーチを入力することを人に促す例示的なスクリーンショットを示す。
図3】3Dアセットに対する、スピーチをテキストに変換するための例示的なフローチャートフォーマットの例示的なロジックを示す。
図4】コンピューターシミュレーションアセットを生成するために画像を入力することを人に促す例示的なスクリーンショットを示す。
図5】画像を3Dアセットに変換するための例示的なフローチャートフォーマットの例示的なロジックを示す。
図6】3Dアセットの位置及び部分に対して、テキストをスピーチから変換するために、例示的なフローチャートフォーマットの例示的なロジックを示す。
図7図6に関連する例示的なスクリーンショットを示す。
図8図6に関連する例示的なスクリーンショットを示す。
図9】アセットの一部を修正するために、図6に関連する例示的なスクリーンショットを示す。
図10】アセットの一部を修正するために、例示的なフローチャートフォーマットで例示的なロジックを示す。
図11】3Dアセットと物理エンジンとの間のクローズドループ処理のために例示的なフローチャートフォーマットで例示的なロジックを示す。
図12】2Dから3Dへのアセット生成のための技術の概要を示す。
図13】制御された特徴変換のための技術を示す。
図14】2Dから3Dへの再構成アプローチを示す。
図15】2D入力を用いない3Dアセット生成のための技術を示す。
【発明を実施するための形態】
【0010】
本開示は、概して、限定ではないが、コンピューターゲームネットワーク等の家電製品(CE)デバイスネットワークの態様を含むコンピューターエコシステムに関する。本明細書のシステムはネットワークを通じて接続され得るサーバーコンポーネント及びクライアントコンポーネントを含み得、それにより、クライアントコンポーネントとサーバーコンポーネントとの間でデータが交換され得る。クライアントコンポーネントは、Sony PlayStation(登録商標)等のゲーム機またはMicrosoft(登録商標)もしくはNintendo(登録商標)もしくは他の製造者によって作成されたゲーム機、仮想現実(VR)ヘッドセット、拡張現実(AR)ヘッドセット、ポータブルテレビ(例えば、スマートテレビ、インターネット対応テレビ)、ラップトップ及びタブレットコンピューター等のポータブルコンピューター、ならびにスマートフォン及び下記に説明される追加例を含む他のモバイルデバイスを含む、1つ以上のコンピューティングデバイスを含み得る。これらのクライアントデバイスは、様々な動作環境で動作し得る。例えば、クライアントコンピューターの一部は、例として、Linux(登録商標)オペレーティングシステム、Microsoft(登録商標)のオペレーティングシステム、もしくはUnix(登録商標)オペレーティングシステム、またはApple(登録商標)社もしくはGoogle(登録商標)によって製造されたオペレーティングシステムを使用し得る。これらの動作環境を使用して、Microsoft(登録商標)もしくはGoogle(登録商標)もしくはMozilla(登録商標)によって作成されたブラウザ、または下記に説明されるインターネットサーバーによってホストされるウェブサイトにアクセスできる他のブラウザプログラム等の1つ以上の閲覧プログラムを実行し得る。また、本原理に従った動作環境を使用して、1つ以上のコンピューターゲームプログラムを実行し得る。
【0011】
サーバー及び/またはゲートウェイは、インターネット等のネットワークを通じてデータを受信及び伝送するサーバーを構成する命令を実行する1つ以上のプロセッサを含み得る。または、クライアント及びサーバーは、ローカルイントラネットまたは仮想プライベートネットワークを通じて接続できる。サーバーまたはコントローラーは、Sony PlayStation(登録商標)等のゲーム機、パーソナルコンピューター等によってインスタンス化され得る。
【0012】
情報は、クライアントとサーバーとの間でネットワークを通じて交換され得る。この目的のために及びセキュリティのために、サーバー及び/またはクライアントは、ファイアウォール、ロードバランサ、テンポラリストレージ、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含み得る。1つ以上のサーバーは、ネットワークメンバーにオンラインソーシャルウェブサイト等のセキュアコミュニティを提供する方法を実施する装置を形成し得る。
【0013】
プロセッサは、アドレスライン、データライン、及び制御ライン等の様々なライン、ならびにレジスタ及びシフトレジスタによってロジックを実行できるシングルチッププロセッサまたはマルチチッププロセッサであり得る。
【0014】
一実施形態に含まれるコンポーネントは、他の実施形態では、任意の適切な組み合わせで使用できる。例えば、本明細書に説明される及び/または図で示される様々なコンポーネントのいずれかは、組み合わされ得る、交換され得る、または他の実施形態から排除され得る。
【0015】
「A、B、及びCのうちの少なくとも1つを有するシステム」(同様に「A、B、またはCのうちの少なくとも1つを有するシステム」及び「A、B、Cのうちの少なくとも1つを有するシステム」)は、A単独、B単独、C単独、A及びBを一緒に、A及びCを一緒に、B及びCを一緒に、ならびに/またはA、B、及びC等を一緒に有するシステムを含む。
【0016】
ここで具体的に図1を参照すると、例示的なシステム10が示され、システム10は、本原理による、上述され及び下記に詳述される、例示的なデバイスの1つ以上を含み得る。システム10に含まれる第1の例示的デバイスは、限定ではないが、テレビチューナ(同様に、テレビを制御するセットトップボックス)を有するインターネット対応テレビ等のオーディオビデオデバイス(AVD)12等の家電製品(CE)デバイスである。代わりに、AVD12は、また、コンピューター制御型インターネット対応(「スマート」)電話、タブレットコンピューター、ノートブックコンピューター、HMD、ウェアラブルコンピューター制御デバイス、コンピューター制御型インターネット対応ミュージックプレイヤー、コンピューター制御型インターネット対応ヘッドフォン、インプラント可能な皮膚用デバイス等のコンピューター制御型インターネット対応のインプラント可能なデバイス等であり得る。とにかく、AVD12は、本原理を実施するように構成される(例えば、本原理を実施するように他のCEデバイスと通信し、本明細書に説明されるロジックを実行し、本明細書に説明されるいずれかの他の機能及び/または動作を行う)ことを理解されたい。
【0017】
したがって、そのような原理を実施するために、AVD12は、図1に示されるコンポーネントの一部または全てによって確立できる。例えば、AVD12は、1つ以上のディスプレイ14を含み得、1つ以上のディスプレイ14は、高解像度もしくは超解像度の「4K」またはより高い解像度のフラットスクリーンによって実装され得、ディスプレイのタッチによりユーザー入力信号を受信するためにタッチ対応であり得る。AVD12は、本原理に従ってオーディオを出力するための1つ以上のスピーカー16と、可聴コマンドをAVD12に入力して、AVD12を制御するための、例えば、オーディオ受信機/マイクロホン等の少なくとも1つの追加入力デバイス18と、を含み得る。例示的なAVD12は、また、1つ以上のプロセッサ24の制御の下、インターネット、WAN、LAN等の少なくとも1つのネットワーク22を通じて通信するための1つ以上のネットワークインターフェース20を含み得る。また、グラフィックプロセッサを含み得る。したがって、インターフェース20は、限定ではないが、Wi-Fi(登録商標)送受信機であり得、Wi-Fi(登録商標)送受信機は、限定ではないが、メッシュネットワークトランシーバー等の無線コンピューターネットワークインターフェースの例である。プロセッサ24は、ディスプレイ14をそこで画像を提示するように制御することと、そこから入力を受信すること等の本明細書に説明されるAVD12の他の要素を含む本原理を実施するようにAVD12を制御することを理解されたい。さらに、ネットワークインターフェース20は、有線もしくは無線のモデムもしくはルータ、または、無線テレフォニ送受信機もしくは上述したWi-Fi(登録商標)送受信機等の他の適切なインターフェースであり得ることに留意されたい。
【0018】
上述に加えて、AVD12は、また、別のCEデバイスに物理的に接続するための高精細マルチメディアインターフェース(HDMI(登録商標))ポートもしくはUSBポート、及び/またはヘッドフォンを経由してAVD12からユーザーにオーディオを提示するためにAVD12にヘッドフォンを接続するためのヘッドフォンポート等の1つ以上の入力ポート26を含み得る。例えば、入力ポート26は、オーディオビデオコンテンツのケーブルまたは衛星ソース26aに有線でまたは無線で接続され得る。したがって、ソース26aは、分離もしくは統合されたセットトップボックス、またはサテライト受信機であり得る。または、ソース26aは、コンテンツを含むゲーム機またはディスクプレイヤーであり得る。ソース26aは、ゲーム機として実装されるとき、CEデバイス44に関連して下記に説明されるコンポーネントの一部または全てを含み得る。
【0019】
AVD12は、さらに、一時的信号ではない、ディスクベースストレージまたはソリッドステートストレージ等の1つ以上のコンピューターメモリ28を含み得、これらのストレージは、いくつかの場合、スタンドアロンデバイスとして、またはAVプログラムを再生するためにAVDのシャーシの内部もしくは外部のいずれかでパーソナルビデオ録画デバイス(PVR)もしくはビデオディスクプレイヤーとして、または取り外し可能メモリ媒体として、AVDのシャーシ内で具現化される。また、いくつかの実施形態では、AVD12は、限定ではないが、サテライト基地局もしくは携帯電話基地局から地理的位置情報を受信し、情報をプロセッサ24に提供し、及び/またはAVD12がプロセッサ24と併せて配置される高度を判定するように構成される、携帯電話受信機、GPS受信機、及び/または高度計30等の位置受信機または場所受信機を含み得る。コンポーネント30は、また、3次元でのAVD12の位置及び向きを判定するために、典型的に、加速度計、ジャイロスコープ、及び磁力計の組み合わせを含む慣性測定ユニット(IMU)によって実現され得る。
【0020】
AVD12の説明を続けると、いくつかの実施形態では、AVD12は、1つ以上のカメラ32を含み得、1つ以上のカメラ32は、熱画像カメラ、ウェブカメラ等のデジタルカメラ、ならびに/または本原理に従って写真/画像及び/もしくはビデオを集めるように、AVD12に統合され、プロセッサ24によって制御可能であるカメラであり得る。また、AVD12に含まれるのは、Bluetooth(登録商標)及び/または近距離無線通信(NFC)技術を各々使用して、他のデバイスと通信するためのBluetooth(登録商標)送受信機34及び他のNFC要素36であり得る。例示的なNFC素子は、無線自動識別(RFID)素子であり得る。
【0021】
さらにまた、AVD12は、プロセッサ24に入力を提供する1つ以上の補助センサ38(例えば、加速度計、ジャイロスコープ、サイクロメータ等の運動センサ、または磁気センサ、赤外線(IR)センサ、光学センサ、速度センサ及び/またはケイデンスセンサ、ジェスチャセンサ(例えば、ジェスチャコマンドを検知するためのセンサ))を含み得る。AVD12は、プロセッサ24に入力を提供する無線(over-the-air(OTA))TV放送を受信するための無線テレビ放送ポート40を含み得る。上述に加えて、AVD12は、また、赤外線(IR)データアソシエーション(IRDA)デバイス等のIR伝送機及び/またはIR受信機及び/またはIR送受信機42も含み得ることに留意されたい。バッテリー(図示せず)は、AVD12に給電するために提供され得、運動エネルギーを電力に変換してバッテリーを充電し、及び/またはAVD12に給電し得る運動エネルギーハーベスターであり得る。グラフィックスプロセッシングユニット(GPU)44及びフィールドプログラマブルゲートアレイ46も含み得る。
【0022】
さらに図1を参照すると、AVD12に加えて、システム10は、1つ以上の他のCEデバイスタイプを含み得る。一例では、第1のCEデバイス48は、AVD12に直接送信されたコマンドを介して及び/または後述のサーバーを経由して、コンピューターゲームのオーディオ及びビデオをAVD12に送信するために使用できるコンピューターゲーム機であり得る一方、第2のCEデバイス50は第1のCEデバイス48と同様のコンポーネントを含み得る。示される例では、第2のCEデバイス50は、プレイヤーによって操作されたコンピューターゲームコントローラー、またはプレイヤーによって装着されたヘッドマウントディスプレイ(HMD)として構成され得る。示される例では、2つのCEデバイスだけが示され、より少ない数またはより多い数のデバイスが使用され得ることを理解されたい。本明細書のデバイスは、AVD12用に示されるコンポーネントの一部または全てを実装し得る。次の図に示されるコンポーネントのいずれかは、AVD12の場合に示されるコンポーネントの一部または全てを組み込み得る。
【0023】
ここで、上述の少なくとも1つのサーバー52を参照すると、サーバー52は、少なくとも1つのサーバープロセッサ54と、ディスクベースストレージまたはソリッドステートストレージ等の少なくとも1つの有形コンピューター可読記憶媒体56と、サーバープロセッサ54の制御の下、ネットワーク22を通じて図1の他のデバイスとの通信を可能にし、実際に、本原理に従ってサーバーとクライアントデバイスとの間の通信を容易にし得る少なくとも1つのネットワークインターフェース58とを含む。ネットワークインターフェース58は、例えば、有線もしくは無線のモデムもしくはルータ、Wi-Fi送受信機、または、例えば、無線テレフォニ送受信機等の他の適切なインターフェースであり得ることに留意されたい。
【0024】
したがって、いくつかの実施形態では、サーバー52は、インターネットサーバーまたはサーバー「ファーム」全体であり得、「クラウド」機能を含み得、「クラウド」機能を行い得、それにより、システム10のデバイスは、例えば、ネットワークゲーミングアプリケーションに関する例示的な実施形態ではサーバー52を介して「クラウド」環境にアクセスし得る。または、サーバー52は、1つ以上のゲーム機、または図1に示される他のデバイスと同じ部屋もしくはその近くにある他のコンピューターによって実装され得る。
【0025】
以下の図に示されるコンポーネントは、図1に示されるコンポーネントの一部または全てを含み得る。
【0026】
図2及び図3は、ゲーム設計者が、最初から、またはアセットライブラリに事前に記憶されたアセットに適応することによって、コンピューターゲーム等のコンピューターシミュレーションのための3次元(3D)アセット、典型的に、共通するキャラクタでないアセットを作成及び/または修正することを可能にするための技術を示す。
【0027】
図2に示されるように、ユーザーインターフェース200は、本明細書に説明される任意のディスプレイ等のディスプレイ202に提示され、204において、設計者に所望のアセットの名前、例えば示される例では椅子の名前を話すことを促し得る。
【0028】
図3は、ブロック300において、設計者の次のスピーチ(例えば「肘掛け、四脚、クッション付き表面、及び背もたれがあるブラウン椅子」)が受信され、ブロック302において、テキストに変換されることを示す。ブロック303は、キーワードを抽出するために、テキスト処理モジュールを使用してテキストからキーワードが抽出されることを示す。その例では、キーワード抽出の出力は、以下のようであり得る。
オブジェクト:椅子
色:ブラウン
脚:4脚
表面:クッション
背面:背もたれ付き
【0029】
そのテキストは、ブロック304において、要求されたアセットの2D画像を生成するために、1つ以上のニューラルネットワーク等の人工知能(AI)エンジンに入力され得る。画像は最初から生成可能であり得る、またはアセットのライブラリにアクセスすることによって選択され得る。ライブラリの検索は、まず、キーワードに一致する画像に対して行われ得、一致が見つからない場合だけ、人間の言語における教師ありトレーニングまたは教師なしトレーニングに基づいて、2Dまたは3D生成モデルにテキストを使用してアセットの画像をAIエンジンが生成し得る。
【0030】
ブロック304からブロック306に進むと、2D画像は、例えば、層スタッキングまたは3Dアナグリフ立体図の作成、偽高さ解消等の他の技術を使用する2Dから3Dへの変換システムを使用するアセットの3Dアセットに変換される。2Dから3Dへの再構成モデルを使用し得る。エンコーダー-デコーダーニューラルアーキテクチャを含み得、このエンコーダーは、入力として2D画像を取得し、エンコーディングを生成し、3Dデコーダーは、エンコーディングに基づいて3Dオブジェクトを生成する。したがって、3Dオブジェクトまたはアセットは、2Dから3Dへの再構成を使用して生成でき、生成ニューラルモデルを使用して3Dオブジェクトを生成し、次に、それをスペックに合わせて変換する、または所望のスペックに応じて既存の3Dモデルを変換する。さらなる詳細は、図5及び図12図15に記載される。
【0031】
3Dアセットは、例えば、図2に示されるディスプレイに提示され得、ブロック308において、音声、またはポイントアンドクリックデバイスグラフィック操作入力等の他の入力を使用して、アセットに対するアーティスト修正を受信し得る。その修正は、アセットの特定の部分のサイズ、形状、色、スタイル(しかし、アセットの全ての部分ではない)、アセットの表面のテクスチャ等の変化を含み得る。ブロック310において、修正後の最終3Dアセットは、コンピューターシミュレーションにおいて使用するために生成される。
【0032】
図4は、404において、所望のアセットの写真を入力することをユーザーに促すために、本明細書で開示された任意のディスプレイ等のディスプレイ402に提示され得るUI400を示す。写真は、406において2D形式で描写されており、アップロードセレクタ408を選択することによって、図5の処理のためにアップロードできる。
【0033】
図5は、ブロック500において、写真内のアセットの2D画像が受信されることを示す。ブロック502に移動すると、2D画像は3Dアセットに変換される。ブロック504に進むと、3Dアセットは、コンピューターシミュレーションで使用するためにアーティストまたは他のユーザーによって本明細書に説明されるように修正され得る。3Dアセット生成の追加の詳細について、下記に説明される図12図15に示される。
【0034】
図6は、コンピューターシミュレーションにおいて、複数のアセット及びそれらの相互に対する所望の相対位置を指定するための例示的なロジックを示す。ブロック600から始まり、ダイレクトテキスト入力または音声テキスト変換からのテキストが受信され、そのテキストは、アセットが名前で記述され、それらの互いに対する所望の相対位置が記述される。
【0035】
ブロック602に進み、必要に応じて、また、アセット全体に適用されないアセットの一部だけの記述を受信し得る。その記述が音声入力として受信される場合、ブロック604において、それはテキストに変換される。ブロック606において、生成的敵対的ネットワーク(GAN)等のAIエンジンを使用して、事前に受信したアセットの記述及び位置に基づいて2D画像を生成し得、画像は、本明細書に説明される原則に従って、ブロック608において、3Dシーンに変換される。3Dアセットは、2Dフェーズを経由することなく直接的に生成され得る。
【0036】
図7には以下が示される。UI700は、本明細書に説明される任意のディスプレイ等のディスプレイ702に提示され得る。UI700は、706においてスピーチテキスト変換後にテキスト形式で提示され得る所望のアセットシーンの記述を人が話すためのプロンプト704を含み得る。示される例では、その人は、Gaudiスタイル椅子として形成された椅子の左前方にカウチがあるシーンを指定している。
【0037】
図8は、図7のプロセスの例示的な結果を示す。図7に記載された例を続けると、椅子の3Dアセット802の左前方に、カウチの3Dモデル800が示され、椅子の背面804は、フリル806によって描画されたGaudiスタイルである。ラベル808は、また、GANが所望のタスクを正しく実行したかどうかをアーティストが確認できるように、画像が何を描写しようとしているかを示す各々の画像によって提示され得る。
【0038】
ラベルを検証するための1つの手法は、3Dモデルを2D画像にレンダリングすること、及びテキストから生成された2D画像と、3Dモデルからレンダリングされた2D画像との類似性を比較するための類似性メトリックを使用することである。
【0039】
図9は、本明細書に説明される任意のディスプレイ等のディスプレイ902に提示され得るUI900を示す。UI900はテキスト904を含み得、そのテキストは、例えば、図8に示される椅子を修正するために、示される例では、GaudiスタイルからLouisXIVスタイルに修正するために、アーティストの音声入力からのスピーチ-テキスト変換を示す。その結果、図8に示される椅子の背面のフリルは、より装飾的で上品なスタイルに変化し、与えられた例が生じる。
【0040】
図10は上記の開示に関連する別の原理を示す。ブロック1000において、アセットに対する所望の修正を示すテキスト、例えば、スピーチから変換され得るテキストを受信する。所望の修正に基づいて、ブロック1002において、要求された修正を満足するために、関連するアセットの部分が一緒に適切に合成される。これは、所望の修正が関連するものとして識別されるアセットにおける境界領域に沿って補間されたピクセルの重みを変化させることによって行われ得る。
【0041】
また、アセットに加えて、アーティストは所望の背景の地形、例えば「泥」もしくは「大理石の御室」、または他の地形を発声して言い表し得る。また、上述したように、アセットのサイズはアーティストによって指定され得る。例えば、アーティストは高さ20フィートである椅子を指定し得る。これにより、シミュレーションのゲーム空間に組み込まれたアセットがオブジェクトの最高部等の他のアセットと干渉し合う場合、最高部が変形して椅子を収容するものとして自動的に現れるようにさせられ得る。これにより、人間とAIとの協調的方法が必要になり得る。AIだけのアプローチを使用して、広い座部または背の高い椅子等、より定性的な要件を満たすことができる。
【0042】
図11は追加の態様を示す。本明細書に説明したように3Dアセットが作成されると、ブロック1100において、それは物理エンジンに入力され得る。ブロック1102に進むと、アセットを移動または変形させる傾向があるように物理エンジンによって計算された一定慣性テンソルを維持するために、アセットのジオメトリが例えばGANによって修正され得る。したがって、慣性テンソルは、アセットが力に反応する挙動を記述するために、物理エンジンによって解かれ得る。例えば、物理エンジンは、生成された3Dアセットの現在の構造的特徴に基づき、特定の力で押されたときに転倒するかどうかを判定できる。
【0043】
言い換えれば、AIエンジンはアセットの構造の物理的特性を調べ、構造が物理にどのように反応するかを予測し、以前のオブジェクトの物理比をどのように維持するかを判定できる。制約が課され得、例えば、アセットが家具である場合、3Dアセットがどの程度の重量値でエミュレートされ得ようが、家具が転倒することを防止する属性を用いて生成する必要がある。これは、例えば、アセットの部分の寸法及び重量を適切に変更することによって、例えばアセットの様々な部分の総トルクをゼロに維持することによって達成され得る。言い換えれば、ルールベースのアプローチは、オブジェクト自体を生成するために、AIと組み合わせることができる。ブロック1104において、更新されたアセット(またはその物理的判定)はAIエンジンにフィードバックされる。
【0044】
視覚的特性に加えて、本明細書に説明される技術を使用して、GAN等の別個の各々のAIエンジンを使用してアセットの音響特性及び材料特性を修正し得る。例えば、GANは、アセットがどのように力を吸収するかについてのアセットのプロパティを定めるために使用され得る。例えば、弾丸に当たった場合、アセットが粉砕もしくは割れるか、または弾丸を吸収するかを定める。手りゅう弾を表すアセットは、異なるアセットの存在下で異なる種類の爆発をもたらすように設計され得る。
【0045】
ここで、図12を参照すると、2Dから3Dへのグラフィックアセット生成のための技術の概要が示される。図12の技術は、新しいアセットのために、または既存の3Dモデルを変換するのが不可能であるときに有用である。この技術は生成及び変換をサポートする。
【0046】
ブロック1200から始まり、上述の例を実施するために、椅子等のリアル2Dオブジェクトの写真等の表現1202が、2D合成のための条件付き生成ニューラルモデルに入力される。結果として得られる出力1204は、合成された椅子の2Dでの表現である。出力1204は、補間及び特徴編集のために、オプションの2D変換モデル1206に送信される。モデル1206は完全にAIベースであり得る、または、モデル1206はAIモデルと人間のオペレータとの間でインタラクティブであり得る。
【0047】
2D変換モデル1206は、示される例では、2Dで椅子の変換された合成表現1208を出力する。表現1208は、アセットライブラリに含まれ、アーティスト入力に使用され、3D再構成に使用され得る。
【0048】
実際には、椅子等の2Dで変換された合成表現1208及び/または2Dのリアルアセットの表現1202は、ニューラルモデル1210に入力され得る。ニューラルモデル1210は、2D表現を3D形状に変換して、アセットの再構築メッシュ1212を出力する。ニューラルモデル1210は、適切に、陰関数及びメッシュ変形を含む。必要に応じて、再構築メッシュ1212は、3Dアセットのテクスチャのニューラルレンダリングのためにテクスチャ変換モデル1214に入力され得る。
【0049】
図13は特徴変換の制御を示す。ブロック1300から始まり、2D生成モデル(生成的敵対的ネットワーク(GAN)等)は、アセットを生成することを、テーブル及び椅子等の各々のアセットクラスでトレーニングされる。トレーニングは、教師あり、半教師あり、または教師なしであり得る。
【0050】
アセットが要求されるとき、本明細書で指定されたアセットに対して適切なトレーニングされたモデルが選択される。例えば、椅子、テーブル等を生成するために別個のモデルが存在する場合、指定されたアセットに基づいて、モデルが選択される。
【0051】
アーティストは、典型的に、テクスチャ、色、及び形状(ジオメトリ)等、変換するアセットの特性を指定する。生成されたアセットを変換して入力記述内のスペックを満たすように変換するために、ブロック1302において、生成は、注釈付き特徴(yラベル)とみなされ得る、記述から抽出されたキーワード(例えば属性)に基づいて調整される。ある例では、椅子の5つの特徴、すなわち、肘掛け、脚、背面、表面、及び風景(例えば、前面または後面)を使用し得る。
【0052】
ブロック1304に進むと、エンコーディングは、異なる重みを使用して、注釈付きの椅子に関して生成され得、その重みは、アーティストの仕様に最も合うように補間され得る。エンコーディングは、特徴軸F(i)を発見するために教師あり分類器1306をトレーニングするために送信される。ブロック1308において、特徴が新たな椅子のために特徴軸と共に編集され得ることにより、特有の特徴がインタラクティブに制御され、属性が変換され(人間とAIとのコラボレーション)、例えば既存の椅子のアセットが背もたれ付き椅子に変更される。したがって、新たな椅子のためのエンコーディングW’は、既存の椅子のエンコーディングWに、アルファ及び特徴軸F(i)の積を加えたものであり、アルファは、経験的に判定または発見され得る。
【0053】
図14はさらなるアプローチを示す。2Dにおけるリアルまたは合成の椅子の表現1400は、形状エンコーディングのために、2Dエンコーダー-デコーダーニューラルモデル1402に送信される。2Dエンコーダーモデル1402は、畳み込みネットワークまたは同様のディープニューラルネットワークであり得る。エンコーダーモデル1402への入力1400は、図13において生成され、(オプションで)変換された画像であり得、所望のアセットの記述を満たす。必要に応じて、オブジェクトのテクスチャをエンコードするためにテクスチャエンコーダー1404も提供し得る。
【0054】
3Dデコーダー1406は、入力されたエンコーディングを取得し、3Dオブジェクトを生成する。3Dデコーダー1406は、また、畳み込みネットワークまたは同様のDNNでもあり得る。3Dデコーダーの出力は、3Dアセットを表す再構成メッシュ1408である。
【0055】
ネットワークをトレーニングするために、3D出力を2D画像にレンダリングし、入力画像と比較できる。トレーニングは、入力及び出力が密接に一致するまで繰り返し継続できる。代わりに、メッシュ変形を使用し得る。
【0056】
エンコーダー-デコーダーモデルは、記述におけるスペックを満たすように3Dオブジェクトを変換する追加エンコーディング(例えば、テクスチャエンコーディング)を組み込むように適応し得る。
【0057】
3Dアセットを生成する代替的なアプローチについて図15を参照すると、ブロック1500で3D GANモデルは、3Dオブジェクトを生成することがトレーニングされる。ブロック1502において、アセットの各部分に対する部分エンコーディング、例えば椅子に関する肘掛け、脚、背面等のエンコーディングが抽出される。ブロック1504に進むと、部分エンコーディングは、所望のアセットの形状記述1506に基づいて変換される。ブロック1508に進むと、3Dアセットの生成は、スタイルまたはサイズまたは色等の非形状記述等の外観記述1510に基づいて調整される。3Dアセットの再構成メッシュ1512は、必要に応じて、テクスチャリング有りまたは無しで出力される。すなわち、3Dアセットモデルは指定されたテクスチャに基づいてレンダリングされ得る。3Dバリエーションは指定された属性に基づいて生成できる。
【0058】
いくつかの例示的な実施形態を参照して本原理を説明してきたが、これらは限定することを意図していないことと、様々な代替の配置を使用して、本明細書で請求される主題を実施し得ることとが認識される。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
【国際調査報告】