特表2024-513001 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー・インタラクティブエンタテインメント　エルエルシーの特許一覧

特表2024-513001顔の表情を取り込んでメッシュデータを生成するための人工知能

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A-2B
2C-2D
3A
3B
3C
3D
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-03-21

(54)【発明の名称】顔の表情を取り込んでメッシュデータを生成するための人工知能

(51)【国際特許分類】

G06T 13/40 20110101AFI20240313BHJP

A63F 13/60 20140101ALI20240313BHJP

【ＦＩ】

G06T13/40

A63F13/60

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023559808

(86)(22)【出願日】2022-03-31

(85)【翻訳文提出日】2023-09-27

(86)【国際出願番号】 US2022022952

(87)【国際公開番号】W WO2022212786

(87)【国際公開日】2022-10-06

(31)【優先権主張番号】63/170,328

(32)【優先日】2021-04-02

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】518187455

【氏名又は名称】ソニー・インタラクティブエンタテインメントエルエルシー

(74)【代理人】

【識別番号】100105924

【弁理士】

【氏名又は名称】森下賢樹

(72)【発明者】

【氏名】ウェディグ、ジェフ

【テーマコード（参考）】

5B050

【Ｆターム（参考）】

5B050AA10

5B050BA08

5B050BA09

5B050CA00

5B050DA01

5B050EA05

5B050EA12

5B050EA13

5B050EA26

5B050FA02

5B050FA10

(57)【要約】

【課題】ゲームキャラクターの顔の表情のアニメーション化のために使用されるモデルのトレーニング方法及びシステムが提供される。
【解決手段】本方法は、３Ｄカメラを使用して第１の人間の俳優のメッシュデータを取り込み、第１の人間の俳優の顔の３Ｄ深度データを生成することを含む。一実施形態では、３Ｄ深度データは３Ｄカメラによって取り込まれたフレームに対応するメッシュファイルとして出力される。本方法は２Ｄカメラを使用して第１の人間の俳優の２Ｄ点群データを取り込むことを含む。一実施形態では、２Ｄ点群データは第１の人間の俳優の顔上に存在する追跡されたドットを表す。別の実施形態では、２Ｄ点群データはトレーニングラベル値ファイル（ｔＬＶＦ）の生成のために処理される。本方法は、モデルのトレーニングのために２Ｄ点群データと関連付けられたｔＬＶＦと時間調整してメッシュデータを処理することを含む。モデルは、第２の人間の俳優から取り込まれた入力メッシュファイルを受け取り、入力メッシュファイルに対応する出力ＬＶＦとして生成するように構成される。
【選択図】図１

【特許請求の範囲】

【請求項1】

ゲームキャラクターの顔の表情をアニメーション化するために使用されるモデルをトレーニングするための方法であって、
３次元（３Ｄ）カメラを使用して第１の人間の俳優のメッシュデータを取り込んで、前記第１の人間の俳優の顔の３次元（３Ｄ）深度データを生成することであって、前記３Ｄ深度データは、前記３Ｄカメラによって取り込まれたフレームに対応するメッシュファイルとして出力される、前記生成することと、
２Ｄカメラを使用して前記第１の人間の俳優の２次元（２Ｄ）点群データを取り込むことであって、前記２Ｄ点群データは、前記第１の人間の俳優の前記顔上に存在する追跡されたドットを表し、前記２Ｄ点群データは処理されてトレーニングラベル値ファイル（ｔＬＶＦ）を生成する、前記取り込むことと、
前記２Ｄ点群データに関連付けられた前記ｔＬＶＦと時間調整して前記メッシュデータを処理して、前記モデルをトレーニングすることと、を含み、
前記モデルは、第２の人間の俳優から取り込まれた入力メッシュファイルを受け取って、前記入力メッシュファイルに対応する出力ＬＶＦとして生成するように構成される、前記方法。

【請求項2】

前記生成されたｔＬＶＦは、前記２Ｄ点群データ内に存在する顔の表情を特定する、請求項１に記載の方法。

【請求項3】

前記出力ＬＶＦは、前記ゲームキャラクターの前記顔の表情をアニメーション化するためにゲームエンジンによって受け取られるように構成される、請求項１に記載の方法。

【請求項4】

前記出力ＬＶＦは、前記第１の人間の俳優の前記顔上の特徴に対応する複数の値を含み、前記値は、前記ゲームキャラクターの前記顔の表情をアニメーション化するために使用される、請求項１に記載の方法。

【請求項5】

前記複数の値は、前記ゲームキャラクターの顔上の個々の領域において筋肉の活性化を引き起こすように構成される、請求項４に記載の方法。

【請求項6】

ソルバーが、前記ｔＬＶＦを生成するための処理のために、前記２Ｄ点群データ、ブレンドシェイプファイル、及びジョイントファイルを入力として受け取るように構成され、前記ソルバーは、前記ｔＬＶＦを生成するためにルールの組を適用する、請求項１に記載の方法。

【請求項7】

前記ソルバーは、前記２Ｄ点群データ、前記ブレンドシェイプファイル、及び前記ジョイントファイルを処理して前記ｔＬＶＦを生成するために統計的人工知能を使用する、請求項６に記載の方法。

【請求項8】

前記ｔＬＶＦはアニメーターによってプラスされて、前記ｔＬＶＦを調整し、前記調整されたｔＬＶＦは、前記生成されたｔＬＶＦの精度を向上させるために、ソルバーによってフィードバックとして受け取られる、請求項１に記載の方法。

【請求項9】

前記２Ｄ点群データは２Ｄ点群キーフレームを含み、前記２Ｄ点群キーフレームは前記ｔＬＶＦを生成するために処理される、請求項１に記載の方法。

【請求項10】

前記モデルはマルチアクターモデルであり、前記マルチアクターモデルは、複数の人間の俳優からのメッシュデータ及び２Ｄ点群データを使用してトレーニングされる、請求項１に記載の方法。

【請求項11】

前記出力ＬＶＦは感情タイプに対応し、前記感情タイプは、前記入力メッシュファイルを生成するために前記第２の人間の俳優によって表現される、請求項１に記載の方法。

【請求項12】

前記モデルは、さらなる出力ＬＶＦを生成するために前記第１の人間の俳優のさらなるメッシュファイルを入力として受け取るように構成される、請求項１に記載の方法。

【請求項13】

前記モデルは、前記メッシュデータ及び前記２Ｄ点群データから特徴を特定して、前記メッシュデータ及び前記２Ｄ点群データの属性を分類するように構成され、前記属性は、前記入力メッシュファイルに対応する前記出力ＬＶＦを生成するために使用される、請求項１に記載の方法。

【請求項14】

前記第２の人間の俳優は、前記第１の人間の俳優と同じかまたは異なることができる、請求項１に記載の方法。

【請求項15】

３次元（３Ｄ）画像取込を使用して顔の表情に対するラベル値を生成するための方法であって、
第１の人間の俳優から取り込まれた入力を使用してトレーニングされたモデルにアクセスすることであって、
取り込まれた前記入力は、前記第１の人間の俳優の顔のメッシュデータを含み、前記メッシュデータは前記顔の３次元（３Ｄ）深度データを表し、
取り込まれた前記入力は、前記第１の人間の俳優の前記顔の２次元（２Ｄ）点群データをさらに含み、前記２Ｄ点群データは、前記第１の人間の俳優の前記顔上に存在する追跡されたドットを表し、前記２Ｄ点群データは処理されてトレーニングラベル値ファイル（ｔＬＶＦ）を生成し、
前記モデルは、前記ｔＬＶＦと前記メッシュデータとの間の対応関係が前記モデルによって学習されるように、前記メッシュデータと前記ｔＬＶＦとを時間調整して処理することによってトレーニングされる、前記アクセスすることと、
第２の人間の俳優の顔のメッシュデータを含むメッシュファイルを取り込むことであって、前記メッシュファイルは、前記取り込まれたメッシュファイルの個々のファイルに対応するラベル値ファイル（ＬＶＦ）を要求するための前記モデルへの入力クエリとして提供される、前記取り込むことと、を含み、
前記ＬＶＦは、ゲームエンジンによって処理されるゲーム内で提示されるゲームキャラクターの顔の表情をアニメーション化するために、前記ゲームエンジンによって使用可能である、前記方法。

【請求項16】

前記生成されたｔＬＶＦは、前記２Ｄ点群データ内に存在する顔の表情を特定する、請求項１５に記載の方法。

【請求項17】

前記ＬＶＦは複数の値を含み、前記複数の値は、前記ゲームキャラクターの顔上の個々の領域において筋肉の活性化を引き起こすように構成される、請求項１５に記載の方法。

【請求項18】

前記第２の人間の俳優は、前記第１の人間の俳優と同じかまたは異なることができる、請求項１５に記載の方法。

【請求項19】

ソルバーが、前記ｔＬＶＦを生成するための処理のために、前記２Ｄ点群データ、ブレンドシェイプファイル、及びジョイントファイルを入力として受け取るように構成され、前記ソルバーは、前記ｔＬＶＦを生成するためにルールの組を適用する、請求項１５に記載の方法。

【請求項20】

前記モデルはマルチアクターモデルであり、前記マルチアクターモデルは、複数の人間の俳優からのメッシュデータ及び２Ｄ点群データを使用してトレーニングされる、請求項１５に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は全般的に、ゲームキャラクターの顔の表情をアニメーション化することに関し、より詳細には、ゲームキャラクターの顔の表情をアニメーション化するために使用されるモデルをトレーニングするための方法及びシステムに関する。

【背景技術】

【0002】

ビデオゲーム業界は、長年にわたり多くの変化を遂げてきた。詳細には、ビデオゲームにおける顔のアニメーションに関連する技術は、過去の数年にわたってより精巧になり、その結果、ゲームキャラクターがますます現実的に見えるようになっている。現在、ゲームキャラクターは、人間の顔のように気分及び感情を表現することができ、その結果、プレーヤはゲームの世界により没頭するように感じている。この目的を達成するために、開発者は、顔のアニメーションプロセスが改善されて、プロセスがより効率的になり、時間が短縮される精巧な動作を開発する方法を探している。

【0003】

ビデオゲーム業界では、ゲームキャラクターの顔のアニメーションプロセスを強化し、より効率的にする独自の方法を改善及び開発する傾向が高まっている。しかしながら、現在の顔のアニメーションプロセスは高価で、時間がかかり、正確なプランニング及び演出が必要である。たとえば、顔のアニメーションプロセスには、アニメーション化するゲームキャラクターの制作に貢献する異なるスキルセットを有する様々な個人（たとえば、監督、俳優、デザイナー、アニメーターなど）が関与する場合がある。現在の顔のアニメーションプロセスは極めて時間がかかり、高価な場合がある。たとえば、アニメーター及びデザイナーは、特定のゲームキャラクターをアニメーション化するために使用される何千ものブレンドシェイプファイル及びジョイントファイルを形成することによって、顔のアニメーションプロセスに貢献する。ブレンドシェイプファイル及びジョイントファイルは生成が難しい。アニメーター及びデザイナーは、ゲームキャラクターの顔の表情をアニメーション化するために必要なブレンドシェイプファイル及びジョイントファイルの作成に、数ヶ月を必要とする場合がある。しかしながら、このプロセスは極めて時間がかかり、高価である。その結果、ゲームキャラクター用の顔のアニメーションを制作する現在のプロセスは非効率的である可能性があり、タイトなスケジュールの下で高品質の結果を達成するには効果的でない場合がある。

【0004】

このような状況において、本開示の実施態様が生じる。

【発明の概要】

【0005】

本開示に対する実施態様は、ゲームキャラクターの顔の表情をアニメーション化するために使用されるモデルのトレーニングに関係する方法、システム、及びデバイスを含む。いくつかの実施形態では、１つ以上のカメラを使用して人間の俳優の顔の表情を取り込んで、人工知能（ＡＩ）モデルをトレーニングするために使用される２次元（２Ｄ）点群データ及び３次元（３Ｄ）メッシュデータを生成することを可能にする方法が開示される。たとえば、モデルをトレーニングすることは、２Ｄカメラ及び３Ｄカメラによって取り込まれた喜び、恐怖、悲しみ、怒りなどの種々の顔の表情を実行するように指示された人間の俳優を使用することを含んでいてもよい。一実施形態では、２Ｄカメラ及び３Ｄカメラは、モデルをトレーニングするためにソルバーが使用する２Ｄ点群データ及び３Ｄメッシュデータをそれぞれ生成する。モデルがトレーニングされたら、モデルは、入力メッシュファイルに対応する出力ラベル値ファイル（ＯＬＶＦ）を生成することができる任意の人間の俳優に関連付けられる入力メッシュファイルを受け取るように構成することができる。一実施形態では、ＯＬＶＦをゲームエンジンが使用して、ゲームキャラクターの顔の表情をアニメーション化することができる。したがって、本明細書で開示した本方法では、トレーニングされたモデルを使用して、ＯＬＶＦを人間の俳優の入力メッシュファイルを使用して生成する方法の概要を述べる。したがって、ゲームキャラクターの顔の表情をアニメーション化するために新しい顔の表情が要求されるとき、任意の人間の俳優を使用して新しい顔の表情に対する入力メッシュファイルを取り込み、これをモデルを通して処理してＯＬＶＦを生成することができる。このようにして、所望の顔の表情用に新しいブレンドシェイプファイル及びジョイントファイルを取得することなく、ゲームキャラクター用の新しい顔の表情をアニメーション化することができる。

【0006】

一実施形態では、ゲームキャラクターの顔の表情をアニメーション化するために使用されるモデルをトレーニングするための方法が提供される。本方法は、３次元（３Ｄ）カメラを使用して第１の人間の俳優のメッシュデータを取り込んで、第１の人間の俳優の顔の３次元（３Ｄ）深度データを生成することを含む。一実施形態では、３Ｄ深度データは、３Ｄカメラによって取り込まれたフレームに対応するメッシュファイルとして出力される。本方法は、２Ｄカメラを使用して第１の人間の俳優の２次元（２Ｄ）点群データを取り込むことを含む。一実施形態では、２Ｄ点群データは、第１の人間の俳優の顔上に存在する追跡されたドットを表す。別の実施形態では、２Ｄ点群データは、トレーニングラベル値ファイル（ｔＬＶＦ）を生成するために処理される。本方法は、モデルをトレーニングするために２Ｄ点群データと関連付けられたｔＬＶＦと時間調整してメッシュデータを処理することを含む。モデルは、第２の人間の俳優から取り込まれた入力メッシュファイルを受け取って、入力メッシュファイルに対応する出力ＬＶＦとして生成するように構成されている。

【0007】

別の実施形態では、３次元（３Ｄ）画像取込を使用して顔の表情に対するラベル値を生成するための方法が提供される。本方法は、人間の俳優から取り込まれた入力を使用してトレーニングされたモデルにアクセスすることを含む。一実施形態では、取り込まれた入力は人間の俳優の顔のメッシュデータを含み、メッシュデータは顔の３次元（３Ｄ）深度データを表す。別の実施形態では、取り込まれた入力は、人間の俳優の顔の２次元（２Ｄ）点群データをさらに含む。一実施形態では、２Ｄ点群データは、人間の俳優の顔上に存在する追跡されたドットを表し、２Ｄ点群データは処理されてトレーニングラベル値ファイル（ｔＬＶＦ）を生成する。他の実施形態では、モデルは、ｔＬＶＦとメッシュデータとの間の対応関係がモデルによって学習されるように、メッシュデータとｔＬＶＦとを時間調整して処理することによってトレーニングされる。本方法は、第２の人間の俳優の顔のメッシュデータを含むメッシュファイルを取り込むことを含み、メッシュファイルは、取り込まれたメッシュファイルの個々のファイルに対応するラベル値ファイル（ＬＶＦ）を要求するためのモデルへの入力クエリとして提供される。一実施形態では、ＬＶＦは、ゲームエンジンによって処理されるゲーム内で提示されるゲームキャラクターの顔の表情をアニメーション化するために、ゲームエンジンによって使用可能である。

【0008】

本開示の他の態様及び利点は、添付の図面と併せて、本開示の原理を例として示す下記の詳細な説明から明らかになるであろう。

【0009】

本開示は、添付の図面と併せて以下の説明を参照することによって、一層よく理解することができる。

【図面の簡単な説明】

【0010】

【図1】本開示の実施態様により、２Ｄカメラ及び３Ｄカメラによってそれぞれ取り込まれた２Ｄ点群データ及び３Ｄメッシュデータを使用してモデルをトレーニングするように構成されたシステムの実施形態を例示する図である。

【図2A】は、本開示の実施態様により、俳優の顔のイメージを取り込んで２Ｄ点群データを生成するように構成された２Ｄカメラを例示する図である。

【図2B】は、本開示の実施態様により、俳優の顔のイメージを取り込んで２Ｄ点群データを生成するように構成された２Ｄカメラを例示する図である。

【図2C】本開示の実施態様により、俳優の顔の３Ｄ深度データを表す３Ｄメッシュデータを取り込むように構成された３Ｄカメラを例示する図である。

【図2D】本開示の実施態様により、俳優の顔の３Ｄ深度データを表す３Ｄメッシュデータを取り込むように構成された３Ｄカメラを例示する図である。

【図3A】本開示の実施態様により、ｔＬＶＦを生成するための処理のために１つ以上の入力を受け取るように構成されたソルバーの実施形態を例示する図である。

【図3B】本開示の実施態様により、ｔＬＶＦと時間調整して３Ｄメッシュデータを処理してモデルをトレーニングする実施形態を例示する図である。

【図3C】本開示の実施態様により、俳優から取り込まれた入力メッシュファイルを使用してモデルによって生成された種々の出力ＬＶＦを例示するＬＶＦテーブルの実施形態を例示する図である。

【図3D】本開示の実施態様により、モデルを使用してゲームキャラクターの顔の表情をアニメーション化するシステムの実施形態を例示する図である。

【図4】本開示の実施態様により、複数の俳優から取り込まれた３Ｄメッシュデータ及び２Ｄ点群データを使用して、マルチアクターモデルをトレーニングするように構成されたシステムの実施形態を例示する図である。

【図5】本開示の実施態様により、モデル及びマルチアクターモデルを使用して入力３Ｄメッシュデータに対応する出力ＬＶＦを生成する種々の実施形態を例示する図である。

【図6】本開示の実施態様により、２Ｄ点群キーフレーム及び遷移フレームを含む２Ｄ点群データの実施形態を例示する図である。

【図7】本開示の実施態様により、ゲームキャラクターの顔の表情をアニメーション化するために使用されるモデルをトレーニングするための方法を例示する図である。

【図8】本開示の様々な実施形態の態様を実行するために使用することができる例示的なデバイスの構成要素を例示する図である。

【発明を実施するための形態】

【0011】

本開示の以下の実施態様によって、ゲームキャラクターの顔の表情をアニメーション化するために使用される人工知能（ＡＩ）モデルをトレーニングするための方法、システム、及びデバイスが提供される。一例として、一実施形態では、モデルは、人間の俳優の種々の顔の表情を取り込むように構成された１つ以上のカメラによって取り込まれた３次元（３Ｄ）メッシュデータ及び２次元（２Ｄ）点群データを使用して、トレーニングされる。一実施形態では、ソルバーが、ＡＩモデルのトレーニングのために、３Ｄメッシュデータ、２Ｄ点群データ、ブレンドシェイプファイル、及びジョイントファイルを受け取るように構成されている。いくつかの実施形態では、モデルがトレーニングされたら、モデルは、出力ＬＶＦを生成するために、任意の人間の俳優から取り込まれた入力メッシュファイルを受け取るように構成することができる。したがって、生成された出力ＬＶＦを、ビデオゲーム内の種々のゲームキャラクターの顔の表情をアニメーション化するために使用することができる。

【0012】

モデルと俳優の入力メッシュファイルとを使用することで、モデルがトレーニングされているためさらなるブレンドシェイプ及びジョイントファイルがもはや必要でないため、ゲームキャラクターの種々の顔の表情をアニメーション化する効率的な方法が容易になる。たとえば、モデルのトレーニングは、悲しみ、怒り、軽蔑、嫌悪感、及び恐怖などの顔の感情に対応する初期セットのブレンドシェイプファイルを使用することを含んでいてもよい。ゲームキャラクターが「驚いた」感情を表現することが要求される場合、たとえモデルのトレーニングに「驚いた」感情に対応するブレンドシェイプファイルが含まれていなくても、モデルは「驚いた」顔の表情に関連付けられた出力ＬＶＦを生成するように構成することができる。これにより、アニメーターが「驚いた」感情に関連付けられたブレンドシェイプファイルを生成する必要がなくなるため、運用コスト及び時間の削減につながる場合がある。全般的に、本明細書に記載の方法によって、モデルを使用してゲームキャラクターの顔の表情をアニメーション化するためのより効率的な方法が提供され、その結果、ブレンドシェイプファイル及びジョイントファイルの作成に費やされる全体的な運用コスト及び時間を減らすことができる。

【0013】

一例として、ゲームキャラクターの顔の表情をアニメーション化するために使用されるモデルのトレーニングを可能にする方法が開示される。本方法は、３Ｄカメラを使用して第１の人間の俳優のメッシュデータを取り込んで、第１の人間の俳優の顔の３Ｄ深度データを生成することを含む。一例では、３Ｄ深度データは、３Ｄカメラによって取り込まれたフレームに対応するメッシュファイルとして出力される。一実施形態では、本方法は、２Ｄカメラを使用して第１の人間の俳優の２Ｄ点群データを取り込むことをさらに含んでいてもよい。一例では、２Ｄ点群データは、第１の人間の俳優の顔上に存在する追跡されたドットを表す。別の実施形態では、２Ｄ点群データは、トレーニングラベル値ファイル（ｔＬＶＦ）を生成するために処理される。別の実施形態では、本方法は、２Ｄ点群データに関連付けられたｔＬＶＦと時間調整してメッシュデータを処理して、モデルをトレーニングすることを含んでいてもよい。一例では、モデルは、第２の人間の俳優から取り込まれた入力メッシュファイルを受け取って、入力メッシュファイルに対応する出力ＬＶＦとして生成するように構成されている。ただし、本開示は、現在説明されている具体的詳細の一部または全部なしでも実施され得ることは、当業者には明らかであろう。他の例では、周知のプロセス操作は、本開示を不必要に不明瞭にしないために、詳細に説明されていない。

【0014】

一実施形態によれば、俳優上の顔の表情を取り込んで、ビデオゲーム内のゲームキャラクターの顔の表情をアニメーション化するために使用されるモデルをトレーニングするためのシステムが開示される。一実施形態では、システムは、俳優によって生成された種々の顔の表情を取り込むように構成された複数のカメラを含む。一実施形態では、複数のカメラは２Ｄカメラ及び３Ｄカメラを含んでいてもよい。いくつかの実施形態では、２Ｄカメラ及び３Ｄカメラは、２Ｄ点群ファイル及び３Ｄメッシュデータをそれぞれ生成してもよい。いくつかの実施形態では、ソルバーを、モデルをトレーニングするための処理のために、２Ｄ点群ファイル、３Ｄメッシュデータ、ブレンドシェイプファイル、ジョイントファイルなどの複数の入力ファイルを受け取るように構成してもよい。

【0015】

一実施形態では、モデルのトレーニングは、ブレンドシェイプファイル、ジョイントファイル、及び２Ｄ点群ファイルを処理する種々のルールを使用して、２Ｄ点群ファイル内に存在する種々の表現を理解及び特定するように構成されたソルバーを含んでいてもよい。いくつかの実施形態では、ソルバーは、２Ｄ点群ファイルの各キーフレームに対応するトレーニングラベル値ファイル（ｔＬＶＦ）を生成するように構成されている。一実施形態では、ｔＬＶＦは、２Ｄ点群ファイルのキーフレーム内の表現を記述するラベルである。別の実施形態によれば、モデルのトレーニングは、３Ｄカメラによって取り込まれた３Ｄメッシュデータを、ソルバーによって生成されたｔＬＶＦと位置合わせするように構成された位置合わせ動作を含んでいてもよい。

【0016】

いくつかの実施形態では、トレーニングされたモデルは、第２の人間の俳優から取り込まれた入力メッシュファイルを受け取るように構成することができる。入力メッシュファイルを使用して、入力メッシュファイルに対応する出力ＬＶＦを生成するようにモデルを使用する。一実施形態では、生成された出力ＬＶＦを、ビデオゲーム内のゲームキャラクターの顔の表情をアニメーション化するために使用することができる。

【0017】

上記の概要を念頭に置いて、以下では、例示的実施形態の理解を容易にするために、いくつかの例示的な図を提供する。

【0018】

図１に、２Ｄカメラ１０４ａ及び３Ｄカメラ１０４ｂによってそれぞれ取り込まれた２Ｄ点群データ１０８及び３Ｄメッシュデータ１１２を使用して、モデル１３２をトレーニングするように構成されたシステムの実施形態を例示する。図１に示したように、一実施形態では、システムは、俳優１０２の顔の表情を取り込んで２Ｄ点群データ１０８及び３Ｄメッシュデータ１１２をそれぞれ生成するように構成された２Ｄカメラ１０４ａ及び３Ｄカメラ１０４ｂを含んでいてもよい。一実施形態では、ソルバー１１４が、トレーニングラベル値ファイル（ｔＬＶＦ）１１６を生成するための処理のために、２Ｄ点群キーフレーム１１０、ブレンドシェイプ１２２、及びジョイントファイル１２４を受け取るように構成されている。いくつかの実施形態では、システムは、ｔＬＶＦ１１６に関連付けられた特徴を特定するように構成された特徴抽出１１８動作と、１つ以上の分類器を使用して特徴を分類するように構成された分類器１２０動作とを含んでいてもよい。他の実施形態では、システムは、３Ｄメッシュデータ１１２に関連付けられた特徴を特定するように構成された特徴抽出１２６動作と、１つ以上の分類器を使用して特徴を分類するように構成された分類器１２８動作とを含んでいてもよい。他の実施形態では、位置合わせ動作１３０を、分類器１２０動作及び分類器１２８動作から分類された特徴を入力として受け取って、３Ｄメッシュデータを対応するｔＬＶＦと位置合わせするように構成することができる。いくつかの実施形態では、モデル１３２のトレーニングは、位置合わせ動作１３０から位置合わせされた３Ｄメッシュデータ及びｔＬＶＦを受け取ることをさらに含んでいてもよい。

【0019】

いくつかの実施形態では、俳優１０２の演技中に、俳優は、２Ｄカメラ１０４ａ及び３Ｄカメラ１０４ｂを含むヘッドセットを着用してもよい。俳優１０２に、２Ｄカメラ１０４ａ及び３Ｄカメラ１０４ｂによって取り込むことができる種々の顔の表情、顔の動き、目の動き、感情、動作、ポーズなどを実行するように指示してもよい。たとえば、俳優１０２に、喜び、悲しみ、恐怖、怒り、驚き、嫌悪感、軽蔑、及びパニックの感情の状態を表現する顔の表情を実行するように求めてもよい。別の例では、俳優１０２に、呼吸、飲酒、食事、嚥下、読書などの種々の動作を実行するように求めてもよい。したがって、俳優１０２がこれらの動作を実行すると、カメラ１０４は、俳優の顔における自然な筋肉の動きを正確に取り込むことができる。

【0020】

いくつかの実施形態では、２Ｄカメラ１０４ａを使用して、俳優１０２の顔の画像フレームを取り込む。一実施形態では、ドットパターンが俳優１０２の顔上に配置され、２Ｄカメラは、俳優が実行するときにドットパターンを取り込んで追跡するように構成されている。いくつかの実施形態では、俳優１０２が演技して種々の顔の表情を実行するとき、２Ｄカメラ１０４ａは、ドットパターンの動きをデジタル的に追跡して、２Ｄ点群データ１０８を生成するように構成されている。一実施形態では、２Ｄ点群データ１０８は、俳優の顔上に存在する追跡されたドットを表す。いくつかの実施形態では、２Ｄ点群データ１０８は、取り込まれた画像と、取り込まれた画像上の単一点のＸ、Ｙ、及びＺ幾何学座標で表される追跡されたドットとを表すデータセットを含んでいてもよい。

【0021】

一実施形態では、３Ｄカメラ１０４ｂは、俳優１０２の顔の画像を取り込んで、俳優１０２の顔の３Ｄ深度データを生成するように構成された高解像度カメラである。一実施形態では、３Ｄ深度データは、３Ｄカメラ１０４ｂによって取り込まれたフレームに対応するメッシュファイルとして出力される。一実施形態では、３Ｄメッシュデータ１１２は、３Ｄカメラ１０４ｂによって取り込まれた画像フレームの３Ｄモデルの構造構築に関連付けられたメッシュファイルを含んでいてもよい。３Ｄメッシュデータ１１２は、Ｘ、Ｙ、及びＺ幾何学座標における基準点を使用して３Ｄモデルの高さ、幅、及び深さを規定するメッシュファイルを含んでいてもよい。

【0022】

いくつかの実施形態では、２Ｄ点群データ１０８の２Ｄ点群キーフレーム１１０、ブレンドシェイプ１２２、及びジョイントファイル１２４を、ソルバー１１４に対する入力として用いてもよい。全般的に、２Ｄ点群データ１０８のすべてのフレームではなく、２Ｄ点群キーフレーム１１０のみがソルバー１１４によって処理及び分析されて、バンド幅を節約し、冗長性を減らすのに役立つ。他の実施形態では、２Ｄ点群データ１０８のすべてのフレーム（たとえば、キーフレーム及び遷移フレーム）を、ソルバー１１４によって処理及び分析することができる。一実施形態では、ブレンドシェイプ１２２はアニメーターまたはデザイナーによって形成してもよい。いくつかの実施形態では、ブレンドシェイプ１２２は、メッシュを変形させて特定の形状を達成することを含む技法によって形成してもよい。たとえば、アニメーターまたはデザイナーは、単一の基本形状のメッシュ（たとえば、無表情な顔）を使用して、メッシュをブレンドまたはモーフィングして、異なる顔の表情、たとえば、すぼめた唇、広がった鼻、閉じた瞼、つり上がった眉などにし得る。この方法を使用して、アニメーターは、任意の数のブレンドシェイプファイルを組み合わせてアニメーション化し、ゲームキャラクターの顔の表情を形成し得る。一例では、すぼめた唇を伴うブレンドシェイプファイルを、不機嫌そうな目を伴うブレンドシェイプファイルと組み合わせて、「不承認」の顔の表情を形成することができる。ブレンドシェイプ１２２は、ゲームキャラクターをアニメーション化するために使用できる異なる顔の表情の集合を含んでいてもよい。

【0023】

いくつかの実施形態では、ジョイントファイル１２４は、アニメーターまたはデザイナーによって形成してもよい。ジョイントファイル１２４は、ゲームキャラクターの顔における骨格構造を表すように構築された一連の骨を含んでいてもよい。いくつかの実施形態では、ジョイントファイル１２４を使用して関節を操作して、所望の顔の表情を実現し、種々の顔の特徴に関連付けられる動きの範囲を含むことができる。一例では、ジョイントファイル１２４は、眉、瞼、目、目の間、鼻梁、口角、顎の前部、額などの顔の異なる部分に関連付けられた種々の関節を含んでいてもよい。ジョイントファイル１２４を用いて、ゲームキャラクターの顔の種々の顔の表情を制御してもよい。たとえば、口の関節は、笑顔及び眉をひそめるために口角の動きを容易にすることができる。別の例では、顎の関節は、驚き及び悲しみの感情を表現するために口の開閉を容易にすることができる。

【0024】

いくつかの実施形態では、ソルバー１１４は、２Ｄ点群キーフレーム１１０、ブレンドシェイプ１２２、及びジョイントファイル１２４を、入力として受け取るように構成されている。一実施形態では、ソルバー１１４は、注目された入力を処理して、２Ｄ点群キーフレーム１１０または２Ｄ点群データ１０８の遷移フレーム内にどのような顔の表情が存在するかを特定するｔＬＶＦ１１６を生成するように構成されている。いくつかの実施形態では、ソルバー１１４は、種々のルール、ブレンドシェイプ１２２、ジョイントファイル１２４の組み合わせを使用して、２Ｄ点群キーフレーム１１０内で何が起こっているかを理解してもよい。たとえば、２Ｄ点群キーフレーム１１０は、俳優の鼻にしわが寄っているように示す俳優の画像を含んでいてもよい。ソルバー１１４は、ルール、ブレンドシェイプ、及びジョイントファイルを使用してこのキーフレームを処理して、俳優の鼻にしわが寄っていることは、俳優が「嫌悪感」の感情を表現していると推測し得ると判定してもよい。したがって、ソルバー１１４は、キーフレームに対応するｔＬＶＦ１１６として、キーフレームに「嫌悪感」の顔の感情を表す特性を有するとしてラベルを付けるものを生成してもよい。別の実施形態では、直接入力ではない他の入力または入力／フィードバックの欠如も、ソルバー１１４への入力として取得してもよい。

【0025】

全般的に、生成されたｔＬＶＦ１１６は、２Ｄ点群キーフレーム１１０または遷移フレーム内に存在する顔の表情を記述するラベルである。ｔＬＶＦ１１６は、キーフレーム内で何が起こっているかを記述してもよい。いくつかの実施形態では、ｔＬＶＦ１１６は複数の顔特徴値を含んでいてもよい。顔特徴値は０～１の範囲で、約５０～１５００の合計値の範囲の値の合計数を含んでいてもよい。

【0026】

一実施形態では、ｔＬＶＦ１１６がソルバー１１４によって生成された後に、特徴抽出１１８動作は、ｔＬＶＦ１１６内の種々の特徴を特定して抽出するように構成されている。特徴抽出１１８動作がｔＬＶＦ１１６からの特徴を処理して特定した後に、分類器１２０動作は、１つ以上の分類器を使用して特徴を分類するように構成されている。一実施形態では、特徴は、モデル１３２によってさらに精緻なものにするための分類アルゴリズムを使用してラベル付けされる。

【0027】

いくつかの実施形態では、３Ｄメッシュ特徴抽出１２６動作は、３Ｄメッシュデータ１１２を処理して、３Ｄメッシュデータ１１２に関連付けられた種々の特徴を特定して抽出するように、構成されている。３Ｄメッシュ特徴抽出１２６動作が３Ｄメッシュデータ１１２からの特徴を処理して特定した後に、３Ｄメッシュ分類器１２８動作は、１つ以上の分類器を使用して特徴を分類するように構成されている。いくつかの実施形態では、特徴は、ＡＩモデル１３２によってさらに精緻なものにするための分類アルゴリズムを使用してラベル付けされる。

【0028】

いくつかの実施形態では、位置合わせ動作１３０は、分類された特徴（たとえば、ｔＬＶＦ分類された特徴、３Ｄメッシュ分類された特徴）を入力として受け取るように構成されている。一実施形態では、位置合わせ動作１３０は、３Ｄメッシュデータを対応するｔＬＶＦと位置合わせするように構成されている。たとえば、モデルのトレーニングは、３Ｄカメラ１０４ｂによって取り込まれた３Ｄメッシュデータ１１２を、ソルバー１１４によって生成されたｔＬＶＦ１１６と関連付けるように構成された位置合わせ動作１３０を含んでいてもよい。したがって、３Ｄメッシュデータ１１２が対応するｔＬＶＦ１１６に適切に関連づけられたら、これらのトレーニングファイルを、モデル１３２内への入力として用いてもよく、その結果、モデル１３２がメッシュデータとｔＬＶＦとの間の適切な相関関係を学習することができる。

【0029】

いくつかの実施形態では、ＡＩモデル１３２は、位置合わせ動作１３０によって生成されたトレーニングファイル（たとえば、ｔＬＶＦと位置合わせされた３Ｄメッシュ）を、入力として受け取るように構成されている。別の実施形態では、直接入力ではない他の入力または入力／フィードバックの欠如も、モデル１３２への入力として取得してもよい。モデル１３２は、機械学習モデルを使用して、特定の入力メッシュファイルに対する対応する出力ＬＶＦが何であるかを予測してもよい。いくつかの実施形態では、時間とともに、トレーニングファイルを用いて、モデル１３２をトレーニングして、所与の入力メッシュファイル内で何が起こっているかを特定してもよい。たとえば、トレーニングファイルは、俳優の顔が自分の唇を噛んでいる３Ｄメッシュを含んでいてもよい。これは、俳優が不安であることを示す対応するｔＬＶＦを有する。したがって、入力メッシュファイルが、俳優が自分の唇を噛んでいる画像を含む場合、モデル１３２は、感情が不安であることに対応する出力ＬＶＦを予測して生成してもよい。

【0030】

図２Ａ～２Ｂに、俳優１０２の顔の画像を取り込んで２Ｄ点群データ１０８を生成するように構成された２Ｄカメラ１０４ａを例示する。一実施形態では、図２Ａに例示したように、俳優１０２は、視点（ＰＯＶ）１０６ａを備えた２Ｄカメラ１０４ａを含むヘッドセットを着用していると示している。いくつかの実施形態では、俳優１０２は、俳優１０２の顔に沿って配置されたドットパターン２０２（たとえば、マーカー）を有していてもよい。一実施形態では、ドットパターン２０２は、俳優１０２の顔の感情的に関連する位置に沿って適用される。一実施形態では、俳優１０２がポーズをとって、種々の動作（たとえば、微笑む、ニヤリと笑う、笑う、話す、戦うなど）を実行すると、ドットパターン２０２の動きが、図２Ｂに示す２Ｄ点群データ１０８を生成するように構成された２Ｄカメラ１０４ａによってデジタル的に追跡される。一実施形態では、２Ｄ点群データ１０８は、俳優１０２の顔上に存在する追跡されたドットを表す。いくつかの実施形態では、俳優１０２の顔上のドットパターン２０２は、パターンマッチングアルゴリズムを使用して高精度で正確に測定することができる。

【0031】

図２Ｃ～２Ｄに、俳優１０２の顔の３次元（３Ｄ）深度データを表す３Ｄメッシュデータ１１２を取り込むように構成された３Ｄカメラ１０４ｂを例示する。一実施形態では、３Ｄ深度データは、３Ｄカメラによって取り込まれたフレームに対応するメッシュファイルを含んでいてもよい。図２Ｃに例示したように、俳優１０２は、ＰＯＶ１０６ｂを備えた３Ｄカメラ１０４ｂを含むヘッドセットを着用していると示している。３Ｄカメラ１０４ｂは、俳優１０２が種々の顔の表情、ポーズ、及び動作を実行するときに、俳優１０２の顔の表情を取り込むように構成されている。一実施形態では、図２Ｄに示したように、３Ｄメッシュデータ１１２は、複数のメッシュファイルを含んでいてもよい。いくつかの実施形態では、３Ｄカメラによって取り込まれたメッシュデータは、３Ｄカメラ１０４ｂによって取り込まれた画像の３Ｄモデルの構造構築を含んでいてもよい。３Ｄメッシュデータ１１２は、Ｘ、Ｙ、及びＺ幾何学座標における基準点を使用して３Ｄモデルの高さ、幅、及び深さを規定する１つ以上のメッシュファイルを含んでいてもよい。

【0032】

図３Ａに、ｔＬＶＦ１１６を生成するための処理のための１つ以上の入力を受け取るように構成されたソルバー１１４の実施形態を例示する。図３Ａに示したように、システムは、俳優１０２の２Ｄ点群データ１０８、ブレンドシェイプ１２２、及びジョイントファイル１２４を受け取るように構成されたソルバー１１４を含む。ソルバー１１４が入力を処理し、ｔＬＶＦ１１６を生成した後に、システムは、ｔＬＶＦ１１６から特徴を抽出するように構成された特徴抽出１１８動作と、抽出された特徴を分類するように構成された分類器１２０動作とを含んでいてもよい。抽出された特徴を分類した後に、システムは、ｔＬＶＦと時間調整してメッシュデータを処理してモデル１３２をトレーニングするように構成された位置合わせ動作１３０を含んでいてもよい。

【0033】

いくつかの実施形態では、ソルバー１１４は、２Ｄ点群データ１０８、ブレンドシェイプ１２２、及びジョイントファイル１２４を処理してｔＬＶＦ１１６を生成するために、プラシング３０２動作及び統計的人工知能（ＡＩ）３０４を含んでいてもよい。一実施形態では、ソルバー１１４による処理のために使用されるブレンドシェイプ１２２及びジョイントファイル１２４は、共通の感情的な顔の表情（たとえば、嫌悪感、怒り、恐怖、悲しみ、及び幸福）に関連付けられたファイルの初期セットである。ブレンドシェイプ及びジョイントファイルの初期セットは、モデル１３２をトレーニングするためにソルバー１１４によって使用される。ブレンドシェイプ及びジョイントファイルの初期セットを使用してモデル１３２がトレーニングされたら、他の感情的な顔の表情に対応するさらなるブレンドシェイプ及びジョイントファイルは、モデル１３２をトレーニングするために必要とはされない場合がある。たとえば、モデル１３２が、嫌悪感、怒り、恐怖、悲しみ、及び幸福を含む顔の感情に対応するブレンドシェイプ及びジョイントファイル使用してトレーニングされる。モデル１３２が、「驚き」の感情に対応する入力メッシュファイルを受け取って処理する場合、モデル１３２は、たとえモデル１３２が「驚き」の顔の表情に対応するブレンドシェイプ及びジョイントファイルを使用してトレーニングされていなかったとしても、「驚き」の感情に対応する出力ＬＶＦを正確に生成するように構成することができる。

【0034】

一実施形態では、ソルバー１１４は、ブレンドシェイプ１２２及びジョイントファイル１２４と組み合わせてルールの組を使用して、２Ｄ点群データ１０８を解釈し、２Ｄ点群データ１０８のフレームのそれぞれにおいて何が起こっているかを判定してもよい。いくつかの実施形態では、２Ｄ点群データ１０８のフレームのそれぞれに何が存在するかを決定した後に、ソルバー１１４は、フレームごとにｔＬＶＦ１１６を生成するように構成されている。いくつかの実施形態では、ソルバー１１４は、２Ｄ点群キーフレーム１１０のそれぞれに対してｔＬＶＦ１１６を生成するように構成されている。たとえば、図３Ａに例示したように、ソルバー１１４は、２Ｄ点群データ１０８、ブレンドシェイプ１２２、及びジョイントファイル１２４を受け取って処理して、２Ｄ点群キーフレーム１１０ａ～１１０ｎに対するｔＬＶＦ１１６ａ～１１６ｂを生成すると示している。

【0035】

図３Ａに示したように、２Ｄ点群キーフレーム１１０ａは、「怒り」の感情的な顔の表情と、キーフレーム１１０ａ内に存在する顔の表情を記述するために生成される対応するｔＬＶＦ１１６ａとを含む。２Ｄ点群キーフレーム１１０ｂは、「恐怖」の感情的な顔の表情と、キーフレーム１１０ｂ内に存在する顔の表情を記述するために生成される対応するｔＬＶＦ１１６ｂとを含む。２Ｄ点群キーフレーム１１０ｃは、「悲しい」の感情的な顔の表情と、キーフレーム１１０ｃ内に存在する顔の表情を記述するために生成される対応するｔＬＶＦ１１６ｃとを含む。２Ｄ点群キーフレーム１１０ｎは、「幸福」の感情的な顔の表情を含み、対応するｔＬＶＦ１１６ｎは、キーフレーム１１６ｎ内に存在する顔の表情を記述するために生成される。したがって、図３Ａに示す例では、ソルバー１１４は、２Ｄ点群キーフレーム１１０ａ～１１０ｎのそれぞれに対してｔＬＶＦ１１６を生成するように構成されている。他の実施形態では、ソルバー１１４は、２Ｄ点群データ１０８のフレームのそれぞれに対してｔＬＶＦ１１６を生成するように構成してもよい。

【0036】

いくつかの実施形態では、プラシング３０２動作は、随意のプロセスであって、アニメーターが、生成されたｔＬＶＦ１１６及び対応する２Ｄ点群キーフレーム１１０をレビューし、ｔＬＶＦ及びキーフレームを手動で調整してその精度及び品質を向上させるプロセスであってもよい。たとえば、プラシング３０２動作の後に、調整をシステムへのフィードバックとして使用して、生成されたｔＬＶＦ１１６の精度及び品質を向上させることができる。一実施形態では、実在の人物（たとえば、デザイナーまたはアニメーター）が、２Ｄ点群データ内の迷惑なものを特定して、キーフレーム及び対応するｔＬＶＦ１１６に必要な調整を行うことができ得るため、プラシング３０２動作は、ｔＬＶＦ１１６の精度を向上させることに役立ち得る。たとえば、アニメーターは、対応する２Ｄ点群データを正確に反映するように、ｔＬＶＦ１１６に関連付けられた種々の重み及び値を変更してもよい。

【0037】

いくつかの実施形態では、プラシング３０２動作の後に、調整されたｔＬＶＦ１１６は統計ＡＩ３０４動作内に供給される。そこでは、統計ＡＩが使用されて、調整されたｔＬＶＦ１１６を評価してそこから学習して、ｔＬＶＦ１１６が不正確であったか否かを判定する。一実施形態では、統計ＡＩ３０４動作は、調整されたｔＬＶＦ１１６及び対応する２Ｄ点群データをどのように解釈するかを学習する。時間とともに、調整されたｔＬＶＦ１１６及びその対応する２Ｄ点群データが処理されるにつれて、統計ＡＩ３０４動作は、パターンから種々の傾向を推測するように構成されている。たとえば、統計ＡＩ３０４動作は、調整されたｔＬＶＦ１１６のパターンであって、俳優のしわが寄った鼻に対応する値は、「幸せな」顔の表情ではなく「嫌悪感のある」顔の表情に対応するように調整されるパターンを確認してもよい。したがって、ソルバー１１４が、しわが寄った鼻を含む２Ｄ点群データ１０８を受け取ると、ソルバー１１４及び統計ＡＩ３０４動作は、この特徴を「嫌悪感のある」顔の表情に対応するとして正確に特定し、対応する２Ｄ点群フレームに対してｔＬＶＦ１１６を正確に生成でき得る。

【0038】

図３Ｂに、ｔＬＶＦ１１６と時間調整して３Ｄメッシュデータ１１２を処理してモデル１３２をトレーニングする実施形態を例示する。前述したように、３Ｄカメラ１０４ｂによって取り込まれた３Ｄメッシュデータ１１２及びｔＬＶＦ１１６は、ソルバー１１４によって生成される。一実施形態では、位置合わせ動作１３０は、メッシュデータとｔＬＶＦとの間の対応関係がモデル１３２によって学習されるように、３Ｄメッシュデータ１１２を対応するｔＬＶＦ１１６と位置合わせするように構成されている。位置合わせプロセスは、モデル１３２が所与のメッシュデータとｔＬＶＦとの間の正確な相関関係を作ることを学習できるように、モデル１３２をトレーニングするのに役立つ。

【0039】

たとえば、図３Ｂに例示したように、位置合わせ動作１３０は、ｔＬＶＦ１１６と時間調整して複数の３Ｄメッシュファイル１１２ａ～１１２ｎを処理すると示している。一例では、メッシュファイル１１２ａが、時間ｔ２においてｔＬＶＦ１１６ａ（たとえば、怒り）に関連づけられ、メッシュファイル１１２ｂが、時間ｔ４においてｔＬＶＦ１１６ｅ（たとえば、軽蔑）に関連づけられ、メッシュファイル１１２ｃが、時間ｔ６においてｔＬＶＦ１１６ｄ（たとえば、嫌悪感）に関連づけられ、及びメッシュファイル１１２ｎが、時間ｔｎにおいてｔＬＶＦ１１６ｎ（たとえば、驚いた）に関連づけられる。したがって、時間とともに、モデル１３２は、メッシュデータとｔＬＶＦとの間の対応関係を学習し、モデル１３２を使用して、任意の入力メッシュファイルに対応するＬＶＦを生成することができる。

【0040】

図３Ｃに、俳優から取り込まれた入力メッシュファイルを使用してモデル１３２によって生成された種々の出力ＬＶＦを例示するＬＶＦテーブル３０６の実施形態を例示する。一実施形態では、モデル１３２は、任意の俳優から取り込まれた入力メッシュファイルを受け取って、入力メッシュファイルに対応する出力ＬＶＦを生成するように構成されている。図示したように、ＬＶＦテーブル３０６は、入力メッシュファイルＩＤ３０７及び対応する出力ＬＶＦＩＤ３０８を含む。一実施形態では、出力ＬＶＦのそれぞれは、感情タイプ３１０、感情の記述３１２、及び俳優の顔上の種々の顔の特徴（たとえば、顔特徴１～顔特徴Ｎ）に対応する顔特徴値３１４を含んでいてもよい。

【0041】

図３Ｃに例示したように、それぞれの生成された出力ＬＶＦは、出力ＬＶＦを分類する対応する感情タイプ３１０と、対応する入力メッシュファイル内の特徴を記述する記述３１２とを有していてもよい。たとえば、図３Ｃに示したように、入力メッシュファイル（たとえば、ＩＭＦ－５）がモデル１３２への入力として提供され、出力ＬＶＦ（たとえば、ＯＬＶ－５）が、入力メッシュファイル（たとえば、ＩＭＦ－５）に対応して生成された。例示したように、出力ＬＶＦ（たとえば、ＯＬＶ－５）は、「嫌悪感」の感情に関連付けられた顔の表情を含む。さらに、出力ＬＶＦ（たとえば、ＯＬＶ－５）に対応する記述は、対応する入力メッシュファイルの特徴（たとえば、鼻のしわ、上がった上唇）の簡単な記述を含む。

【0042】

いくつかの実施形態では、出力ＬＶＦのそれぞれは、入力メッシュファイルを取り込むために使用された俳優の顔上の特徴に対応する顔特徴値３１４を含んでいてもよい。一実施形態では、入力メッシュファイルに関連付けられた顔特徴値３１４は、５０～１５００の値を含んでいてもよい。一例では、値は俳優の顔上の様々な筋肉に関連付けられている。いくつかの実施形態では、顔特徴値３１４は０～１の範囲とすることができる。一実施形態では、顔特徴値３１４は、各入力メッシュファイル内に存在する顔上の筋活動を記述するラベルを表す。たとえば、顔特徴値「０」は、顔特徴に関連付けられた筋肉が完全に弛緩されていることを示してもよい。逆に、顔特徴値「１」は、顔特徴に関連付けられた筋肉が最適に活性化されている（たとえば、達成できる限り緊張している）ことを示してもよい。したがって、出力ＬＶＦが詳細であるほど、ゲームキャラクターのアニメーションは正確である。出力ＬＶＦ内で提供される詳細のレベル及び値の数は、値の数が大きいほど全般的に高品質のアニメーションが生成されるため、ゲームキャラクターのアニメーションの品質に直接影響し得る。

【0043】

顔特徴値３１４を例示するために、一例では、図３Ｃに示したように、出力ＬＶＦ（たとえば、ＯＬＶ－２）は、「恐怖」の感情に関連付けられた顔の表情を含む。対応する入力メッシュファイル（たとえば、ＩＭＦ－２）は、上がった眉、上がった上目瞼、及び伸びた唇などの顔特徴を含む。例示したように、顔特徴５は値が「１」で、俳優の眉に沿って最も近い点に対応する。値「１」は、領域内の筋肉が活性化されて、眉が伸ばせる限り上がっているため、俳優の眉が緊張して最適に活性化されていることを示してもよい。別の例では、出力ＬＶＦ（たとえば、ＯＬＶ－２）の場合、顔特徴４は値が「０」で、俳優のノイズのブリッジに最も近い点に対応する。値「０」は、俳優のノイズのブリッジが完全に緩和されて、非活性であることを示してもよい。

【0044】

図３Ｄに、モデル１３２を使用してゲームキャラクター３１８の顔の表情をアニメーション化するシステムの実施形態を例示する。一実施形態では、ユーザのゲームプレイ中に、ゲームエンジン３２０は、一連の機能性及び動作を実行するように構成されている。一実施形態では、ゲームエンジン３２０は、種々のゲームキャラクター及びゲームシーンを含み得るユーザのゲームプレイを実行及びレンダリングすることができる。図３Ｄに示したように、ユーザのゲームプレイは、ゲームキャラクター３１８が剣を使用していることを例示するゲームシーン３１６を含む。ゲームシーンのゲームプレイ及びコンテキストに基づいて、ゲームエンジン３２０は、ゲームキャラクター３１８が特定のゲームシーン（たとえば、剣の戦い）に対して「怒り」の顔の表情を必要とすることを判定するように構成してもよい。その結果、ゲームエンジン３２０はＬＶＦファイルリクエスト３２４動作にリクエストを送り、入力クエリがモデル１３２ａ～１３２ｎに送り出されて、「怒り」の顔の表情に対応するＬＶＦを要求する。

【0045】

いくつかの実施形態では、各モデル１３２ａ～１３２ｎは、ビデオゲーム内の特定のゲームキャラクターに関連付けられる。したがって、どの特定のゲームキャラクターをアニメーション化すべきかに応じて、対応するモデルは、リクエストされたＬＶＦを生成するように構成されている。たとえば、図３Ｄに例示したように、モデル１３２ａはゲームキャラクター３１８に関連付けられているため、モデル１３２ａを使用してゲームキャラクター３１８に対するＬＶＦを生成することができる。いくつかの実施形態では、システムは、モデルデータベース３２６を含んでいてもよい。一実施形態では、モデルデータベース３２６は、モデル１３２ａ～１３２ｎのそれぞれに対するＬＶＦに対応するデータを含んでいてもよい。いくつかの実施形態では、モデル１３２ａ～１３２ｎ及びモデルデータベース３２６は共に動作して、リクエストされたＬＶＦを生成及び取得してもよい。

【0046】

いくつかの実施形態では、対応するモデルによって生成された出力ＬＶＦ３２８を、アニメーションエンジン３２２によって取得することができる。一実施形態では、アニメーションエンジン３２２は、出力ＬＶＦ３２８がゲームエンジン３２０からのリクエストに対応することを確認するように構成されている。出力ＬＶＦ３２８が正しいことを確認した後、アニメーションエンジン３２２は、ゲームエンジン３２０が出力ＬＶＦ３２８を使用してゲームキャラクター３１８の顔の表情をアニメーション化できるように、ゲームエンジン３２０に出力ＬＶＦ３２８を送出する。

【0047】

図３Ｄに示したように、ディスプレイ３３０は、ゲームキャラクター３１８の顔の拡大図を示す。ゲームエンジン３２０が出力ＬＶＦ３２８を使用してゲームキャラクター３１８の顔の表情をアニメーション化した後、ゲームキャラクター３１８は、「怒り」の感情に関連付けられた顔の表情を示す。ディスプレイ３３０上に例示したように、ゲームキャラクター３１８の顔は、ゲームキャラクターの顔上の位置に対応する複数の顔特徴（たとえば、ＦＦ１～ＦＦｎ）を含む。いくつかの実施形態では、出力ＬＶＦ３２８は、「怒り」の顔の表情をアニメーション化するためにゲームキャラクターの顔特徴に適用できる顔特徴値を含んでいてもよい。

【0048】

図４に、複数の俳優１０２ａ～１０２ｎから取り込まれた３Ｄメッシュデータ及び２Ｄ点群データを使用して、マルチアクターモデル４０８をトレーニングするように構成されたシステムの実施形態を例示する。一実施形態では、図４に、俳優１０２ａ～１０２ｎ、トレーニング４０２動作、特徴抽出４０４動作、分類器４０６動作、及びマルチアクターモデル４０８を例示する。一実施形態では、俳優１０２ａ～１０２ｎのそれぞれは、固有であり、互いに異なっていてもよい。たとえば、俳優１０２ａ～１０２ｎのそれぞれは、異なる顔特徴、身体的属性、演技経験、スキルレベルを有し、各俳優は、他の俳優が実行でき得ない特有の演技を送出できてもよい。

【0049】

一実施形態では、俳優１０２ａ～１０２ｎのそれぞれが種々の動作及び顔の表情を実行すると、２Ｄカメラ１０４ａ及び３Ｄカメラ１０４ｂは、個々の俳優１０２ａ～１０２ｎに関連付けられた２Ｄ点群データ１０８及び３Ｄメッシュデータ１１２を取り込むように構成されている。前述したように、一実施形態では、２Ｄ点群データ１０８は、俳優１０２ａ～１０２ｎの顔上に存在する追跡されたドットを表す。別の実施形態では、３Ｄメッシュデータ１１２は、俳優１０２ａ～１０２ｎの顔の３Ｄ深度データを含んでいてもよい。

【0050】

一実施形態では、トレーニング４０２動作は、マルチアクターモデル４０８をトレーニングするための処理のために、俳優のそれぞれに関連付けられた取り込み２Ｄ点群データ１０８及び３Ｄメッシュデータ１１２を受け取るように構成されている。他の実施形態では、マルチアクターモデル４０８は、ブレンドシェイプファイル及びジョイントファイルを入力として受け取るように構成されている。一実施形態では、トレーニング４０２動作は、ブレンドシェイプ及びジョイントファイルと組み合わせてルールの組を使用して、ｔＬＶＦを生成するために俳優のそれぞれに関連付けられた２Ｄ点群データ１０８を解釈するように構成されている。いくつかの実施形態では、トレーニング４０２動作は、ｔＬＶＦと時間調整して３Ｄメッシュデータを処理して、マルチアクターモデル４０８をトレーニングすることを含んでいてもよい。たとえば、トレーニング４０２動作が３Ｄメッシュデータ及び生成されたｔＬＶＦを受け取ると、トレーニング４０２動作は、メッシュデータとｔＬＶＦとの間の対応関係がマルチアクターモデル４０８によって学習されるように、３Ｄメッシュデータを対応するｔＬＶＦ１１６と位置合わせする。

【0051】

いくつかの実施形態では、システムは、トレーニング４０２動作の出力（たとえば、トレーニングデータ）を処理して、３Ｄメッシュデータ及びｔＬＶＦに関連付けられた特徴を特定して抽出するように構成された特徴抽出４０４動作を含む。特徴抽出４０４動作が、トレーニング４０２動作からの特徴を処理して特定した後、分類器４０６動作は、１つ以上の分類器を使用して特徴を分類するように構成されている。一実施形態では、特徴は、マルチアクターモデル４０８によってさらに精緻なものにするための分類アルゴリズムを使用してラベル付けされる。

【0052】

いくつかの実施形態では、マルチアクターモデル４０８は、トレーニングデータの分類された特徴を入力として受け取るように構成されている。別の実施形態では、直接入力ではない他の入力または入力／フィードバックの欠如も、マルチアクターモデル４０８への入力として取得してもよい。マルチアクターモデル４０８は、機械学習モデルを使用して、対応する入力メッシュファイルに対する出力ＬＶＦを予測してもよい。たとえば、才能ある女性俳優のメッシュファイルを、３Ｄカメラによって取り込んで、マルチアクターモデル４０８への入力クエリとして使用する。リアルタイムで、マルチアクターモデル４０８は、ビデオゲームにおける姫戦士キャラクタの顔の表情をアニメーション化するためにゲームエンジンが使用する個々の取り込まれたメッシュファイルに対応する出力ＬＶＦを生成することができる。

【0053】

図５に、モデル１３２及びマルチアクターモデル４０８を使用して、入力３Ｄメッシュデータ１１２に対応する出力ＬＶＦを生成する種々の実施形態を例示する。例示したように、図は、モデルを使用して出力ＬＶＦを生成する３つの例（たとえば、５０２、５０４、５０６）を例示する。一例（たとえば、５０２）では、モデル１３２は、俳優１０２ａの入力メッシュファイルに対応するさらなるＬＶＦ５０８を生成するように構成されている。例示したように、俳優１０２ａは、俳優１０２ａの顔の３Ｄメッシュデータ１１２ａを取り込むように構成された３Ｄカメラ１０４ｂを含むヘッドセットを使用して示している。３Ｄメッシュデータ１１２ａは、モデル１３２に対する入力として使用できるメッシュファイルを含んでいてもよい。一実施形態では、モデル１３２は、俳優１０２ａに関連付けられたトレーニングファイル（たとえば、２Ｄ点群、３Ｄメッシュデータ）を使用してトレーニングされたため、モデル１３２は、入力メッシュファイルに対応するさらなるＬＶＦ５０８を生成するように構成されている。たとえば、１０２ａの俳優に、以前には取り込まれなかったさらなる顔の表情を実行するように指示してもよい。モデル１３２は、トレーニングデータの初期セットを使用してトレーニングされているため、モデル１３２は、さらなる顔の表情に対応する入力メッシュファイルを受け取るように構成され、さらなるＬＶＦ５０８は、入力メッシュファイルに対応するように生成することができる。

【0054】

別の例（たとえば、５０４）では、モデル１３２は、第２の俳優（たとえば、俳優１０２ｂ）の入力メッシュファイルに対応するＬＶＦ５１０を生成するように構成されている。例示したように、俳優１０２ｂは、俳優１０２ｂの顔の３Ｄメッシュデータ１１２ｂを取り込むように構成された３Ｄカメラ１０４ｂを含むヘッドセットを使用して示している。この図では、モデル１３２は、俳優１０２ａ（たとえば、第１の俳優）に関連付けられたトレーニングファイル（たとえば、２Ｄ点群、３Ｄメッシュデータ）を使用してトレーニングされた。しかし、モデル１３２は、俳優１０２ｂ（たとえば、第２の俳優）の入力メッシュファイルに対応するＬＶＦ５１０を生成するために、依然として使用することができる。いくつかの実施形態では、モデル１３２は、俳優１０２ｂ（たとえば、第２の俳優）に関連付けられたトレーニングファイルを使用してトレーニングされてはいなかったため、生成されたＬＶＦ５１０はそれほど正確ではない場合がある。

【0055】

さらに別の例（たとえば、５０６）では、マルチアクターモデル４０８は、第２の俳優（たとえば、俳優１０２ｂ）の入力メッシュファイルに対応するＬＶＦ５１２を生成するように構成されている。この例では、マルチアクターモデル４０８は、複数の俳優１０２ａ～１０２ｎに関連付けられたトレーニングファイル（たとえば、２Ｄ点群、３Ｄメッシュデータ）を使用してトレーニングされた。いくつかの実施形態では、マルチアクターモデル４０８は、複数の俳優１０２ａ～１０２ｎに関連付けられたトレーニングファイルを使用してトレーニングされたため、生成されたＬＶＦ５１２は、モデル１３２を使用して生成されたＬＶＦ５１０よりも正確であり得る。

【0056】

図６に、２Ｄ点群キーフレーム１１０ａ～１１０ｎ及び遷移フレーム６０２ａ～６０２ｎを含む２Ｄ点群データ１０８の実施形態を例示する。一実施形態では、システムは、２Ｄ点群キーフレーム１１０のみを処理してｔＬＶＦを生成するように構成されているため、バンド幅を節約し、冗長性を減らすのに役立つことができる。他の実施形態では、システムは、遷移フレーム６０２を含む２Ｄ点群データ１０８のすべてのフレームも処理するように構成されている。モデル１３２及びマルチアクターモデル４０８をトレーニングするために処理されるフレームが多くなるにつれて、モデルによって生成された出力ＬＶＦは、より正確でより信頼性が高くなる。一実施形態では、遷移フレーム６０２は、モデルをトレーニングするためにシステムが使用できる関連データを含んでいてもよい。たとえば、俳優１０２が演技して、特定の顔の表情（たとえば、悲しい、幸せ、怖いなど）を生成する場合、遷移フレーム６０２は、俳優がある特定の顔の表情から他の表情に遷移するときに不注意で形成される種々の顔の表情及びポーズを含んでいてもよい。一実施形態では、遷移フレーム６０２は、遷移フレーム６０２内にどのような特徴があるかをモデルが学習して理解できるように、システムによって処理してもよい。

【0057】

たとえば、図６に例示したように、２Ｄ点群データ１０８は、複数の２Ｄ点群キーフレーム１１０ａ～１１０ｎ及び遷移フレーム６０２ａ～６０２ｎを含む。詳細には、２Ｄ点群キーフレーム１１０ａは、「幸福」を示す顔の表情に対応する特徴を含む。２Ｄ点群キーフレーム１１０ｂは、「悲しみ」を示す顔の表情に対応する特徴を含む。２Ｄ点群キーフレーム１１０ｃは、「驚いた」を示す顔の表情に対応する特徴を含む。２Ｄ点群キーフレーム１１０ｎは、「イライラする」を示す顔の表情に対応する特徴を含む。俳優１０２がある顔の表情から他の表情に遷移するときに、遷移フレーム６０２ａ～６０２ｎは、モデルによる学習のために処理できる関連データを含んでいてもよい。

【0058】

図７に、ゲームキャラクターの顔の表情をアニメーション化するために使用されるモデルをトレーニングするための方法を例示する。一実施形態では、本方法は、３Ｄカメラ１０４ｂを使用して第１の人間の俳優１０２ａのメッシュデータを取り込んで、第１の人間の俳優の顔の３Ｄ深度データを生成するように構成された動作７０２を含む。いくつかの実施形態では、３Ｄ深度データは、３Ｄカメラによって取り込まれたフレームに対応するメッシュファイルとして出力される。たとえば、第１の人間の俳優１０２ａは、２Ｄカメラ１０４ａ及び３Ｄカメラ１０４ｂを含む複数のカメラを含むヘッドセットを着用していてもよい。第１の人間の俳優１０２ａが、種々の感情の状態（たとえば、喜び、悲しみ、恐怖、怒り、驚き、嫌悪感、軽蔑、パニックなど）を表現するために、ポーズを取って種々の顔の表現を実行すると、３Ｄカメラ１０４ｂは、第１の人間の俳優の顔のメッシュデータを取り込んで、３Ｄ深度データを生成するように構成されている。３Ｄ深度データは、第１の人間の俳優の顔の３Ｄモデルを作成するために使用できる。

【0059】

図７に示す方法は、次に動作７０４に進む。ここでは、動作は、ｔＬＶＦ１１６を生成するための処理のために、２Ｄカメラ１０４ａを使用して第１の人間の俳優１０２ａの２Ｄ点群データを取り込むように構成されている。いくつかの実施形態では、第１の人間の俳優１０２ａは、俳優の顔に沿って配置されたドットパターン２０２（たとえば、マーカー）を有していてもよい。一実施形態では、２Ｄカメラ１０４ａによって取り込まれた２Ｄ点群データは、俳優の顔上に存在するドットパターンの追跡を表す。したがって、２Ｄ点群データにはドットパターンの追跡に関連した情報が含まれるため、俳優の顔特徴の動きを任意の時点で測定して決定することができる。

【0060】

いくつかの実施形態では、動作７０４は、ソルバーを使用してトレーニングラベル値ファイル（ｔＬＶＦ）を生成するように構成されている。一実施形態では、ソルバーは、第１の人間の俳優１０２ａの２Ｄ点群データ、ブレンドシェイプ１２２、及びジョイントファイル１２４を受け取るように構成されている。いくつかの実施形態では、ソルバーは、ルールの組であって、２Ｄ点群データ内のフレームのそれぞれにおいて何が起こっているかを判定し、個々のフレームのそれぞれに対してｔＬＶＦを生成するために、ブレンドシェイプ及びジョイントファイルとともに使用されるルールの組を含んでいてもよい。

【0061】

図７に示す方法は、次に動作７０８に進む。ここでは、動作は、２Ｄ点群データに関連付けられたｔＬＶＦと時間調整してメッシュデータを処理して、モデル１３２をトレーニングするように構成されている。一実施形態では、動作７０８は、メッシュデータとｔＬＶＦとの間の対応関係がモデル１３２によって学習されるように、メッシュデータを対応するｔＬＶＦと位置合わせする。位置合わせプロセスは、モデル１３２が所与のメッシュデータとＬＶＦとの間の正確な相関関係を作ることを学習できるように、モデル１３２をトレーニングするのに役立つ。

【0062】

一実施形態では、モデル１３２がトレーニングされた後、モデル１３２は、第２の人間の俳優１０２ｂまたは任意の俳優から取り込まれたメッシュファイルを入力として受け取るように構成されている。俳優に関連付けられた入力メッシュファイルを使用して、モデル１３２を、入力メッシュファイルに対応する出力ＬＶＦを生成するために使用することができる。したがって、トレーニングされたモデル１３２は、任意の俳優に関連付けられた入力メッシュファイルを単純に使用して、出力ＬＶＦを生成することができる。出力ＬＶＦは、ゲームキャラクターの顔の表情をアニメーション化するために使用できる。

【0063】

図８は、本開示の様々な実施形態の態様を実行するために使用できる例示的なデバイス８００の構成要素を示す。このブロック図は、本開示の実施形態を実施するのに好適なパーソナルコンピュータ、ビデオゲームコンソール、パーソナルデジタルアシスタント、サーバ、または他のデジタルデバイスを組み込むことができる、またはこれらであり得る、デバイス８００を示す。デバイス８００は、ソフトウェアアプリケーション及び任意選択でオペレーティングシステムを実行するための中央処理装置（ＣＰＵ）８０２を含む。ＣＰＵ８０２は、１つ以上の同種または異種の処理コアで構成されてもよい。たとえば、ＣＰＵ８０２は、１つ以上の処理コアを有する１つ以上の汎用マイクロプロセッサである。さらなる実施形態は、クエリの解釈、文脈的に関連するリソースの識別、及び文脈的に関連するリソースのビデオゲーム内での即時実施及びレンダリングなど、高並列及び計算集約的なアプリケーションに特に適合したマイクロプロセッサアーキテクチャを有する１つ以上のＣＰＵを使用して、実施することができる。デバイス８００は、ゲームセグメント（たとえば、ゲームコンソール）をプレイするプレーヤにローカライズされたもの、またはプレーヤからリモートであるもの（たとえば、バックエンドサーバプロセッサ）、またはクライアントへのゲームプレイのリモートストリーミングのためにゲームクラウドシステムで仮想化を使用する多くのサーバの１つであってもよい。

【0064】

メモリ８０４は、ＣＰＵ８０２が使用するアプリケーション及びデータを記憶する。ストレージ８０６は、アプリケーション及びデータのための不揮発性ストレージ及びその他のコンピュータ可読媒体を提供し、固定ディスクドライブ、リムーバブルディスクドライブ、フラッシュメモリデバイス、及びＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、Ｂｌｕ－ｒａｙ（登録商標）、ＨＤ－ＤＶＤ、またはその他の光学ストレージデバイス、ならびに信号伝送及びストレージメディアを含んでもよい。ユーザ入力デバイス８０８は、１人以上のユーザからのユーザ入力をデバイス８００へ通信し、ユーザ入力デバイス８０８の例には、キーボード、マウス、ジョイスティック、タッチパッド、タッチスクリーン、スチルレコーダ／カメラもしくはビデオレコーダ／カメラ、ジェスチャを認識する追跡デバイス、及び／またはマイクロフォンが挙げられ得る。ネットワークインターフェース８１４は、デバイス８００が電子通信ネットワークを介して他のコンピュータシステムと通信することを可能にし、ローカルエリアネットワーク、及びインターネットなどのワイドエリアネットワークにわたる有線または無線通信を含んでもよい。オーディオプロセッサ８１２は、ＣＰＵ８０２、メモリ８０４、及び／またはストレージ８０６によって提供される命令及び／またはデータから、アナログまたはデジタルのオーディオ出力を生成するように適合されている。ＣＰＵ８０２、メモリ８０４、データストレージ８０６、ユーザ入力デバイス８０８、ネットワークインターフェース８１０、及びオーディオプロセッサ８１２を含むデバイス８００の構成要素は、１つ以上のデータバス８２２を介して接続されている。

【0065】

グラフィックスサブシステム８２０が、データバス８２２及びデバイス８００の構成要素とさらに接続されている。グラフィックスサブシステム８２０は、グラフィックスプロセシングユニット（ＧＰＵ）８１６とグラフィックスメモリ８１８とを含む。グラフィックスメモリ８１８は、出力画像の各画素の画素データを格納するために使用される表示メモリ（たとえば、フレームバッファ）を含む。グラフィックスメモリ８１８は、ＧＰＵ８０８と同じデバイスに統合されてもよく、ＧＰＵ８１６と別個のデバイスとして接続されてもよく、及び／またはメモリ８０４内に組み込まれてもよい。画素データは、ＣＰＵ８０２から直接グラフィックスメモリ８１８に提供することができる。あるいは、ＣＰＵ８０２は、所望の出力画像を定義するデータ及び／または命令をＧＰＵ８１６に提供し、そこからＧＰＵ８１６が１つ以上の出力画像の画素データを生成する。所望の出力画像を定義するデータ及び／または命令は、メモリ８０４及び／またはグラフィックスメモリ８１８に格納することができる。実施形態では、ＧＰＵ８１６は、シーンのジオメトリ、ライティング、シェーディング、テクスチャリング、モーション、及び／またはカメラパラメータを定義する命令及びデータから、出力画像用の画素データを生成するための３Ｄレンダリング機能を含む。ＧＰＵ８１６は、シェーダプログラムを実行することができる１つ以上のプログラマブル実行ユニットをさらに含むことができる。

【0066】

グラフィックスサブシステム８１４は、グラフィックスメモリ８１８から画像の画素データを定期的に出力して、ディスプレイデバイス８１０に表示させる。ディスプレイデバイス８１０は、ＣＲＴ、ＬＣＤ、プラズマ、及びＯＬＥＤディスプレイを含む、デバイス８００からの信号に応答して視覚情報を表示することができる任意のデバイスであり得る。デバイス８００は、たとえば、アナログ信号またはデジタル信号をディスプレイデバイス８１０に提供することができる。

【0067】

現在の実施形態のゲームへのアクセス提供など、広範囲な地域にわたり配信されるアクセスサービスは、多くの場合、クラウドコンピューティングを使用することに留意されたい。クラウドコンピューティングとは、動的にスケーラブルで多くの場合仮想化されたリソースがインターネットを介したサービスとして提供されるコンピューティング様式である。ユーザは、ユーザをサポートする「クラウド」の技術的インフラストラクチャのエキスパートである必要はない。クラウドコンピューティングは、サービスとしてのインフラストラクチャ（ＩａａＳ）、サービスとしてのプラットフォーム（ＰａａＳ）、サービスとしてのソフトウェア（ＳａａＳ）などの異なるサービスに分類することができる。クラウドコンピューティングサービスは、多くの場合、ビデオゲームなどの共通のアプリケーションを、ウェブブラウザからアクセスするオンラインで提供するが、ソフトウェア及びデータは、クラウド内のサーバに記憶される。クラウドという用語は、コンピュータネットワーク図におけるインターネットの描かれ方に基づいたインターネットの隠喩として使用され、複雑なインフラストラクチャを隠し持つことの抽象的概念である。

【0068】

ゲームサーバは、いくつかの実施形態では、ビデオゲームプレーヤのための持続的情報プラットフォームの動作を実行するために使用され得る。インターネット上でプレイされる大抵のビデオゲームは、ゲームサーバへの接続を介して動作する。通常、ゲームは、プレーヤからデータを収集し、収集したデータを他のプレーヤに配信する専用サーバアプリケーションを使用する。他の実施形態では、ビデオゲームは、分散型ゲームエンジンによって実行されてよい。これらの実施形態では、分散型ゲームエンジンは、複数の処理エンティティ（ＰＥ）上で実行されてよく、その結果、各ＰＥは、ビデオゲームが実行される所与のゲームエンジンの機能セグメントを実行する。各処理エンティティは、ゲームエンジンからは単なる計算ノードと見なされる。ゲームエンジンは通常、機能的に多様な一連の操作を行って、ユーザが体験する追加のサービスと共にビデオゲームアプリケーションを実行する。たとえば、ゲームエンジンは、ゲームロジックを実装し、ゲーム計算、物理的過程、ジオメトリ変換、レンダリング、照明、シェーディング、オーディオ、及び追加のゲーム内またはゲーム関連サービスを実行する。追加のサービスには、たとえば、メッセージング、ソーシャルユーティリティ、オーディオ通信、ゲームプレイ再生機能、ヘルプ機能などが含まれてよい。ゲームエンジンは、特定のサーバのハイパーバイザによって仮想化されたオペレーティングシステム上で実行されてよいが、他の実施形態では、ゲームエンジン自体が複数の処理エンティティに分散され、各エンティティはデータセンタの異なるサーバユニットに常駐してよい。

【0069】

この実施形態によると、実行のために各処理エンティティは、各ゲームエンジンセグメントのニーズに応じて、サーバユニット、仮想マシン、またはコンテナであってよい。たとえば、ゲームエンジンセグメントがカメラの変換を担当する場合、比較的単純な数学演算（たとえば、行列変換）を多数行うことになるので、その特定のゲームエンジンセグメントは、グラフィックスプロセシングユニット（ＧＰＵ）に関連付けられた仮想マシンと共にプロビジョニングされてよい。より少ないがより複雑な操作を必要とする他のゲームエンジンセグメントは、１つ以上のより高出力の中央処理装置（ＣＰＵ）に関連付けられた処理エンティティと共にプロビジョニングされてよい。

【0070】

ゲームエンジンを分散することにより、ゲームエンジンは、物理サーバユニットの能力に拘束されない弾力性のある計算特性を備える。代わりに、ゲームエンジンは、必要に応じて、ビデオゲームの要求を満たすためにより多いまたは少ない計算ノードと共にプロビジョニングされる。ビデオゲーム及びビデオゲームプレーヤの観点からは、複数の計算ノードに分散されているゲームエンジンは、ゲームエンジンマネージャまたはスーパーバイザがワークロードを分散し、結果をシームレスに統合して、エンドユーザにビデオゲーム出力構成要素を提供するので、単一の処理エンティティで実行される非分散ゲームエンジンと区別できない。

【0071】

ユーザは、少なくともＣＰＵ、ディスプレイ、及びＩ／Ｏを含むクライアントデバイスにより、遠隔サービスにアクセスする。クライアントデバイスは、ＰＣ、携帯電話、ネットブック、ＰＤＡなどであってよい。一実施形態では、ゲームサーバ上で実行されるネットワークは、クライアントが使用するデバイスの種類を認識し、採用される通信方法を調整する。別の事例では、クライアントデバイスは、ＨＴＭＬなどの標準的な通信方法を使用して、インターネットを介してゲームサーバ上のアプリケーションにアクセスする。

【0072】

所与のビデオゲームまたはゲームアプリケーションは、特定のプラットフォーム及び特定の関連コントローラデバイス用に開発され得ることを、理解されたい。しかしながら、本明細書に提示されるようなゲームクラウドシステムを介してこのようなゲームを利用可能にするときに、ユーザは、異なるコントローラデバイスによってビデオゲームにアクセスすることができる。たとえば、ゲームは、ゲームコンソール及びその関連したコントローラのために開発されている可能性があるが、ユーザは、キーボード及びマウスを利用するパーソナルコンピュータからゲームのクラウドベースのバージョンにアクセスすることができる。このようなシナリオにおいて、入力パラメータ構成は、ユーザの利用可能なコントローラデバイス（この事例において、キーボード及びマウス）により生成されることが可能である入力から、ビデオゲームの実行のために許容可能である入力へのマッピングを定義することが可能である。

【0073】

別の実施例では、ユーザは、タブレットコンピューティングデバイス、タッチスクリーンスマートフォン、または他のタッチスクリーン駆動デバイスを介して、クラウドゲームシステムにアクセスし得る。この場合、クライアントデバイス及びコントローラデバイスは、同じデバイス内に一緒に統合され、検出されたタッチスクリーン入力／ジェスチャにより入力が提供される。このようなデバイスについて、入力パラメータ構成は、ビデオゲームについてのゲーム入力に対応する特定のタッチスクリーン入力を定義することができる。たとえば、ボタン、指向性パッド、または他のタイプの入力素子は、ビデオゲームの実行中に表示され、またはオーバレイされ、ユーザがゲーム入力を生成するためにタッチすることが可能であるタッチスクリーン上の位置を示すことができる。特定の方向におけるスワイプなどのジェスチャまたは特定のタッチ動作も、ゲーム入力として検出してもよい。一実施形態では、タッチスクリーン上での制御操作にユーザを慣れさせるために、たとえばビデオゲームのゲームプレイを始める前に、タッチスクリーンを介してゲームプレイに入力する方法を示すチュートリアルが、ユーザに提供され得る。

【0074】

いくつかの実施形態では、クライアントデバイスは、コントローラデバイスについての接続ポイントとして機能する。すなわち、コントローラデバイスは、無線接続または有線接続を介してクライアントデバイスと通信し、コントローラデバイスからクライアントデバイスへ入力を送信する。次に、クライアントデバイスは、これらの入力を処理して、その後入力データを、ネットワーク（たとえばルータなどのローカルネットワークデバイスを介してアクセスされるネットワーク）を介して、クラウドゲームサーバへ送信し得る。しかしながら、他の実施形態において、コントローラ自体は、ネットワークを介してクラウドゲームサーバへ直接に入力を通信する能力を有し、これらのような入力を最初にクライアントデバイスを通して通信する必要がなく、ネットワーク化されたデバイスであることが可能である。たとえば、コントローラは、ローカルネットワークデバイス（前述のルータなど）に接続して、クラウドゲームサーバとデータを送受信し得る。したがって、クライアントデバイスは、クラウドベースのビデオゲームからビデオ出力を受信し、それをローカルディスプレイにレンダリングすることを必要とされたままであることができながら、入力レイテンシは、コントローラがクラウドゲームサーバへネットワーク経由で直接に入力を送信することを可能にし、クライアントデバイスをバイパスすることにより減少することが可能である。

【0075】

１つの実施形態において、ネットワーク化されたコントローラ及びクライアントデバイスは、特定のタイプの入力をコントローラからクラウドゲームサーバへ直接に、また他のタイプの入力をクライアントデバイスを介して送信するように構成されることが可能である。たとえば、コントローラ自体は別として、任意の追加のハードウェアまたは処理に依存しない検出による入力は、クライアントデバイスを迂回して、ネットワークを介して直接コントローラからクラウドゲームサーバへ送信することができる。これらのような入力は、ボタン入力、ジョイスティック入力、埋め込み型動き検出入力（たとえば、加速度計、磁力計、ジャイロスコープ）などを含むことができる。しかしながら、追加のハードウェアを利用する、またはクライアントデバイスによる処理を必要とする入力は、クライアントデバイスによりクラウドゲームサーバへ送信されることが可能である。これらは、クラウドゲームサーバへ送信する前に、クライアントデバイスにより処理されることができるゲーム環境から捕捉されたビデオまたは音声を含むことができる。加えて、コントローラの動き検出ハードウェアからの入力は、捕捉されたビデオと併せてクライアントデバイスにより処理され、コントローラの位置及び動きを検出することができ、その後、クライアントデバイスによりクラウドゲームサーバへ通信される。様々な実施形態によるコントローラデバイスはまた、クライアントデバイスから、または直接クラウドゲームサーバから、データ（たとえばフィードバックデータ）を受信し得ることを理解されたい。

【0076】

本明細書で定義される様々な実施形態は、本明細書で開示される様々な特徴を使用する特定の実施態様に組み合わされてもよい、または組み立てられ得ることを、理解されたい。したがって、提供される例は、可能な例の一部にすぎず、様々な要素を組み合わせることでより多くの実施態様を規定することが可能な様々な実施態様に制限を加えるものではない。ある例では、ある実施態様は、開示されたまたは同等の実施態様の趣旨から逸脱することなく、より少ない要素を含んでもよい。

【0077】

本開示の実施形態は、ハンドヘルドデバイス、マイクロプロセッサシステム、マイクロプロセッサベースまたはプログラマブル民生用エレクトロニクス、ミニコンピュータ、メインフレームコンピュータなどを含む種々のコンピュータシステム構成によって実施してもよい。本開示の実施形態はまた、有線ベースネットワークまたは無線ネットワークを介してリンクされる遠隔処理デバイスによりタスクが行われる分散コンピューティング環境においても、実施することができる。

【0078】

方法の操作は特定の順序で記載したが、修正されたゲーム状態を生成するためのテレメトリ及びゲーム状態データの処理が所望の方法で実行される限り、操作間に他のハウスキーピング操作が実行されてもよく、または操作がわずかに異なる時間に起こるように調整されてもよく、またはシステム内に操作を分散することで、処理に関連する様々な間隔で処理操作が起こることを可能にしてもよいことを、理解されたい。

【0079】

１つ以上の実施形態は、コンピュータ可読媒体上のコンピュータ可読コードとして作ることもできる。コンピュータ可読媒体は、データを記憶することができる任意のデータ記憶装置とすることができる。データはその後にコンピュータシステムによって読み取ることができる。コンピュータ可読媒体の例は、ハードドライブ、ネットワーク接続ストレージ（ＮＡＳ）、読み出し専用メモリ、ランダムアクセスメモリ、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、磁気テープ、ならびに他の光学及び非光学データ記憶装置を含む。コンピュータ可読媒体には、コンピュータ可読コードが分散方式で格納され実行されるように、ネットワーク接続されたコンピュータシステムにわたり分散されたコンピュータ可読有形媒体が含まれ得る。

【0080】

一実施形態では、ビデオゲームは、ゲーム機、パーソナルコンピュータ、またはサーバ上でローカルに実行される。場合によっては、ビデオゲームはデータセンタの１つ以上のサーバによって実行される。ビデオゲームが実行されるとき、ビデオゲームのいくつかのインスタンスは、ビデオゲームのシミュレーションであり得る。たとえば、ビデオゲームは、ビデオゲームのシミュレーションを生成する環境またはサーバによって実行され得る。シミュレーションは、いくつかの実施形態では、ビデオゲームのインスタンスである。他の実施形態では、シミュレーションはエミュレータによって生成されてもよい。いずれの場合でも、ビデオゲームがシミュレーションとして表現されている場合、そのシミュレーションは、ユーザ入力によってインタラクティブにストリーミング、実行、及び／または制御できるインタラクティブコンテンツをレンダリングするために実行することができる。

【0081】

前述の実施形態は、理解を明確にするためにある程度詳細に説明されたが、添付の特許請求の範囲内で特定の変更及び修正を実施できることは明らかであろう。したがって、本実施形態は、限定ではなく例示としてみなされるべきであり、本実施形態は、本明細書に記載される詳細に限定されるべきではなく、添付の特許請求の範囲及び均等物の中で変更されてもよい。

【図1】