特表2022-536441 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ オキュラス　ブイアール，エルエルシーの特許一覧

特表2022-536441ヘッドセットカメラからアバターをアニメーション化すること

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4
5
6A
6B
6C
6D
6E
6F
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-08-17

(54)【発明の名称】ヘッドセットカメラからアバターをアニメーション化すること

(51)【国際特許分類】

G06T 13/40 20110101AFI20220809BHJP

G06N 20/00 20190101ALI20220809BHJP

G06T 7/00 20170101ALI20220809BHJP

G06V 10/70 20220101ALI20220809BHJP

G06F 3/01 20060101ALI20220809BHJP

【ＦＩ】

G06T13/40

G06N20/00

G06T7/00 350B

G06V10/70

G06F3/01 510

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2021557405

(86)(22)【出願日】2020-06-05

(85)【翻訳文提出日】2021-11-22

(86)【国際出願番号】 US2020036407

(87)【国際公開番号】W WO2020256969

(87)【国際公開日】2020-12-24

(31)【優先権主張番号】16/449,117

(32)【優先日】2019-06-21

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＢＬＵＥＴＯＯＴＨ

(71)【出願人】

【識別番号】515046968

【氏名又は名称】メタプラットフォームズテクノロジーズ，リミテッドライアビリティカンパニー

【氏名又は名称原語表記】ＭＥＴＡＰＬＡＴＦＯＲＭＳＴＥＣＨＮＯＬＯＧＩＥＳ，ＬＬＣ

(74)【代理人】

【識別番号】110002974

【氏名又は名称】弁理士法人ＷｏｒｌｄＩＰ

(72)【発明者】

【氏名】サラギ，ジェーソン

(72)【発明者】

【氏名】ウェイ，シー－エン

【テーマコード（参考）】

5B050

5E555

5L096

【Ｆターム（参考）】

5B050AA10

5B050BA08

5B050BA09

5B050BA12

5B050CA07

5B050CA08

5B050DA04

5B050EA07

5B050EA24

5B050EA26

5B050FA02

5B050FA05

5B050FA06

5E555AA27

5E555AA76

5E555BA04

5E555BB04

5E555BE17

5E555CA42

5E555DA08

5E555DB32

5E555DC30

5E555DC85

5E555EA19

5E555FA00

5L096HA05

5L096HA11

5L096KA04

(57)【要約】

一実施形態では、コンピューティングシステムが、第１のスペクトルドメインにおいてキャプチャされた複数の第１のキャプチャされた画像にアクセスすることと、第１の機械学習モデルを使用して、第１のキャプチャされた画像に基づいて、複数の第１のドメイン転移された画像を生成することであって、第１のドメイン転移された画像が第２のスペクトルドメイン中にある、複数の第１のドメイン転移された画像を生成することと、第１のアバターに基づいて、第１のアバターのビューを含む複数の第１のレンダリングされた画像をレンダリングすることと、第１のドメイン転移された画像と第１のレンダリングされた画像との間の比較に基づいて第１の機械学習モデルを更新することであって、第１の機械学習モデルが、第１のスペクトルドメイン中の画像を第２のスペクトルドメインにトランスレートするように設定された、第１の機械学習モデルを更新することとを行い得る。システムはまた、第２の機械学習モデルを使用して、第１のキャプチャされた画像に基づいて第１のアバターを生成し得る。第１のアバターは、複数のアバターパラメータに基づいてパラメトリック顔モデルを使用してレンダリングされ得る。
【選択図】図１Ａ

【特許請求の範囲】

【請求項1】

命令を具現する１つまたは複数の非一時的コンピュータ可読記憶媒体と、
前記記憶媒体に結合された１つまたは複数のプロセッサであって、
第１のスペクトルドメインにおいてキャプチャされた、ユーザの複数の第１のキャプチャされた画像にアクセスすることと、
第１の機械学習モデルを使用して、前記第１のキャプチャされた画像に基づいて、複数の第１のドメイン転移された画像を生成することであって、前記第１のドメイン転移された画像が第２のスペクトルドメイン中にある、複数の第１のドメイン転移された画像を生成することと、
第１のアバターに基づいて、前記第１のアバターのビューを含む複数の第１のレンダリングされた画像をレンダリングすることであって、前記第１のアバターが前記ユーザの仮想表現である、複数の第１のレンダリングされた画像をレンダリングすることと、
前記第１のドメイン転移された画像と前記第１のレンダリングされた画像との間の比較に基づいて前記第１の機械学習モデルを更新することであって、更新された前記第１の機械学習モデルが、前記第１のスペクトルドメイン中の画像を前記第２のスペクトルドメインにトランスレートするように設定された、前記第１の機械学習モデルを更新することと
を行うために前記命令を実行するように動作可能な、１つまたは複数のプロセッサと
を備える、システム。

【請求項2】

前記プロセッサは、
第２の機械学習モデルを使用して、前記第１のキャプチャされた画像に基づいて前記第１のアバターを生成すること
を行うために前記命令を実行するようにさらに動作可能である、請求項１に記載のシステム。

【請求項3】

前記第１のアバターが、複数のアバターパラメータに基づいてパラメトリック顔モデルを使用してレンダリングされ、
好ましくは、前記第１のドメイン転移された画像中の前記アバターパラメータの分布が、前記第１のレンダリングされた画像中の前記アバターパラメータの分布に対応する、
請求項１または２に記載のシステム。

【請求項4】

前記第１の機械学習モデルが、各第１のドメイン転移された画像と各対応する第１のレンダリングされた画像との間の差に基づく損失関数を使用して更新される、請求項１から３のいずれか一項に記載のシステム。

【請求項5】

前記損失関数が、前記画像をキャプチャするカメラ間の１つまたは複数の空間関係にさらに基づく、請求項１から４のいずれか一項に記載のシステム。

【請求項6】

前記プロセッサは、
前記第１のスペクトルドメインにおいてキャプチャされた複数の第２のキャプチャされた画像にアクセスすることと、
更新された前記第１の機械学習モデルを使用して、前記第２のキャプチャされた画像に基づいて、複数の第２のドメイン転移された画像を生成することであって、前記第２のドメイン転移された画像が前記第２のスペクトルドメイン中にある、複数の第２のドメイン転移された画像を生成することと、
第２の機械学習モデルを使用して、前記第２のキャプチャされた画像に基づいて第２のアバターを生成することと、
前記第２のアバターに基づいて、前記第２のアバターのビューを含む複数の第２のレンダリングされた画像をレンダリングすることと、
前記第２のドメイン転移された画像と前記第２のレンダリングされた画像との間の比較に基づいて前記第２の機械学習モデルを更新することであって、前記第２の機械学習モデルが、１つまたは複数の第１の入力画像に基づいて、前記第１の入力画像に対応するアバターをレンダリングするための１つまたは複数のアバターパラメータを生成するように設定された、前記第２の機械学習モデルを更新することと
を行うために前記命令を実行するようにさらに動作可能であり、
好ましくは、更新された前記第２の機械学習モデルが、前記１つまたは複数の第１の入力画像に基づいて、前記アバターの空間定位を表すポーズ情報を生成するようにさらに設定され、
好ましくは、前記第１のキャプチャされた画像および前記第２のキャプチャされた画像が、トレーニングヘッドセットに関連するカメラによってキャプチャされる、
請求項１から５のいずれか一項に記載のシステム。

【請求項7】

前記プロセッサは、
複数の第３のキャプチャされた画像にアクセスすることであって、前記第３のキャプチャされた画像が前記第２のキャプチャされた画像のサブセットからのものである、複数の第３のキャプチャされた画像にアクセスすることと、
更新された前記第２の機械学習モデルを使用して、前記第３のキャプチャされた画像に対応するアバターパラメータを生成することと、
１つまたは複数の第２の入力画像に基づいて、前記第２の入力画像に対応する１つまたは複数のアバターパラメータを生成するために、前記第３のキャプチャされた画像と前記対応するアバターパラメータとの間の前記対応に基づいて第３の機械学習モデルをトレーニングすることと
を行うために前記命令を実行するようにさらに動作可能である、請求項６に記載のシステム。

【請求項8】

前記第３の機械学習モデルが、リアルタイムで、出力されたアバターパラメータを生成する、請求項７に記載のシステム。

【請求項9】

前記第３のキャプチャされた画像が、トレーニングヘッドセットに関連する複数のトレーニングカメラによってキャプチャされ、前記第２の入力画像が、非侵入型ヘッドセットに関連する複数の非侵入型カメラによってキャプチャされ、
好ましくは、前記非侵入型ヘッドセット上の前記非侵入型カメラの位置が、前記トレーニングヘッドセット上の前記トレーニングカメラのサブセットの位置に対応する、
請求項７または８に記載のシステム。

【請求項10】

前記第３の機械学習モデルが、
１次元ベクトルを生成する複数の畳み込みニューラルネットワーク分岐であって、各分岐が、カメラに対応し、前記第１のスペクトルドメインにおいて対応する前記カメラによってキャプチャされた受信された画像を、前記１次元ベクトルのうちの対応する１つにコンバートする、複数の畳み込みニューラルネットワーク分岐と、
前記ベクトルをアバターパラメータにコンバートする多層パーセプトロンと
を備える、請求項７から９のいずれか一項に記載のシステム。

【請求項11】

前記プロセッサは、
前記第１のスペクトルドメインにおいてキャプチャされた複数の第３の画像にアクセスすることであって、前記第３の画像が非侵入型カメラによってキャプチャされ、第２の画像が侵入型カメラによってキャプチャされ、前記非侵入型カメラが前記侵入型カメラよりも数が少ない、複数の第３の画像にアクセスすることと、
前記第３の機械学習モデルを使用して、前記第３の画像に基づいてアバターパラメータを生成することと、
前記アバターパラメータに基づいて、第３のアバターのビューを含む複数の第３のレンダリングされた画像をレンダリングすることと、
前記第３のレンダリングされた画像をユーザに提示することと
を行うために前記命令を実行するようにさらに動作可能である、請求項７から１０のいずれか一項に記載のシステム。

【請求項12】

前記システムが第１のグラフィックス処理ユニット（ＧＰＵ）および第２のＧＰＵをさらに備え、前記プロセッサが、
前記第１のスペクトルドメインにおいてキャプチャされた、第１のユーザの複数の画像にアクセスすることと、
前記第１のＧＰＵ上で前記第３の機械学習モデルを実行することによって、前記第１のユーザの前記画像に基づいて第１のアバターパラメータを生成することと、
通信ネットワークを介して、前記第１のアバターパラメータを第２のユーザのコンピューティングデバイスに送ることと
を行うために前記命令を実行するようにさらに動作可能であり、
好ましくは、前記プロセッサが、
前記通信ネットワークを介して、第２のアバターパラメータを前記第２のユーザの前記コンピューティングデバイスから受信することと、
前記第２のＧＰＵを使用して、および前記第２のアバターパラメータに基づいて、前記第２のユーザのアバターのビューを含む複数の第３のレンダリングされた画像をレンダリングすることと、
前記第３のレンダリングされた画像を前記第１のユーザに提示することと
を行うために前記命令を実行するようにさらに動作可能である、
請求項７から１１のいずれか一項に記載のシステム。

【請求項13】

前記第１のスペクトルドメインが赤外線であり、前記第２のスペクトルドメインが可視光である、請求項１から１２のいずれか一項に記載のシステム。

【請求項14】

ソフトウェアを具現する１つまたは複数のコンピュータ可読非一時的記憶媒体であって、前記ソフトウェアは、実行されたとき、
第１のスペクトルドメインにおいてキャプチャされた、ユーザの複数の第１のキャプチャされた画像にアクセスすることと、
第１の機械学習モデルを使用して、前記第１のキャプチャされた画像に基づいて、複数の第１のドメイン転移された画像を生成することであって、前記第１のドメイン転移された画像が第２のスペクトルドメイン中にある、複数の第１のドメイン転移された画像を生成することと、
第１のアバターに基づいて、前記第１のアバターのビューを含む複数の第１のレンダリングされた画像をレンダリングすることであって、前記第１のアバターが前記ユーザの仮想表現である、複数の第１のレンダリングされた画像をレンダリングすることと、
前記第１のドメイン転移された画像と前記第１のレンダリングされた画像との間の比較に基づいて前記第１の機械学習モデルを更新することであって、更新された前記第１の機械学習モデルが、前記第１のスペクトルドメイン中の画像を前記第２のスペクトルドメインにトランスレートするように設定された、前記第１の機械学習モデルを更新することと
を行うように動作可能である、１つまたは複数のコンピュータ可読非一時的記憶媒体。

【請求項15】

コンピューティングデバイスによって、第１のスペクトルドメインにおいてキャプチャされた、ユーザの複数の第１のキャプチャされた画像にアクセスすることと、
前記コンピューティングデバイスによって、第１の機械学習モデルを使用して、前記第１のキャプチャされた画像に基づいて、複数の第１のドメイン転移された画像を生成することであって、前記第１のドメイン転移された画像が第２のスペクトルドメイン中にある、複数の第１のドメイン転移された画像を生成することと、
前記コンピューティングデバイスによって、第１のアバターに基づいて、前記第１のアバターのビューを含む複数の第１のレンダリングされた画像をレンダリングすることであって、前記第１のアバターが前記ユーザの仮想表現である、複数の第１のレンダリングされた画像をレンダリングすることと、
前記コンピューティングデバイスによって、前記第１のドメイン転移された画像と前記第１のレンダリングされた画像との間の比較に基づいて前記第１の機械学習モデルを更新することであって、更新された前記第１の機械学習モデルが、前記第１のスペクトルドメイン中の画像を前記第２のスペクトルドメインにトランスレートするように設定された、前記第１の機械学習モデルを更新することと
を含む、方法。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、その内容全体がすべての目的のために参照により本明細書に組み込まれる、２０１９年６月２１日に出願された米国出願第１６／４４９，１１７号からの優先権を主張する。

【0002】

本開示は、一般に、ＡＲ／ＶＲヘッドセット上に取り付けられたカメラからのキャプチャされた顔画像を、ユーザのグラフィカル表現にマッピングすることに関する。

【背景技術】

【0003】

人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実（ＶＲ）、拡張現実（ＡＲ）、複合現実（ＭＲ）、ハイブリッド現実、あるいはそれらの何らかの組合せおよび／または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされたコンテンツ（たとえば、現実世界の写真）と組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る（観察者に３次元効果をもたらすステレオビデオなど）。人工現実は、たとえば、人工現実におけるコンテンツを作成するために使用される、および／または人工現実において使用される（たとえば、人工現実におけるアクティビティを実施する）アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せに関連し得る。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されたヘッドマウントディスプレイ（ＨＭＤ）、スタンドアロンＨＭＤ、モバイルデバイスまたはコンピューティングシステム、あるいは、１人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。

【発明の概要】

【0004】

本発明の第１の態様によれば、命令を具現する１つまたは複数の非一時的コンピュータ可読記憶媒体と、記憶媒体に結合された１つまたは複数のプロセッサであって、第１のスペクトルドメインにおいてキャプチャされた、ユーザの複数の第１のキャプチャされた画像にアクセスすることと、第１の機械学習モデルを使用して、第１のキャプチャされた画像に基づいて、複数の第１のドメイン転移された（ｄｏｍａｉｎ－ｔｒａｎｓｆｅｒｒｅｄ）画像を生成することであって、第１のドメイン転移された画像が第２のスペクトルドメイン中にある、複数の第１のドメイン転移された画像を生成することと、第１のアバターに基づいて、第１のアバターのビューを含む複数の第１のレンダリングされた画像をレンダリングすることであって、第１のアバターがユーザの仮想表現である、複数の第１のレンダリングされた画像をレンダリングすることと、第１のドメイン転移された画像と第１のレンダリングされた画像との間の比較に基づいて第１の機械学習モデルを更新することであって、更新された第１の機械学習モデルが、第１のスペクトルドメイン中の画像を第２のスペクトルドメインにトランスレート（ｔｒａｎｓｌａｔｅ）するように設定された、第１の機械学習モデルを更新することとを
行うために命令を実行するように動作可能な、１つまたは複数のプロセッサとを備えるシステムが提供される。

【0005】

プロセッサは、第２の機械学習モデルを使用して、第１のキャプチャされた画像に基づいて第１のアバターを生成することを行うために命令を実行するようにさらに動作可能であり得る。

【0006】

第１のアバターは、複数のアバターパラメータに基づいてパラメトリック顔モデルを使用してレンダリングされ得る。

【0007】

第１のドメイン転移された画像中のアバターパラメータの分布は、第１のレンダリングされた画像中のアバターパラメータの分布に対応し得る。

【0008】

第１の機械学習モデルは、各第１のドメイン転移された画像と各対応する第１のレンダリングされた画像との間の差に基づく損失関数を使用して更新され得る。

【0009】

損失関数は、画像をキャプチャするカメラ間の１つまたは複数の空間関係にさらに基づき得る。

【0010】

プロセッサは、第１のスペクトルドメインにおいてキャプチャされた複数の第２のキャプチャされた画像にアクセスすることと、更新された第１の機械学習モデルを使用して、第２のキャプチャされた画像に基づいて、複数の第２のドメイン転移された画像を生成することであって、第２のドメイン転移された画像が第２のスペクトルドメイン中にある、複数の第２のドメイン転移された画像を生成することと、第２の機械学習モデルを使用して、第２のキャプチャされた画像に基づいて第２のアバターを生成することと、第２のアバターに基づいて、第２のアバターのビューを含む複数の第２のレンダリングされた画像をレンダリングすることと、第２のドメイン転移された画像と第２のレンダリングされた画像との間の比較に基づいて第２の機械学習モデルを更新することであって、第２の機械学習モデルが、１つまたは複数の第１の入力画像に基づいて、第１の入力画像に対応するアバターをレンダリングするための１つまたは複数のアバターパラメータを生成するように設定された、第２の機械学習モデルを更新することとを行うために命令を実行するようにさらに動作可能であり得る。

【0011】

更新された第２の機械学習モデルは、１つまたは複数の第１の入力画像に基づいて、アバターの空間定位を表すポーズ情報を生成するようにさらに設定され得る。

【0012】

第１のキャプチャされた画像および第２のキャプチャされた画像は、トレーニングヘッドセットに関連するカメラによってキャプチャされ得る。

【0013】

プロセッサは、複数の第３のキャプチャされた画像にアクセスすることであって、第３のキャプチャされた画像が第２のキャプチャされた画像のサブセットからのものである、複数の第３のキャプチャされた画像にアクセスすることと、更新された第２の機械学習モデルを使用して、第３のキャプチャされた画像に対応するアバターパラメータを生成することと、１つまたは複数の第２の入力画像に基づいて第２の入力画像に対応する１つまたは複数のアバターパラメータを生成するために、第３のキャプチャされた画像と対応するアバターパラメータとの間の対応に基づいて第３の機械学習モデルをトレーニングすることとを行うために命令を実行するようにさらに動作可能であり得る。

【0014】

第３の機械学習モデルは、リアルタイムで、出力されたアバターパラメータを生成し得る。

【0015】

第３のキャプチャされた画像は、トレーニングヘッドセットに関連する複数のトレーニングカメラによってキャプチャされ得、第２の入力画像は、非侵入型ヘッドセットに関連する複数の非侵入型カメラによってキャプチャされ得る。

【0016】

非侵入型ヘッドセット上の非侵入型カメラの位置は、トレーニングヘッドセット上のトレーニングカメラのサブセットの位置に対応し得る。

【0017】

第３の機械学習モデルは、１次元ベクトルを生成する複数の畳み込みニューラルネットワーク分岐であって、各分岐が、カメラに対応し、第１のスペクトルドメインにおいて対応するカメラによってキャプチャされた受信された画像を、１次元ベクトルのうちの対応する１つにコンバートする、複数の畳み込みニューラルネットワーク分岐と、ベクトルをアバターパラメータにコンバートする多層パーセプトロンとを備え得る。

【0018】

プロセッサは、第１のスペクトルドメインにおいてキャプチャされた複数の第３の画像にアクセスすることであって、第３の画像が非侵入型カメラによってキャプチャされ、第２の画像が侵入型カメラによってキャプチャされ、非侵入型カメラが侵入型カメラよりも数が少ない、複数の第３の画像にアクセスすることと、第３の機械学習モデルを使用して、第３の画像に基づいてアバターパラメータを生成することと、アバターパラメータに基づいて、第３のアバターのビューを含む複数の第３のレンダリングされた画像をレンダリングすることと、第３のレンダリングされた画像をユーザに提示することとを行うために命令を実行するようにさらに動作可能であり得る。

【0019】

システムは、第１のグラフィックス処理ユニット（ＧＰＵ）および第２のＧＰＵをさらに備え得、プロセッサは、第１のスペクトルドメインにおいてキャプチャされた、第１のユーザの複数の画像にアクセスすることと、第１のＧＰＵ上で第３の機械学習モデルを実行することによって、第１のユーザの画像に基づいて第１のアバターパラメータを生成することと、通信ネットワークを介して、第１のアバターパラメータを第２のユーザのコンピューティングデバイスに送ることとを行うために命令を実行するようにさらに動作可能であり得る。

【0020】

プロセッサは、通信ネットワークを介して、第２のアバターパラメータを第２のユーザのコンピューティングデバイスから受信することと、第２のＧＰＵを使用して、および第２のアバターパラメータに基づいて、第２のユーザのアバターのビューを含む複数の第３のレンダリングされた画像をレンダリングすることと、第３のレンダリングされた画像を第１のユーザに提示することとを行うために命令を実行するようにさらに動作可能であり得る。

【0021】

第１のスペクトルドメインは赤外線であり得、第２のスペクトルドメインは可視光であり得る。

【0022】

本発明の第２の態様によれば、ソフトウェアを具現する１つまたは複数のコンピュータ可読非一時的記憶媒体であって、ソフトウェアは、実行されたとき、第１のスペクトルドメインにおいてキャプチャされた、ユーザの複数の第１のキャプチャされた画像にアクセスすることと、第１の機械学習モデルを使用して、第１のキャプチャされた画像に基づいて、複数の第１のドメイン転移された画像を生成することであって、第１のドメイン転移された画像が第２のスペクトルドメイン中にある、複数の第１のドメイン転移された画像を生成することと、第１のアバターに基づいて、第１のアバターのビューを含む複数の第１のレンダリングされた画像をレンダリングすることであって、第１のアバターがユーザの仮想表現である、複数の第１のレンダリングされた画像をレンダリングすることと、第１のドメイン転移された画像と第１のレンダリングされた画像との間の比較に基づいて第１の機械学習モデルを更新することであって、更新された第１の機械学習モデルが、第１のスペクトルドメイン中の画像を第２のスペクトルドメインにトランスレートするように設定された、第１の機械学習モデルを更新することとを行うように動作可能である、１つまたは複数のコンピュータ可読非一時的記憶媒体が提供される。

【0023】

本発明の第３の態様によれば、コンピューティングデバイスによって、第１のスペクトルドメインにおいてキャプチャされた、ユーザの複数の第１のキャプチャされた画像にアクセスすることと、コンピューティングデバイスによって、第１の機械学習モデルを使用して、第１のキャプチャされた画像に基づいて、複数の第１のドメイン転移された画像を生成することであって、第１のドメイン転移された画像が第２のスペクトルドメイン中にある、複数の第１のドメイン転移された画像を生成することと、コンピューティングデバイスによって、第１のアバターに基づいて、第１のアバターのビューを含む複数の第１のレンダリングされた画像をレンダリングすることであって、第１のアバターがユーザの仮想表現である、複数の第１のレンダリングされた画像をレンダリングすることと、コンピューティングデバイスによって、第１のドメイン転移された画像と第１のレンダリングされた画像との間の比較に基づいて第１の機械学習モデルを更新することであって、更新された第１の機械学習モデルが、第１のスペクトルドメイン中の画像を第２のスペクトルドメインにトランスレートするように設定された、第１の機械学習モデルを更新することとを含む方法が提供される。

【0024】

特定の実施形態では、システムが、ヘッドマウントキャプチャデバイスによってキャプチャされた画像を、ユーザのアバターのステータス（たとえば、顔の表情（ｆａｃｉａｌｅｘｐｒｅｓｓｉｏｎ））に自動的にマッピングし得る。ヘッドセットは、顔の部分画像を提供するＩＲカメラを有し得る。ユーザの顔の顔の表情を模倣するアバターが、ヘッドセットに取り付けられたＩＲカメラからの画像に基づいてアニメーション化され得る。アバターは、たとえば、テレプレゼンスセッション中に、ユーザおよび他のユーザのヘッドセットによって表示され得る。アバターは、顔の３Ｄ形状を表すパラメータのセットを決定することと、３Ｄ形状を生成するアバター生成器にパラメータを提供することとによってアニメーション化され得る。

【0025】

ＩＲカメラによって提供される入力に基づいてアバターをアニメーション化することは、ＩＲカメラが、顔の完全なビューではなく、異なる視点（ｖｉｅｗｐｏｉｎｔ）からの顔のクローズアップの斜めのビューの寄せ集めを提供するので、困難である。問題は、ＩＲカメラによって提供される部分的な「画像」に基づいて顔の表情を模倣するアバターを構築することである。特定の実施形態では、追加の、より侵入型のＩＲカメラを有するトレーニングヘッドセットが、機械学習モデルをトレーニングするために顔の追加のビューをキャプチャするために使用され得、より少ない、あまり侵入型でないカメラを有するヘッドセットが、トレーニングされたモデルとともに使用され得る。しかしながら、トレーニングヘッドセットは、依然として、顔のクローズアップの、斜めのビューの寄せ集めを生成することがある。可視光カメラが、トレーニングプロセスにおいてＩＲカメラを補うために使用され得るが、可視光カメラは、ヘッドセットによって隠蔽（ｏｃｃｌｕｄｅ）された顔の部分のビューを提供しないことがある。さらに、可視スペクトルを検知しないことがあるＩＲカメラと、可視スペクトルにおいて生成され得るアバターとの間にモダリティギャップがあることがある。その上、キャプチャされたＩＲ画像とユーザの実際の顔の表情との間に（ユーザの実際の顔の表情がＡＲ／ＶＲヘッドセットによって隠蔽されるので）明らかな対応がなく、また、ユーザの実際の顔の表情にマッチするアバターをレンダリングするアバター生成器のための所望のパラメータもない。モダリティギャップは、ＩＲスペクトルにおいてキャプチャされた画像と可視光スペクトルにおいてキャプチャされた画像との間にも存在することがある。キャプチャされたＩＲ画像とキャプチャされた可視光画像との間には、ＩＲ画像が、可視光画像とは異なる、顔の部分を示すので、明らかな対応がない。

【0026】

本開示は、キャプチャされたＩＲ画像と、アバターの顔の表情および頭部ポーズを制御するアバターパラメータとの間の対応を決定するための方法を教示する。対応は、レンダリングされたアバター画像にＩＲ画像を転移するためにドメイン転移（ｄｏｍａｉｎ－ｔｒａｎｓｆｅｒ）機械学習モデルをトレーニングし、次いで、ドメイン転移機械学習モデルを使用して、ＩＲ画像に基づいてアバターパラメータを識別するためにパラメータ抽出機械学習モデルをトレーニングすることによって決定され得る。パラメータ抽出モデルは、次いで、非侵入型カメラ（たとえば、３つのカメラ）によって生成されたＩＲ画像の部分と、パラメータ抽出モデルによって識別された対応するアバターパラメータとの間の対応に基づいて、リアルタイム追跡モデルをトレーニングするために使用され得る。リアルタイム追跡モデルは、非侵入型カメラによって生成されたＩＲ画像に基づいてアバターパラメータを識別するために、非侵入型カメラを有するヘッドセットによって使用され得る。

【0027】

本発明の実施形態は、人工現実システムを含むか、または人工現実システムに関連して実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実（ＶＲ）、拡張現実（ＡＲ）、複合現実（ＭＲ）、ハイブリッド現実、あるいはそれらの何らかの組合せおよび／または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされたコンテンツ（たとえば、現実世界の写真）と組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る（観察者に３次元効果をもたらすステレオビデオなど）。さらに、特定の実施形態では、人工現実は、たとえば、人工現実におけるコンテンツを作成するために使用される、および／または人工現実において使用される（たとえば、人工現実におけるアクティビティを実施する）アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せに関連し得る。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されたヘッドマウントディスプレイ（ＨＭＤ）、スタンドアロンＨＭＤ、モバイルデバイスまたはコンピューティングシステム、あるいは、１人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。

【0028】

本明細書で開示される実施形態は例にすぎず、本開示の範囲はそれらに限定されない。特定の実施形態は、上記で開示された実施形態の構成要素、要素、特徴、機能、動作、またはステップのすべてを含むか、いくつかを含むか、またはいずれをも含まないことがある。本発明による実施形態は、特に、方法、記憶媒体、システムおよびコンピュータプログラム製品を対象とする添付の特許請求の範囲で開示され、１つの請求項カテゴリー、たとえば、方法において述べられた任意の特徴は、別の請求項カテゴリー、たとえば、システムにおいても請求され得る。添付の特許請求の範囲における従属関係または参照は、形式的理由で選定されるにすぎない。ただし、前の請求項への意図的な参照（特に複数の従属関係）から生じる主題も請求され得、その結果、請求項とその特徴との任意の組合せが、開示され、添付の特許請求の範囲で選定された従属関係にかかわらず請求され得る。請求され得る主題は、添付の特許請求の範囲に記載の特徴の組合せだけでなく、特許請求の範囲における特徴の任意の他の組合せをも含み、特許請求の範囲において述べられた各特徴は、特許請求の範囲における任意の他の特徴または他の特徴の組合せと組み合わせられ得る。さらに、本明細書で説明または示される実施形態および特徴のいずれかは、別個の請求項において、ならびに／あるいは、本明細書で説明もしくは示される任意の実施形態もしくは特徴との、または添付の特許請求の範囲の特徴のいずれかとの任意の組合せで請求され得る。

【図面の簡単な説明】

【0029】

【図1A】可視光スペクトルドメインにおいてキャプチャされた画像に基づいてアバターを作成するための例示的な方法を示す図である。

【図1B】異なるスペクトルドメイン間で画像を転移するために、ドメイン転移機械学習モデルをトレーニングするための例示的な方法を示す図である。

【図2】赤外線スペクトルドメイン中の画像からアバターパラメータを抽出するために、アバターパラメータ抽出機械学習モデルをトレーニングするための例示的な方法を示す図である。

【図3】赤外線スペクトルドメイン中の画像からアバターパラメータを抽出するために、リアルタイム追跡モデルをトレーニングするための例示的な方法を示す図である。

【図4】リアルタイム追跡モデルを使用して、赤外線画像に基づいてアバターをアニメーション化するための例示的な方法を示す図である。

【図5】ドメイン転移機械学習モデルとパラメータ抽出機械学習モデルとをトレーニングすることによって、赤外線画像とアバターパラメータとの間の対応を確立するための例示的なパイプラインを示す図である。

【図6A】侵入型赤外線カメラと非侵入型赤外線カメラとを有する例示的なトレーニングヘッドセットを示す図である。

【図6B】トレーニングヘッドセットによって生成された例示的な画像を示す図である。

【図6C】非侵入型赤外線カメラを有する例示的な追跡ヘッドセットを示す図である。

【図6D】追跡ヘッドセットによって生成された例示的な画像を示す図である。

【図6E】トレーニングヘッドセットおよび追跡ヘッドセット中のカメラを較正するために使用される例示的な多平面較正パターンを示す図である。

【図6F】ヘッドセット上の人間工学的カメラ配置における課題の例を示す図である。

【図7】アバターおよびヘッドマウントカメラ画像のテクスチャマップ上の例示的なランドマークを示す図である。

【図8】異なるスペクトルドメインにおける画像の空間構造の分布の例示的なマッチングを示す図である。

【図9】異なるスペクトルドメイン間のマルチビュー画像ドメイントランスレーションにおける例示的なクロスビューサイクル一貫性（ｃｙｃｌｅｃｏｎｓｉｓｔｅｎｃｙ）を示す図である。

【図10】マルチビュー画像ドメイントランスレーションのためにトレーニングするための例示的なアルゴリズムを示す図である。

【図11】例示的な背景認識微分可能レンダリングを示す図である。

【図12】赤外線画像とアバターパラメータとの間の対応を確立するための例示的な方法を示す図である。

【図13】例示的なネットワーキング環境を示す図である。

【図14】例示的なコンピュータシステムを示す図である。

【発明を実施するための形態】

【0030】

特定の実施形態では、システムが、ヘッドマウントキャプチャデバイスによってキャプチャされた画像を、ユーザのアバターのステータス（たとえば、顔の表情）に自動的にマッピングし得る。ヘッドセットは、顔の部分画像を提供するＩＲカメラを有する。ユーザの顔の顔の表情を模倣するアバターが、ヘッドセットに取り付けられたＩＲカメラからの画像に基づいて生成され得る。アバターは、たとえば、テレプレゼンスセッション中に、ユーザおよび他の人々のヘッドセットによって表示され得る。アバターは、顔の３Ｄ形状を表すパラメータのセットを決定することと、３Ｄ形状を生成するアバター生成器にパラメータを提供することとによって構築され得る。

【0031】

ＩＲカメラによって提供される入力に基づいてアバターを構築することは、ＩＲカメラが、顔の完全なビューではなく、異なる視点からの顔のクローズアップの斜めのビューの寄せ集めを提供するので、困難である。問題は、ＩＲカメラによって提供される部分的な「画像」に基づいて顔の表情を模倣するアバターを構築することである。特定の実施形態では、追加の、より侵入型のＩＲカメラを有するトレーニングヘッドセットが、機械学習モデルをトレーニングするために顔の追加のビューをキャプチャするために使用され得、より少ない、あまり侵入型でないカメラを有する追跡ヘッドセットが、トレーニングされたモデルとともに使用され得る。しかしながら、トレーニングヘッドセットは、依然として、顔のクローズアップの、斜めのビューの寄せ集めを生成する。可視光カメラが、トレーニングプロセスにおいてＩＲカメラを補うために使用され得るが、可視光カメラは、ヘッドセットによって隠蔽された顔の部分のビューを提供しない。さらに、可視スペクトルを検知しないＩＲカメラと、可視スペクトルにおいて生成されたアバターとの間にモダリティギャップがある。その上、キャプチャされたＩＲ画像とユーザの実際の顔の表情との間に（ユーザの実際の顔の表情がＡＲ／ＶＲヘッドセットによって隠蔽されるので）明らかな対応がなく、また、ユーザの実際の顔の表情にマッチするアバターをレンダリングするアバター生成器のための所望のパラメータもない。モダリティギャップは、ＩＲスペクトルにおいてキャプチャされた画像と可視光スペクトルにおいてキャプチャされた画像との間にも存在する。キャプチャされたＩＲ画像とキャプチャされた可視光画像との間には、ＩＲ画像が、可視光画像とは異なる、顔の部分を示すので、明らかな対応がない。

【0032】

本開示は、キャプチャされたＩＲ画像と、アバターの顔の表情および頭部ポーズを制御するアバターパラメータとの間の対応を決定するための方法を教示する。対応は、レンダリングされたアバター画像にＩＲ画像を転移するためにドメイン転移機械学習モデルをトレーニングし、次いで、ドメイン転移機械学習モデルを使用して、ＩＲ画像に基づいてアバターパラメータを識別するためにパラメータ抽出機械学習モデルをトレーニングすることによって決定され得る。パラメータ抽出モデルは、次いで、非侵入型カメラ（たとえば、３つのカメラ）によって生成されたＩＲ画像の部分と、パラメータ抽出モデルによって識別された対応するアバターパラメータとの間の対応に基づいて、リアルタイム追跡モデルをトレーニングするために使用され得る。リアルタイム追跡モデルは、非侵入型カメラによって生成されたＩＲ画像に基づいてアバターパラメータを識別するために、非侵入型カメラを有する追跡ヘッドセットによって使用され得る。

【0033】

図１Ａは、可視光スペクトルドメインにおいてキャプチャされた画像に基づいてアバターを作成するための例示的な方法を示す。１つまたは複数の可視光（「ＲＧＢ」）カメラ１０８が、可視光に基づいて、ユーザ１０２の１つまたは複数のＲＧＢ画像１１０をキャプチャし得る。ＲＧＢ画像１１０をキャプチャするためのＲＧＢカメラ１０８のこの使用は、本明細書では「モデリングキャプチャ」と呼ばれる。ＲＧＢカメラ１０８は、マルチビューカメラ装置の一部であり得、これは、たとえば、２０個、３０個、４０個、または他の好適な数のＲＧＢカメラ１０８を含み得る。ＲＧＢ画像１１０は、パラメトリック顔モデル１０９と顔の表情コード１１３とを作成するために、顔モデルトレーニングプロセス１１１によって使用され得る。表情コード１１３は、ユーザの顔の状態の表現であり得、視線方向、口のポーズ、舌の表情など、顔の様相を符号化し得る。顔モデル１０９および表情コード１１３は、ユーザ１０２の顔に対応するアバターをアニメーション化（たとえば、レンダリング）するために使用され得る。

【0034】

図１Ｂは、異なるスペクトルドメイン間で画像を転移するために、ドメイン転移機械学習（ＭＬ）モデル１１４をトレーニングするための例示的な方法を示す。スペクトルドメインは、赤外線、可視光、または画像がカメラによってキャプチャされ得る他のドメインを含み得る。ユーザ１０２によって装着されるヘッドセット１０４は、１つまたは複数の赤外線（ＩＲ）画像１０６をキャプチャし得る、１つまたは複数のＩＲカメラを有し得る。各ＩＲ画像１０６は、本明細書では「フレーム」と呼ばれることがあり、キャプチャの時間に関連し得る。ヘッドセット１０４は、特定のスペクトルドメインのカメラのセットを有するトレーニングヘッドセットであり得る。たとえば、トレーニングカメラのセットは、図６Ａを参照しながら以下で説明されるように、５つ、９つ、１１個、１２個、または他の好適な数のＩＲカメラを含み得る。ドメイン転移ＭＬモデルトレーニングプロセス１１２は、ＩＲ画像１０６とレンダリングされた画像１１６とに基づいて、ドメイン転移ＭＬモデル１１４をトレーニングし得る。レンダリングされた画像１１６は、ＲＧＢ画像１１０から生成された、パラメトリック顔モデル１０９と顔の表情コード１１３とに基づいてレンダラ１１５によってレンダリングされ得る。ドメイン転移ＭＬモデル１１４は、ヘッドセット１０４のＩＲカメラから受信された各フレームに関してトレーニングされ得る。ドメイン転移ＭＬモデル１４４は、トレーニングされた後に、ＩＲスペクトルにおいて受信されたＩＲ画像１０６に基づいてＲＧＢ（可視光）スペクトルにおいて、ドメイン転移された画像１１８を生成することによって、画像ドメイン転移を実施し得る。

【0035】

特定の実施形態では、ＩＲスペクトルドメインとＲＧＢスペクトルドメインとの間のマッピングを作るために、ＩＲ画像１０６とドメイン転移されたＲＧＢ画像１１８との間に、顔の表情と頭部ポーズとを含む画像ファクタの同等の分布があるべきである。ＲＧＢカメラ１０８によってキャプチャされたＲＧＢ画像１１０は、ユーザが、たとえば、文章を読みながら、一連の表情をする、会話中に様々な動きを実施する、などを行うので、（トレーニングヘッドセットを装着することなしに）ユーザ１０２の顔の高解像度画像であり得る。たとえば、ユーザ１０２は、ＲＧＢカメラ１０８によって撮像されながら、スクリプトに従い得る。ユーザ１０２は、次いで、トレーニングヘッドセット１０４を装着しながら、同様のスクリプトに従い得、これは、ヘッドセット１０４上のＩＲカメラのセット、たとえば、９つ、１１個、または他の好適な数のカメラを使用して、ユーザの顔を撮像し得る。ＲＧＢ画像１１０は、ＩＲ画像１０６における顔の表情の分布が、ドメイン転移されたＲＧＢ画像１１８における顔の表情の分布と同等であることを保証するために（および、同様に、２つのドメインにおける頭部ポーズの分布についても）使用され得る。

【0036】

特定の実施形態では、ＩＲ画像１０６は、ＲＧＢ画像１１０とは異なる時間においてキャプチャされ得る。ヘッドセット１０４はユーザの顔の部分を隠蔽し得、ヘッドセット１０４中のＩＲカメラは、通常、顔の隠蔽された部分をキャプチャしない。特定の実施形態では、ＲＧＢカメラ１０８は、ＲＧＢ画像１１０がキャプチャされるとき、ユーザ１０２がヘッドセット１０４を装着していないので、ヘッドセット１０４中のＩＲカメラから隠蔽された顔の部分をキャプチャすることができる。ＲＧＢスペクトルドメインとＩＲスペクトルドメインとの間に対応があるが、この対応は、最初は知られていない。ＲＧＢ画像１１０とＩＲ画像１０６とは、ヘッドセット１０４によるユーザの顔の隠蔽（ｏｃｃｌｕｓｉｏｎ）のために、通常、同時にキャプチャされ得ない。したがって、アバターをレンダリングするために、ＩＲ画像１０６と顔の表情コード１１３との間の対応を識別することが、本明細書で開示される技法によって解決される問題である。対応が、教師あり学習における直接使用について利用可能でないので、ドメイン転移ＭＬモデル１１４を学習することの問題は、教師なし学習問題として理解され得る。言い換えれば、その問題は、２つのドメインにわたってフレームごとの対応を提供するグランドトゥルース情報なしにＩＲ画像１０６とＲＧＢ画像１１０との間のマッピングを構築するためにドメイン転移ＭＬモデル１１４をトレーニングすることである。

【0037】

特定の実施形態では、特定のユーザ１０２のためにアバターを生成することにおいて使用される、ドメイン転移ＭＬモデル１１４などのＭＬモデルは、その特定のユーザの顔の表情に基づいてトレーニングされ得る。アバターが、ヘッドセットカメラからと同じである視点から、ドメイン転移ＭＬモデル１１４を使用してヘッドセットＩＲ画像から生成されたドメイン転移されたＲＧＢ画像に基づいて設定されるとき、アバターの画像は、ＩＲ画像１０６に対応するＲＧＢ画像１１０によってキャプチャされた空間構造との一貫性があるべきである。テクスチャは異なり得るが、眼、鼻孔、口などのロケーションなど、アバター上の顔の特徴のロケーションは、概して、ＲＧＢ画像において、ＩＲ画像１０６の場合と同じであるべきである。ＲＧＢカメラ位置が変化する場合、ＲＧＢ画像１１０は、それに応じて変化し、空間構造に関してＩＲ画像１０６と同じに見えるはずである。トレーニングプロセス１１２は、図５を参照しながら以下でさらに詳細に説明される。特定の実施形態では、十分なデータが収集され、十分な数の人々についての対応が確立されると、トレーニングプロセス１１２が各ユーザについて実施されることを必要としないことが可能であり得る。次いで、アバター生成器および追跡システムが、たとえば、各ユーザについて別個のＭＬモデルをトレーニングすることなしに、ユーザのソーシャルネットワークプロファイルピクチャに基づいて、直接生成され得る。

【0038】

図２は、赤外線スペクトルドメイン中の画像１０６からアバターパラメータを抽出するために、アバターパラメータ抽出機械学習（ＭＬ）モデル２０６をトレーニングするための例示的な方法を示す。アバターパラメータ抽出モデルトレーニングプロセス２０４が、ＩＲ画像１０６と、パラメトリック顔モデル１０９と、ドメイン転移ＭＬモデル１１４とを使用して、アバターパラメータ抽出モデル２０６をトレーニングし得る。ドメイン転移ＭＬモデル１１４は、ＩＲ画像１０６に基づいてドメイン転移されたＲＧＢ画像１１８を生成するために使用され得、アバターパラメータ抽出モデルトレーニングプロセス２０４は、パラメトリック顔モデル１０９に、ドメイン転移されたＲＧＢ画像１１８に類似した外観を有するアバターをレンダリングさせる、アバターパラメータを学習し得る。アバターパラメータは、顔の表情コード１１３と、頭部ポーズ（図示せず）とを含み得る。アバター画像とＲＧＢ画像１１８との間の類似度が、損失関数を使用して測定され得、これは、学習されたアバターパラメータに基づいてレンダリングされたアバターの（たとえば、ピクセルレベルにおける）画像を、ドメイン転移されたＲＧＢ画像１１８と比較し得る。アバターパラメータ抽出モデルトレーニングプロセスは、図５を参照しながら以下でさらに詳細に説明される。

【0039】

図３は、非侵入型カメラからの入力画像３１２に基づいてアバターパラメータを生成するために、リアルタイム追跡機械学習（ＭＬ）モデル３１８をトレーニングするための例示的な方法を示す。リアルタイム追跡ＭＬモデル３１８は、ＩＲ画像３０６とアバターパラメータ３０８との間の対応に基づいて、アバターをアニメーション化するために、入力ＩＲ画像３２０をアバターパラメータ３２２に直接マッピングするためにトレーニングされ得る。アバターパラメータ３０８は、顔の表情コードと、頭部ポーズとを含み得る。トレーニングのために使用される（ＩＲ画像３０６とアバターパラメータ３０８との間の）対応は、アバターパラメータ抽出ＭＬモデル２０６によって識別され得る。リアルタイム追跡ＭＬモデル３１８をトレーニングする（および、その後駆動する）ために使用される入力ＩＲ画像は、アバターパラメータ抽出モデル２０６を生成するために使用されるトレーニングカメラのサブセットであり得る、非侵入型ＩＲカメラのセットからのものであり得る。たとえば、非侵入型カメラは、非侵入型ヘッドセット４２０上の非侵入型ロケーションにおける３つのカメラを含み得、トレーニングカメラは、トレーニングヘッドセット１０４上の９つのカメラを含み得る。９つのカメラは、非侵入型ヘッドセット４２０上の非侵入型カメラロケーションと同様の非侵入型ロケーションにおける３つのカメラと、トレーニングヘッドセット１０４を装着しているユーザに対してより侵入型であるロケーションにあり得る６つの追加のカメラとを含み得る。例示的な非侵入型ヘッドセット４２０は、図６Ｃを参照しながら以下で説明される。

【0040】

特定の実施形態では、アバターパラメータ抽出モデル２０６は、リアルタイム追跡ＭＬモデル３１８をトレーニングする際に使用するために、９つのトレーニングカメラによってキャプチャされた９つのＩＲ画像３０６のセットと、対応するアバターパラメータ３０８のセットとの間の対応を見つけるために使用され得る。リアルタイム追跡ＭＬモデル３１８は、非侵入型ヘッドセット４２０とともに使用され得る。非侵入型ヘッドセット４２０は、トレーニングヘッドセット１０４よりも少ないカメラを有し得るが、非侵入型ヘッドセット４２０のカメラの位置は、トレーニングヘッドセット１０４上のそれぞれのカメラの位置に対応し得る。たとえば、トレーニングヘッドセット１０４は、非侵入型位置にある３つを含む、９つのカメラを有し得る。非侵入型ヘッドセット４２０は、トレーニングヘッドセット１０４上の３つの非侵入型カメラと同様の非侵入型位置において３つのカメラを有し得る。

【0041】

一例として、９つのＩＲ画像３０６が、（アバターパラメータ抽出モデル２０６に従って）アバターパラメータ３０８のセットに対応することが知られているので、アバターパラメータ３０８のセットは、リアルタイム追跡モデルトレーニングプロセス３１６などの教師あり学習プロセスにおけるグランドトゥルースとして使用され得る。リアルタイム追跡ＭＬモデル３１８は、トレーニングヘッドセット１０４の３つの非侵入型カメラからの３つのＩＲ画像３１２のセットと、ＩＲ画像３１２に対応する（アバターパラメータ３０８から選択された）アバターパラメータ３１４の対応するセットとに基づいてトレーニングされ得る。ブロック３１０は、それぞれ、トレーニングＩＲ画像３０６と、トレーニングアバターパラメータ３０８とから、３つの非侵入型ＩＲ画像３１２の各セットと、対応する非侵入型アバターパラメータ３１４とを選択し得る。トレーニングされると、リアルタイム追跡ＭＬモデル３１８は、非侵入型ヘッドセットの非侵入型カメラから受信された３つのＩＲ画像３２０のセットに基づいて、アバターパラメータ３２２を直接出力し得る。アバターパラメータは、以下で説明されるように、アバターをアニメーション化するために使用され得る。ＭＬモデルとＭＬモデルのトレーニングとが特定のスペクトルドメインにおける特定の数の画像に関して説明されるが、ＭＬモデルは、任意の好適なスペクトルドメインにおいて任意の好適な数の画像に関してトレーニングおよび使用され得る。

【0042】

図４は、リアルタイム追跡モデル３１８を使用して、赤外線画像４０２に基づいてアバターをアニメーション化するための例示的な方法を示す。ＩＲ画像４０２は、非侵入型ヘッドセット４２０からキャプチャされ得る。たとえば、（たとえば、トレーニングヘッドセット１０４からの９つのＩＲ画像１０６の代わりに）非侵入型ヘッドセット４２０からの各フレーム中に３つのＩＲ画像４０２があり得る。リアルタイム追跡モデル３１２は、アバターパラメータ４０４を生成し得、アバターパラメータ４０４は、レンダリングされたアバター４０８をレンダリングするためにパラメトリック顔モデル４０６と組み合わせて使用され得る。アバターパラメータ４０４は、以下で説明されるように、顔の表情およびヘッドセットポーズパラメータを含み得る。

【0043】

図５は、ドメイン転移機械学習モデルとパラメータ抽出機械学習モデルとをトレーニングすることによって、赤外線画像とアバターパラメータとの間の対応を確立するための例示的なパイプラインを示す。特定の実施形態では、パイプラインは、推定された顔の表情１１３および推定されたポーズ５１０などのアバターパラメータに基づいて設定され得るアバターとして理解され得る、事前トレーニングされた個人化されたパラメトリック顔モデルＤ４０６を使用し得る。パラメトリック顔モデルＤ４０６は、アバターパラメータに基づいて、ジオメトリとテクスチャとを含むアバターの表現を生成する、深層外観モデル、たとえば、深層逆畳み込みニューラルネットワークであり得る。推定された顔の表情１１３は、１次元の潜在的な顔の表情コード

１１３であり得る。推定されたポーズ５１０は、（基準カメラによって表される）アバターの基準フレームからヘッドセットへの６ＤＯＦ剛性ポーズ変換

５１０であり得る。推定されたポーズ５１０は、ユーザの頭部からカメラに向かうベクトルとして表される（たとえば、追跡アルゴリズムから推定され得る頭部定位に対する）ビューベクトル（ｖｉｅｗｖｅｃｔｏｒ）であり得る。メッシュＭ５１４であり得るジオメトリと、テクスチャＴ５１６とが、パラメトリック顔モデルＤ４０６を使用して、顔の表情コードｚ１１３とポーズｖ５１０とに基づいて、以下のように生成され得る。
Ｍ，Ｔ←Ｄ（ｚ，ｖ）。（１）

【0044】

特定の実施形態では、メッシュ

５１４は、ｎ頂点を備える顔の形状を表し、テクスチャ

５１６は、生成されたテクスチャである。レンダリングされた画像Ｒ５０６が、メッシュＭ５１４と、テクスチャＴ５１６と、カメラの投影関数Ａ５１１とに基づいて、レンダラＲ１１５によって、ラスタ化を通して、この形状とテクスチャとから生成され得る。
Ｒ←Ｒ（Ｍ，Ｔ，Ａ（ｖ））。（２）

【0045】

すなわち、ポーズ５１０は、レンダラＲ１１５に送られるより前に、カメラの投影関数Ａ５１１によって変換され得る。

【0046】

ヘッドセットカメラのセットＣから取得されたマルチビュー画像

５００があるとすれば、特定の実施形態は、画像５００におけるビューに見られるように、ユーザの顔の表情を推定し得る。画像５００は、たとえば、侵入型ヘッドセット１０４上のカメラの９つまたは１１個のカメラビューからのものであり得る。損失関数５０４による比較のために、レンダリングされたアバター画像５０６を、取得された画像５００に最も良く整合させる、潜在的な顔の表情コードｚ１１３とヘッドセットポーズｖ５１０とを推定することによって、解が識別され得る。特定の実施形態では、このタスクを、記録中に各フレームについて別々に実施する代わりに、これらの属性は、たとえば、数千個のマルチビューフレームを備えるデータセットを介して同時に推定され得る。モデルパラメータθは、アバターパラメータ抽出モデルＥ_θ２０６（たとえば、予測器ネットワーク）について推定され得、アバターパラメータ抽出モデルＥ_θ２０６は、｛ｚ^ｔ，ｖ^ｔ｝、画像５００の各フレームｔ∈Ｔについての顔の表情コード１１３およびヘッドセットポーズ５１０を、（時刻に対応し得る）そのフレームについての複数の（たとえば、大部分のまたはすべての）カメラからのデータを一緒に考慮することによって、抽出する。
ｚ^ｔ，ｖ^ｔ←Ｅ_θ（Ｈ^ｔ）。（３）

【0047】

同じアバターパラメータ抽出モデルＥ２０６が、データセット中のすべてのフレームについて（たとえば、各フレームｔ∈Ｔについて）使用され得ることに留意されたい。動きによる非剛性構造に類似して、Ｅ２０６をこのようにして使用することは、時間にわたる顔の表情における規則性が最適化プロセスをさらに制約し、その結果を、不十分な局所最小値で終わりにくくさせることができるという、利益を有する。

【0048】

特定の実施形態では、レンダリングされたアバター画像Ｒ５０６と、カメラが取得した画像Ｈ５００との間のドメインギャップのために、それらの画像は直接比較できない。この非互換性に対処するために、ドメイン転移モデルＦ１１４のモデルパラメータΦ（たとえば、ビュー依存ニューラルネットワーク）も学習され得る。

【0049】

この関数Ｆ１１４は、各カメラについて（たとえば、各ｉ∈Ｃについて）評価され得、各カメラｉについて独立したネットワークを備え得る。次いで、合成による分析（ａｎａｌｙｓｉｓ－ｂｙ－ｓｙｎｔｈｅｓｉｓ）再構築損失が次のように定式化され得る。

上式で、

５０６は、知られている投影関数Ａ_ｉ５１１を使用してラスタ化された、式（２）からのレンダリングされた顔モデルであり、そのパラメータは、較正されたカメラｉから得られ得る。ここで、δは、潜在的な顔の表情ｚ１１３にわたる正則化項であり、λは、ドメイン転移された画像

５０２のＬ_１ノルム再構築に対するそれの寄与を重み付けする（２つの棒が、ドメイン転移された画像とレンダリングされた顔モデルとの間の差のノルムを表す）。

【0050】

特定の実施形態では、一方のネットワーク（たとえば、Ｆ１１４）が他方（たとえば、Ｅ２０６）によって招かれるセマンティクス誤差を補償することができる、解空間（ｓｐａｃｅｏｆｓｏｌｕｔｉｏｎ）があり、これは、小さい再構築誤差につながるが、顔の表情ｚ１１３およびヘッドセットポーズｖ５１０の不正確な推定につながり得る。追加の制約なしに、この現象は、実際にはしばしば起こり得る。この性質は共同的自己監視（ｃｏｌｌａｂｏｒａｔｉｖｅｓｅｌｆ－ｓｕｐｅｒｖｉｓｉｏｎ）と呼ばれる。ドメインギャップが主に外観差を備えるとき、共同的自己監視は、空間構造を保持しないアーキテクチャにおいてより顕著であり得る。これは、本明細書で開示される特定の実施形態において、潜在的な顔の表情コードｚ１１３が、画像のベクトル化された符号化であり得る場合である。

【0051】

したがって、特定の実施形態では、式（５）は、２つの段階に分離され得る。第１に、ドメイン転移モデルＦ１１４は、Ｅ２０６とは別々に学習され得る。その後、Ｆ１１４は、明らかな顔の表情（たとえば、セマンティクス）を変更することなしに、ヘッドセット画像Ｈ_ｉ５００をドメイン転移された画像

５０２にコンバートし得る。ドメイン転移ＭＬモデルトレーニングブロック１１２によって表される第１のトレーニング段階は、ドメイン転移モデルＦ１１４をもたらす。パラメータ抽出モデルトレーニングブロック２０４によって表される第２のトレーニング段階では、Ｆ１１４は固定で保持され得、式（５）が、レンダリングされた画像

５０６をドメイン転移された画像

５０２にマッチさせることによって、アバターパラメータ抽出モデルＥ２０６をもたらすために、Ｅ２０６に対して最適化され得る。

【0052】

特定の実施形態では、顔の表情保存（ｆａｃｉａｌ－ｅｘｐｒｅｓｓｉｏｎ－ｐｒｅｓｅｒｖｉｎｇ）ドメイン転移が、不対画像トランスレーションネットワークに基づき得る。このアーキテクチャは、ドメイン間のサイクリック一貫性と、２つのドメインの各々についての敵対的損失（ａｄｖｅｒｓａｒｉａｌｌｏｓｓ）とをエンフォースする（ｅｎｆｏｒｃｅ）ことによって双方向ドメインマッピング（Ｆ_ΦおよびＧ_Ψ１１４）を学習し得る。したがって、ヘッドセットからレンダへのドメイン転移ネットワークＦに加えて、レンダからヘッドセットへの転移ネットワークＧも、図９に示されているように、トレーニングされ得る。表情の保存を達成するために、画像の空間構造を修正する生成器の傾向が、低減または除去されるべきである。ランダム初期化が、保持された画像構造にすでにつながる、完全畳み込みアーキテクチャの場合、この傾向は、主に、相対する弁別器がそれらの空間構造から偽の画像を見つけるのを防ぐというプレッシャーから来得る。言い換えれば、特定の実施形態では、ヘッドセットポーズｖ５１０と顔の表情ｚ１１３とによって一緒に決定される、空間構造の分布が平衡している場合、生成器は、それらを修正し始めるというプレッシャーを有しないことがある。

【0053】

特定の実施形態では、空間構造の平衡した分布は、トレーニングするより前に、データセットを準備するときに生成され得る。より詳細には、画像ドメイン転移ネットワークＦ_ΦおよびＧ_Ψ１１４をトレーニングするために、｛Ｈ^ｔ｝５００のデータセットカウンターパートが、サイクル敵対的生成ネットワーク（ＣｙｃｌｅＧＡＮ：ＣｙｃｌｅＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）または他の好適な画像間トランスレーションを適用する前に、画像のセットをレンダリングするためにパラメトリック顔モデルＤ４０６を使用して準備され得る。不変に保たれるべきである画像ファクタの分布は、ドメインにわたって同等であるべきである。これらのファクタは、レンダリングが、それぞれ、ｖ^ｔおよびｚ^ｔによって制御され得る、ヘッドセットポーズｖ５１０および顔の表情ｚ１１３であり得る。キャプチャされたヘッドセットデータ中の、基礎をなす顔の表情ｚおよびヘッドセットポーズｖは、通常、制御可能でないが、所望の統計値を有するレンダリングされた画像のセット

が、同時分布Ｐ（ｚ，ｖ）の推定値

に基づいて生成され得る。しかしながら、ヘッドセットデータについてｚとｖとを推定することが元の問題であるので、

を近似するために、プロキシが使用され得る。

【0054】

特定の実施形態では、空間構造のマッチする分布が、図８の例において示されている。ｚとｖとの間の独立した分布、または

が仮定され、

とが個々に推定される。顔の表情にわたる分布

について、特定の実施形態は、ユーザが同じ刺激を用いて（たとえば、「モデリング」キャプチャのためのＲＧＢカメラ１０８と別のキャプチャのためのヘッドセット１０４のＩＲカメラとを使用して）２回キャプチャされ得る、データキャプチャプロセスに依拠し得る。２つのキャプチャを使用することは、キャプチャ間のフレーム間マッピングにつながらないことがあるが、顔の表情の統計的分布は同等であると仮定され得る。したがって、モデリングキャプチャのＲＧＢカメラ１０８からの顔の表情コードｚ１１３のセットが、Ｐ（ｚ）からの近似サンプルとして使用され得る。

【0055】

特定の実施形態では、ヘッドセットポーズにわたる分布

について、顔モデルＤ４０６の３Ｄジオメトリが、２Ｄランドマークアノテーションを収集することと、ランドマーク検出器をトレーニングすることとによって、ヘッドセット画像５００上の検出されたランドマークに適合され得る。例示的なランドマークが図７に示されている。ランドマーク適合が、単独で、必ずしも顔の表情の正確な推定値をもたらすとは限らないが、ランドマーク適合は、それの低い次元数と変動の限られた範囲とのために、ヘッドセットポーズｖについての妥当な推定値を与えることができる。３Ｄメッシュを２Ｄ検出に適合させる際の課題のうちの１つは、メッシュ頂点と検出されたランドマークとの間の対応を定義することである。アノテーションが利用可能であるランドマークセットが、必ずしも、特定のメッシュトポロジーにおける頂点に厳密にマッチするとは限らない。単一の頂点を各ランドマークに手動で割り当てることは、粗いメッシュトポロジーについての準最適な適合結果につながることがある。この問題に対処するために、個別のメッシュを適合させながら、特定の実施形態は、同時に、テクスチャのｕｖ空間

における（たとえば、すべてのフレームにわたって使用される）各ランドマークのメッシュ対応について解決し得、ここで、ｍは利用可能なランドマークの数である。各ランドマークｍを、あらゆるビューのレンダリングされた画像上に投影するために、特定の実施形態は、頂点が

によってインデックス付けされた、その包含する三角形中の現在のｕ_ｊの重心座標

の行ベクトルを計算し、次いで、包含する三角形の３Ｄ頂点の投影を線形補間し得、

、ここで、Ｍは、式（１）からの（顔の形状を表す）メッシュ５１４である。したがって、以下の最適化問題が解決され得る。

上式で、

は、ＨＭＣカメラｉにおけるランドマークｊの２Ｄ検出であり、Ｐは、

における２Ｄ点を生成するカメラ投影であり、

は、［０，１］におけるランドマークの検出信頼度である。ビューｉによって観測できないランドマークｊの場合、

が０であることに留意されたい。ｕ_ｊは、ダイバージェンスを防ぐために、テンプレートメッシュ中の頂点のあらかじめ定義されたセットに初期化され得る。特定の実施形態はまた、たとえば、瞳孔および口の内部であり得る、メッシュ頂点をアバターが有しない領域におけるランドマークを使用することを回避し得る。図７は、収束におけるｕ_ｊの一例を示す。

【0056】

式（６）を解決することは、各フレームＨ^ｔからのヘッドセットポーズのセット｛ｖ^ｔ｝_ｔ∈Ｔを提供する。特定の実施形態は、データセット

を、ヘッドセットポーズを｛ｖ^ｔ｝_ｔ∈Ｔから

、および顔の表情コードを顔モデリングキャプチャの符号化された値のセットから同じく

、独立して、ランダムにサンプリングすることによって、レンダリングし得る。ランダムにサンプリングされたポーズおよび表情コードは、

とともに、不対ドメイン転移についてのトレーニングデータを形成し得る。特定の実施形態では、式（６）によって解決される推定されたｚ^ｔは、ｚ^ｔの推定値が、ランドマークのみに依拠するときに不十分であり得るので、廃棄され得る。

【0057】

特定の実施形態では、２つのドメイン

からの画像が与えられれば、サイクル一貫性のある敵対的ネットワークを使用する、不対画像トランスレーションのための好適な方法が使用されて、ドメイン間であちこちに画像をトランスレートするビュー固有マッピングＦ_Φ，ｉおよびＧ_Ψ，ｉ１１４を学習し得る。（上記で説明されたように）ドメイン間の平衡した分布Ｐ（ｚ，ｖ）が奨励されているので、この手法は妥当な結果をもたらす。しかしながら、パラメトリック顔アバターモデル４０６の限られたレンダリング忠実度の結果として、失敗事例が起こり得る。これらの事例は、ニアフィールドレンダリングへのビュー調整された（ｖｉｅｗ－ｃｏｎｄｉｔｉｏｎｅｄ）レンダリング方法の不十分な一般化のために、睫毛と輝きとがほとんど完全にないことがある、眼の画像において最も顕著であり得る。より詳細には、ドメイン転移された画像５０２は、ソース画像５００と比較して、修正された視線方向を呈し得る。さらに、この修正は、異なるカメラビューにわたって一貫性のないことがある。この最後の効果は、眼の場合と同程度までではないが、顔の残部についても観測され得る。式（５）においてカメラビューにわたる（ｚ，ｖ）について一緒に解決するとき、これらの一貫性のないおよび独立した誤差は、平均化効果を有し得、これは、抑制された顔の表情として現れることがある。

【0058】

特定の実施形態では、この問題を克服するために、画像ドメイントランスレーション中のカメラ間の空間関係が活用され得る。サイクリック一貫性は、クロスビュー予測を通してエンフォースされ得る。詳細には、０および１と示される、一対のビューについて、「空間予測器」Ｐ_０およびＰ_１が、画像をビュー０からビュー１に変換するようにトレーニングされ得、その逆も同様である。これらの対は、顔の同様の部分を観測し、したがって、それらのコンテンツが相互に予測可能であるように、選定され得る（たとえば、ステレオ眼カメラ対（ｓｔｅｒｅｏｅｙｅ－ｃａｍｅｒａｐａｉｒ）および同じ側の下側顔カメラ）。ＣｙｃｌｅＧＡＮの項とともに、損失関数は、以下の形式のものであり得る。
Ｌ＝Ｌ_Ｃ＋λ_ＧＬ_Ｇ＋λ_ＰＬ_Ｐ＋λ_ＶＬ_Ｖ（７）
上式で、Ｌ_Ｃ＝Ｌ_ＣＨ＋Ｌ_ＣＲは、各ドメインについての、および各ビューについての、サイクル一貫性損失である。

Ｌ_Ｇ＝Ｌ_ＧＨ＋Ｌ_ＧＲは、各ドメインについての、および各ビューについての、（生成器と弁別器の両方についての）ＧＡＮ損失である。

Ｌ_Ｐは、ビュー予測器についての損失である。

および、クロスビューサイクル一貫性Ｌ_Ｖ＝Ｌ_ＶＨ＋Ｌ_ＶＲであり、

上式で、Ｌ_ＣＲとＬ_ＧＲとＬ_ＶＲとは対称的に定義され得、Ｄ_ＨおよびＤ_Ｒは、それぞれ、両方のドメインにおける弁別器である。

とは対にされないが、

とは、

とのように、対にされることに留意されたい。これらの成分の説明が、図９に示されている。ビュー間の相対的な構造差が、両方のドメインにおいて同じであるべきであるので、Ｐ_０とＰ_１とは、ドメインにわたって共有される。

【0059】

特定の実施形態では、問題は、ミニマックス最適化問題の形態をとる。

【0060】

｛Ｐ_０，Ｐ_１，Ｆ_Φ，Ｇ_Ψ｝中のパラメータが、｛Ｄ_Ｈ，Ｄ_Ｒ｝中のパラメータとともに交互にトレーニングされる場合、ＰとＦ_Φ（またはＧ_Ψ）との間の結託（ｃｏｌｌｕｓｉｏｎ）が、ドメインにわたって表情を保存することなしに損失関数を最小化し、それにより、実データと顔データとに関する異なる性質を効果的に学習して、互いによってもたらされる誤差を補償し得る。その結果、不変に保たれるべきであるセマンティクスが、ドメイン変換中に失われ得る。この問題に対処するために、「非協働的トレーニング（ｕｎｃｏｏｐｅｒａｔｉｖｅｔｒａｉｎｉｎｇ）」技法が、最適化をより多くのステップに分けることによって、この「ごまかす（ｃｈｅａｔｉｎｇ）」性質を防ぐために使用され得る。各ステップにおいて、損失関数は、現実データ上に関して動作する項のみが残り、その現実データを入力としてとるモジュールのみが更新されるように、再調整され得る。アルゴリズムの概要が、アルゴリズム１として図１０に示されている。このようにして、モジュールは、前のモジュールによってもたらされる誤差を補償することを学習する機会を有しないことがある。その結果、顔の表情は、ドメイン転移を通してより良く保存され得、クロスビュー予測がマルチビュー一貫性を提供し得る。

【0061】

特定の実施形態では、微分可能レンダラＲ１１５が、パラメトリック顔モデル４０６のために使用され得る。微分可能レンダラＲ１１５は、上記で説明されたドメイン転移についての合成サンプルを生成するために、また、式（５）において、推定された表情およびポーズパラメータｑ＝（ｚ，ｖ）があるとすれば、再構築精度を評価するために、使用され得る。レンダリング関数は、顔モデルの形状および背景のラスタ化をブレンドし得、したがって、ピクセルについて、画像位置ｐにおける色Ｃ（ｐ）が以下によって決定され得る。
Ｃ（ｐ）＝Ｗ（ｐ）Ｃ_ｔ（ｐ）＋（１－Ｗ（ｐ））Ｃ_ｂ（１３）
上式で、Ｃ_ｔ（ｐ）は、位置ｐにおけるテクスチャからのラスタ化された色であり、Ｃ_ｂは、一定の背景である。ｐが三角形を伴って割り当てられる場合、Ｗ（ｐ）＝１であり、他の場合、Ｗ（ｐ）＝０である、Ｗが、ラスタ化のピクセルカバレージのバイナリマスクとして定義される場合、

は、ラスタ化の分離性のために、すべてのｐについて０である。この場合、前景ピクセル（たとえば、Ｗ（ｐ）＝１）では、Ｃ（ｐ）の勾配は、依然として、（ピクセル色がそこからサンプリングされる）テクスチャにおける座標を、そのピクセルの、その現在包含する三角形中の重心座標によってパラメータ化することによって、

から計算され得る。レンダリング関数とそれの導関数とを定式化するこのやり方は、マルチビュー制約の存在下で、実際には良好な結果をもたらし得るが、このやり方は、Ｗ（ｐ）からの０勾配から生じ得る失敗事例を呈し得る。より詳細には、ピクセルｐが、背景（たとえば、Ｗ（ｐ）＝０）としてレンダリングされるが、そのピクセルについてのターゲットが前景値である場合、表情およびポーズパラメータｑ＝（ｚ，ｖ）に伝搬される勾配がないことがある。同様に、ラスタ化の境界における前景ピクセルは、拡大するというプレッシャーを有しない。実際には、これらの状態は、実質的な再構築誤差を伴って、不十分な局所最小値で終わることにつながることがある。たとえば、図１１に示されているように、ターゲット画像の前景画像が画像のより大きいエリアを占有する傾向がある、ふくれた頬の表情において、推定された表情は、頬の輪郭にうまくマッチすることに失敗することがある。

【0062】

特定の実施形態では、前景エリアを拡大する力は、前景と背景との間の境界の周りのソフトブレンディングから来るべきである。したがって、テクスチャマップからサンプリングされた色または背景色のいずれかへの、境界の周りのピクセルのバイナリ割当ての代わりに、アンチエイリアシングと同様のソフトブレンディングが使用され得る。より良い勾配流れを得るために、ブレンディング重みは、ラスタ化の境界に沿った再構築誤差が表情およびポーズパラメータｑ＝（ｚ，ｖ）に逆伝搬され得るように、顔モデルの投影されたジオメトリによってパラメータ化され得る。このために、減衰ブレンド関数が、境界から離れて使用され得る。

上式で、ｄ_ｐは、ｐから、ラスタ化カバレージ外のピクセルについての任意の投影された三角形の最も近いエッジまでの垂直２Ｄ距離であり、σは減衰率を制御する。Ｗ（ｐ）について式（１３）において使用されるＣ_ｔの値は、最も近いエッジにおける三角形のテクスチャにおける色にセットされ得る。カバレージ内のピクセルの場合、ｄ_ｐ＝０である。実際には、σは１にセットされ得、Ｗは、効率のために、各投影された三角形の包含する矩形内のピクセルについてのみ評価され得る。この背景認識レンダリングの場合、背景ピクセルの小さい部分が、勾配を与えて、各反復において境界を拡大するかまたは収縮させ得るが、その数は、最適化が不十分な局所最小値で終わることを防ぐのに十分である。

【0063】

特定の実施形態では、ドメイン変換の場合、（２５６×２５６）サイズの画像が、両方のドメインのために使用され得る。Ｆ_ΦとＧ_ΨとＰ_ｉとについて、ＲｅｓＮｅｔが使用され、４ｘダウンサンプリングを伴い、その後に、３つのＲｅｓＮｅｔモジュールと別の４ｘアップサンプリングとが続き得る。弁別器Ｄ_ＨおよびＤ_Ｒについて、スペクトル正規化が、生成された画像のより良い品質と、より安定したトレーニングとのために適用され得る。Ｅ_θをトレーニングするために、別個の畳み込みネットワークが作られて、｜Ｃ｜ベクトルが、多層パーセプトロン（ＭＬＰ：ｍｕｌｔｉｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ）を使用して連結され、次いでｚ^ｔとｖ^ｔの両方に別々にコンバートされる前に、個々の

をこれらのベクトルにコンバートし得る。式（５）における前のδ（ｚ^ｔ）の場合、Ｄに関連する潜在空間が、正規分布に対して、カルバックライブラー（ＫＬ：Ｋｕｌｌｂａｃｋ-Ｌｅｉｂｌｅｒ）ダイバージェンスを用いて学習され得るので、Ｌ_２ペナルティ

が使用され得る。

【0064】

特定の実施形態では、図５に示されているトレーニングの後に、収束されたアバターパラメータ抽出モデルＥ_θ２０６が、フレームごとの対応｛（Ｈ^ｔ，ｚ^ｔ）｝_ｔ∈Ｔを得るために、フレームＨ^ｔに適用され得る。Ｈ^ｔにおける補助（たとえば、侵入型）ビューは、非侵入型ヘッドマウントカメラ（ＨＭＣ）において利用可能なビューを保持しながら、ドロップされ得

、ここで、｜Ｃ’｜＝３である。保持されたビューとそれらの対応するパラメータとは、リアルタイムアニメーション中に使用されることになるリアルタイムリグレッサ３１２をトレーニングするために使用され得るトレーニングデータ

を形成する。

【0065】

特定の実施形態では、ｚ^ｔの潜在空間におけるＬ_２損失を最小化するのではなく、損失は、ネットワークが、微妙な唇の形状および視線方向など、最も視覚的に慎重な扱いを要する部分に容量を費やすのを促進するやり方で測定され得る。さらに、ジオメトリおよびテクスチャマップにおける、特に、眼の領域と口の領域とにおける誤差は、アバターが、不十分なジオメトリ詳細を有し得、したがって、これらの領域においてフォトリアリスティックであるためにビュー依存テクスチャに依拠し得るので、最小化され得る。リグレッサ

が、

をターゲットｚ^ｔにコンバートするように作られ得る。

ここで、

および、κは、（図７に示されている）眼および口のエリアに焦点を合わせる、テクスチャマップ上のクロップであり、ｖ_０は、アバターの固定された正面ビューである。

【0066】

特定の実施形態では、リアルタイム追跡モデル

３１８のアーキテクチャ設計が、ターゲットｚ^ｔに良好な適合を提供することと、周囲の照明およびヘッドセット装着位置など、現実世界の変動に対してロバストであることと、リアルタイムまたはほぼリアルタイム推測速度を達成することとが望ましい。これらの基準は、関数が、式（５）を最小化するｚ^ｔおよびｖ^ｔを学習すること（たとえば、過剰適合（ｏｖｅｒｆｉｔｔｉｎｇ））に関する、アバターパラメータ抽出モデルＥ_θ２０６とは異なる。したがって、Ｅ_θと比較して、より小さい入力画像（たとえば、１９２×１９２など）と、より少ない数の畳み込みフィルタおよび層とが、

のために使用され得る。アーキテクチャ設計は、同様であり得る。入力画像が、顔の異なる部分を観察しており、したがって、必ずしも空間構造を共有するとは限らないので、

を３つの１次元ベクトルにコンバートするために、畳み込みネットワークの３つの分離された分岐が作られ得る。最終的に、これらの１次元ベクトルは、多層パーセプトロンを通して連結され、ｚ^ｔにコンバートされ得る。トレーニング中に、入力画像は、カメラ取付けの製造誤差を考慮するためのカメラ回転をシミュレートするためのランダム小角ホモグラフィ、ならびに、ライティング変動を考慮するための方向性画像強度ヒストグラム摂動を用いて、拡張され得る。

【0067】

とＤとが両方ともリアルタイムで評価され得るとすれば、両方のユーザが、非侵入型ヘッドセット４２０上などのヘッドマウントカメラを装着しながら、互いの個人化されたアバターの高忠実度アニメーションを見得る、二方向ソーシャル仮想現実（ＶＲ）システムが作られ得る。一方の側では、コンピューティングノードが、１つのＧＰＵ上で第１のユーザの

を実行し、符号化されたｚ^ｔを、通信ネットワークを介して他方の側に送り得る。同時に、コンピューティングノードは、第２のユーザのｚ^ｔを、通信ネットワークを介して別の側から受信し、第２のユーザのＤを実行し、第２のＧＰＵ上で第２のユーザのアバターの（左眼および右眼のための）ステレオ画像をレンダリングし得る。

【0068】

図６Ａは、侵入型赤外線カメラと非侵入型赤外線カメラとを有する例示的なトレーニングヘッドセット６０２を示す。トレーニングヘッドマウントディスプレイ（ＨＭＤ）６０２は、拡張されたカメラ６０６ａ～ｆと標準カメラ６０４ａ～ｃとを含む。ＨＭＤ６０２は、ＨＭＤ画像とアバターパラメータとの間のより良い対応を確立するのを助けるためのデータを収集するために使用され得る。特定の実施形態は、同じヘッドセット設計の２つのバージョン、すなわち、最小侵入型カメラ構成をもつ非侵入型で消費者に配慮した設計と、対応を見つけることをサポートするためのより順応性のある視点を有する、拡張されたカメラセットをもつトレーニング設計とを使用する。拡張されたトレーニングヘッドセット６０２は、データを収集し、非侵入型ヘッドセットカメラ構成とユーザの顔の表情との間のマッピングを作るために使用され得る。詳細には、非侵入型カメラ６０４は、口６０４ｂ、左眼６０４ｃ、および右眼６０４ａの各々のためのＶＧＡ解像度カメラを含み得る。６つの拡張されたカメラ６０６は、各眼に追加のビュー６０６ａ、ｂを追加し、ならびに、唇の接触および縦の口の動きをキャプチャし、どちら側でも唇の突出をキャプチャするために、戦略的に下側に配置された、口の４つの追加のビュー６０６ｃ～ｆを追加する。カメラ６０４、６０６は、この例では、９０Ｈｚにおいて同期され、キャプチャする。カメラ６０４、６０６は、パターンの一部が各カメラの被写界深度内にあることを保証するために、カスタムプリント３Ｄ較正パターン６４０を使用して、一緒に幾何学的に較正され得る。トレーニングデータセットを作るために、各被写体は、同じ刺激を使用して、すなわち、一度、ＲＧＢカメラ１０６などのモデリングセンサーを使用して、および一度、拡張された追跡センサー６０４、６０６を使用して、キャプチャされ得る。刺激は、たとえば、７０個の表情、５０個の文、動きの範囲、視線方向の範囲、および１０分間の自由な会話を含み得る。この刺激は、自然な表情の範囲をカバーするように設計される。両方のデバイスを使用して同じコンテンツを収集することは、不対ドメイン転移アルゴリズムへの入力として使用するために２つのドメイン間の顔の表情のほぼ平衡した分布を提供する。図６Ｂは、トレーニングヘッドセット６０２によってキャプチャされた例示的な画像６１４、６１６を示す。キャプチャされた画像は、それぞれ、非侵入型カメラ６０４ａ～ｃによってキャプチャされ得る、非侵入型フレーム６１４ａ～ｃと、それぞれ、拡張されたカメラ６０６ａ～ｆによってキャプチャされ得る、拡張されたフレーム６１６ａ～ｆとを含む。

【0069】

図６Ｃは、非侵入型赤外線カメラを有する例示的な追跡ヘッドセット６０２を示す。追跡ヘッドマウントディスプレイ６２０は標準カメラ６２４ａ～ｃを含み、標準カメラ６２４ａ～ｃは、（たとえば、装着者の顔に対する）位置においてトレーニングヘッドマウントディスプレイ６０２の標準カメラ６０４ａ～ｃに対応し得る。追跡ヘッドマウントディスプレイ６２０は、最小化カメラ構成を用いてリアルタイムまたはほぼリアルタイム顔アニメーションのために使用され得る。図６Ｄは、追跡ヘッドセット６２０によって生成された例示的な画像６３４を示す。キャプチャされた画像６３４は、それぞれ、非侵入型カメラ６２４ａ～ｃによってキャプチャされ得る、非侵入型フレーム６３４ａ～ｃを含む。非侵入型ヘッドセット６２０によってキャプチャされたＩＲ画像６３４ａ～ｃは、少なくともカメラ視点（ｐｏｉｎｔ－ｏｆ－ｖｉｅｗ）に関して、トレーニングヘッドセットによってキャプチャされたＩＲ画像６１４ａ～ｃに対応し得る。

【0070】

図６Ｅは、トレーニングヘッドセットおよび追跡ヘッドセット中のカメラを較正するために使用される例示的な多平面較正パターン６４０を示す。多平面較正パターン６４０は、非侵入型ヘッドセット６２０中のカメラ６２４ａ～ｃを、トレーニングヘッドセット６０２中の対応するそれぞれのカメラ６０４ａ～ｃを用いて幾何学的に較正するために使用され得、したがって、非侵入型ヘッドセット６２０によってＩＲ画像６３４ａ～ｃをキャプチャする視点は、対応するそれぞれのトレーニングヘッドセットＩＲ画像６１４ａ～ｃをキャプチャする視点に対応する。

【0071】

図６Ｆは、ヘッドセット６２０上の人間工学的カメラ配置における課題の例を示す。図示のように、ユーザ６５０によって装着されるヘッドセット６２０上に取り付けられたカメラの場合、口が開くことなどの大きい動きは、投影されて、非侵入型カメラ６２４ｃによってキャプチャされた画像の小さい変化になる。比較すると、ユーザ６５０にとってより侵入型であるカメラ配置は、トレーニングプロセスに関してより順応性があり得る。たとえば、口の前により直接的に配置されたカメラ６０６ｆの場合、口が開くことなどの大きい動きは、キャプチャされた画像の大きい変化に対応し、キャプチャされた画像の大きい変化は、本明細書で説明される機械学習モデルをより効果的にトレーニングするために使用され得る。

【0072】

図７は、アバターおよびヘッドマウントカメラ画像のテクスチャマップ上の例示的なランドマークを示す。ランドマークの色は、ＨＭＣ画像７０１、７０２、７０３、およびテクスチャマップ７００にわたる対応を示す。ランドマークは、人間アノテーションによってトレーニングされた検出器からの９つのビュー（３つのビューのみが示されている）において検出され得る。これらのランドマークのｕｖ座標は、複数のフレームにわたるｚ^ｔとｖ^ｔとを用いて一緒に解決され得る。ランドマークの投影された距離が、必ずしも、対応を見つけるために式（５）の全体的な最適化において最小化されるとは限らないことに留意されたい。画像７０１上のランドマークは、テクスチャマップ７００上のそれぞれのランドマーク７０６ａ、ｂに対応する、左眼ランドマーク７２６ａ、ｂを含む。画像７０３上のランドマークは、テクスチャマップ７００上のそれぞれのランドマーク７０４ａ、ｂに対応する、右眼ランドマーク７２４ａ、ｂを含む。下側顔画像７０２上のランドマーク画像は、テクスチャマップ７００上のそれぞれのランドマーク７０８、７１２に対応する、左鼻孔ランドマーク７２８、７３２を含む。下側顔画像７０５はまた、テクスチャマップ７００上のそれぞれのランドマーク７１０、７１４ａ、および７１４ｂに対応する、右鼻孔ランドマーク７３０、および口ランドマーク７３４ａ、７３４ｂを含む。

【0073】

図８は、異なるスペクトルドメインにおける画像の空間構造の分布の例示的なマッチングを示す。ＩＲドメインにおけるキャプチャされた画像の空間構造の統計的分布は、ＲＧＢドメインにおけるレンダリングされたアバター画像８０４の空間構造の統計的分布とマッチされ得る。空間構造の近似された分布

８０８は、ヘッドポーズ分布

についてのキャプチャされたＨＭＣ画像８０２上のランドマーク検出を使用して、および、顔の表情分布

についてのＲＧＢモデリングカメラによってキャプチャされたＲＧＢ画像を使用して、推定され得る。顔の表情ｚの実際の分布

は、被写体についての共通刺激があるとすれば、アバターを作るためのモデリングカメラキャプチャからの分布

と統計的に同等であると仮定される。次いで、画像が従うことになる分布が

として決定され得る。

【0074】

図９は、異なるスペクトルドメイン間のマルチビュー画像ドメイントランスレーションにおける例示的なクロスビューサイクル一貫性を示す。各ドメイン内のクロスドメインサイクル一貫性に加えて、ドメイン変換器は、各ドメイン中の対にされたマルチビューデータがあるとすれば、顔画像の空間構造を保存することを奨励するためにさらに制約され得る。（式（１１）の場合のように、４つの可能な方向からの）１つの損失項のみが図９に示されている。ビューは、第１のフレームに対応する、「ビュー０」と標示された第１のビュー９０２と、第２のフレームに対応する、「ビュー１」と標示された第２のビュー９０４とを含む。第１のビュー９０２は、フレーム９１０、９１２を含む。第２のビュー９０４は、画像９１４、９１６を含む。クロスビュー一貫性は、ビュー９０２とビュー９０４との間で評価され得る。ドメインは、ＨＭＣ画像１０６に対応するドメインＨ９０６と、ドメイン転移された画像５０２に対応するドメインＲ９０８とを含む。ドメインＨ９０６はフレーム９１０、９１４を含み、ドメインＲはフレーム９１２、９１６を含む。ドメインＨからドメインＲへのトランスレーションはＦを介し、ドメインＲからドメインＨへのトランスレーションはＧを介する。さらに、ビュー０からビュー１へのトランスレーションはＰ_０を介し、ビュー１からビュー０へのトランスレーションはＰ_１を介する。ＦとＧとを介してドメインＨとドメインＲとの間にサイクルが確立され得、Ｐ_０とＰ_１とを介してビュー０とビュー１との間にサイクルが確立され得る。ドメインとビューとの間の損失は、ＦとＧとをトレーニングしながら、計算および最小化され得る。

【0075】

図１０は、マルチビュー画像ドメイントランスレーションのためにトレーニングするための例示的なアルゴリズムを示す。アルゴリズム１が、入力として、不対ＨＭＣ画像Ｈ１０６とレンダリングされた画像Ｒ５０６とを受信し得、画像Ｈのうちの１つと画像Ｒのうちの１つとが第１のビュー中にあり、他の画像Ｈと他の画像Ｒとが第２のビュー中にある。アルゴリズムは、出力として、収束されたＦ_ΦおよびＧ_Ψ１１４を生成し得る。アルゴリズムは、Ｆ_ΦおよびＧ_Ψ１１４が収束されるまで、以下のステップ、すなわち、ｉ∈｛０，１｝について

を得るために（ｔ，ｓ）をサンプリングする（４つの画像）、Ｌ_ＣＨ＋Ｌ_ＧＨ＋Ｌ_ＶＨを最小化する勾配を使用してＦについてΦを更新する、Ｌ_ＣＲ＋Ｌ_ＧＲ＋Ｌ_ＶＲを最小化する勾配を使用してＧについてΨを更新する、Ｌ_Ｐを最小化する勾配を使用してＰを更新する、およびＬ_Ｇを最大化する勾配を使用してＤ_ＨとＤ_Ｒとを更新する、を繰り返し得る。

【0076】

図１１は、例示的な背景認識微分可能レンダリングを示す。この例では、微分可能レンダリングが、ふくれた頬の入力ＨＭＣ画像１１０２に関して実施される。ドメイン転移された（ターゲット）画像１１０４がもたらされ得る。現在のレンダリングされたアバター１１０６も示されている。より大きい画像が、画像１１０４と画像１１０６とをオーバーレイした結果を示す。ボックス１１１０中のピクセルは、背景ピクセルとして現在レンダリングされているが、前景ピクセルとしてレンダリングされるべきである。顔輪郭の周りのピクセルのより詳細に見たものが、ボックス１１１０に示されている。三角形１１１４など、任意の投影された三角形のバウンディングボックス１１１０（破線矩形）内の背景ピクセルｐについて、ｐの色は、距離ｄ_ｐに関係する重み付けを伴って、最も近いエッジｐ１ｐ２上で最も近い点における色Ｃ_ｔと、背景色ｃ_ｂとからブレンドされる。右下に向かう矢印は、ダークグレーピクセルから生成された勾配が、顔のジオメトリに逆伝搬され得ることを示す。

【0077】

図１２は、赤外線画像とアバターパラメータとの間の対応を確立するための例示的な方法１２００を示す。方法は、ステップ１２１０において開始し得、ここで、方法は、第１のスペクトルドメインから第２のスペクトルドメインへの画像ドメイントランスレーションを実施するために第１の機械学習モデルをトレーニングし得、第１の機械学習モデルは、第１の画像と、対応するレンダリングされた画像のセットとに関してトレーニングされ、レンダリングされた画像は、対応するモデリングされたアバターパラメータおよびランドマークポーズに基づいて生成される。ステップ１２２０において、方法は、第１の機械学習モデルを使用して、第１の画像に基づいて、複数のドメイン転移された画像を生成し得、ドメイン転移された画像は第２のスペクトルドメイン中にある。ステップ１２３０において、方法は、第１のドメイン中の特定の画像に対応する、１つまたは複数の識別されたアバターパラメータおよび識別されたポーズを識別するために第２の機械学習モデルをトレーニングし得、第２の機械学習モデルは、第１の画像と、対応するドメイン転移された画像とに関してトレーニングされる。ステップ１２４０において、方法は、第２の機械学習モデルを使用して、第１の画像のうちの少なくとも１つについての識別されたアバターパラメータおよびポーズを生成し得る。ステップ１２５０において、方法は、識別されたパラメータおよびポーズに基づくアバターモデルを使用して、装着者の顔を表すアバターを生成し得る。ステップ１２６０において、方法は、入力画像に基づいてアバターパラメータを識別するために第３の機械学習モデルをトレーニングし得、第３の機械学習モデルは、非侵入型カメラからの第１の画像と、第２の機械学習モデルによって生成された、対応するアバターパラメータとを使用してトレーニングされる。

【0078】

特定の実施形態は、適切な場合、図１２の方法の１つまたは複数のステップを繰り返し得る。本開示は、図１２の方法の特定のステップを、特定の順序で行われるものとして説明し、示すが、本開示は、図１２の方法の任意の好適なステップが任意の好適な順序で行われることを企図する。その上、本開示は、図１２の方法の特定のステップを含む、赤外線画像とアバターパラメータとの間の対応を確立するための例示的な方法を説明し、示すが、本開示は、適切な場合、図１２の方法のステップのすべてを含むか、いくつかを含むか、またはいずれも含まないことがある、任意の好適なステップを含む、赤外線画像とアバターパラメータとの間の対応を確立するための任意の好適な方法を企図する。さらに、本開示は、図１２の方法の特定のステップを行う特定の構成要素、デバイス、またはシステムを説明し、示すが、本開示は、図１２の方法の任意の好適なステップを行う任意の好適な構成要素、デバイス、またはシステムの任意の好適な組合せを企図する。

【0079】

図１３は、ソーシャルネットワーキングシステムに関連する例示的なネットワーク環境１３００を示す。ネットワーク環境１３００は、ネットワーク１３１０によって互いに接続された、ユーザ１３０１と、クライアントシステム１３３０と、ソーシャルネットワーキングシステム１３６０と、サードパーティシステム１３７０とを含む。図１３は、ユーザ１３０１、クライアントシステム１３３０、ソーシャルネットワーキングシステム１３６０、サードパーティシステム１３７０、およびネットワーク１３１０の特定の構成を示すが、本開示は、ユーザ１３０１、クライアントシステム１３３０、ソーシャルネットワーキングシステム１３６０、サードパーティシステム１３７０、およびネットワーク１３１０の任意の好適な構成を企図する。限定としてではなく一例として、クライアントシステム１３３０、ソーシャルネットワーキングシステム１３６０、およびサードパーティシステム１３７０のうちの２つまたはそれ以上が、ネットワーク１３１０をバイパスして、直接互いに接続され得る。別の例として、クライアントシステム１３３０、ソーシャルネットワーキングシステム１３６０、およびサードパーティシステム１３７０のうちの２つまたはそれ以上が、全体的にまたは部分的に、物理的にまたは論理的に互いとコロケートされ得る。その上、図１３は、特定の数のユーザ１３０１、クライアントシステム１３３０、ソーシャルネットワーキングシステム１３６０、サードパーティシステム１３７０、およびネットワーク１３１０を示すが、本開示は、任意の好適な数のユーザ１３０１、クライアントシステム１３３０、ソーシャルネットワーキングシステム１３６０、サードパーティシステム１３７０、およびネットワーク１３１０を企図する。限定としてではなく一例として、ネットワーク環境１３００は、複数のユーザ１３０１と、クライアントシステム１３３０と、ソーシャルネットワーキングシステム１３６０と、サードパーティシステム１３７０と、ネットワーク１３１０とを含み得る。

【0080】

特定の実施形態では、ユーザ１３０１は、ソーシャルネットワーキングシステム１３６０と、またはソーシャルネットワーキングシステム１３６０上で、対話または通信する個人（人間ユーザ）、エンティティ（たとえば、企業、ビジネス、またはサードパーティアプリケーション）、または（たとえば、個人またはエンティティの）グループであり得る。特定の実施形態では、ソーシャルネットワーキングシステム１３６０は、オンラインソーシャルネットワークをホストするネットワークアドレス指定可能なコンピューティングシステムであり得る。ソーシャルネットワーキングシステム１３６０は、たとえば、ユーザプロファイルデータ、概念プロファイルデータ、ソーシャルグラフ情報、またはオンラインソーシャルネットワークに関係する他の好適なデータなど、ソーシャルネットワーキングデータを生成し、記憶し、受信し、送り得る。ソーシャルネットワーキングシステム１３６０は、直接的にまたはネットワーク１３１０を介してのいずれかで、ネットワーク環境１３００の他の構成要素によってアクセスされ得る。特定の実施形態では、ソーシャルネットワーキングシステム１３６０は、ユーザ１３０１が、たとえば、適切なプライバシーセッティングをセットすることによって、そのユーザのアクションがソーシャルネットワーキングシステム１３６０によってロギングされるか、または他のシステム（たとえば、サードパーティシステム１３７０）と共有されることをオプトインまたはオプトアウトすることを可能にする許可サーバ（または（１つまたは複数の）他の好適な構成要素）を含み得る。ユーザのプライバシーセッティングは、ユーザに関連するどの情報がロギングされ得るか、ユーザに関連する情報がどのようにロギングされ得るか、ユーザに関連する情報がいつロギングされ得るか、ユーザに関連する情報を誰がロギングし得るか、ユーザに関連する情報が誰と共有され得るか、およびユーザに関連する情報がどのような目的でロギングまたは共有され得るかを決定し得る。許可サーバは、ブロッキング、データのハッシュ化、匿名化、または適宜に他の好適な技法を通して、ソーシャルネットワーキングシステム３０のユーザの１つまたは複数のプライバシーセッティングを施行するために使用され得る。サードパーティシステム１３７０は、直接的にまたはネットワーク１３１０を介してのいずれかで、ネットワーク環境１３００の他の構成要素によってアクセスされ得る。特定の実施形態では、１つまたは複数のユーザ１３０１は、ソーシャルネットワーキングシステム１３６０またはサードパーティシステム１３７０にアクセスし、そこにデータを送り、そこからデータを受信するために、１つまたは複数のクライアントシステム１３３０を使用し得る。クライアントシステム１３３０は、直接的に、ネットワーク１３１０を介して、またはサードパーティシステムを介して、ソーシャルネットワーキングシステム１３６０またはサードパーティシステム１３７０にアクセスし得る。限定としてではなく一例として、クライアントシステム１３３０は、ソーシャルネットワーキングシステム１３６０を介してサードパーティシステム１３７０にアクセスし得る。クライアントシステム１３３０は、たとえば、パーソナルコンピュータ、ラップトップコンピュータ、セルラー電話、スマートフォン、タブレットコンピュータ、または拡張／仮想現実デバイスなど、任意の好適なコンピューティングデバイスであり得る。

【0081】

本開示は、任意の好適なネットワーク１３１０を企図する。限定としてではなく一例として、ネットワーク１３１０の１つまたは複数の部分は、アドホックネットワーク、イントラネット、エクストラネット、仮想プライベートネットワーク（ＶＰＮ）、ローカルエリアネットワーク（ＬＡＮ）、ワイヤレスＬＡＮ（ＷＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、ワイヤレスＷＡＮ（ＷＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、インターネットの一部分、公衆交換電話網（ＰＳＴＮ）の一部分、セルラー電話ネットワーク、またはこれらのうちの２つまたはそれ以上の組合せを含み得る。ネットワーク１３１０は、１つまたは複数のネットワーク１３１０を含み得る。

【0082】

リンク１３５０は、クライアントシステム１３３０と、ソーシャルネットワーキングシステム１３６０と、サードパーティシステム１３７０とを、通信ネットワーク１３１０にまたは互いに接続し得る。本開示は、任意の好適なリンク１３５０を企図する。特定の実施形態では、１つまたは複数のリンク１３５０は、１つまたは複数の、（たとえば、デジタル加入者回線（ＤＳＬ）またはデータオーバーケーブルサービスインターフェース仕様（ＤＯＣＳＩＳ）などの）ワイヤラインリンク、（たとえば、Ｗｉ－Ｆｉまたはワールドワイドインターオペラビリティフォーマイクロウェーブアクセス（ＷｉＭＡＸ）などの）ワイヤレスリンク、または（たとえば、同期光ネットワーク（ＳＯＮＥＴ）または同期デジタルハイアラーキ（ＳＤＨ）などの）光リンクを含む。特定の実施形態では、１つまたは複数のリンク１３５０は、各々、アドホックネットワーク、イントラネット、エクストラネット、ＶＰＮ、ＬＡＮ、ＷＬＡＮ、ＷＡＮ、ＷＷＡＮ、ＭＡＮ、インターネットの一部分、ＰＳＴＮの一部分、セルラー技術ベースネットワーク、衛星通信技術ベースネットワーク、別のリンク１３５０、または２つまたはそれ以上のそのようなリンク１３５０の組合せを含む。リンク１３５０は、ネットワーク環境１３００の全体にわたって必ずしも同じである必要はない。１つまたは複数の第１のリンク１３５０は、１つまたは複数の第２のリンク１３５０とは１つまたは複数の点で異なり得る。

【0083】

図１４は、例示的なコンピュータシステム１４００を示す。特定の実施形態では、１つまたは複数のコンピュータシステム１４００は、本明細書で説明または示される１つまたは複数の方法の１つまたは複数のステップを実施する。特定の実施形態では、１つまたは複数のコンピュータシステム１４００は、本明細書で説明または示される機能性を提供する。特定の実施形態では、１つまたは複数のコンピュータシステム１４００上で稼働しているソフトウェアは、本明細書で説明または示される１つまたは複数の方法の１つまたは複数のステップを実施するか、あるいは本明細書で説明または示される機能性を提供する。特定の実施形態は、１つまたは複数のコンピュータシステム１４００の１つまたは複数の部分を含む。本明細書では、コンピュータシステムへの言及は、適切な場合、コンピューティングデバイスを包含し得、その逆も同様である。その上、コンピュータシステムへの言及は、適切な場合、１つまたは複数のコンピュータシステムを包含し得る。

【0084】

本開示は、任意の好適な数のコンピュータシステム１４００を企図する。本開示は、任意の好適な物理的形態をとるコンピュータシステム１４００を企図する。限定としてではなく例として、コンピュータシステム１４００は、組込み型コンピュータシステム、システムオンチップ（ＳＯＣ）、（たとえば、コンピュータオンモジュール（ＣＯＭ）またはシステムオンモジュール（ＳＯＭ）などの）シングルボードコンピュータシステム（ＳＢＣ）、デスクトップコンピュータシステム、ラップトップまたはノートブックコンピュータシステム、対話型キオスク、メインフレーム、コンピュータシステムのメッシュ、携帯電話、携帯情報端末（ＰＤＡ）、サーバ、タブレットコンピュータシステム、拡張／仮想現実デバイス、あるいはこれらのうちの２つまたはそれ以上の組合せであり得る。適切な場合、コンピュータシステム１４００は、１つまたは複数のコンピュータシステム１４００を含むか、単一または分散型であるか、複数のロケーションにわたるか、複数のマシンにわたるか、複数のデータセンターにわたるか、あるいは１つまたは複数のネットワーク中の１つまたは複数のクラウド構成要素を含み得るクラウド中に常駐し得る。適切な場合、１つまたは複数のコンピュータシステム１４００は、実質的な空間的または時間的制限なしに、本明細書で説明または示される１つまたは複数の方法の１つまたは複数のステップを実施し得る。限定としてではなく一例として、１つまたは複数のコンピュータシステム１４００は、リアルタイムでまたはバッチモードで、本明細書で説明または示される１つまたは複数の方法の１つまたは複数のステップを実施し得る。１つまたは複数のコンピュータシステム１４００は、適切な場合、異なる時間においてまたは異なるロケーションにおいて、本明細書で説明または示される１つまたは複数の方法の１つまたは複数のステップを実施し得る。

【0085】

特定の実施形態では、コンピュータシステム１４００は、プロセッサ１４０２と、メモリ１４０４と、ストレージ１４０６と、入出力（Ｉ／Ｏ）インターフェース１４０８と、通信インターフェース１４１０と、バス１４１２とを含む。本開示は、特定の構成において特定の数の特定の構成要素を有する特定のコンピュータシステムを説明し、示すが、本開示は、任意の好適な構成において任意の好適な数の任意の好適な構成要素を有する任意の好適なコンピュータシステムを企図する。

【0086】

特定の実施形態では、プロセッサ１４０２は、コンピュータプログラムを作り上げる命令など、命令を実行するためのハードウェアを含む。限定としてではなく一例として、命令を実行するために、プロセッサ１４０２は、内部レジスタ、内部キャッシュ、メモリ１４０４、またはストレージ１４０６から命令を取り出し（またはフェッチし）、それらの命令を復号および実行し、次いで、内部レジスタ、内部キャッシュ、メモリ１４０４、またはストレージ１４０６に１つまたは複数の結果を書き込み得る。特定の実施形態では、プロセッサ１４０２は、データ、命令、またはアドレスのための１つまたは複数の内部キャッシュを含み得る。本開示は、適切な場合、任意の好適な数の任意の好適な内部キャッシュを含むプロセッサ１４０２を企図する。限定としてではなく一例として、プロセッサ１４０２は、１つまたは複数の命令キャッシュと、１つまたは複数のデータキャッシュと、１つまたは複数のトランスレーションルックアサイドバッファ（ＴＬＢ）とを含み得る。命令キャッシュ中の命令は、メモリ１４０４またはストレージ１４０６中の命令のコピーであり得、命令キャッシュは、プロセッサ１４０２によるそれらの命令の取出しを高速化し得る。データキャッシュ中のデータは、プロセッサ１４０２において実行する命令が動作する対象のメモリ１４０４またはストレージ１４０６中のデータのコピー、プロセッサ１４０２において実行する後続の命令によるアクセスのための、またはメモリ１４０４もしくはストレージ１４０６に書き込むための、プロセッサ１４０２において実行された前の命令の結果、あるいは他の好適なデータであり得る。データキャッシュは、プロセッサ１４０２による読取りまたは書込み動作を高速化し得る。ＴＬＢは、プロセッサ１４０２のための仮想アドレストランスレーション（ｖｉｒｔｕａｌ－ａｄｄｒｅｓｓｔｒａｎｓｌａｔｉｏｎ）を高速化し得る。特定の実施形態では、プロセッサ１４０２は、データ、命令、またはアドレスのための１つまたは複数の内部レジスタを含み得る。本開示は、適切な場合、任意の好適な数の任意の好適な内部レジスタを含むプロセッサ１４０２を企図する。適切な場合、プロセッサ１４０２は、１つまたは複数の算術論理ユニット（ＡＬＵ）を含むか、マルチコアプロセッサであるか、または１つまたは複数のプロセッサ１４０２を含み得る。本開示は、特定のプロセッサを説明し、示すが、本開示は任意の好適なプロセッサを企図する。

【0087】

特定の実施形態では、メモリ１４０４は、プロセッサ１４０２が実行するための命令、またはプロセッサ１４０２が動作する対象のデータを記憶するためのメインメモリを含む。限定としてではなく一例として、コンピュータシステム１４００は、ストレージ１４０６または（たとえば、別のコンピュータシステム１４００などの）別のソースからメモリ１４０４に命令をロードし得る。プロセッサ１４０２は、次いで、メモリ１４０４から内部レジスタまたは内部キャッシュに命令をロードし得る。命令を実行するために、プロセッサ１４０２は、内部レジスタまたは内部キャッシュから命令を取り出し、それらの命令を復号し得る。命令の実行中またはその後に、プロセッサ１４０２は、（中間結果または最終結果であり得る）１つまたは複数の結果を内部レジスタまたは内部キャッシュに書き込み得る。プロセッサ１４０２は、次いで、メモリ１４０４にそれらの結果のうちの１つまたは複数を書き込み得る。特定の実施形態では、プロセッサ１４０２は、１つまたは複数の内部レジスタまたは内部キャッシュ中の、あるいは（ストレージ１４０６または他の場所とは対照的な）メモリ１４０４中の命令のみを実行し、１つまたは複数の内部レジスタまたは内部キャッシュ中の、あるいは（ストレージ１４０６または他の場所とは対照的な）メモリ１４０４中のデータのみに対して動作する。（アドレスバスおよびデータバスを各々含み得る）１つまたは複数のメモリバスが、プロセッサ１４０２をメモリ１４０４に結合し得る。バス１４１２は、以下で説明されるように、１つまたは複数のメモリバスを含み得る。特定の実施形態では、１つまたは複数のメモリ管理ユニット（ＭＭＵ）が、プロセッサ１４０２とメモリ１４０４との間に常駐し、プロセッサ１４０２によって要求されるメモリ１４０４へのアクセスを容易にする。特定の実施形態では、メモリ１４０４は、ランダムアクセスメモリ（ＲＡＭ）を含む。このＲＡＭは、適切な場合、揮発性メモリであり得る。適切な場合、このＲＡＭは、ダイナミックＲＡＭ（ＤＲＡＭ）またはスタティックＲＡＭ（ＳＲＡＭ）であり得る。その上、適切な場合、このＲＡＭは、シングルポートまたはマルチポートＲＡＭであり得る。本開示は、任意の好適なＲＡＭを企図する。メモリ１４０４は、適切な場合、１つまたは複数のメモリ１４０４を含み得る。本開示は、特定のメモリを説明し、示すが、本開示は任意の好適なメモリを企図する。

【0088】

特定の実施形態では、ストレージ１４０６は、データまたは命令のための大容量ストレージを含む。限定としてではなく一例として、ストレージ１４０６は、ハードディスクドライブ（ＨＤＤ）、フロッピーディスクドライブ、フラッシュメモリ、光ディスク、光磁気ディスク、磁気テープ、またはユニバーサルシリアルバス（ＵＳＢ）ドライブ、あるいはこれらのうちの２つまたはそれ以上の組合せを含み得る。ストレージ１４０６は、適切な場合、リムーバブルまたは非リムーバブル（または固定）媒体を含み得る。ストレージ１４０６は、適切な場合、コンピュータシステム１４００の内部または外部にあり得る。特定の実施形態では、ストレージ１４０６は、不揮発性ソリッドステートメモリである。特定の実施形態では、ストレージ１４０６は、読取り専用メモリ（ＲＯＭ）を含む。適切な場合、このＲＯＭは、マスクプログラムＲＯＭ、プログラマブルＲＯＭ（ＰＲＯＭ）、消去可能ＰＲＯＭ（ＥＰＲＯＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、電気的書き換え可能ＲＯＭ（ＥＡＲＯＭ）、またはフラッシュメモリ、あるいはこれらのうちの２つまたはそれ以上の組合せであり得る。本開示は、任意の好適な物理的形態をとる大容量ストレージ１４０６を企図する。ストレージ１４０６は、適切な場合、プロセッサ１４０２とストレージ１４０６との間の通信を容易にする１つまたは複数のストレージ制御ユニットを含み得る。適切な場合、ストレージ１４０６は、１つまたは複数のストレージ１４０６を含み得る。本開示は、特定のストレージを説明し、示すが、本開示は任意の好適なストレージを企図する。

【0089】

特定の実施形態では、Ｉ／Ｏインターフェース１４０８は、コンピュータシステム１４００と１つまたは複数のＩ／Ｏデバイスとの間の通信のための１つまたは複数のインターフェースを提供する、ハードウェア、ソフトウェア、またはその両方を含む。コンピュータシステム１４００は、適切な場合、これらのＩ／Ｏデバイスのうちの１つまたは複数を含み得る。これらのＩ／Ｏデバイスのうちの１つまたは複数は、人とコンピュータシステム１４００との間の通信を可能にし得る。限定としてではなく一例として、Ｉ／Ｏデバイスは、キーボード、キーパッド、マイクロフォン、モニタ、マウス、プリンタ、スキャナ、スピーカー、スチールカメラ、スタイラス、タブレット、タッチスクリーン、トラックボール、ビデオカメラ、別の好適なＩ／Ｏデバイス、またはこれらのうちの２つまたはそれ以上の組合せを含み得る。Ｉ／Ｏデバイスは１つまたは複数のセンサーを含み得る。本開示は、任意の好適なＩ／Ｏデバイスと、それらのＩ／Ｏデバイスのための任意の好適なＩ／Ｏインターフェース１４０８とを企図する。適切な場合、Ｉ／Ｏインターフェース１４０８は、プロセッサ１４０２がこれらのＩ／Ｏデバイスのうちの１つまたは複数を駆動することを可能にする１つまたは複数のデバイスまたはソフトウェアドライバを含み得る。Ｉ／Ｏインターフェース１４０８は、適切な場合、１つまたは複数のＩ／Ｏインターフェース１４０８を含み得る。本開示は、特定のＩ／Ｏインターフェースを説明し、示すが、本開示は任意の好適なＩ／Ｏインターフェースを企図する。

【0090】

特定の実施形態では、通信インターフェース１４１０は、コンピュータシステム１４００と、１つまたは複数の他のコンピュータシステム１４００または１つまたは複数のネットワークとの間の（たとえば、パケットベース通信などの）通信のための１つまたは複数のインターフェースを提供する、ハードウェア、ソフトウェア、またはその両方を含む。限定としてではなく一例として、通信インターフェース１４１０は、イーサネットまたは他のワイヤベースネットワークと通信するためのネットワークインターフェースコントローラ（ＮＩＣ）またはネットワークアダプタ、あるいはＷＩ－ＦＩネットワークなどのワイヤレスネットワークと通信するためのワイヤレスＮＩＣ（ＷＮＩＣ）またはワイヤレスアダプタを含み得る。本開示は、任意の好適なネットワークと、そのネットワークのための任意の好適な通信インターフェース１４１０とを企図する。限定としてではなく一例として、コンピュータシステム１４００は、アドホックネットワーク、パーソナルエリアネットワーク（ＰＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、またはインターネットの１つまたは複数の部分、あるいはこれらのうちの２つまたはそれ以上の組合せと通信し得る。これらのネットワークのうちの１つまたは複数の１つまたは複数の部分は、ワイヤードまたはワイヤレスであり得る。一例として、コンピュータシステム１４００は、（たとえば、ＢＬＵＥＴＯＯＴＨＷＰＡＮなどの）ワイヤレスＰＡＮ（ＷＰＡＮ）、ＷＩ－ＦＩネットワーク、ＷＩ－ＭＡＸネットワーク、（たとえば、モバイル通信用グローバルシステム（ＧＳＭ）ネットワークなどの）セルラー電話ネットワーク、または他の好適なワイヤレスネットワーク、あるいはこれらのうちの２つまたはそれ以上の組合せと通信し得る。コンピュータシステム１４００は、適切な場合、これらのネットワークのいずれかのための任意の好適な通信インターフェース１４１０を含み得る。通信インターフェース１４１０は、適切な場合、１つまたは複数の通信インターフェース１４１０を含み得る。本開示は、特定の通信インターフェースを説明し、示すが、本開示は任意の好適な通信インターフェースを企図する。

【0091】

特定の実施形態では、バス１４１２は、コンピュータシステム１４００の構成要素を互いに結合する、ハードウェア、ソフトウェア、またはその両方を含む。限定としてではなく一例として、バス１４１２は、アクセラレーテッドグラフィックスポート（ＡＧＰ）または他のグラフィックスバス、拡張業界標準アーキテクチャ（ＥＩＳＡ）バス、フロントサイドバス（ＦＳＢ）、ＨＹＰＥＲＴＲＡＮＳＰＯＲＴ（ＨＴ）相互接続、業界標準アーキテクチャ（ＩＳＡ）バス、ＩＮＦＩＮＩＢＡＮＤ相互接続、ローピンカウント（ＬＰＣ）バス、メモリバス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、周辺構成要素相互接続（ＰＣＩ）バス、ＰＣＩ－Ｅｘｐｒｅｓｓ（ＰＣＩｅ）バス、シリアルアドバンストテクノロジーアタッチメント（ＳＡＴＡ）バス、ビデオエレクトロニクス規格協会ローカル（ＶＬＢ）バス、または別の好適なバス、あるいはこれらのうちの２つまたはそれ以上の組合せを含み得る。バス１４１２は、適切な場合、１つまたは複数のバス１４１２を含み得る。本開示は、特定のバスを説明し、示すが、本開示は任意の好適なバスまたは相互接続を企図する。

【0092】

本明細書では、１つまたは複数のコンピュータ可読非一時的記憶媒体は、適切な場合、（たとえば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）または特定用途向けＩＣ（ＡＳＩＣ）などの）１つまたは複数の半導体ベースまたは他の集積回路（ＩＣ）、ハードディスクドライブ（ＨＤＤ）、ハイブリッドハードドライブ（ＨＨＤ）、光ディスク、光ディスクドライブ（ＯＤＤ）、光磁気ディスク、光磁気ドライブ、フロッピーディスケット、フロッピーディスクドライブ（ＦＤＤ）、磁気テープ、ソリッドステートドライブ（ＳＳＤ）、ＲＡＭドライブ、セキュアデジタルカードまたはドライブ、任意の他の好適なコンピュータ可読非一時的記憶媒体、あるいはこれらのうちの２つまたはそれ以上の任意の好適な組合せを含み得る。コンピュータ可読非一時的記憶媒体は、適切な場合、揮発性、不揮発性、または揮発性と不揮発性との組合せであり得る。

【0093】

本明細書では、「または」は、明確に別段に示されていない限り、またはコンテキストによって別段に示されていない限り、包括的であり、排他的ではない。したがって、本明細書では、「ＡまたはＢ」は、明確に別段に示されていない限り、またはコンテキストによって別段に示されていない限り、「Ａ、Ｂ、またはその両方」を意味する。その上、「および」は、明確に別段に示されていない限り、またはコンテキストによって別段に示されていない限り、共同と個別の両方である。したがって、本明細書では、「ＡおよびＢ」は、明確に別段に示されていない限り、またはコンテキストによって別段に示されていない限り、「共同でまたは個別に、ＡおよびＢ」を意味する。

【0094】

本開示の範囲は、当業者が理解するであろう、本明細書で説明または示される例示的な実施形態に対するすべての変更、置換、変形、改変、および修正を包含する。本開示の範囲は、本明細書で説明または示される例示的な実施形態に限定されない。その上、本開示は、本明細書のそれぞれの実施形態を、特定の構成要素、要素、特徴、機能、動作、またはステップを含むものとして説明し、示すが、これらの実施形態のいずれも、当業者が理解するであろう、本明細書のどこかに説明または示される構成要素、要素、特徴、機能、動作、またはステップのうちのいずれかの任意の組合せまたは置換を含み得る。さらに、特定の機能を実施するように適応されるか、構成されるか、実施することが可能であるか、実施するように設定されるか、実施することが可能にされるか、実施するように動作可能であるか、または実施するように動作する、装置またはシステムあるいは装置またはシステムの構成要素に対する添付の特許請求の範囲における参照は、その装置、システム、または構成要素が、そのように適応されるか、構成されるか、可能であるか、設定されるか、可能にされるか、動作可能であるか、または動作する限り、その装置、システム、構成要素またはその特定の機能が、アクティブにされるか、オンにされるか、またはロック解除されるか否かにかかわらず、その装置、システム、構成要素を包含する。さらに、本開示は、特定の実施形態を、特定の利点を提供するものとして説明するかまたは示すが、特定の実施形態は、これらの利点のいずれをも提供しないか、いくつかを提供するか、またはすべてを提供し得る。

【図1A】