特開2024-70829 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧 ▶ カーネギー−メロン　ユニバーシティの特許一覧

特開2024-70829アバター制御

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024070829

(43)【公開日】2024-05-23

(54)【発明の名称】アバター制御

(51)【国際特許分類】

G06T 7/00 20170101AFI20240516BHJP

G06T 1/00 20060101ALI20240516BHJP

G06T 13/40 20110101ALI20240516BHJP

【ＦＩ】

G06T7/00 660A

G06T1/00 340A

G06T7/00 350C

G06T13/40

【審査請求】未請求

【請求項の数】20

【出願形態】ＯＬ

(21)【出願番号】P 2023188138

(22)【出願日】2023-11-02

(31)【優先権主張番号】63/383472

(32)【優先日】2022-11-11

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】18/192607

(32)【優先日】2023-03-29

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(71)【出願人】

【識別番号】591236068

【氏名又は名称】カーネギー－メロンユニバーシティ

【氏名又は名称原語表記】ＣＡＲＮＥＧＩＥ－ＭＥＬＬＯＮＵＮＩＶＥＲＳＩＴＹ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】ユウ・ヘン

(72)【発明者】

【氏名】新沼厚一郎

(72)【発明者】

【氏名】ジェニ・ラズロ

【テーマコード（参考）】

5B050

5B057

5L096

【Ｆターム（参考）】

5B050AA08

5B050BA06

5B050BA08

5B050BA09

5B050BA12

5B050CA01

5B050DA04

5B050EA19

5B050EA24

5B050EA26

5B050FA02

5B050FA05

5B057CA12

5B057CB12

5B057DC05

5L096CA04

5L096EA18

5L096FA09

5L096HA11

(57)【要約】

【課題】アバター制御の方法及びシステムを提供する。
【解決手段】一例において、方法は、データソースから、各々人間の顔を含む複数のフレームを含む第１データを取得することを含んでよい。方法は、複数のフレームの各々において、１つ以上の顔のランドマーク及び人間の顔に関連する１つ以上のアクションユニット（AU）を自動的に検出することを含んでよい。方法はまた、少なくとも１つ以上の顔のランドマークに基づいて、１つ以上の意味マスク、すなわち人間の顔に個別に対応する１つ以上の意味マスクを自動的に生成することを含んでよい。方法はさらに、少なくとも第１データ、１つ以上のAU、及び意味マスクを使用して、顔ハイパースペースを得ることを含んでよい。方法はまた、複数のフレームの第１フレーム、及び１つ以上のAUに個別に関連付けられた１つ以上のAU強度を使用して、人間の顔の合成画像を生成することを含んでよい。
【選択図】図１

【特許請求の範囲】

【請求項1】

データソースから、各々が人間の顔を含む複数のフレームを含む第１データを取得するステップと、
前記複数のフレームの各々において、１つ以上の顔のランドマーク及び前記人間の顔に関連付けられた１つ以上のアクションユニット（AU）を自動的に検出するステップと、
少なくとも前記１つ以上の顔のランドマークに基づいて、１つ以上の意味マスクを自動的に生成するステップであって、前記１つ以上の意味マスクは前記人間の顔に個別に対応する、ステップと、
少なくとも前記第１データ、前記１つ以上のAU、及び前記意味マスクを使用して、顔ハイパースペースを構築するステップと、
前記複数のフレームのうちの第１フレームと、前記１つ以上のAUに個別に関連付けられた１つ以上のAU強度とを使用して、前記人間の顔の合成画像を生成するステップと、
を含む方法。

【請求項2】

前記合成画像を表示装置上で表示するステップであって、前記合成画像は前記人間の顔を描写する、ステップと、
を更に含む請求項１に記載の方法。

【請求項3】

前記AU強度を最小強度値及び最大強度値に基づいて正規化するステップ、
を更に含む請求項１に記載の方法。

【請求項4】

前記１つ以上のAU強度に対する第１修正が、前記合成画像に関連する顔の表情に対する第２修正を引き起こす、請求項１に記載の方法。

【請求項5】

前記１つ以上のAUが、前記１つ以上の意味マスクの境界に対する前記１つ以上のAUの位置に基づいて、前記１つ以上の意味マスクに個別に割り当てられる、請求項１に記載の方法。

【請求項6】

前記第１データがスローモーションビデオ記録であり、前記データソースが単一のビデオ記録装置である、請求項１に記載の方法。

【請求項7】

前記顔ハイパースペースを構築するステップが、前記第１データ、前記１つ以上のAU、及び前記意味マスクをネットワークアーキテクチャに入力するステップを含む、請求項１に記載の方法。

【請求項8】

前記ネットワークアーキテクチャが、少なくとも潜在ニューラルネットワーク、座標ニューラルネットワーク、ハイパースペースニューラルネットワーク、及び属性ニューラルネットワークを含む、請求項７に記載の方法。

【請求項9】

前記ネットワークアーキテクチャは、前記第１データ、前記１つ以上のAU、及び前記意味マスクを使用して最初にトレーニングされ、前記ネットワークアーキテクチャは、その後、前記第１データ及び前記AU強度を使用して前記合成画像を生成する、請求項７に記載の方法。

【請求項10】

システムであって、
命令を格納するよう構成される１つ以上のコンピュータ可読記憶媒体と、
前記１つ以上のコンピュータ可読記憶媒体に通信可能に結合され、前記命令の実行に応答して前記システムに動作を実行させるよう構成される１つ以上のプロセッサと、
を含み、前記動作は、
データソースから、各々が人間の顔を含む複数のフレームを含む第１データを取得するステップと、
前記複数のフレームの各々において、１つ以上の顔のランドマーク及び前記人間の顔に関連付けられた１つ以上のアクションユニット（AU）を自動的に検出するステップと、
少なくとも前記１つ以上の顔のランドマークに基づいて、１つ以上の意味マスクを自動的に生成するステップであって、前記１つ以上の意味マスクは前記人間の顔に個別に対応する、ステップと、
少なくとも前記第１データ、前記１つ以上のAU、及び前記意味マスクを使用して、顔ハイパースペースを構築するステップと、
前記複数のフレームのうちの第１フレームと、前記１つ以上のAUに個別に関連付けられた１つ以上のAU強度とを使用して、前記人間の顔の合成画像を生成するステップと、
を含むシステム。

【請求項11】

前記動作は、
前記合成画像を表示装置上で表示するステップであって、前記合成画像は前記人間の顔を描写する、ステップ、
を更に含む、請求項１０に記載のシステム。

【請求項12】

前記動作は、
前記AU強度を最小強度値及び最大強度値に基づいて正規化するステップ、
を更に含む、請求項１０に記載のシステム。

【請求項13】

前記１つ以上のAU強度に対する第１修正が、前記合成画像に関連する顔の表情に対する第２修正を引き起こす、請求項１０に記載のシステム。

【請求項14】

前記１つ以上のAUが、前記１つ以上の意味マスクの境界に対する前記１つ以上のAUの位置に基づいて、前記１つ以上の意味マスクに個別に割り当てられる、請求項１０に記載のシステム。

【請求項15】

前記第１データがスローモーションビデオ記録であり、前記データソースが単一のビデオ記録装置である、請求項１０に記載のシステム。

【請求項16】

前記顔ハイパースペースを構築するステップが、前記第１データ、前記１つ以上のAU、及び前記意味マスクをネットワークアーキテクチャに入力するステップを含む、請求項１０に記載のシステム。

【請求項17】

前記ネットワークアーキテクチャが、少なくとも潜在ニューラルネットワーク、座標ニューラルネットワーク、ハイパースペースニューラルネットワーク、及び属性ニューラルネットワークを含む、請求項１６に記載のシステム。

【請求項18】

前記ネットワークアーキテクチャは、前記第１データ、前記１つ以上のAU、及び前記意味マスクを使用して最初にトレーニングされ、前記ネットワークアーキテクチャは、その後、前記第１データ及び前記AU強度を使用して前記合成画像を生成する、請求項１６に記載のシステム。

【請求項19】

システムであって、
データソースから、各々が人間の顔を含む複数のフレームを含む第１データを取得する手段と、
前記複数のフレームの各々において、１つ以上の顔のランドマーク及び前記人間の顔に関連付けられた１つ以上のアクションユニット（AU）を自動的に検出する手段と、
少なくとも前記１つ以上の顔のランドマークに基づいて、１つ以上の意味マスクを自動的に生成する手段であって、前記１つ以上の意味マスクは前記人間の顔に個別に対応する、手段と、
少なくとも前記第１データ、前記１つ以上のAU、及び前記意味マスクを使用して、顔ハイパースペースを構築する手段と、
前記複数のフレームのうちの第１フレームと、前記１つ以上のAUに個別に関連付けられた１つ以上のAU強度とを使用して、前記人間の顔の合成画像を生成する手段と、
を含むシステム。

【請求項20】

前記合成画像が前記人間の顔を表すように、前記合成画像を表示装置上で表示する手段、
を更に含む請求項１９に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

［関連出願］
本願は、参照により全体がここに組み込まれる米国仮特許出願第６３／３８３，４７２号、２０２２年１１月１１日出願名称「AVATAR CONTROL METHOD」、の利益を主張する。

【0002】

［技術分野］
本開示において議論される実施形態はアバター制御に関連する。

【背景技術】

【0003】

マシンビジョンは、２D観察を用いた３Dオブジェクトの決定を含め、それに関する機能と精度において進歩を続けている。ニューラルネットワークから合成された３Dオブジェクトの表現の中には、合成された３Dオブジェクトが時間の変化を表示するような動的なものもある。状況によっては、合成された３Dオブジェクトのレンダリングに加えて、３Dオブジェクトの制御が複雑になることもある。代替的に、又は追加的に、合成された３Dオブジェクトの操作は、合成された３Dオブジェクトの独立した制御が利用できないように、合成された３Dオブジェクトの関連する側面間の運動に制限されることがある。

【0004】

本願明細書で請求される主題は、任意の欠点を解決する実施形態又は上述のような環境でのみ動作する実施形態に限定されない。むしろ、この背景技術は、本願明細書に記載の幾つかの実施形態が実施され得る一例である技術領域を説明するためにのみ提供される。

【発明の概要】

【0005】

実施形態の態様によると、方法は、データソースから、各々人間の顔を含む複数のフレームを含む第１データを取得することを含んでよい。方法は、複数のフレームの各々において、１つ以上の顔のランドマーク及び人間の顔に関連する１つ以上のアクションユニット（AU）を自動的に検出することを更に含んでよい。方法は、少なくとも１つ以上の顔のランドマークに基づいて、１つ以上の意味マスク、すなわち人間の顔に個別に対応する１つ以上の意味マスクを自動的に生成することを更に含んでよい。方法は、少なくとも第１データ、１つ以上のAU、及び意味マスクを使用して、顔ハイパースペース（facial hyperspace）を得ることを更に含んでよい。方法は、複数のフレームの第１フレーム、及び１つ以上のAUに個別に関連付けられた１つ以上のAU強度を使用して、人間の顔の合成画像を生成することを更に含んでよい。

【0006】

実施形態の目的及び利点は、請求項において特に指摘される要素、特徴、及び組み合わせにより少なくとも実現され達成される。

【0007】

前述の一般的説明及び以下の詳細な説明は両方とも例として与えられ、説明のためであり、請求される本発明の限定ではない。

【図面の簡単な説明】

【0008】

例示的な実施形態は、以下の添付の図面の使用を通じて更なる特殊性及び詳細事項により記載され説明される。

【0009】

【図1】アバター制御をサポートするように構成された例示的な環境のブロック図である。

【0010】

【図2】アバター制御をサポートするように構成された例示的なネットワークアーキテクチャのブロック図である。

【0011】

【図3】アバター制御をサポートするように構成された別の例示的なネットワークアーキテクチャのブロック図である。

【0012】

【図4】人間の顔に適用された複数のマスクを含む例示的な環境を示す。

【0013】

【図5】アバター制御の例示的な方法のフローチャートである。

【0014】

【図6】アバター制御に使用できる例示的なコンピューティングシステムを示す。

【発明を実施するための形態】

【0015】

マシンビジョン及び／又はマシンビジョンを用いたオブジェクトの表現は、近年著しい進歩を遂げている。例えば、３次元（３D）オブジェクト及び／又はシーン（他に明示的に言及されない限り、総称して「オブジェクト」と呼ばれる）は、オブジェクトの２次元（２D）画像を観察及び解釈するマシンビジョンシステムを介してモデル化及び／又は表現され得る。状況によっては、マシンビジョンシステムは、２Dでオブジェクトを観察し、その３D表現を生成するために１つ以上の機械学習システムを実装する。２Dオブジェクトの多くの３D表現は、３D表現も静的であるように、静的オブジェクトに基づいている場合がある。静的オブジェクトと比較してマシンビジョンシステムの機能性及び／又は計算時間を向上させるための改善が導入されているが、動的オブジェクトのマシンビジョン処理には、静的オブジェクトと比較して追加の計算複雑性が含まれる場合がある。

【0016】

状況によっては、NeRF（neural radiance field）を使用して、少なくともシーンの２Dビューに部分的に基づいて、３Dシーンの新しいビューを生成することができる。さらに、NeRFアプローチのバリエーションは、３Dビューを生成する機械学習システムの動作及び／又は機能を拡張することができる。状況によっては、NeRF及び／又はそのバリエーションを使用して、人間の顔及び／又は関連する表情を含む３Dシーンを生成することができる。合成された人間の顔及び／又は関連する表情を含む新規ビューは、キャプチャされた画像及び／又はNeRFネットワークへの入力に基づくことができる。

【0017】

幾つかの従来のアプローチでは、３Dシーンの新規ビューを生成するために複数のビデオ入力を使用して複数のカメラ及び／又はカメラの品質（例えば、高解像度、マルチビューなど）に起因する増加した費用で新規ビューのレンダリングの品質を潜在的に改善するように、複数のカメラを使用して３Dシーン（例えば、人間の顔と関連する表情を含む）をキャプチャすることができる。別のアプローチでは、データのオペレータ又はユーザによって実行され得るデータへの注釈を使用して新規ビューを生成することができる。注釈は、機械学習ネットワークを誘導して、新規ビューの生成に使用される３Dシーンの部分を識別することができる。このような注釈は、機械学習ネットワークへの入力として使用される可能性がある３Dシーンに多くの画像が含まれる可能性があるため、注釈者によってかなりの時間を犠牲にする可能性がある。

【0018】

本開示の少なくとも１つの実施形態では、３Dオブジェクトの２D表現を使用して、３Dオブジェクト（例えば、アバター）の表現を決定、表示、及び／又は制御する方法は、データの流れの中で様々な表情を有する人間の顔を含む、３Dシーンに関連付けられたデータを取得することを含み得る。幾つかの実施形態では、データは、多くのユーザが直ちに利用可能なビデオ記録装置を含み得る単一のデータソースから取得することができる。人間の顔に関連する顔のランドマーク及び／又はアクションユニット（AU）は、ニューラルネットワークアーキテクチャによる処理の前に、注釈がデータ内で使用されないように、自動的に検出することができる。代替的に、又は追加的に、人間の顔に関連する意味マスクは、顔のランドマークを使用して自動的に生成され、及び／又はAUは、人間の顔の様々な表情及び／又は部分のユニークな及び／又は特定の制御を提供することができる意味マスクに割り当てられることができる。

【0019】

幾つかの実施形態では、顔ハイパースペースが構築され、人間の顔の合成画像（例えば、アバター）が生成され、表示され、アバターは、人間の顔に類似し及び／又は固有であり得る修正可能な表情及びデータに取り込まれた関連する表情を含むことができる。手動の注釈付けは時間がかかる可能性があるため、顔のランドマーク及びAUを自動的に検出し、続いて意味マスクを自動的に生成することは、アバターの処理時間を改善することができる。代替的に、又は追加的に、AU及び意味マスクの組み合わせは、アバターを生成するために使用されるデータの取得及び／又は注釈付けの努力を制限しながら、アバターにおいて生成される表現の詳細な制御を可能にすることができる。

【0020】

本開示の実施形態は、添付の図面を参照して説明される。

【0021】

図１は、本開示の少なくとも一実施形態によるアバター制御をサポートするように構成された例示的な環境１００のブロック図である。環境１００は、画像検出モジュール１１０、ニューラルネットワークアーキテクチャ１１５、及び表示装置１２０を含むことができる。

【0022】

幾つかの実施形態では、画像検出モジュール１１０は、データソース１０５から第１データを取得することができる。データソース１０５からの第１データは、１つ以上の画像、ビデオストリーム、及び／又はシーンから撮影された複数のビデオフレーム（以下、略して「フレーム」又は複数の「フレーム」）を含むことができるシーンの他の表現を含むことができる。例えば、第１データは、シーン内のオブジェクトの様々な動きを含むシーン及び／又はシーン内のオブジェクトをキャプチャするデジタルビデオ記録（例えば、毎秒複数フレーム）を含むことができる。代替的に、又は追加的に、第１データは、複数のフレームに含まれる人間の顔（例えば、シーンに含まれるオブジェクト）を含むことができ、人間の顔に関連する１つ以上の表情が複数のフレームにキャプチャされることができる。例えば、第１データは、人間の顔のデジタルビデオ記録を含むことができ、人間の顔の表情は、笑顔、眉をひそめる、しかめっ面、及び／又は他の表情のような異なる表情の間で変化することができる。幾つかの実施形態では、これらの顔の表情は、人がビデオに自分の顔をビデオにキャプチャしている間に実行するように要求される１つ又は複数のタスクに従うことができる（例えば、「眉を上げる」、「笑う」、「しかめっ面をする」など）。

【0023】

幾つかの実施形態では、画像検出モジュール１１０は、１つ又は複数のコンピューティング装置が１つ以上の動作を実行できるように構成されたコード及びルーチンを含むことができる。追加的に、又は代替的に、画像検出モジュール１１０は、１つ以上のプロセッサ、中央処理装置（CPU）、グラフィックス処理装置（GPU）、データ処理装置（DPU）、並列処理装置（PPU）、マイクロプロセッサ（例えば、１つ以上の動作の実行又は実行の制御）、フィールドプログラマブルゲートアレイ（FPGA）、特定用途向け集積回路（ASIC）、アクセラレータ（例えば、ディープラーニングアクセラレータ）、及び／又は他のプロセッサタイプを含むハードウェアを使用して実装することができる。幾つかの他の例では、画像検出モジュール１１０は、ハードウェア及びソフトウェアの組み合わせを用いて実装されてよい。本開示では、画像を検出モジュール１１０を使用して実行されるとして記載される動作は、画像検出モジュール１１０が対応するシステムに実行するよう指示し得る動作を含んでよい。

【0024】

幾つかの実施形態では、データソース１０５は、デジタルビデオ記録を得るように構成されたハンドヘルド記録装置を含み得る。例えば、データソース１０５は、デジタルビデオを記録することができる携帯電話（例えば、スマートフォン）を含み得る。幾つかの実施形態では、データソース１０５は、スローモーションデジタルビデオを得るように構成され得る。例えば、データソース１０５は、第１データを第１フレーム数／秒でキャプチャすることができ、第１データの再生は、第１データがスローモーションであり得るように、第２フレーム数／秒であり得る。代替的に、又は追加的に、第１データは、第１データが第１フレーム数／秒でキャプチャされ、第１データの再生が第１フレーム数／秒であり得るように、１つ以上の挿入されたフレームを含むことができ、挿入されたフレームは、第１データをスローモーションで再生させ得る。

【0025】

幾つかの実施形態では、データソース１０５は、シーンに対する相対的及び／又はシーン内のオブジェクトに対する例えば相対的なデータソース位置を調整するように構成され得る。例えば、データソース１０５が人間の顔を記録するハンドヘルド記録装置（例えば、スマートフォン）である場合、ハンドヘルド記録装置（例えば、データソース１０５）の位置は、シーン内の人間の顔に関連付けられた第１データをキャプチャし続けながら、人間の顔に対して調整され得る。これらの又は他の実施形態では、データソース１０５の位置は、シーンに対する変化の代わりに又はそれに加えて変化し得る（例えば、人間の顔やそれに伴う表情の変化など、シーン内のオブジェクトに対する変化を含む）。例えば、データソース１０５は、人間の顔に対して変化するデータソース１０５の位置に加えて、表情を変化させる人間の顔のスローモーションデジタルビデオを含むことができる。

【0026】

幾つかの実施形態では、画像検出モジュール１１０は、データソース１０５を使用して生成された第１データを取得することができ、第１データに関連する１つ以上の特徴を検出するように構成することができる。例えば、画像検出モジュール１１０は、シーン及び／又はシーン内のオブジェクトにおけるバリエーションを検出するように構成することができる。シーン内のオブジェクトが人の顔である場合、画像検出モジュール１１０は、人の顔に関連する顔のランドマークを検出するように構成することができる。代替的に、又は追加的に、画像検出モジュール１１０は、人の顔に関連するAUを検出するように構成することができる。顔のランドマークは、画像検出モジュール１１０を使用して検出され得る、人の顔の様々な部分及び／又は人の顔の識別可能な特徴を指すことができる。例えば、顔のランドマークは、限定されるものではないが、眉、目の内側／外側の隅、鼻の穴、唇、赤唇の縁、及び／又は人の顔の他の識別可能な部分を含むことができる。AUは、顔の表情、人の顔の下にある筋肉、顔のランドマーク、及び／又は上記のいずれかに関連する変化に関連する、人の顔の可動部分を指すことができる。例えば、第１AUは外側の眉上げ、第２AUは頬上げ、第３AUは唇の角を引っ張るなどである。幾つかの実施形態では、画像検出モジュール１１０を使用して検出されたAUは、個々のAUを識別するコードを使用して分類することができる。例えば、内側眉上げはAU１であってもよく、外側眉上げはAU２であってもよく、眉下げはAU４であってもよく、以下同様である。幾つかの実施形態では、AUに関連するコードは、人間の顔上の外観に基づく人間の顔の動きの分類法である顔動作コードシステムに従っていてもよい。

【0027】

幾つかの実施形態では、AUは、与えられた人間の顔にAUがどの程度適用されるかを記述し得る、関連するAU強度を含んでもよい。例えば、外側の眉が可能な限り上昇している場合（例えば、与えられた人間の顔に対して）、関連するAU（例えば、外側眉上げ）は、最大強度値であってもよい。幾つかの実施形態では、AU強度は、最小強度値から最大強度値までのスケールであってもよい。AU強度は、最小強度値（例えば、AUに関連する顔面筋に関連したニュートラルな表情）、第１増分、第２増分など、最大強度値（例えば、人間の顔が顔の表情を表すことができる限り、及び／又は関連する顔の筋肉が収縮及び／又は弛緩することができる限り）までの所定の値であってもよい。幾つかの実施形態では、そのような値は、０（AUのニュートラルな表情／不存在）から５（最大強度）までであってもよい。代替的に、又は追加的に、AU強度は、上述のように、最小強度値と最大強度値の間で連続であってもよい。幾つかの実施形態では、画像検出モジュール１１０は、データソース１０５からの第１データのフレーム内で検出されたAU強度に基づいて、個々のAU強度の最小強度値及び／又は最大強度値を決定することができる。例えば、第１AUは、第１データの１つ以上のフレーム内の人間の顔に対して検出され、１つ以上のフレーム内で検出された第１AUの最小強度値及び最大強度値に基づいて、AUに関連する最小強度値及び最大強度値を決定することができる。これら又は他の実施形態では、画像検出モジュール１１０は、人間の顔に関連付けられた１つ以上のAU、個々のAUに関連付けられたAU強度、及び／又は１つ以上のAUブロックを得るように構成することができ、ここで、個々のAUブロックは、AUと関連付けられたAU強度の組み合わせであってもよい。

【0028】

幾つかの実施形態では、ニューラルネットワークアーキテクチャ１１５は、少なくとも顔のランドマーク、AU、AUに個別に関連付けられたAU強度、及び／又はAUブロックを含む、画像検出モジュール１１０からの１つ以上の出力を得ることができる。幾つかの実施形態では、ニューラルネットワークアーキテクチャ１１５は、複数フレームのうちの隣接フレーム内のAUに関連して導入されたノイズを低減することができるように、第１データの複数フレーム内で検出された少なくともAUにフィルタを適用するように構成することができる。例えば、Savitzky-Golayフィルタは、ニューラルネットワークアーキテクチャ１１５によって適用することができ、これは、第１データの複数フレームのうちの隣接フレーム間のAUを平滑化することができる。

【0029】

幾つかの実施形態では、ニューラルネットワークアーキテクチャ１１５を使用して第１データに含まれる複数のフレームを処理することは、計算が複雑であり、及び／又は時間集約的であり得る。複数のフレームを処理することは、第１データに関連してニューラルネットワークアーキテクチャ１１５を使用して実行される様々な機能を含む場合があり、これらの機能は、本開示に記載されているように、すべて、AUのフィルタリング、顔のランドマークに関連する１つ以上の意味マスクの決定、顔ハイパースペースの決定、合成画像の生成、及び／又は他の処理機能を含み得るが、これらに限定されない。

【0030】

幾つかの実施形態では、ニューラルネットワークアーキテクチャ１１５は、ニューラルネットワークアーキテクチャ１１５が複数のフレームの一部に対して処理を実行できるように、第１データに含まれる複数のフレームの一部をサンプリングするように構成することができる。幾つかの実施形態では、サンプリングされたフレームの数は、第１データに含まれる複数のフレームの数より少なくてもよいので、サンプリングされたフレームは、ニューラルネットワークアーキテクチャ１１５によってサンプリングされたフレームを処理するための計算複雑性及び／又は時間の量を低減することができる。

【0031】

幾つかの実施形態では、サンプリングされたフレームは、ニューラルネットワークアーキテクチャ１１５を用いた複数のフレームの一様なサンプリングから得ることができる。例えば、ニューラルネットワークアーキテクチャ１１５は、所定の数のフレームから１つのフレームをサンプリングし、サンプリングされたフレームが得られるまでサンプリングプロセスを繰り返すことができる。代替的に、又は追加的に、ニューラルネットワークアーキテクチャ１１５は、複数のフレームのバランスのとれたサンプリングからサンプリングされたフレームを得るように構成されてもよい。例えば、ニューラルネットワークアーキテクチャ１１５は、AUブロック（例えば、AUと関連するAU強度の組み合わせ）に基づいてソート操作を実行し、複数のフレームの順序に基づいてソートされたAUブロックを配置し（例えば、フレームに関連付けられたフレーム番号、フレームに関連付けられたタイムスタンプなど）、ニューラルネットワークアーキテクチャ１１５は、ソートされて配置されたAUブロックから１つ以上のフレームをサンプリングしてもよい。代替的に、又は追加的に、ニューラルネットワークアーキテクチャ１１５は、すでにサンプリングされている可能性のある複数のフレームのうちの１つ以上のフレームを削除するように構成されてもよい。例えば、フレームが複数のソートされたAUブロックに含まれ（例えば、フレームはAU以上のバリエーションを含む）、第１ソートされたAUブロックからサンプリングされる場合、サンプリングされたフレームが２回サンプリングされないように、サンプリングされたフレームが後続のAUブロックから削除されてもよい。幾つかの実施形態では、複数のフレームのバランスのとれたサンプリングは、ニューラルネットワークアーキテクチャ１１５を使用してサンプリングされたフレームを処理するための計算複雑性の減少及び／又は時間量の減少をもたらし、複数のフレームの均一なサンプリングと比較して、サンプリングされたフレーム間のより均一なAU強度分布をもたらす。

【0032】

幾つかの実施形態では、ニューラルネットワークアーキテクチャ１１５は、第１データ及び／又は第１データに含まれる人間の顔に関連する１つ以上の意味マスクを生成するように構成され得る。幾つかの実施形態では、意味マスクは自動的にニューラルネットワークアーキテクチャ１１５として生成され得る。例えば、少なくとも顔のランドマークを含む画像検出モジュール１１０からの出力の受信に応答して、ニューラルネットワークアーキテクチャ１１５は、少なくとも顔のランドマークに基づいて１つ以上の意味マスクを自動的に生成し得る。幾つかの実施形態では、意味マスクは、第１データに含まれる人間の顔及び／又は画像検出モジュール１１０を用いて検出される顔のランドマークに関連付けられ得る。

【0033】

幾つかの実施形態では、意味マスクは、１つ以上の所定の顔のランドマークに基づいて自動的に生成され得る。例えば、顔のランドマークは、コード（例えば、本明細書に記載されているようなAUに類似する）を使用して分類することができ、顔のランドマークのセットは、意味マスクを形成するために一緒にグループ化することができる。幾つかの実施形態では、意味マスクの数は、顔のランドマークの所定のグループ化を使用するなど、予め決められてもよい。例えば、３つの意味マスクを含む実施形態では、第１意味マスクは、眉の下部より上及び鼻梁部分の上にある人間の顔の部分を含み、第２意味マスクは、目、頬／頬骨、及び鼻梁を含み、第３意味マスクは、鼻の下部、口、及び顎を含み得る。例えば、図４は、本明細書に提供される例による人間の顔に適用されるマスクの例を示す。代替的に、又は追加的に、人間の顔に適用され得る意味マスクの数は、例えば、意味マスクに含まれる様々な顔のランドマークを識別することによって、ニューラルネットワークアーキテクチャ１１５において構成可能であり得る。これら又は他の実施形態において、意味マスクは、人間の顔の一部に関連した境界を定義し得るが、ここで、境界は、複数の意味マスクが存在する場合に、意味マスク間の分離を含み得る。

【0034】

これら又は他の実施形態において、AUは、人間の顔及び／又は意味マスクに関連したAUの位置に基づいて、生成された意味マスクに自動的に割り当てられ得る（例えば、AUが第１意味マスクに関連する境界内にある場合には、AUは第１意味マスクに割り当てられてもよい）。例えば、AU１及びAU２（例えば、本明細書に記載されているように）は、第１意味マスク（例えば、眉に関連する意味マスク）に割り当てられ得るし、AU６（頬上げに関連する）は、第２意味マスクに割り当てられ得るし、AU１７（顎上げに関連する）は、第３意味マスクに割り当てられ得るし、等々である。これら又は他の実施形態において、AUは、人間の顔に対するAUの位置及び人間の顔に対する意味マスクの位置に基づいて、関連する意味マスクに割り当てられ得る。

【0035】

幾つかの実施形態において、ニューラルネットワークアーキテクチャ１１５は、本明細書に記載されるように、ハイパースペースで使用するために、個々のAUのAU強度を正規化するように構成され得る。例えば、ニューラルネットワークアーキテクチャ１１５は、AU強度（例えば、０から５のような最小強度値と最大強度値の間の強度範囲であってもよい）を－１と１の間の制御値となるように正規化することができる。幾つかの実施形態において、ニューラルネットワークアーキテクチャ１１５は、AU強度を正規化するために次の方程式を使用することができる：

【数1】

ここで、AU’は正規化されたAU強度であり、AUはAU強度であり、AU_minは最小強度値であり、AU_maxは最大強度値であり、αは最大強度値を調整するための因子であり得る。例えば、αはAU_min／AU_maxよりも大きく、０.４、０.５、０.８など、１以下の任意の値であり得る。

【0036】

これら又は他の実施形態では、ニューラルネットワークアーキテクチャ１１５は、第１データの複数のフレーム、意味マスク、及び／又はAU（これらは、本明細書に記載されているように、AU、AU強度及び／又はAUブロックであってもよい）を得るように構成され得るし、ニューラルネットワークアーキテクチャ１１５は、顔ハイパースペースを構築するように構成され得る。幾つかの実施形態では、顔ハイパースペースを構築するニューラルネットワークアーキテクチャ１１５は、ニューラルラディアンスフィールド（NeRF）、トポロジの変化するニューラルラディアンスフィールドのための高次元表現（HyperNeRF）、制御可能なニューラルラディアンスフィールド（CoNeRF）などのニューラルラディアンスフィールド及び／又はその変形を介して構成され得る。代替的に、又は追加的に、顔ハイパースペースを構築するニューラルネットワークアーキテクチャ１１５は、図２及び図３に関連して図示及び説明されるようなネットワークアーキテクチャを介するものであってよい。

【0037】

幾つかの実施形態では、顔ハイパースペースは、少なくとも時間次元及び／又はらラディアンス次元を含み得る多数の次元フィールドの表現を表し得る。例えば、３D光線は、３D光線に関連する３D点及び２つの軸角光線方向を有する５D表現に変換され得る。幾つかの実施形態では、本開示に記載されているように、顔ハイパースペース表現は、表現及び／又はキャプチャされるべき動的オブジェクトにおけるトポロジ的変化をサポートし得る。幾つかの実施形態では、ハイパースペースは、人間の顔のような入力画像の（例えば、２Dの）トポロジ的変化を表すことができ、ここで、トポロジ的変化は、入力画像の特徴／属性に対する変化を含むことができ、及び／又は顔ハイパースペースのトポロジ的変化は、入力画像のより現実的なレンダリングを生成するために使用することができる。例えば、人間の顔のための顔ハイパースペースのトポロジ的変化は、顔の特徴に対する変化（例、眉を上げる、口を開ける、唇をすぼめるなど）を含むことができ、その結果、顔ハイパースペースは、トポロジ的変化の多くの反復を含むことができ、トポロジ的変化における顔の特徴に基づく現実的な表現を有する合成の人間の顔（例えば、本明細書に記載されるようなアバター）をレンダリングするためにその後使用することができる。一般に、顔ハイパースペースは、３D点と、３D点に関連することができる可変数のパラメータ（例えば、次元）の集合であることができる。

【0038】

幾つかの実施形態では、ニューラルネットワークアーキテクチャ１１５は、第１データに含まれる人間の顔に類似する合成画像を生成するように構成され得る。ニューラルネットワークアーキテクチャ１１５は、複数のフレームのうちのフレーム（例えば、入力フレーム又は入力された顔）からのように、第１データに含まれる人間の顔に基づいて合成画像を生成し得る。例えば、ニューラルネットワークアーキテクチャ１１５は、合成画像のための初期画像として人間の顔を含む個々のフレームを取得し、使用し得る。代替的に、又は追加的に、ニューラルネットワークアーキテクチャ１１５は、入力顔に関連するAU強度に対応する１つ以上の入力を取得し得る。ニューラルネットワークアーキテクチャ１１５は、（例えば、複数のフレームのうちのフレームに含まれる）入力顔及びAU強度の組み合わせを使用して合成画像を生成するように構成され得るので、合成画像は、入力顔に類似して見え（例えば、入力顔が第１人物に関連付けられている場合には、合成画像は、第１人物に類似する外観を有することができる）、及び／又は入力顔と類似した又は異なる顔の表情を含み得る。例えば、入力顔は、第１表情（例、目を開け口を閉じる）を含み得るし、ニューラルネットワークアーキテクチャ１１５は、第２表情（例、目を閉じて口を開ける）を有する類似した人間の顔の合成画像を生成し得る。

【0039】

幾つかの実施形態において、表示装置１２０は、ニューラルネットワークアーキテクチャ１１５から合成画像を取得し得るし、合成画像を表示し得る。表示装置１２０における合成画像の表示は、第１データに含まれる人間の顔のアバターであってもよい。幾つかの実施形態では、表示装置１２０上で表示されるアバターは、入力顔及び／又はニューラルネットワークアーキテクチャ１１５によって得られるAU強度に関連付けられる第１表現を有することができる。

【0040】

幾つかの実施形態では、アバターに関連付けられた表現は、入力顔及び／又はAU強度を含むニューラルネットワークアーキテクチャ１１５への入力に対する１つ以上のバリエーションによって修正されることができる。例えば、１つ以上のAU強度が修正され、表示装置１２０上で表示されるアバターは、それに応じて更新されることができる。幾つかの実施形態では、第１AU強度に対する修正は、第２AU強度に対する修正とは独立してアバターに反映され得る。例えば、AU１（例えば、内眉上げ）に関連するAU強度に対する修正は、アバターにおける表情の変化を引き起こし得るし、AU２（例えば、外側眉上げ）に関連するアバターの部分は変化しないままであり得る。代替的に、又は追加的に、第１AU強度に対する修正（例えば、アバターに関連付けられた顔の表情を修正することができる）は、第１AU強度に関連してもしなくてもよい第２AU強度に対する修正、及び／又はアバターの表情に対する修正を引き起こし得る。例えば、AU６（例えば、頬上げ）に関連するAU強度に対する修正は、AU１２（例えば、唇角を引っ張る）に関連するAU強度に対する修正を引き起こし得るが、その後、アバターの表情に対する修正を引き起こし得る。幾つかの実施形態において、第２AU強度に対する修正を引き起こし得る第１AU強度に対する修正は、感情（例えば、幸福感はAU６及びAU１２と関連している可能性がある）、関連する表情筋等に関連し得る。

【0041】

幾つかの実施形態において、第１アバター（例えば、入力データに含まれる人の顔の表情）に対応する表現は、表示装置１２０上のような表示のために第２アバターにコピー及び／又は転送され得る。例えば、第１アバターに対応する第１表現は、本明細書に記載されるように、１つ以上のAU、１つ以上の関連するAU強度、及び／又は１つ以上のAUブロックを含む表現の描写によって記述することができる。第１アバターに関連する表現の描写を使用して、第１表現は、例えば、第２アバターに表現の描写を転送及び／又は適用することによって、第２アバターに適用することができる。そのような実施形態では、第１アバター（例えば、第１の人間の顔に関連する）の表現は、第１アバター及び第２アバターが実質的に類似した表現（例、口を閉じた微笑、しかめっ面など）を有することができるように、（例えば、第２の人間の顔に関連する）第２アバターに適用することができる。

【0042】

変更、追加、又は省略が、本開示の範囲から逸脱することなく環境１００に対して行われてよい。例えば、幾つかの実施形態では、画像検出モジュール１１０及びニューラルネットワークアーキテクチャ１１５は、本明細書に記載されるように、ニューラルネットワークアーキテクチャ１１５が画像検出モジュール１１０に関連する機能の一部又は全部を実行するように構成されるように組み合わせてもよい。代替的に、又は追加的に、幾つかの実施形態では、環境１００は、明示され又は記載されないことのある任意の数の他のコンポーネントを含んでよい。

【0043】

図２は、本開示の少なくとも１つの実施形態に従って、アバター制御をサポートするように構成された例示的なネットワークアーキテクチャ２００のブロック図である。ネットワークアーキテクチャ２００は、潜在ニューラルネットワーク２１０、座標ニューラルネットワーク２２０、ハイパースペースニューラルネットワーク２２５、第１属性ニューラルネットワーク２３０、第n属性ニューラルネットワーク２３５、第１ニューラルネットワーク２４５、及び第２ニューラルネットワーク２６０を含むことができる。

【0044】

幾つかの実施形態では、潜在ニューラルネットワーク２１０、座標ニューラルネットワーク２２０、ハイパースペースニューラルネットワーク２２５、第１属性ニューラルネットワーク２３０、第n属性ニューラルネットワーク２３５、第１ニューラルネットワーク２４５、及び／又は第２ニューラルネットワーク２６０（まとめてアバターニューラルネットワークと称する）は、フィードフォワード人工ニューラルネットワークであってもよく、アバターニューラルネットワークに含まれるノードは非巡回であってもよい。例えば、アバターニューラルネットワークは、単層パーセプトロンネットワーク、多層パーセプトロンネットワーク、有向非巡回グラフネットワーク、及び／又は任意の他のフィードフォワード人工ニューラルネットワークを含むことができる。

【0045】

幾つかの実施態様において、潜在ニューラルネットワーク２１０は、潜在変形コード２０５を得ることができる。幾つかの実施態様において、潜在変形コード２０５は、画像２１５に関連付けられ得る数値及び／又は画像から得られる数値であり得る。潜在変形コード２０５は、画像２１５に関して得られたデータを用いて画像２１５の少なくとも一部を再生成するために使用され得る。例えば、潜在変形コード２０５は、画像２１５に関連するデータから画像２１５の一般化された部分を表す及び／又は再構成するために使用され得る。幾つかの実施形態では、潜在変形コード２０５は、画像２１５のビデオキャプチャに関連するフレーム番号に関連し得る。例えば、画像２１５は、画像２１５のビデオのフレーム番号であり得る。別の例では、潜在変形コード２０５は、画像２１５のビデオの個々のフレームのタイムスタンプであり得る。

【0046】

幾つかの実施形態では、画像２１５は、図１のデータソース１０５からの第１データと同一又は類似であり得る。したがって、画像２１５は、限定されるものではないが、１つ以上の画像、ビデオストリーム、及び／又はシーンから撮影された複数のフレームを含むことができるシーンの他の表現を含むことができる。幾つかの実施形態では、画像２１５は、画像２１５に関連する個々の点及び／又は光線が、本明細書に記載されているように、１つ以上のアバターニューラルネットワークによる処理において使用され得るようにサンプリングされ得る。

【0047】

幾つかの実施形態では、潜在ニューラルネットワーク２１０は、画像２１５に関連付けられた１つ以上の属性を出力することができる。幾つかの実施形態では、潜在ニューラルネットワーク２１０からの属性は、図１に関連して記述されたAUに関連することができる。幾つかの実施形態では、潜在ニューラルネットワーク２１０から出力された個々の属性は、対応する属性ニューラルネットワークに入力することができる。例えば、潜在ニューラルネットワーク２１０からの第１属性出力は、第１属性ニューラルネットワーク２３０に入力することができ、同様に、潜在ニューラルネットワーク２１０からの第n属性出力までが、第n属性ニューラルネットワーク２３５に入力することができる。幾つかの実施形態では、属性は、AU及び／又はAU強度のような、画像２１５に関連する局所属性に関連付けられる対応する強度値を含むことができる。

【0048】

幾つかの実施形態では、座標ニューラルネットワーク２２０は、潜在変形コード２０５及び／又は画像２１５（画像２１５の一部を含むことができる）を得ることができる。幾つかの実施形態では、潜在変形コード２０５と画像２１５を一緒に連結し、座標ニューラルネットワーク２２０によって得ることができる。幾つかの実施形態では、画像２１５から座標ニューラルネットワーク２２０への入力は、サンプル画像座標と呼ばれる、画像２１５からの点（例えば、画素）、画像２１５からの点に関連する光線、及び／又はそれらの組み合わせを含むことができる。例えば、座標ニューラルネットワーク２２０への入力は、潜在変形コード２０５と連結された、３D位置（例えば、x座標、y座標、z座標）及び２D視野方向（例えば、原点（これは、x座標、y座標、及びz座標を有する、サンプル画像座標の３D位置であってもよい）と方向）を含むサンプル画像座標を含むことができる。

【0049】

幾つかの実施形態では、座標ニューラルネットワーク２２０からの出力は、次式によって得られるワーピングされた（warped）座標を含むことができる：

【数2】

ここで、x’はワーピングされた座標であってもよく、xはサンプル画像座標であってもよく、ω_iは潜在変形コード２０５であってもよく、Tは座標ニューラルネットワーク２２０であってもよい。幾つかの実施形態では、ワーピングされた座標は、本明細書に記載される他の要素の中で、顔ハイパースペース２４０の少なくとも一部として含まれてもよい。例えば、ワーピングされた座標は、顔ハイパースペース２４０内の座標であってもよい。

【0050】

ハイパースペースニューラルネットワーク２２５は、ハイパースペースニューラルネットワーク２２５がサンプル画像座標及び／又は潜在変形コード２０５を入力として得ることができる点で、座標ニューラルネットワーク２２０と類似していてもよい。幾つかの実施形態では、潜在変形コード２０５とサンプル画像座標を一緒に連結し、ハイパースペースニューラルネットワーク２２５によって得ることができる。代替的に、又は追加的に、潜在変形コード２０５と画像２１５を一緒に連結し、その結果を座標ニューラルネットワーク２２０とハイパースペースニューラルネットワーク２２５の両方によって得ることができる。

【0051】

幾つかの実施形態では、ハイパースペースニューラルネットワーク２２５からの出力は、次式によって得られるハイパースペースコードを含むことができる：

【数3】

ここで、wはハイパースペースコードであり、xはサンプル画像座標であり、ω_iは潜在変形コード２０５であり、Hはハイパースペースニューラルネットワーク２２５であり得る。幾つかの実施形態において、ハイパースペースコードは、顔ハイパースペース２４０の構成要素として含まれ得る。例えば、ハイパースペースコードは、顔ハイパースペース２４０に含まれ得る周囲空間における座標を表すことができ、ハイパースペースコードは、アバターの１つ以上の部分をレンダリングするために使用され得る１つ以上の色及び／又は１つ以上の密度を決定するなど、アバターの生成に関連する様々な操作において使用され得る。

【0052】

幾つかの実施形態において、潜在ニューラルネットワーク２１０から出力される属性に関連するニューラルネットワーク（例えば、第１属性ニューラルネットワーク２３０から第n属性ニューラルネットワーク２３５を含む）は、入力として潜在ニューラルネットワーク２１０からの各々の属性及び／又はサンプル画像座標を得ることができる。幾つかの実施形態において、各々の属性及びサンプル画像座標は一緒に連結され、各々第１属性ニューラルネットワーク２３０及び／又は第n属性ニューラルネットワーク２３５によって得ることができる。例えば、第１属性ニューラルネットワーク２３０はサンプル画像座標及び第１属性の連結を得ることができ、n番目の属性ニューラルネットワーク２３５はサンプル画像座標及び第n属性の連結を得ることができる。

【0053】

幾つかの実施形態では、第１属性ニューラルネットワーク２３０及び／又は第n属性ニューラルネットワーク２３５からの出力は、次式によって得られるハイパースペース属性コードを含むことができる：

【数4】

ここで、w_iは第n属性のハイパースペース属性コードであり、xはサンプル画像座標であり、潜在ニューラルネットワーク２１０からの第i属性（第n属性までを含む）であり、H_iは第i属性ニューラルネットワーク（例えば、iは、第１属性ニューラルネットワーク２３０から第n属性ニューラルネットワーク２３５まで変化することができる）であり得る。幾つかの実施形態において、ハイパースペース属性コードは、顔ハイパースペース２４０の１つ以上の構成要素として含まれ得る。代替的に、又は追加的に、ハイパースペース属性コードは、図３のネットワークアーキテクチャ３００に関連して説明されるような、１つ以上の追加のニューラルネットワークによって、さらに処理され得る。

【0054】

幾つかの実施形態では、顔ハイパースペース２４０は、ワーピングされた座標に関連する１つ以上の次元、ハイパースペースコードに関連する１つ以上の次元、及び／又はハイパースペース属性コードに関連する１つ以上の次元を使用して形成され得る多次元ベクトルであり得る。例えば、顔ハイパースペース２４０内の点は、本明細書に記載されるように、ワーピングされた座標に関連するx、y、及びz座標、ハイパースペースコードに関連するw_０座標、及び／又はハイパースペース属性コードに関連するw_i．．．w_n座標を含むことができる。

【0055】

幾つかの実施形態において、第１ニューラルネットワーク２４５は、顔ハイパースペース２４０ベクトル（例えば、ワーピングされた座標、ハイパースペース符号、及び／又はハイパースペース属性符号）の要素を得ることができ、密度２５０を出力することができ、ここで、密度２５０は、本明細書に記載されるように、合成画像及び／又はアバターを生成する際に使用される色（例えば、色密度）に関連することができる。幾つかの実施形態では、密度２５０を第１ニューラルネットワーク２４５から出力することができ、ここで密度２５０は次式によって得られる：

【数5】

ここで、σは密度２５０であってもよく、x’はワーピングされた座標であってもよく、Wはワーピングされた座標を含まない顔ハイパースペース２４０の要素であってもよく、Fは第１ニューラルネットワーク２４５であってもよい。

【0056】

幾つかの実施態様において、第２ニューラルネットワーク２６０は、第１ニューラルネットワーク２４５の出力を得ることができ、色２６５を出力することができ、ここで、色２６５は、本明細書に記載されるように、合成画像及び／又はアバターを生成する際に使用される色であってもよい。代替的に、又は追加的に、第２ニューラルネットワーク２６０は、色２６５を決定する際に第２ニューラルネットワーク２６０によって使用され得る１つ以上のNeRF入力２５５を得ることができる。幾つかの実施形態では、NeRF入力２５５は、潜在的な外観コード及び／又は視野方向を含むことができ、視野方向は、ネットワークアーキテクチャ２００によって生成され得る合成画像及び／又はアバターに関連付けられ得る。幾つかの実施形態では、色２６５は、第２ニューラルネットワーク２６０から出力され得るが、ここで、色２６５は、次式によって得られる：

【数6】

ここで、cは、色２６５であってもよく、F’は、（例えば、x’、ワーピングされた座標及びW、顔ハイパースペース２４０の要素に基づく）第１ニューラルネットワーク２４５からの出力であってもよく、dは、視野方向であってもよく、ψは、潜在的な外観コードであってもよく、Gは、第２ニューラルネットワーク２６０であってもよい。幾つかの実施形態では、第１ニューラルネットワーク２４５からの出力、視野方向、及び／又は潜在的な外観コードは、一緒に連結され、第２ニューラルネットワーク２６０に入力されてもよい。

【0057】

幾つかの実施形態では、密度２５０及び／又は色２６５は、表示装置上で表示するためのアバターを生成するために使用されてもよい。幾つかの実施形態では、密度２５０及び／又は色２６５に基づくアバターは、画像２１５に類似していてもよい。代替的に、又は追加的に、アバターは、ネットワークアーキテクチャ２００内で入力及び／又は選択され得る様々な属性に基づいて、異なる顔の表情など、画像２１５からの１つ以上の相違点を含むことができる。

【0058】

幾つかの実施形態では、第１の人間の顔に関連付けられたアバター（例えば、ネットワークアーキテクチャ２００に入力されたかもしれない第１の人間の顔を描くアバター）が一旦生成されると、生成されたアバターに関連付けられたAU、AU強度、及び／又はAUブロックが第２の人間の顔にコピー及び／又は使用され、第１の人間の顔に関連付けられた表情が第２の人間の顔を描写するアバターに複製され得る。例えば、AU、AU強度、及び／又はAUブロックが第１の人間の顔（例えば、第１の人間の顔を描いたアバターなど）に関連して検出され、検出された値（例えば、AU、AU強度及び／又はAUブロック）が第２の人間の顔を描写する第２アバターに適用され得るので、第１の人間の顔に関連付けられた表情が第２の人間の顔を描写する第２アバターに転送され得る。

【0059】

変更、追加、又は省略が、本開示の範囲から逸脱することなくネットワークアーキテクチャ２００に対して行われてよい。例えば、幾つかの実施形態では、ネットワークアーキテクチャ２００は、明示され又は記載されないことのある任意の数の他のコンポーネントを含んでよい。

【0060】

図３は、本開示の少なくとも１つの実施形態に従って、アバター制御をサポートするように構成された例示的なネットワークアーキテクチャ３００のブロック図である。ネットワークアーキテクチャ３００は、不確実性ニューラルネットワーク３２０及び第１属性ニューラルネットワーク３３０を含むことができる。幾つかの実施形態において、ネットワークアーキテクチャ３００は、ハイパースペースコード３０５、ワーピングされた座標３１０、ハイパースペース属性コード３１５、マスク３３５、不確実性値３２５、最終ハイパースペース属性コード３４０、ハイパースペースマスク３４５、及び最終ハイパースペースコード３５０のようなデータの様々な構成要素を利用し、生成し、及び／又は作用することができる。

【0061】

幾つかの実施形態において、不確実性ニューラルネットワーク３２０及び／又は第１属性ニューラルネットワーク３３０はフィードフォワード人工ニューラルネットワークであってもよく、不確実性ニューラルネットワーク３２０及び／又は第１属性ニューラルネットワーク３３０に含まれるノードは非巡回であってもよい。例えば、不確実性ニューラルネットワーク３２０及び／又は第１属性ニューラルネットワーク３３０は、単層パーセプトロンネットワーク、多層パーセプトロンネットワーク、有向非巡回グラフネットワーク、及び／又は任意の他のフィードフォワード人工ニューラルネットワークを個別に含むことができる。

【0062】

幾つかの実施形態では、不確実性ニューラルネットワーク３２０は、ハイパースペース符号３０５、ワーピングされた座標３１０、及び／又は１つ以上のハイパースペース属性コード３１５を得ることができる。幾つかの実施形態では、ハイパースペースコード３０５は、図２のハイパースペースニューラルネットワーク２２５からの出力のようなニューラルネットワークから得ることができる。幾つかの実施形態では、ワーピングされた座標３１０は、図２の座標ニューラルネットワーク２２０からの出力のようなニューラルネットワークから得ることができる。幾つかの実施形態では、ハイパースペース属性コード３１５は、図２の第１属性ニューラルネットワーク２３０及び／又は第n属性ニューラルネットワーク２３５からの出力のような、１つ以上のニューラルネットワークから得ることができる。

【0063】

幾つかの実施形態では、不確実性ニューラルネットワーク３２０は、不確実性値３２５を出力するように構成することができる。幾つかの実施形態では、不確実性値３２５は、ネットワークアーキテクチャ３００に含まれる属性と関連付けられることができる。例えば、図２のネットワークアーキテクチャ２００に関して説明されているように、ハイパースペース属性コード（例えば、ハイパースペース属性コード３１５）は、属性入力に基づいて、第１属性ニューラルネットワーク２３０から得ることができる。このように、ハイパースペース属性コード３１５は、ネットワークアーキテクチャ３００及び／又は図２のネットワークアーキテクチャ２００のようなネットワークアーキテクチャにおける属性に個別に関連付けられることができる。これら又は他の実施形態では、不確実性値３２５を使用して、ネットワークアーキテクチャ３００に含まれる１つ以上のAU間の潜在的ノイズを低減することができる。例えば、第１不確実性値を（例えば、それは第１属性と関連し得る）第１AUに対して決定し、第２不確実性値を第２AUに対して決定することができ、ここで、第１不確実性値及び／又は第２不確実性値は、各々の属性（例えば、第１属性に対する第１不確実性値及び第２属性に対する第２不確実性値）に対する他の属性のノイズの低減に寄与することができる。これら又は他の実施形態では、不確実性値３２５は、以下の式によって得ることができる：

【数7】

ここで、β_iは不確実性値３２５であってもよく、x’はワーピングされた座標３１０であってもよく、w_０はハイパースペース符号３０５であってもよく、w_iはハイパースペース属性符号３１５であってもよく、第i属性コードの各々は、第i属性に関連付けられてもよく、B_iは不確実性ニューラルネットワーク３２０であってもよい。

【0064】

幾つかの実施形態では、第１促成ニューラルネットワーク３３０は、ハイパースペース符号３０５、座標３１０、及び／又は１つ以上のハイパースペース属性コード３１５を得ることができる。幾つかの実施形態では、第１属性ニューラルネットワーク３３０は、マスク３３５を出力するように構成することができる。マスク３３５は、本明細書の図１に関連して記載されているように、意味マスクと関連させることができる。幾つかの実施形態では、マスク３３５は、第１データからの１つ以上の属性（例えば、人間の顔に関連する属性）と関連させることができる。例えば、図１に関連して説明されるように、複数のAUが単一の意味マスクに関連されるのと同様に、複数の属性がマスク３３５に関連させることができる。これらの又は他の実施形態では、マスク３３５は、マスク３３５に含まれない属性によって引き起こされ得る効果を低減及び／又は打ち消すように構成することができる。例えば、第１属性が意味マスクに含まれ、第２属性が意味マスクに含まれない場合、マスク３３５は、第１属性に対して第２属性によって引き起こされる効果を除去することができる。幾つかの実施形態では、マスク３３５は、次式によって得られる：

【数8】

ここで、m_jはマスク３３５であり、x’はワーピングされた座標３１０であり、w_０はハイパースペースコード３０５であり、w_j１....w_jpはハイパースペース属性コード３１５であり、M_jは第１属性ニューラルネットワーク３３０である。

【0065】

幾つかの実施形態では、ハイパースペース属性コード３１５をマスク３３５と組み合わせて、最終的なハイパースペース属性コード３４０を得ることができる。幾つかの実施形態では、最終的なハイパースペース属性コード３４０を、図２の顔ハイパースペース２４０のような顔ハイパースペースの１つ以上の構成要素として含めることができる。幾つかの実施形態では、最終的なハイパースペース属性コード３４０は、次式で示されるハイパースペース属性コード３１５とマスク３３５との間のピクセル単位の乗算によって得ることができる：

【数9】

ここで、w’_iは最終的なハイパースペース属性コード３４０であってもよく、w_iはハイパースペース属性コード３１５であってもよく、そしてm_jはマスク３３５（例えば、属性が関連し得るマスク）であってもよい。

【0066】

幾つかの実施態様において、ハイパースペースマスク３４５は、ハイパースペースコード３０５及びマスク３３５を得ることができ、最終的なハイパースペースコード３５０を出力することができ、ここで、最終的なハイパースペースコード３５０は、図２の顔ハイパースペース２４０のような顔ハイパースペースに含まれるハイパースペース値であってもよい。幾つかの実施態様において、ハイパースペースマスク３４５は、ハイパースペースマスク３４５が入力として複数のマスクを含むことができるように、属性に関連付けられ得るマスク３３５を得ることができる。幾つかの実施態様において、最終的なハイパースペースコード３５０を決定することは、マスク３３５の組み合わせとハイパースペースコード３０５とを乗算することによって得られ、以下の式によって示される：

【数10】

ここで、w_０’は最終的なハイパースペースコード３５０であってもよく、w０はハイパースペースコード３０５であってもよく、millionはn番目のマスク３３５であってもよい（n個のマスクの総和から１を引いたものをハイパースペースコード３０５と乗算してもよい）。幾つかの実施形態では、ハイパースペースコード３０５（例えば、w_０）と、１からn個のマスクの総和を引いた値との乗算は、ピクセル単位の乗算であってもよい。

【0067】

これら又は他の実施形態では、マスクフィールドは、ボリュームレンダリング技術を使用し、第１データ（例えば、人の顔の画像）の一部に関連する少なくとも光線、色密度（例えば、図２の密度２５０など）、及び第１データに関連するマスク３３５を使用して、合成画像にレンダリングされてもよい。マスクフィールドは、次式を使用してレンダリングされてもよい：

【数11】

ここで、Mは原点θを有する光線rから見たマスクフィールドであり、Tは時間tの関数としての密度σと光線rに基づく計算値であり、σは光線rの関数としての密度であり、mは光線rと光線方向dの関数としてのマスクであってもよい。代替的に、又は追加的に、マスクフィールドは光線の境界にわたって決定され、近接境界t_n及び遠境界t_fとして表される。計算値Tは、次式を使用して決定できる：

【数12】

ここで、変数は、マスクフィールドに対して上述したものと同じであってもよい。

【0068】

幾つかの実施形態では、入力画像（例えば、第１データに含まれる人の顔）に対する合成画像に関連する１つ以上の損失を決定することができ、及び／又は合成画像を決定するために使用することができるニューラルネットワークを修正するために使用することができる。幾つかの実施形態では、決定された１つ以上の損失は、再構成損失（例えば、入力画像に基づいて合成画像を再構成することに伴う損失）及び／又は制御損失（例えば、合成画像を生成する際に使用される１つ以上のマスク及び／又は１つ以上の属性に関連し得る損失）を含むことができる。図３に関して説明されているが、損失は、図１の環境１００及び／又は図２のアーキテクチャ２００のようなシステム全体の一部であってもよい。幾つかの実施形態では、損失は、一連のトレーニング画像C及び次式が与えられると、決定することができる：

【数13】

ここで、θは、本明細書に記載されるように、合成画像を決定するために使用されるニューラルネットワークに関連するネットワークパラメータであってもよく、μ_cは、潜在変形コード及び／又は潜在的外観コードであってもよい。

【0069】

幾つかの実施形態では、再構成損失（例えば、L_rec）は、２つの部分、つまり入力観察の再構成に関連する一次再構成損失（例えば、L_recon）及び潜在的コードのガウス先行（例えば、L_reg）を含むことができる:。一次再構成損失は、次式を使用して決定することができる：

【数14】

ここで、Cは、原点θを有する光線rが与えられた場合のトレーニング画像の集合であり、C^gtは、各光線rのトレーニング画像の集合のグラウンドトルースであり、一次再構成損失は、光線の集合Rに含まれる各光線rについて合計される。幾つかの実施形態では、ガウス先行は、次式を使用して決定することができる：

【数15】

ここで、μ_cは、本明細書に記載されるように、潜在変形コード及び／又は潜在概観コードであってもよい。

【0070】

代替的に、又は追加的に、制御損失（例えば、L_ctrl）は、２つの部分、つまり属性マスク損失（例えば、L_mask）及び／又は属性値損失（例えば、L_attr）の２つの部分を含むことができる。属性マスク式は次式を使用して決定することができる：

【数16】

ここで、δ_c、aは指示子であり、δ_c、a=１は画像cに対する属性aが提供されることを示し、δ_c、a=０は、代替的に、CEが、グランドトルースマスクフィールドMgtに対するマスクフィールドMの交差エントロピーを表し、第c画像に関連付けられた第a属性は次式はであり得る：

【数17】

幾つかの実施形態では、属性値損失は、次式を使用して決定することができる：

【数18】

ここで、

【0071】

これら又は他の実施形態において、最終損失は、本明細書で決定される個々の損失の合計であってもよい（例えば、．．．）。代替的に、又は追加的に、最終損失は、１つ以上の重み付け係数を含んでもよい。総損失は、次式によって決定することができる：

【数19】

ここで、L_final、L_recon、L_reg、L_mask、及びL_attrは、ここに記載されているように、各々最終損失、一次再構成損失、潜在コード上のGauss prior、属性マスク損失、及び属性値損失であり、w_reg、w_mask、及びw_attrは、対応する損失値に個別に関連付けられた重み付け係数であり得る。幾つかの実施形態では、重み付け係数は、予め定められた値及び／又は固定値、例えば０と１の間の値であり得る。代替的に、又は追加的に、重み付け係数は、入力画像に基づいて合成画像を決定する過程で、例えば１つ以上のニューラルネットワークによって調整され得る。

【0072】

幾つかの実施形態では、既存の方法と比較して、本開示に記載された１つ以上の方法を使用して合成画像を生成する方法は、既存の方法に対する本開示の少なくとも幾つかの改善を示すことができる。例えば、合成画像から得られたAU強度に基づくクラス内相関（ICC）を使用して、本開示（PD）とCoNeRFとを比較すると、以下が得られる：

【表1】

【0073】

PDと既存の方法の間の別の比較では、ピーク信号対雑音比（PSNR）、マルチスケール構造類似性（MS-SSIM）、及び学習された知覚画像パッチ類似性（LPIPS）を使用して、入力データ上のフレーム補間タスクのような画像のレンダリング品質を評価することができる。本明細書に示される比較に含まれる既存の方法は、NeRF、NeRF+Latent、Nerfies、HyperNeRF、CoNeRF-M、及びCoNeRFを含む。

【表2】

【0074】

変更、追加、又は省略が、本開示の範囲から逸脱することなくネットワークアーキテクチャ３００に対して行われてよい。例えば、幾つかの実施形態では、ネットワークアーキテクチャ３００は、明示され又は記載されないことのある任意の数の他のコンポーネントを含んでよい。

【0075】

図４は、本開示の少なくとも１つの実施形態に従って、人間の顔に適用される複数のマスクを含む例示的な環境４００を示す。幾つかの実施形態において、環境４００は、第１意味マスク４０５、第２意味マスク４１０、及び第３意味マスク４１５（総称して意味マスクと呼ばれる）を含むことができる。

【0076】

幾つかの実施形態において、意味マスクは、人間の顔の部分を重ねるなど、人間の顔に関連付けられることができる。幾つかの実施形態において、意味マスクは、本明細書に記載されるようなニューラルネットワークのような装置によって自動的に生成されることができる。幾つかの実施形態において、意味マスクは、本明細書に記載されるように、人間の顔に関して検出された顔のランドマークに基づいて自動的に生成されることができる。３つの意味マスク（例えば、第１意味マスク４０５、第２意味マスク４１０、及び第３意味マスク４１５）として図示されているが、多かれ少なかれ意味マスクは、顔のランドマークの様々なグループに基づいて、人間の顔に関して自動的に生成されることができる。

【0077】

変更、追加、又は省略が、本開示の範囲から逸脱することなく環境４００に対して行われてよい。例えば、幾つかの実施形態では環境アーキテクチャ４００は、明示され又は記載されないことのある任意の数の他のコンポーネントを含んでよい。

【0078】

図５は、本開示の少なくとも一実施形態によるアバター制御の例示的方法５００のフローチャートである。方法５００の１つ以上の動作は、幾つかの実施形態では、装置又はシステム、又は装置又はシステムの組合せによって実行され得る。これら及び他の実施形態では、方法５００は、１つ以上の非一時的コンピュータ可読媒体に格納された命令の実行に基づき実行されてよい。別個のブロックを示したが、種々のブロックは、所望の実装に依存して、追加ブロックに分けられ、少ないブロックに結合され、又は削除されてよい。

【0079】

方法５００は、第１データがデータソース（例えば、図１のデータソース１０５）から取得され得るブロック５０２から開始され得る。幾つかの実施形態では、第１データは、各々が人間の顔を含む複数のフレームを含み得る。幾つかの実施形態では、第１データは、スローモーションビデオ記録であり得る。代替的に、又は追加的に、データソースは、単一のビデオ記録装置であり得る。幾つかの実施形態では、データソースは、第１データを得ることができ、画像検出モジュールは、そこから第１データを得ることができる。

【0080】

ブロック５０４では、画像検出モジュール（例えば、図１の画像検出モジュール１１０）などにより、複数のフレームの各々において、１つ以上の顔のランドマークを自動的に検出することができる。代替的に、又は追加的に、画像検出モジュールにより、複数のフレームの各々において、１つ以上のAUを自動的に検出することができる。これら又は他の実施形態において、１つ以上の顔のランドマーク及び／又は１つ以上のAUは、人間の顔に関連付けられることができる。幾つかの実施形態において、顔のランドマーク及び／又はAUは、画像検出モジュール及び／又は画像検出モジュールに関連付けられたコンピューティング装置によって自動的に検出されることができる。幾つかの実施形態において、画像検出モジュールは、本明細書に記載されているように、ニューラルネットワークアーキテクチャと組み合わせることができる。

【0081】

ブロック５０６において、１つ以上の意味マスクを自動的に生成することができる。幾つかの実施形態において、１つ以上の意味マスクは、少なくとも１つ以上の顔のランドマークに基づくことができ、ここで、１つ以上の意味マスクは、個々に人間の顔に対応することができる。幾つかの実施形態において、１つ以上のAUは、１つ以上の意味マスクの境界に対する１つ以上のAUの位置に基づいて、１つ以上の意味マスクに個別に割り当てられることができる。幾つかの実施形態において、意味マスクは、画像検出モジュールによって自動的に生成されることができる。代替的に、又は追加的に、意味マスクは、ニューラルネットワークアーキテクチャによって自動的に生成されることができる。

【0082】

ブロック５０８では、ニューラルネットワークアーキテクチャ（例えば、図１のニューラルネットワークアーキテクチャ１１５）による少なくとも第１データ、１つ以上のAU、及び／又は意味マスクを使用して、顔ハイパースペースを構築することができる。幾つかの実施形態では、顔ハイパースペースを構築することは、ネットワークアーキテクチャへの第１データ、１つ以上のAU、及び／又は意味マスクを入力することを含むことができる。幾つかの実施形態では、ネットワークアーキテクチャは、少なくとも潜在ニューラルネットワーク、座標ニューラルネットワーク、ハイパースペースニューラルネットワーク、及び／又は属性ニューラルネットワークを含むことができる。代替的に、又は追加的に、ネットワークアーキテクチャは、第１データ、１つ以上のAU、及び／又は意味マスクを使用して最初にトレーニングされ、ネットワークアーキテクチャは、その後、第１データ及びAU強度を使用して合成画像を生成することができる。

【0083】

ブロック５１０において、複数のフレームのうちの第１フレーム及び／又は１つ以上のアクションユニットに個別に関連付けられた１つ以上のAU強度を使用して、人間の顔の合成画像を生成することができる。幾つかの実施形態において、１つ以上のAU強度に対する修正は、合成画像に関連付けられた顔の表情に対する修正を引き起こすことができる。幾つかの実施形態において、合成画像は、本明細書に記載されるように、１つ以上の多層パーセプトロンを含むことができるニューラルネットワークアーキテクチャによって生成され得る。

【0084】

幾つかの実施形態において、合成画像は、表示装置（例えば、図１の表示装置１２０）上で表示され得る。表示される合成画像は、人間の顔を代表し得る。幾つかの実施形態において、AU強度は、AU強度に関連する最小強度値及び／又は最大強度値に基づいて正規化され得る。

【0085】

変更、追加、又は省略が、本開示の範囲から逸脱することなく方法５００に対して行われてよい。例えば、幾つかの実施形態では方法５００は、明示され又は記載されないことのある任意の数の他のコンポーネントを含んでよい。

【0086】

図６は、本開示の少なくとも１つの実施形態に従って、アバター制御のために使用され得る例示的なコンピューティングシステム６００を示す。コンピューティングシステム６００は、アバター制御に関連する１つ以上の操作を実装又は指示するように構成され得る。この操作は、図１の環境１００、図２のネットワークアーキテクチャ２００、図３のネットワークアーキテクチャ３００、及び／又は図５の方法５００の実行に含まれる１つ以上のコンポーネントの操作を含み得る。コンピューティングシステム６００は、プロセッサ６０２、メモリ６０４、データ記憶装置６０６、及び通信ユニット６０８を含んでよい。これら全ては、通信可能に結合されてよい。幾つかの実施形態において、コンピューティングシステム６００は、本開示に記載されたシステム又は装置のいずれかの一部であり得る。

【0087】

プロセッサ６０２は、任意のコンピューティングエンティティ、又は様々なコンピュータハードウェア又はソフトウェアモジュールを含む処理装置を含み、任意の適用可能なコンピュータ可読記憶媒体に記憶された命令を実行するように構成され得る。例えば、プロセッサ６０２は、マイクロプロセッサ、マイクロコントローラ、グラフィック処理ユニット（GPU）又はテンソル処理ユニット（TPU）のような並列プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラム命令を解釈し及び／又は実行し及び／又はデータを処理するよう構成される任意の他のデジタル若しくはアナログ回路を含んでよい。

【0088】

図６には単一のプロセッサが示されるが、プロセッサ６０２は、任意の数のネットワーク又は物理的位置に渡り分散され、個々に又は共同で本願明細書に記載された任意の数の動作を実行するよう構成される、任意の数のプロセッサを含んでよいことが理解される。

【0089】

幾つかの実施形態では、プロセッサ６０２は、プログラム命令を解釈し及び／又は実行し、及び／又はメモリ６０４、データ記憶装置６０６、又はメモリ６０４及びデータ記憶装置６０６に格納されたデータを処理するよう構成されてよい。幾つかの実施形態では、プロセッサ６０２は、プログラム命令をデータ記憶装置６０６からフェッチし、プログラム命令をメモリ６０４にロードしてよい。プログラム命令がメモリ６０４にロードされた後に、プロセッサ６０２は、プログラム命令を実行してよい。

【0090】

例えば、幾つかの実施形態では、プロセッサ６０２は、プログラム命令を解釈し及び／又は実行し、及び／又はメモリ６０４、データ記憶装置６０６、又はメモリ６０４及びデータ記憶装置６０６に格納されたデータを処理するよう構成されてよい。プログラム命令及び／又はデータは、コンピュータシステム６００が命令によって指示されるように、それに関連する操作を実行するよう又は実行を指示するように、アバター制御に関連することができる。これら及び他の実施形態では、命令は、図５の方法５００を実行するために使用することができる。

【0091】

メモリ６０４及びデータ記憶装置６０６は、コンピュータ実行可能命令を運び又は有するコンピュータ可読記憶媒体又は１つ以上のコンピュータ可読記憶媒体、又はそれに記憶されたデータ構造を含んでよい。このようなコンピュータ可読記憶媒体は、プロセッサ６０２のようなコンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。

【0092】

限定ではなく一例として、このようなコンピュータ可読記憶媒体は、ランダムアクセスメモリ（RAM）、読み出し専用メモリ（ROM）、電気的に消去可能なプログラマブル読み出し専用メモリ（EEPROM）、コンパクトディスク読み出し専用メモリ（CD-ROM）又は他の光ディスク記憶装置、磁気ディスク記憶装置又は他の磁気記憶装置、フラッシュメモリ装置（例えば、固体記憶装置）、又はコンピュータ実行可能命令又はデータ構造の形で特定のプログラムコードを搬送又は記憶するために使用され、コンピュータによってアクセスされ得る他の記憶媒体を含む非一時的コンピュータ可読記憶媒体を含み得る。上記の組み合わせも、コンピュータ可読記憶媒体の範囲に含まれてよい。

【0093】

コンピュータ実行可能命令は、例えば、本開示に記載されているように、プロセッサ６０２に特定の操作又は操作のグループを実行させるように構成された命令及びデータを含み得る。これら及び他の実施形態では、本開示で説明されるような用語「非一時的」は、Federal Circuit decision of In re Nuijten, ５００ F.３d １３４６（Fed. Cir. ２００７）における特許可能な主題の範囲に含まれない一時的媒体の種類のみを除外するものと考えられるべきである。上記の組み合わせも、コンピュータ可読媒体の範囲に含まれてよい。

【0094】

通信ユニット６０８は、ネットワークを介して情報を送信し又は受信するよう構成される、任意のコンポーネント、装置、システム、又はそれらの組み合わせを含んでよい。幾つかの実施形態では、通信ユニット６０８は、他の場所、同じ場所にある装置、又は同じシステム内の他のコンポーネントと通信してよい。例えば、通信ユニット６０８は、モデム、ネットワークカード（無線又は有線）、赤外線通信デバイス、無線通信デバイス（４G（LTE）、４.５G（LTE-A）、及び／又は５G（mmWave）通信を実装するアンテナなど）、及び／又はチップセット（Bluetooth（登録商標）デバイス（例えば、Bluetooth５（Bluetooth Low Energy））、８０２.６デバイス（例えば、Metropolitan Area Network（MAN））、Wi-Fiデバイス（例えば、IEEE８０２.１１ax、WiMAXデバイス、セルラ通信設備など）など）を含むことができる。通信ユニット６０８は、ネットワーク及び／又は本開示に記載の任意の他の装置又はシステムとのデータ交換を可能にしてよい。

【0095】

変更、追加、又は省略が、本開示の範囲から逸脱することなくコンピューティングシステム６００に対して行われてよい。例えば、幾つかの実施形態では、コンピューティングシステム６００は、明示され又は記載されないことのある任意の数の他のコンポーネントを含んでよい。さらに、特定の実装に応じて、コンピュータシステム６００は、図示及び説明されているコンポーネントの１つ以上を含まないことができる。

【0096】

上述のように、本明細書に記載される実施形態は、様々なコンピュータハードウェア又はソフトウェアモジュールを含むコンピュータシステム（例えば、図６のプロセッサ６０２）の使用を含むことができる。更に、上述のように、本願明細書に記載の実施形態は、格納されたコンピュータ実行可能命令又はデータ構造を有するコンピュータ可読媒体（例えば、図６のメモリセル６０４）を用いて実装されてよい。

【0097】

幾つかの実施形態では、本明細書に記載されたものと異なるコンポーネント、モジュール、エンジン、及びサービスが、コンピューティングシステム上で実行するオブジェクト又はプロセス（例えば、別個のスレッド）として実装されてよい。本明細書に記載されたシステム及び方法のうちの一部は、概して（ハードウェアに格納される及び／又はそれにより実行される）ソフトウェアで実装されるとして記載されたが、専用ハードウェア実装又はソフトウェア及び専用ハードウェア実装の組み合わせも、可能であり想定される。

【0098】

本開示で及び特に添付の特許請求の範囲（例えば、添付の請求項本体）で使用される用語は、通常、「広義」の用語として意図される（例えば、用語「含む」は「含むが、これに限定されない」と解釈されるべきであり、用語「有する」は「有するが、これに限定されない」と解釈されるべきである、等）。

【0099】

さらに、特定数の導入された請求項の列挙が意図される場合、このような意図は、請求項中に明示的に示され、このような列挙のない場合、このような意図は存在しない。例えば、理解の支援として、以下の添付の請求項は、請求項の列挙を導入するために、導入フレーズ「少なくとも１つ」及び「１つ以上」の使用を含み得る。しかしながら、このようなフレーズの使用は、同じ請求項が導入フレーズ「１つ以上」又は「少なくとも１つ」及び不定冠詞「ａ」又は「ａｎ」を含むときでも（例えば、「ａ」及び／又は「ａｎ」は「少なくとも１つ」又は「１つ以上」を意味すると解釈されるべきである）、不定冠詞「ａ」又は「ａｎ」による請求項の列挙の導入が、このような導入された請求項の列挙を含む任意の特定の請求項を、１つのこのような列挙のみを含む実施形態に限定することを意味すると考えられるべきではない。つまり、同じことが、請求項の列挙を導入するために使用される定冠詞の使用にも当てはまる。

【0100】

さらに、特定数の導入された請求項の列挙が明示的に記載される場合、当業者は、このような列挙が、少なくとも列挙された数を意味すると解釈されるべきであることを理解する（例えば、他の修飾のない「２つの列挙」の記載は、少なくとも２つの列挙、又は２以上の列挙を意味する）。さらに、「Ａ、Ｂ、及びＣ等のうちの少なくとも１つ」又は「Ａ、Ｂ、及びＣ等のうちの１つ以上」と同様の記載が使用される例では、通常、このような構成は、Ａ単独で、Ｂ単独で、Ｃ単独で、Ａ及びＢを一緒に、Ａ及びＣを一緒に、Ｂ及びＣを一緒に、又はＡ、Ｂ、及びＣを一緒に、等を含むことを意図する。更に、用語「及び／又は」の使用は、この方法で解釈されることが意図される。

【0101】

さらに、２以上の選択的な用語を表す任意の離接的な語又はフレーズは、説明、請求項、又は図面にあるかにかかわらず、用語のうちの１つ、用語のうちのいずれか、又は両方の用語を含む可能性を想定すると理解されるべきである。例えば、フレーズ「Ａ又はＢ」は、用語「及び／又は」が他の場所で使用される場合でも、「Ａ」又は「Ｂ」又は「Ａ及びＢ」の可能性を含むと理解されるべきである。

【0102】

本開示に記載された全ての例及び条件付き言語は、読者が本開示及び本開示が技術を更に発展させることに貢献する概念を理解するのを支援する教示目的を意図しており、そのような具体的に列挙された例及び条件に限定されないと解釈されるべきである。本開示の実施形態は詳細に記載されたが、本開示の精神及び範囲から逸脱することなく、これらに種々の変更、代替、及び選択が行われ得る。

【0103】

以上の実施形態に加えて、更に以下の付記を開示する。
（付記１）データソースから、各々が人間の顔を含む複数のフレームを含む第１データを取得するステップと、
前記複数のフレームの各々において、１つ以上の顔のランドマーク及び前記人間の顔に関連付けられた１つ以上のアクションユニット（AU）を自動的に検出するステップと、
少なくとも前記１つ以上の顔のランドマークに基づいて、１つ以上の意味マスクを自動的に生成するステップであって、前記１つ以上の意味マスクは前記人間の顔に個別に対応する、ステップと、
少なくとも前記第１データ、前記１つ以上のAU、及び前記意味マスクを使用して、顔ハイパースペースを構築するステップと、
前記複数のフレームのうちの第１フレームと、前記１つ以上のAUに個別に関連付けられた１つ以上のAU強度とを使用して、前記人間の顔の合成画像を生成するステップと、
を含む方法。
（付記２）前記合成画像を表示装置上で表示するステップであって、前記合成画像は前記人間の顔を描写する、ステップと、
を更に含む付記１に記載の方法。
（付記３）前記AU強度を最小強度値及び最大強度値に基づいて正規化するステップ、
を更に含む付記１に記載の方法。
（付記４）前記１つ以上のAU強度に対する第１修正が、前記合成画像に関連する顔の表情に対する第２修正を引き起こす、付記１に記載の方法。
（付記５）前記１つ以上のAUが、前記１つ以上の意味マスクの境界に対する前記１つ以上のAUの位置に基づいて、前記１つ以上の意味マスクに個別に割り当てられる、付記１に記載の方法。
（付記６）前記第１データがスローモーションビデオ記録であり、前記データソースが単一のビデオ記録装置である、付記１に記載の方法。
（付記７）前記顔ハイパースペースを構築するステップが、前記第１データ、前記１つ以上のAU、及び前記意味マスクをネットワークアーキテクチャに入力するステップを含む、付記１に記載の方法。
（付記８）前記ネットワークアーキテクチャが、少なくとも潜在ニューラルネットワーク、座標ニューラルネットワーク、ハイパースペースニューラルネットワーク、及び属性ニューラルネットワークを含む、付記７に記載の方法。
（付記９）前記ネットワークアーキテクチャは、前記第１データ、前記１つ以上のAU、及び前記意味マスクを使用して最初にトレーニングされ、前記ネットワークアーキテクチャは、その後、前記第１データ及び前記AU強度を使用して前記合成画像を生成する、付記７に記載の方法。
（付記１０）システムであって、
命令を格納するよう構成される１つ以上のコンピュータ可読記憶媒体と、
前記１つ以上のコンピュータ可読記憶媒体に通信可能に結合され、前記命令の実行に応答して前記システムに動作を実行させるよう構成される１つ以上のプロセッサと、
を含み、前記動作は、
データソースから、各々が人間の顔を含む複数のフレームを含む第１データを取得するステップと、
前記複数のフレームの各々において、１つ以上の顔のランドマーク及び前記人間の顔に関連付けられた１つ以上のアクションユニット（AU）を自動的に検出するステップと、
少なくとも前記１つ以上の顔のランドマークに基づいて、１つ以上の意味マスクを自動的に生成するステップであって、前記１つ以上の意味マスクは前記人間の顔に個別に対応する、ステップと、
少なくとも前記第１データ、前記１つ以上のAU、及び前記意味マスクを使用して、顔ハイパースペースを構築するステップと、
前記複数のフレームのうちの第１フレームと、前記１つ以上のAUに個別に関連付けられた１つ以上のAU強度とを使用して、前記人間の顔の合成画像を生成するステップと、
を含むシステム。
（付記１１）前記動作は、
前記合成画像を表示装置上で表示するステップであって、前記合成画像は前記人間の顔を描写する、ステップ、
を更に含む、付記１０に記載のシステム。
（付記１２）前記動作は、
前記AU強度を最小強度値及び最大強度値に基づいて正規化するステップ、
を更に含む、付記１０に記載のシステム。
（付記１３）前記１つ以上のAU強度に対する第１修正が、前記合成画像に関連する顔の表情に対する第２修正を引き起こす、付記１０に記載のシステム。
（付記１４）前記１つ以上のAUが、前記１つ以上の意味マスクの境界に対する前記１つ以上のAUの位置に基づいて、前記１つ以上の意味マスクに個別に割り当てられる、付記１０に記載のシステム。
（付記１５）前記第１データがスローモーションビデオ記録であり、前記データソースが単一のビデオ記録装置である、付記１０に記載のシステム。
（付記１６）前記顔ハイパースペースを構築するステップが、前記第１データ、前記１つ以上のAU、及び前記意味マスクをネットワークアーキテクチャに入力するステップを含む、付記１０に記載のシステム。
（付記１７）前記ネットワークアーキテクチャが、少なくとも潜在ニューラルネットワーク、座標ニューラルネットワーク、ハイパースペースニューラルネットワーク、及び属性ニューラルネットワークを含む、付記１６に記載のシステム。
（付記１８）前記ネットワークアーキテクチャは、前記第１データ、前記１つ以上のAU、及び前記意味マスクを使用して最初にトレーニングされ、前記ネットワークアーキテクチャは、その後、前記第１データ及び前記AU強度を使用して前記合成画像を生成する、付記１６に記載のシステム。
（付記１９）システムであって、
データソースから、各々が人間の顔を含む複数のフレームを含む第１データを取得する手段と、
前記複数のフレームの各々において、１つ以上の顔のランドマーク及び前記人間の顔に関連付けられた１つ以上のアクションユニット（AU）を自動的に検出する手段と、
少なくとも前記１つ以上の顔のランドマークに基づいて、１つ以上の意味マスクを自動的に生成する手段であって、前記１つ以上の意味マスクは前記人間の顔に個別に対応する、手段と、
少なくとも前記第１データ、前記１つ以上のAU、及び前記意味マスクを使用して、顔ハイパースペースを構築する手段と、
前記複数のフレームのうちの第１フレームと、前記１つ以上のAUに個別に関連付けられた１つ以上のAU強度とを使用して、前記人間の顔の合成画像を生成する手段と、
を含むシステム。
（付記２０）前記合成画像が前記人間の顔を表すように、前記合成画像を表示装置上で表示する手段、
を更に含む付記１９に記載のシステム。

【符号の説明】

【0104】

１０５データソース
１１０画像検出モジュール
１１５ニューラルネットワークアーキテクチャ
１２０表示装置

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版