IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧 ▶ カーネギー−メロン ユニバーシティの特許一覧

<>
  • 特開-アバター制御 図1
  • 特開-アバター制御 図2
  • 特開-アバター制御 図3
  • 特開-アバター制御 図4
  • 特開-アバター制御 図5
  • 特開-アバター制御 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024070829
(43)【公開日】2024-05-23
(54)【発明の名称】アバター制御
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240516BHJP
   G06T 1/00 20060101ALI20240516BHJP
   G06T 13/40 20110101ALI20240516BHJP
【FI】
G06T7/00 660A
G06T1/00 340A
G06T7/00 350C
G06T13/40
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2023188138
(22)【出願日】2023-11-02
(31)【優先権主張番号】63/383472
(32)【優先日】2022-11-11
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】18/192607
(32)【優先日】2023-03-29
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(71)【出願人】
【識別番号】591236068
【氏名又は名称】カーネギー-メロン ユニバーシティ
【氏名又は名称原語表記】CARNEGIE-MELLON UNIVERSITY
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ユウ・ヘン
(72)【発明者】
【氏名】新沼 厚一郎
(72)【発明者】
【氏名】ジェニ・ラズロ
【テーマコード(参考)】
5B050
5B057
5L096
【Fターム(参考)】
5B050AA08
5B050BA06
5B050BA08
5B050BA09
5B050BA12
5B050CA01
5B050DA04
5B050EA19
5B050EA24
5B050EA26
5B050FA02
5B050FA05
5B057CA12
5B057CB12
5B057DC05
5L096CA04
5L096EA18
5L096FA09
5L096HA11
(57)【要約】
【課題】 アバター制御の方法及びシステムを提供する。
【解決手段】 一例において、方法は、データソースから、各々人間の顔を含む複数のフレームを含む第1データを取得することを含んでよい。方法は、複数のフレームの各々において、1つ以上の顔のランドマーク及び人間の顔に関連する1つ以上のアクションユニット(AU)を自動的に検出することを含んでよい。方法はまた、少なくとも1つ以上の顔のランドマークに基づいて、1つ以上の意味マスク、すなわち人間の顔に個別に対応する1つ以上の意味マスクを自動的に生成することを含んでよい。方法はさらに、少なくとも第1データ、1つ以上のAU、及び意味マスクを使用して、顔ハイパースペースを得ることを含んでよい。方法はまた、複数のフレームの第1フレーム、及び1つ以上のAUに個別に関連付けられた1つ以上のAU強度を使用して、人間の顔の合成画像を生成することを含んでよい。
【選択図】 図1
【特許請求の範囲】
【請求項1】
データソースから、各々が人間の顔を含む複数のフレームを含む第1データを取得するステップと、
前記複数のフレームの各々において、1つ以上の顔のランドマーク及び前記人間の顔に関連付けられた1つ以上のアクションユニット(AU)を自動的に検出するステップと、
少なくとも前記1つ以上の顔のランドマークに基づいて、1つ以上の意味マスクを自動的に生成するステップであって、前記1つ以上の意味マスクは前記人間の顔に個別に対応する、ステップと、
少なくとも前記第1データ、前記1つ以上のAU、及び前記意味マスクを使用して、顔ハイパースペースを構築するステップと、
前記複数のフレームのうちの第1フレームと、前記1つ以上のAUに個別に関連付けられた1つ以上のAU強度とを使用して、前記人間の顔の合成画像を生成するステップと、
を含む方法。
【請求項2】
前記合成画像を表示装置上で表示するステップであって、前記合成画像は前記人間の顔を描写する、ステップと、
を更に含む請求項1に記載の方法。
【請求項3】
前記AU強度を最小強度値及び最大強度値に基づいて正規化するステップ、
を更に含む請求項1に記載の方法。
【請求項4】
前記1つ以上のAU強度に対する第1修正が、前記合成画像に関連する顔の表情に対する第2修正を引き起こす、請求項1に記載の方法。
【請求項5】
前記1つ以上のAUが、前記1つ以上の意味マスクの境界に対する前記1つ以上のAUの位置に基づいて、前記1つ以上の意味マスクに個別に割り当てられる、請求項1に記載の方法。
【請求項6】
前記第1データがスローモーションビデオ記録であり、前記データソースが単一のビデオ記録装置である、請求項1に記載の方法。
【請求項7】
前記顔ハイパースペースを構築するステップが、前記第1データ、前記1つ以上のAU、及び前記意味マスクをネットワークアーキテクチャに入力するステップを含む、請求項1に記載の方法。
【請求項8】
前記ネットワークアーキテクチャが、少なくとも潜在ニューラルネットワーク、座標ニューラルネットワーク、ハイパースペースニューラルネットワーク、及び属性ニューラルネットワークを含む、請求項7に記載の方法。
【請求項9】
前記ネットワークアーキテクチャは、前記第1データ、前記1つ以上のAU、及び前記意味マスクを使用して最初にトレーニングされ、前記ネットワークアーキテクチャは、その後、前記第1データ及び前記AU強度を使用して前記合成画像を生成する、請求項7に記載の方法。
【請求項10】
システムであって、
命令を格納するよう構成される1つ以上のコンピュータ可読記憶媒体と、
前記1つ以上のコンピュータ可読記憶媒体に通信可能に結合され、前記命令の実行に応答して前記システムに動作を実行させるよう構成される1つ以上のプロセッサと、
を含み、前記動作は、
データソースから、各々が人間の顔を含む複数のフレームを含む第1データを取得するステップと、
前記複数のフレームの各々において、1つ以上の顔のランドマーク及び前記人間の顔に関連付けられた1つ以上のアクションユニット(AU)を自動的に検出するステップと、
少なくとも前記1つ以上の顔のランドマークに基づいて、1つ以上の意味マスクを自動的に生成するステップであって、前記1つ以上の意味マスクは前記人間の顔に個別に対応する、ステップと、
少なくとも前記第1データ、前記1つ以上のAU、及び前記意味マスクを使用して、顔ハイパースペースを構築するステップと、
前記複数のフレームのうちの第1フレームと、前記1つ以上のAUに個別に関連付けられた1つ以上のAU強度とを使用して、前記人間の顔の合成画像を生成するステップと、
を含むシステム。
【請求項11】
前記動作は、
前記合成画像を表示装置上で表示するステップであって、前記合成画像は前記人間の顔を描写する、ステップ、
を更に含む、請求項10に記載のシステム。
【請求項12】
前記動作は、
前記AU強度を最小強度値及び最大強度値に基づいて正規化するステップ、
を更に含む、請求項10に記載のシステム。
【請求項13】
前記1つ以上のAU強度に対する第1修正が、前記合成画像に関連する顔の表情に対する第2修正を引き起こす、請求項10に記載のシステム。
【請求項14】
前記1つ以上のAUが、前記1つ以上の意味マスクの境界に対する前記1つ以上のAUの位置に基づいて、前記1つ以上の意味マスクに個別に割り当てられる、請求項10に記載のシステム。
【請求項15】
前記第1データがスローモーションビデオ記録であり、前記データソースが単一のビデオ記録装置である、請求項10に記載のシステム。
【請求項16】
前記顔ハイパースペースを構築するステップが、前記第1データ、前記1つ以上のAU、及び前記意味マスクをネットワークアーキテクチャに入力するステップを含む、請求項10に記載のシステム。
【請求項17】
前記ネットワークアーキテクチャが、少なくとも潜在ニューラルネットワーク、座標ニューラルネットワーク、ハイパースペースニューラルネットワーク、及び属性ニューラルネットワークを含む、請求項16に記載のシステム。
【請求項18】
前記ネットワークアーキテクチャは、前記第1データ、前記1つ以上のAU、及び前記意味マスクを使用して最初にトレーニングされ、前記ネットワークアーキテクチャは、その後、前記第1データ及び前記AU強度を使用して前記合成画像を生成する、請求項16に記載のシステム。
【請求項19】
システムであって、
データソースから、各々が人間の顔を含む複数のフレームを含む第1データを取得する手段と、
前記複数のフレームの各々において、1つ以上の顔のランドマーク及び前記人間の顔に関連付けられた1つ以上のアクションユニット(AU)を自動的に検出する手段と、
少なくとも前記1つ以上の顔のランドマークに基づいて、1つ以上の意味マスクを自動的に生成する手段であって、前記1つ以上の意味マスクは前記人間の顔に個別に対応する、手段と、
少なくとも前記第1データ、前記1つ以上のAU、及び前記意味マスクを使用して、顔ハイパースペースを構築する手段と、
前記複数のフレームのうちの第1フレームと、前記1つ以上のAUに個別に関連付けられた1つ以上のAU強度とを使用して、前記人間の顔の合成画像を生成する手段と、
を含むシステム。
【請求項20】
前記合成画像が前記人間の顔を表すように、前記合成画像を表示装置上で表示する手段、
を更に含む請求項19に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願]
本願は、参照により全体がここに組み込まれる米国仮特許出願第63/383,472号、2022年11月11日出願名称「AVATAR CONTROL METHOD」、の利益を主張する。
【0002】
[技術分野]
本開示において議論される実施形態はアバター制御に関連する。
【背景技術】
【0003】
マシンビジョンは、2D観察を用いた3Dオブジェクトの決定を含め、それに関する機能と精度において進歩を続けている。ニューラルネットワークから合成された3Dオブジェクトの表現の中には、合成された3Dオブジェクトが時間の変化を表示するような動的なものもある。状況によっては、合成された3Dオブジェクトのレンダリングに加えて、3Dオブジェクトの制御が複雑になることもある。代替的に、又は追加的に、合成された3Dオブジェクトの操作は、合成された3Dオブジェクトの独立した制御が利用できないように、合成された3Dオブジェクトの関連する側面間の運動に制限されることがある。
【0004】
本願明細書で請求される主題は、任意の欠点を解決する実施形態又は上述のような環境でのみ動作する実施形態に限定されない。むしろ、この背景技術は、本願明細書に記載の幾つかの実施形態が実施され得る一例である技術領域を説明するためにのみ提供される。
【発明の概要】
【0005】
実施形態の態様によると、方法は、データソースから、各々人間の顔を含む複数のフレームを含む第1データを取得することを含んでよい。方法は、複数のフレームの各々において、1つ以上の顔のランドマーク及び人間の顔に関連する1つ以上のアクションユニット(AU)を自動的に検出することを更に含んでよい。方法は、少なくとも1つ以上の顔のランドマークに基づいて、1つ以上の意味マスク、すなわち人間の顔に個別に対応する1つ以上の意味マスクを自動的に生成することを更に含んでよい。方法は、少なくとも第1データ、1つ以上のAU、及び意味マスクを使用して、顔ハイパースペース(facial hyperspace)を得ることを更に含んでよい。方法は、複数のフレームの第1フレーム、及び1つ以上のAUに個別に関連付けられた1つ以上のAU強度を使用して、人間の顔の合成画像を生成することを更に含んでよい。
【0006】
実施形態の目的及び利点は、請求項において特に指摘される要素、特徴、及び組み合わせにより少なくとも実現され達成される。
【0007】
前述の一般的説明及び以下の詳細な説明は両方とも例として与えられ、説明のためであり、請求される本発明の限定ではない。
【図面の簡単な説明】
【0008】
例示的な実施形態は、以下の添付の図面の使用を通じて更なる特殊性及び詳細事項により記載され説明される。
【0009】
図1】アバター制御をサポートするように構成された例示的な環境のブロック図である。
【0010】
図2】アバター制御をサポートするように構成された例示的なネットワークアーキテクチャのブロック図である。
【0011】
図3】アバター制御をサポートするように構成された別の例示的なネットワークアーキテクチャのブロック図である。
【0012】
図4】人間の顔に適用された複数のマスクを含む例示的な環境を示す。
【0013】
図5】アバター制御の例示的な方法のフローチャートである。
【0014】
図6】アバター制御に使用できる例示的なコンピューティングシステムを示す。
【発明を実施するための形態】
【0015】
マシンビジョン及び/又はマシンビジョンを用いたオブジェクトの表現は、近年著しい進歩を遂げている。例えば、3次元(3D)オブジェクト及び/又はシーン(他に明示的に言及されない限り、総称して「オブジェクト」と呼ばれる)は、オブジェクトの2次元(2D)画像を観察及び解釈するマシンビジョンシステムを介してモデル化及び/又は表現され得る。状況によっては、マシンビジョンシステムは、2Dでオブジェクトを観察し、その3D表現を生成するために1つ以上の機械学習システムを実装する。2Dオブジェクトの多くの3D表現は、3D表現も静的であるように、静的オブジェクトに基づいている場合がある。静的オブジェクトと比較してマシンビジョンシステムの機能性及び/又は計算時間を向上させるための改善が導入されているが、動的オブジェクトのマシンビジョン処理には、静的オブジェクトと比較して追加の計算複雑性が含まれる場合がある。
【0016】
状況によっては、NeRF(neural radiance field)を使用して、少なくともシーンの2Dビューに部分的に基づいて、3Dシーンの新しいビューを生成することができる。さらに、NeRFアプローチのバリエーションは、3Dビューを生成する機械学習システムの動作及び/又は機能を拡張することができる。状況によっては、NeRF及び/又はそのバリエーションを使用して、人間の顔及び/又は関連する表情を含む3Dシーンを生成することができる。合成された人間の顔及び/又は関連する表情を含む新規ビューは、キャプチャされた画像及び/又はNeRFネットワークへの入力に基づくことができる。
【0017】
幾つかの従来のアプローチでは、3Dシーンの新規ビューを生成するために複数のビデオ入力を使用して複数のカメラ及び/又はカメラの品質(例えば、高解像度、マルチビューなど)に起因する増加した費用で新規ビューのレンダリングの品質を潜在的に改善するように、複数のカメラを使用して3Dシーン(例えば、人間の顔と関連する表情を含む)をキャプチャすることができる。別のアプローチでは、データのオペレータ又はユーザによって実行され得るデータへの注釈を使用して新規ビューを生成することができる。注釈は、機械学習ネットワークを誘導して、新規ビューの生成に使用される3Dシーンの部分を識別することができる。このような注釈は、機械学習ネットワークへの入力として使用される可能性がある3Dシーンに多くの画像が含まれる可能性があるため、注釈者によってかなりの時間を犠牲にする可能性がある。
【0018】
本開示の少なくとも1つの実施形態では、3Dオブジェクトの2D表現を使用して、3Dオブジェクト(例えば、アバター)の表現を決定、表示、及び/又は制御する方法は、データの流れの中で様々な表情を有する人間の顔を含む、3Dシーンに関連付けられたデータを取得することを含み得る。幾つかの実施形態では、データは、多くのユーザが直ちに利用可能なビデオ記録装置を含み得る単一のデータソースから取得することができる。人間の顔に関連する顔のランドマーク及び/又はアクションユニット(AU)は、ニューラルネットワークアーキテクチャによる処理の前に、注釈がデータ内で使用されないように、自動的に検出することができる。代替的に、又は追加的に、人間の顔に関連する意味マスクは、顔のランドマークを使用して自動的に生成され、及び/又はAUは、人間の顔の様々な表情及び/又は部分のユニークな及び/又は特定の制御を提供することができる意味マスクに割り当てられることができる。
【0019】
幾つかの実施形態では、顔ハイパースペースが構築され、人間の顔の合成画像(例えば、アバター)が生成され、表示され、アバターは、人間の顔に類似し及び/又は固有であり得る修正可能な表情及びデータに取り込まれた関連する表情を含むことができる。手動の注釈付けは時間がかかる可能性があるため、顔のランドマーク及びAUを自動的に検出し、続いて意味マスクを自動的に生成することは、アバターの処理時間を改善することができる。代替的に、又は追加的に、AU及び意味マスクの組み合わせは、アバターを生成するために使用されるデータの取得及び/又は注釈付けの努力を制限しながら、アバターにおいて生成される表現の詳細な制御を可能にすることができる。
【0020】
本開示の実施形態は、添付の図面を参照して説明される。
【0021】
図1は、本開示の少なくとも一実施形態によるアバター制御をサポートするように構成された例示的な環境100のブロック図である。環境100は、画像検出モジュール110、ニューラルネットワークアーキテクチャ115、及び表示装置120を含むことができる。
【0022】
幾つかの実施形態では、画像検出モジュール110は、データソース105から第1データを取得することができる。データソース105からの第1データは、1つ以上の画像、ビデオストリーム、及び/又はシーンから撮影された複数のビデオフレーム(以下、略して「フレーム」又は複数の「フレーム」)を含むことができるシーンの他の表現を含むことができる。例えば、第1データは、シーン内のオブジェクトの様々な動きを含むシーン及び/又はシーン内のオブジェクトをキャプチャするデジタルビデオ記録(例えば、毎秒複数フレーム)を含むことができる。代替的に、又は追加的に、第1データは、複数のフレームに含まれる人間の顔(例えば、シーンに含まれるオブジェクト)を含むことができ、人間の顔に関連する1つ以上の表情が複数のフレームにキャプチャされることができる。例えば、第1データは、人間の顔のデジタルビデオ記録を含むことができ、人間の顔の表情は、笑顔、眉をひそめる、しかめっ面、及び/又は他の表情のような異なる表情の間で変化することができる。幾つかの実施形態では、これらの顔の表情は、人がビデオに自分の顔をビデオにキャプチャしている間に実行するように要求される1つ又は複数のタスクに従うことができる(例えば、「眉を上げる」、「笑う」、「しかめっ面をする」など)。
【0023】
幾つかの実施形態では、画像検出モジュール110は、1つ又は複数のコンピューティング装置が1つ以上の動作を実行できるように構成されたコード及びルーチンを含むことができる。追加的に、又は代替的に、画像検出モジュール110は、1つ以上のプロセッサ、中央処理装置(CPU)、グラフィックス処理装置(GPU)、データ処理装置(DPU)、並列処理装置(PPU)、マイクロプロセッサ(例えば、1つ以上の動作の実行又は実行の制御)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、アクセラレータ(例えば、ディープラーニングアクセラレータ)、及び/又は他のプロセッサタイプを含むハードウェアを使用して実装することができる。幾つかの他の例では、画像検出モジュール110は、ハードウェア及びソフトウェアの組み合わせを用いて実装されてよい。本開示では、画像を検出モジュール110を使用して実行されるとして記載される動作は、画像検出モジュール110が対応するシステムに実行するよう指示し得る動作を含んでよい。
【0024】
幾つかの実施形態では、データソース105は、デジタルビデオ記録を得るように構成されたハンドヘルド記録装置を含み得る。例えば、データソース105は、デジタルビデオを記録することができる携帯電話(例えば、スマートフォン)を含み得る。幾つかの実施形態では、データソース105は、スローモーションデジタルビデオを得るように構成され得る。例えば、データソース105は、第1データを第1フレーム数/秒でキャプチャすることができ、第1データの再生は、第1データがスローモーションであり得るように、第2フレーム数/秒であり得る。代替的に、又は追加的に、第1データは、第1データが第1フレーム数/秒でキャプチャされ、第1データの再生が第1フレーム数/秒であり得るように、1つ以上の挿入されたフレームを含むことができ、挿入されたフレームは、第1データをスローモーションで再生させ得る。
【0025】
幾つかの実施形態では、データソース105は、シーンに対する相対的及び/又はシーン内のオブジェクトに対する例えば相対的なデータソース位置を調整するように構成され得る。例えば、データソース105が人間の顔を記録するハンドヘルド記録装置(例えば、スマートフォン)である場合、ハンドヘルド記録装置(例えば、データソース105)の位置は、シーン内の人間の顔に関連付けられた第1データをキャプチャし続けながら、人間の顔に対して調整され得る。これらの又は他の実施形態では、データソース105の位置は、シーンに対する変化の代わりに又はそれに加えて変化し得る(例えば、人間の顔やそれに伴う表情の変化など、シーン内のオブジェクトに対する変化を含む)。例えば、データソース105は、人間の顔に対して変化するデータソース105の位置に加えて、表情を変化させる人間の顔のスローモーションデジタルビデオを含むことができる。
【0026】
幾つかの実施形態では、画像検出モジュール110は、データソース105を使用して生成された第1データを取得することができ、第1データに関連する1つ以上の特徴を検出するように構成することができる。例えば、画像検出モジュール110は、シーン及び/又はシーン内のオブジェクトにおけるバリエーションを検出するように構成することができる。シーン内のオブジェクトが人の顔である場合、画像検出モジュール110は、人の顔に関連する顔のランドマークを検出するように構成することができる。代替的に、又は追加的に、画像検出モジュール110は、人の顔に関連するAUを検出するように構成することができる。顔のランドマークは、画像検出モジュール110を使用して検出され得る、人の顔の様々な部分及び/又は人の顔の識別可能な特徴を指すことができる。例えば、顔のランドマークは、限定されるものではないが、眉、目の内側/外側の隅、鼻の穴、唇、赤唇の縁、及び/又は人の顔の他の識別可能な部分を含むことができる。AUは、顔の表情、人の顔の下にある筋肉、顔のランドマーク、及び/又は上記のいずれかに関連する変化に関連する、人の顔の可動部分を指すことができる。例えば、第1AUは外側の眉上げ、第2AUは頬上げ、第3AUは唇の角を引っ張るなどである。幾つかの実施形態では、画像検出モジュール110を使用して検出されたAUは、個々のAUを識別するコードを使用して分類することができる。例えば、内側眉上げはAU1であってもよく、外側眉上げはAU2であってもよく、眉下げはAU4であってもよく、以下同様である。幾つかの実施形態では、AUに関連するコードは、人間の顔上の外観に基づく人間の顔の動きの分類法である顔動作コードシステムに従っていてもよい。
【0027】
幾つかの実施形態では、AUは、与えられた人間の顔にAUがどの程度適用されるかを記述し得る、関連するAU強度を含んでもよい。例えば、外側の眉が可能な限り上昇している場合(例えば、与えられた人間の顔に対して)、関連するAU(例えば、外側眉上げ)は、最大強度値であってもよい。幾つかの実施形態では、AU強度は、最小強度値から最大強度値までのスケールであってもよい。AU強度は、最小強度値(例えば、AUに関連する顔面筋に関連したニュートラルな表情)、第1増分、第2増分など、最大強度値(例えば、人間の顔が顔の表情を表すことができる限り、及び/又は関連する顔の筋肉が収縮及び/又は弛緩することができる限り)までの所定の値であってもよい。幾つかの実施形態では、そのような値は、0(AUのニュートラルな表情/不存在)から5(最大強度)までであってもよい。代替的に、又は追加的に、AU強度は、上述のように、最小強度値と最大強度値の間で連続であってもよい。幾つかの実施形態では、画像検出モジュール110は、データソース105からの第1データのフレーム内で検出されたAU強度に基づいて、個々のAU強度の最小強度値及び/又は最大強度値を決定することができる。例えば、第1AUは、第1データの1つ以上のフレーム内の人間の顔に対して検出され、1つ以上のフレーム内で検出された第1AUの最小強度値及び最大強度値に基づいて、AUに関連する最小強度値及び最大強度値を決定することができる。これら又は他の実施形態では、画像検出モジュール110は、人間の顔に関連付けられた1つ以上のAU、個々のAUに関連付けられたAU強度、及び/又は1つ以上のAUブロックを得るように構成することができ、ここで、個々のAUブロックは、AUと関連付けられたAU強度の組み合わせであってもよい。
【0028】
幾つかの実施形態では、ニューラルネットワークアーキテクチャ115は、少なくとも顔のランドマーク、AU、AUに個別に関連付けられたAU強度、及び/又はAUブロックを含む、画像検出モジュール110からの1つ以上の出力を得ることができる。幾つかの実施形態では、ニューラルネットワークアーキテクチャ115は、複数フレームのうちの隣接フレーム内のAUに関連して導入されたノイズを低減することができるように、第1データの複数フレーム内で検出された少なくともAUにフィルタを適用するように構成することができる。例えば、Savitzky-Golayフィルタは、ニューラルネットワークアーキテクチャ115によって適用することができ、これは、第1データの複数フレームのうちの隣接フレーム間のAUを平滑化することができる。
【0029】
幾つかの実施形態では、ニューラルネットワークアーキテクチャ115を使用して第1データに含まれる複数のフレームを処理することは、計算が複雑であり、及び/又は時間集約的であり得る。複数のフレームを処理することは、第1データに関連してニューラルネットワークアーキテクチャ115を使用して実行される様々な機能を含む場合があり、これらの機能は、本開示に記載されているように、すべて、AUのフィルタリング、顔のランドマークに関連する1つ以上の意味マスクの決定、顔ハイパースペースの決定、合成画像の生成、及び/又は他の処理機能を含み得るが、これらに限定されない。
【0030】
幾つかの実施形態では、ニューラルネットワークアーキテクチャ115は、ニューラルネットワークアーキテクチャ115が複数のフレームの一部に対して処理を実行できるように、第1データに含まれる複数のフレームの一部をサンプリングするように構成することができる。幾つかの実施形態では、サンプリングされたフレームの数は、第1データに含まれる複数のフレームの数より少なくてもよいので、サンプリングされたフレームは、ニューラルネットワークアーキテクチャ115によってサンプリングされたフレームを処理するための計算複雑性及び/又は時間の量を低減することができる。
【0031】
幾つかの実施形態では、サンプリングされたフレームは、ニューラルネットワークアーキテクチャ115を用いた複数のフレームの一様なサンプリングから得ることができる。例えば、ニューラルネットワークアーキテクチャ115は、所定の数のフレームから1つのフレームをサンプリングし、サンプリングされたフレームが得られるまでサンプリングプロセスを繰り返すことができる。代替的に、又は追加的に、ニューラルネットワークアーキテクチャ115は、複数のフレームのバランスのとれたサンプリングからサンプリングされたフレームを得るように構成されてもよい。例えば、ニューラルネットワークアーキテクチャ115は、AUブロック(例えば、AUと関連するAU強度の組み合わせ)に基づいてソート操作を実行し、複数のフレームの順序に基づいてソートされたAUブロックを配置し(例えば、フレームに関連付けられたフレーム番号、フレームに関連付けられたタイムスタンプなど)、ニューラルネットワークアーキテクチャ115は、ソートされて配置されたAUブロックから1つ以上のフレームをサンプリングしてもよい。代替的に、又は追加的に、ニューラルネットワークアーキテクチャ115は、すでにサンプリングされている可能性のある複数のフレームのうちの1つ以上のフレームを削除するように構成されてもよい。例えば、フレームが複数のソートされたAUブロックに含まれ(例えば、フレームはAU以上のバリエーションを含む)、第1ソートされたAUブロックからサンプリングされる場合、サンプリングされたフレームが2回サンプリングされないように、サンプリングされたフレームが後続のAUブロックから削除されてもよい。幾つかの実施形態では、複数のフレームのバランスのとれたサンプリングは、ニューラルネットワークアーキテクチャ115を使用してサンプリングされたフレームを処理するための計算複雑性の減少及び/又は時間量の減少をもたらし、複数のフレームの均一なサンプリングと比較して、サンプリングされたフレーム間のより均一なAU強度分布をもたらす。
【0032】
幾つかの実施形態では、ニューラルネットワークアーキテクチャ115は、第1データ及び/又は第1データに含まれる人間の顔に関連する1つ以上の意味マスクを生成するように構成され得る。幾つかの実施形態では、意味マスクは自動的にニューラルネットワークアーキテクチャ115として生成され得る。例えば、少なくとも顔のランドマークを含む画像検出モジュール110からの出力の受信に応答して、ニューラルネットワークアーキテクチャ115は、少なくとも顔のランドマークに基づいて1つ以上の意味マスクを自動的に生成し得る。幾つかの実施形態では、意味マスクは、第1データに含まれる人間の顔及び/又は画像検出モジュール110を用いて検出される顔のランドマークに関連付けられ得る。
【0033】
幾つかの実施形態では、意味マスクは、1つ以上の所定の顔のランドマークに基づいて自動的に生成され得る。例えば、顔のランドマークは、コード(例えば、本明細書に記載されているようなAUに類似する)を使用して分類することができ、顔のランドマークのセットは、意味マスクを形成するために一緒にグループ化することができる。幾つかの実施形態では、意味マスクの数は、顔のランドマークの所定のグループ化を使用するなど、予め決められてもよい。例えば、3つの意味マスクを含む実施形態では、第1意味マスクは、眉の下部より上及び鼻梁部分の上にある人間の顔の部分を含み、第2意味マスクは、目、頬/頬骨、及び鼻梁を含み、第3意味マスクは、鼻の下部、口、及び顎を含み得る。例えば、図4は、本明細書に提供される例による人間の顔に適用されるマスクの例を示す。代替的に、又は追加的に、人間の顔に適用され得る意味マスクの数は、例えば、意味マスクに含まれる様々な顔のランドマークを識別することによって、ニューラルネットワークアーキテクチャ115において構成可能であり得る。これら又は他の実施形態において、意味マスクは、人間の顔の一部に関連した境界を定義し得るが、ここで、境界は、複数の意味マスクが存在する場合に、意味マスク間の分離を含み得る。
【0034】
これら又は他の実施形態において、AUは、人間の顔及び/又は意味マスクに関連したAUの位置に基づいて、生成された意味マスクに自動的に割り当てられ得る(例えば、AUが第1意味マスクに関連する境界内にある場合には、AUは第1意味マスクに割り当てられてもよい)。例えば、AU1及びAU2(例えば、本明細書に記載されているように)は、第1意味マスク(例えば、眉に関連する意味マスク)に割り当てられ得るし、AU6(頬上げに関連する)は、第2意味マスクに割り当てられ得るし、AU17(顎上げに関連する)は、第3意味マスクに割り当てられ得るし、等々である。これら又は他の実施形態において、AUは、人間の顔に対するAUの位置及び人間の顔に対する意味マスクの位置に基づいて、関連する意味マスクに割り当てられ得る。
【0035】
幾つかの実施形態において、ニューラルネットワークアーキテクチャ115は、本明細書に記載されるように、ハイパースペースで使用するために、個々のAUのAU強度を正規化するように構成され得る。例えば、ニューラルネットワークアーキテクチャ115は、AU強度(例えば、0から5のような最小強度値と最大強度値の間の強度範囲であってもよい)を-1と1の間の制御値となるように正規化することができる。幾つかの実施形態において、ニューラルネットワークアーキテクチャ115は、AU強度を正規化するために次の方程式を使用することができる:
【数1】
ここで、AU’は正規化されたAU強度であり、AUはAU強度であり、AUminは最小強度値であり、AUmaxは最大強度値であり、αは最大強度値を調整するための因子であり得る。例えば、αはAUmin/AUmaxよりも大きく、0.4、0.5、0.8など、1以下の任意の値であり得る。
【0036】
これら又は他の実施形態では、ニューラルネットワークアーキテクチャ115は、第1データの複数のフレーム、意味マスク、及び/又はAU(これらは、本明細書に記載されているように、AU、AU強度及び/又はAUブロックであってもよい)を得るように構成され得るし、ニューラルネットワークアーキテクチャ115は、顔ハイパースペースを構築するように構成され得る。幾つかの実施形態では、顔ハイパースペースを構築するニューラルネットワークアーキテクチャ115は、ニューラルラディアンスフィールド(NeRF)、トポロジの変化するニューラルラディアンスフィールドのための高次元表現(HyperNeRF)、制御可能なニューラルラディアンスフィールド(CoNeRF)などのニューラルラディアンスフィールド及び/又はその変形を介して構成され得る。代替的に、又は追加的に、顔ハイパースペースを構築するニューラルネットワークアーキテクチャ115は、図2及び図3に関連して図示及び説明されるようなネットワークアーキテクチャを介するものであってよい。
【0037】
幾つかの実施形態では、顔ハイパースペースは、少なくとも時間次元及び/又はらラディアンス次元を含み得る多数の次元フィールドの表現を表し得る。例えば、3D光線は、3D光線に関連する3D点及び2つの軸角光線方向を有する5D表現に変換され得る。幾つかの実施形態では、本開示に記載されているように、顔ハイパースペース表現は、表現及び/又はキャプチャされるべき動的オブジェクトにおけるトポロジ的変化をサポートし得る。幾つかの実施形態では、ハイパースペースは、人間の顔のような入力画像の(例えば、2Dの)トポロジ的変化を表すことができ、ここで、トポロジ的変化は、入力画像の特徴/属性に対する変化を含むことができ、及び/又は顔ハイパースペースのトポロジ的変化は、入力画像のより現実的なレンダリングを生成するために使用することができる。例えば、人間の顔のための顔ハイパースペースのトポロジ的変化は、顔の特徴に対する変化(例、眉を上げる、口を開ける、唇をすぼめるなど)を含むことができ、その結果、顔ハイパースペースは、トポロジ的変化の多くの反復を含むことができ、トポロジ的変化における顔の特徴に基づく現実的な表現を有する合成の人間の顔(例えば、本明細書に記載されるようなアバター)をレンダリングするためにその後使用することができる。一般に、顔ハイパースペースは、3D点と、3D点に関連することができる可変数のパラメータ(例えば、次元)の集合であることができる。
【0038】
幾つかの実施形態では、ニューラルネットワークアーキテクチャ115は、第1データに含まれる人間の顔に類似する合成画像を生成するように構成され得る。ニューラルネットワークアーキテクチャ115は、複数のフレームのうちのフレーム(例えば、入力フレーム又は入力された顔)からのように、第1データに含まれる人間の顔に基づいて合成画像を生成し得る。例えば、ニューラルネットワークアーキテクチャ115は、合成画像のための初期画像として人間の顔を含む個々のフレームを取得し、使用し得る。代替的に、又は追加的に、ニューラルネットワークアーキテクチャ115は、入力顔に関連するAU強度に対応する1つ以上の入力を取得し得る。ニューラルネットワークアーキテクチャ115は、(例えば、複数のフレームのうちのフレームに含まれる)入力顔及びAU強度の組み合わせを使用して合成画像を生成するように構成され得るので、合成画像は、入力顔に類似して見え(例えば、入力顔が第1人物に関連付けられている場合には、合成画像は、第1人物に類似する外観を有することができる)、及び/又は入力顔と類似した又は異なる顔の表情を含み得る。例えば、入力顔は、第1表情(例、目を開け口を閉じる)を含み得るし、ニューラルネットワークアーキテクチャ115は、第2表情(例、目を閉じて口を開ける)を有する類似した人間の顔の合成画像を生成し得る。
【0039】
幾つかの実施形態において、表示装置120は、ニューラルネットワークアーキテクチャ115から合成画像を取得し得るし、合成画像を表示し得る。表示装置120における合成画像の表示は、第1データに含まれる人間の顔のアバターであってもよい。幾つかの実施形態では、表示装置120上で表示されるアバターは、入力顔及び/又はニューラルネットワークアーキテクチャ115によって得られるAU強度に関連付けられる第1表現を有することができる。
【0040】
幾つかの実施形態では、アバターに関連付けられた表現は、入力顔及び/又はAU強度を含むニューラルネットワークアーキテクチャ115への入力に対する1つ以上のバリエーションによって修正されることができる。例えば、1つ以上のAU強度が修正され、表示装置120上で表示されるアバターは、それに応じて更新されることができる。幾つかの実施形態では、第1AU強度に対する修正は、第2AU強度に対する修正とは独立してアバターに反映され得る。例えば、AU1(例えば、内眉上げ)に関連するAU強度に対する修正は、アバターにおける表情の変化を引き起こし得るし、AU2(例えば、外側眉上げ)に関連するアバターの部分は変化しないままであり得る。代替的に、又は追加的に、第1AU強度に対する修正(例えば、アバターに関連付けられた顔の表情を修正することができる)は、第1AU強度に関連してもしなくてもよい第2AU強度に対する修正、及び/又はアバターの表情に対する修正を引き起こし得る。例えば、AU6(例えば、頬上げ)に関連するAU強度に対する修正は、AU12(例えば、唇角を引っ張る)に関連するAU強度に対する修正を引き起こし得るが、その後、アバターの表情に対する修正を引き起こし得る。幾つかの実施形態において、第2AU強度に対する修正を引き起こし得る第1AU強度に対する修正は、感情(例えば、幸福感はAU6及びAU12と関連している可能性がある)、関連する表情筋等に関連し得る。
【0041】
幾つかの実施形態において、第1アバター(例えば、入力データに含まれる人の顔の表情)に対応する表現は、表示装置120上のような表示のために第2アバターにコピー及び/又は転送され得る。例えば、第1アバターに対応する第1表現は、本明細書に記載されるように、1つ以上のAU、1つ以上の関連するAU強度、及び/又は1つ以上のAUブロックを含む表現の描写によって記述することができる。第1アバターに関連する表現の描写を使用して、第1表現は、例えば、第2アバターに表現の描写を転送及び/又は適用することによって、第2アバターに適用することができる。そのような実施形態では、第1アバター(例えば、第1の人間の顔に関連する)の表現は、第1アバター及び第2アバターが実質的に類似した表現(例、口を閉じた微笑、しかめっ面など)を有することができるように、(例えば、第2の人間の顔に関連する)第2アバターに適用することができる。
【0042】
変更、追加、又は省略が、本開示の範囲から逸脱することなく環境100に対して行われてよい。例えば、幾つかの実施形態では、画像検出モジュール110及びニューラルネットワークアーキテクチャ115は、本明細書に記載されるように、ニューラルネットワークアーキテクチャ115が画像検出モジュール110に関連する機能の一部又は全部を実行するように構成されるように組み合わせてもよい。代替的に、又は追加的に、幾つかの実施形態では、環境100は、明示され又は記載されないことのある任意の数の他のコンポーネントを含んでよい。
【0043】
図2は、本開示の少なくとも1つの実施形態に従って、アバター制御をサポートするように構成された例示的なネットワークアーキテクチャ200のブロック図である。ネットワークアーキテクチャ200は、潜在ニューラルネットワーク210、座標ニューラルネットワーク220、ハイパースペースニューラルネットワーク225、第1属性ニューラルネットワーク230、第n属性ニューラルネットワーク235、第1ニューラルネットワーク245、及び第2ニューラルネットワーク260を含むことができる。
【0044】
幾つかの実施形態では、潜在ニューラルネットワーク210、座標ニューラルネットワーク220、ハイパースペースニューラルネットワーク225、第1属性ニューラルネットワーク230、第n属性ニューラルネットワーク235、第1ニューラルネットワーク245、及び/又は第2ニューラルネットワーク260(まとめてアバターニューラルネットワークと称する)は、フィードフォワード人工ニューラルネットワークであってもよく、アバターニューラルネットワークに含まれるノードは非巡回であってもよい。例えば、アバターニューラルネットワークは、単層パーセプトロンネットワーク、多層パーセプトロンネットワーク、有向非巡回グラフネットワーク、及び/又は任意の他のフィードフォワード人工ニューラルネットワークを含むことができる。
【0045】
幾つかの実施態様において、潜在ニューラルネットワーク210は、潜在変形コード205を得ることができる。幾つかの実施態様において、潜在変形コード205は、画像215に関連付けられ得る数値及び/又は画像から得られる数値であり得る。潜在変形コード205は、画像215に関して得られたデータを用いて画像215の少なくとも一部を再生成するために使用され得る。例えば、潜在変形コード205は、画像215に関連するデータから画像215の一般化された部分を表す及び/又は再構成するために使用され得る。幾つかの実施形態では、潜在変形コード205は、画像215のビデオキャプチャに関連するフレーム番号に関連し得る。例えば、画像215は、画像215のビデオのフレーム番号であり得る。別の例では、潜在変形コード205は、画像215のビデオの個々のフレームのタイムスタンプであり得る。
【0046】
幾つかの実施形態では、画像215は、図1のデータソース105からの第1データと同一又は類似であり得る。したがって、画像215は、限定されるものではないが、1つ以上の画像、ビデオストリーム、及び/又はシーンから撮影された複数のフレームを含むことができるシーンの他の表現を含むことができる。幾つかの実施形態では、画像215は、画像215に関連する個々の点及び/又は光線が、本明細書に記載されているように、1つ以上のアバターニューラルネットワークによる処理において使用され得るようにサンプリングされ得る。
【0047】
幾つかの実施形態では、潜在ニューラルネットワーク210は、画像215に関連付けられた1つ以上の属性を出力することができる。幾つかの実施形態では、潜在ニューラルネットワーク210からの属性は、図1に関連して記述されたAUに関連することができる。幾つかの実施形態では、潜在ニューラルネットワーク210から出力された個々の属性は、対応する属性ニューラルネットワークに入力することができる。例えば、潜在ニューラルネットワーク210からの第1属性出力は、第1属性ニューラルネットワーク230に入力することができ、同様に、潜在ニューラルネットワーク210からの第n属性出力までが、第n属性ニューラルネットワーク235に入力することができる。幾つかの実施形態では、属性は、AU及び/又はAU強度のような、画像215に関連する局所属性に関連付けられる対応する強度値を含むことができる。
【0048】
幾つかの実施形態では、座標ニューラルネットワーク220は、潜在変形コード205及び/又は画像215(画像215の一部を含むことができる)を得ることができる。幾つかの実施形態では、潜在変形コード205と画像215を一緒に連結し、座標ニューラルネットワーク220によって得ることができる。幾つかの実施形態では、画像215から座標ニューラルネットワーク220への入力は、サンプル画像座標と呼ばれる、画像215からの点(例えば、画素)、画像215からの点に関連する光線、及び/又はそれらの組み合わせを含むことができる。例えば、座標ニューラルネットワーク220への入力は、潜在変形コード205と連結された、3D位置(例えば、x座標、y座標、z座標)及び2D視野方向(例えば、原点(これは、x座標、y座標、及びz座標を有する、サンプル画像座標の3D位置であってもよい)と方向)を含むサンプル画像座標を含むことができる。
【0049】
幾つかの実施形態では、座標ニューラルネットワーク220からの出力は、次式によって得られるワーピングされた(warped)座標を含むことができる:
【数2】
ここで、x’はワーピングされた座標であってもよく、xはサンプル画像座標であってもよく、ωiは潜在変形コード205であってもよく、Tは座標ニューラルネットワーク220であってもよい。幾つかの実施形態では、ワーピングされた座標は、本明細書に記載される他の要素の中で、顔ハイパースペース240の少なくとも一部として含まれてもよい。例えば、ワーピングされた座標は、顔ハイパースペース240内の座標であってもよい。
【0050】
ハイパースペースニューラルネットワーク225は、ハイパースペースニューラルネットワーク225がサンプル画像座標及び/又は潜在変形コード205を入力として得ることができる点で、座標ニューラルネットワーク220と類似していてもよい。幾つかの実施形態では、潜在変形コード205とサンプル画像座標を一緒に連結し、ハイパースペースニューラルネットワーク225によって得ることができる。代替的に、又は追加的に、潜在変形コード205と画像215を一緒に連結し、その結果を座標ニューラルネットワーク220とハイパースペースニューラルネットワーク225の両方によって得ることができる。
【0051】
幾つかの実施形態では、ハイパースペースニューラルネットワーク225からの出力は、次式によって得られるハイパースペースコードを含むことができる:
【数3】
ここで、wはハイパースペースコードであり、xはサンプル画像座標であり、ωiは潜在変形コード205であり、Hはハイパースペースニューラルネットワーク225であり得る。幾つかの実施形態において、ハイパースペースコードは、顔ハイパースペース240の構成要素として含まれ得る。例えば、ハイパースペースコードは、顔ハイパースペース240に含まれ得る周囲空間における座標を表すことができ、ハイパースペースコードは、アバターの1つ以上の部分をレンダリングするために使用され得る1つ以上の色及び/又は1つ以上の密度を決定するなど、アバターの生成に関連する様々な操作において使用され得る。
【0052】
幾つかの実施形態において、潜在ニューラルネットワーク210から出力される属性に関連するニューラルネットワーク(例えば、第1属性ニューラルネットワーク230から第n属性ニューラルネットワーク235を含む)は、入力として潜在ニューラルネットワーク210からの各々の属性及び/又はサンプル画像座標を得ることができる。幾つかの実施形態において、各々の属性及びサンプル画像座標は一緒に連結され、各々第1属性ニューラルネットワーク230及び/又は第n属性ニューラルネットワーク235によって得ることができる。例えば、第1属性ニューラルネットワーク230はサンプル画像座標及び第1属性の連結を得ることができ、n番目の属性ニューラルネットワーク235はサンプル画像座標及び第n属性の連結を得ることができる。
【0053】
幾つかの実施形態では、第1属性ニューラルネットワーク230及び/又は第n属性ニューラルネットワーク235からの出力は、次式によって得られるハイパースペース属性コードを含むことができる:
【数4】
ここで、wiは第n属性のハイパースペース属性コードであり、xはサンプル画像座標であり、潜在ニューラルネットワーク210からの第i属性(第n属性までを含む)であり、Hiは第i属性ニューラルネットワーク(例えば、iは、第1属性ニューラルネットワーク230から第n属性ニューラルネットワーク235まで変化することができる)であり得る。幾つかの実施形態において、ハイパースペース属性コードは、顔ハイパースペース240の1つ以上の構成要素として含まれ得る。代替的に、又は追加的に、ハイパースペース属性コードは、図3のネットワークアーキテクチャ300に関連して説明されるような、1つ以上の追加のニューラルネットワークによって、さらに処理され得る。
【0054】
幾つかの実施形態では、顔ハイパースペース240は、ワーピングされた座標に関連する1つ以上の次元、ハイパースペースコードに関連する1つ以上の次元、及び/又はハイパースペース属性コードに関連する1つ以上の次元を使用して形成され得る多次元ベクトルであり得る。例えば、顔ハイパースペース240内の点は、本明細書に記載されるように、ワーピングされた座標に関連するx、y、及びz座標、ハイパースペースコードに関連するw座標、及び/又はハイパースペース属性コードに関連するwi...wn座標を含むことができる。
【0055】
幾つかの実施形態において、第1ニューラルネットワーク245は、顔ハイパースペース240ベクトル(例えば、ワーピングされた座標、ハイパースペース符号、及び/又はハイパースペース属性符号)の要素を得ることができ、密度250を出力することができ、ここで、密度250は、本明細書に記載されるように、合成画像及び/又はアバターを生成する際に使用される色(例えば、色密度)に関連することができる。幾つかの実施形態では、密度250を第1ニューラルネットワーク245から出力することができ、ここで密度250は次式によって得られる:
【数5】
ここで、σは密度250であってもよく、x’はワーピングされた座標であってもよく、Wはワーピングされた座標を含まない顔ハイパースペース240の要素であってもよく、Fは第1ニューラルネットワーク245であってもよい。
【0056】
幾つかの実施態様において、第2ニューラルネットワーク260は、第1ニューラルネットワーク245の出力を得ることができ、色265を出力することができ、ここで、色265は、本明細書に記載されるように、合成画像及び/又はアバターを生成する際に使用される色であってもよい。代替的に、又は追加的に、第2ニューラルネットワーク260は、色265を決定する際に第2ニューラルネットワーク260によって使用され得る1つ以上のNeRF入力255を得ることができる。幾つかの実施形態では、NeRF入力255は、潜在的な外観コード及び/又は視野方向を含むことができ、視野方向は、ネットワークアーキテクチャ200によって生成され得る合成画像及び/又はアバターに関連付けられ得る。幾つかの実施形態では、色265は、第2ニューラルネットワーク260から出力され得るが、ここで、色265は、次式によって得られる:
【数6】
ここで、cは、色265であってもよく、F’は、(例えば、x’、ワーピングされた座標及びW、顔ハイパースペース240の要素に基づく)第1ニューラルネットワーク245からの出力であってもよく、dは、視野方向であってもよく、ψは、潜在的な外観コードであってもよく、Gは、第2ニューラルネットワーク260であってもよい。幾つかの実施形態では、第1ニューラルネットワーク245からの出力、視野方向、及び/又は潜在的な外観コードは、一緒に連結され、第2ニューラルネットワーク260に入力されてもよい。
【0057】
幾つかの実施形態では、密度250及び/又は色265は、表示装置上で表示するためのアバターを生成するために使用されてもよい。幾つかの実施形態では、密度250及び/又は色265に基づくアバターは、画像215に類似していてもよい。代替的に、又は追加的に、アバターは、ネットワークアーキテクチャ200内で入力及び/又は選択され得る様々な属性に基づいて、異なる顔の表情など、画像215からの1つ以上の相違点を含むことができる。
【0058】
幾つかの実施形態では、第1の人間の顔に関連付けられたアバター(例えば、ネットワークアーキテクチャ200に入力されたかもしれない第1の人間の顔を描くアバター)が一旦生成されると、生成されたアバターに関連付けられたAU、AU強度、及び/又はAUブロックが第2の人間の顔にコピー及び/又は使用され、第1の人間の顔に関連付けられた表情が第2の人間の顔を描写するアバターに複製され得る。例えば、AU、AU強度、及び/又はAUブロックが第1の人間の顔(例えば、第1の人間の顔を描いたアバターなど)に関連して検出され、検出された値(例えば、AU、AU強度及び/又はAUブロック)が第2の人間の顔を描写する第2アバターに適用され得るので、第1の人間の顔に関連付けられた表情が第2の人間の顔を描写する第2アバターに転送され得る。
【0059】
変更、追加、又は省略が、本開示の範囲から逸脱することなくネットワークアーキテクチャ200に対して行われてよい。例えば、幾つかの実施形態では、ネットワークアーキテクチャ200は、明示され又は記載されないことのある任意の数の他のコンポーネントを含んでよい。
【0060】
図3は、本開示の少なくとも1つの実施形態に従って、アバター制御をサポートするように構成された例示的なネットワークアーキテクチャ300のブロック図である。ネットワークアーキテクチャ300は、不確実性ニューラルネットワーク320及び第1属性ニューラルネットワーク330を含むことができる。幾つかの実施形態において、ネットワークアーキテクチャ300は、ハイパースペースコード305、ワーピングされた座標310、ハイパースペース属性コード315、マスク335、不確実性値325、最終ハイパースペース属性コード340、ハイパースペースマスク345、及び最終ハイパースペースコード350のようなデータの様々な構成要素を利用し、生成し、及び/又は作用することができる。
【0061】
幾つかの実施形態において、不確実性ニューラルネットワーク320及び/又は第1属性ニューラルネットワーク330はフィードフォワード人工ニューラルネットワークであってもよく、不確実性ニューラルネットワーク320及び/又は第1属性ニューラルネットワーク330に含まれるノードは非巡回であってもよい。例えば、不確実性ニューラルネットワーク320及び/又は第1属性ニューラルネットワーク330は、単層パーセプトロンネットワーク、多層パーセプトロンネットワーク、有向非巡回グラフネットワーク、及び/又は任意の他のフィードフォワード人工ニューラルネットワークを個別に含むことができる。
【0062】
幾つかの実施形態では、不確実性ニューラルネットワーク320は、ハイパースペース符号305、ワーピングされた座標310、及び/又は1つ以上のハイパースペース属性コード315を得ることができる。幾つかの実施形態では、ハイパースペースコード305は、図2のハイパースペースニューラルネットワーク225からの出力のようなニューラルネットワークから得ることができる。幾つかの実施形態では、ワーピングされた座標310は、図2の座標ニューラルネットワーク220からの出力のようなニューラルネットワークから得ることができる。幾つかの実施形態では、ハイパースペース属性コード315は、図2の第1属性ニューラルネットワーク230及び/又は第n属性ニューラルネットワーク235からの出力のような、1つ以上のニューラルネットワークから得ることができる。
【0063】
幾つかの実施形態では、不確実性ニューラルネットワーク320は、不確実性値325を出力するように構成することができる。幾つかの実施形態では、不確実性値325は、ネットワークアーキテクチャ300に含まれる属性と関連付けられることができる。例えば、図2のネットワークアーキテクチャ200に関して説明されているように、ハイパースペース属性コード(例えば、ハイパースペース属性コード315)は、属性入力に基づいて、第1属性ニューラルネットワーク230から得ることができる。このように、ハイパースペース属性コード315は、ネットワークアーキテクチャ300及び/又は図2のネットワークアーキテクチャ200のようなネットワークアーキテクチャにおける属性に個別に関連付けられることができる。これら又は他の実施形態では、不確実性値325を使用して、ネットワークアーキテクチャ300に含まれる1つ以上のAU間の潜在的ノイズを低減することができる。例えば、第1不確実性値を(例えば、それは第1属性と関連し得る)第1AUに対して決定し、第2不確実性値を第2AUに対して決定することができ、ここで、第1不確実性値及び/又は第2不確実性値は、各々の属性(例えば、第1属性に対する第1不確実性値及び第2属性に対する第2不確実性値)に対する他の属性のノイズの低減に寄与することができる。これら又は他の実施形態では、不確実性値325は、以下の式によって得ることができる:
【数7】
ここで、βiは不確実性値325であってもよく、x’はワーピングされた座標310であってもよく、wはハイパースペース符号305であってもよく、wiはハイパースペース属性符号315であってもよく、第i属性コードの各々は、第i属性に関連付けられてもよく、Biは不確実性ニューラルネットワーク320であってもよい。
【0064】
幾つかの実施形態では、第1促成ニューラルネットワーク330は、ハイパースペース符号305、座標310、及び/又は1つ以上のハイパースペース属性コード315を得ることができる。幾つかの実施形態では、第1属性ニューラルネットワーク330は、マスク335を出力するように構成することができる。マスク335は、本明細書の図1に関連して記載されているように、意味マスクと関連させることができる。幾つかの実施形態では、マスク335は、第1データからの1つ以上の属性(例えば、人間の顔に関連する属性)と関連させることができる。例えば、図1に関連して説明されるように、複数のAUが単一の意味マスクに関連されるのと同様に、複数の属性がマスク335に関連させることができる。これらの又は他の実施形態では、マスク335は、マスク335に含まれない属性によって引き起こされ得る効果を低減及び/又は打ち消すように構成することができる。例えば、第1属性が意味マスクに含まれ、第2属性が意味マスクに含まれない場合、マスク335は、第1属性に対して第2属性によって引き起こされる効果を除去することができる。幾つかの実施形態では、マスク335は、次式によって得られる:
【数8】
ここで、mjはマスク335であり、x’はワーピングされた座標310であり、wはハイパースペースコード305であり、wj1....wjpはハイパースペース属性コード315であり、Mjは第1属性ニューラルネットワーク330である。
【0065】
幾つかの実施形態では、ハイパースペース属性コード315をマスク335と組み合わせて、最終的なハイパースペース属性コード340を得ることができる。幾つかの実施形態では、最終的なハイパースペース属性コード340を、図2の顔ハイパースペース240のような顔ハイパースペースの1つ以上の構成要素として含めることができる。幾つかの実施形態では、最終的なハイパースペース属性コード340は、次式で示されるハイパースペース属性コード315とマスク335との間のピクセル単位の乗算によって得ることができる:
【数9】
ここで、w’iは最終的なハイパースペース属性コード340であってもよく、wiはハイパースペース属性コード315であってもよく、そしてmjはマスク335(例えば、属性が関連し得るマスク)であってもよい。
【0066】
幾つかの実施態様において、ハイパースペースマスク345は、ハイパースペースコード305及びマスク335を得ることができ、最終的なハイパースペースコード350を出力することができ、ここで、最終的なハイパースペースコード350は、図2の顔ハイパースペース240のような顔ハイパースペースに含まれるハイパースペース値であってもよい。幾つかの実施態様において、ハイパースペースマスク345は、ハイパースペースマスク345が入力として複数のマスクを含むことができるように、属性に関連付けられ得るマスク335を得ることができる。幾つかの実施態様において、最終的なハイパースペースコード350を決定することは、マスク335の組み合わせとハイパースペースコード305とを乗算することによって得られ、以下の式によって示される:
【数10】
ここで、w’は最終的なハイパースペースコード350であってもよく、w0はハイパースペースコード305であってもよく、millionはn番目のマスク335であってもよい(n個のマスクの総和から1を引いたものをハイパースペースコード305と乗算してもよい)。幾つかの実施形態では、ハイパースペースコード305(例えば、w)と、1からn個のマスクの総和を引いた値との乗算は、ピクセル単位の乗算であってもよい。
【0067】
これら又は他の実施形態では、マスクフィールドは、ボリュームレンダリング技術を使用し、第1データ(例えば、人の顔の画像)の一部に関連する少なくとも光線、色密度(例えば、図2の密度250など)、及び第1データに関連するマスク335を使用して、合成画像にレンダリングされてもよい。マスクフィールドは、次式を使用してレンダリングされてもよい:
【数11】
ここで、Mは原点θを有する光線rから見たマスクフィールドであり、Tは時間tの関数としての密度σと光線rに基づく計算値であり、σは光線rの関数としての密度であり、mは光線rと光線方向dの関数としてのマスクであってもよい。代替的に、又は追加的に、マスクフィールドは光線の境界にわたって決定され、近接境界tn及び遠境界tfとして表される。計算値Tは、次式を使用して決定できる:
【数12】
ここで、変数は、マスクフィールドに対して上述したものと同じであってもよい。
【0068】
幾つかの実施形態では、入力画像(例えば、第1データに含まれる人の顔)に対する合成画像に関連する1つ以上の損失を決定することができ、及び/又は合成画像を決定するために使用することができるニューラルネットワークを修正するために使用することができる。幾つかの実施形態では、決定された1つ以上の損失は、再構成損失(例えば、入力画像に基づいて合成画像を再構成することに伴う損失)及び/又は制御損失(例えば、合成画像を生成する際に使用される1つ以上のマスク及び/又は1つ以上の属性に関連し得る損失)を含むことができる。図3に関して説明されているが、損失は、図1の環境100及び/又は図2のアーキテクチャ200のようなシステム全体の一部であってもよい。幾つかの実施形態では、損失は、一連のトレーニング画像C及び次式が与えられると、決定することができる:
【数13】
ここで、θは、本明細書に記載されるように、合成画像を決定するために使用されるニューラルネットワークに関連するネットワークパラメータであってもよく、μcは、潜在変形コード及び/又は潜在的外観コードであってもよい。
【0069】
幾つかの実施形態では、再構成損失(例えば、Lrec)は、2つの部分、つまり入力観察の再構成に関連する一次再構成損失(例えば、Lrecon)及び潜在的コードのガウス先行(例えば、Lreg)を含むことができる:。一次再構成損失は、次式を使用して決定することができる:
【数14】
ここで、Cは、原点θを有する光線rが与えられた場合のトレーニング画像の集合であり、Cgtは、各光線rのトレーニング画像の集合のグラウンドトルースであり、一次再構成損失は、光線の集合Rに含まれる各光線rについて合計される。幾つかの実施形態では、ガウス先行は、次式を使用して決定することができる:
【数15】
ここで、μcは、本明細書に記載されるように、潜在変形コード及び/又は潜在概観コードであってもよい。
【0070】
代替的に、又は追加的に、制御損失(例えば、Lctrl)は、2つの部分、つまり属性マスク損失(例えば、Lmask)及び/又は属性値損失(例えば、Lattr)の2つの部分を含むことができる。属性マスク式は次式を使用して決定することができる:
【数16】
ここで、δc、aは指示子であり、δc、a=1は画像cに対する属性aが提供されることを示し、δc、a=0は、代替的に、CEが、グランドトルースマスクフィールドMgtに対するマスクフィールドMの交差エントロピーを表し、第c画像に関連付けられた第a属性は次式はであり得る:
【数17】
幾つかの実施形態では、属性値損失は、次式を使用して決定することができる:
【数18】
ここで、
【0071】
これら又は他の実施形態において、最終損失は、本明細書で決定される個々の損失の合計であってもよい(例えば、...)。代替的に、又は追加的に、最終損失は、1つ以上の重み付け係数を含んでもよい。総損失は、次式によって決定することができる:
【数19】
ここで、Lfinal、Lrecon、Lreg、Lmask、及びLattrは、ここに記載されているように、各々最終損失、一次再構成損失、潜在コード上のGauss prior、属性マスク損失、及び属性値損失であり、wreg、wmask、及びwattrは、対応する損失値に個別に関連付けられた重み付け係数であり得る。幾つかの実施形態では、重み付け係数は、予め定められた値及び/又は固定値、例えば0と1の間の値であり得る。代替的に、又は追加的に、重み付け係数は、入力画像に基づいて合成画像を決定する過程で、例えば1つ以上のニューラルネットワークによって調整され得る。
【0072】
幾つかの実施形態では、既存の方法と比較して、本開示に記載された1つ以上の方法を使用して合成画像を生成する方法は、既存の方法に対する本開示の少なくとも幾つかの改善を示すことができる。例えば、合成画像から得られたAU強度に基づくクラス内相関(ICC)を使用して、本開示(PD)とCoNeRFとを比較すると、以下が得られる:
【表1】
【0073】
PDと既存の方法の間の別の比較では、ピーク信号対雑音比(PSNR)、マルチスケール構造類似性(MS-SSIM)、及び学習された知覚画像パッチ類似性(LPIPS)を使用して、入力データ上のフレーム補間タスクのような画像のレンダリング品質を評価することができる。本明細書に示される比較に含まれる既存の方法は、NeRF、NeRF+Latent、Nerfies、HyperNeRF、CoNeRF-M、及びCoNeRFを含む。
【表2】
【0074】
変更、追加、又は省略が、本開示の範囲から逸脱することなくネットワークアーキテクチャ300に対して行われてよい。例えば、幾つかの実施形態では、ネットワークアーキテクチャ300は、明示され又は記載されないことのある任意の数の他のコンポーネントを含んでよい。
【0075】
図4は、本開示の少なくとも1つの実施形態に従って、人間の顔に適用される複数のマスクを含む例示的な環境400を示す。幾つかの実施形態において、環境400は、第1意味マスク405、第2意味マスク410、及び第3意味マスク415(総称して意味マスクと呼ばれる)を含むことができる。
【0076】
幾つかの実施形態において、意味マスクは、人間の顔の部分を重ねるなど、人間の顔に関連付けられることができる。幾つかの実施形態において、意味マスクは、本明細書に記載されるようなニューラルネットワークのような装置によって自動的に生成されることができる。幾つかの実施形態において、意味マスクは、本明細書に記載されるように、人間の顔に関して検出された顔のランドマークに基づいて自動的に生成されることができる。3つの意味マスク(例えば、第1意味マスク405、第2意味マスク410、及び第3意味マスク415)として図示されているが、多かれ少なかれ意味マスクは、顔のランドマークの様々なグループに基づいて、人間の顔に関して自動的に生成されることができる。
【0077】
変更、追加、又は省略が、本開示の範囲から逸脱することなく環境400に対して行われてよい。例えば、幾つかの実施形態では環境アーキテクチャ400は、明示され又は記載されないことのある任意の数の他のコンポーネントを含んでよい。
【0078】
図5は、本開示の少なくとも一実施形態によるアバター制御の例示的方法500のフローチャートである。方法500の1つ以上の動作は、幾つかの実施形態では、装置又はシステム、又は装置又はシステムの組合せによって実行され得る。これら及び他の実施形態では、方法500は、1つ以上の非一時的コンピュータ可読媒体に格納された命令の実行に基づき実行されてよい。別個のブロックを示したが、種々のブロックは、所望の実装に依存して、追加ブロックに分けられ、少ないブロックに結合され、又は削除されてよい。
【0079】
方法500は、第1データがデータソース(例えば、図1のデータソース105)から取得され得るブロック502から開始され得る。幾つかの実施形態では、第1データは、各々が人間の顔を含む複数のフレームを含み得る。幾つかの実施形態では、第1データは、スローモーションビデオ記録であり得る。代替的に、又は追加的に、データソースは、単一のビデオ記録装置であり得る。幾つかの実施形態では、データソースは、第1データを得ることができ、画像検出モジュールは、そこから第1データを得ることができる。
【0080】
ブロック504では、画像検出モジュール(例えば、図1の画像検出モジュール110)などにより、複数のフレームの各々において、1つ以上の顔のランドマークを自動的に検出することができる。代替的に、又は追加的に、画像検出モジュールにより、複数のフレームの各々において、1つ以上のAUを自動的に検出することができる。これら又は他の実施形態において、1つ以上の顔のランドマーク及び/又は1つ以上のAUは、人間の顔に関連付けられることができる。幾つかの実施形態において、顔のランドマーク及び/又はAUは、画像検出モジュール及び/又は画像検出モジュールに関連付けられたコンピューティング装置によって自動的に検出されることができる。幾つかの実施形態において、画像検出モジュールは、本明細書に記載されているように、ニューラルネットワークアーキテクチャと組み合わせることができる。
【0081】
ブロック506において、1つ以上の意味マスクを自動的に生成することができる。幾つかの実施形態において、1つ以上の意味マスクは、少なくとも1つ以上の顔のランドマークに基づくことができ、ここで、1つ以上の意味マスクは、個々に人間の顔に対応することができる。幾つかの実施形態において、1つ以上のAUは、1つ以上の意味マスクの境界に対する1つ以上のAUの位置に基づいて、1つ以上の意味マスクに個別に割り当てられることができる。幾つかの実施形態において、意味マスクは、画像検出モジュールによって自動的に生成されることができる。代替的に、又は追加的に、意味マスクは、ニューラルネットワークアーキテクチャによって自動的に生成されることができる。
【0082】
ブロック508では、ニューラルネットワークアーキテクチャ(例えば、図1のニューラルネットワークアーキテクチャ115)による少なくとも第1データ、1つ以上のAU、及び/又は意味マスクを使用して、顔ハイパースペースを構築することができる。幾つかの実施形態では、顔ハイパースペースを構築することは、ネットワークアーキテクチャへの第1データ、1つ以上のAU、及び/又は意味マスクを入力することを含むことができる。幾つかの実施形態では、ネットワークアーキテクチャは、少なくとも潜在ニューラルネットワーク、座標ニューラルネットワーク、ハイパースペースニューラルネットワーク、及び/又は属性ニューラルネットワークを含むことができる。代替的に、又は追加的に、ネットワークアーキテクチャは、第1データ、1つ以上のAU、及び/又は意味マスクを使用して最初にトレーニングされ、ネットワークアーキテクチャは、その後、第1データ及びAU強度を使用して合成画像を生成することができる。
【0083】
ブロック510において、複数のフレームのうちの第1フレーム及び/又は1つ以上のアクションユニットに個別に関連付けられた1つ以上のAU強度を使用して、人間の顔の合成画像を生成することができる。幾つかの実施形態において、1つ以上のAU強度に対する修正は、合成画像に関連付けられた顔の表情に対する修正を引き起こすことができる。幾つかの実施形態において、合成画像は、本明細書に記載されるように、1つ以上の多層パーセプトロンを含むことができるニューラルネットワークアーキテクチャによって生成され得る。
【0084】
幾つかの実施形態において、合成画像は、表示装置(例えば、図1の表示装置120)上で表示され得る。表示される合成画像は、人間の顔を代表し得る。幾つかの実施形態において、AU強度は、AU強度に関連する最小強度値及び/又は最大強度値に基づいて正規化され得る。
【0085】
変更、追加、又は省略が、本開示の範囲から逸脱することなく方法500に対して行われてよい。例えば、幾つかの実施形態では方法500は、明示され又は記載されないことのある任意の数の他のコンポーネントを含んでよい。
【0086】
図6は、本開示の少なくとも1つの実施形態に従って、アバター制御のために使用され得る例示的なコンピューティングシステム600を示す。コンピューティングシステム600は、アバター制御に関連する1つ以上の操作を実装又は指示するように構成され得る。この操作は、図1の環境100、図2のネットワークアーキテクチャ200、図3のネットワークアーキテクチャ300、及び/又は図5の方法500の実行に含まれる1つ以上のコンポーネントの操作を含み得る。コンピューティングシステム600は、プロセッサ602、メモリ604、データ記憶装置606、及び通信ユニット608を含んでよい。これら全ては、通信可能に結合されてよい。幾つかの実施形態において、コンピューティングシステム600は、本開示に記載されたシステム又は装置のいずれかの一部であり得る。
【0087】
プロセッサ602は、任意のコンピューティングエンティティ、又は様々なコンピュータハードウェア又はソフトウェアモジュールを含む処理装置を含み、任意の適用可能なコンピュータ可読記憶媒体に記憶された命令を実行するように構成され得る。例えば、プロセッサ602は、マイクロプロセッサ、マイクロコントローラ、グラフィック処理ユニット(GPU)又はテンソル処理ユニット(TPU)のような並列プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラム命令を解釈し及び/又は実行し及び/又はデータを処理するよう構成される任意の他のデジタル若しくはアナログ回路を含んでよい。
【0088】
図6には単一のプロセッサが示されるが、プロセッサ602は、任意の数のネットワーク又は物理的位置に渡り分散され、個々に又は共同で本願明細書に記載された任意の数の動作を実行するよう構成される、任意の数のプロセッサを含んでよいことが理解される。
【0089】
幾つかの実施形態では、プロセッサ602は、プログラム命令を解釈し及び/又は実行し、及び/又はメモリ604、データ記憶装置606、又はメモリ604及びデータ記憶装置606に格納されたデータを処理するよう構成されてよい。幾つかの実施形態では、プロセッサ602は、プログラム命令をデータ記憶装置606からフェッチし、プログラム命令をメモリ604にロードしてよい。プログラム命令がメモリ604にロードされた後に、プロセッサ602は、プログラム命令を実行してよい。
【0090】
例えば、幾つかの実施形態では、プロセッサ602は、プログラム命令を解釈し及び/又は実行し、及び/又はメモリ604、データ記憶装置606、又はメモリ604及びデータ記憶装置606に格納されたデータを処理するよう構成されてよい。プログラム命令及び/又はデータは、コンピュータシステム600が命令によって指示されるように、それに関連する操作を実行するよう又は実行を指示するように、アバター制御に関連することができる。これら及び他の実施形態では、命令は、図5の方法500を実行するために使用することができる。
【0091】
メモリ604及びデータ記憶装置606は、コンピュータ実行可能命令を運び又は有するコンピュータ可読記憶媒体又は1つ以上のコンピュータ可読記憶媒体、又はそれに記憶されたデータ構造を含んでよい。このようなコンピュータ可読記憶媒体は、プロセッサ602のようなコンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。
【0092】
限定ではなく一例として、このようなコンピュータ可読記憶媒体は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的に消去可能なプログラマブル読み出し専用メモリ(EEPROM)、コンパクトディスク読み出し専用メモリ(CD-ROM)又は他の光ディスク記憶装置、磁気ディスク記憶装置又は他の磁気記憶装置、フラッシュメモリ装置(例えば、固体記憶装置)、又はコンピュータ実行可能命令又はデータ構造の形で特定のプログラムコードを搬送又は記憶するために使用され、コンピュータによってアクセスされ得る他の記憶媒体を含む非一時的コンピュータ可読記憶媒体を含み得る。上記の組み合わせも、コンピュータ可読記憶媒体の範囲に含まれてよい。
【0093】
コンピュータ実行可能命令は、例えば、本開示に記載されているように、プロセッサ602に特定の操作又は操作のグループを実行させるように構成された命令及びデータを含み得る。これら及び他の実施形態では、本開示で説明されるような用語「非一時的」は、Federal Circuit decision of In re Nuijten, 500 F.3d 1346 (Fed. Cir. 2007)における特許可能な主題の範囲に含まれない一時的媒体の種類のみを除外するものと考えられるべきである。上記の組み合わせも、コンピュータ可読媒体の範囲に含まれてよい。
【0094】
通信ユニット608は、ネットワークを介して情報を送信し又は受信するよう構成される、任意のコンポーネント、装置、システム、又はそれらの組み合わせを含んでよい。幾つかの実施形態では、通信ユニット608は、他の場所、同じ場所にある装置、又は同じシステム内の他のコンポーネントと通信してよい。例えば、通信ユニット608は、モデム、ネットワークカード(無線又は有線)、赤外線通信デバイス、無線通信デバイス(4G(LTE)、4.5G(LTE-A)、及び/又は5G(mmWave)通信を実装するアンテナなど)、及び/又はチップセット(Bluetooth(登録商標)デバイス(例えば、Bluetooth5(Bluetooth Low Energy))、802.6デバイス(例えば、Metropolitan Area Network(MAN))、Wi-Fiデバイス(例えば、IEEE802.11ax、WiMAXデバイス、セルラ通信設備など)など)を含むことができる。通信ユニット608は、ネットワーク及び/又は本開示に記載の任意の他の装置又はシステムとのデータ交換を可能にしてよい。
【0095】
変更、追加、又は省略が、本開示の範囲から逸脱することなくコンピューティングシステム600に対して行われてよい。例えば、幾つかの実施形態では、コンピューティングシステム600は、明示され又は記載されないことのある任意の数の他のコンポーネントを含んでよい。さらに、特定の実装に応じて、コンピュータシステム600は、図示及び説明されているコンポーネントの1つ以上を含まないことができる。
【0096】
上述のように、本明細書に記載される実施形態は、様々なコンピュータハードウェア又はソフトウェアモジュールを含むコンピュータシステム(例えば、図6のプロセッサ602)の使用を含むことができる。更に、上述のように、本願明細書に記載の実施形態は、格納されたコンピュータ実行可能命令又はデータ構造を有するコンピュータ可読媒体(例えば、図6のメモリセル604)を用いて実装されてよい。
【0097】
幾つかの実施形態では、本明細書に記載されたものと異なるコンポーネント、モジュール、エンジン、及びサービスが、コンピューティングシステム上で実行するオブジェクト又はプロセス(例えば、別個のスレッド)として実装されてよい。本明細書に記載されたシステム及び方法のうちの一部は、概して(ハードウェアに格納される及び/又はそれにより実行される)ソフトウェアで実装されるとして記載されたが、専用ハードウェア実装又はソフトウェア及び専用ハードウェア実装の組み合わせも、可能であり想定される。
【0098】
本開示で及び特に添付の特許請求の範囲(例えば、添付の請求項本体)で使用される用語は、通常、「広義」の用語として意図される(例えば、用語「含む」は「含むが、これに限定されない」と解釈されるべきであり、用語「有する」は「有するが、これに限定されない」と解釈されるべきである、等)。
【0099】
さらに、特定数の導入された請求項の列挙が意図される場合、このような意図は、請求項中に明示的に示され、このような列挙のない場合、このような意図は存在しない。例えば、理解の支援として、以下の添付の請求項は、請求項の列挙を導入するために、導入フレーズ「少なくとも1つ」及び「1つ以上」の使用を含み得る。しかしながら、このようなフレーズの使用は、同じ請求項が導入フレーズ「1つ以上」又は「少なくとも1つ」及び不定冠詞「a」又は「an」を含むときでも(例えば、「a」及び/又は「an」は「少なくとも1つ」又は「1つ以上」を意味すると解釈されるべきである)、不定冠詞「a」又は「an」による請求項の列挙の導入が、このような導入された請求項の列挙を含む任意の特定の請求項を、1つのこのような列挙のみを含む実施形態に限定することを意味すると考えられるべきではない。つまり、同じことが、請求項の列挙を導入するために使用される定冠詞の使用にも当てはまる。
【0100】
さらに、特定数の導入された請求項の列挙が明示的に記載される場合、当業者は、このような列挙が、少なくとも列挙された数を意味すると解釈されるべきであることを理解する(例えば、他の修飾のない「2つの列挙」の記載は、少なくとも2つの列挙、又は2以上の列挙を意味する)。さらに、「A、B、及びC等のうちの少なくとも1つ」又は「A、B、及びC等のうちの1つ以上」と同様の記載が使用される例では、通常、このような構成は、A単独で、B単独で、C単独で、A及びBを一緒に、A及びCを一緒に、B及びCを一緒に、又はA、B、及びCを一緒に、等を含むことを意図する。更に、用語「及び/又は」の使用は、この方法で解釈されることが意図される。
【0101】
さらに、2以上の選択的な用語を表す任意の離接的な語又はフレーズは、説明、請求項、又は図面にあるかにかかわらず、用語のうちの1つ、用語のうちのいずれか、又は両方の用語を含む可能性を想定すると理解されるべきである。例えば、フレーズ「A又はB」は、用語「及び/又は」が他の場所で使用される場合でも、「A」又は「B」又は「A及びB」の可能性を含むと理解されるべきである。
【0102】
本開示に記載された全ての例及び条件付き言語は、読者が本開示及び本開示が技術を更に発展させることに貢献する概念を理解するのを支援する教示目的を意図しており、そのような具体的に列挙された例及び条件に限定されないと解釈されるべきである。本開示の実施形態は詳細に記載されたが、本開示の精神及び範囲から逸脱することなく、これらに種々の変更、代替、及び選択が行われ得る。
【0103】
以上の実施形態に加えて、更に以下の付記を開示する。
(付記1) データソースから、各々が人間の顔を含む複数のフレームを含む第1データを取得するステップと、
前記複数のフレームの各々において、1つ以上の顔のランドマーク及び前記人間の顔に関連付けられた1つ以上のアクションユニット(AU)を自動的に検出するステップと、
少なくとも前記1つ以上の顔のランドマークに基づいて、1つ以上の意味マスクを自動的に生成するステップであって、前記1つ以上の意味マスクは前記人間の顔に個別に対応する、ステップと、
少なくとも前記第1データ、前記1つ以上のAU、及び前記意味マスクを使用して、顔ハイパースペースを構築するステップと、
前記複数のフレームのうちの第1フレームと、前記1つ以上のAUに個別に関連付けられた1つ以上のAU強度とを使用して、前記人間の顔の合成画像を生成するステップと、
を含む方法。
(付記2) 前記合成画像を表示装置上で表示するステップであって、前記合成画像は前記人間の顔を描写する、ステップと、
を更に含む付記1に記載の方法。
(付記3) 前記AU強度を最小強度値及び最大強度値に基づいて正規化するステップ、
を更に含む付記1に記載の方法。
(付記4) 前記1つ以上のAU強度に対する第1修正が、前記合成画像に関連する顔の表情に対する第2修正を引き起こす、付記1に記載の方法。
(付記5) 前記1つ以上のAUが、前記1つ以上の意味マスクの境界に対する前記1つ以上のAUの位置に基づいて、前記1つ以上の意味マスクに個別に割り当てられる、付記1に記載の方法。
(付記6) 前記第1データがスローモーションビデオ記録であり、前記データソースが単一のビデオ記録装置である、付記1に記載の方法。
(付記7) 前記顔ハイパースペースを構築するステップが、前記第1データ、前記1つ以上のAU、及び前記意味マスクをネットワークアーキテクチャに入力するステップを含む、付記1に記載の方法。
(付記8) 前記ネットワークアーキテクチャが、少なくとも潜在ニューラルネットワーク、座標ニューラルネットワーク、ハイパースペースニューラルネットワーク、及び属性ニューラルネットワークを含む、付記7に記載の方法。
(付記9) 前記ネットワークアーキテクチャは、前記第1データ、前記1つ以上のAU、及び前記意味マスクを使用して最初にトレーニングされ、前記ネットワークアーキテクチャは、その後、前記第1データ及び前記AU強度を使用して前記合成画像を生成する、付記7に記載の方法。
(付記10) システムであって、
命令を格納するよう構成される1つ以上のコンピュータ可読記憶媒体と、
前記1つ以上のコンピュータ可読記憶媒体に通信可能に結合され、前記命令の実行に応答して前記システムに動作を実行させるよう構成される1つ以上のプロセッサと、
を含み、前記動作は、
データソースから、各々が人間の顔を含む複数のフレームを含む第1データを取得するステップと、
前記複数のフレームの各々において、1つ以上の顔のランドマーク及び前記人間の顔に関連付けられた1つ以上のアクションユニット(AU)を自動的に検出するステップと、
少なくとも前記1つ以上の顔のランドマークに基づいて、1つ以上の意味マスクを自動的に生成するステップであって、前記1つ以上の意味マスクは前記人間の顔に個別に対応する、ステップと、
少なくとも前記第1データ、前記1つ以上のAU、及び前記意味マスクを使用して、顔ハイパースペースを構築するステップと、
前記複数のフレームのうちの第1フレームと、前記1つ以上のAUに個別に関連付けられた1つ以上のAU強度とを使用して、前記人間の顔の合成画像を生成するステップと、
を含むシステム。
(付記11) 前記動作は、
前記合成画像を表示装置上で表示するステップであって、前記合成画像は前記人間の顔を描写する、ステップ、
を更に含む、付記10に記載のシステム。
(付記12) 前記動作は、
前記AU強度を最小強度値及び最大強度値に基づいて正規化するステップ、
を更に含む、付記10に記載のシステム。
(付記13) 前記1つ以上のAU強度に対する第1修正が、前記合成画像に関連する顔の表情に対する第2修正を引き起こす、付記10に記載のシステム。
(付記14) 前記1つ以上のAUが、前記1つ以上の意味マスクの境界に対する前記1つ以上のAUの位置に基づいて、前記1つ以上の意味マスクに個別に割り当てられる、付記10に記載のシステム。
(付記15) 前記第1データがスローモーションビデオ記録であり、前記データソースが単一のビデオ記録装置である、付記10に記載のシステム。
(付記16) 前記顔ハイパースペースを構築するステップが、前記第1データ、前記1つ以上のAU、及び前記意味マスクをネットワークアーキテクチャに入力するステップを含む、付記10に記載のシステム。
(付記17) 前記ネットワークアーキテクチャが、少なくとも潜在ニューラルネットワーク、座標ニューラルネットワーク、ハイパースペースニューラルネットワーク、及び属性ニューラルネットワークを含む、付記16に記載のシステム。
(付記18) 前記ネットワークアーキテクチャは、前記第1データ、前記1つ以上のAU、及び前記意味マスクを使用して最初にトレーニングされ、前記ネットワークアーキテクチャは、その後、前記第1データ及び前記AU強度を使用して前記合成画像を生成する、付記16に記載のシステム。
(付記19) システムであって、
データソースから、各々が人間の顔を含む複数のフレームを含む第1データを取得する手段と、
前記複数のフレームの各々において、1つ以上の顔のランドマーク及び前記人間の顔に関連付けられた1つ以上のアクションユニット(AU)を自動的に検出する手段と、
少なくとも前記1つ以上の顔のランドマークに基づいて、1つ以上の意味マスクを自動的に生成する手段であって、前記1つ以上の意味マスクは前記人間の顔に個別に対応する、手段と、
少なくとも前記第1データ、前記1つ以上のAU、及び前記意味マスクを使用して、顔ハイパースペースを構築する手段と、
前記複数のフレームのうちの第1フレームと、前記1つ以上のAUに個別に関連付けられた1つ以上のAU強度とを使用して、前記人間の顔の合成画像を生成する手段と、
を含むシステム。
(付記20) 前記合成画像が前記人間の顔を表すように、前記合成画像を表示装置上で表示する手段、
を更に含む付記19に記載のシステム。
【符号の説明】
【0104】
105 データソース
110 画像検出モジュール
115 ニューラルネットワークアーキテクチャ
120 表示装置
図1
図2
図3
図4
図5
図6