IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン ユーエスエイ,インコーポレイテッドの特許一覧

特表2024-538647リアルタイム3D顔再構成のためのヘッドマウントディスプレイの除去
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-23
(54)【発明の名称】リアルタイム3D顔再構成のためのヘッドマウントディスプレイの除去
(51)【国際特許分類】
   G06T 19/00 20110101AFI20241016BHJP
   G06V 10/82 20220101ALI20241016BHJP
   G06T 5/60 20240101ALI20241016BHJP
   G06T 5/00 20240101ALI20241016BHJP
   G06T 7/00 20170101ALI20241016BHJP
【FI】
G06T19/00 A
G06V10/82
G06T5/60
G06T5/00 700
G06T7/00 350C
G06T7/00 660A
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024519783
(86)(22)【出願日】2022-09-29
(85)【翻訳文提出日】2024-05-14
(86)【国際出願番号】 US2022077260
(87)【国際公開番号】W WO2023056356
(87)【国際公開日】2023-04-06
(31)【優先権主張番号】63/250,464
(32)【優先日】2021-09-30
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
2.VISUAL BASIC
3.PYTHON
4.SWIFT
(71)【出願人】
【識別番号】596130705
【氏名又は名称】キヤノン ユーエスエイ,インコーポレイテッド
【氏名又は名称原語表記】CANON U.S.A.,INC
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】カオ, サイシュー
【テーマコード(参考)】
5B050
5B057
5L096
【Fターム(参考)】
5B050AA10
5B050BA09
5B050BA12
5B050CA08
5B050DA01
5B050EA07
5B050EA13
5B050EA18
5B050EA19
5B050EA26
5B050FA02
5B057CC03
5B057DA16
5B057DC40
5L096DA01
5L096FA09
5L096HA11
(57)【要約】
ビデオストリームにおける顔の一部を遮蔽する装置を除去するためのサーバおよび方法が提供され、ユーザの顔の一部を遮蔽する装置を装着しているユーザの撮像されたビデオデータを受信し、ユーザの顔の遮蔽部分および非遮蔽部分を含むユーザの顔全体を表す顔ランドマークを取得し、取得された顔ランドマークを有するユーザの1つまたは複数のタイプのリファレンス画像を学習された機械学習モデルに提供して、受信された撮像されたビデオデータから装置を除去し、学習された機械学習モデルを用いて、フルフェース画像を含むユーザの三次元データを生成し、ユーザの生成された三次元データを、ユーザの顔の一部を遮蔽する装置のディスプレイに表示させる。
【特許請求の範囲】
【請求項1】
ビデオストリームにおける顔の一部を遮蔽する装置を除去するためのサーバであって、
1つ以上のプロセッサと、
実行時に前記1つ以上のプロセッサが、
前記ユーザの前記顔の前記一部を遮蔽する前記装置を装着しているユーザの撮像されたビデオデータを受信し、
前記ユーザの前記顔の前記遮蔽部分および非遮蔽部分を含む前記ユーザの前記顔全体を表す顔ランドマークを取得し、
前記取得された顔ランドマークを有する前記ユーザの1つまたは複数のタイプのリファレンス画像を、学習された機械学習モデルに提供して、前記受信された撮像されたビデオデータから前記装置を除去し、
前記学習された機械学習モデルを用いて、フルフェース画像を含む前記ユーザの三次元データを生成し、
前記ユーザの前記生成された三次元データを、前記ユーザの前記顔の前記一部を遮蔽する前記装置のディスプレイに表示させる
ように構成する命令を格納する1つ以上のメモリと
を有するサーバ。
【請求項2】
前記顔ランドマークは、リアルタイムのライブ画像撮像処理を介して取得される、請求項1に記載のサーバ。
【請求項3】
前記顔ランドマークは、前記装置を装着していない前記ユーザのリファレンス画像のセットから取得される、請求項1に記載のサーバ。
【請求項4】
前記学習された機械学習モデルはユーザ固有であり、前記ユーザのリファレンス画像のセットを用いて、リファレンス画像の前記セットの各リファレンス画像内の顔ランドマークを識別し、前記ユーザの前記顔を遮蔽する前記装置を除去するときに使用されるリファレンス画像の前記セットのうちの少なくとも1つから上顔画像を予測する、ように学習される、請求項1に記載のサーバ。
【請求項5】
前記モデルは、リファレンス画像の前記セットからの下顔領域を有する下顔領域のライブ撮像画像を用いて、前記下顔領域の前記ライブ撮像画像に対応する上顔領域の顔ランドマークを予測するようにさらに学習される、請求項4に記載のサーバ。
【請求項6】
前記生成された前記フルフェイス画像の三次元データは、前記装置によって遮蔽された前記上顔領域を除去するために、前記ユーザの前記ライブ撮像画像における前記上顔領域にマッピングされるリファレンス画像の前記セットの抽出された上顔領域を用いて生成される、請求項4に記載のサーバ。
【請求項7】
前記命令の実行はさらに前記1つまたは複数のプロセッサが
前記顔の非遮蔽部分の第1の顔ランドマークを取得し、
前記ユーザの前記顔の前記遮蔽部分および非遮蔽部分を含む前記ユーザの前記顔全体を表す第2の顔ランドマークを取得し、
前記第1および第2の取得された顔ランドマークを有する前記ユーザの1つまたは複数のタイプのリファレンス画像を、学習された機械学習モデルに提供して、前記受信された撮像されたビデオデータから前記装置を除去する
ように構成する、請求項1に記載のサーバ。
【請求項8】
ビデオストリームにおける顔の一部を遮蔽する装置を除去するためのコンピュータで実施される方法であって、
前記ユーザの前記顔の前記一部を遮蔽する前記装置を装着しているユーザの撮像されたビデオデータを受信し、
前記ユーザの前記顔の前記遮蔽部分および非遮蔽部分を含む前記ユーザの前記顔全体を表す顔ランドマークを取得し、
前記取得された顔ランドマークを有する前記ユーザの1つまたは複数のタイプのリファレンス画像を、学習された機械学習モデルに提供して、前記受信された撮像されたビデオデータから前記装置を除去し、
前記学習された機械学習モデルを用いて、フルフェース画像を含む前記ユーザの三次元データを生成し、
前記ユーザの前記生成された三次元データを、前記ユーザの前記顔の前記一部を遮蔽する前記装置のディスプレイに表示させる
ことを含む方法。
【請求項9】
リアルタイムでライブ画像撮像処理を介して顔ランドマークを取得することをさらに含む、請求項8に記載の方法。
【請求項10】
前記装置を装着していない前記ユーザのリファレンス画像のセットから顔ランドマークを取得することをさらに含む、請求項8に記載の方法。
【請求項11】
前記学習された機械学習モデルはユーザ固有であり、前記ユーザのリファレンス画像のセットを用いて、リファレンス画像の前記セットの各リファレンス画像内の顔ランドマークを識別し、前記ユーザの前記顔を遮蔽する前記装置を除去するときに使用されるリファレンス画像の前記セットのうちの少なくとも1つから上顔画像を予測する、ように学習される、請求項8に記載の方法。
【請求項12】
前記モデルは、リファレンス画像の前記セットからの下顔領域を有する下顔領域のライブ撮像画像を用いて、前記下顔領域の前記ライブ撮像画像に対応する上顔領域の顔ランドマークを予測するようにさらに学習される、請求項11に記載の方法。
【請求項13】
前記生成された前記フルフェイス画像の三次元データは、前記装置によって遮蔽された前記上顔領域を除去するために、前記ユーザの前記ライブ撮像画像における前記上顔領域にマッピングされるリファレンス画像の前記セットの抽出された上顔領域を用いて生成される、請求項12に記載の方法。
【請求項14】
さらに、
前記顔の非遮蔽部分の第1の顔ランドマークを取得することと、
前記ユーザの前記顔の前記遮蔽部分および非遮蔽部分を含む前記ユーザの前記顔全体を表す第2の顔ランドマークを取得することと、
前記第1および第2の取得された顔ランドマークを有する前記ユーザの1つまたは複数のタイプのリファレンス画像を、学習された機械学習モデルに提供して、前記受信された撮像されたビデオデータから前記装置を除去することと
を有する請求項8に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連アプリケーションの相互参照
本アプリケーションは2021年9月30日に出願された米国仮特許アプリケーション第63/250464号の優先権の利益を主張し、その全体が参照により本明細書に組み込まれる。
【0002】
本開示は、概して、ビデオ画像処理に関する。
【背景技術】
【0003】
最近、複合現実で行われた大きな進歩を考えると、ヘッドセットまたはヘッドマウントディスプレイ(HMD)を使用して、仮想会議または集会ミーティングに参加し、リアルタイムで3D顔で互いに見ることができるようになることが実用的になっている。パンデミックや他の疾病の発生などのいくつかのシナリオでは、人々が直接会うことができないので、これらの集会の必要性はより重要になっている。
【0004】
仮想および/または複合現実を使用して互いの3D顔を見ることができるように、ヘッドセットが必要とされる。しかしながら、ヘッドセットがユーザの顔に配置されると、顔の上部がヘッドセットによってブロックされるので、誰も他の3D顔全体を実際に見ることができない。したがって、ヘッドセットを除去し、ブロックされた上顔領域を3D顔から回復する方法を見つけることは、仮想および/または複合現実における全体的な性能にとって重要である。
【0005】
ヘッドセットからブロックされた顔領域を回復するために利用可能な多くのアプローチがある。これらは、2つの主要なカテゴリーに分けることができる。第1のカテゴリは、リアルタイムで撮像された顔の下部を、ヘッドセットによってブロックされた顔の予測された上部と組み合わせることである。第2のカテゴリはリアルタイム撮像顔領域をマージする必要なしに、システムが顔の上部と下部の両方を含む顔全体を予測するアプローチによって例示することができる。以下に説明されるシステムおよび方法は欠陥を是正する。
【発明の概要】
【0006】
一実施形態によれば、ビデオストリーム内の顔の一部を遮蔽する装置を除去するためのサーバが提供される。サーバは、1つまたは複数のプロセッサと、実行されると動作を実行するように1つまたは複数のプロセッサを構成する命令を記憶する1つまたは複数のメモリと、を含む。動作は、ユーザの顔の一部を遮蔽する装置を装着しているユーザの撮像されたビデオデータを受信し、ユーザの顔の遮蔽部分および非遮蔽部分を含むユーザの顔全体を表す顔ランドマークを取得し、取得された顔ランドマークを有するユーザの1つまたは複数のタイプのリファレンス画像を学習された機械学習モデルに提供して、受信された撮像されたビデオデータから装置を除去し、学習された機械学習モデルを使用してフル顔画像を含むユーザの三次元データを生成し、ユーザの生成された三次元データを、ユーザの顔の一部を遮蔽する装置のディスプレイ上に表示させる。
【0007】
特定の実施形態では、顔ランドマークがリアルタイムでのライブ画像キャプチャ処理を介して取得される。別の実施形態では、顔ランドマークが装置を装着していないユーザのリファレンス画像のセットから取得される。さらなる実施形態では、サーバが顔の非遮蔽部分の第1の顔ランドマークを取得し、ユーザの顔の遮蔽部分および非遮蔽部分を含むユーザの顔全体を表す第2の顔ランドマークを取得し、第1および第2の取得された顔ランドマークを有するユーザの1つまたは複数のタイプのリファレンス画像を学習された機械学習モデルに提供して、受信された撮像されたビデオデータから装置を除去する。
【0008】
さらなる実施形態では、学習された機械学習モデルがユーザ固有であり、ユーザのリファレンス画像のセットを使用して、リファレンス画像のセットの各リファレンス画像内の顔ランドマークを識別し、ユーザの顔を遮蔽する装置を除去するときに使用されるリファレンス画像のセットのうちの少なくとも1つから上顔画像を予測する、ように学習される。他の実施形態では、モデルが、リファレンス画像のセットから下顔領域を有する下顔領域のライブ撮像画像を用いて、下顔領域のライブ撮像画像に対応する上顔領域の顔ランドマークを予測するようにさらに学習される。
【0009】
他の実施形態によれば、フルフェイス画像の生成された3次元データは、装置によって遮蔽された上顔領域を除去するために、ユーザのライブ撮像画像内の上顔領域にマッピングされるリファレンス画像のセットの抽出された上顔領域を使用して生成される。
【0010】
本開示のこれらおよび他の目的、特徴、および利点は、添付の図面および提供される特許請求の範囲と併せて、本開示の例示的な実施形態の以下の詳細な説明を読むことによって明らかになるのであろう。
【図面の簡単な説明】
【0011】
図1A図1Aは、人間の視認範囲を示すグラフである。
図1B図1B~1Dは、ヘッドマウントディスプレイが除去された画像を生成するための先行技術のメカニズムの結果である。
図1C図1B~1Dは、ヘッドマウントディスプレイが除去された画像を生成するための先行技術のメカニズムの結果である。
図1D図1B~1Dは、ヘッドマウントディスプレイが除去された画像を生成するための先行技術のメカニズムの結果である。
図2図2は、本開示によるモデルを構築するための戦略のグラフ表示である。
図3図3は、本開示によるヘッドマウントディスプレイユニットの有無における画像の例示的な事前撮像を示す。
図4A図4A~4Cは、本開示によるヘッドマウントディスプレイなしでユーザが現れる仮想現実に提示されるユーザの画像を生成するためのアルゴリズムを示す。
図4B図4A~4Cは、本開示によるヘッドマウントディスプレイなしでユーザが現れる仮想現実に提示されるユーザの画像を生成するためのアルゴリズムを示す。
図4C図4A~4Cは、本開示によるヘッドマウントディスプレイなしでユーザが現れる仮想現実に提示されるユーザの画像を生成するためのアルゴリズムを示す。
図5A図5A図5Cは、本開示によるヘッドマウントディスプレイ除去処理で使用される例示的な画像撮像処理を示す。
図5B図5A図5Cは、本開示によるヘッドマウントディスプレイ除去処理で使用される例示的な画像撮像処理を示す。
図5C図5A図5Cは、本開示によるヘッドマウントディスプレイ除去処理で使用される例示的な画像撮像処理を示す。
図6A図6A~6Eは、本開示による、撮像画像に基づいて生成されたユーザの顔のモデルを示す。
図6B図6A~6Eは、本開示による、撮像画像に基づいて生成されたユーザの顔のモデルを示す。
図6C図6A~6Eは、本開示による、撮像画像に基づいて生成されたユーザの顔のモデルを示す。
図6D図6A~6Eは、本開示による、撮像画像に基づいて生成されたユーザの顔のモデルを示す。
図6E図6A~6Eは、本開示による、撮像画像に基づいて生成されたユーザの顔のモデルを示す。
図7図7は、本開示による、撮像画像に基づいて生成されたユーザの顔のモデルを示す。
図8図8は、本開示による撮像画像に基づいて生成されたユーザの顔のモデルである。
図9A図9A~9Dは、本開示のヘッドマウントディスプレイ除去アルゴリズムの処理の結果を示す。
図9B図9A~9Dは、本開示のヘッドマウントディスプレイ除去アルゴリズムの処理の結果を示す。
図9C図9A~9Dは、本開示のヘッドマウントディスプレイ除去アルゴリズムの処理の結果を示す。
図9D図9A~9Dは、本開示のヘッドマウントディスプレイ除去アルゴリズムの処理の結果を示す。
図10図10は、本開示によるアルゴリズムを実行する装置のハードウェアコンポーネントを詳述するブロック図である。
【発明を実施するための形態】
【0012】
図面を通して、同じ参照符号および文字は別段の記載がない限り、図示された実施形態の同様の特徴、要素、コンポーネントまたは部分を示すために使用される。さらに、本開示は図面を参照して詳細に説明されるが、例示的な例示的な実施形態に関連してそのように行われる。添付の特許請求の範囲によって定義される本開示の真の範囲および趣旨から逸脱することなく、記載された例示的な実施形態に対して変更および修正を行うことができることが意図される。
【0013】
以下、本開示の例示的な実施形態について、図面を参照しながら詳細に説明する。なお、以下の例示的な実施形態は、本開示を実施するための一例に過ぎず、本開示を適用する装置の個々の構成や各種条件に応じて適宜修正、変更することが可能である。このように、本開示は以下の例示的な実施形態に限定されるものではなく、以下に説明する図面及び実施形態により、例として、以下に説明する状況以外の状況においても、説明される実施形態を適用/実行することができる。さらに、2つ以上の実施形態が記載されている場合、明示的に別段の定めがない限り、各実施形態を互いに組み合わせることができる。これは、当業者が適切であると考えるように、実施形態間で様々なステップおよび機能を置換する能力を含む。
【0014】
仮想現実、複合現実および/または拡張現実アクティビティに従事するときに装着されるヘッドセットによって遮られる顔の上部の画像データを回復または置換するために多くのアプローチが利用可能であるが、合成された人間の3D顔における人間の知覚現象を考慮するときには明らかな問題がある。これは、不気味の谷効果として知られている。このタイプの画像処理に関連する主な問題は、観察者の不明瞭なまたは不思議になじみのある不安感および反発を引き起こす実際の人間に不完全に似ている人型オブジェクトに起因する。不気味の谷の効果を図1Aに示す。図1Aに示すように、人間らしさの特徴が増加すると、我々の感情の親和性が増加する。しかし、人間らしさの特徴がさらに増加することにつれて、我々の感情の親和性は急激に低下し、強い負の感情を誘発する可能性がある。この否定的な感情は、人間らしさの量が100%に近づくにつれて、鋭い落ち込みに示され、「不気味の谷」とラベル付けされる。
【0015】
不気味の谷効果を補正するための特定のメカニズムの画像処理の結果を、「先行技術」と表示された図1B-1Dに示す。これらの先行技術の処理の結果は、ユーザによって装着されたヘッドマウントディスプレイ(HMD)装置を除去するための画像処理に関連する問題を示す。図1Bは、HMDによって覆われた人間の顔の上部が予測され、下顔のライブ撮像画像と組み合わされる第1の解決策を示す。本明細書に示されるように、予測されたHMDブロックされた上顔領域とライブ撮像された下顔領域との間に可視光差が存在し、非常に容易に観察することができる。図1Cは、図1Bに示される第1の解決策の修正バージョンを示しており、これは、人間の知覚の観点から最終出力を自然に見えるようにするために、いくつかのスキューバマスク効果を追加する。これらの解決策は両方とも、予測された領域を実撮像領域にシームレスにマージし、許容可能な品質の画像を生成することが非常に困難であることを示している。図1Dは、予測モデルから人間の顔の上部と下部の両方を全体単位として更新する第3のアプローチを示す。この画像は顔の上側部分と下側部分をマージすることなく生成され、したがって、スキューバマスクの必要性を排除するが、しかし、結果は我々人間が何か不自然なものを識別するのに非常に良好であるため、依然として不気味な効果に悩まされる。
【0016】
以下の開示はHMDを装着しているユーザのライブ撮像画像からHMD除去を実行するためのアルゴリズムを詳細に説明し、これは、不気味の谷の効果を著しく低減する画像を有利に生成する。本明細書で説明するように、アルゴリズムは、ライブ撮像中にユーザによって装着されているHMDヘッドセットによってブロックされるブロック領域と見なされるユーザ顔の一部を回復するために使用されるデータを、アルゴリズムがどのように取得するか、またはそうでなければ生成するかを確立する際の主要な概念を示す。
【0017】
一実施形態では、ユーザの1つまたは複数のキーリファレンスサンプル画像が記録される。これらの1つ以上のキーリファレンスサンプル画像は、HMDが装着されずに記録される。1つまたは複数のキーリファレンスサンプル画像は、顔置換モデルを構築するために使用され、各ユーザについて、構築されたモデルはその特定のユーザのために個人化される。この実施形態では、アイデアが複数のキーリファレンス3D画像を取得するか、またはそうでなければ撮像してメモリに記録することであり、撮像される被写体である特定の個人のためのモデルを構築する。異なる位置および異なる表情を有する姿勢において可能な限り多くのユーザの画像を得る能力は、その個人のモデルを有利に改善する。これは人間の知覚、より具体的には人間の脳によって実行される神経処理から、不気味の谷効果が導出されるので、重要である。人間が「3D世界を見る」ことは一般的に注目されているが、それは誤名である。むしろ、人間の目は3D世界の2D画像を捕捉し、人間によって見られる任意の3D世界は、我々人間の両目視覚を通して2つの目からの2つの2D画像を組み合わせることによって、我々人間の脳の知覚から生じる。これは人間の目によって見られる2つの2D画像を脳が処理することによって生成される知覚であるので、人間の脳は現実の3D世界と人工的に合成された3D世界との間の非常に小さな差異を識別することが得意である。これは実3D世界と合成3D世界との間の類似性が定量的測定に関して改善されるが、その人間の知覚はさらに悪化する可能性がある理由を説明するかもしれない。より具体的には、合成された3D世界から出てくるより多くの詳細が我々人間の知覚がより否定的な情報を生成し、不気味の谷効果を引き起こす可能性がある。
【0018】
本アルゴリズムは、ユーザの情報と、ユーザの顔上のHMDヘッドセットなしで得られるユーザの3D顔画像内の各サンプリングデータ点の値とを含む複数の実撮像画像を使用することによって、不気味の谷効果を有利に低減する。複数の画像を撮像して使用することの重要性は、図2のグラフによって示されている。8つのデータサンプル(例えば、ユーザの8つの個々の画像)があり、202とラベル付けされた線上に点として示されているものとする。これらの8つのデータサンプルに適合するモデルを見つけるために、線形関数または一次多項式を使用して、204とラベル付けされた線(例えば、一次)として示されたこれらのデータ点に適合するモデルを生成することができる。別の実施形態では、二次関数または二次多項式を使用して、線202のデータ点をモデル化することができる。この二次関数は206とラベル付けされた曲線(例えば、二次)に示される。数学的には、二次多項式が少なくともこれらの8つのデータサンプル自体について、一次多項式よりも良好に働くはずである。しかし、2次多項式は、不気味の谷の影響のため、より悪くなる可能性がある。さらに、図2の点Aから示されるように、二次が一次全体よりも良好に機能するとしても、一次は、いくつかのデータポイントについては依然として良好に機能することができる。
【0019】
撮像画像から得られたサンプル点に基づいて使用すべきモデルの不確実性及びHMDを含む撮像画像の一部を除去するために画像処理を実行することに典型的に関連する可能性のある不気味な効果を考慮すると、本明細書に記載のアルゴリズムは、撮像されている特定のユーザの画像から得られたサンプル点の周りに密接に構築されたユーザ固有のモデルを使用する。この考え方は、2つの異なる様態に解釈することができる。第1の態様は、サンプル点をモデルに直接使用することができる場合、それらが我々が得られる最良の予測であるため、それらを使用すべきであるということである。第2の様態は、モデルが各個人に固有であり、これは、図2の線202で8つのデータサンプルを当てはめる方法と同様に、撮像画像から取得したすべてのデータ点を当てはめることができる。撮像画像からHMDを除去するための画像処理の一部として使用されるモデルは、すべてのユーザに当てはまるモデルではなく、各ユーザごとに1つのモデルである。単一のユーザの画像について学習されたモデルを構築および使用することによって、モデルは、リアルタイムで最良の性能を可能にするために線形関数を利用することができる。加えて、ここではセグメント化された線を使用するが、モデル自体はセグメント化された二次関数、セグメント化されたCNNモデル、又はルックアップテーブルベースの解決策に置き換えることができる。
【0020】
第2の実施形態によれば、システムはHMDを装着する直前に、1つまたは複数の2Dライブリファレンス画像を取得する。照明自体の複雑さのために、仮想現実または複合現実において現実の照明を完全にモデル化することは困難である。我々の現実世界の各オブジェクトは他の光源から光を受信した後、他のオブジェクトのための光源としても機能し、各オブジェクト上で見られる最終的な照明は、すべての可能な照明相互作用の間の動的なバランスである。上記の全ては、VR又はARアプリケーションと共に使用するための画像を生成するために画像処理において結果が使用されることができるように、数学的表現を使用して現実世界の照明をモデル化することを極めて困難にする。
【0021】
したがって、本アルゴリズムは、ユーザがHMDを頭に置く直前に撮像されたリファレンス画像を取得することによって、顔画像の予測された上領域を顔の下部領域のリアルタイム撮像画像と有利に組み合わせて、ユーザの顔の上部の予測された領域の我々の画像の照明またはテクスチャを有利に調整する。ユーザの照明に関連する情報及びユーザによって反射された光などの画像特性情報を提供する、HMDなしのライブ入力リファレンス画像を示す図3に一例を示す。画像特性情報は、HMDが除去されたユーザの画像が右側に示されるように、HMDを有する画像からブロックされた領域に対応する上顔領域をアルゴリズムが予測するとき、どのように見えるべきかを知らせる動的照明情報を含む。
【0022】
また、本アルゴリズムは、撮像され、記憶デバイスに格納されるユーザの1つまたは複数のキー画像を利用する。キー画像は、ユーザがHMD装置を装着していないときに画像撮像デバイスによって撮像されたユーザの画像のセットを含む。キー画像は、複数の異なるビューを有するユーザを表す。キー画像は、ユーザが異なる位置で顔を向け、異なる表情をしている一連の画像を含むことができる。ユーザのキー画像は、HMDを装着しているユーザの撮像されたライブ画像からHMDが除去されたときに提供される上顔領域として使用されるべき正しいキー画像を予測するために、リファレンス画像と併せてモデルによって使用される複数のデータ点を提供するために撮像される。リファレンス画像は、1回だけ撮影する必要がある、事前に記録されたキー画像とは異なる。リファレンス画像は、ユーザがHMDを顔に配置する直前、かつ仮想会議に参加する各ユーザがHMDを装着している異なる(または同じ)位置にいる複数のユーザ間の仮想会議などの仮想現実(または拡張現実)アプリケーションにユーザが参加する前に撮影されたライブ画像であり、それらの画像がライブで撮像されているが、仮想現実アプリケーションではHMDなしで顔に現れ、代わりに「現実世界」に現れるように仮想現実環境内に現れる。これは、HMD除去アルゴリズムがHMDを有するユーザのライブ撮像画像を処理し、仮想現実環境内の他の人に示されるレンダリングされた画像内のHMDを置き換えるために、有利に可能にされる。
【0023】
ライブリファレンス画像は、照明環境およびモデル性能の必要性に応じて、1つまたは複数の画像とすることができる。一実施形態では、リファレンス画像は静的であり、頭部、目、及び顔の表情の動きに関する所定の知識に基づいて予め選択される。しかしながら、これは単に例示的なものであり、静的である必要はなく、変更可能である。リファレンス画像の選択は、ユーザの顔の表情の動きの分析に依存する。一部のユーザにとっては、全ての頭の動きおよび顔の表情をカバーするために、ほんの数フレームである。他の場合、リファレンス画像の数は、リファレンス画像としての多数のビデオフレームであり得る。
【0024】
本実施形態によるHMDを除去するための例示的なワークフローは、以下のアルゴリズムで提供される。HMD除去アルゴリズムのワークフローは、図4A図4Cに示すように、データ収集、学習、およびリアルタイムHMD除去を含む3つの段階に分けることができ、上述した第1および第2の実施形態は、図4の枠線のステップに示されている。
【0025】
図4Aは、図4Cに記載されるHMD除去フェーズの実行前に実行され得るデータ収集フェーズのためのアルゴリズムを示す。データ収集フェーズ中に、ユーザのフェーズの画像撮像が実行される。動作中、ビデオまたはスチルカメラなどの画像撮像装置は、ユーザの複数の異なる画像を撮像するように制御される。402では、ユーザの目が異なる方向に動いている複数の画像が存在するユーザの顔を撮像するために、撮像処理が実行される。403では、ユーザの頭部が異なる方向に動いている複数の画像が存在するユーザの顔を撮像するために、撮像処理が実行される。404において、ユーザが異なる顔の表情を作っている複数の画像が存在するユーザの顔を撮像するために、撮像処理が実行される。最後に、405において、異なる顔位置および特性を有する複数の画像を表すデータが収集され、すべての画像が特定のユーザに属することを示す特定のユーザ識別子と関連付けて格納される。動作中、データ収集処理は、ユーザインターフェースを有するデバイスと、携帯電話などの画像撮像装置とを使用して実行され、それによって、1つまたは複数の一連の命令がユーザインターフェース上に表示され、ユーザの十分な量の画像データが撮像されるように、どのような動きおよび表情が特定の時間になされるべきかについてのガイダンスをユーザに提供することができる。データ収集フェーズ中に撮像されたこれらの画像は後述するように、ユーザのユーザ固有モデルを構築するために使用されるキー画像である。より具体的には、図4Aのデータ収集フェーズが有利には目の動き、頭の動き、および顔の表情などの人間の顔のための異なるファクタを変化させることによって、画像データを収集する。図4Aのデータ収集フェーズは、ユーザがHMDを着用していないときに、いくつかの所定の手順に従って、ユーザに目、頭、および顔の表情を動かすように指示することによって行うことができる。一実施形態では、データ収集フェーズで収集される画像データが、ユーザインターフェースディスプレイ上のメッセージによって示されるように、ユーザが目、頭、および顔の指示を動かすビデオであってもよい。別の実施形態では、データ収集フェーズが、ユーザが自発的にそれらのビデオを撮像することによって自動的に実行されてもよく、次いで、シナリオを目、頭、および顔の表情の動きに分類するために、自動分析ステップがここに配置される。
【0026】
図4Aの画像撮像データ収集フェーズで得られた例示的な画像を図5A~5Cに示す。図5A図5Cは、HMDヘッドセットを装着せずにさまざまな目の動き、頭の動き、顔の表情を実行するユーザの画像をデータ収集フェーズに従って撮像した画像データのタイプを示している。図5Aでは、ユーザインターフェース上に表示された命令に応答して、ユーザは頭部を同じ位置に維持しながら、右を見始め、次いで、センタおよび左を見始める眼球運動を行うように命令された一連の画像(個々の静止画像またはビデオ画像データの個々のフレームのいずれか)が撮像される。図5Bでは、ユーザインターフェース上に表示された命令に応答して、ユーザは自然の目の位置を維持しながら、頭を右から左に動かすことによって頭を動かすように命令された一連の画像(個々の静止画像またはビデオ画像データの個々のフレームのいずれか)が撮像される。図5Cでは、ユーザインターフェース上に表示された命令に応答して、ユーザはそれらの表情を行うユーザの画像が撮像されるように、所定の時点で複数の異なる顔の表情を行うように命令された一連の画像(個々の静止画像またはビデオ画像データの個々のフレームのいずれか)が撮像される。一実施形態では、ユーザが1つまたは複数の通常の(または中立表情)、幸福な表情、悲しい表情、驚く表情、および怒りの表情を行うように求められる。これらの表情は、単に例示的なものであり、この処理が接続される仮想現実アプリケーションにおいて使用される期待される性能とシステムの必要性に応じて、ユーザインターフェース上に表示される命令は、任意のタイプの感情表現を行うようにユーザに命令することができる。図5A-5Cに示される、撮像された画像データが収集され、分析され、所定数のキーリファレンス画像がメモリに保存される。画像がメモリに保存されるとき、画像には、ユーザを識別するラベルと、特定の画像において行われている特定の動きまたは表情とを貼り付けることができる。別の実施形態では、ユーザ画像データがユーザが特定の会話を実行すること、または上述のようにキーリファレンス画像が撮像され得るように、ユーザを所望の方法で動かす事前選択された量のテキストを読む、ことを要求する、ユーザインターフェースを収集し得る。
【0027】
キーリファレンス画像データが図4Aにおいて収集されると、アルゴリズムは、図4Bに示される学習処理を実行する。我々の学習は2つの異なる処理を含み、第1の処理は我々の目、頭、および顔の表情の動きに関するキーリファレンス画像を事前に収集されたデータから抽出して記録することであり、第2の部分は、画像データを使用して、図4CのリアルタイムHMD除去処理中に使用されるモデルを構築することである。ステップ410において、撮像画像データが学習モジュールに入力される。ステップ411において、ユーザの目が所定の位置のうちの1つにある各フレームについて、特定の位置における目を表すそれぞれの画像の一部が、第1のタイプのキーリファレンス画像として抽出される。一般に、目の部分を有するこれらのキーリファレンス画像は、それらの対応する目の領域の特徴に基づいてラベル付けされ、ローカルストレージまたはクラウドストレージに事前に保存される。キーリファレンス画像はリアルタイムHMD除去処理中に入力として使用され、リアルタイムHMD除去が実行されているときに、類似の模擬目領域特徴のHMD画像の目領域を置き換える。ステップ412において、ユーザの頭部が所定の位置の1つにある各フレームについて、頭部が特定の位置にあるときのユーザの目を表すそれぞれの画像の一部が、第2のタイプのキーリファレンス画像として抽出される。ステップ413において、ユーザが所定の顔の表情のうちの1つを実行している各フレームについて、ユーザがその特定の表情を行っているときのユーザの目を表すそれぞれの画像の一部が、第3のタイプのキーリファレンス画像として抽出される。第1、第2、および第3のタイプのキーリファレンス画像は、図4Cで後述するリアルタイムHMD除去処理に直接入力される。抽出されたキーリファレンス画像は必要とされる最終性能に応じて、データの1つのフレームのみ、または複数のフレームであってもよい。図4Bの学習アルゴリズムの第2の態様では、図4Aのデータ収集処理中に撮像された画像を使用して、ユーザ固有モデルが414において構築される。ユーザ固有モデルは、411~413で抽出された第1、第2、および第3のタイプのキーリファレンス画像のうちの正しいものが図4CのHMD除去処理によって使用されることを予測するために構築される。ステップ414では、図4Aの処理で収集された各画像から2Dおよび3Dランドマークが取得される。全ての画像データから3Dランドマークを取得した後、ランドマークは2つのカテゴリ:上顔領域および下顔領域に分割される。ステップ414で実行されるランドマーク識別および判定の例を図6A図6Eおよび図7に示す。
【0028】
ステップ411~413において、データが収集されると、ユーザの3D形状およびテクスチャ情報が画像から抽出される。使用されるカメラに応じて、この3D形状情報を得るための2つの異なる方法がある。RGBカメラを使用している場合、オリジナル画像には深度情報は含まれない。したがって、3D形状情報を取得するために、追加の処理ステップが実行される。一般に、人間の顔のランドマークは、ユーザの顔の3D形状情報を導出するための手がかりとして用いられる。図6A~6Eは、3D形状情報がどのように決定されるかを示す。以下の処理は、収集された単一の画像に関して説明され、これは図4Aにおいて取得された任意のキーリファレンス画像を表し得る。しかしながら、この処理は、ユーザに固有の3D顔情報を有利に構築するために収集されたユーザの全ての画像データに対して実行される。図6Aでは、ユーザの顔のサンプル画像が得られる。この画像を取得する際、システムは画像のタイプを知り、その間に、画像が撮像された撮像モード(例えば、眼球運動、頭部運動、または表情撮像)を知る。図6Bは、公的に利用可能なライブラリDLIBを使用して実行され得るような顔ランドマーク識別処理を使用して識別され得る所定数の顔ランドマークを示す。図6Bに示すように、68個の2Dランドマークを抽出した。得られた2Dランドマークを3Dランドマークに変換するために、一連の予め構築された3DMM顔モデルデータが、得られた2Dランドマークに関連する可能性が高い深度情報を導出するために使用される。別の実施形態では、図6Cが2Dランドマークを通過する必要なしに、2D画像から直接3Dランドマークを取得することを示す。この実施形態では、468個の3Dランドマークが公的に利用可能なソフトウェアMediapipeを使用して2D画像から直接抽出された。3Dランドマークが得られると、図6Dは、これらの3Dランドマークが異なる視方向からどのように見えるかを示す。図6Eでは、1つまたは複数の三角形メッシュが、決定された3Dランドマークから生成され、図6Dに示される方向と同様の異なる視野方向から示される。その結果、各ユーザは、データ収集処理中に撮像された画像に基づいて構築された複数の3D三角形顔メッシュとなる。
【0029】
ここでは線形代数モデルを使用して顔全体のランドマークを推定するが、この処理は任意の深層学習モデルに置き換えることもできる。加えて、顔の3Dランドマークは自然にグラフを形成するので、2D顔の3Dランドマークへのマッピングを可能にするためのグラフ畳み込みネットワーク(GCN)のアプローチ、ならびに顔の表情の3Dランドマークのシミュレーションを採用することもできる。
【0030】
なぜなら、我々のHMD除去における重要な段階は、特定のユーザの顔全体の3D形状情報を抽出し、記録することである。アルゴリズム処理はRGB画像撮像装置とRGBd画像撮像装置の両方を使用して実行することができ、RGBd画像撮像装置は、画像撮像処理中に深度情報を取得することができる。図6A図6Eに関して上述したように、RGB画像撮像装置の場合、人の顔の3D形状を回復するステップは、3DMMモデルを使用して実行され、2Dランドマークから3D頂点へのマッピングを可能にし、したがって、2D画像から3D情報を推定することができる。いくつかの他のアプローチは、実際の3Dスキャンデータまたは3DMMからの人工的に生成された3Dデータを使用することによってしばしば学習される、事前に構築されたAIモデルを使用する。しかしながら、この変換処理は、画像撮像装置がRGBdカメラである場合には不要である。各画像の全ての深度情報は、RGBdカメラを介して撮像されると利用可能である。したがって、3DMMモデルを使用してユーザの顔の深度情報を導出するステップは必要ない。代わりに、RGBdカメラを有する場合、顔全体の3D形状情報は、画像撮像処理中に直接取得される。この例を図7に示す。
【0031】
図7は、データ収集処理中に撮像された第1のカラー2D画像を示す。RGBdカメラを用いて画像撮像処理を行う場合、2Dに対応する深度情報も取得されて図7のグラフに示されている。この実施形態では、1つまたは複数の顔ランドマークを識別することに応じて、これらのランドマークの3D形状情報を同時に導出することができる。得られたすべてのランドマークが与えられると、顔からのテクスチャ情報も抽出され、本発明者らのリアルタイムHMD除去のために使用される。
【0032】
図4Bの学習フェーズに戻ると、ステップ414におけるデータ収集フェーズにおいて撮像された画像を使用してモデルが構築され、顔の下部の領域の3Dランドマークから顔の上部の領域の3Dランドマークを予測する。ここでのモデルは、単に形状モデル、または3Dランドマークの形状およびテクスチャモデルの両方であり得る。
【0033】
各画像内のすべてのランドマークまたは頂点の3D形状が得られると、図8に示されるように、それらは一緒になって、1つの上顔および1つの下顔の2つのカテゴリに分離される。左側は、1つの画像上に重ね合わされて得られたすべての頂点およびメッシュの例を示す。右側は上顔と下顔との間の分離を示し、線802は、顔の上側部分と下側部分との間の分離点を表す。顔の下部はユーザがHMDを装着してリアルタイムHMD除去処理を行っている間に撮像されたリアルタイム撮像画像から直接取得することができるが、顔の上部はユーザがHMDを装着しておらず、上顔と下顔の両方が見える学習段階中にのみ見ることができる。
【0034】
ステップ414で構築されたモデルはユーザ固有であり、他のユーザの顔情報に依存しない。すべての3D顔データが個々のユーザから導出されるので、モデルに必要とされる複雑さは著しく低減される。3D形状情報については、必要とされる最終的な精度に応じて、線形最小二乗回帰がモデルを構築するために使用される関数であり得る。以下に、得られたデータを用いて、本発明者らの予測モデルを生成し、下部顔から上部顔を予測する方法について説明する。各画像について、図8の左側に示すように、468個の3Dランドマークを得ることができる。これらのランドマークのうち、アルゴリズムは、上顔部分および下顔部分の各々を表すいくつかの頂点を分類する。図8の右側の画像に示されるように、182個の頂点は線802の下に示される下部顔として分類され、一方、他の286個の頂点は線802の上に示される上顔として分類された。
【0035】
我々の学習データセットに1000枚の画像があるとすると、我々は、下側部分顔の3D頂点、上側部分顔の3D頂点、および学習処理中に構築されるモデル、を表すLface、Uface、およびMLUを用いる。モデルMLUは、下側3D頂点から直接上部3D頂点を予測する。なお、頂点のすべての3D座標は、計算処理を実行するために平坦化される必要があることに留意されたい。例えば、下顔に182個の頂点があるとすると、ここに示すLfaceにおける各行には546個の要素がある:
【0036】
【数1】
【0037】
同様に、Ufaceにおける各行に286個の頂点から858個の要素がある
【0038】
【数2】
【0039】
そのようにして、結果として得られるモデルMLUは、以下のように表される:
【0040】
【数3】
【0041】
線形回帰モデルの誤差は、式1で書くことができる。
【0042】
【数4】
【0043】
式1
最小二乗の目標は、モデル予測からの平均二乗誤差Eを最小化することであり、解決策は、式2に提供される。
【0044】
【数5】
【0045】
式2
モデルMLUは、生成され、メモリに格納され、特定のユーザ識別子に関連付けられたユーザ固有モデルであり、ユーザ識別子に関連付けられたユーザが仮想現実アプリケーションに参加しているとき、HMDを装着しているそのユーザのライブ撮像画像が撮像されている間に、リアルタイムHMD除去アルゴリズムが実行され、その結果、ユーザの最終補正画像がユーザの顔の一部をHMDが遮蔽することなく、あたかもリアルタイム撮像が行われているかのように、仮想現実アプリケーション内の他の参加者(および自分自身)に現れる。線形回帰が予測に使用される可能なモデルである場合、ユーザはこれを限定するものと見なすべきではない。非線形最小二乗、決定ツリー、CNNベースのディープラーニング技法、またはルックアップテーブルベースのモデルさえも含む、任意のモデルが使用され得る。411~413で抽出された上顔部分はHMD除去処理中に置換目的のために事前記録されたリファレンス画像を使用するために使用されるので、モデルの複雑さをさらに低減することは、上顔のテクスチャ情報のためのモデルを構築する必要がないことである。別の実施形態では、モデル構築ステップが、事前に記録された顔画像が異なる照明または顔の表情の動き上の様々な顔のテクスチャのすべてを表すのに不十分である場合、顔の上部のテクスチャ情報を予測する第2のモデルを構築する。
【0046】
図4Cに戻って、ユーザが仮想現実アプリケーションに参加している間に、HMDを装着しているユーザのライブ撮像画像に対して実行されるリアルタイムHMD除去処理について説明する。HMD除去の前に、HMDなしのユーザの1つまたは複数のライブリファレンス画像が、ユーザが顔の一部を遮蔽するようにHMDを配置する直前に記録され、以下で説明するステップS419において使用される。HMD除去処理が実行されている仮想現実アプリケーションに参加する直前に1つまたは複数のライブリファレンス画像を撮像することは、HMD除去処理中に使用される置換上部に関連する1つまたは複数の特性(照明、顔の特徴、または他のテクスチャなど)を適応させるために重要である。
【0047】
ステップ420において、HMDを装着しているユーザのリアルタイムで撮像された各画像について、ステップ421において、下部顔の2Dランドマークが取得され、ステップ422において、これらの2Dランドマークから3Dランドマークが導出される。この抽出および導出は、学習フェーズの間に行われ、上述されたのと同様の方法で行われる。下顔領域の3Dランドマークの決定に応じて、ステップ423において、上顔の3Dランドマークが推定される。この推定は、データ収集における事前に保存されたキーリファレンス画像の上顔をリアルタイムライブ画像の下顔と組み合わせることによって実行され、次いで、3Dランドマークモデルが上顔および下顔の両方のランドマークを含む、顔全体の3Dランドマークを作成するために、組み合わされた画像に適用される。ステップ424では、HMDなしの初期3D顔を合成するために、これらの3Dランドマークについて、初期テクスチャモデルも取得される。最後に、仮想現実アプリケーションへの参加の直前に記録された、撮像された、ステップ419で撮像されたHMDのない1つまたは複数のライブリファレンス画像が、結果として得られる画像に適用される照明を更新する。したがって、ステップ430において、アルゴリズムは、ステップ428において図4Bの学習処理から取得された1つまたは複数のタイプのキー画像を、ステップ419において取得された1つまたは複数のライブリファレンス画像と組み合わせて使用し、ステップ420~428の出力を使用して、ユーザの出力画像を生成するときに適用される顔の3D形状およびテクスチャを、ユーザが仮想現実アプリケーションにおいて、あたかもそのユーザがリアルタイムで撮像されているかのように現れ、HMDを装着していないように、HMDが除去された状態でリアルタイムで更新する。
【0048】
次に、例示的な動作について説明する。モデルが図4Bの学習に従って構築された後、モデルは、上顔の形状およびテクスチャ情報を予測するために有利に使用され(図4Cのステップ430)、HMD除去処理が開始され得る。HMDを装着する直前に、現在のライブビュー照明条件を有するHMDヘッドセットなしのユーザの少なくとも1つのユーザ正面画像が撮像される(図4Cの419)。その背後にある理由は、仮想ミーティングのような仮想現実アプリケーションに参加する直前に、いくつかのライブリファレンス画像が必要であり、これは、キーリファレンス画像がデータ収集および学習(図4Aおよび4B)の間に撮像されたときに存在する照明条件と、ライブ撮像画像からの照明からの現在の照明条件と、から導出される事前撮像照明条件のバランスをとるために、いくつかのアンカーポイントを提供するためである。
【0049】
1つまたは複数のライブリファレンス画像の記録後、図9Aに視覚的に示されるように、リアルタイムHMD除去処理が開始される。図9Aでは、HMDが顔に配置されたユーザの現在のリアルタイム撮像画像が示される。図9Bでは、ライブ撮像画像から、ユーザの顔の2D(および最終的には3D)顔ランドマークが判定される。図から分かるように、この判定は、ユーザが装着するHMDによって遮蔽される上顔領域を必然的に省略する。図9Cは、図9Bにおけるリアルタイムで撮像された下顔領域と、所与の期間に所与の下顔領域について顔の上部領域が何である可能性が高いかを理解するために学習された学習モデルによって決定されたモデルを使用して得られた顔の予測された上部と、を組み合わせた後に得られた全顔3D頂点メッシュを示している。この合成メッシュ(図4cの430)に基づいて、最終出力画像は、図4Bで抽出され、図4Cの428で入力として提供される1つまたは複数の第1、第2または第3のタイプのキーリファレンス画像を使用して中間出力3Dメッシュを、図4Cの419で撮像されたライブリファレンス画像とともに更新することによって生成される。HMD下のブロックされた顔領域を回復し、図9に示すように顔を構築すると、補正された画像は、ユーザの頭部を表す3Dメッシュに戻される。これらの3D頭部は、HMDなしの2D画像を使用して事前に構築することができる。フルヘッド構造へのHMR除去顔のステッチ(stitch)は図8に示すように、3Dランドマーク検出によって識別した顔の境界を用いて行うことができる。そのため、図9Dに示すような結果は、ユーザがHMDを装着している間、リアルタイムでユーザの補正された画像であるが、仮想現実アプリケーションではその時点でユーザがHMDを装着していないかのように、ユーザの画像として提供される。これは、予測および補正を行うために使用されるモデルがユーザ固有であるため、不気味の谷効果に関連する悪影響なしに、ユーザ間のリアルタイム通信を有利に改善する。
【0050】
図10は、3D画像からヘッドマウントディスプレイを除去するためのシステムの例示的な実施形態を示し、システムはサーバ110(または他のコントローラ)を含み、サーバ110は、特別に構成されたコンピューティングデバイスおよびヘッドマウントディスプレイ装置170である。この実施形態では、サーバ110およびヘッドマウントディスプレイ装置170が有線ネットワーク、無線ネットワーク、LAN、WAN、MAN、およびPANを含み得る1つまたは複数のネットワーク199を介して通信する。また、いくつかの実施形態では、デバイスが他の有線または無線チャネルを介して通信する。
【0051】
サーバ110は、1つ以上のプロセッサ111と、1つ以上のI/Oコンポーネント112と、ストレージ113とを含む。また、ハードウェアコンポーネントは、1つまたは複数のバスまたは他の電気接続を介して通信する。バスの例は、ユニバーサルシリアルバス(USB)、IEEE1394バス、PCIバス、アクセラレーテッドグラフィックスポート(AGP)バス、シリアルATアタッチメント(SATA)バス、およびスモールコンピュータシステムインターフェース(SCSI)バスを含む。
【0052】
1つまたは複数のプロセッサ111は、1つまたは複数のマイクロプロセッサ(たとえば、単一コアマイクロプロセッサ、マルチコアマイクロプロセッサ)、1つまたは複数のグラフィックス処理ユニット(GPU)、1つまたは複数のテンソル処理ユニット(TPU)、1つまたは複数の特定用途向け集積回路(ASIC)、1つまたは複数のフィールドプログラマブルゲートアレイ(FPGA)、1つまたは複数のデジタル信号プロセッサ(DSP)、または他の電子回路(たとえば、他の集積回路)を含み得る、1つまたは複数の中央演算処理装置(CPU)を含む。I/Oコンポーネント112は、ヘッドマウントディスプレイ装置、ネットワーク199、および他の入力または出力デバイス(図示せず)と通信する通信コンポーネント(例えば、グラフィックスカード、ネットワークインターフェースコントローラ)を含み、これは、キーボード、マウス、印刷デバイス、タッチスクリーン、ライトペン、光記憶デバイス、スキャナ、マイクロフォン、ドライブ、およびゲームコントローラ(例えば、ジョイスティック、ゲームパッド)を含み得る。
【0053】
ストレージ113は、1つまたは複数のコンピュータ可読記憶媒体を含む。本明細書で使用される場合、コンピュータ可読記憶媒体は例えば、磁気ディスク(例えば、フロッピーディスク(登録商標)、ハードディスク)、光ディスク(例えば、CD、DVD、ブルーレイ)、光磁気ディスク、磁気テープ、および半導体メモリ(例えば、不揮発性メモリカード、フラッシュメモリ、ソリッドステートドライブ、SRAM、DRAM、EPROM、EEPROM)の製造物品を含む。ROMおよびRAMの両方を含み得るストレージ1003は、コンピュータ可読データまたはコンピュータ実行可能命令を記憶することができる。
【0054】
サーバ110は、ヘッドマウントディスプレイ除去モジュール114を含む。モジュールは、ロジック、コンピュータ可読データ、またはコンピュータ実行可能命令を含む。図11に図示の実施形態では、モジュールがソフトウェア(例えば、Assembly、C、C++、C#、Java、BASIC、Perl、Visual Basic、Python、Swift)で実装される。しかしながら、いくつかの実施形態では、モジュールがハードウェア(例えば、カスタマイズされた回路)、または代替的に、ソフトウェアとハードウェアとの組合せで実装される。モジュールが少なくとも部分的にソフトウェアで実装されるとき、ソフトウェアは、ストレージ113に記憶され得る。また、いくつかの実施形態では照明状態検出デバイス1100が追加のまたはより少ないモジュールを含み、モジュールはより少ないモジュールに組み合わされるか、またはモジュールはより多いモジュールに分割される。
【0055】
HMD除去モジュール114は、上述したHMD除去機能を実行するようにプログラムされた動作を含む。
【0056】
ヘッドマウントディスプレイ170は、1つ以上のプロセッサ171と、I/Oコンポーネント172と、1つ以上のストレージデバイス173とを含むハードウェアを含む。このハードウェアはプロセッサ111、I/Oコンポーネント112、およびストレージ103と同様であり、その説明は、ヘッドマウントディスプレイ170内の対応するコンポーネントに適用され、参照によりここに組み込まれる。ヘッドマウントディスプレイ170はまた、サーバ110から情報を運び、ユーザのために表示するための3つの動作モジュールを含む。通信モジュール174は、ネットワーク199から受信した情報を使用HMDディスプレイ170に適合させる。ユーザ設定モジュール175は、ユーザが3D情報がヘッドマウントディスプレイ170のディスプレイ上にどのように表示されるかを調整することを可能にし、レンダリングモジュール176は最終的に、画像をディスプレイにレンダリングするために、すべての3D情報とユーザ設定とを組み合わせる。
【0057】
上述のデバイス、システム、および方法のうちの少なくともいくつかは、少なくとも部分的に、上述の動作を実現するためのコンピュータ実行可能命令を含む1つまたは複数のコンピュータ可読媒体を、コンピュータ実行可能命令を読み取って実行するように構成された1つまたは複数のコンピューティングデバイスに提供することによって実装され得る。システムまたはデバイスはコンピュータ実行可能命令を実行するとき、上述の実施形態の動作を実行する。また、1つまたは複数のシステムまたはデバイス上のオペレーティングシステムは、上述の実施形態の動作の少なくともいくつかを実施することができる。
【0058】
さらに、いくつかの実施形態は、1つまたは複数の機能ユニットを使用して、上述のデバイス、システム、および方法を実行する。機能ユニットはハードウェアのみ(例えば、カスタマイズされた回路)で、またはソフトウェアとハードウェアとの組合せ(例えば、ソフトウェアを実行するマイクロプロセッサ)で実装されてもよい。
【0059】
本発明の範囲は1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、本明細書で説明する本発明の1つまたは複数の実施形態を実行させる命令を記憶する非一時的コンピュータ可読媒体を含む。コンピュータ可読媒体の例は、ハードディスク、フロッピーディスク(登録商標)、光磁気ディスク(MO)、CD-ROM(compact disk read-only memory)、CD-R(compact disk recordable)、CD-RW(CD-Rewritable)、DVD-ROM(digital versatile disk ROM)、DVD-RAM、DVD-RW,DVD+RW、磁気テープ、不揮発性メモリカード、およびROMを含む。コンピュータ実行可能命令はまた、ネットワークを介してダウンロードされることによって、コンピュータ可読記憶媒体に供給され得る。
【0060】
本発明の1つまたは複数の態様を記載する本開示の内容における用語「a」および「an」および「the」および同様の指示対象(referent)の使用(特に、以下の特許請求の範囲の内容における)は、本明細書で別段の指示がない限り、または文脈によって明らかに矛盾しない限り、単数および複数の両方を包含すると解釈されるべきである。用語「備える」、「有する」、「含む」および「包含する」は特に断りのない限り、オープンエンドターム(すなわち「~を含むが限定しない」という意味)として解釈される。本明細書中の数値範囲の記載(recitation)は、本明細書中で特に指摘しない限り、単にその範囲内に該当するそれぞれの個別の値を個々に言及するための略記法としての役割を果たすことだけを意図しており、それぞれの個別の値は本明細書中で個々に列挙されるかのように、明細書に組み込まれる。本明細書で記載した全ての方法は、本明細書に別段の指示がない限り、或いは明らかに文脈に矛盾しない限り、任意の好適な順序で実行され得る。本明細書で提供される任意のおよびすべての例、または例示的な言葉(例えば、「など」)の使用は、本明細書で開示される主題をより明瞭にすることのみを意図し、他に特許請求されない限り、本開示から導出される任意の発明の範囲に対する限定を提示しない。本明細書中のいかなる言語も、特許請求されていない要素を必須であると示すものと解釈されるべきではない。
【0061】
当然のことながら、本開示は様々な実施形態の形態に組み込むことができ、そのうちの少数のみが本明細書に開示されている。これらの実施形態の変形は、前述の説明を読めば当業者には明らかになるのであろう。したがって、本開示およびそれから導出される任意の発明は適用法によって許可されるように、本明細書に添付される特許請求の範囲に列挙される主題のすべての修正および均等物を含む。さらに、本明細書に別段の指示がない限り、または文脈によって明らかに矛盾しない限り、そのすべての可能な変形における上記の要素の任意の組合せが、本開示によって包含される。
図1A
図1B
図1C
図1D
図2
図3
図4A
図4B
図4C
図5A
図5B
図5C
図6A
図6B
図6C
図6D
図6E
図7
図8
図9A
図9B
図9C
図9D
図10
【手続補正書】
【提出日】2024-05-14
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ビデオストリームにおける第1ユーザの顔の一部を遮蔽する第1装置の画像を除去するためのサーバであって、
1つ以上のプロセッサと、
実行時に前記1つ以上のプロセッサが、
前記第1ユーザの前記顔の前記一部を遮蔽する前記装置を装着している前記第1ユーザの撮像されたビデオデータを受信し、
前記第1ユーザの前記顔の前記遮蔽部分および非遮蔽部分を含む前記第1ユーザの第1タイプのリファレンス画像を取得し、
前記撮像されたビデオストリームにおける前記第1ユーザの照明に対応する照明情報を取得し、
前記取得した第1タイプのリファレンス画像に基づき、学習された機械学習モデルを用いて、フルフェース画像を含む前記第1ユーザのデータを生成し、
前記ユーザの前記生成されたデータを、第2ユーザの顔の一部を遮蔽する第2装置のディスプレイに表示させる
ように構成する命令を格納する1つ以上のメモリと
を有するサーバ。
【請求項2】
前記命令の実行はさらに前記1つまたは複数のプロセッサが
ストレージデバイスに記憶されている前記第1タイプのリファレンス画像から、前記第1ユーザの前記顔の前記遮蔽部分および非遮蔽部分を含む前記第1ユーザの顔全体を表す顔ランドマークを取得し、
前記照明情報を含む前記ビデオデータの撮像より前の時間におけるライブ画像撮像処理中に撮像される、前記第1装置を装着していない前記第1ユーザの第2タイプのリファレンス画像を、前記学習された機械学習モデルへの入力として提供し、
前記照明情報を用いることで前記第1ユーザの前記データを生成して、前記第1装置に対応する前記第1タイプのリファレンス画像のうちの前記1つもしくは複数から領域を選択する、
ように構成する、請求項1に記載のサーバ。
【請求項3】
前記照明情報は、前記第1装置を装着していない前記第1ユーザから反射される光と前記第1ユーザに適用される光を特徴付ける情報を含む、請求項1に記載のサーバ。
【請求項4】
前記学習された機械学習モデルはユーザ固有であり、前記第1ユーザのリファレンス画像のセットを用いて、リファレンス画像の前記セットの各リファレンス画像内の顔ランドマークを識別し、前記第1ユーザの前記顔を遮蔽する前記第1装置の前記画像を除去するときに使用される前記第1タイプのリファレンス画像のうちの少なくとも1つから上顔画像を予測する、ように学習される、請求項1に記載のサーバ。
【請求項5】
前記学習された機械学習モデルは、リファレンス画像の前記セットからの下顔領域を有する下顔領域のライブ撮像画像を用いて、前記下顔領域の前記ライブ撮像画像に対応する上顔領域の顔ランドマークを予測するようにさらに学習される、請求項4に記載のサーバ。
【請求項6】
前記フルフェイス画像の前記データは、前記第1装置によって遮蔽された前記上顔領域を除去するために、前記第1ユーザの前記ライブ撮像画像における前記上顔領域にマッピングされるリファレンス画像の前記セットの抽出された上顔領域を用いて生成される3次元データである、請求項4に記載のサーバ。
【請求項7】
前記命令の実行はさらに前記1つまたは複数のプロセッサが
前記顔の非遮蔽部分の第1の顔ランドマークを取得し、
前記ユーザの前記顔の前記遮蔽部分および非遮蔽部分を含む前記ユーザの前記顔全体を表す第2の顔ランドマークを取得し、
前記第1および第2の取得された顔ランドマークを有する前記ユーザの1つまたは複数のタイプのリファレンス画像を、前記学習された機械学習モデルに提供して、前記受信された撮像されたビデオデータから前記装置を除去する
ように構成する、請求項1に記載のサーバ。
【請求項8】
ビデオストリームにおける第1ユーザの顔の一部を遮蔽する第1装置の画像を除去するためのコンピュータで実施される方法であって、
前記第1ユーザの前記顔の前記一部を遮蔽する前記第1装置を装着している前記第1ユーザの撮像されたビデオデータを受信し、
前記第1ユーザの前記顔の前記遮蔽部分および非遮蔽部分を含む前記第1ユーザの第1タイプのリファレンス画像を取得し、
前記撮像されたビデオストリームにおける前記第1ユーザの照明に対応する照明情報を取得し、
前記取得した第1タイプのリファレンス画像に基づき、学習された機械学習モデルを用いて、フルフェース画像を含む前記第1ユーザのデータを生成し、
前記第1ユーザの前記生成されたデータを、第2ユーザの顔の一部を遮蔽する第2装置のディスプレイに表示させる
ことを含む方法。
【請求項9】
ストレージデバイスに記憶されている前記第1タイプのリファレンス画像から、前記第1ユーザの前記顔の前記遮蔽部分および非遮蔽部分を含む前記第1ユーザの顔全体を表す顔ランドマークを取得することと、
前記照明情報を含む前記ビデオデータの撮像より前の時間におけるライブ画像撮像処理中に撮像される、前記第1装置を装着していない前記第1ユーザの第2タイプのリファレンス画像を、前記学習された機械学習モデルへの入力として提供することと、
前記照明情報を用いることで前記第1ユーザの前記データを生成して、前記第1装置に対応する前記第1タイプのリファレンス画像のうちの前記1つもしくは複数から領域を選択することと、
をさらに含む、請求項8に記載の方法。
【請求項10】
前記照明情報は、前記第1ユーザから反射される光と前記第1ユーザに適用される光を特徴付ける情報を含む、請求項8に記載の方法。
【請求項11】
前記学習された機械学習モデルはユーザ固有であり、前記第1ユーザのリファレンス画像のセットを用いて、リファレンス画像の前記セットの各リファレンス画像内の顔ランドマークを識別し、前記第1ユーザの前記顔を遮蔽する前記第1装置の前記画像を除去するときに使用される前記第1タイプのリファレンス画像のうちの少なくとも1つから上顔画像を予測する、ように学習される、請求項8に記載の方法。
【請求項12】
前記学習された機械学習モデルは、リファレンス画像の前記セットからの下顔領域を有する下顔領域のライブ撮像画像を用いて、前記下顔領域の前記ライブ撮像画像に対応する上顔領域の顔ランドマークを予測するようにさらに学習される、請求項11に記載の方法。
【請求項13】
前記フルフェイス画像の前記データは、前記第1装置によって遮蔽された前記上顔領域を除去するために、前記第1ユーザの前記ライブ撮像画像における前記上顔領域にマッピングされるリファレンス画像の前記セットの抽出された上顔領域を用いて生成される3次元データである、請求項12に記載の方法。
【請求項14】
さらに、
前記顔の非遮蔽部分の第1の顔ランドマークを取得することと、
前記ユーザの前記顔の前記遮蔽部分および非遮蔽部分を含む前記ユーザの前記顔全体を表す第2の顔ランドマークを取得することと、
前記第1および第2の取得された顔ランドマークを有する前記ユーザの1つまたは複数のタイプのリファレンス画像を、前記学習された機械学習モデルに提供して、前記受信された撮像されたビデオデータから前記装置を除去することと
を有する請求項8に記載の方法。
【国際調査報告】