(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-03
(45)【発行日】2024-06-11
(54)【発明の名称】顔の表情編集方法、電子デバイス、コンピュータストレージ媒体、及びコンピュータプログラム
(51)【国際特許分類】
G06T 1/00 20060101AFI20240604BHJP
G06T 19/20 20110101ALI20240604BHJP
【FI】
G06T1/00 340A
G06T19/20
(21)【出願番号】P 2022574611
(86)(22)【出願日】2021-01-22
(86)【国際出願番号】 CN2021073361
(87)【国際公開番号】W WO2021244040
(87)【国際公開日】2021-12-09
【審査請求日】2023-01-06
(31)【優先権主張番号】202010510988.1
(32)【優先日】2020-06-05
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】504161984
【氏名又は名称】ホアウェイ・テクノロジーズ・カンパニー・リミテッド
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】リ、ジャオヤン
(72)【発明者】
【氏名】ジャン、シ
(72)【発明者】
【氏名】ヘ、チンチン
(72)【発明者】
【氏名】ジャン、インル
(72)【発明者】
【氏名】リャオ、ジピン
【審査官】岡本 俊威
(56)【参考文献】
【文献】中国特許出願公開第108985241(CN,A)
【文献】米国特許出願公開第2018/0068178(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00
G06T 17/00-19/20
(57)【特許請求の範囲】
【請求項1】
顔の表情編集方法であって、
編集対象画像を取得する段階であって、前記編集対象画像は、ユーザの第1の顔画像を含む、段階と、
前記ユーザの第2の顔画像を含む第1のビデオストリームを取得する段階と、
前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像に基づいて、前記編集対象画像内の前記ユーザの前記第1の顔画像を編集して、予備的に編集された画像を取得する段階であって、前記予備的に編集された画像は、前記ユーザの第3の顔画像を含む、段階と、
前記編集対象画像内の前記ユーザの前記第1の顔画像と、前記予備的に編集された画像内の前記ユーザの前記第3の顔画像と、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像とに基づいて、特徴画像を取得する段階であって、前記特徴画像は、前記ユーザの目及び口腔を含む画像である、段階と、
前記特徴画像と前記予備的に編集された画像内の前記ユーザの前記第3の顔画像とを融合して、編集された画像を取得する段階であって、前記編集された画像は、前記ユーザの第1の顔の表情を含み、前記第2の顔画像は、前記ユーザの第2の顔の表情を含み、前記第1の顔の表情は、前記第2の顔の表情と関連付けられている、段階と
を備える、方法。
【請求項2】
前記第1のビデオストリームは、複数の画像のフレームを含み、
前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像に基づいて、前記編集対象画像内の前記ユーザの前記第1の顔画像を編集する前記段階は、具体的に、
前記第1のビデオストリーム内の前記複数の画像のフレーム内の前記ユーザの前記第2の顔画像に基づいて、前記編集対象画像内の前記ユーザの前記第1の顔画像を編集する段階であって、前記複数の画像のフレームのうちの各画像のフレームは、前記ユーザの前記第2の顔画像を含む、段階
を有する、請求項1に記載の方法。
【請求項3】
前記ユーザの第2の顔画像を含む第1のビデオストリームを取得する前記段階は、具体的に、
カメラを用いて、前記ユーザの前記第2の顔画像を含む前記第1のビデオストリームを取得する段階、前記ユーザの前記第2の顔画像を含む前記第1のビデオストリームを受信する段階、又は前記ユーザの前記第2の顔画像を含む格納された前記第1のビデオストリームを呼び出す段階
を有する、請求項1又は2に記載の方法。
【請求項4】
前記第1の顔の表情が第2の顔の表情と関連付けられていることは、具体的に、
前記第1の顔の表情が前記第2の顔の表情であること、又は
第1のベクトルと第2のベクトルとの間の平均二乗誤差が第1の閾値未満であること
を含み、
前記第1のベクトルは、前記第1の顔の表情を示すベクトルであり、前記第2のベクトルは、前記第2の顔の表情を示すベクトルである、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像に基づいて、前記編集対象画像内の前記ユーザの前記第1の顔画像を編集して、予備的に編集された画像を取得する前記段階は、具体的に、
前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像と、前記編集対象画像内の前記ユーザの前記第1の顔画像とに基づいて、第1の目標パラメータを決定する段階であって、前記第1の目標パラメータは、前記ユーザの顔形状を説明するベクトルである、段階と、
前記第1の目標パラメータと、前記編集対象画像とに基づいて、第2の目標パラメータと、第3の目標パラメータと、第4の目標パラメータとを決定する段階であって、前記第2の目標パラメータは、前記ユーザの顔のサイズを示し、前記第3の目標パラメータは、前記ユーザの3次元の顔の頭部姿勢の回転行列又はオイラー角を示し、前記第4の目標パラメータは、直交座標系内の前記ユーザの3次元の頭部が画像座標系にマッピングされるときに必要とされる並進ベクトルを示す、段階と、
前記第1の目標パラメータと、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像とに基づいて、第5の目標パラメータを決定する段階であって、前記第5の目標パラメータは、前記第1のビデオストリーム内の前記ユーザの顔の表情を説明するベクトルである、段階と、
前記第1の目標パラメータと、前記第2の目標パラメータと、前記第3の目標パラメータと、前記第4の目標パラメータと、前記第5の目標パラメータとに基づいて、目標顔モデルを構築する段階と、
前記目標顔モデルに対してレンダリング及び再構築を実行して、前記予備的に編集された画像を取得する段階と
を有する、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記第1のビデオストリームは、N個の画像を含み、Nは、1よりも大きい整数であり、前記N個の画像の各々は、前記ユーザの前記第2の顔画像を含み、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像と、前記編集対象画像内の前記ユーザの前記第1の顔画像とに基づいて、第1の目標パラメータを決定する段階は、
前記N個の画像の各々の内の前記ユーザの前記第2の顔画像に対してモデリングを実行して、各画像の第1のパラメータを取得する段階であって、各画像の前記第1のパラメータは、各画像内の前記ユーザの顔形状を説明するベクトルである、段階と、
前記編集対象画像内の前記ユーザの前記第1の顔画像に対してモデリングを実行して、前記編集対象画像の第2のパラメータを取得する段階であって、前記第2のパラメータは、前記編集対象画像内の前記ユーザの顔形状を説明するベクトルである、段階と、
前記N個の画像の各々の前記第1のパラメータと、前記編集対象画像の前記第2のパラメータとに基づいて、前記第1の目標パラメータを決定する段階と
を有する、請求項5に記載の方法。
【請求項7】
前記編集対象画像内の前記ユーザの前記第1の顔画像と、前記予備的に編集された画像内の前記ユーザの前記第3の顔画像と、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像とに基づいて、特徴画像を取得する前記段階は、
前記編集対象画像内の前記ユーザの前記第1の顔画像と、前記予備的に編集された画像内の前記ユーザの前記第3の顔画像と、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像とに対して画像セグメント化を別個に実行して、第1の画像と、第2の画像と、第3の画像とを取得する段階であって、前記第1の画像は、前記編集対象画像内にあり且つ前記ユーザの前記目及び前記口腔を含む画像であり、前記第2の画像は、前記予備的に編集された画像内にあり且つ前記ユーザの前記目及び前記口腔を含む画像であり、前記第3の画像は、前記第1のビデオストリーム内にあり且つ前記ユーザの前記目及び前記口腔を含む画像である、段階と、
前記第1の画像と、前記第2の画像と、前記第3の画像とにおける前記ユーザの前記目及び前記口腔の特徴をエンコードして、前記ユーザの前記目及び前記口腔の前記画像の特徴ベクトルを取得する段階と、
前記ユーザの前記目及び前記口腔の前記画像の前記特徴ベクトルに基づいて、前記特徴画像を生成する段階と
を有する、請求項1から6のいずれか一項に記載の方法。
【請求項8】
カメラを用いて、前記ユーザの前記第2の顔画像を含む前記第1のビデオストリームを取得する前記段階の前に、前記方法は、
前記カメラを用いて、前記ユーザの第4の顔画像を含む第2のビデオストリームを取得する段階と、
前記第2のビデオストリーム内の前記ユーザの第4の顔画像から顔の特徴を抽出して、第1の顔の特徴を取得し、前記編集対象画像内の前記ユーザの前記第1の顔画像から顔の特徴を抽出して、第2の顔の特徴を取得する段階と、
前記第1の顔の特徴が前記第2の顔の特徴と一致する場合に、前記カメラを用いて、前記ユーザの前記第2の顔画像を含む前記第1のビデオストリームを取得する段階と
を更に備える、請求項1から7のいずれか一項に記載の方法。
【請求項9】
顔の表情編集方法であって、
第1のデバイスの表示インタフェース上に編集対象画像を表示する段階であって、前記編集対象画像は、ユーザの第1の顔画像を含む、段階と、
前記第1のデバイスの前記表示インタフェース内での第1操作を受信する段階と、
前記第1操作に応答する段階と
、
カメラを用いて、前記ユーザの第2の顔画像を含む第1のビデオストリームを取得する段
階と、
前記第1のビデオストリームから目標画像であって、前記ユーザの目標表情を含む、目標画像を取得し、前記目標画像に基づいて、前記編集対象画像を編集して、編集された画像を取得する段階であって、前記編集された画像内の前記ユーザの表情は、前記編集対象画像内の前記ユーザの顔の表情よりも、前記ユーザの前記目標表情に近い、段階と、
前記第1のデバイスの前記表示インタフェース上に前記編集された画像を表示する段階と
を備
え、
カメラを用いて、前記ユーザの第2の顔画像を含む第1のビデオストリームを取得する前記段階の前に、前記方法は、
前記カメラを用いて、前記ユーザの第4の顔画像を含む第2のビデオストリームを取得する段階と、
前記第2のビデオストリーム内の前記ユーザの前記第4の顔画像から顔の特徴を抽出して、第1の顔の特徴を取得し、前記編集対象画像内の前記ユーザの前記第1の顔画像から顔の特徴を抽出して、第2の顔の特徴を取得する段階と、
前記第1の顔の特徴が前記第2の顔の特徴と一致する場合に、前記カメラを用いて、前記ユーザの前記第2の顔画像を含む前記第1のビデオストリームを取得する段階と
を更に備える、方法。
【請求項10】
前記第1操作は、スライド、クリック、ドラッグ、及び入力のうちの1又は複数を含む、請求項9に記載の方法。
【請求項11】
前記第1のビデオストリームは、複数の画像のフレームを含み、
前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像に基づいて、前記編集対象画像内の前記ユーザの前記第1の顔画像を編集する前記段階は、具体的に、
前記第1のビデオストリーム内の前記複数の画像のフレーム内の前記ユーザの前記第2の顔画像に基づいて、前記編集対象画像内の前記ユーザの前記第1の顔画像を編集する段階であって、前記複数の画像のフレームのうちの各画像のフレームは、前記ユーザの前記第2の顔画像を含む、段階
を有する、請求項9に記載の方法。
【請求項12】
電子デバイスであって、
編集対象画像を取得するように構成された取得ユニットであって、前記編集対象画像は、ユーザの第1の顔画像を含み、前記取得ユニットは、前記ユーザの第2の顔画像を含む第1のビデオストリームを取得するように更に構成されている、取得ユニットと、
前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像に基づいて、前記編集対象画像内の前記ユーザの前記第1の顔画像を編集して、予備的に編集された画像を取得するように構成された編集ユニットであって、前記予備的に編集された画像は、前記ユーザの第3の顔画像を含む、編集ユニットと、
前記編集対象画像内の前記ユーザの前記第1の顔画像と、前記予備的に編集された画像内の前記ユーザの前記第3の顔画像と、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像とに基づいて、特徴画像を取得するように構成された特徴取得ユニットであって、前記特徴画像は、前記ユーザの目及び口腔を含む画像である、特徴取得ユニットと、
前記特徴画像と、前記予備的に編集された画像内の前記ユーザの前記第3の顔画像とを融合して、編集された画像を取得するように構成された融合ユニットあって、前記編集された画像は、前記ユーザの第1の顔の表情を含み、前記第2の顔画像は、前記ユーザの第2の顔の表情を含み、前記第1の顔の表情は、前記第2の顔の表情と関連付けられている、融合ユニットと
を備える、電子デバイス。
【請求項13】
電子デバイスであって、タッチスクリーンと、メモリと、1又は複数のプロセッサとを備え、1又は複数のプログラムは、前記メモリに格納され、前記1又は複数のプロセッサが前記1又は複数のプログラムを実行した場合に、前記電子デバイスは、請求項1から11のいずれか一項に記載の方法を実装することが可能となる、電子デバイス。
【請求項14】
コンピュータ命令を含むコンピュータストレージ媒体であって、前記コンピュータ命令が電子デバイス上で実行されるとき、前記電子デバイスは、請求項1から11のいずれか一項に記載の方法を実行することが可能となる、コンピュータストレージ媒体。
【請求項15】
コンピュータに、請求項1から11のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、画像処理の分野に関し、特に、顔の表情編集方法及び電子デバイスに関する。
【背景技術】
【0002】
コンピュータビジョン技術の発展と共に、個人ID認証、携帯電話ロック解除、スマートプライバシ、アクセス制御カードスワイプ、及びリモートユーザ認証等の複数のセキュリティ関連アプリケーションにおいて成熟したアルゴリズムとしての顔認識が広く用いられている。しかしながら、複数のアプリケーションは、セキュリティ指向に過ぎない。セキュリティに加えて、顔認識は、エフェクト最適化のための技術的基礎、及びより顔に関連したアプリケーションについての倫理的問題を防止するための技術的保証を提供して、ユーザエクスペリエンスを改善し、新興の顔の技術のユーザの使用を標準化できる。
【0003】
スマートフォンの撮影機能は、徐々に高性能になり、美化機能は、携帯電話において広く用いられ、様々なプラグインアプリケーションが始められている。しかしながら、これらアプリケーションのほとんどは、2Dの顔の特徴に基づいて、顔美化方法を用いて、色及び2次元顔の輪郭の観点から編集エフェクトを調整する。近年において、深度情報を捉えることができるカメラが、携帯電話に適用され、3Dの顔に基づく顔美化方法が提案されている。方法は、3次元における顔形状を修正し、異なる顔のエリアに対する色美化修正解決手段を改善し、3次元の顔構造を修正することにより、より現実的なエフェクトを取得することができる。現在、3Dの顔に基づく顔美化は、深度情報を捉えることができるカメラに強く依存している。更に、顔美化のエフェクトを編集することは、色及び形状を美化することに限定されており、表情は、撮影画像について再編集されない。
【発明の概要】
【0004】
本願の実施形態は、顔の表情編集方法及び電子デバイスを提供する。これは、カメラを用いてリアルタイムで捉えられたユーザの顔画像に基づいて、静的写真内のユーザの顔の表情を再編集し、表情再編集機能を実装し、より現実的なエフェクトを実現し、ユーザエクスペリエンスを改善することができる。
【0005】
第1の態様によれば、本願の一実施形態は、
編集対象画像を取得する段階であって、編集対象画像は、ユーザの第1の顔画像を含む、段階と、ユーザの第2の顔画像を含む第1のビデオストリームを取得する段階と、第1のビデオストリーム内のユーザの第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集して、予備的に編集された画像を取得する段階であって、予備的に編集された画像は、ユーザの第3の顔画像を含む、段階と、編集対象画像内のユーザの第1の顔画像と、予備的に編集された画像内のユーザの第3の顔画像と、第1のビデオストリーム内のユーザの第2の顔画像とに基づいて、特徴画像を取得する段階であって、特徴画像は、ユーザの目及び口腔を含む画像である、段階と、特徴画像と予備的に編集された画像内のユーザの第3の顔画像とを融合して、編集された画像を取得する段階とを含む顔の表情編集方法を提供する。編集された画像は、ユーザの第1の顔の表情を含み、第2の顔画像は、ユーザの第2の顔の表情を含み、第1の顔の表情は、第2の顔の表情と関連付けられている。
【0006】
必要に応じて、方法は、第1のデバイスの表示インタフェース内に編集対象画像を表示する段階であって、編集対象画像は、ユーザの第1の顔画像を含む、段階と、第1のデバイスの表示インタフェース内での第1操作を受信する段階と、第1操作に応答する段階であって、第1操作は、ユーザの第1の顔画像に対して顔の表情編集を実行するために用いられ、第1操作は、スライド、クリック、ドラッグ、及び入力のうちの1又は複数を含んでよい、段階と、第1のビデオストリームを取得する段階であって、第1のビデオストリームは、ユーザの第2の顔画像を含む、段階と、第1のビデオストリームから目標画像であって、ユーザの目標表情を含む、目標画像を取得する段階と、目標画像に基づいて、編集対象画像を編集して、編集された画像を取得する段階であって、編集された画像内のユーザの表情は、編集対象画像内のユーザの顔の表情よりも、ユーザの目標表情に近い、段階と、第1のデバイスの表示インタフェース上に編集された画像を表示する段階とを代替的に含んでよい。
【0007】
必要に応じて、第1のビデオストリームは、複数の画像のフレームを含む。第1のビデオストリーム内のユーザの第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集する段階は、第1のビデオストリーム内の複数の画像のフレーム内のユーザの第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集する段階であってよい。複数の画像のフレームの各画像のフレームは、ユーザの第2の顔画像を含む。複数の画像のフレームは、第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集するエフェクトを改善することができる。
【0008】
必要に応じて、ユーザの第2の顔画像を含む第1のビデオストリームを取得する段階は、具体的に、カメラを用いて、ユーザの第2の顔画像を含む第1のビデオストリームを取得する段階、ユーザの第2の顔画像を含む第1のビデオストリームを受信する段階、又はユーザの第2の顔画像を含む格納された第1のビデオストリームを呼び出す段階であってよい。ユーザの第2の顔画像は、ユーザエクスペリエンスを改善するために、複数の方法で取得されてよい。
【0009】
必要に応じて、カメラは、正面カメラであってよい。ユーザは、いかなる追加支援なしで、正面カメラを用いて、ユーザの顔の表情を独立的に編集してよい。
【0010】
必要に応じて、本願における顔画像は、全ての顔の特徴を含む画像又は全ての顔の特徴が電子デバイスによって認識され得る画像、例えば、正面画像、いくつかの顔の特徴(例えば、横顔画像)を含む画像、又は特定のアングルだけ回転された正面画像の画像であってよい。
【0011】
必要に応じて、特徴画像は、ユーザの目及び口腔の画像を含んでよく、ユーザの目及び口腔以外の部分、例えば、耳、鼻、又は眉の画像を更に含んでよい。具体的に、口腔の画像は、口の画像として理解されてもよい。口腔の画像は、口が開かれている口腔画像であってもよいし、口が閉められている口腔画像であってもよい。
【0012】
これにより、美化を実装し、カメラを用いてリアルタイムで捉えられたユーザの顔画像に基づいて、静的写真内のユーザの顔の表情を再編集し、表情再編集機能を実装し、より現実的なエフェクトを実現し、業界において肌色及び顔の輪郭のみを変化させる現在の2D/3D美化を改良し、ユーザエクスペリエンスを改善することができる。
【0013】
第1の態様を参照して、第1の顔の表情が第2の顔の表情と関連付けられていることは、具体的に以下のことを含む。
【0014】
第1の顔の表情が第2の顔の表情であること。代替的に、第1のベクトルと第2のベクトルとの間の平均二乗誤差が第1の閾値未満であること。第1のベクトルは、第1の顔の表情を示すベクトルであり、第2のベクトルは、第2の顔の表情を示すベクトルである。代替的に、第1の顔の表情と第2の顔の表情との間の類似性が第2の閾値未満であること。
【0015】
必要に応じて、第1の閾値は、0.1、0.2、0.5、0.7、又は別の値であってよい。好ましくは、第1の閾値は、0.5である。必要に応じて、第2の閾値は、0.7、0.8、0.85、0.9、又は別の値であってよい。
【0016】
第1の態様及び第1の態様の可能な実装形態のいずれか1つを参照して、第1のビデオストリーム内のユーザの第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集して、予備的に編集された画像を取得する段階は、具体的に、
第1のビデオストリーム内のユーザの第2の顔画像と、編集対象画像内のユーザの第1の顔画像とに基づいて、第1の目標パラメータを決定する段階であって、第1の目標パラメータは、ユーザの顔形状を説明するベクトルである、段階と、第1の目標パラメータと、編集対象画像とに基づいて、第2の目標パラメータと、第3の目標パラメータと、第4の目標パラメータとを決定する段階であって、第2の目標パラメータは、ユーザの顔のサイズを示し、第3の目標パラメータは、ユーザの3次元の顔の頭部姿勢の回転行列又はオイラー角を示し、第4の目標パラメータは、直交座標系内のユーザの3次元の頭部が画像座標系にマッピングされるときに必要とされる並進ベクトルを示す、段階と、第1の目標パラメータと、第1のビデオストリーム内のユーザの第2の顔画像とに基づいて、第5の目標パラメータを決定する段階であって、第5の目標パラメータは、第1のビデオストリーム内のユーザの顔の表情を説明するベクトルである、段階と、第1の目標パラメータと、第2の目標パラメータと、第3の目標パラメータと、第4の目標パラメータと、第5の目標パラメータとに基づいて、目標顔モデルを構築する段階と、目標顔モデルに対してレンダリング及び再構築を実行して、予備的に編集された画像を取得する段階とを含む。
【0017】
第1の態様及び第1の態様の可能な実装形態のいずれか1つを参照して、第1のビデオストリームは、N個の画像を含み、Nは、1よりも大きい整数である。N個の画像の各々は、ユーザの第2の顔画像を含む。第1のビデオストリーム内のユーザの第2の顔画像と、編集対象画像内のユーザの第1の顔画像とに基づいて、第1の目標パラメータを決定する段階は、
N個の画像の各々の内のユーザの第2の顔画像に対してモデリングを実行して、各画像の第1のパラメータを取得する段階であって、各画像の第1のパラメータは、各画像内のユーザの顔形状を説明するベクトルである、段階と、編集対象画像内のユーザの第1の顔画像に対してモデリングを実行して、編集対象画像の第2のパラメータを取得する段階であって、第2のパラメータは、編集対象画像内のユーザの顔形状を説明するベクトルである、段階と、N個の画像の各々の第1のパラメータと、編集対象画像の第2のパラメータとに基づいて、第1の目標パラメータを決定する段階とを含む。
【0018】
精密な顔モデルは、編集対象画像と、第1のビデオストリーム内の顔画像とに基づいて、構築される。写真は、精密な顔モデルに基づいて、再編集される。実際の状況において存在しない内容は、写真に対して追加されない。これにより、ユーザの顔の実際のエフェクトを復元し、高い品質の編集された画像を取得し、敵対的生成ネットワークの低い歩留まりの課題を解消することができる。
【0019】
第1の態様及び第1の態様の可能な実装形態のいずれか1つを参照して、編集対象画像内のユーザの第1の顔画像と、予備的に編集された画像内のユーザの第3の顔画像と、第1のビデオストリーム内のユーザの第2の顔画像とに基づいて、特徴画像を取得する段階は、
編集対象画像内のユーザの第1の顔画像と、予備的に編集された画像内のユーザの第3の顔画像と、第1のビデオストリーム内のユーザの第2の顔画像とに対して画像セグメント化を別個に実行して、第1の画像と、第2の画像と、第3の画像とを取得する段階であって、第1の画像は、編集対象画像内にあり且つユーザの目及び口腔を含む画像であり、第2の画像は、予備的に編集された画像内にあり且つユーザの目及び口腔を含む画像であり、第3の画像は、第1のビデオストリーム内にあり且つユーザの目及び口腔を含む画像である、段階と、第1の画像と、第2の画像と、第3の画像とにおけるユーザの目及び口腔の特徴をエンコードして、ユーザの目及び口腔の画像の特徴ベクトルを取得する段階と、ユーザの目及び口腔の画像の特徴ベクトルに基づいて、特徴画像を生成する段階とを含む。
【0020】
第1の態様及び第1の態様の可能な実装形態のいずれか1つを参照して、カメラを用いて、ユーザの第2の顔画像を含む第1のビデオストリームを取得する段階の前に、本願における方法は、
カメラを用いて、ユーザの第4の顔画像を含む第2のビデオストリームを取得する段階と、第2のビデオストリーム内のユーザの第4の顔画像から顔の特徴を抽出して、第1の顔の特徴を取得し、編集対象画像内のユーザの第1の顔画像から顔の特徴を抽出して、第2の顔の特徴を取得する段階と、第1の顔の特徴が第2の顔の特徴と一致する場合に、カメラを用いて、ユーザの第2の顔画像を含む第1のビデオストリームを取得する段階とを更に含む。
【0021】
編集対象顔画像がユーザの顔画像を含むことが決定され、その結果、ユーザは、そのユーザの顔画像のみを編集することが可能になり、それにより、倫理的問題及び世論を回避する。
【0022】
第1の態様及び第1の態様の可能な実装形態のいずれか1つを参照して、本願における方法は、カメラが第1のビデオストリームを取得することを開始するときに、ユーザの顔の表情編集プロセスのビデオを記録するべきかどうかを決定する段階と、ユーザの顔の表情編集プロセスのビデオを記録することが決定された場合に、編集された画像を取得した後に、ユーザの顔の表情編集プロセスのビデオ内の複数の画像のフレーム又は全ての画像を格納する段階であって、複数の画像のフレーム又は全ての画像は、編集された画像を含む、格納する段階と、ユーザの顔の表情編集プロセスのビデオを記録しないことが決定された場合に、編集された画像を取得した後に、編集された画像を格納する段階とを更に含む。
【0023】
ユーザの顔の表情編集プロセスのビデオ内の複数の画像のフレームは、連続する又は連続しない画像のフレームであってよい。
【0024】
ユーザの顔の表情編集プロセスのビデオが格納されていると、ビデオを閲覧するとき、ユーザは、写真内の顔の表情の美化エフェクトを見ることができ、写真内の他の全員が変更されないままで、ユーザの顔の表情のみが変化しているユニークなエフェクトを見ることができる。
【0025】
第1の態様及び第1の態様の可能な実装形態のいずれか1つを参照して、方法は、
編集対象画像と、第1のビデオストリームと、編集対象画像をリアルタイムで編集することで取得されたエフェクト画像とをリアルタイムで表示する段階を更に含む。
【0026】
ユーザは、編集対象画像と、第1のビデオストリームと、編集対象画像をリアルタイムで編集することで取得されたエフェクト画像とをリアルタイムで表示することにより、編集エフェクトを閲覧してよい。ユーザは更に、現在撮影されたユーザの顔画像が満足なものであるかどうかを、第1のビデオストリームを閲覧することにより決定してよい。顔画像が不満足なものである場合に、ユーザは、適時に、頭部姿勢及び撮影アングルを調整してよい。
【0027】
第2の態様によれば、本願の一実施形態は、
電子デバイスであって、
編集対象画像を取得するように構成された取得ユニットであって、編集対象画像は、ユーザの第1の顔画像を含み、ユーザの第2の顔画像を含む第1のビデオストリームを取得するように構成されている、取得ユニットと、
第1のビデオストリーム内のユーザの第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集して、予備的に編集された画像を取得するように構成された編集ユニットであって、予備的に編集された画像は、ユーザの第3の顔画像を含む、編集ユニットと、
編集対象画像内のユーザの第1の顔画像と、予備的に編集された画像内のユーザの第3の顔画像と、第1のビデオストリーム内のユーザの第2の顔画像とに基づいて、特徴画像を取得するように構成された特徴取得ユニットであって、特徴画像は、ユーザの目及び口腔を含む画像である、特徴取得ユニットと、
特徴画像と予備的に編集された画像内のユーザの第3の顔画像とを融合して、編集された画像を取得するように構成された融合ユニットであって、編集された画像は、ユーザの第1の顔の表情を含み、第2の顔画像は、ユーザの第2の顔の表情を含み、第1の顔の表情は、第2の顔の表情と関連付けられている、融合ユニットと
を含む、電子デバイスを提供する。
【0028】
これにより、美化を実装し、カメラを用いてリアルタイムで捉えられたユーザの顔画像に基づいて、静的写真内のユーザの顔の表情を再編集し、より現実的なエフェクトを実現し、業界において肌色及び顔の輪郭のみを変化させる現在の2D/3D美化を改良し、ユーザエクスペリエンスを改善することができる。
【0029】
必要に応じて、第1のビデオストリームは、複数の画像のフレームを含む。第1のビデオストリーム内のユーザの第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集する段階は、第1のビデオストリーム内の複数の画像のフレーム内のユーザの第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集する段階であってよい。複数の画像のフレームの各画像のフレームは、ユーザの第2の顔画像を含む。複数の画像のフレームは、第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集するエフェクトを改善することができる。
【0030】
必要に応じて、ユーザの第2の顔画像を含む第1のビデオストリームを取得する段階は、具体的に、カメラを用いて、ユーザの第2の顔画像を含む第1のビデオストリームを取得する段階、ユーザの第2の顔画像を含む第1のビデオストリームを受信する段階、又はユーザの第2の顔画像を含む格納された第1のビデオストリームを呼び出す段階であってよい。ユーザの第2の顔画像は、ユーザエクスペリエンスを改善するために、複数の方法で取得されてよい。
【0031】
第2の態様を参照して、第1の顔の表情が第2の顔の表情と関連付けられていることは、具体的に以下のことを含む。
【0032】
第1の顔の表情が第2の顔の表情であること。代替的に、第1のベクトルと第2のベクトルとの間の平均二乗誤差が第1の閾値未満であること。第1のベクトルは、第1の顔の表情を示すベクトルであり、第2のベクトルは、第2の顔の表情を示すベクトルである。代替的に、第1の顔の表情と第2の顔の表情との間の類似性が第2の閾値未満であること。
【0033】
必要に応じて、第1の閾値は、0.1、0.2、0.5、0.7、又は別の値であってよい。好ましくは、第1の閾値は、0.5である。必要に応じて、第2の閾値は、0.7、0.8、0.85、0.9、又は別の値であってよい。
【0034】
第2の態様及び第2の態様の可能な実装形態のいずれか1つを参照して、編集ユニットは、具体的に、
第1のビデオストリーム内のユーザの第2の顔画像と、編集対象画像内のユーザの第1の顔画像とに基づいて、第1の目標パラメータを決定することであって、第1の目標パラメータは、ユーザの顔形状を説明するベクトルである、決定することと、
第1の目標パラメータと、編集対象画像とに基づいて、第2の目標パラメータと、第3の目標パラメータと、第4の目標パラメータとを決定することであって、第2の目標パラメータは、ユーザの顔のサイズを示し、第3の目標パラメータは、ユーザの3次元の顔の頭部姿勢の回転行列又はオイラー角を示し、第4の目標パラメータは、直交座標系内のユーザの3次元の頭部が画像座標系にマッピングされるときに必要とされる並進ベクトルを示す、決定することと、
第1の目標パラメータと、第1のビデオストリーム内のユーザの第2の顔画像とに基づいて、第5の目標パラメータを決定することであって、第5の目標パラメータは、第1のビデオストリーム内のユーザの顔の表情を説明するベクトルである、決定することと、
第1の目標パラメータと、第2の目標パラメータと、第3の目標パラメータと、第4の目標パラメータと、第5の目標パラメータとに基づいて、目標顔モデルを構築することと、
目標顔モデルに対してレンダリング及び再構築を実行して、予備的に編集された画像を取得することと
を行うように構成されている。
【0035】
第2の態様及び第2の態様の可能な実装形態のいずれか1つを参照して、第1のビデオストリームは、N個の画像を含み、Nは、1よりも大きい整数である。N個の画像の各々は、ユーザの第2の顔画像を含む。第1のビデオストリーム内のユーザの第2の顔画像と、編集対象画像内のユーザの第1の顔画像とに基づいて、第1の目標パラメータを決定する間、編集ユニットは、具体的に、
N個の画像の各々の内のユーザの第2の顔画像に対してモデリングを実行して、各画像の第1のパラメータを取得することであって、各画像の第1のパラメータは、各画像内のユーザの顔形状を説明するベクトルである、取得することと、編集対象画像内のユーザの第1の顔画像に対してモデリングを実行して、編集対象画像の第2のパラメータを取得することであって、第2のパラメータは、編集対象画像内のユーザの顔形状を説明するベクトルである、取得することと、N個の画像の各々の第1のパラメータと、編集対象画像の第2のパラメータとに基づいて、第1の目標パラメータを決定することとを行うように構成されている。
【0036】
精密な顔モデルは、編集対象画像と、第1のビデオストリーム内の顔画像とに基づいて、構築される。写真は、精密な顔モデルに基づいて、再編集される。実際の状況において存在しない内容は、写真に対して追加されない。これにより、ユーザの顔の実際のエフェクトを復元し、高い品質の編集された画像を取得し、敵対的生成ネットワークの低い歩留まりの課題を解消することができる。
【0037】
第2の態様及び第2の態様の可能な実装形態のいずれか1つを参照して、特徴取得ユニットは、具体的に、
編集対象画像内のユーザの第1の顔画像と、予備的に編集された画像内のユーザの第3の顔画像と、第1のビデオストリーム内のユーザの第2の顔画像とに対して画像セグメント化を別個に実行して、第1の画像と、第2の画像と、第3の画像とを取得することであって、第1の画像は、編集対象画像内にあり且つユーザの目及び口腔を含む画像であり、第2の画像は、予備的に編集された画像内にあり且つユーザの目及び口腔を含む画像であり、第3の画像は、第1のビデオストリーム内にあり且つユーザの目及び口腔を含む画像である、取得することと、第1の画像と、第2の画像と、第3の画像とにおけるユーザの目及び口腔の特徴をエンコードして、ユーザの目及び口腔の画像の特徴ベクトルを取得することと、ユーザの目及び口腔の画像の特徴ベクトルに基づいて、特徴画像を生成することとを行うように構成されている。
【0038】
第2の態様及び第2の態様の可能な実装形態のいずれか1つを参照して、カメラを用いてユーザの第2の顔画像を含む第1のビデオストリームを取得する前に、取得ユニットは、カメラを用いて、ユーザの第4の顔画像を含む第2のビデオストリームを取得するように更に構成されている。
【0039】
電子デバイスは、
第2のビデオストリーム内のユーザの第4の顔画像から顔の特徴を抽出して、第1の顔の特徴を取得し、編集対象画像内のユーザの第1の顔画像から顔の特徴を抽出して、第2の顔の特徴を取得するように構成された特徴抽出ユニットと、第1の顔の特徴が第2の顔の特徴と一致する場合に、カメラを用いて、ユーザの第2の顔画像を含む第1のビデオストリームを取得するように構成された決定ユニットとを更に含む。
【0040】
編集対象顔画像がユーザの顔画像を含むことが決定され、その結果、ユーザは、そのユーザの顔画像のみを編集することが可能になり、それにより、倫理的問題及び世論を回避する。第2の態様及び第2の態様の可能な実装形態のいずれか1つを参照して、電子デバイスは、
カメラが第1のビデオストリームを取得することを開始するときに、ユーザの顔の表情編集プロセスのビデオを記録するべきかどうかを決定するように構成された判定ユニットと、
ストレージユニットであって、判定ユニットが、ユーザの顔の表情編集プロセスのビデオを記録することを決定した場合に、編集された画像を取得した後に、ユーザの顔の表情編集プロセスのビデオ内の複数の画像のフレーム又は全ての画像を格納し、複数の画像のフレーム又は全ての画像は、編集された画像を含み、判定ユニットが、ユーザの顔の表情編集プロセスのビデオを記録しないことを決定した場合に、編集された画像を取得した後に、編集された画像を格納するように構成された、ストレージユニットと
を更に含む。
【0041】
ユーザの顔の表情編集プロセスのビデオが格納されていると、ビデオを閲覧するとき、ユーザは、写真内の顔の表情の美化エフェクトを見ることができ、写真内の他の全員が変更されないままで、ユーザの顔の表情のみが変化しているユニークなエフェクトを見ることができる。
【0042】
第2の態様及び第2の態様の可能な実装形態のいずれか1つを参照して、電子デバイスは、
編集対象画像と、第1のビデオストリームと、編集対象画像をリアルタイムで編集することで取得されたエフェクト画像とをリアルタイムで表示するように構成された表示ユニットを更に含む。
【0043】
ユーザは、編集対象画像と、第1のビデオストリームと、編集対象画像をリアルタイムで編集することで取得されたエフェクト画像とをリアルタイムで表示することにより、編集エフェクトを閲覧してよい。ユーザは更に、現在撮影されたユーザの顔画像が満足なものであるかどうかを、第1のビデオストリームを閲覧することにより決定してよい。顔画像が不満足なものである場合に、ユーザは、適時に、頭部姿勢及び撮影アングルを調整してよい。
【0044】
第3の態様によれば、本願の一実施形態は、タッチスクリーン、メモリ、及び1又は複数のプロセッサを含む電子デバイスを提供する。1又は複数のプログラムは、メモリに格納される。1又は複数のプロセッサが1又は複数のプログラムを実行した場合に、電子デバイスは、第1の態様に係る方法における段階の一部又は全部を実装することが可能となる。
【0045】
第4の態様によれば、本願の一実施形態は、コンピュータ命令を含むコンピュータストレージ媒体を提供する。コンピュータ命令が電子デバイス上で実行されるとき、電子デバイスは、第1の態様に係る方法における段階の一部又は全部を実行することが可能となる。
【0046】
第5の態様によれば、本願の一実施形態がコンピュータプログラム製品を提供する。コンピュータプログラム製品がコンピュータ上で実行するとき、コンピュータは、第1の態様に係る方法における段階の一部又は全部を実行することが可能となる。
【0047】
本願の実施形態における解決手段において、ユーザは、顔認識を用いて、ユーザの顔の表情を再編集することのみができ、それにより、倫理的問題及び世論を回避する。編集対象画像内のユーザの第1の顔画像は、カメラを用いて取得された第1のビデオストリーム内のユーザの第2の顔画像に基づいて、再編集される。精密な顔モデルは、編集対象画像と、第1のビデオストリーム内の顔画像とに基づいて、構築される。写真は、精密な顔モデルに基づいて、再編集される。実際の状況において存在しない内容は、写真に対して追加されない。これにより、ユーザの顔の実際のエフェクトを復元し、ユーザの顔画像に対する美化を支援し、カメラを用いてリアルタイムで捉えられたユーザの顔画像に基づいて、静的写真内のユーザの顔の表情を再編集し、表情再編集機能を実装し、より現実的なエフェクトを実現し、業界において肌色及び顔の輪郭のみを変化させる現在の2D/3D美化を改良し、ユーザエクスペリエンスを改善することができる。
【0048】
前述の可能な実装形態のいずれか1つは、自然法則を破ることがないことを前提に、自由に組み合わされてよいことが理解されたい。本願では、詳細について説明しない。
【0049】
本願における技術的特徴、技術的解決手段、有益なエフェクト、又は類似した単語の説明は、全ての特徴及び利点がいかなる個々の実施形態において実装され得るものであることを示唆するものではないことが理解されたい。反対に、特徴又は有益なエフェクトの説明は、少なくとも1つの実施形態が具体的な技術的特徴、技術的解決手段、又は有益なエフェクトを含むことを意味することが理解されてよい。したがって、本明細書における技術的特徴、技術的解決手段、又は有益なエフェクトの説明は、必ずしも同じ実施形態に具体的であるとは限らない場合がある。更に、実施形態において説明されている技術的特徴、技術的解決手段、及び有益なエフェクトは、任意の適切な態様において組み合わされてよい。一実施形態が具体的な実施形態において、1又は複数の具体的な技術的特徴又は技術的解決手段、又は有益なエフェクトなしで実装されてよいことが当業者は理解し得る。他の実施形態において、さらなる技術的特徴及び有益なエフェクトは、全ての実施形態を反映していない具体的な実施形態において更に識別されてよい。
【図面の簡単な説明】
【0050】
本願の実施形態における技術的解決手段をより明確に説明するために、以下のことが実施形態を説明するための添付図面を簡単に説明する。以下に説明する添付図面は、単に本願の一部の実施形態を示しているだけであり、当業者であれば今でも、これらの添付図面から創造的な努力をすることなく他の図面を導き出すであろうことは明らかである。
【0051】
【
図1a】本願の一実施形態に係る適用シナリオの概略図である。
【0052】
【
図1b】本願の一実施形態に係る第1の電子デバイスの構造の概略図である。
【0053】
【
図2】本願の一実施形態に係る電子デバイスのソフトウェア構造の概略図である。
【0054】
【
図3】本願の一実施形態に係る顔の表情編集方法の概略フローチャートである。
【0055】
【
図4】本願の一実施形態に係る別の顔の表情編集方法の概略フローチャートである。
【0056】
【
図5】本願の一実施形態に係る顔認識の概略フローチャートである。
【0057】
【
図6】本願の一実施形態に係るユーザの目及び口腔の画像をそれぞれ抽出する概略フローチャートである。
【0058】
【
図7】編集対象画像に対して顔モデリングを実行するエフェクトの概略図である。
【0059】
【
図8】第1のビデオストリーム内の顔画像に対して顔モデリングを実行するエフェクトの概略図である。
【0060】
【
図9】編集された画像のエフェクトの概略図である。
【0061】
【
図10】本願の一実施形態に係る第2の電子デバイスの構造の概略図である。
【0062】
【
図11】本願の一実施形態に係る第3の電子デバイスの構造の概略図である。
【0063】
【
図12】本願の一実施形態に係る第4の電子デバイスの構造の概略図である。
【発明を実施するための形態】
【0064】
以下では、添付図面を参照しながら、本願の実施形態における技術的解決手段を詳細に且つ明確に説明する。
【0065】
以下で言及される「第1」及び「第2」等の用語は、いくつかの場合における説明のためであると意図されるに過ぎず、示された技術的特徴の数の相対的な重要性又は暗黙的インジケーションのインジケーション又は含意として理解されるものではない。したがって、「第1」又は「第2」によって限定される特徴は、1又は複数の特徴を明示的又は黙示的に含み得る。本願の実施形態の説明では、特に指定しない限り、「複数の~」は2つ又はそれより多いことを意味する。
【0066】
以下は、本願の適用シナリオを説明する。
【0067】
図1aは、本願の一実施形態に係る適用シナリオの概略図である。
図1aに示されるように、ユーザが電子デバイスに格納され且つユーザの顔画像を含む画像を編集する必要があるとき、電子デバイスは、ユーザにより選択された編集対象画像を取得する。編集対象画像は、ユーザの第1の顔画像を含む。電子デバイスは、カメラを用いて、ユーザの第2の顔画像を含むビデオストリームを取得し、取得したビデオストリーム内のユーザの第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集して、編集された画像を取得する。編集された画像内のユーザの顔の表情は、第2の顔画像内のユーザの顔の表情と関連付けられている。
【0068】
以下は、前述の電子デバイスに関連した構造を説明する。
図1bは、第1の電子デバイス100の構造の概略図である。
【0069】
電子デバイス100は、図に示されるものより多い、又は、少ないコンポーネントを有し得るか、又は、2以上のコンポーネントが組み合わされ得るか、又は、異なるコンポーネントの構成が使用され得ることが理解されたい。図に示される様々なコンポーネントは、1又は複数の信号処理及び/又は特定用途向け集積回路を含む、ハードウェア、ソフトウェア、又は、ハードウェア及びソフトウェアの組み合わせにおいて実装され得る。
【0070】
電子デバイス100は、プロセッサ110、外部メモリインタフェース120、内部メモリ121、ユニバーサルシリアルバス(universal serial bus、USB)インタフェース130、充電管理モジュール140、電源管理モジュール141、バッテリ142、アンテナ1、アンテナ2、モバイル通信モジュール150、無線通信モジュール160、オーディオモジュール170、スピーカ170A、受信機170B、マイク170C、ヘッドセットジャック170D、センサモジュール180、ボタン190、モータ191、インジケータ192、カメラ193、ディスプレイ194、及び加入者識別モジュール(subscriber identification module、SIM)カードインタフェース195等を含んでよい。センサモジュール180は、圧力センサ180A、ジャイロスコープセンサ180B、気圧センサ180C、磁気センサ180D、加速度センサ180E、距離センサ180F、光学近接センサ180G、指紋センサ180H、温度センサ180J、タッチセンサ180K、周辺光センサ180L、及び骨伝導センサ180M等を含んでよい。
【0071】
本願の本実施形態に示される構造は、電子デバイス100に対して特定の制限をもたらすものでないことが理解され得る。本願のいくつかの他の実施形態において、電子デバイス100は、図に示されているより多くの又はより少ないコンポーネントを含んでもよく、又は、いくつかのコンポーネントが組み合わされてもよく、又は、いくつかのコンポーネントが分割されてもよく、又は、異なるコンポーネントの配置が使用されてもよい。図に示されるコンポーネントは、ハードウェア、ソフトウェア、又は、ソフトウェア及びハードウェアの組み合わせによって実装され得る。
【0072】
プロセッサ110は1又は複数の処理ユニットを含み得る。例えば、プロセッサ110は、アプリケーションプロセッサ(application processor、AP)、モデムプロセッサ、グラフィックス処理ユニット(graphics processing unit、GPU)、画像信号プロセッサ(image signal processor、ISP)、コントローラ、メモリ、ビデオコーデック、デジタル信号プロセッサ(digital signal processor、DSP)、ベースバンドプロセッサ、ニューラルネットワーク処理ユニット(Neural-network Processing Unit、NPU)及び/又は同様のものを含み得る。異なる処理ユニットは、独立したコンポーネントであり得る、又は、1又は複数のプロセッサに統合され得る。
【0073】
コントローラは、電子デバイス100の中枢部及び司令部であってよい。コントローラは、命令オペレーションコード及び時系列信号に基づき動作制御信号を生成して、命令読み出し及び命令実行の制御を完了してよい。
【0074】
メモリは更に、プロセッサ110に配置され得、命令及びデータを格納するように構成されている。いくつかの実施形態において、プロセッサ110内のメモリは、キャッシュメモリである。メモリは、プロセッサ110により用いられたことがある又は周期的に用いられる命令又はデータを格納してよい。プロセッサ110が命令又はデータを再び使用する必要がある場合に、プロセッサは命令又はデータをメモリから直接的に呼び出すことができる。これにより反復アクセスを回避し、プロセッサ110の待機時間を低減し、システム効率を改善する。
【0075】
いくつかの実施形態において、プロセッサ110は1又は複数のインタフェースを含み得る。このインタフェースは、集積回路間(inter-integrated circuit、I2C)インタフェース、集積回路間サウンド(inter-integrated circuit sound、I2S)インタフェース、パルス符号変調(pulse code modulation、PCM)インタフェース、汎用非同期式受信機/送信器(universal asynchronous receiver/transmitter、UART)インタフェース、モバイルインダストリプロセッサインタフェース(mobile industry processor interface、MIPI)、汎用入力/出力(general-purpose input/output、GPIO)インタフェース、加入者識別モジュール(subscriber identity module、SIM)インタフェース、及び/又はユニバーサルシリアルバス(universal serial bus、USB)インタフェース等を含んでよい。
【0076】
本願の本実施形態に示されるモジュール間のインタフェース接続関係は、説明のための一例に過ぎず、電子デバイス100の構造に限定をもたらすものではないことが理解され得る。本願のいくつかの他の実施形態では、電子デバイス100は代替的に、前述の実施形態のものとは異なるインタフェース接続方式を使用するか、又は複数のインタフェース接続方式の組み合わせを使用することができる。
【0077】
充電管理モジュール140は、充電入力を充電器から受信するように構成されている。充電器は、無線充電器又は有線充電器であり得る。
【0078】
電源管理モジュール141は、バッテリ142及び充電管理モジュール140をプロセッサ110に接続するように構成されている。電源管理モジュール141は、バッテリ142及び/又は充電管理モジュール140の入力を受信して、プロセッサ110、内部メモリ121、外部メモリ、ディスプレイ194、カメラ193、及び無線通信モジュール160等に電力を供給する。
【0079】
電子デバイス100の無線通信機能は、アンテナ1、アンテナ2、モバイル通信モジュール150、無線通信モジュール160、モデムプロセッサ、ベースバンドプロセッサ、及び同様のものを用いることによって実装され得る。
【0080】
電子デバイス100は、GPU、ディスプレイ194、及びアプリケーションプロセッサ等を通じて表示機能を実装してよい。GPUは、画像処理のためのマイクロプロセッサであり、ディスプレイ194及びアプリケーションプロセッサに接続されている。GPUは、数学的及び幾何学的計算を実行し、画像をレンダリングするように構成されている。プロセッサ110は、表示情報を生成又は変更するためにプログラム命令を実行する1又は複数のGPUを含み得る。
【0081】
ディスプレイ194は、画像及びビデオ等を表示するように構成されている。ディスプレイ194は表示パネルを含む。表示パネルは、液晶ディスプレイ(liquid crystal display、LCD)、有機発光ダイオード(organic light-emitting diode、OLED)、アクティブマトリクス有機発光ダイオード(active-matrix organic light emitting diode、AMOLED)、フレキシブル発光ダイオード(flexible light-emitting diode、FLED)、ミニLED、マイクロLED、マイクロOLED、量子ドット発光ダイオード(quantum dot light emitting diode、QLED)等であってよい。いくつかの実施形態において、電子デバイス100は、1個又はN個のディスプレイ194を含み得る。Nは、1よりも大きい正の整数である。
【0082】
電子デバイス100は、ISP、カメラ193、ビデオコーデック、GPU、ディスプレイ194、及びアプリケーションプロセッサなどを用いて撮影機能を実装することができる。
【0083】
ISPは、カメラ193によってフィードバックされたデータを処理するように構成されている。例えば、撮影中にシャッタが押され、光がレンズを通じてカメラの感光素子へ送られる。光信号は電気信号へと変換され、カメラの感光素子は、電気信号を可視画像へと変換するための処理のために、電気信号をISPに伝送する。ISPは更に、画像のノイズ、輝度、及び肌の色に対してアルゴリズム最適化を実行し得る。ISPは更に、撮影シナリオの露光及び色温度等のパラメータを最適化し得る。いくつかの実施形態において、ISPはカメラ193内に配置され得る。
【0084】
カメラ193は、静止画像又はビデオを捉えられるように構成されている。オブジェクトの光学画像は、レンズを通じて生成され、感光素子に投影される。感光素子は、電荷結合素子(charge coupled device、CCD)又は相補型金属酸化物半導体(complementary metal-oxide-semiconductor、CMOS)フォトトランジスタであり得る。感光素子は光信号を電気信号に変換し、次に、ISPに電気信号を伝送して、電気信号をデジタル画像信号に変換する。ISPは、処理するためのデジタル画像信号をDSPへ出力する。DSPは、デジタル画像信号をRGB又はYUV等の標準形式の画像信号に変換する。本願の実施形態において、カメラ193は、顔認識に必要な画像を捉えるカメラ、例えば、赤外線カメラ又は別のカメラを含む。顔認識に必要な画像を収集するためのカメラは、通常、電子デバイスの正面、例えばタッチスクリーンの上方に位置し、又は別の位置に位置してよい。これは、本願の実施形態において限定されない。いくつかの実施形態において、電子デバイス100は、別のカメラを含んでよい。電子デバイスは、ドットマトリックス送信機(不図示)を更に含んで、光を発してよい。カメラは、顔により反射された光を収集して、顔画像を取得する。プロセッサは、顔画像を処理し且つ分析し、検証のために、格納された顔画像情報と顔画像を比較する。
【0085】
デジタル信号プロセッサは、デジタル信号を処理するように構成され、上記デジタル画像信号に加えて別のデジタル信号を処理してよい。例えば、電子デバイス100が周波数を選択するとき、デジタル信号プロセッサは周波数エネルギーに対してフーリエ変換を実行するように構成されている。
【0086】
ビデオコーデックは、デジタルビデオを圧縮又は展開するように構成されている。電子デバイス100は1又は複数のビデオコーデックをサポートし得る。このように、電子デバイス100は、複数のコード形式、例えば、ムービング・ピクチャ・エキスパーツ・グループ(moving picture experts group、MPEG)-1、MPEG-2、MPEG-3、及びMPEG-4で、ビデオを再生又は記録してよい。
【0087】
NPUは、ニューラルネットワーク(neural-network、NN)コンピューティングプロセッサである。NPUは、生物学的ニューラルネットワークの構造を参照にすることにより、例えば、人間の脳神経細胞間の転送モードを参照することにより、入力情報を迅速に処理し、更に、自己学習を継続的に実行し得る。電子デバイス100のインテリジェントコグニション等のアプリケーション、例えば、画像認識、顔認識、音声認識、及びテキスト理解は、NPUを通じて実装されてよい。
【0088】
外部メモリインタフェース120は、外部ストレージカード、例えば、micro SDカード、に接続して、電子デバイス100のストレージ能力を拡張してよい。外部ストレージカードは、データストレージ機能を実装するために、外部メモリインタフェース120を通じてプロセッサ110と通信する。例えば、音楽及びビデオ等のファイルは、外部ストレージカードに格納される。
【0089】
内部メモリ121は、コンピュータ実行可能プログラムコードを格納するように構成され得る。実行可能プログラムコードは命令を含む。プロセッサ110は、内部メモリ121に格納された命令を実行して、電子デバイス100の様々な機能アプリケーションとデータ処理とを実行する。内部メモリ121は、プログラムストレージ領域及びデータストレージ領域を含み得る。プログラムストレージ領域は、オペレーティングシステム、及び少なくとも1つの機能(例えば、顔認識機能、指紋認識機能、及びモバイル支払い機能)により必要とされるアプリケーション等を格納してよい。データストレージ領域は、電子デバイス100が用いられるときに作成されたデータ(例えば、顔の情報テンプレートデータ及び指紋情報テンプレート)等を格納してよい。更に、内部メモリ121は、高速ランダムアクセスメモリを含んでもよいし、不揮発性メモリ、例えば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリ、又は汎用フラッシュストレージ(universal flash storage、UFS)を含んでもよい。
【0090】
電子デバイス100は、例えば、オーディオモジュール170、スピーカ170A、受信機170B、マイク170C、ヘッドセットジャック170D、アプリケーションプロセッサなどを通じて、音楽再生及び記録等のオーディオ機能を実装し得る。
【0091】
オーディオモジュール170は、デジタルオーディオ情報を出力のためにアナログオーディオ信号に変換するように構成され、また、アナログオーディオ入力をデジタルオーディオ信号に変換するように構成される。
【0092】
スピーカ170Aは、「ラウドスピーカ」とも称され、オーディオ電気信号を音声信号に変換するように構成されている。
【0093】
「イヤホン」とも称される受信機170Bは、オーディオ電気信号を音声信号に変換するように構成されている。
【0094】
「マイク(mike)」又は「マイク(mic)」とも称されるマイクロフォン170Cは、音声信号を電気信号に変換するように構成される。
【0095】
ヘッドセットジャック170Dは有線ヘッドセットに接続するように構成されている。ヘッドセットジャック170Dは、USBインタフェース130であってもよく、3.5mmオープンモバイル端末プラットフォーム(open mobile terminal platform,OMTP)規格のインタフェースであってもよく、米国セルラ通信工業会(cellular telecommunications industry association of the USA、CTIA)規格のインタフェースであってもよい。
【0096】
圧力センサ180Aは、圧力信号を検知するように構成され、圧力信号を電気信号に変換し得る。いくつかの実施形態において、圧力センサ180Aは、ディスプレイ194上に配置されてよい。抵抗式圧力センサ、誘導式圧力センサ、及び静電容量式圧力センサ等の複数のタイプの圧力センサ180Aが存在する。
【0097】
ジャイロスコープセンサ180Bは、電子デバイス100の移動姿勢を決定するように構成されてよい。いくつかの実施形態において、3軸(すなわち軸x、y、及びz)周りの電子デバイス100の角速度は、ジャイロスコープセンサ180Bを通じて決定されてよい。
【0098】
光学近接センサ180Gは、例えば、発光ダイオード(LED)及び光検出器、例えばフォトダイオードを含み得る。発光ダイオードは赤外発光ダイオードであり得る。
【0099】
周辺光センサ180Lは、周辺光輝度を検知するように構成されている。電子デバイス100は、検知された周辺光輝度に基づいて、ディスプレイ194の輝度を適応的に調整し得る。周辺光センサ180Lは、撮影中のホワイトバランスを自動的に調整するように構成されてもよい。
【0100】
指紋センサ180Hは指紋を収集するように構成されている。電子デバイス100は、収集された指紋の特徴を用いて、指紋ベースのロック解除、アプリケーションロックアクセス、指紋ベースの撮影及び指紋ベースの通話応答等を実装し得る。指紋センサ180Hは、タッチスクリーンの下方に配置されていてよい。電子デバイス100は、指紋認識が成功した後の隠れたアルバムを開くこと、指紋認識が成功した後の隠れたアプリケーションを開始すること、指紋認識が成功した後のアカウントロギング、指紋認識が成功した後の支払い、及び本願の実施形態において説明されること等を実装するために、タッチスクリーン上の指紋センサに対応するエリアにおけるユーザのタッチ操作を受信し、タッチ操作に応答して、ユーザの指の指紋情報を収集することができる。
【0101】
温度センサ180Jは、温度を検出するように構成されている。いくつかの実施形態において、電子デバイス100は、温度センサ180Jにより検出された温度を通じて、温度処理ポリシを実行する。
【0102】
タッチセンサ180Kは、タッチパネルとも称される。タッチセンサ180Kはディスプレイ194に配置され得、タッチセンサ180K及びディスプレイ194は、「タッチスクリーン」とも称されるタッチ画面を構成する。タッチセンサ180Kは、タッチセンサ上又はタッチセンサの近くで実行されたタッチ操作を検出するように構成されている。タッチセンサは、検出されたタッチ操作をアプリケーションプロセッサに転送して、タッチイベントのタイプを決定してよい。タッチ操作に関する視覚的出力は、ディスプレイ194を通じて提供され得る。いくつかの他の実施形態では、タッチセンサ180Kは、ディスプレイ194の位置とは異なる位置の、電子デバイス100の表面上に配置されてもよい。
【0103】
ボタン190は、電源ボタン、音量ボタン、及び同様のものを含む。ボタン190は機械的ボタンであり得る、又は、タッチボタンであり得る。電子デバイス100は、ボタン入力を受信し、電子デバイス100のユーザ設定及び機能制御に関連するボタン信号入力を生成し得る。
【0104】
インジケータ192はインジケータライトであり得、充電ステータス及び電力変化を示すように構成され得る、又は、メッセージ、不在着信、通知などを示すように構成され得る。
【0105】
SIMカードインタフェース195は、SIMカードに接続されるように構成される。SIMカードは、電子デバイス100との接触又は電子デバイス100からの分離を実装すべく、SIMカードインタフェース195に挿入されてもよく、又は、SIMカードインタフェース195から取り外されてもよい。いくつかの実施形態において、電子デバイス100は、eSIM、すなわち、組み込みSIMカードを使用する。eSIMカードは、電子デバイス100に組み込まれ得、電子デバイス100から分離されることはできない。
【0106】
電子デバイス100のソフトウェアシステムは、階層型アーキテクチャ、イベント駆動型アーキテクチャ、マイクロカーネルアーキテクチャ、マイクロサービスアーキテクチャ、又はクラウドアーキテクチャを使用し得る。本願の実施形態において、階層型アーキテクチャを有するAndroid(登録商標)システムは、電子デバイス100のソフトウェア構造を説明するための一例として用いられる。
【0107】
本願において、カメラ193を開始するためのタッチコマンドを検出した後に、タッチセンサ180Kは、カメラ193を開始するための命令をプロセッサ110に送信する。プロセッサ110は、カメラ193を開始し、カメラ193は、ユーザの第2の顔画像を含む第1のビデオストリームを取得することを開始する。プロセッサ110は、電子デバイス100の内部メモリ121から、編集対象画像を更に取得する。編集対象画像は、ユーザの第1の顔画像を含む。プロセッサは、第1のビデオストリーム内のユーザの第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集して、編集された画像を取得する。編集された画像内のユーザの顔の表情は、第1のビデオストリーム内のユーザの顔の表情と関連付けられている。編集対象画像、カメラ193によりリアルタイムで取得された第1のビデオストリーム、編集対象画像をリアルタイムで編集することで取得されたリアルタイムエフェクト画像は、表示194上に表示される。
【0108】
図2は、本願の一実施形態に係る電子デバイス100のソフトウェア構造のブロック図である。
【0109】
階層型アーキテクチャにおいて、ソフトウェアは複数の層に分割され、各層は明確な役割及びタスクを有する。層はソフトウェアインタフェースを通じて互いに通信する。いくつかの実施形態において、Androidシステムは、4つの層、すなわち、上から下に、アプリケーション層、アプリケーションフレームワーク層、Androidランタイム(Android runtime)及びシステムライブラリ、ならびに、カーネル層に分割される。
【0110】
アプリケーション層は一連のアプリケーションパッケージを含み得る。
【0111】
図2に示されるように、アプリケーションパッケージは、カメラ、ギャラリー、カレンダー、電話、マップ、ナビゲーション、WLAN、Bluetooth(登録商標)、音楽、ビデオ、及びメッセージ等のアプリケーションプログラム(又はアプリケーションと称される)を含んでよい。
【0112】
アプリケーションフレームワーク層は、アプリケーション層におけるアプリケーションのためのアプリケーションプログラミングインタフェース(application programming interface、API)及びプログラミングフレームワークを提供する。アプリケーションフレームワーク層は、いくつかの事前定義された機能を含む。
【0113】
図2に示すように、アプリケーションフレームワーク層は、ウィンドウマネージャ、コンテンツプロバイダ、ビューシステム、電話マネージャ、リソースマネージャ、及び通知マネージャなどを含み得る。
【0114】
ウィンドウマネージャは、ウィンドウプログラムを管理するように構成される。ウィンドウマネージャは、ディスプレイのサイズの取得、ステータスバーがあるかどうかの決定、画面ロックの実行及びスクリーンショットの撮影等を行い得る。
【0115】
コンテンツプロバイダは、データを格納及び取得し、データがアプリケーションによってアクセスされることを可能にするように構成されている。データは、ビデオ、画像、オーディオ、行われた及び応答された着信、閲覧履歴及びブックマーク、並びにアドレス帳等を含んでよい。
【0116】
ビューシステムは、テキストを表示するための制御、及び画像を表示するための制御等の視覚的な制御を含む。ビューシステムはアプリケーションを構築するように構成され得る。表示インタフェースは1又は複数のビューを含み得る。例えば、SMSメッセージ通知アイコンを含む表示インタフェースが、テキスト表示ビュー及び画像表示ビューを含んでよい。
【0117】
電話マネージャは、電子デバイス100の通信機能、例えば、通話ステータス(応答又は拒否等を含む)の管理を提供するように構成されている。
【0118】
リソースマネージャは、ローカライズされた文字列、アイコン、画像、レイアウトファイル、及びビデオファイル等の様々なリソースをアプリケーションに提供する。
【0119】
通知マネージャは、アプリケーションがステータスバーにおいて通知情報を表示することを可能にし、通知メッセージを伝達するように構成されていてよい。通知マネージャは、短い間を置いた後に、ユーザインタラクションを必要とせずに自動的に消えてよい。例えば、通知マネージャは、ダウンロード完了を通知すること、及び、メッセージ通知を与えることなどを行うように構成されている。通知マネージャは、代替的に、システムのトップステータスバーにおいて、グラフ又はスクロールバーテキストの形で現れる通知、例えば、バックグラウンド上で実行しているアプリケーションの通知、又はダイアログインタフェースの形で画面上に現れる通知であってよい。例えば、テキスト情報がステータスバーにおいて表示され、アナウンスが与えられ、電子デバイスが振動し、又はインジケータライトが点滅する。
【0120】
Androidランタイムは、カーネルライブラリ及び仮想マシンを含む。Androidランタイムは、Androidシステムのスケジューリング及び管理を実行する。
【0121】
カーネルライブラリは、2つの部分:Java(登録商標)言語において呼び出される必要がある機能とAndroidのカーネルライブラリとを含む。
【0122】
アプリケーション層及びアプリケーションフレームワーク層は仮想マシン上で実行する。仮想マシンは、アプリケーション層及びアプリケーションフレームワーク層のJavaファイルをバイナリファイルとして実行する。仮想マシンは、オブジェクトのライフサイクル管理、スタック管理、スレッド管理、セキュリティ及び例外管理、及びガベージコレクション等の機能を実装するように構成されている。
【0123】
システムライブラリは、複数の機能モジュール、例えば、サーフェスマネージャ(surface manager)、メディアライブラリ(media library)、3次元グラフィックス処理ライブラリ(例えば、OpenGL ES)及び2Dグラフィックスエンジン(例えば、SGL)を含んでよい。
【0124】
サーフェスマネージャは、ディスプレイサブシステムを管理し、複数のアプリケーションについて、2D層及び3D層の融合を提供するように構成されている。
【0125】
メディアライブラリは、複数の一般的に用いられるオーディオ及びビデオ形式、及び静止画像ファイルでの再生及び記録をサポートする。メディアライブラリは、複数のオーディオ及びビデオ符号化形式、例えば、MPEG4、H.264、MP3、AAC、AMR、JPG、及びPNGをサポートしてよい。
【0126】
3次元グラフィックス処理ライブラリは、3次元グラフィックス描画、画像レンダリング、合成、及び層処理などを実装するように構成される。
【0127】
2Dグラフィックスエンジンは、2D描画のための描画エンジンである。
【0128】
カーネル層はハードウェアとソフトウェアとの間の層である。カーネル層は、少なくとも、ディスプレイドライバ、カメラドライバ、オーディオドライバ及びセンサドライバを含む。
【0129】
図2を参照されたい。本願の本実施形態において、システムライブラリは、画像処理ライブラリを更に含んでよい。カメラアプリケーションが開始された後に、カメラアプリケーションは、電子デバイスにより収集され且つユーザの第2の顔画像を含む第1のビデオストリームを取得してよい。画像処理ライブラリは、編集対象画像を取得する。編集対象画像は、ユーザの第1の顔画像を含む。次に、画像処理ライブラリは、第1のビデオストリーム内のユーザの第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集して、編集された画像を取得する。編集された画像内のユーザの顔の表情は、第1のビデオストリーム内のユーザの顔の表情と関連付けられている。ビューシステムは、編集対象画像、第1のビデオストリーム、及び編集対象画像をリアルタイムで編集することで取得されたリアルタイムエフェクト画像を表示するように構成されており、メディアライブラリは、編集プロセス又は編集された画像を含むビデオを格納するように構成されている。具体的な処理については、以下の関連する説明を参照されたい。
【0130】
本願における方法の適用シナリオは、限定されないが、携帯電話、PC、及びクラウドに対する、オフライン顔関連アルゴリズムトレーニング及びオンラインのピクセルからピクセルへのリアルタイム変換アプリケーション、例えば、美化、絵画、又はビデオライブチャットアプリケーションを含むことに本明細書において留意されたい。
【0131】
以下は、電子デバイス100がユーザの顔画像を編集する具体的な実装を説明する。
【0132】
図3は、本願の一実施形態に係る顔の表情編集方法の概略フローチャートである。
図3に示される通り、方法は、以下の段階を含む。
【0133】
S301:編集対象画像を取得し、ここで、編集対象画像は、ユーザの第1の顔画像を含む。
【0134】
必要に応じて、編集対象画像は、ユーザの第1の顔画像を含み且つ電子デバイスのアルバムからユーザにより選択された画像であってもよいし、ユーザの第1の顔画像を含み且つ電子デバイスのカメラを用いて取得された画像であってもよい。必要に応じて、カメラは、正面カメラであってよい。ユーザは、いかなる追加支援なしで、正面カメラを用いて、ユーザの顔の表情を独立的に編集してよい。
【0135】
必要に応じて、編集対象画像が電子デバイスのアルバムから選択されるとき、電子デバイスの表示インタフェースは、第1のプロンプトメッセージを表示する。第1のプロンプトメッセージは、ユーザに、編集対象画像を選択することを促す。
【0136】
更に、第1のプロンプトメッセージは更に、ユーザに、編集対象画像として、ユーザの顔画像を含む画像を選択することを促す。
【0137】
必要に応じて、本願における顔画像(本願における第1の顔画像、第2の顔画像、第3の顔画像、及び第4の顔画像を含む)は、全ての顔の特徴を含む画像又は全ての顔の特徴が電子デバイスによって認識され得る画像、例えば、正面画像、いくつかの顔の特徴(例えば、横顔画像)を含む画像、又は特定のアングルだけ回転された正面画像の画像であってよい。
【0138】
S302:ユーザの第2の顔画像を含む第1のビデオストリームを取得する。
【0139】
一例において、第1のビデオストリームは、複数の画像のフレームを含む。第1のビデオストリーム内のユーザの第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集することは、第1のビデオストリーム内の複数の画像のフレーム内のユーザの第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集することであってよい。複数の画像のフレームの各画像のフレームは、ユーザの第2の顔画像を含む。複数の画像のフレームは、第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集するエフェクトを改善することができる。
【0140】
一例において、ユーザの第2の顔画像を含む第1のビデオストリームを取得することは、具体的に、カメラを用いて、ユーザの第2の顔画像を含む第1のビデオストリームを取得することであってよい。必要に応じて、ユーザの第2の顔画像を含む第1のビデオストリームを取得することは、代替的に、ユーザの第2の顔画像を含む第1のビデオストリームを受信すること、又はユーザの第2の顔画像を含む格納された第1のビデオストリームを呼び出すことであってよい。
【0141】
カメラを用いてより良くユーザの顔の表情を捉えるために、ユーザの第2の顔画像を含む第1のビデオストリームがカメラを用いて取得されるとき、電子デバイスは、プレビューインタフェースにおけるユーザの画像の状態及びカメラアングルを調整するようにユーザに促す。例えば、ユーザは、頭部とレンズとの間の距離を変化させる、又は頭部とレンズとの間の相対位置を変化させるように促される。別の例では、ユーザは、頭部姿勢、光の角度又は強度を変化させるように促される。更に別の例では、ユーザは、帽子、マスク、又は眼鏡等の障害物を取り外すように促される。必要に応じて、ユーザは、プロンプトメッセージ内のテキストにより促されてもよいし、又は音声により促されてもよい。
【0142】
S303:第1のビデオストリーム内のユーザの第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集して、予備的に編集された画像を取得する。
【0143】
予備的に編集された画像は、ユーザの第3の顔画像を含み、第3の顔画像は、ユーザの第2の顔画像に基づいて、第1の顔画像を編集することにより取得される。
【0144】
一例において、第1のビデオストリーム内のユーザの第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集して、予備的に編集された画像を取得する段階は、
第1のビデオストリーム内のユーザの第2の顔画像と、編集対象画像内のユーザの第1の顔画像とに基づいて、第1の目標パラメータを決定する段階であって、第1の目標パラメータは、ユーザの顔形状を説明するベクトルである、段階と、第1の目標パラメータと、編集対象画像とに基づいて、第2の目標パラメータと、第3の目標パラメータと、第4の目標パラメータとを決定する段階であって、第2の目標パラメータは、ユーザの顔のサイズを示し、第3の目標パラメータは、ユーザの3次元の顔の頭部姿勢の回転行列又はオイラー角を示し、第4の目標パラメータは、直交座標系内のユーザの3次元の頭部が画像座標系にマッピングされるときに必要とされる並進ベクトルを示す、段階と、第1の目標パラメータと、第1のビデオストリーム内のユーザの第2の顔画像とに基づいて、第5の目標パラメータを決定する段階であって、第5の目標パラメータは、第1のビデオストリーム内のユーザの顔の表情を説明するベクトルである、段階と、第1の目標パラメータと、第2の目標パラメータと、第3の目標パラメータと、第4の目標パラメータと、第5の目標パラメータとに基づいて、目標顔モデルを構築する段階と、目標顔モデルに対してレンダリング及び再構築を実行して、予備的に編集された画像を取得する段階とを含む。
【0145】
可能な実装形態において、顔モデルは、
【数1】
のように表され得、ここで、Vは、3次元の顔モデルを示し、
【数2】
は、平均3次元の顔モデルを示す又は普通の顔の顔モデルとして理解され得、sは、顔のサイズを示し、Rは、3次元の顔の頭部姿勢の回転行列又はオイラー角を示し、Tは、直交座標系内の3次元の頭部が画像座標系にマッピングされるときに必要とされる並進ベクトルを示し、A
idは、顔形状を説明する表現直交基底であり、A
expは、顔の表情を説明する表現直交基底であり、Alpha_idは、顔形状を説明するベクトルであり、このベクトルは、ユーザの頭部姿勢と関連しておらず、このベクトルは、異なる表情にある同じ人について一致する傾向にあり、Alpha_expは、顔の表情を説明するベクトルであり、このベクトルは、ユーザの頭部姿勢と関連しておらず、このベクトルは、異なる表情にある同じ人について一致する傾向がある。
【0146】
必要に応じて、第1の目標パラメータ、第2の目標パラメータ、第3の目標パラメータ、第4の目標パラメータ、及び第5の目標パラメータは、それぞれ、alpha_id,s,R,T及びalpha_expである。
【0147】
一例において、第1のビデオストリームは、N個の画像を含み、Nは、1よりも大きい整数である。N個の画像の各々は、ユーザの第2の顔画像を含む。第1のビデオストリーム内のユーザの第2の顔画像と、編集対象画像内のユーザの第1の顔画像とに基づいて、第1の目標パラメータを決定する段階は、
N個の画像の各々の内のユーザの第2の顔画像に対してモデリングを実行して、各画像の第1のパラメータを取得する段階であって、各画像の第1のパラメータは、各画像内のユーザの顔形状を説明するベクトルである、段階と、編集対象画像内のユーザの第1の顔画像に対してモデリングを実行して、編集対象画像の第2のパラメータを取得する段階であって、第2のパラメータは、編集対象画像内のユーザの顔形状を説明するベクトルである、段階と、N個の画像の各々の第1のパラメータと、編集対象画像の第2のパラメータとに基づいて、第1の目標パラメータを決定する段階とを含む。必要に応じて、N個の画像の第1のパラメータと編集対象画像の第2のパラメータとの合計が計算され、次に、平均が計算されて、又は加重和及び加重平均が計算されて、第1の目標パラメータが取得される。
【0148】
具体的に、顔モデリングは、畳み込みニューラルネットワークに基づいて、編集対象画像内のユーザの第1の顔画像に対して実行されて、編集対象画像内のユーザの第1の顔モデルを取得する。第1の顔モデルの表現係数は、(s_1,R_1,T_1,alpha_id_1,alpha_exp_1)である。顔モデリングは、畳み込みニューラルネットワークに基づいて、N個の画像の各々の内のユーザの第2の顔画像に対して実行されて、各画像内のユーザの第2の顔モデルを取得する。第2の顔モデルの表現係数は、(s_2,R_2i,T_2i,alpha_id_2i,alpha_exp_2i)であり、ここで、i=1,2,3,...,又はNである。パラメータalpha_id_1及びalpha_id_21、alpha_id_22,...,及びalpha_id_2Nの合計又は加重和が計算される。次に、その合計の平均が計算されて、第1の目標パラメータalpha_id_xを取得し、ここで、alpha_id_x=(alpha_id_1+alpha_id_21+alpha_id_22+...+alpha_id_2N)/(N+1)、又は
alpha_id_x=(w×alpha_id_1+w1×alpha_id_21+w2×alpha_id_22+...+wN×alpha_id_2N)/(N+1)、ここで、
w,w1,w2,...,及びwNはそれぞれ、alpha_id_1,alpha_id_21,...,alpha_id_22,及びalpha_id_2Nの重みである。
【0149】
第1の目標パラメータalpha_id_xが決定された後に、モデリングは、再び、第1の目標パラメータalpha_id_xに基づいて、編集対象画像内のユーザの第1の顔画像に対して実行されて、新たな第1の顔モデルを取得する。モデルの表現係数は、(s_3,R_3,T_3,alpha_id_x,alpha_exp_3)である。モデリングは、再び、第1の目標パラメータalpha_id_xに基づいて、第1のビデオストリーム内のユーザの第2の顔画像に対して実行されて、新たな第2の顔モデルを取得する。このモデルの表現係数は、(s_4,R_4,T_4,alpha_id_x,alpha_exp_4)である。目標顔モデルは、第1の目標パラメータalpha_id_x、第2の目標パラメータs_3、第3の目標パラメータR_4、第4の目標パラメータT_3、及び第5の目標パラメータalpha_exp_4に基づいて、構築される。目標顔モデルは、
【数3】
のように表され得る。
【0150】
目標顔モデルが取得された後に、目標顔モデルに対してレンダリング及び再構築を実行して、予備的に編集された画像を取得する。
【0151】
目標顔モデルに対してレンダリング及び再構築を実行して、予備的に編集された画像を取得することは、具体的に、目標顔モデルの三角測量、3D頂点、及び頂点色又はテクスチャイメージに基づいて、投影レンダリングを実行して、予備的な編集された画像を取得することを含んでよい。必要に応じて、テクスチャイメージは、目標顔モデルのUVマップであってよい。
【0152】
写真は、精密な顔モデルに基づいて、再編集される。実際の状況において存在しない内容は、写真に対して追加されない。これにより、ユーザの顔の実際のエフェクトを復元し、高い品質の編集された画像を取得することができる。
【0153】
S304:編集対象画像内のユーザの第1の顔画像、予備的に編集された画像内のユーザの第3の顔画像、及び第1のビデオストリーム内のユーザの第2の顔画像に基づいて、特徴画像を取得する。
【0154】
必要に応じて、特徴画像は、ユーザの目及び口腔の画像を含んでよく、ユーザの目及び口腔以外の部分、例えば、耳、鼻、又は眉の画像を更に含んでよい。具体的に、口腔の画像は、口の画像として理解されてもよい。口腔の画像は、口が開かれている口腔画像であってもよいし、口が閉められている口腔画像であってもよい。
【0155】
具体的に、第1の画像、第2の画像、及び第3の画像を取得するために、画像セグメント化は、編集対象画像内のユーザの第1の顔画像、予備的に編集された画像内のユーザの第3の顔画像、及び第1のビデオストリーム内のユーザの第2の顔画像に対して、別個に実行される。第1の画像は、編集対象画像内にあり且つユーザの目及び口腔を含む画像である。第2の画像は、予備的に編集された画像内にあり且つユーザの目及び口腔を含む画像である。第3の画像は、第1のビデオストリーム内にあり且つユーザの目及び口腔を含む画像である。ユーザの目及び口腔の画像の特徴ベクトルを取得するために、第1の画像、第2の画像、及び第3の画像の内の目及び口腔の特徴は、エンコードされる。特徴画像は、ユーザの目及び口腔の画像の特徴ベクトルに基づいて、生成される。
【0156】
図6に示されるように、第1の画像、第2の画像、及び第3の画像を取得するために、画像セグメント化は、編集対象画像内のユーザの第1の顔画像、予備的に編集された画像内のユーザの第3の顔画像、及び第1のビデオストリーム内のユーザの第2の顔画像に対して、別個に実行される。第1の画像は、編集対象画像内にあり且つユーザの目及び口腔を含む画像である。第2の画像は、予備的に編集された画像内にあり且つユーザの目及び口腔を含む画像である。第3の画像は、第1のビデオストリーム内にあり且つユーザの目及び口腔を含む画像である。ユーザの目及び口腔の画像の特徴ベクトルを取得するために、特徴エンコーダを用いて、第1の画像、第2の画像、及び第3の画像の内の目及び口腔の特徴がエンコードされる。特徴画像は、ニューラルネットワークに基づいて、特徴ベクトルに対して、デコンボリューション及びアップサンプリングを実行することにより生成される。
【0157】
S305:特徴画像と、予備的に編集された画像内のユーザの第3の顔画像とを融合して、編集された画像を取得する。
【0158】
必要に応じて、画像重ね合わせ又はポアソン編集、もしくはニューラルネットワークアルゴリズム等の画像融合アルゴリズム(例えば、勾配ペナルティ敵対的生成ネットワーク(gradient penalty-generative adversarial networks、GP-GAN))が用いられてよい。
【0159】
編集された画像を取得するために、特徴画像が取得された後に、予備的に編集された画像内のユーザの第3の顔画像及び特徴画像は、画像融合デバイスを用いて、融合される。編集された画像は、ユーザの第1の顔の表情を含み、第2の顔画像は、ユーザの第2の顔の表情を含み、第1の顔の表情は、第2の顔の表情と関連付けられている。
【0160】
具体的に、第1の顔の表情が第2の顔の表情と関連付けられていることは、具体的に以下のことを含む。
【0161】
第1の顔の表情が第2の顔の表情であること。代替的に、第1のベクトルと第2のベクトルとの間の平均二乗誤差が第1の閾値未満であること。第1のベクトルは、第1の顔の表情を示すベクトルであり、第2のベクトルは、第2の顔の表情を示すベクトルである。代替的に、第1の顔の表情と第2の顔の表情との間の類似性が第2の閾値未満であること。
【0162】
必要に応じて、5つの特徴の類似性は、異なる重みに基づいて、顔の表情の類似性へと融合されてよい。
【0163】
必要に応じて、第1の閾値は、0.1、0.2、0.5、0.7、又は別の値であってよい。好ましくは、第1の閾値は、0.5である。必要に応じて、第2の閾値は、0.7、0.8、0.85、0.9、又は別の値であってよい。
【0164】
一例において、第1のベクトル及び第2のベクトルは、顔モデルの表現係数の中のalpha_expである。
【0165】
ユーザが編集対象画像の編集エフェクトをリアルタイムで閲覧することを容易にするために、電子デバイスの表示インタフェースの中の3つのエリアは、それぞれ、編集対象画像、カメラによりリアルタイムで取得され且つユーザの顔を含む画像、及び編集対象画像をリアルタイムで編集することで取得されたエフェクト画像を表示する。編集対象画像をリアルタイムで編集することで取得されたエフェクト画像を表示するインタフェースは、プレビューインタフェースと称され得る。
【0166】
図7に示されるように、
図7におけるaは、編集対象画像であり、bは、編集対象画像内のユーザの顔モデルであり、cは、bにおける顔モデルに対して緻密な処理が実行された後に取得された顔モデルの概略図であり、dは、緻密な処理の後に取得された顔モデルに顔情報が追加された後に取得されたモデルの概略図である。
【0167】
図8に示されるように、
図8におけるaは、第1のビデオストリーム内のユーザの顔画像であり、bは、第1のビデオストリーム内のユーザの顔モデルであり、cは、bにおける顔モデルに対して緻密な処理が実行された後に取得された顔モデルの概略図であり、dは、緻密な処理の後に取得された顔モデルに顔情報が追加された後に取得されたモデルの概略図である。
【0168】
図9に示されるように、
図9におけるaは、編集された画像であり、bは、目標顔モデルの画像であり、cは、目標顔モデルに対して緻密な処理が実行された後に取得された顔モデルの概略図であり、dは、緻密な処理の後に取得された顔モデルに顔情報が追加された後に取得されたモデルの概略図である。
【0169】
顔モデルは、複数の3D点を含み、顔モデルに対する緻密な処理は、具体的に、顔モデルの各点に、対応する深度値を追加することに本明細書において留意されたい。
【0170】
ユーザがそのユーザの顔画像以外の顔画像を再編集することを防止し、倫理的問題及び世論を回避するために、編集対象画像内の顔画像がそのユーザの顔画像であるかどうかが決定される必要がある。
【0171】
一例において、カメラを用いて、ユーザの第2の顔画像を含む第1のビデオストリームを取得する前に、ユーザの第4の顔画像を含む第2のビデオストリームが、カメラを用いて、取得される。第1の顔の特徴を取得するために、顔の特徴は、第2のビデオストリーム内のユーザの第4の顔画像から抽出される。第2の顔の特徴を取得するために、顔の特徴は、編集対象画像内のユーザの第1の顔画像から抽出される。第1の顔の特徴が第2の顔の特徴と一致する場合に、編集対象画像内の第1の顔画像と、第2のビデオストリーム内の第4の顔画像とは、同じ人であると決定される。
【0172】
具体的に、顔の特徴は、顔の特徴ベクトルであってよい。ユーザの第4の顔画像を含む第2のビデオストリームが、カメラを用いて、取得された後に、
図5に示されるように、ユーザの第1の顔画像は、編集対象画像から決定され、キーポイント位置決めが、ユーザの第1の顔画像に対して実行され、顔の特徴は、抽出されて、第2の顔の特徴ベクトルが取得される。必要に応じて、ユーザの第1の顔画像が編集対象画像から決定された後に、ユーザの顔位置を示すために、境界ボックスがユーザの第1の顔画像に追加される。第2のビデオストリーム内のユーザの第4の顔画像に対して、顔検出が実行され、顔キーポイント位置決め及び顔の特徴抽出が実行されて、第1の顔の特徴ベクトルが取得される。第1の顔の特徴ベクトルと第2の顔の特徴ベクトルとの間の特徴距離が計算される。特徴距離が予め設定された閾値未満である場合に、編集対象画像内の第1の顔画像と、第2のビデオストリーム内の第4の顔画像とは、同じ人のものであると決定され、ユーザの第2の顔画像を含む第1のビデオストリームは、カメラを用いて、取得される。換言すると、編集対象画像内のユーザの第1の顔画像を編集する等の関連オペレーションが実行される。特徴距離が予め設定された閾値未満でない場合に、編集対象画像内の第1の顔画像と、第2のビデオストリーム内の第2の顔画像とは、同じ人のものでないと決定され、ユーザの第2の顔画像を含む第1のビデオストリームは、カメラを用いて、取得されない。換言すると、編集対象画像内のユーザの第1の顔画像を編集する等の関連オペレーションが実行されない。
【0173】
必要に応じて、顔認識の間、ユーザの静止顔画像は、カメラを用いて、取得されてよく、次に、カメラにより取得されたユーザの顔画像と編集対象画像とが同じ人のものであるかどうかが、前述の特徴抽出及び決定プロセスに基づいて、決定される。本明細書において具体的なプロセスについて再び説明しない。
【0174】
編集対象画像がユーザの顔画像を含むことが決定され、その結果、ユーザは、そのユーザの顔画像のみを編集することが可能になり、それにより、倫理的問題及び世論を回避する。
【0175】
一例において、本願における方法は、以下の段階を更に含む。
【0176】
カメラが第1のビデオストリームを取得することを開始するときに、ユーザの顔の表情編集プロセスのビデオを記録するべきかどうかが決定される。ユーザの顔の表情編集プロセスのビデオを記録することが決定された場合に、編集された画像を取得した後に、ユーザの顔の表情編集プロセスのビデオ内の複数の画像のフレーム又は全ての画像は、格納される。複数の画像のフレーム又は全ての画像は、編集された画像を含む。ユーザの顔の表情編集プロセスのビデオを記録しないことが決定された場合に、編集された画像を取得した後に、編集された画像は、格納されない。
【0177】
必要に応じて、ユーザの顔の表情編集プロセスのビデオ内の複数の画像のフレームは、画像の連続フレームであってよく、画像の連続フレームは、ユーザの顔の表情編集プロセスのビデオのビデオクリップとみなされてよい。代替的に、ユーザの顔の表情編集プロセスのビデオ内の複数の画像のフレームは、画像の連続フレームでなくてよく、連続しないフレームがビデオクリップを形成してもよい。
【0178】
編集された画像又はユーザの顔の表情編集プロセスのビデオ若しくはビデオクリップが格納された後に、ユーザは、電子デバイスのアルバムの中の編集された画像又はユーザの顔の表情編集プロセスのビデオ若しくはビデオクリップを閲覧し得る。ビデオ又はビデオクリップを閲覧するとき、ユーザは、写真内の顔の表情の美化エフェクトを見ることができ、写真内の他の全員が変更されないままで、ユーザの顔の表情のみが変化しているユニークなエフェクトを見ることができる。
【0179】
本願の実施形態における解決手段において、ユーザは、顔認識を用いて、ユーザの顔の表情を再編集することのみができ、それにより、倫理的問題及び世論を回避することが理解され得る。編集対象画像内のユーザの第1の顔画像は、カメラを用いて取得された第1のビデオストリーム内のユーザの第2の顔画像に基づいて、再編集される。精密な顔モデルは、編集対象画像及び第1のビデオストリーム内の顔画像に基づいて、構築される。写真は、精密な顔モデルに基づいて、再編集される。実際の状況において存在しない内容は、写真に対して追加されない。これにより、ユーザの顔の実際のエフェクトを復元し、ユーザの顔画像に対する美化を支援し、カメラを用いてリアルタイムで捉えられたユーザの顔画像に基づいて、静的写真内のユーザの顔の表情を再編集し、表情再編集機能を実装し、より現実的なエフェクトを実現し、業界において肌色及び顔の輪郭のみを変化させる現在の2D/3D美化を改良し、ユーザエクスペリエンスを改善することができる。
【0180】
図3に示される方法は、第1のデバイスの表示インタフェース内に編集対象画像を表示する段階を更に含み得ることが理解され得る。ユーザが、ユーザの第1の顔画像に対して、表情編集を実行する必要がある場合に、ユーザは、第1のデバイスの表示インタフェース内で、第1操作を実行し得る。ユーザからの第1のデバイスの表示インタフェース内での第1操作を受信した後に、第1操作に応答して、第1のデバイスは、
図3に示された顔の表情編集方法を実行する。第1操作は、スライド、クリック、ドラッグ、及び入力のうちの1又は複数を含んでよい。第1のデバイスは、第1のビデオストリームであって、ユーザの第2の顔画像を含む、第1のビデオストリームを取得し、第1のビデオストリームから目標画像であって、ユーザの目標表情を含む、目標画像を取得し、目標画像に基づいて、編集対象画像を編集して、編集された画像を取得し、ここで、編集された画像内のユーザの表情は、編集対象画像内のユーザの顔の表情よりも、ユーザの目標表情に近く、第1のデバイスの表示インタフェース内に編集された画像を表示する。
【0181】
図4は、本願の一実施形態に係る別の顔の表情編集方法の概略フローチャートである。
図4に示されるように、方法は以下の段階を含む。
【0182】
S401:編集対象画像を取得し、表情編集機能を可能にする。
【0183】
編集対象画像は、ユーザの第1の顔画像を含む。
【0184】
必要に応じて、編集対象画像は、ユーザの顔を含み且つ電子デバイスのアルバムからユーザにより選択された画像であってもよいし、ユーザの第1の顔画像を含み且つ電子デバイスのカメラを用いて取得された画像であってもよい。
【0185】
必要に応じて、編集対象画像が電子デバイスのアルバムから選択されるとき、電子デバイスの表示インタフェースは、第1のプロンプトメッセージを表示する。第1のプロンプトメッセージは、ユーザに、編集対象画像を選択することを促す。
【0186】
更に、第1のプロンプトメッセージは更に、ユーザに、編集対象画像として、ユーザの顔画像を含む画像を選択することを促す。
【0187】
S402:編集対象画像がユーザの顔画像を含むかどうかを決定する。
【0188】
具体的に、電子デバイスのカメラは、ユーザの第4の顔画像を含む第2のビデオストリームを取得することを開始される。第1の顔の特徴を取得するために、顔の特徴は、第2のビデオストリーム内のユーザの第4の顔画像から抽出される。第2の顔の特徴を取得するために、顔の特徴は、編集対象画像内の第1の顔画像から抽出される。第1の顔の特徴が第2の顔の特徴と一致する場合に、編集対象画像がユーザの顔画像を含むと決定される。第1の顔の特徴が第2の顔の特徴と一致しない場合に、編集対象画像がユーザの顔画像を含まないと決定される。
【0189】
更に、第1の顔の特徴及び第2の顔の特徴は、具体的に、顔の特徴ベクトルである。第1の顔の特徴を取得するための、第2のビデオストリーム内のユーザの第4の顔画像からの顔の特徴抽出は、
第2のビデオストリーム内のユーザの第4の顔画像に対して、顔検出及び顔キーポイント位置決めを実行して、第1の顔の特徴ベクトルを取得することを含む。
【0190】
編集対象画像内のユーザの第1の顔画像から顔の特徴を抽出して、第2の顔の特徴を取得することは、編集対象画像内のユーザの第1の顔画像を決定することと、ユーザの第1の顔画像から顔の特徴を抽出して、第2の顔の特徴ベクトルを取得することとを含む。
【0191】
第1の顔の特徴が第2の顔の特徴を一致するかどうかを決定することは、具体的に、第1の顔の特徴ベクトルと、第2の顔の特徴ベクトルとの間の特徴距離を計算すること、及び特徴距離が予め設定された閾値未満である場合に、第1の顔の特徴が第2の顔の特徴と一致すると決定すること、又は特徴距離が予め設定された閾値未満でない場合に、第1の顔の特徴が第2の顔の特徴と一致しないと決定することを含む。
【0192】
編集対象画像がユーザの顔画像を含むと決定された場合に、段階S404は、実行され、又は編集対象画像がユーザの顔画像を含まないと決定された場合に、段階S403は、実行される。
【0193】
編集対象画像がユーザの顔画像を含むことが決定され、その結果、ユーザは、そのユーザの顔画像のみを編集することが可能になり、それにより、倫理的問題及び世論を回避する。
【0194】
S403:顔の表情を編集することを拒否するように促す。
【0195】
第2のプロンプトメッセージは、電子デバイスの表示インタフェース内に表示され、第2のプロンプトメッセージは、ユーザにより編集されたオブジェクトがユーザでないことを促す。
【0196】
S403が実行された後に、段階S410は、実行される。
【0197】
S404:ユーザの顔の表情編集プロセスのビデオを記録するべきかどうかを決定する。
【0198】
具体的に、編集対象画像がユーザの顔画像を含むと決定された場合に、第3のプロンプトメッセージは、電子デバイスの表示インタフェース内に表示される。第3のプロンプトメッセージは、ユーザに、ユーザの顔の表情編集プロセスのビデオを記録するべきかどうかを促し、「YES」及び「NO」機能ボタンを表示する。ユーザが「YES」機能ボタンをクリックしたことが検出された場合に、ユーザの顔の表情編集プロセスのビデオを記録することが開始され、段階S405からS407及びS409が実行される。ユーザが「NO」機能ボタンをクリックしたことが検出された場合に、段階S405からS408が実行される。
【0199】
S405:カメラを用いて、ユーザの第2の顔画像を含む第1のビデオストリームを取得し、第1のビデオストリーム内のユーザの第2の顔画像に基づいて、編集対象画像内の第1の顔画像を編集して、予備的に編集された画像を取得する。
【0200】
予備的に編集された画像は、ユーザの第3の顔画像を含む。
【0201】
編集対象画像がユーザの顔画像を含むと決定された場合に、又は編集対象画像内のユーザの第1の顔画像が編集されていると決定された場合に、電子デバイスの表示インタフェース内の3つのエリアは、それぞれ、編集対象画像、カメラによりリアルタイムで取得され且つユーザの第2の顔画像を含む第1のビデオストリーム、及びリアルタイムで編集対象画像内のユーザの第1の顔画像を編集するにより取得されたエフェクト画像を表示することに本明細書において留意されたい。リアルタイムで取得され且つユーザの顔を含む画像を表示するインタフェースは、プレビューインタフェースと称されてよい。
【0202】
必要に応じて、ユーザの第2の顔画像を含む第1のビデオストリームがカメラを用いて取得されるとき、電子デバイスは、プレビューインタフェース上のユーザの画像の状態及びカメラアングルを調整するようにユーザに促す。例えば、ユーザは、頭部とレンズとの間の距離を変化させ、又は頭部とレンズとの間の相対位置を変化させるように促される。別の例では、ユーザは、頭部姿勢、光の角度又は強度を変化させるように促される。更に別の例では、ユーザは、帽子、マスク、又は眼鏡等の障害物を取り外すように促される。必要に応じて、ユーザは、プロンプトメッセージ内のテキストにより促されてもよいし、又は音声により促されてもよい。
【0203】
第1のビデオストリームは、N個の画像を含み、N個の画像の各々は、ユーザの第2の顔画像を含み、ここで、Nは、1よりも大きい整数である。
【0204】
実現可能な実施形態において、顔モデルは、
【数4】
のように表さ得、ここで、ここで、Vは、3次元の顔モデルを示し、
【数5】
は、平均3次元の顔モデルを示す又は普通の顔の顔モデルとして理解され得、sは、顔のサイズを示し、Rは、3次元の顔の頭部姿勢の回転行列又はオイラー角を示し、Tは、直交座標系内の3次元の頭部が画像座標系にマッピングされるときに必要とされる並進ベクトルを示し、A
idは、顔形状を説明する表現直交基底であり、A
expは、顔の表情を説明する表現直交基底であり、Alpha_idは、顔形状を説明するベクトルであり、このベクトルは、ユーザの頭部姿勢と関連しておらず、このベクトルは、異なる表情にある同じ人について一致する傾向にあり、Alpha_expは、顔の表情を説明するベクトルであり、このベクトルは、ユーザの頭部姿勢と関連しておらず、このベクトルは、異なる表情にある同じ人について一致する傾向がある。
【0205】
具体的に、顔モデリングは、畳み込みニューラルネットワークに基づいて、編集対象画像内のユーザの第1の顔画像に対して実行されて、編集対象画像内のユーザの第1の顔モデルを取得する。第1の顔モデルの表現係数は、(s_1,R_1,T_1,alpha_id_1,alpha_exp_1)である。顔モデリングは、畳み込みニューラルネットワークに基づいて、N個の画像の各々の内のユーザの第2の顔画像に対して実行されて、各画像内のユーザの第2の顔モデルを取得する。第2の顔モデルの表現係数は、(s_2,R_2i,T_2i,alpha_id_2i,alpha_exp_2i)であり、ここで、i=1,2,3,...,又はN。パラメータalpha_id_1及びalpha_id_21、alpha_id_22,...,及びalpha_id_2Nの合計又は加重和が計算される。次に、その合計の平均が計算されて、第1の目標パラメータalpha_id_xを取得し、ここで、alpha_id_x=(alpha_id_1+alpha_id_21+alpha_id_22+...+alpha_id_2N)/(N+1)、又は
alpha_id_x=(w×alpha_id_1+w1×alpha_id_21+w2×alpha_id_22+...+wN×alpha_id_2N)/(N+1)、ここで、
w,w1,w2,...,及びwNはそれぞれ、alpha_id_1,alpha_id_21,...,alpha_id_22,及びalpha_id_2Nの重みである。
【0206】
第1の目標パラメータalpha_id_xが決定された後に、モデリングは、再び、第1の目標パラメータalpha_id_xに基づいて、編集対象画像内のユーザの第1の顔画像に対して実行されて、新たな第1の顔モデルを取得する。モデルの表現係数は、(s_3,R_3,T_3,alpha_id_x,alpha_exp_3)である.モデリングは、再び、第1の目標パラメータalpha_id_xに基づいて、第1のビデオストリーム内のユーザの第2の顔画像に対して実行されて、新たな第2の顔モデルを取得する。このモデルの表現係数は、(s_4,R_4,T_4,alpha_id_x,alpha_exp_4)である。目標顔モデルは、第1の目標パラメータalpha_id_x、第2の目標パラメータs_3、第3の目標パラメータR_4、第4の目標パラメータT_3、及び第5の目標パラメータalpha_exp_4に基づいて、構築される。目標顔モデルは、
【数6】
のように表され得る。
【0207】
目標顔モデルが取得された後に、目標顔モデルに対してレンダリング及び再構築を実行して、予備的に編集された画像を取得する。
【0208】
目標顔モデルに対してレンダリング及び再構築を実行して、予備的に編集された画像を取得することは、具体的に、目標顔モデルの三角測量、3D頂点、及び頂点色又はテクスチャイメージに基づいて、投影レンダリングを実行して、予備的な編集された画像を取得することを含んでよい。必要に応じて、テクスチャイメージは、目標顔モデルのUVマップであってよい。
【0209】
S406:編集対象画像内のユーザの第1の顔画像、予備的に編集された画像内のユーザの第3の顔画像、及び第1のビデオストリーム内のユーザの第2の顔画像に基づいて、特徴画像を取得する。
【0210】
必要に応じて、特徴画像は、ユーザの目及び口腔の画像を含んでよく、ユーザの目及び口腔以外の部分、例えば、耳、鼻、又は眉の画像を更に含んでよい。
【0211】
具体的に、第1の画像、第2の画像、及び第3の画像を取得するために、画像セグメント化は、編集対象画像内のユーザの第1の顔画像、予備的に編集された画像内のユーザの第3の顔画像、及び第1のビデオストリーム内のユーザの第2の顔画像に対して、別個に実行される。第1の画像は、編集対象画像内にあり且つユーザの目及び口腔を含む画像である。第2の画像は、予備的に編集された画像内にあり且つユーザの目及び口腔を含む画像である。第3の画像は、第1のビデオストリーム内にあり且つユーザの目及び口腔を含む画像である。ユーザの目及び口腔の画像の特徴ベクトルを取得するために、第1の画像、第2の画像、及び第3の画像の内の目及び口腔の特徴は、エンコードされる。ユーザの目及び口腔を含む画像は、特徴ベクトルに対して、デコンボリューション及びアップサンプリングを実行することにより取得される。
【0212】
S407:特徴画像と、予備的に編集された画像内のユーザの第3の顔画像とを融合して、編集された画像を取得する。
【0213】
必要に応じて、編集対象画像内のユーザの顔の表情と比較して、編集された画像内のユーザの表情は、ユーザの目標表情に近い。
【0214】
具体的に、編集された画像を取得するために、特徴画像及び予備的に編集された画像は、画像融合アルゴリズムに従って融合される。編集された画像は、ユーザの第1の顔の表情を含み、第2の顔画像は、ユーザの第2の顔の表情を含み、第1の顔の表情は、第2の顔の表情と関連付けられている。
【0215】
具体的に、第1の顔の表情が第2の顔の表情と関連付けられていることは、具体的に以下のことを含む。
【0216】
第1の顔の表情が第2の顔の表情であること。代替的に、第1のベクトルと第2のベクトルとの間の平均二乗誤差が第1の閾値未満であること。第1のベクトルは、第1の顔の表情を示すベクトルであり、第2のベクトルは、第2の顔の表情を示すベクトルである。
【0217】
必要に応じて、第1の閾値は、0.1、0.2、0.5、0.7、又は別の値であってよい。好ましくは、第1の閾値は、0.5である。
【0218】
第1のベクトル及び第2のベクトルは、顔モデルの表現係数の中のalpha_expであることに本明細書において留意されたい。
【0219】
S408:編集された画像を格納する。
【0220】
S409:ユーザの顔の表情編集プロセスのビデオ内の複数の画像のフレーム又は全ての画像を格納する。
【0221】
複数の画像のフレーム又は全ての画像は、編集された画像を含む。
必要に応じて、ユーザの顔の表情編集プロセスのビデオ内の複数の画像のフレームは、画像の連続フレームであってよく、画像の連続フレームは、ユーザの顔の表情編集プロセスのビデオのビデオクリップとみなされてよい。代替的に、ユーザの顔の表情編集プロセスのビデオ内の複数の画像のフレームは、画像の連続フレームでなくてよく、連続しないフレームがビデオクリップを形成してもよい。
【0222】
編集された画像は、JPG、PNG、BMP、又はTIF等の画像フォーマットにおいて格納されてよい。ビデオ又はビデオクリップは、GIF、FLV、又はRMVB等の形式において格納されてよい。
【0223】
編集された画像又はユーザの顔の表情編集プロセスのビデオ若しくはビデオクリップが格納された後に、ユーザは、電子デバイスのアルバムの中の編集された画像又はユーザの顔の表情編集プロセスのビデオ若しくはビデオクリップを閲覧し得る。ビデオ又はビデオクリップを閲覧するとき、ユーザは、写真内の顔の表情の美化エフェクトを見ることができ、写真内の他の全員が変更されないままで、ユーザの顔の表情のみが変化しているユニークなエフェクトを見ることができる。
【0224】
S410:顔の表情を編集することを終了する。
【0225】
本願の実施形態における解決手段において、ユーザは、顔認識を用いて、ユーザの顔の表情を再編集することのみができ、それにより、倫理的問題及び世論を回避することが理解され得る。編集対象画像内のユーザの第1の顔画像は、カメラを用いて取得された第1のビデオストリーム内のユーザの第2の顔画像に基づいて、再編集される。精密な顔モデルは、編集対象画像と、第1のビデオストリーム内の顔画像とに基づいて、構築される。写真は、精密な顔モデルに基づいて、再編集される。実際の状況において存在しない内容は、写真に対して追加されない。これにより、ユーザの顔の実際のエフェクトを復元し、ユーザの顔画像に対する美化を支援し、カメラを用いてリアルタイムで捉えられたユーザの顔画像に基づいて、静的写真内のユーザの顔の表情を再編集し、表情再編集機能を実装し、より現実的なエフェクトを実現し、業界において肌色及び顔の輪郭のみを変化させる現在の2D/3D美化を改良し、ユーザエクスペリエンスを改善することができる。
【0226】
図10は、本願の一実施形態に係る第2の電子デバイスの構造の概略図である。
図10に示されるように、電子デバイス1000は、
編集対象画像であって、ユーザの第1の顔画像を含む、編集対象画像を取得し、カメラを用いてユーザの第2の顔画像を含む第1のビデオストリームを取得するように構成された取得ユニット1001と、
第1のビデオストリーム内のユーザの第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集して、予備的に編集された画像を取得するように構成された編集ユニット1002であって、予備的に編集された画像は、ユーザの第3の顔画像を含む、編集ユニット1002と、
編集対象画像内のユーザの第1の顔画像と、予備的に編集された画像内のユーザの第3の顔画像と、第1のビデオストリーム内のユーザの第2の顔画像とに基づいて、特徴画像を取得するように構成された特徴取得ユニット1009であって、特徴画像は、ユーザの目及び口腔を含む画像である、特徴取得ユニット1009と、
特徴画像と予備的に編集された画像内のユーザの第3の顔画像とを融合して、編集された画像を取得するように構成された融合ユニット1003であって、編集された画像は、ユーザの第1の顔の表情を含み、第2の顔画像は、ユーザの第2の顔の表情を含み、第1の顔の表情は、第2の顔の表情と関連付けられている、融合ユニット1003と
を含む、電子デバイスを提供する。
【0227】
第1の顔の表情が第2の顔の表情と関連付けられていることは、具体的に以下のことを含む。
【0228】
第1の顔の表情が第2の顔の表情であること。代替的に、第1のベクトルと第2のベクトルとの間の平均二乗誤差が第1の閾値未満であること。第1のベクトルは、第1の顔の表情を示すベクトルであり、第2のベクトルは、第2の顔の表情を示すベクトルである。
【0229】
必要に応じて、第1の閾値は、0.1、0.2、0.5、0.7、又は別の値であってよい。好ましくは、第1の閾値は、0.5である。
【0230】
第2の態様及び第2の態様の可能な実装形態のいずれか1つを参照して、編集ユニット1002は、具体的に、
第1のビデオストリーム内のユーザの第2の顔画像と、編集対象画像内のユーザの第1の顔画像とに基づいて、第1の目標パラメータを決定することであって、第1の目標パラメータは、ユーザの顔形状を説明するベクトルである、決定することと、
第1の目標パラメータと、編集対象画像とに基づいて、第2の目標パラメータと、第3の目標パラメータと、第4の目標パラメータとを決定することであって、第2の目標パラメータは、ユーザの顔のサイズを示し、第3の目標パラメータは、ユーザの3次元の顔の頭部姿勢の回転行列又はオイラー角を示し、第4の目標パラメータは、直交座標系内のユーザの3次元の頭部が画像座標系にマッピングされるときに必要とされる並進ベクトルを示す、決定することと、
第1の目標パラメータと、第1のビデオストリーム内のユーザの第2の顔画像とに基づいて、第5の目標パラメータを決定することであって、第5の目標パラメータは、第1のビデオストリーム内のユーザの顔の表情を説明するベクトルである、決定することと、
第1の目標パラメータと、第2の目標パラメータと、第3の目標パラメータと、第4の目標パラメータと、第5の目標パラメータとに基づいて、目標顔モデルを構築することと、
目標顔モデルに対してレンダリング及び再構築を実行して、予備的に編集された画像を取得することと
を行うように構成されている。
【0231】
第2の態様及び第2の態様の可能な実装形態のいずれか1つを参照して、第1のビデオストリームは、N個の画像を含み、Nは、1よりも大きい整数である。N個の画像の各々は、ユーザの第2の顔画像を含む。第1のビデオストリーム内のユーザの第2の顔画像と、編集対象画像内のユーザの第1の顔画像とに基づいて、第1の目標パラメータを決定する間、編集ユニット1002は、具体的に、
N個の画像の各々の内のユーザの第2の顔画像に対してモデリングを実行して、各画像の第1のパラメータを取得することであって、各画像の第1のパラメータは、各画像内のユーザの顔形状を説明するベクトルである、取得することと、編集対象画像内のユーザの第1の顔画像に対してモデリングを実行して、編集対象画像の第2のパラメータを取得することであって、第2のパラメータは、編集対象画像内のユーザの顔形状を説明するベクトルである、取得することと、N個の画像の各々の第1のパラメータと、編集対象画像の第2のパラメータとに基づいて、第1の目標パラメータを決定することとを行うように構成されている。
【0232】
第2の態様及び第2の態様の可能な実装形態のいずれか1つを参照して、特徴取得ユニット1009は、具体的に、
編集対象画像内のユーザの第1の顔画像と、予備的に編集された画像内のユーザの第3の顔画像と、第1のビデオストリーム内のユーザの第2の顔画像とに対して画像セグメント化を別個に実行して、第1の画像と、第2の画像と、第3の画像とを取得することであって、第1の画像は、編集対象画像内にあり且つユーザの目及び口腔を含む画像であり、第2の画像は、予備的に編集された画像内にあり且つユーザの目及び口腔を含む画像であり、第3の画像は、第1のビデオストリーム内にあり且つユーザの目及び口腔を含む画像である、取得することと、第1の画像と、第2の画像と、第3の画像とにおけるユーザの目及び口腔の特徴をエンコードして、ユーザの目及び口腔の画像の特徴ベクトルを取得することと、ユーザの目及び口腔の画像の特徴ベクトルに基づいて、特徴画像を生成することとを行うように構成されている。
【0233】
第2の態様及び第2の態様の可能な実装形態のいずれか1つを参照して、カメラを用いてユーザの第2の顔画像を含む第1のビデオストリームを取得する前に、取得ユニット1001は、カメラを用いて、ユーザの第4の顔画像を含む第2のビデオストリームを取得するように更に構成されている。
【0234】
電子デバイス1000は、
第2のビデオストリーム内のユーザの第2の顔画像から顔の特徴を抽出して、第1の顔の特徴を取得し、編集対象画像内のユーザの第1の顔画像から顔の特徴を抽出して、第2の顔の特徴を取得するように構成された特徴抽出ユニット1004と、第1の顔の特徴が第2の顔の特徴と一致する場合に、カメラを用いて、ユーザの第2の顔画像を含む第1のビデオストリームを取得するように構成された決定ユニット1005とを更に含む。
【0235】
第2の態様及び第2の態様の可能な実装形態のいずれか1つを参照して、電子デバイス1000は、
カメラが第1のビデオストリームを取得することを開始するときに、ユーザの顔の表情編集プロセスのビデオを記録するべきかどうかを決定するように構成された判定ユニット1006と、
ストレージユニット1007であって、判定ユニット1006が、ユーザの顔の表情編集プロセスのビデオを記録することを決定した場合に、編集された画像を取得した後に、ユーザの顔の表情編集プロセスのビデオ内の複数の画像のフレーム又は全ての画像を格納し、複数の画像のフレーム又は全ての画像は、編集された画像を含み、判定ユニット1006が、ユーザの顔の表情編集プロセスのビデオを記録しないことを決定した場合に、編集された画像を取得した後に、編集された画像を格納するように構成された、ストレージユニット1007と
を更に含む。
【0236】
第2の態様及び第2の態様の可能な実装形態のいずれか1つを参照して、電子デバイス1000は、
編集対象画像と、第1のビデオストリームと、編集対象画像をリアルタイムで編集することで取得されたエフェクト画像とをリアルタイムで表示するように構成された表示ユニット1008を更に含む。
【0237】
前述のユニット(取得ユニット1001、編集ユニット1002、特徴取得ユニット1009、融合ユニット1003、特徴抽出ユニット1004、決定ユニット1005、判定ユニット1006、ストレージユニット1007、及び表示ユニット1008)は、前述の方法における関連する段階を実行するように構成されていることに留意されたい。例えば、取得ユニット1001は、段階S301、S302、S401、及びS405の関連内容を実行するように構成されている。編集ユニット1002は、段階S302及びS405の関連内容を実行するように構成されている。特徴抽出ユニット1004は、段階S304及びS406の関連内容を実行するように構成されている。融合ユニット1003は、段階S305及びS407の関連内容を実行するように構成されている。特徴抽出ユニット1004、決定ユニット1005、及び判定ユニット1006は、S303、S402、及びS404の関連内容を実行するように構成されている。決定ユニット、判定ユニット、及びストレージユニット1007は、段階S408及びS409の関連内容を実行するように構成されている。表示ユニット1008は、段階S305の関連内容を実行するように構成されている。
【0238】
本実施形態において、電子デバイス1000は、ユニットの形で提示されている。本明細書における「ユニット」は、特定用途向け集積回路(application-specific integrated circuit、ASIC)、1又は複数のソフトウェア又はファームウェアプログラムを実行するプロセッサ及びメモリ、集積論理回路、及び/又は前述の機能を提供することができる別のデバイスであってよい。更に、取得ユニット1001、編集ユニット1002、融合ユニット1003、特徴抽出ユニット1004、決定ユニット1005、判定ユニット1006、及びストレージユニット1007は、
図12に示された第4の電子デバイスのプロセッサ1201を用いて実装されてよい。
【0239】
図11は、本願の一実施形態に係る第3の電子デバイスの構造の概略図である。
図11に示されるように、電子デバイス1100は、以下を含む。
【0240】
システムストレージモジュール1101は、編集対象画像、編集された画像、及びカメラモジュールを用いて取得された第1のビデオストリーム及び第2のビデオストリームを格納し、別のモジュールを実行している間に、システムストレージオーバーヘッドを提供するように構成されている。編集対象画像は、ユーザの第1の顔画像を含む。第1のビデオストリームは、ユーザの第2の顔画像を含む。第2のビデオストリームは、ユーザの第4の顔画像を含む。
【0241】
処理モジュール1102は、第2のビデオストリーム内のユーザの第4の画像と編集対象画像内の第1の顔画像とが、同じ人のものであるかどうかを決定し、第2のビデオストリーム内のユーザの第4の画像と、編集対象画像内の第1の顔画像とが、同じ人のものである場合に、第1のビデオストリーム内のユーザの第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集して、予備的に編集された画像であって、ユーザの第3の顔画像を含む、予備的に編集された画像を取得し、編集対象画像内のユーザの第1の顔画像と、予備的に編集された画像内のユーザの第3の顔画像と、第1のビデオストリーム内のユーザの第2の顔画像とに基づいて、特徴画像であって、ユーザの目及び口腔を含む画像である、特徴画像を取得し、特徴画像と予備的に編集された画像とを融合して、編集された画像を取得するように構成されている。編集された画像は、ユーザの第1の顔の表情を含み、第2の顔画像は、ユーザの第2の顔の表情を含み、第1の顔の表情は、第2の顔の表情と関連付けられている。具体的な処理については、
図3又は
図4に示された実施形態の関連する説明を参照されたい。本明細書において詳細について再び説明しない。
【0242】
カメラモジュール1103は、第1のビデオストリーム及び第2のビデオストリームを取得するように構成されている。
【0243】
ニューラルネットワークアクセラレーションモジュール1104は、畳み込みニューラルネットワークに基づいて、編集対象画像内のユーザの第1の顔画像に対応する顔モデル及び第1のビデオストリーム内のユーザの第2の顔画像に対応する顔モデルを構築し、編集対象画像内のユーザの第1の顔画像と、予備的に編集された画像内のユーザの第3の顔画像と、第1のビデオストリーム内のユーザの第2の顔画像とに基づいて、特徴画像を取得するように構成されている。特徴画像は、ユーザの目及び口腔の画像を含む。具体的な処理については、
図3又は
図4に示された実施形態の関連する説明を参照されたい。本明細書において詳細について再び説明しない。
【0244】
ユーザインタラクション及び表示インタフェース1105は、編集対象画像、カメラモジュール1103を用いてリアルタイムで取得された第1のビデオストリーム、及び編集対象画像をリアルタイムで編集することで取得されたエフェクト画像を表示し、
図3又は
図4における実施形態における関連するメッセージ及び機能ボタンを表示して、ユーザとのインタラクションを実装するように構成されている。
【0245】
図12に示されるように、電子デバイス1200は、
図12における構造を用いて、実装されてよい。電子デバイス1200は、少なくとも1つのプロセッサ1201、少なくとも1つのメモリ1202、及び少なくとも通信インタフェース1203を含む。プロセッサ1201、メモリ1202、及び通信インタフェース1203は、通信バスを用いて、互いに接続し、通信されている。
【0246】
プロセッサ1201は、前述の解決手段プログラムの実行を制御するための、汎用中央処理装置(CPU)、マイクロプロセッサ、特定用途向け集積回路(application-specific integrated circuit、ASIC)、又は1又は複数の集積回路であってよい。
【0247】
通信インタフェース1203は、別のデバイス、又はEthernet(登録商標)、無線アクセスネットワーク(RAN)、若しくは無線ローカルエリアネットワーク(Wireless Local Area Network、WLAN)等の通信ネットワークと通信するように構成されている。
【0248】
メモリ1202は、これに限定されないが、リードオンリメモリ(read-only memory、ROM)若しくは静的情報及び命令を格納し得る別のタイプの静的ストレージデバイス又はランダムアクセスメモリ(random access memory、RAM)若しくは情報及び命令を格納し得る別のタイプの動的ストレージデバイスであってよく、又は電気的消去可能プログラマブルリードオンリメモリ(Electrically Erasable Programmable Read-Only Memory、EEPROM)、コンパクトディスクリードオンリメモリ(Compact Disc Read-Only Memory、CD-ROM)、別の光ディスクストレージ媒体、光ディスクストレージ媒体(コンパクトディスク、レーザディスク、光ディスク、デジタル多用途ディスク、若しくはブルーレイディスク等を含む)、又は磁気ディスクストレージ媒体、別の磁気ストレージデバイス、又は命令又はデータの構造形態において想定されるプログラムコードを保持又は格納でき且つコンピュータによりアクセスされ得る任意の他の媒体であってよい。メモリは独立的に存在し得て、バスを通じてプロセッサに接続される。メモリは、代替的に、プロセッサと統合され得る。
【0249】
メモリ1202は、前述の解決手段を実行するためのアプリケーションコードを格納するように構成されており、プロセッサ501は、実行を制御する。プロセッサ1201は、メモリ1202に格納されたアプリケーションコードを実行するように構成されている。
【0250】
メモリ1202に格納されたコードは、前述の顔の表情編集方法、例えば、編集対象画像を取得する段階であって、編集対象画像は、ユーザの第1の顔画像を含む、段階と、カメラを用いて、ユーザの第2の顔画像を含む第1のビデオストリームを取得する段階と、第1のビデオストリーム内のユーザの第2の顔画像に基づいて、編集対象画像内のユーザの第1の顔画像を編集して、予備的に編集された画像を取得する段階であって、予備的に編集された画像は、ユーザの第3の顔画像を含む、段階と、編集対象画像内のユーザの第1の顔画像と、予備的に編集された画像内のユーザの第3の顔画像と、第1のビデオストリーム内のユーザの第2の顔画像とに基づいて、特徴画像を取得する段階であって、特徴画像は、ユーザの目及び口腔を含む画像である、段階と、特徴画像と予備的に編集された画像内の第3の顔画像とを融合して、編集された画像を取得する段階とを実行するために実行され得る。編集された画像は、ユーザの第1の顔の表情を含み、第2の顔画像は、ユーザの第2の顔の表情を含み、第1の顔の表情は、第2の顔の表情と関連付けられている。
【0251】
本願の実施形態は、コンピュータストレージ媒体を更に提供する。コンピュータストレージ媒体はプログラムを格納してよい。プログラムが実行された場合に、前述の方法の実施形態における任意の顔の表情編集方法の段階の一部又は全部は、実行され得る。
【0252】
前述の方法の実施形態は、説明を簡潔にするべく、一連の動作として表現されることに留意されたい。しかしながら、本願によれば、一部の段階は他の順序で又は同時に行われてもよいので、当業者であれば、本願は説明した動作順序に限定されないことを理解するはずである。本明細書において説明された実施形態は全て、例示的な実施形態に属し、関与する動作及びモジュールは、必ずしも本願により必要とされないことが、当業者により更に理解されたい。
【0253】
前述の実施形態において、各実施形態の説明は、それぞれの着目点を有する。一実施形態において詳細に説明されていない部分については、他の実施形態の関連する説明を参照されたい。
【0254】
本願で提供したいくつかの実施形態では、開示された装置が他の方式で実装されてもよいことを理解されたい。例えば、説明された装置の実施形態は、例に過ぎない。例えば、複数のユニットへの分割は、単なる論理的な機能の分割に過ぎず、実際に実装する際には、他の分割であってもよい。例えば、複数のユニット若しくはコンポーネントを組み合わせてもよいし、又は別のシステムに統合してもよいし、あるいは、いくつかの機能を無視してもよいし、又は実行しなくてもよい。更に、表示又は論じられた相互結合又は直接的結合又は通信接続は、いくつかのインタフェースを通じて実装され得る。装置間又はユニット間の間接的結合又は通信接続は、電子的又は他の形態で実装されてよい。
【0255】
別個の部品として記載されるユニットは、物理的に別個である場合とそうでない場合があり、ユニットとして表示される部品は、物理ユニットである場合とそうでない場合があり、1つの位置に位置している場合と複数のネットワークユニットに分散されている場合がある。ユニットの一部又は全部は、実施形態の解決手段の目的を達成するための実際の要件に基づいて選択され得る。
【0256】
更に、本願の実施形態における各機能ユニットが1つの処理ユニットに統合されてもよく、これらのユニットの各々が物理的に単独で存在してもよく、2つ又はそれより多くのユニットが1つのユニットに統合される。統合ユニットは、ハードウェアの形態で実装されてもよく、又は、ソフトウェア機能ユニットの形態で実装されてもよい。
【0257】
統合ユニットがソフトウェア機能ユニットの形で実装され且つ独立した製品として販売又は用いられる場合に、統合ユニットはコンピュータ可読メモリに格納されてよい。そのような理解に基づき、本願の技術的解決手段は本質的に、又は、従来技術に寄与する部分は、又は、技術的解決手段の全部若しくはいくつかは、ソフトウェア製品の形態で実装され得る。ソフトウェア製品は、メモリに格納され、本願の実施形態において説明された方法の段階の全て又は一部を実行するように、コンピュータデバイス(パーソナルコンピュータ、サーバ、又はネットワークデバイスであってよい)に命令するためのいくつかの命令を含む。前述のメモリは、USBフラッシュドライブ、リードオンリメモリ(read-only memory、ROM)、ランダムアクセスメモリ(random access memory、RAM)、リムーバブルハードディスク、磁気ディスク、又は光ディスク等のプログラムコードを格納することができる任意の媒体を含む。
【0258】
当業者は、実施形態における方法の段階の全て又は一部が関連ハードウェアに命令するプログラムにより実装されてよいことが理解され得る。本プログラムは、コンピュータ可読メモリに格納されてよい。メモリは、フラッシュメモリ、リードオンリメモリ(Read-Only Memory、略してROM)、ランダムアクセスメモリ(Random Access Memory、略してRAM)、磁気ディスク、又は光ディスク等を含んでよい。
【0259】
結論として、前述の実施形態は、本願を限定するためではなく、本願の技術的解決手段を説明するために意図されているに過ぎない。本願は、前述の実施形態を参照して詳細に説明されているが、当業者であれば、本願の実施形態の技術的解決手段範囲から逸脱することなく、前述の実施形態で説明された技術的解決手段に更に修正を加えるか、又はそのいくつかの技術的特徴に同等の置換を行い得ることを理解すべきである。
[他の考え得る項目]
[項目1]
顔の表情編集方法であって、
編集対象画像を取得する段階であって、前記編集対象画像は、ユーザの第1の顔画像を含む、段階と、
前記ユーザの第2の顔画像を含む第1のビデオストリームを取得する段階と、
前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像に基づいて、前記編集対象画像内の前記ユーザの前記第1の顔画像を編集して、予備的に編集された画像を取得する段階であって、前記予備的に編集された画像は、前記ユーザの第3の顔画像を含む、段階と、
前記編集対象画像内の前記ユーザの前記第1の顔画像と、前記予備的に編集された画像内の前記ユーザの前記第3の顔画像と、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像とに基づいて、特徴画像を取得する段階であって、前記特徴画像は、前記ユーザの目及び口腔を含む画像である、段階と、
前記特徴画像と前記予備的に編集された画像内の前記ユーザの前記第3の顔画像とを融合して、編集された画像を取得する段階であって、前記編集された画像は、前記ユーザの第1の顔の表情を含み、前記第2の顔画像は、前記ユーザの第2の顔の表情を含み、前記第1の顔の表情は、前記第2の顔の表情と関連付けられている、段階と
を備える、顔の表情編集方法。
[項目2]
前記第1のビデオストリームは、複数の画像フレームを含み、
前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像に基づいて、前記編集対象画像内の前記ユーザの前記第1の顔画像を編集する前記段階は、具体的に、
前記第1のビデオストリーム内の前記複数の画像フレーム内の前記ユーザの前記第2の顔画像に基づいて、前記編集対象画像内の前記ユーザの前記第1の顔画像を編集する段階であって、前記複数の画像フレームのうちの各画像フレームは、前記ユーザの前記第2の顔画像を含む、段階
を有する、項目1に記載の方法。
[項目3]
前記ユーザの第2の顔画像を含む第1のビデオストリームを取得する前記段階は、具体的に、
カメラを用いて、前記ユーザの前記第2の顔画像を含む前記第1のビデオストリームを取得する段階、前記ユーザの前記第2の顔画像を含む前記第1のビデオストリームを受信する段階、又は前記ユーザの前記第2の顔画像を含む前記格納された第1のビデオストリームを呼び出す段階
を有する、項目1又は2に記載の方法。
[項目4]
前記第1の顔の表情が第2の顔の表情と関連付けられていることは、具体的に、
前記第1の顔の表情が前記第2の顔の表情であること、又は
第1のベクトルと第2のベクトルとの間の平均二乗誤差が第1の閾値未満であること
を含み、
前記第1のベクトルは、前記第1の顔の表情を示すベクトルであり、前記第2のベクトルは、前記第2の顔の表情を示すベクトルである、項目1から3のいずれか一項に記載の方法。
[項目5]
前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像に基づいて、前記編集対象画像内の前記ユーザの前記第1の顔画像を編集して、予備的に編集された画像を取得する前記段階は、具体的に、
前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像と、前記編集対象画像内の前記ユーザの前記第1の顔画像とに基づいて、第1の目標パラメータを決定する段階であって、前記第1の目標パラメータは、前記ユーザの顔形状を説明するベクトルである、段階と、
前記第1の目標パラメータと、前記編集対象画像とに基づいて、第2の目標パラメータと、第3の目標パラメータと、第4の目標パラメータとを決定する段階であって、前記第2の目標パラメータは、前記ユーザの顔のサイズを示し、前記第3の目標パラメータは、前記ユーザの3次元の顔の頭部姿勢の回転行列又はオイラー角を示し、前記第4の目標パラメータは、直交座標系内の前記ユーザの3次元の頭部が画像座標系にマッピングされるときに必要とされる並進ベクトルを示す、段階と、
前記第1の目標パラメータと、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像とに基づいて、第5の目標パラメータを決定する段階であって、前記第5の目標パラメータは、前記第1のビデオストリーム内の前記ユーザの顔の表情を説明するベクトルである、段階と、
前記第1の目標パラメータと、前記第2の目標パラメータと、前記第3の目標パラメータと、前記第4の目標パラメータと、前記第5の目標パラメータとに基づいて、目標顔モデルを構築する段階と、
前記目標顔モデルに対してレンダリング及び再構築を実行して、前記予備的に編集された画像を取得する段階と
を有する、項目1から4のいずれか一項に記載の方法。
[項目6]
前記第1のビデオストリームは、N個の画像を含み、Nは、1よりも大きい整数であり、前記N個の画像の各々は、前記ユーザの前記第2の顔画像を含み、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像と、前記編集対象画像内の前記ユーザの前記第1の顔画像とに基づいて、第1の目標パラメータを決定する段階は、
前記N個の画像の各々の内の前記ユーザの前記第2の顔画像に対してモデリングを実行して、各画像の第1のパラメータを取得する段階であって、各画像の前記第1のパラメータは、各画像内の前記ユーザの顔形状を説明するベクトルである、段階と、
前記編集対象画像内の前記ユーザの前記第1の顔画像に対してモデリングを実行して、前記編集対象画像の第2のパラメータを取得する段階であって、前記第2のパラメータは、前記編集対象画像内の前記ユーザの顔形状を説明するベクトルである、段階と、
前記N個の画像の各々の前記第1のパラメータと、前記編集対象画像の前記第2のパラメータとに基づいて、前記第1の目標パラメータを決定する段階と
を有する、項目5に記載の方法。
[項目7]
前記編集対象画像内の前記ユーザの前記第1の顔画像と、前記予備的に編集された画像内の前記ユーザの前記第3の顔画像と、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像とに基づいて、特徴画像を取得する前記段階は、
前記編集対象画像内の前記ユーザの前記第1の顔画像と、前記予備的に編集された画像内の前記ユーザの前記第3の顔画像と、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像とに対して画像セグメント化を別個に実行して、第1の画像と、第2の画像と、第3の画像とを取得する段階であって、前記第1の画像は、前記編集対象画像内にあり且つ前記ユーザの前記目及び前記口腔を含む画像であり、前記第2の画像は、前記予備的に編集された画像内にあり且つ前記ユーザの前記目及び前記口腔を含む画像であり、前記第3の画像は、前記第1のビデオストリーム内にあり且つ前記ユーザの前記目及び前記口腔を含む画像である、段階と、
前記第1の画像と、前記第2の画像と、前記第3の画像とにおける前記ユーザの前記目及び前記口腔の特徴をエンコードして、前記ユーザの前記目及び前記口腔の前記画像の特徴ベクトルを取得する段階と、
前記ユーザの前記目及び前記口腔の前記画像の前記特徴ベクトルに基づいて、前記特徴画像を生成する段階と
を有する、項目1から6のいずれか一項に記載の方法。
[項目8]
カメラを用いて、前記ユーザの前記第2の顔画像を含む前記第1のビデオストリームを取得する前記段階の前に、前記方法は、
前記カメラを用いて、前記ユーザの第4の顔画像を含む第2のビデオストリームを取得する段階と、
前記第2のビデオストリーム内の前記ユーザの第4の顔画像から顔の特徴を抽出して、第1の顔の特徴を取得し、前記編集対象画像内の前記ユーザの前記第1の顔画像から顔の特徴を抽出して、第2の顔の特徴を取得する段階と、
前記第1の顔の特徴が前記第2の顔の特徴と一致する場合に、前記カメラを用いて、前記ユーザの前記第2の顔画像を含む前記第1のビデオストリームを取得する段階と
を更に備える、項目1から7のいずれか一項に記載の方法。
[項目9]
前記方法は、
前記カメラが前記第1のビデオストリームを取得することを開始するときに、前記ユーザの顔の表情編集プロセスのビデオを記録するべきかどうかを決定する段階と、
前記ユーザの前記顔の表情編集プロセスの前記ビデオを記録することが決定された場合に、前記編集された画像を取得した後に、前記ユーザの前記顔の表情編集プロセスの前記ビデオ内の複数の画像フレーム又は全ての画像を格納する段階であって、前記複数の画像フレーム又は前記全ての画像は、前記編集された画像を含む、格納する段階と、
前記ユーザの前記顔の表情編集プロセスの前記ビデオを記録しないことが決定された場合に、前記編集された画像を取得した後に、前記編集された画像を格納する段階と
を更に備える、項目8に記載の方法。
[項目10]
前記方法は、
前記編集対象画像と、前記第1のビデオストリームと、前記編集対象画像をリアルタイムで編集することで取得されたエフェクト画像とをリアルタイムで表示する段階
を更に備える、項目1から9のいずれか一項に記載の方法。
[項目11]
顔の表情編集方法であって、
第1のデバイスの表示インタフェース上に編集対象画像を表示する段階であって、前記編集対象画像は、ユーザの第1の顔画像を含む、段階と、
前記第1のデバイスの前記表示インタフェース上での第1操作を受信する段階と、
前記第1操作に応答する段階と、
第1のビデオストリームを取得する段階であって、前記第1のビデオストリームは、前記ユーザの第2の顔画像を含む、段階と、
前記第1のビデオストリームから目標画像であって、前記ユーザの目標表情を含む、目標画像を取得し、前記目標画像に基づいて、前記編集対象画像を編集して、編集された画像を取得する段階であって、前記編集された画像内の前記ユーザの表情は、前記編集対象画像内の前記ユーザの顔の表情よりも、前記ユーザの前記目標表情に近い、段階と、
前記第1のデバイスの前記表示インタフェース上に前記編集された画像を表示する段階と
を備える、顔の表情編集方法。
[項目12]
前記第1操作は、スライド、クリック、ドラッグ、及び入力のうちの1又は複数を含む、項目11に記載の方法。
[項目13]
前記第1のビデオストリームは、複数の画像フレームを含み、
前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像に基づいて、前記編集対象画像内の前記ユーザの前記第1の顔画像を編集する前記段階は、具体的に、
前記第1のビデオストリーム内の前記複数の画像フレーム内の前記ユーザの前記第2の顔画像に基づいて、前記編集対象画像内の前記ユーザの前記第1の顔画像を編集する段階であって、前記複数の画像フレームのうちの各画像フレームは、前記ユーザの前記第2の顔画像を含む、段階
を有する、項目11に記載の方法。
[項目14]
前記ユーザの第2の顔画像を含む第1のビデオストリームを取得する前記段階は、具体的に、
カメラを用いて、前記ユーザの前記第2の顔画像を含む前記第1のビデオストリームを取得する段階、前記ユーザの前記第2の顔画像を含む前記第1のビデオストリームを受信する段階、又は前記ユーザの前記第2の顔画像を含む前記格納された第1のビデオストリームを呼び出す段階
を有する、項目11から13のいずれか一項に記載の方法。
[項目15]
前記第1の顔の表情が第2の顔の表情と関連付けられていることは、具体的に、
前記第1の顔の表情が前記第2の顔の表情であること、又は
第1のベクトルと第2のベクトルとの間の平均二乗誤差が第1の閾値未満であること
を含み、
前記第1のベクトルは、前記第1の顔の表情を示すベクトルであり、前記第2のベクトルは、前記第2の顔の表情を示すベクトルである、項目11から14のいずれか一項に記載の方法。
[項目16]
前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像に基づいて、前記編集対象画像内の前記ユーザの前記第1の顔画像を編集して、予備的に編集された画像を取得する前記段階は、具体的に、
前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像と、前記編集対象画像内の前記ユーザの前記第1の顔画像とに基づいて、第1の目標パラメータを決定する段階であって、前記第1の目標パラメータは、前記ユーザの顔形状を説明するベクトルである、段階と、
前記第1の目標パラメータと、前記編集対象画像とに基づいて、第2の目標パラメータと、第3の目標パラメータと、第4の目標パラメータとを決定する段階であって、前記第2の目標パラメータは、前記ユーザの顔のサイズを示し、前記第3の目標パラメータは、前記ユーザの3次元の顔の頭部姿勢の回転行列又はオイラー角を示し、前記第4の目標パラメータは、直交座標系内の前記ユーザの3次元の頭部が画像座標系にマッピングされるときに必要とされる並進ベクトルを示す、段階と、
前記第1の目標パラメータと、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像とに基づいて、第5の目標パラメータを決定する段階であって、前記第5の目標パラメータは、前記第1のビデオストリーム内の前記ユーザの顔の表情を説明するベクトルである、段階と、
前記第1の目標パラメータと、前記第2の目標パラメータと、前記第3の目標パラメータと、前記第4の目標パラメータと、前記第5の目標パラメータとに基づいて、目標顔モデルを構築する段階と、
前記目標顔モデルに対してレンダリング及び再構築を実行して、前記予備的に編集された画像を取得する段階と
を有する、項目1から15のいずれか一項に記載の方法。
[項目17]
前記第1のビデオストリームは、N個の画像を含み、Nは、1よりも大きい整数であり、前記N個の画像の各々は、前記ユーザの前記第2の顔画像を含み、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像と、前記編集対象画像内の前記ユーザの前記第1の顔画像とに基づいて、第1の目標パラメータを決定する段階は、
前記N個の画像の各々の内の前記ユーザの前記第2の顔画像に対してモデリングを実行して、各画像の第1のパラメータを取得する段階であって、各画像の前記第1のパラメータは、各画像内の前記ユーザの顔形状を説明するベクトルである、段階と、
前記編集対象画像内の前記ユーザの前記第1の顔画像に対してモデリングを実行して、前記編集対象画像の第2のパラメータを取得する段階であって、前記第2のパラメータは、前記編集対象画像内の前記ユーザの顔形状を説明するベクトルである、段階と、
前記N個の画像の各々の前記第1のパラメータと、前記編集対象画像の前記第2のパラメータとに基づいて、前記第1の目標パラメータを決定する段階と
を有する、項目16に記載の方法。
[項目18]
前記編集対象画像内の前記ユーザの前記第1の顔画像と、前記予備的に編集された画像内の前記ユーザの前記第3の顔画像と、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像とに基づいて、特徴画像を取得する前記段階は、
前記編集対象画像内の前記ユーザの前記第1の顔画像と、前記予備的に編集された画像内の前記ユーザの前記第3の顔画像と、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像とに対して画像セグメント化を別個に実行して、第1の画像と、第2の画像と、第3の画像とを取得する段階であって、前記第1の画像は、前記編集対象画像内にあり且つ前記ユーザの前記目及び前記口腔を含む画像であり、前記第2の画像は、前記予備的に編集された画像内にあり且つ前記ユーザの前記目及び前記口腔を含む画像であり、前記第3の画像は、前記第1のビデオストリーム内にあり且つ前記ユーザの前記目及び前記口腔を含む画像である、段階と、
前記第1の画像と、前記第2の画像と、前記第3の画像とにおける前記ユーザの前記目及び前記口腔の特徴をエンコードして、前記ユーザの前記目及び前記口腔の前記画像の特徴ベクトルを取得する段階と、
前記ユーザの前記目及び前記口腔の前記画像の前記特徴ベクトルに基づいて、前記特徴画像を生成する段階と
を有する、項目11から17のいずれか一項に記載の方法。
[項目19]
カメラを用いて、前記ユーザの前記第2の顔画像を含む前記第1のビデオストリームを取得する前記段階の前に、前記方法は、
前記カメラを用いて、前記ユーザの第4の顔画像を含む第2のビデオストリームを取得する段階と、
前記第2のビデオストリーム内の前記ユーザの第4の顔画像から顔の特徴を抽出して、第1の顔の特徴を取得し、前記編集対象画像内の前記ユーザの前記第1の顔画像から顔の特徴を抽出して、第2の顔の特徴を取得する段階と、
前記第1の顔の特徴が前記第2の顔の特徴と一致する場合に、前記カメラを用いて、前記ユーザの前記第2の顔画像を含む前記第1のビデオストリームを取得する段階と
を更に備える、項目11から18のいずれか一項に記載の方法。
[項目20]
前記方法は、
前記カメラが前記第1のビデオストリームを取得することを開始するときに、前記ユーザの顔の表情編集プロセスのビデオを記録するべきかどうかを決定する段階と、
前記ユーザの前記顔の表情編集プロセスの前記ビデオを記録することが決定された場合に、前記編集された画像を取得した後に、前記ユーザの前記顔の表情編集プロセスの前記ビデオ内の複数の画像フレーム又は全ての画像を格納する段階であって、前記複数の画像フレーム又は前記全ての画像は、前記編集された画像を含む、格納する段階と、
前記ユーザの前記顔の表情編集プロセスの前記ビデオを記録しないことが決定された場合に、前記編集された画像を取得した後に、前記編集された画像を格納する段階と
を更に備える、項目19に記載の方法。
[項目21]
前記方法は、
前記編集対象画像と、前記第1のビデオストリームと、前記編集対象画像をリアルタイムで編集することで取得されたエフェクト画像とをリアルタイムで表示する段階
を更に備える、項目11から20のいずれか一項に記載の方法。
[項目22]
電子デバイスであって、
編集対象画像を取得するように構成された取得ユニットであって、前記編集対象画像は、ユーザの第1の顔画像を含み、前記取得ユニットは、前記ユーザの第2の顔画像を含む第1のビデオストリームを取得するように更に構成されている、取得ユニットと、
前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像に基づいて、前記編集対象画像内の前記ユーザの前記第1の顔画像を編集して、予備的に編集された画像を取得するように構成された編集ユニットであって、前記予備的に編集された画像は、前記ユーザの第3の顔画像を含む、編集ユニットと、
前記編集対象画像内の前記ユーザの前記第1の顔画像と、前記予備的に編集された画像内の前記ユーザの前記第3の顔画像と、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像とに基づいて、特徴画像を取得するように構成された特徴取得ユニットであって、前記特徴画像は、前記ユーザの目及び口腔を含む画像である、特徴取得ユニットと、
前記特徴画像と前記予備的に編集された画像内の前記ユーザの前記第3の顔画像とを融合して、編集された画像を取得するように構成された融合ユニットあって、前記編集された画像は、前記ユーザの第1の顔の表情を含み、前記第2の顔画像は、前記ユーザの第2の顔の表情を含み、前記第1の顔の表情は、前記第2の顔の表情と関連付けられている、融合ユニットと
を備える、電子デバイス。
[項目23]
前記第1のビデオストリームは、複数の画像フレームを含み、
前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像に基づいて、前記編集対象画像内の前記ユーザの前記第1の顔画像を編集することは、具体的に、
前記第1のビデオストリーム内の前記複数の画像フレーム内の前記ユーザの前記第2の顔画像に基づいて、前記編集対象画像内の前記ユーザの前記第1の顔画像を編集することであって、前記複数の画像フレームのうちの各画像フレームは、前記ユーザの前記第2の顔画像を含む、編集すること
を有する、項目22に記載の電子デバイス。
[項目24]
前記ユーザの第2の顔画像を含む第1のビデオストリームを取得することは、具体的に、
カメラを用いて、前記ユーザの前記第2の顔画像を含む前記第1のビデオストリームを取得すること、前記ユーザの前記第2の顔画像を含む前記第1のビデオストリームを受信すること、又は前記ユーザの前記第2の顔画像を含む前記格納された第1のビデオストリームを呼び出すこと
を有する、項目22又は23に記載の電子デバイス。
[項目25]
前記第1の顔の表情が第2の顔の表情と関連付けられていることは、具体的に、
前記第1の顔の表情が前記第2の顔の表情であること、又は
第1のベクトルと第2のベクトルとの間の平均二乗誤差が第1の閾値未満であること
を含み、
前記第1のベクトルは、前記第1の顔の表情を示すベクトルであり、前記第2のベクトルは、前記第2の顔の表情を示すベクトルである、項目22から24のいずれか一項に記載の電子デバイス。
[項目26]
前記編集ユニットは、具体的に、
前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像と、前記編集対象画像内の前記ユーザの前記第1の顔画像とに基づいて、第1の目標パラメータを決定することであって、前記第1の目標パラメータは、前記ユーザの顔形状を説明するベクトルである、決定することと、
前記第1の目標パラメータと、前記編集対象画像とに基づいて、第2の目標パラメータと、第3の目標パラメータと、第4の目標パラメータとを決定することであって、前記第2の目標パラメータは、前記ユーザの顔のサイズを示し、前記第3の目標パラメータは、前記ユーザの3次元の顔の頭部姿勢の回転行列又はオイラー角を示し、前記第4の目標パラメータは、直交座標系内の前記ユーザの3次元の頭部が画像座標系にマッピングされるときに必要とされる並進ベクトルを示す、決定することと、
前記第1の目標パラメータと、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像とに基づいて、第5の目標パラメータを決定することであって、前記第5の目標パラメータは、前記第1のビデオストリーム内の前記ユーザの顔の表情を説明するベクトルである、決定することと、
前記第1の目標パラメータと、前記第2の目標パラメータと、前記第3の目標パラメータと、前記第4の目標パラメータと、前記第5の目標パラメータとに基づいて、目標顔モデルを構築することと、
前記目標顔モデルに対してレンダリング及び再構築を実行して、前記予備的に編集された画像を取得することと
を行うように構成されている、項目22から25のいずれか一項に記載の電子デバイス。
[項目27]
前記第1のビデオストリームは、N個の画像を含み、Nは、1よりも大きい整数であり、前記N個の画像の各々は、前記ユーザの前記第2の顔画像を含み、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像と、前記編集対象画像内の前記ユーザの前記第1の顔画像とに基づいて、第1の目標パラメータを決定する間、前記編集ユニットは、具体的に、
前記N個の画像の各々の内の前記ユーザの前記第2の顔画像に対してモデリングを実行して、各画像の第1のパラメータを取得することであって、各画像の前記第1のパラメータは、各画像内の前記ユーザの顔形状を説明するベクトルである、取得することと、
前記編集対象画像内の前記ユーザの前記第1の顔画像に対してモデリングを実行して、前記編集対象画像の第2のパラメータを取得することであって、前記第2のパラメータは、前記編集対象画像内の前記ユーザの顔形状を説明するベクトルである、取得することと、
前記N個の画像の各々の前記第1のパラメータと、前記編集対象画像の前記第2のパラメータとに基づいて、前記第1の目標パラメータを決定することと
を行うように構成されている、項目26に記載の電子デバイス。
[項目28]
前記特徴取得ユニットは、具体的に、
前記編集対象画像内の前記ユーザの前記第1の顔画像と、前記予備的に編集された画像内の前記ユーザの前記第3の顔画像と、前記第1のビデオストリーム内の前記ユーザの前記第2の顔画像とに対して画像セグメント化を別個に実行して、第1の画像と、第2の画像と、第3の画像とを取得することであって、前記第1の画像は、前記編集対象画像内にあり且つ前記ユーザの前記目及び前記口腔を含む画像であり、前記第2の画像は、前記予備的に編集された画像内にあり且つ前記ユーザの前記目及び前記口腔を含む画像であり、前記第3の画像は、前記第1のビデオストリーム内にあり且つ前記ユーザの前記目及び前記口腔を含む画像である、取得することと、
前記第1の画像と、前記第2の画像と、前記第3の画像とにおける前記ユーザの前記目及び前記口腔の特徴をエンコードして、前記ユーザの前記目及び前記口腔の前記画像の特徴ベクトルを取得することと、
前記ユーザの前記目及び前記口腔の前記画像の前記特徴ベクトルに基づいて、前記特徴画像を生成することと
を行うように構成されている、項目22から27のいずれか一項に記載の電子デバイス。
[項目29]
カメラを用いて、前記ユーザの前記第2の顔画像を含む前記第1のビデオストリームを取得する前に、
前記取得ユニットは、前記カメラを用いて、前記ユーザの第4の顔画像を含む第2のビデオストリームを取得するように更に構成されており、
前記電子デバイスは、
前記第2のビデオストリーム内の前記ユーザの第4の顔画像から顔の特徴を抽出して、第1の顔の特徴を取得し、前記編集対象画像内の前記ユーザの前記第1の顔画像から顔の特徴を抽出して、第2の顔の特徴を取得するように構成された特徴抽出ユニットと、
前記第1の顔の特徴が前記第2の顔の特徴と一致する場合に、前記カメラを用いて、前記ユーザの前記第2の顔画像を含む前記第1のビデオストリームを取得するように構成された決定ユニットと
を更に備える、項目22から28のいずれか一項に記載の電子デバイス。
[項目30]
前記電子デバイスは、
前記カメラが前記第1のビデオストリームを取得することを開始するときに、前記ユーザの顔の表情編集プロセスのビデオを記録するべきかどうかを決定するように構成された判定ユニットと、
ストレージユニットであって、前記判定ユニットが、ユーザの前記顔の表情編集プロセスの前記ビデオを記録することを決定した場合に、前記編集された画像を取得した後に、前記ユーザの前記顔の表情編集プロセスの前記ビデオ内の複数の画像フレーム又は全ての画像を格納し、前記複数の画像フレーム又は前記全ての画像は、前記編集された画像を含み、前記判定ユニットが、前記ユーザの前記顔の表情編集プロセスの前記ビデオを記録しないことを決定した場合に、前記編集された画像を取得した後に、前記編集された画像を格納するように構成された、ストレージユニットと
を更に備える、項目29に記載の電子デバイス。
[項目31]
前記電子デバイスは、
前記編集対象画像と、前記第1のビデオストリームと、前記編集対象画像をリアルタイムで編集することで取得されたエフェクト画像とをリアルタイムで表示するように構成された表示ユニット
を更に備える、項目22から30のいずれか一項に記載の電子デバイス。
[項目32]
電子デバイスであって、タッチスクリーンと、メモリと、1又は複数のプロセッサとを備え、1又は複数のプログラムは、前記メモリに格納され、前記1又は複数のプロセッサが前記1又は複数のプログラムを実行した場合に、前記電子デバイスは、項目1から21のいずれか一項に記載の方法を実装することが可能となる、電子デバイス。
[項目33]
コンピュータ命令を含むコンピュータストレージ媒体であって、前記コンピュータ命令が電子デバイス上で実行されるとき、前記電子デバイスは、項目1から21のいずれか一項に記載の方法を実行することが可能となる、コンピュータストレージ媒体。
[項目34]
コンピュータプログラム製品であって、前記コンピュータプログラム製品がコンピュータ上で実行するとき、前記コンピュータは、項目1から21のいずれか一項に記載の方法を実行することが可能となる、コンピュータプログラム製品。