(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024071354
(43)【公開日】2024-05-24
(54)【発明の名称】イメージを処理する電子装置及びその動作方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240517BHJP
G06F 18/213 20230101ALI20240517BHJP
G06N 3/0455 20230101ALI20240517BHJP
G06T 3/4053 20240101ALI20240517BHJP
【FI】
G06T7/00 350C
G06F18/213
G06N3/0455
G06T7/00 660A
G06T3/40 730
【審査請求】未請求
【請求項の数】19
【出願形態】OL
(21)【出願番号】P 2023188998
(22)【出願日】2023-11-06
(31)【優先権主張番号】202211424777.1
(32)【優先日】2022-11-14
(33)【優先権主張国・地域又は機関】CN
(31)【優先権主張番号】10-2023-0115612
(32)【優先日】2023-08-31
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】390019839
【氏名又は名称】三星電子株式会社
【氏名又は名称原語表記】Samsung Electronics Co.,Ltd.
【住所又は居所原語表記】129,Samsung-ro,Yeongtong-gu,Suwon-si,Gyeonggi-do,Republic of Korea
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】韓 承周
(72)【発明者】
【氏名】李 ▲ふい▼
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057CD05
5L096FA09
5L096FA69
5L096HA11
(57)【要約】
【課題】イメージを処理する電子装置及びその動作方法が開示される。
【解決手段】電子装置の動作方法は、顔イメージのマルチレベル特徴マップに基づいて前記顔イメージの初期イメージ特徴行列を生成する動作、前記マルチレベル特徴マップの最後のレベル特徴マップに基づいて前記顔イメージの初期顔先験特徴行列を生成する動作、及び前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて、1つ以上のエンコーダを用いて前記顔イメージの超解像度イメージ及び/又は前記顔イメージのキーポイント座標を生成する動作を含む。1つ以上のエンコーダが複数のエンコーダである場合、前記複数のエンコーダはカスケードされる。
【選択図】
図6
【特許請求の範囲】
【請求項1】
プロセッサによって行われる方法であって、
顔イメージのマルチレベル特徴マップに基づいて前記顔イメージの初期イメージ特徴行列を生成する動作と、
前記マルチレベル特徴マップの最後のレベル特徴マップに基づいて前記顔イメージの初期顔先験特徴行列を生成する動作と、
前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて、1つ以上のエンコーダを用いて前記顔イメージの超解像度イメージ及び/又は前記顔イメージのキーポイント座標を生成する動作と、
を含み、
前記1つ以上のエンコーダが複数のエンコーダである場合、前記複数のエンコーダはカスケードされる、方法。
【請求項2】
前記1つ以上のエンコーダそれぞれは、交差アテンションモデル及び第1変形可能なアテンションモデルを含み、
前記超解像度イメージが取得され、
前記超解像度イメージを取得する動作は、
前記1つ以上のエンコーダのうち初期エンコーダの前記交差アテンションモデルを用いて、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得する動作と、
前記初期エンコーダの前記第1変形可能なアテンションモデルを用いて、前記融合されたイメージ特徴行列に基づいて前記顔イメージのアップデートされたイメージ特徴行列を取得する動作と、
前記アップデートされたイメージ特徴行列及び前記顔イメージに基づいて前記顔イメージの超解像度イメージを取得する動作と、
を含む、請求項1に記載の方法。
【請求項3】
前記1つ以上のエンコーダそれぞれは、交差アテンションモデル及び第2変形可能なアテンションモデルを含み、
前記キーポイント座標は取得され、
前記顔イメージのキーポイント座標を取得する動作は、
前記1つ以上のエンコーダのうち初期エンコーダの前記交差アテンションモデルを用いて、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得する動作と、
前記初期エンコーダの前記第2変形可能なアテンションモデルを用いて、前記融合されたイメージ特徴行列及び前記初期顔先験特徴行列に基づいて前記顔イメージのアップデートされた顔先験特徴を取得する動作と、
前記アップデートされた顔先験特徴及び前記顔イメージの初期キーポイント座標に基づいて、前記顔イメージのキーポイント座標を予測する動作であって、前記顔イメージの初期キーポイント座標は、前記初期顔先験特徴行列に基づいて取得される、動作と、
を含む、請求項1に記載の方法。
【請求項4】
前記1つ以上のエンコーダのそれぞれは、第1ネットワーク、第2ネットワーク、及び第3ネットワークを含み、第1ネットワークは交差アテンションモデルを含み、第2ネットワークは第1変形可能なアテンションモデルを含み、第3ネットワークは第2変形可能なアテンションモデルを含み、
前記顔イメージの超解像度イメージ及び/又は前記顔イメージのキーポイント座標を取得する動作は、
前記超解像度イメージを生成する動作が行われる場合、前記1つ以上のエンコーダそれぞれに対して、現在エンコーダに対応するイメージ特徴行列及び顔先験特徴行列に基づいて、第1ネットワークを用いて現在エンコーダの融合されたイメージ特徴行列を取得する動作と、
前記1つ以上のエンコーダが複数のエンコーダを含んだり、複数のエンコーダと追加エンコーダを含む場合、前記複数のエンコーダそれぞれに対して、前記現在エンコーダの融合されたイメージ特徴行列及び現在エンコーダに対応する顔先験特徴行列に基づいて、第2ネットワークを用いて前記現在エンコーダのアップデートされた顔先験特徴行列を取得する動作と、
前記1つ以上のエンコーダそれぞれに対して、前記現在エンコーダの融合されたイメージ特徴行列に基づいて、第3ネットワークを用いて前記現在エンコーダのアップデートされたイメージ特徴行列を取得する動作と、
前記キーポイント座標を生成する動作が行われる場合、前記1つ以上のエンコーダの最後のエンコーダのアップデートされたイメージ特徴行列及び前記顔イメージに基づいて、前記顔イメージの超解像度イメージを取得する動作及び/又は最後のエンコーダのアップデートされた顔先験特徴行列及び前記顔イメージの初期キーポイント座標に基づいて前記顔イメージのキーポイント座標を予測する動作と、
を含み、
前記顔イメージの前記初期キーポイント座標は、前記初期顔先験特徴行列に基づいて取得され、
前記現在エンコーダが1つ以上のエンコーダのうち初期エンコーダである場合、前記現在エンコーダに対応するイメージ特徴行列は前記初期イメージ特徴行列であり、前記現在エンコーダに対応する顔先験特徴行列は前記初期顔先験特徴行列であり、
前記現在エンコーダが初期エンコーダでない場合、前記現在エンコーダに対応するイメージ特徴行列は、前記現在エンコーダの以前エンコーダのアップデートされたイメージ特徴行列であり、前記現在エンコーダに対応する顔先験特徴行列は、前記現在エンコーダの以前エンコーダのアップデートされた顔先験特徴行列である、請求項1に記載の方法。
【請求項5】
前記顔イメージの超解像度イメージ及び/又は前記顔イメージのキーポイント座標を取得する動作は、
最後のエンコーダに対応するアップデートされたイメージ特徴行列に基づいて、アップサンプリング増幅ネットワークを用いて第1オフセットを求め、第1オフセットと前記顔イメージに基づいて前記超解像度イメージを取得する動作と、
前記最後のエンコーダに対応するアップデートされた顔先験特徴行列に基づいて、キーポイント予測ネットワークを用いて第2オフセットを求め、第2オフセットと前記顔イメージの初期キーポイント座標に基づいて予測された前記顔イメージのキーポイント座標を取得する動作と、
を含む、請求項4に記載の方法。
【請求項6】
前記1つ以上のエンコーダそれぞれの第1ネットワークは、レイヤ正規化モデル及びフィードフォワードネットワークモデルをさらに含み、
前記現在エンコーダの融合されたイメージ特徴行列を取得する動作は、
位置情報が内蔵されている現在エンコーダに対応するイメージ特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリベクトル、キーベクトル、及び値ベクトルとして交差アテンションモデルに入力し、カスケードされた交差アテンションモデル、レイヤ正規化モデル、及びフィードフォワードネットワークモデルを介して現在エンコーダの融合されたイメージ特徴行列を取得する動作を含む、請求項4に記載の方法。
【請求項7】
前記現在エンコーダの融合されたイメージ特徴行列に基づいて、第3ネットワークを用いて現在エンコーダのアップデートされたイメージ特徴行列を取得する動作は、
前記現在エンコーダの融合されたイメージ特徴行列のうち、各特徴の正規化位置を決定する動作であって、前記正規化位置は、前記対応する特徴マップ内の各特徴に対応する前記特徴マップ内の特徴の正規化位置を示す、動作と、
前記マルチレベル特徴マップの各特徴マップで予め設定された規則に応じて各特徴の前記正規化位置の近所でK個の正規化位置を決定する動作と、
現在エンコーダの融合されたイメージ特徴行列でマルチレベル特徴マップの各特徴マップのK個の正規化位置に対応するL×K個の特徴に対して加重合算を行い、現在エンコーダの融合されたイメージ特徴行列のうち、前記各特徴に対応する特徴を現在エンコーダのアップデートされたイメージ特徴行列のうちの特徴として取得する動作であって、前記Lは、マルチレベル特徴マップの特徴マップ個数である、動作と、
を含む、請求項4に記載の方法。
【請求項8】
前記1つ以上のエンコーダそれぞれの第2ネットワークは、セルフアテンションモデルをさらに含み、
前記現在エンコーダのアップデートされた顔先験特徴行列を取得する動作は、
前記現在エンコーダに対応する顔先験特徴行列に基づいて、セルフアテンションモデルを用いて現在エンコーダに対応するセルフアテンションの顔先験特徴行列を取得する動作と、
前記現在エンコーダに対応するセルフアテンションの顔先験特徴行列及び現在エンコーダの融合されたイメージ特徴行列に基づいて、第1変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する動作と、
を含む、請求項4に記載の方法。
【請求項9】
前記セルフアテンションモデルは、カスケードされたセルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを含み、
前記現在エンコーダのセルフアテンションの顔先験特徴行列を取得する動作は、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリ行列、キー行列及び値行列として前記セルフアテンションモデルに入力し、セルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを介して現在エンコーダのセルフアテンションの顔先験特徴行列を取得する動作を含み、
前記第2変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する動作は、
前記最後のレベル特徴マップで現在エンコーダのセルフアテンションの顔先験特徴行列のうち、各特徴の正規化位置を決定する動作であって、前記正規化位置は、前記最後のレベル特徴マップで各特徴に対応する最後のレベル特徴マップにおける特徴の正規化位置を示す、動作と、
予め設定された規則に応じて最終レベル特徴マップで前記正規化位置の近所のK個の正規化位置を決定する動作と、
前記現在エンコーダのアップデートされたイメージ特徴行列で前記K個の正規化位置に対応するK個の特徴を決定し、前記K個の特徴に対する加重値を合算してセルフアテンションの顔先験特徴行列のうち、前記各特徴に対応する特徴を現在エンコーダのアップデートされた顔先験特徴行列の特徴として取得する動作と、
を含む、請求項8に記載の方法。
【請求項10】
請求項1~請求項9のいずれか1項に記載の方法を実行するコンピュータプログラムを格納するコンピュータで読み出し可能な記録媒体。
【請求項11】
電子装置であって、
1つ以上のプロセッサと、
命令を格納したメモリと、
を含み、
前記命令が前記1つ以上のプロセッサによって実行されるとき、前記1つ以上のプロセッサは、
顔イメージのマルチレベル特徴マップに基づいて前記顔イメージの初期イメージ特徴行列を生成し、
前記マルチレベル特徴マップの最後のレベル特徴マップに基づいて前記顔イメージの初期顔先験(a priori)特徴行列を生成し、
前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて、1つ以上のエンコーダを用いて前記顔イメージの超解像度イメージ及び/又は前記顔イメージのキーポイント座標を生成し、
前記1つ以上のエンコーダが複数のエンコーダである場合に前記複数のエンコーダはカスケードされる、電子装置。
【請求項12】
前記1つ以上のエンコーダそれぞれは、交差アテンションモデル及び第1変形可能なアテンションモデルを含み、
前記超解像度イメージが取得され、
前記1つ以上のプロセッサは、
前記1つ以上のエンコーダのうち初期エンコーダの前記交差アテンションモデルを用いて、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得し、
前記初期エンコーダの前記第1変形可能なアテンションモデルを用いて、前記融合されたイメージ特徴行列に基づいて前記顔イメージのアップデートされたイメージ特徴行列を取得し、
前記アップデートされたイメージ特徴行列及び前記顔イメージに基づいて前記顔イメージの超解像度イメージを取得する、請求項11に記載の電子装置。
【請求項13】
前記1つ以上のエンコーダそれぞれは、交差アテンションモデル及び第2変形可能なアテンションモデルを含み、
前記キーポイント座標は取得され、
前記1つ以上のプロセッサは、
前記1つ以上のエンコーダのうち初期エンコーダの前記交差アテンションモデルを用いて、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得し、
前記初期エンコーダの前記第2変形可能なアテンションモデルを用いて、前記融合されたイメージ特徴行列及び前記初期顔先験特徴行列に基づいて前記顔イメージのアップデートされた顔先験特徴を取得し、
前記アップデートされた顔先験特徴及び前記顔イメージの初期キーポイント座標に基づいて、前記顔イメージのキーポイント座標を予測し、
前記顔イメージの初期キーポイント座標は、前記初期顔先験特徴行列に基づいて取得される、請求項11に記載の電子装置。
【請求項14】
前記1つ以上のエンコーダのそれぞれは、第1ネットワーク、第2ネットワーク、及び第3ネットワークを含み、前記第1ネットワークは交差アテンションモデルを含み、前記第2ネットワークは第1変形可能なアテンションモデルを含み、前記第3ネットワークは第2変形可能なアテンションモデルを含み、
前記1つ以上のプロセッサは、
前記超解像度イメージを生成する動作が行われる場合、前記1つ以上のエンコーダそれぞれに対して、現在エンコーダに対応するイメージ特徴行列及び顔先験特徴行列に基づいて、第1ネットワークを用いて現在エンコーダの融合されたイメージ特徴行列を取得し、
前記1つ以上のエンコーダが複数のエンコーダを含んだり、複数のエンコーダと追加エンコーダを含む場合、前記複数のエンコーダそれぞれに対して、前記現在エンコーダの融合されたイメージ特徴行列及び現在エンコーダに対応する顔先験特徴行列に基づいて、第2ネットワークを用いて前記現在エンコーダのアップデートされた顔先験特徴行列を取得し、
前記1つ以上のエンコーダそれぞれに対して、前記現在エンコーダの融合されたイメージ特徴行列に基づいて、第3ネットワークを用いて前記現在エンコーダのアップデートされたイメージ特徴行列を取得し、
前記キーポイント座標を生成する動作が行われる場合、前記1つ以上のエンコーダの最後のエンコーダのアップデートされたイメージ特徴行列及び前記顔イメージに基づいて、前記顔イメージの超解像度イメージを取得し、及び/又は最後のエンコーダのアップデートされた顔先験特徴行列及び前記顔イメージの初期キーポイント座標に基づいて、前記顔イメージのキーポイント座標を予測し、
前記顔イメージの前記初期キーポイント座標は、前記初期顔先験特徴行列に基づいて取得され、
前記現在エンコーダが1つ以上のエンコーダのうち初期エンコーダである場合、前記現在エンコーダに対応するイメージ特徴行列は前記初期イメージ特徴行列であり、前記現在エンコーダに対応する顔先験特徴行列は前記初期顔先験特徴行列であり、
前記現在エンコーダが初期エンコーダでない場合、前記現在エンコーダに対応するイメージ特徴行列は、前記現在エンコーダの以前エンコーダのアップデートされたイメージ特徴行列であり、前記現在エンコーダに対応する顔先験特徴行列は、前記現在エンコーダの以前エンコーダのアップデートされた顔先験特徴行列である、請求項11に記載の電子装置。
【請求項15】
前記1つ以上のプロセッサは、
最後のエンコーダに対応するアップデートされたイメージ特徴行列に基づいてアップサンプリング増幅ネットワークを用いて第1オフセットを求め、第1オフセットと前記顔イメージに基づいて前記超解像度イメージを取得し、
前記最後のエンコーダに対応するアップデートされた顔先験特徴行列に基づいてキーポイント予測ネットワークを用いて第2オフセットを求め、第2オフセットと前記顔イメージの初期キーポイント座標に基づいて予測された前記顔イメージのキーポイント座標を取得する、請求項14に記載の電子装置。
【請求項16】
前記1つ以上のエンコーダそれぞれの第1ネットワークは、レイヤ正規化モデル及びフィードフォワードネットワークモデルをさらに含み、
前記1つ以上のプロセッサは、位置情報が内蔵されている現在エンコーダに対応するイメージ特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリベクトル、キーベクトル、及び値ベクトルとして交差アテンションモデルに入力し、カスケードされた交差アテンションモデル、レイヤ正規化モデル、及びフィードフォワードネットワークモデルを介して現在エンコーダの融合されたイメージ特徴行列を取得する、請求項14に記載の電子装置。
【請求項17】
前記1つ以上のプロセッサは、
前記現在エンコーダの融合されたイメージ特徴行列のうち各特徴の正規化位置を決定し、前記正規化位置は、前記対応する特徴マップ内の各特徴に対応する前記特徴マップ内の特徴の正規化位置を示し、
前記1つ以上のプロセッサは、
前記マルチレベル特徴マップの各特徴マップで、予め設定された規則に応じて各特徴の前記正規化位置の近所でK個の正規化位置を決定し、
現在エンコーダの融合されたイメージ特徴行列で、マルチレベル特徴マップの各特徴マップのK個の正規化位置に対応するL×K個の特徴に対して加重合算を行って、現在エンコーダの融合されたイメージ特徴行列のうち、前記各特徴に対応する特徴を現在エンコーダのアップデートされたイメージ特徴行列のうちの特徴として取得し、前記Lは、マルチレベル特徴マップの特徴マップ個数である、請求項14に記載の電子装置。
【請求項18】
前記1つ以上のエンコーダそれぞれの第2ネットワークはセルフアテンションモデルをさらに含み、
前記1つ以上のプロセッサは、
前記現在エンコーダに対応する顔先験特徴行列に基づいて、セルフアテンションモデルを用いて現在エンコーダに対応するセルフアテンションの顔先験特徴行列を取得し、
前記現在エンコーダに対応するセルフアテンションの顔先験特徴行列及び現在エンコーダの融合されたイメージ特徴行列に基づいて、第1変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する、請求項14に記載の電子装置。
【請求項19】
前記セルフアテンションモデルは、カスケードされたセルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを含み、
前記1つ以上のプロセッサは、
位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリ行列、キー行列、及び値行列として前記セルフアテンションモデルに入力し、セルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを介して現在エンコーダのセルフアテンションの顔先験特徴行列を取得し、
前記最後のレベル特徴マップで現在エンコーダのセルフアテンションの顔先験特徴行列のうち各特徴の正規化位置を決定し、前記正規化位置は、前記最後のレベル特徴マップで各特徴に対応する最後のレベル特徴マップにおける特徴の正規化位置を示し、
前記1つ以上のプロセッサは、
予め設定された規則に応じて最終レベル特徴マップで前記正規化位置の近所のK個の正規化位置を決定し、
前記現在エンコーダのアップデートされたイメージ特徴行列で前記K個の正規化位置に対応するK個の特徴を決定し、前記K個の特徴に対する加重値を合算してセルフアテンションの顔先験特徴行列のうち、前記各特徴に対応する特徴を現在エンコーダのアップデートされた顔先験特徴行列の特徴として取得する、請求項18に記載の電子装置。
【発明の詳細な説明】
【技術分野】
【0001】
以下の開示は、イメージを処理する電子装置及びその動作方法に関する。
【背景技術】
【0002】
最近、深層神経網技術の発達でFSR(face super-resolution)技術が大きく発展している。FSRは、主にCNN(convolutional neural network)、GAN(generative adversarial network)、アンサンブル学習(ensemble learning)又は強化学習(reinforcement learning)に基づいて実行されてもよい。FSRの性能を向上させるために複雑なネットワーク構造設計が要求されている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
ネットワークの構造が複雑になることは、メモリの大きさ、演算量、及びパラメータの増加につながってネットワークのトレーニング時間と演算コストを増加させる。また、顔先験情報(face prior information)を活用してFSR性能が向上し取得するが、顔先験情報を活用するFSR方法には、追加的な顔先験情報のラベリングが要求されている。
【0004】
本文書に開示される様々な実施形態によれば、マルチレベルイメージ特徴を活用することができ、距離に関わりのない関係を学習できる変形可能なアテンションを用いて追加的な顔先験情報なしにFSRネットワークの複雑度を減らしながらも、FSR性能を効率よく向上させ得るFSRモデルを提供することができる。
【課題を解決するための手段】
【0005】
一実施形態に係るプロセッサによって行われる方法は、顔イメージのマルチレベル特徴マップに基づいて前記顔イメージの初期イメージ特徴行列を生成する動作と、前記マルチレベル特徴マップの最後のレベル特徴マップに基づいて前記顔イメージの初期顔先験特徴行列を生成する動作と、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて、1つ以上のエンコーダを用いて前記顔イメージの超解像度イメージ及び/又は前記顔イメージのキーポイント座標を生成する動作と、を含み、前記1つ以上のエンコーダが複数のエンコーダである場合、前記複数のエンコーダはカスケード(接続)される。
【0006】
前記1つ以上のエンコーダそれぞれは、交差アテンションモデル及び第1変形可能なアテンションモデルを含み、前記超解像度イメージが取得され、前記超解像度イメージを取得する動作は、前記1つ以上のエンコーダのうち初期エンコーダの前記交差アテンションモデルを用いて、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得する動作と、前記初期エンコーダの前記第1変形可能なアテンションモデルを用いて、前記融合されたイメージ特徴行列に基づいて前記顔イメージのアップデートされたイメージ特徴行列を取得する動作と、前記アップデートされたイメージ特徴行列及び前記顔イメージに基づいて前記顔イメージの超解像度イメージを取得する動作とを含むことができる。
【0007】
前記1つ以上のエンコーダそれぞれは、交差アテンションモデル及び第2変形可能なアテンションモデルを含み、前記キーポイント座標は取得され、前記顔イメージのキーポイント座標を取得する動作は、前記1つ以上のエンコーダのうち初期エンコーダの前記交差アテンションモデルを用いて、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得する動作と、前記初期エンコーダの前記第2変形可能なアテンションモデルを用いて、前記融合されたイメージ特徴行列及び前記初期顔先験特徴行列に基づいて前記顔イメージのアップデートされた顔先験特徴を取得する動作と、前記アップデートされた顔先験特徴及び前記顔イメージの初期キーポイント座標に基づいて、前記顔イメージのキーポイント座標を予測する動作であって、前記顔イメージの初期キーポイント座標は、前記初期顔先験特徴行列に基づいて取得される、動作と、を含むことができる。
【0008】
前記1つ以上のエンコーダのそれぞれは、第1ネットワーク、第2ネットワーク、及び第3ネットワークを含み、第1ネットワークは交差アテンションモデルを含み、第2ネットワークは第1変形可能なアテンションモデルを含み、第3ネットワークは第2変形可能なアテンションモデルを含み、前記顔イメージの超解像度イメージ及び/又は前記顔イメージのキーポイント座標を取得する動作は、前記超解像度イメージを生成する動作が行われる場合、前記1つ以上のエンコーダそれぞれに対して、現在エンコーダに対応するイメージ特徴行列及び顔先験特徴行列に基づいて、第1ネットワークを用いて現在エンコーダの融合されたイメージ特徴行列を取得する動作と、前記1つ以上のエンコーダが複数のエンコーダを含んだり、複数のエンコーダと追加エンコーダを含む場合、前記複数のエンコーダそれぞれに対して、前記現在エンコーダの融合されたイメージ特徴行列及び現在エンコーダに対応する顔先験特徴行列に基づいて、第2ネットワークを用いて前記現在エンコーダのアップデートされた顔先験特徴行列を取得する動作と、前記1つ以上のエンコーダそれぞれに対して、前記現在エンコーダの融合されたイメージ特徴行列に基づいて、第3ネットワークを用いて前記現在エンコーダのアップデートされたイメージ特徴行列を取得する動作と、前記キーポイント座標を生成する動作が行われる場合、前記1つ以上のエンコーダの最後のエンコーダのアップデートされたイメージ特徴行列及び前記顔イメージに基づいて、前記顔イメージの超解像度イメージを取得する動作及び/又は最後のエンコーダのアップデートされた顔先験特徴行列及び前記顔イメージの初期キーポイント座標に基づいて前記顔イメージのキーポイント座標を予測する動作とを含み、前記顔イメージの前記初期キーポイント座標は、前記初期顔先験特徴行列に基づいて取得され、前記現在エンコーダが1つ以上のエンコーダのうち初期エンコーダである場合、前記現在エンコーダに対応するイメージ特徴行列は前記初期イメージ特徴行列であり、前記現在エンコーダに対応する顔先験特徴行列は前記初期顔先験特徴行列であり、前記現在エンコーダが初期エンコーダでない場合、前記現在エンコーダに対応するイメージ特徴行列は、前記現在エンコーダの以前エンコーダのアップデートされたイメージ特徴行列であり、前記現在エンコーダに対応する顔先験特徴行列は、前記現在エンコーダの以前エンコーダのアップデートされた顔先験特徴行列である。
【0009】
前記顔イメージの超解像度イメージ及び/又は前記顔イメージのキーポイント座標を取得する動作は、最後のエンコーダに対応するアップデートされたイメージ特徴行列に基づいて、アップサンプリング増幅ネットワークを用いて第1オフセットを求め、第1オフセットと前記顔イメージに基づいて前記超解像度イメージを取得する動作と、前記最後のエンコーダに対応するアップデートされた顔先験特徴行列に基づいて、キーポイント予測ネットワークを用いて第2オフセットを求め、第2オフセットと前記顔イメージの初期キーポイント座標に基づいて予測された前記顔イメージのキーポイント座標を取得する動作とを含むことができる。
【0010】
前記1つ以上のエンコーダそれぞれの第1ネットワークは、レイヤ正規化モデル及びフィードフォワードネットワークモデルをさらに含み、前記現在エンコーダの融合されたイメージ特徴行列を取得する動作は、位置情報が内蔵されている現在エンコーダに対応するイメージ特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリベクトル、キーベクトル、及び値ベクトルとして交差アテンションモデルに入力し、カスケード(接続)された交差アテンションモデル、レイヤ正規化モデル、及びフィードフォワードネットワークモデルを介して現在エンコーダの融合されたイメージ特徴行列を取得する動作を含むことができる。
【0011】
前記現在エンコーダの融合されたイメージ特徴行列に基づいて、第3ネットワークを用いて現在エンコーダのアップデートされたイメージ特徴行列を取得する動作は、前記現在エンコーダの融合されたイメージ特徴行列のうち、各特徴の正規化位置を決定する動作であって、前記正規化位置は、前記対応する特徴マップ内の各特徴に対応する前記特徴マップ内の特徴の正規化位置を示す、動作と、前記マルチレベル特徴マップの各特徴マップで予め設定された規則に応じて各特徴の前記正規化位置の近所でK個の正規化位置を決定する動作と、現在エンコーダの融合されたイメージ特徴行列でマルチレベル特徴マップの各特徴マップのK個の正規化位置に対応するL×K個の特徴に対して加重合算を行い、現在エンコーダの融合されたイメージ特徴行列のうち、前記各特徴に対応する特徴を現在エンコーダのアップデートされたイメージ特徴行列のうちの特徴として取得する動作であって、前記Lは、マルチレベル特徴マップの特徴マップ個数である、動作とを含むことができる。
【0012】
前記1つ以上のエンコーダそれぞれの第2ネットワークは、セルフアテンションモデルをさらに含み、前記現在エンコーダのアップデートされた顔先験特徴行列を取得する動作は、前記現在エンコーダに対応する顔先験特徴行列に基づいて、セルフアテンションモデルを用いて現在エンコーダに対応するセルフアテンションの顔先験特徴行列を取得する動作と、前記現在エンコーダに対応するセルフアテンションの顔先験特徴行列及び現在エンコーダの融合されたイメージ特徴行列に基づいて、第1変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する動作とを含むことができる。
【0013】
前記セルフアテンションモデルは、カスケード(接続)されたセルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを含み、
前記現在エンコーダのセルフアテンションの顔先験特徴行列を取得する動作は、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリ行列、キー行列及び値行列として前記セルフアテンションモデルに入力し、セルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを介して現在エンコーダのセルフアテンションの顔先験特徴行列を取得する動作を含み、前記第2変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する動作は、前記最後のレベル特徴マップで現在エンコーダのセルフアテンションの顔先験特徴行列のうち、各特徴の正規化位置を決定する動作であって、前記正規化位置は、前記最後のレベル特徴マップで各特徴に対応する最後のレベル特徴マップにおける特徴の正規化位置を示す、動作と、予め設定された規則に応じて最終レベル特徴マップで前記正規化位置の近所のK個の正規化位置を決定する動作と、前記現在エンコーダのアップデートされたイメージ特徴行列で前記K個の正規化位置に対応するK個の特徴を決定し、前記K個の特徴に対する加重値を合算してセルフアテンションの顔先験特徴行列のうち、前記各特徴に対応する特徴を現在エンコーダのアップデートされた顔先験特徴行列の特徴として取得する動作とを含むことができる。
【0014】
一実施形態に係る電子装置は、1つ以上のプロセッサと、命令を格納したメモリと、を含み、前記命令が前記1つ以上のプロセッサによって実行されるとき、前記1つ以上のプロセッサは、顔イメージのマルチレベル特徴マップに基づいて前記顔イメージの初期イメージ特徴行列を生成し、前記マルチレベル特徴マップの最後のレベル特徴マップに基づいて前記顔イメージの初期顔先験(a priori)特徴行列を生成し、 前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて、1つ以上のエンコーダを用いて前記顔イメージの超解像度イメージ及び/又は前記顔イメージのキーポイント座標を生成し、前記1つ以上のエンコーダが複数のエンコーダである場合に前記複数のエンコーダはカスケード(接続)される。
【発明の効果】
【0015】
様々な実施形態によれば、マルチレベルイメージ特徴を活用することができ、距離に関わりのない関係を学習できる変形可能なアテンションを用いて追加的な顔先験情報なしにFSRネットワークの複雑度を減らし、FSR性能を効率よく向上させ得るFSRモデルを提供することができる。
【図面の簡単な説明】
【0016】
【
図1】一実施形態に係る電子装置の動作方法を示す図である。
【
図2】一実施形態に係る初期イメージ特徴行列(initial image feature matrix)及び初期顔先験特徴行列を取得する動作を説明するための図である。
【
図3】一実施形態に係る1つ以上のエンコーダのうち1つの第1ネットワークレイヤの構造を説明するための図である。
【
図4】一実施形態に係る変形可能なアテンションメカニズム(deformable attention mechanism)に基づいてイメージ特徴行列をアップデートする動作を説明するための図である。
【
図5】一実施形態に係る第2ネットワークレイヤの構造を説明するための図である。
【
図6】一実施形態に係る顔イメージの超解像度イメージ(super-resolution image)及び/又は顔イメージのキーポイント座標(key point coordinate)を取得する動作を説明するための図である。
【発明を実施するための形態】
【0017】
実施形態に対する特定な構造的又は機能的な説明は単なる例示のための目的として開示されたものであって、様々な形態に変更されることができる。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。
【0018】
本文書において「A又はB」、「A及びBの少なくとも1つ」、「A又はBの少なくとも1つ」、「A、B、又はC」、「A、B、及びCの少なくとも1つ」、「A,B及びCのいずれか1つ又は2つ以上の組み合わせ」などの各フレーズは、そのフレーズのいずれか1つ又はすべてが可能な組み合わせを含むことができる。第1又は第2などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に、第2構成要素は第1構成要素にも命名することができる。
【0019】
いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。
【0020】
単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
【0021】
異なるように定義がされない限り、技術的又は科学的な用語を含んで、ここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されなければならず、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
【0022】
以下、添付する図面を参照しながら実施形態を詳細に説明する。図面を参照して説明する際に、図面符号に拘わらず同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。
【0023】
図1は、一実施形態に係る電子装置の動作方法を示す図である。
【0024】
以下の実施形態において各動作は順に行われてもよいが、必ず順に行われなくてもよい。例えば、各動作の順が変更されてもよく、少なくとも2つの動作が並列的に行われてもよい。動作101~103は、電子装置の少なくとも1つの構成要素(例えば、ホストプロセッサ、加速器、メモリなど)によって実行されてもよい。
【0025】
電子装置はイメージを処理する装置として、例えば、携帯電話、スマートフォン、タブレット、電子ブック装置、ラップトップ、パーソナルコンピュータ、デスクトップ、ワークステーション又はサーバのような様々なコンピューティング装置、スマートウォッチ、スマートメガネ、HMD(Head-Mounted Display)、又は、スマート衣類のような様々なウェアラブル機器、スマートスピーカ、スマートTV、又は、スマート冷蔵庫のような様々な家電装置、スマート自動車、スマートキオスク、IoT(Internet of Things)機器、WAD(Walking Assist Device)、ドローン、又は、ロボットを含むが、前述した例に限定されない。イメージは顔を含むが、前述した例に限定されず、実施形態に従って様々なオブジェクトが含まれてもよい。本明細書で説明の便宜のために、電子装置はイメージ処理装置又は顔イメージ処理装置と称されてもよい。
【0026】
動作101において、電子装置は、顔イメージのマルチレベル特徴マップに基づいて顔イメージの初期イメージ特徴行列を取得する。例えば、電子装置は、顔イメージのマルチレベル特徴マップを平坦化及びカスケード(cascading)することで、顔イメージの初期イメージ特徴行列を取得することができる。
【0027】
動作102において、電子装置は、マルチレベル特徴マップの最後のレベル特徴マップに基づいて顔イメージの初期顔先験特徴行列を取得する。例えば、電子装置は、マルチレベル特徴マップの最後のレベル特徴マップに基づいて完全接続ネットワーク(fully connected network)を用いて、顔イメージの初期顔先験特徴行列を取得し得る。マルチレベル特徴マップ内の各レベル特徴マップは同じチャネル数を有してもよい。
【0028】
以下、
図2を参照して電子装置の動作について詳細に説明する。
【0029】
図2は、一実施形態に係る初期イメージ特徴行列及び初期顔先験特徴行列を取得する動作を説明するための図である。
【0030】
図2を参照すると、電子装置は、トレーニングされた畳み込み神経網(例えば、ResNet18)を介して入力された顔イメージの4レベルのピラミッド特徴マップF1、F2、F3、F4を抽出することができる。電子装置は、1×1畳み込みネットワークを介して各特徴マップの特徴が同じチャネル数を有するように投影して特徴F1’、F2’、F3’、F4’を取得してもよい。電子装置は、取得した4レベルの特徴マップF1’、F2’、F3’、F4’を平坦化及びカスケードすることで、顔イメージの初期イメージ特徴行列F
im∈R^
M×Cを取得できる。そのうち、F
imは初期イメージ特徴行列のi番目の行とm番目の列の特徴を示し、Mは初期イメージ特徴行列の行数を示し、Cは初期イメージ特徴行列の列数を示す。例えば、Cは同じ数のチャネル(例えば、C=256)を示す。説明の便宜のために、F
imは初期イメージ特徴行列を示す。
【0031】
本明細書では説明の便宜のために、顔イメージはLRイメージ(low resolution image)と称されてもよく、マップは行列と称されてもよい。また、説明の便宜のために、以下ではLRイメージで4つのレベルの特徴マップが抽出される例示を基準にして説明する。
【0032】
例えば、顔先験特徴行列FKP∈RN×Cは、F4’で空間次元(spatial dimension)上の線型投影(linear projection)を介して取得してもよく、Nは顔先験特徴行列の特徴数を示す。
【0033】
例えば、LRイメージの初期顔先験特徴行列は、以下の数式(1)により取得され得る。
【0034】
FKP=FC(F4‘) (1)
上の数式(1)において、FC(・)は完全接続動作(fully connected operation)を示す。
【0035】
動作103において、電子装置は、初期イメージ特徴行列及び初期顔先験特徴行列に基づいてカスケードされた1つ以上のエンコーダを用いて、顔イメージの超解像度イメージ及び/又は顔イメージのキーポイント座標(key point coordinate)を取得する。
【0036】
例えば、顔イメージの超解像度イメージを取得する動作は、1つ以上のエンコーダに含まれた交差アテンションモデル(cross-attention model)を用いて、初期イメージ特徴行列及び初期顔先験特徴行列に基づいて融合されたイメージ特徴行列(fused image feature matrix)を取得する動作、1つ以上のエンコーダに含まれた第1変形可能なアテンションモデルを用いて、融合されたイメージ特徴行列に基づいて顔イメージのアップデートされたイメージ特徴行列を取得する動作、前記アップデートされたイメージ特徴行列及び顔イメージに基づいて顔イメージの超解像度イメージを取得する動作を含む。
【0037】
本明細書では、説明の便宜のために、モデルは、ニューラルネットワークのレイヤ又はモジュールと称されてもよい。ニューラルネットワークは複数のレイヤを含んでもよい。例えば、交差アテンションモデルは交差アテンションレイヤと称されてもよく、レイヤ正規化レイヤは正規化モデルと称されてもよい。
【0038】
例えば、顔イメージのキーポイント座標を取得する動作は、1つ以上のエンコーダに含まれた交差アテンションモデルを用いて、初期イメージ特徴行列及び初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得する動作、1つ以上のエンコーダに含まれた第2変形可能なアテンションモデルを用いて、融合されたイメージ特徴行列及び初期顔先験特徴行列に基づいて顔イメージのアップデートされた顔先験特徴を取得する動作、アップデートされた顔先験特徴及び顔イメージの初期キーポイント座標に基づいて、顔イメージのキーポイント座標を予測する動作を含む。ここで、顔イメージの初期キーポイント座標は、初期顔先験特徴行列に基づいて取得され、例えば、電子装置は、顔イメージの初期キーポイント座標を取得するために初期顔先験特徴行列に対して全体接続を行ってもよい。
【0039】
例えば、1つ以上のエンコーダのそれぞれのエンコーダは、第1ネットワーク、第2ネットワーク及び第3ネットワークを含み、第1ネットワークは交差アテンションモデルを含み、第2ネットワークは第1変形可能なアテンションモデルを含み、第3ネットワークは第2変形可能なアテンションモデルを含み、ここで、顔イメージの超解像度イメージ及び/又は顔イメージのキーポイント座標を取得する動作は、それぞれのエンコーダに対して、現在エンコーダに対応するイメージ特徴行列及び顔先験特徴行列に基づいて、第1ネットワークを用いて現在エンコーダの融合されたイメージ特徴行列を取得する動作、現在エンコーダの融合されたイメージ特徴行列及び現在エンコーダに対応する顔先験特徴行列に基づいて、第2ネットワークを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する動作、現在エンコーダの融合されたイメージ特徴行列に基づいて、第3ネットワークを用いて現在エンコーダのアップデートされたイメージ特徴行列を取得する動作、1つ以上のエンコーダの最後のエンコーダのアップデートされたイメージ特徴行列及び顔イメージに基づいて顔イメージの超解像度イメージを取得する動作、及び/又は最後のエンコーダのアップデートされた顔先験特徴行列及び顔イメージの初期キーポイント座標に基づいて、顔イメージのキーポイント座標を予測する動作を含んでもよい。現在エンコーダが1つ以上のエンコーダのうち最初のエンコーダである場合、現在エンコーダに対応するイメージ特徴行列は初期イメージ特徴行列であり、現在エンコーダに対応する顔先験特徴行列は、初期顔先験特徴行列であってもよい。現在エンコーダが最初のエンコーダでない場合、現在エンコーダに対応するイメージ特徴行列は、現在エンコーダの以前エンコーダのアップデートされたイメージ特徴行列であり、現在エンコーダに対応する顔先験特徴行列は、現在エンコーダの以前エンコーダのアップデートされた顔先験特徴行列であってもよい。
【0040】
例えば、1つ以上のエンコーダは第1エンコーダ及び第2エンコーダを含むが、前述した例に限定されない。
【0041】
例えば、電子装置は、初期イメージ特徴行列M11及び初期顔先験特徴行列F11に基づいて、第1エンコーダの第1ネットワークを用いて第1エンコーダの融合されたイメージ特徴行列M12を取得してもよい。電子装置は、初期顔先験特徴行列F11及び第1エンコーダの融合されたイメージ特徴行列M12に基づいて、第1エンコーダの第2ネットワークを用いて、第1エンコーダのアップデートされた顔先験特徴行列F12を取得してもよい。電子装置は、第1エンコーダの融合されたイメージ特徴行列M12に基づいて、第1エンコーダの第3ネットワークを用いて、第1エンコーダのアップデートされたイメージ特徴行列M13を取得してもよい。電子装置は、第1エンコーダのアップデートされた顔先験特徴行列F12及び第1エンコーダのアップデートされたイメージ特徴行列M13に基づいて、第2エンコーダの第1ネットワークを用いて、第2エンコーダの融合されたイメージ特徴行列M22を取得してもよい。電子装置は、第2エンコーダの融合されたイメージ特徴行列M22及び第1エンコーダのアップデートされた顔先験特徴行列F12に基づいて、第2エンコーダの第2ネットワークを用いて、第2エンコーダのアップデートされた顔先験特徴行列F22を取得してもよい。電子装置は、第2エンコーダの融合されたイメージ特徴行列M22に基づいて、第2エンコーダの第3ネットワークを用いて、第2エンコーダのアップデートされたイメージ特徴行列M23を取得してもよい。
【0042】
例えば、電子装置は、第2エンコーダのアップデートされたイメージ特徴行列M23及び顔イメージに基づいて、顔イメージの超解像度イメージを取得してもよい。
【0043】
例えば、電子装置は、第2エンコーダのアップデートされた顔先験特徴行列F22及び顔イメージの初期キーポイント座標に基づいて顔イメージのキーポイント座標を予測してもよい。
【0044】
例えば、顔イメージの超解像度イメージ及び/又は顔イメージのキーポイント座標を取得する動作は、カスケードされた最後のエンコーダに対応するアップデートされたイメージ特徴行列に基づいて、アップサンプリング増幅ネットワーク(up sampling amplification network)を用いて第1オフセットを求め、第1オフセットと顔イメージに基づいて超解像度イメージを取得する動作及び/又はカスケードされた最後のエンコーダに対応するアップデートされた顔先験特徴行列に基づいて、キーポイント予測ネットワークを用いて第2オフセットを求め、第2オフセットと顔イメージの初期キーポイント座標に基づいて予測された顔イメージのキーポイント座標を取得する動作を含み、ここで、顔イメージのキーポイント座標は、初期顔先験特徴行列に対して全体接続を行うことにより取得され得る。
【0045】
例えば、電子装置は、第2エンコーダのアップデートされたイメージ特徴行列M23に基づいてアップサンプリング増幅ネットワークを用いて第1オフセットを取得し、第1オフセットと顔イメージに基づいて超解像度イメージを取得してもよい。電子装置は、第2エンコーダのアップデートされた顔先験特徴行列F22に基づいて、キーポイント予測ネットワークを用いて第2オフセットを取得し、第2オフセットと顔イメージの初期キーポイント座標に基づいて顔イメージの予測キーポイント座標を取得することができる。ここで、顔イメージの初期キーポイント座標は、初期顔先験特徴行列で全体接続を行って取得され得る。
【0046】
例えば、各エンコーダの第1ネットワークは、レイヤ正規化レイヤ(LN(layer normalization)layer)及びフィードフォワードネットワークレイヤ(FFN(feedforward network)layer)をさらに含み、ここで、現在エンコーダの融合されたイメージ特徴行列を取得する動作は、位置情報が内蔵されている現在エンコーダに対応するイメージ特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリベクトル、キーベクトル、及び値ベクトルとして交差アテンションモデルに入力し、カスケードされた交差アテンションモデル、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを介して現在エンコーダの融合されたイメージ特徴行列を取得する動作を含む。
【0047】
図3は、一実施形態に係る1つ以上のエンコーダのうち1つの第1ネットワークレイヤの構造を説明するための図である。
【0048】
図3を参照すると、第1ネットワークは、交差アテンションモデル、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを含む。
【0049】
例えば、位置情報が内蔵されている現在エンコーダに該当するイメージ特徴行列Qは、下記の数式(2)を介して取得することができる。
【0050】
Q=Fim+PEim (2)
上の数式(2)において、PEimは、オリジナル特徴マップで該当オリジナル特徴マップのFimの該当特徴位置を示し、Fimは位置情報が内蔵されていない各エンコーダに該当するイメージ特徴行列を示す。
【0051】
例えば、Fimが第1レベル特徴マップの特徴Fim_1に対応する場合には、FimはFim_1に基づいて取得され、PEimは第1レベル特徴マップにおけるFim_1の位置を示す。
【0052】
例えば、入力交差アテンションモデルのキー行列Kは、下記の数式(3)により取得され得る。
【0053】
K=FKP+PEKP (3)
上記の数式(3)において、PEKPは、FKPで該当特徴マップに対応する特徴の最後のレベル特徴マップ(言い換えれば、最後のレベル特徴)における位置を示し、ここで、FKPは、位置情報が含まれていない各エンコーダに対応する顔先験特徴行列を示す。例えば、FKPの一部の特徴FKP1の最後のレベル特徴マップにおける対応特徴はFKP0であり、PEKPは最後のレベル特徴マップにおけるFKP0の位置を示す。
【0054】
また、入力交差アテンションモデルの値行列はFKPであってもよい。交差アテンションモデルの出力MHCA(Q、K、V)は下記の数式(4)のように示す。
【0055】
【数1】
上記の数式(4)において、d
kはキー行列の行ベクトルの次元である。
【0056】
電子装置は、交差アテンションモデルの出力に基づいて、レイヤ正規化レイヤ及びフィードフォワードネットワークレイヤを用いて、各エンコーダの融合されたイメージ特徴行列
【0057】
【数2】
を取得してもよい。本開示の一実施形態によれば、電子装置は、各エンコーダの対応するイメージ特徴行列及び顔先験特徴行列をマルチヘッドアテンションレイヤに入力することで融合されたイメージ特徴行列を取得し、このような交差アテンションメカニズムに基づいて取得した融合されたイメージ特徴行列は顔先験特徴情報を統合するため、顔イメージ特徴間の相関関係をさらによく反映することができる。
【0058】
説明の便宜上、オリジナル特徴マップの特徴に対応するオリジナル特徴マップのイメージ特徴行列の特徴位置は、オリジナル特徴マップのイメージ特徴行列の特徴位置に表現されてもよい。
【0059】
例えば、第3ネットワークを用いて現在エンコーダのアップデートされたイメージ特徴行列を取得する動作は、現在エンコーダの融合されたイメージ特徴行列のうち、各特徴の正規化位置を決定する動作(ここで、正規化位置は、対応する特徴マップ内の各特徴に対応する前記特徴マップ内の特徴の正規化位置を示す)、マルチレベル特徴マップの各特徴マップで予め設定された規則に応じて各特徴の正規化位置の近所でK個の正規化位置を決定する動作、現在エンコーダの融合されたイメージ特徴行列でマルチレベル特徴マップの各特徴マップのK個の正規化位置に対応するL×K個の特徴に対して加重合算を行って、現在エンコーダの融合されたイメージ特徴行列のうち各特徴に対応する特徴を現在エンコーダのアップデートされたイメージ特徴行列のうちの特徴として取得する動作を含み、ここで、Lは、マルチレベル特徴マップの特徴マップ個数であり、例えば、L=4であってもよい。
【0060】
例えば、第3ネットワークは、変形可能なアテンションレイヤ(deformable-attention layer)、残余合算及びレイヤ正規化レイヤ(residual summation and layer normalization layer)(Add&Norm)及びフィードフォワードネットワークレイヤ(FFN)を含んでもよい。
【0061】
以下では、第3ネットワークを用いてエンコーダのアップデートされたイメージ特徴行列で特徴を取得するための例示について説明する。
【0062】
例えば、第1ネットワークにより出力された融合されたイメージ特徴行列で、各特徴に該当するレイヤ情報及び位置情報は、以下の数式(5)により各特徴に挿入されて追加されてもよい。
【0063】
【数3】
上記の数式(5)において、M
iは、融合されたイメージ特徴行列におけるi番目の特徴を示し、L
iは、i番目の特徴に対応するオリジナル特徴マップ(言い換えれば、マルチレベル特徴マップにおける一部レベル特徴マップ)を示し、P
iは、i番目の特徴に対応するオリジナル特徴マップにおけるi番目の特徴に対応する特徴のオリジナル特徴マップにおける位置を示し、
【0064】
【数4】
は、レイヤ情報と位置情報が追加されたi番目の特徴を示す。
【0065】
例えば、正規化された座標を用いて該当オリジナル特徴マップで各特徴の空間的位置
【0066】
【数5】
を示し、r
iは、融合されたイメージ特徴行列におけるi番目の特徴のその対応するオリジナル特徴マップにおける正規化された空間的位置を示す。例えば、(0,0)及び(1,1)は、それぞれオリジナル特徴マップの左側上段の上及び右側下段の特徴に該当する正規化された空間的位置を示す。このような正規化された座標は、関連特徴サンプリングのための基準点として使用されてもよい。
【0067】
例えば、融合されたイメージ特徴行列でMiの場合、該当オリジナル特徴マップの正規化された座標はriであり、電子装置は、riの周辺に複数の特徴をサンプリングしてMiを
【0068】
【数6】
にアップデートする。複数のサンプリング特徴に対応する正規化座標は、下記の数式(6)に表現されてもよい。
【0069】
【数7】
上記の数式(6)において、δ
ikはオリジナル特徴マップでサンプリングされた特徴に対応する正規化された座標であり、
【0070】
【数8】
であり、k=1、…、Kであり、Kは予め設定された値であってもよい。
【0071】
電子装置は、多重サンプリング特徴に対応する正規化座標を決定した後、決定された正規化座標に基づいて融合されたイメージ行列とPikに対応する特徴xikを決定し、下記の数式(7)を用いて
【0072】
【0073】
【数10】
上記の数式(7)において、W
1とW
2は学習可能な加重値行列であり、α
ikは下の数式(8)又は数式(9)から取得されてもよい。
【0074】
【0075】
【数12】
例えば、電子装置は、ピラミッド特徴マップの第2レベル特徴マップの特徴M
c0に対応する、融合されたイメージ特徴行列の一部の特徴M
cに対して、第2レベル特徴マップにおけるM
c0の正規化位置r
ciを決定し、上の数式(6)に基づいてr
ciの近くのK個座標を決定してもよい。ここで、該当K個座標は、第2レベル特徴マップでK個座標に対応し、該当のK個座標は、融合されたイメージ行列におけるK個の特徴に対応する。言い換えれば、融合されたイメージ特徴行列で、該当K個座標に対応するK個の特徴に対して、電子装置は上記の数式(7)を用いてM
cに対応するアップデートされた特徴
【0076】
【0077】
前述のように、電子装置は
【0078】
【数14】
を演算する際に、M
iに対応するオリジナル特徴マップ(例えば、第2レベル特徴マップ)のみに基づいて融合されたイメージ特徴行列でK個の特徴をサンプリングし、
【0079】
【0080】
他の実施形態として、電子装置は、マルチレベルイメージ特徴を統合するためにMiに対して、各レベル特徴マップからK個の特徴をサンプリングし、下記の数式(10)を通じて
【0081】
【0082】
【数17】
上記の数式(10)において、Lはマルチレベル特徴マップの個数(例えば、抽出されたピラミッド特徴マップが4レベル特徴マップである場合L=4)であり、x
ijkはj番目のレベル特徴マップに基づいて融合されたイメージ行列でサンプリングされたk番目の特徴を示す。x
ijkに対応する位置座標はr
i+δ
ijkであり、ここで、δ
ijkは下の数式(11)を介して
【0083】
【0084】
【数19】
例えば、電子装置は、融合されたイメージ特徴行列の一部の特徴M
cに対して、上記の数式(11)を介して各レベル特徴マップのK個の座標を決定し、融合されたイメージ特徴行列のうち各レベル特徴マップのK個座標に対応するK個の特徴を決定してもよい。このような場合、電子装置は、融合されたイメージ特徴行列のうちK×L個の特徴を決定してもよく、数式(10)に基づいてアップデートされた
【0085】
【0086】
図4は、一実施形態に係る変形可能なアテンションメカニズム(deformable attention mechanism)に基づいてイメージ特徴行列をアップデートする動作を説明するための図である。
【0087】
【0088】
【数21】
に基づいて変形可能なアテンションメカニズムを用いてアップデートされたイメージ特徴行列
【0089】
【0090】
【0091】
【数23】
のマルチレベル特徴マップに対応する特徴を用いて
【0092】
【数24】
の各レベル特徴マップに対応する特徴をアップデートし、これによって、特徴行列
【0093】
【数25】
の各特徴マップに対応する特徴を取得し得る。
図4には、第3ネットワークレイヤの構造を説明するための例示が示されている。
【0094】
例えば、電子装置は
【0095】
【0096】
【数27】
の第1レベル特徴マップに対応する特徴でK個の特徴を取得し、
【0097】
【数28】
の第2レベル特徴マップに対応する特徴でK個の特徴を取得し、
【0098】
【数29】
の第3レベル特徴マップに対応する特徴でK個の特徴を取得し、
【0099】
【数30】
の第1レベル特徴マップに対応する特徴でK個の特徴を取得し、取得した4K個の特徴に基づいて一部の特徴のアップデートされた特徴を
【0100】
【数31】
で一部の特徴に対応する特徴として決定することができる。従って、
【0101】
【数32】
で、例えば第1レベル特徴マップに対応する特徴は各レベル特徴マップの情報を含んでもよい。
【0102】
【0103】
【数34】
のマルチレベル特徴マップに対応する特徴の情報を統合し、これにより、下位レベルの特徴マップに対応する情報をより円満に考慮することができるため、顔イメージのローカル特徴間の相関関係をより円満に反映することができる。
【0104】
本明細書で説明した各特徴マップに基づいてK個の特徴をサンプリングする方法は単に1つの例示であり、K又はL×K個の特徴を他の方法に基づいて収集して第2イメージ行列の特徴をアップデートすることも制限されずに適用することができる。
【0105】
例えば、融合されたイメージ特徴行列は、一部の特徴マップの特徴だけサンプリングしてアップデートされたイメージ特徴行列にアップデートされてもよい。
【0106】
例えば、各エンコーダの第2ネットワークは、セルフアテンションモデルをさらに含み、現在エンコーダのアップデートされた顔先特徴行列を取得する動作は、現在エンコーダに相当する顔先験特徴行列に基づいて、セルフアテンションモデルを用いて現在エンコーダに相当するセルフアテンション顔先験特徴行列を取得する動作、現在エンコーダに相当するセルフアテンション顔先験特徴行列及び現在エンコーダの融合されたイメージ特徴行列に基づいて、第1変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する動作を含んでもよい。
【0107】
例えば、セルフアテンションモデルは、カスケードされたセルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを含み、ここで、現在エンコーダのセルフアテンションの顔先験特徴行列を取得する動作は、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリ行列、キー行列及び値行列としてセルフアテンションレイヤに入力し、カスケードされたセルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを介して現在エンコーダのセルフアテンションの顔先験特徴行列を取得する動作を含んでもよい。ここで、第2変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する動作は、最後のレベル特徴マップで現在エンコーダのセルフアテンションの顔先験特徴行列のうち各特徴の正規化位置を決定する動作(ここで、正規化位置は、最後のレベル特徴マップで各特徴に対応する最後のレベル特徴マップにおける特徴の正規化位置を示す)、予め設定された規則に応じて最終レベル特徴マップで正規化位置の近所のK個の正規化位置を決定する動作、現在エンコーダのアップデートされたイメージ特徴行列でK個の正規化位置に対応するK個の特徴を決定し、K個の特徴に対する加重値を合算してセルフアテンションの顔先験特徴行列のうち各特徴に対応する特徴を現在エンコーダのアップデートされた顔先験特徴行列の特徴として取得する動作を含んでもよい。
【0108】
図5は、一実施形態に係る第2ネットワークレイヤの構造を説明するための図である。
【0109】
図5を参照すると、先ず、電子装置は、セルフアテンションモデルに基づいてセルフアテンションの顔先験特徴行列
【0110】
【数35】
を取得する。ここで、セルフアテンションモデルは、セルフアテンションレイヤ、正規化レイヤ(Add&Norm)、及びフィードフォワードネットワークレイヤ(FFN)を含む。入力されたセルフアテンションレイヤのクエリ行列、キー行列、及び値行列は、それぞれ位置情報が内蔵されている各エンコーダに該当する顔先験特徴行列、位置情報が内蔵されている各エンコーダに該当する顔先験特徴行列、及び各エンコーダに該当する顔先験特徴行列であってもよい。電子装置は、セルフアテンションメカニズムに基づいて顔先験特徴行列をアップデートすれば顔先験特徴間の従属性を学習し得る。したがって、セルフアテンションメカニズムに基づいて取得したセルフアテンションの顔先験特徴は、顔先験特徴の構造的情報を反映することができ、入力イメージをよりよく表現することができる。
【0111】
セルフアテンションモデルのセルフアテンションレイヤ出力
【0112】
【数36】
は下記の数式(12)に表現されてもよい。
【0113】
【数37】
上記の数式(12)において、Q、K、Vはそれぞれセルフアテンションレイヤに入力されるクエリ行列、キー行列、及び値行列を示す。
【0114】
電子装置は、
【0115】
【数38】
に基づいてレイヤ正規化レイヤ(Add&Norm)とフィードフォワードネットワークレイヤ(FFN)を用いて
【0116】
【0117】
その次に、電子装置は、
【0118】
【数40】
に基づいて、変形可能なアテンションメカニズムを用いてアップデートされた顔先験特徴行列
【0119】
【0120】
図2を参照すると、変形可能なアテンションモデルは、変形可能なアテンションレイヤ、レイヤ正規化レイヤ(LN)、及びフィードフォワードネットワークレイヤ(FFN)を含む。
【0121】
以下、アップデートされた顔先験特徴行列
【0122】
【数42】
に対する演算プロセスの例示について説明する。
【0123】
例えば、電子装置は、セルフアテンションの顔先験特徴行列の特徴
【0124】
【数43】
に対して、先ずその対応するオリジナル特徴マップ(言い換えれば、最後のレベル特徴マップ)におけるオリジナル特徴マップの特徴の正規化位置を決定することができる。例えば、(0,0)及び(1,1)は、それぞれ最後のレベル特徴マップで左側上段及び右側下段の最後のレベル特徴マップにおける特徴の空間的位置r
imを示す。
【0125】
その次に、電子装置は下の数式(13)により、rim周辺のK個の位置を決定する。
【0126】
【0127】
【0128】
【0129】
【数47】
はf
imに対応する内蔵されている位置情報の顔先験特徴を示す。
【0130】
電子装置は、融合されたイメージ特徴行列で該当K個位置に該当する特徴を決定することができる。例えば、融合されたイメージ特徴行列には、最終レベル特徴マップの各正規化位置にそれぞれ該当する特徴が存在し、K個の正規化位置に基づいて融合されたイメージ特徴行列のK個の特徴が決定されてもよい。
【0131】
その次に、fimは、下の数式(14)を基盤に該当K個の特徴に基づいて、アップデートされた顔先験特徴行列のうちfimに対応する特徴として、
【0132】
【0133】
【数49】
上記の数式(14)において、Wは学習可能な加重値行列であり、
【0134】
【0135】
【0136】
図6は、一実施形態に係る顔イメージの超解像度イメージ及び/又は顔イメージのキーポイント座標を取得する動作を説明するための図である。
【0137】
図6を参照すると、カスケードされたT個のエンコーダは、最後のエンコーダのアップデートされたイメージ特徴行列及び/又はアップデートされた顔先験特徴行列を取得することができる。電子装置は、アップサンプリングネットワークを介して第1オフセットを取得して顔イメージの超解像度イメージを取得し、及び/又はキーポイント予測ネットワークを介して第2オフセットを取得して予測された顔イメージのキーポイント座標を取得し得る。
【0138】
例えば、電子装置は、最後のエンコーダのアップデートされたイメージ特徴行列で第1レベルの特徴マップに対応する特徴を切り出し、畳み込みレイヤとピクセルシャッフルレイヤ(pixel shuffle layer)を介して第1レベルの特徴マップに対応する特徴に対してアップサンプリング及び増幅することで、超解像度イメージISR及びLRイメージILR(言い換えれば、入力イメージ)間のオフセットIoffを取得することができる。電子装置は、下記の数式(15)に基づいて超解像度イメージを取得できる。
【0139】
【数52】
例えば、電子装置は、下記の数式(16)に基づいてMLP(Multi-layer Perceptron)を介して予測された顔イメージのキーポイント座標及び初期の顔イメージのキーポイント座標間のオフセットP
offを取得し得る。
【0140】
【0141】
【数54】
は最後のエンコーダの顔先験特徴行列を示す。
【0142】
例えば、電子装置はReLU(Rectified Linear Unit)の活性化関数がある3レイヤ完全接続ネットワークを用いてPoffを取得し得る。ここで、前の2つのレイヤは、ReLU活性化関数が続く線型完全接続から構成され、最後のレイヤは、完全接続を介してPoffを直接出力してもよい。
【0143】
Poffが取得された後、顔イメージの予測されたキーポイント座標は、以下の数式(17)により取得することができる。
【0144】
【数55】
上の数式(17)において、σはσ関数を示し、P
refは顔イメージの初期キーポイント座標を示す。
【0145】
例えば、超解像度イメージ及び/又は予測された顔イメージのキーポイント座標を取得するために使用される全体モデルは、FSRのためのLoss関数と顔マーキングのためのLoss関数を共に用いてトレーニングされてもよい。
【0146】
例えば、FSRの損失にはピクセル損失(Pixel loss)、敵対的損失(Adversarial loss)及び知覚損失(Perceptual loss)が含まれ、顔マーキングの損失には一貫性損失(Consistency loss)及び分離制約(Separation constraint)が含まれてもよい。
【0147】
FSRは、低解像度の顔イメージを高解像度の顔イメージに復元することができ、低解像度学習イメージをFSRネットワークに入力し、対応する高解像度正解イメージを取得することができるようにFSRネットワークがトレーニングされる。そのため、追加的な顔先験情報なしにFSRネットワークの複雑度を減らし、FSR性能を効率よく向上させることができる。
【0148】
図1~
図6を参照して本開示の実施形態に係る電子装置での顔イメージ処理方法について説明した。以下、
図7を参照して本開示の実施形態に係る顔イメージを処理する電子装置について説明する。
【0149】
【0150】
図7を参照すると、顔イメージを処理する電子装置700は、第1取得モデル701、第2取得モデル702、及び第3取得モデル703を含む。電子装置700は、1つ以上のプロセッサ704及び1つ以上のメモリ705をさらに含んでもよい。1つ以上のプロセッサ704は命令を実行し、1つ以上のメモリ705は命令及びイメージデータを格納してもよい。1つ以上のプロセッサ704による命令の実行は、1つ以上のプロセッサ704により第1取得モデル701、第2取得モデル702及び第3取得モデル703を動作させ得る。但し、電子装置700は、前述した例に制限されず、他の構成要素を追加的に含んでもよく、電子装置700の1つ以上の構成要素が分割又は結合されてもよい。
【0151】
例えば、第1取得モデル701は、顔イメージのマルチレベル特徴マップに基づいて顔イメージの初期イメージ特徴行列を取得してもよい。
【0152】
例えば、第2取得モデル702は、マルチレベル特徴マップの最後のレベル特徴マップに基づいて顔イメージの初期顔先験特徴行列を取得してもよい。
【0153】
例えば、第3取得モデル703は、初期イメージ特徴行列及び初期顔先験特徴行列に基づいてカスケードされた1つ以上のエンコーダを用いて、顔イメージの超解像度イメージ及び/又は顔イメージのキーポイント座標を取得してもよい。
【0154】
例えば、第3取得モデル703は、1つ以上のエンコーダに含まれた交差アテンションモデルを用いて、初期イメージ特徴行列及び初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得し、1つ以上のエンコーダに含まれた第1変形可能なアテンションモデルを用いて、融合されたイメージ特徴行列に基づいて顔イメージのアップデートされたイメージ特徴行列を取得し、アップデートされたイメージ特徴行列及び顔イメージに基づいて顔イメージの超解像度イメージを取得してもよい。
【0155】
例えば、第3取得モデル703は、1つ以上のエンコーダに含まれた交差アテンションモデルを用いて、初期イメージ特徴行列及び初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得し、1つ以上のエンコーダに含まれた第2変形可能なアテンションモデルを用いて、融合されたイメージ特徴行列及び初期顔先験特徴行列に基づいて顔イメージのアップデートされた顔先験特徴を取得し、アップデートされた顔先験特徴及び顔イメージの初期キーポイント座標に基づいて、顔イメージのキーポイント座標を予測してもよい。ここで、顔イメージの初期キーポイント座標は、初期顔先験特徴行列に基づいて取得されてもよい。
【0156】
例えば、1つ以上のエンコーダそれぞれは第1ネットワーク、第2ネットワーク、及び第3ネットワークを含み、第1ネットワークは交差アテンションモデルを含み、第2ネットワークは第1変形可能なアテンションモデルを含み、第3ネットワークは第2変形可能なアテンションモデルを含む。
【0157】
例えば、第3取得モデル703は、それぞれのエンコーダに対して、現在エンコーダに対応するイメージ特徴行列及び顔先験特徴行列に基づいて、第1ネットワークを用いて現在エンコーダの融合されたイメージ特徴行列を取得し、現在エンコーダの融合されたイメージ特徴行列及び現在エンコーダに対応する顔先験特徴行列に基づいて、第2ネットワークを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得し、現在エンコーダの融合されたイメージ特徴行列に基づいて、第3ネットワークを用いて現在エンコーダのアップデートされたイメージ特徴行列を取得してもよい。第3取得モデル703は、1つ以上のエンコーダの最後のエンコーダのアップデートされたイメージ特徴行列及び顔イメージに基づいて、顔イメージの超解像度イメージを取得したり、及び/又は、最後のエンコーダのアップデートされた顔先験特徴行列及び顔イメージの初期キーポイント座標に基づいて、顔イメージのキーポイント座標を予測してもよい。ここで、現在エンコーダが1つ以上のエンコーダのうち最初のエンコーダである場合、現在エンコーダに対応するイメージ特徴行列は初期イメージ特徴行列であり、現在エンコーダに対応する顔先験特徴行列は初期顔先験特徴行列であってもよい。現在エンコーダが最初のエンコーダでない場合、現在エンコーダに対応するイメージ特徴行列は、現在エンコーダの以前エンコーダのアップデートされたイメージ特徴行列であり、現在エンコーダに対応する顔先験特徴行列は、現在エンコーダの以前エンコーダのアップデートされた顔先験特徴行列であってもよい。
【0158】
例えば、第3取得モデル703は、カスケードされた最後のエンコーダに対応するアップデートされたイメージ特徴行列に基づいて、アップサンプリング増幅ネットワークを用いて第1オフセットを求め、第1オフセットと顔イメージに基づいて超解像度イメージを取得し、及び/又はカスケードされた最後のエンコーダに対応するアップデートされた顔先験特徴行列に基づいて、キーポイント予測ネットワークを用いて第2オフセットを求め、第2オフセットと顔イメージの初期キーポイント座標に基づいて予測された顔イメージのキーポイント座標を取得し得る。ここで、顔イメージの初期キーポイント座標は、初期顔先験特徴行列を完全に接続されて取得し得る。
【0159】
例えば、各エンコーダの第1ネットワークは、レベル正規化レイヤ及びフィードフォワードネットワークレイヤをさらに含んでもよい。
【0160】
例えば、第3取得モデル703は、位置情報が内蔵されている現在エンコーダに対応するイメージ特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリベクトル、キーベクトル、及び値ベクトルとして交差アテンションモデルに入力し、カスケードされた交差アテンションモデル、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを介して現在エンコーダの融合されたイメージ特徴行列を取得し得る。
【0161】
例えば、第3取得モデル703は、現在エンコーダの融合されたイメージ特徴行列のうち、各特徴の正規化位置を決定し(ここで、正規化位置は、対応する特徴マップ内の各特徴に対応する前記特徴マップ内の特徴の正規化位置を示す)、マルチレベル特徴マップの各特徴マップで予め設定された規則に応じて各特徴の正規化位置の近所のK個の正規化位置を決定し、現在エンコーダの融合されたイメージ特徴行列でマルチレベル特徴マップの各特徴マップのK個の正規化位置に対応するL×K個の特徴に対して加重合算を行い、現在エンコーダの融合されたイメージ特徴行列のうち、各特徴に対応する特徴を現在エンコーダのアップデートされたイメージ特徴行列のうちの特徴として取得してもよい。ここで、Lは、マルチレベル特徴マップの特徴マップ個数であってもよい。
【0162】
例えば、各エンコーダの第2ネットワークはセルフアテンションモデルをさらに含み、ここで、第3取得モデルは、現在エンコーダに対応する顔先験特徴行列に基づいて、セルフアテンションモデルを用いて現在エンコーダに対応するセルフアテンションの顔先験特徴行列を取得し、現在エンコーダに対応するセルフアテンションの顔先験特徴行列及び現在エンコーダの融合されたイメージ特徴行列に基づいて、第1変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得し得る。
【0163】
例えば、セルフアテンションモデルは、カスケードされたセルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを含んでもよい。例えば、第3取得モデル703は、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリ行列、キー行列、及び値行列としてセルフアテンションレイヤに入力し、カスケードされたセルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを介して現在エンコーダのセルフアテンションの顔先験特徴行列を取得し、最後のレベル特徴マップで現在エンコーダのセルフアテンションの顔先験特徴行列のうち、各特徴の正規化位置を決定し(ここで、正規化位置は、最後のレベル特徴マップで各特徴に対応する最後のレベル特徴マップにおける特徴の正規化位置を示す)、予め設定された規則に応じて最終レベル特徴マップで正規化位置の近所のK個の正規化位置を決定し、現在エンコーダのアップデートされたイメージ特徴行列でK個の正規化位置に対応するK個の特徴を決定し、K個の特徴に対する加重値を合算してセルフアテンションの顔先験特徴行列のうち、各特徴に対応する特徴を現在エンコーダのアップデートされた顔先験特徴行列の特徴として取得し得る。
【0164】
本開示の実施形態によれば、電子装置を提供し、電子装置は、プロセッサ及びコンピュータプログラムを格納するメモリを含み、コンピュータプログラムはプロセッサによって行われるとき、顔イメージ処理方法を実現することができる。
【0165】
一実施形態によれば、電子デバイス700は、メモリ(図示せず)及びプロセッサ(図示せず)を含んでもよい。
【0166】
メモリは、コンピュータで読出し可能なインストラクションを含んでもよい。プロセッサは、メモリに格納されたインストラクションがプロセッサで行われるため、前述の動作を実行することができる。メモリは、揮発性メモリ又は不揮発性メモリであってもよい。
【0167】
プロセッサは、命令、あるいはプログラムを実行したり、電子装置700を制御する装置として、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、NPU(Neural Processing Unit)を含むが、前述した例に限定されない。
【0168】
その他に、電子装置700に関しては上述された動作を処理し得る。
【0169】
以上で説明した実施形態は、ハードウェアコンポーネント、ソフトウェアコンポーネント、及び/又はハードウェアコンポーネント及びソフトウェアコンポーネントの組み合わせで具現化されることができる。例えば、実施形態で説明する適応スーパーサンプリング装置、方法及びコンポーネントは、プロセッサ、コントローラ、ALU(arithmeticlogicunit)、デジタル信号プロセッサ(digitalsignalprocessor)、マイクロコンピュータ、FPGA(FieldProgrammablegatearray)、PLU(Programmablelogicunit)、マイクロプロセッサ又はコマンドを実行して応答できる他の適応型スーパーサンプリング装置のように汎用コンピュータ又は特殊目的のコンピュータを使用して具現化することができる。処理適応的スーパーサンプリング装置は、オペレーティングシステム(OS)及び上記オペレーティングシステム上で実行されるソフトウェアアプリケーションを実行することができる。また、処理適応的スーパーサンプリング装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成してもよい。理解の便宜のために、処理適応的スーパーサンプリング装置は1つが使用されるものと説明された場合もあるが、当該の技術分野で通常の知識を有する者は、処理適応的スーパーサンプリング装置が複数の処理要素(processingelement)及び/又は複数タイプの処理要素を含み得ることが分かる。例えば、処理適応スーパーサンプリング装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含んでもよい。また、並列プロセッサ(parallel processor)のような、他の処理構成(processing configuration)も可能である。
【0170】
ソフトウェアは、コンピュータプログラム(computer program)、コード(code)、命令(instruction)、又はそのいずれかの組み合わせを含んでもよく、希望のように処理適応的スーパーサンプリング装置を構成したり独立的又は結合的に(collectively)処理適応的スーパーサンプリング装置を命令することができる。ソフトウェア及び/又はデータは、処理適応スーパーサンプリング装置によって解釈されるか、処理適応スーパーサンプリング装置に命令又はデータを提供するために、いずれかのタイプの機械、コンポーネント、物理適応スーパーサンプリング装置、仮想適応スーパーサンプリング装置、コンピュータ記憶媒体、又は適応スーパーサンプリング装置、又は送信される信号波に永久的に具体化することができる。ソフトウェアは、ネットワーク接続されたコンピュータシステム上に分散され、分散された方法で格納又は実行されてもよい。ソフトウェア及びデータは、コンピュータ読み取り可能な記録媒体に格納することができる。
【0171】
本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現化され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。
【0172】
上記で説明したハードウェア適応的スーパーサンプリング装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモデルとして作動するように構成してもよく、その逆も同様である。
【0173】
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順に実行され、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態に結合又は組み合わせられてもよく、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
【0174】
したがって、他の具現化、他の実施形態及び特許請求の範囲と均等なものも後述する特許請求範囲の範囲に属する。