特開2024-71354 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 三星電子株式会社の特許一覧

特開2024-71354イメージを処理する電子装置及びその動作方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024071354

(43)【公開日】2024-05-24

(54)【発明の名称】イメージを処理する電子装置及びその動作方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20240517BHJP

G06F 18/213 20230101ALI20240517BHJP

G06N 3/0455 20230101ALI20240517BHJP

G06T 3/4053 20240101ALI20240517BHJP

【ＦＩ】

G06T7/00 350C

G06F18/213

G06N3/0455

G06T7/00 660A

G06T3/40 730

【審査請求】未請求

【請求項の数】19

【出願形態】ＯＬ

(21)【出願番号】P 2023188998

(22)【出願日】2023-11-06

(31)【優先権主張番号】202211424777.1

(32)【優先日】2022-11-14

(33)【優先権主張国・地域又は機関】CN

(31)【優先権主張番号】10-2023-0115612

(32)【優先日】2023-08-31

(33)【優先権主張国・地域又は機関】KR

(71)【出願人】

【識別番号】390019839

【氏名又は名称】三星電子株式会社

【氏名又は名称原語表記】ＳａｍｓｕｎｇＥｌｅｃｔｒｏｎｉｃｓＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】１２９，Ｓａｍｓｕｎｇ－ｒｏ，Ｙｅｏｎｇｔｏｎｇ－ｇｕ，Ｓｕｗｏｎ－ｓｉ，Ｇｙｅｏｎｇｇｉ－ｄｏ，ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】韓承周

(72)【発明者】

【氏名】李 ▲ふい▼

【テーマコード（参考）】

5B057

5L096

【Ｆターム（参考）】

5B057CD05

5L096FA09

5L096FA69

5L096HA11

(57)【要約】

【課題】イメージを処理する電子装置及びその動作方法が開示される。
【解決手段】電子装置の動作方法は、顔イメージのマルチレベル特徴マップに基づいて前記顔イメージの初期イメージ特徴行列を生成する動作、前記マルチレベル特徴マップの最後のレベル特徴マップに基づいて前記顔イメージの初期顔先験特徴行列を生成する動作、及び前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて、１つ以上のエンコーダを用いて前記顔イメージの超解像度イメージ及び／又は前記顔イメージのキーポイント座標を生成する動作を含む。１つ以上のエンコーダが複数のエンコーダである場合、前記複数のエンコーダはカスケードされる。
【選択図】図６

【特許請求の範囲】

【請求項1】

プロセッサによって行われる方法であって、
顔イメージのマルチレベル特徴マップに基づいて前記顔イメージの初期イメージ特徴行列を生成する動作と、
前記マルチレベル特徴マップの最後のレベル特徴マップに基づいて前記顔イメージの初期顔先験特徴行列を生成する動作と、
前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて、１つ以上のエンコーダを用いて前記顔イメージの超解像度イメージ及び／又は前記顔イメージのキーポイント座標を生成する動作と、
を含み、
前記１つ以上のエンコーダが複数のエンコーダである場合、前記複数のエンコーダはカスケードされる、方法。

【請求項2】

前記１つ以上のエンコーダそれぞれは、交差アテンションモデル及び第１変形可能なアテンションモデルを含み、
前記超解像度イメージが取得され、
前記超解像度イメージを取得する動作は、
前記１つ以上のエンコーダのうち初期エンコーダの前記交差アテンションモデルを用いて、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得する動作と、
前記初期エンコーダの前記第１変形可能なアテンションモデルを用いて、前記融合されたイメージ特徴行列に基づいて前記顔イメージのアップデートされたイメージ特徴行列を取得する動作と、
前記アップデートされたイメージ特徴行列及び前記顔イメージに基づいて前記顔イメージの超解像度イメージを取得する動作と、
を含む、請求項１に記載の方法。

【請求項3】

前記１つ以上のエンコーダそれぞれは、交差アテンションモデル及び第２変形可能なアテンションモデルを含み、
前記キーポイント座標は取得され、
前記顔イメージのキーポイント座標を取得する動作は、
前記１つ以上のエンコーダのうち初期エンコーダの前記交差アテンションモデルを用いて、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得する動作と、
前記初期エンコーダの前記第２変形可能なアテンションモデルを用いて、前記融合されたイメージ特徴行列及び前記初期顔先験特徴行列に基づいて前記顔イメージのアップデートされた顔先験特徴を取得する動作と、
前記アップデートされた顔先験特徴及び前記顔イメージの初期キーポイント座標に基づいて、前記顔イメージのキーポイント座標を予測する動作であって、前記顔イメージの初期キーポイント座標は、前記初期顔先験特徴行列に基づいて取得される、動作と、
を含む、請求項１に記載の方法。

【請求項4】

前記１つ以上のエンコーダのそれぞれは、第１ネットワーク、第２ネットワーク、及び第３ネットワークを含み、第１ネットワークは交差アテンションモデルを含み、第２ネットワークは第１変形可能なアテンションモデルを含み、第３ネットワークは第２変形可能なアテンションモデルを含み、
前記顔イメージの超解像度イメージ及び／又は前記顔イメージのキーポイント座標を取得する動作は、
前記超解像度イメージを生成する動作が行われる場合、前記１つ以上のエンコーダそれぞれに対して、現在エンコーダに対応するイメージ特徴行列及び顔先験特徴行列に基づいて、第１ネットワークを用いて現在エンコーダの融合されたイメージ特徴行列を取得する動作と、
前記１つ以上のエンコーダが複数のエンコーダを含んだり、複数のエンコーダと追加エンコーダを含む場合、前記複数のエンコーダそれぞれに対して、前記現在エンコーダの融合されたイメージ特徴行列及び現在エンコーダに対応する顔先験特徴行列に基づいて、第２ネットワークを用いて前記現在エンコーダのアップデートされた顔先験特徴行列を取得する動作と、
前記１つ以上のエンコーダそれぞれに対して、前記現在エンコーダの融合されたイメージ特徴行列に基づいて、第３ネットワークを用いて前記現在エンコーダのアップデートされたイメージ特徴行列を取得する動作と、
前記キーポイント座標を生成する動作が行われる場合、前記１つ以上のエンコーダの最後のエンコーダのアップデートされたイメージ特徴行列及び前記顔イメージに基づいて、前記顔イメージの超解像度イメージを取得する動作及び／又は最後のエンコーダのアップデートされた顔先験特徴行列及び前記顔イメージの初期キーポイント座標に基づいて前記顔イメージのキーポイント座標を予測する動作と、
を含み、
前記顔イメージの前記初期キーポイント座標は、前記初期顔先験特徴行列に基づいて取得され、
前記現在エンコーダが１つ以上のエンコーダのうち初期エンコーダである場合、前記現在エンコーダに対応するイメージ特徴行列は前記初期イメージ特徴行列であり、前記現在エンコーダに対応する顔先験特徴行列は前記初期顔先験特徴行列であり、
前記現在エンコーダが初期エンコーダでない場合、前記現在エンコーダに対応するイメージ特徴行列は、前記現在エンコーダの以前エンコーダのアップデートされたイメージ特徴行列であり、前記現在エンコーダに対応する顔先験特徴行列は、前記現在エンコーダの以前エンコーダのアップデートされた顔先験特徴行列である、請求項１に記載の方法。

【請求項5】

前記顔イメージの超解像度イメージ及び／又は前記顔イメージのキーポイント座標を取得する動作は、
最後のエンコーダに対応するアップデートされたイメージ特徴行列に基づいて、アップサンプリング増幅ネットワークを用いて第１オフセットを求め、第１オフセットと前記顔イメージに基づいて前記超解像度イメージを取得する動作と、
前記最後のエンコーダに対応するアップデートされた顔先験特徴行列に基づいて、キーポイント予測ネットワークを用いて第２オフセットを求め、第２オフセットと前記顔イメージの初期キーポイント座標に基づいて予測された前記顔イメージのキーポイント座標を取得する動作と、
を含む、請求項４に記載の方法。

【請求項6】

前記１つ以上のエンコーダそれぞれの第１ネットワークは、レイヤ正規化モデル及びフィードフォワードネットワークモデルをさらに含み、
前記現在エンコーダの融合されたイメージ特徴行列を取得する動作は、
位置情報が内蔵されている現在エンコーダに対応するイメージ特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリベクトル、キーベクトル、及び値ベクトルとして交差アテンションモデルに入力し、カスケードされた交差アテンションモデル、レイヤ正規化モデル、及びフィードフォワードネットワークモデルを介して現在エンコーダの融合されたイメージ特徴行列を取得する動作を含む、請求項４に記載の方法。

【請求項7】

前記現在エンコーダの融合されたイメージ特徴行列に基づいて、第３ネットワークを用いて現在エンコーダのアップデートされたイメージ特徴行列を取得する動作は、
前記現在エンコーダの融合されたイメージ特徴行列のうち、各特徴の正規化位置を決定する動作であって、前記正規化位置は、前記対応する特徴マップ内の各特徴に対応する前記特徴マップ内の特徴の正規化位置を示す、動作と、
前記マルチレベル特徴マップの各特徴マップで予め設定された規則に応じて各特徴の前記正規化位置の近所でＫ個の正規化位置を決定する動作と、
現在エンコーダの融合されたイメージ特徴行列でマルチレベル特徴マップの各特徴マップのＫ個の正規化位置に対応するＬ×Ｋ個の特徴に対して加重合算を行い、現在エンコーダの融合されたイメージ特徴行列のうち、前記各特徴に対応する特徴を現在エンコーダのアップデートされたイメージ特徴行列のうちの特徴として取得する動作であって、前記Ｌは、マルチレベル特徴マップの特徴マップ個数である、動作と、
を含む、請求項４に記載の方法。

【請求項8】

前記１つ以上のエンコーダそれぞれの第２ネットワークは、セルフアテンションモデルをさらに含み、
前記現在エンコーダのアップデートされた顔先験特徴行列を取得する動作は、
前記現在エンコーダに対応する顔先験特徴行列に基づいて、セルフアテンションモデルを用いて現在エンコーダに対応するセルフアテンションの顔先験特徴行列を取得する動作と、
前記現在エンコーダに対応するセルフアテンションの顔先験特徴行列及び現在エンコーダの融合されたイメージ特徴行列に基づいて、第１変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する動作と、
を含む、請求項４に記載の方法。

【請求項9】

前記セルフアテンションモデルは、カスケードされたセルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを含み、
前記現在エンコーダのセルフアテンションの顔先験特徴行列を取得する動作は、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリ行列、キー行列及び値行列として前記セルフアテンションモデルに入力し、セルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを介して現在エンコーダのセルフアテンションの顔先験特徴行列を取得する動作を含み、
前記第２変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する動作は、
前記最後のレベル特徴マップで現在エンコーダのセルフアテンションの顔先験特徴行列のうち、各特徴の正規化位置を決定する動作であって、前記正規化位置は、前記最後のレベル特徴マップで各特徴に対応する最後のレベル特徴マップにおける特徴の正規化位置を示す、動作と、
予め設定された規則に応じて最終レベル特徴マップで前記正規化位置の近所のＫ個の正規化位置を決定する動作と、
前記現在エンコーダのアップデートされたイメージ特徴行列で前記Ｋ個の正規化位置に対応するＫ個の特徴を決定し、前記Ｋ個の特徴に対する加重値を合算してセルフアテンションの顔先験特徴行列のうち、前記各特徴に対応する特徴を現在エンコーダのアップデートされた顔先験特徴行列の特徴として取得する動作と、
を含む、請求項８に記載の方法。

【請求項10】

請求項１～請求項９のいずれか１項に記載の方法を実行するコンピュータプログラムを格納するコンピュータで読み出し可能な記録媒体。

【請求項11】

電子装置であって、
１つ以上のプロセッサと、
命令を格納したメモリと、
を含み、
前記命令が前記１つ以上のプロセッサによって実行されるとき、前記１つ以上のプロセッサは、
顔イメージのマルチレベル特徴マップに基づいて前記顔イメージの初期イメージ特徴行列を生成し、
前記マルチレベル特徴マップの最後のレベル特徴マップに基づいて前記顔イメージの初期顔先験（ａｐｒｉｏｒｉ）特徴行列を生成し、
前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて、１つ以上のエンコーダを用いて前記顔イメージの超解像度イメージ及び／又は前記顔イメージのキーポイント座標を生成し、
前記１つ以上のエンコーダが複数のエンコーダである場合に前記複数のエンコーダはカスケードされる、電子装置。

【請求項12】

前記１つ以上のエンコーダそれぞれは、交差アテンションモデル及び第１変形可能なアテンションモデルを含み、
前記超解像度イメージが取得され、
前記１つ以上のプロセッサは、
前記１つ以上のエンコーダのうち初期エンコーダの前記交差アテンションモデルを用いて、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得し、
前記初期エンコーダの前記第１変形可能なアテンションモデルを用いて、前記融合されたイメージ特徴行列に基づいて前記顔イメージのアップデートされたイメージ特徴行列を取得し、
前記アップデートされたイメージ特徴行列及び前記顔イメージに基づいて前記顔イメージの超解像度イメージを取得する、請求項１１に記載の電子装置。

【請求項13】

前記１つ以上のエンコーダそれぞれは、交差アテンションモデル及び第２変形可能なアテンションモデルを含み、
前記キーポイント座標は取得され、
前記１つ以上のプロセッサは、
前記１つ以上のエンコーダのうち初期エンコーダの前記交差アテンションモデルを用いて、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得し、
前記初期エンコーダの前記第２変形可能なアテンションモデルを用いて、前記融合されたイメージ特徴行列及び前記初期顔先験特徴行列に基づいて前記顔イメージのアップデートされた顔先験特徴を取得し、
前記アップデートされた顔先験特徴及び前記顔イメージの初期キーポイント座標に基づいて、前記顔イメージのキーポイント座標を予測し、
前記顔イメージの初期キーポイント座標は、前記初期顔先験特徴行列に基づいて取得される、請求項１１に記載の電子装置。

【請求項14】

前記１つ以上のエンコーダのそれぞれは、第１ネットワーク、第２ネットワーク、及び第３ネットワークを含み、前記第１ネットワークは交差アテンションモデルを含み、前記第２ネットワークは第１変形可能なアテンションモデルを含み、前記第３ネットワークは第２変形可能なアテンションモデルを含み、
前記１つ以上のプロセッサは、
前記超解像度イメージを生成する動作が行われる場合、前記１つ以上のエンコーダそれぞれに対して、現在エンコーダに対応するイメージ特徴行列及び顔先験特徴行列に基づいて、第１ネットワークを用いて現在エンコーダの融合されたイメージ特徴行列を取得し、
前記１つ以上のエンコーダが複数のエンコーダを含んだり、複数のエンコーダと追加エンコーダを含む場合、前記複数のエンコーダそれぞれに対して、前記現在エンコーダの融合されたイメージ特徴行列及び現在エンコーダに対応する顔先験特徴行列に基づいて、第２ネットワークを用いて前記現在エンコーダのアップデートされた顔先験特徴行列を取得し、
前記１つ以上のエンコーダそれぞれに対して、前記現在エンコーダの融合されたイメージ特徴行列に基づいて、第３ネットワークを用いて前記現在エンコーダのアップデートされたイメージ特徴行列を取得し、
前記キーポイント座標を生成する動作が行われる場合、前記１つ以上のエンコーダの最後のエンコーダのアップデートされたイメージ特徴行列及び前記顔イメージに基づいて、前記顔イメージの超解像度イメージを取得し、及び／又は最後のエンコーダのアップデートされた顔先験特徴行列及び前記顔イメージの初期キーポイント座標に基づいて、前記顔イメージのキーポイント座標を予測し、
前記顔イメージの前記初期キーポイント座標は、前記初期顔先験特徴行列に基づいて取得され、
前記現在エンコーダが１つ以上のエンコーダのうち初期エンコーダである場合、前記現在エンコーダに対応するイメージ特徴行列は前記初期イメージ特徴行列であり、前記現在エンコーダに対応する顔先験特徴行列は前記初期顔先験特徴行列であり、
前記現在エンコーダが初期エンコーダでない場合、前記現在エンコーダに対応するイメージ特徴行列は、前記現在エンコーダの以前エンコーダのアップデートされたイメージ特徴行列であり、前記現在エンコーダに対応する顔先験特徴行列は、前記現在エンコーダの以前エンコーダのアップデートされた顔先験特徴行列である、請求項１１に記載の電子装置。

【請求項15】

前記１つ以上のプロセッサは、
最後のエンコーダに対応するアップデートされたイメージ特徴行列に基づいてアップサンプリング増幅ネットワークを用いて第１オフセットを求め、第１オフセットと前記顔イメージに基づいて前記超解像度イメージを取得し、
前記最後のエンコーダに対応するアップデートされた顔先験特徴行列に基づいてキーポイント予測ネットワークを用いて第２オフセットを求め、第２オフセットと前記顔イメージの初期キーポイント座標に基づいて予測された前記顔イメージのキーポイント座標を取得する、請求項１４に記載の電子装置。

【請求項16】

前記１つ以上のエンコーダそれぞれの第１ネットワークは、レイヤ正規化モデル及びフィードフォワードネットワークモデルをさらに含み、
前記１つ以上のプロセッサは、位置情報が内蔵されている現在エンコーダに対応するイメージ特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリベクトル、キーベクトル、及び値ベクトルとして交差アテンションモデルに入力し、カスケードされた交差アテンションモデル、レイヤ正規化モデル、及びフィードフォワードネットワークモデルを介して現在エンコーダの融合されたイメージ特徴行列を取得する、請求項１４に記載の電子装置。

【請求項17】

前記１つ以上のプロセッサは、
前記現在エンコーダの融合されたイメージ特徴行列のうち各特徴の正規化位置を決定し、前記正規化位置は、前記対応する特徴マップ内の各特徴に対応する前記特徴マップ内の特徴の正規化位置を示し、
前記１つ以上のプロセッサは、
前記マルチレベル特徴マップの各特徴マップで、予め設定された規則に応じて各特徴の前記正規化位置の近所でＫ個の正規化位置を決定し、
現在エンコーダの融合されたイメージ特徴行列で、マルチレベル特徴マップの各特徴マップのＫ個の正規化位置に対応するＬ×Ｋ個の特徴に対して加重合算を行って、現在エンコーダの融合されたイメージ特徴行列のうち、前記各特徴に対応する特徴を現在エンコーダのアップデートされたイメージ特徴行列のうちの特徴として取得し、前記Ｌは、マルチレベル特徴マップの特徴マップ個数である、請求項１４に記載の電子装置。

【請求項18】

前記１つ以上のエンコーダそれぞれの第２ネットワークはセルフアテンションモデルをさらに含み、
前記１つ以上のプロセッサは、
前記現在エンコーダに対応する顔先験特徴行列に基づいて、セルフアテンションモデルを用いて現在エンコーダに対応するセルフアテンションの顔先験特徴行列を取得し、
前記現在エンコーダに対応するセルフアテンションの顔先験特徴行列及び現在エンコーダの融合されたイメージ特徴行列に基づいて、第１変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する、請求項１４に記載の電子装置。

【請求項19】

前記セルフアテンションモデルは、カスケードされたセルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを含み、
前記１つ以上のプロセッサは、
位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリ行列、キー行列、及び値行列として前記セルフアテンションモデルに入力し、セルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを介して現在エンコーダのセルフアテンションの顔先験特徴行列を取得し、
前記最後のレベル特徴マップで現在エンコーダのセルフアテンションの顔先験特徴行列のうち各特徴の正規化位置を決定し、前記正規化位置は、前記最後のレベル特徴マップで各特徴に対応する最後のレベル特徴マップにおける特徴の正規化位置を示し、
前記１つ以上のプロセッサは、
予め設定された規則に応じて最終レベル特徴マップで前記正規化位置の近所のＫ個の正規化位置を決定し、
前記現在エンコーダのアップデートされたイメージ特徴行列で前記Ｋ個の正規化位置に対応するＫ個の特徴を決定し、前記Ｋ個の特徴に対する加重値を合算してセルフアテンションの顔先験特徴行列のうち、前記各特徴に対応する特徴を現在エンコーダのアップデートされた顔先験特徴行列の特徴として取得する、請求項１８に記載の電子装置。

【発明の詳細な説明】

【技術分野】

【0001】

以下の開示は、イメージを処理する電子装置及びその動作方法に関する。

【背景技術】

【0002】

最近、深層神経網技術の発達でＦＳＲ（ｆａｃｅｓｕｐｅｒ－ｒｅｓｏｌｕｔｉｏｎ）技術が大きく発展している。ＦＳＲは、主にＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）、ＧＡＮ（ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋ）、アンサンブル学習（ｅｎｓｅｍｂｌｅｌｅａｒｎｉｎｇ）又は強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）に基づいて実行されてもよい。ＦＳＲの性能を向上させるために複雑なネットワーク構造設計が要求されている。

【発明の概要】

【発明が解決しようとする課題】

【0003】

ネットワークの構造が複雑になることは、メモリの大きさ、演算量、及びパラメータの増加につながってネットワークのトレーニング時間と演算コストを増加させる。また、顔先験情報（ｆａｃｅｐｒｉｏｒｉｎｆｏｒｍａｔｉｏｎ）を活用してＦＳＲ性能が向上し取得するが、顔先験情報を活用するＦＳＲ方法には、追加的な顔先験情報のラベリングが要求されている。

【0004】

本文書に開示される様々な実施形態によれば、マルチレベルイメージ特徴を活用することができ、距離に関わりのない関係を学習できる変形可能なアテンションを用いて追加的な顔先験情報なしにＦＳＲネットワークの複雑度を減らしながらも、ＦＳＲ性能を効率よく向上させ得るＦＳＲモデルを提供することができる。

【課題を解決するための手段】

【0005】

一実施形態に係るプロセッサによって行われる方法は、顔イメージのマルチレベル特徴マップに基づいて前記顔イメージの初期イメージ特徴行列を生成する動作と、前記マルチレベル特徴マップの最後のレベル特徴マップに基づいて前記顔イメージの初期顔先験特徴行列を生成する動作と、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて、１つ以上のエンコーダを用いて前記顔イメージの超解像度イメージ及び／又は前記顔イメージのキーポイント座標を生成する動作と、を含み、前記１つ以上のエンコーダが複数のエンコーダである場合、前記複数のエンコーダはカスケード（接続）される。

【0006】

前記１つ以上のエンコーダそれぞれは、交差アテンションモデル及び第１変形可能なアテンションモデルを含み、前記超解像度イメージが取得され、前記超解像度イメージを取得する動作は、前記１つ以上のエンコーダのうち初期エンコーダの前記交差アテンションモデルを用いて、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得する動作と、前記初期エンコーダの前記第１変形可能なアテンションモデルを用いて、前記融合されたイメージ特徴行列に基づいて前記顔イメージのアップデートされたイメージ特徴行列を取得する動作と、前記アップデートされたイメージ特徴行列及び前記顔イメージに基づいて前記顔イメージの超解像度イメージを取得する動作とを含むことができる。

【0007】

前記１つ以上のエンコーダそれぞれは、交差アテンションモデル及び第２変形可能なアテンションモデルを含み、前記キーポイント座標は取得され、前記顔イメージのキーポイント座標を取得する動作は、前記１つ以上のエンコーダのうち初期エンコーダの前記交差アテンションモデルを用いて、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得する動作と、前記初期エンコーダの前記第２変形可能なアテンションモデルを用いて、前記融合されたイメージ特徴行列及び前記初期顔先験特徴行列に基づいて前記顔イメージのアップデートされた顔先験特徴を取得する動作と、前記アップデートされた顔先験特徴及び前記顔イメージの初期キーポイント座標に基づいて、前記顔イメージのキーポイント座標を予測する動作であって、前記顔イメージの初期キーポイント座標は、前記初期顔先験特徴行列に基づいて取得される、動作と、を含むことができる。

【0008】

前記１つ以上のエンコーダのそれぞれは、第１ネットワーク、第２ネットワーク、及び第３ネットワークを含み、第１ネットワークは交差アテンションモデルを含み、第２ネットワークは第１変形可能なアテンションモデルを含み、第３ネットワークは第２変形可能なアテンションモデルを含み、前記顔イメージの超解像度イメージ及び／又は前記顔イメージのキーポイント座標を取得する動作は、前記超解像度イメージを生成する動作が行われる場合、前記１つ以上のエンコーダそれぞれに対して、現在エンコーダに対応するイメージ特徴行列及び顔先験特徴行列に基づいて、第１ネットワークを用いて現在エンコーダの融合されたイメージ特徴行列を取得する動作と、前記１つ以上のエンコーダが複数のエンコーダを含んだり、複数のエンコーダと追加エンコーダを含む場合、前記複数のエンコーダそれぞれに対して、前記現在エンコーダの融合されたイメージ特徴行列及び現在エンコーダに対応する顔先験特徴行列に基づいて、第２ネットワークを用いて前記現在エンコーダのアップデートされた顔先験特徴行列を取得する動作と、前記１つ以上のエンコーダそれぞれに対して、前記現在エンコーダの融合されたイメージ特徴行列に基づいて、第３ネットワークを用いて前記現在エンコーダのアップデートされたイメージ特徴行列を取得する動作と、前記キーポイント座標を生成する動作が行われる場合、前記１つ以上のエンコーダの最後のエンコーダのアップデートされたイメージ特徴行列及び前記顔イメージに基づいて、前記顔イメージの超解像度イメージを取得する動作及び／又は最後のエンコーダのアップデートされた顔先験特徴行列及び前記顔イメージの初期キーポイント座標に基づいて前記顔イメージのキーポイント座標を予測する動作とを含み、前記顔イメージの前記初期キーポイント座標は、前記初期顔先験特徴行列に基づいて取得され、前記現在エンコーダが１つ以上のエンコーダのうち初期エンコーダである場合、前記現在エンコーダに対応するイメージ特徴行列は前記初期イメージ特徴行列であり、前記現在エンコーダに対応する顔先験特徴行列は前記初期顔先験特徴行列であり、前記現在エンコーダが初期エンコーダでない場合、前記現在エンコーダに対応するイメージ特徴行列は、前記現在エンコーダの以前エンコーダのアップデートされたイメージ特徴行列であり、前記現在エンコーダに対応する顔先験特徴行列は、前記現在エンコーダの以前エンコーダのアップデートされた顔先験特徴行列である。

【0009】

前記顔イメージの超解像度イメージ及び／又は前記顔イメージのキーポイント座標を取得する動作は、最後のエンコーダに対応するアップデートされたイメージ特徴行列に基づいて、アップサンプリング増幅ネットワークを用いて第１オフセットを求め、第１オフセットと前記顔イメージに基づいて前記超解像度イメージを取得する動作と、前記最後のエンコーダに対応するアップデートされた顔先験特徴行列に基づいて、キーポイント予測ネットワークを用いて第２オフセットを求め、第２オフセットと前記顔イメージの初期キーポイント座標に基づいて予測された前記顔イメージのキーポイント座標を取得する動作とを含むことができる。

【0010】

前記１つ以上のエンコーダそれぞれの第１ネットワークは、レイヤ正規化モデル及びフィードフォワードネットワークモデルをさらに含み、前記現在エンコーダの融合されたイメージ特徴行列を取得する動作は、位置情報が内蔵されている現在エンコーダに対応するイメージ特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリベクトル、キーベクトル、及び値ベクトルとして交差アテンションモデルに入力し、カスケード（接続）された交差アテンションモデル、レイヤ正規化モデル、及びフィードフォワードネットワークモデルを介して現在エンコーダの融合されたイメージ特徴行列を取得する動作を含むことができる。

【0011】

前記現在エンコーダの融合されたイメージ特徴行列に基づいて、第３ネットワークを用いて現在エンコーダのアップデートされたイメージ特徴行列を取得する動作は、前記現在エンコーダの融合されたイメージ特徴行列のうち、各特徴の正規化位置を決定する動作であって、前記正規化位置は、前記対応する特徴マップ内の各特徴に対応する前記特徴マップ内の特徴の正規化位置を示す、動作と、前記マルチレベル特徴マップの各特徴マップで予め設定された規則に応じて各特徴の前記正規化位置の近所でＫ個の正規化位置を決定する動作と、現在エンコーダの融合されたイメージ特徴行列でマルチレベル特徴マップの各特徴マップのＫ個の正規化位置に対応するＬ×Ｋ個の特徴に対して加重合算を行い、現在エンコーダの融合されたイメージ特徴行列のうち、前記各特徴に対応する特徴を現在エンコーダのアップデートされたイメージ特徴行列のうちの特徴として取得する動作であって、前記Ｌは、マルチレベル特徴マップの特徴マップ個数である、動作とを含むことができる。

【0012】

前記１つ以上のエンコーダそれぞれの第２ネットワークは、セルフアテンションモデルをさらに含み、前記現在エンコーダのアップデートされた顔先験特徴行列を取得する動作は、前記現在エンコーダに対応する顔先験特徴行列に基づいて、セルフアテンションモデルを用いて現在エンコーダに対応するセルフアテンションの顔先験特徴行列を取得する動作と、前記現在エンコーダに対応するセルフアテンションの顔先験特徴行列及び現在エンコーダの融合されたイメージ特徴行列に基づいて、第１変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する動作とを含むことができる。

【0013】

前記セルフアテンションモデルは、カスケード（接続）されたセルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを含み、
前記現在エンコーダのセルフアテンションの顔先験特徴行列を取得する動作は、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリ行列、キー行列及び値行列として前記セルフアテンションモデルに入力し、セルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを介して現在エンコーダのセルフアテンションの顔先験特徴行列を取得する動作を含み、前記第２変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する動作は、前記最後のレベル特徴マップで現在エンコーダのセルフアテンションの顔先験特徴行列のうち、各特徴の正規化位置を決定する動作であって、前記正規化位置は、前記最後のレベル特徴マップで各特徴に対応する最後のレベル特徴マップにおける特徴の正規化位置を示す、動作と、予め設定された規則に応じて最終レベル特徴マップで前記正規化位置の近所のＫ個の正規化位置を決定する動作と、前記現在エンコーダのアップデートされたイメージ特徴行列で前記Ｋ個の正規化位置に対応するＫ個の特徴を決定し、前記Ｋ個の特徴に対する加重値を合算してセルフアテンションの顔先験特徴行列のうち、前記各特徴に対応する特徴を現在エンコーダのアップデートされた顔先験特徴行列の特徴として取得する動作とを含むことができる。

【0014】

一実施形態に係る電子装置は、１つ以上のプロセッサと、命令を格納したメモリと、を含み、前記命令が前記１つ以上のプロセッサによって実行されるとき、前記１つ以上のプロセッサは、顔イメージのマルチレベル特徴マップに基づいて前記顔イメージの初期イメージ特徴行列を生成し、前記マルチレベル特徴マップの最後のレベル特徴マップに基づいて前記顔イメージの初期顔先験（ａｐｒｉｏｒｉ）特徴行列を生成し、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて、１つ以上のエンコーダを用いて前記顔イメージの超解像度イメージ及び／又は前記顔イメージのキーポイント座標を生成し、前記１つ以上のエンコーダが複数のエンコーダである場合に前記複数のエンコーダはカスケード（接続）される。

【発明の効果】

【0015】

様々な実施形態によれば、マルチレベルイメージ特徴を活用することができ、距離に関わりのない関係を学習できる変形可能なアテンションを用いて追加的な顔先験情報なしにＦＳＲネットワークの複雑度を減らし、ＦＳＲ性能を効率よく向上させ得るＦＳＲモデルを提供することができる。

【図面の簡単な説明】

【0016】

【図1】一実施形態に係る電子装置の動作方法を示す図である。

【図2】一実施形態に係る初期イメージ特徴行列（ｉｎｉｔｉａｌｉｍａｇｅｆｅａｔｕｒｅｍａｔｒｉｘ）及び初期顔先験特徴行列を取得する動作を説明するための図である。

【図3】一実施形態に係る１つ以上のエンコーダのうち１つの第１ネットワークレイヤの構造を説明するための図である。

【図4】一実施形態に係る変形可能なアテンションメカニズム（ｄｅｆｏｒｍａｂｌｅａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ）に基づいてイメージ特徴行列をアップデートする動作を説明するための図である。

【図5】一実施形態に係る第２ネットワークレイヤの構造を説明するための図である。

【図6】一実施形態に係る顔イメージの超解像度イメージ（ｓｕｐｅｒ－ｒｅｓｏｌｕｔｉｏｎｉｍａｇｅ）及び／又は顔イメージのキーポイント座標（ｋｅｙｐｏｉｎｔｃｏｏｒｄｉｎａｔｅ）を取得する動作を説明するための図である。

【図7】一実施形態に係る電子装置を示す図である。

【発明を実施するための形態】

【0017】

実施形態に対する特定な構造的又は機能的な説明は単なる例示のための目的として開示されたものであって、様々な形態に変更されることができる。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。

【0018】

本文書において「Ａ又はＢ」、「Ａ及びＢの少なくとも１つ」、「Ａ又はＢの少なくとも１つ」、「Ａ、Ｂ、又はＣ」、「Ａ、Ｂ、及びＣの少なくとも１つ」、「Ａ，Ｂ及びＣのいずれか１つ又は２つ以上の組み合わせ」などの各フレーズは、そのフレーズのいずれか１つ又はすべてが可能な組み合わせを含むことができる。第１又は第２などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に、第２構成要素は第１構成要素にも命名することができる。

【0019】

いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。

【0020】

単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

【0021】

異なるように定義がされない限り、技術的又は科学的な用語を含んで、ここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されなければならず、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

【0022】

以下、添付する図面を参照しながら実施形態を詳細に説明する。図面を参照して説明する際に、図面符号に拘わらず同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。

【0023】

図１は、一実施形態に係る電子装置の動作方法を示す図である。

【0024】

以下の実施形態において各動作は順に行われてもよいが、必ず順に行われなくてもよい。例えば、各動作の順が変更されてもよく、少なくとも２つの動作が並列的に行われてもよい。動作１０１～１０３は、電子装置の少なくとも１つの構成要素（例えば、ホストプロセッサ、加速器、メモリなど）によって実行されてもよい。

【0025】

電子装置はイメージを処理する装置として、例えば、携帯電話、スマートフォン、タブレット、電子ブック装置、ラップトップ、パーソナルコンピュータ、デスクトップ、ワークステーション又はサーバのような様々なコンピューティング装置、スマートウォッチ、スマートメガネ、ＨＭＤ（Ｈｅａｄ－ＭｏｕｎｔｅｄＤｉｓｐｌａｙ）、又は、スマート衣類のような様々なウェアラブル機器、スマートスピーカ、スマートＴＶ、又は、スマート冷蔵庫のような様々な家電装置、スマート自動車、スマートキオスク、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）機器、ＷＡＤ（ＷａｌｋｉｎｇＡｓｓｉｓｔＤｅｖｉｃｅ）、ドローン、又は、ロボットを含むが、前述した例に限定されない。イメージは顔を含むが、前述した例に限定されず、実施形態に従って様々なオブジェクトが含まれてもよい。本明細書で説明の便宜のために、電子装置はイメージ処理装置又は顔イメージ処理装置と称されてもよい。

【0026】

動作１０１において、電子装置は、顔イメージのマルチレベル特徴マップに基づいて顔イメージの初期イメージ特徴行列を取得する。例えば、電子装置は、顔イメージのマルチレベル特徴マップを平坦化及びカスケード（ｃａｓｃａｄｉｎｇ）することで、顔イメージの初期イメージ特徴行列を取得することができる。

【0027】

動作１０２において、電子装置は、マルチレベル特徴マップの最後のレベル特徴マップに基づいて顔イメージの初期顔先験特徴行列を取得する。例えば、電子装置は、マルチレベル特徴マップの最後のレベル特徴マップに基づいて完全接続ネットワーク（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｎｅｔｗｏｒｋ）を用いて、顔イメージの初期顔先験特徴行列を取得し得る。マルチレベル特徴マップ内の各レベル特徴マップは同じチャネル数を有してもよい。

【0028】

以下、図２を参照して電子装置の動作について詳細に説明する。

【0029】

図２は、一実施形態に係る初期イメージ特徴行列及び初期顔先験特徴行列を取得する動作を説明するための図である。

【0030】

図２を参照すると、電子装置は、トレーニングされた畳み込み神経網（例えば、ＲｅｓＮｅｔ１８）を介して入力された顔イメージの４レベルのピラミッド特徴マップＦ１、Ｆ２、Ｆ３、Ｆ４を抽出することができる。電子装置は、１×１畳み込みネットワークを介して各特徴マップの特徴が同じチャネル数を有するように投影して特徴Ｆ１’、Ｆ２’、Ｆ３’、Ｆ４’を取得してもよい。電子装置は、取得した４レベルの特徴マップＦ１’、Ｆ２’、Ｆ３’、Ｆ４’を平坦化及びカスケードすることで、顔イメージの初期イメージ特徴行列Ｆ_ｉｍ∈Ｒ＾^Ｍ×Ｃを取得できる。そのうち、Ｆ_ｉｍは初期イメージ特徴行列のｉ番目の行とｍ番目の列の特徴を示し、Ｍは初期イメージ特徴行列の行数を示し、Ｃは初期イメージ特徴行列の列数を示す。例えば、Ｃは同じ数のチャネル（例えば、Ｃ＝２５６）を示す。説明の便宜のために、Ｆ_ｉｍは初期イメージ特徴行列を示す。

【0031】

本明細書では説明の便宜のために、顔イメージはＬＲイメージ（ｌｏｗｒｅｓｏｌｕｔｉｏｎｉｍａｇｅ）と称されてもよく、マップは行列と称されてもよい。また、説明の便宜のために、以下ではＬＲイメージで４つのレベルの特徴マップが抽出される例示を基準にして説明する。

【0032】

例えば、顔先験特徴行列Ｆ_ＫＰ∈Ｒ^Ｎ×Ｃは、Ｆ４’で空間次元（ｓｐａｔｉａｌｄｉｍｅｎｓｉｏｎ）上の線型投影（ｌｉｎｅａｒｐｒｏｊｅｃｔｉｏｎ）を介して取得してもよく、Ｎは顔先験特徴行列の特徴数を示す。

【0033】

例えば、ＬＲイメージの初期顔先験特徴行列は、以下の数式（１）により取得され得る。

【0034】

Ｆ_ＫＰ＝ＦＣ(Ｆ４‘) （１）
上の数式（１）において、ＦＣ（・）は完全接続動作（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｏｐｅｒａｔｉｏｎ）を示す。

【0035】

動作１０３において、電子装置は、初期イメージ特徴行列及び初期顔先験特徴行列に基づいてカスケードされた１つ以上のエンコーダを用いて、顔イメージの超解像度イメージ及び／又は顔イメージのキーポイント座標（ｋｅｙｐｏｉｎｔｃｏｏｒｄｉｎａｔｅ）を取得する。

【0036】

例えば、顔イメージの超解像度イメージを取得する動作は、１つ以上のエンコーダに含まれた交差アテンションモデル（ｃｒｏｓｓ－ａｔｔｅｎｔｉｏｎｍｏｄｅｌ）を用いて、初期イメージ特徴行列及び初期顔先験特徴行列に基づいて融合されたイメージ特徴行列（ｆｕｓｅｄｉｍａｇｅｆｅａｔｕｒｅｍａｔｒｉｘ）を取得する動作、１つ以上のエンコーダに含まれた第１変形可能なアテンションモデルを用いて、融合されたイメージ特徴行列に基づいて顔イメージのアップデートされたイメージ特徴行列を取得する動作、前記アップデートされたイメージ特徴行列及び顔イメージに基づいて顔イメージの超解像度イメージを取得する動作を含む。

【0037】

本明細書では、説明の便宜のために、モデルは、ニューラルネットワークのレイヤ又はモジュールと称されてもよい。ニューラルネットワークは複数のレイヤを含んでもよい。例えば、交差アテンションモデルは交差アテンションレイヤと称されてもよく、レイヤ正規化レイヤは正規化モデルと称されてもよい。

【0038】

例えば、顔イメージのキーポイント座標を取得する動作は、１つ以上のエンコーダに含まれた交差アテンションモデルを用いて、初期イメージ特徴行列及び初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得する動作、１つ以上のエンコーダに含まれた第２変形可能なアテンションモデルを用いて、融合されたイメージ特徴行列及び初期顔先験特徴行列に基づいて顔イメージのアップデートされた顔先験特徴を取得する動作、アップデートされた顔先験特徴及び顔イメージの初期キーポイント座標に基づいて、顔イメージのキーポイント座標を予測する動作を含む。ここで、顔イメージの初期キーポイント座標は、初期顔先験特徴行列に基づいて取得され、例えば、電子装置は、顔イメージの初期キーポイント座標を取得するために初期顔先験特徴行列に対して全体接続を行ってもよい。

【0039】

例えば、１つ以上のエンコーダのそれぞれのエンコーダは、第１ネットワーク、第２ネットワーク及び第３ネットワークを含み、第１ネットワークは交差アテンションモデルを含み、第２ネットワークは第１変形可能なアテンションモデルを含み、第３ネットワークは第２変形可能なアテンションモデルを含み、ここで、顔イメージの超解像度イメージ及び／又は顔イメージのキーポイント座標を取得する動作は、それぞれのエンコーダに対して、現在エンコーダに対応するイメージ特徴行列及び顔先験特徴行列に基づいて、第１ネットワークを用いて現在エンコーダの融合されたイメージ特徴行列を取得する動作、現在エンコーダの融合されたイメージ特徴行列及び現在エンコーダに対応する顔先験特徴行列に基づいて、第２ネットワークを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する動作、現在エンコーダの融合されたイメージ特徴行列に基づいて、第３ネットワークを用いて現在エンコーダのアップデートされたイメージ特徴行列を取得する動作、１つ以上のエンコーダの最後のエンコーダのアップデートされたイメージ特徴行列及び顔イメージに基づいて顔イメージの超解像度イメージを取得する動作、及び／又は最後のエンコーダのアップデートされた顔先験特徴行列及び顔イメージの初期キーポイント座標に基づいて、顔イメージのキーポイント座標を予測する動作を含んでもよい。現在エンコーダが１つ以上のエンコーダのうち最初のエンコーダである場合、現在エンコーダに対応するイメージ特徴行列は初期イメージ特徴行列であり、現在エンコーダに対応する顔先験特徴行列は、初期顔先験特徴行列であってもよい。現在エンコーダが最初のエンコーダでない場合、現在エンコーダに対応するイメージ特徴行列は、現在エンコーダの以前エンコーダのアップデートされたイメージ特徴行列であり、現在エンコーダに対応する顔先験特徴行列は、現在エンコーダの以前エンコーダのアップデートされた顔先験特徴行列であってもよい。

【0040】

例えば、１つ以上のエンコーダは第１エンコーダ及び第２エンコーダを含むが、前述した例に限定されない。

【0041】

例えば、電子装置は、初期イメージ特徴行列Ｍ１１及び初期顔先験特徴行列Ｆ１１に基づいて、第１エンコーダの第１ネットワークを用いて第１エンコーダの融合されたイメージ特徴行列Ｍ１２を取得してもよい。電子装置は、初期顔先験特徴行列Ｆ１１及び第１エンコーダの融合されたイメージ特徴行列Ｍ１２に基づいて、第１エンコーダの第２ネットワークを用いて、第１エンコーダのアップデートされた顔先験特徴行列Ｆ１２を取得してもよい。電子装置は、第１エンコーダの融合されたイメージ特徴行列Ｍ１２に基づいて、第１エンコーダの第３ネットワークを用いて、第１エンコーダのアップデートされたイメージ特徴行列Ｍ１３を取得してもよい。電子装置は、第１エンコーダのアップデートされた顔先験特徴行列Ｆ１２及び第１エンコーダのアップデートされたイメージ特徴行列Ｍ１３に基づいて、第２エンコーダの第１ネットワークを用いて、第２エンコーダの融合されたイメージ特徴行列Ｍ２２を取得してもよい。電子装置は、第２エンコーダの融合されたイメージ特徴行列Ｍ２２及び第１エンコーダのアップデートされた顔先験特徴行列Ｆ１２に基づいて、第２エンコーダの第２ネットワークを用いて、第２エンコーダのアップデートされた顔先験特徴行列Ｆ２２を取得してもよい。電子装置は、第２エンコーダの融合されたイメージ特徴行列Ｍ２２に基づいて、第２エンコーダの第３ネットワークを用いて、第２エンコーダのアップデートされたイメージ特徴行列Ｍ２３を取得してもよい。

【0042】

例えば、電子装置は、第２エンコーダのアップデートされたイメージ特徴行列Ｍ２３及び顔イメージに基づいて、顔イメージの超解像度イメージを取得してもよい。

【0043】

例えば、電子装置は、第２エンコーダのアップデートされた顔先験特徴行列Ｆ２２及び顔イメージの初期キーポイント座標に基づいて顔イメージのキーポイント座標を予測してもよい。

【0044】

例えば、顔イメージの超解像度イメージ及び／又は顔イメージのキーポイント座標を取得する動作は、カスケードされた最後のエンコーダに対応するアップデートされたイメージ特徴行列に基づいて、アップサンプリング増幅ネットワーク（ｕｐｓａｍｐｌｉｎｇａｍｐｌｉｆｉｃａｔｉｏｎｎｅｔｗｏｒｋ）を用いて第１オフセットを求め、第１オフセットと顔イメージに基づいて超解像度イメージを取得する動作及び／又はカスケードされた最後のエンコーダに対応するアップデートされた顔先験特徴行列に基づいて、キーポイント予測ネットワークを用いて第２オフセットを求め、第２オフセットと顔イメージの初期キーポイント座標に基づいて予測された顔イメージのキーポイント座標を取得する動作を含み、ここで、顔イメージのキーポイント座標は、初期顔先験特徴行列に対して全体接続を行うことにより取得され得る。

【0045】

例えば、電子装置は、第２エンコーダのアップデートされたイメージ特徴行列Ｍ２３に基づいてアップサンプリング増幅ネットワークを用いて第１オフセットを取得し、第１オフセットと顔イメージに基づいて超解像度イメージを取得してもよい。電子装置は、第２エンコーダのアップデートされた顔先験特徴行列Ｆ２２に基づいて、キーポイント予測ネットワークを用いて第２オフセットを取得し、第２オフセットと顔イメージの初期キーポイント座標に基づいて顔イメージの予測キーポイント座標を取得することができる。ここで、顔イメージの初期キーポイント座標は、初期顔先験特徴行列で全体接続を行って取得され得る。

【0046】

例えば、各エンコーダの第１ネットワークは、レイヤ正規化レイヤ（ＬＮ（ｌａｙｅｒｎｏｒｍａｌｉｚａｔｉｏｎ）ｌａｙｅｒ）及びフィードフォワードネットワークレイヤ（ＦＦＮ（ｆｅｅｄｆｏｒｗａｒｄｎｅｔｗｏｒｋ）ｌａｙｅｒ）をさらに含み、ここで、現在エンコーダの融合されたイメージ特徴行列を取得する動作は、位置情報が内蔵されている現在エンコーダに対応するイメージ特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリベクトル、キーベクトル、及び値ベクトルとして交差アテンションモデルに入力し、カスケードされた交差アテンションモデル、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを介して現在エンコーダの融合されたイメージ特徴行列を取得する動作を含む。

【0047】

図３は、一実施形態に係る１つ以上のエンコーダのうち１つの第１ネットワークレイヤの構造を説明するための図である。

【0048】

図３を参照すると、第１ネットワークは、交差アテンションモデル、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを含む。

【0049】

例えば、位置情報が内蔵されている現在エンコーダに該当するイメージ特徴行列Ｑは、下記の数式（２）を介して取得することができる。

【0050】

Ｑ＝Ｆ_ｉｍ＋ＰＥ_ｉｍ（２）
上の数式（２）において、ＰＥ_ｉｍは、オリジナル特徴マップで該当オリジナル特徴マップのＦ_ｉｍの該当特徴位置を示し、Ｆ_ｉｍは位置情報が内蔵されていない各エンコーダに該当するイメージ特徴行列を示す。

【0051】

例えば、Ｆ_ｉｍが第１レベル特徴マップの特徴Ｆ_ｉｍ＿１に対応する場合には、Ｆ_ｉｍはＦ_ｉｍ＿１に基づいて取得され、ＰＥ_ｉｍは第１レベル特徴マップにおけるＦ_ｉｍ＿１の位置を示す。

【0052】

例えば、入力交差アテンションモデルのキー行列Ｋは、下記の数式（３）により取得され得る。

【0053】

Ｋ＝Ｆ_ＫＰ＋ＰＥ_ＫＰ（３）
上記の数式（３）において、ＰＥ_ＫＰは、Ｆ_ＫＰで該当特徴マップに対応する特徴の最後のレベル特徴マップ（言い換えれば、最後のレベル特徴）における位置を示し、ここで、Ｆ_ＫＰは、位置情報が含まれていない各エンコーダに対応する顔先験特徴行列を示す。例えば、Ｆ_ＫＰの一部の特徴Ｆ_ＫＰ１の最後のレベル特徴マップにおける対応特徴はＦ_ＫＰ０であり、ＰＥ_ＫＰは最後のレベル特徴マップにおけるＦ_ＫＰ０の位置を示す。

【0054】

また、入力交差アテンションモデルの値行列はＦ_ＫＰであってもよい。交差アテンションモデルの出力ＭＨＣＡ（Ｑ、Ｋ、Ｖ）は下記の数式（４）のように示す。

【0055】

【数1】

上記の数式（４）において、ｄ_ｋはキー行列の行ベクトルの次元である。

【0056】

電子装置は、交差アテンションモデルの出力に基づいて、レイヤ正規化レイヤ及びフィードフォワードネットワークレイヤを用いて、各エンコーダの融合されたイメージ特徴行列

【0057】

【数2】

を取得してもよい。本開示の一実施形態によれば、電子装置は、各エンコーダの対応するイメージ特徴行列及び顔先験特徴行列をマルチヘッドアテンションレイヤに入力することで融合されたイメージ特徴行列を取得し、このような交差アテンションメカニズムに基づいて取得した融合されたイメージ特徴行列は顔先験特徴情報を統合するため、顔イメージ特徴間の相関関係をさらによく反映することができる。

【0058】

説明の便宜上、オリジナル特徴マップの特徴に対応するオリジナル特徴マップのイメージ特徴行列の特徴位置は、オリジナル特徴マップのイメージ特徴行列の特徴位置に表現されてもよい。

【0059】

例えば、第３ネットワークを用いて現在エンコーダのアップデートされたイメージ特徴行列を取得する動作は、現在エンコーダの融合されたイメージ特徴行列のうち、各特徴の正規化位置を決定する動作（ここで、正規化位置は、対応する特徴マップ内の各特徴に対応する前記特徴マップ内の特徴の正規化位置を示す）、マルチレベル特徴マップの各特徴マップで予め設定された規則に応じて各特徴の正規化位置の近所でＫ個の正規化位置を決定する動作、現在エンコーダの融合されたイメージ特徴行列でマルチレベル特徴マップの各特徴マップのＫ個の正規化位置に対応するＬ×Ｋ個の特徴に対して加重合算を行って、現在エンコーダの融合されたイメージ特徴行列のうち各特徴に対応する特徴を現在エンコーダのアップデートされたイメージ特徴行列のうちの特徴として取得する動作を含み、ここで、Ｌは、マルチレベル特徴マップの特徴マップ個数であり、例えば、Ｌ＝４であってもよい。

【0060】

例えば、第３ネットワークは、変形可能なアテンションレイヤ（ｄｅｆｏｒｍａｂｌｅ－ａｔｔｅｎｔｉｏｎｌａｙｅｒ）、残余合算及びレイヤ正規化レイヤ（ｒｅｓｉｄｕａｌｓｕｍｍａｔｉｏｎａｎｄｌａｙｅｒｎｏｒｍａｌｉｚａｔｉｏｎｌａｙｅｒ）（Ａｄｄ＆Ｎｏｒｍ）及びフィードフォワードネットワークレイヤ（ＦＦＮ）を含んでもよい。

【0061】

以下では、第３ネットワークを用いてエンコーダのアップデートされたイメージ特徴行列で特徴を取得するための例示について説明する。

【0062】

例えば、第１ネットワークにより出力された融合されたイメージ特徴行列で、各特徴に該当するレイヤ情報及び位置情報は、以下の数式（５）により各特徴に挿入されて追加されてもよい。

【0063】

【数3】

上記の数式（５）において、Ｍ_ｉは、融合されたイメージ特徴行列におけるｉ番目の特徴を示し、Ｌ_ｉは、ｉ番目の特徴に対応するオリジナル特徴マップ（言い換えれば、マルチレベル特徴マップにおける一部レベル特徴マップ）を示し、Ｐ_ｉは、ｉ番目の特徴に対応するオリジナル特徴マップにおけるｉ番目の特徴に対応する特徴のオリジナル特徴マップにおける位置を示し、

【0064】

【数4】

は、レイヤ情報と位置情報が追加されたｉ番目の特徴を示す。

【0065】

例えば、正規化された座標を用いて該当オリジナル特徴マップで各特徴の空間的位置

【0066】

【数5】

を示し、ｒ_ｉは、融合されたイメージ特徴行列におけるｉ番目の特徴のその対応するオリジナル特徴マップにおける正規化された空間的位置を示す。例えば、（０，０）及び（１，１）は、それぞれオリジナル特徴マップの左側上段の上及び右側下段の特徴に該当する正規化された空間的位置を示す。このような正規化された座標は、関連特徴サンプリングのための基準点として使用されてもよい。

【0067】

例えば、融合されたイメージ特徴行列でＭ_ｉの場合、該当オリジナル特徴マップの正規化された座標はｒ_ｉであり、電子装置は、ｒ_ｉの周辺に複数の特徴をサンプリングしてＭｉを

【0068】

【数6】

にアップデートする。複数のサンプリング特徴に対応する正規化座標は、下記の数式（６）に表現されてもよい。

【0069】

【数7】

上記の数式（６）において、δ_ｉｋはオリジナル特徴マップでサンプリングされた特徴に対応する正規化された座標であり、

【0070】

【数8】

であり、ｋ＝１、…、Ｋであり、Ｋは予め設定された値であってもよい。

【0071】

電子装置は、多重サンプリング特徴に対応する正規化座標を決定した後、決定された正規化座標に基づいて融合されたイメージ行列とＰ_ｉｋに対応する特徴ｘ_ｉｋを決定し、下記の数式（７）を用いて

【0072】

【数9】

を決定し得る。

【0073】

【数10】

上記の数式（７）において、Ｗ_１とＷ_２は学習可能な加重値行列であり、α_ｉｋは下の数式（８）又は数式（９）から取得されてもよい。

【0074】

【数11】

【0075】

【数12】

例えば、電子装置は、ピラミッド特徴マップの第２レベル特徴マップの特徴Ｍ_ｃ０に対応する、融合されたイメージ特徴行列の一部の特徴Ｍ_ｃに対して、第２レベル特徴マップにおけるＭ_ｃ０の正規化位置ｒ_ｃｉを決定し、上の数式（６）に基づいてｒ_ｃｉの近くのＫ個座標を決定してもよい。ここで、該当Ｋ個座標は、第２レベル特徴マップでＫ個座標に対応し、該当のＫ個座標は、融合されたイメージ行列におけるＫ個の特徴に対応する。言い換えれば、融合されたイメージ特徴行列で、該当Ｋ個座標に対応するＫ個の特徴に対して、電子装置は上記の数式（７）を用いてＭ_ｃに対応するアップデートされた特徴

【0076】

【数13】

を演算することができる。

【0077】

前述のように、電子装置は

【0078】

【数14】

を演算する際に、Ｍ_ｉに対応するオリジナル特徴マップ（例えば、第２レベル特徴マップ）のみに基づいて融合されたイメージ特徴行列でＫ個の特徴をサンプリングし、

【0079】

【数15】

を取得することができる。

【0080】

他の実施形態として、電子装置は、マルチレベルイメージ特徴を統合するためにＭ_ｉに対して、各レベル特徴マップからＫ個の特徴をサンプリングし、下記の数式（１０）を通じて

【0081】

【数16】

を取得することができる。

【0082】

【数17】

上記の数式（１０）において、Ｌはマルチレベル特徴マップの個数（例えば、抽出されたピラミッド特徴マップが４レベル特徴マップである場合Ｌ＝４）であり、ｘ_ｉｊｋはｊ番目のレベル特徴マップに基づいて融合されたイメージ行列でサンプリングされたｋ番目の特徴を示す。ｘ_ｉｊｋに対応する位置座標はｒ_ｉ＋δ_ｉｊｋであり、ここで、δ_ｉｊｋは下の数式（１１）を介して

【0083】

【数18】

の線型投影を介して取得され得る。

【0084】

【数19】

例えば、電子装置は、融合されたイメージ特徴行列の一部の特徴Ｍ_ｃに対して、上記の数式（１１）を介して各レベル特徴マップのＫ個の座標を決定し、融合されたイメージ特徴行列のうち各レベル特徴マップのＫ個座標に対応するＫ個の特徴を決定してもよい。このような場合、電子装置は、融合されたイメージ特徴行列のうちＫ×Ｌ個の特徴を決定してもよく、数式（１０）に基づいてアップデートされた

【0085】

【数20】

を決定することができる。

【0086】

図４は、一実施形態に係る変形可能なアテンションメカニズム（ｄｅｆｏｒｍａｂｌｅａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ）に基づいてイメージ特徴行列をアップデートする動作を説明するための図である。

【0087】

図４では、融合されたイメージ特徴行列

【0088】

【数21】

に基づいて変形可能なアテンションメカニズムを用いてアップデートされたイメージ特徴行列

【0089】

【数22】

を取得する例示図が示されている。

【0090】

図４を参照すると、電子装置は、

【0091】

【数23】

のマルチレベル特徴マップに対応する特徴を用いて

【0092】

【数24】

の各レベル特徴マップに対応する特徴をアップデートし、これによって、特徴行列

【0093】

【数25】

の各特徴マップに対応する特徴を取得し得る。図４には、第３ネットワークレイヤの構造を説明するための例示が示されている。

【0094】

例えば、電子装置は

【0095】

【数26】

の一部の特徴に対して、

【0096】

【数27】

の第１レベル特徴マップに対応する特徴でＫ個の特徴を取得し、

【0097】

【数28】

の第２レベル特徴マップに対応する特徴でＫ個の特徴を取得し、

【0098】

【数29】

の第３レベル特徴マップに対応する特徴でＫ個の特徴を取得し、

【0099】

【数30】

の第１レベル特徴マップに対応する特徴でＫ個の特徴を取得し、取得した４Ｋ個の特徴に基づいて一部の特徴のアップデートされた特徴を

【0100】

【数31】

で一部の特徴に対応する特徴として決定することができる。従って、

【0101】

【数32】

で、例えば第１レベル特徴マップに対応する特徴は各レベル特徴マップの情報を含んでもよい。

【0102】

【数33】

の各特徴は、

【0103】

【数34】

のマルチレベル特徴マップに対応する特徴の情報を統合し、これにより、下位レベルの特徴マップに対応する情報をより円満に考慮することができるため、顔イメージのローカル特徴間の相関関係をより円満に反映することができる。

【0104】

本明細書で説明した各特徴マップに基づいてＫ個の特徴をサンプリングする方法は単に１つの例示であり、Ｋ又はＬ×Ｋ個の特徴を他の方法に基づいて収集して第２イメージ行列の特徴をアップデートすることも制限されずに適用することができる。

【0105】

例えば、融合されたイメージ特徴行列は、一部の特徴マップの特徴だけサンプリングしてアップデートされたイメージ特徴行列にアップデートされてもよい。

【0106】

例えば、各エンコーダの第２ネットワークは、セルフアテンションモデルをさらに含み、現在エンコーダのアップデートされた顔先特徴行列を取得する動作は、現在エンコーダに相当する顔先験特徴行列に基づいて、セルフアテンションモデルを用いて現在エンコーダに相当するセルフアテンション顔先験特徴行列を取得する動作、現在エンコーダに相当するセルフアテンション顔先験特徴行列及び現在エンコーダの融合されたイメージ特徴行列に基づいて、第１変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する動作を含んでもよい。

【0107】

例えば、セルフアテンションモデルは、カスケードされたセルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを含み、ここで、現在エンコーダのセルフアテンションの顔先験特徴行列を取得する動作は、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリ行列、キー行列及び値行列としてセルフアテンションレイヤに入力し、カスケードされたセルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを介して現在エンコーダのセルフアテンションの顔先験特徴行列を取得する動作を含んでもよい。ここで、第２変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する動作は、最後のレベル特徴マップで現在エンコーダのセルフアテンションの顔先験特徴行列のうち各特徴の正規化位置を決定する動作（ここで、正規化位置は、最後のレベル特徴マップで各特徴に対応する最後のレベル特徴マップにおける特徴の正規化位置を示す）、予め設定された規則に応じて最終レベル特徴マップで正規化位置の近所のＫ個の正規化位置を決定する動作、現在エンコーダのアップデートされたイメージ特徴行列でＫ個の正規化位置に対応するＫ個の特徴を決定し、Ｋ個の特徴に対する加重値を合算してセルフアテンションの顔先験特徴行列のうち各特徴に対応する特徴を現在エンコーダのアップデートされた顔先験特徴行列の特徴として取得する動作を含んでもよい。

【0108】

図５は、一実施形態に係る第２ネットワークレイヤの構造を説明するための図である。

【0109】

図５を参照すると、先ず、電子装置は、セルフアテンションモデルに基づいてセルフアテンションの顔先験特徴行列

【0110】

【数35】

を取得する。ここで、セルフアテンションモデルは、セルフアテンションレイヤ、正規化レイヤ（Ａｄｄ＆Ｎｏｒｍ）、及びフィードフォワードネットワークレイヤ（ＦＦＮ）を含む。入力されたセルフアテンションレイヤのクエリ行列、キー行列、及び値行列は、それぞれ位置情報が内蔵されている各エンコーダに該当する顔先験特徴行列、位置情報が内蔵されている各エンコーダに該当する顔先験特徴行列、及び各エンコーダに該当する顔先験特徴行列であってもよい。電子装置は、セルフアテンションメカニズムに基づいて顔先験特徴行列をアップデートすれば顔先験特徴間の従属性を学習し得る。したがって、セルフアテンションメカニズムに基づいて取得したセルフアテンションの顔先験特徴は、顔先験特徴の構造的情報を反映することができ、入力イメージをよりよく表現することができる。

【0111】

セルフアテンションモデルのセルフアテンションレイヤ出力

【0112】

【数36】

は下記の数式（１２）に表現されてもよい。

【0113】

【数37】

上記の数式（１２）において、Ｑ、Ｋ、Ｖはそれぞれセルフアテンションレイヤに入力されるクエリ行列、キー行列、及び値行列を示す。

【0114】

電子装置は、

【0115】

【数38】

に基づいてレイヤ正規化レイヤ（Ａｄｄ＆Ｎｏｒｍ）とフィードフォワードネットワークレイヤ（ＦＦＮ）を用いて

【0116】

【数39】

を取得することができる。

【0117】

その次に、電子装置は、

【0118】

【数40】

に基づいて、変形可能なアテンションメカニズムを用いてアップデートされた顔先験特徴行列

【0119】

【数41】

を取得してもよい。

【0120】

図２を参照すると、変形可能なアテンションモデルは、変形可能なアテンションレイヤ、レイヤ正規化レイヤ（ＬＮ）、及びフィードフォワードネットワークレイヤ（ＦＦＮ）を含む。

【0121】

以下、アップデートされた顔先験特徴行列

【0122】

【数42】

に対する演算プロセスの例示について説明する。

【0123】

例えば、電子装置は、セルフアテンションの顔先験特徴行列の特徴

【0124】

【数43】

に対して、先ずその対応するオリジナル特徴マップ（言い換えれば、最後のレベル特徴マップ）におけるオリジナル特徴マップの特徴の正規化位置を決定することができる。例えば、（０，０）及び（１，１）は、それぞれ最後のレベル特徴マップで左側上段及び右側下段の最後のレベル特徴マップにおける特徴の空間的位置ｒ_ｉｍを示す。

【0125】

その次に、電子装置は下の数式（１３）により、ｒ_ｉｍ周辺のＫ個の位置を決定する。

【0126】

【数44】

上の数式（１３）において、

【0127】

【数45】

は

【0128】

【数46】

であり、

【0129】

【数47】

はｆ_ｉｍに対応する内蔵されている位置情報の顔先験特徴を示す。

【0130】

電子装置は、融合されたイメージ特徴行列で該当Ｋ個位置に該当する特徴を決定することができる。例えば、融合されたイメージ特徴行列には、最終レベル特徴マップの各正規化位置にそれぞれ該当する特徴が存在し、Ｋ個の正規化位置に基づいて融合されたイメージ特徴行列のＫ個の特徴が決定されてもよい。

【0131】

その次に、ｆ_ｉｍは、下の数式（１４）を基盤に該当Ｋ個の特徴に基づいて、アップデートされた顔先験特徴行列のうちｆ_ｉｍに対応する特徴として、

【0132】

【数48】

にアップデートされることができる。

【0133】

【数49】

上記の数式（１４）において、Ｗは学習可能な加重値行列であり、

【0134】

【数50】

であり、又は

【0135】

【数51】

であってもよい。

【0136】

図６は、一実施形態に係る顔イメージの超解像度イメージ及び／又は顔イメージのキーポイント座標を取得する動作を説明するための図である。

【0137】

図６を参照すると、カスケードされたＴ個のエンコーダは、最後のエンコーダのアップデートされたイメージ特徴行列及び／又はアップデートされた顔先験特徴行列を取得することができる。電子装置は、アップサンプリングネットワークを介して第１オフセットを取得して顔イメージの超解像度イメージを取得し、及び／又はキーポイント予測ネットワークを介して第２オフセットを取得して予測された顔イメージのキーポイント座標を取得し得る。

【0138】

例えば、電子装置は、最後のエンコーダのアップデートされたイメージ特徴行列で第１レベルの特徴マップに対応する特徴を切り出し、畳み込みレイヤとピクセルシャッフルレイヤ（ｐｉｘｅｌｓｈｕｆｆｌｅｌａｙｅｒ）を介して第１レベルの特徴マップに対応する特徴に対してアップサンプリング及び増幅することで、超解像度イメージＩ_ＳＲ及びＬＲイメージＩ_ＬＲ（言い換えれば、入力イメージ）間のオフセットＩ_ｏｆｆを取得することができる。電子装置は、下記の数式（１５）に基づいて超解像度イメージを取得できる。

【0139】

【数52】

例えば、電子装置は、下記の数式（１６）に基づいてＭＬＰ（Ｍｕｌｔｉ－ｌａｙｅｒＰｅｒｃｅｐｔｒｏｎ）を介して予測された顔イメージのキーポイント座標及び初期の顔イメージのキーポイント座標間のオフセットＰ_ｏｆｆを取得し得る。

【0140】

【数53】

上記の数式（１６）において、

【0141】

【数54】

は最後のエンコーダの顔先験特徴行列を示す。

【0142】

例えば、電子装置はＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）の活性化関数がある３レイヤ完全接続ネットワークを用いてＰ_ｏｆｆを取得し得る。ここで、前の２つのレイヤは、ＲｅＬＵ活性化関数が続く線型完全接続から構成され、最後のレイヤは、完全接続を介してＰ_ｏｆｆを直接出力してもよい。

【0143】

Ｐ_ｏｆｆが取得された後、顔イメージの予測されたキーポイント座標は、以下の数式（１７）により取得することができる。

【0144】

【数55】

上の数式（１７）において、σはσ関数を示し、Ｐ_ｒｅｆは顔イメージの初期キーポイント座標を示す。

【0145】

例えば、超解像度イメージ及び／又は予測された顔イメージのキーポイント座標を取得するために使用される全体モデルは、ＦＳＲのためのＬｏｓｓ関数と顔マーキングのためのＬｏｓｓ関数を共に用いてトレーニングされてもよい。

【0146】

例えば、ＦＳＲの損失にはピクセル損失（Ｐｉｘｅｌｌｏｓｓ）、敵対的損失（Ａｄｖｅｒｓａｒｉａｌｌｏｓｓ）及び知覚損失（Ｐｅｒｃｅｐｔｕａｌｌｏｓｓ）が含まれ、顔マーキングの損失には一貫性損失（Ｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓ）及び分離制約（Ｓｅｐａｒａｔｉｏｎｃｏｎｓｔｒａｉｎｔ）が含まれてもよい。

【0147】

ＦＳＲは、低解像度の顔イメージを高解像度の顔イメージに復元することができ、低解像度学習イメージをＦＳＲネットワークに入力し、対応する高解像度正解イメージを取得することができるようにＦＳＲネットワークがトレーニングされる。そのため、追加的な顔先験情報なしにＦＳＲネットワークの複雑度を減らし、ＦＳＲ性能を効率よく向上させることができる。

【0148】

図１～図６を参照して本開示の実施形態に係る電子装置での顔イメージ処理方法について説明した。以下、図７を参照して本開示の実施形態に係る顔イメージを処理する電子装置について説明する。

【0149】

図７は、一実施形態に係る電子装置を示す図である。

【0150】

図７を参照すると、顔イメージを処理する電子装置７００は、第１取得モデル７０１、第２取得モデル７０２、及び第３取得モデル７０３を含む。電子装置７００は、１つ以上のプロセッサ７０４及び１つ以上のメモリ７０５をさらに含んでもよい。１つ以上のプロセッサ７０４は命令を実行し、１つ以上のメモリ７０５は命令及びイメージデータを格納してもよい。１つ以上のプロセッサ７０４による命令の実行は、１つ以上のプロセッサ７０４により第１取得モデル７０１、第２取得モデル７０２及び第３取得モデル７０３を動作させ得る。但し、電子装置７００は、前述した例に制限されず、他の構成要素を追加的に含んでもよく、電子装置７００の１つ以上の構成要素が分割又は結合されてもよい。

【0151】

例えば、第１取得モデル７０１は、顔イメージのマルチレベル特徴マップに基づいて顔イメージの初期イメージ特徴行列を取得してもよい。

【0152】

例えば、第２取得モデル７０２は、マルチレベル特徴マップの最後のレベル特徴マップに基づいて顔イメージの初期顔先験特徴行列を取得してもよい。

【0153】

例えば、第３取得モデル７０３は、初期イメージ特徴行列及び初期顔先験特徴行列に基づいてカスケードされた１つ以上のエンコーダを用いて、顔イメージの超解像度イメージ及び／又は顔イメージのキーポイント座標を取得してもよい。

【0154】

例えば、第３取得モデル７０３は、１つ以上のエンコーダに含まれた交差アテンションモデルを用いて、初期イメージ特徴行列及び初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得し、１つ以上のエンコーダに含まれた第１変形可能なアテンションモデルを用いて、融合されたイメージ特徴行列に基づいて顔イメージのアップデートされたイメージ特徴行列を取得し、アップデートされたイメージ特徴行列及び顔イメージに基づいて顔イメージの超解像度イメージを取得してもよい。

【0155】

例えば、第３取得モデル７０３は、１つ以上のエンコーダに含まれた交差アテンションモデルを用いて、初期イメージ特徴行列及び初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得し、１つ以上のエンコーダに含まれた第２変形可能なアテンションモデルを用いて、融合されたイメージ特徴行列及び初期顔先験特徴行列に基づいて顔イメージのアップデートされた顔先験特徴を取得し、アップデートされた顔先験特徴及び顔イメージの初期キーポイント座標に基づいて、顔イメージのキーポイント座標を予測してもよい。ここで、顔イメージの初期キーポイント座標は、初期顔先験特徴行列に基づいて取得されてもよい。

【0156】

例えば、１つ以上のエンコーダそれぞれは第１ネットワーク、第２ネットワーク、及び第３ネットワークを含み、第１ネットワークは交差アテンションモデルを含み、第２ネットワークは第１変形可能なアテンションモデルを含み、第３ネットワークは第２変形可能なアテンションモデルを含む。

【0157】

例えば、第３取得モデル７０３は、それぞれのエンコーダに対して、現在エンコーダに対応するイメージ特徴行列及び顔先験特徴行列に基づいて、第１ネットワークを用いて現在エンコーダの融合されたイメージ特徴行列を取得し、現在エンコーダの融合されたイメージ特徴行列及び現在エンコーダに対応する顔先験特徴行列に基づいて、第２ネットワークを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得し、現在エンコーダの融合されたイメージ特徴行列に基づいて、第３ネットワークを用いて現在エンコーダのアップデートされたイメージ特徴行列を取得してもよい。第３取得モデル７０３は、１つ以上のエンコーダの最後のエンコーダのアップデートされたイメージ特徴行列及び顔イメージに基づいて、顔イメージの超解像度イメージを取得したり、及び／又は、最後のエンコーダのアップデートされた顔先験特徴行列及び顔イメージの初期キーポイント座標に基づいて、顔イメージのキーポイント座標を予測してもよい。ここで、現在エンコーダが１つ以上のエンコーダのうち最初のエンコーダである場合、現在エンコーダに対応するイメージ特徴行列は初期イメージ特徴行列であり、現在エンコーダに対応する顔先験特徴行列は初期顔先験特徴行列であってもよい。現在エンコーダが最初のエンコーダでない場合、現在エンコーダに対応するイメージ特徴行列は、現在エンコーダの以前エンコーダのアップデートされたイメージ特徴行列であり、現在エンコーダに対応する顔先験特徴行列は、現在エンコーダの以前エンコーダのアップデートされた顔先験特徴行列であってもよい。

【0158】

例えば、第３取得モデル７０３は、カスケードされた最後のエンコーダに対応するアップデートされたイメージ特徴行列に基づいて、アップサンプリング増幅ネットワークを用いて第１オフセットを求め、第１オフセットと顔イメージに基づいて超解像度イメージを取得し、及び／又はカスケードされた最後のエンコーダに対応するアップデートされた顔先験特徴行列に基づいて、キーポイント予測ネットワークを用いて第２オフセットを求め、第２オフセットと顔イメージの初期キーポイント座標に基づいて予測された顔イメージのキーポイント座標を取得し得る。ここで、顔イメージの初期キーポイント座標は、初期顔先験特徴行列を完全に接続されて取得し得る。

【0159】

例えば、各エンコーダの第１ネットワークは、レベル正規化レイヤ及びフィードフォワードネットワークレイヤをさらに含んでもよい。

【0160】

例えば、第３取得モデル７０３は、位置情報が内蔵されている現在エンコーダに対応するイメージ特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリベクトル、キーベクトル、及び値ベクトルとして交差アテンションモデルに入力し、カスケードされた交差アテンションモデル、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを介して現在エンコーダの融合されたイメージ特徴行列を取得し得る。

【0161】

例えば、第３取得モデル７０３は、現在エンコーダの融合されたイメージ特徴行列のうち、各特徴の正規化位置を決定し（ここで、正規化位置は、対応する特徴マップ内の各特徴に対応する前記特徴マップ内の特徴の正規化位置を示す）、マルチレベル特徴マップの各特徴マップで予め設定された規則に応じて各特徴の正規化位置の近所のＫ個の正規化位置を決定し、現在エンコーダの融合されたイメージ特徴行列でマルチレベル特徴マップの各特徴マップのＫ個の正規化位置に対応するＬ×Ｋ個の特徴に対して加重合算を行い、現在エンコーダの融合されたイメージ特徴行列のうち、各特徴に対応する特徴を現在エンコーダのアップデートされたイメージ特徴行列のうちの特徴として取得してもよい。ここで、Ｌは、マルチレベル特徴マップの特徴マップ個数であってもよい。

【0162】

例えば、各エンコーダの第２ネットワークはセルフアテンションモデルをさらに含み、ここで、第３取得モデルは、現在エンコーダに対応する顔先験特徴行列に基づいて、セルフアテンションモデルを用いて現在エンコーダに対応するセルフアテンションの顔先験特徴行列を取得し、現在エンコーダに対応するセルフアテンションの顔先験特徴行列及び現在エンコーダの融合されたイメージ特徴行列に基づいて、第１変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得し得る。

【0163】

例えば、セルフアテンションモデルは、カスケードされたセルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを含んでもよい。例えば、第３取得モデル７０３は、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリ行列、キー行列、及び値行列としてセルフアテンションレイヤに入力し、カスケードされたセルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを介して現在エンコーダのセルフアテンションの顔先験特徴行列を取得し、最後のレベル特徴マップで現在エンコーダのセルフアテンションの顔先験特徴行列のうち、各特徴の正規化位置を決定し（ここで、正規化位置は、最後のレベル特徴マップで各特徴に対応する最後のレベル特徴マップにおける特徴の正規化位置を示す）、予め設定された規則に応じて最終レベル特徴マップで正規化位置の近所のＫ個の正規化位置を決定し、現在エンコーダのアップデートされたイメージ特徴行列でＫ個の正規化位置に対応するＫ個の特徴を決定し、Ｋ個の特徴に対する加重値を合算してセルフアテンションの顔先験特徴行列のうち、各特徴に対応する特徴を現在エンコーダのアップデートされた顔先験特徴行列の特徴として取得し得る。

【0164】

本開示の実施形態によれば、電子装置を提供し、電子装置は、プロセッサ及びコンピュータプログラムを格納するメモリを含み、コンピュータプログラムはプロセッサによって行われるとき、顔イメージ処理方法を実現することができる。

【0165】

一実施形態によれば、電子デバイス７００は、メモリ（図示せず）及びプロセッサ（図示せず）を含んでもよい。

【0166】

メモリは、コンピュータで読出し可能なインストラクションを含んでもよい。プロセッサは、メモリに格納されたインストラクションがプロセッサで行われるため、前述の動作を実行することができる。メモリは、揮発性メモリ又は不揮発性メモリであってもよい。

【0167】

プロセッサは、命令、あるいはプログラムを実行したり、電子装置７００を制御する装置として、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＮＰＵ（ＮｅｕｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を含むが、前述した例に限定されない。

【0168】

その他に、電子装置７００に関しては上述された動作を処理し得る。

【0169】

以上で説明した実施形態は、ハードウェアコンポーネント、ソフトウェアコンポーネント、及び／又はハードウェアコンポーネント及びソフトウェアコンポーネントの組み合わせで具現化されることができる。例えば、実施形態で説明する適応スーパーサンプリング装置、方法及びコンポーネントは、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（Ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ又はコマンドを実行して応答できる他の適応型スーパーサンプリング装置のように汎用コンピュータ又は特殊目的のコンピュータを使用して具現化することができる。処理適応的スーパーサンプリング装置は、オペレーティングシステム（ＯＳ）及び上記オペレーティングシステム上で実行されるソフトウェアアプリケーションを実行することができる。また、処理適応的スーパーサンプリング装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成してもよい。理解の便宜のために、処理適応的スーパーサンプリング装置は１つが使用されるものと説明された場合もあるが、当該の技術分野で通常の知識を有する者は、処理適応的スーパーサンプリング装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数タイプの処理要素を含み得ることが分かる。例えば、処理適応スーパーサンプリング装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含んでもよい。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成（ｐｒｏｃｅｓｓｉｎｇｃｏｎｆｉｇｕｒａｔｉｏｎ）も可能である。

【0170】

ソフトウェアは、コンピュータプログラム（ｃｏｍｐｕｔｅｒｐｒｏｇｒａｍ）、コード（ｃｏｄｅ）、命令（ｉｎｓｔｒｕｃｔｉｏｎ）、又はそのいずれかの組み合わせを含んでもよく、希望のように処理適応的スーパーサンプリング装置を構成したり独立的又は結合的に（ｃｏｌｌｅｃｔｉｖｅｌｙ）処理適応的スーパーサンプリング装置を命令することができる。ソフトウェア及び／又はデータは、処理適応スーパーサンプリング装置によって解釈されるか、処理適応スーパーサンプリング装置に命令又はデータを提供するために、いずれかのタイプの機械、コンポーネント、物理適応スーパーサンプリング装置、仮想適応スーパーサンプリング装置、コンピュータ記憶媒体、又は適応スーパーサンプリング装置、又は送信される信号波に永久的に具体化することができる。ソフトウェアは、ネットワーク接続されたコンピュータシステム上に分散され、分散された方法で格納又は実行されてもよい。ソフトウェア及びデータは、コンピュータ読み取り可能な記録媒体に格納することができる。

【0171】

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現化され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。

【0172】

上記で説明したハードウェア適応的スーパーサンプリング装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモデルとして作動するように構成してもよく、その逆も同様である。

【0173】

上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順に実行され、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態に結合又は組み合わせられてもよく、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

【0174】

したがって、他の具現化、他の実施形態及び特許請求の範囲と均等なものも後述する特許請求範囲の範囲に属する。

【図1】