IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

特許7592160画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム
<>
  • 特許-画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム 図1
  • 特許-画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム 図2
  • 特許-画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム 図3
  • 特許-画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム 図4
  • 特許-画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム 図5
  • 特許-画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム 図6
  • 特許-画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム 図7
  • 特許-画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム 図8
  • 特許-画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム 図9
  • 特許-画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-21
(45)【発行日】2024-11-29
(54)【発明の名称】画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム
(51)【国際特許分類】
   G06T 7/70 20170101AFI20241122BHJP
   G06T 7/00 20170101ALI20241122BHJP
   G06V 10/82 20220101ALI20241122BHJP
   G06V 10/774 20220101ALI20241122BHJP
   H04N 7/18 20060101ALI20241122BHJP
   H04N 7/15 20060101ALI20241122BHJP
【FI】
G06T7/70 B
G06T7/00 350C
G06V10/82
G06V10/774
H04N7/18 K
H04N7/15
【請求項の数】 15
(21)【出願番号】P 2023521165
(86)(22)【出願日】2021-12-23
(65)【公表番号】
(43)【公表日】2023-10-26
(86)【国際出願番号】 CN2021140902
(87)【国際公開番号】W WO2022148248
(87)【国際公開日】2022-07-14
【審査請求日】2023-04-05
(31)【優先権主張番号】202110014666.2
(32)【優先日】2021-01-06
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】余 ▲曉▼▲銘▼
(72)【発明者】
【氏名】周 易
(72)【発明者】
【氏名】易 ▲陽▼
(72)【発明者】
【氏名】▲塗▼ 娟▲輝▼
(72)【発明者】
【氏名】李 峰
(72)【発明者】
【氏名】左 小祥
【審査官】藤原 敬利
(56)【参考文献】
【文献】特開2019-148980(JP,A)
【文献】特開2020-025261(JP,A)
【文献】米国特許出願公開第2019/0266701(US,A1)
【文献】Harsimran Kaur;Roberto Manduchi,Subject Guided Eye Image Synthesis with Application to Gaze Redirection,2021 IEEE Winter Conference on Applications of Computer Vision (WACV),IEEE,2021年01月03日,11-20,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9423373
【文献】テレビ会議話者間の視線一致知覚のための目領域合成手法,電気学会論文誌C Vol.138 No.11,一般社団法人電気学会,2018年11月01日,1399~1409
【文献】Tongtong Zhao;Yuxiao Yan;Ibrahim Shehi Shehu;HaoHui Wei;Xianping Fu,Image Purification through Controllable Neural Style Transfer,2018 International Conference on Information and Communication Technology Convergence (ICTC),IEEE,2018年10月17日,466-471,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8539637
【文献】汎用性の獲得に向けた機械学習フレームワーク,人工知能 第34巻 第5号,人工知能学会,2019年09月01日,720~727
【文献】Chuanqi Tan, Fuchun Sun, Tao Kong, Wenchang Zhang, Chao Yang, Chunfang Liu,A Survey on Deep Transfer Learning,arXiv:1808.01974,2018年08月06日,https://arxiv.org/pdf/1808.01974.pdf,https://doi.org/10.48550/arXiv.1808.01974
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00- 7/90
G06V 10/00-20/90
G06V 40/16,40/20
H04N 7/10
H04N 7/14- 7/56
H04N 21/00-21/858
(57)【特許請求の範囲】
【請求項1】
電子機器が実行する画像処理モデルの訓練方法であって、
画像処理モデルの使用環境にマッチングする矯正対象目画像セットを取得するステップと、
前記画像処理モデルに含まれるスタイル転移ネットワークによって、前記矯正対象目画像セットにおける矯正対象目画像に対してスタイル転移処理を行い、ターゲット目画像を得るステップと、
3Dモデリングを使用して合成目を構成し、前記合成目より、合成された矯正対象目画像と、合成された矯正目画像とからなる合成目データ対を得るステップと、
前記画像処理モデルに含まれる前記スタイル転移ネットワークによって、前記合成目データ対から、実スタイルの矯正対象目画像と、実スタイルの矯正目画像とからなる実スタイルの合成目データ対を得るステップと、
前記矯正対象目画像と前記ターゲット目画像に基づいて、前記画像処理モデルの使用環境にマッチングする訓練サンプルを取得するステップであって、前記訓練サンプルは、異なる視線位置にマッチングする対象の目画像と、前記実スタイルの合成目データ対とを含む、ステップと、
前記画像処理モデルの使用環境にマッチングする訓練サンプルを用いて、前記画像処理モデルに含まれる矯正ネットワークを訓練し、前記矯正ネットワークに適合したモデル更新パラメータを得、前記モデル更新パラメータに基づいて訓練された画像処理モデルを生成するステップと、を含み、
使用環境における目画像は前記訓練された画像処理モデルによって矯正される、画像処理モデルの訓練方法。
【請求項2】
前記画像処理モデルの使用環境にマッチングする矯正対象目画像セットを取得するステップは、
収集機器によって収集された顔画像を取得するステップであって、前記収集機器は前記画像処理モデルの使用環境にある、ステップと、
前記顔画像に対して画像増強処理を行い、画像増強の処理結果を得るステップと、
前記画像増強の処理結果における顔位置座標を決定し、前記顔位置座標に基づいて、完全な目画像を含む顔画像を切り取るステップと、
前記画像処理モデルに含まれる深度処理ネットワークによって、前記完全な目画像を含む顔画像に対して深度処理を行い、前記顔画像の深度マップを得、前記深度マップを、前記画像処理モデルの使用環境にマッチングする矯正対象目画像として使用し、複数の前記矯正対象目画像のセットを前記矯正対象目画像セットとして使用するステップと、を含む、請求項1に記載の画像処理モデルの訓練方法。
【請求項3】
前記画像処理モデルに含まれるスタイル転移ネットワークによって、前記矯正対象目画像セットにおける矯正対象目画像に対してスタイル転移処理を行い、ターゲット目画像を得るステップは、
前記画像処理モデルの使用環境に基づいて、前記画像処理モデルの使用環境に対応する参照スタイル転移ネットワークのモデルパラメータを決定するステップと、
前記参照スタイル転移ネットワークのモデルパラメータに基づいて、前記画像処理モデルに含まれるスタイル転移ネットワークのモデルパラメータを調整するステップと、
調整された前記スタイル転移ネットワークによって、前記矯正対象目画像セットにおける矯正対象目画像に対してスタイル転移処理を行い、ターゲット目画像を得るステップと、を含み、前記ターゲット目画像のスタイル特徴は、ターゲット対象の視線位置にマッチングする、請求項1に記載の画像処理モデルの訓練方法。
【請求項4】
前記画像処理モデルの使用環境にマッチングする訓練サンプルを用いて、前記画像処理モデルに含まれる矯正ネットワークを訓練し、前記矯正ネットワークに適合したモデル更新パラメータを得るステップは、
前記画像処理モデルに含まれる矯正ネットワークのエンコーダとデコーダによって、前記訓練サンプルを処理し、前記矯正ネットワークのエンコーダとデコーダの初期パラメータを得るステップと、
前記矯正ネットワークのエンコーダとデコーダの初期パラメータに基づいて、前記訓練サンプルを処理し、前記矯正ネットワークのエンコーダとデコーダの更新パラメータを得るステップと、
前記矯正ネットワークのエンコーダとデコーダの更新パラメータに基づいて、前記訓練サンプルよって前記矯正ネットワークのエンコーダとデコーダのパラメータを反復的に更新し、前記矯正ネットワークに適合したエンコーダとデコーダのモデル更新パラメータを得るステップと、を含む、請求項1に記載の画像処理モデルの訓練方法。
【請求項5】
前記矯正ネットワークのエンコーダとデコーダの初期パラメータに基づいて、前記訓練サンプルを処理し、前記矯正ネットワークのエンコーダとデコーダの更新パラメータを得るステップは、
前記訓練サンプルを前記矯正ネットワークのエンコーダとデコーダに対応する損失関数に代入するステップと、
前記損失関数が、対応する収束条件を満たす場合、前記矯正ネットワークのエンコーダとデコーダが前記更新パラメータに対応することを決定するステップと、を含む、請求項4に記載の画像処理モデルの訓練方法。
【請求項6】
前記画像処理モデルの訓練方法は、
前記画像処理モデルの使用環境における収集機器によって収集された顔画像を取得し、前記顔画像に対してランダム増強処理を行うステップと、
ランダム増強処理された前記顔画像に対してランダム歪み処理を行い、歪んだ前記顔画像を得るステップと、
歪んだ前記顔画像の目画像を切り取り、前記切り取られた目画像に対してスケーリング処理を行い、前記矯正対象目画像セット内のいずれか1つの矯正対象目画像を得るステップと、を更に含み、前記いずれか1つの矯正対象目画像は、前記画像処理モデルにおけるエンコーダによってサポートされる入力解像度に適合する、請求項1に記載の画像処理モデルの訓練方法。
【請求項7】
前記顔画像に対してランダム増強処理を行うステップは、
前記顔画像の中心に基づいてランダムに回転するステップと、
ランダムに回転された前記顔画像をランダムにスケーリングするステップと、
ランダムにスケーリングされた前記顔画像をランダムに平行移動するステップと、を含む、請求項6に記載の画像処理モデルの訓練方法。
【請求項8】
前記ランダム増強処理された前記顔画像に対してランダム歪み処理を行うステップは、
ランダム増強処理された前記顔画像にノイズを挿入するステップを含み、前記ノイズは、固定ノイズと動的ノイズのうちの少なくとも1つを含む、請求項6に記載の画像処理モデルの訓練方法。
【請求項9】
電子機器が実行する画像処理方法であって、
ターゲット対象の顔画像を取得するステップと、
前記ターゲット対象の顔画像に基づいて、対応する矯正対象目画像を決定するステップであって、前記矯正対象目画像は、前記ターゲット対象の左目画像と右目画像とを含む、ステップと、
画像処理モデルによって前記矯正対象目画像に対して矯正処理を行い、矯正された前記目画像を得るステップと、
前記顔画像における矯正対象目画像を矯正された前記目画像に置換するステップと、を含み、
前記画像処理モデルは、請求項1ないし8のいずれか一項に記載の画像処理モデルの訓練方法に基づいて訓練することにより得られる、画像処理方法。
【請求項10】
前記画像処理方法は、
人間とコンピュータのインタラクションインターフェースに目画像矯正機能オプションを呈するステップと、
前記目画像矯正機能オプションに対するトリガ操作に応答して、前記ターゲット対象を含む矯正対象目画像を取得して呈するステップと、
前記矯正対象目画像に基づいてトリガされた変換決定操作に応答して、ターゲット目画像テンプレートのターゲット目画像を生成して呈するステップと、を更に含み、前記ターゲット目画像テンプレートのターゲット目画像は、前記矯正対象目画像における目部位を、前記ターゲット目画像テンプレートにおける目部位に置換することによって生成された画像である、請求項9に記載の画像処理方法。
【請求項11】
前記画像処理方法は、
人間とコンピュータのインタラクションインターフェースに、前記顔画像を共有するための画像共有機能オプションを呈するステップと、
前記画像共有機能オプションに対するトリガ操作に応答して、調整された前記顔画像を共有するステップと、を更に含む、請求項9に記載の画像処理方法。
【請求項12】
請求項1から8のいずれか一項に記載の画像処理モデルの訓練方法を実行する、画像処理モデルの訓練装置。
【請求項13】
画像処理装置であって、
ターゲット対象の顔画像を取得するように構成される第2情報伝送モジュールと、
前記ターゲット対象の顔画像に基づいて、対応する矯正対象目画像を決定するように構成される情報処理モジュールと、を備え、前記矯正対象目画像は、前記ターゲット対象の左目画像と右目画像とを含み、
前記情報処理モジュールは、画像処理モデルによって、前記矯正対象目画像に対して矯正処理を行い、矯正された前記目画像を得るように構成され、
前記情報処理モジュールは、前記顔画像における矯正対象目画像を矯正された前記目画像に置換するように構成され、
前記画像処理モデルは、請求項1ないし8のいずれか一項に記載の画像処理モデルの訓練方法に基づいて訓練することにより得られる、画像処理装置。
【請求項14】
実行可能な命令を記憶するメモリと、
前記メモリに記憶された実行可能な命令を実行するとき、請求項1ないし8のいずれか一項に記載の画像処理モデルの訓練方法、又は請求項9ないし11のいずれか一項に記載の画像処理方法を実行するプロセッサと、を備える、電子機器。
【請求項15】
コンピュータに請求項1ないし8のいずれか一項に記載の画像処理モデルの訓練方法、又は請求項9ないし11のいずれか一項に記載の画像処理方法を実行させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への相互参照)
本願は、2021年01月06日に中国特許局に提出された、出願番号が202110014666.2である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。
【0002】
本願は、画像処理技術に関し、特に、画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム製品に関するものである。
【背景技術】
【0003】
ビデオ処理過程において、視線矯正(Gaze Correction)は、対象(例えば、実の人、動物、アニメのキャラクターなどのイメージ)の目を含む写真を処理することであり、ビデオにおける目の視線方向を変更することができる。対象が実の人であることを例として、視線矯正は、ビデオ通話などの交流シナリオにおいて実際の価値や幅広い前景を有する。しかし、目を含む画像又はビデオを収集するとき、画像又はビデオは、サイズ、解像度、視角、照明、テキスチャ、遮蔽などの側面で大きく変化するため、3Dモデリングに基づいてレンダリングされた画像は通常、テキスチャ及び材質上で実目画像と大きな差があり、自然さが足りなく、3D機器を使用して視線矯正を実現するハードウェアコストが高く、深度ニューラルネットワークによって視線矯正を実現するためには大規模な訓練サンプルを必要とし、サンプルの収集や注釈を行う必要があり、モデルの訓練効率が低く、それにより、関連する計算リソースの消費が大きくなってしまう。
【発明の概要】
【0004】
これを鑑みて、本願の実施例は、画像処理モデルの識別精度を保証しつつ、画像処理モデルの訓練効率を向上させ、関連する計算リソースを節約できる、画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム製品を提供する。
【0005】
本願の実施例の技術的解決策は、以下のように実現される。
【0006】
本願の実施例は画像処理モデルの訓練方法を提供し、前記方法は、
画像処理モデルの使用環境にマッチングする矯正対象目画像セットを取得するステップと、
前記画像処理モデルに含まれるスタイル転移ネットワークによって、前記矯正対象目画像セットにおける矯正対象目画像に対してスタイル転移処理を行って、ターゲット目画像を得るステップと、
前記矯正対象目画像と前記ターゲット目画像に基づいて、前記画像処理モデルの使用環境にマッチングする訓練サンプルを取得するステップであって、ここで、前記訓練サンプルは、異なる視線位置にマッチングする対象の目画像を含む、ステップと、
前記画像処理モデルの使用環境にマッチングする訓練サンプルを用いて、前記画像処理モデルに含まれる矯正ネットワークを訓練し、前記矯正ネットワークに適合したモデル更新パラメータを得、前記モデル更新パラメータに基づいて訓練された画像処理モデルを生成するステップと、を含み、
ここで、使用環境における目画像は前記訓練された画像処理モデルによって矯正される。
【0007】
本願の実施例は画像処理方法を提供し、前記方法は、
ターゲット対象の顔画像を取得するステップと、
前記ターゲット対象の顔画像に基づいて、対応する矯正対象目画像を決定するステップであって、ここで、前記矯正対象目画像は、前記ターゲット対象の左目画像と右目画像とを含む、ステップと、
画像処理モデルによって前記矯正対象目画像に対して矯正処理を行い、矯正された前記目画像を得るステップと、
前記顔画像における矯正対象目画像を矯正された前記目画像に置換するステップと、を含み、
ここで、前記画像処理モデルは、上記の画像処理モデルの訓練方法に基づいて訓練することにより得られる。
【0008】
本願の実施例は画像処理モデルの訓練装置を提供し、前記装置は、
画像処理モデルの使用環境にマッチングする矯正対象目画像セットを取得するように構成される第1情報伝送モジュールと、
前記画像処理モデルに含まれるスタイル転移ネットワークによって、前記矯正対象目画像セットにおける矯正対象目画像に対してスタイル転移処理を行い、ターゲット目画像を得るように構成される訓練モジュールと、を備え、
前記訓練モジュールは、前記矯正対象目画像と前記ターゲット目画像に基づいて、前記画像処理モデルの使用環境にマッチングする訓練サンプルを取得するように構成され、ここで、前記訓練サンプルは、異なる視線位置にマッチングする対象の目画像を含み、
前記訓練モジュールは、前記画像処理モデルの使用環境にマッチングする訓練サンプルを用いて、前記画像処理モデルに含まれる矯正ネットワークを訓練し、前記矯正ネットワークに適合したモデル更新パラメータを得、前記モデル更新パラメータに基づいて訓練された画像処理モデルを生成するように構成され、ここで、使用環境における目画像は前記訓練された画像処理モデルによって矯正される。
【0009】
本願の実施例は更に画像処理装置を提供し、前記装置は、
ターゲット対象の顔画像を取得するように構成される第2情報伝送モジュールと、
前記ターゲット対象の顔画像に基づいて、対応する矯正対象目画像を決定するように構成される情報処理モジュールと、を備え、ここで、前記矯正対象目画像は、前記ターゲット対象の左目画像と右目画像とを含み、
前記情報処理モジュールは、画像処理モデルによって、前記矯正対象目画像に対して矯正処理を行い、矯正された前記目画像を得るように構成され、
前記情報処理モジュールは、前記顔画像における矯正対象目画像を矯正された前記目画像に置換するように構成され、
ここで、前記画像処理モデルは、画像処理モデルの訓練方法に基づいて訓練することにより得られる。
【0010】
本願の実施例は電子機器を提供し、前記電子機器は、
実行可能な命令を記憶するメモリと、
前記メモリに記憶された実行可能な命令を実行するとき、上記の画像処理モデルの訓練方法、又は上記の画像処理方法を実行するためのプロセッサと、を備える。
【0011】
本願の実施例は、プロセッサによって実行されるとき、プロセッサに本願の実施例による画像処理モデルの訓練方法又は画像処理方法を実行させるための実行可能な命令を記憶した、コンピュータ可読記憶媒体を提供する。
本願の実施例は、コンピュータに上記の画像処理モデルの訓練方法、又は上記の画像処理方法を実行させるためのコンピュータプログラム又は命令を含む、コンピュータプログラム製品を提供する。
【0012】
本願の実施例は、以下の有益な効果を有する。
矯正対象目画像とターゲット目画像に基づいて、画像処理モデルの使用環境にマッチングする訓練サンプルを取得し、訓練サンプルによって画像処理モデルに含まれる矯正ネットワークを訓練して、訓練された画像処理モデルによって、使用環境における目画像を矯正し、画像処理モデルの識別精度を保証しつつ、画像処理モデルの訓練効率を向上させ、画像処理の複雑性を低下させ、それにより、関連する計算リソースを減少し、訓練精度を考慮しながら、画像処理モデルの汎化能力及びデータ処理能力を強化し、異なるデータ処理環境に適応し、画像処理モデルのロバスト性を増強させることができる。
【図面の簡単な説明】
【0013】
図1】本願の実施例による画像処理モデルの例示的な構造図である。
図2】本願の実施例による電子機器の構成の例示的な構造図である。
図3】本願による画像処理モデルの訓練方法の例示的なフローチャートである。
図4】本願の実施例の顔画像の取得の概略図である。
図5】本願による画像処理モデルのスタイル転移効果の概略図である。
図6】本願による画像処理モデルの訓練方法の例示的なフローチャートである。
図7】本願による画像処理方法の例示的なフローチャートである。
図8】本願の実施例の画像処理方法の使用シナリオの概略図である。
図9】本願の実施例の画像処理方法の使用シナリオの概略図である。
図10】本願の実施例の画像処理効果の比較概略図である。
【発明を実施するための形態】
【0014】
本願の目的、技術的解決策及び利点をより明確にするために、以下では、図面を参照して本願を更に詳細に説明し、説明される実施例は本願に対する制限と見なすべきではなく、創造的な努力なしに当業者によって取得される他のすべての実施例は、本願の保護範囲に含まれるものとする。
【0015】
以下の説明において、「いくつかの実施例」という用語は、すべての可能な実施例のサブセットを指し、理解できることとして、「いくつかの実施例」という用語は、すべての可能な実施例の同じサブセット又は異なるサブセットであってもよく、これらは、競合することなく互いに組み合わせることができる。
【0016】
本願実施例をさらに詳細に説明する前に、本願実施例に関する名詞および用語を説明し、本願実施例に関する名詞および用語は、以下の説明に適用可能である。
【0017】
1)「に応答して」という言葉は、実行されている操作が依存する条件又は状態を表すために使用され、依存する条件又は状態に満たす場合、実行される1つ又は複数の操作はリアルタイムであってもよく、設定された遅延を有してもよく、特に明記しない限り、実行される複数の操作には、実行の時間順序の制限はない。
【0018】
2)クライアントは、端末で特定の機能を実行するキャリアである。例えば、モバイルクライアント(APP)は、オンラインライブ(ビデオストリーミング)の機能やオンラインビデオの放送機能など、特定の機能を実行するモバイル端末におけるキャリアである。
【0019】
3)畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)は、畳み込み計算を含み、且つ深度構造を有するフィードフォワードニューラルネットワーク(Feed forward Neural Networks)であり、深度学習(deep learning)の代表的なアルゴリズムの1つである。畳み込みニューラルネットワークは表現学習(representation learning)能力を持ち、その段階的構造に従って入力情報に対してシフト不変クラス(shift-invariant classification)を行うことができる。
【0020】
4)モデル訓練は、画像データ集合に対してマルチクラス学習を行うことである。当該モデルは、Tensor Flow、torchなどの深度学習フレームワークを採用して構築され、CNNなどのニューラルネットワーク層の多層を使用して画像処理モデルを組み合わせて構成する。
【0021】
5)ニューラルネットワーク(NN:Neural Network)、人工ニューラルネットワーク(ANN:Artificial Neural Network)は、ニューラルネットワーク又は神経網とも呼ばれ、機械学習と認知科学分野において、生物のニューラルネットワーク(動物の中枢神経系、特に脳)の構造や機能を模した数学モデル又は計算モデルであり、関数の推定や近似に使用される。
【0022】
6)コンポーネント(Component)は、ミニプログラムのビューの機能モジュールであり、フロントエンドコンポーネントとも呼ばれ、画面内のボタン、タイトル、テーブル、サイドバー、コンテンツとフッターなどのコンポーネントは、ミニプログラムの異なる画面で繰り返して使用できるように、モジュール化されたコードを含む。
【0023】
7)ミニプログラム(Mini Program)は、フロントエンド指向の言語(例えばJavaScript)に基づいて開発された、ハイパーテキストマークアップ言語(HTML:Hyper Text Markup Language)画面でサービスを実現するプログラムであり、クライアント(例えば、ブラウザ又はブラウザコアを組み込んだ任意のクライアント)によってネットワーク(インターネットなど)を介してダウンロードされ、クライアントのブラウザ環境で解析して実行されるソフトウェアであり、クライアントにインストールする必要はない。例えば、音声命令で端末におけるミニプログラムをウェイクアップして、ソーシャルネットワーククライアントに、画像編集、人物の目画像矯正などの様々なサービス用のミニプログラムをダウンロードして実行できるようにしてもよい。
【0024】
本願の実施例による画像処理方法を紹介する前に、まず、関連技術における画像処理シナリオでの画像処理モデルについて説明し、ここで、画像処理モデルを介して、ターゲットユーザの目画像を矯正し、視線矯正の効果を達成することができる。
【0025】
この過程において、グラフィックベースの視線矯正方法と画素歪みベースの視線矯正方法で目画像を処理する。第1種類について、グラフィックベースの視線矯正方法とは、主に人工テキスチャを有する3D目モデルを使用して目と頭部の連続運動をシミュレーションし、動的と制御可能な目モデルを用いて幾何学的に大規模なレンダリングで目画像を描画することである。しかし、この方法によって合成された目画像は、実目画像と大きな差がある。その同時に、応用されるときには目の3Dモデルを必要とするが、3Dモデル構築のコストが高いため、このような方法は、実際の応用において限界がある。第2種類について、歪みベースの視線矯正方法とは、歪み関数を学習することで歪みの流れ場を予測し、それにより、元の目画像から視線矯正後の画像を直接に生成することである。例えば、粗さと細さの2段階処理、画像歪み、強度矯正などの操作原理を組み合わせた深度フォワードフィードバックシステムがある。ランダムフォレスト予測期間によって実行され、中央処理装置(CPU:Central Processing Unit)でリアルタイムに実行される目歪み場の方法は、歪み関数が姿勢に特化しているため、異なる視線方向と頭部姿勢を有する目画像を利用してよりリアルな画像を合成することができ、実際の応用における頭部姿勢と視線角度の変化に対処してきた。しかし、目画像には通常、複雑なテキスチャ、照明、遮蔽などの状況があり、これらの特定要素による影響は、全体的な補正操作で実現することは困難であり、また、3Dモデリングに基づいてレンダリングされた画像は通常、テキスチャ及び材質上で実目画像と大きな差があり、自然さが足りなく、3D機器を使用して視線矯正を実現するハードウェアコストが高く、深度ニューラルネットワークによって視線矯正を実現するためには大規模な訓練サンプルを必要とするため、サンプルの収集や注釈を行う必要があり、使用コストの増加を招く。
【0026】
上記の欠陥を解決するために、本願の実施例は、画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム製品を提供し、画像処理モデルの識別精度を保証しつつ、画像処理モデルの訓練効率を向上させ、関連する計算リソースを節約し、画像処理の複雑性を減少することができ、訓練精度を考慮しながら、画像処理モデルの汎化能力及びデータ処理能力を強化し、異なるデータ処理環境に適応し、画像処理モデルのロバスト性を増強させることができる。
【0027】
図1は、本願の実施例による画像処理モデルの訓練の使用シナリオの概略図であり、図1を参照すると、端末(端末10-1と端末10-2とを含む)には、画像処理機能を有するクライアント又はミニプログラムが配置され、本願の実施例の画像処理装置はサーバ200であり得、画像処理装置の画像処理結果を表示するものは様々なクライアントを実行する端末であり得、両者はネットワーク300によって接続され、ここで、ネットワーク300はワイドエリアネットワーク又はローカルエリアネットワークであってもよく、又は両方の組み合わせてあってもよく、無線リンクでデータ伝送を実行する。端末10-1が処理対象目画像を提出し、画像処理装置によって、画像変換機能オプションに対するトリガ操作に応答して、画像処理を実現し、端末10-1によって、矯正された目画像を取得して呈する(presenting)。
【0028】
本願の実施例において、端末10-2でビデオクライアントを実行することができ、ビデオクライアントは、ユーザが再生インタフェースインターフェース上の様々な人間とコンピュータのインタラクション(HCI:Human-Computer Interaction)方式(例えばジェスチャ、音声など)により指示した矯正対象目120及びターゲット顔110に基づいて、対応する画像処理要求をサーバに提出して、サーバ200の記憶媒体における実行可能な命令がプロセッサによって実行されるとき、本願による画像処理方法を実現し、対応する目画像矯正効果を達成する。例えば、上記の画像処理過程をサーバに転移し、ビデオ会議APPに依存するサーバのハードウェアリソースは置換された異なるフレームの画像に対して再符号化し、目画像矯正効果を有するビデオを形成して、ユーザに、インスタントメッセージクライアントアプレットで取得させ、又はユーザ端末10-1の異なるアプリケーションプロセスに共有することができる。
【0029】
一例として、サーバ200は、目矯正要求に応答して、端末によって収集されたターゲットユーザの顔画像を取得し、ターゲットユーザの顔画像に基づいて対応する矯正対象目画像を決定するための、画像処理モデルを配置するために使用され、ここで、矯正対象目画像は、ターゲットユーザの左目画像と右目画像とを含み、画像処理モデルによって、矯正対象目画像を処理し、矯正された目画像を取得し、顔画像における矯正対象目画像を矯正された目画像に置換し、もちろん、画像処理モデルによって異なる顔画像を処理して、対応する分類結果を生成する前に、更に、画像処理モデルを訓練する必要があり、具体的には、
画像処理モデルの使用環境にマッチングする矯正対象目画像セットを取得するステップと、画像処理モデルのスタイル転移ネットワークによって、矯正対象目画像セットにおける異なる矯正対象目画像をそれぞれ処理し、ターゲット目画像を形成するステップと、矯正対象目画像とターゲット目画像に基づいて、画像処理モデルの使用環境にマッチングする訓練サンプルを取得するステップであって、ここで、訓練サンプルは、異なる視線位置にマッチングするユーザの目画像を含む、ステップと、画像処理モデルの使用環境にマッチングする訓練サンプルセットによって、画像処理モデルの矯正ネットワークを訓練し、矯正ネットワークに適合したモデル更新パラメータを得、モデル更新パラメータに基づいて訓練された画像処理モデルを生成し、画像処理モデルによって使用環境における目画像を矯正するステップと、を含む。
【0030】
本願の実施例において、端末10-2でビデオクライアントを実行することができ、ビデオクライアントは、再生インタフェースインターフェース上の様々な人間とコンピュータのインタラクション方式(例えばジェスチャ、音声など)を通じてユーザが指示した矯正対象目120及びターゲット顔110を取得し、対応する画像処理要求を生成することができる。このように、端末10-2の記憶媒体における実行可能な命令がプロセッサによって実行されるとき、本願による画像処理方法を実現し、対応する目画像矯正効果を達成し、目画像矯正効果を有するビデオを形成する。このビデオは、ユーザがインスタントメッセージクライアントのミニプログラムで検索してもよく、又はユーザ端末10-1の異なるアプリケーションプロセスに共有してもよい。
【0031】
一例として、端末10-2は、目矯正要求に応答して、端末によって収集されたターゲットユーザの顔画像を取得し、ターゲットユーザの顔画像に基づいて、対応する矯正対象目画像を決定するための、画像処理モデルを配置するために使用され、ここで、矯正対象目画像は、ターゲットユーザの左目画像と右目画像戸を含み、画像処理モデルによって、矯正対象目画像を処理し、矯正された目画像を取得し、顔画像における矯正対象目画像を矯正された目画像に置換し、もちろん、画像処理モデルによって異なる顔画像を処理して対応する分類結果を生成する前に、更に画像処理モデルを訓練する必要があり、具体的には、
画像処理モデルの使用環境にマッチングする矯正対象目画像セットを取得するステップと、画像処理モデルのスタイル転移ネットワークによって、矯正対象目画像セットにおける異なる矯正対象目画像をそれぞれ処理し、ターゲット目画像を形成するステップと、矯正対象目画像とターゲット目画像に基づいて、画像処理モデルの使用環境にマッチングする訓練サンプルを取得するステップであって、ここで、訓練サンプルは、異なる視線位置にマッチングするユーザの目画像を含む、ステップと、画像処理モデルの使用環境にマッチングする訓練サンプルセットによって、画像処理モデルの矯正ネットワークを訓練し、画像処理モデルによって使用環境における目画像を矯正するステップと、を含む。
【0032】
もちろん、本願の実施例による画像処理装置は、仮想リソースや物理リソースを介したビデオ会議活動、又は物理的ビデオ会議リソースによる支払い環境(様々な物理的ビデオ会議リソースの支払いのための画像処理環境を含むが、これらに限定されない)、又はソーシャルソフトウェアによる情報交換の使用環境に適用可能であり、様々な種類の物理的ビデオ会議リソースでビデオ会議活動を行うか、又は仮想リソースの支払い時に通常、異なるデータソースからのビデオ会議情報を処理し、最終的にユーザインターフェース(UI:User Interface)にターゲットユーザと一致する検出結果を提示し、検出された画像がユーザの生体顔画像か攻撃情報かを判断する。現在のディスプレイインターフェースで目画像を矯正し、矯正された目画像を得、ここで、矯正された目画像、対応する顔画像から得られた顔分類結果、又は目画像検出結果は、アプリケーションプログラムによって呼び出されることができる。
【0033】
ここで、本願の実施例による画像処理方法は、人工知能に基づいて実現され、人工知能(AI:Artificial Intelligence)は、理論、方法、技術及びアプリケーションシステムであり、デジタルコンピュータ又はデジタルコンピュータによって制御される機械を利用して人の知能をシミュレーション、伸び拡張し、環境を感知し、知識を取得し、知識を使用して、最適な結果を取得する。言い換えれば、人工知能は、コンピュータ科学の総合的な技術であり、知能の本質を理解し、人の知能と類似する方式で反応できる新しい知能機械を生産することを目的とする。人工知能は、様々な知能機械の設計原理と実現方法を研究し、機械に、感知、推理及び決定する機能を備えるようにする。
【0034】
人工知能技術は、総合的な学問であり、ハードウェアレベルの技術とソフトウェアレベルの技術の両方を含む幅広い分野に関する。人工知能の基礎的技術は、通常、センサ、固有人工知能チップ、クラウドコンピューティング、分散型記憶、ビッグデータ処理技術、操作/対話システム、メカトロニクスなどの技術を含む。人工知能ソフトウェア技術は主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深度学習などのいくつかを含む。
【0035】
本願の実施例において、主に係わる人工知能ソフトウェア技術は、上記の音声処理技術と機械学習などの側面を含む。例えば、音声技術(Speech Technology)における音声識別技術(ASR:Automatic Speech Recognition)に関することができ、ここで、音声信号前処理(Speech Signal Preprocessing)、音声信号周波数領域解析(Speech Signal Frequency Analyzing)、音声信号特徴抽出(Speech Signal Feature Extraction)、音声信号特徴マッチング/識別(Speech Signal Feature Matching/Recognition)、音声の訓練(Speech Training)などを含む。
【0036】
例えば、機械学習(ML:Machine Learning)に関することができ、機械学習は多分野交差学科であり、確率理論、統計学、近似理論、凸分析、アルゴリズム複雑性理論などの複数の学科に関連する。機械学習は、コンピュータが人類の学習行動をどのようにシミュレーション又は実現して新しい知識又はスキルを獲得し、既存の知識構造を再編成して、自体のパフォーマンスを改善し続けるかを専門的に研究している。機械学習は、人工知能の核心であり、コンピュータに知能を有させる基本的な方法であり、人工知能の各分野に適用される。機械学習は通常、深度学習(Deep Learning)などの技術を含み、深度学習は、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)、リカレントニューラルネットワーク(RNN:Recurrent Neural Network)、深度ニューラルネットワーク(DNN、Deep Neural Network)などの、人工ニューラルネットワーク(artificial neural network)を含む。
【0037】
以下では、本願の実施例の画像処理装置の構造について詳細に説明し、画像処理装置は様生な形で実施されることができ、例えば、画像処理装置の処理機能を有する専用端末であってもよく、画像処理装置の処理機能を有するサーバであってもよく、例えば上記の図1におけるサーバ200であってもよい。図2は、本願の実施例による電子機器の構成の例示的な構造図であり、理解できるように、図2は、画像処理装置及び画像処理モデルの訓練装置の構造全体ではなく、例示的な構造のみを示しており、必要に応じて、図2に示す部分構造又は構造全体を実施することができる。
【0038】
本願の実施例による画像処理装置及び画像処理モデルの訓練装置は、少なくとも1つのプロセッサ201、メモリ202、ユーザインターフェース203及び少なくとも1つのネットワークインターフェース204を備える。画像処理装置における各コンポーネントは、バスシステム205を介して結合される。理解できることとして、バスシステム205は、これらのコンポーネント間の接続通信を実現するために使用される。データバスに加えて、バスシステム205は、電力バス、制御バス及びステータス信号バスを含む。しかしながら、説明を明確にするために、図2では様々なバスをバスシステム205として表記されている。
【0039】
ここで、ユーザインターフェース203は、ディスプレイ、キーボード、マウス、トラックパッド、クリックホイール、キー、ボタン、触覚パッド又はタッチスクリーンなどを含み得る。
【0040】
メモリ202は、揮発性メモリ又は不揮発性メモリであってもよく、揮発性及び不揮発性メモリの両方を含んでもよいことを理解することができる。本願の実施例のメモリ202は、データを記憶して端末(如10-1)の操作をサポートすることができる。これらのデータの例は、操作システムとアプリケーションプログラムなどの、端末(例えば、10-1)で操作されるあらゆるコンピュータプログラムを含む。ここで、操作システムは、フレームワーク層、コアライブラリ層、ドライバ層などの様生なシステムプログラムを含み、様々な基本的なサービスを実現し、ハードウェアベースのタスクを処理するために使用される。アプリケーションプログラムは様々なアプリケーションプログラムを含み得る。
【0041】
いくつかの実施例において、本願の実施例による画像処理装置及び画像処理モデルの訓練装置は、ソフトウェア、ハードウェアを組み合わせる方式で実現でき、一例として、本願の実施例による画像処理装置は、ハードウェア復号プロセッサの形を採用するプロセッサであり得、それをプログラミングして本願の実施例による画像処理方法を実行し、画像処理モデルの訓練装置は、ハードウェア復号プロセッサの形を採用するプロセッサであり得、それをプログラミングして本願の実施例による画像処理モデルの訓練方法を実行する。例えば、ハードウェア復号プロセッサの形のプロセッサは、1つ又は複数の特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、DSP、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、複合プログラマブルロジックデバイス(CPLD:Complex Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA、Field-Programmable Gate Array)又はほかの電子素子を採用することができる。
【0042】
本願の実施例による画像処理装置及び画像処理モデルの訓練装置は、ソフトウェア、ハードウェアを組み合わせる方式で実施される例として、本願の実施例による画像処理装置及び画像処理モデルの訓練装置は、直接にプロセッサ201によって実行されるソフトウェアモジュール組み合わせとしてもよく、ソフトウェアモジュールは記憶媒体に位置してもよく、記憶媒体はメモリ202に位置し、プロセッサ201はメモリ202のソフトウェアモジュールに含まれる実行可能な命令を読み取り、必要とするハードウェア(例えば、プロセッサ201及びバス205に接続された他のコンポーネントを含む)に組み合わせて、本願の実施例による画像処理方法及び画像処理モデルの訓練方法を実現することができる。
【0043】
一例として、プロセッサ201は、汎用プロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、又は他のプログラマブルロジックデバイス、ディスクリートゲート又はトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどの、信号処理の機能を有する集積回路チップであってもよく、ここで、汎用プロセッサはマイクロプロセッサ又は任意の従来のプロセッサなどであってもよい。
【0044】
本願の実施例による画像処理装置及び画像処理モデルの訓練装置がハードウェアを採用して実施される一例として、本願の実施例による装置は、ハードウェア復号プロセッサ形のプロセッサ201を直接に採用して実行されることができ、例えば、1つ又は複特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、DSP、プログラマブルロジック装置(PLD:Programmable Logic Device)、複合プログラマブルロジックデバイス(CPLD:Complex Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA:Field-Programmable Gate Array)又は他の電子素子によって本願の実施例による画像処理方法及び画像処理モデルの訓練方法を実行することができる。
【0045】
本願の実施例のメモリ202は、画像処理装置及び画像処理モデルの訓練装置の操作をサポートするための様々な種類のデータを記憶する。これらのデータの例は、実行可能な命令などの、画像処理装置で操作される任何の実行可能な命令を含み、本願の実施例の、画像処理方法及び画像処理モデルの訓練方法を実現するプログラムは実行可能な命令に含まれることができる。
【0046】
他のいくつかの実施例において、本願の実施例による画像処理装置及び画像処理モデルの訓練装置は、ソフトウェアの方式で実現されることができ、図2は、メモリ202に記憶された画像処理装置及び画像処理モデルの訓練装置を示し、それは、プログラムとプラグインなどの形のソフトウェアであり得、一連のモジュールを含み、メモリ202に記憶されたプログラムの例として、画像処理装置及び画像処理モデルの訓練装置を含み、画像処理装置は、第1情報伝送モジュール2081と訓練モジュール2082を含み、画像処理モデルの訓練装置は、第2情報伝送モジュール2083、情報処理モジュール2084を含む。画像処理装置及び画像処理モデルの訓練装置におけるソフトウェアモジュールがプロセッサ201によって読み取り、実行されるとき、本願の実施例による画像処理方法及び画像処理モデルの訓練方法を実現する。
【0047】
図3を参照すると、図3は、本願による画像処理モデルの訓練方法の例示的なフローチャートであり、理解できるように、図3に示すステップは、画像処理モデルの訓練装置を実行する様々な電子機器によって実行されることができ、例えば、目情報検出機能又はビデオ会議機能を有する専用端末、画像処理モデル訓練機能を有するサーバ又はサーバクラスタであり得、異なるビデオ会議シナリオに適合する画像処理モデルの訓練及び配置を実現する。以下では、図3に示すステップについて説明する。
【0048】
ステップ301において、画像処理モデルの訓練装置が、画像処理モデルの使用環境にマッチングする矯正対象目画像セットを取得する。
【0049】
ここで、矯正対象目画像セットは、異なる領域における対象顔画像を含み、ここで、対象は、実の人物、動物であってもよく、アニメのキャラクターのような、仮想人物、動物などであってもよい。
【0050】
本願の実施例において、画像処理モデルの使用環境にマッチングする矯正対象目画像セットを取得するステップは、以下の方式で実現されることができる。画像処理モデルの使用環境における収集機器(例えばカメラ、撮影機能を有する端末など)によって収集された顔画像を取得し、顔画像に対して画像増強処理を行い、画像増強の処理結果を得、画像増強の処理結果内の顔位置座標を決定し、顔位置座標に基づいて完全な目画像を含む顔画像を切り取り、画像処理モデルに含まれる深度処理ネットワークによって、完全な目画像を含む顔画像に対して深度処理を行い、顔画像の深度マップを得、深度マップを、画像処理モデルの使用環境にマッチングする矯正対象目画像として使用し、複数の矯正対象目画像のセットを矯正対象目画像セットとして使用する。
【0051】
ここで、図4を参照すると、図4は、本願の実施例の顔画像の取得の概略図であり、対象が実のユーザであることを例として、収集機器によって収集されたユーザ画像を取得した後、まず、顔検出の技術によって、ユーザの顔が位置する領域401をフレーム化し、この領域を中心として異なる倍数に拡大し、より多い背景内容402を取得し、背景内容を含む顔画像をクロッピングして、クロッピングされた顔画像403を得、例えば、以下の方式でクロッピングすることができる。画像処理アルゴリズム(例えば、五感位置決めアルゴリズム)を採用して顔の目、口、鼻などの顔の特徴点位置座標をマークし、検出された顔位置座標に基づいて背景内容の顔画像を切り取る。そして、深度推定ネットワークによってクロッピングされた実在の人の顔を計算して、顔に対応する深度マップ404を得、ここで、本願の実施例の実在の人写真は深度マップを有し、攻撃写真に対応する深度マップは黒底マップである。画像情報ベースのクラス深度学習ネットワーク技術は、LeNet、AlexNet、VGG、Inception系列のネットワーク、ResNetとDenseNetを含むがこれに限定されなく、画像で又はROIから従来特徴を抽出し、平均値、分散などの、グレースケールレベルベースの特徴や分布式ヒストグラムベースの特徴、GLCMやGLRLMなどの、関連行列ベースの特徴又はフーリエ変換された画像ベースの信号特徴などを含むがこれに限定されない。
【0052】
ステップ302において、画像処理モデルの訓練装置が、画像処理モデルに含まれるスタイル転移ネットワークによって、矯正対象目画像セットにおける矯正対象目画像に対してスタイル転移処理を行い、ターゲット目画像を得る。
【0053】
本願の実施例において、画像処理モデルに含まれるスタイル転移ネットワークによって、矯正対象目画像セットにおける矯正対象目画像を処理して、ターゲット目画像を形成するステップは、以下の方式で実現されることができる。
【0054】
画像処理モデルの使用環境に基づいて、画像処理モデルの使用環境に対応する参照スタイル転移ネットワークのモデルパラメータを決定し、参照スタイル転移ネットワークのモデルパラメータに基づいて、画像処理モデルに含まれるスタイル転移ネットワークのモデルパラメータを調整し、調整されたスタイル転移ネットワークによって、矯正対象目画像セットにおける矯正対象目画像に対してスタイル転移処理を行い、ターゲット目画像を得、ここで、ターゲット目画像のスタイル特徴は、ターゲット対象の視線位置にマッチングする。ここで、3Dモデリングベースの目データ収集は、3Dモデリングを利用して合成目を構造し、合成目の視線位置を変更することにより目画像を収集し、矯正対象及び矯正された合成目データ対(S、S)を構造することであり、ここでSは、合成された矯正対象目画像であり、Sは合成された矯正目画像である。
【0055】
ここで、図5を参照すると、図5は、本願の実施例による画像処理モデルのスタイル転移効果の概略図であり、他のエンターテイメント機能app又はミニプログラムに適用される場合、ユーザの使用習性に基づいて、スタイル転移ネットワークのモデルパラメータを自由に調整することができ、例えばスタイル転移ネットワークのモデルパラメータは、アニメエンターテイメントの目画像効果のディスプレイ効果パラメータであってもよい。いくつかの実施例において、初期化処理は、データ収集段階で、収集された、処理対象目画像を含むサンプル画像セット(サンプル画像によって構成されたセット)に対して、各サンプル画像から処理対象目画像を含む顔画像切り取り、切り取された各顔画像を、処理対象目画像の特徴点に基づいて合わせる。それにより、エンコーダが、顔のスタイル特徴と視線角度を正確に学習できるようにし、収集された合成目データ(図5に示す合成目)をスタイル転移ニューラルネットワークFに入力して、実スタイルを有する大量の目画像(図5に示す実スタイル目)を得、その計算式は、式(1)~式(2)に示す通りである:
【数1】
【数2】
ここで、
【数3】
は、実スタイルの矯正対象目画像であり、
【数4】
は、実スタイルの矯正目画像である。
【0056】
いくつかの実施例において、初期化処理は、顔画像に対してランダム増強処理を行うステップを含み得、ランダム増強処理された顔画像に対してランダム歪み処理を行い、歪んだ顔画像を得、歪んだ顔画像の処理対象目画像の五感画像を切り取り、切り取られた五感画像に対してスケーリング処理を行い、矯正対象目画像セット内のいずれか1つの矯正対象目画像を得、ここで、いずれか1つの矯正対象目画像は、画像処理モデルにおけるエンコーダによってサポートされる入力解像度に適合する。
【0057】
一例として、顔画像に対してランダム増強処理を行うステップは、以下の方式を採用することができる。顔画像の中心を中心としてランダムに回転し、ランダムに回転された顔画像をランダムにスケーリングし、ランダムにスケーリングされた顔画像に対してランダム平行移動を行う。
【0058】
一例として、ランダム増強処理された顔画像に対してランダム歪み処理を行うステップは、以下の方式を採用することができる。ランダム増強処理された顔画像にノイズを挿入し、ノイズは、固定ノイズ(即ち、固定した色値)と動的ノイズ(即ち、変化する色値)のうちの少なくとも1つを含む。
【0059】
ランダム増強処理された顔画像に動的ノイズを挿入することについて、ランダム増強処理された顔画像に対して格子線化を行い、少なくとも一部のノードに座標を割り当て、座標にガウス分布に基づいてノイズを追加し、ノード以外の領域で画像補間(例えば線形補間又は非線形補間)を行い、顔画像のサイズを拡大し、線形補間を採用する場合、補間の画素の値は、座標の値と正の相関がある。
【0060】
ステップ303において、画像処理モデルの訓練装置が、矯正対象目画像とターゲット目画像に基づいて、画像処理モデルの使用環境にマッチングする訓練サンプルを取得する。
【0061】
ここで、訓練サンプルは異なる視線位置にマッチングする対象目画像を含む。
【0062】
ステップ304において、画像処理モデルの訓練装置が、画像処理モデルの使用環境にマッチングする訓練サンプルを用いて、画像処理モデルに含まれる矯正ネットワークを訓練し、矯正ネットワークに適合したモデル更新パラメータを得、モデル更新パラメータに基づいて訓練された画像処理モデルを生成する。
【0063】
このように、訓練された画像処理モデルによって使用環境における目画像を矯正することができる。
【0064】
図5に示すように、矯正対象目画像(即ち、矯正対象実目)とターゲット目画像(矯正対象実スタイル目)を画像処理モデルの使用環境にマッチングする訓練サンプルとして使用し、矯正対象実目と矯正対象実スタイル目によって、矯正ネットワーク(図5に示す視線矯正ネットワーク)を訓練する。
【0065】
続いて図6を参照すると、図6は、本願の実施例による画像処理モデルの訓練方法の例示的なフローチャートであり、理解できるように、図6に示すステップは、画像処理モデルの訓練装置を実行する様々な電子機器によって実行されることができ、例えば、目情報検出機能を有する専用端末、画像処理モデル訓練機能を有するサーバ又はサーバクラスタであり得、異なるビデオ会議画像処理シナリオに適合する画像処理モデルを訓練、配置する。以下では、図6に示すステップについて説明する。
【0066】
ステップ601において、画像処理モデルに含まれる矯正ネットワークのエンコーダとデコーダによって、訓練サンプルセットを処理し、矯正ネットワークのエンコーダとデコーダの初期パラメータを得る。
【0067】
ステップ602において、矯正ネットワークのエンコーダとデコーダの初期パラメータに基づいて、新しい訓練サンプルセットを処理し、矯正ネットワークのエンコーダとデコーダの更新パラメータを得る。
【0068】
ここで、更新パラメータを決定するとき、新しい訓練サンプルセットにおける異なる訓練サンプルを、矯正ネットワークのエンコーダとデコーダに対応する損失関数に代入することができ、損失関数が対応する収束条件を満たす場合、矯正ネットワークのエンコーダとデコーダは更新パラメータに対応することを決定する。
【0069】
ステップ603において、矯正ネットワークのエンコーダとデコーダの更新パラメータに基づいて、訓練サンプルセットによって、矯正ネットワークのエンコーダとデコーダのパラメータを反復的に更新する。
【0070】
ステップ604において、収束条件に達したか否かを判断し、収束条件に達したときに反復更新を停止する。
【0071】
ここで、新しい訓練サンプルセットにおける異なる訓練サンプルを、矯正ネットワークのエンコーダとデコーダに対応する損失関数に代入することができ、損失関数が対応する収束条件を満たす場合、矯正ネットワークのエンコーダとデコーダは更新パラメータに対応することを決定し、転換して得られた実スタイル目画像は、視線矯正ネットワークGの訓練のために使用され、訓練過程は式(3)を参照されたい。
【0072】
【数5】
ここで、
【数6】
は損失関数であり、平均二乗誤差を使用することができ、
【数7】
は実スタイルの矯正対象目画像であり、
【数8】
は実スタイルの矯正目画像である。
【0073】
矯正ネットワークのパラメータを最適化するとき、少量の実目データ対(I,I)及び上記の実施例で得られた矯正ネットワークを利用して最適化訓練を行うことができ、最適化は式(4)を参照されたい。
【0074】
【数9】
ここで、Iは実の矯正対象目画像であり、Iは実の矯正目画像である。
【0075】
実際の応用において、画像処理機能を有するAPPによって本願の実施例の技術案を実現できる同時に、インスタントアプリケーションミニプログラムによって本願の実施例の技術案を実現できることを考慮し、他のビデオ会議プログラムに画像処理モデル結果を呼び出すようにし、よって、ビデオ会議クラウドサーバネットワークによって、ユーザは端末を変更するとき、クラウドサーバネットワークにおける画像処理モデルによって、異なる目対象の顔を迅速に検出することができる。
【0076】
具体的に、ターゲットユーザ識別子、画像処理モデルのモデルパラメータ、ビデオ会議シナリオ識別子をクラウドサーバのネットワークに送信し、対応する画像処理プロセスをトリガするとき、クラウドサーバネットワークによってターゲットユーザ識別子、画像処理モデルのモデルパラメータ、ビデオ会議シナリオ識別子を取得して、対応する画像処理プロセスに使用させ、ビデオ会議応用シナリオでターゲット対象目を検出、矯正し、目検出モデルが、ターゲット対象の目を識別することを容易にする。
【0077】
ここで、本願の実施例はクラウド技術と組み合わせて実現することができ、クラウド技術(Cloud Technology)は、ワイドエリアネットワークまたはローカルエリアネットワークでハードウェア、ソフトウェア、ネットワークなどの一連のリソースを統一して、データのコンピューティング、記憶、処理および共有を実現するホスティング技術を意味し、クラウドコンピューティングビジネスモードの応用に基づくネットワーク技術、情報技術、統合技術、管理プラットフォーム技術、アプリケーション技術などの総称とも理解することができる。技術ネットワークシステムのバックエンドサービスは、ビデオサイト、写真類サイトとより多いポータルサイトなどの、大量の計算、記憶リソースを必要とするため、クラウド技術はクラウド計算によるサポートが必要である。
【0078】
説明すべきこととして、クラウド計算は計算モードの一種であり、計算タスクを大量のコンピュータによって構成されたリソースプールに分布し、様々な応用システムが、必要に応じて計算力、記憶空間と情報サービスを取得できるようにする。リソースを提供するネットワークを「クラウド」と呼ぶ。使用者の視点から見ると、「クラウド」内のリソースは、無限に拡張でき、いつでも入手でき、オンデマンドで使用でき、いつでも拡張でき、使用に応じて料金を支払うことができる。クラウド計算の基本機能プロバイダーとして、クラウド計算リソースプールプラットフォームを確立し、クラウドプラットフォームと略称され、通常、サービスとしても基本施設(IaaS:Infrastructure as a Service)と呼ばれ、リソースプールに様々な種類の仮想リソースを配置して、外部客に選択して使用させる。クラウド計算リソースプールは主に、コンピューティング機器(仮想化デバイスであり得、操作システムを含む)、メモリ機器とネットワーク機器を含む。
【0079】
上記の図1と組み合わせて、本願の実施例による画像処理モデルの訓練方法は、対応するクラウド機器によって実現されることができ、例えば、端末(端末10-1と端末10-2とを含む)はネットワーク300によってクラウドに位置するサーバ200に接続し、ネットワーク300は、ワイドエリアネットワーク又はローカルエリアネットワークであってもよく、又は両者の組み合わせであってもよい。説明すべきこととして、サーバ200は物理的機器であってもよく、仮想化機器であってもよい。
【0080】
続いて図7を参照すると、図7は、本願の実施例による画像処理方法の例示的なフローチャートである。図7に示すステップは、異なるビデオ会議画像処理シナリオに適合した画像処理モデルの訓練及び配置を可能にするために、例えば、画像処理機能を有するミニプログラム、画像処理機能を有する通信端末、又はビデオ会議端末など、画像処理装置を備えた様々な電子機器によって実行できることは理解されるべきである。以下では、図7に示すステップについて説明する。
【0081】
ステップ701において、人間とコンピュータのインタラクションインターフェースで目画像矯正機能オプションを示し、目画像矯正機能オプションに対するトリガ操作を受信する。
【0082】
ここで、図8を参照すると、図8は、本願の実施例の画像処理方法の使用シナリオの概略図であり、ビデオ会議クライアント(又はミニプログラム)の実行インターフェースで、目画像矯正機能オプション801に対するトリガ操作に応答して、ターゲット対象を含む矯正対象目画像を取得して呈する。
【0083】
矯正対象目画像に基づいてトリガされた変換決定操作に応答して、ターゲット目画像テンプレートのターゲット目画像を生成して呈するステップと、を更に含み、ここで、ターゲット目画像テンプレートのターゲット目画像は、前記矯正対象目画像における目部位を、前記ターゲット目画像テンプレートにおける目部位に置換することによって生成された画像である。ビデオ会議プロセスの使用者が位置する画像収集角度が異なるため、異なる画像収集角度に適合した画像処理モデルのモデルパラメータはすべて異なり、モデル調整時間を削減するために、固定した画像収集角度に固定したモデルパラメータを設定することができ、例えば、画像収集角度が90度又は75度である場合の画像処理モデルのモデルパラメータを対応する記憶媒体に保存することができ、ターゲット目画像テンプレートのターゲット目画像を示すとき、テンプレート選択命令を受信し、画像処理モデルのモデルパラメータを迅速に調整することにより、待ち時間を短縮することができる。
【0084】
ステップ702において、目矯正要求に応答して、収集機器によって収集されたターゲット対象の顔画像を取得する。
【0085】
ステップ703において、ターゲット対象顔画像に基づいて対応する矯正対象目画像を決定する。
【0086】
ここで、図9を参照すると、図9は、本願の実施例の画像処理方法の使用シナリオの概略図であり、矯正対象目画像(図9に示す矯正対象目901)は、ターゲット対象の左目画像と右目画像とを含んでもよく、左目画像又は右目画像のみを含んでもよく、具体的に、対象が位置する画像収集角度が異なる同時に、目画像の環環境光強度が異なるため、対象画像収集角度が90度又は75度である場合、左目画像又は右目画像のみを収集して、適応的に調整し、視線矯正を実現することにより、ビデオ会議ミニプログラムの画像処理モデルの計算量を減らし、待ち時間を短縮することができる。
【0087】
ステップ704において、画像処理モデルによって矯正対象目画像を処理し、矯正された目画像を取得する。
【0088】
本願の実施例において、更に、人間とコンピュータのインタラクションインターフェースで、顔画像を共有するための画像共有機能オプションを示し、画像共有機能オプションに対するトリガ操作に応答して、調整されたターゲット対象の顔画像を共有することができる。ここで、画像共有機能オプションは、インスタントメッセージソフトウェア又はソーシャルソフトウェアに共有する機能オプションのように、デフォルトの共有経路に関連付けることができ、顔画像共有機能オプションに対するトリガに応答して、少なくとも2つの共有経路選択オプションを含む共有インターフェースを示し、共有インターフェースのトリガに基づく共有経路選択操作に応答して、選択された共有経路を介して顔画像を異なるソーシャルアプリケーションプロセス又は画像キャプチャ (又は画面記録)アプリケーションプロセスに共有して、生成された新しい画像を共有又は切り取ることができる。
【0089】
図9に示すように、画像処理モデルに含まれる視線矯正ネットワークによって矯正対象目901に対して矯正処理を行い、矯正目902(即ち、矯正された目画像)を得る。説明すべきこととして、本願の実施例は、図8に示す目画像矯正機能オプションをトリガした後、画像処理モデルのスタイル転移ネットワークによって、まず、矯正対象目画像を処理して、ターゲット目画像を形成し、ここで、ターゲット目画像のスタイル特徴はターゲット対象の視線位置にマッチングし、そして、視線矯正ネットワークによって、ターゲット目画像に対して矯正処理を行い、矯正目を得る。
【0090】
ステップ705において、顔画像における矯正対象目画像を矯正された目画像に置換し、調整された顔画像を得る。
【0091】
図10を参照すると、図10は、本願の実施例の画像処理効果の比較概略図であり、図1001は、処理対象目画像(即ち、入力画像)であり、図1002は、3Dモデリングに基づいて合成された目画像であり、図1003は、限られた実目データで訓練学習した後、視線矯正ネットワークによって生成された目画像(即ち、転移学習せずに生成された目画像)であり、図1004は、本願の実施例の転移学習及び視線矯正ネットワークに基づいて生成された目画像である。これから分かるように、3Dモデリング技術的解決策と比較して、本願の実施例は、よりリアルで自然な、入力画像のスタイルと一致する目画像を生成することができ、転移学習なしの深度学習技術案と比較して、本願の実施例は、よりよい視線矯正効果を有する。
【0092】
しがって、本願の実施例は、以下の有益な効果を有する。
【0093】
1、画像処理モデルの使用環境にマッチングする訓練サンプルセットによって、画像処理モデルの矯正ネットワークを訓練し、矯正ネットワークに適合したモデル更新パラメータを得、モデル更新パラメータに基づいて訓練された画像処理モデルを生成して、画像処理モデルによって使用環境における目画像を矯正することができ、画像処理モデルの識別精度を保証しつつ、画像処理モデルの訓練効率を向上させ、画像処理の複雑性を低下させ、訓練精度を考慮しながら、画像処理モデルの一般化機能及びデータ処理機能を向上させることができる。
【0094】
2、訓練された画像処理モデルを配置することにより、異なる画像処理環境に適用することができ、画像処理モデルのロバスト性を増強し、使用コストを減少し、ユーザの使用体験を改善することができる。
【0095】
以下では、画像処理モデルの訓練装置における各ソフトウェアモジュールの機能について具体的に説明する。
【0096】
第1情報伝送モジュール2081は、画像処理モデルの使用環境にマッチングする矯正対象目画像セットを取得するように構成され、訓練モジュール2082は、前記画像処理モデルに含まれるスタイル転移ネットワークによって、前記矯正対象目画像セットにおける矯正対象目画像を処理し、ターゲット目画像を得るように構成され、前記訓練モジュール2082は、前記矯正対象目画像と前記ターゲット目画像に基づいて、前記画像処理モデルの使用環境にマッチングする訓練サンプルを取得するように構成され、ここで、前記訓練サンプルは、異なる視線位置にマッチングする対象目画像を含み、前記訓練モジュール2082は、前記画像処理モデルの使用環境にマッチングする訓練サンプルを用いて、前記画像処理モデルに含まれる矯正ネットワークを訓練し、前記矯正ネットワークに適合したモデル更新パラメータを得、前記モデル更新パラメータに基づいて訓練された画像処理モデルを生成するように構成され、ここで、前記訓練された画像処理モデルによって使用環境における目画像を矯正する。
【0097】
いくつかの実施例において、前記第1情報伝送モジュール2081は更に、収集機器によって収集された顔画像を取得し、前記収集機器は前記画像処理モデルの使用環境に位置し、前記顔画像に対して画像増強処理を行い、画像増強の処理結果を得、前記画像増強の処理結果における顔位置座標を決定し、前記顔位置座標に基づいて、完全な目画像を含む顔画像を切り取り、前記画像処理モデルに含まれる深度処理ネットワークによって、前記完全な目画像を含む顔画像に対して深度処理を行い、前記顔画像の深度マップを得、前記深度マップを、前記画像処理モデルの使用環境にマッチングする矯正対象目画像として使用し、複数の前記矯正対象目画像のセットを前記矯正対象目画像セットとして使用するように構成される。
【0098】
いくつかの実施例において、前記訓練モジュール2082は更に、前記画像処理モデルの使用環境に基づいて、前記画像処理モデルの使用環境に対応する参照スタイル転移ネットワークのモデルパラメータを決定し、前記参照スタイル転移ネットワークのモデルパラメータに基づいて、前記画像処理モデルに含まれるスタイル転移ネットワークのモデルパラメータを調整し、調整された前記スタイル転移ネットワークによって、前記矯正対象目画像セットにおける矯正対象目画像に対してスタイル転移処理を行い、ターゲット目画像を得るように構成され、ここで、前記ターゲット目画像のスタイル特徴は、ターゲット対象の視線位置にマッチングする。
【0099】
いくつかの実施例において、前記訓練モジュール2082は更に、前記画像処理モデルに含まれる矯正ネットワークのエンコーダとデコーダによって、前記訓練サンプルを処理し、前記矯正ネットワークのエンコーダとデコーダの初期パラメータを得、前記矯正ネットワークのエンコーダとデコーダの初期パラメータに基づいて、前記訓練サンプルを処理し、前記矯正ネットワークのエンコーダとデコーダの更新パラメータを得、前記矯正ネットワークのエンコーダとデコーダの更新パラメータに基づいて、前記訓練サンプルセットによって、前記矯正ネットワークのエンコーダとデコーダのパラメータを反復的に更新し、前記矯正ネットワークに適合したエンコーダとデコーダのモデルパラメータを得るように構成される。
【0100】
いくつかの実施例において、前記訓練モジュール2082は更に、前記訓練サンプルを前記矯正ネットワークのエンコーダとデコーダに対応する損失関数に代入し、前記損失関数が、対応する収束条件を満たす場合、前記矯正ネットワークのエンコーダとデコーダが前記更新パラメータに対応することを決定するように構成される。
【0101】
いくつかの実施例において、前記第1情報伝送モジュール2081は更に、収集機器によって収集された顔画像を取得し、前記収集機器は前記画像処理モデルの使用環境に位置し、前記顔画像に対してランダム増強処理を行い、ランダム増強処理された前記顔画像に対してランダム歪み処理を行い、歪んだ前記顔画像を得、歪んだ前記顔画像の目画像を切り取り、前記切り取られた目画像に対してスケーリング処理を行い、前記矯正対象目画像セット内のいずれか1つの矯正対象目画像を得るように構成され、ここで、前記いずれか1つの矯正対象目画像は、前記画像処理モデルにおけるエンコーダによってサポートされる入力解像度に適合する。
【0102】
いくつかの実施例において、前記第1情報伝送モジュール2081は更に、前記顔画像の中心に基づいてランダムに回転し、ランダムに回転された前記顔画像をランダムにスケーリングし、ランダムにスケーリングされた前記顔画像に対してランダム平行移動を行うように構成される。
【0103】
いくつかの実施例において、前記第1情報伝送モジュール2081は更に、ランダム増強処理された前記顔画像にノイズを挿入するように構成され、前記ノイズは、固定ノイズと動的ノイズのうちの少なくとも1つを含む。
【0104】
以下では、画像処理装置における各ソフトウェアモジュールの機能について具体的に説明する。
【0105】
第2情報伝送モジュール2083は、ターゲット対象の顔画像を取得するように構成され、情報処理モジュール2084は、前記ターゲット対象の顔画像に基づいて、対応する矯正対象目画像を決定するように構成され、ここで、前記矯正対象目画像は、前記ターゲット対象の左目画像と右目画像とを含み、前記情報処理モジュール2084は、画像処理モデルによって前記矯正対象目画像に対して矯正処理を行い、矯正された前記目画像を得るように構成され、前記情報処理モジュール2084は、前記顔画像における矯正対象目画像を矯正された前記目画像に置換するように構成され、ここで、前記画像処理モデルは、画像処理モデルの訓練方法に基づいて訓練することにより得られる。
【0106】
いくつかの実施例において、前記第2情報伝送モジュール2083は更に、人間とコンピュータのインタラクションインターフェースで目画像矯正機能オプションを示し、前記目画像矯正機能オプションに対するトリガ操作に応答して、前記ターゲット対象を含む矯正対象目画像を取得、示し、前記矯正対象目画像に基づいてトリガされた変換決定操作に応答して、ターゲット目画像テンプレートのターゲット目画像を生成して呈するように構成され、ここで、前記ターゲット目画像テンプレートのターゲット目画像は、前記矯正対象目画像における目部位を、前記ターゲット目画像テンプレートにおける目部位に置換することによって生成された画像である。
【0107】
いくつかの実施例において、前記第2情報伝送モジュール2083は更に、人間とコンピュータのインタラクションインターフェースで前記顔画像を共有するための画像共有機能オプションを示し、前記画像共有機能オプションに対するトリガ操作に応答して、調整された前記顔画像を共有するように構成される。
【0108】
図2に示す、電子機器に実装された画像処理モデルの訓練装置及び画像処理装置に基づいて、本願の実施例は更に、コンピュータ可読記憶媒体に記憶されたコンピュータ命令を含む、コンピュータプログラム製品又はコンピュータプログラムを提供する。電子機器のプロセッサは、コンピュータ可読記憶媒体から当該コンピュータ命令を読み取り、プロセッサによって当該コンピュータ命令を実行し、当該電子機器に上記の画像処理モデルの訓練方法及び画像処理装置の様々な代替実施形態による異なる実施例及び実施例の組み合わせを実行させる。
【0109】
上記は、本願の実施例に過ぎず、本願の保護範囲を限定するものではなく、本願の趣旨及び原則内でなされたあらゆる修正、同等置換及び改善などは、すべて本願の保護範囲に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10