IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京百度網訊科技有限公司の特許一覧

特開2022-50666サイクル生成ネットワークモデルのトレーニング方法、フォントライブラリの確立方法、装置、電子機器、記憶媒体およびコンピュータプログラム
<>
  • 特開-サイクル生成ネットワークモデルのトレーニング方法、フォントライブラリの確立方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図1
  • 特開-サイクル生成ネットワークモデルのトレーニング方法、フォントライブラリの確立方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図2
  • 特開-サイクル生成ネットワークモデルのトレーニング方法、フォントライブラリの確立方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図3A
  • 特開-サイクル生成ネットワークモデルのトレーニング方法、フォントライブラリの確立方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図3B
  • 特開-サイクル生成ネットワークモデルのトレーニング方法、フォントライブラリの確立方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図3C
  • 特開-サイクル生成ネットワークモデルのトレーニング方法、フォントライブラリの確立方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図4A
  • 特開-サイクル生成ネットワークモデルのトレーニング方法、フォントライブラリの確立方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図4B
  • 特開-サイクル生成ネットワークモデルのトレーニング方法、フォントライブラリの確立方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図5
  • 特開-サイクル生成ネットワークモデルのトレーニング方法、フォントライブラリの確立方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図6
  • 特開-サイクル生成ネットワークモデルのトレーニング方法、フォントライブラリの確立方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図7
  • 特開-サイクル生成ネットワークモデルのトレーニング方法、フォントライブラリの確立方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図8
  • 特開-サイクル生成ネットワークモデルのトレーニング方法、フォントライブラリの確立方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図9
  • 特開-サイクル生成ネットワークモデルのトレーニング方法、フォントライブラリの確立方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図10
  • 特開-サイクル生成ネットワークモデルのトレーニング方法、フォントライブラリの確立方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022050666
(43)【公開日】2022-03-30
(54)【発明の名称】サイクル生成ネットワークモデルのトレーニング方法、フォントライブラリの確立方法、装置、電子機器、記憶媒体およびコンピュータプログラム
(51)【国際特許分類】
   G06T 1/00 20060101AFI20220323BHJP
   G06T 7/00 20170101ALI20220323BHJP
【FI】
G06T1/00 500A
G06T7/00 350C
【審査請求】有
【請求項の数】23
【出願形態】OL
【公開請求】
(21)【出願番号】P 2022007200
(22)【出願日】2022-01-20
(31)【優先権主張番号】202110945882.9
(32)【優先日】2021-08-17
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】516262169
【氏名又は名称】北京百度網訊科技有限公司
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus,No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110001195
【氏名又は名称】特許業務法人深見特許事務所
(72)【発明者】
【氏名】唐 礼 承
(72)【発明者】
【氏名】劉 家 銘
(57)【要約】      (修正有)
【課題】サイクル生成ネットワークモデルのトレーニング方法及び装置、フォントライブラリの確立方法及び装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。
【解決手段】方法は、ソースドメインサンプルワード301をサイクル生成ネットワークモデル310に入力して、第1のターゲットドメイン生成ワード302を取得する。トレーニングされた文字分類モデル320に第1のターゲットドメイン生成ワード302を入力することによって、サイクル生成ネットワークモデルの誤字損失を計算する。第1のターゲットドメイン生成ワード302および予め設定されたターゲットドメインサンプルワード304を文字分類モデル320に入力することによって、サイクル生成ネットワークモデルの特徴損失を計算する。誤字損失および特徴損失に従ってサイクル生成ネットワークモデル310のパラメータを調整する。
【選択図】図3A
【特許請求の範囲】
【請求項1】
ソースドメインサンプルワードをサイクル生成ネットワークモデルに入力して、第1のターゲットドメイン生成ワードを取得することと、
トレーニングされた文字分類モデルに第1のターゲットドメイン生成ワードを入力することによって、前記サイクル生成ネットワークモデルの誤字損失を計算することと、
第1のターゲットドメイン生成ワードおよび予め設定されたターゲットドメインサンプルワードを前記文字分類モデルに入力することによって、前記サイクル生成ネットワークモデルの特徴損失を計算することと、
前記誤字損失および特徴損失によって前記サイクル生成ネットワークモデルのパラメータを調整することと、を含む
サイクル生成ネットワークモデルのトレーニング方法。
【請求項2】
請求項1に記載の方法において、
トレーニングされた文字分類モデルに第1のターゲットドメイン生成ワードを入力することによって前記サイクル生成ネットワークモデルの誤字損失を計算することは、
トレーニングされた文字分類モデルに前記第1のターゲットドメイン生成ワードを入力して、前記第1のターゲットドメイン生成ワードの生成文字ベクトルを取得することと、
前記生成文字ベクトルと予め設定された標準文字ベクトルとの間の差に応じて、前記誤字損失を計算することと、を含む
サイクル生成ネットワークモデルのトレーニング方法。
【請求項3】
請求項2に記載の方法において、
前記誤字損失を計算することは、下の式に従って前記誤字損失LCを計算することを含み、
【数1】

サイクル生成ネットワークモデルのトレーニング方法。
【請求項4】
請求項1に記載の方法において、
前記文字分類モデルは、複数の特徴層を含み、第1のターゲットドメイン生成ワードおよび予め設定されたターゲットドメインサンプルワードを前記文字分類モデルに入力することによって前記サイクル生成ネットワークモデルの特徴損失を計算することは、
前記第1のターゲットドメイン生成ワードを前記文字分類モデルに入力して、前記文字分類モデルの各特徴層によって出力された生成特徴図を取得することと、
前記ターゲットドメインサンプルワードを前記文字分類モデルに入力して、前記文字分類モデルの各特徴層によって出力されたサンプル特徴図を取得することと、
少なくとも1つの特徴層の生成特徴図とサンプル特徴図との間の差に従って前記特徴損失を計算することと、を含む
サイクル生成ネットワークモデルのトレーニング方法。
【請求項5】
請求項4に記載の方法において、
前記特徴損失を計算することは、
前記少なくとも1つの特徴層の各層について、当該特徴層の生成特徴図とサンプル特徴図との間のピクセル差を計算し、当該特徴層のピクセル損失を取得することと、
前記少なくとも1つの特徴層のピクセル損失に従って、前記特徴損失を計算することと、を含む
サイクル生成ネットワークモデルのトレーニング方法。
【請求項6】
請求項5に記載の方法において、
当該特徴層の生成特徴図とサンプル特徴図との間のピクセル差を計算することは、
前記生成特徴図における各位置のピクセルについて、当該ピクセルのピクセル値と前記サンプル特徴図における対応位置でのピクセルのピクセル値との間の差の絶対値を計算し、各位置のピクセルに対する差を取得することと、
複数の位置のピクセルの差に応じて、前記生成特徴図とサンプル特徴図との間のピクセル差を決定することと、を含む
サイクル生成ネットワークモデルのトレーニング方法。
【請求項7】
請求項1に記載の方法において、
前記サイクル生成ネットワークモデルは、第1の生成モデルおよび第2の生成モデルを含み、
ソースドメインサンプルワードを前記サイクル生成ネットワークモデルに入力して、第1のターゲットドメイン生成ワードを取得することは、
ソースドメインサンプルワードを前記第1の生成モデルに入力して、前記第1のターゲットドメイン生成ワードと第1のソースドメイン生成ワードを取得することを含み、
前記方法は、
ターゲットドメインサンプルワードを前記第2の生成ネットワークに入力して、第2のターゲットドメイン生成ワードと第2のソースドメイン生成ワードを取得することと、
前記ソースドメインサンプルワード、第1のターゲットドメイン生成ワード、第1のソースドメイン生成ワード、ターゲットドメインサンプルワード、第2のターゲットドメイン生成ワード、および第2のソースドメイン生成ワードによって、前記サイクル生成ネットワークモデルの生成損失を計算することと、
前記生成損失に従って前記第1の生成モデルのパラメータを調整することと、をさらに含む
サイクル生成ネットワークモデルのトレーニング方法。
【請求項8】
請求項7に記載の方法において、
前記誤字損失および特徴損失に従って前記サイクル生成ネットワークモデルのパラメータを調整することは、
前記誤字損失および特徴損失に従って前記第1の生成モデルのパラメータを調整することを含む
サイクル生成ネットワークモデルのトレーニング方法。
【請求項9】
請求項1~8のいずれか一項に記載の方法において、
前記ソースドメインサンプルワードは、ソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプルワードは、ターゲットドメインフォントスタイルを有する画像である
サイクル生成ネットワークモデルのトレーニング方法。
【請求項10】
ソースドメイン入力ワードをサイクル生成ネットワークモデルに入力して、ターゲットドメインの新規ワードを取得することと、
前記ターゲットドメインの新規ワードに基づいてフォントライブラリを確立することと、を含み、
前記サイクル生成ネットワークモデルは、請求項1~9のいずれか一項に記載の方法によってトレーニングして得られる
フォントライブラリの確立方法。
【請求項11】
ソースドメインサンプルワードをサイクル生成ネットワークモデルに入力して、第1のターゲットドメイン生成ワードを取得するために用いられる第1の生成モジュールと、
トレーニングされた文字分類モデルに第1のターゲットドメイン生成ワードを入力することによって、前記サイクル生成ネットワークモデルの誤字損失を計算するために用いられる第1の計算モジュールと、
第1のターゲットドメイン生成ワードおよび予め設定されたターゲットドメインサンプルワードを前記文字分類モデルに入力することによって、前記サイクル生成ネットワークモデルの特徴損失を計算するために用いられる第2の計算モジュールと、
前記誤字損失および特徴損失に従って前記サイクル生成ネットワークモデルのパラメータを調整するために用いられる第1の調整モジュールと、を含む
サイクル生成ネットワークモデルのトレーニング装置。
【請求項12】
請求項11に記載の装置において、
前記第1の計算モジュールは、
トレーニングされた文字分類モデルに前記第1のターゲットドメイン生成ワードを入力して、前記第1のターゲットドメイン生成ワードの生成文字ベクトルを取得するために用いられる文字ベクトル生成ユニットと、
前記生成文字ベクトルと予め設定された標準文字ベクトルとの間の差に応じて前記誤字損失を計算するために用いられる誤字損失計算ユニットと、を含む
サイクル生成ネットワークモデルのトレーニング装置。
【請求項13】
請求項12に記載の装置において、
前記誤字損失計算ユニットは、下の式に従って前記誤字損失LCを計算し、
【数2】

サイクル生成ネットワークモデルのトレーニング装置。
【請求項14】
請求項11に記載の装置において、
前記文字分類モデルは、複数の特徴層を含み、
前記第2の計算モジュールは、
前記第1のターゲットドメイン生成ワードを前記文字分類モデルに入力して、前記文字分類モデルの各特徴層によって出力された生成特徴図を取得するために用いられる第1の特徴図生成ユニットと、
前記ターゲットドメインサンプルワードを前記文字分類モデルに入力して、前記文字分類モデルの各特徴層によって出力されたサンプル特徴図を取得するために用いられる第2の特徴図生成ユニットと、
少なくとも1つの特徴層の生成特徴図とサンプル特徴図との間の差に従って前記特徴損失を計算するために用いられる特徴損失計算ユニットと、を含む
サイクル生成ネットワークモデルのトレーニング装置。
【請求項15】
請求項14に記載の装置において、
前記特徴損失計算ユニットは、
前記少なくとも1つの特徴層の各層について、当該特徴層の生成特徴図とサンプル特徴図との間のピクセル差を計算し、当該特徴層のピクセル損失を取得するために用いられるピクセル損失計算サブユニットと、
前記少なくとも1つの特徴層のピクセル損失に従って前記特徴損失を計算するために用いられる特徴損失計算サブユニットと、を含む
サイクル生成ネットワークモデルのトレーニング装置。
【請求項16】
請求項15に記載の装置において、
前記ピクセル損失計算サブユニットは、前記生成特徴図における各位置のピクセルについて、当該ピクセルのピクセル値と前記サンプル特徴図における対応位置でのピクセルのピクセル値との間の差の絶対値を計算し、各位置のピクセルに対する差を取得し、
複数の位置のピクセルの差に応じて、前記生成特徴図と前記サンプル特徴図との間のピクセル差を決定するために用いられる
サイクル生成ネットワークモデルのトレーニング装置。
【請求項17】
請求項11に記載の装置において、
前記サイクル生成ネットワークモデルは、第1の生成モデルおよび第2の生成モデルを含み、
前記第1の生成モジュールは、ソースドメインサンプルワードを前記第1の生成モデルに入力して、前記第1のターゲットドメイン生成ワードと第1のソースドメイン生成ワードを取得するために用いられ、
前記装置は、
ターゲットドメインサンプルワードを前記第2の生成ネットワークに入力して、第2のターゲットドメイン生成ワードと第2のソースドメイン生成ワードを取得するために用いられる第2の生成モジュールと、
前記ソースドメインサンプルワード、第1のターゲットドメイン生成ワード、第1のソースドメイン生成ワード、ターゲットドメインサンプルワード、第2のターゲットドメイン生成ワード、および第2のソースドメイン生成ワードによって、前記サイクル生成ネットワークモデルの生成損失を計算するために用いられる第3の計算モジュールと、
前記生成損失に従って前記第1の生成モデルのパラメータを調整するために用いられる第2の調整モジュールと、をさらに含む
サイクル生成ネットワークモデルのトレーニング装置。
【請求項18】
請求項17に記載の装置において、
前記第1の調整モジュールは、前記誤字損失および特徴損失に従って前記第1の生成モデルのパラメータを調整するために用いられる
サイクル生成ネットワークモデルのトレーニング装置。
【請求項19】
請求項11~18のいずれか一項に記載の装置において、
前記ソースドメインサンプルワードは、ソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプルワードは、ターゲットドメインフォントスタイルを有する画像である
サイクル生成ネットワークモデルのトレーニング装置。
【請求項20】
ソースドメイン入力ワードをサイクル生成ネットワークモデルに入力して、ターゲットドメインの新規ワードを取得するために用いられる第3の生成モジュールと、
前記ターゲットドメインの新規ワードに基づいてフォントライブラリを確立するために用いられるフォントライブラリ確立モジュールと、を含み、
ここで、前記サイクル生成ネットワークモデルは、請求項11~19のいずれか一項に記載の装置によってトレーニングして得られる
フォントライブラリの確立装置。
【請求項21】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を含み、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサが請求項1~10のいずれか一項に記載の方法を実行するように、前記少なくとも1つのプロセッサによって実行される
電子機器。
【請求項22】
コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項1~10のいずれか一項に記載の方法を実行させる
記憶媒体。
【請求項23】
プロセッサによって実行されたときに、請求項1~10のいずれか一項に記載の方法を実現する
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能技術の分野、特に、コンピュータビジョンおよびディープラーニング技術に関し、画像処理および画像認識などのシナリオに適用することができる。より具体的には、本開示は、サイクル生成ネットワークモデルのトレーニング方法及び装置、フォントライブラリの確立方法及び装置、電子機器、記憶媒体およびコンピュータプログラムを提供する。
【背景技術】
【0002】
インターネットの急速な発展に伴い、人々は、画像スタイルの多様性に対する要求がますます高くなっている。例えば、様々なスタイルのフォントの生成は、広範な研究および注目を集めている。
【発明の概要】
【課題を解決するための手段】
【0003】
本開示は、サイクル生成ネットワークモデルのトレーニング方法及び装置、フォントライブラリの確立方法及び装置、電子機器、記憶媒体およびコンピュータプログラムを提供する。
【0004】
第1の方面によれば、サイクル生成ネットワークモデルのトレーニング方法を提供し、当該方法は、ソースドメインサンプルワードをサイクル生成ネットワークモデルに入力して、第1のターゲットドメイン生成ワードを取得することと、トレーニングされた文字分類モデルに第1のターゲットドメイン生成ワードを入力することによって、サイクル生成ネットワークモデルの誤字損失を計算することと、第1のターゲットドメイン生成ワードおよび予め設定されたターゲットドメインサンプルワードを文字分類モデルに入力することによって、サイクル生成ネットワークモデルの特徴損失を計算することと、誤字損失および特徴損失に従ってサイクル生成ネットワークモデルのパラメータを調整することと、を含む。
【0005】
第2の方面によれば、フォントライブラリの確立方法を提供し、当該方法は、ソースドメイン入力ワードをサイクル生成ネットワークモデルに入力して、ターゲットドメインの新規ワードを取得することと、ターゲットドメインの新規ワードに基づいてフォントライブラリを確立することと、を含み、サイクル生成ネットワークモデルは、上記サイクル生成ネットワークモデルのトレーニング方法によってトレーニングして得られる。
【0006】
第3の方面によれば、サイクル生成ネットワークモデルのトレーニング装置を提供し、当該装置は、ソースドメインサンプルワードをサイクル生成ネットワークモデルに入力して、第1のターゲットドメイン生成ワードを取得するために用いられる第1の生成モジュールと、トレーニングされた文字分類モデルに第1のターゲットドメイン生成ワードを入力することによって、サイクル生成ネットワークモデルの誤字損失を計算するために用いられる第1の計算モジュールと、第1のターゲットドメイン生成ワードおよび予め設定されたターゲットドメインサンプルワードを文字分類モデルに入力することによって、サイクル生成ネットワークモデルの特徴損失を計算するために用いられる第2の計算モジュールと、誤字損失および特徴損失に従ってサイクル生成ネットワークモデルのパラメータを調整するために用いられる第1の調整モジュールと、を含む。
【0007】
第4の方面によれば、フォントライブラリの確立装置を提供し、当該装置は、ソースドメイン入力ワードをサイクル生成ネットワークモデルに入力して、ターゲットドメインの新規ワードを取得するために用いられる第3の生成モジュールと、ターゲットドメインの新規ワードに基づいてフォントライブラリを確立するために用いられるフォントライブラリ確立モジュールと、を含み、ここで、サイクル生成ネットワークモデルは、上記サイクル生成ネットワークモデルのトレーニング装置によってトレーニングして得られる。
【0008】
第5の方面によれば、電子機器を提供し、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信接続されたメモリと、を含み、ここで、メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶し、命令は、少なくとも1つのプロセッサが本開示により提供した方法を実行するように、少なくとも1つのプロセッサによって実行される。
【0009】
第6の方面によれば、コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体を提供し、当該コンピュータ命令は、コンピュータに本開示により提供した方法を実行させる。
【0010】
第7の方面によれば、プロセッサによって実行されたときに、本開示により提供した方法を実現するコンピュータプログラム。
【0011】
理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
【0012】
図面は、本技術案をよりよく理解するためのものであり、本開示を限定するものではない。
【図面の簡単な説明】
【0013】
図1図1は、本開示の一実施例による、サイクル生成ネットワークモデルのトレーニング方法および/またはフォントライブラリの確立方法を適用することができる例示的なシステムアーキテクチャの概略図である。
図2図2は、本開示の一実施例による、サイクル生成ネットワークモデルのトレーニング方法のフローチャートである。
図3A図3Aは、本開示の一実施例による、サイクル生成ネットワークモデルのトレーニング方法の原理図である。
図3B図3Bは、本開示の一実施例による、サイクル生成ネットワークモデルの構造原理図である。
図3C図3Cは、本開示の一実施例による、サイクル生成ネットワークモデルの構造原理図である。
図4A図4Aは、本開示の一実施例による、特徴損失の可視化効果図である。
図4B図4Bは、本開示の一実施例による、特徴損失の可視化効果図である。
図5図5は、本開示の一実施例による、特徴損失を使用した効果比較図である。
図6図6は、本開示の一実施例による誤字損失を使用した効果比較図である。
図7図7は、本開示の一実施例による、サイクル生成ネットワークモデルを使用して、ソースドメインサンプルワードに基づいてターゲットドメイン生成ワードを生成する効果図である。
図8図8は、本開示の一実施例による、フォントライブラリの確立方法のフローチャートである。
図9図9は、本開示の一実施例による、サイクル生成ネットワークモデルのトレーニング装置のブロック図である。
図10図10は、本開示の一実施例による、フォントライブラリの確立装置のブロック図である。
図11図11は、本開示の一実施例による、サイクル生成ネットワークモデルのトレーニング方法および/またはフォントライブラリの確立方法の電子機器のブロック図である。
【発明を実施するための形態】
【0014】
以下、添付の図面を組み合わせ、本開示の例示的な実施例を説明し、理解を容易にするために本開示の実施例の様々な詳細を含むが、それらは単に例示的なものとみなされるべきである。したがって、当業者は、本開示の範囲および精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更および修正を行うことができることを認識するであろう。同様に、明確化および簡潔化のために、以下の説明では、周知の機能及び構成についての記載は省略される。
【0015】
フォントの生成は、画像スタイルの移行の分野における新たに登場したタスクであり、画像スタイルの移行は、コンテンツを変更せずに画像を別のスタイルに変換することであって、ディープラーニングアプリケーションでの人気のある研究方向である。
【0016】
現在、GAN(Generative Adversarial Networks、生成式対抗ネットワーク)モデルを使用してフォント生成を実現することができる。ただし、GANモデルに基づくフォント生成方案では、少量のデータでトレーニングされたネットワークは、傾き、サイズ、部分的なストロークなどの比較的弱い特徴しか学習できなく、ユーザのスタイルを最も有する特徴を学習することができない。大量のデータでトレーニングされたネットワークを使用してもよく、スタイルが強いが、トレーニングセット以外の漢字については、誤字が発生しやすくなる。これらの主流の研究結果は、いずれもフォントレベルの効果を達成することは困難である。
【0017】
本開示の実施例は、サイクル生成ネットワークモデルのトレーニング方法および、当該ネットワークモデルを使用するフォントライブラリの確立方法を提案する。サイクル生成ネットワークCycleGAN(Cycle Generative Adversarial Networks:サイクル生成式対抗ネットワーク、単にサイクル生成ネットワークと呼び)を使用することによって、フォント生成を実現し、文字分類モデルを使用して誤字損失と特徴損失を導入し、サイクル生成ネットワークモデルのフォント特徴学習能力を向上させ、誤字が発生する確率を低減する。
【0018】
本開示の実施例では、サイクル生成ネットワークモデルは、ソースドメインとターゲットドメインとの間にスタイルの移行を実現することができる。サイクル生成ネットワークモデルには、2つの生成モデルと2つの判別モデルが含まれる。2つの生成モデルは、それぞれGeneratorA2BとGeneratorB2Aである。GeneratorA2Bは、スタイルAの画像をスタイルBの画像に変換するために使用され、GeneratorB2AはスタイルBの画像をスタイルAの画像に変換するために使用される。2つの判別モデルは、それぞれDiscriminator AとDiscriminator Bである。Discriminator Aは、変換された画像がスタイルAに属する画像であるかどうかを判別するために使用され、Discriminator Bは、変換された画像がスタイルBに属する画像であるかどうかを判別するために使用される。
【0019】
サイクル生成ネットワークモデルのトレーニングプロセスでは、2つの生成モデルのトレーニング目標は、ターゲットドメインスタイル(またはソースドメインスタイル)を有する画像を可能な限りに生成することであり、判別モデルのトレーニング目標は、生成モデルによって生成された画像を真実のターゲットドメイン画像(またはソースドメイン画像)画像と区別することである。トレーニングプロセスでは、生成モデル及び判別モデルを絶えず更新し最適化することにより、2つの生成モデルがスタイルの移行を実現する能力がますます強くなり、かつ2つの判別モデルが生成画像及び真実の画像を判別する能力もますます強くなる。
【0020】
本開示の技術案において、係るユーザの個人情報の収集、記憶、使用、加工、伝送、提供及び開示等の処理は、いずれも関連法律・法規の規定に適合し、かつ公序良俗に反するものではない。
【0021】
図1は、本開示の一実施例による、サイクル生成ネットワークモデルのトレーニング方法および/またはフォントライブラリの確立方法を適用することができる例示的なシステムアーキテクチャの概略図である。当業者が本開示の技術内容を理解しやすくように、図1は、本開示の実施例を適用可能なシステムアーキテクチャの例示のみを示し、それは、本開示の実施例が他の機器、システム、環境、またはシナリオに使用することはできないことを意味しない。
【0022】
図1に示されるように、この実施例によるシステムアーキテクチャ100は、複数の端末機器101、ネットワーク102、サーバ103を含み得る。ネットワーク102は、端末機器101とサーバ103との間に通信リンクを提供する媒体である。ネットワーク102は、例えば有線および/または無線通信リンクなどの様々な接続タイプを含み得る。
【0023】
ユーザは、端末機器101を使用して、ネットワーク102を介してサーバ103と対話し、メッセージなどを送受信することができる。端末機器101は、様々な電子機器であることができ、スマートフォン、タブレットコンピュータ、ラップトップポータブルコンピュータなどを含むがこれらに限定されない。
【0024】
本開示の実施例によって提供されるサイクル生成ネットワークモデルのトレーニング方法および/またはフォントライブラリの確立方法の少なくとも1つは、一般にサーバ103によって実行され得る。相応的に、本開示の実施例によって提供されるサイクル生成ネットワークモデルのトレーニング装置および/またはフォントライブラリの確立装置は、一般に、サーバ103に設定され得る。本開示の実施例によって提供されるサイクル生成ネットワークモデルのトレーニング方法および/またはフォントライブラリの確立方法は、サーバ103と異なり且つ端末機器101および/またはサーバー103と通信可能なサーバまたはサーバクラスタによって実行してもよい。相応的に、本開示の実施例によって提供されるサイクル生成ネットワークモデルのトレーニング装置および/またはフォントライブラリの確立装置は、サーバ103と異なり且つ端末機器101および/またはサーバー103と通信可能なサーバまたはサーバクラスタに設定されでもよい。
【0025】
図2は、本開示の一実施例による、サイクル生成ネットワークモデルのトレーニング方法のフローチャートである。
【0026】
図2に示されるように、当該サイクル生成ネットワークモデルのトレーニング方法200は、操作S210~操作S240を含み得る。
【0027】
操作S210において、ソースドメインサンプルワードをサイクル生成ネットワークモデルに入力して、第1のターゲットドメイン生成ワードを取得する。
【0028】
例えば、ソースドメインのサンプルワードは、ソースドメインのフォントスタイルを有する画像であることができ、ソースドメインのフォントスタイルは、楷体、宋朝体、太字などの通常のフォントであることができる。第1のターゲットドメイン生成ワードは、ターゲットドメインのフォントスタイルを有する画像であることができ、ターゲットドメインのフォントスタイルは、ユーザの手書きフォントスタイルまたは他の芸術的なフォントスタイルであることができる。
【0029】
ソースドメインのサンプルワードをサイクル生成ネットワークモデルに入力し、サイクル生成ネットワークモデルは、第1のターゲットドメイン生成ワードを出力する。例えば、楷体字である「做」を含む画像を、サイクル生成ネットワークモデルに入力し、サイクル生成ネットワークモデルは、手書き字である「做」を含む画像を出力することができる。
【0030】
操作S220において、トレーニングされた文字分類モデルに第1のターゲットドメイン生成ワードを入力することによって、サイクル生成ネットワークモデルの誤字損失を計算する。
【0031】
例えば、トレーニングされた文字分類モデルは、VGG19(Visual Geometry Group19)ネットワークでトレーニングして取得できる。文字分類モデルのトレーニングサンプルは、複数のフォントを含む画像であることができる。例えば、トレーニングサンプルは、80種以上のフォントと6,700個以上のワードを含む約450,000枚の画像であることができる。
【0032】
【数1】
【0033】
【数2】
【0034】
操作S230において、第1のターゲットドメイン生成ワードおよび予め設定されたターゲットドメインサンプルワードを文字分類モデルに入力することによって、サイクル生成ネットワークモデルの特徴損失を計算する。
【0035】
例えば、第1のターゲットドメイン生成ワードは、サイクル生成ネットワークモデルによって生成された手書き字である「做」を含む画像であり、ターゲットドメインサンプルワードは、手書き字である「做」を含む真実の画像である。当該ユーザの実際に手書きによって生成された画像は、公開データセットから取得されてもよく、または、ユーザの許可によって取得されてもよい。
【0036】
文字分類モデルは、複数の特徴層(例えば、90個の特徴層)を含み、第1のターゲットドメイン生成ワードをサイクル生成ネットワークモデルに入力して、各層によって出力された生成特徴図を取得することができる。ターゲットドメインサンプルワードをサイクル生成ネットワークモデルに入力して、各層によって出力されたサンプル特徴図を取得することができる。
【0037】
各特徴層によって出力された生成特徴図とサンプル特徴図との差に応じて、当該層の特徴損失を決定することができる。一例では、複数層の特徴層における少なくとも1つの所定層(例えば、第45層および第46層)の特徴損失の合計を、全体的な特徴損失として選択することができる。
【0038】
上記の全体的な特徴損失により、サイクル生成ネットワークモデルに、第1のターゲットドメイン生成ワードとターゲットドメインサンプルワードとの間の大幅に異なる特徴を学習させることができる。これにより、サイクル生成ネットワークモデルは、より多くのフォントの詳細を学習することができ、サイクル生成ネットワークモデルのフォント特徴学習能力を向上させる。
【0039】
操作S240において、誤字損失および特徴損失に基づいて、サイクル生成ネットワークモデルのパラメータを調整する。
【0040】
例えば、上記の誤字損失と特徴損失の合計に基づいて、サイクル生成ネットワークモデルのパラメータを調整し、更新されたサイクル生成ネットワークモデルを取得することができる。次のソースドメインのサンプルワードについては、更新されたサイクル生成ネットワークモデルを使用し、操作S210に戻り、トレーニングを繰り返して、予め設定されたトレーニング停止条件に達すれば、生成モデルのパラメータの調整を停止して、トレーニングされたサイクル生成ネットワークモデルを取得する。トレーニング停止条件には、上記の誤字損失と特徴損失との合計の収束などが含まれる。
【0041】
本開示の実施例は、サイクル生成ネットワークモデルを使用して、ソースドメインサンプルワードに基づいてターゲットドメイン生成ワードを生成し、複数のスタイルのフォントの生成を実現することができる。また、文字分類モデルを使用して誤字損失と特徴損失を導入することにより、サイクル生成ネットワークモデルのフォント特徴学習能力を向上させ、誤字を生成する確率を低減することができる。
【0042】
図3Aは、本開示の一実施例による、サイクル生成ネットワークモデルのトレーニング方法の原理図である。
【0043】
図3B~3Cは、本開示の一実施例による、サイクル生成ネットワークモデルの構造原理図である。
【0044】
図3Aに示されるように、当該原理図は、サイクル生成ネットワークモデル310および文字分類モデル320を含む。ソースドメインサンプルワード301をサイクル生成ネットワークモデル310に入力して、第1のターゲットドメイン生成ワード302を取得する。ソースドメインサンプルワード301、第1のターゲットドメイン生成ワード302、およびターゲットドメインサンプルワード304によって、サイクル生成ネットワークモデル310の生成損失3101を計算することができる。第1のターゲットドメイン生成ワード302およびターゲットドメインサンプルワード304を文字分類モデル320に入力し、文字分類モデル320の出力結果によって、誤字損失3201および特徴損失3202を計算することができる。
【0045】
生成損失3101、誤字損失3201、および特徴損失3202によって、サイクル生成ネットワークモデル310のパラメータを調整することができる。
【0046】
図3Bおよび3Cに示されるように、サイクル生成ネットワークモデル310は、第1の生成モデル311、第2の生成モデル312、第1の判別モデル313、および第2の判別モデル314を含む。第1の生成モデル311は、ソースドメインフォントスタイルの画像をターゲットドメインフォントスタイルの画像に変換するために使用され、第2の生成モデル312は、ターゲットドメインフォントスタイルの画像をソースドメインフォントスタイルの画像に変換するために使用される。第1の判別モデル313は、変換された画像がソースドメインフォントスタイルに属する画像であるかどうかを判別するために使用され、第2の判別モデル314は、変換された画像がターゲットドメインフォントスタイルに属する画像であるかどうかを判別するために使用される。
【0047】
上記のサイクル生成ネットワークモデル310の構造に基づいて、サイクル生成ネットワークモデル310は、2つのサイクル作業プロセスを含み得る。図3Bは、ソースドメインサンプルワードを第1の生成モデル311に入力して、第1のターゲットドメイン生成ワードを取得し、第1のターゲットドメイン生成ワードを第2の生成モデル312に入力して、第1のソースドメイン生成ワードを取得するというサイクル生成ネットワークモデル310の第1のサイクリック作業プロセスを示す。図3Cは、ターゲットドメインサンプルワードを第2の生成モデル312に入力して、第2のソースドメイン生成ワードを取得し、第2のソースドメイン生成ワードを第1の生成モデル311に入力して、第2のターゲットドメイン生成ワードを取得するというサイクル生成ネットワークモデル310の第2のサイクリック作業プロセスを示す。これによって、サイクル生成ネットワークモデル310のサンプルは、ペアリングされていない画像であってもよく、トレーニングデータ間の1対1のマッピングを確立する必要がない。
【0048】
サイクル生成ネットワークモデル310の損失は、生成損失3101および判別損失を含む。以下、サイクル生成ネットワークモデル310の生成損失3101および判別損失について説明する。
【0049】
図3Bに示されるように、ソースドメインサンプルワード301(例えば、楷体字を含む画像であり、単に楷体字の画像と呼ばれる)を第1の生成モデル311に入力して、第1のターゲットドメイン生成ワード302(例えば、手書き字を含む画像であり、単に手書き字の画像と呼ばれる)を取得し、第1のターゲットドメイン生成ワード302(手書き字の画像)を、第2の生成モデル312に入力して、第1のソースドメイン生成ワード(楷体字の画像)を取得するというサイクル生成ネットワークモデル310の第1のサイクル作業プロセスである。
【0050】
第1のサイクル作業プロセスでは、ソースドメインサンプルワード301は真実の楷体字の画像であり、第1のソースドメイン生成ワード303は、モデルによって生成された楷体字の画像であり、偽の楷体字の画像と呼ぶことができる。第1のターゲットドメイン生成ワード302は、モデルによって生成された手書き字の画像であり、偽の手書き字の画像と呼ぶことができる。トレーニングプロセスでは、ソースドメインサンプルワード301を真real(例えば、値は1)にマークし、第1のターゲットドメイン生成ワード302を偽Fake(例えば、値は0)にマークすることができる。
【0051】
【数3】
【0052】
【数4】
【0053】
【数5】
【0054】
ソースドメインサンプルワード301を第1の生成モデル311に入力することによって得られる第1ソースドメイン生成ワード303がスタイル変換のみであり、内容が変更されないことを保証するために、第1の生成モデル311に対して、一つのcycle-consistency loss(サイクル整合性損失)を追加することができる。当該損失は、ソースドメインサンプルワード301と第1のソースドメイン生成ワード303との差に基づいて計算される。例えば、ソースドメインサンプルワード301と第1のソースドメイン生成ワード303との2つの画像の各対応的なピクセルのピクセル値を差分して絶対値を求め、各ピクセルの差が得られ、全てのピクセルの差を合計して第1の生成モデル311のサイクル整合性損失を取得し、L1A2Bとして表すことができる。
【0055】
【数6】
【0056】
図3Cに示されるように、ターゲットドメインサンプルワード304(例えば、手書き字を含む画像であって、単に手書き字の画像と呼ばれる)を第2の生成モデル312に入力して、第2のソースドメイン生成ワード305(例えば、楷体字を含む画像であって、単に楷体字の画像と呼ばれる)を取得し、第2のソースドメイン生成ワード305(楷体字の画像)を第1の生成モデル311に入力して、第2のターゲットドメイン生成ワード306(手書き字の画像)を取得するというサイクル生成ネットワークモデル310の第2のサイクル作業プロセスである。
【0057】
第2のサイクル作業プロセスにおいて、ターゲットドメインサンプルワード304は、真実の手書き字の画像であり、第2のターゲットドメイン生成ワード306は、モデルによって生成された手書き字の画像であり、偽の手書き字の画像と呼ぶことができる。第2のソースドメイン生成ワード305は、モデルによって生成された楷体字の画像であり、偽の楷体字の画像と呼ぶことができる。トレーニングプロセスでは、ターゲットドメインサンプルワード304を真Real(例えば、値は1)にマークし、第2のソースドメイン生成ワード305を偽Fake(例えば、値は0)にマークすることができる。
【0058】
【数7】
【0059】
【数8】
【0060】
【数9】
【0061】
ターゲットドメインサンプルワード304を第2の生成モデル312に入力することによって得られる第2のターゲットドメイン生成ワード306がスタイル変換のみであり、内容が変更されないことを保証するために、第2の生成モデル312に対して、1つのcycle-consistency loss(サイクル整合性損失)を追加することができる。当該損失は、ターゲットドメインサンプルワード304と第2のターゲットドメイン生成ワード306との差に基づいて計算して得られる。例えば、ターゲットドメインサンプルワード304と第2のターゲットドメイン生成ワード306との2つの画像の各対応的なピクセルのピクセル値を差分し、絶対値を求めて、各ピクセルの差が得られ、全てのピクセルの差を合計して第2の生成モデル312のサイクル整合性損失を取得し、L1B2Aとして表すことができる。
【0062】
【数10】
【0063】
【数11】
【0064】
ここで、Lは、サイクル生成ネットワークモデル310の生成損失3101を表し、第1の生成モデル311および第2の生成モデル312のパラメータを調整することに用いられる。
【0065】
サイクル生成ネットワークモデル310の判別損失は、第1の判別モデル313の判別損失および第2の判別モデル314の判別損失を含む。
【0066】
【数12】
【0067】
第1の判別モデル313の判別損失Lは、第1の判別モデル313のパラメータを調整することに用いられる。
【0068】
【数13】
【0069】
第2の判別モデル314の判別損失Lは、第2の判別モデル314のパラメータを調整することに用いられる。
【0070】
以下、文字分類モデル320により生成する誤字損失3201および特徴損失3202について説明する。
【0071】
【数14】
【0072】
【数15】
【0073】
【数16】
【0074】
【数17】
【0075】
【数18】
【0076】
本開示の実施例によれば、誤字損失3201は、サイクル生成ネットワークモデル310によって出力される第1のターゲットドメイン生成ワード302の誤字率を制限することに用いられ、それにより、サイクル生成ネットワークモデル310が誤字を生成する確率を低減する。
【0077】
文字分類モデル320は、複数の特徴層(例えば、90個の特徴層)を含み得る。第1のターゲットドメイン生成ワード302をサイクル生成ネットワークモデル310に入力し、各層によって出力された生成特徴図を取得することができる。ターゲットドメインサンプルワード304をサイクル生成ネットワークモデル310に入力し、各層によって出力されたサンプル特徴図を取得することができる。
【0078】
各特徴層によって出力された生成特徴図とサンプル特徴図との間のピクセル差について、この層のピクセル損失を決定することができる。例えば、各特徴層において、当該特徴層から出力された生成特徴図とサンプル特徴図の2つの画像の各対応的なピクセルのピクセル値を差分し、絶対値を求めて、各ピクセルの差が得られる。全てのピクセルの差を合計して当該特徴層のピクセル損失を取得する。
【0079】
複数層の特徴層における少なくとも1つの所定層(例えば、第45層および第46層)のピクセル損失の合計を、特徴損失3202として選択することができる。
【0080】
上記の特徴損失3202を使用して、第1の生成モデル311のパラメータを調整することができ、その結果、サイクル生成ネットワークモデル310に、第1のターゲットドメイン生成ワード302とターゲットドメインサンプルワード304との間で大幅に異なる特徴を学習させる。これにより、サイクル生成ネットワークモデル310はより多くのフォントの詳細を学習し、サイクル生成ネットワークモデルのフォント特徴の学習能力を向上させる。
【0081】
図4A~4Bは、本開示の一実施例による特徴損失の可視化効果図である。
図4Aに示すように、ターゲットドメインサンプルワード401は、真実の手書き字「神」を含む画像であり、すなわち、ターゲットドメインサンプルワード401における「神」は、ユーザによる真実の手書き字である。第1のターゲットドメイン生成ワード402は、サイクル生成ネットワークモデルによって生成された手書き字「神」を含む画像であり、ターゲットドメインサンプルワード401および第1のターゲットドメイン生成ワード402のサイズは両方とも256*256である。ターゲットドメインサンプルワード401および第1のターゲットドメイン生成ワード402は、文字分類モデルに入力され、文字分類モデルの第1の所定層から、それぞれサンプル特徴図とサンプル特徴図を出力する。サンプル特徴図とサンプル特徴図のサイズは両方とも64*64である。これら2つの64*64の画像についてピクセル差を計算した後、この2つの画像間の差を示す熱力効果図403を取得する。熱力効果図403も64*64の画像である。熱力効果図403において、色が濃いほど、ターゲットドメインサンプルワード401と第1のターゲットドメイン生成ワード402との間の差が大きくなる。これによって、サイクル生成ネットワークモデルが、熱力効果図403における色の深い部位の特徴をより集中して学習し、サイクル生成ネットワークモデルの特徴学習の能力を向上させることができる。
【0082】
同様に、図4Bに示すように、ターゲットドメインサンプルワード401および第1のターゲットドメイン生成ワード402は、文字分類モデルに入力され、文字分類モデルの第2の所定層から、サンプル特徴図およびサンプル特徴図がそれぞれ出力される。サンプル特徴図とサンプル特徴図とのサイズは両方とも32*32である。これら2つの32*32の画像間のピクセル差を計算した後、2つの画像間の差を示す熱力効果図404を取得する。熱力効果図404も32 *32の画像である。熱力効果図404において、色が濃いほど、ターゲットドメインサンプルワード401と第1のターゲットドメイン生成ワード402との間の差が大きくなる。これによって、サイクル生成ネットワークモデルが、熱力効果図403における色の深い部位の特徴をより集中して学習し、サイクル生成ネットワークモデルの特徴学習の能力を向上させることができる。
【0083】
熱力効果図403と熱力効果図404を組み合わせて、サイクル生成ネットワークモデルに、ターゲットドメインサンプルワード401と第1のターゲットドメイン生成ワード402との間の大幅に異なる特徴を学習させて、サイクル生成ネットワークモデルの特性学習能力を向上させる。
【0084】
図5は、本開示の一実施例による特徴損失を使用した効果比較図である。
【0085】
【数19】
【0086】
図6は、本開示の一実施例による誤字損失を使用する効果の比較図である。
図6に示すように、画像601は、誤字損失によってサイクル生成ネットワークモデルを制限しておらず生成された手書き字「伶」を含む画像である。画像602は、誤字損失によってサイクル生成ネットワークモデルを制限して生成された手書き字「伶」を含む画像である。画像601における「伶」は、正しい字「伶」と比較して、一の点が少ないが、画像602における「伶」は正しい「伶」である。したがって、誤字損失によってサイクル生成ネットワークモデルを制限すれば、正しい文字を学習することができ、誤字率を低減することができる。
【0087】
図7は、本開示の一実施例による、サイクル生成ネットワークモデルを使用してソースドメインサンプルワードに基づいてターゲットドメイン生成ワードを生成する効果図である。
【0088】
図7に示すように、画像701における文字は、実際にユーザによって手書きされた文字であり、画像702における文字は、サイクル生成ネットワークモデルによって生成された文字であり、画像702における文字は、ユーザが実際に手書きされた文字のフォントスタイルを有する。
【0089】
本開示の実施例は、サイクル生成ネットワークモデルを使用してソースドメインサンプルワードに基づいてターゲットドメイン生成ワードを生成することによって、複数のスタイルのフォント生成を実現でき、且つ文字分類モデルを使用して誤字損失および特徴損失を導入することによって、サイクル生成ネットワークモデルがフォント特徴を学習する能力を向上し、誤字を生成する確率を低減することができる。
【0090】
図8は、本開示の一実施例によるフォントライブラリの確立方法のフローチャートである。
【0091】
図8に示すように、当該フォントライブラリの確立方法800は、操作S810~S820を含む。
【0092】
操作S810において、ソースドメイン入力ワードをサイクル生成ネットワークモデルに入力して、ターゲットドメインの新規ワードを取得する。
【0093】
サイクル生成ネットワークモデルは、サイクル生成ネットワークモデルのトレーニング方法によってトレーニングして得られる。
【0094】
例えば、ソースドメインの入力ワードは、楷体字の画像であり、新規ワードは、手書き字の画像であり、楷体字の画像をサイクル生成ネットワークモデルに入力し、手書き字の画像を取得することができる。
【0095】
操作S820では、ターゲットドメインの新規ワードに基づいてフォントライブラリを確立する。
【0096】
例えば、サイクル生成ネットワークモデルによって生成された新規ワードを記憶し、手書きフォントスタイルのフォントライブラリを確立する。このフォントライブラリは、入力方法に適用されることができる。ユーザは、当該フォントライブラリに基づく入力方法を使用して手書きフォントスタイルの文字を直接に取得することができ、ユーザの多様化のニーズを満たすことができ、ユーザ体験を向上させる。
【0097】
図9は、本開示の一実施例によるサイクル生成ネットワークモデルのトレーニング装置のブロック図である。
【0098】
図9に示すように、当該サイクル生成ネットワークモデル900は、第1の生成モジュール901、第1の計算モジュール902、第2の計算モジュール903および第1の調整モジュール904を含み得る。
【0099】
第1の生成モジュール901は、ソースドメインサンプルワードをサイクル生成ネットワークモデルに入力して、第1のターゲットドメイン生成ワードを取得するために用いられる。
【0100】
第1の計算モジュール902は、トレーニングされた文字分類モデルに第1のターゲットドメイン生成ワードを入力することによって、サイクル生成ネットワークモデルの誤字損失を計算するために用いられる。
【0101】
第2の計算モジュール903は、第1のターゲットドメイン生成ワードおよび予め設定されたターゲットドメインサンプルワードを文字分類モデルに入力することによって、サイクル生成ネットワークモデルの特徴損失を計算するために用いられる。
【0102】
第1の調整モジュール904は、誤字損失および特徴損失によってサイクル生成ネットワークモデルのパラメータを調整するために用いられる。
【0103】
本開示の実施例によれば、第1の計算モジュール902は、文字ベクトル生成ユニットおよび誤字損失計算ユニットを含む。
【0104】
文字ベクトル生成ユニットは、トレーニングされた文字分類モデルに第1のターゲットドメイン生成ワードを入力して、第1のターゲットドメイン生成ワードの生成文字ベクトルを取得するために用いられる。
【0105】
誤字損失計算ユニットは、生成文字ベクトルと予め設定された標準文字ベクトルとの間の差に応じて誤字損失を計算するために用いられる。
【0106】
本開示の実施例によれば、誤字損失計算ユニットは、以下の式に従って誤字損失Lを計算するために用いられる。
【0107】
【数20】
【0108】
本開示の実施例によれば、文字分類モデルは、複数の特徴層を含み、第2の計算モジュール903は、第1の特徴図生成ユニット、第2の特徴図生成ユニットおよび特徴損失計算ユニットを含む。
【0109】
第1の特徴図生成ユニットは、第1のターゲットドメイン生成ワードを文字分類モデルに入力して、文字分類モデルの各特徴層によって出力された生成特徴図を取得するために用いられる。
【0110】
第2の特徴図生成ユニットは、ターゲットドメインサンプルワードを文字分類モデルに入力して、文字分類モデルの各特徴層によって出力されたサンプル特徴図を取得するために用いられる。
【0111】
特徴損失計算ユニットは、少なくとも1つの特徴層の生成特徴図とサンプル特徴図との間の差に従って特徴損失を計算するために用いられる。
【0112】
本開示の実施例によれば、特徴損失計算ユニットは、ピクセル損失計算サブユニットおよび特徴損失計算サブユニットを含む。
【0113】
ピクセル損失計算サブユニットは、少なくとも1つの特徴層の各層について、当該特徴層の生成特徴図とサンプル特徴図との間のピクセル差を計算し、当該特徴層のピクセル損失を取得するために用いられる。
【0114】
特徴損失計算サブユニットは、少なくとも1つの特徴層のピクセル損失に従って、特徴損失を計算するために用いられる。
【0115】
本開示の実施例によれば、ピクセル損失計算サブユニットは、生成特徴図中の各位置のピクセルについて、このピクセルのピクセル値とサンプル特徴図における対応位置でのピクセルのピクセル値との間の差の絶対値を計算し、各位置のピクセルに対する差を取得し、複数の位置のピクセルの差に応じて、生成特徴図とサンプル特徴図との間のピクセル差を決定するために用いられる。
【0116】
本開示の実施例によれば、サイクル生成ネットワークモデルは、第1の生成モデルおよび第2の生成モデルを含む。第1の生成モジュールは、ソースドメインサンプルワードを第1の生成モデルに入力して、第1のターゲットドメイン生成ワードと第1のソースドメイン生成ワードを取得するために用いられる。当該装置は、ターゲットドメインサンプルワードを第2の生成ネットワークに入力して第2のターゲットドメイン生成ワードと第2のソースドメイン生成ワードを取得するために用いられる第2の生成モジュールと、ソースドメインサンプルワード、第1のターゲットドメイン生成ワード、第1のソースドメイン生成ワード、ターゲットドメインサンプルワード、第2のターゲットドメイン生成ワード、および第2のソースドメイン生成ワードによって、サイクル生成ネットワークモデルの生成損失を計算するために用いられる第3の計算モジュールと、生成損失によって、第1の生成モデルのパラメータを調整するために用いられる第2の調整モジュールと、をさらに含む。
【0117】
本開示の実施例によれば、第1の調整モジュールは、誤字損失および特徴損失によって第1の生成モデルのパラメータを調整するために用いられる。
【0118】
本開示の実施例によれば、ソースドメインサンプルワードは、ソースドメインフォントスタイルを有する画像であり、ターゲットドメインサンプルワードは、ターゲットドメインフォントスタイルを有する画像である。
【0119】
図10は、本開示の一実施例による、フォントライブラリの確立装置のブロック図である。
【0120】
図10に示すように、当該フォントライブラリの確立装置1000は、第3の生成モジュールおよびフォントライブラリ確立モジュールを含み得る。
【0121】
第3の生成モジュールは、ソースドメイン入力ワードをサイクル生成ネットワークモデルに入力して、ターゲットドメインの新規ワードを取得するために用いられる。
【0122】
フォントライブラリ確立モジュールは、ターゲットドメインの新規ワードに基づいてフォントライブラリを確立するために用いられる。
【0123】
サイクル生成ネットワークモデルは、上記のサイクル生成ネットワークモデルのトレーニング装置によってトレーニングして得られる。
【0124】
本開示の実施例によれば、本開示は、さらに電子機器、可読記憶媒体及びコンピュータプログラムを提供する。
【0125】
図11は、本開示の実施例を実施することが可能な例示的な電子機器1100の例示的なブロック図を示す。電子機器は、様々な形式のデジタルコンピュータを示すことを目的とし、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータである。電子機器は、さらに様々な形式の移動装置を示してもよく、例えば、個人デジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似の計算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は、例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定しない。
【0126】
図11に示すように、電子機器1100は、計算ユニット1101を含み、リードオンリーメモリ(ROM)1102に記憶されたコンピュータプログラム又は記憶ユニット1108からランダムアクセスメモリ(RAM)1103にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM1103には、さらに電子機器1100の操作に必要な様々なプログラム及びデータを記憶してもよい。計算ユニット1101、ROM1102、およびRAM1103は、バス1104を介して相互に接続される。入出力(I/O)インタフェース1105も、バス1104に接続される。
【0127】
電子機器1100における複数の部品は、I/Oインタフェース1105に接続され、I/Oインタフェース1105は、例えばキーボード、マウス等の入力ユニット1106と、例えば様々な種類のディスプレイ、スピーカ等の出力ユニット1107と、例えば磁気ディスク、光ディスク等の記憶ユニット1108と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット1109とを含む。通信ユニット1109は、電子機器1100がインターネット等のコンピュータネットワーク及び/又は各種の電気通信ネットワークを介して他の機器と情報・データをやり取りすることを可能にする。
【0128】
計算ユニット1101は、処理及び計算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算ユニット1101の幾つかの例示としては、中央処理装置(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)計算チップ、各種機械学習モデルアルゴリズムの計算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算ユニット1101は、例えばサイクル生成ネットワークモデルのトレーニング方法及び/又はフォントライブラリの確立方法のような上記に記載の各方法及び処理を実行する。例えば、いくつかの実施例において、サイクル生成ネットワークモデルのトレーニング方法及び/又はフォントライブラリの確立方法は、例えば記憶ユニット1108のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM 1102及び/又は通信ユニット1109を介して電子機器1100にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM1103にロードされて計算ユニット1101により実行される場合、上記に記載のサイクル生成ネットワークモデルのトレーニング方法及び/又はフォントライブラリの確立方法の一つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算ユニット1101は、他の任意の適切な方式(例えば、ファームウェア)によりサイクル生成ネットワークモデルのトレーニング方法及び/又はフォントライブラリの確立方法を実行するように構成されてもよい。
【0129】
本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラムマブルロジックデバイス (CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムにおいて実施され、該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラムマブルプロセッサを含むプログラムマブルシステムで実行され及び/又は解釈されることが可能であり、該プログラムマブルプロセッサは、専用又は汎用のプログラムマブルプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送することができることを含んでもよい。
【0130】
本開示の方法を実施するためのプログラムコードは、一つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
【0131】
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、一つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
【0132】
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
【0133】
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
【0134】
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。相応的なコンピュータで運行し、かつ互いにクライアント-サーバの関係を有するコンピュータプログラムにより、クライアント-サーバの関係を生成する。
【0135】
理解すべきものとして、以上に示した様々な形式のフローによって、ステップについて、改めてソートし、追加し、又は削除することができる。例えば、本開示に記載の各ステップは、並列的に実行されてもよく、順次に実行されてもよく、異なる順序で実行されてもよい。本開示に開示される技術案の所望の結果を実現することができれば、本明細書はこれを限定しない。
【0136】
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば理解すべきように、設計要求及び他の要因に基づいて、様々な修正、組み合わせ、サブ組み合わせ及び代替を行うことができる。本開示の精神と原則内で行われた任意の修正、均等置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。
図1
図2
図3A
図3B
図3C
図4A
図4B
図5
図6
図7
図8
図9
図10
図11