(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023039887
(43)【公開日】2023-03-22
(54)【発明の名称】フォント生成モデルトレーニング方法、字庫作成方法、装置及び機器
(51)【国際特許分類】
G06T 7/00 20170101AFI20230314BHJP
【FI】
G06T7/00 350C
【審査請求】有
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2022007170
(22)【出願日】2022-01-20
(31)【優先権主張番号】202111056559.2
(32)【優先日】2021-09-09
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】▲劉▼ 家▲銘▼
(72)【発明者】
【氏名】唐 礼承
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA17
5L096HA09
5L096HA11
5L096JA11
5L096KA04
5L096KA15
(57)【要約】 (修正有)
【課題】フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力を向上させるフォント生成モデルトレーニング方法、字庫(word stock)作成方法、装置及び機器を提供する。
【解決手段】方法は、ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることと、第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、フォント生成モデルの第1特徴ロスを得ることと、第1ターゲットドメイン生成字及びターゲットドメインサンプル字をフォント分類モデルに入力し、フォント生成モデルの第2特徴ロスを得ることと、第1特徴ロス及び/又は第2特徴ロスによりターゲット特徴ロスを確定することと、ターゲット特徴ロスによりフォント生成モデルのモデルパラメータを更新することと、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることと、
前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得ることと、
前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得ることと、
前記第1特徴ロス及び/又は前記第2特徴ロスによりターゲット特徴ロスを確定することと、
前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することと、
を含む、フォント生成モデルトレーニング方法。
【請求項2】
前記文字分類モデルは複数の特徴層を含み、
前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得ることは、
前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第1生成字特徴マップを得ることと、
前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第1サンプル字特徴マップを得ることと、
ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の差異を算出し、前記第1特徴ロスを得ることと、
を含む、請求項1に記載のフォント生成モデルトレーニング方法。
【請求項3】
ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の差異を算出することは、
前記ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第1画素ロスを得ることと、
前記ターゲット特徴層の第1画素ロスにより前記第1特徴ロスを算出することと、
を含む、請求項2に記載のフォント生成モデルトレーニング方法。
【請求項4】
前記ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の画素差異を算出することは、
前記第1生成字特徴マップにおける各位置の画素点の画素値と前記第1サンプル字特徴マップの対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、
複数の位置の画素点の差異により、前記第1生成字特徴マップと第1サンプル字特徴マップとの間の画素差異を確定することと、
を含む、請求項3に記載のフォント生成モデルトレーニング方法。
【請求項5】
前記フォント分類モデルは複数の特徴層を含み、
前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得ることは、
前記第1ターゲットドメイン生成字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第2生成字特徴マップを得ることと、
前記ターゲットドメインサンプル字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第2サンプル字特徴マップを得ることと、
ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の差異を算出し、前記第2特徴ロスを得ることと、
を含む、請求項1に記載のフォント生成モデルトレーニング方法。
【請求項6】
ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の差異を算出することは、
前記ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第2画素ロスを得ることと、
前記ターゲット特徴層の第2画素ロスにより前記第2特徴ロスを算出することと、
を含む、請求項5に記載のフォント生成モデルトレーニング方法。
【請求項7】
前記ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の画素差異を算出することは、
前記第2生成字特徴マップにおける各位置の画素点の画素値と前記第2サンプル字特徴マップの対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、
複数の位置の画素点の差異により、前記第2生成字特徴マップと第2サンプル字特徴マップとの間の画素差異を確定することと、
を含む、請求項6に記載のフォント生成モデルトレーニング方法。
【請求項8】
前記フォント生成モデルは循環ネットワーク生成モデルであり、第1生成モデル及び第2生成モデルを含み、
ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることは、
前記ソースドメインサンプル字を前記第1生成モデルに入力し、前記第1ターゲットドメイン生成字及び第1ソースドメイン生成字を得ることを含み、
前記フォント生成モデルトレーニング方法は、
前記ターゲットドメインサンプル字を前記第2生成モデルに入力し、第2ターゲットドメイン生成字及び第2ソースドメイン生成字を得ることと、
前記ソースドメインサンプル字、前記第1ターゲットドメイン生成字、前記第1ソースドメイン生成字、前記ターゲットドメインサンプル字、前記第2ターゲットドメイン生成字及び前記第2ソースドメイン生成字により、前記フォント生成モデルの生成ロスを算出することと、
前記生成ロスにより前記第1生成モデルのモデルパラメータを更新することと、
をさらに含む、請求項1に記載のフォント生成モデルトレーニング方法。
【請求項9】
前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記フォント生成モデルの文字ロスを算出することをさらに含み、
前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することは、
前記文字ロス及び前記ターゲット特徴ロスにより前記第1生成モデルのモデルパラメータを更新することを含む、
請求項8に記載のフォント生成モデルトレーニング方法。
【請求項10】
前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記フォント生成モデルの文字ロスを算出することは、
前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記第1ターゲットドメイン生成字の生成文字ベクトルを得ることと、
前記生成文字ベクトルと予め設定された標準文字ベクトルとの間の差異により、前記文字ロスを算出することと、
を含む、請求項9に記載のフォント生成モデルトレーニング方法。
【請求項11】
前記ソースドメインサンプル字はターゲットソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字はターゲットドメインフォントスタイルを有する画像である、
請求項1~10のいずれか一項に記載のフォント生成モデルトレーニング方法。
【請求項12】
ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることと、
前記ターゲットドメイン新字に基づいて、字庫を作成することと、を含み、
前記フォント生成モデルは請求項1~10のいずれか一項に記載のフォント生成モデルトレーニング方法によりトレーニングして得られている、
字庫作成方法。
【請求項13】
請求項1~11のいずれか一項に記載のフォント生成モデルトレーニング方法を実行することに用いられるフォント生成モデルトレーニング装置であって、
ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることに用いられる第1ターゲットドメイン生成字取得モジュールと、
前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得ることに用いられる第1特徴ロス取得モジュールと、
前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得ることに用いられる第2特徴ロス取得モジュールと、
前記第1特徴ロス及び/又は前記第2特徴ロスによりターゲット特徴ロスを確定することに用いられるターゲット特徴ロス取得モジュールと、
前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することに用いられる第1モデルパラメータ更新モジュールと、
を含む、フォント生成モデルトレーニング装置。
【請求項14】
ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることに用いられるターゲットドメイン新字取得モジュールと、
前記ターゲットドメイン新字に基づいて、字庫を作成することに用いられる字庫作成モジュールと、を含み、
前記フォント生成モデルは、請求項13に記載のフォント生成モデルトレーニング装置によりトレーニングして得られる、
字庫作成装置。
【請求項15】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を含み、
前記メモリには前記少なくとも1つのプロセッサに実行可能である指令が記憶され、前記指令は前記少なくとも1つのプロセッサに実行されることにより、前記少なくとも1つのプロセッサが請求項1~11のいずれか一項に記載のフォント生成モデルトレーニング方法又は請求項12に記載の字庫作成方法を実行可能である、
電子機器。
【請求項16】
コンピュータ指令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ指令は、コンピュータに、請求項1~11のいずれか一項に記載のフォント生成モデルトレーニング方法又は請求項12に記載の字庫作成方法を実行させることに用いられている、
非一時的なコンピュータ可読記憶媒体。
【請求項17】
プロセッサに実行されると、請求項1~11のいずれか一項に記載のフォント生成モデルトレーニング方法又は請求項12に記載の字庫作成方法を実現する、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は人工知能の技術分野に関し、具体的には、コンピュータ視覚及び深層学習の技術分野に関し、OCR(Optical Character Recognition、光学的文字認識)などのシーンに適用されることができる。
【背景技術】
【0002】
フォント生成はいつも国内外の多くの研究者が重点的に研究している課題であり、フォント設計業界において広い応用価値がある。従って、如何にスタイルが多様性のフォント生成のニーズを満足するかは、フォント生成の分野に重点的に注目された問題となっている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本開示の実施例は、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができるフォント生成モデルトレーニング方法、字庫(word stock)作成方法、装置及び機器を提供する。
【課題を解決するための手段】
【0004】
第1態様では、本開示の実施例は、
ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることと、
前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得ることと、
前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得ることと、
前記第1特徴ロス及び/又は前記第2特徴ロスによりターゲット特徴ロスを確定することと、
前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することと、
を含む、フォント生成モデルトレーニング方法を提供する。
【0005】
第2態様では、本開示の実施例は、
ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることと、
前記ターゲットドメイン新字に基づいて、字庫を作成することと、を含み、
前記フォント生成モデルは第1態様に記載のフォント生成モデルトレーニング方法によりトレーニングして得られる、
字庫作成方法を提供する。
【0006】
第3態様では、本開示の実施例は、
ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることに用いられる第1ターゲットドメイン生成字取得モジュールと、
前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得ることに用いられる第1特徴ロス取得モジュールと、
前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得ることに用いられる第2特徴ロス取得モジュールと、
前記第1特徴ロス及び/又は前記第2特徴ロスによりターゲット特徴ロスを確定することに用いられるターゲット特徴ロス取得モジュールと、
前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することに用いられる第1モデルパラメータ更新モジュールと、
を含む、フォント生成モデルトレーニング装置を提供する。
【0007】
第4態様では、本開示の実施例は、
ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることに用いられるターゲットドメイン新字取得モジュールと、
前記ターゲットドメイン新字に基づいて、字庫を作成することに用いられる字庫作成モジュールと、を含み
前記フォント生成モデルは、第1態様に記載のフォント生成モデルトレーニング装置によりトレーニングして得られる、
字庫作成装置を提供する。
【0008】
第5態様では、本開示の実施例は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を含み、
前記メモリには前記少なくとも1つのプロセッサに実行可能である指令が記憶され、前記指令が前記少なくとも1つのプロセッサに実行されることにより、前記少なくとも1つのプロセッサに第1態様の実施例によるフォント生成モデルトレーニング方法又は第2態様の実施例による字庫作成方法を実行可能である、
電子機器を提供する。
【0009】
第6態様では、本開示の実施例は、
コンピュータ指令が記憶される非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ指令は、前記コンピュータに第1態様の実施例によるフォント生成モデルトレーニング方法又は第2方面の実施例による字庫作成方法を実行させることに用いられる、
コンピュータ可読記憶媒体をさらに提供する。
【0010】
第7態様では、本開示の実施例は、
プロセッサに実行されると、第1態様の実施例によるフォント生成モデルトレーニング方法又は第2方面の実施例による字庫作成方法を実現する、
コンピュータプログラムをさらに提供する。
【0011】
本開示の実施例は、ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることにより、第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字をそれぞれ文字分類モデル及びフォント分類モデルに入力し、フォント生成モデルの第1特徴ロス及び第2特徴ロスを得ることで、第1特徴ロス及び/又は第2特徴ロスに確定されたターゲット特徴ロスにより、フォント生成モデルのモデルパラメータを更新し、フォント生成モデルに対するトレーニングを実現する。フォント生成モデルのトレーニングが完了した後に、ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることで、ターゲットドメイン新字に基づいて字庫を作成し、従来のフォント生成モデルがフォントレベルのフォントを生成しにくいという問題を解決し、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができる。
【0012】
本部分に説明された内容は本開示の実施例のキー又は重要な特徴を識別することを意図するものではなく、本開示の範囲を限定することに用いられないと理解すべきである。本開示の他の特徴は、以下の明細書に基づいて容易に理解されることになる。
【図面の簡単な説明】
【0013】
図面は本方案をよりよく理解するためのものであり、本開示を限定するものではない。そのうち、
【0014】
【
図1】本開示の実施例に係るフォント生成モデルトレーニング方法のフロー図である。
【
図2】本開示の実施例に係るフォント生成モデルトレーニング方法のフロー図である。
【
図3】本開示の実施例に係るフォント生成モデルのネットワーク構造原理図である。
【
図4】本開示の実施例に係るフォント生成モデルのネットワーク構造原理図である。
【
図5】本開示の実施例に係る第1特徴ロスの可視化効果模式図である。
【
図6】本開示の実施例に係る第2特徴ロスの可視化効果模式図である。
【
図7】本開示の実施例に係る第2特徴ロスの可視化効果模式図である。
【
図8】本開示の実施例に係るフォント生成モデルトレーニング方法の原理図である。
【
図9】本開示の実施例に係る文字ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。
【
図10】本開示の実施例に係る第1特徴ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。
【
図11】本開示の実施例に係る第2特徴ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。
【
図12】本開示の実施例に係る字庫作成方法のフロー図である。
【
図13】本開示の実施例に係るフォント生成モデルトレーニング装置の構造図である。
【
図14】本開示の実施例に係る字庫作成装置の構造図である。
【
図15】本開示の実施例のフォント生成モデルトレーニング方法又は字庫作成方法を実現することに用いられる電子機器の構造模式図である。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら、本開示の例示的な実施例について説明する。そのうち、理解を容易にするために本開示の実施例の様々な詳細が含まれているが、それらをただの例示的なものと見なすべきである。したがって、当業者は、本開示の範囲及び精神から逸脱せず、ここで説明された実施例に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、明確且つ簡潔にするために、以下の説明では公知の機能及び構造に対する説明を省略する。
【0016】
フォント生成は、画像スタイルの遷移の分野のうちの一つの新興タスクであり、画像スタイルの遷移は、1枚の画像の内容が変化しないままの場合でそれを他のスタイルに変換することであり、深層学習の適用の人気研究方向である。
【0017】
現在、GAN(Generative Adversarial Networks、敵対的生成ネットワーク)モデルを採用して、フォントの生成を実現することができる。しかし、GANモデルによるフォント生成態様において、小さいデータ量でトレーニングされたネットワークを利用すると、傾斜、大きさ、一部の筆画の特徴などのいくつかの比較的に弱い特徴をしか学習できず、最もユーザのスタイルらしい特徴を学習することができない。大きいデータ量でトレーニングされたネットワークを使用してもよく、スタイルのほうが強いが、トレーニングセット以外の漢字である場合に、誤字が生じやすい。これらの主流の研究成果は、いずれもフォントレベルの効果に達しにくい。
【0018】
一例において、
図1は本開示の実施例に係るフォント生成モデルトレーニング方法のフロー図である。本実施例は、複数タイプの特徴ロスによりトレーニングしてフォント生成モデルを最適化させる場合に適用されることができ、該方法はフォント生成モデルトレーニング装置に実行されることができ、該装置はソフトウェア及び/又はハードウェアの形態で実現されることができ、そして、一般には電子機器に集積されることができる。該電子機器は端末機器又はサーバ機器などであってもよく、本開示の実施例はフォント生成モデルトレーニング方法を実行する電子機器のタイプを限定しない。相応的に、
図1に示すように、該方法は以下のような操作を含む。
【0019】
S110において、ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得る。
【0020】
本開示の1つの好ましい実施例において、ソースドメインサンプル字はターゲットソースドメインフォントスタイルを有する画像であってもよい。ターゲットソースドメインはある1つのソースドメインフォントスタイルであってもよく、ソースドメインフォントスタイルは、例えば、楷書体、宋朝体又は黒体などの通常のリアルなフォントであってもよい。即ち、ターゲットソースドメインは楷書体、宋朝体又は黒体などの通常のリアルなフォントなどのいずれか1つのリアルなフォントスタイルであってもよい。第1ターゲットドメイン生成字はターゲットドメインフォントスタイルを有する画像であってもよく、ターゲットドメインフォントスタイルは、ユーザの手書きフォント、或いは、他のアートワードフォントなどが生成する必要とするスタイルタイプであってもよい。フォント生成モデルはターゲットドメインフォントスタイルを有するフォントを生成することができる。
【0021】
本開示の実施例において、フォント生成モデルをトレーニングする時に、まず、1種のソースドメインサンプル字をフォント生成モデルに入力することができる。フォント生成モデルは入力されたソースドメインサンプル字により該ソースドメインサンプル字に対応する第1ターゲットドメイン生成字を出力することができる。
【0022】
例示的に、楷書体の字の「做」を含む画像をソースドメインサンプル字としてフォント生成モデルに入力し、フォント生成モデルはユーザの手書き字の「做」を含む画像を出力することができる。
【0023】
S120において、前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得る。
【0024】
本開示の1つの好ましい実施例において、前記ターゲットドメインサンプル字はターゲットドメインフォントスタイルを有する画像であってもよい。例示的に、第1ターゲットドメイン生成字はフォント生成モデルが生成した手書き字の「做」を含む画像であり、ターゲットドメインサンプル字はリアルな手書き字の「做」という字を含む画像であり、該リアルな手書き字の「做」を含む画像は、ユーザがリアルに手書き字に生成された画像であってもよい。該ユーザがリアルに手書き字に生成された画像の取得は、公開されたデータセットから由来してもよく、又はユーザの認可を得たものであってもよい。
【0025】
そのうち、文字分類モデルは文字方面から第1ターゲットドメイン生成字の確度を精練したモデルであってもよい。好ましくは、文字分類モデルはVGG19ネットワークによってトレーニングして得られたものであってもよい。文字分類モデルのトレーニングサンプルは、複数種類のフォントを含む画像であってもよく、例えば、トレーニングサンプルは、80種類以上のフォント及び6700個以上の字を含む約45万枚の画像であってもよい。第1特徴ロスは文字分類モデルが第1ターゲットドメイン生成字及びターゲットドメインサンプル字により算出した差異特徴であってもよく、フォント生成モデルがフォントの詳細をより多く学習することを監督することができる。
【0026】
フォント生成モデルの第1ターゲットドメイン生成字のフォント特徴に対する学習能力をさらに向上させるために、フォント生成モデルをトレーニングする過程において、フォント生成モデルが第1ターゲットドメイン生成字を生成した後に、第1ターゲットドメイン生成字を文字分類モデルに入力することで、文字分類モデルで第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字によりフォント生成モデルの第1特徴ロスを算出できる。
【0027】
S130において、前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得る。
【0028】
そのうち、フォント分類モデルはフォント方面から第1ターゲットドメイン生成字の確度を精練したモデルであってもよい。好ましくは、フォント分類モデルもVGG19ネットワークでトレーニングして得られたものであってもよい。フォント分類モデルのトレーニングサンプルは、複数種類のフォントを含む画像であってもよく、例えば、トレーニングサンプルは80種以上のフォント及び6700個以上の字を含む約45万枚の画像であってもよい。第2特徴ロスは、フォント分類モデルが第1ターゲットドメイン生成字及びターゲットドメインサンプル字により算出した差異特徴であってもよく、フォント生成モデルがフォントの詳細をより多く学習することを監督することができる。
【0029】
なお、文字分類モデルとフォント分類モデルとのモデル構造は同様であるが、モデルパラメータ及びモデル機能は異なる。文字分類モデル及びフォント分類モデルをトレーニングするためのサンプルデータが異なるからである。具体的には、文字分類モデルをトレーニングするサンプルデータにおいて、サンプル字の文字タイプをマークする必要があるが、フォント分類モデルをトレーニングするサンプルデータにおいて、サンプル字のフォントタイプをマークする必要がある。即ち、文字分類モデルは文字を区分することに用いられるが、フォント分類モデルはフォントを区分することに用いられる。従って、文字分類モデルが算出した第1特徴ロスはフォント生成モデルの文字方面におけるフォントの詳細を学習する能力を計量することができ、例えば、第1ターゲットドメイン生成字の文字特徴がユーザの手書き字の文字特徴にマッチングするか否かを判断することができる。フォント分類モデルが算出した第2特徴ロスはフォント生成モデルのフォント方面におけるフォントの詳細を学習する能力を計量することができ、例えば、第1ターゲットドメイン生成字のフォントタイプがユーザの手書き字のフォントタイプに該当するか否かを判断する。これから分かるように、第1特徴ロス及び第2特徴ロスは、文字及びフォントという2つの方面からフォント生成モデルのフォントの詳細を学習する能力を計量することができる。
【0030】
なお、
図1は1つの実現形態の効果模式図のみであり、本開示の実施例はステップS120とステップS130との間の実行される順序を限定しない。即ち、ステップS120を実行してから、ステップS130を実行してもよい。或いは、ステップS130を実行してから、ステップS120を実行してもよい。或いは、ステップS120及びステップS130を同時に実行してもよい。
【0031】
S140において、前記第1特徴ロス及び/又は前記第2特徴ロスによりターゲット特徴ロスを確定する。
【0032】
そのうち、ターゲット特徴ロスはフォント生成モデルを簡単にトレーニングすることに用いられる特徴ロスであってもよい。
【0033】
本開示の実施例において、第1特徴ロス及び第2特徴ロスを得た後に、さらに、第1特徴ロス及び/又は第2特徴ロスによりターゲット特徴ロスを確定することができる。
【0034】
例示的に、第1特徴ロスをターゲット特徴ロスとして確定してもよいし、第2特徴ロスをターゲット特徴ロスとして確定してもよいし、或いは、同時に第1特徴ロス及び第2特徴ロスをターゲット特徴ロスとして確定してもよく、本開示の実施例はターゲット特徴ロスの確定形態を限定しない。
【0035】
S150において、前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新する。
【0036】
そのうち、モデルパラメータは、例えば、重み又は偏りなどのフォント生成モデルに関連するパラメータであってもよく、本開示の実施例はモデルパラメータのタイプを制限しない。
【0037】
相応的に、ターゲット特徴ロスを確定した後に、ターゲット特徴ロスによりフォント生成モデルのモデルパラメータを更新し、フォント生成モデルに対するトレーニングの過程を監督することを実現することができる。ターゲット特徴ロスは異なる複数のタイプの特徴ロスを考慮することができるため、ターゲット特徴ロスによりフォント生成モデルのモデルパラメータを更新することで、フォント生成モデルにフォントの詳細を学習する能力を絶えずに最適化させることができ、フォント生成モデルのフォントレベルフォントを生成する能力を向上させることができる。
【0038】
本開示の実施例はソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることにより、第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字をそれぞれ文字分類モデル及びフォント分類モデルに入力し、フォント生成モデルの第1特徴ロス及び第2特徴ロスを得て、これにより、第1特徴ロス及び/又は第2特徴ロスに確定されたターゲット特徴ロスによりフォント生成モデルのモデルパラメータを更新し、フォント生成モデルに対するトレーニングを実現することができる。フォント生成モデルのトレーニングが完了した後に、ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることで、ターゲットドメイン新字に基づいて、字庫を作成し、これにより、従来のフォント生成モデルがフォントレベルのフォントを生成しにくいという問題を解決し、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができる。
【0039】
一例において、
図2は本開示の実施例に係るフォント生成モデルトレーニング方法のフロー図である。本開示の実施例は上記した各実施例の技術態様の上で、最適化及び改善を行い、ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得て、第1特徴ロス及び第2特徴ロスを取得し、及びフォント生成モデルのモデルパラメータを更新するという複数種類の具体的に選択可能な実現形態を与えている。
【0040】
図2に示すようなフォント生成モデルトレーニング方法は、以下の操作を含む。
【0041】
S210において、前記ソースドメインサンプル字を第1生成モデルに入力し、前記第1ターゲットドメイン生成字及び第1ソースドメイン生成字を得る。
【0042】
そのうち、フォント生成モデルは循環ネットワーク生成モデルであり、第1生成モデル及び第2生成モデルを含む。第1ソースドメイン生成字は、フォント生成モデルがソースドメインサンプル字により生成したソースドメインフォントスタイルを有する画像であってもよい。
【0043】
S220において、ターゲットドメインサンプル字を前記第2生成モデルに入力し、第2ターゲットドメイン生成字及び第2ソースドメイン生成字を得る。
【0044】
そのうち、第2ターゲットドメイン生成字は、フォント生成モデルが生成したターゲットドメインフォントスタイルを有する画像であってもよい。第2ソースドメイン生成字は、フォント生成モデルがターゲットドメインサンプル字により生成したソースドメインフォントスタイルを有する画像であってもよい。
【0045】
S230において、前記ソースドメインサンプル字、前記第1ターゲットドメイン生成字、前記第1ソースドメイン生成字、前記ターゲットドメインサンプル字、前記第2ターゲットドメイン生成字及び前記第2ソースドメイン生成字により、前記フォント生成モデルの生成ロスを算出する。
【0046】
そのうち、生成ロスは、フォント生成モデルにおいて生成モデルのロスであってもよい。
【0047】
S240において、前記生成ロスにより前記第1生成モデルのモデルパラメータを更新する。
【0048】
本開示の実施例において、好ましくは、フォント生成モデルは第1生成モデル、第2生成モデル、第1判別モデル及び第2判別モデルを含んでもよい。
【0049】
S250において、前記第1ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力し、前記フォント生成モデルの文字ロスを得る。
【0050】
そのうち、文字ロスは、文字分類モデルが第1ターゲットドメイン生成字に対して算出した誤字ロスであってもよく、循環生成ネットワークモデルが出力した第1ターゲットドメイン生成字の誤字率を拘束することができる。
【0051】
フォント生成モデルの誤字率を低下させるために、フォント生成モデルの生成ロスによってフォント生成モデルをトレーニングする以外に、フォント生成モデルが自己トレーニングを完了した後に、予めトレーニングされた文字分類モデルによってフォント生成モデルのトレーニング過程を監督してもよい。具体的には、フォント生成モデルが生成した第1ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力し、フォント生成モデルの文字ロスを得ることができる。
【0052】
本開示の1つの好ましい実施例において、前記第1ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力して、前記フォント生成モデルの文字ロスを得ることは、前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記第1ターゲットドメイン生成字の生成文字ベクトルを得ることと、前記生成文字ベクトルと予め設定された標準文字ベクトルとの間の差異により、前記文字ロスを算出することと、を含んでもよい。
【0053】
第1ターゲットドメイン生成字を上記文字分類モデルに入力し、上記文字分類モデルは該第1ターゲットドメイン生成字に対する生成文字ベクトル
【0054】
【数1】
を出力でき、上記第1ターゲットドメイン生成字に対して、標準文字ベクトル
【0055】
【数2】
が予め設けられる。x
iは生成文字ベクトルにおける添え字がiの要素を表し、y
iは標準文字ベクトルにおける添え字がiの要素を表し、iは0以上n以下の整数であり、nは生成文字ベクトル
【0056】
【0057】
【0058】
第1ターゲットドメイン生成字の生成文字ベクトル
【0059】
【0060】
【数6】
との間の差異により、フォント生成モデルの文字ロスを確定することができる。
【0061】
具体的には、第1ターゲットドメイン生成字を文字分類モデルに入力し、該第1ターゲットドメイン生成字の生成文字ベクトル
【0062】
【0063】
【数8】
における各要素はトレーニングサンプルにおける1つの文字を表すことができ、nはトレーニングサンプルにおける文字数を表し、例えば、トレーニングサンプルは6761個のワードを有すると、nは6760に等しくてもよい。
【0064】
上記第1ターゲットドメイン生成字に対して、標準文字ベクトル
【0065】
【0066】
【数10】
における各要素はトレーニングサンプルにおける1つの文字を表すことができ、nはトレーニングサンプルにおける文字数を表し、例えば、トレーニングサンプルは6761個のワードを有すると、nは6760に等しくてもよい。
【0067】
標準文字ベクトル
【0068】
【数11】
は、第1ターゲットドメイン生成字を上記文字分類モデルに入力して、上記文字分類モデルが出力すべきベクトルを表す。例えば、第1ターゲットドメイン生成字は「做」というワードであり、「做」という字はトレーニングサンプルにおけるn個のワードにおいて一番目に位置すると、「做」という字の標準文字ベクトルは
【0069】
【0070】
本開示の1つの好ましい実施例において、前記文字ロスを算出することは、以下の式により前記文字ロスを算出することを含んでもよい。
【0071】
【0072】
そのうち、LCは文字ロスを表し、xiは生成文字ベクトルにおける添え字がiの要素を表し、yiは標準文字ベクトルにおける添え字がiの要素を表し、iは0以上n以下の整数であり、nは前記生成文字ベクトル及び前記標準文字ベクトルにおける要素数を表す。
【0073】
上記技術態様は、フォント生成モデルの文字ロスを算出することにより、フォント生成モデルが出力した第1ターゲットドメイン生成字の誤字率を拘束することができて、フォント生成モデルの誤字を生成する確率を低下させ、フォント生成モデルの確度を向上させる。
【0074】
S260において、前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得る。
【0075】
本開示の1つの好ましい実施例において、前記文字分類モデルは複数の特徴層を含み、前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得ることは、前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第1生成字特徴マップを得ることと、前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第1サンプル字特徴マップを得ることと、ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の差異を算出し、前記第1特徴ロスを得ることと、を含んでもよい。
【0076】
本開示の1つの好ましい実施例において、ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の差異を算出することは、前記ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第1画素ロスを得ることと、前記ターゲット特徴層の第1画素ロスにより前記第1特徴ロスを算出することと、を含んでもよい。
【0077】
そのうち、第1生成字特徴マップは文字分類モデルの各特徴層が出力した生成字の特徴マップであってもよい。第1サンプル字特徴マップは文字分類モデルの各特徴層が出力したサンプル字の特徴マップであってもよい。
【0078】
本開示の実施例において、文字分類モデルは複数の特徴層(例えば、90層の特徴層)を含んでもよく、第1ターゲットドメイン生成字を文字分類モデルに入力し、各層が出力した第1生成字特徴マップを得ることができる。ターゲットドメインサンプル字を文字分類モデルに入力し、各層が出力した第1サンプル字特徴マップを得ることができる。
【0079】
各層の特徴層が出力した第1生成字特徴マップと第1サンプル字特徴マップとの間の差異に対して、該層の第1特徴ロスを確定することができる。例えば、各特徴層において、該特徴層が出力した第1生成字特徴マップ及び第1サンプル字特徴マップという2枚の画像の各対応する画素点の画素値を差異し、絶対値を求めて、各画素点の差異を得て、すべての画素点の差異を加算して、該特徴層の画素ロスを得る。
【0080】
好ましくは、ターゲット特徴層として複数層の特徴層における少なくとも1つ(例えば、第45層及び第46層)を選択し、各ターゲット特徴層の特徴ロスの和を全体の第1特徴ロスとする。
【0081】
上記全体の特徴ロスは、フォント生成モデルが第1ターゲットドメイン生成字とターゲットドメインサンプル字との間に差異が比較的に大きい特徴を学習することを表すことに用いられることができ、フォント生成モデルに文字方面においてフォントの詳細をより多く学習させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。
【0082】
本開示の1つの好ましい実施例において、前記ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の画素差異を算出することは、前記第1生成字特徴マップにおける各位置の画素点の画素値と前記第1サンプル字特徴マップに対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、複数の位置の画素点の差異により、前記第1生成字特徴マップと第1サンプル字特徴マップとの間の画素差異を確定することと、を含んでもよい。
【0083】
S270において、前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得る。
【0084】
本開示の1つの好ましい実施例において、前記フォント分類モデルは複数の特徴層を含み、前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得ることは、前記第1ターゲットドメイン生成字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第2生成字特徴マップを得ることと、前記ターゲットドメインサンプル字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第2サンプル字特徴マップを得ることと、ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の差異を算出し、前記第2特徴ロスを得ることと、を含んでもよい。
【0085】
本開示の1つの好ましい実施例において、ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の差異を算出することは、前記ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第2画素ロスを得ることと、前記ターゲット特徴層の第2画素ロスにより前記第2特徴ロスを算出することと、を含んでもよい。
【0086】
そのうち、第2生成字特徴マップはフォント分類モデルの各特徴層が出力した生成字の特徴マップであってもよい。第2サンプル字特徴マップはフォント分類モデルの各特徴層が出力したサンプル字の特徴マップであってもよい。
【0087】
本開示の実施例において、フォント分類モデルは一括に複数の特徴層(例えば、90層の特徴層)を含んでもよく、第1ターゲットドメイン生成字をフォント分類モデルに入力し、各層が出力した第2生成字特徴マップを得ることができる。ターゲットドメインサンプル字をフォント分類モデルに入力し、各層が出力した第2サンプル字特徴マップを得ることができる。
【0088】
各層の特徴層が出力した第2生成字特徴マップと第2サンプル字特徴マップとの間の差異に対して、該層の第2特徴ロスを確定することができる。例えば、各特徴層において、該特徴層が出力した第2生成字特徴マップ及び第2サンプル字特徴マップという2枚の画像の各対応する画素点の画素値を差異し、絶対値を求めて、各画素点の差異を得て、すべての画素点の差異を加算し、該特徴層の画素ロスを得る。
【0089】
好ましくは、ターゲット特徴層として複数層の特徴層における少なくとも1つ(例えば、第45層及び第46層)を選択し、各ターゲット特徴層の特徴ロスの和を全体の第2特徴ロスとする。
【0090】
上記全体の特徴ロスは、フォント生成モデルが第1ターゲットドメイン生成字とターゲットドメインサンプル字との間に差異が比較的に大きい特徴を学習することを表すことに用いられることができ、フォント生成モデルにフォント方面においてフォントの詳細をより多く学習させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。
【0091】
本開示の1つの好ましい実施例において、前記ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の画素差異を算出することは、前記第2生成字特徴マップにおける各位置の画素点の画素値と前記第2サンプル字特徴マップに対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、複数の位置の画素点の差異により、前記第2生成字特徴マップと第2サンプル字特徴マップとの間の画素差異を確定することと、を含んでもよい。
【0092】
S280において、前記第1特徴ロス及び/又は前記第2特徴ロスによりターゲット特徴ロスを確定する。
【0093】
S290において、前記文字ロス及び前記ターゲット特徴ロスにより前記第1生成モデルのモデルパラメータを更新する。
【0094】
本開示の実施例において、フォント生成モデルが生成ロスを利用して自己トレーニングを完了した後に、さらに、文字分類モデルによってフォント生成モデルの文字ロス及び第1特徴ロスをそれぞれ算出し、且つフォント分類モデルによってフォント生成モデルの第2特徴ロスを算出し、これにより、第1特徴ロス及び/又は第2特徴ロスによりターゲット特徴ロスを確定する。最終的に、文字ロス及びターゲット特徴ロスによりフォント生成モデルにおける第1生成モデルのモデルパラメータを更新し、フォント生成モデルをトレーニングすることを監督し続ける。好ましくは、文字ロス及びターゲット特徴ロスによりフォント生成モデルにおける第1生成モデルのモデルパラメータを更新することは、文字ロスとターゲット特徴ロスとの総和によりフォント生成モデルにおける第1生成モデルのモデルパラメータを更新することであってもよい。
【0095】
なお、
図2は1つの実現形態の示意図のみであり、ステップS250とステップS260~S280との間は、実行される早い順がなく、ステップS250を実行してから、ステップS260~S280を実行してもよい。ステップS260~S280を実行してから、ステップS250を実行してもよい。或いは、同時に上記操作を実行してもよい。そのうち、S260とS270との間も実行される早い順がない。
【0096】
図3及び
図4は本開示の実施例に係るフォント生成モデルのネットワーク構造原理図である。1つの具体的な例において、
図3及び
図4に示すように、本開示の実施例において、フォント生成モデルは第1生成モデル、第2生成モデル、第1判別モデル及び第2判別モデルを含んでもよい。第1生成モデルはソースドメインフォントスタイルの画像をターゲットドメインフォントスタイルの画像に変換することに用いられ、第2生成モデルはターゲットドメインフォントスタイルの画像をソースドメインフォントスタイルの画像に変換することに用いられる。第1判別モデルは変換後の画像がソースドメインフォントスタイルの画像に属するか否かを判別することに用いられ、第2判別モデルは変換後の画像がターゲットドメインフォントスタイルの画像に属するか否かを判別することに用いられる。
【0097】
上記フォント生成モデルの構造に基づいて、フォント生成モデルは2つの循環動作過程を含んでもよい。
図3に示されたフォント生成モデルの第1の循環動作過程は、ソースドメインサンプル字を第1生成モデルに入力し、第1ターゲットドメイン生成字を得て、第1ターゲットドメイン生成字を第2生成モデルに入力し、第1ソースドメイン生成字を得ることである。
図4に示されたフォント生成モデルの第2の循環動作過程は、ターゲットドメインサンプル字を第2生成モデルに入力し、第2ソースドメイン生成字を得て、第2ソースドメイン生成字を第1生成モデルに入力し、第2ターゲットドメイン生成字を得ることである。それで、フォント生成モデルのサンプルはペアリングされない画像であってもよく、トレーニングデータ間の1対1のマッピングを作成する必要がない。
【0098】
本開示の実施例において、フォント生成モデルのロスは生成ロス及び判別ロスを含む。以下、ユーザの手書き字をターゲットドメインフォントスタイルとすることを例とし、フォント生成モデルの生成ロス及び判別ロスの計算方式を具体的に説明する。
【0099】
図3に示すように、フォント生成モデルの第1の循環動作過程は、ソースドメインサンプル字(例えば、楷書体の字を含む画像、単に楷書体の字の画像という)を第1生成モデルに入力し、第1ターゲットドメイン生成字を得る(例えば、手書き字を含む画像、単に手書き字の画像という)ことである。第1ターゲットドメイン生成字(手書き字の画像)を第2生成モデルに入力し、第1ソースドメイン生成字(楷書体のワードの画像)を得る。
【0100】
第1の循環動作過程において、ソースドメインサンプル字はリアルな楷書体のワードの画像であるが、第1ソースドメイン生成字はモデルが生成した楷書体の字の画像であり、偽の楷書体のワードの画像といってもよい。第1ターゲットドメイン生成字はモデルが生成した手書き字の画像であり、偽の手書き字の画像といってもよい。トレーニング過程において、ソースドメインサンプル字を真Real(例えば、値が1である)とマークし、第1ターゲットドメイン生成字を偽Fake(例えば、値が0である)とマークすることができる。
【0101】
ソースドメインサンプル字を第1判別モデルに入力し、第1判別モデルにとって、期待出力は1とすべきである。第1判別モデルの実際の出力はXであり、平均二乗誤差によって第1判別モデルのロスを算出すると、第1判別モデルの一部のロスは(X-1)2として表されてもよい。
【0102】
第1ターゲットドメイン生成字を第2判別モデルに入力し、第2判別モデルにとって、期待出力は0とすべきである。第2判別モデルの実際の出力はY*(区別しやすいために、*付きパラメータによって該パラメータがモデルが生成した画像に関連することを表し、*付かないパラメータによって該パラメータがリアルな画像に関連することを表す)であり、平均二乗誤差によって第2判別モデルのロスを算出すると、第2判別モデルの一部のロスは(Y*-0)2として表されてもよい。
【0103】
第1ターゲットドメイン生成字を第2判別モデルに入力し、第1生成モデルにとって、第2判別モデルの出力は1であることを期待する。第2判別モデルの実際の出力はY*であり、平均二乗誤差によって第1生成モデルのロスを算出すると、第1生成モデルの一部のロスは(Y*-1)2として表されてもよく、該ロスは第1生成モデルの敵対的ロスであってもよい。
【0104】
ソースドメインサンプル字を第1生成モデルに入力して得られた第1ソースドメイン生成字は単にスタイルが変換され、内容が変更されないことを保証するために、第1生成モデルに対して1つのcycle-consistency loss(循環一致性ロス)を増えることができる。該ロスはソースドメインサンプル字と第1ソースドメイン生成字との間の差異により算出して得られることができる。例えば、ソースドメインサンプル字と第1ソースドメイン生成字という2枚の画像の各対応する画素点の画素値を差異し、絶対値を求めて、各画素点の差異を得て、全ての画素点の差異を加算して、第1生成モデルの循環一致性ロスを得て、L1A2Bと表記することができる。
【0105】
それで、第1生成モデルの一部のロスは(Y*-1)2であり、もう一部のロスはL1A2Bであり、この2つの部分のロスの和を第1生成モデルの全体のロスLA2Bとし、第1生成モデルの全体のロスLA2Bは、以下のような式(1)で表されることができる。
LA2B=(Y*-1)2+L1A2B (1)
【0106】
図4に示すように、フォント生成モデルの第2の循環動作過程は、ターゲットドメインサンプル字(例えば、手書き字を含む画像、単に手書き字の画像という)を第2生成モデルに入力し、第2ソースドメイン生成字(例えば、楷書体のワードを含む画像、単に楷書体の字の画像という)を得ることである。第2ソースドメイン生成字(楷書体の字の画像)を第1生成モデルに入力し、第2ターゲットドメイン生成字(手書き字の画像)を得る。
【0107】
第2の循環動作過程において、ターゲットドメインサンプル字はリアルな手書き字の画像であり、第2ターゲットドメイン生成字はモデルが生成した手書き字の画像であり、偽の手書き字の画像といってもよい。第2ソースドメイン生成字はモデルが生成した楷書体のワードの画像であり、偽の楷書体のワードの画像といってもよい。トレーニング過程において、ターゲットドメインサンプル字を真Real(例えば、値は1である)とマークし、第2ソースドメイン生成字を偽Fake(例えば、値は0である)とマークすることができる。
【0108】
ターゲットドメインサンプル字を第2判別モデルに入力し、第2判別モデルにとって、期待出力は1とすべきである。第2判別モデルの実際の出力はYであり、平均二乗誤差によって第2判別モデルのロスを算出すると、第2判別モデルの一部のロスは(Y-1)2として表されてもよい。
【0109】
第2ソースドメイン生成字を第1判別モデルに入力し、第1判別モデルにとって、期待出力は0とすべきである。第1判別モデルの実際の出力はX*であり、平均二乗誤差によって第1判別モデルのロスを算出すると、第1判別モデルの一部のロスは(X*-0)2として表されてもよい。
【0110】
第2ソースドメイン生成字を第1判別モデルに入力し、第2生成モデルにとって、第1判別モデルの出力は1であることを期待する。第1判別モデルの実際の出力はX*であり、平均二乗誤差によって第2生成モデルのロスを算出すると、第2生成モデルの一部のロスは(X*-1)2として表されてもよい。
【0111】
ターゲットドメインサンプル字を第2生成モデルに入力して得られた第2ターゲットドメイン生成字は単にスタイルが変換され、内容が変更されないことを保証するために、第2生成モデルに対して1つのcycle-consistency loss(循環一致性ロス)を増えることができる。該ロスはターゲットドメインサンプル字と第2ターゲットドメイン生成字との間の差異により算出して得られることができる。例えば、ターゲットドメインサンプル字と第2ターゲットドメイン生成字という2枚の画像の各対応する画素点の画素値を差異し、絶対値を求めて、各画素点の差異を得て、全ての画素点の差異を加算して、第2生成モデルの循環一致性ロスを得て、L1B2Aと表記することができる。
【0112】
それで、第2生成モデルの一部のロスは(X*-1)2であり、もう一部のロスはL1B2Aであり、この2つの部分のロスの和を第2生成モデルの全体のロスLB2Aとし、第2生成モデルの全体のロスLB2Aは、以下のような式(2)で表されることができる。
LB2A=(X*-1)2+L1B2A (2)
【0113】
第1生成モデルの全体のロスLA2Bと第2生成モデルの全体のロスLB2Aとの和をフォント生成モデルの生成ロスとし、生成ロスは、以下のような式(3)で表されることができる。
LG=(Y*-1)2+L1A2B+(X*-1)2+L1B2A (3)
【0114】
そのうち、LGはフォント生成モデルの生成ロスを表し、第1生成モデル及び第2生成モデルのモデルパラメータを調整することに用いられることができる。
【0115】
フォント生成モデルの判別ロスは第1判別モデルの判別ロス及び第2判別モデルの判別ロスを含む。
【0116】
図3から第1判別モデルの一部のロスが(X-1)
2であると算出し、
図4から第1判別モデルのもう一部のロスが(X
*-0)
2であると算出し、この2つの部分のロスの和を第1判別モデルの判別ロスとし、第1判別モデルの判別ロスL
Aは、以下のような式(4)で表されることができる。
L
A=(X-1)
2+(X
*-0)
2 (4)
【0117】
第1判別モデルの判別ロスLAは第1判別モデルのモデルパラメータを調整することに用いられることができる。
【0118】
類似的に、
図3から第2判別モデルの一部のロスが(Y
*-0)
2であると算出し、
図4から第2判別モデルのもう一部のロスが(Y-1)
2あると算出し、この2つの部分のロスの和を第2判別モデルの判別ロスとし、第2判別モデルの判別ロスL
Bは、以下のような式(5)で表されることができる。
L
B=(Y-1)
2+(Y
*-0)
2 (5)
【0119】
第2判別モデルの判別ロスLBは第2判別モデルのモデルパラメータを調整することに用いられることができる。
【0120】
上記技術態様は、フォント生成モデルの生成ロスを利用して第1生成モデルのモデルパラメータを更新することにより、フォント生成モデルの自身構造に応じてフォント生成モデルが最適化されることを実現でき、フォント生成モデルのフォント特徴を学習する能力を向上させる。
【0121】
図5は本開示の実施例に係る第1特徴ロスの可視化効果模式図である。1つの具体的な例において、
図5の(1)であるサブ図に示すように、ターゲットドメインサンプル字501はリアルな手書き字の「神」を含む画像であり、即ち、ターゲットドメインサンプル字501における「神」というワードはユーザのリアルな手書き字である。第1ターゲットドメイン生成字502はフォント生成モデルが生成した手書き字の「神」を含む画像であり、ターゲットドメインサンプル字501及び第1ターゲットドメイン生成字502の大きさはいずれも256×256である。ターゲットドメインサンプル字501及び第1ターゲットドメイン生成字502が文字分類モデルに入力され、文字分類モデルの第1ターゲット特徴層においてそれぞれ第1サンプル字特徴マップ及び第1生成字特徴マップを出力し、第1サンプル字特徴マップ及び第1生成字特徴マップの大きさはいずれも64×64であり、この2枚の64×64の画像に対して画素差異計算を行った後に、該2枚の画像の間の差異を表す熱力効果
図503を得る。熱力効果
図503も64×64の画像であり、熱力効果
図503における色が濃いところほどターゲットドメインサンプル字501と第1ターゲットドメイン生成字502との間の差異が大きいことを表し、フォント生成モデルに熱力効果
図503における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。
【0122】
類似的に、
図5の(2)であるサブ図に示すように、ターゲットドメインサンプル字501及び第1ターゲットドメイン生成字502が文字分類モデルに入力され、文字分類モデルの第2ターゲット特徴層においてそれぞれ第1サンプル字特徴マップ及び第1生成字特徴マップを出力し、第1サンプル字特徴マップ及び第1生成字特徴マップの大きさはいずれも32×32であり、この2枚の32×32の画像に対して画素差異計算を行った後に、該2枚の画像の間の差異を表す熱力効果
図504を得る。熱力効果
図504も32×32の画像であり、熱力効果
図504における色が濃いところほどターゲットドメインサンプル字501と第1ターゲットドメイン生成字502との間の差異が大きいことを表し、フォント生成モデルに熱力効果
図504における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。
【0123】
熱力効果
図503及び熱力効果
図504を結び付けて、共同でフォント生成モデルにターゲットドメインサンプル字501と第1ターゲットドメイン生成字502との間の差異が大きい特徴を学習させることで、フォント生成モデルのフォント特徴を学習する能力を向上させるということを理解することができる。
【0124】
図6は本開示の実施例に係る第2特徴ロスの可視化効果模式図である。1つの具体的な例において、
図6の(1)であるサブ図に示すように、ターゲットドメインサンプル字601はリアルな手書き字の「留」を含む画像であり、即ち、ターゲットドメインサンプル字601における「留」という字はユーザのリアルな手書き字である。第1ターゲットドメイン生成字602はフォント生成モデルが生成した手書き字の「留」を含む画像であり、ターゲットドメインサンプル字601及び第1ターゲットドメイン生成字602の大きさはいずれも256×256である。ターゲットドメインサンプル字601及び第1ターゲットドメイン生成字602がフォント分類モデルに入力され、フォント分類モデルの第1ターゲット特徴層においてそれぞれ第2サンプル字特徴マップ及び第2生成字特徴マップを出力し、第2サンプル字特徴マップ及び第2生成字特徴マップの大きさはいずれも64×64であり、この2枚の64×64の画像に対して画素差異計算を行った後に、該2枚の画像の間の差異を表す熱力効果
図603を得る。熱力効果
図603も64×64の画像であり、熱力効果
図603における色が濃いところほどターゲットドメインサンプル字601と第1ターゲットドメイン生成字602との間の差異が大きいことを表し、フォント生成モデルに熱力効果
図603における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。
【0125】
類似的に、
図6の(2)であるサブ図に示すように、ターゲットドメインサンプル字601及び第1ターゲットドメイン生成字602がフォント分類モデルに入力され、フォント分類モデルの第2ターゲット特徴層においてそれぞれ第2サンプル字特徴マップ及び第2生成字特徴マップを出力し、第2サンプル字特徴マップ及び第2生成字特徴マップの大きさはいずれも32×32であり、この2枚の32×32の画像に対して画素差異計算を行った後に、該2枚の画像の間の差異を表す熱力効果
図604を得る。熱力効果
図604も32×32の画像であり、熱力効果
図604における色が濃いところほどターゲットドメインサンプル字601と第1ターゲットドメイン生成字602との間の差異が大きいことを表し、フォント生成モデルに熱力効果
図604における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。
【0126】
図7は本開示の実施例に係る第2特徴ロスの可視化効果模式図である。もう1つの具体的な例において、
図7の(1)であるサブ図に示すように、ターゲットドメインサンプル字701はリアルな手書き字の「視」を含む画像であり、即ち、ターゲットドメインサンプル字701における「視」という字はユーザのリアルな手書き字である。第1ターゲットドメイン生成字702はフォント生成モデルが生成した手書き字の「視」を含む画像であり、ターゲットドメインサンプル字701及び第1ターゲットドメイン生成字702の大きさはいずれも256×256である。ターゲットドメインサンプル字701及び第1ターゲットドメイン生成字702がフォント分類モデルに入力され、フォント分類モデルの第1ターゲット特徴層においてそれぞれ第2サンプル字特徴マップ及び第2生成字特徴マップを出力し、第2サンプル字特徴マップ及び第2生成字特徴マップの大きさはいずれも64×64であり、この2枚の64×64の画像に対して画素差異計算を行った後に、該2枚の画像の間の差異を表す熱力効果
図703を得る。熱力効果
図703も64×64の画像であり、熱力効果
図703における色が濃いところほどターゲットドメインサンプル字701と第1ターゲットドメイン生成字702との間の差異が大きいことを表し、フォント生成モデルに熱力効果
図703における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。
【0127】
類似的に、
図7の(2)であるサブ図に示すように、ターゲットドメインサンプル字701及び第1ターゲットドメイン生成字702がフォント分類モデルに入力され、フォント分類モデルの第2ターゲット特徴層においてそれぞれ第2サンプル字特徴マップ及び第2生成字特徴マップを出力し、第2サンプル字特徴マップ及び第2生成字特徴マップの大きさはいずれも32×32であり、この2枚の32×32の画像に対して画素差異計算を行った後に、該2枚の画像の間の差異を表す熱力効果
図704を得る。熱力効果
図704も32×32の画像であり、熱力効果
図704における色が濃いところほどターゲットドメインサンプル字701和と第1ターゲットドメイン生成字702との間の差異が大きいことを表し、フォント生成モデルに熱力効果
図704における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。
【0128】
熱力効果
図603及び熱力効果
図604を結び付けて、共同でフォント生成モデルにターゲットドメインサンプル字601と第1ターゲットドメイン生成字602との間の差異が大きい特徴を学習させることで、フォント生成モデルのフォント特徴を学習する能力を向上させる。同様に、熱力効果
図703及び熱力効果
図704を結び付けて、共同でフォント生成モデルにターゲットドメインサンプル字701と第1ターゲットドメイン生成字702との間の差異が大きい特徴を学習させることで、フォント生成モデルのフォント特徴を学習する能力を向上させるということを理解することができる。
【0129】
図8に示すように、フォント生成モデルに対する完全なトレーニング過程は下記操作を含むことができる。まず、ソースドメインサンプル字をフォント生成モデルの第1生成モデルに入力し、第1ターゲットドメイン生成字及び第1ソースドメイン生成字を得て、ターゲットドメインサンプル字をフォント生成モデルの第2生成モデルに入力し、第2ターゲットドメイン生成字及び第2ソースドメイン生成字を得る。さらに、ソースドメインサンプル字、第1ターゲットドメイン生成字、第1ソースドメイン生成字、ターゲットドメインサンプル字、第2ターゲットドメイン生成字及び第2ソースドメイン生成字により、フォント生成モデルの生成ロスを算出し、生成ロスにより第1生成モデルのモデルパラメータを更新し、フォント生成モデルに対するトレーニングを実現する。フォント生成モデルの第1回のトレーニングが完了した後に、第1ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力し、フォント生成モデルの文字ロスを得て、第1ターゲットドメイン生成字及びターゲットドメインサンプル字を文字分類モデルに入力し、フォント生成モデルの第1特徴ロスを得る。同様に、第1ターゲットドメイン生成字及びターゲットドメインサンプル字をフォント分類モデルに入力し、フォント生成モデルの第2特徴ロスを得る。さらに、第1特徴ロス及び/又は第2特徴ロスによりターゲット特徴ロスを確定でき、上記算出して得られた文字ロス及びターゲット特徴ロスにより第1生成モデルのモデルパラメータを更新し、再びフォント生成モデルに対するトレーニングを実現する。なお、文字ロス及びターゲット特徴ロスによりフォント生成モデルに対してトレーニングする過程は同期に行われてもよいし、早い順で実行されてもよく、本開示の実施例はこれに対して制限することはない。
【0130】
上記技術態様は、文字ロス及びターゲット特徴ロスで第1生成モデルのモデルパラメータを更新することにより、フォント生成モデルに対するトレーニングを監督することを実現し、フォント生成モデルの誤字を生成する確率を低下させ、フォント生成モデルのフォントを生成する確度及びフォント特徴を学習する能力を向上させることができる。
【0131】
図9は本開示の実施例に係る文字ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。1つの具体的な例において、
図9に示すように、(1)である画像は文字ロスによりフォント生成モデルを拘束せずに生成された手書き字の「伶」を含む画像である。(2)である画像は文字ロスによりフォント生成モデルを拘束して生成された手書き字の「伶」を含む画像である。(1)である画像における「伶」という字は正確な「伶」という字に比べて1つの点を少なく、(2)である画像における「伶」という字は正確な「伶」という字である。従って、文字ロスによりフォント生成モデルを拘束すれば、正確な字を学習することができ、誤字率を低下させ、モデルの確度を向上させることができる。
【0132】
図10は本開示の実施例に係る第1特徴ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。1つの具体的な例において、
図10に示すように、(1)である画像はリアルな手書き字の
(外1)
を含む画像であり、即ち、(1)である画像の
(外2)
という字はユーザのリアルな手書き字である。(2)である画像は第1特徴ロスによりフォント生成モデルを拘束せずに生成された手書き字の
(外3)
を含む画像である。(3)である画像は第1特徴ロスによりフォント生成モデルを拘束して生成された手書き字の
(外4)
を含む画像である。(2)である画像における
(外5)
という字に比べて、(3)であり画像にける
(外6)
という字はリアルなユーザが手書いた
(外7)
という字(即ち、(1)である画像における
(外8)
という字)のより多い特徴を学習し、リアルなユーザが手書いた
(外9)
という字により類似する。
【0133】
図11は本開示の実施例に係る第2特徴ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。1つの具体的な例において、
図11に示すように、(1)である画像はリアルな手書き字の「做」を含む画像であり、即ち、(1)である画像の「做」というワードはユーザのリアルな手書き字である。(2)である画像は第2特徴ロスによりフォント生成モデルを拘束せずに生成された手書き字の「做」を含む画像である。(3)である画像は第2特徴ロスによりフォント生成モデルを拘束して生成された手書き字の「做」を含む画像である。(2)である画像における「做」という字に比べて、(3)である画像における「做」という字はリアルなユーザが手書いた「做」という字(即ち、(1)である画像における「做」という字)のより多い特徴を学習し、リアルなユーザが手書いた「做」という字により類似する。
【0134】
上記技術態様は、生成ロス、文字ロス及びターゲット特徴ロスなどの複数種類のロスタイプを利用してフォント生成モデルをトレーニングし、フォント生成モデルのフォント特徴を学習する能力を向上させ、誤字生成率を低下させ、フォント生成モデルのフォントを生成する見栄え及び確度を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができる。
【0135】
本開示の技術態様において、ユーザの個人情報(例えばユーザのフォント情報など)の収集、記憶、使用、加工、伝送、提供及び公開などに関する処理は、いずれも関連する法律や法律的規則の規定に適合し、且つ公序良俗に反するものではない。
【0136】
なお、以上の各実施例における各技術的特徴の間の任意の組み合わせも本開示の保護範囲に属する。
【0137】
一例において、
図12は本開示の実施例に係る字庫作成方法のフロー図である。本開示の実施例は、複数タイプの特徴によりトレーニングして最適化されたフォント生成モデルを利用して字庫を作成する場合に適用されることができ、該方法は字庫作成装置により実行されてもよいし、該装置はソフトウェア及び/又はハードウェアの形態で実現されてもよく、一般的な電子機器に集積されることができる。該電子機器は端末機器又はサーバ機器などであってもよく、本開示の実施例は字庫作成方法を実行する電子機器のタイプを限定しない。相応的に、
図12に示すように、該方法は以下のような操作を含む。
【0138】
S1210において、ソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得る。
【0139】
そのうち、ソースドメイン入力字はある1つのソースドメインフォントのある字であってもよく、ターゲットドメイン新字は生成する必要があるターゲットドメインフォントスタイルを有する新字であってもよい。例示的に、ソースドメイン入力字は楷書体の字の画像であってもよく、新字は手書き字の画像であってもよく、楷書体の字の画像をフォント生成モデルに入力し、手書き字の画像を得ることができる。フォント生成モデルは上記のいずれか1つの実施例に記載のフォント生成モデルトレーニング方法によりトレーニングして得られる。
【0140】
S1220において、前記ターゲットドメイン新字に基づいて、字庫を作成する。
【0141】
例示的に、フォント生成モデルが生成した新字を記憶し、手書きのフォントスタイルを有する字庫を作成し、該字庫が入力法に適用されることができ、ユーザは該字庫に基づく入力法を使用して直接に手書きのフォントスタイルを有する字を取得し、ユーザの多様化のニーズを満足し、ユーザの体験を向上させることができる。
【0142】
一例において、
図13は本開示の実施例に係るフォント生成モデルトレーニング装置の構造図である。本開示の実施例は、複数タイプの特徴ロスによりトレーニングしてフォント生成モデルを最適化させる場合に適用されることができ、該装置はソフトウェア及び/又はハードウェアにより実現され、具体的には、電子機器に配置される。該電子機器は端末機器又はサーバ機器などであってもよく、本開示の実施例はフォント生成モデルトレーニング方法を実行する電子機器のタイプを限定しない。
【0143】
図13に示すようなフォント生成モデルトレーニング装置1300は、第1ターゲットドメイン生成字取得モジュール1310、第1特徴ロス取得モジュール1320、第2特徴ロス取得モジュール1330、ターゲット特徴ロス取得モジュール1340及び第1モデルパラメータ更新モジュール1350を含む。そのうち、
第1ターゲットドメイン生成字取得モジュール1310は、ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることに用いられ、
第1特徴ロス取得モジュール1320は、前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得ることに用いられ、
第2特徴ロス取得モジュール1330は、前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得ることに用いられ、
ターゲット特徴ロス取得モジュール1340は、前記第1特徴ロス及び/又は前記第2特徴ロスによりターゲット特徴ロスを確定することに用いられ、
第1モデルパラメータ更新モジュール1350は、前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することに用いられる。
【0144】
本開示の実施例はソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることにより、第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字をそれぞれ文字分類モデル及びフォント分類モデルに入力し、フォント生成モデルの第1特徴ロス及び第2特徴ロスを得て、第1特徴ロス及び/又は第2特徴ロスに確定されたターゲット特徴ロスによりフォント生成モデルのモデルパラメータを更新することで、フォント生成モデルに対するトレーニングを実現する。フォント生成モデルのトレーニングが完了した後に、ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得て、ターゲットドメイン新字に基づいて字庫を作成、これにより、従来のフォント生成モデルがフォントレベルのフォントを生成しにくいという問題を解決し、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができる。
【0145】
好ましくは、そのうち、前記文字分類モデルは複数の特徴層を含み、第1特徴ロス取得モジュール1320は、具体的には、前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第1生成字特徴マップを得ることと、前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第1サンプル字特徴マップを得ることと、ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の差異を算出し、前記第1特徴ロスを得ることと、に用いられる。
【0146】
好ましくは、第1特徴ロス取得モジュール1320は、具体的には、前記ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第1画素ロスを得ることと、前記ターゲット特徴層の第1画素ロスにより前記第1特徴ロスを算出することと、に用いられる。
【0147】
好ましくは、第1特徴ロス取得モジュール1320は、具体的には、前記第1生成字特徴マップにおける各位置の画素点の画素値と前記第1サンプル字特徴マップの対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、複数の位置の画素点の差異により、前記第1生成字特徴マップと第1サンプル字特徴マップとの間の画素差異を確定することと、に用いられる。
【0148】
好ましくは、そのうち、前記フォント分類モデルは複数の特徴層を含み、第2特徴ロス取得モジュール1330は、具体的には、前記第1ターゲットドメイン生成字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第2生成字特徴マップを得ることと、前記ターゲットドメインサンプル字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第2サンプル字特徴マップを得ることと、ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の差異を算出し、前記第2特徴ロスを得ることと、に用いられる。
【0149】
好ましくは、第2特徴ロス取得モジュール1330は、具体的には、前記ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第2画素ロスを得ることと、前記ターゲット特徴層の第2画素ロスにより前記第2特徴ロスを算出することと、に用いられる。
【0150】
好ましくは、第2特徴ロス取得モジュール1330は、具体的には、前記第2生成字特徴マップにおける各位置の画素点の画素値と前記第2サンプル字特徴マップの対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、複数の位置の画素点の差異により、前記第2生成字特徴マップと第2サンプル字特徴マップとの間の画素差異を確定することと、に用いられる。
【0151】
好ましくは、前記フォント生成モデルは循環ネットワーク生成モデルであり、第1生成モデル及び第2生成モデルを含み、第1ターゲットドメイン生成字取得モジュール1310は、具体的には、前記ソースドメインサンプル字を前記第1生成モデルに入力し、前記第1ターゲットドメイン生成字及び第1ソースドメイン生成字を得ることに用いられ、フォント生成モデルトレーニング装置は、前記ターゲットドメインサンプル字を前記第2生成モデルに入力し、第2ターゲットドメイン生成字及び第2ソースドメイン生成字を得ることに用いられる第2ターゲットドメイン生成字取得モジュールと、前記ソースドメインサンプル字、前記第1ターゲットドメイン生成字、前記第1ソースドメイン生成字、前記ターゲットドメインサンプル字、前記第2ターゲットドメイン生成字及び前記第2ソースドメイン生成字により、前記フォント生成モデルの生成ロスを算出することに用いられる生成ロス計算モジュールと、前記生成ロスにより前記第1生成モデルのモデルパラメータを更新することに用いられる第2モデルパラメータ更新モジュールと、をさらに含む。
【0152】
好ましくは、フォント生成モデルトレーニング装置は、前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記フォント生成モデルの文字ロスを算出することに用いられる文字ロス取得モジュールと、具体的に前記文字ロス及び前記ターゲット特徴ロスにより前記第1生成モデルのモデルパラメータを更新することに用いられる第1モデルパラメータ更新モジュール1350と、をさらに含む。
【0153】
好ましくは、前記文字ロス取得モジュールは、具体的には、前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記第1ターゲットドメイン生成字の生成文字ベクトルを得ることと、前記生成文字ベクトルと予め設定された標準文字ベクトルとの間の差異により前記文字ロスを算出することと、に用いられる。
【0154】
好ましくは、前記文字ロス取得モジュールは、具体的には、以下の式により前記文字ロスを算出することに用いられる。
【0155】
【0156】
【数15】
は生成文字ベクトルにおける添え字がiの要素を表し、
【0157】
【数16】
は標準文字ベクトルにおける添え字がiの要素を表し、iは0以上n以下の整数であり、nは前記生成文字ベクトル及び前記標準文字ベクトルにおける要素数を表す。
【0158】
好ましくは、前記ソースドメインサンプル字はターゲットソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字はターゲットドメインフォントスタイルを有する画像である。
【0159】
上記フォント生成モデルトレーニング装置は本開示の任意の実施例によるフォント生成モデルトレーニング方法を実行でき、実行方法に対応する機能モジュールと有益な効果を備える。本実施例において詳細に説明されない技術的詳細は、本開示の任意の実施例によるフォント生成モデルトレーニング方法を参照することができる。
【0160】
一例において、
図14は本開示の実施例に係る字庫作成装置の構造図である。本開示の実施例は複数タイプの特徴ロスによりトレーニングして最適化されたフォント生成モデルを利用して字庫を作成する場合に適用されることができ、該装置はソフトウェア及び/又はハードウェアにより実現され、具体的には、電子機器に配置される。該電子機器は端末機器又はサーバ機器などであってもよい。
【0161】
図14に示すような字庫作成装置1400は、ターゲットドメイン新字取得モジュール1410及び字庫作成モジュール1420を含む。そのうち、
ターゲットドメイン新字取得モジュール1410は、ソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることに用いられ、
字庫作成モジュール1420は、前記ターゲットドメイン新字に基づいて、字庫を作成することに用いられ、
前記フォント生成モデルは本開示のいずれか1つの実施例に記載のフォント生成モデルトレーニング装置によりトレーニングして得られる。
【0162】
本開示の実施例はフォント生成モデルが生成した新字を記憶し、手書きのフォントスタイルを有する字庫を作成し、該字庫が入力法に適用されることができ、ユーザは該字庫に基づく入力法を使用して直接に手書きのフォントスタイルを有するワードを取得し、ユーザの多様化のニーズを満足し、ユーザの体験を向上させることができる。
【0163】
上記字庫作成装置は、本開示の任意の実施例による字庫作成方法を実行でき、実行方法に対応する機能モジュールと有益な効果を備える。本実施例において詳細に説明されない技術的詳細は、本開示の任意の実施例による字庫作成方法を参照することができる。
【0164】
一例において、本開示は、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。
【0165】
図15は、本開示の実施例を実施することができる例示的な電子機器1500の概略ブロック図を示した。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、作業台、パーソナルデジタルアシスタント(Personal Digital Assistant)、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを意図する。電子機器も、パーソナルディジタル処理、携帯電話、スマートフォン、ウェアラブル機器及び他の類似する計算装置などの様々な形式の移動装置を表すことができる。本明細書に示された構成要素、それらの接続及び関係、及びそれらの機能は、例示とすることに過ぎず、本明細書に説明された及び/又は要求された本開示の実現を限定するものではない。
【0166】
図15に示すように、機器1500は、読み取り専用メモリ(ROM)1502に記憶されたコンピュータプログラム又は記憶ユニット1508からランダムアクセスメモリ(RAM)1503にロードされたコンピュータプログラムにより、様々な適切な動作及び処理を実行することができる計算ユニットを含む。RAM1503において、機器1500の操作に必要な各種プログラム及びデータも記憶することができる。計算ユニット、ROM1502及びRAM1503は、バス1504を介して相互に接続されている。入力/出力(I/O)インターフェース1505もバス1504に接続されている。
【0167】
キーボード、マウスなどの入力ユニット1506と、各種のディスプレイ、スピーカなどの出力ユニット1507と、磁気ディスク、光学ディスクなどの記憶ユニット1508と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1509とを含む機器1500内の複数の構成要素は、I/Oインターフェース1505に接続されている。通信ユニット1509は、機器1500がインターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の機器と情報/データを交換することを許可する。
【0168】
計算ユニットは、処理及び計算能力を有する様々な汎用及び/又は特定用途向け処理コンポーネントであってもよい。計算ユニットのいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な特定用途向け人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニットは、フォント生成モデルトレーニング方法又は字庫作成方法などの上述した様々な方法及び処理を実行する。例えば、いくつかの実施例では、フォント生成モデルトレーニング方法又は字庫作成方法は、記憶ユニット1508などの機械可読媒体に有形に含まれているコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM1502及び/又は通信ユニット1509を介して機器1500にロード及び/又はインストールすることができる。コンピュータプログラムがRAM1503にロードされ、計算ユニットによって実行されると、上述したフォント生成モデルトレーニング方法又は字庫作成方法の1つ又は複数のステップを実行することができる。代替的に、他の実施例において、計算ユニットは、他の任意の適切な形態によって(例えば、ファームウェアによって)フォント生成モデルトレーニング方法又は字庫作成方法を実行するように構成することができる。
【0169】
本明細書において、上記したシステム及び技術の各種実施形態は、デジタル電子回路システム、集積回路システム、ドメインプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせによって実現されることができる。これらの各種実施形態は次のような方法を含んでもよい。少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈されることができる1つ又は複数のコンピュータプログラムで実施され、該プログラマブルプロセッサは、特定用途向け又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び指令を受信し、データ及び指令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができる。
【0170】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、特定用途向けコンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、これにより、プログラムコードがプロセッサ又はコントローラにより実行される時に、フロー図及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは、全部でマシン上で、部分的にマシン上で、スタンドアロンソフトウェアパッケージとして部分的にマシン上で、且つ部分的にリモートマシン上、又は全部でリモートマシン又はサーバ上で実行することができる。
【0171】
本開示のコンテキストにおいて、機械可読媒体は、指令実行システム、装置又は機器によって使用される又は指令実行システム、装置、又は機器と合わせて使用されるプログラムを含む又は記憶することができる有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体のシステム、装置、又は機器、或いはこれらの任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的に接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶機器、磁気記憶機器、又はこれらの任意の適切な組み合わせを含んでもよい。
【0172】
ユーザとの対話を提供するために、コンピュータ上にここで説明されたシステム及び技術を実施でき、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニター)と、キーボード及びポインティングデバイス(例えば、マウスやトラックボールなど)とを有し、ユーザは該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置も、ユーザとの対話を提供することに用いられることができ、例えば、ユーザに提供されたフィードバックは、いかなる形式の感覚フィードバック(例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形式(音響入力、音声入力又は触覚入力を含む)でユーザからの入力を受信してもよい。
【0173】
ここで説明されたシステム及び技術を、バックグラウンド部材を含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェア部材を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部材を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェイス又はウェブブラウザーを有するユーザコンピュータ、ユーザは該グラフィカルユーザインターフェイス又は該ウェブブラウザーを介してここで説明されたシステム及び技術の実施形態と対話できる)、又はこのようなバックグラウンド部材、ミドルウェア部材、又はフロントエンド部材を含む任意の組み合わせのコンピューティングシステムで実施されることができる。システムの部材は、いかなる形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して互いに接続できる。通信ネットワークの例として、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、ブロックチェーンネットワーク及びインターネットを含む。
【0174】
コンピューティングシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは、一般に、互いに離れていて、且つ通常には通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータ上で実行されるとともに互いにクライアント-サーバ関係を有するコンピュータプログラムによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのうちの一つのホスト製品であり、これにより、従来の物理ホストとVPSサービスに存在している管理の難度が大きく、サービスの拡張性が弱いという欠陥を解決する。サーバも分散システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。
【0175】
本開示の実施例はソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることにより、第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字をそれぞれ文字分類モデル及びフォント分類モデルに入力し、フォント生成モデルの第1特徴ロス及び第2特徴ロスを得て、第1特徴ロス及び/又は第2特徴ロスに確定されたターゲット特徴ロスによりフォント生成モデルのモデルパラメータを更新し、これにより、フォント生成モデルに対するトレーニングを実現する。フォント生成モデルのトレーニングが完了した後に、ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得て、ターゲットドメイン新字に基づいて字庫を作成することにより、従来のフォント生成モデルがフォントレベルのフォントを生成しにくいという問題を解決し、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができる。
【0176】
上記に示した様々な形式のフローを使用して、ステップを並び替え、増加又は削除してもよい。例えば、本開示に公開された技術態様の望ましい結果が実現される限り、本開示に記載の各ステップを同時に実行しても、順序に実行しても、異なる順序で実行してもよく、本明細書においてこれを制限しないことを理解すべきである。
【0177】
上記の具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要件及び他の要因に従って、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができることを理解すべきである。本開示の精神及び原理の範囲内で行われるあらゆる修正、同価置換、改良などは、いずれも本開示の保護範囲に含まれるべきである。