特開2023-39889 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ベイジン　バイドゥ　ネットコム　サイエンス　アンド　テクノロジー　カンパニー　リミテッドの特許一覧

特開2023-39889モデルトレーニング方法および字庫作成方法、デバイス、設備ならびに記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3A
3B
4A
4B
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023039889

(43)【公開日】2023-03-22

(54)【発明の名称】モデルトレーニング方法および字庫作成方法、デバイス、設備ならびに記憶媒体

(51)【国際特許分類】

G06T 1/40 20060101AFI20230314BHJP

G06T 7/00 20170101ALI20230314BHJP

【ＦＩ】

G06T1/40

G06T7/00 350C

【審査請求】有

【請求項の数】22

【出願形態】ＯＬ

(21)【出願番号】P 2022007187

(22)【出願日】2022-01-20

(31)【優先権主張番号】202111057836.1

(32)【優先日】2021-09-09

(33)【優先権主張国・地域又は機関】CN

(71)【出願人】

【識別番号】514322098

【氏名又は名称】ベイジンバイドゥネットコムサイエンステクノロジーカンパニーリミテッド

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＢａｉｄｕＮｅｔｃｏｍＳｃｉｅｎｃｅＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】２／ＦＢａｉｄｕＣａｍｐｕｓ，Ｎｏ．１０，Ｓｈａｎｇｄｉ１０ｔｈＳｔｒｅｅｔ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８５，Ｃｈｉｎａ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】▲劉▼ 家▲銘▼

(72)【発明者】

【氏名】唐礼承

【テーマコード（参考）】

5B057

5L096

【Ｆターム（参考）】

5B057AA20

5B057BA02

5B057CA12

5B057CA16

5B057CB12

5B057CB16

5B057DA17

5B057DB02

5B057DC09

5B057DC30

5B057DC40

5L096BA08

5L096BA17

5L096DA01

5L096FA69

5L096HA11

5L096JA11

5L096JA18

5L096KA04

5L096MA03

(57)【要約】（修正有）

【課題】ＯＣＲ光学文字認識等のシナリオに適用するフォント生成モデルのトレーニング方法、プログラム及びデバイスを提供する。
【解決手段】フォント生成モデルのトレーニング方法は、ソースドメインのサンプル文字とターゲットドメインの関連文字とをフォント生成モデルのエンコーダに入力し、サンプル文字の内容特徴と関連文字のスタイル特徴を得ることと、両特徴をフォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得ることと、サンプル文字の内容特徴とターゲットドメインのスタイル特徴とをフォント生成モデルのデコーダに入力し、ターゲットドメイン生成文字を得ることと、ターゲットドメインのサンプル文字及び／又は関連文字とターゲットドメイン生成文字とをフォント生成モデルのロス解析ネットワークに入力しモデルロスを得て、モデルロスに応じてフォント生成モデルのパラメータを調整することと、を含む。
【選択図】図２Ａ

【特許請求の範囲】

【請求項1】

ソースドメインサンプル文字と、前記ソースドメインサンプル文字のターゲットドメイン関連文字とをフォント生成モデルのエンコーダに入力し、サンプル文字の内容特徴と関連文字のスタイル特徴を得ることと、
前記サンプル文字の内容特徴と、関連文字のスタイル特徴とを前記フォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得ることと、
前記サンプル文字の内容特徴と、前記ターゲットドメインのスタイル特徴とを前記フォント生成モデルのデコーダに入力し、ターゲットドメイン生成文字を得ることと、
ターゲットドメインサンプル文字および前記ターゲットドメイン関連文字の少なくとも１つと、前記ターゲットドメイン生成文字とを前記フォント生成モデルのロス解析ネットワークに入力し、モデルロスを得、前記モデルロスに応じて前記フォント生成モデルのパラメータを調整することと、を含む、フォント生成モデルのトレーニングの方法。

【請求項2】

前記注意機構ネットワークは、内容特徴感知層、スタイル特徴感知層、アクティブ化層、および全結合層を含み、
前記サンプル文字の内容特徴と、関連文字のスタイル特徴とを前記フォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得ることは、
前記サンプル文字の内容特徴を前記内容特徴感知層に入力し、内容感知値を得ることと、
前記関連文字のスタイル特徴を前記スタイル特徴感知層に入力し、スタイル感知値を得ることと、
前記内容感知値と前記スタイル感知値とを前記アクティブ化層に入力し、ターゲットドメインの特徴重みを得ることと、
前記特徴重みと前記関連文字のスタイル特徴とを前記全結合層に入力し、ターゲットドメインのスタイル特徴を得ることと、を含む、請求項１に記載の方法。

【請求項3】

前記ロス解析ネットワークは、モジュール分類器、キャラクタ判別器、スタイル判別器、およびキャラクタ分類器の少なくとも１つを含み、
前記モデルロスは、モジュール分類ロス、キャラクタ分類ロス、スタイル分類ロス、および誤字ロスの少なくとも１つを含む、請求項１に記載の方法。

【請求項4】

前記ターゲットドメインサンプル文字および前記ターゲットドメイン関連文字の少なくとも１つと、前記ターゲットドメイン生成文字とを前記フォント生成モデルのロス解析ネットワークに入力し、モデルロスを得、前記モデルロスに応じて前記フォント生成モデルのパラメータを調整することは、
ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記キャラクタ判別器に入力し、キャラクタ分類ロスの第１のキャラクタロス値を得、調整後のキャラクタ判別器を得るように前記第１のキャラクタロス値に基づいて、前記キャラクタ判別器のパラメータを調整することと、
前記ターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、キャラクタ分類ロスの第２のキャラクタロス値を得、前記第２のキャラクタロス値に基づいて、エンコーダ、注意機構ネットワーク、およびデコーダを含むフォント生成ネットワークのパラメータを調整することと、
ターゲットドメインサンプル文字、および調整後のフォント生成ネットワークに基づいて更新されたターゲットドメイン生成文字を、調整後のキャラクタ判別器に入力し、前記第１のキャラクタロス値を更新し、更新後の第１のキャラクタロス値に基づいて、キャラクタ判別器のパラメータを再調整することと、を含む、請求項３に記載の方法。

【請求項5】

ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記キャラクタ判別器に入力し、キャラクタ分類ロスの第１のキャラクタロス値を得ることは、
ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記キャラクタ判別器に入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置を得ることと、
ターゲットドメイン生成文字のキャラクタ分類ヘッド位置と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置に応じて、キャラクタ分類ロスの第１のキャラクタロス値を決定することと、を含む、請求項４に記載の方法。

【請求項6】

前記ターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、キャラクタ分類ロスの第２のキャラクタロス値を得ることは、
前記ターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置を更新することと、
更新後のキャラクタ分類ヘッド位置に応じて、キャラクタ分類ロスの第２のキャラクタロス値を決定することと、を含む、請求項４に記載の方法。

【請求項7】

前記ターゲットドメインサンプル文字および前記ターゲットドメイン関連文字の少なくとも１つと、前記ターゲットドメイン生成文字とを前記フォント生成モデルロス解析ネットワークに入力し、モデルロスを得、前記モデルロスに応じて前記フォント生成モデルのパラメータを調整することは、
ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記スタイル判別器に入力し、スタイル分類ロスの第１のスタイルロス値を得、調整後のスタイル判別器を得るように前記第１のスタイルロス値に基づいて、前記スタイル判別器のパラメータを調整することと、
前記ターゲットドメイン生成文字を調整後のスタイル判別器に入力し、スタイル分類ロスの第２のスタイルロス値を得、前記第２のスタイルロス値に基づいて、エンコーダ、注意機構ネットワーク、およびデコーダを含む前記フォント生成ネットワークのパラメータを調整することと、
ターゲットドメインサンプル文字、および調整後のフォント生成ネットワークに基づいて更新されたターゲットドメイン生成文字を、調整後のスタイル判別器に入力し、前記第１のスタイルロス値を更新し、更新後の第１のスタイルロス値に基づいて、スタイル判別器のパラメータを再調整することと、を含む、請求項３に記載の方法。

【請求項8】

ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記スタイル判別器に入力し、スタイル分類ロスの第１のスタイルロス値を得ることは、
ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記スタイル判別器に入力し、ターゲットドメイン生成文字のスタイル分類ヘッド位置と、ターゲットドメインサンプル文字のスタイル分類ヘッド位置を得ることと、
ターゲットドメイン生成文字のスタイル分類ヘッド位置と、ターゲットドメインサンプル文字のスタイル分類ヘッド位置に応じて、スタイル分類ロスの第１のスタイルロス値を決定することと、を含む、請求項７に記載の方法。

【請求項9】

前記ターゲットドメイン生成文字を調整後のスタイル判別器に入力し、スタイル分類ロスの第２のスタイルロス値を得ることは、
前記ターゲットドメイン生成文字を調整後のスタイル判別器に入力し、ターゲットドメイン生成文字のスタイル分類ヘッド位置を更新することと、
更新後のスタイル分類ヘッド位置に応じて、スタイル分類ロスの第２のスタイルロス値を決定することと、を含む、請求項７に記載の方法。

【請求項10】

ターゲットドメインサンプル文字および前記ターゲットドメイン関連文字の少なくとも１つと、前記ターゲットドメイン生成文字とを前記フォント生成モデルのロス解析ネットワークに入力し、モデルロスを得ることは、
前記ターゲットドメイン関連文字と、前記ターゲットドメイン生成文字とを前記モジュール分類器に入力し、前記ターゲットドメイン生成文字のモジュールベクトルと、前記ターゲットドメイン関連文字のモジュールベクトルを得ることと、
前記ターゲットドメイン生成文字のモジュールベクトルと、前記ターゲットドメイン関連文字のモジュールベクトルとの差に応じて、モジュール分類ロスを決定することと、を含む、請求項３に記載の方法。

【請求項11】

ターゲットドメインサンプル文字および前記ターゲットドメイン関連文字の少なくとも１つと、前記ターゲットドメイン生成文字とを前記フォント生成モデルのロス解析ネットワークに入力し、モデルロスを得ることは、
ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記キャラクタ分類器に入力し、ターゲットドメインサンプル文字のキャラクタ分類ヘッドベクトルと、前記ターゲットドメイン生成文字のキャラクタ分類ヘッドベクトルを得ることと、
ターゲットドメインサンプル文字のキャラクタ分類ヘッドベクトルと、前記ターゲットドメイン生成文字のキャラクタ分類ヘッドベクトルとの差に応じて、誤字ロスを決定することと、を含む、請求項３に記載の方法。

【請求項12】

ソースドメイン入力文字をフォント生成モデルに入力し、ターゲットドメイン新文字を得ることと、
前記ターゲットドメイン新文字に基づいて、字庫を作成することと、を含み、
前記フォント生成モデルは、請求項１～１１のいずれか一項に記載の方法に従ってトレーニングされたものである、字庫作成方法。

【請求項13】

ソースドメインサンプル文字と、前記ソースドメインサンプル文字のターゲットドメイン関連文字とをフォント生成モデルのエンコーダに入力し、サンプル文字の内容特徴と関連文字のスタイル特徴を得るための第１の特徴決定モジュールと、
前記サンプル文字の内容特徴と、関連文字のスタイル特徴とを前記フォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得るための第２の特徴決定モジュールと、
前記サンプル文字の内容特徴と、前記ターゲットドメインのスタイル特徴とを前記フォント生成モデルのデコーダに入力し、ターゲットドメイン生成文字を得るための生成文字決定モジュールと、
ターゲットドメインサンプル文字および前記ターゲットドメイン関連文字の少なくとも１つと、前記ターゲットドメイン生成文字とを前記フォント生成モデルのロス解析ネットワークに入力し、モデルロスを得、前記モデルロスに応じて前記フォント生成モデルのパラメータを調整するためのモデルトレーニングモジュールと、を含む、フォント生成モデルのトレーニングのデバイス。

【請求項14】

前記注意機構ネットワークは、内容特徴感知層、スタイル特徴感知層、アクティブ化層、および全結合層を含み、
前記第２の特徴決定モジュールは、
前記サンプル文字の内容特徴を前記内容特徴感知層に入力し、内容感知値を得、
前記関連文字のスタイル特徴を前記スタイル特徴感知層に入力し、スタイル感知値を得、
前記内容感知値と前記スタイル感知値とを前記アクティブ化層に入力し、ターゲットドメインの特徴重みを得、
前記特徴重みと前記関連文字のスタイル特徴とを前記全結合層に入力し、ターゲットドメインのスタイル特徴を得るために用いられる、請求項１３に記載のデバイス。

【請求項15】

前記ロス解析ネットワークは、モジュール分類器、キャラクタ判別器、スタイル判別器、およびキャラクタ分類器の少なくとも１つを含み、
前記モデルロスは、モジュール分類ロス、キャラクタ分類ロス、スタイル分類ロス、および誤字ロスの少なくとも１つを含む、請求項１３に記載のデバイス。

【請求項16】

前記モデルトレーニングモジュールは、
ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記キャラクタ判別器に入力し、キャラクタ分類ロスの第１のキャラクタロス値を得るための第１のキャラクタロス計算ユニットと、
調整後のキャラクタ判別器を得るように前記第１のキャラクタロス値に基づいて、前記キャラクタ判別器のパラメータを調整するためのキャラクタ判別器調整ユニットと、
前記ターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、キャラクタ分類ロスの第２のキャラクタロス値を得るための第２のキャラクタロス計算ユニットと、
前記第２のキャラクタロス値に基づいて、フォント生成ネットワークのパラメータを調整するためのフォント生成ネットワーク調整ユニットと、を含み、
前記フォント生成ネットワークは、エンコーダ、注意機構ネットワーク、およびデコーダを含み、
前記第１のキャラクタロス計算ユニットは、さらに、ターゲットドメインサンプル文字、および調整後のフォント生成ネットワークに基づいて更新されたターゲットドメイン生成文字を、調整後のキャラクタ判別器に入力し、前記第１のキャラクタロス値を更新するために用いられ、
前記キャラクタ判別器調整ユニットは、さらに、更新後の第１のキャラクタロス値に基づいて、キャラクタ判別器のパラメータを再調整するために用いられる、請求項１５に記載のデバイス。

【請求項17】

前記第１のキャラクタロス計算ユニットは、
ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記キャラクタ判別器に入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置を得、
ターゲットドメイン生成文字のキャラクタ分類ヘッド位置と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置に応じて、キャラクタ分類ロスの第１のキャラクタロス値を決定するために用いられる、請求項１６に記載のデバイス。

【請求項18】

前記第２のキャラクタロス計算ユニットは、
前記ターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置を更新し、
更新後のキャラクタ分類ヘッド位置に応じて、キャラクタ分類ロスの第２のキャラクタロス値を決定するために用いられる、請求項１６に記載のデバイス。

【請求項19】

ソースドメイン入力文字をフォント生成モデルに入力し、ターゲットドメイン新文字を得るための新文字生成モジュール、および、
前記ターゲットドメイン新文字に基づいて、字庫を作成するための字庫作成モジュールを含み、
前記フォント生成モデルは、請求項１～１１のいずれか１項に記載の方法に従ってトレーニングされたものである、字庫作成デバイス。

【請求項20】

少なくとも１つのプロセッサ、および
前記少なくとも１つのプロセッサと通信接続されたメモリを含む電子デバイスであって、
前記メモリに、前記少なくとも１つのプロセッサによって実行可能な指令が記憶されており、前記少なくとも１つのプロセッサに請求項１～１１のいずれか一項に記載のフォント生成モデルのトレーニングの方法および／または請求項１２に記載の字庫作成方法を実行させるように、前記指令が前記少なくとも１つのプロセッサによって実行される、電子デバイス。

【請求項21】

コンピュータ指令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ指令は、コンピュータに請求項１～１１のいずれか一項に記載のフォント生成モデルのトレーニングの方法および／または請求項１２に記載の字庫作成方法を実行させるために用いられる、非一時的なコンピュータ可読記憶媒体。

【請求項22】

プロセッサに実行されると、請求項１～１１のいずれか一項に記載のフォント生成モデルのトレーニング方法および／または請求項１２に記載の字庫作成方法を実現する、コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、人工知能の技術分野に関し、具体的には、コンピュータビジョンと深層学習の技術分野に関し、ＯＣＲ光学文字認識等のシナリオに適用することができる。

【背景技術】

【0002】

インターネットの発展および人々の個人的なニーズの増加に伴い、カスタムスタイルのフォント生成が徐々に活発になっている。

【0003】

フォント生成の過程は、本質的に、画像スタイル変換の過程であり、すなわち、内容を変更せずに１枚の画像を別のスタイルに変換することである。例えば、標準楷書体スタイルの
（外１）

という文字を、ユーザの手書きスタイルの
（外２）

に変換することである。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本開示は、モデルトレーニングおよび字庫作成方法、デバイス、設備および記憶媒体を提供する。

【課題を解決するための手段】

【0005】

本開示の一態様によれば、
ソースドメインサンプル文字と、ソースドメインサンプル文字のターゲットドメイン関連文字とをフォント生成モデルのエンコーダに入力し、サンプル文字の内容特徴と関連文字のスタイル特徴を得ることと、
サンプル文字の内容特徴と、関連文字のスタイル特徴とをフォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得ることと、
サンプル文字の内容特徴と、ターゲットドメインのスタイル特徴とをフォント生成モデルのデコーダに入力し、ターゲットドメイン生成文字を得ることと、
ターゲットドメインサンプル文字およびターゲットドメイン関連文字の少なくとも１つと、ターゲットドメイン生成文字とをフォント生成モデルのロス解析ネットワークに入力し、モデルロスを得、モデルロスに応じてフォント生成モデルのパラメータを調整することと、を含む、フォント生成モデルのトレーニング方法を提供する。

【0006】

本開示の別の態様によれば、
ソースドメイン入力文字を、本開示のいずれかの実施例のフォント生成モデルのトレーニング方法によるトレーニングで得られたフォント生成モデルに入力し、ターゲットドメイン新文字を得ることと、
ターゲットドメイン新文字に基づいて字庫を作成することと、を含む、字庫作成方法を提供する。

【0007】

本開示の別の態様によれば、
少なくとも１つのプロセッサと、
少なくとも１つのプロセッサと通信接続されたメモリと、を備え、
メモリに少なくとも１つのプロセッサによって実行可能な指令が記憶されており、指令は、少なくとも１つのプロセッサが本開示のいずれかの実施例のフォント生成モデルのトレーニング方法および／または字庫作成方法を実行可能であるように、少なくとも１つのプロセッサによって実行される、電子デバイスを提供する。

【0008】

本開示の別の態様によれば、コンピュータ指令が記憶された非一時的なコンピュータ可読記憶媒体であって、コンピュータ指令は、コンピュータに本開示のいずれかの実施例のフォント生成モデルのトレーニング方法および／または字庫作成方法を実行させるために用いられる、非一時的なコンピュータ可読記憶媒体を提供する。

【発明の効果】

【0009】

本開示の技術によれば、少ないサンプルでフォント生成モデルをトレーニングするための新しいアイデアを提供し、モデルトレーニングの正確性を向上させる。

【0010】

本発明に記載された内容は、本発明の実施例のキーまたは重要な特徴を特定するためのものではなく、本発明の範囲を限定するものでもないことを理解すべきである。本発明の他の特徴は、以下の説明により容易に理解される。

【図面の簡単な説明】

【0011】

図面は本技術案をより良く理解するためのものであり、本発明に対する限定を構成しない。

【0012】

【図1】本開示の１つの実施例に係るフォント生成モデルのトレーニング方法および／または字庫作成方法を適用できる、例示的なシステムアーキテクチャの模式図である。

【図2A】本開示の実施例に係るフォント生成モデルのトレーニング方法のフローチャートである。

【図2B】本開示の実施例に係るフォント生成モデルの構造模式図である。

【図3A】本開示の実施例に係るフォント生成モデルの注意機構ネットワークの内部構造の模式図である。

【図3B】本開示の実施例に係る別のフォント生成モデルのトレーニング方法のフローチャートである。

【図4A】本開示の実施例に係る別のフォント生成モデルの構造模式図である。

【図4B】本開示の実施例に係る別のフォント生成モデルのトレーニング方法のフローチャートである。

【図5】本開示の実施例に係る字庫作成方法のフローチャートである。

【図6】本開示の実施例に係るフォント生成モデルのトレーニングデバイスの構造模式図である。

【図7】本開示の実施例に係る字庫作成デバイスの構造模式図である。

【図8】本開示の実施例に係るフォント生成モデルのトレーニング方法および／または字庫作成方法を実現するための電子デバイスのブロック図である。

【発明を実施するための形態】

【0013】

以下、図面を参照しながら本発明の例示的な実施例を説明し、理解を容易にするための本発明の実施例の様々な詳細を含むが、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本発明の範囲および精神から逸脱することなく、本明細書に記載される実施例に対して様々な変更および修正を行うことができることを認識すべきである。同様に、明瞭かつ簡明にするために、以下の説明では、公知の機能および構造に対する説明は省略する。

【0014】

フォント生成は、画像スタイル変換分野における新しいタスクであり、画像スタイル変換は、内容を変更せずに１枚の画像を別のスタイルに変換することであり、深層学習アプリケーションにおける人気のある研究方向である。

【0015】

現在、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ：敵対的生成ネットワーク）モデルによって、フォント生成を実現することができる。しかし、ＧＡＮモデルに基づくフォント生成スキームでは、少量のデータでトレーニングされたネットワークを利用することによって、傾き、大きさ、筆画の一部のような比較的弱い特徴しか学習できず、最もユーザらしいスタイル特徴を学習できない。大量のデータでトレーニングされたネットワークを用いると、スタイルには強いが、トレーニングセット以外の漢字では誤字が生じやすい。これらの主流の研究成果では、いずれもフォントレベルの効果を達成することは難しい。

【0016】

本開示の実施例は、フォント生成モデルのトレーニング方法、および当該フォント生成モデルを使用して字庫を作成する方法を提供する。ソースドメインと、ターゲットドメインとのフォントスタイル変換タスクを実行するように、フォント生成モデルをトレーニングする過程において、注意機構ネットワークを導入することにより、ターゲットドメインの全体的なスタイル特徴、すなわち、ターゲットドメインのスタイル特徴を決定し、ターゲットドメインのスタイル特徴の正確性を向上させる。さらに、フォント生成モデルがフォントスタイル変換を実行する能力を向上させ、ターゲットドメインのサンプルデータが少ない場合、またはソースドメインフォントがフォント分布のスタイルに合致しない場合でも、美しく正確なフォントを生成することができ、モデルの正確性を向上させることができる。

【0017】

図１は本開示の１つの実施例に係るフォント生成モデルのトレーニング方法および／または字庫作成方法を適用できる、例示的なシステムアーキテクチャの模式図である。なお、図１は、当業者が本開示の技術的内容を理解するのを助けるための、本開示の実施例を適用できるシステムアーキテクチャの単なる例であるが、本開示の実施例が他のデバイス、システム、環境、またはシナリオに使用できないことを意味するものではない。

【0018】

図１に示すように、本実施例に係るシステムアーキテクチャ１００は、複数の端末デバイス１０１、ネットワーク１０２およびサーバ１０３を含むことができる。ネットワーク１０２は、端末デバイス１０１とサーバ１０３との間で、通信リンクを提供するための媒体である。ネットワーク１０２は、例えば、有線および／または無線通信リンク等様々な接続タイプを含むことができる。

【0019】

ユーザは、端末デバイス１０１を使用して、メッセージの受信または送信等をするように、ネットワーク１０２を介してサーバ１０３と通信することができる。端末デバイス１０１は、様々な電子デバイスであってもよく、スマートフォン、タブレット、ラップトップポータブルコンピュータ等を含むが、これらに限らない。

【0020】

一般的に、本開示の実施例に係るフォント生成モデルのトレーニング方法および／または字庫作成方法の少なくとも１つは、サーバ１０３によって実行されることができる。一般的に、本開示の実施例に係るフォント生成モデルのトレーニングデバイスおよび／または字庫作成デバイスは、サーバ１０３に設置されることができる。本開示の実施例に係るフォント生成モデルのトレーニング方法および／または字庫作成方法は、サーバ１０３と異なって、かつ端末デバイス１０１および／またはサーバ１０３と通信できるサーバまたはサーバクラスターによって実行されることができる。本開示の実施例に係るフォント生成モデルのトレーニングデバイスおよび／または字庫作成デバイスは、サーバ１０３と異なって、かつ端末デバイス１０１および／またはサーバ１０３と通信できるサーバまたはサーバクラスターに設置されることができる。

【0021】

図２Ａは本開示の実施例に係るフォント生成モデルのトレーニング方法のフローチャートであり、図２Ｂは本開示の実施例に係るフォント生成モデルの構造模式図である。本開示の実施例は、フォントスタイル変換タスクを実行するフォント生成モデルをトレーニングする場合に適用され、特に、少ないサンプルデータに基づいてフォントスタイル変換タスクを実行するフォント生成モデルをトレーニングする場合に適用される。当該方法は、フォント生成モデルのトレーニングデバイスによって実行されることができ、当該デバイスは、ソフトウェアおよび／またはハードウェアによって実現されることができる。図２Ａ～図２Ｂに示すように、本実施例に係るフォント生成モデルのトレーニング方法は、以下のステップを含む。

【0022】

Ｓ２０１：ソースドメインサンプル文字と、ソースドメインサンプル文字のターゲットドメイン関連文字とをフォント生成モデルのエンコーダに入力し、サンプル文字の内容特徴と関連文字のスタイル特徴を得ることである。

【0023】

ここで、ソースドメインサンプル文字は、ソースドメインフォントスタイルを有する画像であってもよく、ソースドメインフォントスタイルは、楷書体、明朝体、またはゴシック体等通常のフォントであってもよい。ターゲットドメイン関連文字は、ターゲットドメインフォントスタイルを有し、ソースドメインサンプル文字の偏旁部首を覆う画像であってもよい。ターゲットドメインフォントスタイルは、ユーザの手書きフォントスタイルまたは他のワードアートフォントスタイルであってもよい。なお、本実例におけるターゲットドメイン関連文字の個数は、１つまたは複数であってもよく、好ましくは複数である。例えば、ソースドメインサンプル文字が
（外３）

（それに対応する偏旁部首が「イ」（人偏）および
（外４）

を含む）であると、ターゲットドメイン関連文字は、ターゲットドメインフォントスタイルを有し、「イ」または
（外５）

の全ての文字を含む画像であり、例えば「称」および「佳」であってもよい。サンプル文字の内容特徴は、ソースドメインサンプル文字のフォント内容（例えば、キャラクタ類別とモジュール類別）を特徴付ける特徴であってもよい。関連文字のスタイル特徴は、それぞれのターゲットドメイン関連フォントのフォントスタイルを特徴付ける特徴であってもよい。

【0024】

図２Ｂに示すように、本実施例のフォントスタイルモデル２は、ソースドメインサンプル文字をソースドメインスタイルフォントからターゲットドメインスタイルフォントに変換するニューラルネットワークモデルである。当該フォント生成モデル２は、フォント生成ネットワーク２０とロス解析ネットワーク２１とを含むことができる。ここで、フォント生成ネットワーク２０は、フォントスタイル変換のタスクを実行するために用いられ、すなわち、フォント生成モデルのバックボーンネットワークである。具体的には、フォント生成ネットワーク２０は、エンコーダ２０１、注意機構ネットワーク２０２およびデコーダ２０３を含む。ここで、エンコーダ２０１は、ソースドメインサンプル文字の内容特徴をコーディングし、ターゲットドメイン関連文字のスタイル特徴をコーディングするために用いられ、当該エンコーダ２０１は、内容エンコーダ２０１１と、スタイルエンコーダ２０１２とをさらに含むことができる。注意機構ネットワーク２０２は、ターゲットドメインのスタイル特徴における各スタイル分類ヘッド位置の重要性を解析し、ターゲットドメインのスタイル特徴を正確に決定するために用いられる。デコーダ２０４は、内容特徴とスタイル特徴に基づいてデコードしてスタイル変換後の生成文字を得るために用いられる。ロス解析ネットワーク２１は、モデルがロス関数に基づいてパラメータを調整するように、モデルトレーニング段階において、トレーニング過程でのモデルロス関数を計算するために用いられる。

【0025】

好ましくは、本実施例では、反復トレーニングタスクを一回実行する場合、まず、ソースドメインサンプル文字に基づいて、当該ソースドメインサンプル文字の偏旁部首を覆うターゲットドメイン関連文字のバッチを取得し、そしてソースドメインサンプル文字とターゲットドメイン関連文字とを、フォント生成モデル２のフォント生成ネットワーク２０のエンコーダ２０１に入力することができ、具体的には、ソースドメインサンプル文字を、エンコーダ２０１の内容エンコーダ２０１１に入力し、ターゲットドメイン関連文字を、エンコーダ２０１のスタイルエンコーダ２０１２に入力してから、当該内容エンコーダ２０１１は、入力されたソースドメインサンプル文字のフォント内容をコーディングし、サンプル文字の内容特徴を得ることができる。当該スタイルエンコーダ２０１２は、入力されたターゲットドメイン関連文字のフォントスタイルをコーディングし、関連文字のスタイル特徴を得る。なお、本実施例では、それぞれのターゲットドメイン関連文字は、対応する関連文字のスタイル特徴を決定する必要がある。例えば、図２Ｂに示すように、明朝体スタイルフォントとなる
（外６）

（すなわち、ソースドメインサンプル文字）を内容エンコーダ２０１１に入力して、明朝体スタイルフォントとなる
（外７）

の内容特徴を得る。手書きスタイルフォントとなる「称」および「佳」（すなわち、ターゲットドメイン関連文字）をスタイルエンコーダ２０１２に入力して、手書きスタイルフォントとなる「称」の関連文字のスタイル特徴１、および手書きスタイルフォントとなる「佳」の関連文字のスタイル特徴２をそれぞれ得る。

【0026】

Ｓ２０２：サンプル文字の内容特徴と、関連文字のスタイル特徴とをフォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得ることである。

【0027】

ここで、ターゲットドメインのスタイル特徴は、ターゲットドメインの全体的なスタイルを特徴付ける特徴であってもよい。

【0028】

図２Ｂに示すように、関連文字のスタイル特徴は、ターゲットドメインに対応するそれぞれのターゲット関連文字のスタイル特徴であるため、一部のターゲットドメインのスタイル特徴のみを表すことができ、本実施例では、注意機構ネットワーク２０２に基づいて、ターゲットドメインに対応する各ターゲット関連文字のスタイル特徴を統合して、当該ターゲットドメインの全体的なスタイル特徴、すなわち、ターゲットドメインのスタイル特徴を得る必要がある。具体的には、エンコーダ２０１によってコーディングされるサンプル文字の内容特徴と、関連文字のスタイル特徴を注意機構ネットワーク２０２に入力し、注意機構ネットワーク２０２は、サンプル文字の内容特徴に基づいて、各関連文字のスタイル特徴を順次解析し、さらに、各関連文字のスタイル特徴を、１つのターゲットドメインスタイルを特徴付ける特徴ベクトル（すなわち、ターゲットドメインのスタイル特徴）に統合することができる。

【0029】

Ｓ２０３：サンプル文字の内容特徴と、ターゲットドメインのスタイル特徴とをフォント生成モデルのデコーダに入力し、ターゲットドメイン生成文字を得ることである。

【0030】

ここで、ターゲットドメイン生成文字は、フォント生成モデルによって生成されるソースドメインサンプル文字の内容と、ターゲットドメイン関連文字のフォントスタイルを有する画像であってもよい。例えば、ソースドメインサンプル文字が
（外８）

であり、ターゲットドメインフォントスタイルがユーザの手書きフォントスタイルであると、ターゲットドメイン生成文字は、ユーザの手書きフォントスタイルとなる
（外９）

であってもよい。

【0031】

図２Ｂに示すように、本実施例では、エンコーダ２０１（具体的には、内容エンコーダ２０１１）によってコーディングされるサンプル文字の内容特徴、および注意機構ネットワーク２０２によって統合されるターゲットドメインのスタイル特徴をデコーダ２０３に入力することができ、そして、デコーダ２０３は、ターゲットドメインのスタイル特徴と、サンプル文字の内容特徴とをデコードし、さらにデコード結果に基づいて、ソースドメインサンプル文字の内容と、ターゲットドメイン関連文字のフォントスタイルを有するターゲットドメイン生成文字（例えば、手書きスタイルの
（外１０）

）を融合させて得ることができる。

【0032】

Ｓ２０４：ターゲットドメインサンプル文字およびターゲットドメイン関連文字の少なくとも１つと、ターゲットドメイン生成文字とをフォント生成モデルのロス解析ネットワークに入力し、モデルロスを得、モデルロスに応じてフォント生成モデルのパラメータを調整することである。

【0033】

ここで、ターゲットドメインサンプル文字は、ソースドメインサンプル文字の内容と、ターゲットドメイン関連文字のフォントスタイルとを有し、実際に存在する画像であってもよい。それは、ターゲットドメイン生成文字に対応する標準文字である。例えば、サンプル文字が
（外１１）

であり、ターゲットドメインがユーザの手書きスタイルフォントである場合、当該ターゲットドメインサンプル文字はリアルなユーザの手書きの
（外１２）

という文字であってもよい。ターゲットドメイン生成文字は、フォント生成モデルによって予測されたユーザの手書きの
（外１３）

という文字である。モデルロスは、Ｓ２０１～Ｓ２０３では、ターゲットドメイン関連文字と、ソースドメインサンプル文字に基づいて、モデルをトレーニングする時に算出するロス関数である。

【0034】

本実施例のフォント生成モデルにおいてロス解析ネットワークは、少なくとも１種類のタイプのロス関数を解析する少なくとも１つのを含むことができ、すなわち、当該ロス解析ネットワークに基づいて決定されるモデルロスは、少なくとも１種類のタイプのロス関数の値を含むことができる。例えば、フォント生成モデルのロス解析ネットワークは、ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とのキャラクタ内容の一致性を解析して、キャラクタ分類ロスを生成し、ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とのフォントスタイルの一致性を解析して、スタイル分類ロスを生成し、ターゲットドメイン関連文字と、ターゲットドメイン生成文字との偏旁部首（すなわち、モジュール）の一致性を解析して、モジュール分類ロスを生成し、ターゲットドメイン生成文字が誤字であるかどうかの誤字ロス等を解析する。本実施例では、ロス解析ネットワークによりモデルロスを算出した後、当該モデルロスに基づいて、フォント生成モデルのパラメータを調整する。

【0035】

なお、本出願の実施例のスキームでは、複数のセットのソースドメインサンプル文字に基づいて、モデルを複数回反復トレーニングする必要があり、予め設定されたトレーニング停止条件を満たすと、フォント生成モデルのパラメータ調整を停止し、トレーニング済みフォント生成モデルを得る。トレーニング停止条件は、トレーニング回数が所定回数に達すること、またはモデルロスが収束すること等を含むことができる。

【0036】

なお、フォント生成モデルに入力される文字（例えば、ソースドメインサンプル文字、ターゲットドメイン関連文字、およびターゲットドメインサンプル文字）は、画像として入力してもよく、フォント生成モデルに入力される文字に対応する画像は、公開のデータセットから取得され、または関連許可を得て取得されることができる。

【0037】

本出願の実施例のスキームでは、フォント生成モデルをトレーニングする過程において、エンコーダに基づいて決定されたターゲットドメインの関連文字特徴、およびサンプル文字の内容特徴を、注意機構ネットワークに入力して、ターゲットドメインのスタイル特徴を決定し、さらに、ターゲットドメインのスタイル特徴、およびサンプル文字の内容特徴に基づいて、ターゲットドメイン生成文字を得ることが必要である。ターゲットドメインサンプル文字およびターゲットドメイン関連文字の少なくとも１つと、ターゲットドメイン生成文字とに基づいてモデルロスを計算し、モデルのパラメータを調整する。本スキームでは、ソースドメインと、ターゲットドメインとのフォントスタイル変換タスクを実行するように、フォント生成モデルをトレーニングする過程において、注意機構ネットワークを導入することにより、ターゲットドメインの全体的なスタイル特徴、すなわち、ターゲットドメインのスタイル特徴を決定し、ターゲットドメインのスタイル特徴の正確性を向上させる。さらに、フォント生成モデルがフォントスタイル変換を実行する能力を向上させ、ターゲットドメインのサンプルデータが少ない場合、またはソースドメインフォントがフォント分布のスタイルに合致しない場合でも、美しく正確なフォントを生成することができ、モデルの正確性を向上させることができる。少ないサンプルでフォント生成モデルをトレーニングするための新しいアイデアを提供する。

【0038】

図３Ａは本開示の実施例に係るフォント生成モデルの注意機構ネットワークの内部構造の模式図である。図３Ａに示すように、本実施例の注意機構ネットワーク３０２は、内容特徴感知層３０２１、スタイル特徴感知層３０２２、アクティブ化層３０２３、および全結合層３０２４を含む。図３Ｂは本開示の実施例に係る別のフォント生成モデルのトレーニング方法のフローチャートである。本開示の実施例は、上記実施例を基に、図３Ａに示す注意機構ネットワーク３０２と組み合わせて、「サンプル文字の内容特徴と、関連文字のスタイル特徴とをフォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得る」ことについて、さらに詳細に解釈、説明し、図３Ａ～３Ｂに示すように、本実施例に係るフォント生成モデルのトレーニング方法は、以下のステップを含む。

【0039】

Ｓ３０１：ソースドメインサンプル文字と、ソースドメインサンプル文字のターゲットドメイン関連文字とをフォント生成モデルのエンコーダに入力し、サンプル文字の内容特徴と関連文字のスタイル特徴を得ることである。

【0040】

Ｓ３０２：サンプル文字の内容特徴を内容特徴感知層に入力し、内容感知値を得ることである。

【0041】

ここで、内容特徴感知層ＭＬＰ１は、複数の全結合層が首尾接続されてなり、サンプル文字の内容特徴を抽象的に抽出し、感知値である内容感知値を得るために用いられる。

【0042】

具体的には、図３Ａに示すように、Ｓ３０１ではエンコーダを介して得られたサンプル文字の内容特徴Ｚｘを内容特徴感知ネットワーク層ＭＬＰ１３０２１に入力してもよく、この時、当該内容特徴感知層ＭＬＰ１３０２１は、サンプル文字の内容特徴から内容感知値Ｑ、すなわち、Ｑ＝ＭＬＰ１(Ｚｘ)をサンプリング抽出する。

【0043】

Ｓ３０３：関連文字のスタイル特徴をスタイル特徴感知層に入力し、スタイル感知値を得ることである。

【0044】

ここで、スタイル特徴感知層ＭＬＰ２も、複数の全結合層が首尾接続されてなり、内容特徴感知層ＭＬＰ１の層構造と同一または異なってもよい。当該スタイル特徴感知層ＭＬＰ２は、関連文字のスタイル特徴を抽象的に抽出し、スタイル感知値を得るために用いられる。
具体的には、図３Ａに示すように、本実施例におけるターゲットドメイン関連文字は複数である可能性があるため、Ｓ３０１では、エンコーダを介して、それぞれのターゲットドメイン関連文字に対して、１つの関連文字のスタイル特徴を生成し、ターゲット関連文字の個数がＫであると仮定すると、スタイル特徴感知層３０２２に入力された関連文字のスタイル特徴がＺ'ｉとなり、ここで、ｉ＝１、２、...、Ｋ。その分、スタイル特徴感知層３０２２は、それぞれの関連文字スタイル特徴Ｚ'ｉに基づいて、１つのスタイル感知値Ｋｅｙｉを生成し、ここで、ｉ＝１、２、...、Ｋ、すなわち、Ｋｅｙｉ＝ＭＬＰ２(ｚ'ｉ)。

【0045】

Ｓ３０４：内容感知値とスタイル感知値とをアクティブ化層に入力し、ターゲットドメインの特徴重みを得ることである。

【0046】

具体的には、図３Ａに示すように、内容感知値Ｑ、およびスタイル感知値Ｋｅｙｉをアクティブ化層３０２３に入力し、アクティブ化層３０２３は、内容感知値Ｑを各スタイル感知値Ｋｅｙｉで順次に畳み込み、正規化処理し、ターゲットドメインの特徴重みＷｉを得る。ここで、ｉ＝１、２、...、Ｋ、すなわち、Ｗｉ＝ｓｏｆｔｍａｘ(Ｑ＊Ｋｅｙｉ)。

【0047】

Ｓ３０５：特徴重みと関連文字のスタイル特徴とを全結合層に入力し、ターゲットドメインのスタイル特徴を得ることである。

【0048】

具体的には、図３Ａに示すように、ターゲットドメインの特徴重みＷｉと関連文字のスタイル特徴Ｚ'ｉとを全結合層３０２４に入力し、全結合層３０２４は、各関連文字のスタイル特徴とそれに対応する特徴重みとを、加重加算処理してターゲットドメインのスタイル特徴を得る。

【0049】

Ｓ３０６：サンプル文字の内容特徴と、ターゲットドメインのスタイル特徴とをフォント生成モデルのデコーダに入力し、ターゲットドメイン生成文字を得ることである。

【0050】

Ｓ３０７：ターゲットドメインサンプル文字およびターゲットドメイン関連文字の少なくとも１つと、ターゲットドメイン生成文字とをフォント生成モデルのロス解析ネットワークに入力し、モデルロスを得、モデルロスに応じてフォント生成モデルのパラメータを調整することである。

【0051】

本実施例のスキームでは、感知層、アクティブ化層、および全結合層を含む注意機構によって、ターゲットドメインのスタイル特徴における位置要素の重み値を解析し、重み値と組み合わせてターゲットドメインのスタイル特徴を決定し、平均値を求めることによりターゲットドメインのスタイル特徴を決定することに比べて、ターゲットドメイン関連文字の非サンプル文字モジュールがターゲットドメインのスタイル特徴に与える影響を極めて低減し、ターゲットドメインのスタイル特徴の精度を向上させ、さらに、フォント生成モデルがフォントスタイル変換を実行する正確性を向上させる。

【0052】

図４Ａは本開示の実施例に係る別のフォント生成モデルの構造模式図である。図４Ａに示すように、本出願の実施例のフォント生成モデル４のロス解析ネットワーク４１は、モジュール分類器４１１、キャラクタ判別器４１２、スタイル判別器４１３、およびキャラクタ分類器４１４の少なくとも１つを含む。ここで、モジュール分類器４１１は、モジュール分類ロスを計算するために使用され、キャラクタ判別器４１２は、キャラクタ分類ロスを計算するために使用され、スタイル判別器４１３は、スタイル分類ロスを計算するために使用され、キャラクタ分類器４１４は、誤字ロスを計算するために使用される。したがって、本実施例のモデルロスは、モジュール分類ロス、キャラクタ分類ロス、スタイル分類ロス、および誤字ロスの少なくとも１つを含む。このように設置すると、多様な異なるタイプのロスによってモデルをトレーニングし、モデルのトレーニング結果の精度を極めて向上させる利点がある。

【0053】

図４Ｂは本開示の実施例に係る別のフォント生成モデルのトレーニング方法のフローチャートである。本開示の実施例では、上記実施例を基に、図４Ａに示すロス解析ネットワーク４１と組み合わせて、モデルロスを計算すること、およびモデルロスに基づいてフォント生成モデルのパラメータを調整することについて、さらに詳細に説明し、図４Ａ～４Ｂに示すように、本実施例に係るフォント生成モデルのトレーニング方法は、
ソースドメインサンプル文字と、ソースドメインサンプル文字のターゲットドメイン関連文字とをフォント生成モデルのエンコーダに入力し、サンプル文字の内容特徴と関連文字のスタイル特徴を得るＳ４０１と、
サンプル文字の内容特徴と、関連文字のスタイル特徴とをフォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得るＳ４０２と、
サンプル文字の内容特徴と、ターゲットドメインのスタイル特徴とをフォント生成モデルのデコーダに入力し、ターゲットドメイン生成文字を得るＳ４０３と、
ターゲットドメインサンプル文字およびターゲットドメイン関連文字の少なくとも１つと、ターゲットドメイン生成文字とをフォント生成モデルのロス解析ネットワークに入力し、モジュール分類ロス、キャラクタ分類ロス、スタイル分類ロス、および誤字ロスの少なくとも１つを得、モジュール分類ロス、キャラクタ分類ロス、スタイル分類ロス、および誤字ロスの少なくとも１つに応じてフォント生成モデルのパラメータを調整するＳ４０４と、を含む。

【0054】

次に、Ｓ４０４における各タイプのロスの計算方法、および、当該ロスに基づいてモデルをトレーニングする過程を順次に説明する。

【0055】

（一）モジュール分類ロスを決定する過程では、ターゲットドメイン関連文字と、ターゲットドメイン生成文字とをモジュール分類器に入力し、ターゲットドメイン生成文字のモジュールベクトルと、ターゲットドメイン関連文字のモジュールベクトルを得ることと、ターゲットドメイン生成文字のモジュールベクトルと、ターゲットドメイン関連文字のモジュールベクトルとの差に応じて、モジュール分類ロスを決定することと、を含むことができる。

【0056】

ここで、モジュールベクトルは、Ｎ次元のベクトルであってもよく、Ｎは、モジュール表に含まれる全部のモジュール、すなわち、全部の偏旁部首の数値である。モジュールベクトルの各要素は、モジュール表において１つのモジュールを表し、入力された文字に当該モジュールが含まれている場合、当該要素は第１の数値（例えば１）となり、そうでない場合は第２の数値（例えば０）となる。したがって、モジュール分類器は、生成されたモジュールベクトルによって、入力された文字に予め設定された偏旁部首（すなわちモジュール）が含まれるかどうかを予測することができる。

【0057】

具体的には、本実施例では、ターゲットドメイン関連文字と、ターゲットドメイン生成文字とを、モジュール分類器４１１に入力して、モジュール分類器４１１は、入力されたターゲットドメイン関連文字、およびターゲットドメイン生成文字に対して、Ｎ次元のモジュールベクトルをそれぞれ生成し、例えば、モジュールベクトル１とモジュールベクトル２を生成し、さらに、Ｎ次元のモジュールベクトル１と、Ｎ次元のモジュールベクトル２との相違に応じて、モジュール分類ロス値を計算する。例えば、２つのモジュールベクトルの交差エントロピーを分類ロス値として計算する。当該モジュール分類ロス値を算出した後、当該モジュール分類ロス値を制約として、フォント生成モデル４のパラメータを調整し、全てのスタイルの文字が当該モジュール分類器４１１を通過した後に、モジュール分類が正しく行われるようにすることができる。本実施例では、フォント生成モデルのトレーニング過程において、モジュール分類ロスを導入するため、全部のスタイルの文字が当該モジュール分類器を通過した後に、モジュール分類が正しく行われることを保証し、さらに、ターゲットドメイン生成文字は、ターゲットドメイン関連文字のモジュール（すなわち、複数のターゲット関連文字が共有するモジュール）を保持することを保証できる。

【0058】

（二）キャラクタ分類ロスを決定する過程は、以下のサブステップを含む。

【0059】

サブステップＡ：ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをキャラクタ判別器に入力し、キャラクタ分類ロスの第１のキャラクタロス値を得、第１のキャラクタロス値に基づいてキャラクタ判別器のパラメータを調整することである。

【0060】

具体的には、図４Ａに示すように、本サブステップでは、ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とを、キャラクタ判別器４１２に入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置を得ること、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置に応じて、キャラクタ分類ロスの第１のキャラクタロス値を決定することができる。

【0061】

本実施例では、トレーニングサンプルは、Ｍ個（例えば、６７００個）の文字の画像を含むことができる。Ｍ個の文字は、１つのＭ次元のベクトル、すなわち、キャラクタ分類ヘッドベクトルを構成することができ、ベクトルの各要素は１つの文字に対応し、当該要素のキャラクタ分類ヘッドベクトルにおける位置が、キャラクタ分類ヘッド位置である。本実施例のキャラクタ判別器４１２は、ターゲットドメインサンプル文字に、対応するキャラクタ分類ヘッド位置Ｘを決定し、ターゲットドメイン生成文字に、対応するキャラクタ分類ヘッド位置Ｘ^＊を決定する。以下の式（１）に基づいて、キャラクタ分類ロスの第１のキャラクタロス値を算出する。第１のキャラクタロス値が決定された後、当該第１のキャラクタロス値に基づいて、キャラクタ判別器４１２のパラメータを一回調整する。

【数1】

【0062】

ここで、

【数2】

はキャラクタ分類ロスの第１のキャラクタロス値であり、Ｘはターゲットドメインサンプル文字のキャラクタ分類ヘッド位置であり、Ｘ^＊はターゲットドメイン生成文字のキャラクタ分類ヘッド位置である。

【0063】

サブステップＢ：ターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、キャラクタ分類ロスの第２のキャラクタロス値を得、第２のキャラクタロス値に基づいて、フォント生成ネットワークのパラメータを調整することである。

【0064】

具体的に、図４Ａに示すように、本サブステップでは、ターゲットドメイン生成文字を調整後のキャラクタ判別器４１２に入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置を更新し、更新後のキャラクタ分類ヘッド位置に応じて、キャラクタ分類ロスの第２のキャラクタロス値を決定する。

【0065】

本実施例では、サブステップＡでキャラクタ判別器４１２のパラメータを一回更新すると、更新されたキャラクタ判別器４１２は、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置を決定する操作をやり直し、すなわち、キャラクタ分類ヘッド位置Ｘ^＊を更新する。以下の式（２）に基づいて、キャラクタ分類ロスの第２のキャラクタロス値を計算する。第２のキャラクタロス値が決定されると、当該第２のキャラクタロス値に基づいて、フォント生成ネットワーク４０のパラメータに１回調整を行う。ここで、当該フォント生成ネットワーク４０は、エンコーダ４０１、注意機構ネットワーク４０２、およびデコーダ４０３を含み、当該エンコーダ４０１は、さらに、内容エンコーダ４０１１、およびスタイルエンコーダ４０１２を含む。

【数3】

【0066】

ここで、

【数4】

はキャラクタ分類ロスの第２のキャラクタロス値であり、Ｘ^＊はターゲットドメイン生成文字のキャラクタ分類ヘッド位置である。なお、この時のＸ^＊は、調整後のキャラクタ判別器４１２によって更新されたキャラクタ分類ヘッド位置である。

【0067】

サブステップＣ：ターゲットドメインサンプル文字、および調整後のフォント生成ネットワークに基づいて更新されたターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、第１のキャラクタロス値を更新し、更新後の第１のキャラクタロス値に基づいてキャラクタ判別器のパラメータを再調整することである。

【0068】

具体的には、図４Ａに示すように、本ステップでは、サブステップＢで調整後のフォント生成ネットワーク４０に、ソースドメインサンプル文字と、ターゲットドメイン関連文字とを再入力し、ターゲットドメイン生成文字を更新し、そして、サブステップＡで調整後のキャラクタ判別器４１２に、更新されたターゲットドメイン生成文字と、ターゲットドメインサンプル文字とを再入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置Ｘ^＊と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置Ｘとを更新し、式（１）に基づいて、第１のキャラクタロス値を更新し、更新後の第１のキャラクタロス値に基づいて、キャラクタ判別器４１２のパラメータを再調整する。

【0069】

本実施例は、フォント生成モデルのトレーニング過程において、キャラクタ分類ロスを導入し、キャラクタ判別器４１２とフォント生成ネットワーク４０に対して、交互に反復トレーニングをするため、フォント生成ネットワーク４０およびキャラクタ判別器４１２のパラメータの正確性を極めて向上させる。

【0070】

（三）スタイル分類ロスを決定する過程は、以下のサブステップを含む。

【0071】

サブステップＤ：ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをスタイル判別器に入力し、スタイル分類ロスの第１のスタイルロス値を得、第１のスタイルロス値に基づいてスタイル判別器のパラメータを調整することである。

【0072】

具体的には、図４Ａに示すように、本サブステップでは、ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをスタイル判別器４１３に入力し、ターゲットドメイン生成文字のスタイル分類ヘッド位置と、ターゲットドメインサンプル文字のスタイル分類ヘッド位置を得、ターゲットドメイン生成文字のスタイル分類ヘッド位置と、ターゲットドメインサンプル文字のスタイル分類ヘッド位置に応じて、スタイル分類ロスの第１のスタイルロス値を決定する。

【0073】

本実施例では、トレーニングサンプルは、Ｓ種類（例えば８０種類）のスタイルフォントを含むことができる。Ｓ種類のスタイルは、１つのＳ次元のベクトル、すなわち、スタイル分類ヘッドベクトルを構成することができ、ベクトルの各要素は１つのスタイルに対応し、当該要素のスタイル分類ヘッドベクトルにおける位置が、スタイル分類ヘッド位置である。本実施例のスタイル判別器４１３は、ターゲットドメインサンプル文字に、対応するスタイル分類ヘッド位置Ｙを決定し、ターゲットドメイン生成文字に、対応するスタイル分類ヘッド位置Ｙ^＊を決定する。以下の式（３）に基づいて、スタイル分類ロスの第１のスタイルロス値を算出する。第１のスタイルロス値が決定された後、当該第１のスタイルロス値に基づいて、スタイル判別器４１３のパラメータを一回調整する。

【数5】

【0074】

ここで、

【数6】

はスタイル分類ロスの第１のスタイルロス値であり、Ｙはターゲットドメインサンプル文字のスタイル分類ヘッド位置であり、Ｙ^＊はターゲットドメイン生成文字のスタイル分類ヘッド位置である。

【0075】

サブステップＥ：ターゲットドメイン生成文字を調整後のスタイル判別器に入力し、スタイル分類ロスの第２のスタイルロス値を得、第２のスタイルロス値に基づいてフォント生成ネットワークのパラメータを調整することである。

【0076】

具体的には、図４Ａに示すように、本サブステップでは、ターゲットドメイン生成文字を調整後のスタイル判別器４１３に入力し、ターゲットドメイン生成文字のスタイル分類ヘッド位置を更新し、更新後のスタイル分類ヘッド位置に応じて、スタイル分類ロスの第２のスタイルロス値を決定する。

【0077】

本実施例では、サブステップＤでスタイル判別器４１３のパラメータを一回更新した後、更新後のスタイル判別器４１３は、ターゲットドメイン生成文字のスタイル分類ヘッド位置を決定する操作を再実行し、すなわち、スタイル分類ヘッド位置Ｙ^＊を更新する。以下の式（４）に基づいて、スタイル分類ロスの第２のスタイルロス値を計算する。第２のスタイルロス値が決定されると、当該第２のスタイルロス値に基づいて、フォント生成ネットワーク４０のパラメータを一回調整する。ここで、当該フォント生成ネットワーク４０は、エンコーダ４０１、注意機構ネットワーク４０２、およびデコーダ４０３を含み、当該エンコーダ４０１は、内容エンコーダ４０１１とスタイルエンコーダ４０１２とを含む。

【数7】

【0078】

ここで、

【数8】

はスタイル分類ロスの第２のスタイルロス値であり、Ｙ^＊はターゲットドメイン生成文字のスタイル分類ヘッド位置である。なお、この時のＹ^＊は、調整後のスタイル判別器４１３によって更新されたスタイル分類ヘッド位置である。

【0079】

サブステップＦ：ターゲットドメインサンプル文字、および調整後のフォント生成ネットワークに基づいて更新されたターゲットドメイン生成文字を、調整後のスタイル判別器に入力し、第１のスタイルロス値を更新し、更新後の第１のスタイルロス値に基づいて、スタイル判別器のパラメータを再調整することである。

【0080】

具体的には、図４Ａに示すように、本ステップでは、サブステップＥで調整後のフォント生成ネットワーク４０に、ソースドメインサンプル文字と、ターゲットドメイン関連文字とを再入力し、ターゲットドメイン生成文字を更新し、そして、サブステップＤで調整後のスタイル判別器４１３に、更新されたターゲットドメイン生成文字と、ターゲットドメインサンプル文字とを再入力し、ターゲットドメイン生成文字のスタイル分類ヘッド位置Ｙ^＊と、ターゲットドメインサンプル文字のスタイル分類ヘッド位置Ｙとを更新し、式（３）に基づいて、第１のスタイルロス値を更新し、さらに更新後の第１のスタイルロス値に基づいて、スタイル判別器４１３のパラメータを再調整する。

【0081】

本実施例は、フォント生成モデルのトレーニング過程において、スタイル分類ロスを導入し、スタイル判別器４１３とフォント生成ネットワーク４０に対して、交互に反復トレーニングをするため、フォント生成ネットワーク４０とスタイル判別器４１３のパラメータの正確性を極めて向上させる。

【0082】

（四）誤字ロスを決定する過程では、ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをキャラクタ分類器に入力し、ターゲットドメインサンプル文字のキャラクタ分類ヘッドベクトルと、ターゲットドメイン生成文字のキャラクタ分類ヘッドベクトルを得ることと、ターゲットドメインサンプル文字のキャラクタ分類ヘッドベクトルと、ターゲットドメイン生成文字のキャラクタ分類ヘッドベクトルとの差に応じて、誤字ロスを決定することを含むことができる。

【0083】

具体的には、図４Ａに示すように、ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをキャラクタ分類器４１４に入力し、キャラクタ分類器４１４は、ターゲットドメインサンプル文字に、対応するキャラクタ分類ヘッドベクトル

【数9】

を決定し、ターゲットドメイン生成文字に、対応するキャラクタ分類ヘッドベクトル

【数10】

を決定する。ここで、ベクトル

【数11】

と

【数12】

の各要素は、トレーニングサンプルにおいて１つのキャラクタを示すことができ、ｍは、トレーニングサンプルにおいてキャラクタの数を示すことができ、例えば、トレーニングサンプルは６７６１個の文字を有する場合、ｍは６７６０であってもよい。そして、分類ヘッドベクトル

【数13】

とキャラクタ分類ヘッドベクトル

【数14】

との差に応じて、誤字ロスを計算する。例えば、分類ヘッドベクトル

【数15】

とキャラクタ分類ヘッドベクトル

【数16】

との間の交差エントロピーに基づいて、次の式（５）によって誤字ロスを計算する。誤字ロスを決定した後、当該誤字ロスに基づいてフォント生成ネットワーク４０のパラメータを一回調整する。

【数17】

【0084】

ここで、

【数18】

は誤字ロスを表し、ｘ_ｉは、ターゲットドメインサンプル文字のキャラクタ分類ヘッドベクトルにおいて、添字がｉの要素を表し、ｙ_ｉは、ターゲットドメイン生成文字のキャラクタ分類ヘッドベクトルにおいて、添字がｉの要素を表し、ｉは０以上ｍ以下の整数であり、ｍはキャラクタ分類ヘッドベクトルにおける要素の個数を表す。本実施例は、フォント生成モデルのトレーニング過程において、誤字ロスを導入することにより、フォント生成ネットワーク４０によって出力されたターゲットドメイン生成文字の誤字率が拘束されて、フォント生成モデルが誤字を生成する確率を低減する。

【0085】

なお、本実施例では、上記４種類のロスのうちの少なくとも１種類を生成し、フォント生成モデルのパラメータを調整することによって、フォント生成モデルのトレーニングを完了することができる。

【0086】

なお、区別の便宜上、本実施例では、当該パラメータがモデル生成画像に関連する場合に、＊付きのパラメータで表され、当該パラメータがリアルな画像に関連する場合に、＊なしのパラメータで表される。

【0087】

本出願の実施例のスキームは、フォント生成モデルをトレーニングする過程において、多種類のタイプのロスを導入し、多種類のタイプのロスによってモデルトレーニングを共制約し、モデルトレーニングの正確性を極めて向上させる。

【0088】

図５は本開示の実施例に係る字庫作成方法のフローチャートである。本開示の実施例は、上記実施例によってトレーニングされたフォント生成モデルに基づいて字庫を作成する場合に適用される。当該方法は、字庫作成デバイスによって実行されることができ、当該デバイスは、ソフトウェアおよび／またはハードウェアによって実現されることができる。図５に示すように、本実施例に係る字庫作成方法は、以下のステップを含む。

【0089】

Ｓ５０１：ソースドメイン入力文字をフォント生成モデルに入力し、ターゲットドメイン新文字を得ることである。

【0090】

ここで、フォント生成モデルは、上記実施例によってトレーニングされたフォント生成モデルであってもよい。

【0091】

例えば、ソースドメイン入力文字が明朝体の文字画像であり、新文字が手書き文字画像である場合、明朝体の文字画像をフォント生成モデルに入力することによって、手書き文字画像を得ることができる。

【0092】

Ｓ５０２：ターゲットドメイン新文字に基づいて字庫を作成することである。

【0093】

本実施例では、フォント生成モデルによって生成された新文字を記憶し、手書きフォントスタイルを有する字庫を作成することができ、当該字庫は入力法に応用されることができ、ユーザは、当該字庫に基づく入力法を用いることによって、手書きフォントスタイルを有する文字を直接取得することができ、ユーザの多様なニーズを満たすことができ、ユーザエクスペリエンスを向上させることができる。

【0094】

図６は本開示の実施例に係るフォント生成モデルのトレーニングデバイスの構造模式図である。本開示の実施例は、フォントスタイル変換タスクを実行するフォント生成モデルをトレーニングする場合に適用され、特に、少ないサンプルデータに基づいてフォントスタイル変換タスクを実行するフォント生成モデルをトレーニングする場合に適用される。当該デバイスは、ソフトウェアおよび／またはハードウェアによって実現されることができ、当該デバイスによって、本開示の実施例のフォント生成モデルのトレーニング方法が実現されることができる。図６に示すように、当該フォント生成モデルのトレーニングデバイスは、
ソースドメインサンプル文字と、ソースドメインサンプル文字のターゲットドメイン関連文字とをフォント生成モデルのエンコーダに入力し、サンプル文字の内容特徴と関連文字のスタイル特徴を得るための第１の特徴決定モジュール６０１と、
サンプル文字の内容特徴と、関連文字のスタイル特徴とをフォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得るための第２の特徴決定モジュール６０２と、
サンプル文字の内容特徴と、ターゲットドメインのスタイル特徴とをフォント生成モデルのデコーダに入力し、ターゲットドメイン生成文字を得るための生成文字決定モジュール６０３と、
ターゲットドメインサンプル文字およびターゲットドメイン関連文字の少なくとも１つと、ターゲットドメイン生成文字とをフォント生成モデルのロス解析ネットワークに入力し、モデルロスを得、モデルロスに応じてフォント生成モデルのパラメータを調整するためのモデルトレーニングモジュール６０４と、を含む。

【0095】

本出願の実施例のスキームでは、フォント生成モデルをトレーニングする過程において、エンコーダに基づいて決定されたターゲットドメインの関連文字特徴、およびサンプル文字の内容特徴は、注意機構ネットワークに入力して、ターゲットドメインのスタイル特徴を決定し、さらに、ターゲットドメインのスタイル特徴、およびサンプル文字の内容特徴に基づいて、ターゲットドメイン生成文字を得ることが必要である。ターゲットドメインサンプル文字およびターゲットドメイン関連文字の少なくとも１つと、ターゲットドメイン生成文字とに基づいてモデルロスを計算し、モデルのパラメータを調整する。本スキームでは、ソースドメインと、ターゲットドメインとのフォントスタイル変換タスクを実行するために、フォント生成モデルをトレーニングする過程において、注意機構ネットワークを導入することにより、ターゲットドメインの全体的なスタイル特徴、すなわち、ターゲットドメインのスタイル特徴を決定し、ターゲットドメインのスタイル特徴の正確性を向上させる。さらに、フォント生成モデルがフォントスタイル変換を実行する能力を向上させ、ターゲットドメインのサンプルデータが少ない場合、またはソースドメインフォントがフォント分布のスタイルに合致しない場合でも、美しく正確なフォントを生成することができ、モデルの正確性を向上させることができる。少ないサンプルでフォント生成モデルをトレーニングするための新しいアイデアを提供する。

【0096】

さらに、上記注意機構ネットワークは、内容特徴感知層、スタイル特徴感知層、アクティブ化層、および全結合層を含む。

【0097】

上記第２の特徴決定モジュール６０２は、
サンプル文字の内容特徴を内容特徴感知層に入力し、内容感知値を得、
関連文字のスタイル特徴をスタイル特徴感知層に入力し、スタイル感知値を得、
内容感知値とスタイル感知値とをアクティブ化層に入力し、ターゲットドメインの特徴重みを得、
特徴重みと関連文字のスタイル特徴とを全結合層に入力し、ターゲットドメインのスタイル特徴を得るために用いられる。

【0098】

さらに、上記ロス解析ネットワークは、モジュール分類器、キャラクタ判別器、スタイル判別器、およびキャラクタ分類器の少なくとも１つを含み、上記モデルロスは、モジュール分類ロス、キャラクタ分類ロス、スタイル分類ロス、および誤字ロスの少なくとも１つを含む。

【0099】

さらに、上記モデルトレーニングモジュール６０４は、
ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをキャラクタ判別器に入力し、キャラクタ分類ロスの第１のキャラクタロス値を得るための第１のキャラクタロス計算ユニットと、
第１のキャラクタロス値に基づいて、キャラクタ判別器のパラメータを調整するためのキャラクタ判別器調整ユニットと、
ターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、キャラクタ分類ロスの第２のキャラクタロス値を得るための第２のキャラクタロス計算ユニットと、
第２のキャラクタロス値に基づいて、フォント生成ネットワークのパラメータを調整するためのフォント生成ネットワーク調整ユニットと、を含み、
ここで、フォント生成ネットワークは、エンコーダ、注意機構ネットワーク、およびデコーダを含む。

【0100】

さらに、上記第１のキャラクタロス計算ユニットは、ターゲットドメインサンプル文字、および調整後のフォント生成ネットワークに基づいて更新されたターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、第１のキャラクタロス値を更新するために用いられる。

【0101】

さらに、上記キャラクタ判別器調整ユニットは、更新された第１のキャラクタロス値に基づいて、キャラクタ判別器のパラメータを再調整するために用いられる。

【0102】

さらに、上記第１のキャラクタロス計算ユニットは、
ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをキャラクタ判別器に入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置を得、
ターゲットドメイン生成文字のキャラクタ分類ヘッド位置と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置に応じて、キャラクタ分類ロスの第１のキャラクタロス値を決定するために用いられる。

【0103】

さらに、上記第２のキャラクタロス計算ユニットは、
ターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置を更新し、
更新後のキャラクタ分類ヘッド位置に応じて、キャラクタ分類ロスの第２のキャラクタロス値を決定するために用いられる。

【0104】

さらに、上記モデルトレーニングモジュール６０４は、
ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをスタイル判別器に入力し、スタイル分類ロスの第１のスタイルロス値を得るための第１のスタイルロス計算ユニットと、
第１のスタイルロス値に基づいて、スタイル判別器のパラメータを調整するためのスタイル判別器調整ユニットと、
ターゲットドメイン生成文字を調整後のスタイル判別器に入力し、スタイル分類ロスの第２のスタイルロス値を得るための第２のスタイルロス計算ユニットと、
第２のスタイルロス値に基づいて、フォント生成ネットワークのパラメータを調整するためのフォント生成ネットワーク調整ユニットと、を含み、
ここで、フォント生成ネットワークは、エンコーダ、注意機構ネットワーク、およびデコーダを含む。

【0105】

上記第１のスタイルロス計算ユニットは、さらに、ターゲットドメインサンプル文字、および調整後のフォント生成ネットワークに基づいて更新されたターゲットドメイン生成文字を、調整後のスタイル判別器に入力し、第１のスタイルロス値を更新するために用いられる。
上記スタイル判別器調整ユニットは、さらに、更新後の第１のスタイルロス値に基づいて、スタイル判別器のパラメータを再調整するために用いられる。

【0106】

さらに、上記第１のスタイルロス計算ユニットは、
ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをスタイル判別器に入力し、ターゲットドメイン生成文字のスタイル分類ヘッド位置と、ターゲットドメインサンプル文字のスタイル分類ヘッド位置を得、
ターゲットドメイン生成文字のスタイル分類ヘッド位置と、ターゲットドメインサンプル文字のスタイル分類ヘッド位置に応じて、スタイル分類ロスの第１のスタイルロス値を決定するために用いられる。

【0107】

さらに、上記第２のスタイルロス計算ユニットは、
ターゲットドメイン生成文字を調整後のスタイル判別器に入力し、ターゲットドメイン生成文字のスタイル分類ヘッド位置を更新し、
更新後のスタイル分類ヘッド位置に応じて、スタイル分類ロスの第２のスタイルロス値を決定するために用いられる。

【0108】

さらに、上記モデルトレーニングモジュール６０４は、ターゲットドメイン関連文字と、ターゲットドメイン生成文字とをモジュール分類器に入力し、ターゲットドメイン生成文字のモジュールベクトルと、ターゲットドメイン関連文字のモジュールベクトルを得、ターゲットドメイン生成文字のモジュールベクトルと、ターゲットドメイン関連文字のモジュールベクトルとの差に応じて、モジュール分類ロスを決定するためのモジュール分類ロス計算ユニットをさらに含む。

【0109】

さらに、上記モデルトレーニングモジュール６０４は、ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをキャラクタ分類器に入力し、ターゲットドメインサンプル文字のキャラクタ分類ヘッドベクトルと、ターゲットドメイン生成文字のキャラクタ分類ヘッドベクトルを得、ターゲットドメインサンプル文字のキャラクタ分類ヘッドベクトルと、ターゲットドメイン生成文字のキャラクタ分類ヘッドベクトルとの差に応じて、誤字ロスを決定するための誤字ロス計算ユニットをさらに含む。

【0110】

図７は本開示の実施例に係る字庫作成デバイスの構造模式図である。本開示の実施例は、上記実施例によってトレーニングされたフォント生成モデルに基づいて、字庫を作成する場合に適用する。当該デバイスは、ソフトウェアおよび／またはハードウェアによって実現されることができ、当該デバイスによって、本開示の実施例の字庫作成方法が実現されることができる。図７に示すように、当該字庫作成デバイスは、
ソースドメイン入力文字をフォント生成モデルに入力し、ターゲットドメイン新文字を得るための新文字生成モジュール７０１、および、
ターゲットドメイン新文字に基づいて字庫を作成する字庫作成モジュール７０２を含み、
ここで、フォント生成モデルは、本開示のいずれかの実施例のフォント生成モデルのトレーニング方法によってトレーニングされたものである。

【0111】

【0112】

上記製品は、本開示の任意の実施例に係る方法を実行することによって、実行される方法に対応する機能モジュールと有益な効果を備える。

【0113】

なお、本開示の技術案に係るフォント画像の収集、記憶、使用、加工、伝送、提供、および開示等の処理は、いずれも関連法律法規の規定に合致し、公序良俗に反しない。

【0114】

図８は、本開示の実施形態を実現するための例示的な電子デバイス８００のブロック図である。電子デバイスは、様々な形式のデジタルコンピュータを表し、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータが挙げられる。電子デバイスは、様々な形式のモバイルデバイスをさらに表し、例えば、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブルデバイス、および他の類似するコンピューティングデバイスが挙げられる。本明細書に示す部品は、これらの接続や関係、および機能が例示的なものに過ぎず、本明細書に記載および／または要求される開示の実施を制限することを意図するものではない。

【0115】

図８に示すように、デバイス８００は、読み取り専用メモリ（ＲＯＭ）８０２に記憶されたコンピュータプログラム、または記憶ユニット８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたコンピュータプログラムに基づいて、様々な適切な操作と処理を実行できる計算ユニット８０１を含む。ＲＡＭ８０３には、デバイス８００の操作に必要な様々なプログラムおよびデータがさらに記憶されることができる。計算ユニット８０１と、ＲＯＭ８０２と、ＲＡＭ８０３とは、バス８０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インタフェース８０５もバス８０４に接続されている。

【0116】

デバイス８００における複数の部品は、Ｉ／Ｏインタフェース８０５に接続されており、キーボードやマウス等の入力ユニット８０６と、様々なタイプのディスプレイやスピーカ等の出力ユニット８０７と、磁気ディスクや光学ディスク等の記憶ユニット８０８と、ネットワークカード、モデム、無線通信トランシーバー等の通信ユニット８０９と、を備える。通信ユニット８０９は、デバイス８００がインターネットのようなコンピュータネットワークおよび／または様々な電気通信ネットワークを介して他の設備と情報／データを交換することを可能にする。

【0117】

計算ユニット８０１は、処理および計算能力を有する様々な汎用および／または専用の処理コンポーネントであってもよい。計算ユニット８０１のいくつかの例として、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および適切なプロセッサ、コントローラ、マイクロコントローラ等を備えるが、これらに限定されない。計算ユニット８０１は、上記各方法および処理、例えばフォント生成モデルのトレーニング方法および／または字庫作成方法を実行する。例えば、いくつかの実施例では、フォント生成モデルのトレーニング方法および／または字庫作成方法を、記憶ユニット８０８のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。一部の実施形態では、コンピュータプログラムの一部または全ては、ＲＯＭ８０２および／または通信ユニット８０９を介して、デバイス８００にロードおよび／またはインストールすることができる。コンピュータプログラムがＲＡＭ８０３にロードされて、計算ユニット８０１によって実行される場合に、上記フォント生成モデルのトレーニング方法および／または字庫作成方法の１つまたは複数のステップを実行することができる。他の実施形態では、計算ユニット８０１は、他の適切な方式（例えば、ファームウェアを介して）によって、フォント生成モデルのトレーニング方法および／または字庫作成方法を実行するように構成される。

【0118】

上記システムおよび技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータのハードウェア、ファームウェア、ソフトウェア、および／またはこれらの組み合わせによって実現することができる。これらの様々な実施形態は、以下を含んでもよい。１つまたは複数のコンピュータプログラムに実施され、該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行および／または解釈することができ、該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、データおよび命令を、該ストレージシステム、該少なくとも１つの入力装置、および該少なくとも１つの出力装置に伝送することができる専用または汎用のプログラマブルプロセッサであってもよい。

【0119】

本開示の方法を実行するためのプログラムコードは、１つまたは複数のプログラミング言語のいかなる組み合わせでプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理デバイスのプロセッサまたはコントローラに提供されることにより、プログラムコードがプロセッサまたはコントローラによって実行される場合に、フローチャートおよび／またはブロック図で規定された機能／操作を実行することができる。プログラムコードは、完全に機械で実行されてもよいし、部分的に機械で実行されてもよいし、独立したソフトパッケージとして部分的に機械で実行されるとともに部分的にリモート機械で実行されてもよいし、完全にリモート機械またはサーバで実行されてもよい。

【0120】

本開示の機械において、機械可読媒体は、指令実行システム、デバイスまたは機械に使用される、または指令実行システム、デバイスまたは機械と合わせて使用されるプログラムを含有または記憶する有形な媒体であってもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、デバイス、または設備、または上記内容の任意の適切な組み合わせを含むが、これらに限定されない。機械可読記憶媒体のさらなる具体例として、１つまたは複数の配線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記内容の任意の適当な組み合わせを含む。

【0121】

ユーザとのインタラクションを提供するために、コンピュータでここに記載されているシステムおよび技術を実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニター等）、ユーザが入力をコンピュータに提供するためのキーボードおよび指向性デバイス（例えば、マウスまたはトラックボール等）を備える。ユーザとのインタラクションを提供するために、他の種類のデバイスを使用することもでき、例えば、ユーザに提供するフィードバックは、いかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック等）であってもよく、また、いかなる形式（例えば、音入力、音声入力、触覚入力等）によってユーザからの入力を受信することができる。

【0122】

ここに記載されているシステムと技術を、バックグラウンド部品を含む計算システム（例えば、データサーバとして）、またはミドルウェア部品を含む計算システム（例えば、アプリケーションサーバ）、またはフロント部品を含む計算システム（例えば、ＧＵＩまたはネットワークブラウザを有するユーザコンピュータが挙げられ、ユーザがＧＵＩまたは当該ネットワークブラウザによって、ここに記載されているシステムと技術の実施形態と通信することができる）、またはこのようなバックグラウンド部品、ミドルウェア部品、またはフロント部品の任意の組み合わせを含む計算システムで実施することができる。いかなる形式またはメディアのデジタルデータ通信（例えば、通信ネットワーク）を介して、システムの部品を互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、ブロックチェーンネットワーク、およびインターネットを含む。

【0123】

コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、一般的に、互いに離れており、通常、通信ネットワークを介して通信する。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムにより、クライアントとサーバとの関係が生成される。サーバは、クラウドコンピューティングサーバまたはクラウドホストとも称され、クラウドコンピューティングサービスシステムにおけるホスト製品の１つであるクラウドサーバであってもよく、従来の物理ホストおよびＶＰＳ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ：仮想専用サーバ）サービスにおける、管理の困難さが大きく、サービスの拡張性が弱いという欠点を解決する。サーバは、分散システムのサーバ、または、ブロックチェーンと組み合わせたサーバであってもよい。

【0124】

人工知能は、コンピュータを用いて人間のある思考過程やインテリジェントな行動（例えば、学習、推論、思考、企画等）をシミュレートすることを研究した学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術がある。人工知能ハードウェア技術は、一般的に、センサ、専用人工知能チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理等の技術を含み、人工知能ソフトウェア技術は、コンピュータビジョン技術、音声認識技術、自然言語処理技術、機械学習および、深層学習、ビッグデータ処理技術、知識グラフ技術等いくつかの主な方向を含む。

【0125】

クラウドコンピューティング（ｃｌｏｕｄｃｏｍｐｕｔｉｎｇ）とは、ネットワークを介して弾力的にスケーラブルな共有物理または仮想リソースプールへアクセスし、リソースはサーバ、オペレーティングシステム、ネットワーク、ソフトウェア、アプリケーション、および記憶装置を含むことができ、オンデマンド、セルフサービス方法でリソースを配備と管理する技術システムである。クラウドコンピューティング技術によって、人工知能、ブロックチェーン等の技術応用とモデルトレーニングに高効率で強力なデータ処理能力を提供することができる。

【0126】

上記に示す様々な形式のフローを用いて、ステップを並べ替えたり、追加または削除できることを理解すべきである。例えば、本発明に記載された各ステップは、並列的に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよく、本発明に開示された技術案の所望の結果が達成される限り、本明細書では制限しない。

【0127】

上記具体的な実施形態は、本発明の保護範囲に対する制限を構成するものではない。当業者は、設計要件とその他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせおよび代替を行うことが可能であることを理解すべきである。本発明の精神および原則内でなされたあらゆる修正、均等置換および改良等は、いずれも本発明の保護範囲に含まれるべきである。

【図1】