(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023039889
(43)【公開日】2023-03-22
(54)【発明の名称】モデルトレーニング方法および字庫作成方法、デバイス、設備ならびに記憶媒体
(51)【国際特許分類】
G06T 1/40 20060101AFI20230314BHJP
G06T 7/00 20170101ALI20230314BHJP
【FI】
G06T1/40
G06T7/00 350C
【審査請求】有
【請求項の数】22
【出願形態】OL
(21)【出願番号】P 2022007187
(22)【出願日】2022-01-20
(31)【優先権主張番号】202111057836.1
(32)【優先日】2021-09-09
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】▲劉▼ 家▲銘▼
(72)【発明者】
【氏名】唐 礼承
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057AA20
5B057BA02
5B057CA12
5B057CA16
5B057CB12
5B057CB16
5B057DA17
5B057DB02
5B057DC09
5B057DC30
5B057DC40
5L096BA08
5L096BA17
5L096DA01
5L096FA69
5L096HA11
5L096JA11
5L096JA18
5L096KA04
5L096MA03
(57)【要約】 (修正有)
【課題】OCR光学文字認識等のシナリオに適用するフォント生成モデルのトレーニング方法、プログラム及びデバイスを提供する。
【解決手段】フォント生成モデルのトレーニング方法は、ソースドメインのサンプル文字とターゲットドメインの関連文字とをフォント生成モデルのエンコーダに入力し、サンプル文字の内容特徴と関連文字のスタイル特徴を得ることと、両特徴をフォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得ることと、サンプル文字の内容特徴とターゲットドメインのスタイル特徴とをフォント生成モデルのデコーダに入力し、ターゲットドメイン生成文字を得ることと、ターゲットドメインのサンプル文字及び/又は関連文字とターゲットドメイン生成文字とをフォント生成モデルのロス解析ネットワークに入力しモデルロスを得て、モデルロスに応じてフォント生成モデルのパラメータを調整することと、を含む。
【選択図】
図2A
【特許請求の範囲】
【請求項1】
ソースドメインサンプル文字と、前記ソースドメインサンプル文字のターゲットドメイン関連文字とをフォント生成モデルのエンコーダに入力し、サンプル文字の内容特徴と関連文字のスタイル特徴を得ることと、
前記サンプル文字の内容特徴と、関連文字のスタイル特徴とを前記フォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得ることと、
前記サンプル文字の内容特徴と、前記ターゲットドメインのスタイル特徴とを前記フォント生成モデルのデコーダに入力し、ターゲットドメイン生成文字を得ることと、
ターゲットドメインサンプル文字および前記ターゲットドメイン関連文字の少なくとも1つと、前記ターゲットドメイン生成文字とを前記フォント生成モデルのロス解析ネットワークに入力し、モデルロスを得、前記モデルロスに応じて前記フォント生成モデルのパラメータを調整することと、を含む、フォント生成モデルのトレーニングの方法。
【請求項2】
前記注意機構ネットワークは、内容特徴感知層、スタイル特徴感知層、アクティブ化層、および全結合層を含み、
前記サンプル文字の内容特徴と、関連文字のスタイル特徴とを前記フォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得ることは、
前記サンプル文字の内容特徴を前記内容特徴感知層に入力し、内容感知値を得ることと、
前記関連文字のスタイル特徴を前記スタイル特徴感知層に入力し、スタイル感知値を得ることと、
前記内容感知値と前記スタイル感知値とを前記アクティブ化層に入力し、ターゲットドメインの特徴重みを得ることと、
前記特徴重みと前記関連文字のスタイル特徴とを前記全結合層に入力し、ターゲットドメインのスタイル特徴を得ることと、を含む、請求項1に記載の方法。
【請求項3】
前記ロス解析ネットワークは、モジュール分類器、キャラクタ判別器、スタイル判別器、およびキャラクタ分類器の少なくとも1つを含み、
前記モデルロスは、モジュール分類ロス、キャラクタ分類ロス、スタイル分類ロス、および誤字ロスの少なくとも1つを含む、請求項1に記載の方法。
【請求項4】
前記ターゲットドメインサンプル文字および前記ターゲットドメイン関連文字の少なくとも1つと、前記ターゲットドメイン生成文字とを前記フォント生成モデルのロス解析ネットワークに入力し、モデルロスを得、前記モデルロスに応じて前記フォント生成モデルのパラメータを調整することは、
ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記キャラクタ判別器に入力し、キャラクタ分類ロスの第1のキャラクタロス値を得、調整後のキャラクタ判別器を得るように前記第1のキャラクタロス値に基づいて、前記キャラクタ判別器のパラメータを調整することと、
前記ターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、キャラクタ分類ロスの第2のキャラクタロス値を得、前記第2のキャラクタロス値に基づいて、エンコーダ、注意機構ネットワーク、およびデコーダを含むフォント生成ネットワークのパラメータを調整することと、
ターゲットドメインサンプル文字、および調整後のフォント生成ネットワークに基づいて更新されたターゲットドメイン生成文字を、調整後のキャラクタ判別器に入力し、前記第1のキャラクタロス値を更新し、更新後の第1のキャラクタロス値に基づいて、キャラクタ判別器のパラメータを再調整することと、を含む、請求項3に記載の方法。
【請求項5】
ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記キャラクタ判別器に入力し、キャラクタ分類ロスの第1のキャラクタロス値を得ることは、
ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記キャラクタ判別器に入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置を得ることと、
ターゲットドメイン生成文字のキャラクタ分類ヘッド位置と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置に応じて、キャラクタ分類ロスの第1のキャラクタロス値を決定することと、を含む、請求項4に記載の方法。
【請求項6】
前記ターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、キャラクタ分類ロスの第2のキャラクタロス値を得ることは、
前記ターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置を更新することと、
更新後のキャラクタ分類ヘッド位置に応じて、キャラクタ分類ロスの第2のキャラクタロス値を決定することと、を含む、請求項4に記載の方法。
【請求項7】
前記ターゲットドメインサンプル文字および前記ターゲットドメイン関連文字の少なくとも1つと、前記ターゲットドメイン生成文字とを前記フォント生成モデルロス解析ネットワークに入力し、モデルロスを得、前記モデルロスに応じて前記フォント生成モデルのパラメータを調整することは、
ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記スタイル判別器に入力し、スタイル分類ロスの第1のスタイルロス値を得、調整後のスタイル判別器を得るように前記第1のスタイルロス値に基づいて、前記スタイル判別器のパラメータを調整することと、
前記ターゲットドメイン生成文字を調整後のスタイル判別器に入力し、スタイル分類ロスの第2のスタイルロス値を得、前記第2のスタイルロス値に基づいて、エンコーダ、注意機構ネットワーク、およびデコーダを含む前記フォント生成ネットワークのパラメータを調整することと、
ターゲットドメインサンプル文字、および調整後のフォント生成ネットワークに基づいて更新されたターゲットドメイン生成文字を、調整後のスタイル判別器に入力し、前記第1のスタイルロス値を更新し、更新後の第1のスタイルロス値に基づいて、スタイル判別器のパラメータを再調整することと、を含む、請求項3に記載の方法。
【請求項8】
ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記スタイル判別器に入力し、スタイル分類ロスの第1のスタイルロス値を得ることは、
ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記スタイル判別器に入力し、ターゲットドメイン生成文字のスタイル分類ヘッド位置と、ターゲットドメインサンプル文字のスタイル分類ヘッド位置を得ることと、
ターゲットドメイン生成文字のスタイル分類ヘッド位置と、ターゲットドメインサンプル文字のスタイル分類ヘッド位置に応じて、スタイル分類ロスの第1のスタイルロス値を決定することと、を含む、請求項7に記載の方法。
【請求項9】
前記ターゲットドメイン生成文字を調整後のスタイル判別器に入力し、スタイル分類ロスの第2のスタイルロス値を得ることは、
前記ターゲットドメイン生成文字を調整後のスタイル判別器に入力し、ターゲットドメイン生成文字のスタイル分類ヘッド位置を更新することと、
更新後のスタイル分類ヘッド位置に応じて、スタイル分類ロスの第2のスタイルロス値を決定することと、を含む、請求項7に記載の方法。
【請求項10】
ターゲットドメインサンプル文字および前記ターゲットドメイン関連文字の少なくとも1つと、前記ターゲットドメイン生成文字とを前記フォント生成モデルのロス解析ネットワークに入力し、モデルロスを得ることは、
前記ターゲットドメイン関連文字と、前記ターゲットドメイン生成文字とを前記モジュール分類器に入力し、前記ターゲットドメイン生成文字のモジュールベクトルと、前記ターゲットドメイン関連文字のモジュールベクトルを得ることと、
前記ターゲットドメイン生成文字のモジュールベクトルと、前記ターゲットドメイン関連文字のモジュールベクトルとの差に応じて、モジュール分類ロスを決定することと、を含む、請求項3に記載の方法。
【請求項11】
ターゲットドメインサンプル文字および前記ターゲットドメイン関連文字の少なくとも1つと、前記ターゲットドメイン生成文字とを前記フォント生成モデルのロス解析ネットワークに入力し、モデルロスを得ることは、
ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記キャラクタ分類器に入力し、ターゲットドメインサンプル文字のキャラクタ分類ヘッドベクトルと、前記ターゲットドメイン生成文字のキャラクタ分類ヘッドベクトルを得ることと、
ターゲットドメインサンプル文字のキャラクタ分類ヘッドベクトルと、前記ターゲットドメイン生成文字のキャラクタ分類ヘッドベクトルとの差に応じて、誤字ロスを決定することと、を含む、請求項3に記載の方法。
【請求項12】
ソースドメイン入力文字をフォント生成モデルに入力し、ターゲットドメイン新文字を得ることと、
前記ターゲットドメイン新文字に基づいて、字庫を作成することと、を含み、
前記フォント生成モデルは、請求項1~11のいずれか一項に記載の方法に従ってトレーニングされたものである、字庫作成方法。
【請求項13】
ソースドメインサンプル文字と、前記ソースドメインサンプル文字のターゲットドメイン関連文字とをフォント生成モデルのエンコーダに入力し、サンプル文字の内容特徴と関連文字のスタイル特徴を得るための第1の特徴決定モジュールと、
前記サンプル文字の内容特徴と、関連文字のスタイル特徴とを前記フォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得るための第2の特徴決定モジュールと、
前記サンプル文字の内容特徴と、前記ターゲットドメインのスタイル特徴とを前記フォント生成モデルのデコーダに入力し、ターゲットドメイン生成文字を得るための生成文字決定モジュールと、
ターゲットドメインサンプル文字および前記ターゲットドメイン関連文字の少なくとも1つと、前記ターゲットドメイン生成文字とを前記フォント生成モデルのロス解析ネットワークに入力し、モデルロスを得、前記モデルロスに応じて前記フォント生成モデルのパラメータを調整するためのモデルトレーニングモジュールと、を含む、フォント生成モデルのトレーニングのデバイス。
【請求項14】
前記注意機構ネットワークは、内容特徴感知層、スタイル特徴感知層、アクティブ化層、および全結合層を含み、
前記第2の特徴決定モジュールは、
前記サンプル文字の内容特徴を前記内容特徴感知層に入力し、内容感知値を得、
前記関連文字のスタイル特徴を前記スタイル特徴感知層に入力し、スタイル感知値を得、
前記内容感知値と前記スタイル感知値とを前記アクティブ化層に入力し、ターゲットドメインの特徴重みを得、
前記特徴重みと前記関連文字のスタイル特徴とを前記全結合層に入力し、ターゲットドメインのスタイル特徴を得るために用いられる、請求項13に記載のデバイス。
【請求項15】
前記ロス解析ネットワークは、モジュール分類器、キャラクタ判別器、スタイル判別器、およびキャラクタ分類器の少なくとも1つを含み、
前記モデルロスは、モジュール分類ロス、キャラクタ分類ロス、スタイル分類ロス、および誤字ロスの少なくとも1つを含む、請求項13に記載のデバイス。
【請求項16】
前記モデルトレーニングモジュールは、
ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記キャラクタ判別器に入力し、キャラクタ分類ロスの第1のキャラクタロス値を得るための第1のキャラクタロス計算ユニットと、
調整後のキャラクタ判別器を得るように前記第1のキャラクタロス値に基づいて、前記キャラクタ判別器のパラメータを調整するためのキャラクタ判別器調整ユニットと、
前記ターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、キャラクタ分類ロスの第2のキャラクタロス値を得るための第2のキャラクタロス計算ユニットと、
前記第2のキャラクタロス値に基づいて、フォント生成ネットワークのパラメータを調整するためのフォント生成ネットワーク調整ユニットと、を含み、
前記フォント生成ネットワークは、エンコーダ、注意機構ネットワーク、およびデコーダを含み、
前記第1のキャラクタロス計算ユニットは、さらに、ターゲットドメインサンプル文字、および調整後のフォント生成ネットワークに基づいて更新されたターゲットドメイン生成文字を、調整後のキャラクタ判別器に入力し、前記第1のキャラクタロス値を更新するために用いられ、
前記キャラクタ判別器調整ユニットは、さらに、更新後の第1のキャラクタロス値に基づいて、キャラクタ判別器のパラメータを再調整するために用いられる、請求項15に記載のデバイス。
【請求項17】
前記第1のキャラクタロス計算ユニットは、
ターゲットドメインサンプル文字と、前記ターゲットドメイン生成文字とを前記キャラクタ判別器に入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置を得、
ターゲットドメイン生成文字のキャラクタ分類ヘッド位置と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置に応じて、キャラクタ分類ロスの第1のキャラクタロス値を決定するために用いられる、請求項16に記載のデバイス。
【請求項18】
前記第2のキャラクタロス計算ユニットは、
前記ターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置を更新し、
更新後のキャラクタ分類ヘッド位置に応じて、キャラクタ分類ロスの第2のキャラクタロス値を決定するために用いられる、請求項16に記載のデバイス。
【請求項19】
ソースドメイン入力文字をフォント生成モデルに入力し、ターゲットドメイン新文字を得るための新文字生成モジュール、および、
前記ターゲットドメイン新文字に基づいて、字庫を作成するための字庫作成モジュールを含み、
前記フォント生成モデルは、請求項1~11のいずれか1項に記載の方法に従ってトレーニングされたものである、字庫作成デバイス。
【請求項20】
少なくとも1つのプロセッサ、および
前記少なくとも1つのプロセッサと通信接続されたメモリを含む電子デバイスであって、
前記メモリに、前記少なくとも1つのプロセッサによって実行可能な指令が記憶されており、前記少なくとも1つのプロセッサに請求項1~11のいずれか一項に記載のフォント生成モデルのトレーニングの方法および/または請求項12に記載の字庫作成方法を実行させるように、前記指令が前記少なくとも1つのプロセッサによって実行される、電子デバイス。
【請求項21】
コンピュータ指令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ指令は、コンピュータに請求項1~11のいずれか一項に記載のフォント生成モデルのトレーニングの方法および/または請求項12に記載の字庫作成方法を実行させるために用いられる、非一時的なコンピュータ可読記憶媒体。
【請求項22】
プロセッサに実行されると、請求項1~11のいずれか一項に記載のフォント生成モデルのトレーニング方法および/または請求項12に記載の字庫作成方法を実現する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能の技術分野に関し、具体的には、コンピュータビジョンと深層学習の技術分野に関し、OCR光学文字認識等のシナリオに適用することができる。
【背景技術】
【0002】
インターネットの発展および人々の個人的なニーズの増加に伴い、カスタムスタイルのフォント生成が徐々に活発になっている。
【0003】
フォント生成の過程は、本質的に、画像スタイル変換の過程であり、すなわち、内容を変更せずに1枚の画像を別のスタイルに変換することである。例えば、標準楷書体スタイルの
(外1)
という文字を、ユーザの手書きスタイルの
(外2)
に変換することである。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、モデルトレーニングおよび字庫作成方法、デバイス、設備および記憶媒体を提供する。
【課題を解決するための手段】
【0005】
本開示の一態様によれば、
ソースドメインサンプル文字と、ソースドメインサンプル文字のターゲットドメイン関連文字とをフォント生成モデルのエンコーダに入力し、サンプル文字の内容特徴と関連文字のスタイル特徴を得ることと、
サンプル文字の内容特徴と、関連文字のスタイル特徴とをフォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得ることと、
サンプル文字の内容特徴と、ターゲットドメインのスタイル特徴とをフォント生成モデルのデコーダに入力し、ターゲットドメイン生成文字を得ることと、
ターゲットドメインサンプル文字およびターゲットドメイン関連文字の少なくとも1つと、ターゲットドメイン生成文字とをフォント生成モデルのロス解析ネットワークに入力し、モデルロスを得、モデルロスに応じてフォント生成モデルのパラメータを調整することと、を含む、フォント生成モデルのトレーニング方法を提供する。
【0006】
本開示の別の態様によれば、
ソースドメイン入力文字を、本開示のいずれかの実施例のフォント生成モデルのトレーニング方法によるトレーニングで得られたフォント生成モデルに入力し、ターゲットドメイン新文字を得ることと、
ターゲットドメイン新文字に基づいて字庫を作成することと、を含む、字庫作成方法を提供する。
【0007】
本開示の別の態様によれば、
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
メモリに少なくとも1つのプロセッサによって実行可能な指令が記憶されており、指令は、少なくとも1つのプロセッサが本開示のいずれかの実施例のフォント生成モデルのトレーニング方法および/または字庫作成方法を実行可能であるように、少なくとも1つのプロセッサによって実行される、電子デバイスを提供する。
【0008】
本開示の別の態様によれば、コンピュータ指令が記憶された非一時的なコンピュータ可読記憶媒体であって、コンピュータ指令は、コンピュータに本開示のいずれかの実施例のフォント生成モデルのトレーニング方法および/または字庫作成方法を実行させるために用いられる、非一時的なコンピュータ可読記憶媒体を提供する。
【発明の効果】
【0009】
本開示の技術によれば、少ないサンプルでフォント生成モデルをトレーニングするための新しいアイデアを提供し、モデルトレーニングの正確性を向上させる。
【0010】
本発明に記載された内容は、本発明の実施例のキーまたは重要な特徴を特定するためのものではなく、本発明の範囲を限定するものでもないことを理解すべきである。本発明の他の特徴は、以下の説明により容易に理解される。
【図面の簡単な説明】
【0011】
図面は本技術案をより良く理解するためのものであり、本発明に対する限定を構成しない。
【0012】
【
図1】本開示の1つの実施例に係るフォント生成モデルのトレーニング方法および/または字庫作成方法を適用できる、例示的なシステムアーキテクチャの模式図である。
【
図2A】本開示の実施例に係るフォント生成モデルのトレーニング方法のフローチャートである。
【
図2B】本開示の実施例に係るフォント生成モデルの構造模式図である。
【
図3A】本開示の実施例に係るフォント生成モデルの注意機構ネットワークの内部構造の模式図である。
【
図3B】本開示の実施例に係る別のフォント生成モデルのトレーニング方法のフローチャートである。
【
図4A】本開示の実施例に係る別のフォント生成モデルの構造模式図である。
【
図4B】本開示の実施例に係る別のフォント生成モデルのトレーニング方法のフローチャートである。
【
図5】本開示の実施例に係る字庫作成方法のフローチャートである。
【
図6】本開示の実施例に係るフォント生成モデルのトレーニングデバイスの構造模式図である。
【
図7】本開示の実施例に係る字庫作成デバイスの構造模式図である。
【
図8】本開示の実施例に係るフォント生成モデルのトレーニング方法および/または字庫作成方法を実現するための電子デバイスのブロック図である。
【発明を実施するための形態】
【0013】
以下、図面を参照しながら本発明の例示的な実施例を説明し、理解を容易にするための本発明の実施例の様々な詳細を含むが、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本発明の範囲および精神から逸脱することなく、本明細書に記載される実施例に対して様々な変更および修正を行うことができることを認識すべきである。同様に、明瞭かつ簡明にするために、以下の説明では、公知の機能および構造に対する説明は省略する。
【0014】
フォント生成は、画像スタイル変換分野における新しいタスクであり、画像スタイル変換は、内容を変更せずに1枚の画像を別のスタイルに変換することであり、深層学習アプリケーションにおける人気のある研究方向である。
【0015】
現在、GAN(Generative Adversarial Networks:敵対的生成ネットワーク)モデルによって、フォント生成を実現することができる。しかし、GANモデルに基づくフォント生成スキームでは、少量のデータでトレーニングされたネットワークを利用することによって、傾き、大きさ、筆画の一部のような比較的弱い特徴しか学習できず、最もユーザらしいスタイル特徴を学習できない。大量のデータでトレーニングされたネットワークを用いると、スタイルには強いが、トレーニングセット以外の漢字では誤字が生じやすい。これらの主流の研究成果では、いずれもフォントレベルの効果を達成することは難しい。
【0016】
本開示の実施例は、フォント生成モデルのトレーニング方法、および当該フォント生成モデルを使用して字庫を作成する方法を提供する。ソースドメインと、ターゲットドメインとのフォントスタイル変換タスクを実行するように、フォント生成モデルをトレーニングする過程において、注意機構ネットワークを導入することにより、ターゲットドメインの全体的なスタイル特徴、すなわち、ターゲットドメインのスタイル特徴を決定し、ターゲットドメインのスタイル特徴の正確性を向上させる。さらに、フォント生成モデルがフォントスタイル変換を実行する能力を向上させ、ターゲットドメインのサンプルデータが少ない場合、またはソースドメインフォントがフォント分布のスタイルに合致しない場合でも、美しく正確なフォントを生成することができ、モデルの正確性を向上させることができる。
【0017】
図1は本開示の1つの実施例に係るフォント生成モデルのトレーニング方法および/または字庫作成方法を適用できる、例示的なシステムアーキテクチャの模式図である。なお、
図1は、当業者が本開示の技術的内容を理解するのを助けるための、本開示の実施例を適用できるシステムアーキテクチャの単なる例であるが、本開示の実施例が他のデバイス、システム、環境、またはシナリオに使用できないことを意味するものではない。
【0018】
図1に示すように、本実施例に係るシステムアーキテクチャ100は、複数の端末デバイス101、ネットワーク102およびサーバ103を含むことができる。ネットワーク102は、端末デバイス101とサーバ103との間で、通信リンクを提供するための媒体である。ネットワーク102は、例えば、有線および/または無線通信リンク等様々な接続タイプを含むことができる。
【0019】
ユーザは、端末デバイス101を使用して、メッセージの受信または送信等をするように、ネットワーク102を介してサーバ103と通信することができる。端末デバイス101は、様々な電子デバイスであってもよく、スマートフォン、タブレット、ラップトップポータブルコンピュータ等を含むが、これらに限らない。
【0020】
一般的に、本開示の実施例に係るフォント生成モデルのトレーニング方法および/または字庫作成方法の少なくとも1つは、サーバ103によって実行されることができる。一般的に、本開示の実施例に係るフォント生成モデルのトレーニングデバイスおよび/または字庫作成デバイスは、サーバ103に設置されることができる。本開示の実施例に係るフォント生成モデルのトレーニング方法および/または字庫作成方法は、サーバ103と異なって、かつ端末デバイス101および/またはサーバ103と通信できるサーバまたはサーバクラスターによって実行されることができる。本開示の実施例に係るフォント生成モデルのトレーニングデバイスおよび/または字庫作成デバイスは、サーバ103と異なって、かつ端末デバイス101および/またはサーバ103と通信できるサーバまたはサーバクラスターに設置されることができる。
【0021】
図2Aは本開示の実施例に係るフォント生成モデルのトレーニング方法のフローチャートであり、
図2Bは本開示の実施例に係るフォント生成モデルの構造模式図である。本開示の実施例は、フォントスタイル変換タスクを実行するフォント生成モデルをトレーニングする場合に適用され、特に、少ないサンプルデータに基づいてフォントスタイル変換タスクを実行するフォント生成モデルをトレーニングする場合に適用される。当該方法は、フォント生成モデルのトレーニングデバイスによって実行されることができ、当該デバイスは、ソフトウェアおよび/またはハードウェアによって実現されることができる。
図2A~
図2Bに示すように、本実施例に係るフォント生成モデルのトレーニング方法は、以下のステップを含む。
【0022】
S201:ソースドメインサンプル文字と、ソースドメインサンプル文字のターゲットドメイン関連文字とをフォント生成モデルのエンコーダに入力し、サンプル文字の内容特徴と関連文字のスタイル特徴を得ることである。
【0023】
ここで、ソースドメインサンプル文字は、ソースドメインフォントスタイルを有する画像であってもよく、ソースドメインフォントスタイルは、楷書体、明朝体、またはゴシック体等通常のフォントであってもよい。ターゲットドメイン関連文字は、ターゲットドメインフォントスタイルを有し、ソースドメインサンプル文字の偏旁部首を覆う画像であってもよい。ターゲットドメインフォントスタイルは、ユーザの手書きフォントスタイルまたは他のワードアートフォントスタイルであってもよい。なお、本実例におけるターゲットドメイン関連文字の個数は、1つまたは複数であってもよく、好ましくは複数である。例えば、ソースドメインサンプル文字が
(外3)
(それに対応する偏旁部首が「イ」(人偏)および
(外4)
を含む)であると、ターゲットドメイン関連文字は、ターゲットドメインフォントスタイルを有し、「イ」または
(外5)
の全ての文字を含む画像であり、例えば「称」および「佳」であってもよい。サンプル文字の内容特徴は、ソースドメインサンプル文字のフォント内容(例えば、キャラクタ類別とモジュール類別)を特徴付ける特徴であってもよい。関連文字のスタイル特徴は、それぞれのターゲットドメイン関連フォントのフォントスタイルを特徴付ける特徴であってもよい。
【0024】
図2Bに示すように、本実施例のフォントスタイルモデル2は、ソースドメインサンプル文字をソースドメインスタイルフォントからターゲットドメインスタイルフォントに変換するニューラルネットワークモデルである。当該フォント生成モデル2は、フォント生成ネットワーク20とロス解析ネットワーク21とを含むことができる。ここで、フォント生成ネットワーク20は、フォントスタイル変換のタスクを実行するために用いられ、すなわち、フォント生成モデルのバックボーンネットワークである。具体的には、フォント生成ネットワーク20は、エンコーダ201、注意機構ネットワーク202およびデコーダ203を含む。ここで、エンコーダ201は、ソースドメインサンプル文字の内容特徴をコーディングし、ターゲットドメイン関連文字のスタイル特徴をコーディングするために用いられ、当該エンコーダ201は、内容エンコーダ2011と、スタイルエンコーダ2012とをさらに含むことができる。注意機構ネットワーク202は、ターゲットドメインのスタイル特徴における各スタイル分類ヘッド位置の重要性を解析し、ターゲットドメインのスタイル特徴を正確に決定するために用いられる。デコーダ204は、内容特徴とスタイル特徴に基づいてデコードしてスタイル変換後の生成文字を得るために用いられる。ロス解析ネットワーク21は、モデルがロス関数に基づいてパラメータを調整するように、モデルトレーニング段階において、トレーニング過程でのモデルロス関数を計算するために用いられる。
【0025】
好ましくは、本実施例では、反復トレーニングタスクを一回実行する場合、まず、ソースドメインサンプル文字に基づいて、当該ソースドメインサンプル文字の偏旁部首を覆うターゲットドメイン関連文字のバッチを取得し、そしてソースドメインサンプル文字とターゲットドメイン関連文字とを、フォント生成モデル2のフォント生成ネットワーク20のエンコーダ201に入力することができ、具体的には、ソースドメインサンプル文字を、エンコーダ201の内容エンコーダ2011に入力し、ターゲットドメイン関連文字を、エンコーダ201のスタイルエンコーダ2012に入力してから、当該内容エンコーダ2011は、入力されたソースドメインサンプル文字のフォント内容をコーディングし、サンプル文字の内容特徴を得ることができる。当該スタイルエンコーダ2012は、入力されたターゲットドメイン関連文字のフォントスタイルをコーディングし、関連文字のスタイル特徴を得る。なお、本実施例では、それぞれのターゲットドメイン関連文字は、対応する関連文字のスタイル特徴を決定する必要がある。例えば、
図2Bに示すように、明朝体スタイルフォントとなる
(外6)
(すなわち、ソースドメインサンプル文字)を内容エンコーダ2011に入力して、明朝体スタイルフォントとなる
(外7)
の内容特徴を得る。手書きスタイルフォントとなる「称」および「佳」(すなわち、ターゲットドメイン関連文字)をスタイルエンコーダ2012に入力して、手書きスタイルフォントとなる「称」の関連文字のスタイル特徴1、および手書きスタイルフォントとなる「佳」の関連文字のスタイル特徴2をそれぞれ得る。
【0026】
S202:サンプル文字の内容特徴と、関連文字のスタイル特徴とをフォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得ることである。
【0027】
ここで、ターゲットドメインのスタイル特徴は、ターゲットドメインの全体的なスタイルを特徴付ける特徴であってもよい。
【0028】
図2Bに示すように、関連文字のスタイル特徴は、ターゲットドメインに対応するそれぞれのターゲット関連文字のスタイル特徴であるため、一部のターゲットドメインのスタイル特徴のみを表すことができ、本実施例では、注意機構ネットワーク202に基づいて、ターゲットドメインに対応する各ターゲット関連文字のスタイル特徴を統合して、当該ターゲットドメインの全体的なスタイル特徴、すなわち、ターゲットドメインのスタイル特徴を得る必要がある。具体的には、エンコーダ201によってコーディングされるサンプル文字の内容特徴と、関連文字のスタイル特徴を注意機構ネットワーク202に入力し、注意機構ネットワーク202は、サンプル文字の内容特徴に基づいて、各関連文字のスタイル特徴を順次解析し、さらに、各関連文字のスタイル特徴を、1つのターゲットドメインスタイルを特徴付ける特徴ベクトル(すなわち、ターゲットドメインのスタイル特徴)に統合することができる。
【0029】
S203:サンプル文字の内容特徴と、ターゲットドメインのスタイル特徴とをフォント生成モデルのデコーダに入力し、ターゲットドメイン生成文字を得ることである。
【0030】
ここで、ターゲットドメイン生成文字は、フォント生成モデルによって生成されるソースドメインサンプル文字の内容と、ターゲットドメイン関連文字のフォントスタイルを有する画像であってもよい。例えば、ソースドメインサンプル文字が
(外8)
であり、ターゲットドメインフォントスタイルがユーザの手書きフォントスタイルであると、ターゲットドメイン生成文字は、ユーザの手書きフォントスタイルとなる
(外9)
であってもよい。
【0031】
図2Bに示すように、本実施例では、エンコーダ201(具体的には、内容エンコーダ2011)によってコーディングされるサンプル文字の内容特徴、および注意機構ネットワーク202によって統合されるターゲットドメインのスタイル特徴をデコーダ203に入力することができ、そして、デコーダ203は、ターゲットドメインのスタイル特徴と、サンプル文字の内容特徴とをデコードし、さらにデコード結果に基づいて、ソースドメインサンプル文字の内容と、ターゲットドメイン関連文字のフォントスタイルを有するターゲットドメイン生成文字(例えば、手書きスタイルの
(外10)
)を融合させて得ることができる。
【0032】
S204:ターゲットドメインサンプル文字およびターゲットドメイン関連文字の少なくとも1つと、ターゲットドメイン生成文字とをフォント生成モデルのロス解析ネットワークに入力し、モデルロスを得、モデルロスに応じてフォント生成モデルのパラメータを調整することである。
【0033】
ここで、ターゲットドメインサンプル文字は、ソースドメインサンプル文字の内容と、ターゲットドメイン関連文字のフォントスタイルとを有し、実際に存在する画像であってもよい。それは、ターゲットドメイン生成文字に対応する標準文字である。例えば、サンプル文字が
(外11)
であり、ターゲットドメインがユーザの手書きスタイルフォントである場合、当該ターゲットドメインサンプル文字はリアルなユーザの手書きの
(外12)
という文字であってもよい。ターゲットドメイン生成文字は、フォント生成モデルによって予測されたユーザの手書きの
(外13)
という文字である。モデルロスは、S201~S203では、ターゲットドメイン関連文字と、ソースドメインサンプル文字に基づいて、モデルをトレーニングする時に算出するロス関数である。
【0034】
本実施例のフォント生成モデルにおいてロス解析ネットワークは、少なくとも1種類のタイプのロス関数を解析する少なくとも1つのを含むことができ、すなわち、当該ロス解析ネットワークに基づいて決定されるモデルロスは、少なくとも1種類のタイプのロス関数の値を含むことができる。例えば、フォント生成モデルのロス解析ネットワークは、ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とのキャラクタ内容の一致性を解析して、キャラクタ分類ロスを生成し、ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とのフォントスタイルの一致性を解析して、スタイル分類ロスを生成し、ターゲットドメイン関連文字と、ターゲットドメイン生成文字との偏旁部首(すなわち、モジュール)の一致性を解析して、モジュール分類ロスを生成し、ターゲットドメイン生成文字が誤字であるかどうかの誤字ロス等を解析する。本実施例では、ロス解析ネットワークによりモデルロスを算出した後、当該モデルロスに基づいて、フォント生成モデルのパラメータを調整する。
【0035】
なお、本出願の実施例のスキームでは、複数のセットのソースドメインサンプル文字に基づいて、モデルを複数回反復トレーニングする必要があり、予め設定されたトレーニング停止条件を満たすと、フォント生成モデルのパラメータ調整を停止し、トレーニング済みフォント生成モデルを得る。トレーニング停止条件は、トレーニング回数が所定回数に達すること、またはモデルロスが収束すること等を含むことができる。
【0036】
なお、フォント生成モデルに入力される文字(例えば、ソースドメインサンプル文字、ターゲットドメイン関連文字、およびターゲットドメインサンプル文字)は、画像として入力してもよく、フォント生成モデルに入力される文字に対応する画像は、公開のデータセットから取得され、または関連許可を得て取得されることができる。
【0037】
本出願の実施例のスキームでは、フォント生成モデルをトレーニングする過程において、エンコーダに基づいて決定されたターゲットドメインの関連文字特徴、およびサンプル文字の内容特徴を、注意機構ネットワークに入力して、ターゲットドメインのスタイル特徴を決定し、さらに、ターゲットドメインのスタイル特徴、およびサンプル文字の内容特徴に基づいて、ターゲットドメイン生成文字を得ることが必要である。ターゲットドメインサンプル文字およびターゲットドメイン関連文字の少なくとも1つと、ターゲットドメイン生成文字とに基づいてモデルロスを計算し、モデルのパラメータを調整する。本スキームでは、ソースドメインと、ターゲットドメインとのフォントスタイル変換タスクを実行するように、フォント生成モデルをトレーニングする過程において、注意機構ネットワークを導入することにより、ターゲットドメインの全体的なスタイル特徴、すなわち、ターゲットドメインのスタイル特徴を決定し、ターゲットドメインのスタイル特徴の正確性を向上させる。さらに、フォント生成モデルがフォントスタイル変換を実行する能力を向上させ、ターゲットドメインのサンプルデータが少ない場合、またはソースドメインフォントがフォント分布のスタイルに合致しない場合でも、美しく正確なフォントを生成することができ、モデルの正確性を向上させることができる。少ないサンプルでフォント生成モデルをトレーニングするための新しいアイデアを提供する。
【0038】
図3Aは本開示の実施例に係るフォント生成モデルの注意機構ネットワークの内部構造の模式図である。
図3Aに示すように、本実施例の注意機構ネットワーク302は、内容特徴感知層3021、スタイル特徴感知層3022、アクティブ化層3023、および全結合層3024を含む。
図3Bは本開示の実施例に係る別のフォント生成モデルのトレーニング方法のフローチャートである。本開示の実施例は、上記実施例を基に、
図3Aに示す注意機構ネットワーク302と組み合わせて、「サンプル文字の内容特徴と、関連文字のスタイル特徴とをフォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得る」ことについて、さらに詳細に解釈、説明し、
図3A~3Bに示すように、本実施例に係るフォント生成モデルのトレーニング方法は、以下のステップを含む。
【0039】
S301:ソースドメインサンプル文字と、ソースドメインサンプル文字のターゲットドメイン関連文字とをフォント生成モデルのエンコーダに入力し、サンプル文字の内容特徴と関連文字のスタイル特徴を得ることである。
【0040】
S302:サンプル文字の内容特徴を内容特徴感知層に入力し、内容感知値を得ることである。
【0041】
ここで、内容特徴感知層MLP1は、複数の全結合層が首尾接続されてなり、サンプル文字の内容特徴を抽象的に抽出し、感知値である内容感知値を得るために用いられる。
【0042】
具体的には、
図3Aに示すように、S301ではエンコーダを介して得られたサンプル文字の内容特徴Zxを内容特徴感知ネットワーク層MLP1 3021に入力してもよく、この時、当該内容特徴感知層MLP1 3021は、サンプル文字の内容特徴から内容感知値Q、すなわち、Q=MLP1(Zx)をサンプリング抽出する。
【0043】
S303:関連文字のスタイル特徴をスタイル特徴感知層に入力し、スタイル感知値を得ることである。
【0044】
ここで、スタイル特徴感知層MLP2も、複数の全結合層が首尾接続されてなり、内容特徴感知層MLP1の層構造と同一または異なってもよい。当該スタイル特徴感知層MLP2は、関連文字のスタイル特徴を抽象的に抽出し、スタイル感知値を得るために用いられる。
具体的には、
図3Aに示すように、本実施例におけるターゲットドメイン関連文字は複数である可能性があるため、S301では、エンコーダを介して、それぞれのターゲットドメイン関連文字に対して、1つの関連文字のスタイル特徴を生成し、ターゲット関連文字の個数がKであると仮定すると、スタイル特徴感知層3022に入力された関連文字のスタイル特徴がZ'iとなり、ここで、i=1、2、...、K。その分、スタイル特徴感知層3022は、それぞれの関連文字スタイル特徴Z'iに基づいて、1つのスタイル感知値Keyiを生成し、ここで、i=1、2、...、K、すなわち、Keyi=MLP2(z'i)。
【0045】
S304:内容感知値とスタイル感知値とをアクティブ化層に入力し、ターゲットドメインの特徴重みを得ることである。
【0046】
具体的には、
図3Aに示すように、内容感知値Q、およびスタイル感知値Keyiをアクティブ化層3023に入力し、アクティブ化層3023は、内容感知値Qを各スタイル感知値Keyiで順次に畳み込み、正規化処理し、ターゲットドメインの特徴重みWiを得る。ここで、i=1、2、...、K、すなわち、Wi=softmax(Q*Keyi)。
【0047】
S305:特徴重みと関連文字のスタイル特徴とを全結合層に入力し、ターゲットドメインのスタイル特徴を得ることである。
【0048】
具体的には、
図3Aに示すように、ターゲットドメインの特徴重みWiと関連文字のスタイル特徴Z'iとを全結合層3024に入力し、全結合層3024は、各関連文字のスタイル特徴とそれに対応する特徴重みとを、加重加算処理してターゲットドメインのスタイル特徴を得る。
【0049】
S306:サンプル文字の内容特徴と、ターゲットドメインのスタイル特徴とをフォント生成モデルのデコーダに入力し、ターゲットドメイン生成文字を得ることである。
【0050】
S307:ターゲットドメインサンプル文字およびターゲットドメイン関連文字の少なくとも1つと、ターゲットドメイン生成文字とをフォント生成モデルのロス解析ネットワークに入力し、モデルロスを得、モデルロスに応じてフォント生成モデルのパラメータを調整することである。
【0051】
本実施例のスキームでは、感知層、アクティブ化層、および全結合層を含む注意機構によって、ターゲットドメインのスタイル特徴における位置要素の重み値を解析し、重み値と組み合わせてターゲットドメインのスタイル特徴を決定し、平均値を求めることによりターゲットドメインのスタイル特徴を決定することに比べて、ターゲットドメイン関連文字の非サンプル文字モジュールがターゲットドメインのスタイル特徴に与える影響を極めて低減し、ターゲットドメインのスタイル特徴の精度を向上させ、さらに、フォント生成モデルがフォントスタイル変換を実行する正確性を向上させる。
【0052】
図4Aは本開示の実施例に係る別のフォント生成モデルの構造模式図である。
図4Aに示すように、本出願の実施例のフォント生成モデル4のロス解析ネットワーク41は、モジュール分類器411、キャラクタ判別器412、スタイル判別器413、およびキャラクタ分類器414の少なくとも1つを含む。ここで、モジュール分類器411は、モジュール分類ロスを計算するために使用され、キャラクタ判別器412は、キャラクタ分類ロスを計算するために使用され、スタイル判別器413は、スタイル分類ロスを計算するために使用され、キャラクタ分類器414は、誤字ロスを計算するために使用される。したがって、本実施例のモデルロスは、モジュール分類ロス、キャラクタ分類ロス、スタイル分類ロス、および誤字ロスの少なくとも1つを含む。このように設置すると、多様な異なるタイプのロスによってモデルをトレーニングし、モデルのトレーニング結果の精度を極めて向上させる利点がある。
【0053】
図4Bは本開示の実施例に係る別のフォント生成モデルのトレーニング方法のフローチャートである。本開示の実施例では、上記実施例を基に、
図4Aに示すロス解析ネットワーク41と組み合わせて、モデルロスを計算すること、およびモデルロスに基づいてフォント生成モデルのパラメータを調整することについて、さらに詳細に説明し、
図4A~4Bに示すように、本実施例に係るフォント生成モデルのトレーニング方法は、
ソースドメインサンプル文字と、ソースドメインサンプル文字のターゲットドメイン関連文字とをフォント生成モデルのエンコーダに入力し、サンプル文字の内容特徴と関連文字のスタイル特徴を得るS401と、
サンプル文字の内容特徴と、関連文字のスタイル特徴とをフォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得るS402と、
サンプル文字の内容特徴と、ターゲットドメインのスタイル特徴とをフォント生成モデルのデコーダに入力し、ターゲットドメイン生成文字を得るS403と、
ターゲットドメインサンプル文字およびターゲットドメイン関連文字の少なくとも1つと、ターゲットドメイン生成文字とをフォント生成モデルのロス解析ネットワークに入力し、モジュール分類ロス、キャラクタ分類ロス、スタイル分類ロス、および誤字ロスの少なくとも1つを得、モジュール分類ロス、キャラクタ分類ロス、スタイル分類ロス、および誤字ロスの少なくとも1つに応じてフォント生成モデルのパラメータを調整するS404と、を含む。
【0054】
次に、S404における各タイプのロスの計算方法、および、当該ロスに基づいてモデルをトレーニングする過程を順次に説明する。
【0055】
(一)モジュール分類ロスを決定する過程では、ターゲットドメイン関連文字と、ターゲットドメイン生成文字とをモジュール分類器に入力し、ターゲットドメイン生成文字のモジュールベクトルと、ターゲットドメイン関連文字のモジュールベクトルを得ることと、ターゲットドメイン生成文字のモジュールベクトルと、ターゲットドメイン関連文字のモジュールベクトルとの差に応じて、モジュール分類ロスを決定することと、を含むことができる。
【0056】
ここで、モジュールベクトルは、N次元のベクトルであってもよく、Nは、モジュール表に含まれる全部のモジュール、すなわち、全部の偏旁部首の数値である。モジュールベクトルの各要素は、モジュール表において1つのモジュールを表し、入力された文字に当該モジュールが含まれている場合、当該要素は第1の数値(例えば1)となり、そうでない場合は第2の数値(例えば0)となる。したがって、モジュール分類器は、生成されたモジュールベクトルによって、入力された文字に予め設定された偏旁部首(すなわちモジュール)が含まれるかどうかを予測することができる。
【0057】
具体的には、本実施例では、ターゲットドメイン関連文字と、ターゲットドメイン生成文字とを、モジュール分類器411に入力して、モジュール分類器411は、入力されたターゲットドメイン関連文字、およびターゲットドメイン生成文字に対して、N次元のモジュールベクトルをそれぞれ生成し、例えば、モジュールベクトル1とモジュールベクトル2を生成し、さらに、N次元のモジュールベクトル1と、N次元のモジュールベクトル2との相違に応じて、モジュール分類ロス値を計算する。例えば、2つのモジュールベクトルの交差エントロピーを分類ロス値として計算する。当該モジュール分類ロス値を算出した後、当該モジュール分類ロス値を制約として、フォント生成モデル4のパラメータを調整し、全てのスタイルの文字が当該モジュール分類器411を通過した後に、モジュール分類が正しく行われるようにすることができる。本実施例では、フォント生成モデルのトレーニング過程において、モジュール分類ロスを導入するため、全部のスタイルの文字が当該モジュール分類器を通過した後に、モジュール分類が正しく行われることを保証し、さらに、ターゲットドメイン生成文字は、ターゲットドメイン関連文字のモジュール(すなわち、複数のターゲット関連文字が共有するモジュール)を保持することを保証できる。
【0058】
(二)キャラクタ分類ロスを決定する過程は、以下のサブステップを含む。
【0059】
サブステップA:ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをキャラクタ判別器に入力し、キャラクタ分類ロスの第1のキャラクタロス値を得、第1のキャラクタロス値に基づいてキャラクタ判別器のパラメータを調整することである。
【0060】
具体的には、
図4Aに示すように、本サブステップでは、ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とを、キャラクタ判別器412に入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置を得ること、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置に応じて、キャラクタ分類ロスの第1のキャラクタロス値を決定することができる。
【0061】
本実施例では、トレーニングサンプルは、M個(例えば、6700個)の文字の画像を含むことができる。M個の文字は、1つのM次元のベクトル、すなわち、キャラクタ分類ヘッドベクトルを構成することができ、ベクトルの各要素は1つの文字に対応し、当該要素のキャラクタ分類ヘッドベクトルにおける位置が、キャラクタ分類ヘッド位置である。本実施例のキャラクタ判別器412は、ターゲットドメインサンプル文字に、対応するキャラクタ分類ヘッド位置Xを決定し、ターゲットドメイン生成文字に、対応するキャラクタ分類ヘッド位置X
*を決定する。以下の式(1)に基づいて、キャラクタ分類ロスの第1のキャラクタロス値を算出する。第1のキャラクタロス値が決定された後、当該第1のキャラクタロス値に基づいて、キャラクタ判別器412のパラメータを一回調整する。
【数1】
【0062】
ここで、
【数2】
はキャラクタ分類ロスの第1のキャラクタロス値であり、Xはターゲットドメインサンプル文字のキャラクタ分類ヘッド位置であり、X
*はターゲットドメイン生成文字のキャラクタ分類ヘッド位置である。
【0063】
サブステップB:ターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、キャラクタ分類ロスの第2のキャラクタロス値を得、第2のキャラクタロス値に基づいて、フォント生成ネットワークのパラメータを調整することである。
【0064】
具体的に、
図4Aに示すように、本サブステップでは、ターゲットドメイン生成文字を調整後のキャラクタ判別器412に入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置を更新し、更新後のキャラクタ分類ヘッド位置に応じて、キャラクタ分類ロスの第2のキャラクタロス値を決定する。
【0065】
本実施例では、サブステップAでキャラクタ判別器412のパラメータを一回更新すると、更新されたキャラクタ判別器412は、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置を決定する操作をやり直し、すなわち、キャラクタ分類ヘッド位置X
*を更新する。以下の式(2)に基づいて、キャラクタ分類ロスの第2のキャラクタロス値を計算する。第2のキャラクタロス値が決定されると、当該第2のキャラクタロス値に基づいて、フォント生成ネットワーク40のパラメータに1回調整を行う。ここで、当該フォント生成ネットワーク40は、エンコーダ401、注意機構ネットワーク402、およびデコーダ403を含み、当該エンコーダ401は、さらに、内容エンコーダ4011、およびスタイルエンコーダ4012を含む。
【数3】
【0066】
ここで、
【数4】
はキャラクタ分類ロスの第2のキャラクタロス値であり、X
*はターゲットドメイン生成文字のキャラクタ分類ヘッド位置である。なお、この時のX
*は、調整後のキャラクタ判別器412によって更新されたキャラクタ分類ヘッド位置である。
【0067】
サブステップC:ターゲットドメインサンプル文字、および調整後のフォント生成ネットワークに基づいて更新されたターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、第1のキャラクタロス値を更新し、更新後の第1のキャラクタロス値に基づいてキャラクタ判別器のパラメータを再調整することである。
【0068】
具体的には、
図4Aに示すように、本ステップでは、サブステップBで調整後のフォント生成ネットワーク40に、ソースドメインサンプル文字と、ターゲットドメイン関連文字とを再入力し、ターゲットドメイン生成文字を更新し、そして、サブステップAで調整後のキャラクタ判別器412に、更新されたターゲットドメイン生成文字と、ターゲットドメインサンプル文字とを再入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置X
*と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置Xとを更新し、式(1)に基づいて、第1のキャラクタロス値を更新し、更新後の第1のキャラクタロス値に基づいて、キャラクタ判別器412のパラメータを再調整する。
【0069】
本実施例は、フォント生成モデルのトレーニング過程において、キャラクタ分類ロスを導入し、キャラクタ判別器412とフォント生成ネットワーク40に対して、交互に反復トレーニングをするため、フォント生成ネットワーク40およびキャラクタ判別器412のパラメータの正確性を極めて向上させる。
【0070】
(三)スタイル分類ロスを決定する過程は、以下のサブステップを含む。
【0071】
サブステップD:ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをスタイル判別器に入力し、スタイル分類ロスの第1のスタイルロス値を得、第1のスタイルロス値に基づいてスタイル判別器のパラメータを調整することである。
【0072】
具体的には、
図4Aに示すように、本サブステップでは、ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをスタイル判別器413に入力し、ターゲットドメイン生成文字のスタイル分類ヘッド位置と、ターゲットドメインサンプル文字のスタイル分類ヘッド位置を得、ターゲットドメイン生成文字のスタイル分類ヘッド位置と、ターゲットドメインサンプル文字のスタイル分類ヘッド位置に応じて、スタイル分類ロスの第1のスタイルロス値を決定する。
【0073】
本実施例では、トレーニングサンプルは、S種類(例えば80種類)のスタイルフォントを含むことができる。S種類のスタイルは、1つのS次元のベクトル、すなわち、スタイル分類ヘッドベクトルを構成することができ、ベクトルの各要素は1つのスタイルに対応し、当該要素のスタイル分類ヘッドベクトルにおける位置が、スタイル分類ヘッド位置である。本実施例のスタイル判別器413は、ターゲットドメインサンプル文字に、対応するスタイル分類ヘッド位置Yを決定し、ターゲットドメイン生成文字に、対応するスタイル分類ヘッド位置Y
*を決定する。以下の式(3)に基づいて、スタイル分類ロスの第1のスタイルロス値を算出する。第1のスタイルロス値が決定された後、当該第1のスタイルロス値に基づいて、スタイル判別器413のパラメータを一回調整する。
【数5】
【0074】
ここで、
【数6】
はスタイル分類ロスの第1のスタイルロス値であり、Yはターゲットドメインサンプル文字のスタイル分類ヘッド位置であり、Y
*はターゲットドメイン生成文字のスタイル分類ヘッド位置である。
【0075】
サブステップE:ターゲットドメイン生成文字を調整後のスタイル判別器に入力し、スタイル分類ロスの第2のスタイルロス値を得、第2のスタイルロス値に基づいてフォント生成ネットワークのパラメータを調整することである。
【0076】
具体的には、
図4Aに示すように、本サブステップでは、ターゲットドメイン生成文字を調整後のスタイル判別器413に入力し、ターゲットドメイン生成文字のスタイル分類ヘッド位置を更新し、更新後のスタイル分類ヘッド位置に応じて、スタイル分類ロスの第2のスタイルロス値を決定する。
【0077】
本実施例では、サブステップDでスタイル判別器413のパラメータを一回更新した後、更新後のスタイル判別器413は、ターゲットドメイン生成文字のスタイル分類ヘッド位置を決定する操作を再実行し、すなわち、スタイル分類ヘッド位置Y
*を更新する。以下の式(4)に基づいて、スタイル分類ロスの第2のスタイルロス値を計算する。第2のスタイルロス値が決定されると、当該第2のスタイルロス値に基づいて、フォント生成ネットワーク40のパラメータを一回調整する。ここで、当該フォント生成ネットワーク40は、エンコーダ401、注意機構ネットワーク402、およびデコーダ403を含み、当該エンコーダ401は、内容エンコーダ4011とスタイルエンコーダ4012とを含む。
【数7】
【0078】
ここで、
【数8】
はスタイル分類ロスの第2のスタイルロス値であり、Y
*はターゲットドメイン生成文字のスタイル分類ヘッド位置である。なお、この時のY
*は、調整後のスタイル判別器413によって更新されたスタイル分類ヘッド位置である。
【0079】
サブステップF:ターゲットドメインサンプル文字、および調整後のフォント生成ネットワークに基づいて更新されたターゲットドメイン生成文字を、調整後のスタイル判別器に入力し、第1のスタイルロス値を更新し、更新後の第1のスタイルロス値に基づいて、スタイル判別器のパラメータを再調整することである。
【0080】
具体的には、
図4Aに示すように、本ステップでは、サブステップEで調整後のフォント生成ネットワーク40に、ソースドメインサンプル文字と、ターゲットドメイン関連文字とを再入力し、ターゲットドメイン生成文字を更新し、そして、サブステップDで調整後のスタイル判別器413に、更新されたターゲットドメイン生成文字と、ターゲットドメインサンプル文字とを再入力し、ターゲットドメイン生成文字のスタイル分類ヘッド位置Y
*と、ターゲットドメインサンプル文字のスタイル分類ヘッド位置Yとを更新し、式(3)に基づいて、第1のスタイルロス値を更新し、さらに更新後の第1のスタイルロス値に基づいて、スタイル判別器413のパラメータを再調整する。
【0081】
本実施例は、フォント生成モデルのトレーニング過程において、スタイル分類ロスを導入し、スタイル判別器413とフォント生成ネットワーク40に対して、交互に反復トレーニングをするため、フォント生成ネットワーク40とスタイル判別器413のパラメータの正確性を極めて向上させる。
【0082】
(四)誤字ロスを決定する過程では、ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをキャラクタ分類器に入力し、ターゲットドメインサンプル文字のキャラクタ分類ヘッドベクトルと、ターゲットドメイン生成文字のキャラクタ分類ヘッドベクトルを得ることと、ターゲットドメインサンプル文字のキャラクタ分類ヘッドベクトルと、ターゲットドメイン生成文字のキャラクタ分類ヘッドベクトルとの差に応じて、誤字ロスを決定することを含むことができる。
【0083】
具体的には、
図4Aに示すように、ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをキャラクタ分類器414に入力し、キャラクタ分類器414は、ターゲットドメインサンプル文字に、対応するキャラクタ分類ヘッドベクトル
【数9】
を決定し、ターゲットドメイン生成文字に、対応するキャラクタ分類ヘッドベクトル
【数10】
を決定する。ここで、ベクトル
【数11】
と
【数12】
の各要素は、トレーニングサンプルにおいて1つのキャラクタを示すことができ、mは、トレーニングサンプルにおいてキャラクタの数を示すことができ、例えば、トレーニングサンプルは6761個の文字を有する場合、mは6760であってもよい。そして、分類ヘッドベクトル
【数13】
とキャラクタ分類ヘッドベクトル
【数14】
との差に応じて、誤字ロスを計算する。例えば、分類ヘッドベクトル
【数15】
とキャラクタ分類ヘッドベクトル
【数16】
との間の交差エントロピーに基づいて、次の式(5)によって誤字ロスを計算する。誤字ロスを決定した後、当該誤字ロスに基づいてフォント生成ネットワーク40のパラメータを一回調整する。
【数17】
【0084】
ここで、
【数18】
は誤字ロスを表し、x
iは、ターゲットドメインサンプル文字のキャラクタ分類ヘッドベクトルにおいて、添字がiの要素を表し、y
iは、ターゲットドメイン生成文字のキャラクタ分類ヘッドベクトルにおいて、添字がiの要素を表し、iは0以上m以下の整数であり、mはキャラクタ分類ヘッドベクトルにおける要素の個数を表す。本実施例は、フォント生成モデルのトレーニング過程において、誤字ロスを導入することにより、フォント生成ネットワーク40によって出力されたターゲットドメイン生成文字の誤字率が拘束されて、フォント生成モデルが誤字を生成する確率を低減する。
【0085】
なお、本実施例では、上記4種類のロスのうちの少なくとも1種類を生成し、フォント生成モデルのパラメータを調整することによって、フォント生成モデルのトレーニングを完了することができる。
【0086】
なお、区別の便宜上、本実施例では、当該パラメータがモデル生成画像に関連する場合に、*付きのパラメータで表され、当該パラメータがリアルな画像に関連する場合に、*なしのパラメータで表される。
【0087】
本出願の実施例のスキームは、フォント生成モデルをトレーニングする過程において、多種類のタイプのロスを導入し、多種類のタイプのロスによってモデルトレーニングを共制約し、モデルトレーニングの正確性を極めて向上させる。
【0088】
図5は本開示の実施例に係る字庫作成方法のフローチャートである。本開示の実施例は、上記実施例によってトレーニングされたフォント生成モデルに基づいて字庫を作成する場合に適用される。当該方法は、字庫作成デバイスによって実行されることができ、当該デバイスは、ソフトウェアおよび/またはハードウェアによって実現されることができる。
図5に示すように、本実施例に係る字庫作成方法は、以下のステップを含む。
【0089】
S501:ソースドメイン入力文字をフォント生成モデルに入力し、ターゲットドメイン新文字を得ることである。
【0090】
ここで、フォント生成モデルは、上記実施例によってトレーニングされたフォント生成モデルであってもよい。
【0091】
例えば、ソースドメイン入力文字が明朝体の文字画像であり、新文字が手書き文字画像である場合、明朝体の文字画像をフォント生成モデルに入力することによって、手書き文字画像を得ることができる。
【0092】
S502:ターゲットドメイン新文字に基づいて字庫を作成することである。
【0093】
本実施例では、フォント生成モデルによって生成された新文字を記憶し、手書きフォントスタイルを有する字庫を作成することができ、当該字庫は入力法に応用されることができ、ユーザは、当該字庫に基づく入力法を用いることによって、手書きフォントスタイルを有する文字を直接取得することができ、ユーザの多様なニーズを満たすことができ、ユーザエクスペリエンスを向上させることができる。
【0094】
図6は本開示の実施例に係るフォント生成モデルのトレーニングデバイスの構造模式図である。本開示の実施例は、フォントスタイル変換タスクを実行するフォント生成モデルをトレーニングする場合に適用され、特に、少ないサンプルデータに基づいてフォントスタイル変換タスクを実行するフォント生成モデルをトレーニングする場合に適用される。当該デバイスは、ソフトウェアおよび/またはハードウェアによって実現されることができ、当該デバイスによって、本開示の実施例のフォント生成モデルのトレーニング方法が実現されることができる。
図6に示すように、当該フォント生成モデルのトレーニングデバイスは、
ソースドメインサンプル文字と、ソースドメインサンプル文字のターゲットドメイン関連文字とをフォント生成モデルのエンコーダに入力し、サンプル文字の内容特徴と関連文字のスタイル特徴を得るための第1の特徴決定モジュール601と、
サンプル文字の内容特徴と、関連文字のスタイル特徴とをフォント生成モデルの注意機構ネットワークに入力し、ターゲットドメインのスタイル特徴を得るための第2の特徴決定モジュール602と、
サンプル文字の内容特徴と、ターゲットドメインのスタイル特徴とをフォント生成モデルのデコーダに入力し、ターゲットドメイン生成文字を得るための生成文字決定モジュール603と、
ターゲットドメインサンプル文字およびターゲットドメイン関連文字の少なくとも1つと、ターゲットドメイン生成文字とをフォント生成モデルのロス解析ネットワークに入力し、モデルロスを得、モデルロスに応じてフォント生成モデルのパラメータを調整するためのモデルトレーニングモジュール604と、を含む。
【0095】
本出願の実施例のスキームでは、フォント生成モデルをトレーニングする過程において、エンコーダに基づいて決定されたターゲットドメインの関連文字特徴、およびサンプル文字の内容特徴は、注意機構ネットワークに入力して、ターゲットドメインのスタイル特徴を決定し、さらに、ターゲットドメインのスタイル特徴、およびサンプル文字の内容特徴に基づいて、ターゲットドメイン生成文字を得ることが必要である。ターゲットドメインサンプル文字およびターゲットドメイン関連文字の少なくとも1つと、ターゲットドメイン生成文字とに基づいてモデルロスを計算し、モデルのパラメータを調整する。本スキームでは、ソースドメインと、ターゲットドメインとのフォントスタイル変換タスクを実行するために、フォント生成モデルをトレーニングする過程において、注意機構ネットワークを導入することにより、ターゲットドメインの全体的なスタイル特徴、すなわち、ターゲットドメインのスタイル特徴を決定し、ターゲットドメインのスタイル特徴の正確性を向上させる。さらに、フォント生成モデルがフォントスタイル変換を実行する能力を向上させ、ターゲットドメインのサンプルデータが少ない場合、またはソースドメインフォントがフォント分布のスタイルに合致しない場合でも、美しく正確なフォントを生成することができ、モデルの正確性を向上させることができる。少ないサンプルでフォント生成モデルをトレーニングするための新しいアイデアを提供する。
【0096】
さらに、上記注意機構ネットワークは、内容特徴感知層、スタイル特徴感知層、アクティブ化層、および全結合層を含む。
【0097】
上記第2の特徴決定モジュール602は、
サンプル文字の内容特徴を内容特徴感知層に入力し、内容感知値を得、
関連文字のスタイル特徴をスタイル特徴感知層に入力し、スタイル感知値を得、
内容感知値とスタイル感知値とをアクティブ化層に入力し、ターゲットドメインの特徴重みを得、
特徴重みと関連文字のスタイル特徴とを全結合層に入力し、ターゲットドメインのスタイル特徴を得るために用いられる。
【0098】
さらに、上記ロス解析ネットワークは、モジュール分類器、キャラクタ判別器、スタイル判別器、およびキャラクタ分類器の少なくとも1つを含み、上記モデルロスは、モジュール分類ロス、キャラクタ分類ロス、スタイル分類ロス、および誤字ロスの少なくとも1つを含む。
【0099】
さらに、上記モデルトレーニングモジュール604は、
ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをキャラクタ判別器に入力し、キャラクタ分類ロスの第1のキャラクタロス値を得るための第1のキャラクタロス計算ユニットと、
第1のキャラクタロス値に基づいて、キャラクタ判別器のパラメータを調整するためのキャラクタ判別器調整ユニットと、
ターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、キャラクタ分類ロスの第2のキャラクタロス値を得るための第2のキャラクタロス計算ユニットと、
第2のキャラクタロス値に基づいて、フォント生成ネットワークのパラメータを調整するためのフォント生成ネットワーク調整ユニットと、を含み、
ここで、フォント生成ネットワークは、エンコーダ、注意機構ネットワーク、およびデコーダを含む。
【0100】
さらに、上記第1のキャラクタロス計算ユニットは、ターゲットドメインサンプル文字、および調整後のフォント生成ネットワークに基づいて更新されたターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、第1のキャラクタロス値を更新するために用いられる。
【0101】
さらに、上記キャラクタ判別器調整ユニットは、更新された第1のキャラクタロス値に基づいて、キャラクタ判別器のパラメータを再調整するために用いられる。
【0102】
さらに、上記第1のキャラクタロス計算ユニットは、
ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをキャラクタ判別器に入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置を得、
ターゲットドメイン生成文字のキャラクタ分類ヘッド位置と、ターゲットドメインサンプル文字のキャラクタ分類ヘッド位置に応じて、キャラクタ分類ロスの第1のキャラクタロス値を決定するために用いられる。
【0103】
さらに、上記第2のキャラクタロス計算ユニットは、
ターゲットドメイン生成文字を調整後のキャラクタ判別器に入力し、ターゲットドメイン生成文字のキャラクタ分類ヘッド位置を更新し、
更新後のキャラクタ分類ヘッド位置に応じて、キャラクタ分類ロスの第2のキャラクタロス値を決定するために用いられる。
【0104】
さらに、上記モデルトレーニングモジュール604は、
ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをスタイル判別器に入力し、スタイル分類ロスの第1のスタイルロス値を得るための第1のスタイルロス計算ユニットと、
第1のスタイルロス値に基づいて、スタイル判別器のパラメータを調整するためのスタイル判別器調整ユニットと、
ターゲットドメイン生成文字を調整後のスタイル判別器に入力し、スタイル分類ロスの第2のスタイルロス値を得るための第2のスタイルロス計算ユニットと、
第2のスタイルロス値に基づいて、フォント生成ネットワークのパラメータを調整するためのフォント生成ネットワーク調整ユニットと、を含み、
ここで、フォント生成ネットワークは、エンコーダ、注意機構ネットワーク、およびデコーダを含む。
【0105】
上記第1のスタイルロス計算ユニットは、さらに、ターゲットドメインサンプル文字、および調整後のフォント生成ネットワークに基づいて更新されたターゲットドメイン生成文字を、調整後のスタイル判別器に入力し、第1のスタイルロス値を更新するために用いられる。
上記スタイル判別器調整ユニットは、さらに、更新後の第1のスタイルロス値に基づいて、スタイル判別器のパラメータを再調整するために用いられる。
【0106】
さらに、上記第1のスタイルロス計算ユニットは、
ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをスタイル判別器に入力し、ターゲットドメイン生成文字のスタイル分類ヘッド位置と、ターゲットドメインサンプル文字のスタイル分類ヘッド位置を得、
ターゲットドメイン生成文字のスタイル分類ヘッド位置と、ターゲットドメインサンプル文字のスタイル分類ヘッド位置に応じて、スタイル分類ロスの第1のスタイルロス値を決定するために用いられる。
【0107】
さらに、上記第2のスタイルロス計算ユニットは、
ターゲットドメイン生成文字を調整後のスタイル判別器に入力し、ターゲットドメイン生成文字のスタイル分類ヘッド位置を更新し、
更新後のスタイル分類ヘッド位置に応じて、スタイル分類ロスの第2のスタイルロス値を決定するために用いられる。
【0108】
さらに、上記モデルトレーニングモジュール604は、ターゲットドメイン関連文字と、ターゲットドメイン生成文字とをモジュール分類器に入力し、ターゲットドメイン生成文字のモジュールベクトルと、ターゲットドメイン関連文字のモジュールベクトルを得、ターゲットドメイン生成文字のモジュールベクトルと、ターゲットドメイン関連文字のモジュールベクトルとの差に応じて、モジュール分類ロスを決定するためのモジュール分類ロス計算ユニットをさらに含む。
【0109】
さらに、上記モデルトレーニングモジュール604は、ターゲットドメインサンプル文字と、ターゲットドメイン生成文字とをキャラクタ分類器に入力し、ターゲットドメインサンプル文字のキャラクタ分類ヘッドベクトルと、ターゲットドメイン生成文字のキャラクタ分類ヘッドベクトルを得、ターゲットドメインサンプル文字のキャラクタ分類ヘッドベクトルと、ターゲットドメイン生成文字のキャラクタ分類ヘッドベクトルとの差に応じて、誤字ロスを決定するための誤字ロス計算ユニットをさらに含む。
【0110】
図7は本開示の実施例に係る字庫作成デバイスの構造模式図である。本開示の実施例は、上記実施例によってトレーニングされたフォント生成モデルに基づいて、字庫を作成する場合に適用する。当該デバイスは、ソフトウェアおよび/またはハードウェアによって実現されることができ、当該デバイスによって、本開示の実施例の字庫作成方法が実現されることができる。
図7に示すように、当該字庫作成デバイスは、
ソースドメイン入力文字をフォント生成モデルに入力し、ターゲットドメイン新文字を得るための新文字生成モジュール701、および、
ターゲットドメイン新文字に基づいて字庫を作成する字庫作成モジュール702を含み、
ここで、フォント生成モデルは、本開示のいずれかの実施例のフォント生成モデルのトレーニング方法によってトレーニングされたものである。
【0111】
本実施例では、フォント生成モデルによって生成された新文字を記憶し、手書きフォントスタイルを有する字庫を作成することができ、当該字庫は入力法に応用されることができ、ユーザは、当該字庫に基づく入力法を用いることによって、手書きフォントスタイルを有する文字を直接取得することができ、ユーザの多様なニーズを満たすことができ、ユーザエクスペリエンスを向上させることができる。
【0112】
上記製品は、本開示の任意の実施例に係る方法を実行することによって、実行される方法に対応する機能モジュールと有益な効果を備える。
【0113】
なお、本開示の技術案に係るフォント画像の収集、記憶、使用、加工、伝送、提供、および開示等の処理は、いずれも関連法律法規の規定に合致し、公序良俗に反しない。
【0114】
図8は、本開示の実施形態を実現するための例示的な電子デバイス800のブロック図である。電子デバイスは、様々な形式のデジタルコンピュータを表し、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータが挙げられる。電子デバイスは、様々な形式のモバイルデバイスをさらに表し、例えば、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブルデバイス、および他の類似するコンピューティングデバイスが挙げられる。本明細書に示す部品は、これらの接続や関係、および機能が例示的なものに過ぎず、本明細書に記載および/または要求される開示の実施を制限することを意図するものではない。
【0115】
図8に示すように、デバイス800は、読み取り専用メモリ(ROM)802に記憶されたコンピュータプログラム、または記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムに基づいて、様々な適切な操作と処理を実行できる計算ユニット801を含む。RAM803には、デバイス800の操作に必要な様々なプログラムおよびデータがさらに記憶されることができる。計算ユニット801と、ROM802と、RAM803とは、バス804を介して互いに接続されている。入力/出力(I/O)インタフェース805もバス804に接続されている。
【0116】
デバイス800における複数の部品は、I/Oインタフェース805に接続されており、キーボードやマウス等の入力ユニット806と、様々なタイプのディスプレイやスピーカ等の出力ユニット807と、磁気ディスクや光学ディスク等の記憶ユニット808と、ネットワークカード、モデム、無線通信トランシーバー等の通信ユニット809と、を備える。通信ユニット809は、デバイス800がインターネットのようなコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の設備と情報/データを交換することを可能にする。
【0117】
計算ユニット801は、処理および計算能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット801のいくつかの例として、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および適切なプロセッサ、コントローラ、マイクロコントローラ等を備えるが、これらに限定されない。計算ユニット801は、上記各方法および処理、例えばフォント生成モデルのトレーニング方法および/または字庫作成方法を実行する。例えば、いくつかの実施例では、フォント生成モデルのトレーニング方法および/または字庫作成方法を、記憶ユニット808のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。一部の実施形態では、コンピュータプログラムの一部または全ては、ROM802および/または通信ユニット809を介して、デバイス800にロードおよび/またはインストールすることができる。コンピュータプログラムがRAM803にロードされて、計算ユニット801によって実行される場合に、上記フォント生成モデルのトレーニング方法および/または字庫作成方法の1つまたは複数のステップを実行することができる。他の実施形態では、計算ユニット801は、他の適切な方式(例えば、ファームウェアを介して)によって、フォント生成モデルのトレーニング方法および/または字庫作成方法を実行するように構成される。
【0118】
上記システムおよび技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータのハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組み合わせによって実現することができる。これらの様々な実施形態は、以下を含んでもよい。1つまたは複数のコンピュータプログラムに実施され、該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈することができ、該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を、該ストレージシステム、該少なくとも1つの入力装置、および該少なくとも1つの出力装置に伝送することができる専用または汎用のプログラマブルプロセッサであってもよい。
【0119】
本開示の方法を実行するためのプログラムコードは、1つまたは複数のプログラミング言語のいかなる組み合わせでプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理デバイスのプロセッサまたはコントローラに提供されることにより、プログラムコードがプロセッサまたはコントローラによって実行される場合に、フローチャートおよび/またはブロック図で規定された機能/操作を実行することができる。プログラムコードは、完全に機械で実行されてもよいし、部分的に機械で実行されてもよいし、独立したソフトパッケージとして部分的に機械で実行されるとともに部分的にリモート機械で実行されてもよいし、完全にリモート機械またはサーバで実行されてもよい。
【0120】
本開示の機械において、機械可読媒体は、指令実行システム、デバイスまたは機械に使用される、または指令実行システム、デバイスまたは機械と合わせて使用されるプログラムを含有または記憶する有形な媒体であってもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、デバイス、または設備、または上記内容の任意の適切な組み合わせを含むが、これらに限定されない。機械可読記憶媒体のさらなる具体例として、1つまたは複数の配線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記内容の任意の適当な組み合わせを含む。
【0121】
ユーザとのインタラクションを提供するために、コンピュータでここに記載されているシステムおよび技術を実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニター等)、ユーザが入力をコンピュータに提供するためのキーボードおよび指向性デバイス(例えば、マウスまたはトラックボール等)を備える。ユーザとのインタラクションを提供するために、他の種類のデバイスを使用することもでき、例えば、ユーザに提供するフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック等)であってもよく、また、いかなる形式(例えば、音入力、音声入力、触覚入力等)によってユーザからの入力を受信することができる。
【0122】
ここに記載されているシステムと技術を、バックグラウンド部品を含む計算システム(例えば、データサーバとして)、またはミドルウェア部品を含む計算システム(例えば、アプリケーションサーバ)、またはフロント部品を含む計算システム(例えば、GUIまたはネットワークブラウザを有するユーザコンピュータが挙げられ、ユーザがGUIまたは当該ネットワークブラウザによって、ここに記載されているシステムと技術の実施形態と通信することができる)、またはこのようなバックグラウンド部品、ミドルウェア部品、またはフロント部品の任意の組み合わせを含む計算システムで実施することができる。いかなる形式またはメディアのデジタルデータ通信(例えば、通信ネットワーク)を介して、システムの部品を互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ブロックチェーンネットワーク、およびインターネットを含む。
【0123】
コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、一般的に、互いに離れており、通常、通信ネットワークを介して通信する。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムにより、クライアントとサーバとの関係が生成される。サーバは、クラウドコンピューティングサーバまたはクラウドホストとも称され、クラウドコンピューティングサービスシステムにおけるホスト製品の1つであるクラウドサーバであってもよく、従来の物理ホストおよびVPS(Virtual Private Server:仮想専用サーバ)サービスにおける、管理の困難さが大きく、サービスの拡張性が弱いという欠点を解決する。サーバは、分散システムのサーバ、または、ブロックチェーンと組み合わせたサーバであってもよい。
【0124】
人工知能は、コンピュータを用いて人間のある思考過程やインテリジェントな行動(例えば、学習、推論、思考、企画等)をシミュレートすることを研究した学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術がある。人工知能ハードウェア技術は、一般的に、センサ、専用人工知能チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理等の技術を含み、人工知能ソフトウェア技術は、コンピュータビジョン技術、音声認識技術、自然言語処理技術、機械学習および、深層学習、ビッグデータ処理技術、知識グラフ技術等いくつかの主な方向を含む。
【0125】
クラウドコンピューティング(cloud computing)とは、ネットワークを介して弾力的にスケーラブルな共有物理または仮想リソースプールへアクセスし、リソースはサーバ、オペレーティングシステム、ネットワーク、ソフトウェア、アプリケーション、および記憶装置を含むことができ、オンデマンド、セルフサービス方法でリソースを配備と管理する技術システムである。クラウドコンピューティング技術によって、人工知能、ブロックチェーン等の技術応用とモデルトレーニングに高効率で強力なデータ処理能力を提供することができる。
【0126】
上記に示す様々な形式のフローを用いて、ステップを並べ替えたり、追加または削除できることを理解すべきである。例えば、本発明に記載された各ステップは、並列的に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよく、本発明に開示された技術案の所望の結果が達成される限り、本明細書では制限しない。
【0127】
上記具体的な実施形態は、本発明の保護範囲に対する制限を構成するものではない。当業者は、設計要件とその他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせおよび代替を行うことが可能であることを理解すべきである。本発明の精神および原則内でなされたあらゆる修正、均等置換および改良等は、いずれも本発明の保護範囲に含まれるべきである。