IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2023-39890文字生成モデルのトレーニング方法、文字生成方法、装置および機器
<>
  • 特開-文字生成モデルのトレーニング方法、文字生成方法、装置および機器 図1
  • 特開-文字生成モデルのトレーニング方法、文字生成方法、装置および機器 図2
  • 特開-文字生成モデルのトレーニング方法、文字生成方法、装置および機器 図3
  • 特開-文字生成モデルのトレーニング方法、文字生成方法、装置および機器 図4
  • 特開-文字生成モデルのトレーニング方法、文字生成方法、装置および機器 図5
  • 特開-文字生成モデルのトレーニング方法、文字生成方法、装置および機器 図6
  • 特開-文字生成モデルのトレーニング方法、文字生成方法、装置および機器 図7
  • 特開-文字生成モデルのトレーニング方法、文字生成方法、装置および機器 図8
  • 特開-文字生成モデルのトレーニング方法、文字生成方法、装置および機器 図9
  • 特開-文字生成モデルのトレーニング方法、文字生成方法、装置および機器 図10
  • 特開-文字生成モデルのトレーニング方法、文字生成方法、装置および機器 図11
  • 特開-文字生成モデルのトレーニング方法、文字生成方法、装置および機器 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023039890
(43)【公開日】2023-03-22
(54)【発明の名称】文字生成モデルのトレーニング方法、文字生成方法、装置および機器
(51)【国際特許分類】
   G06F 40/109 20200101AFI20230314BHJP
   G06N 20/00 20190101ALI20230314BHJP
   G09G 5/22 20060101ALI20230314BHJP
   G09G 5/24 20060101ALI20230314BHJP
【FI】
G06F40/109
G06N20/00 130
G09G5/22 630Z
G09G5/24 610Z
【審査請求】有
【請求項の数】21
【出願形態】OL
(21)【出願番号】P 2022007211
(22)【出願日】2022-01-20
(31)【優先権主張番号】202111057826.8
(32)【優先日】2021-09-09
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】唐 礼承
(72)【発明者】
【氏名】▲劉▼ 家▲銘▼
【テーマコード(参考)】
5B109
5C182
【Fターム(参考)】
5B109LA01
5B109RA01
5B109RA04
5B109RA05
5C182AA02
5C182AA03
5C182AB08
5C182AB25
5C182AC02
5C182BA03
5C182FA01
5C182FA03
5C182FA08
5C182FA14
5C182FA22
5C182FA31
5C182FA47
(57)【要約】      (修正有)
【課題】文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体を提供する。
【解決手段】文字生成モデルのトレーニング方法は、第1トレーニングサンプルを取得し、第1トレーニングサンプルに基づいてターゲットモデルをトレーニングし、第1文字敵対的ロスを取得しS101、第2トレーニングサンプルを取得し、第2トレーニングサンプルに基づいてターゲットモデルをトレーニングし、第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得しS102、第1文字敵対的ロス、第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて、文字生成モデルのパラメータを調整するS103。
【選択図】図1
【特許請求の範囲】
【請求項1】
第1ソースドメインサンプル字、第1ターゲットドメインサンプル字、およびスタイルタイプが前記第1ターゲットドメインサンプル字のスタイルタイプと同じであるスタイルノイズ字を含む第1トレーニングサンプルを取得し、前記第1トレーニングサンプルに基づき、文字生成モデル、コンポーネント分類モデル、および識別モデルを含むターゲットモデルをトレーニングし、第1文字敵対的ロスを取得することと、
第2ソースドメインサンプル字、第2ターゲットドメインサンプル字、およびスタイルタイプが前記第2ターゲットドメインサンプル字のスタイルタイプと同じであるスタイル標準字を含む第2トレーニングサンプルを取得し、前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得することと、
前記第1文字敵対的ロス、前記第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整することとを含む、
文字生成モデルのトレーニング方法。
【請求項2】
第1トレーニングサンプルを取得することは、
第1ソースドメインサンプル字および第1ターゲットドメインサンプル字を取得することと、
標準字集合を取得し、前記標準字集合に基づいてノイズ字集合を生成することと、
前記第1ソースドメインサンプル字に含まれるコンポーネントに基づき、前記ノイズ字集合からスタイルノイズ字を選択することと、
前記スタイルノイズ字、第1ソースドメインサンプル字、および第1ターゲットドメインサンプル字に基づき、第1トレーニングサンプルを生成することと、を含む、
請求項1に記載の方法。
【請求項3】
前記標準字集合に基づいてノイズ字集合を生成することは、
前記標準字集合において、スタイルタイプが異なってコンテンツが同じである候補標準字を取得することと、
取得した候補標準字に基づき、前記候補標準字の有効画素分布情報を確定することと、
前記有効画素分布情報に基づき、前記候補標準字の候補ノイズ字を生成して前記ノイズ字集合に追加することとを含む、
請求項2に記載の方法。
【請求項4】
取得した候補標準字に基づき、前記候補標準字の有効画素分布情報を確定することは、
取得した候補標準字の字数を統計することと、
前記取得した候補標準字における有効画素が画素位置に登場した有効回数を計算することと、
前記有効回数および前記字数に基づき、前記画素位置の有効画素登場確率を計算することと、
前記取得した候補標準字における異なる画素位置の有効画素登場確率を、前記候補標準字の有効画素分布情報として確定することとを含む、
請求項3に記載の方法。
【請求項5】
前記第1トレーニングサンプルは、複数グループの第1トレーニングサンプルを含み、
前記第2トレーニングサンプルは、複数グループの第2トレーニングサンプルを含み、
前記第1トレーニングサンプルに基づいてターゲットモデルをトレーニングすることは、
前記複数グループの第1トレーニングサンプルに基づき、前記ターゲットモデルに対して第1ラウンドのトレーニングを行うことを含み、
前記第2トレーニングサンプルに基づいてターゲットモデルをトレーニングすることは、
前記複数グループの第2トレーニングサンプルに基づき、前記ターゲットモデルに対して第2ラウンドのトレーニングを行うことを含み、
前記第1ラウンドのトレーニング回数は第2ラウンドのトレーニング回数よりも小さい、
請求項1に記載の方法。
【請求項6】
前記第1トレーニングサンプルに基づいてターゲットモデルをトレーニングし、第1文字敵対的ロスを取得することは、
前記第1ソースドメインサンプル字および前記スタイルノイズ字を前記文字生成モデルに入力し、第1ターゲットドメイン生成字を取得することと、
前記第1ターゲットドメイン生成字および前記第1ターゲットドメインサンプル字を前記識別モデルに入力し、第1文字敵対的ロスを取得することとを含む、
請求項1に記載の方法。
【請求項7】
前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得することは、
前記第2ソースドメインサンプル字および前記スタイル標準字を前記文字生成モデルに入力し、第2ターゲットドメイン生成字および前記スタイル標準字の標準スタイル特徴ベクトルを取得することと、
前記第2ターゲットドメイン生成字を前記文字生成モデルに入力し、前記第2ターゲットドメイン生成字の生成スタイル特徴ベクトルを取得することと、
前記生成スタイル特徴ベクトルおよび前記標準スタイル特徴ベクトルを前記コンポーネント分類モデルに入力し、コンポーネント分類ロスを計算することと、
前記第2ターゲットドメインサンプル字および前記第2ターゲットドメイン生成字を前記識別モデルに入力し、第2文字敵対的ロスおよびスタイル敵対的ロスを計算することとを含む、
請求項1に記載の方法。
【請求項8】
前記ターゲットモデルは、予めトレーニングされた文字分類モデルを更に含み、
前記第1トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第1誤字ロスを取得することと、
前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2誤字ロスを取得することと、
前記第1誤字ロスおよび前記第2誤字ロスに基づいて前記文字生成モデルのパラメータを調整することとを更に含む、
請求項1に記載の方法。
【請求項9】
ソースドメイン入力字および対応するターゲットドメイン入力字を取得することと、
前記ソースドメイン入力字およびターゲット入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得することとを含み、
前記文字生成モデルは、請求項1から8のいずれか1項に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる、
文字生成方法。
【請求項10】
第1ソースドメインサンプル字、第1ターゲットドメインサンプル字、およびスタイルタイプが前記第1ターゲットドメインサンプル字のスタイルタイプと同じであるスタイルノイズ字を含む第1トレーニングサンプルを取得し、前記第1トレーニングサンプルに基づき、文字生成モデル、コンポーネント分類モデル、および識別モデルを含むターゲットモデルをトレーニングし、第1文字敵対的ロスを取得するための第1トレーニングサンプルトレーニングモジュールと、
第2ソースドメインサンプル字、第2ターゲットドメインサンプル字、およびスタイルタイプが前記第2ターゲットドメインサンプル字のスタイルタイプと同じであるスタイル標準字を含む第2トレーニングサンプルを取得し、前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得するための第2トレーニングサンプルトレーニングモジュールと、
前記第1文字敵対的ロス、前記第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整するための第1ロス調整モジュールとを備え、
文字生成モデルのトレーニング装置。
【請求項11】
前記第1トレーニングサンプルトレーニングモジュールは、
第1ソースドメインサンプル字および第1ターゲットドメインサンプル字を取得するための第1サンプル字取得ユニットと、
標準字集合を取得し、ノイズ字集合を生成するためのノイズ字集合生成ユニットと、
前記第1ソースドメインサンプル字に含まれるコンポーネントに基づき、前記ノイズ字集合からスタイルノイズ字を選択するためのスタイルノイズ字取得ユニットと、
前記スタイルノイズ字、第1ソースドメインサンプル字、および第1ターゲットドメインサンプル字に基づき、第1トレーニングサンプルを生成するためのスタイルノイズ字取得ユニットとを備える、
請求項10に記載の装置。
【請求項12】
前記ノイズ字集合生成ユニットは、
前記標準字集合において、スタイルタイプが異なってコンテンツが同じである候補標準字を取得するための候補標準字取得サブユニットと、
取得した候補標準字に基づき、前記候補標準字の有効画素分布情報を確定するための有効画素分布確定サブユニットと、
前記有効画素分布情報に基づき、前記候補標準字の候補ノイズ字を生成して前記ノイズ字集合に追加するためのノイズ字集合生成サブユニットとを備える、
請求項11に記載の装置。
【請求項13】
前記有効画素分布確定サブユニットは、
取得した候補標準字の字数を統計することと、
前記取得した候補標準字における有効画素が画素位置に登場した有効回数を計算することと、
前記有効回数および前記字数に基づき、前記画素位置の有効画素登場確率を計算することと、
前記取得した候補標準字における異なる画素位置の有効画素登場確率を、前記候補標準字の有効画素分布情報として確定することとに用いられる、
請求項12に記載の装置。
【請求項14】
前記第1トレーニングサンプルは、複数グループの第1トレーニングサンプルを含み、
前記第2トレーニングサンプルは、複数グループの第2トレーニングサンプルを含み、
前記第1トレーニングサンプルトレーニングモジュールは、
前記複数グループの第1トレーニングサンプルに基づき、前記ターゲットモデルに対して第1ラウンドのトレーニングを行うための第1ラウンドトレーニングユニットを備え、
前記第2トレーニングサンプルトレーニングモジュールは、
前記複数グループの第2トレーニングサンプルに基づき、前記ターゲットモデルに対して第2ラウンドのトレーニングを行うための第2ラウンドトレーニングユニットを備え、
前記第1ラウンドのトレーニング回数は第2ラウンドのトレーニング回数よりも小さい。
請求項10に記載の装置。
【請求項15】
前記第1トレーニングサンプルトレーニングモジュールは、
前記第1ソースドメインサンプル字および前記スタイルノイズ字を前記文字生成モデルに入力し、第1ターゲットドメイン生成字を取得するための第1ターゲットドメイン生成字取得ユニットと、
前記第1ターゲットドメイン生成字および前記第1ターゲットドメインサンプル字を前記識別モデルに入力し、第1文字敵対的ロスを取得するための第1文字敵対的ロス取得ユニットとを備える、
請求項10に記載の装置。
【請求項16】
前記第2トレーニングサンプルトレーニングモジュールは、
前記第2ソースドメインサンプル字および前記スタイル標準字を前記文字生成モデルに入力し、第2ターゲットドメイン生成字および前記スタイル標準字の標準スタイル特徴ベクトルを取得するための標準スタイル特徴ベクトル取得ユニットと、
前記第2ターゲットドメイン生成字を前記文字生成モデルに入力し、前記第2ターゲットドメイン生成字の生成スタイル特徴ベクトルを取得するための生成スタイル特徴ベクトル取得ユニットと、
前記生成スタイル特徴ベクトルおよび前記標準スタイル特徴ベクトルを前記コンポーネント分類モデルに入力し、コンポーネント分類ロスを計算するためのコンポーネント分類ロス計算ユニットと、
前記第2ターゲットドメインサンプル字および前記第2ターゲットドメイン生成字を前記識別モデルに入力し、第2文字敵対的ロスおよびスタイル敵対的ロスを計算するための第2文字敵対的ロス計算ユニットとを備える、
請求項10に記載の装置。
【請求項17】
前記ターゲットモデルは、予めトレーニングされた文字分類モデルを更に含み、
前記第1トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第1誤字ロスを取得するための第1誤字ロス計算モジュールと、
前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2誤字ロスを取得するための第2誤字ロス計算モジュールと、
前記第1誤字ロスおよび前記第2誤字ロスに基づいて前記文字生成モデルのパラメータを調整するための第2ロス調整モジュールとを更に備える、
請求項10に記載の装置。
【請求項18】
ソースドメイン入力字および対応するターゲットドメイン入力字を取得するための入力字取得モジュールと、
前記ソースドメイン入力字およびターゲット入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得するための文字生成モジュールとを備え、
前記文字生成モデルは、請求項1から8のいずれか1項に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる、
文字生成装置。
【請求項19】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも1つのプロセッサが請求項1から8のいずれか1項に記載の文字生成モデルのトレーニング方法または請求項9に記載の文字生成方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
電子機器。
【請求項20】
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに、請求項1から8のいずれか1項に記載の文字生成モデルのトレーニング方法または請求項9に記載の文字生成方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体。
【請求項21】
プロセッサにより実行されると、請求項1から8のいずれか1項に記載の文字生成モデルのトレーニング方法を実現する、または請求項9に記載の文字生成方法を実行する、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能の技術分野に関し、具体的には、コンピュータ視覚および深層学習の技術分野に関し、特に文字生成モデルのトレーニング方法、文字生成方法、装置および機器に関する。
【背景技術】
【0002】
画像処理は、巨大な社会的・経済的効果を持つ実用技術であり、様々な業界および人々の日常生活に広く適用されている。
【0003】
画像のスタイル遷移とは、スタイルを1つの画像から別の画像に遷移して新たなアート画像を合成することを意味する。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、文字生成モデルのトレーニング方法、文字生成方法、装置、機器および媒体を提供する。
【課題を解決するための手段】
【0005】
本開示の一態様によれば、
第1ソースドメインサンプル字、第1ターゲットドメインサンプル字、およびスタイルタイプが前記第1ターゲットドメインサンプル字のスタイルタイプと同じであるスタイルノイズ字を含む第1トレーニングサンプルを取得し、前記第1トレーニングサンプルに基づき、文字生成モデル、コンポーネント分類モデル、および識別モデルを含むターゲットモデルをトレーニングし、第1文字敵対的ロスを取得することと、
第2ソースドメインサンプル字、第2ターゲットドメインサンプル字、およびスタイルタイプが前記第2ターゲットドメインサンプル字のスタイルタイプと同じであるスタイル標準字を含む第2トレーニングサンプルを取得し、前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得することと、
前記第1文字敵対的ロス、前記第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整することとを含む、
文字生成モデルのトレーニング方法を提供する。
【0006】
本開示の別の態様によれば、
ソースドメイン入力字および対応するターゲットドメイン入力字を取得することと、
前記ソースドメイン入力字および前記ターゲット入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得することとを含み、
前記文字生成モデルは、本開示のいずれかの実施例に記載の方法によるトレーニングで得られる、
文字生成方法を提供する。
【0007】
本開示の別の態様によれば、
第1ソースドメインサンプル字、第1ターゲットドメインサンプル字、およびスタイルタイプが前記第1ターゲットドメインサンプル字のスタイルタイプと同じであるスタイルノイズ字を含む第1トレーニングサンプルを取得し、前記第1トレーニングサンプルに基づき、文字生成モデル、コンポーネント分類モデル、および識別モデルを含むターゲットモデルをトレーニングし、第1文字敵対的ロスを取得するための第1トレーニングサンプルトレーニングモジュールと、
第2ソースドメインサンプル字、第2ターゲットドメインサンプル字、およびスタイルタイプが前記第2ターゲットドメインサンプル字のスタイルタイプと同じであるスタイル標準字を含む第2トレーニングサンプルを取得し、前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得するための第2トレーニングサンプルトレーニングモジュールと、
前記第1文字敵対的ロス、前記第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整するための第1ロス調整モジュールとを備える、
文字生成モデルのトレーニング装置を提供する。
【0008】
本開示の別の態様によれば、
ソースドメイン入力字および対応するターゲットドメイン入力字を取得するための入力字取得モジュールと、
前記ソースドメイン入力字および前記ターゲット入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得するための文字生成モジュールとを備え、
前記文字生成モデルは、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法によって得られる、
文字生成装置を提供する。
【0009】
本開示の別の態様によれば、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも1つのプロセッサが本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法または本開示のいずれかの実施例に記載の文字生成方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
電子機器を提供する、
【0010】
本開示の別の態様によれば、
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法または本開示のいずれかの実施例に記載の文字生成方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体を提供する。
【0011】
本開示の別の態様によれば、
プロセッサにより実行されると、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法を実現する、または本開示のいずれかの実施例に記載の文字生成方法を実行する、
コンピュータプログラムを提供する。
【発明の効果】
【0012】
本開示の実施例は、文字生成モデルによって生成されるフォントの正確率を向上させることができる。
【0013】
本開示に記載されたものは、本開示の実施例のキーとなるまたは重要な特徴を標識するためのものではなく、本開示の範囲を限定するものでもないことが理解されるべきである。本開示の他の特徴は、以下の明細書により容易に理解することができる。
【図面の簡単な説明】
【0014】
図面は本形態をより良く理解するためのものであり、本開示を限定するものではない。
【0015】
図1】本開示の実施例に係る文字生成モデルのトレーニング方法の模式図である。
図2】本開示の実施例に係る第1トレーニングサンプルのトレーニングシーンの図である。
図3】本開示の実施例に係る第2トレーニングサンプルのトレーニングシーンの図である。
図4】本開示の実施例に係る文字生成モデルのトレーニング方法の模式図である。
図5】本開示の実施例に係る一実施例の有効画素登場確率の計算方法の模式図である。
図6】本開示の実施例に係る文字生成モデルのトレーニング方法の模式図である。
図7】本開示の実施例に係る誤字ロスを用いて文字生成モデルを拘束するトレーニングシーンの図である。
図8】本開示の実施例に係る文字生成モデルが字を生成する効果図である。
図9】本開示の実施例に係る文字生成方法の模式図である。
図10】本開示の実施例に係る文字生成モデルのトレーニング装置の模式図である。
図11】本開示の実施例に係る文字生成装置の模式図である。
図12】本開示の実施例の文字生成モデルのトレーニング方法または文字生成方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0016】
以下、図面を参照しながら本開示の例示的な実施例を詳細に説明する。ここで、理解の便宜上、本開示の実施例の様々な細かいコンテンツまで含まれているが、例示的なものに過ぎないと理解すべきである。従って、当業者であれば理解するであろうが、本開示の範囲および精神から逸脱しない限り、ここで説明する実施例に対して様々な変更や修正を行うことができる。同様に、以下の説明において、公知されている機能および構造の説明は、明確且つ簡潔にするために省略している。
【0017】
図1は、本開示の実施例に係る文字生成モデルのトレーニング方法のフローチャートであり、本実施例は、文字生成モデルのトレーニングに適用できる。ここで、文字生成モデルは、ソースドメインスタイルの文字をターゲットドメインスタイルの文字に変換する場合に使用される。本実施例の方法は、文字生成モデルのトレーニング装置により実行でき、該装置は、ソフトウェアおよび/またはハードウェアの方式で実現でき、具体的に、一定のデータ演算能力を持つ電子機器に構成され、該電子機器は、携帯電話、タブレットコンピュータ、車載端末およびデスクトップコンピュータ等のようなクライアント機器またはサーバ機器であってもよい。
【0018】
S101において、第1トレーニングサンプルを取得し、前記第1トレーニングサンプルに基づいてターゲットモデルをトレーニングし、第1文字敵対的ロスを取得する。前記第1トレーニングサンプルは、第1ソースドメインサンプル字、第1ターゲットドメインサンプル字、およびスタイルノイズ字を含み、前記スタイルノイズ字のスタイルタイプは前記第1ターゲットドメインサンプル字のスタイルタイプと同じであり、前記ターゲットモデルは、文字生成モデル、コンポーネント分類モデル、および識別モデルを含む。
【0019】
ソースドメインサンプル字は、ソースドメインフォントスタイルを有する画像を意味してもよく、ソースドメインフォントスタイルは、文字の通常のフォントを意味してもよく、印刷フォントと呼ばれてもよく、例えば、中国語文字内の楷書体、宋朝体またはゴシック体等のフォント、また、アルファベット文字のタイムズニューローマン(Times New Roman)またはCalibri等のフォントであり、更に、文字は、数字文字を含んでもよい。アルファベット文字は、英語、ドイツ語、ロシア語またはイタリア語等の文字を含んでもよく、ここでは具体的に限定しない。スタイルノイズ字は、ソースドメインサンプル字と同じ部分的な画像コンテンツを有する画像を意味してもよく、且つ、該画像にはノイズ情報が追加されている。ターゲットドメイン生成字は、ターゲットドメインフォントスタイルを有する画像を意味してもよい。ターゲットドメインフォントスタイルは、文字のユーザの手書きフォントスタイルまたは他のアート字フォントスタイルであってもよい。なお、本開示の実施例における字は、実際にいずれも文字を指す。ソースドメインサンプル字とターゲットドメイン生成字とは画像コンテンツが同じであり、スタイルタイプが異なる。スタイルノイズ字はソースドメインサンプル字と同じ部分的な画像コンテンツを有し、スタイルタイプが異なり、スタイルノイズ字はターゲットドメイン生成字と同じ部分的な画像コンテンツを有する。文字は、少なくとも1つのコンポーネントで構成でき、同じ部分的な画像コンテンツを有することは、同じコンポーネントを有することを意味してもよく、スタイルノイズ字、ソースドメインサンプル字およびターゲットドメイン生成字は、少なくとも1つの同じコンポーネントを有する。ここで、コンポーネントは、中国語文字の偏旁・部首であってもよいし、英語文字の語根等であってもよい。例えば、「イ尓」は、コンポーネント「イ」とコンポーネント「尓」とで構成されてもよく、「做」は、コンポーネント「イ」とコンポーネント「故」とで構成されてもよいし、またはコンポーネント「イ」とコンポーネント「古」とコンポーネント「攵」とで構成されてもよく、「衣」は、コンポーネント「衣」で構成されてもよい。(ただし本明細書中で、「イ尓」は人偏に尓の1個の漢字を表すものとする。)
【0020】
ここで、ソースドメインサンプル字に基づき、ソースドメインサンプル字に含まれる少なくとも1つのコンポーネントを確定し、各コンポーネントに基づき、予め取得されたノイズ字で形成された集合において、少なくとも1つのコンポーネントを含む字をクエリし、スタイルノイズ字として確定することができる。
【0021】
1つの具体的な例において、ソースドメインサンプル字は、楷書体「イ尓」により生成された画像であり、ターゲットドメイン生成字は、モデルが生成した手書き字「イ尓」により生成された画像である。「イ尓」は、コンポーネント「イ」とコンポーネント「尓」とに分けることができる。スタイルノイズ字は、実に手で書いた手書き字「称」にノイズを追加することで生成された画像、および実に手で書いた手書き字「佳」にノイズを追加することで生成された画像である。ここで、「称」はコンポーネント「尓」を含み、「イ尓」内のコンポーネント「尓」と同じであり、「佳」はコンポーネント「イ」を含み、「イ尓」内のコンポーネント「イ」と同じである。
【0022】
第1トレーニングサンプルは、第1ソースドメインサンプル字、スタイルノイズ字、およびターゲットドメインサンプル字を含み、第1トレーニングサンプルは、ノイズ情報が追加された字をモデルの入力として含み、第1トレーニングサンプルはモデルをトレーニングすることに用いられ、モデルの未知フォント(トレーニングデータセットに属していない)に対するスタイル変換の能力を向上させ、未知フォントに対して正確なスタイル変換字を生成し、モデルの汎化能力を向上させることができる。
【0023】
ターゲットモデルは、文字生成モデル、コンポーネント分類モデル、および識別モデルを含む。ターゲットモデルは、文字生成モデル、識別モデルおよびコンポーネント分類モデルをトレーニングすることに用いられる。なお、識別モデルおよびコンポーネント分類モデルは、文字生成モデルと共にトレーニングすることができ、後期の応用において、トレーニング済みの文字生成モデルだけを使用して画像のスタイル遷移を実現することができる。ここで、文字生成モデルは、ソースドメインサンプル字をターゲットドメイン生成字に変換することに用いられる。スタイル遷移モデルは、スタイルエンコーダ、コンテンツエンコーダ、およびデコーダを備える。スタイルエンコーダは、スタイルノイズ字を符号化することに用いられ、コンテンツエンコーダは、第1ソースドメインサンプル字を符号化し、符号化による2つの結果を融合し、融合した結果をデコーダに入力し、第1ターゲットドメイン生成字を取得することに用いられる。ここで、第1ソースドメインサンプル字に基づいてスタイルノイズ字を確定する。例えば、楷書体字「イ尓」を含む画像をスタイル遷移モデルに入力し、スタイル遷移モデルは、手書き字「イ尓」を含む画像を出力することができる。
【0024】
ここで、複数のノイズスタイル特徴ベクトルを融合して第1融合スタイル特徴ベクトルを取得することは、第1ノイズ特徴ベクトルに対し、各位置のベクトル要素の数値を加算平均して該位置のベクトル要素の数値を取得し、全ての位置のベクトル要素の数値に基づいて第1融合スタイル特徴ベクトルを確定することであってもよい。第1融合スタイル特徴ベクトルと第1コンテンツ特徴ベクトルとを融合して第1ターゲット融合特徴ベクトルを取得することは、第1融合スタイル特徴ベクトルに対し、各位置のベクトル要素の数値と対応する位置の第1コンテンツ特徴ベクトルのベクトル要素の数値とを加算して該位置のベクトル要素の数値を取得し、全ての位置のベクトル要素の数値に基づいて第1ターゲット融合特徴ベクトルを確定することであってもよい。
【0025】
また、ターゲットモデルは識別モデルを更に備える。識別モデルは、ターゲットドメインサンプル字およびターゲットドメイン生成字が実に手で書いた字であるか否かを検出すること、および文字タイプを分類することに用いられる。第1ターゲットドメインサンプル字および第1ターゲットドメイン生成字を識別モデルに入力し、第1文字敵対的ロスを計算する。文字敵対的ロスは、字を文字分類すること、および字が実に手で書いた字であるか否かを検出することに用いられ、文字敵対的ロスとは、字の文字分類と該字の正確な文字タイプとの間の違い、および字と実に手で書いた字との間の違いを意味する。なお、実際には、ターゲットモデルはコンポーネント分類モデルを更に含むが、第1トレーニングサンプルに対し、コンポーネント分類モデルでコンポーネント分類ロスを計算する必要がない。
【0026】
S102において、第2トレーニングサンプルを取得し、前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得し、前記第2トレーニングサンプルは、第2ソースドメインサンプル字、第2ターゲットドメインサンプル字、およびスタイル標準字を含み、前記スタイル標準字のスタイルタイプは前記第2ターゲットドメインサンプル字のスタイルタイプと同じである。
【0027】
スタイル標準字は、ターゲットドメインフォントスタイルを有する画像を指してもよく、且つ、該画像にノイズ情報が追加されていない。スタイル標準字はソースドメインサンプル字と同じ部分的な画像コンテンツを有し、スタイルタイプが異なり、スタイル標準字はターゲットドメイン生成字と同じ部分的な画像コンテンツを有し、スタイルタイプが同じである。スタイル標準字、ソースドメインサンプル字およびターゲットドメイン生成字は、少なくとも1つの同じコンポーネントを有する。スタイル標準字は、スタイルノイズ字と比べてノイズがない。または、スタイルノイズ字は、スタイル標準字の基にノイズを追加して形成した字であってもよい。
【0028】
ここで、ソースドメインサンプル字に基づいてソースドメインサンプル字に含まれる少なくとも1つのコンポーネントを確定し、各コンポーネントに基づき、予め取得されたターゲットドメインフォントスタイルの標準字で形成された集合において、少なくとも1つのコンポーネントを含む字をクエリしてスタイル標準字として確定することができる。標準字に基づき、ノイズ情報を追加してノイズ字を生成することもできる。
【0029】
第2トレーニングサンプルは、第2ソースドメインサンプル字、スタイル標準字およびターゲットドメインサンプル字を含み、第2トレーニングサンプルは、ノイズ情報が追加されていない字をモデルの入力として含み、第2トレーニングサンプルは、モデルをトレーニングすることに用いられ、モデルのスタイル変換を正確に実現する能力を向上させ、モデルのスタイル変換の正確率を高めることができる。
【0030】
ターゲットモデルは、文字生成モデル、コンポーネント分類モデル、および識別モデルを含む。第2ソースドメインサンプル字をコンテンツエンコーダに送信し、第2コンテンツ特徴ベクトルを取得し、スタイル標準字をスタイルエンコーダに送信し、標準スタイル特徴ベクトルを取得する。ターゲットドメインスタイル字の数が複数であり、標準スタイル特徴ベクトルの数は対応して複数であり、複数の標準スタイル特徴ベクトルを融合して第2融合スタイル特徴ベクトルを取得し、第2融合スタイル特徴ベクトルと第2コンテンツ特徴ベクトルとを融合して第2ターゲット特徴ベクトルを取得し、第2ターゲット特徴ベクトルをデコーダに送信して復号化し、第2ターゲットドメイン生成字を取得する。
【0031】
ここで、複数の標準スタイル特徴ベクトルを融合して第2融合スタイル特徴ベクトルを取得することは、標準スタイル特徴ベクトルに対し、各位置のベクトル要素の数値を加算平均して該位置のベクトル要素の数値を取得し、全ての位置のベクトル要素の数値に基づいて第2融合スタイル特徴ベクトルを確定することであってもよい。第2融合スタイル特徴ベクトルと第2コンテンツ特徴ベクトルとを融合して第2ターゲット融合特徴ベクトルを取得することは、第2融合スタイル特徴ベクトルに対し、各位置のベクトル要素の数値と対応する位置の第2コンテンツ特徴ベクトルのベクトル要素の数値とを加算して該位置のベクトル要素の数値を取得し、全ての位置のベクトル要素の数値に基づいて第2ターゲット融合特徴ベクトルを確定することであってもよい。
【0032】
コンポーネント分類モデルは、スタイル特徴ベクトルに対応する字に含まれるコンポーネントに、ソースドメインサンプル字に含まれるコンポーネントと同じコンポーネントが存在するか否かを検出することに用いられ、即ち、コンポーネント分類モデルは、スタイル特徴ベクトルに対応する字に、ソースドメインサンプル字の偏旁・部首と同じ偏旁・部首が存在するか否かを検出することに用いられる。第2ターゲットドメイン生成字を文字生成モデルに入力し、具体的には、第2ターゲットドメイン生成字をスタイルエンコーダに入力し、第2ターゲットドメイン生成字の生成スタイル特徴ベクトルを取得する。生成スタイル特徴ベクトルおよび標準スタイル特徴ベクトルをコンポーネント分類モデルに入力し、コンポーネント分類ロスを計算する。コンポーネント分類ロスは、文字生成モデルにより出力されたターゲットドメイン生成字に含まれるコンポーネントの正確率を拘束することに用いられ、具体的には、字に含まれるコンポーネントが正確であるか否かを判断することに用いられる。実際には、コンポーネント分類ロスとは、字から識別された含まれているコンポーネントと該字に含まれる正確なコンポーネントとの間の違いを意味する。
【0033】
また、識別モデルは、更に、ターゲットドメインサンプル字およびターゲットドメイン生成字が実に手で書いた字であるか否かを検出すること、およびスタイルタイプを分類することに用いられる。第2ターゲットドメインサンプル字および第2ターゲットドメイン生成字を識別モデルに入力し、スタイル敵対的ロスを計算する。ここで、スタイル敵対的ロスは、字をスタイル分類し、字が実に手で書いた字であるか否かを検出することに用いられる。スタイル敵対的ロスとは、字のスタイルタイプと該字の正確なスタイルタイプとの間の違い、および字と実に手で書いた字との間の違いを意味する。前述に基づき、第2ターゲットドメインサンプル字および第2ターゲットドメイン生成字を識別モデルに入力し、更に第2文字敵対的ロスを計算することができる。
【0034】
S103において、前記第1文字敵対的ロス、前記第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整する。
【0035】
第1文字敵対的ロス、第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて文字生成モデルのパラメータを調整し、更新された文字生成モデルを取得する。次のソースドメインサンプル字に対し、対応するスタイル標準字およびスタイルノイズ字を確定し、更新された文字生成モデルを使用し、操作S101に戻ってトレーニングを繰り返し、予め設定されたトレーニング停止条件に達すると、文字生成モデルのパラメータの調整を停止し、トレーニング済みの文字生成モデルを取得する。トレーニング停止条件は、前述したロスの和が収束され、各ロスがいずれも収束され、または反復回数が設定回数閾値以上になる等を含んでもよい。
【0036】
実世界の手書き字のスタイルが大きく異なるため、トレーニングで現実中の全ての状況を集中して含むことができない。トレーニングサンプルのカバー範囲が小さいため、これに基づいてトレーニングされたモデルの未知フォントに対するスタイル変換の能力が悪い。
【0037】
本開示の技術案によれば、スタイルノイズ字を含む第1トレーニングサンプルおよびスタイル標準字を含む第2トレーニングサンプルに基づき、ターゲットモデル内の文字生成モデルをトレーニングし、字の基にノイズを追加することにより、ノイズ情報を含むトレーニングサンプルを確定して文字生成モデルをトレーニングすることで、文字生成モデルの未知フォントに対するスタイル変換の能力を向上させ、モデルの汎化能力を向上させることができ、且つ、ノイズ情報を含まないトレーニングサンプルと組み合わせて文字生成モデルをトレーニングすることにより、モデルのスタイル変換を正確に実現する能力の向上と、モデルのスタイル変換の正確率の高めとを両立させることができる。
【0038】
図2は、本開示の実施例に係る第1トレーニングサンプルのトレーニングシーンの図である。図2に示すように、文字生成モデル220は、スタイルエンコーダ2201、コンテンツエンコーダ2202、およびデコーダ2203を備える。ソースドメインサンプル字201をコンテンツエンコーダ2102に送信し、第1コンテンツ特徴ベクトルを取得し、スタイルノイズ字202をスタイルエンコーダ2101に送信し、ノイズスタイル特徴ベクトルを取得する。スタイルノイズ字202の数が複数であり、ノイズスタイル特徴ベクトルの数は対応して複数であり、複数のノイズスタイル特徴ベクトルを融合して第1融合スタイル特徴ベクトルを取得し、第1融合スタイル特徴ベクトルと第1コンテンツ特徴ベクトルとを融合して第1ターゲット特徴ベクトルを取得し、第1ターゲット特徴ベクトルをデコーダ2103に送信して復号化し、第1ターゲットドメイン生成字203を取得する。ターゲットモデル210は識別モデル230を更に備える。識別モデルは、ターゲットドメインサンプル字およびターゲットドメイン生成字が実に手で書いた字であるか否かを検出すること、および文字タイプを分類することに用いられる。第1ターゲットドメインサンプル字204および第1ターゲットドメイン生成字203を識別モデル230に入力し、第1文字敵対的ロス205を計算する。なお、実際には、ターゲットモデル210はコンポーネント分類モデルを更に含むが、第1トレーニングサンプルに対し、コンポーネント分類モデルでコンポーネント分類ロスを計算する必要がないため、図2に示していない。
【0039】
図3は、本開示の実施例に係る第2トレーニングサンプルのトレーニングシーンの図であり、図3に示すように、ターゲットモデル310は、文字生成モデル320、コンポーネント分類モデル340、および識別モデル330を備える。第2ソースドメインサンプル字301をコンテンツエンコーダ3202に送信し、第2コンテンツ特徴ベクトルを取得し、スタイル標準字302をスタイルエンコーダ3201に送信し、標準スタイル特徴ベクトルを取得する。ターゲットドメインスタイル字の数が複数であり、標準スタイル特徴ベクトルの数は対応して複数であり、複数の標準スタイル特徴ベクトルを融合して第2融合スタイル特徴ベクトルを取得し、第2融合スタイル特徴ベクトルと第2コンテンツ特徴ベクトルとを融合して第2ターゲット特徴ベクトルを取得し、第2ターゲット特徴ベクトルをデコーダ3203に送信して復号化し、第2ターゲットドメイン生成字303を取得する。第2ターゲットドメイン生成字303を文字生成モデル320に入力し、具体的には、第2ターゲットドメイン生成字303をスタイルエンコーダ3201に入力し、第2ターゲットドメイン生成字303の生成スタイル特徴ベクトルを取得する。生成スタイル特徴ベクトルおよび標準スタイル特徴ベクトルをコンポーネント分類モデル340に入力し、コンポーネント分類ロス305を計算する。第2ターゲットドメインサンプル字304および第2ターゲットドメイン生成字303を識別モデル330に入力し、スタイル敵対的ロス307を計算する。前述に基づき、第2ターゲットドメインサンプル字304および第2ターゲットドメイン生成字303を識別モデル330に入力し、更に第2文字敵対的ロス306を計算することができる。
【0040】
図4は、本開示の実施例に係る別の文字生成モデルのトレーニング方法のフローチャートであり、上記技術案に基づいて更に最適化して拡張し、且つ、上記各好ましい実施形態と組み合わせることができる。前記第1トレーニングサンプルを取得することは、具体的に、第1ソースドメインサンプル字および第1ターゲットドメインサンプル字を取得し、前記第1ターゲットドメインサンプル字のスタイルタイプに基づき、予め取得された標準字集合から前記スタイルタイプに対応する標準字を選択し、スタイル標準字として確定し、前記標準字集合に基づいてノイズ字集合を生成し、その中から前記スタイルタイプに対応するノイズ字を選択し、スタイルノイズ字として確定することである。
【0041】
S401において、第1ソースドメインサンプル字および第1ターゲットドメインサンプル字を取得する。
【0042】
好ましくは、前記ソースドメインサンプル字は、ソースドメインフォントスタイルを有する画像であり、前記第2ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する画像である。
【0043】
ソースドメインサンプル字は、ソースドメインフォントスタイルを有する字により生成された画像である。ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する字により生成された画像である。ソースドメインフォントスタイルとターゲットドメインフォントスタイルとは異なる。例示的には、ソースドメインフォントスタイルは印刷フォントであり、例えば、中国語文字フォントの場合、ソースドメインフォントスタイルは宋朝体、楷書体、ゴシック体または隷書体等であり、ターゲットドメインフォントスタイルは、ユーザが実に手で書いたフォントスタイル等のアートフォントスタイルである。
【0044】
ソースドメインサンプル字がソースドメインフォントスタイルを有する画像で、ターゲットドメインサンプル字がターゲットドメインフォントスタイルを有する画像であるように設定することにより、異なるフォントスタイルの変換を実現し、新たなスタイルのフォント数を増加することができる。
【0045】
S402において、標準字集合を取得し、ノイズ字集合を生成する。
【0046】
標準字集合に含まれる標準字のフォントスタイルはターゲットドメインフォントスタイルであり、標準字のターゲットドメインフォントスタイルは、第1ターゲットドメインサンプル字のフォントスタイルと、第2ターゲットドメインサンプル字のフォントスタイルとを含む。標準字集合は、全てのコンポーネントをカバーする予め取得されたターゲットドメインフォントスタイルの字で形成された画像からなる集合である。ターゲットドメインフォントスタイルの字で形成された画像を予め取得して標準字集合を形成することができる。例示的には、ターゲットドメインフォントスタイルは、ユーザが手で書いたフォントスタイルであり、ユーザが手で書いたフォントスタイルは、例えば、手書き楷書体、手書き隷書体、および手書き草書体等に更に細分化することができる。ユーザが認可して提供した手書きフォントスタイルの字の画像を予め取得して標準字集合を生成することができる。より具体的には、中国語文字および各フォントスタイルに対し、全ての偏旁・部首をカバーした100個の字を予め設定し、且つ、該全ての偏旁・部首をカバーした100個の字に対し、手書きフォントスタイルの字を認可して提供して標準字集合を生成することをユーザに提示することができる。例示的には、ターゲットドメインフォントスタイルは、手書き隷書体フォントスタイルおよび手書き草書体フォントスタイルを含み、それに対応し、標準字集合は、手書き隷書体フォントスタイルの100個の標準字および手書き草書体フォントスタイルの100個の標準字を含む。
【0047】
ノイズ字は、標準字の基にノイズ情報を導入することにより形成された字であってもよい。1つの標準字は、導入された異なるノイズ情報に応じ、少なくとも1つのノイズ字を対応して生成することができる。標準字集合に含まれる各標準字にいずれもノイズを導入し、少なくとも1つのノイズ字を形成し、ノイズ字集合を形成することができる。
【0048】
好ましくは、前記標準字集合に基づいてノイズ字集合を生成することは、前記標準字集合において、スタイルタイプが異なってコンテンツが同じである候補標準字を取得することと、取得した候補標準字に基づき、前記候補標準字の有効画素分布情報を確定することと、前記有効画素分布情報に基づき、前記候補標準字の候補ノイズ字を生成して前記ノイズ字集合に追加することとを含む。
【0049】
標準字集合には、通常、重複した標準字が存在しない。任意の2つの標準字間のスタイルタイプは異なるか、またはコンテンツは異なる。コンテンツが異なることは、文字のコンテンツが異なることを意味し、例えば、標準字「做」と標準字「神」とはコンテンツが異なる。候補標準字とは、スタイルタイプが異なり、且つコンテンツが同じである標準字を意味する。
【0050】
本開示の実施例において、字とは、実際に字により生成された画像を意味し、有効画素とは、字により生成された画像における文字を構成する画素を意味する。それに対応し、画像には無効画素が更に存在し、無効画素は、画像における文字を構成しない背景画素を意味してもよい。例えば、白地に黒文字の字の画像において、有効画素は黒色の画素であり、無効画素は白色の画素である。ここで、各標準字と各候補標準字とは画像サイズが同じである。有効画素分布情報は、ノイズ情報を導入することに用いられ、具体的には、有効画素のターゲット画素位置を確定することにより、ターゲット画素位置に基づいて候補標準字の基にどの位置に有効画素を追加するか、および/またはどの位置に有効画素を削除するかを確定し、または直接全てが無効画素で構成された画像において、ターゲット画素位置に有効画素を無いから追加し、候補ノイズ字を生成することに用いられる。ここで、有効画素を追加することは、無効画素を有効画素に変更すること意味してもよく、例えば、白地に黒文字の字の画像において、白色の画素を黒色の画素に変換する。有効画素を削除することは、有効画素を無効画素に変更することを意味してもよく、例えば、白地に黒文字の字の画像において、黒色の画素を白色画素に変換する。有効画素分布情報は、字により生成された画像における有効画素の統計分布データを意味してもよく、統計分布データは、有効画素の位置統計結果であってもよい。候補標準字の有効画素分布情報は、複数のスタイルタイプが異なってコンテンツが同じである候補標準字における有効画素の位置により確定できる。
【0051】
有効画素分布情報に基づき、候補標準字の候補ノイズ字を生成することは、候補標準字の基に、有効画素分布情報に基づいて有効画素が存在すべきターゲット画素位置を確定し、有効画素を対応して追加および/または削除し、候補ノイズ字を生成することを意味してもよい。具体的には、有効画素分布情報に基づき、追加および/または削除する有効画素のターゲット画素位置を確定することは、字により生成された画像における有効画素の統計分布データに基づき、各位置における有効画素の登場回数を計算し、回数に基づき、有効画素が存在すべきターゲット画素位置を確定することであってもよい。
【0052】
実際には、有効画素分布情報に基づき、候補標準字の候補ノイズ字を生成することは、フォントの姿勢を保留するためにフォントの姿勢に基づいてノイズを導入してもよく、これにより、スタイルノイズ字は、ソースドメインサンプル字の少なくとも1つのコンポーネントと同じのフォントコンテンツ特徴を有し、且つスタイルノイズ字に基づいてモデルトレーニングを行い、モデルは未知フォントを学習しながらフォントを学習することもできる。
【0053】
スタイルタイプが異なってコンテンツが同じである候補標準字に基づき、有効画素分布情報を確定し、これに基づいてノイズ情報を導入し、候補ノイズ字を確定することにより、候補標準字のフォントコンテンツ特徴を保留し、トレーニングサンプルとして文字生成モデルをトレーニングすることができ、文字生成モデルは未知フォントを学習しながらフォントを学習することもでき、モデルの汎化能力の向上とスタイル遷移の正確率の高めとを両立する。
【0054】
好ましくは、前記取得した候補標準字に基づき、前記候補標準字の有効画素分布情報を確定することは、取得した候補標準字の字数を統計することと、前記取得した候補標準字における有効画素が画素位置に登場した有効回数を計算することと、前記有効回数および前記字数に基づき、前記画素位置の有効画素登場確率を計算することと、前記取得した候補標準字における異なる画素位置の有効画素登場確率を、前記候補標準字の有効画素分布情報として確定することとを含む。
【0055】
字数とは、標準字集合におけるスタイルタイプが異なってコンテンツが同じである候補標準字の数を意味する。画像は画素で構成され、画素の画像における位置は、該画素の画素位置である。画素位置の有効回数とは、各候補標準字における対応する画素位置に有効画素が登場した回数を統計したものである。有効画素登場確率は、該画素位置の画素が有効画素であるか否かの確率を確定することに用いられる。有効回数を字数で除算した商を、有効画素登場確率として確定することができる。画像における画素位置毎に、1つの有効画素登場確率を計算することができる。
【0056】
有効画素登場確率に基づいて候補ノイズ字を生成することは、画像における各画素位置をトラバースし、該画素位置に対応する有効画素登場確率に基づき、該画素位置の画素が有効画素であるか否かを判断し、該画素位置の画素が有効画素であると確定した場合、該画素位置の画素を有効画素として確定し、全ての画素位置のトラバースが完了するまで次の画素位置を処理し続け、候補ノイズ字を取得することであってもよい。
【0057】
スタイルタイプが異なってコンテンツが同じである候補標準字の字数を統計し、各候補標準字における有効画素の画素位置に登場した有効回数を統計し、有効画素登場確率を計算し、有効画素分布情報としてノイズを導入することにより、有効画素のフォントコンテンツ特徴を精確に保留し、文字生成モデルのスタイル遷移の正確率を向上させることができる。且つ、導入されたノイズ情報を柔軟に調整し、増スタイルノイズ字のカバー範囲を増加し、モデルの汎化能力を向上させることができる。
【0058】
S403において、前記第1ソースドメインサンプル字に含まれるコンポーネントおよび前記第1ターゲットドメインサンプル字のフォントスタイルに基づき、前記ノイズ字集合からスタイルノイズ字を選択する。
【0059】
第1ソースドメインサンプル字に対してコンポーネントを分割し、第1ソースドメインサンプル字を構成する少なくとも1つのコンポーネントを確定する。第1ターゲットドメインサンプル字のフォントスタイルを取得する。ノイズ字集合において、第1ソースドメインサンプル字を含む少なくとも1つのコンポーネントをクエリし、且つ、フォントスタイルが第1ターゲットドメインサンプル字のフォントスタイルと同じである字を、スタイルノイズ字として確定する。
【0060】
S404において、前記スタイルノイズ字、第1ソースドメインサンプル字、および第1ターゲットドメインサンプル字に基づき、第1トレーニングサンプルを生成する。
【0061】
S405において、前記第1トレーニングサンプルに基づいてターゲットモデルをトレーニングし、第1文字敵対的ロスを取得する。前記第1トレーニングサンプルは、第1ソースドメインサンプル字、第1ターゲットドメインサンプル字、およびスタイルノイズ字を含み、前記スタイルノイズ字のスタイルタイプは前記第1ターゲットドメインサンプル字のスタイルタイプと同じであり、前記ターゲットモデルは、文字生成モデル、コンポーネント分類モデル、および識別モデルを含む。
【0062】
S406において、第2トレーニングサンプルを取得し、前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得し、前記第2トレーニングサンプルは、第2ソースドメインサンプル字、第2ターゲットドメインサンプル字、およびスタイル標準字を含み、前記スタイル標準字のスタイルタイプは前記第2ターゲットドメインサンプル字のスタイルタイプと同じである。
【0063】
第2ソースドメインサンプル字に対してコンポーネントを分割し、第2ソースドメインサンプル字を構成する少なくとも1つのコンポーネントを確定する。第2ターゲットドメインサンプル字のフォントスタイルを取得する。前述した標準字集合において、第2ソースドメインサンプル字を含む少なくとも1つのコンポーネントをクエリし、且つ、フォントスタイルが第2ターゲットドメインサンプル字のフォントスタイルと同じである字を、スタイル標準字として確定し、且つ、第2ソースドメインサンプル字および第2ターゲットドメインサンプル字と組み合わせて第2トレーニングサンプルを形成する。
【0064】
好ましくは、前記第1トレーニングサンプルは複数グループの第1トレーニングサンプルを含み、前記第2トレーニングサンプルは複数グループの第2トレーニングサンプルを含み、前記第1トレーニングサンプルに基づいてターゲットモデルをトレーニングすることは、前記複数グループの第1トレーニングサンプルに基づき、前記ターゲットモデルに対して第1ラウンドのトレーニングを行うことを含み、前記第2トレーニングサンプルに基づいてターゲットモデルをトレーニングすることは、前記複数グループの第2トレーニングサンプルに基づき、前記ターゲットモデルに対して第2ラウンドのトレーニングを行うことを含み、前記第1ラウンドのトレーニング回数は第2ラウンドのトレーニング回数よりも小さい。
【0065】
トレーニングサンプルは、複数のトレーニングサンプルを表すことができる。第1トレーニングサンプルは複数グループの第1トレーニングサンプルを含み、第2トレーニングサンプルは複数グループの第2トレーニングサンプルを含む。トレーニング過程において、ターゲットモデルに対して複数ラウンドのトレーニングを行う。複数グループの第1トレーニングサンプルを採用してトレーニングするラウンドは、複数グループの第2トレーニングサンプルを採用してトレーニングするラウンドと異なり、即ち、同じラウンドのトレーニング過程において、第1トレーニングサンプルと第2トレーニングサンプルとを同時に採用してターゲットモデルをトレーニングすることはない。同じラウンドのトレーニング過程において、複数グループの第1トレーニングサンプルのみ、または複数グループの第2トレーニングサンプルのみを採用してターゲットモデルをトレーニングする。ここで、複数グループの第1トレーニングサンプルを採用する第1ラウンドのトレーニング回数は、複数グループの第2トレーニングサンプルを採用する第2ラウンドのトレーニング回数よりも小さい。
【0066】
例示的には、第iラウンドのトレーニングの場合、複数グループの第1トレーニングサンプルを採用してターゲットモデルをトレーニングし、i+第1ラウンド~i+第kラウンドのトレーニングの場合、複数グループの第2トレーニングサンプルを採用してターゲットモデルをトレーニングする。iが1で、kが9である場合、第1ラウンドにおいて複数グループの第1トレーニングサンプルを採用してモデルをトレーニングし、第2~10ラウンドにおいて複数グループの第2トレーニングサンプルを採用してモデルをトレーニングする。通常、kは1より遥かに大きい。または、第3ラウンドおよび第8ラウンドにおいて複数グループの第1トレーニングサンプルを採用してモデルをトレーニングし、1~第2ラウンド、第4~7ラウンド、および第9~10ラウンドにおいて複数グループの第2トレーニングサンプルを採用してモデルをトレーニングしてもよい。これについて具体的に限定しない。
【0067】
第1ラウンドのトレーニング回数が第2ラウンドのトレーニング回数以上、または第2ラウンドのトレーニング回数よりも小さいが近い場合、トレーニング過程において、コンポーネント分類ロスおよびスタイル敵対的ロスは文字生成モデルを良く拘束することができず、トレーニングにより得られた文字生成モデルのスタイルタイプの学習能力およびコンポーネントコンテンツの学習能力が弱くなり、文字生成モデルの正確率が低下し、スタイルタイプの学習能力とコンポーネントコンテンツの学習能力とを両立させるために、第2トレーニングサンプルのトレーニングラウンドの占有率を高める必要があり、これにより、第1ラウンドが第2ラウンドより遥かに大きいように設定することで、第2トレーニングサンプルのトレーニングラウンドの占有率を高め、スタイルタイプの学習能力とコンポーネントコンテンツの学習能力とを両立させて向上させ、文字生成モデルの正確率を向上させることができる。
【0068】
異なるラウンドにおいて、第1トレーニングサンプルおよび第2トレーニングサンプルをそれぞれ採用してターゲットモデル内の文字生成モデルをトレーニングすることにより、文字生成モデルを個別に独立してトレーニングすることができ、第1トレーニングサンプルと第2トレーニングサンプルとの間の相互干渉を低減し、コンポーネント分類ロスおよびスタイル敵対的ロスの文字生成モデルに対する拘束を実現し、文字生成モデルのスタイル遷移の正確率を向上させるとともに、サンプルのカバー範囲およびサンプルの代表性を増加し、文字生成モデルの汎化能力を向上させ、且つ、第2トレーニングサンプルを採用する第2ラウンドが第1トレーニングサンプルを採用する第1ラウンドよりも大きいトレーニングモデルを設けることにより、スタイルタイプの学習能力およびコンポーネントコンテンツの学習能力を向上させ、更に文字生成モデルのスタイル遷移の正確率を向上させることができる。
【0069】
S407において、前記第1文字敵対的ロス、前記第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整する。
【0070】
ここで、第1トレーニングサンプルに対し、文字分類モデルは、コンポーネント分類ロスおよびスタイル敵対的ロスを計算しない。トレーニング集合に第1トレーニングサンプルおよび第2トレーニングサンプルを予めマークし、第1トレーニングサンプルと第2トレーニングサンプルとの区分を実現することができる。スタイルノイズ字のノイズスタイル特徴ベクトルおよび第1ターゲットドメイン生成字の生成スタイル特徴ベクトルをコンポーネント分類モデルに入力せず、コンポーネント分類モデルは、スタイルノイズ字および第1ターゲットドメイン生成字に対してコンポーネント分類ロスを計算しない。第1ターゲットドメイン生成字および第1ターゲットドメインサンプル字に対してスタイル敵対的ロスを計算しないように識別モデルを設定する。
【0071】
本開示の技術案によれば、標準字集合を取得してノイズ情報を追加し、ノイズ字集合を生成し、第1ソースドメインサンプル字に含まれるコンポーネントおよび第1ターゲットドメインサンプル字のフォントスタイルに基づき、ノイズ字集合からスタイルノイズ字を選別して第1トレーニングサンプルを形成することにより、スタイルノイズ字の干渉の程度を柔軟に制御することができ、且つ、標準字の形成に基づき、他のノイズでない干渉要素を減少し、スタイルタイプおよび文字コンテンツを変更しないスタイルノイズ字を形成し、トレーニングサンプルの干渉を増加するが、文字生成モデルのスタイルタイプおよび文字コンテンツに対する学習に影響を及ぼさず、文字生成モデルの汎化能力を精確に向上させ、画像スタイル変換の正確率を向上させる。
【0072】
図5は、本開示の実施例に係る一実施例の有効画素登場確率の計算方法の模式図である。図5に示すように、標準字集合において、スタイルタイプが異なっていずれも「称」字である候補標準字をN個クエリした。「称」のN個の候補標準字における有効画素(黒色の画素)が各画素位置(x,y)に登場した回数を統計する。例えば、K回登場すると、「称」の(x,y)位置における対応する有効画素登場確率P(x,y)=K/Nである。
【0073】
図6は、本開示の実施例に係る別の文字生成モデルのトレーニング方法のフローチャートであり、上記技術案に基づいて更に最適化して拡張し、且つ、上記各好ましい実施形態と組み合わせることができる。前記ターゲットモデルは、予めトレーニングされた文字分類モデルを更に含み、文字生成モデルのトレーニング方法の最適化として、前記第1トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第1誤字ロスを取得し、前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2誤字ロスを取得し、前記第1誤字ロスおよび前記第2誤字ロスに基づいて前記文字生成モデルのパラメータを調整する。
【0074】
S601において、第1トレーニングサンプルを取得し、前記第1トレーニングサンプルに基づいてターゲットモデルをトレーニングし、第1文字敵対的ロスおよび第1誤字ロスを取得する。前記第1トレーニングサンプルは、第1ソースドメインサンプル字、第1ターゲットドメインサンプル字、およびスタイルノイズ字を含み、前記スタイルノイズ字のスタイルタイプは前記第1ターゲットドメインサンプル字のスタイルタイプと同じであり、前記ターゲットモデルは、文字生成モデル、コンポーネント分類モデル、識別モデル、および予めトレーニングされた文字分類モデルを含む。
【0075】
文字分類モデルは、ターゲット生成字が誤字であるか否かを判別することに用いられる。文字分類モデルは、ResNet-18(Residual Network、残差ネットワーク)構造を採用することができる。ここで、ResNet18構造のモデルは、17個の畳み込み層および1つの完全接続層を備える。例えば、トレーニングサンプルが、500個のフォントで、フォント毎に6763個の文字があるデータセットであり、実験により、トレーニング済みの文字分類モデルは、該データセットで97%の分類正確率を取得する。誤字ロスは、文字生成モデルにより出力されたターゲットドメイン生成字の誤字率を拘束することに用いられ、具体的には、字と正確な字との間の違いを意味する。
【0076】
S602において、第2トレーニングサンプルを取得し、前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2文字敵対的ロス、コンポーネント分類ロス、スタイル敵対的ロス、および第2誤字ロスを取得し、前記第2トレーニングサンプルは、第2ソースドメインサンプル字、第2ターゲットドメインサンプル字、およびスタイル標準字を含み、前記スタイル標準字のスタイルタイプは前記第2ターゲットドメインサンプル字のスタイルタイプと同じである。
【0077】
第1トレーニングサンプルおよび第2トレーニングサンプルは、いずれも誤字ロスを計算することができ、第1誤字ロスと第2誤字ロスとをまとめて誤字ロスと呼び、第1ターゲットドメイン生成字と第2ターゲットドメイン生成字とをまとめてターゲットドメイン生成字と呼んでもよく、以下のような過程に基づいて誤字ロスを計算する。
【0078】
ターゲットドメイン生成字を文字分類モデルに入力し、該ターゲットドメイン生成字の生成文字ベクトルX=[x,x……x……x]を取得する。ここで、ベクトルXにおける各要素がトレーニングサンプルにおける1つの文字を表すことができれば、nは、トレーニングサンプルにおける文字数を表し、例えば、トレーニングサンプルは6761個の字を有すると、nは6760であってもよい。上記ターゲットドメイン生成字に対し、標準文字ベクトルY=[y,y……y……y]が予め設定される。ここで、Yにおける各要素がトレーニングサンプルにおける1つの文字を表すことができれば、nは、トレーニングサンプルにおける文字数を表し、例えば、トレーニングサンプルは6761個の字を有すると、nは6760であってもよい。(ただしXは本明細書中でべクトルXを表し、以下同様にY,A,B,C,D,E,Fもそれぞれベクトルを表す。)
【0079】
標準文字ベクトルYは、ターゲットドメイン生成字を上記文字分類モデルに入力して上記文字分類モデルが出力すべきベクトルを表す。例えば、ターゲットドメイン生成字が「做」字であり、「做」字がトレーニングサンプルにおけるn個の字において1つ目にある場合、「做」字の標準文字ベクトルは、Y=[1,0,0……0]と表すことができる。ターゲットドメイン生成字の生成文字ベクトルXと標準文字ベクトルYとの間のクロスエントロピーに基づき、誤字ロスを確定することができる。誤字ロスは、以下のような式(1)で表すことができる。
【0080】
【数1】
(ただし、LCは誤字ロスを表し、xは、生成文字ベクトルにおける添え字がiの要素を表し、yは、標準文字ベクトルにおける添え字がiの要素を表し、iは、0以上n以下の整数であり、nは、生成文字ベクトルおよび標準文字ベクトルにおける要素数を表す。)
【0081】
好ましくは、前記第1トレーニングサンプルに基づいてターゲットモデルをトレーニングし、第1文字敵対的ロスを取得することは、前記第1ソースドメインサンプル字および前記スタイルノイズ字を前記文字生成モデルに入力し、第1ターゲットドメイン生成字を取得することと、前記第1ターゲットドメイン生成字および前記第1ターゲットドメインサンプル字を前記識別モデルに入力し、第1文字敵対的ロスを取得することとを含む。
【0082】
第1ターゲットドメインサンプル字および第1ターゲットドメイン生成字を識別モデルに入力し、第1文字敵対的ロスを計算する。
【0083】
好ましくは、前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得することは、前記第2ソースドメインサンプル字および前記スタイル標準字を前記文字生成モデルに入力し、第2ターゲットドメイン生成字および前記スタイル標準字の標準スタイル特徴ベクトルを取得することと、前記第2ターゲットドメイン生成字を前記文字生成モデルに入力し、前記第2ターゲットドメイン生成字の生成スタイル特徴ベクトルを取得することと、前記生成スタイル特徴ベクトルおよび前記標準スタイル特徴ベクトルを前記コンポーネント分類モデルに入力し、コンポーネント分類ロスを計算することと、前記第2ターゲットドメインサンプル字および前記第2ターゲットドメイン生成字を前記識別モデルに入力し、第2文字敵対的ロスおよびスタイル敵対的ロスを計算することとを含む。
【0084】
スタイル標準字をスタイルエンコーダに入力し、スタイル標準字の標準スタイル特徴ベクトルを取得する。第2ターゲットドメイン生成字をスタイルエンコーダに入力し、第2ターゲットドメイン生成字の生成スタイル特徴ベクトルを取得する。生成スタイル特徴ベクトルおよび標準スタイル特徴ベクトルをコンポーネント分類モデルに入力し、コンポーネント分類ロスを計算する。第2ターゲットドメインサンプル字および第2ターゲットドメイン生成字を識別モデルに入力し、スタイル敵対的ロスを計算する。前述に基づき、第2ターゲットドメインサンプル字および第2ターゲットドメイン生成字を識別モデルに入力し、更に第2文字敵対的ロスを計算することができる。
【0085】
第2トレーニングサンプルに対し、ターゲットモデルは、更に、コンポーネントロスおよびスタイル敵対的ロスを計算することに用いられる。ここで、コンポーネント分類モデルは、コンポーネントロスを計算することに用いられる。
【0086】
ここで、コンポーネントロスに対し、コンポーネント分類モデルは、標準スタイル特徴ベクトルに対応する標準字に含まれるコンポーネントに、第2ソースドメインサンプル字に含まれるコンポーネントと同じであるコンポーネントが存在するか否かを検出することに用いられ、即ち、コンポーネント分類モデルは、標準スタイル特徴ベクトルに対応する標準字に、第2ソースドメインサンプル字の偏旁・部首と同じ偏旁・部首が存在するか否かを検出することに用いられる。
【0087】
例示的には、標準スタイル特徴ベクトルA=[a,a……a……a]において、Aにおける各要素は、コンポーネント表における1つのコンポーネントを表すことができ、生成スタイル特徴ベクトルB=[b,b……b……b]において、Bにおける各要素は、コンポーネント表における1つのコンポーネントを表すことができ、mは、コンポーネント表におけるコンポーネント数を表す。例えば、コンポーネント表に100個のコンポーネントがあり、中国語文字に対してコンポーネントが偏旁・部首であり、コンポーネント表に100個の偏旁・部首がある場合、mは99であってもよい。例えば、ターゲットドメインスタイル字が「佳」字であり、「佳」字は、コンポーネント「イ」とコンポーネント「圭」とで構成でき、それぞれコンポーネント表のm個の字内で2つ目および3つ目に位置する場合、「佳」字の標準スタイル特徴ベクトルは、A=[0,1,1,0,0……0]と表すことができる。更に、ターゲットドメイン生成字が「イ尓」字であり、「イ尓」字は、コンポーネント「イ」とコンポーネント「尓」とで構成でき、それぞれコンポーネント表のm個の字内で2つ目および5つ目に位置する場合、「イ尓」字の生成スタイル特徴ベクトルは、B=[0,1,0,0,1……0]と表すことができる。
【0088】
ターゲットドメインスタイル字に対し、ターゲット標準スタイル特徴ベクトルA*=[a*,a*……a*……a*]が予め設定される。ここで、A*における各要素は、コンポーネント表における1つのコンポーネントを表すことができる。ターゲットドメイン生成字に対し、ターゲット生成スタイル特徴ベクトルB*=[b*,b*……b*……b*]が予め設定される。ここで、B*における各要素は、コンポーネント表における1つのコンポーネントを表すことができる。ターゲット標準スタイル特徴ベクトルA*は、ターゲットドメインスタイル字を文字分類モデルに入力して文字分類モデルが出力すべきベクトルを表す。例えば、ターゲットドメインスタイル字が「佳」字であり、「佳」字は、コンポーネント「イ」とコンポーネント「圭」とで構成でき、それぞれコンポーネント表のm個の字内で2つ目および3つ目に位置する場合、「佳」字のターゲット標準スタイル特徴ベクトルは、A*=[0,1,1,0,0……0]と表すことができる。それに対応し、ターゲット生成スタイル特徴ベクトルB*は、ターゲットドメイン生成字を文字分類モデルに入力し、文字分類モデルが出力すべきベクトルを表す。例えば、ターゲット生成字が「イ尓」字であり、「イ尓」字は、コンポーネント「イ」とコンポーネント「尓」とで構成でき、それぞれコンポーネント表のm個の字内で2つ目および5つ目に位置する場合、ターゲット生成スタイル特徴ベクトルはB*=[0,1,0,0,1……0]と表すことができる。
【0089】
ターゲットドメインスタイル字の標準スタイル特徴ベクトルAとターゲット標準スタイル特徴ベクトルA*との間のクロスエントロピーに基づき、第1コンポーネント分類ロスを確定することができる。第1コンポーネント分類ロスは、以下のような式(2)で表すことができる。
【数2】
(ただし、Lcls1は、第1コンポーネント分類ロスを表し、aは、標準スタイル特徴ベクトルにおける添え字がiの要素を表し、a*は、ターゲット標準スタイル特徴ベクトルにおける添え字がiの要素を表し、iは、0以上m以下の整数であり、mは、標準スタイル特徴ベクトルおよびターゲット標準スタイル特徴ベクトルにおける要素数を表す。)
【0090】
ターゲットドメイン生成字の生成スタイル特徴ベクトルBとターゲット生成スタイル特徴ベクトルB*との間のクロスエントロピーに基づき、第2コンポーネント分類ロスを確定することができる。第2コンポーネント分類ロスは、以下のような式(3)で表すことができる。
【0091】
【数3】
(ただし、Lcls2は、第2コンポーネント分類ロスを表し、bは、生成スタイル特徴ベクトルにおける添え字がiの要素を表し、b*は、ターゲット生成スタイル特徴ベクトルにおける添え字がiの要素を表し、iは、0以上m以下の整数であり、mは、生成スタイル特徴ベクトルおよびターゲット生成スタイル特徴ベクトルにおける要素数を表す。)
【0092】
第1コンポーネント分類ロスおよび第2コンポーネント分類ロスに基づき、文字生成モデルのコンポーネント分類ロスを確定することができる。文字生成モデルのコンポーネント分類ロスは、以下のような式(4)で表すことができる。
【0093】
【数4】
(Lclsは、文字生成モデルのコンポーネント分類ロスを表す。)
【0094】
本開示の実施例によれば、コンポーネント分類ロスは、文字生成モデルにより出力されたターゲットドメイン生成字に含まれるコンポーネントの正確率を拘束し、文字生成モデルが誤ったコンポーネントで構成された生成字を生成する確率を減少することに使用できる。
【0095】
識別モデルは、ターゲットドメインサンプル字およびターゲットドメイン生成字が実に手で書いた字であるか否かを検出すること、文字タイプを分類すること、およびスタイルタイプを分類することに用いられる。例示的には、ソースドメインサンプル字は実に手で書いた字画像である一方、ターゲットドメインサンプル字はモデルにより生成された字の画像であり、偽の字の画像と呼ばれてもよい。ターゲットドメイン生成字は、モデルにより生成された手書き字の画像であり、偽の手書き字の画像と呼ばれてもよい。トレーニング過程において、ターゲットドメインサンプル字を真Real(例えば、値が1)とマークし、マークターゲットドメイン生成字を偽Fake(例えば、値が0)とマークしてもよい。ターゲットドメインサンプル字およびターゲットドメイン生成字が実に手で書いた字であるか否かを検出することは、実際に、モデルにより生成された字であるか否かを検出することであり、文字生成モデルにより生成された字の識別モデルにより出力された結果が真である場合、文字生成モデルにより生成された字は、手書き字と非常に似ていることを表す。
【0096】
ここで、第1トレーニングサンプルおよび第2トレーニングサンプルはいずれも文字敵対的ロスを計算することができ、第1文字敵対的ロスと第2文字敵対的ロスとをまとめて文字敵対的ロスと呼び、第1ターゲットドメイン生成字と第2ターゲットドメイン生成字とをまとめてターゲットドメイン生成字と呼び、第1ターゲットドメインサンプル字と第2ターゲットドメインサンプル字とをまとめてターゲットドメインサンプル字と呼んでもよく、以下のような過程に基づいて文字敵対的ロスを計算する。
【0097】
ターゲットドメインサンプル字を識別モデルに入力し、ターゲットドメインサンプル字の第1文字敵対的ベクトルを取得し、ターゲットドメイン生成字を識別モデルに入力し、ターゲットドメイン生成字の第2文字敵対的ベクトルを取得する。
【0098】
例示的には、第1文字敵対的ベクトルC=[c,c……c……c]において、Cにおける各要素は、文字表における1つの文字を表すことができ、第2文字敵対的ベクトルD=[d,d……d……d]において、Dにおける各要素は、文字表における1つの文字を表すことができ、jは、文字表における文字数を表す。例えば、文字表に6000個の文字があり、中国語文字に対して文字表が6000個の中国語文字を含む場合、jは5999であってもよい。且つ、要素が1であると、対応する字が実に手で書いた字であることを表し、要素が-1であると、対応する字がモデルにより生成された字であることを表す。例えば、ターゲットドメインサンプル字が「イ尓」字であり、「イ尓」字は文字表で1つ目に位置し、且つ、ターゲットドメインサンプル字が実に手で書いた字であり、1つ目の要素の数値が対応して1である場合、「イ尓」字の第1文字敵対的ベクトルは、C=[1,0,0,0,0……0]と表される。また、ターゲットドメイン生成字が「佳」字であり、「佳」字が文字表で2つ目に位置し、且つ、ターゲットドメイン生成字がモデルにより生成された字であり、2つ目の要素の数値が対応して-1である場合、「佳」字の第2文字敵対的ベクトルは、D=[0,-1,0,0,0……0]と表すことができる。
【0099】
ターゲットドメインサンプル字に対し、ターゲット第1文字敵対的ベクトルC*=[c*,c*……c*……c*]が予め設定される。ここで、C*における各要素は、文字表における1つの文字を表すことができる。ターゲットドメイン生成字に対し、ターゲット第2文字敵対的ベクトルD*=[d*,d*……d*……d*]が予め設定される。ここで、D*における各要素は、文字表における1つの文字を表すことができる。ターゲット第1文字敵対的ベクトルC*は、ターゲットドメインサンプル字を識別モデルに入力し、識別モデルが出力すべきベクトルを表す。例えば、ターゲットドメインサンプル字が「イ尓」字であり、「イ尓」字は、文字表で1つ目に位置し、且つ、ターゲットドメインサンプル字が実に手で書いた字であり、1つ目の要素の数値が対応して1である場合、「イ尓」字の第1文字敵対的ベクトルは、C*=[1,0,0,0,0……0]と表される。それに対応し、ターゲット第2文字敵対的ベクトルD*は、ターゲットドメイン生成字を識別モデルに入力して識別モデルが出力すべきベクトルを表す。例えば、ターゲット生成字が「佳」字であり、「佳」字は、文字表で2つ目に位置し、且つ、ターゲットドメイン生成字がモデルにより生成された字であり、2つ目の要素の数値が対応して-1である場合、「佳」字の第2文字敵対的ベクトルは、D*=[0,-1,0,0,0……0]と表すことができる。
【0100】
ターゲットドメインサンプル字の第1文字敵対的ベクトルCとターゲット第1文字敵対的ベクトルC*との間のクロスエントロピーに基づき、第1文字敵対的ロスを確定することができる。第1文字敵対的ロスは、以下のような式(5)で表すことができる。
【0101】
【数5】
(ただし、
【数6】
は、第1文字敵対的ロスを表し、cは、第1文字敵対的ベクトルにおける添え字がiの要素を表し、c*は、ターゲット第1文字敵対的ベクトルにおける添え字がiの要素を表し、iは、0以上j以下の整数であり、jは、第1文字敵対的ベクトルおよびターゲット第1文字敵対的ベクトルにおける要素数を表す。)
【0102】
ターゲットドメイン生成字の第2文字敵対的ベクトルDとターゲット第1文字敵対的ベクトルD*との間のクロスエントロピーに基づき、第2文字敵対的ロスを確定することができる。第2文字敵対的ロスは、以下のような式(6)で表すことができる。
【0103】
【数7】
(ただし、
【数8】
は、第2文字敵対的ロスを表し、dは、第2文字敵対的ベクトルにおける添え字がiの要素を表し、d*は、ターゲット第2文字敵対的ベクトルにおける添え字がiの要素を表し、iは、0以上j以下の整数であり、jは、第2文字敵対的ベクトルおよびターゲット第2文字敵対的ベクトルにおける要素数を表す。)
【0104】
第1文字敵対的ロスおよび第2文字敵対的ロスに基づき、文字生成モデルの文字敵対的ロスを確定することができる。文字生成モデルの文字敵対的ロスは、以下のような式(7)で表すことができる。
【0105】
【数9】

【数10】
は、文字生成モデルの文字敵対的ロスを表す。)
【0106】
ここで、スタイル敵対的ロスに対し、識別モデルは、第2ターゲットドメインサンプル字および第2ターゲットドメイン生成字が実に手で書いた字であるか否かを検出すること、およびスタイルタイプを分類することに用いられる。第2ターゲットドメインサンプル字を識別モデルに入力し、第2ターゲットドメインサンプル字の第1スタイル敵対的ベクトルを取得し、第2ターゲットドメイン生成字を識別モデルに入力し、第2ターゲットドメイン生成字の第2スタイル敵対的ベクトルを取得する。
【0107】
例示的には、第1スタイル敵対的ベクトルE=[e,e……e……e]において、Eにおける各要素は、スタイル表における1つのスタイルタイプを表すことができ、第2スタイル敵対的ベクトルF=[f,f……f……f]において、Fにおける各要素は、スタイル表における1つのスタイルタイプを表すことができ、kはスタイル表におけるスタイルタイプの数を表す。例えば、スタイル表に1000個のスタイルタイプがあり、手書き字に対してスタイル表が1000個の手書きフォントを含む場合、kは999であってもよい。且つ、要素が1であると、対応する字が実に手で書いた字であることを表し、要素が-1であると、対応する字がモデルにより生成された字であることを表す。例えば、ターゲットドメインサンプル字が「イ尓」字であり、「イ尓」字のスタイルタイプは、スタイル表で998個目に位置し、且つ、ターゲットドメインサンプル字が実に手で書いた字であり、998個目の要素の数値が対応して1である場合、「イ尓」字の第1スタイル敵対的ベクトルは、E=[0,0,0……1,0]と表される。また、ターゲットドメイン生成字が「佳」字であり、「佳」字のスタイルタイプは、スタイル表で999個目に位置し、且つ、ターゲットドメイン生成字がモデルにより生成された字であり、第999個の要素の数値が対応して-1である場合、「佳」字の第2スタイル敵対的ベクトルは、F=[0,0,0……0,-1]と表すことができる。
【0108】
ターゲットドメインサンプル字に対し、ターゲット第1スタイル敵対的ベクトルE*=[e*,e*……e*……e*]が予め設定される。ここで、E*における各要素は、スタイル表における1つのスタイルタイプを表すことができる。ターゲットドメイン生成字に対し、ターゲット第2スタイル敵対的ベクトルF*=[f*,f*……f*……f*]が予め設定される。ここで、F*における各要素は、スタイル表における1つのスタイルタイプを表すことができる。ターゲット第1スタイル敵対的ベクトルE*は、ターゲットドメインサンプル字を識別モデルに入力して識別モデルが出力すべきベクトルを表す。例えば、ターゲットドメインサンプル字が「イ尓」字であり、「イ尓」字のスタイルタイプは、スタイル表で998個目に位置し、且つ、ターゲットドメインサンプル字が実に手で書いた字であり、998個目の要素の数値が対応して1である場合、「イ尓」字の第1スタイル敵対的ベクトルは、E*=[0,0,0……1,0]と表される。それに対応し、ターゲット第2スタイル敵対的ベクトルF*は、ターゲットドメイン生成字を識別モデルに入力して識別モデルが出力すべきベクトルを表す。例えば、ターゲット生成字が「佳」字であり、「佳」字のスタイルタイプは、スタイル表で999個目に位置し、且つ、ターゲットドメイン生成字がモデルにより生成された字であり、999個目の要素の数値が対応して-1である場合、「佳」字の第2スタイル敵対的ベクトルは、F*=[0,0,0……0,-1]と表すことができる。
【0109】
ターゲットドメインサンプル字の第1スタイル敵対的ベクトルEとターゲット第1スタイル敵対的ベクトルE*との間のクロスエントロピーに基づき、第1スタイル敵対的ロスを確定することができる。第1スタイル敵対的ロスは、以下のような式(8)で表すことができる。
【0110】
【数11】
(ただし、
【数12】
は、第1スタイル敵対的ロスを表し、eは、第1スタイル敵対的ベクトルにおける添え字がiの要素を表し、e*は、ターゲット第1スタイル敵対的ベクトルにおける添え字がiの要素を表し、iは、0以上k以下の整数であり、kは、第1スタイル敵対的ベクトルおよびターゲット第1スタイル敵対的ベクトルにおける要素数を表す。)
【0111】
ターゲットドメイン生成字の第2スタイル敵対的ベクトルDとターゲット第1スタイル敵対的ベクトルD*との間のクロスエントロピーに基づき、第2スタイル敵対的ロスを確定することができる。第2スタイル敵対的ロスは、以下のような式(9)で表すことができる。
【0112】
【数13】
(ただし、
【数14】
は、第2スタイル敵対的ロスを表し、fは、第2スタイル敵対的ベクトルにおける添え字がiの要素を表し、f*は、ターゲット第2スタイル敵対的ベクトルにおける添え字がiの要素を表し、iは、0以上k以下の整数であり、kは、第2スタイル敵対的ベクトルおよびターゲット第2スタイル敵対的ベクトルにおける要素数を表す。)
【0113】
第1スタイル敵対的ロスおよび第2スタイル敵対的ロスに基づき、文字生成モデルのスタイル敵対的ロスを確定することができる。文字生成モデルのスタイル敵対的ロスは、以下のような式(10)で表すことができる。
【0114】
【数15】

【数16】
は、文字生成モデルのスタイル敵対的ロスを表す。)
【0115】
コンポーネント分類モデルを用いてコンポーネント分類ロスを導入することにより、フォントスタイルの学習範囲を増加し、フォントスタイルの遷移の正確率を向上させ、識別モデルを用いて文字敵対的ロスおよびスタイル敵対的ロスを導入することにより、文字生成モデルの正確なフォントを学習する能力およびフォントスタイルを学習する能力を向上させることができ、文字分類モデルを用いて誤字ロスを導入することにより、文字生成モデルの誤字を生成する確率を減少する。
【0116】
第2トレーニングサンプルをターゲットモデルに入力し、第2ターゲットドメイン生成字を取得して文字分類モデルに入力し、第2誤字ロスを計算する。それに対応し、第1トレーニングサンプルをターゲットモデルに入力し、第1ターゲットドメイン生成字を取得して文字分類モデルに入力し、第1誤字ロスを計算する。
【0117】
識別モデルは、更に、ターゲットドメイン生成字が生成したいターゲットドメインサンプル字であるか否かを検出することに用いられる。ターゲットドメインサンプル字およびターゲットドメイン生成字を識別モデルに入力し、一致性ロスを取得する。
【0118】
ソースドメインサンプル字を文字生成モデルに入力して得られたターゲットドメイン生成字はスタイルが変換しただけで、コンテンツが変わらないことを確保するために、文字生成モデルに1つの一致性ロス(cycle-consistency loss)を追加することができる。該ロスは、ターゲットドメインサンプル字とターゲットドメイン生成字との間の違いに基づいて計算できる。例えば、ターゲットドメインサンプル字とターゲットドメイン生成字との2枚の画像の対応する各画素点の画素値を差分し、絶対値を求め、各画素点の違いを取得し、全ての画素点の違いを加算して文字生成モデルのサイクル一致性ロスを取得し、L1A2Bと記すことができる。
【0119】
好ましくは、文字生成モデルのトレーニング方法は、前記第2ターゲットドメインサンプル字および前記ターゲットドメイン生成字を識別モデルに入力し、一致性ロスを計算することと、前記一致性ロスに基づき、前記文字生成モデルのパラメータを調整することとを更に含む。
【0120】
S603において、前記第1文字敵対的ロス、前記第2文字敵対的ロス、前記コンポーネント分類ロス、前記スタイル敵対的ロス、前記第1誤字ロス、および前記第2誤字ロスに基づいて前記文字生成モデルのパラメータを調整する。
【0121】
本開示の技術案によれば、ターゲットモデルが予めトレーニングされた文字分類モデルを含むように設定し、文字分類モデルにより誤字ロスを計算し、文字生成モデルにより出力されたターゲットドメイン生成字の誤字率を拘束し、文字生成モデルの誤字を生成する確率を減少する。
【0122】
図7は、本開示の実施例に係る誤字ロスを用いて文字生成モデルを拘束するトレーニングシーンの図である。図7に示すように、第2トレーニングサンプルをターゲットモデル710に入力し、第2ターゲットドメイン生成字703を取得して文字分類モデル750に入力し、第2誤字ロス708を計算する。それに対応し、第1トレーニングサンプルをターゲットモデル710に入力し、第1ターゲットドメイン生成字を取得して文字分類モデル750に入力し、第1誤字ロスを計算する。
【0123】
図8は、本開示の一実施例に係る方法によりトレーニングされた文字生成モデルが字を生成する効果図である。ここで、ブロック内の字は実に手で書いた字であるが、ブロック内に位置しない字は文字生成モデルの生成字である。これにより分かるように、文字生成モデルの生成字のフォントスタイルは実に手で書いた字のフォントスタイルとほぼ一致し、且つ、崩した手書き字に対し、文字生成モデルは正確な字を生成することができる。
【0124】
図9は、本開示の実施例に係る文字生成方法のフローチャートであり、本実施例は、文字生成モデルをトレーニングすることにより、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換し、新たな文字を生成する場合に適用できる。本実施例の方法は、文字生成装置で実行することができ、該装置は、ソフトウェアおよび/またはハードウェアの方式で実現でき、具体的に、一定のデータ演算能力を持つ電子機器に構成され、該電子機器は、携帯電話、タブレットコンピュータ、車載端末およびデスクトップコンピュータ等のようなクライアント機器またはサーバ機器であってもよい。
【0125】
S901において、ソースドメイン入力字および対応するターゲットドメイン入力字を取得する。
【0126】
ソースドメイン入力字は、ターゲットドメインフォントスタイルに変換する必要がある字で形成された画像を意味してもよい。ターゲットドメイン入力字は、ターゲットドメインフォントスタイルの字で形成された画像を意味してもよい。ソースドメイン入力字に対してコンポーネントを分割し、ソースドメイン入力字を構成する少なくとも1つのコンポーネントを確定し、各コンポーネントに基づき、予め生成されたターゲットドメイン入力字の集合においてソースドメイン入力字に対応するターゲットドメイン入力字を選別する。ターゲットドメイン入力字の数は少なくとも1つである。
【0127】
ターゲットドメインフォントスタイルの字で形成された画像を予め取得し、ターゲットドメイン入力字の集合を形成することができる。該集合は、予め取得された全てのコンポーネントをカバーするターゲットドメインフォントスタイルの字で形成された画像である。例示的には、中国語文字に対し、ターゲットドメインフォントスタイルはユーザが手で書いたフォントスタイルであり、ユーザが認可して提供した手書きフォントスタイルの字の画像を予め取得してターゲットドメイン入力字の集合を生成することができる。より具体的には、全ての偏旁・部首をカバーした100個の字を予め設定し、且つ、該全ての偏旁・部首をカバーした100個の字に対し、手書きフォントスタイルの字を認可して提供してターゲットドメイン入力字の集合を生成することをユーザに提示することができる。
【0128】
S902において、前記ソースドメイン入力字および前記ターゲット入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得し、前記文字生成モデルは、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる。
【0129】
文字生成モデルは、文字生成モデルのトレーニング方法によるトレーニングで得られるものである。ターゲットドメイン新字とは、ソースドメイン入力字に対応するコンテンツのターゲットドメインフォントスタイルの字を意味してもよい。例えば、ソースドメイン入力字が楷書体字の画像であり、ターゲットドメイン新字が手書き字の画像であり、楷書体字の画像を文字生成モデルに入力し、ターゲットドメイン新字である手書き字の画像を取得することができる。
【0130】
ターゲットドメイン新字を取得した場合、ターゲットドメイン新字に基づいて字ライブラリを確立することができる。例えば、文字生成モデルにより生成された新字を記憶し、手書きフォントスタイルを有する字ライブラリを確立し、該字ライブラリは入力法に適用でき、ユーザは、該字ライブラリに基づく入力法を使用し、手書きフォントスタイルを有する字を直接取得することができ、ユーザの多様化のニーズを満たすことができ、ユーザーエクスペリエンスを向上させる。
【0131】
ソースドメイン入力字および対応するターゲットドメイン入力字を取得し、文字生成モデルに入力してターゲットドメイン新字を取得することにより、ソースドメイン入力字をターゲットドメイン新字に正確に変換することを実現し、ターゲットドメイン新字の生成正確率を高め、ターゲットドメイン新字の生成効率を高め、ターゲットドメイン新字の生成を向上させる人件費を低減することができる。
【0132】
本開示の実施例によれば、図10は、本開示の実施例における文字生成モデルのトレーニング装置の構造図であり、本開示の実施例は、文字生成モデルのトレーニングに適用される。ここで、文字生成モデルは、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換する場合に用いられる。該装置は、ソフトウェアおよび/またはハードウェアで実現され、具体的に、一定のデータ演算能力を持つ電子機器に構成される。
【0133】
図10に示す文字生成モデルのトレーニング装置1000は、第1トレーニングサンプルトレーニングモジュール1001と、第2トレーニングサンプルトレーニングモジュール1002と、第1ロス調整モジュール1003とを備える。
【0134】
第1トレーニングサンプルトレーニングモジュール1001は、第1トレーニングサンプルを取得し、前記第1トレーニングサンプルに基づいてターゲットモデルをトレーニングし、第1文字敵対的ロスを取得することに用いられ、前記第1トレーニングサンプルは、第1ソースドメインサンプル字、第1ターゲットドメインサンプル字、およびスタイルノイズ字を含み、前記スタイルノイズ字のスタイルタイプは前記第1ターゲットドメインサンプル字のスタイルタイプと同じであり、前記ターゲットモデルは、文字生成モデル、コンポーネント分類モデル、および識別モデルを含む。
【0135】
第2トレーニングサンプルトレーニングモジュール1002は、第2トレーニングサンプルを取得し、前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得することに用いられ、前記第2トレーニングサンプルは、第2ソースドメインサンプル字、第2ターゲットドメインサンプル字、およびスタイル標準字を含み、前記スタイル標準字のスタイルタイプは前記第2ターゲットドメインサンプル字のスタイルタイプと同じである。
【0136】
第1ロス調整モジュール1003は、前記第1文字敵対的ロス、前記第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整することに用いられる。
【0137】
本開示の技術案によれば、スタイルノイズ字を含む第1トレーニングサンプルおよびスタイル標準字を含む第2トレーニングサンプルに基づき、ターゲットモデル内の文字生成モデルをトレーニングし、字の基にノイズを追加することにより、ノイズ情報を含むトレーニングサンプルを確定して文字生成モデルをトレーニングすることで、文字生成モデルの未知フォントに対するスタイル変換の能力を向上させ、モデルの汎化能力を向上させることができ、且つ、ノイズ情報を含まないトレーニングサンプルと組み合わせて文字生成モデルをトレーニングし、モデルのスタイル変換を正確に実現する能力の向上と、モデルのスタイル変換の正確率の高めとを両立させることができる。
【0138】
更に、前記第1トレーニングサンプルトレーニングモジュール1001は、第1ソースドメインサンプル字および第1ターゲットドメインサンプル字を取得するための第1サンプル字取得ユニットと、標準字集合を取得し、ノイズ字集合を生成するためのノイズ字集合生成ユニットと、前記第1ソースドメインサンプル字に含まれるコンポーネントに基づき、前記ノイズ字集合からスタイルノイズ字を選択するためのスタイルノイズ字取得ユニットと、前記スタイルノイズ字、第1ソースドメインサンプル字、および第1ターゲットドメインサンプル字に基づき、第1トレーニングサンプルを確定するためのスタイルノイズ字取得ユニットとを備える。
【0139】
更に、前記ノイズ字集合生成ユニットは、前記標準字集合において、スタイルタイプが異なってコンテンツが同じである候補標準字を取得するための候補標準字取得サブユニットと、取得した候補標準字に基づき、前記候補標準字の有効画素分布情報を確定するための有効画素分布確定サブユニットと、前記有効画素分布情報に基づき、前記候補標準字の候補ノイズ字を生成して前記ノイズ字集合に追加するためのノイズ字集合生成サブユニットとを備える。
【0140】
更に、前記第1トレーニングサンプルは複数グループの第1トレーニングサンプルを含み、前記第2トレーニングサンプルは複数グループの第2トレーニングサンプルを含み、前記第1トレーニングサンプルトレーニングモジュール1001は、前記複数グループの第1トレーニングサンプルに基づき、前記ターゲットモデルに対して第1ラウンドのトレーニングを行うための第1ラウンドトレーニングユニットを備え、前記第2トレーニングサンプルトレーニングモジュールは、前記複数グループの第2トレーニングサンプルに基づき、前記ターゲットモデルに対して第2ラウンドのトレーニングを行うための第2ラウンドトレーニングユニットを備え、前記第1ラウンドのトレーニング回数は第2ラウンドのトレーニング回数よりも小さい。
【0141】
更に、前記第1トレーニングサンプルトレーニングモジュール1001は、前記第1ソースドメインサンプル字および前記スタイルノイズ字を前記文字生成モデルに入力し、第1ターゲットドメイン生成字を取得するための第1ターゲットドメイン生成字取得ユニットと、前記第1ターゲットドメイン生成字および前記第1ターゲットドメインサンプル字を前記識別モデルに入力し、第1文字敵対的ロスを取得するための第1文字敵対的ロス取得ユニットとを備える。
【0142】
更に、前記第2トレーニングサンプルトレーニングモジュール1002は、前記第2ソースドメインサンプル字および前記スタイル標準字を前記文字生成モデルに入力し、第2ターゲットドメイン生成字および前記スタイル標準字の標準スタイル特徴ベクトルを取得するための標準スタイル特徴ベクトル取得ユニットと、前記第2ターゲットドメイン生成字を前記文字生成モデルに入力し、前記第2ターゲットドメイン生成字の生成スタイル特徴ベクトルを取得するための生成スタイル特徴ベクトル取得ユニットと、前記生成スタイル特徴ベクトルおよび前記標準スタイル特徴ベクトルを前記コンポーネント分類モデルに入力し、コンポーネント分類ロスを計算するためのコンポーネント分類ロス計算ユニットと、前記第2ターゲットドメインサンプル字および前記第2ターゲットドメイン生成字を前記識別モデルに入力し、第2文字敵対的ロスおよびスタイル敵対的ロスを計算するための第2文字敵対的ロス計算ユニットとを備える。
【0143】
更に、前記ターゲットモデルは、予めトレーニングされた文字分類モデルを更に含み、前記装置は、前記第1トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第1誤字ロスを取得するための第1誤字ロス計算モジュールと、前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2誤字ロスを取得するための第2誤字ロス計算モジュールと、前記第1誤字ロスおよび前記第2誤字ロスに基づいて前記文字生成モデルのパラメータを調整するための第2ロス調整モジュールとを更に備える。
【0144】
上記文字生成モデルのトレーニング装置は、本開示のいずれかの実施例に係る文字生成モデルのトレーニング方法を実行することができ、文字生成モデルのトレーニング方法の実行に対応する機能モジュールおよび有益な効果を備える。
【0145】
本開示の実施例によれば、図11は、本開示の実施例における文字生成装置の構造図であり、本開示の実施例は、文字生成モデルをトレーニングすることにより、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換し、新たな文字を生成する場合に適用される。該装置は、ソフトウェアおよび/またはハードウェアで実現され、具体的に、一定のデータ演算能力を持つ電子機器に構成される。
【0146】
図11に示す文字生成装置1100は、入力字取得モジュール1101と、文字生成モジュール1102とを備える。
【0147】
入力字取得モジュール1101は、ソースドメイン入力字および対応するターゲットドメイン入力字を取得することに用いられる。
【0148】
文字生成モジュール1102は、前記ソースドメイン入力字および前記ターゲット入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得することに用いられ、前記文字生成モデルは、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる。
【0149】
ソースドメイン入力字および対応するターゲットドメイン入力字を取得し、文字生成モデルに入力してターゲットドメイン新字を取得することにより、ソースドメイン入力字をターゲットドメイン新字に正確に変換することを実現し、ターゲットドメイン新字の生成正確率を高め、ターゲットドメイン新字の生成効率を高め、ターゲットドメイン新字の生成を向上させる人件費を低減することができる。
【0150】
上記文字生成装置は、本開示のいずれかの実施例に係る文字生成方法を実行することができ、文字生成方法の実行に対応する機能モジュールおよび有益な効果を備える。
【0151】
本開示の技術案に係るユーザの個人情報の収集、記憶、使用、加工、伝達、提供、および公開等の処理は、いずれも関連法律法規の規定に該当し、公序良俗に反していない。
【0152】
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体、およびコンピュータプログラム製品を更に提供する。
【0153】
図12は、本開示の実施例を実施するための電子機器1200の例示的なブロック図を示す。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータのような様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯端末、携帯電話、スマートフォン、ウェララブル機器および他の類似する計算装置のような様々な形式の移動装置を表すこともできる。本発明に示されたコンポーネント、それらの接続、関係、およびそれらの機能は例示的なものに過ぎず、本発明に記載および/または要求される本開示の実現を限定するものではない。
【0154】
図12に示すように、機器1200は、計算ユニット1201を備え、読み出し専用メモリ(ROM)1202に記憶されたコンピュータプログラム、または記憶ユニット1208からランダムアクセスメモリ(RAM)1203にロードされたコンピュータプログラムに基づき、様々な適当な動作および処理を実行することができる。RAM 1203には、機器1200の操作に必要な様々なプログラムおよびデータが記憶されてもよい。計算ユニット1201、ROM 1202およびRAM 1203は、バス1204を介して互いに接続されている。入力/出力(I/O)インタフェース1205もバス1204に接続されている。
【0155】
機器1200における複数のコンポーネントはI/Oインタフェース1205に接続され、キーボード、マウス等のような入力ユニット1206と、各種のディスプレイ、スピーカ等のような出力ユニット1207と、磁気ディスク、光ディスク等のような記憶ユニット1208と、ネットワークカード、モデム、無線通信送受信機等のような通信ユニット1209とを備える。通信ユニット1209は、機器1200がインターネットのようなコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の機器と情報/データを交換することを許容する。
【0156】
計算ユニット1201は、処理および計算能力を有する汎用および/または専用の処理アセンブリであってもよい。計算ユニット1201のいくつかの例は、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、各種の専用の人工知能(AI)コンピューティングチップ、各種の機械学習モデルアルゴリズムを実行する計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適当なプロセッサ、コントローラ、マイクロコントローラ等を含んでもよいが、これらに限定されない。計算ユニット1201は、上記各方法および処理、例えば、文字生成モデルのトレーニング方法または文字生成方法を実行する。例えば、いくつかの実施例において、文字生成モデルのトレーニング方法または文字生成方法は、コンピュータソフトウェアプログラムとして実現でき、有形的に記憶ユニット1208のような機器可読媒体に含まれている。いくつかの実施例において、コンピュータプログラムの一部または全ては、ROM 1202および/または通信ユニット1209を介して機器1200にロードおよび/またはインストールされ得る。コンピュータプログラムがRAM 1203にロードされて計算ユニット1201により実行されると、上記文字生成モデルのトレーニング方法または文字生成方法の1つまたは複数のステップを実行することができる。あるいは、他の実施例において、計算ユニット1201は、他の任意の適当な方式(例えば、ファームウェアを介して)により、文字生成モデルのトレーニング方法または文字生成方法を実行するように構成され得る。
【0157】
本発明に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準パーツ(ASSP)、システムオンチップのシステム(SOC)、複合プログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現できる。これらの様々な実施形態は以下を含んでもよい。1つまたは複数のコンピュータプログラムに実施され、該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈することができ、該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、且つデータおよび命令を、該ストレージシステム、該少なくとも1つの入力装置、および該少なくとも1つの出力装置に伝送することができる専用または汎用のプログラマブルプロセッサであってもよい。
【0158】
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせでコードできる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供でき、これにより、プログラムコードがプロセッサまたはコントローラにより実行されると、フローチャートおよび/またはブロック図で規定された機能/操作が実施される。プログラムコードは、完全に機器で実行されてもよいし、一部が機器で実行されてもよいし、独立したソフトウェアパッケージとして一部が機器で実行されて一部がリモート機器で実行されてもよいし、完全にリモート機器またはサーバで実行されてもよい。
【0159】
本発明の明細書において、機器可読媒体は、命令実行システム、装置または機器に使用される、または命令実行システム、装置またはデバイスと合わせて使用されるプログラムを含有または記憶できる有形的な媒体であってもよい。機器可読媒体は、機器可読信号媒体または機器可読記憶媒体であってもよい。機器可読媒体は、電子の、磁気の、光の、電磁気の、赤外線の、または半導体のシステム、装置またはデバイス、または上記内容の任意の適当な組み合わせを含んでもよいが、これらに限定されない。機器可読記憶媒体の更なる具体的な例は、1つまたは複数の線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用ディスク(CD-ROM)、光記憶デバイス、磁気記憶デバイス、または上記内容の任意の適当な組み合わせを含む。
【0160】
ユーザとのインタラクションを提供するために、ここで説明するシステムおよび技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザがそれにより入力をコンピュータに提供することができるキーボードおよび指向装置(例えば、マウスまたはトラックボール)とを有する。他の種類の装置は、更にユーザとのインタラクションを提供するために使用できる。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、且つ、任意の形式(音入力、音声入力または、触覚入力を含む)でユーザからの入力を受信することができる。
【0161】
ここで説明するシステムおよび技術を、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、または中間コンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、ユーザがそれによりここで説明するシステムおよび技術の実施形態とインタラクションできるグラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータ)、またはこのようなバックグラウンドコンポーネント、中間コンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)により、システムのコンポーネントを互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ブロックチェーンネットワーク、およびインターネットを含む。
【0162】
コンピューティングシステムはクライアントおよびサーバを含んでもよい。クライアントとサーバとは、一般的に互いに離れ、且つ、通常、通信ネットワークを介してインタラクションを行う。対応するコンピュータで実行されて互いにクライアント-サーバ関係を持つコンピュータプログラムにより、クライアントとサーバとの関係を生成する。サーバはクラウドサーバであってもよく、分散システムのサーバであってもよく、ブロックチェーンと組み合わせたサーバであってもよい。
【0163】
上記に示す様々な形式のフローを用い、ステップを並べ替え、追加または削除することができることを理解すべきである。例えば、本開示に記載された各ステップは、並列に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本開示に開示された技術案の所望する結果を達成できる限り、本開示はここで限定しない。
【0164】
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要求および他の要因に基づき、様々な修正、組み合わせ、サブ組み合わせおよび代替が可能であることを理解すべできる。本開示の精神および原則内で行われる任意の修正、均等置換および改良等は、いずれも本開示の保護範囲内に含まれているべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12