IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人九州大学の特許一覧

特開2024-65509編集ラベル表現ベクトル生成装置、学習装置、編集ラベル表現ベクトル生成方法、学習方法及びプログラム
<>
  • 特開-編集ラベル表現ベクトル生成装置、学習装置、編集ラベル表現ベクトル生成方法、学習方法及びプログラム 図1
  • 特開-編集ラベル表現ベクトル生成装置、学習装置、編集ラベル表現ベクトル生成方法、学習方法及びプログラム 図2
  • 特開-編集ラベル表現ベクトル生成装置、学習装置、編集ラベル表現ベクトル生成方法、学習方法及びプログラム 図3
  • 特開-編集ラベル表現ベクトル生成装置、学習装置、編集ラベル表現ベクトル生成方法、学習方法及びプログラム 図4
  • 特開-編集ラベル表現ベクトル生成装置、学習装置、編集ラベル表現ベクトル生成方法、学習方法及びプログラム 図5
  • 特開-編集ラベル表現ベクトル生成装置、学習装置、編集ラベル表現ベクトル生成方法、学習方法及びプログラム 図6
  • 特開-編集ラベル表現ベクトル生成装置、学習装置、編集ラベル表現ベクトル生成方法、学習方法及びプログラム 図7
  • 特開-編集ラベル表現ベクトル生成装置、学習装置、編集ラベル表現ベクトル生成方法、学習方法及びプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024065509
(43)【公開日】2024-05-15
(54)【発明の名称】編集ラベル表現ベクトル生成装置、学習装置、編集ラベル表現ベクトル生成方法、学習方法及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240508BHJP
   G06N 20/00 20190101ALI20240508BHJP
【FI】
G06T7/00 350B
G06N20/00 130
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022174410
(22)【出願日】2022-10-31
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 公開日 令和4年3月19日 刊行物 「Font Generation with Missing Impression Labels」arXivウェブサイトにて公開(Web公開URL: https://arxiv.org/abs/2203.10348)
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504145342
【氏名又は名称】国立大学法人九州大学
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】木村 昭悟
(72)【発明者】
【氏名】松田 征也
(72)【発明者】
【氏名】内田 誠一
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096DA01
5L096FA33
5L096GA34
5L096HA11
5L096KA04
5L096KA07
(57)【要約】
【課題】ラベルから生成する画像の質を向上させる。
【解決手段】学習用データに付与された学習用ラベルに基づいて作成された、ラベルの共起頻度を示すラベル共起行列と、ラベルを示すラベル表現ベクトルとに基づいて、共起関係は強いが付与されていないラベルを補うベクトルである編集ラベル表現ベクトルを生成する、編集ラベル表現ベクトル生成装置。
【選択図】図2
【特許請求の範囲】
【請求項1】
学習用データに付与された学習用ラベルに基づいて作成された、ラベルの共起頻度を示すラベル共起行列と、ラベルを示すラベル表現ベクトルとに基づいて、共起関係は強いが付与されていないラベルを補うベクトルである編集ラベル表現ベクトルを生成する、
編集ラベル表現ベクトル生成装置。
【請求項2】
学習用画像に付与されるラベルを予測し、予測ラベル表現ベクトルを生成するラベル予測モデルと、
前記予測ラベル表現ベクトルの次元を削減し、次元数を元に戻し、圧縮ラベル表現ベクトルを生成するラベル圧縮モデルと、
前記圧縮ラベル表現ベクトルに基づいて画像を生成する画像生成モデルと、
前記画像生成モデルにより生成された画像がモデルにより生成された画像であるか否かを判定する画像判定モデルと、
前記学習用画像に対応する学習用ラベルに基づいて作成されたラベル表現ベクトルと前記圧縮ラベル表現ベクトルとの乖離を計算し、前記ラベル予測モデルと前記画像判定モデルとによる判定結果の乖離を計算する損失計算部と、
前記損失計算部により計算された前記乖離に基づいて前記画像生成モデルを更新するモデル更新部と、
を備える学習装置。
【請求項3】
前記損失計算部は、請求項1に記載された編集ラベル表現ベクトル生成装置により、前記学習用ラベルに基づいて作成された編集ラベル表現ベクトルと前記圧縮ラベル表現ベクトルとの乖離を計算する、
請求項2に記載の学習装置。
【請求項4】
学習用データに付与された学習用ラベルに基づいて作成された、ラベルの共起頻度を示すラベル共起行列と、ラベルを示すラベル表現ベクトルとに基づいて、共起関係は強いが付与されていないラベルを補うベクトルである編集ラベル表現ベクトルを生成する、
編集ラベル表現ベクトル生成方法。
【請求項5】
学習用画像に付与されるラベルを予測し、予測ラベル表現ベクトルを生成する及び前記学習用画像がモデルにより生成された画像であるか否かを判定するラベル予測ステップと、
前記予測ラベル表現ベクトルの次元を削減し、次元数を元に戻し、圧縮ラベル表現ベクトルを生成するラベル圧縮ステップと、
前記圧縮ラベル表現ベクトルに基づいて画像を生成する画像生成ステップと、
前記画像生成ステップにより生成された画像がモデルにより生成された画像であるか否かを判定する画像判定ステップと、
前記学習用画像に対応する学習用ラベルに基づいて作成されたラベル表現ベクトルと前記圧縮ラベル表現ベクトルとの乖離を計算し、前記ラベル予測ステップと前記画像判定ステップとによる判定結果の乖離を計算する損失計算ステップと、
前記損失計算ステップにより計算された前記乖離に基づいて前記画像生成ステップを更新するモデル更新ステップと、
を備える学習方法。
【請求項6】
請求項1に記載の編集ラベル表現ベクトル生成装置としてコンピュータを機能させるためのプログラム。
【請求項7】
請求項2に記載の学習装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、編集ラベル表現ベクトル生成装置、学習装置、編集ラベル表現ベクトル生成方法、学習方法及びプログラムに関する。
【背景技術】
【0002】
画像と画像に付けられたラベルのデータセットを用いて、画像を生成するモデルを作成し、当該モデルにラベルを入力することで、ラベルに対応する画像を出力させる技術がある。例えば非特許文献1及び2に開示がある。
【0003】
しかしながら、データセットにおいて画像に付けられたラベルが過不足なく付けられているとは限らない。例えば、付けられるべき又は付けられていてもよいラベルが画像に付けられていないことがある。このとき、当該ラベルに対応する画像を生成することは難しい。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Kaneko, Ushiku, Harada, “Class-distinct and class-mutual image generation with GANs,” Proc. British Machine Vision Conference (BMVC), 2019.
【非特許文献2】Matsuda, Kimura, Uchida, “Impressions2Font: Generating Fonts by Specifying Impressions,” Proc. International Conference on Document Analysis and Recognition (ICDAR), 2021.
【非特許文献3】Gulrajani, Ahmed, Arjovsky, Dumoulin, Couville, “Improving training of Wasserstein GANs,” Proc. Conference on Neural Information Processing Systems (NIPS), 2017.
【非特許文献4】Mirza, Osindero, “Conditional generative adversarial nets,” arXiv preprint 1411.1784, 2014.
【非特許文献5】Odena, Olah, Shlens, “Conditional image synthesis with auxiliary classifier GANs,” Proc. International Conference on Machine Learning (ICML), 2017.
【非特許文献6】Hausel, Ramsauer, Unterthiner, Nessler, Hochreiter, “GANs trained by a two time-scale update rule converge to a local Nash equilibrium,” Proc. Conference on Neural Information Processing Systems (NeurIPS), 2017.
【非特許文献7】Miyato, Koyama, “cGANs with projection discriminator,” Proc. International Conference on Learning Representations (ICLR), 2018.
【非特許文献8】Pennington, Socher, Manning, “GloVe: Global vectors for word representation,” Proc. Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014.
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、ラベルから生成する画像の質を向上させる編集ラベル表現ベクトル生成装置、学習装置、編集ラベル表現ベクトル生成方法、学習方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0006】
本発明の一態様は、学習用データに付与された学習用ラベルに基づいて作成された、ラベルの共起頻度を示すラベル共起行列と、ラベルを示すラベル表現ベクトルとに基づいて、共起関係は強いが付与されていないラベルを補うベクトルである編集ラベル表現ベクトルを生成する編集ラベル表現ベクトル生成装置である。
【0007】
本発明の一態様は、学習用画像に付与されるラベルを予測し、予測ラベル表現ベクトルを生成する及び前記学習用画像がモデルにより生成された画像であるか否かを判定するラベル予測モデルと、前記予測ラベル表現ベクトルの次元を削減し、次元数を元に戻し、圧縮ラベル表現ベクトルを生成するラベル圧縮モデルと、前記圧縮ラベル表現ベクトルに基づいて画像を生成する画像生成モデルと、前記画像生成モデルにより生成された画像がモデルにより生成された画像であるか否かを判定する画像判定モデルと、前記学習用画像に対応する学習用ラベルに基づいて作成されたラベル表現ベクトルと前記圧縮ラベル表現ベクトルとの乖離を計算し、前記ラベル予測モデルと前記画像判定モデルとによる判定結果の乖離を計算する損失計算部と、前記損失計算部により計算された前記乖離に基づいて前記画像生成モデルを更新するモデル更新部と、を備える学習装置である。
【発明の効果】
【0008】
本発明によれば、ラベルから生成する画像の質を向上させることができる。
【図面の簡単な説明】
【0009】
図1】本実施形態に係る画像生成システム1の構成を示す図である。
図2】本実施形態に係る編集ラベル表現ベクトル生成装置2の構成を示す図である。
図3】本実施形態に係る学習装置3の構成を示す図である。
図4】本実施形態に係る画像生成装置4の構成を示す図である。
図5】本実施形態における学習過程を示すフローチャートである。
図6】本実施形態における画像生成過程を示すフローチャートである。
図7】既存の手法と本実施形態の手法との比較を示す図である。
図8】実験により生成した画像の例である。
【発明を実施するための形態】
【0010】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
〈全体構成〉
図1は、本実施形態に係る画像生成システム1の構成を示す図である。画像生成システム1は、編集ラベル表現ベクトル生成装置2、学習装置3及び画像生成装置4を備える。編集ラベル表現ベクトル生成装置2は、学習用ラベル又は画像生成用ラベルに基づいて編集ラベル表現ベクトルを生成する。学習装置3は、学習用画像と学習用ラベルから作成された編集ラベル表現ベクトルを用いて内部の画像生成モデルなどを学習させる。学習装置3は、学習させた画像生成モデルなどを画像生成装置4に出力する。画像生成装置4は、画像生成用ラベルから作成された編集ラベル表現ベクトルに基づいて画像を生成する。
【0011】
1つの学習用画像に対応する学習用ラベルは1つに限られず、複数であってもよい。学習用ラベルは、例えば学習用画像の特徴を示すラベルである。例えば、学習用画像があるフォントの文字であるとき、学習用ラベルは、当該フォントの文字から受ける印象や性質などを示す。
【0012】
〈編集ラベル表現ベクトル生成装置〉
図2は、本実施形態に係る編集ラベル表現ベクトル生成装置2の構成を示す図である。編集ラベル表現ベクトル生成装置2は、ラベル表現部21、ラベル共起行列生成部22及びラベル編集部23を備える。
【0013】
ラベル表現部21は、入力される学習用ラベル又は画像生成用ラベルを、学習用ラベル又は画像生成用ラベルを示すベクトル(以下、ラベル表現ベクトルと呼ぶ)に変換する。ラベル表現ベクトルは、例えば取り得るラベルの数と同じ次元数であり、ラベルに対応する次元の値を1、それ以外の次元の値を0とするマルチホットベクトルである。例えばn番目の学習用画像に対応する学習用ラベルから作成されるn番目のラベル表現ベクトルyは、取り得るラベルの数をKとすると例えば式(1)により表される。
【数1】
【0014】
ラベル共起行列生成部22は、入力される学習用ラベルに基づいて、ラベルの共起頻度を示すラベル共起行列を生成する。ラベル共起行列Tは、例えばK×Kの行列である。ラベル共起行列生成部22は、例えば式(2)によりラベル共起行列Tを算出する。
【数2】
ここでPは条件付き確率を示す。Nはラベル表現ベクトルの数を示す。つまりラベル共起行列Tのi行j列目の成分(Tij)は、N個のラベル表現ベクトルyにおいてi次元目に対応するラベルが含まれるときに、j次元目に対応するラベルが含まれる(共起する)確率を示す。
【0015】
ラベル編集部23は、ラベル表現ベクトル及びラベル共起行列から、共起関係は強いが付与されていないラベルを補うベクトル(以下、編集ラベル表現ベクトルと呼ぶ)を生成する。編集ラベル表現ベクトルy CMLEは、式(3)により表され、各成分は式(4)により算出される。
【0016】
【数3】
【数4】
【0017】
つまり、ラベル編集部23は、ラベル表現ベクトルyにおいて0である成分を、Tij及びラベル表現ベクトルyの各成分に基づいて推定し編集ラベル表現ベクトルy CMLEを生成する。ラベル表現ベクトルyにおいて、j次元目に対応するラベルが含まれないが、i次元目に対応するラベルが含まれかつ2つのラベルの共起頻度が高い、つまり、yn,j=0、yn,i=1であり、Tijが比較的大きい値であるとき、yn,j CMLEは0でない値をとる。これにより、ラベル編集部23は、共起頻度が高いが付与されていないラベルを擬似的に付与したラベル表現ベクトルを生成することができる。
【0018】
〈学習装置〉
図3は、本実施形態に係る学習装置3の構成を示す図である。学習装置3は、ラベル予測モデル31、ラベル圧縮モデル32、埋め込みモデル33、画像生成モデル34、画像判定モデル35、損失計算部36、モデル更新部37及びモデル出力部38を備える。
【0019】
ラベル予測モデル31は、入力される学習用画像のラベル表現ベクトルを予測し、予測ラベル表現ベクトルを生成する。予測ラベル表現ベクトルy Auxはラベル表現ベクトルy同様、式(5)により表される。
【数5】
【0020】
また、ラベル予測モデル31は、入力される画像が学習用画像であるか、一般的な画像生成モデルにより生成される生成画像であるかを判定してもよい。ラベル予測モデル31は、例えば入力される画像が生成画像であるとき0を出力し、学習用画像であるとき1を出力してもよい。
【0021】
また、ラベル予測モデル31は、入力される学習用画像の条件情報を予測してもよい。例えば、学習用画像が文字であるとき、条件情報は文字クラスである。
【0022】
ラベル圧縮モデル32は、予測ラベル表現ベクトルの次元を削減し、その後、次元数を元に戻し、圧縮したベクトル(以下、圧縮ラベル表現ベクトルy ILSCと呼ぶ)を生成する。これにより、ラベル圧縮モデル32は、予測ラベル表現ベクトルに含まれないラベルに対するロバストネスを高めることができる。ラベル圧縮モデル32は、例えば2層の全結合層であり、エンコーダデコーダである。ラベル圧縮モデル32は、例えばK次元の予測ラベル表現ベクトルをK次元よりずっと小さいd次元のベクトルにエンコードし、K次元のベクトルにデコードすることで圧縮ラベル表現ベクトルy ILSCを生成する。この手法により、y ILSCの各成分の値はy Auxの対応する成分の値と等しい又は値よりも大きくすることができ、含まれないラベルに対するロバストネスが高まる。
【0023】
埋め込みモデル33は、圧縮ラベル表現ベクトルに基づいて埋め込みベクトルを生成する。埋め込みモデル33は、K種類のラベルに対応するテキストをベクトルに埋め込むモデルであれば何でもよい。埋め込みモデル33は、例えばWord2vecやGloVeである。Gloveは非特許文献8に開示されている埋め込みモデルである。i∈{1、2、・・・、K}番目のラベルに対応するD次元のベクトルをtとすると、埋め込みベクトルsは、式(6)により表される。
【数6】
【0024】
画像生成モデル34は、埋め込みベクトルに基づいて画像を生成する。画像生成モデル34は、非特許文献1に記載されたCP-GANと同様に敵対的生成ネットワークにおける生成器(generator)であればよい。画像生成モデル34は、埋め込みベクトルに加えノイズ(例えばガウスノイズ)に基づいて画像を生成してもよい。ラベル予測モデル31が条件情報を予測するとき、画像生成モデル34は埋め込みベクトルに加え条件情報に基づいて画像を生成する。
【0025】
画像判定モデル35は、入力される画像が学習用画像であるか、一般的な画像生成モデルにより生成される生成画像であるかを判定する。画像判定モデル35は、例えば入力される画像が生成画像であるとき0を出力し、学習用画像であるとき1を出力する。
【0026】
損失計算部36は、各モデルの生成物と望ましい生成物との間の乖離を計算する。損失計算部36は、例えばラベル圧縮モデル32により生成される圧縮ラベル表現ベクトルy ILSCと編集ラベル表現ベクトル生成装置2により学習用ラベルから生成される編集ラベル表現ベクトルy CMLEとの乖離を算出する。y ILSCとy CMLEとの乖離は例えばCross entropy loss又はKullback-Leibler divergenceである。損失計算部36は、ラベル予測モデル31による画像の判定結果と、画像判定モデル35による画像の判定結果との乖離を計算してもよい。損失計算部36は、例えば非特許文献3に開示されたWGAN-GPを使用して2つの判定結果の乖離を計算してもよい。
損失計算部36は、条件情報の乖離を計算してもよい。損失計算部36は、この乖離を、ラベル表現ベクトル同様例えばCross entropy loss又はKullback-Leibler divergenceとして計算する。
【0027】
モデル更新部37は、損失計算部36により計算された各々の乖離に基づいてラベル予測モデル31、ラベル圧縮モデル32、画像生成モデル34、画像判定モデル35を更新する。モデル更新部37は、例えばラベル表現ベクトルの乖離が小さく、判定結果の乖離が小さくなるように、ラベル予測モデル31、ラベル圧縮モデル32、画像生成モデル34、画像判定モデル35を更新する。例えば、モデル更新部37は、各々の乖離に対応するモデルを特定できる場合、各々の乖離に対応するモデルのパラメータを独立して更新する。モデル更新部37は、各々の乖離に対応するモデルを特定できる場合、モデルの更新順序を予め決定し、対応する乖離に基づいて各々のモデルのパラメータを更新する。モデル更新部37は、計算された各々の乖離の重み付き和を全体の損失として、全体の損失を小さくするようにモデル全体を更新してもよい。
【0028】
ラベル予測モデル31及び画像判定モデル35は、ともにGANにおける識別器であって、同一のモデルであってもよい。このとき、同一のモデルに学習用画像及び生成画像が入力され、入力された画像が判定されるため、モデル更新部37は、損失に基づいて従来のGANの識別器の学習と同様に、ラベル予測モデル31及び画像判定モデル35を更新してもよい。
【0029】
モデル出力部38は、画像生成モデル34を画像生成装置4に出力する。
【0030】
〈画像生成装置〉
図4は、本実施形態に係る画像生成装置4の構成を示す図である。画像生成装置4は、埋め込みモデル41、画像生成モデル34を備える。埋め込みモデル41は埋め込みモデル33と同じであってよい。また、画像生成モデル34は、学習装置3により学習され出力されたモデルである。
埋め込みモデル41は、画像生成用ラベルから生成された編集ラベル表現ベクトルに基づいて埋め込みベクトルを生成する。画像生成モデル34は、埋め込みベクトルに基づいて画像を生成する。
【0031】
図5は、本実施形態における学習過程を示すフローチャートである。
学習装置3において、ラベル予測モデル31は、学習用画像に基づいて予測ラベル表現ベクトルを生成する(ステップS101)。このとき、ラベル予測モデル31は、学習用画像の判定結果を生成してもよい。その後、ラベル圧縮モデル32は、予測ラベル表現ベクトルに基づいて圧縮ラベル表現ベクトルを生成する(ステップS102)。その後、埋め込みモデル33は圧縮ラベル表現ベクトルに基づいて埋め込みベクトルを生成する(ステップS103)。画像生成モデル34は、埋め込みベクトルに基づいて画像を生成する(ステップS104)。画像判定モデル35は、画像生成モデル34により生成された画像を判定する(ステップS105)。また、編集ラベル表現ベクトル生成装置2において、ラベル表現部21が学習用ラベルに基づいてラベル表現ベクトルを生成する(ステップS201)。ラベル共起行列生成部22は学習用ラベルに基づいて共起行列を生成する(ステップS202)。ラベル編集部23は、ラベル表現ベクトル及び共起行列に基づいて、編集ラベル表現ベクトルを生成する(ステップS203)。ステップS101~105とステップS201~203とは並行して行われてもよいし、ステップS101~105が先に行われてもよいし、ステップS201~203が先に行われてもよい。
【0032】
損失計算部36は、圧縮ラベル表現ベクトルと編集ラベル表現ベクトルとの乖離などに基づいて損失を計算する(ステップS106)。モデル更新部37は、損失に基づいてラベル予測モデル31などの学習装置3のモデルを更新する(ステップS107)。全ての学習用画像及び学習用ラベルを使用せず、学習が終了していない場合(ステップS108:NO)、ステップS101及びステップS201との動作を繰り返す。なお、このときラベル共起行列生成部22は、ラベル共起行列を再度生成する必要はなく、ステップS202を行わなくてもよい。
【0033】
学習が終了している場合(ステップS108:YES)、モデル出力部38は画像生成モデル34を画像生成装置4に出力する(ステップS109)。
【0034】
図6は、本実施形態における画像生成過程を示すフローチャートである。ラベル表現部21が画像生成用ラベルに基づいてラベル表現ベクトルを生成する(ステップS301)。編集ラベル表現ベクトルは画像生成用ラベルに基づくラベル表現ベクトルとラベル共起行列とに基づいて編集ラベル表現ベクトルを生成する(ステップS302)。その後、画像生成装置4において、埋め込みモデル41が編集ラベル表現ベクトルに基づいて埋め込みベクトルを生成し(ステップS303)、画像生成モデル34が埋め込みベクトルに基づいて画像を生成する(ステップS304)。
【0035】
〈実験例〉
以下、行った実験について説明する。実験には非特許文献4に開示されたデータセットMyFontsを使用した。MyFontsにおいて、各フォントにフォントの文字から受ける印象語が付与されている。学習用画像として各フォントで表された文字、学習用ラベルとして各フォントに付与された印象語を使用した。また、文字の種類(アルファベットのAからZまで)を条件情報して使用した。
【0036】
図7は、既存の手法と本実施形態の手法との比較を示す図である。既存の条件付き画像生成の手法であるC-GAN, AC-GAN, CP-GAN, Imp2Fontの4つの手法と比較を行った。C-GANは非特許文献4に開示され、AC-GANは非特許文献5に開示され、CP-GANは非特許文献1に開示され、Imp2Fontは非特許文献2に開示される手法である。また、比較として、本実施形態の手法においてラベル圧縮モデル32により圧縮を行わない手法(w/o ILSC)及びラベル編集部23によりラベル編集を行わない手法(w/o CMLE)を行った。本実施形態の結果はFull modelで示す結果である。
【0037】
FIDは生成された画像の質を評価する指標であり、小さい値ほど質が良いことを示す。FIDは、非特許文献6に開示されている。Intra-FIDは、ラベル種類ごとにFIDを平均化した指標であり、小さい値ほど質が良いことを示す。Intra-FIDは、非特許文献7に開示されている。mAP-train及びmAP-testは敵対的生成ネットワークの評価指標として広く用いられる GAN-trainおよびGAN-testをマルチラベル条件に拡張した指標であり、生成された画像の多様性と質の双方を統合して評価する指標である。mAP-train及びmAP-testは、大きい値ほど結果が良いことを示す。
FID、mAP-train及びmAP-testにおいてはFull modelの値が最良となった。また、Intra-FIDにおいても既存手法と遜色ない値となった。これにより、本実施形態の手法は既存の手法よりもより質の良い画像を生成することができる。
【0038】
図8は、実験により生成した画像の例である。画像生成において画像生成モデル34に入力するノイズを4通りに変化させて、画像を生成させた。Imp2Fontにおいては、ラベルを固定したときに画像の多様性が乏しいが、Full modelにおいては、ラベルの印象を維持し、多様かつ可読性の高い文字画像を生成している。
【0039】
〈他の実施形態〉
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【0040】
上述した実施形態における画像生成システム1の一部又は全部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記録装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものを含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。また、画像生成システム1の一部または全部は、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【符号の説明】
【0041】
1 画像生成システム、2 編集ラベル表現ベクトル生成装置、3 学習装置、4 画像生成装置、21 ラベル表現部、22 ラベル共起行列生成部、23 ラベル編集部、31 ラベル予測モデル、32 ラベル圧縮モデル、33、41 埋め込みモデル、34 画像生成モデル、35 画像判定モデル、36 損失計算部、37 モデル更新部、38 モデル出力部
図1
図2
図3
図4
図5
図6
図7
図8