特開2022-107580 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバー　コーポレーションの特許一覧 ▶ ＬＩＮＥ株式会社の特許一覧

特開2022-107580イメージで文字部分を変更する方法、コンピュータ装置、およびコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022107580

(43)【公開日】2022-07-22

(54)【発明の名称】イメージで文字部分を変更する方法、コンピュータ装置、およびコンピュータプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20220714BHJP

【ＦＩ】

G06T7/00 350C

【審査請求】有

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2021208926

(22)【出願日】2021-12-23

(31)【優先権主張番号】10-2021-0003277

(32)【優先日】2021-01-11

(33)【優先権主張国・地域又は機関】KR

(71)【出願人】

【識別番号】505205812

【氏名又は名称】ネイバーコーポレーション

【氏名又は名称原語表記】ＮＡＶＥＲＣｏｒｐｏｒａｔｉｏｎ

(71)【出願人】

【識別番号】321003371

【氏名又は名称】ＬＩＮＥ株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】金胤植

(72)【発明者】

【氏名】李俊▲よぷ▼

(72)【発明者】

【氏名】朴星來

(72)【発明者】

【氏名】金性賢

(72)【発明者】

【氏名】任文彬

(72)【発明者】

【氏名】申勝

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096BA17

5L096DA01

5L096FA44

5L096HA11

5L096JA11

5L096KA04

5L096KA15

(57)【要約】

【課題】イメージで文字部分を変更する方法、コンピュータ装置、およびコンピュータプログラムを提供する。
【解決手段】文字変更方法は、第１イメージと第２イメージから、文字部分を示すコンテンツ特徴と前記文字部分以外の残りの部分を示すスタイル特徴を分離して抽出する段階、および前記第１イメージから抽出したスタイル特徴と前記第２イメージから抽出したコンテンツ特徴を結合することにより、コンテンツが変更された編集イメージを生成する段階を含む。
【選択図】図３

【特許請求の範囲】

【請求項1】

コンピュータ装置が実行する文字変更方法であって、
前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記文字変更方法は、
前記少なくとも１つのプロセッサが、第１イメージと第２イメージから、文字部分を示すコンテンツ特徴と前記文字部分以外の残りの部分を示すスタイル特徴を分離して抽出する段階、および
前記少なくとも１つのプロセッサが、前記第１イメージから抽出したスタイル特徴と前記第２イメージから抽出したコンテンツ特徴を結合することにより、コンテンツが変更された編集イメージを生成する段階
を含む、文字変更方法。

【請求項2】

前記抽出する段階は、
イメージ表現（ｉｍａｇｅｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を前記スタイル特徴と前記コンテンツ特徴に分離する特徴分解（ｆｅａｔｕｒｅｄｅｃｏｍｐｏｓｉｔｉｏｎ）過程を実行すること
を特徴とする、請求項１に記載の文字変更方法。

【請求項3】

前記文字変更方法は、
エンコーダ（ｅｎｃｏｄｅｒ）と生成器（ｇｅｎｅｒａｔｏｒ）を含む編集モデルを利用して、前記第１イメージのスタイルは維持しながら、前記第１イメージのコンテンツを前記第２イメージのコンテンツに変更すること
を特徴とする、請求項１または２に記載の文字変更方法。

【請求項4】

前記文字変更方法は、
前記少なくとも１つのプロセッサが、ラベルが指定されていない実際のイメージ（ｕｎｌａｂｅｌｅｄｒｅａｌ－ｗｏｒｌｄｉｍａｇｅｓ）を利用した自己教師あり訓練（ｓｅｌｆ－ｓｕｐｅｒｖｉｓｅｄｔｒａｉｎｉｎｇ）により、前記編集モデルを学習する段階をさらに含み、
前記学習する段階は、
条件付き雑音制御オートエンコーダ損失（ｃｏｎｄｉｔｉｏｎｅｄｄｅｎｏｉｓｉｎｇａｕｔｏｅｎｃｏｄｅｒｌｏｓｓ）を適用して、前記編集モデルを学習するか、または
前記実際イメージをコンテンツ特徴を抽出するためのイメージとして使用し、前記実際イメージから一部領域を切り取った（ｃｕｔｏｕｔ）ノイズイメージをスタイル特徴を抽出するためのイメージとして使用して、前記編集モデルを学習するか、または
前記編集イメージを入力イメージとし、前記入力イメージが前記第１イメージから抽出されたスタイル特徴と前記第２イメージから抽出されたコンテンツ特徴を合成したイメージであるかを判別する判別器（ｄｉｓｃｒｉｍｉｎａｔｏｒ）を使用して、前記編集モデルを学習すること
を特徴とする、請求項３に記載の文字変更方法。

【請求項5】

請求項１～４のうちのいずれか一項に記載の文字変更方法を前記コンピュータ装置に実行させるためのコンピュータプログラム。

【請求項6】

コンピュータ装置であって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
第１イメージと第２イメージから、文字部分を示すコンテンツ特徴と前記文字部分以外の残りの部分を示すスタイル特徴を分離して抽出し、
前記第１イメージから抽出したスタイル特徴と前記第２イメージから抽出したコンテンツ特徴を結合することにより、コンテンツが変更された編集イメージを生成すること
を特徴とする、コンピュータ装置。

【請求項7】

前記少なくとも１つのプロセッサは、
イメージ表現を前記スタイル特徴と前記コンテンツ特徴に分離する特徴分解過程を実行すること
を特徴とする、請求項６に記載のコンピュータ装置。

【請求項8】

前記少なくとも１つのプロセッサは、
エンコーダと生成器を含む編集モデルを利用して、前記第１イメージのスタイルは維持しながら、前記第１イメージのコンテンツを前記第２イメージのコンテンツに変更すること
を特徴とする、請求項６または７に記載のコンピュータ装置。

【発明の詳細な説明】

【技術分野】

【0001】

以下の説明は、文字があるイメージで文字部分を変更する技術に関する。

【背景技術】

【0002】

情景文字認識（ｓｃｅｎｅｔｅｘｔｒｅｃｏｇｎｉｔｉｏｎ）技術は、文書において、情報抽出、視覚的質問への返答、ナンバープレート認識などのようなダウンストリーム技術に適用可能であることから、多くの関心が寄せられている。

【0003】

例えば、特許文献１（登録日２０１９年１１月１日）には、画像内で文字を認識する技術が開示されている。

【0004】

近年のディープニューラルネットワークを基盤とした情景文字認識モデルは、多様なスタイルの文字を認識するにおいて、驚くほど成果を上げている。

【0005】

情景文字認識モデルは、大規模ラベルが指定された訓練データを自動で構築する合成データ生成エンジンを利用している。

【0006】

訓練段階で実際の画像を使用すればモデルの性能は上昇するが、大規模な訓練データセットを取得する作業に多くの時間と費用がかかる。この反面、合成データの生成は比較的容易であるため、情景文字認識モデルでは主に合成データセットを使用している。

【0007】

情景文字認識モデルを訓練する方法は、規則に基づいた接近法であるため、合成データセットを使用する場合には多くの文字イメージを提供することは可能であるが、実際のスタイルを取り扱うことができない場合が多い。

【先行技術文献】

【特許文献】

【0008】

【特許文献1】韓国登録特許第１０－２０４２１３１号公報

【発明の概要】

【発明が解決しようとする課題】

【0009】

情景文字イメージ（ｓｃｅｎｅｔｅｘｔｉｍａｇｅ）において、フォント（ｆｏｎｔ）、文字揃え（ｔｅｘｔａｌｉｇｎｍｅｎｔ）、背景（ｂａｃｋｇｒｏｕｎｄ）のようなスタイルは維持しながら、文字部分だけを所望のコンテンツに変更する方法および装置を提供する。

【0010】

イメージ表現（ｉｍａｇｅｒｅｐｒｅｓｅｎｔａｔｉｏｎ）をスタイル特徴（ｓｔｙｌｅｆｅａｔｕｒｅ）とコンテンツ特徴（ｃｏｎｔｅｎｔｆｅａｔｕｒｅ）に分離する方法により、文字部分を変更する方法および装置を提供する。

【0011】

所望の文字に対する新たなコンテンツ特徴を生成して与えられたイメージのスタイル特徴と結合する方式により、該当のイメージで文字部分だけを変更する方法および装置を提供する。

【課題を解決するための手段】

【0012】

コンピュータ装置が実行する文字変更方法であって、前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記文字変更方法は、前記少なくとも１つのプロセッサが、第１イメージと第２イメージから、文字部分を示すコンテンツ特徴と前記文字部分以外の残りの部分を示すスタイル特徴を分離して抽出する段階、および前記少なくとも１つのプロセッサが、前記第１イメージから抽出したスタイル特徴と前記第２イメージから抽出したコンテンツ特徴を結合することにより、コンテンツが変更された編集イメージを生成する段階を含む、文字変更方法を提供する。

【0013】

一側面によると、前記抽出する段階は、イメージ表現（ｉｍａｇｅｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を前記スタイル特徴と前記コンテンツ特徴に分離する特徴分解（ｆｅａｔｕｒｅｄｅｃｏｍｐｏｓｉｔｉｏｎ）過程を実行してよい。

【0014】

他の側面によると、前記文字変更方法は、エンコーダ（ｅｎｃｏｄｅｒ）と生成器（ｇｅｎｅｒａｔｏｒ）を含む編集モデルを利用して、前記第１イメージのスタイルは維持しながら、前記第１イメージのコンテンツを前記第２イメージのコンテンツに変更してよい。

【0015】

また他の側面によると、前記編集モデルは、イメージ表現を前記スタイル特徴と前記コンテンツ特徴に分離する特徴分解のために文字認識器（ｔｅｘｔｒｅｃｏｇｎｉｚｅｒ）を含んでよい。

【0016】

また他の側面によると、前記文字認識器は、前記コンテンツ特徴のアテンション機構（ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ）があるＬＳＴＭ（Ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ）デコーダで構成されてよい。

【0017】

また他の側面によると、前記文字変更方法は、前記少なくとも１つのプロセッサが、ラベルが指定されていない実際のイメージ（ｕｎｌａｂｅｌｅｄｒｅａｌ－ｗｏｒｌｄｉｍａｇｅｓ）を利用した自己教師あり訓練（ｓｅｌｆ－ｓｕｐｅｒｖｉｓｅｄｔｒａｉｎｉｎｇ）により、前記編集モデルを学習する段階をさらに含んでよい。

【0018】

また他の側面によると、前記学習する段階は、条件付き雑音制御オートエンコーダ損失（ｃｏｎｄｉｔｉｏｎｅｄｄｅｎｏｉｓｉｎｇａｕｔｏｅｎｃｏｄｅｒｌｏｓｓ）を適用して、前記編集モデルを学習してよい。

【0019】

また他の側面によると、前記学習する段階は、前記実際のイメージをコンテンツ特徴を抽出するためのイメージとして使用し、前記実際のイメージから一部領域を切り取った（ｃｕｔｏｕｔ）ノイズイメージをスタイル特徴を抽出するためのイメージとして使用して、前記編集モデルを学習してよい。

【0020】

また他の側面によると、前記学習する段階は、前記編集イメージを入力イメージとし、前記入力イメージが、前記第１イメージから抽出したスタイル特徴と前記第２イメージから抽出したコンテンツ特徴を合成したイメージであるかを判別する判別器（ｄｉｓｃｒｉｍｉｎａｔｏｒ）を使用して、前記編集モデルを学習してよい。

【0021】

また他の側面によると、前記学習する段階は、ＧＡＮ（ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋ）モデルと特徴マッチング損失（ｆｅａｔｕｒｅｍａｔｃｈｉｎｇｌｏｓｓ）を使用して前記判別器の中間特徴マップを抽出し、生成されたサンプルとターゲットサンプルの距離を最小化する方向で前記編集モデルを学習してよい。

【0022】

前記文字変更方法を前記コンピュータ装置に実行させるためのコンピュータプログラムを提供する。

【0023】

コンピュータ装置であって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、、第１イメージと第２イメージから、文字部分を示すコンテンツ特徴と前記文字部分以外の残りの部分を示すスタイル特徴を分離して抽出し、前記第１イメージから抽出したスタイル特徴と前記第２イメージから抽出したコンテンツ特徴を結合することにより、コンテンツが変更された編集イメージを生成することを特徴とする、コンピュータ装置を提供する。

【発明の効果】

【0024】

本発明の実施形態によると、イメージ表現をスタイル特徴とコンテンツ特徴に分離する方法により、情景文字イメージにおいて、フォント、文字揃え、背景のようなスタイルは維持しながら、文字部分だけを所望のコンテンツに変更することができる。

【0025】

本発明の実施形態によると、ターゲット文字に対するコンテンツ特徴を生成して与えられたイメージのスタイル特徴と結合する方式により、該当のイメージで文字部分だけを変更することができる。

【0026】

本発明の実施形態によると、ラベルが指定されていない実際のイメージ（ｕｎｌａｂｅｌｅｄｒｅａｌ－ｗｏｒｌｄｉｍａｇｅｓ）を利用して情景文字編集モデルを学習することにより、学習データセットを設けるための時間と費用を節減できることはもちろん、モデルが合成スタイルに偏ることを防ぐことができ、訓練とテスト環境の間に生じるドメイン格差を解消することができる。

【図面の簡単な説明】

【0027】

【図1】本発明の一実施形態における、コンピュータ装置の内部構成の一例を説明するためのブロック図である。

【図2】本発明の一実施形態における、コンピュータ装置が実行することのできる文字変更方法の例を示したフローチャートである。

【図3】本発明の一実施形態における、情景文字編集モデル構造を示した図である。

【図4】本発明の一実施形態における、合成イメージを利用したモデル訓練過程を説明するための図である。

【図5】本発明の一実施形態における、実際のイメージを利用したモデル訓練過程を説明するための図である。

【図6】本発明の一実施形態における、情景文字編集モデルを利用した文字変更の例を示した図である。

【発明を実施するための形態】

【0028】

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。

【0029】

本発明の実施形態は、文字があるイメージで文字部分を変更する技術に関する。

【0030】

本明細書で具体的に開示される事項を含む実施形態は、与えられた情景文字イメージにおいて、フォント、文字揃え、背景のようなスタイルは維持しながら、文字だけを所望のコンテンツに変更することができる。

【0031】

図１は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。例えば、本発明の実施形態に係る文字変更システムは、図１に示したコンピュータ装置１００によって実現されてよい。

【0032】

図１に示すように、コンピュータ装置１００は、本発明の一実施形態に係る文字変更方法を実行するための構成要素として、メモリ１１０、プロセッサ１２０、通信インタフェース１３０、および入力／出力インタフェース１４０を含んでよい。

【0033】

メモリ１１０は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭやディスクドライブのような永続的大容量記録装置は、メモリ１１０とは区分される別の永続的記録装置としてコンピュータ装置１００に含まれてもよい。また、メモリ１１０には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ１１０とは別のコンピュータ読み取り可能な記録媒体からメモリ１１０にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース１３０を通じてメモリ１１０にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク１６０を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置１００のメモリ１１０にロードされてよい。

【0034】

プロセッサ１１０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ１１０または通信インタフェース１３０によって、プロセッサ１２０に提供されてよい。例えば、プロセッサ１２０は、メモリ１１０のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

【0035】

通信インタフェース１３０は、ネットワーク１６０を介してコンピュータ装置１００が他の装置と互いに通信するための機能を提供してよい。一例として、コンピュータ装置１００のプロセッサ１２０がメモリ１１０のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース１３０の制御にしたがってネットワーク１６０を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク１６０を経てコンピュータ装置１００の通信インタフェース１３０を通じてコンピュータ装置１００に受信されてよい。通信インタフェース１３０を通じて受信された信号や命令、データなどは、プロセッサ１２０やメモリ１１０に伝達されてよく、ファイルなどは、コンピュータ装置１００がさらに含むことのできる記録媒体（上述した永続的記録装置）に記録されてよい。

【0036】

通信方式が制限されることはなく、ネットワーク１６０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網）を活用する通信方式だけでなく、機器間の近距離有線／無線通信が含まれてもよい。例えば、ネットワーク１６０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークうちの１つ以上の任意のネットワークを含んでよい。また、ネットワーク１６０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的（ｈｉｅｒａｒｃｈｉｃａｌ）ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでよいが、これらに制限されることはない。

【0037】

入力／出力インタフェース１４０は、入力／出力装置１５０とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、カメラ、マウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力／出力インタフェース１４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置１５０は、コンピュータ装置１００と１つの装置で構成されてもよい。

【0038】

また、他の実施形態において、コンピュータ装置１００は、図１の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータシステム１００は、上述した入力／出力装置１５０のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。

【0039】

本実施形態は、広告、情景テキスト補正、画像合成などへの活用が可能な情景文字編集（ｓｃｅｎｅｔｅｘｔｅｄｉｔｉｎｇ）技術に関する。情景文字編集は、与えられたイメージにおいて、フォント、文字揃え、背景のようなスタイルは維持しながら、文字だけを所望のコンテンツに修正することを目的とする。

【0040】

情景文字編集のための従来の方法は、背景予測と文字生成を順に実行することにより、与えられたイメージから文字部分を探索するか背景部分を予測して文字部分と背景部分を分離した後、背景部分に新たな文字を追加する方式を採択していた。

【0041】

このように、背景予測と文字生成を順に実行する場合には、背景予測結果が字生成結果に影響を及ぼすようになるため、与えられたイメージの背景が複雑であるほど優れた結果を得ることができなかった。さらに、与えられたイメージのスタイルは維持されずに文字だけが変更されたり、スタイル維持も文字の生成もなされないという問題が多発していた。

【0042】

本実施形態では、情景文字編集のために文字領域と背景を明示的に分離する従来の方式とは異なり、入力イメージのコンテンツ特徴とスタイル特徴を個別にエンコードする方法を適用する。

【0043】

図２は、本発明の一実施形態における、コンピュータ装置が実行することのできる文字変更方法の例を示したフローチャートである。

【0044】

本実施形態に係るコンピュータ装置１００は、クライアントを対象に、クライアント上にインストールされた専用アプリケーションやコンピュータ装置１００と関連するウェブ／モバイルサイトへの接続によって文字変更のための情景文字編集サービスを提供してよい。コンピュータ装置１００には、コンピュータで実現された文字変更システムが構成されてよい。一例として、文字変更システムは、独立的に動作するプログラム形態で実現されてもよいし、特定のアプリケーションのイン－アプリ（ｉｎ－ａｐｐ）形態で構成されて前記特定のアプリケーション上で動作が可能なように実現されてもよい。

【0045】

コンピュータ装置１００のプロセッサ１２０は、図２に係る文字変更方法を実行するための構成要素として、少なくとも１つ以上の構成要素を含んでよい。実施形態によって、プロセッサ１２０の構成要素は、選択的にプロセッサ１２０に含まれても除外されてもよい。また、実施形態によって、プロセッサ１２０の構成要素は、プロセッサ１２０の機能の表現のために分離されても併合されてもよい。

【0046】

このようなプロセッサ１２０およびプロセッサ１２０の構成要素は、図２の文字変更方法が含む段階２１０～２２０を実行するようにコンピュータ装置１００を制御してよい。例えば、プロセッサ１２０およびプロセッサ１２０の構成要素は、メモリ１１０が含むオペレーティングシステムのコードと、少なくとも１つのプログラムのコードとによる命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。

【0047】

ここで、プロセッサ１２０の構成要素は、コンピュータ装置１００に記録されたプログラムコードが提供する命令にしたがってプロセッサ１２０によって実行される、互いに異なる機能（ｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ）の表現であってよい。

【0048】

プロセッサ１２０は、コンピュータ装置１００の制御と関連する命令がロードされたメモリ１１０から必要な命令を読み取ってよい。この場合、前記読み取られた命令は、プロセッサ１２０が以下で説明する段階２１０～２２０を実行するように制御するための命令を含んでよい。

【0049】

以下で説明する段階２１０～２２０は、図２に示した順序とは異なる順序で実行されてもよいし、段階２１０～２２０のうちの一部が省略されたり追加の過程がさらに含まれたりしてもよい。

【0050】

プロセッサ１２０は、文字があるイメージ、すなわち、情景文字イメージで文字部分だけを変更する場面文者編集モデルを含む。特に、プロセッサ１２０は、与えられたイメージにおいて、フォント、文字揃え、背景のようなスタイルは維持しながら、文字だけを所望のコンテンツに変更する文字変更機能を提供する。

【0051】

図２を参照すると、段階２１０で、プロセッサ１２０は、特徴分解（ｆｅａｔｕｒｅｄｅｃｏｍｐｏｓｉｔｉｏｎ）過程において、第１イメージと第２イメージからそれぞれスタイル特徴とコンテンツ特徴を抽出してよい。本実施形態では、ＯＣＲ（ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）で主に使用されるデコーダを取り入れてスタイルとコンテンツを分離する。ここで、コンテンツ特徴は、ＯＣＲが可能なように任務を付与する形式であり、その他の特徴はスタイルとなることを仮定する。

【0052】

プロセッサ１２０は、２つの互いに異なるイメージから、フォント、文字揃え、背景などを含むスタイル特徴と、文字部分に該当するコンテンツ特徴を抽出してよい。ここで、第１イメージは、文字のある情景文字イメージであって、フォント、文字揃え、背景などのスタイル情報を含むスタイルイメージを意味してよく、第２イメージは、ターゲット文字が含まれたコンテンツイメージを意味してよい。また、コンテンツは、文字、単語、文章などの文字部分を意味してよく、スタイルは、文字部分を除いた残りのイメージを構成する部分を意味してよい。

【0053】

段階２２０で、プロセッサ１２０は、第１イメージから抽出したスタイル特徴と第２イメージから抽出したコンテンツ特徴を結合することにより、第１イメージで文字部分だけを所望のコンテンツに変更してよい。言い換えれば、プロセッサ１２０は、再結合（ｒｅｃｏｍｂｉｎａｔｉｏｎ）過程において、スタイルイメージのスタイルは維持した状態で、スタイルイメージの文字だけをターゲット文字に変更した文字編集イメージを生成してよい。

【0054】

本実施形態では、エンコーダ（ｅｎｃｏｄｅｒ）と生成器（ｇｅｎｅｒａｔｏｒ）を含む情景文字編集モデル（以下、「ＲｅｗｒｉｔｅＮｅｔモデル」とする）を利用する。コンテンツ特徴は文字部分を示すテキスト情報を含み、スタイル特徴は文字部分以外の他の情報、すなわち、フォント、文字揃え、背景のようなスタイル情報を含むようにエンコードされてよい。抽出されたスタイル特徴とコンテンツ特徴を利用することで、スタイルイメージのスタイルは維持しながら、ターゲットコンテンツ特徴でイメージを合成するように生成器を訓練する。

【0055】

本発明に係るＲｅｗｒｉｔｅＮｅｔモデルは、追加の文字分離を要求せずにＥ２Ｅ（ｅｎｄ－ｔｏ－ｅｎｄ）方式で訓練することが可能である。このとき、ラベルが指定されていない実際のイメージ（ｕｎｌａｂｅｌｅｄｒｅａｌ－ｗｏｒｌｄｉｍａｇｅｓ）が使用されてよい。これにより、訓練されたモデルが合成スタイルに偏ることを防ぐことができ、訓練とテスト環境の間に生じるドメイン格差を解消することができる。

【0056】

したがって、ＲｅｗｒｉｔｅＮｅｔモデルでは、スタイルイメージのスタイルを適切に保つ文字編集イメージを生成することができる。また、ＲｅｗｒｉｔｅＮｅｔモデルは、ラベルが指定されていないイメージのコンテンツをターゲット文字に変更することで現実的なラベルが指定された文字イメージを提供することができ、文字レンダリングの規則に従って生成された合成データセットを利用するモデルよりもリアルなイメージを生成することができる。

【0057】

図３は、本発明の一実施形態における、情景文字編集モデルであるＲｅｗｒｉｔｅＮｅｔモデルを示した図である。

【0058】

図３を参照すると、ＲｅｗｒｉｔｅＮｅｔモデル３００は、スタイル特徴とコンテンツ特徴を抽出するエンコーダ３１０、３２０と、ターゲットコンテンツ特徴をもつ文字イメージを生成する生成器３３０とで構成される。

【0059】

先ず、エンコーダ３１０、３２０と生成器３３０を使用してターゲット文字のイメージを生成する推論過程について、次のように説明する。

【0060】

【数1】

は、文字（すなわち、コンテンツ）ＴとスタイルＳを含むスタイルイメージ３０１を意味する。ターゲット文字Ｔ’が与えられるとき、ＲｅｗｒｉｔｅＮｅｔモデル３００は、スタイルＳを維持しながら、文字Ｔをターゲット文字Ｔ’に変更する文字編集イメージ３０３を生成することを目標とする。

【0061】

ＲｅｗｒｉｔｅＮｅｔモデル３００は、２つの分離した潜在特徴（ｌａｔｅｎｔｆｅａｔｕｒｅｓ）、すなわち、スタイルＳに対する特徴

【0062】

【数2】

とコンテンツＴに対する特徴

【0063】

【数3】

と仮定してコンテンツの転換を実行する。

【0064】

エンコーダ３１０は、スタイルイメージ３０１である

【0065】

【数4】

からスタイル特徴

【0066】

【数5】

とコンテンツ特徴

【0067】

【数6】

を抽出する

【0068】

【数7】

【0069】

生成器３３０は、スタイルＳでコンテンツＴの出力イメージを生成する。このとき、コンテンツ特徴をスイッチングオフすれば、数式（１）のように、文字編集イメージ３０３である

【0070】

【数8】

を生成することができる。

【0071】

【数9】

【0072】

【数10】

は、ターゲット文字Ｔ’が含まれたコンテンツイメージ３０２を意味する。これは、比較的容易なスタイルＳ’とターゲット文字Ｔ’によって合成レンダリングされてよい。

【0073】

言い換えれば、エンコーダ３１０は、スタイルイメージ３０１

【0074】

【数11】

からスタイル特徴

【0075】

【数12】

とコンテンツ特徴

【0076】

【数13】

を抽出し、エンコーダ３２０は、コンテンツイメージ３０２

【0077】

【数14】

からスタイル特徴

【0078】

【数15】

とコンテンツ特徴

【0079】

【数16】

を抽出する。

【0080】

続いて、生成器３３０は、スタイルイメージ３０１

【0081】

【数17】

のスタイル特徴

【0082】

【数18】

とコンテンツイメージ３０２

【0083】

【数19】

のコンテンツ特徴

【0084】

【数20】

を合成して、文字編集イメージ３０３を生成する。

【0085】

文字変更は、例えば、白色背景に黒色のターゲット文字で作成されたコンテンツイメージ３０２を生成した後、コンテンツイメージ３０２からターゲット文字であるコンテンツ特徴

【0086】

【数21】

を分離して、スタイルイメージ３０１のスタイル特徴

【0087】

【数22】

と結合する。

【0088】

次に、ＲｅｗｒｉｔｅＮｅｔモデル３００の訓練過程について、次のように説明する。

【0089】

図４は、ペアで構成された合成イメージ（ｓｙｎｔｈｅｔｉｃｉｍａｇｅｓ）を利用した訓練過程を説明するための図である。

【0090】

文字編集イメージ３０３の生成を奨励するために訓練過程だけで使用される２つのモジュールのうちの１つである文字認識器（ｔｅｘｔｒｅｃｏｇｎｉｚｅｒ）４４０は、コンテンツ特徴

【0091】

【数23】

から文字ラベルを識別する

【0092】

【数24】

【0093】

文字ラベルを予測するためにコンテンツ特徴

【0094】

【数25】

を学習することにより、コンテンツ特徴

【0095】

【数26】

は、入力イメージにある文字を示してよく、生成器３３０のコンテンツ条件として使用される。コンテンツ特徴

【0096】

【数27】

は、全体訓練過程で文字ラベルだけによって訓練される。

【0097】

訓練過程で使用されるモジュールのうちの他の１つであるスタイル－コンテンツ判別器（ｓｔｙｌｅ－ｃｏｎｔｅｎｔｄｉｓｃｒｉｍｉｎａｔｏｒ）４５０は、文字編集イメージ３０３、すなわち、入力イメージ

【0098】

【数28】

がスタイル参照

【0099】

【数29】

とコンテンツ特徴

【0100】

【数30】

を使用して合成して生成されたものであるかを判別する

【0101】

【数31】

ここで、

【0102】

【数32】

は、生成器３３０の競争子であって、生成器３３０の品質を高める。

【0103】

したがって、本実施形態では、文字認識器４４０とスタイル－コンテンツ判別器４５０を活用した学習により、エンコーダ３１０、３２０は潜在コンテンツを識別することができ、生成器３３０は高品質イメージを生成することができる。

【0104】

ＲｅｗｒｉｔｅＮｅｔモデル３００の訓練過程で合成イメージペアを使用することで、スタイル特徴とコンテンツ特徴を分離するように文字認識器４４０とスタイル－コンテンツ判別器４５０を訓練させる。

【0105】

図４の合成イメージペアは同じスタイルを固有するが、コンテンツ、すなわち、文字部分が異なる。

【0106】

コンテンツ特徴は、Ｅ^CTと文字認識器４４０を活用して、イメージの文字情報をキャプチャするように学習される。エンコードされたコンテンツ特徴は、文字認識器４４０に入力され、文字認識器４４０が正しいラベルを予測できるように、エンコーダ３１０が選好するコンテンツ特徴を生成するように訓練される。スタイル特徴は、コンテンツ変更後、Ｅ^STと生成器３３０がスタイルの一貫性を保ちながらスタイル情報を表現するように学習される。

【0107】

文字部分が異なり、背景、フォント、文字揃えなどのような同じレンダリング媒介変数を有するエンジンを合成することにより、合成イメージペア

【0108】

【数33】

が得られる。この後、単一訓練セットは、

【0109】

【数34】

Ｔとなる。ここで、Ｔは、文字ラベルを意味する。したがって、エンコーダ３１０、３２０、生成器３３０、文字認識器４４０は、再構成損失

【0110】

【数35】

と認識損失

【0111】

【数36】

によって指導することができる。

【0112】

再構成損失は数式（２）のように定義してよく、認識損失は数式（３）のように定義してよい。

【0113】

【数37】

ここで、

【0114】

【数38】

は、逆伝播の流れを得ることのできない固定されたエンコーダを示し、Ｔ_iは、地上検証文字ラベルのｉ番目の文字を示す。再構成損失の際にＥ^CTを凍結しなければ、エンコーダ３１０、３２０と生成器３３０は、コンテンツイメージの複写によって迅速にローカル最小値まで落ちる。したがって、Ｅ^CTを凍結することでコンテンツ特徴が再構成損失の影響を受けないようにし、Ｅ^CTだけを認識損失によって訓練させる。

【0115】

このような損失は、モデルがコンテンツの転換を学習するように案内するが、訓練されたモデルは、合成スタイルの制限により、実際のイメージを取り扱うことができないことがある。

【0116】

合成イメージを利用した訓練過程の限界を補うために、実際のイメージ（ｕｎｐａｉｒｅｄｒｅａｌ－ｗｏｒｌｄｉｍａｇｅｓ）を利用して、ＲｅｗｒｉｔｅＮｅｔモデル３００に対する自己教師あり訓練（ｓｅｌｆ－ｓｕｐｅｒｖｉｓｅｄｔｒａｉｎｉｎｇ）過程を実施してよい。

【0117】

図５は、実際のイメージを利用した訓練過程を説明するための図である。

【0118】

実際のイメージの場合、同じスタイルで文字が異なるイメージペアを得ることは難しく、実際のイメージの文字ラベルを得るのにも多くの費用がかかる。

【0119】

本実施形態では、モデルがペアで構成されていない実際のイメージのスタイルとコンテンツ表現を学習することが可能なように、条件付き雑音制御オートエンコーダ損失（ｃｏｎｄｉｔｉｏｎｅｄｄｅｎｏｉｓｉｎｇａｕｔｏｅｎｃｏｄｅｒｌｏｓｓ）を適用する。

【0120】

特に、幅方向に選択領域を長さ

でランダムに切り取って（ｃｕｔｏｕｔ）一部文字をなくした後、ノイズのあるイメージをスタイルイメージとして使用し、残りの領域からスタイル特徴を抽出する。生成器３３０は、スタイルイメージから抽出したコンテンツ特徴を組み合わせ、空の領域の周辺領域スタイルを参照しながら空白を満たす。自己教師あり訓練技術は、損傷したイメージをスタイルイメージとして使用してスタイルイメージを些細なものに自動エンコードすることを禁止し、モデルが分離した表現を学習するように強制する。

【0121】

雑音制御オートエンコーダ損失は、数式（４）のように定義されてよい。

【0122】

【数39】

ここで、

【0123】

【数40】

は、

【0124】

【数41】

で損傷したノイズイメージを示したものである。このような自己教師あり訓練方法では、文字ラベルとペアとなるイメージを必要としない。

【0125】

一般的に、実際のイメージは、複雑な背景、多様なテクスチャ、高コントラスト領域のような高周波領域を有する。しかし、ピクセル単位の再構成損失

【0126】

【数42】

には高周波数を解決するための限界があり、低周波数を捉える傾向がある。

【0127】

高周波の鮮明性を奨励するために、敵対的生成ネットワーク（ＧＡＮ）フレームワークを使用して現実的なテキストイメージを生成する。より具体的に説明すると、スタイルイメージと潜在コンテンツの与えられた条件で、入力イメージの偽物または実際の確率を示すように判別器５６０を設計する。確率ｐ（Ｘは、偽物

【0128】

【数43】

ではない）に対して判別器５６０を示す。ここで、ＸとＸ^ｓｔはそれぞれ、入力イメージとスタイルイメージを示す。敵対的損失は、数式（５）および数式（６）のように定義されてよい。

【0129】

【数44】

【0130】

ここで、

【0131】

【数45】

と

【0132】

【数46】

は、合成イメージと実際のスタイルイメージでそれぞれ生成されたイメージを示す。条件として使用される潜在コンテンツは、敵対的損失からエンコーダ３１０、３２０への逆伝播の流れを遮断するために凍結される。

【0133】

また、多様なＧＡＮモデルの訓練を安定化させる特徴マッチング損失（ｆｅａｔｕｒｅｍａｔｃｈｉｎｇｌｏｓｓ）を使用する。特に、判別器５６０の中間特徴マップを抽出して、生成されたサンプルとターゲットサンプルの距離を最小化する（数式（７）および数式（８））。

【0134】

【数47】

【0135】

ここで、

【0136】

【数48】

と

【0137】

【数49】

は出力特徴マップであり、ｌ番目のレイヤ

【0138】

【数50】

の大きさを意味する。各損失に対して

【0139】

【数51】

の活性化マップ

【0140】

【数52】

の活性化マップ

【0141】

【数53】

を計算するのに、同じ条件が使用される。特徴マッチング損失は、生成器３３０がターゲットサンプルとマルチスケール統計を一致させるように促進することができるため、全体サンプルの品質に役立つ。

【0142】

最終損失は、数式（９）のように公式化されてよい。

【0143】

【数54】

ここで、α、β、γ、およびλは、損失の均衡を合わせるハイパーパラメータを示す。

【0144】

上述したような訓練過程を経たＲｅｗｒｉｔｅＮｅｔモデル３００で、エンコーダ３１０、３２０は、部分的に共有された潜在空間過程（ｐａｒｔｉａｌｌｙｓｈａｒｅｄｌａｔｅｎｔｓｐａｃｅａｓｓｕｍｐｔｉｏｎ）に従うようになり、ここで、イメージ

【0145】

【数55】

は、潜在スタイル特徴

【0146】

【数56】

とコンテンツ特徴

【0147】

【数57】

で構成される。入力イメージの空間依存性を緩和するために、コンテンツ特徴に双方向ＬＳＴＭ（Ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ）レイヤを適用する。

【0148】

文字認識器４４０は、イメージの文字シーケンスを推定してコンテンツおよびスタイルを区分するという重要な役割を担う。文字認識器４４０は、識別されたコンテンツ特徴のアテンション機構（ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ）があるＬＳＴＭデコーダで構成される。文字認識器４４０を学習するためには文字ラベルが必要となるため、合成データセットを活用する。

【0149】

生成器３３０は、潜在されたスタイル特徴とコンテンツ特徴を入力として指定すれば、指定されたスタイルとコンテンツをもつイメージを出力する。生成器３３０を構成するネットワークは、Ｕｎｅｔアキテクチャで使用されるデコーダと類似し、複数のＥ^STレイヤのスタイル特徴は、短い連結によって生成器３３０に入力される。

【0150】

判別器５６０は、入力イメージが実際のイメージであるか、機械によって生成されたイメージであるかを判別する。

【0151】

図６は、ＲｅｗｒｉｔｅＮｅｔモデル３００を利用した文字変更の例を示した図である。

【0152】

図６を参照すると、プロセッサ１２０は、与えられたスタイルイメージ３０１とコンテンツイメージ３０２に対し、ＲｅｗｒｉｔｅＮｅｔモデル３００を利用してスタイルイメージ３０１のスタイル特徴とコンテンツイメージ３０２のコンテンツ特徴を組み合わせることにより、全体的なスタイルは維持した状態で、文字部分だけが変更された文字編集イメージ３０３を生成することができる。

【0153】

このように、本発明の実施形態によると、イメージ表現をスタイル特徴とコンテンツ特徴に分離する方法により、情景文字イメージにおいて、フォント、文字揃え、背景のようなスタイルは維持しながら、文字部分だけを所望のコンテンツに変更することができる。特に、本発明の実施形態によると、ターゲット文字に対するコンテンツ特徴を生成して与えられたイメージのスタイル特徴と結合する方式により、該当のイメージで文字部分だけを変更することができる。また、本発明の実施形態によると、ラベルが指定されていない実際のイメージを利用して情景文文字編集モデルを学習することにより、学習データセットを設けるための時間と費用を節減できることはもちろん、モデルが合成スタイルに偏ることを防ぐことができ、訓練とテスト環境の間に生じるドメイン格差を解消することができる。

【0154】

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

【0155】

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

【0156】

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

【0157】

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

【0158】

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

【符号の説明】

【0159】

３００：ＲｅｗｒｉｔｅＮｅｔモデル
３０１：スタイルイメージ
３０２：コンテンツイメージ
３０３：文字編集イメージ
３１０、３２０：エンコーダ
３３０：生成器

【図1】