(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022107580
(43)【公開日】2022-07-22
(54)【発明の名称】イメージで文字部分を変更する方法、コンピュータ装置、およびコンピュータプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20220714BHJP
【FI】
G06T7/00 350C
【審査請求】有
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021208926
(22)【出願日】2021-12-23
(31)【優先権主張番号】10-2021-0003277
(32)【優先日】2021-01-11
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(71)【出願人】
【識別番号】321003371
【氏名又は名称】LINE株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】金 胤植
(72)【発明者】
【氏名】李 俊▲よぷ▼
(72)【発明者】
【氏名】朴 星來
(72)【発明者】
【氏名】金 性賢
(72)【発明者】
【氏名】任 文彬
(72)【発明者】
【氏名】申 勝
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA17
5L096DA01
5L096FA44
5L096HA11
5L096JA11
5L096KA04
5L096KA15
(57)【要約】
【課題】イメージで文字部分を変更する方法、コンピュータ装置、およびコンピュータプログラムを提供する。
【解決手段】文字変更方法は、第1イメージと第2イメージから、文字部分を示すコンテンツ特徴と前記文字部分以外の残りの部分を示すスタイル特徴を分離して抽出する段階、および前記第1イメージから抽出したスタイル特徴と前記第2イメージから抽出したコンテンツ特徴を結合することにより、コンテンツが変更された編集イメージを生成する段階を含む。
【選択図】
図3
【特許請求の範囲】
【請求項1】
コンピュータ装置が実行する文字変更方法であって、
前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記文字変更方法は、
前記少なくとも1つのプロセッサが、第1イメージと第2イメージから、文字部分を示すコンテンツ特徴と前記文字部分以外の残りの部分を示すスタイル特徴を分離して抽出する段階、および
前記少なくとも1つのプロセッサが、前記第1イメージから抽出したスタイル特徴と前記第2イメージから抽出したコンテンツ特徴を結合することにより、コンテンツが変更された編集イメージを生成する段階
を含む、文字変更方法。
【請求項2】
前記抽出する段階は、
イメージ表現(image representation)を前記スタイル特徴と前記コンテンツ特徴に分離する特徴分解(feature decomposition)過程を実行すること
を特徴とする、請求項1に記載の文字変更方法。
【請求項3】
前記文字変更方法は、
エンコーダ(encoder)と生成器(generator)を含む編集モデルを利用して、前記第1イメージのスタイルは維持しながら、前記第1イメージのコンテンツを前記第2イメージのコンテンツに変更すること
を特徴とする、請求項1または2に記載の文字変更方法。
【請求項4】
前記文字変更方法は、
前記少なくとも1つのプロセッサが、ラベルが指定されていない実際のイメージ(unlabeled real-world images)を利用した自己教師あり訓練(self-supervised training)により、前記編集モデルを学習する段階をさらに含み、
前記学習する段階は、
条件付き雑音制御オートエンコーダ損失(conditioned denoising autoencoder loss)を適用して、前記編集モデルを学習するか、または
前記実際イメージをコンテンツ特徴を抽出するためのイメージとして使用し、前記実際イメージから一部領域を切り取った(cut out)ノイズイメージをスタイル特徴を抽出するためのイメージとして使用して、前記編集モデルを学習するか、または
前記編集イメージを入力イメージとし、前記入力イメージが前記第1イメージから抽出されたスタイル特徴と前記第2イメージから抽出されたコンテンツ特徴を合成したイメージであるかを判別する判別器(discriminator)を使用して、前記編集モデルを学習すること
を特徴とする、請求項3に記載の文字変更方法。
【請求項5】
請求項1~4のうちのいずれか一項に記載の文字変更方法を前記コンピュータ装置に実行させるためのコンピュータプログラム。
【請求項6】
コンピュータ装置であって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
第1イメージと第2イメージから、文字部分を示すコンテンツ特徴と前記文字部分以外の残りの部分を示すスタイル特徴を分離して抽出し、
前記第1イメージから抽出したスタイル特徴と前記第2イメージから抽出したコンテンツ特徴を結合することにより、コンテンツが変更された編集イメージを生成すること
を特徴とする、コンピュータ装置。
【請求項7】
前記少なくとも1つのプロセッサは、
イメージ表現を前記スタイル特徴と前記コンテンツ特徴に分離する特徴分解過程を実行すること
を特徴とする、請求項6に記載のコンピュータ装置。
【請求項8】
前記少なくとも1つのプロセッサは、
エンコーダと生成器を含む編集モデルを利用して、前記第1イメージのスタイルは維持しながら、前記第1イメージのコンテンツを前記第2イメージのコンテンツに変更すること
を特徴とする、請求項6または7に記載のコンピュータ装置。
【発明の詳細な説明】
【技術分野】
【0001】
以下の説明は、文字があるイメージで文字部分を変更する技術に関する。
【背景技術】
【0002】
情景文字認識(scene text recognition)技術は、文書において、情報抽出、視覚的質問への返答、ナンバープレート認識などのようなダウンストリーム技術に適用可能であることから、多くの関心が寄せられている。
【0003】
例えば、特許文献1(登録日2019年11月1日)には、画像内で文字を認識する技術が開示されている。
【0004】
近年のディープニューラルネットワークを基盤とした情景文字認識モデルは、多様なスタイルの文字を認識するにおいて、驚くほど成果を上げている。
【0005】
情景文字認識モデルは、大規模ラベルが指定された訓練データを自動で構築する合成データ生成エンジンを利用している。
【0006】
訓練段階で実際の画像を使用すればモデルの性能は上昇するが、大規模な訓練データセットを取得する作業に多くの時間と費用がかかる。この反面、合成データの生成は比較的容易であるため、情景文字認識モデルでは主に合成データセットを使用している。
【0007】
情景文字認識モデルを訓練する方法は、規則に基づいた接近法であるため、合成データセットを使用する場合には多くの文字イメージを提供することは可能であるが、実際のスタイルを取り扱うことができない場合が多い。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】韓国登録特許第10-2042131号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
情景文字イメージ(scene text image)において、フォント(font)、文字揃え(text alignment)、背景(background)のようなスタイルは維持しながら、文字部分だけを所望のコンテンツに変更する方法および装置を提供する。
【0010】
イメージ表現(image representation)をスタイル特徴(style feature)とコンテンツ特徴(content feature)に分離する方法により、文字部分を変更する方法および装置を提供する。
【0011】
所望の文字に対する新たなコンテンツ特徴を生成して与えられたイメージのスタイル特徴と結合する方式により、該当のイメージで文字部分だけを変更する方法および装置を提供する。
【課題を解決するための手段】
【0012】
コンピュータ装置が実行する文字変更方法であって、前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記文字変更方法は、前記少なくとも1つのプロセッサが、第1イメージと第2イメージから、文字部分を示すコンテンツ特徴と前記文字部分以外の残りの部分を示すスタイル特徴を分離して抽出する段階、および前記少なくとも1つのプロセッサが、前記第1イメージから抽出したスタイル特徴と前記第2イメージから抽出したコンテンツ特徴を結合することにより、コンテンツが変更された編集イメージを生成する段階を含む、文字変更方法を提供する。
【0013】
一側面によると、前記抽出する段階は、イメージ表現(image representation)を前記スタイル特徴と前記コンテンツ特徴に分離する特徴分解(feature decomposition)過程を実行してよい。
【0014】
他の側面によると、前記文字変更方法は、エンコーダ(encoder)と生成器(generator)を含む編集モデルを利用して、前記第1イメージのスタイルは維持しながら、前記第1イメージのコンテンツを前記第2イメージのコンテンツに変更してよい。
【0015】
また他の側面によると、前記編集モデルは、イメージ表現を前記スタイル特徴と前記コンテンツ特徴に分離する特徴分解のために文字認識器(text recognizer)を含んでよい。
【0016】
また他の側面によると、前記文字認識器は、前記コンテンツ特徴のアテンション機構(attention mechanism)があるLSTM(Long short term memory)デコーダで構成されてよい。
【0017】
また他の側面によると、前記文字変更方法は、前記少なくとも1つのプロセッサが、ラベルが指定されていない実際のイメージ(unlabeled real-world images)を利用した自己教師あり訓練(self-supervised training)により、前記編集モデルを学習する段階をさらに含んでよい。
【0018】
また他の側面によると、前記学習する段階は、条件付き雑音制御オートエンコーダ損失(conditioned denoising autoencoder loss)を適用して、前記編集モデルを学習してよい。
【0019】
また他の側面によると、前記学習する段階は、前記実際のイメージをコンテンツ特徴を抽出するためのイメージとして使用し、前記実際のイメージから一部領域を切り取った(cut out)ノイズイメージをスタイル特徴を抽出するためのイメージとして使用して、前記編集モデルを学習してよい。
【0020】
また他の側面によると、前記学習する段階は、前記編集イメージを入力イメージとし、前記入力イメージが、前記第1イメージから抽出したスタイル特徴と前記第2イメージから抽出したコンテンツ特徴を合成したイメージであるかを判別する判別器(discriminator)を使用して、前記編集モデルを学習してよい。
【0021】
また他の側面によると、前記学習する段階は、GAN(generative adversarial network)モデルと特徴マッチング損失(feature matching loss)を使用して前記判別器の中間特徴マップを抽出し、生成されたサンプルとターゲットサンプルの距離を最小化する方向で前記編集モデルを学習してよい。
【0022】
前記文字変更方法を前記コンピュータ装置に実行させるためのコンピュータプログラムを提供する。
【0023】
コンピュータ装置であって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、、第1イメージと第2イメージから、文字部分を示すコンテンツ特徴と前記文字部分以外の残りの部分を示すスタイル特徴を分離して抽出し、前記第1イメージから抽出したスタイル特徴と前記第2イメージから抽出したコンテンツ特徴を結合することにより、コンテンツが変更された編集イメージを生成することを特徴とする、コンピュータ装置を提供する。
【発明の効果】
【0024】
本発明の実施形態によると、イメージ表現をスタイル特徴とコンテンツ特徴に分離する方法により、情景文字イメージにおいて、フォント、文字揃え、背景のようなスタイルは維持しながら、文字部分だけを所望のコンテンツに変更することができる。
【0025】
本発明の実施形態によると、ターゲット文字に対するコンテンツ特徴を生成して与えられたイメージのスタイル特徴と結合する方式により、該当のイメージで文字部分だけを変更することができる。
【0026】
本発明の実施形態によると、ラベルが指定されていない実際のイメージ(unlabeled real-world images)を利用して情景文字編集モデルを学習することにより、学習データセットを設けるための時間と費用を節減できることはもちろん、モデルが合成スタイルに偏ることを防ぐことができ、訓練とテスト環境の間に生じるドメイン格差を解消することができる。
【図面の簡単な説明】
【0027】
【
図1】本発明の一実施形態における、コンピュータ装置の内部構成の一例を説明するためのブロック図である。
【
図2】本発明の一実施形態における、コンピュータ装置が実行することのできる文字変更方法の例を示したフローチャートである。
【
図3】本発明の一実施形態における、情景文字編集モデル構造を示した図である。
【
図4】本発明の一実施形態における、合成イメージを利用したモデル訓練過程を説明するための図である。
【
図5】本発明の一実施形態における、実際のイメージを利用したモデル訓練過程を説明するための図である。
【
図6】本発明の一実施形態における、情景文字編集モデルを利用した文字変更の例を示した図である。
【発明を実施するための形態】
【0028】
以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。
【0029】
本発明の実施形態は、文字があるイメージで文字部分を変更する技術に関する。
【0030】
本明細書で具体的に開示される事項を含む実施形態は、与えられた情景文字イメージにおいて、フォント、文字揃え、背景のようなスタイルは維持しながら、文字だけを所望のコンテンツに変更することができる。
【0031】
図1は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。例えば、本発明の実施形態に係る文字変更システムは、
図1に示したコンピュータ装置100によって実現されてよい。
【0032】
図1に示すように、コンピュータ装置100は、本発明の一実施形態に係る文字変更方法を実行するための構成要素として、メモリ110、プロセッサ120、通信インタフェース130、および入力/出力インタフェース140を含んでよい。
【0033】
メモリ110は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ110とは区分される別の永続的記録装置としてコンピュータ装置100に含まれてもよい。また、メモリ110には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ110とは別のコンピュータ読み取り可能な記録媒体からメモリ110にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース130を通じてメモリ110にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク160を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置100のメモリ110にロードされてよい。
【0034】
プロセッサ110は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ110または通信インタフェース130によって、プロセッサ120に提供されてよい。例えば、プロセッサ120は、メモリ110のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
【0035】
通信インタフェース130は、ネットワーク160を介してコンピュータ装置100が他の装置と互いに通信するための機能を提供してよい。一例として、コンピュータ装置100のプロセッサ120がメモリ110のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース130の制御にしたがってネットワーク160を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク160を経てコンピュータ装置100の通信インタフェース130を通じてコンピュータ装置100に受信されてよい。通信インタフェース130を通じて受信された信号や命令、データなどは、プロセッサ120やメモリ110に伝達されてよく、ファイルなどは、コンピュータ装置100がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
【0036】
通信方式が制限されることはなく、ネットワーク160が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を活用する通信方式だけでなく、機器間の近距離有線/無線通信が含まれてもよい。例えば、ネットワーク160は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークうちの1つ以上の任意のネットワークを含んでよい。また、ネットワーク160は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的(hierarchical)ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでよいが、これらに制限されることはない。
【0037】
入力/出力インタフェース140は、入力/出力装置150とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、カメラ、マウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力/出力インタフェース140は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置150は、コンピュータ装置100と1つの装置で構成されてもよい。
【0038】
また、他の実施形態において、コンピュータ装置100は、
図1の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータシステム100は、上述した入力/出力装置150のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。
【0039】
本実施形態は、広告、情景テキスト補正、画像合成などへの活用が可能な情景文字編集(scene text editing)技術に関する。情景文字編集は、与えられたイメージにおいて、フォント、文字揃え、背景のようなスタイルは維持しながら、文字だけを所望のコンテンツに修正することを目的とする。
【0040】
情景文字編集のための従来の方法は、背景予測と文字生成を順に実行することにより、与えられたイメージから文字部分を探索するか背景部分を予測して文字部分と背景部分を分離した後、背景部分に新たな文字を追加する方式を採択していた。
【0041】
このように、背景予測と文字生成を順に実行する場合には、背景予測結果が字生成結果に影響を及ぼすようになるため、与えられたイメージの背景が複雑であるほど優れた結果を得ることができなかった。さらに、与えられたイメージのスタイルは維持されずに文字だけが変更されたり、スタイル維持も文字の生成もなされないという問題が多発していた。
【0042】
本実施形態では、情景文字編集のために文字領域と背景を明示的に分離する従来の方式とは異なり、入力イメージのコンテンツ特徴とスタイル特徴を個別にエンコードする方法を適用する。
【0043】
図2は、本発明の一実施形態における、コンピュータ装置が実行することのできる文字変更方法の例を示したフローチャートである。
【0044】
本実施形態に係るコンピュータ装置100は、クライアントを対象に、クライアント上にインストールされた専用アプリケーションやコンピュータ装置100と関連するウェブ/モバイルサイトへの接続によって文字変更のための情景文字編集サービスを提供してよい。コンピュータ装置100には、コンピュータで実現された文字変更システムが構成されてよい。一例として、文字変更システムは、独立的に動作するプログラム形態で実現されてもよいし、特定のアプリケーションのイン-アプリ(in-app)形態で構成されて前記特定のアプリケーション上で動作が可能なように実現されてもよい。
【0045】
コンピュータ装置100のプロセッサ120は、
図2に係る文字変更方法を実行するための構成要素として、少なくとも1つ以上の構成要素を含んでよい。実施形態によって、プロセッサ120の構成要素は、選択的にプロセッサ120に含まれても除外されてもよい。また、実施形態によって、プロセッサ120の構成要素は、プロセッサ120の機能の表現のために分離されても併合されてもよい。
【0046】
このようなプロセッサ120およびプロセッサ120の構成要素は、
図2の文字変更方法が含む段階210~220を実行するようにコンピュータ装置100を制御してよい。例えば、プロセッサ120およびプロセッサ120の構成要素は、メモリ110が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる命令(instruction)を実行するように実現されてよい。
【0047】
ここで、プロセッサ120の構成要素は、コンピュータ装置100に記録されたプログラムコードが提供する命令にしたがってプロセッサ120によって実行される、互いに異なる機能(different functions)の表現であってよい。
【0048】
プロセッサ120は、コンピュータ装置100の制御と関連する命令がロードされたメモリ110から必要な命令を読み取ってよい。この場合、前記読み取られた命令は、プロセッサ120が以下で説明する段階210~220を実行するように制御するための命令を含んでよい。
【0049】
以下で説明する段階210~220は、
図2に示した順序とは異なる順序で実行されてもよいし、段階210~220のうちの一部が省略されたり追加の過程がさらに含まれたりしてもよい。
【0050】
プロセッサ120は、文字があるイメージ、すなわち、情景文字イメージで文字部分だけを変更する場面文者編集モデルを含む。特に、プロセッサ120は、与えられたイメージにおいて、フォント、文字揃え、背景のようなスタイルは維持しながら、文字だけを所望のコンテンツに変更する文字変更機能を提供する。
【0051】
図2を参照すると、段階210で、プロセッサ120は、特徴分解(feature decomposition)過程において、第1イメージと第2イメージからそれぞれスタイル特徴とコンテンツ特徴を抽出してよい。本実施形態では、OCR(optical character recognition)で主に使用されるデコーダを取り入れてスタイルとコンテンツを分離する。ここで、コンテンツ特徴は、OCRが可能なように任務を付与する形式であり、その他の特徴はスタイルとなることを仮定する。
【0052】
プロセッサ120は、2つの互いに異なるイメージから、フォント、文字揃え、背景などを含むスタイル特徴と、文字部分に該当するコンテンツ特徴を抽出してよい。ここで、第1イメージは、文字のある情景文字イメージであって、フォント、文字揃え、背景などのスタイル情報を含むスタイルイメージを意味してよく、第2イメージは、ターゲット文字が含まれたコンテンツイメージを意味してよい。また、コンテンツは、文字、単語、文章などの文字部分を意味してよく、スタイルは、文字部分を除いた残りのイメージを構成する部分を意味してよい。
【0053】
段階220で、プロセッサ120は、第1イメージから抽出したスタイル特徴と第2イメージから抽出したコンテンツ特徴を結合することにより、第1イメージで文字部分だけを所望のコンテンツに変更してよい。言い換えれば、プロセッサ120は、再結合(recombination)過程において、スタイルイメージのスタイルは維持した状態で、スタイルイメージの文字だけをターゲット文字に変更した文字編集イメージを生成してよい。
【0054】
本実施形態では、エンコーダ(encoder)と生成器(generator)を含む情景文字編集モデル(以下、「RewriteNetモデル」とする)を利用する。コンテンツ特徴は文字部分を示すテキスト情報を含み、スタイル特徴は文字部分以外の他の情報、すなわち、フォント、文字揃え、背景のようなスタイル情報を含むようにエンコードされてよい。抽出されたスタイル特徴とコンテンツ特徴を利用することで、スタイルイメージのスタイルは維持しながら、ターゲットコンテンツ特徴でイメージを合成するように生成器を訓練する。
【0055】
本発明に係るRewriteNetモデルは、追加の文字分離を要求せずにE2E(end-to-end)方式で訓練することが可能である。このとき、ラベルが指定されていない実際のイメージ(unlabeledreal-world images)が使用されてよい。これにより、訓練されたモデルが合成スタイルに偏ることを防ぐことができ、訓練とテスト環境の間に生じるドメイン格差を解消することができる。
【0056】
したがって、RewriteNetモデルでは、スタイルイメージのスタイルを適切に保つ文字編集イメージを生成することができる。また、RewriteNetモデルは、ラベルが指定されていないイメージのコンテンツをターゲット文字に変更することで現実的なラベルが指定された文字イメージを提供することができ、文字レンダリングの規則に従って生成された合成データセットを利用するモデルよりもリアルなイメージを生成することができる。
【0057】
図3は、本発明の一実施形態における、情景文字編集モデルであるRewriteNetモデルを示した図である。
【0058】
図3を参照すると、RewriteNetモデル300は、スタイル特徴とコンテンツ特徴を抽出するエンコーダ310、320と、ターゲットコンテンツ特徴をもつ文字イメージを生成する生成器330とで構成される。
【0059】
先ず、エンコーダ310、320と生成器330を使用してターゲット文字のイメージを生成する推論過程について、次のように説明する。
【0060】
【数1】
は、文字(すなわち、コンテンツ)TとスタイルSを含むスタイルイメージ301を意味する。ターゲット文字T’が与えられるとき、RewriteNetモデル300は、スタイルSを維持しながら、文字Tをターゲット文字T’に変更する文字編集イメージ303を生成することを目標とする。
【0061】
RewriteNetモデル300は、2つの分離した潜在特徴(latent features)、すなわち、スタイルSに対する特徴
【0062】
【0063】
【0064】
エンコーダ310は、スタイルイメージ301である
【0065】
【0066】
【0067】
【0068】
【0069】
生成器330は、スタイルSでコンテンツTの出力イメージを生成する。このとき、コンテンツ特徴をスイッチングオフすれば、数式(1)のように、文字編集イメージ303である
【0070】
【0071】
【0072】
【数10】
は、ターゲット文字T’が含まれたコンテンツイメージ302を意味する。これは、比較的容易なスタイルS’とターゲット文字T’によって合成レンダリングされてよい。
【0073】
言い換えれば、エンコーダ310は、スタイルイメージ301
【0074】
【0075】
【0076】
【数13】
を抽出し、エンコーダ320は、コンテンツイメージ302
【0077】
【0078】
【0079】
【0080】
続いて、生成器330は、スタイルイメージ301
【0081】
【0082】
【0083】
【0084】
【数20】
を合成して、文字編集イメージ303を生成する。
【0085】
文字変更は、例えば、白色背景に黒色のターゲット文字で作成されたコンテンツイメージ302を生成した後、コンテンツイメージ302からターゲット文字であるコンテンツ特徴
【0086】
【数21】
を分離して、スタイルイメージ301のスタイル特徴
【0087】
【0088】
次に、RewriteNetモデル300の訓練過程について、次のように説明する。
【0089】
図4は、ペアで構成された合成イメージ(synthetic images)を利用した訓練過程を説明するための図である。
【0090】
文字編集イメージ303の生成を奨励するために訓練過程だけで使用される2つのモジュールのうちの1つである文字認識器(text recognizer)440は、コンテンツ特徴
【0091】
【0092】
【0093】
文字ラベルを予測するためにコンテンツ特徴
【0094】
【0095】
【数26】
は、入力イメージにある文字を示してよく、生成器330のコンテンツ条件として使用される。コンテンツ特徴
【0096】
【数27】
は、全体訓練過程で文字ラベルだけによって訓練される。
【0097】
訓練過程で使用されるモジュールのうちの他の1つであるスタイル-コンテンツ判別器(style-content discriminator)450は、文字編集イメージ303、すなわち、入力イメージ
【0098】
【0099】
【0100】
【数30】
を使用して合成して生成されたものであるかを判別する
【0101】
【0102】
【数32】
は、生成器330の競争子であって、生成器330の品質を高める。
【0103】
したがって、本実施形態では、文字認識器440とスタイル-コンテンツ判別器450を活用した学習により、エンコーダ310、320は潜在コンテンツを識別することができ、生成器330は高品質イメージを生成することができる。
【0104】
RewriteNetモデル300の訓練過程で合成イメージペアを使用することで、スタイル特徴とコンテンツ特徴を分離するように文字認識器440とスタイル-コンテンツ判別器450を訓練させる。
【0105】
図4の合成イメージペアは同じスタイルを固有するが、コンテンツ、すなわち、文字部分が異なる。
【0106】
コンテンツ特徴は、ECTと文字認識器440を活用して、イメージの文字情報をキャプチャするように学習される。エンコードされたコンテンツ特徴は、文字認識器440に入力され、文字認識器440が正しいラベルを予測できるように、エンコーダ310が選好するコンテンツ特徴を生成するように訓練される。スタイル特徴は、コンテンツ変更後、ESTと生成器330がスタイルの一貫性を保ちながらスタイル情報を表現するように学習される。
【0107】
文字部分が異なり、背景、フォント、文字揃えなどのような同じレンダリング媒介変数を有するエンジンを合成することにより、合成イメージペア
【0108】
【数33】
が得られる。この後、単一訓練セットは、
【0109】
【数34】
Tとなる。ここで、Tは、文字ラベルを意味する。したがって、エンコーダ310、320、生成器330、文字認識器440は、再構成損失
【0110】
【0111】
【0112】
再構成損失は数式(2)のように定義してよく、認識損失は数式(3)のように定義してよい。
【0113】
【0114】
【数38】
は、逆伝播の流れを得ることのできない固定されたエンコーダを示し、T
iは、地上検証文字ラベルのi番目の文字を示す。再構成損失の際にE
CTを凍結しなければ、エンコーダ310、320と生成器330は、コンテンツイメージの複写によって迅速にローカル最小値まで落ちる。したがって、E
CTを凍結することでコンテンツ特徴が再構成損失の影響を受けないようにし、E
CTだけを認識損失によって訓練させる。
【0115】
このような損失は、モデルがコンテンツの転換を学習するように案内するが、訓練されたモデルは、合成スタイルの制限により、実際のイメージを取り扱うことができないことがある。
【0116】
合成イメージを利用した訓練過程の限界を補うために、実際のイメージ(unpaired real-world images)を利用して、RewriteNetモデル300に対する自己教師あり訓練(self-supervised training)過程を実施してよい。
【0117】
図5は、実際のイメージを利用した訓練過程を説明するための図である。
【0118】
実際のイメージの場合、同じスタイルで文字が異なるイメージペアを得ることは難しく、実際のイメージの文字ラベルを得るのにも多くの費用がかかる。
【0119】
本実施形態では、モデルがペアで構成されていない実際のイメージのスタイルとコンテンツ表現を学習することが可能なように、条件付き雑音制御オートエンコーダ損失(conditioned denoising autoencoder loss)を適用する。
【0120】
特に、幅方向に選択領域を長さ
でランダムに切り取って(cut out)一部文字をなくした後、ノイズのあるイメージをスタイルイメージとして使用し、残りの領域からスタイル特徴を抽出する。生成器330は、スタイルイメージから抽出したコンテンツ特徴を組み合わせ、空の領域の周辺領域スタイルを参照しながら空白を満たす。自己教師あり訓練技術は、損傷したイメージをスタイルイメージとして使用してスタイルイメージを些細なものに自動エンコードすることを禁止し、モデルが分離した表現を学習するように強制する。
【0121】
雑音制御オートエンコーダ損失は、数式(4)のように定義されてよい。
【0122】
【0123】
【0124】
【数41】
で損傷したノイズイメージを示したものである。このような自己教師あり訓練方法では、文字ラベルとペアとなるイメージを必要としない。
【0125】
一般的に、実際のイメージは、複雑な背景、多様なテクスチャ、高コントラスト領域のような高周波領域を有する。しかし、ピクセル単位の再構成損失
【0126】
【数42】
には高周波数を解決するための限界があり、低周波数を捉える傾向がある。
【0127】
高周波の鮮明性を奨励するために、敵対的生成ネットワーク(GAN)フレームワークを使用して現実的なテキストイメージを生成する。より具体的に説明すると、スタイルイメージと潜在コンテンツの与えられた条件で、入力イメージの偽物または実際の確率を示すように判別器560を設計する。確率p(Xは、偽物
【0128】
【数43】
ではない)に対して判別器560を示す。ここで、XとX
stはそれぞれ、入力イメージとスタイルイメージを示す。敵対的損失は、数式(5)および数式(6)のように定義されてよい。
【0129】
【0130】
ここで、
【0131】
【0132】
【数46】
は、合成イメージと実際のスタイルイメージでそれぞれ生成されたイメージを示す。条件として使用される潜在コンテンツは、敵対的損失からエンコーダ310、320への逆伝播の流れを遮断するために凍結される。
【0133】
また、多様なGANモデルの訓練を安定化させる特徴マッチング損失(feature matching loss)を使用する。特に、判別器560の中間特徴マップを抽出して、生成されたサンプルとターゲットサンプルの距離を最小化する(数式(7)および数式(8))。
【0134】
【0135】
ここで、
【0136】
【0137】
【数49】
は出力特徴マップであり、l番目のレイヤ
【0138】
【0139】
【0140】
【0141】
【数53】
を計算するのに、同じ条件が使用される。特徴マッチング損失は、生成器330がターゲットサンプルとマルチスケール統計を一致させるように促進することができるため、全体サンプルの品質に役立つ。
【0142】
最終損失は、数式(9)のように公式化されてよい。
【0143】
【数54】
ここで、α、β、γ、およびλは、損失の均衡を合わせるハイパーパラメータを示す。
【0144】
上述したような訓練過程を経たRewriteNetモデル300で、エンコーダ310、320は、部分的に共有された潜在空間過程(partially shared latent space assumption)に従うようになり、ここで、イメージ
【0145】
【0146】
【0147】
【数57】
で構成される。入力イメージの空間依存性を緩和するために、コンテンツ特徴に双方向LSTM(Long short term memory)レイヤを適用する。
【0148】
文字認識器440は、イメージの文字シーケンスを推定してコンテンツおよびスタイルを区分するという重要な役割を担う。文字認識器440は、識別されたコンテンツ特徴のアテンション機構(attention mechanism)があるLSTMデコーダで構成される。文字認識器440を学習するためには文字ラベルが必要となるため、合成データセットを活用する。
【0149】
生成器330は、潜在されたスタイル特徴とコンテンツ特徴を入力として指定すれば、指定されたスタイルとコンテンツをもつイメージを出力する。生成器330を構成するネットワークは、Unetアキテクチャで使用されるデコーダと類似し、複数のESTレイヤのスタイル特徴は、短い連結によって生成器330に入力される。
【0150】
判別器560は、入力イメージが実際のイメージであるか、機械によって生成されたイメージであるかを判別する。
【0151】
図6は、RewriteNetモデル300を利用した文字変更の例を示した図である。
【0152】
図6を参照すると、プロセッサ120は、与えられたスタイルイメージ301とコンテンツイメージ302に対し、RewriteNetモデル300を利用してスタイルイメージ301のスタイル特徴とコンテンツイメージ302のコンテンツ特徴を組み合わせることにより、全体的なスタイルは維持した状態で、文字部分だけが変更された文字編集イメージ303を生成することができる。
【0153】
このように、本発明の実施形態によると、イメージ表現をスタイル特徴とコンテンツ特徴に分離する方法により、情景文字イメージにおいて、フォント、文字揃え、背景のようなスタイルは維持しながら、文字部分だけを所望のコンテンツに変更することができる。特に、本発明の実施形態によると、ターゲット文字に対するコンテンツ特徴を生成して与えられたイメージのスタイル特徴と結合する方式により、該当のイメージで文字部分だけを変更することができる。また、本発明の実施形態によると、ラベルが指定されていない実際のイメージを利用して情景文文字編集モデルを学習することにより、学習データセットを設けるための時間と費用を節減できることはもちろん、モデルが合成スタイルに偏ることを防ぐことができ、訓練とテスト環境の間に生じるドメイン格差を解消することができる。
【0154】
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
【0155】
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
【0156】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。
【0157】
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
【0158】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
【符号の説明】
【0159】
300:RewriteNetモデル
301:スタイルイメージ
302:コンテンツイメージ
303:文字編集イメージ
310、320:エンコーダ
330:生成器