(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025011976
(43)【公開日】2025-01-24
(54)【発明の名称】画像処理方法、画像処理装置およびプログラム
(51)【国際特許分類】
G06V 10/82 20220101AFI20250117BHJP
G06V 20/62 20220101ALI20250117BHJP
G06T 7/194 20170101ALI20250117BHJP
【FI】
G06V10/82
G06V20/62
G06T7/194
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023114465
(22)【出願日】2023-07-12
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504145342
【氏名又は名称】国立大学法人九州大学
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】木村 昭悟
(72)【発明者】
【氏名】内田 誠一
(72)【発明者】
【氏名】三谷 勇人
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096BA08
5L096BA17
5L096DA01
5L096FA44
5L096HA11
(57)【要約】
【課題】画像から特定の文字列のみを選択的に消去することを可能にする技術を提供することである。
【解決手段】画像処理方法は、背景抽出部が、文字列を含む入力画像から、全ての前記文字列が消去された背景画像を抽出し、文字列抽出部が、入力画像と背景画像を用いて、文字列を抽出し、文字列消去部が、抽出された文字列の画像から指定の文字列を消去し、再構成部が、背景画像と、指定の文字列が消去された文字列の画像と、を統合する。
【選択図】
図10
【特許請求の範囲】
【請求項1】
背景抽出部が、文字列を含む入力画像から、全ての前記文字列が消去された背景画像を抽出し、
文字列抽出部が、前記入力画像と前記背景画像を用いて、前記文字列を抽出し、
文字列消去部が、抽出された前記文字列の画像から指定の文字列を消去し、
再構成部が、前記背景画像と、前記指定の文字列が消去された文字列の画像と、を統合する、
画像処理方法。
【請求項2】
画像処理装置が、
背景抽出と文字列抽出と文字列消去と再構成の各処理を個別に最適化のため、事前学習を行い、
全処理部の処理を同時に最適化するために、同期学習を行い、
学習された前記背景抽出部と前記文字列抽出部と前記文字列消去部と前記再構成部を用いて、前記入力画像から、前記背景画像と、前記指定の文字列が消去された文字列の画像とを統合して、選択的文字列消去を行う、
請求項1に記載の画像処理方法。
【請求項3】
前記背景抽出部が、学習時、学習用入力画像から、全ての前記文字列が消去された推定背景画像を抽出し、前記推定背景画像と、教師データである背景画像との間の損失関数を用いて、前記背景抽出部のパラメータを学習する、
請求項1に記載の画像処理方法。
【請求項4】
前記文字列抽出部が、学習用入力画像と学習用背景画像を用いて、前記文字列を抽出し、抽出した前記文字列の推定文字列画像と、教師データである文字列画像との間の損失関数を用いて、前記文字列抽出部のパラメータを学習する、
請求項1に記載の画像処理方法。
【請求項5】
前記文字列消去部が、学習用文字列画像から学習用入力ラベルで指定される文字列を消去した消去文字列画像と、学習用消去文字列画像との間の損失関数を用いて、前記文字列消去部のパラメータを学習する、
請求項1に記載の画像処理方法。
【請求項6】
前記再構成部が、前記文字列を含む入力画像から指定の文字列が消去された画像と、前記背景画像とを合成し、前記合成した画像と、学習用目標画像との間の損失関数を用いて、前記再構成部のパラメータを学習する、
請求項1に記載の画像処理方法。
【請求項7】
前記背景抽出部が、学習用入力画像から背景画像を抽出し、
前記文字列抽出部が、前記背景画像と学習用入力画像を用いて、前記文字列の画像の文字列画像を抽出し、
前記再構成部が、前記文字列を含む入力画像から指定の文字列が消去された画像と、前記背景画像とを合成して再構成し、
再構成損失計算部が、前記合成した画像と学習用目標画像との間の再構成損失を計算し、
再構成部係数更新部が、前記再構成損失に基づいて、前記再構成部のパラメータである再構成部係数を更新し、
文字列消去部係数更新部が、学習用文字列画像から学習用入力ラベルで指定される文字列を消去した消去文字列画像と学習用消去文字列画像との間の文字列消去損失関数に基づいて、前記文字列消去部のパラメータである文字列消去部係数を更新し、
文字列抽出部係数更新部が、抽出された前記文字列画像と、学習用文字列画像との間の文字列抽出損失関数に基づいて、前記文字列抽出部のパラメータである文字列抽出部係数を更新し、
背景抽出部係数更新部が、前記背景画像と学習用背景画像との間の背景抽出損失に基づいて、前記背景抽出部のパラメータである背景抽出部係数を更新する、
請求項1に記載の画像処理方法。
【請求項8】
文字列を含む入力画像から、全ての前記文字列が消去された背景画像を抽出する背景抽出部と、
前記入力画像と前記背景画像を用いて、前記文字列を抽出する文字列抽出部と、
抽出された前記文字列の画像から指定の文字列を消去する文字列消去部と、
前記背景画像と、前記指定の文字列が消去された文字列の画像と、を統合する再構成部と、
を備える画像処理装置。
【請求項9】
コンピューターを、
請求項8に記載の画像処理装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理方法、画像処理装置およびプログラムの技術に関する。
【背景技術】
【0002】
テキストが含まれている画像から、テキスト領域を除去STR(Scene Text Removal)する手法の開発が進められている(例えば、非特許文献1、2参照)。
シーンテキスト除去(STR)またはシーンテキスト消しゴムは、シーン画像のテキスト領域を除去するタスクである。STRの結果、シーン画像内のテキスト領域は、周囲の領域の一部のように塗りつぶされる。この結果、画像から文字情報が消える。なお、従来のSTR手法は、シーン画像中の全てのテキスト領域を除去しようと試みる。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Nakamura, Zhu, Yanai, Uchida, "Scene text eraser,",Proc. International Conference on Document Analysis and Recognition, (ICDAR), 2017.
【非特許文献2】Tursun, Zeng, Denman, Sivapalan, Sridharan, Fookes, "MTR-Net: A generic scene text eraser,", Proc. International Conference on Document Analysis and Recognition (ICDAR), 2019.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術では、すべてのシーンテキストを除去するように設計されているため、削除するテキストを選択することができなかった。文字には多くの有用な情報が含まれているため、すべてのシーンテキストを除去することは、大きな情報損失となるという問題がった。
【0005】
上記事情に鑑み、本発明は、画像から特定の文字列のみを選択的に消去することを可能にする技術を提供することである。
【課題を解決するための手段】
【0006】
本発明の一態様は、背景抽出部が、文字列を含む入力画像から、全ての前記文字列が消去された背景画像を抽出し、文字列抽出部が、前記入力画像と前記背景画像を用いて、前記文字列を抽出し、文字列消去部が、抽出された前記文字列の画像から指定の文字列を消去し、再構成部が、前記背景画像と、前記指定の文字列が消去された文字列の画像と、を統合する、画像処理方法である。
【0007】
本発明の一態様は、文字列を含む入力画像から、全ての前記文字列が消去された背景画像を抽出する背景抽出部と、前記入力画像と前記背景画像を用いて、前記文字列を抽出する文字列抽出部と、抽出された前記文字列の画像から指定の文字列を消去する文字列消去部と、前記背景画像と、前記指定の文字列が消去された文字列の画像と、を統合する再構成部と、を備える画像処理装置である。
【0008】
本発明の一態様は、コンピューターを、上述の画像処理装置として機能させるためのプログラムである。
【発明の効果】
【0009】
本発明により、画像から特定の文字列のみを選択的に消去することを可能にする。
【図面の簡単な説明】
【0010】
【
図2】実施形態の画像処理装置の構成例を示す図である。
【
図3】実施形態の構成と処理の概要を示す図である。
【
図4】実施形態で行う処理手順の概要のフローチャートである。
【
図5】事前学習における第1の処理手順のフローチャートである。
【
図6】事前学習における第2の処理手順のフローチャートである。
【
図7】事前学習における第3の処理手順のフローチャートである。
【
図8】事前学習における第4の処理手順のフローチャートである。
【
図10】選択的文字列消去処理手順のフローチャートである。
【
図11】学習で使用した画像の一例を示す図である。
【
図15】文字フォント画像データセットを用いた評価結果例を示す図である。
【発明を実施するための形態】
【0011】
本発明の実施形態について、図面を参照して詳細に説明する。
【0012】
図1は、文字列除去例を示す図である。符号g1の画像は、元画像である。符号g2の画像は、従来技術でテキスト領域を除去した場合のイメージ図である。符号g3の画像は、本実施形態の手法で文字を選択的に除去したイメージ図である。本実施形態では、自動的に対象単語を見つけ出し、エンド・ツー・エンドで削除する。
【0013】
例えば、入力画像Iに削除可能なK個の単語候補の集合Ω={“drug,”“store,”“coke”}があり“drug”が消去対象であるとする。この場合、画像処理装置1(
図2)は、ω(∈Ω)=“drug”を消去し、Ω
―∪(Ω\ω)の単語“store”および“coke”を消去しない。
【0014】
図2は、本実施形態の画像処理装置の構成例を示す図である。画像処理装置1は、例えば、取得部11と、学習部12と、抽出部13と、文字列消去部14と、再構成部15と、損失計算部16と、更新部17と、出力部18と、記憶部19と、を備えている。
学習部12は、例えば、学習データ準備部121を備えている。
抽出部13は、例えば、背景抽出部131と、文字列抽出部132と、を備えている。
損失計算部16は、例えば、背景抽出損失計算部161と、文字列抽出損失計算部162と、文字列消去損失計算部163と、再構成損失計算部164と、を備えている。
更新部17は、例えば、背景抽出部係数更新部171と、文字列抽出部係数更新部172と、文字列消去部係数更新部173と、再構成部係数更新部174と、を備えている。
【0015】
取得部11は、画像を取得する。
【0016】
学習データ準備部121は、複数の画像の組を数多く集めた学習データを用意する処理である学習データ準備処理を行う。
【0017】
背景抽出部131は、文字列を含む画像からすべての文字列を消去して背景画像を抽出する処理である背景抽出処理を行う。すなわち、背景画像は、入力画像から、全ての文字列が消去された画像である。
【0018】
文字列抽出部132は、文字列を含む画像から背景を消去して文字列のみを抽出する処理である文字列抽出処理を行う。
【0019】
文字列消去部14は、文字列のみを抽出した画像から指定の文字列を消去する処理である文字列消去処理を行う。
【0020】
再構成部15は、指定の文字列が消去された画像と背景画像とを合成する処理である再構成処理を行う。
【0021】
背景抽出損失計算部161は、背景抽出処理の結果が望ましいかどうかを評価する処理である背景抽出損失計算処理を行う。
【0022】
文字列抽出損失計算部162は、文字列抽出処理の結果が望ましいかどうかを評価する処理である文字列抽出損失計算処理を行う。
【0023】
文字列消去損失計算部163は、文字列消去処理の結果が望ましいかどうかを評価する処理である文字列消去損失計算処理を行う。
【0024】
再構成損失計算部164は、再構成処理の結果が望ましいかどうかを評価する処理である再構成損失計算処理を行う。
【0025】
背景抽出部係数更新部171は、計算した損失に基づいて背景抽出部係数を更新する処理である背景抽出部係数更新処理を行う。
【0026】
文字列抽出部係数更新部172は、計算した損失に基づいて文字列抽出部係数を更新する処理である文字列抽出部係数更新処理を行う。
【0027】
文字列消去部係数更新部173は、計算した損失に基づいて文字列消去部係数を更新する処理である文字列消去部係数更新処理を行う。
【0028】
再構成部係数更新部174は、計算した損失に基づいて再構成部係数を更新する処理である再構成部係数更新処理を行う。
【0029】
出力部18は、再構成部15によって指定の文字列が消去された画像と背景画像とを合成された推定画像を外部装置に出力する。なお、外部装置は、例えば、画像表示装置、パーソナルコンピュータ、携帯端末等である。
【0030】
記憶部19は、例えば、各処理部が用いるパラメータ、音声処理装置が学習書初期時に用いるプログラム、学習後期時に用いるプログラム、後述する学習済のモジュールを用いて文字列を選択して消去する際に使用されるプログラム等を記憶する。
【0031】
画像処理装置1は、CPU(Central Processing Unit)等のプロセッサーとメモリーとを用いて構成される。画像処理装置1は、プロセッサーがプログラムを実行することによって、例えば、取得部11と、学習部12と、抽出部13と、文字列消去部14と、再構成部15と、損失計算部16と、更新部17と、出力部18として機能する。なお、画像処理装置1の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されても良い。上記のプログラムは、コンピューター読み取り可能な記録媒体に記録されても良い。コンピューター読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM、半導体記憶装置(例えばSSD:Solid State Drive)等の可搬媒体、コンピューターシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。上記のプログラムは、電気通信回線を介して送信されてもよい。
【0032】
図3は、本実施形態の構成と処理の概要を示す図である。
図3のように、画像処理装置1は、複数のモジュールで表すことができる。各モジュールは、数理モデルであり、ネットワークである。なお、学習済の各モジュールを用いて、選択的文字列消去場合の処理の概略を説明する。学習時の各モジュールの入力と出力については、後述する。
【0033】
画像g11は、Background Extraction Module(符号g12)と、Text Extraction Module(符号g14)に入力される。ご述するように、Background Extraction Module(符号g12)は、背景抽出処理に相当する。Text Extraction Module(符号g14)は、文字列抽出処理に相当する。
【0034】
Background Extraction Module(符号g12)は、文字列を含む画像からすべての文字列を消去して推定背景画像g13を抽出し、抽出した推定背景画像g13を出力する。
Text Extraction Module(符号g14)には、画像g11と、推定背景画像g13が入力される。Text Extraction Module(符号g14)は、文字列を含む画像から背景を消去して文字列のみを抽出し、抽出した推定文字列画像g15を出力する。
【0035】
Selective Word Removal Module(符号g17)には、推定文字列画像g15と、入力ラベルg16が入力される。なお、Selective Word Removal Module(符号g17)は、文字列消去処理に相当する。Selective Word Removal Module(符号g17)は、推定消去済文字列画像g18を抽出し、抽出した推定消去済文字列画像g18を出力する。
【0036】
Reconstruction Module(符号g19)には、推定背景画像g13と、推定消去済文字列画像g18が入力される。Reconstruction Module(符号g19)は、再構成処理に相当する。Reconstruction Module(符号g19)は、指定の文字列が消去された画像と背景画像とを合成し、合成した推定画像g20を出力する。
【0037】
モデルは、事前学習の後、エンド・ツー・エンド方式で学習される。具体的には、まず各モジュールを個別に事前学習し、その後、すべてのモジュールをエンド・ツー・エンドで微調整する。例えば、Selective Word Removal Module(符号g17)は、背景の変化のないテキスト画像で学習されるなど、各モジュールは、そのモジュール用に用意された十分な量の合成画像を用いて事前学習できる。このため、本実施形態によれば、マルチモジュール構造であるため、モデルの学習コストを劇的に低下させることができる。
【0038】
[各処理の説明]
次に、学習処理や画像処理で用いる各処理について説明する。
【0039】
(学習サンプル準備処理)
学習データ準備処理において、入力は無し、出力は学習サンプル集合である。学習サンプルは、学習用背景画像∞(xi)-、学習用入力画像xi、学習用文字列画像zi、学習用消去済文字列画像〇(zi)-、学習用目標画像yiの5枚の画像および学習用入力ラベルciの組〇((xi)-,xi,zi,(zi)-,yi,ci)によって構成される。
【0040】
学習用背景画像(xi)-は、文字列を含まない画像である。学習用文字列画像ziは、無背景に文字列のみが含まれる画像である。学習用入力画像xiは、学習用背景画像に学習用文字列画像を重畳した画像である。学習用消去済文字列画像(zi)-は、学習用文字列画像から特定の文字列を消去した画像である。学習用目標画像yiは学習用背景画像に学習用消去済文字列画像を重畳した画像である。すなわち、学習用入力画像から特定の文字列を消去した画像となっている。また、学習用入力ラベルciは、消去対象とする文字列の識別情報(ID)である。
【0041】
学習サンプル準備処理では、あらかじめ定められた文字列集合の中からいずれかの文字列を選択する方法が一般的ではあるが、複数の文字列を選択しても良く、文字列集合を事前に準備せずに文字列を直接入力する方針でも良い。
学習用サンプルは、上述した6つの構成要素がすべて揃っている必要はなく、学習用入力画像と学習用目標画像と学習用入力ラベルの3点があれば最低限問題ない。
また、本実施形態においては、学習サンプルを多数集めたものを学習サンプル集合という。
【0042】
(背景抽出処理)
背景抽出処理において、学習時の入力は学習用入力画像と背景抽出部係数であり、使用時の入力は入力画像と背景抽出部係数である(以下の類似の処理でも同様)。なお、背景抽出部係数は、イメージとして本処理を実行する背景抽出部131のモデルパラメータである。ここで、背景抽出部131は、入力画像からすべての文字列を消去することをめざして構築されている。本実施形態では、背景抽出部131の出力画像を推定背景画像という。
学習時の出力は学習用推定背景画像であり、使用時の出力は推定背景画像という(以下の類似の処理でも同様)。また、学習時、背景抽出部131は、例えば、学習用推定背景画像と教師データである背景画像の間のMSE(Mean Squared Error)損失関数で学習される。
【0043】
すなわち、事前学習時および同時学習時、背景抽出部131は、学習用入力画像が入力され学習用推定背景画像を出力する。また、選択的文字列消去時、背景抽出部131は、入力画像が入力され推定背景画像が出力する。また、背景抽出部131の入力画像と出力画像は、いずれも3チャンネルのRGB画像である。
なお、背景抽出処理には、例えば、先行技術の非特許文献1や2等、従来のSTR向け技術を利用する。
【0044】
本実施形態では、背景を除去して文字列のみを抽出する手法として、例えば、U-Net(例えば参考文献1参照)と呼ばれるニューラルネットワーク構造を用いる。本実施形態の背景抽出処理で用いるU-Netは、例えば、3つの畳み込み層と、3つのデコンボリューション層と、スキップ接続を持つ。また、U-Netでは、ボトルネックに4つの残差層が使用されている。U-Netは、複数の畳み込み層を用いて空間解像度を下げた後に、同数の逆畳み込み層を用いて空間解像度を上げ、入力画像と同じ空間解像度を持つ画像を出力する。また、U-Netは、同じ空間解像度を持つ畳み込み層出力と逆畳み込み層出力の間にショートカットを作り、空間解像度の高い情報も出力に反映させている。
【0045】
参考文献1;Olaf Ronneberger, Philipp Fischer, et al., “U-Net: Convolutional networks for biomedical image segmentation”, Proc. International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI), 2015
【0046】
(文字列抽出処理)
学習の初期段階では、文字列抽出部132を単独で事前学習することを想定する。このため、学習の初期段階の入力は、学習用入力画像と、学習サンプルに含まれている学習用背景画像と、文字列抽出部係数である。学習の後期段階では、文字列抽出部132を含めた全体を同時に学習することを想定する。このため、学習の後期段階の入力は、学習用入力画像と、背景抽出処理の出力である学習用推定背景画像と、文字列抽出部係数である。使用時の入力は入力画像と推定背景画像と文字列抽出部係数である。文字列抽出部係数は、イメージとして本処理を実行する文字列抽出部132のモデルパラメータである。
出力は、学習用推定文字列画像である。なお、文字列抽出部132は、入力画像から背景を消去して文字列のみを抽出することをめざして構築されている。本実施形態では、文字列抽出部132の出力画像を推定文字列画像という。
【0047】
すなわち、文字列抽出部132は、事前学習時に学習用入力画像と学習用背景画像が入力され、同時学習プロセスでは学習用入力画像と学習用推定背景画像が入力され、学習用推定文字列画像を出力する。選択的文字列消去時、文字列抽出部132は、入力画像と推定背景画像がそれぞれ入力され推定文字列画像を出力する。
【0048】
なお、本実施形態では、背景を除去して文字列のみを抽出する手法として、例えば、U-Net(例えば参考文献1参照)と呼ばれるニューラルネットワーク構造を用いる。本実施形態の文字列抽出部132のU-Netは、例えば、4つの畳み込み層と、4つのデコンボリューション層と、スキップ接続を持つ。
【0049】
また、文字列抽出部132の入力画像は、入力画像と背景画像の2つの3チャンネルRGB画像を重ねた6チャンネル画像である。文字列消去部14の出力は、抽出されたテキストを示すRGBA画像(RGBにαチャンネルを加えたもの)である。出力画像の非テキスト領域は、透過(α=0)、テキスト領域は非透過(α=1)として扱われ、RGBの色を持つ。なお、本実施形態において、文字列抽出部132の出力である推定文字列画像は、入力画像が持つチャンネルに加えてアルファチャンネルを保持するものとする。
【0050】
(文字列消去処理)
学習の初期段階の入力は、学習用文字列画像と、学習用入力ラベルと、文字列消去部係数である。学習の後期段階の入力は、学習用推定文字列画像と、学習用入力ラベルと、文字列消去部係数である。使用時の入力は、推定文字列画像と、入力ラベルと、文字列消去係部数である。なお、文字列消去部係数は、イメージとして本処理を実行する文字列消去部14のモデルパラメータである。
学習時の出力は、学習用推定消去済文字列画像である。使用時の出力は、推定消去済文字列画像である。
なお、文字列抽出処理と同様、入力ラベルで指定された文字列を消去することをめざした文字列消去部14の出力を推定消去済文字列画像とする。
【0051】
すなわち、文字列消去部14は、事前学習時に学習用文字列画像と学習用入力ラベルが入力され、同時学習時に学習用推定文字列画像と学習用入力ラベルが入力され、学習用推定消去済文字列画像を出力する。文字列消去部14は、選択的文字列消去時、推定文字列画像と入力ラベルが入力され、推定消去済文字列画像を出力する。
【0052】
なお、本実施形態では、指定した文字列を消去する手法に、例えば、Conditional U-Net(例えば参考文献2参照)と呼ばれるニューラルネットワーク構造を用いる。Conditional U-Netは、前述したU-Netにクラス条件を追加できる構造である。
【0053】
具体的には、条件をK次元のワンホットベクトルとして表現し、対象語ωを指定する。すなわち、K個の要素のうち、ωに対応する要素を1、それ以外を0とする。本実施形態において、Conditional U-Netは、条件ベクトルを標準的なU-Netのボトルネック部分に供給するために、FiLM(Feature-wise Linear Modulation)層を備えている。具体的には、FiLM層の出力は、U-Netのボトルネック部の特徴マップを修正する。なお、FiLMは、条件付きアフィン変換を形式化したものである。
【0054】
参考文献2;Gabriel Meseguer-Brocal, Geoffroy Peeters, “Conditioned-U-Net: Introducing a control mechanism in the U-Net for multiple source separations”, Proc. International Society for Music Information Retrieval Conference (ISMIR), 2019
【0055】
図3や上述したように、文字列消去部14への入力は、テキストのみのRGBA画像と条件ベクトルである。また、文字列消去部14の出力は、Ω
―∪(Ω\ω)の単語のみを表示したテキストのみのRGBA画像である。
【0056】
(再構成処理)
学習の初期段階の入力は、学習用消去済文字列画像と、学習用背景画像と、再構成部係数である。学習の後期段階の入力は、学習用推定消去済文字列画像と、学習用推定背景画像と、再構成部係数である。使用時の入力は、推定消去済文字列画像と、推定背景画像と、再構成部係数である。なお、再構成部係数は、イメージとして本処理を実行する再構成部15のモデルパラメータである。
学習時の出力は、学習用推定画像である。使用時の出力は、推定画像である。なお、文字列抽出処理などと同様、再構成部15の出力を推定画像とする。
【0057】
すなわち、再構成部15は、事前学習時に学習用消去済文字列画像と学習用背景画像が入力され、同時学習プロセス時に学習用推定消去済文字列画像と学習用推定背景画像が入力され、学習用推定画像を出力する。再構成部15は、選択的文字列消去プロセス時に推定消去済文字列画像と推定背景画像が入力され、推定画像を出力する。
【0058】
なお、本実施形態では、文字列のみの画像と背景画像とを合成する手法として、例えば、文字列抽出処理と同様にU-Netを用いる。このU-Netを用いることにより、再構成処理では、アルファチャンネルを持つ消去済文字列画像と、アルファチャンネルを持たない背景画像とが合成され、アルファチャンネルを持たない推定画像が出力される。なお、再構成部15には、背景抽出部131の出力であるRGB画像(推定背景画像)と、文字列消去部14の出力であるRGBA画像を7チャンネル画像としてレイヤー化して入力される。
【0059】
(背景抽出損失計算処理)
入力は、学習用背景画像と学習用推定背景画像である。
出力は、学習用背景抽出損失である。なお、本処理では、学習用推定背景画像がどの程度学習用背景画像に近しいかを評価して、学習用背景抽出損失として出力する。
なお、本実施形態では、例えば学習用背景画像と学習用推定背景画像との平均自乗誤差で損失の計算をする。
【0060】
(文字列抽出損失計算処理)
入力は、学習用文字列画像と学習用推定文字列画像である。
出力は、学習用文字列抽出損失である。
なお、本実施形態では、例えば学習用文字列画像と学習用推定文字列画像との平均自乗誤差で損失の計算をする。
【0061】
(文字列消去損失計算処理)
入力は、学習用消去文字列画像と学習用推定消去文字列画像である。
出力は、学習用文字列消去損失である。
なお、本実施形態では、例えば学習用消去文字列画像と学習用推定消去文字列画像との平均自乗誤差で損失の計算をする。
【0062】
(再構成損失計算処理)
入力は、学習用推定画像と学習用目標画像である。
出力は、学習用再構成損失である。なお、本処理では、学習用推定画像がどの程度学習用目標画像に近しいかを評価して、学習用再構成損失として出力する。
なお、本実施形態では、例えば学習用推定画像と学習用目標画像との平均自乗誤差で損失の計算をする。
【0063】
(背景抽出部係数更新処理)
学習の初期段階では、背景抽出部単独で事前学習を行う。このため、学習の初期段階の入力は、学習用背景抽出損失と現在の背景抽出部係数であり、学習用背景抽出損失に基づいて背景抽出部131のモデルパラメータを更新する。学習の後期段階では、モデル全体を同時に学習する。このため、学習の後期段階の入力は、学習用再構成損失と現在の背景抽出部係数であり、学習用再構成損失に基づいてモデルパラメータを更新する。
出力は、更新された背景抽出係数である。なお、本処理では、背景抽出部131のモデルパラメータを損失に基づいて更新する。
【0064】
背景抽出処理は、ニューラルネットワークで表現されることが想定されている。このため、本実施形態では、損失をニューラルネットワークに逆伝播することで、背景抽出処理を構成する背景抽出部131のモデルパラメータに対応する背景抽出部係数を更新することができる。
【0065】
(文字列抽出部係数更新処理)
学習の初期段階の入力は、学習用文字列抽出損失と、現在の文字列抽出部係数である。学習の後期段階の入力は、学習用再構成損失と、現在の文字列抽出部係数である。
出力は、更新された文字列抽出部係数である。
【0066】
文字列抽出処理は、ニューラルネットワークで表現されることが想定されている。このため、本実施形態では、損失をニューラルネットワークに逆伝播することで、文字列抽出処理を構成する文字列抽出部132のモデルパラメータに対応する文字列抽出部係数を更新することができる。
【0067】
(文字列消去部係数更新処理)
学習の初期段階の入力は、学習用文字列消去損失と、現在の文字列消去部係数である。学習の後期段階の入力は、学習用再構成損失と、現在の文字列消去部係数である。
出力は、更新された文字列消去部係数である。
【0068】
文字列消去処理は、ニューラルネットワークで表現されることが想定されている。このため、本実施形態では、損失をニューラルネットワークに逆伝播することで、文字列消去処理を構成する文字列消去部14のモデルパラメータに対応する文字列消去部係数を更新することができる。
【0069】
(再構成係数更新処理)
入力は、学習用再構成損失と現在の再構成部係数である。
出力は、更新された再構成部係数である。
【0070】
再構成処理は、ニューラルネットワークで表現されることが想定されている。このため、本実施形態では、損失をニューラルネットワークに逆伝播することで、再構成処理を構成する再構成部15のモデルパラメータに対応する再構成部係数を更新することができる。
【0071】
[処理手順]
まず、本実施形態で行う処理手順の概要について説明する。
図4は、本実施形態で行う処理手順の概要のフローチャートである。
(ステップS1)画像処理装置1は、背景抽出と文字列抽出と文字列消去と再構成の各処理を個別に最適化のため、事前学習を行う。
(ステップS2)画像処理装置1は、全処理部の処理を同時に最適化するために、同期学習を行う。
(ステップS3)画像処理装置1は、学習されたモデルを用いて選択的文字列消去を実施するために、選択的文字列消去を行う。
【0072】
(事前学習処理)
まず、事前学習処理について、
図5~
図8を用いて説明する。なお、この処理の出力は、学習サンプル集合である。以下の処理によって、学習データ準備部121は、複数の画像の組を数多く集めた学習データを用意する。なお、上述したように、学習用サンプルは,6つの要素がすべて揃っている必要はないため、学習用入力画像と学習用目標画像と学習用入力ラベルに関する処理を行い、他の要素に関する処理は行わなくてもよい。
【0073】
図5は、事前学習における第1の処理手順のフローチャートである。
(ステップS11)取得部11は、学習用入力画像を取得する。
(ステップS12)背景抽出部131は、学習用入力画像に対して背景抽出処理を行う。
(ステップS13)背景抽出損失計算部161は、背景抽出損失計算処理を行う。
(ステップS14)背景抽出部係数更新部171は、背景抽出部係数更新処理を行う。学習データ準備部121は、処理後、ステップS11の処理に戻し、ステップS11~S14の処理を繰り返す。
【0074】
図6は、事前学習における第2の処理手順のフローチャートである。
(ステップS21)取得部11は、学習用入力画像と学習用背景画像を取得する。
(ステップS22)文字列抽出部132は、学習用入力画像と学習用背景画像を入力して、文字列抽出を行う。
(ステップS23)文字列抽出損失計算部162は、文字列抽出損失計算処理を行う。
(ステップS24)文字列抽出部係数更新部172は、文字列抽出部係数更新処理を行う。学習データ準備部121は、処理後、ステップS21の処理に戻し、ステップS21~S24の処理を繰り返す。
これらの処理によって、文字列抽出部係数が更新され、文字列抽出部132の学習が行われる。
【0075】
図7は、事前学習における第3の処理手順のフローチャートである。
(ステップS31)取得部11は、学習用文字列画像と学習用入力ラベルを取得する。
(ステップS32)文字列消去部14は、学習用文字列画像と学習用入力ラベルを入力して、文字列消去処理を行う。
(ステップS33)文字列消去損失計算部163は、文字列消去損失計算処理を行う。
(ステップS34)文字列消去部係数更新部173は、文字列消去部係数更新処理を行う。学習データ準備部121は、処理後、ステップS31の処理に戻し、ステップS31~S34の処理を繰り返す。
これらの処理によって、文字列消去部係数が更新され、文字列消去部14の学習が行われる。
【0076】
なお、上述したように、文字列消去部14の学習は、
図4の画像g53とg54のような画像ペアである。ωで指定された対象語のスタイルや色のバリエーションをカバーするためには、十分な数の画像ペアが必要である。背景画像が先行モジュール(Text Extraction Module(
図3の符号g14))で除去されている、このため、文字列消去部14は、背景のバリエーションを考慮必要がない。すなわち、文字列消去処理において背景のバリエーションを気にする必要がある場合は、背景と対象単語の組み合わせを非常に多くする必要がある。これに対して、本実施形態によれば、背景が除去されているので、学習負荷を軽減できる。
【0077】
図8は、事前学習における第4の処理手順のフローチャートである。
(ステップS41)取得部11は、学習用消去文字列画像と学習用背景画像を取得する。
(ステップS42)再構成部15は、学習用消去文字列画像と学習用背景画像を入力して、再構成処理を行う。
(ステップS43)再構成損失計算部164は、再構成損失計算処理を行う。
(ステップS44)再構成部係数更新部174は、再構成部係数更新処理を行う。学習データ準備部121は、処理後、ステップS41の処理に戻し、ステップS41~S44の処理を繰り返す。
これらの処理によって、再構成部係数が更新され、再構成部15の学習が行われる。
【0078】
(同期学習処理)
図9は、同期学習処理の処理手順のフローチャートである。
(ステップS51)取得部11は、学習用入力画像と学習用入力ラベルを取得する。
(ステップS52)背景抽出部131は、学習用入力画像に対して背景抽出処理を行う。
(ステップS53)文字列抽出部132は、推定背景画像と学習用入力画像を入力して、文字列抽出を行う。
(ステップS54)文字列消去部14は、推定文字列画像と学習用入力ラベルを入力して、文字列消去処理を行う。
(ステップS55)再構成部15は、推定背景画像と推定消去済文字列画像を入力して、再構成処理を行う。
(ステップS56)再構成損失計算部164は、再構成損失計算処理を行う。
(ステップS57)再構成部係数更新部174は、再構成部係数更新処理を行う。
(ステップS58)文字列消去部係数更新部173は、文字列消去部係数更新処理を行う。
(ステップS59)文字列抽出部係数更新部172は、文字列抽出部係数更新処理を行う。
(ステップS60)背景抽出部係数更新部171は、背景抽出部係数更新処理を行う。学習データ準備部121は、処理後、ステップS51の処理に戻し、ステップS51~S60の処理を繰り返す。
これらの処理によって、文字列消去部係数、文字列抽出部係数、背景抽出部係数および再構成部係数が更新され、背景抽出部131、文字列抽出部132、文字列消去部14および再構成部15の学習が行われる。
【0079】
(選択的文字列消去処理;使用時)
図10は、選択的文字列消去処理手順のフローチャートである。
(ステップS71)取得部11は、入力画像と入力ラベルを取得する。
(ステップS72)背景抽出部131は、学習用入力画像に対して背景抽出処理を行う。
(ステップS73)文字列抽出部132は、推定背景画像と入力画像を入力して、文字列抽出を行う。
(ステップS74)文字列消去部14は、推定文字列画像と入力ラベルを入力して、文字列消去処理を行う。
(ステップS75)再構成部15は、推定背景画像と推定消去済文字列画像を入力して、再構成処理を行う。
(ステップS76)出力部18は、再構成部15によって指定の文字列が消去された画像と背景画像とを合成された推定画像を外部装置に出力する。
【0080】
[評価]
自然画像に文字列を自然に埋め込むことができる手法であるSynthText(例えば参考文献3参照)を用いて学習サンプルを構成した。
学習サンプルを構成手順は以下である。
I.まず、複数の自然画像を用意して、これを背景画像とした。
II.続いて、実験において消去する可能性のある文字列および評価でも消去しない文字列の集合を用意し、任意個数の消去用文字列、任意個数の非消去文字列および各文字列のフォントの組み合わせをランダムに変更して、文字列画像を構成した。
III.また、IIで選択した消去用文字列集合のうち1つを取り除くことで、消去済文字列画像を構成した。この取り除いた文字列が入力ラベルとなる。
IV.さらに、SynthTextで背景画像と文字列画像,背景画像と消去済文字列画像とをそれぞれ合成することで、入力画像および目標画像を構成した。
【0081】
参考文献3;Ankush Gupta, Andrea Vedaldi, et al., “Synthetic data for text localization in natural images”, Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016
【0082】
図11は、学習で使用した画像の一例を示す図である。
画像g51は、背景画像例である。画像g51は、背景画像に文字列{”natural”,”drug”}を含む画像例である。画像g53は、字列{”natural”,”drug”}の画像例である。画像g54は、ターゲット文字列”drug”を削除した文字列画像例である。画像g55は、画像処理装置1の利用的な出力画像例である。
【0083】
評価をできるだけ客観的にするために、対象語候補Ωとして5つの国名を使用した。評価では、「France」、「China」、「Germany」、「Japan」、「India」の文字列をターゲットワードとして使用した。
【0084】
図12、13は、評価結果例を示す図である。
図12、13において、画像g101、g111、g121、g131およびg141は、入力画像である。画像g102、g112、g122、g132およびg142は、目標画像である。画像g103、g113、g123、g133およびg143は、本実施形態の手法による推定画像である。画像g104、g114、g124、g134およびg144は、Conditional U-Netのみを用いて選択的文字列消去を試みた結果画像である。
【0085】
また、
図12において、画像g101~g104は、「France」を入力ラベルとして指定、この文字列を画像中から消去することをめざした。画像g111~g114は、「China」を入力ラベルとして指定、この文字列を画像中から消去することをめざした。画像g121~g124は、「Germany」を入力ラベルとして指定、この文字列を画像中から消去することをめざした。画像g131~g134は、「Japan」を入力ラベルとして指定、この文字列を画像中から消去することをめざした。画像g141~g144は、「India」を入力ラベルとして指定、この文字列を画像中から消去することをめざした。
【0086】
図12、13のように、本実施形態の手法は、適切に指定した文字列のみを消去できている。これに対して、Conditional U-Netでは、指定した文字列を消すことができなかった。
【0087】
図14は、定量評価結果例を示す図である。
図14において、「Proposed」が本実施形態の手法の定量評価結果であり、「C-U-Net」がConditional U-Net手法の定量評価結果である。この評価では、選択的文字列消去の出力結果に消去対象文字列がどの程度含まれているか、消去対象以外の文字列が含まれているか、および出力結果の画像品質を評価している。
【0088】
評価指標は,再現率(recall:R)、正答率(precision:P)、平均自乗誤差(MSE:M)、信号雑音比(PSNR:SN)およびSSIM(Structual Similarity:SS)である。消去対象の文字列(target word)に対しては低い再現率が、非消去対象の文字列(non-target word)に対しては高い再現率が求められ、その他の指標については、正答率や信号雑音比やSSIMは大きく、平均自乗誤差は小さくなることが望ましい。
【0089】
図14のように、特にtarget word の recallから、本実施形態の手法は、入力画像に含まれていた消去対象の文字列のうちかなりの割合を消去することができている。一方、従来技術のConditional U-Net手法では、入力画像に含まれていた消去対象の文字列がほとんど消去できていない。
また、本実施形態の手法は、non-target wordのrecallから、非消去対象の文字列の大半はそのまま残っていることも見て取れる。さらに、本実施形態の手法は、MSEやSN、SSIMの結果から、文字列を消去しても画像が大きく劣化していないことがわかる。これらのことから、本実施形態の手法の有効性が示されたと言える。
【0090】
図15は、文字フォント画像データセットを用いた評価結果例を示す図である。文字フォント画像データセットMyFonts(参考文献4参照)を用いた。このデータには、各フォントに対して印象語ラベルが複数付与されており、これをラベルとして用いた。また、文字種(A,B,C,…,Z)を追加の条件情報として利用した。なお、
図15において、「Full model」が本実施形態を示している。
【0091】
参考文献4;Tianlang Chen, Zhaowen Wang, et al., “Large-scale tag-based font retrieval with generative feature learning”, Proc. International Conference on Computer Vision (ICCV), 2019
【0092】
なお、評価では、条件付き画像生成の手法として知られている以下の4つ従来技術の手法と比較した。
・比較例1;C-GAN(参考文献5参照)
・比較例2;AC-GAN(参考文献6参照)
・比較例3;CP-GAN(参考文献7参照)
・比較例4;Imp2Font(参考文献8参照)
【0093】
参考文献5;Mehdi Mirza, Simon Osindero, “Conditional generative adversarial nets”, arXiv preprint 1411.1784, 2014
参考文献6;Augustus Odena, Christopher Olah, et al., “Conditional image synthesis with auxiliary classifier GANs”, Proc. International Conference on Machine Learning (ICML), 2017.
参考文献7;Takuhiro Kaneko, Yoshitaka Ushiku, “Class-Distinct and Class-Mutual Image Generation with GANs”, BMVC 2019 (Spotlight), 2019,[online],[2023年6月2日検索インターネット検索],<URL: https://takuhirok.github.io/CP-GAN/>
参考文献8;Matsuda, Kimura, Uchida, “Impression2font: Generating fonts by specifying impressions”, Proc. International Conference on Document Analysis and Recognition (ICDAR), 2021
【0094】
また、評価では、本実施形態の手法で用いたラベル編集処理を用いない場合(w/o CMLE) およびラベル圧縮処理を用いない場合(w/o ILSC)とも比較を行った.評価指標は、以下の4種類を用いた。
・FID(参考文献9参照) 生成された画像の質を評価する指標であり、小さい値ほど良い結果を意味する。
・Intra-FID(参考文献10参照) ラベル種類ごとにFIDを平均した指標であり、小さい値ほど良い結果を意味する。
・mAP(mean Average Precision)-train,mAP-test 敵対的生成ネットワークの評価指標として広く用いられるGAN-trainおよびGAN-testをマルチラベル条件に拡張した指標であり、生成された画像の多様性と質の双方を統合して評価する指標.大きい値ほど良い結果を意味する。
【0095】
参考文献9;Martin Heusel, Hubert Ramsauer, et al., “GANs trained by a two time-scale update rule converge to a local Nash equilibrium”, Proc. Conference on Neural Information Processing Systems (NeurIPS), 2017
参考文献10;Takeru Miyato, Masanori Koyama, “cGANs with projection discriminator”, Proc. International Conference on Learning Representations (ICLR), 2018
【0096】
図15のように、本実施形態の手法は、従来手法を上回り、または遜色のない結果が得られた。
【0097】
図16は、生成した画像例を示す図である。なお、
図16において、「Full model」が本実施形態を示している。
図16において、各行が入力ラベル、各列が画像生成手法に対応している。評価では、入力するノイズによって生成される画像は変動するため、入力ラベルと画像生成手法の組み合わせそれぞれについて4通りの生成画像を示している。
【0098】
図16のように、従来技術の手法であるImp2Fontは、入力ラベルを固定した際に生成された画像の多様性に乏しい。これに対して、本実施形態の手法では、入力ラベルの印象を保持しつつも多様かつ可読性の高いフォント画像を生成していることが確認できた。
【0099】
このように構成された画像処理装置1では、入力された画像から背景を消去して抽出した文字列のみの画像から指定の文字列を消去し、全ての文字列が消去された背景画像と、指定の文字列が消去された文字列のみの画像を統合するようにした。これにより、このように構成された画像処理装置1では、入力された画像から指定の文字列のみが消去された画像を生成することが可能になる。
【0100】
(変形例)
なお、上述した画像は、静止画に限らず、動画であってもよい。この場合は、例えば、フレーム毎の画像に対して、上述した手法で指定された文字列画像を除去する。
【0101】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【産業上の利用可能性】
【0102】
静止画や動画像から、指定の文字画像を消去する装置や手法にてきようできる。
【符号の説明】
【0103】
1…画像処理装置、11…取得部、12…学習部、13…抽出部、14…文字列消去部、15…再構成部、16…損失計算部、17…更新部、18…出力部、19…記憶部、121…学習データ準備部、131…背景抽出部、132…文字列抽出部、161…背景抽出損失計算部、162…文字列抽出損失計算部、163…文字列消去損失計算部、164…再構成損失計算部、171…背景抽出部係数更新部、172…文字列抽出部係数更新部、173…文字列消去部係数更新部、174…再構成部係数更新部