特開2025-11976 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人九州大学の特許一覧

特開2025-11976画像処理方法、画像処理装置およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025011976

(43)【公開日】2025-01-24

(54)【発明の名称】画像処理方法、画像処理装置およびプログラム

(51)【国際特許分類】

G06V 10/82 20220101AFI20250117BHJP

G06V 20/62 20220101ALI20250117BHJP

G06T 7/194 20170101ALI20250117BHJP

【ＦＩ】

G06V10/82

G06V20/62

G06T7/194

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2023114465

(22)【出願日】2023-07-12

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504145342

【氏名又は名称】国立大学法人九州大学

(74)【代理人】

【識別番号】110001634

【氏名又は名称】弁理士法人志賀国際特許事務所

(72)【発明者】

【氏名】木村昭悟

(72)【発明者】

【氏名】内田誠一

(72)【発明者】

【氏名】三谷勇人

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA02

5L096AA06

5L096BA08

5L096BA17

5L096DA01

5L096FA44

5L096HA11

(57)【要約】

【課題】画像から特定の文字列のみを選択的に消去することを可能にする技術を提供することである。
【解決手段】画像処理方法は、背景抽出部が、文字列を含む入力画像から、全ての前記文字列が消去された背景画像を抽出し、文字列抽出部が、入力画像と背景画像を用いて、文字列を抽出し、文字列消去部が、抽出された文字列の画像から指定の文字列を消去し、再構成部が、背景画像と、指定の文字列が消去された文字列の画像と、を統合する。
【選択図】図１０

【特許請求の範囲】

【請求項1】

背景抽出部が、文字列を含む入力画像から、全ての前記文字列が消去された背景画像を抽出し、
文字列抽出部が、前記入力画像と前記背景画像を用いて、前記文字列を抽出し、
文字列消去部が、抽出された前記文字列の画像から指定の文字列を消去し、
再構成部が、前記背景画像と、前記指定の文字列が消去された文字列の画像と、を統合する、
画像処理方法。

【請求項2】

画像処理装置が、
背景抽出と文字列抽出と文字列消去と再構成の各処理を個別に最適化のため、事前学習を行い、
全処理部の処理を同時に最適化するために、同期学習を行い、
学習された前記背景抽出部と前記文字列抽出部と前記文字列消去部と前記再構成部を用いて、前記入力画像から、前記背景画像と、前記指定の文字列が消去された文字列の画像とを統合して、選択的文字列消去を行う、
請求項１に記載の画像処理方法。

【請求項3】

前記背景抽出部が、学習時、学習用入力画像から、全ての前記文字列が消去された推定背景画像を抽出し、前記推定背景画像と、教師データである背景画像との間の損失関数を用いて、前記背景抽出部のパラメータを学習する、
請求項１に記載の画像処理方法。

【請求項4】

前記文字列抽出部が、学習用入力画像と学習用背景画像を用いて、前記文字列を抽出し、抽出した前記文字列の推定文字列画像と、教師データである文字列画像との間の損失関数を用いて、前記文字列抽出部のパラメータを学習する、
請求項１に記載の画像処理方法。

【請求項5】

前記文字列消去部が、学習用文字列画像から学習用入力ラベルで指定される文字列を消去した消去文字列画像と、学習用消去文字列画像との間の損失関数を用いて、前記文字列消去部のパラメータを学習する、
請求項１に記載の画像処理方法。

【請求項6】

前記再構成部が、前記文字列を含む入力画像から指定の文字列が消去された画像と、前記背景画像とを合成し、前記合成した画像と、学習用目標画像との間の損失関数を用いて、前記再構成部のパラメータを学習する、
請求項１に記載の画像処理方法。

【請求項7】

前記背景抽出部が、学習用入力画像から背景画像を抽出し、
前記文字列抽出部が、前記背景画像と学習用入力画像を用いて、前記文字列の画像の文字列画像を抽出し、
前記再構成部が、前記文字列を含む入力画像から指定の文字列が消去された画像と、前記背景画像とを合成して再構成し、
再構成損失計算部が、前記合成した画像と学習用目標画像との間の再構成損失を計算し、
再構成部係数更新部が、前記再構成損失に基づいて、前記再構成部のパラメータである再構成部係数を更新し、
文字列消去部係数更新部が、学習用文字列画像から学習用入力ラベルで指定される文字列を消去した消去文字列画像と学習用消去文字列画像との間の文字列消去損失関数に基づいて、前記文字列消去部のパラメータである文字列消去部係数を更新し、
文字列抽出部係数更新部が、抽出された前記文字列画像と、学習用文字列画像との間の文字列抽出損失関数に基づいて、前記文字列抽出部のパラメータである文字列抽出部係数を更新し、
背景抽出部係数更新部が、前記背景画像と学習用背景画像との間の背景抽出損失に基づいて、前記背景抽出部のパラメータである背景抽出部係数を更新する、
請求項１に記載の画像処理方法。

【請求項8】

文字列を含む入力画像から、全ての前記文字列が消去された背景画像を抽出する背景抽出部と、
前記入力画像と前記背景画像を用いて、前記文字列を抽出する文字列抽出部と、
抽出された前記文字列の画像から指定の文字列を消去する文字列消去部と、
前記背景画像と、前記指定の文字列が消去された文字列の画像と、を統合する再構成部と、
を備える画像処理装置。

【請求項9】

コンピューターを、
請求項８に記載の画像処理装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理方法、画像処理装置およびプログラムの技術に関する。

【背景技術】

【0002】

テキストが含まれている画像から、テキスト領域を除去ＳＴＲ（Scene Text Removal）する手法の開発が進められている（例えば、非特許文献１、２参照）。
シーンテキスト除去（ＳＴＲ）またはシーンテキスト消しゴムは、シーン画像のテキスト領域を除去するタスクである。ＳＴＲの結果、シーン画像内のテキスト領域は、周囲の領域の一部のように塗りつぶされる。この結果、画像から文字情報が消える。なお、従来のＳＴＲ手法は、シーン画像中の全てのテキスト領域を除去しようと試みる。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Nakamura, Zhu, Yanai, Uchida, "Scene text eraser,",Proc. International Conference on Document Analysis and Recognition, (ICDAR), 2017.

【非特許文献2】Tursun, Zeng, Denman, Sivapalan, Sridharan, Fookes, "MTR-Net: A generic scene text eraser,", Proc. International Conference on Document Analysis and Recognition (ICDAR), 2019.

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来技術では、すべてのシーンテキストを除去するように設計されているため、削除するテキストを選択することができなかった。文字には多くの有用な情報が含まれているため、すべてのシーンテキストを除去することは、大きな情報損失となるという問題がった。

【0005】

上記事情に鑑み、本発明は、画像から特定の文字列のみを選択的に消去することを可能にする技術を提供することである。

【課題を解決するための手段】

【0006】

本発明の一態様は、背景抽出部が、文字列を含む入力画像から、全ての前記文字列が消去された背景画像を抽出し、文字列抽出部が、前記入力画像と前記背景画像を用いて、前記文字列を抽出し、文字列消去部が、抽出された前記文字列の画像から指定の文字列を消去し、再構成部が、前記背景画像と、前記指定の文字列が消去された文字列の画像と、を統合する、画像処理方法である。

【0007】

本発明の一態様は、文字列を含む入力画像から、全ての前記文字列が消去された背景画像を抽出する背景抽出部と、前記入力画像と前記背景画像を用いて、前記文字列を抽出する文字列抽出部と、抽出された前記文字列の画像から指定の文字列を消去する文字列消去部と、前記背景画像と、前記指定の文字列が消去された文字列の画像と、を統合する再構成部と、を備える画像処理装置である。

【0008】

本発明の一態様は、コンピューターを、上述の画像処理装置として機能させるためのプログラムである。

【発明の効果】

【0009】

本発明により、画像から特定の文字列のみを選択的に消去することを可能にする。

【図面の簡単な説明】

【0010】

【図1】文字列除去例を示す図である。

【図2】実施形態の画像処理装置の構成例を示す図である。

【図3】実施形態の構成と処理の概要を示す図である。

【図4】実施形態で行う処理手順の概要のフローチャートである。

【図5】事前学習における第１の処理手順のフローチャートである。

【図6】事前学習における第２の処理手順のフローチャートである。

【図7】事前学習における第３の処理手順のフローチャートである。

【図8】事前学習における第４の処理手順のフローチャートである。

【図9】同期学習処理手順のフローチャートである。

【図10】選択的文字列消去処理手順のフローチャートである。

【図11】学習で使用した画像の一例を示す図である。

【図12】評価結果例を示す図である。

【図13】評価結果例を示す図である。

【図14】定量評価結果例を示す図である。

【図15】文字フォント画像データセットを用いた評価結果例を示す図である。

【図16】生成した画像例を示す図である。

【発明を実施するための形態】

【0011】

本発明の実施形態について、図面を参照して詳細に説明する。

【0012】

図１は、文字列除去例を示す図である。符号ｇ１の画像は、元画像である。符号ｇ２の画像は、従来技術でテキスト領域を除去した場合のイメージ図である。符号ｇ３の画像は、本実施形態の手法で文字を選択的に除去したイメージ図である。本実施形態では、自動的に対象単語を見つけ出し、エンド・ツー・エンドで削除する。

【0013】

例えば、入力画像Ｉに削除可能なＫ個の単語候補の集合Ω＝｛“ｄｒｕｇ，”“ｓｔｏｒｅ，”“ｃｏｋｅ”｝があり“ｄｒｕｇ”が消去対象であるとする。この場合、画像処理装置１（図２）は、ω（∈Ω）＝“ｄｒｕｇ”を消去し、Ω^―∪（Ω＼ω）の単語“ｓｔｏｒｅ”および“ｃｏｋｅ”を消去しない。

【0014】

図２は、本実施形態の画像処理装置の構成例を示す図である。画像処理装置１は、例えば、取得部１１と、学習部１２と、抽出部１３と、文字列消去部１４と、再構成部１５と、損失計算部１６と、更新部１７と、出力部１８と、記憶部１９と、を備えている。
学習部１２は、例えば、学習データ準備部１２１を備えている。
抽出部１３は、例えば、背景抽出部１３１と、文字列抽出部１３２と、を備えている。
損失計算部１６は、例えば、背景抽出損失計算部１６１と、文字列抽出損失計算部１６２と、文字列消去損失計算部１６３と、再構成損失計算部１６４と、を備えている。
更新部１７は、例えば、背景抽出部係数更新部１７１と、文字列抽出部係数更新部１７２と、文字列消去部係数更新部１７３と、再構成部係数更新部１７４と、を備えている。

【0015】

取得部１１は、画像を取得する。

【0016】

学習データ準備部１２１は、複数の画像の組を数多く集めた学習データを用意する処理である学習データ準備処理を行う。

【0017】

背景抽出部１３１は、文字列を含む画像からすべての文字列を消去して背景画像を抽出する処理である背景抽出処理を行う。すなわち、背景画像は、入力画像から、全ての文字列が消去された画像である。

【0018】

文字列抽出部１３２は、文字列を含む画像から背景を消去して文字列のみを抽出する処理である文字列抽出処理を行う。

【0019】

文字列消去部１４は、文字列のみを抽出した画像から指定の文字列を消去する処理である文字列消去処理を行う。

【0020】

再構成部１５は、指定の文字列が消去された画像と背景画像とを合成する処理である再構成処理を行う。

【0021】

背景抽出損失計算部１６１は、背景抽出処理の結果が望ましいかどうかを評価する処理である背景抽出損失計算処理を行う。

【0022】

文字列抽出損失計算部１６２は、文字列抽出処理の結果が望ましいかどうかを評価する処理である文字列抽出損失計算処理を行う。

【0023】

文字列消去損失計算部１６３は、文字列消去処理の結果が望ましいかどうかを評価する処理である文字列消去損失計算処理を行う。

【0024】

再構成損失計算部１６４は、再構成処理の結果が望ましいかどうかを評価する処理である再構成損失計算処理を行う。

【0025】

背景抽出部係数更新部１７１は、計算した損失に基づいて背景抽出部係数を更新する処理である背景抽出部係数更新処理を行う。

【0026】

文字列抽出部係数更新部１７２は、計算した損失に基づいて文字列抽出部係数を更新する処理である文字列抽出部係数更新処理を行う。

【0027】

文字列消去部係数更新部１７３は、計算した損失に基づいて文字列消去部係数を更新する処理である文字列消去部係数更新処理を行う。

【0028】

再構成部係数更新部１７４は、計算した損失に基づいて再構成部係数を更新する処理である再構成部係数更新処理を行う。

【0029】

出力部１８は、再構成部１５によって指定の文字列が消去された画像と背景画像とを合成された推定画像を外部装置に出力する。なお、外部装置は、例えば、画像表示装置、パーソナルコンピュータ、携帯端末等である。

【0030】

記憶部１９は、例えば、各処理部が用いるパラメータ、音声処理装置が学習書初期時に用いるプログラム、学習後期時に用いるプログラム、後述する学習済のモジュールを用いて文字列を選択して消去する際に使用されるプログラム等を記憶する。

【0031】

画像処理装置１は、ＣＰＵ（Central Processing Unit）等のプロセッサーとメモリーとを用いて構成される。画像処理装置１は、プロセッサーがプログラムを実行することによって、例えば、取得部１１と、学習部１２と、抽出部１３と、文字列消去部１４と、再構成部１５と、損失計算部１６と、更新部１７と、出力部１８として機能する。なお、画像処理装置１の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されても良い。上記のプログラムは、コンピューター読み取り可能な記録媒体に記録されても良い。コンピューター読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、半導体記憶装置（例えばＳＳＤ：Solid State Drive）等の可搬媒体、コンピューターシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。上記のプログラムは、電気通信回線を介して送信されてもよい。

【0032】

図３は、本実施形態の構成と処理の概要を示す図である。図３のように、画像処理装置１は、複数のモジュールで表すことができる。各モジュールは、数理モデルであり、ネットワークである。なお、学習済の各モジュールを用いて、選択的文字列消去場合の処理の概略を説明する。学習時の各モジュールの入力と出力については、後述する。

【0033】

画像ｇ１１は、ＢａｃｋｇｒｏｕｎｄＥｘｔｒａｃｔｉｏｎＭｏｄｕｌｅ（符号ｇ１２）と、ＴｅｘｔＥｘｔｒａｃｔｉｏｎＭｏｄｕｌｅ（符号ｇ１４）に入力される。ご述するように、ＢａｃｋｇｒｏｕｎｄＥｘｔｒａｃｔｉｏｎＭｏｄｕｌｅ（符号ｇ１２）は、背景抽出処理に相当する。ＴｅｘｔＥｘｔｒａｃｔｉｏｎＭｏｄｕｌｅ（符号ｇ１４）は、文字列抽出処理に相当する。

【0034】

ＢａｃｋｇｒｏｕｎｄＥｘｔｒａｃｔｉｏｎＭｏｄｕｌｅ（符号ｇ１２）は、文字列を含む画像からすべての文字列を消去して推定背景画像ｇ１３を抽出し、抽出した推定背景画像ｇ１３を出力する。
ＴｅｘｔＥｘｔｒａｃｔｉｏｎＭｏｄｕｌｅ（符号ｇ１４）には、画像ｇ１１と、推定背景画像ｇ１３が入力される。ＴｅｘｔＥｘｔｒａｃｔｉｏｎＭｏｄｕｌｅ（符号ｇ１４）は、文字列を含む画像から背景を消去して文字列のみを抽出し、抽出した推定文字列画像ｇ１５を出力する。

【0035】

ＳｅｌｅｃｔｉｖｅＷｏｒｄＲｅｍｏｖａｌＭｏｄｕｌｅ（符号ｇ１７）には、推定文字列画像ｇ１５と、入力ラベルｇ１６が入力される。なお、ＳｅｌｅｃｔｉｖｅＷｏｒｄＲｅｍｏｖａｌＭｏｄｕｌｅ（符号ｇ１７）は、文字列消去処理に相当する。ＳｅｌｅｃｔｉｖｅＷｏｒｄＲｅｍｏｖａｌＭｏｄｕｌｅ（符号ｇ１７）は、推定消去済文字列画像ｇ１８を抽出し、抽出した推定消去済文字列画像ｇ１８を出力する。

【0036】

ＲｅｃｏｎｓｔｒｕｃｔｉｏｎＭｏｄｕｌｅ（符号ｇ１９）には、推定背景画像ｇ１３と、推定消去済文字列画像ｇ１８が入力される。ＲｅｃｏｎｓｔｒｕｃｔｉｏｎＭｏｄｕｌｅ（符号ｇ１９）は、再構成処理に相当する。ＲｅｃｏｎｓｔｒｕｃｔｉｏｎＭｏｄｕｌｅ（符号ｇ１９）は、指定の文字列が消去された画像と背景画像とを合成し、合成した推定画像ｇ２０を出力する。

【0037】

モデルは、事前学習の後、エンド・ツー・エンド方式で学習される。具体的には、まず各モジュールを個別に事前学習し、その後、すべてのモジュールをエンド・ツー・エンドで微調整する。例えば、ＳｅｌｅｃｔｉｖｅＷｏｒｄＲｅｍｏｖａｌＭｏｄｕｌｅ（符号ｇ１７）は、背景の変化のないテキスト画像で学習されるなど、各モジュールは、そのモジュール用に用意された十分な量の合成画像を用いて事前学習できる。このため、本実施形態によれば、マルチモジュール構造であるため、モデルの学習コストを劇的に低下させることができる。

【0038】

［各処理の説明］
次に、学習処理や画像処理で用いる各処理について説明する。

【0039】

（学習サンプル準備処理）
学習データ準備処理において、入力は無し、出力は学習サンプル集合である。学習サンプルは、学習用背景画像^∞（ｘ_ｉ）^－、学習用入力画像ｘ_ｉ、学習用文字列画像ｚ_ｉ、学習用消去済文字列画像^〇（ｚ_ｉ）^－、学習用目標画像ｙ_ｉの５枚の画像および学習用入力ラベルｃ_ｉの組^〇（（ｘ_ｉ）^－，ｘ_ｉ，ｚ_ｉ，（ｚ_ｉ）^－，ｙ_ｉ，ｃ_ｉ）によって構成される。

【0040】

学習用背景画像（ｘ_ｉ）^－は、文字列を含まない画像である。学習用文字列画像ｚ_ｉは、無背景に文字列のみが含まれる画像である。学習用入力画像ｘｉは、学習用背景画像に学習用文字列画像を重畳した画像である。学習用消去済文字列画像（ｚ_ｉ）^－は、学習用文字列画像から特定の文字列を消去した画像である。学習用目標画像ｙ_ｉは学習用背景画像に学習用消去済文字列画像を重畳した画像である。すなわち、学習用入力画像から特定の文字列を消去した画像となっている。また、学習用入力ラベルｃ_ｉは、消去対象とする文字列の識別情報（ＩＤ）である。

【0041】

学習サンプル準備処理では、あらかじめ定められた文字列集合の中からいずれかの文字列を選択する方法が一般的ではあるが、複数の文字列を選択しても良く、文字列集合を事前に準備せずに文字列を直接入力する方針でも良い。
学習用サンプルは、上述した６つの構成要素がすべて揃っている必要はなく、学習用入力画像と学習用目標画像と学習用入力ラベルの３点があれば最低限問題ない。
また、本実施形態においては、学習サンプルを多数集めたものを学習サンプル集合という。

【0042】

（背景抽出処理）
背景抽出処理において、学習時の入力は学習用入力画像と背景抽出部係数であり、使用時の入力は入力画像と背景抽出部係数である（以下の類似の処理でも同様）。なお、背景抽出部係数は、イメージとして本処理を実行する背景抽出部１３１のモデルパラメータである。ここで、背景抽出部１３１は、入力画像からすべての文字列を消去することをめざして構築されている。本実施形態では、背景抽出部１３１の出力画像を推定背景画像という。
学習時の出力は学習用推定背景画像であり、使用時の出力は推定背景画像という（以下の類似の処理でも同様）。また、学習時、背景抽出部１３１は、例えば、学習用推定背景画像と教師データである背景画像の間のＭＳＥ（Mean Squared Error）損失関数で学習される。

【0043】

すなわち、事前学習時および同時学習時、背景抽出部１３１は、学習用入力画像が入力され学習用推定背景画像を出力する。また、選択的文字列消去時、背景抽出部１３１は、入力画像が入力され推定背景画像が出力する。また、背景抽出部１３１の入力画像と出力画像は、いずれも３チャンネルのＲＧＢ画像である。
なお、背景抽出処理には、例えば、先行技術の非特許文献１や２等、従来のＳＴＲ向け技術を利用する。

【0044】

本実施形態では、背景を除去して文字列のみを抽出する手法として、例えば、Ｕ－Ｎｅｔ（例えば参考文献１参照）と呼ばれるニューラルネットワーク構造を用いる。本実施形態の背景抽出処理で用いるＵ－Ｎｅｔは、例えば、３つの畳み込み層と、３つのデコンボリューション層と、スキップ接続を持つ。また、Ｕ－Ｎｅｔでは、ボトルネックに４つの残差層が使用されている。Ｕ－Ｎｅｔは、複数の畳み込み層を用いて空間解像度を下げた後に、同数の逆畳み込み層を用いて空間解像度を上げ、入力画像と同じ空間解像度を持つ画像を出力する。また、Ｕ－Ｎｅｔは、同じ空間解像度を持つ畳み込み層出力と逆畳み込み層出力の間にショートカットを作り、空間解像度の高い情報も出力に反映させている。

【0045】

参考文献１；Olaf Ronneberger, Philipp Fischer, et al., “U-Net: Convolutional networks for biomedical image segmentation”, Proc. International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI), 2015

【0046】

（文字列抽出処理）
学習の初期段階では、文字列抽出部１３２を単独で事前学習することを想定する。このため、学習の初期段階の入力は、学習用入力画像と、学習サンプルに含まれている学習用背景画像と、文字列抽出部係数である。学習の後期段階では、文字列抽出部１３２を含めた全体を同時に学習することを想定する。このため、学習の後期段階の入力は、学習用入力画像と、背景抽出処理の出力である学習用推定背景画像と、文字列抽出部係数である。使用時の入力は入力画像と推定背景画像と文字列抽出部係数である。文字列抽出部係数は、イメージとして本処理を実行する文字列抽出部１３２のモデルパラメータである。
出力は、学習用推定文字列画像である。なお、文字列抽出部１３２は、入力画像から背景を消去して文字列のみを抽出することをめざして構築されている。本実施形態では、文字列抽出部１３２の出力画像を推定文字列画像という。

【0047】

すなわち、文字列抽出部１３２は、事前学習時に学習用入力画像と学習用背景画像が入力され、同時学習プロセスでは学習用入力画像と学習用推定背景画像が入力され、学習用推定文字列画像を出力する。選択的文字列消去時、文字列抽出部１３２は、入力画像と推定背景画像がそれぞれ入力され推定文字列画像を出力する。

【0048】

なお、本実施形態では、背景を除去して文字列のみを抽出する手法として、例えば、Ｕ－Ｎｅｔ（例えば参考文献１参照）と呼ばれるニューラルネットワーク構造を用いる。本実施形態の文字列抽出部１３２のＵ－Ｎｅｔは、例えば、４つの畳み込み層と、４つのデコンボリューション層と、スキップ接続を持つ。

【0049】

また、文字列抽出部１３２の入力画像は、入力画像と背景画像の２つの３チャンネルＲＧＢ画像を重ねた６チャンネル画像である。文字列消去部１４の出力は、抽出されたテキストを示すＲＧＢＡ画像（ＲＧＢにαチャンネルを加えたもの）である。出力画像の非テキスト領域は、透過（α＝０）、テキスト領域は非透過（α＝１）として扱われ、ＲＧＢの色を持つ。なお、本実施形態において、文字列抽出部１３２の出力である推定文字列画像は、入力画像が持つチャンネルに加えてアルファチャンネルを保持するものとする。

【0050】

（文字列消去処理）
学習の初期段階の入力は、学習用文字列画像と、学習用入力ラベルと、文字列消去部係数である。学習の後期段階の入力は、学習用推定文字列画像と、学習用入力ラベルと、文字列消去部係数である。使用時の入力は、推定文字列画像と、入力ラベルと、文字列消去係部数である。なお、文字列消去部係数は、イメージとして本処理を実行する文字列消去部１４のモデルパラメータである。
学習時の出力は、学習用推定消去済文字列画像である。使用時の出力は、推定消去済文字列画像である。
なお、文字列抽出処理と同様、入力ラベルで指定された文字列を消去することをめざした文字列消去部１４の出力を推定消去済文字列画像とする。

【0051】

すなわち、文字列消去部１４は、事前学習時に学習用文字列画像と学習用入力ラベルが入力され、同時学習時に学習用推定文字列画像と学習用入力ラベルが入力され、学習用推定消去済文字列画像を出力する。文字列消去部１４は、選択的文字列消去時、推定文字列画像と入力ラベルが入力され、推定消去済文字列画像を出力する。

【0052】

なお、本実施形態では、指定した文字列を消去する手法に、例えば、ＣｏｎｄｉｔｉｏｎａｌＵ－Ｎｅｔ（例えば参考文献２参照）と呼ばれるニューラルネットワーク構造を用いる。ＣｏｎｄｉｔｉｏｎａｌＵ－Ｎｅｔは、前述したＵ－Ｎｅｔにクラス条件を追加できる構造である。

【0053】

具体的には、条件をＫ次元のワンホットベクトルとして表現し、対象語ωを指定する。すなわち、Ｋ個の要素のうち、ωに対応する要素を１、それ以外を０とする。本実施形態において、ＣｏｎｄｉｔｉｏｎａｌＵ－Ｎｅｔは、条件ベクトルを標準的なＵ－Ｎｅｔのボトルネック部分に供給するために、ＦｉＬＭ（Feature-wise Linear Modulation）層を備えている。具体的には、ＦｉＬＭ層の出力は、Ｕ－Ｎｅｔのボトルネック部の特徴マップを修正する。なお、ＦｉＬＭは、条件付きアフィン変換を形式化したものである。

【0054】

参考文献２；Gabriel Meseguer-Brocal, Geoffroy Peeters, “Conditioned-U-Net: Introducing a control mechanism in the U-Net for multiple source separations”, Proc. International Society for Music Information Retrieval Conference (ISMIR), 2019

【0055】

図３や上述したように、文字列消去部１４への入力は、テキストのみのＲＧＢＡ画像と条件ベクトルである。また、文字列消去部１４の出力は、Ω^―∪（Ω＼ω）の単語のみを表示したテキストのみのＲＧＢＡ画像である。

【0056】

（再構成処理）
学習の初期段階の入力は、学習用消去済文字列画像と、学習用背景画像と、再構成部係数である。学習の後期段階の入力は、学習用推定消去済文字列画像と、学習用推定背景画像と、再構成部係数である。使用時の入力は、推定消去済文字列画像と、推定背景画像と、再構成部係数である。なお、再構成部係数は、イメージとして本処理を実行する再構成部１５のモデルパラメータである。
学習時の出力は、学習用推定画像である。使用時の出力は、推定画像である。なお、文字列抽出処理などと同様、再構成部１５の出力を推定画像とする。

【0057】

すなわち、再構成部１５は、事前学習時に学習用消去済文字列画像と学習用背景画像が入力され、同時学習プロセス時に学習用推定消去済文字列画像と学習用推定背景画像が入力され、学習用推定画像を出力する。再構成部１５は、選択的文字列消去プロセス時に推定消去済文字列画像と推定背景画像が入力され、推定画像を出力する。

【0058】

なお、本実施形態では、文字列のみの画像と背景画像とを合成する手法として、例えば、文字列抽出処理と同様にＵ－Ｎｅｔを用いる。このＵ－Ｎｅｔを用いることにより、再構成処理では、アルファチャンネルを持つ消去済文字列画像と、アルファチャンネルを持たない背景画像とが合成され、アルファチャンネルを持たない推定画像が出力される。なお、再構成部１５には、背景抽出部１３１の出力であるＲＧＢ画像（推定背景画像）と、文字列消去部１４の出力であるＲＧＢＡ画像を７チャンネル画像としてレイヤー化して入力される。

【0059】

（背景抽出損失計算処理）
入力は、学習用背景画像と学習用推定背景画像である。
出力は、学習用背景抽出損失である。なお、本処理では、学習用推定背景画像がどの程度学習用背景画像に近しいかを評価して、学習用背景抽出損失として出力する。
なお、本実施形態では、例えば学習用背景画像と学習用推定背景画像との平均自乗誤差で損失の計算をする。

【0060】

（文字列抽出損失計算処理）
入力は、学習用文字列画像と学習用推定文字列画像である。
出力は、学習用文字列抽出損失である。
なお、本実施形態では、例えば学習用文字列画像と学習用推定文字列画像との平均自乗誤差で損失の計算をする。

【0061】

（文字列消去損失計算処理）
入力は、学習用消去文字列画像と学習用推定消去文字列画像である。
出力は、学習用文字列消去損失である。
なお、本実施形態では、例えば学習用消去文字列画像と学習用推定消去文字列画像との平均自乗誤差で損失の計算をする。

【0062】

（再構成損失計算処理）
入力は、学習用推定画像と学習用目標画像である。
出力は、学習用再構成損失である。なお、本処理では、学習用推定画像がどの程度学習用目標画像に近しいかを評価して、学習用再構成損失として出力する。
なお、本実施形態では、例えば学習用推定画像と学習用目標画像との平均自乗誤差で損失の計算をする。

【0063】

（背景抽出部係数更新処理）
学習の初期段階では、背景抽出部単独で事前学習を行う。このため、学習の初期段階の入力は、学習用背景抽出損失と現在の背景抽出部係数であり、学習用背景抽出損失に基づいて背景抽出部１３１のモデルパラメータを更新する。学習の後期段階では、モデル全体を同時に学習する。このため、学習の後期段階の入力は、学習用再構成損失と現在の背景抽出部係数であり、学習用再構成損失に基づいてモデルパラメータを更新する。
出力は、更新された背景抽出係数である。なお、本処理では、背景抽出部１３１のモデルパラメータを損失に基づいて更新する。

【0064】

背景抽出処理は、ニューラルネットワークで表現されることが想定されている。このため、本実施形態では、損失をニューラルネットワークに逆伝播することで、背景抽出処理を構成する背景抽出部１３１のモデルパラメータに対応する背景抽出部係数を更新することができる。

【0065】

（文字列抽出部係数更新処理）
学習の初期段階の入力は、学習用文字列抽出損失と、現在の文字列抽出部係数である。学習の後期段階の入力は、学習用再構成損失と、現在の文字列抽出部係数である。
出力は、更新された文字列抽出部係数である。

【0066】

文字列抽出処理は、ニューラルネットワークで表現されることが想定されている。このため、本実施形態では、損失をニューラルネットワークに逆伝播することで、文字列抽出処理を構成する文字列抽出部１３２のモデルパラメータに対応する文字列抽出部係数を更新することができる。

【0067】

（文字列消去部係数更新処理）
学習の初期段階の入力は、学習用文字列消去損失と、現在の文字列消去部係数である。学習の後期段階の入力は、学習用再構成損失と、現在の文字列消去部係数である。
出力は、更新された文字列消去部係数である。

【0068】

文字列消去処理は、ニューラルネットワークで表現されることが想定されている。このため、本実施形態では、損失をニューラルネットワークに逆伝播することで、文字列消去処理を構成する文字列消去部１４のモデルパラメータに対応する文字列消去部係数を更新することができる。

【0069】

（再構成係数更新処理）
入力は、学習用再構成損失と現在の再構成部係数である。
出力は、更新された再構成部係数である。

【0070】

再構成処理は、ニューラルネットワークで表現されることが想定されている。このため、本実施形態では、損失をニューラルネットワークに逆伝播することで、再構成処理を構成する再構成部１５のモデルパラメータに対応する再構成部係数を更新することができる。

【0071】

［処理手順］
まず、本実施形態で行う処理手順の概要について説明する。図４は、本実施形態で行う処理手順の概要のフローチャートである。
（ステップＳ１）画像処理装置１は、背景抽出と文字列抽出と文字列消去と再構成の各処理を個別に最適化のため、事前学習を行う。
（ステップＳ２）画像処理装置１は、全処理部の処理を同時に最適化するために、同期学習を行う。
（ステップＳ３）画像処理装置１は、学習されたモデルを用いて選択的文字列消去を実施するために、選択的文字列消去を行う。

【0072】

（事前学習処理）
まず、事前学習処理について、図５～図８を用いて説明する。なお、この処理の出力は、学習サンプル集合である。以下の処理によって、学習データ準備部１２１は、複数の画像の組を数多く集めた学習データを用意する。なお、上述したように、学習用サンプルは，６つの要素がすべて揃っている必要はないため、学習用入力画像と学習用目標画像と学習用入力ラベルに関する処理を行い、他の要素に関する処理は行わなくてもよい。

【0073】

図５は、事前学習における第１の処理手順のフローチャートである。
（ステップＳ１１）取得部１１は、学習用入力画像を取得する。
（ステップＳ１２）背景抽出部１３１は、学習用入力画像に対して背景抽出処理を行う。
（ステップＳ１３）背景抽出損失計算部１６１は、背景抽出損失計算処理を行う。
（ステップＳ１４）背景抽出部係数更新部１７１は、背景抽出部係数更新処理を行う。学習データ準備部１２１は、処理後、ステップＳ１１の処理に戻し、ステップＳ１１～Ｓ１４の処理を繰り返す。

【0074】

図６は、事前学習における第２の処理手順のフローチャートである。
（ステップＳ２１）取得部１１は、学習用入力画像と学習用背景画像を取得する。
（ステップＳ２２）文字列抽出部１３２は、学習用入力画像と学習用背景画像を入力して、文字列抽出を行う。
（ステップＳ２３）文字列抽出損失計算部１６２は、文字列抽出損失計算処理を行う。
（ステップＳ２４）文字列抽出部係数更新部１７２は、文字列抽出部係数更新処理を行う。学習データ準備部１２１は、処理後、ステップＳ２１の処理に戻し、ステップＳ２１～Ｓ２４の処理を繰り返す。
これらの処理によって、文字列抽出部係数が更新され、文字列抽出部１３２の学習が行われる。

【0075】

図７は、事前学習における第３の処理手順のフローチャートである。
（ステップＳ３１）取得部１１は、学習用文字列画像と学習用入力ラベルを取得する。
（ステップＳ３２）文字列消去部１４は、学習用文字列画像と学習用入力ラベルを入力して、文字列消去処理を行う。
（ステップＳ３３）文字列消去損失計算部１６３は、文字列消去損失計算処理を行う。
（ステップＳ３４）文字列消去部係数更新部１７３は、文字列消去部係数更新処理を行う。学習データ準備部１２１は、処理後、ステップＳ３１の処理に戻し、ステップＳ３１～Ｓ３４の処理を繰り返す。
これらの処理によって、文字列消去部係数が更新され、文字列消去部１４の学習が行われる。

【0076】

なお、上述したように、文字列消去部１４の学習は、図４の画像ｇ５３とｇ５４のような画像ペアである。ωで指定された対象語のスタイルや色のバリエーションをカバーするためには、十分な数の画像ペアが必要である。背景画像が先行モジュール（ＴｅｘｔＥｘｔｒａｃｔｉｏｎＭｏｄｕｌｅ（図３の符号ｇ１４））で除去されている、このため、文字列消去部１４は、背景のバリエーションを考慮必要がない。すなわち、文字列消去処理において背景のバリエーションを気にする必要がある場合は、背景と対象単語の組み合わせを非常に多くする必要がある。これに対して、本実施形態によれば、背景が除去されているので、学習負荷を軽減できる。

【0077】

図８は、事前学習における第４の処理手順のフローチャートである。
（ステップＳ４１）取得部１１は、学習用消去文字列画像と学習用背景画像を取得する。
（ステップＳ４２）再構成部１５は、学習用消去文字列画像と学習用背景画像を入力して、再構成処理を行う。
（ステップＳ４３）再構成損失計算部１６４は、再構成損失計算処理を行う。
（ステップＳ４４）再構成部係数更新部１７４は、再構成部係数更新処理を行う。学習データ準備部１２１は、処理後、ステップＳ４１の処理に戻し、ステップＳ４１～Ｓ４４の処理を繰り返す。
これらの処理によって、再構成部係数が更新され、再構成部１５の学習が行われる。

【0078】

（同期学習処理）
図９は、同期学習処理の処理手順のフローチャートである。
（ステップＳ５１）取得部１１は、学習用入力画像と学習用入力ラベルを取得する。
（ステップＳ５２）背景抽出部１３１は、学習用入力画像に対して背景抽出処理を行う。
（ステップＳ５３）文字列抽出部１３２は、推定背景画像と学習用入力画像を入力して、文字列抽出を行う。
（ステップＳ５４）文字列消去部１４は、推定文字列画像と学習用入力ラベルを入力して、文字列消去処理を行う。
（ステップＳ５５）再構成部１５は、推定背景画像と推定消去済文字列画像を入力して、再構成処理を行う。
（ステップＳ５６）再構成損失計算部１６４は、再構成損失計算処理を行う。
（ステップＳ５７）再構成部係数更新部１７４は、再構成部係数更新処理を行う。
（ステップＳ５８）文字列消去部係数更新部１７３は、文字列消去部係数更新処理を行う。
（ステップＳ５９）文字列抽出部係数更新部１７２は、文字列抽出部係数更新処理を行う。
（ステップＳ６０）背景抽出部係数更新部１７１は、背景抽出部係数更新処理を行う。学習データ準備部１２１は、処理後、ステップＳ５１の処理に戻し、ステップＳ５１～Ｓ６０の処理を繰り返す。
これらの処理によって、文字列消去部係数、文字列抽出部係数、背景抽出部係数および再構成部係数が更新され、背景抽出部１３１、文字列抽出部１３２、文字列消去部１４および再構成部１５の学習が行われる。

【0079】

（選択的文字列消去処理；使用時）
図１０は、選択的文字列消去処理手順のフローチャートである。
（ステップＳ７１）取得部１１は、入力画像と入力ラベルを取得する。
（ステップＳ７２）背景抽出部１３１は、学習用入力画像に対して背景抽出処理を行う。
（ステップＳ７３）文字列抽出部１３２は、推定背景画像と入力画像を入力して、文字列抽出を行う。
（ステップＳ７４）文字列消去部１４は、推定文字列画像と入力ラベルを入力して、文字列消去処理を行う。
（ステップＳ７５）再構成部１５は、推定背景画像と推定消去済文字列画像を入力して、再構成処理を行う。
（ステップＳ７６）出力部１８は、再構成部１５によって指定の文字列が消去された画像と背景画像とを合成された推定画像を外部装置に出力する。

【0080】

［評価］
自然画像に文字列を自然に埋め込むことができる手法であるＳｙｎｔｈＴｅｘｔ（例えば参考文献３参照）を用いて学習サンプルを構成した。
学習サンプルを構成手順は以下である。
Ｉ．まず、複数の自然画像を用意して、これを背景画像とした。
ＩＩ．続いて、実験において消去する可能性のある文字列および評価でも消去しない文字列の集合を用意し、任意個数の消去用文字列、任意個数の非消去文字列および各文字列のフォントの組み合わせをランダムに変更して、文字列画像を構成した。
ＩＩＩ．また、ＩＩで選択した消去用文字列集合のうち１つを取り除くことで、消去済文字列画像を構成した。この取り除いた文字列が入力ラベルとなる。
ＩＶ．さらに、ＳｙｎｔｈＴｅｘｔで背景画像と文字列画像，背景画像と消去済文字列画像とをそれぞれ合成することで、入力画像および目標画像を構成した。

【0081】

参考文献３；Ankush Gupta, Andrea Vedaldi, et al., “Synthetic data for text localization in natural images”, Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016

【0082】

図１１は、学習で使用した画像の一例を示す図である。
画像ｇ５１は、背景画像例である。画像ｇ５１は、背景画像に文字列｛”ｎａｔｕｒａｌ”，”ｄｒｕｇ”｝を含む画像例である。画像ｇ５３は、字列｛”ｎａｔｕｒａｌ”，”ｄｒｕｇ”｝の画像例である。画像ｇ５４は、ターゲット文字列”ｄｒｕｇ”を削除した文字列画像例である。画像ｇ５５は、画像処理装置１の利用的な出力画像例である。

【0083】

評価をできるだけ客観的にするために、対象語候補Ωとして５つの国名を使用した。評価では、「Ｆｒａｎｃｅ」、「Ｃｈｉｎａ」、「Ｇｅｒｍａｎｙ」、「Ｊａｐａｎ」、「Ｉｎｄｉａ」の文字列をターゲットワードとして使用した。

【0084】

図１２、１３は、評価結果例を示す図である。
図１２、１３において、画像ｇ１０１、ｇ１１１、ｇ１２１、ｇ１３１およびｇ１４１は、入力画像である。画像ｇ１０２、ｇ１１２、ｇ１２２、ｇ１３２およびｇ１４２は、目標画像である。画像ｇ１０３、ｇ１１３、ｇ１２３、ｇ１３３およびｇ１４３は、本実施形態の手法による推定画像である。画像ｇ１０４、ｇ１１４、ｇ１２４、ｇ１３４およびｇ１４４は、ＣｏｎｄｉｔｉｏｎａｌＵ－Ｎｅｔのみを用いて選択的文字列消去を試みた結果画像である。

【0085】

また、図１２において、画像ｇ１０１～ｇ１０４は、「Ｆｒａｎｃｅ」を入力ラベルとして指定、この文字列を画像中から消去することをめざした。画像ｇ１１１～ｇ１１４は、「Ｃｈｉｎａ」を入力ラベルとして指定、この文字列を画像中から消去することをめざした。画像ｇ１２１～ｇ１２４は、「Ｇｅｒｍａｎｙ」を入力ラベルとして指定、この文字列を画像中から消去することをめざした。画像ｇ１３１～ｇ１３４は、「Ｊａｐａｎ」を入力ラベルとして指定、この文字列を画像中から消去することをめざした。画像ｇ１４１～ｇ１４４は、「Ｉｎｄｉａ」を入力ラベルとして指定、この文字列を画像中から消去することをめざした。

【0086】

図１２、１３のように、本実施形態の手法は、適切に指定した文字列のみを消去できている。これに対して、ＣｏｎｄｉｔｉｏｎａｌＵ－Ｎｅｔでは、指定した文字列を消すことができなかった。

【0087】

図１４は、定量評価結果例を示す図である。図１４において、「Ｐｒｏｐｏｓｅｄ」が本実施形態の手法の定量評価結果であり、「Ｃ－Ｕ－Ｎｅｔ」がＣｏｎｄｉｔｉｏｎａｌＵ－Ｎｅｔ手法の定量評価結果である。この評価では、選択的文字列消去の出力結果に消去対象文字列がどの程度含まれているか、消去対象以外の文字列が含まれているか、および出力結果の画像品質を評価している。

【0088】

評価指標は，再現率（ｒｅｃａｌｌ：Ｒ）、正答率（ｐｒｅｃｉｓｉｏｎ：Ｐ）、平均自乗誤差（ＭＳＥ：Ｍ）、信号雑音比（ＰＳＮＲ：ＳＮ）およびＳＳＩＭ（ＳｔｒｕｃｔｕａｌＳｉｍｉｌａｒｉｔｙ：ＳＳ）である。消去対象の文字列（ｔａｒｇｅｔｗｏｒｄ）に対しては低い再現率が、非消去対象の文字列（ｎｏｎ－ｔａｒｇｅｔｗｏｒｄ）に対しては高い再現率が求められ、その他の指標については、正答率や信号雑音比やＳＳＩＭは大きく、平均自乗誤差は小さくなることが望ましい。

【0089】

図１４のように、特にｔａｒｇｅｔｗｏｒｄのｒｅｃａｌｌから、本実施形態の手法は、入力画像に含まれていた消去対象の文字列のうちかなりの割合を消去することができている。一方、従来技術のＣｏｎｄｉｔｉｏｎａｌＵ－Ｎｅｔ手法では、入力画像に含まれていた消去対象の文字列がほとんど消去できていない。
また、本実施形態の手法は、ｎｏｎ－ｔａｒｇｅｔｗｏｒｄのｒｅｃａｌｌから、非消去対象の文字列の大半はそのまま残っていることも見て取れる。さらに、本実施形態の手法は、ＭＳＥやＳＮ、ＳＳＩＭの結果から、文字列を消去しても画像が大きく劣化していないことがわかる。これらのことから、本実施形態の手法の有効性が示されたと言える。

【0090】

図１５は、文字フォント画像データセットを用いた評価結果例を示す図である。文字フォント画像データセットＭｙＦｏｎｔｓ（参考文献４参照）を用いた。このデータには、各フォントに対して印象語ラベルが複数付与されており、これをラベルとして用いた。また、文字種（Ａ，Ｂ，Ｃ，…，Ｚ）を追加の条件情報として利用した。なお、図１５において、「Ｆｕｌｌｍｏｄｅｌ」が本実施形態を示している。

【0091】

参考文献４；Tianlang Chen, Zhaowen Wang, et al., “Large-scale tag-based font retrieval with generative feature learning”, Proc. International Conference on Computer Vision (ICCV), 2019

【0092】

なお、評価では、条件付き画像生成の手法として知られている以下の４つ従来技術の手法と比較した。
・比較例１；Ｃ－ＧＡＮ（参考文献５参照）
・比較例２；ＡＣ－ＧＡＮ（参考文献６参照）
・比較例３；ＣＰ－ＧＡＮ（参考文献７参照）
・比較例４；Ｉｍｐ２Ｆｏｎｔ（参考文献８参照）

【0093】

参考文献５；Mehdi Mirza, Simon Osindero, “Conditional generative adversarial nets”, arXiv preprint 1411.1784, 2014
参考文献６；Augustus Odena, Christopher Olah, et al., “Conditional image synthesis with auxiliary classifier GANs”, Proc. International Conference on Machine Learning (ICML), 2017.
参考文献７；Takuhiro Kaneko, Yoshitaka Ushiku, “Class-Distinct and Class-Mutual Image Generation with GANs”, BMVC 2019 (Spotlight), 2019,［online］,［2023年6月2日検索インターネット検索］,<URL: https://takuhirok.github.io/CP-GAN/>
参考文献８；Matsuda, Kimura, Uchida, “Impression2font: Generating fonts by specifying impressions”, Proc. International Conference on Document Analysis and Recognition (ICDAR), 2021

【0094】

また、評価では、本実施形態の手法で用いたラベル編集処理を用いない場合（ｗ／ｏＣＭＬＥ）およびラベル圧縮処理を用いない場合（ｗ／ｏＩＬＳＣ）とも比較を行った．評価指標は、以下の４種類を用いた。
・ＦＩＤ（参考文献９参照）生成された画像の質を評価する指標であり、小さい値ほど良い結果を意味する。
・Ｉｎｔｒａ－ＦＩＤ（参考文献１０参照）ラベル種類ごとにＦＩＤを平均した指標であり、小さい値ほど良い結果を意味する。
・ｍＡＰ（mean Average Precision）－ｔｒａｉｎ，ｍＡＰ－ｔｅｓｔ敵対的生成ネットワークの評価指標として広く用いられるＧＡＮ－ｔｒａｉｎおよびＧＡＮ－ｔｅｓｔをマルチラベル条件に拡張した指標であり、生成された画像の多様性と質の双方を統合して評価する指標．大きい値ほど良い結果を意味する。

【0095】

参考文献９；Martin Heusel, Hubert Ramsauer, et al., “GANs trained by a two time-scale update rule converge to a local Nash equilibrium”, Proc. Conference on Neural Information Processing Systems (NeurIPS), 2017
参考文献１０；Takeru Miyato, Masanori Koyama, “cGANs with projection discriminator”, Proc. International Conference on Learning Representations (ICLR), 2018

【0096】

図１５のように、本実施形態の手法は、従来手法を上回り、または遜色のない結果が得られた。

【0097】

図１６は、生成した画像例を示す図である。なお、図１６において、「Ｆｕｌｌｍｏｄｅｌ」が本実施形態を示している。図１６において、各行が入力ラベル、各列が画像生成手法に対応している。評価では、入力するノイズによって生成される画像は変動するため、入力ラベルと画像生成手法の組み合わせそれぞれについて4通りの生成画像を示している。

【0098】

図１６のように、従来技術の手法であるＩｍｐ２Ｆｏｎｔは、入力ラベルを固定した際に生成された画像の多様性に乏しい。これに対して、本実施形態の手法では、入力ラベルの印象を保持しつつも多様かつ可読性の高いフォント画像を生成していることが確認できた。

【0099】

このように構成された画像処理装置１では、入力された画像から背景を消去して抽出した文字列のみの画像から指定の文字列を消去し、全ての文字列が消去された背景画像と、指定の文字列が消去された文字列のみの画像を統合するようにした。これにより、このように構成された画像処理装置１では、入力された画像から指定の文字列のみが消去された画像を生成することが可能になる。

【0100】

（変形例）
なお、上述した画像は、静止画に限らず、動画であってもよい。この場合は、例えば、フレーム毎の画像に対して、上述した手法で指定された文字列画像を除去する。

【0101】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【産業上の利用可能性】

【0102】

静止画や動画像から、指定の文字画像を消去する装置や手法にてきようできる。

【符号の説明】

【0103】

１…画像処理装置、１１…取得部、１２…学習部、１３…抽出部、１４…文字列消去部、１５…再構成部、１６…損失計算部、１７…更新部、１８…出力部、１９…記憶部、１２１…学習データ準備部、１３１…背景抽出部、１３２…文字列抽出部、１６１…背景抽出損失計算部、１６２…文字列抽出損失計算部、１６３…文字列消去損失計算部、１６４…再構成損失計算部、１７１…背景抽出部係数更新部、１７２…文字列抽出部係数更新部、１７３…文字列消去部係数更新部、１７４…再構成部係数更新部

【図1】