特開2022-191771 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特開2022-191771画像処理装置、画像処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022191771

(43)【公開日】2022-12-28

(54)【発明の名称】画像処理装置、画像処理方法及びプログラム

(51)【国際特許分類】

G06V 30/194 20220101AFI20221221BHJP

G06T 7/00 20170101ALI20221221BHJP

【ＦＩ】

G06K9/66

G06T7/00 350C

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2021100210

(22)【出願日】2021-06-16

(71)【出願人】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】110001243

【氏名又は名称】弁理士法人谷・阿部特許事務所

(72)【発明者】

【氏名】世渡秀和

(72)【発明者】

【氏名】奥間啓水

(72)【発明者】

【氏名】前田裕介

【テーマコード（参考）】

5B064

5L096

【Ｆターム（参考）】

5B064AA01

5B064AB03

5B064BA01

5B064CA05

5B064CA07

5B064CA12

5B064CA13

5B064CA15

5B064DA20

5B064DA26

5B064DA27

5L096BA08

5L096BA17

5L096CA14

5L096DA02

5L096EA02

5L096EA03

5L096EA07

5L096EA16

5L096EA45

5L096HA11

5L096KA04

(57)【要約】（修正有）

【課題】他の行の文字の一部が入り込んでしまった文字ブロックを模した学習画像を効率よく生成し、他の行の文字の一部が入り込んだ文字ブロックに対しても高精度で文字認識可能な、手書き文字対応光学文字認識ＯＣＲを実現する画像処理装置、学習データの生成方法及びプログラムを提供する。
【解決手段】手書き文字を表した文字画像に対し、ノイズを付与する付与手段と、ノイズが付与された文字画像と正解クラスとを紐付けて、機械学習のための学習データを生成する生成手段と、を備える画像処理装置であって、ノイズ付与処理は、手書き文字を表した文字画像に対して、他の行の文字の一部が入り込んだようなノイズを再現するように、文字画像の端部近傍にノイズを付与した学習画像を生成して、ノイズが付与された文字画像と正解クラスとを紐付けて、機械学習を行う。
【選択図】図７

【特許請求の範囲】

【請求項1】

手書き文字を表した文字画像に対し、ノイズを付与する付与手段と、
前記ノイズが付与された文字画像と正解クラスとを紐付けて、機械学習のための学習データを生成する生成手段と、
を備え、
前記付与手段は、前記文字画像の端部近傍に前記ノイズを付与する、
ことを特徴とした画像処理装置。

【請求項2】

前記付与手段は、
前記文字画像の枠を拡げる処理を行い、
前記枠を拡げた文字画像の端部近傍に前記ノイズを付与する、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項3】

前記付与手段は、上下左右いずれかの方向に枠を拡げ、当該拡げた方向の端部近傍に前記ノイズを付与する、ことを特徴とする請求項２に記載の画像処理装置。

【請求項4】

前記付与手段は、前記端部近傍に前記ノイズを付与する際に、端部に接するように前記ノイズを付与することを特徴とする請求項１乃至３のいずれか一項に記載の画像処理装置。

【請求項5】

前記付与手段は、前記文字画像内の手書き文字に対応する文字画素と前記ノイズに対応するノイズ画素とが接触するように、前記ノイズを付与することを特徴とする請求項１乃至４のいずれか一項に記載の画像処理装置。

【請求項6】

文書をスキャンして得られたスキャン画像から、前記文書に記載された文字に対応する矩形領域を取得する取得手段と、
前記矩形領域が前記文書に記載された複数の文字行に対応する場合、当該矩形領域を文字行単位の矩形領域に分離する分離手段と、
学習によって得られた学習済モデルを用いた推論によって、前記矩形領域に対する文字認識結果を出力する推論手段と、
をさらに備え、
前記推論手段は、
前記分離手段によって分離された矩形領域については、前記生成手段によって生成された学習データを用いた機械学習によって得られた学習済モデルによって前記推論を行い、
前記分離手段によって分離されなかった矩形領域については、前記付与手段でノイズが付与されていない前記文字画像と正解クラスとが紐付けられた学習データを用いた機械学習によって得られた学習済モデルによって前記推論を行う、
ことを特徴とする請求項１乃至５のいずれか一項に記載の画像処理装置。

【請求項7】

前記機械学習を行う学習手段をさらに備えたことを特徴とする請求項６に記載の画像処理装置。

【請求項8】

手書き文字を表した文字画像に対し、ノイズを付与する付与ステップと、
前記ノイズが付与された文字画像と正解クラスとを紐付けて、機械学習のための学習データを生成する生成ステップと、
を備え、
前記付与ステップでは、前記文字画像の端部近傍に前記ノイズを付与する、
ことを特徴とした学習データの生成方法。

【請求項9】

コンピュータを、請求項１乃至７のいずれか一項に記載の画像処理装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習データの生成技術に関する。

【背景技術】

【0002】

近年、コンピュータの普及に伴う労働環境の変化により、業務文書をスキャンして電子化する機会が増加している。こうした電子化対象の文書には例えば領収書など、手書き文字が記入されたものも存在するところ、電子化された文書を集計等のデータ解析に活用するために、手書き文字領域に対して光学文字認識（ＯＣＲ)を行って文字データを抽出することが行われている。ここで、手書き文字に対応したＯＣＲ技術の１つに、ニューラルネットワークなどの機械学習を行って得た学習済モデルを用いる手法がある。この手法では、まず、手書きの文字が描画された文字画像と当該文字画像に含まれる文字をテキスト化した正解クラスとが対になった学習データ（教師データ或いは訓練データとも呼ばれる。）を用いて学習を行う。そして、学習済モデルに手書き文字を含んだ文字画像を入力することにより、スキャン文書中の手書き文字をテキスト情報として利用することが可能となる。

【0003】

一般に機械学習によって画像認識を実施するためには膨大な量の画像が学習データとして必要になるところ、手書き文字には様々な形状が存在し、あらゆるパターンの手書き文字の画像を全て網羅して収集することは困難である。そこで、用意した学習データ用の文字画像に対して回転や拡縮等の変形処理を行い、学習データを増強すること（Data Augmentation）が一般的に行われている。そして、変形処理の一例として、スキャンによって引き起こされる劣化等を模すために文字画像にノイズをランダムに付与する技術が提案されている（特許文献１）。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１４－１６４４８５号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

領収書などの帳票に手書きされる文字は、帳票内に設けられた所定の枠（記入欄）からはみ出して記入されることも珍しくない。このように所定の枠からはみ出した手書き文字を含む文書のスキャン画像については、手書き文字領域にＯＣＲを掛ける前に、例えば帳票内の罫線を基準に区切る等の手段を用いて、文字行毎に分離する処理（文字行分離処理）が通常行われる。図１７に文字行分離処理の具体例を示す。図１７の例では、手書きの金額を含む領収書のスキャン画像から抽出された手書き文字の矩形領域（文字ブロック）１７００を、２つの文字ブロック１７０１及び１７０２に分離している。ここで、文字ブロック１７０２を見ると、本来であれば文字ブロック１７０１内に収まるべき文字の一部が入り込んでいるのが分かる。

【0006】

上記のような他の行の文字の一部が入り込んだ文字ブロックに対し、学習済モデルを用いたＯＣＲで高い文字認識精度を得ようとすれば、他の行の文字の一部が入り込んだ画像（以下、「入込み画像」と呼ぶ。）を十分に学習しておく必要がある。ここで、図１７の例では上方向から文字の入り込みが起きているが、同様の入り込みは下方向や左右方向からも起こり得るものである。しかしながら、あらゆる方向からの様々な入り込み態様を網羅した入込み画像を大量に入手・作成することは困難である。そこで、データオーグメントにより学習データを増強することが考えられるが、特許文献１に開示されるようなノイズを画像内のランダムな位置に付与する手法では、図１７に例示したような入込み画像を効率よく生成することが困難であった。

【課題を解決するための手段】

【0007】

本開示の技術に係る画像処理装置は、手書き文字を表した文字画像に対し、ノイズを付与する付与手段と、前記ノイズが付与された文字画像と正解クラスとを紐付けて、機械学習のための学習データを生成する生成手段と、を備え、前記付与手段は、前記文字画像の端部近傍に前記ノイズを付与する、ことを特徴とする。

【発明の効果】

【0008】

本開示の技術によれば、他の行の文字の一部が入り込んでしまった文字ブロックを模した学習画像を効率よく生成することが可能となる。その結果、他の行の文字の一部が入り込んだ文字ブロックに対しても高精度で文字認識可能な、手書き文字対応ＯＣＲを実現することができる。

【図面の簡単な説明】

【0009】

【図1】画像処理システムの構成の一例を示した図。

【図2】（ａ）は画像処理装置のハードウェア構成の一例を示したブロック図、（ｂ）は端末装置のハードウェア構成の一例を示したブロック図。

【図3】文字画像ＤＢとしてのテーブルの一例を示す図。

【図4】学習画像ＤＢとしてのテーブルの一例を示す図。

【図5】（ａ）は学習処理の流れを示すフローチャート、（ｂ）は推論処理の流れを示すフローチャート。

【図6】学習データ生成処理の流れを示すフローチャート。

【図7】実施形態１に係る、ノイズ付与処理の詳細を示すフローチャート。

【図8】ノイズ画像の生成を説明する図。

【図9】文字列画像内のノイズ付与領域の具体例を示す図。

【図10】文字列画像にノイズ画像を重畳して合成画像を生成する具体例を示す図。

【図11】（ａ）は実施形態２に係るノイズ付与処理の詳細を示すフローチャート、（ｂ）はノイズ画像生成処理の詳細を示すフローチャート。

【図12】文字画像からノイズ画像を切り出す処理の具体例を示す図。

【図13】実施形態３に係る、ノイズ付与処理の詳細を示すフローチャート。

【図14】文字列画像の枠を拡張して、枠拡張画像を生成する具体例を示す図。

【図15】枠拡張画像内のノイズ付与領域の具体例を示す図。

【図16】枠拡張画像とノイズ画像を重畳して合成画像を生成する具体例を示す図。

【図17】入込み画像の具体例を示す図。

【図18】実施形態３に係る、ノイズ付与処理の詳細を示すフローチャート。

【図19】ノイズ画素と文字画素との接触判定方法について説明する図。

【図20】処理対象画像生成処理の流れを示すフローチャート。

【図21】処理対象画像の生成処理の具体例を示す図。

【図22】実施形態４に係る、推論処理の流れを示すフローチャート。

【図23】孤立点ノイズ除去処理の具体例を示す図。

【図24】（ａ）は実施形態１の変形例に係る学習処理の流れを示すフローチャート、（ｂ）は実施形態１の変形例に係る推論処理の流れを示すフローチャート。

【図25】実施形態１の変形例に係る学習画像ＤＢとしてのテーブルの一例を示す図。

【発明を実施するための形態】

【0010】

以下、図面を参照して本発明の実施の形態を詳しく説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。

【0011】

［実施形態１］
＜画像処理システム＞
図１は、本実施形態に係る、画像処理システムの構成の一例を示した図である。図１に示すように、画像処理システムは、画像処理装置１００、端末装置１１０で構成され、ネットワーク１２０を介して互いに接続される。

【0012】

画像処理装置１００は、学習データ生成部１０１、学習部１０２、推論部１０３の各機能部を有する。学習データ生成部１０１は、学習部１０２にてニューラルネットワークのモデルを学習するための学習データを生成する。学習データは、手書き文字が描画された文字画像と、当該文字画像に含まれる手書き文字をテキスト化した正解クラスとが対になったデータである。学習データ生成部１０１で生成される学習データの詳細については図４を用いて後述する。

【0013】

学習部１０２は、学習データ生成部１０１が生成した学習データを用いて、ニューラルネットワークのモデルを学習する。なお、学習部１０２によって生成されたニューラルネットワークのモデルを「学習済モデル」と呼称する。学習部１０２による学習処理については、図５（ａ）を用いて後述する。推論部１０３は、入力された文字画像に対し、学習部１０２が生成した学習済モデルを用いた推論によって、クラス情報を出力する。推論部１０３による推論処理については、図５（ｂ）用いて後述する。

【0014】

端末装置１１０は、例えばＰＣやスマートフォンなどの情報処理装置である。ユーザやシステム管理者は、端末装置１１０からネットワーク１２０を介して画像処理装置１００へアクセスして、学習の実行指示や学習済モデルの確認をすることができる。

【0015】

ネットワーク１２０は、画像処理装置１００と端末装置１１０との間を接続するＬＡＮや公衆回線（ＷＡＮ）等であって、ネットワーク１２０を介して装置間でのデータの送受信が行われる。

【0016】

なお、上記のシステム構成は一例であり、本実施形態における説明に必要な機能のみを図示している。本実施形態に開示の技術を実現できる構成であれば、各装置はどのような論理構成であってもよい。例えば、図１に示す構成では、推論部１０３が画像処理装置１００に組み込まれているが、画像処理装置１００とは別の装置が推論部１０３を有していてもよい。

【0017】

＜ハードウェア構成＞
図２は、図１に示す画像処理システムにおける画像処理装置１００及び端末装置１１０のハードウェア構成の一例を示したブロック図である。

【0018】

図２（ａ）は、画像処理装置１００のハードウェア構成を示す図である。図２（ａ）に示すように、画像処理装置１００は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０４、ストレージ２０５、入力デバイス２０６、表示デバイス２０７、外部Ｉ／Ｆ２０８、ＧＰＵ２０９で構成され、データバス２０３を介して互いに接続される。

【0019】

ＣＰＵ２０１は、画像処理装置１００における動作全体を制御するための制御装置である。ＣＰＵ２０１は、ＲＯＭ２０２に記憶されたブートプログラムを実行することで、画像処理装置１００のシステムを起動し、ストレージ２０５に記憶されたプログラムを実行する。また、ＣＰＵ２０１は、学習データ生成部１０１や学習部１０２が実行する計算処理の一部をＧＰＵ２０９と協調して実行する。ＲＯＭ２０２は、不揮発性メモリで実現されるものであって、画像処理装置１００を起動するブートプログラム等を格納する記憶装置である。データバス２０３は、画像処理装置１００を構成するデバイス間で相互にデータを送受信するための通信路である。ＲＡＭ２０４は、揮発性メモリで実現されるものであって、ＣＰＵ２０１がプログラムを実行する際のワークメモリとして使用される記憶装置である。ストレージ２０５は、ＨＤＤ（ハードディスクドライブ）やＳＳＤ（ソリッドステートドライブ）等で実現されるものであって、プログラムや学習データを記憶するための大容量記憶装置である。ここでプログラムには、後述する学習データ生成処理や学習処理、推論処理の実行をＣＰＵ２０１に指示するためのプログラムを含む。ＣＰＵ２０１がこれらプログラムを実行することにより、前述の学習データ生成部１０１、学習部１０２、推論部１０３が実現される。入力デバイス２０６は、マウスやキーボード等で実現されるものであって、エンジニアからの画像処理装置１００に対する操作入力を受け付ける。表示デバイス２０７は、液晶ディスプレイ等で実現されるものであって、画像処理装置１００の各種設定画面などをエンジニアに対して表示出力する。外部Ｉ／Ｆ２０８は、ネットワーク１２０を介して端末装置１１０との間で各種データやコマンド等をやり取りするためのインタフェースである。ＧＰＵ２０９は、画像処理に特化した演算処理装置である。ＧＰＵ２０９は、ＣＰＵ２０１による制御の下、与えられた学習データを元に、学習モデルを構成するパラメータを更新するための演算等を実行する。スキャナデバイス２１０は、ＣＣＤなどを用いて帳票などの原稿を走査し、得られた電気信号データを変換して画像データを生成する装置である。

【0020】

図２（ｂ）は、端末装置１１０のハードウェア構成を示す図である。図２（ｂ）に示すように、端末装置１１０は、ＣＰＵ２１１、ＲＯＭ２１２、ＲＡＭ２１４、ストレージ２１５、入力デバイス２１６、表示デバイス２１７、外部Ｉ／Ｆ２１８で構成され、データバス２１３を介して互いに接続される。ＣＰＵ２１１は、端末装置１１０における動作全体を制御するための制御装置である。ＣＰＵ２１１は、ＲＯＭ２１２に記憶されたブートプログラムを実行することで、端末装置１１０のシステムを起動し、ストレージ２１５に記憶されたプログラムを実行する。ＲＯＭ２１２は、不揮発性メモリで実現されるものであって、端末装置１１０を起動するブートプログラム等を格納する記憶装置である。データバス２１３は、端末装置１１０を構成するデバイス間で相互にデータを送受信するための通信路である。ＲＡＭ２１４は、揮発性メモリで実現されるものであって、ＣＰＵ２１１が画像処理プログラムを実行する際のワークメモリとして使用される記憶装置である。ストレージ２１５は、ＨＤＤ（ハードディスクドライブ）やＳＳＤ（ソリッドステートドライブ）等で実現されるものであって、前述のプログラム等を記憶するための記憶装置である。入力デバイス２１６は、マウスやキーボード等で実現されるものであって、ユーザからの端末装置１１０に対する操作入力を受け付ける。表示デバイス２１７は、液晶ディスプレイ等で実現されるものであって、ユーザに対して様々な情報を表示出力する。外部Ｉ／Ｆ２１８は、ネットワーク１２０を介して画像処理装置１００との間で各種データやコマンド等をやり取りするためのインタフェースである。

【0021】

＜学習データについて＞
次に、ニューラルネットワークの学習に用いる、文字画像と正解クラスとが対になった学習データについて説明する。ここで、用語について定義しておく。実際に手書きされた文書のスキャン画像から手書き文字の領域を一文字単位で切り出すことによって得られる画像を「文字画像」と呼ぶこととする。そして、この文字画像に対して学習データ生成部１０１が変形処理を行って得た画像を「学習画像」と呼ぶこととする。

【0022】

≪文字画像データベース≫
図３は、文字画像を保存するためのデータベース（以下、「文字画像ＤＢ」と表記）としてのテーブルの一例を示す図である。文字画像ＤＢとしてのテーブル３００には、「レコードＩＤ」３０１、「文字画像」３０２、「正解クラス」３０３の各項目に対応するデータ又は値が格納される。なお、文字画像ＤＢは、ストレージ２０５の記憶領域の一部が専用に割り当てられるものとする。

【0023】

「レコードＩＤ」３０１は、テーブル３００内の各レコードを一意に識別するための識別情報が入るフィールドである。このレコードＩＤは、テーブル３００へレコードが追加される度に、レコードに対して付与される。「文字画像」３０２は、手書き文字の文字１つ１つに対応する画像データが入るフィールドである。「正解クラス」３０３は、文字画像内に含まれる手書き文字をテキストデータとして保持するフィールドである。いま、図３に示すテーブル３００には、手書き数字の文字画像とその正解クラスとを紐付けた４つのレコード３０４～３０７が例示されている。

【0024】

前述のとおり、テーブル３００に格納される各文字画像は、例えば、手書き文字を含んだ文書などをスキャンして得られた画像から手書き文字の部分だけを文字毎に切り出すことによって得られるものであるが、文字画像の取得方法はこれに限定されない。また、図３に示すテーブル３００のように複数の文字画像を一括して管理するのではなく、例えば正解クラス毎にテーブルを設けて管理してもよい。

【0025】

≪学習画像データベース≫
次に、学習データ生成部１０１が、上述の文字画像ＤＢに格納された文字画像に対して変形処理を行って生成する、ニューラルネットワークの学習に用いる学習画像について説明する。図４は、学習データ生成部１０１が生成した学習画像を保存するためのデータベース（以下、「学習画像ＤＢ」と表記）としてのテーブルの一例を示す図である。学習画像ＤＢとしてのテーブル４００には、「レコードＩＤ」４０１、「学習画像」４０２、「正解クラス」４０３の各項目に対応するデータ又は値が格納される。なお、学習画像ＤＢは、ストレージ２０５の記憶領域の一部が専用に割り当てられるものとする。

【0026】

「レコードＩＤ」４０１は、テーブル４００内の各レコードを一意に識別するための識別情報が入るフィールドである。この「レコードＩＤ」４０１の値は、テーブル４００へレコードが追加される度に、レコードに対して付与される。「学習画像」４０２は、文字画像を変形して生成された画像データを保持するフィールドである。「正解クラス」４０３は、学習画像内に含まれる文字をテキストデータとして保持するフィールドである。いま、図４に示すテーブル４００には、図３のテーブル３００のレコード３０４～３０７の各文字画像に変形処理を施して得られた学習画像とその正解クラスとを紐付けた４つのレコード４０４～４０７が示されている。なお、図４のテーブルに示す具体例では、１つの学習画像に含まれる文字数が１～３個であるがその上限は任意に設定さればよい。例えば上限を１５文字に設定し、その範囲の中で文字画像を並べ変えるなどして任意の文字数から成る学習画像を生成する構成をとってもよいし、上限を１文字に設定し、１文字の文字画像のみで学習画像を生成する構成としてもよい。

【0027】

＜学習処理＞
次に、学習部１０２による学習処理について、図５（ａ）を用いて説明する。図５（ａ）は、学習処理の流れを示すフローチャートである。図５（ａ）のフローチャートに示す各ステップは、ＣＰＵ２０１が、ＲＯＭ２０２等に格納された所定のプログラムをＲＡＭ２０４に展開し、これを実行することで実現される。学習処理は、ユーザが、画像処理装置１００の入力デバイス２０６を介した所定の操作に応答して、或いはネットワーク１２０を介して端末装置１１０などから受け付けた所定の入力信号をトリガーとして開始される。本実施形態において、ニューラルネットワークの学習にはミニバッチ法を用いるものとする。なお、以下の説明において記号「Ｓ」はステップを意味する。

【0028】

Ｓ５０１では、学習画像ＤＢから、学習に必要な学習データのデータセットが取得される。具体的には、学習画像ＤＢとしてのテーブル４００に含まれる各レコードを参照して、学習画像と正解クラスとの対からなる学習データが取得される。

【0029】

Ｓ５０２では、ニューラルネットワークが初期化される。具体的には、ニューラルネットワークを構築し、当該ニューラルネットワークに含まれるパラメータの値を、ランダムに決定する。構築するニューラルネットワークの構造は様々なものを用いることができるが、例えば、ＣＮＮ（Convolutional Neural Networks）のような形態を取り得る。

【0030】

Ｓ５０３では、Ｓ５０１で読み込んだ学習データのうち所定の数（ミニバッチサイズ、例えば１０個。ミニバッチの学習形態をとらないのであれば１個）の学習データが取得される。そして、Ｓ５０４及びＳ５０５にて、ニューラルネットワークの学習を行う。

【0031】

Ｓ５０４では、ニューラルネットワークの誤差が算出される。具体的には、Ｓ５０３で取得したミニバッチ内の各学習データに含まれる学習画像をニューラルネットワークに入力して学習画像内の文字を表すクラス情報を出力し、当該出力と正解クラスとの差を評価して誤差を求める処理が行われる。当該評価には指標としてＣＴＣ（Connectionist Temporal Classification）Ｌｏｓｓなどを用いることができる。

【0032】

Ｓ５０５では、ニューラルネットワークのパラメータが調整される。具体的には、Ｓ５０４にて算出した誤差に基づき、例えばバックプロパゲーション法によってニューラルネットワークのパラメータを変更する処理が行われる。

【0033】

Ｓ５０６では、学習を終了するか否かが判定される。具体的には、Ｓ５０３～Ｓ５０５の処理を所定回数（例えば、４００００回）行ったか否かがチェックされる。ここで所定回数は、例えば学習処理の開始時にユーザが所望の回数を入力するなどして決定すればよい。所定回数の処理が完了していた場合には終了と判定し、Ｓ５０７に遷移する。所定回数の処理が完了していない場合はＳ５０３に戻ってニューラルネットワークの学習が続行される。

【0034】

Ｓ５０７では、学習結果として、Ｓ５０５にて調整したニューラルネットワークのパラメータで構成される学習済モデルがストレージ２０５に保存され、本処理を終了する。

【0035】

以上が、学習処理の内容である。なお、図５（ａ）のフローチャートでは、学習データ取得処理（Ｓ５０１）において、事前に生成した学習データを読み込むように処理しているが、学習データと学習処理を並行して行ってもよい。すなわち、学習データ取得処理（Ｓ５０１）に先立って後述の学習データ生成処理を実行し、生成された学習データから順次読み込んで取得するような構成でもよい。

【0036】

＜推論処理＞
次に、推論部１０３による推論処理について図５（ｂ）を用いて説明する。図５（ｂ）は、本実施形態に係る推論処理の流れを示すフローチャートである。図５（ｂ）のフローチャートに示す各ステップは、ＣＰＵ２０１が、ＲＯＭ２０２等に格納された所定のプログラムをＲＡＭ２０４に展開し、これを実行することで実現される。推論処理は、ユーザが、画像処理装置１００の入力デバイス２０６を介した所定の操作に応答して、或いはネットワーク１２０を介して端末装置１１０などから受け付けた所定の入力信号をトリガーとして開始される。なお、以下の説明において記号「Ｓ」はステップを意味する。

【0037】

Ｓ５１１では、学習済モデルの読み込みが行われる。具体的には、まず、前述の図５（ａ）のフローチャートのＳ５０２で構築されたニューラルネットワークと同一構造のニューラルネットワークが構築され、構築したニューラルネットワークに、前述のＳ５０７で保存された学習済モデルが反映される。

【0038】

Ｓ５１２では、推論処理の対象となる画像（以降、「処理対象画像」と呼称する。）を生成する処理が実行される。この処理は、一般に「ブロックセレクション」と呼ばれ、これにより得られた画像は「文字ブロック」と呼ばれる。処理対象画像生成処理の詳細については後述する。

【0039】

Ｓ５１３では、Ｓ５１２で生成された処理対象画像のうち注目する処理対象画像が学習済モデルに入力される。これにより、注目する処理対象画像に含まれる文字に対応したテキスト情報が、推論結果として出力される。

【0040】

Ｓ５１４では、Ｓ５１３で取得した推論結果（文字認識結果）が送信される。本実施形態では、ネットワーク１２０を介して端末装置１１０に送信されることになる。なお、推論結果を端末装置１１０に送信するのではなく、ストレージ２０５に保存するような構成をとってもよい。

【0041】

Ｓ５１５では、推論処理を終了するか否かが判定される。Ｓ５１２で生成された全ての処理対象画像についての推論処理が完了していた場合は、本処理を終了する。一方、未処理の処理対象画像が残っている場合はＳ５１３に戻って次の注目する処理対象画像を学習済モデルに入力して推論処理を続行する。

【0042】

以上が、推論処理の内容である。

【0043】

＜処理対象画像生成処理＞
次に、図２０のフローチャートを参照して、推論処理の詳細について説明する。

【0044】

Ｓ２００１では、スキャナデバイス２１０において原稿をスキャンして、スキャン画像が生成される。図２１（ａ）に示す画像２１００は、手書きで金額が記入された領収書をスキャンして得られたスキャン画像の具体例である。このようなスキャン画像が、本ステップで取得される。

【0045】

Ｓ２００２では、Ｓ２００１で取得したスキャン画像から、手書き文字に対応する画素（手書き画素）を抽出する処理が行われる。この抽出には、例えばスキャン画像を構成する各画素の輝度特徴に基づき手書き画素か否かを判定する手法など公知技術を適用すればよい。これにより、スキャン画像のうち手書き文字に対応する領域のみを抜き出した画像（以下、「手書き抽出画像」と呼ぶ。）が得られる。図２１（ｂ）に示す画像２１０１は、図２１（ａ）に示すスキャン画像２１００から得られた手書き抽出画像の具体例である。このような手書き抽出画像が、本ステップで取得される。

【0046】

Ｓ２００３では、Ｓ２００２で取得した手書き抽出画像に基づき、手書き文字部分だけを表した矩形領域（手書き文字ブロック）を特定する処理が行われる。具体的な手順は以下のとおりである。まず、手書き抽出画像の各画素を黒画素と白画素に二値化処理する。次に、二値化処理の結果から黒画素塊を検出して、黒画素塊毎に外接矩形を求める。次に、各黒画素塊の外接矩形同士の中心間距離を算出し、所定の閾値以下である近接した画素塊同士をグルーピングする。これをグルーピングできなくなるまで繰り返す。以上の処理によって手書き文字ブロックを得ることができる。図２１（ｃ）は、図２１（ｂ）に示す手書き抽出画像２１０１から得られた手書き文字ブロックの具体例であり、２つの手書き文字ブロック２１０２及び２１０３が得られている。そして、手書き文字ブロック２１０３は、上下２行分の文字行を含んでいるのが分かる。このような手書き文字ブロックが、本ステップで取得される。

【0047】

Ｓ２００４では、Ｓ２００３で取得した手書き文字ブロックのうち注目する手書き文字ブロックについて、複数の文字行が含まれているか否かが判定される。この判定は、例えばスキャン対象文書内に印刷された罫線を用いる。具体的には、まず、注目する手書き文字ブロックにおける罫線に対応する画素を特定する。次に、当該特定された画素が表す線分で囲われた領域内部に手書き画素が存在しており、かつ、そのような領域同士が接触している場合には文字行が複数あると判断する。このような判定の結果、注目する手書き文字ブロック内に複数の文字行が含まれていなければ、注目する手書き文字ブロックは処理対象画像として決定されて、Ｓ２００５をスキップしてＳ２００６に進む。一方、含まれていればＳ２００５に進む。

【0048】

Ｓ２００５では、注目する手書き文字ブロックに対し、文字行毎の矩形領域に分離する処理（文字行分離処理）が行われる。例えば上述した罫線に対応する画素が表す線分の位置で切り分けることで、文字行単位の手書き文字ブロックに分離することができる。図２１（ｄ）は、文字行分離処理の具体例を示しており、前述の手書き文字ブロック２１０３が、２つの手書き文字ブロック２１０４及び２１０５に分離されている。こうして、文字行単位に分離された各手書き文字ブロックはそれぞれが処理対象画像として決定されて、Ｓ２００６に進む。

【0049】

Ｓ２００６では、Ｓ２００３で取得された全ての手書き文字ブロックが処理されたか否かが判定される。未処理の手書き文字ブロックが残っている場合はＳ２００４に戻って次の注目する手書き文字ブロックを決定して処理を続行する。一方、全ての手書き文字ブロックが処理されていれば、本処理を終了する。

【0050】

以上が、処理対象画像生成処理の内容である。これにより、手書き文字部分とそれ以外の部分とを、二値（白画素又は黒画素）で表した文字行単位の手書き文字ブロックが、処理対象画像として生成される。

【0051】

＜学習データ生成処理＞
続いて、学習データ生成部１０１による学習データ生成処理について、図６を用いて説明する。図６は、学習データ生成処理の大まかな流れを示すフローチャートである。図６のフローチャートに示す各ステップは、ＣＰＵ２０１が、ＲＯＭ２０２等に格納された所定のプログラムをＲＡＭ２０４に展開し、これを実行することで実現される。学習データ生成処理は、画像処理装置１００の入力デバイス２０６を介した所定のユーザ操作に応答して、或いはネットワーク１２０を介して端末装置１１０などから受け付けた所定の入力信号をトリガーとして開始される。なお、以下の説明において記号「Ｓ」はステップを意味する。

【0052】

Ｓ６０１では、これから生成する文字列画像における文字列長（すなわち、何文字分の文字画像を用いて学習画像を生成するか）がランダムに決定される。この際、最小文字列長は例えば“１”、最大文字列長は例えば“１５”であるが、いずれも任意の値を設定可能である。

【0053】

Ｓ６０２では、文字画像ＤＢ（例えば上述のテーブル３００）から、一文字分の文字画像とその正解クラスのペアがランダムに取得される。なお、ここで取得される文字画像は、変形処理を施す前の物理的に収集した文字画像である。生成される学習データに偏りが生じないように取得できればよく、正解クラスを順に変更するなど取得対象に何らかの限定を加えてもよい。

【0054】

Ｓ６０３では、Ｓ６０２で取得された文字画像に対して変形処理が行われる。具体的には、所定の範囲内でランダムに選択したスケールでの拡大・縮小或いは膨張・収縮処理が行われる。また同様に、所定の範囲内でランダムに選択された角度での回転処理や、所定の範囲内でランダムに選択された比率でのアスペクト比変更処理が行われる。

【0055】

Ｓ６０４では、Ｓ６０１で決定した文字列長分の処理が完了したか否かが判定される。決定された文字列長分の処理が完了していた場合はＳ６０５に進み、完了していなければＳ６０２に戻って処理が続行される。

【0056】

Ｓ６０５では、ここまでの処理で生成された複数文字分の変形後の文字画像を合成した文字列画像が生成される。具体的な合成方法としては、例えば変形後の文字画像を生成された順番に右に並べて連結することにより、文字列画像が生成される。また同じ順番で、変形後の文字画像の基になった文字画像の正解クラスを右に並べて、生成された文字列画像に対応する正解クラスとする。こうして得られた文字列画像と正解クラスのデータはＲＡＭ２０４に保持される。

【0057】

Ｓ６０６では、ノイズ付与処理を実行するか否かが決定される。例えば実行する確率を５０％に設定していた場合は、“０”又は“１”を乱数によりランダムに出力し、出力値が“０”であれば「実行する」に決定し、“１”であれば「実行しない」に決定すればよい。なお、上記の５０％という確率値は一例であり、０％以外の任意の値とすればよい。「実行する」と決定された場合はＳ６０７に進み、「実行しない」と決定された場合はＳ６０８に進む。

【0058】

Ｓ６０７では、Ｓ６０５にて生成された文字列画像に対し、ノイズ付与処理が実行される。ノイズ付与処理の詳細については後述する。

【0059】

Ｓ６０８では、ノイズ付与処理が実行されたか否かによって処理の振り分けがなされる。ノイズ付与処理が実行されていない場合はＳ６０９に進み、実行されている場合はＳ６１０に進む。

【0060】

Ｓ６０９では、Ｓ６０５で生成された文字列画像を学習画像とし、これにＳ６０２で取得された正解クラスを紐付けて、学習画像ＤＢに学習データとして登録する処理が行われる。また、Ｓ６１０では、Ｓ６０７でノイズ付与処理が施された文字列画像を学習画像とし、これにＳ６０２で取得された正解クラスを紐付けて、学習画像ＤＢに学習データとして登録する処理が行われる。なお、Ｓ６１０で登録される学習データに含まれる正解クラスはＳ６０２で取得された正解クラスのままなので、前述の学習処理においてノイズを無視するように学習されることになる。

【0061】

Ｓ６１１では、学習データの生成処理を終了するか否かが判定される。ここでの終了条件は、所定個数の文字列画像の生成が完了した場合などである。終了条件を満たしていない場合は、Ｓ６０１に戻って処理が続行される。終了条件を満たしている場合は、学習データ生成処理を終了する。

【0062】

以上が、学習データ生成処理の大まかな内容である。

【0063】

＜ノイズ付与処理の詳細＞
続いて、図７のフローチャートを参照して、本実施形態に係るノイズ付与処理について詳しく説明する。

【0064】

Ｓ７０１では、文字列画像１枚に対して付与するノイズの個数がランダムに決定される。個数の範囲は例えば１～３個であるが、任意の個数を設定すればよい。

【0065】

Ｓ７０２では、Ｓ７０１で決定された個数のノイズを文字列画像内のどの位置に付与するのかがランダムに決定される。例えば、文字列画像を上下左右の４つの領域に分け、それぞれの領域に付与する確率を２５％とする場合、“０～３”の範囲で何れかの値を乱数によりランダムに出力する。そして、出力値が“０”であればノイズ付与位置を“上”に、“１”であればノイズ付与位置を“下”に、“２”であればノイズ付与位置を“左”に、“３”であればノイズ付与位置を“右”に決定する。このようにして、ノイズ付与位置がランダムに決定される。なお、２５％という確率値は一例であり、これに限るものではない。例えば文字の入り込みは左右よりも上下で起こることが多いため、上下それぞれの位置で付与する確率を多くなるように設定してもよい。なお、Ｓ７０１で決定した個数が２個以上の時、ノイズ付与位置は同じにしてもよいし（例えば全て上など）、異ならせてもよい（例えば上と下など）。

【0066】

Ｓ７０３では、ノイズ画像が生成される。図８はノイズ画像の生成方法を説明する図である。図８に示すようにノイズ画像の生成には文字画像を用いる。使用する文字画像は、文字画像ＤＢに格納された文字画像をランダムに選択して取得する。以下、図８に示す具体例に基づき説明する。まず、文字画像８００の幅に収まるようランダムにＸ座標を決定する。次に、文字画像８００の高さに収まるようランダムにＹ座標を決定する。そして、決定したＸ座標とＹ座標からそれぞれ下垂直方向及び右水平方向に所定の幅と高さの分だけ文字画像から切り出して、ノイズ画像８０１が得られる。ここで、所定の幅と高さは、文字画像８００の幅及び高さを基準にした所定の割合（例えば１～４０％）をそれぞれ予め決定しておけばよい。なお、上述したノイズ画像生成方法は一例であり、例えば画像処理で線分などを描画することによりノイズ画像を生成してもよい。

【0067】

Ｓ７０４では、Ｓ７０２で決定したノイズ付与位置が上であるか否かが判定される。ノイズ付与位置が上であった場合はＳ７０５に進み、そうでない場合はＳ７０６に進む。そして、Ｓ７０５では、文字列画像内の上端近傍に他の行の文字の一部が入り込んだかのようなノイズが再現されるよう、文字列画像内のノイズ付与領域が決定される。

【0068】

Ｓ７０６では、Ｓ７０２で決定したノイズ付与位置が下であるか否かが判定される。ノイズ付与位置が下であった場合はＳ７０７に進み、そうでない場合はＳ７０８に進む。そして、Ｓ７０７では、文字列画像内の下端近傍に他の行の文字の一部が入り込んだかのようなノイズが再現されるよう、文字列画像内のノイズ付与領域が決定される。

【0069】

Ｓ７０８では、Ｓ７０２で決定したノイズ付与位置が左であるか否かが判定される。ノイズ付与位置が左であった場合はＳ７０９に進み、そうでない場合はＳ７１０に進む。そして、Ｓ７０９では、文字列画像内の左端近傍に他の行の文字の一部が入り込んだかのようなノイズが再現されるよう、文字列画像内のノイズ付与領域が決定される。また、Ｓ７１０では、文字列画像内の右端近傍に他の行の文字の一部が入り込んだかのようなノイズが再現されるよう、文字列画像内のノイズ付与領域が決定される。

【0070】

図９の（ａ）～（ｅ）は、ノイズ付与領域を文字列画像の端部近傍に決定する具体例を示す図である。Ｓ７０５では、図９（ａ）に示す文字列画像９００の上端近傍にノイズ付与位置が含まれるよう、図９（ｂ）に示すようなノイズ付与領域９０１が決定される。ここで、文字列画像９００の幅をＷ、文字列画像９００の高さをＨ、文字列画像９００に占めるノイズ付与領域の割合をＲとすると、ノイズ付与領域９０１は座標（０，０）を左上端点、座標（Ｗ－１，Ｈ＊Ｒ－１）を右下端点とする領域となる。この場合の割合Ｒの範囲は例えば５～１５％とする。同様に、Ｓ７０７では、図９（ａ）に示す文字列画像９００の下端近傍にノイズ付与位置が含まれるよう、図９（ｃ）に示すようなノイズ付与領域９０２が決定される。この場合のノイズ付与領域９０２は座標（０，Ｈ＊（１－Ｒ））を左上端点、座標（Ｗ－１，Ｈ－１）を右下端点とする領域となる。同様にＳ７０９では、図９（ａ）に示す文字列画像９００の左端近傍にノイズ付与位置が含まれるよう、図９（ｄ）に示すようなノイズ付与領域９０３が決定される。この場合のノイズ付与領域９０３は座標（０，０）を左上端点、座標（Ｗ＊Ｒ－１，Ｈ－１）を右下端点とする領域となる。同様にＳ７１０では、図９（ａ）に示す文字列画像９００の右端近傍にノイズ付与位置が含まれるよう、図９（ｅ）に示すようなノイズ付与領域９０４が決定される。この場合のノイズ付与領域９０４は座標（Ｗ＊（１－Ｒ），０）を左上端点、座標（Ｗ－１，Ｈ－１）を右下端点とする領域となる。

【0071】

Ｓ７１１では、Ｓ７０３で生成したノイズ画像を文字列画像に重畳させて、両画像を合成する処理が行われる。ノイズ画像を重畳する位置は、Ｓ７０５、Ｓ７０７、Ｓ７０９、Ｓ７１０にて決定したノイズ付与領域内からランダムに決定すればよい。図１０に具体例を示す。図１０の例では、図９に示す文字列画像９００の上端近傍に図８に示すノイズ画像８０１を重畳することで、合成画像１０００が得られている。ノイズ画像は図１０に示すように文字列画像の端部に接しない状態で合成してもよいし、後述の図１６で例示するように端部に接した状態で合成してもよい。合成画像１０００のように、ノイズ画像が文字列画像の上端に接しない状態で重畳された合成画像は、他の行の文字の一部に対応する線分が途切れた状態で、下の文字列領域に入り込んでいる状態を再現するものである。こうして生成された合成画像はＲＡＭ２０４に保存される。

【0072】

Ｓ７１２では、Ｓ７０１にて決定された所定個数のノイズを付与する処理が完了したか否かが判定される。所定個数のノイズ付与が完了していた場合は本処理を終了する。一方、所定個数のノイズ付与が完了していない場合は、Ｓ７０２に戻って処理が続行される。

【0073】

以上がノイズ付与処理の内容である。なお、このようにして生成された、ノイズが付与された文字列画像を学習画像として用いて学習する際には、ノイズ付与した学習画像だけで学習してもいいし、ノイズ付与していない学習画像と混ぜて学習してもよい。

【0074】

＜変形例＞
前述のとおり、図２０のフローチャートでは、手書き文字ブロックに複数の文字行が含まれる場合に文字行分離処理を行って文字行単位の処理対象画像が生成される。ここで、文字行分離処理によって得られた処理対象画像は他の文字行の一部が入り込んだ「入込み画像」となる可能性があるが、文字行分離処理に拠らずに得られた処理対象画像は「入込み画像」となる可能性が低い。そこで、処理対象画像が文字行分離処理によって得られたものであるかどうかにより、推論時に利用する学習済モデルを切り替えてもよい。

【0075】

本変形例の場合、学習画像と正解クラスとのペアを学習画像ＤＢに登録する際に、ノイズ付与フラグを併せて登録するようにする。図２５は、本変形例に係る学習画像ＤＢとしてのテーブルの一例を示している。図２５に示すテーブル２５００には、「レコードＩＤ」２５０１、「学習画像」２５０２、「正解クラス」２５０３、「ノイズ付与フラグ」２５０４の４項目が存在している。そして、レコード２５０５～２５０７にはノイズ付与が行われていないことを示すフラグ値“０”が入り、レコード２５０８にはノイズ付与が行われたことを示すフラグ値“１”が入っている。

【0076】

続いて、本変形例に係る学習処理について、図２４（ａ）のフローチャートを参照して説明する。ただし、上述の実施形態に係る図５（ａ）のフローチャートと共通する内容（Ｓ５０２～Ｓ５０６）については説明を省く。

【0077】

Ｓ２４０１では、合成画像を含む学習データを使用して学習を行うのか、合成画像を含まない学習データを使用して学習を行うのかによって処理が振り分けられる。どのような学習データを使用して学習を行うのか、どのような場合に学習データの生成を終了するのについては本フローチャートの開始に先立ってユーザが指示するなどして設定すればよい。ここで「合成画像を含む学習データ」とは、ノイズが付与された学習画像とノイズが付与されていない学習画像を混在させた学習データを意味する。また、「合成画像を含まない学習データ」とは、ノイズが付与されていない学習画像のみで構成した学習データを意味する。合成画像を含む学習データを使用して学習を行う場合はＳ２４０２に進み、合成画像を含まない学習データを使用して学習を行う場合はＳ２４０３に進む。

【0078】

Ｓ２４０２では、学習画像ＤＢから合成画像を含む学習データ（以下、「第１学習データ」と表記）が学習画像ＤＢから取得される。この際、ノイズ付与フラグのフラグ値が“１”のレコードのデータセットが取得されることになる。一方、Ｓ２４０３では、学習画像ＤＢから合成画像を含まない学習データ（以下、「第２学習データ」と表記）が学習画像ＤＢから取得される。この際、ノイズ付与フラグのフラグ値が“０”のレコードのデータセットが取得されることになる。

【0079】

Ｓ２４０４では、学習に使用した学習データが合成画像を含む学習データであったか、合成画像を含まない学習データであったかによって処理が振り分けられる。合成画像を含む学習データを使用して学習を行った場合はＳ２４０５に進み、合成画像を含まない学習データを使用して学習を行った場合はＳ２４０６に進む。

【0080】

Ｓ２４０５では、合成画像を含む学習データに基づく学習結果として、Ｓ５０５にて調整したニューラルネットワークのパラメータで構成される学習済モデル（以下、「第１学習済モデル」と表記）が、ストレージ２０５に保存される。また、Ｓ２４０６では、合成画像を含まない学習データに基づく学習結果として、Ｓ５０５にて調整したニューラルネットワークのパラメータで構成される学習済モデル（以下、「第２学習済モデル」と表記）が、ストレージ２０５に保存される。

【0081】

Ｓ２４０７では、学習処理を終了するか否かが判定する。ここでの終了条件は、例えば第１学習済モデルと第２学習済モデルの両方を生成したか否かなどである。終了条件を満たしていれば本処理を終了し、終了条件を満たしていなければＳ２４０１に戻って処理を続行する。以上が、本変形例に係る学習処理の内容である。

【0082】

続いて、本変形例に係る推論処理について、図２４（ｂ）のフローチャートを参照して説明する。ただし、上述の実施形態に係る図５（ｂ）のフローチャートと共通する内容（Ｓ５１２、Ｓ５１４、Ｓ５１５）については説明を省く。

【0083】

Ｓ２４１１では、上述の第１及び／又は第２学習済モデルの読み込みが行われる。そして、処理対象画像生成処理（Ｓ５１２）に続くＳ２４１２では、注目する処理対象画像が文字行分離処理によって生成されたものであるか否かによって処理が振り分けられる。文字行分離処理によって生成されていた場合はＳ２４１３に進み、そうでない場合はＳ２４１４に進む。

【0084】

Ｓ２４１３では、注目する処理対象画像が、合成画像を含む学習データを用いた学習を行って得られた第１学習済モデルに入力される。また、Ｓ２４１４では、注目する処理対象画像が、合成画像を含まない学習データを用いた学習を行って得られた第２学習済モデルに入力される。これにより、注目する処理対象画像に含まれる文字に対応したテキスト情報が、推論結果として出力される。以上が、本変形例に係る推論処理の内容である。

【0085】

本変形例によれば、処理対象画像毎に適切な推論器を適用するので、手書き文字用ＯＣＲにおける誤認識をより低減することが可能になる。

【0086】

以上のとおり上記変形例を含む本実施形態によれば、文字の入り込みを再現した学習画像を効率よく生成することができる。そして、本実施形態によって生成した学習画像を学習することにより、帳票内の別の記入項目に記載された文字の一部などが文字列画像中に入り込んでしまっているような場合でも、手書き文字用ＯＣＲにおける誤認識を低減することができる。

【0087】

［実施形態２］
実施形態１では、文字画像内のランダムな位置から切り出してノイズ画像を生成していた。次に、ノイズの付与位置に応じて文字画像からの切り出し位置を決定する態様を、実施形態２として説明する。なお、システムの基本構成など実施形態１と共通の内容については説明を省略し、以下では差異点であるノイズ付与処理について説明することとする。

【0088】

＜本実施形態の概要＞
本実施形態に係るノイズ付与処理では、ノイズ付与位置が上の場合は、手書きＯＣＲの対象となる文字列画像の上方に位置する他の手書き文字列の一部が、当該文字列画像に上から入り込んだ場合を模すようなノイズを付与したい。よって、重畳させるノイズ画像は、文字画像の下端から切り出すようにする。同様に、ノイズ付与位置が下の場合は文字画像の上端から、ノイズ付与位置が左の場合は文字画像の右端から、ノイズ付与位置が右の場合は文字画像の左端から、それぞれノイズ画像を切り出すようにする。

【0089】

＜ノイズ付与処理＞
図１１（ａ）は、本実施形態に係るノイズ付与処理の詳細を示すフローチャートである。実施形態１に係る図７のフローチャートとの違いはＳ７０３’のノイズ画像生成処理のみである。Ｓ７０３’以外の参照符号が同じステップ（Ｓ７０１、Ｓ７０２、Ｓ７０４～Ｓ７１２）については特に異なるところはないので説明を省くこととする。図１１（ｂ）は、本実施形態に係るノイズ画像生成処理の詳細を示すフローチャートである。以下、図１１（ｂ）のフローに沿って説明する。

【0090】

Ｓ１１０１では、Ｓ７０２で決定したノイズ付与位置が上であるか否かが判定される。ノイズ付与位置が上であった場合はＳ１１０２に進み、そうでない場合はＳ１１０３に進む。そして、Ｓ１１０２では、文字画像の下端を切り出してノイズ画像が生成される。

【0091】

Ｓ１１０３では、Ｓ７０２で決定したノイズ付与位置が下であるか否かが判定される。ノイズ付与位置が下であった場合はＳ１１０４に進み、そうでない場合はＳ１１０５に進む。そして、Ｓ１１０４では、文字画像の上端を切り出してノイズ画像が生成される。

【0092】

Ｓ１１０５では、Ｓ７０２で決定したノイズ付与位置が左であるか否かが判定される。ノイズ付与位置が左であった場合はＳ１１０６に進み、そうでない場合はＳ１１０７に進む。そして、Ｓ１１０６では、文字画像の右端を切り出してノイズ画像が生成される。また、Ｓ１１０７では、文字画像の左端を切り出してノイズ画像が生成される。

【0093】

図１２の（ａ）～（ｅ）は、本実施形態に係るノイズ画像生成の具体例を示す図である。図１２（ａ）に示す文字画像１２００は、図８の文字画像８００と同様、文字画像ＤＢからランダムに選択された文字画像である。下端又は上端から切り出す場合、まず、文字画像１２００の高さを基準にした所定の長さを決定する。次に、文字画像１２００の下端又は上端から、決定した長さに対応する分の画像領域を切り出す。これにより図１２（ｂ）に示す下端から切り出したノイズ画像１２０１又は図１２（ｃ）に示す上端から切り出したノイズ画像１２０２が得られる。ここで、所定の長さは、文字画像１２００の高さを基準にした所定の割合（例えば１～４０％）を決定しておけばよい。同様に、左端又は右端から切り出す場合、まず、文字画像１２００の幅を基準にした所定の長さを決定する。次に、文字画像１２００の左端又は右端から、決定した長さに対応する分の画像領域を切り出す。これにより図１２（ｄ）に示す右端から切り出したノイズ画像１２０３又は図１２（ｅ）に示す左端から切り出したノイズ画像１２０４が得られる。ここで、所定の長さは、文字画像１２００の幅を基準にした所定の割合（例えば１～４０％）を決定しておけばよい。

【0094】

以上が、本実施形態に係るノイズ画像生成処理の内容である。

【0095】

以上のとおり本実施形態によれば、現実的に発生し得る文字の入り込み態様をよりよく再現したノイズ画像が生成されるので、より精度の高い学習済モデルを得ることが可能になる。

【0096】

［実施形態３］
実施形態１では、ノイズ付与位置に基づくノイズ付与領域（文字列画像内の座標）をランダムに決定し、ノイズ画像を文字列画像に重畳して合成画像を生成していた。次に、ノイズを付与する前の文字列画像に対し枠を拡げる処理を行い、ノイズ画像を文字列画像の端部に接するように付与する態様を実施形態３として説明する。なお、システムの基本構成など実施形態１と共通の内容については説明を省略し、以下では差異点であるノイズ付与処理について説明することとする。

【0097】

＜ノイズ付与処理＞
図１３は、本実施形態に係るノイズ付与処理の詳細を示すフローチャートである。実施形態１に係る図７のフローチャートとの違いはＳ１３０１～Ｓ１３０９であり、それら以外の参照符号が同じステップ（Ｓ７０１～Ｓ７０８、Ｓ７１２）については特に異なるところはないので説明を省くこととする。以下、図１３のフローに沿って説明する。

【0098】

ノイズ付与位置が上に決定された場合（Ｓ７０２、Ｓ７０４でＹｅｓ）のＳ１３０１では、文字列画像の上方向に枠を拡げる処理が行われる。

【0099】

ノイズ付与位置が下に決定された場合（Ｓ７０２、Ｓ７０６でＹｅｓ）のＳ１３０３では、文字列画像の下方向に枠を拡げる処理が行われる。

【0100】

ノイズ付与位置が左に決定された場合（Ｓ７０２、Ｓ７０８でＹｅｓ）のＳ１３０５では、文字列画像の左方向に枠を拡げる処理が行われる。

【0101】

ノイズ付与位置が右に決定された場合（Ｓ７０２、Ｓ７０８でＮｏ）のＳ１３０７では、文字列画像の右方向に枠を拡げる処理が行われる。

【0102】

図１４の（ａ）～（ｅ）は、上記各方向に枠を拡げる処理によって生成される画像（枠拡張画像）の具体例を示す図である。

【0103】

上方向に枠を拡げる場合、まず、文字列画像１４００の高さを基準にした所定の長さを決定する。次に、決定された長さ分の余白を、文字列画像１４００の上方向に付加する。これにより図１４（ｂ）に示す枠拡張画像１４０１が得られる。

【0104】

下方向に枠を拡げる場合も同様に、まず、文字列画像１４００の高さを基準にした所定の長さを決定する。次に、決定された長さ分の余白を、文字列画像１４００の下方向に付加する。これにより図１４（ｃ）に示す枠拡張画像１４０２が得られる。

【0105】

左方向に枠を拡げる場合も同様に、まず、文字列画像１４００の高さを基準にした所定の長さを決定する。次に、決定された長さ分の余白を、文字列画像１４００の左方向に付加する。これにより図１４（ｄ）に示す枠拡張画像１４０３が得られる。

【0106】

右方向に枠を拡げる場合も同様に、まず、文字列画像１４００の高さを基準にした所定の長さを決定する。次に、決定された長さ分の余白を、文字列画像１４００の右方向に付加する。これにより図１４（ｅ）に示す枠拡張画像１４０４が得られる。

【0107】

ここで、余白部の画素は白を現し、グレースケールであれば画素値“２５５”、ＲＧＢ３チャンネルであれば画素値（２５５、２５５、２５５）とすればよい。或いは、例えば白紙をスキャンして得た画像の一部を切り出して余白部として張り付けてもよい。また、所定の長さは、文字画像１２００の高さを基準にした所定の割合（例えば１～２５％）を決定しておけばよい。以上のように、Ｓ１３０１、Ｓ１３０３、Ｓ１３０５、Ｓ１３０７の各処理において、所定の方向に文字列画像の枠を拡げた枠拡張画像が得られる。

【0108】

続いて、ノイズ付与位置が上に決定された場合（Ｓ７０２、Ｓ７０４でＹｅｓ）のＳ１３０２では、ノイズ付与位置が枠拡張画像の上端と接するようにノイズ付与領域が決定される。

【0109】

また、ノイズ付与位置が下に決定された場合（Ｓ７０２、Ｓ７０６でＹｅｓ）のＳ１３０４では、ノイズ付与位置が枠拡張画像の下端と接するようにノイズ付与領域が決定される。

【0110】

また、ノイズ付与位置が左に決定された場合（Ｓ７０２、Ｓ７０８でＹｅｓ）のＳ１３０６では、ノイズ付与位置が枠拡張画像の左端と接するようにノイズ付与領域が決定される。

【0111】

また、ノイズ付与位置が右に決定された場合（Ｓ７０２、Ｓ７０８でＮｏ）のＳ１３０８では、ノイズ付与位置が枠拡張画像の右端と接するようにノイズ付与領域が決定される。

【0112】

図１５の（ａ）～（ｉ）は、本実施形態に係るノイズ付与領域の決定の具体例を示す図である。

【0113】

上方向に枠が拡張された場合のＳ１３０２では、図１５（ａ）に示す枠拡張画像１４０１の上端と接するように、図１５（ｂ）に破線で示すようなノイズ付与領域１５０１が決定される。ここで、枠拡張画像１４０１の幅をＷ、枠拡張画像１４０１の高さをＨとすると、ノイズ付与領域１５０１は座標（０，０）を左上端点、座標（Ｗ，０）を右下端点とする領域となる。

【0114】

下方向に枠が拡張された場合のＳ１３０４では、図１５（ｃ）に示す枠拡張画像１４０２の下端と接するように、図１５（ｄ）に破線で示すようなノイズ付与領域１５０２が決定される。このノイズ付与領域１５０２は、枠拡張画像１４０２の幅をＷ、枠拡張画像１４０２の高さをＨ、図１５（ｉ）に示すノイズ画像１５００の幅をｗ、高さをｈとすると、座標（０，Ｈ－ｈ－１）を左上端点、座標（Ｗ，Ｈ－ｈ－１）を右下端点とする領域となる。

【0115】

左方向に枠が拡張された場合の１３０６では、図１５（ｅ）に示す枠拡張画像１４０３の左端と接するように、図１５（ｆ）に破線で示すようなノイズ付与領域１５０３が決定される。枠拡張画像１４０３の幅をＷ、枠拡張画像１４０３の高さをＨとすると、ノイズ付与領域１５０３は座標（０，０）を左上端点、座標（０，Ｈ）を右下端点とする領域となる。

【0116】

右方向に枠が拡張された場合の１３０８では、図１５（ｇ）に示す枠拡張画像１４０４の右端と接するように、図１５（ｈ）に破線で示すようなノイズ付与領域１５０４が決定される。枠拡張画像１４０４の幅をＷ、枠拡張画像１４０４の高さをＨ、図１５（ｉ）に示すノイズ画像１５００の幅をｗ、高さをｈとすると、ノイズ付与領域１５０４は座標（Ｗ－ｗ－１，０）を左上端点、座標（Ｗ－ｗ－１，Ｈ）を右下端点とする領域となる。

【0117】

Ｓ１３０９では、Ｓ７０３で生成したノイズ画像を、Ｓ１３０１、Ｓ１３０３、Ｓ１３０５、Ｓ１３０７で生成された枠拡張画像に重畳させて、両画像を合成する処理が行われる。ノイズ画像を重畳する位置は、Ｓ１３０２、Ｓ１３０４、Ｓ１３０６、Ｓ１３０８にて決定したノイズ付与領域内からランダムに決定すればよい。図１６は、図１４（ｂ）に示す枠拡張画像１４０１の上端に接するように図１５（ｉ）に示すノイズ画像１５００を重畳して合成した場合の例であり、これにより合成画像１６００が得られる。

【0118】

以上が、本実施形態に係るノイズ付与処理の内容である。なお、Ｓ７０３においては、実施形態２で説明した図１１（ｂ）のフローチャートで説明した方法で、ノイズ画像の生成を行ってもよい。また、実施形態１で説明したように、ノイズ画像は図１０に示すように枠拡張画像の端部に接しない状態で合成してもよい。

【0119】

【0120】

［実施形態４］
推論処理において、学習済モデルに入力する前の処理対象画像に対し、孤立点ノイズの除去処理を行う場合がある。これにより、処理対象画像内のノイズに対応する画素（ノイズ画素）のうち、文字に対応する画素（文字画素）と接触していない部分（孤立点ノイズを構成する画素）が除去される。つまり、文字画素と接触していないノイズ画素は除去され、文字画素と接触しているノイズ画素は除去されずに残ることになる。その結果、孤立点ノイズの除去処理をＯＣＲの前処理として行う場合、学習済モデルに入力され得る処理対象画像は、ノイズのない画像或いは文字画素とノイズ画素とが接触している画像のどちらかとなる。ここで、実施形態１～３で生成される学習画像としての合成画像には、文字画素とノイズ画素とが接触していないタイプの合成画像も含まれる。つまり、孤立点ノイズの除去処理をＯＣＲの前処理として行う場合の処理対処画像とはなり得ないタイプの合成画像も学習画像として生成していることになる。そこで、ノイズ付与処理において、ノイズ画素と文字画素とが接触しているタイプの合成画像のみを生成する態様を、実施形態４として説明する。なお、システムの基本構成など実施形態１と共通の内容については説明を省略し、以下では差異点である推論処理及びノイズ付与処理について説明することとする。

【0121】

＜推論処理＞
図２２は、本実施形態に係る推論処理の流れを示すフローチャートである。実施形態１に係る図５（ｂ）のフローチャートとの違いはＳ２２０１であり、それ以外の参照符号が同じステップ（Ｓ５１１、Ｓ５１２、Ｓ５１３～Ｓ５１５）については特に異なるところはないので説明を省くこととする。以下、図２２のフローに沿って説明する。

【0122】

Ｓ２２０１では、Ｓ５１２で生成された処理対象画像のうち注目する処理対象画像に対し孤立点ノイズを除去する処理が実行される。前述のとおり処理対象画像は、手書き文字部分とそれ以外の部分を白黒二値で表した文字行単位の手書き文字ブロックである。よって、注目する処理対象画像内の黒画素塊のうち、その面積（画素数）が所定の閾値以下である小さなサイズの黒画素塊を白画素塊に変換することで、孤立点ノイズを取り除くことができる。図２３は、孤立点ノイズ除去処理の具体例を示す図である。いま、処理対象画像２３００内には孤立点ノイズ２３０１が存在している。孤立点ノイズ除去処理によって孤立点ノイズ２３０１が除去された新たな処理対象画像２３０２が得られる。なお、上述した孤立点除去の方法は一例であり、これに限定されない。

【0123】

以上が、本実施形態に係る処理対象画像生成処理の内容である。

【0124】

＜ノイズ付与処理＞
図１８は、本実施形態に係るノイズ付与処理の詳細を示すフローチャートである。実施形態１に係る図７のフローチャートとの違いはＳ１８０１及びＳ１８０２が追加されている点である。これら以外の参照符号が同じステップ（Ｓ７０１～Ｓ７１２）については特に異なるところはないので説明を省くこととする。以下、図１８のフローに沿って説明する。

【0125】

Ｓ１８０１では、Ｓ７１１で生成された合成画像において、ノイズ画素と文字画素とが接触しているか否かが判定される。ここで、図１９を参照してノイズ画素と文字画素との接触判定方法について説明する。まず、合成画像１９００におけるノイズ画像を重畳した領域１９０１内の黒画素数Ｐ１を取得する。続いて、合成前の文字列画像１９０２内のノイズ画像を重畳する領域１９０３内の黒画素数Ｐ２を取得する。ここで領域１９０３は、領域１９０１と同じ座標かつ同じサイズである。次に、ノイズ画像１００１内の黒画素数Ｐ３を取得する。そして、Ｐ１＜Ｐ２＋Ｐ３の関係にある場合、合成画像内のノイズ画素と文字画素とが接触していると判定する。なお、この接触判定方法は一例であり、これに限るものではない。ノイズ画素と文字画素とが接触していると判定された場合はＳ１８０２に進み、接触していないと判定された場合はＳ７１２に進む。

【0126】

Ｓ１８０２では、Ｓ７１１で生成された合成画像が破棄、すなわち、ＲＡＭ２０４から削除される。合成画像を破棄した後はＳ７０３に戻って、ノイズ画像の生成から処理をやり直す。

【0127】

以上が、本実施形態に係るノイズ付与処理の内容である。なお、Ｓ７０３においては、実施形態２で説明した図１１（ｂ）のフローチャートで説明した方法で、ノイズ画像の生成を行ってもよい。また、Ｓ７１１でノイズ画像を文字列画像の端部に重畳させるのに代えて、実施形態３で説明したように枠を拡張した文字列画像を生成しその端部に接するようノイズ画像を配置してもよい。その際にはノイズ画素と文字画素とが接触するよう、ノイズ画像を拡大してから重畳させればよい。

【0128】

以上のとおり本実施形態によれば、ノイズ付与処理においてノイズ画素と文字画素とが接触した合成画像を生成する。こうして生成された合成画像を用いて学習を行うことにより、孤立点ノイズを除去するＯＣＲシステムを使用する際の誤認識を低減することができる。

【0129】

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【図1】