特開2022-191777 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特開2022-191777画像処理装置、画像処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022191777

(43)【公開日】2022-12-28

(54)【発明の名称】画像処理装置、画像処理方法及びプログラム

(51)【国際特許分類】

G06V 30/194 20220101AFI20221221BHJP

G06T 7/00 20170101ALI20221221BHJP

【ＦＩ】

G06K9/66

G06T7/00 350C

【審査請求】未請求

【請求項の数】18

【出願形態】ＯＬ

(21)【出願番号】P 2021100216

(22)【出願日】2021-06-16

(71)【出願人】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】110001243

【氏名又は名称】弁理士法人谷・阿部特許事務所

(72)【発明者】

【氏名】世渡秀和

【テーマコード（参考）】

5B064

5L096

【Ｆターム（参考）】

5B064AA01

5B064AB03

5B064BA01

5B064CA10

5B064DA20

5B064DA26

5B064DA27

5L096BA08

5L096BA17

5L096CA14

5L096DA02

5L096EA02

5L096EA03

5L096EA07

5L096EA16

5L096FA13

5L096HA11

5L096KA04

(57)【要約】（修正有）

【課題】実際の筆跡において見られるハネ方に沿った学習画像を生成し、文字認識精度を高めた、手書き文字対応ＯＣＲ用の学習済モデルを実現する画像処理装置、画像処理方法及びプログラムを提供する。
【解決手段】画像処理装置の学習データ生成部において、学習データの生成処理方法は、手書き文字を一文字単位で表した文字画像における当該手書き文字を構成する線分のうち、手書きによるハネが発生し得る線分を検出する。そして、検出した線分の端部にハネを模した線分を追加する処理を行い、ハネを模した線分が追加された文字画像と正解クラスとを紐付けて、機械学習のための学習データを生成する。
【選択図】図６

【特許請求の範囲】

【請求項1】

手書き文字を一文字単位で表した文字画像を取得する取得手段と、
前記文字画像における前記手書き文字を構成する線分のうち、手書きによるハネが発生し得る線分を検出する検出手段と、
前記検出手段で検出した線分の端部に、ハネを模した線分を追加する追加手段と、
前記ハネを模した線分が追加された文字画像と正解クラスとを紐付けて、機械学習のための学習データを生成する生成手段と、
を備えることを特徴とした画像処理装置。

【請求項2】

前記検出手段は、
前記文字画像の下部における所定割合の領域において、行毎の連結画素グループ数と各連結画素グループにおける連結画素数を取得し、
行毎の連結画素グループ数の最大値が１であり、各連結画素グループにおける最大連結画素数が閾値以下の場合に、前記領域に存在する線分を、前記ハネが発生し得る線分として検出し、
前記追加手段は、前記検出手段で検出した線分の下端部に、前記ハネを模した線分を追加し、
前記行毎の連結画素グループは、前記手書き文字の正立方向に対して水平な方向において連続して存在する黒画素群を表し、
前記連結画素数は、連結画素グループを構成する黒画素の数を表す、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項3】

前記検出手段は、
前記文字画像の上部における所定割合の領域において、行毎の連結画素グループ数と各連結画素グループにおける連結画素数を取得し、
行毎の連結画素グループ数の最大値が１であり、各連結画素グループにおける最大連結画素数が閾値以下の場合に、前記領域に存在する線分を、前記ハネが発生し得る線分として検出し、
前記追加手段は、前記検出手段で検出した線分の上端部に、前記ハネを模した線分を追加し、
前記行毎の連結画素グループは、前記手書き文字の正立方向に対して水平な方向において連続して存在する黒画素群を表し、
前記連結画素数は、連結画素グループを構成する黒画素の数を表す、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項4】

前記検出手段は、
前記文字画像の右部における所定割合の領域において、列毎の連結画素グループ数と各連結画素グループにおける連結画素数を取得し、
列毎の連結画素グループ数の最大値が１であり、各連結画素グループにおける最大連結画素数が閾値以下の場合に、前記領域に存在する線分を、前記ハネが発生し得る線分として検出し、
前記追加手段は、前記検出手段で検出した線分の右端部に、前記ハネを模した線分を追加し、
前記列毎の連結画素グループは、前記手書き文字の正立方向に対して垂直な方向において連続して存在する黒画素群を表し、
前記連結画素数は、連結画素グループを構成する黒画素の数を表す、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項5】

前記追加手段は、前記ハネを模した線分の角度をランダムに決定して、前記追加を行う、ことを特徴とする請求項２に記載の画像処理装置。

【請求項6】

前記角度は、前記文字画像の真右方向を０℃、真上方向を９０℃としたとき、１５°～６０°の範囲で決定される、ことを特徴とする請求項５に記載の画像処理装置。

【請求項7】

前記追加手段は、前記ハネを模した線分の角度をランダムに決定して、前記追加を行う、ことを特徴とする請求項３に記載の画像処理装置。

【請求項8】

前記角度は、前記文字画像の真右方向を０℃、真上方向を９０℃としたとき、１３５°～２２５°の範囲で決定される、ことを特徴とする請求項７に記載の画像処理装置。

【請求項9】

前記追加手段は、前記ハネを模した線分の着地点及び描画開始地点を特定し、当該特定された着地点及び描画開始地点に基づき、前記ハネを模した線分の角度を決定して、前記追加を行う、ことを特徴とする請求項４に記載の画像処理装置。

【請求項10】

前記追加手段は、前記特定された着地点と前記特定された描画開始地点とが成す角度を、前記ハネを模した線分の角度に決定する、ことを特徴とする請求項９に記載の画像処理装置。

【請求項11】

前記追加手段は、前記ハネを模した線分の長さをランダムに決定して、前記追加を行う、ことを特徴とする請求項５乃至８のいずれか一項に記載の画像処理装置。

【請求項12】

前記長さは、前記文字画像の高さを基準としたとき、当該長さの１％～１０％の範囲で決定される、ことを特徴とする請求項１１に記載の画像処理装置。

【請求項13】

前記追加手段は、前記ハネを模した線分の長さを、前記特定された描画開始地点と前記特定された着地点の２点間の距離を超えない範囲でランダムの長さを決定して、前記追加を行う、ことを特徴とする請求項９又は１０に記載の画像処理装置。

【請求項14】

前記取得手段が取得した一文字単位の前記文字画像に対し変形処理を行う変形手段をさらに有し、
前記検出手段は、前記変形手段にて変形された文字画像を対象として前記検出を行う、ことを特徴とする請求項１乃至１３のいずれか一項に記載の画像処理装置。

【請求項15】

前記変形処理は、回転、拡大又は縮小、膨張又は収縮、アスぺクト比変更のいずれかを含むことを特徴とする請求項１４に記載の画像処理装置。

【請求項16】

前記生成手段で生成された前記学習データを用いて前記機械学習を行う学習手段をさらに備えることを特徴とする請求項１乃至１５のいずれか一項に記載の画像処理装置。

【請求項17】

手書き文字を一文字単位で表した文字画像を取得する取得ステップと、
前記文字画像における前記手書き文字を構成する線分のうち、手書きによるハネが発生し得る線分を検出する検出ステップと、
前記検出ステップにて検出した線分の端部に、ハネを模した線分を追加する追加ステップと、
前記ハネを模した線分が追加された文字画像と正解クラスとを紐付けて、機械学習のための学習データを生成する生成ステップと、
を含むことを特徴とした画像処理方法。

【請求項18】

コンピュータを、請求項１乃至１６のいずれか一項に記載の画像処理装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習データの生成技術に関する。

【背景技術】

【0002】

近年、コンピュータの普及に伴う労働環境の変化により、業務文書をスキャンして電子化する機会が増加している。こうした電子化対象の文書には例えば領収書など、手書き文字が記入されたものも存在するところ、電子化された文書を集計等のデータ解析に活用するために、手書き文字領域に対して光学文字認識（ＯＣＲ)を行って文字データを抽出することが行われている。ここで、手書き文字に対応したＯＣＲ技術の１つに、ニューラルネットワークなどの機械学習を行って得た学習済モデルを用いる手法がある。この手法では、まず、手書きの文字が描画された文字画像と当該文字画像に含まれる文字をテキスト化した正解クラスとが対になった学習データ（教師データ或いは訓練データとも呼ばれる。）を用いて学習を行う。そして、学習済モデルに手書き文字を含んだ文字画像を入力することにより、スキャン文書中の手書き文字をテキスト情報として利用することが可能となる。

【0003】

一般に機械学習によって画像認識を実施するためには膨大な量の画像が学習データとして必要になるところ、手書き文字には様々な形状が存在し、あらゆるパターンの手書き文字の画像を全て網羅して収集することは困難である。そこで、用意した学習データ用の文字画像に対して回転や拡縮等の変形処理を行い、学習データを増強すること（Data Augmentation）が一般的に行われている。そして、変形処理の一例として、文字画像内の文字を構成する線分にハネを追加する技術が提案されている（特許文献１）。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００８－２１９８２５号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

上記特許文献１は、ハネの追加の方法については「線分を抽出し、線分の先端部分にハネなどの装飾をほどこす」といった記載があるのみで、どのような場合にどのようなハネを追加するのかといった詳細については開示がない。文字を構成する線分は文字画像内に多数存在するところ、不適切なハネの追加がなされた場合、現実の筆跡とはかけ離れた手書き文字を表す文字画像になってしまう。このような文字画像が多数生成されてしまうと、本来の目的を達成できず、却って学習精度が落ちてしまう。さらに、追加されたハネの位置や形状によっては、人間にとって別の文字に読めるような字形に変形してしまう場合がある。例えば図１３の例では、数字の「２」の下部に破線で囲われたハネを付与した結果、数字の「３」のように読めてしまう。このような文字画像を正解画像として用いることは誤った正解クラスを付与した学習データを用いるのと同等に学習に悪影響を与える。

【課題を解決するための手段】

【0006】

本開示の技術に係る画像処理装置は、手書き文字を一文字単位で表した文字画像を取得する取得手段と、前記文字画像における前記手書き文字を構成する線分のうち、手書きによるハネが発生し得る線分を検出する検出手段と、前記検出手段で検出した線分の端部に、ハネを模した線分を追加する追加手段と、前記ハネを模した線分が追加された文字画像と正解クラスとを紐付けて、機械学習のための学習データを生成する生成手段と、を備えることを特徴とする。

【発明の効果】

【0007】

本開示の技術によれば、実際の筆跡において見られるハネ方に沿った学習画像を生成することが可能となる。その結果、ハネのない手書き文字を含む画像に対する文字認識精度低下を抑えつつ、ハネのある手書き文字を含む画像に対する文字認識精度を高めた、手書き文字対応ＯＣＲ用の学習済モデルを得ることができる。

【図面の簡単な説明】

【0008】

【図1】画像処理システムの構成の一例を示した図。

【図2】（ａ）は画像処理装置のハードウェア構成の一例を示したブロック図、（ｂ）は端末装置のハードウェア構成の一例を示したブロック図。

【図3】文字画像ＤＢとしてのテーブルの一例を示す図。

【図4】学習画像ＤＢとしてのテーブルの一例を示す図。

【図5】（ａ）は学習処理の流れを示すフローチャート、（ｂ）は推論処理の流れを示すフローチャート。

【図6】学習データ生成処理の流れを示すフローチャート。

【図7】（ａ）～（ｃ）は、追加されるハネの一例を示す図。

【図8】下部ハネ追加処理の詳細を示すフローチャート。

【図9】連結画素グループ数及び連結画素数の一例を示す図。

【図10】上部ハネ追加処理の詳細を示すフローチャート。

【図11】右部ハネ追加処理の詳細を示すフローチャート。

【図12】（ａ）は連結画素グループと連結画素数の一例を示す図、（ｂ）及び（ｃ）は右部ハネ追加処理の対象とならない場合の一例を示す図。

【図13】不適切なハネが追加された場合の一例を示す図。

【発明を実施するための形態】

【0009】

以下、図面を参照して本発明の実施の形態を詳しく説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。

【0010】

［実施形態１］
＜画像処理システムの概要＞
図１は、本実施形態に係る、画像処理システムの構成の一例を示した図である。図１に示すように、画像処理システムは、画像処理装置１００、端末装置１１０で構成され、ネットワーク１２０を介して互いに接続される。

【0011】

画像処理装置１００は、学習データ生成部１０１、学習部１０２、推論部１０３の各機能部を有する。学習データ生成部１０１は、学習部１０２にてニューラルネットワークのモデルを学習するための学習データを生成する。学習データは、手書き文字が描画された文字画像と、当該文字画像に含まれる手書き文字をテキスト化した正解クラスとが対になったデータである。学習データ生成部１０１で生成される学習データの詳細については図４を用いて後述する。

【0012】

学習部１０２は、学習データ生成部１０１が生成した学習データを用いて、ニューラルネットワークのモデルを学習する。なお、学習部１０２によって生成されたニューラルネットワークのモデルを「学習済モデル」と呼称する。学習部１０２による学習処理については、図５（ａ）を用いて後述する。推論部１０３は、入力された文字画像に対し、学習部１０２が生成した学習済モデルを用いた推論によって、クラス情報を出力する。推論部１０３による推論処理については、図５（ｂ）用いて後述する。

【0013】

端末装置１１０は、例えばＰＣやスマートフォンなどの情報処理装置である。ユーザやシステム管理者は、端末装置１１０からネットワーク１２０を介して画像処理装置１００へアクセスして、学習の実行指示や学習済モデルの確認をすることができる。

【0014】

ネットワーク１２０は、画像処理装置１００と端末装置１１０との間を接続するＬＡＮや公衆回線（ＷＡＮ）等であって、ネットワーク１２０を介して装置間でのデータの送受信が行われる。

【0015】

なお、上記のシステム構成は一例であり、本実施形態における説明に必要な機能のみを図示している。本実施形態に開示の技術を実現できる構成であれば、各装置はどのような論理構成であってもよい。例えば、図１に示す構成では、推論部１０３が画像処理装置１００に組み込まれているが、画像処理装置１００とは別の装置が推論部１０３を有していてもよい。

【0016】

＜ハードウェア構成＞
図２は、図１に示す画像処理システムにおける画像処理装置１００及び端末装置１１０のハードウェア構成の一例を示したブロック図である。

【0017】

図２（ａ）は、画像処理装置１００のハードウェア構成を示す図である。図２（ａ）に示すように、画像処理装置１００は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０４、ストレージ２０５、入力デバイス２０６、表示デバイス２０７、外部Ｉ／Ｆ２０８、ＧＰＵ２０９で構成され、データバス２０３を介して互いに接続される。

【0018】

ＣＰＵ２０１は、画像処理装置１００における動作全体を制御するための制御装置である。ＣＰＵ２０１は、ＲＯＭ２０２に記憶されたブートプログラムを実行することで、画像処理装置１００のシステムを起動し、ストレージ２０５に記憶されたプログラムを実行する。また、ＣＰＵ２０１は、学習データ生成部１０１や学習部１０２が実行する計算処理の一部をＧＰＵ２０９と協調して実行する。ＲＯＭ２０２は、不揮発性メモリで実現されるものであって、画像処理装置１００を起動するブートプログラム等を格納する記憶装置である。データバス２０３は、画像処理装置１００を構成するデバイス間で相互にデータを送受信するための通信路である。ＲＡＭ２０４は、揮発性メモリで実現されるものであって、ＣＰＵ２０１がプログラムを実行する際のワークメモリとして使用される記憶装置である。ストレージ２０５は、ＨＤＤ（ハードディスクドライブ）やＳＳＤ（ソリッドステートドライブ）等で実現されるものであって、プログラムや学習データを記憶するための大容量記憶装置である。ここでプログラムには、後述する学習データ生成処理や学習処理、推論処理の実行をＣＰＵ２０１に指示するためのプログラムを含む。ＣＰＵ２０１がこれらプログラムを実行することにより、前述の学習データ生成部１０１、学習部１０２、推論部１０３が実現される。入力デバイス２０６は、マウスやキーボード等で実現されるものであって、エンジニアからの画像処理装置１００に対する操作入力を受け付ける。表示デバイス２０７は、液晶ディスプレイ等で実現されるものであって、画像処理装置１００の各種設定画面などをエンジニアに対して表示出力する。外部Ｉ／Ｆ２０８は、ネットワーク１２０を介して端末装置１１０との間で各種データやコマンド等をやり取りするためのインタフェースである。ＧＰＵ２０９は、画像処理に特化した演算処理装置である。ＧＰＵ２０９は、ＣＰＵ２０１による制御の下、与えられた学習データを元に、学習モデルを構成するパラメータを更新するための演算等を実行する。スキャナデバイス２１０は、ＣＣＤなどを用いて帳票などの原稿を走査し、得られた電気信号データを変換して画像データを生成する装置である。

【0019】

図２（ｂ）は、端末装置１１０のハードウェア構成を示す図である。図２（ｂ）に示すように、端末装置１１０は、ＣＰＵ２１１、ＲＯＭ２１２、ＲＡＭ２１４、ストレージ２１５、入力デバイス２１６、表示デバイス２１７、外部Ｉ／Ｆ２１８で構成され、データバス２１３を介して互いに接続される。ＣＰＵ２１１は、端末装置１１０における動作全体を制御するための制御装置である。ＣＰＵ２１１は、ＲＯＭ２１２に記憶されたブートプログラムを実行することで、端末装置１１０のシステムを起動し、ストレージ２１５に記憶されたプログラムを実行する。ＲＯＭ２１２は、不揮発性メモリで実現されるものであって、端末装置１１０を起動するブートプログラム等を格納する記憶装置である。データバス２１３は、端末装置１１０を構成するデバイス間で相互にデータを送受信するための通信路である。ＲＡＭ２１４は、揮発性メモリで実現されるものであって、ＣＰＵ２１１が画像処理プログラムを実行する際のワークメモリとして使用される記憶装置である。ストレージ２１５は、ＨＤＤ（ハードディスクドライブ）やＳＳＤ（ソリッドステートドライブ）等で実現されるものであって、前述のプログラム等を記憶するための記憶装置である。入力デバイス２１６は、マウスやキーボード等で実現されるものであって、ユーザからの端末装置１１０に対する操作入力を受け付ける。表示デバイス２１７は、液晶ディスプレイ等で実現されるものであって、ユーザに対して様々な情報を表示出力する。外部Ｉ／Ｆ２１８は、ネットワーク１２０を介して画像処理装置１００との間で各種データやコマンド等をやり取りするためのインタフェースである。

【0020】

＜学習データについて＞
次に、ニューラルネットワークの学習に用いる、文字画像と正解クラスとが対になった学習データについて説明する。ここで、用語について定義しておく。実際に手書きされた文書のスキャン画像から手書き文字の領域を一文字単位で切り出すことによって得られる画像を「文字画像」と呼ぶこととする。そして、この文字画像に対して学習データ生成部１０１が変形処理を行って得た画像を「学習画像」と呼ぶこととする。

【0021】

≪文字画像データベース≫
図３は、文字画像を保存するためのデータベース（以下、「文字画像ＤＢ」と表記）としてのテーブルの一例を示す図である。文字画像ＤＢとしてのテーブル３００には、「レコードＩＤ」３０１、「文字画像」３０２、「正解クラス」３０３の各項目に対応するデータ又は値が格納される。なお、文字画像ＤＢは、ストレージ２０５の記憶領域の一部が専用に割り当てられるものとする。

【0022】

「レコードＩＤ」３０１は、テーブル３００内の各レコードを一意に識別するための識別情報が入るフィールドである。このレコードＩＤは、テーブル３００へレコードが追加される度に、レコードに対して付与される。「文字画像」３０２は、手書き文字の文字１つ１つに対応する画像データが入るフィールドである。「正解クラス」３０３は、文字画像内に含まれる手書き文字をテキストデータとして保持するフィールドである。いま、図３に示すテーブル３００には、手書き数字の文字画像とその正解クラスとを紐付けた４つのレコード３０４～３０７が例示されている。

【0023】

前述のとおり、テーブル３００に格納される各文字画像は、例えば、手書き文字を含んだ文書などをスキャンして得られた画像から手書き文字の部分だけを文字毎に切り出すことによって得られるものであるが、文字画像の取得方法はこれに限定されない。また、図３に示すテーブル３００のように複数の文字画像を一括して管理するのではなく、例えば正解クラス毎にテーブルを設けて管理してもよい。

【0024】

≪学習画像データベース≫
次に、学習データ生成部１０１が、上述の文字画像ＤＢに格納された文字画像に対して変形処理を行って生成する、ニューラルネットワークの学習に用いる学習画像について説明する。図４は、学習データ生成部１０１が生成した学習画像を保存するためのデータベース（以下、「学習画像ＤＢ」と表記）としてのテーブルの一例を示す図である。学習画像ＤＢとしてのテーブル４００には、「レコードＩＤ」４０１、「学習画像」４０２、「正解クラス」４０３の各項目に対応するデータ又は値が格納される。なお、学習画像ＤＢは、ストレージ２０５の記憶領域の一部が専用に割り当てられるものとする。

【0025】

「レコードＩＤ」４０１は、テーブル４００内の各レコードを一意に識別するための識別情報が入るフィールドである。この「レコードＩＤ」４０１の値は、テーブル４００へレコードが追加される度に、レコードに対して付与される。「学習画像」４０２は、文字画像を変形等して生成された画像データを保持するフィールドである。「正解クラス」４０３は、学習画像内に含まれる文字をテキストデータとして保持するフィールドである。いま、図４に示すテーブル４００には、図３のテーブル３００のレコード３０４～３０７の各文字画像に変形処理を施して得られた学習画像とその正解クラスとを紐付けた４つのレコード４０４～４０７が示されている。なお、図４のテーブル４００に示す具体例では、１つの学習画像に含まれる文字数が１～３個であるがその上限は任意に設定さればよい。例えば上限を１５文字に設定し、その範囲の中で文字画像を並べ変えるなどして任意の文字数から成る学習画像を生成する構成をとってもよいし、上限を１文字に設定し、１文字の文字画像のみで学習画像を生成する構成としてもよい。

【0026】

＜学習処理＞
次に、学習部１０２による学習処理について、図５（ａ）を用いて説明する。図５（ａ）は、学習処理の流れを示すフローチャートである。図５（ａ）のフローチャートに示す各ステップは、ＣＰＵ２０１が、ＲＯＭ２０２等に格納された所定のプログラムをＲＡＭ２０４に展開し、これを実行することで実現される。学習処理は、ユーザが、画像処理装置１００の入力デバイス２０６を介した所定の操作に応答して、或いはネットワーク１２０を介して端末装置１１０などから受け付けた所定の入力信号をトリガーとして開始される。本実施形態において、ニューラルネットワークの学習にはミニバッチ法を用いるものとする。なお、以下の説明において記号「Ｓ」はステップを意味する。

【0027】

Ｓ５０１では、学習画像ＤＢから、学習に必要な学習データのデータセットが取得される。具体的には、学習画像ＤＢとしてのテーブル４００に含まれる各レコードを参照して、学習画像と正解クラスとの対からなる学習データが取得される。

【0028】

Ｓ５０２では、ニューラルネットワークが初期化される。具体的には、ニューラルネットワークを構築し、当該ニューラルネットワークに含まれるパラメータの値を、ランダムに決定する。構築するニューラルネットワークの構造は様々なものを用いることができるが、例えば、ＣＮＮ（Convolutional Neural Networks）のような形態を取り得る。

【0029】

Ｓ５０３では、Ｓ５０１で読み込んだ学習データのうち所定の数（ミニバッチサイズ、例えば１０個。ミニバッチの学習形態をとらないのであれば１個）の学習データが取得される。そして、Ｓ５０４及びＳ５０５にて、ニューラルネットワークの学習を行う。

【0030】

Ｓ５０４では、ニューラルネットワークの誤差が算出される。具体的には、Ｓ５０３で取得したミニバッチ内の各学習データに含まれる学習画像をニューラルネットワークに入力して学習画像内の文字を表すクラス情報を出力し、当該出力と正解クラスとの差を評価して誤差を求める処理が行われる。当該評価には指標としてＣＴＣ（Connectionist Temporal Classification）Ｌｏｓｓなどを用いることができる。

【0031】

Ｓ５０５では、ニューラルネットワークのパラメータが調整される。具体的には、Ｓ５０４にて算出した誤差に基づき、例えばバックプロパゲーション法によってニューラルネットワークのパラメータを変更する処理が行われる。

【0032】

Ｓ５０６では、学習を終了するか否かが判定される。具体的には、Ｓ５０３～Ｓ５０５の処理を所定回数（例えば、４００００回）行ったか否かがチェックされる。ここで所定回数は、例えば学習処理の開始時にユーザが所望の回数を入力するなどして決定すればよい。所定回数の処理が完了していた場合には終了と判定し、Ｓ５０７に遷移する。所定回数の処理が完了していない場合はＳ５０３に戻ってニューラルネットワークの学習が続行される。

【0033】

Ｓ５０７では、学習結果として、Ｓ５０５にて調整したニューラルネットワークのパラメータで構成される学習済モデルが、ストレージ２０５に保存される。

【0034】

以上が、学習処理の内容である。なお、図５（ａ）のフローチャートでは、学習データ取得処理（Ｓ５０１）において、事前に生成した学習データを読み込むように処理しているが、学習データの生成と学習処理を並行して行ってもよい。すなわち、学習データ取得処理（Ｓ５０１）に先立って後述の学習データ生成処理を実行し、生成された学習データから順次読み込んで取得するような構成でもよい。

【0035】

＜推論処理＞
次に、推論部１０３による推論処理について図５（ｂ）を用いて説明する。図５（ｂ）は、推論処理の流れを示すフローチャートである。図５（ｂ）のフローチャートに示す各ステップは、ＣＰＵ２０１が、ＲＯＭ２０２等に格納された所定のプログラムをＲＡＭ２０４に展開し、これを実行することで実現される。推論処理は、ユーザが、画像処理装置１００の入力デバイス２０６を介した所定の操作に応答して、或いはネットワーク１２０を介して端末装置１１０などから受け付けた所定の入力信号をトリガーとして開始される。なお、以下の説明において記号「Ｓ」はステップを意味する。

【0036】

Ｓ５１１では、学習済モデルの読み込みが行われる。具体的には、まず、前述の図５（ａ）のフローチャートのＳ５０２で構築されたニューラルネットワークと同一構造のニューラルネットワークが構築され、構築したニューラルネットワークに、前述のＳ５０７で保存された学習済モデルが反映される。

【0037】

Ｓ５１２では、推論処理の対象となる画像（以降、「処理対象画像」と呼称する。）を生成する処理が実行される。具体的には、領収書等の文書をスキャンして得られたスキャン画像から手書き文字に相当する画素を抽出し、抽出画素塊の外接矩形を求めて、当該外接矩形内部の画素で構成される画像を得る。この処理は、一般に「ブロックセレクション」と呼ばれ、これにより得られた画像は「文字ブロック」と呼ばれる。こうして、領収書等のスキャン画像から１又は複数の処理対象画像が生成される。

【0038】

Ｓ５１３では、Ｓ５１２で生成された処理対象画像のうち注目する処理対象画像が学習済モデルに入力される。これにより、注目する処理対象画像に含まれる文字に対応したテキスト情報が、推論結果として出力される。

【0039】

Ｓ５１４では、Ｓ５１３で取得した推論結果が送信される。本実施形態では、ネットワーク１２０を介して端末装置１１０に送信されることになる。なお、推論結果を端末装置１１０に送信するのではなく、ストレージ２０５に保存するような構成をとってもよい。

【0040】

Ｓ５１５では、推論処理を終了するか否かが判定される。Ｓ５１２で生成された全ての処理対象画像についての推論処理が完了していた場合は、本処理を終了する。一方、未処理の処理対象画像が残っている場合はＳ５１３に戻って次の注目する処理対象画像を学習済みモデルに入力して推論処理を続行する。

【0041】

以上が、推論処理の内容である。

【0042】

＜学習データ生成処理＞
続いて、学習データ生成部１０１による学習データ生成処理について、図６を用いて説明する。図６は、学習データ生成処理の大まかな流れを示すフローチャートである。図６のフローチャートに示す各ステップは、ＣＰＵ２０１が、ＲＯＭ２０２等に格納された所定のプログラムをＲＡＭ２０４に展開し、これを実行することで実現される。学習データ生成処理は、画像処理装置１００の入力デバイス２０６を介した所定のユーザ操作に応答して、或いはネットワーク１２０を介して端末装置１１０などから受け付けた所定の入力信号をトリガーとして開始される。なお、以下の説明において記号「Ｓ」はステップを意味する。

【0043】

Ｓ６０１では、何文字分の文字画像を用いて学習画像を生成するかがランダムに決定される。この際、最小文字列長は例えば“１”、最大文字列長は例えば“１５”であるが、いずれも任意の値を設定可能である。

【0044】

Ｓ６０２では、文字画像ＤＢ（例えば上述のテーブル３００）から、一文字分の文字画像とその正解クラスのペアがランダムに取得される。なお、ここで取得される文字画像は、変形処理を施す前の物理的に収集した文字画像である。生成される学習データに偏りが生じないように文字画像と正解クラスのペアを取得できればよく、正解クラスを順に変更するなど取得対象に何らかの限定を加えてもよい。

【0045】

Ｓ６０３では、Ｓ６０２で取得された文字画像に対して変形処理が行われる。具体的には、所定の範囲内でランダムに選択したスケールでの拡大・縮小或いは膨張・収縮処理が行われる。また同様に、所定の範囲内でランダムに選択された角度での回転処理や、所定の範囲内でランダムに選択された比率でのアスペクト比変更処理が行われる。

【0046】

Ｓ６０４では、変形処理が施された文字画像に対して、下部ハネ追加処理が行われる。図７（ａ）に、本ステップの処理により追加されるハネの例を示す。長い直線の下端部から右上に伸びる短い線分が、追加されたハネを表している。このようなハネは単一の文字を書く際には発生しにくいが、右方向に素早く連続で複数の文字を書く場合に発生する可能性が高まる。このような軌跡は、筆記者が右上方向にある次の文字の筆記開始地点に移動する際に、ペン先が紙から離れるよりも早く移動を開始した場合などに発生する。下部ハネ追加処理の詳細については後述する。

【0047】

Ｓ６０５では、下部ハネ追加処理を終えた文字画像に対して、上部ハネ追加処理が行われる。図７（ｂ）に、本ステップの処理により追加されるハネの例を示す。長い直線の上端部から左下に伸びる短い線分が、追加されたハネを表している。このような軌跡は単一の文字を書く際には発生しにくいが、右方向に素早く連続で文字を書く場合に発生する可能性が高まる。このような軌跡は筆記者が左方向から素早くペンを移動しながら本来の筆記開始地点に着地したときに、本来の筆記開始地点にたどり着く前にペン先が紙と接している場合などに発生する。厳密にはハネというよりは着地にともなう先行筆記であるが、本明細書においては文字の主体となる筆跡から部分的に飛び出した筆跡も含めて「ハネ」と表現する。なお図７（ｂ）では左下に向かってハネが伸びているが、左上に向かって伸びる場合もあり得る。ハネの方向は筆記を開始する直前の筆記者のペンのペン先の位置に依存し、その位置は前の文字の種類にも依存する。例えば前の文字が数字の「８」のように右上の方で筆記が終了するようなケースではその次の文字の筆記開始地点で手は上方に存在しやすく左上方向のハネが発生しやすい。一方で前の文字が数字の「１」のように下の方で筆記が終了するようなケースではその次の文字の筆記開始時点で手は下方に存在しやすく、左下方向のハネが発生しやすい。上部ハネ追加処理の詳細については後述する。

【0048】

Ｓ６０６では、上部ハネ追加処理が施された文字画像に対して、右部ハネ追加処理が行われる。図７（ｃ）に、本ステップの処理により追加されるハネの例を示す。交差する二本の長い直線のうち水平方向の直線の右端部から左上に伸びる線分が、追加されたハネを表している。このようなハネは「十」、「才」、「寸」といった横線と縦線とが交わる漢字を筆記する場合に発生しやすい。右部ハネ追加処理の詳細については後述する。そして、右部ハネ追加処理が施された結果画像（すなわち、ランダムに選択された文字画像に対し変形処理と３種類のハネ追加処理が施された画像）が、ハネ追加済画像としてＲＡＭ２０４に保存される。

【0049】

Ｓ６０７では、Ｓ６０１で決定した文字列長分の処理が完了したか否かが判定される。決定された文字列長分の処理が完了していた場合はＳ６０８に進み、完了していなければＳ６０２に戻って処理が続行される。

【0050】

Ｓ６０８では、ここまでの処理で生成された複数文字分のハネ追加済画像を合成した文字列画像が生成される。具体的な合成方法としては、例えば変形後の文字画像を生成された順番に右に並べて連結することにより、文字列画像が生成される。また同じ順番で、ハネ追加済画像の基になった文字画像の正解クラスを右に並べて、生成された文字列画像に対応する正解クラスとする。こうして得られた文字列画像と正解クラスは互いに紐付けられ、学習画像と正解クラスとが対になった学習データとして、ストレージ２０５内の学習画像ＤＢ（本実施形態では、前述のテーブル４００）に登録される。

【0051】

Ｓ６０９では、学習データの生成処理を終了するか否かが判定される。ここでの終了条件は、所定個数の文字列画像の生成が完了した場合などである。終了条件を満たしていない場合は、Ｓ６０１に戻って処理が続行される。終了条件を満たしている場合は、学習データ生成処理を終了する。

【0052】

以上が、学習データ生成処理の大まかな内容である。なお、図６のフローチャートでは、下部・上部・右部の各パターンについてハネの追加処理を行っているが、追加するハネのパターンはこれらに限定されない。例えば左部など他のパターンのハネをさらに追加してもよいし、下部と上部のハネだけを追加してもよい。

【0053】

≪下部ハネ追加処理の詳細≫
図８は、下部ハネ追加処理の詳細を示すフローチャートである。以下、図８のフローチャートに沿って説明する。

【0054】

Ｓ８０１では、Ｓ６０２にて文字画像と共に取得された正解クラスが、事前に定義した処理対象クラスの範囲に包含されているか否かが判定される。ここでは、処理対象クラスの範囲として、０～９までの数字が設定されているものとする。判定の結果、包含されていればＳ８０２に進み、包含されていなければ本処理を抜ける。

【0055】

Ｓ８０２では、Ｓ６０２にて取得された文字画像に対し、外接矩形で切り出す処理が行われる。切り出された画像（すなわち、文字画像の余白部分を削除した画像）は、切り出し画像としてＲＡＭ２０４に保存される。

【0056】

続くＳ８０３～Ｓ８０５は手書きによるハネが発生し得るような線分を検出するための処理である。具体的には、切り出し画像の下部における所定割合の領域において取得した、行毎の連結画素グループ数と各連結画素グループにおける連結画素数に基づいて、ハネを模した線分の追加対象となる線分が特定される。以下、詳しく説明する。

【0057】

Ｓ８０３では、切り出し画像における下部の所定割合の領域（例えば下端から２０％の領域）において、行毎の連結画素グループ数と各連結画素グループにおける連結画素数が取得される。ここで、行毎の連結画素グループとは、手書き文字の正立方向に対して水平な方向において連続して存在する黒画素群(輝度値が閾値以下の画素の集合)を意味する。連結画素数とは、連結画素グループを構成する黒画素の数である。また、行数は任意である。図９は、切り出し画像から取得される、連結画素グループと連結画素数の一例を示す図である。図９の例では、４つの切り出し画像９０１～９０４それぞれについて、点線矢印が示す３行分の連結画素グループと連結画素数が示されている。切り出し画像９０１のように下部が単純な線である場合、連結画素グループはどのような行においても１となる。一方で切り出し画像９０２のように折れ曲がりがあるようなケースでは連結画素グループ数が２以上になる場合がある。このような切り出し画像は、後述するＳ８０４の処理によってハネを追加する対象から除外されることになる。また、切り出し画像９０３のように下部に横方向に伸びる線分があるケースや切り出し画像９０４のように下部の線分がカーブを描いている場合は連結画素数が大きくなる。このような切り出し画像も、後述するＳ８０５の処理によってハネを追加する対象から除外されることになる。

【0058】

Ｓ８０４では、Ｓ８０３で取得した行毎の連結画素グループ数の最大値が１であるか否かによって処理が振り分けられる。連結画素グループ数の最大値が“１”であった場合はＳ８０５に進み、“１”以外であれば本処理を抜ける。前述の通り、切り出し画像９０２のような文字の下部の線分が折れ曲がっている場合は処理終了となる。

【0059】

Ｓ８０５では、Ｓ８０３で取得した行毎の連結画素グループ全てについて連結画素数を調べ、最大連結画素数が予め設定した閾値以下であるか否かによって処理が振り分けられる。最大連結画素数が予め設定した閾値以下である場合はＳ８０６に進み、閾値を超えている場合は本処理を抜ける。前述の通り、切り出し画像９０３のような下部に横方向に伸びる線分がある場合や切り出し画像９０４のように下部の線分がカーブを描いていたりする場合は処理終了となる。以降のＳ８０６～Ｓ８１０ではハネの描画条件が決定される。

【0060】

Ｓ８０６では、描画するハネ（線）の角度が決定される。具体的には、右上方向の所定の範囲内でランダムな角度を選択し、描画するハネの角度とする。所定の範囲の一例としては真右方向を０℃、真上方向を９０℃としたとき１５°～６０°の範囲である。

【0061】

Ｓ８０７では、描画するハネ（線）の長さが決定される。具体的には、切り出し画像の高さを基準にした所定の範囲内のランダムの長さを選択し、描画するハネの長さとする。所定の範囲の一例としては切り出し画像の高さの１％～１０％である。ハネの長さが長すぎると、別の文字に誤認識されてしまうリスクが高まるため注意が必要である。例えば「７」という数字の下部に長すぎる右上１５度方向のハネを追加すると、元の「７」の字形によっては「２」に読めてしまう字形に変ってしまう可能性がある。このような変形画像は特に「２」の認識精度に悪影響を与える。

【0062】

Ｓ８０８では、描画するハネ（線）の開始位置が決定される。具体的には、切り出し画像の最下行の連結画素グループの中心位置を描画するハネの描画開始地点とする。

【0063】

Ｓ８０９では、描画するハネ（線）の太さが決定される。具体的には、切り出し画像の下から数行上の行における連結画素グループの連結画素数を、描画するハネの線の太さとする。ここで、最下行ではなく少し上に遡る理由は、最下行の場合、下端部をミクロに見たときに先端が先細りして極端に連結画素数が少ないケースがあるためである。

【0064】

Ｓ８１０では、描画するハネ（線）の輝度が決定される。具体的には、切り出し画像の下から数行上の行における連結画素グループ内の画素の平均輝度を描画するハネの輝度とする。最下行ではなく少し上に遡る理由は、最下行の場合、下端部をミクロに見たときに先端が先細りしたりかすれたりして極端に色味が薄くなっているケースがあるためである。

【0065】

Ｓ８１１では、Ｓ８０６～Ｓ８１０で決定した描画条件に基づいて、処理対象である変形後の文字画像の下部にある線分の下端部に対してハネを追加する描画処理が行われる。この描画処理によってハネが追加された画像はＲＡＭ２０４に保存される。

【0066】

以上が、下部ハネ追加処理の内容である。なお、よりリアルなハネに似せるために、例えば輝度についてハネの先端ほど薄くなるように描画したり、太さについて先端ほど細くなるように描画したりしてもよい。

【0067】

≪上部ハネ追加処理の詳細≫
図１０は、上部ハネ追加処理の詳細を示すフローチャートである。以下、図１０のフローチャートに沿って説明する。なお、図８で示した下部ハネ追加処理と共通する内容については説明を省略ないしは簡略化して説明を行う。

【0068】

Ｓ１００１及びＳ１００２は、下部ハネ追加処理におけるＳ８０１及びＳ８０１と同じである。まず、Ｓ６０２にて文字画像と共に取得された正解クラスが、事前に定義した処理対象クラスの範囲に包含されているか否かが判定される（Ｓ１００１）。Ｓ８０１と同様、処理対象クラスの範囲として、０～９までの数字が設定されているものとする。そして、包含されていれば、Ｓ６０２にて取得された文字画像に対して外接矩形で切り出す処理が行われる（Ｓ１００２）。

【0069】

続くＳ１００３～Ｓ１００５は手書きによるハネが発生し得るような線分を検出するための処理である。具体的には、切り出し画像の上部における所定割合の領域において取得した、行毎の連結画素グループ数と各連結画素グループにおける連結画素数に基づいて、ハネを模した線分の追加対象となる線分が特定される。以下、詳しく説明する。

【0070】

Ｓ１００３では、切り出し画像における上部の所定割合の領域（例えば上端から２０％の領域）において、行毎の連結画素グループ数と各連結画素グループにおける連結画素数が取得される。「行毎の連結画素グループ」、「連結画素数」の意味はＳ８０３で説明したとおりである。また、Ｓ８０３と同様、行数は任意である。

【0071】

Ｓ１００４及びＳ１００５は、下部ハネ追加処理におけるＳ８０４及びＳ８０５と同じである。すなわち、行毎の連結画素グループ数の最大値が“１”であり（Ｓ１００４でＹｅｓ）、かつ、行毎の各連結画素グループにおける最大連結画素数が予め設定した閾値以下であれば（Ｓ１００５でＹｅｓ）、Ｓ１００６以降のハネの描画条件を決定する処理に進む。

【0072】

Ｓ１００６では、描画するハネ（線）の角度が決定される。具体的には、左方向の所定の範囲内でランダムな角度を選択し、描画するハネの角度とする。所定の範囲の一例としては真右方向を０℃、真上方向を９０℃としたとき１３５°～２２５°の範囲である。

【0073】

Ｓ１００７では、描画するハネ（線）の長さが決定される。具体的には、切り出し画像の高さを基準にした所定の範囲内のランダムの長さを選択し、描画するハネの長さとする。所定の範囲の一例としては切り出し画像高さの１％～１０％である。ハネの長さが長すぎると別の文字に誤認識されてしまうリスクが高まるため注意が必要である。例えば「１」という数字の上部に長すぎる左方向のハネを追加すると、元の「１」の字形によっては「７」に読めてしまう字形に変ってしまう可能性がある。このような変形画像は特に「７」の認識精度に悪影響を与える。

【0074】

Ｓ１００８では、描画するハネ（線）の開始位置が決定される。具体的には、切り出し画像の最上行の連結画素グループの中心位置を描画するハネの描画開始地点とする。

【0075】

Ｓ１００９では、描画するハネ（線）の太さが決定される。具体的には、切り出し画像の上から数行下の行における連結画素グループの連結画素数を描画するハネの線の太さとする。最上行ではなく少し下を調べる理由は、最上行の場合、上端部をミクロに見たときに先端が先細りして極端に連結画素数が少ないケースがあるためである。

【0076】

Ｓ１０１０では、描画するハネ（線）の輝度が決定される。具体的には、切り出し画像の上から数行下の行における連結画素グループ内の画素の平均輝度を描画するハネの輝度とする。最上行ではなく少し下を調べる理由は、最上行の場合、上端部をミクロに見たときに先端が先細りしたりかすれたりして極端に色味が薄くなるケースがあるためである。

【0077】

Ｓ１０１１では、Ｓ１００６～Ｓ１０１０で決定した描画条件に基づいて、処理対象である変形後の文字画像の上部にある線分の上端部に対してハネを追加する描画処理が行われる。この描画処理によってハネが追加された画像はＲＡＭ２０４に保存される。

【0078】

以上が、上部ハネ追加処理の内容である。なお、よりリアルなハネに似せるために、例えば輝度についてハネの先端ほど薄くなるように描画したり、太さについて先端ほど細くなるように描画したりしてもよい点は、下部ハネ追加処理と同様である。

【0079】

≪右部ハネ追加処理の詳細≫
図１１は、右部ハネ追加処理の詳細を示すフローチャートである。以下、図１１のフローチャートに沿って説明する。なお、図８で示した下部ハネ追加処理と共通する内容については説明を省略ないしは簡略化して説明を行う。

【0080】

Ｓ１１０１では、Ｓ６０２にて文字画像と共に取得された正解クラスが、事前に定義した処理対象クラスの範囲に包含されているか否かが判定される。ここでは、処理対象クラスの範囲として、「十」、「才」、「寸」などの漢字が設定されているものとする。そして、包含されていれば、Ｓ６０２にて取得された文字画像に対して外接矩形で切り出す処理が行われる（Ｓ１００２）。

【0081】

Ｓ１１０２は、下部ハネ追加処理におけるＳ８０２と同じである。すなわち、Ｓ６０２にて取得された文字画像に対して外接矩形で切り出す処理が行われる。

【0082】

続くＳ１１０３～Ｓ１１０５は手書きによるハネが発生し得るような線分を検出するための処理である。具体的には、切り出し画像の右部における所定割合の領域において取得した、列毎の連結画素グループ数と各連結画素グループにおける連結画素数に基づいて、ハネを模した線分の追加対象となる線分が特定される。以下、詳しく説明する。

【0083】

Ｓ１１０３では、切り出し画像における右部の所定割合の領域（例えば右端から１０％の領域）において、列毎の連結画素グループ数と各連結画素グループにおける連結画素数が取得される。ここで、列毎の連結画素グループとは、手書き文字の正立方向に対して垂直な方向において連続して存在する黒画素(輝度値が閾値以下の画素)群を意味する。連結画素数とは、連結画素グループを構成する黒画素の数である。また、列数は任意である。図１２（ａ）は、切り出し画像から取得される、連結画素グループと連結画素数の一例を示す図である。図１２（ａ）の例では、数字の「４」の切り出し画像について、点線矢印が示す３列分の連結画素グループと連結画素数が示されている。図示されるような横方向に伸びる単純な線分に関しては、連結画素グループはどのような列においても１となる。一方で、例えば字形が歪み縦線の上部分が大きく右にはみ出ている場合（図１２（ｂ））や、文字の右側部分が折れ曲がっている場合など（図１２（ｃ））は、連結画素グループ数が２以上になったり、連結画素数が大きくなったりする。このような切り出し画像は、後述するＳ１１０４又はＳ１１０５の処理によってハネを追加する対象から除外されることになる。

【0084】

Ｓ１１０４では、Ｓ１１０３で取得した列毎の連結画素グループ数の最大値が１であるか否かによって処理が振り分けられる。連結画素グループ数の最大値が“１”であった場合はＳ８０５に進み、“１”以外であれば本処理を抜ける。

【0085】

Ｓ１１０５では、Ｓ１１０３で取得した列毎の連結画素グループ全てについて連結画素数を調べ、最大連結画素数が予め設定した閾値以下であるか否かによって処理が振り分けられる。最大連結画素数が予め設定した閾値以下である場合はＳ１１０６に進み、閾値を超えている場合は本処理を抜ける。以降のＳ１１０６～Ｓ１１１１ではハネの描画条件が決定される。

【0086】

Ｓ１１０６では、描画するハネの着地点（ハネが発生した場合の次の字画の筆記開始地点）が検出される。具体的には、Ｓ８０２～Ｓ８０５及びＳ８０８と同等の処理を行うことで、画像上部に伸びている単一の縦線の上端点の位置を検出する。なお、ハネの着地点の検出方法はこの方法に限定されない。例えば漢字の「世」のように上部に伸びた縦線が複数ある場合にも対応できるように、複数の縦線が見つかった場合は一番右の縦線の上端点をハネの着地点としてもよい。また、処理対象クラスによる振り分け処理について、さらに正解クラス毎の分岐を増やし、正解クラスの文字が例えば漢字の「甘」のように一画目の長い横線の後に左の縦線を書くのが正しい文字については、一番左の縦線の上端点をハネの着地点としてもよい。

【0087】

Ｓ１１０７では、描画するハネ（線）の開始位置が決定される。具体的には、切り出し画像の最右列の連結画素グループの中心位置を描画するハネの描画開始地点とする。

【0088】

Ｓ１１０８では、描画するハネ（線）の角度が決定される。具体的には、Ｓ１１０７で決定した描画開始地点とＳ１１０６で決定した着地点とが成す角度を算出し、描画するハネの角度とする。

【0089】

Ｓ１１０９では、描画するハネ（線）の長さが決定される。具体的には、Ｓ１１０７で決定した描画開始地点とＳ１１０６で決定した着地点の２点間の距離を超えない範囲でランダムの長さを選択し、描画するハネの長さとする。

【0090】

Ｓ１１１０では、描画するハネ（線）の太さが決定される。具体的には、切り出し画像の右から数列左の列における連結画素グループの連結画素数を描画するハネの線の太さとする。最右列ではなく少し左を調べる理由は、最右列の場合、右端部をミクロに見たときに先端が先細りして極端に連結画素数が少ないケースがあるためである。

【0091】

Ｓ１１１１では、描画するハネ（線）の輝度が決定される。具体的には、切り出し画像の右から数列左の列における連結画素グループ内の画素の平均輝度を描画するハネの輝度とする。最右列ではなく少し左を調べる理由は、最右列の場合、右端部をミクロに見たときに先端が先細りしたりかすれたりして極端に色味が薄くなるケースがあるためである。

【0092】

Ｓ１１１２では、Ｓ１１０７～Ｓ１１１１で決定した描画条件に基づいて、処理対象である変形後の文字画像の右部にある線分の右端部に対してハネを追加する描画処理が行われる。この描画処理によってハネが追加された画像はＲＡＭ２０４に保存される。

【0093】

以上が、右部ハネ追加処理の内容である。なお、よりリアルなハネに似せるために、例えば輝度についてハネの先端ほど薄くなるように描画したり、太さについて先端ほど細くなるように描画したりしてもよい点は、下部ハネ追加処理及び上部ハネ追加処理と同様である。

【0094】

＜変形例＞
なお、上述の実施形態においては、右部にハネを追加する場合のパターンとして縦線と横線が交差する文字を想定して、ハネを追加する線分を検出していた。しかしながら、例えば漢字の「二」では上の横線から下の横線に向かうハネが発生し得るため、このようなケースに着目したハネを追加するための線分の検出処理を追加してもよい。

【0095】

また、最終的な文字認識精度や誤認識の傾向からそれぞれのハネの追加率を調整してもよい。具体的には、上部、下部、右部の各ハネ追加処理をそれぞれ所定の確率で実行するようにし、より間違えやすいパターンについては学習データ中にも多く登場するようにその実行割合を上げるよう調整してもよい。さらには、この所定確率を文字列中の位置に応じて変更してもよい。例えば文字列中の一番右に配置される文字は上部ハネや下部ハネは発生しにくい。このような考えから、一番右に配置される文字については上部ハネと下部ハネの追加率を０％にし、右部のハネ追加処理のみ所定確率で行うようにしてもよい。このような調整によってさらに文字認識精度を向上させることができる。

【0096】

以上のとおり本実施形態によれば、物理的に収集した文字画像に対して現実に発生しやすく悪影響の少ない様々なハネ方を再現した学習画像を生成できる。これにより入力となる文字画像にハネがあった場合の文字認識精度を高めることができる。

【0097】

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【図1】