特許7417116 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノンマーケティングジャパン株式会社の特許一覧 ▶ キヤノンＩＴソリューションズ株式会社の特許一覧

特許7417116情報処理システム、情報処理方法、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-10

(45)【発行日】2024-01-18

(54)【発明の名称】情報処理システム、情報処理方法、プログラム

(51)【国際特許分類】

G06V 30/14 20220101AFI20240111BHJP

G06V 30/244 20220101ALI20240111BHJP

G06V 30/414 20220101ALI20240111BHJP

【ＦＩ】

G06V30/14 340J

G06V30/244

G06V30/414

【請求項の数】 4

(21)【出願番号】P 2021090955

(22)【出願日】2021-05-31

(65)【公開番号】P2022104498

(43)【公開日】2022-07-08

【審査請求日】2022-07-07

(31)【優先権主張番号】P 2020218455

(32)【優先日】2020-12-28

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】390002761

【氏名又は名称】キヤノンマーケティングジャパン株式会社

(73)【特許権者】

【識別番号】592135203

【氏名又は名称】キヤノンＩＴソリューションズ株式会社

(74)【代理人】

【識別番号】100189751

【弁理士】

【氏名又は名称】木村友輔

(72)【発明者】

【氏名】八尾唯仁

【審査官】宮島潤

(56)【参考文献】

【文献】特開平９－１３４４０６（ＪＰ，Ａ）

【文献】特開２００１－３４７６３（ＪＰ，Ａ）

【文献】特開２００７－２６４７０（ＪＰ，Ａ）

【文献】特開２００６－９２３４５（ＪＰ，Ａ）

【文献】特開２００６－１７２２８４（ＪＰ，Ａ）

【文献】広瀬克昌 Katsumasa HIROSE，文書画像中の連結成分の模擬的拡大による各構成単位の切出し，電子情報通信学会１９９９年総合大会講演論文集情報・システム２ PROCEEDINGS OF THE 1999 IEICE GENERAL CONFERENCE，日本，社団法人電子情報通信学会，1999年03月08日

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／１４－３０／１６８

Ｇ０６Ｖ３０／２２４

Ｇ０６Ｖ３０／４０－３０／４１６

Ｇ０６Ｖ３０／００－３０／１２

Ｇ０６Ｖ３０／２２６－３０／３２

Ｇ０６Ｖ３０／４２－３０／４２４

(57)【特許請求の範囲】

【請求項1】

文字認識の対象となる二値化された画像における、同じ画素値の画素が連続して存在することで形成される画素片を複数取得する連続画素取得手段と、
前記連続画素取得手段により取得された複数の画素片のそれぞれについて、当該画素片が取得された領域を含む矩形領域を特定する第１の特定手段と、
前記第１の特定手段により特定された矩形領域を拡張して他の矩形領域と結合させることで、１文字ごとの領域を示す文字領域を特定する第２の特定手段と、
前記第２の特定手段により特定された文字領域のうち、文字領域のアスペクト比が所定の閾値よりも１に近い特定文字領域について、水平方向に一定の距離以内であり同じ高さにある位置関係にある他の特定文字領域と結合することで、複数の文字を含む複数文字領域を特定する第３の特定手段と、
前記第３の特定手段により特定された複数文字領域ごとに、当該複数文字領域に含まれる文字の認識処理を実行する文字認識手段と、
を備えることを特徴とする情報処理システム。

【請求項2】

前記複数文字領域が、表領域における複数のセルにまたがって存在する場合、当該複数文字領域を当該複数のセルの境界で分割する分割手段をさらに備え、
前記文字認識手段は、前記分割手段により複数文字領域が分割された場合、当該分割された領域ごとに、前記認識処理を実行することを特徴とする請求項１に記載の情報処理システム。

【請求項3】

情報処理システムの連続画素取得手段が、文字認識の対象となる二値化された画像における、同じ画素値の画素が連続して存在することで形成される画素片を複数取得する連続画素取得工程と、
前記情報処理システムの第１の特定手段が、前記連続画素取得工程により取得された複数の画素片のそれぞれについて、当該画素片が取得された領域を含む矩形領域を特定する第１の特定工程と、
前記情報処理システムの第２の特定手段が、前記第１の特定工程により特定された矩形領域を拡張して他の矩形領域と結合させることで、１文字ごとの領域を示す文字領域を特定する第２の特定工程と、
前記情報処理システムの第３の特定手段が、前記第２の特定工程により特定された文字領域のうち、文字領域のアスペクト比が所定の閾値よりも１に近い特定文字領域について、水平方向に一定の距離以内であり同じ高さにある位置関係にある他の特定文字領域と結合することで、複数の文字を含む複数文字領域を特定する第３の特定工程と、
前記情報処理システムの文字認識手段が、前記第３の特定工程により特定された複数文字領域ごとに、当該複数文字領域に含まれる文字の認識処理を実行する文字認識工程と、
を備えることを特徴とする情報処理方法。

【請求項4】

コンピュータを、請求項１または２に記載の各手段として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理システム、情報処理方法、プログラムに関する。

【背景技術】

【0002】

印刷された帳票から情報を読み取ってシステムに入力する業務を補助するものとしてＯＣＲ（光学文字認識）が存在する。ＯＣＲでは文字を認識する前に、帳票内に文字が印刷された領域を検出する文字検出という処理が存在する。

【0003】

ＯＣＲで読み取り対象とされる文書は刊行物、ビジネス文書など多岐にわたり、用途によってＯＣＲに対する要求にも差がある。この中でも、帳票をＯＣＲする際の文字検出においては、「短い文字列でも見落とさないこと」、「文字間隔が開いた見出しを１つの文字列として認識できること」、「互いに無関係な文字列同士が結合されないこと」といった点が要求される。

【先行技術文献】

【非特許文献】

【0004】

【文献】ＨｙｂｒｉｄＰａｇｅＬａｙｏｕｔＡｎａｌｙｓｉｓｖｉａＴａｂ－ＳｔｏｐＤｅｔｅｃｔｉｏｎｈｔｔｐｓ：／／ｓｔａｔｉｃ．ｇｏｏｇｌｅｕｓｅｒｃｏｎｔｅｎｔ．ｃｏｍ／ｍｅｄｉａ／ｒｅｓｅａｒｃｈ．ｇｏｏｇｌｅ．ｃｏｍ／ｊａ／／ｐｕｂｓ／ａｒｃｈｉｖｅ／３５０９４．ｐｄｆ

【発明の開示】

【発明が解決しようとする課題】

【0005】

非特許文献１において、雑誌や新聞、論文などの段組みの文章に対するＯＣＲ技術について記載されている。

【0006】

これに対して、請求書や領収書といった帳票は、段組みの文章として扱いＯＣＲ処理を実行してしまうと、互いに関係ない近接文字列同士を１つの段落として結合してしまうという課題が生じてしまう。

【0007】

非特許文献１以外でも、機械学習による物体検出手法を応用した文字検出手法が提案されているが、物体検出ベースの手法は帳票中の見出しや値のような単一行の短い文字列（ただし帳票内では重要な意味を持つ文字列）を見逃す傾向があり、前述の帳票ＯＣＲに対する要求を満たさない。

【0008】

そこで本発明は、より適切な文字認識結果が得られる技術を提供することを目的とする。

【課題を解決するための手段】

【0009】

本発明の情報処理システムは、文字認識の対象の画像から、連続して存在する画素を取得する連続画素取得手段と、前記連続画素取得手段により取得された画素に基づき、文字領域を推定する推定手段と、前記推定手段により推定された文字領域の単位で文字認識処理を実行する文字認識手段と、を備えることを特徴とする。

【発明の効果】

【0010】

本発明によれば、より適切な文字認識結果を得ることが可能となる。

【図面の簡単な説明】

【0011】

【図1】本発明の実施形態における、表抽出システムのシステム構成の一例を示す図である。

【図2】本発明の実施形態における、ＰＣのハードウェア構成の一例を示すブロック図である。

【図3】本発明の実施形態における、機能構成の一例を示す図である。

【図4】本発明の実施形態における、画像前処理部の処理結果の一例を示す図である。

【図5】本発明の実施形態における、連続画素検出部の検出結果の一例を示す図である。

【図6】本発明の実施形態における、画像片分類部の処理結果の一例を示す図である。

【図7】本発明の実施形態における、文字領域推定部の処理の流れを示すフローチャートである。

【図8】本発明の実施形態における、文字と分類された画像片の座標をプロットしたワーク画像の一例を示す図である。

【図9】本発明の実施形態における、文字のまとまりを推定する処理の一例を示す図である。

【図10】本発明の実施形態における、孤立文字の結合処理の一例を示す図である。

【図11】本発明の実施形態における、文字検出結果の一例を示す図である。

【図12】本発明の実施形態における、出力結果の一例を示す図である。

【図13】本発明の実施形態における、セル分割部の処理の一例を示す図である。

【図14】本発明の実施形態における、文字列画像の活字、手書き分類の処理の一例を示す図である。

【発明を実施するための形態】

【0012】

以下、図面を参照して、本発明の実施形態を詳細に説明する。

【0013】

図１は、本発明の実施形態における文字認識システムのシステム構成の一例を示す図である。

【0014】

文字認識の主要な処理を行うためのクライアントＰＣ１０１および、帳票をスキャンして画像ファイル化するスキャナ１０２が通信経路１００を介して接続される構成となっている。

【0015】

通信経路１００はスキャナ１０２の有する物理インターフェースに応じて、有線ＬＡＮ，無線ＬＡＮ，ＵＳＢなどの形態をとることができる。

【0016】

通信経路１００上にはファイルサーバー１０３を置いてもよい。スキャナ１０２でスキャンした画像をクライアントＰＣ１０１に取り込む方法として、スキャナ１０２からクライアントＰＣ１０１に直接画像を送信する方法、スキャナ１０２で取り込んだ画像ファイルをいったんファイルサーバー１０３に保管し、クライアントＰＣ１０１がファイルサーバー１０３から画像ファイルを取り出す方法などがあるが、いずれの方法であっても良い。

【0017】

図２は、本発明のクライアントＰＣ１０１、スキャナ１０２、ファイルサーバー１０３に適用可能な情報処理装置のハードウェア構成の一例を示すブロック図である。

【0018】

図２に示すように、情報処理装置は、システムバス２００を介してＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３、記憶装置２０４、入力コントローラ２０５、音声コントローラ２０６、ビデオコントローラ２０７、メモリコントローラ２０８、よび通信Ｉ／Ｆコントローラ２０９が接続される。

【0019】

ＣＰＵ２０１は、システムバス２００に接続される各デバイスやコントローラを統括的に制御する。

【0020】

ＲＯＭ２０２あるいは外部メモリ２１３は、ＣＰＵ２０１が実行する制御プログラムであるＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）やＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ（データテーブルを含む）を保持している。

【0021】

ＲＡＭ２０３は、ＣＰＵ２０１の主メモリ、ワークエリア等として機能する。ＣＰＵ２０１は、処理の実行に際して必要なプログラム等をＲＯＭ２０２あるいは外部メモリ２１３からＲＡＭ２０３にロードし、ロードしたプログラムを実行することで各種動作を実現する。

【0022】

入力コントローラ２０５は、キーボード２１０や不図示のマウス等のポインティングデバイス等の入力装置からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下（指等でタッチ）することにより、各種の指示を行うことができることとする。

【0023】

また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。

【0024】

ビデオコントローラ２０７は、ディスプレイ２１２などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。

【0025】

なおビデオコントローラ２０７は、表示制御を行うためのビデオメモリ（ＶＲＡＭ）を制御することが可能で、ビデオメモリ領域としてＲＡＭ２０３の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。

【0026】

メモリコントローラ２０８は、外部メモリ２１３へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置（ハードディスク）、フレキシブルディスク（ＦＤ）、或いはＰＣＭＣＩＡカードスロットにアダプタを介して接続されるコンパクトフラッシュ（登録商標）メモリ等を利用可能である。

【0027】

通信Ｉ／Ｆコントローラ２０９は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、ＴＣＰ／ＩＰを用いた通信やＩＳＤＮなどの電話回線、および携帯電話の４Ｇ回線、５Ｇ回線等を用いた通信が可能である。

【0028】

尚、ＣＰＵ２０１は、例えばＲＡＭ２０３内の表示情報用領域へアウトラインフォントの展開（ラスタライズ）処理を実行することにより、ディスプレイ２１２上での表示を可能としている。また、ＣＰＵ２０１は、ディスプレイ２１２上の不図示のマウスカーソル等でのユーザ指示を可能とする。

【0029】

図３は、クライアントＰＣ１０１の機能構成の一例を示す図である。

【0030】

入力受付部２５１は、スキャナ１０２やファイルサーバー１０３を介して画像の入力を受け付ける。

【0031】

画像前処理部２５２は、入力受付部２５１で受け付けた入力画像のノイズ除去や二値化処理を行う。

【0032】

連続画素検出部２５３は、画像前処理部２５２による処理で得られた二値化画像の中から連続した画素（隣り合った画素）を検出し、画像片として切り出す。なお、完全に隣り合っておらず、数画素離れている程度で、かすれに起因するものであると判断できる部分は同一の画像片として切り出してもよい。すなわち、連続画素検出部２５３は、ひと続き（一連）の繋がった線であると判定（評価）される部分を１つの画像片として切り出す。

【0033】

画像片分類部２５４は、連続画素検出部２５３により切り出された画像片が、文字由来のものかそれ以外のものかを判定し分類する機能を持つ。分類の際には、分類モデル２５５に格納されたパラメータを用いる。

【0034】

文字領域推定部２５６は、画像片分類部２５４によって文字由来と分類された画像片の領域情報から、帳票上の文字列の塊の領域を推定する。

【0035】

セル分割部２５７は、帳票上の表やセルの座標情報が与えられている場合に、セルの座標情報を用いて文字列領域を分割する。

【0036】

活字手書き判定部２６０は、文字領域内に書かれている文字が活字（第１種別の文字）であるか手書き文字（第２種別の文字）であるかを分類（特定）する機能を持つ。分類の際には、分類モデル２６１に格納されたパラメータを用いる。

【0037】

文字認識部２５８は、文字領域推定部２５６により推定された各文字領域に対して、ＯＣＲ処理（文字認識処理）を行い、当該領域に書かれた文字を認識する。

【0038】

結果出力部２５９は、検出された文字領域とそこに書かれた文字をセットにしてファイルとして出力する。

【0039】

図４は、画像前処理部２５２による処理の一例を示す図である。

【0040】

入力画像４０１は、スキャナ１０２などを通して取り込まれた画像である。

【0041】

画像前処理部２５２は入力画像４０１を二値化、白黒反転したのち、ノイズ除去の処理を行い、前処理画像４０２を生成する。

【0042】

図５は、連続画素検出部２５３の検出結果の一例を示す図である。

【0043】

連続画素検出部２５３は、前処理画像４０２から、白い画素が連続した領域を検出し、画像片として切り出す。画像片は文字の偏、旁、ロゴ、罫線、印鑑の断片などからなる。後述の分類器の精度向上のため、画像片は連続画素の周辺領域をある程度含めて切り出すようにする。

【0044】

画像片５０１－５０６は連続画素検出部２５３によって切り出された画像片の例である。

【0045】

図６は、画像片分類部２５４による処理結果の一例を示す図である。

【0046】

画像片５０１－５０６はその由来が文字であるか否かによって、文字と非文字に分類される。図６の例では、５０１、５０２、５０５が文字に分類され、５０３、５０４、５０６が非文字に分類されている。非文字として分類されたものは、ロゴや印鑑や罫線などである。

【0047】

文字、非文字の分類の手がかりとしては、分類モデル２５５が使われる。分類モデル２５５は機械学習によって文字、非文字の特徴を記憶した学習モデルである。機械学習による画像の分類モデルとしてはＶＧＧ、ＲｅｓＮｅｔ等が知られている。

【0048】

図７は、文字領域推定部２５６の処理の流れを示すフローチャートである。

【0049】

ステップＳ７０１では、文字領域の推定に使用するワーク画像８０１を生成する。ワーク画像８０１は前処理画像４０２と同サイズで画像全体が黒で塗りつぶされている画像である。

【0050】

ステップＳ７０２－Ｓ７０５では連続画素検出部２５３によって検出され、画像片分類部２５４によって分類された各画像片に対して処理を行う。

【0051】

ステップＳ７０３では、処理対象の画像片が文字として分類されているかどうかを参照し、文字と分類されていた場合は、処理をステップＳ７０４に移行する。

【0052】

文字として分類されていない場合は、次の画像片に対する処理に移行する。

【0053】

ステップＳ７０４では、ワーク画像８０１に、処理対象の画像片が検出された領域を描画する。

【0054】

図８は、ステップＳ７０４で描画された画像片が検出された領域（矩形で示した領域）の一例である。前処理画像４０２から検出された連続画素のうち文字と分類されたもののバウンディングボックス（矩形領域）をワーク画像８０１上に白い領域（矩形）として描画している。描画された矩形の集合は矩形群８０２となる。ここでは文字以外の要素（下線、罫線など）に対応する矩形は描画されず、これにより帳票内から文字が書かれた領域だけを抽出するという目的を実現する。

【0055】

ステップＳ７０６では、ステップＳ７０４で描画されたそれぞれの矩形の領域を拡張する。具体的には、ワーク画像８０１内の白い画素領域を拡張し矩形間の隙間を埋めて結合することにより、編や旁などに分割された文字内の要素を文字列のレベルまでまとめていく。

【0056】

矩形領域を拡張について、具体的には、例えば、あらかじめ決まった画素数分だけ各矩形を広げるという方法や、矩形のサイズに応じた割合（２０％など）で広げるといった方法がある。どちらの場合も、上下の行の文字列と結合されてしまうことを低減させるため、主に横方向に広げ、縦方向には少しだけ広げるのが望ましい。

【0057】

ステップＳ７０７では、拡張された矩形群に対して再度連続画素のまとまりを抽出する。

【0058】

ステップＳ７０８では、ステップＳ７０７で抽出したまとまりを内包するバウンディングボックスでワーク画像８０１を塗りつぶす。

【0059】

ステップＳ７０９では、ワーク画像内の孤立した矩形を連結する。

【0060】

ステップＳ７１０では、ステップＳ７０９で連結した矩形を内包するバウンディングボックスでワーク画像８０１を塗りつぶす。

【0061】

以上のように、文字の部品単位や文字単位で検出された領域を拡張し結合していくことで、文字列単位の領域を特定することが可能となる。

【0062】

図９は、ステップＳ７０６、Ｓ７０７、Ｓ７０８によって文字のまとまりを推定する処理の一例を示す図である。

【0063】

矩形で示した各領域を拡張することにより領域群９０１が得られ、領域群９０１内の各領域のバウンディングボックスを塗りつぶすことで文字列候補群９０２を得る。

【0064】

ステップＳ７０９、Ｓ７１０では、ワーク画像８０１中の孤立した矩形を他の矩形に連結して１つの文字列としてまとめる。

【0065】

帳票中の見出しの中には文字間が大きく開いたものがあり、そうした見出しの中にはステップＳ７０６では結合できずに見出し中の１文字が孤立してしまう場合が多い。ここではそうした孤立文字同士を連結して本来の文字列のまとまりに統合することが可能となる。

【0066】

図１０は、ステップＳ７０９、Ｓ７１０による孤立文字の結合処理の一例を示す図である。ここで、ワーク画像８０１には、孤立した文字列候補１０１０、１０１１、１０１２が存在しているものとする。これらは図４の入力画像４０１上では本来「納品書０１」という１つの文字列を形成しているものである。

【0067】

ステップＳ７０９では、各文字列候補領域に対して、矩形のアスペクト比が所定の閾値よりも１に近い（すなわち、１文字だけ孤立していると推定される）、水平方向の一定以内の距離に同じ高さの文字列候補領域が存在している、という２つの条件を満たす領域を直線で結び、連続画素となるよう加工する。矩形のアスペクト比が所定の閾値よりも１に近いとは、具体的には例えば以下のような条件のいずれかとなる。
・Ｔｈ１＞（矩形の横サイズ／縦サイズ）＞Ｔｈ２（Ｔｈ１＞１、Ｔｈ２＜１）という条件。
・（矩形の長辺サイズ／短辺サイズ）＜Ｔｈ３（＞１）という条件。
・（矩形の短辺サイズ／長辺サイズ）＞Ｔｈ４（＜１）という条件。

【0068】

図１０では、文字候補矩形１０１０から同１０１１、同１０１１から１０１０、同１０１１から同１０１２の組み合わせが上記の条件に該当する。これらの文字候補矩形を直線で連結すると連続画素領域１０１３が得られる。文字候補矩形１０１０と１０１１の一つ下にある２行目先頭の矩形は、アスペクト比が所定の閾値よりも１に近いという条件は満たすが、水平方向に一定以内の距離に同じ高さの文字列候補が存在するという条件を満たさないため、非連結対象となっている。

【0069】

ステップＳ７１０では、この状態のワーク画像８０１に対してステップＳ７０８と同様に連続画素領域のバウンディングボックスを抽出して塗りつぶす。これにより文字列領域群１００１が得られる。

【0070】

ステップＳ７１１では、ステップＳ７１０で抽出されたバウンディングボックスに対応する位置にある文字列画像を入力画像から取得する。

【0071】

図１１は、文字検出処理の出力結果の一例を示す図である。

【0072】

この例は入力画像４０１に対して文字列領域群１００１を当てはめたものである。入力画像４０１からバウンディングボックスに対応する領域をそれぞれ切り出すことで、文字列画像１１０１－１１０６を取得する。

【0073】

ステップＳ７１２では、ステップＳ７１１で取得された文字列画像に係る文字が活字（第１種別の文字）であるか手書き文字（第２種別の文字）であるかを分類する。分類にあたっては、活字手書き分類モデル２６１に格納されたパラメータを用いて行う。活字手書き分類モデル２６１としては、活字と手書き文字とを学習（機械学習）させることで生成された学習済みモデルが好適な例である。すなわち、ステップＳ７１２では、ステップＳ７１１で取得された文字列画像のそれぞれについて、手書きと活字のいずれであるかを判定する。あるいは、活字であるか否かまたは手書きであるか否かを判定する。そして判定結果に基づいて分類を行う。

【0074】

図１４は、活字手書き分類部２６０が文字列画像を活字と手書き文字とに分類した様子を示す図である。

【0075】

文字列画像１４０１－１４０６のうち、１４０２、１４０３、１４０４が活字に分類され、１４０１、１４０５、１４０６が手書きに分類されている様子を示している。

【0076】

そして、文字認識部２５８によって、分類された各文字列画像に対して文字認識処理を行う。文字認識処理においては、ステップＳ７１２の分類結果に応じて、活字と分類された文字列については活字に適した文字認識エンジンを用いて文字認識を行い、手書き文字と分類された文字列については、手書き文字に適した文字認識エンジンを用いて文字認識を行うといったように、文字認識エンジンを使い分けることで、より適切な文字認識結果を得ることが可能となる。

【0077】

また、活字として分類された文字列については文字認識処理を行わず、手書き文字として分類された文字列について文字認識処理を行うようにすることで、手書きされる前の帳票（活字文字列が記載された帳票）を予め登録しなくても手書き後の帳票から手書き文字列を抽出することが可能となる。この場合、ステップＳ７１２では、活字であるか否かの判定、分類は行わず、手書き文字であるか否かの判定に応じて、手書き文字であると判定された文字列画像に対して文字認識処理を行い、手書き文字であると判定されなかた文字列画像には文字認識処理を行わないようにすればよい。

【0078】

図１２は、結果出力部２５９による出力結果の一例を示す図である。本実施例では出力結果１２０１はＪＳＯＮ形式のテキストファイルとして文字領域のＩＤ、矩形座標、読み取ったテキスト内容を含んでいる。

【0079】

セル分割部２５７は、帳票内の表に関して、表領域とセル領域の情報が外部から与えられている場合に、セルの情報を用いて文字検出結果を分割する処理を行う。

【0080】

文字領域推定部２５６は画像片分類部２５４によって文字と分類された領域のみを対象にして処理を行うため、この時点で罫線の情報が失われており、文字領域推定部２５６の出力結果は複数のセル内の文字列が結合されている場合がある。この結果を補正するため、セル矩形の情報を用いて複数のセルにまたがった文字列領域を分割する。

【0081】

図１３は、セル分割部の処理の一例を示す図である。

【0082】

入力画像１３０１を入力として本手法で文字検出を行った場合、文字列画像１３１１－１３１３が得られるが、このうち文字列画像１３１２は右詰と左詰のテキストのセルが隣接しているため、文字列がセルをまたいで結合されている。

【0083】

表、セルの情報が外部から表１３２０、セル１３２１－１３２４としてそれぞれの矩形情報が与えられた場合、その情報を用いて文字列画像１３１２を文字列画像１３１４と１３１５に分割する。

【0084】

このように、表形式の領域については、複数のセルに記載された文字を一つの領域と特定することなく、それぞれのセル毎に文字列領域を特定し、ＯＣＲ処理を実行することが可能となる。

【0085】

以上説明した通り、本願発明では、ＯＣＲの対象の画像から、連続して存在する画素を取得し、取得した画素に基づき、文字領域を推定する。そして、推定された文字領域の単位でＯＣＲ処理を実行する。このように、画素片から文字を検出することで、予め文字が存在する領域を限定してから検出する方法に比べ、文字の見落としを防ぐことが可能となる。

【0086】

また、推定された文字領域を結合することで、一つの文字を２文字と判定してしまう（例えば偏と旁を別々の文字と認識してしまう）ことを低減させることが可能とある。

【0087】

また、推定された文字領域同士を結合することで、帳票のタイトル等でよく見られる文字と文字の間隔が広い文字列についても、１つの文字列として認識することが可能となる。

【0088】

また、本実施例のように、文字領域の結合や分割処理を実施したあとに、活字と手書き文字とを分類することで、一つの文字であるにもかかわらず、偏は手書き文字、旁は活字と分類してしまうことを低減させることが可能となる。

【0089】

また、表領域の情報（表領域の位置やセルの形状・位置など）の情報に基づき推定された文字領域を分割することで、複数のセルに記入された文字列を一つの文字列として認識してしまうことを低減させることが可能となる。

【0090】

本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

【0091】

また、本発明におけるプログラムは、図７に示すフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は図７の処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは図７の各装置の処理方法ごとのプログラムであってもよい。

【0092】

以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。

【0093】

この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。

【0094】

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ－ＲＯＭ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＥＥＰＲＯＭ、シリコンディスク等を用いることが出来る。

【0095】

また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

【0096】

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

【0097】

また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。

【0098】

さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。

【符号の説明】

【0099】

１００ＬＡＮ
１０１クライアントＰＣ
１０２スキャナ
１０３ファイルサーバー

【図1】