(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-03-25
(45)【発行日】2025-04-02
(54)【発明の名称】OCR対象領域位置取得システムおよびOCR対象領域位置取得プログラム
(51)【国際特許分類】
G06V 30/224 20220101AFI20250326BHJP
【FI】
G06V30/224
(21)【出願番号】P 2021045887
(22)【出願日】2021-03-19
【審査請求日】2024-02-26
(73)【特許権者】
【識別番号】000006150
【氏名又は名称】京セラドキュメントソリューションズ株式会社
(74)【代理人】
【識別番号】100140796
【氏名又は名称】原口 貴志
(72)【発明者】
【氏名】佐々木 秀行
【審査官】岡本 俊威
(56)【参考文献】
【文献】特開2012-133569(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00-30/424
(57)【特許請求の範囲】
【請求項1】
画像コードによってデータが付与された文書の画像としての文書画像における前記画像コードの位置を取得する画像コード位置取得部と、
前記画像コードによって示されるデータを取得するデータ取得部と、
前記文書画像においてOCR処理が実行されるべき領域としてのOCR対象領域の、前記文書画像における位置を取得するOCR対象領域位置取得部と
を備え、
前記画像コードによって前記文書に付与されたデータは、
前記文書における前記画像コードの位置を含む画像コード位置データと、
前記文書における前記OCR対象領域の位置を含むOCR対象領域位置データと
を含み、
前記OCR対象領域位置取得部は、
前記画像コード位置取得部によって取得された、前記文書画像における前記画像コードの位置と、
前記データ取得部によって取得された前記画像コード位置データに含まれる、前記文書における前記画像コードの位置と
に基づいて、前記文書から前記文書画像への変換行列を算出し、
前記OCR対象領域位置取得部は、
前記変換行列と、
前記データ取得部によって取得された前記OCR対象領域位置データに含まれる、前記文書における前記OCR対象領域の位置と
に基づいて、前記文書画像における前記OCR対象領域の位置を取得することを特徴とするOCR対象領域位置取得システム。
【請求項2】
前記OCR対象領域位置取得部は、
前記画像コード位置取得部によって取得された、前記文書画像における前記画像コードの3つの位置と、
前記データ取得部によって取得された前記画像コード位置データに含まれる、前記文書における前記画像コードの3つの位置と
に基づいて、前記変換行列を算出し、
前記文書における前記画像コードの3つの位置は、これら3つの位置のうちの2つの位置を通る直線上に、残りの1つの位置が存在しないことを特徴とする請求項1に記載のOCR対象領域位置取得システム。
【請求項3】
画像コードによってデータが付与された文書の画像としての文書画像における前記画像コードの位置を取得する画像コード位置取得部と、
前記画像コードによって示されるデータを取得するデータ取得部と、
前記文書画像においてOCR処理が実行されるべき領域としてのOCR対象領域の、前記文書画像における位置を取得するOCR対象領域位置取得部と
をコンピューターに実現させ、
前記画像コードによって前記文書に付与されたデータは、
前記文書における前記画像コードの位置を含む画像コード位置データと、
前記文書における前記OCR対象領域の位置を含むOCR対象領域位置データと
を含み、
前記OCR対象領域位置取得部は、
前記画像コード位置取得部によって取得された、前記文書画像における前記画像コードの位置と、
前記データ取得部によって取得された前記画像コード位置データに含まれる、前記文書における前記画像コードの位置と
に基づいて、前記文書から前記文書画像への変換行列を算出し、
前記OCR対象領域位置取得部は、
前記変換行列と、
前記データ取得部によって取得された前記OCR対象領域位置データに含まれる、前記文書における前記OCR対象領域の位置と
に基づいて、前記文書画像における前記OCR対象領域の位置を取得することを特徴とするOCR対象領域位置取得プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書の画像としての文書画像においてOCR(Optical Character Recognition)処理が実行されるべき領域としてのOCR対象領域の、文書画像における位置を取得するOCR対象領域位置取得システム、OCR対象領域位置取得プログラム、文書実物、文書実物生成システムおよび文書実物生成プログラムに関する。
【背景技術】
【0002】
従来、文書画像におけるOCR対象領域に対してOCR処理を実行する技術が知られている(特許文献1参照。)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
OCR処理の対象の文書画像は、紙などの記録媒体によって構成される文書の実物(以下「文書実物」という。)から読み取られて生成される際にずれが発生した場合、文書実物から読み取られて生成される際にずれが発生していない理想的な文書画像に対して、文書画像における文書の位置にずれが発生する。OCR処理の対象の文書画像が理想的な文書画像に対して文書の位置にずれが発生している場合には、OCR処理の対象の文書画像におけるOCR対象領域も、理想的な文書画像におけるOCR対象領域に対して位置にずれが発生している。従来の技術においては、OCR処理の対象の文書画像におけるOCR対象領域が、理想的な文書画像におけるOCR対象領域に対して位置にずれが発生している場合、OCR処理の精度が低下するという問題がある。
【0005】
そこで、本発明は、OCR処理の精度を向上させることができるOCR対象領域位置取得システム、OCR対象領域位置取得プログラム、文書実物、文書実物生成システムおよび文書実物生成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明のOCR対象領域位置取得システムは、画像コードによってデータが付与された文書の画像としての文書画像における前記画像コードの位置を取得する画像コード位置取得部と、前記画像コードによって示されるデータを取得するデータ取得部と、前記文書画像においてOCR処理が実行されるべき領域としてのOCR対象領域の、前記文書画像における位置を取得するOCR対象領域位置取得部とを備え、前記画像コードによって前記文書に付与されたデータは、前記文書における前記画像コードの位置を含む画像コード位置データと、前記文書における前記OCR対象領域の位置を含むOCR対象領域位置データとを含み、前記OCR対象領域位置取得部は、前記画像コード位置取得部によって取得された、前記文書画像における前記画像コードの位置と、前記データ取得部によって取得された前記画像コード位置データに含まれる、前記文書における前記画像コードの位置と、前記データ取得部によって取得された前記OCR対象領域位置データに含まれる、前記文書における前記OCR対象領域の位置とに基づいて、前記文書画像における前記OCR対象領域の位置を取得することを特徴とする。
【0007】
この構成により、本発明のOCR対象領域位置取得システムは、文書画像における画像コードの位置と、文書画像における画像コードによって示される画像コード位置データに含まれる、文書における画像コードの位置と、文書画像における画像コードによって示されるOCR対象領域位置データに含まれる、文書におけるOCR対象領域の位置とに基づいて、文書画像におけるOCR対象領域の位置を取得するので、文書画像においてOCR対象領域を高精度に特定することができ、その結果、OCR処理の精度を向上させることができる。
【0008】
本発明のOCR対象領域位置取得プログラムは、画像コードによってデータが付与された文書の画像としての文書画像における前記画像コードの位置を取得する画像コード位置取得部と、前記画像コードによって示されるデータを取得するデータ取得部と、前記文書画像においてOCR処理が実行されるべき領域としてのOCR対象領域の、前記文書画像における位置を取得するOCR対象領域位置取得部とをコンピューターに実現させ、前記画像コードによって前記文書に付与されたデータは、前記文書における前記画像コードの位置を含む画像コード位置データと、前記文書における前記OCR対象領域の位置を含むOCR対象領域位置データとを含み、前記OCR対象領域位置取得部は、前記画像コード位置取得部によって取得された、前記文書画像における前記画像コードの位置と、前記データ取得部によって取得された前記画像コード位置データに含まれる、前記文書における前記画像コードの位置と、前記データ取得部によって取得された前記OCR対象領域位置データに含まれる、前記文書における前記OCR対象領域の位置とに基づいて、前記文書画像における前記OCR対象領域の位置を取得することを特徴とする。
【0009】
この構成により、本発明のOCR対象領域位置取得プログラムを実行するコンピューターは、文書画像における画像コードの位置と、文書画像における画像コードによって示される画像コード位置データに含まれる、文書における画像コードの位置と、文書画像における画像コードによって示されるOCR対象領域位置データに含まれる、文書におけるOCR対象領域の位置とに基づいて、文書画像におけるOCR対象領域の位置を取得するので、文書画像においてOCR対象領域を高精度に特定することができ、その結果、OCR処理の精度を向上させることができる。
【0010】
本発明の文書実物は、画像コードによってデータが付与された文書の実物としての文書実物であって、前記画像コードによって前記文書に付与されたデータは、前記文書における前記画像コードの位置を含む画像コード位置データと、前記文書の画像においてOCR処理が実行されるべき領域としてのOCR対象領域の、前記文書における位置を含むOCR対象領域位置データとを含むことを特徴とする。
【0011】
この構成により、本発明の文書実物は、文書における画像コードの位置を含む画像コード位置データと、文書におけるOCR対象領域の位置を含むOCR対象領域位置データとが画像コードによって付与されているので、文書画像においてOCR対象領域をOCR対象領域位置取得システムに高精度に特定させることができ、その結果、OCR処理の精度を向上させることができる。
【0012】
本発明の文書実物生成システムは、画像コードによってデータが付与された文書の実物としての文書実物を生成する文書実物生成部を備え、前記画像コードによって前記文書に付与されたデータは、前記文書における前記画像コードの位置を含む画像コード位置データと、前記文書の画像においてOCR処理が実行されるべき領域としてのOCR対象領域の、前記文書における位置を含むOCR対象領域位置データとを含むことを特徴とする。
【0013】
この構成により、本発明の文書実物生成システムは、文書における画像コードの位置を含む画像コード位置データと、文書におけるOCR対象領域の位置を含むOCR対象領域位置データとが画像コードによって付与されている文書実物を生成するので、OCR処理の精度を向上させることができる文書実物を生成することができる。
【0014】
本発明の文書実物生成プログラムは、画像コードによってデータが付与された文書の実物としての文書実物を生成する文書実物生成部をコンピューターに実現させ、前記画像コードによって前記文書に付与されたデータは、前記文書における前記画像コードの位置を含む画像コード位置データと、前記文書の画像においてOCR処理が実行されるべき領域としてのOCR対象領域の、前記文書における位置を含むOCR対象領域位置データとを含むことを特徴とする。
【0015】
この構成により、本発明の文書実物生成プログラムを実行するコンピューターは、文書における画像コードの位置を含む画像コード位置データと、文書におけるOCR対象領域の位置を含むOCR対象領域位置データとが画像コードによって付与されている文書実物を生成するので、OCR処理の精度を向上させることができる文書実物を生成することができる。
【発明の効果】
【0016】
本発明のOCR対象領域位置取得システム、OCR対象領域位置取得プログラム、文書実物、文書実物生成システムおよび文書実物生成プログラムは、OCR処理の精度を向上させることができる。
【図面の簡単な説明】
【0017】
【
図1】本発明の一実施の形態に係るシステムのブロック図である。
【
図2】1台のコンピューターによって構成される場合の
図1に示すOCRシステムのブロック図である。
【
図5】MFPに文書を印刷させる場合の
図2に示すOCRシステムの動作のフローチャートである。
【
図6】
図5に示す動作において作成される文書の一例を示す図である。
【
図7】画像コードが付与された
図6に示す文書の一例を示す図である。
【
図8】
図7に示す画像コードによって示されるデータの一例を示す図である。
【
図9】文書画像から情報を抽出する場合の
図2に示すOCRシステムの動作のフローチャートである。
【
図10】(a)
図9に示す動作の対象の文書実物における手書き入力欄および画像コードの一例を示す図である。 (b)
図10(a)に示す文書実物から読み取られた文書画像における手書き入力欄および画像コードの一例を示す図である。
【発明を実施するための形態】
【0018】
以下、本発明の実施の形態について、図面を用いて説明する。
【0019】
まず、本発明の一実施の形態に係るシステムの構成について説明する。
【0020】
図1は、本実施の形態に係るシステム10のブロック図である。
【0021】
図1に示すように、システム10は、文書画像から情報を抽出するOCR(Optical Character Recognition)システム20と、紙などの記録媒体によって構成される文書実物から文書画像を読み取る画像読取装置としてのMFP(Multifunction Peripheral)30と、利用者によって利用される利用者端末40とを備えている。
【0022】
OCRシステム20は、1台のコンピューターによって構成されても良いし、複数台のコンピューターによって構成されても良い。
【0023】
OCRシステム20と、MFP30とは、LAN(Local Area Network)、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に通信可能である。同様に、OCRシステム20と、利用者端末40とは、LAN、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に通信可能である。
【0024】
図2は、1台のコンピューターによって構成される場合のOCRシステム20のブロック図である。
【0025】
図2に示すOCRシステム20は、種々の操作が入力される例えばキーボード、マウスなどの操作デバイスである操作部21と、種々の情報を表示する例えばLCD(Liquid Crystal Display)などの表示デバイスである表示部22と、LAN、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部23と、各種の情報を記憶する例えば半導体メモリー、HDD(Hard Disk Drive)などの不揮発性の記憶デバイスである記憶部24と、OCRシステム20全体を制御する制御部25とを備えている。
【0026】
記憶部24は、OCR処理を実行するためのOCRプログラム24aを記憶している。OCRプログラム24aは、例えば、OCRシステム20の製造段階でOCRシステム20にインストールされていても良いし、USB(Universal Serial Bus)メモリーなどの外部の記憶媒体からOCRシステム20に追加でインストールされても良いし、ネットワーク上からOCRシステム20に追加でインストールされても良い。
【0027】
制御部25は、例えば、CPU(Central Processing Unit)と、プログラムおよび各種のデータを記憶しているROM(Read Only Memory)と、制御部25のCPUの作業領域として用いられるメモリーとしてのRAM(Random Access Memory)とを備えている。制御部25のCPUは、記憶部24または制御部25のROMに記憶されているプログラムを実行する。
【0028】
制御部25は、OCRプログラム24aを実行することによって、一次元コード、二次元コードなどの画像コードによってデータが付与された文書実物を生成する文書実物生成部25aを実現する。したがって、OCRシステム20、OCRプログラム24aは、それぞれ、本発明の文書実物生成システム、文書実物生成プログラムを構成している。
【0029】
制御部25は、OCRプログラム24aを実行することによって、文書画像における画像コードの位置を取得する画像コード位置取得部25bと、画像コードによって示されるデータを取得するデータ取得部25cと、文書画像においてOCR処理が実行されるべきOCR対象領域としての後述の手書き入力欄の、文書画像における位置を取得するOCR対象領域位置取得部25dとを実現する。したがって、OCRシステム20、OCRプログラム24aは、それぞれ、本発明のOCR対象領域位置取得システム、OCR対象領域位置取得プログラムを構成している。
【0030】
制御部25は、OCRプログラム24aを実行することによって、文書画像における手書き入力欄からOCR処理によって情報を抽出するOCR処理部25eを実現する。
【0031】
【0032】
図3に示すMFP30は、種々の操作が入力される例えばボタンなどの操作デバイスである操作部31と、種々の情報を表示する例えばLCDなどの表示デバイスである表示部32と、用紙などの記録媒体に画像を印刷する印刷デバイスであるプリンター33と、原稿から画像を読み取る読取デバイスであるスキャナー34と、図示していない外部のファクシミリ装置と公衆電話回線などの通信回線経由でファックス通信を行うファックスデバイスであるファックス通信部35と、LAN、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部36と、各種の情報を記憶する例えば半導体メモリー、HDDなどの不揮発性の記憶デバイスである記憶部37と、MFP30全体を制御する制御部38とを備えている。
【0033】
制御部38は、例えば、CPUと、プログラムおよび各種のデータを記憶しているROMと、制御部38のCPUの作業領域として用いられるメモリーとしてのRAMとを備えている。制御部38のCPUは、記憶部37または制御部38のROMに記憶されているプログラムを実行する。
線または無線によって直接に通信可能である。
【0034】
【0035】
図4に示す利用者端末40は、種々の操作が入力される例えばキーボード、マウスなどの操作デバイスである操作部41と、種々の情報を表示する例えばLCDなどの表示デバイスである表示部42と、LAN、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部43と、各種の情報を記憶する例えば半導体メモリー、HDDなどの不揮発性の記憶デバイスである記憶部44と、利用者端末40全体を制御する制御部45とを備えている。利用者端末40は、例えばPC(Personal Computer)によって構成されている。
【0036】
制御部45は、例えば、CPUと、プログラムおよび各種のデータを記憶しているROMと、制御部45のCPUの作業領域として用いられるメモリーとしてのRAMとを備えている。制御部45のCPUは、記憶部44または制御部45のROMに記憶されているプログラムを実行する。
【0037】
次に、システム10の動作について説明する。
【0038】
まず、MFP30に文書を印刷させる場合のOCRシステム20の動作について説明する。
【0039】
図5は、MFP30に文書を印刷させる場合のOCRシステム20の動作のフローチャートである。
【0040】
OCRシステム20の利用者(以下「作業者」という。)は、利用者端末40の操作部41を介して、文書の作成をOCRシステム20に指示することができる。したがって、
図5に示すように、OCRシステム20の文書実物生成部25aは、作業者からの指示に応じた文書を作成する(S101)。
【0041】
図6は、S101において作成される文書50の一例を示す図である。
【0042】
図6に示す文書50は、各種のテキスト51と、各種の罫線52と、各種の画像53と、手書きの文字を入力するための欄(以下「手書き入力欄」という。)54とを含んでいる。
【0043】
作業者は、文書の作成をOCRシステム20に指示した後、画像コードによって文書に付与するデータを、利用者端末40の操作部41を介してOCRシステム20に指示することができる。したがって、
図5に示すように、OCRシステム20の文書実物生成部25aは、S101の処理の後、作業者からの指示に応じたデータに応じた画像コードを、S101において作成した文書に付与する(S102)。ここで、画像コードとしては、例えばQRコード(登録商標)が採用されることが可能である。以下においては、画像コードがQRコードであるものとして説明する。
【0044】
図7は、S102において画像コード55が付与された文書50の一例を示す図である。
【0045】
図7に示すように、文書50には、作業者からの指示に応じたデータのサイズに応じて複数の画像コード55が付与されても良い。
【0046】
図8は、画像コード55によって示されるデータの一例を示す図である。
図8に示すデータは、一部が省略して描かれている。
【0047】
図8に示すように、S102において文書に画像コードによって付与されるデータには、OCR処理によって抽出された情報の保存先を決定したり、各種の情報を集計したりするためのデータ(以下「オートインデックス用データ」という。)61と、手書き入力欄54に関するデータ(以下「手書き入力欄データ」という。)62と、文書50における画像コード55の位置を示すデータ(以下「画像コード位置データ」という。)63と、テキスト51の再現用のデータ(以下「テキスト用データ」という。)64と、罫線52の再現用のデータ(以下「罫線用データ」という。)65と、画像53の再現用のデータ(以下「画像用データ」という。)66とを含んでいる。
【0048】
オートインデックス用データ61は、例えば、識別情報と、値とをデータ毎に含んでも良い。オートインデックス用データ61の値は、例えば、テキスト51のいずれかでも良い。例えば、「Data:CarLavel=車両番号」は、識別情報が「CarLavel」であるデータの値が「車両番号」であることを示す。
【0049】
手書き入力欄データ62は、例えば、識別情報と、文書50における位置および大きさとを手書き入力欄毎に含んでも良い。手書き入力欄データ62は、OCR対象領域としての手書き入力欄の、文書50における位置を含んでおり、本発明のOCR対象領域位置データを構成している。なお、手書き入力欄によっては、使用される文字の種類が手書き入力欄データ62に含まれても良い。例えば、「InputArea:Name=(49,53,182,8),hint:[a-z0-9]」は、識別情報が「Name」である手書き入力欄の左上端の、文書50における位置が文書50の左上端から右に49進み、下に53進んだ位置であり、この文字入力欄の大きさが左右方向に182、上下方向に8の大きさであり、この文字入力欄に使用される文字の種類が英小文字および数字のみであることを示す。
【0050】
画像コード位置データ63は、例えば、画像コード55の左上端、右上端および左下端の、文書50における位置を含んでも良い。なお、画像コード位置データ63は、文書50に複数の画像コード55が付与されている場合に、一番左端の画像コード55の位置など、特定の画像コード55の位置のみを示すデータでも良い。
【0051】
テキスト用データ64は、文書50における位置などをテキスト毎に含んでも良い。
【0052】
罫線用データ65は、文書50における位置などを罫線毎に含んでも良い。例えば、「Line:(5,17)-(5,134)」は、文書50の左上端から右に5進み、下に17進んだ位置と、文書50の左上端から右に5進み、下に134進んだ位置とを結ぶ罫線を示す。
【0053】
画像用データ66は、例えば、識別情報と、文書50における位置とを画像毎に含んでも良い。例えば、「Image:xx=(218,8,8,8)」は、識別情報が「xx」である画像の左上端の、文書50における位置が文書50の左上端から右に218進み、下に8進んだ位置であり、この画像の大きさが左右方向に8、上下方向に8の大きさであることを示す。
【0054】
図5に示すように、OCRシステム20の文書実物生成部25aは、S102の処理の後、S102において画像コードが付与された文書の印刷を、OCRシステム20の通信部23を介してMFP30に指示する(S103)。MFP30の制御部38は、OCRシステム20からの文書の印刷の指示を通信部36を介して受信すると、受信した指示に応じた文書をプリンター33によって印刷する。
【0055】
文書実物生成部25aは、S103の処理の後、
図5に示す動作を終了する。
【0056】
なお、以上においては、作業者は、利用者端末40の操作部41を介してOCRシステム20に各種の指示を実行しているが、利用者端末40の操作部41に代えて、MFP30の操作部31を介してOCRシステム20に各種の指示を実行しても良い。
【0057】
作業者は、
図5に示す動作によって印刷された文書実物を例えば複数の人それぞれに配布し、配布先の人に、この文書実物の手書き入力欄に適切な文字を手書きすることを依頼する。配布先の人は、配布された文書実物の手書き入力欄に適切な文字を手書きした後、手書き入力欄に適切な文字を手書きした文書実物を作業者に返却する。
【0058】
次に、文書画像から情報を抽出する場合のOCRシステム20の動作について説明する。
【0059】
図9は、文書画像から情報を抽出する場合のOCRシステム20の動作のフローチャートである。
【0060】
作業者は、文書実物の配布先の人から返却された文書実物をMFP30のスキャナー34にセットするとともに、文書実物からの情報の抽出を、例えば、MFP30の操作部31を介して、MFP30に指示することができる。MFP30の制御部38は、文書実物からの情報の抽出が指示されると、スキャナー34にセットされた文書実物から文書画像をスキャナー34によって読み取り、この文書画像からの情報の抽出を、MFP30の通信部36を介してOCRシステム20に指示する。ここで、文書画像からの情報の抽出の指示(以下「情報抽出指示」という。)には、この情報抽出指示の対象の文書画像が含まれている。OCRシステム20の制御部25は、情報抽出指示を通信部23を介して受信すると、
図9に示す動作を実行する。
【0061】
図9に示すように、画像コード位置取得部25bは、情報抽出指示の対象の文書画像における画像コードの位置を取得する(S121)。
【0062】
データ取得部25cは、S121の処理の後、情報抽出指示の対象の文書画像に含まれる画像コードによって示される各種の情報を取得する(S122)。
【0063】
OCR対象領域位置取得部25dは、S122の処理の後、文書実物から情報抽出指示の対象の文書画像への変換行列Mを算出する(S123)。
【0064】
以下、S123における変換行列Mの算出の方法について説明する。
【0065】
図10(a)は、
図9に示す動作の対象の文書実物70における手書き入力欄および画像コードの一例を示す図である。
図10(b)は、
図10(a)に示す文書実物70から読み取られた文書画像における手書き入力欄および画像コードの一例を示す図である。
【0066】
図10(a)に示す文書実物70において、原点は、以降の計算上、任意の位置の点で構わないが、以降の説明においては左上端であるものとする。文書実物70における手書き入力欄71の左上端、右上端、左下端をそれぞれQ
0、Q
1、Q
2とし、文書実物70における画像コード72の左上端、右上端、左下端をそれぞれP
0、P
1、P
2とする。
【0067】
また、
図10(b)に示す文書画像80において、原点は、左上端であるものとする。文書画像80における手書き入力欄71の左上端、右上端、左下端をそれぞれQ
0´、Q
1´、Q
2´とし、文書画像80における画像コード72の左上端、右上端、左下端をそれぞれP
0´、P
1´、P
2´とする。
【0068】
P
0の左右方向における座標をP
0xとし、P
0の上下方向における座標をP
0yとすると、P
0の座標は、数1に示すように表すことができる。同様に、P
1、P
2、P
0´、P
1´、P
2´の座標も、数1に示すように表すことができる。なお、数1に示す座標は、アフィン変換で利用する同次座標系である。
【数1】
【0069】
図10(a)に示す文書実物70における手書き入力欄71および画像コード72から、
図10(b)に示す文書画像80における手書き入力欄71および画像コード72への変換が、回転、拡大および平行移動が合成された変換であるとすると、変換行列Mは、数2に示すように表すことができる。
【数2】
【0070】
ここで、P
0´、P
1´、P
2´は、P
0、P
1、P
2、Mを使用して、数3に示すように表すことができる。
【数3】
【0071】
数1~数3から、数4に示す式が成立する。
【数4】
【0072】
数4に示す式をx、y毎に纏めると、数5に示す式を得ることができる。
【数5】
【0073】
数5に示す式から、数6に示す式を得ることができる。
【数6】
【0074】
数6に示す式から、数7に示す式を得ることができる。数7に示す式において、行列の右上の-1は、逆行列を意味している。数7に示す式において、逆行列が存在しないケースは想定外としている。
【数7】
【0075】
数2に示す式と、数7に示す式とに基づいて、変換行列Mは、数8に示すように表すことができる。数8に示す式において、行列の右上のTは、転置行列を意味している。数8に示す式において、行列の右上の-1は、逆行列を意味している。数8に示す式において、逆行列が存在しないケースは想定外としている。ここで、P
0x、P
0y、P
1x、P
1y、P
2x、P
2yは、S122の処理によって取得された画像コード位置データによって示されている。また、P
0x´、P
0y´、P
1x´、P
1y´、P
2x´、P
2y´は、S121の処理によって取得されている。
【数8】
【0076】
図9に示すように、OCR対象領域位置取得部25dは、S123の処理の後、S123において算出した変換行列Mと、文書実物における手書き入力欄の位置とに基づいて、情報抽出指示の対象の文書画像における手書き入力欄の位置を算出する(S124)。
【0077】
すなわち、情報抽出指示の対象の文書画像における手書き入力欄の位置Q
0´、Q
1´、Q
2´は、S123において算出した変換行列Mと、文書実物における手書き入力欄の位置Q
0、Q
1、Q
2とを使用して、数9に示すように表すことができる。ここで、Q
0、Q
1、Q
2の座標は、S122の処理によって取得された手書き入力欄データによって示されている。
【数9】
【0078】
図9に示すように、OCR処理部25eは、S124の処理の後、S124において算出した位置に基づいて、情報抽出指示の対象の文書画像における手書き入力欄からOCR処理によって情報を抽出する(S125)。ここで、OCR処理部25eは、S122の処理によって取得された手書き入力欄データによって示されている「使用される文字の種類」をOCR処理において利用しても良い。
【0079】
OCR処理部25eは、S125の処理の後、S125において抽出した情報を例えば記憶部24に保存する(S126)。ここで、OCR処理部25eは、S122の処理によって取得された少なくとも1つのデータも、S125において抽出した情報とともに保存しても良い。例えば、OCR処理部25eは、S122の処理によって取得されたテキスト用データ、罫線用データおよび画像用データを、S125において抽出した情報とともに保存することによって、保存したデータに基づいて、文書実物を再現することが可能になる。また、OCR処理部25eは、S126における情報の保存先として、S122の処理によって取得されたオートインデックス用データによって示されている情報に応じた保存先を採用しても良い。
【0080】
制御部25は、S126の処理の後、
図9に示す動作を終了する。
【0081】
以上に説明したように、OCRシステム20は、文書画像における画像コードの位置と、文書画像における画像コードによって示される画像コード位置データに含まれる、文書における画像コードの位置と、文書画像における画像コードによって示される手書き入力欄データに含まれる、文書における手書き入力欄の位置とに基づいて、文書画像における手書き入力欄の位置を取得する(S123~S124)ので、文書画像においてOCR対象領域としての手書き入力欄を高精度に特定することができ、その結果、OCR処理の精度を向上させることができる。したがって、OCRシステム20は、例えば、文書に手書きされた情報をデータとしてコンピューターに入力するデータ入力業務を効率化することができる。
【0082】
文書実物70は、文書における画像コードの位置を含む画像コード位置データと、文書における手書き入力欄の位置を含む手書き入力欄データとが画像コードによって付与されているので、文書画像において手書き入力欄をOCRシステム20に高精度に特定させることができ、その結果、OCR処理の精度を向上させることができる。
【0083】
文書における画像コードの位置を含む画像コード位置データと、文書における手書き入力欄の位置を含む手書き入力欄データとは、画像コードによって文書実物毎に付与されている。したがって、OCRシステム20は、例えば複数のレイアウトの文書実物など、複数の種類の文書実物からそれぞれ生成された複数の文書画像から連続して情報を抽出する場合であっても、各文書画像において手書き入力欄を高精度に特定することができる。
【0084】
OCRシステム20は、文書における画像コードの位置を含む画像コード位置データと、文書における手書き入力欄の位置を含む手書き入力欄データとが画像コードによって付与されている文書実物を生成する(S101~S103)ので、OCR処理の精度を向上させることができる文書実物を生成することができる。
【0085】
以上においては、MFPによる文書画像の取得の方法として、文書実物からスキャナーによって文書画像を読み取る方法について説明している。しかしながら、MFPによる文書画像の取得の方法としては、文書実物からスキャナーによって文書画像を読み取る方法以外の方法を採用しても良い。例えば、MFPは、ファックス通信部によって文書画像を受信することによって、文書画像を取得しても良い。
【0086】
以上においては、画像読取装置として、MFPを例に説明している。しかしながら、画像読取装置は、例えばスキャナー専用機など、スキャナーを備えた、MFP以外の装置でも良いし、スキャナーを備えた装置以外の装置でも良い。例えば、画像読取装置は、文書実物を撮影して文書画像を生成するカメラを備えた、例えば携帯端末などの装置でも良い。ここで、カメラを備えた装置によって文書実物から生成される文書画像は、スキャナーを備えた装置によって文書実物から生成される文書画像と比較して、理想的な文書画像に対する、文書画像における文書の位置のずれが大きくなる可能性が高い。したがって、本発明は、スキャナーを備えた装置によって文書実物から文書画像が生成される場合と比較して、カメラを備えた装置によって文書実物から文書画像が生成される場合に、より必要とされる可能性が高い。
【0087】
以上においては、OCRシステムと、画像読取装置とが別々に存在している。しかしながら、例えば画像読取装置は、自身の中にOCRシステムが組み込まれても良い。
【0088】
以上においては、OCRシステムと、利用者端末とが別々に存在している。しかしながら、例えば利用者端末は、自身の中にOCRシステムが組み込まれても良い。
【0089】
以上においては、OCRシステムは、自らOCR処理を実行する。しかしながら、OCRシステムは、例えばクラウドサービスなどの外部のサービスにOCR処理を依頼しても良い。
【0090】
本発明は、例えば、ECM(Enterprise Content Management)、RPA(Robotic Process Automation)などを導入している企業に採用されても良い。
【符号の説明】
【0091】
20 OCRシステム(OCR対象領域位置取得システム、文書実物生成システム)
24a OCRプログラム(OCR対象領域位置取得プログラム、文書実物生成プログラム)
25a 文書実物生成部
25b 画像コード位置取得部
25c データ取得部
25d OCR対象領域位置取得部
50 文書
54 手書き入力欄(OCR対象領域)
55 画像コード
62 手書き入力欄データ(OCR対象領域位置データ)
63 画像コード位置データ
70 文書実物
71 手書き入力欄(OCR対象領域)
72 画像コード
80 文書画像