IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン電子株式会社の特許一覧

<>
  • 特開-画像処理システム及びプログラム 図1
  • 特開-画像処理システム及びプログラム 図2
  • 特開-画像処理システム及びプログラム 図3
  • 特開-画像処理システム及びプログラム 図4
  • 特開-画像処理システム及びプログラム 図5
  • 特開-画像処理システム及びプログラム 図6
  • 特開-画像処理システム及びプログラム 図7
  • 特開-画像処理システム及びプログラム 図8
  • 特開-画像処理システム及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023131230
(43)【公開日】2023-09-22
(54)【発明の名称】画像処理システム及びプログラム
(51)【国際特許分類】
   H04N 1/00 20060101AFI20230914BHJP
【FI】
H04N1/00 127A
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022035831
(22)【出願日】2022-03-09
(71)【出願人】
【識別番号】000104652
【氏名又は名称】キヤノン電子株式会社
(72)【発明者】
【氏名】田所 茂
【テーマコード(参考)】
5C062
【Fターム(参考)】
5C062AA05
5C062AA13
5C062AA35
5C062AB17
5C062AB20
5C062AB23
5C062AB38
5C062AB42
5C062AC02
5C062AC22
5C062AC34
5C062AE15
(57)【要約】
【課題】前段の処理の内容によっては、後段の処理に充分な精度が得られない場合があった。
【解決手段】画像処理システムにおいて、画像データを取得する画像取得部と、前記画像取得部で取得した画像データに画像処理を実施する画像処理部と、前記画像処理が実施された画像データに、前記画像処理に関するパラメーターであって、後段の処理で利用されるパラメーターを紐づけ、前記画像データと共に後段の処理を行う処理装置に引き渡す引き渡し部とを備えた。
【選択図】図4
【特許請求の範囲】
【請求項1】
画像データを取得する画像取得部と、
前記画像取得部で取得した画像データに画像処理を実施する画像処理部と、
前記画像処理が実施された画像データに、前記画像処理に関するパラメーターであって、後段の処理で利用されるパラメーターを紐づけ、前記画像データと共に後段の処理を行う処理装置に引き渡す引き渡し部と
を備えたことを特徴とする画像処理システム。
【請求項2】
前記パラメーターは、JPEG圧縮の有無、重送が検知された範囲、エッジ強調レベル、サイズ情報、斜行検知角度、影として認識した領域、ガンマ補正の補正値、及び解像度変換の際の入力解像度と出力解像度の少なくとも一つを含むことを特徴とする請求項1に記載の画像処理システム。
【請求項3】
更に、前記画像データの光学文字認識処理を行う前記処理装置を備え、前記処理装置は、光学文字認識処理を行うときに、前記パラメーターを用いて補正を行うことを特徴とする請求項1又は2に記載の画像処理システム。
【請求項4】
更に、前記パラメーターを用いて前記画像データの出力先を振り分ける前記処理装置を備えたことを特徴とする請求項1又は2に記載の画像処理システム。
【請求項5】
原稿の画像を読み取る画像読取装置と、前記画像読取装置と通信可能なコンピューターとから構成され、前記画像読取装置において前記画像データを取得し、前記画像読取装置及びコンピューターにおいて前記画像データに画像処理を実施し、前記コンピューターは前記画像データ及び前記パラメーターを前記処理装置に引き渡すことを特徴とする請求項1又は2に記載の画像処理システム。
【請求項6】
請求項5に記載の画像処理システムに用いられ、前記コンピューターを前記画像処理部及び前記引き渡し部として機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、取得した画像データに画像処理を実施する画像処理システム及びそのシステムに用いられるプログラムに関する。
【背景技術】
【0002】
従来から、帳票や原稿を読み取って画像データを取得する画像読取装置と、この画像読取装置で取得した画像データに画像処理を行う画像処理装置とを備えた画像処理システムが知られている。特に近年においては、取得した画像データに光学文字認識(Optical Character Recognition:以下、OCRと記す)処理を行い、帳票や原稿に印刷された文字や、人の手によって書かれた手書き文字を認識させる技術が用いられている。この技術を応用すると、認識された文字に基づいて、画像データのファイル名の命名や、画像データから導出した一連のメタデータのタグ付け等の処理を自動的に行い、業務を効率化することが可能となる。
【0003】
特許文献1には、画像処理装置でビットマップ画像に第1のOCR処理を行い、誤認識が含まれる可能性が高いと判定した場合には、第1のOCR処理の処理結果にビットマップ画像を付加して出力することで、ネットワークを介して接続されたより高性能なOCRエンジンで第2のOCR処理を行うことが可能な画像処理システムが記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009-181465号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
前述のような高性能なOCRとしては、機械学習・深層学習により大量の学習データを基に予測判断を行う人工知能(Artificial Intelligence:以下、AIと記す)を用いた、AI-OCRが知られている。このAI-OCRは、学習データを集め易くするために、クラウドネットワーク上(サーバー上)に置かれることが多い。また、AI-OCRの学習データは、原稿をカラーで読み込んだ自然画像データが用いられる。
【0006】
しかしながら、AI-OCRを用いる場合に、文字認識を行う画像データに、前段の画像処理装置において、人間が認知し易いように二値化等の画像処理が行われていると、学習データと異なるために、AI-OCRの認識精度を充分に発揮できないことが考えられた。
【課題を解決するための手段】
【0007】
このような課題を解決するため、本発明の画像処理システムは、画像データを取得する画像取得部と、前記画像取得部で取得した画像データに画像処理を実施する画像処理部と、前記画像処理が実施された画像データに、前記画像処理に関するパラメーターであって、後段の処理で利用されるパラメーターを紐づけ、前記画像データと共に後段の処理を行う処理装置に引き渡す引き渡し部とを備えたことを特徴とする。
【発明の効果】
【0008】
本発明によれば、画像処理が実施された画像データと共に、画像処理に関するパラメーターを後段の処理を行う処理装置に引き渡すので、後段の処理において、このパラメーターを用いて処理の精度を向上させることができる。
【図面の簡単な説明】
【0009】
図1】本発明の一実施形態の画像処理システムを示す斜視図。
図2】本実施形態に用いられる画像読取装置の構成を示す概略断面図。
図3】本実施形態に用いられる画像読取装置の機能ブロック図。
図4】本実施形態の画像処理システムの機能ブロック図。
図5】本実施形態における画像処理テーブルの一例を示す図。
図6】本実施形態における帳票ID認識処理テーブルの一例を示す図。
図7】本実施形態の制御ドライバーにおける画像処理の流れを説明するフローチャート。
図8】本実施形態のスキャンサービスプログラムにおける帳票ID認識処理の流れを説明するフローチャート。
図9】本実施形態のAI-OCRサーバーにおけるAI-OCR処理の流れを説明するフローチャート。
【発明を実施するための形態】
【0010】
以下、本発明の一実施形態に関して、図面を用いて詳細に説明する。なお、全ての図面を通して、同一の部材には同一の符号を付し、重複した説明は省略する。また、本発明は、以下に説明する実施形態に限定されるものではない。
【0011】
<画像処理システムの構成>
図1は、本発明の一実施形態の画像処理システムを示す斜視図である。図1において、画像読取装置1には、通信ケーブル3を介して、画像処理装置2が通信可能に接続されている。本実施形態においては、画像処理装置2としてパーソナルコンピューター(以下、PCと記す)が用いられている。一方、画像読取装置1は、原稿を載置するための原稿載置部4、原稿が搬送される搬送路14及び原稿を排出する原稿排紙部13を備えている。
【0012】
<画像読取装置の構成>
図2は、図1の画像読取装置1の構成を示す概略断面図である。画像読取装置1は、原稿Sを搬送路14に一枚ずつ給送する為、搬送ローラ5及び分離ローラ6を有している。また、搬送路14内には、搬送された原稿の画像を読み取る為のタイミングを算出する為に、原稿の有無を検出するレジストセンサー9が設けられている。更に、搬送路14には、原稿の表面の画像を読み取る為の表用画像読取部10と、原稿の裏面の画像を読み取る為の裏用画像読取部11とが設けられている。
【0013】
<画像読取装置の機能>
図3は、図1に示す画像読取装置1の機能ブロック図である。図3に示すように、画像読取装置1は、情報を伝達するシステムバス15に対し、ADF(Auto Document Feeder)スキャナー部となる画像読取部16が接続されている。また、システムバス15には、CPU(Central Processing Unit)からなる制御部17、不揮発性の記録媒体18、RAM(Random Access Memory)19及び外部通信I/F(インターフェース)20がそれぞれ接続されている。
【0014】
記録媒体18には、実際の読取動作を指示する処理プログラム等が格納されている。制御部17は、この処理プログラムに従って、画像読取部16等を制御することによって、読取動作を行う。RAM19は、画像読取部16で読み取られた画像データや、プログラムなどを一時的に蓄積する。また、外部通信I/F20は、解像度等の各種読取条件などを画像処理装置2から受信し、読み取った画像データ等を画像処理装置2に送信する等の機能を有する。本実施形態では、外部通信I/F20として、USB(Universal Serial Bus)を用いている。
【0015】
<画像読取装置の動作>
画像読取装置1は、画像処理装置2上で起動している、後述する制御ドライバー27(図4参照)から指示を受けると、画像読取動作を開始する。まず、原稿載置部4に載置された原稿を、分離ローラ6で一枚ずつ分離しながら、搬送ローラ5により搬送路14の搬送方向下流へ給送を行う。レジストセンサー9によって原稿の先端が通過したのを検出すると、不図示のタイマーで時間の測定を行い、L1/V後に表用画像読取部10で原稿Sの表面の読み取りを行う。ここで、L1はレジストセンサー9と表用画像読取部10との距離、Vは原稿Sの搬送速度をそれぞれ示す。同様に、レジストセンサー9による検出からL2/V後に、裏用画像読取部11で原稿Sの裏面の読み取りを行う。ここで、L2はレジストセンサー9と裏用画像読取部11との距離である。
【0016】
なお、レジストセンサー9の位置に、不図示の超音波重送検知センサーが設けられている。この超音波重送検知センサーは、超音波発生器と超音波受信器とを組み合わせて構成され、搬送される原稿Sが1枚か、2枚以上かを判別する。判別結果は、重送検知結果として記録される。ここでは、超音波発生器からある位相、強度の超音波を発生させ、紙を挟んだ対向面に配置された超音波受信器で受信し、超音波の位相のずれ、強度の減少に基づいて上記の判別を行う。
【0017】
一方、原稿の後端がレジストセンサー9を通過したことを検出すると、L2/V経過後に画像一枚分の読取が終了したと判断し、読取を終了する。表用画像読取部10及び裏用画像読取部11は、図3における画像読取部16に相当する。そのため、読み取られた画像データは随時、システムバス15を通じてRAM19に送られ、そこに蓄積される。先に説明した制御ドライバー27(図4参照)は、画像読取装置1において1枚分の原稿の読み取りが完了しているかを監視している。制御ドライバー27は、1枚分の原稿の読み取りを完了していることを検知したら、画像転送の開始を画像読取装置1に指示する。
【0018】
制御ドライバー27の指示に従って、原稿の画像読み取りを終えた画像読取装置1は、RAM19に蓄積された画像データを、システムバス15、外部通信I/F20及び通信ケーブル3を介して、後述する画像処理に関するパラメーターと共に画像処理装置2へ転送する。そして、原稿Sは、原稿排紙部13へ排出される。なお、表用画像読取部10と裏用画像読取部11との搬送方向に対する上下流の位置については、本実施形態に限らず、表用画像読取部10を上流側にしても良い。
【0019】
<画像処理システムの機能>
図4は、本発明の画像処理システムの一実施形態である、AI-OCRネットワークスキャニングシステムの機能ブロック図である。本システムは、大きく分けて3つの装置、画像読取装置1、画像処理装置2及びハードウェアであるAI(人工知能)-OCR(光学文字認識)サーバー21から構成されている。画像読取装置1と画像処理装置2は、先に説明したように、通信ケーブル3によって接続されている(図1参照)。一方、画像処理装置2とAI-OCRサーバー21は、無線又は有線接続によるネットワークを経由して接続されている。そのため、画像処理装置2とAI-OCRサーバー21は、IPアドレスを用いて通信を行う。
【0020】
画像処理装置2は、外部通信I/F28、ユーザーI/F(インターフェース)22、制御ドライバー27及びスキャンサービスプログラム26を有する。外部通信I/F28は、AI-OCRサーバー21等とネットワーク通信を行う。ユーザーI/F22は、不図示のタッチパネルやキーボード等を介して、使用者(ユーザー)の指示を受け付ける。制御ドライバー27及びスキャンサービスプログラム26はソフトウェアである。制御ドライバー27は、画像読取装置1を制御する。
【0021】
画像処理装置2は、ユーザーI/F22上で、ソフトウェア部品であるWebブラウザー25の画面を表示する。Webブラウザー25は、ユーザーI/F22上でのユーザー入力の結果(スキャン設定)をスキャンサービスプログラム26に通知する。スキャンサービスプログラム26は、ユーザー入力に基づき、スキャン設定を決定する。スキャンサービスプログラム26は、このスキャン設定を制御ドライバー27に通知する。制御ドライバー27は、通知されたスキャン設定のうち、本体スキャン設定に基づいて、画像読取装置1に読み取り動作(スキャン)を行わせる。一方、画像読取装置1において読み取られた(取得された)画像データは、スキャンサービスプログラム26によって、AI-OCRサーバー21に引き渡される。この際、後述する画像処理に関するパラメーターが画像データと共に、AI-OCRサーバー21に引き渡される。
【0022】
<画像処理テーブル>
本実施形態においては、前述の読み取り動作の際に、図5に示す画像処理テーブルを作成する。画像処理テーブルは、第1列が「行番号」、第2列が「画像処理の内容」、第3列が「画像処理の結果」、第4列がこのスキャン指示での「画像処理の実施の有無」を示すものとなっている。また、第5列が「処理実施の順番」、第6列が「画像読取装置における実施の可否」、第7列が、「処理実施の順番のテンプレート」となっている。この画像処理テーブルは、第3列が空欄、第4列が全て「未実施」、第5列が空欄の状態をテンプレートとして、画像処理装置2内の不図示のメモリに予め格納されている。
【0023】
本実施形態においては、図5の画像処理テーブルの処理内容のうち、自動サイズ検知、斜行補正、JPEG(joint Photographic Experts Group)圧縮、重送検知、影消し、ガンマ補正、解像度変換及びエッジ強調処理がユーザーにより設定された場合を例として、以下に説明する。スキャンサービスプログラム26は、ユーザーによって設定された画像処理に関し、画像処理テーブルの第4列を「未実施」から「実施」に変更する。続いて、画像処理テーブルのうち、第4列が「実施」となっている処理行を抽出する。そして、抽出された処理行の第5列に、第7列のテンプレートの順番の若い順に、数字を一つずつ増やしながら記録していく。これにより、今回のスキャン指示における画像処理の実施の順番が決定される。なお、それぞれの画像処理の内容については、後ほど説明する。
【0024】
スキャンサービスプログラム26は、ユーザーI/F22からのユーザーの指示に基づいて、制御ドライバー27に画像読取の開始の指示を行う。この指示に従い、制御ドライバー27は画像読取装置1にコマンドを送信し、読み取り動作(スキャン)を実行させる。この際、コマンドには、図6の画像処理テーブルにおいて、画像読取装置で実施可能とされた重送検知及びJPEG圧縮を実施する指示が含まれている。なお、コマンドには、画像を読み取る際の光学解像度、カラーモード(白黒、グレー、カラー)も含まれている。
【0025】
<画像読取装置における画像処理>
制御ドライバー27からコマンドを受けた画像読取装置1は、原稿の読み取りを行い、画像データを取得する。その際、コマンドに含まれた重送検知及びJPEG圧縮を実施する。そして、取得した画像データを、重送検知及びJPEG圧縮の結果(本体処理結果)と共に、制御ドライバー27に送信する。JPEG圧縮の場合は、処理結果としてはJPEG圧縮の有無である。ここで、本体処理結果は、画像処理に関するパラメーターの一部である。この処理結果の例は、図6に示した通りである。これらの処理結果は、後述するように、後段の処理において精度を向上させる上で、重要な情報となる。
【0026】
<制御ドライバーにおける画像処理>
画像読取装置1から画像データ及び本体処理結果を受信した制御ドライバー27は、図6の画像処理テーブルの第4列に実施とされた処理のうち、残りの画像処理を実施する。つまり、画像読取装置1で実施された重送検知及びJPEG圧縮を除き、図6の第5列の順番で3番目以降の処理を順に実施する。そして、制御ドライバー27で実施した画像処理の結果(ドライバー処理結果)を、本体処理結果とマージして図6のような画像処理結果(画像処理に関するパラメーター)を生成する。制御ドライバー27は、この画像処理に関するパラメーターを、画像データと共に、スキャンサービスプログラム26に送信する。制御ドライバー27における処理は、後ほど詳述する。
【0027】
<スキャンサービスプログラムにおける画像処理>
制御ドライバー27から、画像データ及び本体処理結果を受信したスキャンサービスプログラム26は、画像データに対して、帳票ID(identification)認識処理を実施する。帳票ID認識処理とは、読み取られた原稿が、予め登録された複数種類の帳票のいずれかに該当するかを判別するための処理である。帳票ID認識処理は、画像処理装置2の不図示のメモリに記憶されている帳票ID認識処理テーブルを読み出し、不図示のRAM上に展開した後、後述する流れで実施される。
【0028】
<帳票ID認識処理テーブル>
図6は、前述の帳票ID認識処理テーブルの一例を示す図である。このテーブルは、第1列が「処理行番号」、第2列が「帳票ID認識処理内容」、第3列が「認識結果の出力」、第4列が「認識処理の成否」、第5列が「認識処理の確からしさ」を示すものとなっている。本実施形態においては、この帳票ID認識処理も、画像データの画像処理の一つである。そのため、帳票ID認識処理の結果も、画像処理に関するパラメーターとなる。
【0029】
<AI-OCRサーバーへの引き渡し>
スキャンサービスプログラム26は、帳票ID認識処理を終了すると、この認識処理の結果と、図5に示す画像処理の結果をマージする。そして、マージした情報(画像処理に関するパラメーター)を、画像データと共に、AI-OCRサーバー21に引き渡す(送信する)。AI-OCRサーバー21は、受信した画像処理に関するパラメーターを利用して、受信した画像データのAI-OCR処理を行う。AI-OCR処理に関しては、後ほど詳述する。また、AI-OCRサーバー21は、画像処理装置2に画像データとOCR結果を送信する。画像処理装置2は、ユーザーI/F22において、OCR結果を表示する。
【0030】
<本実施形態における効果>
本実施形態においては、このように後段の処理を行う処理装置(AI-OCRサーバー)に、画像データと共に、画像処理に関するパラメーターを引き渡す。そのため、処理装置において、このパラメーターを用いて画像データに後段の処理(AI-OCR処理)を実施することができ、後段の処理の精度を向上させることができる。
【0031】
<特許請求の範囲との対応>
本実施形態の画像読取装置1、特に図3の画像読取部16が、特許請求の範囲に記載の「画像取得部」に対応する。同じく、図4に示す画像読取装置1、制御ドライバー27、スキャンサービスプログラム26が、「画像処理部」に対応する。また、スキャンサービスプログラム26が「引き渡し部」に対応する。更に、AI-OCRサーバー21が、「後段の処理を行う処理装置」に対応する。また、画像読取装置1における本体処理結果、制御ドライバー27におけるドライバー処理結果、スキャンサービスプログラム26における帳票ID認識処理の結果が、「画像処理に関するパラメーター」に対応する。
【0032】
<制御ドライバーにおける画像処理の流れ>
図7は、先に説明した制御ドライバー27における画像処理の流れを説明するフローチャートである。まず、ステップS71において、制御ドライバー27は、画像読取装置1から送られてきた画像データを受信する(図4参照)。続いて、ステップS72において、制御ドライバー27は、前段の画像処理結果として、画像読取装置1で実施された画像処理の結果を受信する。本実施形態においては、JPEG圧縮の有無と重送検知の結果を受信する。ここで、制御ドライバー27は、図5に示す画像処理テーブルの第4行及び第5行の第4列を「実施」から「実施済」に変更する。
【0033】
次に、ステップS73において、制御ドライバー27は、現在の処理実施の順番を最初に行うものへ設定する。つまり、図6の画像処理テーブルにおいて、第4列が「実施」となっているもののうち、第5列の順番が最も早い処理を設定する。本実施形態においては、順番が3番目の「自動サイズ検知」となる。続いて、ステップS74において、現在の実施順番に相当する画像処理があるか否かを判断する。本実施形態においては、順番が3番目の「自動サイズ検知」が存在するため、ステップS75に進む。ステップS75においては、現在の実施順番の画像処理を行う。本実施形態では、自動サイズ検知を実施する。
【0034】
続いて、ステップS76において、現在の実施順番の処理結果を記録する。本実施形態においては、自動サイズ検知の結果を記録する。そして、図5の画像処理テーブルにおいて、1行目の自動サイズ検知の第4列を「実施」から「実施済」に変更する。その後、ステップS77において、現在の処理実施の順番をインクリメントして、ステップS74に戻る。本実施形態においては、順番を3番目から4番目に変更する。ステップS74に戻ると、実施順番が4番目の「斜行補正」があるので、ステップS75に進み、「斜行補正」を実施する。この後、実施順番の処理がなくなるまで、ステップS74~S77をループする。本実施形態においては、図5の画像処理テーブルにおいて、実施順番が8番目の「エッジ強調処理」まで実施する。
【0035】
実施順番が3~8番目までの画像処理を実施してステップS74に戻ると、図5の画像処理テーブルにおいて、9番目に実施する処理は存在しないので、ステップS78に進む。ステップS78においては、実施順番が1~8番目までの画像処理が実施された処理済の画像データをスキャンサービスプログラム26に送信する。その後、ステップS79において、記録しておいた実施順番が3~8番目の画像処理の結果を、画像読取装置1から送信されたJPEG圧縮と重送検知の結果とマージする。そして、このマージされた画像処理の結果(画像処理に関するパラメーター)を、スキャンサービスプログラム26に送信して、処理を終了する。
【0036】
<帳票ID認識処理の流れ>
図8は、スキャンサービスプログラム26における、帳票ID認識処理の流れを説明するフローチャートである。まず、ステップS81において、スキャンサービスプログラム26は、制御ドライバー27から送信された画像データ及び画像処理の結果を受信する(図4参照)。続いて、ステップS82において、現在の処理行番号を「1」に設定して、ステップS83に進む。ステップS83においては、現在の処理行番号の処理があるか否かを判断する。本実施形態においては、図6に示す帳票ID認識処理テーブルにおいて、処理行番号が「1」の「領域指定OCR」が存在するので、ステップS84に進む。
【0037】
ステップS84においては、現在の処理行番号の処理を実施する。本実施形態では、処理行番号「1」の「領域指定OCR」を実施する。そして、ステップS85において、処理結果である、「認識結果の出力」、「認識処理の成否」及び「認識処理の確からしさ」を記録する。その後、ステップS86において、現在の処理行番号をインクリメント、つまり処理行番号を「1」から「2」に変更して、ステップS83に戻る。ステップS83に戻ると、処理行番号「2」の「バーコード認識」が存在するので、ステップS84に進み、「バーコード認識」を実施する。この後、現在の処理行番号の処理がなくなるまで、ステップS83~S86をループする。本実施形態においては、図6の帳票ID認識処理テーブルにおいて、処理行番号「4」までを実施する。なお、各処理行番号における処理の内容に関しては、後述する。
【0038】
処理行番号が「1」~「4」までの処理を実施してステップS83に戻ると、処理行番号が「5」の処理は存在しないので、ステップS87に進む。ステップS87においては、帳票ID認識処理が実施された処理済の画像データをAI-OCRサーバー21に送信する。その後、ステップS88において、記録しておいた処理行番号「1」~「4」の処理結果を、制御ドライバー27から送信された画像処理の結果とマージする。そして、このマージされた画像処理の結果(画像処理に関するパラメーター)を、AI-OCRサーバー21に送信して、処理を終了する。
【0039】
<AI-OCR処理の流れ>
図9は、AI-OCRサーバー21における、AI-OCR処理の流れを説明するフローチャートである。まず、ステップS91において、AI-OCRサーバー21は、スキャンサービスプログラム26からネットワークを通して送られてきた画像データを受信する(図4参照)。続いて、ステップS92において、AI-OCRサーバー21は、画像読取装置1及び画像処理装置2において実施された全ての画像処理の結果(画像処理に関するパラメーター)を受信する。
【0040】
次に、ステップS93において、受信した画像処理に関するパラメーターに基づいて、OCR処理の内容を変更する。例えば、JPEG圧縮が行われていた場合、予めJPEG圧縮を行った学習データで学習したAI-OCRエンジンに切り換えて、OCR処理を行う。また、原稿の斜行補正の結果から、副走査方向特有の色ずれ軽減補正が必要であれば、それをかけた状態の学習データを用意して、これに切り替えて処理を行う。このように、画像処理に関するパラメーターが引き渡されていることによって、学習データにフィルターを選択的にかける等により、認識精度を向上させることができる。
【0041】
続いて、ステップS94において、帳票ID認識処理の結果に基づいて、テンプレートを適用する。本実施形態においては、手書き文字認識を行う領域の抽出を行う。図6のテーブルの第4列の「認識処理の成否」から、まず成功しているものを抽出し、次に第5列の「認識処理の確からしさ」の値が高いものを選択する。そして、最後に「認識結果の出力」を抽出する。例えば、「2Dコード認識」が選択されると、テーブルに記録された帳票レイアウトデータを基に、手書き文字認識すべき領域を抽出する。そして、ステップS95においてAI-OCR処理を実施して、結果を取得し、処理を終了する。本実施形態においては、AI-OCR処理の結果、抽出した文字列は、画像処理装置2に送信され、ユーザーI/F22上で動作するWebブラウザー25で表示する。このように、前段で行った画像処理に関連したパラメーターを、後段の処理装置に引き渡すことによって、後段の処理の精度を向上させることができる。
【0042】
<画像処理内容の説明>
以下、図5に示した画像処理テーブルに記載した画像処理のうち、本実施形態において実施した各処理の内容を説明する。また、図6に示した帳票ID認識処理テーブルにおける各処理の内容も説明する。
【0043】
<自動サイズ検知>
画像処理テーブル(図5)の1行目の「自動サイズ検知」とは、原稿の紙サイズを画像情報やセンサー情報から検出し、切り出してフィットしたサイズの画像を作成する処理である。本実施形態では、矩形として検出された紙原稿の4隅の座標を検出している。画像処理の結果、サイズ情報として、原稿輪郭の点座標情報が記録される。このサイズ情報が、画像処理に関するパラメーターに相当する。
【0044】
<斜行補正>
画像処理テーブル(図5)の3行目の「斜行補正」とは、画像読取装置に原稿が斜めに入った場合に、その角度を検出し、画像データに対し、斜めに入った分の角度を補正する技術である。本実施形態においては、先に説明した「自動サイズ検知」において検出した、4隅の座標と辺から、垂直に入った場合に対する角度の差異を検出し、アフィン変換を行って傾きを補正する。ここで、検知された斜行検知角度が、画像処理に関するパラメーターに相当する。
【0045】
<JPEG圧縮の結果>
画像処理テーブル(図5)の4行目の「JPEG圧縮」に関しては、先に説明したように、JPEG圧縮の有無が、後段の処理を行う処理装置に引き渡される。詳述すると、JPEG圧縮を行った場合に、その都度、結果として一般的な品質のパラメーターに加え、YUVのサンプリングファクターも記録される。ここで、YUVとは、輝度信号Yと2つの色差信号を使って表現される色空間である。非可逆圧縮であるJPEGは一度YUVのサンプリングファクターを、YUV411などに色差成分を間引くと、その後、YUV444でリサンプリングしても、情報としては欠落する。例えば、画像読取装置1内部ではYUV411でJPEG圧縮を行い、制御ドライバー27で画像処理のために圧縮を解き、生画像で処理を行う。その後、YUV444にサンプリングファクターを変化させてからJPEG圧縮を行ったとする。すると、ヘッダー情報にはYUV444の圧縮が行われた時の情報が残っているが、画像読取装置1における圧縮の情報は残っていない。そこで、画像読取装置1内の圧縮時のパラメーターと、制御ドライバー27の出力時の圧縮パラメーターの2つを引き渡すようにすれば、色差情報が元々の画像に比べて欠落していることが、後段の処理を行う処理装置に伝わる。このようにヘッダー以外に、画像処理に関するパラメーターを、付加情報として後段の処理に引き渡すことは、同じ処理でもパラメーターを変えて複数回行われるケースで有用である。
【0046】
<重送検知>
画像処理テーブル(図5)の5行目の「重送検知」とは、2枚以上の原稿が重なって給送された場合に、これをセンサー又は画像情報から検出して、使用者(ユーザー)に通知する技術である。重送が検知された場合、基本的に原稿が重なって入った時点で、画像読取装置1が搬送を中断して、画像出力をキャンセルする。ところが、使用者(ユーザー)の判断で、付箋紙や訂正で貼り合わせた紙などが貼られている場合は、そのまま画像を出力させることがある。その場合に、重なって搬送された領域は、従来の帳票には無かった情報となる可能性がある。そのため、重送が検知された範囲を、画像処理に関するパラメーターとして後段の処理を行う処理装置に引き渡す。すると、帳票レイアウトを判定する際に、重なって搬送されたと検出された範囲を無視して判定することにより、判定の精度を上げることが出来る。このように、後段の処理装置に、重送検知結果のパラメーターを引き渡すことは有用である。
【0047】
<影消し>
画像処理テーブル(図5)の9行目の「影消し」とは、画像読み取り時に原稿に照射される光により、原稿の縁に画像データとして付いてしまう影を検出して、除去する技術である。ここで、影として認識した領域の情報が、画像処理に関するパラメーターに相当する。
【0048】
<ガンマ補正>
画像処理テーブル(図5)の13行目の「ガンマ補正」とは、画像の明るさを調整するために、入力データに対して、出力データの出力値を補正する技術である。ガンマ補正処理では、指定されたガンマカーブ、指定された明るさ、もしくはコントラストを元に作成されたガンマカーブに基づき、画素ごとの入力データから出力データへの変換処理を行う。ガンマカーブは、入力データと出力データの相関関係を示すテーブルデータとなる。ここで、ガンマ補正の補正値(ガンマカーブ)が、画像処理に関するパラメーターに相当する。
【0049】
<解像度変換(拡縮処理)>
画像処理テーブル(図5)の15行目の「解像度変換(拡縮処理)」とは、画像読取装置1に指示した読み取り時の光学解像度から、指定された出力解像度に変換する技術のことを言う。本実施形態では、画像読取装置1で読み取りを行った時の入力(光学)解像度から、スキャン設定として指定された出力解像度に解像度変換を行う。解像度変換において、入力解像度から出力解像度を増やすアップコンバートでは、画像が拡大される。逆に、入力解像度から出力解像度が減らす処理となるダウンコンバートでは画像が縮小される。ここで、入力解像度と変更後の出力解像度が、画像処理に関するパラメーターに相当する。
【0050】
<エッジ強調処理>
画像処理テーブル(図5)の18行目の「エッジ強調処理」とは、画像内の輪郭を強調するため、注目画素の周囲、例えば3×3、或いは5×5の画素値のテーブルに基づき、注目画素の出力値を補正する技術である。本実施形態においては、指定されたエッジ強調レベルに基づくテーブルデータを基に、入力データから出力データへの変換処理を行う。ここで、エッジ強調レベル(テーブル)が画像処理に関するパラメーターに相当する。
【0051】
<領域指定OCR>
帳票ID認識処理テーブル(図6)の1行目の「領域指定OCR」とは、指定された画像領域に対して、パターン認識で行うOCRを実施し、認識された文字列を抽出する処理である。処理結果としては、認識された文字列が記録される。また、認識の確からしさを結果と共に記録する。本実施形態では、「領域指定OCR」に失敗し、文字列は検出できなかったものとしている。確からしさは0%として記録される。ここで、認識された文字列、認識の成否、認識の確からしさが、画像処理に関するパラメーターに相当する。
【0052】
<バーコード認識>
帳票ID認識処理テーブル(図6)の2行目の「バーコード認識」とは、予め定められたそれぞれのバーコードの書式に基づき、バーコードが印刷された領域があるかどうかを検出し、バーコードを文字や数字に変換する処理を行う技術のことを言う。本実施形態では、「バーコード認識」は失敗し、バーコードは認識できなかったものとしている。認識の確からしさは0%として記録される。ここで、変換された文字や数字、認識の成否、認識の確からしさが、画像処理に関するパラメーターに相当する。
【0053】
<定型帳票との一致度検出>
帳票ID認識処理テーブル(図6)の3行目の「定型帳票との一致度検出」とは、予め定められた定型帳票のテンプレートと比較して、一致度が高い原稿が存在するかどうかを判定する処理である。一致度が高い原稿が存在する場合は、その定型帳票テンプレートのIDを記録する。本実施形態では、「定型帳票との一致度検出」は成功し、帳票IDは「1」だったものとしている。確からしさは10%として記録される。ここで、一致度検出の成否、検出された帳票のID、認識の確からしさが、画像処理に関するパラメーターに相当する。
【0054】
<2Dコード認識>
帳票ID認識処理テーブル(図6)の4行目の「2Dコード認識」とは、予め定められたそれぞれの2Dコードの書式に基づき、2Dコードが印刷された領域があるかどうかを検出し、2Dコードを文字や数字に変換する処理である。2Dコードが検出出来たら、データを抽出する。データは帳票のID、帳票が格納されているURL、帳票のレイアウトデータそのもの等である。本実施形態では、「2Dコード認識」は成功し、帳票IDは「1」だったものとしている。確からしさは100%として記録される。ここで、検出の成否、抽出されたデータ、認識の確からしさが、画像処理に関するパラメーターに相当する。
【0055】
<他の実施形態>
本発明は、以上に説明した実施形態に限らず、種々の応用、変形が可能である。例えば、前述の実施形態においては、AI-OCRは手書き文字認識に特化したものとして、画像処理装置2内で帳票ID認識処理を行う例を説明した。ただ、AI-OCRの中には、高精度な帳票認識機能を備えたものも存在する。そのため、AI-OCRサーバー21において、帳票ID認識処理を行うようにしても良い。また、前述の実施形態ではAI-OCRサーバーが、自らWebブラウザーで結果を表示するとした。ただ、業務システムにおいては、AI-OCRサーバーがWebアプリのシステムの一部として組み込まれ、結果をDB(データベース)に格納して用いるケースも多いので、そのように実装しても良い。
【0056】
また、前述の実施形態では、一部の画像処理を画像処理装置2で行う例を説明したが、全ての画像処理を画像読取装置で行うようにしても構わない(図4参照)。一方で、画像処理装置2で行う画像処理を増やしても良い。また、画像処理装置2と説明上記載したが、画像処理を一切行わず、情報の受け渡しだけをするようにしても良い。その場合、画像処理装置2は情報処理装置となる。
【0057】
画像処理に関するパラメーターの例として、例えば、斜行した時の補正角度や原稿正立機能により回転された角度、拡大処理によって拡大された倍率などの情報を引き渡すと、後段の処理の精度を向上させることができる。例えば、画像処理前の画像と補正後の出力画像とで、画素の補完によって意図せず発生した色ずれが、自然画像をベースに学習させるAI-OCRにおいて、認識率の低下を招くことがある。その場合に、原稿の補正角度を後段の処理装置に引き渡し、一定以上の長さの罫線に、一定間隔で色が混じることを予めAI-OCRエンジンに伝えてあれば、誤検出を防ぐことが出来る。
【0058】
一方、90度、270度回転を伴う原稿正立処理は、主走査と副走査の向きが入れ替わったことによって、ADFの1ラインセンサーだと完全に同じ位置では読めない。この弊害から、副走査方向で出やすい色ずれを副走査方向にのみフィルターをかけるようにしないと、文字のエッジの出方が異なるので、検出精度に影響が出る。なお、原稿正立処理とは紙原稿に表現されている情報に基づき、原稿の向きを印刷文字の向きに合わせる処理のことを言う。
【0059】
また、拡大処理も、補正角度同様に処理中に補完処理を伴うため、補完の処理によって発生したアンチエリアシングの偽色によって、文字認識精度に影響が出ることがある。いずれのケースも、AI-OCRエンジンが、自然画像にどのようなモアレや画素補完が入る可能性があるかを事前に学習して知っていれば、認識精度を高く保つことが可能となる。
【0060】
また、本実施形態におけるAI-OCRの説明では、エンジンへ画像を入力する前に、画像処理に関するパラメーターに基づき、学習データそのものを切り替えてしまう「半自動」なエンジンを説明した。しかし、エンジンの機能向上や学習のさせ方により、AI-OCRエンジンそのものに、画像処理装置2から引き渡された画像処理に関するパラメーターを解釈して、自動的に学習データのフィルター処理を内部で変更、適用しながら、文字認識処理を行う機能を持たせる方が望ましい。そのようにエンジンが改良された場合でも本発明の意義は失われない。
【0061】
更に、ユーザーI/F22から、スキャン設定とスキャン開始指示が出た時点で、スキャンサービスプログラム26とAI-OCRサーバー21が通信を行い、画像処理の実施の有無(図5の画像処理テーブルの第4列)を、AI-OCRサーバー21からの指示で新たに追加するようにしても良い(図4参照)。また、画像読取装置1でも画像処理装置2でも画像処理を実施せず、AI-OCRサーバー21が画像処理を実施するようにしても良い。更に、図5の画像処理テーブルにおいては、画像読取装置1内で処理する内容は予め定義していたが、複数種の画像読取装置1が存在する場合、可能な画像処理機能に差があることがある。その場合、画像読取装置1内の画像処理機能の有無に基づいて、画像処理装置2で実施すべき画像処理内容を変化させるように構成しても構わない。その場合は、画像処理テーブル全体も、画像読取装置1から画像処理内容と一緒に画像処理装置2へ引き渡されるようにしても良い。
【0062】
図5の画像処理テーブルはあくまで一例であり、JPEG圧縮の代わりに、JPEG2000や90度ごとの画像回転処理、PNG(Portable Network Graphics)などの別の圧縮処理を行うようにしても良い。また、PDF(Portable Document Format)、TIFF(Tagged Image File Format)などのファイリング処理や、圧縮を行わないといったバリエーションがあっても良い。その際、前述の実施形態では、画像ファイルにデータを埋め込む形式を取らなかったが、埋め込むようにしても構わない。この場合、ファイル形式は、タグ、属性情報等を埋め込むことが可能な、TIFF形式、JPEG(EXIF(EXchangeable Image File format))形式、PDF形式などが用いられることになる。
【0063】
また、図5の画像処理テーブルでは、JPEG圧縮の行が1つしか用意されていないが、最終出力までに複数回JPEG圧縮が行われる場合、その都度、JPEG圧縮の行を区別して、追加して記録するようにするのが望ましい。その際、そのたびにJPEG圧縮が行われた順番が記録されるようにする。また、AI-OCRエンジンが知らない付加情報が付与されている時、処理を続行させるために無視をしても良いが、AIの学習エンジンに付加情報と処理後の画像を教師データとして渡しても良い。この場合、次回以降のAI-OCRの認識精度の改善に繋がる。更に、前述の実施形態では、図5の画像処理テーブルの第7列に、処理の順番のテンプレートを予め定義していたが、スキャン設定によって処理の順番を動的に変更しても良い。また、処理内容によってはJPEG画像の圧縮、伸長など複数回実施しても良い。その場合は実行した順番と共に、各圧縮時のパラメーターを残すようにしても良い。また、カラーのJPEGデータを、グレーのJPEGデータに変換したという情報を残し、AI-OCRエンジンをカラーのJPEGデータで学習させたエンジンからグレーのJPEGデータで学習させたエンジンに切り替えるようにしても良い。更に、画像処理テーブルにおいて、二値化されたことを示す項目があった場合、AI-OCRエンジンでTIFF、PNG、BMPなど、二値のデータを用いて学習させたエンジンを用いるように切り替えても良い。
【0064】
また、画像読取装置1が、直接ネットワークに接続されている構成となっていた場合、同ネットワークに接続されたサーバー上でOCR処理を実行するようにしても構わない。また、前述の実施形態では、最適な処理としてAI-OCRを選択したが、通常のOCR処理であっても、画像に基づいた仕分け処理でも、効果を得ることが出来る。
【0065】
図6で示した帳票ID認識処理テーブルはあくまで一例であり、処理の順番や処理の数は変更しても良い。また、図6では挙げていない帳票認識方法を組み込んでも良い。前述の実施形態では、AI-OCR処理しか記載しなかったが、帳票ID認識結果に基づき、通常のOCR処理を行った上で、手書き領域のみAI-OCR処理にかけるようにしても良い。帳票ID認識処理をAI-OCRサーバーで行う場合、前述の通り、原稿が重なって搬送されたと検出された範囲を除いた原稿領域に対してのみ、認識処理を実施するようにしても良い。画像処理装置2内で行う帳票ID認識処理であっても、前述のAI-OCRサーバーで行う処理同様、画像読取装置1や制御ドライバー27の画像処理結果から認識処理を変化させるようにしても良い。
【0066】
前述の実施形態では、後段の処理を行う処理装置を、AI-OCRサーバーとしたが、それ以外の後段処理を行う処理装置としても良い。一例としては、画像データの出力先を振り分けるシステムが挙げられる。例えば、本発明は、帳票IDを認識した結果やサイズ検知で検出した用紙サイズに基づいて、ファイルの保存先を振り分けるシステムに用いることができる。また、専用名刺フィーダー投入口を保有する画像読取装置において、この投入口から投入されたことを示す情報を引き渡し、名刺の画像だけサーバーで振り分けて、名刺専用の処理をするシステムに適用することも出来る。更に、フィーダーとフラットベッドを有する画像読取装置において、どちらで読み取ったかを示す情報を引き渡し、その情報を元にファイルの保存先を振り分けるシステムに用いても良い。
【0067】
なお、専用名刺フィーダー投入口とは、名刺のような小さな原稿を搬送するのが困難な搬送路上のローラ間が長いADFにおいて、搬送路の途上に専用投入口を用意して、その投入口からの搬送時はローラ間が短くなるように工夫された仕組みである。その際は、専用名刺フィーダー投入口から投入されたか否かを示す情報を、画像読取装置1、画像処理装置2、不図示の振り分けサーバーに通知する(図4参照)。専用名刺フィーダー投入口の他に、個人認証用プラスチックIDカードやパスポートを通す専用の投入口がある場合は、このような投入口から投入されたか否かの情報も、後段の処理を行う処理装置に引き渡すようにしても良い。ここで、上記のような投入口に関する情報が、画像処理に関するパラメーターに相当する。
【0068】
なお、プラスチックのIDカードは専用の帳票レイアウトを用意し、顔写真とIDと手書き部分を認識できるようにしても良い。パスポートについても同様で、パスポート専用投入口から原稿が給送された場合や,パスポートと判断できる印(RFID(Radio-Frequency Identification)センサーなど)を検知したら、パスポート専用の帳票レイアウトを用いるものとする。パスポートにはMRZ(Machine-readable passport)
と呼ばれる専用印字文字列もあるので、それを検出認知してOCRをかける専用の処理を行っても良い。
【0069】
このように、本発明は、特許請求の範囲を逸脱しない限りにおいて、上記のような応用、変形を全て包含するものである。
【符号の説明】
【0070】
1 画像読取装置
2 画像処理装置
21 AI-OCRサーバー
22 ユーザーI/F
26 スキャンサービスプログラム
27 制御ドライバー
28 外部通信I/F
図1
図2
図3
図4
図5
図6
図7
図8
図9