(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024165431
(43)【公開日】2024-11-28
(54)【発明の名称】情報処理システム、情報処理方法、プログラム
(51)【国際特許分類】
G06V 30/14 20220101AFI20241121BHJP
【FI】
G06V30/14 340K
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023081634
(22)【出願日】2023-05-17
(71)【出願人】
【識別番号】390002761
【氏名又は名称】キヤノンマーケティングジャパン株式会社
(71)【出願人】
【識別番号】592135203
【氏名又は名称】キヤノンITソリューションズ株式会社
(74)【代理人】
【識別番号】100189751
【弁理士】
【氏名又は名称】木村 友輔
(74)【代理人】
【識別番号】100227857
【弁理士】
【氏名又は名称】中山 圭
(72)【発明者】
【氏名】渡邉 暢人
(72)【発明者】
【氏名】八尾 唯仁
【テーマコード(参考)】
5B029
【Fターム(参考)】
5B029AA01
5B029BB02
5B029CC29
5B029DD04
(57)【要約】
【課題】 圧縮前の画像データを必要とせずに、入力された画像ファイルに対する文字認識において、精度の低下を抑えること
【解決手段】 データに含まれる文字領域と非文字領域とを異なる方式で圧縮したデータを取得する取得手段と、前記非文字領域として圧縮された領域から文字列を抽出する抽出手段と、前記抽出手段により抽出された文字列について、所定の処理を行う処理手段と、を備えることを特徴とする情報処理装置。
【選択図】
図1
【特許請求の範囲】
【請求項1】
データに含まれる文字領域と非文字領域とを異なる方式で圧縮したデータを取得する取得手段と、
前記非文字領域として圧縮された領域から文字列を抽出する抽出手段と、
前記抽出手段により抽出された文字列について、所定の処理を行う処理手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記処理手段による処理は、ノイズを除去する処理であることを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記処理手段による処理は、2値化処理であることを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記処理手段による処理が行われたデータに対して、OCR処理を行うOCR手段をさらに備えることを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
【請求項5】
データに含まれる文字領域と非文字領域とを異なる方式で圧縮したデータを取得する取得工程と、
前記非文字領域として圧縮された領域から文字列を抽出する抽出工程と、
前記抽出手段により抽出された文字列について、所定の処理を行う処理工程と、
を備えることを特徴とする情報処理方法。
【請求項6】
コンピュータを、請求項1乃至4のいずれか1項に記載の各手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理方法、プログラムに関する。
【背景技術】
【0002】
スキャナから帳票などの用紙を取り込む際、画像の品質を維持したままファイルのサイズを抑える技術として、高圧縮PDF技術が存在する。
【0003】
高圧縮PDF技術では、スキャンされた画像を文字画像と背景画像に分離し、それぞれに適切な圧縮処理を行った後に統合することで、文字の読みやすさ・鮮明さを維持したまま、容量を圧縮することを可能とする。
【0004】
しかし、一部の文字を誤って背景(非文字)と判定することで、文字画像に対して不適切な圧縮をかけてしまうことがある。その結果、一部の文字にノイズがかかり、文字認識処理を行う際に精度が低下するといった課題がある。
【0005】
特許文献1には、高圧縮PDFファイルによって起こる文字認識精度の低下を抑える技術が開示されている。
【先行技術文献】
【特許文献】
【0006】
【発明の開示】
【発明が解決しようとする課題】
【0007】
特許文献1には、圧縮済みのデータと圧縮されていないデータを用いることで、文字領域と非文字領域を区別して文字認識処理を行うと記載されている。
【0008】
加えて、文字領域と非文字領域の分離が不適切であった場合、圧縮前の文字領域データに対して文字認識処理を行うことで、認識精度の低下を抑えられると記載されている。
【0009】
しかし、特許文献1の手段では、認識精度の低下を抑えるために、圧縮前のデータが必要になる。
【0010】
そこで、本発明の目的は、圧縮前の画像データを必要とせずに、入力された画像ファイルに対する文字認識において、精度の低下を抑えることが可能な仕組みを提供することである。
【課題を解決するための手段】
【0011】
データに含まれる文字領域と非文字領域とを異なる方式で圧縮したデータを取得する取得手段と、
前記非文字領域として圧縮された領域から文字列を抽出する抽出手段と、
前記抽出手段により抽出された文字列について、所定の処理を行う処理手段と、
を備えることを特徴とする情報処理装置。
【発明の効果】
【0012】
本発明によれば、圧縮前の画像データを必要とせずに、入力された画像ファイルに対する文字認識において、精度の低下を抑えることが可能となる。
【図面の簡単な説明】
【0013】
【
図1】本発明の実施形態における、システム構成の一例を示す図である。
【
図2】本発明の実施形態における、PCのハードウェア構成の一例を示すブロック図である。
【
図3】本発明の実施形態における、入力されたPDFファイルに対する一連の処理の流れを示すフローチャートである。
【
図4】本発明の実施形態における、高圧縮PDF判定部の処理の流れを示すフローチャートである。
【
図5】本発明の実施形態における、高圧縮PDFファイルを構成する画像の一例を示す図である。
【
図6】本発明の実施形態における、画像前処理部の処理の流れを示すフローチャートである。
【
図7】本発明の実施形態における、マスク画像の補正結果の一例を示す図である。
【
図8】本発明の実施形態における、背景画像の補正結果の一例を示す図である。
【
図9】本発明の実施形態における、画像の合成結果の一例を示す図である。
【発明を実施するための形態】
【0014】
図1は、本発明の実施形態における手書き文字抽出システムのシステム構成の一例を示す図である。
【0015】
ユーザによる操作を受け付けるクライアント端末101および、帳票をスキャンして画像ファイル化するスキャナ102が通信経路100を介して接続される構成となっている。
【0016】
通信経路100はスキャナ102の有する物理インターフェースに応じて、有線LAN,無線LAN,USBなどの形態をとることができる。
【0017】
サーバ装置103は、スキャナ102でスキャンした画像データを保管し、クライアント端末101からの指示に基づき、画像データに対してOCR処理を行う機能を備える。
【0018】
なお、画像データの保管やOCR処理については、サーバ装置103ではなくクライアント端末101で実行する形態をとってもよい。
【0019】
図2は、本発明のクライアント端末101やサーバ装置102として適用可能な情報処理装置のハードウェア構成の一例を示すブロック図である。
【0020】
図2に示すように、情報処理装置は、システムバス200を介してCPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、記憶装置204、入力コントローラ205、音声コントローラ206、ビデオコントローラ207、メモリコントローラ208、よび通信I/Fコントローラ209が接続される。
【0021】
CPU201は、システムバス200に接続される各デバイスやコントローラを統括的に制御する。
【0022】
ROM202あるいは外部メモリ213は、CPU201が実行する制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ(データテーブルを含む)を保持している。
【0023】
RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ213からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。
【0024】
入力コントローラ205は、キーボード210や不図示のマウス等のポインティングデバイス等の入力装置からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下(指等でタッチ)することにより、各種の指示を行うことができることとする。
【0025】
また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。
【0026】
ビデオコントローラ207は、ディスプレイ212などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。
【0027】
なおビデオコントローラ207は、表示制御を行うためのビデオメモリ(VRAM)を制御することが可能で、ビデオメモリ領域としてRAM203の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。
【0028】
メモリコントローラ208は、外部メモリ213へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置(ハードディスク)、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等を利用可能である。
【0029】
通信I/Fコントローラ209は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信やISDNなどの電話回線、および携帯電話の4G回線、5G回線等を用いた通信が可能である。
【0030】
尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ212上での表示を可能としている。また、CPU201は、ディスプレイ212上の不図示のマウスカーソル等でのユーザ指示を可能とする。
【0031】
次に
図3、
図4、
図6のフローチャートを用いて、本発明の実施形態における情報処理システムが実行する処理について説明する。
図3は、本発明の一連の処理全体を示すフローチャートであり、CPU201が所定の制御プログラムを読み出して実行する処理である。
【0032】
ステップS301では、入力受付部251に入力されたPDFファイルを取得する。
【0033】
ステップS302では、ステップS301で取得したPDFファイルが高圧縮化されたPDFファイルであるか、高圧縮化されていないPDFファイル(以下、非高圧縮PDFファイル)であるかを判定する。
【0034】
ステップS303では、ステップS302で判定されたPDFファイルが、高圧縮PDFファイルであるか調べる。高圧縮PDFファイルの場合、ステップS304へ進む。非高圧縮PDFファイルの場合、ステップS305へ進む。
【0035】
ステップS304では、ステップS303で高圧縮PDFファイルと判定されたPDFファイルに対し、所定の前処理を行う。本発明では、前処理としてモスキートノイズの除去と2値化処理を行っている。高圧縮PDFファイルに適切な前処理を行うことで、文字認識の精度低下を抑えることが可能となる。
【0036】
ステップS305では、ステップS304で前処理を行った高圧縮PDFファイル、またはステップS303から送られてきた非高圧縮PDFファイルに対して、文字認識処理を行う。文字認識処理では、例えばCRNN(Convolutional Recurrent Neural Network)などの深層学習モデルを使用しても良い。
【0037】
ステップS306では、結果出力部255によって、ステップS305で得られた文字認識の結果を出力する。
図4はステップS302の詳細を示すフローチャートである。
【0038】
ステップS401では、ステップS301で取得したPDFファイルを解析し、画像情報を取得する。ここで画像情報とは、PDFファイルのページを解析することで得られる情報である。得られる画像情報の例として、各ページを構成する単一または複数の画像のサイズ、色空間、座標系などが挙げられる。
【0039】
ステップS402では、ステップS401で取得した画像情報から、ステップS301で取得したPDFファイルのページを構成する画像の枚数を調べ、対象のPDFファイルが高圧縮PDFファイルであるかを判定する。
【0040】
図5に示す例を用いて、高圧縮PDFファイルを構成する画像について説明する。高圧縮PDFファイルにおいて、ページの画像(501)は背景画像502とマスク画像503に分離されて保存されている。背景画像とは、元画像から非文字と判定された領域のみを抽出した画像である。マスク画像とは、元画像から文字と判定された領域のみを抽出した画像であり、背景が黒色、文字が白色の状態で保存されている。一方、非高圧縮PDFファイルの場合、ページの画像は分離されずに保存されている。このように、ページを構成する画像の枚数を調べることで、対象のPDF画像ファイルが高圧縮化されているかを判定することができる。
【0041】
ステップS301で取得したPDFファイルのページを構成する画像が複数ある場合、ステップS403に進み、対象のPDFファイルを高圧縮PDF画像と判定する。ページを構成する画像が1枚の場合はステップS404に進み、対象のPDFファイルを非高圧縮PDF画像と判定する。
図6は、ステップS304の処理の詳細を示すフローチャートである。
【0042】
ステップS601では、ステップS302で高圧縮PDFファイルと判定されたPDFファイルのページに含まれる画像が、マスク画像であるかを調べる。マスク画像であるかを判別する手段として、例えば画像全体の黒画素と白画素の比率を調べる方法がある。マスク画像は背景が黒色に対し文字が白色であるため、白画素に比べて黒画素が格段に多い場合、対象の画像をマスク画像と判定できる。マスク画像である場合、ステップS602へ進み、所定の処理を行う。マスク画像でない場合、対象の画像は背景画像と判定され、ステップS603~ステップS606において一連の処理を行う。
【0043】
ステップS602では、ステップS601でマスク画像と判定された画像(503)に対し、画像の各画素の白色と黒色を反転する処理を行う。これにより、補正済みマスク画像801(
図7)が得られる。反転処理を行うことで、後述する補正済み背景画像901と同様の背景色・文字色となり、後述するステップS607において文字認識に適した合成画像の作成が可能となる。
【0044】
ステップS603では、ステップS601でマスク画像でないと判定された背景画像502に対し、文字検出処理を行う。文字検出の手段として、例えばFCENet(Fourier Contour Embedding Network)などの深層学習モデルを用いてもよい。文字検出処理を行うことで、文字または文字列の矩形とその座標系が得られる。例えば
図8では、文字検出の結果として、文字領域505~507を得ている。
【0045】
ステップS604では、ステップS603の文字検出処理で得られた文字領域505~507の矩形座標をもとに、背景画像502から文字領域を抽出する。
【0046】
ステップS605では、ステップS604で抽出されたそれぞれの文字領域に対し、モスキートノイズの除去を行う。ここでモスキートノイズとは、高圧縮化された画像に見られる文字の輪郭周辺に現れる小さな点状のノイズである。モスキートノイズを除去する手段として、例えばNon-Local Means Denoisingのようなアルゴリズムを用いてもよい。
【0047】
ステップS606では、ステップS605で得られた結果に対し、2値化処理を行う。ここで2値化とは、対象画像を白と黒のみで構成される2値画像に変換する処理である。以上の処理によって、補正済み背景画像901(
図8)が得られる。
【0048】
ステップS607では、ステップS602で得られた補正済みマスク画像801と、ステップS606で得られた補正済み背景画像901を合成する処理を行う。ステップS401で得られた各画像の座標情報をもとに、補正済み背景画像901に補正済みマスク画像801を埋め込む。これにより、合成画像1001(
図9)が得られる。合成画像1001では、前処理によりノイズを除去していることから、前処理を行わない高圧縮PDFファイルと比べ、文字が明瞭である。したがって、ステップS305の文字認識処理において、前処理を行わない高圧縮PDFファイルよりも精度の低下を抑えることが可能となる。
【0049】
以上、実施形態について示したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0050】
また、本発明におけるプログラムは、
図3、4、6に示すフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は
図3、4、6の処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは
図3の各装置の処理方法ごとのプログラムであってもよい。
【0051】
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。
【0052】
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。
【0053】
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることが出来る。
【0054】
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0055】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0056】
また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0057】
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
【符号の説明】
【0058】
クライアント端末101
スキャナ102
サーバ装置103