特開2024-165431 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノンマーケティングジャパン株式会社の特許一覧 ▶ キヤノンＩＴソリューションズ株式会社の特許一覧

特開2024-165431情報処理システム、情報処理方法、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024165431

(43)【公開日】2024-11-28

(54)【発明の名称】情報処理システム、情報処理方法、プログラム

(51)【国際特許分類】

G06V 30/14 20220101AFI20241121BHJP

【ＦＩ】

G06V30/14 340K

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2023081634

(22)【出願日】2023-05-17

(71)【出願人】

【識別番号】390002761

【氏名又は名称】キヤノンマーケティングジャパン株式会社

(71)【出願人】

【識別番号】592135203

【氏名又は名称】キヤノンＩＴソリューションズ株式会社

(74)【代理人】

【識別番号】100189751

【弁理士】

【氏名又は名称】木村友輔

(74)【代理人】

【識別番号】100227857

【弁理士】

【氏名又は名称】中山圭

(72)【発明者】

【氏名】渡邉暢人

(72)【発明者】

【氏名】八尾唯仁

【テーマコード（参考）】

5B029

【Ｆターム（参考）】

5B029AA01

5B029BB02

5B029CC29

5B029DD04

(57)【要約】

【課題】圧縮前の画像データを必要とせずに、入力された画像ファイルに対する文字認識において、精度の低下を抑えること
【解決手段】データに含まれる文字領域と非文字領域とを異なる方式で圧縮したデータを取得する取得手段と、前記非文字領域として圧縮された領域から文字列を抽出する抽出手段と、前記抽出手段により抽出された文字列について、所定の処理を行う処理手段と、を備えることを特徴とする情報処理装置。
【選択図】図１

【特許請求の範囲】

【請求項1】

データに含まれる文字領域と非文字領域とを異なる方式で圧縮したデータを取得する取得手段と、
前記非文字領域として圧縮された領域から文字列を抽出する抽出手段と、
前記抽出手段により抽出された文字列について、所定の処理を行う処理手段と、
を備えることを特徴とする情報処理装置。

【請求項2】

前記処理手段による処理は、ノイズを除去する処理であることを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記処理手段による処理は、２値化処理であることを特徴とする請求項２に記載の情報処理装置。

【請求項4】

前記処理手段による処理が行われたデータに対して、OCR処理を行うOCR手段をさらに備えることを特徴とする請求項１乃至３のいずれか１項に記載の情報処理装置。

【請求項5】

データに含まれる文字領域と非文字領域とを異なる方式で圧縮したデータを取得する取得工程と、
前記非文字領域として圧縮された領域から文字列を抽出する抽出工程と、
前記抽出手段により抽出された文字列について、所定の処理を行う処理工程と、
を備えることを特徴とする情報処理方法。

【請求項6】

コンピュータを、請求項１乃至４のいずれか1項に記載の各手段として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理システム、情報処理方法、プログラムに関する。

【背景技術】

【0002】

スキャナから帳票などの用紙を取り込む際、画像の品質を維持したままファイルのサイズを抑える技術として、高圧縮ＰＤＦ技術が存在する。

【0003】

高圧縮ＰＤＦ技術では、スキャンされた画像を文字画像と背景画像に分離し、それぞれに適切な圧縮処理を行った後に統合することで、文字の読みやすさ・鮮明さを維持したまま、容量を圧縮することを可能とする。

【0004】

しかし、一部の文字を誤って背景（非文字）と判定することで、文字画像に対して不適切な圧縮をかけてしまうことがある。その結果、一部の文字にノイズがかかり、文字認識処理を行う際に精度が低下するといった課題がある。

【0005】

特許文献１には、高圧縮ＰＤＦファイルによって起こる文字認識精度の低下を抑える技術が開示されている。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開2018-018361号公報

【発明の開示】

【発明が解決しようとする課題】

【0007】

特許文献１には、圧縮済みのデータと圧縮されていないデータを用いることで、文字領域と非文字領域を区別して文字認識処理を行うと記載されている。

【0008】

加えて、文字領域と非文字領域の分離が不適切であった場合、圧縮前の文字領域データに対して文字認識処理を行うことで、認識精度の低下を抑えられると記載されている。

【0009】

しかし、特許文献１の手段では、認識精度の低下を抑えるために、圧縮前のデータが必要になる。

【0010】

そこで、本発明の目的は、圧縮前の画像データを必要とせずに、入力された画像ファイルに対する文字認識において、精度の低下を抑えることが可能な仕組みを提供することである。

【課題を解決するための手段】

【0011】

【発明の効果】

【0012】

本発明によれば、圧縮前の画像データを必要とせずに、入力された画像ファイルに対する文字認識において、精度の低下を抑えることが可能となる。

【図面の簡単な説明】

【0013】

【図1】本発明の実施形態における、システム構成の一例を示す図である。

【図2】本発明の実施形態における、ＰＣのハードウェア構成の一例を示すブロック図である。

【図3】本発明の実施形態における、入力されたＰＤＦファイルに対する一連の処理の流れを示すフローチャートである。

【図4】本発明の実施形態における、高圧縮ＰＤＦ判定部の処理の流れを示すフローチャートである。

【図5】本発明の実施形態における、高圧縮ＰＤＦファイルを構成する画像の一例を示す図である。

【図6】本発明の実施形態における、画像前処理部の処理の流れを示すフローチャートである。

【図7】本発明の実施形態における、マスク画像の補正結果の一例を示す図である。

【図8】本発明の実施形態における、背景画像の補正結果の一例を示す図である。

【図9】本発明の実施形態における、画像の合成結果の一例を示す図である。

【発明を実施するための形態】

【0014】

図１は、本発明の実施形態における手書き文字抽出システムのシステム構成の一例を示す図である。

【0015】

ユーザによる操作を受け付けるクライアント端末１０１および、帳票をスキャンして画像ファイル化するスキャナ１０２が通信経路１００を介して接続される構成となっている。

【0016】

通信経路１００はスキャナ１０２の有する物理インターフェースに応じて、有線ＬＡＮ，無線ＬＡＮ，ＵＳＢなどの形態をとることができる。

【0017】

サーバ装置１０３は、スキャナ１０２でスキャンした画像データを保管し、クライアント端末１０１からの指示に基づき、画像データに対してＯＣＲ処理を行う機能を備える。

【0018】

なお、画像データの保管やＯＣＲ処理については、サーバ装置１０３ではなくクライアント端末１０１で実行する形態をとってもよい。

【0019】

図２は、本発明のクライアント端末１０１やサーバ装置１０２として適用可能な情報処理装置のハードウェア構成の一例を示すブロック図である。

【0020】

図２に示すように、情報処理装置は、システムバス２００を介してＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３、記憶装置２０４、入力コントローラ２０５、音声コントローラ２０６、ビデオコントローラ２０７、メモリコントローラ２０８、よび通信Ｉ／Ｆコントローラ２０９が接続される。

【0021】

ＣＰＵ２０１は、システムバス２００に接続される各デバイスやコントローラを統括的に制御する。

【0022】

ＲＯＭ２０２あるいは外部メモリ２１３は、ＣＰＵ２０１が実行する制御プログラムであるＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）やＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ（データテーブルを含む）を保持している。

【0023】

ＲＡＭ２０３は、ＣＰＵ２０１の主メモリ、ワークエリア等として機能する。ＣＰＵ２０１は、処理の実行に際して必要なプログラム等をＲＯＭ２０２あるいは外部メモリ２１３からＲＡＭ２０３にロードし、ロードしたプログラムを実行することで各種動作を実現する。

【0024】

入力コントローラ２０５は、キーボード２１０や不図示のマウス等のポインティングデバイス等の入力装置からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下（指等でタッチ）することにより、各種の指示を行うことができることとする。

【0025】

また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。

【0026】

ビデオコントローラ２０７は、ディスプレイ２１２などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。

【0027】

なおビデオコントローラ２０７は、表示制御を行うためのビデオメモリ（ＶＲＡＭ）を制御することが可能で、ビデオメモリ領域としてＲＡＭ２０３の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。

【0028】

メモリコントローラ２０８は、外部メモリ２１３へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置（ハードディスク）、フレキシブルディスク（ＦＤ）、或いはＰＣＭＣＩＡカードスロットにアダプタを介して接続されるコンパクトフラッシュ（登録商標）メモリ等を利用可能である。

【0029】

通信Ｉ／Ｆコントローラ２０９は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、ＴＣＰ／ＩＰを用いた通信やＩＳＤＮなどの電話回線、および携帯電話の４Ｇ回線、５Ｇ回線等を用いた通信が可能である。

【0030】

尚、ＣＰＵ２０１は、例えばＲＡＭ２０３内の表示情報用領域へアウトラインフォントの展開（ラスタライズ）処理を実行することにより、ディスプレイ２１２上での表示を可能としている。また、ＣＰＵ２０１は、ディスプレイ２１２上の不図示のマウスカーソル等でのユーザ指示を可能とする。

【0031】

次に図３、図４、図６のフローチャートを用いて、本発明の実施形態における情報処理システムが実行する処理について説明する。
図３は、本発明の一連の処理全体を示すフローチャートであり、CPU２０１が所定の制御プログラムを読み出して実行する処理である。

【0032】

ステップＳ３０１では、入力受付部２５１に入力されたＰＤＦファイルを取得する。

【0033】

ステップＳ３０２では、ステップＳ３０１で取得したＰＤＦファイルが高圧縮化されたＰＤＦファイルであるか、高圧縮化されていないＰＤＦファイル（以下、非高圧縮ＰＤＦファイル）であるかを判定する。

【0034】

ステップＳ３０３では、ステップＳ３０２で判定されたＰＤＦファイルが、高圧縮ＰＤＦファイルであるか調べる。高圧縮ＰＤＦファイルの場合、ステップＳ３０４へ進む。非高圧縮ＰＤＦファイルの場合、ステップＳ３０５へ進む。

【0035】

ステップＳ３０４では、ステップＳ３０３で高圧縮ＰＤＦファイルと判定されたＰＤＦファイルに対し、所定の前処理を行う。本発明では、前処理としてモスキートノイズの除去と２値化処理を行っている。高圧縮ＰＤＦファイルに適切な前処理を行うことで、文字認識の精度低下を抑えることが可能となる。

【0036】

ステップＳ３０５では、ステップＳ３０４で前処理を行った高圧縮ＰＤＦファイル、またはステップＳ３０３から送られてきた非高圧縮ＰＤＦファイルに対して、文字認識処理を行う。文字認識処理では、例えばＣＲＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）などの深層学習モデルを使用しても良い。

【0037】

ステップＳ３０６では、結果出力部２５５によって、ステップＳ３０５で得られた文字認識の結果を出力する。
図４はステップＳ３０２の詳細を示すフローチャートである。

【0038】

ステップＳ４０１では、ステップＳ３０１で取得したＰＤＦファイルを解析し、画像情報を取得する。ここで画像情報とは、ＰＤＦファイルのページを解析することで得られる情報である。得られる画像情報の例として、各ページを構成する単一または複数の画像のサイズ、色空間、座標系などが挙げられる。

【0039】

ステップＳ４０２では、ステップＳ４０１で取得した画像情報から、ステップＳ３０１で取得したＰＤＦファイルのページを構成する画像の枚数を調べ、対象のＰＤＦファイルが高圧縮ＰＤＦファイルであるかを判定する。

【0040】

図５に示す例を用いて、高圧縮ＰＤＦファイルを構成する画像について説明する。高圧縮ＰＤＦファイルにおいて、ページの画像（５０１）は背景画像５０２とマスク画像５０３に分離されて保存されている。背景画像とは、元画像から非文字と判定された領域のみを抽出した画像である。マスク画像とは、元画像から文字と判定された領域のみを抽出した画像であり、背景が黒色、文字が白色の状態で保存されている。一方、非高圧縮ＰＤＦファイルの場合、ページの画像は分離されずに保存されている。このように、ページを構成する画像の枚数を調べることで、対象のＰＤＦ画像ファイルが高圧縮化されているかを判定することができる。

【0041】

ステップＳ３０１で取得したＰＤＦファイルのページを構成する画像が複数ある場合、ステップＳ４０３に進み、対象のＰＤＦファイルを高圧縮ＰＤＦ画像と判定する。ページを構成する画像が1枚の場合はステップＳ４０４に進み、対象のＰＤＦファイルを非高圧縮ＰＤＦ画像と判定する。
図６は、ステップＳ３０４の処理の詳細を示すフローチャートである。

【0042】

ステップＳ６０１では、ステップＳ３０２で高圧縮ＰＤＦファイルと判定されたＰＤＦファイルのページに含まれる画像が、マスク画像であるかを調べる。マスク画像であるかを判別する手段として、例えば画像全体の黒画素と白画素の比率を調べる方法がある。マスク画像は背景が黒色に対し文字が白色であるため、白画素に比べて黒画素が格段に多い場合、対象の画像をマスク画像と判定できる。マスク画像である場合、ステップＳ６０２へ進み、所定の処理を行う。マスク画像でない場合、対象の画像は背景画像と判定され、ステップＳ６０３～ステップＳ６０６において一連の処理を行う。

【0043】

ステップＳ６０２では、ステップＳ６０１でマスク画像と判定された画像（５０３）に対し、画像の各画素の白色と黒色を反転する処理を行う。これにより、補正済みマスク画像８０１（図７）が得られる。反転処理を行うことで、後述する補正済み背景画像９０１と同様の背景色・文字色となり、後述するステップＳ６０７において文字認識に適した合成画像の作成が可能となる。

【0044】

ステップＳ６０３では、ステップＳ６０１でマスク画像でないと判定された背景画像５０２に対し、文字検出処理を行う。文字検出の手段として、例えばＦＣＥＮｅｔ（ＦｏｕｒｉｅｒＣｏｎｔｏｕｒＥｍｂｅｄｄｉｎｇＮｅｔｗｏｒｋ）などの深層学習モデルを用いてもよい。文字検出処理を行うことで、文字または文字列の矩形とその座標系が得られる。例えば図８では、文字検出の結果として、文字領域５０５～５０７を得ている。

【0045】

ステップＳ６０４では、ステップＳ６０３の文字検出処理で得られた文字領域５０５～５０７の矩形座標をもとに、背景画像５０２から文字領域を抽出する。

【0046】

ステップＳ６０５では、ステップＳ６０４で抽出されたそれぞれの文字領域に対し、モスキートノイズの除去を行う。ここでモスキートノイズとは、高圧縮化された画像に見られる文字の輪郭周辺に現れる小さな点状のノイズである。モスキートノイズを除去する手段として、例えばＮｏｎ－ＬｏｃａｌＭｅａｎｓＤｅｎｏｉｓｉｎｇのようなアルゴリズムを用いてもよい。

【0047】

ステップＳ６０６では、ステップＳ６０５で得られた結果に対し、２値化処理を行う。ここで２値化とは、対象画像を白と黒のみで構成される２値画像に変換する処理である。以上の処理によって、補正済み背景画像９０１（図８）が得られる。

【0048】

ステップＳ６０７では、ステップＳ６０２で得られた補正済みマスク画像８０１と、ステップＳ６０６で得られた補正済み背景画像９０１を合成する処理を行う。ステップＳ４０１で得られた各画像の座標情報をもとに、補正済み背景画像９０１に補正済みマスク画像８０１を埋め込む。これにより、合成画像１００１（図９）が得られる。合成画像１００１では、前処理によりノイズを除去していることから、前処理を行わない高圧縮ＰＤＦファイルと比べ、文字が明瞭である。したがって、ステップＳ３０５の文字認識処理において、前処理を行わない高圧縮ＰＤＦファイルよりも精度の低下を抑えることが可能となる。

【0049】

以上、実施形態について示したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

【0050】

また、本発明におけるプログラムは、図３、４、６に示すフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は図３、４、６の処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは図３の各装置の処理方法ごとのプログラムであってもよい。

【0051】

以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。

【0052】

この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。

【0053】

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ－ＲＯＭ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＥＥＰＲＯＭ、シリコンディスク等を用いることが出来る。

【0054】

また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

【0055】

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

【0056】

また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。

【0057】

さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。

【符号の説明】

【0058】

クライアント端末１０１
スキャナ１０２
サーバ装置１０３

【図1】