IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

特許7581645情報処理装置、文字認識システムおよびプログラム
<>
  • 特許-情報処理装置、文字認識システムおよびプログラム 図1
  • 特許-情報処理装置、文字認識システムおよびプログラム 図2
  • 特許-情報処理装置、文字認識システムおよびプログラム 図3
  • 特許-情報処理装置、文字認識システムおよびプログラム 図4
  • 特許-情報処理装置、文字認識システムおよびプログラム 図5
  • 特許-情報処理装置、文字認識システムおよびプログラム 図6
  • 特許-情報処理装置、文字認識システムおよびプログラム 図7
  • 特許-情報処理装置、文字認識システムおよびプログラム 図8
  • 特許-情報処理装置、文字認識システムおよびプログラム 図9
  • 特許-情報処理装置、文字認識システムおよびプログラム 図10
  • 特許-情報処理装置、文字認識システムおよびプログラム 図11
  • 特許-情報処理装置、文字認識システムおよびプログラム 図12
  • 特許-情報処理装置、文字認識システムおよびプログラム 図13
  • 特許-情報処理装置、文字認識システムおよびプログラム 図14
  • 特許-情報処理装置、文字認識システムおよびプログラム 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-05
(45)【発行日】2024-11-13
(54)【発明の名称】情報処理装置、文字認識システムおよびプログラム
(51)【国際特許分類】
   G06V 30/12 20220101AFI20241106BHJP
【FI】
G06V30/12 Z
【請求項の数】 9
(21)【出願番号】P 2020069827
(22)【出願日】2020-04-08
(65)【公開番号】P2021166000
(43)【公開日】2021-10-14
【審査請求日】2023-02-28
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】100104880
【弁理士】
【氏名又は名称】古部 次郎
(74)【代理人】
【識別番号】100125346
【弁理士】
【氏名又は名称】尾形 文雄
(74)【代理人】
【識別番号】100166981
【弁理士】
【氏名又は名称】砂田 岳彦
(72)【発明者】
【氏名】石塚 美帆
【審査官】▲柳▼谷 侑
(56)【参考文献】
【文献】特開2013-109690(JP,A)
【文献】特開平09-134357(JP,A)
【文献】特開2007-140632(JP,A)
【文献】特開2002-063197(JP,A)
【文献】特開昭62-075885(JP,A)
【文献】特開2008-225895(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/12
(57)【特許請求の範囲】
【請求項1】
プロセッサを備え、
前記プロセッサは、
手書きの文字列に対する文字認識の結果を取得し、
文字認識をした文字列が、既に記入した文字列と同じ文字列が入ることを意味する文字または記号であるときに、当該文字または記号に応じて定まる方向の文字列を探索し、当該文字または記号が記載される枠の情報と、当該方向に存在する枠の情報とを比較し、枠内に記載される内容の属性が同じ場合に、当該文字または記号が指す文字列の候補とし、当該文字または記号を、探索により得られた文字列に置換する
情報処理装置。
【請求項2】
前記プロセッサは、前記属性として、文字認識をしたときに使用した辞書が同じであるときに、内容の属性が同じであるとすることを特徴とする請求項に記載の情報処理装置。
【請求項3】
前記プロセッサは、前記候補が複数になったときは、前記文字または記号から位置が最も近いものを選択することを特徴とする請求項に記載の情報処理装置。
【請求項4】
前記プロセッサは、置換した文字列を、ユーザに対し確認させる確認画面を表示することを特徴とする請求項に記載の情報処理装置。
【請求項5】
前記プロセッサは、前記確認画面として、前記文字または記号および当該文字または記号が指す文字列として手書きのもの、並びに当該文字または記号が指す文字列の文字認識の結果を並べて表示することを特徴とする請求項に記載の情報処理装置。
【請求項6】
前記プロセッサは、前記確認画面に加え、手書きの文字列が記載された文書の画像をさらに表示し、
前記文書の画像中で、前記文字または記号の箇所および当該文字または記号が指す文字列の箇所の位置を表示することを特徴とする請求項に記載の情報処理装置。
【請求項7】
前記プロセッサは、ユーザが確認画面の中の何れかを選択したときに、前記文書の画像中で、前記文字または記号の箇所および当該文字または記号が指す文字列の箇所の位置を示すことを特徴とする請求項に記載の情報処理装置。
【請求項8】
手書きの文字列が記載された文書を画像として読み取る読取装置と、
手書きの文字列を文字認識する文字認識装置と、
前記文字認識装置による文字認識の結果をユーザに確認させる確認画面を表示する表示装置と、
前記確認画面の画像を作成する画像作成装置と、
を備え、
前記画像作成装置は、プロセッサを備え、
前記プロセッサは、
前記文字認識装置から文字認識の結果を取得し、
文字認識をした文字列が、既に記入した文字列と同じ文字列が入ることを意味する文字または記号であるときに、当該文字または記号に応じて定まる方向の文字列を探索し、当該文字または記号が記載される枠の情報と、当該方向に存在する枠の情報とを比較し、枠内に記載される内容の属性が同じ場合に、当該文字または記号が指す文字列の候補とし、当該文字または記号を、探索により得られた文字列に置換する
文字認識システム。
【請求項9】
コンピュータに、
手書きの文書に対する文字認識の結果を取得する取得機能と、
文字認識をした文字列が、既に記入した文字列と同じ文字列が入ることを意味する文字または記号であるときに、当該文字または記号に応じて定まる方向の文字列を探索し、当該文字または記号が記載される枠の情報と、当該方向に存在する枠の情報とを比較し、枠内に記載される内容の属性が同じ場合に、当該文字または記号が指す文字列の候補とし、当該文字または記号を、探索により得られた文字列に置換する置換機能と、
を実現させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、データ構造、文字認識システム、プログラムに関する。
【背景技術】
【0002】
従来より、文書中の記入欄に記載された手書きの文字を、OCR(Optical Character Recognition)を使用して文字認識する技術が存在する。そして、文字認識の結果が正しいが否かをユーザに確認させる処理を行うことがある。
【0003】
特許文献1には、文字処理装置が開示されている。この文字処理装置では、入力手段から入力された文書データをデータ記憶手段に記憶し、一致判断手段によって、データ記憶手段に記憶されたデータ間において、部分的に前方一致する文字列がある場合に、文字列置換手段によって、特定文字列記憶手段から特定文字列を読みだして置換し、さらに置換によって空白挿入手段により空白を補完する。また、データ内の特定文字列を元の文字列に復元する。
【先行技術文献】
【特許文献】
【0004】
【文献】特開平9-134357号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
複数の記入欄に同じ文字列が入る場合、既に記入した文字列と同じ文字列が入ることを意味する、「同上」、「同左」、「〃」などの文字や記号を記載することがある。ところが、OCRが、この文字や記号を、そのまま文字認識を行うと、ユーザは、これらが指す文字列を文書中から探し出し、確認しなければならない。この場合、ユーザの負担が増大する。
本発明は、既に記入した文字列と同じ文字列が入ることを意味する文字や記号が存在しても、文字認識の結果を確認するユーザの負担が増大しにくい情報処理装置等を提供することを目的とする。
【課題を解決するための手段】
【0006】
請求項1に記載の発明は、プロセッサを備え、前記プロセッサは、手書きの文字列に対する文字認識の結果を取得し、文字認識をした文字列が、既に記入した文字列と同じ文字列が入ることを意味する文字または記号であるときに、当該文字または記号に応じて定まる方向の文字列を探索し、当該文字または記号が記載される枠の情報と、当該方向に存在する枠の情報とを比較し、枠内に記載される内容の属性が同じ場合に、当該文字または記号が指す文字列の候補とし、当該文字または記号を、探索により得られた文字列に置換する情報処理装置である。
請求項2に記載の発明は、前記プロセッサは、前記属性として、文字認識をしたときに使用した辞書が同じであるときに、内容の属性が同じであるとすることを特徴とする請求項1に記載の情報処理装置である。
請求項3に記載の発明は、前記プロセッサは、前記候補が複数になったときは、前記文字または記号から位置が最も近いものを選択することを特徴とする請求項1に記載の情報処理装置である。
請求項4に記載の発明は、前記プロセッサは、置換した文字列を、ユーザに対し確認させる確認画面を表示することを特徴とする請求項1に記載の情報処理装置である。
請求項5に記載の発明は、前記プロセッサは、前記確認画面として、前記文字または記号および当該文字または記号が指す文字列として手書きのもの、並びに当該文字または記号が指す文字列の文字認識の結果を並べて表示することを特徴とする請求項4に記載の情報処理装置である。
請求項6に記載の発明は、前記プロセッサは、前記確認画面に加え、手書きの文字列が記載された文書の画像をさらに表示し、前記文書の画像中で、前記文字または記号の箇所および当該文字または記号が指す文字列の箇所の位置を表示することを特徴とする請求項4に記載の情報処理装置である。
請求項7に記載の発明は、前記プロセッサは、ユーザが確認画面の中の何れかを選択したときに、前記文書の画像中で、前記文字または記号の箇所および当該文字または記号が指す文字列の箇所の位置を示すことを特徴とする請求項6に記載の情報処理装置である。
請求項8に記載の発明は、手書きの文字列が記載された文書を画像として読み取る読取装置と、手書きの文字列を文字認識する文字認識装置と、前記文字認識装置による文字認識の結果をユーザに確認させる確認画面を表示する表示装置と、前記確認画面の画像を作成する画像作成装置と、を備え、前記画像作成装置は、プロセッサを備え、前記プロセッサは、前記文字認識装置から文字認識の結果を取得し、文字認識をした文字列が、既に記入した文字列と同じ文字列が入ることを意味する文字または記号であるときに、当該文字または記号に応じて定まる方向の文字列を探索し、当該文字または記号が記載される枠の情報と、当該方向に存在する枠の情報とを比較し、枠内に記載される内容の属性が同じ場合に、当該文字または記号が指す文字列の候補とし、当該文字または記号を、探索により得られた文字列に置換する文字認識システムである。
請求項9に記載の発明は、コンピュータに、手書きの文書に対する文字認識の結果を取得する取得機能と、文字認識をした文字列が、既に記入した文字列と同じ文字列が入ることを意味する文字または記号であるときに、当該文字または記号に応じて定まる方向の文字列を探索し、当該文字または記号が記載される枠の情報と、当該方向に存在する枠の情報とを比較し、枠内に記載される内容の属性が同じ場合に、当該文字または記号が指す文字列の候補とし、当該文字または記号を、探索により得られた文字列に置換する置換機能と、を実現させるためのプログラムである。
【発明の効果】
【0007】
請求項1の発明によれば、既に記入した文字列と同じ文字列が入ることを意味する文字や記号が存在しても、文字認識の結果を確認するユーザの負担が増大しにくい情報処理装置を提供することができ、既に記入した文字列と同じ文字列が入ることを意味する文字や記号が指す文字列をより的確に探索でき、枠中に記入される文字列の属性を考慮して探索を行うことができる。
請求項2の発明によれば、枠中に記入される文字列の内容を考慮して探索を行うことができる。
請求項3の発明によれば、既に記入した文字列と同じ文字列が入ることを意味する文字や記号が指す文字列として、最も的確なものを抽出できる。
請求項4の発明によれば、既に記入した文字列と同じ文字列が入ることを意味する文字や記号が指す文字列を、ユーザが確認することができる。
請求項5の発明によれば、既に記入した文字列と同じ文字列が入ることを意味する文字や記号とこれらが指す文字列とを、比較して確認することができる。
請求項6の発明によれば、既に記入した文字列と同じ文字列が入ることを意味する文字や記号およびこれらが指す文字列の、元の紙文書中での位置を確認することができる。
請求項7の発明によれば、確認したい文字列を、ユーザが選択することができる。
請求項8の発明によれば、既に記入した文字列と同じ文字列が入ることを意味する文字や記号が存在しても、文字認識の結果を確認するユーザの負担が増大しにくい情報処理システムを提供することができ、既に記入した文字列と同じ文字列が入ることを意味する文字や記号が指す文字列をより的確に探索でき、枠中に記入される文字列の属性を考慮して探索を行うことができる。
請求項9の発明によれば、既に記入した文字列と同じ文字列が入ることを意味する文字や記号が存在しても、文字認識の結果を確認するユーザの負担が増大しにくい機能をコンピュータにより実現でき、既に記入した文字列と同じ文字列が入ることを意味する文字や記号が指す文字列をより的確に探索でき、枠中に記入される文字列の属性を考慮して探索を行うことができる。
【図面の簡単な説明】
【0008】
図1】本実施の形態における文字認識システムの構成例を示す図である。
図2】画像形成装置のハードウェア構成例を示した図である。
図3】文字認識システムの概略動作について示した図である。
図4】本実施の形態の紙文書の一例を示した図である。
図5】(a)~(c)は、OCR結果に対し、図3の1Gで行われる確認作業として、従来の作業の例を示した図である。
図6】本実施の形態における情報処理システムの機能構成例を示したブロック図である。
図7】記憶部で記憶される文字認識データのデータ構造を示した図である。
図8】(a)~(b)は、確認画面の第1の例について示した図である。
図9】(a)~(b)は、確認画面の第2の例について示した図である。
図10図9の確認画面の認識結果一覧を表示するための表示リストを作成する手順を示した図である。
図11】探索部が、「同上」が指す文字列を紙文書の中から検索する処理について示した図である。
図12】探索部が、「同左」が指す文字列を紙文書の中から検索する処理について示した図である。
図13】(a)は、図11のステップ210の処理について、さらに詳しく説明したフローチャートである。(b)は、図12のステップ310の処理について、さらに詳しく説明したフローチャートである。
図14】ユーザが、マウス等の入力デバイスにより、認識結果一覧の認識結果の箇所を選択するときの、端末装置の動作を示した図である。
図15】(a)~(c)は、置換部の動作を示した図である。
【発明を実施するための形態】
【0009】
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
【0010】
<文字認識システム全体の説明>
図1は、本実施の形態における文字認識システム1の構成例を示す図である。
図示するように本実施の形態の文字認識システム1は、画像形成装置10と、管理サーバ20と、端末装置30とが、ネットワーク70、ネットワーク80を介して接続されることにより構成されている。
なお、図1では、画像形成装置10および端末装置30は、それぞれ1つずつしか示していないが、それぞれを複数設けてもよい。
【0011】
画像形成装置10は、紙等の記録媒体に画像を形成し、印刷媒体として出力する装置である。画像形成装置10は、プリンタ機能を備えるが、これに加えて、例えば、スキャナ機能、ファクシミリ機能等の他の画像処理機能を備えている。
図2は、画像形成装置10のハードウェア構成例を示した図である。
図示するように、画像形成装置10は、CPU(Central Processing Unit)11と、RAM(Random Access Memory)12と、ROM(Read Only Memory)13と、HDD(Hard Disk Drive)14と、操作パネル15と、画像読み取り部16と、画像形成部17と、通信インタフェース(以下、「通信I/F」と表記する)18とを備える。そして、これらがバスBを介して必要なデータのやりとりを行う。
【0012】
CPU11は、ROM13等に記憶された各種プログラムをRAM12にロードして実行することにより、後述する各機能を実現する。
【0013】
RAM12は、CPU11の作業用メモリ等として用いられるメモリである。
ROM13は、CPU11が実行する各種プログラム等を記憶するメモリである。
HDD14は、画像読み取り部16が読み取った画像情報や画像形成部17における画像形成にて用いる画像情報等を記憶する例えば磁気ディスク装置である。
操作パネル15は、各種情報の表示やユーザからの操作入力の受付を行う、例えばタッチパネルである。そのため表示機構は、予め定められた領域でコンテンツ(情報内容)を画像として表示する液晶パネル等の表示部を備えるとともに、液晶パネルに人の指、スタイラスペンに代表される接触物が接触したときに、接触物が液晶パネルに接触した位置を検知する機能を備えている。本実施の形態においてタッチパネルは、特に限定されるものではなく、抵抗膜方式や静電容量方式など種々の方式のものを使用することができる。
【0014】
画像読み取り部16は、読取装置の一例であり、原稿に記録された画像を読み取る。本実施の形態では、原稿として、手書きの文字列が記載された文書を画像として読み取る。
画像読み取り部16は、例えばスキャナであり、光源から原稿に照射した光に対する反射光をレンズで縮小してCCD(Charge Coupled Devices)で受光するCCD方式や、LED光源から原稿に順に照射した光に対する反射光をCIS(Contact Image Sensor)で受光するCIS方式のものを用いるとよい。
【0015】
画像形成部17は、記録媒体に画像を形成する印刷機構の一例である。ここで、画像形成部17は、例えばプリンタであり、感光体に付着させたトナーを用紙等の記録媒体に転写して像を形成する電子写真方式や、インクを記録媒体上に吐出して像を形成するインクジェット方式のものを用いるとよい。
通信I/F18は、ネットワーク70、80を介して他の装置との間で各種情報の送受信を行う。
【0016】
管理サーバ20は、文字認識システム1の全体の管理をするサーバコンピュータである。また、管理サーバ20がクラウド上に設けられる場合、管理サーバ20は、クラウドサーバであると言うこともできる。管理サーバ20は、例えば、画像形成装置10や端末装置30を操作するユーザの認証を行い、電子情報を画像形成装置10や端末装置30との間で電子情報の送受信を行う。ここで、「電子情報」とは、何らかの情報を電子化したものである。この「電子情報」は、画像形成装置10、管理サーバ20および端末装置30のそれぞれで扱うことができるものであれば、情報の種類、形式およびデータ構造等について特に限られるものではない。ただし、本実施の形態の文字認識システム1で扱う電子情報としては、例えば、文字情報や画像情報等である。
また、詳しくは後述するが、管理サーバ20は、文字認識装置の一例であり、画像形成装置10の画像読み取り部16で読み取られた手書きの文字列を文字認識する。
【0017】
管理サーバ20は、演算手段であるCPUと、記憶手段であるメインメモリ、およびHDDやSSD(Solid State Drive)等のストレージを備える。CPUは、OS(基本ソフトウェア)やアプリケーションソフトウェア(応用ソフトウェア)等の各種ソフトウェアを実行する。また、メインメモリは、各種ソフトウェアやその実行に用いるデータ等を記憶する記憶領域であり、ストレージは、各種ソフトウェアに対する入力データや各種ソフトウェアからの出力データ等を記憶する記憶領域である。
さらに、管理サーバ20は、外部との通信を行うための通信I/Fと、キーボード、マウス、タッチパネル、スタイラスペン等の入力デバイスとを備える。また、管理サーバ20は、液晶ディスプレイ等の表示デバイスを備えてもよい。
【0018】
端末装置30は、管理サーバ20で文字認識された文字認識の結果を、ユーザが確認する装置である。端末装置30は、例えば、汎用のパーソナルコンピュータ(PC)である。そして、端末装置30は、OS(Operating System)による管理下において、各種アプリケーションソフトウェアを動作させることで、電子情報の作成等が行われるようになっている。なお、この文字認識の結果を、以後、「OCR結果」と言うことがある。
【0019】
端末装置30は、管理サーバ20と同様に、CPU、メインメモリ、ストレージ、通信I/F、入力デバイスを備える。これらは、情報処理装置あるいは画像作成装置の一例であり、管理サーバ20によるOCR結果をユーザに確認させる確認画面を作成する。そして、CPUは、プロセッサの一例である。また、端末装置30は、この確認画面を表示する表示装置の一例である表示デバイスを備える。
【0020】
ネットワーク70は、画像形成装置10、管理サーバ20および端末装置30の間の情報通信に用いられる通信手段であり、例えば、インターネットである。
ネットワーク80も、ネットワーク70と同様に、画像形成装置10、管理サーバ20および端末装置30の間の情報通信に用いられる通信手段であり、例えば、LAN(Local Area Network)である。
【0021】
<文字認識システム1の動作の概略説明>
図3は、文字認識システム1の概略動作について示した図である。
なお、この例では、画像形成装置10を操作するユーザは、ユーザAであり、端末装置30を操作するユーザは、ユーザBであるとする。また、ユーザAおよびユーザBは、予め管理サーバ20に対し、ユーザの認証を行っているものとする。
【0022】
まず、ユーザAが、紙文書Bkを、画像形成装置10を用いて、スキャンする(1A)。スキャンは、画像形成装置10の画像読み取り部16を用いて行われ、画像情報からなる電子情報として、管理サーバ20に送られる(1B)。
【0023】
紙文書は、文書の一例であり、予め定められた書式で印刷した印刷文書Bpに、ユーザA等が手書きで記入を行ったものである。紙文書Bkは、特に限られるものではなく、例えば、帳票、アンケート用紙、伝票、申請書、届出書、稟議書などである。
【0024】
図4は、本実施の形態の紙文書Bkの一例を示した図である。
図示する紙文書Bkは、帳票であり、予め定められた書式で印刷された印刷文書Bpに、ユーザAが、手書きの文字列Mtとして記入した場合を示している。印刷文書Bpには、例えば、氏名、住所等の記入欄Raが予め印刷され、ユーザAが、この記入欄Raに、自己の氏名、住所を、手書きの文字列Mtとして記入した場合を示している。この記入欄Raは、ユーザAが記入する枠、あるいは文字認識を行う対象となる認識枠であると把握することもできる。
【0025】
図3に戻り、管理サーバ20は、スキャンした電子情報を受け取ると、OCRによる文字認識を行う(1C)。これは、例えば、予め管理サーバ20に、印刷文書Bp中の記入欄Raを登録しておく(1D)。そして、登録された記入欄Raを基に、手書きの文字Mtの部分を抽出し、抽出した手書きの文字Mtについて、OCRによる文字認識を行う。
そして、管理サーバ20は、OCR結果を、端末装置30に送信する(1E)。
端末装置30では、詳しくは後述するが、ユーザBに対し、OCR結果が正しいか否かを確認させる確認画面Gaを表示する(1F)。即ち、この場合、ユーザBは、OCR結果が正しいか否かを確認する担当者や管理者である。
ユーザBは、確認画面Gaにより確認を行い、訂正がある場合は、ユーザは、OCR結果を訂正する(1G)。そして、ユーザBが確認後は、確認訂正結果として出力される(1H)。また、確認訂正結果は、管理サーバ20に送られ、保存される(1I)。
【0026】
図5(a)~(c)は、OCR結果に対し、図3の1Gで行われる確認作業として、従来の作業の例を示した図である。
このうち、図5(a)は、図3の1Aでスキャンした紙文書Bkを示している。
この紙文書Bkは、伝票であり、送付先および送り主情報として、それぞれ住所の欄Ra1、Ra2が設けられる。そして、ユーザAが、この記入欄Ra1に、送付先の住所を、文字列Mt1として記入した場合を示している。また、送り主の住所を、手書きの文字列Mt2として記入した場合を示している。ただし、図示する例では、送付先の住所および送り主の住所が同じであったため、前者は、実際の住所を、文字列Mt1として記入しているが、後者は、文字列Mt2として、「同上」と記入し、既に記入した住所と同じであることを示している。
【0027】
図5(b)は、図5(a)で示した紙文書BkのOCR結果を示している。
これは、図3の1Fで表示される確認画面Gaの一部である。図示するOCR結果は、送付先の住所について、ユーザAが記入した手書きの文字列Mt1が、文字列Mc1に文字認識されたことを示している。また、送り主の住所についても、ユーザAが記入した手書きの文字列Mt2が、文字列Mc2に文字認識されたことを示している。
【0028】
また、図5(c)は、図3の1Hで保存される確認訂正結果の例を示している。
この例では、確認訂正結果は、CSV形式で出力される。そして、出力データが、「送付先_住所、送り主_住所、○○県△△市◇◇町1-2-34、同上」であることを示している。
【0029】
しかしながら、図5(b)で示したように、OCR結果として、文字列Mc2である「同上」を、そのまま確認画面Gaに表示した場合、確認を行うユーザBは、この「同上」に対応する文字列Mt1を、元の紙文書Bkから探し出し、その内容を手入力する必要がある。この場合、ユーザBは、確認画面Gaの中に、文字列Mc2である「同上」を発見した場合、紙文書Bkを表示するイメージ画像の中の文字列Mt2を探し出す。そして、これからさらに、このイメージ画像の中の文字列Mt1を探し出し、文字列Mc2の内容を、「同上」から「○○県△△市◇◇町1-2-34」へ修正する。この場合、OCR結果を確認するユーザBの負担が増大する。
【0030】
なお、図5(a)~(c)では、「同上」の場合について、示したが、「同左」、「〃」などの文字や記号が、紙文書Bkに記入された場合も同様である。
そこで、本実施の形態では、文字認識システム1を、以下のような構成とし、ユーザBの負担の軽減を図っている。
【0031】
<文字認識システム1の構成の説明>
図6は、本実施の形態における文字認識システム1の機能構成例を示したブロック図である。
なお、ここでは、文字認識システム1が有する種々の機能のうち本実施の形態に関係するものを選択して図示している。
【0032】
文字認識システム1の画像形成装置10は、送受信部110と、印刷部120と、スキャンを行う読取部130と、制御部140とを備える。
送受信部110は、管理サーバ20との間で電子情報の送受信を行う。送受信部110は、スキャンした紙文書Bkの画像情報を管理サーバ20に送信する。送受信部110は、例えば、通信I/F18に対応する。
印刷部120は、印刷機構であり、用紙等の記録媒体に印刷を行う。印刷部120は、例えば、画像形成部17に対応する。
読取部130は、紙文書Bkをスキャンして読み取り、画像情報とする。読取部130は、例えば、画像読み取り部16に対応する。
制御部140は、画像形成装置10全体の制御を行う。制御部140は、例えば、CPU11、RAM12、およびROM13に対応する。
【0033】
管理サーバ20は、送受信部210と、文字認識部220と、記憶部230とを備える。
送受信部210は、画像形成装置10および端末装置30との間で電子情報の送受信を行う。送受信部210は、画像形成装置10でスキャンした紙文書Bkの画像情報を受け取る、また、紙文書BkのOCR結果を端末装置30に送る。
【0034】
文字認識部220は、OCRであり、紙文書Bk中の手書きの文字列Mtの文字認識を行う。また、記憶部230は、送受信部210が受け付けた紙文書Bkの画像情報、文字認識の結果であるOCR結果、および記入欄Raの定義情報を記憶する。
【0035】
定義情報は、紙文書Bk中の各記入欄Raの属性、位置、大きさの情報を含む。属性の情報としては、各記入欄Raの名称であり文字認識を行う対象となる枠の名称である認識枠名、各記入欄Raで使用する辞書の名称である辞書名である。この辞書は、文字認識の際に使用される辞書であり、各記入欄Raに記入された文字列Mtの内容によって、予め適用する辞書が定められている。例えば、記入欄Raが、氏名を記入する欄であった場合、名前辞書が適用される。即ち、名前辞書は、例えば、人の名前を集めた辞書であり、氏名の文字認識を行うのに適した内容となっている。また、記入欄Raが、住所を記入する記入欄Raであった場合、住所辞書が適用される。辞書としては、他に、日付を記入する記入欄Raに対して使用される日付辞書なとが挙げられる。また、各記入欄Raの位置、大きさの情報は、各記入欄Raの紙文書Bk中での座標情報として表される。
そして、文字認識部220は、定義情報に基づき、手書きの文字列Mtの文字認識を行う。
【0036】
記憶部230は、紙文書Bkの画像情報、記入欄Raの定義情報、文字認識部220によるOCR結果を関連付け、文字認識データとして記憶する。
図7は、記憶部230で記憶される文字認識データのデータ構造を示した図である。
図示するデータ構造は、送受信部210が受け付けた紙文書Bkの画像情報と、文字認識した結果を格納するためのテーブルTとの組み合わせとして表すことができる。このテーブルTは、「認識枠名」、「OCR結果」、「辞書名」、「座標x」、「座標y」、「幅w」、「高さh」の各カラムに対するレコードからなる。
「認識枠名」は、各記入欄Raの名称である。また、認識枠名は、この記入欄Raに記入される文字列の内容を表す情報でもある。つまり、氏名、住所1、生年月日などの名称が付与され、それぞれ氏名、住所、生年月日が記入されることがわかる。また、「OCR結果」は、各記入欄Raに記入された文字列MtのOCR結果である。さらに、「辞書名」は、各記入欄Raで使用する辞書の名称である。この場合、辞書名は、文字列の内容を表す情報に対応して用意される辞書であり、文字認識の際に使用した辞書の名称であると言うこともできる。そして、「座標x」、「座標y」、「幅w」、「高さh」は、各記入欄Raの紙文書Bk中での座標情報であり、記入欄Raのx座標、y座標、幅、高さにそれぞれ対応する。つまり座標情報は、紙文書Bk中での記入欄Raの位置および記入欄Raの大きさを表す。なお、x座標およびy座標は、紙文書Bkの左上端を原点(0、0)とし、記入欄Raの左上角の位置を表したものである。
また、記憶部230は、文字認識の際に使用する辞書を記憶する。
【0037】
端末装置30は、外部装置との間で電子情報の送受信を行う送受信部310と、ユーザからの指示を受け付ける受付部320と、「同上」等の文字列の有無を判定する判定部330と、「同上」等が指す文字列を探索する探索部340と、表示データを作成する表示制御部350と、確認画面Gaを表示する表示部360と、文字列を置換する置換部370とを備える。
【0038】
送受信部310は、管理サーバ20との間で電子情報の送受信を行う。送受信部310は、管理サーバ20から、記憶部230が記憶するデータである、紙文書Bkの画像情報、記入欄Raの定義情報、文字認識部220によるOCR結果を取得する。
受付部320は、ユーザの指示を受け付ける。ユーザの指示は、例えば、確認画面Gaで行われ、例えば、紙文書Bkの選択や、OCR結果の修正などである。
【0039】
判定部330は、文字認識をした文字列が、既に記入した文字列と同じ文字列が入ることを意味する文字または記号であるか否かを判定する。即ち、判定部330は、記入欄Raに記入した文字列Mtが、「同上」、「同左」、「〃」などの文字や記号であるか否かを、OCR結果に基づき判定する。
探索部340は、「同上」、「同左」、「〃」などの文字または記号が指す文字列を探索する。つまり、紙文書Bk中で、これらが指し示す文字列を探し出す。また、これは、「同上」、「同左」、「〃」などの文字または記号が引用する文字列を探索する、と言うこともできる。
【0040】
表示制御部350は、表示部360で表示する画面の表示データを作成する。また、表示部360は、表示制御部350で作成された表示データに基づき、画像を表示する。
ここで表示する画像は、上述した確認画面Gaである。
置換部370は、「同上」、「同左」、「〃」などの文字または記号を、これらの文字または記号が指す文字列に置換する。つまり、「同上」、「同左」、「〃」などの文字または記号は、これらが指し示す文字列に修正される。
【0041】
<確認画面Gaの詳細説明>
次に、確認画面Gaについて詳細に説明を行う。
図8(a)~(b)は、確認画面Gaの第1の例について示した図である。
このうち、図8(a)は、確認画面Ga全体を示した図である。図示する確認画面Gaでは、図中左側に、紙文書Bkの画像情報によるイメージ画像Ga1を表示する。即ち、このイメージ画像Ga1は、画像形成装置10でスキャンした紙文書Bkの画像である。
また、図示する確認画面Gaでは、図中右側に、OCR結果を認識結果一覧Ga2として表示する。
【0042】
図8(b)は、認識結果一覧Ga2の一部を拡大した図である。図示する例では、3つの記入欄Raに対する認識結果Nk1~Nk3を、図中上下方向に並べた場合を示す。このうち、上から1つ目の認識結果Nk1と2つ目の認識結果Nk2は、記入欄Raに、「同上」、「同左」、「〃」などの文字または記号が記入されていない場合を示している。この場合、認識結果Nk1の上段には、手書きの文字列Mt11が表示される。そして、下段には、この文字列Mt11のOCR結果として文字列Mc11が表示される。同様に、認識結果Nk2の上段には、手書きの文字列Mt21が表示される。そして、下段には、この文字列Mt21のOCR結果として文字列Mc21が表示される。
【0043】
一方、3つ目の認識結果Nk3は、記入欄Raに、「同上」の文字が記入されていた場合を示している。この場合、認識結果Nk3の中段には、手書きの文字列Mt31が表示される。ここでは、記入欄Raには、「同上」の文字列が記入されていたことを示している。そして、上段には、この「同上」が指す文字列として、手書きの文字列Mt32が表示される。ここでは、この「同上」が指す手書きの文字列Mt32が、「愛知市 〇-△-□」であったことを示している。さらに、下段には、この文字列Mt32のOCR結果として文字列Mc32が表示される。
【0044】
つまりここでは、確認画面Gaとして、文字または記号および文字または記号が指す文字列として手書きのもの(この場合、それぞれ文字列Mt31、文字列Mt32)、並びに文字または記号が指す文字列のOCR結果(この場合、文字列Mc32)を並べて表示する。
これにより、OCR結果を確認するユーザBは、OCR結果が正しいか否かを判断するのが容易になる。
【0045】
また、本実施の形態では、ユーザBが、マウス等の入力デバイスにより、認識結果Nk3の箇所を選択することができる。この場合、イメージ画像Ga1で、「同上」の文字列Mt31が記入された記入欄Raの位置Pj31と、この「同上」が指す文字列Mt32(図では「引用元」と記載)が記入欄Raの位置Pj32とが、ハイライト表示される。この場合、「同上」の文字列Mt31が指す文字列Mt32は、文字列Mt31に対し上方向に位置する。なお、文字列Mt31が、「〃」の記号であった場合も、文字列Mt31と文字列Mt32との位置関係は同様となる。
【0046】
これは、確認画面Gaに加え、手書きの文字列Mt31、Mt32が記載された紙文書Bkの画像をさらに表示し、紙文書Bkの画像中で、「同上」の文字列Mt31の箇所および「同上」が指す文字列Mt32の箇所の位置を表示する、と言うこともできる。
これにより、OCR結果を確認するユーザBは、紙文書Bk中での、文字列Mt31および文字列Mt32の位置を確認することができ、OCR結果が正しいか否かを判断するのがさらに容易になる。
【0047】
なお、ユーザBが、認識結果Nk1の箇所を選択した場合は、イメージ画像Ga1で、文字列Mt11が記入された記入欄Raの位置がハイライト表示される。同様に、ユーザBが、認識結果Nk2の箇所を選択した場合は、イメージ画像Ga1で、文字列Mt21が記入された記入欄Raの位置がハイライト表示される。
【0048】
図9(a)~(b)は、確認画面Gaの第2の例について示した図である。
このうち、図9(b)に示す例は、図8(b)に示した例に比較して、文字列Mt31が、「同上」から「同左」になったこと以外は、同様である。
また、図9(a)では、イメージ画像Ga1で、「同左」の文字列Mt31が記入された記入欄Raの位置Pj31と、この「同左」が指す文字列Mt32(図では「引用元」と記載)が記載された記入欄Raの位置Pj32とが、ハイライト表示される場合を示している。この場合、「同左」の文字列Mt31が指す文字列Mt32は、文字列Mt31に対し左方向に位置する。
【0049】
<端末装置30の動作の詳細説明>
次に、端末装置30の動作について詳細に説明する。
図10図14は、端末装置30の動作について示したフローチャートである。
このうち、図10は、図9の確認画面の認識結果一覧Ga2を表示するための表示リストを作成する手順を示した図である。
まず、送受信部310が、管理サーバ20の記憶部230から文字認識データのテーブルTから1つ目のレコードを取得する(ステップ101)。これは、図7に示す例では、「氏名、てすと 太郎、名前、30、50、100、30」となる。
【0050】
次に、判定部330は、取得したレコードのOCR結果が、「同上」、「同左」、「〃」などの文字または記号であるか否かを判定する(ステップ102)。
そして、OCR結果が、「同上」、「同左」、「〃」などの文字または記号であった場合(ステップ102でYes)、探索部340が、これらの文字または記号が指す文字列を紙文書Bkの中から検索し、表示制御部350が、表示リストを更新する。(ステップ103)。ステップ103の処理については、後で詳しく説明する。
対して、OCR結果が、「同上」、「同左」、「〃」などの文字または記号でなかった場合(ステップ102でNo)、表示制御部350が、これに基づき、表示リストを更新する。具体的には、表示リストに、手書きの文字列Mkと、この文字列MkのOCR結果を追加する(ステップ104)。即ち、図8(b)の認識結果Nk1や認識結果Nk2のような表示を行う設定が追加される。
【0051】
ステップ103およびステップ104の後は、送受信部310が、次のレコードがあるか否かを判断する(ステップ105)。
その結果、次のレコードがある場合(ステップ105でYes)、送受信部310は、次のレコードを取得し(ステップ106)、ステップ102に戻る。
対して、次のレコードがない場合(ステップ105でNo)、一連の処理を終了する。
【0052】
図11および図12は、図10のステップ103の処理についてさらに詳しく説明したフローチャートである。
このうち、図11は、探索部340が、「同上」が指す文字列を紙文書Bkの中から検索する処理について示した図である。なお、「〃」が指す文字列を紙文書Bkの中から検索する処理についても同様となる。
まず、送受信部310が、管理サーバ20の記憶部230から文字認識データのテーブルTから1つ目のレコードを取得する(ステップ201)。
【0053】
そして、探索部340が、ステップ201で取得したレコードの座標xが、「同上」が記入されたレコードの座標xと同じであるか否かを判断する(ステップ202)。つまり、探索部340は、ステップ201で取得した記入欄Raのx座標と、「同上」が記入された記入欄Raのx座標とが同じであるか否かを判断する。
その結果、同じであった場合(ステップ202でYes)、探索部340は、ステップ201で取得したレコードの座標yが、「同上」が記入されたレコードの座標yより小さいか否かを判断する(ステップ203)。つまり、探索部340は、ステップ201で取得した記入欄Raが、「同上」が記入された記入欄Raよりも上側に位置するか否かを判断する。
【0054】
そして、小さかった場合(ステップ202でYes)、即ち、上側に位置した場合、探索部340は、ステップ201で取得したレコードの辞書名と、「同上」が記入されたレコードの辞書名とが同じであるか否かを判断する(ステップ204)。つまり、ここでは、使用した辞書により、記入欄Raの内容が、同じであるか否かを判断する。具体的には、辞書名が、例えば、双方で同じ名前辞書であった場合、双方の記入欄Raには、同種の内容である氏名が入ると考えられる。対して、辞書名が異なる場合、氏名と住所など互いに異なる内容が入ると考えられる。
【0055】
その結果、同じだった場合(ステップ204でYes)、探索部340は、ステップ201で取得したレコードのOCR結果が、「同上」、「同左」、「〃」であるか否かを判断する(ステップ205)。つまり、探索部340は、「同上」が指す文字列が、「同上」、「同左」、「〃」であるか否かを判断する。
そして、「同上」、「同左」、「〃」でない場合(ステップ205でYes)、ステップ201で取得したレコードを、表示候補リストに加える(ステップ206)。
【0056】
よってここでは、探索部340は、ステップ202~ステップ203で、ステップ201で取得したレコードの記入欄Raが、「同上」が記入されたレコードの記入欄Raの直上にあるか否かを、まず判断する。そしてさらに、探索部340は、ステップ204で、同種の内容が入る場合に、ステップ201で取得した記入欄Raの文字列Mtが、「同上」が指す文字列の候補であると判断する。
【0057】
そして、ステップ206の後は、送受信部310が、次のレコードがあるか否かを判断する(ステップ207)。なお、ステップ205で「同上」、「同左」、「〃」だった場合(ステップ205でNo)、およびステップ202、ステップ203、ステップ204でNoの場合もステップ207の処理を行う。
その結果、次のレコードがある場合(ステップ207でYes)、送受信部310は、次のレコードを取得し(ステップ208)、ステップ202に戻る。
対して、次のレコードがない場合(ステップ207でNo)、表示制御部350は、表示候補リスト内に候補となるレコードが、1つ以上存在するか否かを判断する(ステップ209)。
【0058】
その結果、存在した場合(ステップ209でYes)、表示制御部350は、予め定められた方法により上記表示リストを更新する(ステップ210)。この内容については、後述する。
対して、存在しない場合(ステップ209でNo)、即ち、「同上」が指す文字列Mtが記入された記入欄Raが発見できなかった場合、表示制御部350は、これに基づき、上記表示リストの設定を更新する。具体的には、表示リストに、手書きの文字列Mkと、この文字列MkのOCR結果を追加する(ステップ211)。即ち、図8(b)の認識結果Nk3で、文字列Mt32がない表示を行う設定が追加される。
【0059】
また、図12は、探索部340が、「同左」が指す文字列を紙文書Bkの中から検索する処理について示した図である。
図12で、ステップ301およびステップ304~ステップ311は、図11のステップ201およびステップ204~ステップ211と同様である。
よって、ここでは、図11とは異なるステップ302~ステップ303について主に説明を行なう。
ステップ302では、探索部340が、ステップ301で取得したレコードの座標yが、「同左」が記入されたレコードの座標yと同じであるか否かを判断する(ステップ302)。つまり、探索部340は、ステップ301で取得した記入欄Raのy座標と、「同左」が記入された記入欄Raのy座標とが同じであるか否かを判断する。
その結果、同じであった場合(ステップ302でYes)、探索部340は、ステップ301で取得したレコードの座標xが、「同左」が記入されたレコードの座標xより小さいか否かを判断する(ステップ303)。つまり、探索部340は、ステップ301で取得した記入欄Raが、「同左」が記入された記入欄Raよりも左側に位置するか否かを判断する。
【0060】
そして、小さかった場合(ステップ302でYes)、即ち、左側に位置した場合、探索部340は、ステップ301で取得したレコードの辞書名と、「同左」が記入されたレコードの辞書名とが同じであるか否かを判断する(ステップ304)。
【0061】
よってここでは、探索部340は、ステップ302~ステップ303で、ステップ301で取得したレコードの記入欄Raが、「同左」が記入されたレコードの記入欄Raの左側にあるか否かを、まず判断する。そしてさらに、探索部340は、ステップ304で、同種の内容が入る場合に、ステップ301で取得した記入欄Raの文字列Mtが、「同左」が指す文字列の候補であると判断する。
【0062】
図11および図12で説明したように、探索部340は、「同上」、「同左」、「〃」などの文字または記号に応じて定まる方向の文字列を探索する。即ち、「同上」や「〃」の場合、これらが記入された記入欄Raに対し、上方向にこれらが挿す文字列Mtが記入された記入欄Raがある。よって、探索部340は、上方向に対し検索を行う。また、「同左」の場合、これらが記入された記入欄Raに対し、左方向にこれらが挿す文字列Mtが記入された記入欄Raがある。よって、探索部340は、左方向に対し検索を行う。この際、探索部340は、文字列Mtが記入される記入欄Raのx座標およびy座標を利用し、記入欄Raの位置に基づき方向を判断する。
【0063】
また、探索部340は、「同上」、「同左」、「〃」などの文字または記号が記載される記入欄Raの情報と、これらの方向に存在する記入欄Raの情報とを比較し、記入欄Ra内に記載される内容の属性が同じ場合に、文字または記号が指す文字列の候補とする。この場合、探索部340は、属性として、文字認識をしたときに使用した辞書が同じであるときに、内容の属性が同じであるとする。
【0064】
図13(a)は、図11のステップ210の処理について、さらに詳しく説明したフローチャートである。
ここでは、まず表示制御部350は、表示候補リスト内に存在するレコードについて、y座標降順に並び換える(ステップ401)。
次に、表示制御部350は、並び換えた後のレコードの中で、先頭のレコードを、表示リストに加える項目として設定する(ステップ402)。即ち、複数のレコードが、表示候補リスト内に存在した場合、「同上」が記入された記入欄Raから位置が最も近いものが選択される。
さらに、表示制御部350は、表示リストにレコード内の値を反映させ、更新する(ステップ403)。
そして、表示制御部350は、図8(b)で示した認識結果Nk3を表示する画像を表示するために、表示リストを基に、画像を合成する(ステップ404)。
また、表示制御部350は、合成した画像を認識結果一覧Ga2に加える(ステップ405)。
【0065】
また、図13(b)は、図12のステップ310の処理について、さらに詳しく説明したフローチャートである。
ここでは、表示制御部350は、表示候補リスト内に存在するレコードについて、x座標降順に並び換える(ステップ501)。
そして、以後のステップ502~ステップ505は、図13(a)のステップ402~ステップ405と同様である。よってここでも、複数のレコードが、表示候補リスト内に存在した場合、「同左」が記入された記入欄Raから位置が最も近いものが選択される。
【0066】
図14は、ユーザが、マウス等の入力デバイスにより、認識結果一覧Ga2の認識結果の箇所を選択するときの、端末装置30の動作を示した図である。
まず、ユーザが選択した、認識結果一覧Ga2中の位置情報を取得する(ステップ601)。
そして、表示制御部350は、この箇所に、認識結果を表示しているか否かを判断する(ステップ602)。
そして、認識結果を表示している場合(ステップ602でYes)、イメージ画像Ga1で、「同上」、「同左」、「〃」などの文字や記号が記入された記入欄Raのハイライト表示を行う(ステップ603)。さらに、これらが指す記入欄Raのハイライト表示を行う(ステップ604)。
対して、認識結果を表示していない場合(ステップ602でNo)、一連の処理を終了する。
【0067】
図15(a)~(c)は、置換部370の動作を示した図である。
ユーザBが、確認画面Gaで、文字認識の結果を確認した後は、置換部370が、「同上」、「同左」、「〃」などの文字や記号は、これらの文字または記号が指す文字列に置換する。
このうち、図15(a)は、図3の1Aでスキャンした紙文書Bkを示している。
この紙文書Bkは、図5(a)で示した紙文書Bkと同様であり、送付先および送り主情報として、それぞれ住所の欄Ra1、Ra2が設けられる。そして、ユーザAが、この記入欄Ra1に、送付先の住所を、文字列Mt1として記入した場合を示している。
【0068】
図15(b)は、図15(a)で示した紙文書BkのOCR結果を示している。
図示するOCR結果は、送付先の住所について、ユーザAが記入した手書きの文字列Mt1が、文字列Mc1に文字認識されたことを示している。また、送り主の住所についても、ユーザAが記入した手書きの文字列Mt2が、文字列Mc3に文字認識されたことを示している。ただし、文字列Mc3は、置換部370により、文字列Mc2から置換されている。つまり、図5(b)で示したように、文字列Mt2は、まず文字列Mc2である「同上」として文字認識されるが、置換部370により、「同上」が指す文字列Mc3に置換される。この場合、文字列Mc2である「同上」は、文字列Mc3である「○○県△△市◇◇町1-2-34」へ置換される。
【0069】
また、図15(c)は、確認訂正結果の例を示している。
この例では、確認訂正結果は、CSV形式で出力される。そして、出力データが、「送付先_住所、送り主_住所、○○県△△市◇◇町1-2-34、○○県△△市◇◇町1-2-34」であることを示している。
【0070】
以上詳述した例によれば、既に記入した文字列と同じ文字列が入ることを意味する文字や記号が存在しても、文字認識の結果を確認するユーザの負担が増大しにくい情報処理装置を提供することができる。
【0071】
なお、上述した例では、日本語にて、「同上」、「同左」、「〃」などの文字や記号が記載された場合について説明したが、他の言語でも適用できる。例えば、英語で記載された紙文書Bkで、「同上」を意味する「Same as above」、「同左」を意味する「Same as left」などの文字列が記入された場合も、同様の処理ができる。
【0072】
<プログラムの説明>
なお、本実施の形態における端末装置30が行う処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、端末装置30の内部に設けられたCPUが、端末装置30の各機能を実現するプログラムを実行し、これらの各機能を実現させる。
【0073】
よって、画像形成装置10が行う処理は、コンピュータに、手書きの文書に対する文字認識の結果を取得する取得機能と、文字認識をした文字列が、既に記入した文字列と同じ文字列が入ることを意味する文字または記号であるときに、文字または記号を、文字または記号が指す文字列に置換する置換機能と、を実現させるためのプログラムとして捉えることもできる。
【0074】
以上、本実施の形態について説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、種々の変更または改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。
【符号の説明】
【0075】
1…文字認識システム、10…画像形成装置、16…画像読み取り部、20…管理サーバ、30…端末装置、Bk…紙文書、Ga…確認画面、Mt、Mc…文字列、T…テーブル
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15