IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

<>
  • 特許-情報処理装置及びプログラム 図1
  • 特許-情報処理装置及びプログラム 図2
  • 特許-情報処理装置及びプログラム 図3
  • 特許-情報処理装置及びプログラム 図4
  • 特許-情報処理装置及びプログラム 図5
  • 特許-情報処理装置及びプログラム 図6
  • 特許-情報処理装置及びプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-08
(45)【発行日】2024-04-16
(54)【発明の名称】情報処理装置及びプログラム
(51)【国際特許分類】
   G06V 30/12 20220101AFI20240409BHJP
【FI】
G06V30/12 J
【請求項の数】 6
(21)【出願番号】P 2020007032
(22)【出願日】2020-01-20
(65)【公開番号】P2021114192
(43)【公開日】2021-08-05
【審査請求日】2022-12-23
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110000752
【氏名又は名称】弁理士法人朝日特許事務所
(72)【発明者】
【氏名】岡本 直樹
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】特開平09-062758(JP,A)
【文献】特開2006-106904(JP,A)
【文献】特開2016-177349(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00 - 30/424
(57)【特許請求の範囲】
【請求項1】
プロセッサを備え、
前記プロセッサは、
文書を示す文書画像と、前記文書画像中の文字が記入されている部分である部分画像と、前記文字の文字認識結果とを取得し、
第1表示モードにおいては、第1文書画像と、前記第1文書画像に含まれる第1文字の文字認識結果である第1文字認識結果と、前記第1文字認識結果に対応する第1部分画像とを、文書ごとに表示し、
第2表示モードにおいては、操作部から文字の指定を受け付け、複数の文書における第2文字の文字認識結果である第2文字認識結果を、複数の文書において当該指定の文字ごとに、前記第2文字認識結果に対応する第2部分画像とともに表示し、前記文書画像を表示しないようにする、
ことを特徴とする情報処理装置。
【請求項2】
プロセッサを備え、
前記プロセッサは、
文書を示す文書画像と、前記文書画像中の文字が記入されている部分である部分画像と、前記文字の文字認識結果とを取得し、
第1表示モードにおいては、第1文書画像と、前記第1文書画像に含まれる第1文字の文字認識結果である第1文字認識結果と、前記第1文字認識結果に対応する第1部分画像とを、文書ごとに表示し、
第2表示モードにおいては、複数の文書における第2文字の文字認識結果である第2文字認識結果を、複数の文書において共通した文字ごとに、前記第2文字認識結果に対応する第2部分画像とともに表示し、前記文書画像を表示しないように前記第2文字が記入される前の前記文書を示す他の文書画像中に、前記第2部分画像を表示する
ことを特徴とする情報処理装置。
【請求項3】
前記プロセッサは、利用者の操作に応じて、前記他の文書画像中に前記第2部分画像を表示する
ことを特徴とする請求項に記載の情報処理装置。
【請求項4】
前記プロセッサは、前記第2文字に予め定められた範囲からはみ出した文字が含まれる場合には、前記はみ出した文字を含む第2部分画像を表示する
ことを特徴とする請求項に記載の情報処理装置。
【請求項5】
プロセッサを備え、
前記プロセッサは、
文書を示す文書画像と、前記文書画像中の文字が記入されている部分である部分画像と、前記文字の文字認識結果とを取得し、
第1表示モードにおいては、第1文書画像と、前記第1文書画像に含まれる第1文字の文字認識結果である第1文字認識結果と、前記第1文字認識結果に対応する第1部分画像とを、文書ごとに表示し、
第2表示モードにおいては、複数の文書における第2文字の文字認識結果である第2文字認識結果を、複数の文書において共通した文字ごとに、前記第2文字認識結果に対応する第2部分画像とともに表示し、前記文書画像を表示しないようにし、
前記プロセッサは、前記第2文字認識結果が予め定められた条件を満たさない場合には、前記第2表示モードに従った表示を行う際に前記第2文字が記入された前記文書を示す第2文書画像を表示する
ことを特徴とする情報処理装置。
【請求項6】
コンピュータに、
文書を示す文書画像と、前記文書画像中の文字が記入されている部分である部分画像と、前記文字の文字認識結果とを取得するステップと、
第1表示モードにおいては、第1文書画像と、前記第1文書画像に含まれる第1文字の文字認識結果である第1文字認識結果と、前記第1文字認識結果に対応する第1部分画像とを、文書ごとに表示するステップと、
第2表示モードにおいては、操作部から文字の指定を受け付け、複数の文書における第2文字の文字認識結果である第2文字認識結果を、複数の文書において当該指定の文字ごとに、前記第2文字認識結果に対応する第2部分画像とともに表示し、前記文書画像を表示しないようにするステップと、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及びプログラムに関する。
【背景技術】
【0002】
文書を電子化する技術がある。例えば特許文献1には、定型フォームに所定事項を記入した伝票をフォーム部と記入部分とに分離してデータを生成する技術が記載されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開平5-266247号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
文字認識技術を用いて文書画像に含まれる文字を認識した後、人がその文字認識結果を確認できるように、文字認識結果を表示する場合がある。文字認識結果を表示する方法としては、例えば文書に記入された文字を認識した結果を、文書ごとに表示する方法と、複数の文書に記入された文字を認識した結果を、複数の文書において共通した文字ごとにまとめて表示する方法とが考えられる。その表示に際しては文字を認識した結果とともに、文書を示す文書画像を表示することが知られている。しかし、複数の文書において共通した文字ごとに、文字を認識した結果を表示する場合、文字を認識した結果とともに文書画像を表示しようとすると、該複数の文書の文書画像の取得が必要となり、画面の表示速度が低下してしまう。
本発明は、文書に記入された文字を認識した結果を、文書ごとに表示する第1表示モードと複数の文書に記入された文字を認識した結果を、複数の文書において共通した文字ごとに表示する第2表示モードとを有する構成において、第2表示モードにおいて、複数の文書に記入された文字を認識した結果を、文書を示す文書画像とともに画面に表示する場合に比べて、画面の表示速度を上げることを目的とする。
【課題を解決するための手段】
【0005】
請求項1に係る発明は、プロセッサを備え、前記プロセッサは、文書を示す文書画像と、前記文書画像中の文字が記入されている部分である部分画像と、前記文字の文字認識結果とを取得し、第1表示モードにおいては、第1文書画像と、前記第1文書画像に含まれる第1文字の文字認識結果である第1文字認識結果と、前記第1文字認識結果に対応する第1部分画像とを、文書ごとに表示し、第2表示モードにおいては、操作部から文字の指定を受け付け、複数の文書における第2文字の文字認識結果である第2文字認識結果を、複数の文書において当該指定の文字ごとに、前記第2文字認識結果に対応する第2部分画像とともに表示し、前記文書画像を表示しないようにする、ことを特徴とする情報処理装置である。
【0006】
請求項2に係る発明は、プロセッサを備え、前記プロセッサは、文書を示す文書画像と、前記文書画像中の文字が記入されている部分である部分画像と、前記文字の文字認識結果とを取得し、第1表示モードにおいては、第1文書画像と、前記第1文書画像に含まれる第1文字の文字認識結果である第1文字認識結果と、前記第1文字認識結果に対応する第1部分画像とを、文書ごとに表示し、第2表示モードにおいては、複数の文書における第2文字の文字認識結果である第2文字認識結果を、複数の文書において共通した文字ごとに、前記第2文字認識結果に対応する第2部分画像とともに表示し、前記文書画像を表示しないようにし、前記第2文字が記入される前の前記文書を示す他の文書画像中に、前記第2部分画像を表示することを特徴とする情報処理装置である
【0007】
請求項3に係る発明は、請求項2に記載の情報処理装置において、前記プロセッサは、利用者の操作に応じて、前記他の文書画像中に前記第2部分画像を表示することを特徴とする。
【0008】
請求項4に係る発明は、請求項に記載の情報処理装置において、前記プロセッサは、前記第2文字に予め定められた範囲からはみ出した文字が含まれる場合には、前記はみ出した文字を含む第2部分画像を表示することを特徴とする。
【0009】
請求項5に係る発明は、プロセッサを備え、前記プロセッサは、文書を示す文書画像と、前記文書画像中の文字が記入されている部分である部分画像と、前記文字の文字認識結果とを取得し、第1表示モードにおいては、第1文書画像と、前記第1文書画像に含まれる第1文字の文字認識結果である第1文字認識結果と、前記第1文字認識結果に対応する第1部分画像とを、文書ごとに表示し、第2表示モードにおいては、複数の文書における第2文字の文字認識結果である第2文字認識結果を、複数の文書において共通した文字ごとに、前記第2文字認識結果に対応する第2部分画像とともに表示し、前記文書画像を表示しないようにし、前記プロセッサは、前記第2文字認識結果が予め定められた条件を満たさない場合には、前記第2表示モードに従った表示を行う際に前記第2文字が記入された前記文書を示す第2文書画像を表示することを特徴とする情報処理装置である
【0010】
請求項6に係る発明は、コンピュータに、文書を示す文書画像と、前記文書画像中の文字が記入されている部分である部分画像と、前記文字の文字認識結果とを取得するステップと、第1表示モードにおいては、第1文書画像と、前記第1文書画像に含まれる第1文字の文字認識結果である第1文字認識結果と、前記第1文字認識結果に対応する第1部分画像とを、文書ごとに表示するステップと、第2表示モードにおいては、操作部から文字の指定を受け付け、複数の文書における第2文字の文字認識結果である第2文字認識結果を、複数の文書において当該指定の文字ごとに、前記第2文字認識結果に対応する第2部分画像とともに表示し、前記文書画像を表示しないようにするステップと、を実行させるためのプログラムである
【発明の効果】
【0014】
請求項1に係る発明によれば、文書に記入された文字を認識した結果を、文書ごとに表示する第1表示モードと複数の文書に記入された文字を認識した結果を、複数の文書において共通した文字ごとに表示する第2表示モードとを有する構成において、第2表示モードにおいて、複数の文書に記入された文字を認識した結果を、文書を示す文書画像とともに画面に表示する場合に比べて、画面の表示速度が上がる。
請求項に係る発明によれば、文字が記入された文書の形式とともに、その記入内容を確認することができる。
請求項に係る発明によれば、必要に応じて、文字が記入された文書の形式とともに、その記入内容を確認することができる。
請求項に係る発明によれば、予め定められた範囲からはみ出した文字を、その文字が記入された文書の形式とともに確認することができる。
請求項に係る発明によれば、第2文字認識結果が予め定められた条件を満たさない場合には、文字が記入されている文書を示す文書画像を確認することができる。
請求項に係る発明によれば、文書に記入された文字を認識した結果を、文書ごとに表示する第1表示モードと複数の文書に記入された文字を認識した結果を、複数の文書において共通した文字ごとに表示する第2表示モードとを有する構成において、第2表示モードにおいて、複数の文書に記入された文字を認識した結果を、文書を示す文書画像とともに画面に表示する場合に比べて、画面の表示速度が上がる。
【図面の簡単な説明】
【0015】
図1】実施形態に係る文字認識システム100の構成の一例を示す図である。
図2】クライアント装置110の構成の一例を示す図である。
図3】フォーム画像140、文書画像150、部分画像160、及び文字認識結果170の一例を示す図である。
図4】対応テーブル180の一例を示す図である。
図5】実施形態に係るクライアント装置110の動作の一例を示すフローチャートである。
図6】通常表示モードの確認画面200の一例を示す図である。
図7】串刺し表示モードの確認画面210の一例を示す図である。
【発明を実施するための形態】
【0016】
1.構成
図1は、本実施形態に係る文字認識システム100の構成の一例を示す図である。文字認識システム100は、文書を示す画像に含まれる文字を認識した結果を利用者が確認できるようにするシステムである。利用者は、この文字認識の結果が誤っている場合には、文字認識の結果を訂正してもよい。利用者による確認が行われた後、文字認識の結果は保存されてもよい。なお、ここでいう「文字」とは、言語の文字に限定されず、数字や記号も含むものとする。文字認識システム100は、クライアント装置110とサーバ装置120とを備える。これらの装置は、通信回線130を介して接続されている。
【0017】
図2は、クライアント装置110の構成の一例を示す図である。クライアント装置110は、コピー機能、プリント機能、スキャン機能、ファクシミリ機能等の画像を処理する複数の機能を有する。クライアント装置110は、文書をスキャンすることにより得られる画像をサーバ装置120に提供する。また、クライアント装置110は、サーバ装置120がこの画像に含まれる文字を認識した結果を利用者に提示する。なお、クライアント装置110は、本発明に係る情報処理装置の一例である。クライアント装置110は、プロセッサ111と、メモリ112と、通信部113と、操作部114と、表示部115と、画像読取部116と、画像形成部117とを備える。これらの部位はバス118を介して接続されている。
【0018】
プロセッサ111は、プログラムを実行することにより、クライアント装置110の各部を制御し又は各種の処理を行う。プロセッサ111には、例えばCPU(Central Processing Unit)が用いられてもよい。メモリ112には、プロセッサ111により実行されるプログラムが記憶される。メモリ112には、例えばROM(Read Only Memory)及びRAM(Random Access Memory)が用いられてもよい。メモリ112には、文字認識の結果を利用者が確認できるようにする機能を実現するためのプログラムが記憶されている。また、メモリ112には、ウェブブラウザが記憶されていてもよい。この場合、クライアント装置110とサーバ装置120との間のデータのやり取りはウェブブラウザを介して行われてもよい。通信部113は、通信回線130を介して接続された他の装置とデータ通信を行う。操作部114は、利用者によるクライアント装置110の操作に用いられる。操作部114には、例えばタッチパネルとキーとが用いられてもよい。表示部115は、各種の情報を表示する。表示部115には、例えば液晶ディスプレイが用いられてもよい。画像読取部116は、画像を読み取って画像データに変換する。画像読取部116には、例えばイメージスキャナが用いられてもよい。画像形成部117は、画像データに応じた画像を用紙等の媒体上に形成する。画像形成部117には、例えばプリンターが用いられてもよい。
【0019】
サーバ装置120は、クライアント装置110から提供された文書画像150に文字認識処理を施し、文字認識の結果をクライアント装置110に提供する。サーバ装置120には、フォーム画像140と、文書画像150と、部分画像160と、文字認識結果170と、対応テーブル180とが格納されている。
【0020】
図3は、フォーム画像140、文書画像150、部分画像160、及び文字認識結果170の一例を示す図である。この例では、フォーム画像140には、フォーム画像141~143が含まれる。フォーム画像141~143は、それぞれ「帳票A」~「帳票C」という文書のフォームを示す画像である。すなわち、フォーム画像141~143は、それぞれ文字が記入される前の白紙の文書を示す。これらの文書は、それぞれ予め定められた形式を有する。フォーム画像141には、予め定められた範囲の記入枠1411及び1412が含まれる。この記入枠1411及び1412には、記入者により文字が記入される。ただし、フォーム画像141は、記入者により文字が記入される前の状態を示すため、記入枠1411及び1412には文字が記載されていない。同様に、フォーム画像142、143には、それぞれ記入枠1412と同様の記入枠1421、1431が含まれる。ただし、フォーム画像142、143は、それぞれ記入者により文字が記入される前の状態を示すため、記入枠1421、1431には文字が記載されていない。なお、フォーム画像140は、本発明に係る他の文書画像の一例である。
【0021】
文書画像150には、文書画像151~153が含まれる。文書画像151~153は、それぞれ文字が記入されている「帳票A」~「帳票C」という文書を示す。文書画像151~153は、文書全体を示す画像であってもよいし、文書が複数の頁を有する場合には文書の各頁を示す画像であってもよい。例えばフォーム画像141を用紙に形成することにより記入用紙が作成される。第1記入者は記入用紙の記入枠1411及び1412に手書きで文字を記入する。この記入用紙をスキャンすることにより文書画像151が得られる。なお、文字を記入する方法は手書きに限定されず、印字により記入されてもよい。同様に、第2記入者、第3記入者は、それぞれフォーム画像142、143を用紙に形成することにより作成された記入用紙の記入枠1421、1431に手書きで文字を記入する。この記入用紙をスキャンすることにより文書画像152、153が得られる。
【0022】
部分画像160には、部分画像161~164が含まれる。部分画像161~164は、それぞれ文書画像151~153のいずれかにおいて文字が記入されている部分を示す。部分画像161~164は、それぞれ文書画像151~153のいずれかから文字が記入されている部分を切り出すことにより生成される。例えば文書画像151から記入枠1411、1412の部分を切り出すことにより部分画像161、162がそれぞれ生成される。同様に、文書画像152、153から記入枠1421、1431の部分を切り出すことにより部分画像163、164がそれぞれ生成される。また、サーバ装置120は、文字が記入枠からはみ出していることを検知するはみ出し検知機能を有する。なお、このはみ出し検知機能は、例えば既知の方法を用いて実現される。はみ出し検知機能によりはみ出しが検知された場合には、文書画像150において文字が記入されている部分を、記入枠より大きい範囲で切り出すことにより、部分画像160が生成されてもよい。これにより、記入枠から文字がはみ出している場合には、記入枠からはみ出した文字の部分も部分画像160に含まれる。
【0023】
文字認識結果170には、文字認識結果171~174が含まれる。文字認識結果171~174は、文書画像151~153のいずれかに含まれる文字を認識した結果を示す。文書画像151~153には、文書画像151~153の形式に従って文字認識処理が施される。この文字認識処理には、例えばOCR(Optical character recognition)が用いられてもよい。例えば文字認識結果171、172は、それぞれ文書画像151の記入枠1411、1412に記入された「富士 太郎」、「2」という文字を認識することにより得られる。同様に、文字認識結果173、174は、それぞれ文書画像152、153の記入枠1421、1431に記入された「2」という文字を認識することにより得られる。
【0024】
図4は、対応テーブル180の一例を示す図である。対応テーブル180には、文書画像IDと、フォーム画像IDと、部分画像IDと、位置情報と、文字認識結果IDとが含まれる。文書画像IDは、文書画像150を一意に識別する情報である。フォーム画像IDは、フォーム画像140を一意に識別する情報である。部分画像IDは、部分画像160を一意に識別する情報である。位置情報は、文書画像150における部分画像160の位置を示す情報である。位置情報には、部分画像160に対応する記入枠を一意に識別する情報が用いられてもよい。ただし、位置情報は、記入枠を一意に識別する情報に限定されず、文書画像150における部分画像160の位置座標であってもよい。文字認識結果IDは、文字認識結果170を一意に識別する情報である。
【0025】
図4に示す対応テーブル180では、文書画像151の文書画像IDには、フォーム画像141のフォーム画像IDと、部分画像161及び162の部分画像IDと、記入枠1411及び1412の記入枠IDと、文字認識結果171及び172の文字認識結果IDとが対応付けられている。これは、フォーム画像141は文字が記入される前の「帳票A」という文書を示す画像であり、文書画像151は部分画像161及び162を含み、文書画像151に含まれる文字を認識することにより文字認識結果171及び172が得られることを示す。また、部分画像161の部分画像IDには、記入枠1411を示す位置情報が対応付けられている。これは、部分画像161は、文書画像151において記入枠1411のところに位置することを示す。
【0026】
サーバ装置120に格納された文字認識結果170は、利用者によりクライアント装置110を用いて確認される。このとき、クライアント装置110が文字認識結果170を表示する方法には、通常表示モードと串刺し表示モードとが含まれる。
【0027】
通常表示モードは、文書毎に文字認識結果170を表示する表示モードである。通常表示モードでは、対象の文書を示す文書画像150と、その文書画像150に含まれる文字の文字認識結果170と、その文字認識結果170に対応する部分画像160とが文書ごとに表示される。通常表示モードは、例えば単一の文書を通して文字認識結果170の整合性を確認するのに用いられる。なお、通常表示モードは、本発明に係る第1表示モードの一例である。また、通常表示モードにおいて表示される文書画像150、文字認識結果170、部分画像160は、それぞれ本発明に係る第1文書画像、第1文字認識結果、第1部分画像の一例である。
【0028】
串刺し表示モードは、複数の文書において共通する複数の文字認識結果170をまとめて表示する表示モードである。串刺し表示モードでは、複数の文書における文字の文字認識結果170を、複数の文書において共通した文字ごとに、その文字認識結果170に対応する部分画像160とともに表示されるが、文書画像150は基本的には表示されない。この共通する文字には、例えば確認をしたことを示す記号、確認をしていないことを示す記号、同じ数字又は文字が含まれる。串刺し表示モードは、例えば複数の文書において共通する文字認識結果170を迅速且つ効率的に確認するのに用いられる。なお、串刺し表示モードは、本発明に係る第2表示モードの一例である。また、串刺し表示モードにおいて表示される文字認識結果170、部分画像160は、それぞれ本発明に係る第2文字認識結果、第2部分画像の一例である。
【0029】
2.動作
以下の説明において、プロセッサ111を処理の主体として記載する場合、これは、それぞれメモリ112に記憶されたプログラムと、このプログラムを実行するプロセッサ111との協働により、プロセッサ111が演算を行い又は他のハードウェア要素の動作を制御することにより、処理が行われることを意味する。
【0030】
図5は、本実施形態に係るクライアント装置110の動作の一例を示すフローチャートである。この動作は、利用者がサーバ装置120に格納された文字認識結果170を確認するときに行われる。
【0031】
ステップS11において、プロセッサ111は、利用者の操作に応じて複数の文書を選択する。例えば図3に示される「帳票A」~「帳票C」という文書に含まれる文字の文字認識結果170を確認する場合、利用者は、操作部114を用いて「帳票A」~「帳票C」という文書を選択する操作を行う。この操作に応じて、「帳票A」~「帳票C」という文書が選択される。
【0032】
ステップS12において、プロセッサ111は、利用者の操作に応じて文字認識結果170を通常表示モードで表示するか串刺し表示モードで表示するかを選択する。例えば利用者が操作部114を用いて通常表示モードを選択する操作を行った場合、この操作に応じて通常表示モードが選択される。この場合、ステップS12の判定は通常表示モードとなり、処理はステップS13に進む。
【0033】
ステップS13において、プロセッサ111は、サーバ装置120から対象文書の文書画像150を取得する。この対象文書は、ステップS11において選択された複数の文書のいずれかの文書である。例えば対象文書は、ステップS11において選択された最初の文書であってもよいし、ステップS11において選択された複数の文書の中から利用者の操作に応じて選択された文書であってもよい。具体的にはプロセッサ111は、サーバ装置120に対象文書の文書画像150の取得要求を通信部113から送信する。サーバ装置120は、この取得要求に応じてこの文書画像150をクライアント装置110に送信する。プロセッサ111は、サーバ装置120から送信された文書画像150を通信部113にて受信する。
【0034】
ステップS14において、プロセッサ111は、サーバ装置120から対象文書の部分画像160と文字認識結果170とを取得する。具体的にはプロセッサ111は、サーバ装置120に対象文書の部分画像160と文字認識結果170の取得要求を通信部113から送信する。サーバ装置120は、この取得要求に応じてこれらの部分画像160及び文字認識結果170をクライアント装置110に送信する。プロセッサ111は、サーバ装置120から送信された部分画像160及び文字認識結果170を通信部113にて受信する。ここでは、対象文書が、図3に示す「帳票A」という文書であるものとする。図4に示す対応テーブル180では、「帳票A」という文書を示す文書画像151の文書画像IDと、部分画像161及び162の部分画像IDと、文字認識結果171及び172の文字認識結果IDとが対応付けられている。この場合、部分画像161及び162と文字認識結果171及び172とが取得される。
【0035】
ステップS15において、プロセッサ111は、ステップS13及びS14において取得された対象文書の文書画像150、部分画像160、及び文字認識結果170に基づいて、通常表示モードの確認画面200を表示部115に表示する。
【0036】
図6は、通常表示モードの確認画面200の一例を示す図である。ここでは、ステップS13において文書画像151が取得され、ステップS14において部分画像161及び162と文字認識結果171及び172とが取得されたものとする。確認画面200は、領域201と領域202とに分割されている。領域201には、文書画像151が表示される。領域202には、部分画像161と文字認識結果171、部分画像162と文字認識結果172とがそれぞれ対応する位置に表示される。利用者は、この確認画面200を見ることにより、「帳票A」という文書の文書画像151全体を参照しながら、この文書画像151に含まれる文字の文字認識結果171及び172を、その文字が記入された部分を示す部分画像161及び162と対比しながら確認する。
【0037】
なお、図6に示す確認画面200が表示された後、例えば利用者が操作部114を用いて対象文書を「帳票A」という文書から他の文書に変更する操作を行うと、変更後の文書についてステップS13以降の処理が行われてもよい。
【0038】
一方、上述したステップS12において、例えば利用者が操作部114を用いて串刺し表示モードを選択する操作を行った場合、この操作に応じて串刺し表示モードが選択される。この場合、ステップS12の判定は串刺し表示モードとなり、処理はステップS16に進む。また、このとき、利用者は、操作部114を用いて表示条件を設定する操作を行う。例えば「2」という文字を文字認識した結果だけを見たい場合、「2」という文字を含むことを示す表示条件が設定される。
【0039】
ステップS16において、プロセッサ111は、サーバ装置120からステップS11において選択された複数の文書のいずれかに対応し、表示条件を満たす部分画像160及び文字認識結果170を取得する。具体的な取得方法は、上述したステップS14と同様である。ここでは、ステップS11において選択された文書が「帳票A」~「帳票C」という文書であり、「2」という文字を含むことを示す表示条件が設定されたものとする。図4に示す対応テーブル180では、「帳票A」~「帳票C」という文書を示す文書画像151~153の文書画像IDと、文字認識結果171~174の文字認識結果IDと、部分画像161~164の部分画像IDとが対応付けられている。また、図3に示されるように、文字認識結果171は「2」という文字を含まず、文字認識結果172~174は「2」という文字を含む。さらに、図4に示す対応テーブル180では、文字認識結果172~174の文字認識IDと、部分画像162~164の部分画像IDとが対応付けられている。この場合、文字認識結果172~174と部分画像162~164とが取得される。
【0040】
ステップS17において、プロセッサ111は、ステップS16において取得された部分画像160及び文字認識結果170に基づいて、串刺し表示モードの確認画面210を表示部115に表示する。このとき、プロセッサ111は、図6に示す確認画面200とは異なり、文書画像150を表示しないようにする。
【0041】
図7は、串刺し表示モードの確認画面210の一例を示す図である。ここでは、ステップS16において文字認識結果172~174と部分画像162~164とが取得されたものとする。ステップS17では、図7(a)に示す確認画面210が表示される。確認画面210は、領域211と領域212とに分割されている。図7(a)に示す確認画面210においては、領域211には何の画像も表示されない。領域212には、ステップS16において取得された部分画像162と文字認識結果172、部分画像163と文字認識結果173、部分画像164と文字認識結果174とがそれぞれ対応する位置に表示される。文字認識結果172~174は、いずれも「2」という文字を認識した結果を示す。利用者は、この確認画面210を見ることにより、「帳票A」~「帳票C」という文書に含まれる「2」という文字の文字認識結果172~174を、その文字が記入された部分を示す部分画像162~164と対比しながら確認する。
【0042】
ステップS18において、プロセッサ111は、フォーム画像140の表示が指示されたか否かを判定する。例えばステップS17において表示された確認画面210において、利用者が操作部114を用いて部分画像160のいずれかを選択する操作を行うと、選択された部分画像160に対応する対象文書のフォーム画像140の表示が指示されたと判定される。例えば図7(a)に示す確認画面210において、文字認識結果172に誤りがあり、文字認識結果172を訂正するのに周囲の記載を見る必要がある場合、利用者は部分画像162を選択する操作を行ってもよい。この部分画像162を選択する操作は、例えば部分画像162及び文字認識結果172を含む範囲を選択する操作であってもよい。フォーム画像140の表示が指示されていない場合、ステップS18の判定がNOになり、処理は終了する。一方、フォーム画像140の表示が指示された場合、ステップS18の判定がYESになり、処理はステップS19に進む。
【0043】
ステップS19において、プロセッサ111は、サーバ装置120から対象文書のフォーム画像140と選択された部分画像160の位置情報とを取得する。具体的にはプロセッサ111は、サーバ装置120に対象文書のフォーム画像140及び選択された部分画像160の位置情報の取得要求を通信部113から送信する。サーバ装置120は、この取得要求に応じてこれらのフォーム画像140及び位置情報をクライアント装置110に送信する。プロセッサ111は、サーバ装置120から送信されたフォーム画像140及び位置情報を通信部113にて受信する。ここでは、図7(a)に示される確認画面210において、部分画像162を選択する操作が行われたものとする。この場合、「帳票A」という文書が対象文書となる。図4に示す対応テーブル180では、部分画像162の部分画像IDと、フォーム画像141のフォーム画像IDと、記入枠1412を示す位置情報とが対応付けられている。この場合、フォーム画像141と記入枠1412を示す位置情報とが取得される。
【0044】
ステップS20において、プロセッサ111は、対象文書のフォーム画像140を確認画面210上に表示する。このとき、プロセッサ111は、ステップS19において取得された位置情報に基づいて、対象文書のフォーム画像140の上に対象の部分画像160を重ねて表示する。この場合、図7(b)に示されるように、確認画面210の領域211には、「帳票A」という文書の文字が記入される前の状態を示すフォーム画像141が表示される。また、このフォーム画像141上には、位置情報により示される記入枠1412の位置に部分画像162が重ねて表示される。すなわち、位置情報に従って部分画像162がフォーム画像141上にマッピングされ、フォーム画像141中に部分画像162が表示される。利用者は、この確認画面210を見ることにより、「帳票A」という文書のフォーム画像141と、この文書において「2」という文字が記入された部分の部分画像162とを参照しながら、この文字を示す文字認識結果172を確認する。なお、図7(a)及び図7(b)に示す確認画面210には、文書画像150は表示されない。これは、串刺し表示モードにおいて表示される確認画面210は複数の文書において共通する文字認識結果170を迅速且つ効率的に確認するために用いられるため、文書画像150を表示しなくても足りると考えられるためである。
【0045】
ステップS21において、プロセッサ111は、対象文書の文書画像150の表示が指示されたか否かを判定する。例えばステップS20において表示された確認画面210において、利用者が操作部114を用いて領域211に含まれる部分画像160を選択する操作を行うと、対象文書の文書画像150の表示が指示されたと判定される。例えば図7(b)に示される確認画面210において、文字が記入枠から大きくはみ出していることにより文字認識結果172に誤りが発生したと考えられる場合には、文字認識結果172を訂正するのに対象文書を示す文書画像151全体の見た方がよいと考えられる。このような場合には、図7(b)に示される確認画面210において、領域211に含まれる部分画像162を選択する操作が行われてもよい。文書画像150の表示が指示されていない場合、ステップS21の判定がNOになり、処理は終了する。一方、文書画像150の表示が指示された場合、ステップS21の判定がYESになり、処理はステップS22に進む。
【0046】
ステップS22において、プロセッサ111は、サーバ装置120から対象文書の文書画像150を取得する。具体的な取得方法は、上述したステップS13と同様である。ここでは、図7(b)に示される確認画面210において、領域211に含まれる部分画像162が選択されたものとする。図4に示される対応テーブル180では、部分画像162の部分画像IDと文書画像151の文書画像IDとが対応付けられている。この場合、文書画像151が取得される。
【0047】
ステップS23において、プロセッサ111は、ステップS22において取得された文書画像150を確認画面210上に表示する。なお、この文書画像150は、本発明に係る第2文書画像の一例である。ここでは、ステップS22において文書画像151が取得されたものとする。この場合、図7(c)に示されるように、確認画面210の領域211に、図7(b)に示されるフォーム画像141及び部分画像162に代えて、文書画像151が表示される。利用者は、この確認画面210を見ることにより、「帳票A」という文書を示す文書画像151全体を参照しながら、この文書に含まれる「2」という文字の文字認識結果172を確認する。
【0048】
なお、図7(a)~図7(c)の少なくともいずれかに示される確認画面210が表示された後、利用者により表示条件を変更する操作が行われた場合には、変更後の表示条件に従って上述したステップS16以降の処理が行われてもよい。また、図7(b)に示す確認画面210において、利用者により確認画面210に含まれる他の部分画像160を選択する操作が行われると、他の部分画像160に対応する文書が対象文書となり、新たな対象文書についてステップS19以降の処理が行われてもよい。
【0049】
以上説明した実施形態によれば、串刺し表示モードでは部分画像160及び文字認識結果170は取得されるものの利用者により要求されない限り文書画像150は取得されないため、通常表示モードに比べてサーバ装置120からのデータの取得にかかる時間が短縮される。また、串刺し表示モードでは利用者により要求されない限り文書画像150が表示されないため、通常表示モードに比べて表示に必要なデータ量及び確認画面210の描画量が少なくなる。そのため、串刺し表示モードにおいて、複数の文書に記入された文字を認識した結果を、文書を示す文書画像150とともに確認画面210に表示する場合に比べて、確認画面210の表示速度が上がる。その結果、利用者の操作性が向上する。
【0050】
さらに、串刺し表示モードにおいては、利用者の操作に応じてフォーム画像140とフォーム画像140上の部分画像160とが表示されるため、必要に応じて、対象文書の形式とともに、対象文書に記入された内容を確認することができる。さらに、串刺し表示モードにおいては、利用者の操作に応じてフォーム画像140に代えて文書画像150が表示されるため、必要に応じて、文字が記入されていない文書を示すフォーム画像140に代えて、文字が記入されている文書を示す文書画像150を確認することができる。
【0051】
3.変形例
上述した実施形態は、本発明の一例である。本発明は、上述した実施形態に限定されない。また、上述した実施形態が以下の例のように変形して実施されてもよい。このとき、以下の2以上の変形例が組み合わせて用いられてもよい。
【0052】
上述した実施形態において、串刺し表示モードが選択された場合においてステップS11において選択された文書に表示条件を満たし且つ記入枠からはみ出した文字が含まれるときは、利用者の操作を介さずに、その文書のフォーム画像140とはみ出した文字を含む部分画像160とが確認画面210の領域211に表示されてもよい。例えば「帳票A」という文書に記入されている「2」という文字が記入枠1412からはみ出している場合には、利用者の操作を介さずに、この文書のフォーム画像141が取得され、フォーム画像141とこの文字を含む部分画像162とが確認画面210の領域211に表示されてもよい。このとき、部分画像162は、記入枠1412より大きい範囲で切り出されて生成されていてもよい。また、この場合、上述したステップS17及びS18の処理は行われなくてもよい。この変形例によれば、記入枠からはみ出した文字を、その文字が記入された文書の形式とともに確認することができる。
【0053】
上述した実施形態では、串刺し表示モードが選択された場合にはフォーム画像140上に部分画像160が表示されていたが、この部分画像160は必ずしもフォーム画像140とともに表示されなくてもよい。例えばフォーム画像140が表示された後、利用者の操作に応じてフォーム画像140上に部分画像160が表示されてもよい。また、利用者が確認画面210において部分画像160を選択する操作を行い、且つ、選択された部分画像160に対応する文字が記入枠からはみ出している場合には、フォーム画像140上に部分画像160が表示されてもよい。すなわち、利用者が確認画面210において部分画像160を選択する操作を行った場合にも、選択された部分画像160に対応する文字が記入枠からはみ出していない場合には、フォーム画像140上に部分画像160が表示されなくてもよい。
【0054】
上述した実施形態において、串刺し表示モードが選択された場合において文字認識が良好に行われたことを示す予め定められた条件を文字認識結果170が満たさないときは、利用者の操作を介さずに、文書画像150が確認画面210の領域211に表示されてもよい。例えば、上述したステップS11において選択された複数の文書において、記入枠からはみ出している文字の数又は認識されなかった文字の数が閾値以上である場合には、文字認識結果170がこの条件を満たさないと判定され、利用者の操作を介さずに、これらの文書のいずれかを示す文書画像150が確認画面210の領域211に表示されてもよい。この閾値は、例えば文字認識が良好に行われていないことを示す最小値に設定される。この場合、上述したステップS17~S21の処理は行われなくてもよい。この変形例によれば、串刺し表示モードにおいて、例えば予め定められた条件を満たさない文字認識結果170の数が閾値以上である場合のように文字認識結果170が予め定められた条件を満たさない場合には、文字が記入されている文書を示す文書画像150を確認することができる。
【0055】
上述した実施形態において、対象文書が複数の頁を有する場合、ステップS13又はステップS22では、対象文書の最初の頁を示す文書画像150だけが取得されてもよい。この場合、対象文書の最初の頁以外の頁を示す文書画像150は、例えば利用者の操作に応じて取得され表示されてもよい。同様に、ステップS19では、対象文書の最初の頁を示すフォーム画像140だけが取得されてもよい。対象文書の最初の頁以外の頁を示すフォーム画像140は、例えば利用者の操作に応じて取得され表示されてもよい。
【0056】
上述した実施形態において、図7(a)に示す確認画面210又は図7(b)に示す確認画面210のいずれか一方だけが表示されてもよい。また、図7(c)に示す確認画面210は必ずしも表示されなくてもよい。
【0057】
上述した実施形態において、フォーム画像140上において位置情報が示す位置に部分画像160が合成されてもよい。この場合、この合成処理は、クライアント装置110において行われてもよいしサーバ装置120において行われてもよい。
【0058】
上述した実施形態において、クライアント装置110は必ずしもスキャン機能を有していなくてもよい。例えばクライアント装置110は、サーバ装置120から取得した情報を表示するコンピュータであってもよい。この場合、文書は、クライアント装置110とは異なる画像読取装置においてスキャンされてもよい。
【0059】
上記実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU: Central Processing Unit、等)や、専用のプロセッサ(例えばGPU: Graphics Processing Unit、ASIC: Application Specific Integrated Circuit、FPGA: Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。
【0060】
また上記実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
【0061】
上述した実施形態において、文字認識システム100において処理の主体は、実施形態で説明した例に限定されない。例えばクライアント装置110において行われる処理の少なくとも一部が他の装置において行われてもよい。
【0062】
本発明は、クライアント装置110において実行されるプログラムとして提供されてもよい。なお、クライアント装置110は、それぞれ本発明に係るコンピュータの一例である。このプログラムは、インターネットなどの通信回線を介してダウンロードされてもよいし、磁気記録媒体(磁気テープ、磁気ディスクなど)、光記録媒体(光ディスクなど)、光磁気記録媒体、半導体メモリなどの、コンピュータが読取可能な記録媒体に記録した状態で提供されてもよい。
【符号の説明】
【0063】
100:文字認識システム、110:クライアント装置、111:プロセッサ、112:メモリ、113:通信部、114:操作部、115:表示部、116:画像読取部、117:画像形成部、118:バス、120:サーバ装置
図1
図2
図3
図4
図5
図6
図7