(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-26
(45)【発行日】2023-11-06
(54)【発明の名称】画像処理装置、及びプログラム
(51)【国際特許分類】
G06V 30/24 20220101AFI20231027BHJP
H04N 1/387 20060101ALI20231027BHJP
G06V 30/146 20220101ALI20231027BHJP
【FI】
G06V30/24 620D
H04N1/387 700
G06V30/146
G06V30/24
(21)【出願番号】P 2020009374
(22)【出願日】2020-01-23
【審査請求日】2022-09-26
(73)【特許権者】
【識別番号】000003562
【氏名又は名称】東芝テック株式会社
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】榊原 淳
【審査官】伊知地 和之
(56)【参考文献】
【文献】特開昭62-120586(JP,A)
【文献】特開2009-272962(JP,A)
【文献】特開2000-155803(JP,A)
【文献】国際公開第97/005561(WO,A1)
【文献】特開2011-008549(JP,A)
【文献】特開2001-344562(JP,A)
【文献】FMVシリーズ,FMV-DESKPOWER,FMV-BIBLO LIFEBOOK,FMV-BIBLO 名刺OCR V4.0 ユーザーズガイド,富士通株式会社,2005年04月30日,第1版,p.172
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00 - 30/12
G06V 30/14 - 30/168
G06V 30/18 - 30/222
G06V 30/224
G06V 30/226 - 30/32
G06V 30/40 - 30/416
G06V 30/42 - 30/424
H04N 1/38 - 1/393
CSDB(日本国特許庁)
(57)【特許請求の範囲】
【請求項1】
名刺に記載された文字画像に対して正立処理が行われた文字画像を
領域ごとに分けて文字認識する第1文字認識部と、
縦書きの名刺の場合、各領域内の文字画像のうち前記第1文字認識部によって文字認識されない
一部の文字画像を回転処理する回転処理部と、
前記回転処理部によって回転処理された文字画像を文字認識する第2文字認識部と、
前記第1文字認識部の文字認識によって得られた文字情報と、前記第2文字認識部の文字認識によって得られた文字情報とを、前記
縦書きの名刺に記載された文字画像の文字情報として一のファイルに保存させ
、横書きの名刺の場合、前記第1文字認識部によって得られた文字情報を、前記横書きの名刺に記載された文字画像の文字情報として一のファイルに保存させる保存処理部と、
を備える画像処理装置。
【請求項2】
前記回転処理部は、前記第1文字認識部によって文字認識されなかった文字画像を、
名刺の書字方向に略直交する方向に回転処理する、
請求項1に記載の画像処理装置。
【請求項3】
前記回転処理部は、前記書字方向に略直交する方向に回転処理した文字画像が前記第2文字認識部によって文字認識されない場合、当該文字画像をさらに略180度回転させる回転処理を行う、
請求項2に記載の画像処理装置。
【請求項4】
コンピュータに、
名刺に記載された文字画像に対して正立処理が行われた文字画像を
領域ごとに分けて文字認識する第1文字認識工程と、
縦書き名刺の場合、各領域内の文字画像のうち前記第1文字認識工程において文字認識されない
一部の文字画像を回転処理する回転処理工程と、
前記回転処理工程において回転処理された文字画像を文字認識する第2文字認識工程と、
前記第1文字認識工程における文字認識によって得られた文字情報と、前記第2文字認識工程における文字認識によって得られた文字情報とを、前記
縦書きの名刺に記載された文字画像の文字情報として一のファイルに保存させ
、横書き名刺の場合、前記第1文字認識工程における文字認識によって得られた文字情報を、前記横書きの名刺に記載された文字画像の文字情報として一のファイルに保存させる保存処理工程と、
を含む処理を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、画像処理装置、及びプログラムに関する。
【背景技術】
【0002】
近年、印刷された文字を、コンピュータが利用可能な文字コードに変換するOCR(Optical Character Reader)処理を行う画像処理装置が普及している。例えば、名刺やカードに記載された文字を読み取って、テキストデータのファイルを作成することなどが行われている。関連する技術として、名刺やカードから読み取った画像から矩形画像を切り出して、矩形画像の天地を判定して回転させるようにすることが知られている。
【0003】
しかしながら、シートの書字方向とは異なる方向に記載された文字があると、当該文字を認識することができないことがあるため、当該文字の文字情報が欠落したファイルが作成されてしまうことがあった。これにより、ユーザが当該文字の文字情報を得るには、ユーザ自身でシートを見直す必要が生じてしまうなど、ユーザにとって利便性が低いことがあった。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明が解決しようとする課題は、ユーザにとっての利便性を向上させることができる画像処理装置、及びプログラムを提供することである。
【課題を解決するための手段】
【0006】
実施形態の画像処理装置は、第1文字認識部と、回転処理部と、第2文字認識部と、保存処理部とを持つ。第1文字認識部は、名刺に記載された文字画像に対して正立処理が行われた文字画像を領域ごとに分けて文字認識する。回転処理部は、縦書きの名刺の場合、各領域内の文字画像のうち前記第1文字認識部によって文字認識されない一部の文字画像を回転処理する。第2文字認識部は、前記回転処理部によって回転処理された文字画像を文字認識する。保存処理部は、前記第1文字認識部の文字認識によって得られた文字情報と、前記第2文字認識部の文字認識によって得られた文字情報とを、前記縦書きの名刺に記載された文字画像の文字情報として一のファイルに保存させ、横書きの名刺の場合、前記第1文字認識部によって得られた文字情報を、前記横書きの名刺に記載された文字画像の文字情報として一のファイルに保存させる。
【図面の簡単な説明】
【0007】
【
図1】実施形態の画像処理装置のハードウェア構成の一例を示す説明図。
【
図2】文字画像に対する正立処理の一例を示す説明図。
【
図4】画像処理装置の機能的構成の一例を示す説明図。
【
図5】画像処理装置が行う名刺ファイルの作成処理の一例を示すフローチャート。
【発明を実施するための形態】
【0008】
実施形態の画像処理装置は、文字情報に欠落が生じたファイルの作成を抑えることが可能である。以下、実施形態の画像処理装置について詳細に説明する。以下の説明では、同一又は類似の機能を有する構成に同一の符号を付す。また、重複した構成の説明は省略する場合がある。
【0009】
先ず、
図1を用いて、実施形態の画像処理装置10の構成について説明する。
図1は、実施形態の画像処理装置10のハードウェア構成の一例を示す説明図である。本実施形態の画像処理装置10は、例えば、画像形成装置を備えたMFP(Multifunction Peripheral)によって実現される。但し、画像処理装置10は、パソコン、スマートフォン、タブレット装置などのコンピュータ装置によって実現されてもよい。
【0010】
図1において、画像処理装置10は、CPU(Central Processing Unit)11と、メモリ12と、記憶媒体I/F(Interface)13と、記憶媒体14と、入力デバイス15と、出力デバイス16と、通信I/F17とを備える。画像処理装置10が備える各部11~17は、バス20によってそれぞれ接続されている。
【0011】
CPU11は、画像処理装置10の全体の制御をつかさどる。メモリ12は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが本実施形態に係る画像処理プログラムなどの各種プログラムを記憶する。RAMは、CPU11のワークエリアとして使用される。メモリ12に記憶されるプログラムは、CPU11にロードされることで、コーディングされている処理をCPU11に実行させる。
【0012】
なお、本実施形態では、CPU11がプログラムを実行することにより本実施形態に係る画像処理を行うこととしているが、これに限らない。例えば、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)を用いて本画像処理を行うことも可能であるし、ソフトウェアとハードウェアの協働により本画像処理を行うことも可能である。
【0013】
また、プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよい。また、プログラムは、DVDやCD-ROMなどの着脱可能な記憶媒体14(非一過性の記憶媒体)に格納されており、記憶媒体14が記憶媒体I/F13に装着されることでインストールされてもよい。
【0014】
記憶媒体I/F13は、CPU11の制御にしたがって記憶媒体14に対するデータのリード/ライトを制御する。記憶媒体I/F13は、例えば、ディスクドライブ、SSD(Solid State Drive)、USB(Universal Serial Bus)ポートなどである。記憶媒体14は、記憶媒体I/F13の制御で書き込まれたデータを記憶する不揮発メモリである。具体的には、記憶媒体14は、例えば、ディスク、半導体メモリ、USBメモリなどである。記憶媒体14は、画像処理装置10から着脱可能であってもよい。
【0015】
入力デバイス15は、画像読取装置、コントロールパネル、及びタッチパネルを含む。画像読取装置は、シートに記載された画像を読み取るスキャナ機能を有する。入力デバイス15は、文字、数字、各種指示などのデータの入力を行う。なお、入力デバイス15は、キーボードやマウスなどを含んでもよい。また、入力デバイス54は、音声を入力するマイクや、撮像対象を撮像するカメラを含んでもよい。
【0016】
出力デバイス16は、例えば、プリンタ部や、自動原稿送り装置や、画像を表示するディスプレイや、音声を出力するスピーカなどを含む。プリンタ部は、例えば、トナー式のプリンタ部であってもよいし、インクジェット式のプリンタ部であってもよい。自動原稿送り装置は、載置部に載置された読み取り対象のシートを連続して画像読取装置に送り出す。
【0017】
通信I/F17は、通信回線を通じてネットワーク30に接続され、ネットワーク30を介して、例えばパソコンなどの他の装置に接続される。通信I/F17は、ネットワーク30と内部のインターフェースを司り、他の装置からのデータの入出力を制御する。通信I/F17には、例えば、モデムやLANアダプタなどを採用することができる。ネットワーク30は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどである。
【0018】
(文字画像に対する正立処理の一例)
次に、文字画像に対する正立処理の一例について説明する。なお、本実施形態において、正立処理や、画像を読み取る読取処理は、画像処理装置10によって行われる。ただし、これに限らず、正立処理や読取処理は、他の装置によって行われてもよい。すなわち、画像処理装置10は、他の装置によって行われた正立処理の結果や読取処理の結果を、当該他の装置から取得するようにしてもよい。
【0019】
ここで、文字画像の正立方向と、書字方向について説明する。文字画像の正立方向とは、その文字画像が文字として認識できる方向である。例えば、「H」という文字画像は、正立方向に沿っていれば「H」という文字として認識できるが、正立方向から90度傾くと「H」でなく「I」や「エ」という文字として認識されてしまう場合がある。また、例えば、「m」という文字画像は正立方向に沿っていれば「m」という文字として認識できるが、正立方向から180度傾くと「m」でなく「w」という文字として認識されてしまう場合がある。
【0020】
書字方向とは、縦書きや横書きといった、単語をなす一連の文字群が並ぶ方向である。正立方向のアルファベット文字で構成する単語における書字方向は、一連の文字群が左から右へ横方向にならぶ横書きであるのが一般的である。正立方向の漢字で構成する単語における書字方向は、縦書きであれば一連の文字群が上から下へ縦方向にならび、横書きであれば一連の文字群が左から右へ横方向にならぶのが、現代の日本では一般的である。
【0021】
図2は、文字画像に対する正立処理の一例を示す説明図である。
図2では、シートを縦書きの名刺200とした場合について説明する。
図2(A)に示すように、名刺200には、部署名201と、氏名202と、会社名203と、住所204と、電話番号205と、FAX206と、メールアドレス207とが記載されている。なお、見出し220には、例えば、会社のロゴやマークや、株式会社であれば株式会社を外した会社の名称などが記載される。この見出し220は、例えば、文字認識の対象外として、予め設定されているものとするが、文字認識の対象としてもよい。
【0022】
ここで、名刺200に記載されている画像は、自動原稿送り装置への名刺200の置き方によっては上下が逆転した画像として読み取られることになる。
図2(A)と
図2(C)とは、それぞれ置き方が逆の場合を示している。
【0023】
図2(A)は、画像読取装置が名刺200を読み取った際の、上下が合っている場合の読取結果を示す。画像処理装置10は、読取結果を取得すると、
図2(B)に示すように、画像処理装置10は、読み取った画像情報から、文字が連続して記載されている矩形領域211a~217aを行情報として抽出する。
【0024】
例えば、矩形領域211aが示す行情報は、「開発部 第二担当」の上下が合った行情報である。次に、画像処理装置10は、行情報を一文字ごとの文字部分に分離し、先頭文字を特定する。具体的には、画像処理装置10は、例えば、矩形領域211aが示す行情報であれば、「開」、「発」、「部」、「第」、「二」、「担」、「当」の一文字ごとの文字部分に分離し、先頭文字220aである「開」を特定する。
【0025】
そして、画像処理装置10は、先頭文字220aにOCR(Optical Character Reader)処理を行う。OCR処理により、先頭文字220aは「開」であると文字認識される。具体的には、OCR処理により、先頭文字220aは「開」を示す文字情報(例えば、文字コード)が得られる。これにより、画像処理装置10は、
図2(A)に示した名刺200の置き方については上下が合っているものと判断し、正立処理を完了する。
【0026】
一方で、
図2(C)は、画像読取装置が名刺200を読み取った際の、上下が合っていない場合の読取結果を示す。この場合も、画像処理装置10は、
図2(B)と同様に行情報を抽出する。具体的には、
図2(D)に示すように、画像処理装置10は、読み取った画像情報から、文字が連続して記載されている矩形領域211b~217bを行情報として抽出する。例えば、矩形領域211bが示す行情報は、「開発部 第二担当」が逆さになった行情報ある。次に、画像処理装置10は、行情報を一文字ごとの文字部分に分離し、先頭文字を特定する。例えば、矩形領域211bが示す行情報の先頭文字220bは、「当」が逆さになった文字である。
【0027】
そして、画像処理装置10は、例えば、先頭文字220bにOCR処理を行う。先頭文字220bは、「当」が逆さになった文字であるため、OCR処理によって文字認識されない。具体的には、OCR処理により、先頭文字220bの文字情報(例えば、文字コード)が得られない。これにより、画像処理装置10は、
図2(C)に示した名刺200の置き方については上下が合っていないものと判断する。
【0028】
そこで、画像処理装置10は、読み取った画像を180度回転処理させ、正立処理を完了する。これにより、画像処理装置10は、
図2(B)に示した読取結果と同様の画像情報を得ることができる。したがって、画像処理装置10は、
図2(C)に示した上下が合っていない置き方であっても、文字認識することが可能になる。
【0029】
なお、
図2では、縦書きの名刺200の正立処理について説明したが、当該正立処理の前提として、画像処理装置10は、縦書きの名刺200であるか、横書きの名刺であるかについて判別する。具体的には、画像処理装置10は、矩形領域211a~217aのそれぞれの配置位置に基づいて、縦書きの名刺200であるか、横書きの名刺であるかを判別してもよい。
【0030】
また、矩形領域の先頭文字を、90度ずつ回転させてOCR処理を行うことにより、縦書きの名刺200または横書きの名刺の判別と、正立処理とを行うことも可能である。具体的には、例えば、
図2(A)に示す名刺200の配置を0度とすると、仮に、矩形領域の先頭文字を左方向に90度回転させてOCR処理を行って文字認識した場合、横書きの名刺であると判別できるとともに、横書きの名刺に対する正立処理も完了する。
【0031】
(横書き文字の文字認識について)
次に、
図3を用いて、名刺200に記載される横書き文字の文字認識について説明する。
図3は、横書き文字の文字認識の一例を示す説明図である。
図3(A)に示すように、正立処理を終えると、
図2(B)に示した画像情報について、縦書き方向のOCR処理を行う。これにより、矩形領域211a~217aに示す行情報の各文字画像を文字認識することができる。
【0032】
ここで、矩形領域217aに示す行情報は、メールアドレスであり、縦書き領域301と、横書き領域302とを含む。縦書き領域301に示す「メール」の文字は、縦書き方向のOCR処理によって文字認識される。一方で、横書き領域302に示す「Taro_Tokyo@daiichi.co.jp」は、アルファベットが横になって並んだ文字であるため、縦書き方向のOCR処理を行ったとしても文字認識されない。
【0033】
そこで、画像処理装置10は、
図3(B)に示すように、文字認識されない横書き領域302を抽出する。さらに、画像処理装置10は、
図3(C)に示すように、横書き領域302の画像を左方向に略90度回転処理させる。これにより、横書き領域302の画像を、横書き文字画像303とすることができる。そして、横書き文字画像303に対して横書き方向のOCR処理することにより、横書き領域302に記載された画像が「Taro_Tokyo@daiichi.co.jp」であると文字認識される。具体的には、横書き方向のOCR処理によって、「Taro_Tokyo@daiichi.co.jp」の各文字に対応する文字情報(例えば、文字コード)が得られる。
【0034】
図3(D)は、名刺200に記載された文字情報として保存される名刺ファイル330を示す。名刺ファイル330は、矩形領域211a~217aに示す各行情報の各文字が縦書き文字に対するOCR処理によって文字認識された文字情報と、横書き文字画像303が横書き文字に対するOCR処理によって文字認識された文字情報とを含む。これにより、画像処理装置10は、名刺200に記載された文字の文字情報を欠落なく得ることができる。
【0035】
なお、
図2(B)に示した正立処理では、矩形領域211aの一の先頭文字220aに対してのみ、OCR処理を行うようにした。ただし、正立処理では、矩形領域211a以外の矩形領域212a~217aに示す各行情報の先頭文字に対しても、それぞれOCR処理を行うようにしてもよい。また、矩形領域211a~217aのうち、予め定めたいずれか一つまたは複数の先頭文字に対して、OCR処理を行うようにしてもよい。
【0036】
複数の先頭文字に対して、OCR処理を行うことにより、正立処理の精度を向上させることができる。具体的に補足すると、仮に、一の先頭文字が、例えば、「田」や「口」といった、上下方向のいずれの方向からも文字認識されてしまう文字であったとする。この場合、OCR処理を行ったとしても、上下の判別ができないこととなる。このため、一の先頭文字のみならず、他の先頭文字に対してもOCR処理を行うことにより、正立処理を適切に行うことができる。
【0037】
なお、
図2に示した正立処理において上下が合っていなかった場合でも、
図3に示した文字全体に対するOCR処理の後に、再度正立処理を行うことは可能である。具体的には、文字画像の上下が合っておらずに、文字全体に対するOCR処理を行うと、ほとんどの文字が文字認識されない。ほとんどの文字が文字認識されない場合、正立処理が適正ではなかったものと判断して、全ての文字画像を180度回転させて、正立処理を再度行うことも可能である。
【0038】
(画像処理装置10の機能的構成について)
次に、
図4を用いて、画像処理装置10の機能的構成について説明する。
図4は、画像処理装置10の機能的構成の一例を示す説明図である。
図4に示すように、画像処理装置10は、正立処理部401と、第1文字認識部402と、回転処理部403と、第2文字認識部404と、保存処理部405とを備える。各部401~405は、CPU11によって実現される。すなわち、CPU11がメモリ12に記憶されている画像処理プログラムを実行することにより、各部401~405の機能を実現する。
【0039】
まず、本実施形態において、シートは、縦書きの名刺200である。ただし、シートは、縦書きの名刺200に限らず、書字方向とは異なる書字方向の文字が一部に含まれるシートであればよい。具体的には、シートは、書字方向が横書きであれば、一部に縦書きの文字が含まれるシートであってもよい。また、シートのサイズは、名刺サイズに限らず、一般的な用紙のサイズ(例えば、A4サイズやB5サイズなど)であってもよい。
【0040】
正立処理部401は、名刺200に記載された文字を正立処理する。正立処理について、具体的に説明すると、正立処理部401は、画像読取装置によって読み取られた画像情報の中から、文字が連続して記載されている領域を抽出する。本実施形態において、文字が連続して記載されている領域は、行(行情報)を示す領域である。正立処理部401は、抽出した領域(行情報)の中から、先頭文字をOCR処理することによって文字画像の正立を確定させる。正立処理部401は、正立処理を行った文字画像の情報を第1文字認識部402に出力する。
【0041】
第1文字認識部402は、名刺200に記載された文字画像に対して正立処理が行われた文字画像を文字認識する。具体的には、第1文字認識部402は、正立処理が行われた文字画像の全体にOCR処理を行う。第1文字認識部402による文字認識によって、名刺200上のほとんどの文字は、文字認識される。本実施形態において、第1文字認識部402は、縦書き文字に対するOCR処理を行う。
【0042】
第1文字認識部402は、文字認識を行うと、文字認識によって得られた文字情報を保存処理部405に出力する。全ての文字画像が第1文字認識部402によって文字認識されると、保存処理部405は、第1文字認識部402の文字認識によって得られた文字情報を、名刺200に記載された文字の文字情報として一のファイルに保存させる。保存処理部405は、保存したファイルをメモリ12または記憶媒体14に記憶させる。
【0043】
一方で、第1文字認識部402によって文字認識されない文字画像がある場合、第1文字認識部402は、当該文字画像の情報を回転処理部403に出力する。なお、第1文字認識部402によって文字認識されない文字画像は、具体的には、横書きの文字画像である。
【0044】
回転処理部403は、第1文字認識部402によって文字認識されない文字画像を回転処理する。回転処理する角度は、第2文字認識部404が当該文字を読み取り可能となる角度であればよい。具体的には、回転処理部403は、第1文字認識部402によって文字認識されなかった文字画像を、名刺200の書字方向に略直交する方向に回転させる。略直交する方向に回転させるとは、例えば、左方向に90度回転させることである。ただし、回転させる角度は、90度に限らず、90度以外の角度(例えば、89度や91度など)であってもよい。
【0045】
第2文字認識部404は、回転処理部403によって回転処理された文字画像を文字認識する。具体的には、第2文字認識部404は、回転処理された文字画像にOCR処理を行う。本実施形態において、第2文字認識部404による文字認識は、第1文字認識部402によるOCR処理における書字方向とは異なる書字方向(横書き)に対するOCR処理によって行われる。第2文字認識部404は、文字認識を行うと、文字認識によって得られた文字情報を保存処理部405に出力する。
【0046】
保存処理部405は、第1文字認識部402の文字認識によって得られた文字情報と、第2文字認識部402の文字認識によって得られた文字情報とを、名刺200に記載された文字の文字情報として一のファイルに保存させる。なお、一のファイルは、シートに記載された文字の文字情報を、シートごとにリスト化したファイルである。本実施形態において、一のファイルは、名刺ファイル330(
図3(D)参照)である。
【0047】
ここで、名刺200(縦書きの名刺)において、横書きの文字が名刺200の下方向から上方向に向けて記載されている場合が想定される。この場合、文字画像を左方向に略90度回転させたとしても、第2文字認識部404が当該文字画像を文字認識できないことがある。言い換えれば、第1文字認識部402によって文字認識されない文字画像が回転処理部403によって左方向に略90度回転させる回転処理が行われたとしても、第2文字認識部404によって当該文字画像が文字認識されないことがある。
【0048】
この場合、回転処理部403は、さらに、当該文字画像を略180度回転させる回転処理を行う。これにより、回転処理部403は、当該文字画像を、当初の角度(0度)から左方向に略270度(右方向に90度)回転させることになる。略180度とは、例えば、180度であるが、第2文字認識部404が当該文字を読み取り可能となる角度であれば、必ずしも180度に限らない。例えば、略180度とは、180度以外の角度(例えば、179度や181度など)であってもよい。
【0049】
なお、本実施形態において、第1文字認識部402によって文字認識されない文字画像が回転処理部403によって回転処理される方向は、左方向とするが、これに限らず、右方向としてもよい。具体的には、例えば、回転処理部403は、第1文字認識部402によって文字認識されない文字画像を、右方向に略270度回転させてもよい。このようにしても、当該文字画像を、左方向に略90度回転させた場合と同様の角度だけ回転させることができる。
【0050】
また、本実施形態において、第1文字認識部402は、名刺200に記載された文字画像を領域ごとに分けて文字認識する。具体的には、第1文字認識部402は、文字画像を行情報ごとに分けて文字認識する。また、回転処理部403は、各領域内の文字画像のうち、第1文字認識部402によって文字認識されない一部の文字画像を回転させる。具体的には、回転処理部403は、
図3に示した、矩形領域217aに示す行情報の文字画像のうち、横書き領域302の文字画像を回転処理させる。一方で、回転処理部403は、
図3に示した、矩形領域217aに示す行情報の文字画像のうち、縦書き領域301の文字画像については回転処理させない。
【0051】
また、本実施形態において、第1文字認識部402によって文字認識されない文字画像は、名刺200に記載されている横書きの文字画像である。名刺200に記載されている横書きの文字画像は、例えば、メールアドレスやURL(Uniform Resource Locator)などである。なお、縦書きの名刺200において、電話番号やFAX番号が横書きで記載されている場合には、これらの番号は、横書きの文字画像に含まれる。
【0052】
(画像処理装置10が行う名刺ファイルの作成処理)
次に、
図5を用いて、画像処理装置10が行う名刺ファイルの作成処理の一例について説明する。
図5は、画像処理装置10が行う名刺ファイルの作成処理の一例を示すフローチャートである。
【0053】
図5において、画像処理装置10は、名刺200の読み取り開始タイミングであるか否かを判定する(ACT501)。なお、画像読取装置によって読み取られるシートのサイズは、例えば、自動原稿送り装置に設けられる用紙サイズを合わせるガイド板の位置から検出される。具体的に説明すると、自動原稿送り装置のガイド板の位置が名刺サイズに応じた位置である場合に、名刺200が読み取られることが検出される。ただし、例えば、名刺200が原稿ガラス上に載置されて画像が読み取られる場合、読取結果に基づいて、シートサイズが検出されてもよい。
【0054】
ACT501において、画像処理装置10は、名刺200の読み取り開始タイミングになるまで待機する(ACT501:NO)。名刺200の読み取り開始タイミングになると(ACT501:YES)、画像処理装置10は、文字が連続して記載されている矩形領域を抽出する(ACT502)。
【0055】
そして、画像処理装置10は、矩形領域内の先頭文字をOCR処理する(ACT503)。次いで、OCR処理の結果を用いて、文字画像の正立処理を行う(ACT504)。ACT504では、ACT503において行われたOCR処理で文字認識ができた場合には、そのまま正立処理が完了し、文字認識ができなかった場合には、先頭文字を180度回転させることにより、縦書きの名刺200に対する正立処理が完了する。なお、先頭文字を180度回転させても、文字認識できなかった場合は、その位置からさらに、+90度、または-90度回転させて、OCR処理により文字認識が可能になると、横書き名刺の正立処理が完了する。
【0056】
そして、画像処理装置10は、名刺200に記載の全文字に対してOCR処理を行う(ACT505)。ACT503において、画像処理装置10は、縦書きの名刺200であれば、縦書き文字に対するOCR処理を行い、横書きの名刺であれば、横書き文字に対するOCR処理を行う。次いで、画像処理装置10は、シートが縦書きの名刺200であるか否かを判定する(ACT506)。
【0057】
縦書きの名刺200ではない場合(ACT506:NO)、すなわち、シートが横書きの名刺である場合、画像処理装置10は、OCR処理によって得られた横書きの文字の文字情報を一のファイルに保存する(ACT515)。一方、縦書きの名刺200である場合(ACT506:YES)、画像処理装置10は、OCR処理を行った全文字のうち、文字認識が不可能な文字画像があるか否かを判定する(ACT507)。文字認識が不可能な文字画像がない場合(ACT507:NO)、画像処理装置10は、OCR処理によって得られた縦書きの文字の文字情報を一のファイルに保存する(ACT515)。
【0058】
一方、画像処理装置10は、OCR処理を行った全文字のうち、文字認識が不可能な文字画像がある場合(ACT507:YES)、文字認識が不可能な文字画像を左方向に略90度回転させる回転処理を行う(ACT508)。そして、画像処理装置10は、当該文字画像に対して横書き文字に対するOCR処理を行う(ACT509)。次いで、画像処理装置10は、横書き文字に対するOCR処理によって当該文字画像を文字認識できたか否かを判定する(ACT510)。
【0059】
横書き文字に対するOCR処理によって当該文字画像を文字認識できた場合(ACT510:YES)、画像処理装置10は、ACT505における縦書き文字に対するOCR処理によって得られた文字情報と、ACT509における横書き文字に対するOCR処理によって得られた文字情報と関連付けて、名刺200に記載された文字情報として、一のファイルを作成し(ACT511)、ACT515に進む。
【0060】
一方、画像処理装置10は、ACT510において、横書き文字に対するOCR処理によって文字画像を文字認識できない場合(ACT510:NO)、当該文字画像を180度回転させる回転処理が済んでいるか否かを判断する(ACT512)。なお、当該文字画像を180度回転させるのは、縦書きの名刺200において、横書きの文字が名刺200の下方向から上方向に向けて記載されている場合でも、文字認識することを可能にするためである。
【0061】
当該文字画像を180度回転させる回転処理が済んでいない場合(ACT512:NO)、画像処理装置10は、当該文字画像を180度回転させる回転処理を行い(ACT513)、ACT509に戻る。ここで、当該文字画像を180度回転させる回転処理が済んでいる場合とは(ACT512:YES)、横書き文字に対するOCR処理によって文字認識できなかった文字を、180度回転させて、再度横書き文字に対するOCR処理を行ったとしても文字認識できない場合である。また、180回転させて再度横書き文字に対するOCR処理を行ったとしても文字認識できない文字とは、例えば、特殊な言語、特殊な文字、特殊な記号、及び図形などである。
【0062】
ACT512において、当該文字画像を180度回転させる回転処理が済んでいる場合(ACT512:YES)、画像処理装置10は、文字情報が欠落している旨を示す欠落情報をファイルに追加する(ACT514)。欠落情報は、例えば、欠落部分がユーザに分かるように、その旨を表示可能にする情報や印刷可能にする情報である。そして、画像処理装置10は、ファイルを保存して(ACT515)、一連の処理を終了する。
【0063】
なお、保存したファイルは、ユーザの操作に応じて出力可能である。具体的には、保存されたファイルは、プリンタ部から印刷することが可能である。また、パソコンやスマートフォンなどの他のコンピュータ装置にファイルを転送することにより、他のコンピュータ装置でファイルを表示することも可能である。
【0064】
以上述べた実施形態では、正立処理された文字画像のうち、文字認識されない文字画像を回転処理させてOCR処理を行うようにした。そして、回転処理をせずに行ったOCR処理によって得られた文字情報と、回転処理をして行ったOCR処理によって得られた文字情報とを、シートに記載の文字画像の文字情報として一のファイルに保存させるようにした。これにより、シートの書字方向とは異なる方向に記載された文字がある場合でも、当該文字の文字情報が欠落したファイルの作成を抑えることができる。このため、当該文字を表示したり、印刷したりすることができる。したがって、ユーザ自身でシートの欠落した文字を見直すことを要さないため、ユーザにとっての利便性を向上させることができる。
【0065】
また、本実施形態において、画像処理装置10は、正立処理された文字画像のうち、文字認識されない文字画像を、書字方向に略直交する方向に回転させるようにした。これにより、書字方向に対して直交する方向に記載されている文字画像を文字認識することができる。したがって、書字方向に対して直交する方向に記載されている文字の文字情報を欠落なくファイルを保存することができる。
【0066】
また、本実施形態において、画像処理装置10は、書字方向に略直交する方向に回転させて文字画像が文字認識されない場合、当該文字画像をさらに略180度回転させるようにした。これにより、書字方向(例えば縦書き)に対して直交する方向に記載されている文字(例えば横書きの文字)の記載方向(例えば、下側から上側、または上側から下側)にかかわらず、当該文字を文字認識することが可能になる。したがって、書字方向に対して異なる方向に記載されている文字の文字情報を欠落なくファイルに保存することができる。
【0067】
また、本実施形態において、画像処理装置10は、シートに記載された文字画像を領域(矩形領域)ごとに分けて文字認識し、各領域内の文字画像のうち、文字認識されない一部の文字画像を回転処理するようにした。これにより、領域内(例えば、
図3(A)の矩形領域217a)に書字方向とは異なる書字方向の文字(横書き領域302)が含まれる場合でも、当該文字を画像認識することができる。したがって、シートに記載の文字の文字情報を欠落なくファイルに保存することができる。
【0068】
また、本実施形態において、シートを縦書きの名刺200とし、文字認識されない文字画像を、名刺に記載されている横書きの文字画像とした。これにより、縦書きの名刺200に記載されている横書きの文字を文字認識することができる。したがって、縦書きの名刺200に記載されている、メールアドレス等の横書きの文字の文字情報を欠落なくファイルに保存することができる。
【0069】
上述した実施形態における画像処理装置10の機能をコンピュータで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0070】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0071】
10…画像処理装置、11…CPU、12…メモリ、15…入力デバイス、16…出力デバイス、200…名刺、302…横書き領域、303…横書き文字画像、330…名刺ファイル、401…正立処理部、402…第1文字認識部、403…回転処理部、404…第2文字認識部、405…保存処理部