IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7532124情報処理装置、情報処理方法及びプログラム
<>
  • 特許-情報処理装置、情報処理方法及びプログラム 図1
  • 特許-情報処理装置、情報処理方法及びプログラム 図2
  • 特許-情報処理装置、情報処理方法及びプログラム 図3
  • 特許-情報処理装置、情報処理方法及びプログラム 図4
  • 特許-情報処理装置、情報処理方法及びプログラム 図5
  • 特許-情報処理装置、情報処理方法及びプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-02
(45)【発行日】2024-08-13
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
   G06V 30/16 20220101AFI20240805BHJP
   G06V 30/14 20220101ALI20240805BHJP
   G06V 30/24 20220101ALI20240805BHJP
   G06V 30/242 20220101ALI20240805BHJP
   G06V 30/28 20220101ALI20240805BHJP
【FI】
G06V30/16
G06V30/14 340K
G06V30/24 620D
G06V30/249
G06V30/28
【請求項の数】 10
(21)【出願番号】P 2020122994
(22)【出願日】2020-07-17
(65)【公開番号】P2022019257
(43)【公開日】2022-01-27
【審査請求日】2023-07-05
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】山▲崎▼ 妙子
【審査官】佐田 宏史
(56)【参考文献】
【文献】特開2019-128727(JP,A)
【文献】特開2013-206258(JP,A)
【文献】特開2009-289038(JP,A)
【文献】特開平08-122994(JP,A)
【文献】嶌田 聡、外2名,“文字の切り出しを行わないテロップ文字列の高速な認識”,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2011年11月17日,Vol.111, No.317,pp.57-62
【文献】中尾 一郎、外3名,“文書構造と単語属性に基づく再認識処理による名刺OCRソフトウェア”,Matsushita Technical Journal,日本,松下電器産業株式会社,2000年04月18日,Vol.46, No.2,pp.127-132
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/14,30/16,30/24,30/242,30/28
(57)【特許請求の範囲】
【請求項1】
文書に記載されている文字が正立する状態の文書画像に対して、縦書きか横書きかを判定する処理を行う判定手段と、
前記文書画像を回転させる処理を行う回転手段と、
横書きの文字列領域を特定するのに適した文字列検出処理を行う検出手段と、
前記文字列検出処理で検出された文字列領域に対し、文字認識処理を行う文字認識手段と、
を備え、
前記検出手段は、
前記判定の結果が横書きである場合には、前記回転手段によって回転されていない前記文書画像に対して前記文字列検出処理を行い、
前記判定の結果が縦書きである場合には、前記回転手段によって90度回転させた前記文書画像に対して前記文字列検出処理を行
前記文字認識手段は、
前記判定の結果が縦書きである場合、前記文字列検出処理で検出された文字列領域を-90度回転させた文字列領域の画像に対して第1の文字認識処理を行い、
さらに、前記第1の文字認識処理の対象となった文字列領域のうちの英数字が支配的な文字列領域を90度回転させた文字列領域の画像に対して第2の文字認識処理を行う、
ことを特徴とする情報処理装置。
【請求項2】
前記検出手段は、前記文書画像内に存在する黒画素塊の有無を水平方向に走査して、黒画素塊同士の間隔が一定範囲内にある複数の黒画素塊を特定し、当該特定された複数の黒画素塊を囲む外接矩形領域を、前記文字列領域として検出することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記検出された文字列領域を-90度回転させた文字列領域の画像は、前記文字列検出処理で検出された文字列領域に対応する部分画像を-90度回転させる処理、または、前記文字列検出処理で検出された文字列領域の座標情報を-90度回転させて、当該-90度回転後の座標情報を前記回転手段で回転されていない前記文書画像に適用する処理、のいずれかを行うことによって得られる、ことを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記英数字が支配的な文字列領域を90度回転させた文字列領域の画像は、前記第1の文字認識処理の対象となった前記英数字が支配的な文字列領域の部分画像を90度回転させる処理、または、前記英数字が支配的な文字列領域の座標情報を90度回転させて、当該90度回転後の座標情報を前記回転手段によって90度回転させた前記文書画像に適用する処理、のいずれかを行うことによって得られる、ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
【請求項5】
前記英数字が支配的な文字列領域とは、前記第1の文字認識処理の結果に基づき、英数字が支配的であると判定された行単位の文字列領域である、ことを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
【請求項6】
前記文字認識手段は、前記第1の文字認識処理の結果と前記第2の文字認識処理の結果とを統合する手段を有することを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
【請求項7】
前記第2の文字認識処理は、メールアドレスまたはURLに使用される文字種を認識対象とする文字認識処理であることを特徴とする請求項乃至6のいずれか1項に記載の情報処理装置。
【請求項8】
前記文書は、名刺であることを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。
【請求項9】
情報処理装置の判定手段が、文書に記載されている文字が正立する状態の文書画像に対して、縦書きか横書きかを判定する処理を行う判定ステップと、
前記情報処理装置の回転手段が、前記文書画像を回転させる処理を行う回転ステップと、
前記情報処理装置の検出手段が、横書きの文字列領域を特定するのに適した文字列検出処理を行う検出ステップと、
前記情報処理装置の文字認識手段が、前記文字列検出処理で検出された文字列領域に対し、文字認識処理を行う文字認識ステップと、
を含み、
前記検出ステップでは、
前記判定の結果が横書きである場合には、前記回転ステップで回転されていない前記文書画像に対して前記文字列検出処理を行い、
前記判定の結果が縦書きである場合には、前記回転ステップで90度回転させた前記文書画像に対して前記文字列検出処理を行
前記文字認識ステップでは、
前記判定の結果が縦書きである場合、前記検出された文字列領域を-90度回転させた文字列領域の画像に対して第1の文字認識処理を行い、
さらに、前記第1の文字認識処理の対象となった文字列領域のうちの英数字が支配的な文字列領域を90度回転させた文字列領域の画像に対して第2の文字認識処理を行う、
ことを特徴とする情報処理方法。
【請求項10】
コンピュータを、請求項1乃至8のいずれか1項に記載の情報処理装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書画像に含まれる文字列の記載領域を特定する技術に関する。
【背景技術】
【0002】
従来、文書をスキャンして得られた文書画像内の文字を読み取って認識する技術がある。この技術は一般にOCR(Optical Character Recognition)と呼ばれる。OCR処理には通常、文書画像をOCRに適した画像に修正する画像前処理、文書画像から文字の記載領域(文字列領域)を特定する文字列検出処理、検出された文字列領域に含まれる各文字を識別する文字認識処理とで構成される。このようなOCR処理に関し、特許文献1には、一般的な横書きの文書をスキャンして得た文書画像に対し、画像全体の縦横の射影から文字列領域を検出して文字認識を行う技術が開示されている。また、特許文献2には、名刺をスキャンして得た文書画像に対し、画像全体の縦横の射影から文字列の外接枠を検出し、さらに当該外接枠内の連結画素の数に基づいて氏名部分を特定して文字認識を行う技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開平7-200733号公報
【文献】特開平6-96270号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記OCR処理の結果を用いて文書画像のインデキシングに用いることが従来から行われており、このインデキシングの一態様として、名刺をスキャンして保存するというユースケースがある。名刺は一般的な文書と異なり、用紙サイズが小さく、かつ、そこに含まれる文字数も少ないのが通常である。また、氏名等を縦書きで記載した縦型名刺も存在する。
【0005】
上記インデキシングにおいては、上述の縦型名刺のような縦書きかつ記載文字数が少ない(文字密度が低い)文書に対しても、その文書画像から文字列領域を適切に検出し、高精度に文字認識処理を行うことが求められる。しかしながら、特許文献1の技術は、一般的な文書、すなわち横書きかつ記載文字数が多い(文字密度が高い)文書しか想定しておらず、縦型名刺のような文書については精度よく処理することができない。また、特許文献2の技術は名刺に特化した技術である上、氏名付近に会社ロゴなどの模様があるなどの射影が上手く取れないような複雑なレイアウトの文書については想定されていない。
【0006】
本開示の技術は、上記の問題に鑑みてなされたものであり、処理対象となる文書に横書きと縦書きが混在していても適切に文字列領域を検出し、高精度に文字認識処理を行うことを目的とする。
【課題を解決するための手段】
【0007】
本開示に係る情報処理装置は、文書に記載されている文字が正立する状態の文書画像に対して、縦書きか横書きかを判定する処理を行う判定手段と、前記文書画像を回転させる処理を行う回転手段と、横書きの文字列領域を特定するのに適した文字列検出処理を行う検出手段と、前記文字列検出処理で検出された文字列領域に対し、文字認識処理を行う文字認識手段と、を備え、前記検出手段は、前記判定の結果が横書きである場合には、前記回転手段によって回転されていない前記文書画像に対して前記文字列検出処理を行い、前記判定の結果が縦書きである場合には、前記回転手段によって90度回転させた前記文書画像に対して前記文字列検出処理を行前記文字認識手段は、前記判定の結果が縦書きである場合、前記文字列検出処理で検出された文字列領域を-90度回転させた文字列領域の画像に対して第1の文字認識処理を行い、さらに、前記第1の文字認識処理の対象となった文字列領域のうちの英数字が支配的な文字列領域を90度回転させた文字列領域の画像に対して第2の文字認識処理を行う、ことを特徴とする。
【発明の効果】
【0008】
本開示の技術によれば、処理対象となる文書に横書きと縦書きが混在していても適切に文字列領域を検出することができ、その結果、高精度に文字認識処理を行うことができる。
【図面の簡単な説明】
【0009】
図1】情報処理システムのハードウェア構成を示す図。
図2】システム全体の処理の流れを示すフローチャート。
図3】縦書きの文書画像の一例。
図4】横書きの文書画像の一例。
図5】縦書きの文書画像から文字列領域を検出する様子を説明する図。
図6】後処理の詳細を示すフローチャート。
【発明を実施するための形態】
【0010】
以下、本発明の実施形態について図面に基づいて説明する。なお、実施形態は本発明を限定するものではなく、また、実施形態で説明されている全ての構成が本発明の課題を解決するため必須の手段であるとは限らない。
【0011】
[実施形態1]
[ハードウェア構成]
図1は、本実施形態に係る情報処理システムのハードウェア構成を示す図である。情報処理システムは、複写機100と、情報処理装置110とを有する。
複写機100は、スキャナ101と、複写機側通信部102とを有する。スキャナ101は、文書のスキャンを行い、文書画像を生成する。複写機側通信部102は、ネットワークを介して、情報処理装置110を含む外部装置と通信を行う。
【0012】
情報処理装置110は、システム制御部111と、ROM112と、RAM113と、HDD114と、表示部115と、入力部116と、情報処理装置側通信部117とを有する。システム制御部111は、CPUなどの演算装置で構成され、ROM112に記憶された制御プログラムを読み出して各種処理を実行する。RAM113は、システム制御部111の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD114は、各種データや各種プログラム等を記憶する。なお、後述する情報処理装置110の機能や処理は、システム制御部111がROM112又はHDD114に格納されているプログラムを読み出し、このプログラムを実行することにより実現される。情報処理装置側通信部117は、ネットワークを介して、複写機100を含む外部装置との通信処理を行う。表示部115は、各種情報を表示する。入力部116は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。なお、表示部115と入力部116は、タッチパネルのように一体に設けられてもよい。また、表示部115は、プロジェクタによる投影を行うものであってもよく、入力部116は、投影された画像に対する指先の位置を、カメラで認識するものであってもよい。
【0013】
本実施形態においては、複写機100のスキャナ101が名刺等の紙文書をスキャンし、文書画像を生成する。文書画像は、複写機側通信部102により情報処理装置110に送信される。情報処理装置110においては、情報処理装置側通信部117が文書画像を受信し、これをHDD114などの記憶装置に記憶する。
【0014】
なお、図1のハードウェア構成は本実施形態を実現する構成の一例であり、例えば表示部115と入力部116の一部機能は、複写機100にあってもよい。また複写機100と情報処理装置110を一体化した構成であってもよい。
【0015】
<全体処理フロー>
次に、本実施形態に係る情報処理システムにおける、文書画像に対するCOR処理を実現するソフトウェアの動作フローについて、図2を用いて説明する。図2のフローチャートに示す一連の処理は、システム制御部111が所定のプログラムをROM112等から読み出して実行することで実現される。なお、以下の説明において記号「S」はステップを意味する。
【0016】
まず、S201では、文書画像のデータがHDD114から取得される。次に、S202では、取得した文書画像に対してその原稿の種類を判定する処理が実行される。本実施形態では、原稿種類が名刺か非名刺かを判定するものとする。この判定は、スキャン解像度と文書画像サイズに基づき行う。例えば、スキャン解像度が300DPIの場合には、スキャンによって得られた文書画像の長辺が1040ピクセル±5%、短辺が615ピクセル±5%の範囲であれば名刺と判定し、範囲外であれば非名刺と判定する。なお、原稿種類の判定方法は画像サイズに基づく方法に限らない。例えば原稿種類を特定する情報を入力部116から受け付けてもよいし、或いは文書画像から特徴量を算出して予め学習された識別モデルにより判定してもよい。
【0017】
S202における判定結果に基づき、S203では処理フローが分岐する。非名刺と判定された場合にはS204へ遷移し、名刺と判定された場合にはS205へ遷移する。
S204では、原稿種類に依らない汎用的な文字認識処理が実行される。文字認識処理が完了すると、本処理を終了する。
【0018】
S205では、文書画像に対して傾斜を補正する処理が実行される。スキャナ101により生成される文書画像は、原稿台への原稿の置き方により傾きが生じる。そこで、傾斜補正処理を行って傾きのない文書画像を得る。傾斜補正処理は、特許第4114959号などに開示される公知の方法を適用すればよい。
【0019】
次に、S206では、文書画像中の文字方向を判別する処理が実行される。ここで、文字方向は、文書画像中の文字が正立する方向を0度とした時の文字の方向と定義する。上記S205で傾斜補正処理が施された文書画像は、原稿が90度単位で回転している場合がある。そこで、特許第3727971号などに開示される公知の方法を適用して、文書画像の文字方向を取得する。
【0020】
次に、S207では、S206で判別された文字方向に基づき文書画像を回転させる処理が実行される。これにより、文字が正立した文書画像が得られる。
【0021】
次に、S208では、文書画像から文字画素を抽出する処理が実行される。本実施形態では、各画素の輝度値に対して閾値処理を行う二値化により文字画素を抽出する。二値化には、例えば大津の二値化など公知の方法を適用すればよい。原稿中の文字は背景に比べて濃い色で印刷されるのが通常であるため、輝度値が閾値よりも小さい方の画素を文字画素とする。なお、文字画素の抽出方法は閾値処理による方法に限らない。例えば、任意の注目画素を中心にその近傍領域から画像特徴量を抽出し、該特徴量に基づき事前に学習された識別モデルに基づき注目画素が文字画素か否かを推論する方法で実現してもよい。
【0022】
次に、S209では、S208にて抽出された文字画素に基づき、行方向を判別する処理が実行される。ここで行方向とは、文書画像中の文字が並ぶ方向であり、本実施形態では横(水平)方向、あるいは縦(垂直)方向の何れかとする。判別手法としては、例えば文書画像の全体に対し縦方向と横方向それぞれに射影ヒストグラムを生成し、分散が小さい方向を行方向として決定する手法などがある。この行方向判別処理により、例えば図3に示す名刺画像301であれば行方向は縦(垂直)方向と判別され、図4に示す名刺画像401であれば行方向は横(水平)方向と判別される。得られた判別結果はRAM113に格納される。
【0023】
次のS210では、S209における判別結果に基づき処理フローが分岐する。判別の結果、行方向が横方向の場合にはS211へ遷移し、行方向が縦方向の場合にはS212へ遷移する。
【0024】
行方向が横方向である場合のS211では、横書きの文字行を特定するのに適した文字列検出処理が実行される。具体的には、文書画像内に存在する黒画素塊の有無を水平方向に走査して、黒画素塊同士の間隔が一定範囲内にある複数の黒画素塊を特定し、当該特定された複数の黒画素塊を囲む外接矩形領域を1つの文字列領域として検出される。文書画像内の文字の並び方向が横方向の場合、文字間の隙間(黒画素塊同士の間隔=白画素の数)は、垂直方向(上下方向)よりも水平方向(左右方向)の方が狭くなるのが通常である。そこで、横書きのひとまとまりの文字群の特定に適するよう処理パラメータを調整した領域解析を行うことによって、文書画像から文字列領域を検出する。具体的な文字列検出の方法としては、特開平7-200733号などに開示される公知の方法を適用すればよい。これにより、例えば行方向が横方向である図4の名刺画像401に対して文字列検出処理を行うと、同図下に示すように5つの横長矩形の文字列領域402~406が検出されることになる。検出された文字列領域の情報は、RAM113に格納される。
【0025】
行方向が縦方向である場合のS212では、文書画像を90度回転させる回転処理が、文字列検出処理に先立って実行される。例えば、行方向が縦方向である図3の名刺画像301を90度回転させ、図5に示すような名刺の上下が左右になるようにした名刺画像501を生成する。このように回転処理された後の名刺画像はRAM113に格納される。これにより、原稿(名刺)上では縦方向に並んでいる文字が回転後の画像中では横方向に並ぶことになる。これにより、行方向が縦方向の文書画像を疑似的に横方向の文書画像として扱うことができ、上述のS211と共通の文字列検出処理を適用することが可能になる。
【0026】
続くS213では、上述のS211と同様、横書きの文字行を特定するのに適した文字列検出処理が実行される。例えば、名刺画像301を90度回転させた図5の名刺画像501の場合は、同図中央に示すように5つの文字列領域502~506が検出されることになる。こうして検出された文字列領域の情報は、RAM113に格納される。なお、図3に示す回転前の名刺画像301に対しそのまま文字列検出処理を行ったとすると、例えば同図右に示すように6つの文字列領域302~307が検出される。この例では、苗字「城野」の部分が別々の文字列領域に分離されてしまっているのが分かる。処理対象が縦長タイプかつ縦書きの名刺の場合、本実施形態のように画像を90度回転させてから文字列検出処理を行うことで、氏名のように文字間隔が広く離散的に配置されている文字部分の文字列領域をより適切に検出できることが分かる。
【0027】
次に、S214では、S213で検出された文字列領域を-90度回転させる処理、すなわち、S212で回転させた方向とは逆の方向に同じ角度だけ回転させる処理が実行される。これにより、文字列領域内の文字が正立した状態に戻る。この際、検出された文字列領域に対応する部分画像を-90度回転させてもよい。例えば図5に示す回転後の名刺画像501から、文字列領域502、503、504、505、506それぞれの部分画像を切り出して、各部分画像に対して-90度回転させる処理を行ってもよい。また、検出された文字列領域の座標情報を-90度回転させ、当該回転後の座標情報をS207で取得した文字が成立する方向の文書画像に適用してもよい。例えば、図5の名刺画像501’における文字列領域502’、503’、504’、505’、506’にそれぞれ対応する-90度回転させた座標情報を求め、それを文字が正立する方向の文書画像である301に適用する。これにより、文字が正立する状態の文字列領域を取得できる。
【0028】
S215では、S214で取得した各文字列領域に対して文字認識処理が実行される。文字認識処理としては、例えば、文字列領域に対応する部分画像に含まれる文字の文字コードを、学習済みモデルを用いて推論する手法がある。学習済みモデルとは、文字画像を入力としてその文字コードを出力するよう学習された識別モデルである。S216でも同様に、S211で検出した各文字列領域に対して文字認識処理が実行される。S216の文字認識処理が完了すると、本処理を終了する。
【0029】
S217では、S215で得られた文字認識結果に対して、後処理が実行される。この後処理の詳細については後述する。後処理が完了すると、本処理を終了する。
【0030】
以上が、文書画像に対するCOR処理を実現するソフトウェアの動作フローである。
【0031】
<後処理の詳細>
続いて、S217の後処理について、図6のフローチャートを参照しつつ説明する。
【0032】
S601では、S215の文字認識処理で得られた認識結果(文字コード)が行単位に分割される。認識結果の中に改行コードが含まれていればそこで分割すればよい。さらに、行単位に分割した認識結果に含まれる1文字毎の位置情報を用いて、行単位に分割後の文字列領域それぞれの外接矩形の座標情報が生成される。例えば、図5の名刺画像501において複数行で構成される文字領列域505の場合は、参照符号507で示すように、2つの文字列領域508と509に分割され、分割後のそれぞれの文字列領域に対応する外接矩形の座標情報が生成される。得られた行単位の文字列領域の座標情報は、行単位の文字コードとともにRAM113に格納される。
【0033】
次にS602では、S601で得られた行単位の文字時列領域について、英数字が支配的かどうかを文字コードに基づいて判定される。例えば、名刺画像301のように、縦長タイプでかつ縦書きの名刺に書かれるメールアドレスやホームページのURLは、横書きにしたものを90度回転させた形式で記載されるケースが多い。汎用的な文字認識処理では、文字が正立した状態にあることを前提に識別モデルを構築するのが一般的であるものの、回転した文字の画像特徴量を別途学習しておくことで、メールアドレス等についても認識できる。その一方、類似した縦書き文字の誤判定も混入し得る。このため、認識結果からその文字行においては英数字が支配的であるか、すなわち、メールアドレスやURLである可能性が高いか否かを判定する。例えば、1行の認識文字数のうち5文字以上かつ、その行に含まれる文字数の過半数が英数記号である場合に、英数字が支配的と判断すればよい。なお、最低5文字以上の条件を設ける理由は、URLのドメインやメールアドレスの標準技術仕様に基づくものである。英数字が支配的であると判定された場合にはS603へ遷移し、そうでない場合は本処理を終了する。
【0034】
S603では、英数字が支配的と判定された行単位の文字列領域の座標情報を90度回転させ、縦になっている文字列領域を横にする。この際、行単位の文字列領域の部分画像を生成し、当該部分画像を90度回転させてもよい。また、座標情報のみを90度回転させ、生成済みである文字列検出用に回転させた文書画像(図5の名刺画像501を参照)に対し、90度回転した座標情報を適用させてもかまわない。これにより、図5における文字列領域510のような、元々は縦であったものを横にした文字列領域が得られる。これにより、中の文字が正立している状態の文字列領域となる。90度回転後の文字列領域はRAM113に格納される。
【0035】
次にS604では、S603で得た回転後の文字列領域に対して文字認識処理が実行される。ここで実行する文字認識処理は先のS215やS216と同じ文字認識処理でもよいし、認識対象の文字種をアルファベット、数字、メールアドレスやURLで使用可能な記号などに絞った学習済みモデルを用いた専用の文字認識処理でもよい。得られた認識結果はRAM113に格納される。
【0036】
次に、S605では、S604にて得られた認識結果が、先のS215における文字認識処理で得られた認識結果と統合される。この統合は、S604の認識結果の座標情報を、元の文書画像の座標系に合わせたものに変換して、S215の認識結果に組み込む処理と言い換えることが可能である。例えば、先に実行されるS215の文字認識処理では、その座標系は図5の名刺画像501’に従う。これに対し後処理におけるS604の文字認識処理では、名刺画像501’における文字列領域505’(行単位で分割後は、文字列領域508と509)を90度回転させて横にした文字列領域510がその対象となるので座標系が一致しない。そこで、S604で得た文字列領域510の認識結果の座標情報を507における座標系、すなわち505’に該当する位置となるように座標情報を変換する。こうして座標系を一致させて、後処理で得られた認識結果と、先に得られている認識結果とを1つにまとめる。統合結果はRAM113に格納される。
【0037】
以上が、本実施形態に係る、後処理の内容である。
【0038】
本実施形態によれば、対象文書が例えば縦型タイプで縦書きの名刺の場合、行方向が横になるよう画像を回転させた上で、横方向用の文字列検出処理を適用し、検出した文字列領域を文字が正立する方向に戻して文字認識処理を実行する。これにより高精度な文字認識結果を得ることが可能になる。また、縦書きの名刺内に横書きの英数文字が90度傾いた状態で配置されている場合でも、後処理において、文字が正立した状態となるように回転させた上で文字認識処理を再び行ってその認識結果を先の認識結果と統合する。これにより、縦書き名刺内に含まれる横書きのメールアドレスやURLについても高精度で文字認識を実行できる。
【0039】
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
図1
図2
図3
図4
図5
図6