特許7532124 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7532124情報処理装置、情報処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-02

(45)【発行日】2024-08-13

(54)【発明の名称】情報処理装置、情報処理方法及びプログラム

(51)【国際特許分類】

G06V 30/16 20220101AFI20240805BHJP

G06V 30/14 20220101ALI20240805BHJP

G06V 30/24 20220101ALI20240805BHJP

G06V 30/242 20220101ALI20240805BHJP

G06V 30/28 20220101ALI20240805BHJP

【ＦＩ】

G06V30/16

G06V30/14 340K

G06V30/24 620D

G06V30/249

G06V30/28

【請求項の数】 10

(21)【出願番号】P 2020122994

(22)【出願日】2020-07-17

(65)【公開番号】P2022019257

(43)【公開日】2022-01-27

【審査請求日】2023-07-05

(73)【特許権者】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】110001243

【氏名又は名称】弁理士法人谷・阿部特許事務所

(72)【発明者】

【氏名】山▲崎▼ 妙子

【審査官】佐田宏史

(56)【参考文献】

【文献】特開２０１９－１２８７２７（ＪＰ，Ａ）

【文献】特開２０１３－２０６２５８（ＪＰ，Ａ）

【文献】特開２００９－２８９０３８（ＪＰ，Ａ）

【文献】特開平０８－１２２９９４（ＪＰ，Ａ）

【文献】嶌田聡、外２名，“文字の切り出しを行わないテロップ文字列の高速な認識”，電子情報通信学会技術研究報告，日本，社団法人電子情報通信学会，2011年11月17日，Vol.111, No.317，pp.57-62

【文献】中尾一郎、外３名，“文書構造と単語属性に基づく再認識処理による名刺ＯＣＲソフトウェア”，ＭａｔｓｕｓｈｉｔａＴｅｃｈｎｉｃａｌＪｏｕｒｎａｌ，日本，松下電器産業株式会社，2000年04月18日，Vol.46, No.2，pp.127-132

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／１４，３０／１６，３０／２４，３０／２４２，３０／２８

(57)【特許請求の範囲】

【請求項1】

文書に記載されている文字が正立する状態の文書画像に対して、縦書きか横書きかを判定する処理を行う判定手段と、
前記文書画像を回転させる処理を行う回転手段と、
横書きの文字列領域を特定するのに適した文字列検出処理を行う検出手段と、
前記文字列検出処理で検出された文字列領域に対し、文字認識処理を行う文字認識手段と、
を備え、
前記検出手段は、
前記判定の結果が横書きである場合には、前記回転手段によって回転されていない前記文書画像に対して前記文字列検出処理を行い、
前記判定の結果が縦書きである場合には、前記回転手段によって９０度回転させた前記文書画像に対して前記文字列検出処理を行い、
前記文字認識手段は、
前記判定の結果が縦書きである場合、前記文字列検出処理で検出された文字列領域を－９０度回転させた文字列領域の画像に対して第１の文字認識処理を行い、
さらに、前記第１の文字認識処理の対象となった文字列領域のうちの英数字が支配的な文字列領域を９０度回転させた文字列領域の画像に対して第２の文字認識処理を行う、
ことを特徴とする情報処理装置。

【請求項2】

前記検出手段は、前記文書画像内に存在する黒画素塊の有無を水平方向に走査して、黒画素塊同士の間隔が一定範囲内にある複数の黒画素塊を特定し、当該特定された複数の黒画素塊を囲む外接矩形領域を、前記文字列領域として検出することを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記検出された文字列領域を－９０度回転させた文字列領域の画像は、前記文字列検出処理で検出された文字列領域に対応する部分画像を－９０度回転させる処理、または、前記文字列検出処理で検出された文字列領域の座標情報を－９０度回転させて、当該－９０度回転後の座標情報を前記回転手段で回転されていない前記文書画像に適用する処理、のいずれかを行うことによって得られる、ことを特徴とする請求項１または２に記載の情報処理装置。

【請求項4】

前記英数字が支配的な文字列領域を９０度回転させた文字列領域の画像は、前記第１の文字認識処理の対象となった前記英数字が支配的な文字列領域の部分画像を９０度回転させる処理、または、前記英数字が支配的な文字列領域の座標情報を９０度回転させて、当該９０度回転後の座標情報を前記回転手段によって９０度回転させた前記文書画像に適用する処理、のいずれかを行うことによって得られる、ことを特徴とする請求項１乃至３のいずれか１項に記載の情報処理装置。

【請求項5】

前記英数字が支配的な文字列領域とは、前記第１の文字認識処理の結果に基づき、英数字が支配的であると判定された行単位の文字列領域である、ことを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。

【請求項6】

前記文字認識手段は、前記第１の文字認識処理の結果と前記第２の文字認識処理の結果とを統合する手段を有することを特徴とする請求項１乃至５のいずれか１項に記載の情報処理装置。

【請求項7】

前記第２の文字認識処理は、メールアドレスまたはＵＲＬに使用される文字種を認識対象とする文字認識処理であることを特徴とする請求項１乃至６のいずれか１項に記載の情報処理装置。

【請求項8】

前記文書は、名刺であることを特徴とする請求項１乃至７のいずれか１項に記載の情報処理装置。

【請求項9】

情報処理装置の判定手段が、文書に記載されている文字が正立する状態の文書画像に対して、縦書きか横書きかを判定する処理を行う判定ステップと、
前記情報処理装置の回転手段が、前記文書画像を回転させる処理を行う回転ステップと、
前記情報処理装置の検出手段が、横書きの文字列領域を特定するのに適した文字列検出処理を行う検出ステップと、
前記情報処理装置の文字認識手段が、前記文字列検出処理で検出された文字列領域に対し、文字認識処理を行う文字認識ステップと、
を含み、
前記検出ステップでは、
前記判定の結果が横書きである場合には、前記回転ステップで回転されていない前記文書画像に対して前記文字列検出処理を行い、
前記判定の結果が縦書きである場合には、前記回転ステップで９０度回転させた前記文書画像に対して前記文字列検出処理を行い、
前記文字認識ステップでは、
前記判定の結果が縦書きである場合、前記検出された文字列領域を－９０度回転させた文字列領域の画像に対して第１の文字認識処理を行い、
さらに、前記第１の文字認識処理の対象となった文字列領域のうちの英数字が支配的な文字列領域を９０度回転させた文字列領域の画像に対して第２の文字認識処理を行う、
ことを特徴とする情報処理方法。

【請求項10】

コンピュータを、請求項１乃至８のいずれか１項に記載の情報処理装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、文書画像に含まれる文字列の記載領域を特定する技術に関する。

【背景技術】

【0002】

従来、文書をスキャンして得られた文書画像内の文字を読み取って認識する技術がある。この技術は一般にＯＣＲ（Optical Character Recognition）と呼ばれる。ＯＣＲ処理には通常、文書画像をＯＣＲに適した画像に修正する画像前処理、文書画像から文字の記載領域（文字列領域）を特定する文字列検出処理、検出された文字列領域に含まれる各文字を識別する文字認識処理とで構成される。このようなＯＣＲ処理に関し、特許文献１には、一般的な横書きの文書をスキャンして得た文書画像に対し、画像全体の縦横の射影から文字列領域を検出して文字認識を行う技術が開示されている。また、特許文献２には、名刺をスキャンして得た文書画像に対し、画像全体の縦横の射影から文字列の外接枠を検出し、さらに当該外接枠内の連結画素の数に基づいて氏名部分を特定して文字認識を行う技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開平７－２００７３３号公報

【文献】特開平６－９６２７０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

上記ＯＣＲ処理の結果を用いて文書画像のインデキシングに用いることが従来から行われており、このインデキシングの一態様として、名刺をスキャンして保存するというユースケースがある。名刺は一般的な文書と異なり、用紙サイズが小さく、かつ、そこに含まれる文字数も少ないのが通常である。また、氏名等を縦書きで記載した縦型名刺も存在する。

【0005】

上記インデキシングにおいては、上述の縦型名刺のような縦書きかつ記載文字数が少ない（文字密度が低い）文書に対しても、その文書画像から文字列領域を適切に検出し、高精度に文字認識処理を行うことが求められる。しかしながら、特許文献１の技術は、一般的な文書、すなわち横書きかつ記載文字数が多い（文字密度が高い）文書しか想定しておらず、縦型名刺のような文書については精度よく処理することができない。また、特許文献２の技術は名刺に特化した技術である上、氏名付近に会社ロゴなどの模様があるなどの射影が上手く取れないような複雑なレイアウトの文書については想定されていない。

【0006】

本開示の技術は、上記の問題に鑑みてなされたものであり、処理対象となる文書に横書きと縦書きが混在していても適切に文字列領域を検出し、高精度に文字認識処理を行うことを目的とする。

【課題を解決するための手段】

【0007】

本開示に係る情報処理装置は、文書に記載されている文字が正立する状態の文書画像に対して、縦書きか横書きかを判定する処理を行う判定手段と、前記文書画像を回転させる処理を行う回転手段と、横書きの文字列領域を特定するのに適した文字列検出処理を行う検出手段と、前記文字列検出処理で検出された文字列領域に対し、文字認識処理を行う文字認識手段と、を備え、前記検出手段は、前記判定の結果が横書きである場合には、前記回転手段によって回転されていない前記文書画像に対して前記文字列検出処理を行い、前記判定の結果が縦書きである場合には、前記回転手段によって９０度回転させた前記文書画像に対して前記文字列検出処理を行い、前記文字認識手段は、前記判定の結果が縦書きである場合、前記文字列検出処理で検出された文字列領域を－９０度回転させた文字列領域の画像に対して第１の文字認識処理を行い、さらに、前記第１の文字認識処理の対象となった文字列領域のうちの英数字が支配的な文字列領域を９０度回転させた文字列領域の画像に対して第２の文字認識処理を行う、ことを特徴とする。

【発明の効果】

【0008】

本開示の技術によれば、処理対象となる文書に横書きと縦書きが混在していても適切に文字列領域を検出することができ、その結果、高精度に文字認識処理を行うことができる。

【図面の簡単な説明】

【0009】

【図1】情報処理システムのハードウェア構成を示す図。

【図2】システム全体の処理の流れを示すフローチャート。

【図3】縦書きの文書画像の一例。

【図4】横書きの文書画像の一例。

【図5】縦書きの文書画像から文字列領域を検出する様子を説明する図。

【図6】後処理の詳細を示すフローチャート。

【発明を実施するための形態】

【0010】

以下、本発明の実施形態について図面に基づいて説明する。なお、実施形態は本発明を限定するものではなく、また、実施形態で説明されている全ての構成が本発明の課題を解決するため必須の手段であるとは限らない。

【0011】

［実施形態１］
［ハードウェア構成］
図１は、本実施形態に係る情報処理システムのハードウェア構成を示す図である。情報処理システムは、複写機１００と、情報処理装置１１０とを有する。
複写機１００は、スキャナ１０１と、複写機側通信部１０２とを有する。スキャナ１０１は、文書のスキャンを行い、文書画像を生成する。複写機側通信部１０２は、ネットワークを介して、情報処理装置１１０を含む外部装置と通信を行う。

【0012】

情報処理装置１１０は、システム制御部１１１と、ＲＯＭ１１２と、ＲＡＭ１１３と、ＨＤＤ１１４と、表示部１１５と、入力部１１６と、情報処理装置側通信部１１７とを有する。システム制御部１１１は、ＣＰＵなどの演算装置で構成され、ＲＯＭ１１２に記憶された制御プログラムを読み出して各種処理を実行する。ＲＡＭ１１３は、システム制御部１１１の主メモリ、ワークエリア等の一時記憶領域として用いられる。ＨＤＤ１１４は、各種データや各種プログラム等を記憶する。なお、後述する情報処理装置１１０の機能や処理は、システム制御部１１１がＲＯＭ１１２又はＨＤＤ１１４に格納されているプログラムを読み出し、このプログラムを実行することにより実現される。情報処理装置側通信部１１７は、ネットワークを介して、複写機１００を含む外部装置との通信処理を行う。表示部１１５は、各種情報を表示する。入力部１１６は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。なお、表示部１１５と入力部１１６は、タッチパネルのように一体に設けられてもよい。また、表示部１１５は、プロジェクタによる投影を行うものであってもよく、入力部１１６は、投影された画像に対する指先の位置を、カメラで認識するものであってもよい。

【0013】

本実施形態においては、複写機１００のスキャナ１０１が名刺等の紙文書をスキャンし、文書画像を生成する。文書画像は、複写機側通信部１０２により情報処理装置１１０に送信される。情報処理装置１１０においては、情報処理装置側通信部１１７が文書画像を受信し、これをＨＤＤ１１４などの記憶装置に記憶する。

【0014】

なお、図１のハードウェア構成は本実施形態を実現する構成の一例であり、例えば表示部１１５と入力部１１６の一部機能は、複写機１００にあってもよい。また複写機１００と情報処理装置１１０を一体化した構成であってもよい。

【0015】

＜全体処理フロー＞
次に、本実施形態に係る情報処理システムにおける、文書画像に対するＣＯＲ処理を実現するソフトウェアの動作フローについて、図２を用いて説明する。図２のフローチャートに示す一連の処理は、システム制御部１１１が所定のプログラムをＲＯＭ１１２等から読み出して実行することで実現される。なお、以下の説明において記号「Ｓ」はステップを意味する。

【0016】

まず、Ｓ２０１では、文書画像のデータがＨＤＤ１１４から取得される。次に、Ｓ２０２では、取得した文書画像に対してその原稿の種類を判定する処理が実行される。本実施形態では、原稿種類が名刺か非名刺かを判定するものとする。この判定は、スキャン解像度と文書画像サイズに基づき行う。例えば、スキャン解像度が３００ＤＰＩの場合には、スキャンによって得られた文書画像の長辺が１０４０ピクセル±５％、短辺が６１５ピクセル±５％の範囲であれば名刺と判定し、範囲外であれば非名刺と判定する。なお、原稿種類の判定方法は画像サイズに基づく方法に限らない。例えば原稿種類を特定する情報を入力部１１６から受け付けてもよいし、或いは文書画像から特徴量を算出して予め学習された識別モデルにより判定してもよい。

【0017】

Ｓ２０２における判定結果に基づき、Ｓ２０３では処理フローが分岐する。非名刺と判定された場合にはＳ２０４へ遷移し、名刺と判定された場合にはＳ２０５へ遷移する。
Ｓ２０４では、原稿種類に依らない汎用的な文字認識処理が実行される。文字認識処理が完了すると、本処理を終了する。

【0018】

Ｓ２０５では、文書画像に対して傾斜を補正する処理が実行される。スキャナ１０１により生成される文書画像は、原稿台への原稿の置き方により傾きが生じる。そこで、傾斜補正処理を行って傾きのない文書画像を得る。傾斜補正処理は、特許第４１１４９５９号などに開示される公知の方法を適用すればよい。

【0019】

次に、Ｓ２０６では、文書画像中の文字方向を判別する処理が実行される。ここで、文字方向は、文書画像中の文字が正立する方向を０度とした時の文字の方向と定義する。上記Ｓ２０５で傾斜補正処理が施された文書画像は、原稿が９０度単位で回転している場合がある。そこで、特許第３７２７９７１号などに開示される公知の方法を適用して、文書画像の文字方向を取得する。

【0020】

次に、Ｓ２０７では、Ｓ２０６で判別された文字方向に基づき文書画像を回転させる処理が実行される。これにより、文字が正立した文書画像が得られる。

【0021】

次に、Ｓ２０８では、文書画像から文字画素を抽出する処理が実行される。本実施形態では、各画素の輝度値に対して閾値処理を行う二値化により文字画素を抽出する。二値化には、例えば大津の二値化など公知の方法を適用すればよい。原稿中の文字は背景に比べて濃い色で印刷されるのが通常であるため、輝度値が閾値よりも小さい方の画素を文字画素とする。なお、文字画素の抽出方法は閾値処理による方法に限らない。例えば、任意の注目画素を中心にその近傍領域から画像特徴量を抽出し、該特徴量に基づき事前に学習された識別モデルに基づき注目画素が文字画素か否かを推論する方法で実現してもよい。

【0022】

次に、Ｓ２０９では、Ｓ２０８にて抽出された文字画素に基づき、行方向を判別する処理が実行される。ここで行方向とは、文書画像中の文字が並ぶ方向であり、本実施形態では横（水平）方向、あるいは縦（垂直）方向の何れかとする。判別手法としては、例えば文書画像の全体に対し縦方向と横方向それぞれに射影ヒストグラムを生成し、分散が小さい方向を行方向として決定する手法などがある。この行方向判別処理により、例えば図３に示す名刺画像３０１であれば行方向は縦（垂直）方向と判別され、図４に示す名刺画像４０１であれば行方向は横（水平）方向と判別される。得られた判別結果はＲＡＭ１１３に格納される。

【0023】

次のＳ２１０では、Ｓ２０９における判別結果に基づき処理フローが分岐する。判別の結果、行方向が横方向の場合にはＳ２１１へ遷移し、行方向が縦方向の場合にはＳ２１２へ遷移する。

【0024】

行方向が横方向である場合のＳ２１１では、横書きの文字行を特定するのに適した文字列検出処理が実行される。具体的には、文書画像内に存在する黒画素塊の有無を水平方向に走査して、黒画素塊同士の間隔が一定範囲内にある複数の黒画素塊を特定し、当該特定された複数の黒画素塊を囲む外接矩形領域を１つの文字列領域として検出される。文書画像内の文字の並び方向が横方向の場合、文字間の隙間（黒画素塊同士の間隔＝白画素の数）は、垂直方向（上下方向）よりも水平方向（左右方向）の方が狭くなるのが通常である。そこで、横書きのひとまとまりの文字群の特定に適するよう処理パラメータを調整した領域解析を行うことによって、文書画像から文字列領域を検出する。具体的な文字列検出の方法としては、特開平７－２００７３３号などに開示される公知の方法を適用すればよい。これにより、例えば行方向が横方向である図４の名刺画像４０１に対して文字列検出処理を行うと、同図下に示すように５つの横長矩形の文字列領域４０２～４０６が検出されることになる。検出された文字列領域の情報は、ＲＡＭ１１３に格納される。

【0025】

行方向が縦方向である場合のＳ２１２では、文書画像を９０度回転させる回転処理が、文字列検出処理に先立って実行される。例えば、行方向が縦方向である図３の名刺画像３０１を９０度回転させ、図５に示すような名刺の上下が左右になるようにした名刺画像５０１を生成する。このように回転処理された後の名刺画像はＲＡＭ１１３に格納される。これにより、原稿（名刺）上では縦方向に並んでいる文字が回転後の画像中では横方向に並ぶことになる。これにより、行方向が縦方向の文書画像を疑似的に横方向の文書画像として扱うことができ、上述のＳ２１１と共通の文字列検出処理を適用することが可能になる。

【0026】

続くＳ２１３では、上述のＳ２１１と同様、横書きの文字行を特定するのに適した文字列検出処理が実行される。例えば、名刺画像３０１を９０度回転させた図５の名刺画像５０１の場合は、同図中央に示すように５つの文字列領域５０２～５０６が検出されることになる。こうして検出された文字列領域の情報は、ＲＡＭ１１３に格納される。なお、図３に示す回転前の名刺画像３０１に対しそのまま文字列検出処理を行ったとすると、例えば同図右に示すように６つの文字列領域３０２～３０７が検出される。この例では、苗字「城野」の部分が別々の文字列領域に分離されてしまっているのが分かる。処理対象が縦長タイプかつ縦書きの名刺の場合、本実施形態のように画像を９０度回転させてから文字列検出処理を行うことで、氏名のように文字間隔が広く離散的に配置されている文字部分の文字列領域をより適切に検出できることが分かる。

【0027】

次に、Ｓ２１４では、Ｓ２１３で検出された文字列領域を－９０度回転させる処理、すなわち、Ｓ２１２で回転させた方向とは逆の方向に同じ角度だけ回転させる処理が実行される。これにより、文字列領域内の文字が正立した状態に戻る。この際、検出された文字列領域に対応する部分画像を－９０度回転させてもよい。例えば図５に示す回転後の名刺画像５０１から、文字列領域５０２、５０３、５０４、５０５、５０６それぞれの部分画像を切り出して、各部分画像に対して－９０度回転させる処理を行ってもよい。また、検出された文字列領域の座標情報を－９０度回転させ、当該回転後の座標情報をＳ２０７で取得した文字が成立する方向の文書画像に適用してもよい。例えば、図５の名刺画像５０１’における文字列領域５０２’、５０３’、５０４’、５０５’、５０６’にそれぞれ対応する－９０度回転させた座標情報を求め、それを文字が正立する方向の文書画像である３０１に適用する。これにより、文字が正立する状態の文字列領域を取得できる。

【0028】

Ｓ２１５では、Ｓ２１４で取得した各文字列領域に対して文字認識処理が実行される。文字認識処理としては、例えば、文字列領域に対応する部分画像に含まれる文字の文字コードを、学習済みモデルを用いて推論する手法がある。学習済みモデルとは、文字画像を入力としてその文字コードを出力するよう学習された識別モデルである。Ｓ２１６でも同様に、Ｓ２１１で検出した各文字列領域に対して文字認識処理が実行される。Ｓ２１６の文字認識処理が完了すると、本処理を終了する。

【0029】

Ｓ２１７では、Ｓ２１５で得られた文字認識結果に対して、後処理が実行される。この後処理の詳細については後述する。後処理が完了すると、本処理を終了する。

【0030】

以上が、文書画像に対するＣＯＲ処理を実現するソフトウェアの動作フローである。

【0031】

＜後処理の詳細＞
続いて、Ｓ２１７の後処理について、図６のフローチャートを参照しつつ説明する。

【0032】

Ｓ６０１では、Ｓ２１５の文字認識処理で得られた認識結果（文字コード）が行単位に分割される。認識結果の中に改行コードが含まれていればそこで分割すればよい。さらに、行単位に分割した認識結果に含まれる１文字毎の位置情報を用いて、行単位に分割後の文字列領域それぞれの外接矩形の座標情報が生成される。例えば、図５の名刺画像５０１において複数行で構成される文字領列域５０５の場合は、参照符号５０７で示すように、２つの文字列領域５０８と５０９に分割され、分割後のそれぞれの文字列領域に対応する外接矩形の座標情報が生成される。得られた行単位の文字列領域の座標情報は、行単位の文字コードとともにＲＡＭ１１３に格納される。

【0033】

次にＳ６０２では、Ｓ６０１で得られた行単位の文字時列領域について、英数字が支配的かどうかを文字コードに基づいて判定される。例えば、名刺画像３０１のように、縦長タイプでかつ縦書きの名刺に書かれるメールアドレスやホームページのＵＲＬは、横書きにしたものを９０度回転させた形式で記載されるケースが多い。汎用的な文字認識処理では、文字が正立した状態にあることを前提に識別モデルを構築するのが一般的であるものの、回転した文字の画像特徴量を別途学習しておくことで、メールアドレス等についても認識できる。その一方、類似した縦書き文字の誤判定も混入し得る。このため、認識結果からその文字行においては英数字が支配的であるか、すなわち、メールアドレスやＵＲＬである可能性が高いか否かを判定する。例えば、１行の認識文字数のうち５文字以上かつ、その行に含まれる文字数の過半数が英数記号である場合に、英数字が支配的と判断すればよい。なお、最低５文字以上の条件を設ける理由は、ＵＲＬのドメインやメールアドレスの標準技術仕様に基づくものである。英数字が支配的であると判定された場合にはＳ６０３へ遷移し、そうでない場合は本処理を終了する。

【0034】

Ｓ６０３では、英数字が支配的と判定された行単位の文字列領域の座標情報を９０度回転させ、縦になっている文字列領域を横にする。この際、行単位の文字列領域の部分画像を生成し、当該部分画像を９０度回転させてもよい。また、座標情報のみを９０度回転させ、生成済みである文字列検出用に回転させた文書画像（図５の名刺画像５０１を参照）に対し、９０度回転した座標情報を適用させてもかまわない。これにより、図５における文字列領域５１０のような、元々は縦であったものを横にした文字列領域が得られる。これにより、中の文字が正立している状態の文字列領域となる。９０度回転後の文字列領域はＲＡＭ１１３に格納される。

【0035】

次にＳ６０４では、Ｓ６０３で得た回転後の文字列領域に対して文字認識処理が実行される。ここで実行する文字認識処理は先のＳ２１５やＳ２１６と同じ文字認識処理でもよいし、認識対象の文字種をアルファベット、数字、メールアドレスやＵＲＬで使用可能な記号などに絞った学習済みモデルを用いた専用の文字認識処理でもよい。得られた認識結果はＲＡＭ１１３に格納される。

【0036】

次に、Ｓ６０５では、Ｓ６０４にて得られた認識結果が、先のＳ２１５における文字認識処理で得られた認識結果と統合される。この統合は、Ｓ６０４の認識結果の座標情報を、元の文書画像の座標系に合わせたものに変換して、Ｓ２１５の認識結果に組み込む処理と言い換えることが可能である。例えば、先に実行されるＳ２１５の文字認識処理では、その座標系は図５の名刺画像５０１’に従う。これに対し後処理におけるＳ６０４の文字認識処理では、名刺画像５０１’における文字列領域５０５’（行単位で分割後は、文字列領域５０８と５０９）を９０度回転させて横にした文字列領域５１０がその対象となるので座標系が一致しない。そこで、Ｓ６０４で得た文字列領域５１０の認識結果の座標情報を５０７における座標系、すなわち５０５’に該当する位置となるように座標情報を変換する。こうして座標系を一致させて、後処理で得られた認識結果と、先に得られている認識結果とを１つにまとめる。統合結果はＲＡＭ１１３に格納される。

【0037】

以上が、本実施形態に係る、後処理の内容である。

【0038】

本実施形態によれば、対象文書が例えば縦型タイプで縦書きの名刺の場合、行方向が横になるよう画像を回転させた上で、横方向用の文字列検出処理を適用し、検出した文字列領域を文字が正立する方向に戻して文字認識処理を実行する。これにより高精度な文字認識結果を得ることが可能になる。また、縦書きの名刺内に横書きの英数文字が９０度傾いた状態で配置されている場合でも、後処理において、文字が正立した状態となるように回転させた上で文字認識処理を再び行ってその認識結果を先の認識結果と統合する。これにより、縦書き名刺内に含まれる横書きのメールアドレスやＵＲＬについても高精度で文字認識を実行できる。

【0039】

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版