(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024167696
(43)【公開日】2024-12-04
(54)【発明の名称】情報処理装置、情報処理方法、プログラム
(51)【国際特許分類】
G06V 30/14 20220101AFI20241127BHJP
G06V 30/148 20220101ALI20241127BHJP
【FI】
G06V30/14 340A
G06V30/148
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023083947
(22)【出願日】2023-05-22
(71)【出願人】
【識別番号】390002761
【氏名又は名称】キヤノンマーケティングジャパン株式会社
(71)【出願人】
【識別番号】592135203
【氏名又は名称】キヤノンITソリューションズ株式会社
(74)【代理人】
【識別番号】100189751
【弁理士】
【氏名又は名称】木村 友輔
(74)【代理人】
【識別番号】100227857
【弁理士】
【氏名又は名称】中山 圭
(72)【発明者】
【氏名】八尾 唯仁
【テーマコード(参考)】
5B029
【Fターム(参考)】
5B029CC25
(57)【要約】 (修正有)
【課題】記入欄が枠で区切られていない場合でも、高い精度で手書き文字を認識できる情報処理装置、情報処理方法及びプログラムを提供する。
【解決手段】システムバスを介して、CPU201、ROM、RAM、記憶装置、入力コントローラ5、音声コントローラ、ビデオコントローラ、メモリコントローラ及び通信I/Fコントローラが接続される情報処理装置において、CPUは、画像から連続して存在する画素により形成される画素片を特定する連続画素検出部253、連続画素検出部253により特定された画素片同士のつながりの強さに基づき、複数の画素片を結合した領域を形成する文字領域推定部254及び文字領域推定部254により形成された領域の単位で、当該領域に含まれる文字を認識する文字認識部256を備える。
【選択図】
図3
【特許請求の範囲】
【請求項1】
画像から連続して存在する画素により形成される画素片を特定する特定手段と、
前記特定手段により特定された画素片同士のつながりの強さに基づき、複数の画素片を結合した領域を形成する形成手段と、
前記形成手段により形成された領域の単位で、当該領域に含まれる文字を認識する文字認識手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記形成手段は、前記画素片の大きさと画素片同士の距離とに基づき算出されるつながりの強さに基づき、複数の画素片を結合した領域を形成することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記形成手段は、式1により算出されるつながりの強さを示す値に基づき、複数の画素片を結合した領域を形成することを特徴とする請求項2に記載の情報処理
(式1)
F:つながりの強さを示す値
H:画素片のサイズ
d:画素片同士の距離
【請求項4】
前記特定手段は、前記連続して存在する画素を内包する矩形を画素片として特定することを特徴とする請求項3に記載の情報処理装置。
【請求項5】
画像から連続して存在する画素により形成される画素片を特定する特定工程と、
前記特定工程により特定された画素片同士のつながりの強さに基づき、複数の画素片を結合した領域を形成する形成工程と、
前記形成工程により形成された領域の単位で、当該領域に含まれる文字を認識する文字認識工程と、
を備えることを特徴とする情報処理方法。
【請求項6】
コンピュータを請求項1乃至4のいずれか1項に記載の各手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、プログラムに関する。
【背景技術】
【0002】
帳票などから情報を読み取ってシステムに入力する業務を補助するものとしてOCR(光学文字認識)が存在する。OCRでは文字を認識する前に、帳票内に文字が記載された領域を検出する文字検出という処理が存在する。
【0003】
文字検出には活字、手書き文字それぞれに特性が異なり、手書き文字の場合は、文字のサイズが活字と比べて不ぞろいである、記入欄に枠がある場合とない場合があり、枠がない場合は項目の境目を推定しなければならないといった特性がある。
【先行技術文献】
【特許文献】
【0004】
【発明の開示】
【発明が解決しようとする課題】
【0005】
特許文献1の手法は手書き文字を帳票に含まれる罫線に基づいて結合、分割するものであるが、手書きの場合は記入欄が罫線を含まない下線や見出しのみなどで構成される場合があり、そのような場合に本手法では対応できない。
【0006】
そこで、本発明は、記入欄が枠で区切られていない場合でも、高い精度で手書き文字を認識できる仕組みを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の情報処理装置は、画像から連続して存在する画素により形成される画素片を特定する特定手段と、
前記特定手段により特定された画素片同士のつながりの強さに基づき、複数の画素片を結合した領域を形成する形成手段と、
前記形成手段により形成された領域の単位で、当該領域に含まれる文字を認識する文字認識手段と、
を備えることを特徴とする。
【発明の効果】
【0008】
本発明によれば、記入欄が枠で区切られていない場合でも、高い精度で手書き文字を認識することが可能となる。
【図面の簡単な説明】
【0009】
【
図1】本発明の実施形態における、表抽出システムのシステム構成の一例を示す図である。
【
図2】本発明の実施形態における、PCのハードウェア構成の一例を示すブロック図である。
【
図3】本発明の実施形態における、機能構成の一例を示す図である。
【
図4】本発明の実施形態における、入力となる手書き画像と出力となる文字領域推定結果の一例を示す図である。
【
図5】本発明の実施形態における、連続画素検出部および文字領域推定部の処理の流れを示すフローチャートである。
【
図6】本発明の実施形態における、連続画素検出部および文字領域推定部の処理過程の一例を示す図である。
【
図7】本発明の実施形態における、文字グルーピングの処理の流れを示すフローチャートである。
【
図8】本発明の実施形態における、文字領域分割の処理の流れを示すフローチャートである。
【
図9】本発明の実施形態における、文字領域分割の処理過程の一例を示す図である。
【
図10】本発明の実施形態における、文字領域推定結果の一例を示す図である。
【発明を実施するための形態】
【0010】
図1は、本発明の実施形態における手書き文字抽出システムのシステム構成の一例を示す図である。
【0011】
ユーザによる操作を受け付けるクライアント端末101および、帳票をスキャンして画像ファイル化するスキャナ102が通信経路100を介して接続される構成となっている。
【0012】
通信経路100はスキャナ102の有する物理インターフェースに応じて、有線LAN,無線LAN,USBなどの形態をとることができる。
【0013】
サーバ装置103は、スキャナ102でスキャンした画像データを保管し、クライアント端末101からの指示に基づき、画像データに対してOCR処理を行う機能を備える。
なお、画像データの保管やOCR処理については、サーバ装置103ではなくクライアント端末101で実行する形態をとってもよい。
【0014】
図2は、本発明のクライアント端末101やサーバ装置103として適用可能な情報処理装置のハードウェア構成の一例を示すブロック図である。
【0015】
図2に示すように、情報処理装置は、システムバス200を介してCPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、記憶装置204、入力コントローラ205、音声コントローラ206、ビデオコントローラ207、メモリコントローラ208、よび通信I/Fコントローラ209が接続される。
【0016】
CPU201は、システムバス200に接続される各デバイスやコントローラを統括的に制御する。
【0017】
ROM202あるいは外部メモリ213は、CPU201が実行する制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ(データテーブルを含む)を保持している。
【0018】
RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ213からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。
【0019】
入力コントローラ205は、キーボード210や不図示のマウス等のポインティングデバイス等の入力装置からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下(指等でタッチ)することにより、各種の指示を行うことができることとする。
【0020】
また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。
【0021】
ビデオコントローラ207は、ディスプレイ212などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。
【0022】
なおビデオコントローラ207は、表示制御を行うためのビデオメモリ(VRAM)を制御することが可能で、ビデオメモリ領域としてRAM203の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。
【0023】
メモリコントローラ208は、外部メモリ213へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置(ハードディスク)、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等を利用可能である。
【0024】
通信I/Fコントローラ209は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信やISDNなどの電話回線、および携帯電話の4G回線、5G回線等を用いた通信が可能である。
【0025】
尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ212上での表示を可能としている。また、CPU201は、ディスプレイ212上の不図示のマウスカーソル等でのユーザ指示を可能とする。
【0026】
図3は、本発明のクライアント端末101が備える機能構成の一例を示す図である。以下、OCR処理をクライアント端末101で実行する形態を想定して説明するが、
図1の説明において述べた通り、OCR処理をクライアント端末101ではなくサーバ装置103で実行しても良い。その場合は各機能をサーバ装置103で備えることとなる。
【0027】
入力受付部251は、スキャナ102やサーバ装置103を介してクライアント端末101のCPU201に画像を取り込む。
【0028】
画像前処理部252は、入力画像401のノイズ除去、二値化を行う。
【0029】
連続画素検出部253は、二値化画像の中から連続した画素(黒色)を検出し、それぞれの連続画素を内包する矩形を塗りつぶした画素片群602を含んだワーク画像601を生成する。
【0030】
文字領域推定部254は、ワーク画像601内の画素片群602を文字領域の項目ごとにまとめ、またその過程で結合されてしまった本来別々の文字項目についても用紙情報255の情報を用いて分割を行う。用紙情報255には読み取りの対象の項目のおよその位置を示した矩形情報が含まれている。
【0031】
文字認識部256は、文字領域推定部254によって推定された文字領域に対して文字認識を行い、テキストを出力する。
【0032】
結果出力部257は、文字領域推定部254によって推定された文字領域の座標と文字認識部256によって読み取られたテキストをファイルまたはデータベースに出力する。
【0033】
図4は、入力となる手書き画像と出力となる文字領域推定結果の一例を示す図である。入力画像401には手書き文字領域402が記入されているものとする。この手書き文字領域402から項目ごとに文字をグルーピングし、文字グルーピング結果451-456を得ることを本発明の目的とする。
【0034】
図5は文字領域推定部254の処理の流れを示すフローチャートである。
【0035】
ステップS501では、入力受付部251が、スキャナ102などで取り込まれた手書き画像を取得する。
【0036】
ステップS502では、画像前処理部252が、入力画像401を二値化、白黒反転したのち、ノイズ除去の処理を行い、二値化画像を生成する。
【0037】
図6は連続画素検出部および文字領域推定部の処理過程の一例を示す図である。
【0038】
ステップS503では、連続画素検出部253が、二値化画像の中から連続した画素(黒色)を検出し、それぞれの連続画素を内包する矩形を塗りつぶした画素片群602を含んだワーク画像601を生成する(
図6-1)。
ステップS504では、文字領域推定部254が、ワーク画像601内の画素片群602を項目ごとにまとめるグルーピング処理を行う。
【0039】
図7は、文字グルーピングの処理の流れを示すフローチャートである。
【0040】
ステップS701では、ワーク画像601内の画素片群602に対して、S702-705の処理を繰り返し行う。
【0041】
ステップS702では、画素片群602のうち、2つの画素片を選出する。この2つの画素片の組み合わせは、ステップS701のループにおいて網羅するようにする。
【0042】
ステップS703では、ステップS702で選出した2つの画素片について、繋がりの強さを評価する。繋がりの強さとは、2つの画素片が同一の項目に属している蓋然性を評価するために考案した指標である。
図11に、繋がりの強さを評価する式の一例(式1)を示す。
【0043】
ここで、Fは繋がりの強さを表す評価値、H
1、H
2は選出した2つの画素片のサイズ、dは2つの画素変換の距離を表す。これは万有引力の式
に近く、画素片間の引き合う力を疑似的に表現している。
【0044】
ステップS704では、繋がり値Fが閾値を超えているかどうかを評価する。超えている場合はステップS705に進み、そうでない場合はステップS701に戻る。
【0045】
ステップS705では、繋がり値Fが閾値を超えている場合に、2つの画素片は同一の項目に属すると判定し、ワーク画像601に当該項目間を結ぶ線を引く。結果として画素片結合済みワーク画像611と結合済み画素片群612を得る(
図6-2)。
ステップS706では、画素片結合済みワーク画像611に対して再度連続画素を再評価し、前ステップで結合された画素片を認識する。
【0046】
ステップS707では、前ステップで認識されたそれぞれの連続画素を内包するbbox(バウンディングボックス)の領域を求め、矩形領域を塗りつぶす。またそれぞれの矩形領域を横方向に拡張し、ステップS705で結合できなかった小さな画素片を結合する。結果として結合済みワーク画像621と結合済み画素片群622-626を得る。
【0047】
ステップS505では、文字領域推定部254が、ステップS504の過程で結合されてしまった本来別々の文字項目についても用紙情報255の情報を用いて分割を行う。
【0048】
図8は、文字領域分割の処理の流れを示すフローチャートである。
【0049】
ステップS801では文字領域推定部254が、用紙情報255に含まれる項目定義を読み込む。項目定義には読み取る対象の項目の目安となる矩形が登録されている。
【0050】
図9は文字領域分割の処理過程の一例を示す図である。
【0051】
図9-1は本発明が対象とする文字認識を行うシステムにおいて、ユーザーが読み取りたい項目の座標を示す矩形の一例である。ここでは項目登録矩形902-903が登録されている。(
図9-1)。
【0052】
ここで考慮しなければならないのは、本発明は枠がない記入欄を対象としているため、項目登録矩形は記入一の目安(文字が書かれる領域はある程度決まっているけど、文字の大きさまでは分からない)でしかなく、実際に記入される文字はその矩形からずれたりはみ出したりする場合があり、単純に項目登録矩形の座標を切り抜いて文字認識することでは課題が解決できないことである(
図9-2)。
【0053】
ステップS802では、結合済みワーク画像621から結合済み画素片群622-626を取得する。
【0054】
ステップS803では、それぞれの連続画素に対してステップS804-ステップS806の処理を行う。
【0055】
ステップS804では、現在着目している連続画素片が複数の項目登録矩形に跨っているかどうかを判定する。
図9-3の例では、結合済み画素片622が項目登録矩形902と903に跨っていることを示している。このような場合はステップS805に進み、そうでない場合はS804に戻り、次の結合済み画素片を評価する。
【0056】
ステップS805では、複数の項目登録矩形に跨っている結合済み画素片があった場合に、その画素片を項目ごとに分割するための線を生成する。
図9-4の例では、項目登録矩形902と903の間を縫うように線を引き、これを分割線941とする。分割線を引くための手法としては、細線化アルゴリズムという画像処理を応用することが可能である。黒地に白で項目登録矩形を描画した分割線生成用ワーク画像951を作成し、それに対して細線化アルゴリズムで処理をかけると細線化済みワーク画像952が得られる。(
図9-5)。
【0057】
ステップS806では、結合済み画素片622と分割線941の差分を取り、分割済みワーク画像961と、分割済み画素片962-963を得る。(
図9-6)。
【0058】
ステップS807では、入力画像401に対して、分割済み画素片962-967の領域に対応する矩形を抽出し、文字グルーピング結果451-456を得る。
【0059】
ステップS506では、文字認識部256が、ステップS505で得られた文字グルーピング結果451-456の領域に対して文字認識を行う。
【0060】
ステップS507では、結果出力部257が、文字領域推定部254によって推定された文字領域の座標と文字認識部256によって読み取られたテキストをファイルまたはデータベースに出力する。
【0061】
以上、実施形態について示したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0062】
また、本発明におけるプログラムは、
図3に示すフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は
図3の処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは
図3の各装置の処理方法ごとのプログラムであってもよい。
【0063】
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。
【0064】
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。
【0065】
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることが出来る。
【0066】
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0067】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0068】
また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0069】
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
【符号の説明】
【0070】
100:通信経路
101:PC本体
102:スキャナ本体
103:ファイルサーバー