IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ローレルバンクマシン株式会社の特許一覧 ▶ ローレル機械株式会社の特許一覧 ▶ ローレル精機株式会社の特許一覧

<>
  • 特開-情報処理装置およびプログラム 図1
  • 特開-情報処理装置およびプログラム 図2
  • 特開-情報処理装置およびプログラム 図3
  • 特開-情報処理装置およびプログラム 図4
  • 特開-情報処理装置およびプログラム 図5
  • 特開-情報処理装置およびプログラム 図6
  • 特開-情報処理装置およびプログラム 図7
  • 特開-情報処理装置およびプログラム 図8
  • 特開-情報処理装置およびプログラム 図9
  • 特開-情報処理装置およびプログラム 図10
  • 特開-情報処理装置およびプログラム 図11
  • 特開-情報処理装置およびプログラム 図12
  • 特開-情報処理装置およびプログラム 図13
  • 特開-情報処理装置およびプログラム 図14
  • 特開-情報処理装置およびプログラム 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023003648
(43)【公開日】2023-01-17
(54)【発明の名称】情報処理装置およびプログラム
(51)【国際特許分類】
   G06V 30/242 20220101AFI20230110BHJP
   G06V 30/164 20220101ALI20230110BHJP
   G06V 30/14 20220101ALI20230110BHJP
【FI】
G06K9/62 610C
G06K9/40
G06K9/20 320P
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021104849
(22)【出願日】2021-06-24
(71)【出願人】
【識別番号】000116079
【氏名又は名称】ローレルバンクマシン株式会社
(71)【出願人】
【識別番号】500267170
【氏名又は名称】ローレル機械株式会社
(71)【出願人】
【識別番号】500265501
【氏名又は名称】ローレル精機株式会社
(74)【代理人】
【識別番号】110003177
【氏名又は名称】弁理士法人旺知国際特許事務所
(72)【発明者】
【氏名】小澤 茂樹
【テーマコード(参考)】
5B029
5B064
【Fターム(参考)】
5B029AA01
5B029BB02
5B029CC22
5B029CC26
5B029CC27
5B029EE13
5B064AA01
5B064AB03
5B064AB13
5B064AB17
5B064BA01
5B064CA08
5B064CA09
5B064DA10
(57)【要約】
【課題】数字を含む文書に対する文字認識精度を向上させる。
【解決手段】情報処理装置の一例である文字認識装置10は、処理対象画像に含まれる数字を認識する数字認識部126と、処理対象画像に含まれる記号を認識する記号認識部127とを備える。記号認識部127は、数字および数字以外の記号を表す段落画像P4から、記号に対応する部分画像C1,C4,C8を認識する。数字認識部126は、記号に対応する部分画像C1,C4,C8が消去された段落画像P4Aに含まれる数字を認識する。
【選択図】図9
【特許請求の範囲】
【請求項1】
数字および数字以外の記号を表す第1画像から、前記記号に対応する第1部分を消去した第2画像を生成する生成部と、
前記生成部によって生成された第2画像に含まれる数字を認識する数字認識部と、
を備える、
情報処理装置。
【請求項2】
前記第1画像に含まれる前記記号を認識する記号認識部を更に備え、
前記生成部は、
前記記号認識部によって認識された前記記号に対応する部分を前記第1部分として消去して前記第2画像を生成する、
請求項1記載の情報処理装置。
【請求項3】
前記数字認識部によって識別された前記数字と、前記記号認識部によって識別された前記記号とを配列した文字列を出力する出力部を更に備え、
前記文字列に含まれる前記数字および前記記号の配列は、
前記第1画像における前記数字および前記記号の配列に対応している、
請求項2記載の情報処理装置。
【請求項4】
前記第1画像は、複数の部分に分割され、
前記数字認識部は、
前記複数の部分各々における表記を前記数字として認識し、前記数字の認識結果の確度を示す第1確度を算出し、
前記記号認識部は、
前記複数の部分各々における表記を前記記号として認識し、前記記号の認識結果の確度を示す第2確度を算出し、
前記生成部は、
前記第1確度と前記第2確度との比較結果に基づいて、前記第1画像における前記第1部分を特定し、前記第1部分を前記第1画像から消去する、
請求項2または3記載の情報処理装置。
【請求項5】
前記生成部は、
前記第1画像に対してノイズ除去処理を行うことにより前記第2画像を生成する、
請求項1記載の情報処理装置。
【請求項6】
前記第1画像は、手書きの前記数字を含む文書を読み取った画像である、
請求項1から5のいずれか1項記載の情報処理装置。
【請求項7】
プロセッサを、
数字および数字以外の記号を表す第1画像から、前記記号に対応する第1部分を消去した第2画像を生成する生成部と、
前記生成部によって生成された第2画像に含まれる数字を認識する数字認識部と、
して機能させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置およびプログラムに関する。
【背景技術】
【0002】
文字認識装置等の情報処理装置では、一般的に、光学文字認識(OCR:Optical Character Recognition)技術が採用されている。OCR技術は、帳票等の文書に記載された文字をカメラおよびイメージスキャナ等の光学的な手段により画像として取込み、取り込んだ画像内の文字をコンピュータ等が利用可能な文字情報(例えば、文字コード)に変換する技術である。例えば、下記特許文献1には、文字と罫線とを含む処理対象画像から、設定した長さ方向の罫線を削除した画像を生成する技術が開示されている。文字認識においてノイズとなる罫線を処理対象画像から削除することにより、処理対象画像に含まれる文字の認識精度が高くなることが予測される。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2017-142628号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
情報処理装置を用いて数字を含む文書を文字認識する際に、桁数を表すカンマや小数点を示すドットなどの数字に付随して使用される記号が、数字や数字の一部と誤認識されることによって、数字の認識精度が低下する場合がある。上述した従来技術は、長さ方向の罫線を取り除くことはできるが、数字に付随して使用される記号が数字として誤認識されることを防止できないため、数字の認識精度の低下を抑制できないという問題がある。
【課題を解決するための手段】
【0005】
本発明の好適な態様に係る情報処理装置は、数字および数字以外の記号を表す第1画像から、前記記号に対応する第1部分を消去した第2画像を生成する生成部と、前記生成部によって生成された第2画像に含まれる数字を認識する数字認識部と、を備える。
【0006】
本発明の好適な態様に係るプログラムは、プロセッサを、数字および数字以外の記号を表す第1画像から、前記記号に対応する第1部分を消去した第2画像を生成する生成部と、前記生成部によって生成された第2画像に含まれる数字を認識する数字認識部と、して機能させる。
【発明の効果】
【0007】
本発明によれば、数字を含む文書の文字認識精度を向上させることができる。
【図面の簡単な説明】
【0008】
図1】実施形態にかかる文字認識システムの構成を示す図である。
図2】領収書画像の一例を示す図である。
図3】認識結果データの一例を示す図である。
図4】端末装置のハードウェア構成の一例を示すブロック図である。
図5】端末装置の機能的構成の一例を示すブロック図である。
図6】文字認識装置のハードウェア構成の一例を示すブロック図である。
図7】文字認識装置の機能的構成の一例を示すブロック図である。
図8】レイアウト解析後の領収書画像の一例を示す図である。
図9】第2文字認識部の文字認識方法について説明する図である。
図10】文字認識装置による文字認識処理の手順を示すフローチャートである。
図11】第2文字認識部による第2文字認識処理の手順を示すフローチャートである。
図12】第2実施形態における認識結果データの一例を示す図である。
図13】第3実施形態における第2文字認識部の文字認識方法について説明する図である。
図14】第4実施形態における文字認識装置の機能的構成を示すブロック図である。
図15】第4実施形態の適用が好適な領収書画像の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、添付図面を参照しながら本発明にかかる好適な実施形態を説明する。なお、図面において各部の寸法または縮尺は実際と適宜に異なり、理解を容易にするために模式的に示している部分もある。また、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの形態に限られない。
【0010】
本実施形態において、表記とは、文書や文書を読み取った画像において、背景と区別される線や点を指すものとする。表記は、文字を示す場合もあるし、罫線を示す場合もある。また、表記は、図柄を示す場合もあるし、筆記具が意図せずに筆記用紙に接して書かれた線や点である場合もある。
本実施形態において、文字とは、漢字、ひらがな、カタカナ、アルファベット、数字、記号等、言葉や言語を伝達し記録するために線や点を使って人為的に定められた表記を指すものとする。よって、例えば筆記具が意図せずに筆記用紙に接して書かれた線や点、罫線などは、文字に含まれない。
本実施形態において、数字とは、数を示す文字である。本実施形態では、数字は、例えばアラビア数字(0,1…9)を指すものとする。
本実施形態において、言語文字とは、漢字、ひらがな、カタカナ、アルファベットなど、言語の表記に用いられる文字である。例えばドットやカンマ、句点、読点は、言語文字とともに用いられるが、本実施形態では、ドットやカンマ、句点、読点は、記号に分類される。
本実施形態において、記号とは、ドットやカンマ、句点、読点、ハイフン、演算記号等の、一般的には言語文字や数字に付随して用いられることにより、特定の意味を示す表記を指すものとする。なお、記号が単独で用いられてもよい。
【0011】
[第1実施形態]
[文字認識システムの概要]
図1は、実施形態にかかる文字認識システム1の構成を示す図である。文字認識システム1は、文字認識装置10と、端末装置20とを備える。文字認識装置10は、情報処理装置の一例である。文字認識装置10と端末装置20とは、ネットワークNWを介して接続されている。ネットワークNWは、インターネットおよびローカルエリアネットワークを含み得る。例えば、ネットワークNWは、有線ネットワークおよび無線ネットワークの一方または両方を含む。また、ネットワークNWと文字認識装置10との接続は、例えば、複数の要素間を互いに通信可能にする接続であればよく、有線および無線の一方を用いた接続であってもよいし、有線および無線の両方を用いた接続であってもよい。
【0012】
文字認識装置10としては、ネットワークNWに接続可能な任意の情報処理装置を採用することができる。文字認識装置10は、例えば、光学文字認識(OCR)技術を用いて、画像に含まれる文字を認識する文字認識処理を実行する。文字認識処理の対象となる領収書画像RIの一例は、後述する図2において説明される。また、文字認識装置10の構成は、後述する図6および図7において説明される。
【0013】
端末装置20としては、ネットワークNWに接続可能な任意の情報処理装置を採用することができる。具体的には、端末装置20は、例えば、パーソナルコンピュータ等の据置型の情報機器であってもよいし、ノート型のパーソナルコンピュータ、タブレット端末、スマートフォン等の可搬型の情報端末であってもよい。端末装置20の構成は、後述する図4および図5において説明される。
【0014】
本実施形態では、文字認識装置10は領収書データ化サービスを提供する事業者が保有する情報処理装置である。また、端末装置20は、領収書データ化サービスを利用するユーザが保有する情報処理装置である。領収書データ化サービスとは、領収書が写る画像(以下「領収書画像」という)に対して文字認識処理を行い、領収書内に記載された文字をコンピュータで処理可能なデータに変換するサービスである。すなわち、本実施形態では、処理対象画像は領収書画像RI(図2参照)である。コンピュータで処理可能なデータとは、例えばShift-JISコードのようなテキストデータである。ユーザは、データ化したい領収書をスキャナで読み取る、または、カメラで撮影するなどして、領収書画像RIを生成する。ユーザは、端末装置20を用いて領収書画像RIを文字認識装置10に送信する。文字認識装置10は、端末装置20から送信された領収書画像RIに対して文字認識処理を行い、文字認識処理の結果を含む認識結果データRD(図3参照)を端末装置20に送信する。ユーザは、送信された認識結果データを、例えば会計管理用アプリケーションに入力して経費の管理等を行う。領収書データ化サービスを利用することによって、紙の領収書に記載された内容が自動的にデータ化され、例えば領収書の内容をコンピュータに手入力する場合と比較して、経費管理の効率を向上させることができる。
【0015】
図2は、領収書画像RIの一例を示す図である。図2に示す領収書画像RIは、文書名表記N1、日付表記N2、宛先表記N3、金額表記N4、但書表記N5、領収確認文表記N6、住所表記N7および発行者名表記N8を含んでいる。各表記N1~N8は、領収書の地色と区別可能な色で記載された線や点で構成されている。以下、領収書画像RIにおいて、領収書の地色を表示する色を背景色、各表記N1~N8を表示する色を表記色という。
【0016】
文書名表記N1は、文書が領収書であることを示す表記である。日付表記N2は、領収書が発行された日付を示す表記である。宛先表記N3は、領収書の宛先を示す表記である。金額表記N4は、領収された金銭の額(金額)を示す表記である。但書表記N5は、金銭と引き換えに提供された商品やサービスの名称を示す表記である。領収確認文表記N6は、金額表記N4に記載の金額を、但書表記N5の名目で領収した旨を確認する文言の表記である。住所表記N7は、領収書の発行者の住所を示す表記である。発行者名表記N8は、領収書の発行者の名称を示す表記である。
【0017】
図2に示す領収書画像RIでは、文書名表記N1および領収確認文表記N6は、活字で記載されている。また、宛先表記N3、金額表記N4、住所表記N7および発行者名表記N8は、手書きされた文字である手書き文字で記入されている。日付表記N2および但書表記N5は、手書き文字と活字が混在している。一般に、手書き用に市販されている領収書用紙では、全ての領収書において共通の項目は活字で予め印刷されており、個々の領収書によって異なる項目は手書きで記載される。図2に示す領収書画像RIは、手書き用に市販されている領収書用紙に、必要箇所が手書きされた領収書が写る画像である。なお、図2に示す領収書画像RIは一例であり、例えば領収書画像の全ての項目が活字で印刷されていてもよいし、領収書画像の全ての項目が手書きされていてもよい。
【0018】
図3は、認識結果データRDの一例を示す図である。図3に示す認識結果データRDは、図2の領収書画像RIを文字認識した結果を示している。認識結果データRDは、日付認識結果D1、宛先認識結果D2、金額認識結果D3、但書認識結果D4、発行者認識結果D5を含んでいる。日付認識結果D1は、日付表記N2を文字認識した結果を示す。宛先認識結果D2は、宛先表記N3を文字認識した結果を示す。金額認識結果D3は、金額表記N4を文字認識した結果を示す。但書認識結果D4は、但書表記N5を文字認識した結果のうち、商品やサービスの名称部分を示す。発行者認識結果D5は、発行者名表記N8を文字認識した結果を示す。なお、図3に示す認識結果データRDでは、文書名表記N1、領収確認文表記N6および住所表記N7に対応する文字認識の結果は含まれていない。文書名表記N1および領収確認文表記N6は、領収書データ化サービスにおいては自明の事項であるため、省略される。また、住所表記N7は、経費管理上必要がないため、省略される。なお、認識結果データRDとして送信する情報を、ユーザが指定できるようにしてもよい。例えば、認識結果データRDに住所表記N7を含めるように、ユーザが文字認識装置10に対して指定できるようにしてもよい。
【0019】
[システム構成]
次に、端末装置20および文字認識装置10の構成について説明する。
【0020】
図4は、端末装置20のハードウェア構成の一例を示すブロック図である。端末装置20は、端末装置20の各部を制御するプロセッサ22と、各種情報を記憶するメモリ24と、通信装置26と、操作装置28と、表示装置29とを備える。
【0021】
メモリ24は、例えば、プロセッサ22の作業領域として機能するRAM(Random Access Memory)等の揮発性メモリと、制御プログラムPG2等の各種情報を記憶するEEPROM(Electrically Erasable Programmable Read-Only Memory)等の不揮発性メモリとの、一方または両方を含み、後述する記憶部240(図5参照)として機能する。なお、メモリ24は、端末装置20に着脱可能であってもよい。具体的には、メモリ24は、端末装置20に着脱されるメモリカード等の記憶媒体であってもよい。また、メモリ24は、例えば、端末装置20とネットワークNW等を介して通信可能に接続された記憶装置(例えば、オンラインストレージ)であってもよい。
【0022】
メモリ24は、例えば、制御プログラムPG2を記憶している。本実施形態では、制御プログラムPG2は、例えば、文字認識装置10に領収書画像RIを送信し、認識結果データRDを得るためのアプリケーションプログラムを含む。制御プログラムPG2は、例えば、プロセッサ22が端末装置20の各部を制御するためのオペレーティングシステムプログラムを含んでもよい。
【0023】
プロセッサ22は、例えば、1または複数のCPU(Central Processing Unit)を含んで構成される。プロセッサ22は、例えば、メモリ24に記憶された制御プログラムPG2を実行し、制御プログラムPG2に従って動作することで、後述する制御部220(図5参照)として機能する。
【0024】
また、例えば、プロセッサ22が複数のCPUを含んで構成される場合、制御部220の一部または全部の機能は、これら複数のCPUが制御プログラムPG2等のプログラムに従って協働して動作することで実現されてもよい。また、プロセッサ22は、1または複数のCPUに加え、もしくは、1または複数のCPUのうち一部または全部に代えて、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、または、FPGA(Field Programmable Gate Array)等のハードウェアを含んで構成されるものであってもよい。この場合、プロセッサ22により実現される制御部220の一部または全部は、DSP等のハードウェアにより実現されてもよい。
【0025】
通信装置26は、有線ネットワークおよび無線ネットワークの一方または両方を介して、端末装置20の外部に存在する外部装置との通信を行うためのハードウェアであり、通信部260として機能する。
【0026】
操作装置28は、端末装置20のユーザによる操作を受け付けるためのハードウェアであり、操作部280として機能する。例えば、操作装置28は、操作ボタン、タッチパネル、キーボード、および、マウス等の一部または全部を含む、1または複数の機器から構成されるものであってもよい。
【0027】
表示装置29は、端末装置20のユーザに各種情報を表示するためのハードウェアであり、表示部290として機能する。例えば、表示装置29は、端末装置20が有するディスプレイ、または端末装置20に接続されたディスプレイであってもよい。
【0028】
なお、端末装置20のハードウェア構成は、図4に示した例に限定されない。例えば、端末装置20は、紙媒体である領収書から領収書画像RIを生成するためのカメラまたはイメージスキャナ等の光学的な装置を有してもよい。
【0029】
図5は、端末装置20の機能的構成の一例を示すブロック図である。端末装置20は、端末装置20の各部を制御する制御部220と、各種情報を記憶する記憶部240と、文字認識装置10等の外部装置との間の通信を実行するための通信部260と、端末装置20のユーザによる操作を受け付けるための操作部280と、各種情報を表示するための表示部290とを有する。
【0030】
制御部220は、画像送信部222および認識結果データ受信部224を備える。画像送信部222は、文字認識装置10に対して領収書画像RIを送信する。認識結果データ受信部224は、文字認識装置10から認識結果データRDを受信する。
【0031】
図6は、文字認識装置10のハードウェア構成の一例を示すブロック図である。文字認識装置10は、文字認識装置10の各部を制御するプロセッサ12と、各種情報を記憶するメモリ14と、通信装置16とを有する。
【0032】
メモリ14は、例えば、プロセッサ12の作業領域として機能するRAM等の揮発性メモリと、制御プログラムPG1等の各種情報を記憶するEEPROM等の不揮発性メモリとの、一方または両方を含み、後述する記憶部140(図7参照)として機能する。なお、メモリ14は、図4において説明された端末装置20のメモリ24と同様に、文字認識装置10に着脱可能であってもよいし、文字認識装置10とネットワークNW等を介して通信可能に接続された記憶装置(例えば、オンラインストレージ)であってもよい。
【0033】
本実施形態では、制御プログラムPG1は、例えば、文字認識装置10が文字認識処理を実行するためのアプリケーションプログラムを含む。制御プログラムPG1は、例えば、制御部120が文字認識装置10の各部を制御するためのオペレーティングシステムプログラムを含んでもよい。
【0034】
プロセッサ12は、図4において説明された端末装置20のプロセッサ22と同様に構成される。例えば、プロセッサ12は、例えば、1または複数のCPUを含んで構成される。そして、プロセッサ12は、メモリ14に記憶された制御プログラムPG1を実行し、制御プログラムPG1に従って動作することで、後述する制御部120(図7参照)として機能する。
【0035】
また、例えば、プロセッサ12が複数のCPUを含んで構成される場合、制御部120の一部または全部の機能は、これら複数のCPUが制御プログラムPG1等のプログラムに従って協働して動作することで実現されてもよい。また、プロセッサ12は、1または複数のCPUに加え、もしくは、1または複数のCPUのうち一部または全部に代えて、GPU、DSP、または、FPGA等のハードウェアを含んで構成されるものであってもよい。この場合、プロセッサ12により実現される制御部120の一部または全部は、DSP等のハードウェアにより実現されてもよい。
【0036】
通信装置16は、有線ネットワークおよび無線ネットワークの一方または両方を介して、文字認識装置10の外部に存在する外部装置との通信を行うためのハードウェアであり、通信部160として機能する。
【0037】
図7は、文字認識装置10の機能的構成の一例を示すブロック図である。文字認識装置10は、文字認識装置10の各部を制御する制御部120と、各種情報を記憶する記憶部140と、端末装置20等の外部装置との間の通信を実行するための通信部160とを有する。
【0038】
[文字認識処理の詳細]
以下、文字認識装置10の制御部120の各構成を説明するとともに、文字認識装置10による文字認識処理の詳細について説明する。制御部120は、画像取得部121、文字領域特定部122、文字種判定部123、第1文字認識部124、第2文字認識部125(数字認識部126、記号認識部127、記号消去部128および出力部129)、認識結果生成部130を備える。
【0039】
画像取得部121は、処理対象の画像データを取得する。本実施形態では、画像取得部121は、端末装置20から送信される領収書画像RIを、ネットワークNWを介して受信する。
【0040】
文字領域特定部122は、画像取得部121が取得した領収書画像RIを、文字や罫線などの構成に分け、文字として読み取る領域を段落ごとに特定し、段落画像P(P1~P8)に区分する。文字領域特定部122が行う処理は、一般にレイアウト解析と呼ばれる。図8は、レイアウト解析後の領収書画像RIの一例を示す図である。レイアウト解析により、領収書画像RIは、文書名表記N1を囲う矩形の領域である段落画像P1、日付表記N2を囲う矩形の領域である段落画像P2、宛先表記N3を囲う矩形の領域である段落画像P3、金額表記N4を囲う矩形の領域である段落画像P4、但書表記N5および領収確認文表記N6を囲う矩形の領域である段落画像P5、住所表記N7および発行者名表記N8を囲う矩形の領域である段落画像P6が特定される。各段落画像P1~P6は、領収書画像RIの一部分である。
【0041】
文字種判定部123は、文字領域特定部122が特定した各段落画像Pに含まれる表記の文字種を判定する。本実施形態では、文字種判定部123は、領収書画像RIに含まれる各段落画像Pについて、数字の表記のみを含むことが予測される数字段落画像、または、漢字、ひらがな、カタカナ、記号、数字等の表記が混在することが予測される混在段落画像のいずれに該当するかを判定する。
【0042】
本実施形態では、文字種判定部123は、金額表記N4に対応する段落画像P4を数字段落画像と判定し、残りの段落画像P1~P3、P5~P6を混在段落画像と判定する。文字種判定部123は、例えば、パターンマッチングを用いて、領収書画像RIから金額表記N4に対応する段落画像P4を特定する。市販の領収書用紙や店舗のレジから印刷出力される領収書は、レイアウトがほぼ決まっている。このため、文字種判定部123は、一般的な領収書レイアウトをテンプレートとして保持し、今回の処理値対象の領収書画像RIがどのテンプレートと一致するかを判定する。各テンプレートでは、金額表示に対応する段落の位置が予め指定されている。文字種判定部123は、テンプレートにおける金額表示の段落の位置と、領収書画像RIに含まれる各段落画像Pの位置を比較し、当該領収書画像RIにおいて金額表示に対応する段落画像Pを特定する。
【0043】
第1文字認識部124および第2文字認識部125は、いずれも処理対象画像に含まれる表記を文字として認識する。本実施形態では、第1文字認識部124および第2文字認識部125は、例えばAI(Artificial Intelligence)-OCRにより文字認識を行う。AI-OCRでは、第1文字認識部124および第2文字認識部125は、文字を含む画像と、当該画像に含まれる文字との関係を学習した学習モデルを用いて、処理対象画像に含まれる文字を認識する。上記学習モデルは、多層ニューラルネットワークにより構成されている。AI-OCRを用いることにより、文字、特に手書きの文字についても精度よく認識することができる。第1文字認識部124および第2文字認識部125は、文字認識のアルゴリズムがそれぞれ異なる。第1文字認識部124は、漢字、ひらがな、カタカナ、記号、数字等が混在する文書の認識に適した日本語の認識において標準的なアルゴリズムを用いる。また、第2文字認識部125は、後述する数字認識部126においては、数字の認識に特化したアルゴリズムを用い、記号認識部127においては、記号の認識に特化したアルゴリズムを用いる。
【0044】
第1文字認識部124は、文字種判定部123で混在段落画像と判定された段落画像Pの文字認識を行う。本実施形態では、第1文字認識部124は、文書名表記N1に対応する段落画像P1、日付表記N2に対応する段落画像P2、宛先表記N3に対応する段落画像P3、但書表記N5および領収確認文表記N6に対応する段落画像P5、住所表記N7および発行者名表記N8に対応する段落画像P6に含まれる表記に対して文字認識を行う。第1文字認識部124は、各段落画像P1~P3、P5~P6に配置された表記が複数行に渡る場合には、各段落画像P1~P3、P5~P6を行ごとに区分し、更に1文字と推定される文字単位の部分画像に区分する。そして、第1文字認識部124は、文字単位に切り出した部分画像に含まれる表記を1文字として認識する。第1文字認識部124における認識結果は、認識結果生成部130に出力される。なお、本実施形態において、第1文字認識部124および第2文字認識部125の認識結果は、例えばShift-JISコードのようなテキストデータで出力される。なお、本実施形態では、第1文字認識部124は、日本語の認識において標準的なアルゴリズムを用いるものとするが、段落画像P1~P3、P5~P6のうち、特定の文字種のみが含まれる(または特定の文字種のみが含まれる可能性が高い)段落画像Pがある場合は、当該文字種の認識に特化したアルゴリズムを、当該段落画像Pに適用してもよい。
【0045】
第2文字認識部125は、文字種判定部123で数字段落画像と判定された段落画像Pの文字認識を行う。本実施形態では、第2文字認識部125は、金額表記N4に対応する段落画像P4の文字認識を行う。領収書画像RIの段落画像P4は、数字および数字以外の記号を表す第1画像の一例である。上述のように、金額表記N4は手書き文字で記入されている。よって、段落画像P4は、手書きの数字を含む文書を読み取った画像である。第2文字認識部125は、数字認識部126と、記号認識部127と、記号消去部128と、出力部129とを備える。
【0046】
数字認識部126は、数字の認識に特化したアルゴリズム(以下「数字用アルゴリズム」という)により文字認識処理を行う。記号認識部127は、記号の認識に特化したアルゴリズム(以下「記号用アルゴリズム」という)により文字認識処理を行う。記号認識部127は、例えば、記号のうち、数字に付随して使用される頻度が高い記号の認識に特化したアルゴリズムにより文字認識処理を行ってもよい。数字に付随して使用される頻度が高い記号とは、例えばカンマ(,)、ドット(.)、ハイフン(-)、通貨記号(¥、$等)などである。また、特に数字が金額を表示する場合において、数字に付随して使用される頻度が高い「円」、「金」、「也」等の漢字(言語文字)を記号として扱い、記号認識部127で認識可能としてもよい。
【0047】
記号消去部128は、処理対象画像(本実施形態では段落画像P4)から記号に対応する表記を消去する。記号消去部128は、例えば、記号に対応する表記を含む部分画像Cを、領収書画像RIの背景色と同色の無地画像に置き換えることにより、記号を示す表記を消去する。
【0048】
出力部129は、数字認識部126による認識結果に基づいて、処理対象画像(本実施形態では段落画像P4)に含まれる表記の認識結果を出力する。また、出力部129は、数字認識部126による認識結果とともに、記号認識部127による認識結果に基づいて、処理対象画像に含まれる表記の認識結果を出力してもよい。
【0049】
図9を用いて、第2文字認識部125の文字認識方法について具体的に説明する。まず、第2文字認識部125は、図9Aに示すように、段落画像P4に含まれる表記を1文字と推定される単位(以下、「文字単位」という)で区分する。文字単位で区分した領域を部分画像C(C1~C8)とする。本実施形態では、部分画像Cは、1文字と推定された表記を含む矩形の領域である。本実施形態では、段落画像P4から、「¥」の表記を含む部分画像C1、「2」の表記を含む部分画像C2、「5」の表記を含む部分画像C3、「,(カンマ)」の表記を含む部分画像C4、「7」の表記を含む部分画像C5、「6」の表記を含む部分画像C6、「0」の表記を含む部分画像C7、「-(ハイフン)」の表記を含む部分画像C8が切り出される。
【0050】
つぎに、第2文字認識部125は、記号認識部127により、各部分画像C1~C8に含まれる表記の文字認識処理を行う。すなわち、記号認識部127は、段落画像P4に含まれる記号を認識する。第2文字認識部125は、例えば記号認識部127による記号としての認識結果の確度が所定値以上の表記は記号と判定し、認識結果の確度が所定値未満の部分画像Cは記号ではないと判定する。認識結果の確度とは、認識結果の確からしさを示す指標値であり、本実施形態では、確度が高いほど、認識結果の確からしさが大きいものとする。本実施形態では、「¥」の表記が含まれる部分画像C1、「,」の表記が含まれる部分画像C4、および「-」の表記が含まれる部分画像C8が、記号を示す表記を含むと判定される。第1実施形態では、記号の表記が含まれる部分画像Cを特定できればよく、当該記号の表記の認識結果は保存されなくてよい。
【0051】
つづいて、第2文字認識部125は、記号消去部128により、図9Bに示すように、記号を示す表記を消去する。本実施形態では、記号消去部128は、例えば、部分画像C1,C4,C8の画像を、領収書画像RIの背景色と同色の無地画像に置き換えることにより、記号を示す表記を消去する。記号を示す表記が削除された段落画像P4を段落画像P4Aとする。段落画像P4Aを図9Cに示す。すなわち、記号消去部128は、段落画像P4から、記号に対応する部分画像C1,C4,C8を消去した段落画像P4Aを生成する生成部の一例である。より詳細には、記号消去部128は、記号認識部127によって認識された記号に対応する部分を消去して段落画像P4Aを生成する。部分画像C1,C4,C8は第1部分の一例であり、段落画像P4Aは第2画像の一例である。
【0052】
そして、第2文字認識部125は、数字認識部126により、段落画像P4Aに含まれる表記に対する文字認識処理を行う。すなわち、数字認識部126は、記号消去部128の生成した段落画像P4Aに含まれる数字を認識する。本実施形態では、段落画像P4Aは、部分画像C2~C3、C5~C7を含んでいる。数字認識部126により、部分画像C2の表記は「2」、部分画像C3の表記は「5」、部分画像C5の表記は「7」、部分画像C6の表記は「6」、部分画像C7の表記は「0」をそれぞれ示すと認識される。
【0053】
第2文字認識部125は、出力部129により、段落画像P4の認識結果を出力する。本実施形態では、出力部129は、各部分画像C2~C3、C5~C7の表記に対する認識結果を、段落画像P4における部分画像C2~C3、C5~C7の配置の順に配列し、段落画像P4に含まれる表記の認識結果として出力する。すなわち、出力部129は、段落画像P4に含まれる表記のうち、数字の認識結果のみ配列した文字列を出力する。このとき、記号の表記があった部分画像Cの箇所はブランクとせず、詰めて数字を配列してもよい。具体的には、出力部129は、図9Eに示すように、段落画像P4に含まれる表記の認識結果Uとして、「25760」を出力する。第2文字認識部125による認識結果は、認識結果生成部130に出力される。
【0054】
認識結果生成部130は、第1文字認識部124および第2文字認識部125がそれぞれ出力した認識結果を、予め定められたフォーマットに入力して認識結果データを生成する。本実施形態では、予め定められたフォーマットとは、図3に示す認識結果データRDのフォーマットである。認識結果生成部130は、段落画像P2の認識結果を日付認識結果D1に、段落画像P3の認識結果を宛先認識結果D2に、段落画像P4の認識結果を金額認識結果D3に、段落画像P5の認識結果のうち「但し」「として」等の不要部分を除いた文字列を但書認識結果D4に、段落画像P6のうち発行者名表記N8に対応する文字列を発行者認識結果D5に、それぞれ入力して認識結果データを生成する。また、認識結果生成部130は、生成した認識結果データを端末装置20に送信する。
【0055】
[フローチャート]
図10は、文字認識装置10による文字認識処理の手順を示すフローチャートである。文字認識装置10の制御部120は、画像取得部121として機能することにより、端末装置20から処理対象の領収書画像RIを受信する(ステップS100)。つぎに、制御部120は、文字領域特定部122として機能することにより、ステップS100で取得した領収書画像RIに対してレイアウト解析を行い、領収書画像RIに含まれる段落画像Pを特定する(ステップS102)。つづいて、制御部120は、文字種判定部123として機能することにより、ステップS102で特定した各段落画像Pの文字種を判定する(ステップS104)。より詳細には、制御部120は、それぞれの段落画像Pが、数字段落画像であるか、混在段落画像であるかを判定する。
【0056】
制御部120は、ステップS102で特定した各段落画像Pに対して、順次文字認識を行う。処理対象の段落画像Pが数字段落画像である場合(ステップS106:YES)、制御部120は、第2文字認識部125として機能し、数字用アルゴリズムおよび記号用アルゴリズムを用いて、処理対象の段落画像内の表記に対して文字認識を行う(ステップS108:第2文字認識処理)。ステップS108の詳細は、図10のフローチャートを用いて後述する。
【0057】
また、処理対象の段落画像が数字段落画像ではない場合(ステップS106:NO)、すなわち混在段落画像の場合、制御部120は、第1文字認識部124として機能し、日本語の認識において標準的なアルゴリズムを用いて、処理対象の段落画像内の表記に対して文字認識を行う(ステップS110:第1文字認識処理)。
【0058】
制御部120は、全ての段落画像の文字認識処理が終了するまでは(ステップS112:NO)、ステップS106に戻り、文字認識処理を継続する。全ての段落画像の文字認識が終了すると(ステップS112:YES)、制御部120は、認識結果生成部130として機能することにより、各段落画像Pに対する認識結果を予め定められたフォーマットに入力して認識結果データを生成し(ステップS114)、生成した認識結果データを端末装置20に送信して(ステップS116)、本フローチャートによる処理を終了する。
【0059】
つぎに、図11を用いて、ステップS108の処理(第2文字認識部125による第2文字認識処理)について説明する。上述のように、制御部120は、処理対象の段落画像Pが数字段落である場合には、第2文字認識部125として機能し、以下の処理を行う。制御部120は、処理対象の段落画像P(本実施形態では段落画像P4)に含まれる表記を文字単位に区分(図9A参照)して、複数の部分画像Cを切り出す(ステップS200)。
【0060】
制御部120は、記号認識部127として機能することにより、段落画像Pに含まれる部分画像Cごとに記号用アルゴリズムを用いて文字認識処理を行う(ステップS202:記号認識処理)。処理対象の段落画像Pに、記号を示す表記を含む部分画像Cがある場合(ステップS204:YES)、制御部120は、記号消去部128として機能することにより、記号を示す表記を含む部分画像Cを消去(図9B参照)する(ステップS206)。また、処理対象の段落に、記号を示す表記が含まれる部分画像Cがない場合(ステップS204:NO)、制御部120は、ステップS208に移行する。
【0061】
制御部120は、数字認識部126として機能することにより、段落画像Pに含まれる表記について部分画像Cごとに数字用アルゴリズムを用いて文字認識(図9C参照)を行う(ステップS208:数字認識処理)。制御部120は、出力部129として機能することにより、ステップS208における認識結果を、段落画像Pの認識結果として認識結果生成部130に出力(図9E参照)して(ステップS210)、本フローチャートの処理を終了する。
【0062】
以上説明したように、第1実施形態では、記号消去部128は、数字および数字以外の記号を表す段落画像P4(図8参照)から、記号に対応する部分画像C1,C4,C8を消去した段落画像P4A(図9C参照)を生成し、数字認識部126は、段落画像P4Aに含まれる数字を認識する。数字認識部126は、予め数字以外の記号が消去された段落画像P4Aに対して数字の認識を行うので、記号を数字と誤認識する可能性が低くなり、数字以外の記号が混在する段落画像P4に対して数字の認識を行うのと比較して、数字の認識精度を向上させることができる。
【0063】
また、第1実施形態では、記号認識部127によって段落画像P4に含まれる記号を認識し、記号消去部128は、記号認識部127によって認識された記号に対応する部分画像C1,C4,C8を消去して段落画像P4Aを生成する。記号認識部127によって段落画像P4に含まれる記号を認識することにより、記号に対応する部分画像Cを確実に特定し、段落画像P4から消去することができる。例えば、画像処理によりカンマやドット等の数字と比べて面積が小さい記号をノイズとして削除する場合と比較すると、記号認識部127を用いた場合には、「¥」等の数字と同程度の大きさを有する記号も消去することができ、より確実に記号を段落画像P4から消去することができる。
【0064】
また、第1実施形態では、出力部129は、段落画像P4の認識結果として、段落画像P4に含まれる表記のうち数字の認識結果のみ配列した文字列を出力する。これにより、段落画像P4の認識結果に含まれる文字種が数字のみに統一され、認識結果データを用いた処理の負荷を軽減することができる。例えば、領収書画像RIに対する文字認識結果を会計アプリケーションで用いる場合に、金額表記N4の認識結果が数字のみに統一されているので、余分な記号を消去する等の前処理を行うことなく、そのまま演算等の処理に用いることができる。
【0065】
また、第1実施形態では、数字認識部126は、数字の認識に特化した数字用アルゴリズムを用いて文字認識処理を行う。一般に、処理対象画像に含まれる文字種が固定されている場合には、当該文字種の認識に特化したアルゴリズムを用いることにより、文字の認識精度を高めることができる。一方で、特定の文字種の認識に特化したアルゴリズムは、どのような文字や線も当該特定の文字種の中の1つの文字として認識しようとする傾向があり、処理対象画像に他の文字種が混在する場合に認識精度の低下が生じやすい。本実施形態のように、処理対象画像から予め特定の文字種(数字)以外の表記を消去しておくことにより、特定の文字種の認識に特化したアルゴリズムを用いた文字認識の精度を更に向上させることができる。
【0066】
[第2実施形態]
次に、第2実施形態を説明する。以下の各例示において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜省略する。第1実施形態では、出力部129が出力する認識結果は、記号と認識された表記の認識結果を含まなかった。第2実施形態では、出力部129が出力する認識結果に、記号と認識された表記の認識結果を含めるようにする。
【0067】
図9を援用して、第2実施形態における第2文字認識部125の文字認識方法について説明する。第2実施形態においても、第2文字認識部125は、まず、図9Aに示すように、段落画像P4に含まれる表記を文字単位で区分する。本実施形態では、段落画像P4から、部分画像C1~C8が切り出される。
【0068】
つぎに、第2文字認識部125は、記号認識部127により、各部分画像C1~C8に含まれる表記の文字認識処理を行う。本実施形態では、部分画像C1に含まれる表記が「¥」、部分画像C4に含まれる表記が「,」、部分画像C8に含まれる表記が「-」と認識され、その他の部分画像C2~C3,C5~C7に含まれる表記は記号ではないと認識される。第2実施形態では、出力部129は、記号の表記が含まれる部分画像Cの位置と、当該記号の表記の認識結果を保存する。
【0069】
つづいて、第2文字認識部125は、記号消去部128により、図9Bに示すように、記号を示す表記を消去する。本実施形態では、部分画像C1,C4,C8の表記が消去される。記号を示す表記が削除された段落画像P4を段落画像P4Aとし、図9Cに示す。そして、第2文字認識部125は、数字認識部126により、段落画像P4Aに含まれる部分画像C2~C3、C5~C7に含まれる表記の文字認識処理を行い、各表記が示す数字を認識する。本実施形態では、図9Dに示すように、部分画像C2の表記は「2」、部分画像C3の表記は「5」、部分画像C5の表記は「7」、部分画像C6の表記は「6」、部分画像C7の表記は「0」をそれぞれ示すと認識される。
【0070】
第2文字認識部125は、全ての部分画像C1~C8の認識結果が揃うと、出力部129により、全ての部分画像C1~C8の表記の認識結果を、段落画像P4における部分画像C1~C8の配置に合わせて配列した文字列を生成する。そして、出力部129は、この文字列を段落画像P4における認識結果として出力する。すなわち、第2文字認識部125は、部分画像C1の表記である「¥」、部分画像C2の表記である「2」、部分画像C3の表記である「5」、部分画像C4の表記である「,」、部分画像C5の表記である「7」、部分画像C6の表記である「6」、部分画像C7の表記である「0」、部分画像C8の表記である「-」をこの順に配列した文字列「¥25,760-」を段落画像P4における認識結果として出力する。すなわち、出力部129は、数字認識部126によって識別された数字と、記号認識部127によって識別された記号とを配列した文字列を出力する。この文字列に含まれる数字および記号の配列は、段落画像P4における数字および記号の配列に対応している。
【0071】
図12は、第2実施形態における認識結果データの一例を示す図である。図12に示す認識結果データRDAは、図2の領収書画像RIを文字認識した結果を示している。認識結果データRDAのうち、日付認識結果D1、宛先認識結果D2、但書認識結果D4、発行者認識結果D5は、図3に示す認識結果データRDと同一である。一方、図3に示す認識結果データRDでは、金額認識結果D3は「25760」であり、数字のみの文字列である。これに対して、図12に示す認識結果データRDAでは、金額認識結果D3は「¥25,760-」であり、数字と記号を含んでいる。
【0072】
以上説明したように、第2実施形態では、出力部129は、数字認識部126によって識別された数字と、記号認識部127によって識別された記号とを配列した文字列を出力する。この文字列に含まれる数字および記号の配列は、段落画像P4における数字および記号の配列に対応している。すなわち、第2実施形態では、出力部129は、段落画像P4の認識結果として、段落画像P4に含まれる表記の全ての認識結果を配列した文字列を出力する。これにより、段落画像P4に含まれる表記の認識結果が、もれなく認識結果データに記録される。よって、例えば段落画像P4における金額表記が小数点以下の数値を含む場合や、金額表記における通貨の種類が不明であり、¥等の通貨表記により識別する必要がある場合などにおいて、利便性を向上させることができる。
【0073】
なお、出力部129に対して、記号認識部127によって識別された記号うち、特定の記号のみを認識結果の文字列に含める、または、特定の記号のみを認識結果の文字列に含めないような設定をできるようにしてもよい。例えば、「1,234,567.89」という数字の表記を文字認識した際に、桁を区切るカンマは不要であっても、小数点に対応するドットは認識結果に含めなければ、数値としての認識結果が異なってしまう場合がある。この場合、出力部129に対して、認識された記号のうちドットについては認識結果に含め、その他の記号については認識結果に含めないように予め設定しておく。これにより、上記の数字の表記の認識結果が「1234567.89」と出力される。
【0074】
[第3実施形態]
次に、第3実施形態を説明する。以下の各例示において機能が第1実施形態または第2実施形態と同様である要素については、第1実施形態または第2実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜省略する。第1実施形態および第2実施形態では、第2文字認識部125は、記号認識部127によって認識された記号を画像から消去した上で、数字認識部126により数字の文字認識を行っていた。第3実施形態では、段落画像P4に含まれる全ての表記に対して、数字認識部126および記号認識部127のそれぞれが文字認識を行い、認識結果の確度に基づいて、記号の表記を判定する。その後、記号と認定された表記を段落から消去した上で、数字認識部126により数字の文字認識を行う。
【0075】
図13を用いて、第3実施形態における第2文字認識部125の文字認識方法について説明する。第3実施形態においても、第2文字認識部125は、まず、図13Aに示すように、段落画像P4に含まれる表記を文字単位で区分する。本実施形態では、段落画像P4から、部分画像C1~C8が切り出される。
【0076】
つぎに、第2文字認識部125は、記号認識部127により、部分画像C1~C8に含まれる表記の文字認識を行う。第3実施形態では、記号認識部127は、各部分画像C1~C8の表記の認識結果とともに、各認識結果の確度情報を出力する。以下、記号認識部127による認識結果を「第2認識結果」、第2認識結果の確度を「第2確度」という。本実施形態では、図13Bに示すように、部分画像C1の表記の第2認識結果は「¥」であり第2確度は95%である。部分画像C2の表記の文第2字認識結果は「>」であり第2確度は15%である。部分画像C3の表記の第2認識結果は「$」であり第2確度は18%である。部分画像C4の表記の第2認識結果は「,」であり第2確度は93%である。部分画像C5の表記の第2認識結果は「/」であり第2確度は28%である。部分画像C6の表記の第2認識結果は「&」であり第2確度は11%である。部分画像C7の表記の第2認識結果は「@」であり第2確度は20%である。部分画像C8の表記の第2認識結果は「-」であり第2確度は95%である。なお、図13では、確度の%の表記は省略している。
【0077】
また、第2文字認識部125は、数字認識部126により、部分画像C1~C8に含まれる表記の文字認識を行う。数字認識部126も、各部分画像C1~C8の表記の認識結果とともに、各認識結果の確度情報を出力する。以下、数字認識部126による認識結果を「第1認識結果」、第1認識結果の確度を「第1確度」という。本実施形態では、図13Cに示すように、部分画像C1の表記の第1認識結果は「7」であり第1確度は28%である。部分画像C2の表記の第1認識結果は「2」であり第1確度は93%である。部分画像C3の表記の第1認識結果は「5」であり第1確度は95%である。部分画像C4の表記の第1認識結果は「1」であり第1確度は20%である。部分画像C5の表記の第1認識結果は「7」であり第1確度は94%である。部分画像C6の表記の第1認識結果は「6」であり第1確度は95%である。部分画像C7の表記の第1認識結果は「0」であり第1確度は96%である。部分画像C8の表記の第1認識結果は「7」であり第1確度は11%である。
【0078】
第2文字認識部125は、記号消去部128により、各部分画像C1~C8について第1確度と第2確度とを比較し、第2確度の方が高い部分画像Cの表記について、記号であると判定する。本実施形態では、部分画像C1,C4,C8の表記が記号と判定される。その後は、第1実施形態と同様に、第2文字認識部125は、記号消去部128により、図9Cに示すように記号を示す表記を消去する。第2文字認識部125は、数字認識部126により、記号を示す表記が削除された段落画像P4Aに対して文字認識を行う。そして、出力部129により、数字認識部126による認識結果が、段落画像P4の認識結果として出力される。
【0079】
すなわち、第3実施形態において、段落画像P4は、複数の部分画像C1~C8に分割され、数字認識部126は、部分画像C1~C8の各々における表記を数字として認識し、数字の認識結果の確度を示す第1確度を算出する。また、記号認識部127は、部分画像C1~C8の各々における表記を記号として認識し、記号の認識結果の確度を示す第2確度を算出する。記号消去部128は、第1確度と前記第2確度との比較結果に基づいて、記号の表記を含む部分画像Cを特定し、記号の表記を含む部分画像Cを段落画像P4から消去する。
【0080】
このように、第3実施形態では、記号認識部127による認識結果のみならず、数字認識部126による認識結果を用いて、段落画像P4に含まれる記号の表記を特定するので、記号の表記をより精度よく特定することができる。例えば、数字と似た形状の記号についても、記号認識部127および数字認識部126のそれぞれの認識結果および確度に基づいて、記号であるか数字であるかを判定することができる。
【0081】
なお、上述した説明では、第2文字認識部125は、第1確度と第2確度とに基づいて記号の表記を含む部分画像Cを判定し、記号の表記を含む部分画像Cを消去した上で更に数字認識部126による文字認識を行った。これに限らず、第2文字認識部125は、第1確度と第2確度とに基づいて、各部分画像C1~C8の表記に対して第1認識結果と第2認識結果のいずれを採用するかを選択してもよい。この場合、第2文字認識部125は、選択した認識結果を段落画像P4における部分画像C1~C8の配置に基づいて配列して、段落画像P4における認識結果として出力する。
【0082】
例えば図13の例では、部分画像C1の表記の第1確度は30%、第2確度は95%である。よって、部分画像C1の表記の認識結果としてより確からしいのは、第2認識結果である「¥」である。同様に、部分画像C2の表記は「2」、部分画像C3の表記は「5」、部分画像C4の表記は「,」、部分画像C5の表記は「7」、部分画像C6の表記は「6」、部分画像C7の表記は「0」、部分画像C8の表記は「-」が、それぞれより確からしい認識結果として選択される。第2文字認識部125は、出力部129により、各部分画像C1~C8の表記の認識結果を、段落画像P4における部分画像C1~C8の配置と同様に「¥25,760-」と配列して、段落画像P4における認識結果として出力する。
【0083】
なお、段落画像P4の認識結果に記号を含めたくない場合、段落画像P4の認識結果に第2認識結果が含まれる際には第2認識結果を削除して、第1認識結果のみで構成される文字列とするように、出力部129を設定してもよい。
【0084】
[第4実施形態]
次に、第4実施形態を説明する。以下の各例示において機能が第1実施形態~第3実施形態と同様である要素については、第1実施形態~第3実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜省略する。第1実施形態~第3実施形態では、第2文字認識部125は、数字認識部126と、記号認識部127と、記号消去部128とを備え、記号認識部127によって認識された記号の表記を記号消去部128により消去した上で、数字認識部126により数字の文字認識を行っていた。第4実施形態では、記号認識部127および記号消去部128を用いずに、段落画像P4に対して画像処理の一種であるノイズ除去処理が行われることにより、段落画像P4から記号が消去される。そして、ノイズ除去処理後の段落画像P4に対して、数字認識部126が数字の文字認識を行って、段落画像P4における認識結果を出力する。
【0085】
図14は、第4実施形態における文字認識装置10Aの機能的構成を示すブロック図である。文字認識装置10Aの第2文字認識部125Aは、数字認識部126と、画像処理部132と、出力部129とを備える。画像処理部132は、処理対象の段落画像P4に対してノイズを除去するノイズ除去処理を行う。画像に対するノイズ除去処理については従来技術のため詳細な説明を省略するが、画像処理部132は、段落画像P4に対して例えばメディアンフィルタや平滑化フィルタなどを適用して、段落画像P4に含まれる記号を除去する。すなわち、画像処理部132は、段落画像P4に対してノイズ除去処理を行うことにより、段落画像P4から記号に対応する部分画像Cを消去した画像を生成する生成部の一例である。
【0086】
図15は、第4実施形態の適用が好適な領収書画像の一例を示す図である。図15の領収書画像RIAの金額表記N4には、「25760」の数字の他、「5」と「2」の間に桁区切り記号であるカンマが、「0」の後に金額の末尾を示す記号であるハイフンが、それぞれ含まれている。これらの記号は、数字と比べて段落画像P4に占める面積が小さく、ノイズとして除去することが可能である。
【0087】
また、例えば図9Aに示すように、段落画像P4に含まれる表記を文字単位の部分画像Cに区分した際に、大きさが所定値以下の部分画像Cがある場合には、当該部分画像Cをノイズとして除去してもよい。部分画像Cをノイズとして除去するとは、例えば当該部分画像Cを領収書画像RIの背景色と同色の無地画像に置き換えることであってもよい。また、部分画像Cの大きさが所定値以下とは、例えば部分画像Cを構成する画素数が所定数以下である場合であってもよい。この場合の所定数は、予め定められた固定値であってもよいし、同じ段落画像Pに含まれる他の部分画像Cの画素数に基づいて定められてもよい。
【0088】
以上説明したように、第4実施形態では、画像処理部132により段落画像P4に対してノイズ除去処理を行うことで、段落画像P4から記号に対応する部分画像Cを消去した画像を生成する。これにより、簡易な処理で段落画像P4から記号に対応する部分画像Cを消去することができ、文字認識装置10における処理負荷を軽減することができる。
【0089】
[変形例]
本発明は、以上に例示した実施形態に限定されない。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を併合してもよい。
【0090】
[第1変形例]
上述した実施形態では、領収書画像RI(特に数字および数字以外の記号を表す段落画像P4)が手書きの数字を含む領収書を読み取った画像であった。これに限らず、領収書画像RIに含まれる数字が活字(テキストエディタやレジ端末において用いられる各種フォント、活版印刷における字型等)を用いて印刷された文字である場合にも、上述した実施形態を適用可能である。
【0091】
[第2変形例]
上述した実施形態では、文字認識装置10における処理対象画像が領収書画像RIであった。これに限らず、文字認識装置10における処理対象画像は、数字を含む媒体(例えば文書)をスキャナで読み取る、または、カメラで撮影するなどして生成された画像であればよい。数字を含む媒体とは、例えば請求書、決算書、振込用紙、見積書などの経理書類、実験や観測における測定値を記録した記録用紙など、多岐にわたる分野の文書が該当する。
【0092】
[第3変形例]
上述した実施形態では、文字認識装置10は、端末装置20から送信された領収書画像RIに文字認識処理を行い、認識結果データRDを端末装置20に返信した。これに限らず、例えば、文字認識装置10が処理対象画像を生成してもよい。具体的には、例えば、ユーザが手持ちの領収書を領収書データ化サービスの提供事業者に郵送し、提供事業者が文字認識装置10に接続されたスキャナで、領収書を読み取って処理対象画像を生成してもよい。また、例えば、文字認識処理を実行するためのプログラム(例えば、図6の制御プログラムPG1)が、端末装置20にインストールされていてもよい。この場合は、端末装置20が文字認識装置10として機能する。
【符号の説明】
【0093】
1…文字認識システム、10,10A…文字認識装置、120…制御部、121…画像取得部、122…文字領域特定部、123…文字種判定部、124…第1文字認識部、125,125A…第2文字認識部、126…数字認識部、127…記号認識部、128…記号消去部、129…出力部、130…認識結果生成部、132…画像処理部、140…記憶部、160…通信部、20…端末装置、220…制御部、222…画像送信部、224…認識結果データ受信部、240…記憶部、260…通信部、280…操作部、290…表示部、NW…ネットワーク、RD,RDA…認識結果データ、RI,RIA…領収書画像。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15