(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023003647
(43)【公開日】2023-01-17
(54)【発明の名称】情報処理装置、及び、プログラム
(51)【国際特許分類】
G06V 30/12 20220101AFI20230110BHJP
【FI】
G06K9/03 C
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021104847
(22)【出願日】2021-06-24
(71)【出願人】
【識別番号】000116079
【氏名又は名称】ローレルバンクマシン株式会社
(71)【出願人】
【識別番号】500267170
【氏名又は名称】ローレル機械株式会社
(71)【出願人】
【識別番号】500265501
【氏名又は名称】ローレル精機株式会社
(74)【代理人】
【識別番号】110003177
【氏名又は名称】弁理士法人旺知国際特許事務所
(72)【発明者】
【氏名】小澤 茂樹
【テーマコード(参考)】
5B064
【Fターム(参考)】
5B064AA01
5B064AB03
5B064BA01
5B064DA10
5B064EA11
5B064EA12
5B064EA29
5B064EA39
5B064FA13
(57)【要約】
【課題】文字認識処理における誤認識の発生が見落とされるリスクを低減する。
【解決手段】第1の文字認識処理、及び、第2の文字認識処理の各々により、文字画像GCに表された一の文字を認識する記載内容認識部113と、第1の文字認識処理による一の文字の認識結果である認識候補文字R[m1][1]、及び、第2の文字認識処理による一の文字の認識結果である認識候補文字R[m2][1]が、同一の文字である場合、認識候補文字R[m1][1]及び認識候補文字R[m2][1]を、確定認識文字RXとして決定し、認識候補文字R[m1][1]及び認識候補文字R[m2][1]が、異なる文字である場合、認識候補文字R[m1][1]及び認識候補文字R[m2][1]の一方を、有力認識文字RY決定する認識結果決定部114と、有力認識文字RYを確定認識文字RXとは異なる態様で表示部31に表示させるための表示情報JHを生成する表示情報生成部115と、を備える、ことを特徴とする文字認識装置1。
【選択図】
図11
【特許請求の範囲】
【請求項1】
画像に含まれる文字を認識する第1の文字認識処理、及び、
画像に含まれる文字を認識する第2の文字認識処理の各々により、
文字画像に表された一の文字を認識する認識部と、
前記第1の文字認識処理による前記一の文字の認識結果である第1文字、及び、
前記第2の文字認識処理による前記一の文字の認識結果である第2文字が、同一の文字である場合、
前記第1文字及び前記第2文字を、前記一の文字の認識結果に対応する確定文字として決定し、
前記第1文字及び前記第2文字が、異なる文字である場合、
前記第1文字及び前記第2文字のうち一方を、前記一の文字の認識結果に対応する候補文字として決定する決定部と、
前記決定部により決定された前記確定文字または前記候補文字を表示部に表示させる表示制御部と、
を備え、
前記表示制御部は、
前記候補文字を前記確定文字とは異なる態様で前記表示部に表示させる、
ことを特徴とする情報処理装置。
【請求項2】
前記第1の文字認識処理は、
文字を含む画像と、前記画像に表された文字との関係を学習した第1の学習モデルを用いて、
前記文字画像に表された前記一の文字を認識する処理である、
ことを特徴とする、請求項1に記載の情報処理装置。
【請求項3】
前記表示部に表示された前記候補文字または前記確定文字の修正を受け付ける受付部と、
前記受付部が、前記候補文字または前記確定文字を前記一の文字へと変更する修正を受け付けた場合、
前記第1の学習モデルに対して、前記文字画像が前記一の文字を表すことを学習させる学習部と、
を備える、
ことを特徴とする、請求項2に記載の情報処理装置。
【請求項4】
前記表示部に表示された前記候補文字または前記確定文字の修正を受け付ける受付部と、
前記受付部が、前記候補文字または前記確定文字を前記一の文字へと変更する修正を受け付けた場合であって、
前記第1文字と前記一の文字が異なる場合において、
前記第1の学習モデルに対して、前記文字画像が前記一の文字を表すことを学習させる学習部と、
を備える、
ことを特徴とする、請求項2に記載の情報処理装置。
【請求項5】
前記表示部に表示された前記候補文字または前記確定文字の修正を受け付ける受付部を備え、
前記表示制御部は、
前記決定部が、前記第1文字及び前記第2文字のうち一方を、前記候補文字として決定した場合であって、
前記受付部が、前記候補文字の修正を受け付ける場合、
前記第1文字及び前記第2文字のうち他方を、前記候補文字の修正候補として、前記表示部に表示させる、
ことを特徴とする、請求項1乃至4のうち何れか1項に記載の情報処理装置。
【請求項6】
前記表示制御部は、
前記文字画像と、前記確定文字または前記候補文字とを、前記表示部に表示させる、
ことを特徴とする、請求項1乃至5のうち何れか1項に記載の情報処理装置。
【請求項7】
前記認識部は、
前記文字画像に表された前記一の文字の種類に応じて、
画像に含まれる文字を認識する複数の文字認識処理の中から、
前記第1の文字認識処理と、前記第2の文字認識処理とを選択する、
ことを特徴とする、請求項1乃至6のうち何れか1項に記載の情報処理装置。
【請求項8】
プロセッサを、
画像に含まれる文字を認識する第1の文字認識処理、及び、
画像に含まれる文字を認識する第2の文字認識処理の各々により、
文字画像に表された一の文字を認識する認識部と、
前記第1の文字認識処理による前記一の文字の認識結果である第1文字、及び、
前記第2の文字認識処理による前記一の文字の認識結果である第2文字が、同一の文字である場合、
前記第1文字及び前記第2文字を、前記一の文字の認識結果に対応する確定文字として決定し、
前記第1文字及び前記第2文字が、異なる文字である場合、
前記第1文字及び前記第2文字のうち一方を、前記一の文字の認識結果に対応する候補文字として決定する決定部と、
前記決定部により決定された前記確定文字または前記候補文字を表示部に表示させる表示制御部と、
して機能させ、
前記表示制御部は、
前記候補文字を前記確定文字とは異なる態様で前記表示部に表示させる、
ことを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、及び、プログラムに関する。
【背景技術】
【0002】
画像に含まれる文字を認識する文字認識処理に関する技術が提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、従来の技術において、文字認識処理における文字の認識の精度を如何に高めようとしても、文字認識処理において誤認識の発生を完全に防止することは難しい。そして、文字認識処理において誤認識が発生した場合に、文字認識処理の結果を確認するオペレータが、文字認識処理における誤認識の発生を見落としてしまう可能性があった。
【0005】
本発明は、上述した事情に鑑みてなされたものであり、従来の技術と比較して、文字認識処理における誤認識の発生が見落とされるリスクを低減することを可能とする技術の提供を、解決課題の一つとする。
【課題を解決するための手段】
【0006】
以上の課題を解決するために、本発明に係る情報処理装置は、画像に含まれる文字を認識する第1の文字認識処理、及び、画像に含まれる文字を認識する第2の文字認識処理の各々により、文字画像に表された一の文字を認識する認識部と、前記第1の文字認識処理による前記一の文字の認識結果である第1文字、及び、前記第2の文字認識処理による前記一の文字の認識結果である第2文字が、同一の文字である場合、前記第1文字及び前記第2文字を、前記一の文字の認識結果に対応する確定文字として決定し、前記第1文字及び前記第2文字が、異なる文字である場合、前記第1文字及び前記第2文字のうち一方を、前記一の文字の認識結果に対応する候補文字として決定する決定部と、前記決定部により決定された前記確定文字または前記候補文字を表示部に表示させる表示制御部と、を備え、前記表示制御部は、前記候補文字を前記確定文字とは異なる態様で前記表示部に表示させる、ことを特徴とする。
【0007】
また、本発明に係るプログラムは、プロセッサを、画像に含まれる文字を認識する第1の文字認識処理、及び、画像に含まれる文字を認識する第2の文字認識処理の各々により、文字画像に表された一の文字を認識する認識部と、前記第1の文字認識処理による前記一の文字の認識結果である第1文字、及び、前記第2の文字認識処理による前記一の文字の認識結果である第2文字が、同一の文字である場合、前記第1文字及び前記第2文字を、前記一の文字の認識結果に対応する確定文字として決定し、前記第1文字及び前記第2文字が、異なる文字である場合、前記第1文字及び前記第2文字のうち一方を、前記一の文字の認識結果に対応する候補文字として決定する決定部と、前記決定部により決定された前記確定文字または前記候補文字を表示部に表示させる表示制御部と、して機能させ、前記表示制御部は、前記候補文字を前記確定文字とは異なる態様で前記表示部に表示させる、ことを特徴とする。
【発明の効果】
【0008】
本発明によれば、従来の技術と比較して、文字認識処理における誤認識の発生が見落とされるリスクを低減することが可能となる。
【図面の簡単な説明】
【0009】
【
図1】本発明の実施形態に係る文字認識システムSysの概要の一例を示す説明図である。
【
図2】申込書画像GMの概要の一例を示す説明図である。
【
図3】申込内容表示画像GHの概要の一例を示す説明図である。
【
図4】申込内容表示画像GHの概要の一例を示す説明図である。
【
図5】文字認識装置1の構成の一例を示すブロック図である。
【
図6】文字認識装置1のハードウェア構成の一例を示すブロック図である。
【
図7】申込書情報JMのデータ構成の一例を示す図である。
【
図8】アルゴリズム特性情報JRのデータ構成の一例を示す図である。
【
図9】文字認識装置1の動作の一例を示すフローチャートである。
【
図10】文字認識装置1の動作の一例を示すフローチャートである。
【
図11】文字認識処理及び表示文字決定処理の一例を説明するための説明図である。
【
図12】文字認識装置1の動作の一例を示すフローチャートである。
【
図13】変形例4に係る文字認識システムSys-Bの概要の一例を示す説明図である。
【
図14】文字認識装置1Bの構成の一例を示すブロック図である。
【発明を実施するための形態】
【0010】
以下、本発明を実施するための形態について図面を参照して説明する。なお、各図において、各部の寸法及び縮尺は、実際のものと適宜に異ならせてある。また、以下に述べる実施の形態は、本発明の好適な具体例であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの形態に限られるものではない。
【0011】
[A.実施形態]
以下、本発明の実施形態を説明する。
【0012】
<1.文字認識システムの概要>
以下、
図1乃至
図4を参照しつつ、文字認識システムSysの概要について説明する。
【0013】
図1は、本実施形態に係る文字認識システムSysの構成の一例を説明するための説明図である。
【0014】
図1に例示するように、文字認識システムSysは、文字認識装置1と、端末装置3と、撮像装置5と、を備える。
【0015】
文字認識装置1(「情報処理装置」の一例)は、例えば、光学文字認識(OCR:Optical Character Recognition)技術を用いて、画像に含まれる文字を認識する文字認識処理を実行する。本実施形態では、文字認識装置1による文字認識処理の対象となる画像が、所定のサービスに入会するための入会申込書を撮像した申込書画像GMである場合を、一例として想定する。なお、申込書画像GMについては、
図2において後述する。
【0016】
撮像装置5は、例えば、カメラまたはイメージスキャナ等の光学的な装置であり、入会申込書を撮像し、当該撮像の結果得られた申込書画像GMを示す画像情報JGを、端末装置3に供給する。
【0017】
端末装置3は、画像を表示可能な表示部31と、端末装置3のオペレータの操作を受け付ける操作部32と、を備える。なお、端末装置3としては、パーソナルコンピュータ等の据置型の情報機器であってもよいし、タブレット端末、または、スマートフォン等の可搬型の情報端末であってもよい。
【0018】
本実施形態において、端末装置3は、ネットワークNWを介して文字認識装置1と通信可能であり、撮像装置5から供給された画像情報JGを、ネットワークNWを介して文字認識装置1に送信する。そして、文字認識装置1は、端末装置3から画像情報JGが供給されると、端末装置3から供給された画像情報JGの示す申込書画像GMに対して文字認識処理を施す。その後、文字認識装置1は、申込書画像GMに対する文字認識処理による認識の結果に基づいて、表示部31に申込内容表示画像GHを表示させるための表示情報JHを生成し、生成した表示情報JHを、端末装置3に対して送信する。そして、端末装置3は、文字認識装置1から表示情報JHが供給されると、文字認識装置1から供給された表示情報JHに基づいて、表示部31に申込内容表示画像GHを表示させる。なお、申込内容表示画像GHについては、
図3及び
図4において後述する。
【0019】
図2は、申込書画像GMの一例を説明するための説明図である。
【0020】
図2に例示するように、申込書画像GMは、複数の記載欄を含む。複数の記載欄の各々は、当該記載欄に記載すべき申込内容の項目の名称である項目名称が記載された項目名称記載領域AMと、当該記載欄に係る申込内容が記載された申込内容記載領域AKと、を含む。以下では、申込書画像GMのうち、申込内容記載領域AKに記載された申込内容に係る文字列を示す画像を、文字列画像GCLと称する。また、以下では、文字列画像GCLのうち、文字列画像GCLの示す文字列に含まれる複数の文字の各々を示す画像を、文字画像GCと称する。すなわち、文字列画像GCLは、複数の文字画像GCを含む画像である。
【0021】
なお、本実施形態では、一例として、入会申込書が、
図2に示すように、「申込番号」に係る記載欄と、「カナ氏名」に係る記載欄と、「氏名」に係る記載欄と、「郵便番号」に係る記載欄と、「住所」に係る記載欄と、「メール」に係る記載欄と、「電話番号」に係る記載欄と、を有する場合を想定する。そして、以下では、申込書画像GMのうち、「申込番号」に係る記載欄に記載された申込内容を示す文字列画像GCLを、文字列画像GCL1と称し、「カナ氏名」に係る記載欄に記載された申込内容を示す文字列画像GCLを、文字列画像GCL2と称し、「氏名」に係る記載欄に記載された申込内容を示す文字列画像GCLを、文字列画像GCL3と称し、「郵便番号」に係る記載欄に記載された申込内容を示す文字列画像GCLを、文字列画像GCL4と称し、「住所」に係る記載欄に記載された申込内容を示す文字列画像GCLを、文字列画像GCL5と称し、「メール」に係る記載欄に記載された申込内容を示す文字列画像GCLを、文字列画像GCL6と称し、「電話番号」に係る記載欄に記載された申込内容を示す文字列画像GCLを、文字列画像GCL7と称する場合がある。
【0022】
なお、以下では、文字認識装置1が、
図2に例示するフォーマットを有する申込書画像GMを、文字認識処理の対象とする場合を想定するが、本発明はこのような態様に限定されるものではない。本実施形態において、文字認識装置1は、任意のフォーマットを有する書類を、文字認識処理の対象とすることができる。また、以下では、記載欄に記載された申込内容が、手書きされた文字である手書文字により記載される場合を想定するが、本発明はこのような態様に限定されるものではない。本実施形態において、記載欄に記載された複数の申込内容のうち、一部または全部が、活字により記載されていてもよい。
【0023】
図3は、申込内容表示画像GHの一例を説明するための説明図である。
【0024】
図3に例示するように、申込内容表示画像GHは、申込書画像GMにおける複数の記載欄に1対1に対応する複数の項目名称と、申込書画像GMにおける複数の記載欄に1対1に対応する複数の文字列画像GCL(文字列画像GCL1~GCL7)と、申込書画像GMにおける複数の記載欄に1対1に対応する複数の認識文字列LMK(認識文字列LMK1~LMK7)と、を含む。
【0025】
ここで、認識文字列LMKとは、文字認識装置1において、申込書画像GMに含まれる文字列画像GCLに対して実行された文字認識処理の結果に基づいて得られた文字列である。以下では、認識文字列LMKに含まれる複数の文字の各々を、表示文字RHと称する。すなわち、表示文字RHとは、文字認識装置1において、文字画像GCに対して実行された文字認識処理の結果に基づいて得られた文字である。
【0026】
また、
図3に例示するように、申込内容表示画像GHは、注意喚起マークMKを含む場合がある。ここで、注意喚起マークMKとは、文字認識装置1において、文字画像GCに対して文字認識処理が実行され、当該文字認識処理の結果に基づいて表示文字RHが決定された場合に、文字認識装置1が、文字画像GCの示す文字と、表示文字RHとが異なる文字である可能性があると判断した場合に、申込内容表示画像GHにおいて表示する画像である。例えば、
図3に示す例では、文字認識装置1が、文字列画像GCL5に含まれる文字画像GC1の示す文字と、認識文字列LMK5に含まれる表示文字RH1である「丈」とが、異なる文字である可能性があると判断したため、当該文字画像GC1及び表示文字RH1に対応する位置に、注意喚起マークMK1が表示される場合を例示している。また、
図3に示す例では、文字認識装置1が、文字列画像GCL7に含まれる文字画像GC2の示す文字と、認識文字列LMK7に含まれる表示文字RH2である「7」とが、異なる文字である可能性があると判断したため、当該文字画像GC2及び表示文字RH2に対応する位置に、注意喚起マークMK2が表示される場合を例示している。
【0027】
また、
図3に例示するように、申込内容表示画像GHは、修正ボタンSSBを含む。
ここで、修正ボタンSSBとは、端末装置3を操作するオペレータが、申込内容表示画像GHにおいて、文字画像GCと、当該文字画像GCに対応する表示文字RHとを比較し、表示文字RHが、文字画像GCの示す文字とは異なる文字であると判断した場合に、表示文字RHを修正可能な状態とするためのボタンである。
【0028】
図4は、修正ボタンSSBが押下された場合における、申込内容表示画像GHの一例を説明するための説明図である。
【0029】
図4に例示するように、申込内容表示画像GHにおいて、修正ボタンSSBが押下されると、端末装置3を操作するオペレータは、各認識文字列LMKを編集することができるようになる。具体的には、申込内容表示画像GHにおいて、修正ボタンSSBが押下された場合に、端末装置3を操作するオペレータは、端末装置3を操作するオペレータが選択した表示文字RHに対応する位置に、カーソルCSRを配置することで、当該表示文字RHを編集可能な状態にする。
【0030】
また、
図4に例示するように、申込内容表示画像GHにおいて、修正ボタンSSBが押下され、端末装置3を操作するオペレータが、表示文字RHに対応する位置にカーソルCSRを配置し、当該表示文字RHを編集可能な状態とした場合に、当該表示文字RHに対応する修正候補文字RZが表示されたポップアップ画像PRZが、表示文字RHに対応する位置に表示される。ここで、修正候補文字RZとは、表示文字RHの修正候補となる文字である。より具体的には、修正候補文字RZとは、表示文字RHに対応する文字画像GCに対して文字認識処理を実行することで得られる複数の認識候補文字Rのうち、表示文字RHとは異なる認識候補文字Rである。ここで、認識候補文字Rとは、表示文字RHに対応する文字画像GCに対して文字認識処理を実行することで得られる、当該文字画像GCの示す文字の候補となる文字である。
そして、端末装置3を操作するオペレータは、ポップアップ画像PRZに表示された修正候補文字RZを選択することで、表示文字RHを修正候補文字RZに置き換えることができる。
【0031】
なお、
図4では、端末装置3を操作するオペレータが、認識文字列LMK5に含まれる表示文字RH1である「丈」に対して、カーソルCSRを配置し、当該表示文字RH1を編集可能な状態とした場合を例示している。そして、
図4では、表示文字RH1である「丈」に対応して、修正候補文字RZ-1である「太」と、修正候補文字RZ-2である「大」と、修正候補文字RZ-3である「犬」と、が存在し、これらの修正候補文字RZ1~RZ3が表示されたポップアップ画像PRZが、表示文字RH1の近傍に表示される場合を例示している。そして、
図4では、端末装置3を操作するオペレータは、ポップアップ画像PRZに表示された修正候補文字RZ1~RZ3の中から一の修正候補文字RZを選択することで、表示文字RH1を一の修正候補文字RZに修正することができる。例えば、
図4において、端末装置3を操作するオペレータが、ポップアップ画像PRZに表示された、修正候補文字RZ-1(太)、修正候補文字RZ-2(大)、及び、修正候補文字RZ-3(犬)の中から、修正候補文字RZ-2である「大」を選択した場合、表示文字RH1は、「丈」から「大」に修正(変更)されることになる。
【0032】
また、
図3及び
図4に例示するように、申込内容表示画像GHは、確定ボタンKTBを含む。
ここで、確定ボタンKTBとは、申込内容表示画像GHに含まれる複数の認識文字列LMKを確定するためのボタンである。確定ボタンKTBが押下された場合、各認識文字列LMKに含まれる各表示文字RHが確定し、端末装置3を操作するオペレータが各表示文字RHを変更できない状態となる。これにより、文字認識システムSysは、申込書画像GMに含まれる文字の認識結果を、申込内容表示画像GHに表示される複数の表示文字RHであるとして確定する。
【0033】
なお、本実施形態では、表示部31において申込内容表示画像GHが表示された状態で修正ボタンSSBが押下された場合に限り、端末装置3を操作するオペレータが各認識文字列LMKを編集可能となる態様を例示しているが、本発明はこのような態様に限定されるものではない。例えば、端末装置3を操作するオペレータは、表示部31において申込内容表示画像GHが表示された時点で、認識文字列LMKを編集可能であってもよい。この場合、申込内容表示画像GHは、修正ボタンSSBを含まなくてもよい。
【0034】
<2.文字認識装置の機能>
以下、
図5乃至
図8を参照しつつ、文字認識装置1の機能について説明する。
【0035】
図5は、文字認識装置1の構成の一例を示す機能ブロック図である。
【0036】
図5に例示するように、文字認識装置1は、文字認識装置1の各部を制御する制御部11と、各種情報を記憶する記憶部12と、文字認識装置1の外部に存在する外部装置との間の通信を実行する通信部13と、を備える。
【0037】
図5に例示するように、制御部11は、画像情報取得部111と、文字領域特定部112と、記載内容認識部113と、認識結果決定部114と、表示情報生成部115と、操作受付部116と、学習実行部117と、を備える。
【0038】
画像情報取得部111は、端末装置3から画像情報JGを取得する。
文字領域特定部112は、画像情報取得部111の取得した画像情報JGの示す申込書画像GMにおいて、複数の申込内容記載領域AKを特定する。具体的には、文字領域特定部112は、例えば、記憶部12に記憶された申込書画像GMのレイアウトに関する情報(図示省略)に基づいて、申込書画像GMに含まれる複数の申込内容記載領域AKを特定する。
【0039】
記載内容認識部113(「認識部」の一例)は、申込内容記載領域AKに表された文字列画像GCLに含まれる各文字画像GCに対して、文字認識処理を施すことで、当該文字画像GCの示す文字の認識結果として、1または複数の認識候補文字Rを特定する。
【0040】
具体的には、記載内容認識部113は、M個の文字認識部RG[1]~RG[M]を備える。ここで、値Mは、M≧2を満たす自然数である。なお、以下では、M個の文字認識部RG[1]~RG[M]のうち、m番目の文字認識部RGを、文字認識部RG[m]と称する場合がある。ここで、変数mは、1≦m≦Mを満たす自然数である。文字認識部RG[m]は、文字画像GCに対して文字認識処理を施すことで、当該文字画像GCの示す文字の認識結果として、1または複数の認識候補文字Rを特定することができる。
なお、文字認識部RG[m]による文字認識処理には、様々な方法を適用できるが、本実施形態では、一例として、光学文字認識(OCR:Optical character recognition)による方法を適用する場合を想定する。
【0041】
また、本実施形態において、記載内容認識部113は、M個の文字認識部RG[1]~RG[M]の中から、W個の文字認識部RGを選択し、当該選択されたW個の文字認識部RGの各々に、文字認識処理を実行させる。ここで、Wは、2≦W≦Mを満たす自然数である。なお、本実施形態では、一例として、「W=2」である場合を想定する。そして、以下では、選択されたW個(=2個)の文字認識部RGを、文字認識部RG[m1]及び文字認識部RG[m2]と称する。ここで、変数m1は、1≦m1≦Mを満たす自然数であり、また、変数m2は、1≦m2≦Mを満たす自然数である。
【0042】
認識結果決定部114(「決定部」の一例)は、記載内容認識部113が、文字画像GCの示す文字の認識結果として特定した、1または複数の認識候補文字Rの中から、一の認識候補文字Rを、表示文字RHとして決定する。
表示情報生成部115(「表示制御部部」の一例)は、認識結果決定部114により決定された表示文字RHを表す申込内容表示画像GHを、表示部31において表示させるための、表示情報JHを生成する。
【0043】
操作受付部116(「受付部」の一例)は、端末装置3を操作するオペレータによる、操作部32の操作内容を示す操作情報JSを受け付ける。
学習実行部117(「学習部」の一例)は、後述する学習モデルNN[m]に対して、文字画像GCと、当該文字画像GCの示す文字との関係を学習させる。
【0044】
図5に例示するように、記憶部12は、申込書情報JMと、アルゴリズム特性情報JRと、M個の文字認識部RG[1]~RG[M]と1対1に対応するM個の学習モデルNN[1]~NN[M]と、文字認識装置1の各部を制御するための制御プログラムPG1と、を記憶している。なお、記憶部12には、文字認識装置1が文字認識処理の対象とすることができる入会申込書等の書類が複数種類存在する場合には、当該複数種類の書類と1対1に対応する複数の申込書情報JMを記憶していることとする。なお、申込書情報JMについては、
図7において後述する。また、アルゴリズム特性情報JRについては、
図8において後述する。
【0045】
学習モデルNN[m]は、例えば、多層ニューラルネットワークであり、1または複数の種類の文字について、当該種類の文字を含む画像と、当該画像に含まれる文字との関係を学習した学習モデルである。
ここで、本実施形態では、説明の便宜上、画像の示す文字の種類が、漢字、ひらがな、カタカナ、アラビア数字(以下、単に「数字」と称する)、アルファベット、及び、記号の、6種類である場合を想定する。ここで、記号とは、例えば、ドット、カンマ、句点、読点、ハイフン、及び、演算記号を含む概念である。
【0046】
本実施形態において、文字認識部RG[m]は、学習モデルNN[m]を用いて、文字画像GCの示す文字を認識する。すなわち、本実施形態において、文字認識部RG[m]は、記憶部12に記憶された学習モデルNN[m]を用いることで、AI(Artificial Intelligence)-OCRによる文字認識処理を実行する。
また、本実施形態において、M個の文字認識部RGは、互いに異なるアルゴリズムを用いて、文字認識処理を実行する。すなわち、文字認識部RG[m1]が文字認識処理において用いるアルゴリズムと、文字認識部RG[m2]が文字認識処理において用いるアルゴリズムとは異なる。ここで、「アルゴリズムが異なる」とは、例えば、文字認識処理に用いられる学習モデルNNの種類(例えば、ニューラルネットワークの種類)が異なることであってもよいし、文字認識処理に用いられる学習モデルNNを学習させる際に用いるデータセットが異なることであってもよいし、または、これらの両方の概念を含むものであってもよい。
具体的には、本実施形態では、一例として、文字認識部RG[m1]が文字認識処理において用いる学習モデルNN[m1]を学習させる際に用いた画像に含まれる文字には、文字認識部RG[m2]が文字認識処理において用いる学習モデルNN[m2]を学習させる際に用いた画像に含まれる文字とは、異なる種類の文字が含まれる場合を想定する。この場合、文字認識部RG[m1]が文字認識処理において用いる学習モデルNN[m1]を学習させる際に用いた画像に含まれる文字には、文字認識部RG[m2]が文字認識処理において用いる学習モデルNN[m2]を学習させる際に用いた画像に含まれる文字と、同一の種類の文字が含まれていてもよい。また、本実施形態では、一例として、文字認識部RG[m1]が文字認識処理において用いる学習モデルNN[m1]を構成するニューラルネットワークと、文字認識部RG[m2]が文字認識処理において用いる学習モデルNN[m2]を構成するニューラルネットワークとが、異なる種類のニューラルネットワークである場合を想定する。但し、本発明はこのような態様に限定されるものではない。文字認識部RG[m1]が文字認識処理において用いる学習モデルNN[m1]を構成するニューラルネットワークと、文字認識部RG[m2]が文字認識処理において用いる学習モデルNN[m2]を構成するニューラルネットワークとは、同一の種類のニューラルネットワークであってもよい。
【0047】
なお、本実施形態では、一例として、記憶部12が、M個の文字認識部RG[1]~RG[M]と1対1に対応するM個の学習モデルNN[1]~NN[M]を記憶している場合を想定するが、本発明はこのような態様に限定されるものではない。例えば、M個の文字認識部RG[1]~RG[M]のうちの、一部または全部は、ニューラルネットワークを用いずに文字認識処理を行う構成要素であってもよい。
【0048】
図6は、文字認識装置1のハードウェア構成の一例を示す構成図である。
【0049】
図6に例示するように、文字認識装置1は、文字認識装置1の各部を制御するプロセッサ1001と、各種情報を記憶する記憶装置1002と、文字認識装置1の外部に存在する外部装置との通信を行うための通信装置1003と、を備える。
【0050】
このうち、記憶装置1002は、プロセッサ1001の作業領域として機能するRAM(Random Access Memory)等の揮発性メモリと、制御プログラムPG1等の各種情報を記憶するEEPROM(Electrically Erasable Programmable Read-Only Memory)等の不揮発性メモリとの、一方または双方を含み、記憶部12としての機能を提供する。
また、プロセッサ1001は、例えば、1または複数のCPU(Central Processing Unit)を含んで構成される。プロセッサ1001は、記憶装置1002に記憶された制御プログラムPG1を実行し、当該制御プログラムPG1に従って動作することで、制御部11として機能する。なお、プロセッサ1001は、1または複数のCPUに加え、または、1または複数のCPUのうち一部または全部に替えて、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、または、FPGA(Field Programmable Gate Array)等の、ハードウェアを含んで構成されるものであってもよい。この場合、プロセッサ1001により実現される制御部11の一部または全部は、DSP等のハードウェアにより実現されてもよい。
また、通信装置1003は、有線ネットワーク及び無線ネットワークの一方または双方を介して、文字認識装置1の外部に存在する外部装置との通信を行うためのハードウェアであり、通信部13としての機能を提供する。
【0051】
図7は、申込書情報JMのデータ構成の一例を示す説明図である。ここで、申込書情報JMとは、申込書画像GMに含まれる複数の記載欄に関する情報である。
【0052】
図7に例示するように、申込書情報JMは、申込書画像GMの有する複数の記載欄と1対1に対応する複数のレコードを有する。申込書情報JMの各レコードは、項目IDと、項目名称と、文字種別情報JMMとを有する。
【0053】
このうち、項目IDとは、申込書画像GMの有する複数の記載欄の中から、各記載欄を識別するための情報である。
また、項目名称とは、申込書画像GMの有する各記載欄の項目名称記載領域AMに記載された名称である。
【0054】
また、文字種別情報JMMとは、申込書画像GMの有する各記載欄の申込内容記載領域AKに記載される可能性のある文字の種類に関する情報である。具体的には、本実施形態において、文字種別情報JMMは、申込内容記載領域AKに漢字が記載される可能性があるか否かを示す漢字使用有無情報JMM1と、申込内容記載領域AKにひらがなが記載される可能性があるか否かを示すひらがな使用有無情報JMM2と、申込内容記載領域AKにカタカナが記載される可能性があるか否かを示すカタカナ使用有無情報JMM3と、申込内容記載領域AKに数字が記載される可能性があるか否かを示す数字使用有無情報JMM4と、申込内容記載領域AKにアルファベットが記載される可能性があるか否かを示すアルファベット使用有無情報JMM5と、申込内容記載領域AKに記号が記載される可能性があるか否かを示す記号使用有無情報JMM6と、を含む。
例えば、
図7において、漢字使用有無情報JMM1が「1」を示す場合、当該漢字使用有無情報JMM1に対応する記載欄に漢字が記載される可能性があることを示し、漢字使用有無情報JMM1が「0」を示す場合、当該漢字使用有無情報JMM1に対応する記載欄に漢字が記載される可能性がないことを示す。但し、漢字使用有無情報JMM1は、「1」または「0」の何れかを示す2値の情報ではなく、当該漢字使用有無情報JMM1に対応する記載欄に漢字が記載される可能性を、例えば、0以上1以下の実数で示す情報であってもよい。なお、ひらがな使用有無情報JMM2、カタカナ使用有無情報JMM3、数字使用有無情報JMM4、アルファベット使用有無情報JMM5、及び、記号使用有無情報JMM6についても、文字の種類が異なる点を除き、漢字使用有無情報JMM1と同様である。
【0055】
図8は、アルゴリズム特性情報JRのデータ構成の一例を示す説明図である。ここで、アルゴリズム特性情報JRとは、文字認識部RGが文字認識処理において用いるアルゴリズムの特性を示す情報である。
【0056】
図8に例示するように、アルゴリズム特性情報JRは、M個の文字認識部RG[1]~RG[M]と1対1に対応するM個のレコードを有する。アルゴリズム特性情報JRの各レコードは、アルゴリズムIDと、学習有無情報と、学習モデル情報と、有効文字種別情報JRMとを有する。
【0057】
このうち、アルゴリズムIDとは、記載内容認識部113において使用される可能性のある複数のアルゴリズムの中から、文字認識部RG[m]が文字認識処理を行う際に使用するアルゴリズムを識別するための情報である。
また、学習有無情報とは、文字認識部RG[m]が文字認識処理を行う際に使用するアルゴリズムが、ニューラルネットワークを用いたアルゴリズムであるか否かを示す情報である。
また、学習モデル情報とは、文字認識部RG[m]が文字認識処理を行う際に使用するアルゴリズムが、ニューラルネットワークを用いたアルゴリズムである場合に、当該ニューラルネットワークにより構成される学習モデルNN[m]を示す情報である。つまり、学習モデル情報とは、記憶部12に記憶された複数の学習モデルNNの中から、文字認識部RG[m]により使用される学習モデルNN[m]を特定するための情報である。
【0058】
また、有効文字種別情報JRMとは、文字認識部RG[m]が文字認識処理を行う際に使用するアルゴリズムが、認識可能な文字の種類を示す情報である。具体的には、本実施形態において、有効文字種別情報JRMは、文字認識部RG[m]が文字認識処理を行う際に使用するアルゴリズムが、漢字の認識に適したアルゴリズムであるか否かを示す漢字対応有無情報JRM1と、文字認識部RG[m]が文字認識処理を行う際に使用するアルゴリズムが、ひらがなの認識に適したアルゴリズムであるか否かを示すひらがな対応有無情報JRM2と、文字認識部RG[m]が文字認識処理を行う際に使用するアルゴリズムが、カタカナの認識に適したアルゴリズムであるか否かを示すカタカナ対応有無情報JRM3と、文字認識部RG[m]が文字認識処理を行う際に使用するアルゴリズムが、数字の認識に適したアルゴリズムであるか否かを示す数字対応有無情報JRM4と、文字認識部RG[m]が文字認識処理を行う際に使用するアルゴリズムが、アルファベットの認識に適したアルゴリズムであるか否かを示すアルファベット対応有無情報JRM5と、文字認識部RG[m]が文字認識処理を行う際に使用するアルゴリズムが、記号の認識に適したアルゴリズムであるか否かを示す記号対応有無情報JRM6と、を含む。
例えば、
図8において、漢字対応有無情報JRM1が「1」を示す場合、当該漢字対応有無情報JRM1に対応する文字認識部RGが文字認識処理において使用するアルゴリズムが、漢字の認識に適したアルゴリズムであることを示し、漢字対応有無情報JRM1が「0」を示す場合、当該漢字対応有無情報JRM1に対応する文字認識部RGが文字認識処理において使用するアルゴリズムが、漢字の認識に適さないアルゴリズムであることを示す。但し、漢字対応有無情報JRM1は、「1」または「0」の何れかを示す2値の情報ではなく、当該漢字対応有無情報JRM1に対応する文字認識部RGが文字認識処理において使用するアルゴリズムを、漢字の認識に使用することの適切さの程度を、0以上1以下の実数で示す情報であってもよい。なお、ひらがな対応有無情報JRM2、カタカナ対応有無情報JRM3、数字対応有無情報JRM4、アルファベット対応有無情報JRM5、及び、記号対応有無情報JRM6についても、文字の種類が異なる点を除き、漢字対応有無情報JRM1と同様である。
【0059】
<3.文字認識装置の動作>
以下、
図9乃至
図12を参照しつつ、文字認識装置1の動作について説明する。
【0060】
<3.1.申込内容表示処理>
図9及び
図10は、文字認識装置1が、申込書画像GMを示す画像情報JGに基づいて、申込内容表示画像GHを示す表示情報JHを生成する処理(以下、「申込内容表示処理」と称する)を実行する場合の、文字認識装置1の動作の一例を示すフローチャートである。
【0061】
図9に例示するように、申込内容表示処理が開始されると、画像情報取得部111は、端末装置3から供給される画像情報JGを取得する(S101)。
次に、文字領域特定部112は、ステップS101において画像情報取得部111が取得した画像情報JGの示す申込書画像GMにおいて、複数の申込内容記載領域AKを特定する(S103)。
そして、文字領域特定部112は、ステップS103において特定した複数の申込内容記載領域AKの中から、1つの申込内容記載領域AKを選択する(S105)。なお、ステップS105において、文字領域特定部112は、複数の申込内容記載領域AKのうち、申込内容表示処理が開始されてから未選択の申込内容記載領域AKを選択する。
【0062】
図9に例示するように、記載内容認識部113は、ステップS105で選択された申込内容記載領域AKに表された文字列画像GCLに対して文字認識処理を行うための、W個の文字認識部RGを選択する(S107)。
本実施形態において、記載内容認識部113は、ステップS107において、申込内容記載領域AKに対応する文字種別情報JMMと、アルゴリズム特性情報JRとに基づいて、M個の文字認識部RG[1]~RG[M]の中から、文字認識部RG[m1]及び文字認識部RG[m2]を選択する。具体的には、記載内容認識部113は、ステップS107において、申込内容記載領域AKに対応する文字種別情報JMMと、各文字認識部RGに対応する有効文字種別情報JRMとの類似度に基づいて、M個の文字認識部RG[1]~RG[M]の中から、文字認識部RG[m1]及び文字認識部RG[m2]を選択する。より具体的には、記載内容認識部113は、ステップS107において、文字認識部RG[1]~RG[M]のうち、申込内容記載領域AKに対応する文字種別情報JMMと、各文字認識部RGに対応する有効文字種別情報JRMとの類似度が、他と比べて高くなる2つの文字認識部RGを、文字認識部RG[m1]及び文字認識部RG[m2]として選択する。
ここで、文字種別情報JMMと有効文字種別情報JRMとの類似度として、例えば、文字種別情報JMMに含まれる複数の情報(JMM1~JMM6)の各々を要素とするベクトルVMと、有効文字種別情報JRMに含まれる複数の情報(JRM1~JRM6)の各々を要素とするベクトルVRとの内積を採用してもよい。より具体的には、ベクトルVMを、VM=(JMM1,JMM2,JMM3,JMM4,JMM5,JMM6)とし、ベクトルVRを、VR=(JRM1,JRM2,JRM3,JRM4,JRM5,JRM6)としたときの、ベクトルVMとベクトルVRとの内積(JMM1*JRM1+JMM2*JRM2+JMM3*JRM3+JMM4*JRM4+JMM5*JRM5+JMM6*JRM6)を、文字種別情報JMMと有効文字種別情報JRMとの類似度として採用してもよい。
【0063】
図9に例示するように、文字認識部RG[m1]及び文字認識部RG[m2]の各々は、ステップS105で選択された申込内容記載領域AKに表された文字列画像GCLを、複数の文字画像GCに区分する(S109)。
そして、文字認識部RG[m1]及び文字認識部RG[m2]の各々は、ステップS109において区分された複数の文字画像GCの中から、1つの文字画像GCを選択する(S111)。
次に、文字認識部RG[m1]及び文字認識部RG[m2]の各々は、ステップS111において選択された文字画像GCに対して、文字認識処理を実行する(S113)。
その後、
図10に例示するように、認識結果決定部114は、ステップS113における文字認識処理の結果に基づいて、表示文字RHを決定する(S115)。なお、以下では、認識結果決定部114により表示文字RHを決定する処理を、表示文字決定処理と称する。
【0064】
図11は、ステップS113において文字認識部RG[m1]及び文字認識部RG[m2]が行う文字認識処理と、ステップS115において認識結果決定部114が行う表示文字決定処理とを、説明するための説明図である。
【0065】
図11に例示するように、文字認識部RG[m1]は、文字画像GCに対して文字認識処理を施すことで、Q1個の認識候補文字R[m1][1]~R[m1][Q1]を特定する。ここで、値Q1は、Q1≧1を満たす自然数である。以下では、Q1個の認識候補文字R[m1][1]~R[m1][Q1]のうち、q1番目の認識候補文字Rを、認識候補文字R[m1][q1]と称する。ここで、変数q1は、1≦q1≦Q1を満たす自然数である。
また、文字認識部RG[m1]は、認識候補文字R[m1][q1]に対応する認識確度D[m1][q1]を算出する。ここで、認識確度D[m1][q1]とは、文字認識部RG[m1]が、文字画像GCに対して文字認識処理を行った場合に、文字画像GCに表された文字の認識結果の確からしさを示す指標値である。本実施形態では、認識確度が高いほど、認識結果が確からしいものとする。また、本実施形態において、Q1個の認識候補文字R[m1][1]~R[m1][Q1]は、当該Q1個の認識候補文字R[m1][1]~R[m1][Q1]と1対1に対応するQ1個の認識確度D[m1][1]~D[m1][Q1]が、「D[m1][1]≧D[m1][2]≧…≧D[m1][Q1]」という関係を満たすように、定められることとする。すなわち、認識候補文字R[m1][1]は、文字認識部RG[m1]が特定したQ1個の認識候補文字R[m1][1]~R[m1][Q1]の中で、認識確度が最も高い認識候補文字Rである。
なお、本実施形態において、文字認識部RG[m1]が行う文字認識処理は、「第1の文字認識処理」の一例であり、文字認識部RG[m1]により特定された認識確度が最も高い認識候補文字R[m1][1]は、「第1文字」の一例であり、文字認識部RG[m1]が文字認識処理において用いる学習モデルNN[m1]は、「第1の学習モデル」の一例である。
【0066】
図11に例示するように、文字認識部RG[m2]は、文字画像GCに対して文字認識処理を施すことで、Q2個の認識候補文字R[m2][1]~R[m2][Q2]を特定する。ここで、値Q2は、Q2≧1を満たす自然数である。以下では、Q2個の認識候補文字R[m2][1]~R[m2][Q2]のうち、q2番目の認識候補文字Rを、認識候補文字R[m2][q2]と称する。ここで、変数q2は、1≦q2≦Q2を満たす自然数である。
また、文字認識部RG[m2]は、認識候補文字R[m2][q2]に対応する認識確度D[m2][q2]を算出する。ここで、認識確度D[m2][q2]とは、文字認識部RG[m2]が、文字画像GCに対して文字認識処理を行った場合に、文字画像GCに表された文字の認識結果の確からしさを示す指標値である。また、本実施形態において、Q2個の認識候補文字R[m2][1]~R[m2][Q2]は、当該Q2個の認識候補文字R[m2][1]~R[m2][Q2]と1対1に対応するQ2個の認識確度D[m2][1]~D[m2][Q2]が、「D[m2][1]≧D[m2][2]≧…≧D[m2][Q2]」という関係を満たすように、定められることとする。すなわち、認識候補文字R[m2][1]は、文字認識部RG[m2]が特定したQ2個の認識候補文字R[m2][1]~R[m2][Q2]の中で、認識確度が最も高い認識候補文字Rである。
なお、本実施形態において、文字認識部RG[m2]が行う文字認識処理は、「第2の文字認識処理」の一例であり、文字認識部RG[m2]により特定された認識確度が最も高い認識候補文字R[m2][1]は、「第2文字」の一例である。
【0067】
図11に例示するように、認識結果決定部114は、文字認識部RG[m1]による文字認識処理の結果として特定されたQ1個の認識候補文字R[m1][1]~R[m1][Q1]の中で、認識確度が最も高い認識候補文字R[m1][1]と、文字認識部RG[m2]による文字認識処理の結果として特定されたQ2個の認識候補文字R[m2][1]~R[m2][Q2]の中で、認識確度が最も高い認識候補文字R[m2][1]と、に基づいて、表示文字RHを決定する処理である、表示文字決定処理を実行する。
具体的には、表示文字決定処理において、認識結果決定部114は、認識候補文字R[m1][1]と、認識候補文字R[m2][1]とが、同一の文字である場合、これら、認識候補文字R[m1][1]及び認識候補文字R[m2][1]を、確定認識文字RX(「確定文字」の一例)として決定する。また、認識結果決定部114は、認識候補文字R[m1][1]と、認識候補文字R[m2][1]とが、異なる文字である場合であって、認識確度D[m1][1]及び認識確度D[m2][1]が、D[m1][1]>D[m2][1]を満たす場合には、認識候補文字R[m1][1]を、有力認識文字RY(「候補文字」の一例)として決定する。また、認識結果決定部114は、認識候補文字R[m1][1]と、認識候補文字R[m2][1]とが、異なる文字である場合であって、認識確度D[m1][1]及び認識確度D[m2][1]が、D[m2][1]≧D[m1][1]を満たす場合には、認識候補文字R[m2][1]を、有力認識文字RY(「候補文字」の他の例)として決定する。そして、認識結果決定部114は、確定認識文字RXまたは有力認識文字RYを、表示文字RHとして決定する。
【0068】
なお、
図11では、文字認識部RG[m1]による文字認識処理の結果として特定されたQ1個の認識候補文字R[m1][1]~R[m1][Q1]のうち、認識候補文字R[m1][1]が「丈」であり、認識確度D[m1][1]が「98%」であり、認識候補文字R[m1][2]が「大」であり、認識確度D[m1][2]が「85%」であり、認識候補文字R[m1][Q1]が「炎」であり、認識確度D[m1][1]が「25%」である場合を例示している。また、
図11では、文字認識部RG[m2]による文字認識処理の結果として特定されたQ2個の認識候補文字R[m2][1]~R[m2][Q2]のうち、認識候補文字R[m2][1]が「太」であり、認識確度D[m2][1]が「92%」であり、認識候補文字R[m2][2]が「犬」であり、認識確度D[m2][2]が「80%」であり、認識候補文字R[m2][Q2]が「人」であり、認識確度D[m2][Q2]が「45%」である場合を例示している。この結果、
図11に示す例では、認識候補文字R[m1][1]である「丈」と、認識候補文字R[m2][1]である「太」とが、異なる文字であるため、認識結果決定部114は、表示文字決定処理において、確定認識文字RXは存在しない旨の決定をしている。また、
図11に示す例では、認識候補文字R[m1][1]である「丈」に対応する認識確度D[m1][1]が「98%」であり、認識候補文字R[m2][1]である「太」に対応する認識確度D[m2][1]の「92%」よりも大きいため、認識結果決定部114は、表示文字決定処理において、認識候補文字R[m1][1]である「丈」を、有力認識文字RYとして決定している。そして、
図11に示す例では、確定認識文字RXが存在せず、認識候補文字R[m1][1]である「丈」が有力認識文字RYとして決定されたため、認識結果決定部114は、表示文字決定処理において、当該有力認識文字RYとして決定された認識候補文字R[m1][1]である「丈」を、表示文字RHとして決定している。
【0069】
説明を、
図10に戻す。
図10に例示するように、記載内容認識部113は、ステップS109において文字列画像GCLから区分された複数の文字画像GCの全てについて、ステップS113の文字認識処理と、ステップS115の表示文字決定処理とが、完了したか否かを判定する(S117)。
ステップS117における判定の結果が否定の場合、記載内容認識部113は、処理をステップS111に進める。
【0070】
図10に例示するように、ステップS117における判定の結果が肯定の場合、文字領域特定部112は、ステップS103において特定された複数の申込内容記載領域AKの全てについて、ステップS113の文字認識処理と、ステップS115の表示文字決定処理とが、完了したか否かを判定する(S119)。
ステップS119における判定の結果が否定の場合、記載内容認識部113は、処理をステップS105に進める。
【0071】
図10に例示するように、ステップS119における判定の結果が肯定の場合、表示情報生成部115は、表示文字RHを含む申込内容表示画像GHを示す表示情報JHを生成する(S121)。
具体的には、ステップS121において、表示情報生成部115は、表示文字決定処理において有力認識文字RYであると決定された認識候補文字Rに対応する表示文字RHと、表示文字決定処理において確定認識文字RXであると決定された認識候補文字Rに対応する表示文字RHとが、申込内容表示画像GHにおいて異なる態様で表示されるように、表示情報JHを生成する。より具体的には、表示情報生成部115は、ステップS121において、表示文字RHが、表示文字決定処理において有力認識文字RYであると決定された認識候補文字Rである場合には、申込内容表示画像GHにおいて、当該表示文字RHに対応する位置に注意喚起マークMKが配置されるように、表示情報JHを生成する。
なお、
図3に例示する申込内容表示画像GHでは、認識文字列LMK1~LMK7に含まれる複数の表示文字RHのうち、認識文字列LMK5に含まれる表示文字RH1である「丈」と、認識文字列LMK7に含まれる表示文字RH2である「7」とが、有力認識文字RYとして決定された認識候補文字Rに対応し、表示文字RH1及びRH2以外の表示文字RHが、確定認識文字RXとして決定された認識候補文字Rに対応する。このため、
図3に例示する申込内容表示画像GHでは、表示文字RH1に対応する位置に注意喚起マークMK1が表示され、表示文字RH2に対応する位置に注意喚起マークMK2が表示される。
【0072】
なお、制御部11は、ステップS121の処理が完了した場合に、
図9及び
図10に示す申込内容表示処理を終了させる。
【0073】
以上のように、本実施形態によれば、表示情報生成部115は、有力認識文字RYに対応する表示文字RHと、確定認識文字RXに対応する表示文字RHとが、異なる態様で表示された申込内容表示画像GHを示す表示情報JHを生成する。具体的には、本実施形態によれば、表示情報生成部115は、有力認識文字RYに対応する表示文字RHが、確定認識文字RXに対応する表示文字RHと比較して、注意喚起マークMKにより強調されて表示された申込内容表示画像GHを示す表示情報JHを生成する。このため、本実施形態によれば、文字画像GCの示す文字と、表示文字RHとが異なる文字である可能性が高い場合に、低い場合と比較して、申込内容表示画像GHにおいて、当該表示文字RHを強調することが可能となる。よって、本実施形態によれば、有力認識文字RYに対応する表示文字RHと、確定認識文字RXに対応する表示文字RHとが、同一の態様で表示される場合と比較して、端末装置3を操作するオペレータが、文字画像GCの示す文字と表示文字RHとが異なる文字であることを見落とす可能性を低減することができる。
【0074】
また、本実施形態によれば、記載内容認識部113は、M個の文字認識部RG[1]~RG[M]の中から、文字列画像GCLに対する文字認識処理に適した文字認識部RG[m1]及び文字認識部RG[m2]を選択し、当該2個の文字認識部RG[m1]及び文字認識部RG[m2]により文字認識処理を実行する。上述のとおり、文字認識部RG[m1]が文字認識処理において用いる学習モデルNN[m1]と、文字認識部RG[m2]が文字認識処理において用いる学習モデルNN[m2]とは、異なる。よって、本実施形態において、文字認識部RG[m1]による文字認識処理の結果と、文字認識部RG[m2]による文字認識処理の結果とが、一致する場合における、文字認識装置1による文字画像GCの文字認識の確度は、文字認識部RG[m1]による文字認識処理の結果と、文字認識部RG[m2]による文字認識処理の結果とが、相違する場合における、文字認識装置1による文字画像GCの文字認識の確度よりも高い。すなわち、本実施形態において、文字認識部RG[m1]による文字認識処理の結果と、文字認識部RG[m2]による文字認識処理の結果とが、一致する場合には、文字認識装置1による文字画像GCの文字認識の確度が相対的に高いことが推定される一方、文字認識部RG[m1]による文字認識処理の結果と、文字認識部RG[m2]による文字認識処理の結果とが、相違する場合には、文字認識装置1による文字画像GCの文字認識の確度が相対的に低いことが推定される。そして、本実施形態では、文字認識部RG[m1]による文字認識処理の結果と、文字認識部RG[m2]による文字認識処理の結果とが、相違する場合において、当該文字認識処理の結果に係る表示文字RHを、注意喚起マークMKにより強調表示する。このため、本実施形態によれば、端末装置3を操作するオペレータが、文字認識装置1による文字認識の確度が相対的に低い表示文字RHを、容易に視認することができる。
また、本実施形態において、文字認識部RG[m1]及び文字認識部RG[m2]の、2個の文字認識部RGを用いて文字認識処理を行った場合であって、文字認識部RG[m1]による文字認識処理の結果と、文字認識部RG[m2]による文字認識処理の結果とが、一致する場合における、文字画像GCの文字認識の確度は、少なくとも、文字認識部RG[m1]及び文字認識部RG[m2]のうち、一方の文字認識部RGを用いて文字認識処理を行った場合における、文字画像GCの文字認識の確度以上となる。すなわち、本実施形態において、文字認識部RG[m1]及び文字認識部RG[m2]の、2個の文字認識部RGを用いて文字認識処理を行った場合において、確定認識文字RXとして認識された文字画像GCの文字認識の確度は、文字認識部RG[m1]及び文字認識部RG[m2]のうち、一方の文字認識部RGを用いて文字認識処理を行った場合における、文字画像GCの文字認識の確度以上となる。このため、本実施形態によれば、1個の文字認識部RGにより文字認識部RGを実行する場合と比較して、文字画像GCの示す文字と、注意喚起マークMKの付されていない確定認識文字RXとして決定された表示文字RHとが異なる文字となる可能性を低減することができる。
【0075】
<3.2.文字修正処理>
図12は、文字認識装置1が、端末装置3のオペレータによる操作に基づいて、申込内容表示画像GHに表示された表示文字RHを修正する処理(以下、「文字修正処理」と称する)を実行する場合の、文字認識装置1の動作の一例を示すフローチャートである。なお、本実施形態において、文字修正処理は、端末装置3を操作するオペレータが、申込内容表示画像GHにおいて、修正ボタンSSBを押下した場合に開始される。なお、上述のとおり、文字修正処理は、修正ボタンSSBの押下の有無に関わらず開始されてもよい。具体的には、文字修正処理は、例えば、表示部31において申込内容表示画像GHが表示された時点で開始されてもよい。
【0076】
図12に例示するように、文字修正処理が開始されると、操作受付部116は、端末装置3から供給される操作情報JSに基づいて、申込内容表示画像GHにおいて、カーソルCSRに対応する位置の表示文字RHを特定する(S201)。
【0077】
次に、記載内容認識部113は、ステップS201で特定した表示文字RHに対応する複数の認識候補文字Rを特定する(S203)。
具体的には、記載内容認識部113は、ステップS203において、ステップS201で特定した表示文字RHに対応する文字画像GCに対して文字認識処理を行った際に、文字画像GCの認識結果として特定された、Q1個の認識候補文字R[m1][1]~R[m1][Q1]と、Q2個の認識候補文字R[m2][1]~R[m2][Q2]とを特定する。
【0078】
そして、記載内容認識部113は、ステップS203において特定した複数の認識候補文字Rの中から、修正候補文字RZを特定する(S205)。
具体的には、記載内容認識部113は、ステップS203において特定した複数の認識候補文字Rのうち、認識確度Dが所定の閾値Dth以上の認識候補文字Rであって、表示文字RH以外の認識候補文字Rを、修正候補文字RZとして特定する。本実施形態では、一例として、閾値Dthが「80%」である場合を想定する。このため、例えば、
図11に示す例では、認識確度D[m2][1]が「92%」となる認識候補文字R[m2][1]である「太」と、認識確度D[m1][2]が「85%」となる認識候補文字R[m1][2]である「大」と、認識確度D[m2][2]が「80%」となる認識候補文字R[m2][2]である「犬」とが、修正候補文字RZとして特定される。なお、
図11に示す例では、認識確度D[m1][1]が「98%」となる認識候補文字R[m1][1]である「丈」は、表示文字RHとして決定されるため、当該認識候補文字R[m1][1]は、修正候補文字RZとして特定されることはない。
【0079】
図12に例示するように、表示情報生成部115は、申込内容表示画像GHにおいて、ポップアップ画像PRZが表示され、当該ポップアップ画像PRZにおいて、ステップS205で特定された修正候補文字RZが表示されるように、申込内容表示画像GHを示す表示情報JHを更新し、更新した表示情報JHが端末装置3に送信されるように、文字認識装置1の各部を制御する(S207)。このため、例えば、
図4に示す例のように、表示部31に表示される申込内容表示画像GHにおいて、修正候補文字RZ-1である「太」と、修正候補文字RZ-2である「大」と、修正候補文字RZ-3である「犬」とが表示されたポップアップ画像PRZが、表示文字RH1である「丈」の近傍に表示される。
【0080】
図12に例示するように、操作受付部116は、端末装置3から、表示文字RHを修正する指示を示す操作情報JSが供給されたか否かを判定する(S209)。
ステップS209における判定の結果が否定の場合、操作受付部116は、処理をステップS213に進める。
ステップS209における判定の結果が肯定の場合、操作受付部116は、表示文字RHを修正する指示の内容を示す操作情報JSを受け付ける。
【0081】
ステップS209における判定の結果が肯定の場合、学習実行部117は、ステップS209において操作受付部116が受け付けた操作情報JSに基づいて、修正履歴情報JSHを生成または更新し(S211)、処理をステップS213に進める。
ここで、修正履歴情報JSHとは、ステップS209における修正内容(修正後の表示文字RH)と、ステップS209において修正された表示文字RH(修正前の表示文字RH)と、修正前の表示文字RHに対応する文字画像GCと、修正前の表示文字RHに対応する認識候補文字Rを特定した文字認識部RG[m1]及び文字認識部RG[m2]と、を含む情報である。
【0082】
その後、操作受付部116は、端末装置3から、確定ボタンKTBが押下されたことを示す操作情報JSが供給されたか否かを判定する(S213)。
ステップS213における判定の結果が否定の場合、操作受付部116は、処理をステップS201に進める。
【0083】
ステップS213における判定の結果が肯定の場合、学習実行部117は、修正履歴情報JSHに基づいて、文字認識部RG[m1]に対応する学習モデルNN[m1]と、文字認識部RG[m2]に対応する学習モデルNN[m2]とに、文字画像GCが修正後の表示文字RHを表すことを学習させる(S215)。
なお、学習実行部117は、ステップS215において、修正後の表示文字RHと、認識候補文字R[m1][1]とが、異なる文字である場合に限り、文字認識部RG[m1]に対応する学習モデルNN[m1]に、文字画像GCが修正後の表示文字RHを表すことを学習させる。但し、学習実行部117は、ステップS215において、修正後の表示文字RHと、認識候補文字R[m1][1]とが、同じ文字である場合においても、文字認識部RG[m1]に対応する学習モデルNN[m1]に、文字画像GCが修正後の表示文字RHを表すことを学習させてもよい。
また、学習実行部117は、ステップS215において、修正後の表示文字RHと、認識候補文字R[m2][1]とが、異なる文字である場合に限り、文字認識部RG[m2]に対応する学習モデルNN[m2]に、文字画像GCが修正後の表示文字RHを表すことを学習させる。但し、学習実行部117は、ステップS215において、修正後の表示文字RHと、認識候補文字R[m2][1]とが、同じ文字である場合においても、文字認識部RG[m2]に対応する学習モデルNN[m2]に、文字画像GCが修正後の表示文字RHを表すことを学習させてもよい。
【0084】
以上のように、本実施形態によれば、修正履歴情報JSHに基づいて、文字認識部RG[m1]に対応する学習モデルNN[m1]と、文字認識部RG[m2]に対応する学習モデルNN[m2]とに、文字画像GCが修正後の表示文字RHを表すことを学習させる。このため、本実施形態によれば、学習モデルNN[m]が、文字修正処理の結果に基づく学習が実施されない場合と比較して、文字認識部RG[m]による文字画像GCの表す文字の認識の確度を向上させることができる。
【0085】
<4.実施形態の結び>
以上において説明したように、本実施形態において、文字認識装置1(「情報処理装置」の一例)は、文字認識部RG[m1]が実行する文字認識処理(「第1の文字認識処理」の一例)、及び、文字認識部RG[m2]が実行する文字認識処理(「第2の文字認識処理」の一例)の各々により、文字画像GCに表された文字(「一の文字」の一例)を認識する、記載内容認識部113(「認識部」の一例)と、文字認識部RG[m1]が実行する文字認識処理による文字画像GCに表された文字の認識結果である、認識候補文字R[m1][1](「第1文字」の一例)、及び、文字認識部RG[m2]が実行する文字認識処理による文字画像GCに表された文字の認識結果である、認識候補文字R[m2][1](「第2文字」の一例)が、同一の文字である場合、認識候補文字R[m1][1]及び認識候補文字R[m2][1]を、文字画像GCの認識結果に対応する確定認識文字RX(「確定文字」の一例)として決定し、認識候補文字R[m1][1]及び認識候補文字R[m2][1]が、異なる文字である場合、認識候補文字R[m1][1]及び認識候補文字R[m2][1]の一方を、文字画像GCの認識結果に対応する有力認識文字RY(「候補文字」の一例)として決定する、認識結果決定部114(「決定部」の一例)と、確定認識文字RXまたは有力認識文字RYを表示部31に表示させるための表示情報JHを生成する、表示情報生成部115(「表示制御部」の一例)と、を備え、表示情報生成部115は、表示情報JHにより、有力認識文字RYを確定認識文字RXとは異なる態様で表示部31に表示させる、ことを特徴とする。
【0086】
すなわち、本実施形態によれば、表示情報生成部115は、認識結果決定部114が、文字画像GCの認識結果を有力認識文字RYとして決定し、文字画像GCに表された文字と有力認識文字RYとが相違する可能性が高い場合における、有力認識文字RYの表示態様と、認識結果決定部114が、文字画像GCの認識結果を確定認識文字RXとして決定し、文字画像GCに表された文字と確定認識文字RXとが相違する可能性が低い場合における、確定認識文字RXの表示態様とを、異ならせる。よって、本実施形態によれば、有力認識文字RYと、確定認識文字RXとが、同一の態様で表示される場合と比較して、文字画像GCに表された文字の認識結果が正確ではないことを見落とす可能性を低減することができる。
また、本実施形態によれば、文字認識部RG[m1]と文字認識部RG[m2]とにより、文字認識処理を実行する。このため、本実施形態によれば、1個の文字認識部RGにより文字認識処理を実行する場合と比較して、文字認識処理における認識の精度を向上させることができる。
【0087】
また、本実施形態において、文字認識部RG[m1]が実行する文字認識処理は、文字を含む画像と、当該画像に表された文字との関係を学習した学習モデルNN[m1](「第1の学習モデル」の一例)を用いて、文字画像GCに表された文字を認識する処理である、ことを特徴とする
【0088】
このため、本実施形態によれば、学習モデルを用いずに文字認識処理を実行する場合と比較して、文字認識処理における認識の精度を向上させることができる。
【0089】
また、本実施形態において、文字認識装置1は、表示部31に表示された確定認識文字RXまたは有力認識文字RYの修正を受け付ける、操作受付部116(「受付部」の一例)と、操作受付部116が、確定認識文字RXまたは有力認識文字RYを、文字画像GCに表された文字へと変更する修正を受け付けた場合、学習モデルNN[m1]に対して、文字画像GCが、文字画像GCに表された文字を示すことを学習させる、学習実行部117(「学習部」の一例)と、を備える、ことを特徴とする。
【0090】
このため、本実施形態によれば、学習モデルを用いずに文字認識処理を実行する場合と比較して、文字認識処理における認識の精度を向上させることができる。
【0091】
また、本実施形態において、文字認識装置1は、表示部31に表示された確定認識文字RXまたは有力認識文字RYの修正を受け付ける、操作受付部116と、操作受付部116が、確定認識文字RXまたは有力認識文字RYを、文字画像GCに表された文字へと変更する修正を受け付けた場合であって、認識候補文字R[m1][1]と文字画像GCに表された文字が異なる場合において、学習モデルNN[m1]に対して、文字画像GCが、文字画像GCに表された文字を示すことを学習させる、学習実行部117と、を備える、ことを特徴とする。
【0092】
このため、本実施形態によれば、学習モデルを用いずに文字認識処理を実行する場合と比較して、文字認識処理における認識の精度を向上させることができる。
【0093】
また、本実施形態において、文字認識装置1は、表示部31に表示された確定認識文字RXまたは有力認識文字RYの修正を受け付ける、操作受付部116を備え、表示情報生成部115は、認識結果決定部114が、認識候補文字R[m1][1]及び認識候補文字R[m2][1]のうち一方を、有力認識文字RYとして決定した場合であって、操作受付部116が、有力認識文字RYの修正を受け付ける場合、認識候補文字R[m1][1]及び認識候補文字R[m2][1]のうち他方を、修正候補文字RZとして、表示部31に表示させる、ことを特徴とする。
【0094】
このため、本実施形態によれば、確定認識文字RXまたは有力認識文字RYを修正するオペレータの負荷を低減することができる。
【0095】
また、本実施形態において、表示情報生成部115は、表示情報JHにより、文字画像GCと、確定認識文字RXまたは有力認識文字RYとを、表示部31に表示させる、ことを特徴とする。
【0096】
このため、本実施形態によれば、文字画像GCに表された文字の認識結果が正確ではないことを見落とす可能性を低減することができる。
【0097】
また、本実施形態において、記載内容認識部113は、文字画像GCに表された文字の種類に応じて、互いに異なるアルゴリズムにより文字認識処理を行うM個の文字認識部RG[1]~RG[M]の中から、文字認識部RG[m1]と、文字認識部RG[m2]とを選択する、ことを特徴とする。
【0098】
このため、本実施形態によれば、1個の文字認識部RGにより文字認識処理を実行する場合と比較して、文字認識処理における認識の精度を向上させることができる。
【0099】
[B.変形例]
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は、相互に矛盾しない範囲内で適宜に併合され得る。なお、以下に例示する変形例において作用や機能が実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0100】
<変形例1>
上述した実施形態において、表示情報生成部115は、申込内容表示画像GHにおいて、有力認識文字RYとして決定された表示文字RHに対応する位置に、注意喚起マークMKを表示させたが、本発明はこのような態様に限定されるものではない。表示情報生成部115は、有力認識文字RYとして決定された表示文字RHと、確定認識文字RXとして決定された表示文字RHとを、識別可能な態様で申込内容表示画像GHに表示させればよい。
例えば、表示情報生成部115は、申込内容表示画像GHにおいて、有力認識文字RYとして決定された表示文字RHと、確定認識文字RXとして決定された表示文字RHとを、異なるサイズの文字、異なる色彩の文字、または、異なるフォントの文字として表示してもよい。
また、例えば、表示情報生成部115は、申込内容表示画像GHにおいて、有力認識文字RYとして決定された表示文字RHを、確定認識文字RXとして決定された表示文字RHと比較して、強調された態様で表示ししてもよい。
【0101】
<変形例2>
上述した実施形態において、認識結果決定部114は、表示文字決定処理において、認識候補文字R[m1][1]と認識候補文字R[m2][1]とが同一の文字であるか否かを判定することで、確定認識文字RXまたは有力認識文字RYを決定し、当該決定された確定認識文字RXまたは有力認識文字RYを、表示文字RHとして決定したが、本発明はこのような態様に限定されるものではない。例えば、認識結果決定部114は、認識確度D[m1][1]及び認識確度D[m2][1]が、D[m1][1]>D[m2][1]を満たす場合には、認識候補文字R[m1][1]を、表示文字RHとして決定し、認識確度D[m1][1]及び認識確度D[m2][1]が、D[m2][1]≧D[m1][1]を満たす場合には、認識候補文字R[m2][1]を、表示文字RHとして決定してもよい。この場合、表示情報生成部115は、認識確度D[m1][1]及び認識確度D[m2][1]の差分値に基づいて、表示文字RHに基づく位置に注意喚起マークMKを表示するか否かを決定してもよい。
【0102】
<変形例3>
上述した実施形態並びに変形例1及び2では、文字認識部RG[m]は、文字列画像GCLを複数の文字画像GCに区分し、当該区分された各文字画像GCに対して文字認識処理を実行したが、本発明はこのような態様に限定されるものではない。
例えば、記載内容認識部113が備えるM個の文字認識部RG[1]~RG[M]の中には、文字列画像GCLに含まれる文字列を表す画像を、文字列(単語)として認識可能な単語認識部RGTが含まれていてもよい。なお、以下では、上述した実施形態で説明した文字認識部RGのように、各文字画像GCに対して文字認識処理を実行する文字認識部RGを、個別文字認識部RGkと称することで、単語認識部RGTと区別することとする。
【0103】
例えば、本変形例において、記載内容認識部113は、M個の文字認識部RG[1]~RG[M]として、M個の単語認識部RGTを備えてもよい。すなわち、本変形例において、記載内容認識部113が備えるM個の文字認識部RG[1]~RG[M]の全ては、単語認識部RGTであってもよい。
この場合、認識結果決定部114は、文字認識部RG[m1]により認識された文字列(単語)と、文字認識部RG[m2]により認識された文字列(単語)とが一致する場合に、当該文字列(単語)を構成する文字の各々を、確定認識文字RXとして決定してもよい。また、この場合、認識結果決定部114は、文字認識部RG[m1]により認識された文字列と、文字認識部RG[m2]により認識された文字列とが一致しない場合に、文字認識部RG[m1]により認識された文字列と、文字認識部RG[m2]により認識された文字列とのうち、一方の文字列を構成する文字の各々を、有力認識文字RYとして決定してもよい。この場合、一方の文字列は、当該文字列を構成する文字の各々の認識確度Dに基づいて選択されてもよい。
【0104】
また、例えば、本変形例において、記載内容認識部113は、M個の文字認識部RG[1]~RG[M]として、1または複数の個別文字認識部RGkと、1または複数の単語認識部RGTとを備えてもよい。この場合、記載内容認識部113は、文字認識部RG[m1]として単語認識部RGTを選択し、文字認識部RG[m2]として個別文字認識部RGkを選択してもよい。そして、この場合、認識結果決定部114は、単語認識部RGTである文字認識部RG[m1]により認識された文字列(単語)を構成する文字と、個別文字認識部RGkである文字認識部RG[m2]により認識された文字とが、一致する場合に、当該文字を、確定認識文字RXとして決定してもよい。また、この場合、認識結果決定部114は、単語認識部RGTである文字認識部RG[m1]により認識された文字列(単語)を構成する文字と、個別文字認識部RGkである文字認識部RG[m2]により認識された文字とが、一致しない場合、文字認識部RG[m1]により認識された文字列を構成する文字と、文字認識部RG[m2]により認識された文字とのうち、一方の文字を、有力認識文字RYとして決定してもよい。この場合、一方の文字は、認識確度Dに基づいて選択されてもよい。
【0105】
<変形例4>
上述した実施形態並びに変形例1乃至3では、文字認識装置1と端末装置3が別体である場合を例示したが、文字認識装置1と端末装置3は、一体として構成されてもよい。
【0106】
図13は、本変形例に係る文字認識システムSys-Bの構成の一例を説明するための説明図である。
【0107】
図13に例示するように、文字認識システムSys-Bは、文字認識装置1の代わりに文字認識装置1Bを備える点と、端末装置3を備えない点とを除き、実施形態に係る文字認識システムSysと同様に構成されている。
【0108】
図14は、文字認識装置1Bの構成の一例を示す機能ブロック図である。
【0109】
図14に例示するように、文字認識装置1Bは、表示部31を備える点と、操作部32を備える点とを除き、実施形態に係る文字認識装置1と同様に構成されている。
【符号の説明】
【0110】
1…文字認識装置、3…端末装置、5…撮像装置、11…制御部、12…記憶部、13…通信部、31…表示部、32…操作部、111…画像情報取得部、112…文字領域特定部、113…記載内容認識部、114…認識結果決定部、115…表示情報生成部、116…操作受付部、117…学習実行部、RG…文字認識部、NN…学習モデル。