(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022014856
(43)【公開日】2022-01-20
(54)【発明の名称】OCR認識精度向上支援システム及びプログラム
(51)【国際特許分類】
G06V 30/162 20220101AFI20220113BHJP
【FI】
G06K9/38 K
G06K9/38 A
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2020206253
(22)【出願日】2020-12-11
(31)【優先権主張番号】P 2020117106
(32)【優先日】2020-07-07
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000155469
【氏名又は名称】株式会社野村総合研究所
(74)【代理人】
【識別番号】110002354
【氏名又は名称】特許業務法人平和国際特許事務所
(72)【発明者】
【氏名】野口 明
【テーマコード(参考)】
5B029
【Fターム(参考)】
5B029AA01
5B029BB02
5B029DD09
(57)【要約】
【課題】種類もフォーマットも様々に異なる紙媒体について、紙面全体についての文字認識処理を実行しつつ、その文字認識精度を簡易かつ確実に向上させる。。
【解決手段】OCRによる文字認識精度の向上を支援するためのシステム1を構成する情報処理装置10a,10bが、対象となる文書をスキャンして当該文書に表された文字情報を画像データとして生成する画像データ生成部11と、画像データ生成部11で生成された画像データについて所定の画像処理値を変更する画像調整処理部12と、画像調整処理部12で画像処理値を変更された調整後画像データについて文字認識処理を行い所定のOCR情報を生成するとともに、当該OCR情報を画像データ生成部11で生成された画像データと関連付けて出力するOCR画像データ生成部13を備える構成としてある。
【選択図】
図1
【特許請求の範囲】
【請求項1】
OCRによる文字認識精度の向上を支援するためのシステムであって、
当該システムを構成する情報処理装置が、
対象となる文書をスキャンして、当該文書に表された文字情報を画像データとして生成する画像データ生成部と、
前記画像データ生成部で生成された画像データについて、所定の画像処理値を変更する画像調整処理を実行する画像調整処理部と、
前記画像調整処理部で画像処理値を変更された調整後画像データについて文字認識処理を行い、所定のOCR情報を生成するとともに、当該OCR情報を、前記画像データ生成部で生成された画像データと関連付けて出力するOCR画像データ生成部と、
を備えることを特徴とするOCR認識精度向上支援システム。
【請求項2】
前記画像調整処理部は、
前記所定の画像処理値として、当該画像データのコントラスト及び明るさの少なくともいずれかを変更する
ことを特徴とする請求項1に記載のOCR認識精度向上支援システム。
【請求項3】
前記画像調整処理部は、
前記画像データのコントラスト及び明るさの少なくともいずれかを、所定値ずつ変化させて、所定の設定値に変更する
ことを特徴とする請求項2に記載のOCR認識精度向上支援システム。
【請求項4】
前記画像調整処理部は、
前記画像データのコントラストを所定値ずつ変化させて、画像ヒストグラムの最大値及び最小値に最も近いピーク値を持つ値を、前記設定値とする
ことを特徴とする請求項3に記載のOCR認識精度向上支援システム。
【請求項5】
OCRによる文字認識精度の向上を支援するためのシステムを構成する情報処理装置を、
対象となる文書をスキャンして、当該文書に表された文字情報を画像データとして生成する画像データ生成手段、
前記画像データ生成手段で生成された画像データについて、所定の画像処理値を変更する画像調整処理を実行する画像調整処理手段、
前記画像調整処理手段で画像処理値を変更された調整後画像データについて文字認識処理を行い、所定のOCR情報を生成するとともに、当該OCR情報を、前記画像データ生成手段で生成された画像データと関連付けて出力するOCR画像データ生成手段、
として機能させることを特徴とするOCR認識精度向上支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば自賠責保険の損害調査関係書類などのように、様々な種類やフォーマットの紙媒体の資料について、OCRの認識精度を向上させるための支援技術に関する。
【背景技術】
【0002】
一般に、紙媒体に表示された文書(文字)を光学的に読み取って画像データを生成し、その画像データに対して文字認識処理を実行して、当該文書に示された文字を電子データ(テキストデータ)に変換するOCR(Optical Character Reader)技術が広く知られている。
この種のOCR技術では、紙媒体をスキャナ等で読み取って生成した画像データに対して文字認識処理を行い、認識された文字のテキスト情報(文字コード)を画像データと関連付けて記憶し、文字列を検索可能な画像データ(例えばPDF:Potable Document Format)として生成・出力できるようになっている。
【0003】
このようなOCR技術によれば、紙媒体に表された文字情報を、電子情報(テキストデータ)に変換して検索・編集・加工等が行えるようになることから、例えば役所や企業,公共施設など、紙媒体で作成された文書に基づく申請や申し込み・事務処理などの場面において広く活用されている。
ところで、これまでのOCR処理では、紙媒体が同じ大きさや種類・フォーマットで作成され、そこに表される文字も同じフォントや文字サイズの活字であれば、比較的高精度に文字認識が可能である一方、紙媒体の種類やフォーマットが様々であったり、表示されている文字のフォントやサイズもマチマチであるような場合、OCR処理による文字認識精度が大きく低下してしまうことがあった。
【0004】
このようなOCR処理における文字認識精度の課題に対応するため、これまで、紙媒体の特定の領域(フィールド)に示された文字のみを読み取り対象とすることで、当該領域に表された文字についての文字認識精度を高めることが行われている。
例えば、特許文献1には、スキャナで読み取られる紙媒体について、特定の照合領域(例えば各用紙の左上)を予め設定し、その照合領域に含まれる文字列のみについてOCR処理を実行することにより、照合領域に含まれる文字の認識精度を高めることができるようにする、という技術が提案されている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1に開示されている技術では、特定の照合領域に表された文字しか認識処理にかけることができないことから、紙媒体の様々な領域に表される様々な文字について認識処理を行うことができず、実用性や汎用性に乏しいものであった。
一般に、役所や企業などで事務処理の対象となる紙媒体による申請書類などは、大きさもフォーマットも種々異なる様々な申込書や申請書類、各種の添付資料などが含まれ、それらの紙媒体のそれぞれについて、様々な領域に表される様々な文字についての文字認識処理を行うことが要請される。
【0007】
例えば、自賠責保険の損害調査の場合には、申請書となる「自賠責保険損害調査関係書類送付書兼保険金支払請求書」と、そこに添付される複数の添付書類、例えば事故証明・医師の診断書・診療報酬明細書・領収書など、様々な種類やフォーマットの紙媒体が50枚前後に亘って作成・提出され、それらの資料を1枚ずつ精査しながら事務処理を行う必要がある。そのような種類もフォーマットも異なる複数の紙媒体を処理する場合、単に「特定の照合領域」のみについて文字認識処理が行えるだけでは、実際の事務処理作業にはほとんど役に立たなかった。
【0008】
本発明は、以上のような従来の技術が有する課題を解決するために提案されたものであり、種類もフォーマットも様々に異なる紙媒体について、紙面全体についての文字認識処理を実行しつつ、その文字認識精度を簡易かつ確実に向上させることができる、例えば自賠責保険の損害調査関係書類などの事務処理に好適な、OCR認識精度向上支援システム及びプログラムの提供を目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するため、本発明のOCR認識精度向上支援システムは、OCRによる文字認識精度の向上を支援するためのシステムであって、当該システムを構成する情報処理装置が、対象となる文書をスキャンして、当該文書に表された文字情報を画像データとして生成する画像データ生成部と、前記画像データ生成部で生成された画像データについて、所定の画像処理値を変更する画像調整処理部と、前記画像調整処理部で画像処理値を変更された調整後画像データについて文字認識処理を行い、所定のOCR情報を生成するとともに、当該OCR情報を、前記画像データ生成部で生成された画像データと関連付けて出力するOCR画像データ生成部と、を備える構成としてある。
【0010】
また、本発明は、上記のような本発明に係るOCR認識精度向上支援システムを構成する情報処理装置で実行される、OCR認識精度向上支援プログラムとして構成することができる。
さらに、本発明は、上記のような本発明に係るOCR認識精度向上支援システム及びプログラムによって実施可能な、OCR認識精度向上支援方法として構成することもできる。
【発明の効果】
【0011】
本発明によれば、種類もフォーマットも様々に異なる紙媒体について、紙面全体についての文字認識処理を実行しつつ、その文字認識精度を簡易かつ確実に向上させることが可能となる。
これによって、例えば自賠責保険の損害調査関係書類などの事務処理に好適な、利便性や汎用性・拡張性に優れたOCR認識精度向上支援システムを提供することができる。
【図面の簡単な説明】
【0012】
【
図1】本発明の一実施形態に係るOCR認識精度向上支援システムの全体構成を模式的に示すブロック図である。
【
図2】本発明の一実施形態に係るOCR認識精度向上支援システムにおける画像処理値の調整として、コントラストを変化させた場合の説明図であり、(a)は、「もとの画像」を「コントラスト+80の画像」に変化させた場合、(b)は、更に「コントラスト+110」→「コントラスト+120」→「コントラスト127」と変化させた場合を示している。
【
図3】本発明の一実施形態に係るOCR認識精度向上支援システムにおける画像処理値の調整として、コントラストを変化させた場合の説明図であり、「もとの画像」からコントラストを10ずつ変化させて、「コントラスト+10」~「コントラスト+100」まで変化させた場合を示している。
【
図4】本発明の一実施形態に係るOCR認識精度向上支援システムにおける処理動作を示すフローチャートである。
【
図5】本発明の一実施形態に係るOCR認識精度向上支援システムでの処理対象となる紙媒体をスキャンして得られた画像データの一例であり、(a)は画像調整処理前の元データを、(b)は画像調整処理後のデータを示している。
【
図6】
図5に示す画像データに対してOCR処理の実行結果を示しており、(a)は画像調整処理前の元データについての実行結果、(b)は画像調整処理後のデータについての実行結果である。
【
図7】本発明の一実施形態に係るOCR認識精度向上支援システムでのOCR処理の結果、文字列検索が可能となったPDFデータの一例を示している。
【
図8】本発明の一実施形態に係るOCR認識精度向上支援システムでのOCR処理による識字率の結果(定量評価)を示す表である。
【
図9】OCR認識精度向上支援システムにおけるサーバ装置又はユーザ端末のハードウェア構成を示すブロック図である。
【発明を実施するための形態】
【0013】
以下、本発明に係るOCR認識精度向上支援システムの実施形態について、図面を参照しつつ説明する。
ここで、以下に示す本発明のOCR認識精度向上支援システムは、プログラム(ソフトウェア)の命令によりコンピュータで実行される処理,手段,機能によって実現される。プログラムは、コンピュータの各構成要素に指令を送り、以下に示す本発明に係る所定の処理や機能等を行わせることができる。
すなわち、本発明における各処理や手段,機能は、プログラムとコンピュータとが協働した具体的手段によって実現される。
【0014】
なお、プログラムの全部又は一部は、例えば、磁気ディスク,光ディスク,半導体メモリ,その他任意のコンピュータで読取り可能な記録媒体により提供され、記録媒体から読み出されたプログラムがコンピュータにインストールされて実行される。また、プログラムは、記録媒体を介さず、通信回線を通じて直接にコンピュータにロードし実行することもできる。
また、本発明に係るOCR認識精度向上支援システムを構成するコンピュータは、単一の情報処理装置(例えば1台のパーソナルコンピュータや1台のMFP等)で構成することもでき、複数の情報処理装置(例えば複数台のコンピュータやスキャナ,複写機等)で構成することもできる。
【0015】
[システム構成]
図1に、本発明の一実施形態に係るOCR認識精度向上支援システムの全体構成を示す。
同図に示すように、本実施形態に係るOCR認識精度向上支援システム1(以下、単に「本システム1」ともいう)は、OCRによる文字認識精度の向上を支援するためのシステムであって、クライアントPC10aとMFP10bとで構成される情報処理装置(OCR認識精度向上支援装置10)によって実現されるようになっている。
クライアントPC10aは、例えばパーソナルコンピュータ等の情報処理装置であり、MFP(Multi Function Peripheral)10bは、所謂複合機とも呼ばれる画像形成装置である。
【0016】
これらクライアントPC10a及びMFP10bは、有線・無線のネットワークを介して、互いにデータ通信可能に接続されるようになっている。
クライアントPC10aは、MFP10bで読み取られて生成される紙媒体の画像データを受信すると、当該画像データに対して本発明に係る画像調整処理・OCR処理を実行して、画像データにOCR情報が関連付けられた所定のOCR画像データを生成・出力する。
MFP10bは、本システム1の処理対象となる紙媒体の文書がスキャンにかけられると、その紙媒体の表面を読み取って画像データを生成するとともに、生成された画像データを、ネットワークを介してクライアントPC10aに送信する。
【0017】
具体的には、本システム1では、まずMFP10bにおいて、(1)1枚又は複数枚を一単位とした紙媒体(文書)がスキャンされて読み取りが行われ、紙媒体の枚数に応じた複数の画像データを生成される。さらに、それら紙媒体単位(例えば一括事案単位)の一又は複数の画像データに基づいて、単一(1個)のPDF(Portable Document Format)ファイルが生成される。その紙媒体毎のPDFファイルは、ネットワークを介してクライアントPC10aに送信される。
ここで、MFP10bで生成される画像データとしては、例えばJPEG(Joint Photographic Experts Group)ファイルや、TIFF(Tagged Image File Format)ファイル等、既存の画像データ・画像ファイルである。
【0018】
MFP10bから紙媒体毎のPDFファイルを受信したクライアントPC10aでは、(2)受信されたPDFファイルが、元の紙媒体単位の1枚又は複数枚の画像データに変換され、その後、(3)所定の画像調整処理(コントラスト・明るさの変更)が実行され、(4)画像調整処理が行われた画像データは、紙面全体に相当する領域についてOCR処理にかけられ文字認識が実行され、その後、紙媒体端の単一(1個)のPDFファイルに再度変換され、(5)そのPDFファイルに文字認識されたOCR情報(テキスト情報)が関連付けて記憶され、(6)最終的にOCR情報が付加された、所定の文字列を検索可能なPDFファイルが生成・出力される。
【0019】
このように、本システム1では、概要以下のような処理・ステップが実行される。
(1)紙媒体の読み取りによるPDFファイルの生成。
(2)PDFファイルの画像データへの変換。
(3)画像データに対する画像調整処理の実行。
(4)画像調整処理後の画像データのOCR処理及びPDFファイルへの再変換。
(5)PDFファイルに対するOCR情報の付加。
(6)OCR情報付きPDFファイルの出力。
【0020】
なお、本システム1では、上述した(1)~(6)の処理のうち、(1)の紙媒体の読み取り処理をMFP10bで行い、(2)~(6)の画像調整処理・OCR処理をクライアントPC10aで行うようにしているが、これらは一例である。
例えば(2)~(6)の画像調整処理・OCR処理の一部又は全部を、MFP10b側で行うようにすることもできる。
また、(1)の紙媒体の読み取り処理を、スキャナを備えたクライアントPC10a側で行うようにすることもできる。
【0021】
すなわち、上記(1)~(6)の処理は、本システム1のいずれかの装置・機能において実行されれば良いものであって、いずれの装置・機能において実行されるかは特に限定されるものではない。
また、MFP10bは、紙媒体の読み取り処理を行うスキャン機能を備える手段であれば、どのような装置・機能であっても良く、例えば、MFP10bに代えて、上述したようなクライアントPC10aに接続されたスキャナやコピー機等であっても良い。
【0022】
また、上記(1)~(2)のステップにおいては、(1)PDFファイル→(2)画像データへの変換を行っているが、PDFファイルを介さずに、(1)紙媒体の読み取り→(2)画像データへの変換、という処理を行うことも可能である。
但し、この場合、スキャナ(MFP10b)で紙媒体を読み取ると、紙媒体の枚数と同数の画像ファイル(例えば50個超)ができてしまうため、その後の処理においては、それら複数のファイル1つ1つについてファイル名を指定した処理が必要となり、処理動作が煩雑となる。したがって、PDFファイルを介して、複数の画像ファイルを1個のPDFファイルとして処理することが望ましい。
つまり、複数個の画像ファイルに対して、ファイル名がランダムに付与されることについて、紙媒体に対応した順番(ページ順)を担保しつつシステムで読み取り(画像データ生成)ができれば、PDFファイルを介さない方法でも対応は可能である。
【0023】
なお、上記(4)のステップにおける、画像調整処理後の画像データのOCR処理後のPDFファイルへの再変換は、(5)のステップにより、OCR処理で認識された文字情報をPDFファイルで検索等が行えるように付加するために、画像データのPDFファイル化と、認識された文字のマッピングを同時に行っていることから、必須の処理となる。
すなわち、上記(4)~(5)のステップでは、OCR処理された結果として、文字認識されたテキストファイルとPDFファイルの両方が生成され、PDFファイルにはテキストデータが関連付けられて(被さられて)記憶されるようになっており、これによって、PDFファイル中のどの文字が、文字認識されたいずれの文字であるかが、検索・抽出できるようになっている。換言すれば、上記(5)の「PDFファイルに対するOCR情報の付加」は、より正確には「PDFファイルに対して、OCR処理(文字認識)で認識された文字をマッピングする」ということになる。
【0024】
以上のように、本システム1で生成されるファイルとしては、必ずしもPDFファイルのみに限らず、例えばJPEG(Joint Photographic Experts Group)ファイルや、TIFF(Tagged Image Fi le Format)ファイル等であっても運用が可能な場合がある。
但し、システム運用上の効率性や利便性等の観点からは、上述したとおり、PDFファイルに変換・生成して処理を行うことが好ましい。
【0025】
[本システムの機能]
以上のような構成からなる本システム1(クライアントPC10a・MFP10b)は、より具体的には、
図1に示すように、画像データ生成部11,画像調整処理部12,OCR画像データ生成部13の各部として機能・動作するようになっている。
【0026】
[画像データ生成部]
画像データ生成部11は、対象となる文書をスキャンして、当該文書に表された文字情報を画像データとして生成する、上記ステップ(1)を実行する手段である。
具体的には、画像データ生成部11は、MFP10bのスキャン機能により、1枚又は複数枚を一単位とした紙媒体(文書)を読み取り、紙媒体の枚数に応じた複数の画像データを生成する。また、画像データ生成部11は、紙媒体単位の一又は複数の画像データに基づいて、単一(1個)のPDFファイルを生成する。
画像データ生成部11で生成された紙媒体毎のPDFファイルは、MFP10bのデータ送信機能により、ネットワークを介してクライアントPC10aに送信される。
【0027】
[画像調整処理部]
画像調整処理部12は、画像データ生成部11で生成された画像データについて、所定の画像処理値を変更する、上記ステップ(2)及び(3)を実行する手段である。
具体的には、画像調整処理部12は、クライアントPC10aのデータ変換機能により、MFP10bから送信されたPDFファイルを、元の紙媒体単位の1枚又は複数枚の画像データに変換するとともに、その画像データに対して、所定の画像処理値(コントラスト・明るさ)を変更・調整する画像調整処理を実行する。
その後、画像調整処理部12で画像調整処理が行われた画像データは、OCR画像データ生成部13に出力され、所定のOCR処理(文字認識処理)が実行される。
【0028】
ここで、画像調整処理部12は、画像データに対して実行する画像調整処理として、
当該画像データに設定されている画像処理値のうち、画像のコントラスト及び明るさの少なくともいずれかを変更・調整する処理を実行する。
紙媒体の紙面全体の領域についてOCR処理をかけて文字認識率を向上させる方法として、本願の発明者は、まず、画像の解像度を上げてみたところ、処理速度が大幅に遅くなるだけで、文字認識率が向上しないことが分かった。具体的には、複数ページのPDFファイルを1ページのJpgファイル、あるいはPngファイルに分解し、dpi300→600→1200と解像度を上げてOCR処理を行ったところ、いずれの解像度でも文字認識率にはほとんど変化が無く、むしろ解像度を上げることでOCR処理速度が遅くなるため、解像度としてはdpi300で十分であることが分かった。
【0029】
また、読み取り対象となる紙媒体に示された文字について、例えば見出し文字のようなフォントサイズの大きな文字であっても、認識できない事象が発生することが分かった。したがって、画像データを拡大して文字サイズを大きくしても文字認識率は向上しないことが分かった。
そして、本願の発明者は、鋭意研究の末に、画像のコントラスト及び明るさを変更したところ、所定の値において文字認識率が飛躍的に向上することを見出した。
そこで、本システム1では、画像調整処理部12により、紙媒体が読み取られて生成された画像データに対して実行する画像調整処理として、当該画像データに設定されている画像処理値のうち、画像のコントラスト及び明るさの少なくともいずれかを変更・調整する処理を実行することとした。
【0030】
[画像処理値の設定ロジック]
具体的には、本システム1では、画像調整処理部12により、画像データのコントラスト及び明るさの少なくともいずれかを、所定値ずつ変化させて、所定の設定値に変更・設定するようにしている。
[コントラスト調整]
図2及び
図3は、本システム1における画像処理値の調整として、コントラストを変化させた場合の説明図であり、
図2(a)は、「もとの画像」を「コントラスト+80の画像」に変化させた場合、
図2(b)は、更に「コントラスト+110」→「コントラスト+120」→「コントラスト127」と変化させた場合を示している。
また、
図3は、「もとの画像」からコントラストを10ずつ変化させて、「コントラスト+10」~「コントラスト+100」まで変化させた場合を示している。
【0031】
一般に、画像データによって、文字認識率が最も高くなるコントラスト値や明るさ値は異なる。例えば、コントラスト値は最大値(例えば+127)の場合に、また、明るさ値は中間値(例えば-80)の場合に、最も文字認識率が高くなることがある。
そこで、本システム1では、元の画像データのコントラスト値・明るさ値に対して、その最大値・最小値の範囲において所定値ずつ(例えば±10ずつ)変化させることで、文字認識率が最も高くなる値を、その画像の設定値として抽出・決定することができる。
より具体的には、画像調整処理部12では、画像データのコントラストを所定値ずつ変化させて、画像ヒストグラムの最大値及び最小値に最も近いピーク値を持つ値を、設定値とすることができる(
図2及び
図3参照)。
【0032】
図2(a)に示すように、画像のコントラスト値は、値が低い場合には画像全体が白っぽいイメージとなり、文字認識率は低いものとなる。
一方、
図2(b)に示すように、コントラスト値が高すぎる場合には、灰色部分のノイズが増大してしまい、文字認識率は低下することになる。
このため、コントラストは、黒と白に分かれる最大値の状態で、最適コントラスト値を設定することができる。
【0033】
そこで、本システム1では、画像調整処理部12の画像調整処理として、対象となる画像データのコントラストを変化させることにより、二値化を際立たせるように加工し認識率の高い画像ヒストグラムになるように設定する。
具体的には、
図3に示すように、コントラストを10ずつ変化させ、画像ヒストグラムの白(255)及び黒(0)に近い値にピーク値を持つように設定値を割り出す。
同図に示す例では、コントラストは「±127」の範囲で調整するようにしている。
その結果、同図に示す例では、画像ヒストグラムの最大値及び最小値に最も近いピーク値として、「+80」が、両脇にヒストグラムがバランス良く偏った状態となり、当該画像の最適コントラスト値として設定するようにしている。
以上のようにして、各画像データに応じた文字認識率が最大となる最適なコントラスト値を抽出・決定することができるようになる。
【0034】
また、以上のようなコントラストの最適値としては、次のような評価式によっても求めることもできる。
1)二値化傾向の評価値(プラスマイナス20を二値とする)
α=0~20(黒と認識する値)の画素割合
β=235~255(白と認識する値)の画素割合
α/βが「1」に近いことが評価値が大きいものとする。
2)灰色部分(21~234)のノイズについては、標準偏差値sで評価する。
3)総合評価値=p1×α/β+p2×s(p1及びp2は評価値の重み付け変数とする)
以上のようにしても、各画像データに応じた文字認識率が最大となる最適なコントラスト値を算出・決定することができる。
なお、明るさ値についても、上記のコントラスト調整と同様の手法により、調整・設定することができる。
【0035】
[OCR画像データ生成部]
OCR画像データ生成部13は、画像調整処理部12で画像処理値を変更された調整後画像データについてOCR処理文字認識処理を行い、所定のOCR情報を生成するとともに、OCR処理された画像データをPDFファイルに再変換することで、紙媒体単位の1個のPDFファイルを生成し、そのPDFファイルに、文字認識されたOCR情報(テキスト情報)を関連付けて(被せて)記憶し、最終的にOCR情報が付加されたPDFファイルを生成・出力する、上記ステップ(4)~(6)を実行する手段である。
【0036】
具体的には、OCR画像データ生成部13は、まず、上述したコントラスト・明るさが最適な値に設定された画像データ(画像ファイル)に対して、紙媒体の紙面全体に相当する全領域について、所謂ベタ読みでOCR処理(文字認識処理)を実行する。ここで、OCR画像データ生成部13におけるOCR処理は、既存のOCR技術・AI-OCR技術、例えば公知のOCRソフト(アプリケーション)等を用いて実施することができる。
次いで、OCR画像データ生成部13は、OCR処理が実行された複数の画像データを1個のPDFファイルに変換するとともに、そのPDFファイルに対して、OCR処理によって認識・生成されたOCR情報(文字コード)を付加し、所定の文字列を検索可能なデータ(PDFファイル)として出力する。このOCR画像データ生成部13によるPDF変換処理・OCR情報の関連付け処理も、OCR処理と同様に、既存のOCR技術・AI-OCR技術を用いて実施することができる。
【0037】
ここで、PDFファイルに対するOCR情報の関連付け(被せ)処理としては、例えば、画像データから変換されたPDFデータと、OCR処理で認識・生成されたOCR情報(文字コード)が、それぞれレイヤーで構成され、PDFデータのレイヤーにOCR情報のレイヤーが被せて配置(テキストイメージをカバー)されることで、OCR情報付きのPDFファイルを生成することができる。
このとき、文字コード(テキストイメージ)は、透明色で描画処理されることで、PDFファイル上において、非表示、かつ、文字列検索が可能となる。
【0038】
[動作]
次に、以上のような構成からなる本システム1の具体的な動作(OCR認識精度向上支援方法)について、
図4に示すフローチャートと、
図5~
図7の画像データの具体例を参照しつつ説明する。
以下では、本システム1での処理対象となる文書として、自賠責保険損害調査関係書類を例にとって説明する。
自賠責保険の損害調査は、申請書となる「自賠責保険損害調査関係書類送付書兼保険金支払請求書」と、複数の添付書類として事故証明・医師の診断書・診療報酬明細書・領収書など、様々な種類やフォーマットの紙媒体が、例えば50枚前後を一単位(一括事案)として事務処理の対象となる。
【0039】
このような自賠責保険損害調査関係書類は、紙媒体の種類やフォーマットなどに関らず、全紙媒体の紙面全体について、所謂ベタ読みで文字認識処理を実行する本システム1の対象として好適となる。
以下、自賠責保険損害調査関係書類の一件書類となる一括事案全50枚を処理する場合について説明する。
また、以下に示す処理動作は、上述した本システム1を構成するクライアントPC10a・MFP10bで実現される、画像データ生成部11,画像調整処理部12,OCR画像データ生成部13の各部により実行・運用される。
【0040】
図4に示すように、まず、自賠責保険損害調査関係書類(全50枚)は、一括事案単位でMFP10bにおいてスキャンされて読み取られ、画像データ化・PDFファイル化され、1個のPDFファイルが生成される(ステップ01)。
生成されたPDFファイルは、クライアントPC10aに出力・送信され、クライアントPC10aにおいて、PDFファイルが画像ファイル化される(ステップ02)。したがって、ここでは元の一括事案50枚の1ページずつ、全50個の画像ファイルが変換・生成される(ステップ03)。
【0041】
その後、50個の全ての画像ファイルについて、クライアントPC10aにおいて画像調整処理が一括で実行され(ステップ04)、各画像について、コントラストと明るさが調整・変更されて、OCR処理に最適となるコントラスト値・明るさ値が設定された、調整処理後の一括事案の画像ファイルが生成される(ステップ05)。
図5に、画像調整処理前後の画像データを示す。
画像調整処理が行われる前の元データは、
図5(a)に示す例では、全体がぼんやりとした画像となっているが、コントラスト・明るさが最適値に調整・変更された画像は、
図5(b)に示すように、見た目にもはっきりと画像となっていることが分かる。
【0042】
このように画像調整処理が行われた画像データは、クライアントPC10aにおいて、50個全ての画像ファイルについて一括でOCR処理がかけられ、紙面全体に相当する領域について文字認識が実行され(ステップ06)、その後、50個の画像ファイルが1個のPDFファイルに再度変換されるとともに、そのPDFファイルに、文字認識されたOCR情報(テキスト情報)がテキストイメージとして関連付けて記憶される(ステップ06)。
【0043】
図6に、本システム1におけるOCR処理の実行結果の一例を示す。
図6(a)に示すように、画像調整処理が行われる前の元データ(
図5(a)参照)では、申請書で最も大きいフォントサイズで示されている「自賠責保険損害調査関係書類送付書兼保険金支払請求書」のタイトル文字についても、正確な文字認識が行われず、意味不明な文字列が生成・出力されているが、コントラスト・明るさが最適値に調整・変更された画像処理後のデータ(
図5(b)参照)では、全ての文字列が正確に正しく文字認識されていることが分かる。
【0044】
以上のようなOCR処理の結果、最終的にOCR情報が関連付けて記憶・付加された、文字列を検索可能な1個のPDFファイルが、一括事案単位で生成・出力されることになる(ステップ07)。
図7に、本システム1でのOCR処理の結果、文字列検索が可能となったPDFデータの一例を示す。
【0045】
同図に示すように、OCR情報が付加されたPDFファイルは、PDFアプリケーションの検索機能を使って必要な文字列(例えば「自賠責保険」等)を検索すると、自賠責保険損害調査関係書類の一件書類となる一括事案全50枚中で、「自賠責保険」の文字列が含まれる文書を1枚ずつ検出・抽出することができる。
これによって、膨大な紙媒体に基づく事務処理も、適宜必要な文字列を検索することで、必要な書類・資料がどこに存在しているか、必要な情報がどこに記載されているかなどが簡単に分かるようになり、事務処理効率を大幅に改善・向上させることができるようになる。
【0046】
[文字認識精度向上の定量評価]
図8に、本システム1でのOCR処理による識字率の結果(定量評価)を示す。
同図に示す例では、上述した自賠責保険損害調査関係書類の一括事案の書面について、読取り対象として、全文の文字(カンマ,句読点,カッコなどを含む)を読取り対象文字として評価した。
そのうち、サンプルとして、3ページ(3枚)分の関連書類について読取りを行い、読み取れた文字と書類に含まれる文字の割合を識字率として、画像調整処理の前と後で比較した。
【0047】
結果は、同図に示すように、まず、定型書面である「自賠責保険損害調査関係書類送付書兼保険金支払請求書」(
図5参照)は、文書に含まれる文字数が「1046」で、OCR処理による読取り文字数(識字率)は、画像処理前が「860(82%)」であるのに対して、画像処理後は「952(91%)」と向上しており、改善割合(倍率)は「1.1」となった。
これに対して、非定型の添付書面である「損害額積算明細書(一括払用)」の場合には、文字数「370」、読取り文字数(識字率)は、画像処理前「108(29%)」、画像処理後「288(78%)」、改善割合(倍率)「2.7」と、文字認識の精度がより大きく向上する結果となった。
【0048】
さらに、同様に非定型の添付書面である「事故解決に関する承諾書(免責証書)」の場合には、文字数「995」、読取り文字数(識字率)は、画像処理前「128(13%)」、画像処理後「798(80%)」、改善割合(倍率)「6.2」と、文字認識の精度が更に大幅に向上する結果となった。
このように、本システム1による画像調整処理後は、いずれの文書についても、およそ8割の文字が認識されており、読取り精度が6倍以上も改善しているケースもあることが分かる。
特に、非定型の文書で顕著な改善が見られることが分かった。
【0049】
[ハードウェア構成]
以上のような本実施形態に係る本システム1を構成するクライアントPC10aやMFP10bで構成されるハードウェア構成の一例を、
図9に示す。
同図に示すとおり、本システム1は、CPU101,RAM102,ROM103,HDD104,入力装置105及び表示装置106を含む情報処理装置によって構成される。これらの構成要素はシステムバスで接続され、システムバスを介してデータのやり取りが行われる。
【0050】
CPU(Central Processing Unit)101は、中央処理装置ともいい、コンピュータの中心的な処理を行う部位であり、各装置の制御やデータの計算/加工を行う。
RAM(Random Access Memory)102は、メモリ装置の一種で、データの消去・書き換えが可能なものであ。
ROM(Read Only Memory)103は、半導体などを用いたメモリ装置の一種で、データ書き込みは製造時1回のみで、利用時には記録されたデータの読み出しのみできるものである。
【0051】
HDD(Hard Disk Drive)104は、磁性体の性質を利用し、情報を記録し読み出す補助記憶装置である。
入力装置105は、ユーザがコンピュータに対して操作指示を行うため、あるいは、文字等を入力するために使用され、具体的には、キーボード,マウス等で構成される。
また、上述したMFP10bのように、紙媒体をスキャンして画像データを生成するスキャナ等も入力装置105に該当する。
表示装置106は、例えば液晶ディスプレイ等で構成され、タッチパネル機能を有するものであってもよい。この他、図示しない通信機能も有し、この通信機能により他の端末との通信が可能となる。
【0052】
以上説明したように、本実施形態に係る本システム1によれば、スキャンして読み取られた紙媒体の画像データについて、OCR処理を行う前に、画像データの画像処理値(コントラスト・明るさ)について、最適な値に画像調整することにより、OCR処理における文字認識率を飛躍的に向上させることができるようになる。
すなわち、本システム1では、種類もフォーマットも様々に異なる紙媒体について、紙面全体について、所謂ベタ読みで文字認識処理を実行しつつ、その文字認識精度を簡易かつ確実に向上させることが可能となる。
【0053】
その結果、種類やフォーマットが様々に異なる非定型の紙文書について、どこに存在しているか分からない所定の文字を、確実に抽出・検知できるようになる。
これによって、例えば自賠責保険の損害調査関係書類など、様々なフォーマットの書類・資料が含まれる紙媒体であっても、例えばタイトル名や表題などの主要な文字列を抽出・テキスト化することができ、膨大な紙媒体に基づく煩雑な事務処理等をサポート・効率化することができる、利便性や汎用性・拡張性に優れた支援システムを実現することができるようになる。
【0054】
以上、本発明について、好ましい実施形態を示して説明したが、本発明は、上述した実施形態に限定されるものではなく、本発明の範囲で種々の変更実施が可能であることは言うまでもない。
例えば、上述した実施形態では、本発明に係るOCR認識精度向上支援システムの処理対象となる紙媒体として、自賠責保険の損害調査関係書類を例にとって説明したが、本発明の対象となる紙媒体は、特に自賠責保険の損害調査関係書類に限定されるものではなく、紙媒体に示された文字情報をOCR処理によって認識し電子データとして事務処理等に利用することのある、あらゆる紙媒体を対象とすることができるものである。
【産業上の利用可能性】
【0055】
本発明は、例えば自賠責保険の損害調査関係書類などのように、様々なフォーマットの紙媒体の資料について、OCRの認識精度の向上を支援するためのシステム等に好適に利用可能である。
【符号の説明】
【0056】
1 OCR認識精度向上支援システム
10 OCR認識精度向上支援装置
10a クライアントPC
10b MFP
11 画像データ生成部
12 画像調整処理部
13 OCR画像データ生成部