IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社PFUの特許一覧

特許7421384情報処理装置、修正候補表示方法、及びプログラム
<>
  • 特許-情報処理装置、修正候補表示方法、及びプログラム 図1
  • 特許-情報処理装置、修正候補表示方法、及びプログラム 図2
  • 特許-情報処理装置、修正候補表示方法、及びプログラム 図3
  • 特許-情報処理装置、修正候補表示方法、及びプログラム 図4
  • 特許-情報処理装置、修正候補表示方法、及びプログラム 図5
  • 特許-情報処理装置、修正候補表示方法、及びプログラム 図6
  • 特許-情報処理装置、修正候補表示方法、及びプログラム 図7
  • 特許-情報処理装置、修正候補表示方法、及びプログラム 図8
  • 特許-情報処理装置、修正候補表示方法、及びプログラム 図9
  • 特許-情報処理装置、修正候補表示方法、及びプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-16
(45)【発行日】2024-01-24
(54)【発明の名称】情報処理装置、修正候補表示方法、及びプログラム
(51)【国際特許分類】
   G06V 30/24 20220101AFI20240117BHJP
   G06V 30/12 20220101ALI20240117BHJP
【FI】
G06V30/24 640A
G06V30/12 J
【請求項の数】 16
(21)【出願番号】P 2020048975
(22)【出願日】2020-03-19
(65)【公開番号】P2021149531
(43)【公開日】2021-09-27
【審査請求日】2022-09-16
(73)【特許権者】
【識別番号】000136136
【氏名又は名称】株式会社PFU
(74)【代理人】
【識別番号】100145838
【弁理士】
【氏名又は名称】畑添 隆人
(74)【代理人】
【識別番号】100103137
【弁理士】
【氏名又は名称】稲葉 滋
(74)【代理人】
【識別番号】100216367
【弁理士】
【氏名又は名称】水谷 梨絵
(72)【発明者】
【氏名】岸川 直樹
(72)【発明者】
【氏名】▲鬘▼谷 俊介
(72)【発明者】
【氏名】橋本 勇太
【審査官】小池 正彦
(56)【参考文献】
【文献】特開昭58-163072(JP,A)
【文献】特開平06-290308(JP,A)
【文献】特開2007-042097(JP,A)
【文献】特開2017-033434(JP,A)
【文献】特開2015-090625(JP,A)
【文献】特開平04-138583(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/24
G06V 30/12
(57)【特許請求の範囲】
【請求項1】
文書に記載された1以上の文字から構成される文字列についての認識結果である文字列認識結果を取得する認識結果取得手段と、
前記文字列認識結果の修正候補となり得る文字列を1以上記憶する修正候補記憶手段と、
前記文字列認識結果に対する各修正候補について、該修正候補と該文字列認識結果とを一致させるための各編集操作に係る編集コストを加算することで得られる該修正候補と該文字列認識結果との編集距離を、該修正候補と該文字列認識結果との類似度として算出する類似度算出手段と、
前記編集距離に基づき前記修正候補の表示順を決定する表示制御手段と、
前記修正候補を前記表示順に従い表示する表示手段と、を備え、
前記認識結果取得手段は、認識対象である前記文字列の各文字について、文字認識時の認識候補である文字候補を更に取得し、
前記類似度算出手段は、認識対象である前記文字列中の各文字についての文字候補と前記修正候補とを比較することで、前記編集距離を出し、
前記類似度算出手段は、前記各編集操作に係る編集コストを加算していく中で加算された編集コストが所定の閾値を超えた場合、それ以上前記編集コストを加算する処理を行わないよう、前記編集距離の算出を中止する、
情報処理装置。
【請求項2】
前記類似度算出手段は、前記比較を行い、認識対象である前記文字列中の文字についての文字候補のいずれかと、該文字に対応する前記修正候補中の文字とが一致するか否かを判定する、
請求項1に記載の情報処理装置。
【請求項3】
前記類似度算出手段は、前記判定の結果、前記修正候補中の文字が前記文字候補のいずれかと一致する場合、該修正候補と前記文字列認識結果との前記編集距離が小さくなるよう、前記編集距離を算出する、
請求項2に記載の情報処理装置。
【請求項4】
前記類似度算出手段は、前記判定の結果、一致した文字候補の、認識対象である前記文字列中の文字に対する認識の確からしさに応じて重み付け値を決定し、該重み付け値を用いて前記編集距離を算出する、
請求項3に記載の情報処理装置。
【請求項5】
前記文字候補の認識の確からしさは、該文字候補の優先順位であり、
前記重み付け値は、該優先順位に基づき決定される、
請求項4に記載の情報処理装置。
【請求項6】
前記文字候補の認識の確からしさは、該文字候補の信頼度であり、
前記重み付け値は、該信頼度に基づき決定される、
請求項4に記載の情報処理装置。
【請求項7】
前記類似度算出手段は、決定された前記重み付け値を用いて、前記各編集操作のうち前記修正候補中の前記文字に係る置操作に係る前記編集コストを算出する、
請求項4から6の何れか一項に記載の情報処理装置。
【請求項8】
前記編集距離は、前記修正候補の文字列を構成する文字数又は前記文字列認識結果の文字列を構成する文字数により正規化される、
請求項7に記載の情報処理装置。
【請求項9】
前記表示制御手段は、算出された前記編集距離が小さい順に前記修正候補が表示されるよう、前記表示順を決定する、
請求項1から8の何れか一項に記載の情報処理装置。
【請求項10】
前記修正候補は、ユーザの入力履歴および/または予め設定された辞書に含まれる文字列である、
請求項1から9の何れか一項に記載の情報処理装置。
【請求項11】
ユーザによる入力を受け付ける入力受付手段を更に備え、
該入力受付手段が、前記文字列認識結果の選択に係る入力を受け付けると、前記表示手段は、前記修正候補を前記表示順に従い表示する、
請求項1から10の何れか一項に記載の情報処理装置。
【請求項12】
前記認識結果取得手段は、
前記文書を読み取ることで得られた文書画像を文字認識した結果である文書データを取得する文書データ取得手段と、
該文書データ内の入力領域を指定することで、該入力領域に含まれる、認識対象である前記文字列についての前記認識結果である前記文字列認識結果を取得する認識結果抽出手段と、
を備える、
請求項1から11の何れか一項に記載の情報処理装置。
【請求項13】
前記認識結果抽出手段は、前記文字列認識結果に係る認識対象が属する項目に基づき、前記入力領域を指定することで、該項目に該当する前記文字列認識結果を取得する、
請求項12に記載の情報処理装置。
【請求項14】
前記文字列認識結果に係る認識対象が属する項目に基づき、前記修正候補記憶手段から、該文字列認識結果に対する修正候補を抽出する修正候補抽出手段を更に備える、
請求項1から13の何れか一項に記載の情報処理装置。
【請求項15】
コンピューターが、
文書に記載された1以上の文字から構成される文字列についての認識結果である文字列認識結果を取得する認識結果取得ステップと、
前記文字列認識結果の修正候補となり得る文字列を1以上記憶する修正候補記憶ステップと、
前記文字列認識結果に対する各修正候補について、該修正候補と該文字列認識結果とを一致させるための各編集操作に係る編集コストを加算することで得られる該修正候補と該文字列認識結果との編集距離を、該修正候補と該文字列認識結果との類似度として算出する類似度算出ステップと、
前記編集距離に基づき前記修正候補の表示順を決定する表示制御ステップと、
前記修正候補を前記表示順に従い表示する表示ステップと、を実行し、
前記認識結果取得ステップは、認識対象である前記文字列の各文字について、文字認識時の認識候補である文字候補を更に取得し、
前記類似度算出ステップは、認識対象である前記文字列中の各文字についての文字候補と前記修正候補とを比較することで、前記編集距離を出し、
前記類似度算出ステップは、前記各編集操作に係る編集コストを加算していく中で加算された編集コストが所定の閾値を超えた場合、それ以上前記編集コストを加算する処理を行わないよう、前記編集距離の算出を中止する、
修正候補表示方法。
【請求項16】
コンピューターを、
文書に記載された1以上の文字から構成される文字列についての認識結果である文字列認識結果を取得する認識結果取得手段と、
前記文字列認識結果の修正候補となり得る文字列を1以上記憶する修正候補記憶手段と、
前記文字列認識結果に対する各修正候補について、該修正候補と該文字列認識結果とを一致させるための各編集操作に係る編集コストを加算することで得られる該修正候補と該文字列認識結果との編集距離を、該修正候補と該文字列認識結果との類似度として算出する類似度算出手段と、
前記編集距離に基づき前記修正候補の表示順を決定する表示制御手段と、
前記修正候補を前記表示順に従い表示する表示手段と、として機能させるためのプログラムであって、
前記認識結果取得手段は、認識対象である前記文字列の各文字について、文字認識時の認識候補である文字候補を更に取得し、
前記類似度算出手段は、認識対象である前記文字列中の各文字についての文字候補と前記修正候補とを比較することで、前記編集距離を出し、
前記類似度算出手段は、前記各編集操作に係る編集コストを加算していく中で加算された編集コストが所定の閾値を超えた場合、それ以上前記編集コストを加算する処理を行わないよう、前記編集距離の算出を中止する、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、文字列の認識結果を修正するための技術に関する。
【背景技術】
【0002】
従来、確認修正のために必要となる入力パターン情報、パターンの特徴、認識結果および認識結果の候補情報等の認識情報を保存しておく認識情報格納部と、前記認識情報に対し、オペレータが修正した修正情報をも付加して履歴情報として保存しておく履歴情報格納部と、前記履歴情報の中から確認修正の作業に有効な補完情報をオペレータに提示するための履歴情報処理部を備え、前記認識情報と補完情報とを同時に表示して確認修正に供することを特徴とするパターン認識装置が提案されている(特許文献1を参照)。
【0003】
また、従来、所定カテゴリーを有する記入フィールドに記入された入力文字列を構成する文字を認識する文字認識方法であって、入力文字列と特定文字標準パターン辞書との間で第1のマッチング処理が実行されることにより、入力文字列中から特定文字又は特定文字列が抽出され、次に、所定カテゴリーに属し、かつ入力文字列中から抽出された各特定文字又は特定文字列の前後の入力文字列中の領域に位置する可能性のある候補単語群が特定文字辞書及びそれにリンクする知識辞書から抽出され、そして、候補単語群に属する各候補単語毎に、その各候補単語に関する情報に基づいてそれが位置する入力文字列中の各領域に対して標準パターン辞書を用いて第2のマッチング処理が実行されることにより、入力文字列を構成する文字が認識される方法が提案されている(特許文献2を参照)。
【0004】
また、従来、帳票を光学的に読み取って得られた帳票の画像から文字を読み取る帳票読取装置であって、画面制御部、文字認識部、認識履歴記憶部、認識制御部を備え、画面制御部は帳票の画像と画像から文字認識した結果の文字とが表示される表示欄を有する画面を表示し、文字認識部は帳票の画像の指定されたエリアを文字認識し、認識履歴記憶部には文字認識の結果が認識履歴として記憶され、認識制御部は文字認識部により文字認識された文字と一致する文字および類似度が一定値以上の認識結果の文字データ候補を認識履歴記憶部より検索し、表示欄および表示欄近傍に表示する帳票読取装置が提案されている(特許文献3を参照)。
【0005】
また、従来、住所認識処理が、文字分離処理と、キー文字抽出処理と、一括地名認識処理と、住所決定処理とを含み、キー文字抽出処理は、複数の単一文字領域からキー文字を抽出し、単一文字領域の各々に対するキー文字抽出処理は、単一文字領域に対応する画像から特徴ベクトルを抽出する特徴ベクトル抽出処理と、特徴ベクトル抽出処理により抽出された特徴ベクトルと、すべてのあり得るキー文字を記憶したキー文字辞書におけるキー文字の特徴ベクトルとを照合し、すべてのあり得るキー文字候補を検索する照合処理と、照合処理により検索された1つ以上のキー文字候補をそれぞれ有する複数の単一文字領域を認識する場合に、正当なキー文字パスを決定するキー文字パス決定処理と、を含む、住所認識方法が提案されている(特許文献4を参照)。
【0006】
さらに、従来、文字列を撮影した画像上の文字区間を検出して文字区間に対応するパスの集合である候補文字ラティスを求め、パスごとに候補文字を少なくとも一つ求め、互いに排他的なパスが排他的でなくなるように修正した候補文字ラティスにおいて連続するパスに含まれる候補文字の組み合わせと少なくとも一部が一致する単語を検出してその単語の位置を表す単語パスを候補文字ラティスに追加し、検出された単語の評価値を求め、文字列全体に対応する一列に連続した単語パス及びパスの配列のうちで評価値の合計値が最も高い配列に含まれる単語と候補文字の組み合わせを画像上の文字列として推定することをコンピュータに実行させる文字認識用コンピュータプログラムが提案されている(特許文献5を参照)。
【先行技術文献】
【特許文献】
【0007】
【文献】特開平5-108867号公報
【文献】特開平11-120293号公報
【文献】特開2015-90625号公報
【文献】特開2007-42097号公報
【文献】特開2013-97590号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
従来、帳票等の文書に記載されている内容をシステム等に入力するデータエントリー業務(以下、データエントリー業務を「エントリー業務」と称する)を行う際、文書をOCR(Optical Character Recognition、光学文字認識)により読み取ることで、効率良くエントリー業務が行われている。
【0009】
しかし、このようなOCRによる文字認識では、実際の文字と一致しない場合(誤読)や文字を判別できない場合(未読)があるため、エントリー業務を行うユーザは、認識対象である文字列についての認識結果の確認及び修正作業を行う必要があった。例えば、ユーザは、目視で認識結果内の誤読文字を確認し、誤読文字までカーソルを移動した上で、文字の修正を行う(誤読文字を削除し、正しい文字を入力する)といった作業を、誤読文字が出現する度に行う必要があり、エントリー業務に多くの時間が費やされていた。
【0010】
本開示は、上記した問題に鑑み、文字列の認識結果を修正する手間を軽減することを課題とする。
【課題を解決するための手段】
【0011】
本開示の一例は、文書に記載された1以上の文字から構成される文字列についての認識結果を取得する認識結果取得手段と、前記文字列認識結果の修正候補となり得る文字列を1以上記憶する修正候補記憶手段と、前記文字列認識結果に対する各修正候補について、該文字列認識結果との類似度を算出する類似度算出手段と、該類似度に基づき前記修正候補の表示順を決定する表示制御手段と、前記修正候補を前記表示順に従い表示する表示手段と、を備え、前記認識結果取得手段は、前記文書に記載された各文字について、文字認識時の認識候補である文字候補を更に取得し、前記類似度算出手段は、認識対象である前記文字列中の各文字についての文字候補と前記修正候補とを比較することで、前記類似度を算出する、情報処理装置である。
【0012】
本開示は、情報処理装置、コンピューターによって実行される方法またはコンピューターに実行させるプログラムとして把握することが可能である。また、本開示は、そのようなプログラムをコンピューター、その他の装置、機械等が読み取り可能な記録媒体に記録したものとしても把握できる。ここで、コンピューター等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的または化学的作用によって蓄積し、コンピューター等から読み取ることができる記録媒体をいう。
【発明の効果】
【0013】
本開示によれば、文字列の認識結果を修正する手間を軽減することが可能となる。
【図面の簡単な説明】
【0014】
図1】実施形態に係るシステムの構成の概略を示す図である。
図2】実施形態に係る情報処理装置の機能構成の概略を示す図である。
図3】実施形態に係る文字候補に対する重み付け値決定例を示す図である。
図4】実施形態に係る文字列認識結果と正しい修正候補との編集距離の算出に用いるDPマトリクスの概要を示す図である。
図5】実施形態に係る文字列認識結果と間違った修正候補との編集距離の算出に用いるDPマトリクスの概要を示す図である。
図6】実施形態に係る修正候補表示処理の流れの概要を示すフローチャートである。
図7】実施形態に係る確認画面の概略を示す図である。
図8】実施形態に係る類似度算出処理の流れの概要を示すフローチャートである。
図9】第一のバリエーションに係るシステムの構成の概略を示す図である。
図10】第一のバリエーション係る情報処理装置の機能構成の概略を示す図である。
【発明を実施するための形態】
【0015】
以下、本開示に係る情報処理装置、修正候補表示方法及びプログラムの実施の形態を、図面に基づいて説明する。但し、以下に説明する実施の形態は、実施形態を例示するものであって、本開示に係る情報処理装置、修正候補表示方法及びプログラムを以下に説明する具体的構成に限定するものではない。実施にあたっては、実施の態様に応じた具体的構成が適宜採用され、また、種々の改良や変形が行われてよい。
【0016】
本実施形態では、本開示に係る情報処理装置、修正候補表示方法及びプログラムを、OCRにより文字認識された帳票に係る文字列認識結果を修正する情報処理装置において実施した場合の実施の形態について説明する。但し、本開示に係る情報処理装置、修正候補表示方法及びプログラムは、文字の認識結果を修正するための技術について広く用いることが可能であり、本開示の適用対象は、本実施形態において示した例に限定されない。
【0017】
<システムの構成>
図1は、本実施形態に係るシステムの構成の概略を示す図である。本実施形態に係るシステムは、情報処理装置1、文書読取装置8及び文字認識装置9を備える。
【0018】
情報処理装置1は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、EEPROM(Electrically Erasable and Programmable Read Only Memory)やHDD(Hard Disk Drive)等の記憶装置14、NIC(Network Interface Card)等の通信ユニット15、キーボードやタッチパネル等の入力デバイス16及びディスプレイやスピーカー等の出力デバイス17、等を備えるコンピューターである。但し、情報処理装置1の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、情報処理装置1は、単一の筐体からなる装置に限定されない。情報処理装置1は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。
【0019】
情報処理装置1は、後述する文書読取装置8に接続された文字認識装置9と接続され、文字認識装置9から、文書を読み取ることで得られた文書画像を文字認識した結果である文書データ(帳票データ)を取得する。本実施形態では、文書読取装置8で読み取られる文書を帳票とするが、これに限定されるものではなく、帳票以外の文書を読み取り対象としてもよい。また、情報処理装置1は、文字認識時の文字候補に係るデータについても文字認識装置9から取得する。
【0020】
文書読取装置8は、文書を読み取り、文書のイメージ(文書画像)を取得する装置であり、文字認識(OCR)機能を有するスキャナや複合機に例示される。なお、後述するが、文書読取装置8は、文書イメージを取得可能であれば、これらに限定されるものではなく、OCR機能を有さないスキャナや複合機であってもよく、また、デジタルカメラやスマートフォン等の撮像装置であってもよい。文書読取装置8は、帳票を読み取り、読み取り結果である帳票イメージ(帳票画像)を、通信ユニット(図示省略)を介して文字認識装置9に送信する。
【0021】
文字認識装置9は、CPU91、ROM92、RAM93、EEPROMやHDD等の記憶装置94及びNIC等の通信ユニット95、等を備えるコンピューターである。但し、文字認識装置9の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、文字認識装置9は、単一の筐体からなる装置に限定されない。文字認識装置9は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。
【0022】
文字認識装置9は、記憶装置94にOCRソフトウェアを記憶し、当該プログラムがRAM93に読み出され、CPU91によって実行されることで、文字認識(OCR)処理を実行する。具体的には、文字認識装置9は、文書読取装置8から文書イメージ(帳票イメージ)を取得すると、文書イメージに対して文字認識(OCR)を行うことで、文書に印字または手書きされた各文字を文字認識した結果である文書データ(帳票データ)を取得する。文書の認識結果である文書データは、文書に記載された各文字についての文字認識結果を含むものであれば、認識対象である当該文書と同様のフォーマットにより構成されるか否かは問わない。また、文書データは、コンピューターで編集可能な文字データ(電子データ)であり、WordファイルやExcelファイル等に例示される。なお、文字認識処理は、AI(Artificial Intelligence)を用いた文字認識処理であってもよい。
【0023】
ここで、文字認識(OCR)処理では、文書に記載された文字毎に、文字認識に係る認識候補である文字候補が複数選出され(索出され)、これら複数の文字候補の中から最も信頼度の高いものが最終的な文字認識結果として決定されることが一般的である。ここで、信頼度は、認識対象である文字に対する、当該文字についての認識結果(文字認識結果)の認識の確からしさを表す尺度である。具体的には、信頼度は、文字認識による文字認識結果をどれ程信頼して良いかを表す尺度であり、「単語信頼度」や「確信度」等と呼ばれる。信頼度は、例えば、0.0~1.0の範囲にある数値で示され、数値が0.0に近い程、その文字認識結果を信頼できる度合いが下がり、数値が1.0に近い程、その文字列認識結果を信頼できる度合いが上がる。
【0024】
例えば、帳票イメージ中の「千葉県浦安市」に対して文字認識が行われた結果、二文字目の「葉」が「業」と誤読される場合がある。これは、帳票イメージ中の「葉」に対する文字候補として、文字認識装置9が記憶する辞書等から、「業」、「葉」、「叢」、「棄」、「茎」等が選出され、これらの文字候補のうち最も信頼度が高い文字(文字候補第一位)が「業」であると判定されたためである。また、文字認識処理では、文字候補第二位が「葉」、文字候補第三位が「叢」、文字候補第四位が「棄」、文字候補第五位が「茎」等と、文字候補各々について信頼度の高い順に候補順位(優先順位)が決定される。
【0025】
本実施形態では、文字認識装置9は、文書に記載された各文字について、上述のように最終的な文字認識結果を決定する際に候補となった文字である文字候補を取得する。なお、文字候補は、最終的な文字認識結果である文字をも含む。例えば、上述の「千葉県浦安市」の例では、帳票イメージ中の「葉」に対する文字候補は、最終的な文字認識結果である「業」と、最終的な文字認識結果として採用されなかった「葉」、「叢」、「棄」、「茎」を含む。そして、文字認識装置9は、当該文字候補に係るデータを帳票データと併せて情報処理装置1へ送信する。なお、この文字候補に係るデータは、認識の確からしさに係る情報も含む。また、取得される文字候補は、文字毎に複数ある場合以外にも、1つの文字候補しかない場合や文字が認識出来ず文字候補がない場合(認識結果が「空白」となる場合)であってもよい。また、文字認識装置9は、文書読取装置8から取得した帳票イメージを、情報処理装置1へ送信する。
【0026】
なお、本実施形態において、文字認識装置9は、帳票イメージを、ネットワークを介して文書読取装置8から取得するが、これに限られるものではない。例えば、文字認識装置9は、USB(Universal Serial Bus)ポートやSDメモリーカード(Secure Digital memory card)スロット等を介して、デジタルカメラおよびスマートフォンにより撮影された撮影画像やJPEG、PNG等の画像ファイルを読み込むことで、帳票イメージを取得するようにしてもよい。この場合、本実施形態に係るシステムは、文書読取装置8を必ずしも備えなくてもよい。
【0027】
図2は、本実施形態に係る情報処理装置1の機能構成の概略を示す図である。情報処理装置1は、記憶装置14に記録されているプログラムが、RAM13に読み出され、CPU11によって実行されて、情報処理装置1に備えられた各ハードウェアが制御されることで、認識結果取得部21、文書イメージ取得部22、修正候補記憶部23、修正候補抽出部24、類似度算出部25、表示制御部26、表示部27及び入力受付部28を備える情報処理装置として機能する。なお、本実施形態及び後述する他のバリエーションでは、情報処理装置1の備える各機能は、汎用プロセッサであるCPU11によって実行されるが、これらの機能の一部または全部は、1または複数の専用プロセッサによって実行されてもよい。
【0028】
認識結果取得部21は、文書(文書イメージ)に記載された1以上の文字から構成される文字列についての認識結果を取得し、RAM13等に記憶する。具体的には、認識結果取得部21は、帳票が有する項目(入力項目)毎に、認識対象である文字列(入力内容)についての認識結果を取得する。また、認識結果取得部21は、文書に記載された各文字について、文字認識時の認識候補である文字候補を取得する。なお、本実施形態で「文字列」とは、1つの文字から構成される単位及び複数の文字から構成される単位を示す。認識結果取得部21は、認識データ受信部21Aと認識結果抽出部21Bを備える。
【0029】
認識データ受信部21Aは、通信ユニット15を介して、文字認識装置9から、文書を読み取ることで得られた文書画像を文字認識した結果である文書データ(帳票データ)及び文字候補に係るデータを取得する。
【0030】
認識結果抽出部21Bは、帳票が有する入力項目に係る入力領域を指定することで、当該入力項目毎の文字列認識結果を抽出(取得)する。具体的には、帳票データが、項目名や入力項目毎に割り振られた項目コードと認識結果とが対応づく形で構成されている場合、認識結果抽出部21Bは、帳票の入力項目名や項目コード等に基づき帳票データ内を検索することで、入力項目に対応する入力内容についての文字列認識結果を抽出する。入力項目(記載項目)は、帳票に入力(記載)される項目であり、「住所」、「名前」、「銀行名」、「銀行口座種別」等の、認識対象である文字列が属する項目である。
【0031】
認識結果抽出部21Bは、例えば、帳票データから、入力項目「住所」に対応する入力内容の文字列認識結果として「干業県蒲完市」を抽出する。このように、認識結果取得部21は、帳票データを取得し、取得した帳票データから、帳票に記載された文字列についての文字列認識結果を取得することが出来る。なお、文字列認識結果は、認識対象である文字列に含まれる各文字についての文字認識候補第一位の文字からなる文字列である。つまり、文字列認識結果は、文字候補第一位の文字から構成される文字列である。
【0032】
文書イメージ取得部22は、通信ユニット15を介して、文字認識装置9から、文書読取装置8において読み取られた文書イメージ(帳票イメージ)を受信(取得)する。
【0033】
修正候補記憶部23は、文書に記載された認識対象である文字列に係る認識結果の修正候補となり得る文字列を1以上記憶する。文字列認識結果に対する修正候補には、以前認識結果の修正の際にユーザが入力した文字列の履歴(入力履歴)や、ユーザ等により予め設定された辞書に含まれる文字列が用いられる。修正候補記憶部23は、修正候補として、これらユーザの入力履歴や辞書に含まれるデータ(文字列)を情報処理装置1の揮発性のメモリ(本実施形態では、RAM13)に記憶する。
【0034】
また、修正候補記憶部23は、認識対象が属する項目(入力項目)に応じた適切な修正候補を設定可能である。具体的には、修正候補記憶部23は、帳票の入力項目(項目種別)毎に修正候補を記憶することで、認識対象である文字列が属する項目に応じた適切な修正候補を設定できる。修正候補記憶部23は、例えば、帳票の入力項目「住所」に対応付けて、「千葉県浦安市」、「愛知県蒲郡市」等の修正候補を記憶することにより、入力項目「住所」に係る文字列認識結果「干業県蒲完市」に対して、「千葉県浦安市」、「愛知県蒲郡市」等の修正候補を表示(提示)することが出来る。
【0035】
修正候補抽出部24は、認識結果抽出部21Bで取得された文字列認識結果に係る認識対象が属する項目に基づき、修正候補記憶部23から、文字列認識結果に対する修正候補を抽出する。例えば、認識結果抽出部21Bが、帳票データから、入力項目「住所」に対応する文字列認識結果として「干業県蒲完市」を取得した場合、修正候補抽出部24は、文字列認識結果「干業県蒲完市」が属する入力項目である「住所」に基づき、修正候補記憶部23から、修正候補を取得する。修正候補記憶部23には、入力項目「住所」に対応付けて、修正候補「千葉県浦安市」、「愛知県蒲郡市」等が記憶されているため、修正候補抽出部24は、入力項目「住所」に基づき、修正候補として「千葉県浦安市」、「愛知県蒲郡市」等を抽出することが出来る。
【0036】
類似度算出部25は、文字列認識結果に対する各修正候補について、修正候補と文字列認識結果との類似度を算出する。類似度は、二つの対象の似ている度合いを表す尺度であり、本実施形態では、修正候補と文字列認識結果との類似度として、修正候補と文字列認識結果との編集距離(レーベンシュタイン距離)が算出される。
【0037】
ここで、編集距離とは、二つの文字列がどの程度異なっているか(似ているか)を示す距離である。具体的には、一方の文字列Sをもう一方の文字列Tと同じ文字列に変形するために必要となる編集操作の最小回数である。編集操作には、挿入(Sの中に一文字を挿入)、削除(Sの中の一文字を削除)、置換(Sの中の一文字を別の一文字で置き換える)の三つの操作がある。修正候補と文字列認識結果との編集距離を算出した結果、編集距離が近い(値が小さい)場合には、両者の類似度が高く、編集距離が遠い(値が大きい)場合には、両者の類似度は低いと判定される。なお、三つの編集操作「挿入」、「削除」、「置換」の編集コストを全て1としてもよいし、それぞれ別々の値を設定してもよい。本実施形態では、三つの編集操作の編集コストは全て同じ値(1)であることを前提とするが、これに限定されるものではない。以下、編集距離の算出方法について説明する。
【0038】
<編集距離の算出方法(一般的な算出方法)>
従来、ユーザの過去の入力内容の履歴から、OCRによる認識結果と類似度の高いものを修正候補としてリスト表示し、その中からユーザに選択させることで、エントリー業務に係る手間を軽減する方法も考えられるが、この方法では、OCRによる認識結果と修正候補となる文字列との類似度を、単なる文字列比較により算出しているに過ぎないため、適切な表示順(認識対象である正しい文字列に類似した表示順)で修正候補がリスト表示されず、認識結果である文字列の修正に手間が生じる場合があるという問題があった。以下、具体例により、この従来の一般的な類似度(編集距離)の算出方法を説明する。
【0039】
一般的な編集距離の算出方法では、OCRによる最終的な文字認識結果と修正候補についての単なる文字列比較により、両者間の編集距離が算出される。以下、一般的な編集距離の算出例として、帳票(帳票イメージ)に記載された実際の文字列(正解の文字列)である「千葉県浦安市」に対して、殆どの文字を誤読した結果、「干業県蒲完市」と認識された場合を例示する。また、修正候補としては、「千葉県浦安市」、「愛知県蒲郡市」を例示する。
【0040】
修正候補「千葉県浦安市」と文字列認識結果「干業県蒲完市」とを比較した場合、両者は、三文字目の「県」と六文字目の「市」の二文字しか一致していないため、四回の置換操作を必要とし、編集距離は「4」と算出される。一方、修正候補「愛知県蒲郡市」と文字列認識結果「干業県蒲完市」とを比較した場合、三文字目の「県」と、四文字目の「蒲」と、六文字目の「市」の三文字が一致しているため、三回の置換操作を必要とし、編集距離は「3」と算出される。つまり、認識対象である実際の文字列(正解の文字列)に該当する修正候補「千葉県浦安市」よりも、修正候補「愛知県蒲郡市」の方の編集距離が小さくなってしまう。よって、この一般的な編集距離の算出方法では、正解の文字列に該当する修正候補「千葉県浦安市」よりも、修正候補「愛知県蒲郡市」の方が、類似度が高いと判定されてしまう。そのため、類似度の高い順に修正候補を表示する場合、修正候補「愛知県蒲郡市」の方が上位に表示され、正解の文字列である修正候補「千葉県浦安市」が上位に表示されなくなってしまう。
【0041】
<編集距離の算出方法(文字候補を用いた算出方法)>
本実施形態では、類似度算出部25は、上述のように、最終的な文字認識結果と修正候補との単なる文字列比較を行うのではなく、認識対象である文字列中の各文字についての文字候補と修正候補とを比較することで、編集距離を算出する。つまり、類似度算出部25は、OCR認識時の各文字についての文字候補も加味した編集距離を算出する。
【0042】
具体的には、類似度算出部25は、前記比較を行い、認識対象である文字列中の文字についての文字候補のいずれかと、当該文字に対応する修正候補中の文字とが一致するか否かを判定する。なお、認識対象である文字列中の文字に対応する修正候補中の文字とは、前記比較を行う際に、認識対象である文字列中の文字の認識結果である文字認識結果と比較対象となる修正候補中の文字である。
【0043】
例えば、認識対象の文字列が「千葉県浦安市」、文字列認識結果が「干業県蒲完市」、二文字目の「葉」についての文字候補が「業」、「葉」、「叢」、「棄」、「茎」、修正候補が「千葉県浦安市」である場合を考える。この場合、文字列認識結果と修正候補との編集距離を算出する際に、認識対象である文字列中の二文字目の「葉」についての文字候補「業」、「葉」、「叢」、「棄」、「茎」のいずれかと、当該二文字目の「葉」に対応する修正候補中の文字「葉」とが一致するか否かを判定する。類似度算出部25は、この判定を、認識対象である文字列中の各文字について実行する。
【0044】
そして、類似度算出部25は、上述した判定の結果、修正候補を構成する文字が文字候補のいずれかと一致する場合に、当該修正候補の文字列認識結果との類似度が高くなるよう、類似度を算出する。この際、類似度算出部25は、一致した文字候補の、認識対象である文字列中の文字に対する認識の確からしさに応じた重み付け値を用いることで、類似度を算出する。類似度算出部25は、重み付け値決定部25Aを備える。
【0045】
重み付け値決定部25Aは、文字候補である各々の文字について、認識対象である文字列中の文字に対する認識の確からしさに応じた重み付け値を決定する。なお、本実施形態において、重み付け値は、編集距離を算出する際の文字の置換に係る編集距離(コスト)に付与するものである。ここで、文字候補の認識の確からしさは、文字候補の優先順位(候補順位)や信頼度等であり、重み付け値決定部25Aは、一致した文字候補の優先順位又は信頼度に基づき、重み付け値を決定する。
【0046】
図3は、本実施形態に係る文字候補に対する重み付け値決定例を示す図である。図3には、帳票イメージに含まれる「葉」の切り取り画像と、帳票イメージに含まれる「葉」を認識した結果、認識候補となった文字候補「業」、「葉」、「叢」、「棄」、「茎」を示す。重み付け値決定部25Aは、文字認識装置9から取得した、これら文字候補の各々についての認識の確からしさ(信頼度等)に基づき、重み付け値を決定する。例えば、重み付け決定部25Aは、図3に示されるように、文字候補第一位から第五位の文字「業」、「葉」、「叢」、「棄」、「茎」各々に対して、重み付け値「0」、「0.1」、「0.2」、「0.3」、「0.4」を決定する。
【0047】
このように、重み付け決定部25Aは、信頼度(文字候補順位)が高いほど重み付け値が小さくなるように重み付け値を決定する。これより、修正候補中の文字と一致する文字候補の信頼度等が高いほど、当該文字についての編集距離(コスト)が小さくなる。重み付け値は、図3のような候補順位(優先順位)に比例した値や、図3に示した「0.1」等の大きさに限られるものではなく、文字認識時に文字候補各々について得られる信頼度に基づく値(例えば、信頼度の逆数)等であってもよい。なお、類似度算出に用いる文字候補の数(文字候補順位何位までを使用するか)は、任意に設定可能である。
【0048】
ここで、類似度算出部25は、編集距離を求めるにあたりDP(ダイナミックプログラミング)と呼ばれる、一つの問題を複数の問題に分割し、分割した問題の計算結果を記録しながら問題を解いていく手法を用いる。以下、文字候補を用いた編集距離の算出例を示す。なお、本算出例においても、一般的な編集距離の算出例と同様に、実際の文字列「千葉県浦安市」に対する文字列認識結果「干業県蒲完市」及び修正候補「千葉県浦安市」、「愛知県蒲郡市」について考える。
【0049】
図4は、本実施形態に係る文字列認識結果と正しい修正候補との編集距離の算出に用いるDPマトリクスの概要を示す図である。本マトリクスを用いて、文字候補を加味した、文字列認識結果「干業県蒲完市」と修正候補「千葉県浦安市」との編集距離の算出例を説明する。ここで、本算出例における文字候補は、認識対象に含まれる各文字につき三個(文字候補第一位、第二位、第三位)まで使用することとし、文字候補第一位には重み付け値「0」が、文字候補第二位には重み付け値「0.1」が、文字候補第三位には重み付け値「0.2」が決定されている。
【0050】
文字列認識結果「干業県蒲完市」と修正候補「千葉県浦安市」とを比較した場合、三文字目の「県」と六文字目の「市」は一致するため、その編集コストは「0」である。一文字目、二文字目、四文字目、五文字目の文字は異なるため、置換操作が必要となり本来ならそれぞれ編集コストが「1」となるが、この置換操作についての編集コストに重み付け値を加味(付与)する。具体的には、修正候補中の一文字目、二文字目、四文字目、五文字目の文字は、それぞれ、対応する(比較対象となる)文字候補中の第二位の文字と一致するため、これらの文字についての編集コスト「1」に対して重み付け値「0.1」を付与(乗算)することで、それぞれの編集コストが「0.1」と算出される。よって、文字列認識結果「干業県蒲完市」と修正候補「千葉県浦安市」との間の編集距離は、第二位の文字候補との置換操作を四回行うことから、「0.4」と算出される。
【0051】
図5は、本実施形態に係る文字列認識結果と間違った修正候補との編集距離の算出に用いるDPマトリクスの概要を示す図である。本マトリクスを用いて、文字候補を加味した、文字列認識結果「干業県蒲完市」と修正候補「愛知県蒲郡市」との編集距離の算出例を説明する。なお、文字候補および文字候補についての重み付け値は、上述の場合と同様である。
【0052】
文字列認識結果「干業県蒲完市」と修正候補「愛知県蒲郡市」とを比較した場合、三文字目の「県」と四文字目の「蒲」と六文字目の「市」は一致するため、その編集コストは「0」である。一文字目、二文字目、五文字目の文字は異なり、更に、修正候補中の一文字目、二文字目、五文字目の文字は、それぞれ文字候補中に一致する文字がないため、一般的な編集距離の算出方法と同様に、置換操作に係る編集コストが「1」と算出される。よって、文字列認識結果「干業県蒲完市」と修正候補「愛知県蒲郡市」との間の編集距離は、通常の置換操作を三回行うことから、「3」と算出される。
【0053】
このように、文字列同士の比較を行う際は、文字が一致するか不一致かの二通りであるが、文字候補を用いた比較を行う際は、編集距離に、文字候補の位置(候補順位)や文字認識の類似度(信頼度)に応じた重みが付与される。上述の通り、文字候補を加味した編集距離を算出することで、正しい修正候補「千葉県浦安市」が、間違った修正候補「愛知県蒲郡市」よりも編集距離が小さく算出されるため、類似度が高いと判定され、修正候補の上位に表示することが可能となる。
【0054】
なお、類似度算出部25は、類似度算出時の閾値を設定することにより、例えば、文字列中の各文字についての編集コストを加算していく中で、当該閾値を超えた時点で、それ以上編集コストの加算処理を行わないよう、類似度算出を中止するようにしてもよい。この場合、類似度算出処理を途中で中止した修正候補については、ユーザに提示(表示)しないようにしてもよい。
【0055】
また、類似度算出部25は、編集距離を、修正候補の文字列を構成する文字数又は認識結果の文字列を構成する文字数により正規化し、この正規化された編集距離により表示順が決定されるようにしてもよい。例えば、類似度算出部25は、編集距離を、「修正候補の文字列を構成する文字数」と「認識結果の文字列を構成する文字数」とを比較し、文字数が多い方の文字数の値により除算することで、正規化された編集距離を算出するようにしてもよい。換言すると、編集距離を算出した二つの文字列(「修正候補の文字列」と「文字列認識結果の文字列」)において、長い方の文字列長で編集距離を除算することで、正規化を行う。例えば、文字列認識結果「千葉県浦安市」と二つの修正候補「千葉県」、「千葉県浦安市舞浜町」との間の編集距離は、どちらも「3」と算出される。一方、上述の正規化を行った正規化後の編集距離は、それぞれ、「0.5(=3/6)」、「0.375(=3/8)」と算出される。なお、編集距離の最大値は対象文字列の長い方の文字数に等しいため、正規化後の編集距離は0から1の範囲内の数値となる。このように、編集距離を正規化することで、修正候補「千葉県」より修正候補「千葉県浦安市舞浜町」の方が文字列認識結果「千葉県浦安市」との類似度が高い、等という人間の感覚に近い形で編集距離の比較が可能となる。
【0056】
表示制御部26は、類似度算出部25により算出された、各修正候補と文字列認識結果との類似度に基づき、修正候補の表示順を決定する。具体的には、表示制御部25は、算出された類似度が高い順(算出された編集距離が小さい順)に修正候補が表示されるよう、修正候補の表示順を決定する。つまり、表示制御部26は、文字列認識結果と類似している修正候補が先頭(上位)に表示されるように表示順を決定する。
【0057】
表示部27は、情報処理装置1における出力デバイス17を介して、種々の表示処理を実行する。表示部27は、例えば、ユーザが帳票に記載された文字列の認識結果を確認する画面等を生成し、ディスプレイ等の出力デバイス17を介して生成された画面を表示(出力)する。また、表示部27は、入力受付部28により、文字列認識結果の選択に係る入力を受け付けると、選択された文字列認識結果に対する修正候補を、表示制御部26により決定された表示順に従い表示する。つまり、表示部27は、算出された類似度の昇順に、修正候補を表示する。なお、表示部27は、帳票イメージから、認識対象に係る画像(切り取り画像)を取得し、文字列認識結果および修正候補と併せて表示する。つまり、表示部27は、文字列認識結果、修正候補および認識対象に係る画像等を表示するためのユーザインターフェース(UI、User Interface)である。
【0058】
入力受付部28は、マウス等の入力デバイス16を介して、ユーザから種々の入力を受け付ける。入力受付部28は、例えば、ユーザが確認または修正を行いたい項目がある場合等に、ユーザが文字列認識結果をマウス等により選択することで、文字列認識結果の選択に係る入力(選択する旨の入力)を受け付ける。また、入力受付部28は、例えば、ユーザが修正候補を確認し、当該修正候補の中に正しい文字列を確認、選択した場合等に、ユーザからの修正候補についての選択に係る入力を受け付ける。
【0059】
置換部29は、文書データ(帳票データ)から取得(抽出)した文字列認識結果を、ユーザが選択した修正候補に置き換える。置換部29は、RAM13に記憶された文字列認識結果を、入力受付部28により選択入力を受け付けたユーザ所望の修正候補(文字列)に置き換える。これより、ユーザが所望する正しい文字列が、文字列認識結果の代わりに確認画面に表示されるようになる。
【0060】
<処理の流れ>
次に、本実施形態に係る情報処理装置によって実行される処理の流れを、フローチャートを用いて説明する。なお、以下に説明するフローチャートに示された処理の具体的な内容及び処理順序は、本開示を実施するための一例である。具体的な処理内容および処理順序は、本開示の実施の形態に応じて適宜選択されてよい。
【0061】
図6は、本実施形態に係る修正候補表示処理の流れの概要を示すフローチャートである。本実施形態に係る修正候補表示処理は、情報処理装置1において、文字認識装置9から帳票イメージを文字認識した結果を受信したこと等を契機として実行される。
【0062】
ステップS101では、文字列認識結果及び文字候補が取得される。認識結果取得部21は、文字認識装置9から、帳票データ及び帳票(帳票イメージ)に記載の各文字についての文字候補を取得し、更に、帳票データから、認識を行った各項目についての文字列認識結果を取得する。また、認識結果取得部21は、取得した帳票データ、文字列認識結果および文字候補等をRAM13に記録する。その後、処理はステップS102へ進む。
【0063】
ステップS102では、帳票イメージが取得される。文書イメージ取得部22は、文書読取装置8により取得された帳票イメージを、文字認識装置9から取得する。また、文書イメージ取得部22は、取得された帳票イメージをRAM13に記録する。なお、ステップS101とステップS102は順不同であり、同時に行われるようにしてもよい。その後、処理はステップS103へ進む。
【0064】
ステップS103では、認識結果が表示される。表示部27は、帳票の各項目についての文字列認識結果の確認をユーザに促すための確認画面を生成し、情報処理装置1の出力デバイス17に表示する。この際、表示部27は、ステップS101で取得された各項目についての文字列認識結果を確認画面に表示する。また、表示部27は、ステップS102で取得された帳票イメージの中から、認識対象である各項目の文字列に係る帳票イメージを切り取り(抽出し)、対応する文字列認識結果と併せて確認画面に表示する。
【0065】
図7は、本実施形態に係る確認画面の概略を示す図である。確認画面には、図7に示されるように、帳票に記載された入力項目毎に、項目名71、認識対象に係る読み取り画像(切り取り画像)72、文字列認識結果73及び修正候補74等を含む。図7の例では、確認画面には、項目名「住所」、認識対象「千葉県浦安市」の読み取り画像、文字列認識結果「干業県蒲完市」及び修正候補「千葉県浦安市」、「千葉県船橋市」、「千葉県成田市」、「愛知県蒲郡市」等が表示される。なお、修正候補の表示については、ステップS107において実行される。その後、処理はステップS104へ進む。
【0066】
ステップS104では、文字列認識結果の選択に係る入力が受け付けられる。入力受付部28は、ユーザが確認または修正を行いたい項目がある場合等に、マウス等の入力デバイス16を介して、ユーザからの文字列認識結果の選択に係る入力を受け付ける。例えば、ユーザが、文字列認識結果のテキストボックス73をマウスでクリックすることで、文字列認識結果「干業県蒲完市」が選択され、文字列認識結果「干業県蒲完市」を選択する旨の入力が受け付けられる。その後、処理はステップS105へ進む。
【0067】
ステップS105では、各修正候補について、文字列認識結果との類似度が算出される。類似度算出部25は、文字列認識結果に対する各修正候補について、修正候補と文字列認識結果との類似度を算出する。例えば、類似度算出部25は、図4図5に示されるように、OCR認識時の各文字についての文字候補を加味した編集距離を算出する。本実施形態では、類似度算出部25は、例えば、修正候補「千葉県浦安市」についての編集距離を「0.4」、修正候補「愛知県蒲郡市」についての編集距離を「3」と算出する。なお、ステップS105の類似度算出処理の詳細については、後述する(図8)。その後、処理はステップS106へ進む。
【0068】
ステップS106では、算出された類似度に基づき、修正候補の表示順が決定される。表示制御部26は、ステップS105で算出された類似度に基づき、修正候補の表示順を決定する。表示制御部26は、例えば、算出された編集距離が小さい順(類似度が高い順)に修正候補が表示されるよう、修正候補の表示順を決定する。本実施形態では、表示制御部26は、編集距離が「0.4」である修正候補「千葉県浦安市」を、編集距離が「3」である修正候補「愛知県蒲郡市」よりも上位に表示されるよう、修正候補「千葉県浦安市」の表示順位を1位、修正候補「愛知県蒲郡市」の表示順位を7位等と表示順を決定する。その後、処理はステップS107へ進む。
【0069】
ステップS107では、修正候補が表示される。表示部27は、各修正候補を、ステップS106で決定された表示順に従いリスト表示する。本実施形態では、表示部27は、図7に示されるように、文字列認識結果の近傍(例えば、下部)に修正候補をリスト表示する。このように、ステップS104からステップS107の処理により、ユーザが確認、修正を行いたい文字列認識結果のテキストボックスをクリックすると、入力状態に移行し、当該文字列認識結果に対する修正候補がリスト表示される。その後、処理はステップS108へ進む。
【0070】
ステップS108では、文字列認識結果を修正するための修正候補が選択され、正しい認識結果として確定(置換)される。入力受付部28は、修正候補を確認したユーザから、ユーザの所望する修正候補についての選択に係る入力を受け付ける。入力受付部28は、例えば、ユーザがリスト表示された修正候補をマウスでクリックすることで、修正候補の選択に係る入力を受け付ける。そして、置換部29は、帳票データから抽出された文字列認識結果を、選択された修正候補に置換し、当該修正候補が正しい文字列認識結果として確定される。これより、ユーザが所望する正しい文字列が、文字列認識結果の代わりに確認画面に表示されるようになる。その後、本フローチャートに示された処理は終了する。
【0071】
図8は、本実施形態に係る類似度算出処理の流れの概要を示すフローチャートである。本実施形態に係る類似度算出処理は、図6におけるステップS104の処理(文字列認識結果の選択に係る入力受付)が行われたこと等を契機として実行される。
【0072】
ステップS1051では、文字列認識結果に対する修正候補が抽出される。修正候補抽出部24は、ステップS104で選択された文字列認識結果に係る認識対象が属する項目に基づき、修正候補記憶部23から、当該文字列認識結果に対する修正候補を1以上抽出する。本実施形態では、ステップS104で文字列認識結果「干業県蒲完市」を選択する旨の入力が受け付けられたことにより、修正候補抽出部24は、入力項目「住所」に基づいて、「千葉県浦安市」、「千葉県船橋市」、「千葉県成田市」、「愛知県蒲郡市」等の修正候補を、修正候補記憶部23から抽出する。その後、処理はステップS1052へ進む。
【0073】
ステップS1052では、重み付け値が決定される。重み付け値算出部25Aは、ステップS104で選択された文字列認識結果の認識対象である文字列について、当該文字列を構成する各文字についての文字候補を取得し、文字候補の各々の文字についての重み付け値を決定する。重み付け値算出部25Aは、例えば、図4図5に示されるように、文字候補第一位から第三位の文字候補各々について、候補順位(優先順位)に比例した重み付け値「0」、「0.1」、「0.2」を決定する。その後、処理はステップS1053へ進む。
【0074】
ステップS1053では、文字候補に基づく重み付け値を利用した編集距離(類似度)が算出される。類似度算出部25は、ステップS1051で抽出された各修正候補について、文字認識結果との類似度を算出する。類似度算出部25は、前述した通り、例えば、修正候補「千葉県浦安市」と文字列認識結果「干業県蒲完市」との間の編集距離を、「0.4」と算出する。また、類似度算出部25は、修正候補「愛知県蒲郡市」と文字列認識結果「干業県蒲完市」との間の編集距離を「3」と算出する。その後、本フローチャートに示された処理は終了する。
【0075】
上述した方法により、帳票を読み取り文字認識が行われると、認識対象の文字列に係る認識結果(文字列認識結果)に対して、適切な(最適な)修正候補をユーザに提示することが出来る。これより、ユーザは、提示された修正候補の中から正解の文字列を選択することが出来るため、認識結果を容易に修正することが可能となる。その結果、ユーザによる認識結果の確認、修正時の手間を軽減し、エントリー業務の効率を向上させることが可能となる。
【0076】
また、上述した方法により、修正候補と文字列認識結果との単純な文字列同士の比較により算出される類似度ではなく、文字認識時の文字候補の信頼度等に基づく重み付け値を用いた類似度を算出し、この算出された類似度に基づき修正候補の表示順を決定することで、修正候補を適切な順番で表示することが可能となる。つまり、認識対象である正しい文字列に類似する順に、修正候補を表示することが可能となる。
【0077】
具体的には、上述の一般的な編集距離の算出方法で示したように、一般的な類似度の算出方法によると、正解の文字列である「千葉県浦安市」の方が関係のない文字列である「愛知県蒲郡市」よりも編集距離が大きくなるため、正解の文字列ではなく関係のない修正候補が上位に表示されてしまう。この場合、ユーザが複数の修正候補の中から正解の文字列を見つけ出す手間や、正解の文字列が上位に表示されないためにユーザが直接文字を編集し修正する手間等が生じていた。
【0078】
一方、上述した、本実施形態に係る文字候補に基づく重み付け値を利用した編集距離の算出方法により、認識対象である正しい文字列に類似する順に、修正候補を表示することが可能となる。よって、例えば、正解である文字列「千葉県浦安市」を修正候補の上位に表示することが出来るため、ユーザの所望する最適な修正候補が見つかり易くなる。その結果、ユーザによる認識結果の確認、修正の手間を軽減することが可能となり、エントリー業務の効率(ユーザの修正効率)をより向上させることが可能となる。このように、文字認識時の文字候補を加味した類似度を算出することで、誤読した場合でも最適な修正候補を上位に表示することができるため、ユーザに対して誤読に強い方法を提供することが可能である。
【0079】
<第一のバリエーション>
次に、本開示に係る情報処理装置、修正候補表示方法及びプログラムのバリエーションを説明する。上記説明した実施形態では、文字認識装置9において、帳票イメージに対して文字認識処理を行っていた。これに対して、本バリエーションでは、情報処理装置1において、帳票イメージに対する文字認識処理が行われる。
【0080】
図9は、第一のバリエーションに係るシステムの構成の概略を示す図である。本バリエーションに係るシステムは、情報処理装置1及び文書読取装置8を備える。本バリエーションにおいて、情報処理装置1は、記憶装置14にOCRソフトウェアを記録し、当該プログラムがRAM13に読み出され、CPU11によって実行されることで、文字認識(OCR)処理を実行する。また、本バリエーションでは、上記説明した実施形態に係るシステムの構成と異なり、文字認識を行うための文字認識装置9は備えなくても良い。
【0081】
図10は、第一のバリエーション係る情報処理装置の機能構成の概略を示す図である。情報処理装置1は、記憶装置14に記録されているプログラムが、RAM13に読み出され、CPU11によって実行されて、情報処理装置1に備えられた各ハードウェアが制御されることで、認識結果取得部21、文書イメージ取得部22、修正候補記憶部23、修正候補抽出部24、類似度算出部25、表示制御部26、表示部27、入力受付部28及び置換部29を備える情報処理装置として機能する。なお、本バリエーションに係る情報処理装置1の機能構成については、上述した実施形態に係る機能構成と異なる部分についてのみ説明を行い、同様の機能構成については、説明を省略する。
【0082】
認識結果取得部21は、文書(文書イメージ)に記載された1以上の文字から構成される文字列(認識対象)についての認識結果を取得する。具体的には、認識結果取得部21は、帳票が有する入力項目毎に、認識対象である文字列の認識結果を取得する。また、認識結果取得部21は、文書に記載された各文字について、文字認識時の認識候補である文字候補に係るデータを取得する。認識結果取得部21は、文字認識部21C、認識用文字記憶部21D及び認識結果抽出部21Bを備える。
【0083】
文字認識部21Cは、文書イメージ取得部22により文書イメージ取得すると、後述する認識用文字記憶部21Dに記憶された認識用文字(文字変換辞書)を参照することで、文書イメージに対して文字認識を行うことで、文書に印字または手書きされた各文字を文字認識した結果である文書データを生成(取得)する。また、文字認識部21は、文書に記載された各文字について、最終的な文字認識結果を決定する際(文字認識の際)に候補となった文字である文字候補に係るデータを取得する。
【0084】
認識用文字記憶部21Dは、文字認識のための文字(仮名、漢字、ローマ字等)や記号を多数記憶する。認識用文字記憶部21Dにより記憶される文字の集合は、例えば文字変換辞書等に例示される。
【0085】
認識結果抽出部21Bは、文字認識部21Cで生成(取得)した帳票データ内の入力領域を指定することで、入力領域に含まれる、認識対象である文字列についての認識結果を取得する。認識結果抽出部21Bは、帳票が有する入力項目に係る入力領域を指定することで、当該入力項目毎の文字列認識結果を抽出(取得)する。
【0086】
文書イメージ取得部22は、通信ユニット15を介して、文書読取装置8において読み取られた帳票イメージを受信(取得)する。なお、本バリエーションにおいて、文書イメージ取得部22は、帳票イメージを、ネットワークを介して文書読取装置8から取得するが、これに限られるものではない。例えば、文書イメージ取得部22は、USB(Universal Serial Bus)ポートやSDメモリーカード(Secure Digital memory card)スロット等を介して、デジタルカメラおよびスマートフォンにより撮影された撮影画像や、JPEG、PNG等の画像ファイルを読み込むことで、帳票イメージを取得するようにしてもよい。そのため、情報処理装置1は、図9に挙げられたハードウェアに加え、帳票等の文書を撮像するデジタルカメラやスマートフォン等の撮像装置を備えるようにしてもよい。この場合、本実施形態に係るシステムは、文書読取装置8を必ずしも備えなくてもよい。
【0087】
このように、本バリエーションでは、情報処理装置1は、文書読取装置8により読み取られた文書イメージを取得し、当該文書イメージに対して文字認識を行うことで、文書に印字または手書きされた各文字を文字認識した結果である文書データ及び文書に記載された各文字についての文字候補に係るデータを取得する。
【0088】
<第二のバリエーション>
本バリエーションでは、複合機等の文書読取装置8において、帳票イメージに対する文字認識処理が行われる。また、本バリエーションでは、文字認識処理が文書読取装置8において行われるため、第一のバリエーションと同様に、文字認識を行うための文字認識装置9は備えなくても良い。また、同様に、情報処理装置1において、文字認識ソフトウェアを備える必要もない。なお、本バリエーションに係る情報処理装置1の機能構成については、上述した実施形態に係る機能構成(図2)と同様であるため、説明を省略する。本バリエーションにおいて、認識データ受信部21Aは、文書読取装置8から、帳票データ及び文字候補に係るデータを受信(取得)し、文書イメージ取得部22は、文書読取装置8から、帳票イメージを取得する。
【符号の説明】
【0089】
1 情報処理装置
21 認識結果取得部
21A 認識データ受信部
21B 認識結果抽出部
22 文書イメージ取得部
23 修正候補記憶部
24 修正候補抽出部
25 類似度算出部
25A 重み付け値決定部
26 表示制御部
27 表示部
28 入力受付部
29 置換部
8 文書読取装置
9 文字認識装置

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10