(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-01
(45)【発行日】2024-04-09
(54)【発明の名称】情報処理装置、及び情報処理プログラム
(51)【国際特許分類】
G06V 30/262 20220101AFI20240402BHJP
G06V 30/412 20220101ALI20240402BHJP
【FI】
G06V30/262
G06V30/412
(21)【出願番号】P 2019160685
(22)【出願日】2019-09-03
【審査請求日】2022-08-29
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】米田 祐司
【審査官】小池 正彦
(56)【参考文献】
【文献】特開2019-061550(JP,A)
【文献】特開2016-051339(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/262
G06V 30/412
G06V 30/42
(57)【特許請求の範囲】
【請求項1】
プロセッサを備え、
前記プロセッサは、
帳票
に対する文字認識結果を確認した結果である確認結果の文字列の記載
から、文字列の記載に関する規則性
を表した記載規則を
前記帳票の項目毎に抽出
し、
抽出された文字列の記載規則を前記帳票の項目毎に出力する
情報処理装置。
【請求項2】
前記プロセッサは、
文字列の記載規則の設定の有無によって変化する、文字認識での誤認識に伴って訂正が実施された訂正済み文字列の数の変化度合いを
テーブルに登録し、
前記テーブルを参照して、前記訂正済み文字列の数の変化度合いを文字列の記載規則と共に出力する
請求項1記載の情報処理装置。
【請求項3】
前記プロセッサは、出力した文字列の記載規則が前記帳票の項目に対して設定されることによって低下する前記訂正済み文字列の数の変化度合いを
前記テーブルに登録し、
前記テーブルを参照して、低下する前記訂正済み文字列の数の変化度合いを出力する
請求項2記載の情報処理装置。
【請求項4】
前記プロセッサは、出力した文字列の記載規則が前記帳票の項目に対して設定されなかったことによって訂正が行われた前記訂正済み文字列の数の度合いを
前記テーブルに登録し、
前記テーブルを参照して、訂正が行われた前記訂正済み文字列の数の度合いを出力する
請求項2記載の情報処理装置。
【請求項5】
前記プロセッサは、文字列の記載に関する規則性が抽出されるような分類属性に対して、文字列の記載規則を
前記帳票の項目毎に抽出し、
抽出された文字列の記載規則を前記帳票の項目毎に出力する
請求項1~請求項4の何れか1項に記載の情報処理装置。
【請求項6】
前記プロセッサは、前記確認結果の文字列から抽出した、複数の文字列の記載規則に有意差が認められるような前記分類属性についての文字列の記載規則を出力する
請求項5記載の情報処理装置。
【請求項7】
前記プロセッサは、前記帳票の項目に対して収集された前記確認結果の文字列の数によって、前記確認結果の文字列から文字列の記載に関する規則性が抽出されるか否かを特定する
請求項1~請求項6の何れか1項に記載の情報処理装置。
【請求項8】
前記プロセッサは、前記帳票の項目に対して収集された前記確認結果の文字列の数が、前記規則性が抽出される数として予め定めた数以上存在する場合に、前記確認結果の文字列の数が前記予め定めた数以上存在する項目に対する文字列の記載規則を出力する
請求項7記載の情報処理装置。
【請求項9】
前記プロセッサは、前記帳票の項目に対して収集された前記確認結果の文字列の数が、前記規則性が抽出される数として予め定めた数未満の場合、前記確認結果の文字列の数が前記予め定めた数未満である項目に対する文字列の記載規則を出力しないようにする
請求項7記載の情報処理装置。
【請求項10】
前記プロセッサは、前記帳票の項目に記載された文字列に対する訂正の度合いに応じて、前記帳票の項目に設定されている文字列の記載規則を変更するように促す変更通知を出力する
請求項1~請求項9の何れか1項に記載の情報処理装置。
【請求項11】
前記プロセッサは、前記帳票の項目における前記訂正の度合いが基準度合いから予め定めた度合い以上上昇した場合に、前記変更通知を出力する
請求項10記載の情報処理装置。
【請求項12】
前記プロセッサは、文字列の記載規則を設定した後の前記帳票の項目における前記訂正の度合いが、文字列の記載規則を設定する前の前記帳票の同じ項目における前記訂正の度合いから予め定めた範囲内に含まれる場合に、前記変更通知を出力する
請求項10記載の情報処理装置。
【請求項13】
コンピュータに、
帳票
に対する文字認識結果を確認した結果である確認結果の文字列の記載
から、文字列の記載に関する規則性
を表した記載規則を
前記帳票の項目毎に抽出
し、
抽出された文字列の記載規則を前記帳票の項目毎に出力させるための情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、及び情報処理プログラムに関する。
【背景技術】
【0002】
特許文献1には、用紙媒体上に記入され、光学的手段を用いて読み取られたそれぞれの文字を、文字単位に画素の集合として認識し、該画素の集合が表す文字と一致する正解文字となる可能性のある複数個の文字からなる第1候補文字群を、予め任意に設定された正解文字として抽出される確率の順位に出力する文字認識装置の認識候補文字出力制御方法において、該出力された第1候補文字群のそれぞれの文字の文字コードを、上記順位で記憶する認識候補文字格納手段と、該認識候補文字格納手段に記憶された第1候補文字群から正解文字として抽出された文字に関して、正解文字として抽出された総回数、及び、上記順位に対応した出現回数を記憶する第2候補文字記憶手段とを付与し、該第2候補文字記憶手段に記憶した上記総回数と出現回数に基づき、上記認識候補文字格納手段に記憶された候補文字列から、更に、正解文字として抽出される確率の高い第2候補文字群を選別するステップと、該選別した第2候補文字群から、人手を介して指定された正解文字を抽出するステップと、該正解文字の上記認識候補文字格納手段での出現順位を認識し、該正解文字の上記第2候補文字記憶手段における該出現順位に対応した出現回数と、正解文字として抽出された総回数とを訂正するステップとを含む文字認識装置の認識候補文字出力制御方法が開示されている。
【0003】
特許文献2には、用紙に記録された文字等を読取るために参照される書式制御情報を記憶するためのものであって、前記書式制御情報中の文字種を指定する情報が正規表現で表されている書式制御情報記憶手段と、前記書式制御情報記憶手段に記憶された書式制御情報中の正規表現を解析する正規表現解析手段と、前記正規表現解析手段による解析結果に基づいて、前記用紙に記録された文字等についての読取り結果を求める読取り手段と、を具備する文字認識装置が開示されている。
【0004】
特許文献3には、帳票の文字統計情報を作成する文字統計情報作成部と,文字の特徴を表す標準パターンをもつ標準パターン辞書と,文字統計情報をもとに標準パターン辞書の内容を変更する標準パターン辞書変更部と,認識対象の文字パターンと標準パターン辞書の標準パターンとを比較して該文字パターンの文字認識をする文字認識部と,文字認識の結果を出力する認識結果出力部とを備える文字認識装置が開示されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開平03-291777号公報
【文献】特開平06-36069号公報
【文献】特開平09-35006号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
OCR(Optical Character Recognition)処理による文字列の認識結果の確信度を高めるため、OCR処理での読み取り対象となる帳票を設計した帳票設計者は、ユーザが帳票の項目にどのような内容を記載するかを検討し、内容を表す文字列に何らかの記載規則が存在するか予測する。例えば、年齢を記入する項目であれば、ユーザによって数字が記入されることが予測されるため、予め年齢の項目に数字が記載されるといった記載規則を設定しておけば、OCR処理では当該記載規則に基づいて年齢の項目を数字として認識するようになる。したがって、例えば数字の“2”なのか英文字の“Z”なのかわからない曖昧な文字列が記載されていたとしても、数字の“2”として認識することになるため、記載規則を設定しない場合と比較して文字列の認識結果の確信度が高くなる。
【0007】
しかしながら、項目によってはユーザによってどのような文字列が記載されるのか予測困難なものが存在する。こうした場合、帳票設計者は帳票の項目に設定すべき記載規則を決めきれないため記載規則を設定しないことがあり、帳票の項目に対する記載規則の未設定によりOCR処理による文字列の認識結果における確信度が低下することがある。
【0008】
本発明は、どのような文字列が記載されるか、帳票設計者が予測できない帳票の項目であっても、帳票設計者が帳票の項目に対して文字列の記載規則を設定できるように支援することができる情報処理装置、及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
第1態様に係る情報処理装置は、プロセッサを備え、前記プロセッサは、帳票の項目において、前記帳票の文字認識結果を確認した結果である確認結果の文字列の記載に関する規則性が抽出される場合に、抽出された文字列の記載規則を前記帳票の項目毎に出力する。
【0010】
第2態様に係る情報処理装置は、第1態様に係る情報処理装置において、前記プロセッサは、文字列の記載規則と共に、文字列の記載規則の設定の有無によって変化する、文字認識での誤認識に伴って訂正が実施された訂正済み文字列の数の変化度合いを出力する。
【0011】
第3態様に係る情報処理装置は、第2態様に係る情報処理装置において、前記プロセッサは、出力した文字列の記載規則が前記帳票の項目に対して設定されることによって低下する前記訂正済み文字列の数の変化度合いを出力する。
【0012】
第4態様に係る情報処理装置は、第2態様に係る情報処理装置において、前記プロセッサは、出力した文字列の記載規則が前記帳票の項目に対して設定されなかったことによって訂正が行われた前記訂正済み文字列の数の度合いを、前記変化度合いとして出力する。
【0013】
第5態様に係る情報処理装置は、第1態様~第4態様の何れかの態様に係る情報処理装置において、前記プロセッサは、文字列の記載に関する規則性が抽出されるような分類属性に対して、文字列の記載規則を出力する。
【0014】
第6態様に係る情報処理装置は、第5態様に係る情報処理装置において、前記プロセッサは、前記確認結果の文字列から抽出した、複数の文字列の記載規則に有意差が認められるような前記分類属性についての文字列の記載規則を出力する。
【0015】
第7態様に係る情報処理装置は、第1態様~第6態様の何れかの態様に係る情報処理装置において、前記プロセッサは、前記帳票の項目に対して収集された前記確認結果の文字列の数によって、前記確認結果の文字列から文字列の記載に関する規則性が抽出されるか否かを特定する。
【0016】
第8態様に係る情報処理装置は、第7態様に係る情報処理装置において、前記プロセッサは、前記帳票の項目に対して収集された前記確認結果の文字列の数が、前記規則性が抽出される数として予め定めた数以上存在する場合に、前記確認結果の文字列の数が前記予め定めた数以上存在する項目に対する文字列の記載規則を出力する。
【0017】
第9態様に係る情報処理装置は、第7態様に係る情報処理装置において、前記プロセッサは、前記帳票の項目に対して収集された前記確認結果の文字列の数が、前記規則性が抽出される数として予め定めた数未満の場合、前記確認結果の文字列の数が前記予め定めた数未満である項目に対する文字列の記載規則を出力しないようにする。
【0018】
第10態様に係る情報処理装置は、第1態様~第9態様の何れかの態様に係る情報処理装置において、前記プロセッサは、前記帳票の項目に記載された文字列に対する訂正の度合いに応じて、前記帳票の項目に設定されている文字列の記載規則を変更するように促す変更通知を出力する。
【0019】
第11態様に係る情報処理装置は、第10態様に係る情報処理装置において、前記プロセッサは、前記帳票の項目における前記訂正の度合いが基準度合いから予め定めた度合い以上上昇した場合に、前記変更通知を出力する。
【0020】
第12態様に係る情報処理装置は、第10態様に係る情報処理装置において、前記プロセッサは、文字列の記載規則を設定した後の前記帳票の項目における前記訂正の度合いが、文字列の記載規則を設定する前の前記帳票の同じ項目における前記訂正の度合いから予め定めた範囲内に含まれる場合に、前記変更通知を出力する。
【0021】
第13態様に係る情報処理プログラムは、コンピュータに、帳票の項目において、前記帳票の文字認識結果を確認した結果である確認結果の文字列の記載に関する規則性が抽出される場合に、抽出された文字列の記載規則を前記帳票の項目毎に出力させるためのプログラムである。
【発明の効果】
【0022】
第1態様、及び第13態様によれば、どのような文字列が記載されるか、帳票設計者が予測できない帳票の項目であっても、帳票設計者が帳票の項目に対して文字列の記載規則を設定できるように支援することができる、という効果を有する。
【0023】
第2態様によれば、何れの文字列の記載規則を選択してよいかわからない場合であっても、設定することで変化する訂正済み文字列の数の変化度合いの観点から、帳票設計者が文字列の記載規則を選択できるように支援することができる、という効果を有する。
【0024】
第3態様によれば、設定することで低下していた訂正済み文字列の数の実績を参照して、帳票設計者が文字列の記載規則を選択できるようになる、という効果を有する。
【0025】
第4態様によれば、設定しなかったことで生じた文字列の訂正数の実績を参照して、帳票設計者が文字列の記載規則を選択できるようになる、という効果を有する。
【0026】
第5態様によれば、複数の分類属性において記載規則が存在する場合、同じ文字列に対して異なる分類属性の観点から定義した記載規則を出力することができる、という効果を有する。
【0027】
第6態様によれば、文字列の認識結果における確信度の向上に有効な記載規則だけを出力することができる、という効果を有する。
【0028】
第7態様によれば、収集された文字列の数の面から、抽出した記載規則の信頼性を担保することができる、という効果を有する。
【0029】
第8態様によれば、帳票の項目に対して収集された文字列の数が、記載規則の信頼性が統計的に担保されるだけの数に達していない状況で抽出した文字列の記載規則を設定する場合と比較して、文字列の認識結果における確信度を向上させることができる、という効果を有する。
【0030】
第9態様によれば、帳票設計者に信頼性が統計的に担保されていない文字列の記載規則を選択させないようにすることができる、という効果を有する。
【0031】
第10態様によれば、帳票の項目における記載傾向に変化があったことを帳票設計者に通知することができる、という効果を有する。
【0032】
第11態様によれば、文字列の訂正の度合いが上昇したことを帳票設計者に通知することができる、という効果を有する。
【0033】
第12態様によれば、設定した文字列の記載規則が文字列の認識結果における確信度の向上に寄与していないことを帳票設計者に通知することができる、という効果を有する。
【図面の簡単な説明】
【0034】
【
図1】情報処理装置の機能構成例を示すブロック図である。
【
図5】情報処理装置における電気系統の要部構成例を示す図である。
【
図6】抽出処理の一例を示すフローチャートである。
【
図7】出力処理の一例を示すフローチャートである。
【
図8】表示ユニットに表示される画面例を示す図である。
【
図9】表示ユニットに表示される他の画面例を示す図である。
【
図10】表示ユニットに表示される他の画面例を示す図である。
【
図11】抽出処理の変形例を示すフローチャートである。
【
図12】変更通知処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0035】
以下、本実施の形態について図面を参照しながら説明する。なお、同じ構成要素及び同じ処理には全図面を通して同じ符合を付与し、重複する説明を省略する。
【0036】
図1は、帳票の内容を光学的に読み取ることで生成された帳票の画像から読み取った文字列の認識結果を確認訂正した上で記憶装置に記憶し、記憶した文字列の確認訂正結果から文字列の記載パターンを抽出して出力する情報処理装置10の機能構成例を示すブロック図である。
【0037】
「帳票」とは、予め定められた書式に従って、特定の事柄についての情報が記載された書類のことであり、例えば項目毎に記載者が内容を記載する記載欄が含まれる。「項目」とは、例えば記載者の住所や名前といった記載欄に記入される内容を表す属性のことであり、項目は記載欄毎に記載されているタイトルによって識別される。記載欄に記載される文字列は、手書きであってもプリンタ等を用いた印字であってもよい。また、情報処理装置10で処理される帳票の種類に制約はなく、例えば申込書、契約書、及び問診表のように項目毎の記載欄が設けられ、記載者が項目に対応した内容を記載するようなものであればよい。
【0038】
以降では、記載者が帳票における項目の記載欄に記載した文字列のことを「項目に対応した文字列」ということがある。また、「文字列」とは、1文字以上の文字の連なりを意味する。
【0039】
図1に示すように、情報処理装置10は、読み取り部11、OCR認識部12、確認訂正部13、パターン抽出部14、及び出力部15の各機能部と、訂正情報DB(Database)16を含む
【0040】
読み取り部11は、記載者が記載した帳票の内容を、例えばスキャナユニット30で光学的に読み取り、帳票の画像を生成する。読み取り部11は生成した帳票の画像をOCR認識部12に通知する。
【0041】
OCR認識部12は、受け付けた帳票の画像に対してOCR処理を実行し、OCR処理による文字列の認識結果、すなわち、文字認識結果を確認訂正部13に通知する。なお、OCR認識部12は、認識した文字列毎に確信度を対応付けて確認訂正部13に通知する。
【0042】
ここで認識した文字列の確信度とは、帳票の画像に含まれる文字列を帳票に記入されている通りに正しく認識したか否かといった、文字列の認識精度の高さを示す値である。例えば確信度が100%の場合、帳票に記入されている通りに文字列を認識したことを表し、確信度が50%の場合、2回のうち1回は帳票に記入されている文字列とは異なる文字列に認識した可能性があることを表している。
【0043】
例えば帳票の画像に数字の“2”が記載されている場合、OCR認識部12は辞書に登録済みの文字の中から最も形状が近い文字列を文字認識結果として出力するが、数字の“2”が手書きで英文字の“Z”にも読めるような形状で記載されている場合、OCR認識部12は、数字の“2”に対して誤って英文字の“Z”を文字認識結果として出力することがある。すなわち、認識対象となる文字列に類似する文字列の数が多くなるにつれて、文字列を誤って認識する確率が高くなるため、低い確信度が対応付けられる。
【0044】
このように、OCR認識部12で認識された文字列は、記載者が帳票に記載した文字列と異なる文字列に認識される場合があるため、確信度を参考にしながら確認訂正者が帳票とOCR認識部12の文字認識結果を見比べて文字列が正しく認識されているか確認し、正しく認識されていなければ訂正を行うことになる。
【0045】
確認訂正部13は、確認訂正者から文字列の訂正が必要との指示を受け付けた場合、OCR認識部12で認識された文字列を確認訂正者が指定した文字列に訂正する。また、確認訂正部13は、確認訂正者から文字列の訂正は不要との指示を受け付けた場合、OCR認識部12で認識された文字列を訂正しないようにする。確認訂正部13は、OCR認識部12で認識された文字列の確認結果を、帳票の項目毎に訂正情報DB16に登録して確認訂正テーブル2で管理する。なお、確認訂正者は帳票設計者と同一人物であっても別の人物であってもよい。
【0046】
図2は、確認訂正テーブル2の一例を示す図である。確認訂正テーブル2は、帳票名、項目名、確認訂正結果、確認訂正前文字列、及び訂正の有無を含むテーブルである。
【0047】
帳票名欄には、確認訂正部13で文字列の確認対象となった帳票の名前が設定される。
【0048】
項目名欄には、確認訂正部13で文字列の確認対象となった帳票に含まれる項目のタイトルが設定される。
【0049】
確認訂正結果欄には、確認訂正部13で確認した確認後の文字列が設定される。確認の結果、文字列が訂正された場合には、確認訂正結果欄には訂正された文字列が設定される。なお、確認訂正部13で確認した確認後の文字列を「確認済み文字列」ということがある。確認済み文字列は、本実施の形態に係る確認結果の文字列の一例である。また、確認済み文字列のうち、確認訂正者によって訂正された文字列を「訂正済み文字列」ということがある。
【0050】
確認訂正前文字列欄には、確認前の文字列、すなわち、OCR認識部12で認識された文字列そのものが設定される。
【0051】
訂正の有無欄には、確認訂正部13で文字列の訂正を行ったか否かを表す情報が設定される。例えば訂正を行った場合には「あり」が設定され、訂正を行っていない場合には「なし」が設定される。
【0052】
このように確認訂正テーブル2には、帳票の項目毎に確認前の文字列と確認後の文字列が対応付けられて管理されており、確認訂正テーブル2の行方向に対応付けられている各欄内の情報の集合を「確認訂正情報」という。なお、訂正の有無欄に「なし」が設定されている確認訂正情報の確認訂正結果欄と確認訂正前文字列連には同じ文字列が設定されることになる。
【0053】
また、確認訂正部13は、確認訂正テーブル2に登録した確認訂正情報の件数を帳票の項目毎に集計し、訂正情報DB16に記憶される蓄積件数テーブル4で管理する。
【0054】
図3は、蓄積件数テーブル4の一例を示す図である。蓄積件数テーブル4は、帳票名、項目名、及び蓄積件数を含むテーブルである。
【0055】
帳票名欄及び項目名欄には、確認訂正情報の件数を集計した帳票名及び項目名がそれぞれ設定される。
【0056】
蓄積件数欄には、確認訂正テーブル2に登録されている確認訂正情報のうち、同じ行の帳票名欄及び項目名欄に設定された内容によって表される帳票の項目に対応した確認訂正情報の数が設定される。蓄積件数欄に設定される数は、帳票の項目に対して収集された確認済み文字列の数に対応する。
【0057】
図3に示す蓄積件数テーブル4の場合、例えば情報処理装置10で購入申請書の備考に記載された文字列の確認訂正情報が、確認訂正テーブル2に100件蓄積されていることを示している。このように、蓄積件数テーブル4には、文字列の確認結果の件数が帳票の項目毎に記憶される。
【0058】
パターン抽出部14は、訂正情報DB16に記憶される確認訂正テーブル2及び蓄積件数テーブル4を参照して文字列の記載規則、すなわち、文字列の記載パターンを各帳票の項目毎に抽出する。
【0059】
文字列の記載パターンとは、複数の帳票に共通して認められる文字列の規則性のことである。記載者は予め定めた記載パターンに従って帳票の項目に文字列を記載するわけではないが、項目によっては記載内容が限定されるため、複数の記載者が意図せず同じような表現で文字列を記載することがある。パターン抽出部14は、確認後の項目の記載内容に表れる文字列の潜在的な規則性を見いだし、文字列の記載パターンとして抽出する。
【0060】
パターン抽出部14は、抽出した文字列の記載パターンを訂正情報DB16に登録して、パターンテーブル6で管理する。
【0061】
図4は、パターンテーブル6の一例を示す図である。パターンテーブル6は、帳票名、項目名、記載パターン、及び類似率を含むテーブルである。
【0062】
帳票名欄及び項目名欄には、文字列の記載パターンを抽出した帳票名及び項目名がそれぞれ設定される。
【0063】
記載パターン欄には、同じ行の帳票名欄及び項目名欄に設定された内容によって表される帳票の項目から抽出した記載パターンが設定される。
【0064】
類似率欄には、同じ行に含まれる記載パターンに従った文字列が、同じ帳票の同じ項目でどの程度出現しているのかを表す値が設定される。
【0065】
図4に示すパターンテーブル6の場合、例えば購入申請書の備考に「後方一致、□□□に付け替え」という記載パターンが類似率50%で現れることを示している。なお、記載パターンにおける“□”の表記は任意の1文字が入ることを表している。また、後方一致とは、文字列を最後尾から先頭に向かって順に見ていった場合に、指定された文字列(上記の例の場合「に付け替え」)と一致するような文字列の記載パターンを表している。反対に、前方一致とは、文字列を先頭から最後尾に向かって順に見ていった場合に、指定された文字列と一致するような文字列の記載パターンを表している。なお、記載パターン欄には正規表現で文字列の記載パターンが設定されるが、
図4では説明をわかりやすくするため正規表現の内容を文章で表した例を示している。
【0066】
パターン抽出部14における具体的な文字列の記載パターンの抽出方法については、後ほど詳細に説明する。
【0067】
出力部15は、帳票設計者が指定した帳票を表示ユニット29等に出力し、出力した帳票に対して帳票設計者が何れかの項目を選択した場合、訂正情報DB16に記憶されるパターンテーブル6を参照して、選択された項目に対応する文字列の記載パターンを出力する。
【0068】
帳票設計者が、出力された文字列の記載パターンの中から少なくとも1つの記載パターンを選択した場合、OCR認識部12は、選択された帳票の項目に対して、帳票設計者が選択した文字列の記載パターンを割り当てる。以降、OCR認識部12は、受け付けた帳票の画像に対してOCR処理を実行する場合、帳票の項目に割り当てられた文字列の記載パターンを参照して文字列の認識を行う。
【0069】
次に、情報処理装置10における電気系統の要部構成例について説明する。
【0070】
図5は、情報処理装置10における電気系統の要部構成例を示す図である。情報処理装置10は例えばコンピュータ20を用いて構成される。
【0071】
コンピュータ20は、情報処理装置10に係る各機能部を担うプロセッサの一例であるCPU(Central Processing Unit)21、コンピュータ20を
図1に示した各機能部として機能させる情報処理プログラムを記憶するROM(Read Only Memory)22、CPU21の一時的な作業領域として使用されるRAM(Random Access Memory)23、不揮発性メモリ24、及び入出力インターフェース(I/O)25を備える。そして、CPU21、ROM22、RAM23、不揮発性メモリ24、及びI/O25がバス26を介して各々接続されている。
【0072】
不揮発性メモリ24は、不揮発性メモリ24に供給される電力が遮断されても、記憶した情報が維持される記憶装置の一例であり、例えば半導体メモリが用いられるがハードディスクを用いてもよい。不揮発性メモリ24は、必ずしもコンピュータ20に内蔵されている必要はなく、例えばメモリカードのようにコンピュータ20に着脱される可搬型の記憶装置であってもよい。
【0073】
I/O25には、例えば通信ユニット27、入力ユニット28、表示ユニット29、及びスキャナユニット30が接続される。
【0074】
通信ユニット27は図示しない通信回線に接続され、図示しない通信回線に接続される外部装置との間でデータ通信を行う通信プロトコルを備える。
【0075】
入力ユニット28は、確認訂正者及び帳票設計者からの指示を受け付けてCPU21に通知する装置であり、例えばボタン、タッチパネル、キーボード、及びマウス等が用いられる。指示が音声で行われる場合、入力ユニット28としてマイクが用いられることがある。
【0076】
表示ユニット29は、CPU21によって処理された情報を表示する装置であり、例えば液晶ディスプレイ及び有機EL(Electro Luminescence)ディスプレイ等が用いられる。
【0077】
スキャナユニット30は、記載者により内容が記載された帳票を光学的に読み取り、帳票の画像を生成する。なお、スキャナユニット30は必ずしも情報処理装置10に必要な装置ではなく、情報処理装置10は、通信ユニット27を経由して図示しない通信回線と接続されたスキャナ装置で読み取られた帳票の画像を取得してもよい。
【0078】
I/O25に接続されるユニットは
図5に示した各ユニットに限定されず、例えば記録媒体に画像を形成する画像形成ユニットのような他のユニットを接続してもよい。また、例えばメモリカードやUSB(Universal Serial Bus)メモリ等の半導体メモリを用いて、帳票の画像を取得してもよい。
【0079】
次に、確認訂正テーブル2に基づいて文字列の記載パターンを抽出する情報処理装置10の動作について説明する。
【0080】
図6は、帳票の項目に記載された文字列の記載パターンを抽出する場合に、情報処理装置10のCPU21によって実行される抽出処理の一例を示すフローチャートである。抽出処理を規定する情報処理プログラムは、例えば情報処理装置10のROM22に予め記憶されている。情報処理装置10のCPU21は、ROM22に記憶される情報処理プログラムを読み込み、抽出処理を実行する。
【0081】
なお、抽出処理の実行タイミングに制約はなく、CPU21は何れのタイミングで抽出処理を実行してもよい。例えば、CPU21は帳票の画像に対してOCR処理をする度に抽出処理を実行してもよいが、ここでは一例として予め定めた期間、例えば1か月毎に抽出処理を実行するものとする。CPU21は、
図6に示す抽出処理を実行する前に、パターンテーブル6からすべてのパターン情報を削除しておくものとする。
【0082】
図6に示す抽出処理は、帳票の何れか1つの項目に対して文字列の記載パターンを抽出する例を示したものであり、各帳票の項目毎に
図6に示す抽出処理を実行することで、OCR処理を実行したすべての帳票の各項目に対して文字列の記載パターンが抽出される。
【0083】
ステップS10において、CPU21は、選択した何れかの帳票の項目(以降、「選択項目」という)に対するすべての確認訂正情報を確認訂正テーブル2から取得する。
【0084】
ステップS20において、CPU21は、ステップS10で取得した各々の確認訂正情報の確認訂正結果欄から確認済み文字列を抽出し、確認済み文字列の各々を文字コードでソートする。その上でCPU21は、ソートした確認済み文字列を前方一致及び後方一致の観点からグループに集約する。
【0085】
具体的には、CPU21は、ソートした確認済み文字列を先頭から最後尾に向かって順に見ていき、先頭から連続して一致する文字数が同じになる確認済み文字列同士を同じグループに集約し、各々のグループに含まれる確認済み文字列の数を集計する。
【0086】
次に、CPU21は、ソートした確認済み文字列を最後尾から先頭に向かって順に見ていき、最後尾から連続して一致する文字数が同じ確認済み文字列同士を同じグループに集約し、各々のグループに含まれる確認済み文字列の数を集計する。
【0087】
ステップS30において、CPU21は、ステップS20で生成したグループの中から、まだ選択していない未選択のグループを1つ選択する。ステップS30で選択したグループを「選択グループ」ということにする。
【0088】
ステップS40において、CPU21は、選択グループにおける文字列の一致状況から文字列の記載パターンを抽出する。
【0089】
例えば選択グループが先頭から3文字一致する前方一致の文字列のグループである場合で、一致する文字が「AAA」であれば「^A{3}」というような正規表現で表される文字列の記載パターンが抽出される。また、選択グループが最後尾から4文字一致する後方一致の文字列のグループである場合、一致する文字が「Deee」であれば「De{3}$」というような正規表現で表される文字列の記載パターンが抽出される。
【0090】
また、CPU21は、ステップS10で取得した確認訂正情報の数に対する、選択グループに含まれる確認済み文字列の数を類似率として算出する。
【0091】
ステップS50において、CPU21は、文字列の記載パターンの抽出対象となった帳票名及び項目名、ステップS40で抽出した文字列の記載パターン、並びに、算出した類似率を対応付けたパターン情報をパターンテーブル6に登録する。
【0092】
ステップS60において、CPU21は、ステップS20で集約したグループの中に、ステップS30で選択していない未選択のグループが存在するか否かを判定する。未選択のグループが存在する場合にはステップS30に移行し、未選択のグループの中から何れか1つのグループを選択する。未選択のグループがなくなるまでステップS30~S60の処理を繰り返し実行することで、選択項目に対して文字列の記載パターンが複数設定される。
【0093】
一方、ステップS60の判定処理で未選択のグループは存在しないと判定された場合には、
図6の抽出処理を終了する。
【0094】
図6では、確認済み文字列の一致状況から文字列の記載パターンを抽出したが、文字列の記載パターンを抽出する観点は、確認済み文字列の一致状況に限られない。CPU21は、ステップS10で取得したすべての確認訂正情報を参照して、様々な分類属性の観点から確認済み文字列の特徴を分析し、文字列の記載パターンが見いだせないか判定する。
【0095】
分類属性とは、確認済み文字列から文字列の記載パターンを抽出するために着目するカテゴリーのことであり、上述した確認済み文字列の一致状況の他、文字種の出現状況が分類属性の一例となる。
【0096】
文字種とは、確認済み文字列で用いられている文字の表記形態であり、例えば数字、アルファベット大文字、アルファベット小文字、ひらがな、及びカタカナ等が含まれる。特に確認済み文字列がプリンタ等で印字された文字列である場合には、数字、アルファベット大文字、アルファベット小文字、及びカタカナのそれぞれに対して全角または半角の区別が存在する。
【0097】
文字種の出現状況に着目して文字列の記載パターンを抽出する場合、CPU21は、
図6のステップS20において、ステップS10で取得した確認訂正情報の各々から確認済み文字列を抽出し、確認済み文字列における文字種の出現状況が同じ確認済み文字列同士をグループに集約すればよい。
【0098】
具体的には、CPU21は、確認済み文字列を先頭から最後尾に向かって順に見ていき、同じ文字種が先頭から連続して同じ数だけ一致する確認済み文字列同士を同じグループに集約し、各々のグループに含まれる確認済み文字列の数を集計する。
【0099】
次に、CPU21は、確認済み文字列を最後尾から先頭に向かって順に見ていき、同じ文字種が最後尾から連続して同じ数だけ一致する確認済み文字列同士を同じグループに集約し、各々のグループに含まれる確認済み文字列の数を集計する。
【0100】
その上で、
図6のステップS40において、CPU21は、選択グループにおける文字種の出現状況から文字列の記載パターンを抽出する。
【0101】
例えば選択グループが先頭から3文字の文字種が一致する確認済み文字列のグループであり、一致する文字種が半角アルファベット大文字である場合、「^[A-Z]{3}」というような正規表現で表される文字列の記載パターンが抽出される。また、選択グループが先頭から5文字の文字種が一致する確認済み文字列のグループであり、先頭から3文字目までの文字種は半角アルファベット大文字で、4文字目と5文字目の文字種が半角アルファベット小文字である場合、「^[A-Z]{3}[a-z]{2}」というような正規表現で表される文字列の記載パターンが抽出される。
【0102】
したがって、
図6のステップS50において、CPU21は、文字列の記載パターンの抽出対象となった帳票名及び項目名、抽出した文字列の記載パターン、並びに、算出した類似率を対応付けたパターン情報をパターンテーブル6に登録すればよい。
【0103】
特定の帳票の項目に関して、抽出したすべての文字列の記載パターンにおける類似率が近似する場合、帳票の項目にはどの文字列の記載パターンも同じような確率で出現するということになる。こうした場合、抽出された文字列の記載パターンは、注目している帳票の項目における代表的な確認済み文字列の記載パターンとは言い難い。
【0104】
したがって、CPU21は、抽出した文字列の記載パターンに有意差が認められるような分類属性における文字列の記載パターンだけをパターンテーブル6に登録してもよい。ここで、「文字列の記載パターンに有意差が認められる」とは、文字列の記載パターン同士の類似度の差分がこれ以上大きければ、他の文字列の記載パターンに比べて記載者に使われやすい特徴的な文字列の記載パターンであることを示す予め定めた判定値より大きい状況をいう。なお、文字列の記載パターンにおける類似率が近似するとは、文字列の記載パターンにおける類似度の差分が当該判定値以下の状況をいう。
【0105】
また、CPU21は、
図6のステップS50で文字列の記載パターンをパターンテーブル6に登録する場合に、当該文字列の記載パターンを帳票の項目に設定することによって変化する、OCR処理における文字認識での誤認識に伴って確認訂正者により訂正が実行された訂正済み文字列の数の変化度合いをパターンテーブル6に登録してもよい。
【0106】
具体的には、CPU21は、パターンテーブル6に登録する文字列の記載パターン毎に、当該文字列の記載パターンを帳票の項目に設定しておけば、OCR処理における文字認識での誤認識のために確認訂正者が文字列を訂正せずに済んだ文字列の数をパターンテーブル6に登録する。これにより、当該文字列の記載パターンを帳票の項目に設定することによって低下する訂正済み文字列の数がパターンテーブル6に登録される。
【0107】
このことは、パターンテーブル6に登録する文字列の記載パターン毎に、当該文字列の記載パターンを帳票の項目に設定しなかったことにより訂正された訂正済み文字列の数をパターンテーブル6に登録することでもある。
【0108】
文字列の記載パターンを帳票の項目に設定しておけば確認訂正者が文字列を訂正せずに済んだ文字列の数、すなわち、文字列の記載パターンを帳票の項目に設定しなかったことにより訂正が必要になった文字列の数は、例えば文字列の記載パターンが抽出されたグループにおける、訂正済み文字列の数で表される。
【0109】
また、上記では、文字列の記載パターンの設定の有無によって変化する帳票の項目毎における訂正済み文字列の数をパターンテーブル6に登録したが、変化する訂正済み文字列の割合を登録してもよい。変化する訂正済み文字列の割合は、例えば文字列の記載パターンが抽出されたグループに含まれる確認済み文字列の数に対する、訂正済み文字列の数の割合で表される。
【0110】
図6に示した抽出処理では、帳票の項目毎に、当該項目に対応した確認訂正テーブル2に登録されているすべての確認訂正情報を用いて文字列の記載パターンを抽出した。しかしながら、例えば予め定めた期間(例えば1か月)毎に
図6に示した抽出処理を実行する場合、CPU21は、予め定めた期間に確認訂正テーブル2に登録された確認訂正情報だけを取得して、文字列の記載パターン、類似度、並びに、文字列の記載パターンの設定の有無によって変化する訂正済み文字列の数若しくは割合を予め定めた期間毎に取得するようにしてもよい。この場合、文字列の記載パターンが抽出された期間を表す情報もパターン情報に含めてパターンテーブル6で管理する。
【0111】
なお、予め定めた期間毎に文字列の記載パターンを抽出する場合には、
図6に示す抽出処理を実行する前に、パターンテーブル6からパターン情報を削除しないようにすれば、各期間におけるパターン情報の変化の推移が得られることになる。
【0112】
図7は、帳票設計者が帳票の項目に文字列の記載パターンを設定するため、画面に表示した何れかの帳票の項目をマウス等で選択した場合に、情報処理装置10のCPU21によって実行される出力処理の一例を示すフローチャートである。出力処理を規定する情報処理プログラムは、例えば情報処理装置10のROM22に予め記憶されている。情報処理装置10のCPU21は、ROM22に記憶される情報処理プログラムを読み込み、出力処理を実行する。
【0113】
なお、パターンテーブル6には、
図6に示した抽出処理で抽出された文字列の記載パターンを含むパターン情報が既に登録されているものとする。
【0114】
一方、
図8は、
図7に示す出力処理によって表示ユニット29に表示される画面例を示す図である。
図8を参照しながら、
図7に示す出力処理の説明を行う。
【0115】
ステップS100において、CPU21は、帳票設計者が選択した帳票の項目、すなわち、選択項目に対応した文字列の記載パターンをパターンテーブル6から取得し、表示ユニット29の画面に取得した文字列の記載パターンを表示する。
【0116】
図8の例は、帳票設計者が購入申請書の備考欄を選択した状況を表している。この場合、CPU21は、帳票名が「購入申請書」で項目名が「備考」に設定されているパターン情報をパターンテーブル6から取得して、パターン情報に含まれる文字列の記載パターンと類似度を表示したダイアログ8を画面に表示する。該当するパターン情報が複数存在すれば、CPU21は該当する各々のパターン情報に含まれる文字列の記載パターンと類似度をすべてダイアログ8に表示する。CPU21は、文字列の記載パターンを正規表現で表示してもよいが、正規表現が表す意味を文章に変換してから表示してもよい。
図8のダイアログ8における「(空欄)」は文字列の記載パターンである正規表現「¥s」を文章で表現した一例である。
【0117】
ダイアログ8に文字列の記載パターンを表示する場合、CPU21は類似度を参照し、上から下に向かって類似度が低くなるような順序(降順)、または上から下に向かって類似度が高くなるような順序(昇順)に文字列の記載パターンを並べなおしてからダイアログ8に表示してもよい。また、CPU21は蓄積件数テーブル4を参照して、選択項目に対してこれまでに収集した確認済み文字列の蓄積件数をダイアログ8に表示してもよく、その上で、例えばこれまでに収集した確認済み文字列のうち、予め定めた期間内(例えば直近の1か月)に収集した確認済み文字列の蓄積件数も併せて表示するようにしてもよい。そのため、例えばCPU21は、確認訂正者によってOCR処理による文字認識結果の確認が行われた日時情報を確認訂正情報に含めて確認訂正テーブル2で管理するか、または、収集した帳票の項目毎の確認済み文字列の件数を予め定めた期間毎に集計して蓄積件数テーブル4で管理する。
【0118】
帳票設計者は、ダイアログ8に表示された文字列の記載パターンの中から選択項目に設定したい文字列の記載パターンを選択し、図示しない確定ボタンを押下することで選択内容を確定する。ダイアログ8には、文字列の記載パターンを選択するためのチェックボックス9が含まれ、例えば選択された文字列の記載パターンに対応するチェックボックス9は黒で塗りつぶされる。
【0119】
CPU21は、選択された文字列の記載パターンを、例えばダイアログ8に設けられた選択通知領域7に表示する。文字列の記載パターンが複数選択された場合、CPU21は、選択された文字列の記載パターンの組み合わせを正規表現で表して選択通知領域7に表示する。
図8の例では「人事部に付け替え」、「総務部に付け替え」、及び「(空欄)」が選択されているため、選択通知領域7には、「人事部に付け替え|総務部に付け替え|¥s」のように表される正規表現が表示される。
【0120】
ステップS110において、CPU21は、帳票設計者によって文字列の記載パターンが選択されたか否かを判定する。文字列の記載パターンが選択されていない場合にはステップS110の判定処理を繰り返し実行して、帳票設計者による文字列の記載パターンの選択状況を監視する。一方、少なくとも1つの文字列の記載パターンが選択された場合には、ステップS120に移行する。
【0121】
ステップS120において、CPU21は、選択された文字列の記載パターンを選択項目に設定する。以上により
図7に示す出力処理を終了する。
【0122】
なお、ダイアログ8では、選択項目に対応する文字列の記載パターンに合わせて様々な表示が行われる。
【0123】
例えば
図9に示すように、文字列の記載パターンを前方一致と後方一致の記載パターンに分けて表示してもよく、
図10に示すように、文字種の出現状況から抽出した文字列の記載パターンが存在する場合、「文字種」と表示した上で、文字列の記載パターンに対応した正規表現が表す意味を文章で表示してもよい。
【0124】
また、CPU21は、基準類似度以上となる文字列の記載パターンがあれば、ダイアログ8に表示する場合、基準類似度以上となる文字列の記載パターンとその他の文字列の記載パターンとを区別するため、基準類似度以上となる文字列の記載パターンの表記をその他の文字列の記載パターンの表記と変えるようにしてもよい。具体的には、CPU21は文字色、背景色、文字の大きさ、及びフォント等の少なくとも1つを変える。
【0125】
更に、CPU21は、パターンテーブル6に登録されているその他の情報、例えばこの文字列の記載パターンを帳票の項目に設定しておけば文字列を訂正せずに済んだ文字列の数、換言すれば、この文字列の記載パターンを帳票の項目に設定しなかったために訂正が必要となった訂正済み文字列の数を文字列の記載パターン毎に表示してもよい。
【0126】
このように本実施の形態に係る情報処理装置10によれば、確認訂正者が確認した帳票の項目毎の確認済み文字列から文字列の記載パターンを抽出し、帳票設計者が帳票の項目に何らかの文字列の記載パターンを設定しようとする場合に、帳票設計者が選択した帳票の項目に対応する文字列の記載パターンを出力する。
【0127】
したがって、帳票設計者は、自ら帳票の項目に設定する文字列の記載パターンを考える手間を省くことができる。その上、情報処理装置10は文字列の記載パターンを正規表現として生成するため、帳票設計者が正規表現を理解していなくても、例えばダイアログ8に表示される正規表現の内容を説明した文章を見て帳票の項目に設定したい文字列の記載パターンを選択すれば、選択した内容に対応した正規表現が帳票の項目に設定される。
【0128】
また、帳票設計者が項目の内容から見て、記載者が記載する内容に記載パターンは存在しないと考え、あえて文字列の記載パターンを設定しなかった項目に対しても文字列の記載パターンが提示される場合があるため、帳票の項目に文字列の記載パターンが設定できることがある。更に、帳票設計者は、自分では気づかなかった文字列の記載パターンを情報処理装置10から提示される場合がある。提示された文字列の記載パターンが、既に帳票の項目に設定している文字列の記載パターンよりもOCR処理で認識した文字列の確信度を上げることが期待される記載パターンであれば、帳票設計者は、確信度を上げるような効果を有する文字列の記載パターンを自ら検討する手間が省けることになる。
【0129】
<変形例1>
図6に示した抽出処理では、帳票の項目に対して収集されている確認済み文字列の数に関係なく、収集されている確認済み文字列から文字列の記載パターンを抽出した。しかしながら、例えば文字列の記載パターンの抽出対象となっている帳票の項目に対して収集されている確認済み文字列の数が1つであれば、当該確認済み文字列から抽出した文字列の記載パターンが、文字列の記載パターンの抽出対象となっている帳票の項目を代表する記載パターンであるのか判断がつかない。
【0130】
したがって、本変形例では、文字列の記載パターンの抽出対象となっている帳票の項目に対して収集されている確認済み文字列の数によって、文字列の記載パターンの抽出が可能であるか否かを特定する情報処理装置10について説明する。
【0131】
図11は、帳票の項目に記載された文字列の記載パターンを抽出する場合に、情報処理装置10のCPU21によって実行される抽出処理の変形例を示すフローチャートである。
図11に示す抽出処理が、
図6に示した抽出処理と異なる点は、ステップS2及びステップS4が追加された点であり、その他の処理は
図6に示した抽出処理と同じである。したがって、以降ではステップS2とステップS4の処理を中心に説明を行う。
【0132】
ステップS2において、CPU21は蓄積件数テーブル4を参照して、選択項目に対応した確認済み文字列の蓄積件数を取得する。
【0133】
ステップS4において、CPU21は、ステップS10で取得した蓄積件数が予め定めた基準件数NA以上であるか否かを判定する。「基準件数NA」とは、確認済み文字列から抽出した文字列の記載パターンの信頼性を担保するのに必要となる最低限の確認済み文字列の蓄積件数であり、確認済み文字列の規則性が抽出される数として予め定めた数の一例である。基準件数NAは例えば統計的な観点に従って予め設定され、不揮発性メモリ24に記憶されている。なお、基準件数NAは帳票設計者等の指示により修正される。
【0134】
選択項目に対する確認済み文字の数が基準件数N
A以上あれば、ここから抽出した文字列の記載パターンの信頼性は担保されることからステップS10に移行して、
図6で説明した抽出処理を実行する。
【0135】
一方、ステップS4の判定処理で、選択項目に対する確認済み文字が基準件数N
A未満であると判定された場合、ここから抽出した文字列の記載パターンの信頼性には不安が残ることから、文字列の記載パターンを抽出することなく、
図11に示す抽出処理を終了する。
【0136】
当然のことながら、予め定めた期間毎に収集された確認済み文字列から文字列の記載パターンを抽出する場合には、各期間で収集した確認済み文字列の蓄積件数の合計ではなく、単独の期間において収集した確認済み文字列の蓄積件数が基準件数NA以上ある場合に文字列の記載パターンを抽出することになる。
【0137】
<変形例2>
既に帳票の項目に文字列の記載パターンを設定しているとしても、設定した記載パターンの見直しを行った方がよい状況が発生することがある。例えば、帳票の項目が「部品番号」の場合、当該項目の記載欄には部品番号が記載されるが、これまで数字から始まっていた部品番号の番号体系が英文字から始まるように変更された場合、番号体系の変更前に設定していた文字列の記載パターンは、新しい部品番号の番号体系に合わなくなるため見直しが必要になる。しかしながら、帳票設計者は、必ずしも番号体系の変更といった文字列の記載パターンに影響を与えるような事象があったことを知らされるとは限らず、結果として記載内容の実体と合わなくなった文字列の記載パターンがそのまま設定され続けるような状況が発生することがある。
【0138】
したがって、本変形例では、帳票の項目に設定されている文字列の記載パターンを変更した方がよい状況を検知し、帳票設計者に文字列の記載パターンを変更するように促す変更通知を出力する情報処理装置10について説明する。
【0139】
図12は、情報処理装置10のCPU21によって実行される変更通知処理の一例を示すフローチャートである。CPU21は、何れのタイミングで変更通知処理を実行してもよい。ここでは一例として、CPU21が予め定めた期間毎に
図6または
図11に示した抽出処理を実行し、抽出処理の実行に合わせて変更通知処理を実行するものとする。説明の便宜上、変更通知処理の対象となる期間を「対象期間」ということにする。
【0140】
なお、
図12に示す変更通知処理は、帳票の何れか1つの項目に対して変更通知の必要性を判定する例を示したものであり、各帳票の項目毎に
図12に示す変更通知処理を実行することで、OCR処理を実行したすべての帳票の各項目に対して変更通知の必要性が判定される。
【0141】
ステップS200において、CPU21は、対象期間における訂正率を算出する。訂正率とは、対象期間において収集された確認済み文字列のうち、訂正が行われた訂正済み文字列の割合であり、訂正の度合いの一例である。例えば予め定めた期間が1か月であれば、1か月間における訂正率が算出されることになる。
【0142】
ステップS210において、CPU21は、ステップS200で算出した対象期間の訂正率が、対象期間より前の期間(比較期間という)で算出した訂正率よりも高いか否かを判定する。できるだけ直近における訂正率の変化状況から変更通知の必要性を判定するには、比較期間を対象期間と隣接する期間にすることが好ましい。例えば対象期間が8月であれば、比較期間を7月に設定する。対象期間の訂正率が比較期間の訂正率より高い場合にはステップS220に移行する。
【0143】
ステップS220において、CPU21は、比較期間の訂正率を基準とした対象期間における訂正率の上昇率を算出する。すなわち、比較期間の訂正率は基準度合いの一例である。
【0144】
ステップS230において、CPU21は、ステップS220で算出した上昇率が基準上昇率NB以上であるか否かを判定する。「基準上昇率NB」とは、この値以上になれば選択項目に設定した文字列の記載パターンの見直しを検討した方がよいと考えられる最低限の上昇率のことである。基準上昇率NBは例えば不揮発性メモリ24に予め記憶され、帳票設計者等の指示により修正される。
【0145】
例えば部品番号の番号体系が変更された場合のように、項目の記載欄に記載される内容に変化が生じた場合、新たな記載内容に対応する文字列の記載パターンはまだ項目に設定されていないことから、記載内容の変更前に比べて訂正率が上昇する。したがって、訂正率の上昇率を監視すれば、選択項目に設定した文字列の記載パターンの見直しが必要か否か判断することができる。
【0146】
ステップS220で算出した上昇率が基準上昇率NB以上である場合には、ステップS240に移行する。
【0147】
この場合、上昇率が基準上昇率N
B以上になっていることから、選択項目に設定されている文字列の記載パターンの見直しを検討した方がよいと考えられる。したがって、ステップS240において、CPU21は変更通知を出力して、
図12に示す変更通知処理を終了する。帳票設計者が変更通知に気づくことができれば変更通知の出力方法に制約はなく、文字列の記載パターンの変更を促す情報を表示ユニット29の画面に表示しても、帳票設計者が携帯するスマートフォン等の携帯機器に割り当てられたメールアドレス宛に送信してもよい。
【0148】
一方、ステップS210の判定処理で対象期間の訂正率が比較期間の訂正率以下であると判定された場合、またはステップS230の判定処理で対象期間における訂正率の上昇率が基準上昇率N
B未満であると判定された場合には、変更通知を出力することなく、
図12に示す変更通知処理を終了する。
【0149】
なお、帳票設計者によって設定された文字列の記載パターンが、設定されても認識した文字列の確信度に影響を与えないような有効でない文字列の記載パターンであった場合、あえて当該文字列の記載パターンを帳票の項目に設定しておく必要はない。また、こうした有効でない文字列の記載パターンをそのまま帳票の項目に設定しておくと、どれが確信度の向上に効果のある文字列の記載パターンなのかわからなくなることがある。
【0150】
したがって、CPU21は、帳票の項目に文字列の記載パターンが設定された前後の期間における訂正率を比較し、訂正率の差分が予め定めた範囲内に含まれる場合、帳票設計者に、設定の前後において予め定めた範囲内での訂正率の変化しかもたらさない文字列の記載パターンを削除するように促す変更通知を出力するようにしてもよい。この場合、CPU21は、有効でない文字列の記載パターンも一緒に変更通知に含めて出力する。
【0151】
このように本変形例に係る情報処理装置10によれば、訂正率の変化の度合いから変更通知の要否を判定し、必要に応じて変更通知を出力する。したがって、帳票の項目に対する記載内容の変化に気づいていない帳票設計者に対して、文字列の記載パターンの見直しを行うきっかけを提供することができる。記載内容の変化後における確認済み文字列の傾向を示した文字列の記載パターンも情報処理装置10によって提示されるため、帳票設計者は、提示された文字列の記載パターンの中から設定したい記載パターンを選択するだけで、文字列の記載パターンの見直しが完了することになる。
【0152】
また、有効でない文字列の記載パターンの提示も行われることから、帳票設計者は、提示された文字列の記載パターンを削除するだけで、帳票の項目に設定した文字列の記載パターンを整理することができる。
【0153】
上述した実施の形態では、情報処理装置10が文字列の記載パターンを帳票設計者に提示する例について説明したが、情報処理装置10が抽出した文字列の記載パターンの中から適切な文字列の記載パターンを選択して、帳票の項目に設定してもよい。適切な文字列の記載パターンとしては、例えば類似度が基準類似度以上となる文字列の記載パターン、及び帳票の項目に設定しておけば文字列を訂正せずに済んだ文字列の数が予め定めた数以上である文字列の記載パターンを選択すればよい。また、情報処理装置10は、帳票設計者の指示を待たずに、文字列の記載パターンの見直しを自律的に実行してもよい。
【0154】
また、
図1で説明したように、読み取り部11、OCR認識部12、確認訂正部13、パターン抽出部14、及び出力部15の各機能部と、訂正情報DB16を含む情報処理装置10を例にして本実施の形態について説明したが、パターン抽出部14及び出力部15のみを含む情報処理装置10を用いても本実施の形態に係る処理が実現できる。具体的には読み取り部11、OCR認識部12、及び確認訂正部13の各機能部と訂正情報DB16を外部装置に持たせ、通信ユニット27を経由して当該外部装置と通信を行い、パターン抽出部14が外部装置に備えられた訂正情報DB16に含まれる確認訂正テーブル2及び蓄積件数テーブル4の参照、並びに、パターンテーブル6の設定及び参照を行えばよい。
【0155】
以上、実施の形態を用いて本発明について説明したが、本発明は実施の形態に記載の範囲には限定されない。本発明の要旨を逸脱しない範囲で実施の形態に多様な変更又は改良を加えることができ、当該変更又は改良を加えた形態も本発明の技術的範囲に含まれる。例えば、本発明の要旨を逸脱しない範囲で処理の順序を変更してもよい。
【0156】
本実施の形態では、一例として抽出処理、出力処理、及び変更通知処理をソフトウェアで実現する形態について説明したが、
図6、
図7、
図11、及び
図12に示した各フローチャートと同等の処理を、例えばASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、またはPLD(Programmable Logic Device)に実装し、ハードウェアで処理させるようにしてもよい。この場合、確認訂正処理をそれぞれソフトウェアで実現した場合と比較して、処理の高速化が図られる。
【0157】
このように、CPU21を、例えばASIC、FPGA、PLD、GPU(Graphics Processing Unit)、及びFPU(Floating Point Unit)といった特定の処理に特化した専用のプロセッサに置き換えてもよい。
【0158】
実施形態におけるCPU21の動作は、1つのCPU21によって実現される形態の他、複数のCPU21によって実現されてもよい。更に、実施形態におけるCPU21の動作は、物理的に離れた位置に存在する複数のコンピュータ20におけるCPU21の協働によって実現されるものであってもよい。
【0159】
また、上述した実施の形態では、情報処理プログラムがROM22にインストールされている形態を説明したが、これに限定されるものではない。本発明に係る情報処理プログラムは、コンピュータで読み取り可能な記憶媒体に記録された形態で提供することも可能である。例えば、本発明に係る情報処理プログラムを、CD(Compact Disc)-ROM、又はDVD(Digital Versatile Disc)-ROM等の光ディスクに記録した形態で提供してもよい。また、本発明に係る情報処理プログラムを半導体メモリに記録した形態で提供してもよい。
【0160】
更に、情報処理装置10は図示しない通信回線を通じて、外部装置から本発明に係る情報処理プログラムを取得するようにしてもよい。
【符号の説明】
【0161】
2 確認訂正テーブル、4 蓄積件数テーブル、6 パターンテーブル、7 選択通知領域、8 ダイアログ、9 チェックボックス、10 情報処理装置、11 読み取り部、12 OCR認識部、13 確認訂正部、14 パターン抽出部、15 出力部、16 訂正情報DB、20 コンピュータ、21 CPU、22 ROM、23 RAM、24 不揮発性メモリ、25 I/O、26 バス、27 通信ユニット、28 入力ユニット、29 表示ユニット、30 スキャナユニット