(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-05
(45)【発行日】2023-04-13
(54)【発明の名称】文字列検索装置、文字列検索方法、および、文字列検索プログラム
(51)【国際特許分類】
G06F 16/532 20190101AFI20230406BHJP
G06V 30/00 20220101ALI20230406BHJP
G06F 16/58 20190101ALI20230406BHJP
【FI】
G06F16/532
G06V30/00 S
G06F16/58
(21)【出願番号】P 2019053038
(22)【出願日】2019-03-20
【審査請求日】2021-12-23
(73)【特許権者】
【識別番号】000207551
【氏名又は名称】株式会社SCREENホールディングス
(74)【代理人】
【識別番号】100104695
【氏名又は名称】島田 明宏
(74)【代理人】
【識別番号】100121348
【氏名又は名称】川原 健児
(74)【代理人】
【氏名又は名称】奥田 邦廣
(74)【代理人】
【識別番号】100148459
【氏名又は名称】河本 悟
(72)【発明者】
【氏名】宮井 清孝
(72)【発明者】
【氏名】粕渕 清孝
(72)【発明者】
【氏名】吉田 明子
(72)【発明者】
【氏名】北村 一博
(72)【発明者】
【氏名】寺田 万理
(72)【発明者】
【氏名】梅原 光規
【審査官】早川 学
(56)【参考文献】
【文献】特開2004-213091(JP,A)
【文献】米国特許第06154579(US,A)
【文献】特開平08-180064(JP,A)
【文献】特開2010-225137(JP,A)
【文献】特開平04-092971(JP,A)
【文献】特開平05-120485(JP,A)
【文献】村木一至ほか,OCRの認識誤り訂正に於けるテキスト適合性の評価,電子情報通信学会技術研究報告,社団法人電子情報通信学会,1992年10月15日,Vol.92,No.255,pp.47-52
【文献】太田学ほか,認識誤りを含む和文テキストにおける全文検索手法,情報処理学会論文誌,社団法人情報処理学会,1998年03月15日,第39巻,第3号,pp.625-635
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06V 30/00
(57)【特許請求の範囲】
【請求項1】
テキストを含む対象画像が印刷された記録媒体から当該対象画像を読み取って文字を認識することにより得られるOCR結果としてのテキストデータを検索対象とする文字列検索装置であって、
テキストを含む対象画像が印刷された記録媒体から当該対象画像を読み取って文字を認識するOCR装置において誤認識される可能性が所定の許容範囲を超えるとみなされる文字である誤認識高可能性文字のそれぞれに対し、当該文字の画像が当該OCR装置により誤認識されたときの認識結果としての文字である誤認識文字を対応付ける誤認識文字対応付けデータと、前記誤認識高可能性文字のそれぞれに対し、当該文字の画像が当該OCR装置により誤認識されたときの当該文字の画像の印刷形態を対応付ける印刷形態対応付けデータとを含む、誤認識文字テーブルと、
外部から与えられる入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致する場合に、前記入力文字列における当該一致する文字をワイルドカードに置き換えることにより検索語を作成し、前記入力文字列におけるいずれの文字も、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれにも一致しない場合には、前記入力文字列を検索語とする検索語作成部と、
前記検索語作成部により得られる検索語に一致する文字列を前記OCR結果としてのテキストデータの中から検索する検索部と
を備える、文字列検索装置。
【請求項2】
前記検索語作成部は、
前記入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致し、かつ、当該一致する文字に対応付けられた印刷形態が前記対象画像の印刷形態と一致する場合に、前記入力文字列における当該一致する文字をワイルドカードに置き換えることにより検索語を作成し、
前記入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致するが、当該一致する文字に対応付けられた印刷形態が前記対象画像の印刷形態と一致しない場合に、前記入力文字列を検索語とする、請求項
1に記載の文字列検索装置。
【請求項3】
テキストを含む対象画像が印刷された記録媒体から当該対象画像を読み取って文字を認識することにより得られるOCR結果としてのテキストデータを検索対象とする文字列検索装置であって、
テキストを含む対象画像が印刷された記録媒体から当該対象画像を読み取って文字を認識するOCR装置において誤認識される可能性が所定の許容範囲を超えるとみなされる文字である誤認識高可能性文字のそれぞれに対し、当該文字の画像が当該OCR装置により誤認識されたときの認識結果としての文字である誤認識文字を対応付ける誤認識文字対応付けデータと、前記誤認識高可能性文字のそれぞれに対し、当該文字の画像が当該OCR装置により誤認識されたときの当該文字の画像の印刷形態を対応付ける印刷形態対応付けデータと含む、誤認識文字テーブルと、
外部から与えられる入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致する場合に、前記入力文字列を検索語とするとともに、前記入力文字列における当該一致する文字を前記誤認識文字テーブルによって当該一致する文字に対応付けられた他の文字に置き換えることにより検索語を作成し、前記入力文字列におけるいずれの文字も、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれにも一致しない場合に、前記入力文字列を検索語とする検索語作成部と、
前記検索語作成部により得られる検索語のいずれかに一致する文字列を前記OCR結果としてのテキストデータの中から検索する検索部と
を備え
、
前記検索部は、前記検索語作成部により得られる検索語のいずれに一致する文字列も前記OCR結果としてのテキストデータの中から見出せない場合において、前記入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致するときに、前記入力文字列における当該一致する文字をワイルドカードに置き換えることにより得られる検索語に一致する文字列を前記OCR結果としてのテキストデータの中から検索する、文字列検索装置。
【請求項4】
テキストを含む対象画像が印刷された記録媒体から当該対象画像を読み取って文字を認識することにより得られるOCR結果としてのテキストデータを検索対象とする文字列検索装置であって、
テキストを含む対象画像が印刷された記録媒体から当該対象画像を読み取って文字を認識するOCR装置において誤認識される可能性が所定の許容範囲を超えるとみなされる文字である誤認識高可能性文字のそれぞれに対し、当該文字の画像が当該OCR装置により誤認識されたときの認識結果としての文字である誤認識文字を対応付ける誤認識文字対応付けデータと、前記誤認識高可能性文字のそれぞれに対し、当該文字の画像が当該OCR装置により誤認識されたときの当該文字の画像の印刷形態を対応付ける印刷形態対応付けデータとを含む、誤認識文字テーブルと、
外部から与えられる入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致し、かつ、当該一致する文字に対応付けられた印刷形態が前記対象画像の印刷形態と一致する場合に、前記入力文字列を検索語とするとともに、前記入力文字列における当該一致する文字を前記誤認識文字テーブルによって当該一致する文字に対応付けられた他の文字に置き換えることにより検索語を作成し、前記入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致するが、当該一致する文字に対応付けられた印刷形態が前記対象画像の印刷形態と一致しない場合に、前記入力文字列のみを検索語とする、検索語作成部と、
前記検索語作成部により得られる検索語のいずれかに一致する文字列を前記OCR結果としてのテキストデータの中から検索する検索部と
を備え
、
前記検索部は、前記検索語作成部により得られる検索語のいずれに一致する文字列も前記OCR結果としてのテキストデータの中から見出せない場合において、前記入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致するときに、前記入力文字列における当該一致する文字をワイルドカードに置き換えることにより得られる検索語に一致する文字列を前記OCR結果としてのテキストデータの中から検索する、文字列検索装置。
【請求項5】
前記印刷形態対応付けデータは、前記OCR装置により誤認識された前記文字の画像の印刷において使用された印刷装置、フォント、および、記録媒体のうち少なくとも1つを特定する情報を含む、
請求項1から4のいずれか1項に記載の
文字列検索装置。
【請求項6】
前記印刷形態対応付けデータは、前記OCR装置により誤認識された前記文字の画像の印刷において使用された記録媒体としての紙の種類を特定する情報を含み、
前記紙の種類を特定する情報は、前記対象画像の印刷において使用されるインクの滲み易さを識別できる情報を含む、請求項
5に記載の
文字列検索装置。
【請求項7】
テキストを含む対象画像が印刷された記録媒体から当該対象画像を読み取って文字を認識することにより得られるOCR結果としてのテキストデータを検索対象とする文字列検索方法であって、
外部から与えられる入力文字列と予め作成された誤認識文字テーブルとから検索語を作成する検索語作成ステップと、
前記検索語作成ステップにより得られる検索語に一致する文字列を前記OCR結果としてのテキストデータの中から検索する検索ステップと
を備え
、
前記誤認識文字テーブルは、
テキストを含む対象画像が印刷された記録媒体から当該対象画像を読み取って文字を認識するOCR装置において誤認識される可能性が所定の許容範囲を超えるとみなされる文字である誤認識高可能性文字のそれぞれに対し、当該文字の画像が当該OCR装置により誤認識されたときの認識結果としての文字である誤認識文字を対応付ける誤認識文字対応付けデータと、
前記誤認識高可能性文字のそれぞれに対し、当該文字の画像が当該OCR装置により誤認識されたときの当該文字の画像の印刷形態を対応付ける印刷形態対応付けデータと
を含み、
前記検索語作成ステップでは、前記入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致する場合に、前記入力文字列における当該一致する文字をワイルドカードに置き換えることにより検索語を作成し、前記入力文字列におけるいずれの文字も、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれにも一致しない場合に、前記入力文字列を検索語とする、文字列検索方法。
【請求項8】
前記印刷形態対応付けデータは、前記OCR装置により誤認識された前記文字の画像の印刷において使用された印刷装置、フォント、および、記録媒体のうち少なくとも1つを特定する情報を含む、請求項
7に記載の
文字列検索方法。
【請求項9】
前記印刷形態対応付けデータは、前記OCR装置により誤認識された前記文字の画像の印刷において使用された記録媒体としての紙の種類を特定する情報を含み、
前記紙の種類を特定する情報は、前記対象画像の印刷において使用されるインクの滲み易さを識別できる情報を含む、請求項
8に記載の
文字列検索方法。
【請求項10】
テキストを含む対象画像が印刷された記録媒体から当該対象画像を読み取って文字を認識することにより得られるOCR結果としてのテキストデータを検索対象とする文字列検索プログラムであって、
外部から与えられる入力文字列と予め作成された誤認識文字テーブルとから検索語を作成する検索語作成ステップと、
前記検索語作成ステップにより作成された検索語のいずれかに一致する文字列を前記OCR結果としてのテキストデータの中から検索する検索ステップと
を、コンピュータのCPUにメモリを利用して実行させ
、
前記誤認識文字テーブルは、
テキストを含む対象画像が印刷された記録媒体から当該対象画像を読み取って文字を認識するOCR装置において誤認識される可能性が所定の許容範囲を超えるとみなされる文字である誤認識高可能性文字のそれぞれに対し、当該文字の画像が当該OCR装置により誤認識されたときの認識結果としての文字である誤認識文字を対応付ける誤認識文字対応付けデータと、
前記誤認識高可能性文字のそれぞれに対し、当該文字の画像が当該OCR装置により誤認識されたときの当該文字の画像の印刷形態を対応付ける印刷形態対応付けデータと
を含み、
前記検索語作成ステップでは、前記入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致する場合に、前記入力文字列における当該一致する文字をワイルドカードに置き換えることにより検索語を作成し、前記入力文字列におけるいずれの文字も、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれにも一致しない場合に、前記入力文字列を検索語とする、文字列検索プログラム。
【請求項11】
前記印刷形態対応付けデータは、前記OCR装置により誤認識された前記文字の画像の印刷において使用された印刷装置、フォント、および、記録媒体のうち少なくとも1つを特定する情報を含む、請求項
10に記載の
文字列検索プログラム。
【請求項12】
前記印刷形態対応付けデータは、前記OCR装置により誤認識された前記文字の画像の印刷において使用された記録媒体としての紙の種類を特定する情報を含み、
前記紙の種類を特定する情報は、前記対象画像の印刷において使用されるインクの滲み易さを識別できる情報を含む、請求項
11に記載の
文字列検索プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、光学的文字認識(以下「OCR」という)において誤認識され易い文字を集めて作成される誤認識文字テーブル、その作成方法、および、当該誤認識文字テーブルを使用する文字列検索装置等に関する。
【背景技術】
【0002】
従来より、OCR(Optical Character Recognition)の精度を向上させるために種々の手法が提案されている。例えば、OCRのために読み取るべき画像に対し、テキスト部を正確に抽出すべく当該画像の歪み補正や地紋やゴミ等のノイズを除去等の処理を行う手法が知られている(例えば特許文献3参照)。また、大量の学習データを用いた機械学習によりOCRの精度を向上させる手法や、OCRにおいて誤りやすい単語の辞書(以下「誤認識単語辞書」という)を作成する手法も考えられている。
【0003】
なお、本願で開示される誤認識文字テーブルや文字列検索装置に関連して、特許文献1には、OCRにおいて誤認識され易い文字である誤認識文字群を管理する誤認識文字リストを用いて、入力された検索文字列により文書画像のOCR結果を検索する文書画像検索システムが記載されている(段落[0024]等参照)。この文書画像検索システムは、入力された検索文字列による検索結果が得られない場合、入力された検索文字列の一部をワイルドカードに置き換えて再検索を行い、さらに、ワイルドカードを含む検索文字列による検索結果が得られない場合には、誤認識文字リストに基づき検索文字中の一部の文字を別の誤認識文字に置き換えて再検索を行うように構成されている(段落[0068]、[0071]等参照)。また特許文献2には、OCR結果に基づき生成される学習セット(例えば、OCRモジュールによって識別されたキャラクタのそれぞれに対して、それぞれのキャラクタに対応しているとして識別されたイメージレットに対する平均および分散等)を用いてOCRの認識精度を向上させるためシステムや方法等が記載されている(段落[0014]~[0020]等参照)。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2004-213091号公報
【文献】特表2013-509664号公報
【文献】特開2005-196563号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
OCRにより得られるテキストデータに対しキーワード(検索語としての入力文字列)による検索を行うシステムが開発されている。このようなシステムにおいて所望の検索結果を得るために、通常、OCR結果としてのテキストデータを人間が目視で確認して認識誤りを修正したものを検索対象とする手法が採られる。
【0006】
しかし、OCR結果としてのテキストデータの全てを目視で確認するには極めて大きなコストを要する。また、OCR結果において認識誤りの修正漏れが生じた場合、上記のようなシステムにおいて正しい検索結果を得ることができない。また、既述の誤認識単語辞書を作成する場合、新しい語句が現れる度に辞書更新が必要となり、そのためのコストすなわちメンテナンスのコストが継続的に必要である。さらに、同一文字であっても、使用されるプリンタやフォント等によってOCRによる認識結果が相違することがあり、従来の誤認識単語辞書や誤認識文字リストにおいてその相違を調整するのは困難である。
【0007】
そこで、目視による確認や継続的な辞書更新を必要とすることなく、上記テキストデータの生成のためのOCRの対象とすべき画像の印刷に使用されるプリンタやフォント等が異なっても上記の検索を低コストで適切に行えるようにする方法や装置を提供することが望まれる。
【課題を解決するための手段】
【0014】
本発明の第1の局面は、テキストを含む対象画像が印刷された記録媒体から当該対象画像を読み取って文字を認識することにより得られるOCR結果としてのテキストデータを検索対象とする文字列検索装置であって、
テキストを含む対象画像が印刷された記録媒体から当該対象画像を読み取って文字を認識するOCR装置において誤認識される可能性が所定の許容範囲を超えるとみなされる文字である誤認識高可能性文字のそれぞれに対し、当該文字の画像が当該OCR装置により誤認識されたときの認識結果としての文字である誤認識文字を対応付ける誤認識文字対応付けデータと、前記誤認識高可能性文字のそれぞれに対し、当該文字の画像が当該OCR装置により誤認識されたときの当該文字の画像の印刷形態を対応付ける印刷形態対応付けデータとを含む、誤認識文字テーブルと、
外部から与えられる入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致する場合に、前記入力文字列における当該一致する文字をワイルドカードに置き換えることにより検索語を作成し、前記入力文字列におけるいずれの文字も、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれにも一致しない場合には、前記入力文字列を検索語とする検索語作成部と、
前記検索語作成部により得られる検索語に一致する文字列を前記OCR結果としてのテキストデータの中から検索する検索部とを備える。
【0015】
本発明の第2の局面は、本発明の第1の局面において、
前記検索語作成部は、
前記入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致し、かつ、当該一致する文字に対応付けられた印刷形態が前記対象画像の印刷形態と一致する場合に、前記入力文字列における当該一致する文字をワイルドカードに置き換えることにより検索語を作成し、
前記入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致するが、当該一致する文字に対応付けられた印刷形態が前記対象画像の印刷形態と一致しない場合に、前記入力文字列を検索語とする。
【0016】
本発明の第3局面は、テキストを含む対象画像が印刷された記録媒体から当該対象画像を読み取って文字を認識することにより得られるOCR結果としてのテキストデータを検索対象とする文字列検索装置であって、
テキストを含む対象画像が印刷された記録媒体から当該対象画像を読み取って文字を認識するOCR装置において誤認識される可能性が所定の許容範囲を超えるとみなされる文字である誤認識高可能性文字のそれぞれに対し、当該文字の画像が当該OCR装置により誤認識されたときの認識結果としての文字である誤認識文字を対応付ける誤認識文字対応付けデータと、前記誤認識高可能性文字のそれぞれに対し、当該文字の画像が当該OCR装置により誤認識されたときの当該文字の画像の印刷形態を対応付ける印刷形態対応付けデータとを含む、誤認識文字テーブルと、
外部から与えられる入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致する場合に、前記入力文字列を検索語とするとともに、前記入力文字列における当該一致する文字を前記誤認識文字テーブルによって当該一致する文字に対応付けられた他の文字に置き換えることにより検索語を作成し、前記入力文字列におけるいずれの文字も、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれにも一致しない場合に、前記入力文字列を検索語とする検索語作成部と、
前記検索語作成部により得られる検索語のいずれかに一致する文字列を前記OCR結果としてのテキストデータの中から検索する検索部とを備え、
前記検索部は、前記検索語作成部により得られる検索語のいずれに一致する文字列も前記OCR結果としてのテキストデータの中から見出せない場合において、前記入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致するときに、前記入力文字列における当該一致する文字をワイルドカードに置き換えることにより得られる検索語に一致する文字列を前記OCR結果としてのテキストデータの中から検索する。
【0017】
本発明の第4局面は、テキストを含む対象画像が印刷された記録媒体から当該対象画像を読み取って文字を認識することにより得られるOCR結果としてのテキストデータを検索対象とする文字列検索装置であって、
テキストを含む対象画像が印刷された記録媒体から当該対象画像を読み取って文字を認識するOCR装置において誤認識される可能性が所定の許容範囲を超えるとみなされる文字である誤認識高可能性文字のそれぞれに対し、当該文字の画像が当該OCR装置により誤認識されたときの認識結果としての文字である誤認識文字を対応付ける誤認識文字対応付けデータと、前記誤認識高可能性文字のそれぞれに対し、当該文字の画像が当該OCR装置により誤認識されたときの当該文字の画像の印刷形態を対応付ける印刷形態対応付けデータとを含む、誤認識文字テーブルと、
外部から与えられる入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致し、かつ、当該一致する文字に対応付けられた印刷形態が前記対象画像の印刷形態と一致する場合に、前記入力文字列を検索語とするとともに、前記入力文字列における当該一致する文字を前記誤認識文字テーブルによって当該一致する文字に対応付けられた他の文字に置き換えることにより検索語を作成し、前記入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致するが、当該一致する文字に対応付けられた印刷形態が前記対象画像の印刷形態と一致しない場合に、前記入力文字列のみを検索語とする、検索語作成部と、
前記検索語作成部により得られる検索語のいずれかに一致する文字列を前記OCR結果としてのテキストデータの中から検索する検索部と
を備え、
前記検索部は、前記検索語作成部により得られる検索語のいずれに一致する文字列も前記OCR結果としてのテキストデータの中から見出せない場合において、前記入力文字列におけるいずれかの文字が、前記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致するときに、前記入力文字列における当該一致する文字をワイルドカードに置き換えることにより得られる検索語に一致する文字列を前記OCR結果としてのテキストデータの中から検索する。
【0021】
本発明の他の局面は、本発明の上記局面ならびに後述の実施形態およびその変形例に関する説明から明らかであるので、その説明を省略する。
【発明の効果】
【0028】
本発明の第1の局面によれば、外部から与えられる入力文字列におけるいずれかの文字が、誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致する場合に、その入力文字列における当該一致する文字をワイルドカードに置き換えることにより検索語が作成され、その検索語に一致する文字列がOCR結果としてのテキストデータの中から検索される。これにより、当該OCR結果としてのテキストデータに誤認識文字が含まれる場合であっても検索漏れを抑制することができる。このようにしてワイルドカードを含む検索語を作成するために使用される当該誤認識文字テーブルには、複数の異なる印刷形態のいずれかで印刷された画像に対してOCR装置によりいずれかの文字が誤認識されると当該文字が登録される。このため、検索対象としてのテキストデータを作成するためのOCRの対象画像の印刷形態が異なっても、検索漏れを確実に抑制することができる。また、当該誤認識文字テーブルが文字列検索装置において使用されると、その検索対象としてのテキストデータをOCR装置により作成するときに当該テキストデータを目視で確認する作業や誤認識単語辞書の更新作業等が不要となり、これらの作業のためのコストが削減される。
【0029】
本発明の第2の局面によれば、外部から与えられる入力文字列におけるいずれかの文字が、上記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致し、かつ、当該一致する文字に対応付けられた印刷形態がOCRの対象画像の印刷形態と一致する場合に、その入力文字列における当該一致する文字をワイルドカードに置き換えることにより検索語が作成され、当該入力文字列におけるいずれかの文字が、上記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致しても、当該一致する文字に対応付けられた印刷形態がOCRの対象画像の印刷形態と一致しない場合には、入力文字列が検索語とされ、ワイルドカードは使用されない。これにより、本発明の第1の局面と同様の効果を奏しつつ、余分なまたは不適切な検索結果の出力が抑制される。
【0030】
本発明の第3の局面によれば、外部から与えられる入力文字列におけるいずれかの文字が、上記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致する場合に、その入力文字列が検索語とされるとともに、その入力文字列における当該一致する文字を上記誤認識文字テーブルによって当該一致する文字に対応付けられた他の文字に置き換えることにより検索語が作成される。これにより、本発明の第1の局面と同様の効果が得られる。ただし、余分なまたは不適切な検索結果の出力抑制の点では本発明の第3の局面の方が有利である。また、本発明の第3の局面によれば、検索語作成部により得られる検索語のいずれに一致する文字列もOCR結果としてのテキストデータの中から見出せない場合において、上記入力文字列におけるいずれかの文字が、上記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致するときに、上記入力文字列における当該一致する文字をワイルドカードに置き換えることにより得られる検索語に一致する文字列がOCR結果としてのテキストデータの中から検索される。これにより、余分なまたは不適切な検索結果の出力を抑制しつつ検索漏れが抑制される。
【0031】
本発明の第4の局面によれば、外部から与えられる入力文字列におけるいずれかの文字が、上記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致し、かつ、当該一致する文字に対応付けられた印刷形態がOCRの対象画像の印刷形態と一致する場合に、その入力文字列が検索語とされるとともに、その入力文字列における当該一致する文字を上記誤認識文字テーブルによって当該一致する文字に対応付けられた他の文字に置き換えることにより検索語が作成され、その入力文字列におけるいずれかの文字が、上記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致しても、当該一致する文字に対応付けられた印刷形態がOCRの対象画像の印刷形態と一致しない場合には、その入力文字列のみが検索語とされる。また、本発明の第4の局面によれば、検索語作成部により得られる検索語のいずれに一致する文字列もOCR結果としてのテキストデータの中から見出せない場合において、上記入力文字列におけるいずれかの文字が、上記誤認識文字テーブルに登録された誤認識高可能性文字および誤認識文字のいずれかに一致するときに、上記入力文字列における当該一致する文字をワイルドカードに置き換えることにより得られる検索語に一致する文字列がOCR結果としてのテキストデータの中から検索される。これにより、本発明の第3の局面と同様の効果を奏しつつ、余分なまたは不適切な検索結果の出力が更に抑制される。
【0033】
本発明の他の局面の効果については、本発明の上記局面の効果ならびに下記実施形態およびその変形例の効果についての説明から明らかであるので、説明を省略する。
【図面の簡単な説明】
【0034】
【
図1】本発明の一実施形態に係る誤認識文字テーブルの作成に使用されるシステムの構成を示すブロック図である。
【
図2】上記誤認識文字テーブルの作成に使用されるシステムにおいて誤認識文字テーブル作成装置として機能するコンピュータのハードウェア構成を示すブロック図である。
【
図3】上記誤認識文字テーブルを作成するための処理(誤認識文字テーブル作成処理)を示すフローチャートである。
【
図4】上記誤認識文字テーブルの一例を示す図である。
【
図5】上記誤認識文字テーブルを備える文字列検索装置の一例を説明するための図である。
【
図6】
図5に示す文字列検索装置におけるハードウェア構成を示すブロック図である。
【
図7】
図5に示す文字列検索装置において使用される検索語を説明するための図である。
【
図8】
図5に示す文字列検索装置における文字列検索処理の一例を示すフローチャートである。
【
図9】
図5に示す文字列検索装置における文字列検索処理の別例を示すフローチャートである。
【
図10】上記誤認識文字テーブルを利用したOCR調整量テーブル作成処理の一例を示すフローチャートである。
【
図11】
図10に示すOCR調整量テーブル作成処理により作成されるOCR調整量テーブルの一例を示す図である。
【
図12】
図10に示すOCR調整量テーブル作成処理により作成されるOCR調整量テーブルを用いたOCR処理(光学的文字認識処理)を示すフローチャートである。
【
図13】
図5に示す文字列検索装置の第1の変形例における文字列検索処理を示すフローチャートである。
【
図14】
図5に示す文字列検索装置の第2の変形例における文字列検索処理を示すフローチャートである。
【
図15】
図5に示す文字列検索装置の第3の変形例における文字列検索処理を示すフローチャートである。
【発明を実施するための形態】
【0035】
以下、添付図面を参照しつつ本発明の実施形態について説明する。
【0036】
<1.全体構成>
図1は、本発明の一実施形態に係る誤認識文字テーブルの作成に使用されるシステムの構成を示すブロック図である。本システムは、コンピュータ10とスキャナ20と第1から第3プリンタP1~P3とを備えている。コンピュータ10と第1から第3プリンタP1~P3とは、LAN(Loacal Area Network)によって通信可能に接続されており、スキャナ20はコンピュータ10に接続されている。コンピュータ10は、所定のプログラムを実行することにより、印刷制御装置として機能し、OCR装置としても機能し、また、誤認識テーブル作成装置としても機能する。また、第1から第3プリンタP1~P3は、互いに異なる解像度を有しており、各プリンタPi(i=1,2,3)は、記録媒体として3種類の用紙すなわち用紙S1~S3を選択的に使用できるように構成されている。これら3種類の用紙は、互いにインクの滲み易さの異なる用紙である。なお、
図1に示す例では、コンピュータ10は、第1から第3プリンタP1~P3からなる3台のプリンタのいずれをも選択的に使用でき、第1から第3プリンタP1~P3のそれぞれは、3種類の用紙S1~S3のいずれをも選択的に使用できるが、選択的に使用可能なプリンタは2台または4台以上であってもよく、また、各プリンタで選択的に使用可能な用紙は、2種類または4種類以上であってもよい。また、プリンタ間で使用可能な用紙の種類が異なっていてもよい。
【0037】
図2は、コンピュータ10のハードウェア構成を示すブロック図である。このコンピュータ10は、本体11、補助記憶装置12、光ディスクドライブ13、表示部14、キーボード15、およびマウス16を備えている。本体11は、CPU111、メモリ112、第1ディスクインタフェース部113、第2ディスクインタフェース部114、表示制御部115、入力インタフェース部116、およびネットワークインタフェース部117を含んでいる。CPU111、メモリ112、第1ディスクインタフェース部113、第2ディスクインタフェース部114、表示制御部115、入力インタフェース部116、およびネットワークインタフェース部117は、システムバスを介して互いに接続されている。第1ディスクインタフェース部113には補助記憶装置12が接続されている。第2ディスクインタフェース部114には光ディスクドライブ13が接続されている。表示制御部115には、表示部(表示装置)14が接続されている。入力インタフェース部116には、キーボード15およびマウス16が接続されている。ネットワークインタフェース部117には、ネットワーク(LAN)3が接続されている。補助記憶装置12は磁気ディスク装置等である。光ディスクドライブ13には、DVD(Digital Versatile Disc)またはCD-ROM(Compact Disc Read Only Memory)等のコンピュータ読み取り可能な記録媒体としての光ディスク17が挿入される。表示部14は液晶ディスプレイ等である。表示部14は、使用者が所望する情報を表示するために使用される。キーボード15およびマウス16は、このコンピュータ10に対して使用者が指示を入力するために使用される。
【0038】
補助記憶装置12には、誤認識文字テーブルを作成するためのプログラム(以下「誤認識文字テーブル作成プログラム」という)18が格納されている。この誤認識文字テーブルは、
図4に示すように、OCRにおいて誤認識される可能性の高い文字を誤認識高可能性文字として集め、誤認識高可能性文字のそれぞれにつき、OCRの対象とすべき画像(以下「OCR対象画像」という)の作成のための印刷形態を特定する幾つかの情報(プリンタやフォントの識別情報等)を対応づけるものである(詳細は後述)。CPU111は、補助記憶装置12に格納された誤認識文字テーブル作成プログラム18をメモリ112に読み出して実行することにより、誤認識文字テーブルを作成するための各種機能を実現する。メモリ112は、RAM(Random Access Memory)およびROM(Read Only Memory)を含んでいる。メモリ112は、補助記憶装置12に格納された誤認識文字テーブル作成プログラム18をCPU111が実行するためのワークエリアとして機能する。なお、誤認識文字テーブル作成プログラム18は、上記DVD等のコンピュータ読み取り可能な記録媒体(非一過性の記録媒体)に格納されて提供される。すなわち、使用者は、例えば、誤認識文字テーブル作成プログラム18の記録媒体としての光ディスク17を購入して光ディスクドライブ13に挿入し、光ディスク17から誤認識文字テーブル作成プログラム18を読み出して補助記憶装置12にインストールする。また、これに代えて、LAN3等のネットワークを介して送信される誤認識文字テーブル作成プログラム18をネットワークインタフェース部117で受信して、それを補助記憶装置12にインストールするようにしてもよい。なお、誤認識文字テーブル作成プログラム18がCPU111により実行されることにより、誤認識テーブルの作成に必要なOCR対象の文字画像の印刷のためにプリンタP1~P3を制御する機能、および、印刷された当該文字画像を光学的に読み取って文字を認識するOCR機能が実現される。
【0039】
<2.誤認識文字テーブル作成処理>
図3は、本実施形態に係る誤認識文字テーブルを作成するためにコンピュータ10において上記誤認識文字テーブル作成プログラムに基づき実行される処理(以下「誤認識文字テーブル作成処理」という)を示すフローチャートである。すなわち、
図1に示すシステムにおいて、コンピュータ10内のCPU111は、誤認識文字テーブルを作成するために上記誤認識文字テーブル作成プログラムにしたがって下記のように動作する。なお、上記誤認識文字テーブル作成プログラムの起動時すなわち誤認識文字テーブル作成処理の開始時において、第1から第3プリンタP1~P3はいずれも未使用状態であり、各プリンタPi(i=1,2,3)での印刷に使用可能な用紙S1~S3はいずれも未使用状態であり、各プリンタPiで使用可能なフォントも全て未使用状態であるものとする。
【0040】
まずCPU111は、
図1のシステムにおける第1から第3プリンタP1~P3のうち未使用のプリンタのいずれか1つを使用すべきプリンタ(以下「使用プリンタ」という)Psとして設定する(ステップS101)。誤認識文字テーブル作成処理の開始後、最初に当該ステップS101が実行される直前では、第1から第3プリンタP1~P3の全てが未使用状態である。次に、使用プリンタPsで使用可能なフォント(通常は「明朝」や「ゴシック」等の複数のフォントが使用可能)のうち未使用のいずれかのフォントを使用フォントFsとして設定する(ステップS102)。続いて、使用プリンタPsで使用可能な3種類の用紙S1~S3のうち未使用のいずれかの種類の用紙を使用用紙Ssとして設定する(ステップS103)。
【0041】
その後、使用プリンタPsにより使用フォントFsを使用して、OCR対象文字の全てを使用用紙Ssに文字画像として印刷する(ステップS104)。ここで、OCR対象文字とは、スキャナ20で読み取る画像から認識すべき文字の全て、すなわち、スキャナ20とコンピュータ10とそこで実行される誤認識文字テーブル作成プログラムとにより実現されるOCR装置80の認識対象となり得る文字の全てをいう。
【0042】
次に、ステップS104で印刷されたOCR対象文字の画像をスキャナ20により対象画像として読み取り(ステップS106)、対象画像における各文字をパターン認識により特定して文字コードを生成しOCR結果文字として出力する(ステップS108)。なお、ステップS106で読み取るべき対象画像が印刷された用紙は手作業によりスキャナ20の読み取る位置に移動させるものとするが、これに代えて、当該印刷された用紙を使用プリンタPsからスキャナ20へ移動させる機構を備え、当該機構をコンピュータ10で制御するようにしてもよい。
【0043】
その後、誤認識文字テーブルに登録すべき文字を決定すべく下記の処理を行う。
まず、OCR対象文字のいずれか1つと、それに対応するOCR結果文字の1つに着目する(ステップS110)。なお、ステップS108が実行された直後では、OCR対象文字の全ておよびOCR結果文字の全ては未着目の状態である。
【0044】
次に、着目した2つの文字が互いに一致しているか否か、すなわち、着目した1つのOCR対象文字(以下「着目OCR対象文字」という)のコードと着目した1つのOCR結果文字(以下「着目OCR結果文字」という)のコードとが互いに一致しているか否かを判定する(ステップS112)。この判定の結果、当該着目した2つの文字が互いに一致している場合には誤認識は生じていないものとしてステップS116へ進み、当該着目した2つの文字が互いに異なる場合には誤認識が生じたものとしてステップS114へ進む。
【0045】
ステップS114へ進んだ場合、下記事項を互いに対応付けて下記のように誤認識文字テーブル(以下、単に「テーブル」ともいう)に登録し、その後、ステップS116へ進む。
(1)着目OCR対象文字のコードをテーブルに格納することにより、当該文字を「誤認識高可能性文字」として登録する。
(2)着目OCR結果文字のコードをテーブルに格納することにより、当該文字を「誤認識文字」として登録する。
(3)対象画像の印刷に使用されたプリンタPs、フォントFs、用紙Ssを示すデータを格納することにより、当該プリンタPs、当該フォントPs、および当該用紙Ssによって特定される印刷形態を登録する。例えば
図4に示すように、OCR対象文字の1つである「ソ」(ローマ字表記の“SO”に相当する文字)が「ン」(ローマ字表記の“N”に相当する文字)として認識された場合、すなわち着目OCR対象文字の「ソ」に対する着目OCR結果文字が「ン」である場合、「ソ」が誤認識高可能性文字(文字1)として登録されるとともに、これに対応付けて、「ン」が誤認識文字(文字2)として登録され、さらにOCR対象文字の「ソ」を含む対象画像の印刷形態を特定するプリンタPs,フォントFs、用紙Ssが登録される。
図4に示す例では、プリンタPsとして「プリンタP1」が、フォントFsとして「明朝」が、用紙Ssとして「用紙S1」がそれぞれ登録される。
【0046】
ステップS116では、未着目のOCR対象文字があるか否かを判定する。この判定の結果、未着目のOCR対象文字がある場合には、ステップS110へ戻る。以降、未着目のOCR対象文字がなくなるまでステップS110~S116を繰り返し実行し、未着目のOCR対象文字がなくなると、ステップS118へ進む。この時点では、1つの印刷形態の対象画像におけるOCR対象文字の全てにつき誤認識されたか否かが判定されており、誤認識された文字については誤認識文字テーブルに上記(1)~(3)の登録が行われている。
【0047】
ステップS118では、使用プリンタPsで使用可能な全ての種類の用紙(
図1のシステムでは3種類の用紙S1~S3)が使用されたか否かを判定する。この判定の結果、全ての種類の用紙が使用されてはいない場合には、全てのOCR対象文字を未着目状態とし(ステップS119)、ステップS103へ戻る。以降、全ての種類の用紙S1~S3が使用されるまでステップS103~S119を繰り返し実行し、全ての種類の用紙S1~S3が使用されると、ステップS120へ進む。
【0048】
ステップS120では、使用プリンタPsで使用可能な全てのフォントが使用されたか否かを判定する。この判定の結果、全てのフォントが使用されてはいない場合には、全てのOCR対象文字を未着目状態とし、使用プリンタPsで使用可能な全ての種類の用紙を未使用状態として(ステップS121)、ステップS102へ戻る。以降、全てのフォントが使用されるまでステップS102~S121を繰り返し実行し、全てのフォントが使用されると、ステップS122へ進む。
【0049】
ステップS122では、誤認識文字テーブルの作成に使用可能な全てのプリンタ(
図1のシステムでは3台のプリンタP1~P3)が使用されたか否かを判定する。この判定の結果、全てのプリンタが使用されてはいない場合(いずれかのプリンタが未使用の場合)には、全てのOCR対象文字を未着目状態とし、使用プリンタPsで使用可能な全ての種類の用紙および全てのフォントを未使用状態として(ステップS123)、ステップS101へ戻る。以降、全てのプリンタが使用されるまでステップS101~S123を繰り返し実行し、全てのプリンタが使用されると、誤認識文字テーブル作成処理を終了する。
【0050】
このようにして誤認識文字テーブル作成処理を終了した時点では、OCR対象文字の全てが、プリンタとフォントと用紙の種類で特定される印刷形態の全てで印刷され、当該印刷により得られる対象画像における各文字がパターン認識(OCR)により特定されてOCR結果として出力され、それらのOCR結果に基づき誤認識の発生の有無が判定され、その判定結果に基づき誤認識文字テーブルが作成されている。
図4は、このようにして作成される誤認識文字テーブルの一例を示している。
【0051】
<3.文字列検索装置>
上記のような本実施形態に係る誤認識文字テーブル(
図4参照)は、テキストを含む画像からOCR装置によって認識される文字からなるテキストデータを検索対象とし、外部から入力される文字列に一致する文字列を当該テキストデータにおいて探す文字列検索装置において使用することができる。
【0052】
<3.1 構成>
図5は、このような文字列検索装置を備える検索システムの構成を示す概略図である。この検索システムは、検索すべき文字列を使用者の操作によって入力するための検索用端末装置30と、その検索用端末装置30において入力された検索語としての文字列(以下「入力文字列」という)に一致する文字列を検索対象としてのテキストデータの中から探す文字列検索装置40と、当該テキストデータを作成するためのOCR装置80とを備えている。検索用端末装置30および文字列検索装置40は、インターネット5に接続されており、インターネット5によってよって互いに通信可能である。また、文字列検索装置40とOCR装置80とは、LANによって互いに通信可能に接続されている。なお、
図5の検索システムは、1台の検索用端末装置30を含んでいるが、複数台の検索用端末装置を含んでいてもよい。
【0053】
検索用端末装置30は、パーソナルコンピュータ(以下「パソコン」と略記する)において所定プログラムを実行することにより実現されている。すなわち、当該所定プログラムに基づき検索用端末装置30は、使用者の入力操作に応じて、文字列検索装置40内のテキストデータDtxにおいて検索すべき文字列を入力文字列として受け取ると、その入力文字列をインターネット5を介して文字列検索装置40に送り、その後、文字列検索装置40からその入力文字列に基づく検索結果を受け取って表示するように構成されている。
【0054】
文字列検索装置40は、
図5に示すように、検索処理装置45と、それに接続された補助記憶装置46と、検索処理装置45およびOCR装置80からLAN3を介してアクセス可能に構成されたネットワーク接続記憶装置(Network Attached Storage)(以下「NAS」という)48とを備えている。検索処理装置45は、パソコンにおいて後述の文字列検索プログラムSpgを実行することにより実現されている。補助記憶装置46およびNAS48は磁気ディスク等を用いて構成されている。補助記憶装置46には、既述の誤認識文字テーブル作成処理により作成された誤認識文字テーブルEtblと後述の文字列検索プログラムSpgとが格納されており、NAS48には、検索対象としてのテキストデータDtxが格納されている。
【0055】
OCR装置80は、OCR処理装置85と、それに接続されたスキャナ86とを備えている。OCR処理装置85は、パソコンを用いて実現されており、OCRプログラムに基づき、スキャナ86によりテキストを含む画像を読み取り、パターン認識により当該画像に含まれる文字を特定することでOCR結果としてのテキストデータを生成する。このテキストデータは、LAN3を介してNAS48に送られ、文字列検索装置40における検索対象のテキストデータDtxとしてNAS48に格納される。このテキストデータDtxには、スキャナ86により読み取られるOCR対象画像の印刷時の出力条件、すなわち当該OCR対象画像の印刷に使用されたプリンタ、フォント、および用紙の種類により特定される印刷形態を示す情報も含まれている。なお、OCR処理装置85を実現するために使用されるOCRプログラムは、特に限定されるものではなく、既知のプログラムを使用することができる。
【0056】
<3.2 検索処理装置および文字列検索処理>
図6は、
図5に示す文字列検索装置40における検索処理装置45のハードウェアとしてのパソコンの構成(検索処理装置45のハードウェア構成)を示すブロック図である。この検索処理装置45のハードウェア構成は、内蔵の補助記憶装置12に代えて外付けの補助記憶装置46を備える点で
図2のコンピュータ10のハードウェア構成と相違するが、その他の点では
図2のコンピュータ10のハードウェア構成と同様であるので、同一部分には同一の参照符号を付して詳しい説明を省略する。なお、
図5に示す文字列検索装置40では、補助記憶装置46は検索処理装置45に外付けされているが、検索処理装置45に内蔵されていてもよい。
【0057】
既述のように補助記憶装置46には、誤認識文字テーブルEtblおよび文字列検索プログラムSpgが格納されている。検索処理装置45内のCPU111は、補助記憶装置46に格納された文字列検索プログラムSpgをメモリ112に読み出して実行し、これにより後述の文字列検索処理が実現される。なお、文字列検索プログラムSpgは、DVD等のコンピュータ読み取り可能な記録媒体(非一過性の記録媒体)に格納されて提供される。すなわち使用者は、例えば、文字列検索プログラムSpgの記録媒体としての光ディスク17を購入して光ディスクドライブ13に挿入し、光ディスク17から文字列検索プログラムSpgを読み出して補助記憶装置46にインストールする。また、これに代えて、インターネット5を介して送信される文字列検索プログラムSpgをネットワークインタフェース部117で受信して、それを補助記憶装置46にインストールするようにしてもよい。
【0058】
検索処理装置45は、検索用端末装置30からインターネット5を介して入力文字列を受け取り、この入力文字列に基づき、NAS48に格納されたOCR結果としてのテキストデータDtxを検索する。このとき、入力文字列を検索語として使用するだけでなく、
図7に示すように、入力文字列から誤認識文字テーブルEtblを用いて作成された新たな検索語も用いて文字列の検索を行う(詳細は後述)。以下、検索処理装置45により実行される文字列検索処理につき、
図8および
図9に示す2つの例を説明する。なお、検索処理装置45は、
図8に示す文字列検索処理と
図9に示す文字列検索処理とを選択的に実行可能で、これら2つの文字列検索処理のうちいずれを実行するかを使用者の入力操作により指定できるように構成されていてもよい。
【0059】
<3.2.1 文字列検索処理の一例>
図8は、検索処理装置45において実行される文字検索処理の一例を示すフローチャートである。当該文字列検索処理が実行される場合、検索処理装置45のハードウェアとしてのパソコンのCPU111は、文字列検索プログラムSpgに基づき下記のように動作する。
【0060】
図8の文字列検索処理に対応する文字列検索プログラムSpgが起動されると、CPU111は、検索用端末装置30から検索ための入力文字列を受け取るまで待機する状態となり、入力文字列を受け取ると(ステップS201)、当該入力文字列における未着目の文字のいずれかに着目する(ステップS203)。なお、入力文字列を受け取った時点では、当該入力文字列における全ての文字は未着目状態である。
【0061】
次に、着目文字が誤認識文字テーブルEtblに登録されているか否かを判定する(ステップS204)。
図4に示す誤認識文字テーブルEtblが使用される場合、着目文字が、このテーブルEtblに文字1として登録されている文字(「ソ」、「タ」、「高」、…、「リ」、…)、文字2として登録されている文字(「ン」、「タ」、「▲高▼(はしご高)」、…、「ソ」、…)、および、文字3として登録されている文字(「ク」、…「ン」、…)のいずれかの文字であるか否かを判定する。ここで、“はしご高”と呼ばれている「高」の異体字(Unicode“9AD9”が割り当てられている文字)を、便宜上、「▲高▼」と表記するものとする(以下においても同様)。ステップS204での判定の結果、着目文字が誤認識文字テーブルEtblに登録されている場合にはステップS206へ進み、着目文字が誤認識文字テーブルEtblに登録されていない場合にはステップS208へ進む。
【0062】
ステップS206へ進んだ場合、着目文字はOCR装置80により誤認識される可能性が許容範囲を超えるとみなし、入力文字列における着目文字をワイルドカード(「?」)に置き換え(ステップS206)、その後、ステップS208へ進む。
【0063】
ステップS208では、入力文字列に未着目の文字があるか否かを判定する。この判定の結果、入力文字列に未着目の文字がある場合には、ステップS203へ戻る。以降、入力文字列において未着目の文字がなくなるまでステップS203~S208を繰り返し実行し、未着目の文字がなくなると、ステップS210へ進む。この時点では、入力文字列に含まれる文字のうち誤認識文字テーブルEtblに登録されている文字は、いずれも、OCR装置80により誤認識される可能性が許容範囲を超えるとみなされ、ワイルドカードに置き換えられている。
【0064】
ステップS210では、この入力文字列を検索語とし、当該検索語に一致する文字列を、NAS48に格納された検索対象としてのテキストデータDtxの中から検索する。
【0065】
その後、上記検索による検索結果が検索用端末装置30で表示されるように、当該検索結果を示すデータをインターネット5を介して検索用端末装置30に送る(ステップS212)。これにより、検索用端末装置30において、例えば、検索対象としてのテキストデータDtxのうちステップS210の時点での入力文字列(例えば
図7に示す検索語2の文字列)に一致する文字列を含む文または段落等が当該文字列をハイライト状態にして表示される。
【0066】
上記のような文字列検索処理によれば、例えば
図7に示すように、検索用端末装置30から受け取る入力文字列(検索語1)が「ベンチャー」であるとすると(ステップS201)、
図4に示すように文字「ン」が誤認識文字テーブルに登録されているので、ステップS210では、検索語2としての入力文字列「ベ?チャー」に一致する文字列がテキストデータDtxの中から検索される。これにより、OCR結果としてのテキストデータDtxにおいて、「ベンチャー」という語における文字「ン」が誤認識されて「ベソチャー」として含まれている場合であっても、ワイルドカードを含む「ベ?チャー」という検索語に一致する文字列として「ベソチャー」を含む文または段落等が検索結果として表示される。なお、検索語における“?”は任意の1文字を表すものとする(以下においても同様)。
【0067】
また、例えば
図7に示すように、検索用端末装置30から受け取る入力文字列(検索語1)が「高島」であるとすると(ステップS201)、
図4に示すように文字「高」が誤認識文字テーブルに登録されているので、ステップS210では、検索語2としての入力文字列「?島」に一致する文字列がテキストデータDtxの中から検索される。これにより、OCR結果としてのテキストデータDtxにおいて、「高島」という語における文字「高」が誤認識されて「▲高▼島」として含まれている場合であっても、ワイルドカードを含む「?島」という検索語に一致する文字列として「▲高▼島」を含む文または段落等が検索結果として表示される。
【0068】
このように、OCR結果としてのテキストデータDtxが検索対象であって、その中にOCR装置80により誤認識された文字が含まれる場合であっても、検索漏れを抑制することができる。また、
図8の文字列検索処理においてワイルドカードを含む検索語の作成に使用される誤認識文字テーブルEtblには、プリンタや、フォント、用紙の種類の異なる種々の印刷形態のいずれかで印刷された画像に対してOCR装置によりいずれかの文字が誤認識されると当該文字が登録される。このため、検索対象としてのテキストデータDtxを作成するためのOCR対象画像の印刷形態が異なっても、検索漏れを確実に抑制することができる。
【0069】
<3.2.2 文字列検索処理の別例>
図9は、検索処理装置45において実行される文字検索処理の別例を示すフローチャートである。当該文字列検索処理が実行される場合、検索処理装置45のハードウェアとしてのパソコンのCPU111は、文字列検索プログラムSpgに基づき下記のように動作する。なお、本例の文字列検索処理におけるステップのうち
図8に示す上記一例の文字列検索処理と同一部分には、同一のステップ番号を付し、詳しい説明を省略する。
【0070】
図9の文字列検索処理に対応する文字列検索プログラムSpgが起動されると、CPU111は、検索用端末装置30から検索のための入力文字列を受け取るまで待機する状態となり、入力文字列を受け取ると(ステップS201)、当該入力文字列を1つの検索語として、検索に使用すべき検索語群に含める(ステップS202)。なお、文字列検索プログラムが起動された後、ステップS202が実行される直前では、当該検索語群にはいずれの検索語も含まれていない。
【0071】
次に、当該入力文字列における未着目の文字のいずれかに着目し(ステップS203)、着目文字が誤認識文字テーブルEtblに登録されているか否かを判定する(ステップS204)。この判定の結果、着目文字が誤認識文字テーブルEtblに登録されている場合にはステップS220へ進み、着目文字が誤認識文字テーブルEtblに登録されていない場合にはステップS222へ進む。
【0072】
ステップS220へ進んだ場合、着目文字はOCR装置80により誤認識される可能性が許容範囲を超えるとみなし、検索語群に含まれる各検索語における着目文字を、誤認識文字テーブルにより当該着目文字に対応付けられる他の文字に置き換えることにより、検索語を新たに作成して検索語群に含める。その後、ステップS222へ進む。
【0073】
ステップS222では、入力文字列に未着目の文字があるか否かを判定する。この判定の結果、入力文字列に未着目の文字がある場合には、ステップS203へ戻る。以降、入力文字列において未着目の文字がなくなるまでステップS203~S222を繰り返し実行し、未着目の文字がなくなると、ステップS224へ進む。この時点では、入力文字列に含まれる文字のうち誤認識文字テーブルEtblに登録されている文字は、いずれもOCR装置80により誤認識される可能性が許容範囲を超えるとみなされ、入力文字列において当該登録されている文字のすくなくとも1つを誤認識文字テーブルEtblにより対応付けられる他の文字にそれぞれ置き換えることにより得られる検索語の全てが、新たに作成されて検索語群に含められている。
【0074】
ステップS224では、検索語群におけるいずれかの検索語に一致する文字列を、NAS48に格納された検索対象としてのテキストデータDtxの中から検索する。
【0075】
その後、上記検索による検索結果が検索用端末装置30で表示されるように、当該検索結果を示すデータをインターネット5を介して検索用端末装置30に送る(ステップS226)、例えば、検索語群における各検索語につき、テキストデータDtxにおいて当該検索語(例えば
図7に示す検索語3の文字列)に一致する文字列を含む文または段落等が当該文字列をハイライト状態にして表示される。
【0076】
上記のような文字列検索処理によれば、例えば
図7に示すように、検索用端末装置30から受け取る入力文字列(検索語1)が「ベンチャー」であるとすると(ステップS201)、
図4に示すように、文字「ン」が誤認識文字テーブルEtblにおいて登録されているとともに、文字「ン」が誤認識文字テーブルEtblにより文字「ソ」と対応付けられているので、ステップS224では、
図7において“べ(ン|ソ)チャー”(検索語3)として表記されている2つの文字列「ベンチャー」および「ベソチャー」のそれぞれにつき、一致する文字列がテキストデータDtxの中から検索される。これにより、OCR結果としてのテキストデータDtxにおいて、「ベンチャー」という語における文字「ン」が誤認識されて「ベソチャー」として含まれている場合であっても、検索語群に含まれる1つの検索語に一致する文字列として「ベソチャー」を含む文または段落等が検索結果として表示される。
【0077】
また、例えば
図7に示すように、検索用端末装置30から受け取る入力文字列(検索語1)が「高島」であるとすると(ステップS201)、
図4に示すように、文字「高」が誤認識文字テーブルEtblにおいて登録されているとともに、文字「高」が誤認識文字テーブルEtblにより文字「▲高▼」と対応付けられているので(
図4のID=3の行を参照されたい)、ステップS224では、
図7において“(高|▲高▼)島”(検索語3)として表記されている2つの文字列「高島」および「▲高▼島」のそれぞれにつき、一致する文字列がテキストデータDtxの中から検索される。
【0078】
このように、
図9の文字列検索処理によれば、OCR結果としてのテキストデータDtxが検索対象であって、その中にOCR装置80により誤認識された文字が含まれる場合であっても検索漏れを抑制することができ、
図8の文字列検索処理と同様の効果が得られる。ただし、
図9の文字列検索処理では、入力文字列における文字のうち誤認識文字テーブルEtblに登録されている文字がワイルドカードに置き換えられるのではなく、当該文字が誤認識文字テーブルEtblによりそれに対応付けられる他の文字に置き換えられることから、不適切または余分な検索結果の出力を抑えるという点で、
図9の文字列検索処理は
図8の文字列検索処理よりも有利である。一方、検索漏れを抑制するという点では、
図8の文字列検索処理は
図9の文字列検索処理よりも有利である。
【0079】
<4.OCR調整量テーブルとOCR処理>
本実施形態に係る誤認識文字テーブル(
図4参照)は、OCR装置による文字認識の精度(以下「OCR精度」という)を向上させるためのOCR調整量テーブルを作成するために使用することができる。このOCR調整量テーブルは、OCR対象画像の印刷に使用されるプリンタや、フォント、用紙の種類等により特定される印刷形態に対し、OCR対象画像を読み取って文字を認識する処理(以下「OCR処理」という)における適切な調整量を対応付けるテーブルであり、例えば
図11に示すように構成されている。
【0080】
このようなOCR調整量テーブルは、
図2に示すように構成されたコンピュータ10で所定プログラムに基づき
図10に示すようなOCR調整量テーブル作成処理を実行することにより作成することができる。以下、
図10を参照して、このOCR調整量テーブル作成処理につき説明する。なお、このOCR調整量テーブル作成処理の開始時において、使用可能なプリンタはいずれも未使用状態であり、使用可能な各プリンタでの印刷に使用可能な用紙はいずれも未使用状態であり、各プリンタで使用可能なフォントも全て未使用状態であるものとする。また、
図10において「OCR調整量」とは、OCR装置においてスキャナで読み取った画像に対して文字認識のために施される画像処理におけるいずれか1つの調整量であり、例えば、読み取った画像に含まれる文字の画像に対する縦方向調整量(縦方向の太らせまたは細らせの量)または横方向調整量(横方向の太らせまたは細らせの量)等である(
図11参照)。
【0081】
図10のOCR調整量テーブル作成処理では、まず、OCR対象画像(テキストを含む画像)の印刷に使用可能なプリンタのうち未使用のいずれかのプリンタを使用プリンタPsとして設定する(ステップS301)。次に、使用プリンタPsで使用可能なフォントのうち未使用のいずれかのフォントを使用フォントFsとして設定する(ステップS302)。続いて、使用プリンタPsで使用可能な種類の用紙のうち未使用のいずれかの種類の用紙を使用用紙Ssとして設定する(ステップS303)。
【0082】
次に、OCR調整量を予め決められた最小値に設定する(ステップS304)。
【0083】
その後、OCR対象文字(OCR装置の認識対処となり得る全ての文字)のうち誤認識文字テーブルに登録されている文字をOCR調整対象文字とし、OCR調整対象文字のうち未着目のいずれかの文字に着目する(ステップS306)。なお、このOCR調整量テーブル作成処理の開始後、最初にステップS306が実行される直前では、OCR調整対象文字は全て未着目状態である。
【0084】
次に、着目文字を使用プリンタPsにより使用フォントFsを使用して印刷し、OCR装置(例えば
図5に示すOCR装置80)によりその印刷された着目文字を画像として読み取ってパターン認識で文字を決定し、当該文字(のコードデータ)をOCR結果文字として出力する(ステップS308)。
【0085】
その後、着目文字(着目したOCR対象文字)とそれに対応するOCR結果文字とを比較し、両文字が一致しているか否かを示すデータを比較結果として保存する(ステップS310)。
【0086】
次に、未着目のOCR調整対象文字があるか否かを判定する(ステップS312)。この判定の結果、未着目のOCR調整対象文字がある場合にはステップS306へ戻る。以降、未着目のOCR調整対象文字がなくなるまでステップS306~S312を繰り返し実行し、未着目のOCR調整対象文字がなくなると、ステップS314へ進む。
【0087】
ステップS314では、OCR調整量を予め決められた調整単位量だけ増大させ、その後、OCR調整量が予め決められた最大値を超えたか否かを判定する(ステップS316)。この判定の結果、OCR調整量が当該最大値を超えていない場合には、全てのOCR調整対象文字を未着目状態とし(ステップS317)、ステップS306へ戻る。以降、OCR調整量が当該最大値を超えるまでステップS306~S317を繰り返し実行し、OCR調整量が当該最大値を超えるとステップS318へ進む。
【0088】
ステップS318へ進んだ時点では、上記最小値から上記最大値までの範囲における上記調整単位量間隔での各OCR調整量につき、各OCR調整対象文字とそれに対応するOCR結果文字との比較結果が保存されている。そこで、これらの比較結果に基づき最良のOCR調整量を求め、当該最良のOCR調整量を、使用プリンタPs、使用フォントFs、および、使用用紙Ssにより特定される印刷形態と対応付けてOCR調整量テーブルに登録する(ステップS318)。ここで、上記最小値から上記最大値までの範囲における上記調整単位量間隔でのOCR調整量のうち、各OCR調整対象文字とそれに対応するOCR結果文字とからなる文字対のうち互いに一致する文字対の数が最も多いOCR調整量を、最良のOCR調整量とみなすものとする。
【0089】
その後、使用プリンタPsで使用可能な全ての種類の用紙が使用されたか否かを判定する(ステップS320)。この判定の結果、全ての種類の用紙が使用されてはいない場合には、全てのOCR調整対象文字を未着目状態とし(ステップS321)、ステップS303へ戻る。以降、全ての種類の用紙が使用されるまでステップS303~S321を繰り返し実行し、全ての種類の用紙が使用されると、ステップS322へ進む。
【0090】
ステップS322では、使用プリンタPsで使用可能な全てのフォントが使用されたか否かを判定する。この判定の結果、全てのフォントが使用されてはいない場合には、全てのOCR調整対象文字を未着目状態とし、使用プリンタPsで使用可能な全ての種類の用紙を未使用状態として(ステップS323)、ステップS302へ戻る。以降、全てのフォントが使用されるまでステップS302~S323を繰り返し実行し、全てのフォントが使用されると、ステップS324へ進む。
【0091】
ステップS324では、OCR対象画像の印刷に使用可能な全てのプリンタが使用されたか否かを判定する。この判定の結果、全てのプリンタが使用されてはいない場合には、全てのOCR調整対象文字を未着目状態とし、使用プリンタPsで使用可能な全ての種類の用紙および全てのフォントを未使用状態として(ステップS325)、ステップS301へ戻る。以降、全てのプリンタが使用されるまでステップS301~S325を繰り返し実行し、全てのプリンタが使用されると、OCR調整量テーブル作成処理を終了する。
【0092】
上記では、1つのOCR調整量についてのOCR調整量テーブル作成処理(
図10)を説明したが、他のOCR調整量についても同様の処理によりOCR調整テーブルを作成することができる。例えば、既述の縦調整量と横調整量とのそれぞれにつきOCR調整量テーブル作成処理を実行し、その実行結果を1つのテーブルにまとめると、
図11に示すようなOCR調整量テーブルが得られる。
【0093】
図11に示すように、このOCR調整量テーブルでは、OCR対象画像の印刷時の出力条件毎に、すなわちOCR対象画像の印刷に使用されるプリンタ、フォント、および用紙の種類により特定される印刷形態毎に、OCR装置により高精度に文字を認識できるOCR調整量(
図11に示す例では文字の画像に対する縦調整量および横調整量)が示されている。
【0094】
図12は、このようなOCR調整量テーブルを用いてOCR装置により画像から文字を認識してテキストデータを生成するためのOCR処理を示すフローチャートである。
【0095】
このOCR処理では、まず、OCR対象画像の印刷時の出力条件、具体的には、OCR対象画像の印刷に使用されたプリンタ、フォント、および用紙の種類により特定される印刷形態を取得する(ステップS402)。次に、OCR調整量テーブルからこの出力条件(印刷形態)に対応するOCR調整量を取得する(ステップS404)。その後、当該OCR調整量をOCR装置において設定して、当該OCR装置によりOCRを実行する(ステップS406)。すなわち、当該OCR装置により、OCR対象画像を読み取ってパターン認識で当該OCR対象画像から文字を特定してテキストデータを生成する。
【0096】
図11のOCR調整量テーブルを使用するものとすると、このようなOCR処理によれば、ステップS402で取得される出力条件がプリンタP1、ゴシックのフォント、および、用紙S1で特定される印刷形態に相当する場合、縦調整量として“-1[pix]”という細らせ量が、横調整量として“+1[pix]”という太らせ量が、OCR装置にそれぞれ設定されてOCRが実行される。このようにして、OCR対象画像の印刷時の出力条件に応じて適切なOCR調整量がOCR装置に設定されるので、当該OCR装置により高い精度で文字を認識することができる。
【0097】
<5.効果>
以上のように、本実施形態に係る誤認識文字テーブルは、文字列検索装置に使用することができ、OCR装置におけるOCR調整量を決定するためのOCR調整量テーブルの作成にも使用することができる。これにより、以下のような効果が得られる。
【0098】
上記誤認識テーブルを使用した文字列検索装置では、OCR結果を目視でチェックしなくとも、OCR結果としてのテキストデータから文字列を高い精度で検索し検索漏れを抑制することができる。このため、OCR結果としてのテキストデータの全てを目視で確認する必要がなくなり、このような確認作業によるコストが削減される。
【0099】
また従来、既述の誤認識単語辞書に載っていない未知の単語を検索することは困難であったが、上記誤認識テーブルを使用した文字列検索装置では、未知の単語の検索も可能となる。すなわち、OCR結果としてのテキストデータから文字列を検索する場合であっても、入力文字列のうちOCRで誤認識され易い文字をワイルドカードまたは誤認識文字テーブルで当該文字に対応付けられる他の文字に置き換えることにより検索語が作成され(
図8のステップS206、
図9のステップS220)、これにより未知の単語も検索することができる。
【0100】
また、従来において使用していた誤認識単語辞書が不要になることから、辞書の継続的更新も不要であり、OCR装置におけるメンテナンスのコストが低減される。
【0101】
また、誤認識文字テーブルを使用することで、OCR装置による文字認識の精度が高くなくても、文字列検索装置の検索精度を向上させることができる。
【0102】
また、OCR対象画像に含まれるテキストに異体字(例えば「高」と「▲高▼」)が含まれる場合であっても、誤認識文字テーブルを使用することで、OCR結果としてのテキストデータを通常と同様に扱うことができる。
【0103】
さらに、誤認識文字テーブルを用いて作成されたOCR調整量テーブルをOCR装置において使用することで、OCR装置による文字認識の精度を向上させることができる。
【0104】
<6.変形例>
本発明は上記実施形態に限定されるものではなく、本発明の範囲を逸脱しない限りにおいてさらに種々の変形を施すことができる。以下、上記実施形態に係る誤認識文字テーブルを使用して既述の文字列検索装置の変形例について説明する。
【0105】
<6.1 第1の変形例>
上記のように、
図5に示す文字列検索装置において
図8に示す文字列検索処理または
図9に示す文字列検索処理が行われるが、これらの検索処理を組み合わせた文字列検索処理を行うようにしてもよい。すなわち、入力文字列のうち誤認識文字テーブルEtblに登録されている文字をワイルドに置き換えて検索を行う処理と、入力文字列のうち誤認識文字テーブルEtblに登録されている文字を誤認識文字テーブルEtblにより当該文字に対応付けられる他の文字に置き換えて検索を行う処理とを組み合わせた文字列検索処理を行うようにしてもよい。
【0106】
図13は、このような変形例における文字列検索処理の一例を示すフローチャートである。この
図13の文字列検索処理のうちステップS201~S224は、
図9の文字列検索処理におけるステップS201~S224とそれぞれ同一であるので、それらの説明を省略する。
図13の文字列検索処理では、入力文字列のうち誤認識文字テーブルEtblに登録されている文字を誤認識文字テーブルEtblにより着目文字に対応付けられる他の文字に置き換えて検索を行う処理(
図9参照)によっては検索結果が得られない場合に、入力文字列のうち誤認識文字テーブルEtblに登録されている文字をワイルドに置き換えて検索を行う。
【0107】
すなわち、ステップS230において、ステップS202~S222において作成される検索語群における少なくとも1つの検索語に一致する文字列が対象テキストデータDtxにおいて見出せたか否かを判定する。この判定の結果、検索語群におけるいずれの検索語についてもそれに一致する文字列が対象テキストデータDtxにおいて見出せない場合にはステップS232へ進み、検索語群における少なくとも1つの検索語に一致する文字列が見出せた場合にはステップS236へ進む。
【0108】
ステップS232では、ステップS201で受け取った入力文字列のうち誤認識文字テーブルEtblの登録されている文字を全てワイルドカードに置き換えることにより、ワイルドカード検索語を作成する。
【0109】
次に、このワイルドカード検索語に一致する文字列を、NAS48に格納された検索対象のテキストデータDtxの中から検索し(ステップS234)、その後、ステップS236へ進む。
【0110】
ステップS236では、上記検索による検索結果が検索用端末装置30で表示されるように、当該検索結果を示すデータをインターネット5を介して検索用端末装置30に送る(ステップS236)。これにより、検索用端末装置30において、例えば、検索対象としてのテキストデータDtxのうち上記のいずれかの検索語に一致する文字列を含む文または段落等が当該文字列をハイライト状態にして表示される。
【0111】
上記文字列検索処理では、上記検索語群における少なくとも1つの検索語に一致する文字列が対象テキストデータDtxにおいて見出せた場合には、上記ワイルドカード検索語による検索は行われない(ステップS230)。一方、上記検索語群におけるいずれの検索語についてもそれに一致する文字列が対象テキストデータDtxにおいて見出せない場合には、上記ワイルドカード検索語による検索が行われる。したがって、このような文字列検索処理によれば、不適切または余分な検索結果の出力を抑えつつ、検索漏れを確実に抑制することができる。
【0112】
<6.2 第2の変形例>
上記実施形態に係る誤認識文字テーブルEtblでは、そこに登録された文字に対し、当該文字を含む画像の印刷に使用されたプリンタ、フォント、および、用紙の種類により特定される印刷形態(出力条件)が対応付けられている。一方、
図8、
図9、および、
図13にそれぞれ示す文字列検索処理では、OCR対象画像の印刷形態に関連する処理は含まれていない。しかし、OCR検索結果としてのテキストデータDtxを検索対象とする文字列検索において不適切または余分な検索結果の出力を抑えるべく、
図5に示す文字列検索装置40において実行すべき文字列検索処理においてOCR対象画像の印刷形態に関連する処理を含めることも考えられる。
【0113】
図14は、
図5に示す文字列検索装置の第2の変形例における文字列検索処理、すなわち
図8の文字列検索処理においてOCR対象画像の印刷形態に関連する処理を含めた構成の文字列検索処理を示すフローチャートである。
【0114】
この文字列検索処理は、
図8の文字列検索処理に対し、ステップS206の直前にステップS205が挿入されている点が異なり、その他のステップは、
図8の文字列検索処理のステップと同様であり、対応するステップには同一のステップ番号が付されている。
【0115】
この文字列検索処理では、ステップS204において、着目文字が誤認識文字テーブルEtblに登録されていると判定されると、ステップS206の実行前に、誤認識文字テーブルEtblにより着目文字に対応付けられたプリンタ、フォント、および、用紙の種類により特定される印刷形態(出力条件)が検索対象としてのテキストデータ(対象テキストデータ)Dtxの元画像の印刷形態に一致するか否かを判定する(ステップS205)。ここで、対象テキストデータDtxの元画像とは、OCR装置80によって対象テキストデータDtxを生成するためのOCR対象画像である。
【0116】
ステップS205の判定の結果、誤認識文字テーブルEtblにより着目文字に対応付けられた印刷形態がOCR対象画像(元画像)の印刷形態に一致する場合には、ステップS206へ進む。一方、この判定の結果、誤認識文字テーブルEtblにより着目文字に対応付けられた印刷形態がOCR対象画像の印刷形態に一致しない場合には、ステップS206を実行することなくステップS208へ進む。これにより、着目文字が誤認識文字テーブルEtblに登録されていても、当該着目文字に対応付けられた印刷形態がOCR対象画像の印刷形態に一致しない場合には、入力文字列において当該着目文字がワイルドカードに置き換えられることはない。この文字列検索処理における上記以外の処理については、
図8の文字列検索処理と同様であるので説明を省略する。
【0117】
<6.3 第3の変形例>
図15は、
図5に示す文字列検索装置の第3の変形例における文字列検索処理、すなわち
図9の文字列検索処理においてOCR対象画像の印刷形態に関連する処理を含めた構成の文字列検索処理を示すフローチャートである。
【0118】
この文字列検索処理は、
図9の文字列検索処理に対し、ステップS220の直前にステップS205が挿入されている点が異なり、その他のステップは、
図9の文字列検索処理のステップと同様であり、対応するステップには同一のステップ番号が付されている。
【0119】
この文字列検索処理においても、ステップS204において、着目文字が誤認識文字テーブルEtblに登録されていると判定されると、ステップS220の実行前に、誤認識文字テーブルEtblにより着目文字に対応付けられたプリンタ、フォント、および、用紙の種類により特定される印刷形態(出力条件)が対象テキストデータDtxの元画像すなわちOCR対象画像に一致するか否かを判定する(ステップS205)。
【0120】
ステップS205の判定の結果、誤認識文字テーブルEtblにより着目文字に対応付けられた印刷形態がOCR対象画像の印刷形態に一致する場合には、ステップS220へ進む。一方、この判定の結果、誤認識文字テーブルEtblにより着目文字に対応付けられた印刷形態がOCR対象画像の印刷形態に一致しない場合には、ステップS220を実行することなくステップS222へ進む。これにより、着目文字が誤認識文字テーブルEtblに登録されていても、当該着目文字に対応付けられた印刷形態がOCR対象画像の印刷形態に一致しない場合には、入力文字列において当該着目文字を誤認識文字テーブルEtblにより当該着目文字に対応付けられた他の文字に置き換えて検索語が新たに作成されることはない。この文字列検索処理における上記以外の処理については、
図9の文字列検索処理と同様であるので説明を省略する。
【符号の説明】
【0121】
10 …コンピュータ
18 …誤認識文字テーブル作成プログラム
20 …スキャナ
30 …検索用端末装置
40 …文字列検索装置
45 …検索処理装置
80 …OCR装置
85 …OCR処理装置
86 …スキャナ
Etbl …誤認識文字テーブル
Dtx …テキストデータ(検索対象、OCR結果)
Spg …文字列検索プログラム