特許7415433 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

特許7415433情報処理装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-09

(45)【発行日】2024-01-17

(54)【発明の名称】情報処理装置及びプログラム

(51)【国際特許分類】

G06V 30/12 20220101AFI20240110BHJP

G06V 30/26 20220101ALI20240110BHJP

【ＦＩ】

G06V30/12 B

G06V30/266

G06V30/12 C

【請求項の数】 4

(21)【出願番号】P 2019193250

(22)【出願日】2019-10-24

(65)【公開番号】P2021068203

(43)【公開日】2021-04-30

【審査請求日】2022-09-22

(73)【特許権者】

【識別番号】000005496

【氏名又は名称】富士フイルムビジネスイノベーション株式会社

(74)【代理人】

【識別番号】110001210

【氏名又は名称】弁理士法人ＹＫＩ国際特許事務所

(72)【発明者】

【氏名】木村俊一

(72)【発明者】

【氏名】関野雅則

(72)【発明者】

【氏名】久保田聡

(72)【発明者】

【氏名】越裕

【審査官】佐藤実

(56)【参考文献】

【文献】特開２０００－１５５８０３（ＪＰ，Ａ）

【文献】特開２０１０－０７３２０１（ＪＰ，Ａ）

【文献】特開平０７－０２８９５６（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／００－３０／４２４

(57)【特許請求の範囲】

【請求項1】

プロセッサを備え、
前記プロセッサは、
ＯＣＲから、対象の画像に含まれる文字ごとの認識結果と認識確度を取得すると共に、前記文字ごとの認識結果に基づき求められた前記画像に含まれる文字列の認識結果と認識確度を取得する取得処理、を実行し、
前記ＯＣＲから取得した前記文字列の認識結果を最終的な認識結果として出力する第１の処理と、前記文字列の認識結果をリジェクトする第２の処理と、のいずれを実行するかの制御を、前記ＯＣＲから取得した前記文字ごとに認識確度及び前記文字列の認識確度に基づいて実行する、
ことを特徴とする情報処理装置。

【請求項2】

前記制御では、前記文字列の認識確度が第１の閾値より高く、かつ前記文字列の認識結果中の各文字についての前記文字ごとの認識確度がすべて第２の閾値よりも高い場合に、前記第１の処理を実行し、そうでない場合に前記第２の処理を実行する、
ことを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記取得処理では、前記ＯＣＲから、前記対象の画像に対する前記文字列の認識結果の複数の候補と、各候補についての認識確度である第１の候補認識確度とを取得すると共に、前記各候補のそれぞれについて、前記ＯＣＲから、当該候補の文字列中の文字ごとの認識確度である第２の候補認識確度を取得し、
前記制御では、前記複数の候補の中に、前記第１の候補認識確度が第１の閾値よりも高く、かつ文字ごとの前記第２の候補認識確度がすべて第２の閾値よりも高い候補があれば、その候補に対して前記第１の処理を実行する、
ことを特徴とする請求項１に記載の情報処理装置。

【請求項4】

コンピュータに、
ＯＣＲから、対象の画像に含まれる文字ごとの認識結果と認識確度を取得すると共に、前記文字ごとの認識結果に基づき求められた前記画像に含まれる文字列の認識結果と認識確度を取得する取得処理、を実行し、
前記ＯＣＲから取得した前記文字列の認識結果を最終的な認識結果として出力する第１の処理と、前記文字列の認識結果をリジェクトする第２の処理と、のいずれを実行するかの制御を、前記ＯＣＲから取得した前記文字ごとに認識確度及び前記文字列の認識確度に基づいて実行する、
処理を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置及びプログラムに関する。

【背景技術】

【0002】

紙帳票に手書き記入または印刷された文字列をデジタルデータ化するデータ入力システムがある。データ入力システムは、帳票中を人間が読み取ってキー入力する方式、光学文字認識（ＯＣＲ）技術を用いた文字認識器により帳票中の画像に対して文字認識処理を行う方式、あるいはこれらの組合せにより帳票中の文字列をデジタル化する。

【0003】

文字認識器は、実行した認識処理の処理結果がどの程度信頼できるかを示す度合いを出力する機能を持つことが多い。この度合いは認識の確度又は確信度（以下、認識確度、又は単に、確度、という）と呼ばれる。

【0004】

特許文献１には、文字認識器が文字画像に対する認識結果の文字コードと共に出力した認識確度が閾値以上であればその文字コードを表示し、認識確度が閾値未満であれば文字画像を表示してユーザに手入力を求める装置が記載されている。

【0005】

特許文献２に開示された装置は、認識確度が閾値以上であれば人手によるベリファイを必要としない出力を行い、そうでなければ人手によるベリファイを行う。

【先行技術文献】

【特許文献】

【0006】

【文献】特開２０００－２５９８４７号公報

【文献】特開２００３－３４６０８０号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

本発明は、対象データに対する認識器による認識結果に対して、第１の処理及び第１の処理よりも人の作業量を多く必要とする第２の処理のいずれを適用するかを、その認識器によるその認識結果についての認識確度のみに基づいて制御する方式よりも、必要となる人の作業量を減らすことを目的とする。

【課題を解決するための手段】

【0008】

請求項１に係る発明は、プロセッサを備え、前記プロセッサは、ＯＣＲから、対象の画像に含まれる文字ごとの認識結果と認識確度を取得すると共に、前記文字ごとの認識結果に基づき求められた前記画像に含まれる文字列の認識結果と認識確度を取得する取得処理、を実行し、前記ＯＣＲから取得した前記文字列の認識結果を最終的な認識結果として出力する第１の処理と、前記文字列の認識結果をリジェクトする第２の処理と、のいずれを実行するかの制御を、前記ＯＣＲから取得した前記文字ごとに認識確度及び前記文字列の認識確度に基づいて実行する、ことを特徴とする情報処理装置である。

【0009】

請求項２に係る発明は、前記制御では、前記文字列の認識確度が第１の閾値より高く、かつ前記文字列の認識結果中の各文字についての前記文字ごとの認識確度がすべて第２の閾値よりも高い場合に、前記第１の処理を実行し、そうでない場合に前記第２の処理を実行する、ことを特徴とする請求項１に記載の情報処理装置である。

【0010】

請求項３に係る発明は、前記取得処理では、前記ＯＣＲから、前記対象の画像に対する前記文字列の認識結果の複数の候補と、各候補についての認識確度である第１の候補認識確度とを取得すると共に、前記各候補のそれぞれについて、前記ＯＣＲから、当該候補の文字列中の文字ごとの認識確度である第２の候補認識確度を取得し、前記制御では、前記複数の候補の中に、前記第１の候補認識確度が第１の閾値よりも高く、かつ文字ごとの前記第２の候補認識確度がすべて第２の閾値よりも高い候補があれば、その候補に対して前記第１の処理を実行する、ことを特徴とする請求項１に記載の情報処理装置である。

【0014】

請求項４に係る発明は、コンピュータに、ＯＣＲから、対象の画像に含まれる文字ごとの認識結果と認識確度を取得すると共に、前記文字ごとの認識結果に基づき求められた前記画像に含まれる文字列の認識結果と認識確度を取得する取得処理、を実行し、前記ＯＣＲから取得した前記文字列の認識結果を最終的な認識結果として出力する第１の処理と、前記文字列の認識結果をリジェクトする第２の処理と、のいずれを実行するかの制御を、前記ＯＣＲから取得した前記文字ごとに認識確度及び前記文字列の認識確度に基づいて実行する、処理を実行させるためのプログラムである。

【発明の効果】

【0015】

請求項１、２、４に係る発明によれば、対象データに対する認識器による認識結果に対して、第１の処理及び第１の処理よりも人の作業量を多く必要とする第２の処理のいずれを適用するかを、その認識器によるその認識結果についての認識確度のみに基づいて制御する方式よりも、必要となる人の作業量を減らすことができる。

【0016】

請求項３に係る発明によれば、単一の第１の認識結果のみを対象とする方式よりも、必要となる人の作業量を減らすことができる。

【図面の簡単な説明】

【0017】

【図1】文字列認識の実施形態のシステム構成を例示する図である。

【図2】システムの主要な情報処理を実行するコンピュータのハードウエア構成を例示する図である。

【図3】従来の処理手順を例示する図である。

【図4】実施形態のシステムの処理手順を例示する図である。

【図5】システムにより得られる効果を説明するための図である。

【図6】閾値設定のためのＵＩ画面の例を模式的に示す図である。

【図7】実施形態のシステムの処理手順の別の例を示す図である。

【図8】一般化した実施形態のシステム構成を例示する図である。

【図9】一般化した実施形態の処理手順を例示する図である。

【発明を実施するための形態】

【0018】

＜全体システムの例＞
図１に、データ入力システム（以下単に「システム」と呼ぶ）の一実施形態を説明する。

【0019】

このシステムでは、文字認識の対象である入力画像データ５０がＯＣＲ（文字認識器）１０に入力される。ＯＣＲ１０は、入力画像データ５０に対して文字認識処理を行う。入力画像データ５０は、文字列の画像を含んだ画像データである。例えば、前処理により帳票画像から切り出されたある入力欄の画像が、入力画像データ５０となる。

【0020】

ＯＣＲ１０は、入力画像データ５０から文字ごとの画像を切り出し、文字ごとの画像（以下「文字画像」と呼ぶ）に対して文字認識処理を行うことで、文字画像ごとの認識結果と、その認識結果についての確度とを求める。この認識結果は、その文字画像が表している文字の文字コードである。ＯＣＲ１０は、１つの文字画像に対して、認識結果の候補を１以上求め、それら候補のそれぞれについて確度を求める。同じ文字画像に対して求められる複数の候補は、対応する確度が高い順に順位付けできる。文字画像に対して求められる認識結果の候補、及びこの候補に対応する確度のことを、以下では単文字候補及び単文字確度と呼ぶ。

【0021】

ＯＣＲ１０は、入力画像データ５０が表す文字列の認識を行う。この文字列の認識では、例えば、入力画像データ５０内での各文字画像の並び順にそれら各文字画像の認識結果である単文字候補を並べることにより文字列を生成し、その文字列を評価する。文字画像ごとに単文字候補が通常複数あるので、各文字画像の単文字候補の組合せの数だけ異なる文字列ができる。ＯＣＲ１０はそれら文字列ごとに評価を行う。この評価では、例えば、文字同士の繋がりやすさの情報や、単語やフレーズを登録した辞書等を参照することにより、各文字列の評価値を算出する。そして、ＯＣＲ１０は、評価値が最高である文字列を、その入力画像データ５０に対応する認識結果として出力する。この文字列についての認識結果のことを文字列認識結果と呼ぶ。また、ＯＣＲ１０は、その文字列認識結果に対応する確度を計算し、出力する。この確度のことを文字列確度と呼ぶ。

【0022】

ＯＣＲ１０は、従来公知の技術を用いて、以上のような処理を行う。従来のＯＣＲは文字列認識結果と文字列確度を出力したが、図１に例示したＯＣＲ１０は、更にその文字列認識結果に含まれる文字コードのそれぞれについての単文字確度を合わせて出力する。

【0023】

ＯＣＲ１０は、個々の文字の認識を行う第１の認識器と、第１の認識器による個々の文字の認識結果を用いて文字列全体の認識を行う第２の認識器と、を内蔵した装置と捉えることもできる。

【0024】

情報処理装置１００は、ＯＣＲ１０から入力されるそれら情報を用いて、入力画像データ５０に対するシステムとしての最終的な認識結果を求めるための処理を実行する。

【0025】

＜ハードウエア構成の例＞
情報処理装置１００は、例えば汎用的なコンピュータをベースとして構築される。すなわち情報処理装置１００は、例えば、図２に示すように、ハードウエアとして、プロセッサ１０２、ランダムアクセスメモリ（ＲＡＭ）等のメモリ（主記憶装置）１０４、フラッシュメモリやＳＳＤ（ソリッドステートドライブ）、ＨＤＤ（ハードディスクドライブ）や等の補助記憶装置１０６を制御するコントローラ、各種の入出力装置１０８とのインタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース１１０等が、例えばバス１１２等のデータ伝送路を介して接続された回路構成を有する。以下に説明する情報処理装置１００の機能を示すプログラム群が、ネットワーク等を経由してコンピュータにインストールされ、補助記憶装置１０６に保存される。補助記憶装置１０６に保存されたそれらプログラム群が、プロセッサ１０２によりメモリ１０４を用いて実行されることにより、情報処理装置１００の機能が実現される。

【0026】

ここでプロセッサ１０２とは広義的なプロセッサを指し、汎用的なプロセッサ（例えばＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、等）や、専用のプロセッサ（例えばＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、プログラマブル論理デバイス、等）を含むものである。

【0027】

また、プロセッサ１０２の動作は、１つのプロセッサ１０２によってなすのみでなく、物理的に離れた位置に存在する複数のプロセッサ１０２が協働してなすものであってもよい。また、プログラム実行時のプロセッサ１０２の各動作は、以下の実施形態において説明する順序のみに限定されるものではなく、適宜に変更してもよい。

【0028】

図１に示す例では、ＯＣＲ１０は情報処理装置１００の外部の装置である。ＯＣＲ１０は、例えば、情報処理装置１００に通信ケーブル等で接続された専用のＯＣＲ装置であってもよいし、インターネット上にあるＯＣＲサービスであってもよい。また、情報処理装置１００が、ＯＣＲ１０を内蔵していてもよい。例えば、情報処理装置１００がＯＣＲ１０の機能を表すプログラムを実行する等である。

【0029】

＜従来の処理手順の例＞
情報処理装置１００が仮に従来方式で文字列認識を行う場合の処理手順は、図３に例示するものとなる。

【0030】

この手順では、プロセッサ１０２は、ＯＣＲ１０から文字列認識結果及び文字列確度を取得し（Ｓ１）、その文字列確度が所定の（すなわち予め定めた）閾値Ａより高いか否かを判定する（Ｓ２）。この判定の結果がＹｅｓの場合、プロセッサ１０２は、その文字列認識結果をシステムの最終的な認識結果として出力する（Ｓ３）。またＳ２の判定結果がＹｅｓの場合、プロセッサ１０２はその文字列認識結果をリジェクトする（Ｓ４）。リジェクトとは、対象となる文字認識結果をシステムの最終的な認識結果として採用しないことである。ＯＣＲ１０の文字列認識結果をリジェクトした場合、Ｓ４では、プロセッサ１０２は、人間の作業者に介入を求める。この場合、プロセッサ１０は、あらかじめ定められた作業者の端末に対して入力画像データ５０を表示し、例えば作業者から、その入力画像データ５０が表す文字列の入力を受け付ける。あるいはプロセッサ１０２は、作業者の端末に入力画像データ５０と共に文字列認識結果を表示し、作業者からその文字列認識結果に対する確認、修正を受け付ける。この場合作業者は、端末に表示された入力画像データ５０と文字列認識結果を見比べて、文字列認識結果の文字列が正しいと判断した場合はその文字列に対する確認の操作を行い、誤っていると判断した場合はその文字列を修正する。プロセッサ１０２は、このようにして作業者による確認又は修正を経た結果の文字列を、システムの最終的な認識結果として出力する。

【0031】

このように、従来方式では、文字列確度が十分に高い（すなわち閾値Ａより高い）場合に、人間の介入なしに、文字列認識結果を最終的な認識結果として採用した。

【0032】

＜実施形態の処理手順＞
上記従来の手順に対する本実施形態の処理手順を図４に例示する。

【0033】

この手順では、プロセッサ１０２は、ＯＣＲ１０から文字列認識結果、文字列確度、及びその文字列認識結果に含まれる各文字の単文字確度を取得する（Ｓ１０）。次にプロセッサ１０２は、取得した文字列確度が所定の閾値１より高いか否かを判定する（Ｓ１２）。この判定に用いる閾値１は、図３の従来手順のＳ２で用いてられる閾値Ａよりも低い値でよい。

【0034】

Ｓ１２の判定結果がＹｅｓの場合、プロセッサ１０２は、更に、文字列認識結果に含まれる各文字の単文字結果の単文字確度をそれぞれ所定の閾値２と比較する。閾値２は、例えば全ての文字について共通の値でよい。そして、プロセッサ１０２は、文字列認識結果に含まれる全ての文字について、単文字確度が閾値２より高いか否かを判定する（Ｓ１４）。文字列認識結果の各文字の中に単文字確度が閾値２以下のものが１つでもあれば、Ｓ１４の判定結果はＮｏとなる。

【0035】

Ｓ１４の判定結果がＹｅｓの場合、プロセッサ１０２は第１処理を実行する（Ｓ１６）。一方、Ｓ１２又はＳ１４の判定結果がＮｏの場合、プロセッサ１０２は第２処理を実行する（Ｓ１８）。

【0036】

第１処理は、第２処理よりも、人間の作業者の作業量が相対的に少ない処理である。例えば、図２の手順のＳ３のように文字列認識結果を作業者の介入無くそのまま最終的な処理結果として出力する処理が第１処理の例であり、文字列認識結果をリジェクトして作業者による確認・修正を受ける処理が第２処理の例である。

【0037】

第１処理の別の例としては、作業者に文字列認識結果の確認のみを求める処理がある。この処理では、プロセッサ１０２は、作業者の端末の画面上に入力画像データ５０と文字列認識結果とを表示し、文字列認識結果が正しいかどうかの確認結果の入力を作業者に求める。また、作業者による確認・修正に代わる第２処理の別の例としては、作業者に入力画像データ５０を提示し、入力画像データ５０に含まれる文字列のテキストデータを作業者に入力させる処理がある。

【0038】

図４の手順において、Ｓ１２とＳ１４の実行順序は逆であってもよい。

【0039】

第１処理は、第２処理よりも、必要とする人間の作業量が少ないので、第１処理が選択される確率が高いほど、システム全体として必要な人間の作業量が減る。本実施形態では、従来用いていた文字列確度に加えて単文字確度も用いることにより、第１処理が選択される確率が高くなる。このことを、図５を参照して説明する。

【0040】

図５は、多数のサンプル入力画像をそれぞれＯＣＲ１０で認識させたときの認識結果の散布図５００を示し、縦軸は文字列確度、横軸は単文字確度の代表値（例えば文字列認識結果内の各文字の単文字確度のうちの最低値）である。文字列確度は上に行くほど高い値であり、単文字確度は左に行くほど高い値である。濃色の菱形のプロット５０２は正認識のサンプルを示し、淡色の正方形及び三角形のプロット５０４及び５０６は誤認識のサンプルを示す。

【0041】

図５に示す分布では、文字列確度のみを用いて正解率を十分高い値（すなわち１００％に近い所定の閾値以上の値）とするには、文字列確度が図示の閾値Ａより高くなる必要がある。これに対して、単文字確度も併せて用いる場合、文字列確度が図示の閾値１より高く、且つ単文字確度が閾値２より高ければ、正解率は十分高い値となる。文字列確度が閾値Ａより高い範囲と、文字列確度が閾値１より高く且つ単文字確度が閾値２より高い範囲とを比較した場合、後者の範囲の方が、内包する正認識のプロット５０２の数が多い。したがって、後者の方が、正解率が維持されたまま、人間の作業量が相対的に少ない第１処理が適用される文字列認識結果の比率が高くなる。

【0042】

＜閾値設定＞
本実施形態のシステムは、判定に用いる閾値の設定をユーザから受け付けるＵＩ（ユーザインタフェース）画面を提供していてもよい。

【0043】

図６に、このＵＩ画面６００を例示する。このＵＩ画面６００は、図４に例示した手順で用いる閾値１、閾値２を設定するためのものである。

【0044】

このＵＩ画面６００は、図５に例示したのと同様の散布図５００を表示する。この散布図５００上で、文字列確度に対する閾値１と、単文字確度に対する閾値２の設定を受け付ける。閾値１は散布図５００を横切る水平な線で示され、閾値２は散布図５００と交わる縦方向の線として示される。閾値１の入力欄６０２、閾値２の入力欄６０４に対して、ユーザはそれぞれ閾値の値を入力する。散布図５００上に示される各閾値の線は、それら入力欄６０２～６０４内の閾値に応じた位置に表示される。

【0045】

またＵＩ画面６００内には、認識率表示欄６１０と割合表示欄６２０とが示される。認識率表示欄６１０には、ユーザが設定した閾値群により実現される認識率が示される。この認識率は、図４の手順において第１処理（Ｓ１６）を実行した場合の認識率すなわち正解率である。この例では第１処理は文字列認識結果をシステムの最終的な認識結果として出力するものとする。この場合に表示される認識率は、設定された閾値群のもとで、Ｓ１２及びＳ１４の判定結果が共にＹｅｓとなるサンプル画像群の総数のうち、対応する文字列認識結果が正認識であるものの割合である。また、割合表示欄６２０は、サンプル画像の総数のうち、設定された閾値群のもとで第１処理（Ｓ１６）が適用されるものの割合を表示する。この割合が高い程、必要な人間の作業量が少なくなる。ユーザは、各閾値をそれぞれ変えながら、認識率表示欄６１０及び割合表示欄６２０に表示される値を確認し、所望の性能が得られる閾値の組合せを決定する。

【0046】

＜図４の処理手順の変形例＞
図７を参照して、本実施形態のプロセッサ１０２が実行する手順の変形例を説明する。

【0047】

図７の手順では、プロセッサ１０２は、ＯＣＲ１０から、複数の認識結果の候補の情報を取得する（Ｓ２０）。図４の手順では、プロセッサ１０２は、ＯＣＲ１０から、文字列確度が最高値である１つの文字列認識結果を取得した。これに対して、Ｓ２０では、文字列確度が高い順に複数の文字列認識結果を候補として取得するのである。取得する候補の数は例えばあらかじめ定めた数であってもよい。また、例えば、文字列確度が最高値である文字列認識結果と、その最高値に対して所定差以内、又は所定割合以上、の文字列確度を持つ文字列認識結果を候補とするなど、取得する候補の数を認識対象に応じて変化させてもよい。また、文字列確度が閾値１より高い文字列認識結果を候補として選んでもよい。この閾値１は、図４の手順で用いたものと同じものである。Ｓ２０では、プロセッサ１０２は、候補ごとに、文字列認識結果とこれに対応する文字列確度、その文字列認識結果に含まれる各文字の単文字確度、を取得する。

【0048】

次にプロセッサ１０２は、文字列確度が最上位である候補を注目候補とし（Ｓ２２）、その注目候補の文字列確度が閾値１より高いか（Ｓ２４）、及びその注目候補の各文字の単文字確度が全て閾値２より高いか（Ｓ２６）を判定する。Ｓ２４及びＳ２６の判定結果がともにＹｅｓであれば、プロセッサ１０２は、注目候補の文字列認識結果を対象として第１処理を実行する（Ｓ２８）。この第１処理は、例えば注目候補の文字列認識結果をシステムの最終的な認識結果として出力する処理である。

【0049】

Ｓ２４又はＳ２６の判定結果の少なくとも一方がＮｏの場合、プロセッサ１０２は、Ｓ２０で取得した全ての候補についてＳ２４、Ｓ２６の判定が済んだかどうかを判定する（Ｓ３０）。Ｓ３０の判定結果がＮｏの場合、プロセッサ１０２は、次位の候補、すなわち文字列確度が注目候補の次に高い候補を新たな注目候補とし（Ｓ３２）、Ｓ２４及びＳ２６の判定を繰り返す。以上に説明した処理の繰り返しにおいて、Ｓ３０の判定結果がＹｅｓとなった場合、それは、候補の中にＳ２４及びＳ２６の判定結果の両方がＹｅｓとなるものがなかったということである。この場合、プロセッサ１０２は、第２処理を実行する（Ｓ３４）。第２処理は、第１処理よりも人間の作業を多く必要とする処理であり、例えば最上位の候補の文字列認識結果に対して作業者による確認・修正を受ける処理がその例である。

【0050】

以上に説明した図７の手順によれば、文字列確度が最上位の文字列認識結果のみを判定する図４の手順よりも、第１処理（Ｓ２８）が適用されるケースが増え、その分だけ人間の作業量が低減される。

【0051】

図７の手順では、文字列確度が高い候補から順に評価し、最初にＳ２４及びＳ２６が共にＹｅｓとなった候補を第１処理（Ｓ２８）の対象としたが、このような手順は一例に過ぎない。この代わりに、例えば、すべての候補についてＳ２４及びＳ２６の判定を行い、Ｓ２４及びＳ２６が共にＹｅｓとなった候補のうち、文字列確度と単文字確度の総合評価した場合の評価値が最高となったものを、第１処理の対象としてもよい。

【0052】

＜一般化したシステム構成の例＞
以上に説明したシステムは、１つのＯＣＲ１０が算出する文字列確度と単文字確度を用いるものであった。

【0053】

これに対して図８に例示するシステムは、２つのＯＣＲ１及びＯＣＲ２を備える。ＯＣＲ１とＯＣＲ２とは、互いに異なる文字認識処理を実行する。すなわち、ＯＣＲ１とＯＣＲ２とは、例えば、使用する文字認識のプログラムが互いに異なっていたり、文字認識の学習に用いた学習データ集合が互いに異なっていたりする。ＯＣＲ１と２とに十分大きい数のサンプル画像群を処理させた場合、サンプル画像群に対するＯＣＲ結果の正解（すなわち正認識）と不正解（すなわち誤認識）の分布は、ＯＣＲ１と２とで異なる。ＯＣＲ１と２とは、同じ入力画像データ５０を認識する。この例では、ＯＣＲ１が基準となる認識器であり、ＯＣＲ２は補助用である。

【0054】

情報処理装置１００は、ＯＣＲ１から入力画像データ５０に対する認識結果（「認識結果１」と呼ぶ）と、その認識結果１に対する認識確度（「確度１」と呼ぶ）を取得する。この認識結果１は、ＯＣＲ１による入力画像データ５０の認識結果のうち最高の確度を持つものである。また情報処理装置１００は、ＯＣＲ２から、その入力画像データ５０の認識結果のうちＯＣＲ１の認識結果１と同じ認識結果についての認識確度（「確度２」と呼ぶ）を取得する。例えば、ある入力画像データ５０に対するＯＣＲ１の認識結果１が「ＡＢＣ」であった場合を考える。この入力画像データ５０に対してＯＣＲ２はいくつかの認識結果の候補とその候補についての確度を求めるが、情報処理装置１００は、それら候補のうち値が「ＡＢＣ」であるものについての確度を確度２として取得する。そして、情報処理装置１００は、ＯＣＲ１及び２から取得したそれらの情報を用いて、入力画像データ５０に対するシステムとしての最終的な認識結果を求めるための処理を実行する。

【0055】

図９に、その処理の手順を例示する。この手順では、プロセッサ１０２は、ＯＣＲ１から入力画像データ５９に対する認識結果１と確度１を、ＯＣＲ２から同じ入力画像データに対するその認識結果１についての確度２を、それぞれ取得する（Ｓ４０）。次にプロセッサ１０２は、確度１が所定の閾値Ｔ１より高いか（Ｓ４２）、確度２が所定の閾値Ｔ２より高いか（Ｓ４４）を判定する。閾値Ｔ１及びＴ２は、図５を参照して説明した閾値１及び２の定め方と同様の考え方で定められる。すなわち、仮にＯＣＲ１の認識結果１についての確度１が閾値Ａよりも高い場合にその認識結果１を最終的な認識結果に採用すれば、システムの正解率が所定値以上になるとすると、この例では確度２も考慮するため、閾値Ｔ１はその閾値Ａよりも低い値でよい。

【0056】

Ｓ４２及びＳ４４の判定結果がともにＹｅｓであれば、プロセッサ１０２は、認識結果１を対象として第１処理を実行する（Ｓ１６）。この第１処理では、例えば認識結果１をシステムの最終的な認識結果として出力する。Ｓ４２又はＳ４４の少なくとも一方の判定結果がＮｏの場合は、プロセッサ１０２は、第２処理を実行する（Ｓ４８）。第２処理は、第１処理よりも人間の作業を多く必要とする処理であり、例えば認識結果１に対して作業者による確認・修正を受ける処理がその例である。

【0057】

図８及び図９を用いて説明した例では２つのＯＣＲ１及び２を用いたが、この代わりに、それら２つのＯＣＲ１と２の両方の機能を持つ１つの認識装置を用いてももちろんよい。

【0058】

以上、図８及び図９を参照して説明したシステムでは、図５を参照して説明した図４の処理手順の効果と同様、正解率を維持しつつ、第１処理が適用される割合を高めることができる。

【0059】

図９の手順は図４の手順に対応するものであったが、図９の手順の変形として、図４の手順に対する図７の手順と同じ関係にある手順も考えられる。この変形の手順では、情報処理装置１００は、ＯＣＲ１から確度が高い順に複数の認識結果の候補とその確度とを取得し、ＯＣＲ２からそれら各候補と同じ値の認識結果についての確度を取得する。その後の処理は、図７に示した手順と同様でよい。

【0060】

以上に説明した実施形態はあくまで例示的なものにすぎない。本発明の範囲内で、様々な変形が可能である。

【符号の説明】

【0061】

１０ＯＣＲ、１５０入力画像データ、１００情報処理装置、１０２プロセッサ、１０４メモリ、１０６補助記憶装置、１０８入出力装置、１１０ネットワークインタフェース、１１２バス。

【図1】