(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024000290
(43)【公開日】2024-01-05
(54)【発明の名称】文字認識プログラムの評価方法、文字認識プログラムの評価システムおよび文字認識プログラム用教師データの製造方法
(51)【国際特許分類】
G06V 30/12 20220101AFI20231225BHJP
G06V 30/194 20220101ALI20231225BHJP
【FI】
G06V30/12 C
G06V30/194
【審査請求】有
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022099004
(22)【出願日】2022-06-20
(11)【特許番号】
(45)【特許公報発行日】2022-12-06
(71)【出願人】
【識別番号】522245570
【氏名又は名称】深山 健彦
(74)【代理人】
【識別番号】110001494
【氏名又は名称】前田・鈴木国際特許弁理士法人
(72)【発明者】
【氏名】深山 健彦
【テーマコード(参考)】
5B064
【Fターム(参考)】
5B064AA01
5B064AB03
5B064BA01
5B064DA10
5B064DA27
5B064EA02
5B064EA11
(57)【要約】
【課題】文字認識プログラムを客観的に評価することができる文字認識プログラムの評価方法。
【解決手段】手書き文字の画像データを取得するステップと、複数の異なる文字認識プログラムによる文字認識演算部が複数の機械文字認識結果を得るステップと、前記画像データから得られる前記複数の機械文字認識結果の一致率に関する一致率データを得るステップと、前記画像データについての人間の視認による文字認識結果である人文字認識結果を得るステップと、前記複数の機械文字認識結果の正誤を判定するとともに、前記複数の機械文字認識結果の正解率を得るステップと、前記画像データと、前記複数の機械文字認識結果のうち少なくとも1つおよびその正誤と、前記人文字認識結果と、前記一致率データと、前記正解率と、が関連付けられた文字認識プログラム評価結果を記憶するステップと、を有する文字認識プログラムの評価方法。
【選択図】
図1
【特許請求の範囲】
【請求項1】
手書き文字の画像データを取得するステップと、
複数の異なる文字認識プログラムによる文字認識演算部が前記画像データに対して文字認識を行い、前記画像データについての前記複数の文字認識プログラムによる文字認識結果である複数の機械文字認識結果を得るステップと、
前記画像データから得られる前記複数の機械文字認識結果の一致率に関する一致率データを得るステップと、
前記画像データについての人間の視認による文字認識結果である人文字認識結果を得るステップと、
前記複数の機械文字認識結果のそれぞれと、前記人文字認識結果とを比較して、前記複数の機械文字認識結果の正誤を判定するとともに、前記複数の機械文字認識結果の正解率を得るステップと、
前記画像データと、前記複数の機械文字認識結果のうち少なくとも1つおよびその正誤と、前記人文字認識結果と、前記一致率データと、前記正解率と、が関連付けられた文字認識プログラム評価結果を記憶するステップと、を有する文字認識プログラムの評価方法。
【請求項2】
前記人文字認識結果を得るステップでは、少なくとも2人の人間を評価者として選定するステップと、
前記少なくとも2人の人間から得られた文字認識結果である仮認識結果を判定するステップと、を有し、
前記仮認識結果を判定するステップでは、前記仮認識結果が互いに一致する場合には前記仮認識結果を前記人文字認識結果として認定し、前記仮認識結果が互いに一致しない場合は少なくとも2人の人間を評価者として選定するステップに戻る請求項1に記載の文字認識プログラムの評価方法。
【請求項3】
前記人文字認識結果を得るステップでは、各評価者の仮認識結果が前記人文字認識結果と一致する確率に関する評価者信頼度を記憶するステップを含み、
前記少なくとも2人の人間を評価者として選定するステップでは、前記一致率データと、前記評価者信頼度とを用いて、少なくとも2人の人間を評価者として選定する請求項2に記載の文字認識プログラムの評価方法。
【請求項4】
前記人文字認識結果を得るステップでは、前記画像データと、前記複数の機械文字認識結果と、前記複数の機械文字認識結果のいずれかを前記人文字認識結果またはその候補として選択可能なグラフィカルインターフェースと、を評価者の端末に表示するステップを有する請求項1に記載の文字認識プログラムの評価方法。
【請求項5】
手書き文字の画像データを取得する画像データ取得部と、
複数の異なる文字認識プログラムが前記画像データに対して文字認識を行い、前記画像データについての前記複数の文字認識プログラムによる文字認識結果である複数の機械文字認識結果を得る機械文字認識結果取得部と、
前記画像データから得られる前記複数の機械文字認識結果の一致率に関する一致率データを得る一致率データ取得部と、
前記画像データについての人間の視認による文字認識結果である人文字認識結果を得る人文字認識結果取得部と、
前記複数の機械文字認識結果のそれぞれと、前記人文字認識結果とを比較して、前記複数の機械文字認識結果の正誤を判定する正誤判定部および前記複数の機械文字認識結果の正解率を得る正解率演算部と、
前記画像データと、前記複数の機械文字認識結果のうち少なくとも1つおよびその正誤と、前記人文字認識結果と、前記一致率データと、前記正解率と、が関連付けられた文字認識プログラム評価結果を記憶する評価結果記憶部と、を有する文字認識プログラムの評価システム。
【請求項6】
手書き文字の画像データを取得するステップと、
複数の異なる文字認識プログラムが前記画像データに対して文字認識を行い、前記画像データについての前記複数の文字認識プログラムによる文字認識結果である複数の機械文字認識結果を得るステップと、
前記画像データから得られる前記複数の機械文字認識結果の一致率に関する一致率データを得るステップと、
前記画像データについての人間の視認による文字認識結果である人文字認識結果を得るステップと、
前記複数の機械文字認識結果のそれぞれと、前記人文字認識結果とを比較して、前記複数の機械文字認識結果の正誤を判定するとともに、前記複数の文字認識プログラムの正解率を得るステップと、
前記画像データと、前記人文字認識結果と、前記一致率データと、前記正解率が関連付けられた教師データを記憶するステップと、を有する文字認識プログラム用教師データの製造方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、OCRに用いられる文字認識プログラムの評価方法、文字認識プログラムの評価システムおよび文字認識プログラム用教師データの製造方法に関する。
【背景技術】
【0002】
近年、いわゆるOCR(Optical Character Recognition)と呼ばれる技術が、多様な分野で使われている。また、OCRでは、文字を認識する際のプログラム(アルゴリズム)を、機械学習により改良する技術なども提案されている。たとえば、教師データに含まれる画像データ(文字を含む)を、学習対象であるプログラムに文字認識させるとともに、画像データの正しい文字認識結果(正解)を、対象プラグラムの学習機能部分に伝えることにより、プログラムの文字認識における正解率向上が期待される。
【0003】
ここで、従来の文字認識プログラムは、印刷文字に対する文字認識精度はかなり高いものの、手書き文字に対する文字認識精度については、印刷文字に対するそれよりかなり低く、その向上が期待されている。しかしながら、手書き文字は、書き手の個性に依存して極めて多様であり、しかも、シチュエーションに応じて、略字などの省略記載が頻繁に行われる。このような手書き文字の多様性を背景として、特定のプログラムの手書き文字に対する文字認識精度を客観的に評価することが難しいことや、手書き文字に対する文字認識精度を高めるために有効な教師データが得られないことが、文字認識プログラムによる手書き文字の文字認識精度の向上を妨げている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、文字認識プログラムを客観的に評価することができる文字認識プログラムの評価方法や評価システムおよび手書き文字に対する文字認識精度を高めるために有効な教師データの製造方法に関する。
【課題を解決するための手段】
【0006】
本発明に係る文字認識プログラムの評価方法は、
手書き文字の画像データを取得するステップと、
複数の異なる文字認識プログラムによる文字認識演算部が前記画像データに対して文字認識を行い、前記画像データについての前記複数の文字認識プログラムによる文字認識結果である複数の機械文字認識結果を得るステップと、
前記画像データから得られる前記複数の機械文字認識結果の一致率に関する一致率データを得るステップと、
前記画像データについての人間の視認による文字認識結果である人文字認識結果を得るステップと、
前記複数の機械文字認識結果のそれぞれと、前記人文字認識結果とを比較して、前記複数の機械文字認識結果の正誤を判定するとともに、前記複数の機械文字認識結果の正解率を得るステップと、
前記画像データと、前記複数の機械文字認識結果のうち少なくとも1つおよびその正誤と、前記人文字認識結果と、前記一致率データと、前記正解率と、が関連付けられた文字認識プログラム評価結果を記憶するステップと、を有する。
【0007】
本発明に係る文字認識プログラムの評価方法によれば、実際の手書き文字の画像データを、複数の文字認識プログラムが文字認識することにより、現実の手書き文字に対する文字認識の状況に整合しており、かつ、客観的である評価結果が得られる。また、共通の画像データを、複数の文字認識プログラムにより文字認識することにより、評価の効率を高めることができる。また、各画像データについて、正解率と一致率という多角的な指標が得られるため、その画像データに対する機械文字認識結果の正誤について、多角的かつ有効な知見を得ることができる。
【0008】
また、たとえば、前記人文字認識結果を得るステップでは、少なくとも2人の人間を評価者として選定するステップと、
前記少なくとも2人の人間から得られた文字認識結果である仮認識結果を判定するステップと、を有してもよく、
前記仮認識結果を判定するステップでは、前記仮認識結果が互いに一致する場合には前記仮認識結果を前記人文字認識結果として認定し、前記仮認識結果が互いに一致しない場合は少なくとも2人の人間を評価者として選定するステップに戻ってもよい。
【0009】
このような文字認識プログラムの評価方法では、人間である評価者の文字認識結果のばらつきに起因する評価結果の誤差を、効果的に抑制することができる。
【0010】
また、たとえば、前記人文字認識結果を得るステップでは、各評価者の仮認識結果が前記人文字認識結果と一致する確率に関する評価者信頼度を記憶するステップを含み、
前記少なくとも2人の人間を評価者として選定するステップでは、前記一致率データと、前記評価者信頼度とを用いて、少なくとも2人の人間を評価者として選定してもよい。
【0011】
このような文字認識プログラムの評価方法では、たとえば一致率の高い画像データに対しては評価信頼度の高い人間を優先して評価者に選定し、一致率の低い画像データに対しては評価信頼度の低い人間を優先して評価者に選定することで、人文字認識結果の取得効率を向上させることができる。人間による人文字認識結果を得るステップでは、一致率の高い画像データに対する評価を行うシチュエーションの方が、評価効率や評価精度に、評価者の能力差が現れやすいからである。
【0012】
また、たとえば、前記人文字認識結果を得るステップでは、前記画像データと、前記複数の機械文字認識結果と、前記複数の機械文字認識結果のいずれかを前記人文字認識結果またはその候補として選択可能なグラフィカルインターフェースと、を評価者の端末に表示してもよい。
【0013】
このような文字認識プログラムの評価方法では、評価者による入力作業量を抑制し、人間による人文字認識結果を得るステップの効率を高めることができる。
【0014】
また、本発明に係る文字認識プログラムの評価システムでは、手書き文字の画像データを取得する画像データ取得部と、
複数の異なる文字認識プログラムが前記画像データに対して文字認識を行い、前記画像データについての前記複数の文字認識プログラムによる文字認識結果である複数の機械文字認識結果を得る機械文字認識結果取得部と、
前記画像データから得られる前記複数の機械文字認識結果の一致率に関する一致率データを得る一致率データ取得部と、
前記画像データについての人間の視認による文字認識結果である人文字認識結果を得る人文字認識結果取得部と、
前記複数の機械文字認識結果のそれぞれと、前記人文字認識結果とを比較して、前記複数の機械文字認識結果の正誤を判定する正誤判定部および前記複数の機械文字認識結果の正解率を得る正解率演算部と、
前記画像データと、前記複数の機械文字認識結果のうち少なくとも1つおよびその正誤と、前記人文字認識結果と、前記一致率データと、前記正解率と、が関連付けられた文字認識プログラム評価結果を記憶する評価結果記憶部と、を有する。
【0015】
また、本発明に係る文字認識プログラム用教師データの製造方法では、手書き文字の画像データを取得するステップと、
複数の異なる文字認識プログラムが前記画像データに対して文字認識を行い、前記画像データについての前記複数の文字認識プログラムによる文字認識結果である複数の機械文字認識結果を得るステップと、
前記画像データから得られる前記複数の機械文字認識結果の一致率に関する一致率データを得るステップと、
前記画像データについての人間の視認による文字認識結果である人文字認識結果を得るステップと、
前記複数の機械文字認識結果のそれぞれと、前記人文字認識結果とを比較して、前記複数の機械文字認識結果の正誤を判定するとともに、前記複数の文字認識プログラムのうち前記画像データに対して正しい文字認識を行えた文字認識プログラムの割合を表す正解率を得るステップと、
前記画像データと、前記人文字認識結果と、前記一致率データと、前記正解率が関連付けられた教師データを記憶するステップと、を有する。
【0016】
本発明に係る文字認識プログラム用教師データの製造方法によれば、実際の手書き文字の画像データを、複数の文字認識プログラムが文字認識することにより製造することで、現実の手書き文字を文字認識の状況に整合しており、かつ、学習効果の高い教師データを製造できる。また、共通の画像データを、複数の文字認識プログラムにより文字認識することにより、教師データの製造効率を高めることができる。また、教師データに含まれる画像データについて、正解率と一致率という多角的な指標が付いているため、教師データを用いることにより期待される学習効果について、多角的かつ有効な知見を得ることができる。
【0017】
開示される技術は、複数の人工知能の結果を同時に評価するシステム(A system that simultaneously evaluates the results of multiple artificial intelligences)に関する内容を含む。また、複数の人工知能(Multiple Artificial Intelligence)、自動処理結果(Automatic processing results)、合理的な変更(Reasonable modifications)、インテジェンスデータの生成(Intelligence data generation)、修正の自動処理(Automatic processing of corrections)に関連する知見を含む。
【図面の簡単な説明】
【0018】
【
図1】
図1は、本発明の一実施形態に係る文字認識プログラムの評価方法を行う文字認識プログラム評価システムの概念図である。
【
図2】
図2は、文字認識プログラムの評価方法により得られる情報の一例を表す概念図である。
【
図3】
図3は、人文字認識結果を得るステップにおける評価者の選定基準の一例を示す概念図である。
【
図4】
図4は、人文字認識結果を得るステップにおける評価者の入力方法を説明する概念図である。
【
図5】
図5は、教師データに含まれる画像データの文字認識上の性質の一例を示す概念図である。
【
図6】
図6は、評価結果に含まれる情報から得られる分析的知見の一例を示す概念図である。
【
図7】
図7は、評価者の信頼度情報を記憶する信頼度情報記憶部を示す概念図である。
【
図8】
図8は、評価結果および教師データに含まれる情報を示す概念図である。
【
図9】
図9は、評価結果および教師データに含まれる情報の具体例を示す概念図である。
【
図10】
図10は、人文字認識結果を得るステップにおける処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0019】
図1は、本発明の一実施形態に係る文字認識プログラムの評価方法を行う文字認識プログラム評価システム10を示す概念図である。
図1に示すように、文字認識プログラム評価システム10は、画像データ取得部20、機械文字認識結果取得部30、機械文字認識傾向演算部40、人文字認識結果取得部50、採点部60、情報統合部70等を有する。
【0020】
文字認識プログラム評価システム10は、演算処理を行う演算部や、情報の記憶を行う記憶部や、他のサーバや端末との通信を行う通信部などを有し、物理サーバやクラウド・コンピューティングによる仮想サーバ等によって実現される。また、文字認識プログラム評価システム10に含まれる各種演算部や記憶部等は、1か所に集中して配置されていてもよく、通信ネットワークを介して分散して配置されていてもよい。
【0021】
以下、文字認識プログラム評価システム10による文字認識プログラムの評価方法および文字認識プログラム用教師データの製造方法について、具体例を挙げて説明を行う。ただし、文字認識プログラム評価システム10による文字認識プログラムの評価方法および文字認識プログラム用教師データの製造方法は、これらの具体例のみに限定されるものではない。
【0022】
文字認識プログラム評価システム10による評価方法等においては、まず、画像データ取得部20において、手書き文字の画像データ20aを取得するステップが行われる。画像データ取得部20は、スキャナやカメラ等の読取部24を有しており、帳票22等に記載の文字を読み取り、画像データ20aを取得する。取得された画像データ20aは、画像データ20の記憶部等に保存される。取得される画像データ20aの数や、画像データ20aに含まれる文字数などは、特に限定されない。
【0023】
画像データ20aとして取得される手書き文字は、帳票22のみには限定されず、各種申込書、手紙、挨拶状などの他の書面に含まれる手書き文字であってもよい。ただし、画像データ20aとして取得される手書き文字は、何らかの実用的な目的で手書きされたものであることが好ましい。実用的な目的で書かれた手書き文字を用いることにより、評価システム10により得られる評価結果が、文字認識プログラムの実用上の文字認識精度により近いものとなる。
【0024】
次に、評価システム10では、機械文字認識結果取得部30において、画像データ20aに対して文字認識を行い、文字認識プログラムによる文字認識結果である機械文字認識結果を得るステップが行われる。
図1に示すように、機械文字認識結果取得部30は、複数の異なる文字認識プログラムによる文字認識演算部である第1文字認識演算部31、第2文字認識演算部32、第3文字認識演算部33を有する。
【0025】
それぞれの第1文字認識演算部31、第2文字認識演算部32、第3文字認識演算部33は、互いに異なる文字認識プログラムによって制御されており、互いに異なるアルゴリズムで、共通の画像データ20aに対して文字認識を行う。これにより、機械文字認識結果取得部30では、画像データ20aについての複数の文字認識プログラムによる文字認識結果である第1機械文字認識結果31a、第2機械文字認識結果32a、第3機械文字認識結果33aを得る。
【0026】
図1に示すように、機械文字認識結果取得部30は、それぞれの第1文字認識演算部31、第2文字認識演算部32、第3文字認識演算部33に対応して独立するデータベースを有することが、演算速度を維持する観点から好ましい。各データベースに、各文字認識演算部31、32、33による文字認識結果である第1~第3機械文字認識結果31a、32a、33aが記憶されるほか、認識対象となる画像データ20aも、各データベースに複製して保存される。これにより、第1文字認識演算部31、第2文字認識演算部32、第3文字認識演算部33によるデータベースからの読み出しおよび書き込みが、それぞれ独立に行われることになるため、機械文字認識結果取得部30での処理速度の向上に資する。
【0027】
機械文字認識結果取得部30で画像データ20aに対して文字認識を行う文字認識プログラムの数は、複数であれば特に限定されないが、好ましくは3~8192程度、より好ましくは10~256程度である。文字認識プログラムの数が多いほど、評価および教師データ製造の効率が高まるとともに、評価等で得られる一致率や正解率(後述)の客観性が高まる。一方、文字認識プログラムの数を所定数以下とすることにより、評価システム10に必要なリソースが増えすぎることを防止できる。
【0028】
次に、評価システム10では、機械文字認識傾向演算部40において、画像データ20aから得られる複数の機械文字認識結果31a、32a、33aの一致率に関する一致率データを得るステップを行う。
図1に示すように、機械文字認識傾向演算部40は、機械文字認識結果31a、32a、33aの一致率に関する一致率データを得る一致率データ取得部42を有する。
【0029】
図2は、評価システム10による処理により得られる情報の対応関係を示す概念図である。
図1に示す一致率データ取得部42は、機械文字認識結果取得部30に含まれる各データベースから第1~第3機械文字認識結果31a~33aを読み出し、一致率データ42aを得る。
【0030】
図2(a)では、手書き文字である「日本太郎」という画像データ20aに対して、5つの異なる文字認識演算部31、32、33(第4および第5文字認識演算部は
図1において図示を省略)を用いて、5つの機械文字認識結果31a~33aを得た場合を示している。
図2(a)に示される5つの機械文字認識結果31a~33aから理解できるように、「日本太郎」という画像データ20aに対して5つの異なる文字認識演算部によって文字認識が行われた結果、3種類の異なる機械文字認識結果が得られ、そのうち最大3つの機械文字認識結果が一致している。
【0031】
一致率データ取得部42は、
図2(a)に示すケースでは、5つの異なる文字認識演算部によって文字認識が行われた結果、最大で3つの機械文字認識結果が一致している。したがって、一致率データ取得部42は、「日本太郎」という画像データ20aに関する一致率を、60%(3/5)であると判断する。
【0032】
一方、
図2(b)に示すケースでは、手書き文字である「同上」という画像データ20aに対して3つの異なる文字認識演算部によって文字認識が行われた結果、3種類の異なる機械文字認識結果が得られ、そのうち最大2つの機械文字認識結果が一致している。
図2(b)に示すケースでは、5つの異なる文字認識演算部によって文字認識が行われた結果、最大で2つの機械文字認識結果が一致しているため、一致率データ取得部42は、「同上」という画像データ20aに関する一致率を、40%(2/5)であると判断する。
【0033】
図2に示すように、一致率データ42aは、文字認識の対象となった画像データ20aごとに算出される。また、一致率データ42aは、共通する画像データ20aに対する複数の機械文字認識結果31a~33aの比較から算出され、一致した機械文字認識結果が正答であるか誤答であるかを問わない。言い換えると、一致率データ42aは、後述する人文字認識結果56aとは関係なく、もしくは、人文字認識結果56aが取得される前に、算出される。
【0034】
なお、一致率データ42aは、複数の互いに異なる文字認識プログラムによって文字認識結果を得る場合にのみ、意味のある値(変位する価)となる。なぜなら、1つの文字認識プログラムによって1つの文字認識結果を得るケースでは、一致率は常に100%となるからである。
【0035】
次に、評価システム10では、人文字認識結果取得部50において、画像データ20aについての人間の視認による文字認識結果である人文字認識結果56aを得るステップを実施する。
図1に示すように、人文字認識結果取得部50は、評価者選定部52、仮認識結果取得部54、判定部56、評価者データベース52aおよび人文字認識結果56aを記憶する記憶部等を有する。
【0036】
図1に示すように、人文字認識結果取得部50は、通信ネットワーク等を介して評価者が操作する複数の評価者端末94に対して通信を行い、リモートで人間の視認による文字認識結果である人文字認識結果56aを得ることが、効率的かつ安価に評価を行う観点から好ましい。また、
図1に示す人文字認識結果取得部50は、評価者選定部52が少なくとも2人の人間(評価者端末94に紐づけられる)を評価者として選定するステップと、判定部56が少なくとも2人の人間(評価者)から得られた文字認識結果である仮認識結果を判定するステップとを実施して、人文字認識結果を得ることができる。
【0037】
図10は、人文字認識結果取得部50が人文字認識結果56aを得るステップにおける処理の一例を示すフローチャートである。ステップ001で所定の画像データ20aに対する人文字認識結果56aの取得処理を開始した人文字認識結果取得部50は、ステップS0002において、対応する画像データ20aの一致率に関する一致率データ42a(
図2参照)を読み出す。
【0038】
次に、ステップS003では、
図1に示す人文字認識結果取得部50の評価者選定部52が、評価システム10にログインしている候補者の中から、2人の人間を評価者として選定する。ステップS003において、評価者選定部52は、ステップS002で読み出した一致率データ42aと、候補者の評価者としての信頼度を示す評価者信頼度とを参照して、2人の評価者を選定する。
【0039】
ここで、評価者選定部52が評価者の選定に用いる評価者信頼度は、各評価者の個別の文字認識結果である仮認識結果が、
図10に示す人文字認識結果取得部50の処理によって最終的に決定される人文字認識結果56aと一致する確率(評価者正答率)に関する。ただし、評価者信頼度は、各評価者の評価者正答率のみから構成されるものに限定されるものではなく、たとえば、経験年数などの他の指標を評価者正答率と合わせて構成されるものであってもよい。
【0040】
図3は、ステップS003において、評価者選定部52が評価者を選定する基準を示す対応表である。評価者選定部52は、処理対象の画像データ20aの一致率が高い(たとえば80%以上=Aランク)場合は、評価者信頼度のより高い候補を、評価者として優先的に選定する。また、評価者選定部52は、処理対象の画像データ20aの一致率が低い(たとえば40%以下=Cランク)場合は、評価者信頼度が相対的に低い候補を、評価者として優先的に選定する。また、評価者選定部52は、処理対象の画像データ20aの一致率が中程度(たとえば40%より大きく80%未満=Bランク)場合は、評価者信頼度が中程度の候補を、評価者として優先的に選定する。
【0041】
このように、一致率の高い画像データ20aに対しては、一致率の低い画像データ20aに対する場合に比べて、評価信頼度の高い人間を優先して評価者に選定することで、人文字認識結果56aの取得効率を向上させることができる。
図4を用いて後述するように、一致率の高い画像データ20aに対する評価を行うシチュエーションでは、機械文字認識結果31a~33aの中に正しい文字認識結果が含まれる可能性が高いため、迅速かつ正確に、画像データ20aと一致するものを機械文字認識結果31a~33aから探し出す能力が重要となり、評価者の能力差が現れやすい。一方、一致率の低い画像データに対する評価を行うシチュエーションでは、機械文字認識結果31a~33aの中に正しい文字認識結果が存在しない可能性が高く、仮認識結果を打ち込む頻度が高くなるので、誰が行っても時間がかかるケースが多く、相対的に評価者の能力差が現れにくい。
【0042】
次に、ステップS004では、ステップS003で選定した評価者の評価者端末94に対して、人文字認識結果取得部50の仮認識結果取得部54が、
図4に示すような仮認識結果(または人文字認識結果56a)の入力画面を表示する。
図4に示すように、人文字認識結果取得部50は、画像データ20aと、複数の機械文字認識結果31a~33aと、複数の機械文字認識結果31a~33aのいずれかを人文字認識結果56aまたはその候補である仮認識結果として選択可能な第1グラフィカルインターフェース58とを、評価者端末94の表示部に表示する。
【0043】
図4に示すように、第1グラフィカルインターフェース58は、複数の機械文字認識結果31a~33aの中から、画像データ20aの正しい文字認識結果となっているものにチェックを入れるチェックボックスになっている。
図4において点線で示されるように、評価者が、正しい文字認識結果となっている機械文字認識結果31a~33aに対応するチェックボックスを選択することにより、画像データ20aに対する評価者による文字認識結果である仮認識結果が決定される。
【0044】
ステップS005では、さらに確定ボタン58aの入力などを経て、評価者によって評価者端末94に入力された仮認識結果が人文字認識結果取得部50の仮認識結果取得部54に送られ、仮認識結果取得部54が仮認識結果を取得する。この際、仮認識結果取得部54は、ステップS003で選定した2人の評価者から、仮認識結果を取得する。なお、
図4に示すように、評価者端末94の表示部には、仮認識結果を打ち込み可能なテキストボックス等の第2グラフィカルインターフェース59が表示されてもよい。評価者は、第2グラフィカルインターフェース59に直接入力することでも、仮認識結果の入力を行うことができる。
【0045】
また、
図4に示すように、第1グラフィカルインターフェース58によって機械文字認識結果のいずれかが選択された場合は、選択された機械文字認識結果が、第2グラフィカルインターフェース59にコピーされる。また、評価者端末94の表示部には、仮認識結果が入力された際に、各機械文字認識結果31a~33aが正答であるか誤答であるかを表示する自動判定表示欄57が設けられていてもよい。
【0046】
ステップS006では、
図1に示す判定部56が、ステップS005で取得した2人の評価者から得られた文字認識結果である仮認識結果が、互いに一致するか否かを判定する。ステップS006において、2人の選定者よる仮認識結果が互いに一致する場合はステップS007へ進み、
図1に示す判定部56が、一致した仮認識結果を、画像データ20aに対する人文字認識結果56aとして認定し、人文字認識結果取得部50の記憶部に記憶させる。
【0047】
一方、2人の選定者よる仮認識結果が互いに一致しない場合は、ステップS008およびステップS009において、繰り返し回数が所定の回数(5回)を超えてないことを判断したのち、2人の人間を評価者として選定するステップ(ステップS003)の処理へ戻る。なお、ステップS008およびステップS009において、繰り返し回数が所定の回数(5回)を超えていると判断された場合は、ステップS010のへ進む。ステップS010では、人文字認識結果取得部50が、対象である画像データ20aに関する人文字認識結果56aの取得を保留し、際限なく処理が繰り返されることを防止する。なお、ステップS010で人文字認識結果56aの取得が保留された画像データ20aについては、たとえば評価システム10のスーパーバイザー等によって、人文字認識結果56aが決定される。
【0048】
ステップS007またはステップS010の後、ステップS011へ進み、人文字認識結果取得部50による人文字認識結果56aの取得処理を終了する。なお、
図10に示すステップS007等において、画像データ20aに対する人文字認識結果56aが決定した際、人文字認識結果取得部50は、一連の処理に関与した評価者について、仮認識結果が人文字認識結果56aと一致する確率に関する評価者信頼度を記憶または更新する。
図7は、
図1に示す人文字認識結果取得部50の評価者データベース52aに記憶される評価者信頼度52a1~52a6を示す概念図である。評価者データベース52aには、各評価者の評価者信頼度52a1~52a6が記憶されている。なお、評価者データベース52aには、各評価者のログイン時間や処理数など、評価者に関する他の情報が記憶されている。
【0049】
また、
図10等では、2人の評価者を選定して人文字認識結果56aを取得する処理を例示して人文字認識結果を取得するステップを説明したが、選定する評価者は2人には限定されず、1人であってもよく、3人以上であってもよい。たとえば、1人の評価者により人文字認識結果56aの取得を行う場合は、
図4に示す画面によって評価者が入力した結果により、人文字認識結果56aの認定を行う。
【0050】
図1に示す人文字認識結果取得部50により人文字認識結果56aの取得が行われた後、評価システム10では、採点部60により、機械文字認識結果31a~33aの採点が実施される。採点部60は、正誤判定部62と、正解率演算部64と、機械文字認識結果31aの正誤62aおよび正解率64aを記憶する記憶部を有する。
【0051】
図1に示す採点部60の正誤判定部62は、
図2(a)に示すように、5つの機械文字認識結果31a~33aのそれぞれと、人文字認識結果取得部50で取得した人文字認識結果56aとを比較して、各機械文字認識結果31a~33aの正誤62aを判定する。正誤判定部62は、機械文字認識結果31a~33aが人文字認識結果56aに対して一致するものを正答と判定し、機械文字認識結果31a~33aが人文字認識結果56aに対して不一致であるものを誤答と判定する。正誤判定部62は、機械文字認識結果31a~33aの正誤62aを、採点部60の記憶部に記憶させる。
図2(b)についても同様である。
【0052】
また、
図1に示す採点部60の正解率演算部64は、所定の画像データ20aに対する複数の機械文字認識結果31a~33aのうち、所定の画像データ20aに対して正しい文字認識を行うことができた文字認識プログラムによるものの割合を示す正解率64aを算出し、採点部60の記憶部に記憶させる。
図2(a)に示すように、手書き文字である「日本太郎」という画像データ20aに関しては、5つの異なる文字認識プログラムに対応する機械文字認識結果31a~33aのうち、3つが正答であり、2つが誤答である。すなわち、「日本太郎」という画像データ20aに関しては、評価対象である5つの文字認識プログラムのうち、60%にあたる3つの文字認識プログラムが正答しているので、算出される正解率64aは60%である。
【0053】
一方、
図2(b)に示すように、手書き文字である「同上」という画像データ20aに関しては、5つの異なる文字認識プログラムに対応する機械文字認識結果31a~33aのうち、1つが正答であり、4つが誤答であるため、算出される正解率64aは20%である。
図2(a)および
図2(b)から理解できるように、所定の画像データ20aについての一致率と正解率64aとを比較した場合、一致率が正解率64aより高い場合と、正解率64aと一致率とが一致する場合とがある。
【0054】
次に、
図1に示す評価システムでは、情報統合部70において、文字認識プログラムの評価結果72bと、機械学習機能付き文字認識プログラム用教師データ72aを、記憶部に記憶する。情報統合部70は、情報処理部72を有しており、情報処理部72が評価システム10の各部が生成した情報を統合することにより、文字認識プログラム評価結果72bおよび教師データ72aを生成する。
【0055】
図8は、文字認識プログラム評価結果72bに含まれる情報を示す概念図である。
図8に示すように、文字認識プログラム評価結果72bには、画像データ取得部20で取得された画像データ20aと、機械文字認識結果取得部30で取得された機械文字認識結果31a~33aおよび採点部60で取得されたその正誤62aと、人文字認識結果取得部50で取得された人文字認識結果56aと、機械文字認識傾向演算部40で取得された一致率データ42aと、採点部60で取得された正解率64aとが含まれる。
【0056】
図9は、文字認識プログラム評価結果72bに含まれる情報の具体例を示す概念図である。
図9に示すように、文字認識プログラム評価結果72bでは、所定の文字認識プログラムによる第1機械文字認識結果31aおよびその正誤62aと、人文字認識結果56aと、一致率データ42aと、正解率64aとが、対応する画像データ20aに関連づけられて記憶されている。
【0057】
文字認識プログラム評価結果72bは、各画像データ20aについて、正解率64aと一致率という多角的な指標を含むため、その画像データ20aに対する機械文字認識結果の正誤62aについて、多角的かつ有効な知見を得ることができる。
図6は、文字認識プログラム評価結果72bに含まれる情報から得られる分析的知見の一例を示す概念図である。
【0058】
たとえば、
図6の2行目に示すように、所定の文字認識プログラムが、一致率も正解率も高い画像データに誤答した場合は、その画像データに関する文字認識能力に関して、他の文字認識プログラムに対して相対的劣位であると分析できる。また、
図6の3行目に示すように、所定の文字認識プログラムが、一致率が高く正解率が低い画像データに誤答した場合は、その画像データに関する文字認識能力に関して、文字認識プログラムに共通する根本的問題を有すると分析できる。また、
図6に示す表の4行目に示すように、所定の文字認識プログラムが、一致率が高く正解率が低い画像データに正答した場合は、その画像データに関する文字認識能力に関して、他の文字認識プログラムには無い革新的優位性を有すると分析できる。
【0059】
また、
図6の5行目に示すように、所定の文字認識プログラムが、一致率も正解率も低い画像データに誤答した場合は、その画像データに関する文字認識能力に関して、文字認識プログラム毎のばらつきが大きく、やや根深い問題を有すると分析できる。また、
図6の6行目に示すように、所定の文字認識プログラムが、一致率も正解率も低い画像データに正答した場合は、その画像データに関する文字認識能力に関して、他の文字認識プログラムに対して相対的優位性を有すると分析できる。
【0060】
図1に示す教師データ72aも、
図8および
図9に示す文字認識プログラム評価結果72bと同様に、人文字認識結果56aと、一致率データ42aと、正解率64aとが、対応する画像データ20aに関連づけられて記憶されている。ただし、教師データ72aは、文字認識プログラム評価結果72bとは異なり、所定の文字認識プログラムによる第1機械文字認識結果31aおよびその正誤62aについては、省略してよい。
【0061】
教師データ72aも、文字認識プログラム評価結果72bと同様に、各画像データ20aについて、正解率64aと一致率という多角的な指標を含むため、その画像データ20aにより期待される学習効果について、多角的かつ有効な知見を得ることができる。
図5は、教師データ72aに含まれる情報から得られる分析的知見の一例を示す概念図である。
【0062】
図5の2行目に示すように、一致率も正解率も高い画像データには、多くの文字認識プログラムが正答できる現状到達レベルを確認する学習効果が期待できる。また、
図5の3行目に示すように、一致率が高く正解率が低い画像データには、文字認識プログラムに共通の課題を改善する学習効果が期待できる。また、
図5の4行目に示すように、一致率も正解率も低い画像データには、文字認識プログラムごとの個体差が大きい文字の認識を改善する学習効果が期待される。
【0063】
以上のように、
図1に示すような評価システム10によれば、実際の手書き文字の画像データ20aを、複数の文字認識プログラムが文字認識することにより、現実の手書き文字を文字認識する状況に整合しており、かつ、客観的な評価結果が得られる。また、共通の画像データ20aを複数の文字認識プログラムにより文字認識することにより、1件の人文字認識結果あたりのプログラム評価数を増加させることができるので、評価の効率を高めることができる。
【符号の説明】
【0064】
10…文字認識プログラムの評価システム(評価システム)
20…画像データ取得部
22…手書き文字
20a…画像データ
30…機械文字認識結果取得部
31…第1文字認識演算部
31a…第1機械文字認識結果
32…第2文字認識演算部
32a…第2機械文字認識結果
33…第3文字認識演算部
33a…第3機械文字認識結果
40…機械文字認識傾向演算部
42…一致率データ取得部
42a…一致率データ
50…人文字認識結果取得部
52…評価者選定部
54…仮認識結果取得部
56…判定部
52a…評価者データベース
52a1~52a6…評価者信頼度
56a…人文字認識結果
58…第1グラフィカルインターフェース
59…第2グラフィカルインターフェース
57…自動判定表示欄
60…採点部
62…正誤判定部
64…正解率演算部
64a…正解率
70…情報統合部
72b…文字認識プログラム評価結果
72a…教師データ
94…評価者端末
【手続補正書】
【提出日】2022-10-03
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
文字認識プログラムの評価システムによる文字認識プログラムの評価方法であって、
画像データ取得部が、手書き文字の画像データを取得するステップと、
複数の異なる文字認識プログラムによる文字認識演算部が前記画像データに対して文字認識を行い、前記画像データについての前記複数の文字認識プログラムによる文字認識結果である複数の機械文字認識結果を、機械文字認識結果取得部が得るステップと、
一致率データ取得部が、前記画像データから得られる前記複数の機械文字認識結果の一致率に関する一致率データを得るステップと、
人文字認識結果取得部が、前記画像データについての人間の視認による文字認識結果である人文字認識結果を得るステップと、
正解率演算部が、前記複数の機械文字認識結果のそれぞれと、前記人文字認識結果とを比較して、前記複数の機械文字認識結果の正誤を判定するとともに、前記複数の機械文字認識結果の正解率を得るステップと、
情報統合部が、前記画像データと、前記複数の機械文字認識結果のうち少なくとも1つおよびその正誤と、前記人文字認識結果と、前記一致率データと、前記正解率と、が関連付けられた文字認識プログラム評価結果を記憶するステップと、を有する文字認識プログラムの評価方法。
【請求項2】
前記人文字認識結果を得るステップでは、前記人文字認識結果取得部が、少なくとも2人の人間を評価者として選定するステップと、
前記少なくとも2人の人間から得られた文字認識結果である仮認識結果を判定するステップと、をさらに有し、
前記仮認識結果を判定するステップでは、前記人文字認識結果取得部が、前記仮認識結果が互いに一致する場合には前記仮認識結果を前記人文字認識結果として認定し、前記仮認識結果が互いに一致しない場合は少なくとも2人の人間を評価者として選定するステップに戻る請求項1に記載の文字認識プログラムの評価方法。
【請求項3】
前記人文字認識結果を得るステップでは、前記人文字認識結果取得部が、各評価者の仮認識結果が前記人文字認識結果と一致する確率に関する評価者信頼度を記憶するステップを含み、
前記少なくとも2人の人間を評価者として選定するステップでは、前記人文字認識結果取得部が、前記一致率データと、前記評価者信頼度とを用いて、少なくとも2人の人間を評価者として選定する請求項2に記載の文字認識プログラムの評価方法。
【請求項4】
前記人文字認識結果を得るステップでは、前記人文字認識結果取得部が、前記画像データと、前記複数の機械文字認識結果と、前記複数の機械文字認識結果のいずれかを前記人文字認識結果またはその候補として選択可能なグラフィカルインターフェースと、を評価者の端末に表示するステップを有する請求項1に記載の文字認識プログラムの評価方法。
【請求項5】
手書き文字の画像データを取得する画像データ取得部と、
複数の異なる文字認識プログラムが前記画像データに対して文字認識を行い、前記画像データについての前記複数の文字認識プログラムによる文字認識結果である複数の機械文字認識結果を得る機械文字認識結果取得部と、
前記画像データから得られる前記複数の機械文字認識結果の一致率に関する一致率データを得る一致率データ取得部と、
前記画像データについての人間の視認による文字認識結果である人文字認識結果を得る人文字認識結果取得部と、
前記複数の機械文字認識結果のそれぞれと、前記人文字認識結果とを比較して、前記複数の機械文字認識結果の正誤を判定する正誤判定部および前記複数の機械文字認識結果の正解率を得る正解率演算部と、
前記画像データと、前記複数の機械文字認識結果のうち少なくとも1つおよびその正誤と、前記人文字認識結果と、前記一致率データと、前記正解率と、が関連付けられた文字認識プログラム評価結果を記憶する評価結果記憶部と、を有する文字認識プログラムの評価システム。
【請求項6】
文字認識プログラムの評価システムによる文字認識プログラム用教師データの製造方法であって、
画像データ取得部が、手書き文字の画像データを取得するステップと、
複数の異なる文字認識プログラムが前記画像データに対して文字認識を行い、前記画像データについての前記複数の文字認識プログラムによる文字認識結果である複数の機械文字認識結果を機械文字認識結果取得部が得るステップと、
一致率データ取得部が、前記画像データから得られる前記複数の機械文字認識結果の一致率に関する一致率データを得るステップと、
人文字認識結果取得部が、前記画像データについての人間の視認による文字認識結果である人文字認識結果を得るステップと、
正解率演算部が、前記複数の機械文字認識結果のそれぞれと、前記人文字認識結果とを比較して、前記複数の機械文字認識結果の正誤を判定するとともに、前記複数の文字認識プログラムの正解率を得るステップと、
情報統合部が、前記画像データと、前記人文字認識結果と、前記一致率データと、前記正解率が関連付けられた教師データを記憶するステップと、を有する文字認識プログラム用教師データの製造方法。