(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-18
(45)【発行日】2023-12-26
(54)【発明の名称】情報処理装置、及びプログラム
(51)【国際特許分類】
G06V 30/26 20220101AFI20231219BHJP
G06V 30/12 20220101ALI20231219BHJP
【FI】
G06V30/266
G06V30/264
G06V30/12 D
(21)【出願番号】P 2019009325
(22)【出願日】2019-01-23
【審査請求日】2021-12-20
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110000752
【氏名又は名称】弁理士法人朝日特許事務所
(72)【発明者】
【氏名】任 ベイリ
(72)【発明者】
【氏名】木村 俊一
【審査官】大塚 俊範
(56)【参考文献】
【文献】特開平04-280394(JP,A)
【文献】特開2014-232533(JP,A)
【文献】特開平02-178892(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00- 30/424
(57)【特許請求の範囲】
【請求項1】
第1画像から第1文字列を認識する第1認識部と、
前記第1画像に関連する第2画像から第2文字列を認識する第2認識部と、
異なる文字列が予め関連付けられた辞書を参照して、前記第1文字列に関連する1又は複数の第3文字列を抽出する抽出部と、
前記第3文字列ごとに、前記第2文字列に対する類似度を示す第1類似度をそれぞれ算出する算出部と、
前記第1文字列の文字認識の信頼度を示す第1信頼度
、前記第2文字列の文字認識の信頼度を示す第2信頼
度、及び前記第1類似度
を用いて評価される、前記第2文字列に対する前記第3文字列の信頼性が閾値未満であるときに、第1情報として前記第2文字列を出力し、該信頼性が前記閾値以上であるときに、前記第1情報として前記第2文字列に代えて前記第3文字
列を出力する出力部と、
を有する情報処理装置。
【請求項2】
前記抽出部は、前記第1信頼度及び前記第2信頼度が決められた条件を満たす場合に前記第3文字列を抽出する
ことを特徴とする請求項
1に記載の情報処理装置。
【請求項3】
前記抽出部は、異なる文字列が予め関連付けられた辞書を参照して、前記第2文字列に関連する1又は複数の第4文字列を抽出し、
前記算出部は、前記第4文字列ごとに、前記第1文字列に対する類似度を示す第2類似度をそれぞれ算出し、
前記出力部は、前記第1信頼度、及び前記第2信頼度の少なくともいずれか、及び前記第2類似度に応じて、該第2類似度及び前記第4文字列の少なくともいずれかに基づく第2情報を出力する
ことを特徴とする請求項1
又は2に記載の情報処理装置。
【請求項4】
前記出力部は、前記第1信頼度、前記第2信頼度、及び前記第2類似度を用いて評価される、前記第1文字列に対する前記第4文字列の信頼性が閾値未満であるときに、前記第2情報として前記第1文字列を出力し、該信頼性が前記閾値以上であるときに、前記第2情報として前記第1文字列に代えて前記第4文字列を出力する
ことを特徴とする請求項
3に記載の情報処理装置。
【請求項5】
前記抽出部は、前記第1信頼度及び前記第2信頼度が決められた条件を満たす場合に前記第4文字列を抽出する
ことを特徴とする請求項
3又は
4に記載の情報処理装置。
【請求項6】
前記第2認識部は、
前記第2画像から算出される1以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、前記第2文字列を認識し、
前記出力部が前記第2文字列に代えて前記第3文字列を出力した場合に、前記第2画像
から該第3文字列を認識するように、前記重みを修正する
ことを特徴とする請求項
1に記載の情報処理装置。
【請求項7】
前記第1認識部は、
前記第1画像から算出される1以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、前記第1文字列を認識し、
前記出力部が前記第1文字列に代えて前記第4文字列を出力した場合に、前記第1画像から該第4文字列を認識するように、前記重みを修正する
ことを特徴とする請求項
4に記載の情報処理装置。
【請求項8】
第1画像から第1文字列を認識する第1認識部と、
前記第1画像に関連する第2画像から第2文字列を認識する第2認識部と、
異なる文字列が予め関連付けられた辞書を参照して、前記第1文字列に関連する1又は複数の第3文字列を抽出するとともに前記第2文字列に関連する1又は複数の第4文字列を抽出する抽出部と、
前記第3文字列ごとに、前記第2文字列に対する類似度を示す第1類似度をそれぞれ算出するとともに前記第4文字列ごとに、前記第1文字列に対する類似度を示す第2類似度をそれぞれ算出する算出部と、
前記第1文字列の文字認識の信頼度を示す第1信頼度、及び前記第2文字列の文字認識の信頼度を示す第2信頼度の少なくともいずれか、及び前記第1類似度に応じて、該第1類似度及び前記第3文字列の少なくともいずれかに基づく第1情報を出力するとともに、前記第1信頼度、前記第2信頼度、及び前記第2類似度を用いて評価される、前記第1文字列に対する前記第4文字列の信頼性が閾値未満であるときに、第2情報として前記第1文字列を出力し、該信頼性が前記閾値以上であるときに、前記第2情報として前記第1文字列に代えて前記第4文字列を出力する出力部と、
を有する情報処理装置。
【請求項9】
前記第2画像は、前記第1画像に含まれる文字列の発音を示す文字列を含む画像である、
ことを特徴とする請求項1から8のいずれか1項に記載の情報処理装置。
【請求項10】
コンピュータを、
第1画像から第1文字列を認識する第1認識部と、
前記第1画像に関連する第2画像から第2文字列を認識する第2認識部と、
異なる文字列が予め関連付けられた辞書を参照して、前記第1文字列に関連する1又は複数の第3文字列を抽出する抽出部と、
前記第3文字列ごとに、前記第2文字列に対する類似度を示す第1類似度をそれぞれ算出する算出部と、
前記第1文字列の文字認識の信頼度を示す第1信頼度
、前記第2文字列の文字認識の信頼度を示す第2信頼
度、及び前記第1類似度
を用いて評価される、前記第2文字列に対する前記第3文字列の信頼性が閾値未満であるときに、第1情報として前記第2文字列を出力し、該信頼性が前記閾値以上であるときに、前記第1情報として前記第2文字列に代えて前記第3文字
列を出力する出力部、
として機能させるためのプログラム。
【請求項11】
コンピュータを、
第1画像から第1文字列を認識する第1認識部と、
前記第1画像に関連する第2画像から第2文字列を認識する第2認識部と、
異なる文字列が予め関連付けられた辞書を参照して、前記第1文字列に関連する1又は複数の第3文字列を抽出する
とともに前記第2文字列に関連する1又は複数の第4文字列を抽出する抽出部と、
前記第3文字列ごとに、前記第2文字列に対する類似度を示す第1類似度をそれぞれ算出する
とともに前記第4文字列ごとに、前記第1文字列に対する類似度を示す第2類似度をそれぞれ算出する算出部と、
前記第1文字列の文字認識の信頼度を示す第1信頼度、及び前記第2文字列の文字認識の信頼度を示す第2信頼度の少なくともいずれか、及び前記第1類似度に応じて、前記第3文字列及び前記第1類似度の少なくともいずれかに基づく第1情報を出力する
とともに、前記第1信頼度、前記第2信頼度、及び前記第2類似度を用いて評価される、前記第1文字列に対する前記第4文字列の信頼性が閾値未満であるときに、第2情報として前記第1文字列を出力し、該信頼性が前記閾値以上であるときに、前記第2情報として前記第1文字列に代えて前記第4文字列を出力する出力部、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、及びプログラムに関する。
【背景技術】
【0002】
文字認識の精度を向上させるための技術が検討されている。特許文献1には、入力画像の文章領域を、本文行領域と行間領域とに分別し、行間領域の文字列である行間文字列を抽出し、行間文字列ごとに、本文行領域の文字列の中から、仮決定の親文字列である仮親文字列を決定し、本文行領域及び行間領域の文字を認識し、仮親文字列の認識結果を参照キーとして親文字に対するルビ候補を示すルビ辞書を参照することによって得られるルビ候補の少なくとも1つと、行間文字列の認識結果が一致するか否かの判定を行い、その結果に基づいて、仮親文字列、又は仮親文字列に含まれる一部の文字を除いた残りの文字列を本決定の親文字列として決定する文書認識装置が記載されている。
【0003】
特許文献2には、第1の文字列であるイメージデータを文字認識して文字列コードに変換し、第1の文字列と読みが同じで文字種が異なる第2の文字列であるイメージデータを文字認識して文字列コードに変換し、文字認識された第1の文字列を第2の文字列と同じ文字種の文字列に変換し、変換された第1の文字列と文字認識された第2の文字列とを比較して、第1の文字列と第2の文字列とが異なる場合に第2の文字列を第1の文字列に基づいて訂正する文字認識装置が記載されている。
【0004】
特許文献3には、原稿の画像情報から抽出した文字画像情報毎に形状的特徴に基づいて対応する漢字又はローマ字を選択する時に、特定の漢字画像情報について複数の漢字が選択された際に、画像情報内でこの漢字画像情報と所定の関係を有するローマ字画像情報について選択されたローマ字に基づいて、選択された複数の漢字の中から特定の漢字画像情報に対応する漢字を検索する文字認識方法が記載されている。
【0005】
なお、特許文献4には、認識対象の文字認識における機械学習において、教師信号として単文字間の境界に関する情報を不要とするようにした情報処理装置が記載されている。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2012-212293号公報
【文献】特開平9-138835号公報
【文献】特開2010-282272号公報
【文献】特開2016-212473号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明の目的の一つは、関連する2つの画像からそれぞれ認識された文字列のいずれを信頼するかについて指標を得ることである。
【課題を解決するための手段】
【0008】
本発明の請求項1に係る情報処理装置は、第1画像から第1文字列を認識する第1認識部と、前記第1画像に関連する第2画像から第2文字列を認識する第2認識部と、異なる文字列が予め関連付けられた辞書を参照して、前記第1文字列に関連する1又は複数の第3文字列を抽出する抽出部と、前記第3文字列ごとに、前記第2文字列に対する類似度を示す第1類似度をそれぞれ算出する算出部と、前記第1文字列の文字認識の信頼度を示す第1信頼度、前記第2文字列の文字認識の信頼度を示す第2信頼度、及び前記第1類似度を用いて評価される、前記第2文字列に対する前記第3文字列の信頼性が閾値未満であるときに、第1情報として前記第2文字列を出力し、該信頼性が前記閾値以上であるときに、前記第1情報として前記第2文字列に代えて前記第3文字列を出力する出力部と、を有する情報処理装置である。
【0011】
本発明の請求項2に係る情報処理装置は、請求項1に記載の態様において、前記抽出部は、前記第1信頼度及び前記第2信頼度が決められた条件を満たす場合に前記第3文字列を抽出することを特徴とする情報処理装置である。
【0012】
本発明の請求項3に係る情報処理装置は、請求項1又は2に記載の態様において、前記抽出部は、異なる文字列が予め関連付けられた辞書を参照して、前記第2文字列に関連する1又は複数の第4文字列を抽出し、前記算出部は、前記第4文字列ごとに、前記第1文字列に対する類似度を示す第2類似度をそれぞれ算出し、前記出力部は、前記第1信頼度、及び前記第2信頼度の少なくともいずれか、及び前記第2類似度に応じて、該第2類似度及び前記第4文字列の少なくともいずれかに基づく第2情報を出力することを特徴とする情報処理装置である。
【0014】
本発明の請求項4に係る情報処理装置は、請求項3に記載の態様において、前記出力部は、前記第1信頼度、前記第2信頼度、及び前記第2類似度を用いて評価される、前記第1文字列に対する前記第4文字列の信頼性が閾値未満であるときに、前記第2情報として前記第1文字列を出力し、該信頼性が前記閾値以上であるときに、前記第2情報として前記第1文字列に代えて前記第4文字列を出力することを特徴とする情報処理装置である。
【0015】
本発明の請求項5に係る情報処理装置は、請求項3又は4に記載の態様において、前記抽出部は、前記第1信頼度及び前記第2信頼度が決められた条件を満たす場合に前記第4文字列を抽出することを特徴とする情報処理装置である。
【0016】
本発明の請求項6に係る情報処理装置は、請求項1に記載の態様において、前記第2認識部は、前記第2画像から算出される1以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、前記第2文字列を認識し、前記出力部が前記第2文字列に代えて前記第3文字列を出力した場合に、前記第2画像から該第3文字列を認識するように、前記重みを修正することを特徴とする情報処理装置である。
【0017】
本発明の請求項7に係る情報処理装置は、請求項4に記載の態様において、前記第1認識部は、前記第1画像から算出される1以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、前記第1文字列を認識し、前記出力部が前記第1文字列に代えて前記第4文字列を出力した場合に、前記第1画像から該第4文字列を認識するように、前記重みを修正することを特徴とする情報処理装置である。
本発明の請求項8に係る情報処理装置は、第1画像から第1文字列を認識する第1認識部と、前記第1画像に関連する第2画像から第2文字列を認識する第2認識部と、異なる文字列が予め関連付けられた辞書を参照して、前記第1文字列に関連する1又は複数の第3文字列を抽出するとともに前記第2文字列に関連する1又は複数の第4文字列を抽出する抽出部と、前記第3文字列ごとに、前記第2文字列に対する類似度を示す第1類似度をそれぞれ算出するとともに前記第4文字列ごとに、前記第1文字列に対する類似度を示す第2類似度をそれぞれ算出する算出部と、前記第1文字列の文字認識の信頼度を示す第1信頼度、及び前記第2文字列の文字認識の信頼度を示す第2信頼度の少なくともいずれか、及び前記第1類似度に応じて、該第1類似度及び前記第3文字列の少なくともいずれかに基づく第1情報を出力するとともに、前記第1信頼度、前記第2信頼度、及び前記第2類似度を用いて評価される、前記第1文字列に対する前記第4文字列の信頼性が閾値未満であるときに、第2情報として前記第1文字列を出力し、該信頼性が前記閾値以上であるときに、前記第2情報として前記第1文字列に代えて前記第4文字列を出力する出力部と、を有する情報処理装置である。
【0018】
本発明の請求項9に係る情報処理装置は、請求項1から8のいずれか1項に記載の態様において、前記第2画像は、前記第1画像に含まれる文字列の発音を示す文字列を含む画像である、ことを特徴とする情報処理装置である。
【0019】
本発明の請求項10に係るプログラムは、コンピュータを、第1画像から第1文字列を認識する第1認識部と、前記第1画像に関連する第2画像から第2文字列を認識する第2認識部と、異なる文字列が予め関連付けられた辞書を参照して、前記第1文字列に関連する1又は複数の第3文字列を抽出する抽出部と、前記第3文字列ごとに、前記第2文字列に対する類似度を示す第1類似度をそれぞれ算出する算出部と、前記第1文字列の文字認識の信頼度を示す第1信頼度、及び前記第2文字列の文字認識の信頼度を示す第2信頼度、及び前記第1類似度を用いて評価される、前記第2文字列に対する前記第3文字列の信頼性が閾値未満であるときに、第1情報として前記第2文字列を出力し、該信頼性が前記閾値以上であるときに、前記第1情報として前記第2文字列に代えて前記第3文字列を出力する出力部、として機能させるためのプログラムである。
本発明の請求項11に係るプログラムは、コンピュータを、第1画像から第1文字列を認識する第1認識部と、前記第1画像に関連する第2画像から第2文字列を認識する第2認識部と、異なる文字列が予め関連付けられた辞書を参照して、前記第1文字列に関連する1又は複数の第3文字列を抽出するとともに前記第2文字列に関連する1又は複数の第4文字列を抽出する抽出部と、前記第3文字列ごとに、前記第2文字列に対する類似度を示す第1類似度をそれぞれ算出するとともに前記第4文字列ごとに、前記第1文字列に対する類似度を示す第2類似度をそれぞれ算出する算出部と、前記第1文字列の文字認識の信頼度を示す第1信頼度、及び前記第2文字列の文字認識の信頼度を示す第2信頼度の少なくともいずれか、及び前記第1類似度に応じて、前記第3文字列及び前記第1類似度の少なくともいずれかに基づく第1情報を出力するとともに、前記第1信頼度、前記第2信頼度、及び前記第2類似度を用いて評価される、前記第1文字列に対する前記第4文字列の信頼性が閾値未満であるときに、第2情報として前記第1文字列を出力し、該信頼性が前記閾値以上であるときに、前記第2情報として前記第1文字列に代えて前記第4文字列を出力する出力部、として機能させるためのプログラムである。
【発明の効果】
【0020】
請求項1、10に係る発明によれば、関連する2つの画像からそれぞれ認識された文字列のいずれを信頼するかについて指標が得られる。
また、請求項1、10に係る発明によれば、辞書を参照して抽出された、第1文字列に関連する第3文字列の信頼性が、第2文字列に対して閾値以上であるときに、第3文字列の出力が得られる。
請求項2に係る発明によれば、辞書を参照して第1文字列に関連する第3文字列を抽出する処理を行うための条件を、第1文字列、第2文字列の各信頼度に基づいて設定することができる。
請求項3に係る発明によれば、第1画像から認識された第1文字列と、第1画像に関連する第2画像から認識された第2文字列と、辞書を参照して抽出された、第1文字列に関連する第3文字列と、辞書を参照して抽出された、第2文字列に関連する第4文字列と、
を用いて、第1文字列と第2文字列とのいずれを信頼するかについて指標が得られる。
請求項4に係る発明によれば、辞書を参照して抽出された、第2文字列に関連する第4文字列の信頼性が、第1文字列に対して閾値以上であるときに、第4文字列の出力が得られる。
請求項5に係る発明によれば、辞書を参照して第2文字列に関連する第4文字列を抽出する処理を行うための条件を、第1文字列、第2文字列の各信頼度に基づいて設定することができる。
請求項6に係る発明によれば、第2画像から算出される特徴量につける重みを修正しない場合に比べて、第2文字列を認識する精度が向上する。
請求項7、8、11に係る発明によれば、第1画像から算出される特徴量につける重みを修正しない場合に比べて、第1文字列を認識する精度が向上する。
請求項9に係る発明によれば、第1画像に含まれる文字列の発音を示す文字列を含む第2文字列が、第2画像から認識される。
【図面の簡単な説明】
【0021】
【
図2】記憶部12に記憶される領域対応表121の例を示す図。
【
図4】記憶部12に記憶される文字認識モデル122の例を示す図。
【
図5】記憶部12に記憶される辞書DB123の例を示す図。
【
図6】記憶部12に記憶される分類モデル124を説明するための概念図。
【
図9】情報処理装置1の動作の流れを示すフロー図。
【発明を実施するための形態】
【0022】
<実施形態>
<情報処理装置の構成>
図1は、情報処理装置1の構成を示す図である。
図1に示す通り、情報処理装置1は、制御部11、記憶部12、通信部13、操作部14、表示部15、及び画像読取部16を有する。
【0023】
制御部11は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)を有し、CPUがROM及び記憶部12に記憶されているコンピュータプログラム(以下、単にプログラムという)を読み出して実行することにより情報処理装置1の各部を制御する。
【0024】
通信部13は、有線又は無線により通信回線(図示せず)に接続する通信回路である。情報処理装置1は、通信部13により、通信回線に接続された他の装置(すなわち、外部装置)と情報をやり取りする。
【0025】
操作部14は、各種の指示をするための操作ボタン、キーボード、タッチパネル等の操作子を備えており、利用者による操作を受付けてその操作内容に応じた信号を制御部11に送る。
【0026】
表示部15は、液晶ディスプレイ等の表示画面を有しており、制御部11の制御の下、画像を表示する。表示画面の上には、操作部14の透明のタッチパネルが重ねて配置されてもよい。
【0027】
画像読取部16は、プラテンガラス、媒体に光を照射する照射装置、反射光を集光する光学系、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサや、CCD(Charge Coupled Device)イメージセンサ等の撮像素子等を備える。画像読取部16は、制御部11の制御の下、プラテンガラスに載せられた、紙等の媒体に形成された画像を読取り、読取った画像を示す画像データを生成して制御部11に供給する。
【0028】
記憶部12は、ソリッドステートドライブ、ハードディスクドライブ等の記憶手段であり、制御部11のCPUに読み込まれる各種のプログラム、データ等を記憶する。また、記憶部12は、領域対応表121、文字認識モデル122、辞書DB123、及び分類モデル124を記憶する。
【0029】
<領域対応表の構成>
図2は、記憶部12に記憶される領域対応表121の例を示す図である。領域対応表121は、帳票等の手書き用紙に含まれる記入欄等の領域のレイアウトを示した表である。領域対応表121は、領域を識別するための領域名と、その領域の具体的な範囲や位置を示す情報である領域情報とを対応付けて記憶する。例えば、
図2に示す領域対応表121で、「氏名フリガナ」に対応する領域情報は「A2」である。領域情報は、例えば、手書き用紙から読取られた画像に対して、斜め補正や拡大・縮小補正が行われた後の補正画像における座標情報等として表される。例えば領域情報が示す領域が矩形であれば、領域情報はその矩形の左上及び右下の各頂点の座標等で表される。
【0030】
図3は、手書きされた領域の例を示す図である。例えば、
図3に示す二点鎖線の枠で囲った「A2」は、
図2で示す「氏名フリガナ」という領域名で識別される領域であり、枠で囲った「A1」は、
図2で示す「氏名漢字」という領域名で識別される領域である。
【0031】
<文字認識モデルの構成>
図4は、記憶部12に記憶される文字認識モデル122の例を示す図である。文字認識モデル122は、領域対応表121に含まれる領域名で識別される領域ごとに、その領域に手書きされる文字の認識処理に用いられるモデルデータを対応付けて記憶する。
【0032】
このモデルデータは、例えば、予め正解の文字コードと対応付けられた手書き文字の画像を示す画像データを読み込ませ、文字コードと手書き文字との対応関係を機械学習させることで生成された学習済みモデルである。情報処理装置1の制御部11は、例えば、用紙に書き込まれた手書き文字の画像を読取って生成された画像データを画素ごとに分解して、各画素の階調値を多層ニューラルネットワークに入力する。そして制御部11は、文字認識モデル122から読み出したモデルデータを多層ニューラルネットワークに適用し、算出される出力に基づいて、手書き文字に対応する文字コードを認識する。
【0033】
<辞書DBの構成>
図5は、記憶部12に記憶される辞書DB123の例を示す図である。辞書DB123は、異なる文字列を予め関連付けたデータベースである。
図5に示す辞書DB123は、辞書名リスト1231と、辞書データ1232と、を有する。辞書名リスト1231は、辞書データ1232を識別するための識別情報である辞書名を列挙したリストである。辞書データ1232は、辞書名リスト1231に記載されている辞書名ごとにそれぞれ関連付けられたデータであって、その辞書名が示す対象の文字列にそれぞれ関連する文字列を記憶するデータである。
【0034】
例えば、
図5に示す辞書DB123の辞書名リスト1231には「氏名用辞書」という辞書名が記入されている。そして、「氏名用辞書」という辞書名には、1つの辞書データ1232が対応付けられている。この辞書データ1232は、氏名に用いられる漢字を示した文字列と、その漢字の発音を示すカタカナ(すなわち、フリガナ)を示した文字列とを関連付けるデータである。氏名用辞書に対応付けられた辞書データ1232は、漢字からその漢字のフリガナを特定することに用いられる。1つの漢字の発音が複数通りである場合、その漢字から複数のフリガナが特定されることもある。例えば、
図5に示す通り、「友規」という漢字には、「トモキ」「トモノリ」「ユウキ」等、複数の発音が関連付けられている。
【0035】
<分類モデルの構成>
記憶部12に記憶される分類モデル124は、関連する2つの画像からそれぞれ認識された文字列のいずれを信頼するかについての判断に用いられる。情報処理装置1は、分類モデル124を用いて、例えば、第1信頼度、第2信頼度、及び、第1類似度の3つの数値で構成される特徴量を分類して、上述した判断を行う。
【0036】
ここで、第1信頼度とは、読取られた画像に含まれる画像(以下、第1画像という)から認識された第1文字列の信頼度である。また、第2信頼度とは、第1画像に関連する画像(以下、第2画像という)から認識された第2文字列の信頼度である。そして、第1類似度とは、辞書DB123から抽出された、第1文字列に関連する文字列(以下、第3文字列という)の、第2文字列に対する類似度である。類似度とは、2つの文字列が相互に類似している程度を示す数値であり、例えば、レーベンシュタイン距離、ジャロ・ウィンクラー距離等の編集距離で示される。
【0037】
図6は、記憶部12に記憶される分類モデル124を説明するための概念図である。
図6で特徴量の次元は、説明のため2とする。x,yの2つの数値で構成される特徴量は、
図6に示す通りxy平面上にプロットされる。これらの特徴量は属するクラスを示すラベルと対応付ける、いわゆる「ラベル付け」が予めされている。すなわち、これらの特徴量は、正解付きの認識データであり、教師データである。
【0038】
図6に示す例では、各特徴量に対応する点は、それぞれ四角で表される点及び丸で表される点のいずれかである。分類モデル124は、予めラベル付けがなされたこれらの特徴量に基づいて生成されたモデルデータである。例えば、
図6に示す直線Lは、上述した複数の点を種類ごとに分類する線であり、この直線Lを示すパラメータは、モデルデータの一例である。
【0039】
分類モデル124は、教師データを用いて機械学習の分類手法により生成される。
この教師データは、例えば、第1信頼度、第2信頼度、及び、第1類似度の3つの数値で構成される特徴量と、それらの特徴量にそれぞれ対応付けられた2以上のクラスと、を関連付けたデータである。クラスには、例えば「第2文字列を信頼する」及び「第3文字列を信頼する」のいずれかのラベルが付されている。この機械学習の分類手法としては、例えば、サポートベクターマシン、線形回帰、アンサンブル学習等が挙げられる。また、この機械学習のアルゴリズムには、例えば、エイダブースト等が適用される。なお、ラベルは上述した2種類に限らず、例えば、情報の出力内容や出力の有無を示すものを含んでもよい。
【0040】
<情報処理装置の機能的構成>
図7は、情報処理装置1の機能的構成を示す図である。
図7において、情報処理装置1の通信部13及び操作部14は省かれている。
【0041】
情報処理装置1の制御部11は、記憶部12に記憶されているプログラムを読み出して実行することにより、解析部111、認識部112、抽出部113、算出部114、及び出力部115として機能する。
【0042】
解析部111は、画像読取部16が読取った画像を示す画像データを取得し、この画像を構成する記入欄のレイアウトを解析する。解析部111は、画像読取部16から画像データを取得すると、この画像データが示す画像に描かれた線や印等に基づいて、いわゆる斜め補正や拡大・縮小補正、オフセット補正等の各種の補正を行う。そして、解析部111は、領域対応表121を参照することで、補正された画像から第1画像及び第2画像を切出す。
【0043】
第1画像は、例えば、領域情報「A1」で示される領域に描画された画像であり、利用者によって手書きされた漢字を示す画像である。第2画像は、例えば、領域情報「A2」で示される領域に描画された画像であり、利用者によって手書きされたフリガナを示す画像である。第2画像に示されるフリガナは、第1画像に示される漢字のフリガナであるから、第1画像と第2画像とは関連している。この漢字及びフリガナは、例えば利用者の氏名を示す漢字及びフリガナである。
【0044】
認識部112は、解析部111によって切出された第1画像及び第2画像のそれぞれに対し、文字認識モデル122に記憶されたモデルデータを用いて文字認識処理を行い、各領域に手書きされた文字列を認識する。認識部112は、第1画像から第1文字列を認識する。このとき、認識部112は、第1認識部として機能する。また、認識部112は、第1画像に関連する第2画像から第2文字列を認識する。このとき、認識部112は、第2認識部として機能する。
【0045】
認識部112は、第1画像及び第2画像のそれぞれに対し、階調値に基づいてエッジ検出等を行って、文字単位で画像を分割する。そして、認識部112は、それぞれの領域に対応付けられたモデルデータを文字認識モデル122から読み出して、1文字ずつ認識処理を行う。
【0046】
ここで認識部112は、1文字ずつ文字認識をする際に、認識した手書き文字が、モデルデータの生成に使われた教師データ等に含まれる文字の画像とどの程度、相違しているかを評価する。この評価は、例えば、一致する画素の数や、共通の階調値を示す画素の塊の配置、大きさ等に基づいて行われる。そして、認識部112は、この評価の結果に基づいて、文字ごとの文字認識の信頼度(以下、文字信頼度という)を算出する。
【0047】
認識部112は、分割した全ての画像について文字認識を行うと、これを並べた文字列を生成するとともに、この文字列の信頼度を算出する。文字列の信頼度は、例えば、特許文献4に記載した数式4を用いて算出される。認識部112は、例えば、隣り合う文字の文字信頼度から計算される局所的なエネルギー関数の和を求め、これにより文字列の信頼度を算出する。
【0048】
認識部112は、文字認識の結果がそれぞれ文字ごとに複数ある場合、それらの文字を組合せて得られる文字列ごとに信頼度を算出する。そして、算出された信頼度が最も高い文字列をその画像から認識した文字列として選択する。例えば、認識部112は、複数の文字列の候補から1つの文字列を選択する際に、上述した局所的なエネルギー関数の和で示されるエネルギー関数が最小になる場合の文字列を、ビタビアルゴリズムを用いて探索する。
【0049】
図8は、文字認識の例を説明するための図である。例えば、
図3に示す手書き文字に対して、認識部112は、第1文字列として「富士友規」という文字列、及び第2文字列として「フジマウキ」という文字列をそれぞれ認識する。そして、認識部112は、第1文字列及び第2文字列のそれぞれの信頼度も算出する。信頼度は0以上1以下の数値で示される。
図8に示す通り、第1文字列の信頼度は0.998であり、第2文字列の信頼度は0.19である。第1文字列の信頼度は0よりも1に近いため、文字認識が成功していると推測される。一方、第2文字列の信頼度は1よりも0に近いため、文字認識が失敗していると推測される。
【0050】
抽出部113は、異なる文字列が予め関連付けられた辞書を参照して、第1文字列に関連する1又は複数の第3文字列を抽出する。抽出部113は、上述した第1文字列である「富士友規」に関連する第3文字列を、辞書DB123から抽出する。抽出部113は、辞書DB123を参照して、「富士」の部分から「フジ」という1通りのフリガナを抽出する。また、抽出部113は、辞書DB123を参照して、「友規」の部分から「トモキ」、「トモノリ」、及び「ユウキ」の3通りのフリガナを抽出する。したがって、抽出部113は、「フジトモキ」、「フジトモノリ」及び「フジユウキ」の3つの第3文字列を抽出する。
【0051】
算出部114は、第3文字列ごとに、第2文字列に対する類似度を示す第1類似度をそれぞれ算出する。この類似度は、第2文字列と第3文字列との編集距離によって算出される。ここで編集距離とは、初期の文字列(以下、初期文字列という)を目的とする文字列(以下、目的文字列という)に変化させるための編集処理の種類及び回数等に基づいて算出される数値である。編集処理とは、例えば、「追加する」、「削除する」、「入れ替える」といった処理をいう。
【0052】
算出部114は、「追加する」、「削除する」、「入れ替える」という3つの編集処理の編集距離をいずれも「1」とする。そして、算出部114は、初期文字列から目的文字列までに要した編集処理の、それぞれの編集距離の合計を、初期文字列から目的文字列への編集距離として算出する。この編集距離を第1類似度とする場合、第1類似度が0に近いほど、第2文字列と第3文字列は類似しており、大きいほど非類似である。
【0053】
なお、1つの「追加する」と1つの「削除する」とは、1つの「入れ替える」に相当するが、算出部114は、編集距離の合計が小さくなるように「入れ替える」を採用する。
【0054】
図8に示す例で、第3文字列である「フジトモキ」は、「ト」「モ」をそれぞれ「マ」「ウ」に入れ替えることで、第2文字列である「フジマウキ」に編集される。したがって、この第3文字列は、「入れ替える」という編集処理を2回行うことで第2文字列に変化するから、第3文字列の第2文字列に対する編集距離、すなわち第1類似度は「2」である。
【0055】
また、第3文字列である「フジトモノリ」は、「ト」「モ」「ノ」をそれぞれ「マ」「ウ」「キ」に入れ替え、かつ、「リ」を削除することで、第2文字列である「フジマウキ」に編集される。つまり、この第3文字列は、「入れ替える」を3回、「削除する」を1回、すなわち合計して4回の編集処理を行うことで第2文字列に変化する。したがって、第3文字列の第2文字列に対する編集距離、すなわち第1類似度は「4」である。
【0056】
一方、第3文字列である「フジユウキ」は、「ユ」を「マ」に入れ替えることで、第2文字列である「フジマウキ」に編集される。したがって、この第3文字列は、「入れ替える」という編集処理を1回だけ行うことで第2文字列に変化するから、第3文字列の第2文字列に対する編集距離、すなわち第1類似度は「1」である。
【0057】
ところで、第2画像から認識されたフリガナは、一般に複数のカタカナ文字で構成される文字列であり、誤認識された場合であっても、その誤りは文字列全体の一部であることが多い。そして、第1類似度は、辞書DB123から抽出したフリガナと、認識されたフリガナとの相違の程度を表している。そのため、第1類似度が類似を示しているほど、一般に辞書DB123から抽出したフリガナの方が認識されたフリガナよりも信頼される。つまり、この場合、第1類似度が0に近い(類似していることを示す)ほど、漢字の認識精度の方が、フリガナの認識精度よりも信頼できると言える。
【0058】
しかし、第1類似度が大きい(非類似であることを示す)ほど、辞書DB123から抽出したフリガナと認識されたフリガナとの相違する箇所が増えるので、漢字の認識精度に比較してフリガナの認識精度を信頼できない、とは言えなくなる。
【0059】
そこで、情報処理装置1は、第3文字列が複数ある場合、これら第3文字列ごとに算出した第1類似度を比較して、最も類似を示している(この場合、最も0に近い)第3文字列を選択する。
【0060】
出力部115は、第1類似度に応じて、この第1類似度及び第3文字列の少なくともいずれかに基づく情報である第1情報を出力する。例えば、
図8に示す通り、第1文字列として「富士友規」という文字列、第2文字列として「フジマウキ」という文字列がそれぞれ認識され、第3文字列として「フジユウキ」という文字列が抽出されたとする。この場合、第1文字列の信頼度である第1信頼度は「0.998」、第2文字列の信頼度である第2信頼度は「0.19」、第3文字列の第2文字列に対する第1類似度は「1」である。
【0061】
このとき、出力部115は、(第1信頼度,第2信頼度,第1類似度)で示される特徴量が(0.998,0.19,1)である場合について、分類モデル124を参照し、第2文字列と第3文字列のいずれを信頼するべきかを判断する。そして、出力部115は、判断の結果に応じて、第1類似度及び第3文字列の少なくともいずれかに基づく情報である第1情報を出力する。
【0062】
なお、この場合、出力部115は、第1類似度に加えて、第1文字列の信頼度を示す第1信頼度、及び第2文字列の信頼度を示す第2信頼度の少なくともいずれかに応じて、第1情報を出力する。特に、上述した(第1信頼度,第2信頼度,第1類似度)の3次元で示される特徴量のように、第1類似度を含む複数次元の特徴量を用いると、例えば統計的分類手法を適用することにより複雑な判断基準の下に、第1情報の出力内容や出力の有無が決まる。
【0063】
出力部115は、例えば、第1情報として「フジマウキ(もしかしてフジユウキ?)」という文字列を示す制御信号を出力し、表示部15にこの文字列を表示させてもよい。この場合、括弧内の「もしかして」に続いて第3文字列を示すので、第1情報は、第1類似度及び第3文字列の少なくともいずれかに基づく情報である。
【0064】
また、出力部115は、例えば、第1情報として「フジマウキ(類似度が1の他の候補があります)」という文字列を示す制御信号を出力し、表示部15にこの文字列を表示させてもよい。この場合、括弧内には他の候補の類似度が示されるので、第1情報は、第1類似度及び第3文字列の少なくともいずれかに基づく情報である。
【0065】
<情報処理装置の動作>
図9は、情報処理装置1の動作の流れを示すフロー図である。
図9に示す通り、情報処理装置1の制御部11は、画像読取部16を制御して媒体に形成された画像を読取る(ステップS101)。制御部11は、読取った画像を補正して、領域対応表121に基づいてこの画像から第1画像及び第2画像を切出す(ステップS102)。なお、読取った画像の補正は行われなくてもよい。
【0066】
制御部11は、第1画像から第1文字列を認識し(ステップS103)、第1文字列の第1信頼度を算出する(ステップS104)。
【0067】
また、制御部11は、第2画像から第2文字列を認識し(ステップS105)、第2文字列の第2信頼度を算出する(ステップS106)。ステップS105は、ステップS103の前に行われてもよい。
【0068】
制御部11は、辞書DB123を参照して第1文字列に関連する1又は複数の第3文字列を抽出し(ステップS107)、第3文字列ごとに第2文字列に対する第1類似度を算出する(ステップS108)。
【0069】
制御部11は、第1信頼度、第2信頼度、及び第1類似度に応じて、第2文字列に対する第3文字列の信頼性を評価する(ステップS109)。この評価は、制御部11が、分類モデル124を参照して、(第1信頼度,第2信頼度,第1類似度)で示される特徴量を分類し、この特徴量がどのラベルが付けられたクラスに分類されたかに応じて決定される。
【0070】
そして、制御部11は、評価した信頼性が条件を満たした場合に、第2文字列に代えて第3文字列を出力する(ステップS110)。制御部11は、例えば、(第1信頼度,第2信頼度,第1類似度)で示される特徴量が「第3文字列を信頼する」というラベル付けがされたクラスに分類された場合に、第2文字列に代えて第3文字列を出力する。
【0071】
以上、説明した通り、情報処理装置1は、第3文字列の第2文字列に対する第1類似度に応じて第1情報を出力する。
【0072】
例えば、上述した第1信頼度は、第1文字列の認識精度を示す指標であり、第2信頼度は第2文字列の認識精度を示す指標であるが、いずれも、それぞれの文字認識処理に基づいて算出される数値である。したがって、第1信頼度、又は第2信頼度だけで認識精度を評価すると判断を誤る可能性がある。
【0073】
一方、第1類似度は、辞書DB123から抽出した、第1文字列に関連する第3文字列と、第2文字列との編集距離等の比較結果により算出される。つまり、第1類似度は、第1文字列、第2文字列の文字認識処理に加えて、文字列の関連を記憶した辞書DB123に基づいている。そして、1つの第1文字列に関連して複数の第3文字列が記憶されていても、第1類似度は、これら複数の第3文字列と第2文字列との各組に対してそれぞれ算出されるので、辞書から抽出された文字列が一意に定まらない、ということがない。
【0074】
つまり、第1類似度に応じて第1情報を出力することで、情報処理装置1は、2つの文字認識処理のいずれを信頼するかについて、文字認識処理とそれ以外の両方の観点に基づく判断の指標を利用者に提供する。
【0075】
<変形例>
以上が実施形態の説明であるが、この実施形態の内容は以下のように変形し得る。また、以下の変形例は、組合されてもよい。
【0076】
<1>
上述した実施形態において、第1画像及び第2画像は、読取られた1つの画像から切出されていたが、これに限られない。例えば、情報処理装置1の制御部11は、名刺のおもて面から第1画像を、裏面から第2画像を、それぞれ画像読取部16により別々に読取らせてもよい。すなわち、第1画像と第2画像とは、互いに関連していれば共通の画像に含まれなくてもよい。
【0077】
<2>
上述した実施形態において、情報処理装置1は、第1類似度に加えて、第1文字列の信頼度を示す第1信頼度、及び第2文字列の信頼度を示す第2信頼度の少なくともいずれかに応じて、第1情報を出力していたが、これに限られない。情報処理装置1は、例えば、第1信頼度及び第2信頼度に関わらず、第1類似度に応じて第1情報を出力してもよい。この場合、情報処理装置1は、第1信頼度及び第2信頼度のいずれか、又はその両方を算出しなくてもよい。
【0078】
<3>
上述した実施形態において、制御部11は、分類モデル124を参照して、(第1信頼度,第2信頼度,第1類似度)で示される特徴量を分類し、この特徴量がどのクラスに分類されたかに応じて、第2文字列に対する第3文字列の信頼性を評価していた。しかし、信頼性は、分類先のクラスではなく、特徴量から算出される数値で評価されてもよい。
【0079】
例えば、(第1信頼度,第2信頼度,第1類似度)で示される特徴量を独立変数としてもつ関数が定義されている場合、制御部11は、この関数を演算して得られる数値を、第2文字列に対する第3文字列の信頼性として用いてもよい。この場合、信頼性を示す数値が閾値以上であるときに、情報処理装置1は、第2文字列に代えて第3文字列を出力してもよい。つまり、この変形例における情報処理装置1は第1信頼度、第2信頼度、及び第1類似度を用いて評価される、第2文字列に対する第3文字列の信頼性が閾値以上であるときに、第2文字列に代えて第3文字列を出力する。
【0080】
<4>
上述した実施形態において、情報処理装置1は、第1文字列及び第2文字列を認識すると、第1文字列に関連する第3文字列を辞書DB123から抽出していたが、第1信頼度及び第2信頼度が決められた条件を満たす場合に第3文字列を抽出してもよい。例えば、第1信頼度及び第2信頼度がそれぞれ決められた閾値以上である場合、第1文字列及び第2文字列のいずれも誤っている可能性が低い。この場合、情報処理装置1は第3文字列の抽出を行わなくてもよい。つまり、2つの文字認識がいずれも信頼し得る場合、この変形例における情報処理装置1は、第3文字列の抽出を行わないので、無用な処理負荷が減る。
【0081】
<5>
上述した実施形態において、情報処理装置1は、辞書DB123を参照して、第1文字列に関連する1又は複数の第3文字列を抽出していたが、第2文字列に関連する1又は複数の第4文字列を抽出してもよい。例えば、情報処理装置1は、辞書DB123を参照して、第2文字列であるフリガナから、そのフリガナにより発音される漢字を第4文字列として抽出してもよい。この場合、第4文字列の抽出に用いる辞書DB123は、第3文字列の抽出に用いる辞書DB123と共通であってもよいし、共通でなくてもよい。
【0082】
そして、この場合、情報処理装置1は、抽出した第4文字列ごとに、第1文字列に対する類似度を示す第2類似度をそれぞれ算出し、この第2類似度に応じて、第2類似度及び第4文字列の少なくともいずれかに基づく情報である第2情報を出力するとよい。
【0083】
例えば、
図3に示す手書き文字に対して、情報処理装置1は、第1文字列として「富士反規」という文字列、第2文字列として「フジユウキ」という文字列を認識する。このとき、情報処理装置1は、第1文字列の信頼度として0.1を算出し、第2文字列の信頼度として0.9を算出する。この場合、第1文字列の信頼度は1よりも0に近く、文字認識が失敗していると推測される。一方、第2文字列の信頼度は0よりも1に近く、文字認識が成功していると推測される。
【0084】
情報処理装置1の制御部11によって実現する抽出部113は、上述した第2文字列である「フジユウキ」に関連する第4文字列を、辞書DB123から抽出する。抽出部113は、辞書DB123を参照して、例えば、「フジ」の部分から「富士」という1通りの漢字を抽出する。また、抽出部113は、辞書DB123を参照して、例えば、「ユウキ」の部分から「祐樹」、「優希」、及び「友規」の3通りの漢字を抽出する。したがって、抽出部113は、「富士祐樹」、「富士優希」、及び「富士友規」の3つの第4文字列を抽出する。
【0085】
そして、情報処理装置1は、抽出した3つの第4文字列ごとに、それぞれ第1文字列に対する第2類似度を算出する。「富士祐樹」及び「富士優希」は、第1文字列である「富士反規」に対する編集距離がいずれも「2」であるのに対し、「富士友規」は、編集距離が「1」であるため、情報処理装置1は、3つの第4文字列のうち「富士友規」を選択する。
【0086】
情報処理装置1の制御部11によって実現する出力部115は、(第1信頼度,第2信頼度,第2類似度)で示される特徴量が(0.1,0.9,1)である場合について、分類モデル124を参照し、第1文字列と第4文字列のいずれを信頼するべきかを判断する。そして、判断結果に基づいて、情報処理装置1は、第2類似度及び第4文字列の少なくともいずれかに基づく第2情報を出力する。
【0087】
上述した出力部115は、例えば、第2情報として「富士反規(もしかして富士友規?)」という文字列を示す制御信号を出力し、表示部15にこの文字列を表示させてもよい。この場合、括弧内の「もしかして」に続いて第4文字列を示すので、第2情報は、第2類似度及び第4文字列の少なくともいずれかに基づく情報である。
【0088】
また、上述した出力部115は、例えば、第2情報として「富士反規(類似度が1の他の候補があります)」という文字列を示す制御信号を出力し、表示部15にこの文字列を表示させてもよい。この場合、括弧内には他の候補の類似度が示されるので、第2情報は、第2類似度及び第4文字列の少なくともいずれかに基づく情報である。
【0089】
上述した通り、情報処理装置1は、第1文字列と辞書DB123とを用いて第3文字列を抽出することで、誤認識された第2文字列を訂正し、又は、その誤認識の可能性を利用者に知らせる。
【0090】
一方、例えば第2文字列に比べて第1文字列の信頼度が低い場合、情報処理装置1は、第3文字列を抽出するだけでは、第1文字列の訂正等をすることはできない。しかし、この変形例の情報処理装置1は、第1文字列と辞書DB123とを用いて第3文字列を抽出するとともに、第2文字列と辞書DB123とを用いて第4文字列を抽出する。そのため、この情報処理装置1は、誤認識された第1文字列を訂正し、又は、その誤認識の可能性を利用者に知らせる。
【0091】
<6>
また、辞書DB123から第4文字列を抽出する場合、情報処理装置1は、第1文字列の信頼度を示す第1信頼度、及び第2文字列の信頼度を示す第2信頼度の少なくともいずれかに応じて、第2情報を出力するとよい。
【0092】
特に、(第1信頼度,第2信頼度,第2類似度)の3次元で示される特徴量のように、第2類似度を含む複数次元の特徴量を用いると、例えば統計的分類手法を適用することにより複雑な判断基準の下に、第2情報の出力内容や出力の有無が決まる。
【0093】
<7>
また、辞書DB123から第4文字列を抽出する場合、情報処理装置1は、第1信頼度、第2信頼度、及び第2類似度を用いて評価される、第1文字列に対する第4文字列の信頼性が閾値以上であるときに、第1文字列に代えて第4文字列を出力するとよい。
【0094】
<8>
また、辞書DB123から第4文字列を抽出する場合、情報処理装置1は、第1信頼度及び第2信頼度が決められた条件を満たす場合に第4文字列を抽出するとよい。この変形例における情報処理装置1は、第1文字列及び第2文字列の文字認識がいずれも信頼し得る場合に第4文字列の抽出を行わないので、無用な処理負荷が減る。
【0095】
<9>
上述した実施形態において、制御部11は、文字認識モデル122から読み出したモデルデータを多層ニューラルネットワークに適用し、手書き文字に対応する文字コードを認識していたが、文字認識の手法はこれに限られない。
【0096】
また、制御部11は、文字認識モデル122を読み出すだけではなく、処理の結果に応じて書き換えてもよい。
【0097】
例えば、情報処理装置1は、第2画像を構成する各画素の階調値を、多層ニューラルネットワークに入力し、文字認識モデル122から取得した、各入力に対する重み係数を適用して文字認識を行うことがある。すなわち、この場合の制御部11は、第2画像から算出される1以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、第2文字列を認識する。
【0098】
そして、情報処理装置1は、第3文字列ごとに第2文字列に対する類似度を示す第1類似度を算出する。この第1類似度に応じて、第2文字列に代えて第3文字列を出力した場合、情報処理装置1は、第2文字列よりも第3文字列(及び、これの抽出に用いられた第1文字列)を信頼したことを意味する。このとき、この変形例における情報処理装置1は、第2文字列の認識に用いられた文字認識モデル122を、処理の結果に応じて修正する。具体的には、情報処理装置1は、第2画像から第3文字列が認識されるように、上述した重み係数を修正する。すなわち、この情報処理装置1は、第2文字列に代えて第3文字列を出力した場合に、第2画像からこの第3文字列を認識するように、上述した重みを修正するとよい。この変形例によれば、情報処理装置1の処理の結果が、学習済みモデルである文字認識モデル122にフィードバックされるので、文字認識の精度が上がる。
【0099】
<10>
また、辞書DB123から第4文字列を抽出する場合、情報処理装置1は、第1画像から算出される1以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、第1文字列を認識するとよい。そして、情報処理装置1は、第1文字列に代えて第4文字列を出力した場合に、第1画像からこの第4文字列を認識するように、上述した重みを修正するとよい。
【0100】
<11>
上述した実施形態において、第2画像は、利用者によって手書きされた漢字の発音を示す文字列、すなわち、フリガナを示す画像であったが、これに限られない。例えば、第2画像は、第1画像に手書きされた文章等に対する翻訳であってもよい。この場合、辞書DB123は、例えば、和英辞書、英和辞書等の言語間の辞典でもよい。
【0101】
例えば、利用者が第1画像の領域に「自動車」という文字列を手書きし、第2画像の領域に「car」という文字列を手書きする。情報処理装置1は、この第1画像及び第2画像を取得すると、それぞれに対して文字認識処理を行う。その結果、情報処理装置1は、第1画像から「自動車」という文字列を認識し、第2画像から「dar」という文字列を認識する。この場合、第1画像の文字認識は成功しているが、第2画像の文字認識は失敗している。
【0102】
情報処理装置1は、第1画像から認識された第1文字列である「自動車」に基づいて、この第1文字列に関連する第3文字列を辞書DB123から抽出する。抽出された第3文字列は、「car」「automobile」「auto」「motorcar」等であり、情報処理装置1は、これら複数の第3文字列ごとに、第2文字列である「dar」との第1類似度を算出する。そして、情報処理装置1は、最も類似している「car」を第3文字列として選択し、第1文字列の第1信頼度、第2文字列の第2信頼度、及び選択されたこの第3文字列の第1類似度に基づいて、第2文字列に代えて第3文字列を出力するべきか否かを判断する。
【0103】
<12>
上述した実施形態において、画像認識の入力には画像を示す画像データが用いられたが、画像データは、読取られた画像に限られない。情報処理装置1は、例えば、手書き文字の筆順やストローク等、文字を書く際の経時変化を示す情報から文字を認識してもよい。
【0104】
<13>
上述した実施形態において、文字列の信頼度は、特許文献4に記載した数式4を用いて算出されていたが、これに限られない。情報処理装置1は、文字列の信頼度を、この文字列を構成する各文字の文字信頼度に基づいて算出してもよい。情報処理装置1は、文字列の信頼度を、例えば、その文字列に含まれる文字の文字信頼度の平均値によって、算出してもよい。平均値には、例えば、相加平均、相乗平均、調和平均等が用いられてもよい。
【0105】
また、情報処理装置1は、例えば、文字列に含まれる各文字の文字信頼度の最小値を、その文字列の信頼度として算出してもよい。また、情報処理装置1は、文字列に含まれる各文字の文字信頼度の積を、その文字列の信頼度として算出してもよい。この場合、各文字の文字信頼度は、いずれも0以上1以下等に正規化されたものである。
【0106】
<14>
上述した実施形態において、「追加する」、「削除する」、「入れ替える」という3つの編集処理の編集距離は、いずれも「1」として計算されたが、これらの編集処理には、種類ごとに異なる重みが付けられていてもよい。
【0107】
また、類似度は、編集距離を初期文字列又は目的文字列の長さで除算して算出されてもよい。例えば、第2文字列が「フジマウキ」であり、第3文字列が「フジユウキ」である場合、目的文字列の長さは「5」であり、第3文字列の第2文字列に対する編集距離は「1」である。この場合、第1類似度は「1/5」、すなわち「0.2」となる。
【0108】
また、類似度は、初期文字列又は目的文字列の長さから、編集距離を差し引いた値で表されてもよい。例えば、目的文字列の長さが「5」、第3文字列の第2文字列に対する編集距離が「1」である場合、第1類似度は「5-1」、すなわち「4」となる。要するに、初期文字列と目的文字列との類似度は、初期文字列から目的文字列への編集距離を用いて算出されるとよく、さらに初期文字列又は目的文字列の長さを用いて算出されてもよい。
【0109】
<15>
上述した実施形態において、情報処理装置1は、利用者に対応付けられていない文字認識モデル122を参照していたが、例えば、書き手ごとに対応付けられた文字認識のための学習済みモデルを参照してもよい。すなわち、情報処理装置1は、利用者ごとに異なる学習済みモデルを用いて、その利用者に指示された画像から文字列を認識するとよい。この変形例によれば、例えば、手書き文字の書き手ごとの筆跡、書き癖等に特化した学習済みモデルが文字認識に用いられるので、文字認識の精度が向上する。
【0110】
<16>
上述した実施形態において、情報処理装置1は、画像読取部16を有する画像読取装置であったが、画像読取部16を有しなくてもよい。情報処理装置1は、例えば、通信部13及び通信回線を介して、媒体から画像を読取る画像読取装置を制御し、この画像読取装置から画像を取得してもよい。また、情報処理装置1は、操作部14のタッチパネルを操作して利用者が手書きした文字を認識してもよい。この場合、情報処理装置1は、画像を示す画像データとして、タッチパネルが受付けた操作に基づく筆順、ストローク等を含む情報を取得すればよい。
【0111】
<17>
上述した実施形態において、情報処理装置1は、第1文字列及び第2文字列をそれぞれ1つずつ認識していたが、複数の第1文字列、複数の第2文字列をそれぞれ認識してもよい。この場合、情報処理装置1は、各第1文字列、各第2文字列の組合せごとに、上述した処理を行えばよい。
【0112】
<18>
上述した実施形態において、第1類似度は、第3文字列の、第2文字列に対する編集距離に基づいて算出されたが、第3文字列が第2文字列へ編集される際に編集される箇所(以下、編集箇所という)の情報を含んだ情報であってもよい。この場合、第1類似度はスカラー値ではなく、ベクトルで表されてもよい。
【0113】
例えば、第2文字列が「フジマウキ」であり、第3文字列が「フジユウキ」である場合、編集距離は「1」であり、第3文字列と第2文字列との相違する箇所、すなわち、編集箇所は3文字目である。この場合、情報処理装置1は、(編集箇所,編集距離)=(3,1)という複数の要素で構成されるベクトルを第1類似度として算出してもよい。また、この場合、情報処理装置1は、編集箇所所の情報と、第2文字列のその箇所に対応する文字について算出された文字信頼度とを用いて、出力する内容を判断してもよい。この構成によれば、第1類似度が編集距離のみに由来する場合に比べて、第1類似度に含まれる情報が増えるので、例えば、第2文字列を第3文字列に訂正すべきか否かについて、判断の精度が向上する。
【0114】
<19>
情報処理装置1の制御部11によって実行されるプログラムは、磁気テープ及び磁気ディスク等の磁気記録媒体、光ディスク等の光記録媒体、光磁気記録媒体、半導体メモリ等の、コンピュータ装置が読取り可能な記録媒体に記憶された状態で提供し得る。また、このプログラムは、インターネット等の通信回線経由でダウンロードされてもよい。なお、上述した制御部11によって例示した制御手段としてはCPU以外にも種々の装置が適用される場合があり、例えば、専用のプロセッサ等が用いられる。
【符号の説明】
【0115】
1…情報処理装置、11…制御部、111…解析部、112…認識部、113…抽出部、114…算出部、115…出力部、12…記憶部、121…領域対応表、122…文字認識モデル、123…辞書DB、1231…辞書名リスト、1232…辞書データ、124…分類モデル、13…通信部、14…操作部、15…表示部、16…画像読取部。