特許7404625 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

特許7404625情報処理装置、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-18

(45)【発行日】2023-12-26

(54)【発明の名称】情報処理装置、及びプログラム

(51)【国際特許分類】

G06V 30/26 20220101AFI20231219BHJP

G06V 30/12 20220101ALI20231219BHJP

【ＦＩ】

G06V30/266

G06V30/264

G06V30/12 D

【請求項の数】 11

(21)【出願番号】P 2019009325

(22)【出願日】2019-01-23

(65)【公開番号】P2020119206

(43)【公開日】2020-08-06

【審査請求日】2021-12-20

(73)【特許権者】

【識別番号】000005496

【氏名又は名称】富士フイルムビジネスイノベーション株式会社

(74)【代理人】

【識別番号】110000752

【氏名又は名称】弁理士法人朝日特許事務所

(72)【発明者】

【氏名】任ベイリ

(72)【発明者】

【氏名】木村俊一

【審査官】大塚俊範

(56)【参考文献】

【文献】特開平０４－２８０３９４（ＪＰ，Ａ）

【文献】特開２０１４－２３２５３３（ＪＰ，Ａ）

【文献】特開平０２－１７８８９２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／００－３０／４２４

(57)【特許請求の範囲】

【請求項1】

第１画像から第１文字列を認識する第１認識部と、
前記第１画像に関連する第２画像から第２文字列を認識する第２認識部と、
異なる文字列が予め関連付けられた辞書を参照して、前記第１文字列に関連する１又は複数の第３文字列を抽出する抽出部と、
前記第３文字列ごとに、前記第２文字列に対する類似度を示す第１類似度をそれぞれ算出する算出部と、
前記第１文字列の文字認識の信頼度を示す第１信頼度、前記第２文字列の文字認識の信頼度を示す第２信頼度、及び前記第１類似度を用いて評価される、前記第２文字列に対する前記第３文字列の信頼性が閾値未満であるときに、第１情報として前記第２文字列を出力し、該信頼性が前記閾値以上であるときに、前記第１情報として前記第２文字列に代えて前記第３文字列を出力する出力部と、
を有する情報処理装置。

【請求項2】

前記抽出部は、前記第１信頼度及び前記第２信頼度が決められた条件を満たす場合に前記第３文字列を抽出する
ことを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記抽出部は、異なる文字列が予め関連付けられた辞書を参照して、前記第２文字列に関連する１又は複数の第４文字列を抽出し、
前記算出部は、前記第４文字列ごとに、前記第１文字列に対する類似度を示す第２類似度をそれぞれ算出し、
前記出力部は、前記第１信頼度、及び前記第２信頼度の少なくともいずれか、及び前記第２類似度に応じて、該第２類似度及び前記第４文字列の少なくともいずれかに基づく第２情報を出力する
ことを特徴とする請求項１又は２に記載の情報処理装置。

【請求項4】

前記出力部は、前記第１信頼度、前記第２信頼度、及び前記第２類似度を用いて評価される、前記第１文字列に対する前記第４文字列の信頼性が閾値未満であるときに、前記第２情報として前記第１文字列を出力し、該信頼性が前記閾値以上であるときに、前記第２情報として前記第１文字列に代えて前記第４文字列を出力する
ことを特徴とする請求項３に記載の情報処理装置。

【請求項5】

前記抽出部は、前記第１信頼度及び前記第２信頼度が決められた条件を満たす場合に前記第４文字列を抽出する
ことを特徴とする請求項３又は４に記載の情報処理装置。

【請求項6】

前記第２認識部は、
前記第２画像から算出される１以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、前記第２文字列を認識し、
前記出力部が前記第２文字列に代えて前記第３文字列を出力した場合に、前記第２画像
から該第３文字列を認識するように、前記重みを修正する
ことを特徴とする請求項１に記載の情報処理装置。

【請求項7】

前記第１認識部は、
前記第１画像から算出される１以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、前記第１文字列を認識し、
前記出力部が前記第１文字列に代えて前記第４文字列を出力した場合に、前記第１画像から該第４文字列を認識するように、前記重みを修正する
ことを特徴とする請求項４に記載の情報処理装置。

【請求項8】

第１画像から第１文字列を認識する第１認識部と、
前記第１画像に関連する第２画像から第２文字列を認識する第２認識部と、
異なる文字列が予め関連付けられた辞書を参照して、前記第１文字列に関連する１又は複数の第３文字列を抽出するとともに前記第２文字列に関連する１又は複数の第４文字列を抽出する抽出部と、
前記第３文字列ごとに、前記第２文字列に対する類似度を示す第１類似度をそれぞれ算出するとともに前記第４文字列ごとに、前記第１文字列に対する類似度を示す第２類似度をそれぞれ算出する算出部と、
前記第１文字列の文字認識の信頼度を示す第１信頼度、及び前記第２文字列の文字認識の信頼度を示す第２信頼度の少なくともいずれか、及び前記第１類似度に応じて、該第１類似度及び前記第３文字列の少なくともいずれかに基づく第１情報を出力するとともに、前記第１信頼度、前記第２信頼度、及び前記第２類似度を用いて評価される、前記第１文字列に対する前記第４文字列の信頼性が閾値未満であるときに、第２情報として前記第１文字列を出力し、該信頼性が前記閾値以上であるときに、前記第２情報として前記第１文字列に代えて前記第４文字列を出力する出力部と、
を有する情報処理装置。

【請求項9】

前記第２画像は、前記第１画像に含まれる文字列の発音を示す文字列を含む画像である、
ことを特徴とする請求項１から８のいずれか１項に記載の情報処理装置。

【請求項10】

コンピュータを、
第１画像から第１文字列を認識する第１認識部と、
前記第１画像に関連する第２画像から第２文字列を認識する第２認識部と、
異なる文字列が予め関連付けられた辞書を参照して、前記第１文字列に関連する１又は複数の第３文字列を抽出する抽出部と、
前記第３文字列ごとに、前記第２文字列に対する類似度を示す第１類似度をそれぞれ算出する算出部と、
前記第１文字列の文字認識の信頼度を示す第１信頼度、前記第２文字列の文字認識の信頼度を示す第２信頼度、及び前記第１類似度を用いて評価される、前記第２文字列に対する前記第３文字列の信頼性が閾値未満であるときに、第１情報として前記第２文字列を出力し、該信頼性が前記閾値以上であるときに、前記第１情報として前記第２文字列に代えて前記第３文字列を出力する出力部、
として機能させるためのプログラム。

【請求項11】

コンピュータを、
第１画像から第１文字列を認識する第１認識部と、
前記第１画像に関連する第２画像から第２文字列を認識する第２認識部と、
異なる文字列が予め関連付けられた辞書を参照して、前記第１文字列に関連する１又は複数の第３文字列を抽出するとともに前記第２文字列に関連する１又は複数の第４文字列を抽出する抽出部と、
前記第３文字列ごとに、前記第２文字列に対する類似度を示す第１類似度をそれぞれ算出するとともに前記第４文字列ごとに、前記第１文字列に対する類似度を示す第２類似度をそれぞれ算出する算出部と、
前記第１文字列の文字認識の信頼度を示す第１信頼度、及び前記第２文字列の文字認識の信頼度を示す第２信頼度の少なくともいずれか、及び前記第１類似度に応じて、前記第３文字列及び前記第１類似度の少なくともいずれかに基づく第１情報を出力するとともに、前記第１信頼度、前記第２信頼度、及び前記第２類似度を用いて評価される、前記第１文字列に対する前記第４文字列の信頼性が閾値未満であるときに、第２情報として前記第１文字列を出力し、該信頼性が前記閾値以上であるときに、前記第２情報として前記第１文字列に代えて前記第４文字列を出力する出力部、
として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、及びプログラムに関する。

【背景技術】

【0002】

文字認識の精度を向上させるための技術が検討されている。特許文献１には、入力画像の文章領域を、本文行領域と行間領域とに分別し、行間領域の文字列である行間文字列を抽出し、行間文字列ごとに、本文行領域の文字列の中から、仮決定の親文字列である仮親文字列を決定し、本文行領域及び行間領域の文字を認識し、仮親文字列の認識結果を参照キーとして親文字に対するルビ候補を示すルビ辞書を参照することによって得られるルビ候補の少なくとも１つと、行間文字列の認識結果が一致するか否かの判定を行い、その結果に基づいて、仮親文字列、又は仮親文字列に含まれる一部の文字を除いた残りの文字列を本決定の親文字列として決定する文書認識装置が記載されている。

【0003】

特許文献２には、第１の文字列であるイメージデータを文字認識して文字列コードに変換し、第１の文字列と読みが同じで文字種が異なる第２の文字列であるイメージデータを文字認識して文字列コードに変換し、文字認識された第１の文字列を第２の文字列と同じ文字種の文字列に変換し、変換された第１の文字列と文字認識された第２の文字列とを比較して、第１の文字列と第２の文字列とが異なる場合に第２の文字列を第１の文字列に基づいて訂正する文字認識装置が記載されている。

【0004】

特許文献３には、原稿の画像情報から抽出した文字画像情報毎に形状的特徴に基づいて対応する漢字又はローマ字を選択する時に、特定の漢字画像情報について複数の漢字が選択された際に、画像情報内でこの漢字画像情報と所定の関係を有するローマ字画像情報について選択されたローマ字に基づいて、選択された複数の漢字の中から特定の漢字画像情報に対応する漢字を検索する文字認識方法が記載されている。

【0005】

なお、特許文献４には、認識対象の文字認識における機械学習において、教師信号として単文字間の境界に関する情報を不要とするようにした情報処理装置が記載されている。

【先行技術文献】

【特許文献】

【0006】

【文献】特開２０１２－２１２２９３号公報

【文献】特開平９－１３８８３５号公報

【文献】特開２０１０－２８２２７２号公報

【文献】特開２０１６－２１２４７３号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

本発明の目的の一つは、関連する２つの画像からそれぞれ認識された文字列のいずれを信頼するかについて指標を得ることである。

【課題を解決するための手段】

【0008】

本発明の請求項１に係る情報処理装置は、第１画像から第１文字列を認識する第１認識部と、前記第１画像に関連する第２画像から第２文字列を認識する第２認識部と、異なる文字列が予め関連付けられた辞書を参照して、前記第１文字列に関連する１又は複数の第３文字列を抽出する抽出部と、前記第３文字列ごとに、前記第２文字列に対する類似度を示す第１類似度をそれぞれ算出する算出部と、前記第１文字列の文字認識の信頼度を示す第１信頼度、前記第２文字列の文字認識の信頼度を示す第２信頼度、及び前記第１類似度を用いて評価される、前記第２文字列に対する前記第３文字列の信頼性が閾値未満であるときに、第１情報として前記第２文字列を出力し、該信頼性が前記閾値以上であるときに、前記第１情報として前記第２文字列に代えて前記第３文字列を出力する出力部と、を有する情報処理装置である。

【0011】

本発明の請求項２に係る情報処理装置は、請求項１に記載の態様において、前記抽出部は、前記第１信頼度及び前記第２信頼度が決められた条件を満たす場合に前記第３文字列を抽出することを特徴とする情報処理装置である。

【0012】

本発明の請求項３に係る情報処理装置は、請求項１又は２に記載の態様において、前記抽出部は、異なる文字列が予め関連付けられた辞書を参照して、前記第２文字列に関連する１又は複数の第４文字列を抽出し、前記算出部は、前記第４文字列ごとに、前記第１文字列に対する類似度を示す第２類似度をそれぞれ算出し、前記出力部は、前記第１信頼度、及び前記第２信頼度の少なくともいずれか、及び前記第２類似度に応じて、該第２類似度及び前記第４文字列の少なくともいずれかに基づく第２情報を出力することを特徴とする情報処理装置である。

【0014】

本発明の請求項４に係る情報処理装置は、請求項３に記載の態様において、前記出力部は、前記第１信頼度、前記第２信頼度、及び前記第２類似度を用いて評価される、前記第１文字列に対する前記第４文字列の信頼性が閾値未満であるときに、前記第２情報として前記第１文字列を出力し、該信頼性が前記閾値以上であるときに、前記第２情報として前記第１文字列に代えて前記第４文字列を出力することを特徴とする情報処理装置である。

【0015】

本発明の請求項５に係る情報処理装置は、請求項３又は４に記載の態様において、前記抽出部は、前記第１信頼度及び前記第２信頼度が決められた条件を満たす場合に前記第４文字列を抽出することを特徴とする情報処理装置である。

【0016】

本発明の請求項６に係る情報処理装置は、請求項１に記載の態様において、前記第２認識部は、前記第２画像から算出される１以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、前記第２文字列を認識し、前記出力部が前記第２文字列に代えて前記第３文字列を出力した場合に、前記第２画像から該第３文字列を認識するように、前記重みを修正することを特徴とする情報処理装置である。

【0017】

本発明の請求項７に係る情報処理装置は、請求項４に記載の態様において、前記第１認識部は、前記第１画像から算出される１以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、前記第１文字列を認識し、前記出力部が前記第１文字列に代えて前記第４文字列を出力した場合に、前記第１画像から該第４文字列を認識するように、前記重みを修正することを特徴とする情報処理装置である。
本発明の請求項８に係る情報処理装置は、第１画像から第１文字列を認識する第１認識部と、前記第１画像に関連する第２画像から第２文字列を認識する第２認識部と、異なる文字列が予め関連付けられた辞書を参照して、前記第１文字列に関連する１又は複数の第３文字列を抽出するとともに前記第２文字列に関連する１又は複数の第４文字列を抽出する抽出部と、前記第３文字列ごとに、前記第２文字列に対する類似度を示す第１類似度をそれぞれ算出するとともに前記第４文字列ごとに、前記第１文字列に対する類似度を示す第２類似度をそれぞれ算出する算出部と、前記第１文字列の文字認識の信頼度を示す第１信頼度、及び前記第２文字列の文字認識の信頼度を示す第２信頼度の少なくともいずれか、及び前記第１類似度に応じて、該第１類似度及び前記第３文字列の少なくともいずれかに基づく第１情報を出力するとともに、前記第１信頼度、前記第２信頼度、及び前記第２類似度を用いて評価される、前記第１文字列に対する前記第４文字列の信頼性が閾値未満であるときに、第２情報として前記第１文字列を出力し、該信頼性が前記閾値以上であるときに、前記第２情報として前記第１文字列に代えて前記第４文字列を出力する出力部と、を有する情報処理装置である。

【0018】

本発明の請求項９に係る情報処理装置は、請求項１から８のいずれか１項に記載の態様において、前記第２画像は、前記第１画像に含まれる文字列の発音を示す文字列を含む画像である、ことを特徴とする情報処理装置である。

【0019】

本発明の請求項１０に係るプログラムは、コンピュータを、第１画像から第１文字列を認識する第１認識部と、前記第１画像に関連する第２画像から第２文字列を認識する第２認識部と、異なる文字列が予め関連付けられた辞書を参照して、前記第１文字列に関連する１又は複数の第３文字列を抽出する抽出部と、前記第３文字列ごとに、前記第２文字列に対する類似度を示す第１類似度をそれぞれ算出する算出部と、前記第１文字列の文字認識の信頼度を示す第１信頼度、及び前記第２文字列の文字認識の信頼度を示す第２信頼度、及び前記第１類似度を用いて評価される、前記第２文字列に対する前記第３文字列の信頼性が閾値未満であるときに、第１情報として前記第２文字列を出力し、該信頼性が前記閾値以上であるときに、前記第１情報として前記第２文字列に代えて前記第３文字列を出力する出力部、として機能させるためのプログラムである。
本発明の請求項１１に係るプログラムは、コンピュータを、第１画像から第１文字列を認識する第１認識部と、前記第１画像に関連する第２画像から第２文字列を認識する第２認識部と、異なる文字列が予め関連付けられた辞書を参照して、前記第１文字列に関連する１又は複数の第３文字列を抽出するとともに前記第２文字列に関連する１又は複数の第４文字列を抽出する抽出部と、前記第３文字列ごとに、前記第２文字列に対する類似度を示す第１類似度をそれぞれ算出するとともに前記第４文字列ごとに、前記第１文字列に対する類似度を示す第２類似度をそれぞれ算出する算出部と、前記第１文字列の文字認識の信頼度を示す第１信頼度、及び前記第２文字列の文字認識の信頼度を示す第２信頼度の少なくともいずれか、及び前記第１類似度に応じて、前記第３文字列及び前記第１類似度の少なくともいずれかに基づく第１情報を出力するとともに、前記第１信頼度、前記第２信頼度、及び前記第２類似度を用いて評価される、前記第１文字列に対する前記第４文字列の信頼性が閾値未満であるときに、第２情報として前記第１文字列を出力し、該信頼性が前記閾値以上であるときに、前記第２情報として前記第１文字列に代えて前記第４文字列を出力する出力部、として機能させるためのプログラムである。

【発明の効果】

【0020】

請求項１、１０に係る発明によれば、関連する２つの画像からそれぞれ認識された文字列のいずれを信頼するかについて指標が得られる。
また、請求項１、１０に係る発明によれば、辞書を参照して抽出された、第１文字列に関連する第３文字列の信頼性が、第２文字列に対して閾値以上であるときに、第３文字列の出力が得られる。
請求項２に係る発明によれば、辞書を参照して第１文字列に関連する第３文字列を抽出する処理を行うための条件を、第１文字列、第２文字列の各信頼度に基づいて設定することができる。
請求項３に係る発明によれば、第１画像から認識された第１文字列と、第１画像に関連する第２画像から認識された第２文字列と、辞書を参照して抽出された、第１文字列に関連する第３文字列と、辞書を参照して抽出された、第２文字列に関連する第４文字列と、
を用いて、第１文字列と第２文字列とのいずれを信頼するかについて指標が得られる。
請求項４に係る発明によれば、辞書を参照して抽出された、第２文字列に関連する第４文字列の信頼性が、第１文字列に対して閾値以上であるときに、第４文字列の出力が得られる。
請求項５に係る発明によれば、辞書を参照して第２文字列に関連する第４文字列を抽出する処理を行うための条件を、第１文字列、第２文字列の各信頼度に基づいて設定することができる。
請求項６に係る発明によれば、第２画像から算出される特徴量につける重みを修正しない場合に比べて、第２文字列を認識する精度が向上する。
請求項７、８、１１に係る発明によれば、第１画像から算出される特徴量につける重みを修正しない場合に比べて、第１文字列を認識する精度が向上する。
請求項９に係る発明によれば、第１画像に含まれる文字列の発音を示す文字列を含む第２文字列が、第２画像から認識される。

【図面の簡単な説明】

【0021】

【図1】情報処理装置１の構成を示す図。

【図2】記憶部１２に記憶される領域対応表１２１の例を示す図。

【図3】手書きされた領域の例を示す図。

【図4】記憶部１２に記憶される文字認識モデル１２２の例を示す図。

【図5】記憶部１２に記憶される辞書ＤＢ１２３の例を示す図。

【図6】記憶部１２に記憶される分類モデル１２４を説明するための概念図。

【図7】情報処理装置１の機能的構成を示す図。

【図8】文字認識の例を説明するための図。

【図9】情報処理装置１の動作の流れを示すフロー図。

【発明を実施するための形態】

【0022】

＜実施形態＞
＜情報処理装置の構成＞
図１は、情報処理装置１の構成を示す図である。図１に示す通り、情報処理装置１は、制御部１１、記憶部１２、通信部１３、操作部１４、表示部１５、及び画像読取部１６を有する。

【0023】

制御部１１は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）を有し、ＣＰＵがＲＯＭ及び記憶部１２に記憶されているコンピュータプログラム（以下、単にプログラムという）を読み出して実行することにより情報処理装置１の各部を制御する。

【0024】

通信部１３は、有線又は無線により通信回線（図示せず）に接続する通信回路である。情報処理装置１は、通信部１３により、通信回線に接続された他の装置（すなわち、外部装置）と情報をやり取りする。

【0025】

操作部１４は、各種の指示をするための操作ボタン、キーボード、タッチパネル等の操作子を備えており、利用者による操作を受付けてその操作内容に応じた信号を制御部１１に送る。

【0026】

表示部１５は、液晶ディスプレイ等の表示画面を有しており、制御部１１の制御の下、画像を表示する。表示画面の上には、操作部１４の透明のタッチパネルが重ねて配置されてもよい。

【0027】

画像読取部１６は、プラテンガラス、媒体に光を照射する照射装置、反射光を集光する光学系、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージセンサや、ＣＣＤ（Charge Coupled Device）イメージセンサ等の撮像素子等を備える。画像読取部１６は、制御部１１の制御の下、プラテンガラスに載せられた、紙等の媒体に形成された画像を読取り、読取った画像を示す画像データを生成して制御部１１に供給する。

【0028】

記憶部１２は、ソリッドステートドライブ、ハードディスクドライブ等の記憶手段であり、制御部１１のＣＰＵに読み込まれる各種のプログラム、データ等を記憶する。また、記憶部１２は、領域対応表１２１、文字認識モデル１２２、辞書ＤＢ１２３、及び分類モデル１２４を記憶する。

【0029】

＜領域対応表の構成＞
図２は、記憶部１２に記憶される領域対応表１２１の例を示す図である。領域対応表１２１は、帳票等の手書き用紙に含まれる記入欄等の領域のレイアウトを示した表である。領域対応表１２１は、領域を識別するための領域名と、その領域の具体的な範囲や位置を示す情報である領域情報とを対応付けて記憶する。例えば、図２に示す領域対応表１２１で、「氏名フリガナ」に対応する領域情報は「Ａ２」である。領域情報は、例えば、手書き用紙から読取られた画像に対して、斜め補正や拡大・縮小補正が行われた後の補正画像における座標情報等として表される。例えば領域情報が示す領域が矩形であれば、領域情報はその矩形の左上及び右下の各頂点の座標等で表される。

【0030】

図３は、手書きされた領域の例を示す図である。例えば、図３に示す二点鎖線の枠で囲った「Ａ２」は、図２で示す「氏名フリガナ」という領域名で識別される領域であり、枠で囲った「Ａ１」は、図２で示す「氏名漢字」という領域名で識別される領域である。

【0031】

＜文字認識モデルの構成＞
図４は、記憶部１２に記憶される文字認識モデル１２２の例を示す図である。文字認識モデル１２２は、領域対応表１２１に含まれる領域名で識別される領域ごとに、その領域に手書きされる文字の認識処理に用いられるモデルデータを対応付けて記憶する。

【0032】

このモデルデータは、例えば、予め正解の文字コードと対応付けられた手書き文字の画像を示す画像データを読み込ませ、文字コードと手書き文字との対応関係を機械学習させることで生成された学習済みモデルである。情報処理装置１の制御部１１は、例えば、用紙に書き込まれた手書き文字の画像を読取って生成された画像データを画素ごとに分解して、各画素の階調値を多層ニューラルネットワークに入力する。そして制御部１１は、文字認識モデル１２２から読み出したモデルデータを多層ニューラルネットワークに適用し、算出される出力に基づいて、手書き文字に対応する文字コードを認識する。

【0033】

＜辞書ＤＢの構成＞
図５は、記憶部１２に記憶される辞書ＤＢ１２３の例を示す図である。辞書ＤＢ１２３は、異なる文字列を予め関連付けたデータベースである。図５に示す辞書ＤＢ１２３は、辞書名リスト１２３１と、辞書データ１２３２と、を有する。辞書名リスト１２３１は、辞書データ１２３２を識別するための識別情報である辞書名を列挙したリストである。辞書データ１２３２は、辞書名リスト１２３１に記載されている辞書名ごとにそれぞれ関連付けられたデータであって、その辞書名が示す対象の文字列にそれぞれ関連する文字列を記憶するデータである。

【0034】

例えば、図５に示す辞書ＤＢ１２３の辞書名リスト１２３１には「氏名用辞書」という辞書名が記入されている。そして、「氏名用辞書」という辞書名には、１つの辞書データ１２３２が対応付けられている。この辞書データ１２３２は、氏名に用いられる漢字を示した文字列と、その漢字の発音を示すカタカナ（すなわち、フリガナ）を示した文字列とを関連付けるデータである。氏名用辞書に対応付けられた辞書データ１２３２は、漢字からその漢字のフリガナを特定することに用いられる。１つの漢字の発音が複数通りである場合、その漢字から複数のフリガナが特定されることもある。例えば、図５に示す通り、「友規」という漢字には、「トモキ」「トモノリ」「ユウキ」等、複数の発音が関連付けられている。

【0035】

＜分類モデルの構成＞
記憶部１２に記憶される分類モデル１２４は、関連する２つの画像からそれぞれ認識された文字列のいずれを信頼するかについての判断に用いられる。情報処理装置１は、分類モデル１２４を用いて、例えば、第１信頼度、第２信頼度、及び、第１類似度の３つの数値で構成される特徴量を分類して、上述した判断を行う。

【0036】

ここで、第１信頼度とは、読取られた画像に含まれる画像（以下、第１画像という）から認識された第１文字列の信頼度である。また、第２信頼度とは、第１画像に関連する画像（以下、第２画像という）から認識された第２文字列の信頼度である。そして、第１類似度とは、辞書ＤＢ１２３から抽出された、第１文字列に関連する文字列（以下、第３文字列という）の、第２文字列に対する類似度である。類似度とは、２つの文字列が相互に類似している程度を示す数値であり、例えば、レーベンシュタイン距離、ジャロ・ウィンクラー距離等の編集距離で示される。

【0037】

図６は、記憶部１２に記憶される分類モデル１２４を説明するための概念図である。図６で特徴量の次元は、説明のため２とする。ｘ，ｙの２つの数値で構成される特徴量は、図６に示す通りｘｙ平面上にプロットされる。これらの特徴量は属するクラスを示すラベルと対応付ける、いわゆる「ラベル付け」が予めされている。すなわち、これらの特徴量は、正解付きの認識データであり、教師データである。

【0038】

図６に示す例では、各特徴量に対応する点は、それぞれ四角で表される点及び丸で表される点のいずれかである。分類モデル１２４は、予めラベル付けがなされたこれらの特徴量に基づいて生成されたモデルデータである。例えば、図６に示す直線Ｌは、上述した複数の点を種類ごとに分類する線であり、この直線Ｌを示すパラメータは、モデルデータの一例である。

【0039】

分類モデル１２４は、教師データを用いて機械学習の分類手法により生成される。
この教師データは、例えば、第１信頼度、第２信頼度、及び、第１類似度の３つの数値で構成される特徴量と、それらの特徴量にそれぞれ対応付けられた２以上のクラスと、を関連付けたデータである。クラスには、例えば「第２文字列を信頼する」及び「第３文字列を信頼する」のいずれかのラベルが付されている。この機械学習の分類手法としては、例えば、サポートベクターマシン、線形回帰、アンサンブル学習等が挙げられる。また、この機械学習のアルゴリズムには、例えば、エイダブースト等が適用される。なお、ラベルは上述した２種類に限らず、例えば、情報の出力内容や出力の有無を示すものを含んでもよい。

【0040】

＜情報処理装置の機能的構成＞
図７は、情報処理装置１の機能的構成を示す図である。図７において、情報処理装置１の通信部１３及び操作部１４は省かれている。

【0041】

情報処理装置１の制御部１１は、記憶部１２に記憶されているプログラムを読み出して実行することにより、解析部１１１、認識部１１２、抽出部１１３、算出部１１４、及び出力部１１５として機能する。

【0042】

解析部１１１は、画像読取部１６が読取った画像を示す画像データを取得し、この画像を構成する記入欄のレイアウトを解析する。解析部１１１は、画像読取部１６から画像データを取得すると、この画像データが示す画像に描かれた線や印等に基づいて、いわゆる斜め補正や拡大・縮小補正、オフセット補正等の各種の補正を行う。そして、解析部１１１は、領域対応表１２１を参照することで、補正された画像から第１画像及び第２画像を切出す。

【0043】

第１画像は、例えば、領域情報「Ａ１」で示される領域に描画された画像であり、利用者によって手書きされた漢字を示す画像である。第２画像は、例えば、領域情報「Ａ２」で示される領域に描画された画像であり、利用者によって手書きされたフリガナを示す画像である。第２画像に示されるフリガナは、第１画像に示される漢字のフリガナであるから、第１画像と第２画像とは関連している。この漢字及びフリガナは、例えば利用者の氏名を示す漢字及びフリガナである。

【0044】

認識部１１２は、解析部１１１によって切出された第１画像及び第２画像のそれぞれに対し、文字認識モデル１２２に記憶されたモデルデータを用いて文字認識処理を行い、各領域に手書きされた文字列を認識する。認識部１１２は、第１画像から第１文字列を認識する。このとき、認識部１１２は、第１認識部として機能する。また、認識部１１２は、第１画像に関連する第２画像から第２文字列を認識する。このとき、認識部１１２は、第２認識部として機能する。

【0045】

認識部１１２は、第１画像及び第２画像のそれぞれに対し、階調値に基づいてエッジ検出等を行って、文字単位で画像を分割する。そして、認識部１１２は、それぞれの領域に対応付けられたモデルデータを文字認識モデル１２２から読み出して、１文字ずつ認識処理を行う。

【0046】

ここで認識部１１２は、１文字ずつ文字認識をする際に、認識した手書き文字が、モデルデータの生成に使われた教師データ等に含まれる文字の画像とどの程度、相違しているかを評価する。この評価は、例えば、一致する画素の数や、共通の階調値を示す画素の塊の配置、大きさ等に基づいて行われる。そして、認識部１１２は、この評価の結果に基づいて、文字ごとの文字認識の信頼度（以下、文字信頼度という）を算出する。

【0047】

認識部１１２は、分割した全ての画像について文字認識を行うと、これを並べた文字列を生成するとともに、この文字列の信頼度を算出する。文字列の信頼度は、例えば、特許文献４に記載した数式４を用いて算出される。認識部１１２は、例えば、隣り合う文字の文字信頼度から計算される局所的なエネルギー関数の和を求め、これにより文字列の信頼度を算出する。

【0048】

認識部１１２は、文字認識の結果がそれぞれ文字ごとに複数ある場合、それらの文字を組合せて得られる文字列ごとに信頼度を算出する。そして、算出された信頼度が最も高い文字列をその画像から認識した文字列として選択する。例えば、認識部１１２は、複数の文字列の候補から１つの文字列を選択する際に、上述した局所的なエネルギー関数の和で示されるエネルギー関数が最小になる場合の文字列を、ビタビアルゴリズムを用いて探索する。

【0049】

図８は、文字認識の例を説明するための図である。例えば、図３に示す手書き文字に対して、認識部１１２は、第１文字列として「富士友規」という文字列、及び第２文字列として「フジマウキ」という文字列をそれぞれ認識する。そして、認識部１１２は、第１文字列及び第２文字列のそれぞれの信頼度も算出する。信頼度は０以上１以下の数値で示される。図８に示す通り、第１文字列の信頼度は０．９９８であり、第２文字列の信頼度は０．１９である。第１文字列の信頼度は０よりも１に近いため、文字認識が成功していると推測される。一方、第２文字列の信頼度は１よりも０に近いため、文字認識が失敗していると推測される。

【0050】

抽出部１１３は、異なる文字列が予め関連付けられた辞書を参照して、第１文字列に関連する１又は複数の第３文字列を抽出する。抽出部１１３は、上述した第１文字列である「富士友規」に関連する第３文字列を、辞書ＤＢ１２３から抽出する。抽出部１１３は、辞書ＤＢ１２３を参照して、「富士」の部分から「フジ」という１通りのフリガナを抽出する。また、抽出部１１３は、辞書ＤＢ１２３を参照して、「友規」の部分から「トモキ」、「トモノリ」、及び「ユウキ」の３通りのフリガナを抽出する。したがって、抽出部１１３は、「フジトモキ」、「フジトモノリ」及び「フジユウキ」の３つの第３文字列を抽出する。

【0051】

算出部１１４は、第３文字列ごとに、第２文字列に対する類似度を示す第１類似度をそれぞれ算出する。この類似度は、第２文字列と第３文字列との編集距離によって算出される。ここで編集距離とは、初期の文字列（以下、初期文字列という）を目的とする文字列（以下、目的文字列という）に変化させるための編集処理の種類及び回数等に基づいて算出される数値である。編集処理とは、例えば、「追加する」、「削除する」、「入れ替える」といった処理をいう。

【0052】

算出部１１４は、「追加する」、「削除する」、「入れ替える」という３つの編集処理の編集距離をいずれも「１」とする。そして、算出部１１４は、初期文字列から目的文字列までに要した編集処理の、それぞれの編集距離の合計を、初期文字列から目的文字列への編集距離として算出する。この編集距離を第１類似度とする場合、第１類似度が０に近いほど、第２文字列と第３文字列は類似しており、大きいほど非類似である。

【0053】

なお、１つの「追加する」と１つの「削除する」とは、１つの「入れ替える」に相当するが、算出部１１４は、編集距離の合計が小さくなるように「入れ替える」を採用する。

【0054】

図８に示す例で、第３文字列である「フジトモキ」は、「ト」「モ」をそれぞれ「マ」「ウ」に入れ替えることで、第２文字列である「フジマウキ」に編集される。したがって、この第３文字列は、「入れ替える」という編集処理を２回行うことで第２文字列に変化するから、第３文字列の第２文字列に対する編集距離、すなわち第１類似度は「２」である。

【0055】

また、第３文字列である「フジトモノリ」は、「ト」「モ」「ノ」をそれぞれ「マ」「ウ」「キ」に入れ替え、かつ、「リ」を削除することで、第２文字列である「フジマウキ」に編集される。つまり、この第３文字列は、「入れ替える」を３回、「削除する」を１回、すなわち合計して４回の編集処理を行うことで第２文字列に変化する。したがって、第３文字列の第２文字列に対する編集距離、すなわち第１類似度は「４」である。

【0056】

一方、第３文字列である「フジユウキ」は、「ユ」を「マ」に入れ替えることで、第２文字列である「フジマウキ」に編集される。したがって、この第３文字列は、「入れ替える」という編集処理を１回だけ行うことで第２文字列に変化するから、第３文字列の第２文字列に対する編集距離、すなわち第１類似度は「１」である。

【0057】

ところで、第２画像から認識されたフリガナは、一般に複数のカタカナ文字で構成される文字列であり、誤認識された場合であっても、その誤りは文字列全体の一部であることが多い。そして、第１類似度は、辞書ＤＢ１２３から抽出したフリガナと、認識されたフリガナとの相違の程度を表している。そのため、第１類似度が類似を示しているほど、一般に辞書ＤＢ１２３から抽出したフリガナの方が認識されたフリガナよりも信頼される。つまり、この場合、第１類似度が０に近い（類似していることを示す）ほど、漢字の認識精度の方が、フリガナの認識精度よりも信頼できると言える。

【0058】

しかし、第１類似度が大きい（非類似であることを示す）ほど、辞書ＤＢ１２３から抽出したフリガナと認識されたフリガナとの相違する箇所が増えるので、漢字の認識精度に比較してフリガナの認識精度を信頼できない、とは言えなくなる。

【0059】

そこで、情報処理装置１は、第３文字列が複数ある場合、これら第３文字列ごとに算出した第１類似度を比較して、最も類似を示している（この場合、最も０に近い）第３文字列を選択する。

【0060】

出力部１１５は、第１類似度に応じて、この第１類似度及び第３文字列の少なくともいずれかに基づく情報である第１情報を出力する。例えば、図８に示す通り、第１文字列として「富士友規」という文字列、第２文字列として「フジマウキ」という文字列がそれぞれ認識され、第３文字列として「フジユウキ」という文字列が抽出されたとする。この場合、第１文字列の信頼度である第１信頼度は「０．９９８」、第２文字列の信頼度である第２信頼度は「０．１９」、第３文字列の第２文字列に対する第１類似度は「１」である。

【0061】

このとき、出力部１１５は、（第１信頼度，第２信頼度，第１類似度）で示される特徴量が（０．９９８，０．１９，１）である場合について、分類モデル１２４を参照し、第２文字列と第３文字列のいずれを信頼するべきかを判断する。そして、出力部１１５は、判断の結果に応じて、第１類似度及び第３文字列の少なくともいずれかに基づく情報である第１情報を出力する。

【0062】

なお、この場合、出力部１１５は、第１類似度に加えて、第１文字列の信頼度を示す第１信頼度、及び第２文字列の信頼度を示す第２信頼度の少なくともいずれかに応じて、第１情報を出力する。特に、上述した（第１信頼度，第２信頼度，第１類似度）の３次元で示される特徴量のように、第１類似度を含む複数次元の特徴量を用いると、例えば統計的分類手法を適用することにより複雑な判断基準の下に、第１情報の出力内容や出力の有無が決まる。

【0063】

出力部１１５は、例えば、第１情報として「フジマウキ（もしかしてフジユウキ？）」という文字列を示す制御信号を出力し、表示部１５にこの文字列を表示させてもよい。この場合、括弧内の「もしかして」に続いて第３文字列を示すので、第１情報は、第１類似度及び第３文字列の少なくともいずれかに基づく情報である。

【0064】

また、出力部１１５は、例えば、第１情報として「フジマウキ（類似度が１の他の候補があります）」という文字列を示す制御信号を出力し、表示部１５にこの文字列を表示させてもよい。この場合、括弧内には他の候補の類似度が示されるので、第１情報は、第１類似度及び第３文字列の少なくともいずれかに基づく情報である。

【0065】

＜情報処理装置の動作＞
図９は、情報処理装置１の動作の流れを示すフロー図である。図９に示す通り、情報処理装置１の制御部１１は、画像読取部１６を制御して媒体に形成された画像を読取る（ステップＳ１０１）。制御部１１は、読取った画像を補正して、領域対応表１２１に基づいてこの画像から第１画像及び第２画像を切出す（ステップＳ１０２）。なお、読取った画像の補正は行われなくてもよい。

【0066】

制御部１１は、第１画像から第１文字列を認識し（ステップＳ１０３）、第１文字列の第１信頼度を算出する（ステップＳ１０４）。

【0067】

また、制御部１１は、第２画像から第２文字列を認識し（ステップＳ１０５）、第２文字列の第２信頼度を算出する（ステップＳ１０６）。ステップＳ１０５は、ステップＳ１０３の前に行われてもよい。

【0068】

制御部１１は、辞書ＤＢ１２３を参照して第１文字列に関連する１又は複数の第３文字列を抽出し（ステップＳ１０７）、第３文字列ごとに第２文字列に対する第１類似度を算出する（ステップＳ１０８）。

【0069】

制御部１１は、第１信頼度、第２信頼度、及び第１類似度に応じて、第２文字列に対する第３文字列の信頼性を評価する（ステップＳ１０９）。この評価は、制御部１１が、分類モデル１２４を参照して、（第１信頼度，第２信頼度，第１類似度）で示される特徴量を分類し、この特徴量がどのラベルが付けられたクラスに分類されたかに応じて決定される。

【0070】

そして、制御部１１は、評価した信頼性が条件を満たした場合に、第２文字列に代えて第３文字列を出力する（ステップＳ１１０）。制御部１１は、例えば、（第１信頼度，第２信頼度，第１類似度）で示される特徴量が「第３文字列を信頼する」というラベル付けがされたクラスに分類された場合に、第２文字列に代えて第３文字列を出力する。

【0071】

以上、説明した通り、情報処理装置１は、第３文字列の第２文字列に対する第１類似度に応じて第１情報を出力する。

【0072】

例えば、上述した第１信頼度は、第１文字列の認識精度を示す指標であり、第２信頼度は第２文字列の認識精度を示す指標であるが、いずれも、それぞれの文字認識処理に基づいて算出される数値である。したがって、第１信頼度、又は第２信頼度だけで認識精度を評価すると判断を誤る可能性がある。

【0073】

一方、第１類似度は、辞書ＤＢ１２３から抽出した、第１文字列に関連する第３文字列と、第２文字列との編集距離等の比較結果により算出される。つまり、第１類似度は、第１文字列、第２文字列の文字認識処理に加えて、文字列の関連を記憶した辞書ＤＢ１２３に基づいている。そして、１つの第１文字列に関連して複数の第３文字列が記憶されていても、第１類似度は、これら複数の第３文字列と第２文字列との各組に対してそれぞれ算出されるので、辞書から抽出された文字列が一意に定まらない、ということがない。

【0074】

つまり、第１類似度に応じて第１情報を出力することで、情報処理装置１は、２つの文字認識処理のいずれを信頼するかについて、文字認識処理とそれ以外の両方の観点に基づく判断の指標を利用者に提供する。

【0075】

＜変形例＞
以上が実施形態の説明であるが、この実施形態の内容は以下のように変形し得る。また、以下の変形例は、組合されてもよい。

【0076】

＜１＞
上述した実施形態において、第１画像及び第２画像は、読取られた１つの画像から切出されていたが、これに限られない。例えば、情報処理装置１の制御部１１は、名刺のおもて面から第１画像を、裏面から第２画像を、それぞれ画像読取部１６により別々に読取らせてもよい。すなわち、第１画像と第２画像とは、互いに関連していれば共通の画像に含まれなくてもよい。

【0077】

＜２＞
上述した実施形態において、情報処理装置１は、第１類似度に加えて、第１文字列の信頼度を示す第１信頼度、及び第２文字列の信頼度を示す第２信頼度の少なくともいずれかに応じて、第１情報を出力していたが、これに限られない。情報処理装置１は、例えば、第１信頼度及び第２信頼度に関わらず、第１類似度に応じて第１情報を出力してもよい。この場合、情報処理装置１は、第１信頼度及び第２信頼度のいずれか、又はその両方を算出しなくてもよい。

【0078】

＜３＞
上述した実施形態において、制御部１１は、分類モデル１２４を参照して、（第１信頼度，第２信頼度，第１類似度）で示される特徴量を分類し、この特徴量がどのクラスに分類されたかに応じて、第２文字列に対する第３文字列の信頼性を評価していた。しかし、信頼性は、分類先のクラスではなく、特徴量から算出される数値で評価されてもよい。

【0079】

例えば、（第１信頼度，第２信頼度，第１類似度）で示される特徴量を独立変数としてもつ関数が定義されている場合、制御部１１は、この関数を演算して得られる数値を、第２文字列に対する第３文字列の信頼性として用いてもよい。この場合、信頼性を示す数値が閾値以上であるときに、情報処理装置１は、第２文字列に代えて第３文字列を出力してもよい。つまり、この変形例における情報処理装置１は第１信頼度、第２信頼度、及び第１類似度を用いて評価される、第２文字列に対する第３文字列の信頼性が閾値以上であるときに、第２文字列に代えて第３文字列を出力する。

【0080】

＜４＞
上述した実施形態において、情報処理装置１は、第１文字列及び第２文字列を認識すると、第１文字列に関連する第３文字列を辞書ＤＢ１２３から抽出していたが、第１信頼度及び第２信頼度が決められた条件を満たす場合に第３文字列を抽出してもよい。例えば、第１信頼度及び第２信頼度がそれぞれ決められた閾値以上である場合、第１文字列及び第２文字列のいずれも誤っている可能性が低い。この場合、情報処理装置１は第３文字列の抽出を行わなくてもよい。つまり、２つの文字認識がいずれも信頼し得る場合、この変形例における情報処理装置１は、第３文字列の抽出を行わないので、無用な処理負荷が減る。

【0081】

＜５＞
上述した実施形態において、情報処理装置１は、辞書ＤＢ１２３を参照して、第１文字列に関連する１又は複数の第３文字列を抽出していたが、第２文字列に関連する１又は複数の第４文字列を抽出してもよい。例えば、情報処理装置１は、辞書ＤＢ１２３を参照して、第２文字列であるフリガナから、そのフリガナにより発音される漢字を第４文字列として抽出してもよい。この場合、第４文字列の抽出に用いる辞書ＤＢ１２３は、第３文字列の抽出に用いる辞書ＤＢ１２３と共通であってもよいし、共通でなくてもよい。

【0082】

そして、この場合、情報処理装置１は、抽出した第４文字列ごとに、第１文字列に対する類似度を示す第２類似度をそれぞれ算出し、この第２類似度に応じて、第２類似度及び第４文字列の少なくともいずれかに基づく情報である第２情報を出力するとよい。

【0083】

例えば、図３に示す手書き文字に対して、情報処理装置１は、第１文字列として「富士反規」という文字列、第２文字列として「フジユウキ」という文字列を認識する。このとき、情報処理装置１は、第１文字列の信頼度として０．１を算出し、第２文字列の信頼度として０．９を算出する。この場合、第１文字列の信頼度は１よりも０に近く、文字認識が失敗していると推測される。一方、第２文字列の信頼度は０よりも１に近く、文字認識が成功していると推測される。

【0084】

情報処理装置１の制御部１１によって実現する抽出部１１３は、上述した第２文字列である「フジユウキ」に関連する第４文字列を、辞書ＤＢ１２３から抽出する。抽出部１１３は、辞書ＤＢ１２３を参照して、例えば、「フジ」の部分から「富士」という１通りの漢字を抽出する。また、抽出部１１３は、辞書ＤＢ１２３を参照して、例えば、「ユウキ」の部分から「祐樹」、「優希」、及び「友規」の３通りの漢字を抽出する。したがって、抽出部１１３は、「富士祐樹」、「富士優希」、及び「富士友規」の３つの第４文字列を抽出する。

【0085】

そして、情報処理装置１は、抽出した３つの第４文字列ごとに、それぞれ第１文字列に対する第２類似度を算出する。「富士祐樹」及び「富士優希」は、第１文字列である「富士反規」に対する編集距離がいずれも「２」であるのに対し、「富士友規」は、編集距離が「１」であるため、情報処理装置１は、３つの第４文字列のうち「富士友規」を選択する。

【0086】

情報処理装置１の制御部１１によって実現する出力部１１５は、（第１信頼度，第２信頼度，第２類似度）で示される特徴量が（０．１，０．９，１）である場合について、分類モデル１２４を参照し、第１文字列と第４文字列のいずれを信頼するべきかを判断する。そして、判断結果に基づいて、情報処理装置１は、第２類似度及び第４文字列の少なくともいずれかに基づく第２情報を出力する。

【0087】

上述した出力部１１５は、例えば、第２情報として「富士反規（もしかして富士友規？）」という文字列を示す制御信号を出力し、表示部１５にこの文字列を表示させてもよい。この場合、括弧内の「もしかして」に続いて第４文字列を示すので、第２情報は、第２類似度及び第４文字列の少なくともいずれかに基づく情報である。

【0088】

また、上述した出力部１１５は、例えば、第２情報として「富士反規（類似度が１の他の候補があります）」という文字列を示す制御信号を出力し、表示部１５にこの文字列を表示させてもよい。この場合、括弧内には他の候補の類似度が示されるので、第２情報は、第２類似度及び第４文字列の少なくともいずれかに基づく情報である。

【0089】

上述した通り、情報処理装置１は、第１文字列と辞書ＤＢ１２３とを用いて第３文字列を抽出することで、誤認識された第２文字列を訂正し、又は、その誤認識の可能性を利用者に知らせる。

【0090】

一方、例えば第２文字列に比べて第１文字列の信頼度が低い場合、情報処理装置１は、第３文字列を抽出するだけでは、第１文字列の訂正等をすることはできない。しかし、この変形例の情報処理装置１は、第１文字列と辞書ＤＢ１２３とを用いて第３文字列を抽出するとともに、第２文字列と辞書ＤＢ１２３とを用いて第４文字列を抽出する。そのため、この情報処理装置１は、誤認識された第１文字列を訂正し、又は、その誤認識の可能性を利用者に知らせる。

【0091】

＜６＞
また、辞書ＤＢ１２３から第４文字列を抽出する場合、情報処理装置１は、第１文字列の信頼度を示す第１信頼度、及び第２文字列の信頼度を示す第２信頼度の少なくともいずれかに応じて、第２情報を出力するとよい。

【0092】

特に、（第１信頼度，第２信頼度，第２類似度）の３次元で示される特徴量のように、第２類似度を含む複数次元の特徴量を用いると、例えば統計的分類手法を適用することにより複雑な判断基準の下に、第２情報の出力内容や出力の有無が決まる。

【0093】

＜７＞
また、辞書ＤＢ１２３から第４文字列を抽出する場合、情報処理装置１は、第１信頼度、第２信頼度、及び第２類似度を用いて評価される、第１文字列に対する第４文字列の信頼性が閾値以上であるときに、第１文字列に代えて第４文字列を出力するとよい。

【0094】

＜８＞
また、辞書ＤＢ１２３から第４文字列を抽出する場合、情報処理装置１は、第１信頼度及び第２信頼度が決められた条件を満たす場合に第４文字列を抽出するとよい。この変形例における情報処理装置１は、第１文字列及び第２文字列の文字認識がいずれも信頼し得る場合に第４文字列の抽出を行わないので、無用な処理負荷が減る。

【0095】

＜９＞
上述した実施形態において、制御部１１は、文字認識モデル１２２から読み出したモデルデータを多層ニューラルネットワークに適用し、手書き文字に対応する文字コードを認識していたが、文字認識の手法はこれに限られない。

【0096】

また、制御部１１は、文字認識モデル１２２を読み出すだけではなく、処理の結果に応じて書き換えてもよい。

【0097】

例えば、情報処理装置１は、第２画像を構成する各画素の階調値を、多層ニューラルネットワークに入力し、文字認識モデル１２２から取得した、各入力に対する重み係数を適用して文字認識を行うことがある。すなわち、この場合の制御部１１は、第２画像から算出される１以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、第２文字列を認識する。

【0098】

そして、情報処理装置１は、第３文字列ごとに第２文字列に対する類似度を示す第１類似度を算出する。この第１類似度に応じて、第２文字列に代えて第３文字列を出力した場合、情報処理装置１は、第２文字列よりも第３文字列（及び、これの抽出に用いられた第１文字列）を信頼したことを意味する。このとき、この変形例における情報処理装置１は、第２文字列の認識に用いられた文字認識モデル１２２を、処理の結果に応じて修正する。具体的には、情報処理装置１は、第２画像から第３文字列が認識されるように、上述した重み係数を修正する。すなわち、この情報処理装置１は、第２文字列に代えて第３文字列を出力した場合に、第２画像からこの第３文字列を認識するように、上述した重みを修正するとよい。この変形例によれば、情報処理装置１の処理の結果が、学習済みモデルである文字認識モデル１２２にフィードバックされるので、文字認識の精度が上がる。

【0099】

＜１０＞
また、辞書ＤＢ１２３から第４文字列を抽出する場合、情報処理装置１は、第１画像から算出される１以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、第１文字列を認識するとよい。そして、情報処理装置１は、第１文字列に代えて第４文字列を出力した場合に、第１画像からこの第４文字列を認識するように、上述した重みを修正するとよい。

【0100】

＜１１＞
上述した実施形態において、第２画像は、利用者によって手書きされた漢字の発音を示す文字列、すなわち、フリガナを示す画像であったが、これに限られない。例えば、第２画像は、第１画像に手書きされた文章等に対する翻訳であってもよい。この場合、辞書ＤＢ１２３は、例えば、和英辞書、英和辞書等の言語間の辞典でもよい。

【0101】

例えば、利用者が第１画像の領域に「自動車」という文字列を手書きし、第２画像の領域に「ｃａｒ」という文字列を手書きする。情報処理装置１は、この第１画像及び第２画像を取得すると、それぞれに対して文字認識処理を行う。その結果、情報処理装置１は、第１画像から「自動車」という文字列を認識し、第２画像から「ｄａｒ」という文字列を認識する。この場合、第１画像の文字認識は成功しているが、第２画像の文字認識は失敗している。

【0102】

情報処理装置１は、第１画像から認識された第１文字列である「自動車」に基づいて、この第１文字列に関連する第３文字列を辞書ＤＢ１２３から抽出する。抽出された第３文字列は、「ｃａｒ」「ａｕｔｏｍｏｂｉｌｅ」「ａｕｔｏ」「ｍｏｔｏｒｃａｒ」等であり、情報処理装置１は、これら複数の第３文字列ごとに、第２文字列である「ｄａｒ」との第１類似度を算出する。そして、情報処理装置１は、最も類似している「ｃａｒ」を第３文字列として選択し、第１文字列の第１信頼度、第２文字列の第２信頼度、及び選択されたこの第３文字列の第１類似度に基づいて、第２文字列に代えて第３文字列を出力するべきか否かを判断する。

【0103】

＜１２＞
上述した実施形態において、画像認識の入力には画像を示す画像データが用いられたが、画像データは、読取られた画像に限られない。情報処理装置１は、例えば、手書き文字の筆順やストローク等、文字を書く際の経時変化を示す情報から文字を認識してもよい。

【0104】

＜１３＞
上述した実施形態において、文字列の信頼度は、特許文献４に記載した数式４を用いて算出されていたが、これに限られない。情報処理装置１は、文字列の信頼度を、この文字列を構成する各文字の文字信頼度に基づいて算出してもよい。情報処理装置１は、文字列の信頼度を、例えば、その文字列に含まれる文字の文字信頼度の平均値によって、算出してもよい。平均値には、例えば、相加平均、相乗平均、調和平均等が用いられてもよい。

【0105】

また、情報処理装置１は、例えば、文字列に含まれる各文字の文字信頼度の最小値を、その文字列の信頼度として算出してもよい。また、情報処理装置１は、文字列に含まれる各文字の文字信頼度の積を、その文字列の信頼度として算出してもよい。この場合、各文字の文字信頼度は、いずれも０以上１以下等に正規化されたものである。

【0106】

＜１４＞
上述した実施形態において、「追加する」、「削除する」、「入れ替える」という３つの編集処理の編集距離は、いずれも「１」として計算されたが、これらの編集処理には、種類ごとに異なる重みが付けられていてもよい。

【0107】

また、類似度は、編集距離を初期文字列又は目的文字列の長さで除算して算出されてもよい。例えば、第２文字列が「フジマウキ」であり、第３文字列が「フジユウキ」である場合、目的文字列の長さは「５」であり、第３文字列の第２文字列に対する編集距離は「１」である。この場合、第１類似度は「１／５」、すなわち「０．２」となる。

【0108】

また、類似度は、初期文字列又は目的文字列の長さから、編集距離を差し引いた値で表されてもよい。例えば、目的文字列の長さが「５」、第３文字列の第２文字列に対する編集距離が「１」である場合、第１類似度は「５－１」、すなわち「４」となる。要するに、初期文字列と目的文字列との類似度は、初期文字列から目的文字列への編集距離を用いて算出されるとよく、さらに初期文字列又は目的文字列の長さを用いて算出されてもよい。

【0109】

＜１５＞
上述した実施形態において、情報処理装置１は、利用者に対応付けられていない文字認識モデル１２２を参照していたが、例えば、書き手ごとに対応付けられた文字認識のための学習済みモデルを参照してもよい。すなわち、情報処理装置１は、利用者ごとに異なる学習済みモデルを用いて、その利用者に指示された画像から文字列を認識するとよい。この変形例によれば、例えば、手書き文字の書き手ごとの筆跡、書き癖等に特化した学習済みモデルが文字認識に用いられるので、文字認識の精度が向上する。

【0110】

＜１６＞
上述した実施形態において、情報処理装置１は、画像読取部１６を有する画像読取装置であったが、画像読取部１６を有しなくてもよい。情報処理装置１は、例えば、通信部１３及び通信回線を介して、媒体から画像を読取る画像読取装置を制御し、この画像読取装置から画像を取得してもよい。また、情報処理装置１は、操作部１４のタッチパネルを操作して利用者が手書きした文字を認識してもよい。この場合、情報処理装置１は、画像を示す画像データとして、タッチパネルが受付けた操作に基づく筆順、ストローク等を含む情報を取得すればよい。

【0111】

＜１７＞
上述した実施形態において、情報処理装置１は、第１文字列及び第２文字列をそれぞれ１つずつ認識していたが、複数の第１文字列、複数の第２文字列をそれぞれ認識してもよい。この場合、情報処理装置１は、各第１文字列、各第２文字列の組合せごとに、上述した処理を行えばよい。

【0112】

＜１８＞
上述した実施形態において、第１類似度は、第３文字列の、第２文字列に対する編集距離に基づいて算出されたが、第３文字列が第２文字列へ編集される際に編集される箇所（以下、編集箇所という）の情報を含んだ情報であってもよい。この場合、第１類似度はスカラー値ではなく、ベクトルで表されてもよい。

【0113】

例えば、第２文字列が「フジマウキ」であり、第３文字列が「フジユウキ」である場合、編集距離は「１」であり、第３文字列と第２文字列との相違する箇所、すなわち、編集箇所は３文字目である。この場合、情報処理装置１は、（編集箇所，編集距離）＝（３，１）という複数の要素で構成されるベクトルを第１類似度として算出してもよい。また、この場合、情報処理装置１は、編集箇所所の情報と、第２文字列のその箇所に対応する文字について算出された文字信頼度とを用いて、出力する内容を判断してもよい。この構成によれば、第１類似度が編集距離のみに由来する場合に比べて、第１類似度に含まれる情報が増えるので、例えば、第２文字列を第３文字列に訂正すべきか否かについて、判断の精度が向上する。

【0114】

＜１９＞
情報処理装置１の制御部１１によって実行されるプログラムは、磁気テープ及び磁気ディスク等の磁気記録媒体、光ディスク等の光記録媒体、光磁気記録媒体、半導体メモリ等の、コンピュータ装置が読取り可能な記録媒体に記憶された状態で提供し得る。また、このプログラムは、インターネット等の通信回線経由でダウンロードされてもよい。なお、上述した制御部１１によって例示した制御手段としてはＣＰＵ以外にも種々の装置が適用される場合があり、例えば、専用のプロセッサ等が用いられる。

【符号の説明】

【0115】

１…情報処理装置、１１…制御部、１１１…解析部、１１２…認識部、１１３…抽出部、１１４…算出部、１１５…出力部、１２…記憶部、１２１…領域対応表、１２２…文字認識モデル、１２３…辞書ＤＢ、１２３１…辞書名リスト、１２３２…辞書データ、１２４…分類モデル、１３…通信部、１４…操作部、１５…表示部、１６…画像読取部。

【図1】