IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 凸版印刷株式会社の特許一覧

特開2024-21728文字認識モデルの学習方法、文字認識方法、文字認識モデル学習装置、学習モデル、文字認識装置
<>
  • 特開-文字認識モデルの学習方法、文字認識方法、文字認識モデル学習装置、学習モデル、文字認識装置 図1
  • 特開-文字認識モデルの学習方法、文字認識方法、文字認識モデル学習装置、学習モデル、文字認識装置 図2
  • 特開-文字認識モデルの学習方法、文字認識方法、文字認識モデル学習装置、学習モデル、文字認識装置 図3
  • 特開-文字認識モデルの学習方法、文字認識方法、文字認識モデル学習装置、学習モデル、文字認識装置 図4
  • 特開-文字認識モデルの学習方法、文字認識方法、文字認識モデル学習装置、学習モデル、文字認識装置 図5
  • 特開-文字認識モデルの学習方法、文字認識方法、文字認識モデル学習装置、学習モデル、文字認識装置 図6A
  • 特開-文字認識モデルの学習方法、文字認識方法、文字認識モデル学習装置、学習モデル、文字認識装置 図6B
  • 特開-文字認識モデルの学習方法、文字認識方法、文字認識モデル学習装置、学習モデル、文字認識装置 図6C
  • 特開-文字認識モデルの学習方法、文字認識方法、文字認識モデル学習装置、学習モデル、文字認識装置 図7
  • 特開-文字認識モデルの学習方法、文字認識方法、文字認識モデル学習装置、学習モデル、文字認識装置 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024021728
(43)【公開日】2024-02-16
(54)【発明の名称】文字認識モデルの学習方法、文字認識方法、文字認識モデル学習装置、学習モデル、文字認識装置
(51)【国際特許分類】
   G06V 30/194 20220101AFI20240208BHJP
   G06V 10/774 20220101ALI20240208BHJP
   G06T 7/00 20170101ALI20240208BHJP
【FI】
G06V30/194
G06V10/774
G06T7/00 350B
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022124771
(22)【出願日】2022-08-04
(71)【出願人】
【識別番号】000003193
【氏名又は名称】TOPPANホールディングス株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100139686
【弁理士】
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100169764
【弁理士】
【氏名又は名称】清水 雄一郎
(74)【代理人】
【識別番号】100147267
【弁理士】
【氏名又は名称】大槻 真紀子
(72)【発明者】
【氏名】石井 達也
(72)【発明者】
【氏名】岡 敏生
【テーマコード(参考)】
5B064
5L096
【Fターム(参考)】
5B064DA27
5L096BA17
5L096HA11
5L096KA04
(57)【要約】      (修正有)
【課題】特定の図形が書き加えられている可能性がある領域について文字認識をする場合であっても、文字認識の精度が低下しない文字認識モデルの学習方法、文字認識方法、文字認識モデル学習装置、学習モデル、文字認識装置を提供する。
【解決手段】文字が書かれた文字列画像と当該書かれた文字を表す文字情報を含む正解ラベルとを第1学習データとして、文字認識モデルを学習部によって学習させる文字認識モデル学習装置による学習方法であって、文字列画像に対して記載内容を変更することを表す合成用図形画像が合成された合成学習用画像と正解ラベルとを第2学習データとして学習部に第1学習データとともに学習させる学習部を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
文字が書かれた文字列画像と当該書かれた文字を表す文字情報を含む正解ラベルとを第1学習データとして、文字認識モデルを学習部によって学習させる文字認識モデルの学習方法であって、
前記文字列画像に対して記載内容を変更することを表す合成用図形画像が合成された合成学習用画像と前記正解ラベルとを第2学習データとして前記学習部に前記第1学習データとともに学習させる学習ステップ
を含む文字認識モデルの学習方法。
【請求項2】
前記合成用図形画像は、第1の線分と第2の線分とが交差する図形であり、
前記合成学習用画像は、前記文字列画像の文字の部分と前記合成用図形画像とが重なるようにして合成されている
請求項1に記載の文字認識モデルの学習方法。
【請求項3】
前記文字列画像に対して予め指定した幅k(kは0より大きい数)倍、高さk(kは0より大きい数)倍である矩形状の合成用空白画像を生成する合成用空白画像生成ステップと、
前記合成用空白画像に対する2本の対角線である第1の線分ならびに第2の線分からなる合成用図形画像を生成する合成用図形画像生成ステップと、
前記合成用空白画像の予め指定した位置に、前記文字列画像と前記合成用図形画像を重畳させた重畳画像を生成する重畳画像生成ステップと、
を含み、
前記学習ステップは、
前記文字列画像に対応する正解ラベルと前記重畳画像に基づく合成学習用画像とを学習データとして前記文字認識モデルを学習させることを含む
請求項2に記載の文字認識モデルの学習方法。
【請求項4】
前記重畳画像から、前記文字列画像に対して前記合成用図形画像が重畳された領域を含む領域で切り出した画像を、前記合成学習用画像として生成する合成学習用画像生成ステップとを含む
請求項3に記載の文字認識モデルの学習方法。
【請求項5】
前記合成学習用画像と、当該合成学習用画像の生成元とされた文字列画像とを各々文字認識学習モデルに入力し、それぞれの出力値の差分を文字認識学習モデルの学習に用いる学習ステップ、
を含む請求項1から請求項4のうちいずれか1項に記載の文字認識モデルの学習方法。
【請求項6】
前記文字認識モデルは、ニューラルネットワークを含み、
前記学習ステップは、前記合成学習用画像と、生成元とした文字列画像とを前記文字認識モデルに各々入力した際に,前記ニューラルネットワークを構成する層から出力された値どうしの誤差を学習に用いる
請求項5に記載の文字認識モデルの学習方法。
【請求項7】
文字が書かれた文字列画像と当該書かれた文字を表す文字情報を含む正解ラベルとを含む第1学習データと、前記文字列画像に対して記載内容を変更することを表す合成用図形画像が合成された合成学習用画像と前記正解ラベルとを含む第2学習データと、を教師データとして学習した学習モデルに対し、文字認識対象の画像データを入力することで、当該画像データに対する文字認識を行わせ、当該文字認識結果を得る
文字認識方法。
【請求項8】
文字が書かれた学習用画像と当該書かれた文字を表す文字情報を含む正解ラベルとを第1学習データとして、文字認識モデルを学習部によって学習させる文字認識モデル学習装置であって、
前記学習用画像に対して記載内容を変更することを表す合成用図形画像が合成された合成学習用画像と前記正解ラベルとを第2学習データとして前記学習部に供給し、前記第1学習データとともに学習させる学習データ供給部
を有する文字認識モデル学習装置。
【請求項9】
文字が書かれた文字列画像と当該書かれた文字を表す文字情報を含む正解ラベルとを含む第1学習データと、前記文字列画像に対して記載内容を変更することを表す合成用図形画像が合成された合成学習用画像と前記正解ラベルとを含む第2学習データと、を教師データとして学習され、
文字認識対象の画像データに対する文字認識を行い、当該画像データに含まれる文字を認識する学習モデル。
【請求項10】
文字が書かれた文字列画像と当該書かれた文字を表す文字情報を含む正解ラベルとを含む第1学習データと、前記文字列画像に対して記載内容を変更することを表す合成用図形画像が合成された合成学習用画像と前記正解ラベルとを含む第2学習データと、を教師データとして学習した学習モデルに対し、
文字認識対象の画像データを入力することで、当該画像データに対する文字認識を行わせ、
当該文字認識結果を得る
文字認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文字認識モデルの学習方法、文字認識方法、文字認識モデル学習装置、学習モデル、文字認識装置に関する。
【背景技術】
【0002】
昨今、文字認識では機械学習を用いることで高精度な認識を実現できるようになっている。機械学習では学習データに過度に適応してしまう現象(過学習と呼ばれる)が発生してしまうことが広く知られており、学習データとは異なる特性を持つ入力データが与えられた際に一般的には精度が大きく低下する。
このような問題に対応するため、学習時ならびに認識時に、入力画像のうち、異なる特性をもつ部分について抑制・消去するような事前処理を行う方法が広く採られる。具体的には、デブラーリング、デノイズ、歪み補正といった画像処理や、機械学習によってパラメータを最適化した生成モデルによる画像変換が挙げられる(例えば、特許文献1参照)。
【0003】
また、近年、AI(artificial intelligence)を用いたOCR(Optical Character Recognition)技術であるAI-OCRが利用されつつある。AI-OCRは、手書き文字等の各種文字を予め学習しておき、その学習済みモデルを用いることで、一般的なOCRよりも高い認識精度で、手書き文字を認識することができる。
このような手書き文字を対象としたAI-OCRシステムを開発するためには、様々な書き手による手書き文字画像と、解読したテキストとのセットである学習データ(教師データ)を大量に学習する必要がある。
ここで、文字認識する対象の書面が戸籍謄本である場合、電算化される前においては、除籍された方について、名前の文字が記載された欄に除籍を表す図形(2本の線分が交差する図形)が書き加えられる。そのため、除籍を表す図形が加えられた名前の部分を図形として抽出し、文字認識しようとすると、除籍を表す図形が加えられているため、上述したように、文字認識精度が低下してしまう。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】国際公開第2019-116466号
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、除籍を表す図形は、記載されている文字に重なるように書き込まれており、また、手書きで書き込まれていることもある。また、除籍を表す図形は、記載されている場合と記載されていない場合もあったため、従来の画像処理技術で抑制・消去してから文字認識することは困難であった。
【0006】
本発明は、このような事情に鑑みてなされたもので、その目的は、特定の図形が書き加えられている可能性がある領域について文字認識をする場合であっても、文字認識の精度が低下しないようにすることができる文字認識モデルの学習方法、文字認識方法、文字認識モデル学習装置、学習モデル、文字認識装置を提供することにある。
【課題を解決するための手段】
【0007】
上述した課題を解決するために、本発明の一態様は、文字が書かれた文字列画像と当該書かれた文字を表す文字情報を含む正解ラベルとを第1学習データとして、文字認識モデルを学習部によって学習させる文字認識モデルの学習方法であって、前記文字列画像に対して記載内容を変更することを表す合成用図形画像が合成された合成学習用画像と前記正解ラベルとを第2学習データとして前記学習部に前記第1学習データとともに学習させる学習ステップを含む文字認識モデルの学習方法である。
また、本発明の一態様は、文字が書かれた文字列画像と当該書かれた文字を表す文字情報を含む正解ラベルとを含む第1学習データと、前記文字列画像に対して記載内容を変更することを表す合成用図形画像が合成された合成学習用画像と前記正解ラベルとを含む第2学習データと、を教師データとして学習した学習モデルに対し、文字認識対象の画像データを入力することで、当該画像データに対する文字認識を行わせ、当該文字認識結果を得る文字認識方法である。
【0008】
また、本発明の一態様は、文字が書かれた学習用画像と当該書かれた文字を表す文字情報を含む正解ラベルとを第1学習データとして、文字認識モデルを学習部によって学習させる文字認識モデル学習装置であって、前記学習用画像に対して記載内容を変更することを表す合成用図形画像が合成された合成学習用画像と前記正解ラベルとを第2学習データとして前記学習部に供給し、前記第1学習データとともに学習させる学習データ供給部を有する文字認識モデル学習装置である。
また、本発明の一態様は、文字が書かれた文字列画像と当該書かれた文字を表す文字情報を含む正解ラベルとを含む第1学習データと、前記文字列画像に対して記載内容を変更することを表す合成用図形画像が合成された合成学習用画像と前記正解ラベルとを含む第2学習データと、を教師データとして学習され、文字認識対象の画像データに対する文字認識を行い、当該画像データに含まれる文字を認識する学習モデルである。
また、本発明の一態様は、文字が書かれた文字列画像と当該書かれた文字を表す文字情報を含む正解ラベルとを含む第1学習データと、前記文字列画像に対して記載内容を変更することを表す合成用図形画像が合成された合成学習用画像と前記正解ラベルとを含む第2学習データと、を教師データとして学習した学習モデルに対し、文字認識対象の画像データを入力することで、当該画像データに対する文字認識を行わせ、当該文字認識結果を得る文字認識装置である。
【発明の効果】
【0009】
以上説明したように、この発明によれば、特定の図形が書き加えられている可能性がある領域について文字認識をする場合であっても、文字認識の精度が低下しないようにすることができる。
【図面の簡単な説明】
【0010】
図1】この発明の一実施形態による文字認識モデル学習装置を用いた文字認識システムSの構成を示す概略ブロック図である。
図2】画像データベース11に記憶される戸籍謄本FRの画像の一例を示す図である。
図3】文字認識モデル学習装置1の動作を説明するフローチャートである。
図4】文字認識モデル学習装置1の処理の流れを説明する概念図である。
図5】戸籍謄本FRから抽出される抽出画像の一例を示す図である。
図6A】合成用空白画像310に対して、文字列画像300と合成用図形画像320とが重なるように合成された画像の一例を示す図である。
図6B】合成用空白画像310に対して、文字列画像300と合成用図形画像320とが重なるように合成された画像の一例を示す図である。
図6C】合成用空白画像310に対して、文字列画像300と合成用図形画像320とが重なるように合成された画像の一例を示す図である。
図7】学習部19の学習手法について説明する図である。
図8】学習部19の他の学習手法について説明する図である。
【発明を実施するための形態】
【0011】
以下、本発明の一実施形態による文字認識モデル学習装置について図面を参照して説明する。図1は、この発明の一実施形態による文字認識モデル学習装置を用いた文字認識システムSの構成を示す概略ブロック図である。
文字認識システムSは、文字認識モデル学習装置1と文字認識装置2とディスプレイ3とを含む。
文字認識モデル学習装置1は、文字が書かれた学習用画像と当該書かれた文字を表す文字情報を含む正解ラベルとを第1学習データとして、文字認識モデルを学習部によって学習させる。この文字情報は、例えばテキストデータである。
より具体的に、文字認識モデル学習装置1は、画像データベース11、画像抽出部12、ラベル付与部13、合成用空白画像生成部14、合成用図形画像生成部15、重畳画像生成部16、合成学習用図形画像生成部17、学習データ供給部18、学習部19を有する。
【0012】
画像データベース11は、文字認識をする対象の文書の画像データを記憶する。ここでは、対象の文書が戸籍謄本である場合を一例として説明する。画像データベース11には、戸籍謄本等の対象の文書がスキャナによって光学的に読み取られることで生成された画像データが記憶される。
図2は、画像データベース11に記憶される戸籍謄本FRの画像の一例を示す図である。ここで、画像データベース11には、戸籍謄本の紙面の全体を含む画像データが記憶されている場合について説明するが、戸籍謄本の名前欄201の画像が個別に抽出された画像であってもよい。
【0013】
ここで、電算化される前に発行された戸籍謄本には、手書き文字が含まれるものがある。
この戸籍謄本FRは、電算化される前に発行された書面である場合の例を示す図である。
領域200は、戸籍に登録された人の名が記載される欄であり、手書きによって記載される。また、領域200において、戸籍に登録された後に除籍された人の欄については、除籍を表す図形が書き加えられる。除籍を表す図形は、手書きで書き加えられる場合がある。
【0014】
例えば、領域200では、「太郎」、「花子」、「二郎」、「三郎」、「四郎」、「五郎」の6人の名がそれぞれ異なる記入欄に並ぶように記載されている。このような名は、戸籍に登録された時期が異なる場合、異なる書き手によって記載される場合がある。そのため、手書き文字は、書き手によって独特の文字書体によって記載されている。また、手書き文字によって記載される場合、旧字であったり、旧仮名遣いによって記載されている場合もある。また、筆、鉛筆、ペンなどのような様々な筆記用具によって記載されている場合もある。
そのため、文書を確認する担当者が、文字認識処理された結果として得られた文字列と、読み取り対象の文書に記載された文字列との対応関係が正しいかを確認する場合がある。この場合、旧字、旧仮名遣いによって記載されている文書である場合、旧字、旧仮名遣い等に関する知識が十分ではない担当者が対応関係を確認しようとすると、文字認識処理によって得られた文字が、文字列画像におけるどの部分に該当するかを把握するために時間がかかる場合がある。このような場合であっても、文字認識モデル学習装置1を用いて学習モデルを生成し、その学習モデルを用いて文字認識装置2によって文字認識をすることで、文字列を簡単に確認することができる。また、名を表す文字列をデータとして取り扱うことができる。
この文書は、公的文書であってもよいし、契約書や、各種サービスの申し込み用紙であってもよい。
【0015】
この領域200のうち、名前欄201には、「太郎」の名が記載されており、除籍を表す図形は記載されていない。名前欄202には、「二郎」の名が記載されており、除籍を表す図形(以下、除籍図形と称する)が名を表す文字に対して重なるように記載されている。除籍図形は、手書きによって書き込まれる場合がある。
【0016】
画像抽出部12は、画像データベース11の戸籍謄本の画像データのうち名前欄の内周側の領域であって、名が記載された領域を抽出することで、抽出画像を生成する。
画像抽出部12が抽出する領域のサイズと、高さ方向及び幅方向における位置は、予め決められている。抽出される領域のサイズは、記載される文字列が含まれる程度の大きさである。
画像抽出部12は、名前欄のうち、除籍図形が記入されていない名前欄から抽出領域に基づいて画像を抽出することで抽出画像を生成する。以下、この抽出画像を文字列画像と称する場合がある。除籍図形がない名前欄については、文字認識モデル学習装置の外部に接続される入力装置からの指示に基づいて指定されるようにしてもよい。入力装置としては、キーボード、マウス、タッチパネル等のいずれであってもよく、文字認識モデル学習装置1を利用するオペレータによって操作される。
【0017】
ラベル付与部13は、画像抽出部12によって抽出された文字列画像に含まれる文字列を表す文字情報をラベルとして、当該文字列画像に付与する。ラベルは、画像抽出部12によって抽出された画像に対して文字認識処理(OCR処理)をすることで得られる文字情報をラベルとして用いてもよいし、文字認識モデル学習装置1の外部に接続されるディスプレイに文字列画像を表示し、この表示内容を見たオペレータによって、文字列画像に含まれる文字を文字情報として、入力装置から入力してもらうことでラベルとして用いるようにしてもよい。
【0018】
合成用空白画像生成部14は、文字列画像に対して予め指定した幅k(kは0より大きい数)倍、高さk(kは0より大きい数)倍である矩形状の合成用空白画像を生成する。
【0019】
合成用図形画像生成部15は、合成用空白画像に対する2本の対角線である第1の線分ならびに第2の線分からなる合成用図形画像を生成する。
この合成用図形画像は、第1の線分と第2の線分とが交差する図形であればよい。
【0020】
重畳画像生成部16は、合成用空白画像の予め指定した位置に、文字列画像と合成用図形画像を重畳させた重畳画像を生成する。
【0021】
合成学習用図形画像生成部17は、重畳画像から、文字列画像に対して合成用図形画像が重畳された領域を含む領域で切り出した画像を、合成学習用画像として生成する。
合成学習用画像は、文字列画像の文字の部分と合成用図形画像とが重なるようにして合成されている。
【0022】
学習データ供給部18は、学習用画像に対して記載内容を変更することを表す合成用図形画像が合成された合成学習用画像と前記正解ラベルとを第2学習データとして学習部19に供給し、前記第1学習データとともに学習させる。
【0023】
学習部19は、学習用画像に対応する正解ラベルと前記重畳画像に基づく合成学習用画像とを学習データとして学習し、学習モデル19aを生成する。
学習部19は、合成学習用画像と、合成学習用画像の生成元とされた文字列画像とを各々文字認識学習モデルに入力し、それぞれの出力値の差分を文字認識学習モデルの学習に用いることもできる。
【0024】
文字認識モデルは、ニューラルネットワークを含むようにしてもよい。この場合、学習部19は,合成学習用画像と、生成元とした学習用画像とを文字認識モデルに各々入力した際に、ニューラルネットワークを構成する層から出力された値どうしの誤差を学習に用いることもできる。
【0025】
文字認識装置2は、対象画像データベース21、文字認識部22、出力部23を含む。
対象画像データベース21は、文字認識をする対象の戸籍謄本の画像データを記憶する。
文字認識部22は、文字が書かれた文字列画像と当該書かれた文字を表す文字情報を含む正解ラベルとを含む第1学習データと、前記文字列画像に対して記載内容を変更することを表す合成用図形画像が合成された合成学習用画像と前記正解ラベルとを含む第2学習データと、を教師データとして学習した学習モデルに対し、文字認識対象の画像データを入力することで、当該画像データに対する文字認識を行わせ、当該文字認識結果を得る。
例えば、文字認識部22は、学習部19が生成した学習モデル19aを学習モデル202aとして記憶し、この学習モデル202aに対して対象画像データベース21に記憶された戸籍謄本の画像データを入力することで、名前欄に記載された名について文字認識を行い、文字認識結果を出力する。
学習モデル202aは、文字が書かれた文字列画像と当該書かれた文字を表す文字情報を含む正解ラベルとを含む第1学習データと、前記文字列画像に対して記載内容を変更することを表す合成用図形画像が合成された合成学習用画像と前記正解ラベルとを含む第2学習データと、を教師データとして学習され、文字認識対象の画像データに対する文字認識を行い、当該画像データに含まれる文字を認識するための学習モデルである。文字認識対象の画像データは、例えば、対象画像データベース21に記憶された戸籍謄本の画像データである。
学習モデル202aは、戸籍謄本の画像データを入力することで、この戸籍謄本の名前欄に記載された名について文字認識を行い、文字認識結果を出力する。
文字認識部22は、対象画像データベース21に記憶された戸籍謄本の画像データのうち、名前欄の位置を、テンプレートを用いることで特定し、特定された名前欄を対象として文字認識を行う。戸籍謄本は、明治31年式戸籍、大正4年式戸籍、昭和23年式戸籍等、ある程度フォーマットが決まっているため、そのフォーマットに応じたテンプレートを用いることで、名前欄の位置や領域の大きさを特定することができる。
出力部23は、文字認識部22から出力された文字認識結果をディスプレイ3等の外部機器に出力する。この外部機器は、ディスプレイ3であってもよいし、文字認識結果を記憶する記憶装置であってもよい。
【0026】
画像データベース11、対象画像データベース21は、記憶媒体、例えば、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)、またはこれらの記憶媒体の任意の組み合わせによって構成される。
【0027】
画像抽出部12、ラベル付与部13、合成用空白画像生成部14、合成用図形画像生成部15、重畳画像生成部16、合成学習用図形画像生成部17、学習データ供給部18、学習部19、文字認識部22、出力部23は、例えばCPU(中央処理装置)等の処理装置若しくは専用の電子回路で構成されてよい。
【0028】
図3は、文字認識モデル学習装置1の動作を説明するフローチャート、図4は、文字認識モデル学習装置1の処理の流れを説明する概念図である。
【0029】
図3:ステップS101)
文字認識モデル学習装置1の画像抽出部12は、画像データベース11に記憶された戸籍謄本FRの名前欄202から名が記載された領域を文字列画像300として抽出する。
【0030】
図3:ステップS102)
合成用空白画像生成部14は、ステップS101において得られた文字列画像に対する幅k倍、高さk倍である矩形状の合成用空白画像310を生成する。例えば、kとkは、それぞれ1より大きな数が用いられる。これにより、合成用空白画像の領域のサイズは、文字列画像よりもある程度大きなサイズである。ここで、文字列画像のサイズがある程度大きい場合であり、この文字列画像のサイズに対して十分に小さなサイズで文字列が記載されている場合には、kとkは、それぞれ1より小さな数が用いられるようにしてもよい。例えば、名の書き手によっては、文字のサイズを小さく記載されている場合であっても、文字サイズに応じたサイズ(例えば文字列画像よりも一回り小さいサイズ)の合成用空白画像を生成することができる。
この合成用空白画像の領域内には、文字列と除籍図形とのいずれも記載されていない画像である。
【0031】
図3:ステップS103)
合成用図形画像生成部15は、合成用空白画像の矩形領域に対する2本の対角線としての第1の線分ならびに第2の線分からなる、合成用図形画像320を生成する。
ここで、合成用図形画像生成部15は、2つの線分について,y切片±εy1傾き±εm1,y切片±εy2傾き±εm2の微小変換処理を各々施した2つの線分を生成する。
【0032】
図3:ステップS104)
重畳画像生成部16は、合成用空白画像310に対して予め指定された位置に、文字列画像300と合成用図形画像320を重畳させた重畳画像330を生成する。
ここでは、文字列画像300に含まれる文字列を構成する1行に対して合成用図形画像320が重なるように合成される。電算化前の戸籍謄本は、一般に縦書きであるため、文字列画像300に含まれる文字列も縦書きである。そのため、縦書きの1行に対して重なるように合成用図形画像320が重なるように合成される。
【0033】
図3:ステップS105)
合成学習用図形画像生成部17は、重畳画像330から、合成学習用図形画像340を抽出することで生成する。
ここで、合成学習用図形画像生成部17は、重畳画像330のうち文字列画像300が配置された領域と同じ領域に沿った切出し位置に基づいて、合成学習用図形画像340を切り出すことで抽出してもよいが、異なる位置において切り出すこともできる、例えば、合成学習用図形画像生成部17は、文字列画像300が配置された領域を基準として位置に対して、x±εxc,y±εycの微小変換処理を施した位置を切り出し位置として切り出すようにしてもよい。
【0034】
図3:ステップS106)
ラベル付与部13は、文字列画像300に含まれる文字列に応じた文字情報を、文字列画像300と合成学習用図形画像340とに対してそれぞれ正解ラベル301として付与する。ここでは、文字列画像300と、この文字列画像300を元に生成された合成学習用図形画像340とに対して同じ正解ラベル301が付与される。これにより、名前欄202に除籍図形が付与されていない状態の文字列画像と、名前欄202に除籍画像が書き込まれた状態の文字列画像とのどちらの場合であっても同じ文字情報(テキストデータ)が対応づけされる。すなわち、名を表す文字列に対して、除籍図形がある場合であっても無い場合であっても同じ文字列として認識可能となる学習データを生成する。
【0035】
図3:ステップS107)
学習データ供給部18は、文字列画像300に正解ラベルが付与された第1学習データと、合成学習用図形画像340に正解ラベルが付与された第2学習データをそれぞれ学習部19に供給する。
【0036】
図3:ステップS108)
学習部19は、第1学習データと第2学習データとを教師データとして学習する。
【0037】
図5は、戸籍謄本FRから抽出される抽出画像の一例を示す図である。
図5では、除籍図形が書き込まれていない名前欄210の内周側から領域211に基づいて文字列画像が抽出される場合を示す図である。図2の戸籍謄本FRの名前欄202には、「二郎」の名に対して除籍図形が書き込まれた状態について図示されているが、画像データベース11に異なる多数の戸籍謄本の画像データが記憶されている場合、戸籍謄本FRとは別の戸籍謄本において同じ「二郎」の名が記載されている場合がある。例えば、別人であるが同じ名の人が複数いる場合である。このような同じ名の人について、除籍されたことがある人と、除籍されていない状態で戸籍謄本に記載されている人も存在する場合がある。また、同じ人であっても、ある戸籍謄本から除籍され、新たな戸籍が作られることで、その戸籍謄本とは別の新たな戸籍謄本が作られる場合がある。このような場合には、除籍図形が書き込まれていない名については、高い精度でAI-OCRによる文字認識をすることができる。一方で、除籍図形が書き込まれている名については、そのままでは文字認識の精度が低下する場合がある。このような場合、本実施形態においては、除籍図形が書き込まれていない名の文字列を用い、除籍図形が書き込まれた状態の画像を合成によって生成した上で学習データを生成する。
例えば、図2に示す戸籍謄本FRでは除籍図形が書き加えられた名前欄があったとしても、別の戸籍謄本から除籍図形が書き込まれていない状態の名前欄から得られる文字列画像を用いて除籍図形が書き込まれた状態の画像を合成して学習しておく。
この図5では、名前欄210よりも小さなサイズの領域であって、除籍図形が書き込まれておらず、「二郎」の文字列が記載された領域211が文字列画像として抽出される場合が図示されている。
【0038】
図6Aは、合成用空白画像310に対して、文字列画像300と合成用図形画像320(除籍図形)とが重なるように合成された画像の一例を示す図である。この合成用図形画像320は、第1線分320aと第2線分320bとが交差する図形である。この第1線分320aと第2線分320bは、合成用空白画像310に対する対角線として書き込まれる場合があるが、書き手によっては、線分の端部が合成用空白画像310の頂部に重ならない状態で書き込まれることがある。そこで、合成用図形画像生成部15は、合成用空白画像の矩形領域に対する2本の対角線を付与することで合成用図形画像320を生成してもよいが、第1線分に対してy切片±εy1傾き±εm1の微少変換処理を施すことで、少なくとも一方の端部が合成用空白画像310の頂部に重ならないようにした第1線分320aを生成し、第2線分に対してy切片±εy2傾き±εm2の微小変換処理を施すことで、少なくとも一方の端部が合成用空白画像310の頂部に重ならないようにした第2線分320bを生成することで、合成用図形画像320を生成することもできる。
ここでは、第1線分に対して、y切片±εy1傾き±εm1の微少変換処理を施すことで、高さ方向をy方向とした場合、合成用空白画像310に対する第1線分の配置位置を高さ方向において(±εy1)の範囲において任意に変更することができ(y切片)、合成用空白画像310に対する第1線分の傾きを(±εm1)の範囲において任意に変更することができる(傾き)。
また、第2線分に対して、y切片±εy2傾き±εm2の微少変換処理を施すことで、高さ方向をy方向とした場合、合成用空白画像310に対する第2線分の配置位置を高さ方向において(±εy2)の範囲において任意に変更することができ(y切片)、合成用空白画像310に対する第2線分の傾きを(±εm2)の範囲において任意に変更することができる(傾き)。
これにより、書き手によって除籍図形の記載の仕方が異なっていたり、同じ書き手であっても、場合によって記載の仕方が異なってしまう場合を想定した合成学習用画像を生成し、学習することができる。
【0039】
この図6Aでは、合成用図形画像320のうち第1線分320aは、その第1端が、合成用空白画像310の右上頂部に重なる位置であり、その第2端が、合成用空白画像310の左下頂部よりも左辺に沿って少し上の位置となるように生成されている。また、合成用図形画像320のうち第2線分320bは、その第1端が、合成用空白画像310の左上頂部よりも左辺に沿って少し下の位置であり、その第2端が、名前欄202の右下頂部に重なる位置となるように生成されている。
そして、合成学習用図形画像340として抽出される画像は、文字列画像300が配置された位置を基準として切り出すことで、「二郎」の名前が合成学習用図形画像340の高さ方向及び幅方向においてほぼ中央に位置するような状態で切り出す場合には、合成用図形画像320については、その2つの線分の交点が、合成学習用図形画像340の幅方向においてやや左辺に近い位置に配置された状態として抽出される。
【0040】
ここで、重畳画像330から合成学習用図形画像340を切り出す場合(抽出する場合)、その切り出し位置についても、任意に変更するようにしてもよい。
例えば、合成学習用図形画像生成部17は、文字列画像300が配置された領域を基準とした位置に対して、x±εxc,y±εycの微小変換処理を施した位置を切り出し位置として切り出すようにしてもよい。
ここでは、文字列画像300の幅方向をx方向、高さ方向をy方向とした場合、文字列画像300が配置された領域を基準にして、切り出す領域を幅方向において(x±εxc)の範囲において任意に変更することができ、文字列画像300の高さ方向において(y±εyc)の範囲において任意に変更することができる。
例えば、名前欄において、名を示す文字列は、書き手が異なる場合や、同じ書き手であっても記載する状況によっては、名前欄の上側寄りまたは下側寄りに記載される場合があり、また、名前欄の右側寄りまたは左側寄りに記載される場合がある。このような場合があったとしても、このような場合に合わせた合成学習用図形画像340を準備することができる。
【0041】
図6Bは、合成用空白画像310に対して、文字列画像300と合成用図形画像320とが重なるように合成された画像の一例を示す図である。合成用図形画像320のうち第1線分320aは、その第1端が、合成用空白画像310の右上頂部よりも上辺に沿ってやや左側の位置となるように生成されており、その第2端が、合成用空白画像310の左下頂部よりも下辺に沿って少し右の位置となるように生成されている。また、合成用図形画像320のうち第2線分320bは、その第1端が、合成用空白画像310の左上頂部に重なる位置であり、その第2端が、名前欄202の右下頂部よりも右辺に沿ってやや上の位置となるように生成されている。
そして、重畳画像330から切り出す位置がx方向においてやや左よりとなるように微少変換処理がなされ、高さ方向においてやや上方となるように微少変換処理がなされた場合には、この微少変換処理がなされた位置に基づいて、合成学習用図形画像340として切り出される。
【0042】
図6Cは、合成用空白画像310に対して、文字列画像300と合成用図形画像320とが重なるように合成された画像の一例を示す図である。合成用図形画像320のうち第1線分320aは、その第1端が、合成用空白画像310の右上頂部よりも右辺に沿ってやや下側の位置となるように生成されており、その第2端が、合成用空白画像310の左下頂部に重なる位置となるように生成されている。また、合成用図形画像320のうち第2線分320bは、その第1端が、合成用空白画像310の左上頂部よりも上辺に沿ってやや右側の位置となるように生成され、その第2端が、名前欄202の右下頂部よりも下辺に沿ってやや左の位置となるように生成されている。
そして、重畳画像330から切り出す位置がx方向においてやや右よりとなるように微少変換処理がなされ、高さ方向においてやや下方となるように微少変換処理がなされた場合には、この微少変換処理がなされた位置に基づいて、合成学習用図形画像340として切り出される。
【0043】
図7は、学習部19の学習手法について説明する図である。
学習部19の学習は、様々な学習手法を採用することができる。
例えば、学習部19は、文字認識学習モデルを学習するにあたり、文字列画像300を入力として文字認識学習モデルに入力して得られる第1出力値と、合成学習用図形画像340を入力として文字認識学習モデルに入力して得られる第2出力値と、差分(確率分布の差)が少なくなるように学習するようにしてもよい。これにより、除籍図形の有無に起因する文字認識結果への影響をより抑制することができる。
【0044】
図8は、学習部19の他の学習手法について説明する図である。
学習部19は、文字認識モデルとして、ニューラルネットワークを用いてもよい。
この場合、学習部19は、文字列画像300と、合成学習用図形画像340とを文字認識モデルに各々入力した際に、ニューラルネットワークを構成する層から出力された値どうしの誤差を学習に用い、この誤差が小さくなるように学習させるようにしてもよい。これにより、除籍図形の有無に起因する文字認識結果への影響をより抑制することができる。
この場合、誤差の求め方としては、2乗和誤差または交差エントロピー誤差であってもよい。
ニューラルネットワークを構成する層としては、例えば、畳み込み層、LSTM(Long short-term memory)層、全結合層、(position-wise)Feed Forward Network層であってもよい。
【0045】
以上説明した実施形態によれば、正解ラベルを有する画像に対して、傾きm1の第1の線分と傾きm2の第2の線分を重畳させた画像を生成し、当該画像に正解ラベルを付与したデータを学習データとして追加する。これにより、除籍を表す図形がある場合と無い場合との両方について学習することができるため、除籍図形がある場合でも無い場合でも同様に記載された文字列を認識することができ、文字認識の精度が低下しないようにすることができる。
【0046】
また、上述した実施形態によれば、名前欄に除籍図形が書き込まれていたとしても、文字認識をするに前に除籍図形を除去するような前処理を行う必要がない。
【0047】
上述した実施形態における文字認識モデル学習装置1または文字認識装置2をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0048】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0049】
1…文字認識モデル学習装置、2…文字認識装置、3…ディスプレイ、11…画像データベース、12…画像抽出部、13…ラベル付与部、14…合成用空白画像生成部、15…合成用図形画像生成部、16…重畳画像生成部、17…合成学習用図形画像生成部、18…学習データ供給部、19…学習部、19a…学習モデル、21…対象画像データベース
22 文字認識部、23…出力部、200…領域、201…名前欄、202…名前欄、202a…学習モデル、210…名前欄、211…領域、300…文字列画像、301…正解ラベル、310…合成用空白画像、320…合成用図形画像、320a…第1線分、320b…第2線分、330…重畳画像、340…合成学習用図形画像
図1
図2
図3
図4
図5
図6A
図6B
図6C
図7
図8