IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ NECプラットフォームズ株式会社の特許一覧

特許7327810画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル
<>
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図1
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図2
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図3
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図4
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図5
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図6
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図7
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図8
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図9
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図10
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図11
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図12
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図13
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図14
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図15
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図16
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図17
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図18
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図19
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図20
  • 特許-画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル 図21
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-07
(45)【発行日】2023-08-16
(54)【発明の名称】画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、および文字認識モデル
(51)【国際特許分類】
   G06V 30/194 20220101AFI20230808BHJP
   G06T 7/00 20170101ALI20230808BHJP
   G06N 20/00 20190101ALI20230808BHJP
   G06V 20/62 20220101ALI20230808BHJP
【FI】
G06V30/194
G06T7/00 350C
G06N20/00 130
G06V20/62
【請求項の数】 9
(21)【出願番号】P 2020072831
(22)【出願日】2020-04-15
(65)【公開番号】P2021170213
(43)【公開日】2021-10-28
【審査請求日】2021-08-04
【前置審査】
(73)【特許権者】
【識別番号】000227205
【氏名又は名称】NECプラットフォームズ株式会社
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】田中 悟
(72)【発明者】
【氏名】中里 裕哉
(72)【発明者】
【氏名】早川 和男
【審査官】小池 正彦
(56)【参考文献】
【文献】国際公開第2020/008556(WO,A1)
【文献】V.Ribeiro et al,Brazilian Mercosur License Plate Detection: a Deep Learning Approach Relying on Synthetic Imagery,2019 IX Brazilian Symposium on Computing Systems Engineering (SBESC),米国,IEEE,2019年11月22日,https://ieeexplore.ieee.org/document/9046091
【文献】Tomas Bjorklund ret al,Automatic license plate recognition with convolutional neural networks trained on synthetic data,2017 IEEE 19th International Workshop on Multimedia Signal Processing (MMSP),米国,IEEE,2017年10月18日,https://ieeexplore.ieee.org/document/8122260
【文献】福谷 祐貴 他3名,機械学習による劣化ナンバープレート数字認識の方法と性能比較,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2013年03月04日,Vol.112 No.475,p.103~106
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/194
G06T 7/00
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
ユーザから文字情報を取得する取得機能と、
前記文字情報から前記文字情報に対応する図形を含む文字画像を生成する画像生成機能と、
前記文字情報を用いて、前記文字画像にアノテーション情報を付与し、学習用データを生成するアノテーション付与機能と、
をコンピュータに実現させるための画像生成プログラム。
【請求項2】
前記画像生成機能は、前記文字情報に関連付けられた描画点情報に基づいて、前記文字画像を生成する機能を含む、
請求項1に記載の画像生成プログラム。
【請求項3】
前記文字情報は、第1の分類項目に対応する文字情報と、第2の分類項目に対応する文字情報とを有し、
前記第1の分類項目に対応する文字情報は、前記第2の分類項目に対応する文字情報に応じて異なる描画点情報に関連付けられる、
請求項2に記載の画像生成プログラム。
【請求項4】
撮像された基準文字画像に基づいて前記描画点情報を取得する描画点情報取得機能をさらに前記コンピュータに実現させる、
請求項2または3のいずれか一項に記載の画像生成プログラム。
【請求項5】
前記文字画像の画素値を変換し、前記文字画像を補正する補正機能をさらに前記コンピュータに実現させ、
前記アノテーション付与機能は、前記文字情報を用いて、補正された前記文字画像にアノテーション情報を付与し、学習用データを生成する機能を含む、
請求項1から4のいずれか一項に記載の画像生成プログラム。
【請求項6】
ユーザから文字情報を取得する取得部と、
前記文字情報から前記文字情報に対応する図形を含む文字画像を生成する画像生成部と、
前記文字情報を用いて、前記文字画像にアノテーション情報を付与し、学習用データを生成するアノテーション付与部とを有する画像生成装置と、
前記画像生成装置により生成された前記学習用データを用いて学習した文字認識モデルを用いて、入力された文字画像に含まれる文字情報を認識する文字認識装置と、
を備える文字認識システム。
【請求項7】
ユーザから文字情報を取得する段階と、
前記文字情報から前記文字情報に対応する図形を含む文字画像を生成する段階と、
前記文字情報を用いて、前記文字画像にアノテーション情報を付与し、学習用データを生成する段階と、
を備える画像生成方法。
【請求項8】
ユーザから文字情報を取得する取得部と、
前記文字情報から前記文字情報に対応する図形を含む文字画像を生成する画像生成部と、
前記文字情報を用いて、前記文字画像にアノテーション情報を付与し、学習用データを生成するアノテーション付与部と、
を備える画像生成装置。
【請求項9】
撮像された文字画像に基づいて、前記撮像された文字画像に含まれる文字情報を出力する機能をコンピュータに実現させるための学習済みの文字認識モデルであって、
コンピュータが、
ユーザから文字情報を取得し、
前記文字情報から前記文字情報に対応する図形を含む文字画像を生成し、
前記文字情報を用いて、前記文字画像にアノテーション情報を付与することで学習用データを生成し、
前記学習用データを用いて学習することにより生成された、
文字認識モデル。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、データ構造および文字認識モデルに関する。
【背景技術】
【0002】
機械学習により学習した文字認識モデルを用いて、撮像された文字画像に含まれる文字情報を認識する文字認識システムが知られている。ここで文字認識モデルを学習するための学習用データは、撮像された文字画像に対して、文字情報の正解ラベルをアノテーション情報として付与することで生成される。特許文献1では、新規の文字切り出し画像とその「読み」とを管理者が紐づけることにより、学習用データを生成する方法が記載されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2010-170207号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで文字認識システムの認識精度を向上させるためには、大量の学習用データが必要となる。しかし上述の特許文献1に記載の方法では、大量の文字切り出し画像を入手することが困難であるという問題がある。また大量の学習用の文字切り出し画像に対して、管理者が手作業でアノテーションを行うため、学習用データの生成に膨大な時間と労力がかかるという問題がある。
【0005】
本開示の目的は、上述した課題を鑑み、アノテーション情報が付与された学習用データを効率よく生成することが可能な画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、データ構造および文字認識モデルを提供することにある。
【課題を解決するための手段】
【0006】
本開示の一態様における画像生成プログラムは、文字情報を取得する取得機能と、前記文字情報から前記文字情報に対応する図形を含む文字画像を生成する画像生成機能と、前記文字情報を用いて、前記文字画像にアノテーション情報を付与し、学習用データを生成するアノテーション付与機能と、
をコンピュータに実現させる。
【0007】
本開示の一態様における画像生成装置は、文字情報を取得する取得部と、前記文字情報から前記文字情報に対応する図形を含む文字画像を生成する画像生成部と、前記文字情報を用いて、前記文字画像にアノテーション情報を付与し、学習用データを生成するアノテーション付与部と、を備える。
【0008】
本開示の一態様における文字認識システムは、画像生成装置と、前記画像生成装置により生成された前記学習用データを用いて学習した文字認識モデルを用いて、入力された文字画像に含まれる文字情報を認識する文字認識装置と、を備える。
【0009】
本開示の一態様における画像生成方法は、文字情報を取得する段階と、前記文字情報から前記文字情報に対応する図形を含む文字画像を生成する段階と、前記文字情報を用いて、前記文字画像にアノテーション情報を付与し、学習用データを生成する段階と、を備える。
【0010】
本開示の一態様におけるデータ構造は、文字情報を用いて生成されるアノテーション情報であって、撮像された入力画像に基づいて、前記入力画像に含まれる文字情報を出力する文字認識モデルの学習処理に用いられる、アノテーション情報と、前記文字情報に関連付けられた描画点情報に基づいて生成される、前記文字情報に対応する図形を含む文字画像であって、前記文字認識モデルの学習処理に用いられる、文字画像と、を備える。
【0011】
本開示の一態様における文字認識モデルは、撮像された文字画像に基づいて、前記撮像された文字画像に含まれる文字情報を出力する機能をコンピュータに実現させるための学習済みの文字認識モデルである。文字認識モデルは、コンピュータが、文字情報を取得し、前記文字情報から前記文字情報に対応する図形を含む文字画像を生成し、前記文字情報を用いて、前記文字画像にアノテーション情報を付与することで学習用データを生成し、前記学習用データに基づいて学習することにより生成される。
【発明の効果】
【0012】
本開示により、アノテーション情報が付与された学習用データを効率よく生成することが可能な画像生成プログラム、文字認識システム、画像生成方法、画像生成装置、データ構造および文字認識モデルを提供することができる。
【図面の簡単な説明】
【0013】
図1】実施形態1にかかる画像生成装置の構成を示すブロック図である。
図2】実施形態2にかかる文字認識システムが適用されることができるシステムの一例を示す概略構成図である。
図3】実施形態2にかかる文字認識システムの学習用データを説明するための図である。
図4】実施形態2にかかるアノテーション情報の一例を示す図である。
図5】実施形態2にかかる文字認識システムの構成を示すブロック図である。
図6】実施形態2にかかる書式情報および描画点情報を説明するための図である。
図7】実施形態2にかかる描画点情報データベースのデータ構造の一例を示す図である。
図8】実施形態2にかかる画像生成装置の学習用データ生成処理を示すフローチャート図である。
図9】実施形態2にかかる画像生成部による描画方法を説明するための図である。
図10】実施形態2にかかる文字認識システムの学習処理を示すフローチャートである。
図11】実施形態3にかかる描画点情報データベースのデータ構造の一例を示す図である。
図12】実施形態4にかかる文字認識システムの構成を示すブロック図である。
図13】実施形態4にかかる画像生成装置の描画点情報の取得処理を示すフローチャートである。
図14】実施形態4にかかる画像生成装置の描画点情報の取得処理における表示の一例を示す図である。
図15】実施形態5にかかる認識対象の文字画像を説明するための図である。
図16】実施形態5にかかる文字認識システムの構成を示すブロック図である。
図17】実施形態5にかかる画像生成装置の学習用データ生成処理を示すフローチャート図である。
図18】実施形態5にかかる補正部による補正処理を説明するための図である。
図19】実施形態5にかかる抽出処理部による抽出処理における表示の一例を示す図である。
図20】実施形態5にかかる画像生成装置の学習用データ生成処理における表示の一例を示す。
図21】実施形態1~5にかかるコンピュータの構成図である。
【発明を実施するための形態】
【0014】
(実施形態1)
以下、図面を参照して本開示の実施形態1について説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。
図1は、実施形態1にかかる画像生成装置10の構成を示すブロック図である。画像生成装置10は、取得部100と、画像生成部101と、アノテーション付与部103とを備える。
【0015】
取得部100は、文字情報を取得する。
画像生成部101は、文字情報から文字情報に対応する図形を含む文字画像を生成する。
アノテーション付与部103は、文字情報を用いて、文字画像にアノテーション情報を付与し、学習用データを生成する。
【0016】
このように実施形態1によれば、画像生成装置10は、取得した文字情報から文字画像を生成し、生成した文字画像に対して自動でアノテーション情報を付与する。したがって画像生成装置10は、大量の文字画像を入手することができる。そして画像生成装置10は、管理者の作業負担を最小限に抑えて、文字画像に対して効率よくアノテーション情報を付与することができる。これにより、アノテーション情報が付与された学習用データを効率よく生成することができる。
【0017】
(実施形態2)
次に図2~10を用いて、本開示の実施形態2について説明する。図2は、実施形態2にかかる文字認識システム2が適用されることができる管理システム1の一例を示す概略構成図である。
管理システム1は、管理対象に関連する図形を含む被写体を撮像し、文字認識を行うことで、管理対象を管理する。図形は、数字、漢字、仮名文字、アルファベットおよび記号等の図形文字を含む。本実施形態2では管理システム1は、車両のナンバープレートを撮像し、ナンバープレートに記載された車両登録番号等の文字情報を取得することで車両情報を管理する。一例として管理システム1は、1または複数の撮像装置6と、管理装置7と、文字認識システム2とを備え、これらがネットワーク9を介して通信可能に接続される構成をとる。
【0018】
ネットワーク9は、インターネット、広域ネットワーク(WAN)、ローカルエリアネットワーク等の各種ネットワークまたはその組み合わせを含んで構成される。またネットワーク9は、インターネットと分離された専用回線を含んでもよい。
【0019】
撮像装置6は、車両登録番号等が記載された車両のナンバープレートを撮像するカメラ等である。たとえば撮像装置6は、車載カメラ、交通監視カメラおよび駐車場監視カメラ等であってよい。撮像装置6は、文字情報を表す図形を含む撮像文字画像を取得したことに応じて、ネットワーク9を介して撮像文字画像を管理装置7に送信してよい。
【0020】
管理装置7は、車両の車両登録番号等を含む車両情報を管理するサーバ・コンピュータ等のコンピュータである。管理装置7は、撮像装置6から撮像文字画像を受信したことに応じて撮像文字画像を文字認識システム2に送信し、文字認識システム2から車両登録番号等の文字情報を受信する。管理装置7は、取得した文字情報を車両情報として記憶してよい。
【0021】
文字認識システム2は、管理装置7を介して撮像装置6から受信した撮像文字画像に含まれる文字情報を認識するコンピュータ等である。文字認識システム2は、認識した文字情報を管理装置7に送信してよい。
なお、文字認識システム2は管理装置7を介さず撮像装置6から撮像文字画像を取得してもよい。
【0022】
図3は、実施形態2にかかる文字認識システム2の学習用データを説明するための図である。学習用データは、文字情報に対応する図形を含む文字画像である。本図では、図形は図形文字である。
たとえば認識対象の文字画像がナンバープレートの画像である場合、学習用データの文字画像は、文字情報である車両登録番号に対応する図形文字を有する。ここで車両登録番号は、その種別を示す複数の分類項目に分けられる。分類項目は、陸運支局T、分類番号C、用途Uおよび一連番号Sを含む。たとえば陸運支局Tは、漢字または仮名文字等であり、本図では「足立」である。また分類番号Cは、数字等であり、本図では「48」である。また用途Uは、仮名文字またはアルファベット等であり、本図では「く」である。一連番号Sは、数字等であり、本図では「30-30」である。このように文字情報は、複数の分類項目のそれぞれに対応する文字情報を有する。
【0023】
各分類項目には、文字画像においてその分類項目に対応する文字情報に対応する図形が描画され得る領域(描画領域)を示す区画領域Pが割り当てられている。なお各区画領域Pには、分類項目の文字数に応じて1文字ごとの描画領域である文字領域Lが割り当てられてよい。
なお図形文字および背景の色は、「事業用車両」、「自家用車」、「軽自動車」、あるいは「普通車」若しくは「大型車」等の車両種別に応じて異なってよい。
【0024】
このような学習用データの文字画像には、分類項目の区画領域Pごとに、または文字領域Lごとに正解ラベルの文字情報がアノテーション情報として付与されている。すなわち学習用データは、アノテーション情報と文字画像とを含むデータ構造を有する。
【0025】
図4は、実施形態2にかかるアノテーション情報の一例を示す図である。
本図に示すように、たとえばアノテーション情報は、分類項目と、区画領域Pおよび文字領域Lの位置座標と、正解ラベルとを含み、これらが互いに関連付けられた構成をとってよい。区画領域Pおよび文字領域Lの位置座標は、当該領域を決定する頂点の座標または当該領域の中心の座標といった、当該領域の代表点の座標であってよい。なお区画領域Pおよび文字領域Lは、後述する書式情報FMによって決定される。
【0026】
図5は、実施形態2にかかる文字認識システム2の構成を示すブロック図である。文字認識システム2は、画像生成装置20と文字認識装置26とを有する。
【0027】
画像生成装置20は、文字認識装置26が用いる文字認識モデルの学習用データを生成するためのコンピュータ等である。たとえば画像生成装置20のオペレーティングシステムまたはアプリケーションの実行環境は、.NET Framework(登録商標)等であってよい。また画像生成装置20は、OpenCV(登録商標)およびOpenCVSharp(登録商標)等のライブラリを用いてよい。
画像生成装置20は、取得部200と、画像生成部201と、アノテーション付与部203と、記憶部204とを有する。
【0028】
記憶部204は、学習用データ生成のために必要な各種情報および学習用データを記憶する記憶媒体である。記憶部204は、書式情報FMと、描画点情報データベース205と、学習用データベース206とを記憶する。
描画点情報データベース205は、文字情報に対応する図形を描画するための描画点情報DRを記憶する。描画点情報DRおよび書式情報FMの詳細については、後述する。
学習用データベース206は、上述した学習用データを記憶する。
【0029】
取得部200は、ユーザから学習用データにかかる文字情報等の各種情報を取得する。そして取得部200は、取得した文字情報等を画像生成部201に出力する。取得部200はまた、ユーザから描画点情報DRに関連する各種情報を取得する。そして取得部200は、取得した描画点情報DRに関連する各種情報を記憶部204の描画点情報データベース205に格納する。
【0030】
画像生成部201は、取得した文字情報から文字情報に対応する図形を含む文字画像を生成する。ここで画像生成部201は、記憶部204の描画点情報データベース205に記憶される、書式情報FMおよび文字情報に関連付けられた描画点情報DRに基づいて、文字画像を生成する。そして画像生成部201は、文字情報および文字画像をアノテーション付与部203に出力する。
【0031】
アノテーション付与部203は、文字情報を用いてアノテーション情報を生成し、文字画像にアノテーション情報を付与し、学習用データを生成する。アノテーション付与部203は、生成された学習用データを記憶部204の学習用データベース206に格納する。
【0032】
文字認識装置26は、画像生成装置20により生成された学習用データを用いて学習した文字認識モデルを用いて、入力された文字画像に含まれる文字情報を認識するコンピュータ等である。文字認識装置26は、取得部260と、文字認識部262と、出力部264と、学習部266とを有する。
【0033】
取得部260は、画像生成装置20の学習用データベース206に接続され、学習用データベース206から学習用データを取得する。そして取得部260は取得した学習用データを学習部266に出力する。また取得部260は、ネットワーク9を介して管理装置7または撮像装置6から撮像された認識対象の文字画像を取得する。そして取得部260は、取得した認識対象の撮像文字画像を文字認識部262に出力する。
【0034】
文字認識部262は、学習部266から出力された学習済みの文字認識モデルを用いて、認識対象の撮像文字画像から文字情報を認識する。ここで文字認識モデルは、認識対象の撮像文字画像に基づいて、文字画像に含まれる文字情報を出力する。文字認識モデルは、重みおよびバイアス等をパラメータとして有する畳み込みニューラルネットワークまたはその他の任意のニューラルネットワークを含んでよい。文字認識部262は、認識結果を出力部264に出力する。
【0035】
出力部264は、認識結果を外部出力する。出力部264は、ネットワーク9を介して管理装置7に認識結果を送信してよい。
【0036】
学習部266は、アノテーション情報および文字画像を含む学習用データを用いて文字認識モデルに対して学習処理をし、文字認識モデルを最適化する。学習部266は、最適化した文字認識モデルを文字認識部262に出力する。
なお、画像生成装置20および文字認識装置26は、複数のコンピュータ等で構成されてもよく、単一のコンピュータ等で構成されてもよい。
【0037】
図6は、実施形態2にかかる書式情報FMおよび描画点情報DRを説明するための図である。本図は、文字画像上における、書式情報FMが示す書式と、描画点情報DRが示す描画点とを示す。
本図に示すように、書式は、分類項目ごとの区画領域Pおよび文字領域Lを画定する位置および寸法等である。したがって、書式情報FMは、分類項目ごとの区画領域Pおよび文字領域Lを画定する位置情報および寸法情報を含む。なお書式情報FMは、法律、政令または省令等の法令で定められるナンバープレートの様式等に基づいて決定されてよい。
【0038】
描画点は、文字画像に含まれる文字情報に対応する図形を描画するための点である。したがって描画点情報DRは、このような描画点の位置座標を示す。ここで位置座標は、ビットマップ座標であってよい。本実施形態2で描画点情報DRは、当該図形に含まれる全ての描画点のうち、当該図形を画定する外枠および内枠を含む枠線を形成する描画点の位置座標であってよい。また描画点情報DRは、当該図形に含まれる全ての描画点のうち、当該外枠および内枠の中間点の位置座標であってもよい。このように描画点情報DRを一部の描画点の位置座標と定めることで、全ての描画点の位置座標を描画点情報データベース205に格納する場合と比べて必要なメモリ容量が最小限に抑えられる。また後述する図形の色の塗りつぶし処理が容易となる。
なお本実施形態2で描画点情報DRは、このような描画点の、区画領域Pまたは文字領域Lの代表点に対する相対的な位置座標であってよい。
【0039】
図7は、実施形態2にかかる描画点情報データベース205のデータ構造の一例を示す図である。図7(a)、(b)、(c)および(d)はそれぞれ、分類項目が「陸運支局」、「分類番号」、「用途」および「一連番号」である場合のデータ構造の一例を示す。
図7(a)~(d)に示すように、描画点情報データベース205は、分類項目と、分類項目に対応する文字情報と、分類項目に対応する区画領域Pまたは文字領域Lの代表点に対する描画点の相対的な位置座標とを関連付けて記憶する。
なお本図では描画点情報データベース205のデータ構造をテーブル形式で表したが、これに限らず、描画点の相対的な位置座標を記憶するファイルの集合体であってもよい。ファイルは、XMLファイル等のテキストファイルであってよい。なお各ファイルは、分類項目および分類項目に対応する文字情報に関連付けられてよい。
【0040】
次に画像生成装置20の学習用データ生成処理を、図9を参照しながら図8を用いて説明する。図8は、実施形態2にかかる画像生成装置20の学習用データ生成処理を示すフローチャート図である。図9は、実施形態2にかかる画像生成部201による描画方法を説明するための図である。
【0041】
まずS10において、画像生成装置20の取得部200は、分類項目ごとに、学習用データの正解ラベルとなる文字情報を取得する。このとき取得部200は、画像生成装置20の入力部(不図示)がユーザからの入力を受け付けることによって、またはネットワーク9を介してユーザ端末(不図示)から学習用データにかかる文字情報を取得してよい。このとき取得部200は、図形および背景の色を決定する車両種別情報を取得してもよい。取得部200は、分類項目、文字情報および車両種別情報等を画像生成部201に出力する。
【0042】
次にS12において、画像生成部201は、分類項目と文字情報とに基づいて、分類項目に対応する文字情報に関連付けられた描画点情報DRを記憶部204の描画点情報データベース205から取得する。また画像生成部201は、記憶部204から書式情報FMを取得する。
【0043】
次にS14において、画像生成部201は、取得した描画点情報DRおよび書式情報FMに基づいて、文字情報に対応する図形を描画し、文字画像を生成する。
ここで本実施形態2では、図9に示すように、画像生成部201は、区画領域Pまたは文字領域Lの代表点を基準として、取得した描画点情報DRに含まれる位置座標をプロットし、図形の外枠および内枠を形成する。そして画像生成部201は、図形の外枠および内枠で囲まれた領域および外枠外の背景を、車両種別情報に応じた色を用いて塗りつぶす処理を行う。画像生成部201は、.NET Frameworkの標準機能を用いて、このような塗りつぶし処理を行ってよい。そして画像生成部201は、このように生成された文字画像と分類項目ごとの文字情報とをアノテーション付与部203に出力する。
【0044】
S16において、アノテーション付与部203は、生成された文字画像に対して、図4に示すような分類項目に対応する区画領域Pまたは区画領域Pと、文字情報である正解ラベルとが関連付けられたアノテーション情報を付与する。このようにして、アノテーション付与部203は学習用データを生成する。
【0045】
そしてS18において、アノテーション付与部203は、アノテーション情報が付与された文字画像を学習用データベース206に格納する。
【0046】
なおS10において取得部200の車両種別情報の取得は、省略されてもよい。この場合画像生成部201は、S14において、分類番号Cおよび用途Uに対応する文字情報に基づいて、図形および背景の色を推定してよい。
【0047】
このように実施形態2によれば、画像生成装置20が、取得した文字情報から文字画像を生成し、生成した文字画像に対して自動でアノテーション情報を付与する。したがって画像生成装置20は、大量の文字画像を入手することができる。そして画像生成装置20は、管理者の作業負担を最小限に抑えて、文字画像に対して効率よくアノテーション情報を付与することができる。これにより、アノテーション情報が付与された学習用データを効率よく生成することができる。
【0048】
そして画像生成装置20は、図形を単なる明朝体またはゴシック体などの文字フォントを用いて生成するのではなく、予め定められた文字情報に対応する図形の描画点情報に基づいて画像を生成する。したがって生成される学習用データの文字画像を実際の文字画像に近づけることが可能となる。したがって学習対象の文字認識モデルの精度が向上する。
【0049】
また画像生成装置20は、実際に使用される様式に応じた書式情報FMに基づいて学習用データの文字画像を生成するため、学習対象の文字認識モデルの精度がさらに向上する。
【0050】
図10は、実施形態2にかかる文字認識システム2の学習処理を示すフローチャートである。
まずS20において、文字認識システム2の文字認識装置26の学習部266は、取得部260を介して学習用データベース206から学習用データを取得する。
S21において、学習部266は、文字認識モデルを取得する。
そしてS22において、学習部266は文字認識処理を行う。このとき学習部266は、学習用データの文字画像を文字認識モデルに入力し、文字認識モデルから出力された出力値を取得する。
【0051】
S23において、学習部266は、入力した文字画像に付与されたアノテーション情報に基づいて、アノテーション情報が示す正解ラベルと出力値との間の誤差を算出する。
【0052】
そしてS24において、学習部266は、学習を終了するか否かを判定する。たとえば学習部266は、パラメータの更新回数が予め定められた回数に達したか否かを判定することにより、学習を終了するか否かを判定してよい。また学習部266は、算出した誤差が閾値未満であるか否かを判定することにより、学習を終了するか否かを判定してよい。学習部266は、学習を終了する場合(S24でY)処理をS26に進め、そうでない場合(S24でN)処理をS25に進める。
【0053】
S25において、学習部266は、誤差に基づいて文字認識モデルのニューラルネットワークの各種パラメータを更新する。そして学習部266は、処理をS22に戻す。
S26において、学習部266は学習を終了し、各種パラメータおよび文字認識モデルを決定する。そして学習部266は処理を終了する。
【0054】
このように文字認識システム2の文字認識装置26の文字認識モデルは、学習用データを用いて学習することにより生成される。
なお学習用データベース206は、画像生成装置20に代えて文字認識装置26に含まれてもよい。また学習用データベース206は、文字認識システム2と通信可能に接続された他の装置(不図示)に含まれてもよい。このとき学習部266は、任意の通信手段(不図示)を介して当該他の装置から学習用データを取得してよい。
【0055】
(実施形態3)
次に本開示の実施形態3について説明する。
たとえば実際のナンバープレートにおいては、用途Uの文字情報が同一であっても、陸運支局Tに応じて用途Uの文字情報に対応する図形の形状が異なる場合がある。実施形態3では、画像生成装置20は、このように描画点情報データベース205の分類項目の描画点情報DRが他の分類項目に応じて異なることに特徴を有する。なお実施形態3の画像生成装置20は、実施形態2の画像生成装置20と同様の構成および機能を有するコンピュータ等である。ただし実施形態3の画像生成装置20は、描画点情報データベース205のデータ構造の少なくとも一部が異なる点で実施形態2の画像生成装置20と相違する。
【0056】
図11は、実施形態3にかかる描画点情報データベース205のデータ構造の一例を示す図である。本図に示すデータ構造は、図7(c)に対応するものである。なお実施形態3の描画点情報データベース205のデータ構造は、図7(a)、(b)および(d)と同様のデータ構造を有してよい。
【0057】
本図に示すように、第1の分類項目(本図では、用途U)に対応する文字情報は、第2の分類項目(本図では、陸運支局T)に対応する文字情報に応じて異なる描画点情報DRに関連付けられる。たとえば、用途Uに対応する「あ」の描画点情報DRは、陸運支局Tが「足立」である場合と「多摩」である場合とで異なってよい。
この場合、画像生成部201は、図8に示すS12において、第1の分類項目と、第1の分類項目に対応する文字情報と、第2の分類項目と、第2の分類項目に対応する文字情報とに基づいて、第1の分類項目に対応する文字情報の描画点情報DRを取得する。画像生成部201は、その他の分類項目に対応する文字情報の描画点情報DRについては、分類項目と、分類項目に対応する文字情報とに基づいて取得してよい。そして図8に示すS14において、画像生成部201は、取得した描画点情報DRおよび書式情報FMに基づいて、文字情報に対応する図形を描画し、文字画像を生成する。
【0058】
このように実施形態3によれば、画像生成装置20は、認識対象であるナンバープレートの実際の運用に沿った学習用データを生成することができる。したがって、学習対象の文字認識モデルの精度をさらに向上させることができる。
【0059】
(実施形態4)
次に図12~14を用いて、本開示の実施形態4について説明する。実施形態4は、画像生成装置30が撮像された基準文字画像から描画点情報DRを取得することに特徴を有する。図12は、実施形態4にかかる文字認識システム3の構成を示すブロック図である。実施形態4の文字認識システム3は、実施形態2~3の文字認識システム2と基本的に同様の構成および機能を有するコンピュータ等である。ただし文字認識システム3は、画像生成装置20に代えて画像生成装置30を有する点で文字認識システム2と相違する。
【0060】
画像生成装置30は、画像生成装置20と基本的に同様の構成および機能を有するコンピュータ等である。ただし画像生成装置30は、画像生成装置20の構成に加えて、描画点情報取得部308を有する。
【0061】
描画点情報取得部308は、撮像された基準文字画像を取得し、当該基準文字画像に基づいて描画点情報DRを取得する。ここで基準文字画像は、撮像装置6により撮像され、取得部200が撮像装置6または管理装置7からネットワーク9を介して取得した撮像文字画像であってよい。たとえば基準文字画像は、実際のナンバープレートの撮像文字画像であってよい。基準文字画像は、撮像文字画像のうちナンバープレート部分を正規化した正規化画像であってよい。描画点情報取得部308は、記憶部204の描画点情報データベース205に描画点情報DRを格納する。
【0062】
次に画像生成装置30の描画点情報DRの取得処理について、図14を参照しながら図13を用いて説明する。図13は、実施形態4にかかる画像生成装置30の描画点情報DRの取得処理を示すフローチャートである。また図14は、実施形態4にかかる画像生成装置30の描画点情報DRの取得処理における表示の一例を示す図である。
【0063】
S30において、描画点情報取得部308は、取得部200を介して基準文字画像を取得する。本実施形態4で基準文字画像は、図14に示すように、分類項目に対応する区画領域Pまたは文字領域Lごとに切り出された、複数の切り出し基準文字画像を含んでよい。
【0064】
S32において、描画点情報取得部308は、基準文字画像から描画点情報DRを取得する。本実施形態4で描画点情報取得部308は、複数の切り出し基準文字画像のそれぞれから描画点情報DRを取得する。たとえば描画点情報取得部308は、図14に示すように、画像生成装置30の表示装置(不図示)に指定された分類項目に対応する切り出し基準文字画像を表示させる。そして描画点情報取得部308は、表示された切り出し基準文字画像上の図形をユーザがポインティングデバイス等の入力装置(不図示)を用いてトレースしたことに応じて、その軌跡を示すパス情報を取得する。そして描画点情報取得部308は、パス情報に対応する位置座標を描画点情報DRとして取得する。
なおこれに限らず、描画点情報取得部308は、切り出し基準文字画像の画素値に基づいて描画点の位置座標を抽出し、描画点情報DRを取得してよい。このとき描画点情報取得部308は、OpenCVを用いて切り出し基準文字画像を二値化した後、画素値に基づいて描画点の位置座標を抽出し、描画点情報DRを取得してよい。
【0065】
S34において描画点情報取得部308は、取得した描画点情報DRを描画点情報データベース205に格納する。そして描画点情報取得部308は、処理を終了する。
【0066】
このように実施形態4によれば、画像生成装置30は、撮像された基準文字画像から描画点情報DRを取得し、これに基づいて学習用データの文字画像を生成する。したがって、実際の文字画像に近い文字画像を学習用データとして生成することができるため、学習対象の文字認識モデルの精度がさらに向上する。
【0067】
(実施形態5)
次に図15~20を用いて、本開示の実施形態5について説明する。文字認識装置26の文字認識モデルに入力される撮像文字画像は、撮像状況によって様々な特徴を有している。図15は、実施形態5にかかる認識対象の撮像文字画像を説明するための図である。
【0068】
ここで本図に示すように、撮像装置6は車載カメラであり、対向車のナンバープレートを撮像するものであるとする。対向車は撮像装置6から水平方向(進行方向と直交する方向)で距離dだけ離れた位置であって、撮像装置6の水平方向から見て角度θの位置に位置する。撮像装置6がこのような状況で対向車のナンバープレートを撮像した場合、撮像文字画像は、本図の右下に示すように、真正面から撮像した場合に比べてθだけひずんだ画像となる。なお撮像文字画像は、ひずみに限らず、撮像状況によって傾きおよびぶれ等を有している場合があり、また、解像度が低い場合がある。
実施形態5は、このような撮像文字画像に対する文字認識の精度を高めるために、画像生成装置40が画素値を補正した文字画像を学習用データとして生成することに特徴を有する。
【0069】
図16は、実施形態5にかかる文字認識システム4の構成を示すブロック図である。実施形態5の文字認識システム4は、実施形態4の文字認識システム3と基本的に同様の構成および機能を有するコンピュータ等である。ただし文字認識システム4は、画像生成装置30に代えて画像生成装置40を有する点で文字認識システム3と相違する。
【0070】
画像生成装置40は、画像生成装置30と基本的に同様の構成および機能を有するコンピュータ等である。ただし画像生成装置40は、画像生成装置30の構成に加えて、補正部402と抽出処理部407とを有する。
【0071】
補正部402は、画像生成部201から出力された文字画像の画素値を変換し、文字画像を補正する。補正部402は、補正した文字画像をアノテーション付与部203に出力する。なおアノテーション付与部203は、文字情報を用いて、補正された文字画像にアノテーション情報を付与し、学習用データを生成する。
【0072】
抽出処理部407は、撮像装置6が撮像し、撮像装置6または管理装置7から取得部200を介して取得した文字画像のうち、文字認識の対象領域を切り出して、正規化された基準文字画像を抽出する。そして抽出処理部407は、正規化された基準文字画像から、区画領域Pおよび文字領域Lごとに切り出し基準文字画像を生成する。抽出処理部407は、抽出した切り出し基準文字画像を描画点情報取得部308に出力する。
【0073】
図17は、実施形態5にかかる画像生成装置40の学習用データ生成処理を示すフローチャート図である。図17に示すステップは、実施形態2の図8に示すステップに加えて、S45を有する。なお、図8に示すステップと同様のステップについては、同一の記号を付して説明を省略する。
【0074】
S45において、補正部402は、S14において画像生成部201が生成した文字画像に対して、画素値を変換し、文字画像を補正する。そして補正部402は、補正した文字画像をアノテーション付与部203に出力する。
【0075】
図18は、実施形態5にかかる補正部402による補正処理を説明するための図である。
本図に示すように、本実施形態5で補正部402は、様々な画素値変換処理を行う。たとえば、図18(a)に示すように、補正部402は文字画像を所定角度だけ回転させてよい。また図18(b)に示すように、補正部402は、文字画像に含まれる図形のエッジ検出をし、図形の輪郭を強調させてよい。また図18(c)に示すように、補正部402は、文字画像の解像度を圧縮させて、輪郭を不明瞭にしてよい。また図18(d)に示すように、補正部402は、文字画像に対してひずみ補正を行ってよい。また図18(e)に示すように、補正部402は、ガウシアンフィルタ、中央値フィルタおよびバイラテラルフィルタ等のフィルタを用いて文字画像の画素値を変換してよい。また図18(f)に示すように、補正部402は、ガウシアンノイズ、インパルスノイズ等のノイズを文字画像の各画素に対して付与し、文字画像を平滑化させてよい。補正部402は、これらの処理をOpenCV等を用いたアプリケーションを用いて実行してよい。
【0076】
図19は、実施形態5にかかる抽出処理部407による抽出処理における表示の一例を示す図である。たとえば本図の左表示枠内に示すように、撮像装置6が撮像した文字画像は、対象領域(ナンバープレート)以外に背景を含む場合がある。また撮像装置6が撮像した文字画像は、文字認識モデルに入力される撮像文字画像と同様に、撮像状況によって対象領域が傾いている、またはひずんでいる場合がある。抽出処理部407は、このような文字画像に対して、文字画像の画素値を変換して、ひずみまたは傾きを補正する。そして抽出処理部407は、対象領域の位置を検出し、位置に基づいて文字画像の画素値を変換して、文字画像から対象領域だけを抽出する。なお抽出処理部407の処理は、補正部402の補正処理と同様のアルゴリズムを用いるため、補正処理と同様のアプリケーションにより容易に実装することができる。
このようにして抽出処理部407は、本図の右表示枠内に示すような、正規化された基準文字画像を抽出することができる。
【0077】
図20は、実施形態5にかかる画像生成装置40の学習用データ生成処理における表示の一例を示す。
画像生成装置40の取得部200は、画像生成装置40の表示装置(不図示)に分類項目に応じた入力画面を表示させ、ユーザからの入力を受け付けることで分類項目に対応する文字情報を取得する。
【0078】
また画像生成装置40の取得部200は、「ノイズ付与」、「回転」、「圧縮ぼかし」および「ぼかし」等の補正処理に対応する項目を選択する入力画面を表示させ、補正処理の内容を取得してよい。そして取得部200は、取得した補正処理の内容を補正部402に出力してよい。
【0079】
また取得部200は、「事業用車両」、「自家用車」、「軽自動車」、あるいは「普通車」若しくは「大型車」等の車両種別を選択する入力画面を表示させ、ユーザからの入力を受け付けることで、車両種別情報を取得してよい。
【0080】
そして画像生成装置40は、予め定められたアルゴリズムを用いて、学習用データを一括で生成してよい。このとき取得部200は、学習用データの一括生成を行うか否かをユーザに選択させる入力ボタンを表示させ、ユーザからの入力を受け付けてよい。
【0081】
なお取得部200は、学習用データ生成処理だけでなく、抽出処理および描画点情報DRの取得処理においても本表示画面を表示させてよい。本表示画面において、取得部200は、描画点情報DR取得用の文字画像を取得したことに応じて、抽出処理においてひずみまたは傾き補正を行うか否かをユーザに選択させてよい。また取得部200は、表示画面を図14に示すようなユーザに図形のトレースさせる画面に切り替えるための入力ボタンを表示させてよい。
【0082】
上述の実施形態1~5ではコンピュータは、パーソナルコンピュータやワードプロセッサ等を含むコンピュータシステムで構成される。しかしこれに限らず、コンピュータは、LAN(ローカル・エリア・ネットワーク)のサーバ、コンピュータ(パソコン)通信のホスト、インターネット上に接続されたコンピュータシステム等によって構成されることも可能である。また、ネットワーク上の各機器に機能分散させ、ネットワーク全体でコンピュータを構成することも可能である。
【0083】
なお上述の実施形態1~5では、この開示をハードウェアの構成として説明したが、この開示は、これに限定されるものではない。この開示は、上述の学習用データ生成処理、描画点情報の取得処理、抽出処理、補正処理、文字認識処理および学習処理等の各種処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより各種機能を実現することも可能である。各種機能は、取得機能(取得部に対応)、画像生成機能(画像生成部に対応)、アノテーション付与機能(アノテーション付与部に対応)、描画点情報取得機能(描画点情報取得部に対応)、補正機能(補正部に対応)又は抽出機能(抽出処理部に対応)等を含む。
【0084】
図21は、実施形態1~5にかかるコンピュータ1900の構成図の一例である。本図に示すように、コンピュータ1900は、システム全体を制御するための制御部1000を備えている。この制御部1000には、データバス等のバスラインを介して、入力装置1050、記憶装置1200、記憶媒体駆動装置1300、通信制御装置1400、および入出力I/F1500が接続されている。
【0085】
制御部1000は、プロセッサ1010と、ROM1020と、RAM1030とを備えている。
プロセッサ1010は、ROM1020や記憶装置1200等の各種記憶部に記憶されたプログラムに従って、各種の情報処理や制御を行う。
ROM1020は、プロセッサ1010が各種制御や演算を行うための各種プログラムやデータが予め格納されたリードオンリーメモリである。
【0086】
RAM1030は、プロセッサ1010にワーキングメモリとして使用されるランダムアクセスメモリである。このRAM1030には、本実施形態1~5による各種処理を行うための各種エリアが確保可能になっている。
【0087】
入力装置1050は、キーボード、マウスおよびタッチパネル等のユーザからの入力を受け付ける入力装置である。たとえばキーボードは、テンキー、各種機能を実行するための機能キーおよびカーソルキー等の各種キーが配置されている。マウスは、ポインティングデバイスであり、表示装置1100に表示されたキーやアイコン等をクリックすることで対応する機能の指定を行う入力装置である。タッチパネルは、表示装置1100の表面に配置される入力機器で、表示装置1100に画面表示された各種操作キーに対応した、ユーザのタッチ位置を特定し、当該タッチ位置に対応して表示された操作キーの入力を受け付ける。
【0088】
表示装置1100は、例えばCRTや液晶ディスプレイ等が使用される。この表示装置には、キーボードやマウスによる入力結果が表示されたり、最終的に検索されたイメージ情報が表示されたりするようになっている。また表示装置1100は、コンピュータ1900の各種機能に応じて、タッチパネルから必要な各種操作を行うための操作キーを画像表示する。
【0089】
記憶装置1200は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータ等の各種情報を読み書きするための駆動装置で構成されている。
この記憶装置1200に使用される記憶媒体は、主としてハードディスク等が使用されるが、後述の記憶媒体駆動装置1300で使用される非一時的なコンピュータ可読媒体を使用するようにしてもよい。
記憶装置1200は、データ格納部1210、プログラム格納部1220および図示しないその他の格納部(例えば、この記憶装置1200内に格納されているプログラムやデータ等をバックアップするための格納部)等を有している。プログラム格納部1220には、本実施形態1~5における各種処理を実現するためのプログラムが格納されている。データ格納部1210には、本実施形態1~5にかかる各種データベースの各種データを格納する。
【0090】
記憶媒体駆動装置1300は、プロセッサ1010が外部の記憶媒体(外部記憶媒体)からコンピュータプログラムや文書を含むデータ等を読み込むための駆動装置である。
ここで、外部記憶媒体とは、コンピュータプログラムやデータ等が記憶される非一時的なコンピュータ可読媒体をいう。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また各種プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路並びに記憶媒体駆動装置1300を介して、各種プログラムをコンピュータに供給できる。
【0091】
つまりコンピュータ1900は、制御部1000のプロセッサ1010が、記憶媒体駆動装置1300にセットされた外部の記憶媒体から各種プログラムを読み込んで、記憶装置1200の各部に格納する。
【0092】
そして、コンピュータ1900が各種処理を実行する場合、記憶装置1200から該当プログラムをRAM1030に読み込み、実行するようになっている。但しコンピュータ1900は、記憶装置1200からではなく、記憶媒体駆動装置1300により外部の記憶媒体から直接RAM1030にプログラムを読み込んで実行することも可能である。また、コンピュータによっては各種プログラム等を予めROM1020に記憶させておき、これをプロセッサ1010が実行するようにしてもよい。さらに、コンピュータ1900は、各種プログラムやデータを、通信制御装置1400を介して他の記憶媒体からダウンロードし、実行するようにしてもよい。
【0093】
通信制御装置1400は、コンピュータ1900と他のパーソナルコンピュータやワードプロセッサ等の各種外部電子機器との間をネットワーク接続するための制御装置である。通信制御装置1400は、これら各種外部電子機器からコンピュータ1900にアクセスすることを可能とする。
【0094】
入出力I/F1500は、パラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を接続するためのインターフェースである。
【0095】
なお、プロセッサ1010として、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)、DSP(digital signal processor)およびASIC(application specific integrated circuit)等が用いられてもよい。また、これらのうち複数個を並列に用いてもよい。
【0096】
特許請求の範囲、明細書、および図面中において示したシステムおよび方法における各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのではない限り、任意の順序で実現しうる。特許請求の範囲、明細書および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順序で実施することが必須であることを意味するものではない。
【0097】
なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。また、上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
文字情報を取得する取得機能と、
前記文字情報から前記文字情報に対応する図形を含む文字画像を生成する画像生成機能と、
前記文字情報を用いて、前記文字画像にアノテーション情報を付与し、学習用データを生成するアノテーション付与機能と、
をコンピュータに実現させるための画像生成プログラム。
(付記2)
前記画像生成機能は、前記文字情報に関連付けられた描画点情報に基づいて、前記文字画像を生成する機能を含む、
付記1に記載の画像生成プログラム。
(付記3)
前記文字情報は、第1の分類項目に対応する文字情報と、第2の分類項目に対応する文字情報とを有し、
前記第1の分類項目に対応する文字情報は、前記第2の分類項目に対応する文字情報に応じて異なる描画点情報に関連付けられる、
付記2に記載の画像生成プログラム。
(付記4)
撮像された基準文字画像に基づいて前記描画点情報を取得する描画点情報取得機能をさらに前記コンピュータに実現させる、
付記2または3のいずれか一項に記載の画像生成プログラム。
(付記5)
前記文字画像の画素値を変換し、前記文字画像を補正する補正機能をさらに前記コンピュータに実現させ、
前記アノテーション付与機能は、前記文字情報を用いて、補正された前記文字画像にアノテーション情報を付与し、学習用データを生成する機能を含む、
付記1から4のいずれか一項に記載の画像生成プログラム。
(付記6)
文字情報を取得する取得部と、前記文字情報から前記文字情報に対応する図形を含む文字画像を生成する画像生成部と、前記文字情報を用いて、前記文字画像にアノテーション情報を付与し、学習用データを生成するアノテーション付与部とを有する画像生成装置と、
前記画像生成装置により生成された前記学習用データを用いて学習した文字認識モデルを用いて、入力された文字画像に含まれる文字情報を認識する文字認識装置と、
を備える文字認識システム。
(付記7)
前記画像生成部は、前記文字情報に関連付けられた描画点情報に基づいて、前記文字画像を生成する、
付記6に記載の文字認識システム。
(付記8)
文字情報を取得する段階と、
前記文字情報から前記文字情報に対応する図形を含む文字画像を生成する段階と、
前記文字情報を用いて、前記文字画像にアノテーション情報を付与し、学習用データを生成する段階と、
を備える画像生成方法。
(付記9)
文字情報を取得する取得部と、
前記文字情報から前記文字情報に対応する図形を含む文字画像を生成する画像生成部と、
前記文字情報を用いて、前記文字画像にアノテーション情報を付与し、学習用データを生成するアノテーション付与部と、
を備える画像生成装置。
(付記10)
前記画像生成部は、前記文字情報に関連付けられた描画点情報に基づいて、前記文字画像を生成する、
付記9に記載の画像生成装置。
(付記11)
文字情報を用いて生成されるアノテーション情報であって、撮像された入力画像に基づいて、前記入力画像に含まれる文字情報を出力する文字認識モデルの学習処理に用いられる、アノテーション情報と、
前記文字情報に関連付けられた描画点情報に基づいて生成される、前記文字情報に対応する図形を含む文字画像であって、前記文字認識モデルの学習処理に用いられる、文字画像と、
を備えるデータ構造。
(付記12)
撮像された文字画像に基づいて、前記撮像された文字画像に含まれる文字情報を出力する機能をコンピュータに実現させるための学習済みの文字認識モデルであって、
コンピュータが、
文字情報を取得し、
前記文字情報から前記文字情報に対応する図形を含む文字画像を生成し、
前記文字情報を用いて、前記文字画像にアノテーション情報を付与することで学習用データを生成し、
前記学習用データを用いて学習することにより生成された、
文字認識モデル。
【符号の説明】
【0098】
1 管理システム、2,3,4 文字認識システム、6 撮像装置、7 管理装置、9 ネットワーク、20,30,40 画像生成装置、26 文字認識装置、100,200,260 取得部、101,201 画像生成部、103,203 アノテーション付与部、204 記憶部、205 描画点情報データベース、206 学習用データベース、262 文字認識部、264 出力部、266 学習部、308 描画点情報取得部、402 補正部、407 抽出処理部、T 陸運支局、C 分類番号、U 用途、S 一連番号、L 文字領域、P 区画領域、FM 書式情報、DR 描画点情報、1010 プロセッサ、1020 ROM、1030 RAM、1050 入力装置、1100 表示装置、1200 記憶装置、1210 データ格納部、1220 プログラム格納部、1300 記憶媒体駆動装置、1400 通信制御装置、1500 入出力I/F、1900 コンピュータ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21