IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ自動車株式会社の特許一覧

<>
  • 特開-文字認識装置 図1
  • 特開-文字認識装置 図2
  • 特開-文字認識装置 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025006464
(43)【公開日】2025-01-17
(54)【発明の名称】文字認識装置
(51)【国際特許分類】
   G06V 30/16 20220101AFI20250109BHJP
【FI】
G06V30/16
【審査請求】未請求
【請求項の数】1
【出願形態】OL
(21)【出願番号】P 2023107277
(22)【出願日】2023-06-29
(71)【出願人】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】大塚 雄一郎
(72)【発明者】
【氏名】竹内 伸一
(72)【発明者】
【氏名】田端 淳
(72)【発明者】
【氏名】則竹 真吾
(72)【発明者】
【氏名】柳川 涼
(72)【発明者】
【氏名】桑島 豊
【テーマコード(参考)】
5B029
【Fターム(参考)】
5B029EE05
(57)【要約】      (修正有)
【課題】曲面に記載された文字を精度よく認識する文字認識装置を提供する。
【解決手段】文字認識装置10は、文字認識の対象とする画像データの入力を受け付ける画像入力部101と、画像から少なくとも1以上の放物線を読み取る放物線読取部102と、放物線に基づいて画像を補正する画像補正部103と、画像補正部により補正された画像に基づいて平面上に文字列が作成された画像を出力する画像出力部104と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
曲面に近接配置された文字列を撮像した画像から前記文字列を認識する文字認識装置であって、
前記画像から少なくとも1以上の放物線を読み取る放物線読取部と、
前記放物線に基づいて前記画像を補正する画像補正部と、
前記画像補正部により補正された前記画像に基づいて平面上に前記文字列が作成された画像を出力する画像出力部と、
を備える文字認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、文字認識装置に関する。
【背景技術】
【0002】
画像に対する文字認識を行う技術が知られている。例えば特許文献1には、連続筆記する場合に、文字データに基づき入力文字の大きさを所定の大きさと比較することで、各文字を正確に切り出し、グループ化する発明が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2012-103755号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術では、曲面に記載された文字列を読み取ることは困難である。曲面に記載された文字を二次元化して画像処理する場合、読み取られた文字列が直線状に並ぶことが少ないことが一因である。
【0005】
本開示は、上記のような技術的課題に鑑みて、曲面に記載された文字を精度よく認識することを目的とする。
【課題を解決するための手段】
【0006】
本開示の一態様による文字認識装置は、曲面に近接配置された文字列を撮像した画像から文字列を認識する文字認識装置であって、画像から少なくとも1以上の放物線を読み取る放物線読取部と、放物線に基づいて画像を補正する画像補正部と、画像補正部により補正された画像に基づいて平面上に文字列が作成された画像を出力する画像出力部と、を備える。
【発明の効果】
【0007】
本開示の一態様によれば、曲面に記載された文字を精度よく認識することができる。
【図面の簡単な説明】
【0008】
図1】文字認識装置の機能構成の一例を示すブロック図である。
図2】文字認識方法の一例を示すフローチャートである。
図3】画像の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、本開示の各実施形態について添付の図面を参照しながら説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。
【0010】
本開示の一実施形態は、機械学習を用いて、文字列を撮像した画像からその文字列を認識する文字認識装置である。文字認識装置は、曲面に近接配置された文字列を撮像した画像を示す画像データが入力されると、画像から少なくとも1以上の放物線を読み取り、その放物線に基づいて画像に含まれる複数の文字(文字列)が横一列に並ぶように画像を補正する。その後、文字認識装置は、画像中の画素を個々の黒いかたまりに分別し、各かたまりの上端点と下端点とを見つけ、見つけた点群データを楕円フィッティングすることで、文字の並びを検出し、平面上に文字列を作成した画像を出力する。
【0011】
図1は、文字認識装置の機能構成の一例を示すブロック図である。図1に示されるように、文字認識装置10は、画像入力部101、放物線読取部102、画像補正部103及び画像出力部104を備える。
【0012】
画像入力部101は、文字認識の対象とする画像データの入力を受け付ける。画像データには、曲面に近接配置された文字列を撮像した画像が示されている。具体的には、文字列(例えば、メーカー名及び/又は型番等)が記載された曲面を有する部品を撮像した画像である。画像は、部品の種類ごとに撮影の向きが統一されているとよい。
【0013】
放物線読取部102は、画像入力部101に入力された画像データから少なくとも1以上の放物線を読み取る。放物線読取部102は、予め部品の種類が設定されており、部品の種類に応じて予め定められた領域から放物線を読み取ってもよい。複数の放物線を読み取った場合、放物線読取部102は、それらの曲率を平均化してもよいし、それらのうち1つの放物線を単独で使用してもよい。
【0014】
画像補正部103は、放物線読取部102により読み取られた放物線に基づいて、画像入力部101に入力された画像を補正する。具体的には、画像補正部103は、放物線が直線上になるように画像を補正する。補正後の画像には、曲面に近接配置された文字列が横一列に並ぶことになる。
【0015】
画像出力部104は、画像補正部103により補正された画像から文字列を認識する。画像出力部104は、部品の大きさに応じて予め定めた閾値より大きい文字を認識対象から除外してもよい。画像出力部104は、認識した文字列を楕円フィッティングし、楕円上の画像を平面に伸ばしたときの画像を補間画像で生成する。画像出力部104は、認識した文字列が平面上に作成された画像を出力する。
【0016】
画像出力部104は、画像中で曲面上に文字列が並んでいる性質を利用して、径が略等しい複数の楕円を用いて楕円フィッティングを行ってもよい。また、画像出力部104は、曲面が左右対称であるという性質を利用して、左右に略対称な複数の楕円を用いて楕円フィッティングを行ってもよい。
【0017】
図2は、文字認識装置10が実行する文字認識方法の一例を示すフローチャートである。以下、本実施形態における文字認識方法について、図2を参照しながら具体的に説明する。
【0018】
ステップS1において、文字認識装置10は、認識対象とする画像データの入力を受け付ける。図3(A)は、認識対象とする画像の一例である。図3(A)に示した画像100は、スパークプラグを撮像した画像の一例である。なお、部品はスパークプラグに限定されるものではなく、例えばオイルフィルターやセンサー等であってもよい。画像100には、ガイシ部110とラベル部120とが含まれる。ガイシ部110は、スパークプラグのガイシが撮像された領域である。ラベル部120は、認識対象とするラベルが撮像された領域である。
【0019】
ステップS2において、文字認識装置10は、ガイシ部110の検出処理を行う。ステップS3において、文字認識装置10は、ガイシ部110の画像及びラベル部120の画像を切り出す処理を行う。
【0020】
図3(B)は、ガイシ部110を切り出した画像の一例である。図3(B)に示されるように、ガイシ部110には放物線状の曲線111が複数撮像されている。
【0021】
図3(C)は、ラベル部120を切り出した画像の一例である。図3(C)に示されるように、ラベル部120には部品の曲面に記載された文字列121が撮像されている。ここで、文字列121は放物線状に並んでいる。
【0022】
ステップS4において、文字認識装置10は、ステップS3で切り出したガイシ部110の画像を用いて放物線で近似処理を行う。ステップS5において、文字認識装置10は、ステップS4で近似した放物線を用いてラベル部120の画像の補正処理を行う。文字認識装置10は、ガイシ部110の画像から読み取った放物線が直線状になるようにラベル部120の画像を補正する。これにより、文字認識装置10は、文字列121が横一列に並んだ画像を得られる。文字認識装置10は、放物線を用いて近似することで、精度よく画像を補正することができる。
【0023】
ステップS6において、文字認識装置10は、画像の二値化処理を行う。ステップS7において、文字認識装置10は、輪郭抽出処理及び外接矩形の取得処理を行う。これらの処理は、公知の画像処理により行うことができる。
【0024】
ステップS8において、文字認識装置10は、外接矩形を文字とみなす処理を行う。このとき、文字認識装置10は、ステップS7で取得した外接矩形のうち、ラベル部120の面積と比較して予め定めた閾値よりも小さい外接矩形のみを文字とみなす。例えば、ラベル部120の外縁に位置する外接矩形は部品の影となり大きなひとつながりの領域となっている場合がある。この場合、外接矩形から文字を認識することができないため、当該外接矩形は認識対象から除外する。
【0025】
ステップS9において、文字認識装置10は、文字の位置関係を基に隣り合う文字を連続とみなす処理を行う。2つの文字が連続しているとみなす条件は、以下の2つの条件を満たすことである。第1の条件は、Aを左側の文字の右端と右側の文字の左端との距離(すなわち、左側の文字と右側の文字との間隔)とし、Bを左側の文字の左端と右側の文字の右端との距離(すなわち、2つの文字が含まれる範囲の幅)とし、A/B<閾値1が真であることである。閾値1は、例えば0.5でもよい。第2の条件は、Cを一方の文字の上端と他方の文字の下端との距離のうち短い方とし、Dを一方の文字の上端と他方の文字の下端との距離のうち長い方とし、C/D>閾値2が真であることである。閾値2は、例えば0.8でもよい。
【0026】
従来、隣り合う文字を連続とみなす処理では、閾値1を0.2程度とし、閾値2を0.5程度としていた。本実施形態では、放物線を用いて画像を補正するため、閾値2を従来よりも大きくすることができる。従来技術では、横の距離が離れていると(A/Bが大きいと)、上下の位置関係の差が大きくなる(C/Dが小さくなる)ため、文字の並びを正しく判定することができなかった。放物線を用いて画像を補正することで上下位置が近くなる(C/Dが大きくなる)ため、横の距離が離れていても(A/Bが大きくても)文字の並びを正しく判定することができる。
【0027】
ステップS10において、文字認識装置10は、外接矩形の位置関係に基づいて文字のかたまりを生成する。図3(D)に示す画像120Aは、ラベル部120から文字のかたまりを取得した画像の一例である。次に、文字認識装置10は、文字のかたまりの上端点と下端点とを取得する。図3(E)に示す画像120Bは、文字のかたまり毎に上端点と下端点とを取得した画像の一例である。
【0028】
ステップS11において、文字認識装置10は、ステップS5で行った放物線補正の逆補正により、ステップS10で取得した点を補正前の点に戻す処理を行う。これにより、文字のかたまりの上端点と下端点とが補正前の位置に逆補正される。
【0029】
ステップS12において、文字認識装置10は、文字のかたまり毎に上端点で楕円フィッティングする処理を行う。ステップS13において、文字認識装置10は、文字のかたまり毎に下端点で楕円フィッティングする処理を行う。図3(F)に示す画像120Cは、文字のかたまりの上端点と下端点とを楕円フィッティングした画像の一例である。図3(F)に示されるように、ステップS12及びステップS13では、楕円の上半分が文字のかたまりの上端点又は下端点を通るようにフィッティングする。
【0030】
ステップS14において、文字認識装置10は、ステップS12及びステップS13の近似で得た楕円をまとめて再度楕円フィッティングする。このとき、文字認識装置10は、すべての楕円について、中心点のx座標が同一であり、かつ、長径が同一であるという仮定の下でフィッティングを行う。
【0031】
ステップS15において、文字認識装置10は、ステップS14で推定した楕円でラベル部120の画像を補正する。具体的には、文字認識装置10は、上端点を通る上側の楕円と下端点を通る下側の楕円とにより形成される円柱の側面(曲面)を長方形(平面)に補間(画像補正)した画像を生成する。
【0032】
より具体的には、文字認識装置10は、以下のように画像補正を行う。平面の寸法をW×Hとする。Wは、上側の楕円の周長の半分の近似である。Hは上側の楕円と下側の楕円との距離であり、円柱の高さに相当する。この円柱は、A1を上側の楕円の長径半径とし、A2を下側の楕円の長径半径とし、B1を上側の楕円の短径半径とし、B2を下側の楕円の短径半径とし、(Cx1,Cy1)を上側の楕円の中心座標とし、(Cx2,Cy2)を下側の楕円の中心座標とし、B1=B2、A1=A2、Cx1=Cx2がすべて成り立つものとする。この平面におけるすべてのドット(X,Y)に円柱表面から画素をコピーする。
【0033】
まず、θ=πX/Yにより、Xからθを求める。これにより、Xに対応する円柱表面の高さ方向の直線の位置がわかる。次に、直線をH:H-Yに内分する点を特定する。続いて、特定した点の色を検出する。なお、色は4近傍の画素値から補間すればよい。仮に円柱表面の点が整数の座標でない場合、4近傍の画素値から双線形補間で色を求めればよい。そして、平面のドット(X,Y)の色を円柱表面で特定した点の色とする。これにより、円柱表面の画像を平面に伸ばした補間画像が得られる。
【0034】
ステップS16において、文字認識装置10は、ステップS15で生成した画像を出力する。出力画像には、ステップS15で認識した文字列が平面上に作成されている。出力画像には、文字列が直線状に並べられているため、出力画像に基づけば光学文字認識(OCR)等で正しく文字列を認識することができる。
【0035】
以上、本発明の実施の形態について詳述したが、本発明はこれらの実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形又は変更が可能である。
【符号の説明】
【0036】
10 文字認識装置
101 画像入力部
102 放物線読取部
103 画像補正部
104 画像出力部
図1
図2
図3