特開2025-6464 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ自動車株式会社の特許一覧

特開2025-6464文字認識装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025006464

(43)【公開日】2025-01-17

(54)【発明の名称】文字認識装置

(51)【国際特許分類】

G06V 30/16 20220101AFI20250109BHJP

【ＦＩ】

G06V30/16

【審査請求】未請求

【請求項の数】1

【出願形態】ＯＬ

(21)【出願番号】P 2023107277

(22)【出願日】2023-06-29

(71)【出願人】

【識別番号】000003207

【氏名又は名称】トヨタ自動車株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】大塚雄一郎

(72)【発明者】

【氏名】竹内伸一

(72)【発明者】

【氏名】田端淳

(72)【発明者】

【氏名】則竹真吾

(72)【発明者】

【氏名】柳川涼

(72)【発明者】

【氏名】桑島豊

【テーマコード（参考）】

5B029

【Ｆターム（参考）】

5B029EE05

(57)【要約】（修正有）

【課題】曲面に記載された文字を精度よく認識する文字認識装置を提供する。
【解決手段】文字認識装置１０は、文字認識の対象とする画像データの入力を受け付ける画像入力部１０１と、画像から少なくとも１以上の放物線を読み取る放物線読取部１０２と、放物線に基づいて画像を補正する画像補正部１０３と、画像補正部により補正された画像に基づいて平面上に文字列が作成された画像を出力する画像出力部１０４と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

曲面に近接配置された文字列を撮像した画像から前記文字列を認識する文字認識装置であって、
前記画像から少なくとも１以上の放物線を読み取る放物線読取部と、
前記放物線に基づいて前記画像を補正する画像補正部と、
前記画像補正部により補正された前記画像に基づいて平面上に前記文字列が作成された画像を出力する画像出力部と、
を備える文字認識装置。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、文字認識装置に関する。

【背景技術】

【0002】

画像に対する文字認識を行う技術が知られている。例えば特許文献１には、連続筆記する場合に、文字データに基づき入力文字の大きさを所定の大きさと比較することで、各文字を正確に切り出し、グループ化する発明が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１２－１０３７５５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来技術では、曲面に記載された文字列を読み取ることは困難である。曲面に記載された文字を二次元化して画像処理する場合、読み取られた文字列が直線状に並ぶことが少ないことが一因である。

【0005】

本開示は、上記のような技術的課題に鑑みて、曲面に記載された文字を精度よく認識することを目的とする。

【課題を解決するための手段】

【0006】

本開示の一態様による文字認識装置は、曲面に近接配置された文字列を撮像した画像から文字列を認識する文字認識装置であって、画像から少なくとも１以上の放物線を読み取る放物線読取部と、放物線に基づいて画像を補正する画像補正部と、画像補正部により補正された画像に基づいて平面上に文字列が作成された画像を出力する画像出力部と、を備える。

【発明の効果】

【0007】

本開示の一態様によれば、曲面に記載された文字を精度よく認識することができる。

【図面の簡単な説明】

【0008】

【図1】文字認識装置の機能構成の一例を示すブロック図である。

【図2】文字認識方法の一例を示すフローチャートである。

【図3】画像の一例を示す図である。

【発明を実施するための形態】

【0009】

以下、本開示の各実施形態について添付の図面を参照しながら説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。

【0010】

本開示の一実施形態は、機械学習を用いて、文字列を撮像した画像からその文字列を認識する文字認識装置である。文字認識装置は、曲面に近接配置された文字列を撮像した画像を示す画像データが入力されると、画像から少なくとも１以上の放物線を読み取り、その放物線に基づいて画像に含まれる複数の文字（文字列）が横一列に並ぶように画像を補正する。その後、文字認識装置は、画像中の画素を個々の黒いかたまりに分別し、各かたまりの上端点と下端点とを見つけ、見つけた点群データを楕円フィッティングすることで、文字の並びを検出し、平面上に文字列を作成した画像を出力する。

【0011】

図１は、文字認識装置の機能構成の一例を示すブロック図である。図１に示されるように、文字認識装置１０は、画像入力部１０１、放物線読取部１０２、画像補正部１０３及び画像出力部１０４を備える。

【0012】

画像入力部１０１は、文字認識の対象とする画像データの入力を受け付ける。画像データには、曲面に近接配置された文字列を撮像した画像が示されている。具体的には、文字列（例えば、メーカー名及び／又は型番等）が記載された曲面を有する部品を撮像した画像である。画像は、部品の種類ごとに撮影の向きが統一されているとよい。

【0013】

放物線読取部１０２は、画像入力部１０１に入力された画像データから少なくとも１以上の放物線を読み取る。放物線読取部１０２は、予め部品の種類が設定されており、部品の種類に応じて予め定められた領域から放物線を読み取ってもよい。複数の放物線を読み取った場合、放物線読取部１０２は、それらの曲率を平均化してもよいし、それらのうち１つの放物線を単独で使用してもよい。

【0014】

画像補正部１０３は、放物線読取部１０２により読み取られた放物線に基づいて、画像入力部１０１に入力された画像を補正する。具体的には、画像補正部１０３は、放物線が直線上になるように画像を補正する。補正後の画像には、曲面に近接配置された文字列が横一列に並ぶことになる。

【0015】

画像出力部１０４は、画像補正部１０３により補正された画像から文字列を認識する。画像出力部１０４は、部品の大きさに応じて予め定めた閾値より大きい文字を認識対象から除外してもよい。画像出力部１０４は、認識した文字列を楕円フィッティングし、楕円上の画像を平面に伸ばしたときの画像を補間画像で生成する。画像出力部１０４は、認識した文字列が平面上に作成された画像を出力する。

【0016】

画像出力部１０４は、画像中で曲面上に文字列が並んでいる性質を利用して、径が略等しい複数の楕円を用いて楕円フィッティングを行ってもよい。また、画像出力部１０４は、曲面が左右対称であるという性質を利用して、左右に略対称な複数の楕円を用いて楕円フィッティングを行ってもよい。

【0017】

図２は、文字認識装置１０が実行する文字認識方法の一例を示すフローチャートである。以下、本実施形態における文字認識方法について、図２を参照しながら具体的に説明する。

【0018】

ステップＳ１において、文字認識装置１０は、認識対象とする画像データの入力を受け付ける。図３（Ａ）は、認識対象とする画像の一例である。図３（Ａ）に示した画像１００は、スパークプラグを撮像した画像の一例である。なお、部品はスパークプラグに限定されるものではなく、例えばオイルフィルターやセンサー等であってもよい。画像１００には、ガイシ部１１０とラベル部１２０とが含まれる。ガイシ部１１０は、スパークプラグのガイシが撮像された領域である。ラベル部１２０は、認識対象とするラベルが撮像された領域である。

【0019】

ステップＳ２において、文字認識装置１０は、ガイシ部１１０の検出処理を行う。ステップＳ３において、文字認識装置１０は、ガイシ部１１０の画像及びラベル部１２０の画像を切り出す処理を行う。

【0020】

図３（Ｂ）は、ガイシ部１１０を切り出した画像の一例である。図３（Ｂ）に示されるように、ガイシ部１１０には放物線状の曲線１１１が複数撮像されている。

【0021】

図３（Ｃ）は、ラベル部１２０を切り出した画像の一例である。図３（Ｃ）に示されるように、ラベル部１２０には部品の曲面に記載された文字列１２１が撮像されている。ここで、文字列１２１は放物線状に並んでいる。

【0022】

ステップＳ４において、文字認識装置１０は、ステップＳ３で切り出したガイシ部１１０の画像を用いて放物線で近似処理を行う。ステップＳ５において、文字認識装置１０は、ステップＳ４で近似した放物線を用いてラベル部１２０の画像の補正処理を行う。文字認識装置１０は、ガイシ部１１０の画像から読み取った放物線が直線状になるようにラベル部１２０の画像を補正する。これにより、文字認識装置１０は、文字列１２１が横一列に並んだ画像を得られる。文字認識装置１０は、放物線を用いて近似することで、精度よく画像を補正することができる。

【0023】

ステップＳ６において、文字認識装置１０は、画像の二値化処理を行う。ステップＳ７において、文字認識装置１０は、輪郭抽出処理及び外接矩形の取得処理を行う。これらの処理は、公知の画像処理により行うことができる。

【0024】

ステップＳ８において、文字認識装置１０は、外接矩形を文字とみなす処理を行う。このとき、文字認識装置１０は、ステップＳ７で取得した外接矩形のうち、ラベル部１２０の面積と比較して予め定めた閾値よりも小さい外接矩形のみを文字とみなす。例えば、ラベル部１２０の外縁に位置する外接矩形は部品の影となり大きなひとつながりの領域となっている場合がある。この場合、外接矩形から文字を認識することができないため、当該外接矩形は認識対象から除外する。

【0025】

ステップＳ９において、文字認識装置１０は、文字の位置関係を基に隣り合う文字を連続とみなす処理を行う。２つの文字が連続しているとみなす条件は、以下の２つの条件を満たすことである。第１の条件は、Ａを左側の文字の右端と右側の文字の左端との距離（すなわち、左側の文字と右側の文字との間隔）とし、Ｂを左側の文字の左端と右側の文字の右端との距離（すなわち、２つの文字が含まれる範囲の幅）とし、Ａ／Ｂ＜閾値１が真であることである。閾値１は、例えば０．５でもよい。第２の条件は、Ｃを一方の文字の上端と他方の文字の下端との距離のうち短い方とし、Ｄを一方の文字の上端と他方の文字の下端との距離のうち長い方とし、Ｃ／Ｄ＞閾値２が真であることである。閾値２は、例えば０．８でもよい。

【0026】

従来、隣り合う文字を連続とみなす処理では、閾値１を０．２程度とし、閾値２を０．５程度としていた。本実施形態では、放物線を用いて画像を補正するため、閾値２を従来よりも大きくすることができる。従来技術では、横の距離が離れていると（Ａ／Ｂが大きいと）、上下の位置関係の差が大きくなる（Ｃ／Ｄが小さくなる）ため、文字の並びを正しく判定することができなかった。放物線を用いて画像を補正することで上下位置が近くなる（Ｃ／Ｄが大きくなる）ため、横の距離が離れていても（Ａ／Ｂが大きくても）文字の並びを正しく判定することができる。

【0027】

ステップＳ１０において、文字認識装置１０は、外接矩形の位置関係に基づいて文字のかたまりを生成する。図３（Ｄ）に示す画像１２０Ａは、ラベル部１２０から文字のかたまりを取得した画像の一例である。次に、文字認識装置１０は、文字のかたまりの上端点と下端点とを取得する。図３（Ｅ）に示す画像１２０Ｂは、文字のかたまり毎に上端点と下端点とを取得した画像の一例である。

【0028】

ステップＳ１１において、文字認識装置１０は、ステップＳ５で行った放物線補正の逆補正により、ステップＳ１０で取得した点を補正前の点に戻す処理を行う。これにより、文字のかたまりの上端点と下端点とが補正前の位置に逆補正される。

【0029】

ステップＳ１２において、文字認識装置１０は、文字のかたまり毎に上端点で楕円フィッティングする処理を行う。ステップＳ１３において、文字認識装置１０は、文字のかたまり毎に下端点で楕円フィッティングする処理を行う。図３（Ｆ）に示す画像１２０Ｃは、文字のかたまりの上端点と下端点とを楕円フィッティングした画像の一例である。図３（Ｆ）に示されるように、ステップＳ１２及びステップＳ１３では、楕円の上半分が文字のかたまりの上端点又は下端点を通るようにフィッティングする。

【0030】

ステップＳ１４において、文字認識装置１０は、ステップＳ１２及びステップＳ１３の近似で得た楕円をまとめて再度楕円フィッティングする。このとき、文字認識装置１０は、すべての楕円について、中心点のｘ座標が同一であり、かつ、長径が同一であるという仮定の下でフィッティングを行う。

【0031】

ステップＳ１５において、文字認識装置１０は、ステップＳ１４で推定した楕円でラベル部１２０の画像を補正する。具体的には、文字認識装置１０は、上端点を通る上側の楕円と下端点を通る下側の楕円とにより形成される円柱の側面（曲面）を長方形（平面）に補間（画像補正）した画像を生成する。

【0032】

より具体的には、文字認識装置１０は、以下のように画像補正を行う。平面の寸法をＷ×Ｈとする。Ｗは、上側の楕円の周長の半分の近似である。Ｈは上側の楕円と下側の楕円との距離であり、円柱の高さに相当する。この円柱は、Ａ１を上側の楕円の長径半径とし、Ａ２を下側の楕円の長径半径とし、Ｂ１を上側の楕円の短径半径とし、Ｂ２を下側の楕円の短径半径とし、（Ｃｘ１，Ｃｙ１）を上側の楕円の中心座標とし、（Ｃｘ２，Ｃｙ２）を下側の楕円の中心座標とし、Ｂ１＝Ｂ２、Ａ１＝Ａ２、Ｃｘ１＝Ｃｘ２がすべて成り立つものとする。この平面におけるすべてのドット（Ｘ，Ｙ）に円柱表面から画素をコピーする。

【0033】

まず、θ＝πＸ／Ｙにより、Ｘからθを求める。これにより、Ｘに対応する円柱表面の高さ方向の直線の位置がわかる。次に、直線をＨ：Ｈ－Ｙに内分する点を特定する。続いて、特定した点の色を検出する。なお、色は４近傍の画素値から補間すればよい。仮に円柱表面の点が整数の座標でない場合、４近傍の画素値から双線形補間で色を求めればよい。そして、平面のドット（Ｘ，Ｙ）の色を円柱表面で特定した点の色とする。これにより、円柱表面の画像を平面に伸ばした補間画像が得られる。

【0034】

ステップＳ１６において、文字認識装置１０は、ステップＳ１５で生成した画像を出力する。出力画像には、ステップＳ１５で認識した文字列が平面上に作成されている。出力画像には、文字列が直線状に並べられているため、出力画像に基づけば光学文字認識（ＯＣＲ）等で正しく文字列を認識することができる。

【0035】

以上、本発明の実施の形態について詳述したが、本発明はこれらの実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形又は変更が可能である。

【符号の説明】

【0036】

１０文字認識装置
１０１画像入力部
１０２放物線読取部
１０３画像補正部
１０４画像出力部

【図1】

【図2】

【図3】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版