IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 新日鐵住金株式会社の特許一覧

<>
  • 特開-文字認識装置及び文字認識方法 図1
  • 特開-文字認識装置及び文字認識方法 図2
  • 特開-文字認識装置及び文字認識方法 図3
  • 特開-文字認識装置及び文字認識方法 図4
  • 特開-文字認識装置及び文字認識方法 図5
  • 特開-文字認識装置及び文字認識方法 図6
  • 特開-文字認識装置及び文字認識方法 図7
  • 特開-文字認識装置及び文字認識方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023143387
(43)【公開日】2023-10-06
(54)【発明の名称】文字認識装置及び文字認識方法
(51)【国際特許分類】
   G06V 30/16 20220101AFI20230928BHJP
   G06V 30/40 20220101ALI20230928BHJP
   G06T 3/00 20060101ALI20230928BHJP
【FI】
G06V30/16
G06V30/40
G06T3/00 710
【審査請求】未請求
【請求項の数】2
【出願形態】OL
(21)【出願番号】P 2022050722
(22)【出願日】2022-03-25
(71)【出願人】
【識別番号】000006655
【氏名又は名称】日本製鉄株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】伊勢 淳治
(72)【発明者】
【氏名】福田 多一郎
【テーマコード(参考)】
5B029
5B057
【Fターム(参考)】
5B029AA01
5B029EE04
5B057AA01
5B057BA02
5B057CD01
5B057CD12
(57)【要約】
【課題】対象物と撮像部との位置関係が、対象物毎に一定とならない場合にも、製品の表面に表示された文字を文字認識できるようにする文字認識装置及び文字認識方法を提供する。
【解決手段】対象物の表面に表示された文字を認識しようとする際に、対象物と撮像部との位置関係が、対象物毎に一定とならずばらつく状態にあったとしても、認識すべき文字が撮像された撮像画像を、一旦文字認識し、結果として得られる認識が容易な文字の矩形情報に基づいて、横方向に対応する2直線と縦方向に対応する2直線とを取得し、それら4つの直線に基づいて、撮像画像を正面から見るように変換した後に、再度文字認識をすることで、高精度に文字の種類を認識することで、文字認識を高精度に行えるようにする。
【選択図】図6
【特許請求の範囲】
【請求項1】
対象物の表面に表示された文字を認識する文字認識装置であって、
前記対象物との位置関係が一定でない状態下で、前記対象物の表面を撮像して撮像画像を生成する撮像部と、
前記撮像画像に基づいて、前記対象物の表面に表示された文字を認識する演算処理部と、
を有し、
前記演算処理部は、
前記撮像画像に基づいて文字認識を行う第1文字認識部と、
前記第1文字認識部による文字認識で認識された矩形情報に基づいて、前記対象物の表面に表示された文字の横方向に対応する直線と、前記対象物の表面に表示された文字の縦方向に対応する直線とを取得する、直線取得部と、
前記直線取得部で取得した前記横方向に対応する直線と前記縦方向に対応する直線とに基づいて、前記対象物の表面に表示された文字を正面から見るように前記撮像画像を変換した変換画像を生成する正対変換部と、
前記変換画像に基づいて文字認識を行う第2文字認識部と、
を有し、
前記第2文字認識部で認識された文字を出力する、文字認識装置。
【請求項2】
対象物の表面に表示された文字を認識する文字認識方法であって、
前記対象物との位置関係が一定でない状態下で、前記対象物の表面を撮像して撮像画像を生成する撮像ステップと、
前記撮像画像に基づいて文字認識を行う第1文字認識ステップと、
前記第1文字認識ステップによる文字認識で認識された矩形情報に基づいて、前記対象物の表面に表示された文字の横方向に対応する直線と、前記対象物の表面に表示された文字の縦方向に対応する直線とを取得する、直線取得ステップと、
前記直線取得ステップで取得した前記横方向に対応する直線と前記縦方向に対応する直線とに基づいて、前記対象物の表面に表示された文字を正面から見るように前記撮像画像を変換した変換画像を生成する正対変換ステップと、
前記変換画像に基づいて文字認識を行う第2文字認識ステップと、
を有する文字認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、鋼板等の対象物の表面に表示された文字を認識する文字認識装置及び文字認識方法に関する。
【背景技術】
【0002】
厚板等の鉄鋼製品等では、その表面に、管理情報等の各種の情報がステンシルを用いて印字されたり、情報が印字されたラベルが張り付けられたり、情報に関する刻印が刻まれたりすることで表示され、現品管理(各製品の識別や、製品の位置確認)に用いられることがある。
【0003】
このような厚板等の対象物に表示された情報を識別する技術としては、例えば、特許文献1に記載されている技術がある。特許文献1には、クレーン機上の画面に製品の画像を表示し、表示された製品に関する製品番号の一部又は全部をマスキングした後、クレーン操作者が目視で製造番号を確認し、確認した製品番号を音声入力又は文字入力することが開示されている。
【0004】
また、近年、多くの産業分野において、機械学習手法によって学習された識別器を用いることで、膨大なデータから経験や知識を抽出して自動化に繋げる動きが活発である。特に、画像認識分野においては、長年重要な問題とされてきた画像分類や物体検知といった画像認識の諸問題に対して、深層学習(Deep Learning)をはじめとするニューラルネットワークをベースとした識別器を用いることで、識別精度を飛躍的に向上させるといったことが行われている。
【0005】
例えば非特許文献1には、深層学習モデルを、製造番号等の文字認識に適用する技術が開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特許第6003918号公報
【特許文献2】特開2012-063869号公報
【非特許文献】
【0007】
【非特許文献1】大町真一郎著「リレー解説機械学習の可能性<<第5回>>機械学習と文字検出・認識:環境中テキストの検出と認識」、計測と制御、第58巻、第8号、2019年8月号
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、特許文献1に記載の技術では、クレーンの操作者が目視で製造番号を認識することができることが前提となっている。従って、クレーンで対象物を保持する際の角度にバラツキがある場合や、製品の表面に擦れや汚れ等がある場合には、製品に表示されている製造番号等の情報の全部又は一部が認識できない虞があった。また、クレーンの操作者が製品の近くにいないと、製品に表示されている情報を識別することができないという問題があった。
【0009】
そのため、製品(対象物)に表示されている情報を撮像し、撮像して得られた撮像画像に含まれる情報の識別精度を向上させることが望まれていた。
【0010】
また、厚板等の対象物の表面に表示された、ステンシルで印字された文字や、張り付けられたラベルの文字や、製品の表面に刻印された文字を、撮像した撮像画像から、深層学習モデルを用いて文字認識したとしても、文字認識の認識精度が悪くなってしまうことがある。
【0011】
これは以下の理由による。例えば、対象物の表面に表示された文字を撮像して文字認識する場合に、カメラと対象物との位置関係が一定でない状況では、カメラの光軸と対象物の表面とが正対しなくなることによって、対象物の表面に表示された文字の領域が歪んで撮影される。撮像画像が歪んだ状況で文字認識すると、文字認識の難易度が上がり、認識できる文字ばかりでなく、認識できない文字も出てきてしまう。そのため、この文字認識の結果をそのまま最終的な文字認識の結果として採用することはできないという問題があった。
【0012】
本発明は、以上のような問題点に鑑みてなされたものであり、鉄鋼製品等の対象物の表面に表示されている文字等の読み取りを、深層学習モデルを用いて行う際に、画像が歪むような状況下でも、十分な認識精度を得られる文字認識装置及び文字認識方法を提供することを目的とする。
【課題を解決するための手段】
【0013】
上述のように、画像が歪んだ状況下で文字認識を行う場合には、認識すべき文字が、どの種類の文字であるかは認識できなくても、認識すべき文字の、位置とサイズの情報に対応する「矩形情報」(即ち、文字がこの位置にある、文字がこのサイズだということを示す、矩形の領域に対応する情報。バウンディングボックス)に限定すれば、認識できる可能性が高いことが分かった。
【0014】
そこで、本発明者は、これら矩形情報を活用して、歪んだ撮像画像を、カメラに正対した向きの歪みのない画像に変換してしまえば、通常の文字認識エンジンであっても、正しく文字を認識することができることに想到した。
【0015】
具体的には本発明は以下の通りである。
【0016】
上記課題を解決するために、本発明のある観点によれば、対象物の表面に表示された文字を認識する文字認識装置であって、前記対象物との位置関係が一定でない状態下で、前記対象物の表面を撮像して撮像画像を生成する撮像部と、前記撮像画像に基づいて、前記対象物の表面に表示された文字を認識する演算処理部と、を有し、前記演算処理部は、前記撮像画像に基づいて文字認識を行う第1文字認識部と、前記第1文字認識部による文字認識で認識された矩形情報に基づいて、前記対象物の表面に表示された文字の横方向に対応する直線と、前記対象物の表面に表示された文字の縦方向に対応する直線とを取得する、直線取得部と、前記直線取得部で取得した前記横方向に対応する直線と前記縦方向に対応する直線とに基づいて、前記対象物の表面に表示された文字を正面から見るように前記撮像画像を変換した変換画像を生成する正対変換部と、前記変換画像に基づいて文字認識を行う第2文字認識部と、を有し、前記第2文字認識部で認識された文字を出力する、文字認識装置が提供される。
【0017】
また、上記課題を解決するために、本発明の他の観点によれば、対象物の表面に表示された文字を認識する文字認識方法であって、前記対象物との位置関係が一定でない状態下で、前記対象物の表面を撮像して撮像画像を生成する撮像ステップと、前記撮像画像に基づいて文字認識を行う第1文字認識ステップと、前記第1文字認識ステップによる文字認識で認識された矩形情報に基づいて、前記対象物の表面に表示された文字の横方向に対応する直線と、前記対象物の表面に表示された文字の縦方向に対応する直線とを取得する、直線取得ステップと、前記直線取得ステップで取得した前記横方向に対応する直線と前記縦方向に対応する直線とに基づいて、前記対象物の表面に表示された文字を正面から見るように前記撮像画像を変換した変換画像を生成する正対変換ステップと、前記変換画像に基づいて文字認識を行う第2文字認識ステップと、を有する文字認識方法が提供される。
【発明の効果】
【0018】
本発明によれば、撮像画像が歪んでしまう状況下で、撮像画像に基づき深層学習モデルを用いて文字認識を行う場合に、通常の文字認識エンジンであっても、十分な認識精度で文字を認識することが可能となる。
【図面の簡単な説明】
【0019】
図1】本発明の実施形態に係る文字認識装置と対象物との関係を示す図である。
図2】本発明の実施形態に係る対象物の表面における管理情報の表示形態を示す図である。
図3】対象物の表面に表示された文字を、正対した位置から撮像した撮像画像の一例を示す図である。
図4】対象物の表面に表示された文字を、歪んだ位置から撮像した撮像画像の一例を示す図である。
図5】本発明の実施形態に係る演算処理部の構成を説明するための図である。
図6】本発明の実施形態に係る直線取得部における直線の取得を説明するための図である。
図7】本発明の実施形態に係る文字認識装置における処理を説明するためのフローチャートである。
図8】本発明の実施形態に係る演算処理部のハードウェアの構成の一例を示す図である。
【発明を実施するための形態】
【0020】
以下、図面を参照しながら、本発明の一実施形態に係る文字認識装置及び文字認識方法を説明する。
【0021】
本発明の実施形態に係る文字認識装置について、図1を用いて説明する。図1に、本発明の実施形態に係る文字認識装置100と対象物1との関係を示す。
【0022】
文字認識装置100は、対象物1の表面に表示された文字を認識する装置であり、少なくとも、撮像部3と演算処理部4とを有している。
【0023】
文字認識装置100は、図1(A)に示すように、撮像部3及び演算処理部4を内蔵するスマートフォンやタブレットのような携帯端末であってもよい。また、文字認識装置100は、図1(B)に示すように、互いに接続された別体の撮像部3と演算処理部4とで構成されてもよい。この場合には、対象物1は、クレーンのような保持部2で保持されることが想定されている。また、文字認識装置100は、撮像部3及び演算処理部4を含んだ、工場内を飛行する無人航空機(ドローン)であってもよい。いずれにしても、対象物1と撮像部3との位置関係が、対象物1毎に一定とならず、対象物1と撮像部3との位置関係がばらつく状態にあるといえる。
【0024】
なお、以下の説明では、特に断りのない場合は、文字認識装置100として、携帯端末を用いる場合を例に説明を行う。
【0025】
対象物1は、文字認識装置100で文字認識の対象となる文字が表示された物体である。対象物1としては、その表面に管理情報等の文字情報を表示された物(製品)であれば、種々の物を適宜用いることができる。対象物1としては、例えば、製鉄所で製造される各種の厚板(例えば厚鋼板)や、薄板、鋼管、線材といった他の鉄鋼材や、樹脂材や、木材等であってもよい。
【0026】
なお、以下の説明では、特に断りのない場合は、対象物1として厚板を用い、厚板に熱処理や切断等の各種の処理を行う工場において、厚板が厚板の需要家に向けて出荷されるまでの間に、厚板を管理する管理情報を文字認識する場合を例に挙げて、説明を行う。
【0027】
なお、厚板の出荷までのフローとしては、例えば、厚板は、製鉄所で製造され輸送船に荷積みされる。輸送船は後処理のための工場の近くの岸壁に着岸し、厚板は、輸送船から荷下ろしされ、輸送車両(トラック等)に荷積みされる。厚板は、輸送車両で輸送された後、処理工場に入荷すると、後処理工場内の置場に置かれる。厚板は、置場に置かれた後、時機を見て熱処理や切断(ガス切断)等の処理が施された後、倉庫に置かれる。その後、厚板は、後処理工場から需要家に向けて出荷される。
【0028】
このような場合、管理上、厚板が製鉄所で製造されてから、厚板が需要家に向けて出荷される前までの間の任意のタイミングで、各厚板を識別することが必要となる。そのため、厚板の表面に、管理情報がステンシルで印字されたり、管理情報が印字されたラベルが張り付けられたり、管理情報が刻印により刻まれたりすることで表示され、現品管理等に用いることができるようになっている。
【0029】
図2に、本発明の実施形態に係る対象物1の表面における管理情報の表示形態を示す。
【0030】
図2(A)は、対象物1である厚板の表面の管理情報が表示された表示領域について、表示形態の第1の例を示している。
【0031】
図2(A)において、表示領域101は、管理情報がステンシルで印字がされた表示領域である。表示領域102は、管理情報が刻印により刻まれた表示領域である。表示領域103は、管理情報が印字されたラベル(サイドラベル)が貼り付けられた表示領域である。
【0032】
表示領域101、102は、厚板の板上面に存在し、表示領域103は、厚板の側面に存在する。なお、図2(A)~図2(C)に示す破線は仮想線であり、実際に厚板の表面に表示されているわけではない。
【0033】
図2(B)は、対象物1である厚板の表面の管理情報が表示された表示領域について、表示形態の第2の例を示している。
【0034】
図2(B)において、表示領域111は、管理情報がステンシルで印字がなされた表示領域である。表示領域112は、管理情報が刻印により刻まれた表示領域である。表示領域113は、管理情報が印字されたラベル(サイドラベル)が貼り付けられた表示領域である。
【0035】
表示領域111、112は、厚板の板上面に存在し、表示領域113は、厚板の側面に存在する。
【0036】
図2(A)及び図2(B)に示すように、ステンシルによる表示領域101、111、刻印による表示領域102、112、及び、ラベルによる表示領域103、113の配置は、対象物1の表面上で、適宜設定することが可能であり、厚板を製造する製鉄所毎に、異ならせるようにしてもよい。
【0037】
本実施形態では、ステンシルによる表示、刻印による表示、及び、ラベルによる表示の少なくともいずれか1つの管理情報に基づいて、現品管理(各厚板の識別、位置の管理)が行われる。
【0038】
なお、厚板に対する表示領域及び表示形態は、図2(A)及び図2(B)に示すものに限定されない。例えば、ステンシルによる表示領域と刻印による表示領域との距離が離れていたり、刻印による表示領域がなかったりしてもよい。
【0039】
図2(C)は、複数の厚板が積み重ねられた様子の一例を示している。図2(C)に示すように、積み重ねられた複数の厚板のうち下に位置する厚板については、ステンシルによる表示及び刻印による表示を視認することができない。このような場合には、厚板の側面に存在するラベル103、123、133による表示に基づいて、現品管理を行うことができる。
【0040】
なお、図2(C)では、厚板の長手方向が、他の厚板の長手方向と平行となるように重ねた場合を示しているが、厚板を重ねて置く方法は、このような方法に限定されない。例えば、厚板の長手方向が、他の厚板の長手方向と垂直又は垂直に近い角度となるように重ねてもよい。
【0041】
図3に、対象物1の表面に表示された文字を、正対した位置から撮像した撮像画像の一例を示す。図3(A)は、ステンシルによる表示及び刻印による表示の第1の例を示す図であり、図3(B)は、ステンシルによる表示及び刻印による表示の第2の例を示す図である。
【0042】
図3(A)及び図3(B)に示す例では、ステンシルによる表示には、マーク201、211、需要家名202、212、規格203、213、サイズ204、214、ID205、215、需要家コード206、216、注文番号207、217、および識別用情報208、218が含まれる。刻印による表示には、ID209、219が含まれる。
【0043】
マーク201、211は、厚板の製造メーカを表す標章(マーク)である。需要家名202、212は、厚板の需要家(購入者)を示す情報である。規格203、213は、厚板の規格を示す情報である。サイズ204、214は、厚板のサイズ(厚み×幅×長さ)を示す情報である。ID205、215、209、219は、厚板を一意に識別するための情報であり、板番号(厚板の識別番号)である。従って、同じIDが異なる厚板に付されることはない。需要家コード206、216は、厚板の製造メーカが需要家から厚板に対して付すことが指定された情報である。注文番号207、217は、需要家からの厚板の注文を識別するための番号の一部である。
【0044】
マーク201、211、需要家名202、212、規格203、213、サイズ204、214、ID205、215、209、219、需要家コード206、216、及び、注文番号207、217は、厚板に対して一般的に表示され得る情報である。なお、ID205、215、209、219以外の情報は、ステンシルによる表示及び刻印による表示に含まれていなくてもよい。また、上述した情報以外の情報が、ステンシルによる表示及び刻印による表示に含まれていてもよい。例えば、刻印による表示として、ステンシルによる表示項目と同等の表示項目(例えば、マーク、需要家名、規格、サイズ、需要家コード、注文情報、識別用情報の少なくとも1つ)が表示されてもよい。
【0045】
なお、以下では、識別の対象となる対象物1の表面に表示された文字や文字列を、行を跨ぐ場合も含め、文字群と称することがある。
【0046】
撮像部3は、対象物1との位置関係が一定でない状態下で、対象物1の表面を撮像して撮像画像を生成するカメラである。撮像部3は、図1に破線で示すように、対象物1の表面の少なくとも一つ以上の表示領域を含む一定範囲を撮像視野として撮像し、2次元画像からなる撮像画像を生成する。撮像画像は静止画であっても動画であってもよい。また、撮像部3は。対象物1の上面を撮像するものに限らず、対象物1の側面を撮像したり、上面と側面とを同時に撮像するようにしてもよい。
【0047】
撮像部3は、文字認識装置100がタブレットやスマートフォンのような携帯端末である場合には、携帯端末に付帯するカメラであり、文字認識装置100が演算処理部4とは別体の撮像部3を有している場合には、単体で撮像することが可能なエリアカメラであり、文字認識装置100がドローンのような無人航空機である場合には、無人航空機の機上に設けられたカメラである。
【0048】
図4に、対象物1の表面に表示された文字を、歪んだ位置から撮像した撮像画像の一例を示す。
【0049】
上述したように、本実施形態では、対象物1を、手持ちの携帯端末や、クレーンや、無人航空機を介して撮像することになるため、対象物1と撮像部3との位置関係が、対象物1毎に一定とならずばらつく状態にある。
【0050】
そのため、対象物1の表面の表示と撮像部3とが正対する理想条件下であれば、図3(A)や図3(B)のような歪みのないが得られるはずであるが、一般的には、対象物1の表面の表示と撮像部3とは正対しないため、図4に示すように、対象物1の表面の文字が歪んだ撮像画像が生成されることになる。
【0051】
演算処理部4は、撮像部3で生成した撮像画像に基づいて、対象物1の表面に表示された文字を認識する機能部である。演算処理部4は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、通信装置等により実現される。
【0052】
図5に、本発明の実施形態に係る演算処理部4の構成を説明するための図を示す。図5に示すように、演算処理部4は、撮像画像取得部41、第1文字認識部43、直線取得部45、正対変換部47、第2文字認識部49、認識結果出力部51を有している。
【0053】
撮像画像取得部41は、撮像部3が撮像した撮像画像を撮像部3から取得する機能部である。撮像画像取得部41は取得した撮像画像を、後述する第1文字認識部43へと送る。
【0054】
第1文字認識部43は、撮像画像に基づいて文字認識を行う機能部である。第1文字認識部43は、撮像画像取得部41から取得した撮像画像、即ち、対象物1との位置関係が一定でない状態の歪んだ画像を入力として、文字認識を行う。そして、第1文字認識部43は、文字認識の結果として、当該画像内のどの位置(座標)に、どの大きさで、どの種類の文字が、存在するかの情報を出力する。この場合において、どの位置にどの大きさで文字が存在するのかを示す情報は、撮像画像中の対象位置に配置された、撮像画像に応じて歪んだ矩形(文字毎の領域)によって示されるものとなる。このどの位置にどの大きさで文字が存在するのかを示す情報を、「矩形情報」(バウンディングボックス)と称するものとする。
【0055】
この第1文字認識部43には、例えば、座標、大きさ、文字種を同時に出力可能である物体検知の深層学習モデルを適用することができる。第1文字認識部43として、例えば、非特許文献1に記載のものを用いることができる。なお、文字認識モデルとして、公知のOCR(Optical character recognition)や、AIとOCRとを組み合わせた技術(いわゆるAI OCR)を用いてもよい。
【0056】
この第1文字認識部43には、図4のような歪んだ撮像画像が入力されることから、第1文字認識部43からの出力のうち、文字の種類の認識については信頼性が低いことが分かった。一方で、各文字の矩形情報については、比較的正しく認識できることが多いことが分かった。
【0057】
このため、後に続く処理では、第1文字認識部43では認識することが難しい文字の種類には拘らず、第1文字認識部43で認識された矩形情報を活用していくことにする。
【0058】
第1文字認識部43は、認識した文字毎の矩形領域を、直線取得部45へ送る。
【0059】
直線取得部45は、第1文字認識部43で認識された矩形情報に基づいて、対象物1の表面に表示された文字の横方向に対応する直線と、対象物1の表面に表示された文字の縦方向に対応する直線とを取得する機能部である。
【0060】
直線取得部45は、第1文字認識部43で認識された文字群に含まれる文字毎の矩形情報(文字の位置と、文字のサイズ)に基づいて、文字群の横方向(行方向)に対応する直線及び縦方向(列方向)に対応する直線を取得する。
【0061】
これらの直線は、後に正対変換部47での演算において用いられるものであり、例えば、画像上で歪んだ文字領域の縦方向を示す2直線(V1、V2)と、横方向を示す2直線(H1、H2)の、計4つの直線が取得される。
【0062】
図6に、本発明の実施形態に係る直線取得部45における直線の取得を説明するための図を示す。図6内に示す多数の矩形は、図4に例示した撮像画像を第1文字認識部43で文字認識することで得られた、個々の文字についての矩形情報を示している。
【0063】
直線の取得方法としては、H1で例示するように、一列に並んだ文字に関する各矩形情報の重心を通る直線を抽出してもよいし、H1’で示すように、一列に並んだ文字に関する各矩形情報に外接する直線を抽出するようにしてもよい。
【0064】
また、例えば、文字群のうち、同一サイズのフォントからなる、ある行の所定の文字数(例えば5文字)と、同一サイズのフォントからなる他の行の所定の文字数(例えば5文字)の矩形情報を取得できたとする。そうすると、(i)ある行の1文字目の矩形情報の中心位置と、(ii)ある行の所定の文字数目の矩形情報の中心位置と、(iii)他の行の1文字目の矩形情報の中心位置と、(iv)他の行の所定の文字数目の矩形情報の中心位置の、4点からなる、平行四辺形を把握することができる。この平行四辺形には、平行に対向する2辺が2組あるので、それらの片方を、対象物1の表面に表示された文字の横方向に対応する直線と見なすことができ、それらのもう片方を、対象物1の表面に表示された文字の縦方向に対応する直線と見なすことができる。
【0065】
また、例えば、1文字の矩形情報の横方向の辺を、対象物1の表面に表示された文字の横方向に対応する直線の方向と見なし、当該1文字の矩形情報の縦方向の辺を対象物1の表面に表示された文字の縦方向に対応する直線の方向と見なすようにすることもできる。
【0066】
このような場合に、後に続く正対変換部47における変換精度を高める観点では、V1とV2の間の距離Lv、及び、H1とH2の間の距離Lhは、なるべく大きくなるように抽出することが望ましい。なお、厳密にいえば、文字の矩形情報が歪んでいる関係上、この時点では、実空間での距離LvやLhを正確に測ることはできないが、指標として、Lvの代わりにV1とV2の間の行数差を用いたり、Lhの代わりに各行の先頭である左からの文字数差を用いることができる。
【0067】
各直線は複数の矩形情報の回帰で求めることができる。この際、1直線を決定するために用いる文字数は多いことが望ましく、加えて当該直線に沿う複数文字のうち、両端に位置する文字の間の距離が長い行又は列を採用することが望ましい。
【0068】
変換精度を高める別の観点として、例えば、図6において上からN行目にはM文字並んでいる、各列の先頭文字は1列に揃っている、各文字の大きさは同じである、等といった、予め分かっている表示される文字の位置や大きさに関する情報を、直線取得部45に予め与えておけば、それらの情報を拠り所に4つの直線(H1、H2、V1、V2)を抽出することで、4つの直線の抽出精度を更に高めることができる。
【0069】
直線取得部45で抽出した4つの直線に関する情報は、正対変換部47へと送られる。
【0070】
正対変換部47は、直線取得部45で取得した横方向に対応する直線と縦方向に対応する直線とに基づいて、対象物1の表面に表示された文字を正面から見るように撮像画像を変換した変換画像を生成する機能部である。
【0071】
即ち、正対変換部47は、直線取得部45で取得した横方向に対応する直線(H1、H2)と、縦方向に対応する直線(V1、V2)とに基づいて、歪んだ撮像画像を、文字群を正面から見て歪んでいない画像となるように変換する。
【0072】
撮像部3で生成した撮像画像においては、撮像部3の光軸に対して対象物1の表面が正対しないことに起因して、横方向に対応する直線(H1、H2)同士は互いに平行ではなく、縦方向に対応する直線(V1、V2)同士も互いに平行ではなく、横方向に対応する直線と縦方向に対応する直線とは互いに直交しない。そのため、横方向に対応する直線同士が平行となり、縦方向に対応する直線同士が平行となり、横方向に対応する直線と縦方向に対応する直線が直交するような変換をすることができれば、当該変換を用いて、撮像画像を、対象物1と撮像部3とが正対しているかのような画像(即ち、対象物1の表面を正面から見るような画像)へと変換することができる。
【0073】
こうした変換としては、様々なタイプの変換が知られており、例えば、平面射影変換を用いることができる。ここでは、正対変換部47で、特許文献2に記載の平面射影変換の方法を用いた場合を例に説明を行う。
【0074】
平面射影変換においては、歪んで撮影された撮像画像を変換対象画像とし、正対した状態の画像を変換後画像とする。
【0075】
前記平面射影変換のパラメータは、3×3の行列で表され、変換後画像と変換対象画像との間における4組以上の対応する点から算出することができ、変換前の座標を(x,y)、変換後の座標を(x’,y’)とすると、式(1)で表すことができる。
【0076】
【数1】
【0077】
ここで、変換前の座標(x,y)には、直線取得部45で取得した横方向に対応する直線(H1、H2)と、縦方向に対応する直線(V1、V2)がなす四角形の頂点を算出して4つの座標を用意する。4つの頂点に対応する変換後の座標(x’,y’)は、文字数を単位とする文字数差、行数差で表すことができる。
【0078】
文字数差は、直線H1と直線V1の交わる頂点を原点として、Lv及びLhが、空白文字を含めて何文字分であるかで表される値である。文字数差を求める方法としては、直線H1上の直線V1から直線V2までの区間において認識した文字の文字数を数える方法や、認識した隣接する文字の間隔の中央値等で算出した1文字当たりの画素数で、直線H1上の直線V1から直線V2までの区間の画素数を除算した結果を整数に丸めた値として算出する方法等がある。
【0079】
行数差も同様に、直線V1上の直線H1から直線H2までの区間の画素数を1文字当たりの画素数で除算した結果を整数に丸めた値として算出する。
【0080】
図6に示す例では、Lvは7文字分、Lhは5文字分であり、変換後の座標(x’,y’)は、(0,0)、(0,5)、(7,0)、(7,5)の4つである。
【0081】
更に、平面射影変換にスケーリング(拡大率)パラメータを導入して、文字認識に適した画素数にすることができる。
【0082】
前記スケーリングパラメータを導入した幾何学的歪み補正(平面射影変換)は、幅方向のスケーリングパラメータをSx、高さ方向のスケーリングパラメータSyとしたときに、式(2)で表すことができる。
【0083】
【数2】
【0084】
ここで、撮像画像のサイズが幅60画素、高さ80画素であるときには、文字認識に適した1文字の画素数として、幅方向のスケーリングパラメータSxに60画素を設定し、高さ方向のスケーリングパラメータSyに80画素を設定することができる。
【0085】
撮像画像を、4つの直線に基づいて平面射影変換することで、対象物の表面に表示された文字を正面から見るような、新たな画像を生成した場合には、この画像を変換画像と称するものとする。
【0086】
正対変換部47で生成された変換画像は、第2文字認識部へと送られる。
【0087】
第2文字認識部49は、変換画像に基づいて文字認識を行う機能部である。
【0088】
即ち、第2文字認識部49は、正対変換部47で得られた変換画像を入力とし、文字認識結果として、変換画像内のどの位置(座標)にどの大きさでどの種類の文字が存在するかの情報を出力する。
【0089】
第2文字認識部49は、第1文字認識部43で用いた文字認識モデルと同じ文字認識モデルを用いて文字認識してもよいし、別の文字認識モデルを用いて文字認識してもよい。第1文字認識部43との重要な相違点は、入力される画像が、正対変換部47により文字群を正面から見るように変換された結果、画像の歪みが除去されているため、認識し易い矩形情報(座標、大きさ)のみならず、文字の種類についても信頼性の高い結果が出力されることである。
【0090】
このように、文字認識装置100は、第2文字認識部49で得られた文字の種類を、文字認識の(文字の種類に関する)最終結果とすることで、対象物1の表面に表示された文字を、十分な認識精度で文字を認識することができる。
【0091】
なお、文字の座標や大きさについては、第1文字認識部43の結果を最終結果としても良く、第2文字認識部49の結果を最終結果としても良い。
【0092】
第2文字認識部49は、文字認識した結果を認識結果出力部51へと送る。
【0093】
認識結果出力部51は、演算処理部4が有する、又は、演算処理部4に接続された(図示しない)ディスプレイやプリンタ等に出力し、文字認識装置100の操作者等に対して、文字認識の結果を出力する機能部である。
【0094】
認識結果出力部51における出力の方法としては、公知のものを適宜用いることができるが、例えば、各行毎に認識された文字をテキスト形式で出力してもよいし、変換画像に対し認識された文字種類を各々の位置にオーバーレイして表示してもよい。また出力結果は作業者に視認・確認させてもよいし、別の計算機に送った後、鋼製品のデータベースとの照合を実施してもよい。
【0095】
次に、本発明の実施形態に係る文字認識装置100における処理について、図7を用いて説明する。図7に、本発明の実施形態に係る文字認識装置100における処理を説明するためのフローチャートを示す。
【0096】
(ステップS001)
【0097】
本実施形態に係る文字認識装置100で文字認識方法に関する処理を開始すると、ステップS001の処理を行う。ステップS001では、撮像部3で対象物1の表面を撮像して撮像画像を生成する(撮像ステップ)。
【0098】
この際、撮像部3を用いて、対象物1の表面の認識対象となる文字群を含む領域を撮像することで撮像画像が生成される。
【0099】
上述したように、本実施形態では、対象物1を、手持ちの携帯端末や、大掛かりなクレーンや、3次元点的に移動可能な無人航空機を介して撮像することになるため、対象物1と撮像部3との位置関係が、対象物1毎に一定とならずばらつく状態にある。
【0100】
そのため、対象物1の表面の表示と撮像部3とが正対する理想的な条件下であれば、図3(A)や図3(B)ような、歪みのない撮像画像が得られるはずであるが、一般的には、対象物1の表面の文字と撮像部3とが正対しなくなるため、図4に示すように、対象物1の表面の文字が歪んだ撮像画像が生成されることになる。
【0101】
撮像画像の生成が終わると、撮像画像を撮像画像取得部41に送り、ステップS003に進む。
【0102】
(ステップS003)
【0103】
ステップS003では、撮像画像取得部41を用いて、撮像部3から無線又は有線等を介して、ステップS001で生成した撮像画像を取得する。取得した撮像画像は演算処理部4内に記憶され、演算処理部4の様々な処理において扱うことができるようになる。
【0104】
撮像画像が取得できると、ステップS005へ進む。
【0105】
(ステップS005)
【0106】
ステップS005では、第1文字認識部43において、撮像画像に基づいて文字認識を行う(第1文字認識ステップ)。
【0107】
ステップS005では、例えば、文字の座標、大きさ、種類を同時に出力可能な物体検知のための深層学習モデルを用いることができる。
【0108】
上述したように、第1文字認識部43には、一般的に図4のような歪んだ撮像画像が入力されることに起因して、第1文字認識部43からの出力のうち、文字の種類については、認識できたとしてもあまり信頼できないが、文字毎の矩形情報(位置、大きさ)については、比較的正しく認識できる。
【0109】
このため、ステップS005では、ある程度の文字数(直線取得部45と正対変換部47における処理が実行可能であれば、その範囲で適宜設定可能)について文字の矩形情報が認識できれば、文字の種類が認識できたか否かにかかわらず、文字の矩形情報を、直線取得部45へと送り、ステップS007へ進む。
【0110】
(ステップS007)
【0111】
ステップS007では、ステップS005で認識された文字毎の矩形情報に基づいて、対象物1の表面に印字表示された文字の横方向に対応する直線と、対象物1の表面に印字表示された文字の縦方向に対応する直線とを取得する(直線取得ステップ)。
【0112】
ステップS007では、直線取得部45において、ステップS005で認識された文字毎の矩形情報(位置、大きさ)から、文字毎の矩形情報の形状や配列に基づいて、対象物1の表面に表示された文字群の、横方向に対応する2直線と、縦方向に対応する2直線とを取得する。
【0113】
直線取得部45で、横方向に対応する2直線と、縦方向に対応する2直線とが取得できれば、それらの情報を正対変換部47に送り、ステップS009に進む。
【0114】
(ステップS009)
【0115】
ステップS009では、取得した横方向に対応する直線と縦方向に対応する直線とに基づいて、対象物1の表面に印字表示された文字を正面から見るように撮像画像を変換した変換画像を生成する(正対変換ステップ)。
【0116】
即ち、ステップS009では、正対変換部47において、ステップS007で取得された計4つの直線に基づいて、公知の平面射影変換を用い、4つの直線が長方形をなすように変換することで、撮像画像から、文字群を正面から見るように変換した画像である変換画像を生成する。
【0117】
変換画像が生成できれば、変換画像を第2文字認識部49に送り、ステップS011に進む。
【0118】
(ステップS011)
【0119】
ステップS011では、変換画像に基づいて文字認識を行う(第2文字認識ステップ)。
【0120】
即ち、ステップS011では、第2文字認識部49において、ステップS009で生成された、対象物1の表面に表示された文字を正面から見るように変換した変換画像に基づいて、再度文字認識を行う。この際、第1文字認識部と同じ文字認識モデルを用いてもよいし、別の文字認識モデルを用いてもよい。
【0121】
ステップS011における文字認識は、入力される画像が、ステップS009で文字群を正面から見るように変換された変換画像であることから、画像の歪みが除去されているため、認識し易い文字の矩形情報(位置、大きさ)のみならず、文字の種類についても信頼性の高い認識結果が出力される。
【0122】
このように、文字認識装置100は、第2文字認識部49で得られた文字の種類を、文字認識の(文字の種類に関する)最終結果とすることで、対象物1の表面に表示された文字を、高精度に認識することができる。
【0123】
ステップS011で文字認識が終わると、文字認識結果を演算処理部4で記憶し、適宜取り扱えるようにした後、ステップS013に進む。
【0124】
(ステップS013)
【0125】
ステップS013では、認識結果出力部51によって、ステップS011で得られた文字認識結果を、文字認識装置100の操作者等に対して出力し、操作者等が、出力された十分な精度な文字認識結果を活用することができるようになる。
【0126】
以上の処理が行われることで、本発明の実施形態に係る文字認識装置100における処理が終了する。
【0127】
以上説明したように、本発明によれば、対象物1の表面に表示された文字を認識しようとする際に、対象物1と撮像部3との位置関係が、対象物1毎に一定とならずばらつく状態にあったとしても、認識すべき文字が撮像された撮像画像を、一旦文字認識し、結果として得られる認識が容易な文字の位置領域に基づいて、横方向に対応する2直線と縦方向に対応する2直線とを取得し、それら4つの直線に基づいて、撮像画像を正面から見るように変換した後に、再度文字認識をすることで、文字の種類を、十分な認識精度で文字認識することが可能となる。
【0128】
なお、以上説明した本発明の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【0129】
<ハードウェア>
【0130】
図8に、本発明の実施形態に係る演算処理部のハードウェアの構成の一例を示す。図8を用いて、演算処理部4を実現するためのハードウェアの一例について説明する。
【0131】
図8において、演算処理部4は、CPU1201、主記憶装置1202、補助記憶装置1203、通信回路1204、信号処理回路1205、画像処理回路1206、I/F回路1207、ユーザインターフェース1208、ディスプレイ1209、およびバス1210を有する。
【0132】
CPU1201は、演算処理部4の全体を統括制御する。CPU1201は、主記憶装置1202をワークエリアとして用いて、補助記憶装置1203に記憶されているプログラムを実行する。主記憶装置1202は、データを一時的に格納する。補助記憶装置1203は、CPU1201によって実行されるプログラムの他、各種のデータを記憶する。
【0133】
通信回路1204は、演算処理部4の外部との通信を行うための回路である。通信回路1204は、演算処理部4の外部と無線通信を行っても有線通信を行ってもよい。
【0134】
信号処理回路1205は、通信回路1204で受信された信号や、CPU1201による制御に従って入力した信号に対し、各種の信号処理を行う。
【0135】
画像処理回路1206は、CPU1201による制御に従って入力した信号に対し、各種の画像処理を行う。この画像処理が行われた信号は、例えば、ディスプレイ1209に出力される。
【0136】
ユーザインターフェース1208は、操作者が演算処理部4に対して指示を行う部分である。ユーザインターフェース1208は、例えば、ボタン、スイッチ、およびダイヤル等を有する。また、ユーザインターフェース1208は、ディスプレイ1209を用いたグラフィカルユーザインターフェースを有していてもよい。
【0137】
ディスプレイ1209は、画像処理回路1206から出力された信号に基づく画像を表示する。I/F回路1207は、I/F回路1207に接続される装置との間でデータのやり取りを行う。図12では、I/F回路1207に接続される装置として、ユーザインターフェース1208およびディスプレイ1209を示す。しかしながら、I/F回路1207に接続される装置は、これらに限定されない。例えば、可搬型の記憶媒体がI/F回路1207に接続されてもよい。また、ユーザインターフェース1208の少なくとも一部およびディスプレイ1209は、演算処理部4の外部にあってもよい。
【0138】
出力部415は、例えば、通信回路1204および信号処理回路1205と、画像処理回路1206、I/F回路1207、およびディスプレイ1209との少なくとも何れか一方を用いることにより実現される。
【0139】
尚、CPU1201、主記憶装置1202、補助記憶装置1203、信号処理回路1205、画像処理回路1206、およびI/F回路1207は、バス1210に接続される。これらの構成要素間の通信は、バス1210を介して行われる。また、演算処理部4のハードウェアは、前述した演算処理部4の機能を実現することができれば、図8に示すものに限定されない。
【産業上の利用可能性】
【0140】
本発明は、例えば、鉄鋼製品の現品管理等の際の製品の識別に利用することができる。
【符号の説明】
【0141】
100 文字認識装置
1 対象物
2 保持部
3 撮像部
4 演算処理部
41 撮像画像取得部
43 第1文字認識部
45 直線取得部
47 正対変換部
49 第2文字認識部
図1
図2
図3
図4
図5
図6
図7
図8