(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022025008
(43)【公開日】2022-02-09
(54)【発明の名称】テキスト行識別に基づくナンバープレート識別方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20220202BHJP
G06N 3/04 20060101ALI20220202BHJP
G06N 3/08 20060101ALI20220202BHJP
【FI】
G06T7/00 350C
G06N3/04
G06N3/08
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021105233
(22)【出願日】2021-06-24
(31)【優先権主張番号】202010735739.2
(32)【優先日】2020-07-28
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】513059401
【氏名又は名称】同▲済▼大学
(74)【代理人】
【識別番号】100091683
【弁理士】
【氏名又は名称】▲吉▼川 俊雄
(74)【代理人】
【識別番号】100179316
【弁理士】
【氏名又は名称】市川 寛奈
(72)【発明者】
【氏名】黄徳双
(72)【発明者】
【氏名】秦魏
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA04
5L096BA17
5L096FA05
5L096FA12
5L096FA16
5L096FA18
5L096GA30
5L096HA11
5L096JA11
(57)【要約】 (修正有)
【課題】高いロバスト性及び高い性能を有するテキスト行識別に基づくナンバープレート識別方法を提供する。
【解決手段】ナンバープレート識別方法は、オリジナル画像を取得するステップと、オリジナル画像におけるナンバープレート部分を検出し、ナンバープレート画像を得るナンバープレート検出ステップと、テキスト検出ネットワークによってナンバープレート上のテキスト行を検出し、ナンバープレートテキスト行画像を得るテキスト行検出ステップと、ナンバープレートテキスト行画像をナンバープレートテキスト行識別ネットワークに入力し、最終的にナンバープレートテキスト行のキャラクタシーケンスを出力し、ナンバープレート識別を完了するテキスト行識別ステップと、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
テキスト行識別に基づくナンバープレート識別方法であって、
オリジナル画像を取得するS1と、
オリジナル画像におけるナンバープレート部分を検出し、ナンバープレート画像を得るナンバープレート検出ステップS2と、
テキスト検出ネットワークによってナンバープレート上のテキスト行を検出し、ナンバープレートテキスト行画像を得るテキスト行検出ステップS3と、
ナンバープレートテキスト行画像をナンバープレートテキスト行識別ネットワークに入力し、最終的にナンバープレートテキスト行のキャラクタシーケンスを出力し、ナンバープレート識別を完了するテキスト行識別ステップS4とを含む、ことを特徴とする、テキスト行識別に基づくナンバープレート識別方法。
【請求項2】
前記ステップS2において、YOLOv3ネットワークによってオリジナル画像におけるナンバープレート部分を検出する、ことを特徴とする、請求項1に記載のテキスト行識別に基づくナンバープレート識別方法。
【請求項3】
前記YOLOv3ネットワークは、オリジナル画像の特徴図のディメンションを五回低減させ、それぞれ第一の特徴図、第二の特徴図、第三の特徴図、第四の特徴図及び第五の特徴図を得て、その後それぞれ第三の特徴図、第四の特徴図及び第五の特徴図をアップサンプリングを経た後にスプライスし、最後に特徴テンソルを出力し、ナンバープレートに対する検出を完了する、ことを特徴とする、請求項2に記載のテキスト行識別に基づくナンバープレート識別方法。
【請求項4】
前記ステップS3は、具体的には、
回帰モデルを利用してCPTNネットワークの垂直検出フレームを予測して得るS31と、
予測して得られる垂直検出フレームに対して境界最適化を行うS32と、
垂直方向上に重畳程度が設定される閾値に達する垂直検出フレームを一つの検出フレームに合併し、最終の垂直検出フレームを得るS33と、
CPTNネットワークは、垂直検出フレームによってテキスト行の検出を行い、ナンバープレートテキスト行画像を得るS34と、を含む、ことを特徴とする、請求項1に記載のテキスト行識別に基づくナンバープレート識別方法。
【請求項5】
前記垂直フレーム検出フレームのセンター位置t
cと高さt
hの計算方法は、数式1と数式2の通りであり、そのうち、c
b
yが境界フレームのセンター位置であり、h
bが境界フレームの高さであり、c
a
yがアンカーフレームのセンターであり、h
aがアンカーフレームの高さであり、
【数1】
【数2】
前記境界最適化は、各垂直フレーム検出フレームが一つの水平方向検出のオフセット量t
wを計算し、該オフセット量t
wの計算式は数式3の通りであり、
【数3】
そのうち、x
a
sideが実際のナンバープレート水平境界に最も近い座標であり、c
a
xが垂直検出フレームセンター位置のx座標であり、w
aが垂直検出フレームフレームの幅であることを特徴とする、請求項4に記載のテキスト行識別に基づくナンバープレート識別方法。
【請求項6】
前記ナンバープレートテキスト識別ネットワークは、補正ネットワークとテキスト識別ネットワークを含み、それぞれナンバープレートテキスト行画像に対する補正と文字識別を実現し、前記補正ネットワークは、二次元変換によって歪みとねじれのテキストを補正し、前記テキスト識別ネットワークは、エンコーダ-デコーダパラダイムのアテンションメカニズムが内蔵されているseq2seqネットワークを採用する、ことを特徴とする、請求項1に記載のテキスト行識別に基づくナンバープレート識別方法。
【請求項7】
前記補正ネットワークは、測位ネットワークを含み、前記測位ネットワークは、オリジナルテキスト行の制御点ベクトル群Aに対して予測を行い、且つ逆伝播勾配によって、補正テキスト行の制御点ベクトル群Arを回帰分析して得て、前記補正ネットワークは、オリジナルテキスト行制御点ベクトル群Cと補正テキスト行制御点ベクトル群Arとの間の関係に基づき、オリジナルテキスト行画像に対して二次元変換を行い、補正後のテキスト行画像を得る、ことを特徴とする、請求項6に記載のテキスト行識別に基づくナンバープレート識別方法。
【請求項8】
前記測位ネットワークは、六つのコンボリューションフィルタレイヤ、五つの最大プールレイヤ及び二つの完全接続レイヤグループレイヤを含み、前記制御点は、五つを含み、それぞれは、ナンバープレートテキスト行の四つの頂点と対角線の交点である、ことを特徴とする、請求項7に記載のテキスト行識別に基づくナンバープレート識別方法。
【請求項9】
前記テキスト識別ネットワークがナンバープレートテキスト行画像に対して文字識別を行うことは、具体的には、
エンコーダは、コンボリューションニューラルネットワークを使用して補正後のナンバープレートテキスト行画像上からテキスト特徴図を抽出し、その後テキスト特徴図を分割し且つ双方向LSTMネットワークに入力した後、テキスト特徴シーケンスhtを得るS41と、
テキスト特徴シーケンスhtをデコーダに入力するS42と、
デコーダは、コンテキストベクトル、デコーダ内部状態及び前のステップの出力を利用し、アテンションメカニズムとGRUサイクルネットワークユニットによって、各キャラクタとシーケンスターミネータの確率を出力し、現在のテキストシンボルを予測するS43と、を含む、ことを特徴とする、請求項6に記載のテキスト行識別に基づくナンバープレート識別方法。
【請求項10】
前記デコーダの計算式は、数式4の通りであり、
【数4】
そのうち、数式5がデコーダによってステップt
2で出力される現在のテキストシンボル予測確率であり、数式6がデコーダのステップt
2の内部状態ベクトルであり、数式7がデコーダのステップt
2-1の内部状態ベクトルであり、数式8デコーダのステップt
2のコンテキストベクトルであり、数式9がデコーダのステップt
2-1の出力であり、rnnがGRUサイクルネットワークユニットであり、数式10がキャラクタ分類確率図であり、W
0が完全接続ネットワークパラメータであり、b
0が完全接続ネットワークオフセット量であり、
【数5】
【数6】
【数7】
【数8】
【数9】
【数10】
前記デコーダのステップt
2のコンテキストベクトル数式8は、アテンションメカニズムによって得られ、その数式は、数式11の通りであり、
【数11】
そのうち、W
convがコンボリューションネットワークパラメータであり、数式12が完全接続ネットワークパラメータであり、数式13がエンコーダのステップt
1のテキスト特徴シーケンスであり、数式14が重み付けパラメータであり、Tが入力シーケンスの長さであり、数式15がk時刻重み付けパラメータであり、v、W、Vがいずれも完全接続ネットワークパラメータであり、BLSTMが双方向LSTMネットワークであり、数式16がエンコーダのステップt
1のテキスト特徴図を分割した後に得られるベクトルシーケンスであり、数式17がエンコーダのステップt
1-1のテキスト特徴シーケンスである、
【数12】
【数13】
【数14】
【数15】
【数16】
【数17】
ことを特徴とする、請求項9に記載のテキスト行識別に基づくナンバープレート識別方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理とモード識別に基づくナンバープレート識別技術に関し、特にテキスト行識別に基づくナンバープレート識別方法に関する。
【背景技術】
【0002】
ナンバープレート検出と識別は、典型的なコンピュータ視覚分野のタスクであり、インテリジェント交通システムにおいて広い応用の将来性がある。現代交通システムの発展に伴い、交通量は、急速に増加し、ナンバープレート識別システムは、交通管理、公共安全などを補助することができる。
【0003】
過去十数年来、ナンバープレート識別問題は、業界で広く注目されている。画質に影響を与えるさまざまな要因、例えば撮影環境(照明、位置、焦点ぼけなど)、ピクチャ品質(解像度など)及び複雑な撮影背景を考慮すると、任意のシーンでのナンバープレート識別タスクは、依然として困難に直面している。
【0004】
既存のいくつかのナンバープレート識別システムの識別方法は、主にナンバープレート検出、キャラクタ分割及びシーン文字識別のステップを含む。ナンバープレート識別は、自然画像からナンバープレートの位置を検出し、且つ検出されたナンバープレート上からテキスト情報を識別するという二つの部分にまとめることができる。既存のいくつかのナンバープレート識別システムのワークフローにおいて、あるものは、入力された自然画像から出力されたテキスト内容までの完全なワークフローを実現することに重点を置き、あるワークフローは、識別の正確性を向上させるために、ナンバープレート検出の前に車両検出を加えている。
【0005】
既存のナンバープレート識別方法は、ディープラーニングに基づく方法と非ディープラーニングに基づく方法の二つに分けることができる。ディープラーニングが発展する前に、一般的には色情報、テキスト情報、またはナンバープレートのエッジ情報に基づいてナンバープレートを大まかに識別する。使用される方法は、一般的には有限ボルツマンマシンまたはサポートベクトルマシンである。
【0006】
近年、ディープラーニングの発展に伴い、キャラクタ分割に基づくナンバープレート識別方法が比較的に流行している。キャラクタ分割に基づく方法には、事前に分割されたトレーニングデータを必要とするため、トレーニングデータへのタグ付けが困難であり、且つそれは、フォントファイルを利用して画像を自動的に生成するため、ナンバープレート識別の効果とロバスト性が比較的に低い。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明の目的は、上記従来の技術の欠陥を克服するために、識別効果及びロバスト性を向上させるテキスト行識別に基づくナンバープレート識別方法を提供することである。
【課題を解決するための手段】
【0008】
本発明の目的は、以下の技術案よって実現されてもよい。
【0009】
テキスト行識別に基づくナンバープレート識別方法であって、
オリジナル画像を取得するS1と、
オリジナル画像におけるナンバープレート部分を検出し、ナンバープレート画像を得るナンバープレート検出ステップS2と、
CPTNネットワークによってナンバープレート上のテキスト行を検出し、ナンバープレートテキスト行画像を得るテキスト行検出ステップS3と、
ナンバープレートテキスト行画像をナンバープレートテキスト行識別ネットワークに入力し、最終的にナンバープレートテキスト行のキャラクタシーケンスを出力し、ナンバープレート識別を完了するテキスト行識別ステップS4とを含む。
【0010】
さらに、前記ステップS2において、YOLOv3ネットワークによってオリジナル画像におけるナンバープレート部分を検出する。
【0011】
さらに、前記YOLOv3ネットワークは、オリジナル画像の特徴図ディメンションを五回低減させ、それぞれ第一の特徴図、第二の特徴図、第三の特徴図、第四の特徴図及び第五の特徴図を得て、その後それぞれ第三の特徴図、第四の特徴図及び第五の特徴図をアップサンプリングを経た後にスプライスし、最後に特徴テンソルを出力し、ナンバープレートに対する検出を完了する。
【0012】
さらに、前記ステップS3は、具体的には、
回帰モデルを利用してCPTNネットワークの垂直検出フレームを予測して得るS31と、
予測して得られる垂直検出フレームに対して、CPTNネットワークにおいて発生する可能性のある水平方向での測位が正確でないことを防止できる境界最適化を行うS32と、
垂直方向上に重畳程度が設定される閾値に達する垂直検出フレームを一つの検出フレームに合併し、最終の垂直検出フレームを得て、垂直検出フレームの合併は、CTPNネットワークが同一ラインのテキストを二つの部分に分割することを防止できるS33と、
CPTNネットワークは、垂直検出フレームによってテキスト行の検出を行い、ナンバープレートテキスト行画像を得るS34と、を含む。
【0013】
さらに、前記垂直フレーム検出フレームのセンター位置tcと高さthの計算方法は、以下の通りである。
【0014】
【0015】
そのうち、cb
yが境界フレームのセンター位置であり、hbが境界フレームの高さであり、 ca
yがアンカーフレームのセンターであり、haがアンカーフレームの高さであり、前記境界最適化は、各垂直フレーム検出フレームが一つの水平方向検出のオフセット量twを計算し、該オフセット量twの計算式は、以下の通りである。
【0016】
【0017】
そのうち、xa
sideが実際のナンバープレート水平境界に最も近い座標であり、ca
xが垂直検出フレームセンター位置のx座標であり、waが垂直検出フレームフレームの幅である。
【0018】
さらに、前記ナンバープレートテキスト識別ネットワークは、補正ネットワークとテキスト識別ネットワークを含み、それぞれナンバープレートテキスト行画像に対する補正と文字識別を実現し、前記補正ネットワークは、二次元変換によって歪みとねじれのテキストを補正し、前記テキスト識別ネットワークは、エンコーダ-デコーダパラダイムのアテンションメカニズムが内蔵されているseq2seqネットワークを採用する。
【0019】
さらに、前記補正ネットワークは、測位ネットワークを含み、前記測位ネットワークは、オリジナルテキスト行の制御点ベクトル群Cに対して予測を行い、且つ逆伝播勾配によって、補正テキスト行の制御点ベクトル群Arを回帰分析して得て、前記補正ネットワークは、オリジナルテキスト行制御点ベクトル群Aと補正テキスト行制御点ベクトル群Arとの間の関係に基づき、オリジナルテキスト行画像に対して二次元変換を行い、補正後のテキスト行画像を得る。
【0020】
さらに好ましくは、前記測位ネットワークは、六つのコンボリューションフィルタレイヤ、五つの最大プールレイヤ及び二つの完全接続レイヤグループレイヤを含み、前記制御点は、五つを含み、それぞれは、ナンバープレートテキスト行の四つの頂点と対角線の交点である。
【0021】
さらに、前記テキスト識別ネットワークがナンバープレートテキスト行画像に対して文字識別を行うことは、具体的には、
エンコーダは、コンボリューションニューラルネットワークを使用して補正後のナンバープレートテキスト行画像上からテキスト特徴図を抽出し、その後テキスト特徴図を分割し且つ双方向LSTMネットワークに入力した後、テキスト特徴シーケンスを得るS41と、
デコーダは、コンテキストベクトル、デコーダ内部状態及び前ステップの出力を利用し、アテンションメカニズムとGRUサイクルネットワークユニットによって、各キャラクタとシーケンスターミネータの確率を出力し、現在のテキストシンボルを予測するS43と、を含む。
【0022】
さらに、前記デコーダの計算式は、以下の通りである。
【0023】
【0024】
そのうち、数式4がデコーダによってステップt2で出力される現在のテキストシンボル予測確率であり、数式5がデコーダのステップt2の内部状態ベクトルであり、数式6がデコーダのステップt2-1の内部状態ベクトルであり、数式7デコーダのステップt2のコンテキストベクトルであり、数式8がデコーダのステップt2-1の出力であり、rnnがGRUサイクルネットワークユニットであり、数式9がキャラクタ分類確率図であり、W0が完全接続ネットワークパラメータであり、b0が完全接続ネットワークオフセット量である。
【0025】
【0026】
【0027】
【0028】
【0029】
【0030】
【0031】
前記デコーダのステップt2のコンテキストベクトル数式7は、アテンションメカニズムによって得られ、その数式は、以下の通りである。
【0032】
【0033】
そのうち、Wconvがコンボリューションネットワークパラメータであり、数式11が完全接続ネットワークパラメータであり、数式12がエンコーダのステップt1のテキスト特徴シーケンスであり、数式13が重み付けパラメータであり、Tが入力シーケンスの長さであり、数式14がk時刻重み付けパラメータであり、v、W、Vがいずれも完全接続ネットワークパラメータであり、BLSTMが双方向LSTMネットワークであり、数式15がエンコーダのステップt1のテキスト特徴図を分割した後に得られるベクトルシーケンスであり、数式16がエンコーダのステップt1-1のテキスト特徴シーケンスである。
【0034】
【0035】
【0036】
【0037】
【0038】
【0039】
【発明の効果】
【0040】
従来技術に比べて、本発明は、以下の利点を有する。
1)本発明は、キャラクタ分割がない全新のナンバープレート識別方法を提案し、キャラクタ分割の代わりにナンバープレートテキスト行検出を導入し、キャラクタ分割に比べて、本発明は、同一ラインの連続テキストを全体として検出し、トレーニングに対する後続の識別モデルの効果を向上させ、既存のナンバープレート識別方法と比べて、本発明の方法は、モデルのロバスト性を向上させ、モデルの識別の正確度を向上させる。
2)本発明は、ナンバープレート識別問題を古典的なコンピュータ視覚問題--画像に基づくシーケンス識別に転化し、このように、トレーニングデータにはナンバープレートの二次元座標と識別する必要なキャラクタシーケンスのみを必要として、モデルトレーニングの時間とコストを節約する。
3)本発明では、ナンバープレートテキスト行検出によって、複数行のテキストのナンバープレートに適用でき、複数の国と地域の異なるナンバープレートを識別することができるため、本発明は、日常の都市交通管理に運用できるだけでなく、都市間、ひいては国際交通管理にも運用でき、スマートシティ建設の重要な構成部分となり、人工知能技術と中国の都市建設、道路建設、交通管理との結合に対して積極的な推進意義がある。
【図面の簡単な説明】
【0041】
【
図2】ナンバープレート検出のためのYOLOv3ネットワーク構造概略図である。
【
図3】ナンバープレートテキスト行検出のためのネットワークモデル概略図である。
【
図4】ナンバープレートテキスト行補正のためのネットワークモデル概略図である。
【
図5】ナンバープレートテキスト行制御点を予測するための測位ネットワーク概略図である。
【
図6】ナンバープレートテキスト行識別のためのネットワークモデル概略図である。
【発明を実施するための形態】
【0042】
以下、添付図面と具体的な実施例を参照しながら、本発明について詳細に説明する。明らかに、記述された実施例は、本発明の一部の実施例であり、全ての実施例ではない。本発明における実施例に基づき、当業者が創造的な労力を払わない前提で得られたすべての他の実施例は、いずれも本発明の保護範囲に属すべきである。
【0043】
実施例;
図1に示すように、本発明は、テキスト行識別に基づくナンバープレート識別方法を提供し、自然シーンでナンバープレートを識別でき、該方法は、コンボリューションニューラルネットワークとサイクルニューラルネットワークに基づき、主にナンバープレート検出(LPD)、ナンバープレートテキスト検出(LP Text Detection)及びナンバープレートテキスト識別(LP Text Rectification and Recognition)の三つのステップを含む。
【0044】
そのうち、ナンバープレート検出ステップにおいて、YOLOv3ネットワークによってオリジナル画像におけるナンバープレート部分を検出し、例えば、
図1において、オリジナル画像がオートバイクに乗っている人であり、ナンバープレート検出を経た後、オリジナル画像におけるナンバープレート一部のサブ画像を抽出する。
【0045】
ナンバープレートテキスト行検出ステップにおいて、CPTNネットワークによってナンバープレート上のテキスト行を分割し、国際上によく見られるナンバープレート上のテキストは、単一行と複数行に分けられてもよい。複数行のテキストに対して、後続の識別作業を容易にするために、まず二行のテキストを複数の単一行のテキストに分割する必要がある。単一行のテキストに対して、画像から直感的に見ると、前のステップのナンバープレート検出は、必ずしもナンバープレート上のテキスト行の位置を正確に測位することができないため、このステップも不可欠である。
図1のように、一つの二行のナンバープレートテキストが上下二行に分割され、単独で後続ネットワークに送られてテキスト識別が行われる。
【0046】
ナンバープレートテキスト行識別ステップは、TPSに基づく補正ネットワークと、アテンションメカニズムを含むSeq2Seqモデルに基づく識別ネットワークとによって、テキスト行の文字を識別し、ナンバープレート識別を完了し、撮影角度などの問題の影響で、ナンバープレートが画像中でねじれてしまう可能性があり、テキスト識別の効果を向上させるために、識別前にテキスト行に対して補正操作を行う必要がある。
図1において、最終的に二つのテキスト行をそれぞれ補正と識別した後、完全なナンバープレートの識別結果を得る。
【0047】
三つのステップの具体的な実行過程は、以下の通りである。
【0048】
(1)ナンバープレート検出ステップ
YOLOv3ネットワークを使用してオリジナル画像におけるナンバープレート部分を検出する時、オリジナル入力画像をまずグリッドに分割する必要があり、ナンバープレートのセンターがグリッドユニットにある場合、該グリッドは、ナンバープレート検出を担当する。
【0049】
図2に示すように、YOLOv3ネットワークのバックボーンネットワークは、古典的なDarknet-53であり、主に53レイヤのコンボリューションネットワークで構成され、bottom-up経路、top-down経路及びサイド接続を含む。
【0050】
本発明は、入力画像の解像度を608*608に設定し、Darknet-53のネットワーク構造に従って、特徴図のディメンションを五回低減させる:304、152、76、38、19。異なるサイズのターゲットを検出する時のネットワークの効果を向上させるために、YOLOv3ネットワークは、三種類の異なる次元の特徴図を使用してナンバープレートを検出し、それぞれは76、38、19であり、異なるサイズの特徴テンソルに対してアップサンプリングを経た後にスプライスを行い、最後に出力される特徴テンソルは、高い正確性を有するだけでなく、さらに高い意味性を有する。境界フレームの回帰複雑性を低減させるために、本発明は、Faster-RCNNにおけるAnchor Boxの概念又はSSDにおけるPrior Boxの概念を導入し、k-meansクラスタリング方法を使用してPrior Boxを得る。
【0051】
(2)ナンバープレートテキスト行検出ステップ
本発明のナンバープレート識別方法は、複数の国と地域のナンバープレートに適用され、周知のように、国内でよく見られるナンバープレートの文字は、いずれも単一行であるが、他の国のナンバープレートの文字が複数行であることを考慮すると、後続の文字識別を容易にするために、ナンバープレートの文字を行ごとに検出する必要があると考えられる。単一行のテキストのナンバープレートに対して、該ステップは、検出領域と実際領域のIoU値を向上させることができる。
【0052】
一般的な検出ターゲットとは異なり、テキスト行は、一つのキャラクタシーケンスであり、一貫性の意味を有する。領域生成ネットワーク(RPN)は、ナンバープレートテキスト行の開始位置と終了位置を測位することが比較的に困難であるため、CTPNモデルを採用してナンバープレートテキスト行を検出する。
【0053】
CTPNネットワークは、垂直フレームを導入してテキスト行を検出し、垂直フレームは、一組の等幅の検出フレームであり、それらの高さは、それぞれ異なり、一つの垂直フレームは、センター位置と高さの二つの指標で決定されてもよい。CPTNネットワークにおいて、一つの回帰モデルを用いて垂直フレームを予測する。垂直フレームのセンター位置tcと高さthの計算方法は、以下の通りである。
【0054】
【0055】
そのうち、cb
yとhbは、それぞれ境界フレームのセンター位置と高さを表し、ca
yとhaは、入力画像に基づいて事前に計算し、計算を助けることができる。しかし、画像が水平方向上に16画素の等幅の領域に分割されているため、テキスト行検出フレームが水平方向上にも実際のナンバープレート領域を完全にカバーできることを保証できず、CPTNモデルにおいて、水平方向での測位が正確でない状況が発生する可能性がある。この問題を解决するために、境界最適化の方法を導入し、各垂直フレームが一つの水平方向検出のオフセット量を計算し、このオフセット量の計算方法は、以下の通りである。
【0056】
【0057】
そのうち、xa
sideが実際のナンバープレート水平境界に最も近い座標を表し、ca
xが垂直フレームセンター位置のx座標を表し、waが垂直フレームの幅を表す。
【0058】
図3に示すように、CTPNモデルのバックボーンネットワークは、VGG16ネットワークを使用し、入力画像は、任意の大きさであってもよく、VGG16によって出力される特徴図のサイズは、入力画像の大きさに依存する。複数回のコンボリューションを経て特徴を抽出し、最終的にW*H*Nの特徴図を得て、Nが特徴チャネル数であり、WとHがそれぞれ特徴図の幅と高さである。次に256個の3*3のコンボリューションコアが特徴図上でスライドし、画素点ごとに256次元の特徴ベクトルを抽出し、ピクチャにおける同一行内で抽出された複数の256次元ベクトルを一つのシーケンスと見なし、BLSTMモジュール中に導入し、BLSTMモジュールの後に512次元の完全接続層と出力層が接続される。
【0059】
CTPNネットワークは、同一行のテキストを二つの部分に分割することがあり、本発明では、検出フレーム合併を導入することにより、後続の処理を行い、二つの検出が垂直方向上での重畳がある程度に達した場合、それらを一つの検出フレームに合併し、具体的には、一つの閾値を設定し、垂直方向上での重畳部分が閾値よりも高い場合、両者を合併することである。
【0060】
(3)ナンバープレートテキスト行識別ステップ
該ステップは、すでに検出されたナンバープレート上のテキスト行に対する識別を完了する必要があるが、識別する前に、テキスト行を補正する必要がある。撮影画角の問題により、ピクチャ上の文字が歪んで見える可能性があり、ある程度の補正により、歪んだ文字をできるだけ規則的にし、このように、識別の正確率を向上させることができる。
【0061】
本発明は、Seq2Seqネットワークを使用してテキスト識別を行い、そのうちに古典的なアテンションメカニズムが含まれる。テキストの補正に対して、本発明は、STNネットワークをテキスト識別ネットワークに嵌め込むことによって実現され、2D変換によって歪みとねじれのテキストを補正する。
【0062】
図4に示すように、STNネットワークの主な考え方は、空間変換操作をニューラルネットワークモデルにモデリングする。補正対象の画像において、矩形フレームの四つの頂点と対角線の交点にそれぞれ位置する五つの制御点を決定する。入力ピクチャをIに仮定し、出力される補正後の画像がI
rであり、原画像の五つの制御点の座標からなるベクトル群がAと表され、出力される補正後の画像における五つの制御点からなるベクトル群がA
rと表され、オリジナルテキスト行の制御点ベクトル群Aにおける各制御点の座標は、具体的には、数式19と表される。二次元変換の本質は、一つの補間函数fに近似し、A
r=f(A)を満たすことである。TPS(Thin-Plate-Spline)モデルは、歪みテキスト補正の処理において非常に有効であることが証明されており、ナンバープレートピクチャの補正タスクは、五つの制御点位置の予測タスクに帰着されてもよく、測位ネットワークを用いて画像I上の制御点を予測し、測位ネットワークは、逆伝播勾配によって、出力画像の制御点を回帰分析し、出力画像の五つの制御点を自動的にラベル付けし、
6つのコンボリューションフィルタレイヤ、5つの最大プールレイヤ及び二つの完全接続レイヤで構成される。一つの10次元のベクトルを出力し、5つの2次元ベクトルに再構成し、5つの制御点座標に対応させる。制御点の座標は、正規化を経て、つまり、左上のの頂点座標が(0、0)であり、右下の頂点座標が(1、1)である。
【0063】
【0064】
p点の座標が[xp,yp]と表され、それに対応する補正後の点p’の座標は、以下のような方法に従って計算することができる。
【0065】
【0066】
そのうち、Φ(x)=x2log(x)は、点pとk番目の制御点との間のユークリッド距離に応用される核関数である。
【0067】
線形システムを解くことによってTPSのパラメータを解いた後、最終的に得られる出力される補正画像の数式は、以下の通りである。
【0068】
【0069】
そのうち、Vがダウンサンプラであり、Iが入力ピクチャであり、Irが補正後のピクチャであり、原図と補正図の画素点は、ダウンサンプリングを経て最終的に補正された画像を得る。
【0070】
図6に示すように、ナンバープレートテキスト識別ネットワークは、ナンバープレートテキスト行のキャラクタシーケンスを出力するために用いられ、該ネットワークは、一つのseq2seqフレームであり、且つエンコーダ-デコーダパラダイムに依存する内蔵されているアテンションメカニズムを有する。
【0071】
まず、エンコーダは、コンボリューションニューラルネットワークを使用して補正後のナンバープレートテキスト行画像上から特徴を抽出し、画像サイズが32*100である。特徴を抽出するコンボリューションネットワークは、ResNet-50に基づく改良であり、最後の三つのダウンサンプリングレイヤのコンボリューションコアの移動ステップサイズは、(2、1)であり、このようにするのは、各特徴チャネル上の特徴図が一つのベクトルであることを保証するためであり、従って、最後に得られる特徴図の大きさは、1*25*512(h*w*n)である。その後特徴図を分割し、一つのベクトルシーケンスで構成されるベクトル群を得て、 X=[x1,x2,…,xT]と表され、そのうち、T=25であり、すなわち特徴図大きさにおける特徴幅w、ベクトル群における各ベクトルは、いずれも512次元であり、すなわち特徴図大きさにおける特徴チャネル数nである。
【0072】
双方向LSTM(BLSTM)ネットワークは、二つの方向上での特徴シーケンスの長距離依存関係を取得することができるので、BLSTMを前のステップで取得された特徴シーケンスに応用することにより、より豊富なコンテキスト関係を有する特徴シーケンスを取得する。BLSTMによって出力される新たな特徴シーケンスは、H=[h1,h2,…,hT]と表され、そのうち、任意の一つの数式22は、数式23と表されてもよい。
【0073】
【0074】
【0075】
BLSTMの任意の一ステップにおいて、デコーダは、最終的にコンテキストベクトルC、デコーダの内部状態s、前のステップの出力yに基づき、最後に一つの確率図を出力し、この確率図は、各キャラクタとシーケンスターミネータ号(EOS)の確率を表す。コンテキストベクトルCは、Hの集約情報であり、C=[c1,c2,…,cT],C=q(H)と表され、ここでのqは、アテンションメカニズムであり、数式24と表されてもよく、
そのうち、数式25は、エンコーダのステップt1の隠れた状態数式26とデコーダのステップt2-1の隠れた状態数式27によって計算して得られるものであり、W、V、bは、いずれもトレーニング可能な重み付けである。
【0076】
【0077】
【0078】
【0079】
【0080】
エンコーダの出力は、また入力としてデコーダに入り、デコーダは、一つの出力ベクトルzと一つの新しい状態ベクトルsを計算する。
【0081】
【0082】
そのうち、yは、one-hot形式であり、rnnは、GRUサイクルネットワークユニットを表し、出力zは、現在のテキストシンボルを予測するために用いられる。
【0083】
最尤推定の考え方を運用し、出力シーケンスの条件確率を最大化するために、最適化する必要なターゲット関数は、以下の通りである。
【0084】
【0085】
出力が最大長さを超えた場合、またはEOSシンボルを得た場合、出力シーケンスが終了し、最終的に画像中のナンバープレートテキスト行の識別結果を得たことを示し、本実施例は、Beam Researchアルゴリズムを使用し、そのうちBeam sizeのパラメータが5に設定される。
【0086】
本発明は、AOLPデータセットとUFPR-ALPRデータセットによってトレーニングとテストを行うことにより、本発明によって提案される方法の高いロバスト性と高い性能を検証した。
【0087】
ナンバープレート検出ステップにおいて、IoU値が0.5より大きい場合、ナンバープレートの検出に成功したとみなされ、IoUの数式は、以下の通りである。
【0088】
【0089】
そのうち、Rdetが検出フレームであり、Rgtがマークフレームである。
【0090】
ナンバープレートテキスト行検出タスクにおいて、IoUは、検出の正確性を評価するために用いられる。また、ナンバープレートテキスト識別タスクといくつかのナンバープレートテキスト検出タスクにおいて、F1-score使用して性能を評価し、数式は、以下の通りである。
【0091】
【0092】
この指標は、正確率precesionとリコール率recallを同時に考慮した。
【0093】
本実施例では、二つのデータセットを使用してそれぞれ検証する。各ステップが終了した後、いずれもその効果を検査し、各ステップがいずれも高い性能と高いロバスト性であることを確保する。UFPR-ALPRデータセットとは異なり、AOLPデータセット自体は、トレーニングセットとテストセットを分割していないので、そのうちの三つのサブセットのうちの二つをトレーニングセットとして、一つをテストセットとして利用してもよく、例えば、LEとACサブセットを使用してナンバープレート識別モデルをトレーニングし、RPサブセットを使用してテストする。二つのデータセットのそれぞれの三つの主なステップにおける詳細なテスト結果は、表1から表6を参照してください。
【0094】
【0095】
【0096】
【0097】
【0098】
【0099】
【0100】
以上に記述されているのは、本発明の具体的な実施の形態に過ぎず、本発明の保護範囲は、それに限らない。いかなる当業者が、本発明に掲示される技術的範囲内に、各種の等価な修正又は置き換えを容易に想到でき、これらの修正又は置き換えは、いずれも、本発明の保護範囲内に含まれるべきである。このため、本発明の保護範囲は、請求項の保護範囲を基にすべきである。