特開2022-25008 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 同済大学の特許一覧

特開2022-25008テキスト行識別に基づくナンバープレート識別方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022025008

(43)【公開日】2022-02-09

(54)【発明の名称】テキスト行識別に基づくナンバープレート識別方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20220202BHJP

G06N 3/04 20060101ALI20220202BHJP

G06N 3/08 20060101ALI20220202BHJP

【ＦＩ】

G06T7/00 350C

G06N3/04

G06N3/08

【審査請求】有

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2021105233

(22)【出願日】2021-06-24

(31)【優先権主張番号】202010735739.2

(32)【優先日】2020-07-28

(33)【優先権主張国・地域又は機関】CN

(71)【出願人】

【識別番号】513059401

【氏名又は名称】同▲済▼大学

(74)【代理人】

【識別番号】100091683

【弁理士】

【氏名又は名称】▲吉▼川俊雄

(74)【代理人】

【識別番号】100179316

【弁理士】

【氏名又は名称】市川寛奈

(72)【発明者】

【氏名】黄徳双

(72)【発明者】

【氏名】秦魏

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096BA04

5L096BA17

5L096FA05

5L096FA12

5L096FA16

5L096FA18

5L096GA30

5L096HA11

5L096JA11

(57)【要約】（修正有）

【課題】高いロバスト性及び高い性能を有するテキスト行識別に基づくナンバープレート識別方法を提供する。
【解決手段】ナンバープレート識別方法は、オリジナル画像を取得するステップと、オリジナル画像におけるナンバープレート部分を検出し、ナンバープレート画像を得るナンバープレート検出ステップと、テキスト検出ネットワークによってナンバープレート上のテキスト行を検出し、ナンバープレートテキスト行画像を得るテキスト行検出ステップと、ナンバープレートテキスト行画像をナンバープレートテキスト行識別ネットワークに入力し、最終的にナンバープレートテキスト行のキャラクタシーケンスを出力し、ナンバープレート識別を完了するテキスト行識別ステップと、を含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

テキスト行識別に基づくナンバープレート識別方法であって、
オリジナル画像を取得するＳ１と、
オリジナル画像におけるナンバープレート部分を検出し、ナンバープレート画像を得るナンバープレート検出ステップＳ２と、
テキスト検出ネットワークによってナンバープレート上のテキスト行を検出し、ナンバープレートテキスト行画像を得るテキスト行検出ステップＳ３と、
ナンバープレートテキスト行画像をナンバープレートテキスト行識別ネットワークに入力し、最終的にナンバープレートテキスト行のキャラクタシーケンスを出力し、ナンバープレート識別を完了するテキスト行識別ステップＳ４とを含む、ことを特徴とする、テキスト行識別に基づくナンバープレート識別方法。

【請求項2】

前記ステップＳ２において、ＹＯＬＯｖ３ネットワークによってオリジナル画像におけるナンバープレート部分を検出する、ことを特徴とする、請求項１に記載のテキスト行識別に基づくナンバープレート識別方法。

【請求項3】

前記ＹＯＬＯｖ３ネットワークは、オリジナル画像の特徴図のディメンションを五回低減させ、それぞれ第一の特徴図、第二の特徴図、第三の特徴図、第四の特徴図及び第五の特徴図を得て、その後それぞれ第三の特徴図、第四の特徴図及び第五の特徴図をアップサンプリングを経た後にスプライスし、最後に特徴テンソルを出力し、ナンバープレートに対する検出を完了する、ことを特徴とする、請求項２に記載のテキスト行識別に基づくナンバープレート識別方法。

【請求項4】

前記ステップＳ３は、具体的には、
回帰モデルを利用してＣＰＴＮネットワークの垂直検出フレームを予測して得るＳ３１と、
予測して得られる垂直検出フレームに対して境界最適化を行うＳ３２と、
垂直方向上に重畳程度が設定される閾値に達する垂直検出フレームを一つの検出フレームに合併し、最終の垂直検出フレームを得るＳ３３と、
ＣＰＴＮネットワークは、垂直検出フレームによってテキスト行の検出を行い、ナンバープレートテキスト行画像を得るＳ３４と、を含む、ことを特徴とする、請求項１に記載のテキスト行識別に基づくナンバープレート識別方法。

【請求項5】

前記垂直フレーム検出フレームのセンター位置ｔ_ｃと高さｔ_ｈの計算方法は、数式１と数式２の通りであり、そのうち、ｃ^ｂ _ｙが境界フレームのセンター位置であり、ｈ^ｂが境界フレームの高さであり、ｃ^ａ _ｙがアンカーフレームのセンターであり、ｈ^ａがアンカーフレームの高さであり、

【数1】

【数2】

前記境界最適化は、各垂直フレーム検出フレームが一つの水平方向検出のオフセット量ｔ_ｗを計算し、該オフセット量ｔ_ｗの計算式は数式３の通りであり、

【数3】

そのうち、ｘ^ａ _ｓｉｄｅが実際のナンバープレート水平境界に最も近い座標であり、ｃ^ａ _ｘが垂直検出フレームセンター位置のｘ座標であり、ｗ^ａが垂直検出フレームフレームの幅であることを特徴とする、請求項４に記載のテキスト行識別に基づくナンバープレート識別方法。

【請求項6】

前記ナンバープレートテキスト識別ネットワークは、補正ネットワークとテキスト識別ネットワークを含み、それぞれナンバープレートテキスト行画像に対する補正と文字識別を実現し、前記補正ネットワークは、二次元変換によって歪みとねじれのテキストを補正し、前記テキスト識別ネットワークは、エンコーダ－デコーダパラダイムのアテンションメカニズムが内蔵されているｓｅｑ２ｓｅｑネットワークを採用する、ことを特徴とする、請求項１に記載のテキスト行識別に基づくナンバープレート識別方法。

【請求項7】

前記補正ネットワークは、測位ネットワークを含み、前記測位ネットワークは、オリジナルテキスト行の制御点ベクトル群Aに対して予測を行い、且つ逆伝播勾配によって、補正テキスト行の制御点ベクトル群Ａ^ｒを回帰分析して得て、前記補正ネットワークは、オリジナルテキスト行制御点ベクトル群Cと補正テキスト行制御点ベクトル群Ａ^ｒとの間の関係に基づき、オリジナルテキスト行画像に対して二次元変換を行い、補正後のテキスト行画像を得る、ことを特徴とする、請求項６に記載のテキスト行識別に基づくナンバープレート識別方法。

【請求項8】

前記測位ネットワークは、六つのコンボリューションフィルタレイヤ、五つの最大プールレイヤ及び二つの完全接続レイヤグループレイヤを含み、前記制御点は、五つを含み、それぞれは、ナンバープレートテキスト行の四つの頂点と対角線の交点である、ことを特徴とする、請求項７に記載のテキスト行識別に基づくナンバープレート識別方法。

【請求項9】

前記テキスト識別ネットワークがナンバープレートテキスト行画像に対して文字識別を行うことは、具体的には、
エンコーダは、コンボリューションニューラルネットワークを使用して補正後のナンバープレートテキスト行画像上からテキスト特徴図を抽出し、その後テキスト特徴図を分割し且つ双方向ＬＳＴＭネットワークに入力した後、テキスト特徴シーケンスｈ_ｔを得るＳ４１と、
テキスト特徴シーケンスｈ_ｔをデコーダに入力するＳ４２と、
デコーダは、コンテキストベクトル、デコーダ内部状態及び前のステップの出力を利用し、アテンションメカニズムとＧＲＵサイクルネットワークユニットによって、各キャラクタとシーケンスターミネータの確率を出力し、現在のテキストシンボルを予測するＳ４３と、を含む、ことを特徴とする、請求項６に記載のテキスト行識別に基づくナンバープレート識別方法。

【請求項10】

前記デコーダの計算式は、数式４の通りであり、

【数4】

そのうち、数式５がデコーダによってステップｔ_２で出力される現在のテキストシンボル予測確率であり、数式６がデコーダのステップｔ_２の内部状態ベクトルであり、数式７がデコーダのステップｔ_２－１の内部状態ベクトルであり、数式８デコーダのステップｔ_２のコンテキストベクトルであり、数式９がデコーダのステップｔ_２－１の出力であり、ｒｎｎがＧＲＵサイクルネットワークユニットであり、数式１０がキャラクタ分類確率図であり、Ｗ_０が完全接続ネットワークパラメータであり、ｂ_０が完全接続ネットワークオフセット量であり、

【数5】

【数6】

【数7】

【数8】

【数9】

【数10】

前記デコーダのステップｔ_２のコンテキストベクトル数式８は、アテンションメカニズムによって得られ、その数式は、数式１１の通りであり、

【数11】

そのうち、Ｗ_ｃｏｎｖがコンボリューションネットワークパラメータであり、数式１２が完全接続ネットワークパラメータであり、数式１３がエンコーダのステップｔ_１のテキスト特徴シーケンスであり、数式１４が重み付けパラメータであり、Ｔが入力シーケンスの長さであり、数式１５がｋ時刻重み付けパラメータであり、ｖ、Ｗ、Ｖがいずれも完全接続ネットワークパラメータであり、ＢＬＳＴＭが双方向ＬＳＴＭネットワークであり、数式１６がエンコーダのステップｔ_１のテキスト特徴図を分割した後に得られるベクトルシーケンスであり、数式１７がエンコーダのステップｔ_１－１のテキスト特徴シーケンスである、

【数12】

【数13】

【数14】

【数15】

【数16】

【数17】

ことを特徴とする、請求項９に記載のテキスト行識別に基づくナンバープレート識別方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理とモード識別に基づくナンバープレート識別技術に関し、特にテキスト行識別に基づくナンバープレート識別方法に関する。

【背景技術】

【0002】

ナンバープレート検出と識別は、典型的なコンピュータ視覚分野のタスクであり、インテリジェント交通システムにおいて広い応用の将来性がある。現代交通システムの発展に伴い、交通量は、急速に増加し、ナンバープレート識別システムは、交通管理、公共安全などを補助することができる。

【0003】

過去十数年来、ナンバープレート識別問題は、業界で広く注目されている。画質に影響を与えるさまざまな要因、例えば撮影環境（照明、位置、焦点ぼけなど）、ピクチャ品質（解像度など）及び複雑な撮影背景を考慮すると、任意のシーンでのナンバープレート識別タスクは、依然として困難に直面している。

【0004】

既存のいくつかのナンバープレート識別システムの識別方法は、主にナンバープレート検出、キャラクタ分割及びシーン文字識別のステップを含む。ナンバープレート識別は、自然画像からナンバープレートの位置を検出し、且つ検出されたナンバープレート上からテキスト情報を識別するという二つの部分にまとめることができる。既存のいくつかのナンバープレート識別システムのワークフローにおいて、あるものは、入力された自然画像から出力されたテキスト内容までの完全なワークフローを実現することに重点を置き、あるワークフローは、識別の正確性を向上させるために、ナンバープレート検出の前に車両検出を加えている。

【0005】

既存のナンバープレート識別方法は、ディープラーニングに基づく方法と非ディープラーニングに基づく方法の二つに分けることができる。ディープラーニングが発展する前に、一般的には色情報、テキスト情報、またはナンバープレートのエッジ情報に基づいてナンバープレートを大まかに識別する。使用される方法は、一般的には有限ボルツマンマシンまたはサポートベクトルマシンである。

【0006】

近年、ディープラーニングの発展に伴い、キャラクタ分割に基づくナンバープレート識別方法が比較的に流行している。キャラクタ分割に基づく方法には、事前に分割されたトレーニングデータを必要とするため、トレーニングデータへのタグ付けが困難であり、且つそれは、フォントファイルを利用して画像を自動的に生成するため、ナンバープレート識別の効果とロバスト性が比較的に低い。

【発明の概要】

【発明が解決しようとする課題】

【0007】

本発明の目的は、上記従来の技術の欠陥を克服するために、識別効果及びロバスト性を向上させるテキスト行識別に基づくナンバープレート識別方法を提供することである。

【課題を解決するための手段】

【0008】

本発明の目的は、以下の技術案よって実現されてもよい。

【0009】

テキスト行識別に基づくナンバープレート識別方法であって、
オリジナル画像を取得するＳ１と、
オリジナル画像におけるナンバープレート部分を検出し、ナンバープレート画像を得るナンバープレート検出ステップＳ２と、
ＣＰＴＮネットワークによってナンバープレート上のテキスト行を検出し、ナンバープレートテキスト行画像を得るテキスト行検出ステップＳ３と、
ナンバープレートテキスト行画像をナンバープレートテキスト行識別ネットワークに入力し、最終的にナンバープレートテキスト行のキャラクタシーケンスを出力し、ナンバープレート識別を完了するテキスト行識別ステップＳ４とを含む。

【0010】

さらに、前記ステップＳ２において、ＹＯＬＯｖ３ネットワークによってオリジナル画像におけるナンバープレート部分を検出する。

【0011】

さらに、前記ＹＯＬＯｖ３ネットワークは、オリジナル画像の特徴図ディメンションを五回低減させ、それぞれ第一の特徴図、第二の特徴図、第三の特徴図、第四の特徴図及び第五の特徴図を得て、その後それぞれ第三の特徴図、第四の特徴図及び第五の特徴図をアップサンプリングを経た後にスプライスし、最後に特徴テンソルを出力し、ナンバープレートに対する検出を完了する。

【0012】

さらに、前記ステップＳ３は、具体的には、
回帰モデルを利用してＣＰＴＮネットワークの垂直検出フレームを予測して得るＳ３１と、
予測して得られる垂直検出フレームに対して、ＣＰＴＮネットワークにおいて発生する可能性のある水平方向での測位が正確でないことを防止できる境界最適化を行うＳ３２と、
垂直方向上に重畳程度が設定される閾値に達する垂直検出フレームを一つの検出フレームに合併し、最終の垂直検出フレームを得て、垂直検出フレームの合併は、ＣＴＰＮネットワークが同一ラインのテキストを二つの部分に分割することを防止できるＳ３３と、
ＣＰＴＮネットワークは、垂直検出フレームによってテキスト行の検出を行い、ナンバープレートテキスト行画像を得るＳ３４と、を含む。

【0013】

さらに、前記垂直フレーム検出フレームのセンター位置ｔ_ｃと高さｔ_ｈの計算方法は、以下の通りである。

【0014】

【数1】

【0015】

そのうち、ｃ^ｂ _ｙが境界フレームのセンター位置であり、ｈ^ｂが境界フレームの高さであり、ｃ^ａ _ｙがアンカーフレームのセンターであり、ｈ^ａがアンカーフレームの高さであり、前記境界最適化は、各垂直フレーム検出フレームが一つの水平方向検出のオフセット量ｔ_ｗを計算し、該オフセット量ｔ_ｗの計算式は、以下の通りである。

【0016】

【数2】

【0017】

そのうち、ｘ^ａ _ｓｉｄｅが実際のナンバープレート水平境界に最も近い座標であり、ｃ^ａ _ｘが垂直検出フレームセンター位置のｘ座標であり、ｗ^ａが垂直検出フレームフレームの幅である。

【0018】

さらに、前記ナンバープレートテキスト識別ネットワークは、補正ネットワークとテキスト識別ネットワークを含み、それぞれナンバープレートテキスト行画像に対する補正と文字識別を実現し、前記補正ネットワークは、二次元変換によって歪みとねじれのテキストを補正し、前記テキスト識別ネットワークは、エンコーダ－デコーダパラダイムのアテンションメカニズムが内蔵されているｓｅｑ２ｓｅｑネットワークを採用する。

【0019】

さらに、前記補正ネットワークは、測位ネットワークを含み、前記測位ネットワークは、オリジナルテキスト行の制御点ベクトル群Ｃに対して予測を行い、且つ逆伝播勾配によって、補正テキスト行の制御点ベクトル群Ａ^ｒを回帰分析して得て、前記補正ネットワークは、オリジナルテキスト行制御点ベクトル群Ａと補正テキスト行制御点ベクトル群Ａ^ｒとの間の関係に基づき、オリジナルテキスト行画像に対して二次元変換を行い、補正後のテキスト行画像を得る。

【0020】

さらに好ましくは、前記測位ネットワークは、六つのコンボリューションフィルタレイヤ、五つの最大プールレイヤ及び二つの完全接続レイヤグループレイヤを含み、前記制御点は、五つを含み、それぞれは、ナンバープレートテキスト行の四つの頂点と対角線の交点である。

【0021】

さらに、前記テキスト識別ネットワークがナンバープレートテキスト行画像に対して文字識別を行うことは、具体的には、
エンコーダは、コンボリューションニューラルネットワークを使用して補正後のナンバープレートテキスト行画像上からテキスト特徴図を抽出し、その後テキスト特徴図を分割し且つ双方向ＬＳＴＭネットワークに入力した後、テキスト特徴シーケンスを得るＳ４１と、

デコーダは、コンテキストベクトル、デコーダ内部状態及び前ステップの出力を利用し、アテンションメカニズムとＧＲＵサイクルネットワークユニットによって、各キャラクタとシーケンスターミネータの確率を出力し、現在のテキストシンボルを予測するＳ４３と、を含む。

【0022】

さらに、前記デコーダの計算式は、以下の通りである。

【0023】

【数3】

【0024】

そのうち、数式４がデコーダによってステップｔ_２で出力される現在のテキストシンボル予測確率であり、数式５がデコーダのステップｔ_２の内部状態ベクトルであり、数式６がデコーダのステップｔ_２－１の内部状態ベクトルであり、数式７デコーダのステップｔ_２のコンテキストベクトルであり、数式８がデコーダのステップｔ_２－１の出力であり、ｒｎｎがＧＲＵサイクルネットワークユニットであり、数式９がキャラクタ分類確率図であり、Ｗ_０が完全接続ネットワークパラメータであり、ｂ_０が完全接続ネットワークオフセット量である。

【0025】

【数4】

【0026】

【数5】

【0027】

【数6】

【0028】

【数7】

【0029】

【数8】

【0030】

【数9】

【0031】

前記デコーダのステップｔ_２のコンテキストベクトル数式７は、アテンションメカニズムによって得られ、その数式は、以下の通りである。

【0032】

【数10】

【0033】

そのうち、Ｗ_ｃｏｎｖがコンボリューションネットワークパラメータであり、数式１１が完全接続ネットワークパラメータであり、数式１２がエンコーダのステップｔ_１のテキスト特徴シーケンスであり、数式１３が重み付けパラメータであり、Ｔが入力シーケンスの長さであり、数式１４がｋ時刻重み付けパラメータであり、ｖ、Ｗ、Ｖがいずれも完全接続ネットワークパラメータであり、ＢＬＳＴＭが双方向ＬＳＴＭネットワークであり、数式１５がエンコーダのステップｔ_１のテキスト特徴図を分割した後に得られるベクトルシーケンスであり、数式１６がエンコーダのステップｔ_１－１のテキスト特徴シーケンスである。

【0034】

【数11】

【0035】

【数12】

【0036】

【数13】

【0037】

【数14】

【0038】

【数15】

【0039】

【数16】

【発明の効果】

【0040】

従来技術に比べて、本発明は、以下の利点を有する。
１）本発明は、キャラクタ分割がない全新のナンバープレート識別方法を提案し、キャラクタ分割の代わりにナンバープレートテキスト行検出を導入し、キャラクタ分割に比べて、本発明は、同一ラインの連続テキストを全体として検出し、トレーニングに対する後続の識別モデルの効果を向上させ、既存のナンバープレート識別方法と比べて、本発明の方法は、モデルのロバスト性を向上させ、モデルの識別の正確度を向上させる。
２）本発明は、ナンバープレート識別問題を古典的なコンピュータ視覚問題－－画像に基づくシーケンス識別に転化し、このように、トレーニングデータにはナンバープレートの二次元座標と識別する必要なキャラクタシーケンスのみを必要として、モデルトレーニングの時間とコストを節約する。
３）本発明では、ナンバープレートテキスト行検出によって、複数行のテキストのナンバープレートに適用でき、複数の国と地域の異なるナンバープレートを識別することができるため、本発明は、日常の都市交通管理に運用できるだけでなく、都市間、ひいては国際交通管理にも運用でき、スマートシティ建設の重要な構成部分となり、人工知能技術と中国の都市建設、道路建設、交通管理との結合に対して積極的な推進意義がある。

【図面の簡単な説明】

【0041】

【図1】本発明の方法の全体フローチャートである。

【図2】ナンバープレート検出のためのＹＯＬＯｖ３ネットワーク構造概略図である。

【図3】ナンバープレートテキスト行検出のためのネットワークモデル概略図である。

【図4】ナンバープレートテキスト行補正のためのネットワークモデル概略図である。

【図5】ナンバープレートテキスト行制御点を予測するための測位ネットワーク概略図である。

【図6】ナンバープレートテキスト行識別のためのネットワークモデル概略図である。

【発明を実施するための形態】

【0042】

以下、添付図面と具体的な実施例を参照しながら、本発明について詳細に説明する。明らかに、記述された実施例は、本発明の一部の実施例であり、全ての実施例ではない。本発明における実施例に基づき、当業者が創造的な労力を払わない前提で得られたすべての他の実施例は、いずれも本発明の保護範囲に属すべきである。

【0043】

実施例；
図１に示すように、本発明は、テキスト行識別に基づくナンバープレート識別方法を提供し、自然シーンでナンバープレートを識別でき、該方法は、コンボリューションニューラルネットワークとサイクルニューラルネットワークに基づき、主にナンバープレート検出（ＬＰＤ）、ナンバープレートテキスト検出（ＬＰＴｅｘｔＤｅｔｅｃｔｉｏｎ）及びナンバープレートテキスト識別（ＬＰＴｅｘｔＲｅｃｔｉｆｉｃａｔｉｏｎａｎｄＲｅｃｏｇｎｉｔｉｏｎ）の三つのステップを含む。

【0044】

そのうち、ナンバープレート検出ステップにおいて、ＹＯＬＯｖ３ネットワークによってオリジナル画像におけるナンバープレート部分を検出し、例えば、図１において、オリジナル画像がオートバイクに乗っている人であり、ナンバープレート検出を経た後、オリジナル画像におけるナンバープレート一部のサブ画像を抽出する。

【0045】

ナンバープレートテキスト行検出ステップにおいて、ＣＰＴＮネットワークによってナンバープレート上のテキスト行を分割し、国際上によく見られるナンバープレート上のテキストは、単一行と複数行に分けられてもよい。複数行のテキストに対して、後続の識別作業を容易にするために、まず二行のテキストを複数の単一行のテキストに分割する必要がある。単一行のテキストに対して、画像から直感的に見ると、前のステップのナンバープレート検出は、必ずしもナンバープレート上のテキスト行の位置を正確に測位することができないため、このステップも不可欠である。図１のように、一つの二行のナンバープレートテキストが上下二行に分割され、単独で後続ネットワークに送られてテキスト識別が行われる。

【0046】

ナンバープレートテキスト行識別ステップは、ＴＰＳに基づく補正ネットワークと、アテンションメカニズムを含むＳｅｑ２Ｓｅｑモデルに基づく識別ネットワークとによって、テキスト行の文字を識別し、ナンバープレート識別を完了し、撮影角度などの問題の影響で、ナンバープレートが画像中でねじれてしまう可能性があり、テキスト識別の効果を向上させるために、識別前にテキスト行に対して補正操作を行う必要がある。図１において、最終的に二つのテキスト行をそれぞれ補正と識別した後、完全なナンバープレートの識別結果を得る。

【0047】

三つのステップの具体的な実行過程は、以下の通りである。

【0048】

（１）ナンバープレート検出ステップ
ＹＯＬＯｖ３ネットワークを使用してオリジナル画像におけるナンバープレート部分を検出する時、オリジナル入力画像をまずグリッドに分割する必要があり、ナンバープレートのセンターがグリッドユニットにある場合、該グリッドは、ナンバープレート検出を担当する。

【0049】

図２に示すように、ＹＯＬＯｖ３ネットワークのバックボーンネットワークは、古典的なＤａｒｋｎｅｔ－５３であり、主に５３レイヤのコンボリューションネットワークで構成され、ｂｏｔｔｏｍ－ｕｐ経路、ｔｏｐ－ｄｏｗｎ経路及びサイド接続を含む。

【0050】

本発明は、入力画像の解像度を６０８＊６０８に設定し、Ｄａｒｋｎｅｔ－５３のネットワーク構造に従って、特徴図のディメンションを五回低減させる：３０４、１５２、７６、３８、１９。異なるサイズのターゲットを検出する時のネットワークの効果を向上させるために、ＹＯＬＯｖ３ネットワークは、三種類の異なる次元の特徴図を使用してナンバープレートを検出し、それぞれは７６、３８、１９であり、異なるサイズの特徴テンソルに対してアップサンプリングを経た後にスプライスを行い、最後に出力される特徴テンソルは、高い正確性を有するだけでなく、さらに高い意味性を有する。境界フレームの回帰複雑性を低減させるために、本発明は、Ｆａｓｔｅｒ－ＲＣＮＮにおけるＡｎｃｈｏｒＢｏｘの概念又はＳＳＤにおけるＰｒｉｏｒＢｏｘの概念を導入し、ｋ－ｍｅａｎｓクラスタリング方法を使用してＰｒｉｏｒＢｏｘを得る。

【0051】

（２）ナンバープレートテキスト行検出ステップ
本発明のナンバープレート識別方法は、複数の国と地域のナンバープレートに適用され、周知のように、国内でよく見られるナンバープレートの文字は、いずれも単一行であるが、他の国のナンバープレートの文字が複数行であることを考慮すると、後続の文字識別を容易にするために、ナンバープレートの文字を行ごとに検出する必要があると考えられる。単一行のテキストのナンバープレートに対して、該ステップは、検出領域と実際領域のＩｏＵ値を向上させることができる。

【0052】

一般的な検出ターゲットとは異なり、テキスト行は、一つのキャラクタシーケンスであり、一貫性の意味を有する。領域生成ネットワーク（ＲＰＮ）は、ナンバープレートテキスト行の開始位置と終了位置を測位することが比較的に困難であるため、ＣＴＰＮモデルを採用してナンバープレートテキスト行を検出する。

【0053】

ＣＴＰＮネットワークは、垂直フレームを導入してテキスト行を検出し、垂直フレームは、一組の等幅の検出フレームであり、それらの高さは、それぞれ異なり、一つの垂直フレームは、センター位置と高さの二つの指標で決定されてもよい。ＣＰＴＮネットワークにおいて、一つの回帰モデルを用いて垂直フレームを予測する。垂直フレームのセンター位置ｔ_ｃと高さｔ_ｈの計算方法は、以下の通りである。

【0054】

【数17】

【0055】

そのうち、ｃ^ｂ _ｙとｈ^ｂは、それぞれ境界フレームのセンター位置と高さを表し、ｃ^ａ _ｙとｈ^ａは、入力画像に基づいて事前に計算し、計算を助けることができる。しかし、画像が水平方向上に１６画素の等幅の領域に分割されているため、テキスト行検出フレームが水平方向上にも実際のナンバープレート領域を完全にカバーできることを保証できず、ＣＰＴＮモデルにおいて、水平方向での測位が正確でない状況が発生する可能性がある。この問題を解决するために、境界最適化の方法を導入し、各垂直フレームが一つの水平方向検出のオフセット量を計算し、このオフセット量の計算方法は、以下の通りである。

【0056】

【数18】

【0057】

そのうち、ｘ^ａ _ｓｉｄｅが実際のナンバープレート水平境界に最も近い座標を表し、ｃ^ａ _ｘが垂直フレームセンター位置のｘ座標を表し、ｗ^ａが垂直フレームの幅を表す。

【0058】

図３に示すように、ＣＴＰＮモデルのバックボーンネットワークは、ＶＧＧ１６ネットワークを使用し、入力画像は、任意の大きさであってもよく、ＶＧＧ１６によって出力される特徴図のサイズは、入力画像の大きさに依存する。複数回のコンボリューションを経て特徴を抽出し、最終的にＷ＊Ｈ＊Ｎの特徴図を得て、Ｎが特徴チャネル数であり、ＷとＨがそれぞれ特徴図の幅と高さである。次に２５６個の３＊３のコンボリューションコアが特徴図上でスライドし、画素点ごとに２５６次元の特徴ベクトルを抽出し、ピクチャにおける同一行内で抽出された複数の２５６次元ベクトルを一つのシーケンスと見なし、ＢＬＳＴＭモジュール中に導入し、ＢＬＳＴＭモジュールの後に５１２次元の完全接続層と出力層が接続される。

【0059】

ＣＴＰＮネットワークは、同一行のテキストを二つの部分に分割することがあり、本発明では、検出フレーム合併を導入することにより、後続の処理を行い、二つの検出が垂直方向上での重畳がある程度に達した場合、それらを一つの検出フレームに合併し、具体的には、一つの閾値を設定し、垂直方向上での重畳部分が閾値よりも高い場合、両者を合併することである。

【0060】

（３）ナンバープレートテキスト行識別ステップ
該ステップは、すでに検出されたナンバープレート上のテキスト行に対する識別を完了する必要があるが、識別する前に、テキスト行を補正する必要がある。撮影画角の問題により、ピクチャ上の文字が歪んで見える可能性があり、ある程度の補正により、歪んだ文字をできるだけ規則的にし、このように、識別の正確率を向上させることができる。

【0061】

本発明は、Ｓｅｑ２Ｓｅｑネットワークを使用してテキスト識別を行い、そのうちに古典的なアテンションメカニズムが含まれる。テキストの補正に対して、本発明は、ＳＴＮネットワークをテキスト識別ネットワークに嵌め込むことによって実現され、２Ｄ変換によって歪みとねじれのテキストを補正する。

【0062】

図４に示すように、ＳＴＮネットワークの主な考え方は、空間変換操作をニューラルネットワークモデルにモデリングする。補正対象の画像において、矩形フレームの四つの頂点と対角線の交点にそれぞれ位置する五つの制御点を決定する。入力ピクチャをＩに仮定し、出力される補正後の画像がＩ_ｒであり、原画像の五つの制御点の座標からなるベクトル群がＡと表され、出力される補正後の画像における五つの制御点からなるベクトル群がＡ^ｒと表され、オリジナルテキスト行の制御点ベクトル群Ａにおける各制御点の座標は、具体的には、数式１９と表される。二次元変換の本質は、一つの補間函数ｆに近似し、Ａ^ｒ＝ｆ（Ａ）を満たすことである。ＴＰＳ（Ｔｈｉｎ－Ｐｌａｔｅ－Ｓｐｌｉｎｅ）モデルは、歪みテキスト補正の処理において非常に有効であることが証明されており、ナンバープレートピクチャの補正タスクは、五つの制御点位置の予測タスクに帰着されてもよく、測位ネットワークを用いて画像Ｉ上の制御点を予測し、測位ネットワークは、逆伝播勾配によって、出力画像の制御点を回帰分析し、出力画像の五つの制御点を自動的にラベル付けし、

６つのコンボリューションフィルタレイヤ、５つの最大プールレイヤ及び二つの完全接続レイヤで構成される。一つの１０次元のベクトルを出力し、５つの２次元ベクトルに再構成し、５つの制御点座標に対応させる。制御点の座標は、正規化を経て、つまり、左上のの頂点座標が（０、０）であり、右下の頂点座標が（１、１）である。

【0063】

【数19】

【0064】

ｐ点の座標が［ｘ_ｐ，ｙ_ｐ］と表され、それに対応する補正後の点ｐ’の座標は、以下のような方法に従って計算することができる。

【0065】

【数20】

【0066】

そのうち、Φ（ｘ）＝ｘ^２ｌｏｇ（ｘ）は、点ｐとｋ番目の制御点との間のユークリッド距離に応用される核関数である。

【0067】

線形システムを解くことによってＴＰＳのパラメータを解いた後、最終的に得られる出力される補正画像の数式は、以下の通りである。

【0068】

【数21】

【0069】

そのうち、Ｖがダウンサンプラであり、Ｉが入力ピクチャであり、Ｉ_ｒが補正後のピクチャであり、原図と補正図の画素点は、ダウンサンプリングを経て最終的に補正された画像を得る。

【0070】

図６に示すように、ナンバープレートテキスト識別ネットワークは、ナンバープレートテキスト行のキャラクタシーケンスを出力するために用いられ、該ネットワークは、一つのｓｅｑ２ｓｅｑフレームであり、且つエンコーダ－デコーダパラダイムに依存する内蔵されているアテンションメカニズムを有する。

【0071】

まず、エンコーダは、コンボリューションニューラルネットワークを使用して補正後のナンバープレートテキスト行画像上から特徴を抽出し、画像サイズが３２＊１００である。特徴を抽出するコンボリューションネットワークは、ＲｅｓＮｅｔ－５０に基づく改良であり、最後の三つのダウンサンプリングレイヤのコンボリューションコアの移動ステップサイズは、（２、１）であり、このようにするのは、各特徴チャネル上の特徴図が一つのベクトルであることを保証するためであり、従って、最後に得られる特徴図の大きさは、１＊２５＊５１２（ｈ＊ｗ＊ｎ）である。その後特徴図を分割し、一つのベクトルシーケンスで構成されるベクトル群を得て、Ｘ＝［ｘ_１，ｘ_２，…，ｘ_Ｔ］と表され、そのうち、Ｔ＝２５であり、すなわち特徴図大きさにおける特徴幅ｗ、ベクトル群における各ベクトルは、いずれも５１２次元であり、すなわち特徴図大きさにおける特徴チャネル数ｎである。

【0072】

双方向ＬＳＴＭ（ＢＬＳＴＭ）ネットワークは、二つの方向上での特徴シーケンスの長距離依存関係を取得することができるので、ＢＬＳＴＭを前のステップで取得された特徴シーケンスに応用することにより、より豊富なコンテキスト関係を有する特徴シーケンスを取得する。ＢＬＳＴＭによって出力される新たな特徴シーケンスは、Ｈ＝［ｈ_１，ｈ_２，…，ｈ_Ｔ］と表され、そのうち、任意の一つの数式２２は、数式２３と表されてもよい。

【0073】

【数22】

【0074】

【数23】

【0075】

ＢＬＳＴＭの任意の一ステップにおいて、デコーダは、最終的にコンテキストベクトルＣ、デコーダの内部状態ｓ、前のステップの出力ｙに基づき、最後に一つの確率図を出力し、この確率図は、各キャラクタとシーケンスターミネータ号（ＥＯＳ）の確率を表す。コンテキストベクトルＣは、Ｈの集約情報であり、Ｃ＝［ｃ_１，ｃ_２，…，ｃ_Ｔ］，Ｃ＝ｑ（Ｈ）と表され、ここでのｑは、アテンションメカニズムであり、数式２４と表されてもよく、
そのうち、数式２５は、エンコーダのステップｔ_１の隠れた状態数式２６とデコーダのステップｔ_２－１の隠れた状態数式２７によって計算して得られるものであり、Ｗ、Ｖ、ｂは、いずれもトレーニング可能な重み付けである。

【0076】

【数24】

【0077】

【数25】

【0078】

【数26】

【0079】

【数27】

【0080】

エンコーダの出力は、また入力としてデコーダに入り、デコーダは、一つの出力ベクトルｚと一つの新しい状態ベクトルｓを計算する。

【0081】

【数28】

【0082】

そのうち、ｙは、ｏｎｅ－ｈｏｔ形式であり、ｒｎｎは、ＧＲＵサイクルネットワークユニットを表し、出力ｚは、現在のテキストシンボルを予測するために用いられる。

【0083】

最尤推定の考え方を運用し、出力シーケンスの条件確率を最大化するために、最適化する必要なターゲット関数は、以下の通りである。

【0084】

【数29】

【0085】

出力が最大長さを超えた場合、またはＥＯＳシンボルを得た場合、出力シーケンスが終了し、最終的に画像中のナンバープレートテキスト行の識別結果を得たことを示し、本実施例は、ＢｅａｍＲｅｓｅａｒｃｈアルゴリズムを使用し、そのうちＢｅａｍｓｉｚｅのパラメータが５に設定される。

【0086】

本発明は、ＡＯＬＰデータセットとＵＦＰＲ－ＡＬＰＲデータセットによってトレーニングとテストを行うことにより、本発明によって提案される方法の高いロバスト性と高い性能を検証した。

【0087】

ナンバープレート検出ステップにおいて、ＩｏＵ値が０．５より大きい場合、ナンバープレートの検出に成功したとみなされ、ＩｏＵの数式は、以下の通りである。

【0088】

【数30】

【0089】

そのうち、Ｒ_ｄｅｔが検出フレームであり、Ｒ_ｇｔがマークフレームである。

【0090】

ナンバープレートテキスト行検出タスクにおいて、ＩｏＵは、検出の正確性を評価するために用いられる。また、ナンバープレートテキスト識別タスクといくつかのナンバープレートテキスト検出タスクにおいて、Ｆ_１－ｓｃｏｒｅ使用して性能を評価し、数式は、以下の通りである。

【0091】

【数31】

【0092】

この指標は、正確率ｐｒｅｃｅｓｉｏｎとリコール率ｒｅｃａｌｌを同時に考慮した。

【0093】

本実施例では、二つのデータセットを使用してそれぞれ検証する。各ステップが終了した後、いずれもその効果を検査し、各ステップがいずれも高い性能と高いロバスト性であることを確保する。ＵＦＰＲ－ＡＬＰＲデータセットとは異なり、ＡＯＬＰデータセット自体は、トレーニングセットとテストセットを分割していないので、そのうちの三つのサブセットのうちの二つをトレーニングセットとして、一つをテストセットとして利用してもよく、例えば、ＬＥとＡＣサブセットを使用してナンバープレート識別モデルをトレーニングし、ＲＰサブセットを使用してテストする。二つのデータセットのそれぞれの三つの主なステップにおける詳細なテスト結果は、表１から表６を参照してください。

【0094】

【表1】

【0095】

【表2】

【0096】

【表3】

【0097】

【表4】

【0098】

【表5】

【0099】

【表6】

【0100】

以上に記述されているのは、本発明の具体的な実施の形態に過ぎず、本発明の保護範囲は、それに限らない。いかなる当業者が、本発明に掲示される技術的範囲内に、各種の等価な修正又は置き換えを容易に想到でき、これらの修正又は置き換えは、いずれも、本発明の保護範囲内に含まれるべきである。このため、本発明の保護範囲は、請求項の保護範囲を基にすべきである。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版