IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アーバンチェーン グループ リミテッドの特許一覧

特開2024-150387リソースに制約のある組み込みデバイス用のコスト効率の高い自動プレート認識システムのアルゴリズムパイプライン及び一般的な原理
<>
  • 特開-リソースに制約のある組み込みデバイス用のコスト効率の高い自動プレート認識システムのアルゴリズムパイプライン及び一般的な原理 図1
  • 特開-リソースに制約のある組み込みデバイス用のコスト効率の高い自動プレート認識システムのアルゴリズムパイプライン及び一般的な原理 図2
  • 特開-リソースに制約のある組み込みデバイス用のコスト効率の高い自動プレート認識システムのアルゴリズムパイプライン及び一般的な原理 図3
  • 特開-リソースに制約のある組み込みデバイス用のコスト効率の高い自動プレート認識システムのアルゴリズムパイプライン及び一般的な原理 図4
  • 特開-リソースに制約のある組み込みデバイス用のコスト効率の高い自動プレート認識システムのアルゴリズムパイプライン及び一般的な原理 図5
  • 特開-リソースに制約のある組み込みデバイス用のコスト効率の高い自動プレート認識システムのアルゴリズムパイプライン及び一般的な原理 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024150387
(43)【公開日】2024-10-23
(54)【発明の名称】リソースに制約のある組み込みデバイス用のコスト効率の高い自動プレート認識システムのアルゴリズムパイプライン及び一般的な原理
(51)【国際特許分類】
   G06V 30/194 20220101AFI20241016BHJP
   G08G 1/017 20060101ALI20241016BHJP
【FI】
G06V30/194
G08G1/017
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023184127
(22)【出願日】2023-10-26
(31)【優先権主張番号】18/298,286
(32)【優先日】2023-04-10
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】523406761
【氏名又は名称】アーバンチェーン グループ リミテッド
【氏名又は名称原語表記】UrbanChain Group Limited
【住所又は居所原語表記】Unit 1603, 16th Floor, The L. Plaza, 367-375 Queen’s Road Central, Sheung Wan, Hong Kong
(74)【代理人】
【識別番号】100091683
【弁理士】
【氏名又は名称】▲吉▼川 俊雄
(74)【代理人】
【識別番号】100179316
【弁理士】
【氏名又は名称】市川 寛奈
(72)【発明者】
【氏名】アルテム クリヴォシェフ
【テーマコード(参考)】
5B064
5H181
【Fターム(参考)】
5B064AA02
5B064AB02
5B064AB13
5B064BA01
5B064DA27
5B064EA07
5H181AA01
5H181BB20
5H181CC04
5H181DD08
5H181MB04
(57)【要約】      (修正有)
【課題】全ての必要な処理及び関連の計算を、低リソースのIoTデバイス(モバイルプロセッサを有する)で実行する、画像にあるナンバープレートの番号を認識するための方法、デバイス及び機械可読媒体を提供する。
【解決手段】方法は、画像内の車両に関するナンバープレートを検出するステップと、ニューラルネットワークによって、ナンバープレートにあるキャラクター及びキャラクターの座標を認識するステップと、を含む。ニューラルネットワークは、損失関数として、分類損失、信頼度損失及び和集合にわたる完全交差(CIoU)損失を含む。方法はまた、座標に基づいて認識されたキャラクターを整理して、認識されたナンバープレートの番号を形成するステップを含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
画像にあるナンバープレートの番号を認識するための方法(100)であって、
画像内の車両に関するナンバープレートを検出するステップ(101)と、
ニューラルネットワークによって、前記ナンバープレートにあるキャラクター、及び前記キャラクターの座標を認識するステップ(102)であって、前記ニューラルネットワークの損失関数は、分類損失、信頼度損失、及び和集合にわたる完全交差(CIoU)損失を含む、認識する前記ステップ(102)と、
前記座標に基づいて認識された前記キャラクターを整理して、前記認識された前記ナンバープレートの番号を形成するステップ(103)と、
を含む、方法(100)。
【請求項2】
前記損失関数は、
【数1】
である、請求項1に記載の方法(100)。
【請求項3】
前記キャラクターのポジティブ一致予測に関して、前記信頼度損失は、前記キャラクターのクラスの前記信頼スコアに従ってペナルティーが課され、前記キャラクターのネガティブ一致予測に関して、前記損失信頼性は、下記の方程式で複数のクラスの信頼性に対してソフトマックス損失に従ってペナルティーが課され、
【数2】
ここで、Nは一致したデフォルトボックスの数である、請求項1または2に記載の方法(100)。
【請求項4】
前記検出するステップ及び前記認識するステップは、前記車両に関するビデオ内の隣接フレームからの複数の画像のそれぞれに対して行われ、前記方法は、さらに、前記キャラクター位置ごとに、
複数の画像上の前記位置からの前記キャラクターを相互に比較することと、
ほとんどの場合に発生する前記キャラクターを、前記位置における前記認識されたキャラクターとして選ぶことと、
を含む、請求項1~3のいずれか1項に記載の方法(100)。
【請求項5】
前記検出するステップ、前記認識するステップ、及び前記整理するステップは、複数の前記ナンバープレートの番号を形成するために、前記車両に関するビデオ内の隣接フレームからの複数の画像のそれぞれに対して行われ、前記方法は、さらに、
複数の前記ナンバープレートの番号からの短い編集距離を有する全ての前記ナンバープレートの番号を、クラスターに割り当てることと、
前記クラスターでほとんどの場合に発生する前記ナンバープレートの番号を、前記認識された前記ナンバープレートの番号として選ぶことと、
を含む、請求項1~3のいずれか1項に記載の方法(100)。
【請求項6】
前記認識された前記ナンバープレートの番号は2つのラインナンバープレートの番号である、請求項1~5のいずれか1項に記載の方法(100)。
【請求項7】
前記ニューラルネットワークは、前記キャラクターに関して、数字「0」~「9」及び文字「A」~「Z」を含む、35クラスを予測し、前記文字「O」及び前記数字「0」は1つのクラスとして見なされる、請求項1~6のいずれか1項に記載の方法(100)。
【請求項8】
前記検出ステップの前、
写真にある前記車両または前記車両に関するビデオフレームを検出するステップと、
前記検出された車両を含む領域を、前記写真または前記ビデオフレームから、前記画像としてトリミングするステップと、
をさらに含む、請求項1~7のいずれか1項に記載の方法(100)。
【請求項9】
前記画像にある前記ナンバープレートの番号を前記認識するためのデバイス(600)であって、
プロセッサ(601)と、
前記プロセッサによって実行されるとき、前記デバイスに、請求項1~8のいずれか1項に記載の方法を行わせる命令を記憶しているメモリ(602)と、
を備える、デバイス(600)。
【請求項10】
前記デバイスで実行されるとき、前記デバイスに、請求項1~8のいずれか1項に記載の方法を行わせる命令を記憶している、機械可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の非限定的で例示的な実施形態は、概して、画像認識の技術分野に関し、具体的には、画像にあるナンバープレートの番号を認識するための方法及びデバイスに関する。
【背景技術】
【0002】
このセクションでは、本開示の良き理解を容易にし得る態様を紹介する。したがって、このセクションの記述は、この観点から読むべきであり、先行技術にある内容または先行技術にはない内容に関する承認として理解すべきはない。
【0003】
人材の労力を少なくするために、画像にある車両のナンバープレートの番号を自動的に認識するのにかなり有用であり、ナンバープレートの番号データを使用して、例えば、どの車両が閉鎖エリアに侵入したかを判定し得る、または交通条例のルールを施行し得る。
【0004】
例えば、当技術分野の画像にあるナンバープレートの番号を認識するいくつかの既存のアプローチが存在する。
【0005】
米国特許第9911055号明細書の文献では、ナンバープレートを検出及び分類するための方法、システム、及びプロセッサ可読媒体が開示されている。例示的な実施形態では、車両の写真を写真キャプチャリングユニットでキャプチャできる。次に、ナンバープレート領域は、弱分類器を利用して、候補領域のセットを写真から抽出することによって、車両のキャプチャされた写真に位置し得る。候補領域のセットは、二次強分類器を利用してランク付けできる。次に、キャプチャされた写真は、弱分類器及び二次強分類器によって判定された分類基準に基づいて、信頼度に基づく分類に従って分類できる。
【0006】
米国特許出願公開第20170017854号明細書の文献では、隠れマルコフモデル及び決定木を使用するアラビア文字光学式文字認識方法が開示されており、当該方法は、アラビア文字のテキストを含有する入力画像を受信することと、各付加記号の境界ボックスを検出し、その付加記号の座標を、テキスト本体の境界ボックスの付加記号を比較することによって、全ての付加記号を入力画像から除去することと、入力画像を4つのレイヤーに分割することと、分割された4つのレイヤーで特徴抽出を実施することと、特徴抽出の結果を隠れマルコフモデルに入力することによって、各アラビア文字を表すためのHMMモデルを生成することと、全体の尤度基準が満足されるまで、HMMモデルの反復トレーニングを実施することと、反復トレーニングの結果を決定木に入力することによって、付加記号の場所及びクラスを予測し、最終的な認識結果を生成することと、を含む。本発明は、アラビア文字の文字特徴を利用することによって、アラビア文字の簡単な認識を容易にすることが可能であり、同時に、比較的高い認識精度の特徴を発揮できる。
【0007】
米国特許第10068146号明細書の文献では、ナンバープレート認識のための検出ベースのセグメンテーションフリーの方法及びシステムが開示されている。写真キャプチャリングユニットを利用して、車両の写真を最初に取り込む。ナンバープレート領域は、車両の写真内に位置する。次に、キャラクターのセットはナンバープレート領域で検出でき、ジオメトリ補正は、ナンバープレート領域で検出されたキャラクターのセットの場所に基づいて行われる。ナンバープレート領域の全体にわたるOCRをスイープするための動作を行い、隠れマルコフモデルを利用し、アンカー付きの数字/キャラクター場所を活用して、キャラクターのセット及びキャラクターの場所に関してキャラクターを推察できる。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】米国特許第9911055号明細書
【特許文献2】米国特許出願公開第20170017854号明細書
【特許文献3】米国特許第10068146号明細書
【非特許文献】
【0009】
【非特許文献1】YOLOv3 paper[J.Redmon and A.Farhadi,“YOLOv3:An incremental improvement,”CoRR,vol.abs/1804.02767,2018]
【発明の概要】
【発明が解決しようとする課題】
【0010】
既存のアプローチでは、車両の写真は、ナンバープレート認識用のバックエンドサーバーに送信され、これにより、ネットワークトラフィックの高い占有率をもたらし得る。この理由として、写真を受信するオンサイトデバイスは、ナンバープレート認識を処理する十分な処理能力がないためである。さらに、車両が移動中の車両の画像を含有する写真が撮影され、ひいては、その写真が不鮮明である場合、既存のアプローチは、この課題を解決するために、シャッター速度がより速い高品質なカメラを設置する必要があり得、ハードウェアの配備を高価にする。
【0011】
本開示の目的の1つは、典型的なカメラによって撮影された写真からリアルタイム設定でナンバープレートの番号(数字及び/または文字を含み得る)を取得することが可能である解決策を提案することによって、上記の課題を解決または軽減することであり、この場合、全ての必要な処理及び関連の計算は、低リソースのIoTデバイス(モバイルプロセッサを有する)で行われ、該カメラがそのデバイスに接続される。ナンバープレート認識システムを構築する一般的なアプローチと対照的に、提案された解決策では、オンボード計算が検討され、キャプチャリングデバイスから、さらなる処理のためにいずれかのローカルまたはクラウドサーバーに、ビデオフレームの伝送が利用されなく、シャッター速度がより速い高品質なカメラは必要ではない。したがって、提案された解決策は、ネットワーク帯域幅及びハードウェアのコストに関する既存のアプローチで最重要であり、それらの値が1桁分減る。
【0012】
本開示の解決策は以下の態様を含む。
【課題を解決するための手段】
【0013】
本開示の解決策の第1の態様は、画像にあるナンバープレートの番号を認識するための方法を提供し、本方法は、画像内の車両に関するナンバープレートを検出するステップと、ニューラルネットワークによって、ナンバープレートにあるキャラクター、及びキャラクターの座標を認識するステップであって、ニューラルネットワークの損失関数は、分類損失、信頼度損失、及び和集合にわたる完全交差(CIoU)損失を含む、認識するステップと、座標に基づいて認識されたキャラクターを整理して、認識されたナンバープレートの番号を形成するステップと、を含む。
【0014】
本開示の解決策の第2の態様は、画像にあるナンバープレートの番号を認識するためのデバイスを提供し、本デバイスは、画像内の車両に関するナンバープレートを検出するための検出ユニットと、ニューラルネットワークによって、ナンバープレートにあるキャラクター、及びキャラクターの座標を認識するための認識ユニットであって、ニューラルネットワークの損失関数は、分類損失、信頼度損失、及び和集合にわたる完全交差(CIoU)損失を含む、認識ユニットと、座標に基づいて認識されたキャラクターを整理して、認識されたナンバープレートの番号を形成する整理ユニットと、を備える。
【0015】
本開示の解決策の第3の態様は、画像にあるナンバープレートの番号を認識するためのデバイスを提供し、本デバイスは、プロセッサと、プロセッサによって実行されるとき、デバイスに第1の態様に従った方法を行わせる命令を記憶するメモリと、を備える。
【0016】
本開示の解決策の第4の態様は、デバイスで実行されるとき、デバイスに、第1の態様に従った方法を行わせる命令を記憶している機械可読媒体を提供する。
【0017】
本開示の上記及び他の態様、特徴、及び利点は、添付図を参照して、以下の詳細な説明からさらに十分に明らかになり、同様の符号または文字を使用して、同様または等価の要素を指定する。図面は、本開示の実施態様の良き理解を容易にするために示されており、必ずしも、縮尺どおりに描かれていない。
【図面の簡単な説明】
【0018】
図1】本開示に従った画像にあるナンバープレートの番号を認識するための方法のフローチャートを示す。
図2】車両を検出するためのニューラルネットワークの例示的なアーキテクチャを示す。
図3】ナンバープレートを検出するためのニューラルネットワークの例示的なアーキテクチャを示す。
図4】ナンバープレートにあるキャラクターを認識するためのニューラルネットワークの例示的なアーキテクチャを示す。
図5】本開示に従ったデバイスの概略ブロック図である。
図6】本開示に従ったデバイスの別の概略ブロック図である。
【発明を実施するための形態】
【0019】
本明細書の実施形態は、添付図を参照して以下にさらに十分に説明される。しかしながら、本明細書の実施形態は、多くの異なる形態で具体化され得、添付の請求項の範囲を制限していると解釈すべきではない。
【0020】
本明細書に使用される専門用語は、特定の実施形態だけを説明する目的のためのものであり、制限することを意図しない。本明細書に使用されるように、単数形「a」、「an」、及び「the」は、文脈上明らかに他の意味を示す場合を除いて、複数形も含むことを意図する。「備える(comprises)」、「備える(comprising)」、「含む(includes)」、及び/または「含む(including)」という用語は、本明細書で使用されるとき、記述された特徴、整数、ステップ、動作、要素、及び/またはコンポーネントの存在を特定するが、1つ以上の他の特徴、整数、ステップ、動作、要素、コンポーネント、及び/またはそれらのグループの存在または追加を除外しないことがさらに理解される。
【0021】
また、要素を修正するための本明細書おける「第1の」、「第2の」、「第3の」等の順序語の使用は、それらの用語自体によって、別の要素に対する一方の要素の任意の優先権、優先順位、もしくは順序、または方法のアクションを行う時間的順序を含意しないが、単に、ある名称を有する一方の要素を、同じ名称(しかし、順序語を使用するためのもの)を有する別の要素と区別して、それらの要素を区別するための標識として使用される。
【0022】
別様に定義されない限り、本明細書に使用される全ての用語(技術用語及び科学用語を含む)は、一般的に理解されるものと同じ意味を有する。本明細書に使用される用語は、本明細書及び関連技術に関連して、それらの意味と一致する意味を有するとして解釈すべきであり、本明細書にそのように明確に定義される場合を除いて、理想的な意味で、または過度に形式的な意味で解釈しないことをさらに理解されたい。
【0023】
本開示に従った画像にあるナンバープレートの番号を認識するための方法100のフローチャートは図1に示される。方法100は、画像内の車両に関するナンバープレートを検出するステップ101と、ニューラルネットワークによって、ナンバープレートにあるキャラクター、及びキャラクターの座標を認識するステップ102であって、ニューラルネットワークの損失関数は、分類損失、信頼度損失、及び和集合にわたる完全交差(CIoU)損失を含む、認識するステップ102と、座標に基づいて認識されたキャラクターを整理して、認識されたナンバープレートの番号を形成するステップ103と、を含む。
【0024】
本開示に従った方法は、畳み込みニューラルネットワーク(CNN)に基づいて、最先端の物体検出器を利用し得る。いくつかのオープンソースデータセットから画像、及びUrbanChain Group Limitedによって手動で収集及び分類された画像を使用して、ネットワークはトレーニングされ得る。本方法の計算効率により、MIPI-CSIインターフェースを介してシステムオンチップ(SoC)に接続された内蔵カメラを用いて、ARMまたはIntelのモバイルプロセッサに基づいて、SoCを含む様々なリソースに制約のある組み込みデバイス(IoTデバイスとしても知られている)で実行することを可能にする。
【0025】
提案された方法によって消費された共有のCPU-GPU RAMの量は、1.5Gbと同等に低いと推定される。革新的なアプローチを使用して、本方法は、ネットワーク経由のビデオ転送を頼らないで、クラウドサーバーでいずれかの画像処理を利用しなく、結果として、データ使用量、帯域幅の要求、及び所有者の全コストが最小になる。
【0026】
本開示に従った方法の実施形態は下記に説明され、本実施形態は、移動中の車両の画像をそれぞれ含有する写真を撮影すること、1つ以上の比較的明らかな写真を撮影された写真から選択すること等、いくつかの前処理及び/または前提条件に関し得る。しかしながら、複数の実施形態は、それらの前処理及び前提条件がなくても、また、適用できることを理解できる。例えば、車両の画像は、(単に撮影した写真の代わりに)データベースから直接生じ、車両は静止している、及び/または画像自体は十分に明らかである。
【0027】
上記に説明したように、ステップ101は、車両の画像に対して行われる。画像は例えば写真から生じ得る。例えば、移動中の車両の複数の写真は、例えば駐車場で少なくとも1つのカメラで撮影され得、同じカメラで撮影された複数の写真の各写真は、異なる時点で連続的に撮影される。ある例では、複数の写真は5~10個の写真を含む。別の例では、複数の写真は、また、車両に関するビデオのフレームに隣接し得る。別の例では、写真は同じ収集デバイスに接続された2つのカメラで撮影され、各カメラは、地表面に対して異なる角度の視界及び高度を有し、車両のヘッドライトの異なる角度から起こり得る可能性を把握し、撮影された写真の品質に影響を与える。
【0028】
撮影された写真の一部が不鮮明である場合、ナンバープレートにある記号を正確に認識することを可能にするために、モーションブラーを減らすことが必要であり得る。この課題に対する1つの解決策は、シャッター速度が速いカメラであり得るが、そのようなハードウェアは、規模を拡大した配備になるため、かなり高価になり得る。例えば、さらなる処理のために複数の写真から1つ以上の比較的鮮明な写真を選択することによって、アルゴリズムで課題を解決することが提案され、選択は、写真の不鮮明度と関連付けられた、計算された少なくとも1つの第1のパラメーターを、閾値と比較することに基づき得る。好ましくは、第1のパラメーターは写真の分散値である。好ましくは、エッジ検出は、第1のパラメーターを計算する前に、複数の写真に対して行われる。好ましくは、ラプラシアンカーネル(D xy)は、エッジ検出のために使用される。
【0029】
例えば、複数(例えば、5~10個)の連続的に撮影された写真は、バッファーにセットされ得、そして、不鮮明度のその測定値を計算し、ラプラシアンカーネルで各写真をスライドし、その後、結果として生じるマトリクスの分散値を計算する。ラプラシアンは、写真の二次空間導関数の2D等方性の尺度である。写真のラプラシアンは、急速な強度変化の領域を強調し、ひいては、多くの場合、エッジ検出のために使用される。画素強度値I(x,y)を伴う写真のラプラシアンL(x,y)は、下式によって与えられる。
【0030】
【数1】
【0031】
入力写真が離散画素のセットとして表されるため、(1)で二次導関数を近似化できる別々の畳み込みカーネルを発見し得る。
【0032】
【数2】
【0033】
カーネル(2)を使用して、ラプラシアンは、標準的なコンボリューション法を用いて計算できる。ラプラシアンの変分は、信頼性がある写真の「不鮮明度」の特徴として働き得、適切な閾値を用いて、さらなる処理のために、比較的鮮明な写真(複数可)を選択するために使用できる。
【0034】
次に、ある例では、選択された写真(複数可)のそれぞれで、車両は検出され得、車両を含有する対応する画像領域は、本開示の方法が適用される画像としてトリミングされ得、車両は、例えば、低リソースデバイスで効率的な推察のために最適化されたカスタムアーキテクチャを伴うトレーニングされたニューラルネットワークによって検出される。
【0035】
車両を検出するためのニューラルネットワークの例示的なアーキテクチャは図2に示され、個々のレイヤーのパラメーター及び寸法が説明される。ネットワークに供給されている写真の入力サイズは、典型的なカメラから獲得できる非正方形フレームサイズ(例えば、448×288画素)に適応したものである。ネットワークは、UrbanChain Group Limitedによって収集及び分類された約5000個の写真のプライベートデータセットについてトレーニングされたものである。写真は、制約がない道路交通のシナリオで及び駐車場内で撮影されたものである。反転、リスケーリング、ぼかし、カットミックスアプローチの適用等の様々なデータ拡大手段を使用して、ネットワークをトレーニングしたものであり、結果として、単一の分類された写真と異なる特徴がある合成写真を作成することによって、オーバフィッティングを防止した。
【0036】
ある例では、車両を含有する画像領域が写真からトリミングした後、トリミングされた画像領域は、本開示に従った方法によって処理された画像として機能し得る。選択された写真のそれぞれのトリミングされた画像領域にあるナンバープレートは、例えば、入念に設計されたアーキテクチャを伴う、モバイルプロセッサにおいて効率的な推察のために専用にされたトレーニング済みのニューラルネットワークによって検出され得る。例えば、YOLOv3 paper[J.Redmon and A.Farhadi,“YOLOv3:An incremental improvement,”CoRR,vol.abs/1804.02767,2018]の考えを利用し得るナンバープレートを検出するためのニューラルネットワークは、手動で収集及び分類された現実の数千個の写真についてトレーニングされ、例えばARMチップに基づいて、低リソースの組み込みデバイスにおいて準リアルタイムで実行するように適応したものである。ナンバープレートを検出するためのニューラルネットワークの例示的なアーキテクチャは、図3に示される。サイズ変更された入力画像の解像度は、組み込みプラットフォームでの計算を加速するために、例えばモデルトレーニング中に608×608に設定され、例えば推察段階中に416×416に設定されたものである。
【0037】
ナンバープレートが画像から検出されると、ナンバープレートにあるキャラクター及びキャラクターの座標は、例えば、低リソースのデバイスで効率的な計算をするために設計されたカスタムアーキテクチャを伴うニューラルネットワークによって認識され得る。リアルタイムでの高速で及びリソース効率的であるキャラクター検出のために、ニューラルネットワークの各レイヤーにおける、レイヤーの設定ならびに順番、及び対応するパラメーターの数(畳み込みフィルター及びそのサイズを含む)は、関係する乗加算演算の総数を最小化する目的で、慎重に選択されたものである。該ネットワークアーキテクチャは、提案された解決策の重大な部分として考えられ得る。例えば、ネットワークアーキテクチャは、フィールドテスト中に99.7%のナンバープレート認識精度を示しており、そのフィールドテストは、昼間及び夜間の両方で収集デバイスによって、制約がない現実のシナリオで撮影された写真から認識された最大2000個のナンバープレート番号に対して実施される。
【0038】
ナンバープレートにあるキャラクターを認識するための提案されたニューラルネットワークアーキテクチャのレイヤーごとの説明の例は、図4に示される。また、各段階で乗加算演算の数に関する関連の計算コスト(すなわち、ニューラルネットワークのレイヤー)は、図4に記載されている。
【0039】
ニューラルネットワークは、例えば、35クラス(「0」~「9」、「A」~「Z」、文字「O」は数字「0」と一緒に検出/認識される)を予測するためにトレーニングされたものであり、認識されたキャラクターのそれぞれのクラス及び画素座標を出力する。ある実施形態では、ニューラルネットワークのトレーニングプロセス中に最適化基準として使用される損失関数の合計は、分類損失、信頼度損失、及び和集合にわたる完全交差(CIoU)損失を含み、以下の公式を有する。
【0040】
【数3】
【0041】
上述の信頼スコアはニューラルネットワークの出力である。信頼スコアのM次元ベクトル(ここで、Mは、この特定の例では、利用可能であるクラス、文字及び数字の総数である)は、検出ボックス座標のように、各検出ボックスの予測されたパラメーターの初期ベクトルのスライスである。この初期ベクトルは、確率的勾配降下法(SGD)アルゴリズムのタイプ、例えば、モーメンタム付きSGDによる、目的損失関数の非凸最適化のプロセスから生じる重量のセットを使用して、ニューラルネットワークを構築しながら一般的に利用される一連の代数的演算(例えば、マトリクス加算、乗算、連結プーリング等)に続いて取得される。言い換えれば、信頼度損失はクラス予測を行う際の損失である。ある実施形態では、キャラクターのポジティブ一致予測のために、信頼度損失は、例えば、キャラクターのクラスの信頼スコアに従ってペナルティーが課され得る。キャラクターのネガティブ一致予測のために、信頼度損失は、例えば、特殊クラスの信頼スコアに従ってペナルティーが課され得る。特殊クラスでは、検出されなかったオブジェクトが分類され、下記の(3)に示される複数のクラス(クラススコア)の信頼度cに対するソフトマックス損失として計算され得る。
【0042】
【数4】
【0043】
ここで、Nは一致したデフォルトボックスの数である(オブジェク検出器を構築するために使用される単一のショットオブジェクト検出器のパラダイムでのものである)。
【0044】
さらに、ナンバープレートキャラクター認識段階で現れるエラーを最小にするために、例えば、キャラクター及びストリングレベル(所与のナンバープレートの番号のストリング表現)の両方に対して、様々な技術を利用し得る。
【0045】
例えば、非最大抑制はキャラクター認識に関する、重要なプロセスであり得る。同じ単一のキャラクターに対する複数の検出ボックスを生成することが可能であり、検出ボックスは、キャラクターの全ての画素を含む画像のエリアである。最初に、全ての検出ボックスは、ボックスごとに計算されたその信頼スコア(第2のパラメーター)に基づいてソートされる。最大信頼スコアを伴う検出ボックスが選ばれ、第3のパラメーターによって判定された検出ボックスとかなり重複がある全ての他の残りの検出ボックスは抑制(すなわち、破棄)される。第3のパラメーターは、検出ボックスのペアによって覆われた全エリアによって分割された検出ボックスのペアの交点のエリアに等しい。選択された検出ボックスごとに、選択された検出ボックス及び別の残りの検出ボックスを含む検出ボックスの各ペアの第3のパラメーターは、所定閾値と比較される。第3のパラメーターは所定閾値よりも高い場合、該別の残りの検出ボックスは破棄される。このプロセスは、残りの検出ボックスの全てにおいて再帰的に適用される。最後に、選ばれる検出ボックスの全ては、ナンバープレートにあるキャラクターのための最終的な検出ボックスとして使用され得る。
【0046】
ある実施形態では、本開示に従った方法における検出するステップ及び認識するステップは、車両に関するビデオ内の隣接フレームからの複数の画像のそれぞれに対して行われ、本方法は、さらに、キャラクター位置ごとに、複数の画像上の位置からのキャラクターを相互に比較することと、ほとんどの場合に発生するキャラクターを、その位置における認識されたキャラクターとして選ぶことと、を含む。
【0047】
さらに、不正確に認識されたナンバープレートの数に対処するために、レーベンシュタイン編集距離等の十分に既知なストリング処理アルゴリズムを利用して、例えば、標的車両のモーションブラー、様々なオクルージョン、及びライティングから生じるエラーを除去し得る。レーベンシュタインアルゴリズムは編集距離を計算する。すなわち、別のストリングを取得するために一方のストリングを修正することが必要である編集動作の最小数を計算する。
【0048】
したがって、別の実施形態では、本開示に従った方法における検出するステップ、認識するステップ、及び整理するステップは、複数のナンバープレートの番号を形成するために、車両に関するビデオ内の隣接フレームからの複数の画像のそれぞれに対して行われ、本方法は、さらに、複数のナンバープレートの番号からの短い編集距離(例えば2)を有する全てのナンバープレートの番号を、クラスターに割り当てることと、クラスターでほとんどの場合に発生するナンバープレートの番号を、認識されたナンバープレートの番号として選ぶことと、を含む。次に、結果として生じるナンバープレートの番号は、いくつかの追加のメタデータペイロードとともに、バックエンドサーバーに送信され得る。このステップは、画像から誤ったキャラクターを取得するリスクを減らし得、そして、そのステップは、不足データを隣接画像から取得することを可能にする。
【0049】
認識されたキャラクターは、例えば、1行のライン、または2行のラインナンバープレートの番号からセットされ得る。ある実施形態では、認識されたナンバープレートの番号は、2行のラインナンバープレートの番号である。本実施形態では、最初、各キャラクターは、デフォルト設定で第2のライン上の位置に割り当てられ得る。2つのラインの間の信頼性がある分布を行うために、ナンバープレートの番号の各キャラクターは、2つの前のキャラクター及び2つの後のキャラクターと比較され、対応するキャラクターの各対でキャラクターの検出ボックスの中心のY座標の複数の値の差を計算する。該差が(検出されたキャラクターボックスの全ての高さの平均を取得することによって計算された)キャラクターのボックスの平均高さ(画素)の80%を超える場合、Y座標の最小値を伴うキャラクターは第1のラインにセットされる。
【0050】
さらなる実施形態では、少なくとも1つのカメラ、プロセッサ、メモリ、ならびに電源、及び少なくとも1つのサーバーを含む、少なくとも1つの収集デバイスを備えるシステムが提案される。収集デバイスは、本開示に従った方法を行い、少なくとも、ナンバープレートの番号をサーバーに転送するように構成されている。計算効率が高いため、比較的低電力でデバイスにおいて方法を実行することが可能になり、ひいては、収集デバイスにおける計算のほとんどを行うことが可能である。これを行うことによって、これは、より小さいデータパッケージ(ナンバープレートの番号、メタデータ等、及び未連続の未加工写真)を伝送することを可能にする。また、それは、利用可能である計算能力及びメモリに関する要求仕様が低いため、サーバーがかなり安くなるであろう。
【0051】
図5は、本開示に従ったデバイス500の概略ブロック図を示す。デバイス500は、画像にあるナンバープレートの番号を認識するために使用され、画像内の車両に関するナンバープレートを検出するための検出ユニット501と、ニューラルネットワークによって、ナンバープレートにあるキャラクター、及びキャラクターの座標を認識するための認識ユニット502であって、ニューラルネットワークの損失関数は、分類損失、信頼度損失、及び和集合にわたる完全交差(CIoU)損失を含む、認識ユニット502と、座標に基づいて認識されたキャラクターを整理して、認識されたナンバープレートの番号を形成する整理ユニット503と、を含み得る。
【0052】
本明細書に説明されるデバイス500は様々なユニットによって実施され得、その結果、複数の実施形態で説明される1つ以上の機能を実装するデバイス500は、対応する図に示されるユニットだけでなく、それらの1つ以上の機能を実施するための他のユニットも含み得ることを認識できる。さらに、デバイス500は、2つ以上の機能を行うように構成された単一ユニット、または別々の機能ごとの別々のユニットを含み得る。さらに、ユニットは、ハードウェア、ファームウェア、ソフトウェア、またはいずれかのそれらの組み合わせで実施され得る。
【0053】
ブロック図ならびに/またはフローチャート説明図のブロック、及びブロック図ならびに/またはフローチャート説明図のブロックの組み合わせは、コンピュータープログラム命令によって実施され得ることを理解されたい。これらのコンピュータープログラム命令は、機械を作るために、汎用コンピューター、専用コンピューター、及び/または他のプログラム可能データ処理装置のプロセッサに提供され得、その結果、コンピューター及び/または他のプログラム可能データ処理装置のプロセッサを用いて実行する命令は、ブロック図及び/またはフローチャートの単数のブロックまたは複数のブロックで定められた機能/アクションを実施するための手段を生じさせる。
【0054】
また、フローチャートのブロックに指摘した機能/アクションは、動作図で指摘された順序と違って発生し得ることも理解される。例えば、連続して示される2つのブロックは、実際に、実質的に同時に実行され得、またはブロックは、時々、関係する機能/アクションに応じて逆順で実行され得る。図の一部が主要な通信方向を示す通信経路の矢印を含むが、示される矢印と反対方向に通信が発生し得ることを理解されたい。
【0055】
さらに、本開示の解決策は、命令実行システムによって、またはそれに関連して使用される媒体で具体化されたコンピューター使用可能プログラムコードまたはコンピューター可読プログラムコードを有するメモリにおいてコンピュータープログラムの形態をとり得る。この文献に関連して、メモリは、命令実行システム、命令実行装置、もしくは命令実行デバイスによって、またはそれらに関連して使用するために、プログラムを含み得る、記憶し得る、またはプログラムを伝えるように適応する任意の媒体であり得る。
【0056】
したがって、図6に示されるように、本開示は、また、プロセッサ601及びメモリ602を含むデバイス600も提供する。デバイス600では、メモリ602は、プロセッサ601によって実行されるとき、デバイス600に、複数の実施形態を用いて上記に説明した方法を行わせる命令を記憶する。
【0057】
本開示は、また、デバイスで実行されるとき、デバイスに、上記の実施形態を用いて説明された方法を行わせる命令を記憶している機械可読媒体(図示しない)も提供する。
【0058】
本明細書が多くの特定の実施態様の詳細を含むが、これらは、任意の実施態様の範囲、または特許請求され得る内容の範囲に制限されるものとして解釈すべきでないが、むしろ、特定の実施態様の特定の実施形態に特有であり得る特徴の説明として解釈すべきである。別個の実施形態に関連して本明細書で説明される一定の特徴は、また、単一の実施形態で組み合わせて実施できる。逆に、単一の実施形態に関連して説明される様々な特徴は、また、別個に、または任意の適切なサブコンビネーションで複数の実施形態で実施できる。さらに、特徴は、特定の組み合わせで作動するように上記に説明され、さらに最初にそのように特許請求され得るが、特許請求された組み合わせからの1つ以上の特徴は、いくつかの場合、その組み合わせから削除でき、特許請求された組み合わせは、サブコンビネーション、またはサブコンビネーションの変形を対象とし得る。
【0059】
本技術が進歩するにつれて、本発明の概念が様々な方法で実施できることは、当業者に自明である。上記に説明した実施形態は、本開示を制限するよりもむしろ説明するために与えられ、修正及び変形は、当業者が容易に理解するように本開示の主旨及び範囲から逸脱することなく、使われ得ることを理解されたい。そのような修正及び変形は、本開示及び添付の請求項の範囲内であると考えられる。本開示の保護範囲は、添付の請求項によって定義される。
図1
図2
図3
図4
図5
図6
【手続補正書】
【提出日】2024-09-11
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像にあるナンバープレートの番号を認識するための方法(100)であって、
画像内の車両に関するナンバープレートを検出するステップ(101)と、
ニューラルネットワークによって、前記ナンバープレートにあるキャラクター、及び前記キャラクターの座標を認識するステップ(102)であって、前記ニューラルネットワークの損失関数は、分類損失、信頼度損失、及び和集合にわたる完全交差(CIoU)損失を含む、認識する前記ステップ(102)と、
前記座標に基づいて認識された前記キャラクターを整理して、前記認識された前記ナンバープレートの番号を形成するステップ(103)と、
を含む、方法(100)。
【請求項2】
前記損失関数は、
【数1】
である、請求項1に記載の方法(100)。
【請求項3】
前記キャラクターのポジティブ一致予測に関して、前記信頼度損失は、前記キャラクターのクラスの信頼スコアに従ってペナルティーが課され、前記キャラクターのネガティブ一致予測に関して、損失信頼性は、下記の方程式で複数のクラスの信頼性に対してソフトマックス損失に従ってペナルティーが課され、
【数2】
ここで、Nは一致したデフォルトボックスの数である、請求項1に記載の方法(100)。
【請求項4】
前記検出するステップ及び前記認識するステップは、前記車両に関するビデオ内の隣接フレームからの複数の画像のそれぞれに対して行われ、前記方法は、さらに、前記キャラクター位置ごとに、
複数の画像上の前記位置からの前記キャラクターを相互に比較することと、
ほとんどの場合に発生する前記キャラクターを、前記位置における前記認識されたキャラクターとして選ぶことと、
を含む、請求項1に記載の方法(100)。
【請求項5】
前記検出するステップ、前記認識するステップ、及び前記整理するステップは、複数の前記ナンバープレートの番号を形成するために、前記車両に関するビデオ内の隣接フレームからの複数の画像のそれぞれに対して行われ、前記方法は、さらに、
複数の前記ナンバープレートの番号からの短い編集距離を有する全ての前記ナンバープレートの番号を、クラスターに割り当てることと、
前記クラスターでほとんどの場合に発生する前記ナンバープレートの番号を、前記認識された前記ナンバープレートの番号として選ぶことと、
を含む、請求項1に記載の方法(100)。
【請求項6】
前記認識された前記ナンバープレートの番号は2つのラインナンバープレートの番号である、請求項1に記載の方法(100)。
【請求項7】
前記ニューラルネットワークは、前記キャラクターに関して、数字「0」~「9」及び文字「A」~「Z」を含む、35クラスを予測し、前記文字「O」及び前記数字「0」は1つのクラスとして見なされる、請求項1に記載の方法(100)。
【請求項8】
前記検出ステップの前、
写真にある前記車両または前記車両に関するビデオフレームを検出するステップと、
前記検出された車両を含む領域を、前記写真または前記ビデオフレームから、前記画像としてトリミングするステップと、
をさらに含む、請求項1に記載の方法(100)。
【請求項9】
前記画像にある前記ナンバープレートの番号を前記認識するためのデバイス(600)であって、
プロセッサ(601)と、
前記プロセッサによって実行されるとき、前記デバイスに、請求項1~8のいずれか1項に記載の方法を行わせる命令を記憶しているメモリ(602)と、
を備える、デバイス(600)。
【請求項10】
前記デバイスで実行されるとき、前記デバイスに、請求項1~8のいずれか1項に記載の方法を行わせる命令を記憶している、機械可読媒体。