(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-21
(45)【発行日】2022-10-31
(54)【発明の名称】ディープラーニングに基づく画像補正方法及びシステム
(51)【国際特許分類】
G06T 3/00 20060101AFI20221024BHJP
G06T 7/00 20170101ALI20221024BHJP
【FI】
G06T3/00 725
G06T7/00 350C
(21)【出願番号】P 2020211742
(22)【出願日】2020-12-21
【審査請求日】2020-12-21
(32)【優先日】2020-08-26
(33)【優先権主張国・地域又は機関】TW
(73)【特許権者】
【識別番号】390023582
【氏名又は名称】財團法人工業技術研究院
【氏名又は名称原語表記】INDUSTRIAL TECHNOLOGY RESEARCH INSTITUTE
【住所又は居所原語表記】No.195,Sec.4,ChungHsingRd.,Chutung,Hsinchu,Taiwan 31040
(74)【代理人】
【識別番号】110000338
【氏名又は名称】特許業務法人HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】李 冠徳
(72)【発明者】
【氏名】黄 名嘉
(72)【発明者】
【氏名】林 宏軒
(72)【発明者】
【氏名】李 宇哲
(72)【発明者】
【氏名】羅 佳玲
【審査官】板垣 有紀
(56)【参考文献】
【文献】中国特許出願公開第111223065(CN,A)
【文献】鈴木 まり 他,高環境耐性なCNN回帰モデルのメモリ削減検討,2019年度人工知能学会全国大会(第33回) [online],日本,一般社団法人人工知能学会,2019年06月04日,pp.1-4
(58)【調査した分野】(Int.Cl.,DB名)
G06T 3/00
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
ディープラーニングに基づく画像補正方法であって、
撮像部によって、少なくとも1つの文字を含む画像を撮像するステップと、
ディープラーニングモデルによって
前記画像を受け取り、前記画像に従って視点変換行列を生成するステップと、
前記撮像部の撮影情報に応じて、前記視点変換行列の複数の視点変換パラメータについて最大値及び最小値を計算するステップと、
前記視点変換パラメータのそれぞれを、前記最大値と最小値との間の範囲内に制限するステップと、
前記少なくとも1つの文字の正面像を含む補正画像を得るために、前記視点変換行列に従って前記画像に対して視点変換を実行するステップと、
前記画像に従って、前記少なくとも1つの文字の正面像を含む最適化された補正画像を生成するステップと、
前記画像及び前記最適化された補正画像に対応する最適化視点変換行列を取得するステップと、
前記最適化視点変換行列と
前記ディープラーニングモデルによって生成される前記視点変換行列との間の損失値を計算するステップと、
前記損失値を使用して前記ディープラーニングモデルを更新するステップと、を含む
画像補正方法。
【請求項2】
前記画像に従って、前記少なくとも1つの文字の正面像を含む前記最適化された補正画像を生成するステップは、前記少なくとも1つの文字をカバーするマーク範囲を含む前記画像にマークするステップを含む、
請求項1に記載の画像補正方法。
【請求項3】
前記マーク範囲が前記少なくとも1つの文字をカバーできない場合、拡張画像を得るために前記画像を拡張するステップと、
前記マーク範囲が前記少なくとも1つの文字をカバーするように前記拡張画像をマーキクするステップを、更に含む
請求項2に記載の画像補正方法。
【請求項4】
前記撮影情報は、撮影場所、撮影方向及び撮影角度を含む
請求項
1に記載の画像補正方法。
【請求項5】
ディープラーニングに基づく画像補正システムであって、
少なくとも1つの文字を含む画像を撮像する撮像部と、
前記画像を受け取り、前記画像に従って視点変換行列を生成するように構成されたディープラーニングモデルと、
前記画像および前記視点変換行列を受信し、
前記撮像部の撮影情報に応じて、前記視点変換行列の複数の視点変換パラメータについて最大値及び最小値を計算し、前記視点変換パラメータのそれぞれを前記最大値と最小値との間の範囲内に制限し、前記視点変換行列に従って前記画像に対して視点変換を実行し、前記少なくとも1つの文字の正面像を含む補正画像を取得するように構成された処理部と、
前記画像を受信し、前記画像に従って少なくとも1つの文字の正面像を含む最適化された補正画像を生成し、前記画像および前記最適化された補正画像に対応する最適化された視点変換行列を取得し、前記最適化された視点変換行列と
前記ディープラーニングモデルによって生成される前記視点変換行列との間の損失値を計算し、前記損失値を使用して前記ディープラーニングモデルを更新するように構成されたモデル調整部と、備える
画像補正システム。
【請求項6】
前記モデル調整部は、前記少なくとも1つの文字をカバーするマーク範囲を含む前記画像をさらにマークする、
請求項
5に記載の画像補正システム。
【請求項7】
前記マーク範囲が前記少なくとも1つの文字をカバーできない場合、前記モデル調整部は前記画像をさらに拡張して拡張画像を取得し、前記マーク範囲が前記少なくとも1つの文字をカバーするように前記拡張画像をマークする
請求項
6に記載の画像補正システム。
【請求項8】
前記撮影情報は、撮影場所、撮影方向及び撮影角度を含む
請求項
5記載に記載の画像補正システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は一般に、画像補正方法およびシステムに関し、より詳細には、ディープラーニング(deep learning)に基づく画像補正方法およびシステムに関する。
【背景技術】
【0002】
画像認識の分野では、特に画像内の文字の認識において、最初に画像から対象文字を含む部分画像の位置を特定し、その後の認識モデルのために正面像として補正されて文字認識が行われる。画像補正手順は異なる視野角(view angle)と距離を持つ画像を、同じ角度と距離を持つ正面像に変換して、認識モデルの学習を高速化し、認識精度を高める。
【0003】
しかしながら、現在の技術では、回転パラメータを手動で見つけ、画像補正手順の精度を高めるためにパラメータを繰り返し調整する従来の画像処理方法に依っている。画像補正手順は人工知能(AI:artificial intelligence)の技術を用いて実行することができるが、画像補正手順は時計回りまたは反時計回りの回転角度しか見つけることができず、画像を一定の縮尺にし、シフトまたは傾斜させるための複雑な画像処理において使用することができない。例えば、学習されたニューラルネットワークを利用するナンバープレート認識は、米国特許公開第9785855号に開示されている。
【0004】
そのため、産業界では、様々な画像を正面像として効率的かつ正確に補正することが重要な課題となっている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示は、ディープラーニングに基づく画像補正方法およびシステムを対象とする。画像補正手順のための始点変換(perspective transformation)パラメータはディープラーニングモデルによって見つけられ、様々な画像を正面像に効率的に補正し、さらに、認識精度を高めるために損失値を使用してディープラーニングモデルを更新するために使用される。
【課題を解決するための手段】
【0006】
一実施形態によれば、ディープラーニングに基づく画像補正方法が提供される。画像補正方法は、以下のステップを含む。少なくとも1つの文字を含む画像がディープラーニングモデルによって受け取られ、視点変換行列(perspective transformation matrix)が画像に従って生成される。画像に対する視点変換は、視点変換行列に従って実行され、少なくとも1つの文字の正面像を含む補正画像が得られる。少なくとも1つの文字の正面像を含む最適化された補正画像が、画像に従って生成される。画像と最適化した補正画像に対応する最適化視点変換行列が得られる。最適化視点変換行列と視点変換行列との間の損失値が計算される。ディープラーニングモデルは、損失値を用いて更新される。
【0007】
別の実施形態によれば、ディープラーニングに基づく画像補正システムが提供される。画像補正システムは、ディープラーニングモデル、処理部およびモデル調整部を備える。ディープラーニングモデルは少なくとも1つの文字を含む画像を受け取り、その画像に従って視点変換行列を生成するように構成される。処理部は画像および視点変換行列を受け取り、視点変換行列に従って画像に対して視点変換を実行して、少なくとも1つの文字の正面像を含む補正画像を取得するように構成される。モデル調整部は画像を受け取り、画像に従って少なくとも1つの文字の正面像を含む最適化された補正画像を生成し、画像および最適化された補正画像に対応する最適化された視点変換行列を取得し、最適化された視点変換行列と視点変換行列との間の損失値を計算し、損失値を使用してディープラーニングモデルを更新するように構成される。
【0008】
本開示の上記および他の態様は、好ましいが非限定的な実施形態の以下の詳細な説明に関してより良く理解されるのであろう。以下、図面を参照して説明する。
【図面の簡単な説明】
【0009】
【
図1】本開示の一実施形態によるディープラーニングに基づく画像補正システムの概略図である。
【
図2】本開示によるディープラーニングに基づく画像補正方法の一実施形態のフローチャートである。
【
図3】本開示の一実施形態による車両プレートを含む画像の概略図である。
【
図4】本開示の別の実施形態による道路標識を含む画像の概略図である。
【
図5】本発明の一実施形態による補正画像の概略図である。
【
図6】本開示の一実施形態によるステップS130のサブステップのフローチャートである。
【
図7】本開示の一実施形態によるマークを含む画像の概略図である。
【
図8】本開示の一実施形態による画像及び拡張画像の概略図である。
【
図9】本開示の一実施形態による最適化された補正画像の概略図である。
【
図10】本開示の一実施形態によるディープラーニングに基づく画像補正システムの概略図である。
【
図11】本開示の他の実施形態によるディープラーニングに基づく画像補正方法のフローチャートである。
【0010】
以下の詳細な説明において、説明の目的のために、開示された実施形態の完全な理解を提供するために、多数の特定の詳細が記載される。しかしながら、これらの特定の詳細なしに、1つ以上の実施形態が実施されてもよいことは明らかであろう。他の例では、図面を簡略化するために、周知の構造およびデバイスが概略的に示されている。
【発明を実施するための形態】
【0011】
〔実施形態1〕
図1を参照すると、本開示の一実施形態によるディープラーニングに基づく画像補正システム100の概略図が示されている。画像補正システム100は、ディープラーニングモデル110と、処理部120と、モデル調整部130とを備えている。ディープラーニングモデル110は、CNN(convolutional neural network)モデルによって実現することができる。処理部120及びモデル調整部130は、チップ、回路基板又は回路によって実現することができる。
【0012】
図1と
図2を同時に参照されたい。
図2は、本開示によるディープラーニングに基づく画像補正方法の一実施形態のフローチャートである。
【0013】
ステップS110において、少なくとも1つの文字を含む画像IMG1がディープラーニングモデル110によって受信され、画像IMG1に従って視点変換行列Tが生成される。画像IMG1は、車両プレート、道路標識、シリアル番号、または標識板の画像など、少なくとも1つの文字を含む任意の画像とすることができる。少なくとも1つの文字は、数字、英語文字、ハイフン、句読点、またはそれらの組み合わせなどである。
図3及び
図4参照されたい。
図3は、本開示の一実施形態による車両プレートを含む画像IMG1の概略図である。
図3に示すように、画像IMG1は文字「ABC-5555」を含み、
図4は本開示の別の実施形態による道路標識を含む画像IMG1の概略図であり、
図4に示すように、画像IMG1は文字「WuXing St.」を含む。ディープラーニングモデル110は事前に学習されたモデル(pre-trained model)であり、画像IMG1がディープラーニングモデル110に入力されると、ディープラーニングモデル110はそれに対応して画像IMG1に対応する視点変換行列Tを出力する。視点変換行列Tには、式1に示すように、いくつかの視点変換パラメータT
11、T
12、T
13、T
21、T
22、T
23、T
31、T
32 と1が含まれている。
【0014】
【数1】
ステップS120において、視点変換行列Tに従って、処理部120によって画像IMG1に対して視点変換が実行され、少なくとも1つの文字の正面像を含む補正画像IMG2が得られる。処理部120は視点変換行列Tに従って画像IMG1に対して視点変換を実行し、画像IMG1を、少なくとも1つの文字の正面像を含む補正画像IMG2に変換する。
図5を参照すると、本開示の一実施形態による補正画像IMG2の概略図が示されている。例えば、
図3の画像IMG1を例に取る。画像IMG1は車両プレートを含む。視点変換行列Tに従って画像IMG1に対して視点変換を行った後、
図5に示すような補正画像IMG2を得ることができる。
【0015】
ステップS130では、損失値Lを用いてモデル調整部130によってディープラーニングモデル110が更新される。
図6を参照すると、本開示の一実施形態によるステップS130のサブステップのフローチャートが示されている。ステップS130は、ステップS131~S135を含む。
【0016】
ステップS131において、画像IMG1はモデル調整部130によってマークされ、マークは文字をカバーするマーク範囲を含む。
図7を参照すると、本開示の一実施形態によるマークを含む画像IMG1の概略図が示されている。画像IMG1上のマークは、文字をカバーするマーク範囲Rを形成するマーク点A、B、C及びDを含む。本実施形態では、画像IMG1は車両プレートを含む画像であり、マーク点A,B,C,Dは車両プレートの四隅に位置させることができ、マーク範囲Rは四辺形である。別の実施形態において、画像IMG1が
図4に示されるような道路標識を含む画像であり、マーク点A、B、CおよびDを道路標識の四隅に位置させることができる場合、マーク範囲は四辺形である。別の実施形態では画像IMG1内の文字が車両プレートまたは道路標識などの幾何学的オブジェクト上に位置しない場合、モデル調整部130はマーク範囲が文字をカバーすることを可能にするだけでよい。別の実施形態ではモデル調整部130がマークされた画像を直接受け取ることができるが、マークを実行しない。
【0017】
図8を参照すると、本開示の一実施形態による画像IMG3および拡張画像IMG4の概略図が示されている。一実施形態では、マーク範囲が画像IMG3内の文字をカバーできない場合、または画像IMG3内の文字が画像IMG3を超える場合、モデル調整部130はマーク範囲R’が文字をカバーできるように、画像IMG3を拡張して拡張画像IMG4を取得し、拡張画像IMG4をマークする。本実施形態では、モデル調整部130が画像IMG3に空白画像BLKを付加して、拡張画像IMG4を得る。
【0018】
再び
図7を参照する。ステップS132では、モデル調整部130により、画像IMG1に応じて、文字の正面像を含む最適化補正画像が生成される。本実施の形態では、モデル調整部130が画像IMG1のマーク点A,B,C,Dにおける画素を画像の四隅に位置合わせして、最適化された補正画像を得る。
図9を参照すると、本開示の一実施形態による最適化された補正画像の概略図が示されている。
図9に示すように、最適化された補正画像は、文字の正面像を含む。
【0019】
ステップS133において、モデル調整部130により、画像IMG1及び最適化された補正画像に対応する最適化視点変換マトリクスが得られる。画像IMG1と最適化された補正画像との視点変換関係により、モデル調整部130は画像IMG1及び最適化された補正画像を用いて視点変換行列を計算し、計算された視点変換行列を最適化視点変換行列として使用することができる。
【0020】
ステップS134では、モデル調整部130により、最適化視点変換行列と視点変換行列Tとの間の損失値Lが算出される。ステップS135において、ディープラーニングモデル110は損失値Lを用いてモデル調整部130により更新される。
図5に示すように、視点変換行列Tに従って画像IMG1に対して視点変換を行って得られた補正画像IMG2が最良の結果と一致しないため、損失値Lを用いてモデル調整部130によりディープラーニングモデル110を更新することができる。
【0021】
本開示のディープラーニングに基づく画像補正システム100および方法によれば、画像補正手順のための視点変換パラメータはディープラーニングモデルによって求められ、様々な画像を正面像に効率的に補正し、さらに損失値を使用してディープラーニングモデルを更新し、認識精度を向上させる。
【0022】
図10を参照すると、本開示の一実施形態によるディープラーニングに基づく画像補正システム1100の概略図が示されている。画像補正システム1100は、画像補正システム1100がカメラによって実現可能な撮像部1140をさらに含む点で、画像補正システム100と異なる。
図10と
図11を同時に参照する。
図11は、本発明の他の実施形態によるディープラーニングによる画像補正方法を示すフローチャートである。
【0023】
ステップS1110において、少なくとも1つの文字を含む画像IMG5が、撮像部1140によって撮影される。
【0024】
ステップS1120において、画像IMG5がディープラーニングモデル1110によって受信され、画像IMG5に従って視点変換行列T’が生成される。ステップS1120は
図2のステップS110と同様であり、類似点はここでは繰り返さない。
【0025】
ステップS1130では、ディープラーニングモデル1110で撮影情報SIを受信し、撮影情報SIに応じて視点変換行列T’の視点変換パラメータをいくつか制限する。撮影情報SIは、撮影場所、撮影方向、撮影角度である。撮影場所、撮影方向、撮影角度は、それぞれ3つのパラメータ、2つのパラメータ、1つのパラメータで表すことができる。視点変換行列T’は式2に示すように、いくつかの視点変換パラメータT’11、T’12、T’13、T’21、T’22、T’23、T’31、T’32、および1を含む。視点変換パラメータT’11、T’13、T’21、T’22、T’32は、撮影場所、撮影方向、撮影角度の6つのパラメータにより決定できる。
【0026】
【数2】
まず、ディープラーニングモデル1110は撮影位置、撮影方向、撮影角度の6つのパラメータのそれぞれに合理的な範囲を割り当て、グリッドサーチアルゴリズム(grid search algorithm)を用いて視点変換パラメータT’
mnを計算し、視点変換パラメータT’
mnの最大値L
mn及び最小値S
mnを得る。そして、ディープラーニングモデル1110は、式3に従って、それぞれの視点変換パラメータT’
mnを算出する。
【0027】
【数3】
式3で、Z
mnは制限を受けない値であり、σは0~1の範囲の論理関数である。したがって、ディープラーニングモデル1110は、視点変換パラメータT’
11、T’
12、T’
13、T’
21、T’
22、T’
23、T’
31、T’
32 の各々が合理的な範囲内に収まることを保証することができる。
【0028】
ステップS1140において、視点変換行列T’に従って、処理部1120によって画像IMG5に対して視点変換が実行され、少なくとも1つの文字の正面像を含む補正画像IMG6が得られる。ステップS1140は
図2のステップS120と同様であり、類似点はここでは繰り返さない。
【0029】
ステップS1150では損失値L’を用いてディープラーニングモデル1110を更新するが、ステップS1150は
図2のステップS130と同様であり、ここでは類似点は繰り返さない。
【0030】
したがって、本開示の画像補正システム1100およびディープラーニングに基づく方法はディープラーニングモデル精度を高め、ディープラーニングモデルの学習をより容易にするために、撮影情報SIに従って視点変換パラメータの範囲を制限することができる。
【0031】
当業者には、開示された実施形態に対して様々な修正および変形を行うことができることが明らかであろう。明細書および実施例は単に例示的なものとみなされ、開示の真の範囲は以下の特許請求の範囲およびその均等の範囲によって示されることが意図される。