IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲広▼州大学の特許一覧

<>
  • 特許-深層学習に基づくエッジ識別方法 図1
  • 特許-深層学習に基づくエッジ識別方法 図2
  • 特許-深層学習に基づくエッジ識別方法 図3
  • 特許-深層学習に基づくエッジ識別方法 図4
  • 特許-深層学習に基づくエッジ識別方法 図5
  • 特許-深層学習に基づくエッジ識別方法 図6
  • 特許-深層学習に基づくエッジ識別方法 図7
  • 特許-深層学習に基づくエッジ識別方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2022-04-05
(45)【発行日】2022-04-13
(54)【発明の名称】深層学習に基づくエッジ識別方法
(51)【国際特許分類】
   G06T 7/13 20170101AFI20220406BHJP
   G06T 7/00 20170101ALI20220406BHJP
【FI】
G06T7/13
G06T7/00 350C
【請求項の数】 3
(21)【出願番号】P 2021157869
(22)【出願日】2021-09-28
【審査請求日】2021-09-28
(31)【優先権主張番号】202110427265.X
(32)【優先日】2021-04-21
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】519295166
【氏名又は名称】▲広▼州大学
(74)【代理人】
【識別番号】110000291
【氏名又は名称】特許業務法人コスモス国際特許商標事務所
(72)【発明者】
【氏名】朱 静
(72)【発明者】
【氏名】凌 ▲興▼涛
(72)【発明者】
【氏名】明 家輝
(72)【発明者】
【氏名】王 坤輝
(72)【発明者】
【氏名】李 林
(72)【発明者】
【氏名】鐘 綺嵐
(72)【発明者】
【氏名】何 泳隆
(72)【発明者】
【氏名】趙 宣博
(72)【発明者】
【氏名】尹 邦政
(72)【発明者】
【氏名】謝 斌盛
【審査官】山田 辰美
(56)【参考文献】
【文献】Chen Zhang,A Fast Filtering Mechanism to Improve Efficiency of Large-Scale Video Analytics,IEEE Transactions on Computers,米国,IEEE,2020年01月30日,Volume 69,p.914-p. 928,https://ieeexplore.ieee.org/document/8976261
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
(57)【特許請求の範囲】
【請求項1】
ネットワーク構造構築を行い、ネットワーク構造上にアンカーanchorを人為的に設定し、目標予測を行い、7層畳み込み層を設計してネットワーク特徴を抽出するステップS1と、
畳み込み層周囲充填を採用して、エッジ情報を抽出し、残差ネットワークと畳み込みダウンサンプリング操作を融合するステップS2と、
各畳み込み層に一括正規化操作を加え、Softmax関数を採用して正規化し、画像を0及び1に分類し、目標確率可能値を生成するステップS3と、
目標ネットワーク検出を行い、入力画像の解像度を調整するステップS4とを含み、
(1)ステップS1において、
(1-1)ネットワーク構造構築は、画像を同一スケールに正規化し、検出画像対象全体をS×S個のメッシュに分割し、各メッシュでは、目標画像の中心点位置を検出し、目標画像の中心点位置がこのメッシュにあれば、目標可能性をPr(Object)=1とし、そうでなければ、目標可能性をPr(Object)=0とし、
(1-2)目標予測のプロセスは、以下のとおりであり、
アンカーanchorを設定することにより、定量個数の予測フレームが生成され、各予測フレームには、座標情報(x,y,w,h)と信頼度(Confidence)が生成され、そのうち、xはメッシュ左上角横座標に対するオフセット値であり、yはメッシュ左上角縦座標に対するオフセット値であり、w、hはそれぞれこの予測フレームの幅と高さであり、信頼度confidenceは境界フレームが目標を含む可能性Pr(object)と境界フレーム正確度IOUとの相乗積であり、式(1)に示すとおりであり、同時に、各予測フレームには、一つの固定カテゴリCが生成され、
【数4】
(2)ステップS2において、畳み込み層周囲充填0を採用し、
(3)ステップS3において、一括正規化操作のプロセスは、以下のとおりであり、
S31、最小batchを見つけ、最小batchにおける入力データをxとし、
S32、βを入力xからなるセットとし、β={x1,x2、…、xm}であり、
S33、最小batchにおける平均値と二乗差を取得し、正規化操作し、原始データからトレーニングデータへのマッピング表現式を取得し、式(2)に示すとおりであり
【数5】
(4)ステップS4において、目標ネットワーク検出のプロセスは、以下のとおりであり、
S41、検出対象画像を56×56個のメッシュに分割し、各メッシュは、目標画像を検出し、メッシュ中心値を取得し、目標中心点が位置するメッシュを決定し、
S42、目標中心点メッシュを検出すれば、メッシュ切り取りを行い、設定された予選フレーム画像を取得し、切り取り画像をニューラルネットワーク領域に送り、局所的目標画像を含むメッシュに対して、ニューラルネットワークを介して判断・認識し、
S43、メッシュから出力する予選フレーム画像の数を設定し、k平均クラスタリング(Kmeans)を採用して、設定された予選フレームのサイズを解き、k個の対象をランダムに選択して初期クラスタ中心とし、次いで、目標における点とクラスタ中心との距離を計算し、毎回生成された対象を最も近い中心点に割り当て、サンプルを1つ割り当てるごとに、クラスタ中心点を再計算し、その後、すべてのサンプルが計算完了されるまで、クラスタリングを継続し、最終的にすべてのクラスタ点が生成され、そのうちのクラスタリングがもっとも多い若干個の矩形フレームの点を予選フレームとして選択する、
ことを特徴とする深層学習に基づくエッジ識別方法。
【請求項2】
ステップS2において、エッジ情報を抽出し、3×3の畳み込みカーネルを介してステップサイズを2に設定して、画像ダウンサンプリングを行い、パラメータを初期化して、ネットワークトレーニングを行い、逆伝播アルゴリズムにより浅層パラメータを更新する、ことを特徴とする請求項1に記載の深層学習に基づくエッジ識別方法。
【請求項3】
ネットワークトレーニングの具体的なプロセスは、以下のとおりであり、
S21、すべてのフィルタを初期化し、ランダム値を使用してパラメータ又は重みを設定し、
S22、ネットワークは、1枚のトレーニング画像を入力として受信し、畳み込み、Reluとプーリング化操作、及び全接続層の順方向伝達プロセスを介して、様々なエッジ情報の出力確率を見つけ、
S23、出力層で総誤差を算出し、
S24、逆伝播アルゴリズムを使用して、ネットワークの重みに基づいて、誤差の勾配を算出し、勾配降下アルゴリズムを使用して、全てのフィルタの値又は重み及びパラメータの値を更新し、出力誤差を最小化にし、
S25、トレーニングデータ中のすべての画像に対してステップ1~4を繰り返し、トレーニングを完了する、ことを特徴とする請求項に記載の深層学習に基づくエッジ識別方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、エッジ識別技術分野に関し、特に深層学習に基づくエッジ識別方法に関する。
【背景技術】
【0002】
現在、エッジ識別技術の応用シーンは、ますます広くなり、例えば、手書き識別、顔輪郭識別、交通標識識別などである。従来のエッジ識別技術において、境界を利用して領域を探すことによって、物体の識別とシーン解析を実現し、目標エッジ、画像テクスチャ特徴などが検出のエッジとなる可能性があるため、エッジ検出の多くの手法では、検出速度が遅く、識別精度が低く、小さな目標の精確定位を実現できないなど様々な制約と欠点が存在する。
【0003】
従来のカラー空間に基づく識別方法は、又は形状特徴に基づいてエッジ情報を識別したり、色と形状特徴とを融合して識別したり、顔色空間を介して関心領域を抽出したり、その後、サポートベクタマシン(Support Vector Machine、SVM)を使用して分類したりする。しかしながら、これらの方法にも一定の欠点が存在する。例えば、雨の日、霧の日、遮蔽などの場合には、特殊場合下でのエッジ情報特徴を顔色と形状で抽出することが困難であり、さらに精度が低くなる。
【0004】
そのため、エッジ検出精度を向上させる方法を探す必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来技術に存在する技術課題を解決するために、本発明は、深層学習に基づくエッジ識別方法を提供する。この方法は、目標のエッジ情報から、検出速度が遅いという課題を解決し、目標定位の正確度を実現し、識別精度を向上させるT-YOLO検出アルゴリズムを提案する。
【課題を解決するための手段】
【0006】
本発明は、以下の技術案によって実現される。
【0007】
深層学習に基づくエッジ識別方法であって、以下のステップを含む。
【0008】
ステップS1、ネットワーク構造構築を行い、ネットワーク構造上にアンカーanchorを設定し、目標予測を行い、7層畳み込み層を設計してネットワーク特徴を抽出する。
【0009】
ステップS2、畳み込み層周囲充填を採用して、エッジ情報を抽出し、残差ネットワークと畳み込みダウンサンプリング操作を融合する。
【0010】
ステップS3、各畳み込み層に一括正規化操作を加え、Softmax関数を採用して正規化し、画像を0及び1に分類し、目標確率可能値を生成する。
【0011】
ステップS4、目標ネットワーク検出を行い、マルチスケールトレーニング方式を採用して、入力画像の解像度を調整する。
【発明の効果】
【0012】
本発明は、従来技術に比べて、以下の利点及び有益な効果を有する。
1、本発明は、習性を介してネットワーク構造を構築し、残差ネットワーク、ダウンサンプリング操作を融合し、7層特徴抽出ネットワークを設計し、検出速度が遅いという課題を解決し、検出速度を短縮した。
2、本発明は、畳み込み層周囲充填によりエッジ情報抽出とダウンサンプリング方法を提案し、識別精度を向上させ、小さな目標の定位という課題を解決し、定位の正確度を向上させた。
3、本発明は、Softmax関数を採用して正規化することにより、目標確率可能値を生成し、多分類識別を実現し、SVM分類器の汎用性が低いという課題を解決した。
4、本発明は、一括正規化、マルチスケールトレーニングなどのトレーニング方法により、アルゴリズムのロバスト性を向上させた。
【図面の簡単な説明】
【0013】
図1】本発明の方法のフローチャートである。
図2】本発明の予測概略図である。
図3】本発明の7層畳み込み層である。
図4】本発明のダウンサンプリング概略図である。
図5】本発明の残差ネットワークフローチャートである。
図6】本発明のネットワーク概略図である。
図7】異なる解像度画像の正確度である。
図8】異なる解像度画像の検出速度である。
【発明を実施するための形態】
【0014】
以下、実施例及び図面を結び付けながら、本発明についてさらに詳細に説明するが、本発明の実施形態はこれらに限定されない。
【0015】
実施例
図1に示すように、本実施例は、深層学習に基づくエッジ識別方法を提供する。この方法は、主に以下のステップを含む。
【0016】
ステップS1、ネットワーク構造構築を行い、ネットワーク構造上にアンカーanchorを設定し、目標予測を行い、7層畳み込み層を設計してネットワーク特徴を抽出する。
【0017】
本実施例では、ステップS1において、ネットワーク構造構築は、画像を同一スケールに正規化し、検出画像対象全体をS×S個のメッシュに分割し、各メッシュでは、目標画像の中心点位置を検出し、目標画像の中心点位置がこのメッシュにあれば、目標可能性をPr(Object)=1とし、そうでなければ、目標可能性をPr(Object)=0とする。
【0018】
図2に示すように、本実施例では、人為的に設定されたアンカーanchorを介して定量個数の予測フレームが生成され、各予測フレームには、座標情報(x,y,w,h)と信頼度(Confidence)が生成される。そのうち、xはメッシュ左上角横座標に対するオフセット値であり、yはメッシュ左上角縦座標に対するオフセット値であり、w、hはそれぞれこの予測フレームの幅と高さであり、信頼度は境界フレームが目標を含む可能性Pr(Object)と境界フレーム正確度IOU(Intersection Over Union)との相乗積であり、式(1)に示すとおりであり、同時に、各予測フレームには、一つの固定カテゴリCが生成され、

【数1】

比値が0に近い場合、予測フレームが真実フレームからずれていることを表す。
【0019】
図3に示すように、本実施例では、モデル特徴抽出速度を短縮するために、7層畳み込み層を採用してネットワーク特徴を抽出する。
【0020】
ステップS2、手書き、交通標識などの特定シーンに対して、畳み込み層周囲充填0を採用して、エッジ情報を抽出し、ダウンサンプリング方法を利用して識別精度を向上させ、残差ネットワークを加え、モデルの過剰フィッティングを防止する。
【0021】
図4に示すように、本実施例では、畳み込み層を採用して、3×3の畳み込みカーネルを介してステップサイズを2に設定し、画像ダウンサンプリングを行うことによって、エッジ情報が失われないようにし、さらに検出精度を向上させる。そのうち、深さが深いほどネットワーク層は、パラメータ初期化は一般に0に近く、ネットワークトレーニングプロセスでは、繰り返し回数の増加につれて、ネットワークは逆伝播アルゴリズムにより浅層パラメータを更新し、さらに勾配消失を引き起こし、勾配爆発などの現象を産生することによって、収束できなくなり、損失率が増加する。しかし、残差ネットワークは、勾配消失及び勾配爆発などの現象を解決することができ、さらにモデルを収束させることができる。このために、エッジ情報を抽出した後に残差ネットワークを加え、モデルの過剰フィッティング防止のために用いる。
【0022】
具体的には、ネットワークトレーニングの具体的なプロセスは、以下のとおりである。
【0023】
S21、すべてのフィルタを初期化し、ランダム値を使用してパラメータ又は重みを設定する。
【0024】
S22、ネットワークは、1枚のトレーニング画像を入力として受信し、畳み込み、Reluとプーリング化操作、及び全接続層の順方向伝達プロセスを介して、様々なエッジ情報の出力確率を見つける。
【0025】
S23、出力層で総誤差を算出する。
【0026】
S24、逆伝播アルゴリズムを使用して、ネットワークの重みに基づいて、誤差の勾配を算出し、勾配降下アルゴリズムを使用して、全てのフィルタの値又は重み及びパラメータの値を更新し、出力誤差を最小化にする。
【0027】
S25、トレーニングデータ中のすべての画像に対してステップ1~4を繰り返し、トレーニングを完了する。
【0028】
図5図6に示すように、本実施例では、残差ネットワークの出力と入力を融合して、ダウンサンプリングすることにより、小型目標の識別課題を解決し、精度を向上させる。
【0029】
ステップS3、各畳み込み層に一括正規化操作を加え、Softmax関数を採用して正規化し、画像を0及び1に分類し、目標確率可能値を生成する。
【0030】
本実施例では、ステップS3において、一括正規化操作のプロセスは、以下のとおりである。
【0031】
S31、最小batchを見つけ、最小batchにおける入力データをxとする。
【0032】
S32、βを入力xからなるセットとし、β={x1,x2、…、xm}である。
【0033】
S33、最小batchにおける平均値と二乗差を取得し、正規化操作し、さらに原始データからトレーニングデータへのマッピング表現式を生成し、式(2)に示すとおりである。
【0034】

【数2】
【0035】
S4、目標ネットワーク検出を行い、マルチスケールトレーニング方式を採用して、10ラウンドごとに入力画像の解像度を1回調整し、さらにモデルが異なる解像度に対して有効な識別と定位を行うことができるようにする。
【0036】
本実施例では、目標ネットワーク検出のプロセスは、以下のとおりである。
【0037】
S41、検出対象画像を56×56個のメッシュに分割し、各メッシュは、目標画像が含まれているか否かを検出し、メッシュ中心値を取得し、さらに目標中心点が位置するメッシュを決定する。
【0038】
S42、目標中心点メッシュを検出すれば、メッシュ切り取りを行い、大きさが事前設定済みである予選フレーム画像を生成し、切り取り画像をニューラルネットワーク領域に送り、局所的目標画像を含むメッシュに対して、ニューラルネットワークを介して判断・認識する。
【0039】
S43、メッシュから出力する予選フレーム画像の数を5個に設定し、k平均クラスタリング(Kmeans)を採用して、予め設定された予選フレームのサイズを解き、k個の対象をランダムに選択して初期クラスタ中心とし、次いで、目標における点とクラスタ中心との距離を計算し、毎回生成された対象を最も近い中心点に割り当て、サンプルを1つ割り当てるごとに、クラスタ中心点を再計算し、その後、すべてのサンプルが計算完了されるまで、クラスタリングを継続し、最終的にすべてのクラスタ点が生成され、そのうちのクラスタリングがもっとも多い5つの矩形フレームの点を予選フレームとして選択する。
【0040】
本実施例では、目標中心点のメッシュには、(5+3)×5個の予選フレーム画像が生成され、このメッシュにおいて生成された40個の予選フレーム画像はいずれもニューラルネットワークに送られて判断識別される。
【0041】
本発明の正確性と信頼性を検証するために、ハードウェアプラットフォームGPU RXT2080 TiとCPU Intel (R)Xeon(R) W-2133及びソフトウェアプラットフォームUbuntu16.04、opencv3.4.3を基礎として、テストセット3000枚の画像を異なるネットワークに送り、画像サイズは1024 pixel×768 pixelであり、平均正確率(m AP)、平均再現率(Average Recall、AR)、GPU検出速度(ms/frame)を検証指標として選択する。AR計算式は、式(3)に示すとおりである。
【0042】
【数3】

式中、TPは真の正サンプルを表し、FPは偽の正サンプルを表し、FNは偽の負サンプルを表し、iは種別を表す。アルゴリズムの比較は表1に示すとおりである。表1から分かるように、T-YOLOアルゴリズムは平均正確度でも検出速度でも最適な効果が得られ、YOLOv2アルゴリズムに比べて、T-YOLOアルゴリズムの平均正確度は7.1%向上し、検出速度は1フレームあたり4.9ms短縮し、Faster R-CNNアルゴリズムに比べて、T-YOLOアルゴリズムの速度は、124倍向上し、精度は3.8%向上し、従来のHOG+SVMアルゴリズムに比べて、検出精度は13%向上した。
【0043】
【表1】
【0044】
同様に、T-YOLOアルゴリズムのロバスト性を検証するために、異なる解像度入力画像を採用してテストを行った。224 pixel×224 pixel、320 pixel×320 pixel、416 pixel×416 pixel、512 pixel×512 pixel、608 pixel×608 pixelの5種類の解像度画像を採用して、原始画像を上記解像度固定サイズに等比例方式に従って拡大縮小し、空き画素領域に対して黒画素0を充填し、各分類の正確率及び平均精度、検出速度という3つの指標をそれぞれ検証し、その結果は、図7図8に示すとおりである。画像サイズ320 pixel×320 pixelから大きい方に向かって、平均精度がだんだん高くなる。図7図8から分かるように、低解像度の画像に対しては検出速度が速いが、対応する平均精度は低く、224 pixel×224 pixelの画像に対してGPU上での検出速度が13.69 ms/frameに達し、解像度が向上するにつれて、検出所要時間も増加している。
【0045】
実験により、本実施例の方法は真実且つ有効であり、従来のエッジ識別アルゴリズムに比べて、精度と速度両方面でも大幅に向上し、GPUプラットフォーム上で原始画像データ(1024 pixel×768 pixel)を採用する場合、その検出速度は19.31ms/frame、m APは97.3%であった。マルチスケールトレーニング方式を採用したため、モデルのロバスト性を向上させたことが明らかになった。
【0046】
上記実施例は、本発明の好適な実施形態であるが、本発明の実施形態は上記実施例に限定されるものではなく、本発明の技術的思想内及び原理下で行われる他の任意の変形、修飾、置換、組み合わせ、簡略化は、いずれも等価の置換方式であり、いずれも本出願の保護範囲内に含まれる。
【要約】      (修正有)
【課題】目標のエッジ情報から、検出速度が遅いという課題を解決し、目標定位の正確度を実現し、識別精度を向上させるT-YOLO検出アルゴリズムを提供する。
【解決手段】検出アルゴリズムは、ネットワーク構造構築を行い、ネットワーク構造上にアンカーanchorを設定し、目標予測を行い、7層畳み込み層を設計してネットワーク特徴を抽出するステップと、畳み込み層周囲充填を採用して、エッジ情報を抽出し、残差ネットワークと畳み込みダウンサンプリング操作を融合するステップと、各畳み込み層に一括正規化操作を加え、Softmax関数を採用して正規化し、画像を0及び1に分類し、目標確率可能値を生成するステップと、目標ネットワーク検出を行い、マルチスケールトレーニング方式を採用して、入力画像の解像度を調整するステップと、を含む。
【選択図】図1
図1
図2
図3
図4
図5
図6
図7
図8