IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 之江実験室の特許一覧

特許7357176周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置
<>
  • 特許-周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置 図1
  • 特許-周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置 図2
  • 特許-周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置 図3
  • 特許-周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-09-27
(45)【発行日】2023-10-05
(54)【発明の名称】周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置
(51)【国際特許分類】
   G06V 10/82 20220101AFI20230928BHJP
   G06T 7/00 20170101ALI20230928BHJP
【FI】
G06V10/82
G06T7/00 350C
G06T7/00 300H
【請求項の数】 10
(21)【出願番号】P 2023071865
(22)【出願日】2023-04-25
【審査請求日】2023-04-25
(31)【優先権主張番号】202210902801.1
(32)【優先日】2022-07-29
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】521162399
【氏名又は名称】之江実験室
(74)【代理人】
【識別番号】100128347
【弁理士】
【氏名又は名称】西内 盛二
(72)【発明者】
【氏名】章 依依
(72)【発明者】
【氏名】▲鄭▼ 影
(72)【発明者】
【氏名】▲応▼ 志文
【審査官】片岡 利延
(56)【参考文献】
【文献】中国特許出願公開第115496993(CN,A)
【文献】中国特許出願公開第115294483(CN,A)
【文献】中国特許出願公開第112465737(CN,A)
【文献】米国特許出願公開第2022/0215646(US,A1)
【文献】米国特許第11222217(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 10/82
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法であって、以下のステップS1~ステップS5を含み、
前記ステップS1では、訓練セット画像に対してデータ前処理を行い、訓練セット画像をYUVの3つのチャネルに変換して、3つのチャネルの画像に対してブロック分割をそれぞれ行い、Yが明度を示し、UとVが色度を示し、
前記ステップS2では、3つのチャネルにおける各ブロックの高低周波情報を抽出し、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示し、
前記ステップS3では、各ブロックにおける同一周波数領域に属する情報を各ブロック間の空間関係に応じて同一周波数領域チャネルに書き込んで、複数の異なる周波数領域のチャネルを取得し、
前記ステップS4では、すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力し、
前記ステップS5では、周波数領域特徴を検出ネットワークに入力し、予測された対象枠位置及び予測カテゴリを出力し、特徴マップにおける各特徴点に対応する真のカテゴリ及び真理値の対象枠位置に基づいて損失関数に応じて夜間オブジェクト監督訓練を行う
ことを特徴とする周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。
【請求項2】
前記ステップS1におけるデータ前処理は、以下のステップS1.1~ステップS1.2を含み、
前記ステップS1.1では、訓練セット画像に対してランダム水平反転、ランダムせん断、画像充填、画像スケール化を順次行い、画像充填過程において、画像の幅・長さを0でsの整数倍に充填し、画像スケール化過程において、画像を幅s×n・長さs×nにスケール化して、前処理後の画像次元(s×n)×(s×n)×3を取得し、ここで、3がRGBチャネルであり、
前記ステップS1.2では、訓練セット画像をRGBからYUVチャネルに変換し、3つのチャネルの画像を画素の幅・長さがs×sのn×n個のブロックにそれぞれ分割する
ことを特徴とする請求項1に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。
【請求項3】
前記ステップS2において、3つのチャネルの各ブロックのそれぞれに対して離散コサイン変換DCTを行い、更に各ブロックの高低周波情報を抽出する
ことを特徴とする請求項1に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。
【請求項4】
前記ステップS4は、以下のステップS4.1~ステップS4.4を含み、
前記ステップS4.1では、各周波数領域チャネルを二次元ベクトルから一次元ベクトルに再構築し、各ベクトルを行列Kに直列接続し、
前記ステップS4.2では、行列に対してスケール化内積自己注意計算を行って、複数の周波数領域間における動的に重み付けしたベクトルを取得し、
前記ステップS4.2における自己注意計算公式は、以下の式1に示され、
【数1】
ここで、各ベクトルを行列Kに直列接続して自己注意計算におけるキー値keyとし、V=Q=Kであり、Qがクエリqueryを示し、Vが値エントリvalueを示し、QKが内積操作を示し、すべてのベクトル間の類似度を取得するためのものであり、
がスケール比率を示し、Nが一次元ベクトルの長さを示し、
前記ステップS4.3では、動的に重み付けしたベクトルを同じ多層パーセプトロンMLP層に入力し、
前記ステップS4.4では、多層パーセプトロンMLP層の出力ベクトルを直列接続して、次元を再構築して、自己注意重み付けした後の周波数領域特徴を取得する
ことを特徴とする請求項1に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。
【請求項5】
前記ステップS5は、以下のステップS5.1~ステップS5.2を含み、
前記ステップS5.1では、前記周波数領域特徴を検出ネットワークに入力し、特徴マップにおける各特徴点に対応する予測カテゴリを出力し、対象枠を予測し、
前記ステップS5.2では、予測カテゴリ及び真のカテゴリに基づいて分類損失により監督訓練を行うとともに、予測対象枠及び真理値の対象枠に基づいて回帰損失により監督訓練を共同で行う
ことを特徴とする請求項1に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。
【請求項6】
前記ステップS5.2における分類損失はFocal Loss分類損失を用い、計算公式は、以下の式2に示され、
【数2】
ここで、xが特徴マップにおけるx行目を示し、yがy列目の位置を示し、px,yがx,y座標において予測カテゴリにより取得された分類信頼度を示し、p x,yがx,y座標においてオブジェクトが属する真のカテゴリの分類信頼度を示し、1が正サンプルを示し、0が負サンプルを示し、γが0よりも大きな値であり、αが[0,1]間の小数であり、γとαがいずれも固定値であって、訓練に参加しない
ことを特徴とする請求項5に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。
【請求項7】
前記ステップS5.2における回帰損失はIOU交差オーバーユニオン損失を用い、計算公式は、以下の式3に示され、
【数3】
ここで、xが特徴マップにおけるx行目を示し、yがy列目の位置を示し、bx,yがx,y座標に対応する予測対象枠の座標を示し、b x,yがx,y座標に対応する真理値の対象枠の座標を示し、Areaが該対象枠の面積を示す
ことを特徴とする請求項5に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。
【請求項8】
事前訓練モジュール、高低周波情報抽出モジュール、同一周波数領域情報記憶モジュール、自己注意ネットワークモジュール及び検出ネットワークモデルを備える周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置であって、
前記事前訓練モジュールは、訓練セット画像に対してデータ前処理を行い、訓練セット画像をYUVの3つのチャネルに変換して、3つのチャネルの画像に対してブロック分割をそれぞれ行い、Yが明度を示し、UとVが色度を示し、
前記高低周波情報抽出モジュールは、3つのチャネルにおける各ブロックの高低周波情報を抽出し、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示し、
前記同一周波数領域情報記憶モジュールは、各ブロックにおける同一周波数領域に属する情報を各ブロック間の空間関係に応じて同一周波数領域チャネルに書き込んで、複数の異なる周波数領域のチャネルを取得し、
前記自己注意ネットワークモジュールは、すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力し、
前記検出ネットワークモデルは、周波数領域特徴を検出ネットワークに入力し、予測された対象枠位置及び予測カテゴリを出力し、特徴マップにおける各特徴点に対応する真のカテゴリ及び真理値の対象枠位置に基づいて損失関数に応じて夜間オブジェクト監督訓練を行う
ことを特徴とする周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置。
【請求項9】
周波数領域における自己注意機構に基づく夜間オブジェクト検出方法であって、
入力画像に対して請求項1に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出方法によって前処理、高低周波情報の抽出及び同一周波数領域チャネルへの書き込みを行った後、訓練済みの自己注意ネットワーク及び検出ネットワークに入力して、検出結果を取得する
ことを特徴とする周波数領域における自己注意機構に基づく夜間オブジェクト検出方法。
【請求項10】
周波数領域における自己注意機構に基づく夜間オブジェクト検出装置であって、
入力画像を請求項8に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置に入力し、事前訓練モジュール、高低周波情報抽出モジュール、同一周波数領域情報記憶モジュールを経た後、訓練済みの自己注意ネットワークモジュール及び検出ネットワークモデルに順次入力して、検出結果を取得する
ことを特徴とする周波数領域における自己注意機構に基づく夜間オブジェクト検出装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はコンピュータ視覚識別の技術分野に関し、特に周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置に関する。
【背景技術】
【0002】
オブジェクト検出は多くの他の代表的な視覚問題の基礎であって、高い実用価値及び利用可能性を有する。RGBビデオカメラが撮影した夜間シーンのピクチャにおける物体を検出することは、非常に重要であるが、十分に重く見ていない問題であり、現在最新の視覚検出アルゴリズムは夜間シーンにおいて所期の性能を実現できない場合が多い。
【0003】
夜間オブジェクト検出は多くのシステム(例えば、安全で確実な自動運転車)の肝心の構成部分である。歩行者検出を例とし、正式なアルゴリズムのCaltech(有名な歩行者検出データセット)における誤り率(小さければ小さいほど良くなる)は7.36%に達することができるが、夜間歩行者データセットにおいて63.99%に達するだけである。
【0004】
夜間オブジェクト検出の性能が低い理由は、主に現在の深層学習ネットワークが照明情報及び低周波情報に比較的敏感であるためである。周知のように、夜間で撮影した画像は、騒音が大きく、輪郭が明瞭でなく、模様がぼけているという問題がある。これも汎用の特徴抽出ネットワークが十分な特徴情報を抽出して学習及び識別することができないことを直接にもたらしてしまう。
【0005】
研究によって明らかになることは、人の目の色度への敏感度が輝度への敏感度よりも低い。従って、YUV画像(Yチャネルが画像の輝度情報を示す)は人の目に一層適合する視覚特性を示す。また、研究者はニューラルネットワークの画像の異なる周波数領域への敏感度が異なることを発見した。昼間画像に基づいて訓練するモデルにおいて、低周波情報がより効果的なものであることが証明されるが、高周波情報が常に無視される。ところが、夜間画像は昼間画像の分布と大いに異なり、夜間画像自体が有する低周波情報が非常に限られる。従って、周波数領域の範囲において画像を動的に重み付けし、モデルが性能の向上に最も有利な周波数領域特徴を選択できるようにし、夜間シーンへの利用可能性が高い。
【発明の概要】
【発明が解決しようとする課題】
【0006】
従来技術の欠点を解決して、夜間画像の検出精度を向上させる目的を実現するために、本発明は以下の技術案を用いる。
【課題を解決するための手段】
【0007】
周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法であって、
訓練セット画像に対してデータ前処理を行い、訓練セット画像をYUVの3つのチャネルに変換して、3つのチャネルの画像に対してブロック分割をそれぞれ行い、Yが明度を示し、UとVが色度を示すステップS1と、
3つのチャネルにおける各ブロックの高低周波情報を抽出し、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示すステップS2と、
各ブロックにおける同一周波数領域に属する情報を各ブロック間の空間関係に応じて同一周波数領域チャネルに書き込んで、複数の異なる周波数領域のチャネルを取得するステップS3と、
すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力するステップS4と、
予測された対象枠位置及び予測カテゴリを出力し、特徴マップにおける各特徴点に対応する真のカテゴリ及び真理値の対象枠位置に基づいて損失関数に応じて夜間オブジェクト監督訓練を行うステップS5と、を含む。
【0008】
更に、前記ステップS1におけるデータ前処理は、
訓練セット画像に対してランダム水平反転、ランダムせん断、画像充填、画像スケール化を順次行い、画像充填過程において、画像の幅・長さを0でsの整数倍に充填し、画像スケール化過程において、画像を幅s×n・長さs×nにスケール化して、前処理後の画像次元(s×n)×(s×n)×3を取得し、ここで、3がRGBチャネルであるステップS1.1と、
訓練セット画像をRGBからYUVチャネルに変換し、3つのチャネルの画像を画素の幅・長さがs×sのn×n個のブロックにそれぞれ分割するステップS1.2と、を含む。
【0009】
更に、前記ステップS2において、3つのチャネルの各ブロックのそれぞれに対して離散コサイン変換(DCT)を行い、更に各ブロックの高低周波情報を抽出する。
【0010】
更に、前記ステップS4は、
各周波数領域チャネルを二次元ベクトルから一次元ベクトルに再構築し、各ベクトルを行列Kに直列接続するステップS4.1と、
行列に対してスケール化内積自己注意計算を行って、複数の周波数領域間における動的に重み付けしたベクトルを取得するステップS4.2であって、
前記ステップS4.2における自己注意計算公式は、以下の式1に示され、
【数1】
ここで、各ベクトルを行列Kに直列接続して自己注意計算におけるキー値(key)とし、V=Q=Kであり、Qがクエリ(query)を示し、Vが値エントリ(value)を示し、QKが内積操作を示し、すべてのベクトル間の類似度を取得するためのものであり、
がスケール比率を示し、Nが一次元ベクトルの長さを示し、該公式は複数の周波数領域間における動的重み付けを実現して、その周波数領域が最大重みを占めるように確保することができるステップS4.2と、
動的に重み付けしたベクトルを同じ多層パーセプトロン(MLP)層に入力し、該MLP層は2つの完全接続層で構成され、第1層が
個のニューロンで構成され、第2層がN個のニューロンで構成され、従って、出力ベクトル及び入力ベクトルの次元が変化しないように維持するステップS4.3と、
多層パーセプトロン(MLP)層の出力ベクトルを直列接続して、次元を再構築して、自己注意重み付けした後の周波数領域特徴を取得するステップS4.4と、を含む。
【0011】
更に、前記ステップS5は、
前記周波数領域特徴を検出ネットワークに入力し、特徴マップにおける各特徴点に対応する予測カテゴリを出力し、対象枠を予測し、検出ネットワークは深層残差ネットワーク(ResNet)を基幹ネットワークとし、微調整後のRetinaNet検出ネットワークを用い、具体的にその基幹ネットワークResNetにおける畳み込み層conv1及び畳み込み層conv2における最大プーリング層を削除し、残りの層が変化しないように維持するステップS5.1と、
予測カテゴリ及び真のカテゴリに基づいて分類損失により監督訓練を行うとともに、予測対象枠及び真理値の対象枠に基づいて回帰損失により監督訓練を共同で行うステップS5.2と、を含む。
【0012】
更に、前記ステップS5.2における分類損失はFocal Loss分類損失を用い、計算公式は、以下の式2に示され、
【数2】
ここで、xが特徴マップにおけるx行目を示し、yがy列目の位置を示し、px,yがx,y座標において予測カテゴリにより取得された分類信頼度を示し、p x,yがx,y座標においてオブジェクトが属する真のカテゴリの分類信頼度を示し、1が正サンプルを示し、0が負サンプルを示し、γが0よりも大きな値であり、αが[0,1]間の小数であり、γとαがいずれも固定値であって、訓練に参加しない。
【0013】
更に、前記ステップS5.2における回帰損失はIOU交差オーバーユニオン損失を用い、計算公式は、以下の式3に示され、
【数3】
ここで、xが特徴マップにおけるx行目を示し、yがy列目の位置を示し、bx,yがx,y座標に対応する予測対象枠の座標を示し、b x,yがx,y座標に対応する真理値の対象枠の座標を示し、Areaが該対象枠の面積を示す。
【0014】
周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置であって、事前訓練モジュール、高低周波情報抽出モジュール、同一周波数領域情報記憶モジュール、自己注意ネットワークモジュール及び検出ネットワークモデルを備え、
前記事前訓練モジュールは、訓練セット画像に対してデータ前処理を行い、訓練セット画像をYUVの3つのチャネルに変換して、3つのチャネルの画像に対してブロック分割をそれぞれ行い、Yが明度を示し、UとVが色度を示し、
前記高低周波情報抽出モジュールは、3つのチャネルにおける各ブロックの高低周波情報を抽出し、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示し、
前記同一周波数領域情報記憶モジュールは、各ブロックにおける同一周波数領域に属する情報を各ブロック間の空間関係に応じて同一周波数領域チャネルに書き込んで、複数の異なる周波数領域のチャネルを取得し、
前記自己注意ネットワークモジュールは、すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力し、
前記検出ネットワークモデルは、周波数領域特徴を検出ネットワークに入力し、予測された対象枠位置及び予測カテゴリを出力し、特徴マップにおける各特徴点に対応する真のカテゴリ及び真理値の対象枠位置に基づいて損失関数に応じて夜間オブジェクト監督訓練を行う。
【0015】
周波数領域における自己注意機構に基づく夜間オブジェクト検出方法であって、入力画像に対して前記した周波数領域における自己注意機構に基づく夜間オブジェクト検出方法によって前処理、高低周波情報の抽出及び同一周波数領域チャネルへの書き込みを行った後、訓練済みの自己注意ネットワーク及び検出ネットワークに入力して、検出結果を取得する。
【0016】
周波数領域における自己注意機構に基づく夜間オブジェクト検出装置であって、入力画像を前記した周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置に入力し、事前訓練モジュール、高低周波情報抽出モジュール、同一周波数領域情報記憶モジュールを経た後、訓練済みの自己注意ネットワークモジュール及び検出ネットワークモデルに順次入力して、検出結果を取得する。
【発明の効果】
【0017】
本発明の優位性及び有益な効果は、
第1として、入力画像をRGBからYUVチャネルに変換し、人の目の視覚特性に一層適合し、輝度Yチャネルを分離することにより輝度チャネルにおける異なる周波数領域の視覚情報を捕らえることができ、それにより夜間オブジェクト検出性能を向上させ、
第2として、周波数領域における自己注意ネットワークモジュールにおけるスケール化自己注意計算によって有用な周波数領域の重みを動的に向上させ、冗長周波数領域の重みを低下させ、それにより周波数領域情報の利用率を向上させ、
第3として、該方法は深層残差ネットワーク(ResNet)を基幹ネットワークとするいかなる検出ネットワーク(RetinaNetに限らない)にプラグ・アンド・プレイすることができ、且つRetinaNet-ResNet50及びRetinaNet-ResNet101の2つのbaselineよりもそれぞれMAPが3.70%及び2.88%の精度向上する、ことにある。
【図面の簡単な説明】
【0018】
図1図1は本発明の実施例に係る方法の全体アーキテクチャ図である。
図2図2は本発明の実施例に係る方法のフローチャートである。
図3図3は本発明の実施例に係る方法における周波数領域における自己注意ネットワークモジュールの実行フローチャートである。
図4図4は本発明の実施例に係る装置の構造模式図である。
【発明を実施するための形態】
【0019】
以下、図面を参照しながら本発明の具体的な実施形態を詳しく説明する。理解されるように、ここに説明される具体的な実施形態は単に本発明を説明及び解釈するためのものであり、本発明を制限するためのものではない。
【0020】
図1図2に示すように、周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法は以下のステップを含む。
【0021】
ステップS1では、訓練セット画像に対してデータ前処理を行い、訓練セット画像をYUVの3つのチャネルに変換して、3つのチャネルの画像に対してブロック分割をそれぞれ行い、Yが明度を示し、UとVが色度を示し、
データ前処理の前に、データセットの構築を行うことができすることであって、オープンソース夜間オブジェクト検出データセットExclusively Dark(ExDark)をダウンロードし、該データセットは12個のカテゴリ、即ち自転車、船、瓶、コップ、バス、乗用車、猫、椅子、狗、オートバイ、人及び机を含み、4:1:1の比率で訓練セット、検証セット及びテストセットを作成し、
上記訓練セット画像に対してデータ前処理を行うことは具体的に下記ステップS1.1~ステップS1.2を含み、
ステップS1.1において、訓練セット画像に対してランダム水平反転、ランダムせん断、画像充填、画像スケール化を順次行い、画像充填過程において、画像の幅・長さを0でsの整数倍に充填し、画像スケール化過程において、画像を幅s×n・長さs×nにスケール化して、前処理後の画像次元(s×n)×(s×n)×3を取得し、ここで、3がRGBチャネルであり、
図1が簡略化された図であり、画像のサイズが4×4であり、s=n=2であり、同一数字が同一周波数領域を示すが、本発明の実施例において、s=8、n=64であり、従って、前処理後の画像次元が512×512×3であり、ここで、3がRGBチャネルであり、
ステップS1.2において、訓練セット画像をRGBからYUVチャネルに変換し、3つのチャネルの画像を画素の幅・長さがs×sのn×n個のブロックにそれぞれ分割し、
本発明の実施例では、幅・長さが8×8のブロックが結像され、従って、3つのチャネルがそれぞれ64×64=4096個のブロックに分割され、Yが明度(このチャネルだけを取ることで、グレースケールマップを取得することができる)を示し、UとVが色度を示し、画像の彩度を説明し、画素の色を指定するためのものである。
【0022】
ステップS2では、3つのチャネルにおける各ブロックの高低周波情報を抽出し、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示し、
3つのチャネルの各ブロックのそれぞれに対して離散コサイン変換(DCT)を行い、更に各ブロックの高低周波情報を抽出する。
【0023】
本発明の実施例では、各ブロックの高低周波情報を抽出し、このとき、画像次元が依然として512×512×3であるが、示す情報が各ブロックの周波数領域情報となり、ここで、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示す。
【0024】
ステップS3では、各ブロックにおける同一周波数領域に属する情報を各ブロック間の空間関係に応じて同一周波数領域チャネルに書き込んで、複数の異なる周波数領域のチャネルを取得すれば、合計して異なる周波数領域を示すs×s×3個のチャネルが生成され、各チャネルのサイズがn×nであり、
本例では、各元のチャネルは64×64個のブロックがあり、従って、元の512×512×3の画像が64×64×192の周波数領域チャネルに分解され、画像の192種類の周波数領域が示され、
ステップS4では、すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力し、図3に示すように、下記ステップS4.1~ステップS4.4を含み、
ステップS4.1において、各周波数領域チャネルを二次元ベクトルから一次元ベクトルに再構築すれば、合計してs×s×3(Sと記される)個の長さn×n(Nと記される)の1次元ベクトルが生成され、各ベクトルを直列接続して行列Kをなし、K=S×Nであり、
本発明の実施例では、合計してSが192個であって長さNが4096である一次元ベクトルが生成され、各ベクトルを直列接続してなる行列がKと記され、K=192×4096であり、
ステップS4.2において、行列に対してスケール化内積自己注意計算を行って、複数の周波数領域間における動的に重み付けしたベクトルを取得し、その計算公式は、以下の式1に示され、
【数1】
ここで、各ベクトルを行列Kに直列接続して自己注意計算におけるキー値keyとし、V=Q=Kであり、Qがクエリqueryを示し、Vが値エントリvalueを示し、QKが内積操作を示し、すべてのベクトル間の類似度を取得するためのものであり、
がスケール比率を示し、Nが一次元ベクトルの長さを示し、該公式は複数の周波数領域間における動的重み付けを実現して、その周波数領域が最大重みを占めるように確保することができ、
本発明の実施例では、N=4096であり、次元192×4096のベクトルを出力し、Qがクエリ(query)を示し、Kがキー値(key)を示し、Vが値エントリ(value)を示す。
【0025】
ステップS4.3において、動的に重み付けしたベクトルを同じ多層パーセプトロン(MLP)層に入力し、該MLP層は2つの完全接続層で構成され、第1層が
個のニューロンで構成され、第2層がN個のニューロンで構成され、
本発明の実施例では、ステップS4.2で計算して出力されたベクトルが192個の次元1×4096のベクトルに基づいて、それぞれ同じMLP(Multilayer Perceptron、多層パーセプトロン)層に入力され、該MLP層は2つの完全接続層で構成され、第1層が
個のニューロンで構成され、第2層が4096個のニューロンで構成される。従って、出力ベクトル及び入力ベクトルの次元が変化しないように維持され、
ステップS4.4において、多層パーセプトロン(MLP)層の出力ベクトルを直列接続して、次元を再構築して、自己注意重み付けした後の周波数領域特徴を取得し、具体的に、上記S個の出力ベクトルを直列接続して、N×Sのベクトルを取得し、且つ次元n×n×Sのベクトルに再構築(reshape)して、該ベクトルが自己注意重み付けした後の周波数領域特徴であり、
本発明の実施例では、上記192個の出力ベクトルを直列接続して、4096×192のベクトルを取得し、且つ次元64×64×192のベクトルに再構築(reshape)し、該ベクトルが自己注意重み付けした後の周波数領域特徴であり、
ステップS5では、周波数領域特徴を検出ネットワークに入力し、予測値及び真理値に基づいて損失関数に応じて夜間オブジェクト監督訓練を行い、それは下記ステップS5.1~ステップS5.3を含み、
ステップS5.1において、前記周波数領域特徴を検出ネットワークに入力し、具体的に、周波数領域特徴を、深層残差ネットワーク(ResNet)を基幹ネットワークとする検出ネットワークに入力し、該検出ネットワークが微調整後のRetinaNet検出ネットワークを用い、具体的にその基幹ネットワーク(ResNet)におけるconv1層及びconv2層における最大プーリング層を削除し、残りの層が変化しないように維持し、
ステップS5.2において、分類損失及び回帰損失により監督訓練を共同で行い、具体的に、ステップS4.4における出力された周波数領域特徴を上記検出ネットワークに入力して訓練し、分類損失がFocal Lossを用い、回帰損失がIOU交差オーバーユニオン損失を用い、
分類損失はFocal Loss分類損失を用い、計算公式は、以下の式2に示され、
【数2】
ここで、xが特徴マップにおけるx行目を示し、yがy列目の位置を示し、px,yがx,y座標において予測カテゴリにより取得された分類信頼度を示し、p x,yがx,y座標においてオブジェクトが属する真のカテゴリの分類信頼度を示し、1が正サンプルを示し、0が負サンプルを示し、γが0よりも大きな値であり、αが[0,1]間の小数であり、γとαがいずれも固定値であって、訓練に参加しない。
【0026】
回帰損失はIOU交差オーバーユニオン損失を用い、計算公式は、以下の式3に示され、
【数3】
ここで、xが特徴マップにおけるx行目を示し、yがy列目の位置を示し、bx,yがx,y座標に対応する予測対象枠の座標を示し、b x,yがx,y座標に対応する真理値の対象枠の座標を示し、Areaが該対象枠の面積を示す。
【0027】
ステップS5.3において、同期SGD(stochastic gradient descent、確率的勾配降下)を最適化装置として用い、8つのGPUにおいて訓練を行い、batch sizeが16であり、訓練ステップ数が90kであり、初期学習率が0.01であり、その後で60kステップ及び80kステップの時に10倍縮小し、
周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置であって、事前訓練モジュール、高低周波情報抽出モジュール、同一周波数領域情報記憶モジュール、自己注意ネットワークモジュール及び検出ネットワークモデルを備え、
前記事前訓練モジュールは、訓練セット画像に対してデータ前処理を行い、訓練セット画像をYUVの3つのチャネルに変換して、3つのチャネルの画像に対してブロック分割をそれぞれ行い、Yが明度を示し、UとVが色度を示し、
前記高低周波情報抽出モジュールは、3つのチャネルにおける各ブロックの高低周波情報を抽出し、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示し、
前記同一周波数領域情報記憶モジュールは、各ブロックにおける同一周波数領域に属する情報を各ブロック間の空間関係に応じて同一周波数領域チャネルに書き込んで、複数の異なる周波数領域のチャネルを取得し、
前記自己注意ネットワークモジュールは、すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力し、
前記検出ネットワークモデルは、周波数領域特徴を検出ネットワークに入力し、予測された対象枠位置及び予測カテゴリを出力し、特徴マップにおける各特徴点に対応する真のカテゴリ及び真理値の対象枠位置に基づいて損失関数に応じて夜間オブジェクト監督訓練を行う。
【0028】
周波数領域における自己注意機構に基づく夜間オブジェクト検出方法であって、入力画像に対して周波数領域における自己注意機構に基づく夜間オブジェクト検出方法によって前処理、高低周波情報の抽出及び同一周波数領域チャネルへの書き込みを行った後、訓練済みの自己注意ネットワーク及び検出ネットワークに入力して、検出結果を取得する。
【0029】
本発明の実施例では、推理するとき、入力画像をステップS1における前処理を経てステップS3に達した後で訓練済みの自己注意ネットワークモジュール及び検出ネットワークに順次入力して、画像におけるオブジェクトカテゴリ及び位置を取得する。
【0030】
周波数領域における自己注意機構に基づく夜間オブジェクト検出装置であって、入力画像を前記した周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置に入力し、事前訓練モジュール、高低周波情報抽出モジュール、同一周波数領域情報記憶モジュールを経た後、訓練済みの自己注意ネットワークモジュール及び検出ネットワークモデルに順次入力して、検出結果を取得する。
【0031】
上記した周波数領域における自己注意機構に基づく夜間オブジェクト検出方法の実施例に対応して、本発明は周波数領域における自己注意機構に基づく夜間オブジェクト検出装置の実施例を更に提供する。
【0032】
図4を参照し、本発明の実施例に係る周波数領域における自己注意機構に基づく夜間オブジェクト検出装置はメモリと、1つ又は複数のプロセッサとを備え、メモリに実行可能コードが記憶され、前記1つ又は複数のプロセッサは前記実行可能コードを実行するとき、上記実施例における周波数領域における自己注意機構に基づく夜間オブジェクト検出方法を実現するためのものである。
【0033】
本発明に係る周波数領域における自己注意機構に基づく夜間オブジェクト検出装置の実施例はデータ処理能力を有するいかなる機器に応用されてもよく、該データ処理能力を有するいかなる機器はコンピュータなどの機器又は装置であってもよい。装置実施例はソフトウェアにより実現されてもよく、ハードウェア又はソフトウェアとハードウェアとを組み合わせる方式で実現されてもよい。ソフトウェアによる実現を例とし、1つの論理意味上の装置として、それはその位置するデータ処理能力を有するいかなる機器のプロセッサにより不揮発性メモリにおける対応するコンピュータプログラム命令を内部メモリに読み取って実行して形成したものである。ハードウェアの面から言えば、図4は本発明に係る周波数領域における自己注意機構に基づく夜間オブジェクト検出装置の位置するデータ処理能力を有するいかなる機器のハードウェア構造図であり、図4に示されるプロセッサ、内部メモリ、ネットワークインターフェース及び不揮発性メモリ以外に、実施例における装置の位置するデータ処理能力を有するいかなる機器は一般的に該データ処理能力を有するいかなる機器の実際の機能によって他のハードウェアを更に備えてもよく、その詳細な説明は省略する。
【0034】
上記装置における各ユニットの機能及び作用の実現過程は具体的に上記方法における対応ステップの実現過程を参照し、ここで詳細な説明は省略する。
【0035】
装置実施例は、基本的に方法実施例に対応するため、関連箇所が方法実施例の説明の一部を参照すればよい。以上に説明された装置実施例は単に模式的なものであり、分離部材として説明される前記ユニットは物理的に分離してもよく、物理的に分離しなくてもよく、ユニットとして表示される部材は物理ユニットであってもよく、物理ユニットでなくてもよく、即ち、一箇所に位置してもよく、複数のネットワークユニットに配置されてもよい。実際の必要に応じて、その一部又は全部のモジュールを選択して本発明案の目的を実現してもよい。当業者は創造的な労力を要することなく、理解し実施することができる。
【0036】
本発明の実施例はコンピュータ読み取り可能な記憶媒体を更に提供し、プログラムが記憶され、該プログラムがプロセッサにより実行されるとき、上記実施例における周波数領域における自己注意機構に基づく夜間オブジェクト検出方法を実現する。
【0037】
前記コンピュータ読み取り可能な記憶媒体は上記いずれか1つの実施例に記載のデータ処理能力を有するいかなる機器の内部記憶ユニット、例えばハードディスク又は内部メモリであってもよい。前記コンピュータ読み取り可能な記憶媒体はデータ処理能力を有するいかなる機器の外部記憶装置、例えば前記機器に配置されるプラグインハードディスク、スマートメディアカード(SMC、Smart Media Card)、SDカード、フラッシュカード(Flash Card)などであってもよい。更に、前記コンピュータ読み取り可能な記憶媒体はデータ処理能力を有するいかなる機器の内部記憶ユニットのほか、外部記憶装置を更に備えるものであってもよい。前記コンピュータ読み取り可能な記憶媒体は前記コンピュータプログラム、並びに前記データ処理能力を有するいかなる機器に必要な他のプログラム及びデータを記憶するためのものであり、更に既に出力した又は出力しようとするデータを一時的に記憶するためのものであってもよい。
【0038】
以上の実施例は単に本発明の技術案を説明するためのものであり、それを制限するものではなく、上記実施例を参照して本発明を詳しく説明したが、当業者であれば理解されるように、それは依然として上記実施例に記載された技術案を修正し、又はその一部又は全部の技術的特徴を等価置換することができるが、これらの修正又は置換は対応する技術案の本質を本発明の実施例の技術案の範囲から逸脱させるものではない。
【要約】      (修正有)
【課題】本発明は周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法及び装置を提供する。
【解決手段】方法は、検出ネットワークを訓練し、入力画像を前処理してRGBからYUVチャネルに変換させ、3つのチャネルの画像を複数のブロックにそれぞれ分割し、3つのチャネルの各ブロックそれぞれに対して離散コサイン変換(DCT)を行い、各ブロックにおける同一周波数領域に属する情報をその元の空間関係に応じて同一チャネルに書き込み、異なる周波数領域を示す複数のチャネルを生成し、すべての周波数領域チャネルを自己注意ネットワークモジュールに入力し、該モジュールが各チャネル間におけるスケール化内積自己注意を計算することにより、チャネル毎に動的に重み付けした後の数値を出力し、更にそれぞれ同じ多層パーセプトロン(MLP)に入力し、出力結果を検出ネットワークに入力し、最終的に画像の検出結果を取得する。
【選択図】図1
図1
図2
図3
図4