(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-12-16
(45)【発行日】2024-12-24
(54)【発明の名称】エッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法
(51)【国際特許分類】
G06V 20/05 20220101AFI20241217BHJP
G06T 7/00 20170101ALI20241217BHJP
G06V 10/82 20220101ALI20241217BHJP
【FI】
G06V20/05
G06T7/00 350C
G06V10/82
【外国語出願】
(21)【出願番号】P 2024122962
(22)【出願日】2024-07-30
【審査請求日】2024-11-11
(31)【優先権主張番号】202310951293.0
(32)【優先日】2023-07-31
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】515352847
【氏名又は名称】大連海事大学
(74)【代理人】
【識別番号】100095407
【氏名又は名称】木村 満
(74)【代理人】
【識別番号】100132883
【氏名又は名称】森川 泰司
(74)【代理人】
【識別番号】100148633
【氏名又は名称】桜田 圭
(74)【代理人】
【識別番号】100147924
【氏名又は名称】美恵 英樹
(72)【発明者】
【氏名】米 沢田
(72)【発明者】
【氏名】姜 帥勇
(72)【発明者】
【氏名】杜 鳳鳴
(72)【発明者】
【氏名】李 圓圓
(72)【発明者】
【氏名】王 輝兵
(72)【発明者】
【氏名】付 先平
【審査官】岡本 俊威
(56)【参考文献】
【文献】中国特許出願公開第116452914(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 10/00-20/90
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
RGB画像と深度マップを取得し、前記RGB画像と深度マップに対してチャネル次元の前処理を行って直列に接続して、RMD画像を取得するステップS1と、
前記RMD画像を、トレーニングされた、エンコーダ構造とデコーダ構造を含む顕著オブジェクト検出モデルに入力するステップS2と、
前記顕著オブジェクト検出モデルから出力された顕著画像とエッジ画像を取得してオブジェクト検出結果とするステップS3と、を含み、
前記エンコーダは、残差ニューラルネットワークに基づいてRMD画像により、解像度が層ごとに逐次的に低下した特徴マップを生成し、
前記デコーダ構造は、特徴マップを層ごとに融合させ、エッジ画像を出力するために用いられるエッジ検出ブランチと、特徴マップとエッジ特徴マップを層ごとに融合させ、エッジ詳細が向上した顕著画像を出力するために用いられる顕著検出ブランチと、を含むことを特徴とするエッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法。
【請求項2】
前記RGB画像と深度マップに対してチャネル次元の前処理を行って直列に接続して、RMD画像を取得するステップは、
RGB画像におけるGチャネルとBチャネルの最大値を取ってMチャネルとするステップと、
Rチャネル、Mチャネル及び深度マップをチャネル次元で直列に接続して新しい入力RMD画像とするステップと、を含むことを特徴とする請求項1に記載のエッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法。
【請求項3】
前記エンコーダ構造は、
一つの7×7の畳み込み層と一つの2×2の最大プーリング層を含んで、解像度が元のサイズの1/4まで低下した特徴マップを得る前処理層と、
それぞれにバッチ正規化とReLU活性化関数が用いられる三つの畳み込み層を含んで構成される基本的畳み込みブロックと、
各基本的畳み込みブロックの入力と出力との間に加えられて、勾配消失又は勾配爆発を回避するスキップ接続と、を含み、
基本的畳み込みブロックとスキップ接続を一つの残差ニューラルモジュールとして組み合わせ、出力される特徴マップが浅い層から深い層までの複数のスケールを有することを特徴とする請求項1に記載のエッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法。
【請求項4】
前記エッジ検出ブランチは、エッジピラミッド畳み込みモジュールとエッジ検出ブランチ空間的注意モジュールを含み、
前記エッジピラミッド畳み込みモジュールは、最も深い層の特徴マップをマルチスケール畳み込みモジュールに入力し、更に複数の異なるスケールの畳み込みによる出力を1×1畳み込みに入力し、エッジ特徴マップを出力し、
前記エッジ検出ブランチ空間的注意モジュールは、エッジ特徴マップと特徴マップを受け付け、小さいスケールのエッジ特徴マップに対してアップサンプリングを行って大きいスケールの特徴マップと同じスケールにし、エッジ特徴マップと特徴マップ及び両方の画素レベルのドット積行列をチャネル次元で直列に接続して、直列接続後の特徴マップを得、
直列接続後の特徴マップを空間的注意重みに変換して、直列接続後の特徴マップの空間的特徴を補正することに用いてエッジ注意画像を得、
まず、得られたエッジ注意画像を元の特徴マップ、アップサンプリング後のエッジ特徴マップにそれぞれ残差接続し、続いて、2ブランチをチャネル次元で直列に接続した後畳み込み操作を行い、最後に、エッジ特徴マップを出力することを特徴とする請求項1に記載のエッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法。
【請求項5】
前記顕著検出ブランチは、スケールピラミッド畳み込みモジュールと顕著検出ブランチ空間的注意モジュールを含み、
前記スケールピラミッド畳み込みモジュールは、最も深い層の特徴マップを異なるスケールの畳み込みに入力し、更に複数の異なるスケールの畳み込みによる出力を1×1畳み込みに入力し、エッジ特徴マップを出力し、
前記顕著検出ブランチ空間的注意モジュールは、エッジ特徴マップ、顕著特徴マップ及び特徴マップを受け付け、関数によってエッジ特徴マップを正規化させて、顕著特徴マップの空間的特徴を補正するためのエッジ注意画像を生成し、且つ補正された後の顕著特徴マップとエッジ特徴マップをチャネル次元で直列に接続してエッジが補強された顕著特徴マップを得、畳み込みと変形によってクエリ、キー及びバリューの三つのテンソルを生成し、自己注意モジュールに入力し、自己注意モジュールによって注意特徴マップを出力し、
注意特徴マップと特徴マップ及びこれら両方のドット積行列をチャネル次元で直列に接続し、直列接続後の特徴マップを得、関数によって直列接続後の特徴マップを正規化させて、チャネルセマンティクス特徴を補正するためのセマンティクス注意画像を生成し、特徴マップとセマンティクス注意画像の画素ドット積演算によってセマンティクスが補強された特徴マップを得、
セマンティクスが補強された特徴マップを元の特徴マップ、注意特徴マップにそれぞれ残差接続し、且つ畳み込み操作を行って、最終的な顕著特徴マップを得ることを特徴とする請求項1に記載のエッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法。
【請求項6】
前記顕著オブジェクト検出モデルをトレーニングするステップは、
陸地画像と水中画像及びGroundTruthの顕著オブジェクト画像を含むトレーニングセットデータを取得するステップと、
上記の陸地画像、水中画像をそれぞれネットワークの入力データとしてネットワークをトレーニングするステップと、
ネットワークから出力された顕著オブジェクト画像とトレーニングセットにおけるGroundTruthの顕著オブジェクト画像との間の損失値を計算し、前記損失値により誤差逆伝播を行って、前記ネットワークの重みを更新するステップと、を含むことを特徴とする請求項1に記載のエッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法。
【請求項7】
ネットワークから出力された顕著オブジェクト画像とトレーニングセットにおけるGroundTruthの顕著オブジェクト画像との間の損失値を計算し、前記損失値により誤差逆伝播を行って、前記ネットワークの重みを更新するステップは、
エッジ検出ブランチと顕著検出ブランチの層毎の出力に対して実際の顕著画像及びエッジ画像との損失値をそれぞれ計算し、確率的勾配降下法を用いて損失値を最小化させて、最適なモデルを得るステップを含むことを特徴とする請求項6に記載のエッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理の技術分野に関し、具体的に、エッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法に関する。
【背景技術】
【0002】
顕著オブジェクト検出(Salient object detection:SOD)タスクは、シーンにおける最も注意を引く物体を検出してから、それに対して画素レベルまで精確な対象領域マスクを抽出することを目的とする。顕著オブジェクト検出のメリットは、前景画像トリミング、前景画像評価、視覚追跡、画像検索などを含む多くの場合に応用可能であることである。
【0003】
近年来、深層セマンティクスと浅層詳細情報のマルチスケール抽出における畳み込みニューラルネットワーク(CNN)の能力のおかげで、顕著オブジェクト検出タスクが急速に進展している。CNNに基づき、新しい構造の開発によっても顕著オブジェクト検出タスクの進展が促進されており、その中、U-Net構造は豊富な特徴マップを作成可能なボトムアップの簡素な構造によって、最も注目されている。アテンション機構は重要な情報を目立たせ、ノイズを抑制することによって、フィルタリングの役割を達成する機構であり、顕著オブジェクト検出タスクではシーンにおける最も注意を引く物体が検出される。従って、アテンション機構は提案されてから、顕著オブジェクト検出タスクに広範に応用されるようになり、顕著検出タスクに重大な進歩をもたらせている。
【0004】
顕著オブジェクト検出タスクは大きな進展を遂げたが、水中シーンについての研究が非常に少ない。しかし、調査研究によると、従来開示された顕著オブジェクト検出技術はいずれも陸上シーンに対するものであり、現在、例えば、RGB-D顕著オブジェクト検出のための自己適応型ガイド融合ネットワーク(特許文献1)などのような、2ブランチのエンコーダを用いてRGB画像と深度マップをそれぞれ処理する方法が提案されて、効果を有効に向上可能であるが、効果向上で計算コストを補うことができなければ、深度マップを導入すると、冗長になってしまう。また、チャネル次元のセマンティクス情報を目立たせるために、チャネルアテンション機構を導入することで、モデルが一層好適な効果を図ったが、エッジ領域においてやはりぼやけ現象がある。
【0005】
水中シーンが複雑であり、水媒体及び懸濁粒子による光線の吸収と散乱が強いため、顕著オブジェクト検出タスクは複雑な背景、色ずれ等の挑戦的要素に直面している。従来のSOD方法を水中シーンに直接使用すると、効果が良くない。しかし、海洋には豊富な資源が蔵されており、海洋生態系は高い研究価値を持っている。顕著オブジェクト検出は水中画像における冗長な情報を効果的に低減し、水中オブジェクトの検出精度と認識能力を高めることができ、海洋資源の採掘や海洋生態系研究の遂行を効果的に補助することができるため、水中顕著オブジェクト検出タスクを行うことが必要である。
【先行技術文献】
【特許文献】
【0006】
【文献】中国特許出願公開第116452914号明細書
【発明の概要】
【発明が解決しようとする課題】
【0007】
従来技術の欠点に鑑みて、本発明は、エッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法を提供する。本発明は水中結像特徴により入力画像を前処理すると共に、エッジ予測画像を用いて深い層の顕著オブジェクト検出をガイドする。この方法は顕著オブジェクトを精確に予測すると共に、顕著画像のエッジの詳細を向上させる。
【課題を解決するための手段】
【0008】
本発明の技術手段は以下のとおりである。
【0009】
本発明の一形態であるエッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法は、
RGB画像と深度マップを取得し、前記RGB画像と深度マップに対してチャネル次元の前処理を行って直列に接続して、RMD画像を取得するステップS1と、
前記RMD画像を、トレーニングされた、エンコーダ構造とデコーダ構造を含む顕著オブジェクト検出モデルに入力するステップS2と、
前記顕著オブジェクト検出モデルから出力された顕著画像とエッジ画像を取得してオブジェクト検出結果とするステップS3と、を含み、
前記エンコーダは、残差ニューラルネットワークに基づいてRMD画像により、解像度が層ごとに逐次的に低下した特徴マップを生成し、
前記デコーダ構造は、特徴マップを層ごとに融合させ、エッジ画像を出力するために用いられるエッジ検出ブランチと、特徴マップとエッジ特徴マップを層ごとに融合させ、エッジ詳細が向上した顕著画像を出力するために用いられる顕著検出ブランチと、を含む。
【0010】
更に、前記RGB画像と深度マップに対してチャネル次元の前処理を行って直列に接続して、RMD画像を取得するステップは、
RGB画像におけるGチャネルとBチャネルの最大値を取ってMチャネルとするステップと、
Rチャネル、Mチャネル及び深度マップをチャネル次元で直列に接続して新しい入力RMD画像とするステップと、を含む。
【0011】
更に、前記エンコーダ構造は、
一つの7×7の畳み込み層と一つの2×2の最大プーリング層を含んで、解像度が元のサイズの1/4まで低下した特徴マップを得る前処理層と、
それぞれにバッチ正規化とReLU活性化関数が用いられる三つの畳み込み層を含んで構成される基本的畳み込みブロックと、
各基本的畳み込みブロックの入力と出力との間に加えられて、勾配消失又は勾配爆発を回避するスキップ接続と、を含み、
基本的畳み込みブロックとスキップ接続を一つの残差ニューラルモジュールとして組み合わせ、出力される特徴マップが浅い層から深い層までの複数のスケールを有する。
【0012】
更に、前記エッジ検出ブランチは、エッジピラミッド畳み込みモジュールとエッジ検出ブランチ空間的注意モジュールを含み、
前記エッジピラミッド畳み込みモジュールは、最も深い層の特徴マップをマルチスケール畳み込みモジュールに入力し、更に複数の異なるスケールの畳み込みによる出力を1×1畳み込みに入力し、エッジ特徴マップを出力し、
前記エッジ検出ブランチ空間的注意モジュールは、エッジ特徴マップと特徴マップを受け付け、小さいスケールのエッジ特徴マップに対してアップサンプリングを行って大きいスケールの特徴マップと同じスケールにし、エッジ特徴マップと特徴マップ及び両方の画素レベルのドット積行列をチャネル次元で直列に接続して、直列接続後の特徴マップを得、
直列接続後の特徴マップを空間的注意重みに変換して、直列接続後の特徴マップの空間的特徴を補正することに用いてエッジ注意画像を得、
まず、得られたエッジ注意画像を元の特徴マップ、アップサンプリング後のエッジ特徴マップにそれぞれ残差接続し、続いて、2ブランチをチャネル次元で直列に接続した後畳み込み操作を行い、最後に、エッジ特徴マップを出力する。
【0013】
更に、前記顕著検出ブランチは、スケールピラミッド畳み込みモジュールと顕著検出ブランチ空間的注意モジュールを含み、
前記スケールピラミッド畳み込みモジュールは、最も深い層の特徴マップを異なるスケールの畳み込みに入力し、更に複数の異なるスケールの畳み込みによる出力を1×1畳み込みに入力し、エッジ特徴マップを出力し、
前記顕著検出ブランチ空間的注意モジュールは、エッジ特徴マップ、顕著特徴マップ及び特徴マップを受け付け、関数によってエッジ特徴マップを正規化させて、顕著特徴マップの空間的特徴を補正するためのエッジ注意画像を生成し、且つ補正された後の顕著特徴マップとエッジ特徴マップをチャネル次元で直列に接続してエッジが補強された顕著特徴マップを得、畳み込みと変形によってクエリ、キー及びバリューの三つのテンソルを生成し、自己注意モジュールに入力し、自己注意モジュールによって注意特徴マップを出力し、
注意特徴マップと特徴マップ及びこれら両方のドット積行列をチャネル次元で直列に接続し、直列接続後の特徴マップを得、関数によって直列接続後の特徴マップを正規化させて、チャネルセマンティクス特徴を補正するためのセマンティクス注意画像を生成し、特徴マップとセマンティクス注意画像の画素ドット積演算によってセマンティクスが補強された特徴マップを得、
セマンティクスが補強された特徴マップを元の特徴マップ、注意特徴マップにそれぞれ残差接続し、且つ畳み込み操作を行って、最終的な顕著特徴マップを得る。
【0014】
更に、前記顕著オブジェクト検出モデルをトレーニングするステップは、
陸地画像と水中画像及びGroundTruthの顕著オブジェクト画像を含むトレーニングセットデータを取得するステップと、
上記の陸地画像、水中画像をそれぞれネットワークの入力データとしてネットワークをトレーニングするステップと、
ネットワークから出力された顕著オブジェクト画像とトレーニングセットにおけるGroundTruthの顕著オブジェクト画像との間の損失値を計算し、前記損失値により誤差逆伝播を行って、前記ネットワークの重みを更新するステップと、を含む。
【0015】
更に、ネットワークから出力された顕著オブジェクト画像とトレーニングセットにおけるGroundTruthの顕著オブジェクト画像との間の損失値を計算し、前記損失値により誤差逆伝播を行って、前記ネットワークの重みを更新するステップは、
エッジ検出ブランチと顕著検出ブランチの層毎の出力に対して実際の顕著画像及びエッジ画像との損失値をそれぞれ計算し、確率的勾配降下法を用いて損失値を最小化させて、最適なモデルを得るステップを含む。
【発明の効果】
【0016】
従来技術と比べると、本発明は以下のメリットを有する。
【0017】
1.本発明では先に直列に接続する方法を用い、且つ水中データセットをテストする時に前処理モジュールを導入することで、入力が水中シーンに一層合致するようになり、これによって水中の光照射の特徴に適応する。
【0018】
2.本発明は多層のエッジにより顕著検出を逐次的にガイドすることを提案して、異なる解像度でガイドする方法において情報が欠落する可能性があるという問題を解決した。
【0019】
3.エッジ画像の空間的特徴がより顕著である特徴を考慮した上で、本発明は空間的アテンション機構を設計しており、この機構はエッジ画像画素に対する重み付け操作によって、ノイズエッジを抑制し、実際のエッジを目立たせ、粗雑なエッジ画像をより精細にし、顕著オブジェクト検出を正確にガイドすることに寄与する。
【図面の簡単な説明】
【0020】
本発明の実施例又は従来技術における技術手段をより明らかに説明するために、以下、実施例又は従来技術の記述に必要とされる添付の図面を簡単に紹介するが、下記の添付の図面が本発明の一部の実施例であり、当業者であれば、創造的労動を行わずに更にこれらの添付の図面によって他の添付の図面を得ることができることはいうまでもない。
【0021】
【
図1】本発明の実施例における顕著オブジェクト検出モデルの構造の模式図である。
【
図2】本発明の実施例におけるエッジピラミッド畳み込みモジュールの構造図である。
【
図3】本発明の実施例におけるエッジ予測ブランチ空間的注意モジュールの構造図である。
【
図4】本発明の実施例におけるマルチスケールピラミッド畳み込みモジュールの構造図である。
【
図5】本発明の実施例における顕著検出ブランチ空間的チャネル注意モジュールの構造図である。
【
図6】本発明の実施例における顕著オブジェクト検出モデルのトレーニング手順の模式図である。
【発明を実施するための形態】
【0022】
本発明の実施例の目的、技術手段及びメリットをより明らかにするために、以下、本発明の実施例における図面を参照しながら、本発明の実施例における技術手段を明らか且つ完全に説明するが、説明される実施例が全ての実施例ではなく、本発明の一部の実施例に過ぎないことはいうまでもない。当業者が本発明における実施例に基づいて創造的労動を行うことなく得た他の実施例は、全て本発明の保護範囲に含まれるものとする。
【0023】
本発明は、エッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法を提供し、以下のステップS1~S3を含む。
【0024】
S1:RGB画像と深度マップを取得し、前記RGB画像と深度マップをチャネル次元で直列に接続してRMD画像を取得する。
【0025】
具体的に、水中画像前処理モジュールを用いる。水中光線の特徴を考慮した上で、RGB画像におけるGチャネルとBチャネルの最大値を取ってMチャネルとし、Rチャネル、Mチャネル及び深度マップDepthをチャネル次元で直列に接続して新しい入力RMD画像とし、以下のように表せ、
【数1】
ここで、Maxは最大値を取ることを表し、
【数2】
はチャネル次元で直列に接続することを表す。
【0026】
S2:前記RMD画像を、トレーニングされた、エンコーダ構造とデコーダ構造を含む顕著オブジェクト検出モデルに入力し、エンコーダは、残差ニューラルネットワークに基づいてRMD画像により、解像度が層ごとに逐次的に低下した特徴マップを生成し、デコーダ構造は、エッジ検出ブランチと顕著検出ブランチと、を含み、エッジ検出ブランチは特徴マップを層ごとに融合させ、エッジ画像を出力するために用いられ、顕著検出ブランチは特徴マップとエッジ特徴マップを層ごとに融合させ、エッジ詳細が向上した顕著画像を出力するために用いられる。具体的には以下の通りである。
【0027】
更に、エンコーダは基幹ネットワークとして残差ニューラルネットワークを用い、解像度が層ごとに逐次的に低下した特徴マップを生成し、主として前処理層、基本的畳み込みブロック、スキップ接続を含み、最後に複数の基本的畳み込みブロックとスキップ接続を一つの残差ニューラルモジュールとして組み合わせる。
【0028】
好ましくは、前処理層は、一つの7×7畳み込み、一つのバッチ正規化層、一つのReLU活性化関数及び一つの2×2の最大プーリング層からなり、解像度が元のサイズの1/4まで低下した特徴マップRes1を得る。
【0029】
好ましくは、基本的畳み込みブロックは三つの畳み込み層からなり、一番目の畳み込み層は1×1畳み込み、バッチ正規化層及びReLU活性化関数からなり、二番目の畳み込み層はステップサイズが2の3×3畳み込み、バッチ正規化層及びReLU活性化関数からなり、ここで、ステップサイズを2に設定することでダウンサンプリングの作用を有するようになり、三番目の畳み込み層は1×1畳み込みとバッチ正規化層からなる。
【0030】
好ましくは、スキップ接続は、各基本的畳み込みブロックの入力と出力との間に加えられ、勾配消失又は勾配爆発を回避する。基本的畳み込みブロックの入力はダウンサンプリング層を経由して、基本的畳み込みブロックの出力にスキップ接続され、接続された後ReLU活性化関数を経由してスキップ接続による出力が得られ、ここで、ダウンサンプリング層はステップサイズが2の1×1畳み込みとバッチ正規化層からなる。
【0031】
好ましくは、複数の基本的畳み込みブロックとスキップ接続を一つの残差ニューラルモジュールとして組み合わせる。Resnet-50を例とすると、一番目の残差ニューラルモジュールは3つの基本的畳み込みブロックとスキップ接続からなり、特徴マップRes2を出力し、二番目の残差ニューラルモジュールは4つの基本的畳み込みブロックとスキップ接続からなり、特徴マップRes3を出力し、三番目の残差ニューラルモジュールは6つの基本的畳み込みブロックとスキップ接続からなり、特徴マップRes4を出力し、四番目の残差ニューラルモジュールは3つの基本的畳み込みブロックとスキップ接続からなり、特徴マップRes5を出力する。このように、浅い層(大きいスケール)から深い層(小さいスケール)までの層を有する特徴マップResiを出力し、i={1,2,3,4,5}である。
【0032】
更に、デコード段階でエッジ検出と顕著検出の2ブランチを用い、エッジ検出ブランチを層ごとに顕著検出ブランチに融合させる。
【0033】
好ましくは、四層目から、深い層から出力されたエッジ特徴マップはアップサンプリングされてから、本層の残差ニューラルネットワーク特徴マップと共に浅い層のエッジ予測ブランチ空間的注意モジュールに入力され、本層のエッジ特徴マップが出力される。深い層から出力されたエッジ特徴マップと深い層から出力された顕著特徴マップは顕著検出ブランチ空間的注意モジュールに入力され、空間的注意特徴マップが出力され、空間的注意特徴マップと本層の残差ニューラルネットワーク特徴マップは顕著検出ブランチドット積注意モジュールに入力され、本層の顕著特徴マップが出力される。
【0034】
好ましくは、深い層のマルチスケールエッジ特徴の表現を学習するために、本発明においてエッジピラミッド畳み込みモジュールが設計されており、
図2に示すように、このモジュールは異なるサイズの畳み込みによってエッジ特徴を抽出する。まず、最も深い層の特徴マップRes
5を入力し、次に、異なるサイズの畳み込みを経て異なる出力y
iを得、ここで、i={1,2,3,4,5}であり、更にチャネル次元で直列に接続し、最後に、1×1畳み込み、バッチ正規化層及びReLU活性化関数を経てエッジ特徴マップedge
4を出力し、以下のように表せ、
【数3】
ここで、mean
1はチャネル次元で平均値を取ることを表し、conv
1×1は1×1畳み込みを表し、conv
3×3は3×3畳み込みを表し、conv
1×3は1×3畳み込みを表し、conv
3×1は3×1畳み込みを表し、Bnはバッチ正規化層を表し、ReLUはReLU活性化関数を表す。
【0035】
好ましくは、より精確なエッジ特徴マップを抽出するために、本発明において新しいエッジ予測ブランチ空間的注意モジュールが設計されており、
図3に示す通りである。
【0036】
a、まず、小さいスケールのエッジ特徴マップedge
i+1を大きいスケールの特徴マップRes
iと同じスケールまでアップサンプリングし、次に、エッジ特徴マップedge
i+1、特徴マップRes
i及び両方の画素レベルのドット積行列をチャネル次元で直列に接続して、直列接続後の特徴マップedge
saを得て、以下のように表せ、
【数4】
ここで、oは画素レベルの行列ドット積演算を表し、
【数5】
はチャネル次元で直列に接続することを表する。
【0037】
b、次に、直列接続後の特徴マップedge
saに対してチャネル次元で平均値を取り、続いて、畳み込みとsigmoid関数正規化を行って空間的注意重みに変換して、直列接続後の特徴マップedge
saの空間的特徴の補正に用い、空間的注意重みと特徴マップedge
saの行列ドット積演算を行って、エッジ注意画像edge
spaを得て、以下のように表せ、
【数6】
ここで、oは画素レベルの行列ドット積演算を表し、convは3×3畳み込みを表し、mean
1はチャネル次元で平均値を取ることを表す。
【0038】
c、最後に、得られたエッジ注意画像edge
spaをそれぞれ元の特徴マップRes
i、アップサンプリングした後のエッジ特徴マップedge
i+1に残差接続してから、2ブランチをチャネル次元で直列に接続した後畳み込み操作を行って、最終的なエッジ特徴マップedge
iを得て、以下のように表せ、
【数7】
ここで、
【数8】
はチャネル次元で直列に接続することを表し、convは3×3畳み込みを表す。
【0039】
好ましくは、深い層のマルチスケールセマンティクス特徴の表現を学習するために、本発明においてマルチスケールピラミッド畳み込みモジュールが設計されており、
図4に示すように、このモジュールは異なるサイズの畳み込みによってセマンティクス特徴を抽出する。まず、最も深い層の特徴マップRes
5を入力し、次に、異なるサイズの畳み込みを経て異なる出力y
iが得られ、i={1,2,3,4,5}であり、更にチャネル次元で直列に接続し、最後に、conv
1×1畳み込みを経て特徴マップf
4を出力し、以下のように表せ、
【数9】
ここで、mean
2,3は二、三次元で平均値を取ることを表し、conv
1×1は1×1畳み込みを表し、conv
5×5は5×5畳み込みを表し、conv
9×9は9×9畳み込みを表し、conv
13×13は13×13畳み込みを表し、Bnはバッチ正規化層を表し、ReLUはReLU活性化関数を表す。
【0040】
好ましくは、顕著特徴マップとエッジ特徴マップの効果的な融合を実現するために、本発明において新しい顕著特徴・エッジ特徴融合モジュールが設計されている。より精確な顕著領域位置情報を抽出するために、本発明は空間的チャネル注意モジュールを用いる。以上のモジュールは
図5に示す通りである。
【0041】
a、まず、sigmoid関数を用いてエッジ特徴マップedge
i+1を正規化させて顕著特徴マップの空間的特徴の補正のためのエッジ注意画像を生成し、顕著特徴マップf
i+1との行列ドット積演算を行って残差接続して、補正された後の顕著特徴マップを得、補正された後の顕著特徴マップとエッジ特徴マップedge
i+1をチャネル次元で直列に接続し、エッジが補強された顕著特徴マップfeを得て、以下のように表せ、
【数10】
ここで、oは画素レベルの行列ドット積演算を表し、
【数11】
はチャネル次元で直列に接続することを表す。
【0042】
b、続いて、顕著特徴マップfeに対して畳み込みと変形を行ってクエリfe
q、キーfe
k及びバリューfe
vの三つのテンソルを生成し、以下のように表せ、
【数12】
ここで、reshapeは変形操作を表し、高さ、幅の次元を一つの次元に変換し、即ち、[B,C,H,W]の形状の特徴マップを[B,C,H×W]の形状の特徴マップに変換し、conv
q、conv
k、conv
vは三つの3×3畳み込みを表す。
【0043】
以上の三つのテンソルをドット積注意モジュールに入力する。クエリfe
q、キーfe
k及びバリューfe
vの三つのテンソルを入力し、クエリfe
qとキーfe
kの二つのテンソルが行列乗算とsoftmax関数を経て注意行列が得られ、バリューfe
vと注意行列が行列乗算を経てから顕著特徴マップfeに残差接続され、注意特徴マップf
attが得られ、ドット積注意モジュールは以下のように表せ、
【数13】
ここで、(*)
Tは転置操作を表す。
【0044】
c、次に、注意特徴マップf
attと特徴マップRes
i及びそれら両方のドット積行列をチャネル次元で直列に接続して直列接続後の特徴マップf
caを得、続いて、sigmoid関数によって直列接続後の特徴マップf
caを正規化させてチャネルセマンティクス特徴の補正のためのセマンティクス注意画像を生成し、続いて、特徴マップf
caとセマンティクス注意画像の画素レベルのドット積演算を行って、セマンティクスが補強された特徴マップf
gapを得て、以下のように表せ、
【数14】
ここで、oは画素レベルの行列ドット積演算を表し、
【数15】
はチャネル次元で直列に接続することを表し、mean
2,3は高さ、幅の次元で平均値を取ることを表す。
【0045】
d、最後に、得られたセマンティクスが補強された特徴マップf
gapをそれぞれ元の特徴マップRes
i、注意特徴マップf
attに残差接続してから、2ブランチをチャネル次元で直列に接続した後畳み込み操作を行って、最終的な特徴マップf
iを得て、以下のように表せ、
【数16】
ここで、
【数17】
はチャネル次元で直列に接続することを表し、convはいずれも3×3畳み込みを表す。
【0046】
以上の手段によって、顕著オブジェクト検出モデルが構築され、最適な検出モデルを得るために、モデルをトレーニングする必要があり、本発明は陸地データセットと水中データセットを用いて、提案された水中顕著オブジェクト検出ネットワークモデルをトレーニングした。現在、水中顕著オブジェクト検出についての研究が少ないので、モデル性能を検証するために、陸地データセットを用いて他の陸地方法と比較した。モデル汎化能力を高めるために、例えば、陸上の明晰な人間画像を学習することでダイバー検出の正確度を向上可能にするために、陸地トレーニングセットと水中テストセットの組合せを使用することにした。
図6に示すように、具体的なトレーニングステップは以下の通りである。
【0047】
データセットにおける実際の顕著画像に対してlabels演算子を用いて対象エッジ画像を抽出して実際のエッジ画像とし、トレーニング段階で、陸地データセットを使用するトレーニングと混合データセットを使用するトレーニングの2種のトレーニングポリシーを用い、混合データセットは陸地データセットと水中データセットを含む。陸地データセットとしてはNLPRデータセット、NJUDデータセット及びDUT-Dデータセットからそれぞれ700個のサンプル、1500個のサンプル及び785個のサンプル、合計2985個のサンプルを選択してトレーニングに用い、他のサンプルをテストに用いた。水中データセットとしてはUSOD10kデータセットから2051個のサンプルを選択してトレーニングセットとし、他のサンプルをテストに用いた。
【0048】
トレーニング過程で、ウォームアップと線形減衰ポリシーを用いて学習率を調整し、基幹の学習率が最大0.05であり、運動量と減衰率をそれぞれ0.9と5e-4に設定し、2ブランチの層ごとの出力に対して実際の画像との損失を計算し、確率的勾配降下法を用いて損失値を最小化させ、最適なモデルを得た。最後に、テスト段階で予測された顕著画像とエッジ画像を出力した。
【0049】
教師有りのトレーニング手段として、顕著オブジェクト検出ブランチにおいて、損失関数として古典的な二値交差エントロピー関数(BCE)を用いる。y
s,
【数18】
と記し、それぞれ実際の顕著画像と予測顕著画像であり、二値交差エントロピー関数(BCE)は以下のように表せる。
【数19】
【0050】
また、より好適なエッジ効果を図るために、別の損失関数としてインターセクション・オーバー・ユニオン(IoU)を用い、インターセクション・オーバー・ユニオン(IoU)は以下のように表せる。
【数20】
【0051】
エッジ検出ブランチにおいて、損失関数として二値交差エントロピー関数(BCE)を用い、y
e,
【数21】
と記し、それぞれ実際のエッジ画像と予測エッジ画像であり、二値交差エントロピー関数(BCE)は以下のように表せる。
【数22】
【0052】
S3:トレーニングされた後の顕著オブジェクト検出モデルから出力された顕著画像とエッジ画像を取得してオブジェクト検出結果とする。
【0053】
最後に以下のことを説明すべきである。以上の各実施例は本発明の技術的手段を説明するためのものに過ぎず、それを限定するものではなく、上述した各実施例を参照して本発明を詳細に説明したが、上述した各実施例に記載の技術的手段を修正するか、その術的特徴の一部又は全部に同等な取り替えを実施することも可能であり、これらの修正や取り替えによって、対応する技術的手段の本質が本発明の各実施例の技術的手段の範囲から逸脱しないことは当業者に自明である。
【0054】
(付記)
(付記1)
RGB画像と深度マップを取得し、前記RGB画像と深度マップに対してチャネル次元の前処理を行って直列に接続して、RMD画像を取得するステップS1と、
前記RMD画像を、トレーニングされた、エンコーダ構造とデコーダ構造を含む顕著オブジェクト検出モデルに入力するステップS2と、
前記顕著オブジェクト検出モデルから出力された顕著画像とエッジ画像を取得してオブジェクト検出結果とするステップS3と、を含み、
前記エンコーダは、残差ニューラルネットワークに基づいてRMD画像により、解像度が層ごとに逐次的に低下した特徴マップを生成し、
前記デコーダ構造は、特徴マップを層ごとに融合させ、エッジ画像を出力するために用いられるエッジ検出ブランチと、特徴マップとエッジ特徴マップを層ごとに融合させ、エッジ詳細が向上した顕著画像を出力するために用いられる顕著検出ブランチと、を含むことを特徴とするエッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法。
【0055】
(付記2)
前記RGB画像と深度マップに対してチャネル次元の前処理を行って直列に接続して、RMD画像を取得するステップは、
RGB画像におけるGチャネルとBチャネルの最大値を取ってMチャネルとするステップと、
Rチャネル、Mチャネル及び深度マップをチャネル次元で直列に接続して新しい入力RMD画像とするステップと、を含むことを特徴とする付記1に記載のエッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法。
【0056】
(付記3)
前記エンコーダ構造は、
一つの7×7の畳み込み層と一つの2×2の最大プーリング層を含んで、解像度が元のサイズの1/4まで低下した特徴マップを得る前処理層と、
それぞれにバッチ正規化とReLU活性化関数が用いられる三つの畳み込み層を含んで構成される基本的畳み込みブロックと、
各基本的畳み込みブロックの入力と出力との間に加えられて、勾配消失又は勾配爆発を回避するスキップ接続と、を含み、
基本的畳み込みブロックとスキップ接続を一つの残差ニューラルモジュールとして組み合わせ、出力される特徴マップが浅い層から深い層までの複数のスケールを有することを特徴とする付記1に記載のエッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法。
【0057】
(付記4)
前記エッジ検出ブランチは、エッジピラミッド畳み込みモジュールとエッジ検出ブランチ空間的注意モジュールを含み、
前記エッジピラミッド畳み込みモジュールは、最も深い層の特徴マップをマルチスケール畳み込みモジュールに入力し、更に複数の異なるスケールの畳み込みによる出力を1×1畳み込みに入力し、エッジ特徴マップを出力し、
前記エッジ検出ブランチ空間的注意モジュールは、エッジ特徴マップと特徴マップを受け付け、小さいスケールのエッジ特徴マップに対してアップサンプリングを行って大きいスケールの特徴マップと同じスケールにし、エッジ特徴マップと特徴マップ及び両方の画素レベルのドット積行列をチャネル次元で直列に接続して、直列接続後の特徴マップを得、
直列接続後の特徴マップを空間的注意重みに変換して、直列接続後の特徴マップの空間的特徴を補正することに用いてエッジ注意画像を得、
まず、得られたエッジ注意画像を元の特徴マップ、アップサンプリング後のエッジ特徴マップにそれぞれ残差接続し、続いて、2ブランチをチャネル次元で直列に接続した後畳み込み操作を行い、最後に、エッジ特徴マップを出力することを特徴とする付記1に記載のエッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法。
【0058】
(付記5)
前記顕著検出ブランチは、スケールピラミッド畳み込みモジュールと顕著検出ブランチ空間的注意モジュールを含み、
前記スケールピラミッド畳み込みモジュールは、最も深い層の特徴マップを異なるスケールの畳み込みに入力し、更に複数の異なるスケールの畳み込みによる出力を1×1畳み込みに入力し、エッジ特徴マップを出力し、
前記顕著検出ブランチ空間的注意モジュールは、エッジ特徴マップ、顕著特徴マップ及び特徴マップを受け付け、関数によってエッジ特徴マップを正規化させて、顕著特徴マップの空間的特徴を補正するためのエッジ注意画像を生成し、且つ補正された後の顕著特徴マップとエッジ特徴マップをチャネル次元で直列に接続してエッジが補強された顕著特徴マップを得、畳み込みと変形によってクエリ、キー及びバリューの三つのテンソルを生成し、自己注意モジュールに入力し、自己注意モジュールによって注意特徴マップを出力し、
注意特徴マップと特徴マップ及びこれら両方のドット積行列をチャネル次元で直列に接続し、直列接続後の特徴マップを得、関数によって直列接続後の特徴マップを正規化させて、チャネルセマンティクス特徴を補正するためのセマンティクス注意画像を生成し、特徴マップとセマンティクス注意画像の画素ドット積演算によってセマンティクスが補強された特徴マップを得、
セマンティクスが補強された特徴マップを元の特徴マップ、注意特徴マップにそれぞれ残差接続し、且つ畳み込み操作を行って、最終的な顕著特徴マップを得ることを特徴とする付記1に記載のエッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法。
【0059】
(付記6)
前記顕著オブジェクト検出モデルをトレーニングするステップは、
陸地画像と水中画像及びGroundTruthの顕著オブジェクト画像を含むトレーニングセットデータを取得するステップと、
上記の陸地画像、水中画像をそれぞれネットワークの入力データとしてネットワークをトレーニングするステップと、
ネットワークから出力された顕著オブジェクト画像とトレーニングセットにおけるGroundTruthの顕著オブジェクト画像との間の損失値を計算し、前記損失値により誤差逆伝播を行って、前記ネットワークの重みを更新するステップと、を含むことを特徴とする付記1に記載のエッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法。
【0060】
(付記7)
ネットワークから出力された顕著オブジェクト画像とトレーニングセットにおけるGroundTruthの顕著オブジェクト画像との間の損失値を計算し、前記損失値により誤差逆伝播を行って、前記ネットワークの重みを更新するステップは、
エッジ検出ブランチと顕著検出ブランチの層毎の出力に対して実際の顕著画像及びエッジ画像との損失値をそれぞれ計算し、確率的勾配降下法を用いて損失値を最小化させて、最適なモデルを得るステップを含むことを特徴とする付記6に記載のエッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法。
【要約】
本発明は、RGB画像と深度マップに対してチャネル次元の前処理を行って直列に接続して、RMD画像を取得するステップS1と、前記RMD画像を、トレーニングされた、エンコーダ構造とデコーダ構造を含む顕著オブジェクト検出モデルに入力するステップS2と、前記顕著オブジェクト検出モデルから出力された顕著画像とエッジ画像を取得してオブジェクト検出結果とするステップS3と、を含み、エンコーダは、残差ニューラルネットワークに基づいてRMD画像により、解像度が層ごとに逐次的に低下した特徴マップを生成し、デコーダ構造は、特徴マップを層ごとに融合させるために用いられるエッジ検出ブランチと、特徴マップとエッジ特徴マップを層ごとに融合させるために用いられる顕著検出ブランチと、を含む、エッジによりガイドするマルチアテンション付きRGBD水中顕著オブジェクト検出方法を開示する。本発明は水中結像特徴により入力画像を前処理すると共に、エッジ予測画像を用いて多層の顕著オブジェクト検出をガイドすることで、顕著画像のエッジ詳細を向上させる。
【選択図】
図1