IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 浙江工商大学の特許一覧

特開2024-162960可視光画像を融合するイベントカメラの再構成画像の補強方法、媒体及び装置
<>
  • 特開-可視光画像を融合するイベントカメラの再構成画像の補強方法、媒体及び装置 図1
  • 特開-可視光画像を融合するイベントカメラの再構成画像の補強方法、媒体及び装置 図2
  • 特開-可視光画像を融合するイベントカメラの再構成画像の補強方法、媒体及び装置 図3
  • 特開-可視光画像を融合するイベントカメラの再構成画像の補強方法、媒体及び装置 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024162960
(43)【公開日】2024-11-21
(54)【発明の名称】可視光画像を融合するイベントカメラの再構成画像の補強方法、媒体及び装置
(51)【国際特許分類】
   G06T 5/70 20240101AFI20241114BHJP
   G06T 1/40 20060101ALI20241114BHJP
   G06T 7/00 20170101ALI20241114BHJP
【FI】
G06T5/00 705
G06T1/40
G06T7/00 350C
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023158282
(22)【出願日】2023-09-22
(11)【特許番号】
(45)【特許公報発行日】2024-01-31
(31)【優先権主張番号】202310542996.8
(32)【優先日】2023-05-11
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】522481248
【氏名又は名称】浙江工商大学
【氏名又は名称原語表記】ZHEJIANG GONGSHANG UNIVERSITY
【住所又は居所原語表記】No.18, Xuezheng Str. Xiasha University Town Hangzhou, Zhejiang 310018, China
(74)【代理人】
【識別番号】110001841
【氏名又は名称】弁理士法人ATEN
(72)【発明者】
【氏名】陳 衛剛
(72)【発明者】
【氏名】劉 ▲イェン▼彬
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057BA02
5B057CA08
5B057CA12
5B057CA16
5B057CB08
5B057CB12
5B057CB16
5B057CC01
5B057CE02
5B057DB02
5B057DB09
5L096AA06
5L096CA02
5L096DA01
5L096FA34
5L096FA69
5L096HA11
5L096KA04
(57)【要約】      (修正有)
【課題】可視光画像を融合するイベントカメラの再構成画像の補強方法、媒体及び装置を提供する。
【解決手段】再構成モジュールから出力された強度画像及び光学センサで撮像された可視光画像シーケンスから選択された参照画像を入力とし、改良のTransformerモデルに基づく補強モジュールを用いて再構成画像に対して補強処理を行う方法であって、イベントカメラが収集した各時間ウィンドウ内のイベントストリームを再構成モジュールに入力し、再構成画像を得るステップと、イベントカメラに同期記録された可視光グレースケール画像を参照画像とするステップと、前記再構成画像と対応する前記参照画像とを予め訓練された補強モジュールに入力し、各時間ウィンドウに対応する補強画像を形成するステップと、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
可視光画像を融合するイベントカメラの再構成画像の補強方法であって、
イベントカメラが収集したイベントストリームを固定の時間ウィンドウに基づいて重複しない分割を行い、各時間ウィンドウ内のイベントストリームを再構成モジュールの入力とし、各時間ウィンドウ内のイベントストリームの再構成画像を得る、S1と、
各時間ウィンドウに対し、該時間ウィンドウの中心位置に対応するタイムスタンプを基準時刻とし、イベントカメラに同期記録された可視光グレースケール画像シーケンスから基準時刻の前及び基準時刻の後の最近フレームのグレースケール画像を収集してそれぞれ第一可視光画像及び第二可視光画像とし、且つそれぞれ第一可視光画像及び第二可視光画像のタイムスタンプを第一時刻及び第二時刻として記録しており、該時間ウィンドウにおいて、前記第一時刻から基準時刻までの間のイベント総数が前記基準時刻から第二時刻までの間のイベント総数より少ない場合、第一可視光画像を該時間ウィンドウに対応する参照画像とし、そうでなければ第二可視光画像を該時間ウィンドウに対応する参照画像とする、S2と、
各時間ウィンドウ内のイベントストリームの再構成画像と対応する参照画像をサンプルペアに構成し、サンプルペアを予め訓練された補強モジュールに入力し、補強モジュールにより再構成画像に対してテクスチャ特徴遷移を行って再構成画像に参照画像に近い外観表現を有させ、且つ再構成画像におけるノイズを抑制し、最終的に各時間ウィンドウに対応する補強画像を形成する、S3とを含む、
ことを特徴とする可視光画像を融合するイベントカメラの再構成画像の補強方法。
【請求項2】
前記再構成モジュールは、SPADE-E2VID又はFirenetである、
ことを特徴とする請求項1に記載の可視光画像を融合するイベントカメラの再構成画像の補強方法。
【請求項3】
前記イベントカメラが収集したイベントストリームにおいて、各イベントは何れも位置座標、タイムスタンプ及びイベント極性で表される四元集合であり、ここでイベント極性の値は+1及び-1であり、+1は輝度が増加するイベントを表し、-1は輝度が減少するイベントを表す、
ことを特徴とする請求項1に記載の可視光画像を融合するイベントカメラの再構成画像の補強方法。
【請求項4】
前記S2において、各時間ウィンドウに対し、第一可視光画像と第二可視光画像から参照画像を選択するとき、前記第一時刻から基準時刻までの間の全てのイベントの極性絶対値の和を統計し且つ第一統計値として記録する必要があり、前記基準時刻から第二時刻までの間の全てのイベントの極性絶対値の和を統計し且つ第二統計値として記録し、第一統計値が第二統計値より小さい場合、第一可視光画像を選択して該時間ウィンドウに対応する参照画像とし、そうでなければ第二可視光画像を選択して該時間ウィンドウに対応する参照画像とする、
ことを特徴とする請求項3に記載の可視光画像を融合するイベントカメラの再構成画像の補強方法。
【請求項5】
前記補強モジュールは入力層、画像特徴抽出モジュール、テクスチャ特徴抽出モジュール、相関性算出モジュール、特徴遷移モジュール及び出力層を含み、
前記入力層は畳み込み層及びそれに続くReLU活性化関数を含み、入力サンプルペアにおける再構成画像z及び参照画像vは該入力層を共有し、入力層により処理された後に再構成画像zに対応する特徴図M及び参照画像vの特徴図Mを出力し、
前記画像特徴抽出モジュール及びテクスチャ特徴抽出モジュールは、入力層に並列にカスケード接続された後、画像特徴抽出モジュールは5つの順次接続された残差ブロックで構成され、テクスチャ特徴抽出モジュールはU-Netネットワークを採用し、特徴図M及び特徴図Mは画像特徴抽出モジュールを経た後にそれぞれ画像特徴図Z及び画像特徴図Vを形成し、特徴図M及び特徴図Mはテクスチャ特徴抽出モジュールを経た後にそれぞれテクスチャ特徴図Q及びテクスチャ特徴図Kを形成し、画像特徴図Z、画像特徴図V、テクスチャ特徴図Q及びテクスチャ特徴図Kの大きさは同じであり、
前記相関性算出モジュールにおいて、まずテクスチャ特徴図Q及びテクスチャ特徴図Kにおける各位置をそれぞれ走査し、走査過程において各走査された位置に固有の番号を付与し、且つ走査された特徴図から現在走査位置の全てのチャネルの値を抽出して特徴ベクトルを形成し、テクスチャ特徴図Qにおける番号がiである位置から抽出された特徴ベクトルはqであり、テクスチャ特徴図Kにおける番号がjである位置から抽出された特徴ベクトルはkであり、次に、テクスチャ特徴図Q上の各位置とテクスチャ特徴図K上の各位置との相関性を計算し、ここで、テクスチャ特徴図Q上の番号iの位置とテクスチャ特徴図K上の番号jの位置との相関性は、特徴ベクトルqと特徴ベクトルkとの正規化内積であり、最後に、テクスチャ特徴図Q上の各位置をトラバーサルし、何れかの番号がiである位置(m,n)に対し、まずこの位置とテクスチャ特徴図K上の全ての位置との間の相関性最大値及び該相関性最大値がテクスチャ特徴図K上に対応する位置(m’n’)の番号jを検索し、更に検索された相関性最大値を重みマップSの位置(m,n)に記録し、位置番号jを位置インデックスマップPの位置(m,n)に記録し、それによりテクスチャ特徴図Qと同じ大きさの重みマップS及び位置インデックスマップPを生成し、
前記特徴遷移モジュールにおいて、位置インデックスマップPにおける各位置(m,n)に記録された位置番号jに基づき、それがテクスチャ特徴図Kにおける位置(m’,n’)を決定し、続いて画像特徴図Vから位置(m’,n’)における全てのチャネル値を抽出し、且つ再構成特徴図Tにおける位置(m,n)のチャネル値とし、それにより再構成特徴図Tを構築して得、更に画像特徴図Zと再構成特徴図Tをチャネル次元に沿ってスティッチングし、スティッチング結果は畳み込み演算により融合特徴図Zを形成し、融合特徴図Zと重みマップSは要素ごとの乗算により重み付けを行った後に更に画像特徴図Zと加算し、特徴遷移後の特徴図Zを形成し、
前記出力層において、特徴遷移後の特徴図Zは二つの畳み込み層を経て、更にSigmoid活性化操作により最終的な補強画像を形成する、
ことを特徴とする請求項1に記載の可視光画像を融合するイベントカメラの再構成画像の補強方法。
【請求項6】
前記入力層において、畳み込み層はサイズが3×3×3×Cinの64個の畳み込みコアを含み、Cinは再構成画像と参照画像のチャネル数であり、且つ該畳み込み層の畳み込みステップサイズは1である、
ことを特徴とする請求項5に記載の可視光画像を融合するイベントカメラの再構成画像の補強方法。
【請求項7】
前記出力層における二つの畳み込み層は、第一の畳み込み層は32個の3×3畳み込みコアを含み、第二の畳み込み層は3個の3×3畳み込みコアを含み、二つの畳み込み層の畳み込みステップサイズは何れも1である、
ことを特徴とする請求項5に記載の可視光画像を融合するイベントカメラの再構成画像の補強方法。
【請求項8】
前記補強モジュールにおける各階層のネットワークパラメータは予め訓練サンプルセットを利用して訓練し、そのうち各訓練サンプルは一組の対応する再構成画像、参照画像と真の可視光画像で構成され、再構成画像と参照画像は補強モジュールの入力とし、真の可視光画像は真値タグとし、且つ前記補強モジュールの訓練に用いられる総損失関数は構造類似性損失関数、平均二乗誤差損失関数及び感知損失関数の加重和であり、そのうち感知損失関数はVGG19を感知モデルとする、
ことを特徴とする請求項1に記載の可視光画像を融合するイベントカメラの再構成画像の補強方法。
【請求項9】
コンピュータの読み取り可能な記憶媒体であって、
前記記憶媒体にコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサに実行されるとき、請求項1~8の何れかに記載の可視光画像を融合するイベントカメラの再構成画像の補強方法を実現することができる、
ことを特徴とするコンピュータの読み取り可能な記憶媒体。
【請求項10】
コンピュータ電子装置であって、
メモリ及びプロセッサを含み、
前記メモリは、コンピュータプログラムを記憶するために用いられ、
前記プロセッサは、前記コンピュータプログラムを実行するとき、請求項1~8の何れかに記載の可視光画像を融合するイベントカメラの再構成画像の補強方法を実現するために用いられる、
ことを特徴とするコンピュータ電子装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は画像処理分野に関し、特に可視光画像を融合するイベントカメラの再構成画像の補強方法に関する。
【背景技術】
【0002】
イベントカメラは非同期方式で各画素の輝度変化を個別に検出し、ある位置の相対輝度変化が設定された閾値を超えると、対応する極性信号を出力する。従来の固定フレームレートでシーン輝度情報を捕捉する可視光撮像カメラに比べ、イベントカメラは高時間解像度、高ダイナミックレンジの特徴を有する。
【0003】
現在多くの機械視覚関連システム(例えば目標検出、識別及び追跡等)はフレーム形式で提示されたグレースケール又はカラー画像を入力とし、それによりイベントストリームから高フレームレート強度画像を再構成することに対して技術的需要が求められる。しかし、イベントカメラがイベント情報を記録する原理はそれが環境輝度の変化に非常に敏感であることを決定し、出力されたイベントストリームに大量のノイズ信号を含むことを免れず、それによりイベントストリームから再構成された強度画像にも通常大量のノイズが存在する。幸いにも、現在主流のDAVISセンサ(Dynamic and Active-pixel Vision Sensor)に基づくイベントカメラは、イベントストリームの形で知覚されたシーン輝度変化を記録するだけでなく、特定のフレームレート(例えば、25フレーム/秒)でグレースケール画像を出力するため、それらのグレースケール画像を利用してイベントストリームから再構成された強度画像を補強処理する可能性が開かれる。
【発明の概要】
【0004】
本発明の目的は従来技術に存在する問題を解決し、可視光画像を融合するイベントカメラの再構成画像の補強方法を提供することである。
【0005】
本発明の具体的な技術的解決手段は以下の通りである:
第一態様では、本発明は可視光画像を融合するイベントカメラの再構成画像の補強方法を提供し、該方法は以下を含む:
S1、イベントカメラが収集したイベントストリームを固定の時間ウィンドウに基づいて重複しない分割を行い、各時間ウィンドウ内のイベントストリームを再構成モジュールの入力とし、各時間ウィンドウ内のイベントストリームの再構成画像を得る。
S2、各時間ウィンドウに対し、該時間ウィンドウの中心位置に対応するタイムスタンプを基準時刻とし、イベントカメラに同期記録された可視光グレースケール画像シーケンスから基準時刻の前及び基準時刻の後の最近フレームのグレースケール画像を収集してそれぞれ第一可視光画像及び第二可視光画像とし、且つそれぞれ第一可視光画像及び第二可視光画像のタイムスタンプを第一時刻及び第二時刻として記録する。該時間ウィンドウにおいて、上記第一時刻から基準時刻までの間のイベント総数が上記基準時刻から第二時刻までの間のイベント総数より少ない場合、第一可視光画像を該時間ウィンドウに対応する参照画像とし、そうでなければ第二可視光画像を該時間ウィンドウに対応する参照画像とする。
S3、各時間ウィンドウ内のイベントストリームの再構成画像と対応する参照画像をサンプルペアに構成し、サンプルペアを予め訓練された補強モジュールに入力し、補強モジュールにより再構成画像に対してテクスチャ特徴遷移を行って再構成画像に参照画像に近い外観表現を有させ、且つ再構成画像におけるノイズを抑制し、最終的に各時間ウィンドウに対応する補強画像を形成する。
【0006】
上記第一態様の好ましい態様として、上記再構成モジュールはSPADE-E2VID又はFirenetであってもよい。
【0007】
上記第一態様の好ましい態様として、上記イベントカメラが収集したイベントストリームにおいて、各イベントは何れも位置座標、タイムスタンプ及びイベント極性で表される四元集合であり、ここでイベント極性の値は+1及び-1であり、+1は輝度が増加するイベントを表し、-1は輝度が減少するイベントを表す。
【0008】
上記第一態様の好ましい態様として、上記S2において、各時間ウィンドウに対し、第一可視光画像と第二可視光画像から参照画像を選択するとき、上記第一時刻から基準時刻までの間の全てのイベントの極性絶対値の和を統計し且つ第一統計値に記録する必要がある。上記基準時刻から第二時刻までの間の全てのイベントの極性絶対値の和を統計し且つ第二統計値として記録する。第一統計値が第二統計値より小さい場合、第一可視光画像を選択して該時間ウィンドウに対応する参照画像とし、そうでなければ第二可視光画像を選択して該時間ウィンドウに対応する参照画像とする。
【0009】
上記第一態様の好ましい態様として、上記補強モジュールは入力層、画像特徴抽出モジュール、テクスチャ特徴抽出モジュール、相関性算出モジュール、特徴遷移モジュール及び出力層を含む。
【0010】
上記入力層は畳み込み層及びそれに続くReLU活性化関数を含み、入力サンプルペアにおける再構成画像z及び参照画像vは該入力層を共有し、入力層により処理された後に再構成画像zに対応する特徴図M及び参照画像vの特徴図Mを出力する。
【0011】
上記画像特徴抽出モジュール及びテクスチャ特徴抽出モジュールは、入力層に並列にカスケード接続された後、画像特徴抽出モジュールは5つの順次接続された残差ブロックで構成され、テクスチャ特徴抽出モジュールはU-Netネットワークを採用する。特徴図M及び特徴図Mは画像特徴抽出モジュールを経た後にそれぞれ画像特徴図Z及び画像特徴図Vを形成し、特徴図M及び特徴図Mはテクスチャ特徴抽出モジュールを経た後にそれぞれテクスチャ特徴図Q及びテクスチャ特徴図Kを形成し、画像特徴図Z、画像特徴図V、テクスチャ特徴図Q及びテクスチャ特徴図Kの大きさは同じである。
【0012】
上記相関性算出モジュールにおいて、まずテクスチャ特徴図Q及びテクスチャ特徴図Kにおける各位置をそれぞれ走査し、走査過程において各走査された位置に固有の番号を付与し、且つ走査された特徴図から現在走査位置の全てのチャネルの値を抽出して特徴ベクトルを形成し、テクスチャ特徴図Qにおける番号がiである位置から抽出された特徴ベクトルはqであり、テクスチャ特徴図Kにおける番号がjである位置から抽出された特徴ベクトルはkである。次に、テクスチャ特徴図Q上の各位置とテクスチャ特徴図K上の各位置との相関を計算する。ここで、テクスチャ特徴図Q上の番号iの位置とテクスチャ特徴図K上の番号jの位置との相関性は、特徴ベクトルqと特徴ベクトルkとの正規化内積である。最後に、テクスチャ特徴図Q上の各位置をトラバーサルし、何れかの番号がiである位置(m,n)に対し、まずこの位置とテクスチャ特徴図K上の全ての位置との間の相関性最大値及び該相関性最大値がテクスチャ特徴図K上に対応する位置(m’,n’)の番号jを検索し、更に検索された相関性最大値を重みマップSの位置(m,n)に記録し、位置番号jを位置インデックスマップPの位置(m,n)に記録し、それによりテクスチャ特徴図Qと同じ大きさの重みマップS及び位置インデックスマップPを生成する。
【0013】
上記特徴遷移モジュールにおいて、位置インデックスマップPにおける各位置(m,n)に記録された位置番号jに基づき、それがテクスチャ特徴図Kにおける位置(m’,n’)を決定し、続いて画像特徴図Vから位置(m’,n’)における全てのチャネル値を抽出し、且つ再構成特徴図Tにおける位置(m,n)のチャネル値とし、それにより再構成特徴図Tを構築して得る。更に画像特徴図Zと再構成特徴図Tをチャネル次元に沿ってスティッチングし、スティッチング結果は畳み込み演算により融合特徴図Zを形成し、融合特徴図Zと重みマップSは要素ごとの乗算により重み付けを行った後に更に画像特徴図Zと加算し、特徴遷移後の特徴図Zを形成する。
【0014】
上記出力層において、特徴遷移後の特徴図Zは二つの畳み込み層を経て、更にSigmoid活性化操作により最終的な補強画像を形成する。
【0015】
上記第一態様の好ましい態様として、上記入力層において、畳み込み層はサイズが3×3×Cinの64個の畳み込みコアを含み、Cinは再構成画像と参照画像のチャネル数であり、且つ該畳み込み層の畳み込みステップサイズは1である。
【0016】
上記第一態様の好ましい態様として、上記出力層における二つの畳み込み層は、第一の畳み込み層は32個の3×3畳み込みコアを含み、第二の畳み込み層は3個の3×3畳み込みコアを含み、二つの畳み込み層の畳み込みステップサイズは何れも1である。
【0017】
上記第一態様の好ましい態様として、上記補強モジュールにおける各階層のネットワークパラメータは予め訓練サンプルセットを利用して訓練し、そのうち各訓練サンプルは一組の対応する再構成画像、参照画像及び真の可視光画像で構成され、再構成画像と参照画像は補強モジュールの入力とし、真の可視光画像は真値タグとする。且つ上記補強モジュールの訓練に用いられる総損失関数は構造類似性損失関数、平均二乗誤差損失関数及び感知損失関数の加重和であり、そのうち感知損失関数はVGG19を感知モデルとする。
【0018】
第二態様では、本発明はコンピュータの読み取り可能な記憶媒体を提供し、上記記憶媒体にコンピュータプログラムが記憶され、上記コンピュータプログラムがプロセッサに実行されるとき、上記第一態様の何れかに記載の可視光画像を融合するイベントカメラの再構成画像の補強方法を実現することができる。
【0019】
第三態様では、本発明はコンピュータ電子装置を提供し、それはメモリ及びプロセッサを含む。
上記メモリは、コンピュータプログラムを記憶するために用いられる。
上記プロセッサは、上記コンピュータプログラムを実行するとき、上記第一態様の何れかに記載の可視光画像を融合するイベントカメラの再構成画像の補強方法を実現するために用いられる。
【0020】
本発明は従来技術に比べ、以下の有益な効果を有する:イベントストリームで再構成された強度画像がノイズに影響されやすく、画像の自然リアリティが悪いというイベントカメラの問題に対し、再構成画像及び光学センサで撮像されたグレースケール画像シーケンスから選択された参照画像を入力とし、改良されたTransformerモデルで再構成画像に対してテクスチャ特徴遷移を行い、再構成画像が可視光撮像カメラで収集された自然画像により近づくだけでなく、再構成画像におけるノイズを部分的に抑制することもできる。
【図面の簡単な説明】
【0021】
図1】本発明に係る可視光画像を融合するイベントカメラの再構成画像の補強方法の概略図である。
図2】イベントカメラが収集したイベントストリームと可視光画像、及び時間ウィンドウの分割概略図である。
図3】補強モジュールの構造概略図である。
図4】本発明により提供される方法を応用してイベントカメラの再構成画像の補強を行う結果の例である。
【発明を実施するための形態】
【0022】
当業者が本発明の本質をよりよく理解できるように、図面及び具体的な実施例を参照して本発明を以下に更に説明する。
【0023】
図1に示すように、本発明の一つの好ましい実施例において、可視光画像を融合するイベントカメラの再構成画像の補強方法を提供し、該方法は再構成モジュールから出力された強度画像及び光学センサで撮像された可視光画像シーケンスから選択された参照画像を入力とし、改良のTransformerモデルに基づく補強モジュールを用いて再構成画像に対して補強処理を行う。該実施例において、該補強方法は具体的には以下の三つの基本的なステップを含み、以下、各ステップの具体的な操作方法について詳細に説明する。
【0024】
ステップ(1)、固定された区間の長さを用いてイベントカメラが収集したイベントを重畳領域のない時間ウィンドウに分割し、各時間ウィンドウ内のイベントストリームを再構成モジュールの入力とし、再構成モジュールにより各時間ウィンドウ内のイベントストリームに対応する再構成画像を出力する。
【0025】
本発明の実施例において、イベントカメラが収集したイベントストリーム中のイベントは重複領域のない時間ウィンドウに分割する場合に限り、再構成モデルの入力とすることができ、再構成モジュールの出力は再構成後の強度画像であり、即ち上記再構成画像である。イベントカメラが収集したイベントストリームにおいて、各イベントは何れも位置座標、タイムスタンプ及びイベント極性で表される四元集合であり、具体的には以下の通りである:タプルe=(x,y,t,p)の形式でイベントを表し、ここでnは番号であり、(x,y)はイベントが発生した位置座標を表し、tはタイムスタンプを表し、pは極性を表し、その値は(x,y)位置が前回のイベントトリガ時点から現在時間までの輝度変化が一つの予め設定された閾値εを超えるか否かに依存し、輝度変化がεを超え、且つ輝度が増強されると、p=±1で、輝度が増加するイベントを表す。逆に、輝度変化がεを超え、輝度が減少すると、p=-1で、輝度が減少するイベントを表す。次に、ある時間ウィンドウの開始時間をtとし、時間ウィンドウの区間長さをΔTとすると、タイムスタンプがt以上且つt+ΔT未満のイベントを何れも該時間ウィンドウ内のイベントに分類し、これらのイベントを再構成モジュールの入力とすると、該時間ウィンドウに対応する再構成強度画像を再構成することができる。
【0026】
本発明の実施例において、上記再構成モジュールはSPADE-E2VID(SPADE-E2VID:Spatially-Adaptive Denormalization for Event-Based Video Reconstruction,IEEE Transactions on Image Processing,vol. 30,2021)であってもよい。無論、他の実施例において、再構成モジュールはFirenet(Fast Image Reconstruction with an Event Camera,Proc. IEEE/CVF WACV,2020.3)を採用してもよい。上記二種類の再構成モジュールは何れも従来技術に属し、これについて説明しない。
【0027】
ステップ(2)、各時間ウィンドウの再構成画像に対応する参照画像を決定する。
各時間ウィンドウに対し、該時間ウィンドウの中心位置に対応するタイムスタンプを基準時刻とし、イベントカメラに同期記録された可視光グレースケール画像シーケンスから基準時刻前の直近の一フレームの可視光グレースケール画像を収集して第一可視光画像とし、同時に基準時刻後の直近の一フレームの可視光グレースケール画像を収集して第二可視光画像とし、且つそれぞれ第一可視光画像と第二可視光画像のタイムスタンプを第一時刻と第二時刻として記録する。該時間ウィンドウにおいて、第一時刻から基準時刻までの間に位置するイベント総数は基準時刻から第二時刻までの間に位置するイベント総数より少ない場合、第一可視光画像を該時間ウィンドウに対応する参照画像とし、そうでなければ第二可視光画像を該時間ウィンドウに対応する参照画像とする。
【0028】
具体的には図2を参照することができ、イベントカメラは一方ではイベントストリームの形式で知覚されたシーン輝度変化を記録し、同時に光学センサで撮像してグレースケール画像形式の可視光グレースケール画像シーケンスを出力するが、可視光グレースケール画像シーケンスのフレーム間間隔はイベントストリームにおける時間ウィンドウの長さより大きい。そのため、隣接する二つのフレームの可視光グレースケール画像の間に多くのイベントストリームに対応する時間ウィンドウが存在する。第k個の時間ウィンドウの中心位置に対応するタイムスタンプをtとし、tの前のある時刻tと後のある時刻tk+にそれぞれ一枚の可視光グレースケール画像を収集し、それぞれ第一可視光画像fk-と第二可視光画像fk+と記す。注目すべきことは、tk-がtの前に位置するが、tに最も近い一つの可視光グレースケール画像が存在する時刻であるべきであり、同様に、tk+がtの後に位置するが、tに最も近い一つの可視光グレースケール画像が存在する時刻であるべきである。ある時間枠内のイベントの総数は、その時間枠内の全てのイベントの極性絶対値の和を統計することによって達成され得る。従って、本発明の実施例において、tk-からtまでの時間範囲内の全てのイベントの極性絶対値の和を統計することができ、第一統計値Pと記す。tからtk+までの時間範囲内の全てのイベントの極性絶対値の和を統計し、第二統計値Pと記す。P<Pであれば、第一可視光画像fk-を選択して参照画像とし、そうでなければ第二可視光画像fk+を選択して参照画像とする。
【0029】
ステップ(3)では、各時間ウィンドウ内のイベントストリームの再構成画像と対応する参照画像をサンプルペアに構成し、サンプルペアを予め訓練された補強モジュールに入力し、補強モジュールにより再構成画像に対してテクスチャ特徴遷移を行って再構成画像に参照画像に近い外観表現を有させ、且つ再構成画像におけるノイズを抑制し、最終的に各時間ウィンドウに対応する補強画像を形成する。
【0030】
図3を参照すると、本発明の実施例において、改良されたTransformerモデルが、同じ幅W及び高さHを有する再構成画像z及び参照画像vから構成される任意のサンプルペア(z,v)のための補強モジュールとして使用される。補強モジュールは入力層、画像特徴抽出モジュール、テクスチャ特徴抽出モジュール、相関性算出モジュール、特徴遷移モジュール及び出力層を含み、順方向に伝搬する(Forward propagation)時のデータフロー方向に基づき、補強モジュール内の処理フローはステップA~ステップEを含み、以下にそれぞれ詳細に説明する:
【0031】
ステップAでは、入力層で入力データを処理する。
まず、補強モジュールに入力されたサンプルペアにおいて、再構成画像z及び参照画像vはそれぞれ共通の入力層に入力され、入力層により処理された後に、zに対応する特徴図M及びvに対応する特徴図Mを出力する。該入力層は畳み込み層とそれに続くReLU活性化関数を含み、本実施例における畳み込み層はサイズが3×3×Cinの64個の畳み込みコアを含み、Cinは再構成画像又は参照画像のチャネル数であり、グレースケール画像Cin=1、カラー画像Cin=3であり、該畳み込み層の畳み込みステップサイズは1である。
【0032】
ステップBでは、画像特徴抽出モジュール及びテクスチャ特徴抽出モジュールによってそれぞれ画像特徴及びテクスチャ特徴を生成する。
上記入力層の後に接続されるのは二つの並列の特徴抽出モジュールであり、そのうち一つは画像特徴抽出モジュールであり、もう一つはテクスチャ特徴抽出モジュールである。特徴図M及びMは画像特徴抽出モジュールを経た後、それぞれ画像特徴図Z及びVを形成し、M及びMvはテクスチャ特徴抽出モジュールを経た後、それぞれテクスチャ特徴図Q及びKを形成し、特徴図Z,V,Q及びKの大きさは何れもW×H×Cであり、ここでCは特徴図のチャネル数である。本発明の実施例において、チャネル数C=64とする。これにより、K,Q及びVはTransformerモデルの三つの要素であるキー(Key)、クエリ(Query)及び値(Value)を形成し、後続の相関性計算及び特徴遷移に用いられる。
【0033】
本発明の好ましい実施例において、入力層の後に接続された画像特徴抽出モジュールは5つの順次接続された残差ブロックで構成される。各残差ブロックは同じ構造を有し、該構造は二つの部分を含み、且つ残差ブロックに入力された特徴図をAとする。残差ブロックの第一部分では、まずAに対して一つのチャネル方向の層正規化操作を行い、その直後に二つの畳み込み層であり、第一畳み込み層は、128個の1×1サイズの畳み込みコアを含み、畳み込みステップサイズは1であり、第二畳み込み層はグループ化畳み込みを用い、128個の3×3サイズの畳み込みコアを含み、充填サイズは1であり、グループ数は128であり、畳み込みステップサイズは1である。上記第二畳み込み層から出力された、128個のチャネルを含む特徴図をチャネル次元に基づいて二つの特徴図に分割し、各特徴図はそれぞれ64個のチャネルを含み、対応する要素を乗算する形式で上記二つの特徴図から計算して新たな特徴図を生成し、Aと記す。Aに対して自己適応平均プール化(Adaptive Average Pooling)操作を行い、1×1×64の特徴図Aを形成し、Aのあるチャネルの全ての位置における値とAの該チャネルにおける値を乗算し、且つ全てのチャネルに対して上記操作を繰り返し、補正後の特徴図Aを形成する。A’は、後に接続された64個の1×1サイズの畳み込みコアを含む、畳み込みテップサイズが1である畳み込み層を経て、形成された特徴図はAと要素ごとに加算演算を行った後に残差ブロックの第一部分の出力とし、Aと記す。残差ブロックの第二部分では、まずAに対して一つのチャネル方向の層正規化操作を行い、その直後は、128個の1×1サイズの畳み込みコアを含む、畳み込みテップサイズが1である畳み込み層である。上記畳み込み層から出力された特徴図はチャネル次元に基づいて二つの特徴図に分割され、各特徴図はそれぞれ64個のチャネルを含み、対応する要素を乗算する形式で上記二つの特徴図から計算して一つの新たな特徴図を生成し、Aと記す。最後に、Aは、後続の64個のサイズが1×1であり、畳み込みステップサイズが1である畳み込み層によって畳み込み演算を行った後に出力された特徴図とAと要素ごとの加算を行って残差ブロックの最終出力とする。
【0034】
本発明の好ましい実施例において、入力層に続くテクスチャ特徴抽出モジュールはU-Netネットワーク構造を採用する。テクスチャ特徴抽出モジュールに入力された特徴図をBとし、二つの順次接続された畳み込み層及び後続のプール化操作を経て特徴図Bを形成し、そのうち、二つの畳み込み層はそれぞれ、128個の3×3サイズの畳み込みコアを含み、畳み込みステップサイズは何れも1であり、プール化層は最大プール化操作を採用し、サンプリングステップサイズは2である。Bは二つの順次接続された畳み込み層及び後続のプール化操作を経て特徴図Bを形成し、そのうち、二つの畳み込み層はそれぞれ、256個の3×3サイズの畳み込みコアを含み、畳み込みステップサイズは何れも1であり、プール化層は最大プール化操作を採用し、サンプリングステップサイズは2である。Bは二つの順次接続された畳み込み層を経て特徴図Bを形成し、そのうち二つの畳み込み層はそれぞれ、128個の3×3サイズの畳み込みコアを含み、畳み込みステップサイズは何れも1である。Bは、バイキュービック補間によりBと同じ大きさの特徴図に拡大され、そして、該特徴図はBと要素毎に加算されて特徴量図Bとされる。Bは、64個の3×3サイズの畳み込みコアを含む、畳み込みステップサイズが1である畳み込み層を経て、特徴図Bを形成する。Bをバイキュービック補間の形式でBと同じサイズの特徴図に拡大し、続いて、該特徴図とBを要素ごとに加算する方式で特徴図Bを形成する。最後に、Bは64個の3×3サイズの畳み込みコアを含む、畳み込みステップサイズが1である畳み込み層を経て、テクスチャ特徴抽出モジュールの最終出力を生成する。
【0035】
ステップCでは、相関性算出モジュールにより位置インデックスマップ及び重みマップを生成する。
相関性算出モジュールにおいて、テクスチャ特徴量図Qとテクスチャ特徴図Kとの相関性を正規化内積の方式で算出し、位置インデックスマップと重みマップとを生成する。具体的には:まず、行順の優先順位でテクスチャ特徴図Qに対応するW×Hサイズの平面を走査し、且つ各走査位置に唯一の番号iを付与し、1≦i≦H×Wであり、番号iに対応する走査位置でチャネル順に特徴図Qの全てのチャネルの値を順次取って一つの特徴ベクトルを形成し、qと記す。続いて、同様に行順の優先順位でテクスチャ特徴図Kに対応するW×Hサイズの平面を走査し、且つ各走査位置に唯一の番号jを付与し、1≦j≦H×Wであり、番号jに対応する走査位置でチャネル順に特徴図Kの全てのチャネルの値を順次取って一つの特徴ベクトルを形成し、kと記す。更に正規化内積の方式により、テクスチャ特徴図Q上の各位置とテクスチャ特徴図K上の各位置との間の相関性を算出し、即ち次の式の相関性公式に従ってベクトルqとkとの間の相関性を算出する:
【数1】
ここで、ri,jはテクスチャ特徴図Q上の番号iの位置とテクスチャ特徴図K上の番号jの位置との間の相関性であり、〈 〉は内積演算を表し、|| ||は2-ノルムを表す。
【0036】
最後に、テクスチャ特徴図Q上の各位置をトラバーサルし、何れかの番号がiである位置(m,n)に対し、まずこの位置とテクスチャ特徴図K上の全ての位置との間の相関性最大値及び該相関性最大値がテクスチャ特徴図K上の対応する位置(m’,n’)の番号jを検索し、検索された相関性最大値を重みマップSの位置(m,n)に記録し、位置番号jを位置インデックスマップPの位置(m,n)に記録し、それによりテクスチャ特徴図Qと同じ大きさの重みマップS及び位置インデックスマップPを生成する。具体的には、任意のテクスチャ特徴図Q上の番号iに対応する位置について、上記相関式に従ってH×W個の相関性値を計算し、これらの相関性値の中から最大値を選択することにより、特徴図Qに対応する重みマップSに記録することができる。同時に、この最大値に対応する番号jを記録し、位置インデックスマップPに記録する。
【0037】
上記重みマップ
において、各要素は特徴図Qのある特徴とKにおける最も類似する特徴との類似度を特徴付け、以下の重み計算式に従って決定する:
【数2】
ここで(m,n)は番号iに対応する走査位置であり、且つ1≦m≦H、1≦n≦Wである。
上記位置インデックスマップ
において、番号iに対応する走査位置の値P(m,n)は特徴図Kにおける特徴図Qの特徴ベクトルqと最も類似する特徴の番号であり、以下の式で決定される:
【数3】
【0038】
ステップDでは、特徴遷移モジュールにより特徴遷移を行う。
位置インデックスマップPの(m,n)位置における値はインデックス値即ち番号jであり、該インデックス値はテクスチャ特徴図Kに対応するH×W平面上の位置と一対一に対応する関係を有し、(m’,n’)とする。テクスチャ特徴図Kと画像特徴図Vの大きさは同じであるため、テクスチャ特徴図K上の(m’,n’)を画像特徴図V上にマッピングすることができる。本発明の実施例において、位置インデックスマップPにおける各位置(m,n)に記録された位置番号jに基づき、それがテクスチャ特徴図Kにおける位置(m’,n’)を決定し、続いて画像特徴図Vから位置(m’,n’)における全てのチャネル値を抽出し、且つ再構成特徴図Tにおける位置(m,n)のチャネル値とすることができ、それにより再構成特徴図Tを構築して得る。該操作は、特徴図Vの位置(m’,n’)において、全チャンネルの値をチャンネル順に一つずつ抽出し、C個の要素からなるベクトルに形成することと等価である。位置インデックスマップにおける全ての位置に対して上記ベクトル抽出の操作を繰り返し、得られたH×W個のベクトルをH×W×Cの特徴図、即ち再構成特徴図Tに再構成する。画像特徴図Zと再構成特徴図Tをチャネル次元でつなぎ合わせ、H×W×2Cのつなぎ合わせ特徴図を形成し、該つなぎ合わせ特徴図は、64個の3×3サイズの畳み込みコアを含む、畳み込みステップサイズが1である畳み込み層を介して畳み込み演算を行った後に融合特徴図Zを形成する。融合特徴図Zの全ての要素Z(m,n,c)と重みマップSを要素ごとの乗算により重み付けを行い、即ちZ(m,n,c)は重みマップの(m,n)位置の値S(m,n)と乗算して重み付けを実現する必要があり、1≦m≦H、1≦n≦W、1≦c≦Cであり、重み付け結果は更に特徴図Zと要素ごとの加算演算を行い、特徴遷移後の特徴図Zを形成する。
上記特徴遷移操作は下記の式で表すことができる:
【数4】
ここでConvは畳み込み演算を表し、Concatはチャネル次元によるつなぎ合わせを表し、
は要素ごとの乗算を表す。
【0039】
説明すべきものとして、特徴図Kは参照画像がテクスチャ特徴抽出モジュールによって処理された後に形成された特徴図である。特徴図Vは参照画像が画像特徴抽出モジュールによって処理された後に形成された特徴図である。特徴遷移により形成された特徴図は、再構成画像が画像特徴抽出モジュールにより処理された後に形成された特徴図とチャネル次元に基づいてつなぎ合わせる。そのため本発明の実施例は各インデックスに対応する位置に対し、特徴図V(特徴図Kではない)から該位置の全てのチャネルの値を取ってつなぎ合わせ用の特徴図を形成する。
【0040】
ステップEでは、出力層から補強画像を生成する。
特徴図Zは二つの畳み込み層及び後続のSigmoid操作を経て最終的な補強画像を形成し、そのうち第一畳み込み層は32個の3×3畳み込みコアを含み、第二畳み込み層は3個の3×3畳み込みコアを含み、二つの畳み込み層の畳み込みステップサイズは何れも1である。
【0041】
説明すべきものとして、本発明により提供される改良のTransformerモデルに基づく補強モジュールを用いてイベントカメラの再構成画像に対して補強処理を行う前に、補強モジュールを訓練する必要があり、学習の方式で補強モジュールの各階層のパラメータを決定する。
【0042】
モデル学習に用いられる訓練サンプルセットを
と設定し、ここでzは再構成モジュールから出力された強度画像を表し、vは参照画像を表し、gは再構成zのイベントストリームに対応する期間内に光学センサによりサンプリングされた真の可視光画像であり、Nはセット中のサンプル数である。再構成画像z及び参照画像vは補強モジュールへの入力として機能し、真の可視光画像gは真値タグとして機能する。
【0043】
訓練中に、Dにおける任意のサンプルz及びvを補強モジュールに入力することができ、補強モジュールから出力された補強画像が
であれば、以下の式で
に対応する総損失関数Lを計算する:
【数5】
ここでα、α、αは予め設定された、損失関数LSSIM、SME及びLPIPS貢献度をバランスするための係数であり、本発明の実施例はα=1.0、α=4.0、α=0.8とする。
上記総損失関数において、LSSIMは構造類似性損失関数であり、次の式で計算する:
【数6】
ここで、SSIM( )は二つの画像の構造的類似性メトリックを計算するための関数である。
上記総損失関数において、LMSEは平均二乗誤差損失関数であり、画素ごとに
を比較して算出された平均二乗誤差を表す。
上記総損失関数において、LLPIPSは感知損失関数であり、VGG19を採用して感知モデルとし、
をそれぞれ予め訓練された感知モデルに入力して特徴を抽出し、VGGの各階層から対応する特徴図を出力し、且つ活性化及び正規化処理を行い、第l層の出力特徴図を
と表記し、該層の出力に予め設定された重みWlを付与し、次の式により感知損失関数LLPIPSを算出する:
【数7】
ここで、|| ||は1ノルムを表す。
モデルの訓練は従来のやり方と類似し、訓練サンプルセットDにおける全てのサンプルをロットごとに補強モデルに入力し、全てのサンプルが総損失関数公式に応じて算出された損失関数Lの和を最小化することを目標とし、逆伝播の方式でモデルが収束するまで、補強モジュールの各ネットワーク層のパラメータを更新して調整する。
【0044】
図4に示すように、本発明の実施例により提供される方法はイベントカメラの再構成画像に対して補強処理を行って得られた一部の結果であり、図には8つの異なるシーンが示されており、各行の画像は左から右へ順に補強モジュールの出力結果、再構成モジュール(即ちSPADE-E2VID)により再構成された画像、及び真の可視光で撮像されたグレースケール画像であり、図から分かるように、補強後の画像は真のグレースケール画像とより類似するだけでなく、且つイベントカメラの高ダイナミックレンジの特徴を保持し、グレースケール画像の広ダイナミックレンジにより欠落した細部を再構成し、例えば、図4の第一行の左側画像における人及び椅子の詳細である。同時に、本発明の実施例は真の可視光画像を参考とし、平均二乗誤差MSE、構造的類似性指標SSIM及び学習可能な知覚画像ブロック類似度LPIPSを客観的な根拠とし、複数のテストデータセットに対して実験テストを行い、表1はテスト結果を示す。表中の「再構成画像」列は再構成モジュールから出力された結果と参照画像とで計算されたテスト指標値を与え、「補強画像」列は本発明の実施例の補強モジュールにより補強された後の画像と参照画像とで計算された指標値を与える。図4及び表1の結果から分かるように、本発明の実施例により提供されるイベントカメラの再構成画像の補強方法は、再構成画像の視覚効果を大幅に改善することができ、再構成画像と真の可視光画像との間のMSE及びLPIPSで計算する誤差を低減させ、SSIMで計算する構造的類似性指標を増大させる。
【表1】
【0045】
同様に、同一の発明概念に基づき、本発明の別の好ましい実施例において更に上記実施例により提供される可視光画像を融合するイベントカメラの再構成画像の補強方法に対応するコンピュータ電子装置を提供し、それはメモリとプロセッサを含む。
【0046】
上記メモリは、コンピュータプログラムを記憶するために用いられる。
上記プロセッサは、上記コンピュータプログラムを実行するとき、前述した可視光画像を融合するイベントカメラの再構成画像の補強方法を実現するために用いられる。
【0047】
また、上記メモリにおける論理指令はソフトウェア機能ユニットの形式で実現し且つ独立した製品として販売又は使用する場合、コンピュータの読み取り可能な記憶媒体に記憶することができる。このような理解に基づき、本発明の技術的解決手段は本質的に又は従来技術に寄与する部分又は該技術的解決手段の部分はソフトウェア製品の形式で表すことができ、該コンピュータソフトウェア製品は一つの記憶媒体に記憶され、複数のコマンドを含んで一台のコンピュータ装置(パーソナルコンピュータ、サーバ、又はネットワーク装置等であってもよい)に本発明の各実施例に記載の方法の全部又は一部のステップを実行させる。
【0048】
これにより、同一の発明概念に基づき、本発明の別の好適な実施例において更に上記実施例により提供される可視光画像を融合するイベントカメラの再構成画像の補強方法に対応するコンピュータの読み取り可能な記憶媒体を提供し、該記憶媒体にコンピュータプログラムが記憶され、上記コンピュータプログラムがプロセッサに実行されるとき、前述したような可視光画像を融合するイベントカメラの再構成画像の補強方法を実現することができる。
【0049】
理解されるように、上記記憶媒体、メモリはランダムアクセスメモリ(Random Access Memory,RAM)を用いてもよく、例えば少なくとも1つの磁気ディスクメモリなどの不揮発性メモリ(Non-Volatile Memory,NVM)を用いてもよい。また記憶媒体は、USBメモリ、リムーバブルハードディスク、磁気ディスク又は光ディスク等の各種のプログラムコードを記憶できる媒体であってもよい。
【0050】
なお、上記プロセッサは、中央処理装置(Central Processing Unit,CPU)、ネットワークプロセッサ(Network Processor,NP)等を含む汎用プロセッサであってもよい。デジタル信号プロセッサ(Digital SignalProcessing,DSP)、専用集積回路(Application Specific Integrated Circuit,ASIC)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array,FPGA)又は他のプログラマブルロジックデバイス、ディスクリートゲート又はトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントであってもよい。
【0051】
また説明すべきものとして、当業者であれば明らかに分かるように、説明の便宜上及び簡潔にするために、上記説明した装置の具体的な動作過程は、上記方法の実施例における対応する過程を参照することができ、ここで説明を省略する。本願の提供する各実施例において、上記装置及び方法におけるステップ又はモジュールの分割は、一つの論理機能分割に過ぎず、実際に実現するときに他の分割方式にしてもよく、例えば複数のモジュール又はステップを結合して又は一体に集積してもよく、一つのモジュール又はステップを分割してもよい。
【0052】
上記は本発明の好ましい実施例に過ぎないが、本発明の請求範囲はこれに限定されるものではなく、本発明の精神及び原理の範囲内であれば、行われたあらゆる修正又は代替等は本発明の請求範囲内に含まれるものとする。
図1
図2
図3
図4