(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-11
(54)【発明の名称】仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法
(51)【国際特許分類】
G06T 7/33 20170101AFI20240404BHJP
G06T 7/00 20170101ALI20240404BHJP
G06V 10/82 20220101ALI20240404BHJP
H04N 23/698 20230101ALI20240404BHJP
H04N 23/60 20230101ALI20240404BHJP
【FI】
G06T7/33
G06T7/00 350C
G06V10/82
H04N23/698
H04N23/60 500
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023517808
(86)(22)【出願日】2022-07-22
(85)【翻訳文提出日】2023-03-16
(86)【国際出願番号】 CN2022107421
(87)【国際公開番号】W WO2023184795
(87)【国際公開日】2023-10-05
(31)【優先権主張番号】202210316082.5
(32)【優先日】2022-03-28
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】518371489
【氏名又は名称】南京郵電大学
【氏名又は名称原語表記】NANJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS
【住所又は居所原語表記】No.66 Xin Mofan Road, Gulou Nanjing, Jiangsu 210003 China
(74)【代理人】
【識別番号】110000291
【氏名又は名称】弁理士法人コスモス国際特許商標事務所
(72)【発明者】
【氏名】張 暉
(72)【発明者】
【氏名】趙 夢
(72)【発明者】
【氏名】趙 海涛
(72)【発明者】
【氏名】朱 洪波
【テーマコード(参考)】
5C122
5L096
【Fターム(参考)】
5C122FA03
5C122FA18
5C122FH11
5C122FH12
5C122FH18
5C122HB01
5L096EA14
5L096FA09
5L096HA02
5L096HA11
5L096JA11
5L096KA04
(57)【要約】
本発明は仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法を開示し、2枚の位置合わせ対象画像に対して動きオブジェクト抽出を行い、動きオブジェクトを抽出した画像の前景セットに対して適応歪み画素補正を行い、画像特徴を抽出し、動きオブジェクトマッチングを完了するステップと、マッチングに成功した動きオブジェクトに対して動き方向及び速度検出を行い、2つのカメラの物理時間の差に応じて動きオブジェクトの速度を算出し、それぞれの動きオブジェクトを補償するステップと、オブジェクト抽出に失敗した画像、オブジェクトマッチングに失敗した画像及び双方向補償を行った画像に対して画像位置合わせを行うステップと、を含む。本発明は、従来の仮想現実メタバースのシーンではカメラのクロックが同期しないため、画像に動き前景が存在する場合、画像位置合わせの効率が低く、効果が悪いなどといった技術的課題を解決することができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法であって、
S1、Vibeに基づく背景差分法を用いて2枚の位置合わせ対象画像に対して動きオブジェクト抽出を行い、動きオブジェクトを抽出した画像の前景セットに対して適応歪み画素補正を行い、SURF特徴抽出アルゴリズムを用いて画像特徴を抽出し、特徴閾値に応じて動きオブジェクトマッチングを完了するステップと、
S2、スパースオプティカルフロー法を用いてマッチングに成功した動きオブジェクトに対して動き方向及び速度検出を行い、カメラの物理時間に応じて論理時間を計算し、2つのカメラの物理時間の差に応じて動きオブジェクトの速度を算出し、それぞれの動きオブジェクトを補償するステップと、
S3、高密度畳み込みニューラルネットワークに基づいて第1画像位置合わせモデルを構築し、VGG16ネットワークに基づいて第2画像位置合わせモデルを構築し、オブジェクト抽出に失敗した画像、オブジェクトマッチングに失敗した画像及び双方向補償を行った画像に対して画像位置合わせを行い、画像の双方向補償を行うか否かに応じて画像を2種類に分けるステップであって、第1画像位置合わせモデルを用いて位置予測に基づく双方向補償後の画像に対して画像位置合わせを行い、第2画像位置合わせモデルを用いて、オブジェクト抽出に失敗した画像及びオブジェクト位置合わせに失敗した画像を含む、双方向補償を行っていない画像に対して画像位置合わせを行うステップと、を含む、ことを特徴とする仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法。
【請求項2】
ステップS1では、Vibeに基づく背景差分法を用いて2枚の位置合わせ対象画像に対して動きオブジェクト抽出を行い、動きオブジェクトを抽出した画像の前景セットに対して適応歪み画素補正を行うプロセスは、
検出対象画像シーケンスにおける画素値ごとにN個のサンプル値を含む1つの背景モデルM(x)を構築し、
【数38】
(v
iはインデックスがiの背景サンプルを表し、i=1,2,…,Nである)であるステップと、
背景モデルM(x)を
【数39】
(式中、N
G(x)はx位置の画素の空間近傍を表し、v
yは該空間近傍にある画素点の色値を表し、背景モデルのサンプル点は近傍画素点からN個をランダムに選択して生成される)に更新するステップと、
以下の式に従って画素を補正するステップであって、
【数40】
式中、(x
d,y
d)は歪みが発生した画素座標を表し、(x
c,y
c)は歪みした中心画素座標を表し、(x
u,y
u)は補正後の画素座標を表し、K
1とK
2はそれぞれ1次と2次放射歪み係数を表し、rは歪み後の座標から中心画素座標までの距離を表し、αと1-αはカメラの焦点距離の相対位置を表し、
【数41】
であり、
式中、f
max、f
minはそれぞれカメラの焦点距離の最大値と最小値を表し、f
cはカメラの実際の焦点距離を表すステップと、を含むことを特徴とする請求項1に記載の仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法。
【請求項3】
ステップS2では、それぞれの動きオブジェクトを補償するプロセスは、
スパースオプティカルフロー法を用いて前景における動きオブジェクトの速度及び方向を計算し、x、yの2つの方向における速度を得て、それぞれu、vであり
【数42】
式中、
【数43】
はi番目の画素のx及びy方向における画像勾配を表し、
【数44】
はi番目の画素の時間における勾配を表し、
2枚の位置合わせ対象画像Aと画像Bのうち左側画像の前景セットは、
【数45】
で表され、
右側画像の前景セットは、
【数46】
で表され、
式中、p
Ai、p
Biは画像Aと画像Bの前景セットを構成する画素を表し、
右側画像の実際の物理時間t′と左側画像の時間tはt′=t+Δtを満たし、Δtは2枚の画像の物理時間の差であり、画像Aに対して位置補償を行うのにかかる時間t
Aと画像Bに対して位置補償を行うのにかかる時間t
Bはそれぞれ
【数47】
であり、
補償後の左側前景セットは、
【数48】
であり、
式中、
【数49】
は画像Aの補償後の前景セットを構成する画素を表し、p
Aixは補償前のx方向における画素成分を表し、
【数50】
はx方向における補償後の画素成分を表し、u
Aは該画素のx方向における速度を表し、p
Aiyは補償前のy方向における画素成分を表し、
【数51】
はy方向における補償後の画素成分を表し、u
Bは該画素のy方向における速度を表し、
補償後の右側画像の前景セットは、
【数52】
であり、
式中、
【数53】
は画像Bの補償後の前景セットを構成する画素を表し、p
Bixは補償前のx方向における画素成分を表し、
【数54】
はx方向における補償後の画素成分を表し、u
Bは該画素のx方向における速度を表し、p
Biyは補償前のy方向における画素成分を表し、
【数55】
はy方向における補償後の画素成分を表し、v
Bは該画素のy方向における速度を表すステップを含む、ことを特徴とする請求項1に記載の仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法。
【請求項4】
ステップS3では、前記第1画像位置合わせモデルは順に接続される3つの高密度ネットワークブロック、1つの畳み込み層及び1つの第1プーリング層からなり、各高密度ネットワークブロックは1つの畳み込み層、1つの第2プーリング層及び1つの高密度ネットワークを順に接続してなり、第1プーリング層の出力は平坦化された後、回帰ネットワークに接続し、回帰ネットワークは5つの完全接続層を順に接続してなり、画像位置合わせの幾何学的変換のパラメータを出力することに用いられる、ことを特徴とする請求項1に記載の仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法。
【請求項5】
ステップS3では、前記第2画像位置合わせモデルは順に接続される特徴抽出ネットワーク、特徴マッチングネットワーク及び回帰ネットワークを含み、特徴抽出ネットワークは順に接続される2つの畳み込み層及び1つのプーリング層を含み、位置合わせ対象画像の関連した特徴を抽出して特徴図を生成することに用いられ、特徴抽出ネットワークは2つのマッチングネットワークを含み、2つのマッチングネットワークは重みを共有し、各マッチングネットワークは関連した図を用いて相関性計算を行い、特徴記述子のマッチングを行うことに用いられ、回帰ネットワークにより出力された画像位置合わせの幾何学的変換のパラメータを出力する、ことを特徴とする請求項1に記載の仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法。
【請求項6】
前記仮想現実メタバースのシーンは仮想現実シーンを含む、ことを特徴とする請求項1に記載の仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、深層学習及び画像処理の技術分野に属し、特に仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法に関する。
【背景技術】
【0002】
画像位置合わせとは、1枚又は複数枚の画像を特定の最適な変換によってターゲット画像にマッピングすることである。グレースケール情報に基づく画像位置合わせ方法はグレースケール情報に基づいて位置合わせ画像と位置合わせ対象画像間の類似性の最大化を図るプロセスである。類似性の測定方法は一般に、相互情報量、二乗差、Hausdorff距離、互相関係数、二乗差と等距離などの方法を採用している。中でも、相互情報量は画像融合において頻繁に使用されている。位置合わせ画像と位置合わせ対象画像との類似性を最大化するプロセスは実際には最適化プロセスでもあり、変換モデルのパラメータを調整し続けることにより、類似性が最大化された場合にのみ、変換モデルのパラメータは最適に到達でき、位置合わせ対象画像を該最適モデルに従って変換して位置合わせ画像との位置合わせを完了する。特徴情報に基づく画像位置合わせは特徴抽出アルゴリズムを用いて特徴を抽出し、その後、位置合わせ画像と位置合わせ対象画像間の特徴点のマッピング関係を構築して変換モデルを得ることによって画像位置合わせを完了する。
【0003】
異なるタイプの画像が位置合わせを行う場合、採用されるアルゴリズム、評価標準も異なる。医学分野における様々な機器が日々進歩するに伴い、画像位置合わせは医療用画像処理においてますます重要になっている。異なる時間に撮影された同一患者の画像を位置合わせすることで、患者の器官と病理の動的変化状況をよりよく分析し、より正確な医療診断を行い、より適切な治療計画を策定することができる。画像位置合わせは材料力学分野において機械的特性を研究する方法の1つでもある。異なるセンサにより収集された温度、形状などの情報を融合及び比較して温度場、歪み場などの様々な数値を得る。さらに様々な数値を理論モデルに代入してパラメータの最適化を行う。画像位置合わせはさらに動きオブジェクトの自動追跡、パターン認識及びビデオ分析などにも使用できる。
【0004】
しかしながら、従来の仮想現実メタバースのシーンでは、カメラのクロックが同期しないため、画像に動き前景が存在する場合、画像位置合わせの効率が低く、効果が悪いなどの技術的課題がある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の仮想現実メタバースのシーンでは、カメラのクロックが同期しないため、画像に動き前景が存在する場合、画像位置合わせの効率が低く、効果が悪いなどといった技術的課題を解決しようする。
【課題を解決するための手段】
【0006】
仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法であって、前記パノラマ画像位置合わせ方法は、
S1、Vibeに基づく背景差分法を用いて2枚の位置合わせ対象画像に対して動きオブジェクト抽出を行い、動きオブジェクトを抽出した画像の前景セットに対して適応歪み画素補正を行い、SURF特徴抽出アルゴリズムを用いて画像特徴を抽出し、特徴閾値に応じて動きオブジェクトマッチングを完了するステップと、
S2、スパースオプティカルフロー法を用いてマッチングに成功した動きオブジェクトに対して動き方向及び速度検出を行い、カメラの物理時間に応じて論理時間を計算し、2つのカメラの物理時間の差に応じて動きオブジェクトの速度を算出し、それぞれの動きオブジェクトを補償するステップと、
S3、高密度畳み込みニューラルネットワークに基づいて第1画像位置合わせモデルを構築し、VGG16ネットワークに基づいて第2画像位置合わせモデルを構築し、オブジェクト抽出に失敗した画像、オブジェクトマッチングに失敗した画像及び双方向補償を行った画像に対して画像位置合わせを行い、画像の双方向補償を行うか否かことに応じて画像を2種類に分けるステップであって、第1画像位置合わせモデルを用いて位置予測に基づく双方向補償後の画像に対して画像位置合わせを行い、第2画像位置合わせモデルを用いて、オブジェクト抽出に失敗した画像及びオブジェクト位置合わせに失敗した画像を含む、双方向補償を行っていない画像に対して画像位置合わせを行うステップと、を含む。
【0007】
さらに、ステップS1では、Vibeに基づく背景差分法を用いて2枚の位置合わせ対象画像に対して動きオブジェクト抽出を行い、動きオブジェクトを抽出した画像の前景セットに対して適応歪み画素補正を行うプロセスは、
検出対象画像シーケンスにおける画素値ごとにN個のサンプル値を含む1つの背景モデルM(x)を構築し、
【数1】
(v
iはインデックスがiの背景サンプルを表し、i=1,2,…,Nである)であるステップと、 背景モデルM(x)を
【数2】
(式中、N
G(x)はx位置の画素の空間近傍を表し、v
yは該空間近傍にある画素点の色値を表し、背景モデルのサンプル点は近傍画素点からN個をランダムに選択して生成される)に更新するステップと、
以下の式に従って画素を補正するステップであって、
【数3】
式中、(x
d,y
d)は歪みが発生した画素座標を表し、(x
c,y
c)は歪みした中心画素座標を表し、(x
u,y
u)は補正後の画素座標を表し、K
1とK
2はそれぞれ1次と2次放射歪み係数を表し、rは歪み後の座標から中心画素座標までの距離を表し、αと1-αはカメラの焦点距離の相対位置を表し、
【数4】
であり、
式中、f
max、f
minはそれぞれカメラの焦点距離の最大値と最小値を表し、f
cはカメラの実際の焦点距離を表すステップと、を含む。
【0008】
さらに、スパースオプティカルフロー法を用いて前景における動きオブジェクトの速度及び方向を計算し、x、yの2つの方向における速度を得て、それぞれu、vであり、
【数5】
式中、
【数6】
はi番目の画素のx及びy方向における画像勾配を表し、
【数7】
はi番目の画素の時間における勾配を表し、
2枚の位置合わせ対象画像Aと画像Bのうち左側画像の前景セットは、
【数8】
で表され、
右側画像の前景セットは、
【数9】
で表され、
式中、p
Ai、p
Biは画像Aと画像Bの前景セットを構成する画素を表し、
右側画像の実際の物理時間t′と左側画像の時間tはt′=t+Δtを満たし、Δtは2枚の画像の物理時間の差であり、画像Aに対して位置補償を行うのにかかる時間t
Aと画像Bに対して位置補償を行うのにかかる時間t
Bはそれぞれ
【数10】
であり、
補償後の左側前景セットは、
【数11】
であり、
式中、
【数12】
は画像Aの補償後の前景セットを構成する画素を表し、p
Aixは補償前のx方向における画素成分を表し、
【数13】
はx方向における補償後の画素成分を表し、u
Aは該画素のx方向における速度を表し、p
Aiyは補償前のy方向における画素成分を表し、
【数14】
はy方向における補償後の画素成分を表し、u
Bは該画素のy方向における速度を表し、
補償後の右側画像の前景セットは、
【数15】
であり、
式中、
【数16】
は画像Bの補償後の前景セットを構成する画素を表し、p
Bixは補償前のx方向における画素成分を表し、
【数17】
はx方向における補償後の画素成分を表し、u
Bは該画素のx方向における速度を表し、p
Biyは補償前のy方向における画素成分を表し、
【数18】
はy方向における補償後の画素成分を表し、v
Bは該画素のy方向における速度を表す。
【0009】
さらに、ステップS3では、前記第1画像位置合わせモデルは順に接続される3つの高密度ネットワークブロック、1つの畳み込み層及び1つの第1プーリング層からなり、各高密度ネットワークブロックは1つの畳み込み層、1つの第2プーリング層及び1つの高密度ネットワークを順に接続してなり、第1プーリング層の出力は平坦化された後、回帰ネットワークに接続し、回帰ネットワークは5つの完全接続層を順に接続してなり、画像位置合わせの幾何学的変換のパラメータを出力することに用いられる。
【0010】
さらに、ステップS3では、前記第2画像位置合わせモデルは順に接続される特徴抽出ネットワーク、特徴マッチングネットワーク及び回帰ネットワークを含み、特徴抽出ネットワークは順に接続される2つの畳み込み層及び1つのプーリング層を含み、位置合わせ対象画像の関連した特徴を抽出して特徴図を生成することに用いられ、特徴抽出ネットワークは2つのマッチングネットワークを含み、2つのマッチングネットワークは重みを共有し、各マッチングネットワークは関連した図を用いて相関性計算を行い、特徴記述子のマッチングを行うことに用いられ、回帰ネットワークにより出力された画像位置合わせの幾何学的変換のパラメータを出力する。
【0011】
さらに、前記仮想現実メタバースのシーンは仮想現実シーンを含む。
【発明の効果】
【0012】
本発明はカメラの非同期と前景の動きオブジェクトによる画像位置合わせ効率の問題に対して補償スキームを提案し、まず、背景差分法を用いて画像に対してオブジェクト抽出を行い、その後、オブジェクトマッチングを行う時に2つのカメラの歪みを考慮して適応歪み補正を行い、最後に、2つの画像における前景に対してそれぞれ補償操作を行う。本発明は高密度畳み込みニューラルネットワークに基づく画像位置合わせアルゴリズムをさらに提案し、変換パラメータをピアツーピアで取得する方法を提供し、最後、画像に対して双方向補償を行うか否かに応じて異なる位置合わせスキームを採用し、アルゴリズム効率を向上させる。
【0013】
1、本発明は同期しないカメラにより撮影された画像に対して、前景に動きオブジェクトが含まれるか否かに応じて異なる位置合わせ方法を採用し、前景に動きオブジェクトが存在する場合、本発明の適応歪み画素補正と位置予測に基づく双方向補償は同期しない時間差内に動きオブジェクトにより引き起こされたずれを効果的に回避でき、位置合わせ結果をより正確にする。
【0014】
2、本発明に係るDSCNNに基づく画像位置合わせ方法は位置合わせに必要な変換パラメータをピアツーピアで出力することを実現でき、従来の画像位置合わせアルゴリズムと比較して、計算時間が大幅に短縮され、高い将来性が期待できる。
【図面の簡単な説明】
【0015】
【
図1】本発明の仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法の全体フローチャートである。
【
図3】歪みを考慮したオブジェクトマッチングのフローチャートである。
【
図4】双方向補償に基づく画像位置合わせのフローチャートである。
【
図5】DSCNN画像位置合わせのフローチャートである。
【
図6】DSCNN画像位置合わせネットワークの構造図である。
【
図7】VGG-16に基づく画像位置合わせネットワークの構造図である。
【発明を実施するための形態】
【0016】
以下の実施例は当業者が本発明をより完全に理解することを可能にするが、本発明をいかなる方法でも限定するものではない。
【0017】
本発明は仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法を提案し、基本的には、動きオブジェクト抽出と、歪みを考慮した動きオブジェクトマッチングと、位置予測に基づく双方向補償とを含み、異なる前景セットに対して異なる位置合わせ方法を採用し、仮想現実メタバースのシーンは、例えば仮想現実シーン、VR監視シーンなどを含む。
図1に示すように、具体的には、以下のステップ1~4を含む。
【0018】
ステップ1:ViBeアルゴリズムを用いて検出対象画像シーケンスにおける画素値ごとにN個のサンプル値を含む1つの背景モデルM(x)を構築し、v
iはインデックスがiの背景サンプルを表し、
【数19】
であり、
v(x)は位置がxにある画素の、与えられた色空間における色値を表し、該画素の背景モデルはM(x)である。
【0019】
ViBeは隣接する画素点の空間分布関係も類似することを仮定する。ViBe背景モデルの初期化は単一のフレーム画像により行われ、該技術は、光源が突然変化した場合、迅速に応答でき、すなわち、元のすべてのサンプル点を破棄し、再初期化を行う。
【数20】
であり、
N
G(x)はx位置の画素の空間近傍を表し、v
yは該空間近傍にある画素点の色値を表す。具体的に実施する際には、背景モデルのサンプル点は近傍画素点からN個をランダムに選択して生成される。
【0020】
適応歪み画素補正は主に異なる焦点距離が異なるタイプの歪みにつながることを根拠として行われ、例えば、焦点距離が機器の中間値であると、樽型歪みが生じやすく、焦点距離が長すぎると、樽型歪みと糸巻き歪みの混合歪みが生じやすく、どの歪みもマッチング結果に悪影響を及ぼすため、式
【数21】
を提案して画素を補正する。
式中、(x
d,y
d)は歪みが発生した画素座標を表し、(x
c,y
c)は歪みが発生した中心画素座標を表し、(x
u,y
u)は補正後の画素座標を表し、K
1とK
2はそれぞれ1次と2次放射歪み係数を表す。rは歪み後の座標から中心画素座標までの距離を表す。αと1-αはカメラの焦点距離の相対位置を表し、
【数22】
であり、
式中、f
max、f
minはそれぞれカメラの焦点距離の最大値と最小値を表し、f
cはカメラの実際の焦点距離を表す。
【0021】
ステップ2:LKオプティカルフロー法を用いてマッチングした前景動きオブジェクトの単位時間あたりの各方向における変位を計算する。
【数23】
である。
【0022】
右辺においてテイラー級数展開を行い、両辺をdtで除算して式
【数24】
を得る。
式中、
【数25】
は画像勾配を表し、
【数26】
は時間における勾配を表す。
【0023】
LKオプティカルフローは辺長が3の正方形内の9個の画素点が同じ動きを有することに基づいてそれらのオプティカルフロー方程式を見つけ、9個の等式と2個の未知数からなる連立方程式を構成し、最小二乗フィッティングを用いて解く。解いた結果は、
【数27】
に表される。
【0024】
カメラの内部水晶発振器などの様々な理由により右側画像と左側画像に1つの微小な時間間隔Δtが存在し、右側画像の実際の物理時間t′と左側画像の時間tはt′=t+Δtを満たす。t時刻において左側の位置合わせ対象画像から抽出された動きオブジェクトは
【数28】
で表され、同一時刻において右側の位置合わせ対象画像から抽出された動きオブジェクトは、
【数29】
で表され、2つの画像に対して位置補償を行った時間はそれぞれ
【数30】
である。
【0025】
位置補償後の左右両側の位置合わせ対象画像の前景図は、
【数31】
に表される。
式中、
【数32】
はAの補償後の前景セットを構成する画素を表し、p
Aixは補償前のx方向における画素成分を表し、
【数33】
はx方向における補償後の画素成分を表し、u
Aは該画素のx方向における速度を表し、p
Aiyは補償前のy方向における画素成分を表し、
【数34】
はy方向における補償後の画素成分を表し、u
Bは該画素のy方向における速度を表し、Δtは2枚の画像の物理時間の差であり、
【数35】
はBの補償後の前景セットを構成する画素を表し、p
Bixは補償前のx方向における画素成分を表し、
【数36】
はx方向における補償後の画素成分を表し、u
Bは該画素のx方向における速度を表し、p
Biyは補償前のy方向における画素成分を表し、
【数37】
はy方向における補償後の画素成分を表し、v
Bは該画素のy方向における速度を表す。
【0026】
ステップ3:位置合わせ対象画像Aと位置合わせ対象画像Bに対してそれぞれDSCNNネットワークによる特徴抽出を行い、2つの特徴抽出ネットワークは重みパラメータを共有し、その後、5つの完全接続層からなる回帰ネットワークで処理を行い、最終的に画像位置合わせの変換パラメータを出力する。
【0027】
画像位置合わせに使用される特徴抽出ネットワークは高密度畳み込みニューラルネットワークに基づくものであり、該ネットワーク構造は3つの高密度ネットワークブロック、1つの畳み込み層、及び1つのプーリング層からなり、高密度ネットワークブロックは1つの畳み込み層、1つのプーリング層及び1つの高密度ネットワークからなり、出力は平坦化された後、回帰ネットワークに接続する。CNN畳み込み層の数の増加に伴い、ネットワークの入力情報と勾配情報はネットワークの深さの増加とともに徐々に消失する。ResNetsとHighway Netwoksは異なる方法を用いて、ニューラルネットワークの開始値から終了までの経路が短いほど、勾配消失の問題を軽減できることが証明された。ResNetsは識別子接続によって信号の分流を行い、より良い勾配フローと情報を取得した。FractalNetsはネットワークの短経路を確保し、勾配消失の影響が低下する。従って、本発明は高密度ネットワークブロックを特徴抽出ネットワークに導入し、高密度ネットワークに基づく特徴抽出ネットワークを提案し、より完全な特徴情報を抽出することを確保するだけでなく、勾配消失の問題を防止し、
図6に示される。図における高密度ネットワークブロックの各層は直接接続されていることで、各層のネットワーク間の情報フローの最大化を確保する。高密度ネットワークブロックにおける各層の入力はいずれもその前のすべての層の出力であることで、ネットワークのフィードフォワード特性を確保し、本層の特徴マッピングも入力として次の層に伝送される。本発明において、DSCNNの回帰ネットワークは5つの完全接続層からなる。完全接続層は特徴間の非線形関係及び高度推論を見つけることに用いられる。最後に、2つの画像を位置合わせすることができる変換パラメータを出力する。
【0028】
ステップ4:動きオブジェクトを抽出していない画像と動きオブジェクトマッチングに失敗した画像に対してVGG16に基づく画像位置合わせを行う。その理由として、本発明に係る双方向補償に基づく画像位置合わせアルゴリズムのコア思想は異なる前景の画像に対して異なる位置合わせアルゴリズムを採用して高い位置合わせ精度を図ることであり、
図1に示される。動き前景の検出及びマッチングに成功した画像に対してDSCNNに基づく画像位置合わせを行い、オブジェクトがないと検出したか又はマッチングに失敗した場合、双方向補償操作を行うことなく、VGG16に基づく画像位置合わせを直接行い、それによってアルゴリズム全体の時間複雑度が低下する。
【0029】
VGG16に基づく画像位置合わせアルゴリズムは主に特徴抽出ネットワーク、特徴マッチングネットワーク及び回帰ネットワークの3つの部分を含み、特徴抽出ネットワーク部分は改良されたVGG-16を採用し、2つのマッチングネットワークは重みを共有し、マッチングネットワークは特徴記述子のマッチングを行うことに用いられ、回帰ネットワークにより出力された幾何学的変換のパラメータを出力する。特徴抽出ネットワークは標準的な畳み込みニューラルネットワークアーキテクチャを採用し、位置合わせ対象画像を完全接続層なしの畳み込みニューラルネットワークに入力し、特徴図を生成する。畳み込みニューラルネットワークはVGG-16ネットワークの一部を切り取り、そのネットワーク構造は
図7に示される。
【0030】
古典的な画像位置合わせ幾何推定は元の記述子を破棄し、記述子ペア間の類似度に注目しており、その理由として、記述子ペアの類似度と空間的位置には幾何推定に必要な必要情報が含まれており、類似値を閾値化することで最も類似する近傍のマッチングのみを保持して記述子ペアを構築する。本発明のマッチングネットワークもこの思想を利用し、相関層を採用し、元の記述子を考慮せず、記述子ペア間の空間的位置と類似度のみを考慮する。本発明のマッチングネットワークは相関層と正規化層の構造を採用する。相関層はすべての特徴記述子の類似性を計算し、正規化層は類似度スコアを処理及び正規化してファジィマッチングを除去することに用いられる。
【0031】
なお、以上の実施例の説明は単に本願の方法及びそのコア思想を理解するためのものであり、当業者であれば、本願の原理を逸脱せずに本願に対して種々の改良及び修飾を行うことができ、これらの改良及び修飾も本願の特許請求の範囲の保護範囲に含まれる。
【国際調査報告】