特表2024-515913 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 南京郵電大学の特許一覧

特表2024-515913仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-04-11

(54)【発明の名称】仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法

(51)【国際特許分類】

G06T 7/33 20170101AFI20240404BHJP

G06T 7/00 20170101ALI20240404BHJP

G06V 10/82 20220101ALI20240404BHJP

H04N 23/698 20230101ALI20240404BHJP

H04N 23/60 20230101ALI20240404BHJP

【ＦＩ】

G06T7/33

G06T7/00 350C

G06V10/82

H04N23/698

H04N23/60 500

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023517808

(86)(22)【出願日】2022-07-22

(85)【翻訳文提出日】2023-03-16

(86)【国際出願番号】 CN2022107421

(87)【国際公開番号】W WO2023184795

(87)【国際公開日】2023-10-05

(31)【優先権主張番号】202210316082.5

(32)【優先日】2022-03-28

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】518371489

【氏名又は名称】南京郵電大学

【氏名又は名称原語表記】ＮＡＮＪＩＮＧＵＮＩＶＥＲＳＩＴＹＯＦＰＯＳＴＳＡＮＤＴＥＬＥＣＯＭＭＵＮＩＣＡＴＩＯＮＳ

【住所又は居所原語表記】Ｎｏ．６６ＸｉｎＭｏｆａｎＲｏａｄ，ＧｕｌｏｕＮａｎｊｉｎｇ，Ｊｉａｎｇｓｕ２１０００３Ｃｈｉｎａ

(74)【代理人】

【識別番号】110000291

【氏名又は名称】弁理士法人コスモス国際特許商標事務所

(72)【発明者】

【氏名】張暉

(72)【発明者】

【氏名】趙夢

(72)【発明者】

【氏名】趙海涛

(72)【発明者】

【氏名】朱洪波

【テーマコード（参考）】

5C122

5L096

【Ｆターム（参考）】

5C122FA03

5C122FA18

5C122FH11

5C122FH12

5C122FH18

5C122HB01

5L096EA14

5L096FA09

5L096HA02

5L096HA11

5L096JA11

5L096KA04

(57)【要約】

本発明は仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法を開示し、２枚の位置合わせ対象画像に対して動きオブジェクト抽出を行い、動きオブジェクトを抽出した画像の前景セットに対して適応歪み画素補正を行い、画像特徴を抽出し、動きオブジェクトマッチングを完了するステップと、マッチングに成功した動きオブジェクトに対して動き方向及び速度検出を行い、２つのカメラの物理時間の差に応じて動きオブジェクトの速度を算出し、それぞれの動きオブジェクトを補償するステップと、オブジェクト抽出に失敗した画像、オブジェクトマッチングに失敗した画像及び双方向補償を行った画像に対して画像位置合わせを行うステップと、を含む。本発明は、従来の仮想現実メタバースのシーンではカメラのクロックが同期しないため、画像に動き前景が存在する場合、画像位置合わせの効率が低く、効果が悪いなどといった技術的課題を解決することができる。
【選択図】図１

【特許請求の範囲】

【請求項1】

仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法であって、
Ｓ１、Ｖｉｂｅに基づく背景差分法を用いて２枚の位置合わせ対象画像に対して動きオブジェクト抽出を行い、動きオブジェクトを抽出した画像の前景セットに対して適応歪み画素補正を行い、ＳＵＲＦ特徴抽出アルゴリズムを用いて画像特徴を抽出し、特徴閾値に応じて動きオブジェクトマッチングを完了するステップと、
Ｓ２、スパースオプティカルフロー法を用いてマッチングに成功した動きオブジェクトに対して動き方向及び速度検出を行い、カメラの物理時間に応じて論理時間を計算し、２つのカメラの物理時間の差に応じて動きオブジェクトの速度を算出し、それぞれの動きオブジェクトを補償するステップと、
Ｓ３、高密度畳み込みニューラルネットワークに基づいて第１画像位置合わせモデルを構築し、ＶＧＧ１６ネットワークに基づいて第２画像位置合わせモデルを構築し、オブジェクト抽出に失敗した画像、オブジェクトマッチングに失敗した画像及び双方向補償を行った画像に対して画像位置合わせを行い、画像の双方向補償を行うか否かに応じて画像を２種類に分けるステップであって、第１画像位置合わせモデルを用いて位置予測に基づく双方向補償後の画像に対して画像位置合わせを行い、第２画像位置合わせモデルを用いて、オブジェクト抽出に失敗した画像及びオブジェクト位置合わせに失敗した画像を含む、双方向補償を行っていない画像に対して画像位置合わせを行うステップと、を含む、ことを特徴とする仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法。

【請求項2】

ステップＳ１では、Ｖｉｂｅに基づく背景差分法を用いて２枚の位置合わせ対象画像に対して動きオブジェクト抽出を行い、動きオブジェクトを抽出した画像の前景セットに対して適応歪み画素補正を行うプロセスは、
検出対象画像シーケンスにおける画素値ごとにＮ個のサンプル値を含む１つの背景モデルＭ（ｘ）を構築し、

【数38】

（ｖ_ｉはインデックスがｉの背景サンプルを表し、ｉ＝１，２，…，Ｎである）であるステップと、
背景モデルＭ（ｘ）を

【数39】

（式中、Ｎ_Ｇ（ｘ）はｘ位置の画素の空間近傍を表し、ｖ_ｙは該空間近傍にある画素点の色値を表し、背景モデルのサンプル点は近傍画素点からＮ個をランダムに選択して生成される）に更新するステップと、
以下の式に従って画素を補正するステップであって、

【数40】

式中、（ｘ_ｄ，ｙ_ｄ）は歪みが発生した画素座標を表し、（ｘ_ｃ，ｙ_ｃ）は歪みした中心画素座標を表し、（ｘ_ｕ，ｙ_ｕ）は補正後の画素座標を表し、Ｋ_１とＫ_２はそれぞれ１次と２次放射歪み係数を表し、ｒは歪み後の座標から中心画素座標までの距離を表し、αと１－αはカメラの焦点距離の相対位置を表し、

【数41】

であり、
式中、ｆ_ｍａｘ、ｆ_ｍｉｎはそれぞれカメラの焦点距離の最大値と最小値を表し、ｆ_ｃはカメラの実際の焦点距離を表すステップと、を含むことを特徴とする請求項１に記載の仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法。

【請求項3】

ステップＳ２では、それぞれの動きオブジェクトを補償するプロセスは、
スパースオプティカルフロー法を用いて前景における動きオブジェクトの速度及び方向を計算し、ｘ、ｙの２つの方向における速度を得て、それぞれｕ、ｖであり

【数42】

式中、

【数43】

はｉ番目の画素のｘ及びｙ方向における画像勾配を表し、

【数44】

はｉ番目の画素の時間における勾配を表し、
２枚の位置合わせ対象画像Ａと画像Ｂのうち左側画像の前景セットは、

【数45】

で表され、
右側画像の前景セットは、

【数46】

で表され、
式中、ｐ_Ａｉ、ｐ_Ｂｉは画像Ａと画像Ｂの前景セットを構成する画素を表し、
右側画像の実際の物理時間ｔ′と左側画像の時間ｔはｔ′＝ｔ＋Δｔを満たし、Δｔは２枚の画像の物理時間の差であり、画像Ａに対して位置補償を行うのにかかる時間ｔ_Ａと画像Ｂに対して位置補償を行うのにかかる時間ｔ_Ｂはそれぞれ

【数47】

であり、
補償後の左側前景セットは、

【数48】

であり、
式中、

【数49】

は画像Ａの補償後の前景セットを構成する画素を表し、ｐ_Ａｉｘは補償前のｘ方向における画素成分を表し、

【数50】

はｘ方向における補償後の画素成分を表し、ｕ_Ａは該画素のｘ方向における速度を表し、ｐ_Ａｉｙは補償前のｙ方向における画素成分を表し、

【数51】

はｙ方向における補償後の画素成分を表し、ｕ_Ｂは該画素のｙ方向における速度を表し、
補償後の右側画像の前景セットは、

【数52】

であり、
式中、

【数53】

は画像Ｂの補償後の前景セットを構成する画素を表し、ｐ_Ｂｉｘは補償前のｘ方向における画素成分を表し、

【数54】

はｘ方向における補償後の画素成分を表し、ｕ_Ｂは該画素のｘ方向における速度を表し、ｐ_Ｂｉｙは補償前のｙ方向における画素成分を表し、

【数55】

はｙ方向における補償後の画素成分を表し、ｖ_Ｂは該画素のｙ方向における速度を表すステップを含む、ことを特徴とする請求項１に記載の仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法。

【請求項4】

ステップＳ３では、前記第１画像位置合わせモデルは順に接続される３つの高密度ネットワークブロック、１つの畳み込み層及び１つの第１プーリング層からなり、各高密度ネットワークブロックは１つの畳み込み層、１つの第２プーリング層及び１つの高密度ネットワークを順に接続してなり、第１プーリング層の出力は平坦化された後、回帰ネットワークに接続し、回帰ネットワークは５つの完全接続層を順に接続してなり、画像位置合わせの幾何学的変換のパラメータを出力することに用いられる、ことを特徴とする請求項１に記載の仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法。

【請求項5】

ステップＳ３では、前記第２画像位置合わせモデルは順に接続される特徴抽出ネットワーク、特徴マッチングネットワーク及び回帰ネットワークを含み、特徴抽出ネットワークは順に接続される２つの畳み込み層及び１つのプーリング層を含み、位置合わせ対象画像の関連した特徴を抽出して特徴図を生成することに用いられ、特徴抽出ネットワークは２つのマッチングネットワークを含み、２つのマッチングネットワークは重みを共有し、各マッチングネットワークは関連した図を用いて相関性計算を行い、特徴記述子のマッチングを行うことに用いられ、回帰ネットワークにより出力された画像位置合わせの幾何学的変換のパラメータを出力する、ことを特徴とする請求項１に記載の仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法。

【請求項6】

前記仮想現実メタバースのシーンは仮想現実シーンを含む、ことを特徴とする請求項１に記載の仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、深層学習及び画像処理の技術分野に属し、特に仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法に関する。

【背景技術】

【0002】

画像位置合わせとは、１枚又は複数枚の画像を特定の最適な変換によってターゲット画像にマッピングすることである。グレースケール情報に基づく画像位置合わせ方法はグレースケール情報に基づいて位置合わせ画像と位置合わせ対象画像間の類似性の最大化を図るプロセスである。類似性の測定方法は一般に、相互情報量、二乗差、Ｈａｕｓｄｏｒｆｆ距離、互相関係数、二乗差と等距離などの方法を採用している。中でも、相互情報量は画像融合において頻繁に使用されている。位置合わせ画像と位置合わせ対象画像との類似性を最大化するプロセスは実際には最適化プロセスでもあり、変換モデルのパラメータを調整し続けることにより、類似性が最大化された場合にのみ、変換モデルのパラメータは最適に到達でき、位置合わせ対象画像を該最適モデルに従って変換して位置合わせ画像との位置合わせを完了する。特徴情報に基づく画像位置合わせは特徴抽出アルゴリズムを用いて特徴を抽出し、その後、位置合わせ画像と位置合わせ対象画像間の特徴点のマッピング関係を構築して変換モデルを得ることによって画像位置合わせを完了する。

【0003】

異なるタイプの画像が位置合わせを行う場合、採用されるアルゴリズム、評価標準も異なる。医学分野における様々な機器が日々進歩するに伴い、画像位置合わせは医療用画像処理においてますます重要になっている。異なる時間に撮影された同一患者の画像を位置合わせすることで、患者の器官と病理の動的変化状況をよりよく分析し、より正確な医療診断を行い、より適切な治療計画を策定することができる。画像位置合わせは材料力学分野において機械的特性を研究する方法の１つでもある。異なるセンサにより収集された温度、形状などの情報を融合及び比較して温度場、歪み場などの様々な数値を得る。さらに様々な数値を理論モデルに代入してパラメータの最適化を行う。画像位置合わせはさらに動きオブジェクトの自動追跡、パターン認識及びビデオ分析などにも使用できる。

【0004】

しかしながら、従来の仮想現実メタバースのシーンでは、カメラのクロックが同期しないため、画像に動き前景が存在する場合、画像位置合わせの効率が低く、効果が悪いなどの技術的課題がある。

【発明の概要】

【発明が解決しようとする課題】

【0005】

従来の仮想現実メタバースのシーンでは、カメラのクロックが同期しないため、画像に動き前景が存在する場合、画像位置合わせの効率が低く、効果が悪いなどといった技術的課題を解決しようする。

【課題を解決するための手段】

【0006】

仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法であって、前記パノラマ画像位置合わせ方法は、
Ｓ１、Ｖｉｂｅに基づく背景差分法を用いて２枚の位置合わせ対象画像に対して動きオブジェクト抽出を行い、動きオブジェクトを抽出した画像の前景セットに対して適応歪み画素補正を行い、ＳＵＲＦ特徴抽出アルゴリズムを用いて画像特徴を抽出し、特徴閾値に応じて動きオブジェクトマッチングを完了するステップと、
Ｓ２、スパースオプティカルフロー法を用いてマッチングに成功した動きオブジェクトに対して動き方向及び速度検出を行い、カメラの物理時間に応じて論理時間を計算し、２つのカメラの物理時間の差に応じて動きオブジェクトの速度を算出し、それぞれの動きオブジェクトを補償するステップと、
Ｓ３、高密度畳み込みニューラルネットワークに基づいて第１画像位置合わせモデルを構築し、ＶＧＧ１６ネットワークに基づいて第２画像位置合わせモデルを構築し、オブジェクト抽出に失敗した画像、オブジェクトマッチングに失敗した画像及び双方向補償を行った画像に対して画像位置合わせを行い、画像の双方向補償を行うか否かことに応じて画像を２種類に分けるステップであって、第１画像位置合わせモデルを用いて位置予測に基づく双方向補償後の画像に対して画像位置合わせを行い、第２画像位置合わせモデルを用いて、オブジェクト抽出に失敗した画像及びオブジェクト位置合わせに失敗した画像を含む、双方向補償を行っていない画像に対して画像位置合わせを行うステップと、を含む。

【0007】

さらに、ステップＳ１では、Ｖｉｂｅに基づく背景差分法を用いて２枚の位置合わせ対象画像に対して動きオブジェクト抽出を行い、動きオブジェクトを抽出した画像の前景セットに対して適応歪み画素補正を行うプロセスは、
検出対象画像シーケンスにおける画素値ごとにＮ個のサンプル値を含む１つの背景モデルＭ（ｘ）を構築し、

【数1】

（ｖ_ｉはインデックスがｉの背景サンプルを表し、ｉ＝１，２，…，Ｎである）であるステップと、背景モデルＭ（ｘ）を

【数2】

【数3】

【数4】

であり、
式中、ｆ_ｍａｘ、ｆ_ｍｉｎはそれぞれカメラの焦点距離の最大値と最小値を表し、ｆ_ｃはカメラの実際の焦点距離を表すステップと、を含む。

【0008】

さらに、スパースオプティカルフロー法を用いて前景における動きオブジェクトの速度及び方向を計算し、ｘ、ｙの２つの方向における速度を得て、それぞれｕ、ｖであり、

【数5】

式中、

【数6】

はｉ番目の画素のｘ及びｙ方向における画像勾配を表し、

【数7】

はｉ番目の画素の時間における勾配を表し、
２枚の位置合わせ対象画像Ａと画像Ｂのうち左側画像の前景セットは、

【数8】

で表され、
右側画像の前景セットは、

【数9】

【数10】

であり、
補償後の左側前景セットは、

【数11】

であり、
式中、

【数12】

は画像Ａの補償後の前景セットを構成する画素を表し、ｐ_Ａｉｘは補償前のｘ方向における画素成分を表し、

【数13】

はｘ方向における補償後の画素成分を表し、ｕ_Ａは該画素のｘ方向における速度を表し、ｐ_Ａｉｙは補償前のｙ方向における画素成分を表し、

【数14】

はｙ方向における補償後の画素成分を表し、ｕ_Ｂは該画素のｙ方向における速度を表し、
補償後の右側画像の前景セットは、

【数15】

であり、
式中、

【数16】

は画像Ｂの補償後の前景セットを構成する画素を表し、ｐ_Ｂｉｘは補償前のｘ方向における画素成分を表し、

【数17】

はｘ方向における補償後の画素成分を表し、ｕ_Ｂは該画素のｘ方向における速度を表し、ｐ_Ｂｉｙは補償前のｙ方向における画素成分を表し、

【数18】

はｙ方向における補償後の画素成分を表し、ｖ_Ｂは該画素のｙ方向における速度を表す。

【0009】

さらに、ステップＳ３では、前記第１画像位置合わせモデルは順に接続される３つの高密度ネットワークブロック、１つの畳み込み層及び１つの第１プーリング層からなり、各高密度ネットワークブロックは１つの畳み込み層、１つの第２プーリング層及び１つの高密度ネットワークを順に接続してなり、第１プーリング層の出力は平坦化された後、回帰ネットワークに接続し、回帰ネットワークは５つの完全接続層を順に接続してなり、画像位置合わせの幾何学的変換のパラメータを出力することに用いられる。

【0010】

さらに、ステップＳ３では、前記第２画像位置合わせモデルは順に接続される特徴抽出ネットワーク、特徴マッチングネットワーク及び回帰ネットワークを含み、特徴抽出ネットワークは順に接続される２つの畳み込み層及び１つのプーリング層を含み、位置合わせ対象画像の関連した特徴を抽出して特徴図を生成することに用いられ、特徴抽出ネットワークは２つのマッチングネットワークを含み、２つのマッチングネットワークは重みを共有し、各マッチングネットワークは関連した図を用いて相関性計算を行い、特徴記述子のマッチングを行うことに用いられ、回帰ネットワークにより出力された画像位置合わせの幾何学的変換のパラメータを出力する。

【0011】

さらに、前記仮想現実メタバースのシーンは仮想現実シーンを含む。

【発明の効果】

【0012】

本発明はカメラの非同期と前景の動きオブジェクトによる画像位置合わせ効率の問題に対して補償スキームを提案し、まず、背景差分法を用いて画像に対してオブジェクト抽出を行い、その後、オブジェクトマッチングを行う時に２つのカメラの歪みを考慮して適応歪み補正を行い、最後に、２つの画像における前景に対してそれぞれ補償操作を行う。本発明は高密度畳み込みニューラルネットワークに基づく画像位置合わせアルゴリズムをさらに提案し、変換パラメータをピアツーピアで取得する方法を提供し、最後、画像に対して双方向補償を行うか否かに応じて異なる位置合わせスキームを採用し、アルゴリズム効率を向上させる。

【0013】

１、本発明は同期しないカメラにより撮影された画像に対して、前景に動きオブジェクトが含まれるか否かに応じて異なる位置合わせ方法を採用し、前景に動きオブジェクトが存在する場合、本発明の適応歪み画素補正と位置予測に基づく双方向補償は同期しない時間差内に動きオブジェクトにより引き起こされたずれを効果的に回避でき、位置合わせ結果をより正確にする。

【0014】

２、本発明に係るＤＳＣＮＮに基づく画像位置合わせ方法は位置合わせに必要な変換パラメータをピアツーピアで出力することを実現でき、従来の画像位置合わせアルゴリズムと比較して、計算時間が大幅に短縮され、高い将来性が期待できる。

【図面の簡単な説明】

【0015】

【図1】本発明の仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法の全体フローチャートである。

【図2】オブジェクト抽出のフローチャートである。

【図3】歪みを考慮したオブジェクトマッチングのフローチャートである。

【図4】双方向補償に基づく画像位置合わせのフローチャートである。

【図5】ＤＳＣＮＮ画像位置合わせのフローチャートである。

【図6】ＤＳＣＮＮ画像位置合わせネットワークの構造図である。

【図7】ＶＧＧ－１６に基づく画像位置合わせネットワークの構造図である。

【発明を実施するための形態】

【0016】

以下の実施例は当業者が本発明をより完全に理解することを可能にするが、本発明をいかなる方法でも限定するものではない。

【0017】

本発明は仮想現実メタバース向けの事前双方向補償ベースのパノラマ画像位置合わせ方法を提案し、基本的には、動きオブジェクト抽出と、歪みを考慮した動きオブジェクトマッチングと、位置予測に基づく双方向補償とを含み、異なる前景セットに対して異なる位置合わせ方法を採用し、仮想現実メタバースのシーンは、例えば仮想現実シーン、ＶＲ監視シーンなどを含む。図１に示すように、具体的には、以下のステップ１～４を含む。

【0018】

ステップ１：ＶｉＢｅアルゴリズムを用いて検出対象画像シーケンスにおける画素値ごとにＮ個のサンプル値を含む１つの背景モデルＭ（ｘ）を構築し、ｖ_ｉはインデックスがｉの背景サンプルを表し、

【数19】

であり、
ｖ（ｘ）は位置がｘにある画素の、与えられた色空間における色値を表し、該画素の背景モデルはＭ（ｘ）である。

【0019】

ＶｉＢｅは隣接する画素点の空間分布関係も類似することを仮定する。ＶｉＢｅ背景モデルの初期化は単一のフレーム画像により行われ、該技術は、光源が突然変化した場合、迅速に応答でき、すなわち、元のすべてのサンプル点を破棄し、再初期化を行う。

【数20】

であり、
Ｎ_Ｇ（ｘ）はｘ位置の画素の空間近傍を表し、ｖ_ｙは該空間近傍にある画素点の色値を表す。具体的に実施する際には、背景モデルのサンプル点は近傍画素点からＮ個をランダムに選択して生成される。

【0020】

適応歪み画素補正は主に異なる焦点距離が異なるタイプの歪みにつながることを根拠として行われ、例えば、焦点距離が機器の中間値であると、樽型歪みが生じやすく、焦点距離が長すぎると、樽型歪みと糸巻き歪みの混合歪みが生じやすく、どの歪みもマッチング結果に悪影響を及ぼすため、式

【数21】

を提案して画素を補正する。
式中、（ｘ_ｄ，ｙ_ｄ）は歪みが発生した画素座標を表し、（ｘ_ｃ，ｙ_ｃ）は歪みが発生した中心画素座標を表し、（ｘ_ｕ，ｙ_ｕ）は補正後の画素座標を表し、Ｋ_１とＫ_２はそれぞれ１次と２次放射歪み係数を表す。ｒは歪み後の座標から中心画素座標までの距離を表す。αと１－αはカメラの焦点距離の相対位置を表し、

【数22】

であり、
式中、ｆ_ｍａｘ、ｆ_ｍｉｎはそれぞれカメラの焦点距離の最大値と最小値を表し、ｆ_ｃはカメラの実際の焦点距離を表す。

【0021】

ステップ２：ＬＫオプティカルフロー法を用いてマッチングした前景動きオブジェクトの単位時間あたりの各方向における変位を計算する。

【数23】

である。

【0022】

右辺においてテイラー級数展開を行い、両辺をｄｔで除算して式

【数24】

を得る。

式中、

【数25】

は画像勾配を表し、

【数26】

は時間における勾配を表す。

【0023】

ＬＫオプティカルフローは辺長が３の正方形内の９個の画素点が同じ動きを有することに基づいてそれらのオプティカルフロー方程式を見つけ、９個の等式と２個の未知数からなる連立方程式を構成し、最小二乗フィッティングを用いて解く。解いた結果は、

【数27】

に表される。

【0024】

カメラの内部水晶発振器などの様々な理由により右側画像と左側画像に１つの微小な時間間隔Δｔが存在し、右側画像の実際の物理時間ｔ′と左側画像の時間ｔはｔ′＝ｔ＋Δｔを満たす。ｔ時刻において左側の位置合わせ対象画像から抽出された動きオブジェクトは

【数28】

で表され、同一時刻において右側の位置合わせ対象画像から抽出された動きオブジェクトは、

【数29】

で表され、２つの画像に対して位置補償を行った時間はそれぞれ

【数30】

である。

【0025】

位置補償後の左右両側の位置合わせ対象画像の前景図は、

【数31】

に表される。
式中、

【数32】

はＡの補償後の前景セットを構成する画素を表し、ｐ_Ａｉｘは補償前のｘ方向における画素成分を表し、

【数33】

はｘ方向における補償後の画素成分を表し、ｕ_Ａは該画素のｘ方向における速度を表し、ｐ_Ａｉｙは補償前のｙ方向における画素成分を表し、

【数34】

はｙ方向における補償後の画素成分を表し、ｕ_Ｂは該画素のｙ方向における速度を表し、Δｔは２枚の画像の物理時間の差であり、

【数35】

はＢの補償後の前景セットを構成する画素を表し、ｐ_Ｂｉｘは補償前のｘ方向における画素成分を表し、

【数36】

はｘ方向における補償後の画素成分を表し、ｕ_Ｂは該画素のｘ方向における速度を表し、ｐ_Ｂｉｙは補償前のｙ方向における画素成分を表し、

【数37】

はｙ方向における補償後の画素成分を表し、ｖ_Ｂは該画素のｙ方向における速度を表す。

【0026】

ステップ３：位置合わせ対象画像Ａと位置合わせ対象画像Ｂに対してそれぞれＤＳＣＮＮネットワークによる特徴抽出を行い、２つの特徴抽出ネットワークは重みパラメータを共有し、その後、５つの完全接続層からなる回帰ネットワークで処理を行い、最終的に画像位置合わせの変換パラメータを出力する。

【0027】

画像位置合わせに使用される特徴抽出ネットワークは高密度畳み込みニューラルネットワークに基づくものであり、該ネットワーク構造は３つの高密度ネットワークブロック、１つの畳み込み層、及び１つのプーリング層からなり、高密度ネットワークブロックは１つの畳み込み層、１つのプーリング層及び１つの高密度ネットワークからなり、出力は平坦化された後、回帰ネットワークに接続する。ＣＮＮ畳み込み層の数の増加に伴い、ネットワークの入力情報と勾配情報はネットワークの深さの増加とともに徐々に消失する。ＲｅｓＮｅｔｓとＨｉｇｈｗａｙＮｅｔｗｏｋｓは異なる方法を用いて、ニューラルネットワークの開始値から終了までの経路が短いほど、勾配消失の問題を軽減できることが証明された。ＲｅｓＮｅｔｓは識別子接続によって信号の分流を行い、より良い勾配フローと情報を取得した。ＦｒａｃｔａｌＮｅｔｓはネットワークの短経路を確保し、勾配消失の影響が低下する。従って、本発明は高密度ネットワークブロックを特徴抽出ネットワークに導入し、高密度ネットワークに基づく特徴抽出ネットワークを提案し、より完全な特徴情報を抽出することを確保するだけでなく、勾配消失の問題を防止し、図６に示される。図における高密度ネットワークブロックの各層は直接接続されていることで、各層のネットワーク間の情報フローの最大化を確保する。高密度ネットワークブロックにおける各層の入力はいずれもその前のすべての層の出力であることで、ネットワークのフィードフォワード特性を確保し、本層の特徴マッピングも入力として次の層に伝送される。本発明において、ＤＳＣＮＮの回帰ネットワークは５つの完全接続層からなる。完全接続層は特徴間の非線形関係及び高度推論を見つけることに用いられる。最後に、２つの画像を位置合わせすることができる変換パラメータを出力する。

【0028】

ステップ４：動きオブジェクトを抽出していない画像と動きオブジェクトマッチングに失敗した画像に対してＶＧＧ１６に基づく画像位置合わせを行う。その理由として、本発明に係る双方向補償に基づく画像位置合わせアルゴリズムのコア思想は異なる前景の画像に対して異なる位置合わせアルゴリズムを採用して高い位置合わせ精度を図ることであり、図１に示される。動き前景の検出及びマッチングに成功した画像に対してＤＳＣＮＮに基づく画像位置合わせを行い、オブジェクトがないと検出したか又はマッチングに失敗した場合、双方向補償操作を行うことなく、ＶＧＧ１６に基づく画像位置合わせを直接行い、それによってアルゴリズム全体の時間複雑度が低下する。

【0029】

ＶＧＧ１６に基づく画像位置合わせアルゴリズムは主に特徴抽出ネットワーク、特徴マッチングネットワーク及び回帰ネットワークの３つの部分を含み、特徴抽出ネットワーク部分は改良されたＶＧＧ－１６を採用し、２つのマッチングネットワークは重みを共有し、マッチングネットワークは特徴記述子のマッチングを行うことに用いられ、回帰ネットワークにより出力された幾何学的変換のパラメータを出力する。特徴抽出ネットワークは標準的な畳み込みニューラルネットワークアーキテクチャを採用し、位置合わせ対象画像を完全接続層なしの畳み込みニューラルネットワークに入力し、特徴図を生成する。畳み込みニューラルネットワークはＶＧＧ－１６ネットワークの一部を切り取り、そのネットワーク構造は図７に示される。

【0030】

古典的な画像位置合わせ幾何推定は元の記述子を破棄し、記述子ペア間の類似度に注目しており、その理由として、記述子ペアの類似度と空間的位置には幾何推定に必要な必要情報が含まれており、類似値を閾値化することで最も類似する近傍のマッチングのみを保持して記述子ペアを構築する。本発明のマッチングネットワークもこの思想を利用し、相関層を採用し、元の記述子を考慮せず、記述子ペア間の空間的位置と類似度のみを考慮する。本発明のマッチングネットワークは相関層と正規化層の構造を採用する。相関層はすべての特徴記述子の類似性を計算し、正規化層は類似度スコアを処理及び正規化してファジィマッチングを除去することに用いられる。

【0031】

なお、以上の実施例の説明は単に本願の方法及びそのコア思想を理解するためのものであり、当業者であれば、本願の原理を逸脱せずに本願に対して種々の改良及び修飾を行うことができ、これらの改良及び修飾も本願の特許請求の範囲の保護範囲に含まれる。

【図1】