IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 凸版印刷株式会社の特許一覧

特開2024-10527特徴マップ生成装置、特徴マップ生成方法、及びプログラム
<>
  • 特開-特徴マップ生成装置、特徴マップ生成方法、及びプログラム 図1
  • 特開-特徴マップ生成装置、特徴マップ生成方法、及びプログラム 図2
  • 特開-特徴マップ生成装置、特徴マップ生成方法、及びプログラム 図3
  • 特開-特徴マップ生成装置、特徴マップ生成方法、及びプログラム 図4
  • 特開-特徴マップ生成装置、特徴マップ生成方法、及びプログラム 図5
  • 特開-特徴マップ生成装置、特徴マップ生成方法、及びプログラム 図6
  • 特開-特徴マップ生成装置、特徴マップ生成方法、及びプログラム 図7A
  • 特開-特徴マップ生成装置、特徴マップ生成方法、及びプログラム 図7B
  • 特開-特徴マップ生成装置、特徴マップ生成方法、及びプログラム 図8
  • 特開-特徴マップ生成装置、特徴マップ生成方法、及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024010527
(43)【公開日】2024-01-24
(54)【発明の名称】特徴マップ生成装置、特徴マップ生成方法、及びプログラム
(51)【国際特許分類】
   G06V 10/44 20220101AFI20240117BHJP
【FI】
G06V10/44
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022111908
(22)【出願日】2022-07-12
(71)【出願人】
【識別番号】000003193
【氏名又は名称】TOPPANホールディングス株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100139686
【弁理士】
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100169764
【弁理士】
【氏名又は名称】清水 雄一郎
(74)【代理人】
【識別番号】100147267
【弁理士】
【氏名又は名称】大槻 真紀子
(72)【発明者】
【氏名】酒井 修二
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA05
5L096GA55
(57)【要約】      (修正有)
【課題】高精度な三次元復元が可能な特徴マップを生成する特徴マップ生成装置を提供する。
【解決手段】特徴マップ生成装置1は、多視点画像に含まれる第1対象視点画像に対して、三次元座標、法線方向及び第1対象視点画像に対応する第1カメラパラメータを用いて、カーネルにおける特定の座標が、第1対象視点画像における対応点の座標に変換されるように、第1対象視点画像に対応する第1変形方法を決定するカーネル変形方法決定部100と、基準となる基準カーネルを、第1変形方法を用いて変形することによって、第1対象視点画像に対する第1変形後カーネルを生成するカーネル変形部101と、第1変形後カーネルを用いて第1対象視点画像に対する畳込演算を行うことによって第1対象視点画像における特徴量を抽出し、抽出した特徴量を用いて第1対象視点画像に対応する第1特徴マップを生成する畳込演算部102と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
対象物体が互いに異なる複数の視点から撮像された2以上の多視点画像における特徴マップを生成する特徴マップ生成装置であって、
前記多視点画像に含まれる第1対象視点画像に対して、三次元座標、法線方向及び前記第1対象視点画像に対応するカメラパラメータである第1カメラパラメータを用いて、カーネルにおける特定の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1対象視点画像に対応するカーネルの変形方法である第1変形方法を決定するカーネル変形方法決定部と、
基準となる基準カーネルを、前記第1変形方法を用いて変形することによって、前記第1対象視点画像に対する畳込演算に用いるカーネルである第1変形後カーネルを生成するカーネル変形部と、
前記第1変形後カーネルを用いて前記第1対象視点画像に対する畳込演算を行うことによって前記第1対象視点画像における特徴量を抽出し、抽出した特徴量を用いて前記第1対象視点画像に対応する第1特徴マップを生成する畳込演算部と、
を備える特徴マップ生成装置。
【請求項2】
前記カーネル変形方法決定部は、前記多視点画像に含まれる第2対象視点画像であって、前記第1対象視点画像とは異なる第2対象視点画像に対応するカメラパラメータである第2カメラパラメータを取得し、前記三次元座標、前記法線方向、前記第1カメラパラメータ及び前記第2カメラパラメータを用いて、前記第2対象視点画像における対応点の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1変形方法を決定する、
請求項1に記載の特徴マップ生成装置。
【請求項3】
前記カーネル変形方法決定部は、三次元座標、法線方向及びカメラパラメータの組合せ毎にカーネルの変形方法を決定し、
前記カーネル変形部は、共通する同一の前記基準カーネルを、前記組合せの各々に対して決定された変形方法を用いて変形することによって、前記組合せの各々に対応する前記第1変形後カーネルを生成する、
請求項1に記載の特徴マップ生成装置。
【請求項4】
前記カーネル変形方法決定部は、前記第1対象視点画像のピクセル毎に設定した三次元座標又は法線方向の少なくとも一方を用いて、前記第1対象視点画像のピクセル毎に前記第1変形方法を決定し、
前記カーネル変形部は、前記基準カーネルを、前記第1対象視点画像のピクセル毎に、前記第1対象視点画像のピクセル毎に決定された前記第1変形方法を用いて変形することによって、前記第1対象視点画像のピクセルの各々に対応する前記第1変形後カーネルを生成し、
前記畳込演算部は、前記第1対象視点画像のピクセル毎に生成された前記第1変形後カーネルを用いて、前記第1対象視点画像における各ピクセルにおける畳込演算を行うことによって、前記第1特徴マップを生成する、
請求項1に記載の特徴マップ生成装置。
【請求項5】
前記カーネル変形部は、前記基準カーネルを、前記第1変形方法を用いて変形したカーネルを第1仮変形後カーネルとし、前記第1仮変形後カーネルに対して正方格子で配置された座標を用いた補間処理を行うことにより、前記第1変形後カーネルを生成する、
請求項1に記載の特徴マップ生成装置。
【請求項6】
前記カーネル変形方法決定部は、互いに異なる複数の法線方向の各々に対応する前記第1変形方法を決定し、
前記カーネル変形部は、前記基準カーネルを、前記法線方向の各々に対して決定された前記第1変形方法を用いて変形することによって、前記法線方向の各々に対応する前記第1変形後カーネルを生成し、
前記畳込演算部は、前記法線方向の各々に対して生成された前記第1変形後カーネルを用いて、前記第1対象視点画像に対する畳込演算を行うことによって、前記法線方向の各々に対応する前記第1特徴マップを生成する、
請求項1に記載の特徴マップ生成装置。
【請求項7】
複数の前記特徴マップにおける対応点からコスト値を計算するコスト値計算部を更に備え、
前記コスト値計算部は、
前記法線方向の各々に対応する前記第1特徴マップにおける対応点のそれぞれの特徴量から算出される、前記対応点の特徴量が類似する度合に基づく仮コスト値を計算し、
前記法線方向の各々に対応して計算された前記仮コスト値のうち、前記対応点の特徴量が類似する前記仮コスト値を、前記コスト値とする、
請求項6に記載の特徴マップ生成装置。
【請求項8】
対象物体が互いに異なる複数の視点から撮像された2以上の多視点画像における特徴マップを生成する特徴マップ生成装置が行う特徴マップ生成方法であって、
カーネル変形方法決定部が、前記多視点画像に含まれる第1対象視点画像に対して、三次元座標、法線方向及び前記第1対象視点画像に対応するカメラパラメータである第1カメラパラメータを用いて、カーネルにおける特定の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1対象視点画像に対応するカーネルの変形方法である第1変形方法を決定し、
カーネル変形部が、基準となる基準カーネルを、前記第1変形方法を用いて変形することによって、前記第1対象視点画像に対する畳込演算に用いるカーネルである第1変形後カーネルを生成し、
畳込演算部が、前記第1変形後カーネルを用いて前記第1対象視点画像に対する畳込演算を行うことによって前記第1対象視点画像における特徴量を抽出し、抽出した特徴量を用いて前記第1対象視点画像に対応する第1特徴マップを生成する、
特徴マップ生成方法。
【請求項9】
対象物体が互いに異なる複数の視点から撮像された2以上の多視点画像における特徴マップを生成する特徴マップ生成装置に、特徴マップを生成させるプログラムであって、
前記多視点画像に含まれる第1対象視点画像に対して、三次元座標、法線方向及び前記第1対象視点画像に対応するカメラパラメータである第1カメラパラメータを用いて、カーネルにおける特定の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1対象視点画像に対応するカーネルの変形方法である第1変形方法を決定させ、
基準となる基準カーネルを、前記第1変形方法を用いて変形することによって、前記第1対象視点画像に対する畳込演算に用いるカーネルである第1変形後カーネルを生成させ、
前記第1変形後カーネルを用いて前記第1対象視点画像に対する畳込演算を行うことによって前記第1対象視点画像における特徴量を抽出し、抽出した特徴量を用いて前記第1対象視点画像に対応する第1特徴マップを生成させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特徴マップ生成装置、特徴マップ生成方法、及びプログラムに関する。
【背景技術】
【0002】
対象物体が異なる視点から撮像された複数の視点画像(以下、「多視点画像」と称する場合がある)に基づき、対象物体の三次元形状モデルを生成する多視点ステレオ技術がある。多視点ステレオ技術は、コンピュータビジョンの研究コミュニティだけでなく、文化財のデジタルアーカイブやエンターテイメント産業など、幅広い分野で注目されている。
【0003】
例えば、非特許文献1には、深層学習に基づく多視点ステレオ技術が開示されている。深層学習に基づく多視点ステレオでは、特性の異なる様々な対象物体が撮影された多視点画像を含む多視点画像データセットを用いて深層学習ネットワークを学習させた学習済ネットワークを生成し、生成した学習済みネットワークを用いて新たな多視点画像から対象の三次元形状を復元する。このとき、学習用のデータセットに、多視点ステレオにて復元が難しいとされる、低テクスチャを有する対象物体や反射が強い対象物体の多視点画像を含めることによって、低テクスチャ領域や反射に対して高いロバスト性を発揮する学習済ネットワークを構築することが可能となる。
【0004】
図9に示すように、一般に、深層学習に基づく多視点ステレオ技術に用いられる学習済ネットワークNWは、特徴マップ生成ネットワークNW1、コストボリューム構築ネットワークNW2、コストボリューム正則化ネットワークNW3、及びデプスマップ生成ネットワークNW4の4つのネットワークの組み合わせにより構築される。
【0005】
ここでの学習済ネットワークNWの入力は、参照視点画像及び近傍視点画像群からなる多視点画像群と、各多視点画像におけるそれぞれのカメラパラメータである。学習済ネットワークNWの出力は、参照視点画像におけるデプスマップである。
【0006】
特徴マップ生成ネットワークNW1では、入力される多視点画像における画素ごとの特徴量を示す特徴マップが生成される。特徴マップを生成する過程においては、多視点画像に畳込演算を行うことによって画素ごとの特徴量が抽出される。このとき、多視点画像間の対応点では、特徴マップにおける特徴量が近い値となることが期待される。
【0007】
コストボリューム構築ネットワークNW2では、多視点画像における各画像の特徴マップを用いて、離散的な奥行きを有する平面であって、参照視点画像に正対した複数の平面からなるコストボリュームが構築される。例えば、コストボリュームは、ボクセルで表現され、ボクセルの各値は、多視点の特徴マップの対応点における特徴量間の分散や相関である。
【0008】
コストボリューム正則化ネットワークNW3では、三次元畳み込み層を通して、コストボリュームが正則化される。デプスマップ生成ネットワークNW4では、参照視点画像の各ピクセルについて、参照視点画像におけるコストボリュームに対応する奥行きの中から最適なコストの奥行きが選択されることによってデプスマップが生成される。例えば、特徴量間の分散に基づくコストを使用する場合、コスト、つまり分散が最小となる奥行きが最適なコストの奥行きとなる。一方、特徴量間の相関に基づくコストを使用する場合、コスト、つまり相関が最大となる奥行きが最適なコストの奥行きとなる。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】Yao Yao, Zixin Luo, Shiwei Li, Tian Fang,and Long Quan、” MVSNet: Depth Inference for Unstructured Multi-view Stereo”, European Conference Computer Vision(ECCV) (2018).
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、深層学習に基づく多視点ステレオ技術を用いて、特徴マップを生成する場合、多視点画像間における画像変形の影響を強く受ける。これは、特徴マップを生成する過程において畳込演算が実行されるためである。畳込演算では、多視点画像における対象画素の画素値と、その周囲にある画素の画素値のそれぞれに、畳み込み係数を乗算した値を合成することによって演算が行われる。このため、画像に平行移動が生じた場合、対象画素とその周囲にある画素の組合せが、平行移動する前と変化しないことから、各画素における畳込演算の演算結果は変わらない。一方、画像に回転、拡大縮小、射影変換などの平行移動以外の画像変形が生じた場合、対象画素及びその周囲にある画素の組合せが、変形前とは異なる組合せとなることから各画素における畳込演算の演算結果が変化する。
【0011】
多視点画像は、同じ対象物体が互いに異なる複数の視点から撮像された画像である。このため、多視点画像間には、多視点画像における各視点の位置や姿勢、および、対象の形状に依存した、複雑な画像変形が生じる。基線長が短い平行ステレオの場合、視点間の画像変形が比較的小さいため、視点が変わっても、特徴マップ生成で計算される特徴マップの対応点の特徴量は大きく変化しない。しかし、基線長が長いステレオペアや、視点間に回転が生じると、画像間の変形が平行移動のみで近似することができなくなるため、生成される特徴マップの対応点の特徴量が、視点ごとに変化する。
【0012】
一方、深層学習に基づく多視点ステレオでは、参照視点画像における各ピクセルについて、真の奥行きが仮定された場合に、多視点画像間における対応点の特徴量が近くなることを想定している。そのため、参照視点画像に対して、基線長が長い近傍視点画像や、視点間に回転が存在する近傍視点画像のように、参照視点画像に対して画像変形が大きい近傍視点画像が含まれる場合、三次元復元精度が著しく低下する。したがって、画像間における画像変形が大きい多視点画像を用いた場合、高精度な三次元復元が可能な特徴マップを生成することが困難であった。
【0013】
本発明は、上記の課題に基づいてなされたものであり、画像変形が大きい多視点画像を用いた場合であっても、高精度な三次元復元が可能な特徴マップを生成することができる特徴マップ生成装置、特徴マップ生成方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0014】
本発明の特徴マップ生成装置は、対象物体が互いに異なる複数の視点から撮像された2以上の多視点画像における特徴マップを生成する特徴マップ生成装置であって、前記多視点画像に含まれる第1対象視点画像に対して、三次元座標、法線方向及び前記第1対象視点画像に対応するカメラパラメータである第1カメラパラメータを用いて、カーネルにおける特定の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1対象視点画像に対応するカーネルの変形方法である第1変形方法を決定するカーネル変形方法決定部と、基準となる基準カーネルを、前記第1変形方法を用いて変形することによって、前記第1対象視点画像に対する畳込演算に用いるカーネルである第1変形後カーネルを生成するカーネル変形部と、前記第1変形後カーネルを用いて前記第1対象視点画像に対する畳込演算を行うことによって前記第1対象視点画像における特徴量を抽出し、抽出した特徴量を用いて前記第1対象視点画像に対応する第1特徴マップを生成する畳込演算部と、を備える。
【0015】
本発明の特徴マップ生成装置では、前記カーネル変形方法決定部は、前記多視点画像に含まれる第2対象視点画像であって、前記第1対象視点画像とは異なる第2対象視点画像に対応するカメラパラメータである第2カメラパラメータを取得し、前記三次元座標、前記法線方向、前記第1カメラパラメータ及び前記第2カメラパラメータを用いて、前記第2対象視点画像における対応点の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1変形方法を決定する。
【0016】
本発明の特徴マップ生成装置では、前記カーネル変形方法決定部は、三次元座標、法線方向及びカメラパラメータの組合せ毎にカーネルの変形方法を決定し、前記カーネル変形部は、共通する同一の前記基準カーネルを、前記組合せの各々に対して決定された変形方法を用いて変形することによって、前記組合せの各々に対応する前記第1変形後カーネルを生成する。
【0017】
本発明の特徴マップ生成装置では、前記カーネル変形方法決定部は、前記第1対象視点画像のピクセル毎に設定した三次元座標又は法線方向の少なくとも一方を用いて、前記第1対象視点画像のピクセル毎に前記第1変形方法を決定し、前記カーネル変形部は、前記基準カーネルを、前記第1対象視点画像のピクセル毎に、前記第1対象視点画像のピクセル毎に決定された前記第1変形方法を用いて変形することによって、前記第1対象視点画像のピクセルの各々に対応する前記第1変形後カーネルを生成し、前記畳込演算部は、前記第1対象視点画像のピクセル毎に生成された前記第1変形後カーネルを用いて、前記第1対象視点画像における各ピクセルにおける畳込演算を行うことによって、前記第1特徴マップを生成する。
【0018】
本発明の特徴マップ生成装置では、前記カーネル変形部は、前記基準カーネルを、前記第1変形方法を用いて変形したカーネルを第1仮変形後カーネルとし、前記第1仮変形後カーネルに対して正方格子で配置された座標を用いた補間処理を行うことにより、前記第1変形後カーネルを生成する。
【0019】
本発明の特徴マップ生成装置では、前記カーネル変形方法決定部は、互いに異なる複数の法線方向の各々に対応する前記第1変形方法を決定し、前記カーネル変形部は、前記基準カーネルを、前記法線方向の各々に対して決定された前記第1変形方法を用いて変形することによって、前記法線方向の各々に対応する前記第1変形後カーネルを生成し、前記畳込演算部は、前記法線方向の各々に対して生成された前記第1変形後カーネルを用いて、前記第1対象視点画像に対する畳込演算を行うことによって、前記法線方向の各々に対応する前記第1特徴マップを生成する。
【0020】
本発明の特徴マップ生成装置では、複数の前記特徴マップにおける対応点からコスト値を計算するコスト値計算部を更に備え、前記コスト値計算部は、前記法線方向の各々に対応する前記第1特徴マップにおける対応点のそれぞれの特徴量から算出される、前記対応点の特徴量が類似する度合に基づく仮コスト値を計算し、前記法線方向の各々に対応して計算された前記仮コスト値のうち、前記対応点の特徴量が類似する前記仮コスト値を、前記コスト値とする。
【0021】
本発明の特徴マップ生成方法は、対象物体が互いに異なる複数の視点から撮像された2以上の多視点画像における特徴マップを生成する特徴マップ生成装置が行う特徴マップ生成方法であって、カーネル変形方法決定部が、前記多視点画像に含まれる第1対象視点画像に対して、三次元座標、法線方向及び前記第1対象視点画像に対応するカメラパラメータである第1カメラパラメータを用いて、カーネルにおける特定の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1対象視点画像に対応するカーネルの変形方法である第1変形方法を決定し、カーネル変形部が、基準となる基準カーネルを、前記第1変形方法を用いて変形することによって、前記第1対象視点画像に対する畳込演算に用いるカーネルである第1変形後カーネルを生成し、畳込演算部が、前記第1変形後カーネルを用いて前記第1対象視点画像に対する畳込演算を行うことによって前記第1対象視点画像における特徴量を抽出し、抽出した特徴量を用いて前記第1対象視点画像に対応する第1特徴マップを生成する。
【0022】
本発明のプログラムは、対象物体が互いに異なる複数の視点から撮像された2以上の多視点画像における特徴マップを生成する特徴マップ生成装置に、特徴マップを生成させるプログラムであって、前記多視点画像に含まれる第1対象視点画像に対して、三次元座標、法線方向及び前記第1対象視点画像に対応するカメラパラメータである第1カメラパラメータを用いて、カーネルにおける特定の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1対象視点画像に対応するカーネルの変形方法である第1変形方法を決定させ、基準となる基準カーネルを、前記第1変形方法を用いて変形することによって、前記第1対象視点画像に対する畳込演算に用いるカーネルである第1変形後カーネルを生成させ、前記第1変形後カーネルを用いて前記第1対象視点画像に対する畳込演算を行うことによって前記第1対象視点画像における特徴量を抽出し、抽出した特徴量を用いて前記第1対象視点画像に対応する第1特徴マップを生成させる、プログラムである。
【発明の効果】
【0023】
本発明によれば、画像間における画像変形が大きい多視点画像を用いた場合であっても、高精度な三次元復元が可能な特徴マップを生成することができる。
【図面の簡単な説明】
【0024】
図1】実施形態の特徴マップ生成装置1の構成を示すブロック図である。
図2】実施形態の特徴マップ生成装置1が行う処理を説明するための図である。
図3】実施形態の特徴マップ生成装置1が行う処理を説明するための図である。
図4】実施形態の特徴マップ生成装置1が行う処理を説明するための図である。
図5】実施形態の特徴マップ生成装置1を用いてデプスマップを生成する処理を説明する図である。
図6】実施形態の特徴マップ生成装置1が行う処理の流れを示すフローチャートである。
図7A】実施形態の効果を説明するための図である。
図7B】実施形態の効果を説明するための図である。
図8】実施形態の効果を説明するための図である。
図9】従来例を説明するための図である。
【発明を実施するための形態】
【0025】
以下、実施形態の特徴マップ生成装置1を、図面を参照しながら説明する。
【0026】
図1は、本実施形態に係る特徴マップ生成装置1の構成の一例を示すブロック図である。図1に示すように、特徴マップ生成装置1は、例えば、カーネル変形方法決定部100、カーネル変形部101、畳込演算部102、コスト値計算部103、コストボリューム正則化部104、デプスマップ生成部105、三次元点群生成部106、多視点画像記憶部107、特徴マップ記憶部108、三次元情報記憶部109、基準カーネル記憶部110、変形後カーネル記憶部111、コストボリューム記憶部112、デプスマップ記憶部113、及び三次元点群記憶部114を備える。
【0027】
カーネル変形方法決定部100は、カーネルを変形させる変形方法を決定する。ここでのカーネルは、二次元画像座標に畳み込み係数を対応させた配列である(例えば、(5)式を参照)。カーネルは、画像における各画素と畳込演算を行う際に用いられる。
【0028】
ここで、図2図3を用いて、カーネル変形方法決定部100がカーネルの変形方法を決定する処理ついて説明する。図2及び図3は、実施形態の特徴マップ生成装置1が行う処理を説明するための図である。
【0029】
図2には、対象物体(Target Object)が、互いに異なる視点(View1~View3)から撮像される例が模式的に示されている。視点View1におけるカメラパラメータを{K、R、t}とする。視点View2のカメラパラメータを{K、R、t}とする。視点View3のカメラパラメータを{K、R、t}とする。なお、Kはカメラパラメータにおける内部パラメータを表す。Rはカメラパラメータにおける回転行列を表す。tはカメラパラメータにおける並進ベクトルを表す。
【0030】
また、対象物体において、対象物体の表面にある三次元座標Mと法線方向nの組{M、n}を定義することができる。
【0031】
図2に示すように、多視点画像におけるカメラの撮像位置及び姿勢により、対象物体の見え方が変わる。例えば、視点View1にて対象物体を撮像した場合、対象物体を正面からみた画像が撮像される。視点View2にて対象物体を撮像した場合、視点View1に対し、上下左右が逆であり、且つ拡大された画像が撮像される。視点View3にて対象物体を撮像した場合、対象物体を斜めの方向から見た画像が撮像される。
【0032】
このように、同じ対象物体を異なる視点から撮像した多視点画像において、画像間に回転、拡大縮小、射影変換などの平行移動以外の画像変形が生じることが多い。画像間に平行移動以外の画像変形が生じた場合、一般的な畳込演算を用いて各画像から抽出した畳込演算の演算結果(特徴量)が、各画像の対応点においてが異なる値となるため、三次元復元精度が著しく低下する。
【0033】
これに対し、本実施形態では、画像変形に応じて、畳込演算に用いるカーネルを変形させ、変形させた後のカーネル(後述する変形後カーネル)を用いて、その画像について畳込演算を行うようにした。こうすることによって、画像間における画像変形画大きい場合であっても各画像から抽出した畳込演算の演算結果(特徴量)が、各画像の対応点において同じような値になるようにすることができ、三次元復元精度が低下してしまうことを抑制することが可能となる。
【0034】
カーネル変形方法決定部100は、画像変形に応じてカーネルを変形させる方法を決定する。具体的には、カーネル変形方法決定部100は、画像における視点と、対象物体の表面にある三次元座標M及びその法線方向nの組{M、n}の関係に応じて、畳込演算に用いるカーネルを変形させる方法を決定する。以下では、カーネル変形方法決定部100が、畳込演算に用いるカーネルを変形させる方法を決定する処理について説明する。
【0035】
図3には、カーネルを変形させた例が模式的に示されている。カーネル変形方法決定部100は、基準カーネル(Common Kernel)において、例えば正方格子などを用いて設定された二次元座標が、各画像における対応点の二次元座標となるように、基準カーネルを変形させる変形方法を決定する。
【0036】
例えば、カーネル変形方法決定部100は、基準カーネルにおける二次元座標P00、P10、P20、P30のそれぞれが、視点View1における対応点、例えば、対象物体の右目、左目、右側の口角、左側の口角のそれぞれの位置に対応する二次元座標P01、P11、P21、P31に変換されるように、視点View1に対応する変形方法を決定する。
【0037】
カーネル変形方法決定部100は、基準カーネルにおける二次元座標P00、P10、P20、P30のそれぞれが、視点View2における対応点のそれぞれの二次元座標P02、P12、P22、P32に変換されるように、視点View2に対応する変形方法を決定する。
【0038】
カーネル変形方法決定部100は、基準カーネルにおける二次元座標P00、P10、P20、P30のそれぞれが、視点View3における対応点のそれぞれの二次元座標P03、P13、P23、P33に変換されるように、視点View3に対応する変形方法を決定する。
【0039】
また、カーネル変形方法決定部100は、2つの画像間の画像変形に応じて、変形方法を決定するようにしてもよい。
【0040】
例えば、カーネル変形方法決定部100は、視点View1における座標が、視点View2における対応点がある座標に変換されるように、変形方法を決定する。具体的には、カーネル変形方法決定部100は、視点View1における二次元座標P01、P11、P21、P31が、視点View2における対応点、つまり二次元座標P02、P12、P22、P32に変換されるように、視点View2に対応する変形方法を決定する。カーネル変形方法決定部100は、視点View1における二次元座標P01、P11、P21、P31が、視点View3における対応点、つまり二次元座標P03、P13、P23、P33に変換されるように、視点View3に対応する変形方法を決定する。
【0041】
図1に戻り、カーネル変形方法決定部100は、多視点画像記憶部107から、多視点画像における各視点に対応するカメラパラメータを取得する。カーネル変形方法決定部100は、三次元情報記憶部109から三次元点の座標(位置座標)と法線方向を取得する。カーネル変形方法決定部100は、各視点に対応するカメラパラメータと三次元点の座標と法線方向とから、畳込演算を行う対象視点におけるカーネルの変形方法を決定する。
【0042】
カーネルの変形方法として、例えば、射影変換を用いる場合、カーネル変形方法決定部100は、射影変換行列Hを算出する。射影変換行列Hは(1)式を用いて計算することができる。
【0043】
【数1】
【0044】
ここで、(1)式における三次元点の座標Mと法線方向nは、参照視点画像におけるカメラ座標系で与えられる。(1)式に示す射影変換行列Hは、三次元点の座標Mと法線方向nで定義される三次元平面を介して、参照視点画像における二次元画像座標を、対象視点画像における二次元画像座標に変換する座標変換行列に相当する。対象視点画像は、畳込演算を行う対象となる多視点画像である。
【0045】
このようにして決定されたカーネル変形方法で変形されたカーネルを用いた畳込演算を行うことにより、三次元点の座標と法線方向が実際の対象表面における三次元座標と法線方向と近い場合に、多視点画像間の画像変形による特徴量の変化が軽減され、画像変形が大きい多視点画像でも各視点の対応点において近い特徴量を抽出することができる。
【0046】
カーネル変形方法決定部100は、例えば、参照視点画像のカメラパラメータと、対象視点画像のカメラパラメータとの二つの視点におけるカメラパラメータを用いてカーネル変形方法を決定する。或いは、カーネル変形方法決定部100は、対象視点画像のカメラパラメータのみ、つまりひとつの視点におけるカメラパラメータを用いてカーネル変形方法を決定しても良い。
【0047】
対象視点画像におけるひとつの視点のカメラパラメータのみを用いる場合、カーネル変形方法決定部100は、対象視点画像におけるカメラ座標系で与えられた三次元点の座標と法線方向を用いる。
【0048】
一視点のカメラパラメータのみを用いる場合、例えば、カーネル変形方法決定部100は、対象視点に設けられるカメラに正対した平面を、与えられた法線方向に回転させる射影変換行列を、カーネル変形方法として決定する。一視点のカメラパラメータのみを用いる場合、多視点画像における各視点画像を用いて、それぞれ独立に、つまり参照視点画像とは無関係に、特徴量を抽出する処理を行うことができるという利点がある。
【0049】
一方、参照視点画像のカメラパラメータと、対象視点画像のカメラパラメータとの二視点のカメラパラメータを用いる場合、複数の視点での整合性がとれた特徴量を抽出することができるという利点がある。
【0050】
カーネル変形方法決定部100は、例えば、一組の参照視点画像のカメラパラメータと対象視点画像のカメラパラメータに対して、一組の三次元点の座標と法線方向を三次元情報記憶部109から読み込んで、ひとつの射影変換行列を決定する。
【0051】
或いは、カーネル変形方法決定部100は、対象視点画像におけるピクセルごとに異なる三次元点の座標と法線方向を三次元情報記憶部109から読み込んで、対象視点画像におけるピクセルごとに異なる射影変換行列を決定しても良い。
【0052】
一般に、対象物体の対象表面における三次元座標と法線方向は、対象視点画像におけるピクセルごとに異なる。そのため、ピクセルごとに異なる三次元点の座標と法線方向を用いて、ピクセルごとに異なる射影変換行列を決定した方が、最終的な三次元復元誤差は小さくなる可能性が高い。一方で、ピクセルごとに異なる変形方法でカーネルを変形する場合、計算コストが大きくなる。このため、視点ごとにひとつの変形方法を用いたほうが処理時間を短くすることができる。
【0053】
カーネル変形方法決定部100は、例えば、一組の参照視点画像のカメラパラメータ、対象視点画像のカメラパラメータ、および三次元点の座標に対して、ひとつの法線方向を三次元情報記憶部109から読み込んで、ひとつの射影変換行列を決定する。
【0054】
或いは、カーネル変形方法決定部100は、一組の参照視点画像のカメラパラメータ、対象視点画像のカメラパラメータ、および三次元点の座標に対して、二つ以上からなる複数の法線方向を三次元情報記憶部109から読み込んで、それぞれの法線方向に対応して複数の射影変換行列を決定しても良い。
【0055】
一般に、考慮する法線方向の数が多いほど、後述する畳込演算部102で演算される特徴量からなる特徴マップについて、複数の法線方向の各々に対応する特徴マップの中に多視点の特徴マップと整合性がとれる特徴マップが含まれる可能性が高くなる。一方、考慮する法線方向の数が少ないほど、計算コストが小さくなるという利点がある。
【0056】
カーネル変形部101は、変形後カーネルを生成する。カーネル変形部101は、例えば、基準カーネル記憶部110から基準カーネルを読み込むことによって基準カーネルを取得する。カーネル変形部101は、カーネル変形方法決定部100により決定されたカーネル変形方法に従い、基準カーネルを変形させることによって変形後カーネルを生成する。カーネル変形部101は、生成した変形後カーネルを変形後カーネル記憶部111に書き込む。
【0057】
例えば、カーネル変形方法が射影変換行列Hで表現される射影変換であった場合、カーネル変形部101は、(2)式を用いて基準カーネルを変形することによって変形後カーネルを生成する。
【0058】
【数2】
【0059】
カーネル変形部101は、異なる複数のカーネル変形方法が与えられた際に、同一の基準カーネルをそれぞれ異なるカーネル変形方法で変形させ、それぞれ異なる複数の変形後カーネルを生成するようにしても良い。
【0060】
つまり、カーネル変形部101は、対象視点画像、三次元点の座標、及び法線方向の組合せに応じて、同じ基準カーネルに対して異なる変形後カーネルを生成する。また、カーネル変形部101は、異なる対象視点画像、異なる三次元点の座標、及び異なる法線方向に対して、共通する同じ基準カーネルを用いて、それぞれの対象視点画像、三次元点の座標、及び法線方向に合わせた変形後カーネルを生成する。
【0061】
基準カーネルが正方格子で配置された整数の二次元画像座標を持つ場合でも、変形方法によっては、変形後カーネルの二次元画像座標が実数を持つ可能性がある。これに対して、カーネル変形部101は、変形後カーネルが実数の座標を持つ場合、その実数の座標を持つ変形後カーネルに対して、正方格子で配置された整数の二次元画像座標で補間処理を行うことにより整数の二次元画像座標をもつ変形後カーネルを生成しても良い。ここで、実数の二次元画像座標を持つ変形後カーネルは、「仮変形後カーネル」の一例である。補間方法としては、例えば、双線形補間を用いることができる。
【0062】
ここで、図4を用いて、カーネル変形部101が整数の二次元画像座標をもつ変形後カーネルを生成する例について説明する。図4は、実施形態の特徴マップ生成装置1が行う処理を説明するための図である。
【0063】
図4における各視点(View1~View3)の左から2番目には、各視点に対応させた変形後カーネルを、5×5の正方格子の上にマッピングさせた例が模式的に示されている。この図の例に示すように、変形後カーネルの二次元画像座標が実数を持つ場合、正方格子上の任意の点に変形後カーネルの二次元画像座標がマッピングされる。
【0064】
図4における各視点(View1~View3)の左から3番目には、実数の座標を持つ変形後カーネルに双線形補間(Bilinear Interpolation)による補間処理を行うことにより、整数の二次元画像座標をもつ変形後カーネルを生成した例が模式的に示されている。
【0065】
これにより、変形後カーネルが一般的な畳込演算で用いられるカーネルと同様に整数の二次元画像座標を持つものとすることができる。このため、一般的な畳込演算処理をそのまま利用して、変形後カーネルを用いた畳込演算を実行することができる。
【0066】
変形後カーネルが実数の座標を持つ場合、後述する畳込演算部102において畳込演算を実行する際に、畳込演算を行う各ピクセルの演算において補間処理が必要となるため、計算コストが大きくなる。これに対して、変形後カーネルが整数の座標を持つようにすることによって、各ピクセルの演算において補間処理を行う必要がなくなる。このため、畳込演算部102が行う処理に要する時間を短くすることが可能である。
【0067】
畳込演算部102は、畳込演算を行う。畳込演算部102は、例えば、変形後カーネル記憶部111から変形後カーネルを読み込んで取得する。また、畳込演算部102は、多視点画像記憶部107から対象視点画像を読み込んで取得する。畳込演算部102は、変形後カーネルを用いて、対象視点画像に畳込演算を行う。畳込演算部102は、対象視点画像に、畳込演算の演算結果を特徴量として対応づけた特徴マップを生成する。畳込演算部102は、生成した特徴マップを特徴マップ記憶部108に記憶させる。
【0068】
変形後カーネルを用いて畳込演算を行うことにより、多視点画像間の画像変形が大きい場合においても、画像変形によって特徴量(畳込演算の演算結果)が変化する度合が軽減され、各視点において抽出されるそれぞれの対応における特徴量が近い値となる。
【0069】
深層学習に基づく多視点ステレオでは、各視点の画像のそれぞれから生成される特徴マップにおいて、真の三次元座標が与えられた際に、各視点における対応点の特徴量が等しくなるか、或いは極めて近い値となることが前提とされる。そのため、画像変形が大きい画像間であっても、その画像間における対応点の特徴量が近い値となるように特徴量を抽出することができれば、高精度な三次元形状の復元につなげることが可能である。
【0070】
変形後カーネルが正方格子で配置された整数の二次元画像座標を持つカーネルである場合、畳込演算部102は、一般的な畳込演算により対象視点画像に畳込演算を行う。一方、変形後カーネルが実数の二次元画像座標を持つカーネルである場合、畳込演算部102は、例えば、対象視点画像における実数の二次元画像座標の画素値を、その周囲にある整数の二次元画像座標の画素値を補間するとによって算出し、算出した実数の二次元画像座標の画素値に対し、実数の二次元画像座標を持つカーネルを用いた畳込演算を行う。
【0071】
補間方法としては、例えば、双線形補間を用いる。ここで、畳込演算において、実数の二次元画像座標をもつカーネルを用いて、補間により求めた実数の二次元画像座標の画素値に畳込演算を行うことと、実数の二次元画像座標をもつカーネルを整数の座標系で補間し、補間後のカーネルを用いて整数の二次元画像座標の画素値に畳込演算を行うことは、同じ演算結果となる。
【0072】
変形後カーネルが、ひとつの対象視点画像に対して決定されたひとつのカーネルである場合、畳込演算部102は、対象視点画像において共通する同一の変形後カーネルを用いて畳込演算を行う。
【0073】
一方、変形後カーネルが、対象視点画像におけるピクセルごとに決定された、ピクセルごとに異なる変形後カーネルである場合、畳込演算部102は、対象視点画像において、ピクセルごとに異なる変形後カーネルを用いて畳込演算を行う。
【0074】
畳込演算部102は、ひとつの対象視点画像に対して、複数の変形後カーネルを用いて畳込演算を行い、特徴マップを生成しても良い。例えば、畳込演算部102は、複数の変形後カーネルを変形後カーネル記憶部111から読み込み、ひとつの対象視点画像を多視点画像記憶部から読み込み、読み込んだ対象視点画像に対して、異なる複数の変形後カーネルを用いて順に畳込演算を行い、特徴マップを生成する。この場合、ひとつの対象視点画像に対して、複数の変形後カーネルのそれぞれに対応する複数の特徴マップが生成される。
【0075】
コスト値計算部103は、複数の特徴マップからコスト値を計算する。コスト値は、特徴マップにおける対応点が類似する度合であって、例えば、対応点における特徴量間の分散や相関を示す値である。
【0076】
ここで、ある三次元点の座標と法線方向の組{M、n}が与えられた場合を考える。この場合、多視点画像に含まれる複数の対象視点画像{I、I、…}のそれぞれに対して、カーネル変形方法決定部100、カーネル変形部101、及び畳込演算部102のそれぞれを連携させることによって、三次元点の座標と法線方向の組{M、n}を適用した場合おける、それぞれの対象視点画像の特徴マップ{f0,1、f1,1、…}が生成される。
【0077】
このとき、コスト値を計算する対象である三次元座標M=[X、Y、Z]におけるコスト値Cは、各対象視点画像の特徴マップ{f0,1、f1,1、…}における、三次元座標Mに対応する対応点の特徴量のそれぞれの分散を示す値である。
【0078】
同様に、同じ三次元点の座標に対し別の法線方向の組{M1、n}が与えられた場合を考える。この場合、多視点画像に含まれる複数の対象視点画像それぞれの特徴マップ{f0,2、f1,2、…}が生成される。コスト値計算部103は、各対象視点画像の特徴マップ{f0,2、f1,2、…}の対応点における特徴量の分散を示す値をコスト値Cとして計算する。
【0079】
コスト値計算部103は、同じ三次元点の座標に対する、二つの法線方向のそれぞれに対するコスト値の集合{C、C}を構成する要素のうちの最小値を、最終的なコスト値Cとする。
【0080】
上記の説明では、同じ三次元点の座標に対する、二つの法線方向のそれぞれに対する最終的なコスト値Cを算出する場合を例示して説明したが、同じ三次元点の座標に対して三つ以上の法線方向の組が与えられた場合にも、同様な方法により、コスト値の集合{C、C、…}を生成することができる。コスト値計算部103は、コスト値の集合{C、C、…}を構成する要素のうちの最小値を、最終的なコスト値とする。
【0081】
仮定された法線方向、つまり与えられた法線方向と、真の法線方向とが近い場合、特徴マップにおける対応点の特徴量が近い値となる。この場合、コスト値の集合、つまり各法線方向に対する特徴量間の分散は小さい値をとる。したがって、複数の法線方向のそれぞれについてコスト値を計算し、それらの最小値を、最終的なコスト値として採用することは、仮定した複数の法線方向のそれぞれから、真の法線方向と最も整合性が取れる法線方向で計算したコスト値を選択することと等しい。
【0082】
上記では、コスト値計算部103は、コスト値として、複数の対象視点画像の特徴マップの対応点における特徴量の分散を計算しても良いし、複数の対象視点画像の特徴マップの対応点における特徴量の相関を計算しても良い。コスト値計算部103は、コスト値として、少なくとも複数の対象視点画像のそれぞれの特徴マップにおける対応点の特徴量が類似する度合を計算できればよい。すなわち、コスト値計算部103は、コスト値として、分散及び相関の何れを示す値を計算しても良い。
【0083】
特徴量の相関をコスト値として計算する場合、コスト値計算部103は、法線方向に対応するコスト値の集合における各要素のうちの最大値を、最終的なコスト値とする。各対象視点画像における特徴マップの対応点の特徴量が近い値をとる場合、各法線方向に対する特徴量間の相関が大きい値をとる。このため、法線方向ごとのコスト値の最大値を、最終的なコスト値として採用することで、真の法線方向と最も整合性がとれる法線方向を用いて計算したコスト値を選択することができる。
【0084】
なお、コスト値計算部103は、特徴マップに対応づけられる変数(三次元座標M、法線方向n)の何れを基準としてコスト値を計算しても良い。例えば、上述したように、同じ三次元座標を基準として、複数の法線方向nのそれぞれについてコスト値を計算しても良いし、三次元座標と法線方向nの組ごとにコスト値を計算しても良い。また、同じ法線方向を基準として、複数の三次元座標のそれぞれについてコスト値を計算しても良い。
【0085】
さらに、コスト値計算部103は、コストボリュームを生成する。コストボリュームは、参照視点画像に正対する複数の平面であって、離散的な奥行きを有する複数の平面にコスト値が反映されたものである。コスト値計算部103は、例えば、あらかじめ三次元空間上に設定された三次元ボクセルのすべてのボクセルに対して、各ボクセルに対応する三次元座標におけるコスト値を計算することで、コストボリュームを生成する。コスト値計算部103は、生成したコストボリュームを、コストボリューム記憶部112に記憶させる。
【0086】
このとき、コスト値計算部103は、三次元ボクセルを、立方体で設定しても良いし、参照視点画像の面と底面が正対する四角スイ台で設定しても良い。
【0087】
コストボリューム正則化部104は、コストボリュームを正則化する。コストボリューム正則化部104は、例えば、コストボリューム記憶部112からコストボリュームを読み込んで取得する。コストボリューム正則化部104は、取得したコストボリュームに対して三次元の畳込演算を行うことによりコストボリュームを正則化する。コストボリューム正則化部104は、正則化した後のコストボリュームを、コストボリューム記憶部112に記憶させる。このとき、コストボリューム正則化部104は、三次元の畳込演算において、異なるカーネルを複数回適用しても良い。
【0088】
デプスマップ生成部105は、デプスマップを生成する。デプスマップ生成部105は、例えば、コストボリューム記憶部112から正則化後のコストボリュームを読み込んで取得する。デプスマップ生成部105は、取得したコストボリュームから参照視点画像におけるデプスマップを抽出する。デプスマップ生成部105は、抽出したデプスマップをデプスマップ記憶部113に記憶させる。
【0089】
デプスマップ生成部105は、参照視点画像の各ピクセルについて、そのピクセルに対応する視線上にあるコストボリュームのコスト値を抽出し、抽出したコスト値のうち最も整合性のとれるコスト値の奥行きを、デプスマップの奥行値として選択する。
【0090】
例えば、コストボリュームにおける三次元ボクセルが、参照視点画像の面と底面が正対した四角スイ台で設定される場合、各ピクセルの視線は、コストボリューム上にある一列のボクセルと一致する。コスト値が特徴量の分散で示される場合、デプスマップ生成部105は、参照視点画像の各ピクセルについて、そのピクセルの視線上にある最もコスト値が小さくなる奥行きを、デプスマップの奥行値として選択する。一方、コスト値が特徴量の相関で示される場合、デプスマップ生成部105は、参照視点画像の各ピクセルについて、そのピクセルの視線上にある最もコスト値が大きくなる奥行きを、デプスマップの奥行値として選択する。
【0091】
三次元点群生成部106は、三次元点群を生成する。三次元点群生成部106は、例えば、デプスマップ記憶部からデプスマップを読み込んで取得する。三次元点群生成部106は、取得したデプスマップを三次元点群に変換することにより三次元点群を生成する。三次元点群生成部106は、生成した三次元点群を、三次元点群記憶部114に記憶させる。
【0092】
例えば、一枚のデプスマップを読み込んだ場合、三次元点群生成部106は、読み込んだデプスマップと、そのカメラパラメータから、各ピクセルの三次元座標を計算した計算結果を三次元点群とする。一方、異なる視点に対応する複数のデプスマップを読み込んだ場合、三次元点群生成部106は、まず、視点ごとにデプスマップを三次元点群に変換し、次に、各視点の三次元点群をひとつの三次元点群に統合する。三次元点群生成部106は、例えば、三次元点群を統合する場合、各視点のカメラパラメータに従い、三次元点群の三次元座標をカメラ座標系から世界座標系に変換することによって、異なる視点の三次元点群を同一の座標系に合わせた表現に変換することによって、ひとつの三次元点群に統合する。
【0093】
多視点画像記憶部107は、N枚からなる多視点画像と、その多視点画像の各視点に対応するカメラパラメータを記憶する。ここで、多視点画像を構成する視点のうち一つの視点は、参照視点画像の視点とする。ここでNは2以上の整数である。
【0094】
特徴マップ記憶部108は、特徴マップを記憶する。ここで、特徴マップ記憶部108は、特徴マップに、その特徴マップを生成する元となる画像に対応する視点、および、その特徴マップを生成する際に用いた三次元点の座標と法線方向と紐づけて記憶しても良い。
【0095】
三次元情報記憶部109は、カーネル変形方法を決定するための三次元点の座標および法線方向を記憶する。ここで、三次元情報記憶部109は、ひとつの三次元点の座標に対して複数の法線方向の組を紐づけて記憶しても良い。また、三次元情報記憶部109は、各視点に対して、一組の三次元点の座標と法線方向を記憶しても良いし、ピクセルごとに異なる三次元点の座標と法線方向を記憶しても良い。ピクセルごとに異なる三次元点の座標と法線方向を記憶する場合、三次元情報記憶部109は、三次元点の座標と法線方向を、三次元座標マップおよび法線方向マップとして記憶する。
【0096】
三次元情報記憶部109は、あらかじめ用意される三次元点の座標群{M}、および法線群{n}を記憶し、三次元座標群および法線群の中から選択した三次元点の座標と法線方向の組を、カーネル変形方法を決めるための三次元点の座標および法線方向の組としてもよい。
【0097】
ここで、あらかじめ用意される三次元点の座標群{M}は、例えば、(3)式で示される。
【0098】
【数3】
【0099】
また、あらかじめ用意される法線群{n}は、例えば、(4)式で示される。
【0100】
【数4】
【0101】
基準カーネル記憶部110は、基準カーネルを記憶する。基準カーネルは、変形後カーネルを生成する基準となるカーネルであり、例えば、二次元画像座標と重み係数の組の集合で表現される。基準カーネルは、例えば、(5)式で示される。基準カーネル記憶部110は、互いに異なる基準カーネルを複数記憶しても良い。
【0102】
【数5】
【0103】
変形後カーネル記憶部111は、変形後カーネルを記憶する。変形後カーネルは、カーネル変形部101によって、基準カーネルが、カーネル変形方法決定部100により決定された方法を用いて変形されることによって生成されたカーネルである。変形後カーネルは、基準カーネルと同様に、例えば、二次元画像座標と重み係数の組の集合で表現される。変形後カーネルは、例えば、(6)式で示される。
【0104】
【数6】
【0105】
(6)式に示す変形後カーネルの二次元画像座標は、例えば、正方格子で配置された整数の座標として構成しても良いし、実数の座標として構成しても良い。カーネル変形部101が基準カーネルを変形する際に、正方格子で配置された整数の座標で補間しながら基準カーネルを変形した場合、変形後カーネルの要素数K’及び重み係数(a’)は、基準カーネルの要素数K及び重み係数(a)と異なる値をとる。一方、カーネル変形部101が、補間せずに、基準カーネルを変形した場合、変形後カーネルの要素数K’及び重み係数(a’)は、基準カーネルの要素数K及び重み係数(a)と一致する。但し、iはカーネルを構成する要素に応じた変数であり、1≦i≦K’である。
【0106】
変形後カーネル記憶部111は、変形後カーネルに、その変形後カーネルを生成する元になった基準カーネルを紐づけて記憶しても良い。つまり、基準カーネルが複数用意される場合、変形後カーネル記憶部111は、変形後カーネルのそれぞれに、どの基準カーネルから生成されたかを示す情報が紐づけて記憶する。また、変形後カーネル記憶部111は、変形後カーネルに、その変形後カーネルを生成する際に用いた三次元点の座標と法線方向を紐づけて記憶しても良い。
【0107】
コストボリューム記憶部112は、コストボリュームを記憶する。コストボリュームは、三次元空間上に設定された三次元ボクセルの各ボクセルにコスト値が対応づけられた情報である。
【0108】
デプスマップ記憶部113は、多視点画像の各視点におけるデプスマップを記憶する。ここで、デプスマップの大きさは、対応する視点(画像)の画像サイズと一致する。また、デプスマップの各ピクセルの奥行値は、対応する視点の各ピクセルの二次元座標における対象物体までの奥行きを示す値である。
【0109】
三次元点群記憶部114は、対象物体を三次元復元した三次元復元点群を記憶する。ここで、三次元点群は、三次元座標の集合として定義される。つまり、三次元点群記憶部114は、三次元点群の各点の三次元座標を記憶する。また、三次元点群が色付きの三次元点群の場合、三次元点群記憶部114は、三次元点群の各点の三次元座標に加えて、三次元点群の各点の色(例えば、RGB値)を記憶する。
【0110】
ここで、図5を用いてデプスマップを生成する処理の流れを説明する。図5は、実施形態の特徴マップ生成装置1を用いてデプスマップを生成する処理を説明する図である。
【0111】
図5に示すように、本実施形態の特徴マップ生成装置1は、一般の深層学習に基づく多視点ステレオ技術に用いられる4つの学習済ネットワークNWを基に、デプスマップを生成する。
【0112】
特徴マップ生成装置1は、画像間における画像変形に対応させた特徴マップ生成ネットワークNW1#を用いて特徴マップを生成する。具体的に、特徴マップ生成装置1では、カーネル変形方法決定部100、カーネル変形部101、及び畳込演算部102が連携して、各画像Iにおける法線方向nに対応する、特徴マップを生成する。ただし、iは多視点画像の枚数に対応する変数であり、1≦i≦Nである。また、kは法線方向の数に対応する変数であり、1≦k≦Nである。
【0113】
より具体的に、カーネル変形方法決定部100は、対象物体における三次元座標M、法線方向n、及び各画像Iのカメラパラメータに基づいて、各画像Iにおける法線方向nに対応する、基準カーネルの変形方法を決定する。カーネル変形部101は、カーネル変形方法決定部100によって決定された変形方法を用いて、基準カーネルを変形させた変形後カーネル{PIi、n}を生成する。畳込演算部102は、各画像Iに対し、各画像における法線方向nに対応した変形後カーネル{PIi、n}を用いて、畳込演算を行う。畳込演算部102は、畳込演算の演算結果を、各画像Iにおける画素毎の特徴量として抽出し、抽出した特徴量を用いて特徴マップfnkを生成する。
【0114】
特徴マップ生成装置1は、コストボリューム構築ネットワークNW2#を用いてコストボリュームを構築する。具体的に、特徴マップ生成装置1では、コスト値計算部103が、特徴マップ生成ネットワークNW1#によって生成された、各画像Iにおける法線方向nに対応する特徴マップfnkのそれぞれを用いてコストボリュームを構築する。
【0115】
より具体的に、コスト値計算部103は、対象物体における三次元座標Mに対し、法線方向nごとに、特徴マップfnkにおける三次元座標Mの対応点のそれぞれの特徴量の分散を計算し、計算した分散値を、三次元座標Mにおける法線方向nに対するコスト値Cとする。コスト値計算部103は、三次元座標Mにおける法線方向n毎のコスト値Cのうち、分散が小さいもの、つまり似た特徴を有するものを最終的なコスト値Cとする。
【0116】
特徴マップ生成装置1は、コストボリューム正則化ネットワークNW3、及びデプスマップ生成ネットワークNW4を用いて、デプスマップを生成する。具体的に、特徴マップ生成装置1では、コストボリューム正則化部104、デプスマップ生成部105、及び三次元点群生成部106が連携することによって、従来技術(図7参照)と同様に、コストボリューム正則化ネットワークNW3、及びデプスマップ生成ネットワークNW4を用いることによってデプスマップを生成する。
【0117】
ここで、図6を用いて特徴マップを生成する処理の流れを説明する。図6は、実施形態の特徴マップを生成する処理の流れを示すフローチャートである。
【0118】
ステップS10:特徴マップ生成装置1は、対象視点画像のカメラパラメータを取得する。特徴マップ生成装置1は、多視点画像記憶部107を参照することによって、対象視点画像のカメラパラメータを取得する。
ステップS11:特徴マップ生成装置1は、対象物体における三次元座標、及び法線方向の組を取得する。特徴マップ生成装置1は、三次元情報記憶部109を参照することによって、対象物体における三次元座標、及び法線方向を取得する。例えば、参照視点画像におけるカメラ座標系に基づいて、対象物体における三次元座標及び法線方向が設定され、設定された対象物体における三次元座標及び法線方向が、三次元情報記憶部109に記憶される。
ステップS12:特徴マップ生成装置1は、基準カーネルを取得する。特徴マップ生成装置1は、基準カーネル記憶部110を参照することによって、基準カーネルを取得する。
ステップS13:特徴マップ生成装置1は、カーネルの変形方法を決定する。特徴マップ生成装置1は、ステップS10で取得した対象視点画像のカメラパラメータと、ステップS11で取得した対象物体における三次元座標及び法線方向に基づいて、対象視点画像における、対象物体の三次元座標及び法線方向に対応する、カーネルの変形方法を決定する。
【0119】
ステップS14:特徴マップ生成装置1は、変形後カーネルを生成する。特徴マップ生成装置1は、ステップS13で決定したカーネルの変形方法を用いて、基準カーネルを変形することによって、変形後カーネルを生成する。
ステップS15:特徴マップ生成装置1は、対象視点画像を取得する。特徴マップ生成装置1は、多視点画像記憶部107を参照することによって、対象視点画像を取得する。
ステップS16:特徴マップ生成装置1は、変形後カーネルを用いて畳込演算を実行する。特徴マップ生成装置1は、ステップS14で取得した対象視点画像に、ステップS13で生成した変形後カーネルを用いた畳込演算を行うことによって、畳込演算を実行する。
ステップS17:特徴マップ生成装置1は、特徴マップを生成する。特徴マップ生成装置1は、ステップS16で実行した畳込演算の演算結果を特徴量として抽出し、抽出した特徴量を対象視点画像の各画素に対応づけることによって特徴マップを生成する。
【0120】
ステップS18:特徴マップ生成装置1は、三次元座標及び法線方向の組の全てについて特徴マップを生成したか否かを判定する。特徴マップ生成装置1は、三次元座標及び法線方向の組の全てについて特徴マップを生成していない場合、ステップS19に示す処理を実行する。特徴マップ生成装置1は、三次元座標及び法線方向の組の全てについて特徴マップを生成した場合、ステップS20に示す処理を実行する。
ステップS19:特徴マップ生成装置1は、三次元座標及び法線方向の少なくとも一方を変更する。特徴マップ生成装置1は、三次元情報記憶部109を参照し、すでに特徴マップを生成した三次元座標及び法線方向の組とは異なる組合せを持つ三次元座標及び法線方向の組を取得することによって、三次元座標及び法線方向の少なくとも一方を変更する。特徴マップ生成装置1は、ステップS11に示す処理を実行する。
ステップS20:特徴マップ生成装置1は、対象視点画像の全てについて特徴マップを生成したか否かを判定する。特徴マップ生成装置1は、対象視点画像の全てについて特徴マップを生成していない場合、ステップS21に示す処理を実行する。特徴マップ生成装置1は、対象視点画像の全てについて特徴マップを生成した場合、ステップS22に示す処理を実行する。
ステップS21:特徴マップ生成装置1は、特徴マップを生成する対象とする対象視点画像を変更する。特徴マップ生成装置1は、多視点画像記憶部107を参照し、すでに特徴マップを生成した対象視点画像とは異なる対象視点画像を取得することによって、対象視点画像を変更する。特徴マップ生成装置1は、ステップS10に示す処理を実行する。
【0121】
ステップS22:特徴マップ生成装置1は、仮コスト値を計算する。特徴マップ生成装置1は、三次元座標に対し、法線方向ごとに、特徴マップにおける三次元座標の対応点の特徴量それぞれの分散を計算し、計算した分散値を、三次元座標における法線方向に対する仮コスト値とする。
ステップS23:特徴マップ生成装置1は、仮コスト値から最終的なコスト値を決定する。特徴マップ生成装置1は、三次元座標における各法線方向に対する仮コスト値のうち、分散が小さいもの、つまり似た特徴を有するものを最終的なコスト値とする。
【0122】
ここで、本実施形態の効果を確認する方法について説明する。
【0123】
まず、実験用データセットとして、画像変形の大きさや種類が異なるデータセットを用意する。多視点画像間の画像変形に影響する要因として、対象の三次元形状、視点間の距離(基線長)、視点間の回転、対象からカメラまでの距離、各視点の内部パラメータが挙げられる。これらを変化させながら、多視点画像を撮影することによって、様々な画像変形を含む多視点画像データセットを作成することができる。
【0124】
しかしながら、視点間の距離(基線長)等を変化させながら多視点画像を撮影しようとすると撮影の負荷が大きい。この対策として、既存の多視点画像データセットに対して、画像処理を施すことによって、疑似的に画像変形が異なる多視点画像データセットを作成することを検討した。
【0125】
例えば、既存の多視点画像データセットを用いて、新しい多視点画像データセットを作成する方法として、画像に対する二次元回転を加える方法がある。このとき、あるひとつの対象物体を撮影した一連の多視点画像に対して、すべて同じ回転角で回転を加えても、画像間における画像変形は変わらない。そこで、多視点画像の各画像について、互いに異なる回転角により回転を加える必要がある。
【0126】
具体的に、例えば、多視点画像に1番からN番(Nは多視点画像の画像枚数)の番号を与え、偶数番の画像のみを180度回転させ、奇数版の画像には画像変形を加えないとする方法がある。また、例えば、多視点画像の各画像について、すべて異なるランダムな回転角で回転を加える方法もある。
【0127】
機械学習用の多視点画像データセットには、多視点画像のほかに、各視点における真値のデプスマップと、各視点のカメラパラメータが含まれる。多視点画像における各視点の画像に画像変形を加えた場合、画像変形を加えた画像のデプスマップとカメラパラメータについても、整合性が取れるように、編集しなくてはならない。
【0128】
デプスマップについては、対応する視点の画像と全く同じ画像変形を加えればよい。例えば、多視点画像の各画像に二次元回転を加える場合、デプスマップも各画像と同じ回転角で同じ二次元回転を加える必要がある。
【0129】
また、各視点のカメラパラメータについても、視点画像における各視点の画像に加えた画像変形と整合性するように編集する必要がある。多視点画像の各画像に二次元回転を加えた場合、各視点のカメラパラメータについて、その視点に対応する回転角によるカメラの光軸回りの三次元回転行列を、外部パラメータの回転行列と並進ベクトルに加える必要がある。このとき、各画像の二次元回転の中心座標が画像中心である場合、カメラの内部パラメータを編集する必要はない。一方で、各画像の回転の中心座標が画像中心でない場合、画像中心から回転中心の座標のずれを、各視点の内部パラメータの画像中心に加算し、整合性をとる必要がある。
【0130】
既存の多視点画像データセットを用いて、新しい多視点画像データセットを作成する別の方法として、画像に対して拡大又は縮小(以下、拡大縮小という)を加える方法がある。このとき、あるひとつの対象物体を撮影した一連の多視点画像に対して、すべて同じ拡大縮小率で拡大縮小を加えても、画像間の画像変形は変わらない。そこで、多視点画像の各画像について、異なる拡大縮小率による拡大縮小を加える必要がある。例えば、多視点画像の各画像について、互いに異なるランダムな拡大縮小率によって、拡大縮小を加える方法がある。また、画像の垂直方向と水平方向で、拡大縮小率が異なっていてもよい。
【0131】
このとき、機械学習用の多視点画像データセットにおける、デプスマップとカメラパラメータについても、視点画像における各視点の画像に加えた拡大縮小に対して整合性が取れるように、編集しなくてはならない。
【0132】
デプスマップについては、対応する視点の画像と全く同じ拡大縮小率で拡大縮小をさせる必要がある。また、各視点のカメラパラメータについては、外部パラメータは変化させず、内部パラメータのうち、焦点距離を拡大縮小率で乗算する必要がある。垂直方向の拡大縮小率と水平方向の拡大縮小率が異なる場合、内部パラメータの垂直方向の焦点距離と水平方向の焦点距離は、それぞれ異なる倍率で乗算する。また、各画像の拡大縮小の中心座標が画像中心である場合、カメラの内部パラメータを編集する必要はない。一方で、各画像の拡大縮小の中心座標が画像中心でない場合、画像中心から拡大縮小中心の座標のずれを、各視点の内部パラメータの画像中心に加算し、整合性をとる必要がある。
【0133】
既存の多視点画像データセットを用いて、新しい多視点画像データセットを作成する別の方法として、視点の三次元回転と内部パラメータの変化に伴う射影変換を加える方法がある。
【0134】
例えば、元のデータセット(既存の多視点画像データセット)の画像から、新しい多視点画像データセット(新しい多視点画像データセット)の画像への射影変換行列は(7)式を用いて計算することができる。
【0135】
【数7】
【0136】
このとき、あるひとつの対象物体を撮影した一連の多視点画像に対して、すべて同じ射影変換行列で射影変換を行っても、画像間の画像変形は変わらない。
【0137】
そこで、多視点画像の各画像について、異なる射影変換行列で射影変換を行う必要がある。例えば、多視点画像の各画像について、すべて異なるランダムな内部パラメータと視点の回転行列の組合せを用いる方法がある。
【0138】
ここで、回転行列の回転角によっては、元の画像と新しい画像の共通領域が非常に小さくなる場合があり得る。このため、例えば、元の画像と新しい画像の共通領域について、画像全体に対する共通領域の面積比に閾値を設け、共通領域の画像全体に対する割合が閾値を超えるような回転行列と内部パラメータを選ぶ方法がある。
【0139】
視点の三次元回転が加わる場合、機械学習用の多視点画像データセットについて、デプスマップに対して画像変形を加えるだけでは整合性が取れなくなる。そのため、元のデータセットのデプスマップから、隣接ピクセル間をつないだ三次元メッシュモデルを生成し、そのメッシュモデルを新しいカメラパラメータで投影してデプスマップを再度作り直す必要がある。
【0140】
新しいデータセットのカメラパラメータについては、内部パラメータは、新しいデータセットの内部パラメータであるKを用いる。外部パラメータは、回転行列と並進ベクトルに新しいデータセットの回転行列であるRo→nを加える。
【0141】
既存の多視点画像データセットから新しい多視点画像データセットを作成する方法について、上述した画像変形を組み合わせても良い。
【0142】
また、上述した画像変形による多視点画像データセットの作成について、異なる回転角や異なる拡大縮小率、および、これらの組み合わせに応じた画像変形を行うことによって、新しい多視点画像データセットを作成しても良い。例えば、二次元回転の回転角と拡大縮小率を、異なる乱数の組に応じて設定すれば、異なる画像変形を含む新しい多視点画像データセットを、多数生成することができる。
【0143】
ここで、多視点画像データセットにおいては、各参照視点画像に対する近傍視点画像群の選び方によって基線長が変化する。そのため、各参照視点画像に対する近傍視点画像群の選び方によって、視点間の画像変形の大きさも変化する。
【0144】
例えば、参照視点画像に対する近傍視点画像群の選び方として、基線長に基づく方法がある。基線長に基づく手法では、参照視点画像と他の多視点画像との基線長を求め、基線長が短い順にN枚の多視点画像を選択し、選択した多視点画像を、参照視点画像に対する近傍視点画像群とする。
【0145】
また、基線長に対する適正値をあらかじめ設定しておき、参照視点画像との基線長が適正値に近い順に近傍視点画像群を選択しても良い。また、基線長に対する下限と上限のどちらか一方、または両方をあらかじめ設定しておき、基線長がその範囲内に含まれる多視点画像から近傍視点画像群を選択しても良い。また、基線長に対する適正値や、基線長に対する下限と上限を変えながら、複数の多視点画像データセットを作成しても良い。例えば、基線長に対する適正値と、基線長に対する下限と上限とを乱数によって設定すれば、互いに異なる近傍視点画像群を有する多視点画像データセットを、多数生成することができる。
【0146】
近傍視点画像群の選び方として、上述の基線長に基づく手法の代わりに、光軸のなす角で近傍視点画像群を選択しても良い。光軸のなす角に基づく手法では、参照視点画像の光軸と他の多視点画像の光軸がなす角を求め、光軸のなす角が小さい順にN枚の多視点画像を選択し、選択した多視点画像を近傍視点画像群とする。
【0147】
また、光軸のなす角に対する適正値をあらかじめ設定しておき、参照視点画像との光軸のなす角が、設定された適正値に近い順に近傍視点画像群を選択しても良い。また、光軸のなす角に対する下限と上限のどちらか一方または両方をあらかじめ設定しておき、光軸のなす角がその範囲内に含まれる多視点画像から、近傍視点画像群を選択しても良い。また、光軸のなす角に対する適正値や、光軸のなす角に対する下限と上限を変えながら、複数の多視点画像データセットを作成しても良い。例えば、光軸のなす角に対する適正値と、光軸のなす角に対する下限と上限とを乱数によって設定すれば、異なる近傍視点画像群を有する多視点画像データセットを、多数生成することができる。
【0148】
近傍視点群の選び方として、上述の基線長に基づく手法、及び光軸のなす角に基づく手法の代わりに、視差角に基づく手法を用いて近傍視点画像群を選択しても良い。
【0149】
視差角に基づく手法では、1点以上の三次元点において参照視点画像と他の多視点画像との視差角を求め、視差角の平均値が小さい順にN枚の多視点画像を選択し、選択した多視点画像を近傍視点群とする。
【0150】
また、視差角の平均値に対する適正値をあらかじめ設定しておき、参照視点画像との視差角の平均値が適正値に近い順に近傍視点画像群を選択しても良い。また、視差角の平均値に対する下限と上限のどちらか一方または両方をあらかじめ設定しておき、視差角の平均値がその範囲内に含まれる多視点画像から近傍視点画像群を選択しても良い。また、視差角の平均値に対する適正値や、視差角の平均値に対する下限と上限を変えながら、複数の多視点画像データセットを作成しても良い。例えば、視差角の平均値に対する適正値と、視差角の平均値に対する下限と上限とを乱数によって設定すれば、異なる近傍視点画像群を有する多視点画像データセットを、多数生成することができる。
【0151】
上述した既存の多視点画像データセットから新しい多視点画像データセットを作成する方法について、機械学習に適用する場合、学習の事前に新しいデータセットを作成して準備しておいても良いし、学習における各繰り返しの中で新しいデータセットを作りながら学習させても良い。学習における各繰り返しの中で新しいデータセットを作りながら学習させる場合、事前に準備しておく場合に比べて、処理時間が長くなるが、メモリやハードディスクに記憶しておくデータ容量が小さくなるという利点がある。
【0152】
上述した既存の多視点画像データセットから新しい多視点画像データセットを作成する方法は、多視点ステレオアルゴリズムの画像変形に対するロバスト性の評価に利用することもできると共に、機械学習における学習用のデータセットの拡充にも利用することができる。
【0153】
一般に、多視点画像においては、対象物体における三次元形状と、多視点画像における各視点の位置及び姿勢とに依存した様々な画像変形が含まれる。様々な対象物体や、様々な撮影状況に対応できるようにモデルを学習させるためには、多くの対象物体について、複数の撮影状況で撮像した多視点画像データセットを作成する必要がある。
【0154】
一方、多くの画像変形に対応させようとすると、必要なデータセットが膨大になり、作業負荷が増加する。これに対して、上述の多視点画像データセットを作成する方法を適用すれば、少数の多視点画像データセットから、より多様な画像変形を含む多視点画像データセットを、多数生成することができる。このようにして生成された、多様な画像変形を含む多視点画像データセットを用いて機械学習モデルを学習させることによって、多視点画像における画像変形に対するロバスト性が向上した学習済モデルを生成することが可能となる。
【0155】
ここで、実際の多視点画像データセットを使用して確認した本発明の効果について説明する。本実施形態の効果を確認するために用いる多視点画像データセットとして、多視点ステレオ評価用の公開データセットであるDTU-MVSデータセットを利用した。
【0156】
図7図7A及び図7B)は、本実施形態の効果を説明するための図である。本実施形態の効果を確認するために用いた多視点画像データセットの例が示されている。図7Aには、学習用データセットの例が示されている。図7Bには、評価用データセットの例が示されている。
【0157】
図7Aに示すように、学習用データセットには、非特許文献1に示されるような、画像変形を加えない多視点画像であって、参照視点画像との基線長が比較的短い多視点画像を、その近傍視点画像に対する近傍視点画像群として選択した。
【0158】
一方、図7Bに示すように、評価用データセットには、近傍視点画像群を選択する方法は、学習用データセットと同じであるが、多視点画像にランダムな二次元回転を加えたデータセットを利用した。
【0159】
非特許文献1に示されるMVSNet(従来技術)と、本実施形態のそれぞれの方法を用いて、学習用データセットにて機械学習モデルを学習させたそれぞれの学習済モデルを用いて、評価用データセットに基づく三次元点群を生成する。
【0160】
それぞれの学習済モデルが、評価用データセットに基づいて生成した三次元点群、及びDTU-MVSデータセットに含まれる真値の三次元点群を、図8に示す。
【0161】
図8は、本実施形態の効果を説明するための図である。図8には、DTU-MVSデータセットに含まれる真値の三次元点群、及び従来技術と本実施形態のそれぞれの方法によって学習させ学習済モデルが評価用データセットに基づいて生成した三次元点群が示されている。図8ではモノクロ画像で示しているが、図8に示す各三次元点群は色付きの三次元点群である。
【0162】
図8に示すように、MVSNet(従来技術)では、多くの未復元領域が発生している。これは、MVSNetでは、多視点画像間の画像変形として平行移動しか対応することができないため、画像間における二次元回転を含む評価用データセットでは、正確な三次元点が求められないためであると考えられる。
【0163】
これに対して、本実施形態では、画像間における二次元回転を含む評価用データセットを用いた場合であっても、正確な三次元点を求めることが可能である。このように、本実施形態を用いることで、多視点画像間における画像変形に対するロバスト性が向上することが確認できる。
【0164】
以上説明したように、実施形態の特徴マップ生成装置1は、多視点画像における特徴マップを生成する特徴マップ生成装置である。多視点画像は、対象物体を互いに異なる複数の視点から撮像した2枚以上の画像である。特徴マップ生成装置1は、カーネル変形方法決定部100と、カーネル変形部101と、畳込演算部102を備える。カーネル変形方法決定部100は、多視点画像に含まれる対象視点画像(第1対象視点画像)に対して、三次元座標、法線方向、及び、その対象視点画像に対応するカメラパラメータ(第1カメラパラメータ)を用いて、カーネルにおける特定の座標が、その対象視点画像における対応点の座標に変換されるように、その対象視点画像に対応するカーネルの変形方法(第1変形方法)を決定する。カーネル変形部101は、基準カーネルを、カーネル変形方法決定部100によって決定された変形方法を用いて変形することによって、その対象視点画像に対応する変形後カーネル(第1変形後カーネル)を生成する。畳込演算部102は、カーネル変形部101によって生成された変形後カーネルを用いて、その対象視点画像に対する畳込演算を行うことによって、その対象視点画像に対応する特徴マップ(第1特徴マップ)を生成する。
【0165】
これにより、実施形態の特徴マップ生成装置1では、画像における画像変形に応じて基準カーネルを変形させた変形後カーネルを用いて、その画像における特徴量を抽出することができる。したがって、画像変形が大きい多視点画像を用いた場合であっても、高精度な三次元復元が可能な特徴マップを生成することができる。
【0166】
また、実施形態の特徴マップ生成装置1では、カーネル変形方法決定部100は、多視点画像に含まれる対象視点画像であって、互いに異なる2つの画像に対応するカメラパラメータ(第1カメラパラメータ、及び第2カメラパラメータ)を取得する。カーネル変形方法決定部100は、三次元座標、法線方向、及び、その2つの画像に対応するカメラパラメータ(第1カメラパラメータ、及び第2カメラパラメータ)を用いて、その2つの画像のうち、一方の画像における対応点の座標が、他方の画像における対応点の座標に変換されるように、他方の画像に対応するカーネルの変形方法を決定する。例えば、カーネル変形方法決定部100は、第1対象視点画像の第1カメラパラメータ、及び第2対象視点画像の第2カメラパラメータをもちいて、第2対象視点画像における対応点の座標が、第1対象視点画像における対応点の座標に変換されるように、第1対象視点画像に対応するカーネルの変形方法、すなわち第1変形方法を決定する。これにより、実施形態の特徴マップ生成装置1では、2つの画像間における画像変形を考慮して変形方法を決定することができ、上述した効果と同様の効果を奏する。
【0167】
上述した実施形態において、特徴マップ生成装置1では、カーネル変形部101は、三次元座標、法線方向及びカメラパラメータの組合せ毎にカーネルの変形方法を決定する。カーネル変形部101は、共通する同一の基準カーネルを、カーネル変形方法決定部100によって決定された組合せの各々に対応する変形方法を用いて変形することによって、組合せの各々に対応する変形後カーネルを生成する。これにより、実施形態の特徴マップ生成装置1では、三次元座標、法線方向及びカメラパラメータの組合せ毎に変形方法を決定することができ、上述した効果と同様の効果を奏する。
【0168】
上述した実施形態において、特徴マップ生成装置1では、カーネル変形方法決定部100は、対象視点画像のピクセル毎に設定した三次元座標又は法線方向の少なくとも一方を用いて、その対象視点画像のピクセル毎に、変形方法を決定する。カーネル変形部101は、基準カーネルを、その対象視点画像のピクセル毎に、その対象視点画像のピクセル毎に決定された変形方法を用いて変形することによって、その対象視点画像のピクセルの各々に対応する変形後カーネルをそれぞれ生成する。畳込演算部102は、その対象視点画像のピクセル毎に生成された変形後カーネルを用いて、その対象視点画像における各ピクセルにおける畳込演算を行うことによって、特徴マップを生成する。これにより、実施形態の特徴マップ生成装置1では、対象視点画像のピクセル毎に変形方法を決定することができ、上述した効果と同様の効果を奏する。
【0169】
上述した実施形態において、特徴マップ生成装置1では、カーネル変形部101は、基準カーネルを、カーネル変形方法決定部100により決定された変形方法を用いて変形した、実数の二次元座標を持つカーネルを仮変形後カーネル(第1仮変形後カーネル)とする。カーネル変形部101は、その仮変形後カーネルに対して正方格子で配置された座標を用いた補間処理を行うことにより、整数の二次元座標を持つ変形後カーネル(第1変形後カーネル)を生成する。これにより、実施形態の特徴マップ生成装置1では、畳込演算の計算コストを増大させる実数の二次元座標を持つカーネルを、整数の二次元座標を持つ変形後カーネルに変換することができ、計算コストの増大を抑制することができる。
【0170】
上述した実施形態において、特徴マップ生成装置1では、カーネル変形方法決定部100は、互いに異なる複数の法線方向の各々に対応する変形方法をそれぞれ決定する。カーネル変形部101は、基準カーネルを、法線方向の各々に対して決定された変形方法を用いて変形することによって、法線方向の各々に対応する変形後カーネルを生成する。畳込演算部102は、法線方向の各々に対して生成された変形後カーネルを用いて、対象視点画像に対する畳込演算を行うことによって、法線方向の各々に対応する特徴マップをそれぞれ生成する。これにより、実施形態の特徴マップ生成装置1では、対象物体における三次元点について複数の法線方向を仮定した場合における、それぞれの特徴マップを生成することができ、上述した効果と同様の効果を奏する。
【0171】
上述した実施形態において、特徴マップ生成装置1は、コスト値計算部103を更に備える。コスト値計算部103は、複数の特徴マップにおける対応点からコスト値を計算する。コスト値計算部103は、法線方向の各々に対応する特徴マップにおける対応点のそれぞれの特徴量から算出される、対応点の特徴量が類似する度合に基づく仮のコスト値(仮コスト値)を計算する。コスト値計算部103は、法線方向の各々に対応して計算された仮コスト値のうち、対応点の特徴量が類似する仮コスト値を、最終的なコスト値とする。これにより、実施形態の特徴マップ生成装置1では、対象物体における三次元点について複数の法線方向を仮定した場合における、それぞれの対応点のコスト値が類似する度合から、特徴量が最も類似する法線方向を真の法線方向に近い法線方向として特定することができる。
【0172】
上述した実施形態における特徴マップ生成装置1の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0173】
上述したコンピュータは、量子コンピュータであってもよい。量子コンピュータは、例えば、量子力学的な重ね合わせの原理を用いた並列計算を行うコンピュータであり、従来型のコンピュータより指数関数的に高速な計算が可能なコンピュータである。量子コンピュータを用いることによって、畳込演算などを実行する際に高速な計算が可能となる。
【0174】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計、装置構成等も含まれる。
【0175】
なお、以下の各発明も本発明に含まれる。
【0176】
(発明1)
対象物体が互いに異なる複数の視点から撮像された2以上の多視点画像における特徴マップを生成する特徴マップ生成装置であって、
前記多視点画像に含まれる第1対象視点画像に対して、三次元座標、法線方向及び前記第1対象視点画像に対応するカメラパラメータである第1カメラパラメータを用いて、カーネルにおける特定の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1対象視点画像に対応するカーネルの変形方法である第1変形方法を決定するカーネル変形方法決定部と、
基準となる基準カーネルを、前記第1変形方法を用いて変形することによって、前記第1対象視点画像に対する畳込演算に用いるカーネルである第1変形後カーネルを生成するカーネル変形部と、
前記第1変形後カーネルを用いて前記第1対象視点画像に対する畳込演算を行うことによって前記第1対象視点画像における特徴量を抽出し、抽出した特徴量を用いて前記第1対象視点画像に対応する第1特徴マップを生成する畳込演算部と、
を備える特徴マップ生成装置。
【0177】
(発明2)
前記カーネル変形方法決定部は、前記多視点画像に含まれる第2対象視点画像であって、前記第1対象視点画像とは異なる第2対象視点画像に対応するカメラパラメータである第2カメラパラメータを取得し、前記三次元座標、前記法線方向、前記第1カメラパラメータ及び前記第2カメラパラメータを用いて、前記第2対象視点画像における対応点の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1変形方法を決定する、
発明1に記載の特徴マップ生成装置。
【0178】
(発明3)
前記カーネル変形方法決定部は、三次元座標、法線方向及びカメラパラメータの組合せ毎にカーネルの変形方法を決定し、
前記カーネル変形部は、共通する同一の前記基準カーネルを、前記組合せの各々に対して決定された変形方法を用いて変形することによって、前記組合せの各々に対応する前記第1変形後カーネルを生成する、
発明1または発明2に記載の特徴マップ生成装置。
【0179】
(発明4)
前記カーネル変形方法決定部は、前記第1対象視点画像のピクセル毎に設定した三次元座標又は法線方向の少なくとも一方を用いて、前記第1対象視点画像のピクセル毎に前記第1変形方法を決定し、
前記カーネル変形部は、前記基準カーネルを、前記第1対象視点画像のピクセル毎に、前記第1対象視点画像のピクセル毎に決定された前記第1変形方法を用いて変形することによって、前記第1対象視点画像のピクセルの各々に対応する前記第1変形後カーネルを生成し、
前記畳込演算部は、前記第1対象視点画像のピクセル毎に生成された前記第1変形後カーネルを用いて、前記第1対象視点画像における各ピクセルにおける畳込演算を行うことによって、前記第1特徴マップを生成する、
発明1から発明3のいずれか1つに記載の特徴マップ生成装置。
【0180】
(発明5)
前記カーネル変形部は、前記基準カーネルを、前記第1変形方法を用いて変形したカーネルを第1仮変形後カーネルとし、前記第1仮変形後カーネルに対して正方格子で配置された座標を用いた補間処理を行うことにより、前記第1変形後カーネルを生成する、
発明1から発明4のいずれか1つに記載の特徴マップ生成装置。
【0181】
(発明6)
前記カーネル変形方法決定部は、互いに異なる複数の法線方向の各々に対応する前記第1変形方法を決定し、
前記カーネル変形部は、前記基準カーネルを、前記法線方向の各々に対して決定された前記第1変形方法を用いて変形することによって、前記法線方向の各々に対応する前記第1変形後カーネルを生成し、
前記畳込演算部は、前記法線方向の各々に対して生成された前記第1変形後カーネルを用いて、前記第1対象視点画像に対する畳込演算を行うことによって、前記法線方向の各々に対応する前記第1特徴マップを生成する、
発明1から発明5のいずれか1つに記載の特徴マップ生成装置。
【0182】
(発明7)
複数の前記特徴マップにおける対応点からコスト値を計算するコスト値計算部を更に備え、
前記コスト値計算部は、
前記法線方向の各々に対応する前記第1特徴マップにおける対応点のそれぞれの特徴量から算出される、前記対応点の特徴量が類似する度合に基づく仮コスト値を計算し、
前記法線方向の各々に対応して計算された前記仮コスト値のうち、前記対応点の特徴量が最も類似する前記仮コスト値を、前記コスト値とする、
発明6に記載の特徴マップ生成装置。
【符号の説明】
【0183】
1…特徴マップ生成装置
100…カーネル変形方法決定部
101…カーネル変形部
102…畳込演算部
103…コスト値計算部
図1
図2
図3
図4
図5
図6
図7A
図7B
図8
図9