IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 凸版印刷株式会社の特許一覧

特開2024-10528特徴マップ生成装置、画像マッチングシステム、特徴マップ生成方法、及びプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024010528
(43)【公開日】2024-01-24
(54)【発明の名称】特徴マップ生成装置、画像マッチングシステム、特徴マップ生成方法、及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240117BHJP
   G06V 10/82 20220101ALI20240117BHJP
【FI】
G06T7/00 350C
G06V10/82
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022111909
(22)【出願日】2022-07-12
(71)【出願人】
【識別番号】000003193
【氏名又は名称】TOPPANホールディングス株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100139686
【弁理士】
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100169764
【弁理士】
【氏名又は名称】清水 雄一郎
(74)【代理人】
【識別番号】100147267
【弁理士】
【氏名又は名称】大槻 真紀子
(72)【発明者】
【氏名】渡邉 隆史
(72)【発明者】
【氏名】酒井 修二
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096EA33
5L096EA39
5L096FA25
5L096FA26
5L096FA67
5L096HA11
5L096JA05
5L096KA04
(57)【要約】
【課題】意図した変形が可能なカーネルを用いて畳込演算を行う。
【解決手段】対象画像に対して、幾何学変換を用いて、前記対象画像に対応するカーネルの変形方法を複数決定するカーネル変形方法決定部と、基準となる基準カーネルを、前記変形方法を用いてそれぞれ変形することによって、変形後カーネルを複数生成するカーネル変形部と、前記変形後カーネルを用いて前記対象画像に畳込演算を行うことによって前記対象画像における特徴量をそれぞれ抽出し、抽出した特徴量を用いて前記対象画像に対応する特徴マップを複数生成する畳込演算部と、前記畳込演算部によって生成された複数の前記特徴マップを統合する統合方法を決定する特徴統合方法決定部と、前記特徴統合方法決定部によって決定された前記統合方法により、複数の前記特徴マップを統合することによって統合特徴マップを生成する特徴マップ統合部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
1つ以上の対象画像における特徴マップを生成する特徴マップ生成装置であって、
前記対象画像に対して、幾何学変換を用いて、前記対象画像に対応するカーネルの変形方法を複数決定するカーネル変形方法決定部と、
基準となる基準カーネルを、前記変形方法を用いてそれぞれ変形することによって、前記対象画像に対する畳込演算に用いるカーネルである変形後カーネルを複数生成するカーネル変形部と、
前記変形後カーネルを用いて前記対象画像に畳込演算を行うことによって前記対象画像における特徴量をそれぞれ抽出し、抽出した特徴量を用いて前記対象画像に対応する特徴マップを複数生成する畳込演算部と、
前記畳込演算部によって生成された複数の前記特徴マップを統合する統合方法を決定する特徴統合方法決定部と、
前記特徴統合方法決定部によって決定された前記統合方法により、複数の前記特徴マップを統合することによって統合特徴マップを生成する特徴マップ統合部と、
を備える特徴マップ生成装置。
【請求項2】
前記カーネル変形方法決定部は、前記幾何学変換として、射影変換、アフィン変換、球体、又は円筒の曲率の何れかを用いた変換を前記変形方法として決定する、
請求項1に記載の特徴マップ生成装置。
【請求項3】
前記カーネル変形部は、前記基準カーネルを、前記変形方法を用いて変形したカーネルを仮変形後カーネルとし、前記仮変形後カーネルに対して正方格子で配置された座標を用いた補間処理を行うことにより、前記変形後カーネルを生成する、
請求項1に記載の特徴マップ生成装置。
【請求項4】
前記特徴統合方法決定部は、前記特徴マップのピクセル毎に、複数の前記特徴マップのそれぞれに対する重み係数をそれぞれ決定し、
前記特徴マップ統合部は、前記特徴マップのピクセル毎に、前記重み係数を用いて、複数の前記特徴マップのそれぞれに前記重み係数を乗算して合成したマップを、前記統合特徴マップとして生成する、
請求項1に記載の特徴マップ生成装置。
【請求項5】
前記特徴統合方法決定部は、前記対象画像から、前記特徴マップとは異なる第2特徴マップを生成し、前記特徴マップのピクセル毎に、前記第2特徴マップにおける特徴量に応じた前記重み係数を決定する、
請求項4に記載の特徴マップ生成装置。
【請求項6】
前記特徴統合方法決定部は、前記対象画像とは異なる第2対象画像を取得し、取得した前記第2対象画像から、前記特徴マップとは異なる第2特徴マップを生成し、前記特徴マップのピクセル毎に、前記第2特徴マップにおける特徴量に応じた値を前記重み係数として決定する、
請求項4に記載の特徴マップ生成装置。
【請求項7】
前記特徴統合方法決定部は、複数の前記特徴マップから、前記特徴マップとは異なる第2特徴マップを生成し、前記特徴マップのピクセル毎に、前記第2特徴マップにおける特徴量に応じた値を前記重み係数として決定する、
請求項4に記載の特徴マップ生成装置。
【請求項8】
前記特徴統合方法決定部は、基準特徴ベクトルを取得し、複数の前記特徴マップのそれぞれにおけるピクセル毎に、各ピクセルの特徴量と前記基準特徴ベクトルとの内積に応じた前記重み係数を決定する、
請求項4に記載の特徴マップ生成装置。
【請求項9】
前記特徴統合方法決定部は、最大値又は最小値を選択する方法を、前記統合方法として決定し、
前記特徴マップ統合部は、前記特徴マップのピクセル毎に、複数の前記特徴マップの各ピクセルにおける特徴量のそれぞれの最大値又は最小値が選択されたマップを前記統合特徴マップとして生成する、
請求項1から請求項3の何れか一項に記載の特徴マップ生成装置。
【請求項10】
前記特徴マップ統合部によって生成された統合特徴マップを用いてクラス分類を行うクラス分類部、を更に備える、
請求項1に記載の特徴マップ生成装置。
【請求項11】
前記特徴マップ統合部によって生成された前記統合特徴マップを用いてクラス分類を行うクラス分類部、を更に備え、
前記カーネル変形方法決定部は、複数の法線方向のそれぞれに基づいて複数の前記変形方法を決定し、
前記特徴統合方法決定部は、前記法線方向に基づいて、前記クラス分類部におけるクラス分類の誤差が最小化されるような前記重み係数を学習により推定することによって決定する、
請求項4から請求項7のいずれか一項に記載の特徴マップ生成装置。
【請求項12】
前記特徴マップ統合部によって生成された前記統合特徴マップを用いてクラス分類を行うクラス分類部、を更に備え、
前記カーネル変形方法決定部は、複数の法線ベクトルを取得し、複数の前記法線ベクトルのそれぞれに基づいて複数の前記変形方法を決定し、
前記特徴統合方法決定部は、前記クラス分類部によって分類される各クラスにおける代表的な画像から生成した特徴ベクトルを、前記基準特徴ベクトルとする、
請求項8に記載の特徴マップ生成装置。
【請求項13】
請求項1に記載の特徴マップ生成装置によって生成された統合特徴マップを用いて、画像をマッチングさせる、
画像マッチングシステム。
【請求項14】
1つ以上の対象画像における特徴マップを生成する特徴マップ生成装置が行う特徴マップ生成方法であって、
カーネル変形方法決定部が、前記対象画像に対して、幾何学変換を用いて、前記対象画像に対応するカーネルの変形方法を複数決定し、
カーネル変形部が、基準となる基準カーネルを、前記変形方法を用いてそれぞれ変形することによって、前記対象画像に対する畳込演算に用いるカーネルである変形後カーネルを複数生成し、
畳込演算部が、前記変形後カーネルを用いて前記対象画像に畳込演算を行うことによって前記対象画像における特徴量をそれぞれ抽出し、抽出した特徴量を用いて前記対象画像に対応する特徴マップを複数生成し、
特徴統合方法決定部が、前記畳込演算部によって生成された複数の前記特徴マップを統合する統合方法を決定し、
特徴マップ統合部が、前記特徴統合方法決定部によって決定された前記統合方法により、複数の前記特徴マップを統合することによって統合特徴マップを生成する、
特徴マップ生成方法。
【請求項15】
1つ以上の対象画像における特徴マップを生成する特徴マップ生成装置に、特徴マップを生成させるプログラムであって、
前記対象画像に対して、幾何学変換を用いて、前記対象画像に対応するカーネルの変形方法を複数決定させ、
基準となる基準カーネルを、前記変形方法を用いてそれぞれ変形することによって、前記対象画像に対する畳込演算に用いるカーネルである変形後カーネルを複数生成させ、
前記変形後カーネルを用いて前記対象画像に畳込演算を行うことによって前記対象画像における特徴量をそれぞれ抽出し、抽出した特徴量を用いて前記対象画像に対応する特徴マップを複数生成させ、
複数の前記特徴マップを統合する統合方法を決定させ、
前記統合方法により、複数の前記特徴マップを統合することによって統合特徴マップを生成させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特徴マップ生成装置、画像マッチングシステム、特徴マップ生成方法、及びプログラムに関する。
【背景技術】
【0002】
画像マッチングにおいて、機械学習が利用され始めている。画像マッチングでは、画像から特徴量を抽出し、画像から抽出した特徴を他の画像の特徴と比較することによって2つの画像における類似度などを求め、2つの画像のマッチング(対応づけ)が行われる。画像マッチングの技術は、画像に写っているものの識別、セグメンテーション、ステレオマッチングによる三次元情報の取得、及び画像生成等に利用されている。
【0003】
例えば、非特許文献1-2には、画像から特徴量を抽出する技術が開示されている。非特許文献1-2では、畳込演算を連結させることによって特徴量の抽出が行われる。畳込演算に用いられるカーネルは正方格子である。正方格子のカーネルを用いて畳込演算を行う場合、抽出される特徴量には撮像角度に対するロバスト性がない。
【0004】
この対策として、撮像角度を変えて撮像した大量の画像等を学習用のデータとして用意し、撮像角度の変化を機械学習モデルに学習させることが考えられる。非特許文献3には、畳込演算に用いるカーネルを変形する方法を機械学習モデルに学習させる方法が提案されている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Karen Simonyan、Andrew Zisserman、”VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION”、[online]、[令和4年6月30日検索]、インターネット<URL:https://arxiv.org/pdf/1409.1556.pdf>.
【非特許文献2】Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun、”Deep Residual Learning for Image Recognition”、[online]、[令和4年6月7日検索]、インターネット<URL:https://arxiv.org/pdf/1512.03385.pdf>.
【非特許文献3】Jifeng Dai、Haozhi Qi、Yuwen Xiong、Yi Li、Guodong Zhang、Han Hu、Yichen Wei、”Deformable Convolutional Networks”、[online]、[令和4年6月7日検索]、インターネット<URL:https://openaccess.thecvf.com/content_ICCV_2017/papers/Dai_Deformable_Convolutional_Networks_ICCV_2017_paper.pdf>.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、非特許文献3の手法では、カーネルの変形方法が学習されるが、学習結果として意図しない変形方法が推定される恐れがあり、撮像角度に対するロバスト性がない変形方法が推定されてしまう可能性がある。例えば、撮像角度が変化した場合、カーネルの変形方法として撮像角度に応じた射影変換をする方法が推定されることが期待されるが、正方格子のオフセット量が推定され、その結果が射影変換にならない可能性がある。
【0007】
本発明は、上記の課題に基づいてなされたものであり、意図した変形が可能なカーネルを用いて畳込演算を行うことができる特徴マップ生成装置、画像マッチングシステム、特徴マップ生成方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の特徴マップ生成装置は、1つ以上の対象画像における特徴マップを生成する特徴マップ生成装置であって、前記対象画像に対して、幾何学変換を用いて、前記対象画像に対応するカーネルの変形方法を複数決定するカーネル変形方法決定部と、基準となる基準カーネルを、前記変形方法を用いてそれぞれ変形することによって、前記対象画像に対する畳込演算に用いるカーネルである変形後カーネルを複数生成するカーネル変形部と、前記変形後カーネルを用いて前記対象画像に畳込演算を行うことによって前記対象画像における特徴量をそれぞれ抽出し、抽出した特徴量を用いて前記対象画像に対応する特徴マップを複数生成する畳込演算部と、前記畳込演算部によって生成された複数の前記特徴マップを統合する統合方法を決定する特徴統合方法決定部と、前記特徴統合方法決定部によって決定された前記統合方法により、複数の前記特徴マップを統合することによって統合特徴マップを生成する特徴マップ統合部と、を備える。
【0009】
本発明の画像マッチングシステムは、上記に記載の特徴マップ生成装置によって生成された統合特徴マップを用いて、画像をマッチングさせる。
【0010】
本発明の特徴マップ生成方法は、1つ以上の対象画像における特徴マップを生成する特徴マップ生成装置が行う特徴マップ生成方法であって、カーネル変形方法決定部が、前記対象画像に対して、幾何学変換を用いて、前記対象画像に対応するカーネルの変形方法を複数決定し、カーネル変形部が、基準となる基準カーネルを、前記変形方法を用いてそれぞれ変形することによって、前記対象画像に対する畳込演算に用いるカーネルである変形後カーネルを複数生成し、畳込演算部が、前記変形後カーネルを用いて前記対象画像に畳込演算を行うことによって前記対象画像における特徴量をそれぞれ抽出し、抽出した特徴量を用いて前記対象画像に対応する特徴マップを複数生成し、特徴統合方法決定部が、前記畳込演算部によって生成された複数の前記特徴マップを統合する統合方法を決定し、特徴マップ統合部が、前記特徴統合方法決定部によって決定された前記統合方法により、複数の前記特徴マップを統合することによって統合特徴マップを生成する。
【0011】
本発明のプログラムは、1つ以上の対象画像における特徴マップを生成する特徴マップ生成装置に、特徴マップを生成させるプログラムであって、前記対象画像に対して、幾何学変換を用いて、前記対象画像に対応するカーネルの変形方法を複数決定させ、基準となる基準カーネルを、前記変形方法を用いてそれぞれ変形することによって、前記対象画像に対する畳込演算に用いるカーネルである変形後カーネルを複数生成させ、前記変形後カーネルを用いて前記対象画像に畳込演算を行うことによって前記対象画像における特徴量をそれぞれ抽出し、抽出した特徴量を用いて前記対象画像に対応する特徴マップを複数生成させ、複数の前記特徴マップを統合する統合方法を決定させ、前記統合方法により、複数の前記特徴マップを統合することによって統合特徴マップを生成させる、プログラムである。
【発明の効果】
【0012】
本発明によれば、意図した変形が可能なカーネルを用いて畳込演算を行うことができる。
【図面の簡単な説明】
【0013】
図1】実施形態の特徴マップ生成装置1に共通する構成を示すブロック図である。
図2】実施形態の特徴マップ生成装置1が行う処理を説明するための図である。
図3】実施形態の特徴マップ生成装置1が行う処理を説明するための図である。
図4】実施形態の特徴マップ生成装置1が行う処理を説明するための図である。
図5A】実施形態による処理を説明する図である。
図5B】実施形態による処理を説明する図である。
図6】第1実施形態の特徴マップ生成装置1の構成を示すブロック図である。
図7A】第1実施形態の例1~例2及び例4~例5による処理を説明する図である。
図7B】第1実施形態の例1~例2及び例4~例5による処理を説明する図である。
図8A】第1実施形態の例3による処理を説明する図である。
図8B】第1実施形態の例3による処理を説明する図である。
図9A】第2実施形態の特徴マップ生成装置1の構成を示すブロック図である。
図9B】第2実施形態による処理を説明する図である。
図9C】第2実施形態による処理を説明する図である。
図10A】第3実施形態の特徴マップ生成装置1の構成を示すブロック図である。
図10B】第3実施形態による処理を説明する図である。
図10C】第3実施形態による処理を説明する図である。
図11A】第4実施形態の特徴マップ生成装置1の構成を示すブロック図である。
図11B】第4実施形態による処理を説明する図である。
図11C】第4実施形態による処理を説明する図である。
図12A】第5実施形態の特徴マップ生成装置1の構成を示すブロック図である。
図12B】第5実施形態による処理を説明する図である。
図12C】第5実施形態による処理を説明する図である。
図12D】第5実施形態による処理を説明する図である。
図12E】第5実施形態による処理を説明する図である。
【発明を実施するための形態】
【0014】
以下、実施形態の特徴マップ生成装置1を、図面を参照しながら説明する。以下では、特徴マップ生成装置1を、以下の複数の実施形態に適用する例について、それぞれ説明する。
【0015】
第1実施形態:クラス分類システム
第2実施形態:ステレオマッチングシステム
第3実施形態:単視点デプスマップ生成システム
第4実施形態:文字認識システム
第5実施形態:スタイル転写システム
【0016】
第1実施形態では、画像全体又は画像の一部をクラス毎に分類するようなクラス分類システムに、特徴マップ生成装置1を適用する実施形態について説明する。例えば画像に撮像された動物が猫であるか否かを画像認識する、或いは、猫が撮像されている画素を特定するような場合に、クラス分類システムが利用される。
第2実施形態では、同じ対象物体を異なる視点から撮像したステレオ画像からデプスマップを生成するようなステレオマッチングシステムに、特徴マップ生成装置1を適用する実施形態について説明する。
第3実施形態では、1つの画像からデプスマップを生成するような単視点デプスマップ生成システムに、特徴マップ生成装置1を適用する実施形態について説明する。
第4実施形態では、画像に示されている文字を認識するような文字認識システムに、特徴マップ生成装置1を適用する実施形態について説明する。
第5実施形態では、スタイル画像に示されているスタイルを、転写先画像に転写した転写後が送を生成するようなスタイル転写システムに、特徴マップ生成装置1を適用する実施形態について説明する。
【0017】
<各実施形態に共通する構成>
まず、各実施形態に共通する構成について、図1図4を用いて説明する。各実施形態に共通する構成として、特徴マップ生成装置1では、特徴マップを生成する対象とする画像(対象画像、又は対象視点画像という)に対し、変形後カーネルを使用して、特徴抽出、及び、特徴マップ生成が行われる。特徴マップ生成装置1では、変形方法により決められたルールに従って基準カーネルを変形することによって変形後カーネルが生成される。これにより、本実施形態の特徴マップ生成装置1では、カーネルの変形自体を、機械学習の学習に含めないようにすることができる。したがって、カーネルを変形させる方法が局所解に陥ることがなく、意図した変形を行うことが可能となる。これにより、撮像角度に対するロバスト性を高めることができる。
【0018】
図1は、実施形態に係る特徴マップ生成装置1の構成の一例を示すブロック図である。図1には、各実施形態に共通する構成としての基本構成10の例が示されている。
【0019】
図1に示すように、特徴マップ生成装置1は、例えば、カーネル変形部101、畳込演算部102、特徴統合方法決定部103、特徴マップ統合部104、画像記憶部105、特徴マップ記憶部106、基準カーネル記憶部107、及び変形後カーネル記憶部108を備える。
【0020】
カーネル変形方法決定部100は、カーネルを変形させる変形方法を決定する。ここでのカーネルは、二次元画像座標に畳み込み係数を対応させた配列である(例えば、(5)式を参照)。カーネルは、画像における各画素と畳込演算を行う際に用いられる。
【0021】
ここで、図2図3を用いて、カーネル変形方法決定部100がカーネルの変形方法を決定する処理ついて説明する。図2及び図3は、実施形態の特徴マップ生成装置1が行う処理を説明するための図である。
【0022】
図2には、対象物体(Target Object)が、互いに異なる視点(View1~View3)から撮像される例が模式的に示されている。視点View1におけるカメラパラメータを{K、R、t}とする。視点View2のカメラパラメータを{K、R、t}とする。視点View3のカメラパラメータを{K、R、t}とする。なお、Kはカメラパラメータにおける内部パラメータを表す。Rはカメラパラメータにおける回転行列を表す。tはカメラパラメータにおける並進ベクトルを表す。
【0023】
また、対象物体において、対象物体の表面にある三次元座標Mと法線方向nの組{M、n}を定義することができる。
【0024】
図2に示すように、多視点画像におけるカメラの撮像位置及び姿勢(撮像角度)により、対象物体の見え方が変わる。ここでの多視点画像とは、同じ対象物体を、互いに異なる視点(撮像位置及び姿勢)から撮像した複数の画像である。例えば、視点View1にて対象物体を撮像した場合、対象物体を正面からみた画像が撮像される。視点View2にて対象物体を撮像した場合、視点View1に対し、上下左右が逆であり、且つ拡大された画像が撮像される。視点View3にて対象物体を撮像した場合、対象物体を斜めの方向から見た画像が撮像される。
【0025】
このように、同じ対象物体を異なる視点から撮像した多視点画像において、画像間に回転、拡大縮小、射影変換などの平行移動以外の画像変形が生じることが多い。画像間に平行移動以外の画像変形が生じた場合、一般的な畳込演算を用いて各画像から抽出した畳込演算の演算結果(特徴量)が、各画像の対応点においてが異なる値となるため、三次元復元精度が著しく低下する。
【0026】
これに対し、各実施形態では、画像変形に応じて、畳込演算に用いるカーネルを変形させ、変形させた後のカーネル(後述する変形後カーネル)を用いて、その画像について畳込演算を行うようにした。こうすることによって、画像間における画像変形画大きい場合であっても各画像から抽出した畳込演算の演算結果(特徴量)が、各画像の対応点において同じような値になるようにすることができ、三次元復元精度が低下してしまうことを抑制することが可能となる。
【0027】
カーネル変形方法決定部100は、画像変形に応じてカーネルを変形させる方法を決定する。具体的には、カーネル変形方法決定部100は、画像における視点と、対象物体の表面にある三次元座標M及びその法線方向nの組{M、n}の関係に応じて、畳込演算に用いるカーネルを変形させる方法を決定する。以下では、カーネル変形方法決定部100が、畳込演算に用いるカーネルを変形させる方法を決定する処理について説明する。
【0028】
図3には、カーネルを変形させた例が模式的に示されている。カーネル変形方法決定部100は、基準カーネル(Common Kernel)において、例えば正方格子などを用いて設定された二次元座標が、各画像における対応点の二次元座標となるように、基準カーネルを変形させる変形方法を決定する。
【0029】
例えば、カーネル変形方法決定部100は、基準カーネルにおける二次元座標P00、P10、P20、P30のそれぞれが、視点View1における対応点、例えば、対象物体の右目、左目、右側の口角、左側の口角のそれぞれの位置に対応する二次元座標P01、P11、P21、P31に変換されるように、視点View1に対応する変形方法を決定する。
【0030】
カーネル変形方法決定部100は、基準カーネルにおける二次元座標P00、P10、P20、P30のそれぞれが、視点View2における対応点のそれぞれの二次元座標P02、P12、P22、P32に変換されるように、視点View2に対応する変形方法を決定する。
【0031】
カーネル変形方法決定部100は、基準カーネルにおける二次元座標P00、P10、P20、P30のそれぞれが、視点View3における対応点のそれぞれの二次元座標P03、P13、P23、P33に変換されるように、視点View3に対応する変形方法を決定する。
【0032】
また、カーネル変形方法決定部100は、2つの画像間の画像変形に応じて、変形方法を決定するようにしてもよい。
【0033】
例えば、カーネル変形方法決定部100は、視点View1における座標が、視点View2における対応点がある座標に変換されるように、変形方法を決定する。具体的には、カーネル変形方法決定部100は、視点View1における二次元座標P01、P11、P21、P31が、視点View2における対応点、つまり二次元座標P02、P12、P22、P32に変換されるように、視点View2に対応する変形方法を決定する。カーネル変形方法決定部100は、視点View1における二次元座標P01、P11、P21、P31が、視点View3における対応点、つまり二次元座標P03、P13、P23、P33に変換されるように、視点View3に対応する変形方法を決定する。
【0034】
図1に戻り、カーネル変形方法決定部100は、画像記憶部105から、畳込演算を行う対象とする画像(対象視点画像)における各視点に対応するカメラパラメータを取得する。カーネル変形方法決定部100は、画像記憶部105から三次元点の座標(位置座標)と法線方向を取得する。カーネル変形方法決定部100は、各視点に対応するカメラパラメータと三次元点の座標と法線方向とから、対象視点画像に対応するカーネルの変形方法を決定する。
【0035】
カーネルの変形方法として、例えば、射影変換を用いる場合、カーネル変形方法決定部100は、射影変換行列Hを算出する。射影変換行列Hは(1)式を用いて計算することができる。
【0036】
【数1】
【0037】
ここで、(1)式における三次元点の座標Mと法線方向nは、参照視点画像におけるカメラ座標系で与えられる。ここでの参照視点画像とは、対象視点画像と同じ対象物体が撮像された画像であって、対象視点画像とは異なる画像である。(1)式に示す射影変換行列Hは、三次元点の座標Mと法線方向nで定義される三次元平面を介して、参照視点画像における二次元画像座標を、対象視点画像における二次元画像座標に変換する座標変換行列に相当する。
【0038】
このようにして決定されたカーネル変形方法で変形されたカーネルを用いた畳込演算を行うことにより、三次元点の座標と法線方向が実際の対象表面における三次元座標と法線方向と近い場合に、多視点画像間の画像変形による特徴量の変化が軽減され、画像変形が大きい多視点画像でも各視点の対応点において近い特徴量を抽出することができる。
【0039】
カーネル変形方法決定部100は、例えば、参照視点画像のカメラパラメータと、対象視点画像のカメラパラメータとの二つの視点におけるカメラパラメータを用いてカーネル変形方法を決定する。或いは、カーネル変形方法決定部100は、対象視点画像のカメラパラメータのみ、つまりひとつの視点におけるカメラパラメータを用いてカーネル変形方法を決定しても良い。
【0040】
対象視点画像におけるひとつの視点のカメラパラメータのみを用いる場合、カーネル変形方法決定部100は、対象視点画像におけるカメラ座標系で与えられた三次元点の座標と法線方向を用いる。
【0041】
一視点のカメラパラメータのみを用いる場合、例えば、カーネル変形方法決定部100は、対象視点に設けられるカメラに正対した平面を、与えられた法線方向に回転させる射影変換行列を、カーネル変形方法として決定する。一視点のカメラパラメータのみを用いる場合、多視点画像における各視点画像を用いて、それぞれ独立に、つまり参照視点画像とは無関係に、特徴量を抽出する処理を行うことができるという利点がある。
【0042】
一方、参照視点画像のカメラパラメータと、対象視点画像のカメラパラメータとの二視点のカメラパラメータを用いる場合、複数の視点での整合性がとれた特徴量を抽出することができるという利点がある。
【0043】
カーネル変形方法決定部100は、例えば、一組の参照視点画像のカメラパラメータと対象視点画像のカメラパラメータに対して、一組の三次元点の座標と法線方向を画像記憶部105から読み込んで、ひとつの射影変換行列を決定する。
【0044】
或いは、カーネル変形方法決定部100は、対象視点画像におけるピクセルごとに異なる三次元点の座標と法線方向を画像記憶部105から読み込んで、対象視点画像におけるピクセルごとに異なる射影変換行列を決定しても良い。
【0045】
一般に、対象物体の対象表面における三次元座標と法線方向は、対象視点画像におけるピクセルごとに異なる。そのため、ピクセルごとに異なる三次元点の座標と法線方向を用いて、ピクセルごとに異なる射影変換行列を決定した方が、最終的な三次元復元誤差は小さくなる可能性が高い。一方で、ピクセルごとに異なる変形方法でカーネルを変形する場合、計算コストが大きくなる。このため、視点ごとにひとつの変形方法を用いたほうが処理時間を短くすることができる。
【0046】
カーネル変形方法決定部100は、例えば、一組の参照視点画像のカメラパラメータ、対象視点画像のカメラパラメータ、および三次元点の座標に対して、ひとつの法線方向を画像記憶部105から読み込んで、ひとつの射影変換行列を決定する。
【0047】
或いは、カーネル変形方法決定部100は、一組の参照視点画像のカメラパラメータ、対象視点画像のカメラパラメータ、および三次元点の座標に対して、二つ以上からなる複数の法線方向を画像記憶部105から読み込んで、それぞれの法線方向に対応して複数の射影変換行列を決定しても良い。
【0048】
一般に、考慮する法線方向の数が多いほど、後述する畳込演算部102で演算される特徴量からなる特徴マップについて、複数の法線方向の各々に対応する特徴マップの中に多視点の特徴マップと整合性がとれる特徴マップが含まれる可能性が高くなる。一方、考慮する法線方向の数が少ないほど、計算コストが小さくなるという利点がある。
【0049】
カーネル変形部101は、変形後カーネルを生成する。カーネル変形部101は、例えば、基準カーネル記憶部107から基準カーネルを読み込むことによって基準カーネルを取得する。カーネル変形部101は、カーネル変形方法決定部100により決定されたカーネル変形方法に従い、基準カーネルを変形させることによって変形後カーネルを生成する。カーネル変形部101は、生成した変形後カーネルを変形後カーネル記憶部108に書き込む。
【0050】
例えば、カーネル変形方法が射影変換行列Hで表現される射影変換であった場合、カーネル変形部101は、(2)式を用いて基準カーネルを変形することによって変形後カーネルを生成する。
【0051】
【数2】
【0052】
カーネル変形部101は、異なる複数のカーネル変形方法が与えられた際に、同一の基準カーネルをそれぞれ異なるカーネル変形方法で変形させ、それぞれ異なる複数の変形後カーネルを生成するようにしても良い。
【0053】
つまり、カーネル変形部101は、対象視点画像、三次元点の座標、及び法線方向の組合せに応じて、同じ基準カーネルに対して異なる変形後カーネルを生成する。また、カーネル変形部101は、異なる対象視点画像、異なる三次元点の座標、及び異なる法線方向に対して、共通する同じ基準カーネルを用いて、それぞれの対象視点画像、三次元点の座標、及び法線方向に合わせた変形後カーネルを生成する。
【0054】
基準カーネルが正方格子で配置された整数の二次元画像座標を持つ場合でも、変形方法によっては、変形後カーネルの二次元画像座標が実数を持つ可能性がある。これに対して、カーネル変形部101は、変形後カーネルが実数の座標を持つ場合、その実数の座標を持つ変形後カーネルに対して、正方格子で配置された整数の二次元画像座標で補間処理を行うことにより整数の二次元画像座標をもつ変形後カーネルを生成しても良い。ここで、実数の二次元画像座標を持つ変形後カーネルは、「仮変形後カーネル」の一例である。補間方法としては、例えば、双線形補間を用いることができる。
【0055】
ここで、図4を用いて、カーネル変形部101が整数の二次元画像座標をもつ変形後カーネルを生成する例について説明する。図4は、実施形態の特徴マップ生成装置1が行う処理を説明するための図である。
【0056】
図4における各視点(View1~View3)の左から2番目には、各視点に対応させた変形後カーネルを、5×5の正方格子の上にマッピングさせた例が模式的に示されている。この図の例に示すように、変形後カーネルの二次元画像座標が実数を持つ場合、正方格子上の任意の点に変形後カーネルの二次元画像座標がマッピングされる。
【0057】
図4における各視点(View1~View3)の左から3番目には、実数の座標を持つ変形後カーネルに双線形補間(Bilinear Interpolation)による補間処理を行うことにより、整数の二次元画像座標をもつ変形後カーネルを生成した例が模式的に示されている。
【0058】
これにより、変形後カーネルが一般的な畳込演算で用いられるカーネルと同様に整数の二次元画像座標を持つものとすることができる。このため、一般的な畳込演算処理をそのまま利用して、変形後カーネルを用いた畳込演算を実行することができる。
【0059】
変形後カーネルが実数の座標を持つ場合、後述する畳込演算部102において畳込演算を実行する際に、畳込演算を行う各ピクセルの演算において補間処理が必要となるため、計算コストが大きくなる。これに対して、変形後カーネルが整数の座標を持つようにすることによって、各ピクセルの演算において補間処理を行う必要がなくなる。このため、畳込演算部102が行う処理に要する時間を短くすることが可能である。
【0060】
畳込演算部102は、畳込演算を行う。畳込演算部102は、例えば、変形後カーネル記憶部108から変形後カーネルを読み込んで取得する。また、畳込演算部102は、画像記憶部105から対象視点画像を読み込んで取得する。畳込演算部102は、変形後カーネルを用いて、対象視点画像に畳込演算を行う。畳込演算部102は、対象視点画像に、畳込演算の演算結果を特徴量として対応づけた特徴マップを生成する。畳込演算部102は、生成した特徴マップを特徴マップ記憶部106に記憶させる。
【0061】
変形後カーネルを用いて畳込演算を行うことにより、多視点画像間の画像変形が大きい場合においても、画像変形によって特徴量(畳込演算の演算結果)が変化する度合が軽減され、各視点において抽出されるそれぞれの対応における特徴量が近い値となる。
【0062】
変形後カーネルが正方格子で配置された整数の二次元画像座標を持つカーネルである場合、畳込演算部102は、一般的な畳込演算により対象視点画像に畳込演算を行う。一方、変形後カーネルが実数の二次元画像座標を持つカーネルである場合、畳込演算部102は、例えば、対象視点画像における実数の二次元画像座標の画素値を、その周囲にある整数の二次元画像座標の画素値を補間するとによって算出し、算出した実数の二次元画像座標の画素値に対し、実数の二次元画像座標を持つカーネルを用いた畳込演算を行う。
【0063】
補間方法としては、例えば、双線形補間を用いる。ここで、畳込演算において、実数の二次元画像座標をもつカーネルを用いて、補間により求めた実数の二次元画像座標の画素値に畳込演算を行うことと、実数の二次元画像座標をもつカーネルを整数の座標系で補間し、補間後のカーネルを用いて整数の二次元画像座標の画素値に畳込演算を行うことは、同じ演算結果となる。
【0064】
変形後カーネルが、ひとつの対象視点画像に対して決定されたひとつのカーネルである場合、畳込演算部102は、対象視点画像において共通する同一の変形後カーネルを用いて畳込演算を行う。
【0065】
一方、変形後カーネルが、対象視点画像におけるピクセルごとに決定された、ピクセルごとに異なる変形後カーネルである場合、畳込演算部102は、対象視点画像において、ピクセルごとに異なる変形後カーネルを用いて畳込演算を行う。
【0066】
畳込演算部102は、ひとつの対象視点画像に対して、複数の変形後カーネルを用いて畳込演算を行い、特徴マップを生成しても良い。例えば、畳込演算部102は、複数の変形後カーネルを変形後カーネル記憶部108から読み込み、ひとつの対象視点画像を多視点画像記憶部から読み込み、読み込んだ対象視点画像に対して、異なる複数の変形後カーネルを用いて順に畳込演算を行い、特徴マップを生成する。この場合、ひとつの対象視点画像に対して、複数の変形後カーネルのそれぞれに対応する複数の特徴マップが生成される。
【0067】
特徴統合方法決定部103は、畳込演算部102によって生成された複数の特徴マップを統合する方法(統合方法)を決定する。特徴統合方法決定部103は、対象画像から特徴量を抽出する際に設定された条件(例えば、法線方向)が、実際の対象物体に近いものが、強調されるように統合方法を決定する。
【0068】
例えば、特徴統合方法決定部103は、特徴マップのそれぞれの重み係数を決定することにより、統合方法を決定する。対象画像から特徴量を抽出する際に設定された条件が、実際の対象物体に近い特徴マップの重み係数が大きい値となるようにすることによって、実際の対象物体に近い特徴マップが、強調された統合特徴マップを生成することができる。特徴統合方法決定部103が特徴マップのそれぞれの重み係数を決定する具体的な方法は、後述する第1実施形態にて説明する。
【0069】
また、特徴統合方法決定部103は、最大値又は最小値を選択する方法を、統合方法として決定してもよい。これにより、複数の特徴マップのうちの最大値又は最小値を有する特徴量を有するマップを統合特徴マップとすることができる。
【0070】
特徴マップ統合部104は、統合特徴マップを生成する。特徴マップ統合部104は、畳込演算部102によって生成された複数の特徴マップを、特徴統合方法決定部103によって決定された方法を用いて統合する。特徴マップ統合部104は、複数の特徴マップを統合した特徴マップを、統合特徴マップとして生成する。特徴マップ統合部104は、例えば、特徴統合方法決定部103によって決定された重み係数を用いて、統合特徴マップとして生成する。例えば、特徴マップA、B、Cに対する重み係数がα、β、γであった場合、重みづけ和としての各特徴マップに重み係数を乗算して合成した値、すなわち、αA+βB+γCを、統合特徴マップとして生成する。なお、重み係数は、画像(特徴マップ)単位で決定されても良いし、ピクセル単位で決定されても良い。特徴マップ統合部104は、統合特徴マップを、特徴マップ記憶部106に記憶させる。
【0071】
画像記憶部105は、特徴マップを生成する対象とする複数の対象視点画像と、その対象視点画像の各視点に対応するカメラパラメータを記憶する。
【0072】
また、画像記憶部105は、あらかじめ用意される三次元点の座標群{M}、および法線群{n}を記憶する。画像記憶部105は、三次元座標群および法線群の中から選択した三次元点の座標と法線方向の組を、カーネル変形方法を決めるための三次元点の座標および法線方向の組としてもよい。
【0073】
ここで、あらかじめ用意される三次元点の座標群{M}は、例えば、(3)式で示される。
【0074】
【数3】
【0075】
また、あらかじめ用意される法線群{n}は、例えば、(4)式で示される。
【0076】
【数4】
【0077】
特徴マップ記憶部106は、畳込演算部102によって生成された複数の特徴マップを記憶する。ここで、特徴マップ記憶部106は、特徴マップに、その特徴マップを生成する元となる画像に対応する視点、および、その特徴マップを生成する際に用いた三次元点の座標と法線方向と紐づけて記憶しても良い。
【0078】
また、特徴マップ記憶部106は、特徴マップ統合部104によって生成された統合特徴マップを記憶する。特徴マップ記憶部106は、統合特徴マップに、その統合特徴マップを生成する元となる画像に対応する視点、および、その統合特徴マップを生成する際に用いた三次元点の座標と法線方向と紐づけて記憶しても良い。
【0079】
基準カーネル記憶部107は、基準カーネルを記憶する。基準カーネルは、変形後カーネルを生成する基準となるカーネルであり、例えば、二次元画像座標と重み係数の組の集合で表現される。基準カーネルは、例えば、(5)式で示される。基準カーネル記憶部107は、互いに異なる基準カーネルを複数記憶しても良い。
【0080】
【数5】
【0081】
変形後カーネル記憶部108は、変形後カーネルを記憶する。変形後カーネルは、カーネル変形部101によって、基準カーネルが、カーネル変形方法決定部100により決定された方法を用いて変形されることによって生成されたカーネルである。変形後カーネルは、基準カーネルと同様に、例えば、二次元画像座標と重み係数の組の集合で表現される。変形後カーネルは、例えば、(6)式で示される。
【0082】
【数6】
【0083】
(6)式に示す変形後カーネルの二次元画像座標は、例えば、正方格子で配置された整数の座標として構成しても良いし、実数の座標として構成しても良い。カーネル変形部101が基準カーネルを変形する際に、正方格子で配置された整数の座標で補間しながら基準カーネルを変形した場合、変形後カーネルの要素数K’及び重み係数(a’)は、基準カーネルの要素数K及び重み係数(a)と異なる値をとる。一方、カーネル変形部101が、補間せずに、基準カーネルを変形した場合、変形後カーネルの要素数K’及び重み係数(a’)は、基準カーネルの要素数K及び重み係数(a)と一致する。但し、iはカーネルを構成する要素に応じた変数であり、1≦i≦K’である。
【0084】
変形後カーネル記憶部108は、変形後カーネルに、その変形後カーネルを生成する元になった基準カーネルを紐づけて記憶しても良い。つまり、基準カーネルが複数用意される場合、変形後カーネル記憶部108は、変形後カーネルのそれぞれに、どの基準カーネルから生成されたかを示す情報が紐づけて記憶する。また、変形後カーネル記憶部108は、変形後カーネルに、その変形後カーネルを生成する際に用いた三次元点の座標と法線方向を紐づけて記憶しても良い。
【0085】
なお、画像記憶部105に記憶される画像は、各画素の座標にRGB値が対応づけられたカラー画像だけでなく、モノクロ、マルチバンド、特徴量等を含む。つまり、本実施形態における画像は、二次元配列(例えば、各画素の座標に相当する配列)に、少なくとも1以上のチャンネルが対応づけられたデータであればよい。
【0086】
また、カーネル変形方法決定部100は、機械学習による推定ではない変形方法であって、少なくとも、なんらかの幾何学的な変形方法を用いた変形方法を、決定すればよい。例えば、カーネル変形方法決定部100は、射影変換、アフィン変換、球体、又は円筒の曲率の何れかを用いた変換等による変形方法を決定すればよい。
【0087】
また、カーネル変形部101は、変形後カーネルが整数の座標を持つように補間する場合、カーネルの変形方法に関わらず共通の補間方法を適用してよい。例えば、カーネル変形部101は、バイリニア補間法(Bi-linear interpolation)、つまり周囲の4つの画素を用いて補間するような補間方法を含む、任意の画像補間方法を採用して、変形後カーネルが整数の座標を持つように補間するようにしてよい。
【0088】
<各実施形態に共通する処理>
ここで、各実施形態に共通する処理について図5図5A及び図5B)を用いて説明する。図5は、実施形態による処理を説明する図である。以下の説明では、畳込演算を行う対象とする画像、つまり対象視点画像を、単に「対象画像」と称する。
【0089】
図5Aに示すように、各実施形態に共通する処理は、フェーズPH1~PH3からなる。
フェーズPH1では統合特徴マップが生成される。フェーズPH1には、フェーズPH2から変形後カーネルA~C及び対象画像のそれぞれに関する情報が入力される。また、フェーズPH1には、フェーズPH3から統合方法に関する情報が入力される。フェーズPH1では、変形後カーネルと対象画像とに基づいて、対象画像における変形後カーネルA~Cのそれぞれに応じた特徴量が抽出され、抽出された特徴量に応じた特徴マップA~Cが生成される。フェーズPH1では、特徴マップA~Cが統合方法に応じて統合されることによって、統合特徴マップが生成される。
フェーズPH2では変形後カーネルA~Cが生成される。フェーズPH2では変形方法A~Cが決定される。フェーズPH2では、基準カーネルが変形方法A~Cのそれぞれに応じて変形されることによって、変形後カーネルA~Cが生成される。
フェーズPH3では統合方法が決定される。
【0090】
図5Bには、各実施形態に共通する処理の流れを示すフローチャートが示されている。本フローチャートでは、フェーズPH1における処理の流れをステップS10~S12で示す。フェーズPH2における処理の流れをステップS20~S21で示す。フェーズPH3における処理の流れをステップS30で示す。
【0091】
まず、フェーズPH1における処理の流れを説明する。
ステップS10:特徴マップ生成装置1の畳込演算部102は、対象画像を取得する。特徴マップ生成装置1は、画像記憶部105を参照することによって、画像記憶部105から対象画像を取得する。
ステップS11:畳込演算部102は、変形後カーネルを用いて対象画像から特徴を抽出し、特徴マップA~Cを生成する。畳込演算部102は、変形後カーネルは、変形後カーネル記憶部108を参照することによって、変形後カーネル記憶部108から変形後カーネルA~Cを取得する。畳込演算部102は、変形後カーネルAを用いて対象画像に畳込演算を行い、各画素における畳込演算の演算結果を、その画素の座標に対応づけることによって特徴マップAを生成する。畳込演算部102は、変形後カーネルBを用いて対象画像に畳込演算を行い、各画素における畳込演算の演算結果を、その画素の座標に対応づけることによって特徴マップBを生成する。畳込演算部102は、変形後カーネルCを用いて対象画像に畳込演算を行い、各画素における畳込演算の演算結果を、その画素の座標に対応づけることによって特徴マップCを生成する。畳込演算部102は、生成した特徴マップA~Cのそれぞれを特徴マップ記憶部106に記憶させる。
ステップS12:特徴マップ生成装置1の特徴マップ統合部104は、統合方法を用いて特徴マップA~Cを統合し、統合特徴マップを生成する。特徴マップ統合部104は、特徴マップ記憶部106を参照することによって、特徴マップ記憶部106から特徴マップA~Cのそれぞれを取得する。特徴マップ統合部104は、特徴統合方法決定部103によって決定された統合方法を用いて特徴マップA~Cを統合し、統合したマップを統合特徴マップとすることによって、統合特徴マップを生成する。特徴マップ統合部104は、生成した統合特徴マップを、特徴マップ記憶部106に記憶させる。
【0092】
次に、フェーズPH2における処理の流れを説明する。
ステップS20:特徴マップ生成装置1のカーネル変形部101は、基準カーネルを取得する。カーネル変形部101は、基準カーネル記憶部107を参照することによって、基準カーネル記憶部107から基準カーネルを取得する。
ステップS21:カーネル変形部101は、カーネル変形方法決定部100によって決定された変形方法に基づいて基準カーネルを変形することによって、変形後カーネルA~Cを生成する。カーネル変形部101は、カーネル変形方法決定部100によって決定された変形方法Aに基づいて基準カーネルを変形し、変形後カーネルAを生成する。カーネル変形部101は、カーネル変形方法決定部100によって決定された変形方法Bに基づいて基準カーネルを変形し、変形後カーネルBを生成する。カーネル変形部101は、カーネル変形方法決定部100によって決定された変形方法Cに基づいて基準カーネルを変形し、変形後カーネルCを生成する。カーネル変形部101は、生成した変形後カーネルA~Cのそれぞれを変形後カーネル記憶部108に記憶させる。
【0093】
最後に、フェーズPH3における処理の流れを説明する。
ステップS30:特徴マップ生成装置1の特徴統合方法決定部103は、統合方法を決定する。特徴統合方法決定部103が統合方法を決定する具体的な処理の内容は、後述する第1実施形態にて説明する。
【0094】
<第1実施形態について>
ここで、第1実施形態について説明する。第1実施形態は、特徴マップ生成装置1を、クラス分類システムに適用する形態である。クラス分類システムでは、各画像における特徴量、つまり特徴マップに基づいて分類が行われる。
【0095】
クラス分類において、同一のカーネル(例えば、基準カーネル)を用いて畳込演算を行うことによって特徴量を抽出すると、同じ対象物体の同じ領域が撮像された画素であっても、画像の撮像条件によっては異なる特徴量が抽出されてしまう。例えば、撮像位置が異なる、或いは、対象物体が正対しておらず、対象物体が正面から撮像されていないような、撮像条件が様々である場合、対応点の周囲にある画素が画像によって異なるためである。このように、同じ対象物体の同じ領域が撮像された画素の特徴量が、画像ごとに異なる特徴量となった場合、同じ対象物体を同じクラスに分類することが困難となり、クラス分類の精度が低下する。
【0096】
このようなクラス分類の精度低下への対策として、第1実施形態では、画像に応じて変形させた変形後カーネルを用いて畳込演算を行う。これにより、同じ対象物体の同じ領域が撮像された画素において近い特徴量を抽出することが可能となり、クラス分類の精度が低下することを抑制することができる。
【0097】
第1実施形態において、1つの対象画像に対して、複数の変形方法を決定することが望ましい。複数の法線のそれぞれ応じた変形方法を用いて複数の変形後カーネルを用いて特徴量を抽出することにより、カーネルを変形させる際に行った射影変換等に伴う誤差を低減させることが可能である。
【0098】
また、第1実施形態において、画像における位置合わせが事前に行われていても良い。位置合わせを行うことにより、対応点を明確にすることができる。位置合せを行う場合、複数の変形方法のそれぞれにおいて微小な法線変化を与えた変形方法に対応させることにより、位置合わせの誤差等を低減させることができ、クラス分類の精度をより高精度とすることが可能である。
【0099】
ただし、変形方法を決定する際に、カーネル変形方法決定部100は、法線方向に応じた射影変換だけでなく、法線を用いない変換、例えば、スケール変換、アフィン変換等を、変形方法として決定してもよい。このような法線を用いない変換を用いる場合であっても、複数の変形方法が決定されることにより、カーネルを変形させる際に行われる変換(例えば、スケール変換、アフィン変換等)に伴う誤差を低減させることが可能である。
【0100】
<第1実施形態の構成>
ここで、第1実施形態の構成について図6を用いて説明する。図6は、第1実施形態の特徴マップ生成装置1の構成を示すブロック図である。図6に示すように、第1実施形態における特徴マップ生成装置1は、基本構成10と、クラス分類部109と、法線マップ生成部110と、法線マップ記憶部111とを備える。
【0101】
第1実施形態では、クラス分類を、複数の実現方法で実現する例(例1~例5)について、それぞれ説明する。第1実施形態の特徴マップ生成装置1における構成のうち、法線マップ生成部110と、法線マップ記憶部111については、第1実施形態の例3のみが備える構成である。つまり、第1実施形態の例1~例2、及び例4~例5は、基本構成10と、クラス分類部109とを備える。第1実施形態の例3は、基本構成10と、クラス分類部109と、法線マップ生成部110と、法線マップ記憶部111を備える。
【0102】
クラス分類部109は、各画像をクラス毎に分類することによって、クラス分類を行う。クラス分類部109は、各画像における統合特徴マップに基づいて、似た特徴を有する画像が同じクラスとなるように、クラス分類を行う。
【0103】
或いは、クラス分類部109は、統合特徴マップに対して、更に畳込演算を行い、畳込演算後に、プーリング(Global Average Pooling)を経て特徴ベクトルを生成し、さらに全結合層を通してクラス分類を行うようにしてもよい。
【0104】
法線マップ生成部110は、画像(特徴マップを含む)から法線マップを生成する。法線マップ生成部110は、従来ある任意の手法を用いて、特徴マップDから法線マップを生成してよい。
【0105】
法線マップ生成部110は、第1実施形態の例3において、特徴マップDから法線マップを生成する。法線マップ生成部110は、生成した法線マップを法線マップ記憶部111に記憶させる。法線マップ記憶部111は、第1実施形態の例3において、特徴マップDから生成された法線マップを記憶する。
【0106】
<第1実施形態の各例について>
ここで、第1実施形態の各例(例1~例5)について図7図7A及び図7B)、図8図8A及び図8B)を用いて説明する。図7は、第1実施形態の例1~例2及び例4~例5による処理を説明する図である。図8は、第1実施形態の例3による処理を説明する図である。
【0107】
<第1実施形態の例1~例2及び例4~例5について>
図7Aに示すように、第1実施形態の例1~例2及び例4~例5では、フェーズPH1において、統合特徴マップを用いたクラス分類が行われる。また、フェーズPH3において、特徴マップDが生成される。
【0108】
第1実施形態の例1~例2及び例4~例5において、フェーズPH3にて、特徴統合方法決定部103が、統合方法を決定する方法について、以下に説明する。
【0109】
第1実施形態の例1:特徴統合方法決定部103は、対象画像から特徴マップDを生成する。特徴統合方法決定部103は、従来ある任意の手法を用いて対象画像から特徴マップDを生成してよい。特徴統合方法決定部103は生成した特徴マップDから、畳込演算部102によって生成された複数の特徴マップ(例えば、特徴マップA~C)のそれぞれの重み係数を、アテンション(学習)を用いて推論することによって決定する。アテンションでは、クラス分類の誤差が最小化されるように、重み係数を推定する。特徴マップ統合部104は、特徴統合方法決定部103によって算出された重み係数を用いて重みづけ和したものを、統合特徴マップとして生成する。
【0110】
第1実施形態の例2:特徴統合方法決定部103は、追加画像から特徴マップDを生成する。追加画像は、対象画像と同じ対象物体が、対象画像とは異なる別の撮像条件(撮像位置及び姿勢)により撮像された画像である。第1実施形態の例1と同様に、特徴統合方法決定部103は、従来ある任意の手法を用いて、追加画像から特徴マップDを生成してよい。特徴統合方法決定部103は、生成した特徴マップDから、畳込演算部102によって生成された複数の特徴マップ(例えば、特徴マップA~C)のそれぞれの重み係数を、アテンション(学習)を用いて推論することによって決定する。アテンションでは、クラス分類の誤差が最小化されるように、重み係数を推定する。特徴マップ統合部104は、特徴統合方法決定部103によって算出された重み係数を用いて重みづけ和したものを、統合特徴マップとして生成する。
【0111】
第1実施形態の例4:特徴統合方法決定部103は、追加画像から特徴マップDを生成する。特徴統合方法決定部103は、生成した特徴マップDと、畳込演算部102によって生成された複数の特徴マップ(例えば、特徴マップA~C)との、それぞれの特徴ベクトルの内積を算出する。特徴統合方法決定部103は、算出したそれぞれの内積を、それぞれの特徴マップ(例えば、特徴マップA~C)の重み係数として決定する。特徴マップ統合部104は、特徴統合方法決定部103によって算出された重み係数を用いて重みづけ和したものを、統合特徴マップとして生成する。
【0112】
第1実施形態の例5:特徴統合方法決定部103は、畳込演算部102によって生成された複数の特徴マップ(例えば、特徴マップA~C)から特徴マップDを生成する。第1実施形態の例1と同様に、特徴統合方法決定部103は、従来ある任意の手法を用いて、複数の特徴マップ(例えば、特徴マップA~C)から特徴マップDを生成してよい。特徴統合方法決定部103は、生成した特徴マップDから、畳込演算部102によって生成された複数の特徴マップ(例えば、特徴マップA~C)のそれぞれの重み係数を、アテンション(学習)を用いて推論することによって決定する。アテンションでは、クラス分類の誤差が最小化されるように、重み係数を推定する。特徴マップ統合部104は、特徴統合方法決定部103によって算出された重み係数を用いて重みづけ和したものを、統合特徴マップとして生成する。
【0113】
上記において、特徴統合方法決定部103は、画像(特徴マップ)ごとに重み係数を求めても良いし、ピクセルごとに重み係数を求めても良い。
【0114】
また、追加画像として、例えば、対象物体が正面から撮像された画像を用いることによって、対象物体が正対した場合における特徴量を有する特徴マップDを生成することができる。この場合、特徴マップA~Cのうち、対象物体が正対した状態に近い特徴量を有する特徴マップが強調された統合特徴マップを得ることが可能となる。
【0115】
例えば、製品検査を考えた場合、検査のしやすい理想的な撮像位置から検査対象物が撮像された画像を、追加画像として用意する。このとき、対象画像は、実際の検査時に撮像された検査対象物の画像である。例えば、ベルトコンベアにより検査対象物を移動させながら、移動する検査対象物を撮像することによって検査を行う場合、ベルトコンベアの振動等により、わずかに追加画像とは異なる撮像条件となることが考えられる。このような撮像条件の相違が、振動によるものか、製品が不良であることに起因するものなのかを区別することは、通常であれば困難である。このような、区別が困難な事象への対策として、本実施形態では、振動による撮像条件の相違を、カーネル変形によって補正することが可能である。このため、対象画像に基づいて、製品の不良を精度よく抽出することが可能となる。
【0116】
このように、追加画像として、クラス分類部109によって分類される各クラスにおける代表的な画像を用いることによって、対象画像が、そのクラスに分類されるか否かを精度よく判定することが可能となる。
【0117】
図7Bには、第1実施形態の例1~例2及び例4~例5にて、特徴マップ生成装置1が行う処理の流れを示すフローチャートが示されている。本フローチャートでは、フェーズPH1における処理の流れをステップS110~S113で示す。フェーズPH2における処理の流れをステップS120~S121で示す。フェーズPH3における処理の流れをステップS130~S131で示す。本フローチャートにおけるステップS110~S112、及びS120~S121のそれぞれは、図5BにおけるステップS10~S12、及びS20~S21と同様であるため、その説明を省略する。
【0118】
ステップS113:クラス分類部109は、統合特徴マップを用いてクラス分類を行う。クラス分類部109は、対象画像を取得する。特徴マップ生成装置1は、画像記憶部105を参照することによって、画像記憶部105から対象画像を取得する。
【0119】
ステップS130:特徴統合方法決定部103は、特徴マップDを生成する。第1実施形態の例1において、特徴統合方法決定部103は、対象画像から特徴マップDを生成する。第1実施形態の例2及び例4において、特徴統合方法決定部103は、追加画像から特徴マップDを生成する。第1実施形態の例5において、特徴統合方法決定部103は、特徴マップA~Cから特徴マップDを生成する。
【0120】
ステップS131:特徴統合方法決定部103は、統合方法を決定する。第1実施形態の例1~例2及び例5において、特徴統合方法決定部103は、特徴マップDにおける特徴量に応じた重み係数を決定することによって統合方法を決定する。第1実施形態の例4において、特徴統合方法決定部103は、特徴マップDと、特徴マップA~Cのそれぞれとの内積値に応じた重み係数を決定することによって統合方法を決定する。
【0121】
<第1実施形態の例3について>
図8Aに示すように、第1実施形態の例3では、フェーズPH1において、統合特徴マップを用いたクラス分類が行われる。また、フェーズPH3において、特徴マップDが生成され、生成された特徴マップDから法線マップが生成される。
【0122】
第1実施形態の例3において、フェーズPH3にて、特徴統合方法決定部103が、統合方法を決定する方法について、説明する。第1実施形態の例3では、特徴統合方法決定部103は、対象画像から特徴マップDを生成する。さらに、法線マップ生成部110は、特徴マップDから法線マップを生成する。特徴統合方法決定部103は、法線マップにおける法線ベクトルと、カーネル変形方法決定部100によって決定された複数の変形方法(例えば、変形方法A~C)に対応する法線方向との内積を算出する。特徴統合方法決定部103は、算出したそれぞれの内積を、それぞれの特徴マップ(例えば、特徴マップA~C)の重み係数として決定する。特徴マップ統合部104は、算出した重み係数を用いて重みづけ和したものを、統合特徴マップとして生成する。
【0123】
第1実施形態の例3において、特徴統合方法決定部103は、画像(特徴マップ)ごとに重み係数を求めても良いし、ピクセルごとに重み係数を求めても良い。
【0124】
また、第1実施形態の例3において、法線マップにおける法線ベクトルの方向と、複数の変形方法のそれぞれに対応する法線方向とが同じ方向であるほど、より大きい値が内積値として算出される。このため、第1実施形態の例3では、法線マップと同じ方向に設定された法線方向を用いて決定された変形方法に対応して算出された特徴マップが強調された統合特徴マップを得ることが可能となる。
【0125】
図8Bには、第1実施形態の例3にて、特徴マップ生成装置1が行う処理の流れを示すフローチャートが示されている。本フローチャートでは、フェーズPH1における処理の流れをステップS210~S213で示す。フェーズPH2における処理の流れをステップS220~S221で示す。フェーズPH3における処理の流れをステップS230~S232で示す。
【0126】
本フローチャートにおけるステップS210~S212、及びS220~S221のそれぞれは、図5BにおけるステップS10~S12、及びS20~S21と同様であるため、その説明を省略する。また、本フローチャートにおけるステップS213は、図7BにおけるステップS113と同様であるため、その説明を省略する。
【0127】
ステップS230:特徴統合方法決定部103は、対象画像から特徴マップDを生成する。
ステップS231:特徴統合方法決定部103は、特徴マップDから法線マップを生成する。
ステップS232:特徴統合方法決定部103は、法線マップと、特徴マップA~Cのそれぞれとの内積値を算出し、算出したそれぞれの内積に応じた重み係数を決定することによって統合方法を決定する。
【0128】
以上説明したように、第1実施形態の特徴マップ生成装置1は、1つ以上の対象画像における特徴マップを生成する装置である。特徴マップ生成装置1は、カーネル変形方法決定部100と、カーネル変形部101と、畳込演算部102と、特徴統合方法決定部103と、特徴マップ統合部104を備える。カーネル変形方法決定部100は、対象画像に対して、幾何学変換を用いて、対象画像に対応するカーネルの変形方法を決定する。カーネル変形方法決定部100は、1つの対象画像に対応するカーネルの変形方法を、複数、決定する。カーネル変形部101は、基準カーネルを、変形方法を用いてそれぞれ変形することによって、1つの対象画像に対する変形後カーネルを、複数、生成する。変形後カーネルは、対象画像から特徴量を抽出するための畳込演算に用いるカーネルである。畳込演算部102は、変形後カーネルを用いて、対象画像に畳込演算を行うことによって、対象画像における特徴量をそれぞれ抽出する。畳込演算部102は、抽出した特徴量を用いて、1つの対象画像に対応する特徴マップを、複数、生成する。特徴統合方法決定部103は、畳込演算部102によって生成された、複数の特徴マップを統合する統合方法を決定する。特徴マップ統合部104は、特徴統合方法決定部103によって決定された統合方法により、複数の特徴マップを統合することによって統合特徴マップを生成する。
【0129】
これにより、実施形態の特徴マップ生成装置1では、カーネルの変形自体を、機械学習の学習に含めないようにすることができる。したがって、カーネルを変形させる方法が局所解に陥ることがなく、意図した変形を行うことが可能となる。これにより、撮像角度に対するロバスト性を高めることができる。更に、実施形態の特徴マップ生成装置1では、1つの対象画像に対して複数の特徴マップを生成し、その複数の特徴マップを統合することができる。したがって、カーネルを変形させる際に行った変換(例えば、スケール変換、アフィン変換等)に伴う誤差を低減させることが可能である。
【0130】
また、第1実施形態の特徴マップ生成装置1では、カーネル変形方法決定部100は、幾何学変換として、射影変換、アフィン変換、球体、又は円筒の曲率の何れかを用いた変換を前記変形方法として決定。これにより、実施形態の特徴マップ生成装置1では、対象物体の状況及び対象画像の撮像環境に応じて、意図した変形を行うことが可能となり、上述した効果と同様の効果を奏する。
【0131】
また、第1実施形態の特徴マップ生成装置1では、カーネル変形部101は、基準カーネルを、変形方法を用いて変形したカーネルを仮変形後カーネルとし、仮変形後カーネルに対して正方格子で配置された座標を用いた補間処理を行うことにより、変形後カーネルを生成する。これにより、実施形態の特徴マップ生成装置1では、変形後カーネルを整数の二次元座標を持つ変形後カーネルとすることができ、変形後カーネルに畳込演算の計算コストを増大させる実数の二次元座標を持たせないようにして、計算コストの増大を抑制することができる。
【0132】
また、第1実施形態の特徴マップ生成装置1では、特徴統合方法決定部103は、特徴マップのピクセル毎に、複数の特徴マップのそれぞれに対する重み係数をそれぞれ決定する。特徴マップ統合部104は、特徴マップのピクセル毎に、重み係数を用いて、複数の特徴マップをそれぞれ重みづけして合成したマップを、統合特徴マップとして生成する。これにより、実施形態の特徴マップ生成装置1では、複数の特徴マップのそれぞれを重みづけ和したマップを統合特徴マップとすることができ、特定の特徴マップ、例えば実際の対象物体に近い条件で特徴量が抽出された特徴マップ、を強調した統合特徴マップを生成することができる。
【0133】
また、第1実施形態の特徴マップ生成装置1では、特徴統合方法決定部103は、対象画像から、特徴マップA~Cとは異なる特徴マップD(第2特徴マップ)を生成する。特徴統合方法決定部103は、特徴マップA~Cのピクセル毎に、特徴マップDにおける特徴量に応じた重み係数を決定する。これにより、実施形態の特徴マップ生成装置1では、特徴マップA~Cのうち、特徴マップDと似た特徴量を有する特徴マップが強調された統合特徴マップを生成することができる。
【0134】
また、第1実施形態の特徴マップ生成装置1では、特徴統合方法決定部103は、追加画像(第2対象画像)を取得し、取得した追加画像から、特徴マップA~Cとは異なる特徴マップD(第2特徴マップ)を生成する。特徴統合方法決定部103は、特徴マップA~Cのピクセル毎に、特徴マップDにおける特徴量に応じた重み係数を決定する。これにより、実施形態の特徴マップ生成装置1では、特徴マップA~Cのうち、特徴マップDと似た特徴量を有する特徴マップが強調された統合特徴マップを生成することができる。特徴マップDを生成する追加画像を、例えば、対象物体が正面から撮像された画像とすることによって、特徴マップA~Cのうち、対象物体が正対した状態に近い特徴量を有する特徴マップが強調された統合特徴マップを生成することが可能となる。
【0135】
また、第1実施形態の特徴マップ生成装置1では、特徴統合方法決定部103は、複数の特徴マップA~Cから、特徴マップD(第2特徴マップ)を生成する。特徴統合方法決定部103は、特徴マップA~Cのピクセル毎に、特徴マップDにおける特徴量に応じた重み係数を決定する。これにより、実施形態の特徴マップ生成装置1では、特徴マップA~Cのうち、共通する特徴が強調された統合特徴マップを生成することが可能となる。
【0136】
また、第1実施形態の特徴マップ生成装置1では、特徴統合方法決定部103は、追加画像から生成した特徴マップD(基準特徴ベクトル)を取得し、特徴マップA~Cのピクセル毎に、特徴マップA~Cの各ピクセルにおける特徴量に対応する特徴ベクトルと、特徴マップDにおける特徴ベクトルとの内積に応じた重み係数を決定する。これにより、実施形態の特徴マップ生成装置1では、特徴マップDにおける特徴ベクトルと同じ方向を有する特徴が強調された統合特徴マップを生成することが可能となる。
【0137】
また、第1実施形態の特徴マップ生成装置1では、特徴統合方法決定部103は、最大値又は最小値を選択する方法を、統合方法として決定する。特徴マップ統合部104は、特徴マップA~Cのピクセル毎に、特徴マップA~Cの各ピクセルにおける特徴量のそれぞれのうちの最大値又は最小値が選択されたマップを統合特徴マップとして生成する。これにより、実施形態の特徴マップ生成装置1では、特徴マップA~Cの各ピクセルにおける特徴量のそれぞれのうちの最大値又は最小値を有する統合特徴マップを生成することが可能となる。
【0138】
また、第1実施形態の特徴マップ生成装置1では、クラス分類部109を更に備える。クラス分類部109は、特徴マップ統合部104によって生成された統合特徴マップを用いてクラス分類を行う。これにより、実施形態の特徴マップ生成装置1では、統合特徴マップを用いてクラス分類を行うことができる。統合特徴マップでは、複数の特徴マップを統合することにより、各特徴マップにおける誤差が低減されるため、クラス分類を精度よく行うことが可能となる。
【0139】
また、第1実施形態の特徴マップ生成装置1では、クラス分類部109を更に備える。カーネル変形方法決定部100は、複数の法線方向のそれぞれに基づいて複数の変形方法を決定し、特徴統合方法決定部103は、複数の法線方向に基づいて、クラス分類部109におけるクラス分類の誤差が最小化されるような重み係数を、アテンション(学習)を用いて推論することによって決定する。これにより、実施形態の特徴マップ生成装置1では、クラス分類の誤差が最小化されるような重み係数を用いて、精度よくクラス分類を行うことができる統合特徴マップを生成することができる。
【0140】
また、第1実施形態の特徴マップ生成装置1では、クラス分類部109を更に備える。カーネル変形方法決定部100は、複数の法線方向のそれぞれに基づいて複数の変形方法を決定する。特徴統合方法決定部103は、追加画像としての、クラス分類部109によって分類される各クラスにおける代表的な画像から生成した特徴マップD(特徴ベクトル)を、基準特徴ベクトルとする。これにより、実施形態の特徴マップ生成装置1では、各クラスにおける代表的な画像が有する特徴が強調されるように統合特徴マップを生成することができる。したがって、このようにして生成された統合特徴マップを用いて、各クラスに分類されるか否かを、精度よく判定することができる。
【0141】
また、第1実施形態の特徴マップ生成装置1を用いて、画像マッチングシステムを構築してもよい。画像マッチングシステムでは、特徴マップ生成装置1によって生成された統合特徴マップを用いて、画像をマッチングさせる。これにより、似た特徴を有する画像同士を対応づけることができる。
【0142】
<第2実施形態について>
ここで、第2実施形態について説明する。第2実施形態は、特徴マップ生成装置1を、ステレオマッチングシステムに適用する形態である。ステレオマッチングシステムでは、ステレオ画像を用いて奥行値が計算されることによってデプスマップが生成される。
【0143】
ステレオマッチングでは、ステレオ平行化された画像として、撮像対象物体がある撮像位置から撮像された画像と、その撮像位置から水平方向(又は垂直方向)に移動した別の撮像位置から撮像された画像を用いて奥行値が計算される。このようなステレオ平行化された画像において、同じ対象物体の同じ領域が撮像された画素に似た特徴量が抽出されるためには、スキュー(平行四辺形)を考慮した変形後カーネルを生成すればよい。
【0144】
このため、カーネル変形方法決定部100は、射影変換ではなく、スキューを指定したアフィン変換による変形方法を決定する。カーネル変形方法決定部100は、例えば、対象物体における法線方向に基づいてスキューを決定しても良いし、平行四辺形の角度を適当な値で設定しても良い。また、カーネル変形方法決定部100は、正方格子を平行四辺形に変形する変形方法に加えて、ステレオ平行化された画像におけるエピポーラ線方向に拡大又は縮小する変形を追加した変形方法を決定してもよい。
【0145】
図9図9A図9B、及び図9C)を用いて第2実施形態について説明する。
【0146】
図9Aは、第2実施形態の特徴マップ生成装置1の構成を示すブロック図である。図9Aに示すように、第2実施形態における特徴マップ生成装置1は、基本構成10と、コスト値計算部112と、デプスマップ生成部113と、デプスマップ記憶部114とを備える。
【0147】
コスト値計算部112は、複数の特徴マップからコスト値を計算する。コスト値は、特徴マップにおける対応点が類似する度合であって、例えば、対応点における特徴量間の分散や相関を示す値である。
【0148】
ここで、ある三次元点の座標と法線方向の組{M、n}が与えられた場合を考える。この場合、多視点画像に含まれる複数の対象視点画像{I、I、…}のそれぞれに対して、カーネル変形方法決定部100、カーネル変形部101、及び畳込演算部102のそれぞれを連携させることによって、三次元点の座標と法線方向の組{M、n}を適用した場合おける、それぞれの対象視点画像の特徴マップ{f0,1、f1,1、…}が生成される。
【0149】
このとき、コスト値を計算する対象である三次元座標M=[X、Y、Z]におけるコスト値Cは、各対象視点画像の特徴マップ{f0,1、f1,1、…}における、三次元座標Mに対応する対応点の特徴量のそれぞれの分散を示す値である。
【0150】
同様に、同じ三次元点の座標に対し別の法線方向の組{M1、n}が与えられた場合を考える。この場合、多視点画像に含まれる複数の対象視点画像それぞれの特徴マップ{f0,2、f1,2、…}が生成される。コスト値計算部112は、各対象視点画像の特徴マップ{f0,2、f1,2、…}の対応点における特徴量の分散を示す値をコスト値Cとして計算する。
【0151】
コスト値計算部112は、同じ三次元点の座標に対する、二つの法線方向のそれぞれに対するコスト値の集合{C、C}を構成する要素のうちの最小値を、最終的なコスト値Cとする。
【0152】
上記の説明では、同じ三次元点の座標に対する、二つの法線方向のそれぞれに対する最終的なコスト値Cを算出する場合を例示して説明したが、同じ三次元点の座標に対して三つ以上の法線方向の組が与えられた場合にも、同様な方法により、コスト値の集合{C、C、…}を生成することができる。コスト値計算部112は、コスト値の集合{C、C、…}を構成する要素のうちの最小値を、最終的なコスト値とする。
【0153】
仮定された法線方向、つまり与えられた法線方向と、真の法線方向とが近い場合、特徴マップにおける対応点の特徴量が近い値となる。この場合、コスト値の集合、つまり各法線方向に対する特徴量間の分散は小さい値をとる。したがって、複数の法線方向のそれぞれについてコスト値を計算し、それらの最小値を、最終的なコスト値として採用することは、仮定した複数の法線方向のそれぞれから、真の法線方向と最も整合性が取れる法線方向で計算したコスト値を選択することと等しい。
【0154】
上記では、コスト値計算部112は、コスト値として、複数の対象視点画像の特徴マップの対応点における特徴量の分散を計算しても良いし、複数の対象視点画像の特徴マップの対応点における特徴量の相関を計算しても良い。コスト値計算部112は、コスト値として、少なくとも複数の対象視点画像のそれぞれの特徴マップにおける対応点の特徴量が類似する度合を計算できればよい。すなわち、コスト値計算部112は、コスト値として、分散及び相関の何れを示す値を計算しても良い。
【0155】
特徴量の相関をコスト値として計算する場合、コスト値計算部112は、法線方向に対応するコスト値の集合における各要素のうちの最大値を、最終的なコスト値とする。各対象視点画像における特徴マップの対応点の特徴量が近い値をとる場合、各法線方向に対する特徴量間の相関が大きい値をとる。このため、法線方向ごとのコスト値の最大値を、最終的なコスト値として採用することで、真の法線方向と最も整合性がとれる法線方向を用いて計算したコスト値を選択することができる。
【0156】
なお、コスト値計算部112は、特徴マップに対応づけられる変数(三次元座標M、法線方向n)の何れを基準としてコスト値を計算しても良い。例えば、上述したように、同じ三次元座標を基準として、複数の法線方向nのそれぞれについてコスト値を計算しても良いし、三次元座標と法線方向nの組ごとにコスト値を計算しても良い。また、同じ法線方向を基準として、複数の三次元座標のそれぞれについてコスト値を計算しても良い。
【0157】
さらに、コスト値計算部112は、コストボリュームを生成する。コストボリュームは、参照視点画像に正対する複数の平面であって、離散的な奥行きを有する複数の平面にコスト値が反映されたものである。コスト値計算部112は、例えば、あらかじめ三次元空間上に設定された三次元ボクセルのすべてのボクセルに対して、各ボクセルに対応する三次元座標におけるコスト値を計算することで、コストボリュームを生成する。コスト値計算部112は、生成したコストボリュームを、デプスマップ記憶部114に記憶させる。
【0158】
このとき、コスト値計算部112は、三次元ボクセルを、立方体で設定しても良いし、参照視点画像の面と底面が正対する四角スイ台で設定しても良い。
【0159】
デプスマップ生成部113は、第2実施形態において、コストボリュームに基づいてデプスマップを生成する。
【0160】
デプスマップ生成部113は、まず、コストボリュームを正則化する。デプスマップ生成部113は、例えば、生成したコストボリュームに対して三次元の畳込演算を行うことによりコストボリュームを正則化する。デプスマップ生成部113は、正則化した後のコストボリュームを、デプスマップ記憶部114に記憶させる。このとき、デプスマップ生成部113は、三次元の畳込演算において、異なるカーネルを複数回適用しても良い。
【0161】
そして、デプスマップ生成部113は、例えば、コストボリュームから参照視点画像におけるデプスマップを抽出する。デプスマップ生成部113は、抽出したデプスマップをデプスマップ記憶部114に記憶させる。
【0162】
デプスマップ生成部113は、参照視点画像の各ピクセルについて、そのピクセルに対応する視線上にあるコストボリュームのコスト値を抽出し、抽出したコスト値のうち最も整合性のとれるコスト値の奥行きを、デプスマップの奥行値として選択する。
【0163】
例えば、コストボリュームにおける三次元ボクセルが、参照視点画像の面と底面が正対した四角スイ台で設定される場合、各ピクセルの視線は、コストボリューム上にある一列のボクセルと一致する。コスト値が特徴量の分散で示される場合、デプスマップ生成部113は、参照視点画像の各ピクセルについて、そのピクセルの視線上にある最もコスト値が小さくなる奥行きを、デプスマップの奥行値として選択する。一方、コスト値が特徴量の相関で示される場合、デプスマップ生成部113は、参照視点画像の各ピクセルについて、そのピクセルの視線上にある最もコスト値が大きくなる奥行きを、デプスマップの奥行値として選択する。
【0164】
デプスマップ記憶部114は、コストボリュームを記憶する。コストボリュームは、三次元空間上に設定された三次元ボクセルの各ボクセルにコスト値が対応づけられた情報である。
【0165】
また、デプスマップ記憶部114は、多視点画像の各視点におけるデプスマップを記憶する。ここで、デプスマップの大きさは、対応する視点(画像)の画像サイズと一致する。また、デプスマップの各ピクセルの奥行値は、対応する視点の各ピクセルの二次元座標における対象物体までの奥行きを示す値である。
【0166】
図9Bは、第2実施形態による処理を説明する図である。図9Bに示すように、第2実施形態では、フェーズPH1において、ステレオ平行化された2つの画像としての対象画像1及び対象画像2を用いてデプスマップが生成される。
【0167】
第2実施形態のフェーズPH1では、畳込演算部102によって生成された複数の特徴マップ(特徴マップA~C)のそれぞれを用いて、複数のコストボリューム(コストボリュームA~C)が生成される。複数のコストボリュームが、特徴マップ統合部104によって統合されることによって、統合特徴マップが生成される。すなわち、第2実施形態では、統合特徴マップは、複数のコストボリュームが統合されたマップである。このようにして生成した統合特徴マップを、デプスマップを生成するための既存のネットワーク(3D U-Net)に入力させることにより、デプスマップが生成される。
【0168】
図9Cは、第2実施形態にて特徴マップ生成装置1が行う処理の流れを示すフローチャートである。本フローチャートでは、フェーズPH1における処理の流れをステップS310~S314で示す。フェーズPH2における処理の流れをステップS320~S321で示す。フェーズPH3における処理の流れをステップS330で示す。
【0169】
まず、フェーズPH1における処理の流れを説明する。
ステップS310:特徴マップ生成装置1の畳込演算部102は、対象画像1及び対象画像2を取得する。
ステップS311:畳込演算部102は、変形後カーネルを用いて対象画像1から特徴を抽出し、特徴マップ1A~1Cを生成する。畳込演算部102は、変形後カーネルを用いて対象画像2から特徴を抽出し、特徴マップ2A~2Cを生成する。畳込演算部102は、生成した特徴マップ1A~1C、及び特徴マップ2A~2Cのそれぞれを特徴マップ記憶部106に記憶させる。
ステップS312:特徴マップ生成装置1のコスト値計算部112は、特徴マップ1A~1C、及び特徴マップ2A~2Cのそれぞれを用いて、コスト値を計算し、コストボリュームA~Cのそれぞれを生成する。例えば、コストボリュームAは、特徴マップ1Aと特徴マップ2Aの相関に基づいて生成される。コストボリュームBは、特徴マップ1Bと特徴マップ2Bの相関に基づいて生成される。コストボリュームCは、特徴マップ1Cと特徴マップ2Cの相関に基づいて生成される。
ステップS313:特徴マップ統合部104は、統合方法を用いてコストボリュームA~Cを統合し、統合特徴マップを生成する。特徴マップ統合部104は、デプスマップ記憶部114を参照することによって、デプスマップ記憶部114からコストボリュームA~Cのそれぞれを取得する。特徴マップ統合部104は、特徴統合方法決定部103によって決定された統合方法を用いてコストボリュームA~Cを統合し、統合したマップを統合特徴マップとすることによって、統合特徴マップを生成する。特徴マップ統合部104は、生成した統合特徴マップを、特徴マップ記憶部106に記憶させる。
ステップS314:デプスマップ生成部113は、統合特徴マップを用いてデプスマップを生成する。
【0170】
次に、フェーズPH2における処理の流れを説明する。
ステップS320:特徴マップ生成装置1のカーネル変形部101は、基準カーネルを取得する。カーネル変形部101は、基準カーネル記憶部107を参照することによって、基準カーネル記憶部107から基準カーネルを取得する。
ステップS321:カーネル変形部101は、カーネル変形方法決定部100によって決定された変形方法に基づいて基準カーネルを変形することによって、変形後カーネルA~Cを生成する。
【0171】
最後に、フェーズPH3における処理の流れを説明する。
ステップS30:特徴マップ生成装置1の特徴統合方法決定部103は、統合方法を決定する。特徴統合方法決定部103は、統合方法として、第1実施形態の各例にて説明した何れの方法を用いてもよい。
【0172】
<第3実施形態について>
ここで、第3実施形態について説明する。第3実施形態は、特徴マップ生成装置1を、単視点デプスマップ生成システムに適用する形態である。
【0173】
単視点デプスマップ生成システムでは、1つの画像から、機械学習により奥行値を推定することによって、デプスマップが生成される。画像によっては、同じ対象物体であっても撮像角度により見え方が異なる。このため、様々な角度から対象物体が撮像された画像のそれぞれから奥行値を推定できるように学習させるためには、多くの学習用データセットが必要となる。正方格子のカーネルを用いた場合、対象物体の法線方向の影響を無視した特徴量が抽出される。このため、同じ対象物体であっても、撮像角度を変えて撮像したデータを大量に用意する必要がある。
【0174】
このような課題に対し、本実施形態では、1つの画像からデプスマップを推定する際に、できるだけ少ない数の学習用データセットから、高精度に推定することができるようにした。
【0175】
図10図10A図10B、及び図10C)を用いて第3実施形態について説明する。
【0176】
図10Aは、第3実施形態の特徴マップ生成装置1の構成を示すブロック図である。図10Aに示すように、第3実施形態における特徴マップ生成装置1は、基本構成10と、法線マップ生成部110と、法線マップ記憶部111と、デプスマップ生成部113とデプスマップ記憶部114を備える。
【0177】
第3実施形態において、カーネル変形方法決定部100は、対象物体の法線方向となり得る複数の方向に対応する複数の変形方法を決定する。
【0178】
特徴統合方法決定部103は、複数の変形方法のそれぞれに対応する、複数の特徴マップの統合方法を決定する際に、対象物体の法線方向として適切な方向が設定された特徴マップが強調されるように、統合方法を決定する。
【0179】
具体的に、特徴統合方法決定部103は、法線マップが存在しない場合、任意の方法を用いて統合方法1を決定する。特徴統合方法決定部103は、統合方法1として、第1実施形態の各例にて説明した何れの方法を用いてもよい。
【0180】
一方、特徴統合方法決定部103は、法線マップが存在する場合、その法線マップに基づいて統合方法2を決定する。
【0181】
第1実施形態における例3と同様に、特徴統合方法決定部103は、法線マップにおける法線ベクトルと、カーネル変形方法決定部100によって決定された複数の変形方法(例えば、変形方法A~C)に対応する法線方向との内積を算出する。特徴統合方法決定部103は、算出したそれぞれの内積を、それぞれの特徴マップ(例えば、特徴マップA~C)の重み係数とすることによって、統合方法2を決定する。
【0182】
或いは、特徴統合方法決定部103は、第1実施形態における例1及び例5と同様に、法線マップから、畳込演算部102によって生成された複数の特徴マップ(例えば、特徴マップA~C)のそれぞれの重み係数を、アテンション(学習)を用いて推論することによって、統合方法2を決定するようにしてもよい。
【0183】
これにより、第3実施形態では、対象物体の法線方向を考慮して、特徴マップを統合することができ、少ない数の学習用データセットから、高精度に奥行値を推定することができる学習済モデルを生成することが可能となる。
【0184】
図10Bは、第3実施形態による処理を説明する図である。図10Bに示すように、第3実施形態では、フェーズPH1において、1つの対象画像を用いてデプスマップが生成される。複数の特徴マップ(特徴マップA~C)が統合された統合特徴マップを、デプスマップ生成部113がデプスマップを生成するための既存のネットワーク(3D U-Net)に入力させることにより、デプスマップが生成される。
【0185】
ここで用いる既存のネットワークは、3D U-Netに限定されることはない。3D U-Netでなくとも、Encoder-Decoderネットワークを用いることも可能である。ここでのEncoder-Decoderネットワークは、画像や特徴マップなどのマップ(以下、画像等という)を入力とし、入力された画像等を変換した画像やマップを出力するネットワークである。
【0186】
また、特徴統合方法決定部103によって生成されたデプスマップから、法線マップ生成部110が法線マップを生成する。このようにして生成された法線マップが、フェーズPH3における、統合方法2の決定に用いられる。
【0187】
図10Cは、第3実施形態にて特徴マップ生成装置1が行う処理の流れを示すフローチャートである。本フローチャートでは、フェーズPH1における処理の流れをステップS410~S414で示す。フェーズPH2における処理の流れをステップS420~S421で示す。フェーズPH3における処理の流れをステップS430~S431で示す。
【0188】
本フローチャートにおけるステップS410~S412、及びS420~S421のそれぞれは、図5BにおけるステップS10~S12、及びS20~S21と同様であるため、その説明を省略する。また、本フローチャートにおけるステップS430は、図9BにおけるステップS330と同様であるため、その説明を省略する。
【0189】
ステップS413:特徴マップ生成装置1のデプスマップ生成部113は、統合特徴マップを用いてデプスマップを生成する。
ステップS414:法線マップ生成部110は、デプスマップを用いて法線マップを生成する。
ステップS431:特徴統合方法決定部103は、法線マップを用いて統合方法2を決定する。
【0190】
<第4実施形態について>
ここで、第4実施形態について説明する。第4実施形態は、特徴マップ生成装置1を、文字認識システムに適用する形態である。
【0191】
文字認識システムでは、画像に撮像された文字の認識が行われる。画像に撮像されている文字が正対していない、例えば、斜め方向から撮像されていたり、缶飲料などの非平面に印字された文字が撮像されていたりすると、文字の認識精度が低下する。
【0192】
機械学習により文字認識を学習させる場合、学習に使用される画像として、通常は、文字が正面から撮像された画像が用いられる。そのため、文字が正面から撮像されていない画像に示されるような、正対していない文字を認識できるように学習させる場合には、学習データに、正対していない文字が撮像された画像を含めるようにするなどして学習データの拡張が必要である。学習データの拡張が不十分な場合、学習済モデルに、正対していない文字を認識させることが難しくなる。一方、学習データを拡張させた場合、学習用のデータセットの数が膨大となり、学習が困難となることもあり得る。
【0193】
このような課題に対し、第4実施形態では、文字が正対していない画像、及び、非平面に印字された文字が撮像された画像における文字認識の精度を向上させるようにした。
【0194】
図11図11A図11B、及び図11C)を用いて第4実施形態について説明する。
【0195】
図11Aは、第4実施形態の特徴マップ生成装置1の構成を示すブロック図である。図11Aに示すように、第4実施形態における特徴マップ生成装置1は、基本構成10と、クラス分類部109と、クラス分類記憶部115を備える。
【0196】
第4実施形態において、カーネル変形方法決定部100は、様々な法線方向に対応する変形方法を決定する。カーネル変形方法決定部100は、法線方向に基づく決定方法以外の決定方法を採用しても良い。例えば、カーネル変形方法決定部100は、様々な曲率に対応する球体や円筒形状への変形を行うことにより、缶飲料に印字された文字に対応する変形方法を決定してもよい。
【0197】
カーネル変形部101は、カーネル変形方法決定部100によって決定された変形方法を用いて基準カーネルを変形させることによって、各変形方法に対応する変形後カーネルを生成する。畳込演算部102は、カーネル変形部101によって生成された変形後カーネルを用いて、各変形後カーネルに対応する特徴マップを生成する。
【0198】
クラス分類部109は、畳込演算部102によって生成された複数の特徴マップ(例えば、特徴マップA~C)をクラス分類する。クラス分類部109がクラス分類を行う方法は、第1実施形態においてクラス分類部109がクラス分類を行う方法と同様である。すなわち、クラス分類部109は、各特徴マップにおいて、似た特徴を有する特徴マップが同じクラスとなるように、クラス分類を行う。
【0199】
特徴統合方法決定部103は、クラス分類部109によって行われた、特徴マップのクラス分類の結果に基づく各変形後カーネルのスコアに応じた重み係数を決定する。特徴統合方法決定部103は、重み係数を決定する代わりに、多数決により、統合特徴マップに用いる特徴マップを選択するようにしても良い。
【0200】
特徴マップ統合部104は、特徴統合方法決定部103によって決定された重みづけ係数を用いた重みづけ和等を行うことによって、統合特徴マップを生成する。
クラス分類部109は、統合特徴マップを用いて、画像に撮像された文字のクラス分類を行う。
【0201】
これにより、第4実施形態では、特徴統合方法決定部103によって、特定のクラスに分類された特徴マップが強調されるように、重み係数を決定することができる。例えば、特徴統合方法決定部103は、カーネルの変形方法が、正対した文字を正対していない文字に変形させるのに適した変形方法に対応づけられた特徴マップが強調されるように重み係数を決定することができる。この場合、正対していない文字に適した変形後カーネルを用いて生成した特徴マップが強調されるように重み係数を決定することができる。非平面に印字された文字画像に適した変形後カーネルを用いて生成した特徴マップが強調されるように重み係数を決定することができる。
【0202】
図11Bは、第4実施形態による処理を説明する図である。図11Bに示すように、第3実施形態では、フェーズPH1において、文字が撮像された対象画像におけるクラス分類が行われることによって文字認識が行われる。複数の特徴マップ(特徴マップA~C)をクラス分類した結果に応じて決定された統合方法を用いて統合された統合特徴マップが生成され、統合特徴マップに基づいて対象画像におけるクラス分類が行われる。
【0203】
図11Cは、第4実施形態にて特徴マップ生成装置1が行う処理の流れを示すフローチャートである。本フローチャートでは、フェーズPH1における処理の流れをステップS510~S513で示す。フェーズPH2における処理の流れをステップS520~S521で示す。フェーズPH3における処理の流れをステップS530~S531で示す。
【0204】
本フローチャートにおけるステップS510~S512、及びS520~S521のそれぞれは、図5BにおけるステップS10~S12、及びS20~S21と同様であるため、その説明を省略する。また、本フローチャートにおけるステップS513は、図7BにおけるステップS113と同様であるため、その説明を省略する。
【0205】
ステップS530:特徴マップ生成装置1のクラス分類部109は、特徴マップA~Cを、クラス分類する。
ステップS531:特徴統合方法決定部103は、ステップS530におけるクラス分類の結果を用いて統合方法を決定する。特徴統合方法決定部103は、特定のクラスに分類された特徴マップが強調されるように統合方法を決定する。
【0206】
このように、第4実施形態では、変形方法として複数の法線方向を設定し、特徴マップを統合する際に、変形方法として適切な法線方向が強調されるようにする。これにより、適切な法線方向に対応する変形後カーネルから算出された特徴マップが、統合特徴マップとして選ばれるようになり、法線の影響を加味した統合特徴マップを生成することができる。なお、この場合、局所的に平面な領域では、法線方向が変わらないことからほぼ同じ特徴となり、同じ法線方向に対応する特徴マップが、その領域における統合特徴マップを構成するマップとして選択される。
【0207】
<第5実施形態について>
ここで、第5実施形態について説明する。第5実施形態は、特徴マップ生成装置1を、スタイル転写システムに適用する形態である。
【0208】
一般的なスタイル転写システムでは、スタイル元の画像として、絵画等が正面から撮像され画像を想定しており、対象物体が立体物などであって、その対象物体が斜め方向から撮像されている画像や、非平面に描かれている絵画等を撮像した画像が用いられることを想定していない。このため、例えば、対象物体が斜め方向から撮像されている画像をスタイル画像として用いると、斜め方向から撮像することによって対象物体が射影して見えるその形状を、そのままスタイルとみなしてしまうため、歪んだスタイルが転写された画像が生成されてしまう。
【0209】
このような課題に対し、第5実施形態では、スタイル転写において、対象物体が斜め方向から撮像されている画像を用いた場合であっても、正面からみた立体物のスタイルを転写できるようにした。
【0210】
図12図12A図12B図12C図12D及び図12E)を用いて第5実施形態について説明する。
【0211】
図12Aは、第5実施形態の特徴マップ生成装置1の構成を示すブロック図である。図12Aに示すように、第5実施形態における特徴マップ生成装置1は、複数の基本構成10(基本構成10-1、10-2、…、10-k)を備える。kは2以上の整数である。スタイル転写システムは、スタイル抽出ネットワークN1と、特徴抽出ネットワークN2とが、組み合わされることによって、スタイル転写システムが構築される(図12D参照)。スタイル抽出ネットワークN1と、特徴抽出ネットワークN2とのそれぞれに基本構成10が用いられる。
【0212】
図12Bは、第5実施形態による処理を説明する図である。図12Bでは、スタイル抽出ネットワークN1に基本構成10が用いられる場合の例が示されている。図12Bに示すように、第5実施形態では、フェーズPH1において、1つの対象画像または特徴マップを用いて統合特徴マップが生成される。また、フェーズPH3において、別画像に基づいて生成された特徴マップDを用いて統合方法が決定される。ここでの別画像は、対象画像と同じ画像、或いは異なる画像が、スタイル転写の各段階に応じて設定される。特徴マップDを生成する方法は、第1実施形態における例2と同様である。特徴マップDを生成するためのパラメータは、スタイル転写におけるすべての階層において共通であっても良い。
【0213】
図12Cは、第5実施形態による処理を説明する図である。図12Cでは、特徴抽出ネットワークN2に基本構成10が用いられる場合の例が示されている。図12Cに示すように、第5実施形態では、フェーズPH1~PH3とは別に、基準カーネルを用いて、画像又は特徴マップにおける特徴量を算出することによって、その画像又は特徴マップにおける特徴マップが生成される。ここでの特徴量を抽出する処理としては、一般的なCNNが用いられてよい。また、ここでの基準カーネルは、スタイル抽出ネットワークN1と共通のカーネルを用いても良い。
【0214】
図12Dは、第5実施形態による処理を説明する図である。図12Dに示すように、スタイル抽出ネットワークN1と、特徴抽出ネットワークN2とが、組み合わされることによって、スタイル転写システムが構築される。
【0215】
スタイル転写システムには、スタイル画像、転写後画像、転写先画像、及び基準カーネルが、入力として用いられる。スタイル画像は、転写したいスタイルを有する絵画等が撮像された画像である。転写後画像は、スタイルが転写された後の画像である。転写先画像は、スタイルが転写される前の画像である。
【0216】
第1階層ST1では、1番上に配置されたスタイル抽出ネットワークN1においてスタイル画像と基準カーネルとを入力とした統合特徴マップT1が出力される。上から2番目に配置されたスタイル抽出ネットワークN1において転写後画像と基準カーネルとを入力とした統合特徴マップT2が出力される。上から3番目に配置された特徴抽出ネットワークN2において転写後画像と基準カーネルとを入力とした特徴マップT3が出力される。1番下に配置された特徴抽出ネットワークN2において転写先画像と基準カーネルとを入力とした特徴マップT4が出力される。
【0217】
統合特徴マップT1と統合特徴マップT2とにおいて、統合特徴マップT1と統合特徴マップT2のロス(誤差)を最小化するように転写後画像が最適化される。
【0218】
第2階層ST2では、第1階層ST1と同様な処理が行われるが、画像に代えて、第1階層ST1から出力された統合特徴マップ又は特徴マップが第2階層ST2に入力される。具体的には、1番上に配置されたスタイル抽出ネットワークN1においてスタイル画像と統合特徴マップT1と基準カーネルとが入力される。上から2番目に配置されたスタイル抽出ネットワークN1において転写後画像と統合特徴マップT2と基準カーネルとが入力される。上から3番目に配置された特徴抽出ネットワークN2において転写後画像と特徴マップT3と基準カーネルとが入力される。1番下に配置された特徴抽出ネットワークN2において転写先画像と特徴マップT4と基準カーネルとが入力される。第3階層ST3についても同様に、第2階層ST2から出力された統合特徴マップ又は特徴マップが第3階層ST3に入力される。第4階層ST4では、上から3番目に配置された特徴抽出ネットワークN2から出力された特徴マップと、1番下に配置された特徴抽出ネットワークN2から出力された特徴マップとにおいて、二つの特徴マップのロス(誤差)を最小化するように転写後画像が最適化される。
【0219】
図12Eは、第4実施形態にて特徴マップ生成装置1が行う処理の流れを示すフローチャートである。本フローチャートでは、フェーズPH1における処理の流れをステップS610~S612で示す。フェーズPH2における処理の流れをステップS620~S621で示す。フェーズPH3における処理の流れをステップS630~S532で示す。
【0220】
本フローチャートにおけるステップS610~S612、及びS620~S621のそれぞれは、図5BにおけるステップS10~S12、及びS20~S21と同様であるため、その説明を省略する。また、本フローチャートにおけるステップS620~S621は、図7BにおけるステップS130~131における例2の場合と同様であるため、その説明を省略する。
【0221】
このような処理を行うことにより、転写後画像の特徴が、スタイル画像及び転写先画像の両方の特徴を有する画像とすることができ、スタイルが転写された画像を生成することができる。しかも、スタイル画像から統合特徴マップを出力する際に変形後カーネルを用いることができる。このため、スタイル画像として、スタイルを有する絵画等が斜め方向から撮像されている画像を用いた場合であっても、そのスタイルを有する絵画等を正面から見た場合のスタイルが転写されるようにすることができる。
【0222】
なお、第5実施形態において、カーネル変形方法決定部100は、法線方向に基づく決定方法以外の決定方法を採用しても良い。例えば、カーネル変形方法決定部100は、様々な曲率に対応する球体や円筒形状への変形を行うことにより、缶飲料に印字された文字に対応する変形方法を決定してもよい。例えば、様々な曲率を与えた球体や円筒形状への変形を行うことで、缶飲料からのスタイル転写にも利用することができる。
【0223】
上述した実施形態における特徴マップ生成装置1の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0224】
上述したコンピュータは、量子コンピュータであってもよい。量子コンピュータは、例えば、量子力学的な重ね合わせの原理を用いた並列計算を行うコンピュータであり、従来型のコンピュータより指数関数的に高速な計算が可能なコンピュータである。量子コンピュータを用いることによって、畳込演算などを実行する際に高速な計算が可能となる。
【0225】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計、装置構成等も含まれる。
【0226】
なお、以下の各発明も本発明に含まれる。
【0227】
(発明1)
1つ以上の対象画像における特徴マップを生成する特徴マップ生成装置であって、
前記対象画像に対して、幾何学変換を用いて、前記対象画像に対応するカーネルの変形方法を複数決定するカーネル変形方法決定部と、
基準となる基準カーネルを、前記変形方法を用いてそれぞれ変形することによって、前記対象画像に対する畳込演算に用いるカーネルである変形後カーネルを複数生成するカーネル変形部と、
前記変形後カーネルを用いて前記対象画像に畳込演算を行うことによって前記対象画像における特徴量をそれぞれ抽出し、抽出した特徴量を用いて前記対象画像に対応する特徴マップを複数生成する畳込演算部と、
前記畳込演算部によって生成された複数の前記特徴マップを統合する統合方法を決定する特徴統合方法決定部と、
前記特徴統合方法決定部によって決定された前記統合方法により、複数の前記特徴マップを統合することによって統合特徴マップを生成する特徴マップ統合部と、
を備える特徴マップ生成装置。
【0228】
(発明2)
前記カーネル変形方法決定部は、前記幾何学変換として、射影変換、アフィン変換、球体、又は円筒の曲率の何れかを用いた変換を前記変形方法として決定する、
発明1に記載の特徴マップ生成装置。
【0229】
(発明3)
前記カーネル変形部は、前記基準カーネルを、前記変形方法を用いて変形したカーネルを仮変形後カーネルとし、前記仮変形後カーネルに対して正方格子で配置された座標を用いた補間処理を行うことにより、前記変形後カーネルを生成する、
発明1または発明2に記載の特徴マップ生成装置。
【0230】
(発明4)
前記特徴統合方法決定部は、前記特徴マップのピクセル毎に、複数の前記特徴マップのそれぞれに対する重み係数をそれぞれ決定し、
前記特徴マップ統合部は、前記特徴マップのピクセル毎に、前記重み係数を用いて、複数の前記特徴マップのそれぞれに前記重み係数を乗算して合成したマップを、前記統合特徴マップとして生成する、
発明1から発明3のいずれか1つに記載の特徴マップ生成装置。
【0231】
(発明5)
前記特徴統合方法決定部は、前記対象画像から、前記特徴マップとは異なる第2特徴マップを生成し、前記特徴マップのピクセル毎に、前記第2特徴マップにおける特徴量に応じた前記重み係数を決定する、
発明1から発明4のいずれか1つに記載の特徴マップ生成装置。
【0232】
(発明6)
前記特徴統合方法決定部は、前記対象画像とは異なる第2対象画像を取得し、取得した前記第2対象画像から、前記特徴マップとは異なる第2特徴マップを生成し、前記特徴マップのピクセル毎に、前記第2特徴マップにおける特徴量に応じた値を前記重み係数として決定する、
発明1から発明4のいずれか1つに記載の特徴マップ生成装置。
【0233】
(発明7)
前記特徴統合方法決定部は、複数の前記特徴マップから、前記特徴マップとは異なる第2特徴マップを生成し、前記特徴マップのピクセル毎に、前記第2特徴マップにおける特徴量に応じた値を前記重み係数として決定する、
発明1から発明4のいずれか1つに記載の特徴マップ生成装置。
【0234】
(発明8)
前記特徴統合方法決定部は、基準特徴ベクトルを取得し、複数の前記特徴マップのそれぞれにおけるピクセル毎に、各ピクセルの特徴量と前記基準特徴ベクトルとの内積に応じた前記重み係数を決定する、
発明1から発明4のいずれか1つに記載の特徴マップ生成装置。
【0235】
(発明9)
前記特徴統合方法決定部は、最大値又は最小値を選択する方法を、前記統合方法として決定し、
前記特徴マップ統合部は、前記特徴マップのピクセル毎に、複数の前記特徴マップの各ピクセルにおける特徴量のそれぞれの最大値又は最小値が選択されたマップを前記統合特徴マップとして生成する、
発明1から発明4のいずれか1つに記載の特徴マップ生成装置。
【0236】
(発明10)
前記特徴マップ統合部によって生成された統合特徴マップを用いてクラス分類を行うクラス分類部、を更に備える、
発明1から発明9のいずれか1つに記載の特徴マップ生成装置。
【0237】
(発明11)
前記特徴マップ統合部によって生成された前記統合特徴マップを用いてクラス分類を行うクラス分類部、を更に備え、
前記カーネル変形方法決定部は、複数の法線方向のそれぞれに基づいて複数の前記変形方法を決定し、
前記特徴統合方法決定部は、前記法線方向に基づいて、前記クラス分類部におけるクラス分類の誤差が最小化されるような前記重み係数を学習により推定することによって決定する、
発明4から発明7のいずれか1つに記載の特徴マップ生成装置。
【0238】
(発明12)
前記特徴マップ統合部によって生成された前記統合特徴マップを用いてクラス分類を行うクラス分類部、を更に備え、
前記カーネル変形方法決定部は、複数の法線ベクトルを取得し、複数の前記法線ベクトルのそれぞれに基づいて複数の前記変形方法を決定し、
前記特徴統合方法決定部は、前記クラス分類部によって分類される各クラスにおける代表的な画像から生成した特徴ベクトルを、前記基準特徴ベクトルとする、
発明8に記載の特徴マップ生成装置。
【符号の説明】
【0239】
1…特徴マップ生成装置
100…カーネル変形方法決定部
101…カーネル変形部
102…畳込演算部
103…特徴統合方法決定部
104…特徴マップ統合部
109…クラス分類部
図1
図2
図3
図4
図5A
図5B
図6
図7A
図7B
図8A
図8B
図9A
図9B
図9C
図10A
図10B
図10C
図11A
図11B
図11C
図12A
図12B
図12C
図12D
図12E