(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-05
(45)【発行日】2023-06-13
(54)【発明の名称】学習装置、方法及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20230606BHJP
【FI】
G06T7/00 350B
(21)【出願番号】P 2020078227
(22)【出願日】2020-04-27
【審査請求日】2022-06-07
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】小森田 賢史
(72)【発明者】
【氏名】田坂 和之
【審査官】山田 辰美
(56)【参考文献】
【文献】特開2019-185665(JP,A)
【文献】特開2019-091339(JP,A)
【文献】国際公開第2019/065536(WO,A1)
【文献】半澤 悠樹,オンライン撮影に適した実用的なSfMシステム,電子情報通信学会論文誌 (J96-D) 第8号,一般社団法人電子情報通信学会,2013年,(J96-D) 第8号,1753~1763
【文献】山下 浩平,混合ガウス分布推定ネットワークを用いた単一画像からの3次元物体形状復元,情報処理学会 研究報告 コンピュータビジョンとイメージメディア(CVIM),情報処理学会,2019年,2019-CVIM-21,1~8
【文献】山崎 智瑛,主成分分析による三次元物体検出に最適な三次元点群の投影方向の推定,電子情報通信学会技術研究報告 Vol.116 No.464,一般社団法人電子情報通信学会,2017年,Vol.116 No.464,227~230
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
(57)【特許請求の範囲】
【請求項1】
フィールドを撮影した複数の画像を取得する画像取得部と、
前記画像の各々より特徴点を検出し、画像間での特徴点の対応関係を求めることにより、前記フィールドの点群を構築する点群構築部と、
前記点群において、点の密度が高いと判定され、且つ、点に対応する画像の撮影方向の範囲が広いと判定される領域を、ランドマーク候補領域として設定する決定部と、
各ランドマーク候補領域に識別子を付与して、前記画像において識別子が付与されたランドマーク候補領域を当該識別子で指定される物体領域であるものとしてアノテーション付与した学習データによる学習を行い、
前記学習の結果において、物体領域の識別性能が高いと判定されるランドマーク候補領域についての識別モデルを得る学習部と、を備えることを特徴とする学習装置。
【請求項2】
前記決定部は、前記点群を所定のボクセルに分割し、ボクセル毎に前記ランドマーク候補領域を設定することを特徴とする請求項1に記載の学習装置。
【請求項3】
前記学習部は、前記ランドマーク候補領域として設定されたボクセルの連結成分の各々に、ランドマーク候補領域の識別子を付与することを特徴とする請求項2に記載の学習装置。
【請求項4】
前記学習部は、前記画像において識別子が付与されたランドマーク候補領域を3次元世界座標から当該画像の座標系に透視投影することにより、当該識別子で指定される物体領域を定めることを特徴とする請求項1ないし3のいずれかに記載の学習装置。
【請求項5】
フィールドを撮影した複数の画像を取得する画像取得段階と、
前記画像の各々より特徴点を検出し、画像間での特徴点の対応関係を求めることにより、前記フィールドの点群を構築する点群構築段階と、
前記点群において、点の密度が高いと判定され、且つ、点に対応する画像の撮影方向の範囲が広いと判定される領域を、ランドマーク候補領域として設定する決定段階と、
各ランドマーク候補領域に識別子を付与して、前記画像において識別子が付与されたランドマーク候補領域を当該識別子で指定される物体領域であるものとしてアノテーション付与した学習データによる学習を行い、
前記学習の結果において、物体領域の識別性能が高いと判定されるランドマーク候補領域についての識別モデルを得る学習段階と、を備えることを特徴とする学習方法。
【請求項6】
コンピュータを請求項1ないし4のいずれかに記載の学習装置として機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像よりランドマークを自動推定するモデルを学習する学習装置、方法及びプログラムに関する。
【背景技術】
【0002】
測位技術等の関連技術として、ランドマークに関する技術がある。
【0003】
特許文献1では、ランドマークの名称などのメタ情報に基づいて画像の分類および検索を行なうことができ、ユーザが撮影した画像の整理および検索の利便性を高める。特許文献2では、ランドマークを検索する際に、撮影条件が類似しているものから検索し処理負荷を軽減する。特許文献3では、位置分散及び輝度分散を考慮して頑健なランドマークを選定できるランドマーク選定装置が提供される。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2011-010171号広報
【文献】特開2019-052904号広報
【文献】特開2019-053462号広報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、以上のような従来技術においてはランドマークを利用するために、事前にメタ情報等を手動で登録しておく手間が発生するという課題があった。
【0006】
ランドマークを選定する際に、画像としてランドマークの優劣を判定するものはあるが、それが類似物が多かったり、ほとんど見つからないものとなる可能性があった。ランドマーク学習は、手動でアノテーションした一般的なものしかなかった。(手動アノテーションとして例えば、オックスフォードやパリなどのオープンデータがある。)例えば屋内はその施設それぞれのランドマークがあるため、このような一般的なデータでは対処できず、それぞれ手動でアノテーションして作成する手間が発生してしまう課題があった。
【0007】
上記従来技術の課題に鑑み、本発明は、測位や地図作成において一般的に利用されている点群を利用して、手動によるアノテーション等の手間を発生させることなく、画像よりランドマークを自動推定するモデルを学習する学習装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するため、本発明は学習装置であって、フィールドを撮影した複数の画像を取得する画像取得部と、前記画像の各々より特徴点を検出し、画像間での特徴点の対応関係を求めることにより、前記フィールドの点群を構築する点群構築部と、前記点群において、点の密度が高いと判定され、且つ、点に対応する画像の撮影方向の範囲が広いと判定される領域を、ランドマーク候補領域として設定する決定部と、各ランドマーク候補領域に識別子を付与して、前記画像において識別子が付与されたランドマーク候補領域を当該識別子で指定される物体領域であるものとしてアノテーション付与した学習データによる学習を行い、前記学習の結果において、物体領域の識別性能が高いと判定されるランドマーク候補領域についての識別モデルを得る学習部と、を備えることを特徴とする。また、前記学習装置に対応する方法及びプログラムであることを特徴とする。
【発明の効果】
【0009】
本発明によれば、点群を構築してその密度が高く且つ対応する撮影方向の範囲が広いと自動判定される領域をランドマーク候補領域として設定し、画像においてランドマーク候補領域がなす物体領域の区別が付与されたものをアノテーション付与された学習データとして識別モデルの学習を行い、この結果のうち物体領域の識別性能が高いと判定されるランドマーク候補領域についての識別モデルを得ることにより、手動によるアノテーション等の手間を発生させることなく、画像よりランドマークを自動推定するモデルを学習することが可能となる。
【図面の簡単な説明】
【0010】
【
図1】一実施形態に係る点群処理システムの構成図である。
【
図2】一実施形態に係る点群処理システムの機能ブロック図である。
【
図3】一実施形態に係る点群処理システムの動作のフローチャートである。
【
図4】学習装置において手動の手間なくランドマーク検出モデルを生成することができる根拠となる、点群とランドマークとの関係の例を示す図である。
【
図5】算出する視野範囲r(i,j,k)の模式的な例を2次元断面として示す図である。
【
図6】手順2におけるマッピングを模式的に示す図である。
【
図7】一般的なコンピュータにおけるハードウェア構成を示す図である。
【発明を実施するための形態】
【0011】
図1は、一実施形態に係る点群処理システムの構成図であり、点群処理システム100はインターネット等のネットワークNWを介して相互に通信可能とされる少なくとも1つの端末1及び少なくとも1つのサーバ2を備える。端末1は、スマートフォン等のモバイルデバイス又は車載装置等として構成することができる移動体であり、点群処理システム100において処理する対象となる点群を、映像として撮影する等によって端末1の周辺環境から取得するものである。一実施形態では点群処理システム100には端末1のみが含まれサーバ2が含まれない構成により、端末1が単独で点群に関する処理を行うようにしてもよい。一実施形態では点群処理システム100は端末1及びサーバ2を含み、端末1及びサーバ2で処理を分担しながら点群に関する処理を担うようにしてもよい。
【0012】
図2は、一実施形態に係る点群処理システム100の機能ブロック図である。点群処理システム100は、学習装置10及び推定装置20を備える。学習装置10は画像取得部11、点群構築部12、決定部13、学習部14及びモデルDB(データベース)15を備え、決定部13はさらにボクセル分割部131、密度評価部132、視野評価部133及び候補決定部134を備える。推定装置20は画像撮影部21及び推定部22を備える。
【0013】
なお、学習装置10及び推定装置20の各々に関して、
図1に示される端末1(及びサーバ2)として構成することができる。学習装置10を移動体として構成する端末1と、推定装置20を移動体として構成する端末1とは別の端末であってもよい。
【0014】
学習装置10を移動体として構成する端末1には少なくとも画像取得部11が備わり、端末1自身の周辺環境の撮影を行うことにより映像を取得するが、画像取得部11以外の学習装置10の構成はサーバ2に備わることで、処理をサーバ2に委ねるようにしてもよい。推定装置20を移動体として構成する端末1には少なくとも画像撮影部21が備わり、端末1自身の周辺環境の撮影を行うことにより画像を取得するが、画像撮影部21以外の推定装置20の構成はサーバ2に備わることで、処理をサーバ2に委ねるようにしてもよい。
【0015】
図3は、一実施形態に係る点群処理システム100の動作のフローチャートである。点群処理システム100の全体的な動作として、
図3のステップS1~S6において学習装置10が学習によりモデル構築を行い構築されたモデル(画像からランドマークを検出するモデル)をモデルDB15に保存した後に、モデルDB15に保存されたモデルを推定装置20が参照して利用することにより、
図3のステップS7において位置推定を行うことができる。
【0016】
図4は、学習装置10において手動の手間なくランドマーク検出モデルを生成することができる根拠となる、点群とランドマークとの関係の例を示す図である。
図4の点群PGは、移動軌跡Cに沿って屋内空間を移動するカメラにより撮影された映像より、当該屋内空間の環境を表現するものとして構築されたものをフィールド内の一部分に関して示すものである。
図4では例EX1にこの点群PGを、フィールドの上面視(上空側から地面側を見る視点)において示しており、例EX2においてこの点群PGをフィールドの側面視(地面に垂直に立って水平方向に見る視点)において示している。この点群PGのうち、ランドマークに好適な箇所となっている例が2つの箇所P1及びP2である。これら2つの箇所P1及びP2はいずれも、点群の点が密集しており密度が高く、且つ、点群の点が見える方向(すなわち、点群を構成する点が抽出された映像内のフレーム画像におけるカメラ方向)が広範囲に渡る、という特徴を有するものである。なお
図4中にはP1,P2以外にも同様のランドマーク候補を含むが、説明のための例示として箇所P1,P2を示した。
【0017】
すなわち、このような箇所P1やP2に存在する対象物は、(固定的に配置された物体等によって遮られることなく)広範囲から可視の状態にあり、且つ、点群の点の数も多い(すなわち、画像より特徴点として検出される点の数も多い)という定量的な特徴のみにより、自動で優れたランドマークであると推定することが可能となる。本実施形態の学習装置10では点群におけるこのような定量的な特徴を利用して、手動アノテーション等の手間を発生させることなく、ランドマーク検出モデルを自動で学習することが可能となる。
【0018】
以下、
図3の各ステップの詳細を説明しながら、学習装置10及び推定装置20の各機能部の処理の詳細を説明する。
【0019】
図3のフローが開始されると、ステップS1では、画像取得部11が、この学習装置10(の点群構築部12)においてフィールド内の点群を構築するための映像を取得してから、ステップS2へと進む。画像取得部11はハードウェアとしてはカメラで構成され、移動体である端末1に備わることでこの移動体と共にフィールド内を移動しながら撮影を行うことにより、ステップS1での映像が取得される。画像取得部11で取得した映像(各時刻t=1,2,3…でのフレーム画像F(t))は点群構築部12及び学習部14へと出力される。
【0020】
ステップS2では、ステップS1で得られた各フレーム画像F(t)(t=1,2,3,…)を利用して点群構築部12が点群PGを構築し、且つ、点群PGに属する各点(3次元世界座標における点)に対して、対応するフレーム画像F(t)の特徴点を紐付けた結果を点群PGの情報として決定部13へと出力してから、ステップS3へと進む。
【0021】
ここで、フレーム画像F(t) (t=1,2,3,…)から点群PGを構築する手法としては、SfM(Structure from Motion)等の任意の既存手法を利用してよい。SfMにおいては、例えばSIFT特徴等により各画像から特徴点及び局所特徴量を求め、画像間での特徴点の対応(局所特徴量が一致すると判定される特徴点同士の対応)を利用して三角測量等の原理により、各特徴点の3次元世界座標の情報を得ることで、点群PGを構築することができる。フレーム画像F(t)の特徴点と点群PGとの紐付けに関しては、点群PGを構成する各点(3次元世界座標の点)がいずれのフレーム画像F(t)のいずれの特徴点(2次元画像座標の点)及び局所特徴量に対応しているかの情報(点群PGを構築する際にこの情報は得られている)を与えることで、紐付けを行うことができる。
【0022】
ステップS3では、ステップS2で得た点群PGをボクセル分割部131がボクセルに分割してから、ステップS4へと進む。ボクセル分割部131では、点群PGが定義される3次元世界座標を予め所定のボクセル(直方体又は立方体の格子)に区切っておくことで、点群PGをボクセル分割することができる。説明のため、ボクセル分割部131により点群PGがボクセル分割された結果のうち、3次元世界座標のXYZ座標において、X,Y,Z方向にi,j,k番目(それぞれ整数)のボクセルV(i,j,k)に属する点群を点群PG(i,j,k)と表記する。
【0023】
ステップS4では、各ボクセルV(i,j,k)につき、密度評価部132がその点群PG(i,j,k)の密度d(i,j,k)を評価し、且つ、視野評価部133がその点群P(i,j,k)の視野範囲r(i,j,k)を評価してから、ステップS5へと進む。
【0024】
密度評価部132では、ボクセルV(i,j,k)の体積をvol(i,j,k)とし、ボクセルV(i,j,k)内に属する点群PG(i,j,k)における点の個数をnum(i,j,k)とすると、d(i,j,k)=num(i,j,k)/vol(i,j,k)として密度d(i,j,k)を求めることができる。各ボクセルV(i,j,k)のサイズが共通であり、体積vol(i,j,k)も一定値である場合は、d(i,j,k)=num(i,j,k)として、点の個数num(i,j,k)を密度d(i,j,k)の値としてそのまま用いるようにしてもよい。
【0025】
視野評価部133では例えば、ボクセルの点群PG(i,j,k)に属する各点p(p∈PG(i,j,k))に対応する特徴点が取得された2つ以上(N個とする。N=N(p)である(個数Nは点pごとに一般に異なる)が、以下では単にNと書くこととする。)のフレーム画像のカメラ位置をCp1,Cp2,…,CpNとすると、点pを頂点として、対応するN個のカメラ位置Cp1,Cp2,…,CpNによって囲まれる底面B(p)を有する錐体Cone(p)を考え、ボクセルV(i,j,k)の中心位置を中心とする単位球の表面(面積1の全天周)からこの錐体Cone(p)が切り取る領域をs(p)とすると、ボクセル点群PG(i,j,k)に属する全ての点pによる領域s(p)の和集合∪s(p)の面積として、視野範囲r(i,j,k)を算出してよい。
【0026】
図5は上記のようにして算出する視野範囲r(i,j,k)の模式的な例を2次元断面として示す図であり、視野範囲を評価する対象となるボクセルVが3つの点p,q,rを有する場合に、点pが対応する少なくとも2つのカメラ位置Cp1,Cp2による錐体Cone(p)によって単位球Eから領域s(p)が切り取られ、点qが対応する少なくとも2つのカメラ位置Cq1,Cq2による錐体Cone(q)によって単位球Eから領域s(q)が切り取られ、点rが対応する少なくとも2つのカメラ位置Cr1,Cr2による錐体Cone(r)によって単位球Eから領域s(r)が切り取られることで、
図5の例では相互に重複しない領域s(p),s(r),s(q)の面積の総和として視野範囲r(i,j,k)が定まる。
【0027】
視野評価部133では上記の手法に限らず、ボクセルの点群PG(i,j,k)に属する各点p(p∈PG(i,j,k))が対応するカメラ位置Cp1,Cp2,…,CpNの方向(点p又はボクセルV(i,j,k)の中心から見た際の方向)のばらつきが大きいほど点pによる視野範囲が広いものとして、点pの視野範囲を評価して、ボクセル点群PG(i,j,k)の全ての点pによるこのような視野範囲の全体が広いほど値が大きくなるように、視野範囲r(i,j,k)を算出することができる。
【0028】
例えば、単位球などは設定せずに、単純に直方体又は立方体として構成されるボクセルV(i,j,k)の各面(6つの面)について、ボクセル点群VG(i,j,k)に属する少なくとも1つの点pとカメラ位置Cp1,Cp2,…,CpNとを結ぶ直線のうち少なくとも1本が通過するか否かを判定し、6つの面のそれぞれについて1本でもこのような直線が通過すれば評価値を1とし、このような直線が通過しない場合には評価値を0として、6つの面での評価値の総和(0以上6以下)として簡易に視野範囲r(i,j,k)を算出するようにしてもよい。
【0029】
なお、点pに対応するN個のカメラ位置Cp1,Cp2,…,CpNの情報は、点群構築部12において点群PGを構築した際に既知となっている。すなわち、点群PGに属する各点pに対応するフレーム画像の特徴点が紐づいていることから、各点pに対応するN個のフレーム画像の情報が紐づいており、さらに、このN個のフレーム画像について撮影した際のカメラ位置の情報(点群PGを算出する際にこのカメラ位置の情報も算出されている)として、カメラ位置Cp1,Cp2,…,CpNの情報も、点群PGに紐づけて保持しておくことが可能である。
【0030】
ステップS5では、候補決定部134が、各ボクセルV(i,j,k)につき、ステップS4で密度評価部132が算出した密度d(i,j,k)及び視野評価部133が算出した視野範囲r(i,j,k)に基づいて、当該ボクセルV(i,j,k)が候補ボクセルに該当するか否かを決定し、決定結果を学習部14へと出力してから、ステップS6へと進む。
【0031】
候補決定部134では具体的に以下のように、密度d(i,j,k)が所定の密度閾値THdよりも大きく、且つ、視野範囲r(i,j,k)が所定の視野範囲閾値THrよりも大きいと判定されるようなボクセルV(i,j,k)を、候補ボクセルに該当するものとして決定することができる。
d(i,j,k)>THd 且つ r(i,j,k)>THr
【0032】
このように決定される候補ボクセルとは、対応するボクセルV(i,j,k)の点群PG(i,j,k)が、
図4で箇所P1やP2として模式的に示したような特徴を有するランドマークに由来するものである候補であることを意味するものである。すなわち、当該ボクセルV(i,j,k)内にランドマークが存在する可能性があることを、候補ボクセルは意味している。
【0033】
ステップS6では学習部14が、画像取得部11で取得した映像(各フレーム画像F(t))及び候補決定部134で決定した候補ボクセルの情報を利用して学習を行うことにより、画像からランドマーク領域を自動検出する深層学習モデルを得て、この深層学習モデルをモデルDB15に保存してから、ステップS7へと進む。
【0034】
ステップS6において学習部14は具体的に以下の手順1~手順3により、モデルを学習することができる。
【0035】
(手順1) 候補決定部134で決定した候補ボクセルに対して、連結領域ラベリング等を適用することにより、隣接(連結)しているボクセル(連結成分を構成しているボクセル)を1つの塊にまとめ、共通のIDを付与する。説明のため、このようにして得られた連結候補ボクセル群が合計でK個あるものとし、これらをVc1,Vc2,…,VcK(={Vck|k=1,2,…,K})と表記する。
【0036】
(手順2) 各連結候補ボクセル群Vck(k=1,2,…,K)を、フレーム画像F(t)(t=1,2,3,…)へと透視投影によりマッピングすることで、各フレーム画像F(t)内において各連結候補ボクセル群Vckの占める領域R(t,k)の情報を取得する。(なお、t,kの組み合わせによっては、そもそも投影されない場合(R(t,k)が空集合となる場合)もありうる。)
【0037】
図6は、手順2におけるマッピングを模式的に示す図であり、3次元世界座標系内に存在する、ある連結候補ボクセル群Vckが、あるフレーム画像F(t)の2次元画像座標に透視投影された領域として領域R(t,k)が定まることが模式的に示されている。すでに説明したように、フレーム画像F(t)は点群PGを求めた際に、そのカメラの外部パラメータに相当するカメラ位置(及び向き)が3次元世界座標系におけるものとして定まっているので、この情報(及び既知のカメラの内部パラメータの情報)を用いて、
図6に示すような透視投影を行うことが可能となる。
【0038】
(手順3) 少なくとも1つの領域R(t,k)がマッピングして投影されているフレーム画像F(t)を自動アノテーションが付与された学習データとして利用して、深層学習による物体検出やインスタンスセグメンテーションなどの学習を実施する。ここで、フレーム画像F(t)内の領域R(t,k)は、K個存在する連結候補ボクセル群Vck(k=1,2,…,K)、すなわち、K個のランドマーク候補のうちk番目のランドマークの対象物の領域に該当するものとして、自動アノテーションが付与された学習データとして利用することができる。すなわち、当該自動アノテーション付与された学習データにおいては、ランドマークの対象物が具体的に何であるか(人間により何の物体として認識されうるか)の情報は明示的には与えられないが、K個のランドマーク候補のうちいずれのk番目のランドマークであるかという、ランドマークの識別子が、アノテーションとして付与されていることとなる。
【0039】
この自動アノテーション付与された学習データを用いた学習は以下の手順3-1~手順3-3のようにすればよい。
【0040】
(手順3-1) 学習用データ(上記のように自動アノテーション付与されたもの)から、識別子k=1,2,…,Kで区別される各ランドマーク候補(説明のためランドマーク候補L(k)とする)についての正誤及び確度の評価結果を得る。(すなわち、学習用データの一部を訓練用、残りの一部を検証用とし、訓練用データで訓練しながら定期的に検証用データで学習状況を検証して評価結果を得るようにする。)なお、確度は一般的な指標(recall, precision, F値など)で評価すればよく、指標として、IoU(Intersection over Union)により領域の重なり具合の推定の正確さを評価してもよいし、複数の物体検知をまとめて評価する指標としてmAP(mean Average Precision)を用いてもよい。
【0041】
(手順3-2) 上記の手順3-1の評価結果において、確度が低い、及び間違った推定をした、されたランドマーク候補L(k)は、ユニーク性が低いとして、すなわち、ランドマークとして設定して用いるには不適切であるものとして、候補から除外する。
【0042】
(手順3-3) 上記の手順3-2で候補から除外されなかったランドマーク候補L(k)を、候補ではなくランドマークL(k)であるものとして確定させ、手順3-1において既に学習済みのモデルと、ランドマークの位置(元の候補ボクセル群Vckの位置として与えられる3次元世界座標における位置)とを紐づけてモデルDB15に保存する。(なお、手順3-2で候補から除外されたランドマーク候補に関しては、学習データにおいては自動アノテーション付与がなされなかったものとして学習データを更新し、再度、手順3-1と同様の学習を行って得られる学習モデル及びランドマーク位置を、モデルDB15に保存するようにしてもよい。)
【0043】
以上の通り、
図3のステップS6を終えるとステップS7へと進む。ステップS7では推定装置10において新たな画像の撮影を行い、ステップS6で得られてモデルDB15に保存されているモデルを利用することにより、この画像を撮影したカメラ(画像撮影部21を構成するカメラ)の位置を推定して、
図3のフローは終了する。
【0044】
具体的にステップS7ではまず、画像撮影部21が画像を撮影して、この画像を推定部22へと出力する。次いで、推定部22は、この画像に対してモデルDB15に保存されている学習済みモデルによる物体認識を適用し、いずれのランドマークL(k)(候補ではない)が画像内のいずれの領域に撮影されているかの認識結果を得て、当該認識されたランドマークの位置及び大きさより、画像の位置推定結果を得る。ここで、ランドマークの位置及び大きさは、画像におけるもの(2次元画像座標での位置及び大きさ)として推定したうえで、3次元世界座標におけるものとして画像の位置を推定すればよい。具体的には例えば以下のように(1)、(2)の場合分けに従って推定すればよい。
【0045】
(1)まず、撮影した画像にランドマークが3つ以上ある場合には、その位置関係からカメラ画像の3次元位置を計算することができる。また、その際に、検知した2次元画像座標での大きさも考慮することで、3次元位置の精度を高めるようにしてよい。(1a)またその3次元位置を推定した後、より精度を高めるために、推定したカメラ画像位置の近くの画像を抽出し、点群マッチングして位置推定するという手法を用いてもよい。(2)一方、撮影した画像に2つ以下のランドマークがある場合、そのランドマークが写っている画像を通常のVPSの点群のマッチング候補となる画像として利用し、通常の点群マッチングで3次元位置推定を行うようにすればよい。
【0046】
以上、本実施形態の学習装置によれば、測位や地図作成において一般的に利用されている点群を利用して、手動によるアノテーション等の手間を発生させることなく、画像よりランドマークを自動推定するモデルを学習することが可能となる。以下、種々の補足説明を行う。
【0047】
(A)
図3のステップS1にて画像取得部11は、単一の移動体としての端末1においてフィールド内を移動しながら撮影した映像の各フレーム画像を取得するものとして説明したが、本実施形態を適用可能な画像群はこのように映像として取得されたものに限定されない。ステップS1にて画像取得部11は、点群構築の対象となるフィールドを、複数の移動体における各カメラによって様々な位置姿勢において撮影された画像群を取得するようにしてもよい。また、移動体のカメラに限らず、様々な位置の固定カメラから撮影された画像群を取得するようにしてもよい。このように取得する場合、画像取得部11はハードウェアとしてカメラとして構成されることに代えて、または加えて、様々なカメラで撮影された画像をネットワーク上から取得するための通信インタフェースとして構成されるものであってよい。
【0048】
(B)
図7は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。点群処理システム100における学習装置10及び推定装置20を構成する端末1及びサーバ2はそれぞれ、このような構成を有する1台以上のコンピュータ装置70として実現可能である。なお、2台以上のコンピュータ装置70で学習装置10又は推定装置20実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU(中央演算装置)71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU(グラフィックス演算装置)72、CPU71(及びGPU72)にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77、画像取得部11及び画像撮影部21をハードウェアとして構成するカメラ78と、これらの間でデータを授受するためのバスBSと、を備える。前述の通り、画像取得部11を構成するハードウェアは、通信インタフェース75であってもよい。
【0049】
学習装置10及び推定装置20の各機能部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び/又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置(プロセッサ)の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。点群処理システム100による処理結果等はディスプレイ76で表示して出力してよい。
【符号の説明】
【0050】
100…点群処理システム、1…端末、2…サーバ
10…学習装置、11…画像取得部、12…点群構築部、13…決定部、14…学習部、15…モデルDB、131…ボクセル分割部、132…密度評価部、133…視野評価部、134…候補決定部
20…推定装置、21…画像撮影部、22…推定部