(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-05
(45)【発行日】2023-01-16
(54)【発明の名称】対象物認識装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20230106BHJP
【FI】
G06T7/00 350B
(21)【出願番号】P 2018083641
(22)【出願日】2018-04-25
【審査請求日】2021-04-12
【前置審査】
(73)【特許権者】
【識別番号】500063228
【氏名又は名称】田中 成典
(73)【特許権者】
【識別番号】502235692
【氏名又は名称】中村 健二
(73)【特許権者】
【識別番号】517309320
【氏名又は名称】塚田 義典
(73)【特許権者】
【識別番号】516119678
【氏名又は名称】株式会社日本インシーク
(73)【特許権者】
【識別番号】519113745
【氏名又は名称】Intelligent Style株式会社
(74)【代理人】
【識別番号】100092956
【氏名又は名称】古谷 栄男
(74)【代理人】
【識別番号】100101018
【氏名又は名称】松下 正
(72)【発明者】
【氏名】田中 成典
(72)【発明者】
【氏名】中村 健二
(72)【発明者】
【氏名】塚田 義典
(72)【発明者】
【氏名】平野 順俊
(72)【発明者】
【氏名】大月 庄治
(72)【発明者】
【氏名】田中 恭介
(72)【発明者】
【氏名】山岸 洋明
(72)【発明者】
【氏名】川村 義和
(72)【発明者】
【氏名】楠本 博
(72)【発明者】
【氏名】梅▲原▼ 喜政
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】特開平10-232936(JP,A)
【文献】特開2015-032256(JP,A)
【文献】特開2015-176175(JP,A)
【文献】特開2011-215843(JP,A)
【文献】特開2017-138219(JP,A)
【文献】特開2017-223511(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
(57)【特許請求の範囲】
【請求項1】
対象物を区別して認識するための認識装置であって、
対象物を測定した三次元点群データを、当該対象物の周囲に回転させたn個の各位置における第1~第n二次元平面に投影した第1~第n二次元投影データを生成する二次元投影データ生成手段と、
前記第1~第n二次元投影データのそれぞれに基づいて、対象物を推定し、第1~第n対象物推定結果を出力する推定手段と、
第1~第n対象物推定結果に基づいて、統合対象物推定結果を出力する統合推定手段と、
を備えた認識装置において、
前記二次元投影データの各点には、
計測時の点密度および前記各点から前記二次元平面までの距離が属性として付与され、
前記各推定手段は、
当該点密度および当該距離も考慮して対象物の推定を行うことを特徴とする認識装置。
【請求項2】
コンピュータによって対象物を区別して認識するための認識装置を実現するための認識プログラムであって、コンピュータを、
対象物を測定した三次元点群データを、当該対象物の周囲に回転させたn個の各位置における第1~第n二次元平面に投影した第1~第n二次元投影データを生成する二次元投影データ生成手段と、
前記第1~第n二次元投影データのそれぞれに基づいて、対象物を推定し、第1~第n対象物推定結果を出力する推定手段と、
第1~第n対象物推定結果に基づいて、統合対象物推定結果を出力する統合推定手段として機能させるための認識プログラムにおいて、
前記二次元投影データの各点には、
計測時の点密度および前記各点から前記二次元平面までの距離が属性として付与され、
前記各推定手段は、
当該点密度および当該距離も考慮して対象物の推定を行うことを特徴とする認識プログラム。
【請求項3】
請求項1の装置または請求項2のプログラムにおいて、
前記推定手段は、学習対象物の三次元点群データを、当該対象物の周囲に回転させたn個の各位置における二次元平面に投影した第1~第n二次元投影データを学習データとして学習させた結果に基づいて推論を行うことを特徴とする装置またはプログラム。
【請求項4】
請求項3の装置またはプログラムにおいて、
前記推定手段は、第1~第n二次元投影データを学習データとして学習を行う一つの学習モデルを備えることを特徴とする装置またはプログラム。
【請求項5】
請求項3の装置またはプログラムにおいて、
前記推定手段は、第1~第n二次元投影データのそれぞれを学習データとして学習を行う複数の学習モデルを備えることを特徴とする装置またはプログラム。
【請求項6】
請求項1~5のいずれかの装置またはプログラムにおいて、
前記統合推定手段は、前記第1~第n二次元投影データのうち、対象物の三次元点群データを測定した測定位置に対応する二次元投影データを、他の二次元投影データよりもウエイトを高くして統合対象物推定を行うことを特徴とする装置またはプログラム。
【請求項7】
対象物を測定した三次元点群データを、二次元平面に投影した二次元投影データに基づいて、対象物を区別して認識するための認識装置をコンピュータによって生産する方法であって、
前記コンピュータが、学習によって上記認識処理を実現する装置に、学習対象物の三次元点群データを、当該対象物の周囲に回転させたn個の各位置における二次元平面に投影した第1~第n二次元投影データを学習データとして与えて学習させることにより認識装置を生産する方法において、
前記二次元投影データの各点には、
計測時の点密度および前記各点から前記二次元平面までの距離が属性として付与されていることを特徴とする認識装置を生産する方法。
【請求項8】
対象物を区別して認識するための認識装置であって、
対象物を測定した三次元点群データを、視点と対象物までの距離を段階的に変えて二次元平面に投影した第1~第m二次元投影データを生成する二次元投影データ生成手段と、
前記第1~第m二次元投影データのそれぞれに基づいて、対象物を推定し、第1~第m対象物推定結果を出力する推定手段と、
第1~第m対象物推定結果に基づいて、統合対象物推定結果を出力する統合推定手段と、
を備えた認識装置において、
前記二次元投影データの各点には、
計測時の点密度および前記各点から前記二次元平面までの距離が属性として付与され、
前記各推定手段は、
当該点密度および当該距離も考慮して対象物の推定を行うことを特徴とする認識装置。
【請求項9】
コンピュータによって対象物を区別して認識するための認識装置を実現するための認識プログラムであって、コンピュータを、
対象物を測定した三次元点群データを、視点と対象物までの距離を段階的に変えて二次元平面に投影した第1~第m二次元投影データを生成する二次元投影データ生成手段と、
前記第1~第m二次元投影データのそれぞれに基づいて、対象物を推定し、第1~第m対象物推定結果を出力する推定手段と、
第1~第m対象物推定結果に基づいて、統合対象物推定結果を出力する統合推定手段として機能させるための認識プログラムにおいて、
前記二次元投影データの各点には、
計測時の点密度および前記各点から前記二次元平面までの距離が属性として付与され、
前記各推定手段は、
当該点密度および当該距離も考慮して対象物の推定を行うことを特徴とする認識プログラム。
【請求項10】
請求項8の装置または請求項9のプログラムにおいて、
前記推定手段は、学習対象物の三次元点群データを、視点と対象物までの距離を段階的に変えて二次元平面に投影した第1~第m二次元投影データを学習データとして学習させた結果に基づいて推論を行うことを特徴とする装置またはプログラム。
【請求項11】
請求項10の装置またはプログラムにおいて、
前記推定手段は、第1~第m二次元投影データを学習データとして学習を行う一つの学習モデルを備えることを特徴とする装置またはプログラム。
【請求項12】
請求項10の装置またはプログラムにおいて、
前記推定手段は、第1~第m二次元投影データのそれぞれを学習データとして学習を行う複数の学習モデルを備えることを特徴とする装置またはプログラム。
【請求項13】
請求項10~12のいずれかの装置またはプログラムにおいて、
前記統合推定手段は、前記第1~第m二次元投影データのうち、前記視点が対象物の三次元点群データを測定した測定位置に最も近接している二次元投影データを、他の二次元投影データよりもウエイトを高くして統合対象物推定を行うことを特徴とする装置またはプログラム。
【請求項14】
対象物を測定した三次元点群データを、二次元平面に投影した二次元投影データに基づいて、対象物を区別して認識するための認識装置をコンピュータによって生産する方法であって、
前記コンピュータが、学習によって上記認識処理を実現する装置に、学習対象物の三次元点群データを、視点と対象物までの距離を段階的に変えて二次元平面に投影した第1~第m二次元投影データを学習データとして与えて学習させることにより認識装置を生産する方法において、
前記二次元投影データの各点には、
計測時の点密度および前記各点から前記二次元平面までの距離が属性として付与されていることを特徴とする認識装置を生産する方法。
【請求項15】
対象物を区別して認識するための認識装置であって、
対象物を測定した三次元点群データを、対象物までの距離を段階的に変えたm個の視点にて、当該対象物の周囲に回転させたn個の各位置における第1~第n二次元平面に投影した第11~第nm二次元投影データを生成する二次元投影データ生成手段と、
前記第11~第nm二次元投影データのそれぞれに基づいて、対象物を推定し、第11~第nm対象物推定結果を出力する推定手段と、
第11~第nm対象物推定結果に基づいて、統合対象物推定結果を出力する統合推定手段と、
を備えた認識装置において、
前記二次元投影データの各点には、
計測時の点密度および前記各点から前記二次元平面までの距離が属性として付与され、
前記各推定手段は、
当該点密度および当該距離も考慮して対象物の推定を行うことを特徴とする認識装置。
【請求項16】
コンピュータによって対象物を区別して認識するための認識装置を実現するための認識プログラムであって、コンピュータを、
対象物を測定した三次元点群データを、対象物までの距離を段階的に変えたm個の視点にて、当該対象物の周囲に回転させたn個の各位置における第1~第n二次元平面に投影した第11~第nm二次元投影データを生成する二次元投影データ生成手段と、
前記第11~第nm二次元投影データのそれぞれに基づいて、対象物を推定し、第11~第nm対象物推定結果を出力する推定手段と、
第11~第nm対象物推定結果に基づいて、統合対象物推定結果を出力する統合推定手段として機能させるための認識プログラムにおいて、
前記二次元投影データの各点には、
計測時の点密度および前記各点から前記二次元平面までの距離が属性として付与され、
前記各推定手段は、
当該点密度および当該距離も考慮して対象物の推定を行うことを特徴とする認識プログラム。
【請求項17】
請求項15の装置または請求項16のプログラムにおいて、
前記推定手段は、学習対象物の三次元点群データを、対象物までの距離を段階的に変えたm個の視点にて、当該対象物の周囲に回転させたn個の各位置における第1~第n二次元平面に投影した第11~第nm二次元投影データを学習データとして学習させた結果に基づいて推論を行うことを特徴とする装置またはプログラム。
【請求項18】
請求項17の装置またはプログラムにおいて、
前記推定手段は、第11~第nm二次元投影データを学習データとして学習を行う一つの学習モデルを備えることを特徴とする装置またはプログラム。
【請求項19】
請求項17の装置またはプログラムにおいて、
前記推定手段は、第11~第nm二次元投影データのそれぞれを学習データとして学習を行う複数の学習モデルを備えることを特徴とする装置またはプログラム。
【請求項20】
請求項17~19のいずれかの装置またはプログラムにおいて、
前記統合推定手段は、前記第11~第nm二次元投影データのうち、対象物の三次元点群データを測定した測定位置に対応する視点および回転位置における二次元投影データを、他の二次元投影データよりもウエイトを高くして統合対象物推定を行うことを特徴とする装置またはプログラム。
【請求項21】
対象物を測定した三次元点群データを、二次元平面に投影した二次元投影データに基づいて、対象物を区別して認識するための認識装置をコンピュータによって生産する方法であって、
前記コンピュータが、学習によって上記認識処理を実現する装置に、学習対象物の三次元点群データを、対象物までの距離を段階的に変えたm個の視点にて、当該対象物の周囲に回転させたn個の各位置における第1~第n二次元平面に投影した第11~第nm二次元投影データを学習データとして与えて学習させることにより認識装置を生産する方法において、
前記二次元投影データの各点には、
計測時の点密度および前記各点から前記二次元平面までの距離が属性として付与されていることを特徴とする認識装置を生産する方法。
【請求項22】
請求項1~6、8~13、15~20のいずれかの装置またはプログラムにおいて、
前記二次元投影データの各点には、前記三次元点群データにおける点の密度が属性として付与され、
前記各推定手段は、当該密度も考慮して対象物の推定を行うことを特徴とする装置またはプログラム。
【請求項23】
請求項1~6、8~13、15~20、22のいずれかの装置またはプログラムにおいて、
前記二次元投影データの各点には、反射強度または色データまたはその双方が属性として付与され、
前記各推定手段は、当該反射強度または色データまたはその双方も考慮して対象物の推定を行うことを特徴とする装置またはプログラム。
【請求項24】
請求項1~6、8~13、15~20、22、23のいずれかの装置またはプログラムにおいて、
前記三次元点群データは、道路上を走行しながら異なる方向から計測した地物の点群データを合成して得た三次元点群データであることを特徴とする装置またはプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、対象物を認識するための装置に関するものである。
【背景技術】
【0002】
レーザスキャナなどによって道路、標識、建物などを計測した三次元点群データに基づいて、標識、建物などの地物を抽出することが行われている。作業者が画面を見ながら、各地物を判定して抽出し属性を付与することは、確実性は高いものの、煩雑であり抽出時間を要するという問題がある。
【0003】
非特許文献1には、三次元点群データに対応するCADデータに基づいて、三次元点群データから地物を抽出して属性を付与する処理が開示されている。
【0004】
特許文献1には、三次元点群データに対応するカラー画像に基づいて、三次元点群データから地物を抽出して属性を付与する処理が開示されている。
【0005】
これらによれば、迅速にかつ正確に地物を抽出できる。
【0006】
また、機械学習によって三次元点群データから地物を抽出することも提案されている。このようなシステムを実現するためには、大量の学習データが必要である。非特許文献2には、CADデータに基づいて学習データとしての三次元点群データを生成する手法が開示されている。
【先行技術文献】
【特許文献】
【0007】
【非特許文献】
【0008】
【文献】中村健二他「完成平面図に基づいた点群データの地物抽出技術に関する研究」土木学会論文集(土木情報学)73巻2号、I_424-I_432、2017年
【文献】深野健太他「移動計測データに基づく地類分類のための学習データ生成方法」2014年精密工学会秋季学術講演会講演論文集
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、非特許文献1や特許文献1の手法では、三次元点群データに対応するCADデータやカラー画像データに基づいて、地物に対応する三次元点群データを抽出するようにしている。このため、三次元点群データに対応するCADデータやカラー画像データが存在しない場合には、地物を抽出できないという問題があった。
【0010】
また、CADデータの作成時には存在しなかった地物や、CADデータ作成後に除去された地物については、これらを正しく抽出できないという問題もあった。
【0011】
さらに、深層学習や機械学習を行って三次元点群データから地物を抽出するとしても、その学習データを大量に用意しなければならなかった。非特許文献2は、これを解決するための一手法ではあるが、CADデータに基づいて学習用データを生成するものであって、CADデータが存在しない場合には、用いることができなかった。
【0012】
この発明は、上記のような問題点を解決して、CADデータがなくとも地物を適切に抽出することのできる装置を提供することを目的とする。
【課題を解決するための手段】
【0013】
この発明のいくつかの独立して適用可能な特徴を以下に示す。
【0014】
(1)(2)この発明に係る認識装置は、対象物を区別して認識するための認識装置であって、対象物を測定した三次元点群データを、当該対象物の周囲に回転させたn個の各位置における第1~第n二次元平面に投影した第1~第n二次元投影データを生成する二次元投影データ生成手段と、前記第1~第n二次元投影データのそれぞれに基づいて、対象物を推定し、第1~第n対象物推定結果を出力する推定手段と、第1~第n対象物推定結果に基づいて、統合対象物推定結果を出力する統合推定手段とを備えている。
【0015】
したがって、角度を変えて投影した複数の二次元投影データに基づく推定結果に基づいて、正確な推定を行うことができる。
【0016】
(3)この発明に係る推定装置は、推定手段が、学習対象物の三次元点群データを、当該対象物の周囲に回転させたn個の各位置における二次元平面に投影した第1~第n二次元投影データを学習データとして学習させた結果に基づいて推論を行うことを特徴としている。
【0017】
したがって、一つのデータに対して複数の学習データを生成して学習させることができる。
【0018】
(4)この発明に係る推定装置は、推定手段が、第1~第n二次元投影データを学習データとして学習を行う一つの学習モデルを備えることを特徴としている。
【0019】
したがって、複数の角度からの投影データに基づいて学習を行うことができる。
【0020】
(5)この発明に係る推定装置は、推定手段が、第1~第n二次元投影データのそれぞれを学習データとして学習を行う複数の学習モデルを備えることを特徴としている。
【0021】
したがって、複数の角度からの投影データに基づいて学習を行う複数の学習モデルにて推定を行うことができる。
【0022】
(6)この発明に係る推定装置は、統合推定手段が、前記第1~第n二次元投影データのうち、対象物の三次元点群データを測定した測定位置に対応する二次元投影データを、他の二次元投影データよりもウエイトを高くして統合対象物推定を行うことを特徴としている。
【0023】
したがって、より精度の高い推定を行うことができる。
【0024】
(7)この発明に係る認識装置の生産方法は、対象物を測定した三次元点群データを、二次元平面に投影した二次元投影データに基づいて、対象物を区別して認識するための認識装置を生産する方法であって、学習によって上記認識処理を実現する装置に、学習対象物の三次元点群データを、当該対象物の周囲に回転させたn個の各位置における二次元平面に投影した第1~第n二次元投影データを学習データとして与えて学習させることを特徴としている。
【0025】
したがって、一つのデータに対して複数の学習データを生成して学習させた認識装置を生成することができる。
【0026】
(8)(9)この発明に係る認識装置は、対象物を区別して認識するための認識装置であって、対象物を測定した三次元点群データを、視点と対象物までの距離を段階的に変えて二次元平面に投影した第1~第m二次元投影データを生成する二次元投影データ生成手段と、前記第1~第m二次元投影データのそれぞれに基づいて、対象物を推定し、第1~第m対象物推定結果を出力する推定手段と、第1~第m対象物推定結果に基づいて、統合対象物推定結果を出力する統合推定手段とを備えている。
【0027】
したがって、距離を変えて投影した複数の二次元投影データに基づく推定結果に基づいて、正確な推定を行うことができる。
【0028】
(10)この発明に係る認識装置は、推定手段が、学習対象物の三次元点群データを、視点と対象物までの距離を段階的に変えて二次元平面に投影した第1~第m二次元投影データを学習データとして学習させた結果に基づいて推論を行うことを特徴としている。
【0029】
したがって、一つのデータに対して複数の学習データを生成して学習させることができる。
【0030】
(11)この発明に係る認識装置は、推定手段が、第1~第m二次元投影データを学習データとして学習を行う一つの学習モデルを備えることを特徴としている。
【0031】
したがって、複数の距離からの投影データに基づいて学習を行うことができる。
【0032】
(12)この発明に係る認識装置は、推定手段が、第1~第m二次元投影データのそれぞれを学習データとして学習を行う複数の学習モデルを備えることを特徴としている。
【0033】
したがって、複数の距離からの投影データに基づいて学習を行う複数の学習モデルにて推定を行うことができる。
【0034】
(13)この発明に係る認識装置は、統合推定手段が、前記第1~第m二次元投影データのうち、前記視点が対象物の三次元点群データを測定した測定位置に最も近接している二次元投影データを、他の二次元投影データよりもウエイトを高くして統合対象物推定を行うことを特徴としている。
【0035】
したがって、より精度の高い推定を行うことができる。
【0036】
(14)この発明に係る認識装置の生産方法は、対象物を測定した三次元点群データを、二次元平面に投影した二次元投影データに基づいて、対象物を区別して認識するための認識装置を生産する方法であって、学習によって上記認識処理を実現する装置に、学習対象物の三次元点群データを、視点と対象物までの距離を段階的に変えて二次元平面に投影した第1~第m二次元投影データを学習データとして与えて学習させることを特徴としている。
【0037】
したがって、一つのデータに対して複数の学習データを生成して学習させた認識装置を生成することができる。
【0038】
(15)(16)この発明に係る認識装置は、対象物を区別して認識するための認識装置であって、対象物を測定した三次元点群データを、対象物までの距離を段階的に変えたm個の視点にて、当該対象物の周囲に回転させたn個の各位置における第1~第n二次元平面に投影した第11~第nm二次元投影データを生成する二次元投影データ生成手段と、前記第11~第nm二次元投影データのそれぞれに基づいて、対象物を推定し、第11~第nm対象物推定結果を出力する推定手段と、第11~第nm対象物推定結果に基づいて、統合対象物推定結果を出力する統合推定手段とを備えている。
【0039】
したがって、角度および距離を変えて投影した複数の二次元投影データに基づく推定結果に基づいて、正確な推定を行うことができる。
【0040】
(17)この発明に係る認識装置は、推定手段が、学習対象物の三次元点群データを、対象物までの距離を段階的に変えたm個の視点にて、当該対象物の周囲に回転させたn個の各位置における第1~第n二次元平面に投影した第11~第nm二次元投影データを学習データとして学習させた結果に基づいて推論を行うことを特徴としている。
【0041】
したがって、一つのデータに対して複数の学習データを生成して学習させることができる。
【0042】
(18)この発明に係る認識装置は、推定手段が、第11~第nm二次元投影データを学習データとして学習を行う一つの学習モデルを備えることを特徴としている。
【0043】
したがって、複数の角度・距離からの投影データに基づいて学習を行うことができる。
【0044】
(19)この発明に係る認識装置は、推定手段が、第11~第nm二次元投影データのそれぞれを学習データとして学習を行う複数の学習モデルを備えることを特徴としている。
【0045】
したがって、複数の角度・距離からの投影データに基づいて学習を行う複数の学習モデルにて推定を行うことができる。
【0046】
(20)この発明に係る認識装置は、統合推定手段が、前記第11~第nm二次元投影データのうち、対象物の三次元点群データを測定した測定位置に対応する視点および回転位置における二次元投影データを、他の二次元投影データよりもウエイトを高くして統合対象物推定を行うことを特徴としている。
【0047】
したがって、より精度の高い推定を行うことができる。
【0048】
(21)この発明に係る認識装置の生産方法は、対象物を測定した三次元点群データを、二次元平面に投影した二次元投影データに基づいて、対象物を区別して認識するための認識装置を生産する方法であって、学習によって上記認識処理を実現する装置に、学習対象物の三次元点群データを、対象物までの距離を段階的に変えたm個の視点にて、当該対象物の周囲に回転させたn個の各位置における第1~第n二次元平面に投影した第11~第nm二次元投影データを学習データとして与えて学習させることを特徴としている。
【0049】
したがって、一つのデータに対して複数の学習データを生成して学習させた認識装置を生成することができる。
【0050】
(22)この発明に係る認識装置は、二次元投影データの各点には、前記二次元平面までの垂直距離が属性として付与され、各推定手段は、当該垂直距離も考慮して対象物の推定を行うことを特徴としている。
【0051】
したがって、二次元投影データを用いながら、三次元空間における奥行き情報を用いて対象物の推定を行うことができる。
【0052】
(23)この発明に係る認識装置は、二次元投影データの各点には、前記三次元点群データにおける点の密度が属性として付与され、各推定手段は、当該密度も考慮して対象物の推定を行うことを特徴としている。
【0053】
したがって、二次元投影データを用いながら、三次元空間における密度情報を用いて対象物の推定を行うことができる。
【0054】
(24)この発明に係る認識装置は、二次元投影データの各点には、反射強度または色データまたはその双方が属性として付与され、各推定手段は、当該反射強度または色データまたはその双方も考慮して対象物の推定を行うことを特徴としている。
【0055】
したがって、対象物の反射強度も考慮した推定を行うことができる。
【0056】
(25)(26)この発明に係る認識装置は、対象物を区別して認識するための認識装置であって、対象物について第1~第n観点による第1~第n対象物データを得るデータ取得手段と、学習対象物のそれぞれについて第1~第n観点による第1~第n学習対象物データを得て、これら学習対象物データに基づいて学習させた推定手段と、第1対象物データを推定手段に与えて得られた第1推定結果と、第2対象物データを推定手段に与えて得られた第2推定結果と、・・・第n対象物データを推定手段に与えて得られた第n推定結果とに基づいて、これら推定結果を統合して対象物を推定する統合推定手段とを備えている。
【0057】
したがって、観点変えて生成したデータに基づく推定結果に基づいて、精度の高い推定を行うことができる。
【0058】
(27)この発明に係る認識装置は、推定手段が、第1~第n学習対象物データによって学習を行う一つの学習モデルを備えることを特徴としている。
【0059】
したがって、複数の観点からの学習対象物データに基づいて学習を行うことができる。
【0060】
(28)この発明に係る認識装置は、推定手段が、第1~第n学習対象物データのそれぞれによって学習を行う第1~第n学習モデルを備え、第1学習モデルは第1対象物データによって第1推定結果を得て、第2学習モデルは第2対象物データによって第2推定結果を得て、・・・第n学習モデルは第n対象物データによって第n推定結果を得ることを特徴としている。
【0061】
したがって、複数の観点からの学習対象物データに基づいて学習を行う複数の学習モデルにて推定を行うことができる。
【0062】
(29)(30)この発明に係る認識装置は、対象物を区別して認識するための認識装置であって、対象物を測定した三次元点群データを得るデータ取得手段と、前記三次元点群データを二次元平面に投影し、各点に二次元平面までの垂直距離を属性として付与した二次元投影データを生成する二次元投影データ生成手段と、学習対象物のそれぞれについて、三次元点群データを二次元平面に投影し、三次元空間において前記三次元点群データの各点の特徴であって、二次元平面においては表現されない特徴を、各点に属性として付与した学習二次元投影データを得て、これら学習二次元投影データに基づいて学習させた推定手段であって、前記二次元投影データに基づいて、対象物を推定する推定手段とを備ている。
【0063】
したがって、二次元投影データを用いつつ三次元空間における特徴データも用いて推定を行うことができる。
【0064】
(31)この発明に係る推定装置は、学習二次元投影データおよび二次元投影データの各点には、三次元点群データを二次元平面に投影する際の、三次元点群データの各点から二次元平面の対応する各点までの垂直距離が属性として付与されていることを特徴としている。
【0065】
したがって、二次元投影データを用いつつ三次元空間における奥行き情報も用いて推定を行うことができる。
【0066】
(32)この発明に係る推定装置は、学習二次元投影データおよび二次元投影データの各点には、三次元点群データにおける対応する点の三次元空間における密度が属性として付与されていることを特徴としている。
【0067】
したがって、二次元投影データを用いつつ三次元空間における密度情報も用いて推定を行うことができる。
【0068】
「二次元投影データ生成手段」は、実施形態においては、ステップS153がこれに対応する。
【0069】
「推定手段」は、実施形態においては、ステップS155、S253がこれに対応する。
【0070】
「統合推定手段」は、実施形態においては、ステップS157、S254がこれに対応する。
【0071】
「データ取得手段」は、実施形態においては、ステップS153、S252がこれに対応する。
【0072】
「プログラム」とは、CPUにより直接実行可能なプログラムだけでなく、ソース形式のプログラム、圧縮処理がされたプログラム、暗号化されたプログラム等を含む概念である。
【図面の簡単な説明】
【0073】
【
図1】この発明の一実施形態による認識装置の生産方法の概要を示す図である。
【
図3】認識プログラム48の学習処理のフローチャートである。
【
図5】オブジェクトに対するバウンダリーボックス80を示す図である。
【
図8】投影されたオブジェクトデータを示す図である。
【
図9】オブジェクトを構成する点の密度の算出を示す図である。
【
図10】この発明の一実施形態による認識装置の機能ブロック図である。
【
図11】認識プログラム48のフローチャートである。
【
図15】バウンダリーボックスを設定した状態を示す図である。
【
図17】第3の実施形態による認識装置の機能構成である。
【
図18】認識プログラム48のフローチャートである。
【発明を実施するための形態】
【0074】
1.第1の実施形態
1.1全体構成
図1に、この発明の一実施形態による認識装置の学習方法を示す。これにより、深層学習プログラムが学習を行って、三次元点群データによって表されるオブジェクトの種類を認識する認識装置を生成することができる。
【0075】
学習対象物の三次元点群データ6の周囲に回転させた第1二次元平面P1、P2、P3・・・Pnに、当該三次元点群データ6を投影した第1~第n二次元投影データを生成する。これに、学習対象物の種類を属性として付与する。これを多数の学習対象物について行って、多くの第1~第n二次元投影データを生成する。
【0076】
このようにして生成した第1~第n二次元投影データを、深層学習プログラムに与えて学習を行う。これにより、対象物の二次元投影データに基づいて、対象物の種類を認識する認識装置を生成することができる。
【0077】
1.2ハードウエア構成
図2に、認識装置のハードウエア構成を示す。CPU30には、メモリ32、ディスプレイ34、通信回路36、ハードディスク38、DVD-ROMドライブ40、キーボード/マウス42、記録媒体ドライブ44が接続されている。通信回路36は、インターネットに接続するためのものである。記録媒体ドライブ44は、可搬性記録媒体52に記録された三次元点群データを取り込むためのものである。
【0078】
ハードディスク38には、オペレーティングシステム46、認識プログラム48が記録されている。認識プログラム48は、深層学習によって学習を行なうことで、与えられた三次元点群データ(に基づく二次元投影データ)によって示されるオブジェクトの種類を認識するものである。認識プログラム48は、オペレーティングシステム46と協働してその機能を発揮するものである。これらプログラムは、DVD-ROM50に記録されていたものを、DVD-ROMドライブ40を介して、ハードディスク38にインストールしたものである。
【0079】
1.3学習処理
この実施形態では、対象物の種類を推定するためにディープラーニング(深層学習)を用いている。たとえば、認識プログラム48の認識処理部分としてWei Liuらによって開発されたSSD(Single Shot MultiBox Detection)を用いることができる。
【0080】
図3に、認識プログラム48の学習処理のフローチャートを示す。CPU30は、ハードディスク38に記録された学習用元データを取得し、メモリ32に展開する(ステップS1)。この学習用元データは、可搬性記録媒体52に記録されていたものを、記録媒体ドライブ44を介してハードディスク38に記録したものである。
【0081】
学習用元データは、モービル・マッピング・システム(MMS)によって計測した三次元点群データに基づいて生成したものである。MMSでは、自動車などにレーザスキャナ・GPS受信機を搭載し、走行しながら路面や地物などの三次元形状を三次元点群データとして得ることができる。また、この実施形態では、レーザの反射強度を、三次元点群データの各点の属性として記録している。さらに、自動車などの走行軌跡も併せてデータとして記録している。
【0082】
以下、計測された三次元点群データから学習用元データを生成する処理を説明する。
図4に、三次元点群データを三次元空間にプロットした例を示す。この三次元点群データから地盤(地面、道路面など)を取り除き、樹木、ガードレール、標識などの地物について、それぞれの地物を囲う直方体のバウンダリーボックスを生成する。バウンダリーボックスは、ラベリング処理によって自動的に生成してもよいし、操作者の操作によって生成してもよい。
【0083】
図5に、オブジェクトに対して設定されたバウンダリーボックスを示す。図中、白線で示す直方体80がバウンダリーボックスである。バウンダリーボックス80は、オブジェクトを内包するように設定される。
図5は、標識のオブジェクトであるから、バウンダリーボックス80内の全ての三次元点群データに対して、「標識」という地物の種類名が付与される。地物の種類名の付与は、操作者がマウスなどを操作して行う。なお、この実施形態では、交通島、分離帯、植栽及び防雪林、歩道橋、標識柱・表示板、証明柱、道路反射鏡、信号機、ガードレール、電柱、ポールコーン、視線誘導線、踏切、施設・建物、フェンス、その他の構造物を種類名として付与し学習を行うようにしている。
【0084】
なお、2つ以上のオブジェクトが接触している場合には、それぞれのオブジェクトごとにバウンダリーボックスを生成する。このため、バウンダリーボックスが一部重複する場合もある。ただし、三次元点群を構成する各点は、それぞれいずれのオブジェクトであるか区別できるので、各点ごとに地物の種類名を付与する。
【0085】
なお、この実施形態では、レーザの反射強度も測定しているので、各点について反射強度が付与されている。
【0086】
以上のようにして生成された各地物についての多数の学習用元データを、ステップS1にて取り込む。
【0087】
次に、CPU30は、この三次元点群による学習用元データに基づいて、学習のための二次元投影データを生成する(ステップS3~S7)。
図6に示すように、オブジェクト6の周囲に所定角度(例えば60度ごと)にて、第1~第6二次元平面を生成する。このそれぞれの二次元平面にオブジェクト6を投影し、学習データである第1~第6二次元投影データを得る。
【0088】
図7に、三次元点群データであるオブジェクト6を第1二次元平面P1に投影して、第1二次元点群データである第1二次元投影データを得る処理を模式的に示す。この実施形態では、オブジェクト6と視点82との間に二次元平面を置くようにしている。このような投影処理を、第1~第6二次元平面P1~P6のそれぞれについて行う(ステップS4、S5、S6、S7)。したがって、いろいろな角度から投影された二次元投影データを得ることができる。
【0089】
この際、
図8Aに示すように、二次元投影データを囲うバウンダリーボックス86の領域を示す情報(右上、左下の座標)と、地物の種類を示す情報(「信号機」など)を、この二次元投影データに付与する(ステップS6)。なお、地物の種類を示す情報は、三次元点群データに予め与えられているので、これをそのまま用いることができる。
【0090】
さらに、二次元投影データの各点には、対応する三次元点群データの各点から二次元平面までの距離、対応する三次元点群データの各点の反射率、対応する三次元点群データの各点における点密度が属性として付与される(ステップS6)。
【0091】
三次元点群データの点から二次元平面までの距離を属性として持つことで、二次元点群データでありながら、三次元情報も保持することができる。また、さらに、三次元点群データにおける点密度も属性として持っており、この点においても三次元情報を保持することができる。
【0092】
また、反射率を付与することで、看板などの反射率の高い部分を含む地物の推定が容易となる。
【0093】
なお、この実施形態においては、次のようにして三次元点群データにおける点密度を、二次元投影データに与えている。
図9Aに示すようなオブジェクトがあるとする。このバウンダリボックスを
図9Bに示すように、複数に分割する。さらに分割を繰り返し、バウンダリーボックスの一辺が所定の値(たとえば0.1m以下)になるまで、バウンダリーボックスを小さくする(最小バウンダリーボックス)。この時に、最小バウンダリーボックス内に存在する点の数を密度として、当該最小バウンダリーボックス内の全ての点に属性として付与する。
【0094】
なお、計測するレーザや計測手法などによって三次元点群の点密度は異なったものとなる。したがって、各オブジェクトにおいて最も密度の高い最小バウダリーボックス等を基準として、密度の正規化を行うことが好ましい。
【0095】
上記のように、三次元点群データの各点には点密度が属性として付与されているので、上記二次元投影データにおいてもこれを付与する。
【0096】
なお、二次元投影時に、同一の位置に二以上の三次元点群データの点が対応することがある。この場合には、計測点に最も近い点のデータを用いるようにする。
【0097】
また、信号機とガードレールが接触するなど、複数の地物が一つのオブジェクトとして認識される場合には、三次元点群データにおいてそれぞれの地物について個々にバウンダリーボックスを設定する。これにより、
図8Bに示すように、それぞれの地物に対してバウンダリーボックス86a、86bが設定された二次元投影データを得ることができる。
【0098】
したがって、
図8Bに示すような二次元投影データを生成し、これに、信号機のバウンダリーボックス86aの領域を示す情報と地物の種類「信号機」、ガードレールのバウンダリボックス86bの領域を示す情報と地物の種類「ガードレール」を付与したデータが付与される。
【0099】
以上のようにして、第1~第6二次元元平面P1~P6における二次元投影データを得ると、CPU30は、視点82(
図7参照)の距離を変えて、上記の処理を繰り返し、二次元投影データを生成する(ステップS3、S5、S6、S7)。
【0100】
以上のようにして1つのオブジェクトについて多数の二次元投影データを得ることができる。CPU30は、学習用元データとして用意された全てのオブジェクトについて上記の処理を繰り返し、二次元投影データを得る(ステップS2、S7)。
【0101】
以上のようにして、学習のためのデータを生成することができる。次に、生成した二次元投影データを学習データ(教師データ)として、ディープラーニングのプログラム(ここでは、SSDを用いた)に与えて学習を行う(ステップS8)。
【0102】
なお、SSDは二次元カラー画像に基づくオブジェクト認識のために開発されたものである。したがって、SSDが扱うデータは、1つの画素についてRGBの3つである。そこで、この実施形態では、二次元投影データの各点を画素とし、Rに反射強度、Gに投影距離、Bに点密度を与えるようにした。点の存在する位置にはこれらデータを与え、点の存在しない位置にはデータはNULLとした。
【0103】
1.4その他
(1)上記実施形態では、二次元投影データの各点に、対応する三次元点群データの各点から二次元平面までの距離、対応する三次元点群データの各点における点密度を付与するようにしている。すなわち、三次元空間において現れるが、二次元平面においては現れない特徴をデータ(三次元特徴データ)として付与するようにしている。しかし、三次元点群データのオブジェクト中の所定場所(たとえば中心線)からの距離などの、その他の三次元特徴データを付与するようにしてもよい。
【0104】
(2)上記実施形態では、角度や距離を変えて二次元平面を設定し、二次元投影データを得るようにしている。しかし、角度のみを変えて二次元平面を設定して二次元投影データを得てもよい。また、距離のみを変えて二次元平面を設定して二次元投影データを得てもよい。また、上記実施形態では、オブジェクトの上下方向に垂直な面上に二次元平面を設定したが、いずれの方向に二次元平面を設定するようにしてもよい。たとえば、オブジェクトの上下方向に水平な面上に二次元平面を設定してもよい。
【0105】
(3)上記実施形態では、
図7に示すように、オブジェクト6と視点82の間に二次元平面Pを設定している。しかし、視点82に対してオブジェクト6の外側に二次元平面Pを設定してもよい。また、視点82を設定せず、無限遠点から二次元平面Pに対して投影を行うようにしてもよい。
【0106】
(4)上記実施形態では、計測して得た三次元点群データに基づいて二次元投影データを生成して学習用データとしている。しかし、計測して得た三次元点群データの点密度を変えるなどの加工を施したものに基づいて二次元投影データを生成して学習用データとしてもよい。また、三次元CADデータなどから生成した三次元点群データに基づいて二次元投影データを生成して学習用データとしてもよい。
【0107】
(5)上記では、角度や距離を変えて二次元平面を設定し、二次元投影データを学習データとして深層学習を行うようにしている。しかし、これらに次元投影データを機械学習の学習データとして用いてもよい。
【0108】
(6)上記実施形態および変形例は、その本質に反しない限り、他の実施形態と組み合わせて実施可能である。
【0109】
2.第2の実施形態
2.1全体構成
図10に、この発明の一実施形態による認識装置の全体構成を示す。二次元投影データ生成手段2は、認識対象物の三次元点群データ7の周囲に回転させた第1二次元平面P1、P2、P3・・・Pnに、当該三次元点群データ6を投影した第1~第n二次元投影データを生成する。
【0110】
推定手段3は、これらの第1~第n二次元投影データのそれぞれに基づいて、対象物の種類を推定する。したがって、推定手段3は、第1~第n推定結果を出力する。
【0111】
なお、推定手段3は、たとえば、第1の実施形態にて説明した深層学習によるプログラム(たとえばSSD)を用いることができる。また、その他の機械学習によるプログラムや、論理的に形成された推論を行うプログラムを用いることができる。
【0112】
統合推定手段4は、第1~第n推定結果に基づいて、統合した対象物推定結果を出力する。
【0113】
2.2ハードウエア構成
この実施形態による認識装置のハードウエア構成は、第1の実施形態と同様である。
【0114】
2.3認識処理
この実施形態では、認識プログラム48は、第1の実施形態に示すようにして学習を行ったディープラーニングプログラムを含んで構成される。以下、認識プログラム48による認識処理を説明する。すなわち、測定した三次元点群データに表れたオブジェクトがいずれの地物に該当するかを認識する処理を説明する。
【0115】
図11に、認識プログラム48のフローチャートを示す。CPU30は、ハードディスク38に記録されている三次元点群データをメモリ32に展開する(ステップS11)。
【0116】
この三次元点群データ32は、可搬性記録媒体52に記録されていたものを、記録媒体ドライブ44を介して、ハードディスク38に取り込んだものである。また、この実施形態では、三次元点群データ32としてモービル・マッピング・システム(MMS)によって取得したデータを用いている。MMSでは、自動車などにレーザスキャナ・GPS受信機を搭載し、走行しながら路面や地物などの三次元形状を三次元点群データとして得ることができる。また、この実施形態では、レーザの反射強度を、三次元点群データの各点の属性として記録している。さらに、自動車などの走行軌跡も併せてデータとして記録している。
【0117】
図12に、三次元点群データの例を示す。道路、地物の表面の形状が三次元点群によって表されたデータとなっている。
【0118】
次に、CPU30は、この三次元点群データから地盤点を抽出する(ステップS2)。
図13に、地盤点抽出処理のフローチャートを示す。CPU30は、クロスシミュレーション手法によって地盤点を抽出する(ステップS121)。クロスシミュレーション手法は、以下のとおりである。三次元点群データの標高値を反転する。たとえば、
図14Aに示すような断面の三次元点群デーがあれば、
図14Bに示すような反転三次元点群データが得られる。
【0119】
次に、CPU30は、反転三次元点群データに対して上方向から布をかけたようにシミュレーションを行う。
図14Cに、シミュレーションされた布を破線にて示す。続いて、CPU30は、
図14Dに示すように、当該シミュレーションされた布が接する三次元点群データを地盤点として抽出する。次に、CPU30は標高値を再反転して、
図14Dに示すような地盤点を得る。
【0120】
このようにして抽出された地盤点は、概ね正確であるが、
図14Eに示すように、地物の存在する近傍60において一部地物を含んでしまうことがある。そこで、抽出された各地盤点によって形成される線の法線方向を算出し、当該法線方向が上下方向に対して所定角度以上(たとえば30度以上)の部分を地盤点から除く(ステップS122)。
【0121】
なお、この実施形態では、地盤点抽出にクロスシミュレーションを用いたが、最下点抽出方法など他の方法によって地盤点を抽出してもよい。
【0122】
以上のようにして地盤点を抽出すると、CPU30は、三次元点群データから地盤点を取り除く(ステップS13)。これにより、地盤の上に存在するオブジェクトのみの三次元点群データが得られる。
【0123】
次に、CPU30は、この三次元点群データを塊ごとにオブジェクトにまとめる(ステップS13)。三次元空間をグリッドで分割し、上下左右斜めに隣接するグリッドに点が存在する場合、これらを一つにまとめていく処理を行い、オブジェクトを見いだしていく。この処理としては、たとえば、コネクテッド・コンポーネントを用いた空間ラベリングの手法を用いることができる。そして、各オブジェクトを内包するバウンダリーボックスを生成する。
図15に、見いだされたオブジェクトとバウンダリーボックスの例を示す。
【0124】
さらに、CPU30は、それぞれのオブジェクトについて地物種類の推定処理を行う(ステップS15)。
【0125】
図16に、1つのオブジェクトについての地物種類推定の詳細フローチャートを示す。CPU30は、オブジェクトに対して、
図6に示すように二次元平面P1~P6を設定し、二次元投影画像を生成する(ステップS152、S153)。さらに、生成した二次元投影画像に対して、対応する三次元点群データの各点から二次元平面までの距離、対応する三次元点群データの各点の反射率、対応する三次元点群データの各点における点密度を属性として付与する(ステップS154)。また、この処理を
図7の視点82の位置を変えながら行う(ステップS151)。以上の処理は、
図3において説明した処理と同様である。
【0126】
CPU30は、上記のようにして視点位置、二次元平面角度を変えて生成した二次元投影画像(二次元点群データ)のそれぞれについて、学習済みモデルにて地物種類の推定を行う(ステップS155)。したがって、たとえば、視点位置が4カ所で、それぞれの視点について二次元平面を6つ設定すれば、1つのオブジェクトについて24個の地物の推定結果を得ることができる。
【0127】
CPU30は、これらの推定結果に含まれる最も多い地物を、最終的な推定地物として決定する(ステップS157)。
【0128】
この処理を、
図11のステップS13において抽出した全てのオブジェクトについて行う(ステップS14、S15、S16)。
【0129】
2.4その他
(1)上記実施形態では、二次元投影データの各点に、対応する三次元点群データの各点から二次元平面までの距離、対応する三次元点群データの各点における点密度を付与するようにしている。すなわち、三次元空間において現れるが、二次元平面においては現れない特徴をデータ(三次元特徴データ)として付与するようにしている。しかし、三次元点群データのオブジェクト中の所定場所(たとえば中心線)からの距離などの、その他の三次元特徴データを付与するようにしてもよい。
【0130】
(2)上記実施形態では、角度や距離を変えて二次元平面を設定し、二次元投影データを得るようにしている。しかし、角度のみを変えて二次元平面を設定して二次元投影データを得てもよい。また、距離のみを変えて二次元平面を設定して二次元投影データを得てもよい。また、上記実施形態では、オブジェクトの上下方向に垂直な面上に二次元平面を設定したが、いずれの方向に二次元平面を設定するようにしてもよい。たとえば、オブジェクトの上下方向に水平な面上に二次元平面を設定してもよい。
【0131】
(3)上記実施形態では、学習時、推定時において、a)二次元投影データの各点に三次元特徴データを付与するとともに、b)角度・距離を変えて二次元平面を設定して多数の二次元投影データを得るようにしている。これにより、推定精度を上げるようにしている。しかし、a)またはb)のいずれか一方のみを行った場合であっても、a)b)の双方を行わない場合に比べて、推定精度を上げることができる。
【0132】
a)のみを行う場合には、1つのオブジェクトに対して1つの二次元投影データを用いることになる。b)のみを行う場合には、三次元特徴データの付与されていない複数の二次元投影データを用いることになる。
【0133】
(4)上記実施形態では、反射強度を属性として付与するようにしている。しかし、これを付与しないようにしてもよい。また、カメラなどによって撮像したRGBの色情報などを属性として与えて学習を行っておき、これらの属性も考慮して推定を行うようにしてもよい。さらに、その属性を用いて学習を行い、推定を行うようにしてもよい。
【0134】
(5)上記実施形態では、ステップS157において推定結果を多数決によって統合するようにしている。しかし、ウエイトづけを行って最終結果を導くようにしてもよい。たとえば、判断対象物の三次元点群データを計測した位置に最も近い二次元平面による二次元投影データを用いた推定結果のウエイトを高くして最終結果を導くようにしてもよい。
【0135】
(6)上記実施形態では、MMSによって計測した三次元点群データを用いている。しかし、その他固定型レーザスキャナなどによって計測した三次元点群データを用いてもよい。
【0136】
(7)上記実施形態では、二次元投影データを用いて学習・推定を行っているが、三次元点群データを用いて学習・推定を行うようにしてもよい。
【0137】
(8)上記実施形態では、深層学習によって推定手段を構築するようにしている。しかし、機械学習や論理的推論を用いて推定手段を構築するようにしてもよい。
【0138】
(9)上記実施形態では、一つのコンピュータによって認識装置を構成している。しかし、端末装置から三次元点群データを受け取って推定を行うサーバ装置として構築してもよい。
【0139】
(10)上記実施形態では、
図20Aに示すように、角度、距離を変えて二次元平面に投影した学習用二次元投影データに基づいて一つの学習モデルを生成し、角度、距離を変えて二次元平面に投影した対象物二次元投影データのそれぞれについてこのモデルにて複数の推定結果を得て、これら推定結果を統合するようにしている。
【0140】
しかし、
図20Bに示すように、角度、距離を変えて二次元平面に投影した学習用二次元投影データのそれぞれについて学習モデルを生成し、角度、距離を変えて二次元平面に投影した対象物二次元投影データを対応する学習モデルに与えて推定結果を得て、これら推定結果を統合するようにしてもよい。
【0141】
さらに、
図20Cに示すように、角度、距離を変えて二次元平面に投影した学習用二次元投影データのそれぞれについて学習モデルを生成し、各モデルに角度、距離を変えて二次元平面に投影した対象物二次元投影データを与えて複数の推定結果を得て、これら推定結果を統合するようにしてもよい。
【0142】
なお、上記各場合において、角度だけを変えて二次元平面に投影した対象物二次元投影データや、距離だけを変えて二次元平面に投影した対象物二次元投影データを用いるようにしてもよい。
【0143】
(11)上記実施形態および変形例は、その本質に反しない限り、他の実施形態と組み合わせて実施可能である。
【0144】
3.第3の実施形態
3.1全体構成
図17に、この発明の一実施形態による認識装置の全体構成を示す。データ取得手段100は、対象物の二次元データまたは三次元データに基づいて、異なる観点からの第1~第n対象物データを得る。
【0145】
推定手段102は、これら第1~第n対象物データのそれぞれについて対象物の種類を推定し、第1~第n推定結果を出力する。統合推定手段104は、これら第1~第n推定結果を統合して、対象物の種類を推定した結果を出力する。
【0146】
なお、推定手段102は、深層学習によって学習したものであってもよいし、その他の機械学習によって学習したものであってもよい。また、論理的に推論を行うものであってもよい。
【0147】
3.2ハードウエア構成
この実施形態による認識装置のハードウエア構成は、第1の実施形態と同様である。
【0148】
3.3学習処理
この実施形態では、対象物の種類を推定するためにディープラーニング(深層学習)を用いている。たとえば、認識プログラム48の認識処理部分としてWei Liuらによって開発されたSSD(Single Shot MultiBox Detection)を用いることができる。
【0149】
図18に、認識プログラム48の学習処理のフローチャートを示す。CPU30は、ハードディスク38に記録された学習用元データを取得し、メモリ32に展開する(ステップS201)。この学習用元データは、可搬性記録媒体52に記録されていたものを、記録媒体ドライブ44を介してハードディスク38に記録したものである。
【0150】
この実施形態では、学習対象物を撮像した二次元カラー画像を学習用元データとして用いている。なお、三次元画像データを用いてもよい。次に、CPU30は、学習用元データである二次元カラー画像に対し、色彩フィルタリングを施して、複数のフィルタリングデータを生成する(ステップS203)。この実施形態では、特定の色彩を取り出す色彩フィルタリングFL1~FLn(特性の異なるフィルタリング処理)を行って、n個のフィルタリングデータを得ている。したがって、学習用元データに基づいて、色彩成分の異なる多数の学習データを得ることができる。
【0151】
CPU30は、このようにして生成した学習データに対して、対象物についてのデータを付与する。なお、対象物の種類を識別する場合(対象物の識別)であれば種類(対象物名)を付与する。対象物が1種類に決まっており、画像中から対象物を抽出する場合には、画像中における対象物の領域を付与する。
【0152】
深層学習においては、多数の学習データがある方が好ましいので、このように一つの学習用元データから多数の学習データを生成できることはメリットが大きい。
【0153】
CPU30は、上記の学習データ生成処理を、多数の学習対象物の二次元カラー画像について行う(ステップS202、S204)。
【0154】
全ての学習対象物(オブジェクト)について学習データを生成すると、次に、CPU30は、これら学習データに基づいてSSDを学習させる(ステップS206)。
【0155】
3.4認識処理
図19に、認識プログラム48のフローチャートを示す。CPU30は、ハードディスク38に記録されている判定対象物の二次元カラー画像をメモリ32に展開する(ステップS251)。
【0156】
この二次元カラー画像は、可搬性記録媒体52に記録されていたものを、記録媒体ドライブ44を介して、ハードディスク38に取り込んだものである。なお、二次元カラー画像は、カメラ等から直接取り込むようにしてもよい。
【0157】
CPU30は、この二次元カラー画像に対して、色彩フィルタリング処理を行う。すなわち、色彩フィルタリングFL1~FLn(特性の異なるフィルタリング処理)を行って、n個のフィルタリングデータを得る(ステップS252)。
【0158】
CPU30は、得られたn個のフィルタリングデータのそれぞれについて、学習済みモデルにてオブジェクトの種類の推定を行う(ステップS253)。フィルタリングデータがn個あるので、n個の推定結果を得ることができる。
【0159】
CPU30は、これらn個のオブジェクト種類の推定結果のうち、最も多いオブジェクト種類を、最終的な判定結果として出力する(ステップS254)。
【0160】
3.5その他
(1)上記実施形態では、色彩フィルタリングを行うことで元の二次元カラー画像データから複数の観点の学習データ、複数の観点の推定対象データを生成している。しかし、元のデータの画素数を変える、回転させる、濃度だけのデータとする、彩度に着目したデータとする、特定周波数成分の大きさを表す画像データとするなどの観点から、学習データや推定対象データを生成するようにしてもよい。
【0161】
(2)上記実施形態では、二次元カラー画像データを元データとして、複数の観点の学習データや推定対象データを生成するようにしている。しかし、二次元モノクロ画像データを元データとしてもよい。また、三次元カラー(モノクロ)画像データやマルチスペクトル画像データなどを元データとしてもよい。たとえば、第1、第2の実施形態のように、二次元平面に投影することで異なる観点の学習データ、推定対象データを得るようにしてもよい。なお、その他の観点を用いてもよい。
【0162】
(3)上記実施形態では、深層学習によって推定手段を構築するようにしている。しかし、機械学習や論理的推論を用いて推定手段を構築するようにしてもよい。
【0163】
(4)上記実施形態では、一つのコンピュータによって認識装置を構成している。しかし、端末装置から二次元カラー画像を受け取って推定を行うサーバ装置として構築してもよい。
【0164】
(5)上記実施形態では、観点の異なる学習用データに基づいて一つの学習モデルを生成し、観点の異なる対象物データのそれぞれについてこのモデルにて複数の推定結果を得て、これら推定結果を統合するようにしている。
【0165】
しかし、第2の実施形態にて説明したように、観点の異なる学習用データのそれぞれについて学習モデルを生成し、観点の異なる対象物データを対応する学習モデルに与えて推定結果を得て、これら推定結果を統合するようにしてもよい(
図20B参照)。
【0166】
さらに、観点の異なる学習用データのそれぞれについて学習モデルを生成し、各モデルに観点の異なる対象物データを与えて複数の推定結果を得て、これら推定結果を統合するようにしてもよい(
図20C参照)。
【0167】
(6)上記実施形態および変形例は、その本質に反しない限り、他の実施形態と組み合わせて実施可能である。