特許第6916091号(P6916091)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社デンソーアイティーラボラトリの特許一覧

特許6916091位置姿勢推定システム及び位置姿勢推定装置
<>
  • 特許6916091-位置姿勢推定システム及び位置姿勢推定装置 図000028
  • 特許6916091-位置姿勢推定システム及び位置姿勢推定装置 図000029
  • 特許6916091-位置姿勢推定システム及び位置姿勢推定装置 図000030
  • 特許6916091-位置姿勢推定システム及び位置姿勢推定装置 図000031
  • 特許6916091-位置姿勢推定システム及び位置姿勢推定装置 図000032
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6916091
(24)【登録日】2021年7月19日
(45)【発行日】2021年8月11日
(54)【発明の名称】位置姿勢推定システム及び位置姿勢推定装置
(51)【国際特許分類】
   G05D 1/02 20200101AFI20210729BHJP
   G06T 7/00 20170101ALI20210729BHJP
【FI】
   G05D1/02 K
   G06T7/00 650A
【請求項の数】5
【全頁数】14
(21)【出願番号】特願2017-217482(P2017-217482)
(22)【出願日】2017年11月10日
(65)【公開番号】特開2019-91102(P2019-91102A)
(43)【公開日】2019年6月13日
【審査請求日】2020年3月23日
(73)【特許権者】
【識別番号】502324066
【氏名又は名称】株式会社デンソーアイティーラボラトリ
(74)【代理人】
【識別番号】100115808
【弁理士】
【氏名又は名称】加藤 真司
(74)【代理人】
【識別番号】100113549
【弁理士】
【氏名又は名称】鈴木 守
(74)【代理人】
【識別番号】230121430
【弁護士】
【氏名又は名称】安井 友章
(72)【発明者】
【氏名】関川 雄介
【審査官】 山村 秀政
(56)【参考文献】
【文献】 国際公開第2015/125298(WO,A1)
【文献】 国際公開第2017/077925(WO,A1)
【文献】 国際公開第2016/044250(WO,A1)
【文献】 Sen Wang et al.,Deep VO : Towards End-to-End Visual Odmetory with Deep Recurrent Convolutional Neural Networks,2017 IEEE International Conference on Robotics and Automation (ICRA),IEEE,2017年 6月 3日,pp. 2043-2050
【文献】 Aaron van den Oord et al.,WaveNet: A Generative Model for Raw Audio,<URL:https://arXiv.org/pdf/1609.03499.pdf>,2016年 9月19日,1609.03499v2[cs SD],pp.1-15
(58)【調査した分野】(Int.Cl.,DB名)
G05D 1/02
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
2次元の位置情報及び1次元の時間情報を含む3次元の光学センシングデータを生成する光学センシング装置と、
時系列に入力される前記光学センシングデータに基づいて、ビジュアルオドメトリによって前記光学センシング装置の位置姿勢を推定する位置姿勢推定装置と、
を備え、
前記位置姿勢推定装置は、
前記光学センシングデータからなる連続する複数のフレームの各々の前記位置情報をそれぞれ入力して、特徴量を出力する複数の2次元CNNモジュールからなる2次元畳込部と、
前記複数の2次元CNNモジュールの各々から出力される複数の前記特徴量を入力して、隣接する前記フレームの間の位置姿勢の変化量を局所変化量として出力する1次元CNNモジュールからなる1次元畳込部と、
前記複数のフレームの前記局所変化量を累積することで前記局所変化量の累積値を求め、位置姿勢の初期値に前記累積値を加えることで、前記複数のフレームの後の前記光学センシング装置の位置姿勢を求める累積部と、
を備え
前記光学センシング装置は、車両の外側をセンシングするように該車両に固定され、
前記累積部は、モデルベースで前記局所変化量を累積し、前記局所変化量を直進変化量及び角度変化量のパラメータで表現する、位置姿勢推定システム。
【請求項2】
前記光学センシング装置は、イベントカメラである、請求項1に記載の位置姿勢推定システム。
【請求項3】
前記位置姿勢推定装置は、前記光学センシング装置から入力された前記光学センシングデータの時間解像度を低下させて、時間解像度が低下した前記複数のフレームを生成する前処理部をさらに含む、請求項1又は2に記載の位置姿勢推定システム。
【請求項4】
前記累積部は、前記パラメータについての第1のエラーと、前記局所変化量についての第2のエラーとをそれぞれ第1の重み及び第2の重みで重みづけして学習に用い、ここで、学習の初期には前記第2の重みを重くし、学習の後期には前記第1の重みを重くするように調整して学習を行う、請求項1〜3のいずれかに記載の位置姿勢推定システム。
【請求項5】
2次元の位置情報及び1次元の時間情報を含む3次元の光学センシングデータを生成する光学センシング装置とともに用いられ、時系列に入力される前記光学センシングデータに基づいて、ビジュアルオドメトリによって前記光学センシング装置の位置姿勢を推定する位置姿勢推定装置であって、
前記光学センシングデータからなる連続する複数のフレームの各々の前記位置情報をそれぞれ入力して、特徴量を出力する複数の2次元CNNモジュールからなる2次元畳込部と、
前記複数の2次元CNNモジュールの各々から出力される複数の前記特徴量を入力して、隣接する前記フレームの間の位置姿勢の変化量を局所変化量として出力する1次元CNNモジュールからなる1次元畳込部と、
前記複数のフレームの前記局所変化量を累積することで前記局所変化量の累積値を求め、位置姿勢の初期値に前記累積値を加えることで、前記複数のフレームの後の前記光学センシング装置の位置姿勢を求める累積部と、
を備え
前記光学センシング装置は、車両の外側をセンシングするように該車両に固定され、
前記累積部は、モデルベースで前記局所変化量を累積し、前記局所変化量を直進変化量及び角度変化量のパラメータで表現する、位置姿勢推定装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自走体からの観察により得られた光学センシングデータに基づいて該自走体の位置及び姿勢を推定する位置姿勢推定システム及び位置姿勢推定装置に関する。
【背景技術】
【0002】
従来、自走体(以下、車両を例として説明する)の位置及び姿勢を計測するのに全地球測位システム(Global Positioning System、以下「GPS」という。)が用いられている。車両はGPS受信機を備えており、複数のGPS衛星からの信号をこのGPS受信機で受信することにより、コード測位方式又は搬送波測位方式で自車両の位置を測定できる。
【0003】
しかしながら、GPS受信機がGPS衛星からの信号を受信できないトンネル内等の場所では、GPSによる自車両の位置測定ができない。自車両の位置を測定するGPS以外の方法の一つとして、ホイールオドメトリやビジュアルオドメトリがある。ホイールオドメトリは、自車両の車輪の方向と回転数とを積分することで自車両の移動軌跡を測定して自車両の位置及び姿勢を推定するものである。ビジュアルオドメトリは、自車両に固定されたカメラによる連続的な複数の画像に基づいて自車両の移動軌跡を推定することで、自車の位置及び姿勢を推定するものである。
【0004】
このビジュアルオドメトリについては、モデルベースの手法が長らく研究されてきたが、近年ディープニューラルネットワーク(Deep Neural Network、以下「DNN」という。)を使った学習ベースの手法が着目されている(例えば、特許文献1)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】e.g., R. Clark, S. Wang, H. Wen, A. Markham, and N. Trigoni. Vinet: Visual-inertial odometry as a sequence-to-sequence learning problem. In AAAI, pages 3995-4001, 2017
【発明の概要】
【発明が解決しようとする課題】
【0006】
ビジュアルオドメトリにおいて、自車両の位置姿勢推定を精度良く行うには、時間的解像度の高いイメージセンサを用いて長時間の相関をモデル化する必要がある。そのような時間的解像度の高いイメージセンサとして、イベントカメラが注目されている。
【0007】
しかしながら、従来のDNNは、短時間の相関を把握することはできたが、長時間の相関を把握するにはシステムの処理負荷(処理時間、使用メモリ容量)が過大になり、現実的ではなかった。
【0008】
そこで、本発明は、長時間の相関をモデル化できるCNN(Long Short-Term CNN、以下「LSTCNN」という。)を用いてビジュアルオドメトリを行う位置姿勢推定システム、位置姿勢推定方法、及び位置姿勢推定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本願発明の位置姿勢推定装置は、ビジュアルオドメトリを行うためにイメージセンサのデータに対して行う時空間の3次元CNNを空間の2次元CNNと時間の1次元CNNとに分解して実行する。これにより、処理負荷を過大にすることなく、畳込処理が可能な時間範囲を長くすることができる。
【0010】
本発明の一態様の位置姿勢推定システムは、2次元の位置情報及び1次元の時間情報を含む3次元の光学センシングデータを生成する光学センシング装置と、時系列に入力される前記光学センシングデータに基づいて、ビジュアルオドメトリによって前記光学センシング装置の位置姿勢を推定する位置姿勢推定装置とを備える。前記位置姿勢推定装置は、前記光学センシングデータからなる連続する複数のフレームの各々の前記位置情報をそれぞれ入力して、特徴量を出力する複数の2次元CNNモジュールからなる2次元畳込部と、前記複数の2次元CNNモジュールの各々から出力される複数の前記特徴量を入力して、隣接する前記フレームの間の位置姿勢の変化量を局所変化量として出力する1次元CNNモジュールからなる1次元畳込部と、前記複数のフレームの前記局所変化量を累積することで前記局所変化量の累積値を求め、位置姿勢の初期値に前記累積値を加えることで、前記複数のフレームの後の前記光学センシング装置の位置姿勢を求める累積部とを備えている。
【0011】
この構成により、時系列に入力される2次元位置情報と1次元時間情報からなる光学センシングデータに対して実行すべき3次元CNNを位置情報に対する2次元CNNと時間情報に対する1次元CNNとに分けて実行するので、処理負荷を過大にすることなく、畳込処理可能な時間範囲を長く(光学センシングデータの時間方向の数を多く)することができる。
【0012】
上記の位置姿勢推定システムにおいて、前記光学センシング装置は、イベントカメラであってよい。イベントカメラの時間解像度は高く、単位時間当たりのフレーム数が多くなるが、この構成によれば、そのような多フレーム(長時間)についても畳込を有効に行って位置姿勢を推定できる。
【0013】
上記の位置姿勢推定システムにおいて、前記位置姿勢推定装置は、前記光学センシング装置から入力された前記光学センシングデータの時間解像度を低下させて、時間解像度が低下した前記複数のフレームを生成する前処理部をさらに含んでいてよい。この構成により、光学センシング装置からの光学センシングデータの時間解像度が高すぎて畳込処理における入力データが時間方向に疎(スパース)になりすぎることを回避できる。
【0014】
上記の位置姿勢推定システムにおいて、前記光学センシング装置は、車両の外側をセンシングするように該車両に固定されていてよく、前記累積部は、モデルベースで前記局所変化量を累積し、前記局所変化量を直進変化量及び角度変化量のパラメータで表現してよい。この構成により、車両の移動の制約を活かして少パラメータのモデルで局所変化慮鵜の累積を行うことができる。
【0015】
上記の位置姿勢推定システムにおいて、前記2次元CNNモジュールの各々は、LSTMモジュールであってよい。
【0016】
本発明の一態様の位置姿勢推定装置は、2次元の位置情報及び1次元の時間情報を含む3次元の光学センシングデータを生成する光学センシング装置とともに用いられ、時系列に入力される前記光学センシングデータに基づいて、ビジュアルオドメトリによって前記光学センシング装置の位置姿勢を推定する位置姿勢推定装置であって、前記光学センシングデータからなる連続する複数のフレームの各々の前記位置情報をそれぞれ入力して、特徴量を出力する複数の2次元CNNモジュールからなる2次元畳込部と、前記複数の2次元CNNモジュールの各々から出力される複数の前記特徴量を入力して、隣接する前記フレームの間の位置姿勢の変化量を局所変化量として出力する1次元CNNモジュールからなる1次元畳込部と、前記複数のフレームの前記局所変化量を累積することで前記局所変化量の累積値を求め、位置姿勢の初期値に前記累積値を加えることで、前記複数のフレームの後の前記光学センシング装置の位置姿勢を求める累積部とを備えている。
【0017】
この構成によっても、時系列に入力される2次元位置情報と1次元時間情報からなる光学センシングデータに対して実行すべき3次元CNNを位置情報に対する2次元CNNと時間情報に対する1次元CNNとに分けて実行するので、処理負荷を過大にすることなく、畳込処理可能な時間範囲を長く(光学センシングデータの時間方向の数を多く)することができる。
【発明の効果】
【0018】
本発明によれば、時系列に入力される2次元位置情報と1次元時間情報からなる光学センシングデータに対して実行すべき3次元CNNを位置情報に対する2次元CNNと時間情報に対する1次元CNNとに分けて実行するので、処理負荷を過大にすることなく、畳込処理可能な時間範囲を長く(光学センシングデータの時間方向の数を多く)することができる。
【図面の簡単な説明】
【0019】
図1】本発明の実施の形態の位置姿勢推定システムの構成を示すブロック図
図2】本発明の実施の形態のイベントカメラによるイベントデータと通常のカメラによる画像との時間解像度を比較する図
図3】本発明の実施の形態のビジュアルオドメトリにおけるネットワーク構造及びデータの流れを示す図
図4】本発明の実施の形態の1次元CNNモジュール23及び累積部24のネットワーク構造を示す図
図5】本発明の実施の形態の平行2輪車両のモデルを示す図
【発明を実施するための形態】
【0020】
以下、図面を参照して本発明の実施の形態を説明する。なお、以下に説明する実施の形態は、本発明を実施する場合の一例を示すものであって、本発明を以下に説明する具体的構成に限定するものではない。本発明の実施にあたっては、実施の形態に応じた具体的構成が適宜採用されてよい。
【0021】
図1は、本発明の実施の形態の位置姿勢推定システムの構成を示すブロック図である。位置姿勢推定システム100は、光学センシング装置10と位置姿勢推定装置20とからなる。位置姿勢装置20は、前処理部21、2次元畳込部22、1次元畳込部23、及び累積部24を備えている。光学センシング装置10は、自走体である車両に固定されて、車両外部を光学的にセンシングすることで光学センシングデータとしてイベントフレームを生成し、生成したイベントフレームを時系列に順に位置姿勢推定装置20に出力する。
【0022】
本実施の形態では、光学センシング装置10として、生物学的知見に基づいた(biologically inspired)カメラとしてのイベントカメラを採用する。通常のカメラは、各ピクセルが所定の露光時間に蓄積した光子の数を測定して、すべてのピクセルの測定結果を1フレームとして同時に出力する。これに対して、イベントカメラは、各ピクセルが非同期で作動する。また、イベントカメラは、前の検出強度(明度)と現在の検出強度(明度)との相違を検出したときに、1フレームの光学センシングデータとしてイベントフレームを出力する。イベントフレーム(以下、単に「フレーム」ともいう。)を構成するイベントデータには、検出強度の相違が生じているピクセルの位置情報、時間情報としてのタイムスタンプ、及び検出強度が増加しているか減少しているかを示す極性情報が含まれる。
【0023】
図2は、イベントカメラによるイベントデータと通常のカメラによる画像との時間解像度を比較する図である。イベントカメラは、時間解像度がマイクロ秒オーダであり、通常のカメラ(例えば、30フレーム/秒)と比較して時間的解像度が極めて高い。また、イベントカメラは、強度の絶対値を検出せず、強度変化の極性のみを検出するので、ダイナミックレンジが広い。例えば、通常のカメラのダイナミックレンジが50dB程度であるのに対して、イベントカメラのダイナミックレンジは120dB程度である。さらに、通常のカメラは強度が比較的強い部分しか検出できないのに対して、イベントカメラは、暗部と明部とを同時に検出できる。
【0024】
イベントカメラの上記の特性から、イベントカメラは車両の自動運転のシーンで有効に活用される。ただし、上述のようにイベントカメラの時間解像度は高いので、位置姿勢推定装置20は、長時間(多フレーム)の相関を扱える必要がある。
【0025】
位置姿勢推定装置20は、光学センシング装置10から時系列に並んだ複数のイベントフレームを取得して、それらのフレーム数を減少させてフレームe1〜eKを抽出する。ここで、Kは、位置姿勢推定装置20において一度に処理可能なフレーム数(以下、「許容フレーム数」ともいう。)である。位置姿勢推定装置20は、複数のフレームe1〜eKから、ビジュアルオドメトリによって1フレーム後〜Kフレーム後の自車両の位置姿勢pKを求める。
【0026】
即ち、位置姿勢推定装置20によって、下式(1)によるビジュアルオドメトリが実行される。
【数1】
ここで、
【数2】
は、タイムステップkのフレーム(以下、「第kフレーム」等と表現する。)であり、M×Nは、イベントカメラの画素数である。また、mは、ホイールオドメトリ、慣性測定装置等のビジュアルオドメトリ以外の方法で得られた付加的なセンシングデータである。入力データにmを含めるか否かは任意である。また、pkは、第kフレームにおける光学センシング装置(が固定された自車両)の位置姿勢である。
【0027】
具体的には、位置姿勢推定装置20は、隣り合うフレーム間における自車両の位置及び姿勢の変化(以下、「局所変化量」ともいう。)Δp1〜ΔpKを求め、それらを順に累積(連結)して、自車両の位置及び姿勢の初期値(以下、「初期位置姿勢」という。)p0に加えることで、第Kフレームの自車両の位置姿勢pKを算出する。これを式で表すと、下式(2)となる。
【数3】
【0028】
上記のように、イベントカメラは時間解像度が高いので、位置姿勢推定装置20におけるLSTCNNは、長時間(多フレーム、例えば、数千フレーム)の相関を扱える必要がある。そこで、位置姿勢推定装置20は、光学センシング装置10から入力された複数のフレームデータに対して実行すべき時空間の3次元CNNを空間の2次元CNNと時間の1次元CNNとに分解して実行する。このために、位置姿勢推定装置20は、光学センシング装置10から入力される複数のイベントフレームの数を削減する前処理部21を備えている。また、位置姿勢推定装置20は、空間の2次元CNNを実行する2次元畳込部22と、時間の1次元CNNを実行する1次元畳込部23とを有し、複数のフレームについて行う3次元CNNを2次元CNNと1次元CNNとに分割して行う。
【0029】
前処理部21について説明する。光学センシング装置10から出力される複数のイベントフレームは、各ピクセルにおいて非同期であり、各イベントフレームは{u,v,t,p}の4次元のイベントデータからなる。ここで、u、vはイベントが検出された位置であり、tはイベントが検出された時刻(タイムスタンプ)であり、pは検出されたイベントの極性である。これらのイベントデータは、前処理部21において時空間のイベントフレームに変換される。
【0030】
前処理部21は、イベントフレームを構成するために、イベントフレームの各データu、v、t、pを、3次元テンソルの対応する時空間位置に投影する。イベントカメラの時間解像度は、1マイクロ秒程度と非常に小さいので、3次元テンソルをその粒度で用意すると、2次元畳込部22に入力される複数のフレームが疎(スパース)になりすぎてCNNで処理するのに非効率的になる。そこで前処理部21は、十分に粗く、ただし、通常のカメラのフレームレート(例えば、30フレーム/秒)よりは小さい時間解像度τ(例えば、1,000マイクロ秒程度)にまでイベントフレームの時間解像度を低下させる。
【0031】
前処理部21は、光学センシング装置10から得られた細かい時間情報を維持するために、各イベントに対する
【数4】
の3つの重み係数を下式(4)〜(6)によって計算する。
【数5】
ここで、tはイベントのタイムスタンプであり、
【数6】
は、tに最も近い離散化タイムスタンプであり、
【数7】
である。
【0032】
前処理部21は、上記のようにして、時間解像度が光学センシング装置10から入力される複数のイベントフレームより小さい複数のフレームを生成して2次元畳込部22に入力する。
【0033】
2次元畳込部22は、前処理部21から入力される各フレームに対して、それぞれ2次元CNNを実行する複数の2次元CNNモジュール22−1〜22−Kからなり、1次元畳込部23は、1次元CNNモジュールからなる。各2次元CNNモジュール22−1〜22−Kは、時分割されたM×N×Lの短時間のイベントフレームを処理し、1次元CNNモジュールは、F×1×Tのサイズの長時間の特徴量を処理する。ここで、Fは、各2次元CNNモジュール22−1〜22−Kから出力される特徴量の長さであり、Tは、T=K/Lを満たす。
【0034】
図3は、本発明の実施の形態のビジュアルオドメトリにおけるネットワーク構造及びデータの流れを示す図である。Lは、入力されるフレームの特性に応じて1〜Kの間で任意に設定される。例えば、K=3000のときにL=100と設定してよい。
【0035】
各2次元CNNモジュール22−1〜22−Kは、空間(2次元)の畳み込みを行い、1次元CNNモジュール23は、時間(1次元)の畳み込みを行う。各2次元CNNモジュール22−1〜22−Kの構造は、例えばVGG−16(Simonyan, K., and isserman, A. 2014. Very deep convolutional networks for large-scale image recognition. CoRR abs/1409.1556.)ネットワークの畳込部分と同様であってよい。また、1次元CNNモジュール23は、WaveNet(van den Oord, A.; Dieleman, S.; Zen, H.; Simonyan, K.; Vinyals, O.; Graves, A.; Kalchbrenner, N.; Senior, A. W.; and Kavukcuoglu, K. 2016. Wavenet: A generative model for raw audio. CoRR abs/1609.03499.)に似た通常の畳込モジュールを積み重ねて構成される。
【0036】
図4は、1次元CNNモジュール23及び累積部24のネットワーク構造を示す図である。1次元CNNモジュール23は、WaveNetで用いられているように、下式(3)で示されるゲート付き活性化関数(gated activation)ユニットを用いて、複雑な時間依存をモデル化する。
【数8】
【0037】
ここで、fは2次元CNNモジュールのネットワーク22−1〜22−Kであり、gは1次元CNNモジュール23のネットワークである。1次元CNNネットワークgはO層(Oは自然数)の層構造を有し、第(O−1)層の出力は、連続するフレームから推定される隣接フレーム間の変化(局所変化量)であり、第O層は、パラメータレスのモデルベース位置姿勢連結(Model-based Pose Concatenation、以下「MPC」という。)である。MPCは累積部24として実装される。MPCモジュール、即ち累積部24は、タイムステップkの局所変化量Δpkを用いてタイムステップkの位置姿勢pkを更新することでタイムステップk+1の位置姿勢pk+1を推定する。
【0038】
1次元畳込部23の最終層では推定された位置姿勢のエラーが計算される。このエラーは、2次元畳込部22及び1次元畳込部23のパラメータの更新に用いられる。MPCモジュールとしての累積部24は、最終的なエラーから安定したデリバティブ(derivative)(即ち、各ニューロンのパラメータに対する微分)を効果的に算出できる。このMPCモジュールは、以下の知見から得られるものである。
【0039】
図5は、平行2輪車両のモデルを示す図である。図5に示すように、車両の動きには制約があり、リー代数se(2)又はse(3)のパラメータセットよりも少ないパラメータで表現できる。すなわち、平行2輪車両モデルでは、局所的な移動は、直進速度vと角速度ωのパラメータによって表現できるが、本実施の形態の累積部24は、直進変化ΔLと角度変化Δθを用い、位置姿勢エラーをΣΔLとΣΔθで定義する。このようなパラメータ化及び位置姿勢エラーの定義の変更によって、各局所変化量についてのエラー関数のデリバティブの計算を容易かつ安定的にすることができる。
【0040】
以下では、まず、簡単のために、車両が2次元平面を走行する(車両の高さ方向の移動を考慮しない)2次元の場合を説明する。2次元の場合には、車両の位置姿勢は、車両の位置及び直進角
【数9】
で表示できる。
【0041】
通常は、位置姿勢は、第kフレームにおける局所時間Δtの間の局所変化量
【数10】
を用いて下式(7)で更新される。
【数11】
ここで、Δθkは、
【数12】
によって与えられ、ΔLは、v及びωを用いて下式(8)により計算される。
【数13】
【0042】
タイムステップk−1のエラーはタイムステップkのエラーに依存しているので、位置姿勢pKの各局所変化量zkに関するデリバティブは、非線形に式(7)及び式(8)に関連している。よって、計算負荷が高く、また、実装が困難であり、さらに、位置姿勢の累積が真の位置姿勢から遠くなっている場合に、デリバティブ自体が不安定となってしまう。
【0043】
従来の誤差の定義の場合には、タイムステップkの位置姿勢の誤差は、タイムステップ1〜k−1の位置姿勢のエラーに依存するので、その微分は過去の式(8)を経由して過去の微分に影響される。したがって、微分は位置姿勢の積分を行う区間全部のエラーの関数になってしまい、結果として計算負荷が大きくなる。これに対して、本実施の形態では、最終的に積分したエラーの各タイムステップ(時刻)の局所変化量に対する微分がタイムステップごとに独立になるので、計算が簡単で軽量になる。
【0044】
具体的には、本実施の形態の累積部24では、局所変化量を
【数14】
と表現する代わりに、
【数15】
と表現し、累積された経路と角度のエラーを
【数16】
ではなく、
【数17】
と表記する。
【0045】
第(O−1)層、即ち1次元CNN部23の出力層は、
【数18】
を出力し、第O層はMPCモジュールとして現在の車両の動きを式(7)を用いて更新する。ここで、qkは、下式(9)のように定義できる。
【数19】
【0046】
MPCモジュールで計算される累積位置姿勢エラーLaccumは、下式(10)で定義される。
【数20】
ここで、
【数21】
は、累積された経路及び角度の真値である。
【0047】
【数22】
の局所変化量
【数23】
に関するヤコビ行列は、下式(11)で計算される。
【数24】
【0048】
MPCモジュールは、上記の累積位置姿勢エラーLaccumに加えて、局所変化量のエラーLlocalも下式(12)で計算する。
【数25】
【0049】
これらの累積位置姿勢エラーLaccumと局所移動エラーLlocalの合計
【数26】
は、ネットワークを学習するのに用いられる。調整パラメータλ1、λ2は、学習の初期にはLlocalを強調し、学習の後期にはLaccumを強調するように調整する。これにより、連結された位置姿勢の推定の精度を向上できる。
【0050】
次に、位置姿勢推定装置20の学習について説明する。位置姿勢推定装置20の学習を行う際には、入力データとして、許容フレーム数Kの2倍の長さの2Kフレーム分の連続するシーケンスがデータセットからランダムに抽出される。位置姿勢推定装置20は、時分割された(M×N×L)の入力データを2T回にわたって2次元畳込部22に入力することで、F×1×2Tの大きさのテンソルを取得する。
【0051】
これらのテンソルは1次元畳込部23に入力され、1次元畳込部23において位置姿勢及び位置姿勢のエラーが計算される。1次元畳込部23は、このエラーを用いて更新される。2次元畳込部22の直前のエラーは、Tこの短時間エラーに分割され、T回にわたって2次元畳込部22の更新に用いられる。なお、2Kフレームは、1次元畳込部23から有効なTを取得する必要がある。
【0052】
本実施の形態では、通常の畳込層について水増しを行わないので、カーネルサイズの半分まで出力を減少させることができる。また、付加的なセンシングデータmが利用できる場合には、それらは2次元畳込部22の出力に連結され、その時間情報は2次元畳込部22の出力とともに1次元畳込部23によってモデル化される。
【0053】
2次元畳込部22の各2次元CNNモジュール22−1〜22−K及び1次元畳込部23の1次元CNNモジュールを最適化するために、Adam(Kingma, D., and Ba, J. 2014. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980.)をハイパーパラメータ(学習レートは、l=0.001、β1=0.9、β2=0.999、ε=0.00000001)とともに利用することができる。
【0054】
以上のように、本実施の形態の位置姿勢推定システム100によれば、時系列に入力される2次元の位置情報と1次元の時間情報からなる光学センシングデータに対して実行すべき3次元CNNを位置情報に対する2次元CNNと時間情報に対する1次元CNNとに分けて実行するので、処理負荷を過大にすることなく、畳込処理可能な時間範囲を長く(光学センシングデータの時間方向の数を多く)することができる。
【産業上の利用可能性】
【0055】
本発明は、時系列に入力される2次元の位置情報と1次元の時間情報からなる光学センシングデータに対して実行すべき3次元CNNを位置情報に対する2次元CNNと時間情報に対する1次元CNNとに分けて実行するので、処理負荷を過大にすることなく、畳込処理可能な時間範囲を長く(光学センシングデータの時間方向の数を多く)することができ、自走体から撮影された画像に基づいて該自走体の位置及び姿勢を推定する位置姿勢推定システム等として有用である。
【符号の説明】
【0056】
10 光学センシング装置
20 位置姿勢推定装置
21 前処理部
22 2次元畳込部
23 1次元畳込部
24 累積部
100 位置姿勢推定システム
図1
図2
図3
図4
図5