IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 京セラ株式会社の特許一覧

特許7523312物体認識装置、物体認識システム、物体認識装置の学習方法、物体認識装置の物体認識方法、物体認識装置の学習プログラム及び物体認識装置の物体認識プログラム
<>
  • 特許-物体認識装置、物体認識システム、物体認識装置の学習方法、物体認識装置の物体認識方法、物体認識装置の学習プログラム及び物体認識装置の物体認識プログラム 図1
  • 特許-物体認識装置、物体認識システム、物体認識装置の学習方法、物体認識装置の物体認識方法、物体認識装置の学習プログラム及び物体認識装置の物体認識プログラム 図2
  • 特許-物体認識装置、物体認識システム、物体認識装置の学習方法、物体認識装置の物体認識方法、物体認識装置の学習プログラム及び物体認識装置の物体認識プログラム 図3
  • 特許-物体認識装置、物体認識システム、物体認識装置の学習方法、物体認識装置の物体認識方法、物体認識装置の学習プログラム及び物体認識装置の物体認識プログラム 図4
  • 特許-物体認識装置、物体認識システム、物体認識装置の学習方法、物体認識装置の物体認識方法、物体認識装置の学習プログラム及び物体認識装置の物体認識プログラム 図5
  • 特許-物体認識装置、物体認識システム、物体認識装置の学習方法、物体認識装置の物体認識方法、物体認識装置の学習プログラム及び物体認識装置の物体認識プログラム 図6
  • 特許-物体認識装置、物体認識システム、物体認識装置の学習方法、物体認識装置の物体認識方法、物体認識装置の学習プログラム及び物体認識装置の物体認識プログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-18
(45)【発行日】2024-07-26
(54)【発明の名称】物体認識装置、物体認識システム、物体認識装置の学習方法、物体認識装置の物体認識方法、物体認識装置の学習プログラム及び物体認識装置の物体認識プログラム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240719BHJP
   G06T 7/00 20170101ALI20240719BHJP
【FI】
G06N20/00 130
G06T7/00 350C
【請求項の数】 14
(21)【出願番号】P 2020175470
(22)【出願日】2020-10-19
(65)【公開番号】P2022066878
(43)【公開日】2022-05-02
【審査請求日】2023-05-17
(73)【特許権者】
【識別番号】000006633
【氏名又は名称】京セラ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】林 佑介
【審査官】佐田 宏史
(56)【参考文献】
【文献】中国特許出願公開第106778907(CN,A)
【文献】特開2010-020414(JP,A)
【文献】中国特許出願公開第108008412(CN,A)
【文献】国際公開第2020/116194(WO,A1)
【文献】田村 哲嗣、外6名,“深層学習によるボトルネック特徴量を用いたマルチモーダル音声認識”,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2015年10月08日,Vol.115, No.253,pp.57-62
【文献】Caner Hazirbas et al.,"FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture",Computer Vision - ACCV 2016,ドイツ,Springer,2016年11月30日,pp.1-15,https://cvg.cit.tum.de/publications#2016
【文献】Shang-Wei Hung et al.,"Incorporating Luminance, Depth and Color Information by a Fusion-Based Network for Semantic Segmentation",2019 IEEE International Conference on Image Processing (ICIP),米国,IEEE,2019年09月22日,pp.2374-2378
【文献】柿原 康博、外5名,“Convolutional Neural Networkを用いた重度難聴者のマルチモーダル音声認識”,日本音響学会 2015年 春季研究発表会講演論文集CD-ROM,日本,一般社団法人日本音響学会,2015年03月06日,pp.197-200
【文献】吉野 遼、外3名,“マルチモーダルカテゴリゼーションのためのAutoencoderを用いた特徴量抽出の学習”,第32回日本ロボット学会学術講演会,日本,一般社団法人日本ロボット学会,2014年09月04日,pp.1117-1120
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/02,3/08,20/00
G06T 1/00,7/00-7/90
G06V 10/00-10/98
(57)【特許請求の範囲】
【請求項1】
メインセンサとサブセンサとを含む複数のセンサから取得したセンサ情報に基づいて、物体検出モデルを用いて、物体検出を実行する物体検出部を、備え、
前記物体検出モデルは、
前記メインセンサで取得した第1のセンサ情報に基づく物体検出を実行するためのメインモデルと、
前記サブセンサで取得した第2のセンサ情報に基づく物体検出を実行するためのサブモデルと、を含み、
前記物体検出部は、
前記メインモデルを用いて物体検出を実行する第1の物体検出部と、
前記サブモデルを用いて物体検出を実行する第2の物体検出部と、
前記第1の物体検出部から得られる前記第1のセンサ情報に関する第1の特徴量と、前記第2の物体検出部から得られる前記第2のセンサ情報に関する第2の特徴量とを融合して融合特徴量とする特徴量融合部と、
を有し、
前記メインモデルと前記サブモデルとは、特徴量の階層を有する同じネットワークとなっており、
前記特徴量融合部は、
前記メインモデルの前記特徴量の階層と、前記メインモデルの前記特徴量の階層に対して出力側となる次の階層に対応する前記サブモデルの前記特徴量の階層と、を接続しており、前記メインモデルの前記特徴量の階層から得られる前記第1の特徴量を、前記サブモデルの出力側となる次の前記特徴量の階層から得られる前記第2の特徴量に融合する物体認識装置。
【請求項2】
前記物体検出部は、
前記第1の物体検出部による出力結果と、前記第2の物体検出部による出力結果とを統合し、統合結果を出力情報として出力する統合部を、さらに有する請求項1に記載の物体認識装置。
【請求項3】
前記メインモデルは、前記第1の物体検出部において、前記第1のセンサ情報を用いて学習を実行した物体検出モデルとなっており、
前記サブモデルは、前記第2の物体検出部において、前記第2のセンサ情報と前記メインモデルの学習結果とを用いて学習を実行した物体検出モデルとなっている請求項1または2に記載の物体認識装置。
【請求項4】
前記サブモデルは、前記メインモデルの学習結果として、学習後の前記メインモデルから出力される出力結果をターゲット情報として用いる請求項3に記載の物体認識装置。
【請求項5】
メインセンサとサブセンサとを含む複数のセンサと、
請求項1からのいずれか1項に記載の物体認識装置と、を備える物体認識システム。
【請求項6】
前記メインセンサと前記サブセンサとは、異なる種類となっている請求項に記載の物体認識システム。
【請求項7】
請求項1からのいずれか1項に記載の物体認識装置によって実行される物体認識装置の学習方法であって、
前記物体認識装置の学習には、前記物体検出部から出力される教師となる出力情報である教師情報と、前記教師情報に対応する前記第1のセンサ情報と、前記教師情報に対応する前記第2のセンサ情報と、を含む学習データセットが用いられ、
前記第1のセンサ情報と前記教師情報とを用いて、前記第1の物体検出部において前記メインモデルを学習し、
学習後の前記メインモデルを用いて、前記第1のセンサ情報から物体検出を実行して、出力結果をターゲット情報として取得し、
前記第1のセンサ情報と前記ターゲット情報とを用いて、前記第1の物体検出部において前記メインモデルを学習すると共に、前記第2のセンサ情報と前記教師情報とを用いて、前記第2の物体検出部において前記サブモデルを学習する物体認識装置の学習方法。
【請求項8】
前記サブモデルの学習では、
前記メインモデルを用いて前記ターゲット情報から得られる前記第1の特徴量を抽出し、
前記サブモデルを用いて前記第2のセンサ情報から得られる戦記第2の特徴量を抽出し、
前記特徴量融合部において、抽出した前記第1の特徴量と前記第2の特徴量とを融合して、前記融合特徴量を算出し、
算出した前記融合特徴量に基づく前記サブモデルの学習を実行する請求項に記載の物体認識装置の学習方法。
【請求項9】
前記サブモデルの学習では、
前記メインモデルの学習において、前記第1のセンサ情報と前記ターゲット情報との差分が小さくなり、
前記サブモデルの学習において、前記第2のセンサ情報と前記教師情報との差分が小さくなるように学習を実行する請求項またはに記載の物体認識装置の学習方法。
【請求項10】
前記教師情報は、グラウンドトゥルース(GT:Ground Truth)である請求項からのいずれか1項に記載の物体認識装置の学習方法。
【請求項11】
前記学習データセットは、
前記メインモデルの学習で用いられる前記第1のセンサ情報と前記教師情報とが、物体検出において統計的に頻度の多い場面に関する情報となっており、
前記サブモデルの学習で用いられる前記第2のセンサ情報と前記教師情報とが、前記メインモデルに比して、物体検出において統計的に頻度の少ない場面に関する情報となっている請求項から10のいずれか1項に記載の物体認識装置の学習方法。
【請求項12】
請求項1からのいずれか1項に記載の物体認識装置によって実行される物体認識装置の物体認識方法であって、
複数の前記センサから前記センサ情報を取得し、
前記第1の物体検出部において、前記メインセンサから取得した前記第1のセンサ情報から、前記メインモデルを用いて物体検出を実行して出力結果を出力し、
前記第2の物体検出部において、前記サブセンサから取得した前記第2のセンサ情報から、前記サブモデルを用いて物体検出を実行して出力結果を出力し、
前記第1の物体検出部による出力結果と、前記第2の物体検出部による出力結果とを統合し、統合結果を出力情報として出力する物体認識装置の物体認識方法。
【請求項13】
請求項1からのいずれか1項に記載の物体認識装置によって実行される物体認識装置の学習プログラムであって、
前記物体認識装置の学習には、前記物体検出部から出力される教師となる出力情報である教師情報と、前記教師情報に対応する前記第1のセンサ情報と、前記教師情報に対応する前記第2のセンサ情報と、を含む学習データセットが用いられ、
前記物体認識装置に、
前記第1のセンサ情報と前記教師情報とを用いて、前記第1の物体検出部において前記メインモデルを学習させ、
学習後の前記メインモデルを用いて、前記第1のセンサ情報から物体検出を実行して、出力結果をターゲット情報として取得させ、
前記第1のセンサ情報と前記ターゲット情報とを用いて、前記第1の物体検出部において前記メインモデルを学習させると共に、前記第2のセンサ情報と前記教師情報とを用いて、前記第2の物体検出部において前記サブモデルを学習させる物体認識装置の学習プログラム。
【請求項14】
請求項1からのいずれか1項に記載の物体認識装置によって実行される物体認識装置の物体認識プログラムであって、
前記物体認識装置に、
複数の前記センサから前記センサ情報を取得させ、
前記第1の物体検出部において、前記メインセンサから取得した前記第1のセンサ情報から、前記メインモデルを用いて物体検出を実行して出力結果を出力させ、
前記第2の物体検出部において、前記サブセンサから取得した前記第2のセンサ情報から、前記サブモデルを用いて物体検出を実行して出力結果を出力させ、
前記第1の物体検出部による出力結果と、前記第2の物体検出部による出力結果とを統合し、統合結果を出力情報として出力させる物体認識装置の物体認識プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、物体認識装置、物体認識システム、物体認識装置の学習方法、物体認識装置の物体認識方法、物体認識装置の学習プログラム及び物体認識装置の物体認識プログラムに関する。
【背景技術】
【0002】
物体認識装置として、例えば、運転中に撮影される物体を認識する物体認識装置が知られている(特許文献1参照)。特許文献1の物体認識装置は、シーン判定部と、学習モデル選択部と、物体認識部とを備えている。シーン判定部は、車両の状態を検出する各種センサにより取得された情報、及び車両運転中に得られる情報に基づいて、運転中における車両のシーンを判定する。学習モデル選択部は、判定されたシーンに応じて、2以上の学習モデルから物体認識に用いる学習モデルを選択する。物体認識部は、選択された学習モデルを用いて、車両運転中に撮影される画像中の物体を認識する。
【先行技術文献】
【特許文献】
【0003】
【文献】国際公開第2020/090251号
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に示す物体認識装置では、車両運転中に撮影される画像中の物体を認識しており、物体認識を行うための情報は、撮像装置から取得している。つまり、特許文献1に示す物体認識装置では、単一のセンサにより物体認識等の物体検出を行っている。一方で、物体検出では、複数のセンサを用いて物体検出を行う、いわゆるマルチモーダル式の物体検出が考えられている。
【0005】
複数のセンサを用いて物体検出を行う場合、一部のセンサを異なる種類に交換したり、新たなセンサを追加したりすると、物体検出モデルの再学習が必要となる。物体検出モデルの学習を行う場合、入力情報(センサ情報)と教師情報とを含む学習データセットが必要となる。学習データセットは、物体検出を行う全てのシーンに応じて用意することから、データ量が多くなってしまい、学習コストの抑制が困難となる。
【0006】
本開示は、複数のセンサの構成を変更する場合であっても、学習に要するデータ量を削減し、学習コストの低減を図ることができる物体認識装置、物体認識システム、物体認識装置の学習方法、物体認識装置の物体認識方法、物体認識装置の学習プログラム及び物体認識装置の物体認識プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
態様の1つに係る物体認識装置は、メインセンサとサブセンサとを含む複数のセンサから取得したセンサ情報に基づいて、物体検出モデルを用いて、物体検出を実行する物体検出部を、備え、前記物体検出モデルは、前記メインセンサで取得した第1のセンサ情報に基づく物体検出を実行するためのメインモデルと、前記サブセンサで取得した第2のセンサ情報に基づく物体検出を実行するためのサブモデルと、を含み、前記物体検出部は、前記メインモデルを用いて物体検出を実行する第1の物体検出部と、前記サブモデルを用いて物体検出を実行する第2の物体検出部と、前記第1の物体検出部から得られる前記第1のセンサ情報に関する第1の特徴量と、前記第2の物体検出部から得られる前記第2のセンサ情報に関する第2の特徴量とを融合して融合特徴量とする特徴量融合部と、を有し、前記メインモデルと前記サブモデルとは、特徴量の階層を有する同じネットワークとなっている。
【0008】
態様の1つに係る物体認識システムは、メインセンサとサブセンサとを含む複数のセンサと、上記の物体認識装置と、を備える。
【0009】
態様の1つに係る物体認識装置の学習方法は、上記の物体認識装置によって実行される物体認識装置の学習方法であって、前記物体認識装置の学習には、前記物体検出部から出力される教師となる出力情報である教師情報と、前記教師情報に対応する前記第1のセンサ情報と、前記教師情報に対応する前記第2のセンサ情報と、を含む学習データセットが用いられ、前記第1のセンサ情報と前記教師情報とを用いて、前記第1の物体検出部において前記メインモデルを学習し、学習後の前記メインモデルを用いて、前記第1のセンサ情報から物体検出を実行して、出力結果をターゲット情報として取得し、前記第1のセンサ情報と前記ターゲット情報とを用いて、前記第1の物体検出部において前記メインモデルを学習すると共に、前記第2のセンサ情報と前記教師情報とを用いて、前記第2の物体検出部において前記サブモデルを学習する。
【0010】
態様の1つに係る物体認識装置の物体認識方法は、上記の物体認識装置によって実行される物体認識装置の物体認識方法であって、複数の前記センサから前記センサ情報を取得し、前記第1の物体検出部において、前記メインセンサから取得した前記第1のセンサ情報から、前記メインモデルを用いて物体検出を実行して出力結果を出力し、前記第2の物体検出部において、前記サブセンサから取得した前記第2のセンサ情報から、前記サブモデルを用いて物体検出を実行して出力結果を出力し、前記第1の物体検出部による出力結果と、前記第2の物体検出部による出力結果とを統合し、統合結果を出力情報として出力する。
【0011】
態様の1つに係る物体認識装置の学習プログラムは、上記の物体認識装置によって実行される物体認識装置の学習プログラムであって、前記物体認識装置の学習には、前記物体検出部から出力される教師となる出力情報である教師情報と、前記教師情報に対応する前記第1のセンサ情報と、前記教師情報に対応する前記第2のセンサ情報と、を含む学習データセットが用いられ、前記物体認識装置に、前記第1のセンサ情報と前記教師情報とを用いて、前記第1の物体検出部において前記メインモデルを学習させ、学習後の前記メインモデルを用いて、前記第1のセンサ情報から物体検出を実行して、出力結果をターゲット情報として取得させ、前記第1のセンサ情報と前記ターゲット情報とを用いて、前記第1の物体検出部において前記メインモデルを学習すると共に、前記第2のセンサ情報と前記教師情報とを用いて、前記第2の物体検出部において前記サブモデルを学習させる。
【0012】
態様の1つに係る物体認識装置の物体認識プログラムは、上記の物体認識装置によって実行される物体認識装置の物体認識プログラムであって、前記物体認識装置に、複数の前記センサから前記センサ情報を取得させ、前記第1の物体検出部において、前記メインセンサから取得した前記第1のセンサ情報から、前記メインモデルを用いて物体検出を実行して出力結果を出力させ、前記第2の物体検出部において、前記サブセンサから取得した前記第2のセンサ情報から、前記サブモデルを用いて物体検出を実行して出力結果を出力させ、前記第1の物体検出部による出力結果と、前記第2の物体検出部による出力結果とを統合し、統合結果を出力情報として出力させる。
【発明の効果】
【0013】
本開示によれば、複数のセンサの構成を変更する場合であっても、学習に要するデータ量を削減し、学習コストの低減を図ることができる。
【図面の簡単な説明】
【0014】
図1図1は、実施形態に係る物体認識システムに関する図である。
図2図2は、物体検出部に関する図である。
図3図3は、実施形態に係る物体認識装置の物体認識方法に関する一例のフローチャートである。
図4図4は、学習データセットの図である。
図5図5は、実施形態に係る物体認識装置の学習方法に関する説明図である。
図6図6は、実施形態に係る物体認識装置の学習方法に関する一例のフローチャートである。
図7図7は、従来の学習と実施形態の学習とに用いられる学習データセットの比較に関する図である。
【発明を実施するための形態】
【0015】
本開示に係る実施形態を、図面を参照しつつ詳細に説明する。以下の説明において、同様の構成要素について同一の符号を付すことがある。さらに、重複する説明は省略することがある。また、本開示に係る実施形態を説明する上で密接に関連しない事項は、説明及び図示を省略することがある。なお、以下の実施形態により本開示が限定されるものではない。また、以下の実施形態には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。
【0016】
(実施形態)
図1は、実施形態に係る物体認識システムに関する図である。物体認識システム1は、複数のセンサ5により取得したセンサ情報に基づいて物体を検出するシステムとなっている。物体認識システム1は、例えば、車両に搭載され、車両において取得される各種シーンに含まれる物体を検出している。なお、シーンとしては、昼、夜、雨等のシーンである。
【0017】
図1に示すように、物体認識システム1は、複数のセンサ5と、物体認識装置10とを備える。物体認識システム1は、複数のセンサ5を用いたマルチモーダル式の物体検出に関するシステムとなっている。複数のセンサ5は、メインセンサ7とサブセンサ8とを含む。メインセンサ7とサブセンサ8とは、異なる種類のセンサとなっている。メインセンサ7は、物体検出において主として用いられるセンサとなっている。メインセンサ7は、例えば、シーンを撮像して画像を生成するカメラが適用される。メインセンサ7は、物体認識装置10に接続されており、メインセンサ7により取得した第1のセンサ情報は、物体認識装置10へ出力される。サブセンサ8は、物体検出においてメインセンサ7に対して補助的に用いられるセンサとなっている。サブセンサ8は、例えば、LIDAR(Light Detection and Ranging)、RADAR(Radio Detection and Ranging)等が適用される。サブセンサ8は、メインセンサ7と同様に、物体認識装置10に接続されており、サブセンサ8により取得した第2のセンサ情報は、物体認識装置10へ出力される。
【0018】
物体認識装置10は、第1のセンサ情報及び第2のセンサ情報を融合し、FPN(Feature Pyramid Networks)等の学習モデル(物体検出モデル)を用いて、物体検出を実行している。物体認識装置10は、制御部11と、記憶部12と、物体検出部13とを備えている。
【0019】
記憶部12は、プログラム及びデータを記憶する。また、記憶部12は、制御部11の処理結果を一時的に記憶する作業領域としても利用してもよい。記憶部12は、半導体記憶デバイス、及び磁気記憶デバイス等の任意の記憶デバイスを含んでよい。また、記憶部12は、複数の種類の記憶デバイスを含んでよい。また、記憶部12は、メモリカード等の可搬の記憶媒体と、記憶媒体の読み取り装置との組み合わせを含んでよい。
【0020】
記憶部12は、プログラムとして、学習プログラムP1と物体認識プログラムP2とを記憶している。学習プログラムP1は、物体認識装置10の学習モデルの学習を行うためのプログラムである。物体認識プログラムP2は、物体認識装置10の学習モデルを用いた物体検出を行うためのプログラムである。また、記憶部12は、データとして、学習を行うために用いられる学習データセットDを記憶している。学習データセットDは、学習モデルの学習時において用いられるデータである。このため、学習データセットDは、学習モデルの学習時において記憶部12に記憶される一方で、学習モデルを用いた物体検出において記憶部12に記憶されていなくてもよい。つまり、物体認識装置10を物体検出で用いる場合には、記憶部12に学習データセットDが記憶されていなくてもよい。なお、学習データセットDについては、後述する。また、記憶部12は、物体認識装置10を物体検出で用いる場合、メインセンサ7及びサブセンサ8から取得した第1のセンサ情報及び第2のセンサ情報を記憶している。
【0021】
制御部11は、物体認識装置10の動作を統括的に制御して各種の機能を実現する。制御部11は、例えば、CPU(Central Processing Unit)等の集積回路を含んでいる。具体的に、制御部11は、記憶部12に記憶されているプログラムに含まれる命令を実行することによって各種機能を実現する。制御部11は、例えば、学習プログラムP1を実行することにより、物体認識装置10の学習モデルの学習を実行する。また、制御部11は、例えば、物体認識プログラムP2を実行することにより、物体認識装置10の学習モデルを用いた物体検出を実行する。
【0022】
図2は、物体検出部に関する図である。物体検出部13は、例えば、GPU(Graphics Processing Unit)等の集積回路を含んでいる。物体検出部13は、FPN等の学習モデルを用いた物体検出を行う。図2に示すように、物体検出部13は、メインとなる第1の物体検出部21と、サブとなる第2の物体検出部22と、統合部23と、特徴量融合部24と、を有している。なお、物体検出部13は、第2の物体検出部22を複数有する構成であってもよい。
【0023】
ここで、物体検出部13に用いられる学習モデルは、第1の物体検出部21で用いられるメインモデル35と、第2の物体検出部22で用いられるサブモデル45と、を含んでいる。メインモデル35は、メインセンサ7で取得した第1のセンサ情報に基づく物体検出を実行するためのモデルである。サブモデル45は、サブセンサ8で取得した第2のセンサ情報に基づく物体検出を実行するためのモデルである。メインモデル35とサブモデル45とは、同じ学習モデルとなっており、特徴量の階層を有するネットワーク、つまり、特徴マップを用いたネットワークとなっている。
【0024】
第1の物体検出部21は、メインモデル35を用いて物体検出を実行している。第1の物体検出部21は、第1のエンコーダ31と、第1のデコーダ32と、を含むメインモデル35が用いられる。
【0025】
第1のエンコーダ31は、第1のセンサ情報に対してエンコード処理を実行する。エンコード処理は、第1のセンサ情報が画像情報である場合、画像情報の特徴量を抽出した特徴マップ(Feature Map)を生成しつつ、特徴マップの解像度を低くするダウンサンプリング(プーリングともいう)を実行する。具体的に、エンコード処理では、畳み込み層とプーリング層とにおいて画像情報に処理が行われる。畳み込み層では、画像情報の特徴量を抽出するためのカーネル(フィルタ)を、画像情報において所定のストライドで移動させる。そして、畳み込み層では、畳み込み層の重みに基づいて、画像情報の特徴量を抽出するための畳み込み計算が行われ、この畳み込み計算により特徴量が抽出された特徴マップを生成する。生成される特徴マップは、カーネルのチャネル数に応じた数だけ生成される。プーリング層では、特徴量が抽出された特徴マップを縮小して、低解像度となる特徴マップを生成する。エンコード処理では、畳み込み層における処理とプーリング層における処理とを複数回繰り返し実行することで、ダウンサンプリングされた特徴量を有する特徴マップを生成する。
【0026】
第1のデコーダ32は、エンコード処理後の特徴マップに対してデコード処理を実行する。デコード処理は、特徴マップの解像度を高くするアップサンプリング(アンプーリングともいう)を実行する処理である。具体的に、デコード処理は、逆畳み込み層とアンプーリング層とにおいて特徴マップに処理が行われる。アンプーリング層では、特徴量を含む低解像度の特徴マップを拡大して、高解像度となる特徴マップを生成する。逆畳み込み層では、特徴マップに含まれる特徴量を、復元させるための逆畳み込み計算が、逆畳み込み層の重みに基づいて実行され、この計算により特徴量を復元させた特徴マップを生成する。アンプーリング層では、特徴マップを拡大して、高解像度となる特徴マップを生成する。そして、デコード処理では、アンプーリング層における処理と逆畳み込み層における処理とを複数回繰り返し実行することで、特徴量を有する特徴マップがアップサンプリングされる。
【0027】
第1の物体検出部21は、アップサンプリングされた特徴マップに対してクラスの尤度を付与し、これを出力結果として統合部23へ向けて出力する。つまり、第1の物体検出部21は、出力結果として、アップサンプリングされた特徴マップに対してピクセル単位で付されたクラスの尤度を出力している。
【0028】
以上のように、第1の物体検出部21は、第1のセンサ情報に対して、エンコード処理及びデコード処理を実行し、ピクセル単位でクラス推論(クラス分類)を行う。そして、第1の物体検出部21は、アップサンプリングされた特徴マップに対してピクセル単位で付されたクラスの尤度を、出力結果として出力する。
【0029】
第2の物体検出部22は、サブモデル45を用いて物体検出を実行している。第2の物体検出部22は、第2のエンコーダ41と、第2のデコーダ42と、を含むサブモデル45が用いられる。なお、第2の物体検出部22は、第1の物体検出部21と同様である。つまり、第2のエンコーダ41、及び第2のデコーダ42は、第1のエンコーダ31、及び第1のデコーダ32と同様の構成となっている。このため、第2の物体検出部22の説明を省略する。
【0030】
ここで、第1の物体検出部21と第2の物体検出部22とは特徴量融合部24を介して接続されている。特徴量融合部24は、第1の物体検出部21のメインモデル35において抽出される第1の特徴量を、第2の物体検出部22のサブモデル45に受け渡している。具体的に、第1の物体検出部21のメインモデル35における特徴マップの所定の階層と、第2の物体検出部22のサブモデル45における特徴マップの所定の階層とが接続されている。サブモデル45の所定の階層は、メインモデル35の所定の階層に対して出力側となる次の階層に対応するものとなっている。つまり、メインモデル35の所定の階層をn番目の階層とすると、サブモデル45の所定の階層は、(n+1)番目の階層となっている。第1の物体検出部21は、第1のセンサ情報から生成した特徴マップに含まれる第1の特徴量を抽出し、第1の特徴量を特徴量融合部24へ出力する。また、第2の物体検出部22は、第2のセンサ情報から生成した特徴マップに含まれる第2の特徴量を抽出し、第2の特徴量を特徴量融合部24へ出力する。
【0031】
特徴量融合部24は、第1の物体検出部21において抽出した第1の特徴量と、第2の物体検出部22において抽出した第2の特徴量とを融合し、融合特徴量を生成する。
【0032】
第2の物体検出部22は、取得した融合特徴量を含む特徴マップに対して、エンコード処理及びデコード処理を実行し、ピクセル単位でクラス推論(クラス分類)を行う。そして、第2の物体検出部22は、アップサンプリングされた特徴マップに対してピクセル単位で付されたクラスの尤度を、出力結果として出力する。
【0033】
統合部23は、第1の物体検出部21の出力結果と、第2の物体検出部22の出力結果とを統合し、統合結果を出力情報として出力する。統合部23は、第1の物体検出部21においてアップサンプリングされた特徴マップに対してピクセル単位で付されたクラスの尤度と、第2の物体検出部22においてアップサンプリングされた特徴マップに対してピクセル単位で付されたクラスの尤度とを統合する。統合部23は、例えば、尤度の平均値を用いたり、尤度の最大値を用いたりして、出力結果を統合する。
【0034】
次に、図3を参照して、上記の物体検出部13を備える物体認識装置10の物体認識動作について説明する。図3は、実施形態に係る物体認識装置の物体認識方法に関する一例のフローチャートである。物体認識装置10は、記憶部12に記憶された物体認識プログラムP2を実行することにより、メインセンサ7及びサブセンサ8のセンサ情報に基づく、物体検出部13による物体検出を実行している。
【0035】
先ず、制御部11は、メインセンサ7から第1のセンサ情報を取得する(ステップS11)。物体検出部13において、第1の物体検出部21は、第1のセンサ情報に基づいて、メインモデル35を用いて特徴マップを生成し、第1の特徴量を抽出する(ステップS12)。この後、第1の物体検出部21は、抽出した第1の特徴量に基づいて、物体検出を実行し、検出結果を出力結果として出力する(ステップS13)。
【0036】
また、制御部11は、サブセンサ8から第2のセンサ情報を取得する(ステップS14)。物体検出部13において、第2の物体検出部22は、第2のセンサ情報に基づいて、サブモデル45を用いて特徴マップを生成し、第2の特徴量を抽出する(ステップS15)。この後、第2の物体検出部22は、第2の物体検出部22で抽出された第2の特徴量と、第1の物体検出部21で抽出された第1の特徴量とを融合して、融合特徴量を生成する(ステップS16)。この後、第2の物体検出部22は、融合特徴量に基づいて、物体検出を実行し、検出結果を出力結果として出力する(ステップS17)。
【0037】
物体検出部13は、ステップS13において第1の物体検出部21から出力された出力結果と、ステップS17において第2の物体検出部22から出力された出力結果と、を統合部23により統合し、統合結果を生成する(ステップS20)。具体的に、ステップS20では、統合部23が、出力結果として、第1の物体検出部21及び第2の物体検出部22から出力された特徴マップに対してピクセル単位で付されたクラスの尤度を取得する。そして、統合部23は、取得した尤度に基づいて、尤度の平均値を用いたり、尤度の最大値を用いたりして、統合結果を生成する。
【0038】
この後、物体検出部13は、生成した統合結果に対して、後処理を実行し、出力情報を生成する(ステップS21)。後処理としては、例えば、NMS(Non-Maximum Suppresion)等である。NMSは、物体検出により同じクラスの画像領域が重複する場合、この重複を抑制するための処理である。物体検出部13は、出力情報の生成後、出力情報を出力する(ステップS22)。物体検出部13は、ステップS22の実行後、物体認識動作を終了する。
【0039】
次に、図4から図6を参照して、上記の物体検出部13を備える物体認識装置10の学習動作について説明する。図4は、学習データセットの図である。図5は、実施形態に係る物体認識装置の学習方法に関する説明図である。図6は、実施形態に係る物体認識装置の学習方法に関する一例のフローチャートである。物体認識装置10は、記憶部12に記憶された学習プログラムP1を実行することにより、学習データセットDを用いた、物体検出部13による物体検出の学習を実行している。
【0040】
図4に示すように、学習データセットDは、第1のセンサ情報と、第2のセンサ情報と、教師となる出力情報である教師情報とを含んでいる。また、第1のセンサ情報、第2のセンサ情報及び教師情報は、対応付けられた情報となっており、これらをワンセットとして、複数セット用意されている。
【0041】
メインセンサ7がカメラである場合、第1のセンサ情報は、撮影された画像情報となっている。サブセンサ8がLIDARである場合、第2のセンサ情報は、レーザによって計測された計測点の点群に関する情報となっている。教師情報は、出力情報となる画像情報に対して真値のクラスがラベリングされたグラウンドトゥルース(GT:Ground Truth)となっており、例えば、アノテーションを施した画像情報となっている。
【0042】
図5に示すように、物体認識装置10の学習は、3つのステップに大別される。3つのステップのうち、1つ目のステップは、第1の物体検出部21においてメインモデル35を学習するステップ(ステップS31)である。2つ目のステップは、学習済みのメインモデル35を用いてターゲット情報を出力するステップ(ステップS32)である。3つ目のステップは、第2の物体検出部22においてサブモデルを学習するステップ(ステップS33)である。
【0043】
図5及び図6を用いて、物体認識装置10の学習動作について説明する。先ず、物体検出部13は、学習データセットDの第1のセンサ情報と教師情報とを用いて、メインモデル35の学習を実行する(ステップS31)。ステップS31では、第1のセンサ情報に基づいて第1の物体検出部21から出力される出力情報が、教師情報となるように、損失関数(Loss function)を用いて学習を実行している。また、ステップS31では、物体検出において統計的に頻度の多い場面に関する学習を行っている。つまり、メインモデル35の学習で用いられる第1のセンサ情報と教師情報とは、統計的に頻度の多い場面に関する情報となっており、例えば、昼間及び夜間の場面に関する情報となっている。換言すれば、統計的に頻度の多い場面とは、全ての場面に関する情報とも言える。
【0044】
続いて、物体検出部13は、学習済みのメインモデル35を用いて、学習データセットDの第1のセンサ情報に基づく物体検出を行って、出力情報をターゲット情報として取得する(ステップS32)。つまり、ステップS32では、メインモデル35の学習結果として、ターゲット情報を取得する。ステップS32では、統計的に頻度の少ない場面に関する物体検出を行っており、例えば、夜間の場面に関する物体検出を行って、夜間の場面に関するターゲット情報を取得している。換言すれば、統計的に頻度の少ない場面とは、全ての場面に対して一部の場面に関する情報とも言える。
【0045】
次に、物体検出部13は、取得したターゲット情報と、ターゲット情報に対応する第1のセンサ情報と、第1のセンサ情報に対応する第2のセンサ情報と、教師情報とを用いて、サブモデル45の学習を実行する(ステップS33)。ステップS33では、第1のセンサ情報に基づいて第1の物体検出部21から出力される出力情報が、ターゲット情報となるように、損失関数(Loss function)を用いてメインモデル35の学習を実行している。つまり、メインモデル35の学習では、第1のセンサ情報とターゲット情報との差分が小さくなるように学習が実行される。また、ステップS33では、サブモデル45の学習を実行している。サブモデル45の学習では、特徴量融合部24が、第1の物体検出部21において生成された特徴マップから抽出された第1の特徴量を取得する。ステップS33において、特徴量融合部24は、第1の物体検出部21から取得した第1の特徴量を、第2の物体検出部22において生成された特徴マップから抽出される第2の特徴量に融合させる。ステップS33におけるサブモデル45の学習では、第2の物体検出部22が、第2のセンサ情報と教師情報とを用いて、融合特徴量に基づき学習を実行する。ステップS33におけるサブモデル45の学習では、第2のセンサ情報に基づいて第2の物体検出部22から出力される出力情報が、教師情報となるように、損失関数(Loss function)を用いて学習を実行している。そして、ステップS33では、メインモデル35の学習における損失とサブモデル45の学習の学習における損失との合算が最小となるように、メインモデル35及びサブモデル45の学習が実行される。ここで、ステップS33では、ターゲット情報を用いていることから、物体検出において統計的に頻度の少ない場面に関する学習を行うこととなる。つまり、サブモデル45の学習で用いられる第1のセンサ情報、第2のセンサ情報及び教師情報は、統計的に頻度の少ない場面に関する情報となっており、例えば、夜間の場面に関する情報となっている。物体認識装置10は、ステップS33の実行後、物体検出部13の学習動作を終了する。
【0046】
次に、図7を参照して、従来の学習に用いられる学習データセットと、実施形態の学習に用いられる学習データセットとの情報量の比較について説明する。図7は、従来の学習と実施形態の学習とに用いられる学習データセットの比較に関する図である。図7では、4つのパターンにおける情報量及び再学習の必要性を比較している。4つのパターンのうち、一つ目は、メインセンサ7とサブセンサ8(サブセンサA)とを一つずつ用いた標準となる標準構成のパターンである。二つ目は、標準構成のサブセンサ8(サブセンサA)から他のサブセンサ8(サブセンサB)に変更したときの変更パターンである。三つ目は、標準構成のサブセンサ8(サブセンサA)に他のサブセンサ8(サブセンサB)を追加したときの追加パターンである。四つ目は、標準構成のサブセンサ8(サブセンサA)を削除したときの削除パターンである。
【0047】
標準構成のパターンにおいて、従来の学習では、センサの数の分だけ、学習に必要な情報を用意する必要がある。すなわち、従来の学習では、メインモデル35を学習するための第1のセンサ情報と、第1のセンサ情報に対応する第1の教師情報とを用意し、サブモデル45を学習するための第2のセンサ情報と、第2のセンサ情報に対応する第2の教師情報とを用意する必要がある。つまり、一つのセンサの学習に必要な情報量をnとすると、メインモデル35及びサブモデル45の学習に必要な情報量は、「2n」となる。これに対して、実施形態の学習では、ターゲット情報を用いることから、メインモデル35及びサブモデル45の学習には、第1のセンサ情報、教師情報及び第2のセンサ情報を用意すればよいため、必要な情報量が削減できることが示される。なお、標準構成のパターンにおいて、再学習は、従来の学習であっても、実施形態の学習であっても必要となる。
【0048】
変更パターンにおいて、従来の学習では、サブセンサ8の変更に伴って、第1のセンサ情報、第1の教師情報、第2のセンサ情報及び第2の教師情報を全て変更する必要がある。このため、メインモデル35及びサブモデル45の学習に必要な情報量は、「2n」となる。これに対して、実施形態の学習では、ターゲット情報を用いることから、メインモデル35及びサブモデル45の学習には、第1のセンサ情報、教師情報を変更する必要はなく、新たに第2のセンサ情報を変更すればよい。このため、必要な情報量が削減できることが示される。なお、変更パターンにおいて、再学習は、従来の学習であっても、実施形態の学習であっても必要となる。
【0049】
追加パターンにおいて、従来の学習では、サブセンサ8の追加に伴って、第1のセンサ情報、第1の教師情報、第2のセンサ情報及び第2の教師情報を全て変更すると共に、新たに第3のセンサ情報及び第3の教師情報を用意する必要がある。このため、メインモデル35及び2つのサブモデル45の学習に必要な情報量は、「3n」となる。これに対して、実施形態の学習では、ターゲット情報を用いることから、メインモデル35及び2つのサブモデル45の学習には、第1のセンサ情報、第2のセンサ情報及び教師情報を変更する必要はなく、新たに第3のセンサ情報を追加すればよい。このため、必要な情報量が削減できることが示される。なお、追加パターンにおいて、再学習は、従来の学習であっても、実施形態の学習であっても必要となる。
【0050】
削除パターンにおいて、従来の学習では、サブセンサ8の削除に伴って、第1のセンサ情及び第1の教師情報を用いて、メインモデル35を再学習する必要がある。なお、第1のセンサ情及び第1の教師情報は、標準構成のパターンにおいて用意された情報を用いることができる。これに対して、実施形態の学習では、ターゲット情報を用いることから、サブセンサ8が削除されても、メインモデル35の学習が維持されているため、メインモデル35を再学習する必要がない。このため、削除パターンにおいて、実施形態の学習では、再学習が不要となる。
【0051】
以上のように、実施形態に係る物体認識装置10は、メインセンサ7とサブセンサ8とを含む複数のセンサ5から取得したセンサ情報に基づいて、物体検出モデルを用いて、物体検出を実行する物体検出部13を、備え、前記物体検出モデルは、前記メインセンサ7で取得した第1のセンサ情報に基づく物体検出を実行するためのメインモデル35と、前記サブセンサ8で取得した第2のセンサ情報に基づく物体検出を実行するためのサブモデル45と、を含み、前記物体検出部13は、前記メインモデル35を用いて物体検出を実行する第1の物体検出部21と、前記サブモデル45を用いて物体検出を実行する第2の物体検出部22と、前記第1の物体検出部21から得られる前記第1のセンサ情報に関する第1の特徴量と、前記第2の物体検出部22から得られる前記第2のセンサ情報に関する第2の特徴量とを融合して融合特徴量とする特徴量融合部24と、を有し、前記メインモデル35と前記サブモデル45とは、特徴量の階層を有する同じネットワークとなっている。
【0052】
このため、複数のセンサ5を用いて物体検出を行う場合であっても、第1の物体検出部21による第1の特徴量に基づく物体検出を行うことができ、第2の物体検出部22による融合特徴量に基づく物体検出を行うことができる。このとき、サブセンサ8の構成を変更する場合であっても、第1の物体検出部21による学習を維持可能な構成となっており、サブセンサ8による学習を行えばよいため、学習に要する情報量を削減し、学習コストの低減を図ることができる。
【0053】
また、前記物体検出部13は、前記第1の物体検出部21による出力結果と、前記第2の物体検出部22による出力結果とを統合し、統合結果を出力情報として出力する統合部23を、さらに有する。
【0054】
このため、第1の物体検出部21の出力結果と第2の物体検出部22の出力結果との統合によって、ロバスト性(堅牢性)を向上させることができ、物体検出を精度よく行うことができる。また、サブセンサ8から第2のセンサ情報が得られない場合であっても、メインセンサ7を用いた物体検出を実行可能であることから、第2のセンサ情報の欠落を許容し、ロバスト性の高い物体検出を実行することができる。
【0055】
また、前記メインモデル35は、前記第1の物体検出部21において、前記第1のセンサ情報を用いて学習を実行した物体検出モデルとなっており、前記サブモデル45は、前記第2の物体検出部22において、前記第2のセンサ情報と前記メインモデルの学習結果とを用いて学習を実行した物体検出モデルとなっている。
【0056】
このため、メインモデル35及びサブモデル45を、センサ情報を補完する物体検出モデルとして適切に学習することができる。また、メインモデル35のみを用いた物体検出を実行可能な物体検出モデルとして適切に学習したモデルとすることができる。
【0057】
また、前記サブモデル45は、前記メインモデル35の学習結果として、学習後の前記メインモデル35から出力される出力結果をターゲット情報として用いる。
【0058】
このため、ターゲット情報として用いることにより、学習に要する情報量を削減し、学習コストの低減を図ることができる。
【0059】
また、前記特徴量融合部24は、前記メインモデル35の前記特徴量の階層と、前記メインモデル35の前記特徴量の階層に対して出力側となる次の階層に対応する前記サブモデル45の前記特徴量の階層と、を接続しており、前記メインモデル35の前記特徴量の階層から得られる前記第1の特徴量を、前記サブモデル45の出力側となる次の前記特徴量の階層から得られる前記第2の特徴量に融合する。
【0060】
このため、特徴量の所定の階層から得られる第1の特徴量を、出力側となる次の特徴量の階層から得られる第2の特徴量に反映することができる。このため、第2の物体検出部22による物体検出において、融合特徴量に基づく物体検出を適切に行うことができる。
【0061】
実施形態に係る物体認識システム1は、メインセンサ7とサブセンサ8とを含む複数のセンサ5と、上記の物体認識装置10と、を備える。
【0062】
このため、第1の物体検出部21による学習を維持可能な構成となることから、サブセンサ8による学習を行えばよいため、学習に要する情報量を削減し、学習コストの低減を図るシステムとすることができる。
【0063】
また、前記メインセンサ7と前記サブセンサ8とは、異なる種類となっている。
【0064】
このため、種類の異なる複数のセンサ5を用いることで、様々なシーンにおける物体検出を行うことができる。
【0065】
実施形態に係る物体認識装置10の学習方法は、上記の物体認識装置10によって実行される物体認識装置10の学習方法であって、前記物体認識装置10の学習には、前記物体検出部13から出力される教師となる出力情報である教師情報と、前記教師情報に対応する前記第1のセンサ情報と、前記教師情報に対応する前記第2のセンサ情報と、を含む学習データセットDが用いられ、前記第1のセンサ情報と前記教師情報とを用いて、前記第1の物体検出部21において前記メインモデル35を学習し、学習後の前記メインモデル35を用いて、前記第1のセンサ情報から物体検出を実行して、出力結果をターゲット情報として取得し、前記第1のセンサ情報と前記ターゲット情報とを用いて、前記第1の物体検出部21において前記メインモデル35を学習すると共に、前記第2のセンサ情報と前記教師情報とを用いて、前記第2の物体検出部22において前記サブモデル45を学習する。
【0066】
また、実施形態に係る物体認識装置10の学習プログラムは、上記の物体認識装置10によって実行される物体認識装置10の学習プログラムであって、前記物体認識装置10の学習には、前記物体検出部13から出力される教師となる出力情報である教師情報と、前記教師情報に対応する前記第1のセンサ情報と、前記教師情報に対応する前記第2のセンサ情報と、を含む学習データセットDが用いられ、前記物体認識装置10に、前記第1のセンサ情報と前記教師情報とを用いて、前記第1の物体検出部21において前記メインモデル35を学習させ、学習後の前記メインモデル35を用いて、前記第1のセンサ情報から物体検出を実行して、出力結果をターゲット情報として取得させ、前記第1のセンサ情報と前記ターゲット情報とを用いて、前記第1の物体検出部21において前記メインモデル35を学習させると共に、前記第2のセンサ情報と前記教師情報とを用いて、前記第2の物体検出部22において前記サブモデル45を学習させる。
【0067】
このため、第1の物体検出部21の学習の忘却を抑制し、第1の物体検出部21の学習結果を用いて第2の物体検出部22の学習を実行することができる。このため、サブセンサ8の構成を変更する場合であっても、第1の物体検出部21による学習を維持することができ、サブセンサ8による学習を行えばよいため、学習に要する情報量を削減し、学習コストの低減を図ることができる。
【0068】
また、前記サブモデル45の学習では、前記メインモデル35を用いて前記ターゲット情報から得られる前記第1の特徴量を抽出し、前記サブモデル45を用いて前記第2のセンサ情報から得られる戦記第2の特徴量を抽出し、前記特徴量融合部24において、抽出した前記第1の特徴量と前記第2の特徴量とを融合して、前記融合特徴量を算出し、算出した前記融合特徴量に基づく前記サブモデル45の学習を実行する。
【0069】
このため、サブモデル45の学習を、融合特徴量に基づいて実行することができる。このため、第2の物体検出部22による物体検出において、融合特徴量に基づく物体検出を適切に行うことができる。
【0070】
また、前記サブモデル45の学習では、前記メインモデル35の学習において、前記第1のセンサ情報と前記ターゲット情報との差分が小さくなり、前記サブモデル45の学習において、前記第2のセンサ情報と前記教師情報との差分が小さくなるように学習を実行する。
【0071】
このため、メインモデル35における学習の忘却を適切に抑制することができ、サブモデル45における学習の精度を向上させることができる。
【0072】
また、前記教師情報は、グラウンドトゥルース(GT:Ground Truth)である。
【0073】
このため、精度の高い教師情報を用いて、メインモデル35及びサブモデル45の学習を実行することができる。
【0074】
また、前記学習データセットDは、前記メインモデル35の学習で用いられる前記第1のセンサ情報と前記教師情報とが、物体検出において統計的に頻度の多い場面に関する情報となっており、前記サブモデル45の学習で用いられる前記第2のセンサ情報と前記教師情報とが、前記メインモデル35に比して、物体検出において統計的に頻度の少ない場面に関する情報となっている。
【0075】
このため、統計的に頻度の多い場面に適した物体検出を、主にメインモデル35を用いて行うことができ、統計的に頻度の少ない場面に適した物体検出を、メインモデル35及びサブモデル45を用いて行うことができる。
【0076】
実施形態に係る物体認識装置10の物体認識方法は、上記の物体認識装置10によって実行される物体認識装置10の物体認識方法であって、複数の前記センサ5から前記センサ情報を取得し、前記第1の物体検出部21において、前記メインセンサ7から取得した前記第1のセンサ情報から、前記メインモデル35を用いて物体検出を実行して出力結果を出力し、前記第2の物体検出部22において、前記サブセンサ8から取得した前記第2のセンサ情報から、前記サブモデル45を用いて物体検出を実行して出力結果を出力し、前記第1の物体検出部21による出力結果と、前記第2の物体検出部22による出力結果とを統合し、統合結果を出力情報として出力する。
【0077】
また、実施形態に係る物体認識装置10の物体認識プログラムP2は、上記の物体認識装置10によって実行される物体認識装置10の物体認識プログラムP2であって、前記物体認識装置10に、複数の前記センサ5から前記センサ情報を取得させ、前記第1の物体検出部21において、前記メインセンサ7から取得した前記第1のセンサ情報から、前記メインモデル35を用いて物体検出を実行して出力結果を出力させ、前記第2の物体検出部22において、前記サブセンサ8から取得した前記第2のセンサ情報から、前記サブモデル45を用いて物体検出を実行して出力結果を出力させ、前記第1の物体検出部21による出力結果と、前記第2の物体検出部22による出力結果とを統合し、統合結果を出力情報として出力させる。
【0078】
このため、複数のセンサ5を用いて物体検出を行う場合であっても、第1の物体検出部21による第1の特徴量に基づく物体検出を行うことができ、第2の物体検出部22による融合特徴量に基づく物体検出を行うことができる。そして、第1の物体検出部21の出力結果と、第2の物体検出部22の出力結果とを統合部23により統合して、出力情報として出力することができる。このため、特徴量の融合と、出力結果の統合とによって、ロバスト性(堅牢性)を向上させることができ、物体検出を精度よく行うことができる。
【符号の説明】
【0079】
1 物体認識システム
5 センサ
7 メインセンサ
8 サブセンサ
10 物体認識装置
11 制御部
12 記憶部
13 物体検出部
21 第1の物体検出部
22 第2の物体検出部
23 統合部
24 特徴量融合部
31 第1のエンコーダ
32 第1のデコーダ
35 メインモデル
41 第2のエンコーダ
42 第2のデコーダ
45 サブモデル
P1 学習プログラム
P2 物体認識プログラム
D 学習データセット
図1
図2
図3
図4
図5
図6
図7