(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6802756
(24)【登録日】2020年12月1日
(45)【発行日】2020年12月16日
(54)【発明の名称】認識システム、共通特徴量抽出ユニット、及び認識システム構成方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20201207BHJP
G06N 3/04 20060101ALI20201207BHJP
G06N 3/08 20060101ALI20201207BHJP
【FI】
G06T7/00 350C
G06N3/04 154
G06N3/08
【請求項の数】11
【全頁数】14
(21)【出願番号】特願2017-98641(P2017-98641)
(22)【出願日】2017年5月18日
(65)【公開番号】特開2018-195097(P2018-195097A)
(43)【公開日】2018年12月6日
【審査請求日】2019年8月28日
(73)【特許権者】
【識別番号】502324066
【氏名又は名称】株式会社デンソーアイティーラボラトリ
(74)【代理人】
【識別番号】100115808
【弁理士】
【氏名又は名称】加藤 真司
(74)【代理人】
【識別番号】100113549
【弁理士】
【氏名又は名称】鈴木 守
(74)【代理人】
【識別番号】230121430
【弁護士】
【氏名又は名称】安井 友章
(72)【発明者】
【氏名】佐藤 育郎
(72)【発明者】
【氏名】安倍 満
(72)【発明者】
【氏名】土井 浩史
【審査官】
千葉 久博
(56)【参考文献】
【文献】
特開2017−59207(JP,A)
【文献】
特開2016−139176(JP,A)
【文献】
特開2015−176169(JP,A)
【文献】
特開2000−57349(JP,A)
【文献】
宇都宮誉博, 外4名,“重みの2のべき乗近似を用いたCNNのFPGA実装に関する一検討”,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2017年 5月15日,第117巻, 第46号,p.25-30
【文献】
神谷龍司, 外5名,“Binarized−DCNNによる識別計算の高速化とモデル圧縮”,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2016年12月 8日,第116巻, 第366号,p.47-52
【文献】
安倍満,“SPADE:識別辞書の三値分解と二値特徴量による高速物体認識”,SSII2014 第20回画像センシングシンポジウム 講演論文集,日本,画像センシング技術研究会,2014年 6月11日,p.(IS1-17-1)-(IS1-17-6)
【文献】
Xi Li, 外7名,"DeepSaliency: Multi-Task Deep Neural Network Model for Salient Object Detection",IEEE Transactions on Image Processing,米国,IEEE,2016年 6月 9日,第25巻, 第8号,p.3919-3930
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 3/04
G06N 3/08
(57)【特許請求の範囲】
【請求項1】
センシングを行ってセンサ値を出力するセンシングユニットと、
前記センサ値に基づく第1認識タスクを行う第1認識処理部と、前記センサ値に基づく第2認識タスクを行う第2認識処理部とを含むタスク特化ユニットと、
前記センシングユニットと前記タスク特化ユニットとの間に配置され、前記センサ値を入力として、前記第1認識処理部及び前記第2認識処理部に共通に入力される共通特徴量を抽出するための共通のニューラルネットワークが構成された共通特徴量抽出ユニットと、
を備えた認識システムを構成する認識システム構成方法であって、
前記第1認識タスクを行う学習済みの認識器の入力及び出力のデータ、及び前記第2認識タスクを行う学習済みの認識器の入力及び出力のデータを学習データセットとして用いて前記共通のニューラルネットワークを学習する、認識システム構成方法。
【請求項2】
前記認識器として、複数の認識器の認識結果を統合して前記出力を得るアンサンブル認識器を用いる、請求項1に記載の認識システム構成方法。
【請求項3】
前記共通特徴量抽出ユニットは、前記タスク特化ユニットとは別体の半導体チップに構成する、請求項1又は2に記載の認識システム構成方法。
【請求項4】
前記共通特徴量抽出ユニットにおける前記共通のニューラルネットワークは、前記半導体チップにおいてハードウェアで構成する、請求項3に記載の認識システム構成方法。
【請求項5】
前記共通特徴量抽出ユニットは、前記共通のニューラルネットワークの各層の入力を整数基底に分解する離散器を備えた、請求項1ないし4のいずれかに記載の認識システム構成方法。
【請求項6】
前記共通のニューラルネットワークは、整数の重みをもつ、請求項1ないし4のいずれかに記載の認識システム構成方法。
【請求項7】
前記共通特徴量抽出ユニットは、前記共通のニューラルネットワークの各層の入力を整数基底に分解する離散器を備え、
前記共通のニューラルネットワークは、
二値又は三値に離散化された重みを保持し、
内部の演算の一部ないし全部を論理演算で処理し、
前記論理演算の結果を非線形活性化関数により変換し、
前記変換の結果を次の層に渡す、請求項1ないし4のいずれかに記載の認識システム構成方法。
【請求項8】
前記第1認識処理部は、前記共通特徴量抽出ユニットから出力された特徴量を入力とし、前記認識処理の結果を出力とする前記第1認識タスク用のニューラルネットワークを含み、
前記第1認識タスクを行う学習済みの認識器の入力及び出力のデータを学習データセットとして用いて前記第1認識タスク用のニューラルネットワークを学習する、請求項1に記載の認識システム構成方法。
【請求項9】
前記認識器として、複数の認識器の認識結果を統合して前記出力を得るアンサンブル認識器を用いる、請求項8に記載の認識システム構成方法。
【請求項10】
前記第1認識処理部は、前記共通特徴量抽出ユニットから出力された特徴量を入力とし、前記認識処理の結果を出力とする前記第1認識タスク用のニューラルネットワークを含み、
前記共通のニューラルネットワークへの入力と前記第1認識タスク用のニューラルネットワークの出力との関係が、前記第1認識タスクを行う学習済みの認識器の入力と出力との関係をよりよく近似し、かつ、前記共通のニューラルネットワークへの入力と前記第2認識タスク用のニューラルネットワークの出力との関係が、前記第2認識タスクを行う学習済みの認識器の入力と出力との関係をよりよく近似するように、前記共通のニューラルネットワークの構造を変更する工程を含む、請求項1に記載の認識システム構成方法。
【請求項11】
前記第1認識処理部は、前記共通特徴量抽出ユニットから出力された特徴量を入力とし、前記認識処理の結果を出力とする前記第1認識タスク用のニューラルネットワークを含み、
前記共通のニューラルネットワークへの入力と前記第1認識タスク用のニューラルネットワークの出力との関係が、前記第1認識タスクを行う学習済みの認識器の入力と出力との関係をよりよく近似するように、前記第1認識タスク用のニューラルネットワークの構造を変更する工程を含む、請求項1に記載の認識システム構成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、センサ値に基づいて認識処理を行う認識システム及びそれに用いる共通特徴量抽出ユニット、並びに認識システム構成方法に関する。
【背景技術】
【0002】
センサ値に基づいて認識処理を行う認識システムとして、ニューラルネットワーク等の機械学習モデルを用いてセンサ値から特徴量を取得して認識を行う認識システムが知られている(例えば、特許文献1)。このような認識システムは、例えば、車両の自動運転、運転支援等の車両運転制御に応用される。
【0003】
車両運転制御では、例えば、カメラの画像やミリ波レーダの検出値等がセンサ値として取得され、これらをニューラルネットワーク等の機械学習モデルに入力することで、標識の識別、歩行者検知、白線検知等の結果が得られ、車両はこれらの認識結果(即ち、機械学習モデルの出力)に基づいて制御される。車両の制御としては、標識識別結果に基づく速度制限、歩行者検知結果に基づく自動緊急ブレーキ、白線検知結果に基づくレーンキーピング等がある。
【0004】
例えば、これらの標識識別、歩行者検知、白線検知は、いずれもカメラによる撮影で得られた画像(撮影画像)に対して認識処理を行う。撮影画像を標識識別のために構成され学習されたニューラルネットワークに入力することで、標識の識別結果が得られ、また、撮影画像を歩行者検知のために構成され学習されたニューラルネットワークに入力することで、歩行者検知結果が得られ、撮影画像を白線検知のために構成され学習されたニューラルネットワークに入力することで、白線検知結果が得られる。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Iasonas Kokkinos、“UberNet : Training a ‘Universal’ Convolutional Neural Network for Low-, Mid-, and High-Level Vision using Diverse Datasets and Limited Memory”、arXiv:1609.02132v1 [cs.CV]、 7 Sep 2016
【非特許文献2】田向権、関根優年、「ニューラルネットワークのハードウェア実装とそのシステム化へのアプローチ」、日本神経回路学会誌、Vol.20、No.4(2013)、p.166-173
【非特許文献3】田中愛久、黒柳喫、岩田彰、「FPGAのためのニューラルネットワークのハードウェア化手法」、電子情報通信学会技術研究報告. NC、ニューロコンピューティング100(688)、p.175-182、2001-03-16、一般社団法人電子情報通信学会
【非特許文献4】秋山泰、「ニューラルネットワークのハードウェア」、オペレーションズ・リサーチ、1992年7月号、p.342-346
【発明の概要】
【発明が解決しようとする課題】
【0006】
精度の高いニューラルネットワークを得るためには、大量の学習データが必要であり、また、用意された大量の学習データを学習するのに長い演算時間が必要である。従来、これらのニューラルネットワークを認識タスク(標識識別、歩行者検知、白線検知等)ごとに複数用意しなければならなかったため、開発コスト(費用コスト、時間コスト、作業負担コストを含む)が大きく、認識システムの更新をするための更新コストも大きかった。
【0007】
特に、自動運転や運転支援をする車両のように多くの認識タスクを実行して車両の制御値を得るシステムでは、例えば同じ撮影画像が複数の認識タスクに利用されており、各認識タスクにおいて、撮影画像に対して同様の特徴量抽出の演算が行われていたが、認識タスクごとに独立したニューラルネットワークが用意されていた。
【0008】
本発明は、センサ値を入力としてニューラルネットワークを用いて認識を行う認識システムにおいて、開発コストを低減することを目的とする。
【課題を解決するための手段】
【0009】
本発明の一態様の認識システムは、センシングを行ってセンサ値を出力するセンシングユニットと、前記センサ値に基づく第1認識タスクを行う第1認識処理部、及び前記センサ値に基づく第2認識タスクを行う第2認識処理部を含むタスク特化ユニットとと、前記センシングユニットと前記タスク特化ユニットとの間に配置され、前記センサ値を入力として、前記第1認識処理部及び前記第2認識処理部に共通に入力される共通特徴量を抽出するための共通のニューラルネットワークが構成された共通特徴量抽出ユニットとを備えた構成を有する。
【0010】
この構成により、第1認識タスクと第2認識タスクに共通に用いられる特徴量の抽出を共通のニューラルネットワークを用いて行うことができるので、開発コストを低減できる。
【0011】
前記共通特徴量抽出ユニットは、前記制御値取得ユニットとは別体の半導体チップに構成されていてよい。
【0012】
この構成により、共通特徴量抽出ユニットと制御値取得ユニットとを別々に開発することができ、開発管理のコストを低減できる。
【0013】
前記共通特徴量抽出ユニットにおける前記共通のニューラルネットワークは、前記半導体チップにおいてハードウェアで構成されていてよい。
【0014】
この構成により、共通特徴量抽出ユニットにおける特徴量の抽出を低消費電力、低発熱量、高速で行うことができる。なお、共通のニューラルネットワークをハードウェアで構成する場合には、当該共通のニューラルネットワークを更新する際のコストは高くなるが、タスク特化ユニットの各部をソフトウェアで実装し、制御値取得ユニットの各部を更新することで、コストを抑えて認識システムを更新できる。
【0015】
前記第1認識処理部は、前記共通特徴量抽出ユニットから出力された特徴量を入力とし、前記認識処理の結果を出力とする前記第1認識タスク用のニューラルネットワークを含んで構成されていてよい。
【0016】
この構成により、共通のニューラルネットワークと第1認識タスク用のニューラルネットワークとを直列に用いることでセンサ値から第1認識タスクの認識結果を得ることができる。
【0017】
前記センシングユニットは、センサ値を得るセンサと、センサ値に対して前処理を行う前処理部とを備えていてよい。
【0018】
この構成により、前処理部において、共通のニューラルネットワークに入力するのに適したセンサ値を得ることができる。
【0019】
前記共通特徴量抽出ユニットは、前記共通のニューラルネットワークの各層の入力を整数基底に分解する離散器を備えていてよい。
【0020】
この構成により、共通特徴量の抽出を高速に行うことができる。
【0021】
前記共通のニューラルネットワークは、整数の重みをもっていてよい。
【0022】
この構成によっても、共通特徴量の抽出を高速に行うことができる。
【0023】
前記共通特徴量抽出ユニットは、前記共通のニューラルネットワークの各層の入力を整数基底に分解する離散器を備えていてよく、前記共通のニューラルネットワークは、二値又は三値に離散化された重みを保持し、内部の演算の一部ないし全部を論理演算で処理し、前記論理演算の結果を非線形活性化関数により変換し、前記変換の結果を次の層に渡す構成であってよい。
【0024】
この構成によっても、共通特徴量の抽出を高速に行うことができる。
【0025】
前記共通特徴抽出ユニットは、通信モジュールを備えていてよく、あるいは、通信モジュールに接続されていてよく、前記通信モジュールで受信した情報に基づいて、前記共通のニューラルネットワークの重みを更新してよい。
【0026】
この構成により、共通特徴量抽出ユニットの共通のニューラルネットワークの重みを通信によって遠隔で更新することができる。
【0027】
本発明の一態様の共通特徴量抽出ユニットは、センシングを行ってセンサ値を出力するセンシングユニットと、前記センサ値に基づく第1認識タスクを行う第1認識処理部、及び前記センサ値に基づく第2認識タスクを行う第2認識処理部を含むタスク特化ユニットとの間に配置され、前記センサ値を入力として、前記第1認識処理部及び前記第2認識処理部で共通に用いられる共通特徴量を抽出するための共通のニューラルネットワークが構成された構成を有する。
【0028】
この構成により、第1認識タスクと第2認識タスクに用いる共通の特徴量の計算を共通のニューラルネットワークを用いて行うことができるので、同じ認識タスクを実行できかつタスク間で共通の特徴を使用しない構成と比較して、システム全体として演算器の規模を小規模化でき、開発コストを低減できる。
【0029】
本発明の一態様の認識システム構成方法は、上記の認識システムを構成する認識システム構成方法であって、前記第1認識タスクを行う学習済みの認識器の入力及び出力のデータ、及び前記第2認識タスクを行う学習済みの認識器の入力及び出力のデータを学習データセットとして用いて前記共通のニューラルネットワークを学習する構成を有する。
【0030】
共通のニューラルネットワーク学習(具体的には重みパラメタを決定)するためには、大量の学習データセットが必要となる。本認識システムでは、特徴量抽出の少なくとも一部を共通特徴量抽出ユニットで担い、第1認識タスク及び第2認識タスクのそれぞれの認識結果の出力はタスク特化ユニットで行うため、共通のニューラルネットワークを学習するために、第1認識タスク用の学習データセットと第2認識タスク用の学習データセットが必要になる。認識タスクの種類によっては学習データセットを用意することが困難であるところ、上記の構成によれば、前記第1認識タスクを行う学習済みの認識器の入力及び出力のデータ、及び前記第2認識タスクを行う学習済みの認識器の入力及び出力のデータを学習データセットとして用い、そのような学習済みの認識器は容易に入手できるので、結果として、共通のニューラルネットワークを学習するための学習データセットを容易に得られることになる。このように、第1認識タスク用の学習データセットと第2認識タスク用の学習データセットとを用いることで、それぞれの認識タスクについて共通のニューラルネットワークを含むend−to−endの学習が可能となり、共通のニューラルネットワークを第1認識タスク及び第2認識タスクのいずれにも適合するように学習させることができる。
【0031】
前記認識器として、複数の認識器の認識結果を統合して前記出力を得るアンサンブル認識器を用いてよい。
【0032】
これにより、より精度の高い学習データセットが得られる。
【0033】
本発明の一態様の認識システム構成方法は、上記の認識システムを構成する認識システム構成方法であって、前記第1認識タスクを行う学習済みの認識器の入力及び出力のデータを学習データセットとして用いて前記第1認識タスク用のニューラルネットワークを学習してよい。
【0034】
この構成によれば、第1認識タスク用のニューラルネットワークの学習データセットを容易に得られる。
【0035】
前記認識器として、複数の認識器の認識結果を統合して前記出力を得るアンサンブル認識器を用いいてよい。
【0036】
この構成によれば、より精度の高い学習データセットが得られる。
【0037】
本発明の一態様の認識システム構成方法は、上記の認識システムを構成する認識システム構成方法であって、前記共通のニューラルネットワークへの入力と前記第1認識タスク用のニューラルネットワークの出力との関係が、前記第1認識タスクを行う学習済みの認識器の入力と出力との関係をよりよく近似し、かつ、前記共通のニューラルネットワークへの入力と前記第2認識タスク用のニューラルネットワークの出力との関係が、前記第2認識タスクを行う学習済みの認識器の入力と出力との関係をよりよく近似するように、前記共通のニューラルネットワークの構造を変更する工程を含む構成を有している。
【0038】
この構成によれば、既存の学習済みの認識器を近似するように、共通のニューラルネットワーク構造が変更される。
【0039】
本発明の一態様の認識システム構成方法は、上記の認識システムを構成する認識システム構成方法であって、前記共通のニューラルネットワークへの入力と前記第1認識タスク用のニューラルネットワークの出力との関係が、前記第1認識タスクを行う学習済みの認識器の入力と出力との関係をよりよく近似するように、前記第1認識タスク用のニューラルネットワークの構造を変更する工程を含む構成を有している。
【0040】
この構成によれば、既存の学習済みの認識器を近似するように、第1認識タスク用のニューラルネットワーク構造が変更される。
【発明の効果】
【0041】
本発明によれば、第1認識タスクと第2認識タスクに共通に用いられる特徴量の抽出を共通のニューラルネットワークを用いて行うことができるので、開発コストを低減できる。
【図面の簡単な説明】
【0042】
【
図1】実施の形態の認識システムの構成を示すブロック図
【
図2】実施の形態の特徴量抽出部のハードウェア回路を示すブロック図
【
図3】実施の形態の認識システムの構成方法を説明する図
【発明を実施するための形態】
【0043】
以下、本発明の実施の形態の認識システムについて、図面を参照して説明する。本実施の形態の認識システムは、車両に搭載されて、車両を制御するための認識処理を行う。この認識処理の結果は、車両を制御するための制御値を取得に用いられる。この制御値を用いた制御によって、車両は自動運転又は各種の運転支援を行うことができる。
【0044】
図1は、実施の形態の認識システムの構成を示すブロック図である。認識システム100は、センサプロセッシングユニット(Sensor Processing Unit:SPU)10と、共通特徴量抽出ユニット(Generic-feature Extraction Unit:GEU)20と、タスク特化ユニット(Task-Specific Units:TSU)30を備えている。
【0045】
SPU10は、センシングを行ってセンサ値を得るセンサ11と、センサ11で得られたセンサ値に対して前処理を行って特徴量抽出部21の入力に適した形式にエンコードする前処理部12とを備えている。前処理部12は、前処理として、センサ周期を他のプロセッサの周期と合わせる処理や、時系列のセンサ値から統計量や特徴量を抽出する処理や、データ量を削減する処理を行ってよい。
【0046】
本実施の形態では、センサ11は単眼カメラであって、センサ値として二次元配列された受光量のデータからなる撮影画像データを取得する。また、前処理部12は撮影画像データをMPEG形式に変換し、複数フレームの撮影画像データをバッファリングして時系列に並べることで時系列の撮影画像データを生成する。単眼カメラ11は、車両の前方を撮影するように、車両に設置される。
【0047】
GEU20は、SPU10で得られたセンサ値から特徴量を抽出する特徴量抽出部21を備えている。GEU20は、SPU10及びTSU30とは別体の半導体チップとして構成されている。特徴量抽出部21は、ニューラルネットワークで構成される。このニューラルネットワークはハードウェア回路を用いて構成される。ニューラルネットワークのハードウェア実装については、種々の手法が提案されている(例えば、非特許文献2〜4参照)。
【0048】
特徴量抽出部21は、ニューラルネットワークの出力として特徴量を出力し、これをTSU30の物体検知部31及び意味領域分割部32に出力する。このように、特徴量抽出部21が出力する特徴量は物体検知部31及び意味領域分割部32で共通に用いられるため、この特徴量を本明細書では共通特徴量ともいい、特徴量抽出部21に実装されているニューラルネットワークを共通のニューラルネットワークともいう。
【0049】
図2は、特徴量抽出部21のハードウェア回路を示すブロック図である。
図2に示すように、特徴量抽出部21は、離散器211と、入力層212と、線形結合層213と、出力層214と、重み記憶部215とを備えている。重み記憶部215には、共通のニューラルネットワークの各層における重みベクトルwi(i=1〜N)が記憶されている。ここで、Nは共通のニューラルネットワークの層の深さ(階層数)に相当する。
【0050】
SPU10からのセンサ値はまず離散器211に入力される。離散器211では、センサ値が整数基底に分解されて離散化することで、入力層212が得られる。入力層212に対して重み記憶部214の重みベクトルwiを用いた線形変換が行われ、重み付け和として中間層212が得られる。中間層212は非線形活性化関数(シグモイド関数等)に入力されて、非線形活性化が行われ、出力層213が得られる。出力層213として得られるベクトルの成分は非線形活性化によって浮動小数点数として得られる。この出力層213は入力層211に戻って、再び離散器211で整数基底に分解される。これをi=1からi=NまでN回(N層)繰り返して、最後に得られた出力層が共通特徴量として特徴量抽出部21から出力される。
【0051】
重み記憶部215において、重みベクトルwiは、整数のベクトルであり、好ましくはベクトルの要素は二値(例えば、0,1)又は三値(例えば、−1,0,1)に離散化されている。また、上述のように、離散器211は入力される値を整数基底に分解する。このように、共通のニューラルネットワークで扱う特徴量のビット数を小さくすることで(例えば8ビット)、演算負荷を小さくできることに加えて、共通のニューラルネットワークをハードウェア回路で構成することで、特徴量抽出部21における共通特徴量の抽出を高速にできるだけでなく、特徴量抽出部21における消費電力量を低く抑え、発熱量も抑えることができる。特に、重みベクトルwiを二値又は三値のベクトルとすることで、特徴量抽出部21における演算の一部ないし全部を論理演算で処理でき、より演算負荷の軽減、演算の高速化、低消費電力化、低発熱量化のメリットを享受できる。
【0052】
図示は省略するが、GEU20は、通信モジュールを含み、あるいは、通信モジュールに接続されていてよい。この場合に、通信モジュールは無線通信を行うものであってよい。上記のように、特徴量抽出部21はハードウェア回路で構成されており、それによって構成される共通のニューラルネットワークの構造を変更することはできないが、重み記憶部215に記憶された重みベクトルを更新することは可能である。例えば、TSU30に、共通特徴量を利用する新たなタスクが加えられる更新がされた場合に、これに合わせて共通のニューラルネットワークの重みも更新することができる。
【0053】
TSU30は、本実施の形態では、複数の認識処理部として、物体検知部31と意味領域分割部32とを備えている。各認識処理部における認識処理(本実施の形態では、物体検知と意味領域分割)を本明細書では「特定認識タスク」という。TSU30の複数の認識処理部(本実施の形態では、物体検知部31及び意味領域分割部32)におけるそれぞれの特定認識タスクは互いに異なるものであるが、物体検知部31及び意味領域分割部32は、いずれもGEU20で抽出された共通特徴量を入力とするニューラルネットワークで構成されている。
【0054】
物体検知部31として実装されているニューラルネットワークは、物体検知の結果を出力とするものであり、本明細書ではこれを物体検知用のニューラルネットワークという。また、意味領域分割部32として実装されているニューラルネットワークは、意味領域分割の結果を出力とするものであり、本明細書ではこれを意味領域分割用のニューラルネットワークという。
【0055】
特徴量抽出部21の共通のニューラルネットワークと物体検知部31の物体検知用のニューラルネットワークが直列につながることで、センサ値(撮影画像データ)から物体検知結果を得るニューラルネットワークが構成される。また、特徴量抽出部21の共通のニューラルネットワークと意味領域分割部32の意味領域分割用のニューラルネットワークが直列につながることで、センサ値(撮影画像データ)から意味領域分割結果を得るニューラルネットワークが構成される。
【0056】
物体検知部31は、人物(歩行者)及び車両を検出し、認識結果として、撮影画像データに対して、人物(歩行者)を囲う矩形枠と、車両を囲う矩形枠を出力する。人物を囲う矩形枠のデータには人物を示すラベルが付与されており、車両を囲う矩形枠のデータには車両を示すラベルが付与されている。意味領域分割部32は、セマンティックセグメンテーションによって撮影画像データを被写体の意味(種類)ごとの領域毎に分けて、認識結果として、被写体の意味ごとに分けられた領域の情報を出力する。各領域には、被写体の意味を示すラベルが付与されている。
【0057】
TSU30は、汎用のプロセッサで構成されており、物体検知部31の物体検知用のニューラルネットワーク及び意味領域分割部32の意味領域分割用のニューラルネットワークはソフトウェアによって構成される。このように、特定認識タスク(本実施の形態では、物体検知タスクと意味領域分割タスク)に特化した部分である各認識処理部を汎用プロセッサを用いてソフトウェアによって実現することで、各タスクのためのよりよい新たなニューラルネットワークが得られた場合には、このソフトウェアを更新することで、当該よりよい新たなニューラルネットワークを低コストで採用できる。
【0058】
即ち、上述のように、共通特徴量を得るための特徴量抽出部21は、ハードウェア回路で構成されているので、出荷後にニューラルネットワーク構造を変更するはできないが、各特定認識タスクに特化した処理を行う各認識処理部はソフトウェアで構成されているので低コストで更新できる。
【0059】
図示は省略するが、TSU30は、通信モジュールを含み、あるいは、通信モジュールに接続されていてよい。この場合に、通信モジュールは無線通信を行うものであってよい。物体検知部31の物体検知用のニューラルネットワーク、及び意味領域分割部32の意味領域分割用のニューラルネットワークは、それぞれ通信モジュールを介して受信したデータによって、更新され、又は差し替えられてよい。
【0060】
物体検知部31及び意味領域分割部32で得られたそれぞれの認識結果は、アクティブクルーズコントロール(Active Clues Control:ACC)の判断処理を行うACC判断処理部41に入力される。また、物体検知部31及び意味領域分割部32で得られたそれぞれの認識結果は、自動緊急ブレーキ(Autonomous Emergency Braking:AEB)の判断処理を行うAEB判断処理部42にも入力される。
【0061】
ACC判断処理部41は、物体検知の結果と意味領域分割の結果に基づいて車両の制御方針を判断し、車両を制御するための制御値を取得する。また、AEB判断処理部42は、物体検知の結果と意味領域分割の結果に基づいて車両の制御方針を判断し、車両を制御するための制御値を取得する。なお、ACC判断処理部41にて判断された車両の制御方針と、AEB判断処理部42にて判断された車両の制御方針とを総合的に判断して、最終的な車両制御のための制御値を取得する総合判断部がさらに設けられてもよい。
【0062】
上述のように、物体検知タスクにおける認識結果は、ACC判断処理部41における判断(ACC判断)とAEB判断処理部42における判断(AEB判断)とに用いられるので、物体検知部31の物体検出用のニューラルネットワークにおいては、ACC判断用の重みとAEB判断用の重みとを用意して、両者を切り替えることで、ACC判断用の認識結果とAEB判断用の認識結果を取得し、それぞれ対応する判断処理部に出力するようにしてもよい。
【0063】
意味領域分割部32についても同様に、意味領域分割用のニューラルネットワークにおいて、ACC判断用の重みとAEB判断用の重みとを用意して、両者を切り替えることで、ACC判断用の認識結果とAEB判断用の認識結果を取得し、それぞれ対応する判断処理部に出力するようにしてもよい。
【0064】
これらの場合には、同一のセンサ値に対してACC判断用の重みとAEB判断用の重みとをそれぞれ適用してACC判断用の認識結果とAEB判断用の認識結果を取得するように重みの切り替えを行ってよく、あるいは、例えば新たなセンサ値が得られるごとに重みの切り替えを行ってもよい。また、複数種類の重みの切り替えは、午前/午後のような時間帯に従って行ってもよく、認識システム100が用いられる国または地域に応じて行ってもよい。
【0065】
次に、認識システム100の構成方法を説明する。
図3は、認識システム100の構成方法を説明する図であり、特に、共通のニューラルネットワーク及び各特定認識タスク用のニューラルネットワーク(本実施の形態では、物体検知用のニューラルネットワーク及び意味領域分割用のニューラルネットワーク)の学習について説明する図である。
【0066】
本実施の形態の認識システム100の特定認識タスク(物体検知及び意味領域分割)では、撮影画像データに対してあらかじめ用意された認識結果候補に分類する認識処理を行うため、教師あり学習をする必要がある。
【0067】
一般に、ニューラルネットワークの教師あり学習では、入力データと当該入力データに対する真値(即ち、理想的な出力データ)とからなる学習データセットを用意する必要がある。学習の際には、学習すべきニューラルネットワークに入力データを入力して得られた出力データと真値との誤差を求めて、誤差を逆伝搬することでニューラルネットワークの重みをチューニングする誤差逆伝搬法が用いられる。
【0068】
本実施の形態の認識システム100においても原則的には上記のように学習を行う。通常、真値は人手によるラベリングを必要とする。例えば、人物検知であれば、作業者が画像を見て、人物(歩行者)が映っている箇所を枠で囲う作業が必要であり、意味領域分割(セマンティックセグメンテーション)では、画像上のあらゆる物体の輪郭をなぞる必要がある。このような作業を例えば数万ないし数十万の学習用画像データに対して行わなければならない。このように、教師あり学習のための学習データセットを用意する作業コストは極めて大きい。
【0069】
また、本実施の形態では、上述のように、共通のニューラルネットワークが複数の特定認識タスクに共有されるので、それぞれの特定認識タスクの学習データセットを用いて共通のニューラルネットワークを学習する必要がある。仮に、複数の特定認識タスクのうちの一部の特定認識タスクの学習データセットしか用意されていない場合には、誤差逆伝搬法によって共通のニューラルネットワークは当該特定認識タスクの精度を向上するように学習されるが、学習データセットが用意されていない特定認識タスクの精度は向上せず、精度が低下することもあり得る。よって、本実施の形態の認識システム100には、複数の特定認識タスクのすべてについて入力値とそれに対する真値との多数の組み合わせからなる学習データセットが必要となる。
【0070】
そこで、本実施の形態では、特定認識タスクごとに、学習済みの認識器に入力データを入力することによって出力データを得て、それらの入力データと出力データとを学習データセットとして用いて学習を行う。このために、特定認識タスクごとに学習済みの認識器を用意する。本実施の形態では、物体検知タスクのための学習済みの認識器と、意味領域分割タスクのための学習済みの認識器とを用意する。これらの認識器は、既存のものであればよく、ニューラルネットワークによるもののほか、例えばSVM(Support Vector Machine)で認識をするものであってもよい。
【0071】
このように、学習済みの認識器を用いることで、大量の入力データ(画像データ)を用意しさえすれば、それらに対して人手によるラベリングを行わなくても、出力データが得られ、そのような入力データと出力データの組を学習データセットとして学習を行うことができる。また、共通のニューラルネットワークを共有する複数の特定認識タスクのすべてについてそのような学習データセットを用意することも容易となる。このことは、本実施の形態の共通のニューラルネットワークと特定認識タスク用のニューラルネットワークとが直列に接続された認識システム100を当該学習済みの認識器の精度に近づけることを意味している。
【0072】
図3に示すように、本実施の形態では、複数の物体検知用の学習用画像と、複数の意味領域分割用の学習用画像とを用意する。なお、物体検知用の学習用と意味領域分割用の学習用とで同じ学習用画像を用いてもよい。
【0073】
学習すべき特徴量抽出部21は、物体検知用の学習画像から共通特徴量を抽出し、これを学習すべき物体検知部31に入力する。この一方で、学習済み物体検知器51も同じ物体検知用の学習用画像から認識結果(これを真値とみなす)を得る。物体検知学習装置61は、学習済み物体検知器51の出力(認識結果)と、物体検知部31の出力(認識結果)とを比較して、学習済み物体検知器51の出力に対する物体検知部31の出力の誤差を求める。物体検知学習装置61は、この誤差に基づいて、誤差逆伝搬法によって物体検知用のニューラルネットワークを学習する。
【0074】
同様に、学習すべき特徴量抽出部21は、意味領域分割用の学習画像から共通特徴量を抽出し、これを学習すべき意味領域分割部32に入力する。この一方で、学習済み意味領域分割器52も同じ意味領域分割用の学習用画像から認識結果(これを真値とみなす)を得る。意味領域分割学習装置62は、学習済み意味領域分割器52の出力(認識結果)と、意味領域分割部32の出力(認識結果)とを比較して、学習済み意味領域分割器52の出力に対する意味領域分割部32の出力の誤差を求める。意味領域分割学習装置62は、この誤差に基づいて、誤差逆伝搬法によって意味領域分割用のニューラルネットワークを学習する。
【0075】
GEU学習装置71は、学習済み物体検知器51の出力に対する物体検知部31の出力の誤差、及び学習済み意味領域分割器52の出力に対する意味領域分割部32の出力の誤差のいずれも特徴量抽出部21にも伝搬させることで、共通のニューラルネットワークを学習する。
【0076】
このように、学習済みの認識器(本実施の形態では、学習済み物体検知器51及び学習済み意味領域分割器52)は、それらの出力を真値とみなして、学習データセットを用意するため、これらの学習済み認識器の認識精度は高いことが望ましい。そこで、これらの学習済み認識器に、複数の認識器の認識結果を統合して(例えば、平均を取る、最大値を取る、投票を取る等)、より精度の高い認識結果を得るアンサンブル認識器を採用してもよい。
【0077】
なお、このように機械的に得られた学習データセットに加えて、人がラベリングすることで用意された学習データセットを用いてもよい。
【0078】
また、用意された学習データセットによる重みベクトルのチューニングによっても精度が上がらない場合には、共通のニューラルネットワークや各特定認識タスク用のニューラルネットワークの構造を変更する。この場合には、構造変更後の認識システム100において、入力データに対して得られる認識結果が、学習済みの認識器の入出力関係をよりよく近似できるようにニューラルネットワークの構造を変更する。
【0079】
具体的には、各特定認識タスクの精度が何れもよくない場合には、共通のニューラルネットワークの構造を変更し、一部の特定認識タスクの精度がよく、他の特定認識タスクの精度がよくない場合には、当該精度がよくない特定認識タスク用のニューラルネットワークの構成を変更する。
【0080】
以上のように、本実施の形態の認識システム100によれば、各特定認識タスクを実行するために、特徴量を抽出する処理を行う特徴量抽出部21と、各特定認識タスクに特化した処理を行って認識結果を得る認識処理部(物体検知器31及び意味領域分割部32)とを分けて構成し、特徴量抽出部21では、各特定認識タスクで共通に用いられる共通特徴量を抽出する構成としたので、認識システム100を開発する際には、特徴量抽出部21における共通のニューラルネットワークの開発と、各特定認識タスク用のニューラルネットワークの開発とを分けて、それぞれ並行して進めることができるという開発管理上のメリットが得られる。また、特徴量抽出部21の共通のニューラルネットワークは、複数種類の特定認識タスクに共有されるため、開発コストを抑えることができる。
【0081】
また、特徴量抽出部21が構成されたGEU20を、SPU10やTSU30とは別体の専用チップで構成し、をハードウェア回路で構成したので、認識タスクの中でも特に演算量の多い特徴量の計算をハードウェア化でき、これによって、消費電力量や発熱量を低く抑えることとができるとともに、高速な特徴量計算も可能となる。なお、共通のニューラルネットワークをハードウェア化することで、頻繁な変更ないし更新はコスト面で不利になるが、TSU30における各認識処理部を汎用プロセッサを用いてソフトウェアで構成することで、頻繁な変更ないし更新に対応できる。
【0082】
また、共通のニューラルネットワークと各特定認識タスク用のニューラルネットワークとが直列に接続されているで、誤差逆伝搬法等の既存のニューラルネットワークの学習方法を用いたend−to−endの学習によって、各ニューラルネットワークの学習を行うことができる。
【0083】
なお、上記の実施の形態では、センサ11として、単眼カメラを用いたが、他のセンサのセンサ値に基づく認識処理にも上記と同様の構成を採用できる。他のセンサとしては、例えば、GPS信号を受信してセンサ値として位置情報を出力するGPS受信機、2視点の撮影を行って、センサ値としてステレオ画像を出力するステレオカメラ、ミリ波帯の電波を照射してその反射光をセンシングすることで、センサ値として物体までの距離を出力するミリ波レーダ、レーザを照射してその反射光をセンシングすることで、センサ値として物体の立体形状を出力するレーザスキャナ、超音波を発信して反射してきた超音波を受信することで、センサ値として物体までの距離を出力する超音波センサ、センサ値として角速度を出力するジャイロセンサ、センサ値として気温を出力する温度センサ、センサ値として速度を出力するする速度センサ、センサ値として雨滴の量を出力する雨滴センサ等を採用できる。
【0084】
また、車両に複数種類のセンサが設けられる場合には、SPU10がセンサごとに構成され、GEU20には、各SPU10にそれぞれ対応する複数の特徴量抽出部21が構成されていてもよい。さらには、GEU20において、複数種類のセンサからの複数のセンサ値からそれぞれ抽出された特徴量を合成して、それをさらにニューラルネットワークに入力することで、共通特徴量を得てもよい。
【0085】
また、上記で各認識処理部について説明した重みの切り替えは、GEU20における特徴量抽出部21においても同様にして行ってよい。
【0086】
また、SPU10の前処理部12は、ニューラルネットワークを用いてセンサ値をエンコードしてもよい。
【0087】
なお、上記の実施の形態の認識システム100では、同一のセンサ値(撮影画像データ)から抽出された共通特徴量を用いて、特定認識タスクとして、物体検知タスクと意味領域分割タスクという2つの認識タスクを行ったが、同一のセンサ値から抽出された共通特特徴量が3つ以上の認識タスクにおいて共有されるものであってもよい。
【産業上の利用可能性】
【0088】
本発明は、センサ値に基づいて認識処理を行う認識システム等として有用である。
【符号の説明】
【0089】
10 センサプロセッシングユニット(Sensor Processing Unit:SPU)
11 センサ
12 前処理部
20 共通特徴量抽出ユニット(Generic-feature Extraction Unit:GEU)
21 特徴量抽出部
30 タスク特化ユニット(Task-Specific Units:TSU)
31 物体検知部
32 意味領域分割部
41 ACC判断処理部
42 AEB判断処理部
51 学習済み物体検知器
52 学習済み意味領域分割器
61 物体検知学習装置
62 意味領域分割学習装置
71 GEU学習装置
100 認識システム