特許7131612 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ オムロン株式会社の特許一覧

特許7131612物体認識装置、物体認識システム、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8A
8B
8C
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-08-29

(45)【発行日】2022-09-06

(54)【発明の名称】物体認識装置、物体認識システム、及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20220830BHJP

G06V 10/82 20220101ALI20220830BHJP

G06V 20/64 20220101ALI20220830BHJP

【ＦＩ】

G06T7/00 C

G06T7/00 350C

G06V10/82

G06V20/64

【請求項の数】 8

(21)【出願番号】P 2020528688

(86)(22)【出願日】2019-03-12

(86)【国際出願番号】 JP2019009990

(87)【国際公開番号】W WO2020008684

(87)【国際公開日】2020-01-09

【審査請求日】2020-12-17

(31)【優先権主張番号】P 2018127743

(32)【優先日】2018-07-04

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】000002945

【氏名又は名称】オムロン株式会社

(74)【代理人】

【識別番号】100101454

【弁理士】

【氏名又は名称】山田卓二

(74)【代理人】

【識別番号】100189555

【弁理士】

【氏名又は名称】徳山英浩

(74)【代理人】

【識別番号】100091524

【弁理士】

【氏名又は名称】和田充夫

(72)【発明者】

【氏名】柳川由紀子

【審査官】村松貴士

(56)【参考文献】

【文献】特開２００４－０９４８２５（ＪＰ，Ａ）

【文献】特開２０１４－１２００２６（ＪＰ，Ａ）

【文献】特開２００２－２８８６８７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｖ１０／００－２０／９０

(57)【特許請求の範囲】

【請求項1】

物体の一部の外形に沿った三次元位置を含む三次元情報を入力する入力部と、
前記三次元情報に基づいて前記物体を認識する演算処理部と、
を備え、
前記演算処理部は、
前記三次元情報に基づいて、前記三次元位置によって表される立体を直交３軸方向の各々から見た３つの二次元図面であって、赤色の二次元図面、緑色の二次元図面、及び青色の二次元図面を含む三面図である複数の二次元情報を生成し、
前記三面図の各画素の画素値に基づいて合成図の各画素の画素値を決定するように、前記複数の二次元情報を合成して前記合成図を生成し、
前記合成図に基づいて前記物体を認識する、
物体認識装置。

【請求項2】

前記演算処理部は、生成した前記複数の二次元情報に基づき畳み込みニューラルネットワークによる画像処理を実行して、前記物体を認識する、
請求項１に記載の物体認識装置。

【請求項3】

前記三次元情報は、基準点から前記物体の少なくとも一部の外形までの距離を示す距離画像である、
請求項１又は請求項２に記載の物体認識装置。

【請求項4】

前記演算処理部は、前記三次元情報に基づいて、前記立体を表すボクセルの集合体を生成する、
請求項１から請求項３のいずれか一つに記載の物体認識装置。

【請求項5】

前記演算処理部は、複数のボクセルに分割可能な三次元空間を定義し、前記三次元位置を前記三次元空間に対応付けて、前記複数のボクセルのうち前記物体が占有しているボクセルによって前記立体を表す、
請求項４に記載の物体認識装置。

【請求項6】

前記複数の二次元情報は、各々の基準位置から前記立体までの距離に応じた画素値を有する、
請求項１から請求項５のいずれか一つに記載の物体認識装置。

【請求項7】

物体までの距離を計測して前記三次元情報を生成するセンサと、
請求項１から請求項６のいずれか一つに記載の前記物体認識装置と、
を含む、物体認識システム。

【請求項8】

物体の一部の外形に沿った三次元位置を含む三次元情報を入力するステップと、
前記三次元情報に基づいて、前記三次元位置によって表される立体を直交３軸方向の各々から見た３つの二次元図面であって、赤色の二次元図面、緑色の二次元図面、及び青色の二次元図面を含む三面図である複数の二次元情報を生成するステップと、
前記三面図の各画素の画素値に基づいて合成図の各画素の画素値を決定するように、前記複数の二次元情報を合成して前記合成図を生成するステップと、
前記合成図に基づいて前記物体を認識するステップと、
をコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、物体を認識する物体認識装置、物体認識システム、及びプログラムに関する。

【背景技術】

【0002】

非特許文献１は、ＶｏｘＮｅｔを開示している。ＶｏｘＮｅｔは、三次元畳み込みニューラルネットワーク（３ＤＣＮＮ）を使用した画像処理によって物体を認識する手法である。具体的には、ＶｏｘＮｅｔは、ＬｉＤＡＲ及びＲＧＢＤセンサ等から得られる三次元点群データを、所定サイズの三次元空間に写像して三次元情報を生成し、その三次元情報を三次元畳み込みニューラルネットワークに入力して物体を認識する手法である。

【先行技術文献】

【非特許文献】

【0003】

【文献】Daniel Maturana, Sebastian Scherer, "VoxNet: A 3D Convolutional Neural Network for Real-Time Object Recognition", インターネット＜ＵＲＬ：https://www.ri.cmu.edu/pub_files/2015/9/voxnet_maturana_scherer_iros15.pdf＞

【発明の概要】

【発明が解決しようとする課題】

【0004】

非特許文献１のような三次元畳み込みニューラルネットワークによる画像処理では、データ量が多く且つ大きなネットワークが必要であった。そのため、画像処理の処理負荷が大きく、物体認識の処理速度が遅かった。

【0005】

本開示の目的は、画像処理の処理負荷を低減して、物体認識の処理速度を向上させる、物体認識装置、物体認識システム、及びプログラムを提供することにある。

【課題を解決するための手段】

【0006】

本開示に係る物体認識装置は、物体の少なくとも一部の外形に沿った三次元位置を含む三次元情報を入力する入力部と、三次元情報に基づいて物体を認識する演算処理部と、を備え、演算処理部は、三次元情報に基づいて、三次元位置によって表される立体を複数の方向から見た二次元図面を示す複数の二次元情報を生成し、複数の二次元情報に基づいて物体を認識する。

【0007】

本開示に係る物体認識システムは、物体までの距離を計測して三次元情報を生成するセンサと、上記物体認識装置と、を含む。

【0008】

本開示に係るプログラムは、物体の少なくとも一部の外形に沿った三次元位置を含む三次元情報を入力するステップと、三次元情報に基づいて、三次元位置によって表される立体を複数の方向から見た二次元図面を示す複数の二次元情報を生成するステップと、複数の二次元情報に基づいて物体を認識するステップと、をコンピュータに実行させる。

【発明の効果】

【0009】

本開示に係る物体認識装置、物体認識システム、及びプログラムによると、物体の少なくとも一部の外形に沿った三次元位置によって表される立体を複数の方向から見た二次元図面を示す複数の二次元情報に基づいて物体を認識するため、画像処理の処理負荷が低減する。よって、物体認識の処理速度が向上する。

【図面の簡単な説明】

【0010】

【図1】本開示に係る物体認識システムの適用例を説明するための図

【図2】実施形態１，２に係る物体認識システムの構成を例示するブロック図

【図3】実施形態１，２に係る距離センサによる測距を説明するための図

【図4】実施形態１に係る物体認識装置による物体認識処理の一例を示すフローチャート

【図5】実施形態１に係る距離画像と検出される認識対象領域の一例を示す図

【図6】実施形態１，２に係る三次元空間を説明するための図

【図7】実施形態１に係る占有グリッドを説明するための図

【図8A】図７の占有領域内のボクセルの平面図の一例を示す図

【図8B】図７の占有領域内のボクセルの正面図の一例を示す図

【図8C】図７の占有領域内のボクセルの側面図の一例を示す図

【図9】図８Ａ～図８Ｃの三面図に基づく合成図の生成を説明するための図

【図10】実施形態１，２に係る畳み込みニューラルネットワークによる画像処理を説明するための図

【図11】実施形態１に係る畳み込みニューラルネットワークの学習処理の一例を示すフローチャート

【図12】三面図とＶｏｘＮｅｔの要素数の比較を説明するための図

【図13】実施形態２に係る物体認識装置による物体認識処理の一例を示すフローチャート

【図14】実施形態２に係る占有グリッドを説明するための図

【図15】図１４の占有領域内のボクセルの六面図を示す図

【発明を実施するための形態】

【0011】

以下、添付の図面を参照して本開示に係る物体認識システムの実施の形態を説明する。なお、以下の各実施形態において、同様の構成要素については同一の符号を付している。

【0012】

（適用例）
本開示に係る物体認識システムが適用可能な一例について、図１を用いて説明する。図１は、本開示に係る物体認識システム１の適用例を説明するための図である。

【0013】

本開示に係る物体認識システム１は、例えば、車載用途に適用可能である。図１に示す例において、物体認識システム１は車両３に搭載される。車両３は、例えば、自動運転車であり、自動運転を行うための車両駆動装置２を備える。物体認識システム１は、例えば、車両３の進行方向にある物体４を認識する。物体４は、例えば、車、バス、バイク、自転車、歩行者、電柱、縁石、ガードレールである。

【0014】

物体認識システム１は、車両３の進行方向に向けて光を投光し、物体４によって反射された反射光を受光する。物体認識システム１は、投光から受光までの時間差に基づいて、物体認識システム１から物体４までの距離を計測する。物体認識システム１は、計測した距離に基づいて、物体４の外形に沿った三次元位置を含むセンシングデータを生成する。

【0015】

物体認識システム１は、センシングデータに基づいて、三次元位置によって表される立体を複数の方向から見た二次元図面を示す複数の二次元情報を生成する。物体認識システム１は、複数の方向から見た二次元図面に基づいて物体を認識する。物体認識システム１は、例えば、物体４までの距離、方位、及び認識結果などを示す物体情報を車両駆動装置２に出力する。

【0016】

車両駆動装置２は、例えば、物体認識システム１から出力される物体情報に基づいて、道路上の物体４を回避して進行方向を設定して、車両３を駆動する操舵機構を含む。物体認識システム１によって物体４を認識することによって、車両駆動装置２は、物体４を回避しながら自動運転を行うことができる。

【0017】

（構成例）
以下、物体認識システム１の構成例としての実施形態を説明する。

【0018】

（実施形態１）
実施形態１に係る物体認識システム１の構成と動作を以下に説明する。

【0019】

１．構成
本実施形態に係る物体認識システム１の構成について、図２及び図３を用いて説明する。図２は、物体認識システム１の構成を例示するブロック図である。図３は、距離センサ１００による測距を説明するための図である。

【0020】

物体認識システム１は、距離センサ１００と物体認識装置２００とを含む。

【0021】

１．１距離センサの構成
距離センサ１００は、投光部１１、受光部１２、走査部１３、センサ制御部１４、及び入出力インタフェース部１５を含む。距離センサ１００は、例えば、ＬＩＤＡＲ（Light Detection and Ranging、あるいは、Laser Imaging Detection and Ranging）装置である。

【0022】

投光部１１は、光を外部に投光する。具体的には、投光部１１は、センサ制御部１４の制御に従って、光の光束を外部に出射する。投光部１１は、例えば、１つ以上の光源素子で構成された光源と、光源をパルス駆動する光源駆動回路とを含む。光源素子は、例えば、レーザ光を発光する半導体レーザ（ＬＤ）である。光源素子は、ＬＥＤ等であってもよい。光源素子は、例えば、図３に示す垂直方向Ｙにおいて一列のアレイ状に配置され、投光部１１は投光領域Ｒ１１に向けて光を投光する。

【0023】

受光部１２は、外部から光を受光する。受光部１２は、複数の受光素子を備える。受光素子は、光を受光すると、受光量に応じた受光信号を生成する。複数の受光素子は、例えば、垂直方向Ｙに沿って一列のアレイ状に配置される。各受光素子は、例えば距離画像の１画素に対応し、１画素の垂直画角に応じた範囲から入射する光を別々に受光する。受光素子は、例えばＳＰＡＤ（単一光子アバランシェフォトダイオード）で構成される。受光素子は、ＰＤ（フォトダイオード）又はＡＰＤ（アバランシェフォトダイオード）で構成されてもよい。

【0024】

走査部１３は、例えば、ミラーと、垂直方向Ｙに沿った回転軸の周りにミラーを回転させる回転機構と、回転機構を駆動する走査駆動回路と、を含む。走査駆動回路は、センサ制御部１４の制御により、ミラーを回転駆動する。これにより、走査部１３は、投光する方向を一定時間ごとに少しずつ変化させて、光が進行する光路を少しずつ移動させる。例えば、図３に示すように、走査部１３は、投光領域Ｒ１１を水平方向Ｘにおいてシフトさせる。

【0025】

センサ制御部１４は、半導体素子などで実現可能である。センサ制御部１４は、例えば、マイコン、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＤＳＰ、ＦＰＧＡ、ＡＳＩＣで構成することができる。センサ制御部１４の機能は、ハードウェアのみで構成してもよいし、ハードウェアとソフトウェアとを組み合わせることにより実現してもよい。センサ制御部１４は、距離センサ１００内の記憶部に格納されたデータやプログラムを読み出して種々の演算処理を行うことで、所定の機能を実現する。

【0026】

センサ制御部１４は、投光部１１による投光のタイミングを制御する。センサ制御部１４は、投光のタイミングと受光部１２から得られる受光信号とに基づいて、投光してからの経過時間に応じた受光量を示す受光波形のデータを画素毎に生成する。センサ制御部１４は、受光波形に基づいて画素毎に距離を算出する。例えば、センサ制御部１４は、投光部１１から投光された光が反射されて受光部１２によって受光されるまでの光の飛行時間を受光波形に基づいて計測する。センサ制御部１４は、計測した飛行時間に基づいて、基準点５から光を反射した物体の外形までの距離を算出する。基準点５は、例えば、投光部１１の光の出射口である。センサ制御部１４は、画素毎に測定した距離に基づいて、距離画像を生成する。

【0027】

センサ制御部１４は、距離画像の画角に対応した投影面Ｒ１０を、水平方向Ｘに走査しながら測距を行い、距離画像を生成する。距離画像の分解能すなわち画素毎の画角は、例えば、水平方向Ｘにおいて１．０度～１．６度であり、垂直方向Ｙにおいて０．３度～１．２度である。投影面Ｒ１０の走査を繰り返すことにより、所望のフレームレートで距離画像を順次、生成することができる。センサ制御部１４は、例えば、生成した距離画像をセンシングデータとして、入出力インタフェース部１５を介して、物体認識装置２００に出力する。

【0028】

入出力インタフェース部１５は、所定の通信規格に準拠して外部機器との通信を行う回路を含む。所定の通信規格は、例えば、ＬＡＮ、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＵＳＢ、及びＨＤＭＩ（登録商標）を含む。

【0029】

１．２物体認識装置の構成
物体認識装置２００は、例えばＰＣや種々の情報端末などの情報処理装置である。物体認識装置２００は、入出力インタフェース部２１、演算処理部２２、及び記憶部２３を備える。

【0030】

入出力インタフェース部２１は、例えば、機器インタフェースとネットワークインタフェースを含む。機器インタフェースは、物体認識装置２００に、距離センサ１００等の外部機器を接続するための回路（モジュール）である。機器インタフェースは、所定の通信規格にしたがい通信を行う取得部の一例である。所定の規格には、ＵＳＢ、ＨＤＭＩ（登録商標）、ＩＥＥＥ１３９５、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）等が含まれる。ネットワークインタフェースは、無線または有線の通信回線を介して物体認識装置２００を通信ネットワークに接続するための回路（モジュール）である。ネットワークインタフェースは所定の通信規格に準拠した通信を行う取得部の一例である。所定の通信規格には、ＩＥＥＥ８０２．３，ＩＥＥＥ８０２．１１ａ／１１ｂ／１１ｇ／１１ａｃ等の通信規格が含まれる。入出力インタフェース部２１は、物体の少なくとも一部の外形に沿った三次元位置を含む三次元情報を入力する入力部の一例である。

【0031】

演算処理部２２は、ソフトウェアと協働して所定の機能を実現するＣＰＵやＧＰＵを含み、物体認識装置２００の全体動作を制御する。演算処理部２２は、記憶部２３に格納されたデータやプログラムを読み出して種々の演算処理を行い、各種の機能を実現する。演算処理部２２の機能は、ハードウェアのみで構成してもよいし、ハードウェアとソフトウェアとを組み合わせることにより実現してもよい。演算処理部２２は、後述する畳み込みニューラルネットワークを構築するプログラムを実行する。プログラムは、記憶部２３に格納されている。畳み込みニューラルネットワークを構築するプログラムは、各種の通信ネットワークから提供されてもよいし、又は可搬性を有する記録媒体に格納されていてもよい。

【0032】

演算処理部２２は、所定の機能を実現するように設計された専用の電子回路や再構成可能な電子回路などのハードウェア回路であってもよい。演算処理部２２は、ＣＰＵ、ＧＰＵの他に、ＭＰＵ、ＧＰＧＰＵ、ＴＰＵ、マイコン、ＤＳＰ、ＦＰＧＡ、ＡＳＩＣ等の種々の半導体集積回路で構成されてもよい。

【0033】

演算処理部２２は、機能的構成として、領域検出部２２ａ、占有グリッド生成部２２ｂ、２Ｄ図面生成部２２ｃ、及び物体認識部２２ｄを含む。領域検出部２２ａは、距離画像において１つの物体が存在する領域を、物体の認識対象領域として検出する。占有グリッド生成部２２ｂは、検出された認識対象領域内の物体をボクセルの集合体によって表した占有グリッドを示す占有グリッドデータを生成する。２Ｄ図面生成部２２ｃは、占有グリッドデータに基づいて、ボクセル集合体の二次元図面を生成する。本実施形態においては、２Ｄ図面生成部２２ｃは、三面図を生成する。三面図は、複数の二次元情報の一例である。物体認識部２２ｄは、三面図に基づき畳み込みニューラルネットワークによる画像処理を実行して、物体の種別を認識する。

【0034】

記憶部２３は、所定の機能を実現するために必要なパラメータ、データ及び制御プログラム等を格納する。例えば、記憶部２３は、畳み込みニューラルネットワークのためのプログラム、学習中及び学習済みのパラメータなどを格納する。記憶部２３は、例えば、ハードディスク（ＨＤＤ）、ＳＳＤ、ＲＡＭ、ＤＲＡＭ、ＳＲＡＭ、強誘電体メモリ、フラッシュメモリ、磁気ディスク、又はこれらの組み合わせによって実現できる。記憶部２３は、各種情報を一時的に記憶してもよい。記憶部２３は、例えば、演算処理部２２の作業エリアとして機能するように構成されてもよい。

【0035】

物体認識装置２００は、ユーザが操作を行うユーザインタフェースである操作部を備えてもよい。操作部は、例えば、キーボード、タッチパッド、タッチパネル、ボタン、スイッチ、及びこれらの組み合わせで構成される。物体認識装置２００は、液晶ディスプレイや有機ＥＬディスプレイで構成される表示部を備えてもよい。物体認識装置２００は、音声を出力するスピーカを備えてもよい。

【0036】

２．動作
２．１物体認識処理
以上のように構成される物体認識システム１の物体認識処理に関する動作について、図４～図１０を参照して説明する。

【0037】

図４は、物体認識装置２００の演算処理部２２の動作を例示するフローチャートである。

【0038】

領域検出部２２ａは、距離センサ１００が生成したセンシングデータを、入出力インタフェース部２１を介して取得する（Ｓ１０１）。本実施形態において、センシングデータは、基準点５から物体の外形までの距離を示す距離画像である。図５に、距離画像３０の一例を示している。距離画像３０は、水平方向Ｘ及び垂直方向Ｙに並んだ画素毎に、奥行き方向Ｚの距離を示す。すなわち、距離画像３０において、各画素は、奥行き方向Ｚの距離を示す画素値を有する。距離画像３０において、例えば、奥行き方向Ｚの距離は各画素の色によって識別される。一例では、距離が近いほど赤色になり（例えば、画素値がＲＧＢ＝（２５５，０，０）に近づき）、距離が遠いほど青色になる（例えば、画素値がＲＧＢ＝（０，０，２５５）に近づく）。距離画像３０は、物体の少なくとも一部の外形に沿った三次元位置を含む三次元情報の一例である。

【0039】

領域検出部２２ａは、センシングデータに基づいて、１つの物体が存在する領域を認識対象領域として検出する（Ｓ１０２）。認識対象領域の検出は、公知の技術を用いて行うことができる。例えば、領域検出部２２ａは、距離画像３０において、各画素の画素値と周囲８画素の画素値との差が所定の閾値以下の場合に同一の物体である判断して、認識対象領域３５を検出する。

【0040】

占有グリッド生成部２２ｂは、所定サイズの三次元空間を定義する（Ｓ１０３）。図６は、三次元空間４０を模式的に示している。占有グリッド生成部２２ｂは、例えば、仮想的な座標系（ｘ，ｙ，ｚ）において３２×３２×３２個のボクセル４１で構成される立方体の三次元空間４０を定義する。

【0041】

占有グリッド生成部２２ｂは、検出した認識対象領域３５と定義した三次元空間４０とに基づいて、占有グリッドを示す占有グリッドデータを生成する（Ｓ１０４）。図７は、占有グリッド４５の一例を模式的に示している。占有グリッド４５は、三次元空間４０内において占有領域４６と非占有領域４７とが区別された、ボクセル４１の集合体である。占有領域４６は物体が存在する領域を示し、非占有領域４７は物体が存在しない領域を示す。占有グリッド生成部２２ｂは、例えば、距離画像３０における座標系を座標変換して、認識対象領域３５内の各画素を三次元空間４０のボクセル４１に対応付ける。占有グリッド生成部２２ｂは、認識対象領域３５内の距離値を示す各画素が三次元空間４０のいずれのボクセル４１に対応するかを判断して、各ボクセル４１にフラグを付与することによって、占有グリッド４５を示す占有グリッドデータを生成する。フラグは、例えば、物体であるか否かを示す二値である。占有領域４６内のボクセル４１で構成される立体が、物体の少なくとも一部分に相当する。

【0042】

２Ｄ図面生成部２２ｃは、占有領域４６内のボクセル４１で構成される立体の三面図を生成する（Ｓ１０５）。例えば、２Ｄ図面生成部２２ｃは、図７において、占有領域４６内のボクセル４１を方向Ａ，Ｂ，Ｃから見た二次元図面を生成する。図８Ａは、方向Ａから見た平面図５０Ａである。図８Ｂは、方向Ｂから見た正面図５０Ｂである。図８Ｃは、方向Ｃから見た側面図５０Ｃである。平面図５０Ａ、正面図５０Ｂ、及び側面図５０Ｃをまとめて三面図５０Ａ，５０Ｂ，５０Ｃとも称する。２Ｄ図面生成部２２ｃは、図７に示す方向Ａ，Ｂ，Ｃにおいて、三次元空間４０の立方体を構成する平面４４ａ，４４ｂ，４４ｃから、占有領域４６内の各ボクセルまでの距離に応じた画素値を有する三面図５０Ａ，５０Ｂ，５０Ｃを生成する。図８Ａ～図８Ｃの例では、距離が近いほど淡い色になり（例えば、画素値が２５５に近づき）、距離が遠いほど濃い色になる（例えば、画素値が０に近づく）。なお、距離が近いほど濃い色になり、距離が遠いほど淡い色になるようにしてもよい。図８Ａ～図８Ｃにおいて、物体が存在しない画素については白色で表しているが、黒色で表してもよい。また、三面図５０Ａ，５０Ｂ，５０Ｃは、例えば、ＲＧＢのいずれかで表される画素値を有する。一例では、平面図５０Ａは赤色、正面図５０Ｂは緑色、側面図５０Ｃは青色である。

【0043】

２Ｄ図面生成部２２ｃは、三面図５０Ａ，５０Ｂ，５０Ｃを合成して１つの合成図を生成する（Ｓ１０６）。図９に、三面図５０Ａ，５０Ｂ，５０Ｃから生成される合成図５０Ｄの一例を示している。２Ｄ図面生成部２２ｃは、合成図５０の各画素の画素値を、三面図５０Ａ，５０Ｂ，５０Ｃの各画素の画素値に基づいて決定する。よって、例えば、合成図５０において、距離が近いほど淡い色になり、距離が遠いほど濃い色になる。また、合成図５０の各画素の色は、平面図５０Ａ、正面図５０Ｂ、及び側面図５０Ｃの赤色、緑色、及び青色に基づく色となる。

【0044】

物体認識部２２ｄは、合成図５０Ｄを学習済みの畳み込みニューラルネットワークに入力して、物体の種別を認識する（Ｓ１０７）。図１０は、畳み込みニューラルネットワーク６０による画像処理を説明するための図である。畳み込みニューラルネットワーク６０は、予め、車、バス、歩行者、電柱、縁石などの物体を示す合成図を使用して、物体を認識するように学習されたものである。畳み込みニューラルネットワーク６０の学習方法については後述する。学習済みの畳み込みニューラルネットワーク６０を構築するプログラム及びパラメータは、例えば、記憶部２３に格納されている。物体認識部２２ｄは、畳み込みニューラルネットワーク６０を使用した画像処理を実行することによって、合成図５０Ｄから、車、バス、歩行者、電柱、縁石、ガードレール等である確率を算出する。畳み込みニューラルネットワーク６０は、例えば、入力側から出力側へ順番に、畳み込み層Ｌ１，Ｌ２、全結合層Ｌ３，Ｌ４、及び出力層Ｌ５を含む。図１０の例では、畳み込み層Ｌ１，Ｌ２及び全結合層Ｌ３，Ｌ４の数はそれぞれ２層であるが、層の数は２層に限定しない。また、畳み込み層Ｌ１，Ｌ２の後段にプーリング層があってもよい。

【0045】

一層目の畳み込み層Ｌ１に、合成図５０Ｄが入力される。各畳み込み層Ｌ１，Ｌ２では、それぞれのフィルタを用いた畳み込み演算が行われる。畳み込み層Ｌ１，Ｌ２のフィルタは、重み付け係数の二次元配列で規定される。出力層Ｌ５からは物体の認識結果が出力される。例えば、物体が、車、バス、歩行者、電柱、縁石、ガードレール等である確率を示すベクトルが出力される。

【0046】

物体認識部２２ｄは、認識結果を出力する（Ｓ１０８）。例えば、物体認識部２２ｄは、出力層Ｌ５から出力される確率の中で最も確率が高い物体が、合成図５０Ｄに写っている物体であると特定し、入出力インタフェース部２１を介して、特定した物体の種別を示す物体情報を車両駆動装置２に出力する。物体認識装置２００が表示部を備える場合は、認識結果である物体の種別を表示部の画面に表示してもよい。物体認識装置２００がスピーカを備える場合は、認識結果である物体の種別をスピーカから音声で出力してもよい。

【0047】

２．２学習処理
図１１は、畳み込みニューラルネットワーク６０の学習処理を示している。例えば、演算処理部２２が、物体認識処理を実行する前に、図１１に示す学習処理を行って畳み込みニューラルネットワーク６０を学習させる。

【0048】

演算処理部２２は、学習用の三面図と三面図に対応する正解ラベルを示すデータを取得する（Ｓ２０１）。例えば、演算処理部２２は、予め、三面図と三面図に対応する正解ラベルを示す学習用データを、入出力インタフェース部２１を介して取得して、記憶部２３に格納しておく。ステップＳ２０１において、演算処理部２２は、記憶部２３から学習用データを読み出す。正解ラベルは、例えば、車、バス、歩行者、電柱、縁石、ガードレールである。

【0049】

演算処理部２２は、三面図を合成して合成図を生成する（Ｓ２０２）。演算処理部２２は、合成図を畳み込みニューラルネットワーク６０に入力して物体の種別を認識する（Ｓ２０３）。

【0050】

演算処理部２２は、認識結果と正解ラベルとに基づいて、畳み込みニューラルネットワーク６０のパラメータを調整する（Ｓ２０４）。例えば、演算処理部２２は、誤差逆伝播法に従って、畳み込み層Ｌ１，Ｌ２のフィルタの重み付け係数と全結合層Ｌ３，Ｌ４のニューロン間の重み付け係数を調整する。

【0051】

演算処理部２２は、所定回数の学習が終了したか否かを判断する（Ｓ２０５）。所定回数の学習が終了するまで、ステップＳ２０１～Ｓ２０４を繰り返す。所定回数の学習が終了すれば、図１１に示す学習処理を終了する。演算処理部２２は、学習済みの畳み込みニューラルネットワーク６０に対応するプログラム及びパラメータを、記憶部２３に格納する。

【0052】

図１１の例では、ステップＳ２０１において三面図を取得し、ステップＳ２０２において合成図を生成したが、ステップＳ２０１において合成図を取得してもよい。この場合、ステップＳ２０２は省略する。

【0053】

２．３三面図とＶｏｘＮｅｔの要素数の比較
図１２は、物体認識に使用される要素の数を比較した図であって、従来のＶｏｘＮｅｔにおける要素数（ボクセル数）と、本開示の三面図における要素数（画素数）を示している。一辺の要素が３２個の場合、ＶｏｘＮｅｔの要素数は３２×３２×３２＝３２７６８となり、三面図では３２×３２×３＝３０７２となる。よって、三面図の要素数は、ＶｏｘＮｅｔの要素数の約１／１０である。一辺の要素が６４個の場合は、ＶｏｘＮｅｔの要素数は６４×６４×６４＝２６２１４４となり、三面図では６４×６４×３＝１２２８８となる。よって、三面図の要素数は、ＶｏｘＮｅｔの要素数の約１／２０となる。一辺のボクセルが１２８個の場合は、ＶｏｘＮｅｔの要素数は２０９７１５２となり、三面図では４９１５２となる。よって、三面図の要素数は、ＶｏｘＮｅｔの要素数の約１／４０となる。このように、三面図にすることによって要素数が減少するため、三面図の画像を用いた二次元のＣＮＮによる画像処理は、三次元のＣＮＮによる画像処理よりも、処理負荷が低減する。よって、物体認識の処理速度が向上する。

【0054】

距離センサ１００による基準点５から投影面Ｒ１０への方向における距離の計測では、物体の表側（投影面Ｒ１０において基準点５がある側）しか計測できず、物体の裏側（投影面Ｒ１０において基準点５と反対側）の距離を計測することができない。すなわち、占有領域４６は、物体の全体には対応していない。よって、占有グリッド４５を三面図に変換しても、物体の距離値の情報量が大幅に低減することはなく、精度良く物体を認識することができる。

【0055】

３．まとめ
本実施形態に係る物体認識システム１は、距離センサ１００と物体認識装置２００とを含む。距離センサ１００は、物体までの距離を計測して、物体の少なくとも一部の外形に沿った三次元位置を含むセンシングデータを生成する。本実施形態に係る物体認識装置２００は、入出力インタフェース部２１と演算処理部２２とを備える。入出力インタフェース部２１は、センシングデータを入力する。演算処理部２２は、センシングデータに基づいて物体を認識する。具体的には、演算処理部２２は、センシングデータに基づいて、三次元位置によって表される立体を複数の方向から見た複数の二次元図面を生成し、複数の二次元図面に基づいて物体を認識する。

【0056】

物体認識に二次元図面を使用しているため、物体認識に使用されるデータ量が低減する。よって、画像処理の処理負荷が低減し、物体認識の処理速度が向上する。

【0057】

演算処理部２２は、生成した複数の二次元図面に基づき畳み込みニューラルネットワーク６０による画像処理を実行して、物体を認識する。二次元の畳み込みニューラルネットワークは三次元の畳み込みニューラルネットワークと比較して、ネットワークの規模を小さくすることができる。例えば、層の数及びニューロンの数等を低減することができる。

【0058】

本実施形態において、センシングデータは、基準点５から物体の外形までの距離を示す距離画像である。演算処理部２２は、距離画像に基づいて、立体を表すボクセルの集合体を生成する。具体的には、演算処理部２２は、複数のボクセルに分割可能な三次元空間４０を定義し、物体の外形に沿った三次元位置を三次元空間に対応付けて、複数のボクセルのうち物体が占有しているボクセルによって立体を表す。この立体は、占有領域４６のボクセルに相当する。

【0059】

本実施形態では、センシングデータは物体の一部の外形に沿った三次元位置を含み、複数の二次元図面は立体を直交３軸方向から見た三面図である。三面図は、各々の基準位置である平面４４ａ，４４ｂ，４４ｃから立体までの距離に応じた画素値を有する。演算処理部２２は、三面図を合成して合成図を生成し、合成図に基づいて物体を認識する。三面図は、三次元情報と略同程度の距離に関する情報量を有するため、三面図を利用した物体認識は、三次元ボクセルを利用した物体認識と同程度の精度が得られる。

【0060】

（実施形態２）
実施形態１では、物体認識装置２００は、一つの距離センサ１００による投影面Ｒ１０内の測距に基づいて生成した三面図を使用して物体認識を行った。本実施形態では、六面図を使用して物体認識を行う。六面図は、複数の二次元情報の一例である。

【0061】

図１３は、実施形態２に係る物体認識装置２００による物体認識処理の一例を示すフローチャートである。図１３のステップＳ３０２～Ｓ３０４、Ｓ３０７、及びＳ３０８は、実施形態１の図４のステップＳ１０２～Ｓ１０４、Ｓ１０７、及びＳ１０８と同一である。

【0062】

本実施形態では、領域検出部２２ａは複数のセンシングデータを、入出力インタフェース部２１を介して取得する（Ｓ３０１）。各センシングデータは物体の一部の外形に沿った三次元位置を含み、複数のセンシングデータは物体の外形全体に沿った三次元位置を含む。複数のセンシングデータは、例えば、複数の基準点５からの測距に基づいて生成された距離画像である。複数の基準点５は、例えば、対向する位置に設けられる。一例では、領域検出部２２ａは、異なる位置に配置された複数の距離センサからそれぞれセンシングデータを取得する。別の例では、領域検出部２２ａは、１つの距離センサが異なる位置で測距して生成した複数のセンシングデータを取得してもよい。

【0063】

領域検出部２２ａは、各距離画像においてそれぞれ、物体が存在する領域を認識対象領域として検出する（Ｓ３０２）。占有グリッド生成部２２ｂは、三次元空間４０を定義する（Ｓ３０３）。占有グリッド生成部２２ｂは、各認識対象領域のローカル座標をワールド座標に変換して１つの占有グリッド４５を示す占有グリッドデータを生成する（Ｓ３０４）。図１４は、実施形態２における占有グリッド４５を説明するための図である。占有グリッド４５は、実施形態１と同様に、三次元空間４０内において占有領域４６と非占有領域４７とが区別された、ボクセル４１の集合体である。

【0064】

２Ｄ図面生成部２２ｃは、占有領域４６内のボクセル４１で構成される立体の六面図を生成する（Ｓ３０５）。図１５は、図１４の矢印ａ～ｆの方向からそれぞれ占有領域４６内のボクセル４１を見た六面図を示している。具体的には、図１５の（ａ）は、図１４の矢印ａの方向から見た正面図である。図１５の（ｂ）は図１４の矢印ｂの方向から見た背面図である。図１５の（ｃ）は図１４の矢印ｃの方向から見た左側面図である。図１５の（ｄ）は図１４の矢印ｄの方向から見た右側面図である。図１５の（ｅ）は図１４の矢印ｅの方向から見た平面図（上面図）である。図１５の（ｆ）は図１４の矢印ｆの方向から見た底面図である。図１５の（ａ）～（ｆ）に示す六面図は、三次元空間４０を示す立方体の各平面から、占有領域４６の各ボクセルまでの距離に応じた画素値を有する。図１５（ａ）～（ｆ）の例では、距離が近いほど淡い色になり（例えば、画素値が２５５に近づき）、距離が遠いほど濃い色になる（例えば、画素値が０に近づく）ようにしている。しかし、距離が近いほど濃い色になり、距離が遠いほど淡い色になるようにしてもよい。図１５（ａ）～（ｆ）において、物体が存在しない画素については白色で表しているが、黒色で表してもよい。

【0065】

２Ｄ図面生成部２２ｃは、六面図を合成して一つの合成図を生成する（Ｓ３０６）。物体認識部２２ｄは、合成図を学習済みの畳み込みニューラルネットワーク６０に入力して、物体の種別を認識する（Ｓ３０７）。物体認識部２２ｄは、認識結果を出力する（Ｓ３０８）。

【0066】

以上のように、本実施形態では、複数のセンシングデータは物体の外形全体に沿った三次元位置を含む。物体認識装置２００は、占有領域４６内のボクセルで構成される立体を直交３軸の正負方向からそれぞれ見た六面図を生成する。物体認識装置２００は、六面図を使用して物体を認識する。これにより、物体の外形全体に基づく物体認識を行うことができる。よって、精度良く物体を認識することができる。

【0067】

（他の実施形態）
上記実施形態では、センシングデータが距離画像であって、物体認識装置２００は、距離画像に基づいて占有グリッド４５を生成する例について説明した。しかし、センシングデータは、距離画像に限らない。センシングデータは、物体の少なくとも一部の外形に沿った三次元位置を含めばよい。例えば、センシングデータは、距離センサ１００が計測した物体の外形までの距離を示す三次元点群情報であってもよい。このような三次元点群情報は、例えば、ｘ座標、ｙ座標、及びｚ座標を含む。

【0068】

上記実施形態では、２Ｄ図面生成部２２ｃは、占有領域４６内のボクセル４１で構成される立体の三面図又は六面図を生成したが、生成する二次元図面の数は２つ以上であればよい。

【0069】

上記実施形態では、物体認識装置２００の演算処理部２２が、図１１に示す学習処理を行う例について説明したが、畳み込みニューラルネットワーク６０の学習処理は、物体認識装置２００とは別の装置が行ってもよい。例えば、コンピュータクラスタ或いはクラウドコンピューティングなどによって、畳み込みニューラルネットワーク６０が構築されてもよい。

【0070】

上記実施形態では、距離センサ１００と物体認識装置２００が車両３に搭載される例について説明したが、車両３に限らず、自走ロボット又はＡＧＶ（Automated Guided Vehicle）等に搭載されてもよい。また、物体認識装置２００は、車両３等に搭載されなくてもよい。本開示に係る物体認識装置２００は、種々の情報処理装置であってもよい。例えば、物体認識装置２００は、ＡＳＰサーバなどの一つ又は複数のサーバ装置であってもよい。例えば、物体認識装置２００は、通信ネットワークを介して、距離センサ１００からセンシングデータを取得して、畳み込みニューラルネットワーク６０による画像処理を実行してもよい。また、物体認識装置２００は、物体の認識結果を示す情報を、通信ネットワークを介して、車両駆動装置２に送信してもよい。

【0071】

上記実施形態では、距離センサ１００と物体認識装置２００は別個の機器であったが、距離センサ１００と物体認識装置２００は一つの機器であってもよい。例えば、物体認識装置２００は距離センサ１００の内部に設けられて、距離センサ１００が物体認識装置２００と同一の機能を備えてもよい。

【0072】

上記実施形態では、物体認識部２２ｄが物体の種別を認識する例について説明したが、認識の動作は、物体の種別を識別することに限らない。認識とは、対象物の特徴量を抽出することを含む。例えば、対象物が車の場合、物体認識部２２ｄが行う認識は、車の特徴量として「直方体」及び「車輪」を抽出することを含む。

【0073】

（付記）
以上のように、本開示の各種実施形態について説明したが、本開示は上記の内容に限定されるものではなく、技術的思想が実質的に同一の範囲内で種々の変更を行うことができる。以下、本開示に係る各種態様を付記する。

【0074】

本開示に係る第１の態様の物体認識装置は、物体の少なくとも一部の外形に沿った三次元位置を含む三次元情報を入力する入力部（２１）と、前記三次元情報に基づいて前記物体を認識する演算処理部（２２）と、を備え、前記演算処理部（２２）は、前記三次元情報に基づいて、前記三次元位置によって表される立体を複数の方向から見た二次元図面を示す複数の二次元情報を生成し、前記複数の二次元情報に基づいて前記物体を認識する。

【0075】

第２の態様では、第１の態様の物体認識装置において、前記演算処理部は、生成した前記複数の二次元情報に基づき畳み込みニューラルネットワークによる画像処理を実行して、前記物体を認識する。

【0076】

第３の態様では、第１の態様又は第２の態様の物体認識装置において、前記三次元情報は、基準点から前記物体の少なくとも一部の外形までの距離を示す距離画像である。

【0077】

第４の態様では、第１の態様から第３の態様のいずれかの物体認識装置において、前記演算処理部は、前記三次元情報に基づいて、前記立体を表すボクセルの集合体を生成する。

【0078】

第５の態様では、第４の態様の物体認識装置において、前記演算処理部は、複数のボクセルに分割可能な三次元空間を定義し、前記三次元位置を前記三次元空間に対応付けて、前記複数のボクセルのうち前記物体が占有しているボクセルによって前記立体を表す。

【0079】

第６の態様では、第１の態様から第５の態様のいずれかの物体認識装置において、前記複数の二次元情報は、各々の基準位置から前記立体までの距離に応じた画素値を有する。

【0080】

第７の態様では、第１の態様から第６の態様のいずれかの物体認識装置において、前記三次元情報は、前記物体の一部の外形に沿った三次元位置を含み、前記複数の二次元情報は、前記立体を直交３軸方向の各々から見た三面図である。

【0081】

第８の態様では、第１の態様から第６の態様のいずれかの物体認識装置において、前記三次元情報は、前記物体の外形全体に沿った三次元位置を含み、前記複数の二次元情報は、前記立体を直交３軸の正負方向の各々から見た六面図である。

【0082】

第９の態様では、第１の態様から第８の態様のいずれかの物体認識装置において、前記演算処理部は、前記複数の二次元情報を合成して合成図を生成し、前記合成図に基づいて前記物体を認識する。

【0083】

本開示に係る物体認識システムは、物体までの距離を計測して前記三次元情報を生成するセンサと、第１の態様から第９の態様のいずれか一つに記載の前記物体認識装置と、を含む。

【0084】

本開示に係るプログラムは、物体の少なくとも一部の外形に沿った三次元位置を含む三次元情報を入力するステップと、前記三次元情報に基づいて、前記三次元位置によって表される立体を複数の方向から見た二次元図面を示す複数の二次元情報を生成するステップと、前記複数の二次元情報に基づいて前記物体を認識するステップと、をコンピュータに実行させる。

【産業上の利用可能性】

【0085】

本開示の物体認識装置及び物体認識システムは、例えば、自動運転車、自走ロボット、及びＡＧＶなどに適用可能である。

【符号の説明】

【0086】

１物体認識システム
２車両駆動装置
３車両
１１投光部
１２受光部
１３走査部
１４センサ制御部
１５、２１入出力インタフェース部
２２演算処理部
２２ａ領域検出部
２２ｂ占有グリッド生成部
２２ｃ２Ｄ図面生成部
２２ｄ物体認識部
２３記憶部
１００距離センサ
２００物体認識装置

【図1】