(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023002922
(43)【公開日】2023-01-11
(54)【発明の名称】物体検出装置、物体検出学習装置、物体検出方法、及び物体検出プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20221228BHJP
【FI】
G06T7/00 350C
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021103771
(22)【出願日】2021-06-23
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】304021417
【氏名又は名称】国立大学法人東京工業大学
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】柴田 剛志
(72)【発明者】
【氏名】奥富 正敏
(72)【発明者】
【氏名】田中 正行
(72)【発明者】
【氏名】ワンシャイタナウォン ナパト
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096FA18
5L096FA32
5L096FA69
5L096HA11
5L096JA11
5L096KA04
(57)【要約】
【課題】複数のモーダルからそれぞれ得られる入力画像に時空間的な不整合がある場合であっても、入力画像から物体をより精度高く検出すること。
【解決手段】物体検出装置は、同一の物体が複数種類のセンサによって計測された結果を示す入力信号を前記複数種類のセンサからそれぞれ取得する信号取得部と、前記入力信号ごとに、前記入力信号から特徴量を抽出する抽出部と、前記抽出部によって抽出された前記特徴量から、前記入力信号における前記物体の候補位置を示す候補矩形の座標を算出する候補算出部と、各々の前記候補矩形に対応する前記特徴量を統合する統合部と、前記特徴量と前記候補矩形とに基づいて、各々の前記入力信号に対応する前記候補矩形内に存在する前記物体のクラスと前記候補矩形の座標とを検出する検出部と、前記検出部によって検出された前記物体のクラスと前記候補矩形の座標とを出力する出力部と、を備える。
【選択図】
図5
【特許請求の範囲】
【請求項1】
同一の物体が複数種類のセンサによって計測された結果を示す入力信号を前記複数種類のセンサからそれぞれ取得する信号取得部と、
前記入力信号ごとに、前記入力信号から特徴量を抽出する抽出部と、
前記抽出部によって抽出された前記特徴量から、前記入力信号における前記物体の候補位置を示す候補矩形の座標を算出する候補算出部と、
各々の前記候補矩形に対応する前記特徴量を統合する統合部と、
前記特徴量と前記候補矩形とに基づいて、各々の前記入力信号に対応する前記候補矩形内に存在する前記物体のクラスと前記候補矩形の座標とを検出する検出部と、
前記検出部によって検出された前記物体のクラスと前記候補矩形の座標とを出力する出力部と、
を備える物体検出装置。
【請求項2】
前記検出部によって検出された前記入力信号ごとの複数の前記候補矩形を、前記入力信号ごとに1つの候補矩形に絞り込む矩形枝刈部
をさらに備える
請求項1に記載の物体検出装置。
【請求項3】
同一の物体が複数種類のセンサによって計測された結果を示す入力信号を前記複数種類のセンサからそれぞれ取得する信号取得部と、
前記入力信号ごとに、前記物体の位置を示す矩形であって、正解となる前記矩形を示す教師データを取得する教師データ取得部と、
前記入力信号ごとに、前記入力信号から特徴量を抽出する抽出部と、
前記抽出部によって抽出された前記特徴量から、前記入力信号における前記物体の候補位置を示す候補矩形の座標を算出する候補算出部と、
各々の前記候補矩形に対応する前記特徴量を統合する統合部と、
前記特徴量と前記候補矩形とに基づいて、各々の前記入力信号に対応する前記候補矩形内に存在する前記物体のクラスと前記候補矩形の座標とを検出する検出部と、
前記検出部又は前記候補算出部によって算出された前記入力信号ごとの前記候補矩形と、前記教師データ取得部によって取得された前記矩形とに基づいて、前記特徴量の重複度を算出する重複度算出部と、
前記検出部によって検出された前記候補矩形又は前記候補算出部によって取得された前記候補矩形の座標に基づいて、入力信号から物体を検出する学習モデルのパラメタを更新するパラメタ更新部と、
を備える物体検出学習装置。
【請求項4】
前記重複度算出部は、前記重複度として、前記入力信号ごとのIntersection over Unionの値に対して、線形和、算術平均、又は調和平均を行うことによって算出されるマルチモーダル重複度を算出する
請求項3に記載の物体検出学習装置。
【請求項5】
前記重複度算出部によって算出された前記重複度が相対的に高いポジティブサンプルと、前記重複度算出部によって算出された前記重複度が相対的に低いネガティブサンプルとを抽出するサンプリングを行うサンプリング部
をさらに備え、
前記パラメタ更新部は、前記サンプリング部による前記サンプリングの結果に基づいて、前記パラメタを更新する
請求項3又は4に記載の物体検出学習装置。
【請求項6】
前記検出部によって検出された前記入力信号ごとの複数の前記候補矩形を、前記入力信号ごとに1つの候補矩形に絞り込む矩形枝刈部
をさらに備え、
前記パラメタ更新部は、前記矩形枝刈部によって絞り込まれた前記候補矩形に基づいて前記パラメタを更新する
請求項3乃至5のうちいずれか一項に記載の物体検出学習装置。
【請求項7】
同一の物体が複数種類のセンサによって計測された結果を示す入力信号を前記複数種類のセンサからそれぞれ取得する信号取得ステップと、
前記入力信号ごとに、前記入力信号から特徴量を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された前記特徴量から、前記入力信号における前記物体の候補位置を示す候補矩形の座標を算出する候補算出ステップと、
各々の前記候補矩形に対応する前記特徴量を統合する統合ステップと、
前記特徴量と前記候補矩形とに基づいて、各々の前記入力信号に対応する前記候補矩形内に存在する前記物体のクラスと前記候補矩形の座標とを検出する検出ステップと、
前記検出ステップにおいて検出された前記物体のクラスと前記候補矩形の座標とを出力する出力ステップと、
を有する物体検出方法。
【請求項8】
コンピュータに、
同一の物体が複数種類のセンサによって計測された結果を示す入力信号を前記複数種類のセンサからそれぞれ取得する信号取得ステップと、
前記入力信号ごとに、前記入力信号から特徴量を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された前記特徴量から、前記入力信号における前記物体の候補位置を示す候補矩形の座標を算出する候補算出ステップと、
各々の前記候補矩形に対応する前記特徴量を統合する統合ステップと、
前記特徴量と前記候補矩形とに基づいて、各々の前記入力信号に対応する前記候補矩形内に存在する前記物体のクラスと前記候補矩形の座標とを検出する検出ステップと、
前記検出ステップにおいて検出された前記物体のクラスと前記候補矩形の座標とを出力する出力ステップと、
を実行させるための物体検出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、物体検出装置、物体検出学習装置、物体検出方法、及び物体検出プログラムに関する。
【背景技術】
【0002】
画像を取り込み、当該画像の中から予め定められた物体の位置及びカテゴリー(クラス)を検出する物体検出技術がある。とくに歩行者をはじめとする物体を画像から精度高く検出することは、例えばマシンビジョン等の技術分野において重要な課題となっている。一般的に、画像から物体を検出する物体検出装置は、入力画像の特徴量に基づいて、当該入力画像の中で物体が存在する可能性が高そうな位置を推定する。物体検出装置は、推定された位置を含むように矩形の画像領域を設定する。そして、物体検出装置は、設定された矩形の画像領域の信頼度に基づいて、当該画像領域内に実際に物体が存在しているか否かを判定する。
【0003】
しかしながら、入力画像が単一種類のモーダルによって得られた画像である場合、物体の検出が困難であることがある。なお、ここでいうモーダルとは、例えば可視光カメラ等の、入力画像を得るための各種センサである。可視光カメラによる撮像の場面においては、例えば暗所等はあまり良好とはいえない撮像環境である。このような環境条件の下で、可視光カメラによって撮像された入力画像のみから物体の検出が行われる場合、検出精度が著しく低下することがある。これに対し、従来、様々な環境条件の下で堅牢な物体検出を実現することを目的として、複数種類のモーダルによってそれぞれ得られた入力画像を利用する物体検出技術が検討されている(例えば、非特許文献1参照)。ここで併用される複数種類のモーダルとは、例えば可視光カメラと遠赤外線カメラとの組合せ等である。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Lu Zhang, Xiangyu Zhu, Xiangyu Chen, Xu Yang, Zhen Lei, and Zhiyong Liu, "Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection", IEEE/CVF International Conference on Computer Vision (ICCV), pp,5127-5137, 2019.
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の複数種類のモーダルを併用する物体検出技術では、各々のモーダルからそれぞれ得られる入力画像のいずれにおいても、当該入力画像内の略同一の位置に検出対象の物体が存在するということが仮定されている。そのため、従来の物体検出技術では、全ての入力画像において同一の位置に同じ形状及び同じ大きさの矩形が設定される。しかしながら実際には、例えば、画像の撮像時刻に時差があったり、二つの画像間で視差があったり、あるいは不正確なキャリブレーションが行われたりすることによって、各モーダルにおける撮像環境には時空間的な不整合がある場合がある。この場合、各々のモーダルからそれぞれ得られる入力画像内の物体の位置(座標)は、必ずしも一致しているとは限らない。そのため、従来技術においては、入力画像内で実際には物体が存在していない位置に矩形が設定されてしまうことにより、物体の検出精度が低下することがあるという課題があった。
【0006】
本発明は、上記の点を鑑みてなされたものであり、複数のモーダルからそれぞれ得られる入力画像に時空間的な不整合がある場合であっても、入力画像から物体をより精度高く検出することができる物体検出装置、物体検出学習装置、物体検出方法、及び物体検出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一態様は、同一の物体が複数種類のセンサによって計測された結果を示す入力信号を前記複数種類のセンサからそれぞれ取得する信号取得部と、前記入力信号ごとに、前記入力信号から特徴量を抽出する抽出部と、前記抽出部によって抽出された前記特徴量から、前記入力信号における前記物体の候補位置を示す候補矩形の座標を算出する候補算出部と、各々の前記候補矩形に対応する前記特徴量を統合する統合部と、前記特徴量と前記候補矩形とに基づいて、各々の前記入力信号に対応する前記候補矩形内に存在する前記物体のクラスと前記候補矩形の座標とを検出する検出部と、前記検出部によって検出された前記物体のクラスと前記候補矩形の座標とを出力する出力部と、を備える物体検出装置である。
【0008】
また、本発明の一態様は、同一の物体が複数種類のセンサによって計測された結果を示す入力信号を前記複数種類のセンサからそれぞれ取得する信号取得部と、前記入力信号ごとに、前記物体の位置を示す矩形であって、正解となる前記矩形を示す教師データを取得する教師データ取得部と、前記入力信号ごとに、前記入力信号から特徴量を抽出する抽出部と、前記抽出部によって抽出された前記特徴量から、前記入力信号における前記物体の候補位置を示す候補矩形の座標を算出する候補算出部と、各々の前記候補矩形に対応する前記特徴量を統合する統合部と、前記特徴量と前記候補矩形とに基づいて、各々の前記入力信号に対応する前記候補矩形内に存在する前記物体のクラスと前記候補矩形の座標とを検出する検出部と、前記検出部又は前記候補算出部によって算出された前記入力信号ごとの前記候補矩形と、前記教師データ取得部によって取得された前記矩形とに基づいて、前記特徴量の重複度を算出する重複度算出部と、前記検出部によって検出された前記候補矩形又は前記候補算出部によって取得された前記候補矩形の座標に基づいて、入力信号から物体を検出する学習モデルのパラメタを更新するパラメタ更新部と、を備える物体検出学習装置である。
【0009】
また、本発明の一態様は、同一の物体が複数種類のセンサによって計測された結果を示す入力信号を前記複数種類のセンサからそれぞれ取得する信号取得ステップと、前記入力信号ごとに、前記入力信号から特徴量を抽出する抽出ステップと、前記抽出ステップにおいて抽出された前記特徴量から、前記入力信号における前記物体の候補位置を示す候補矩形の座標を算出する候補算出ステップと、各々の前記候補矩形に対応する前記特徴量を統合する統合ステップと、前記特徴量と前記候補矩形とに基づいて、各々の前記入力信号に対応する前記候補矩形内に存在する前記物体のクラスと前記候補矩形の座標とを検出する検出ステップと、前記検出ステップにおいて検出された前記物体のクラスと前記候補矩形の座標とを出力する出力ステップと、を有する物体検出方法である。
【0010】
また、本発明の一態様は、コンピュータに、同一の物体が複数種類のセンサによって計測された結果を示す入力信号を前記複数種類のセンサからそれぞれ取得する信号取得ステップと、前記入力信号ごとに、前記入力信号から特徴量を抽出する抽出ステップと、前記抽出ステップにおいて抽出された前記特徴量から、前記入力信号における前記物体の候補位置を示す候補矩形の座標を算出する候補算出ステップと、各々の前記候補矩形に対応する前記特徴量を統合する統合ステップと、前記特徴量と前記候補矩形とに基づいて、各々の前記入力信号に対応する前記候補矩形内に存在する前記物体のクラスと前記候補矩形の座標とを検出する検出ステップと、前記検出ステップにおいて検出された前記物体のクラスと前記候補矩形の座標とを出力する出力ステップと、を実行させるための物体検出プログラムである。
【発明の効果】
【0011】
本発明により、複数のモーダルからそれぞれ得られる入力画像に時空間的な不整合がある場合であっても、入力画像から物体をより精度高く検出することができる。
【図面の簡単な説明】
【0012】
【
図1】従来の物体検出技術による物体検出について説明するための模式図である。
【
図2】本発明の実施形態における物体検出について説明するための模式図である。
【
図3】本発明の第1の実施形態における物体検出学習装置1の機能構成を示すブロック図である。
【
図4】本発明の第1の実施形態における物体検出学習装置1の動作を示すフローチャートである。
【
図5】本発明の第2の実施形態における物体検出装置1aの機能構成を示すブロック図である。
【
図6】本発明の第2の実施形態における物体検出装置1aの動作を示すフローチャートである。
【発明を実施するための形態】
【0013】
以下、本発明の実施形態について、図面を参照しながら説明する。
【0014】
説明を分かり易くするため、まず始めに、本発明の実施形態における物体検出方法の概要と、従来技術による物体検出方法との違いについて簡単に説明する。
【0015】
一般的に物体検出とは、入力画像の中から、予め定められた検出対象の物体の位置と物体のクラスとを検出することである。クラスとは、例えば検出対象の物体がどのようなカテゴリーに属する物体であるか(例えば人間であるか又は犬であるか等)を示す情報である。検出対象の物体の位置は、当該物体を含む矩形(以下、「バウンディングボックス」ともいう。)の位置として推定される。矩形を一意に識別するためには、例えば矩形の四隅のそれぞれのXY座標が特定される(又は、矩形の左上角のXY座標と幅と高さとが特定される)必要がある。物体検出は、入力画像から固定サイズの矩形を全ての設定可能な候補位置に設定して、これらの矩形の画像領域を画像分類器に入力するという分類問題として学習モデル化される。
【0016】
図1は、従来の物体検出技術による物体検出について説明するための模式図である。
図1(A)及び
図1(B)は、検出対象である同一の物体が互いに異なるモーダルによって撮像された入力画像をそれぞれ示している。例えば双方の入力画像の画素数(ピクセル数)は同一である。例えば
図1(A)に示される入力画像(以下、「入力画像A1」という。)は、可視光カメラによって撮像された画像であるものとする。一方、例えば
図1(B)に示される入力画像(以下、「入力画像B1」という。)は、遠赤外線カメラによって撮像された画像であるものとする。
【0017】
入力画像A1及び入力画像B1において、検出対象の物体とは2人の歩行者であるものとする。また、
図1(A)及び
図1(B)には、破線の矩形と実線の矩形とがそれぞれ示されている。破線の矩形は、入力画像A1内及び入力画像B1内において、検出対象の物体が実際に存在する位置を囲んだものである。一方、実線の矩形は、従来の物体検出技術によって検出対象の物体が存在する可能性が高いと推定された位置として設定された矩形である。
【0018】
図1(A)に示されるように、入力画像A1に含まれる実際の歩行者の位置を表す破線で示された矩形の位置と、従来の物体検出技術によって推定された歩行者の位置の候補を表す実線で示された矩形の位置とが、略同一の位置となっている。そのため、この場合、破線で示された矩形の画像領域と実線で示された矩形の画像領域とは、例えば輝度等の特徴量における重複度が高いことから、物体の検出結果は陽性と判定される。すなわち、推定された位置に検出対象の物体が検出されたという検出結果となる。
【0019】
一方、
図1(B)に示されるように、入力画像B1に含まれる実際の歩行者の位置を表す破線で示された矩形の位置と、従来の物体検出技術によって推定された歩行者の位置の候補を表す実線で示された矩形の位置との間には、大きなずれが生じている。そのため、この場合、破線で示された矩形の画像領域と実線で示された矩形の画像領域とは、例えば輝度等の特徴量における重複度が低いことから、物体の検出結果は陰性(偽陰性)と判定される。すなわち、推定された位置に検出対象の物体が検出されなかったという検出結果となる。
【0020】
このように、
図1(A)及び
図1(B)に示されるように、従来の複数種類のモーダルを併用する物体検出技術では、各々のモーダルからそれぞれ得られる入力画像のいずれにおいても、当該入力画像内の略同一の位置に検出対象の物体が存在するものであることが仮定されている。そのため、従来の物体検出技術では、全ての入力画像において同一の位置に同じ形状及び同じ大きさの矩形が設定されて、物体検出が行われる。しかしながら実際には、各々のモーダルからそれぞれ得られる入力画像内の物体の位置は、例えば入力画像A1と入力画像B1のように、必ずしも一致しているとは限らない。そのため、従来技術においては、物体の検出精度が低くなることがある。
【0021】
例えば前述の通り
図1(B)では、破線で示された矩形の画像領域と実線で示された矩形の画像領域との重複度が低いため偽陰性と判定されてしまう。このように、従来の物体検出技術では、複数のモーダルからそれぞれ得られる入力画像に時空間的な不整合(ずれ)が大きい場合、いずれか(又は双方)のモーダルから得られた入力画像から検出対象の物体が検出できないことが多くなることが一般的である。これは、前述の通り、従来の物体検出技術が、全てのモーダルから得られた入力画像に対して同一の位置に矩形を設定して、物体検出を行っていることに起因する。
【0022】
なお、ここでいう重複度とは、例えばIoU(Intersection over Union)の値である。IoUは、2つの画像の重なりの割合を表す値であり、この値が大きいほど画像がより重なっている状態であることを表すものである。逆に、IoUの値が小さいほど画像がより重なっていない状態であることを表し、IoU=0ならば、2つの画像が全く重なっていない状態である。なお、IoUは、オーバーラップ率及びJaccard係数とも呼ばれる。
【0023】
一方、
図2は、本発明の実施形態における物体検出について説明するための模式図である。
図2(A)及び
図2(B)は、検出対象である同一の物体が互いに異なるモーダルによって撮像された入力画像をそれぞれ示している。例えば双方の入力画像の画素数は同一である。例えば
図2(A)に示される入力画像(以下、「入力画像A2」という。)は、可視光カメラによって撮像された画像であるものとする。一方、例えば
図2(B)に示される入力画像(以下、「入力画像B2」という。)は、遠赤外線カメラによって撮像された画像であるものとする。
【0024】
入力画像A2及び入力画像B2は、
図1に示される入力画像A1及び入力画像B1とそれぞれ同一の入力画像である。ここでも、検出対象の物体は、2人の歩行者であるものとする。また、
図2(A)及び
図2(B)にも、破線の矩形と実線の矩形とがそれぞれ示されている。
図1(A)及び
図1(B)と同様に、破線の矩形は、入力画像A2内及び入力画像B2内において、検出対象の物体が実際に存在する位置を囲んだものでる。一方、
図1(A)及び
図1(B)と同様に、実線の矩形は、本実施形態における物体検出装置によって検出対象の物体が存在する可能性が高いと推定された位置として設定された矩形である。
【0025】
図2(A)に示されるように、入力画像A2に含まれる実際の歩行者の位置を表す破線で示された矩形の位置と、従来の物体検出技術によって推定された歩行者の位置の候補を表す実線で示された矩形の位置とが、略同一の位置となっている。そのため、この場合、破線で示された矩形の画像領域と実線で示された矩形の画像領域とは、例えば輝度等の特徴量における重複度が高いことから、物体の検出結果は陽性と判定される。すなわち、推定された位置に検出対象の物体が検出されたという検出結果となる。
【0026】
また、
図2(B)に示されるように、入力画像B2に含まれる実際の歩行者の位置を表す破線で示された矩形の位置と、従来の物体検出技術によって推定された歩行者の位置の候補を表す実線で示された矩形の位置とについても同様に、略同一の位置となっている。そのため、この場合、破線で示された矩形の画像領域と実線で示された矩形の画像領域とについても同様に、例えば輝度等の特徴量における重複度が高いことから、物体の検出結果は陽性と判定される。すなわち、推定された位置に検出対象の物体が検出されたという検出結果となる。
【0027】
このように、
図2(A)及び
図2(B)に示されるように、本実施形態における物体検出方法では、検出対象の物体が存在する位置として設定される矩形の位置(座標)が、複数のモーダルから得られる入力画像ごとにそれぞれ設定される。これにより、本実施形態における物体検出方法は、複数のモーダルからそれぞれ得られる入力画像に時空間的な不整合(ずれ等)がある場合であっても、入力画像から物体をより精度高く検出することができる。
【0028】
<第1の実施形態>
以下、本発明の第1の実施形態について説明する。第1の実施形態では、機械学習による学習モデルを使って上記のような物体検出を行う物体検出方法において、当該学習モデルを学習させる物体検出学習装置について説明する。
【0029】
[物体検出学習装置の機能構成]
以下、本実施形態における物体検出学習装置1の機能構成について説明する。
図3は、本発明の第1の実施形態における物体検出学習装置1の機能構成を示すブロック図である。
図3に示されるように、物体検出学習装置1は、信号入力部10と、矩形入力部11と、物体検出学習処理部20と、記憶部21と、出力部30と、を含んで構成される。
【0030】
信号入力部10には、2種類以上のモーダルからそれぞれ信号が入力される。本実施形態におけるモーダルとは、例えば、可視光カメラ、遠赤外線カメラ、近赤外線カメラ、又はマルチスペクトルカメラ等の、画像情報を取得するための各種センサである。
【0031】
但し、モーダルは、画像情報を取得するためのセンサに限定されるものではない。例えば、モーダルは、音声情報又は音響情報を取得するためのセンサ(例えばマイクロホン等)であってもよい。また、信号入力部10に入力される信号は、音声情報又は音響情報であってもよい。すなわち、信号入力部10に入力される信号は、例えば画像情報のような2次元以上の次元数のデータであってもよいし、例えば、音声情報、音響情報、又は振動を示す情報等の時系列データであってもよい。あるいは、信号入力部10に入力される信号は、自然言語のような記号データであってもよい。信号入力部10に入力される信号は、一般的に機械学習に適用可能なデータを示す信号であればよい。
【0032】
信号入力部10は、入力された信号(以下、「入力信号」という。)を記憶部21に記憶させる。当該入力信号は、画像情報を示す信号である。なお、信号入力部10が、入力信号を記憶部21に記憶させることなく、後述される信号変形部208へ直接出力するような構成であってもよい。
【0033】
矩形入力部11には、例えば外部の情報処理装置(不図示)等から、モーダルごとに正解となる矩形(以下、「正解矩形」ともいう。)を示す情報が入力される。ここでいう矩形を示す情報とは、例えば、検出対象となる物体を囲う矩形の四隅の座標(すなわち、各4点のX座標及びY座標)を示す座標情報である。矩形入力部11は、取得された正解矩形を示す情報を記憶部21に記憶させる。なお、矩形入力部11が、正解矩形を示す情報を記憶部21に記憶させることなく、後述されるマルチモーダル重複度算出部205へ直接出力するような構成であってもよい。
【0034】
物体検出学習処理部20は、信号入力部10から出力された、複数種類のモーダルによって撮像された入力画像を取得する。また、物体検出学習処理部20は、矩形入力部11から出力された、矩形に関する情報を取得する。物体検出学習処理部20は、取得された複数の入力画像及び矩形に関する情報に基づいて、入力画像に含まれる検出対象の物体の検出を行う。物体検出学習処理部20は、検出対象の物体の検出結果である矩形の集合を示す情報を出力部30へ出力する。
【0035】
記憶部21は、各種のデータ及びプログラム等を記憶する。記憶部21は、例えばRAM(Random Access Memory)等の半導体メモリ、又は例えばHDD(Hard Disk Drive)等の磁気ディスク装置等の記憶媒体を含んで構成される。なお、記憶部21は、物体検出学習処理部20の外部の記憶装置であってもよい。
【0036】
出力部30は、物体検出学習処理部20から出力された矩形の集合を示す情報を取得する。出力部30は、取得された矩形の集合を示す情報を、検出結果として出力する。具体的には、出力部30は、検出対象の物体を囲む矩形の四隅の座標(すなわち、四隅のX座標及びY座標)を検出結果として出力する。出力部30は、取得された検出対象の物体の検出結果を出力する。
【0037】
また、出力部30は、後述されるマルチモーダル矩形枝刈部207によって絞り込みがなされた矩形の集合を検出結果として出力するようにしてもよい。
【0038】
なお、例えば、検出結果の出力形態は、物体検出学習処理部20の内部又は外部に備えられた表示装置(不図示)に出力される構成であってもよい。または、例えば、検出結果の出力形態は、画像データとして、記憶部21、又は物体検出学習処理部20の外部の記憶媒体(不図示)に記録される構成であってもよい。
【0039】
[物体検出処理部の機能構成]
以下、物体検出学習処理部20の機能構成の詳細について説明する。なお、本実施形態では、入力データは画像データであるものとするが、これに限定されるものではない。例えば、入力データは音声データ等であってもよい。なお、本実施形態では、物体検出学習処理部20が深層学習によって物体検出に関する機械学習を行う構成であるが、これに限定されるものではない。
【0040】
図3に示されるように、物体検出学習処理部20は、特徴抽出部201と、物体候補算出部202と、特徴統合部203と、矩形検出部204と、マルチモーダル重複度算出部205と、サンプリング部206と、マルチモーダル矩形枝刈部207と、信号変形部208と、パラメタ更新部209と、を含んで構成される。これらの物体検出学習処理部20の構成要素は、例えばCPU(Central Processing Unit)等のプロセッサが記憶部21に記憶されたプログラムを読み込むことによって実現される。
【0041】
信号変形部208は、信号入力部10によって記憶部21に記録された入力信号を取得する。前述の通り、入力信号は、2種類以上のモーダルからそれぞれ入力された信号である。信号変形部208は、取得された全ての入力信号のうち少なくとも1つの入力信号に対して、少なくとも1つの変形処理を行う。信号変形部208は、変形処理がなされた入力信号を特徴抽出部201へ出力する。
【0042】
ここでいう変形処理とは、例えば、平行移動、回転、及び幾何学的な変換等である。幾何学的な変換とは、例えば、アフィン変換及び射影変換等の処理である。あるいは、ここでいう変形処理とは、例えば、入力信号が画像情報を示す信号である場合、圧縮、色変換、信号ノイズの除去又は付与、及び信号のボケの除去又は付与等の処理であってもよい。信号変形部208は、これらの変形処理の少なくとも1つがなされた入力信号のうち一部又は全ての入力信号を、特徴抽出部201へ出力する。
【0043】
特徴抽出部201は、信号変形部208から出力された入力信号を取得する。特徴抽出部201は、取得された入力信号から特徴量を抽出する。具体的には、特徴抽出部201は、モーダルごとの信号から、例えばResNet(Residual Network)又はVGG(Visual Geometry Group)等の、特徴抽出用のCNN(Convolutional Neural Network)のネットワーク(以下、「特徴抽出ネットワーク」ともいう。)を用いて、特徴量を抽出する。
【0044】
なお、特徴抽出部201は、各モーダルで同一の特徴抽出ネットワークを用いてもよいし、モーダルごとにそれぞれ異なる特徴抽出ネットワーク(すなわち、ResNet又はVGG等)を用いてもよい。さらに、特徴抽出部201は、抽出された特徴量のうち、一方のモーダルから抽出された特徴量に対して、線形補間等の簡単な変換処理を用いて特徴量を補正するようにしてもよい。特徴抽出部201は、抽出された特徴量を示す情報を物体候補算出部202へ出力する。
【0045】
物体候補算出部202は、特徴抽出部201から、当該特徴抽出部201によって抽出された特徴量を示す情報を取得する。物体候補算出部202は、特徴抽出部201によって抽出された特徴量から、物体候補を算出する。物体候補算出部202は、ある信号のどこに検出対象の物体が存在しているかを算出することを目的として、検出対象の物体が存在している領域の位置、及び当該位置を囲む矩形の形状を算出することができる学習モデルを有する。なお、物体候補算出部202は、物体が存在するか否か(すなわち、背景であるか前景であるか)を算出することを目的とした機能部であり、当該物体のクラスが何であるかについては算出しない。
【0046】
具体的には、物体候補算出部202は、抽出された特徴量から、予め与えられた複数の枠(あるいは、アンカーボックス)のそれぞれに対して信頼度を算出する。物体候補算出部202は、算出された信頼度の値が一定以上である枠を物体候補として算出する。物体候補算出部202は、さらに枠の位置を補正し、位置が補正された枠を矩形候補として算出する。そして、物体候補算出部202は、算出された信頼度の値が一定以上である枠を示す情報を、矩形の情報とする。
【0047】
なお、矩形の情報を表現する方法としては、矩形の四隅の座標を出力する方法が用いられてもよいし、矩形の相対的な位置と大きさとを出力する方法が用いられてもよい。物体候補算出部202は、矩形の情報を、マルチモーダル矩形枝刈部207及びパラメタ更新部209へ出力する。
【0048】
さらに、物体候補算出部202は、モーダルごとに物体候補の領域を出力するようにしてもよい。具体的には、物体候補算出部202は、抽出された特徴量から、予め与えられた複数の枠のそれぞれに対して信頼度を算出し、その信頼度の値が一定以上の枠を物体候補として算出する。物体候補算出部202は、さらにモーダルごとに枠の位置を補正する。物体候補算出部202は、これらの補正された枠をそれぞれ矩形候補として算出するようにしてもよい。
【0049】
具体的には、物体候補算出部202は、各モーダルのための回帰を行ってもよい。これにより、物体候補算出部202は、各モーダルにおける物体候補に対して、独立してサイズ及び位置の調整を行うことができるようになる。
【0050】
物体候補算出部202は、特徴抽出部201からチャネルごとに連結された特徴量を受け取り、矩形候補ごとに信頼度スコアを予測する分類器(不図示)によって、矩形候補を生成する。すなわち、物体候補算出部202は、モーダルごとの回帰器(不図示)と、各バウンディングボックスのペアにおいて信頼度スコアを予測する1つの分類器(不図示)とを有する。
【0051】
なお、例えば、物体候補算出部202に関連する学習モデルのパラメタを更新する際は、後述されるパラメタ更新部209において、以下の(1)式を最小化することで、矩形候補を算出するための学習モデルのパラメタを更新すればよい。
【0052】
【0053】
以下の説明において、「_」の後に続く文字は下付き文字を表し、「^」の後に続く文字は上付き文字を表すものとする。例えば、「A_B」はABを意味し、「A^B」はABを意味する。
【0054】
ここで、iは、アンカーボックスのインデックスを表す。また、p_iは、アンカーボックスiが検出対象の物体であることの予測確率を表す。また、p_i^*は真値のラベルを表し、アンカーボックスiが正であれば1及びアンカーボックスiが負であれば0となる。また、t_i^V及びt_i^Tは、互いに種類の異なるモーダル(例えば、可視光カメラ及び遠赤外線カメラ)における、矩形候補のペアの座標を表すベクトルを表す。また、t_i^V*,及びt_i^T*は、予め与えられた複数のi番目の枠(すなわち、i番目のアンカーボックス)に関連する正解データを表す。また、L_clsは、物体と非物体とにおけるクロスエントロピーである。また、回帰損失L_reg^V及びL_reg^Tは、各モーダルにおいてそれぞれ定義された滑らかなL1ノルム損失を表す。また、N_clsは、ミニバッチサイズ(サンプリングの数)を表す。また、N_regは、アンカーボックス位置の数である。
【0055】
特徴統合部203は、物体候補算出部202によって抽出された矩形候補に対応する特徴量を特徴抽出部201から抽出し、これらを統合する。すなわち、特徴統合部203は、物体候補算出部202によって抽出された矩形の位置座標を用いて、特徴抽出部201によって抽出された各モーダルにおける特徴量から、その矩形の位置座標に相当する部分を、例えば最近傍補間や線形保管等を用いて切り取る。さらに、特徴統合部203は、切り取られたモーダルごとの特徴量を結合する。そして、特徴統合部203は、各矩形に対応する結合された特徴量を矩形検出部204へ出力する。
【0056】
矩形検出部204は、特徴統合部203から出力された各矩形に対応する、結合された特徴量を取得する。矩形検出部204は、各矩形に対応する結合された特徴量と、物体候補算出部202によって生成された物体候補とから、各入力モーダルに対応して、矩形に存在する物体のクラスと矩形の座標とを出力する。
【0057】
すなわち、物体候補算出部202と同様に、矩形検出部204は、矩形の位置を独立に予測するために各モーダル用の1つの回帰器(不図示)と、各バウンディングボックスのペアに信頼度スコアを予測する1つの分類器(不図示)とを備える。最終的には、矩形検出部204は、両モーダルにおけるバウンディングボックスのペアとして検出結果を得ることになるが、両モーダルにおいてサイズや位置が異なるため、両モーダルで正確なバウンディングボックスが得られ、かつペアの関係も維持される。
【0058】
より具体的には、例えば矩形検出部204を動作させるために必要な学習モデルのパラメタを更新する場合には、以下の(2)式を最小化させるようにパラメタを更新すればよい。当該パラメタの更新は、後述されるパラメタ更新部209によって行われる。以下の(2)式を最小化させることで、各モーダルに対する矩形の位置と信頼度とを算出するために必要な学習モデルのパラメタが更新される。
【0059】
【0060】
ここで、L_clsはクラス確率pと真のクラスuとのクロスエントロピーを表す。また、回帰損失L_loc^V及びL_loc^Tは、それぞれのモーダルにおける、予測された回帰オフセットt^V及びt^Tと回帰ターゲットv^V及びv^Tに対する滑らかなL1ノルム損失を表す。また、|u|は、one-hotベクトルを表し、uがオブジェクトクラスに含まれる場合には1、そうでない場合には0となる。
【0061】
マルチモーダル重複度算出部205は、矩形検出部204又は物体候補算出部202によって算出されたモーダルごとの矩形と、矩形入力部11に入力された正解の矩形とから、マルチモーダル重複度を算出する。一般的に、評価において予測結果をポジティブと(真)ネガティブ(偽)とのカテゴリーに分類する場合には、重複度、例えばIoU(Intersection-over-Union)を用いて、次の(3)式のように定義される。
【0062】
【0063】
ここで、GTは、正解の矩形を表す。また、DTは、検出された矩形を表す。また,GT∩DTは、正解の矩形と検出された矩形で共通する領域を表し、GT∪DTは、正解の矩形と検出された矩形の和の領域を表す。しかしながら、特に、モーダル間に位置ずれがある場合、2つのモーダルにおける各物体のそれぞれの座標は同一ではない。例えば、あるモーダルから得られた入力画像からの物体検出を高精度に行えたとしても、別のモーダルから得られた入力画像からでは物体検出の精度が悪くなることがある。そこで、本実施形態においては、2つのモーダルからそれぞれ得られた、(時空間的な不整合がある)入力画像を扱うことが可能な新しい評価指標である「マルチモーダル重複度」が用いられる。マルチモーダル重複度は、時空間的な不整合(位置ずれ量等)が大きい場合に特に有効な評価指標である。上記のマルチモーダル重複度は、以下の(4)式のように定義される。
【0064】
【0065】
ここで、GT^V及びGT^Tは、各モーダル(例えば、可視光カメラ及び遠赤外線カメラ)の双方で同じ物体を参照する、ペアになった正解の矩形を表す。また、DT^V及びDT^Tは、可視光カメラによる入力画像と及び遠赤外線カメラによる入力画像との両方で同じ物体を参照する、ペアになった検出矩形を表す。上記(4)式は、各モーダルについて(3)式に基づいて得られた重複度の線形和であると解釈することができる。このマルチモーダル重複度は、両モーダルにおける検出矩形の精度を決定するために使用することができる。
【0066】
なお、本発明においては、上記の(4)式において、モーダルごとの重複度に対して線形和を得ることによってマルチモーダル重複度を算出する方法について説明したが、これに限定されるものではない。例えば、マルチモーダル重複度算出部205は、モーダルごとに算出された重複度を統合する方法として、モーダルごとの重複度に対して単純な算術平均、または調和平均を行うことによってマルチモーダル重複度を算出するようにしてもよい。
【0067】
サンプリング部206は、マルチモーダル重複度算出部205によって算出されたマルチモーダル重複度に基づいて、ポジティブサンプル(正例)とネガティブサンプル(負例)とを選択する。
【0068】
具体的には、マルチモーダルの信号からの物体検出の場合、サンプリング部206は、各モーダルに対して1つの回帰器(不図示)を有し、全ての矩形候補又は検出候補に対してペアの関係を維持する必要がある。そのため、サンプリング部206は、訓練サンプルを、アンカーペア(物体候補算出部202にて使用される訓練ペア)とRoIペア(矩形検出部204にて使用される訓練ペア)として選択する。
【0069】
そのため、サンプリング部206は、選択基準として重複度(IoU)ではなく、マルチモーダル重複度を用いる。より具体的には、サンプリング部206は、マルチモーダル重複度算出部205によって算出されたマルチモーダル重複度に基づいて、当該マルチモーダル重複度の値が所定の閾値を超えている場合にはポジティブサンプルとし、マルチモーダル重複度の値が所定の閾値以下の場合にはネガティブサンプルとする。
【0070】
マルチモーダル矩形枝刈部207は、矩形検出部204によって検出された各モーダルにおける矩形より、モーダルごとに1つの物体及び1つの画像ごとに1つの矩形を割り当て、残りを削除する。さらに、マルチモーダル矩形枝刈部207は、モーダルごとに、重複度が所定の閾値を超えて重なっている矩形の集合から、信頼度が最大の矩形を残して、それ以外を除去する。又は、マルチモーダル矩形枝刈部207は、信頼度が最大の矩形を残して、それ以外の信頼度を差し引く。又は、マルチモーダル矩形枝刈部207は、重なりあった矩形を、信頼度と重複度とに基づいて重み付けして足し合わせることによって、1つの新たな矩形を作り出すようにしてもよい。
【0071】
パラメタ更新部209は、マルチモーダル矩形枝刈部207によって得られた検出結果又は物体候補算出結果、あるいは、前記矩形検出部204によって得られた検出結果又は前記物体候補算出部202にて得られた物体候補と、サンプリング部206によって得られたサンプリング結果(すなわち、正例及び負例)とに基づいて、学習モデルのパラメタを更新する。
【0072】
なお、パラメタ更新部209は、学習モデルに対して正例に相当するサンプル(ポジティブサンプル)が入力された場合には高い信頼度を出力し、学習モデルに対して負例に相当するサンプル(ネガティブサンプル)が入力された場合には低い信頼度を出力するように学習モデルのパラメタを更新する。
【0073】
具体的には、例えば、パラメタ更新部209は、物体候補算出部202に関連する学習モデルのパラメタを更新する場合には、上記(1)式によって表される損失関数を最小化することで、矩形候補を算出するための学習モデルのパラメタを更新すればよい。損失関数を最小化させる方法としては、例えば、確率的勾配降下法等を用いることができる。また、例えば、パラメタ更新部209は、矩形検出部204に関連する学習モデルのパラメタを更新する場合には、上記(2)式によって表される損失関数を最小化することで、矩形候補を算出するための学習モデルのパラメタを更新すればよい。
【0074】
[物体検出学習装置の動作]
以下、物体検出学習装置1による深層学習におけるネットワーク学習(パラメタ更新)の動作の一例について説明する。
【0075】
図4は、本発明の第1の実施形態における物体検出学習装置1の動作を示すフローチャートである。
【0076】
まず、信号入力部10は、1つ以上のモーダルから1つ以上の信号を取得する(ステップS101)。次に、矩形入力部11は、モーダルごとに正解となる矩形を取得する(ステップS102)。次に、信号変形部208は、入力された信号に対し変形を行う(ステップS103)。
【0077】
次に、特徴抽出部201は、入力信号又は変形された信号から、特徴量を抽出する(ステップS104)。次に、物体候補算出部202は、特徴抽出部201によって抽出された特徴量から、物体候補を算出する。マルチモーダル重複度算出部205は、矩形検出部204によって算出されたモーダルごとの矩形と、矩形入力部11によって取得された正解矩形とから、マルチモーダル重複度を算出する(ステップS105)。
【0078】
次に、サンプリング部206は、マルチモーダル重複度算出部205によって算出されたマルチモーダル重複度に基づいて、ポジティブサンプルとネガティブサンプルとを選択する(ステップS106)。次に、パラメタ更新部209は、サンプリング部206によってサンプリングされた、ポジティブサンプルとネガティブサンプルとを用いて、学習モデルのパラメタを更新する(ステップS107)。
【0079】
次に、物体候補算出部202を対象とした学習モデルのパラメタ更新が一定数完了していない場合(ステップS108・NO)、ステップS101に戻る。一方、物体候補算出部202を対象とした学習モデルのパラメタ更新が一定数完了した場合(ステップS108・YES)、次のステップS109に進む。すなわち、矩形検出部204と特徴抽出部201とを対象としたパラメタ更新の処理に移る。
【0080】
次に、特徴統合部203は、物体候補算出部202によって抽出された矩形領域に対応する特徴量を特徴抽出部201から抽出し、これらを統合する(ステップS109)。次に、矩形検出部204は、特徴統合部203によって結合された特徴量と、物体候補算出部202によって生成される物体候補とから、各入力モーダルごとに、矩形に存在する物体のクラスと矩形の座標とを出力する(ステップS110)。
【0081】
次に、マルチモーダル重複度算出部205は、矩形検出部204によって算出されたモーダルごとの矩形と、矩形入力部11によって入力された正解矩形とから、マルチモーダル重複度を算出する(ステップS111)。次に、サンプリング部206は、マルチモーダル重複度算出部205によって算出されたマルチモーダル重複度に基づいて、ポジティブサンプルとネガティブサンプルとを選択する(ステップS112)。次に、パラメタ更新部209は、サンプリング部206によってサンプリングされた、ポジティブサンプルとネガティブサンプルとを用いて、学習モデルのパラメタを更新する(ステップS113)。
【0082】
次に、矩形検出部204を対象とした学習モデルのパラメタ更新が一定数完了していない場合(S114・NO)、ステップS101に戻る。一方、矩形検出部204を対象とした学習モデルのパラメタ更新が一定数完了した場合(S114・YES)、次のステップに進む。すなわち、物体候補算出部202と特徴抽出部201とを対象としたパラメタ更新に移る。
【0083】
次に、矩形検出部204、物体候補算出部202、及び特徴抽出部201を対象としたパラメタ更新が一定数完了していない場合(ステップS115・NO)、ステップS101に戻る。一方、矩形検出部204、物体候補算出部202、及び特徴抽出部201を対象としたパラメタ更新が一定数完了した場合(ステップS115・YES)、パラメタの更新を終了する。以上で、
図4のフローチャートが示す、物体検出学習装置1の動作が終了する。
【0084】
以上説明したように、本発明の第1の実施形態における物体検出学習装置1は、矩形検出部204によって各モーダルにおいて算出された矩形に基づいて、モーダルごとに1つの物体及び1つの画像ごとに1つの矩形を割り当てる。本実施形態における物体検出学習装置1は、各入力モーダルに対して、矩形に存在する物体のクラスと矩形の座標とをそれぞれ出力する。このような構成を備えることで、物体検出学習装置1は、モーダル間に大きな時空間的な不整合がある場合であっても、より高精度に物体検出を行うことが可能できる。
【0085】
また、本発明の第1の実施形態における物体検出学習装置1は、矩形検出部204又は物体候補算出部202によって算出されたモーダルごとの矩形と、矩形入力部11によって取得された矩形とから、マルチモーダル重複度を算出することを特徴とするマルチモーダル重複度算出部205と、マルチモーダル重複度算出部205によって算出されたマルチモーダル重複度に基づいて、ポジティブサンプルとネガティブサンプルを指定するサンプリング部206とを有する。このような構成を備えることで、物体検出学習装置1は、これらマルチモーダル重複度に基づいて、ポジティブサンプル(正例)とネガティブサンプル(負例)を指定することで、より学習に適した正例と負例を用いて学習モデルの学習を行うことができる。これにより、本実施形態における物体検出学習装置1は、モーダル間に大きな時空間的な不整合があった場合でも、より高精度に物体検出を行うことが可能となる。
【0086】
また、本発明の第1の実施形態における物体検出学習装置1は、矩形検出部204によって各モーダルにおいて算出された矩形に基づいて、モーダルごとに1つの物体及び1つの画像ごとに1つの矩形を割り当て、マルチモーダル矩形枝刈部207によって残りを削除する。これにより、本実施形態における物体検出学習装置1は、過剰に検出された矩形をより高精度に除去することができる。そのため、本実施形態における物体検出学習装置1は、モーダル間に大きな空間的な不整合がある場合であっても、より高精度に物体検出を行うことができる。
【0087】
<第2の実施形態>
以下、本発明の第2の実施形態について説明する。前述の第1の実施形態では、深層学習におけるネットワーク学習(パラメタ更新)を行う物体検出学習装置1について説明した。第2の実施形態では、例えば第1の実施形態における物体検出学習装置1によって学習がなされたネットワークを用いて推論を行う物体検出装置1aについて説明する。
【0088】
[物体検出装置の機能構成]
以下、本実施形態における物体検出装置1aの機能構成について説明する。
図5は、本発明の第2の実施形態における物体検出装置1aの機能構成を示すブロック図である。
図5に示されるように、物体検出装置1aは、信号入力部10と、物体検出処理部20aと、記憶部21と、出力部30と、を含んで構成される。
【0089】
また、
図5に示されるように、物体検出処理部20aは、特徴抽出部201と、物体候補算出部202と、特徴統合部203と、矩形検出部204と、マルチモーダル矩形枝刈部207と、信号変形部208と、を含んで構成される。これらの物体検出処理部20aの構成要素は、例えばCPU等のプロセッサが記憶部21に記憶されたプログラムを読み込むことによって実現される。
【0090】
なお、物体検出装置1aの各構成部の構成は、前述の
図3に示される第1の実施形態における物体検出学習装置1において同一の符号が付された各構成部の構成と基本的に同様である。すなわち、物体検出装置1aの機能構成は、前述の第1の実施形態における物体検出学習装置1の構成から、矩形入力部11と、マルチモーダル重複度算出部205と、サンプリング部206と、パラメタ更新部209とが省かれた構成である。
【0091】
[物体検出装置の動作]
以下、物体検出装置1aによるネットワークを用いた推論の動作の一例について説明する。
図6は、本発明の第2の実施形態における物体検出装置1aの動作を示すフローチャートである。
【0092】
まず、信号入力部10は、1つ以上のモーダルから1つ以上の信号を取得する(ステップS201)。次に、矩形入力部11は、モーダルごとに正解となる矩形を取得する(ステップS202)。次に、信号変形部208は、入力された信号に対し変形を行う(ステップS203)。
【0093】
次に、特徴抽出部201は、入力信号又は変形された信号から特徴量を抽出する(ステップS204)。次に、物体候補算出部202は、特徴抽出部201によって抽出された特徴量から物体候補を算出する(ステップS205)。次に、特徴統合部203は、物体候補算出部202によって抽出された矩形領域に対応する特徴量を、特徴抽出部201から抽出し、これらを統合する(ステップS206)。
【0094】
次に、矩形検出部204は、特徴統合部203によって結合された特徴量と、物体候補算出部202によって生成される物体候補とから、各入力モーダルごとに、矩形に存在する物体のクラスと矩形の座標を出力する(ステップS207)。次に、出力部30は、矩形検出部204によって検出された矩形を出力する(ステップS208)。以上で、
図6のフローチャートが示す、物体検出装置1aの動作が終了する。
【0095】
以上説明したように、本発明の第2の実施形態における物体検出装置1aは、矩形検出部204によって各モーダルにおいて算出された矩形に基づいて、モーダルごとに1つの物体及び1つの画像ごとに1つの矩形を割り当てる。本実施形態における物体検出装置1aは、各入力モーダルごとに、矩形に存在する物体のクラスと矩形の座標とをそれぞれ出力する。このような構成を備えることで、本実施形態における物体検出装置1aは、モーダル間に大きな空間的な不整合があった場合であっても、より高精度に物体検出を行うことが可能できる。
【0096】
また、本発明の第2の実施形態における物体検出装置1aは、矩形検出部204によって各モーダルにおいて算出された矩形に基づいて、モーダルごとに1つの物体及び1つの画像ごとに1つの矩形を割り当て、マルチモーダル矩形枝刈部207によって残りを削除する。これにより、本実施形態における物体検出装置1aは、過剰に検出された矩形をより高精度に除去することができる。そのため、本実施形態における物体検出装置1aは、モーダル間に大きな空間的な不整合がある場合であっても、より高精度に物体検出を行うことができる。
【0097】
上述した実施形態によれば、物体検出装置は、信号取得部と、抽出部と、候補算出部と、統合部と、検出部と、出力部とを備える。例えば、物体検出装置は、実施形態における物体検出装置1aであり、信号取得部は、実施形態における信号入力部10であり、抽出部は、実施形態における特徴抽出部201であり、候補算出部は、実施形態における物体候補算出部202であり、統合部は、実施形態における特徴統合部203であり、検出部は、実施形態における矩形検出部204であり、出力部は、実施形態における出力部30である。
【0098】
信号取得部は、同一の物体が複数種類のセンサによって計測された結果を示す入力信号を複数種類のセンサからそれぞれ取得する。例えば、センサは、実施形態におけるモーダルである。抽出部は、入力信号ごとに、当該入力信号から特徴量を抽出する。候補算出部は、抽出部によって抽出された特徴量から、入力信号における物体の候補位置を示す候補矩形の座標を算出する。統合部は、各々の候補矩形に対応する特徴量を統合する。検出部は、特徴量と候補矩形とに基づいて、各々の入力信号に対応する候補矩形内に存在する物体のクラスと候補矩形の座標とを検出する。出力部は、検出部によって検出された物体のクラスと候補矩形の座標とを出力する。
【0099】
なお、物体検出装置は、矩形枝刈部をさらに備えていてもよい。例えば、矩形枝刈部は、実施形態におけるマルチモーダル矩形枝刈部207である。矩形枝刈部は、検出部によって検出された入力信号ごとの複数の候補矩形を、入力信号ごとに1つの候補矩形に絞り込む。
【0100】
また、上述した実施形態によれば、物体検出学習装置は、信号取得部と、教師データ取得部と、抽出部と、候補算出部と、統合部と、検出部と、重複度算出部と、パラメタ更新部とを備える。例えば、物体検出学習装置は、実施形態における物体検出学習装置1であり、信号取得部は、実施形態における信号入力部10であり、教師データ取得部は、実施形態における矩形入力部11であり、抽出部は、実施形態における特徴抽出部201であり、候補算出部は、実施形態における物体候補算出部202であり、統合部は、実施形態における特徴統合部203であり、検出部は、実施形態における矩形検出部204であり、重複度算出部は、マルチモーダル重複度算出部205であり、パラメタ更新部は、実施形態におけるパラメタ更新部209である。
【0101】
信号取得部は、同一の物体が複数種類のセンサによって計測された結果を示す入力信号を前記複数種類のセンサからそれぞれ取得する。例えば、センサは、実施形態におけるモーダルである。教師データ取得部は、入力信号ごとに、物体の位置を示す矩形であって、正解となる矩形を示す教師データを取得する。例えば、正解となる矩形とは、実施形態における正解矩形である。抽出部は、入力信号ごとに、当該入力信号から特徴量を抽出する。候補算出部は、抽出部によって抽出された特徴量から、入力信号における物体の候補位置を示す候補矩形の座標を算出する。統合部は、各々の候補矩形に対応する特徴量を統合する。検出部は、特徴量と候補矩形とに基づいて、各々の入力信号に対応する候補矩形内に存在する物体のクラスと候補矩形の座標とを検出する。重複度算出部は、検出部又は候補算出部によって算出された入力信号ごとの候補矩形と、教師データ取得部によって取得された矩形とに基づいて、特徴量の重複度を算出する。例えば、重複度とは、実施形態におけるマルチモーダル重複度である。パラメタ更新部は、検出部によって検出された候補矩形又は候補算出部によって取得された候補矩形の座標に基づいて、入力信号から物体を検出する学習モデルのパラメタを更新する。
【0102】
なお、上記の物体検出学習装置において、重複度算出部は、重複度として、入力信号ごとのIntersection over Unionの値に対して、線形和、算術平均、又は調和平均を行うことによって算出されるマルチモーダル重複度を算出するようにしてもよい。
【0103】
なお、物体検出学習装置は、サンプリング部をさらに備えていてもよい。例えば、サンプリング部は、実施形態におけるサンプリング部206である。サンプリング部は、重複度算出部によって算出された重複度が相対的に高いポジティブサンプルと、重複度算出部によって算出された重複度が相対的に低いネガティブサンプルとを抽出する。この場合、パラメタ更新部は、サンプリング部によるサンプリングの結果に基づいてパラメタを更新する。
【0104】
なお、物体検出学習装置は、矩形枝刈部をさらに備えていてもよい。矩形枝刈部は、例えば、実施形態におけるマルチモーダル矩形枝刈部207である。矩形枝刈部は、検出部によって検出された入力信号ごとの複数の候補矩形を、入力信号ごとに1つの候補矩形に絞り込む。この場合、パラメタ更新部は、矩形枝刈部によって絞り込まれた候補矩形に基づいてパラメタを更新する。
【0105】
上述した実施形態における物体検出学習装置1及び物体検出装置1aの一部又は全部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記録装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものを含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0106】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0107】
1・・・物体検出学習装置、1a・・・物体検出装置、10・・・信号入力部、11・・・矩形入力部、20・・・物体検出学習処理部、20a・・・物体検出処理部、21・・・記憶部、30・・・出力部、201・・・特徴抽出部、202・・・物体候補算出部、203・・・特徴統合部、204・・・矩形検出部、205・・・マルチモーダル重複度算出部、206・・・サンプリング部、207・・・マルチモーダル矩形枝刈部、208・・・信号変形部、209・・・パラメタ更新部、306・・・サンプリング部