IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

特開2023-167528画像物体検出装置、画像物体検出方法、及びプログラム
<>
  • 特開-画像物体検出装置、画像物体検出方法、及びプログラム 図1
  • 特開-画像物体検出装置、画像物体検出方法、及びプログラム 図2
  • 特開-画像物体検出装置、画像物体検出方法、及びプログラム 図3
  • 特開-画像物体検出装置、画像物体検出方法、及びプログラム 図4
  • 特開-画像物体検出装置、画像物体検出方法、及びプログラム 図5
  • 特開-画像物体検出装置、画像物体検出方法、及びプログラム 図6
  • 特開-画像物体検出装置、画像物体検出方法、及びプログラム 図7
  • 特開-画像物体検出装置、画像物体検出方法、及びプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023167528
(43)【公開日】2023-11-24
(54)【発明の名称】画像物体検出装置、画像物体検出方法、及びプログラム
(51)【国際特許分類】
   G06V 10/80 20220101AFI20231116BHJP
   G06V 20/56 20220101ALI20231116BHJP
【FI】
G06V10/80
G06V20/56
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022078792
(22)【出願日】2022-05-12
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504202472
【氏名又は名称】大学共同利用機関法人情報・システム研究機構
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】孫 泳青
(72)【発明者】
【氏名】坂東 幸浩
(72)【発明者】
【氏名】日和▲崎▼ 祐介
(72)【発明者】
【氏名】劉 弘
(72)【発明者】
【氏名】佐藤 真一
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096BA04
5L096CA02
5L096DA02
5L096FA02
5L096FA34
5L096FA64
5L096FA69
5L096GA59
5L096HA11
5L096JA11
5L096MA07
(57)【要約】
【課題】良好でない天気の状態で撮影された画像から、良好な天気の状態の場合と同等の精度で物体を検出する。
【解決手段】画像に表示される天気の特徴を示す天気特徴モデルを生成する天気特徴モデル生成部と、物体検出対象の画像データから特徴マップを生成する特徴マップ生成部と、前記特徴マップ生成部が生成した特徴マップに対して、前記天気特徴モデル生成部が生成した前記天気特徴モデルを因果介入する結合を行うことにより、天気による影響を抑制した特徴マップを生成する結合部と、前記結合部が生成する特徴マップから物体検出を行う物体検出部と、を備える画像物体検出装置。
【選択図】図1
【特許請求の範囲】
【請求項1】
画像に表示される天気の特徴を示す天気特徴モデルを生成する天気特徴モデル生成部と、
物体検出対象の画像データから特徴マップを生成する特徴マップ生成部と、
前記特徴マップ生成部が生成した特徴マップに対して、前記天気特徴モデル生成部が生成した前記天気特徴モデルを因果介入する結合を行うことにより、天気による影響を抑制した特徴マップを生成する結合部と、
前記結合部が生成する特徴マップから物体検出を行う物体検出部と、
を備える画像物体検出装置。
【請求項2】
前記天気特徴モデル生成部は、
複数の天気の種類の各々に対応する天気の状態が撮影されている複数の画像データの各々から特徴マップを生成し、生成した前記特徴マップをクラスタリングし、クラスタリングにより得られたクラスタの各々の中心特徴ベクトルを合成して前記天気特徴モデルを生成する、
を備える請求項1に記載の画像物体検出装置。
【請求項3】
前記天気特徴モデル生成部は、
ランダム雑音の画像から前記天気特徴モデルを生成する、
を備える請求項1に記載の画像物体検出装置。
【請求項4】
前記ランダム雑音は、白色ガウス雑音である、
請求項3に記載の画像物体検出装置。
【請求項5】
前記結合部は、
前記特徴マップの転置と、前記天気特徴モデルとの積に対してソフトマックス関数を適用して得られるデータと、前記特徴マップとのアダマール積を算出することにより、前記特徴マップに対して、前記天気特徴モデルを因果介入する結合を行う、
請求項1から請求項4のいずれか一項に記載の画像物体検出装置。
【請求項6】
前記結合部は、
前記特徴マップのチャンネルの各々と、前記天気特徴モデルのチャンネルの各々との相関行列を算出し、算出した相関行列と、前記天気特徴モデルとに基づいて、前記特徴マップのチャンネルごとの天気の特徴を含む部分を抽出し、抽出した前記天気の特徴を含む部分と、前記特徴マップとによって前記特徴マップから天気の特徴を取り除く残差計算を行うことにより、前記特徴マップに対して、前記天気特徴モデルを因果介入する結合を行う、
請求項1から請求項4のいずれか一項に記載の画像物体検出装置。
【請求項7】
画像に表示される天気の特徴を示す天気特徴モデルを生成する天気特徴モデル生成ステップと、
物体検出対象の画像データから特徴マップを生成する特徴マップ生成ステップと、
前記特徴マップ生成ステップにより生成された特徴マップに対して、前記天気特徴モデル生成ステップにより生成された前記天気特徴モデルを因果介入する結合を行うことにより、天気による影響を抑制した特徴マップを生成する結合ステップと、
前記結合ステップにより生成された特徴マップから物体検出を行う物体検出ステップと、
を含む画像物体検出方法。
【請求項8】
コンピュータを、
画像に表示される天気の特徴を示す天気特徴モデルを生成する天気特徴モデル生成手段、
物体検出対象の画像データから特徴マップを生成する特徴マップ生成手段、
前記特徴マップ生成手段が生成した特徴マップに対して、前記天気特徴モデル生成手段が生成した前記天気特徴モデルを因果介入する結合を行うことにより、天気による影響を抑制した特徴マップを生成する結合手段、
前記結合手段が生成する特徴マップから物体検出を行う物体検出手段、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像物体検出装置、画像物体検出方法、及びプログラムに関する。
【背景技術】
【0002】
近年、深層学習を利用して画像から物体を検出する数多くの技術が提案されている。このような物体検出技術は、今後、自動運転の分野に利用されていくことが見込まれている。これまでに提案されている物体検出技術は、晴天などの良好な天気の状態で撮影された画像については、優れた物体検出能力を備えていることが報告されている。ただし、当該技術を自動運転の分野に適用するためには、様々な天気の状態において、良好な天気の状態の場合と同等の物体検出能力を有することが要求される。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Claudio Michaelis et al. ,”Benchmarking Robustness in Object Detection : Autonomous Driving when Winter is Coming”,[online], 31th March 2020, arXiv preprint, arXiv:1907.07484,[令和4年3月17日検索],インターネット<URL:https://arxiv.org/pdf/1907.07484.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、厳しい気象条件の環境、光の少ない場所や夜間の環境の下では、カメラの撮像素子のセンサノイズが増加するため場合、撮影された画像の品質は低下する。そのため、これまでに提案されている物体検出技術によって、例えば、雨や霧などの良好でない天気の状態において撮影された画像を対象として物体検出を行った場合、物体検出の精度が、良好な天気の状態において撮影された画像を対象とする場合よりも低くなるという問題がある(例えば、非特許文献1参照)。
【0005】
本発明は、良好でない天気の状態で撮影された画像から、良好な天気の状態の場合と同等の精度で物体を検出するができる技術の提供を目的としている。
【課題を解決するための手段】
【0006】
本発明の一態様は、画像に表示される天気の特徴を示す天気特徴モデルを生成する天気特徴モデル生成部と、物体検出対象の画像データから特徴マップを生成する特徴マップ生成部と、前記特徴マップ生成部が生成した特徴マップに対して、前記天気特徴モデル生成部が生成した前記天気特徴モデルを因果介入する結合を行うことにより、天気による影響を抑制した特徴マップを生成する結合部と、前記結合部が生成する特徴マップから物体検出を行う物体検出部と、を備える画像物体検出装置である。
【0007】
本発明の一態様は、画像に表示される天気の特徴を示す天気特徴モデルを生成する天気特徴モデル生成ステップと、物体検出対象の画像データから特徴マップを生成する特徴マップ生成ステップと、前記特徴マップ生成ステップにより生成された特徴マップに対して、前記天気特徴モデル生成ステップにより生成された前記天気特徴モデルを因果介入する結合を行うことにより、天気による影響を抑制した特徴マップを生成する結合ステップと、前記結合ステップにより生成された特徴マップから物体検出を行う物体検出ステップと、を含む画像物体検出方法である。
【0008】
本発明の一態様は、コンピュータを、画像に表示される天気の特徴を示す天気特徴モデルを生成する天気特徴モデル生成手段、物体検出対象の画像データから特徴マップを生成する特徴マップ生成手段、前記特徴マップ生成手段が生成した特徴マップに対して、前記天気特徴モデル生成手段が生成した前記天気特徴モデルを因果介入する結合を行うことにより、天気による影響を抑制した特徴マップを生成する結合手段、前記結合手段が生成する特徴マップから物体検出を行う物体検出手段、として機能させるためのプログラムである。
【発明の効果】
【0009】
本発明により、良好でない天気の状態で撮影された画像から、良好な天気の状態の場合と同等の精度で物体を検出することが可能になる。
【図面の簡単な説明】
【0010】
図1】第1の実施形態の画像物体検出装置の構成を示すブロック図である。
図2】第1の実施形態の画像物体検出装置の詳細構成を示すブロック図である。
図3】第1の実施形態の天気特徴モデル生成部による処理の流れを示す図である。
図4】第1の実施形態の天気特徴モデル生成部による処理の概要を示す図である。
図5】第1の実施形態における物体検出の処理の流れを示す図である。
図6】第1の実施形態の結合部による処理の概要を示す図である。
図7】第2の実施形態の画像物体検出装置の構成を示すブロック図である。
図8】第2の実施形態の天気特徴モデル生成部による処理の流れを示す図である。
【発明を実施するための形態】
【0011】
(第1の実施形態)
以下、本発明の実施形態について図面を参照して説明する。図1は、第1の実施形態による画像物体検出装置1の構成を示すブロック図である。画像物体検出装置1は、天気特徴モデル生成部11、天気特徴モデル記憶部12、画像データ記憶部13、特徴マップ生成部14、結合部15、及び物体検出部16を備える。
【0012】
天気特徴モデル生成部11は、画像に表示される天気の特徴を示す天気特徴モデルを生成する。天気特徴モデル記憶部12は、天気特徴モデル生成部11が生成する天気特徴モデルを記憶する。画像データ記憶部13は、物体検出の対象となる画像データを記憶する。特徴マップ生成部14は、画像データ記憶部13が記憶する画像データから特徴マップを生成する。結合部15は、特徴マップ生成部14が生成した特徴マップと、天気特徴モデル記憶部12が記憶する天気特徴モデルとを結合することにより、天気による影響を抑制した特徴マップを生成する。ここで、結合部15が行う特徴マップと、天気特徴モデルとを結合する処理とは、いわゆる構造的因果モデルにおける介入である因果介入(causal intervention)による結合の処理である。当該処理を行うことにより、特徴マップに対応する画像データが、例えば、雨の状態で撮影された画像データである場合、画像データにおいて雨による影響が抑制されることになる。物体検出部16は、結合部15が生成した特徴マップから、当該特徴マップに対応する画像データに含まれている物体の種類、位置、及び範囲を検出する物体検出の処理を行う。
【0013】
図2は、画像物体検出装置1の詳細な構成の一例を示すブロック図であり、物体検出の手法として、mask R-CNN(Region based Convolutional Neural Network)の手法を適用した例を示している。画像データ記憶部13は、例えば、物体検出の対象となる画像データを予め記憶する。画像データは、例えば、カラーの画像データであり、R(Red)、G(Green)、B(Blue)の各々のチャンネルの2次元の画像データであって同一サイズの2次元の画像データが3チャンネル分、重ね合わせられた3次元配列のデータである。ここで、サイズとは、2次元の画像データの縦と横のピクセル数、言い換えると、2次元の配列データの縦と横のデータ数によって定められる大きさである。
【0014】
特徴マップ生成部14は、CNN(Convolutional Neural Network)層21を備えており、画像データ記憶部13が記憶する画像データに対してCNN層21により畳み込み演算を行って特徴マップ50を生成する。ここで、特徴マップ50は、次式(1)により定義される。
【0015】
【数1】
【0016】
式(1)において、「F」は、特徴マップ50を示しており、「R」は、実数空間を示す数学記号である。Rの上付き添え字の「d」は、次元数であり、「c」は、チャンネル数である。すなわち、式(1)は、特徴マップ50がd×c次元実数空間の要素として表されることを示している。ここでは、CNN層21は、画像データ記憶部13が記憶する2次元の画像データがチャンネル方向に3つ重ね合わせられたデータに対して畳み込み演算を行うため、畳み込み演算により得られる特徴マップ50の次元数「d」は、d=2になる。チャンネル数「c」は、CNN層21において適用されるフィルタのチャンネル数などに応じた値になる。
【0017】
より詳細には、CNN層21は、CNNのみを含むFCN(Fully Convolutional Network)などの深層ニューラルネットワークが適用されてもよいし、VGG(Visual Geometry Group)、ResNet(Residual Network)などのCNNと、CNN以外のニューラルネットワークとを含む深層ニューラルネットワークが適用されてもよい。CNN層21による畳み込み演算によって得られる特徴マップ50は、チャンネル数「c」個の同一サイズの2次元配列のデータが、チャンネル方向に重ね合わせられた3次元配列のデータになる。重ね合わせられる2次元配列のデータは、縦と横のデータ数が同一であるデータである。当該2次元配列のデータのサイズは、特徴マップ生成部14が画像データ記憶部13から読み出す画像データのサイズを縮小したサイズであって、特徴マップ生成部14が画像データ記憶部13から読み出す画像データのサイズ及びCNN層21のフィルタのサイズに応じたサイズになる。
【0018】
物体検出部16は、RPN(Region Proposal Network)層22と、BoxHead部23とを備える。RPN層22は、特徴マップ50において物体が存在する位置と範囲を検出するニューラルネットワークである。BoxHead部23は、RoI(Region of Interest)-Align層31、全結合層32,33-1,33-2、及びCNN層34,35を備える。RoI-Align層31は、結合部15が生成する特徴マップ51、すなわち、天気による影響が抑制された特徴マップ51と、RPN層22の出力とに基づいて、特徴マップ51において物体が存在する部分を抽出し、抽出した部分のデータに対してPooling処理を行い、Pooling処理を行った結果を示すデータを出力するニューラルネットワークである。
【0019】
全結合層32,33-1,33-2は、全結合のニューラルネットワークである。全結合層32,33-1は、RoI-Align層31が出力するデータが全結合層32に与えられと、与えられたデータから物体の種類を示すクラスのデータを算出する。全結合層33-1の出力段は、Softmax関数になっており、全結合層32,33-1は、物体のクラスを示すデータとして、当該物体が、予め定められる複数のクラスのいずれのクラスに属するかを確率的に示すデータを算出する。全結合層32,33-2は、RoI-Align層31が出力するデータが全結合層32に与えられると、与えられたデータから物体が存在する位置と範囲を示すデータ、いわゆるバウンディングボックスの位置と範囲を示すデータを算出する。
【0020】
CNN層34,35は、畳み込み演算を行うニューラルネットワークである。CNN層34,35は、RoI-Align層31が出力するデータがCNN層34に与えられると、与えられたデータから物体の部分に対して適用するマスクの種類を示すデータを出力する。なお、CNN層21、RPN層22、全結合層32,33-1,33-2、及びCNN層34,35を構成するニューラルネットワークのニューロンには、物体検出の処理が行われる前に、学習済みの重みとバイアスとが適用される。
【0021】
天気特徴モデル生成部11は、天気画像データ記憶部41、特徴マップ生成部42、分類部43、検出部44、及び合成部45を備える。天気画像データ記憶部41は、様々な天気の状態で撮影された複数の画像データを予め記憶する。天気画像データ記憶部41が記憶する画像データは、画像データ記憶部13が記憶する画像データと同様に、RGBのカラーの画像データである。
【0022】
特徴マップ生成部42は、特徴マップ生成部14と同様に、例えば、FCN、VGG、ResNetなどのCNN層を備えており、天気画像データ記憶部41が記憶する複数の画像データの各々から特徴マップを生成する。分類部43は、特徴マップ生成部42が生成する複数の特徴マップをクラスタリングする。検出部44は、分類部43がクラスタリングした各クラスタの中心特徴ベクトルを検出する。合成部45は、検出部44が検出した中心特徴ベクトルを合成して、様々な天気の特徴を一括して表すモデルである天気特徴モデル70を生成する。ここで、天気特徴モデル70は、次式(2)により定義される。
【0023】
【数2】
【0024】
式(2)において、「W」は、天気特徴モデル70を示しており、式(2)は、天気特徴モデル70がd×h次元実数空間の要素として表されることを示している。式(2)において、次元数「d」は、特徴マップ50と同様にd=2である。合成部45は、特徴マップ50の1チャンネル分の2次元配列のデータと同一のサイズの2次元配列のデータが、チャンネル数「h」個分、重ね合わせられた3次元配列のデータになるように中心特徴ベクトルを合成して天気特徴モデル70を生成する。チャンネル数「h」は、分類部43がクラスタリングした際に得られるクラスタの数、すなわち、天気の種類の数である。
【0025】
(第1の実施形態の天気特徴モデル生成部による処理)
図3図4を参照しつつ、第1の実施形態の天気特徴モデル生成部11による処理について説明する。図3に示す処理が開始される前に、天気画像データ記憶部41には、予め定められる複数の種類の天気の状態で撮影された複数の画像データが予め書き込まれる。ここでは、一例として、図4に示すように、天気画像データ記憶部41には「雨」、「霧」、「雪」、「曇り」、「薄曇り」の各々の状態で撮影された雨の画像データ52-1、霧の画像データ52-2、雪の画像データ52-3、曇りの画像データ52-4、薄曇りの画像データ52-5,…という複数の画像データが予め書き込まれているものとする。図4では、雨の天気に対する画像データとして、1つの雨の画像データ52-1を示しているが、1つの天気の種類に対して、複数の画像データが天気画像データ記憶部41に記憶されているものとする。
【0026】
雨の画像データ52-1、霧の画像データ52-2、雪の画像データ52-3、曇りの画像データ52-4、薄曇りの画像データ52-5,…は、任意の位置で撮影された画像データであり、多くの画像データにおいて撮影位置が異なっている方が、最終的に得られる天気特徴モデル70がより一般化されることになる。ただし、一部の画像データにおいて同一の位置で撮影された画像データが含まれていてもよい。
【0027】
特徴マップ生成部42は、天気画像データ記憶部41に記憶されている雨の画像データ52-1、霧の画像データ52-2、雪の画像データ52-3、曇りの画像データ52-4、薄曇りの画像データ52-5,…を1つずつ読み出し、読み出した画像データの各々に対して畳み込み演算を行って特徴マップを生成する。すなわち、図4に示すように、特徴マップ生成部42は、雨の画像データ52-1に対して雨の画像データの特徴マップ53-1を生成する。特徴マップ生成部42は、雨の画像データ52-1以外の霧の画像データ52-2、雪の画像データ52-3、曇りの画像データ52-4、薄曇りの画像データ52-5,…の各々についても、各々に対応する特徴マップ53-2,53-3,53-4,53-5,…を生成する。特徴マップ生成部42は、生成した特徴マップ53-1,53-2,53-3,53-4,53-5,…を分類部43に出力する(ステップSa1)。
【0028】
分類部43は、特徴マップ生成部42が出力する特徴マップ53-1,53-2,53-3,53-4,53-5,…を取り込み、取り込んだ特徴マップ53-1,53-2,53-3,53-4,53-5,…を、例えば、混合ガウスモデル(GMM(Gaussian Mixture Model)によってクラスタリングする。例えば、分類部43は、図4の散布図60に示すように、ベクトル空間内に特徴マップ53-1,53-2,53-3,53-4,53-5,…をプロットする。散布図60において、「〇」、「☆」、「◇」、「□」、「△」のマークが、特徴マップ53-1,53-2,53-3,53-4,53-5,…をプロットした結果である。
【0029】
上記したように、1つの天気の種類に対して、複数の画像データが天気画像データ記憶部41に記憶されているので、例えば、雨の特徴マップは、特徴マップ53-1以外にも複数存在することになる。散布図60では、特徴マップ53-1を含む雨の特徴マップの各々が示す位置が、「〇」のマークで示されている。同様に、特徴マップ53-2を含む霧の特徴マップの各々が示す位置は、「☆」のマークで示されている。特徴マップ53-3を含む雪の特徴マップの各々が示す位置は、「◇」のマークで示されている。特徴マップ53-4を含む曇りの特徴マップの各々が示す位置は、「□」のマークで示されている。特徴マップ53-5を含む薄曇りの特徴マップの各々が示す位置は、「△」のマークで示されている。
【0030】
ベクトル空間内にプロットした際には、プロットした点の各々は、「〇」、「☆」、「◇」、「□」、「△」のように天気の種類ごとに分類されていないが、分類部43が、クラスタリングを行うことにより、プロットした点の各々が天気の種類ごとに分類されることになる。なお、図4に示す散布図60は、理解を容易にするために、一例として、2次元のベクトル空間においてクラスタリングが行われている例を示しているが、クラスタリングの対象となる特徴マップ53-1,53-2,53-3,53-4,53-5,…は、3次元配列のデータである。そのため、分類部43によるクラスタリングは、2次元を超える多次元のベクトル空間において行われる場合もある。分類部43は、クラスタリングした結果を示すデータを検出部44に出力する(ステップSa2)。
【0031】
検出部44は、分類部43が出力するクラスタリングした結果を示すデータを取り込み、取り込んだデータに基づいて、各クラスタの中心特徴ベクトル54-1,54-2,54-3,54-4,54-5を検出する。検出部44は、検出した中心特徴ベクトル54-1,54-2,54-3,54-4,54-5の各々を示すデータを合成部45に出力する(ステップSa3)。合成部45は、検出部44が出力する中心特徴ベクトル54-1,54-2,54-3,54-4,54-5の各々を示すデータを取り込み、取り込んだデータを合成して「雨」、「霧」、「雪」、「曇り」、「薄曇り」の5種類の天気の特徴を一括して表すモデルであって3次元配列のデータである天気特徴モデル70を生成する。ここで、中心特徴ベクトル54-1,54-2,54-3,54-4,54-5の各々を示すデータを合成する処理とは、例えば、中心特徴ベクトル54-1,54-2,54-3,54-4,54-5の各々の内積を算出する処理である(ステップSa4)。合成部45は、生成した天気特徴モデル70のデータを天気特徴モデル記憶部12に書き込んで記憶させる(ステップSa5)。
【0032】
(第1の実施形態における物体検出の処理)
図5図6を参照しつつ、第1の実施形態の画像物体検出装置1による物体検出の処理について説明する。図5に示す処理が開始される前に、天気特徴モデル生成部11により天気特徴モデル70が生成され、天気特徴モデル記憶部12には、天気特徴モデル生成部11によって生成された天気特徴モデル70のデータが書き込まれる。CNN層21、RPN層22、全結合層32,33-1,33-2、及びCNN層34,35を構成するニューラルネットワークの各々のニューロンには、学習済みの重みとバイアスとが適用される。
【0033】
特徴マップ生成部14は、画像データ記憶部13から画像データを読み出し、読み出した画像データに対してCNN層21により畳み込み演算を行って特徴マップ50を生成する。特徴マップ生成部14は、生成した特徴マップ50を結合部15と、物体検出部16とに出力する(ステップSb1)。結合部15は、特徴マップ生成部14が出力する特徴マップ50を取り込む。結合部15は、天気特徴モデル記憶部12から天気特徴モデル70のデータを読み出す。結合部15は、特徴マップ50と、天気特徴モデル70とを結合する処理、すなわち、次式(3)により示される因果介入の結合の処理を行う。
【0034】
【数3】
【0035】
式(3)において、左辺のサーカムフレックス付きのFは、結合部15が生成する特徴マップ51を示している。右辺の第1項の式は、特徴マップ50の転置(F)と、天気特徴モデル70(W)との積、すなわち3次元配列同士の積に対してソフトマックス関数を適用する式である。ここで、特徴マップ50の転置とは、以下のようにして、特徴マップ50の要素を入れ替えることである。すなわち、特徴マップ50が、X×Y×cの3次元配列のデータであって、c個のチャンネルごとのXとYの2次元配列のデータの各々の要素を(x,y)で表すとする。ただし、x=1~Xであり、y=1~Yである。特徴マップ50の転置とは、特徴マップ50において、チャンネル方向を維持したまま、チャンネルごとの2次元配列のデータの(x,y)の要素を(y,x)の要素になるように要素を入れ替えることである。
【0036】
式(3)の右辺の第1項の式により、h=cの場合、言い換えると、天気特徴モデル70(すなわち、天気特徴モデルW)のチャンネル数hが、特徴マップ50(すなわち、特徴マップF)のチャンネル数cに一致している場合、特徴マップ50と同一サイズ及び同一チャンネル数の3次元配列のデータであって、各チャンネルにおいて天気の影響により品質が低下している要素の値が大きな値になる3次元配列のデータが得られることになる。例えば、図6に示すように特徴マップ50が、4×4の2次元配列のデータを、チャンネル数「c」に一致する個数、重ね合わせた3次元配列のデータであり、天気特徴モデル70が、4×4の2次元配列のデータを、チャンネル数「h」に一致する個数、重ね合わせた3次元配列のデータであるとする。
【0037】
h=cである場合、結合部15は、特徴マップ50を転置した3次元配列のデータと、天気特徴モデル70の3次元配列のデータとの積を算出することにより、特徴マップ50と同一サイズ及び同一チャンネル数、すなわち4×4×cの3次元配列のデータが得られることになる。結合部15は、算出した3次元配列のデータに対して、チャンネルごとの16個の要素の値に対してソフトマックス関数を適用し、ソフトマックス関数の出力値の各々を16個の要素の値とする。これにより、16個の要素の値を合計すると「1」になり、特徴マップ50において天気の影響により品質が低下している要素の値が大きな値になっているc個の2次元配列のデータが得られることになる。結合部15は、c個の2次元配列のデータをチャンネル方向に重ね合わせることにより、特徴マップ50と同一サイズ及び同一チャンネル数の3次元配列のデータ71を生成する。
【0038】
式(3)の右辺の「×」は、チャンネルごとのアダマール積を示す演算であり、結合部15は、第1式の結果として得られる3次元配列のデータ71と、特徴マップ50の3次元配列のデータとにおいて、チャンネルごとに、対応する位置の要素の値を乗算する演算を行う。言い換えると、結合部15は、第1式の結果として得られる3次元配列のデータ71のz番目のチャンネルのx行y列の要素の値と、特徴マップ50のz番目のチャンネルのx行y列の要素の値とを乗算した値を、特徴マップ51のz番目のチャンネルのx行y列のピクセルの値にする。ここで、x、y、zは、正の整数であり、図6に示す例の場合、x=1~4であり、y=1~4であり、z=1~cである。これにより、特徴マップ50において、天気の影響により品質が低下した要素の値が強調され、天気による影響が抑制された特徴マップ51が得られることになる。
【0039】
これに対して、天気特徴モデル70のチャンネル数hが、h=cでない場合、上記の手順では、特徴マップ50と、天気特徴モデル70との積を算出することができない。h=cでない場合に、結合部15が特徴マップ51を生成する手順は、以下に示すような手順になる。特徴マップ50のチャンネルごとの天気の特徴を含む部分をWFとする(以下、天気特徴部分WFという)。ここで、天気特徴部分WFは、次式(4)により定義される2次元配列のデータ、言い換えると、3次元配列のデータの1チャンネル分のデータであり、特徴マップ50が、図6に示すように4×4×cの3次元配列のデータである場合、天気特徴部分WFは、4×4×1の3次元配列のデータになる。
【0040】
【数4】
【0041】
結合部15は、次式(5)によりcチャンネル分の天気特徴部分WFを算出する。
【0042】
【数5】
【0043】
式(5)において、j=1~cであり、WFは、cチャンネルを有する特徴マップ50のj番目のチャンネルの天気特徴部分WFである。iは、1~hであり、mj,iは、j番目のmを示しており、mは、次式(6)によって算出することができる。なお、次式(6)において、右辺の「F」は、特徴マップ50(すなわち、特徴マップF)のj番目のチャンネルを示している。
【0044】
【数6】
【0045】
式(5)及び式(6)において、「W・,i」は、天気特徴モデル70(すなわち、天気特徴モデルW)のi番目のチャンネルの特徴量である。mは、次式(7)によって定義されるため、mj,i、すなわち行列mは、次式(8)によって定義される。
【0046】
【数7】
【0047】
【数8】
【0048】
式(8)に示すように、行列mは、天気特徴モデル70のh個の特徴量と、特徴マップ50のc個の特徴量の相関を示すことになる。すなわち、式(6)は、物体検出の対象の画像データの特徴マップ50(すなわち、特徴マップF)のj番目の特徴と、全ての天気の種類の各々の中心特徴ベクトルを合成して得られる天気特徴モデル70(すなわち、天気特徴モデルW)との類似度として相関行列mを算出する式ということになる。この類似度を、特徴マップ50のc個のチャンネルの各々について算出することにより、相関行列mj,iが得られることになる。この相関行列mj,iを天気の特徴を示す天気特徴の重みとして、式(5)により、天気特徴の重み付き和を算出し、天気の影響をうける特徴マップ50のj番目の特徴を示すWFを算出する。特徴マップ50のチャンネル数はcであるため、結合部15は、WFをc個算出することになる。
【0049】
結合部15は、特徴マップ50(すなわち、特徴マップF)と、算出したc個の天気特徴部分WF(j=1~c)をチャンネル方向に重ね合わせた3次元配列のデータとよって、c個のチャンネルごとに次式(9)の右辺に示す残差計算を行って、特徴マップ50から天気の影響を取り除いて左辺に示す特徴マップ51を生成する。
【0050】
【数9】
【0051】
結合部15は、生成した特徴マップ51を物体検出部16に出力する(ステップSb2)。なお、上記のh=cでない場合の手順は、h=cの場合にも適用することが可能である。
【0052】
物体検出部16は、特徴マップ生成部14が出力する特徴マップ50と、結合部15が出力する特徴マップ51とを取り込んで、以下に示す物体検出処理を行う。RPN層22は、特徴マップ50を取り込み、物体が存在する位置を検出する。RoI-Align層31は、特徴マップ51と、RPN層22の出力とを取り込み、取り込んだRPN層22の出力に基づいて、特徴マップ51において物体が存在する部分を抽出する。RoI-Align層31は、抽出した部分のデータに対してPooling処理を行い、Pooling処理を行った結果を示すデータを全結合層32と、CNN層34とに出力する。
【0053】
全結合層32が、RoI-Align層31が出力するデータを取り込むと、全結合層33-1は、取り込んだデータが示す領域に含まれる物体のクラスを示すデータを出力し、全結合層33-2は、取り込んだデータが示す領域に含まれる物体が存在する位置と範囲を示すデータを出力する。CNN層34が、RoI-Align層31が出力するデータを取り込むと、CNN層35は、取り込んだデータが示す領域に含まれる物体の部分に対して適用するマスクの種類を示すデータを出力する(ステップSb3)。
【0054】
特徴マップ生成部14が、画像データ記憶部13から読み出した画像データに対して、物体のクラスを示すデータ、物体が存在する位置と範囲を示すデータ、物体に対して適用するマスクの種類を示すデータを適用することにより、例えば、画像データに表示されている物体の各々が、バウンディングボックスで囲まれると共に、バウンディングボックスに関連付けられて物体のクラスを示すデータが表示され、更に、各々の物体の部分が異なる色でマスクされることになる。
【0055】
上記の第1の実施形態の画像物体検出装置1において、天気特徴モデル生成部11は、画像に表示される天気の特徴を示す天気特徴モデル70を生成する。特徴マップ生成部14は、物体検出対象の画像データから特徴マップ50を生成する。結合部15は、特徴マップ生成部14が生成した特徴マップ50に対して、天気特徴モデル生成部11が生成した天気特徴モデル70を因果介入する結合を行うことにより、天気による影響を抑制した特徴マップ51を生成する。物体検出部16は、結合部15が生成する特徴マップ51から物体検出を行う。天気特徴モデル生成部11が生成する天気特徴モデル70は、様々な種類の天気の状態で撮影された画像から抽出される特徴量に含まれる天気に固有の情報を、天気の種類ごとではなく、様々な天気の種類を一括して表現するモデルであり、別の言い方をすると、様々な天気の種類を網羅して表現する汎用的なモデルということができる。このような特徴を有する天気特徴モデル70を、物体検出対象の画像データの特徴マップ50に対して因果介入する結合を結合部15によって行うことにより、天気による影響が抑制された特徴マップ51が得られることになる。そのため、物体検出部16は、天気による影響が抑制された特徴マップ51に対して物体検出の処理を行うことにより、物体検出対象の画像データが、良好でない天気の状態で撮影された画像データであっても、良好な天気の状態の場合と同等の精度で物体を検出することができる。天気特徴モデル70は、様々な天気の種類に対して汎用的なモデルになっているため、物体検出対象の画像データが、いずれかの種類の天気による影響によって破損している場合でも、破損の内容や破損の程度に関わらず、任意の種類の天気による影響を抑制することができる。したがって、天気特徴モデル70を適用することにより、物体検出のロバスト性を向上させることが可能になる。
【0056】
上記の第1の実施形態において分類部43は、混合ガウスモデルによってクラスタリングを行っているが、例えば、K-means法などの他のクラスタリング手法によってクラスタリングを行うようにしてもよい。
【0057】
上記の第1の実施形態では、天気画像データ記憶部41に記憶される画像データの天気の種類として「雨」、「霧」、「雪」、「曇り」、「薄曇り」という5つの種類を一例として示しているが、少なくとも2種類の異なる天気の種類の画像データが、天気画像データ記憶部41に記憶されていればよい。「雨」、「霧」、「雪」、「曇り」、「薄曇り」以外の天気の状態で撮影された画像データが、天気画像データ記憶部41に記憶されていてもよく、この場合、検出部44は、分類部43が行うクラスタリングによって生成されるクラスタの各々、すなわち、天気の種類の各々に対応する中心特徴ベクトル54-1,54-2,54-3,54-4,54-5,…を検出することになる。
【0058】
(第2の実施形態)
図7は、第2の実施形態による画像物体検出装置1aの構成を示すブロック図である。なお、第2の実施形態において、第1の実施形態と同一の構成については、同一の符号を付し、以下、異なる構成について説明する。画像物体検出装置1aは、天気特徴モデル生成部11a、天気特徴モデル記憶部12、画像データ記憶部13、特徴マップ生成部14、結合部15、及び物体検出部16を備える。
【0059】
第1の実施形態の天気特徴モデル生成部11は、様々な種類の天気の画像データ、すなわち、雨の画像データ52-1、霧の画像データ52-2、雪の画像データ52-3、曇りの画像データ52-4、薄曇りの画像データ52-5,…から天気特徴モデル70を生成していた。ところで、雨や霧などの天気の状態で撮影を行った場合、撮影により得られた画像において、天気による影響は、画像の各ピクセルに一様に分布していることが観察される。このことを踏まえて、第2の実施形態の天気特徴モデル生成部11aは、実際に撮影した天気の画像データから天気特徴モデル70を生成する代わりに、各ピクセルに雑音が一様に現れるランダム雑音の画像を生成し、生成したランダム雑音の画像から天気特徴モデルを生成する。ここで、説明の便宜上、第2の実施形態における天気特徴モデルを、符号70aを付して、以下、天気特徴モデル70aという。
【0060】
(第2の実施形態の天気特徴モデル生成部による処理)
図8は、第2の実施形態の天気特徴モデル生成部11aによる処理の流れを示すフローチャートである。天気特徴モデル生成部11aは、特徴マップ50の各チャンネルの2次元配列のデータと同一サイズのランダム雑音の2次元画像データを、特徴マップ50のチャンネル数分、すなわち「c」個、生成する(ステップSc1)。天気特徴モデル生成部11aは、生成した「c」個のランダム雑音の2次元画像データをチャンネル方向に重ね合わせた3次元配列のデータを天気特徴モデル70aのデータとして生成する(ステップSc2)。
【0061】
なお、ランダム雑音は、1つの2次元画像において一様に雑音が分布している必要がある。そのため、天気特徴モデル生成部11aは、2次元画像データの各ピクセルの画素値が正規分布の乱数になるように2次元画像データを生成する。ランダム雑音の具体例として、例えば、正規分布の不規則な雑音であるガウシアンノイズなどを適用することができ、特に、白色ガウシアンノイズとするのが望ましい。天気特徴モデル70aは、次式(10)により定義される。
【0062】
【数10】
【0063】
式(10)から分かるように、第1の実施形態の天気特徴モデル70と、第2の実施形態の天気特徴モデル70aとは、共に同一の次元数であるd次元の実数空間の要素であるが、チャンネル数が異なる3次元配列のデータである。第2の実施形態の天気特徴モデル70aは、特徴マップ50と同一のサイズ及び同一のチャンネル数のd×c次元実数空間の要素として表される3次元配列のデータである。天気特徴モデル生成部11aは、生成した天気特徴モデル70aのデータを天気特徴モデル記憶部12に書き込んで記憶させる(ステップSc3)。
【0064】
第2の実施形態における物体検出の処理は、図5に示す第1の実施形態の物体検出の処理と同一の処理が行われる。ただし、特徴マップ生成部14が生成する特徴マップ50に対して、結合部15が因果介入の結合を行う天気特徴モデルは、第2の実施形態の天気特徴モデル70aである。これにより、第2の実施形態においても、第1の実施形態と同様に、物体検出の対象の画像データから得られる特徴マップ50において天気による影響の抑制した上で物体検出を行うことが可能になる。
【0065】
上記の第2の実施形態において、天気特徴モデル生成部11aは、c個とは異なる数のh個のランダム雑音を生成し、生成したh個のランダム雑音から天気特徴モデル70aを生成するようにしてもよい。この場合、結合部15は、第1の実施形態において説明したh=cでない場合の手順により、特徴マップ50と、天気特徴モデル70aとから特徴マップ51を生成することになる。
【0066】
上記の第1及び第2の実施形態では、物体検出部16の具体例として、mask R-CNNを適用した例を示している。これに対して、物体検出部16として、例えば、Faster R-CNNやYOLO(You Only Look Once)などの深層ニューラルネットワークを用いた他の物体検出の手法を適用するようにしてもよい。他の物体検出の手法を適用する場合も、mask R-CNNを適用した例と同様に、特徴マップ50に対応する特徴マップが出力として得られる箇所に、結合部15を挿入して、特徴マップ50に天気特徴モデル70,70aを結合する構成になる。
【0067】
上記の第1及び第2の実施形態において、天気画像データ記憶部41と、画像データ記憶部13とが記憶する画像データは、RGBのカラーの画像データであるとしている。これに対して、天気画像データ記憶部41と、画像データ記憶部13とが記憶する画像データは、CMYKのカラーの画像データであってもよいし、グレースケールの画像データであってもよい。天気画像データ記憶部41と、画像データ記憶部13とが記憶する画像データは、同一のカメラによって撮影された画像データであってもよいし、異なるカメラによって撮影された画像データであってもよい。ただし、一方が、RGBのカラーの画像データであって、他方がグレースケールの画像データであるといったドメインの違いが生じないように両方の画像データのドメインが同一になるように撮影する必要がある。
【0068】
上記の第1及び第2の実施形態において、画像データ記憶部13が記憶する画像データの縦と横のピクセル数は、同一の数であってもよいし、異なる数であってもよい。上記の第1の実施形態において、天気画像データ記憶部41と、画像データ記憶部13とが記憶する画像データのサイズは、同一のサイズであっても、異なるサイズであってもよい。天気画像データ記憶部41が記憶する画像データの縦と横のピクセル数は、同一の数であってもよいし、異なる数であってもよい。ただし、上記したように、特徴マップ50のチャンネルごとの2次元配列のデータのサイズと、天気特徴モデル70,70aのチャンネルごとの2次元配列のデータのサイズとが一致している必要がある。そのため、特徴マップ50及び天気特徴モデル70,70aのチャンネルごとの2次元配列のデータのサイズが一致するように、特徴マップ生成部14が備えるCNN層21と、天気特徴モデル生成部11,11aとを構成する必要がある。
【0069】
上述した実施形態における画像物体検出装置1,1aをコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0070】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0071】
1…画像物体検出装置、11…天気特徴モデル生成部、12…天気特徴モデル記憶部、13…画像データ記憶部、14…特徴マップ生成部、15…結合部、16…物体検出部
図1
図2
図3
図4
図5
図6
図7
図8