(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023048794
(43)【公開日】2023-04-07
(54)【発明の名称】特徴量抽出装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20230331BHJP
【FI】
G06T7/00 350C
G06T7/00 300F
【審査請求】有
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021158317
(22)【出願日】2021-09-28
(11)【特許番号】
(45)【特許公報発行日】2022-11-07
(71)【出願人】
【識別番号】513087677
【氏名又は名称】PCIソリューションズ株式会社
(74)【代理人】
【識別番号】100138519
【弁理士】
【氏名又は名称】奥谷 雅子
(74)【代理人】
【識別番号】100210675
【弁理士】
【氏名又は名称】下山 潤
(72)【発明者】
【氏名】古賀 淳也
(72)【発明者】
【氏名】澤戸 寛明
(72)【発明者】
【氏名】島山 求
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA04
5L096EA03
5L096EA39
5L096GA08
5L096GA55
5L096HA11
5L096KA04
(57)【要約】 (修正有)
【課題】移動体の様々な動きを精度良く認識するため、入力データから特徴量を抽出する特徴量抽出装置を提供する。
【解決手段】特徴量抽出装置は、解像度別差分データを作成する時系列画像データ特徴量分配部20と、3次元畳み込み演算を実行して画像サイズ特徴量を抽出する特徴量抽出部10と、画像サイズ特徴量の各々に対して特徴量を分配し、連結して画像サイズ連結特徴量を生成する特徴量分配連結部30と、画像サイズ特徴量の各々に対して、重要度の重み付けを行う重要度判断部40と、を備えている。特徴量抽出部10は、特徴量連結生成器11a~11dを複数接続することで、各解像度別画像サイズ特徴量を生成する。
【選択図】
図7
【特許請求の範囲】
【請求項1】
時系列画像データのフレーム間差分を計算し、前記時系列画像データを解像度別に分配して、解像度別差分データを作成する時系列画像データ特徴量分配部と、
前記時系列画像データ及び/又は前記解像度別差分データに対して3次元畳み込み演算を実行して、画像サイズ特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部から入力される複数の前記画像サイズ特徴量の各々に対して特徴量を分配し、連結した画像サイズ連結特徴量を生成する特徴量分配連結部と、
前記画像サイズ特徴量の各々に対して、機械学習で得られたパラメータにより決定される数値に応じた重み付けを行う重要度判断部と、を備え、
前記特徴量抽出部は、前記画像サイズ連結特徴量と前記解像度別差分データとを連結して新たな画像サイズ特徴量を生成する特徴量連結生成器を複数有し、前記特徴量連結生成器を複数接続して前記画像サイズ特徴量のそれぞれを生成することを特徴とする特徴量抽出装置。
【請求項2】
前記特徴量連結生成器は、前記画像サイズ特徴量を生成するとき、前記特徴量分配連結部で生成された前記画像サイズ連結特徴量をさらに連結することを特徴とする請求項1に記載の特徴量抽出装置。
【請求項3】
前記時系列画像データ特徴量分配部は、特定サイズのフィルタを用いた平均化プーリング処理により前記解像度別差分データを作成する特徴量分配器を複数有し、
前記特徴量分配器を複数接続して前記解像度別差分データを作成することを特徴とする請求項1又は2に記載の特徴量抽出装置。
【請求項4】
前記特徴量分配連結部は、前記特徴量抽出部から入力される前記画像サイズ特徴量を解像度別にダウンサンプリングする畳み込み演算を行い、
生成された前記画像サイズ特徴量を前記重要度判断部に伝達することを特徴とする請求項1~3の何れか1項に記載の特徴量抽出装置。
【請求項5】
前記特徴量分配連結部は、前記畳み込み演算により生成された、同じ画像サイズの前記画像サイズ特徴量を連結して前記画像サイズ連結特徴量を生成することを特徴とする請求項4に記載の特徴量抽出装置。
【請求項6】
前記重要度判断部は、
入力された前記画像サイズ特徴量を連結する特徴量連結器と、
前記特徴量連結器の出力データを変換し、解像度の種類数Rのk倍(k:チャネル数)のR・k長ベクトルを出力する特徴量集約器と、
前記特徴量集約器から出力された前記R・k長ベクトルに対し、全結合層での処理により、その構成要素が各解像度の重要度を表すR長ベクトルを生成する解像度別重要度生成器と、
前記解像度別重要度生成器で生成された前記R長ベクトルの構成要素の数値を、前記特徴量連結器から出力された値と掛け合わせるスケール器と、を備え、
前記画像サイズ特徴量のそれぞれに対し、各解像度を示すチャネルk個を1単位として前記重要度を算出し、重み付けを行うことを特徴とする請求項1~5の何れか1項に記載の特徴量抽出装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画等の入力データからその特徴量を抽出する特徴量抽出装置に関する。
【背景技術】
【0002】
従来、移動物体の動きを検知する方法として、動画データに含まれるフレームの画素値の差分を算出して二値化処理を行う方法や、フレーム内から検知対象の画像の特徴を抽出して時系列的にその特徴を追跡する方法等が知られている。
【0003】
また、近年は、ディープニューラルネットワークを利用した機械学習手法が確立されている。特に、静止画や動画等の入力データから特徴量を抽出する手法として、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)が利用されることが多い。
【0004】
畳み込みニューラルネットワークは、一対の畳み込み層(Convolution Layer)とプーリング層(Pooling Layer)からなる多層構造をなしており、畳み込み処理とダウンサンプリング処理を繰り返すことで、入力データからその特徴量を抽出する。抽出された特徴量は、物体認識、物体検出、画像変換等の様々な目的で利用される。また、入力データからより良い特徴量を抽出するため、畳み込みニューラルネットワークの構造や内部の処理方法に様々な工夫がなされている。
【0005】
例えば、下記の特許文献1の画像情報変換器では、複数のマルチスケール変換器を連結している。そして、特徴量生成部及び画像情報生成部において、畳み込み演算によるスケールの異なる解像度の特徴量抽出と、異なるスケールへの振り分けとを繰り返し実行する。画像情報変換器は、異なるスケールの特徴を組み合わせることで、画像情報の複雑な特徴を抽出することができる(特許文献1/段落0011、
図1)。
【先行技術文献】
【特許文献】
【0006】
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1の手法では、各解像度に応じた特徴量が最終的なデータに反映されていないため、移動物体の大まかな動きは認識できるが、細かな動きは正確に認識できない等の問題が生じる可能性があった。
【0008】
本発明は、このような事情に鑑みてなされたものであり、入力データからその特徴量を精度良く抽出する特徴量抽出装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の特徴量抽出装置は、時系列画像データのフレーム間差分を計算し、前記時系列画像データを解像度別に分配して、解像度別差分データを作成する時系列画像データ特徴量分配部と、前記時系列画像データ及び/又は前記解像度別差分データに対して3次元畳み込み演算を実行して、画像サイズ特徴量を抽出する特徴量抽出部と、前記特徴量抽出部から入力される複数の前記画像サイズ特徴量の各々に対して解像度別に特徴量を分配した画像サイズ特徴量と、前記画像サイズ特徴量を連結した画像サイズ連結特徴量とを生成する特徴量分配連結部と、前記画像サイズ特徴量の各々に対して、機械学習で得られたパラメータにより決定される数値に応じた重み付けを行う重要度判断部と、を備え、
前記特徴量抽出部は、前記画像サイズ連結特徴量と前記解像度別差分データとを連結して新たな画像サイズ特徴量を生成する特徴量連結生成器を複数有し、前記特徴量連結生成器を複数接続して前記画像サイズ特徴量のそれぞれを生成することを特徴とする。
【0010】
本発明において、特徴量抽出部は、特徴量連結生成器を複数連結した構造となっており、3次元畳み込み演算により複数の画像サイズ特徴量を抽出する。また、特徴量抽出部は、抽出した画像サイズ特徴量と、時系列画像データ特徴量分配部で作成された解像度別差分データとを画像サイズ別に連結することで、新たな画像サイズ特徴量を生成する。
【0011】
特徴量分配連結部は、特徴量抽出部からの画像サイズ特徴量を連結した画像サイズ連結特徴量を生成する。さらに、重要度判断部は、画像サイズ特徴量の各々に対して前記パラメータから決定される数値に応じて重み付けをする。これにより、解像度別に特徴量をまとめた画像サイズ特徴量が生成され、これらは機械学習に利用することができる。
【0012】
本発明の特徴量抽出装置において、前記特徴量連結生成器は、前記画像サイズ特徴量を生成するとき、前記特徴量分配連結部で生成された前記画像サイズ連結特徴量をさらに連結することが好ましい。
【0013】
特徴量抽出部の特徴量連結生成器は、新たな画像サイズ特徴量を生成するとき、特徴量分配連結部で生成された画像サイズ連結特徴量をさらに連結する。このため、より高解像度の情報を加えた画像サイズ特徴量を生成することができる。
【0014】
また、本発明の特徴量抽出装置において、前記時系列画像データ特徴量分配部は、特定サイズのフィルタを用いた平均化プーリング処理により前記解像度別差分データを作成する特徴量分配器を複数有し、前記特徴量分配器を複数接続して前記解像度別差分データを作成することが好ましい。
【0015】
時系列画像データ特徴量分配部は、特徴量分配器を複数連結した構造となっており、特定サイズのフィルタを用いて、時系列画像データの平均化プーリング処理を行う。これにより、大きさや移動量が異なる物体の認識のため、解像度別差分データを作成することができる。
【0016】
また、本発明の特徴量抽出装置において、前記特徴量分配連結部は、前記特徴量抽出部から入力される前記画像サイズ特徴量を解像度別にダウンサンプリングする畳み込み演算を行い、生成された前記画像サイズ特徴量を前記重要度判断部に伝達することが好ましい。
【0017】
特徴量分配連結部は、解像度別に分離独立した経路を通過し、畳み込み演算が行われるため、各解像度の情報が保持された画像サイズ特徴量が生成され、これを重要度判断部に伝達することができる。
【0018】
また、本発明の特徴量抽出装置において、前記特徴量分配連結部は、前記畳み込み演算により生成された、同じ画像サイズの前記画像サイズ特徴量を連結して前記画像サイズ連結特徴量を生成することが好ましい。
【0019】
畳み込み演算を行うと、出力される画像サイズ特徴量は入力された画像サイズ特徴量からサイズ変更される。特徴量分配連結部は、同じ画像サイズの画像サイズ特徴量を連結して、新たな画像サイズ連結特徴量を生成することができる。
【0020】
また、本発明の特徴量抽出装置において、前記重要度判断部は、入力された前記画像サイズ特徴量を連結する特徴量連結器と、前記特徴量連結器の出力データを変換し、解像度の種類数Rのk倍(k:チャネル数)のR・k長ベクトルを出力する特徴量集約器と、前記特徴量集約器から出力された前記R・k長ベクトルに対し、全結合層での処理により、その構成要素が各解像度の重要度を表すR長ベクトルを生成する解像度別重要度生成器と、前記解像度別重要度生成器で生成された前記R長ベクトルの構成要素の数値を、前記特徴量連結器から出力された値と掛け合わせるスケール器と、を備え、
前記画像サイズ特徴量のそれぞれに対し、各解像度を示すチャネルk個を1単位として前記重要度を算出し、重み付けを行うことが好ましい。
【0021】
重要度判断部では、特徴量連結器が入力された画像サイズ特徴量を連結し、連結したデータを特徴量集約器に出力する。特徴量集約器は、当該出力データから解像度の種類数(R)とチャネル数(k)に応じたR・k長ベクトルを出力し、これを解像度別重要度生成器に出力する。
【0022】
また、解像度別重要度生成器は、当該R・k長ベクトルを変換して、その構成要素が各解像度の重要度を表すR長ベクトルを生成し、これをスケール器に出力する。最後に、スケール器は、R長ベクトルの構成要素の数値と特徴量連結器から出力された数値と掛け合わせ、画像サイズ特徴量に対して重み付けを行う。これにより、重要度判断部は、解像度別の重要度によって重み付けがなされた最終的な特徴量データを抽出することができる。
【図面の簡単な説明】
【0023】
【
図1】本発明の実施形態に係る特徴量抽出装置の概要を説明する図。
【
図4】時系列画像データ特徴量分配部の概要を説明する図。
【
図5】時系列画像データ特徴量分配部での処理の詳細を説明する図。
【
図7】特徴量分配連結部の前後で行われる処理を説明する図。
【
図10】重要度判断部の解像度別重要度生成器を説明する図。
【発明を実施するための形態】
【0024】
以下では、図面を参照しながら、本発明の実施形態に係る特徴量抽出装置100を説明する。
【0025】
図1は、特徴量抽出装置100の概要を示している。特徴量抽出装置100は、車両等の移動体の動きを精度良く認識するため、時系列画像データから特徴量を抽出する。最終的に生成された特徴量データは、移動体の動きを認識する情報として利用することができる。特徴量抽出装置100は、特徴量抽出部10と、時系列画像データ特徴量分配部20と、特徴量分配連結部30と、重要度判断部40とから構成されている。
【0026】
(特徴量抽出部10)
特徴量抽出部10は、機械学習の1つである畳み込みニューラルネットワーク(以下、CNNという)により、入力データD及び1/1解像度差分データD1(詳細は後述する)に対して3次元の畳み込み演算を実行し、特徴量を抽出する。
【0027】
特徴量抽出部10は、コンボリューション層における畳み込み演算により、入力画像の画像サイズを徐々に浅い層から深い層に向かって縮小していくことで特徴量を抽出する。
【0028】
ここで、
図2及び
図3を参照して、特徴量抽出部10の詳細について説明する。
【0029】
図2に示すように、特徴量抽出部10は特徴量連結生成器11a~11dを有し、これらを連結して構成されている。まず、特徴量連結生成器11aに、画像サイズが1(T,H,W,C)の差分データである1/1解像度差分データD1が入力される。ここで、「T」はTime、「H」はHeight、「W」はWidth、「C」はChannelを意味し、それぞれ特徴量データの構成要素である。
【0030】
その後、特徴量連結生成器11aは、学習済みパラメータを用いた畳み込み演算により、画像サイズが1/2(T,H/2,W/2,C)の1/2画像サイズ特徴量F1を生成する。学習済みパラメータとは、出力精度を高めるため、ニューラルネットワークの各層が有する「重み」と「バイアス」のことである。
【0031】
特徴量連結生成器11aは、特徴量連結器12aと、特徴量抽出器13aとで構成されている。特徴量連結器12aでは、入力データDと1/1解像度画像データD1とが連結される。これ以降、画像データの「連結」とは、チャネル方向への連結を意味する。また、特徴量抽出器13aが1/2画像サイズ特徴量F1を生成する。
【0032】
図3は、特徴量抽出器13aの詳細を示している。特徴量抽出器13aは、3次元畳み込み層と、空間ds(ダウンサンプリング)3次元畳み込み層とで構成されている。カッコ内は、それぞれフィルタサイズ、ストライド数、入力チャネル数、出力チャネル数を示す。なお、この3次元畳み込み層には、(フィルタサイズ×入力チャネル数×出力チャネル数)個の学習済みパラメータが存在する。
【0033】
また、「ReLU(Rectified Linear Unit)」は、活性化関数(層間をどのように電気信号を伝搬させるかを調整する関数)の1つである。必要に応じて、バッチ正規化層(Batch Normalization)を追加してもよい。
【0034】
入力データDは、その形状が(T,H,W)、チャネル数が「1」のグレースケールの動画データである(shape=(T,H,W,1))。時系列画像データ特徴量分配部20から特徴量連結器12aに延びる矢印の添え字はチャネル数を意味する(ここでは「1」)。入力データDと時系列画像データ特徴量分配部20からの差分データが特徴量連結器12aで連結され、特徴量抽出器13aの3次元畳み込み層に入力される(入力チャネル数「2」)。
【0035】
なお、3次元畳み込み層で用いる出力チャネル数を「32」としているが、これは予め設定した任意の値である。特徴量連結器12aで連結された特徴量は、3次元畳み込み層により一度チャネル数が「32」に拡張され、次段の空間ds3次元畳み込み層のフィルタ数を「k(設定値)」に絞るため、特徴量抽出器13aの出力チャネル数は「k」となる。ここでは、入力となる特徴量のF,H,W方向へゼロパディング処理を実行して、同方向軸への入力と出力のサイズが同じになるようしている。
【0036】
「k」は4,8,16等のより小さな値が好ましい。また、空間ds3次元畳み込み層では、stride=(1,2,2)(それぞれT,H,W)に設定されていることでH,W方向のみ縮小を行い、Tに関しては入力と出力とが同値になる。なお、後述する解像度別特徴量分配器31a~31c,32a~32b,33aも同様で、このストライド設定により特徴量抽出部10、特徴量分配連結部30で扱われる特徴量の時間軸がTで維持される。
【0037】
図2に戻り、次段の特徴量連結生成器11bに、特徴量連結生成器11aによって生成された1/2画像サイズ特徴量F1が入力される。そして、畳み込み演算により画像サイズが1/4(T,H/4,W/4,C)の1/4画像サイズ特徴量F2が生成される。
【0038】
特徴量連結生成器11bは、特徴量連結器12bと特徴量抽出器13bとで構成されている。特徴量連結器12bは、同じ画像サイズの1/2画像サイズ特徴量F1と、時系列画像データ特徴量分配部20からの1/2解像度差分データD2を連結する。また、特徴量抽出器13bが1/4画像サイズ特徴量F2を生成する。
【0039】
図3に示すように、特徴量抽出器13bは、3次元畳み込み層と空間ds3次元畳み込み層とで構成されている。なお、特徴量抽出器13aからの1/2画像サイズ特徴量F1(チャネル数「k」)と時系列画像データ特徴量分配部20からの1/2解像度差分データD2(チャネル数「1」)が特徴量連結器12bで連結され、特徴量抽出器13bの3次元畳み込み層に入力される(入力チャネル数「k+1」)。
【0040】
さらに、次段の特徴量連結生成器11cに、特徴量連結生成器11bによって生成された1/4画像サイズ特徴量F2が入力される。そして、畳み込み演算により画像サイズが1/8(T,H/8,W/8,C)である1/8画像サイズ特徴量F3が生成される。
【0041】
特徴量連結生成器11cは、特徴量連結器12cと、特徴量抽出器13cとで構成されている。特徴量連結器12cは、同じ画像サイズの1/4画像サイズ特徴量F2と、時系列画像データ特徴量分配部20からの1/4解像度差分データD3と、特徴量分配連結部30からの1/4画像サイズ連結特徴量G1(詳細は後述する)とを連結する。また、特徴量抽出器13cが1/8画像サイズ特徴量F3を生成する。
【0042】
図3に示すように、特徴量抽出器13cは、3次元畳み込み層と空間ds3次元畳み込み層とで構成されている。なお、特徴量抽出器13bからの1/4画像サイズ特徴量F2(チャネル数「k」)と、時系列画像データ特徴量分配部20からの1/4解像度差分データD2(チャネル数「1」)と、特徴量分配連結部30からの1/4画像サイズ連結特徴量G1(チャネル数「k」)が特徴量連結器12cで連結され、特徴量抽出器13cの3次元畳み込み層に入力される(入力チャネル数「2k+1」)。
【0043】
最終段の特徴量連結生成器11dには、特徴量連結生成器11cによって生成された1/8画像サイズ特徴量F3が入力される。そして、畳み込み演算により画像サイズが1/16(T,H/16,W/16,C)の1/16画像サイズ特徴量F4が生成される。
【0044】
特徴量連結生成器11dは、特徴量連結器12dと、特徴量抽出器13dとで構成されている。特徴量連結器12dは、同じ画像サイズの1/8画像サイズ特徴量F3と、時系列画像データ特徴量分配部20からの1/8解像度差分データD4と、特徴量分配連結部30からの1/8画像サイズ連結特徴量G2(詳細は後述する)とを連結する。そして、特徴量抽出器13dが1/16画像サイズ特徴量F4を生成し、重要度判断部40に出力する。
【0045】
図3に示すように、特徴量抽出器13dは、3次元畳み込み層と空間ds3次元畳み込み層とで構成されている。なお、特徴量抽出器13cからの画像サイズ特徴量F3(チャネル数「k」)と時系列画像データ特徴量分配部20からの画像データD3(チャネル数「1」)と特徴量分配連結部30からの画像データG2(チャネル数「2k」)が特徴量連結器12dで連結され、特徴量抽出器13dの3次元畳み込み層に入力される(入力チャネル数「3k+1」)。
【0046】
(時系列画像データ特徴量分配部20)
時系列画像データ特徴量分配部20は、1/1解像度差分データD1に基づいて、特徴量抽出部10の入力特徴量に応じた次元の画像情報に分配する装置である。
【0047】
1/1解像度画像データD1の画像サイズを縮小するためには、コンボリューション層による畳み込み演算ではなく、平均値を演算するプーリング層による平均化プーリング処理を実行することが好ましい。その際、プーリング実行時のストライドは、(T,H,W)=(1,2,2)のように画像サイズのみが縮小されるように設定する。
【0048】
次に、
図4及び
図5を参照して、時系列画像データ特徴量分配部20の詳細について説明する。
【0049】
図4に示すように、時系列画像データ特徴量分配部20は、特徴量分配器21a~21cで構成されている。特徴量分配器21aは、例えば、時刻T1のときの画像フレームと、その後の時刻T2のときの画像フレームのフレーム間差分をとった1/1解像度差分データD1(T=8であれば、8フレーム分)に対して、カーネルサイズが(1,2,2)、ストライドが(1,2,2)の平均化プーリング処理を実行する。これにより、特徴量分配器21aは、画像サイズが1/2の(T,H/2,W/2,C)の1/2解像度差分データD2を作成する。
【0050】
差分データは動画データのフレーム間差分であり、動作のない背景等の情報を除外し、フレーム間で変化のある移動体情報のみを残したものである。差分データは、移動体の形状、大きさ、その移動量等の変化パターンによって特徴的な空間情報を示す。平均化プーリング処理は段階的に実行されるため(
図5参照)、作成される解像度別差分データのそれぞれは、物体の大きさや移動量に対して異なる挙動を示す。
【0051】
例えば、高解像度の差分データは、物体の移動の詳細(移動前後の位置情報等)や、複数の物体が同時に移動する場合にその特徴を捕らえることができる。なお、段階的な平均化プーリング処理を実行していく中で、その処理回数が少ないものほど高解像度の差分情報が残るため、「高解像度の差分データ」となる。また、平均化プーリング処理を繰り返すほど解像度が低下するため、「低解像度の差分データ」となる。
【0052】
低解像度の差分データは、物体な大まかな動きをより少ない情報で捕らえたり、逆に小さな動きを捕らえないようにしたりすることで移動量フィルタリングの役割を担うこともできる。また、低解像度の差分データは、撮影時の振動等によりフレーム間で小さなブレが生じる状況で、その位置ずれを吸収することができる。
【0053】
これらの情報によって物体(移動体)の判定を行うニューラルネットワークは、より高度な学習及び推論を行うことができる。
【0054】
ここで、
図5に、時系列画像データ特徴量分配部20の処理の詳細を示す。まず、入力データD(shape=(T,H,W,1))を用いて、隣接フレーム間差分(出力解像度:1/1(Full))を計算する。その後、特徴量分配器21aにて上述の平均化プーリングが行われる。また、特徴量分配器21aで作成された1/2解像度差分データD2は、特徴量抽出部10に出力される。
【0055】
次段の特徴量分配器21bは、1/2解像度差分データD2に対して、平均化プーリング処理を実行することで、解像度が1/4(T,H/4,W/4,C)の1/4解像度差分データD3を作成する。また、特徴量分配器21bで作成された1/4解像度差分データD3は、特徴量抽出部10に出力される。
【0056】
最終段の特徴量分配器21cは、1/4解像度差分データD3に対して、平均化プーリング処理を実行することで、解像度が1/8(T,H/8,W/8,C)の1/8解像度差分データD4を作成する。また、特徴量分配器21cで作成された1/8解像度差分データD4は、特徴量抽出部10に出力される。
【0057】
なお、
図4では、特徴量分配器が3段で構成されているが、n(n≧4)段の構成としてもよい。この場合、n段目の特徴量分配器で作成された1/n解像度差分データDn(出力解像度=1/n)が特徴量抽出部10に出力される(
図5参照)。
【0058】
(特徴量分配連結部30)
特徴量分配連結部30は、特徴量抽出部10から入力された画像サイズ特徴量F1~F3の各々に対して解像度別に特徴量を分配し、さらに解像度別に特徴量を連結して新たな画像サイズ特徴量を生成する。
【0059】
また、特徴量分配連結部30は、画像サイズ特徴量F1~F3の各々に対して、解像度別にダウンサンプリングする畳み込み演算を行う。特徴量分配連結部30は、解像度別に分離独立した経路において処理することで、各解像度の情報を保持した画像サイズ特徴量を重要度判断部40に伝達することができる。
【0060】
次に、
図6及び
図7を参照して、特徴量分配連結部30の詳細について説明する。
【0061】
図6に示すように、特徴量分配連結部30は、解像度別特徴量伝達器3(解像度別特徴量分配器31a~31c)、解像度別特徴量伝達器32(解像度別特徴量分配器32a,32b)、解像度別特徴量伝達器33(解像度別特徴量分配器33a)と、特徴量連結器35a,35bとで構成されている。本実施形態の特徴量分配連結部30において、解像度別特徴量分配器は、空間方向のストライドを2に設定した畳み込み演算(ストライド(T,H,W)=(1,2,2))により特徴量を抽出しつつ、画像サイズのダウンサンプリングを実行する。
【0062】
解像度別特徴量伝達器31に1/1解像度の情報を保持した1/2画像サイズ特徴量F1が入力されると、解像度別特徴量分配器31aは、画像サイズが1/4の1/4画像サイズ特徴量F12を生成する。また、特徴量連結器35aは、画像サイズが1/4の1/4画像サイズ特徴量G1を生成し、特徴量抽出部10(特徴量連結器12c)に出力する。なお、特徴量連結器35aは形式上存在しているものの、連結対象が1/4画像サイズ特徴量F12のみであるため、ここでは特に処理を行わない。
【0063】
解像度別特徴量分配器31bは、畳み込み演算を実行して1/4画像サイズ特徴量F12から画像サイズが1/8の1/8画像サイズ特徴量F13を生成する。
【0064】
また、解像度別特徴量伝達器32に1/2解像度の情報を保持した1/4画像サイズ特徴量F2が入力されると、解像度別特徴量分配器32aは、畳み込み演算を実行して1/4画像サイズ特徴量F2から画像サイズが1/8の1/8画像サイズ特徴量F23を生成する。
【0065】
そして、特徴量連結器35bは、画像サイズが同じ1/8である1/8画像サイズ特徴量F13と、1/8画像サイズ特徴量F23とを連結して1/8画像サイズ連結特徴量G2を生成し、特徴量抽出部10(特徴量連結器12d)に出力する。
【0066】
解像度別特徴量分配器31cは、畳み込み演算を実行して画像サイズ特徴量F13から画像サイズが1/16である1/16画像サイズ特徴量F14を生成する。1/16画像サイズ特徴量F14は、1/1解像度の情報を保持している。
【0067】
また、解像度別特徴量分配器32bは、畳み込み演算を実行して1/8画像サイズ特徴量F23から画像サイズが1/16である1/16画像サイズ特徴量F24を生成する。1/16画像サイズ特徴量F14及び1/16画像サイズ特徴量F24は、重要度判断部40に出力される。1/16画像サイズ特徴量F24は、1/2解像度の情報を保持している。
【0068】
また、解像度別特徴量伝達器33に1/4解像度の情報を保持した1/8画像サイズ特徴量F3が入力されると、解像度別特徴量分配器33aは、畳み込み演算を実行して1/8画像サイズ特徴量F3から画像サイズが1/16である1/16画像サイズ特徴量F34を生成する。1/16画像サイズ特徴量F34は、1/4解像度の情報を保持している。
【0069】
ここで、
図7に、特徴量分配連結部30の前後で行われる処理を説明する。解像度別特徴量分配器31a~31c,32a,32b,33aは、それぞれ空間ds(ダウンサンプリング)3次元畳み込み層(フィルタサイズ(3×3×3)、ストライド数(1,2,2)、入力チャネル数=k、出力チャネル数=k、ReLU)である。ここでも、必要に応じてバッチ正規化層(Batch Normalization)を追加してもよい。
【0070】
解像度別特徴量分配器31a~31cを含む解像度別特徴量伝達器31は、より高解像度の情報(1/1解像度の情報)を保持し、重要度判断部40に伝達するため、撮像領域内の移動体の小さな動きを検出することができる。また、解像度別特徴量分配器32a,32bを含む解像度別特徴量伝達器32は、中解像度の情報(1/2解像度の情報)を保持し、重要度判断部40に伝達する。さらに、解像度別特徴量分配器33aを含む解像度別特徴量伝達器33は、より低解像度の情報(1/4解像度の情報)を保持し、重要度判断部40に伝達するため、撮像領域内の移動体の大きな動きを検出することができる。もちろん、ネットワークの長さによっては、解像度別特徴量伝達器がさらに必要となる。
【0071】
ネットワーク全体で解像度が高い方から低い方へのフィードフォワードが保たれている(解像度が低い方から高い方への接続なし)ため、解像度別特徴量伝達器31~33内の各パスでは、特徴量抽出部10で与えられた解像度の移動体情報が保持される。
【0072】
(重要度判断部40)
重要度判断部40は、特徴量分配連結部30から出力された1/16画像サイズ特徴量F14,F24,F34(
図6参照)等に対して、学習済みパラメータにより決定される重要度に基づいて重み付けを行う。なお、学習済みパラメータは、解像度別に重要度を算出できるように学習されたパラメータである。
【0073】
ここで、
図8~
図11を参照して、重要度判断部40の詳細について説明する。
【0074】
図8に示すように、重要度判断部40は、特徴量連結器41と、特徴量集約器42と、解像度別重要度生成器43と、スケール器44とで構成されている。重要度判断部40には、特徴量分配連結部30から1/16画像サイズ特徴量F14,F24,F34が入力され(
図6参照)、特徴量抽出部10から1/16画像サイズ特徴量F4が入力される(
図2参照)。これらは、全て1/16の画像サイズ特徴量であり、重要度判断部40は、1/16画像サイズ特徴量F4,F14,F24,F34の各々に重要度に基づいて重み付けを行い、最終的な特徴量データとする。
【0075】
特徴量連結器41は、画像サイズ特徴量F4,F14,F24,F34を連結し、生成した連結特徴量を特徴量集約器42に出力する。ここで出力された連結特徴量は、特徴量集約器42の重要度算出に用いられる。また、特徴量連結器41は、連結特徴量をスケール器44にも出力する。この連結特徴量は、スケール器44において重み付けをされる対象となる。
【0076】
特徴量集約器42は、特徴量連結器41からの連結特徴量をR・k長ベクトルに変換する。特徴量集約器42が処理を行う際、深さ方向3次元畳み込み(入力チャネル同士の隔離が保たれる手法)を実行する。これは、異なる解像度の情報を持つ各チャネルが、特徴量集約器42の処理によって混合又は結合されないようにするためである。
【0077】
図9は、特徴量集約器42の詳細を示している。特徴量集約器42は、深さ方向3次元畳み込み層と、グローバル平均化プーリング層とで構成されている。深さ方向3次元畳み込み層(depthwise 3D convolution layer)は、チャネル毎に畳み込み処理を行うため、フィルタ演算の結果がチャネル毎に独立し、交差しないという特性を有する。今回は、各々のチャネルが異なる解像度の情報を有しているため、解像度別に分離して処理する。なお、グローバル平均化プーリング層は、チャネル毎にチャネル内の数値の平均値をとり、チャネル順に並べることでチャネル数次元のベクトルを出力する層と定義することができる。
【0078】
また、特徴量集約器42において、深さ方向3次元畳み込み層のフィルタサイズを(T×1×1)に設定することで、T方向の次元を「1」、すなわち奥行なしのデータに圧縮する(pointwise convolution)。具体的には、入力した連結特徴量へのゼロパディング(padding=None)を行わずに、(T×1×1)のフィルタで深さ方向3次元畳み込み演算を行う。これにより、続くグローバル平均化プーリング層での単純な平均化処理による情報欠落を抑えることができる。
【0079】
図10は、解像度別重要度生成器43の詳細を示している。解像度別重要度生成器43は、特徴量集約器42から入力したR・k長ベクトルに対し、全結合層(ニューラルネットワークを構成する層の1つ)での処理により、R長ベクトルを生成する(
図8参照)。解像度別重要度生成器43は、最終的にシグモイド関数により0~1の数値に変換する処理を行うが、構成要素の数値は対応する解像度の重要度を表している。
【0080】
図11は、スケール器44の詳細を示している。スケール器44は、特徴量拡張器44aと乗算器44bとで構成されている。
【0081】
まず、特徴量拡張器44aは、R長ベクトルを特徴量連結器41からの入力サイズへ一致させると同時に、R長ベクトルの各要素を対応する解像度の位置へ一致させる。そのために、例えば、R長ベクトルを1×1×1×Rとして各要素をチャネル方向へk個に拡張(1×1×1×R・k)した後、拡張後の各要素を更に(T,H,W)の形状へサイズ拡張(T×H×W×R・k)するといった手法を取ることができる。
【0082】
乗算器44bは、R長ベクトルを特徴量連結器41から出力された特徴量と同じ形状へ拡張変換後に掛け合わせることで重要度の重み付けを行い、重要度判断部40の出力とする。以上の各処理により、各解像度における情報を保持した最終特徴量データを作成することができる。最終特徴量データを用いれば、入力データ(数フレームの動画データ)から所定の判定を行う際、今回の判定に必要な解像度を重み付けにより選択することができ、効率的な機械学習を行うことができる。
【0083】
本発明は上記実施形態及び変更形態に限られるものではなく、その要旨を逸脱しない範囲において種々の態様で実施することが可能である。
【符号の説明】
【0084】
10…特徴量抽出部、11a~11d…特徴量連結生成器、12a~12d…特徴量連結器、13a~13d…特徴量抽出器、20…時系列画像データ特徴量分配部、21a~21c…特徴量分配器、30…特徴量分配連結部、31~33…解像度別特徴量伝達器、31a~31c,32a,32b,33a…解像度別特徴量分配器、35a,35b…特徴量連結器、40…重要度判断部、41…特徴量連結器、42…特徴量集約器、43…解像度別重要度生成器、44…スケール器、100…特徴量抽出装置。