特許第6798854号(P6798854)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社パスコの特許一覧

特許6798854目的物個数推定装置、目的物個数推定方法及びプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6798854
(24)【登録日】2020年11月24日
(45)【発行日】2020年12月9日
(54)【発明の名称】目的物個数推定装置、目的物個数推定方法及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20201130BHJP
   G06N 20/00 20190101ALI20201130BHJP
【FI】
   G06T7/00 350C
   G06N20/00 130
【請求項の数】8
【全頁数】20
(21)【出願番号】特願2016-208818(P2016-208818)
(22)【出願日】2016年10月25日
(65)【公開番号】特開2018-72938(P2018-72938A)
(43)【公開日】2018年5月10日
【審査請求日】2019年9月26日
(73)【特許権者】
【識別番号】000135771
【氏名又は名称】株式会社パスコ
(74)【代理人】
【識別番号】110000925
【氏名又は名称】特許業務法人信友国際特許事務所
(72)【発明者】
【氏名】彦坂 修平
(72)【発明者】
【氏名】今泉 友之
(72)【発明者】
【氏名】藤田 藍斗
(72)【発明者】
【氏名】根本 佳介
【審査官】 千葉 久博
(56)【参考文献】
【文献】 特開2016−95640(JP,A)
【文献】 特開2015−64753(JP,A)
【文献】 特開2009−110152(JP,A)
【文献】 特開平11−118793(JP,A)
【文献】 特開平8−305856(JP,A)
【文献】 特開平6−117836(JP,A)
【文献】 新村文郷, 外3名,“車両部位検出を利用した回帰による車両台数推定”,第20回画像センシングシンポジウム 講演論文集,日本,画像センシング技術研究会,2014年 6月11日,p.(IS3-14-1)-(IS3-14-6)
【文献】 Yingying Zhang, 外4名,"Single-Image Crowd Counting via Multi-Column Convolutional Neural Network",2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),米国,IEEE,2016年 6月30日,p.589-597
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
学習対象画像の特徴と当該学習対象画像に含まれる目的物の有無の正解値を学習した分類モデルを用いて、解析対象画像を構成する複数の小画像の各々に対し各小画像に前記目的物が存在するかどうかを判定する目的物判定部と、
学習対象画像の特徴と当該学習対象画像に含まれる前記目的物の個数の正解値を学習した回帰モデルを用いて、前記目的物判定部により前記目的物が存在すると判定された小画像に含まれる前記目的物の個数を推定する個数推定部と、を備える
目的物個数推定装置。
【請求項2】
前記個数推定部により推定された、前記目的物が存在すると判定された各小画像に含まれる前記目的物の個数を集計する後処理部、を更に備える
請求項1に記載の目的物個数推定装置。
【請求項3】
前記解析対象画像の指定領域を分割して複数の前記小画像を生成する画像分割部、を更に備える
請求項1又は2のいずれかに記載の目的物個数推定装置。
【請求項4】
前記解析対象画像の色調を補正する色調補正部、を更に備える
請求項1乃至3のいずれかに記載の目的物個数推定装置。
【請求項5】
入力データに対する演算結果を出力する複数のノードを多層に接続した構成を有し、教師あり学習により、抽象化された前記小画像の特徴を学習して前記分類モデル及び前記回帰モデルを生成する学習部、を更に備える
請求項1乃至4のいずれかに記載の目的物個数推定装置。
【請求項6】
前記解析対象画像は衛星画像であり、前記目的物は前記衛星画像に写っている地物である
請求項1乃至5のいずれかに記載の目的物個数推定装置。
【請求項7】
学習対象画像の特徴と当該学習対象画像に含まれる目的物の有無の正解値を学習した分類モデルを用いて、解析対象画像を構成する複数の小画像の各々に対し各小画像に前記目的物が存在するかどうかを判定することと、
学習対象画像の特徴と当該学習対象画像に含まれる前記目的物の個数の正解値を学習した回帰モデルを用いて、前記目的物が存在すると判定された小画像に含まれる前記目的物の個数を推定すること、を含む
目的物個数推定方法。
【請求項8】
学習対象画像の特徴と当該学習対象画像に含まれる目的物の有無の正解値を学習した分類モデルを用いて、解析対象画像を構成する複数の小画像の各々に対し各小画像に前記目的物が存在するかどうかを判定する手順と、
学習対象画像の特徴と当該学習対象画像に含まれる前記目的物の個数の正解値を学習した回帰モデルを用いて、前記目的物が存在すると判定された小画像に含まれる前記目的物の個数を推定する手順を
コンピューターに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、解析対象画像に含まれる目的物の個数を計算する目的物個数推定装置、目的物個数推定方法及びプログラムに関する。
【背景技術】
【0002】
近年、地球観測衛星により撮影される衛星画像は、高分解能化が進んでおり、画素当たりの空間解像度が数十cmスケールの高分解能画像を取得できるようになってきている。さらに、地球観測衛星の観測機会向上により時間分解能も向上している。そのため、衛星画像はこれまで以上に幅広い用途へ活用できる可能性を有している。衛星画像を用いて日々の地球(地表等)の状況や変化を解析することにより、地球上の経済活動を可視化することができると考えられる。
【0003】
現状では、衛星画像からの情報抽出を人手で行っており、衛星画像の情報量増加に対して、解析能力が追い付いておらず、有用な情報を迅速に抽出することができていない。また、人手に頼った情報抽出は、作業時間、作業コスト、精度のばらつきが大きい。
【0004】
衛星画像を解析する技術として以下のようなものが知られている。例えば特許文献1には、入力画像全体から抽出した線分群から、車両に相当する線分群を一括抽出し、その線分群の道路領域内での密度を計算することで、当該道路領域内での車両台数密度を求めて可視的に提示する車両台数密度観測装置が開示されている。
【0005】
また非特許文献1には、ディープラーニングを用いて衛星画像から地物を抽出する技術が開示されている。また非特許文献2には、畳み込みニューラルネットワーク(CNN)を用いて高空間解像度衛星画像から地物を抽出する技術が開示されている。さらに非特許文献3には、深層の畳み込みニューラルネットワークを用いたイメージネットの分類について開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2010−128732号公報
【非特許文献】
【0007】
【非特許文献1】藤田藍斗、今泉友之、彦坂修平、「Deep Learningを用いた衛星画像からの地物抽出」、日本リモートセンシング学会、第59回(2015年11月)学術講演会
【非特許文献2】藤田藍斗、今泉友之、彦坂修平、「CNNを用いた高空間解像度衛星画像からの地物抽出」、人工知能学会、第30回(2016年6月)人工知能学会全国大会
【非特許文献3】A. Krizhevsky, I. Sutskever, and G.E. Hinton, Imagenet classification with deep convolutional neural networks, Advances in NIPS, pp. 1097-1105
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、特許文献1及び非特許文献1〜3に記載の技術を含め従来の技術では、解析対象画像から目的物の数を、自動的に精度よく推定することができなかった。また、目的物の数を1つ1つ確認するのに必要な画像の解像度が得られない場合、自動的に精度よく推定することができなかった。
【0009】
本発明は、上記の状況を考慮してなされたものであり、衛星画像等の解析対象画像から目的物の数を自動的に精度よく推定するものである。また、目的物の数を1つ1つ確認するのに必要な画像の解像度が得られない場合においても、おおよその数を把握できる解像度であれば目的物の数を自動的に精度よく推定するものである。
【課題を解決するための手段】
【0010】
本発明の一態様の目的物個数推定装置は、目的物判定部と、個数推定部を備える。
目的物判定部は、学習対象画像の特徴と当該学習対象画像に含まれる目的物の有無の正解値を学習した分類モデルを用いて、解析対象画像を構成する複数の小画像の各々に対し各小画像に目的物が存在するかどうかを判定する。
個数推定部は、学習対象画像の特徴と当該学習対象画像に含まれる目的物の個数の正解値を学習した回帰モデルを用いて、上記目的物判定部により目的物が存在すると判定された小画像に含まれる目的物の個数を推定する。
【発明の効果】
【0011】
本発明の少なくとも一態様によれば、解析対象画像から目的物の数を、自動的に精度よく推定することができる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0012】
図1】検討(1)に係る車両台数推定方法の概要を示す説明図である。
図2】検討(1)に係るクラス設定を示す説明図である。
図3】検討(1)に係る3種類のクラス設定を比較した説明図である。
図4】検討(1)に係る車両台数推定方法を示す説明図である。
図5】検討(1)に係る1グリッド当たりの確率値区分ごとの車両台数を示すテーブルである。
図6】検討(1)に係る1グリッド当たりのクラスごとの台数を示すテーブルである。
図7】検討(1)に係る台数推定結果を示す説明図である。
図8】検討(2)に係る車両台数推定方法の概要を示す説明図である。
図9】検討(2)に係る画像全体の正解台数(目視判読結果)と画像全体の台数推定結果を示す説明図である。
図10】検討(2)の台数推定結果と検討(1)の台数推定結果を示す説明図である。
図11】検討(2)に係る車両の存在しないグリッドにおける台数推定結果を示す説明図である。図11Aは正解台数(目視判読結果)の例であり、図11Bは検討(2)の台数推定結果の例である。
図12】検討(2)に係る車両密度の低いグリッドにおける台数推定結果を示す説明図である。図12Aは正解台数(目視判読結果)の例であり、図12Bは台数推定結果の例である。
図13】検討(2)に係る車両密度の高いグリッドにおける台数推定結果を示す説明図である。図13Aは正解台数(目視判読結果)の例であり、図13Bは台数推定結果の例である。
図14】本発明の一実施形態に係る車両台数推定方法の概要を示す説明図である。
図15】本発明の一実施形態に係る分類結果及び回帰による台数推定結果を表現した衛星画像を示す説明図である。
図16】本発明の一実施形態に係る車両台数推定装置の内部構成例を示すブロック図である。
図17】本発明の一実施形態に係る学習・モデル生成フェーズにおける処理例を示すフローチャートである。
図18】本発明の一実施形態に係る解析フェーズにおける処理例を示すフローチャートである。
図19】本発明の一実施形態に係るある1シーンの駐車場領域における台数推定結果を示す説明図である。図19Aは正解台数の例であり、図19Bは台数推定結果の例である。
図20】本発明の一実施形態に係る台数推定結果、並びに、検討(1)及び検討(2)の台数推定結果を示す説明図である。
図21】本発明の一実施形態に係る推定値と実測値との関係例を示すグラフである。
図22】検討(2)に係る推定値と実測値との関係例を示すグラフである。
図23】検討(1)に係る推定値と実測値との関係例を示すグラフである。
図24】車両台数推定装置が備えるコンピューターのハードウェア構成を示すブロック図である。
【発明を実施するための形態】
【0013】
以下、本発明を実施するための形態の例について、添付図面を参照しながら説明する。各図において実質的に同一の機能又は構成を有する構成要素については、同一の符号を付して重複する説明を省略する。
【0014】
発明者らは、ディープラーニングを用いた高分解能衛星画像からの情報抽出手法を検討してきた。ディープラーニングは、人間の持つ学習機能をコンピューターで実現することを目的とした人工知能分野における技術の一つである。近年、自然画像の分類や物体検出においてディープラーニングにより既存の手法を大きく上回る性能が報告されている。このディープラーニングの大きな特徴は、解析対象の性質(地物ならば物体の形状や位置、大きさ)に関わらず、認識に有用な特徴をデータから「自動」で学習できる点である。即ち目的に応じた情報解析を人間による設計を介さずに、大量の複雑なデータからコンピューターが自ら学習し、解析モデルを生成することができる。
【0015】
以下に述べる検討(1)及び検討(2)において、ディープラーニング技術の一つである畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を用いて、高分解能衛星画像中の駐車車両(以下、単に「車両」ともいう)の台数を推定する手法の検討を行った。
【0016】
<1.検討(1)>
まず検討(1)について説明する。図1は、検討(1)に係る車両台数推定方法の概要を示す説明図である。
【0017】
図1に示す検討(1)の手法は、衛星画像等の判読画像1中の駐車場領域Ap(指定領域)を小領域にグリッド分割し、分割画像(チップ画像2)を、畳み込みニューラルネットワークからなる学習済み分類モデル3に入力して車両の有無や車両占有率を表すラベルの種別(クラス)毎に分類する。ラベル種別(クラス)ごとに1グリッド当たりの台数が決定されている。検討(1)の手法は、分類結果4のラベル種別(クラス)ごとにチップ画像2の数と1グリッド当たりの台数をかけ算し、駐車場領域Apにある駐車車両の台数を集計する。1グリッドは分割の単位であり、本明細書において「1グリッド」と「一つの分割画像」を同義で用いることがある。
【0018】
図2は、検討(1)に係るクラス設定を示す説明図である。図3は、検討(1)に係るラベル内容の異なる3種類のクラス設定を比較した説明図である。
【0019】
例えば図2のクラス設定表5において、クラス設定1では「車両あり」と「車両なし」の2つのクラスが設定されている。クラス設定2では「車両占有率50%以上」と「車両なし」の2つのクラスが設定されている。クラス設定3では「車両占有率50%以上」、「車両占有率25−50%」、「車両占有率25%未満」及び「車両なし」の4つのクラスが設定されている。ここで車両占有率とは、チップ画像2の面積に対する、車両と考えられる画像オブジェクトの面積の割合である。
【0020】
検討(1)の手法では、入力された学習対象画像に対して車両の有無や量を表すラベルを学習する。図3は、判読画像1からウィンドウWにより切り出したチップ画像11〜13に付されるラベルの例を表しており、図3を参照してチップ画像に車両が存在する場合におけるクラス設定ごとのクラスの分け方を説明する。チップ画像11には全体に車両オブジェクトが存在し、クラス設定1を適用した場合には「車両あり」、クラス設定2の場合には「車両占有率50%以上」、クラス設定3の場合にも「車両占有率50%以上」のラベルが付される(分類される)。また、チップ画像12には約半分に車両オブジェクトが存在し、クラス設定1の場合には「車両あり」、クラス設定2の場合には「学習しない」、クラス設定3の場合には「車両占有率25−50%」のラベルが付される。さらに、チップ画像13には一部に車両オブジェクトが存在し、クラス設定1の場合には「車両あり」、クラス設定2の場合には「学習しない」、クラス設定3の場合には「車両占有率25%未満」のラベルが付される。「学習しない」は、学習が行われないことを意味する。
【0021】
次に、図4を参照して検討(1)に係る車両台数推定方法を説明する。図4は、検討(1)に係る車両台数推定方法を示す説明図である。
【0022】
図4は、学習対象画像14の各グリッド(チップ画像)を、クラス設定3(図3)に基づいて3つのラベル(クラス14a〜14c)に分類した例である。クラス14aは「車両占有率50%以上」、クラス14bは「車両占有率25−50%」、クラス14cは「車両占有率25%未満」である。クラス14a〜14cに分類されたグリッド数はそれぞれ、30個、15個、5個である。クラス14a〜14cの各々のグリッド内の車両台数の合計が目視判読結果から700台、200台、及び30台であるとき、クラス14aの1グリッドの平均値は23.3台、クラス14bの1グリッドの平均値は13.3台、クラス14cの1グリッドの平均値は6台となる。
【0023】
判読時には、各クラス(又はクラスの確率値)の1グリッド当たりの車両台数とグリッド数を積算することにより、学習対象画像14の駐車場領域Apにおける車両台数Pが推定される。車両台数Pは、式(1)で表される。N〜Nは、クラス(又は確率値区分)(1,…,n)に該当するグリッド(チップ画像)の数である。
【0024】
P=N×(クラス14aの1グリッド当たりの台数(23.3))
+N×(クラス14bの1グリッド当たりの台数(13.3))
+N×(クラス14cの1グリッド当たりの台数(6)) ・・・・(1)
【0025】
図5は、検討(1)に係る1グリッド当たりの確率値区分ごとの車両台数を示すテーブルである。図5の1グリッド当たりの車両台数が定義された設定テーブル15は、「確率値区分[%]」と「1グリッド当たりの台数[台]」のフィールドを有する。「1グリッド当たりの台数[台]」のフィールドには、クラス設定1(図2)の「車両あり」のクラスと、クラス設定2の「車両占有率50%以上」のクラスの車両台数が格納されている。
【0026】
「確率値区分」における確率値とは、分類モデルが出力する結果の確信度である。例えば、グリッド分割されたあるチップ画像の分類結果が「車両あり」だったとする。その際、分類結果の出力上では「車両あり:95%」のような形で出力される。この95%という値が確率値であり、「分類モデル3が95%の確信度で車両ありと判断した」ということを示している。即ち図5の設定テーブル15は、確率値区分毎にどれくらい車両が含まれていたかを評価した結果を表す。
【0027】
図6は、検討(1)に係る1グリッド当たりのクラスごとの台数を示すテーブルである。図6の1グリッド当たりの車両台数テーブル16は、「クラス」と「1グリッド当たりの台数[台]」のフィールドを有する。即ち、クラス設定3(図2)における各クラスの1グリッド当たりの台数が格納されている。
【0028】
次に、検討(1)の手法について検証する。解析対象の衛星画像には、Airbus Defence and Space社が提供するPleades衛星により撮像された、あるアミューズメントパークの駐車場における2012年から2014年の衛星画像を使用した。学習シーン数は14、評価シーン数は50(学習シーンを含む)である。ここで、学習シーン数とは、学習に用いる画像の数を指し、評価シーン数とは、評価に用いる画像の数を指す。これらの衛星画像は、マルチスペクトル画像とパンクロマチック画像を用いてパンシャープン処理(合成処理)を行い作成された高解像度(50cm/pixel)のRGB画像である。衛星画像の画像サイズは、一例として1348×2398[pixel]である。
【0029】
図7は、検討(1)に係る台数推定結果を示す説明図である。図7において、クラス設定1(図3)の「2クラス分類」、クラス設定2の「2クラス分類」、クラス設定3の「4クラス分類」ごとに、衛星画像の「全50シーンの台数推定精度」が示されている。3つのクラス設定のうち、クラス設定2の「2クラス分類(車両占有率50%以上、車両なし)」の場合が最も推定精度がよく、指定領域(駐車場領域)の正解値(Ground Truth)に対する相対誤差は25%(推定精度75%)である。
【0030】
しかし、推定精度75%では実用レベルに達していない。これは、分類クラス(又は確率値区分)ごとに一律で台数を割り当てていることにより、車種の違いによる台数の違いを反映できていないことが原因と考えられる。例えば普通車とバスでは全長が異なるため、仮に複数の普通車及びバスが同一面積の領域を占有していても、それぞれの台数は異なる。検討(1)では、種々のクラス設定を検討し、また1グリッド当たりの台数をクラス又は確率値区分ごとに設定したが、1グリッド当たりの台数の確度に限界がある。そのため、台数の推定精度を上げることが難しかった。
【0031】
<2.検討(2)>
次に、検討(2)について説明する。検討(2)の手法は、チップ画像2の分類を行わずに、各チップ画像の車両台数を回帰モデルで直接推定する手法である。解析に使用した衛星画像は、検討(1)と同様である。
【0032】
図8は、検討(2)に係る車両台数推定方法の概要を示す説明図である。図8に示す検討(2)の手法は、判読画像1中の指定領域Apを小領域にグリッド分割し、分割画像(チップ画像2)を、畳み込みニューラルネットワークからなる学習済み回帰モデル23に入力する。そして、回帰モデル23がチップ画像2ごとに台数推定値(台数推定結果24)を出力し、チップ画像2ごとの台数推定値を集計することにより、駐車場領域にある駐車車両の台数を推定する。
【0033】
回帰モデル23は、学習対象画像に対して車両台数の正解データ(目視判断結果)を学習済みのモデルであり、入力データ(チップ画像2)に対して駐車車両の台数を推定する。検討(2)の手法は、画像に対する駐車車両の台数を直接学習するため、台数推定値に車種の違いを表現(反映)することができる。
【0034】
図9は、検討(2)に係る画像全体の正解台数(目視判読結果)と画像全体の台数推定結果を示す説明図である。目視判読結果31の要部画像31a、及び回帰モデル23による台数推定結果32の要部画像32aにおいて、上側の部分が普通車の駐車領域、右下部分がバスの駐車領域である。要部画像31aと要部画像32aを比較すると、要部画像32aは、台数推定値に車種別の台数の傾向を概ね表現(反映)できている。なお、要部画像32aの左端のグリッドにおける台数推定値‘−1’は、確率計算上の表現であり、0台とみなす。
【0035】
図10は、検討(2)の台数推定結果と検討(1)の台数推定結果を示す説明図である。
図10に示すように、検討(2)の「回帰」の相対誤差は23%(推定精度77%)であり、検討(1)の「2クラス分類」の相対誤差25%を僅かに上回った。
【0036】
図11は、検討(2)に係る車両の存在しないグリッドにおける台数推定結果を示す説明図である。図11Aは正解台数(目視判読結果)の例であり、図11Bは検討(2)の台数推定結果の例である。図11Bの台数推定値‘−0’は、計算上の確率値が0未満であることを示し、実質的に0台である。図11Bに示すように、図11Aの車両の存在しないグリッドに対する台数推定値が0台ではない。さらに、検討(2)の手法では、駐車されている車両の密度が高い場合の推定誤差と、車両の密度が低い場合の推定誤差(推定精度)との差が大きい。
【0037】
図12は、検討(2)に係る車両密度の低いグリッドにおける台数推定結果を示す説明図である。図12Aは正解台数(目視判読結果)の例であり、図12Bは台数推定結果の例である。図12Aには、車両が0台であるグリッド(8個)が多く見られる。しかし、図12Bでは、車両の存在しないグリッドに対する台数推定値が0ではないグリッド(5個)がある。これは、一つの理由として、駐車線(例えば白線)と車両(太陽光の反射光)の区別がしっかりできていないことが考えられる。
【0038】
図13は、検討(2)に係る車両密度の高いグリッドにおける台数推定結果を示す説明図である。図13Aは正解台数の例であり、図13Bは台数推定結果の例である。図13Aは、図12Aと比較して車両が広範囲のグリッドに写っているとともに、グリッド内の台数も多い。図13Bの台数推定結果は、実際に駐車している車両を概ね反映した結果となっており、図12Bと比較して推定誤差が小さい。このため、車両の密度が高い場合の推定誤差と、車両の密度が低い場合の推定誤差との差が大きくなる。なお、図13Bにおいても、車両の存在しないグリッド(2個)に対する台数推定値が0ではないグリッド(2個)が散見されるが、この数字‘2個’も駐車場領域全体(指定領域全体)では無視できない数となる。よって、車両の存在しないグリッドに対する台数推定値が0ではないグリッドが存在する問題を、改善することが望ましい。
【0039】
このように、検討(2)の手法では、画像に対する車両台数を直接学習できるため、検討(1)の手法では難しかった台数推定値に車種の違いを表現(反映)することができる。しかし、検討(2)の手法は、誤って車両の存在しないグリッドに車両が数台存在すると推定してしまう問題がある。さらに検討(2)の手法は、台数推定値に駐車車両の密度を表現(反映)できない、即ち、駐車車両の密度が低いグリッドと駐車車両の密度が高いグリッドとの間で推定誤差の違いが大きい。
【0040】
そこで、本発明者らは、検討(2)の手法(回帰モデルを使用した台数推定方法)に検討(1)の手法(分類モデル)を組み合わせ、検討(2)の手法の問題点を軽減する手法を発明した。以下、本発明について図面を参照しながら説明する。
【0041】
<3.一実施形態>
[車両台数推定方法の概要]
図14は、本発明の一実施形態に係る車両台数推定方法の概要を示す説明図である。本実施形態では、目的物として衛星画像の車両を例にとり説明する。車両台数推定方法は、目的物個数推定方法の一実施形態である。
【0042】
まず、衛星画像51(解析対象画像)中の駐車場領域Ap(指定領域の例)を小領域にグリッド分割してチップ画像52を作成し、チップ画像52中に駐車車両が存在するか否かを、例えば畳み込みニューラルネットワーク(CNN)からなる分類モデル135(図16参照)を用いて分類する。次に、分類結果53の駐車車両ありと判断されたチップ画像52に対して、チップ画像52中の駐車車両の数を、CNNを用いた回帰モデル136(図16参照)により推定を行う。最後に、各チップ画像52の推定台数(台数推定結果54)を合計し、衛星画像51中の駐車場領域Apの駐車車両の台数を得る。
【0043】
このように、本実施形態に係る車両台数推定方法は、初めにチップ画像(グリッド)の分類を行い、分類結果を元に「車両あり」のグリッドのみ回帰による台数推定を行う。
【0044】
図15は、一実施形態に係る分類結果及び回帰による台数推定結果を表現した衛星画像を示す説明図である。分類モデル135は、衛星画像51からグリッド分割された各チップ画像52を取り込み、各チップ画像52について「車両あり」又は「車両なし」を分類する。図15左側の分類結果53は、検討(1)のクラス設定2(図2)に基づく2クラス分類結果を表しており、白いグリッドは「車両あり」、黒いグリッドは「車両なし」である。図15右側の台数推定結果54に示すように、分類結果53の黒いグリッド(車両なし)に対して台数推定が行われないため、台数推定値は‘0’と表記されている。
【0045】
[車両台数推定装置の内部構成]
図16は、一実施形態に係る車両台数推定装置の内部構成例を示すブロック図である。図16に示すように車両台数推定装置100は、学習用データベース110(図中「学習用DB」と表記)、前処理部120、学習部130、解析処理部140、及び後処理部150を備える。
【0046】
学習用データベース110は、衛星画像等の解析対象画像を学習対象画像として保存するデータベースである。また学習用データベース110には、解析対象画像の分割単位であるグリッド内の駐車車両の台数(正解値)が、グリッド位置と対応づけて保存される。学習用データベース110は、大容量の不揮発性ストレージ207(後述する図24)に構築される。
【0047】
前処理部120は、色調補正部121、画像分割部122、及び学習チップ画像セット生成部123を備える。
【0048】
色調補正部121は、学習対象画像及び解析対象画像の色調を補正する処理を行う。衛星画像からの情報抽出には、撮像場所や季節、時間の違いに起因する衛星画像の色の変化に左右されない安定した性能が求められる。即ち、車両台数推定装置100において、推定精度を上げるため、色合いを正規化した衛星画像での学習及び判読を行うことが重要である。正規化されたデータを利用して学習及び判読することにより、衛星画像のシーン間の色の違い等のノイズを小さくすることができる。それにより、後述するネットワークモデル(識別器)が様々な時期の画像に対して安定した判読性能を持つことが期待できる。
【0049】
そこで、色調補正部121において、複数の衛星画像(学習対象画像、解析対象画像)の統計量を用いて正規化を行う。この正規化では、補正対象画像の統計量(平均値、標準偏差)が基本色(R,G,B)のバンド(周波数帯域)毎に設定した目標平均値、目標標準偏差と同じになるように変換を行う。後述する学習フェーズと解析フェーズでは、同じ統計量を用いる。具体的な正規化の計算方法の一例を、下記に示す。
【0050】
まず衛星画像のR,G,Bのバンド毎に全画素の平均値A、標準偏差Sを算出する。次に、式(2)により、各バンドについて、画像座標(x,y)の画素における輝度値Ixyから正規化後の輝度値I’xyを求める。Aaimは目標平均値、Saimは目標標準偏差である。一例として画素の階調が256であるとき、各バンド(R,G,B)の目標平均値Aaimは128、目標標準偏差Saimは80に設定する。
【0051】
【0052】
画像分割部122は、色調補正部121により色調補正済みの解析対象画像をグリッド分割して複数のチップ画像(小画像)を生成し、各チップ画像を学習チップ画像セット生成部123、解析処理部140又は後処理部150へ順次出力する。画像分割部122は、正解値のグリッド位置を基準に、解析対象画像の分割を行う。なお、(ユーザーの指示などにより)小チップ画像を更に分割する場合など正解値の分割が必要であれば、正解値の分割も実施する。
【0053】
学習チップ画像セット生成部123は、画像分割部122で分割されたチップ画像と、入力された正解値(教師データ)を組み合わせた学習用データセットである学習チップ画像セットを生成し、学習部130へ順次出力する。本実施形態では、分類用と回帰用で2種類の学習チップ画像セットが生成される。学習チップ画像セット生成部123は、分類用学習チップ画像セット125を、学習部130の分類モデル生成部131へ出力し、回帰用学習チップ画像セット126を、学習部130の回帰モデル生成部132へ出力する。
【0054】
図16では、学習チップ画像セット生成部123を設けて学習チップ画像セットを生成する構成としているが、この例に限定されない。基本的に正解値は、地理情報システム(GIS(Geographical Information System))データとして広域にわたって整備される。即ち位置情報(グリッド情報)と対応づけられているので、解析対象画像とともに分割することができる。画像分割部122は、解析対象画像とともに正解値を分割し、分割後の画像(チップ画像)と分割後の正解値の組を、学習チップ画像セットとしてもよい。なお、仮に正解値が既に分割されていたとしても、画像分割部122で解析対象画像を分割する際には正解値と対応づけられた位置情報が必要となる。
【0055】
学習部130は、入力データに対する演算結果を出力する複数のノードを多層に接続した構成を有し、教師あり学習により、抽象化されたチップ画像の特徴を学習して分類モデル135及び回帰モデル136を生成する。図16に示すように、学習部130は、分類モデル生成部131と、回帰モデル生成部132を備える。
【0056】
分類モデル生成部131は、分類用学習チップ画像セット125に含まれる学習対象画像と、その学習対象画像に対する駐車車両の有無の正解値とを学習し、学習内容が反映された分類モデル135を生成する。即ち、分類モデル135の種々のパラメーターを決定する。
【0057】
回帰モデル生成部132は、回帰用学習チップ画像セット126に含まれる学習対象画像と、その学習対象画像に含まれる駐車車両の台数の正解値とを学習し、学習内容を反映した回帰モデル136を生成する。即ち、回帰モデル136の種々のパラメーターを決定する。
【0058】
上述の分類モデル135及び回帰モデル136は、一例として畳み込みニューラルネットワーク(識別器)により構成される。分類モデル135及び回帰モデル136のネットワーク構成の主要な構成は、同一である。本実施形態のネットワーク構成は、入力層−C−P−C−P−C−C−C−FC−D−出力層からなる層構成を持つ。ここで、Cは、同じ重みフィルタを入力データ(チップ画像)全体に適用して畳み込み処理し、特徴マップ(特徴量)を抽出する畳み込み層である。Pは、畳み込み層(C)から出力された特徴マップを縮小するプーリング層である。FCは、重み付き結合を計算し、活性化関数によりユニットの値を求める全結合層である。そして、Dは、過学習を防止するため中間層のユニットの値を一定の割合で0にし、結合を欠落させるドロップアウト層である。
【0059】
本実施形態の分類モデル135では、誤差関数に交差エントロピーを用い、出力層の活性化関数にはソフトマックス関数を用いている。また回帰モデル136では、誤差関数に最小二乗誤差を用い、出力層の活性化関数に線形関数を用いている。この誤差関数と出力層の活性化関数については一例であり、この例に限定されない。
【0060】
上記ネットワーク構成は一例であって、この例に限定されるものではなく、他の文献等でよく用いられているものでもよい。また、分類モデル135及び回帰モデル136は、他の深層学習の手法、あるいは他の機械学習の手法を利用して構築してもよい。
【0061】
解析処理部140は、車両判定部141と、台数推定部142を備える。車両判定部141(目的物判定部の一例)は、分類モデル135を用いて、各チップ画像に駐車車両が存在するかどうかを判定し、判定結果(車両あり)を台数推定部142へ出力する。また、判定結果(車両なし)として各チップ画像の台数推定値(0台)を後処理部150へ出力する。
【0062】
台数推定部142(個数推定部の一例)は、回帰モデル136を用いて、車両判定部141により駐車車両が存在すると判定されたチップ画像に含まれる駐車車両の台数を推定し、その台数推定値を後処理部150へ出力する。また、台数推定部142は、台数推定値を、チップ画像を識別するための情報(例えば位置情報)とともに学習用データベース110へ記憶する。これにより、台数推定値が、今後の学習部130における学習に利用される。
【0063】
後処理部150は、車両判定部141で判定された、車両が存在しないと判定された各チップ画像の台数推定値(0台)と、台数推定部142で推定された、車両が存在すると判定された各チップ画像に対する台数推定値を集計して出力する処理を行う。この後処理部150は、前処理部120から解析対象画像及びチップ画像を取得し、ユーザーニーズに合わせて出力するレポートの形態(表示形態や項目等)をカスタマイズする。
【0064】
[学習・モデル生成フェーズの処理]
次に、車両台数推定装置100の学習・モデル生成フェーズにおける処理を説明する。図17は、一実施形態に係る学習・モデル生成フェーズにおける処理例を示すフローチャートである。
【0065】
まず、学習対象画像(衛星画像)が学習用データベース110から前処理部120に取り込まれると、色調補正部121は、学習対象画像に対して色調補正処理を行い(S1)、色調補正済み学習対象画像を画像分割部122に出力する。次に、画像分割部122は、色調補正済み学習対象画像の駐車場領域Apに対してグリッド分割処理を行い(S2)、学習チップ画像セット生成部123にチップ画像を出力する。例えば1グリッド(1チップ画像)が60×60ピクセル(例えば約30m四方)となるように分割が行われる。
【0066】
次に、学習チップ画像セット生成部123は、入力されたチップ画像と組となる分類用の正解値から分類用学習チップ画像セット125を生成する。また、学習チップ画像セット生成部123は、入力されたチップ画像と組となる回帰用の正解値から回帰用学習チップ画像セット126を生成する(S3)。分類学習では、各チップ画像に対して、人間の目視による駐車車両あり/なし(正解値)のラベル付けが行われる。また、回帰学習では、各チップ画像に対して、人間が目視により駐車車両の台数をカウントし、そのカウント数が正解値として登録される。なお、チップ画像と正解値の組を、画像分割部122による画像分割処理時に作成してもよい。
【0067】
次に、学習部130の分類モデル生成部131は、分類用学習チップ画像セット125を用いて学習を行い、分類モデル135を生成する(S4)。また、回帰モデル生成部132は、回帰用学習チップ画像セット126を用いて学習を行い、回帰モデル136を生成する(S5)。
【0068】
このように、分類モデル135は、学習対象画像に対して「離散値(ラベル)」を正解データとして学習する。離散値は、「車両あり」及び「車両なし」の2クラスである。また、回帰モデル136は、学習対象画像に対して「連続値(車両台数)」を正解データとして学習する。回帰モデル136の学習対象画像は、駐車車両が1台以上存在する画像のみである。学習対象画像のパターンを「駐車車両あり」に限定することにより、車両密度に関する特徴を学習しやすくする。
【0069】
[解析フェーズの処理]
次に、車両台数推定装置100の解析フェーズにおける処理を説明する。図18は、一実施形態に係る解析フェーズにおける処理例を示すフローチャートである。
【0070】
まず、解析対象画像(衛星画像)が前処理部120に取り込まれると、色調補正部121は、解析対象画像に対して色調補正処理を行い(S11)、色調補正済み解析対象画像を画像分割部122に出力する。次に、画像分割部122は、色調補正済み解析対象画像の指定領域(駐車場領域)に対するグリッド分割処理を行い(S12)、順次チップ画像を生成する。
【0071】
次に、解析処理部140の車両判定部141は、分類モデル135を利用して各チップ画像に対して車両の有無を分類し(S13)、その判定結果(車両あり)を台数推定部142に順次出力する。
【0072】
次に、台数推定部142は、回帰モデル136を用いて、車両ありと判定されたチップ画像に対して台数推定を行い、チップ画像ごとに台数推定値を後処理部150へ順次出力する(S14)。また、車両判定部141は、車両なしと判定したチップ画像に対する台数推定値を0として、後処理部150へ出力する(S15)。
【0073】
最後に、後処理部150は、ステップS15及びS16の処理が終了後、後処理として、例えば車両ありと判定されたチップ画像に対する台数推定値を集計する。そして、後処理部150は、解析対象画像の指定領域の駐車車両についてのレポートを出力する処理を行う(S16)。
【0074】
[台数推定結果の検証]
以下、本発明の一実施形態に係る台数推定結果について図19図23を参照しながら検証する。解析対象画像には、検討(1)、検討(2)で使用したものと同じ衛星画像を使用した。学習シーン数及び評価シーン数も同じである。
【0075】
図19は、一実施形態に係るある1シーンの駐車場領域における台数推定結果を示す説明図である。図19Aは正解台数の例であり、図19Bは台数推定結果の例である。図19Aの白塗のグリッドは‘駐車車両あり’、黒塗のグリッドは‘駐車車両なし’と分類されたチップ画像であり、図19Bに示した台数推定結果は、各グリッドがチップ画像に相当する。
【0076】
図19Bの駐車車両あり/なしの分類結果を見ると、背景色を黒色とした5個のグリッド‘0’のうち4個のグリッドは実際に駐車車両が0台であり、駐車車両の有無が精度よく分類されていることがわかる。また各グリッドに記載した推定台数を図19Aの正解データと比較すると、バスや駐車場境界付近といった性質の異なるチップ画像に対して台数の傾向を表現できていることがわかる。
【0077】
図20は、一実施形態に係る台数推定結果、並びに、検討(1)及び検討(2)の台数推定結果を示す説明図である。本実施形態(2クラス分類+回帰)に係る正解データに対する相対誤差(全50シーンを平均した誤差平均)は、16%(推定精度84%)であった。これに対し、検討(1)の分類(2クラス分類)のみの場合では同25%、検討(2)の回帰のみの場合では同23%であった。
【0078】
今回使用した50cm分解能の衛星画像では、駐車車両のような小サイズの地物(オブジェクト)は輪郭が潰れて写っているケースが多く、人間が目視で行ったとしても正確に台数を数えることは難しい。したがって、本実施形態における推定精度約84%の台数推定結果は、妥当な数値であると言える。
【0079】
図21は、一実施形態に係る推定値と実測値(目視判読結果)との関係例を示すグラフである。図21は、各シーンの推定台数と正解データの関係を示し、横軸が正解データである実測値[台]、縦軸が推定値[台]を表す。各プロット点が1対1の回帰直線上にあるほど高い精度で推定できていることを示している。図21より、推定値は正解データと比較して全体的に低く見積もられているものの、決定係数Rは0.933と、高い相関を示している。
【0080】
図22は、検討(2)に係る推定値と実測値との関係例を示すグラフであり、横軸が正解データである実測値[台]、縦軸が推定値[台]を表す。推定値は正解データと比較して低く見積もられており、決定係数Rは0.917と、検討(1)の場合よりは高いものの、低い相関を示している。
【0081】
図23は、検討(1)に係る推定値と実測値との関係例を示すグラフであり、横軸が正解データである実測値[台]、縦軸が推定値[台]を表す。推定値は正解データと比較して低く見積もられており、決定係数Rは0.890と、低い相関である。
【0082】
上述したように、本実施形態に係る車両台数推定装置100によれば、衛星画像等の解析対象画像から目的物である駐車車両の台数を自動的に精度よく推定することができる。解析対象画像1枚の駐車場領域(およそ0.3km)当たりの作業時間は、人間の目視判読では約3時間である。一方、CNN(機械学習)を用いた本実施形態の手法では、判読に要する時間は約1分であった。コンピューターの処理能力にもよるが、本実施形態は、目視による判読と比べて大幅な作業時間の短縮(約180倍の高速化)が実現可能となる。
【0083】
また、本実施形態では、車両の存在しないグリッドは車両判定部141による分類で除かれるとともに、「車両なし」のグリッドは推定台数を0台と処理される。これにより、検討(2)で説明した回帰の問題(車両の存在しないグリッドにも数台車両があると推定される)が軽減されたと考えられる。
【0084】
また、学習部130(回帰モデル生成部132)は、回帰用学習チップ画像セット126を用いて「車両あり」のチップ画像のみ台数の学習を行うため、チップ画像の車両密度に関する特徴を学習しやすい。これにより、チップ画像の車両密度に関する特徴に対する学習が強化され、それ故、検討(2)で説明した回帰の他の問題(駐車車両の密度の高いグリッドと低いグリッドとの間で推定精度の差が大きい)が軽減されたと考えられる。
【0085】
[ハードウェア構成例]
図24は、車両台数推定装置100が備えるコンピューターのハードウェア構成を示すブロック図である。車両台数推定装置100の機能、使用目的に合わせてコンピューターの各部は取捨選択されてもよい。
【0086】
コンピューター200は、バス204にそれぞれ接続されたCPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203を備える。さらに、コンピューター200は、表示部205、操作部206、不揮発性ストレージ207、ネットワークインターフェース208を備える。
【0087】
CPU201は、本実施形態に係る各機能を実現するソフトウェアのプログラムコードをROM202から読み出して実行する。なお、コンピューター200は、CPU201の代わりに、MPU(Micro-Processing Unit)等の処理装置を備えるようにしてもよい。RAM203には、演算処理の途中に発生した変数やパラメーター等が一時的に書き込まれる。CPU201が、ROM202からプログラムを読み出して実行することにより、図17及び図18に示す車両台数推定装置100の動作が実現される。
【0088】
なお、CPUに代えて、MPU(Micro-processing unit)や、画像処理を高速に実行するGPU(Graphics Processing Unit)等を用いてもよい。例えばGPUの機能を画像処理以外の用途に転用する技術であるGPGPU(General-Purpose computing on Graphics Processing Units)を利用して、本実施形態に係る各機能を実現してもよい。
【0089】
表示部205は、例えば、液晶ディスプレイモニタであり、コンピューター200で行われる処理の結果等を表示する。操作部206には、例えば、キーボード、マウス又はタッチパネル等が用いられ、ユーザーが所定の操作入力、指示を行うことが可能である。例えばユーザーは操作部206を操作し、学習対象画像及び解析対象画像に対して指定領域を指定することができる。
【0090】
不揮発性ストレージ207としては、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フレキシブルディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード等が用いられる。この不揮発性ストレージ207には、OS(Operating System)、各種のパラメーターの他に、コンピューター200を機能させるためのプログラムが記録されている。例えば不揮発性ストレージ207には、学習対象画像及び正解値、解析対象画像等が記憶されている。分類モデル135及び回帰モデル136のネットワーク構成に関する各種パラメーターが記憶されていてもよい。
【0091】
ネットワークインターフェース208には、例えば、NIC(Network Interface Card)等が用いられ、LAN等のネットワークを介して各装置間で各種のデータを送受信することが可能である。
【0092】
<4.その他>
上述した一実施形態では、目的物として駐車車両の台数を推定する例を示したが、この例に限定されない。例えば目的物として、ある海域に出航している船舶、道路で渋滞中の車両、設置されたキャンプテント、ある地域の野生生物、キャベツ等の農作物(収穫量)など、画像中の地物が挙げられる。
【0093】
また、上述した一実施形態では、解析対象画像として衛星画像を例示したが、本発明の解析対象は衛星画像に限定されず、航空写真や一般的なカメラで撮影された画像など、種々の画像を解析対象とすることができる。
【0094】
また、上述した一実施形態にかかる車両台数推定装置100の動作が、ソフトウェアによって行われる例を示したが、その一部がハードウェアによって行われてもよい。例えば、前処理部120の一部又は全部がハードウェアによって実現されてもよい。
【0095】
さらに、本発明は上述した実施形態例に限られるものではなく、特許請求の範囲に記載した本発明の要旨を逸脱しない限りにおいて、その他種々の応用例、変形例を取り得ることは勿論である。
【0096】
例えば、上述した実施形態例は本発明を分かりやすく説明するために装置及びシステムの構成を詳細且つ具体的に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態例の構成の一部を他の実施形態例の構成に置き換えることは可能である。また、ある実施形態例の構成に他の実施形態例の構成を加えることも可能である。また、各実施形態例の構成の一部について、他の構成の追加、削除、置換をすることも可能である。
【符号の説明】
【0097】
100…車両台数推定装置、 110…学習用データベース、 120…前処理部、 121…色調補正部、 122…画像分割部、 123…学習チップ画像セット生成部、 125…分類用学習チップ画像セット、 126…回帰用学習チップ画像セット、 130…学習部、 131…分類モデル生成部、 132…回帰モデル生成部、 135…分類モデル、 136…回帰モデル、 140…解析処理部、 141…車両判定部、 142…台数推定部、 150…後処理部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24