(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-15
(45)【発行日】2023-11-24
(54)【発明の名称】領域分割装置、領域分割方法、領域分割プログラム、学習装置、学習方法、及び学習プログラム
(51)【国際特許分類】
G06T 7/11 20170101AFI20231116BHJP
G06T 7/00 20170101ALI20231116BHJP
G06N 20/00 20190101ALI20231116BHJP
【FI】
G06T7/11
G06T7/00 350B
G06N20/00 130
(21)【出願番号】P 2019121964
(22)【出願日】2019-06-28
【審査請求日】2022-06-21
(73)【特許権者】
【識別番号】000108085
【氏名又は名称】セコム株式会社
(74)【代理人】
【識別番号】110000154
【氏名又は名称】弁理士法人はるか国際特許事務所
(72)【発明者】
【氏名】吉山 智之
【審査官】長谷川 素直
(56)【参考文献】
【文献】特開2016-058079(JP,A)
【文献】特表2009-541896(JP,A)
【文献】特開平11-213165(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
空間に分布するデータ群を複数のクラスに分類する分類処理を行い前記空間を前記クラスで識別されるラベル領域に分割する領域分割装置であって、
前記データ群と、前記分類処理に偏りを持たせるためのバイアス情報とを入力され当該データ群についての前記分類処理を行う分類器として、学習用データ群及び当該学習用データ群に対し予め与えられた正解のクラスと、当該正解のクラスから導出された前記バイアス情報である学習用バイアス情報とを用いた学習が行われた学習済みモデルを記憶している分類器記憶手段と、
前記データ群と当該データ群に対する前記バイアス情報とを前記分類器に入力し、その出力のクラス分類結果に基づいて前記ラベル領域を求める領域分割手段と、
を有することを特徴とする領域分割装置。
【請求項2】
請求項1に記載の領域分割装置において、
予め定義された前記クラスのそれぞれと一対一に対応した要素を有する前記バイアス情報を入力するバイアス入力手段と、
前記バイアス入力手段からの前記バイアス情報を次元圧縮して前記分類処理に供するバイアス情報圧縮手段と、
をさらに備えたことを特徴とする領域分割装置。
【請求項3】
請求項2に記載の領域分割装置において、
前記分類器は、
次元圧縮された前記バイアス情報と前記データ群の特徴量とを組み合わせた合成特徴量を生成する特徴量合成部と、
前記合成特徴量に基づいて前記分類処理を行うクラス分類部と、
を有することを特徴とする領域分割装置。
【請求項4】
請求項1から請求項3のいずれか1つに記載の領域分割装置において、
前記分類器に入力する前記バイアス情報は、前記クラス分類結果に現れやすくさせるクラス又は現れにくくさせるクラスを指定すること、を特徴とする領域分割装置。
【請求項5】
請求項4に記載の領域分割装置において、
前記分類器に入力する前記バイアス情報はさらに、前記クラス分類結果における前記クラスの現れやすさ又は現れにくさの度合いを指定すること、を特徴とする領域分割装置。
【請求項6】
計測対象の空間ごとに、当該空間
を計測して得られるデータ群
に含まれる複数のデータのそれぞれを複数のクラスに分類する分類処理を行う分類器を学習させる学習装置であって、
前記分類器として、前記データ群と、前記分類処理に偏りを持たせるためのバイアス情報とを入力され当該データ群
に含まれる前記複数のデータのそれぞれについてのクラス分類結果を出力する学習モデルを記憶する学習モデル記憶手段と、
学習用データ群及び当該学習用データ群
に含まれる複数の学習用データのそれぞれに対し予め与えられた正解のクラスと、
前記複数の学習用データそれぞれの正解のクラスから導出した前記バイアス情報である学習用バイアス情報とを記憶している学習用データ記憶手段と、
前記学習モデルに前記学習用データ群及び前記学習用バイアス情報を入力し、出力の前記クラス分類結果の前記正解に対する誤差に基づいて前記学習モデルを更新する学習を行う学習手段と、
を有することを特徴とする学習装置。
【請求項7】
請求項6に記載の学習装置において、
前記学習用データ群ごとに、予め定義された前記クラスのそれぞれと一対一に対応した要素を有した前記学習用バイアス情報であって当該学習用データ群に与えられた前記正解のクラスを前記クラス分類結果に現れやすくさせるクラスに指定すると共に当該正解のクラス以外を前記クラス分類結果に現れにくくさせるクラスに指定した前記学習用バイアス情報を生成する学習用バイアス生成手段を、さらに備えたことを特徴とする学習装置。
【請求項8】
空間に分布するデータ群を複数のクラスに分類する分類処理を行い前記空間を前記クラスで識別されるラベル領域に分割する領域分割方法であって、
前記データ群と、前記分類処理に偏りを持たせるためのバイアス情報とを入力され当該データ群についての前記分類処理を行う分類器として、学習用データ群及び当該学習用データ群に対し予め与えられた正解のクラスと、当該正解のクラスから導出された前記バイアス情報である学習用バイアス情報とを用いた学習が行われた学習済みモデルを用意するステップと、
前記データ群と当該データ群に対する前記バイアス情報とを前記分類器に入力し、その出力のクラス分類結果に基づいて前記ラベル領域を求める領域分割ステップと、
を有することを特徴とする領域分割方法。
【請求項9】
計測対象の空間ごとに、当該空間
を計測して得られるデータ群
に含まれる複数のデータのそれぞれを複数のクラスに分類する分類処理を行う分類器を学習させる学習方法であって、
前記分類器として、前記データ群と、前記分類処理に偏りを持たせるためのバイアス情報とを入力され当該データ群
に含まれる前記複数のデータのそれぞれについてのクラス分類結果を出力する学習モデルを用意するステップと、
学習用データ群及び当該学習用データ群
に含まれる複数の学習用データのそれぞれに対し予め与えられた正解のクラスと、
前記複数の学習用データそれぞれの正解のクラスから導出した前記バイアス情報である学習用バイアス情報とを用意するステップと、
前記学習モデルに前記学習用データ群及び前記学習用バイアス情報を入力し、出力の前記クラス分類結果の前記正解に対する誤差に基づいて前記学習モデルを更新する学習を行う学習ステップと、
を有することを特徴とする学習方法。
【請求項10】
空間に分布するデータ群を複数のクラスに分類する分類処理を行い前記空間を前記クラスで識別されるラベル領域に分割する処理をコンピュータに行わせるプログラムであって、
当該コンピュータを、
前記データ群と、前記分類処理に偏りを持たせるためのバイアス情報とを入力され当該データ群についての前記分類処理を行う分類器として、学習用データ群及び当該学習用データ群に対し予め与えられた正解のクラスと、当該正解のクラスから導出された前記バイアス情報である学習用バイアス情報とを用いた学習が行われた学習済みモデルを記憶している分類器記憶手段、及び、
前記データ群と当該データ群に対する前記バイアス情報とを前記分類器に入力し、その出力のクラス分類結果に基づいて前記ラベル領域を求める領域分割手段、
として機能させることを特徴とする領域分割プログラム。
【請求項11】
計測対象の空間ごとに、当該空間
を計測して得られるデータ群
に含まれる複数のデータのそれぞれを複数のクラスに分類する分類処理を行う分類器を学習させる処理をコンピュータに行わせるプログラムであって、
当該コンピュータを、
前記分類器として、前記データ群と、前記分類処理に偏りを持たせるためのバイアス情報とを入力され当該データ群
に含まれる前記複数のデータのそれぞれについてのクラス分類結果を出力する学習モデルを記憶する学習モデル記憶手段、
学習用データ群及び当該学習用データ群
に含まれる複数の学習用データのそれぞれに対し予め与えられた正解のクラスと、
前記複数の学習用データそれぞれの正解のクラスから導出した前記バイアス情報である学習用バイアス情報とを記憶している学習用データ記憶手段、及び、
前記学習モデルに前記学習用データ群及び前記学習用バイアス情報を入力し、出力の前記クラス分類結果の前記正解に対する誤差に基づいて前記学習モデルを更新する学習を行う学習手段、
として機能させることを特徴とする学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像等のデータ群を被写体等のクラスごとに分類してデータ群をラベル領域に分割する技術、および上記分類に係る学習を行う技術に関する。
【背景技術】
【0002】
画像に撮影されたシーンを自動認識するなどの目的で、画像を、当該画像に撮影されている複数の物体それぞれの領域や複数の部位それぞれの領域に分割すると共に、各領域に撮影されている物体や部位を認識する技術が研究・開発されてきた。以下、撮影されている物体や部位を被写体と呼ぶ。被写体の認識を伴った領域分割はセマンティックセグメンテーションなどと称される。
【0003】
特に、近年では、学習に基づいて上記分割と認識を行う技術が盛んに研究されている。すなわち、例えば、下記非特許文献1には、予め被写体ごとに分割された領域の画素ごとに被写体を表すクラスを付与した学習用画像を多数用意し、コンピュータにこれらの学習用画像を機械学習させることが記載されている。予め付与する情報はアノテーションなどと称される。この学習によって生成された学習済みモデルに任意の画像を入力すれば当該入力画像に対して画素ごとのクラスが出力される。つまり当該入力画像が被写体ごとに、クラスでラベル付けされた領域(ラベル領域)に分割される。
【0004】
また、近年では、学習用画像とアノテーションとからなるデータセットが公開され利用可能となっている。基本的には多様な学習をした学習済みモデルほど高精度な領域分割を行うことができるため、学習に用いるデータセットの規模は大きい方が望ましい。
【先行技術文献】
【非特許文献】
【0005】
【文献】“Fully Convolutional Networks for Semantic Segmentation”,Jonathan Long, Evan Shelhamer, and Trevor Darrell (Proceedings of the IEEE conference on computer vision and pattern recognition, 2015)
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、学習データの多様性や付与基準の異なるアノテーションの混在が原因で領域分割結果が変動しやすくなる問題があった。また、付与基準の異なるアノテーションの混在は学習精度低下の原因にもなっていた。
【0007】
例えば、黒い絨毯の画像とそれに似たアスファルトの画像とを学習に用いると、黒い絨毯が敷かれた床の領域を正しく床の領域と分割する場合だけでなく、その一部または全部を道路の領域として誤って分割してしまう場合も生じる。これは学習の多様性により領域分割結果が変動しやすくなってしまう例である。
【0008】
また、例えば、野球場を撮影した画像を入力した場合、当該画像における芝の領域を草の領域として分割する場合もあれば、当該画像における芝の領域を遊技場の領域の一部として分割する場合もある。これは付与基準の異なるアノテーションの混在により領域分割結果が変動しやすくなってしまう例である。例えば、公開されているデータセットにおいては、野球場を撮影した学習用画像のひとつにおいては芝の領域に「草」を表すラベルが付与され土の領域に「土」を表すラベルが付与されているが、野球場を撮影した別の学習用画像においては芝と土の領域を合わせた領域に「遊技場」を表すラベルが付与されている、というように異なる付与基準が混在していることがある。つまり、芝の領域に対しては草も遊技場も正解となる。そのため、入力画像の違いによる変動が生じやすくなる。
【0009】
別の側面では芝の領域の例のような複数の正解の存在は学習を収束しづらくさせる。そのため、付与基準の異なるアノテーションの混在は学習精度低下の要因でもある。
【0010】
なお、上記問題は、二次元画像のみならず、時系列画像から形成される時空間のデータやポイントクラウド等の三次元データ等においても生じ得る。
【0011】
本発明は、上記問題を鑑みてなされたものであり、領域分割結果の変動を抑制することのできる領域分割技術を提供することを目的とする。また、本発明は、領域分割処理の学習に用いる学習用データに付与基準の異なるアノテーションが混在していても学習精度の低下を防止できる学習技術を提供することを別の目的とする。
【課題を解決するための手段】
【0012】
(1)本発明に係る領域分割装置は、空間に分布するデータ群を複数のクラスに分類する分類処理を行い前記空間を前記クラスで識別されるラベル領域に分割する装置であって、前記データ群と前記分類処理に偏りを持たせるためのバイアス情報とを入力され当該データ群についての前記分類処理を行う分類器として、学習用データ群及び当該学習用データ群に対し予め与えられた正解のクラスと当該正解のクラスから導出された前記バイアス情報である学習用バイアス情報とを用いた学習が行われた学習済みモデルを記憶している分類器記憶手段と、前記データ群と当該データ群に対する前記バイアス情報とを前記分類器に入力し、その出力のクラス分類結果に基づいて前記ラベル領域を求める領域分割手段と、を有する。
【0013】
(2)上記(1)に記載の領域分割装置において、予め定義された前記クラスのそれぞれと一対一に対応した要素を有する前記バイアス情報を入力するバイアス入力手段と、 前記バイアス入力手段からの前記バイアス情報を次元圧縮して前記分類処理に供するバイアス情報圧縮手段と、をさらに備えた構成とすることができる。
【0014】
(3)上記(2)に記載の領域分割装置において、前記分類器は、次元圧縮された前記バイアス情報と前記データ群の特徴量とを組み合わせた合成特徴量を生成する特徴量合成部と、前記合成特徴量に基づいて前記分類処理を行うクラス分類部と、を有する構成とすることができる。
【0015】
(4)上記(1)~(3)に記載の領域分割装置において、前記分類器に入力する前記バイアス情報は、前記クラス分類結果に現れやすくさせるクラス又は現れにくくさせるクラスを指定するものとすることができる。
【0016】
(5)上記(4)に記載の領域分割装置において、前記分類器に入力する前記バイアス情報はさらに、前記クラス分類結果における前記クラスの現れやすさ又は現れにくさの度合いを指定することができる。
【0017】
(6)本発明に係る学習装置は、空間に分布するデータ群を複数のクラスに分類する分類処理を行う分類器を学習させる装置であって、前記分類器として、前記データ群と前記分類処理に偏りを持たせるためのバイアス情報とを入力され当該データ群についてのクラス分類結果を出力する学習モデルを記憶する学習モデル記憶手段と、学習用データ群及び当該学習用データ群に対し予め与えられた正解のクラスと当該正解のクラスから導出した前記バイアス情報である学習用バイアス情報とを記憶している学習用データ記憶手段と、前記学習モデルに前記学習用データ群及び前記学習用バイアス情報を入力し、出力の前記クラス分類結果の前記正解に対する誤差に基づいて前記学習モデルを更新する学習を行う学習手段と、を有する。
【0018】
(7)上記(6)に記載の学習装置において、前記学習用データ群ごとに、予め定義された前記クラスのそれぞれと一対一に対応した要素を有した前記学習用バイアス情報であって当該学習用データ群に与えられた前記正解のクラスを前記クラス分類結果に現れやすくさせるクラスに指定すると共に当該正解のクラス以外を前記クラス分類結果に現れにくくさせるクラスに指定した前記学習用バイアス情報を生成する学習用バイアス生成手段を、さらに備えた構成とすることができる。
【0019】
(8)本発明に係る領域分割方法は、空間に分布するデータ群を複数のクラスに分類する分類処理を行い前記空間を前記クラスで識別されるラベル領域に分割する方法であって、前記データ群と、前記分類処理に偏りを持たせるためのバイアス情報と、を入力され当該データ群についての前記分類処理を行う分類器として、学習用データ群及び当該学習用データ群に対し予め与えられた正解のクラスと、当該正解のクラスから導出された前記バイアス情報である学習用バイアス情報と、を用いた学習が行われた学習済みモデルを用意するステップと、前記データ群と当該データ群に対する前記バイアス情報とを前記分類器に入力し、その出力のクラス分類結果に基づいて前記ラベル領域を求める領域分割ステップと、を有する。
【0020】
(9)本発明に係る学習方法は、空間に分布するデータ群を複数のクラスに分類する分類処理を行う分類器を学習させる方法であって、前記分類器として、前記データ群と、前記分類処理に偏りを持たせるためのバイアス情報とを入力され当該データ群についてのクラス分類結果を出力する学習モデルを用意するステップと、学習用データ群及び当該学習用データ群に対し予め与えられた正解のクラスと、当該正解のクラスから導出した前記バイアス情報である学習用バイアス情報とを用意するステップと、前記学習モデルに前記学習用データ群及び前記学習用バイアス情報を入力し、出力の前記クラス分類結果の前記正解に対する誤差に基づいて前記学習モデルを更新する学習を行う学習ステップと、を有する。
【0021】
(10)本発明に係る領域分割プログラムは、空間に分布するデータ群を複数のクラスに分類する分類処理を行い前記空間を前記クラスで識別されるラベル領域に分割する処理をコンピュータに行わせるプログラムであって、当該コンピュータを、前記データ群と、前記分類処理に偏りを持たせるためのバイアス情報と、を入力され当該データ群についての前記分類処理を行う分類器として、学習用データ群及び当該学習用データ群に対し予め与えられた正解のクラスと、当該正解のクラスから導出された前記バイアス情報である学習用バイアス情報と、を用いた学習が行われた学習済みモデルを記憶している分類器記憶手段、及び、前記データ群と当該データ群に対する前記バイアス情報とを前記分類器に入力し、その出力のクラス分類結果に基づいて前記ラベル領域を求める領域分割手段、として機能させる。
【0022】
(11)本発明に係る学習プログラムは、空間に分布するデータ群を複数のクラスに分類する分類処理を行う分類器を学習させる処理をコンピュータに行わせるプログラムであって、当該コンピュータを、前記分類器として、前記データ群と、前記分類処理に偏りを持たせるためのバイアス情報とを入力され当該データ群についてのクラス分類結果を出力する学習モデルを記憶する学習モデル記憶手段、学習用データ群及び当該学習用データ群に対し予め与えられた正解のクラスと、当該正解のクラスから導出した前記バイアス情報である学習用バイアス情報とを記憶している学習用データ記憶手段、及び、前記学習モデルに前記学習用データ群及び前記学習用バイアス情報を入力し、出力の前記クラス分類結果の前記正解に対する誤差に基づいて前記学習モデルを更新する学習を行う学習手段、として機能させる。
【発明の効果】
【0023】
本発明によれば、領域分割結果の変動を抑制することが可能になる。また、本発明によれば、領域分割処理の学習に用いる学習用データに付与基準の異なるアノテーションが混在していても学習精度の低下を防止することが可能になる。
【図面の簡単な説明】
【0024】
【
図1】本発明の実施形態に係る領域分割装置の概略の構成を示すブロック図である。
【
図2】セグメンテーションを行う際の本発明の実施形態に係る領域分割装置の概略の機能ブロック図である。
【
図3】本発明の実施形態に係る領域分割装置に用いる分類器の概略の機能ブロック図である。
【
図4】分類器の学習装置としての本発明の実施形態に係る領域分割装置の概略の機能ブロック図である。
【
図5】本発明の実施形態に係る領域分割装置の領域分割処理での動作に関する概略のフロー図である。
【
図6】合成特徴量の生成処理を説明する模式図である。
【
図7】本発明の実施形態に係る領域分割装置の領域分割処理の処理例を説明するための模式図である。
【
図8】本発明の実施形態に係る領域分割装置の学習処理での動作に関する概略のフロー図である。
【発明を実施するための形態】
【0025】
以下、本発明の実施の形態(以下実施形態という)である領域分割装置1について、図面に基づいて説明する。本発明に係る領域分割装置は、空間に分布するデータ群を複数のクラスに分類する分類処理を行い空間をクラスで識別されるラベル領域に分割するものであり、本実施形態にて一例として示す領域分割装置1は、監視空間を撮影した画像を領域分割する。すなわち、本実施形態において、分類されるデータ群は二次元画像、それを構成するデータは画素であり、分割される空間は画像に対応する二次元空間である。
【0026】
領域分割装置1は上記分類処理を行う分類器を備える。また、領域分割装置1は当該分類器を学習する学習装置を含む。
【0027】
[領域分割装置1の構成]
図1は領域分割装置1の概略の構成を示すブロック図である。領域分割装置1は撮影部2、通信部3、記憶部4、画像処理部5、表示部6および操作入力部7からなる。
【0028】
撮影部2は、分類対象のデータ群として画像を取得するカメラであり、本実施形態においては監視カメラである。撮影部2は通信部3を介して画像処理部5と接続され、監視空間を所定の時間間隔で撮影して画像を生成し、生成した画像を順次、画像処理部5に入力する。例えば、撮影部2は、監視空間である部屋の一角に当該監視空間を俯瞰する所定の固定視野を有して設置され、監視空間をフレーム周期1秒で撮影してカラー画像を生成する。なお、撮影部2はカラー画像の代わりにモノクロ画像を生成してもよい。
【0029】
通信部3は通信回路であり、その一端が画像処理部5に接続され、他端が撮影部2、表示部6および操作入力部7と接続される。通信部3は撮影部2から画像を取得して画像処理部5に入力し、また、操作入力部7からユーザの指示等を取得して画像処理部5に入力する。また、通信部3は画像処理部5からクラスへの分類結果やラベル領域へのセグメンテーションの結果を入力され表示部6へ出力する。
【0030】
なお、撮影部2、通信部3、記憶部4、画像処理部5、表示部6および操作入力部7の間は各部の設置場所に応じた形態で適宜接続される。例えば、撮影部2と通信部3および画像処理部5とが遠隔に設置される場合、撮影部2と通信部3との間をインターネット回線にて接続することができる。また、通信部3と画像処理部5との間はバスで接続する構成とすることができる。その他、接続手段として、LAN(Local Area Network)、各種ケーブルなどを用いることができる。
【0031】
記憶部4は、ROM(Read Only Memory)、RAM(Random Access Memory)等のメモリ装置であり、各種プログラムや各種データを記憶する。例えば、記憶部4は学習用のデータや、学習済みモデルである分類器の情報を記憶し、画像処理部5との間でこれらの情報を入出力する。すなわち、分類器の学習に用いる情報、分類処理に必要な情報や当該処理の過程で生じた情報などが記憶部4と画像処理部5との間で入出力される。
【0032】
画像処理部5は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、MCU(Micro Control Unit)、GPU(Graphics Processing Unit)等の演算装置で構成される。画像処理部5は記憶部4からプログラムを読み出して実行することにより各種の処理手段・制御手段として動作し、必要に応じて、各種データを記憶部4から読み出し、生成したデータを記憶部4に記憶させる。例えば、画像処理部5は分類器を学習し生成すると共に、生成した分類器を通信部3経由で記憶部4に記憶させる。また、画像処理部5は分類器を用いて撮影画像のセグメンテーションを行う。
【0033】
表示部6は、液晶ディスプレイまたは有機EL(Electro-Luminescence)ディスプレイ等であり、通信部3を経由して画像処理部5から入力される分類処理やセグメンテーションの結果を表示する。
【0034】
操作入力部7は画像処理部5に対する入力機器であり、キーボードおよびマウス等で構成される。
【0035】
領域分割装置1は、画像を構成する各画素を分類器を用いてクラス分類し、画像をラベル領域に分割する装置であると共に、当該分類器を構築する学習動作を行う学習装置としての機能を有する。以下、領域分割装置1の構成について、先ず、セグメンテーション処理に関する構成、つまり領域分割装置としての構成について説明し、次いで、学習装置としての構成について説明する。
【0036】
[領域分割装置としての構成]
図2はセグメンテーションを行う際の領域分割装置1の概略の機能ブロック図であり、記憶部4が分類器記憶手段40として機能し、画像処理部5が領域分割手段50として機能する。また、通信部3が画像処理部5と協働し、画像入力手段30および領域情報出力手段31として機能する。操作入力部7と通信部3はバイアス入力手段70として機能する。
【0037】
画像入力手段30は撮影部2が撮影した画像を順次取得して領域分割手段50に入力する。
【0038】
バイアス入力手段70は、利用者が操作入力部7を操作して入力するバイアス情報(入力バイアス情報)を領域分割手段50へ渡す。バイアス情報は分類処理に偏りを持たせるために与える情報である。特に、入力バイアス情報は利用者が理解可能な形式で表現されたバイアス情報である。入力バイアス情報は、予め定義された全クラスのそれぞれと一対一に対応した要素を有するベクトル(全クラス数をNとするとN次元ベクトル)とすることができる。例えば、利用者は、クラス分類結果に現れやすくさせたいクラスの要素に値“1”、クラス分類結果に現れにくくさせたいクラスの要素に値“0”を設定した入力バイアス情報を設定する。なお、バイアス入力手段70は利用者が理解可能な形式のバイアス情報が記録されたファイルを読み出して入力する手段とすることもできる。
【0039】
分類器記憶手段40は学習により生成された分類器を記憶している。本実施形態では、分類器は深層学習(Deep Learning)で用いられるような多層のネットワークで構成され、例えば、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)でモデル化することができる。分類器記憶手段40は、CNNなどのネットワークを構成するフィルタのフィルタ係数やネットワーク構造などを含めた情報を分類器として記憶する。
【0040】
領域分割手段50は、分類器記憶手段40に格納されている分類器を用いて、画像入力手段30から入力された画像(入力画像)、および当該入力画像に対しバイアス入力手段70からの入力バイアス情報を入力として、画素について、事前定義された複数クラスのどれに属するかを推定する分類処理を行う。そして、領域分割手段50は分類器から出力されるクラス分類結果に基づいてラベル領域を求める。
【0041】
領域情報出力手段31は、領域分割手段50が求めたラベル領域を表示部6に出力する。例えば、領域情報出力手段31は、ラベル領域ごとに色分けされた画像を生成して表示部6に出力する。
【0042】
図3は分類器の概略の機能ブロック図である。分類器は、画像とバイアス情報とを入力され、画像の各画素についてクラス分類を行い、その結果を出力する。
【0043】
バイアス情報とは既に述べたように、分類処理に偏りを持たせるために与える情報であり、例えば、画像中に出現するであろうクラス、出現しないであろうクラスの情報を表現したものである。分類器に入力としてバイアス情報を与えることで、セグメンテーション結果に含まれるクラスを制御できるようになる。
【0044】
本実施形態の分類器を構成するネットワークは、特徴量抽出部400、バイアス情報圧縮部401、特徴量合成部402、およびクラス分類部403を含む。これらのうち特徴量抽出部400、特徴量合成部402およびクラス分類部403は直列に接続された複数層からなるネットワーク構造であり、この部分は画像を入力されクラス分類結果を出力する。以下、当該部分をネットワーク主部と呼ぶことにする。
【0045】
特徴量抽出部400およびクラス分類部403は、畳み込み層や活性化関数、プーリング(pooling)層などから構成され、ネットワーク主部は例えば、近傍画素の特徴量を畳み込んだ特徴量マップを求める処理を繰り返し行って周囲の画素との関係を集約し、さらに元の画像の画素についてクラスを識別する処理を行う。本実施形態では、ネットワーク主部はその途中に特徴量合成部402を挿入され、特徴量合成部402の前と後との2つの部分に分かれる。これら2つの部分が特徴量抽出部400、クラス分類部403であり、特徴量抽出部400は画像を入力され、当該画像から特徴量の計算を行い、一方、クラス分類部403は特徴量合成部402が生成する合成特徴量に基づいて画素のクラス分類を行い画像を領域分割する処理を行う。但し、特徴量抽出部400が行う特徴量の計算は、複数階層に生成される特徴量マップの途中の階層までであり得、また、クラス分類部403が行う処理は当該途中の階層以降の特徴量マップの生成を含み得る。
【0046】
バイアス情報圧縮部401は全結合層などから構成され、低次元表現でのバイアス情報を得て特徴量合成部402へ出力する。つまり、バイアス情報は画像に映っているものやそのシーンに基づいて設定されるが、入力される画像中に現れるクラスの数は、分類器が分類可能な全クラスの数よりも十分小さいことが多く、また例えば屋外の画像に屋内のクラスは含まれにくい、屋内では壁と床は同時に含まれやすいなどの共起性を持つため、バイアス情報は比較的低次元の情報で表すことができ、バイアス情報圧縮部401はこの低次元化の変換処理を行う。例えば、バイアス情報圧縮部401は、予め定義された全クラスに応じた数の変数で表されるバイアス情報を入力され、当該情報を次元圧縮し、より少ない変数で表現されるバイアス情報に変換して出力する。
【0047】
バイアス入力手段70からの入力バイアス情報をバイアス情報圧縮部401にて次元圧縮することにより、利用者に理解可能な形式で入力バイアス情報を設定しつつ、コンピュータが効率よく利用可能な形式に変換して領域分割に利用することができる。よって、領域分割結果の変動を抑制する制御を容易且つ効率的に行うことが可能となる。
【0048】
特徴量合成部402は、特徴量抽出部400にて抽出された特徴量に、バイアス情報圧縮部401にて圧縮されたバイアス情報を合成して合成特徴量を生成し、クラス分類部403へ入力する。
【0049】
[学習装置としての構成]
図4は分類器の学習を行う学習装置としての領域分割装置1の概略の機能ブロック図であり、記憶部4が学習用データ記憶手段41および学習モデル記憶手段42として機能し、画像処理部5が学習用バイアス生成手段52および学習手段53として機能する。
【0050】
学習用データ記憶手段41は、学習用データ群である多数の画像および当該画像に対し予め与えられた正解のクラスと、当該正解のクラスから導出したバイアス情報である学習用バイアス情報とを記憶する。学習用画像と当該画像それぞれに対応する正解のクラスは、学習処理に先立って予め学習用データ記憶手段41に記憶される。一方、学習用バイアス情報は学習用バイアス生成手段52により生成され、学習用データ記憶手段41に記憶される。
【0051】
学習用バイアス生成手段52は、学習用データ記憶手段41に記憶される学習用画像それぞれに対応して、その正解のクラスから学習用バイアス情報を生成して、学習用データ記憶手段41に記憶させる。学習用バイアス情報は入力バイアス情報と同じ形式である。すなわち、学習用バイアス生成手段52は、学習用画像(学習用データ群)ごとに、予め定義された全クラスのそれぞれと一対一に対応した要素を有した学習用バイアス情報であって学習用画像に与えられた正解のクラスをクラス分類結果に現れやすくさせるクラスに指定すると共に当該正解のクラス以外をクラス分類結果に現れにくくさせるクラスに指定した学習用バイアス情報を生成する。
【0052】
この学習用バイアス情報を学習に供することで、利用者に理解可能な形式で入力バイアス情報を設定して領域分割結果の変動を抑制する制御を容易且つ効率的に行うための分類器を学習することが可能となる。
【0053】
学習手段53は学習用画像、正解のクラスおよび学習用バイアス情報を入力とし、出力のクラス分類結果の正解に対する誤差に基づいて学習モデルを更新する学習を行う。
【0054】
学習モデル記憶手段42は上述の分類器についての学習モデルを記憶する。学習手段53による学習処理に伴い、学習モデル記憶手段42に記憶される学習モデルは更新される。そして、学習が完了すると、学習モデル記憶手段42は分類器の学習済みモデルを記憶し、分類器記憶手段40として機能する。
【0055】
[領域分割装置1の動作]
次に、領域分割装置1の動作を、領域分割処理と学習処理とに分けて説明する。
【0056】
[領域分割処理での動作]
図5は領域分割処理での領域分割装置1の動作に関する概略のフロー図である。
【0057】
領域分割装置1が領域分割処理を開始すると、撮影部2は所定時間おきに監視空間を撮影した画像を順次出力する。画像処理部5は通信部3と協働して、撮影部2から画像を受信するたびに
図5のフロー図に示す動作を繰り返す。
【0058】
通信部3は画像入力手段30として機能し、画像を受信すると当該画像を画像処理部5に入力する(ステップS100)。
【0059】
画像処理部5は入力された画像(入力画像)に対し、セグメンテーション結果を操作するためのバイアス情報(入力バイアス情報)を設定する。例えば、利用者が、セグメンテーション結果に含まれてほしいクラスや除外したいクラスを決定し、それをバイアス情報にすることができる。この場合、画像処理部5は入力画像を表示部6に表示し、利用者は当該入力画像に対する入力バイアス情報を操作入力部7から入力する。操作入力部7はバイアス入力手段70として機能し、入力バイアス情報を画像処理部5の領域分割手段50に入力する(ステップS101)。また、屋外・屋内など撮影画像中のシーンが既知であり画像中に含まれるクラスが限定できる場合は、それをもとに入力バイアス情報を定めることもできる。この場合には、当該入力バイアス情報は例えば、領域分割処理の開始時に予め領域分割手段50に入力・設定される。
【0060】
領域分割手段50は、入力画像および入力バイアス情報を入力されると、分類器記憶手段40から読み出した分類器を用いて画像の領域分割を行う。ステップS100の入力バイアス情報は分類器のバイアス情報圧縮部401にて圧縮され(ステップS102)、一方、ステップS100の入力画像は分類器の特徴量抽出部400に入力され、特徴量抽出部400は入力画像から特徴量を算出する(ステップS103)。
【0061】
分類器の特徴量合成部402は、特徴量抽出部400から出力される特徴量に、バイアス情報圧縮部401から出力される入力バイアス情報を合成して、合成特徴量を生成する(ステップS104)。
【0062】
図6は合成特徴量の生成処理を説明する模式図である。
図6は
図3に示した分類器内におけるデータを模式的に表しており、図の左側には、ネットワーク主部をなす
図3の特徴量抽出部400、特徴量合成部402およびクラス分類部403の並びに対応して、分類器へ入力される画像100、特徴量合成部402により生成される合成特徴量110、分類器から出力されるクラス分類結果140が並んでいる。また、図の右側には、バイアス情報圧縮部401の入力ノード120および当該ノードに入力されるバイアス情報121、並びにバイアス情報圧縮部401の出力ノード130が示されている。
【0063】
図6の左側に並ぶネットワーク主部のデータに関し、画像100の幅方向にx軸、高さ方向にy軸をとり、また特徴量のチャンネルに対応する次元をc軸で表している。画像100の大きさはx方向にW
I画素、y方向にH
I画素である。特徴量抽出部400にて生成される特徴量マップはx方向にW
F画素、y方向にH
F画素の大きさで、c方向の大きさ、つまりチャンネル数はCチャンネルとする。ちなみに、特徴量マップのx,y方向のサイズは一般に画像100のサイズとは一致せず、通常、W
F<W
I,H
F<H
Iとなる。
【0064】
図6に例示するバイアス情報121は、予め定められたN個のクラスそれぞれについて画像中に含まれるであろうクラスか否かの情報である。例えば、分類器が分類対象とする全クラスが当該Nクラスとして設定される。
【0065】
具体的には、バイアス情報121は屋内用のものであり、屋内に出現するであろうクラスを値“1”、屋内に出現しないであろうクラスを“0”で表したN次元のベクトルである。バイアス情報121はその具体的な一例を示しており、屋内に存在し得る物体等のクラス、例えば“人”や“床”のクラスは画像に含まれるとして、ベクトルにて対応する要素に“1”が設定され、一方、室内に存在しない物体等、例えば“道路”のクラスは画像に含まれないとして、対応する要素に“0”が設定されている。
【0066】
全要素の値が“0”のバイアス情報を基にして屋内に出現するであろうクラスに対応する要素の値を“1”に変更すれば、クラス分類結果に現れやすくさせるクラスを指定するバイアス情報121と言える。また、全要素の値が“1”のバイアス情報を基にして屋内に出現しないであろうクラスに対応する要素の値を“0”に変更すれば、クラス分類結果に現れにくくさせるクラスを指定するバイアス情報121と言える。
【0067】
バイアス情報圧縮部401の入力ノード120はバイアス情報121の要素と一対一に対応しており、その数はNであり、一方、出力ノード130の数DはN未満である。バイアス情報圧縮部401は、入力ノード120に入力されたバイアス情報121を次元圧縮して、出力ノード130から圧縮されたバイアス情報を出力する。つまり、バイアス情報121はN次元のベクトルからD次元のベクトルに圧縮される。ちなみに、
図6では、バイアス情報圧縮部401として、入力ノード120と出力ノード130とが全結合された構成を示している。
【0068】
特徴量合成部402は、バイアス情報圧縮部401の出力ノード130から圧縮されたバイアス情報を入力され、当該バイアス情報を特徴量抽出部400から入力された特徴量マップと合成して、合成特徴量110を生成する。合成特徴量110は、合成前の特徴量マップにてx座標、y座標の組で指定されるC次元の特徴量ベクトルそれぞれにD次元ベクトルで表されるバイアス情報を連結したものであり、合成前の特徴量マップと幅と高さが同じで、チャンネル数が(C+D)チャンネルとなった構造を有する。例えば、合成特徴量110の第1~第Cチャンネルは合成前の特徴量マップで、第(C+1)~第(C+D)チャンネルに、バイアス情報圧縮部401の出力ノード130の第1~第Dノードの出力値が設定される。
【0069】
本実施形態では各(x,y)座標のバイアス情報は共通であるので、合成特徴量110の構造は、バイアス情報のD個の要素それぞれをx,y方向に複製して特徴量抽出部400の出力と同じWF×HF画素の大きさに拡大し、それを合成前の特徴量マップに積層した構造である。つまり、例えば、第1~第Cチャンネルの特徴量は座標(x,y)に応じて異なり得るのに対し、本実施形態では第(C+1)~第(C+D)の各チャンネルには全ての座標(x,y)に共通の値が設定される。
【0070】
クラス分類部403は合成特徴量110に基づき入力画像100の各画素についてクラス分類を行い、クラス分類結果140を出力する(ステップS105)。つまり、クラス分類結果140は入力画像100の画素ごとの分類結果からなる。例えば、各画素に、分類対象とするクラス数に当たるN個の値が対応付けられる。この場合、
図6に示すように、クラス分類結果140はx方向にW
I画素、y方向にH
I画素、c方向にNチャンネルであるデータとなる。クラス分類結果140のチャンネルはN個のクラスと一対一に対応しており、例えば、各画素の各チャンネルには、当該チャンネルに対応するクラスに当該画素が属する確からしさが高いほど大きな値が与えられる。領域分割手段50は入力画像100の座標(x,y)の画素を、例えば、クラス分類結果140の当該座標(x,y)において最大値が出力されたチャンネルに対応するクラスに分類することができる。入力画像100の各画素についてクラス分類を行うことで、入力画像100が領域分割されラベル領域が定義され、領域分割手段50は得られたラベル領域情報を領域情報出力手段31へ出力する(ステップS106)。
【0071】
領域分割装置1は、ステップS100にて入力された画像についてラベル領域情報を出力するとステップS100に戻り、次に入力される画像について上述のステップS100~S106の処理を繰り返す。
【0072】
図7は、領域分割装置1の領域分割処理の処理例を説明するための模式図である。
図7(a)の画像200は入力画像を示しており、入力画像200には、壁201、窓202、人203と共に、黒い絨毯が敷かれた床204が撮影されている。
【0073】
入力画像200に対して得られるラベル領域が
図7(b),(c)の画像210,220である。
図7(b)の画像210は従来技術により得られるラベル領域を表しており、
図7(c)の画像220は本実施形態の領域分割装置1により得られるラベル領域を表している。
【0074】
図7(b)に示す従来技術の処理結果では、壁201、窓202、人203が撮影された領域はそれぞれ正しく壁のクラスのラベル領域211、窓のクラスのラベル領域212、人のクラスのラベル領域213として分割されているが、床204が撮影された領域は正しく床のクラスとして分割されたラベル領域214と、誤って道路のクラスとして分割されたラベル領域215とに分かれてしまっている。
【0075】
一方、
図7(c)は、本実施形態の領域分割装置1に、入力画像200と共に、入力バイアス情報121として
図6に例示した屋内用のものを入力して得た処理結果である。当該入力バイアス情報121の例では、“人”、“床”のクラスは値“1”であるが、“道路”のクラスは値“0”に設定され、この入力バイアス情報121を用いることで、分類処理にて道路のクラスが抑制される。その結果、
図7(c)では、壁201、窓202、人203が撮影された領域はそれぞれ正しく壁のクラスのラベル領域211、窓のクラスのラベル領域212、人のクラスのラベル領域213として分割され、さらに道路のクラスが抑制されたことによって、床204が撮影された領域も正しく床のクラスとして分割されている。
【0076】
つまり、
図7の例では、部屋(計測対象の空間)に現れないと想定される道路のクラスを現れにくく設定した入力バイアス情報を与えて、部屋を撮影した入力画像(空間に分布するデータ群)を領域分割することで、道路のクラスへの誤分類が抑制される。よって、道路のクラスを含めた多様な学習を行った分類器を利用しつつ、床を道路に誤分類する変動を抑えることができる。
【0077】
このように、本発明の領域分割装置によれば、多様な学習を行った分類器を利用しつつ、変動を抑制した高精度な領域分割を行うことが可能となる。なお、多様な学習を行った分類器を利用できることは、計測対象の空間ごとに当該空間に特化した分類器を用意しなくてもよいという利が得られることを意味する。ちなみに、入力バイアス情報の値を0に設定したクラスは、全く分類結果に現れないのではなくあくまでも抑制されるため、当該クラスである可能性が高ければ分類結果に現れ得る。その点にも多様な学習を行った分類器を利用できることの利がある。
【0078】
また、上述した、芝に対して遊技場と草のクラスのアノテーションが混在する学習用データを用いて学習を行った分類器の例について説明する。例えば、野球場内に設置した撮影部2から入力される入力画像においては視野全体がそもそも野球場であることから芝を草のクラスに分類することが望ましく、ヘリコプターに設置した撮影部2から入力される入力画像においては野球場を含む施設等の情報を得たいことから芝を含む野球場を遊技場のクラスに分類することが望ましいとする。この場合、前者の入力画像に対する入力バイアス情報を草のクラスを現れやすく設定し且つ遊技場のクラスを現れにくく設定することで、後者の入力画像に対する入力バイアス情報は草のクラスを現れにくく設定し且つ遊技場のクラスを現れやすく設定することで、それぞれについて希望通りの領域分割結果を得ることができる。
【0079】
このように、本発明の領域分割装置によれば、異なる付与基準が混在した学習用データによって学習を行った分類器を利用しつつ、変動を抑制した高精度な領域分割を行うことが可能となる。なお、異なる付与基準が混在した学習用データによって学習を行った分類器を利用できることは、計測対象の空間ごとに当該空間に適した付与基準で作成し直した学習用データを用いた分類器を用意しなくてもよいという利が得られることを意味する。
【0080】
[学習処理での動作]
領域分割装置1は入力画像を領域分割する動作に先立って、分類器を学習する動作を行う。以下、この分類器の学習について説明する。領域分割装置1における分類器の学習は、学習用画像とそれに対応する領域分割の正解データである正解のクラスと正解のクラスから作成したバイアス情報(学習用バイアス情報)とを用い、学習用画像に対して分類器の学習モデルが分類した結果と正解データとの誤差をもとに、誤差逆伝播法などの既知の最適化手法を用いて、学習モデルのパラメータを繰り返し誤差が収束するまで更新する。この学習によって分類処理を偏らせる制御が可能な分類器を学習させることができる。また、当該分類器の学習は、特徴量抽出部400およびクラス分類部403の学習に加え、学習用バイアス情報を用いてバイアス情報圧縮部401を学習する動作を含む。
【0081】
図8は学習処理での領域分割装置1の動作に関する概略のフロー図である。
【0082】
当該学習処理では、学習用データとして、学習用画像、正解のクラスおよび学習用バイアス情報を用いる。そこで、学習動作開始が指示されると、画像処理部5は学習用バイアス生成手段52として機能し、学習用データ記憶手段41に記憶される各学習用画像について学習用バイアス情報を生成する。具体的には、学習用バイアス生成手段52は、学習用データ記憶手段41に学習用画像に対応付けて記憶されている正解のクラスから学習用バイアス情報を生成し、これを当該学習用画像に対応付けて学習用データ記憶手段41に記憶させる(ステップS200)。
【0083】
学習用バイアス情報は上述の入力バイアス情報121に整合する形式であり、本実施形態ではN個のクラスに対応した要素からなるN次元ベクトルである。当該ベクトルを{Bi}(1≦i≦N)と表し、また、正解のクラスが、対応する学習用画像に含まれるクラスの集合Lを与える場合に、一例として、学習用バイアス情報のベクトルの各要素Biの値は、当該要素に対応するクラスが集合Lに含まれるクラスであるか否かに応じて設定することができる。つまり、この例では、分類器が分類対象とする全クラスをNクラスとし、そのi番目(1≦i≦N)のクラスをCiで表すと、学習用バイアス生成手段52は当該クラスCiに対応する学習用バイアス情報のベクトルの要素Biを次式で設定する。
【0084】
【0085】
ステップS200での学習用バイアス情報の生成により学習用データが揃うと、画像処理部5は学習手段53として機能し、学習モデル記憶手段42から分類器の学習モデルを読み出す(ステップS201)。なお、この段階での学習モデルのパラメータは初期値である。
【0086】
次に、学習手段53は学習用データ記憶手段41から、学習用画像、正解のクラスおよび学習用バイアス情報のセットからなる学習用データを読み出し(ステップS202)、学習モデルを更新するための処理(ステップS203~S207)を行う。なお、ステップS202で読み出す学習用データは、学習用データ記憶手段41に記憶されている学習用データの全セットではなく一部のセットであり、学習手段53は学習データを一部分ずつ順次読み出し学習モデルを更新する処理を繰り返す。本実施形態ではステップS202にて複数セットの学習用データを読み出す。例えば、10枚の学習用画像に対応する学習用データのセットが読み出される。
【0087】
学習手段53は、読み出した学習用データを1セットずつ順次処理対象に設定し(ステップS203)、処理対象の学習用画像とその学習用バイアス情報とを学習モデルに入力して処理対象の学習用画像の各画素を分類させる(ステップS204)。ステップS204では、その時点でのバイアス情報圧縮部401のパラメータを使用して学習用バイアス情報が圧縮され、また、その時点での特徴量抽出部400のパラメータを用いて学習用画像の特徴量が算出される。それ以外の点ではステップS204での処理は基本的に、上述した領域分割処理の
図5のステップS102~S106と同様であり、特徴量合成部402によって、圧縮された学習用バイアス情報と特徴量抽出部400にて抽出された特徴量とから合成特徴量が作成され、クラス分類部403によって、各画素が属するクラスの分類が行われる。そして、得られた各画素のクラスを学習用画像の座標系に並べることで、学習用画像が領域分割された結果を得ることができる。
【0088】
ステップS203、S204の処理はステップS202で読み出した全ての学習用データに対して繰り返される(ステップS205にて「NO」の場合)。
【0089】
全ての学習用データについて処理を終えると(ステップS205にて「YES」の場合)、学習手段53は、領域分割結果として得られたラベル領域と、正解のクラスに基づくラベル領域とを比較して、分類結果の誤差を計算し(ステップS206)、その誤差をもとに学習モデルを更新する(ステップS207)。例えば、学習手段53はステップS207にて、誤差逆伝播法などを用いて、特徴量抽出部400、クラス分類部403およびバイアス情報圧縮部401のパラメータを更新する。
【0090】
学習手段53は、所定の反復終了条件が満たされていなければ(ステップS208にて「NO」の場合)、ステップS202~S208の処理を繰り返す。例えば、ステップS206で求める誤差が収束すること、および、反復回数が予め定めた上限回数に達することのいずれかを満たすことが反復終了条件とされる。
【0091】
反復終了条件が満たされた場合には(ステップS208にて「YES」の場合)、学習手段53はステップS207で更新された学習モデルを学習済みモデルとして学習モデル記憶手段42に保存する(ステップS209)。具体的には、ステップS207で更新された各パラメータが保存される。これにより学習処理が終了し、上述したように、学習モデル記憶手段42は分類器記憶手段40となり、当該学習済みモデルは分類器として領域分割装置1の領域分割処理に供される。
【0092】
本実施形態の学習手段53は、学習用バイアス情報を学習用画像ごとに生成し、学習を行っている。この意味を、上述した、芝に対して遊技場と草のクラスのアノテーションが混在する学習用データの例で説明する。学習用バイアス情報の概念が無い従来技術では、芝に対して遊技場のクラスが付与された学習用画像についても、芝に対して草のクラスが付与された学習用画像についても、学習用画像内の芝の画素を遊技場のクラスに分類することと草のクラスに分類することの両方を許容していたため、正解のクラスに対する誤差が小さくならない学習用画像が生じて学習が収束せず、学習精度が低下する場合があった。これに対して、本実施形態の学習手段53は、芝に対して遊技場のクラスが付与された学習用画像に対応して草のクラスを現れにくく設定し且つ遊技場のクラスを現れやすく設定した学習用バイアス情報を生成し用いることで、当該学習用画像内の芝の画素を草のクラスに分類することを制限しつつ正解のクラスである遊技場のクラスに分類するよう誘導する。同時に、芝に対して草のクラスが付与された学習用画像に対応して遊技場のクラスを現れにくく設定し且つ草のクラスを現れやすく設定した学習用バイアス情報を生成し用いることで、当該学習用画像内の芝の画素を遊技場のクラスに分類することを制限しつつ正解のクラスである草のクラスに分類するよう誘導する。
【0093】
そのため、本発明の学習装置によれば、学習手段53が学習用バイアス情報を学習用画像ごとに生成して学習を行うことによって、学習用画像単位で正解のクラス以外に分類することを制限できるため、学習を収束しやすくすることができる。よって、付与基準の異なるものが混在する学習用データを用いながらも、分類器の学習精度を向上させることができる。
【0094】
[変形例]
(1)上記実施形態では、クラス分類結果に現れやすくさせるクラス又は現れにくくさせるクラスを指定するバイアス情報121として、1と0という2つの値を用いて、画像中に含まれるであろうクラスか否かという2つの状態を択一的に設定する例を示したが、バイアス情報は3つ以上の値を用いて表現されるものであってもよい。
【0095】
例えば、バイアス情報はクラス分類結果におけるクラスの現れやすさ又は現れにくさの度合いを指定することができる。当該度合いは例えば、0~1の連続値を用いて表現し得る。また、当該度合いとしてバイアス情報のクラスごとに設定する値を、例えば、画像中に占める当該クラスの面積の割合を用いて定めることができる。また、時系列画像をセグメンテーションする処理では、前時刻の処理結果を参考にしてバイアス情報を作成することができる。また、例えば、バイアス情報にて各クラスに設定する値に、当該クラスの想定される事前確率を用いてもよい。
【0096】
(2)上記実施形態および変形例では、バイアス情報は1つの画像の全体に対して共通の条件を指定するものであった。これに対して、分類器を、画像に設定した複数の領域のそれぞれに異なるバイアス情報を与え、複数のバイアス情報により領域別に異なる条件を指定する構成とすることもできる。これにより例えば、画像の上側には空のクラスが出やすくなるバイアスを掛け、下側には地面のクラスが出やすくなるバイアスを加えるなどの領域分割が可能となる。
【0097】
(3)上記実施形態では、分類器にてバイアス情報圧縮部401を用い、入力されたバイアス情報を次元圧縮する例を説明した。しかし、バイアス情報圧縮部を使用せず、上記実施形態および各変形例のバイアス情報をその入力された状態のまま、特徴量合成部402にて特徴量抽出部400からの画像特徴量と合成してもよい。
【0098】
(4)上記実施形態における分類器の学習処理では、特徴量抽出部400およびクラス分類部403の学習に加え、バイアス情報圧縮部401の学習を同時並列的に行っている。これに対して、学習データのクラスの出現傾向をもとに主成分分析などでバイアス情報の圧縮手段(バイアス情報圧縮手段)を事前に用意し、これをバイアス情報圧縮部401として用いることができる。この場合には、特徴量抽出部400およびクラス分類部403の学習の際に、バイアス情報圧縮部401の学習は不要となる。
【0099】
また、バイアス情報圧縮手段を事前に用意する場合、分類器内にバイアス情報圧縮部401を設けずに、バイアス入力手段70と領域分割手段50の間にバイアス情報圧縮手段を接続する構成とすることもできる。この場合、領域分割手段50がバイアス情報圧縮手段からのバイアス情報を分類器に入力し、当該バイアス情報が分類器の特徴量合成部402にて特徴量抽出部400からの特徴量と合成する。
【0100】
(5)上記実施形態および変形例では、特徴量合成部402は特徴量抽出部400からの特徴量にバイアス情報を連結することにより合成を行っている。別の実施形態においては、特徴量合成部402は特徴量抽出部400からの特徴量とバイアス情報の積を合成特徴量として算出することにより合成を行うことができる。その場合、バイアス情報圧縮部401ないしバイアス情報圧縮手段はバイアス入力手段70からのバイアス情報を特徴量抽出部400からの特徴量のチャンネル数Cと等しいC次元に圧縮する。
【0101】
(6)上記実施形態および各変形例では、分類器は多層のネットワーク構造としたが、それに限らない。例えば、特徴量抽出部400は、画像からHOG(Histogram of Oriented Gradients)特徴量やカラーヒストグラムなどを抽出するものとしてもよいし、それらを組み合わせたものとしてもよい。
【0102】
(7)上記実施形態および各変形例では、データ群を二次元画像とする例を示したが、この例に限られない。例えばデータ群を二次元画像の時系列とすることができる。その場合、空間は時空間であり、データは画素である。また例えば、データ群を距離画像、空間を二次元空間、データを画素(距離値)とすることもできる。なお、その場合、撮像部2は距離画像センサとなる。また例えば、ポイントクラウド等の三次元計測データ、空間を三次元空間、データを計測点とすることもできる。なお、その場合は撮像部2に代えて三次元計測器が用いられる。
【符号の説明】
【0103】
1 領域分割装置、2 撮影部、3 通信部、4 記憶部、5 画像処理部、6 表示部、7 操作入力部、30 画像入力手段、31 領域情報出力手段、40 分類器記憶手段、41 学習用データ記憶手段、42 学習モデル記憶手段、50 領域分割手段、52 学習用バイアス生成手段、53 学習手段、70 バイアス入力手段、100 画像、110 合成特徴量、120 入力ノード、121 バイアス情報、130 出力ノード、140 クラス分類結果、400 特徴量抽出部、401 バイアス情報圧縮部、402 特徴量合成部、403 クラス分類部。