(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-04
(45)【発行日】2023-12-12
(54)【発明の名称】学習システム、物体検出システム、学習方法、及びコンピュータプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20231205BHJP
G06N 20/00 20190101ALI20231205BHJP
【FI】
G06T7/00 350B
G06N20/00 130
(21)【出願番号】P 2022539799
(86)(22)【出願日】2020-07-27
(86)【国際出願番号】 JP2020028682
(87)【国際公開番号】W WO2022024178
(87)【国際公開日】2022-02-03
【審査請求日】2023-01-12
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100107331
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100131015
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】戸泉 貴裕
【審査官】藤原 敬利
(56)【参考文献】
【文献】特開2019-075130(JP,A)
【文献】特開2020-060879(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06T 7/00- 7/90
G06V 10/00-20/90
(57)【特許請求の範囲】
【請求項1】
画像から物体を検出する領域の候補である領域候補を生成する領域候補生成手段と、
前記物体が存在する正解領域に関する情報を取得する正解領域取得手段と、
前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成する正解ターゲット生成手段と
を備えることを特徴とする学習システム。
【請求項2】
前記正解ターゲット生成手段は、前記正解領域の大きさに応じて前記スコアに対して設定されるスコア閾値を変更し、前記スコアと前記スコア閾値との比較結果から前記正解ターゲットを生成することを特徴とする請求項1に記載の学習システム。
【請求項3】
前記正解ターゲット生成手段は、前記正解領域の大きさに応じた範囲内で、前記スコア閾値を乱数で変更することを特徴とする請求項2に記載の学習システム。
【請求項4】
前記正解ターゲット生成手段は、前記正解領域の大きさに応じて前記スコアを補正することを特徴とする請求項1から3のいずれか一項に記載の学習システム。
【請求項5】
前記正解ターゲット生成手段は、前記正解領域の大きさに応じて前記
領域候補の中心位置を乱数で移動させて、前記スコアを算出することを特徴とする請求項1から4のいずれか一項に記載の学習システム。
【請求項6】
前記正解ターゲットを用いて前記物体検出手段の学習を行う学習手段を更に備えることを特徴とする請求項1から5のいずれか一項に記載の学習システム。
【請求項7】
前記物体は画像に含まれる不適切表示であることを特徴とする請求項1から6のいずれか一項に記載の学習システム。
【請求項8】
画像から物体を検出する物体検出手段と、
前記物体を検出する領域の候補である領域候補を生成する領域候補生成手段と、
前記物体が存在する正解領域に関する情報を取得する正解領域取得手段と、
前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記物体検出手段の学習に用いる正解ターゲットを生成する正解ターゲット生成手段と
を備えることを特徴とする物体検出システム。
【請求項9】
少なくとも1つのコンピュータによって、
画像から物体を検出する領域の候補である領域候補を生成し、
前記物体が存在する正解領域に関する情報を取得し、
前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成する
ことを特徴とする学習方法。
【請求項10】
画像から物体を検出する領域の候補である領域候補を生成し、
前記物体が存在する正解領域に関する情報を取得し、
前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成する
ようにコンピュータを動作させることを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この開示は、物体検出に関する学習システム、物体検出システム、学習方法、及びコンピュータプログラムの技術分野に関する。
【背景技術】
【0002】
この種のシステムとして、物体検出に利用するモデルの学習を実行するものが知られている。例えば特許文献1では、学習データにおけるピーク位置やピーク範囲を用いて学習を行う技術が開示されている。特許文献2では、誤差逆伝播法(バックプロパゲーション)を用いて学習を行わせる技術が開示されている。また特許文献3では、候補領域と正解領域との重なり度合いを示すIoU(Intersection over Union)を用いて物体を検出する技術が開示されている
【先行技術文献】
【特許文献】
【0003】
【文献】国際公開第2019/092836号
【文献】特開2020-021111号公報
【文献】国際公開第2019/235050号
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述したIoUを用いた物体検出では、正解領域の大きさの違いによってIoUの分布に違いが生じる。具体的には、正解領域が小さい場合のIoUは場所依存性が比較的大きくなる一方で、正解領域が大きい場合のIoUは場所依存性が比較的小さくなる。このため、正解領域の大きさを考慮しなければ、学習に用いる正解ターゲットを適切に生成することは難しい。上述した各引用文献では、このような問題点に関して言及されておらず、改善の余地がある。
【0005】
この開示は、上述した課題を解決することが可能な学習システム、物体検出システム、学習方法、及びコンピュータプログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
この開示の学習システムの一の態様は、画像から物体を検出する領域の候補である領域候補を生成する領域候補生成手段と、前記物体が存在する正解領域に関する情報を取得する正解領域取得手段と、前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成する正解ターゲット生成手段とを備える。
【0007】
この開示の物体検出システムの一の態様は、画像から物体を検出する物体検出手段と、前記物体を検出する領域の候補である領域候補を生成する領域候補生成手段と、前記物体が存在する正解領域に関する情報を取得する正解領域取得手段と、前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記物体検出手段の学習に用いる正解ターゲットを生成する正解ターゲット生成手段とを備える。
【0008】
この開示の学習方法の一の態様は、画像から物体を検出する領域の候補である領域候補を生成し、前記物体が存在する正解領域に関する情報を取得し、前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成する。
【0009】
この開示のコンピュータプログラムの一の態様は、画像から物体を検出する領域の候補である領域候補を生成し、前記物体が存在する正解領域に関する情報を取得し、前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成するようにコンピュータを動作させる。
【発明の効果】
【0010】
上述した学習システム、物体検出システム、学習方法、及びコンピュータプログラムのそれぞれの一の態様によれば、正解領域の大きさに応じて適切に正解ターゲットを生成することが可能である。この結果、より適切に物体検出手段の学習を行うことが可能となり、物体検出の精度を高めることができる。
【図面の簡単な説明】
【0011】
【
図1】第1実施形態に係る学習システムのハードウェア構成を示すブロック図である。
【
図2】第1実施形態に係る学習システムの機能的構成を示すブロック図である。
【
図3】第1実施形態に係る学習システムの変形例の機能的構成を示すブロック図である。
【
図4】第1実施形態に係る学習システムの動作の流れを示すフローチャートである。
【
図5】第2実施形態に係る学習システムの機能的構成を示すブロック図である。
【
図6】第2実施形態に係る学習システムの動作の流れを示すフローチャートである。
【
図7】第3実施形態に係る学習システムの機能的構成を示すブロック図である。
【
図8】第3実施形態に係る学習システムの動作の流れを示すフローチャートである。
【
図10】第4実施形態に係る学習システムの動作の流れを示すフローチャートである。
【
図11】第5実施形態に係る物体検出システムの機能的構成を示すブロック図である。
【
図12】第5実施形態に係る物体検出システムの動作の流れを示すフローチャートである。
【
図13】第5実施形態に係る物体検出システムの動作例を示す図である。
【発明を実施するための形態】
【0012】
以下、図面を参照しながら、学習システム、学習方法、及びコンピュータプログラムの実施形態について説明する。
【0013】
<第1実施形態>
第1実施形態に係る学習システムについて、
図1から
図4を参照して説明する。
【0014】
(ハードウェア構成)
まず、
図1を参照しながら、第1実施形態に係る学習システムのハードウェア構成について説明する。
図1は、第1実施形態に係る学習システムのハードウェア構成を示すブロック図である。
【0015】
図1に示すように、第1実施形態に係る学習システム10は、プロセッサ11と、RAM(Random Access Memory)12と、ROM(Read Only Memory)13と、記憶装置14とを備えている。学習システム10は更に、入力装置15と、出力装置16とを備えていてもよい。プロセッサ11と、RAM12と、ROM13と、記憶装置14と、入力装置15と、出力装置16とは、データバス17を介して接続されている。
【0016】
プロセッサ11は、コンピュータプログラムを読み込む。例えば、プロセッサ11は、RAM12、ROM13及び記憶装置14のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ11は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ11は、ネットワークインタフェースを介して、学習システム10の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、読み込んでもよい)。プロセッサ11は、読み込んだコンピュータプログラムを実行することで、RAM12、記憶装置14、入力装置15及び出力装置16を制御する。本実施形態では特に、プロセッサ11が読み込んだコンピュータプログラムを実行すると、プロセッサ11内には、学習に用いる正解ターゲットを生成するするための機能ブロックが実現される。また、プロセッサ11として、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)、DSP(Demand-Side Platform)、ASIC(Application Specific Integrated Circuit)のうち一つを用いてもよいし、それらを複数並列で用いてもよい。
【0017】
RAM12は、プロセッサ11が実行するコンピュータプログラムを一時的に記憶する。RAM12は、プロセッサ11がコンピュータプログラムを実行している際にプロセッサ11が一時的に使用するデータを一時的に記憶する。RAM12は、例えば、D-RAM(Dynamic RAM)であってもよい。
【0018】
ROM13は、プロセッサ11が実行するコンピュータプログラムを記憶する。ROM13は、その他に固定的なデータを記憶していてもよい。ROM13は、例えば、P-ROM(Programmable ROM)であってもよい。
【0019】
記憶装置14は、学習システム10が長期的に保存するデータを記憶する。記憶装置14は、プロセッサ11の一時記憶装置として動作してもよい。記憶装置14は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。
【0020】
入力装置15は、学習システム10のユーザからの入力指示を受け取る装置である。入力装置15は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。
【0021】
出力装置16は、学習システム10に関する情報を外部に対して出力する装置である。例えば、出力装置16は、学習システム10に関する情報を表示可能な表示装置(例えば、ディスプレイ)であってもよい。
【0022】
(機能的構成)
次に、
図2を参照しながら、第1実施形態に係る学習システム10の機能的構成について説明する。
図2は、第1実施形態に係る学習システムの機能的構成を示すブロック図である。
【0023】
図2において、第1実施形態に係る学習システム10は、物体検出モデル(具体的には、画像中の物体を検出するためのモデル)の学習に用いる正解ターゲットを生成可能に構成されている。正解ターゲットは、検出対象となる物体が画像中のどこにあるかを示す情報であり、学習の訓練データとして利用される。学習システム10は、その機能を実現するための処理ブロックとして、領域候補生成部110と、正解領域取得部120と、正解ターゲット生成部130とを備えている。領域候補生成部110、正解領域取得部120、及び正解ターゲット生成部130は、例えばプロセッサ11(
図1参照)によって実現されてよい。
【0024】
領域候補生成部110は、物体を検出する領域の候補である領域候補(アンカー)を生成可能に構成されている。領域候補は、例えば縦長の矩形、横長の矩形、正方形等の形状に関する情報と、横幅、縦幅等の大きさに関する情報とを決定することで生成される。候補領域生成部110は、例えば、形状を3種類(縦長の矩形、横長の矩形、及び正方形)、大きさを3種類の合計3×3=9種類の領域候補を生成する。この場合、それぞれの領域候補は、左上のxy座標と、右下のxy座標との4つの値を有するものとして生成される。これらの領域候補は、画像上に等間隔で配置される。例えば、32画素×32画素のサイズの画像上に8画素の間隔で配置する場合、(4、8、12、16,20,24、28、32)の画素上に8×8この領域候補が配置されることになる。領域候補の次元は、(種類、縦、横、座標数)の4次元で表され、ここまでの例で表すと(9、8、8、4)の4次元となる。領域候補に関する情報は、正解ターゲット生成部130に出力される構成となっている。
【0025】
正解領域取得部120は、学習に用いる正解領域(即ち、検出対象となる物体が実際に存在する領域)に関する情報を取得可能に構成されている。正解領域取得部120は、少なくとも正解領域の大きさに関する情報を取得する。正解領域に関する情報は、正解ターゲット生成部130に出力される構成となっている。
【0026】
正解ターゲット生成部130は、領域候補生成部110で生成された領域候補に関する情報と、正解領域取得部120で取得された正解領域に関する情報とに基づいて、正解ターゲットを生成可能に構成されている。具体的には、正解ターゲット生成部130は、領域候補と正解領域との一致度を示すスコア(例えば、IoU)と、正解領域の大きさとに基づいて正解ターゲットを生成する。正解ターゲットのより具体的な生成方法については、後述する他の実施形態において説明する。正解ターゲット生成部130は、生成した正解ターゲットを出力する機能を有していてもよい。
【0027】
(変形例)
ここで、
図3を参照して、第1実施形態に係る学習システム10の変形例について説明する。
図3は、第1実施形態に係る学習システムの変形例の機能的構成を示すブロック図である。なお、
図3では、
図2に示した構成要素と同様のものに同一の符号を付している。
【0028】
図3に示すように、変形例に係る学習システム10は、その機能を実現するための処理ブロックとして、領域候補生成部110と、正解領域取得部120と、正解ターゲット生成部130と、学習部140とを備えている。即ち、変形例に係る学習システム10は、すでに説明した
図2の構成に加えて、学習部140を更に備えて構成されている。学習部140は、例えばプロセッサ11(
図1参照)によって実現されてよい。
【0029】
学習部140は、正解ターゲット生成部130で生成された正解ターゲットを用いて、物体検出モデルの学習を実行可能に構成されている。学習部140は、例えば画像から画像特徴マップ(即ち、画像の特徴量のマップ)を抽出し、画像特徴マップから推定領域候補と推定領域ずれを計算する。続いて、学習部140は、推定領域候補と推定領域ずれに対して、正解ターゲットとの差を計算することで誤差関数を計算する。正解ターゲットとの差の計算には、例えばL1距離やバイナリクロスエントロピー等を用いることができる。学習部140は、計算された誤差関数を用いて、誤差逆伝搬によりパラメータの勾配を計算する。そして学習部140は、計算された勾配を用いて物体検出モデルのパラメータを更新する。パラメータを更新する方法は特に限定されないが、例えばSGD(Stochastic Gradient Descent)やAdam等の手法を利用できる。なお、上述した学習方法はあくまで一例であり、学習部140は、既存の技術を適宜採用して学習を実行することができる。
【0030】
(動作の流れ)
次に、
図4を参照しながら、第1実施形態に係る学習システム10の動作の流れについて説明する。
図4は、第1実施形態に係る学習システムの動作の流れを示すフローチャートである。
【0031】
図4に示すように、第1実施形態に係る学習システム10が動作する際には、まず領域候補生成部110が領域候補を生成する(ステップS101)。続いて、正解領域取得部120が正解領域に関する情報を取得する(ステップS102)。なお、ステップS101の処理とS102の処理とは、互いに前後して実行されてもよい。
【0032】
その後、正解ターゲット生成部130が、正解ターゲットを生成する(ステップS103)。正解ターゲット生成部130は、すでに説明したように、領域候補と正解領域との一致度を示すスコアと、正解領域の大きさとに基づいて正解ターゲットを生成する。なお、上述した変形例のように学習システム10が学習部140を備える場合(
図3参照)、正解ターゲットが生成された後、生成された正解ターゲットを用いて、学習部140が物体検出モデルの学習を実行すればよい。
【0033】
(技術的効果)
次に、第1実施形態に係る学習システム10によって得られる技術的効果について説明する。
【0034】
図1から
図4で説明したように、第1実施形態に係る学習システム10では、正解ターゲットを生成する際に、領域候補と正解領域との一致度を示すスコアと、正解領域の大きさとが考慮される。ここで特に、領域候補と正解領域との一致度を示すスコアは、正解領域の大きさに応じて場所依存性が変化する。具体的には、正解領域が小さい場合のスコアは場所依存性が比較的大きくなる一方で、正解領域が大きい場合のスコアは場所依存性が比較的小さくなる。このため、正解領域の大きさを考慮しなければ、スコアから適切な正解ターゲットを生成することは難しい。しかるに本実施形態では、上述したように、正解領域の大きさが考慮されるため、適切な正解ターゲットを生成することができる。
【0035】
<第2実施形態>
第2実施形態に係る学習システム10について、
図4及び
図5を参照して説明する。なお、第2実施形態は、上述した第1実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分(例えば、
図1に示したハードウェア構成等)については、第1実施形態と同一であってよい。このため、以下では、第1実施形態と異なる部分について詳しく説明し、重複する部分については適宜説明を省略するものとする。
【0036】
(機能的構成)
まず、
図5を参照しながら、第2実施形態に係る学習システム10の機能的構成について説明する。
図5は、第2実施形態に係る学習システムの機能的構成を示すブロック図である。なお、
図5では、
図2で示した構成要素と同様のものに同一の符号を付している。
【0037】
図5に示すように、第2実施形態に係る学習システム10は、その機能を実現するための処理ブロックとして、領域候補生成部110と、正解領域取得部120と、正解ターゲット生成部130とを備えている。そして特に、第2実施形態に係る正解ターゲット生成部130は、スコア算出部131と、閾値判定部132とを備えている。
【0038】
スコア算出部131は、領域候補生成部110で生成された領域候補と、正解領域との一致度を示すスコアを算出可能に構成されている。スコア算出部131は、領域候補生成部110で生成されたすべての領域候補に対して計算される。よって、スコア算出部131から出力されるスコアは(種類×縦×横)の3次元で表される。
【0039】
閾値判定部132は、スコア算出部131で算出されたスコアを入力として、閾値処理(即ち、スコアと閾値とを比較する処理)により“0”又は“1”の値を持つ(種類×縦×横)のサイズのバイナリマップを出力する。このバイナリマップが、物体検出モデルの学習に用いる正解ターゲットとなる。即ち、閾値判定部132は、スコアから正解ターゲットを生成する機能を有している。また、閾値判定部132は、閾値処理に用いる閾値を生成可能に構成されている。閾値判定部132は、正解領域の大きさに基づいて閾値を生成する。具体的には、閾値判定部132は、正解領域が大きい場合は閾値の値域を比較的大きくする一方で、正解領域が小さい場合は閾値の値域を比較的小さくする。閾値判定部132は、正解領域の大きさに応じて定まる範囲内で閾値を乱数で決定するようにしてもよい。この場合の乱数の分布は特に限定されないが、例えば一様乱数であってもよいし、ガウス分布であってもよい。
【0040】
(動作の流れ)
次に、
図6を参照しながら、第2実施形態に係る学習システム10の動作の流れについて説明する。
図6は、第2実施形態に係る学習システムの動作の流れを示すフローチャートである。なお、
図6では、
図4で示した処理と同様の処理に同一の符号を付している。
【0041】
図6に示すように、第2実施形態に係る学習システム10が動作する際には、まず領域候補生成部110が領域候補を生成する(ステップS101)。続いて、正解領域取得部120が正解領域に関する情報を取得する(ステップS102)。
【0042】
その後、スコア算出部131が、領域候補と正解領域との一致度を示すスコアを算出する(ステップS201)。続いて、閾値判定部132が、正解領域の大きさに応じた閾値を生成する(ステップS202)。閾値判定部132は更に、スコアと閾値を比較することで、正解ターゲットを生成する(ステップS203)。
【0043】
(技術的効果)
次に、第2実施形態に係る学習システム10によって得られる技術的効果について説明する。
【0044】
図5及び
図6で説明したように、第2実施形態に係る学習システム10では、正解領域の大きさに基づいてスコアに対する閾値が生成される。言い換えれば、正解領域の大きさに応じて閾値が変更される。このようにすれば、正解領域の大きさを考慮して、適切に正解ターゲットを生成することができる。具体的には、小さい領域を正確に検出しつつ、大きい領域を検出しすぎないようにして正解ターゲットを生成できる。
【0045】
<第3実施形態>
第3実施形態に係る学習システム10について、
図7から
図9を参照して説明する。なお、第3実施形態は、上述した第1及び第2実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分(例えば、
図1に示したハードウェア構成等)については、第1及び第2実施形態と同一であってよい。このため、以下では、すでに説明した部分と異なる部分について詳しく説明し、重複する部分については適宜説明を省略するものとする。
【0046】
(機能的構成)
まず、
図7を参照しながら、第3実施形態に係る学習システム10の機能的構成について説明する。
図7は、第3実施形態に係る学習システムの機能的構成を示すブロック図である。なお、
図7では、
図2及び
図5で示した構成要素と同様のものに同一の符号を付している。
【0047】
図7に示すように、第3実施形態に係る学習システム10は、その機能を実現するための処理ブロックとして、領域候補生成部110と、正解領域取得部120と、正解ターゲット生成部130とを備えている。そして特に、第3実施形態に係る正解ターゲット生成部130は、スコア算出部131と、閾値判定部132と、スコア補正部133とを備えている。即ち、第3実施形態に係る正解ターゲット生成部130は、第2実施形態の構成(
図5参照)に加えて、スコア補正部133を更に備えて構成されている。
【0048】
スコア補正部133は、スコア算出部131で算出されたスコアを補正可能に構成されている。より具体的には、スコア補正部133は、スコア算出部131で算出されたスコアを補正した後に、閾値判定部132に出力可能に構成されている。よって、閾値判定部132では、スコア補正部133で補正されたスコアを用いて閾値処理(即ち、正解ターゲットの生成)が行われることになる。スコア補正部133は、スコアの場所依存性を小さくするような補正を行う。より具体的には、スコア補正部133は、正解領域が小さいほど、スコアが大きくなるように補正する。
【0049】
(動作の流れ)
次に、
図8を参照しながら、第3実施形態に係る学習システム10の動作の流れについて説明する。
図8は、第3実施形態に係る学習システムの動作の流れを示すフローチャートである。なお、
図8では、
図4及び
図6で示した処理と同様の処理に同一の符号を付している。
【0050】
図8に示すように、第3実施形態に係る学習システム10が動作する際には、まず領域候補生成部110が領域候補を生成する(ステップS101)。続いて、正解領域取得部120が正解領域に関する情報を取得する(ステップS102)。
【0051】
その後、スコア算出部131が、領域候補と正解領域との一致度を示すスコアを算出する(ステップS201)。続いて、スコア補正部133がスコア算出部131で算出されたスコアを補正する(ステップS301)。その後、閾値判定部132が、スコア補正部133で補正されたスコアを用いて正解ターゲットを生成する(ステップS203)。なお、第3実施形態に係る閾値判定部132は、第2実施形態のように正解領域の大きさに応じて閾値を変更せずともよい。
【0052】
(正規化マップ)
次に、
図9を参照しながら、第3実施形態に係る学習システム10において利用可能な正規化マップについて説明する。
図9は、正規化マップの一例を示す図である。
【0053】
図9において、スコア補正部133は、予め生成しておいた正規化マップを用いてスコアを補正するようにしてもよい。正規化マップは、領域候補の中心位置に近いほど高いスコアを持ち、各領域候補の溝の部分では低いスコアを持つマップである。正規化マップは、例えばSliding window等の手法により、現在の画素から最も近い領域候補とのスコアを計算することで生成することができる。
【0054】
スコア補正部133は、上述した正規化マップを記憶しておき、スコア算出部131で算出されたスコア(正確には、スコアのマップ)を、正規化マップで割る処理を実行する。そして、その計算結果として得られたスコア(即ち、正規化されたスコア)を閾値判定部132に出力する。
【0055】
(技術的効果)
次に、第3実施形態に係る学習システム10によって得られる技術的効果について説明する。
【0056】
図7から
図9で説明したように、第3実施形態に係る学習システム10では、スコア補正部133によってスコアが補正される。このような処理を行えば、正解領域の大きさに起因するスコアの場所依存性を小さくすることができる。よって、スコアを用いた閾値処理によって適切な正解ターゲットを生成することが可能である。
【0057】
なお、第3実施形態のスコアを補正する構成は、第2実施形態の閾値を変更する構成と組み合わせることもできる。即ち、スコア補正部133が正解領域の大きさに応じてスコアを補正し、その後の閾値処理において、閾値判定部132が正解領域の大きさに応じて閾値を変更するようにしてもよい。
【0058】
<第4実施形態>
第4実施形態に係る学習システム10について、
図10を参照して説明する。なお、第4実施形態は、上述した第2及び第3実施形態と比べて一部の動作が異なるのみであり、ハードウェア構成(
図1参照)や機能的構成(
図5及び
図7参照)については、第2及び第3実施形態と同一であってよい。このため、以下では、すでに説明した部分と異なる部分について詳しく説明し、重複する部分については適宜説明を省略するものとする。
【0059】
(動作の流れ)
まず、
図10を参照しながら、第4実施形態に係る学習システム10の動作の流れについて説明する。
図10は、第4実施形態に係る学習システムの動作の流れを示すフローチャートである。なお、
図8では、
図4、
図6及び
図8で示した処理と同様の処理に同一の符号を付している。
【0060】
図8に示すように、第4実施形態に係る学習システム10が動作する際には、まず領域候補生成部110が領域候補を生成する(ステップS101)。続いて、正解領域取得部120が正解領域に関する情報を取得する(ステップS102)。
【0061】
その後、スコア算出部131が、領域候補と正解領域との一致度を示すスコアを算出するが、その際、スコア算出部131は、領域候補の中心位置を正解領域の大きさに応じて乱数移動させる(ステップS401)。スコア算出部131は、正解領域が大きい場合は比較的小さい範囲で領域候補の中心位置を乱数移動させる。一方で、スコア算出部131は、正解領域が小さい場合は比較的大きい範囲で領域候補の中心位置を乱数移動させる。乱数の分布は特に限定されないが、例えば一様乱数であってもよいし、ガウス分布であってもよい。
【0062】
その後、閾値判定部132が、算出されたスコアを用いて正解ターゲットを生成する(ステップS203)。なお、第4実施形態に係る閾値判定部132は、第2実施形態のように正解領域の大きさに応じて閾値を変更せずともよい。
【0063】
(技術的効果)
次に、第4実施形態に係る学習システム10によって得られる技術的効果について説明する。
【0064】
図10で説明したように、第4実施形態に係る学習システム10では、スコアを算出する際に、領域候補の位置が正解領域の大きさに応じて乱数移動される。領域候補の位置を固定する場合、各領域候補の間には隙間が生ずることになるが、上述したように領域候補の中心位置を乱数移動させれば、その隙間を埋めることができる。その結果として、正解領域が小さい場合の検出漏れを抑制できる。よって、適切に正解ターゲットを生成することが可能となる。
【0065】
なお、第4実施形態の領域候補の中心位置を乱数移動させる構成は、第2実施形態の閾値を変更する構成、及び第3実施形態のスコアを補正する構成の少なくとも一方と組み合わせることもできる。即ち、領域候補の中心位置を乱数移動させて算出したスコアを、スコア補正部133が正解領域の大きさに応じて補正するようにしてもよい。或いは、領域候補の中心位置を乱数移動させてスコアを算出し、その後の閾値処理において、閾値判定部132が正解領域の大きさに応じて閾値を変更するようにしてもよい。
【0066】
<第5実施形態>
第5実施形態に係る物体検出システム20について、
図11から
図13を参照して説明する。なお、第5実施形態は、そのハードウェア構成が、上述した第1から第4実施形態と同一であってよい(
図1参照)。また、第5実施形態は、物体検出モデルを学習するための構成要素として、上述した第1から第4実施形態と同一の構成要素を備えてよい。以下では、第1から第4実施形態の説明と重複する部分(即ち、学習を実行するための構成や動作)については適宜説明を省略し、物体を検出するための構成や動作について詳しく説明する。
【0067】
(機能的構成)
まず、
図11を参照しながら、第5実施形態に係る物体検出システム20の機能的構成について説明する。
図11は、第5実施形態に係る物体検出システムの機能的構成を示すブロック図である。なお、
図11では、
図2及び
図4で示した構成要素と同様のものに同一の符号を付している。
【0068】
図11に示すように、第5実施形態に係る物体検出システム20は、その機能を実現するための処理ブロックとして、領域候補生成部110と、正解領域取得部120と、正解ターゲット生成部130と、学習部140と、物体検出部210とを備えている。即ち、第5実施形態に係る物体検出システム20は、すでに説明した
図4の構成に加えて、物体検出部210を更に備えて構成されている。物体検出部210は、例えばプロセッサ11(
図1参照)によって実現されてよい。
【0069】
なお、物体検出システム20は、物体検出部210以外の構成要素(言い換えれば、物体検出モデルの学習に用いる構成)の一部又は全部をシステム外部に備えるように構成されてもよい。例えば、領域候補生成部110、正解領域取得部120、正解ターゲット生成部130、及び学習部140は、システム外部のサーバ等に備えられていてもよい。この場合、物体検出システム20は、学習部140で学習された物体検出モデルを外部サーバから読み出すことが可能な構成となっていればよい。
【0070】
物体検出部210は、入力される画像から検出対象となる物体が存在する領域を推定可能に構成されている。物体検出部210は、上述した第1から第4実施形態に係る学習システム10で学習された物体検出モデルを用いて物体を検出する。物体検出部210は、例えば画像から特徴量マップを抽出し、領域候補の分布マップ、領域ずれのマップを生成する機能を有していてもよい。この場合、物体検出部210は、領域候補の分布マップと、領域連れのマップから物体が存在する領域を推定すればよい。物体検出部210は、多くの領域が推定された場合、その領域を減衰させる機能を有していてもよい。領域数の減衰には、例えばNMS(Non-Maximum Suppression)を用いることができる。
【0071】
(動作の流れ)
次に、
図12を参照しながら、第5実施形態に係る物体検出システム20の動作の流れについて説明する。
図12は、第5実施形態に係る学習システムの動作の流れを示すフローチャートである。
【0072】
図12に示すように、第5実施形態に係る物体検出システム10が動作する際には、まず物体検出部210が、検出対象となる画像を取得する(ステップS501)。
【0073】
続いて、物体検出部210が、学習済みの物体検出モデルを用いて画像中の物体を検出する(ステップS502)。物体検出部210は、検出結果として、物体が存在する領域を推定領域として出力する(ステップS503)。
【0074】
(具体的な検出例)
次に、
図13を参照しながら、第5実施形態に係る物体検出システム20の具体的な検出例について説明する。
図13は、第5実施形態に係る物体検出システムの動作例を示す図である。
【0075】
図13に示す例では、画像中に検出対象である選挙ポスターが複数含まれている。選挙ポスターは、例えば政治・選挙に関する情報を含んでいることから、例えば放送業界等において映像から削除する作業が要求されることがある。本実施形態に係る物体検出システム20によれば、このような削除すべき物体(以下、適宜「不適切表示」と称する)を容易且つ的確に検出することが可能となる。具体的には、図に示す画像を物体検出システム20に入力すると、物体検出部210により選挙ポスターが存在する矩形領域(図中の点線で囲まれた領域)が出力される。なお、画像中に検出すべき物体が複数含まれている場合は、推定領域が複数出力されてもよい。
【0076】
(技術的効果)
次に、第5実施形態に係る物体検出システム20によって得られる技術的効果について説明する。
【0077】
図11から
図13で説明したように、第5実施形態に係る物体検出システム20では、画像を入力すると、検出対象である物体が存在する領域が推定領域として出力される。ここで特に、本実施形態では、物体検出部210が用いる物体検出モデルが適切な正解ターゲットを用いて学習されている。具体的には、正解領域の大きさを考慮して生成された正解ターゲットを用いて学習されている。よって本実施形態に係る物体検出システム20によれば、画像中の検出対象を高い精度で検出することが可能である。
【0078】
<付記>
以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。
【0079】
(付記1)
付記1に記載の学習システムは、画像から物体を検出する領域の候補である領域候補を生成する領域候補生成手段と、前記物体が存在する正解領域に関する情報を取得する正解領域取得手段と、前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成する正解ターゲット生成手段とを備えることを特徴とする学習システムである。
【0080】
(付記2)
付記2に記載の学習システムは、前記正解ターゲット生成手段は、前記正解領域の大きさに応じて前記スコアに対して設定されるスコア閾値を変更し、前記スコアと前記スコア閾値との比較結果から前記正解ターゲットを生成することを特徴とする付記1に記載の学習システムである。
【0081】
(付記3)
付記3に記載の学習システムは、前記正解ターゲット生成手段は、前記正解領域の大きさに応じた範囲内で、前記スコア閾値を乱数で変更することを特徴とする付記2に記載の学習システムである。
【0082】
(付記4)
前記推定手段は、前記正解ターゲット生成手段は、前記正解領域の大きさに応じて前記スコアを補正することを特徴とする付記1から3のいずれか一項に記載の学習システムである。
【0083】
(付記5)
付記5に記載の学習システムは、前記正解ターゲット生成手段は、前記正解領域の大きさに応じて前記候補領域の中心位置を乱数で移動させて、前記スコアを算出することを特徴とする付記1から4のいずれか一項に記載の学習システムである。
【0084】
(付記6)
付記6に記載の学習システムは、前記正解ターゲットを用いて前記物体検出手段の学習を行う学習手段を更に備えることを特徴とする付記1から5のいずれか一項に記載の学習システムである。
【0085】
(付記7)
付記7に記載の学習システムは、前記物体は画像に含まれる不適切表示であることを特徴とする付記1から6のいずれか一項に記載の学習システムである。
【0086】
(付記8)
付記8に記載の物体検出システムは、画像から物体を検出する物体検出手段と、前記物体を検出する領域の候補である領域候補を生成する領域候補生成手段と、前記物体が存在する正解領域に関する情報を取得する正解領域取得手段と、前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記物体検出手段の学習に用いる正解ターゲットを生成する正解ターゲット生成手段とを備える物体検出システムである。
【0087】
(付記9)
付記9に記載の学習方法は、画像から物体を検出する領域の候補である領域候補を生成し、前記物体が存在する正解領域に関する情報を取得し、前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成することを特徴とする学習方法である。
【0088】
(付記10)
付記10に記載のコンピュータプログラムは、画像から物体を検出する領域の候補である領域候補を生成し、前記物体が存在する正解領域に関する情報を取得し、前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。
【0089】
(付記11)
付記11に記載の記録媒体は、付記10に記載のコンピュータプログラムが記録されていることを特徴とする記録媒体である。
【0090】
この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う学習システム、物体検出システム、学習方法、及びコンピュータプログラムもまたこの開示の技術思想に含まれる。
【符号の説明】
【0091】
10 学習システム
11 プロセッサ
20 物体検出システム
110 領域候補生成部
120 正解領域取得部
130 正解ターゲット生成部
131 スコア算出部
132 閾値判定部
133 スコア補正部
140 学習部
210 物体検出部