特許7396497 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7396497学習システム、物体検出システム、学習方法、及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-04

(45)【発行日】2023-12-12

(54)【発明の名称】学習システム、物体検出システム、学習方法、及びコンピュータプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20231205BHJP

G06N 20/00 20190101ALI20231205BHJP

【ＦＩ】

G06T7/00 350B

G06N20/00 130

【請求項の数】 10

(21)【出願番号】P 2022539799

(86)(22)【出願日】2020-07-27

(86)【国際出願番号】 JP2020028682

(87)【国際公開番号】W WO2022024178

(87)【国際公開日】2022-02-03

【審査請求日】2023-01-12

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100104765

【弁理士】

【氏名又は名称】江上達夫

(74)【代理人】

【識別番号】100107331

【弁理士】

【氏名又は名称】中村聡延

(74)【代理人】

【識別番号】100131015

【弁理士】

【氏名又は名称】三輪浩誉

(72)【発明者】

【氏名】戸泉貴裕

【審査官】藤原敬利

(56)【参考文献】

【文献】特開２０１９－０７５１３０（ＪＰ，Ａ）

【文献】特開２０２０－０６０８７９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｖ１０／００－２０／９０

(57)【特許請求の範囲】

【請求項1】

画像から物体を検出する領域の候補である領域候補を生成する領域候補生成手段と、
前記物体が存在する正解領域に関する情報を取得する正解領域取得手段と、
前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成する正解ターゲット生成手段と
を備えることを特徴とする学習システム。

【請求項2】

前記正解ターゲット生成手段は、前記正解領域の大きさに応じて前記スコアに対して設定されるスコア閾値を変更し、前記スコアと前記スコア閾値との比較結果から前記正解ターゲットを生成することを特徴とする請求項１に記載の学習システム。

【請求項3】

前記正解ターゲット生成手段は、前記正解領域の大きさに応じた範囲内で、前記スコア閾値を乱数で変更することを特徴とする請求項２に記載の学習システム。

【請求項4】

前記正解ターゲット生成手段は、前記正解領域の大きさに応じて前記スコアを補正することを特徴とする請求項１から３のいずれか一項に記載の学習システム。

【請求項5】

前記正解ターゲット生成手段は、前記正解領域の大きさに応じて前記領域候補の中心位置を乱数で移動させて、前記スコアを算出することを特徴とする請求項１から４のいずれか一項に記載の学習システム。

【請求項6】

前記正解ターゲットを用いて前記物体検出手段の学習を行う学習手段を更に備えることを特徴とする請求項１から５のいずれか一項に記載の学習システム。

【請求項7】

前記物体は画像に含まれる不適切表示であることを特徴とする請求項１から６のいずれか一項に記載の学習システム。

【請求項8】

画像から物体を検出する物体検出手段と、
前記物体を検出する領域の候補である領域候補を生成する領域候補生成手段と、
前記物体が存在する正解領域に関する情報を取得する正解領域取得手段と、
前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記物体検出手段の学習に用いる正解ターゲットを生成する正解ターゲット生成手段と
を備えることを特徴とする物体検出システム。

【請求項9】

少なくとも１つのコンピュータによって、
画像から物体を検出する領域の候補である領域候補を生成し、
前記物体が存在する正解領域に関する情報を取得し、
前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成する
ことを特徴とする学習方法。

【請求項10】

画像から物体を検出する領域の候補である領域候補を生成し、
前記物体が存在する正解領域に関する情報を取得し、
前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成する
ようにコンピュータを動作させることを特徴とするコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

この開示は、物体検出に関する学習システム、物体検出システム、学習方法、及びコンピュータプログラムの技術分野に関する。

【背景技術】

【0002】

この種のシステムとして、物体検出に利用するモデルの学習を実行するものが知られている。例えば特許文献１では、学習データにおけるピーク位置やピーク範囲を用いて学習を行う技術が開示されている。特許文献２では、誤差逆伝播法（バックプロパゲーション）を用いて学習を行わせる技術が開示されている。また特許文献３では、候補領域と正解領域との重なり度合いを示すＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）を用いて物体を検出する技術が開示されている

【先行技術文献】

【特許文献】

【0003】

【文献】国際公開第２０１９／０９２８３６号

【文献】特開２０２０－０２１１１１号公報

【文献】国際公開第２０１９／２３５０５０号

【発明の概要】

【発明が解決しようとする課題】

【0004】

上述したＩｏＵを用いた物体検出では、正解領域の大きさの違いによってＩｏＵの分布に違いが生じる。具体的には、正解領域が小さい場合のＩｏＵは場所依存性が比較的大きくなる一方で、正解領域が大きい場合のＩｏＵは場所依存性が比較的小さくなる。このため、正解領域の大きさを考慮しなければ、学習に用いる正解ターゲットを適切に生成することは難しい。上述した各引用文献では、このような問題点に関して言及されておらず、改善の余地がある。

【0005】

この開示は、上述した課題を解決することが可能な学習システム、物体検出システム、学習方法、及びコンピュータプログラムを提供することを課題とする。

【課題を解決するための手段】

【0006】

この開示の学習システムの一の態様は、画像から物体を検出する領域の候補である領域候補を生成する領域候補生成手段と、前記物体が存在する正解領域に関する情報を取得する正解領域取得手段と、前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成する正解ターゲット生成手段とを備える。

【0007】

この開示の物体検出システムの一の態様は、画像から物体を検出する物体検出手段と、前記物体を検出する領域の候補である領域候補を生成する領域候補生成手段と、前記物体が存在する正解領域に関する情報を取得する正解領域取得手段と、前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記物体検出手段の学習に用いる正解ターゲットを生成する正解ターゲット生成手段とを備える。

【0008】

この開示の学習方法の一の態様は、画像から物体を検出する領域の候補である領域候補を生成し、前記物体が存在する正解領域に関する情報を取得し、前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成する。

【0009】

この開示のコンピュータプログラムの一の態様は、画像から物体を検出する領域の候補である領域候補を生成し、前記物体が存在する正解領域に関する情報を取得し、前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成するようにコンピュータを動作させる。

【発明の効果】

【0010】

上述した学習システム、物体検出システム、学習方法、及びコンピュータプログラムのそれぞれの一の態様によれば、正解領域の大きさに応じて適切に正解ターゲットを生成することが可能である。この結果、より適切に物体検出手段の学習を行うことが可能となり、物体検出の精度を高めることができる。

【図面の簡単な説明】

【0011】

【図1】第１実施形態に係る学習システムのハードウェア構成を示すブロック図である。

【図2】第１実施形態に係る学習システムの機能的構成を示すブロック図である。

【図3】第１実施形態に係る学習システムの変形例の機能的構成を示すブロック図である。

【図4】第１実施形態に係る学習システムの動作の流れを示すフローチャートである。

【図5】第２実施形態に係る学習システムの機能的構成を示すブロック図である。

【図6】第２実施形態に係る学習システムの動作の流れを示すフローチャートである。

【図7】第３実施形態に係る学習システムの機能的構成を示すブロック図である。

【図8】第３実施形態に係る学習システムの動作の流れを示すフローチャートである。

【図9】正規化マップの一例を示す図である。

【図10】第４実施形態に係る学習システムの動作の流れを示すフローチャートである。

【図11】第５実施形態に係る物体検出システムの機能的構成を示すブロック図である。

【図12】第５実施形態に係る物体検出システムの動作の流れを示すフローチャートである。

【図13】第５実施形態に係る物体検出システムの動作例を示す図である。

【発明を実施するための形態】

【0012】

以下、図面を参照しながら、学習システム、学習方法、及びコンピュータプログラムの実施形態について説明する。

【0013】

＜第１実施形態＞
第１実施形態に係る学習システムについて、図１から図４を参照して説明する。

【0014】

（ハードウェア構成）
まず、図１を参照しながら、第１実施形態に係る学習システムのハードウェア構成について説明する。図１は、第１実施形態に係る学習システムのハードウェア構成を示すブロック図である。

【0015】

図１に示すように、第１実施形態に係る学習システム１０は、プロセッサ１１と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１２と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１３と、記憶装置１４とを備えている。学習システム１０は更に、入力装置１５と、出力装置１６とを備えていてもよい。プロセッサ１１と、ＲＡＭ１２と、ＲＯＭ１３と、記憶装置１４と、入力装置１５と、出力装置１６とは、データバス１７を介して接続されている。

【0016】

プロセッサ１１は、コンピュータプログラムを読み込む。例えば、プロセッサ１１は、ＲＡＭ１２、ＲＯＭ１３及び記憶装置１４のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ１１は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ１１は、ネットワークインタフェースを介して、学習システム１０の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、読み込んでもよい）。プロセッサ１１は、読み込んだコンピュータプログラムを実行することで、ＲＡＭ１２、記憶装置１４、入力装置１５及び出力装置１６を制御する。本実施形態では特に、プロセッサ１１が読み込んだコンピュータプログラムを実行すると、プロセッサ１１内には、学習に用いる正解ターゲットを生成するするための機能ブロックが実現される。また、プロセッサ１１として、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＧＡ（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＤＳＰ（Ｄｅｍａｎｄ－ＳｉｄｅＰｌａｔｆｏｒｍ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）のうち一つを用いてもよいし、それらを複数並列で用いてもよい。

【0017】

ＲＡＭ１２は、プロセッサ１１が実行するコンピュータプログラムを一時的に記憶する。ＲＡＭ１２は、プロセッサ１１がコンピュータプログラムを実行している際にプロセッサ１１が一時的に使用するデータを一時的に記憶する。ＲＡＭ１２は、例えば、Ｄ－ＲＡＭ（ＤｙｎａｍｉｃＲＡＭ）であってもよい。

【0018】

ＲＯＭ１３は、プロセッサ１１が実行するコンピュータプログラムを記憶する。ＲＯＭ１３は、その他に固定的なデータを記憶していてもよい。ＲＯＭ１３は、例えば、Ｐ－ＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）であってもよい。

【0019】

記憶装置１４は、学習システム１０が長期的に保存するデータを記憶する。記憶装置１４は、プロセッサ１１の一時記憶装置として動作してもよい。記憶装置１４は、例えば、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。

【0020】

入力装置１５は、学習システム１０のユーザからの入力指示を受け取る装置である。入力装置１５は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。

【0021】

出力装置１６は、学習システム１０に関する情報を外部に対して出力する装置である。例えば、出力装置１６は、学習システム１０に関する情報を表示可能な表示装置（例えば、ディスプレイ）であってもよい。

【0022】

（機能的構成）
次に、図２を参照しながら、第１実施形態に係る学習システム１０の機能的構成について説明する。図２は、第１実施形態に係る学習システムの機能的構成を示すブロック図である。

【0023】

図２において、第１実施形態に係る学習システム１０は、物体検出モデル（具体的には、画像中の物体を検出するためのモデル）の学習に用いる正解ターゲットを生成可能に構成されている。正解ターゲットは、検出対象となる物体が画像中のどこにあるかを示す情報であり、学習の訓練データとして利用される。学習システム１０は、その機能を実現するための処理ブロックとして、領域候補生成部１１０と、正解領域取得部１２０と、正解ターゲット生成部１３０とを備えている。領域候補生成部１１０、正解領域取得部１２０、及び正解ターゲット生成部１３０は、例えばプロセッサ１１（図１参照）によって実現されてよい。

【0024】

領域候補生成部１１０は、物体を検出する領域の候補である領域候補（アンカー）を生成可能に構成されている。領域候補は、例えば縦長の矩形、横長の矩形、正方形等の形状に関する情報と、横幅、縦幅等の大きさに関する情報とを決定することで生成される。候補領域生成部１１０は、例えば、形状を３種類（縦長の矩形、横長の矩形、及び正方形）、大きさを３種類の合計３×３＝９種類の領域候補を生成する。この場合、それぞれの領域候補は、左上のｘｙ座標と、右下のｘｙ座標との４つの値を有するものとして生成される。これらの領域候補は、画像上に等間隔で配置される。例えば、３２画素×３２画素のサイズの画像上に８画素の間隔で配置する場合、（４、８、１２、１６，２０，２４、２８、３２）の画素上に８×８この領域候補が配置されることになる。領域候補の次元は、（種類、縦、横、座標数）の４次元で表され、ここまでの例で表すと（９、８、８、４）の４次元となる。領域候補に関する情報は、正解ターゲット生成部１３０に出力される構成となっている。

【0025】

正解領域取得部１２０は、学習に用いる正解領域（即ち、検出対象となる物体が実際に存在する領域）に関する情報を取得可能に構成されている。正解領域取得部１２０は、少なくとも正解領域の大きさに関する情報を取得する。正解領域に関する情報は、正解ターゲット生成部１３０に出力される構成となっている。

【0026】

正解ターゲット生成部１３０は、領域候補生成部１１０で生成された領域候補に関する情報と、正解領域取得部１２０で取得された正解領域に関する情報とに基づいて、正解ターゲットを生成可能に構成されている。具体的には、正解ターゲット生成部１３０は、領域候補と正解領域との一致度を示すスコア（例えば、ＩｏＵ）と、正解領域の大きさとに基づいて正解ターゲットを生成する。正解ターゲットのより具体的な生成方法については、後述する他の実施形態において説明する。正解ターゲット生成部１３０は、生成した正解ターゲットを出力する機能を有していてもよい。

【0027】

（変形例）
ここで、図３を参照して、第１実施形態に係る学習システム１０の変形例について説明する。図３は、第１実施形態に係る学習システムの変形例の機能的構成を示すブロック図である。なお、図３では、図２に示した構成要素と同様のものに同一の符号を付している。

【0028】

図３に示すように、変形例に係る学習システム１０は、その機能を実現するための処理ブロックとして、領域候補生成部１１０と、正解領域取得部１２０と、正解ターゲット生成部１３０と、学習部１４０とを備えている。即ち、変形例に係る学習システム１０は、すでに説明した図２の構成に加えて、学習部１４０を更に備えて構成されている。学習部１４０は、例えばプロセッサ１１（図１参照）によって実現されてよい。

【0029】

学習部１４０は、正解ターゲット生成部１３０で生成された正解ターゲットを用いて、物体検出モデルの学習を実行可能に構成されている。学習部１４０は、例えば画像から画像特徴マップ（即ち、画像の特徴量のマップ）を抽出し、画像特徴マップから推定領域候補と推定領域ずれを計算する。続いて、学習部１４０は、推定領域候補と推定領域ずれに対して、正解ターゲットとの差を計算することで誤差関数を計算する。正解ターゲットとの差の計算には、例えばＬ１距離やバイナリクロスエントロピー等を用いることができる。学習部１４０は、計算された誤差関数を用いて、誤差逆伝搬によりパラメータの勾配を計算する。そして学習部１４０は、計算された勾配を用いて物体検出モデルのパラメータを更新する。パラメータを更新する方法は特に限定されないが、例えばＳＧＤ（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）やＡｄａｍ等の手法を利用できる。なお、上述した学習方法はあくまで一例であり、学習部１４０は、既存の技術を適宜採用して学習を実行することができる。

【0030】

（動作の流れ）
次に、図４を参照しながら、第１実施形態に係る学習システム１０の動作の流れについて説明する。図４は、第１実施形態に係る学習システムの動作の流れを示すフローチャートである。

【0031】

図４に示すように、第１実施形態に係る学習システム１０が動作する際には、まず領域候補生成部１１０が領域候補を生成する（ステップＳ１０１）。続いて、正解領域取得部１２０が正解領域に関する情報を取得する（ステップＳ１０２）。なお、ステップＳ１０１の処理とＳ１０２の処理とは、互いに前後して実行されてもよい。

【0032】

その後、正解ターゲット生成部１３０が、正解ターゲットを生成する（ステップＳ１０３）。正解ターゲット生成部１３０は、すでに説明したように、領域候補と正解領域との一致度を示すスコアと、正解領域の大きさとに基づいて正解ターゲットを生成する。なお、上述した変形例のように学習システム１０が学習部１４０を備える場合（図３参照）、正解ターゲットが生成された後、生成された正解ターゲットを用いて、学習部１４０が物体検出モデルの学習を実行すればよい。

【0033】

（技術的効果）
次に、第１実施形態に係る学習システム１０によって得られる技術的効果について説明する。

【0034】

図１から図４で説明したように、第１実施形態に係る学習システム１０では、正解ターゲットを生成する際に、領域候補と正解領域との一致度を示すスコアと、正解領域の大きさとが考慮される。ここで特に、領域候補と正解領域との一致度を示すスコアは、正解領域の大きさに応じて場所依存性が変化する。具体的には、正解領域が小さい場合のスコアは場所依存性が比較的大きくなる一方で、正解領域が大きい場合のスコアは場所依存性が比較的小さくなる。このため、正解領域の大きさを考慮しなければ、スコアから適切な正解ターゲットを生成することは難しい。しかるに本実施形態では、上述したように、正解領域の大きさが考慮されるため、適切な正解ターゲットを生成することができる。

【0035】

＜第２実施形態＞
第２実施形態に係る学習システム１０について、図４及び図５を参照して説明する。なお、第２実施形態は、上述した第１実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分（例えば、図１に示したハードウェア構成等）については、第１実施形態と同一であってよい。このため、以下では、第１実施形態と異なる部分について詳しく説明し、重複する部分については適宜説明を省略するものとする。

【0036】

（機能的構成）
まず、図５を参照しながら、第２実施形態に係る学習システム１０の機能的構成について説明する。図５は、第２実施形態に係る学習システムの機能的構成を示すブロック図である。なお、図５では、図２で示した構成要素と同様のものに同一の符号を付している。

【0037】

図５に示すように、第２実施形態に係る学習システム１０は、その機能を実現するための処理ブロックとして、領域候補生成部１１０と、正解領域取得部１２０と、正解ターゲット生成部１３０とを備えている。そして特に、第２実施形態に係る正解ターゲット生成部１３０は、スコア算出部１３１と、閾値判定部１３２とを備えている。

【0038】

スコア算出部１３１は、領域候補生成部１１０で生成された領域候補と、正解領域との一致度を示すスコアを算出可能に構成されている。スコア算出部１３１は、領域候補生成部１１０で生成されたすべての領域候補に対して計算される。よって、スコア算出部１３１から出力されるスコアは（種類×縦×横）の３次元で表される。

【0039】

閾値判定部１３２は、スコア算出部１３１で算出されたスコアを入力として、閾値処理（即ち、スコアと閾値とを比較する処理）により“０”又は“１”の値を持つ（種類×縦×横）のサイズのバイナリマップを出力する。このバイナリマップが、物体検出モデルの学習に用いる正解ターゲットとなる。即ち、閾値判定部１３２は、スコアから正解ターゲットを生成する機能を有している。また、閾値判定部１３２は、閾値処理に用いる閾値を生成可能に構成されている。閾値判定部１３２は、正解領域の大きさに基づいて閾値を生成する。具体的には、閾値判定部１３２は、正解領域が大きい場合は閾値の値域を比較的大きくする一方で、正解領域が小さい場合は閾値の値域を比較的小さくする。閾値判定部１３２は、正解領域の大きさに応じて定まる範囲内で閾値を乱数で決定するようにしてもよい。この場合の乱数の分布は特に限定されないが、例えば一様乱数であってもよいし、ガウス分布であってもよい。

【0040】

（動作の流れ）
次に、図６を参照しながら、第２実施形態に係る学習システム１０の動作の流れについて説明する。図６は、第２実施形態に係る学習システムの動作の流れを示すフローチャートである。なお、図６では、図４で示した処理と同様の処理に同一の符号を付している。

【0041】

図６に示すように、第２実施形態に係る学習システム１０が動作する際には、まず領域候補生成部１１０が領域候補を生成する（ステップＳ１０１）。続いて、正解領域取得部１２０が正解領域に関する情報を取得する（ステップＳ１０２）。

【0042】

その後、スコア算出部１３１が、領域候補と正解領域との一致度を示すスコアを算出する（ステップＳ２０１）。続いて、閾値判定部１３２が、正解領域の大きさに応じた閾値を生成する（ステップＳ２０２）。閾値判定部１３２は更に、スコアと閾値を比較することで、正解ターゲットを生成する（ステップＳ２０３）。

【0043】

（技術的効果）
次に、第２実施形態に係る学習システム１０によって得られる技術的効果について説明する。

【0044】

図５及び図６で説明したように、第２実施形態に係る学習システム１０では、正解領域の大きさに基づいてスコアに対する閾値が生成される。言い換えれば、正解領域の大きさに応じて閾値が変更される。このようにすれば、正解領域の大きさを考慮して、適切に正解ターゲットを生成することができる。具体的には、小さい領域を正確に検出しつつ、大きい領域を検出しすぎないようにして正解ターゲットを生成できる。

【0045】

＜第３実施形態＞
第３実施形態に係る学習システム１０について、図７から図９を参照して説明する。なお、第３実施形態は、上述した第１及び第２実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分（例えば、図１に示したハードウェア構成等）については、第１及び第２実施形態と同一であってよい。このため、以下では、すでに説明した部分と異なる部分について詳しく説明し、重複する部分については適宜説明を省略するものとする。

【0046】

（機能的構成）
まず、図７を参照しながら、第３実施形態に係る学習システム１０の機能的構成について説明する。図７は、第３実施形態に係る学習システムの機能的構成を示すブロック図である。なお、図７では、図２及び図５で示した構成要素と同様のものに同一の符号を付している。

【0047】

図７に示すように、第３実施形態に係る学習システム１０は、その機能を実現するための処理ブロックとして、領域候補生成部１１０と、正解領域取得部１２０と、正解ターゲット生成部１３０とを備えている。そして特に、第３実施形態に係る正解ターゲット生成部１３０は、スコア算出部１３１と、閾値判定部１３２と、スコア補正部１３３とを備えている。即ち、第３実施形態に係る正解ターゲット生成部１３０は、第２実施形態の構成（図５参照）に加えて、スコア補正部１３３を更に備えて構成されている。

【0048】

スコア補正部１３３は、スコア算出部１３１で算出されたスコアを補正可能に構成されている。より具体的には、スコア補正部１３３は、スコア算出部１３１で算出されたスコアを補正した後に、閾値判定部１３２に出力可能に構成されている。よって、閾値判定部１３２では、スコア補正部１３３で補正されたスコアを用いて閾値処理（即ち、正解ターゲットの生成）が行われることになる。スコア補正部１３３は、スコアの場所依存性を小さくするような補正を行う。より具体的には、スコア補正部１３３は、正解領域が小さいほど、スコアが大きくなるように補正する。

【0049】

（動作の流れ）
次に、図８を参照しながら、第３実施形態に係る学習システム１０の動作の流れについて説明する。図８は、第３実施形態に係る学習システムの動作の流れを示すフローチャートである。なお、図８では、図４及び図６で示した処理と同様の処理に同一の符号を付している。

【0050】

図８に示すように、第３実施形態に係る学習システム１０が動作する際には、まず領域候補生成部１１０が領域候補を生成する（ステップＳ１０１）。続いて、正解領域取得部１２０が正解領域に関する情報を取得する（ステップＳ１０２）。

【0051】

その後、スコア算出部１３１が、領域候補と正解領域との一致度を示すスコアを算出する（ステップＳ２０１）。続いて、スコア補正部１３３がスコア算出部１３１で算出されたスコアを補正する（ステップＳ３０１）。その後、閾値判定部１３２が、スコア補正部１３３で補正されたスコアを用いて正解ターゲットを生成する（ステップＳ２０３）。なお、第３実施形態に係る閾値判定部１３２は、第２実施形態のように正解領域の大きさに応じて閾値を変更せずともよい。

【0052】

（正規化マップ）
次に、図９を参照しながら、第３実施形態に係る学習システム１０において利用可能な正規化マップについて説明する。図９は、正規化マップの一例を示す図である。

【0053】

図９において、スコア補正部１３３は、予め生成しておいた正規化マップを用いてスコアを補正するようにしてもよい。正規化マップは、領域候補の中心位置に近いほど高いスコアを持ち、各領域候補の溝の部分では低いスコアを持つマップである。正規化マップは、例えばＳｌｉｄｉｎｇｗｉｎｄｏｗ等の手法により、現在の画素から最も近い領域候補とのスコアを計算することで生成することができる。

【0054】

スコア補正部１３３は、上述した正規化マップを記憶しておき、スコア算出部１３１で算出されたスコア（正確には、スコアのマップ）を、正規化マップで割る処理を実行する。そして、その計算結果として得られたスコア（即ち、正規化されたスコア）を閾値判定部１３２に出力する。

【0055】

（技術的効果）
次に、第３実施形態に係る学習システム１０によって得られる技術的効果について説明する。

【0056】

図７から図９で説明したように、第３実施形態に係る学習システム１０では、スコア補正部１３３によってスコアが補正される。このような処理を行えば、正解領域の大きさに起因するスコアの場所依存性を小さくすることができる。よって、スコアを用いた閾値処理によって適切な正解ターゲットを生成することが可能である。

【0057】

なお、第３実施形態のスコアを補正する構成は、第２実施形態の閾値を変更する構成と組み合わせることもできる。即ち、スコア補正部１３３が正解領域の大きさに応じてスコアを補正し、その後の閾値処理において、閾値判定部１３２が正解領域の大きさに応じて閾値を変更するようにしてもよい。

【0058】

＜第４実施形態＞
第４実施形態に係る学習システム１０について、図１０を参照して説明する。なお、第４実施形態は、上述した第２及び第３実施形態と比べて一部の動作が異なるのみであり、ハードウェア構成（図１参照）や機能的構成（図５及び図７参照）については、第２及び第３実施形態と同一であってよい。このため、以下では、すでに説明した部分と異なる部分について詳しく説明し、重複する部分については適宜説明を省略するものとする。

【0059】

（動作の流れ）
まず、図１０を参照しながら、第４実施形態に係る学習システム１０の動作の流れについて説明する。図１０は、第４実施形態に係る学習システムの動作の流れを示すフローチャートである。なお、図８では、図４、図６及び図８で示した処理と同様の処理に同一の符号を付している。

【0060】

図８に示すように、第４実施形態に係る学習システム１０が動作する際には、まず領域候補生成部１１０が領域候補を生成する（ステップＳ１０１）。続いて、正解領域取得部１２０が正解領域に関する情報を取得する（ステップＳ１０２）。

【0061】

その後、スコア算出部１３１が、領域候補と正解領域との一致度を示すスコアを算出するが、その際、スコア算出部１３１は、領域候補の中心位置を正解領域の大きさに応じて乱数移動させる（ステップＳ４０１）。スコア算出部１３１は、正解領域が大きい場合は比較的小さい範囲で領域候補の中心位置を乱数移動させる。一方で、スコア算出部１３１は、正解領域が小さい場合は比較的大きい範囲で領域候補の中心位置を乱数移動させる。乱数の分布は特に限定されないが、例えば一様乱数であってもよいし、ガウス分布であってもよい。

【0062】

その後、閾値判定部１３２が、算出されたスコアを用いて正解ターゲットを生成する（ステップＳ２０３）。なお、第４実施形態に係る閾値判定部１３２は、第２実施形態のように正解領域の大きさに応じて閾値を変更せずともよい。

【0063】

（技術的効果）
次に、第４実施形態に係る学習システム１０によって得られる技術的効果について説明する。

【0064】

図１０で説明したように、第４実施形態に係る学習システム１０では、スコアを算出する際に、領域候補の位置が正解領域の大きさに応じて乱数移動される。領域候補の位置を固定する場合、各領域候補の間には隙間が生ずることになるが、上述したように領域候補の中心位置を乱数移動させれば、その隙間を埋めることができる。その結果として、正解領域が小さい場合の検出漏れを抑制できる。よって、適切に正解ターゲットを生成することが可能となる。

【0065】

なお、第４実施形態の領域候補の中心位置を乱数移動させる構成は、第２実施形態の閾値を変更する構成、及び第３実施形態のスコアを補正する構成の少なくとも一方と組み合わせることもできる。即ち、領域候補の中心位置を乱数移動させて算出したスコアを、スコア補正部１３３が正解領域の大きさに応じて補正するようにしてもよい。或いは、領域候補の中心位置を乱数移動させてスコアを算出し、その後の閾値処理において、閾値判定部１３２が正解領域の大きさに応じて閾値を変更するようにしてもよい。

【0066】

＜第５実施形態＞
第５実施形態に係る物体検出システム２０について、図１１から図１３を参照して説明する。なお、第５実施形態は、そのハードウェア構成が、上述した第１から第４実施形態と同一であってよい（図１参照）。また、第５実施形態は、物体検出モデルを学習するための構成要素として、上述した第１から第４実施形態と同一の構成要素を備えてよい。以下では、第１から第４実施形態の説明と重複する部分（即ち、学習を実行するための構成や動作）については適宜説明を省略し、物体を検出するための構成や動作について詳しく説明する。

【0067】

（機能的構成）
まず、図１１を参照しながら、第５実施形態に係る物体検出システム２０の機能的構成について説明する。図１１は、第５実施形態に係る物体検出システムの機能的構成を示すブロック図である。なお、図１１では、図２及び図４で示した構成要素と同様のものに同一の符号を付している。

【0068】

図１１に示すように、第５実施形態に係る物体検出システム２０は、その機能を実現するための処理ブロックとして、領域候補生成部１１０と、正解領域取得部１２０と、正解ターゲット生成部１３０と、学習部１４０と、物体検出部２１０とを備えている。即ち、第５実施形態に係る物体検出システム２０は、すでに説明した図４の構成に加えて、物体検出部２１０を更に備えて構成されている。物体検出部２１０は、例えばプロセッサ１１（図１参照）によって実現されてよい。

【0069】

なお、物体検出システム２０は、物体検出部２１０以外の構成要素（言い換えれば、物体検出モデルの学習に用いる構成）の一部又は全部をシステム外部に備えるように構成されてもよい。例えば、領域候補生成部１１０、正解領域取得部１２０、正解ターゲット生成部１３０、及び学習部１４０は、システム外部のサーバ等に備えられていてもよい。この場合、物体検出システム２０は、学習部１４０で学習された物体検出モデルを外部サーバから読み出すことが可能な構成となっていればよい。

【0070】

物体検出部２１０は、入力される画像から検出対象となる物体が存在する領域を推定可能に構成されている。物体検出部２１０は、上述した第１から第４実施形態に係る学習システム１０で学習された物体検出モデルを用いて物体を検出する。物体検出部２１０は、例えば画像から特徴量マップを抽出し、領域候補の分布マップ、領域ずれのマップを生成する機能を有していてもよい。この場合、物体検出部２１０は、領域候補の分布マップと、領域連れのマップから物体が存在する領域を推定すればよい。物体検出部２１０は、多くの領域が推定された場合、その領域を減衰させる機能を有していてもよい。領域数の減衰には、例えばＮＭＳ（Ｎｏｎ－ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）を用いることができる。

【0071】

（動作の流れ）
次に、図１２を参照しながら、第５実施形態に係る物体検出システム２０の動作の流れについて説明する。図１２は、第５実施形態に係る学習システムの動作の流れを示すフローチャートである。

【0072】

図１２に示すように、第５実施形態に係る物体検出システム１０が動作する際には、まず物体検出部２１０が、検出対象となる画像を取得する（ステップＳ５０１）。

【0073】

続いて、物体検出部２１０が、学習済みの物体検出モデルを用いて画像中の物体を検出する（ステップＳ５０２）。物体検出部２１０は、検出結果として、物体が存在する領域を推定領域として出力する（ステップＳ５０３）。

【0074】

（具体的な検出例）
次に、図１３を参照しながら、第５実施形態に係る物体検出システム２０の具体的な検出例について説明する。図１３は、第５実施形態に係る物体検出システムの動作例を示す図である。

【0075】

図１３に示す例では、画像中に検出対象である選挙ポスターが複数含まれている。選挙ポスターは、例えば政治・選挙に関する情報を含んでいることから、例えば放送業界等において映像から削除する作業が要求されることがある。本実施形態に係る物体検出システム２０によれば、このような削除すべき物体（以下、適宜「不適切表示」と称する）を容易且つ的確に検出することが可能となる。具体的には、図に示す画像を物体検出システム２０に入力すると、物体検出部２１０により選挙ポスターが存在する矩形領域（図中の点線で囲まれた領域）が出力される。なお、画像中に検出すべき物体が複数含まれている場合は、推定領域が複数出力されてもよい。

【0076】

（技術的効果）
次に、第５実施形態に係る物体検出システム２０によって得られる技術的効果について説明する。

【0077】

図１１から図１３で説明したように、第５実施形態に係る物体検出システム２０では、画像を入力すると、検出対象である物体が存在する領域が推定領域として出力される。ここで特に、本実施形態では、物体検出部２１０が用いる物体検出モデルが適切な正解ターゲットを用いて学習されている。具体的には、正解領域の大きさを考慮して生成された正解ターゲットを用いて学習されている。よって本実施形態に係る物体検出システム２０によれば、画像中の検出対象を高い精度で検出することが可能である。

【0078】

＜付記＞
以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。

【0079】

（付記１）
付記１に記載の学習システムは、画像から物体を検出する領域の候補である領域候補を生成する領域候補生成手段と、前記物体が存在する正解領域に関する情報を取得する正解領域取得手段と、前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成する正解ターゲット生成手段とを備えることを特徴とする学習システムである。

【0080】

（付記２）
付記２に記載の学習システムは、前記正解ターゲット生成手段は、前記正解領域の大きさに応じて前記スコアに対して設定されるスコア閾値を変更し、前記スコアと前記スコア閾値との比較結果から前記正解ターゲットを生成することを特徴とする付記１に記載の学習システムである。

【0081】

（付記３）
付記３に記載の学習システムは、前記正解ターゲット生成手段は、前記正解領域の大きさに応じた範囲内で、前記スコア閾値を乱数で変更することを特徴とする付記２に記載の学習システムである。

【0082】

（付記４）
前記推定手段は、前記正解ターゲット生成手段は、前記正解領域の大きさに応じて前記スコアを補正することを特徴とする付記１から３のいずれか一項に記載の学習システムである。

【0083】

（付記５）
付記５に記載の学習システムは、前記正解ターゲット生成手段は、前記正解領域の大きさに応じて前記候補領域の中心位置を乱数で移動させて、前記スコアを算出することを特徴とする付記１から４のいずれか一項に記載の学習システムである。

【0084】

（付記６）
付記６に記載の学習システムは、前記正解ターゲットを用いて前記物体検出手段の学習を行う学習手段を更に備えることを特徴とする付記１から５のいずれか一項に記載の学習システムである。

【0085】

（付記７）
付記７に記載の学習システムは、前記物体は画像に含まれる不適切表示であることを特徴とする付記１から６のいずれか一項に記載の学習システムである。

【0086】

（付記８）
付記８に記載の物体検出システムは、画像から物体を検出する物体検出手段と、前記物体を検出する領域の候補である領域候補を生成する領域候補生成手段と、前記物体が存在する正解領域に関する情報を取得する正解領域取得手段と、前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記物体検出手段の学習に用いる正解ターゲットを生成する正解ターゲット生成手段とを備える物体検出システムである。

【0087】

（付記９）
付記９に記載の学習方法は、画像から物体を検出する領域の候補である領域候補を生成し、前記物体が存在する正解領域に関する情報を取得し、前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成することを特徴とする学習方法である。

【0088】

（付記１０）
付記１０に記載のコンピュータプログラムは、画像から物体を検出する領域の候補である領域候補を生成し、前記物体が存在する正解領域に関する情報を取得し、前記領域候補と前記正解領域との領域一致度を示すスコアと、前記正解領域の大きさとに基づいて、前記画像から前記物体を検出する物体検出手段の学習に用いる正解ターゲットを生成するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。

【0089】

（付記１１）
付記１１に記載の記録媒体は、付記１０に記載のコンピュータプログラムが記録されていることを特徴とする記録媒体である。

【0090】

この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う学習システム、物体検出システム、学習方法、及びコンピュータプログラムもまたこの開示の技術思想に含まれる。

【符号の説明】

【0091】

１０学習システム
１１プロセッサ
２０物体検出システム
１１０領域候補生成部
１２０正解領域取得部
１３０正解ターゲット生成部
１３１スコア算出部
１３２閾値判定部
１３３スコア補正部
１４０学習部
２１０物体検出部

【図1】