特開2024-138823 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特開2024-138823物体検出装置、物体検出方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024138823

(43)【公開日】2024-10-09

(54)【発明の名称】物体検出装置、物体検出方法およびプログラム

(51)【国際特許分類】

G06V 10/22 20220101AFI20241002BHJP

G06T 7/00 20170101ALI20241002BHJP

G06V 10/82 20220101ALI20241002BHJP

H04N 23/60 20230101ALI20241002BHJP

H04N 7/18 20060101ALI20241002BHJP

【ＦＩ】

G06V10/22

G06T7/00 350C

G06V10/82

H04N23/60 500

H04N7/18 K

【審査請求】未請求

【請求項の数】13

【出願形態】ＯＬ

(21)【出願番号】P 2023049523

(22)【出願日】2023-03-27

(71)【出願人】

【識別番号】000000295

【氏名又は名称】沖電気工業株式会社

(74)【代理人】

【識別番号】100140958

【弁理士】

【氏名又は名称】伊藤学

(74)【代理人】

【識別番号】100137888

【弁理士】

【氏名又は名称】大山夏子

(74)【代理人】

【識別番号】100190942

【弁理士】

【氏名又は名称】風間竜司

(72)【発明者】

【氏名】増島悠人

(72)【発明者】

【氏名】渡邉孝光

【テーマコード（参考）】

5C054

5C122

5L096

【Ｆターム（参考）】

5C054CC02

5C054EA01

5C054EA07

5C054FC12

5C054FC14

5C054FC15

5C054FD01

5C054FD03

5C054GB01

5C054HA31

5C122EA68

5C122FH05

5C122FH07

5C122FH09

5C122FH11

5C122HA13

5C122HA35

5C122HA48

5C122HA88

5C122HB01

5C122HB10

5L096AA06

5L096BA04

5L096BA18

5L096CA02

5L096DA02

5L096EA03

5L096EA35

5L096FA19

5L096FA64

5L096FA69

5L096HA09

5L096HA11

5L096KA04

(57)【要約】

【課題】物体を高精度に検出しつつ、物体検出に要する処理時間を低減することを可能とする技術が提供されることが望まれる。
【解決手段】物体が検出される検出エリアを設定するエリア設定部と、第１のモデルの構造情報と、前記検出エリアのサイズと、第２のモデルへの目標入力サイズと、に基づいて、前記第１のモデルの形状を変換して前記第２のモデルを生成するモデル生成部と、撮像装置によって撮像されて得られた画像と前記検出エリアとに基づいてクロッピングを行うことにより検出エリア画像を生成する画像生成部と、前記第２のモデルと前記検出エリア画像とに基づいて前記物体の検出結果を得る物体検出部と、を備える、物体検出装置が提供される。
【選択図】図１

【特許請求の範囲】

【請求項1】

物体が検出される検出エリアを設定するエリア設定部と、
第１のモデルの構造情報と、前記検出エリアのサイズと、第２のモデルへの目標入力サイズと、に基づいて、前記第１のモデルの形状を変換して前記第２のモデルを生成するモデル生成部と、
撮像装置によって撮像されて得られた画像と前記検出エリアとに基づいてクロッピングを行うことにより検出エリア画像を生成する画像生成部と、
前記第２のモデルと前記検出エリア画像とに基づいて前記物体の検出結果を得る物体検出部と、
を備える、物体検出装置。

【請求項2】

前記物体検出部は、前記第２のモデルに対して前記検出エリア画像を入力することに基づいて前記第２のモデルから出力されたデータを前記検出結果として得る、
請求項１に記載の物体検出装置。

【請求項3】

前記モデル生成部は、
前記第２のモデルの目標処理時間と、前記第１のモデルへの入力サイズと、学習時における前記第１のモデルの計測処理時間とに基づいて、前記第２のモデルへの前記目標入力サイズを決定する、
請求項１に記載の物体検出装置。

【請求項4】

前記モデル生成部は、
前記検出エリアのサイズに対する、前記第２のモデルへの前記目標入力サイズの割合を算出し、前記割合と前記検出エリアの縦横長とに基づいて、前記第２のモデルへの入力縦横長を算出し、前記第２のモデルへの入力縦横長と前記第１のモデルの構造情報とに基づいて、前記第１のモデルの形状を変換する、
請求項１に記載の物体検出装置。

【請求項5】

前記モデル生成部は、
前記割合の正の平方根を算出し、前記割合の正の平方根と、前記検出エリアの縦横長との乗算に基づいて、前記第２のモデルへの入力縦横長を算出する、
請求項４に記載の物体検出装置。

【請求項6】

前記第１のモデルは、第１の処理層を含み
前記第２のモデルは、前記第１の処理層が変換された後の第２の処理層を含み、
前記モデル生成部は、前記第２のモデルへの入力縦横長に基づいて、前記検出エリアの全体が前記第２の処理層によって処理されるように前記第１の処理層による処理回数を変更することにより、前記第１のモデルの形状を変換する、
請求項１に記載の物体検出装置。

【請求項7】

前記物体検出部は、前記検出エリア画像の縦横長と前記第２のモデルへの入力縦横長とが一致するように前記検出エリア画像に対するリサイズを行い、前記リサイズを行った後の検出エリア画像を前記第２のモデルに対して入力する、
請求項１に記載の物体検出装置。

【請求項8】

前記検出エリアは、第１の検出エリアおよび第２の検出エリアを含み、
前記モデル生成部は、前記第１のモデルの構造情報と、前記第１の検出エリアのサイズと、前記第２の検出エリアのサイズと、前記第２のモデルへの前記目標入力サイズと、に基づいて、前記第１の検出エリアに対応するモデルと前記第２の検出エリアに対応するモデルとを生成し、
前記画像生成部は、前記画像と前記第１の検出エリアと前記第２の検出エリアとに基づいて、第１の検出エリア画像と第２の検出エリア画像とを生成し、
前記物体検出部は、前記第１の検出エリアに対応するモデルと前記第１の検出エリア画像とに基づいて前記第１の検出エリアに存在する第１の物体を検出するとともに、前記第２の検出エリアに対応するモデルと前記第２の検出エリア画像とに基づいて前記第２の検出エリアに存在する第２の物体を検出する、
請求項１に記載の物体検出装置。

【請求項9】

前記モデル生成部は、
前記物体検出装置の動作モードが第１のモードに設定されている場合には、前記動作モードが第２のモードに設定されている場合よりも、前記目標入力サイズを小さくする、
請求項１に記載の物体検出装置。

【請求項10】

前記物体検出部は、ユーザによって入力された選択情報に基づいて、前記動作モードに前記第１のモードおよび前記第２のモードのいずれかを設定する、
請求項９に記載の物体検出装置。

【請求項11】

前記物体検出部は、
前記第２のモデルに前記検出エリア画像が入力されてから、前記第２のモデルから前記検出結果が出力されるまでに要した時間を前記第２のモデルの計測処理時間として取得し、
前記モデル生成部は、
前記第２のモデルの目標処理時間と、前記物体の検出時における前記第２のモデルへの入力サイズと、前記第２のモデルの前記計測処理時間とに基づいて、第３のモデルへの目標入力サイズを決定し、
前記第２のモデルの構造情報と、前記検出エリアのサイズと、前記第３のモデルへの前記目標入力サイズと、に基づいて、前記第２のモデルの形状を変換して前記第３のモデルを生成する、
請求項１に記載の物体検出装置。

【請求項12】

物体が検出される検出エリアを設定することと、
第１のモデルの構造情報と、前記検出エリアのサイズと、第２のモデルへの目標入力サイズと、に基づいて、前記第１のモデルの形状を変換して前記第２のモデルを生成することと、
撮像装置によって撮像されて得られた画像と前記検出エリアとに基づいてクロッピングを行うことにより検出エリア画像を生成することと、
前記第２のモデルと前記検出エリア画像とに基づいて前記物体の検出結果を得ることと、
を含む、コンピュータにより実行される物体検出方法。

【請求項13】

コンピュータを、
物体が検出される検出エリアを設定するエリア設定部と、
第１のモデルの構造情報と、前記検出エリアのサイズと、第２のモデルへの目標入力サイズと、に基づいて、前記第１のモデルの形状を変換して前記第２のモデルを生成するモデル生成部と、
撮像装置によって撮像されて得られた画像と前記検出エリアとに基づいてクロッピングを行うことにより検出エリア画像を生成する画像生成部と、
前記第２のモデルと前記検出エリア画像とに基づいて前記物体の検出結果を得る物体検出部と、
を備える物体検出装置として機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、物体検出装置、物体検出方法およびプログラムに関する。

【背景技術】

【0002】

近年、画像に基づいて物体を検出する技術が知られている。画像に基づく物体検出の精度を向上させる技術として、様々な技術が知られている。

【0003】

例えば、特許文献１には、入力画像を複数の画像に分割してからＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）などの検出モデルへ入力する技術が開示されている。かかる技術によれば、検出モデルの入力サイズよりもサイズの大きい画像を検出モデルに入力する場合であっても、入力画像のアスペクト比を大きく変更せず、かつ、リサイズによる情報の欠落を少なくして高精度な物体検出を行うことが可能である。

【0004】

特許文献２には、撮像されて得られた画像を上下反転した入力画像を検出モデルに入力し、物体らしさを示すスコア値が閾値以上である物体、かつ、所定のサイズ以下であるという条件を満たす物体が存在するか否かを検出モデルによって判定する技術が開示されている。かかる技術では、条件を満たす物体が存在する場合には、条件を満たす物体が存在する領域の拡大が行われ、拡大後の領域に基づく検出モデルによる物体検出が再度行われることによって、高精度な物体検出が行われる。

【0005】

特許文献３には、撮像されて得られた画像の背景と前景とを分離して、前景から所定のサイズ以下の領域を物体候補領域として抽出し、物体候補領域の周辺に対応する複数の入力画像を作成し、それらの入力画像に対して検出モデルによる物体検出を行う技術が開示されている。かかる技術によれば、画像に写る物体のサイズが小さい場合であっても、物体が高精度に検出され得る。

【0006】

特許文献４には、所定のエリアを撮像して得られた画像の一部に対象エリアをあらかじめ設定し、画像の撮像面と、実空間に存在する道路平面との対応関係に基づいて、対象エリア内の二次元座標を三次元座標に変換し、三次元座標を用いて物体検出を行う技術が開示されている。かかる技術によれば、検出されるべき物体のサイズを考慮した対象エリアの拡張が可能となる。そして、対象エリアを拡張した後の検出エリアのみを検出モデルに入力することによって、物体検出の精度の低下が抑制されつつ、少ない演算量により物体検出が行われ得る。

【先行技術文献】

【特許文献】

【0007】

【特許文献1】特開２０２２－１０１３２１号公報

【特許文献2】特開２０２２－８４２８２号公報

【特許文献3】特開２０２０－０１７１３６号公報

【特許文献4】特開２０２２－１２９１５０号公報

【発明の概要】

【発明が解決しようとする課題】

【0008】

しかしながら、物体を高精度に検出しつつ、物体検出に要する処理時間を低減することを可能とする技術が提供されることが望まれる。

【課題を解決するための手段】

【0009】

上記課題を解決するために、本発明のある観点によれば、物体が検出される検出エリアを設定するエリア設定部と、第１のモデルの構造情報と、前記検出エリアのサイズと、第２のモデルへの目標入力サイズと、に基づいて、前記第１のモデルの形状を変換して前記第２のモデルを生成するモデル生成部と、撮像装置によって撮像されて得られた画像と前記検出エリアとに基づいてクロッピングを行うことにより検出エリア画像を生成する画像生成部と、前記第２のモデルと前記検出エリア画像とに基づいて前記物体の検出結果を得る物体検出部と、を備える、物体検出装置が提供される。

【0010】

前記物体検出部は、前記第２のモデルに対して前記検出エリア画像を入力することに基づいて前記第２のモデルから出力されたデータを前記検出結果として得てもよい。

【0011】

前記モデル生成部は、前記第２のモデルの目標処理時間と、前記第１のモデルへの入力サイズと、学習時における前記第１のモデルの計測処理時間とに基づいて、前記第２のモデルへの前記目標入力サイズを決定してもよい。

【0012】

前記モデル生成部は、前記検出エリアのサイズに対する、前記第２のモデルへの前記目標入力サイズの割合を算出し、前記割合と前記検出エリアの縦横長とに基づいて、前記第２のモデルへの入力縦横長を算出し、前記第２のモデルへの入力縦横長と前記第１のモデルの構造情報とに基づいて、前記第１のモデルの形状を変換してもよい。

【0013】

前記モデル生成部は、前記割合の正の平方根を算出し、前記割合の正の平方根と、前記検出エリアの縦横長との乗算に基づいて、前記第２のモデルへの入力縦横長を算出してもよい。

【0014】

前記第１のモデルは、第１の処理層を含み前記第２のモデルは、前記第１の処理層が変換された後の第２の処理層を含み、前記モデル生成部は、前記第２のモデルへの入力縦横長に基づいて、前記検出エリアの全体が前記第２の処理層によって処理されるように前記第１の処理層による処理回数を変更することにより、前記第１のモデルの形状を変換してもよい。

【0015】

前記物体検出部は、前記検出エリア画像の縦横長と前記第２のモデルへの入力縦横長とが一致するように前記検出エリア画像に対するリサイズを行い、前記リサイズを行った後の検出エリア画像を前記第２のモデルに対して入力してもよい。

【0016】

前記検出エリアは、第１の検出エリアおよび第２の検出エリアを含み、前記モデル生成部は、前記第１のモデルの構造情報と、前記第１の検出エリアのサイズと、前記第２の検出エリアのサイズと、前記第２のモデルへの前記目標入力サイズと、に基づいて、前記第１の検出エリアに対応するモデルと前記第２の検出エリアに対応するモデルとを生成し、前記画像生成部は、前記画像と前記第１の検出エリアと前記第２の検出エリアとに基づいて、第１の検出エリア画像と第２の検出エリア画像とを生成し、前記物体検出部は、前記第１の検出エリアに対応するモデルと前記第１の検出エリア画像とに基づいて前記第１の検出エリアに存在する第１の物体を検出するとともに、前記第２の検出エリアに対応するモデルと前記第２の検出エリア画像とに基づいて前記第２の検出エリアに存在する第２の物体を検出してもよい。

【0017】

前記モデル生成部は、前記物体検出装置の動作モードが第１のモードに設定されている場合には、前記動作モードが第２のモードに設定されている場合よりも、前記目標入力サイズを小さくしてもよい。

【0018】

前記物体検出部は、ユーザによって入力された選択情報に基づいて、前記動作モードに前記第１のモードおよび前記第２のモードのいずれかを設定してもよい。

【0019】

前記物体検出部は、前記第２のモデルに前記検出エリア画像が入力されてから、前記第２のモデルから前記検出結果が出力されるまでに要した時間を前記第２のモデルの計測処理時間として取得し、前記モデル生成部は、前記第２のモデルの目標処理時間と、前記物体の検出時における前記第２のモデルへの入力サイズと、前記第２のモデルの前記計測処理時間とに基づいて、第３のモデルへの目標入力サイズを決定し、前記第２のモデルの構造情報と、前記検出エリアのサイズと、前記第３のモデルへの前記目標入力サイズと、に基づいて、前記第２のモデルの形状を変換して前記第３のモデルを生成してもよい。

【0020】

また、上記課題を解決するために本発明の別の観点によれば、物体が検出される検出エリアを設定することと、第１のモデルの構造情報と、前記検出エリアのサイズと、第２のモデルへの目標入力サイズと、に基づいて、前記第１のモデルの形状を変換して前記第２のモデルを生成することと、撮像装置によって撮像されて得られた画像と前記検出エリアとに基づいてクロッピングを行うことにより検出エリア画像を生成することと、前記第２のモデルと前記検出エリア画像とに基づいて前記物体の検出結果を得ることと、を含む、コンピュータにより実行される物体検出方法が提供される。

【0021】

また、上記課題を解決するために本発明の別の観点によれば、コンピュータを、物体が検出される検出エリアを設定するエリア設定部と、第１のモデルの構造情報と、前記検出エリアのサイズと、第２のモデルへの目標入力サイズと、に基づいて、前記第１のモデルの形状を変換して前記第２のモデルを生成するモデル生成部と、撮像装置によって撮像されて得られた画像と前記検出エリアとに基づいてクロッピングを行うことにより検出エリア画像を生成する画像生成部と、前記第２のモデルと前記検出エリア画像とに基づいて前記物体の検出結果を得る物体検出部と、を備える物体検出装置として機能させるプログラムが提供される。

【発明の効果】

【0022】

以上説明したように本発明によれば、物体を高精度に検出しつつ、物体検出に要する処理時間を低減することを可能とする技術が提供される。

【図面の簡単な説明】

【0023】

【図1】本発明の第１の実施形態に係る物体検出システムの機能構成例を示す図である。

【図2】本発明の第１の実施形態に係る物体検出装置１の全体的な動作例を示すフローチャートである。

【図3】本発明の第１の実施形態に係る設定エリアおよび検出エリアの例について説明するための図である。

【図4】検出エリア設定の動作例を示すフローチャートである。

【図5】変換前のモデルの例について説明するための図である。

【図6】モデル形状変換の動作例を示すフローチャートである。

【図7】変換後のモデルの形状の第１の例について説明するための図である。

【図8】変換後のモデルの形状の第２の例について説明するための図である。

【図9】検出エリア画像生成の動作例を示すフローチャートである。

【図10】本発明の第１の実施形態に係る物体検出の動作例を示すフローチャートである。

【図11】本発明の第２の実施形態に係る設定エリアおよび検出エリアの例について説明するための図である。

【図12】本発明の第３の実施形態に係るモデル形状変換の例の例について説明するための図である。

【図13】本発明の第４の実施形態に係る物体検出システムの機能構成例を示す図である。

【図14】本発明の第４の実施形態に係る物体検出装置５の全体的な動作例を示すフローチャートである。

【図15】本発明の第３の実施形態に係る物体検出の動作例を示すフローチャートである。

【図16】モデル情報更新の動作例を示すフローチャートである。

【図17】本発明の実施形態に係る物体検出装置１の例としての情報処理装置９００のハードウェア構成を示す図である。

【発明を実施するための形態】

【0024】

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

【0025】

（０．概要）
まず、本発明の実施形態の概要について説明する。

【0026】

近年、演算に使用されるリソースが限られるとともに、処理のリアルタイム性が求められるエッジ環境下においては、高精度かつ高速に物体検出を行うことが望まれる。一例として、本発明の実施形態に係る技術は、このようなエッジ環境に適用され得る。以下では、比較例が抱える課題について説明する。

【0027】

（入力画像に対するクロッピングによる課題）
演算に使用されるリソースが限られていることが原因となり、大きな解像度の画像が入力され得ない検出モデルを用いて物体検出が行われる場合があり得る。このような場合には、入力画像に対するクロッピングを行って、入力画像における物体領域の割合を大きくすることによって、入力画像に写る小さい物体の検出精度を向上させる方法が一般的である。

【0028】

しかしながら、特許文献１に記載された技術のように、入力画像を複数の画像に分割してから検出モデルに入力する場合には、分割後の画像に物体が一部しか写らない可能性が高まるため、物体検出の精度が低下してしまうという問題が生じ得る。

【0029】

そこで、本発明の実施形態においては、特許文献４に記載された技術と同様に、画像の撮像面と、実空間に存在する道路平面との対応関係に基づいて、検出エリアが設定される。これにより、物体が一部しか検出エリアに入らなくなってしまう可能性が抑制されることにより、物体検出精度の低下が抑制され得る。

【0030】

（複数回の推論による処理時間の課題）
特許文献１～３に記載された技術のように、最終的な物体検出結果が得られるまでに検出モデルによる複数回の推論が必要な場合、複数回の推論が行われるために大きな処理時間を要してしまうという問題が生じ得る。

【0031】

また、特許文献４に記載された技術では、１枚の入力画像に複数の検出エリアが設定された場合に、入力画像が検出エリアの数と同数の画像に分割され、分割によって生じた複数の画像それぞれに対して、同一の検出モデルによる物体検出が行われることが想定され得る。このとき、同一の検出モデルによる複数の画像それぞれに対する推論が必要となってしまうという問題が生じ得る。

【0032】

例えば、演算に使用されるリソースが限られるとともに、処理のリアルタイム性が求められるエッジ環境下においては、演算量の大きな推論が複数回行われることによって、処理時間が増加してしまい、処理のリアルタイム性が損なわれてしまう可能性がある。そして、処理のリアルタイム性が損なわれることにより、システム運用に問題が生じ得る。

【0033】

（入力画像の解像度とモデルへの入力サイズとの違いによる課題）
特許文献４に記載された技術のように、画像の一部に検出エリアを設定し、設定した検出エリアに対して物体検出を行う場合、検出エリアのサイズは可変になり得る。そのため、入力サイズに制限がある検出モデルによって物体検出が行われる場合には、画像に対する最近傍補間法またはバイリニア補間法などのリサイズ処理と、画像の上下左右に余白を付与するパディング処理とを組み合わせることが考えられる。これにより、検出モデルへの入力サイズに合わせた入力画像が作成され、作成された入力画像が検出モデルに入力されることにより物体検出が行われる。

【0034】

しかしながら、画像に対してリサイズ処理とパディング処理とが行われることにより、画像からの情報の欠落が発生し得る。これによって、画像に基づく物体検出の精度低下およびパディングにより付与された余白に対する演算の無駄が生じ得る。

【0035】

例えば、入力サイズが６４０×６４０であり、アスペクト比が１：１である検出モデルに対して、サイズが１９２０×１０８０であり、アスペクト比が１６：９である画像を入力する場合を想定する。かかる場合には、画像サイズが６４０×３６０に縮小されてから画像サイズが６４０×６４０になるように画像の上下にパディング処理が行われた後、検出モデルに画像が入力される。

【0036】

この場合、入力画像からサイズ１２８０×７２０の情報の欠落と、パディングにより付与されたサイズ６４０×２８０の余白部分への無駄な演算が生じ得る。

【0037】

そこで、本明細書においては、これらの課題を解決する技術について主に説明する。より詳細には、本発明の実施形態においては、特許文献４に記載された技術と同様に、検出対象の物体のサイズを考慮した検出エリアの設定が行われ、検出エリアのサイズに基づいてモデルの形状変換が行われる。例えば、モデルの形状変換は、画像を扱う一般的なＣＮＮモデルにおいて用いられる方向（Ｎ：バッチサイズ、Ｈ：タテサイズ、Ｗ：ヨコサイズ、Ｃ：チャネル）である４次元情報に基づいて、ＨとＷとの比が画像の縦横比と同一または近くなるように変換される。

【0038】

また、ＨとＷとの面積（＝Ｈ×Ｗ）が一定以下となるようにモデルの形状が変換されることによって、演算量の増加が抑制され得る。

【0039】

特許文献１～３に記載された技術では、入力サイズが固定である検出モデルに対して入力される画像の形状変化が行われる。

【0040】

一方、本発明の実施形態においては、検出モデルの形状を可変にすることにより、形状が可変である入力画像に対しても高精度な物体検出が可能となる。これにより、無駄な領域が検出モデルに入力されてしまうことがなくなり、最適な領域のみが検出モデルに入力されることとなるため、高精度かつ高速な処理時間での物体検出が可能となる。

【0041】

なお、本明細書においては、画像に基づいて検出される物体が車両である場合を主に想定する。しかし、画像に基づいて検出される物体は、車両に限定されない。例えば、画像に基づいて検出される物体は、車両以外の物体（例えば、船舶、航空機など）であってもよいし、人物またはロボットなどであってもよい。

【0042】

以上、本発明の実施形態の概要について説明した。

【0043】

（１．第１の実施形態）
続いて、本発明の第１の実施形態について説明する。

【0044】

（１－１．物体検出システムの構成）
まず、本発明の第１の実施形態に係る物体検出システムの構成例について説明する。図１は、本発明の第１の実施形態に係る物体検出システムの機能構成例を示す図である。本発明の第１の実施形態に係る物体検出システムは、物体検出装置１と、撮像装置２と、記憶装置３と、出力装置４とを備える。

【0045】

物体検出装置１は、コンピュータによって実現され得る。図１に示されるように、物体検出装置１は、撮像装置２、記憶装置３および出力装置４それぞれと有線または無線により接続されている。また、物体検出装置１は、画像取得部１１と、エリア設定部１２と、モデル生成部１３と、画像生成部１４と、物体検出部１５と、結果出力部１６とを備える。

【0046】

画像取得部１１と、エリア設定部１２と、モデル生成部１３と、画像生成部１４と、物体検出部１５と、結果出力部１６とは、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置を含み、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）により記憶されているプログラムが演算装置によりＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）に展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

【0047】

あるいは、画像取得部１１と、エリア設定部１２と、モデル生成部１３と、画像生成部１４と、物体検出部１５と、結果出力部１６とは、専用のハードウェアにより構成されていてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。演算装置による演算に必要なデータは、記憶装置３によって適宜記憶される。

【0048】

エリア設定部１２は、設定エリア取得部１２１と、検出エリア設定部１２２とを備える。モデル生成部１３は、モデル情報取得部１３１と、目標処理時間取得部１３２と、モデル形状決定部１３３と、モデル形状変換部１３４とを備える。画像生成部１４は、クロッピング処理部１４１を備える。物体検出部１５は、リサイズ処理部１５１と、推論部１５２とを備える。

【0049】

（撮像装置２）
撮像装置２は、カメラによって構成され得る。カメラは、時系列に沿って連続的に撮像を行って複数の画像を得るイメージセンサを含み得る。複数の画像は、「映像」とも換言され得る。また、複数の画像それぞれは、「フレーム」とも換言され得る。例えば、撮像装置２は、道路上方または道路脇などに設置されており、道路平面を撮像することによって複数の画像を連続的に物体検出装置１に出力する。

【0050】

なお、図１に示された例では、撮像装置２と物体検出装置１とは、別個に存在している。しかし、撮像装置２と物体検出装置１とは、一体化されていてもよい。すなわち、撮像装置２は、物体検出装置１に組み込まれてもよい。

【0051】

（記憶装置３）
記憶装置３は、物体検出装置１を動作させるためのプログラムおよび各種情報を記憶することが可能な記憶装置である。例えば、記憶装置３は、不揮発性メモリによって構成されてよい。例えば、記憶装置３は、設定エリア情報３２と、モデル構造情報３３と、重み情報３４と、計測処理時間３５と、目標処理時間３６とをあらかじめ記憶し得る。また、物体検出装置１によって撮像装置２から受信された画像３１を蓄積し得る。記憶装置３は、物体検出装置１の動作の過程で必要となるデータを一時的に記憶することもできる。

【0052】

なお、図１に示された例では、記憶装置３と物体検出装置１とは、別個に存在している。しかし、記憶装置３と物体検出装置１とは、一体化されていてもよい。すなわち、記憶装置３は、物体検出装置１に組み込まれてもよい。また、画像３１、設定エリア情報３２、モデル構造情報３３、重み情報３４、計測処理時間３５および目標処理時間３６については後に詳細に説明する。

【0053】

（出力装置４）
出力装置４は、物体検出装置１によって得られた物体検出結果を出力する。例えば、出力装置４は、ディスプレイによって構成されてよい。このとき、出力装置４は、物体検出結果がユーザの視覚によって知覚され得るように物体検出結果を視覚情報として表示してよい。しかし、出力装置４の形態は限定されない。例えば、出力装置４は、スピーカなどを含んでもよい。このとき、出力装置４は、物体検出結果がユーザの聴覚によって知覚され得るように物体検出結果を聴覚情報として出力してよい。

【0054】

なお、図１に示された例では、出力装置４と物体検出装置１とは、別個に存在している。しかし、出力装置４と物体検出装置１とは、一体化されていてもよい。すなわち、出力装置４は、物体検出装置１に組み込まれてもよい。

【0055】

（物体検出装置１の動作例）
図２は、本発明の第１の実施形態に係る物体検出装置１の全体的な動作例を示すフローチャートである。

【0056】

（エリア設定部１２）
図２に示されるように、エリア設定部１２は、物体が検出される検出エリアの設定を行う（Ｓ１１）。より具体的には、エリア設定部１２は、記憶装置３から設定エリアを示す設定エリア情報３２を取得し、取得した設定エリア情報３２に基づいて、検出エリアの設定を行う。ここで、図３および図４を参照しながら、本発明の第１の実施形態に係る検出エリア設定の動作例について説明する。

【0057】

図３は、本発明の第１の実施形態に係る設定エリアおよび検出エリアの例について説明するための図である。図３を参照すると、画像Ｇ１が示されている。画像Ｇ１には、検出対象の物体の例としての車両が写っており、物体が存在する平面の例として、車両が走行する道路平面が写っている。画像Ｇ１の中には、設定エリアＲ１が示されている。また、設定エリア情報３２に基づいて設定された検出エリアＤ２が示されている。

【0058】

なお、設定エリアＲ１は、検出対象の物体のサイズが考慮されて設定されたエリアである。ここで、設定エリアＲ１は、どのようにして設定されてもよい。例えば、設定エリアＲ１は、ユーザから指定された複数の二次元座標に基づいて設定されてもよい。

【0059】

より具体的には、特許文献４に記載されているように、画像Ｇ１の撮像面と物体が存在する実空間における平面との対応関係に基づいて、ユーザから指定された複数の二次元座標が、平面における複数の三次元座標に変換され、当該複数の三次元座標を変更した新たな複数の三次元元座標が計算され、当該対応関係に基づいて当該新たな複数の三次元座標が、撮像面における複数の二次元座標に変換されてもよい。そして、当該複数の二次元座標を結んだ線によって囲まれる領域が設定エリアＲ１として設定されてもよい。

【0060】

このようにして設定エリアＲ１が設定されれば、物体の一部が設定エリアＲ１の外部にはみ出してしまう可能性が低減されるため、物体が正常に検出されない状況が起こりにくくなる。したがって、このようにして設定エリアＲ１が設定されれば、物体の検出精度の低下が抑制され得る。

【0061】

図４は、検出エリア設定の動作例を示すフローチャートである。図４を参照すると、検出エリア設定（Ｓ１１）の詳細な動作例が示されている。

【0062】

まず、設定エリア取得部１２１は、記憶装置３から設定エリアＲ１を示す設定エリア情報３２を取得する（Ｓ１１２）。そして、検出エリア設定部１２２は、設定エリア取得部１２１によって取得された設定エリア情報３２に基づいて、物体が検出される検出エリアＤ２の設定を行う（Ｓ１１４）。

【0063】

なお、検出エリアＤ２は、どのようにして設定されてもよい。例えば、図３に示されるように、検出エリア設定部１２２は、設定エリア取得部１２１によって取得された設定エリア情報３２に基づいて、設定エリアＲ１を含む領域（例えば、設定エリアＲ１に外接する矩形領域など）を、検出エリアＤ２として設定してもよい。

【0064】

（モデル生成部１３）
図２に戻って説明を続ける。モデル生成部１３は、変換前のモデル（第１のモデル）に対して、モデル形状変換を行うことにより変換後のモデル（第２のモデル）を生成する（Ｓ１２）。より具体的には、モデル生成部１３は、記憶装置３から変換前のモデルの構造を示す情報であるモデル構造情報３３を取得し、取得したモデル構造情報３３と、検出エリアＤ２のサイズと、変換後のモデルへの目標入力サイズと、に基づいて、変換前のモデルの形状を変換して変換後のモデルを生成する。ここで、図５～図８を参照しながら、モデル形状変換の動作例について説明する。

【0065】

図５は、変換前のモデルの例について説明するための図である。図５を参照すると、変換前のモデルＭ１が示されている。変換前のモデルＭ１は、学習済みのモデルであり、変換前のモデルＭ１に画像が入力されると、変換前のモデルＭ１による画像に基づく推論により物体検出結果が変換前のモデルＭ１から出力される。例えば、変換前のモデルＭ１から出力される物体検出結果は、画像に写る物体のクラスおよび物体の位置であり得る。

【0066】

変換前のモデルＭ１は、学習済みのＤＮＮ（Ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）であり、処理層Ｌ１～Ｌｎ（ｎは、正の整数）を含んで構成される。例えば、処理層Ｌ１は、入力層であり、処理層Ｌ２～Ｌｎ－１それぞれは、中間層であり、処理層Ｌｎは、出力層である。

【0067】

例えば、変換前のモデルＭ１は、学習済みのＤＮＮの例として畳み込みニューラルネットワーク（ＣＮＮ：Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を含んで構成される。例えば、変換前のモデルＭ１が、畳み込みニューラルネットワークを含んで構成される場合には、変換前のモデルＭ１の中間層は、畳み込み層、プーリング層および全結合層などを含んで構成される。しかし、変換前のモデルＭ１の具体的な構造は特に限定されない。

【0068】

記憶装置３には、変換前のモデルＭ１の構造を示す情報であるモデル構造情報３３が記憶されている。ここで、モデル構造情報３３は、処理層Ｌ１～Ｌｎそれぞれの構造を示す情報であってよい。

【0069】

例えば、処理層Ｌ２が畳み込み層である場合には、処理層Ｌ２の構造を示す情報は、処理層Ｌ２が畳み込み層であること、畳み込みフィルタのサイズ、および、畳み込みフィルタのストライド間隔などを含んでもよい。

【0070】

例えば、処理層Ｌ３がプーリング層である場合には、処理層Ｌ３の構造を示す情報は、処理層Ｌ３がプーリング層であること、プーリング層が算出する代表値（例えば、最大値、平均値など）の種類、および、代表値が算出されるウィンドウのサイズなどを含んでもよい。

【0071】

例えば、処理層Ｌｎ－１が全結合層である場合には、処理層Ｌｎ－１の構造を示す情報は、処理層Ｌｎ－１が全結合層であること、および、全結合層を構成するニューロンの数などを含んでもよい。

【0072】

モデル構造情報３３の他、記憶装置３には、変換前のモデルＭ１を構成する複数のニューロンそれぞれの重み情報３４が記憶されている。重み情報３４は、変換前のモデルＭ１の学習時に獲得された情報である。

【0073】

さらに、記憶装置３には、学習時に計測された変換前のモデルＭ１の処理時間が計測処理時間３５として記憶されている。例えば、計測処理時間３５は、変換前のモデルＭ１に画像が入力されてから画像に基づく物体検出結果が変換前のモデルＭ１から出力されるまでに要する時間の計測値であってもよい。

【0074】

また、記憶装置３には、変換前のモデルＭ１の形状が変換されて得られる、変換後のモデルの目標処理時間３６が記憶されている。例えば、目標処理時間３６は、変換後のモデルに画像が入力されてから画像に基づく物体検出結果が変換後のモデルから出力されるまでに要する時間の目標値であってもよい。

【0075】

図６は、モデル形状変換の動作例を示すフローチャートである。図６を参照すると、モデル形状変換（Ｓ１２）の詳細な動作例が示されている。図６に示されるように、モデル情報取得部１３１は、記憶装置３からモデル構造情報３３を取得し（Ｓ１２１）、記憶装置３から重み情報３４を取得し（Ｓ１２２）、記憶装置３から計測処理時間３５を取得する（Ｓ１２３）。また、目標処理時間取得部１３２は、記憶装置３から目標処理時間３６を取得する（Ｓ１２４）。

【0076】

モデル形状決定部１３３は、変換後のモデルの形状を決定する（Ｓ１２５）。より具体的に、モデル形状決定部１３３は、変換前のモデルＭ１のモデル構造情報３３に含まれる、入力層Ｌ１の構造を示す情報に基づいて、入力層Ｌ１に入力される画像の縦の長さを、変換前のモデルＭ１への縦入力サイズｂａｓｅ＿ｈとして取得し、入力層Ｌ１に入力される画像の横の長さを、変換前のモデルＭ１への横入力サイズｂａｓｅ＿ｗとして取得する。なお、縦の長さと横の長さとの両方を合わせて「縦横長」とも言う。

【0077】

モデル形状決定部１３３は、変換前のモデルＭ１への縦入力サイズｂａｓｅ＿ｈと、変換前のモデルＭ１への横入力サイズｂａｓｅ＿ｗとを乗算することにより、変換前のモデルＭ１への入力サイズ（ｂａｓｅ＿ｈ・ｂａｓｅ＿ｗ）を算出する。変換前のモデルＭ１への入力サイズは、変換前のモデルＭ１への入力の面積とも換言され得る。

【0078】

ここで、変換後のモデルの目標処理時間３６をｔａｒｇｅｔ＿ｔｉｍｅとし、学習時に計測された変換前のモデルＭ１の処理時間である計測処理時間３５をｂａｓｅ＿ｔｉｍｅとする。また、変換後のモデルへの目標入力サイズをｔａｒｇｅｔ＿ａｒｅａとする。変換後のモデルへの入力サイズは、変換後のモデルへの入力の面積とも換言され得る。

【0079】

ここで、本発明の実施形態において、モデルへの入力サイズと、モデルの中間層による演算量とが比例するように、モデルの形状が変換される場合を想定する。このとき、入力層および出力層によって演算は行われないとすると、モデルへの入力サイズと、モデルの処理時間とが比例するように、モデルの形状が変換される。

【0080】

したがって、下記の式（１）に示されるように、モデル形状決定部１３３は、変換前のモデルＭ１への入力サイズ（ｂａｓｅ＿ｗ・ｂａｓｅ＿ｈ）と、変換後のモデルの目標処理時間ｔａｒｇｅｔ＿ｔｉｍｅと、変換前のモデルＭ１の計測処理時間ｂａｓｅ＿ｔｉｍｅとに基づいて、変換後のモデルへの目標入力サイズｔａｒｇｅｔ＿ａｒｅａを決定する。

【0081】

ｔａｒｇｅｔ＿ａｒｅａ
＝（ｂａｓｅ＿ｗ・ｂａｓｅ＿ｈ）ｔａｒｇｅｔ＿ｔｉｍｅ／ｂａｓｅ＿ｔｉｍｅ
・・・（１）

【0082】

なお、ここでは、変換後のモデルの目標処理時間ｔａｒｇｅｔ＿ｔｉｍｅがあらかじめ記憶装置３に記憶されている場合を主に想定した。しかし、変換後のモデルへの目標入力サイズｔａｒｇｅｔ＿ａｒｅａがあらかじめ記憶装置３に記憶されていてもよい。このとき、モデル形状決定部１３３は、記憶装置３に記憶された変換後のモデルへの目標入力サイズｔａｒｇｅｔ＿ａｒｅａを取得してもよい。

【0083】

あるいは、変換前のモデルの目標処理時間ｂａｓｅ＿ｔｉｍｅが、変換前のモデルの積和演算回数に置き換えられるとともに、変換後のモデルの目標処理時間ｔａｒｇｅｔ＿ｔｉｍｅが、変換後のモデルの積和演算回数に置き換えられてもよい。

【0084】

さらに、検出エリアＤ２の横サイズをａｒｅａ＿ｗとし、検出エリアＤ２の縦サイズをａｒｅａ＿ｈとする。このとき、モデル形状決定部１３３は、検出エリアＤ２のサイズを、検出エリアＤ２の横サイズａｒｅａ＿ｗと、検出エリアＤ２の縦サイズａｒｅａ＿ｈとを乗算することにより、検出エリアＤ２のサイズ（ａｒｅａ＿ｗ・ａｒｅａ＿ｈ）を算出する。検出エリアＤ２のサイズは、検出エリアＤ２の面積とも換言され得る。

【0085】

モデル形状決定部１３３は、検出エリアＤ２のサイズ（ａｒｅａ＿ｗ・ａｒｅａ＿ｈ）に対する、変換後のモデルへの目標入力サイズｔａｒｇｅｔ＿ａｒｅａの割合を算出する。ここで、検出エリアＤ２のサイズ（ａｒｅａ＿ｗ・ａｒｅａ＿ｈ）に対する、変換後のモデルへの目標入力サイズｔａｒｇｅｔ＿ａｒｅａの割合の正の平方根を、ｒａｔｉｏｎとする。また、変換後のモデルへの横入力サイズをｃｏｎｖ＿ｗとし、変換後のモデルへの縦入力サイズをｃｏｎｖ＿ｈとする。

【0086】

このとき、検出エリアＤ２のサイズ（ａｒｅａ＿ｗ・ａｒｅａ＿ｈ）に対する、変換後のモデルへの目標入力サイズｔａｒｇｅｔ＿ａｒｅａの割合は、ｒａｔｉｏｎ^２と表現され得る。モデル形状決定部１３３は、算出した割合（ｒａｔｉｏｎ^２）と、検出エリアＤ２のサイズ（ａｒｅａ＿ｗ・ａｒｅａ＿ｈ）とに基づいて、変換後のモデルへの横入力サイズｃｏｎｖ＿ｗと、変換後のモデルへの縦入力サイズｃｏｎｖ＿ｈとを算出する。

【0087】

例えば、モデル形状決定部１３３は、変換後のモデルへの目標入力サイズｔａｒｇｅｔ＿ａｒｅａと、検出エリアＤ２の横サイズａｒｅａ＿ｗと、検出エリアＤ２の縦サイズａｒｅａ＿ｈとに基づいて、割合の平方根（ｒａｔｉｏｎ）を、下記の式（２）に示されるように算出し得る。

【0088】

【数1】

【0089】

モデル形状決定部１３３は、下記の式（３）に示されるように、割合の平方根（ｒａｔｉｏｎ）と、検出エリアＤ２の横サイズａｒｅａ＿ｗとの乗算に基づいて、変換後のモデルへの横入力サイズｃｏｎｖ＿ｗを算出する。

【0090】

ｃｏｎｖ＿ｗ＝ａｒｅａ＿ｗ・ｒａｔｉｏｎ・・・（３）

【0091】

同様に、モデル形状決定部１３３は、下記の式（４）に示されるように、割合の平方根（ｒａｔｉｏｎ）と、検出エリアＤ２の縦サイズａｒｅａ＿ｈとの乗算に基づいて、変換後のモデルへの縦入力サイズｃｏｎｖ＿ｈを算出する。

【0092】

ｃｏｎｖ＿ｈ＝ａｒｅａ＿ｈ・ｒａｔｉｏｎ・・・（４）

【0093】

なお、モデルの種類によっては、画像に設定される複数のグリッドセルそれぞれについて物体検出処理が行われる。例えば、グリッドセルは、一辺を所定の長さとする正方形によって構成され得る。一例として、ＹＯＬＯ（ＹｏｕＬｏｏｋＯｎｌｙＯｎｓｅ）が用いられる場合には、グリッドセルは、最大３２ｐｉｘｅｌ×３２ｐｉｘｅｌの正方形によって構成される。そのため、検出エリアＤ２の横サイズａｒｅａ＿ｗ、および、検出エリアＤ２の縦サイズａｒｅａ＿ｈのそれぞれは、３２の倍数である必要がある。

【0094】

このとき、モデル形状決定部１３３は、変換後のモデルへの横入力サイズｃｏｎｖ＿ｗを、下記の式（５）により算出し得る。

【0095】

ｃｏｎｖ＿ｗ＝３２［ａｒｅａ＿ｗ・ｒａｔｉｏｎ／３２］・・・（５）

【0096】

同様に、モデル形状決定部１３３は、変換後のモデルへの縦入力サイズｃｏｎｖ＿ｈを、下記の式（６）により算出し得る。

【0097】

ｃｏｎｖ＿ｈ＝３２［ａｒｅａ＿ｈ・ｒａｔｉｏｎ／３２］・・・（６）

【0098】

そして、モデル形状決定部１３３は、変換前のモデルＭ１のモデル構造情報３３と、変換後のモデルへの横入力サイズｃｏｎｖ＿ｗと、変換後のモデルへの縦入力サイズｃｏｎｖ＿ｈと、に基づいて、変換後のモデルの形状を決定する。ここで、図７および図８を参照しながら、変換後のモデルの形状の第１の例および第２の例について説明する。

【0099】

図７は、変換後のモデルの形状の第１の例について説明するための図である。図７を参照すると、画像Ｇ１に設定された設定エリアＲ１１が示されている。そして、設定エリアＲ１１に外接する矩形領域が検出エリアＤ１２として設定されている。モデル形状決定部１３３は、検出エリアＤ１２に基づいて、変換前のモデルＭ１（図５）が変換された後のモデルである、変換後のモデルＭ１２を決定する。

【0100】

例えば、変換前のモデルＭ１に含まれる処理層Ｌ２（第１の処理層）が畳み込み層であり、変換後のモデルＭ１２に含まれる処理層Ｌ２（第２の処理層）が畳み込み層であり、変換前のモデルＭ１に含まれる処理層Ｌ２が、変換後のモデルＭ１２に含まれる処理層Ｌ２に変換される場合を想定する。

【0101】

このとき、モデル形状決定部１３３は、変換後のモデルへの縦入力サイズｃｏｎｖ＿ｈ、および、変換後のモデルへの縦入力サイズｃｏｎｖ＿ｈに基づいて、検出エリアＤ１２の全体が、変換後のモデルＭ１２に含まれる処理層Ｌ２によって処理されるように、変換前のモデルＭ１に含まれる処理層Ｌ２による処理回数を変更した、変更後のモデルＭ１２に含まれる処理層Ｌ２を決定する。

【0102】

例えば、モデル形状決定部１３３は、変換前のモデルＭ１に含まれる処理層Ｌ２を構成する畳み込みフィルタが検出エリアＤ１２の全体に適用されるように、畳み込みフィルタの移動回数を変更した、変更後のモデルＭ１２に含まれる処理層Ｌ２を決定する。

【0103】

例えば、図７に示されたように、検出エリアＤ１２が画像Ｇ１の縦方向に縮小されている場合を想定する。かかる場合には、モデル形状決定部１３３は、変換後のモデルへの縦入力サイズｃｏｎｖ＿ｈと、畳み込みフィルタの縦の長さとに基づいて、畳み込みフィルタが検出エリアＤ１２の縦方向の一端から他端まで移動するために必要な、縦方向への移動回数を算出する。そして、モデル形状決定部１３３は、算出した回数まで畳み込みフィルタの移動回数を減少させた、変更後のモデルＭ１２に含まれる処理層Ｌ２を決定する。

【0104】

例えば、変換前のモデルＭ１に含まれる処理層Ｌ３がプーリング層であり、変換後のモデルＭ１２に含まれる処理層Ｌ３がプーリング層であり、変換前のモデルＭ１に含まれる処理層Ｌ３が、変換後のモデルＭ１２に含まれる処理層Ｌ３に変換される場合を想定する。

【0105】

このとき、モデル形状決定部１３３は、処理層Ｌ３の直前の処理層Ｌ２から出力される特徴マップの縦の長さと、プーリング層によって代表値が算出されるウィンドウの縦の長さとに基づいて、特徴マップの全体が、変換後のモデルＭ１２に含まれる処理層Ｌ３によって処理されるように、変換前のモデルＭ１に含まれる処理層Ｌ３による処理回数を変更した、変更後のモデルＭ１２に含まれる処理層Ｌ３を決定する。

【0106】

例えば、図７に示されたように、検出エリアＤ１２が画像Ｇ１の縦方向に縮小されている場合を想定する。かかる場合には、モデル形状決定部１３３は、特徴マップの縦の長さと、ウィンドウの縦の長さとに基づいて、ウィンドウが特徴マップの縦方向の一端から他端まで移動するために必要な、縦方向への移動回数を算出する。そして、モデル形状決定部１３３は、算出した回数まで移動回数を減少させた、変更後のモデルＭ１２に含まれる処理層Ｌ３を決定する。

【0107】

例えば、変換前のモデルＭ１に含まれる処理層Ｌｎ－１が全結合層であり、変換後のモデルＭ１２に含まれる処理層Ｌｎ－１が全結合層であり、変換前のモデルＭ１に含まれる処理層Ｌｎ－１が、変換後のモデルＭ１２に含まれる処理層Ｌｎ－１に変換される場合を想定する。

【0108】

このとき、モデル形状決定部１３３は、処理層Ｌｎ－１の直前の処理層Ｌｎ－２から出力される特徴マップの縦の長さと、全結合層を構成するニューロンの数とに基づいて、特徴マップの全体が、全結合層を構成する各ニューロンと結合するように、変換前のモデルＭ１に含まれる処理層Ｌｎ－１による結合関係を変更した、変更後のモデルＭ１２に含まれる処理層Ｌｎ－１を決定する。

【0109】

図８は、変換後のモデルの形状の第２の例について説明するための図である。図８を参照すると、画像Ｇ１に設定された設定エリアＲ１２が示されている。そして、設定エリアＲ１２に外接する矩形領域が検出エリアＤ１３として設定されている。モデル形状決定部１３３は、検出エリアＤ１３に基づいて、変換前のモデルＭ１（図５）が変換された後のモデルである、変換後のモデルＭ１３を決定する。

【0110】

【0111】

例えば、図８に示されたように、検出エリアＤ１３が画像Ｇ１の横方向に縮小されている場合を想定する。かかる場合には、モデル形状決定部１３３は、変換後のモデルへの横入力サイズｃｏｎｖ＿ｗと、畳み込みフィルタの横の長さとに基づいて、畳み込みフィルタが検出エリアＤ１３の横方向の一端から他端まで移動するために必要な、横方向への移動回数を算出する。そして、モデル形状決定部１３３は、算出した回数まで畳み込みフィルタの移動回数を減少させた、変更後のモデルＭ１３に含まれる処理層Ｌ２を決定する。

【0112】

例えば、変換前のモデルＭ１に含まれる処理層Ｌ３がプーリング層であり、変換後のモデルＭ１３に含まれる処理層Ｌ３がプーリング層であり、変換前のモデルＭ１に含まれる処理層Ｌ３が、変換後のモデルＭ１３に含まれる処理層Ｌ３に変換される場合を想定する。

【0113】

例えば、図８に示されたように、検出エリアＤ１３が画像Ｇ１の横方向に縮小されている場合を想定する。かかる場合には、モデル形状決定部１３３は、特徴マップの横の長さと、ウィンドウの横の長さとに基づいて、ウィンドウが特徴マップの横方向の一端から他端まで移動するために必要な、横方向への移動回数を算出する。そして、モデル形状決定部１３３は、算出した回数まで移動回数を減少させた、変更後のモデルＭ１３に含まれる処理層Ｌ３を決定する。

【0114】

例えば、変換前のモデルＭ１に含まれる処理層Ｌｎ－１が全結合層であり、変換後のモデルＭ１３に含まれる処理層Ｌｎ－１が全結合層であり、変換前のモデルＭ１に含まれる処理層Ｌｎ－１が、変換後のモデルＭ１３に含まれる処理層Ｌｎ－１に変換される場合を想定する。

【0115】

このとき、モデル形状決定部１３３は、処理層Ｌｎ－１の直前の処理層Ｌｎ－２から出力される特徴マップの横の長さと、全結合層を構成するニューロンの数とに基づいて、特徴マップの全体が、全結合層を構成する各ニューロンと結合するように、変換前のモデルＭ１に含まれる処理層Ｌｎ－１による結合関係を変更した、変更後のモデルＭ１３に含まれる処理層Ｌｎ－１を決定する。

【0116】

図７および図８を参照しながら、変換後のモデルの形状の第１の例および第２の例について説明した。このようなモデルの形状の変換は、ｄｙｎａｍｉｃｓｈａｐｅなどといった公知の技術により、モデルの重み情報およびモデルに含まれるニューロンの数は変更されずに行われ得る。したがって、モデル変換のために再学習が必要とならない。さらに、モデルへの目標入力サイズが一定に保たれるため、モデルの処理時間が一定時間以下に抑制され得る。

【0117】

図６に戻って説明を続ける。モデル形状変換部１３４は、モデル形状決定部１３３によって決定された変換後のモデルの形状に従って、変換前のモデルの形状を変換することにより、変換後のモデルを生成する（Ｓ１２６）。

【0118】

（画像取得部１１）
図２に戻って説明を続ける。画像取得部１１は、撮像装置２によって時系列に沿って連続的に撮像されて得られた複数の画像を取得する（Ｓ１３）。画像取得部１１による画像の取得はどのようなタイミングで行われてもよい。例えば、撮像装置２から画像が出力されるたびに画像取得部１１によって逐次的に画像が取得されてもよい。あるいは、撮像装置２から出力された画像が記憶装置３に一定時間分蓄積されてから、画像取得部１１によって一定時間分の画像が記憶装置３から取得されてもよい。

【0119】

（画像生成部１４）
画像生成部１４は、画像取得部１１によって取得された画像と検出エリアＤ２（図３）とに基づいてクロッピングを行うことにより検出エリア画像を生成する（Ｓ１４）。ここで、図９を参照しながら、検出エリア画像生成の動作例について説明する。

【0120】

図９は、検出エリア画像生成の動作例を示すフローチャートである。図９を参照すると、検出エリア画像生成（Ｓ１４）の詳細な動作例が示されている。図９に示されるように、クロッピング処理部１４１は、画像取得部１１によって取得された画像と、検出エリアＤ２とに基づいて、画像に対して検出エリアのクロッピングを行うことにより検出エリア画像を生成する（Ｓ１４１）。なお、画像に対する検出エリアのクロッピングは、画像から検出エリアを取り除くことを意味し、画像に対する検出エリアのトリミングとも換言され得る。

【0121】

（物体検出部１５）
図２に戻って説明を続ける。物体検出部１５は、変換後のモデルと検出エリア画像とに基づいて、物体の検出結果を得る（Ｓ１５）。図１０を参照しながら、物体検出の動作例について説明する。

【0122】

図１０は、本発明の第１の実施形態に係る物体検出の動作例を示すフローチャートである。図１０を参照すると、物体検出（Ｓ１５）の詳細な動作例が示されている。リサイズ処理部１５１は、変換後のモデルへの入力縦横長と、検出エリア画像の縦横長とが不一致であるか否かを判定する（Ｓ１５１）。

【0123】

リサイズ処理部１５１は、変換後のモデルへの入力縦横長と、検出エリア画像の縦横長とが一致すると判定した場合には（Ｓ１５１において「ＮＯ」）、Ｓ１５３に動作を移行する。一方、リサイズ処理部１５１は、変換後のモデルへの入力縦横長と、検出エリア画像の縦横長とが不一致であると判定した場合には（Ｓ１５１において「ＹＥＳ」）、変換後のモデルへの入力縦横長と検出エリア画像の縦横長とが同じになるように、検出エリア画像をリサイズして（Ｓ１５２）、Ｓ１５３に動作を移行する。

【0124】

なお、検出エリア画像に対するリサイズはどのようになされてもよい。例えば、検出エリア画像に対するリサイズは、検出エリア画像を引き延ばすことにより行われてもよい。あるいは、検出エリア画像に対するリサイズは、検出エリア画像の外側に対するパディングにより行われてもよい。

【0125】

推論部１５２は、Ｓ１４１において生成された検出エリア画像、または、リサイズ処理部１５１によるリサイズ後の検出エリア画像を、変換後のモデルに入力する（Ｓ１５３）。これによって、変換後のモデルによる推論が実行される（Ｓ１５４）。推論部１５２は、変換後のモデルに検出エリア画像を入力することに基づいて変換後のモデルから出力されたデータを物体検出結果として取得する（Ｓ１５５）。

【0126】

（結果出力部１６）
図２に戻って説明を続ける。結果出力部１６は、物体検出部１５によって得られた物体検出結果を出力装置４に出力する（Ｓ１６）。より具体的に、出力装置４がディスプレイによって構成されている場合には、結果出力部１６は、物体検出部１５によって得られた物体検出結果のディスプレイによる表示を制御する。例えば、結果出力部１６は、物体検出結果として、画像に写る物体のクラスおよび物体の位置を出力装置４に出力する。あるいは、物体検出結果は、物体追跡などに用いられてもよい。

【0127】

物体検出装置１は、処理を継続する場合には（Ｓ１７において「ＮＯ」）、Ｓ１３に動作を移行する。一方、物体検出装置１は、処理を終了する場合には（Ｓ１７において「ＹＥＳ」）、物体検出装置１の処理を終了する。

【0128】

以上、本発明の第１の実施形態に係る物体検出システムの構成例について説明した。

【0129】

（１－２．効果）
本発明の第１の実施形態によれば、検出対象の物体のサイズが考慮された検出エリアが設定され、設定された検出エリアの形状に基づいてモデルの形状が変換される。これにより、モデルに対する無駄な領域の入力を省くことが可能となり、物体検出のために有用な領域のみをモデルに入力することにより、処理時間を抑制しつつ高精度な物体検出が可能となる。

【0130】

以上、本発明の第１の実施形態について説明した。

【0131】

（２．第２の実施形態）
続いて、本発明の第２の実施形態について説明する。特許文献１～３に記載された技術では、複数の検出エリアが存在する場合、複数の検出エリアそれぞれに対して同一のモデルを適用して推論を行う必要がある。このとき、複数の検出エリアそれぞれに対してモデルを適用した場合における物体検出精度は、単一の検出エリアに対してモデルを適用した場合における物体検出精度と同等である。

【0132】

しかし、複数の検出エリアそれぞれに対してモデルを適用した場合には、（単一のエリアの処理時間）×（検出エリア数）に相当する処理時間が掛かってしまう。そのため、演算リソースが限られたエッジ環境では演算リソース不足などの課題が生じ得る。本発明の第２の実施形態では、かかる課題を解決するための技術について主に提案する。

【0133】

（２－１．物体検出システムの構成）
まず、本発明の第２の実施形態に係る物体検出システムの構成例について説明する。本発明の第２の実施形態においても、本発明の第１の実施形態に係る物体検出システムの機能構成例を示す図（図１）を参照しながら説明する。本発明の第２の実施形態に係る物体検出システムは、物体検出装置１と、撮像装置２と、記憶装置３と、出力装置４とを備える。

【0134】

ただし、本発明の第２の実施形態に係る物体検出装置１においては、検出エリア設定部１２２が、複数の検出エリアの設定を行う。より具体的には、エリア設定部１２２は、記憶装置３から設定エリアを示す設定エリア情報３２を取得し、取得した設定エリア情報３２に基づいて、複数の検出エリアの設定を行う。ここで、図１１を参照しながら、本発明の第２の実施形態に係る検出エリア設定の動作例について説明する。

【0135】

（エリア設定部１２）
図１１は、本発明の第２の実施形態に係る設定エリアおよび検出エリアの例について説明するための図である。図１１を参照すると、画像Ｇ２が示されている。画像Ｇ２には、物体が存在する平面の例として、車両が走行する道路平面が写っている。画像Ｇ２の中には、設定エリアＲ２１および設定エリアＲ２２が示されている。

【0136】

また、設定エリアＲ２１に基づいて設定された検出エリアＤ２１（第１の検出エリア）が示されており、設定エリアＲ２２に基づいて設定された検出エリアＤ２２（第２の検出エリア）が示されている。検出エリアＤ２１および検出エリアＤ２２それぞれは、本発明の第１の実施形態に係る検出エリアＤ１２と同様に設定されてよい。

【0137】

（モデル生成部１３）
モデル生成部１３は、記憶装置３から変換前のモデルの構造を示す情報であるモデル構造情報３３を取得し、取得したモデル構造情報３３と、検出エリアＤ２１のサイズと、検出エリアＤ２２のサイズと、変換後のモデルへの目標入力サイズと、に基づいて、変換前のモデルの形状を変換して、検出エリアＤ２１に対応する変換後のモデルＭ２１、および、検出エリアＤ２２に対応する変換後のモデルＭ２２を生成する。

【0138】

検出エリアＤ２１の横サイズをａｒｅａ＿ｗ１とし、検出エリアＤ２１の縦サイズをａｒｅａ＿ｈ１とする。このとき、モデル形状決定部１３３は、検出エリアＤ２１のサイズを、検出エリアＤ２１の横サイズａｒｅａ＿ｗ１と、検出エリアＤ２１の縦サイズａｒｅａ＿ｈ１とを乗算することにより、検出エリアＤ２１のサイズ（ａｒｅａ＿ｗ１・ａｒｅａ＿ｈ１）を算出する。

【0139】

モデル形状決定部１３３は、検出エリアＤ２１のサイズ（ａｒｅａ＿ｗ１・ａｒｅａ＿ｈ１）に対する、変換後のモデルＭ２１への目標入力サイズｔａｒｇｅｔ＿ａｒｅａの割合を算出する。ここで、検出エリアＤ２１のサイズ（ａｒｅａ＿ｗ１・ａｒｅａ＿ｈ１）に対する、変換後のモデルＭ２１への目標入力サイズｔａｒｇｅｔ＿ａｒｅａの割合の正の平方根を、ｒａｔｉｏｎ１とする。また、変換後のモデルＭ２１への横入力サイズをｃｏｎｖ＿ｗ１とし、変換後のモデルＭ２１への縦入力サイズをｃｏｎｖ＿ｈ１とする。

【0140】

このとき、検出エリアＤ２１のサイズ（ａｒｅａ＿ｗ１・ａｒｅａ＿ｈ１）に対する、変換後のモデルＭ２１への目標入力サイズｔａｒｇｅｔ＿ａｒｅａの割合は、ｒａｔｉｏｎ１^２と表現され得る。モデル形状決定部１３３は、算出した割合（ｒａｔｉｏｎ１^２）と、検出エリアＤ２１のサイズ（ａｒｅａ＿ｗ１・ａｒｅａ＿ｈ１）とに基づいて、変換後のモデルＭ２１への横入力サイズｃｏｎｖ＿ｗ１と、変換後のモデルＭ２１への縦入力サイズｃｏｎｖ＿ｈ１とを算出する。

【0141】

例えば、モデル形状決定部１３３は、変換後のモデルＭ２１への目標入力サイズｔａｒｇｅｔ＿ａｒｅａと、検出エリアＤ２１の横サイズａｒｅａ＿ｗ１と、検出エリアＤ２１の縦サイズａｒｅａ＿ｈ１とに基づいて、割合の平方根（ｒａｔｉｏｎ１）を、下記の式（７）に示されるように算出し得る。

【0142】

【数2】

【0143】

モデル形状決定部１３３は、下記の式（８）に示されるように、割合の平方根（ｒａｔｉｏｎ１）と、検出エリアＤ２１の横サイズａｒｅａ＿ｗ１との乗算に基づいて、変換後のモデルＭ２１への横入力サイズｃｏｎｖ＿ｗ１を算出する。

【0144】

ｃｏｎｖ＿ｗ１＝ａｒｅａ＿ｗ１・ｒａｔｉｏｎ１・・・（８）

【0145】

同様に、モデル形状決定部１３３は、下記の式（９）に示されるように、割合の平方根（ｒａｔｉｏｎ１）と、検出エリアＤ２１の縦サイズａｒｅａ＿ｈ１との乗算に基づいて、変換後のモデルＭ２１への縦入力サイズｃｏｎｖ＿ｈ１を算出する。

【0146】

ｃｏｎｖ＿ｈ１＝ａｒｅａ＿ｈ１・ｒａｔｉｏｎ・・・（９）

【0147】

なお、画像に設定される複数のグリッドセルそれぞれについて物体検出処理が行われる場合には、モデル形状決定部１３３は、変換後のモデルＭ２１への横入力サイズｃｏｎｖ＿ｗ１を、下記の式（１０）により算出し得る。

【0148】

ｃｏｎｖ＿ｗ１＝３２［ａｒｅａ＿ｗ１・ｒａｔｉｏｎ１／３２］・・・（１０）

【0149】

同様に、モデル形状決定部１３３は、変換後のモデルＭ２１への縦入力サイズｃｏｎｖ＿ｈ１を、下記の式（１１）により算出し得る。

【0150】

ｃｏｎｖ＿ｈ１＝３２［ａｒｅａ＿ｈ１・ｒａｔｉｏｎ１／３２］・・・（１１）

【0151】

そして、モデル形状決定部１３３は、変換前のモデルＭ１のモデル構造情報３３と、変換後のモデルＭ２１への横入力サイズｃｏｎｖ＿ｗと、変換後のモデルＭ２１への縦入力サイズｃｏｎｖ＿ｈと、に基づいて、変換後のモデルＭ２１の形状を決定する。変換後のモデルＭ２１の形状は、本発明の第１の実施形態に係る変換後のモデルＭ１１の形状と同様に決定されてよい。

【0152】

同様に、検出エリアＤ２２の横サイズをａｒｅａ＿ｗ２とし、検出エリアＤ２２の縦サイズをａｒｅａ＿ｈ２とする。そして、検出エリアＤ２２のサイズ（ａｒｅａ＿ｗ２・ａｒｅａ＿ｈ２）に対する、変換後のモデルＭ２２への目標入力サイズｔａｒｇｅｔ＿ａｒｅａの割合の正の平方根を、ｒａｔｉｏｎ２とする。また、変換後のモデルＭ２２への横入力サイズをｃｏｎｖ＿ｗ２とし、変換後のモデルＭ２２への縦入力サイズをｃｏｎｖ＿ｈ２とする。

【0153】

変換後のモデルＭ２２への横入力サイズｃｏｎｖ＿ｗ２は、下記の式（１２）のように算出される。

【0154】

ｃｏｎｖ＿ｗ２＝ａｒｅａ＿ｗ２・ｒａｔｉｏｎ２・・・（１２）

【0155】

同様に、変換後のモデルＭ２２への縦入力サイズｃｏｎｖ＿ｈ２は、下記の式（１３）のように算出される。

【0156】

ｃｏｎｖ＿ｈ２＝ａｒｅａ＿ｈ２・ｒａｔｉｏｎ２・・・（１３）

【0157】

なお、画像に設定される複数のグリッドセルそれぞれについて物体検出処理が行われる場合には、モデル形状決定部１３３は、変換後のモデルＭ２２への横入力サイズｃｏｎｖ＿ｗ２を、下記の式（１４）により算出し得る。

【0158】

ｃｏｎｖ＿ｗ２＝３２［ａｒｅａ＿ｗ２・ｒａｔｉｏｎ２／３２］・・・（１４）

【0159】

同様に、モデル形状決定部１３３は、変換後のモデルＭ２２への縦入力サイズｃｏｎｖ＿ｈ２を、下記の式（１５）により算出し得る。

【0160】

ｃｏｎｖ＿ｈ２＝３２［ａｒｅａ＿ｈ２・ｒａｔｉｏｎ２／３２］・・・（１５）

【0161】

そして、モデル形状決定部１３３は、変換前のモデルＭ１のモデル構造情報３３と、変換後のモデルＭ２１への横入力サイズｃｏｎｖ＿ｗ１と、変換後のモデルＭ２２への縦入力サイズｃｏｎｖ＿ｈ１と、に基づいて、変換後のモデルＭ２１の形状を決定する。変換後のモデルＭ２１の形状は、本発明の第１の実施形態に係る変換後のモデルＭ１１の形状と同様に決定されてよい。

【0162】

同様に、モデル形状決定部１３３は、変換前のモデルＭ１のモデル構造情報３３と、変換後のモデルＭ２２への横入力サイズｃｏｎｖ＿ｗ２と、変換後のモデルＭ２２への縦入力サイズｃｏｎｖ＿ｈ２と、に基づいて、変換後のモデルＭ２２の形状を決定する。変換後のモデルＭ２２の形状は、本発明の第１の実施形態に係る変換後のモデルＭ１１の形状と同様に決定されてよい。

【0163】

（画像生成部１４）
画像生成部１４は、画像取得部１１によって取得された画像と検出エリアＤ２１とに基づいてクロッピングを行うことにより、変換後のモデルＭ２１に対応する検出エリア画像（第２の検出エリア画像）を生成する。さらに、画像生成部１４は、画像取得部１１によって取得された画像と検出エリアＤ２２とに基づいてクロッピングを行うことにより、変換後のモデルＭ２２に対応する検出エリア画像（第１の検出エリア画像）を生成する。

【0164】

（物体検出部１５）
物体検出部１５は、変換後のモデルＭ２１と、変換後のモデルＭ２１に対応する検出エリア画像とに基づいて、変換後のモデルＭ２１に対応する物体（第１の物体）の検出結果を得る。さらに、物体検出部１５は、変換後のモデルＭ２２と、変換後のモデルＭ２２に対応する検出エリア画像とに基づいて、変換後のモデルＭ２２に対応する物体（第２の物体）の検出結果を得る。

【0165】

（結果出力部１６）
結果出力部１６は、物体検出部１５によって得られた、変換後のモデルＭ２１に対応する物体検出結果を出力装置４に出力する。さらに、結果出力部１６は、物体検出部１５によって得られた、変換後のモデルＭ２２に対応する物体検出結果を出力装置４に出力する。

【0166】

以上、本発明の第２の実施形態に係る物体検出システムの構成例について説明した。

【0167】

（２－２．効果）
本発明の第２の実施形態によれば、１つの画像の中に複数の検出エリアが設定された場合であっても、本発明の第１の実施形態と同様に、モデルに対する無駄な領域の入力を省くことが可能となり、物体検出のために有用な領域のみをモデルに入力することにより、処理時間を抑制しつつ高精度な物体検出が可能となる。さらに、検出エリアごとに適用されるモデルの形状が異なり得るため、モデルによる処理時間が一層抑制され得る。

【0168】

以上、本発明の第２の実施形態について説明した。

【0169】

（３．第３の実施形態）
続いて、本発明の第３の実施形態について説明する。特許文献１～３に記載された技術では、検出対象の物体などに応じて物体検出にかかる処理時間を短縮できないために、物体検出のリアルタイム性が損なわれる課題が生じ得る。例えば、想定されていた環境において使用可能な演算リソースよりも実際に使用可能な演算リソースが少ない場合、または、高速移動する物体（例えば、高速道路を走行する車両など）の追跡などに物体検出結果を使用する場合などに、このような課題が生じ得る。本発明の第３の実施形態では、かかる課題を解決するための技術について主に提案する。

【0170】

（３－１．物体検出システムの構成）
まず、本発明の第３の実施形態に係る物体検出システムの構成例について説明する。本発明の第３の実施形態においても、本発明の第１の実施形態に係る物体検出システムの機能構成例を示す図（図１）を参照しながら説明する。本発明の第３の実施形態に係る物体検出システムは、物体検出装置１と、撮像装置２と、記憶装置３と、出力装置４とを備える。

【0171】

ただし、本発明の第３の実施形態に係る物体検出装置１においては、物体検出装置１の動作モードとして、第１のモードおよび第２のモードのいずれかが設定され得る。なお、典型的には、第１のモードは、高速道路を走行する車両を物体の例として検出するモードである。したがって、以下では、第１のモードを「高速道路撮像モード」とも称する。一方、典型的には、第２のモードは、一般道路を走行する車両を物体の例として検出するモードである。したがって、以下では、第２のモードを「一般道路撮像モード」とも称する。

【0172】

モデル形状決定部１３３は、図示しない操作部（例えば、ボタンなど）に対してユーザによって入力された選択情報に基づいて、動作モードに高速道路撮像モードおよび一般道路撮像モードのいずれかを設定する。より具体的に、モデル形状決定部１３３は、選択情報が高速道路撮像モードを示す場合には、動作モードに高速道路撮像モードを設定する。一方、モデル形状決定部１３３は、選択情報が一般道路撮像モードを示す場合には、動作モードに一般道路撮像モードを設定する。

【0173】

モデル形状決定部１３３は、動作モードが高速道路撮像モードに設定されている場合には、動作モードが一般道路撮像モードに設定されている場合よりも、目標入力サイズを小さくする。一例として、高速道路撮像モード用の目標処理時間および一般道路撮像モード用の目標処理時間が記憶装置３に記憶されている場合が想定される。例えば、高速道路における物体検出には、より強くリアルタイム性が求められるため、高速道路撮像モード用の目標処理時間は、一般道路撮像モード用の目標処理時間よりも短いことが想定され得る。

【0174】

かかる状況において、目標処理時間取得部１３２は、動作モードが高速道路撮像モードに設定されている場合には、記憶装置３から高速道路撮像モード用の目標処理時間を取得する。一方、目標処理時間取得部１３２は、動作モードが一般道路撮像モードに設定されている場合には、記憶装置３から一般道路撮像モード用の目標処理時間を取得する。

【0175】

そして、本発明の第１の実施形態と同様に、モデル形状決定部１３３は、目標処理時間取得部１３２によって取得された目標処理時間と、変換前のモデルへの入力サイズと、変換前のモデルの計測処理時間とに基づいて、変換後のモデルへの目標入力サイズを決定する。さらに、本発明の第１の実施形態と同様に、モデル形状決定部１３３は、変換後のモデルへの目標入力サイズと、モデル構造情報３３と、検出エリアのサイズと、に基づいて、変換前のモデルの形状を決定する。

【0176】

なお、高速道路撮像モード用の目標入力サイズおよび一般道路撮像モード用の目標入力サイズが記憶装置３に記憶されている場合も想定される。例えば、高速道路における物体検出には、より強くリアルタイム性が求められるため、高速道路撮像モード用の目標入力サイズは、一般道路撮像モード用の目標入力サイズよりも小さいことが想定され得る。

【0177】

かかる状況において、目標処理時間取得部１３２は、動作モードが高速道路撮像モードに設定されている場合には、記憶装置３から高速道路撮像モード用の目標入力サイズを取得してもよい。一方、目標処理時間取得部１３２は、動作モードが一般道路撮像モードに設定されている場合には、記憶装置３から一般道路撮像モード用の目標入力サイズを取得してもよい。ここで、図１２を参照しながら、本発明の第３の実施形態に係るモデル形状変換の例について説明する。

【0178】

（エリア設定部１２）
図１２は、本発明の第３の実施形態に係るモデル形状変換の例の例について説明するための図である。図１２を参照すると、画像Ｇ３が示されている。画像Ｇ３には、車両が走行する高速道路が写っている。画像Ｇ３の中には、設定エリアＲ３１が示されている。また、設定エリアＲ３１に基づいて設定された検出エリアＤ３１が示されている。

【0179】

かかる状況においては、物体検出装置１の動作モードには高速道路撮像モードが設定されており、高速道路撮像モード用の目標処理時間に基づいて変換後のモデルＭ３１が生成される。高速道路撮像モード用の目標処理時間は、一般道路撮像用モード用の目標処理時間より短い。

【0180】

したがって、モデル形状決定部１３３は、変換前のモデルに含まれる処理層による処理回数を減少させた、変更後のモデルＭ３１の形状を決定する。そして、モデル形状変換部１３４は、モデル形状決定部１３３によって決定された変換後のモデルＭ３１の形状に従って、変換前のモデルの形状を変換することにより、変換後のモデルＭ３１を生成する。

【0181】

（３－２．効果）
本発明の第３の実施形態によれば、検出対象の物体に応じて物体検出にかかる処理時間を短縮することができる。これにより、高速移動する物体（例えば、高速道路を走行する車両など）の追跡のために物体を連続的に検出することが可能となり、物体検出のリアルタイム性が向上することが期待される。

【0182】

以上、本発明の第３の実施形態について説明した。

【0183】

（４．第４の実施形態）
続いて、本発明の第４の実施形態について説明する。運用時において物体検出以外の他の処理によって演算リソース（例えば、プロセッサなど）に負荷が加えられた場合、物体検出に使用できる演算リソースが少なくなる状況が想定される。特許文献１～３に記載された技術では、かかる状況により、変換後のモデルの処理時間が目標処理時間を上回ってしまうという課題が生じ得る。本発明の第３の実施形態では、かかる課題を解決するための技術について主に提案する。

【0184】

（４－１．物体検出システムの構成）
まず、本発明の第４の実施形態に係る物体検出システムの構成例について説明する。図１３は、本発明の第４の実施形態に係る物体検出システムの機能構成例を示す図である。本発明の第４の実施形態に係る物体検出システムは、物体検出装置５と、撮像装置２と、記憶装置３と、出力装置４とを備える。

【0185】

ここで、本発明の第４の実施形態に係る物体検出装置５は、本発明の第１の実施形態に係る物体検出装置１と比較して、モデル情報更新部１７を備える点が主に異なる。したがって、モデル情報更新部１７について主に説明する。

【0186】

（物体検出装置５の動作例）
図１４は、本発明の第４の実施形態に係る物体検出装置５の全体的な動作例を示すフローチャートである。図１４を参照すると、本発明の第４の実施形態に係る物体検出装置５の全体的な動作は、本発明の第１の実施形態に係る物体検出装置１の全体的な動作（図２）と比較して、物体検出（Ｓ２５）およびモデル情報更新（Ｓ２８）が主に異なる。そこで、以下では、物体検出（Ｓ２５）およびモデル情報更新（Ｓ２８）について主に説明する。

【0187】

（物体検出部１５）
図１５は、本発明の第３の実施形態に係る物体検出の動作例を示すフローチャートである。図１５を参照すると、物体検出（Ｓ２５）の詳細な動作例が示されている。本発明の第３の実施形態に係る物体検出においては、本発明の第１の実施形態に係る物体検出と異なり、変換後のモデルに検出エリア画像が入力されてから、変換後のモデルから物体検出結果が出力されるまでに要した処理時間を計測し（Ｓ１５６）、計測した処理時間を変換後のモデルの計測処理時間として取得する。

【0188】

（モデル情報更新部１７）
図１６は、モデル情報更新の動作例を示すフローチャートである。図１６を参照すると、モデル情報更新（Ｓ２８）の詳細な動作例が示されている。モデル情報更新部１７は、記憶装置３に記憶されているモデル構造情報３３を、モデル形状変換（Ｓ１２）によって生成された変換後のモデルの構造情報により更新する（Ｓ２８１）。さらに、モデル情報更新部１７は、記憶装置３に記憶されている計測処理時間３５を、（Ｓ１５６）によって取得された計測処理時間により更新する（Ｓ２８２）。

【0189】

これによって、次に実行されるモデル形状変換（Ｓ１２）において、モデル情報取得部１３１は、記憶装置３からモデル構造情報３３（第２のモデルの構造情報）を取得し（Ｓ１２１）、記憶装置３から重み情報３４を取得し（Ｓ１２２）、記憶装置３から計測処理時間３５（第２のモデルの計測処理時間）を取得する（Ｓ１２３）。また、目標処理時間取得部１３２は、記憶装置３から目標処理時間３６を取得する（Ｓ１２４）。

【0190】

そして、本発明の第１の実施形態と同様に、モデル形状決定部１３３は、取得した目標処理時間３６と、物体の検出時における変換後のモデルへの入力サイズ（第２のモデルへの入力サイズ）と、取得した計測処理時間３５とに基づいて、新たなモデル（第３のモデル）への目標入力サイズを決定する。

【0191】

さらに、モデル形状決定部１３３は、取得したモデル構造情報３３（第２のモデルの構造情報）と、検出エリアのサイズと、新たなモデル（第３のモデル）への目標入力サイズとに基づいて、新たなモデルの形状を決定する。モデル形状変換部１３４は、モデル形状決定部１３３によって決定された新たなモデルの形状に従って、変換後のモデル（第２のモデル）の形状を変換して新たなモデルを生成する。

【0192】

（４－２．効果）
本発明の第４の実施形態によれば、撮像装置２によって連続的に撮像されて得られた複数の画像を処理する場合に、処理対象の画像ごとにモデルの形状変換が行われ得る。例えば、物体検出とは別の処理の実行により、演算リソース（例えば、プロセッサなど）による演算量が限られてしまう場合、または、モデルの実際の処理時間が目標処理時間に達しなかった場合なども想定される。かかる場合において、画像ごとに前フレーム処理時の処理時間およびモデル形状を考慮して新たなモデルの形状の調整を行うことにより、新たなモデルの処理時間を目標処理時間へ近づけることが可能となる。

【0193】

（５．ハードウェア構成例）
続いて、本発明の第１の実施形態に係る物体検出装置１のハードウェア構成例について説明する。なお、他の実施形態に係る物体検出装置のハードウェア構成についても同様に実現され得る。

【0194】

以下では、本発明の第１の実施形態に係る物体検出装置１のハードウェア構成例として、情報処理装置９００のハードウェア構成例について説明する。なお、以下に説明する情報処理装置９００のハードウェア構成例は、物体検出装置１のハードウェア構成の一例に過ぎない。したがって、物体検出装置１のハードウェア構成は、以下に説明する情報処理装置９００のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。

【0195】

図１７は、本発明の実施形態に係る物体検出装置１の例としての情報処理装置９００のハードウェア構成を示す図である。情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３と、ホストバス９０４と、ブリッジ９０５と、外部バス９０６と、インタフェース９０７と、入力装置９０８と、出力装置９０９と、ストレージ装置９１０と、通信装置９１１と、を備える。

【0196】

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバス等から構成されるホストバス９０４により相互に接続されている。

【0197】

ホストバス９０４は、ブリッジ９０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バス等の外部バス９０６に接続されている。なお、必ずしもホストバス９０４、ブリッジ９０５および外部バス９０６を分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

【0198】

入力装置９０８は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路等から構成されている。情報処理装置９００を操作するユーザは、この入力装置９０８を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

【0199】

出力装置９０９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。

【0200】

ストレージ装置９１０は、データ格納用の装置である。ストレージ装置９１０は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置９１０は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）で構成される。このストレージ装置９１０は、ハードディスクを駆動し、ＣＰＵ９０１が実行するプログラムや各種データを格納する。

【0201】

通信装置９１１は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置９１１は、無線通信または有線通信のどちらに対応してもよい。

【0202】

以上、本発明の第１の実施形態に係る物体検出装置１のハードウェア構成例について説明した。

【0203】

（６．まとめ）
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

【0204】

例えば、上記では、画像に基づいて検出される物体が車両である場合を主に想定した。しかし、画像に基づいて検出される物体は、車両に限定されない。例えば、画像に基づいて検出される物体は、車両以外の物体（例えば、船舶、航空機など）であってもよいし、人物またはロボットなどであってもよい。

【符号の説明】

【0205】

１物体検出装置
１１画像取得部
１２エリア設定部
１２１設定エリア取得部
１２２検出エリア設定部
１３モデル生成部
１３１モデル情報取得部
１３２目標処理時間取得部
１３３モデル形状決定部
１３４モデル形状変換部
１４画像生成部
１４１クロッピング処理部
１５物体検出部
１５１リサイズ処理部
１５２推論部
１６結果出力部
１７モデル情報更新部
２撮像装置
３記憶装置
４出力装置

【図1】