(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024138823
(43)【公開日】2024-10-09
(54)【発明の名称】物体検出装置、物体検出方法およびプログラム
(51)【国際特許分類】
G06V 10/22 20220101AFI20241002BHJP
G06T 7/00 20170101ALI20241002BHJP
G06V 10/82 20220101ALI20241002BHJP
H04N 23/60 20230101ALI20241002BHJP
H04N 7/18 20060101ALI20241002BHJP
【FI】
G06V10/22
G06T7/00 350C
G06V10/82
H04N23/60 500
H04N7/18 K
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2023049523
(22)【出願日】2023-03-27
(71)【出願人】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100140958
【弁理士】
【氏名又は名称】伊藤 学
(74)【代理人】
【識別番号】100137888
【弁理士】
【氏名又は名称】大山 夏子
(74)【代理人】
【識別番号】100190942
【弁理士】
【氏名又は名称】風間 竜司
(72)【発明者】
【氏名】増島 悠人
(72)【発明者】
【氏名】渡邉 孝光
【テーマコード(参考)】
5C054
5C122
5L096
【Fターム(参考)】
5C054CC02
5C054EA01
5C054EA07
5C054FC12
5C054FC14
5C054FC15
5C054FD01
5C054FD03
5C054GB01
5C054HA31
5C122EA68
5C122FH05
5C122FH07
5C122FH09
5C122FH11
5C122HA13
5C122HA35
5C122HA48
5C122HA88
5C122HB01
5C122HB10
5L096AA06
5L096BA04
5L096BA18
5L096CA02
5L096DA02
5L096EA03
5L096EA35
5L096FA19
5L096FA64
5L096FA69
5L096HA09
5L096HA11
5L096KA04
(57)【要約】
【課題】物体を高精度に検出しつつ、物体検出に要する処理時間を低減することを可能とする技術が提供されることが望まれる。
【解決手段】物体が検出される検出エリアを設定するエリア設定部と、第1のモデルの構造情報と、前記検出エリアのサイズと、第2のモデルへの目標入力サイズと、に基づいて、前記第1のモデルの形状を変換して前記第2のモデルを生成するモデル生成部と、撮像装置によって撮像されて得られた画像と前記検出エリアとに基づいてクロッピングを行うことにより検出エリア画像を生成する画像生成部と、前記第2のモデルと前記検出エリア画像とに基づいて前記物体の検出結果を得る物体検出部と、を備える、物体検出装置が提供される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
物体が検出される検出エリアを設定するエリア設定部と、
第1のモデルの構造情報と、前記検出エリアのサイズと、第2のモデルへの目標入力サイズと、に基づいて、前記第1のモデルの形状を変換して前記第2のモデルを生成するモデル生成部と、
撮像装置によって撮像されて得られた画像と前記検出エリアとに基づいてクロッピングを行うことにより検出エリア画像を生成する画像生成部と、
前記第2のモデルと前記検出エリア画像とに基づいて前記物体の検出結果を得る物体検出部と、
を備える、物体検出装置。
【請求項2】
前記物体検出部は、前記第2のモデルに対して前記検出エリア画像を入力することに基づいて前記第2のモデルから出力されたデータを前記検出結果として得る、
請求項1に記載の物体検出装置。
【請求項3】
前記モデル生成部は、
前記第2のモデルの目標処理時間と、前記第1のモデルへの入力サイズと、学習時における前記第1のモデルの計測処理時間とに基づいて、前記第2のモデルへの前記目標入力サイズを決定する、
請求項1に記載の物体検出装置。
【請求項4】
前記モデル生成部は、
前記検出エリアのサイズに対する、前記第2のモデルへの前記目標入力サイズの割合を算出し、前記割合と前記検出エリアの縦横長とに基づいて、前記第2のモデルへの入力縦横長を算出し、前記第2のモデルへの入力縦横長と前記第1のモデルの構造情報とに基づいて、前記第1のモデルの形状を変換する、
請求項1に記載の物体検出装置。
【請求項5】
前記モデル生成部は、
前記割合の正の平方根を算出し、前記割合の正の平方根と、前記検出エリアの縦横長との乗算に基づいて、前記第2のモデルへの入力縦横長を算出する、
請求項4に記載の物体検出装置。
【請求項6】
前記第1のモデルは、第1の処理層を含み
前記第2のモデルは、前記第1の処理層が変換された後の第2の処理層を含み、
前記モデル生成部は、前記第2のモデルへの入力縦横長に基づいて、前記検出エリアの全体が前記第2の処理層によって処理されるように前記第1の処理層による処理回数を変更することにより、前記第1のモデルの形状を変換する、
請求項1に記載の物体検出装置。
【請求項7】
前記物体検出部は、前記検出エリア画像の縦横長と前記第2のモデルへの入力縦横長とが一致するように前記検出エリア画像に対するリサイズを行い、前記リサイズを行った後の検出エリア画像を前記第2のモデルに対して入力する、
請求項1に記載の物体検出装置。
【請求項8】
前記検出エリアは、第1の検出エリアおよび第2の検出エリアを含み、
前記モデル生成部は、前記第1のモデルの構造情報と、前記第1の検出エリアのサイズと、前記第2の検出エリアのサイズと、前記第2のモデルへの前記目標入力サイズと、に基づいて、前記第1の検出エリアに対応するモデルと前記第2の検出エリアに対応するモデルとを生成し、
前記画像生成部は、前記画像と前記第1の検出エリアと前記第2の検出エリアとに基づいて、第1の検出エリア画像と第2の検出エリア画像とを生成し、
前記物体検出部は、前記第1の検出エリアに対応するモデルと前記第1の検出エリア画像とに基づいて前記第1の検出エリアに存在する第1の物体を検出するとともに、前記第2の検出エリアに対応するモデルと前記第2の検出エリア画像とに基づいて前記第2の検出エリアに存在する第2の物体を検出する、
請求項1に記載の物体検出装置。
【請求項9】
前記モデル生成部は、
前記物体検出装置の動作モードが第1のモードに設定されている場合には、前記動作モードが第2のモードに設定されている場合よりも、前記目標入力サイズを小さくする、
請求項1に記載の物体検出装置。
【請求項10】
前記物体検出部は、ユーザによって入力された選択情報に基づいて、前記動作モードに前記第1のモードおよび前記第2のモードのいずれかを設定する、
請求項9に記載の物体検出装置。
【請求項11】
前記物体検出部は、
前記第2のモデルに前記検出エリア画像が入力されてから、前記第2のモデルから前記検出結果が出力されるまでに要した時間を前記第2のモデルの計測処理時間として取得し、
前記モデル生成部は、
前記第2のモデルの目標処理時間と、前記物体の検出時における前記第2のモデルへの入力サイズと、前記第2のモデルの前記計測処理時間とに基づいて、第3のモデルへの目標入力サイズを決定し、
前記第2のモデルの構造情報と、前記検出エリアのサイズと、前記第3のモデルへの前記目標入力サイズと、に基づいて、前記第2のモデルの形状を変換して前記第3のモデルを生成する、
請求項1に記載の物体検出装置。
【請求項12】
物体が検出される検出エリアを設定することと、
第1のモデルの構造情報と、前記検出エリアのサイズと、第2のモデルへの目標入力サイズと、に基づいて、前記第1のモデルの形状を変換して前記第2のモデルを生成することと、
撮像装置によって撮像されて得られた画像と前記検出エリアとに基づいてクロッピングを行うことにより検出エリア画像を生成することと、
前記第2のモデルと前記検出エリア画像とに基づいて前記物体の検出結果を得ることと、
を含む、コンピュータにより実行される物体検出方法。
【請求項13】
コンピュータを、
物体が検出される検出エリアを設定するエリア設定部と、
第1のモデルの構造情報と、前記検出エリアのサイズと、第2のモデルへの目標入力サイズと、に基づいて、前記第1のモデルの形状を変換して前記第2のモデルを生成するモデル生成部と、
撮像装置によって撮像されて得られた画像と前記検出エリアとに基づいてクロッピングを行うことにより検出エリア画像を生成する画像生成部と、
前記第2のモデルと前記検出エリア画像とに基づいて前記物体の検出結果を得る物体検出部と、
を備える物体検出装置として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、物体検出装置、物体検出方法およびプログラムに関する。
【背景技術】
【0002】
近年、画像に基づいて物体を検出する技術が知られている。画像に基づく物体検出の精度を向上させる技術として、様々な技術が知られている。
【0003】
例えば、特許文献1には、入力画像を複数の画像に分割してからCNN(Convolutional Neural Network)などの検出モデルへ入力する技術が開示されている。かかる技術によれば、検出モデルの入力サイズよりもサイズの大きい画像を検出モデルに入力する場合であっても、入力画像のアスペクト比を大きく変更せず、かつ、リサイズによる情報の欠落を少なくして高精度な物体検出を行うことが可能である。
【0004】
特許文献2には、撮像されて得られた画像を上下反転した入力画像を検出モデルに入力し、物体らしさを示すスコア値が閾値以上である物体、かつ、所定のサイズ以下であるという条件を満たす物体が存在するか否かを検出モデルによって判定する技術が開示されている。かかる技術では、条件を満たす物体が存在する場合には、条件を満たす物体が存在する領域の拡大が行われ、拡大後の領域に基づく検出モデルによる物体検出が再度行われることによって、高精度な物体検出が行われる。
【0005】
特許文献3には、撮像されて得られた画像の背景と前景とを分離して、前景から所定のサイズ以下の領域を物体候補領域として抽出し、物体候補領域の周辺に対応する複数の入力画像を作成し、それらの入力画像に対して検出モデルによる物体検出を行う技術が開示されている。かかる技術によれば、画像に写る物体のサイズが小さい場合であっても、物体が高精度に検出され得る。
【0006】
特許文献4には、所定のエリアを撮像して得られた画像の一部に対象エリアをあらかじめ設定し、画像の撮像面と、実空間に存在する道路平面との対応関係に基づいて、対象エリア内の二次元座標を三次元座標に変換し、三次元座標を用いて物体検出を行う技術が開示されている。かかる技術によれば、検出されるべき物体のサイズを考慮した対象エリアの拡張が可能となる。そして、対象エリアを拡張した後の検出エリアのみを検出モデルに入力することによって、物体検出の精度の低下が抑制されつつ、少ない演算量により物体検出が行われ得る。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2022-101321号公報
【特許文献2】特開2022-84282号公報
【特許文献3】特開2020-017136号公報
【特許文献4】特開2022-129150号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、物体を高精度に検出しつつ、物体検出に要する処理時間を低減することを可能とする技術が提供されることが望まれる。
【課題を解決するための手段】
【0009】
上記課題を解決するために、本発明のある観点によれば、物体が検出される検出エリアを設定するエリア設定部と、第1のモデルの構造情報と、前記検出エリアのサイズと、第2のモデルへの目標入力サイズと、に基づいて、前記第1のモデルの形状を変換して前記第2のモデルを生成するモデル生成部と、撮像装置によって撮像されて得られた画像と前記検出エリアとに基づいてクロッピングを行うことにより検出エリア画像を生成する画像生成部と、前記第2のモデルと前記検出エリア画像とに基づいて前記物体の検出結果を得る物体検出部と、を備える、物体検出装置が提供される。
【0010】
前記物体検出部は、前記第2のモデルに対して前記検出エリア画像を入力することに基づいて前記第2のモデルから出力されたデータを前記検出結果として得てもよい。
【0011】
前記モデル生成部は、前記第2のモデルの目標処理時間と、前記第1のモデルへの入力サイズと、学習時における前記第1のモデルの計測処理時間とに基づいて、前記第2のモデルへの前記目標入力サイズを決定してもよい。
【0012】
前記モデル生成部は、前記検出エリアのサイズに対する、前記第2のモデルへの前記目標入力サイズの割合を算出し、前記割合と前記検出エリアの縦横長とに基づいて、前記第2のモデルへの入力縦横長を算出し、前記第2のモデルへの入力縦横長と前記第1のモデルの構造情報とに基づいて、前記第1のモデルの形状を変換してもよい。
【0013】
前記モデル生成部は、前記割合の正の平方根を算出し、前記割合の正の平方根と、前記検出エリアの縦横長との乗算に基づいて、前記第2のモデルへの入力縦横長を算出してもよい。
【0014】
前記第1のモデルは、第1の処理層を含み前記第2のモデルは、前記第1の処理層が変換された後の第2の処理層を含み、前記モデル生成部は、前記第2のモデルへの入力縦横長に基づいて、前記検出エリアの全体が前記第2の処理層によって処理されるように前記第1の処理層による処理回数を変更することにより、前記第1のモデルの形状を変換してもよい。
【0015】
前記物体検出部は、前記検出エリア画像の縦横長と前記第2のモデルへの入力縦横長とが一致するように前記検出エリア画像に対するリサイズを行い、前記リサイズを行った後の検出エリア画像を前記第2のモデルに対して入力してもよい。
【0016】
前記検出エリアは、第1の検出エリアおよび第2の検出エリアを含み、前記モデル生成部は、前記第1のモデルの構造情報と、前記第1の検出エリアのサイズと、前記第2の検出エリアのサイズと、前記第2のモデルへの前記目標入力サイズと、に基づいて、前記第1の検出エリアに対応するモデルと前記第2の検出エリアに対応するモデルとを生成し、前記画像生成部は、前記画像と前記第1の検出エリアと前記第2の検出エリアとに基づいて、第1の検出エリア画像と第2の検出エリア画像とを生成し、前記物体検出部は、前記第1の検出エリアに対応するモデルと前記第1の検出エリア画像とに基づいて前記第1の検出エリアに存在する第1の物体を検出するとともに、前記第2の検出エリアに対応するモデルと前記第2の検出エリア画像とに基づいて前記第2の検出エリアに存在する第2の物体を検出してもよい。
【0017】
前記モデル生成部は、前記物体検出装置の動作モードが第1のモードに設定されている場合には、前記動作モードが第2のモードに設定されている場合よりも、前記目標入力サイズを小さくしてもよい。
【0018】
前記物体検出部は、ユーザによって入力された選択情報に基づいて、前記動作モードに前記第1のモードおよび前記第2のモードのいずれかを設定してもよい。
【0019】
前記物体検出部は、前記第2のモデルに前記検出エリア画像が入力されてから、前記第2のモデルから前記検出結果が出力されるまでに要した時間を前記第2のモデルの計測処理時間として取得し、前記モデル生成部は、前記第2のモデルの目標処理時間と、前記物体の検出時における前記第2のモデルへの入力サイズと、前記第2のモデルの前記計測処理時間とに基づいて、第3のモデルへの目標入力サイズを決定し、前記第2のモデルの構造情報と、前記検出エリアのサイズと、前記第3のモデルへの前記目標入力サイズと、に基づいて、前記第2のモデルの形状を変換して前記第3のモデルを生成してもよい。
【0020】
また、上記課題を解決するために本発明の別の観点によれば、物体が検出される検出エリアを設定することと、第1のモデルの構造情報と、前記検出エリアのサイズと、第2のモデルへの目標入力サイズと、に基づいて、前記第1のモデルの形状を変換して前記第2のモデルを生成することと、撮像装置によって撮像されて得られた画像と前記検出エリアとに基づいてクロッピングを行うことにより検出エリア画像を生成することと、前記第2のモデルと前記検出エリア画像とに基づいて前記物体の検出結果を得ることと、を含む、コンピュータにより実行される物体検出方法が提供される。
【0021】
また、上記課題を解決するために本発明の別の観点によれば、コンピュータを、物体が検出される検出エリアを設定するエリア設定部と、第1のモデルの構造情報と、前記検出エリアのサイズと、第2のモデルへの目標入力サイズと、に基づいて、前記第1のモデルの形状を変換して前記第2のモデルを生成するモデル生成部と、撮像装置によって撮像されて得られた画像と前記検出エリアとに基づいてクロッピングを行うことにより検出エリア画像を生成する画像生成部と、前記第2のモデルと前記検出エリア画像とに基づいて前記物体の検出結果を得る物体検出部と、を備える物体検出装置として機能させるプログラムが提供される。
【発明の効果】
【0022】
以上説明したように本発明によれば、物体を高精度に検出しつつ、物体検出に要する処理時間を低減することを可能とする技術が提供される。
【図面の簡単な説明】
【0023】
【
図1】本発明の第1の実施形態に係る物体検出システムの機能構成例を示す図である。
【
図2】本発明の第1の実施形態に係る物体検出装置1の全体的な動作例を示すフローチャートである。
【
図3】本発明の第1の実施形態に係る設定エリアおよび検出エリアの例について説明するための図である。
【
図4】検出エリア設定の動作例を示すフローチャートである。
【
図5】変換前のモデルの例について説明するための図である。
【
図6】モデル形状変換の動作例を示すフローチャートである。
【
図7】変換後のモデルの形状の第1の例について説明するための図である。
【
図8】変換後のモデルの形状の第2の例について説明するための図である。
【
図9】検出エリア画像生成の動作例を示すフローチャートである。
【
図10】本発明の第1の実施形態に係る物体検出の動作例を示すフローチャートである。
【
図11】本発明の第2の実施形態に係る設定エリアおよび検出エリアの例について説明するための図である。
【
図12】本発明の第3の実施形態に係るモデル形状変換の例の例について説明するための図である。
【
図13】本発明の第4の実施形態に係る物体検出システムの機能構成例を示す図である。
【
図14】本発明の第4の実施形態に係る物体検出装置5の全体的な動作例を示すフローチャートである。
【
図15】本発明の第3の実施形態に係る物体検出の動作例を示すフローチャートである。
【
図16】モデル情報更新の動作例を示すフローチャートである。
【
図17】本発明の実施形態に係る物体検出装置1の例としての情報処理装置900のハードウェア構成を示す図である。
【発明を実施するための形態】
【0024】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0025】
(0.概要)
まず、本発明の実施形態の概要について説明する。
【0026】
近年、演算に使用されるリソースが限られるとともに、処理のリアルタイム性が求められるエッジ環境下においては、高精度かつ高速に物体検出を行うことが望まれる。一例として、本発明の実施形態に係る技術は、このようなエッジ環境に適用され得る。以下では、比較例が抱える課題について説明する。
【0027】
(入力画像に対するクロッピングによる課題)
演算に使用されるリソースが限られていることが原因となり、大きな解像度の画像が入力され得ない検出モデルを用いて物体検出が行われる場合があり得る。このような場合には、入力画像に対するクロッピングを行って、入力画像における物体領域の割合を大きくすることによって、入力画像に写る小さい物体の検出精度を向上させる方法が一般的である。
【0028】
しかしながら、特許文献1に記載された技術のように、入力画像を複数の画像に分割してから検出モデルに入力する場合には、分割後の画像に物体が一部しか写らない可能性が高まるため、物体検出の精度が低下してしまうという問題が生じ得る。
【0029】
そこで、本発明の実施形態においては、特許文献4に記載された技術と同様に、画像の撮像面と、実空間に存在する道路平面との対応関係に基づいて、検出エリアが設定される。これにより、物体が一部しか検出エリアに入らなくなってしまう可能性が抑制されることにより、物体検出精度の低下が抑制され得る。
【0030】
(複数回の推論による処理時間の課題)
特許文献1~3に記載された技術のように、最終的な物体検出結果が得られるまでに検出モデルによる複数回の推論が必要な場合、複数回の推論が行われるために大きな処理時間を要してしまうという問題が生じ得る。
【0031】
また、特許文献4に記載された技術では、1枚の入力画像に複数の検出エリアが設定された場合に、入力画像が検出エリアの数と同数の画像に分割され、分割によって生じた複数の画像それぞれに対して、同一の検出モデルによる物体検出が行われることが想定され得る。このとき、同一の検出モデルによる複数の画像それぞれに対する推論が必要となってしまうという問題が生じ得る。
【0032】
例えば、演算に使用されるリソースが限られるとともに、処理のリアルタイム性が求められるエッジ環境下においては、演算量の大きな推論が複数回行われることによって、処理時間が増加してしまい、処理のリアルタイム性が損なわれてしまう可能性がある。そして、処理のリアルタイム性が損なわれることにより、システム運用に問題が生じ得る。
【0033】
(入力画像の解像度とモデルへの入力サイズとの違いによる課題)
特許文献4に記載された技術のように、画像の一部に検出エリアを設定し、設定した検出エリアに対して物体検出を行う場合、検出エリアのサイズは可変になり得る。そのため、入力サイズに制限がある検出モデルによって物体検出が行われる場合には、画像に対する最近傍補間法またはバイリニア補間法などのリサイズ処理と、画像の上下左右に余白を付与するパディング処理とを組み合わせることが考えられる。これにより、検出モデルへの入力サイズに合わせた入力画像が作成され、作成された入力画像が検出モデルに入力されることにより物体検出が行われる。
【0034】
しかしながら、画像に対してリサイズ処理とパディング処理とが行われることにより、画像からの情報の欠落が発生し得る。これによって、画像に基づく物体検出の精度低下およびパディングにより付与された余白に対する演算の無駄が生じ得る。
【0035】
例えば、入力サイズが640×640であり、アスペクト比が1:1である検出モデルに対して、サイズが1920×1080であり、アスペクト比が16:9である画像を入力する場合を想定する。かかる場合には、画像サイズが640×360に縮小されてから画像サイズが640×640になるように画像の上下にパディング処理が行われた後、検出モデルに画像が入力される。
【0036】
この場合、入力画像からサイズ1280×720の情報の欠落と、パディングにより付与されたサイズ640×280の余白部分への無駄な演算が生じ得る。
【0037】
そこで、本明細書においては、これらの課題を解決する技術について主に説明する。より詳細には、本発明の実施形態においては、特許文献4に記載された技術と同様に、検出対象の物体のサイズを考慮した検出エリアの設定が行われ、検出エリアのサイズに基づいてモデルの形状変換が行われる。例えば、モデルの形状変換は、画像を扱う一般的なCNNモデルにおいて用いられる方向(N:バッチサイズ、H:タテサイズ、W:ヨコサイズ、C:チャネル)である4次元情報に基づいて、HとWとの比が画像の縦横比と同一または近くなるように変換される。
【0038】
また、HとWとの面積(=H×W)が一定以下となるようにモデルの形状が変換されることによって、演算量の増加が抑制され得る。
【0039】
特許文献1~3に記載された技術では、入力サイズが固定である検出モデルに対して入力される画像の形状変化が行われる。
【0040】
一方、本発明の実施形態においては、検出モデルの形状を可変にすることにより、形状が可変である入力画像に対しても高精度な物体検出が可能となる。これにより、無駄な領域が検出モデルに入力されてしまうことがなくなり、最適な領域のみが検出モデルに入力されることとなるため、高精度かつ高速な処理時間での物体検出が可能となる。
【0041】
なお、本明細書においては、画像に基づいて検出される物体が車両である場合を主に想定する。しかし、画像に基づいて検出される物体は、車両に限定されない。例えば、画像に基づいて検出される物体は、車両以外の物体(例えば、船舶、航空機など)であってもよいし、人物またはロボットなどであってもよい。
【0042】
以上、本発明の実施形態の概要について説明した。
【0043】
(1.第1の実施形態)
続いて、本発明の第1の実施形態について説明する。
【0044】
(1-1.物体検出システムの構成)
まず、本発明の第1の実施形態に係る物体検出システムの構成例について説明する。
図1は、本発明の第1の実施形態に係る物体検出システムの機能構成例を示す図である。本発明の第1の実施形態に係る物体検出システムは、物体検出装置1と、撮像装置2と、記憶装置3と、出力装置4とを備える。
【0045】
物体検出装置1は、コンピュータによって実現され得る。
図1に示されるように、物体検出装置1は、撮像装置2、記憶装置3および出力装置4それぞれと有線または無線により接続されている。また、物体検出装置1は、画像取得部11と、エリア設定部12と、モデル生成部13と、画像生成部14と、物体検出部15と、結果出力部16とを備える。
【0046】
画像取得部11と、エリア設定部12と、モデル生成部13と、画像生成部14と、物体検出部15と、結果出力部16とは、CPU(Central Processing Unit)などの演算装置を含み、ROM(Read Only Memory)により記憶されているプログラムが演算装置によりRAM(Random Access Memory)に展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
【0047】
あるいは、画像取得部11と、エリア設定部12と、モデル生成部13と、画像生成部14と、物体検出部15と、結果出力部16とは、専用のハードウェアにより構成されていてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。演算装置による演算に必要なデータは、記憶装置3によって適宜記憶される。
【0048】
エリア設定部12は、設定エリア取得部121と、検出エリア設定部122とを備える。モデル生成部13は、モデル情報取得部131と、目標処理時間取得部132と、モデル形状決定部133と、モデル形状変換部134とを備える。画像生成部14は、クロッピング処理部141を備える。物体検出部15は、リサイズ処理部151と、推論部152とを備える。
【0049】
(撮像装置2)
撮像装置2は、カメラによって構成され得る。カメラは、時系列に沿って連続的に撮像を行って複数の画像を得るイメージセンサを含み得る。複数の画像は、「映像」とも換言され得る。また、複数の画像それぞれは、「フレーム」とも換言され得る。例えば、撮像装置2は、道路上方または道路脇などに設置されており、道路平面を撮像することによって複数の画像を連続的に物体検出装置1に出力する。
【0050】
なお、
図1に示された例では、撮像装置2と物体検出装置1とは、別個に存在している。しかし、撮像装置2と物体検出装置1とは、一体化されていてもよい。すなわち、撮像装置2は、物体検出装置1に組み込まれてもよい。
【0051】
(記憶装置3)
記憶装置3は、物体検出装置1を動作させるためのプログラムおよび各種情報を記憶することが可能な記憶装置である。例えば、記憶装置3は、不揮発性メモリによって構成されてよい。例えば、記憶装置3は、設定エリア情報32と、モデル構造情報33と、重み情報34と、計測処理時間35と、目標処理時間36とをあらかじめ記憶し得る。また、物体検出装置1によって撮像装置2から受信された画像31を蓄積し得る。記憶装置3は、物体検出装置1の動作の過程で必要となるデータを一時的に記憶することもできる。
【0052】
なお、
図1に示された例では、記憶装置3と物体検出装置1とは、別個に存在している。しかし、記憶装置3と物体検出装置1とは、一体化されていてもよい。すなわち、記憶装置3は、物体検出装置1に組み込まれてもよい。また、画像31、設定エリア情報32、モデル構造情報33、重み情報34、計測処理時間35および目標処理時間36については後に詳細に説明する。
【0053】
(出力装置4)
出力装置4は、物体検出装置1によって得られた物体検出結果を出力する。例えば、出力装置4は、ディスプレイによって構成されてよい。このとき、出力装置4は、物体検出結果がユーザの視覚によって知覚され得るように物体検出結果を視覚情報として表示してよい。しかし、出力装置4の形態は限定されない。例えば、出力装置4は、スピーカなどを含んでもよい。このとき、出力装置4は、物体検出結果がユーザの聴覚によって知覚され得るように物体検出結果を聴覚情報として出力してよい。
【0054】
なお、
図1に示された例では、出力装置4と物体検出装置1とは、別個に存在している。しかし、出力装置4と物体検出装置1とは、一体化されていてもよい。すなわち、出力装置4は、物体検出装置1に組み込まれてもよい。
【0055】
(物体検出装置1の動作例)
図2は、本発明の第1の実施形態に係る物体検出装置1の全体的な動作例を示すフローチャートである。
【0056】
(エリア設定部12)
図2に示されるように、エリア設定部12は、物体が検出される検出エリアの設定を行う(S11)。より具体的には、エリア設定部12は、記憶装置3から設定エリアを示す設定エリア情報32を取得し、取得した設定エリア情報32に基づいて、検出エリアの設定を行う。ここで、
図3および
図4を参照しながら、本発明の第1の実施形態に係る検出エリア設定の動作例について説明する。
【0057】
図3は、本発明の第1の実施形態に係る設定エリアおよび検出エリアの例について説明するための図である。
図3を参照すると、画像G1が示されている。画像G1には、検出対象の物体の例としての車両が写っており、物体が存在する平面の例として、車両が走行する道路平面が写っている。画像G1の中には、設定エリアR1が示されている。また、設定エリア情報32に基づいて設定された検出エリアD2が示されている。
【0058】
なお、設定エリアR1は、検出対象の物体のサイズが考慮されて設定されたエリアである。ここで、設定エリアR1は、どのようにして設定されてもよい。例えば、設定エリアR1は、ユーザから指定された複数の二次元座標に基づいて設定されてもよい。
【0059】
より具体的には、特許文献4に記載されているように、画像G1の撮像面と物体が存在する実空間における平面との対応関係に基づいて、ユーザから指定された複数の二次元座標が、平面における複数の三次元座標に変換され、当該複数の三次元座標を変更した新たな複数の三次元元座標が計算され、当該対応関係に基づいて当該新たな複数の三次元座標が、撮像面における複数の二次元座標に変換されてもよい。そして、当該複数の二次元座標を結んだ線によって囲まれる領域が設定エリアR1として設定されてもよい。
【0060】
このようにして設定エリアR1が設定されれば、物体の一部が設定エリアR1の外部にはみ出してしまう可能性が低減されるため、物体が正常に検出されない状況が起こりにくくなる。したがって、このようにして設定エリアR1が設定されれば、物体の検出精度の低下が抑制され得る。
【0061】
図4は、検出エリア設定の動作例を示すフローチャートである。
図4を参照すると、検出エリア設定(S11)の詳細な動作例が示されている。
【0062】
まず、設定エリア取得部121は、記憶装置3から設定エリアR1を示す設定エリア情報32を取得する(S112)。そして、検出エリア設定部122は、設定エリア取得部121によって取得された設定エリア情報32に基づいて、物体が検出される検出エリアD2の設定を行う(S114)。
【0063】
なお、検出エリアD2は、どのようにして設定されてもよい。例えば、
図3に示されるように、検出エリア設定部122は、設定エリア取得部121によって取得された設定エリア情報32に基づいて、設定エリアR1を含む領域(例えば、設定エリアR1に外接する矩形領域など)を、検出エリアD2として設定してもよい。
【0064】
(モデル生成部13)
図2に戻って説明を続ける。モデル生成部13は、変換前のモデル(第1のモデル)に対して、モデル形状変換を行うことにより変換後のモデル(第2のモデル)を生成する(S12)。より具体的には、モデル生成部13は、記憶装置3から変換前のモデルの構造を示す情報であるモデル構造情報33を取得し、取得したモデル構造情報33と、検出エリアD2のサイズと、変換後のモデルへの目標入力サイズと、に基づいて、変換前のモデルの形状を変換して変換後のモデルを生成する。ここで、
図5~
図8を参照しながら、モデル形状変換の動作例について説明する。
【0065】
図5は、変換前のモデルの例について説明するための図である。
図5を参照すると、変換前のモデルM1が示されている。変換前のモデルM1は、学習済みのモデルであり、変換前のモデルM1に画像が入力されると、変換前のモデルM1による画像に基づく推論により物体検出結果が変換前のモデルM1から出力される。例えば、変換前のモデルM1から出力される物体検出結果は、画像に写る物体のクラスおよび物体の位置であり得る。
【0066】
変換前のモデルM1は、学習済みのDNN(Deep neural network)であり、処理層L1~Ln(nは、正の整数)を含んで構成される。例えば、処理層L1は、入力層であり、処理層L2~Ln-1それぞれは、中間層であり、処理層Lnは、出力層である。
【0067】
例えば、変換前のモデルM1は、学習済みのDNNの例として畳み込みニューラルネットワーク(CNN:Convolutional neural network)を含んで構成される。例えば、変換前のモデルM1が、畳み込みニューラルネットワークを含んで構成される場合には、変換前のモデルM1の中間層は、畳み込み層、プーリング層および全結合層などを含んで構成される。しかし、変換前のモデルM1の具体的な構造は特に限定されない。
【0068】
記憶装置3には、変換前のモデルM1の構造を示す情報であるモデル構造情報33が記憶されている。ここで、モデル構造情報33は、処理層L1~Lnそれぞれの構造を示す情報であってよい。
【0069】
例えば、処理層L2が畳み込み層である場合には、処理層L2の構造を示す情報は、処理層L2が畳み込み層であること、畳み込みフィルタのサイズ、および、畳み込みフィルタのストライド間隔などを含んでもよい。
【0070】
例えば、処理層L3がプーリング層である場合には、処理層L3の構造を示す情報は、処理層L3がプーリング層であること、プーリング層が算出する代表値(例えば、最大値、平均値など)の種類、および、代表値が算出されるウィンドウのサイズなどを含んでもよい。
【0071】
例えば、処理層Ln-1が全結合層である場合には、処理層Ln-1の構造を示す情報は、処理層Ln-1が全結合層であること、および、全結合層を構成するニューロンの数などを含んでもよい。
【0072】
モデル構造情報33の他、記憶装置3には、変換前のモデルM1を構成する複数のニューロンそれぞれの重み情報34が記憶されている。重み情報34は、変換前のモデルM1の学習時に獲得された情報である。
【0073】
さらに、記憶装置3には、学習時に計測された変換前のモデルM1の処理時間が計測処理時間35として記憶されている。例えば、計測処理時間35は、変換前のモデルM1に画像が入力されてから画像に基づく物体検出結果が変換前のモデルM1から出力されるまでに要する時間の計測値であってもよい。
【0074】
また、記憶装置3には、変換前のモデルM1の形状が変換されて得られる、変換後のモデルの目標処理時間36が記憶されている。例えば、目標処理時間36は、変換後のモデルに画像が入力されてから画像に基づく物体検出結果が変換後のモデルから出力されるまでに要する時間の目標値であってもよい。
【0075】
図6は、モデル形状変換の動作例を示すフローチャートである。
図6を参照すると、モデル形状変換(S12)の詳細な動作例が示されている。
図6に示されるように、モデル情報取得部131は、記憶装置3からモデル構造情報33を取得し(S121)、記憶装置3から重み情報34を取得し(S122)、記憶装置3から計測処理時間35を取得する(S123)。また、目標処理時間取得部132は、記憶装置3から目標処理時間36を取得する(S124)。
【0076】
モデル形状決定部133は、変換後のモデルの形状を決定する(S125)。より具体的に、モデル形状決定部133は、変換前のモデルM1のモデル構造情報33に含まれる、入力層L1の構造を示す情報に基づいて、入力層L1に入力される画像の縦の長さを、変換前のモデルM1への縦入力サイズbase_hとして取得し、入力層L1に入力される画像の横の長さを、変換前のモデルM1への横入力サイズbase_wとして取得する。なお、縦の長さと横の長さとの両方を合わせて「縦横長」とも言う。
【0077】
モデル形状決定部133は、変換前のモデルM1への縦入力サイズbase_hと、変換前のモデルM1への横入力サイズbase_wとを乗算することにより、変換前のモデルM1への入力サイズ(base_h・base_w)を算出する。変換前のモデルM1への入力サイズは、変換前のモデルM1への入力の面積とも換言され得る。
【0078】
ここで、変換後のモデルの目標処理時間36をtarget_timeとし、学習時に計測された変換前のモデルM1の処理時間である計測処理時間35をbase_timeとする。また、変換後のモデルへの目標入力サイズをtarget_areaとする。変換後のモデルへの入力サイズは、変換後のモデルへの入力の面積とも換言され得る。
【0079】
ここで、本発明の実施形態において、モデルへの入力サイズと、モデルの中間層による演算量とが比例するように、モデルの形状が変換される場合を想定する。このとき、入力層および出力層によって演算は行われないとすると、モデルへの入力サイズと、モデルの処理時間とが比例するように、モデルの形状が変換される。
【0080】
したがって、下記の式(1)に示されるように、モデル形状決定部133は、変換前のモデルM1への入力サイズ(base_w・base_h)と、変換後のモデルの目標処理時間target_timeと、変換前のモデルM1の計測処理時間base_timeとに基づいて、変換後のモデルへの目標入力サイズtarget_areaを決定する。
【0081】
target_area
=(base_w・base_h)target_time/base_time
・・・(1)
【0082】
なお、ここでは、変換後のモデルの目標処理時間target_timeがあらかじめ記憶装置3に記憶されている場合を主に想定した。しかし、変換後のモデルへの目標入力サイズtarget_areaがあらかじめ記憶装置3に記憶されていてもよい。このとき、モデル形状決定部133は、記憶装置3に記憶された変換後のモデルへの目標入力サイズtarget_areaを取得してもよい。
【0083】
あるいは、変換前のモデルの目標処理時間base_timeが、変換前のモデルの積和演算回数に置き換えられるとともに、変換後のモデルの目標処理時間target_timeが、変換後のモデルの積和演算回数に置き換えられてもよい。
【0084】
さらに、検出エリアD2の横サイズをarea_wとし、検出エリアD2の縦サイズをarea_hとする。このとき、モデル形状決定部133は、検出エリアD2のサイズを、検出エリアD2の横サイズarea_wと、検出エリアD2の縦サイズarea_hとを乗算することにより、検出エリアD2のサイズ(area_w・area_h)を算出する。検出エリアD2のサイズは、検出エリアD2の面積とも換言され得る。
【0085】
モデル形状決定部133は、検出エリアD2のサイズ(area_w・area_h)に対する、変換後のモデルへの目標入力サイズtarget_areaの割合を算出する。ここで、検出エリアD2のサイズ(area_w・area_h)に対する、変換後のモデルへの目標入力サイズtarget_areaの割合の正の平方根を、rationとする。また、変換後のモデルへの横入力サイズをconv_wとし、変換後のモデルへの縦入力サイズをconv_hとする。
【0086】
このとき、検出エリアD2のサイズ(area_w・area_h)に対する、変換後のモデルへの目標入力サイズtarget_areaの割合は、ration2と表現され得る。モデル形状決定部133は、算出した割合(ration2)と、検出エリアD2のサイズ(area_w・area_h)とに基づいて、変換後のモデルへの横入力サイズconv_wと、変換後のモデルへの縦入力サイズconv_hとを算出する。
【0087】
例えば、モデル形状決定部133は、変換後のモデルへの目標入力サイズtarget_areaと、検出エリアD2の横サイズarea_wと、検出エリアD2の縦サイズarea_hとに基づいて、割合の平方根(ration)を、下記の式(2)に示されるように算出し得る。
【0088】
【0089】
モデル形状決定部133は、下記の式(3)に示されるように、割合の平方根(ration)と、検出エリアD2の横サイズarea_wとの乗算に基づいて、変換後のモデルへの横入力サイズconv_wを算出する。
【0090】
conv_w=area_w・ration ・・・(3)
【0091】
同様に、モデル形状決定部133は、下記の式(4)に示されるように、割合の平方根(ration)と、検出エリアD2の縦サイズarea_hとの乗算に基づいて、変換後のモデルへの縦入力サイズconv_hを算出する。
【0092】
conv_h=area_h・ration ・・・(4)
【0093】
なお、モデルの種類によっては、画像に設定される複数のグリッドセルそれぞれについて物体検出処理が行われる。例えば、グリッドセルは、一辺を所定の長さとする正方形によって構成され得る。一例として、YOLO(You Look Only Onse)が用いられる場合には、グリッドセルは、最大32pixel×32pixelの正方形によって構成される。そのため、検出エリアD2の横サイズarea_w、および、検出エリアD2の縦サイズarea_hのそれぞれは、32の倍数である必要がある。
【0094】
このとき、モデル形状決定部133は、変換後のモデルへの横入力サイズconv_wを、下記の式(5)により算出し得る。
【0095】
conv_w=32[area_w・ration/32] ・・・(5)
【0096】
同様に、モデル形状決定部133は、変換後のモデルへの縦入力サイズconv_hを、下記の式(6)により算出し得る。
【0097】
conv_h=32[area_h・ration/32] ・・・(6)
【0098】
そして、モデル形状決定部133は、変換前のモデルM1のモデル構造情報33と、変換後のモデルへの横入力サイズconv_wと、変換後のモデルへの縦入力サイズconv_hと、に基づいて、変換後のモデルの形状を決定する。ここで、
図7および
図8を参照しながら、変換後のモデルの形状の第1の例および第2の例について説明する。
【0099】
図7は、変換後のモデルの形状の第1の例について説明するための図である。
図7を参照すると、画像G1に設定された設定エリアR11が示されている。そして、設定エリアR11に外接する矩形領域が検出エリアD12として設定されている。モデル形状決定部133は、検出エリアD12に基づいて、変換前のモデルM1(
図5)が変換された後のモデルである、変換後のモデルM12を決定する。
【0100】
例えば、変換前のモデルM1に含まれる処理層L2(第1の処理層)が畳み込み層であり、変換後のモデルM12に含まれる処理層L2(第2の処理層)が畳み込み層であり、変換前のモデルM1に含まれる処理層L2が、変換後のモデルM12に含まれる処理層L2に変換される場合を想定する。
【0101】
このとき、モデル形状決定部133は、変換後のモデルへの縦入力サイズconv_h、および、変換後のモデルへの縦入力サイズconv_hに基づいて、検出エリアD12の全体が、変換後のモデルM12に含まれる処理層L2によって処理されるように、変換前のモデルM1に含まれる処理層L2による処理回数を変更した、変更後のモデルM12に含まれる処理層L2を決定する。
【0102】
例えば、モデル形状決定部133は、変換前のモデルM1に含まれる処理層L2を構成する畳み込みフィルタが検出エリアD12の全体に適用されるように、畳み込みフィルタの移動回数を変更した、変更後のモデルM12に含まれる処理層L2を決定する。
【0103】
例えば、
図7に示されたように、検出エリアD12が画像G1の縦方向に縮小されている場合を想定する。かかる場合には、モデル形状決定部133は、変換後のモデルへの縦入力サイズconv_hと、畳み込みフィルタの縦の長さとに基づいて、畳み込みフィルタが検出エリアD12の縦方向の一端から他端まで移動するために必要な、縦方向への移動回数を算出する。そして、モデル形状決定部133は、算出した回数まで畳み込みフィルタの移動回数を減少させた、変更後のモデルM12に含まれる処理層L2を決定する。
【0104】
例えば、変換前のモデルM1に含まれる処理層L3がプーリング層であり、変換後のモデルM12に含まれる処理層L3がプーリング層であり、変換前のモデルM1に含まれる処理層L3が、変換後のモデルM12に含まれる処理層L3に変換される場合を想定する。
【0105】
このとき、モデル形状決定部133は、処理層L3の直前の処理層L2から出力される特徴マップの縦の長さと、プーリング層によって代表値が算出されるウィンドウの縦の長さとに基づいて、特徴マップの全体が、変換後のモデルM12に含まれる処理層L3によって処理されるように、変換前のモデルM1に含まれる処理層L3による処理回数を変更した、変更後のモデルM12に含まれる処理層L3を決定する。
【0106】
例えば、
図7に示されたように、検出エリアD12が画像G1の縦方向に縮小されている場合を想定する。かかる場合には、モデル形状決定部133は、特徴マップの縦の長さと、ウィンドウの縦の長さとに基づいて、ウィンドウが特徴マップの縦方向の一端から他端まで移動するために必要な、縦方向への移動回数を算出する。そして、モデル形状決定部133は、算出した回数まで移動回数を減少させた、変更後のモデルM12に含まれる処理層L3を決定する。
【0107】
例えば、変換前のモデルM1に含まれる処理層Ln-1が全結合層であり、変換後のモデルM12に含まれる処理層Ln-1が全結合層であり、変換前のモデルM1に含まれる処理層Ln-1が、変換後のモデルM12に含まれる処理層Ln-1に変換される場合を想定する。
【0108】
このとき、モデル形状決定部133は、処理層Ln-1の直前の処理層Ln-2から出力される特徴マップの縦の長さと、全結合層を構成するニューロンの数とに基づいて、特徴マップの全体が、全結合層を構成する各ニューロンと結合するように、変換前のモデルM1に含まれる処理層Ln-1による結合関係を変更した、変更後のモデルM12に含まれる処理層Ln-1を決定する。
【0109】
図8は、変換後のモデルの形状の第2の例について説明するための図である。
図8を参照すると、画像G1に設定された設定エリアR12が示されている。そして、設定エリアR12に外接する矩形領域が検出エリアD13として設定されている。モデル形状決定部133は、検出エリアD13に基づいて、変換前のモデルM1(
図5)が変換された後のモデルである、変換後のモデルM13を決定する。
【0110】
例えば、変換前のモデルM1に含まれる処理層L2(第1の処理層)が畳み込み層であり、変換後のモデルM12に含まれる処理層L2(第2の処理層)が畳み込み層であり、変換前のモデルM1に含まれる処理層L2が、変換後のモデルM12に含まれる処理層L2に変換される場合を想定する。
【0111】
例えば、
図8に示されたように、検出エリアD13が画像G1の横方向に縮小されている場合を想定する。かかる場合には、モデル形状決定部133は、変換後のモデルへの横入力サイズconv_wと、畳み込みフィルタの横の長さとに基づいて、畳み込みフィルタが検出エリアD13の横方向の一端から他端まで移動するために必要な、横方向への移動回数を算出する。そして、モデル形状決定部133は、算出した回数まで畳み込みフィルタの移動回数を減少させた、変更後のモデルM13に含まれる処理層L2を決定する。
【0112】
例えば、変換前のモデルM1に含まれる処理層L3がプーリング層であり、変換後のモデルM13に含まれる処理層L3がプーリング層であり、変換前のモデルM1に含まれる処理層L3が、変換後のモデルM13に含まれる処理層L3に変換される場合を想定する。
【0113】
例えば、
図8に示されたように、検出エリアD13が画像G1の横方向に縮小されている場合を想定する。かかる場合には、モデル形状決定部133は、特徴マップの横の長さと、ウィンドウの横の長さとに基づいて、ウィンドウが特徴マップの横方向の一端から他端まで移動するために必要な、横方向への移動回数を算出する。そして、モデル形状決定部133は、算出した回数まで移動回数を減少させた、変更後のモデルM13に含まれる処理層L3を決定する。
【0114】
例えば、変換前のモデルM1に含まれる処理層Ln-1が全結合層であり、変換後のモデルM13に含まれる処理層Ln-1が全結合層であり、変換前のモデルM1に含まれる処理層Ln-1が、変換後のモデルM13に含まれる処理層Ln-1に変換される場合を想定する。
【0115】
このとき、モデル形状決定部133は、処理層Ln-1の直前の処理層Ln-2から出力される特徴マップの横の長さと、全結合層を構成するニューロンの数とに基づいて、特徴マップの全体が、全結合層を構成する各ニューロンと結合するように、変換前のモデルM1に含まれる処理層Ln-1による結合関係を変更した、変更後のモデルM13に含まれる処理層Ln-1を決定する。
【0116】
図7および
図8を参照しながら、変換後のモデルの形状の第1の例および第2の例について説明した。このようなモデルの形状の変換は、dynamic shapeなどといった公知の技術により、モデルの重み情報およびモデルに含まれるニューロンの数は変更されずに行われ得る。したがって、モデル変換のために再学習が必要とならない。さらに、モデルへの目標入力サイズが一定に保たれるため、モデルの処理時間が一定時間以下に抑制され得る。
【0117】
図6に戻って説明を続ける。モデル形状変換部134は、モデル形状決定部133によって決定された変換後のモデルの形状に従って、変換前のモデルの形状を変換することにより、変換後のモデルを生成する(S126)。
【0118】
(画像取得部11)
図2に戻って説明を続ける。画像取得部11は、撮像装置2によって時系列に沿って連続的に撮像されて得られた複数の画像を取得する(S13)。画像取得部11による画像の取得はどのようなタイミングで行われてもよい。例えば、撮像装置2から画像が出力されるたびに画像取得部11によって逐次的に画像が取得されてもよい。あるいは、撮像装置2から出力された画像が記憶装置3に一定時間分蓄積されてから、画像取得部11によって一定時間分の画像が記憶装置3から取得されてもよい。
【0119】
(画像生成部14)
画像生成部14は、画像取得部11によって取得された画像と検出エリアD2(
図3)とに基づいてクロッピングを行うことにより検出エリア画像を生成する(S14)。ここで、
図9を参照しながら、検出エリア画像生成の動作例について説明する。
【0120】
図9は、検出エリア画像生成の動作例を示すフローチャートである。
図9を参照すると、検出エリア画像生成(S14)の詳細な動作例が示されている。
図9に示されるように、クロッピング処理部141は、画像取得部11によって取得された画像と、検出エリアD2とに基づいて、画像に対して検出エリアのクロッピングを行うことにより検出エリア画像を生成する(S141)。なお、画像に対する検出エリアのクロッピングは、画像から検出エリアを取り除くことを意味し、画像に対する検出エリアのトリミングとも換言され得る。
【0121】
(物体検出部15)
図2に戻って説明を続ける。物体検出部15は、変換後のモデルと検出エリア画像とに基づいて、物体の検出結果を得る(S15)。
図10を参照しながら、物体検出の動作例について説明する。
【0122】
図10は、本発明の第1の実施形態に係る物体検出の動作例を示すフローチャートである。
図10を参照すると、物体検出(S15)の詳細な動作例が示されている。リサイズ処理部151は、変換後のモデルへの入力縦横長と、検出エリア画像の縦横長とが不一致であるか否かを判定する(S151)。
【0123】
リサイズ処理部151は、変換後のモデルへの入力縦横長と、検出エリア画像の縦横長とが一致すると判定した場合には(S151において「NO」)、S153に動作を移行する。一方、リサイズ処理部151は、変換後のモデルへの入力縦横長と、検出エリア画像の縦横長とが不一致であると判定した場合には(S151において「YES」)、変換後のモデルへの入力縦横長と検出エリア画像の縦横長とが同じになるように、検出エリア画像をリサイズして(S152)、S153に動作を移行する。
【0124】
なお、検出エリア画像に対するリサイズはどのようになされてもよい。例えば、検出エリア画像に対するリサイズは、検出エリア画像を引き延ばすことにより行われてもよい。あるいは、検出エリア画像に対するリサイズは、検出エリア画像の外側に対するパディングにより行われてもよい。
【0125】
推論部152は、S141において生成された検出エリア画像、または、リサイズ処理部151によるリサイズ後の検出エリア画像を、変換後のモデルに入力する(S153)。これによって、変換後のモデルによる推論が実行される(S154)。推論部152は、変換後のモデルに検出エリア画像を入力することに基づいて変換後のモデルから出力されたデータを物体検出結果として取得する(S155)。
【0126】
(結果出力部16)
図2に戻って説明を続ける。結果出力部16は、物体検出部15によって得られた物体検出結果を出力装置4に出力する(S16)。より具体的に、出力装置4がディスプレイによって構成されている場合には、結果出力部16は、物体検出部15によって得られた物体検出結果のディスプレイによる表示を制御する。例えば、結果出力部16は、物体検出結果として、画像に写る物体のクラスおよび物体の位置を出力装置4に出力する。あるいは、物体検出結果は、物体追跡などに用いられてもよい。
【0127】
物体検出装置1は、処理を継続する場合には(S17において「NO」)、S13に動作を移行する。一方、物体検出装置1は、処理を終了する場合には(S17において「YES」)、物体検出装置1の処理を終了する。
【0128】
以上、本発明の第1の実施形態に係る物体検出システムの構成例について説明した。
【0129】
(1-2.効果)
本発明の第1の実施形態によれば、検出対象の物体のサイズが考慮された検出エリアが設定され、設定された検出エリアの形状に基づいてモデルの形状が変換される。これにより、モデルに対する無駄な領域の入力を省くことが可能となり、物体検出のために有用な領域のみをモデルに入力することにより、処理時間を抑制しつつ高精度な物体検出が可能となる。
【0130】
以上、本発明の第1の実施形態について説明した。
【0131】
(2.第2の実施形態)
続いて、本発明の第2の実施形態について説明する。特許文献1~3に記載された技術では、複数の検出エリアが存在する場合、複数の検出エリアそれぞれに対して同一のモデルを適用して推論を行う必要がある。このとき、複数の検出エリアそれぞれに対してモデルを適用した場合における物体検出精度は、単一の検出エリアに対してモデルを適用した場合における物体検出精度と同等である。
【0132】
しかし、複数の検出エリアそれぞれに対してモデルを適用した場合には、(単一のエリアの処理時間)×(検出エリア数)に相当する処理時間が掛かってしまう。そのため、演算リソースが限られたエッジ環境では演算リソース不足などの課題が生じ得る。本発明の第2の実施形態では、かかる課題を解決するための技術について主に提案する。
【0133】
(2-1.物体検出システムの構成)
まず、本発明の第2の実施形態に係る物体検出システムの構成例について説明する。本発明の第2の実施形態においても、本発明の第1の実施形態に係る物体検出システムの機能構成例を示す図(
図1)を参照しながら説明する。本発明の第2の実施形態に係る物体検出システムは、物体検出装置1と、撮像装置2と、記憶装置3と、出力装置4とを備える。
【0134】
ただし、本発明の第2の実施形態に係る物体検出装置1においては、検出エリア設定部122が、複数の検出エリアの設定を行う。より具体的には、エリア設定部122は、記憶装置3から設定エリアを示す設定エリア情報32を取得し、取得した設定エリア情報32に基づいて、複数の検出エリアの設定を行う。ここで、
図11を参照しながら、本発明の第2の実施形態に係る検出エリア設定の動作例について説明する。
【0135】
(エリア設定部12)
図11は、本発明の第2の実施形態に係る設定エリアおよび検出エリアの例について説明するための図である。
図11を参照すると、画像G2が示されている。画像G2には、物体が存在する平面の例として、車両が走行する道路平面が写っている。画像G2の中には、設定エリアR21および設定エリアR22が示されている。
【0136】
また、設定エリアR21に基づいて設定された検出エリアD21(第1の検出エリア)が示されており、設定エリアR22に基づいて設定された検出エリアD22(第2の検出エリア)が示されている。検出エリアD21および検出エリアD22それぞれは、本発明の第1の実施形態に係る検出エリアD12と同様に設定されてよい。
【0137】
(モデル生成部13)
モデル生成部13は、記憶装置3から変換前のモデルの構造を示す情報であるモデル構造情報33を取得し、取得したモデル構造情報33と、検出エリアD21のサイズと、検出エリアD22のサイズと、変換後のモデルへの目標入力サイズと、に基づいて、変換前のモデルの形状を変換して、検出エリアD21に対応する変換後のモデルM21、および、検出エリアD22に対応する変換後のモデルM22を生成する。
【0138】
検出エリアD21の横サイズをarea_w1とし、検出エリアD21の縦サイズをarea_h1とする。このとき、モデル形状決定部133は、検出エリアD21のサイズを、検出エリアD21の横サイズarea_w1と、検出エリアD21の縦サイズarea_h1とを乗算することにより、検出エリアD21のサイズ(area_w1・area_h1)を算出する。
【0139】
モデル形状決定部133は、検出エリアD21のサイズ(area_w1・area_h1)に対する、変換後のモデルM21への目標入力サイズtarget_areaの割合を算出する。ここで、検出エリアD21のサイズ(area_w1・area_h1)に対する、変換後のモデルM21への目標入力サイズtarget_areaの割合の正の平方根を、ration1とする。また、変換後のモデルM21への横入力サイズをconv_w1とし、変換後のモデルM21への縦入力サイズをconv_h1とする。
【0140】
このとき、検出エリアD21のサイズ(area_w1・area_h1)に対する、変換後のモデルM21への目標入力サイズtarget_areaの割合は、ration12と表現され得る。モデル形状決定部133は、算出した割合(ration12)と、検出エリアD21のサイズ(area_w1・area_h1)とに基づいて、変換後のモデルM21への横入力サイズconv_w1と、変換後のモデルM21への縦入力サイズconv_h1とを算出する。
【0141】
例えば、モデル形状決定部133は、変換後のモデルM21への目標入力サイズtarget_areaと、検出エリアD21の横サイズarea_w1と、検出エリアD21の縦サイズarea_h1とに基づいて、割合の平方根(ration1)を、下記の式(7)に示されるように算出し得る。
【0142】
【0143】
モデル形状決定部133は、下記の式(8)に示されるように、割合の平方根(ration1)と、検出エリアD21の横サイズarea_w1との乗算に基づいて、変換後のモデルM21への横入力サイズconv_w1を算出する。
【0144】
conv_w1=area_w1・ration1 ・・・(8)
【0145】
同様に、モデル形状決定部133は、下記の式(9)に示されるように、割合の平方根(ration1)と、検出エリアD21の縦サイズarea_h1との乗算に基づいて、変換後のモデルM21への縦入力サイズconv_h1を算出する。
【0146】
conv_h1=area_h1・ration ・・・(9)
【0147】
なお、画像に設定される複数のグリッドセルそれぞれについて物体検出処理が行われる場合には、モデル形状決定部133は、変換後のモデルM21への横入力サイズconv_w1を、下記の式(10)により算出し得る。
【0148】
conv_w1=32[area_w1・ration1/32] ・・・(10)
【0149】
同様に、モデル形状決定部133は、変換後のモデルM21への縦入力サイズconv_h1を、下記の式(11)により算出し得る。
【0150】
conv_h1=32[area_h1・ration1/32] ・・・(11)
【0151】
そして、モデル形状決定部133は、変換前のモデルM1のモデル構造情報33と、変換後のモデルM21への横入力サイズconv_wと、変換後のモデルM21への縦入力サイズconv_hと、に基づいて、変換後のモデルM21の形状を決定する。変換後のモデルM21の形状は、本発明の第1の実施形態に係る変換後のモデルM11の形状と同様に決定されてよい。
【0152】
同様に、検出エリアD22の横サイズをarea_w2とし、検出エリアD22の縦サイズをarea_h2とする。そして、検出エリアD22のサイズ(area_w2・area_h2)に対する、変換後のモデルM22への目標入力サイズtarget_areaの割合の正の平方根を、ration2とする。また、変換後のモデルM22への横入力サイズをconv_w2とし、変換後のモデルM22への縦入力サイズをconv_h2とする。
【0153】
変換後のモデルM22への横入力サイズconv_w2は、下記の式(12)のように算出される。
【0154】
conv_w2=area_w2・ration2 ・・・(12)
【0155】
同様に、変換後のモデルM22への縦入力サイズconv_h2は、下記の式(13)のように算出される。
【0156】
conv_h2=area_h2・ration2 ・・・(13)
【0157】
なお、画像に設定される複数のグリッドセルそれぞれについて物体検出処理が行われる場合には、モデル形状決定部133は、変換後のモデルM22への横入力サイズconv_w2を、下記の式(14)により算出し得る。
【0158】
conv_w2=32[area_w2・ration2/32] ・・・(14)
【0159】
同様に、モデル形状決定部133は、変換後のモデルM22への縦入力サイズconv_h2を、下記の式(15)により算出し得る。
【0160】
conv_h2=32[area_h2・ration2/32] ・・・(15)
【0161】
そして、モデル形状決定部133は、変換前のモデルM1のモデル構造情報33と、変換後のモデルM21への横入力サイズconv_w1と、変換後のモデルM22への縦入力サイズconv_h1と、に基づいて、変換後のモデルM21の形状を決定する。変換後のモデルM21の形状は、本発明の第1の実施形態に係る変換後のモデルM11の形状と同様に決定されてよい。
【0162】
同様に、モデル形状決定部133は、変換前のモデルM1のモデル構造情報33と、変換後のモデルM22への横入力サイズconv_w2と、変換後のモデルM22への縦入力サイズconv_h2と、に基づいて、変換後のモデルM22の形状を決定する。変換後のモデルM22の形状は、本発明の第1の実施形態に係る変換後のモデルM11の形状と同様に決定されてよい。
【0163】
(画像生成部14)
画像生成部14は、画像取得部11によって取得された画像と検出エリアD21とに基づいてクロッピングを行うことにより、変換後のモデルM21に対応する検出エリア画像(第2の検出エリア画像)を生成する。さらに、画像生成部14は、画像取得部11によって取得された画像と検出エリアD22とに基づいてクロッピングを行うことにより、変換後のモデルM22に対応する検出エリア画像(第1の検出エリア画像)を生成する。
【0164】
(物体検出部15)
物体検出部15は、変換後のモデルM21と、変換後のモデルM21に対応する検出エリア画像とに基づいて、変換後のモデルM21に対応する物体(第1の物体)の検出結果を得る。さらに、物体検出部15は、変換後のモデルM22と、変換後のモデルM22に対応する検出エリア画像とに基づいて、変換後のモデルM22に対応する物体(第2の物体)の検出結果を得る。
【0165】
(結果出力部16)
結果出力部16は、物体検出部15によって得られた、変換後のモデルM21に対応する物体検出結果を出力装置4に出力する。さらに、結果出力部16は、物体検出部15によって得られた、変換後のモデルM22に対応する物体検出結果を出力装置4に出力する。
【0166】
以上、本発明の第2の実施形態に係る物体検出システムの構成例について説明した。
【0167】
(2-2.効果)
本発明の第2の実施形態によれば、1つの画像の中に複数の検出エリアが設定された場合であっても、本発明の第1の実施形態と同様に、モデルに対する無駄な領域の入力を省くことが可能となり、物体検出のために有用な領域のみをモデルに入力することにより、処理時間を抑制しつつ高精度な物体検出が可能となる。さらに、検出エリアごとに適用されるモデルの形状が異なり得るため、モデルによる処理時間が一層抑制され得る。
【0168】
以上、本発明の第2の実施形態について説明した。
【0169】
(3.第3の実施形態)
続いて、本発明の第3の実施形態について説明する。特許文献1~3に記載された技術では、検出対象の物体などに応じて物体検出にかかる処理時間を短縮できないために、物体検出のリアルタイム性が損なわれる課題が生じ得る。例えば、想定されていた環境において使用可能な演算リソースよりも実際に使用可能な演算リソースが少ない場合、または、高速移動する物体(例えば、高速道路を走行する車両など)の追跡などに物体検出結果を使用する場合などに、このような課題が生じ得る。本発明の第3の実施形態では、かかる課題を解決するための技術について主に提案する。
【0170】
(3-1.物体検出システムの構成)
まず、本発明の第3の実施形態に係る物体検出システムの構成例について説明する。本発明の第3の実施形態においても、本発明の第1の実施形態に係る物体検出システムの機能構成例を示す図(
図1)を参照しながら説明する。本発明の第3の実施形態に係る物体検出システムは、物体検出装置1と、撮像装置2と、記憶装置3と、出力装置4とを備える。
【0171】
ただし、本発明の第3の実施形態に係る物体検出装置1においては、物体検出装置1の動作モードとして、第1のモードおよび第2のモードのいずれかが設定され得る。なお、典型的には、第1のモードは、高速道路を走行する車両を物体の例として検出するモードである。したがって、以下では、第1のモードを「高速道路撮像モード」とも称する。一方、典型的には、第2のモードは、一般道路を走行する車両を物体の例として検出するモードである。したがって、以下では、第2のモードを「一般道路撮像モード」とも称する。
【0172】
モデル形状決定部133は、図示しない操作部(例えば、ボタンなど)に対してユーザによって入力された選択情報に基づいて、動作モードに高速道路撮像モードおよび一般道路撮像モードのいずれかを設定する。より具体的に、モデル形状決定部133は、選択情報が高速道路撮像モードを示す場合には、動作モードに高速道路撮像モードを設定する。一方、モデル形状決定部133は、選択情報が一般道路撮像モードを示す場合には、動作モードに一般道路撮像モードを設定する。
【0173】
モデル形状決定部133は、動作モードが高速道路撮像モードに設定されている場合には、動作モードが一般道路撮像モードに設定されている場合よりも、目標入力サイズを小さくする。一例として、高速道路撮像モード用の目標処理時間および一般道路撮像モード用の目標処理時間が記憶装置3に記憶されている場合が想定される。例えば、高速道路における物体検出には、より強くリアルタイム性が求められるため、高速道路撮像モード用の目標処理時間は、一般道路撮像モード用の目標処理時間よりも短いことが想定され得る。
【0174】
かかる状況において、目標処理時間取得部132は、動作モードが高速道路撮像モードに設定されている場合には、記憶装置3から高速道路撮像モード用の目標処理時間を取得する。一方、目標処理時間取得部132は、動作モードが一般道路撮像モードに設定されている場合には、記憶装置3から一般道路撮像モード用の目標処理時間を取得する。
【0175】
そして、本発明の第1の実施形態と同様に、モデル形状決定部133は、目標処理時間取得部132によって取得された目標処理時間と、変換前のモデルへの入力サイズと、変換前のモデルの計測処理時間とに基づいて、変換後のモデルへの目標入力サイズを決定する。さらに、本発明の第1の実施形態と同様に、モデル形状決定部133は、変換後のモデルへの目標入力サイズと、モデル構造情報33と、検出エリアのサイズと、に基づいて、変換前のモデルの形状を決定する。
【0176】
なお、高速道路撮像モード用の目標入力サイズおよび一般道路撮像モード用の目標入力サイズが記憶装置3に記憶されている場合も想定される。例えば、高速道路における物体検出には、より強くリアルタイム性が求められるため、高速道路撮像モード用の目標入力サイズは、一般道路撮像モード用の目標入力サイズよりも小さいことが想定され得る。
【0177】
かかる状況において、目標処理時間取得部132は、動作モードが高速道路撮像モードに設定されている場合には、記憶装置3から高速道路撮像モード用の目標入力サイズを取得してもよい。一方、目標処理時間取得部132は、動作モードが一般道路撮像モードに設定されている場合には、記憶装置3から一般道路撮像モード用の目標入力サイズを取得してもよい。ここで、
図12を参照しながら、本発明の第3の実施形態に係るモデル形状変換の例について説明する。
【0178】
(エリア設定部12)
図12は、本発明の第3の実施形態に係るモデル形状変換の例の例について説明するための図である。
図12を参照すると、画像G3が示されている。画像G3には、車両が走行する高速道路が写っている。画像G3の中には、設定エリアR31が示されている。また、設定エリアR31に基づいて設定された検出エリアD31が示されている。
【0179】
かかる状況においては、物体検出装置1の動作モードには高速道路撮像モードが設定されており、高速道路撮像モード用の目標処理時間に基づいて変換後のモデルM31が生成される。高速道路撮像モード用の目標処理時間は、一般道路撮像用モード用の目標処理時間より短い。
【0180】
したがって、モデル形状決定部133は、変換前のモデルに含まれる処理層による処理回数を減少させた、変更後のモデルM31の形状を決定する。そして、モデル形状変換部134は、モデル形状決定部133によって決定された変換後のモデルM31の形状に従って、変換前のモデルの形状を変換することにより、変換後のモデルM31を生成する。
【0181】
(3-2.効果)
本発明の第3の実施形態によれば、検出対象の物体に応じて物体検出にかかる処理時間を短縮することができる。これにより、高速移動する物体(例えば、高速道路を走行する車両など)の追跡のために物体を連続的に検出することが可能となり、物体検出のリアルタイム性が向上することが期待される。
【0182】
以上、本発明の第3の実施形態について説明した。
【0183】
(4.第4の実施形態)
続いて、本発明の第4の実施形態について説明する。運用時において物体検出以外の他の処理によって演算リソース(例えば、プロセッサなど)に負荷が加えられた場合、物体検出に使用できる演算リソースが少なくなる状況が想定される。特許文献1~3に記載された技術では、かかる状況により、変換後のモデルの処理時間が目標処理時間を上回ってしまうという課題が生じ得る。本発明の第3の実施形態では、かかる課題を解決するための技術について主に提案する。
【0184】
(4-1.物体検出システムの構成)
まず、本発明の第4の実施形態に係る物体検出システムの構成例について説明する。
図13は、本発明の第4の実施形態に係る物体検出システムの機能構成例を示す図である。本発明の第4の実施形態に係る物体検出システムは、物体検出装置5と、撮像装置2と、記憶装置3と、出力装置4とを備える。
【0185】
ここで、本発明の第4の実施形態に係る物体検出装置5は、本発明の第1の実施形態に係る物体検出装置1と比較して、モデル情報更新部17を備える点が主に異なる。したがって、モデル情報更新部17について主に説明する。
【0186】
(物体検出装置5の動作例)
図14は、本発明の第4の実施形態に係る物体検出装置5の全体的な動作例を示すフローチャートである。
図14を参照すると、本発明の第4の実施形態に係る物体検出装置5の全体的な動作は、本発明の第1の実施形態に係る物体検出装置1の全体的な動作(
図2)と比較して、物体検出(S25)およびモデル情報更新(S28)が主に異なる。そこで、以下では、物体検出(S25)およびモデル情報更新(S28)について主に説明する。
【0187】
(物体検出部15)
図15は、本発明の第3の実施形態に係る物体検出の動作例を示すフローチャートである。
図15を参照すると、物体検出(S25)の詳細な動作例が示されている。本発明の第3の実施形態に係る物体検出においては、本発明の第1の実施形態に係る物体検出と異なり、変換後のモデルに検出エリア画像が入力されてから、変換後のモデルから物体検出結果が出力されるまでに要した処理時間を計測し(S156)、計測した処理時間を変換後のモデルの計測処理時間として取得する。
【0188】
(モデル情報更新部17)
図16は、モデル情報更新の動作例を示すフローチャートである。
図16を参照すると、モデル情報更新(S28)の詳細な動作例が示されている。モデル情報更新部17は、記憶装置3に記憶されているモデル構造情報33を、モデル形状変換(S12)によって生成された変換後のモデルの構造情報により更新する(S281)。さらに、モデル情報更新部17は、記憶装置3に記憶されている計測処理時間35を、(S156)によって取得された計測処理時間により更新する(S282)。
【0189】
これによって、次に実行されるモデル形状変換(S12)において、モデル情報取得部131は、記憶装置3からモデル構造情報33(第2のモデルの構造情報)を取得し(S121)、記憶装置3から重み情報34を取得し(S122)、記憶装置3から計測処理時間35(第2のモデルの計測処理時間)を取得する(S123)。また、目標処理時間取得部132は、記憶装置3から目標処理時間36を取得する(S124)。
【0190】
そして、本発明の第1の実施形態と同様に、モデル形状決定部133は、取得した目標処理時間36と、物体の検出時における変換後のモデルへの入力サイズ(第2のモデルへの入力サイズ)と、取得した計測処理時間35とに基づいて、新たなモデル(第3のモデル)への目標入力サイズを決定する。
【0191】
さらに、モデル形状決定部133は、取得したモデル構造情報33(第2のモデルの構造情報)と、検出エリアのサイズと、新たなモデル(第3のモデル)への目標入力サイズとに基づいて、新たなモデルの形状を決定する。モデル形状変換部134は、モデル形状決定部133によって決定された新たなモデルの形状に従って、変換後のモデル(第2のモデル)の形状を変換して新たなモデルを生成する。
【0192】
(4-2.効果)
本発明の第4の実施形態によれば、撮像装置2によって連続的に撮像されて得られた複数の画像を処理する場合に、処理対象の画像ごとにモデルの形状変換が行われ得る。例えば、物体検出とは別の処理の実行により、演算リソース(例えば、プロセッサなど)による演算量が限られてしまう場合、または、モデルの実際の処理時間が目標処理時間に達しなかった場合なども想定される。かかる場合において、画像ごとに前フレーム処理時の処理時間およびモデル形状を考慮して新たなモデルの形状の調整を行うことにより、新たなモデルの処理時間を目標処理時間へ近づけることが可能となる。
【0193】
(5.ハードウェア構成例)
続いて、本発明の第1の実施形態に係る物体検出装置1のハードウェア構成例について説明する。なお、他の実施形態に係る物体検出装置のハードウェア構成についても同様に実現され得る。
【0194】
以下では、本発明の第1の実施形態に係る物体検出装置1のハードウェア構成例として、情報処理装置900のハードウェア構成例について説明する。なお、以下に説明する情報処理装置900のハードウェア構成例は、物体検出装置1のハードウェア構成の一例に過ぎない。したがって、物体検出装置1のハードウェア構成は、以下に説明する情報処理装置900のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。
【0195】
図17は、本発明の実施形態に係る物体検出装置1の例としての情報処理装置900のハードウェア構成を示す図である。情報処理装置900は、CPU(Central Processing Unit)901と、ROM(Read Only Memory)902と、RAM(Random Access Memory)903と、ホストバス904と、ブリッジ905と、外部バス906と、インタフェース907と、入力装置908と、出力装置909と、ストレージ装置910と、通信装置911と、を備える。
【0196】
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバス等から構成されるホストバス904により相互に接続されている。
【0197】
ホストバス904は、ブリッジ905を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス906に接続されている。なお、必ずしもホストバス904、ブリッジ905および外部バス906を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
【0198】
入力装置908は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU901に出力する入力制御回路等から構成されている。情報処理装置900を操作するユーザは、この入力装置908を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
【0199】
出力装置909は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。
【0200】
ストレージ装置910は、データ格納用の装置である。ストレージ装置910は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置910は、例えば、HDD(Hard Disk Drive)で構成される。このストレージ装置910は、ハードディスクを駆動し、CPU901が実行するプログラムや各種データを格納する。
【0201】
通信装置911は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置911は、無線通信または有線通信のどちらに対応してもよい。
【0202】
以上、本発明の第1の実施形態に係る物体検出装置1のハードウェア構成例について説明した。
【0203】
(6.まとめ)
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0204】
例えば、上記では、画像に基づいて検出される物体が車両である場合を主に想定した。しかし、画像に基づいて検出される物体は、車両に限定されない。例えば、画像に基づいて検出される物体は、車両以外の物体(例えば、船舶、航空機など)であってもよいし、人物またはロボットなどであってもよい。
【符号の説明】
【0205】
1 物体検出装置
11 画像取得部
12 エリア設定部
121 設定エリア取得部
122 検出エリア設定部
13 モデル生成部
131 モデル情報取得部
132 目標処理時間取得部
133 モデル形状決定部
134 モデル形状変換部
14 画像生成部
141 クロッピング処理部
15 物体検出部
151 リサイズ処理部
152 推論部
16 結果出力部
17 モデル情報更新部
2 撮像装置
3 記憶装置
4 出力装置