(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6956555
(24)【登録日】2021年10月7日
(45)【発行日】2021年11月2日
(54)【発明の名称】画像内の物体を検出する方法及び物体検出システム
(51)【国際特許分類】
G06T 7/00 20170101AFI20211021BHJP
G06N 3/04 20060101ALI20211021BHJP
【FI】
G06T7/00 350C
G06N3/04 154
【請求項の数】18
【外国語出願】
【全頁数】15
(21)【出願番号】特願2017-144325(P2017-144325)
(22)【出願日】2017年7月26日
(65)【公開番号】特開2018-22484(P2018-22484A)
(43)【公開日】2018年2月8日
【審査請求日】2020年4月1日
(31)【優先権主張番号】15/226,088
(32)【優先日】2016年8月2日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】100110423
【弁理士】
【氏名又は名称】曾我 道治
(74)【代理人】
【識別番号】100111648
【弁理士】
【氏名又は名称】梶並 順
(74)【代理人】
【識別番号】100122437
【弁理士】
【氏名又は名称】大宅 一宏
(74)【代理人】
【識別番号】100147566
【弁理士】
【氏名又は名称】上田 俊一
(74)【代理人】
【識別番号】100161171
【弁理士】
【氏名又は名称】吉田 潤一郎
(74)【代理人】
【識別番号】100194939
【弁理士】
【氏名又は名称】別所 公博
(72)【発明者】
【氏名】ミン−ユ・リウ
(72)【発明者】
【氏名】オンセル・チュゼル
(72)【発明者】
【氏名】チェニイ・チェン
(72)【発明者】
【氏名】ジアンション、シャオ
【審査官】
佐藤 実
(56)【参考文献】
【文献】
特開2011−137780(JP,A)
【文献】
Shaoqing Ren et al.,Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,arXiv,2016年01月06日,https://arxiv.org/pdf/1506.01497.pdf
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 3/04
(57)【特許請求の範囲】
【請求項1】
画像内の物体を検出する方法であって、
第1のサブネットワークを用いて前記画像内の前記物体の画像領域上に提案ボックスを生成し、前記提案ボックスによって包含される画像の第1の領域から第1の特徴ベクトルを抽出することと、
前記提案ボックスをx方向及びy方向において拡大したコンテキストボックスに基づいて前記画像の第2の領域を求めることと、
第2のサブネットワークを用いて、前記画像の第2の領域から第2の特徴ベクトルを抽出することと、
前記第1の特徴ベクトル及び前記第2の特徴ベクトルを連結して生成した連結特徴に基づいて、第3のサブネットワークを用いて前記物体のクラスを分類することと、
前記分類の結果に従って前記第1の領域内の物体の前記クラスを求めることと、
を含み、
前記第1のサブネットワーク、前記第2のサブネットワーク、及び前記第3のサブネットワークは、ニューラルネットワークを形成し、
前記方法のステップは、プロセッサによって実行される、
方法。
【請求項2】
前記提案ボックスを拡大することは、前記第1の領域及び前記第2の領域のそれぞれが前記物体を含むように行われ、
前記第1の領域のサイズは、前記第2の領域のサイズよりも小さい、
請求項1に記載の方法。
【請求項3】
前記提案ボックスを拡大することは、固定比に従って行われ、
前記第2のサブネットワークは、深層畳み込みニューラルネットワークである、
請求項1に記載の方法。
【請求項4】
前記第1のサブネットワーク及び前記第2のサブネットワークのうちの少なくとも一方は、深層畳み込みニューラルネットワークであり、
前記第3のサブネットワークは、完全接続ニューラルネットワークである、
請求項1に記載の方法。
【請求項5】
前記第3のサブネットワークは、前記第1の特徴ベクトルと前記第2の特徴ベクトルとの特徴ベクトル連結操作を実行する、
請求項4に記載の方法。
【請求項6】
前記検出された物体及び前記物体の前記クラスをディスプレイデバイス上にレンダリングすること、又は前記検出された物体及び前記物体の前記クラスを送信することを更に含む、
請求項1に記載の方法。
【請求項7】
前記第1の領域は、領域提案ネットワークによって得られる、
請求項1に記載の方法。
【請求項8】
前記領域提案ネットワークは畳み込みニューラルネットワークである、
請求項7に記載の方法。
【請求項9】
前記第2の領域の幅は、前記第1の領域の幅の7倍の大きさである、
請求項1に記載の方法。
【請求項10】
前記第2の領域の高さは、前記第1の領域の高さの7倍の大きさである、
請求項1に記載の方法。
【請求項11】
前記第2の領域の幅は、前記第1の領域の幅の3倍の大きさである、
請求項1に記載の方法。
【請求項12】
前記第2の領域の高さは、前記第1の領域の高さの3倍の大きさである、
請求項1に記載の方法。
【請求項13】
前記第2の領域の中心は、前記第1の領域の中心に一致する、
請求項1に記載の方法。
【請求項14】
前記第1の領域が前記第1のサブネットワークに入力される前に、前記第1の領域は、第1の所定のサイズにサイズ変更される、
請求項1に記載の方法。
【請求項15】
前記第2の領域が前記第2のサブネットワークに入力される前に、前記第2の領域は、第2の所定のサイズにサイズ変更される、
請求項1に記載の方法。
【請求項16】
前記第1の領域は、変形可能部分モデル物体検出器を用いることによって得られる、
請求項1に記載の方法。
【請求項17】
コンピューターに物体検出プロセスを実行させるプログラムを記憶する非一時的コンピューター可読記録媒体であって、
前記物体検出プロセスは、
第1のサブネットワークを用いて画像内の物体の画像領域上に提案ボックスを生成し、前記提案ボックスによって包含される画像の第1の領域から第1の特徴ベクトルを抽出することと、
前記提案ボックスをx方向及びy方向において拡大したコンテキストボックスに基づいて前記画像の第2の領域を求めることであって、前記第1の領域のサイズは前記第2の領域のサイズと異なることと、
第2のサブネットワークを用いて、前記画像の第2の領域から第2の特徴ベクトルを抽出することと、
前記第1の特徴ベクトル及び前記第2の特徴ベクトルを連結して生成した連結特徴に基づいて第3のサブネットワークを用いて前記物体を検出して、前記物体を取り囲むバウンディングボックス及び前記物体のクラスを生成することと、
を含み、
前記第1のサブネットワーク、前記第2のサブネットワーク、及び前記第3のサブネットワークは、ニューラルネットワークを形成する、
非一時的コンピューター可読記録媒体。
【請求項18】
物体検出システムであって、
ヒューマンマシンインターフェースと、
ニューラルネットワークを含む記憶デバイスと、
メモリと、
前記物体検出システムの外部にあるネットワークと接続可能なネットワークインターフェースコントローラーと、
撮像デバイスと接続可能な撮像インターフェースと、
前記ヒューマンマシンインターフェース、前記記憶デバイス、前記メモリ、前記ネットワークインターフェースコントローラー及び前記撮像インターフェースに接続するように構成されたプロセッサと、
を備え、
前記プロセッサは、前記記憶デバイスに記憶された前記ニューラルネットワークを用いて画像内の物体を検出する命令を実行し、
前記ニューラルネットワークは、
第1のサブネットワークを用いて前記画像内の前記物体の画像領域上に提案ボックスを生成し、前記提案ボックスによって包含される前記画像の第1の領域から第1の特徴ベクトルを抽出するステップと、
前記提案ボックスをx方向及びy方向において拡大したコンテキストボックスに基づいて前記画像の第2の領域を求めるステップであって、前記第1の領域のサイズは前記第2の領域のサイズと異なるステップと、
第2のサブネットワークを用いて、前記画像の第2の領域から第2の特徴ベクトルを抽出するステップと、
前記第1の特徴ベクトル及び前記第2の特徴ベクトルを連結して生成した連結特徴に基づいて、第3のサブネットワークを用いて前記物体を検出して、前記物体を取り囲むバウンディングボックス及び前記物体のクラスを生成するステップと、
を実行し、
前記第1のサブネットワーク、前記第2のサブネットワーク、及び前記第3のサブネットワークは、ニューラルネットワークを形成する、
物体検出システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ニューラルネットワークに関し、より具体的には、ニューラルネットワークを用いた物体検出システム及び方法に関する。
【背景技術】
【0002】
物体検出は、コンピュータービジョンにおける最も基本的な問題のうちの1つである。物体検出の目標は、所与の入力画像について、信頼値を有するバウンディングボックスの形態の既定の物体クラスの全てのインスタンスを検出し、そのロケーションを特定することである。物体検出問題は、スキャンウィンドウ技法によって物体分類問題に変換することができる。しかしながら、スキャンウィンドウ技法は、分類ステップが様々なロケーション、縮尺、及び縦横比の全ての可能な画像領域について実行されるので、非効率的である。
【0003】
領域ベース畳み込みニューラルネットワーク(R−CNN)は、2段階アプローチを実行するのに用いられる。この2段階アプローチでは、一組の物体提案が、提案ジェネレーターを用いて対象領域(ROI)として生成され、ROIにおける物体の存在及びクラスが、深層ニューラルネットワークを用いて判断される。しかしながら、R−CNNの検出確度は、幾つかの場合には不十分である。
【0004】
したがって、物体検出性能を更に改善するには、別の手法が必要とされている。
【発明の概要】
【0005】
本発明の幾つかの実施の形態は、領域ベース畳み込みニューラルネットワーク(R−CNN)を、異なるサイズの物体を検出するのに用いることができるという認識に基づいている。しかしながら、画像内の小物体(small objects)を検出すること及び/又は画像内の小物体のクラスラベルを予測することは、小物体を表す画像内のピクセルが少数であることに起因して、シーンの理解には困難な問題である。
【0006】
幾つかの実施の形態は、特定の小物体が、通常、特定のコンテキストに現れているという認識に基づいている。例えば、マウスは、通常、キーボード及びモニターの近くに置かれている。そのコンテキストは、小物体の小解像度を補償するトレーニング及び認識の一部分とすることができる。そのために、幾つかの実施の形態は、物体を含む種々の領域から特徴ベクトルを抽出する。それらの領域は、異なるサイズの領域であり、物体についての異なるコンテキスト情報を提供する。幾つかの実施の形態では、物体は、特徴ベクトルの組み合わせに基づいて検出及び/又は分類される。
【0007】
様々な実施の形態は、種々のサイズの物体を検出するのに用いることができる。1つの実施の形態では、物体のサイズは、物体を形成する画像のピクセルの数によって管理される。例えば、小物体は、より少ない数のピクセルによって表される。そのために、1つの実施の形態は、十分なコンテキスト情報を収集するために、物体を取り囲む領域を少なくとも7倍にサイズ変更する。
【0008】
したがって、1つの実施の形態は、コンピューターに物体検出プロセスを実行させるプログラムを記憶する非一時的コンピューター可読記録媒体を開示する。前記物体検出プロセスは、第1のサブネットワークを用いて、画像の第1の領域から第1の特徴ベクトルを抽出することと、前記第1の領域をサイズ変更することによって前記画像の第2の領域を求めることであって、前記第1の領域のサイズは前記第2の領域のサイズと異なることと、前記第1のサブネットワークを用いて、前記画像の第2の領域から第2の特徴ベクトルを抽出することと、前記第1の特徴ベクトル及び前記第2の特徴ベクトルに基づいて第3のサブネットワークを用いて前記物体を検出して、前記物体を取り囲むバウンディングボックス及び前記物体のクラスを生成することと、を含み、前記第1のサブネットワーク、前記第2のサブネットワーク、及び前記第3のサブネットワークは、ニューラルネットワークを形成する。
【0009】
別の実施の形態は、画像内の物体を検出する方法を開示する。本方法は、第1のサブネットワークを用いて、画像の第1の領域から第1の特徴ベクトルを抽出するステップと、前記第1の領域をサイズ変更することによって前記画像の第2の領域を求めるステップと、第2のサブネットワークを用いて、前記画像の第2の領域から第2の特徴ベクトルを抽出するステップと、前記第1の特徴ベクトル及び前記第2の特徴ベクトルに基づいて、第3のサブネットワークを用いて前記物体のクラスを分類するステップと、前記分類の結果に従って前記第1の領域内の物体の前記クラスを求めるステップと、を含み、前記第1のサブネットワーク、前記第2のサブネットワーク、及び前記第3のサブネットワークは、ニューラルネットワークを形成し、該方法のステップは、プロセッサによって実行される。
【0010】
別の実施の形態は、物体検出システムを開示する。本システムは、ヒューマンマシンインターフェースと、ニューラルネットワークを含む記憶デバイスと、メモリと、該システムの外部にあるネットワークと接続可能なネットワークインターフェースコントローラーと、撮像デバイスと接続可能な撮像インターフェースと、前記ヒューマンマシンインターフェース、前記記憶デバイス、前記メモリ、前記ネットワークインターフェースコントローラー及び前記撮像インターフェースに接続するように構成されたプロセッサと、を備え、前記プロセッサは、前記記憶デバイスに記憶された前記ニューラルネットワークを用いて画像内の物体を検出する命令を実行し、前記ニューラルネットワークは、第1のサブネットワークを用いて、前記画像の第1の領域から第1の特徴ベクトルを抽出するステップと、第2のサブネットワークを用いて前記第1の特徴ベクトルを処理することによって前記画像の第2の領域を求めるステップであって、前記第1の領域のサイズは前記第2の領域のサイズと異なる、ステップと、前記第1のサブネットワークを用いて、前記画像の第2の領域から第2の特徴ベクトルを抽出するステップと、前記第1の特徴ベクトル及び前記第2の特徴ベクトルに基づいて第3のサブネットワークを用いて前記物体を検出して、前記物体を取り囲むバウンディングボックス及び前記物体のクラスを生成するステップと、を実行し、前記第1のサブネットワーク、前記第2のサブネットワーク、及び前記第3のサブネットワークは、ニューラルネットワークを形成する。
【図面の簡単な説明】
【0011】
【
図1】本発明の幾つかの実施形態による画像内の小物体を検出する物体検出システムのブロック図である。
【
図2】画像内の小物体を検出するプロセスのフローチャートである。
【
図3】幾つかの実施形態による画像内の小物体を検出するコンピューターで実施される物体検出方法において用いられるニューラルネットワークのブロック図である。
【
図4A】画像内のターゲット領域画像及びコンテキスト領域画像をサイズ変更する手順を示す図である。
【
図4B】画像において提案ボックス及びコンテキストボックスを時計画像に適用する手順の一例を示す図である。
【
図4C】画像内のマウス画像を検出するプロセスのブロック図である。
【
図5】小物体カテゴリーの統計の一例を示す表である。
【
図6】カテゴリーごとの物体のメジアンバウンディングボックスサイズ及び対応するアップサンプリング比を示す表である。
【
図7】種々のネットワークによって行われた平均精度の結果の一例を示す表である。
【発明を実施するための形態】
【0012】
図1は、本発明の幾つかの実施形態による物体検出システム100のブロック図を示している。物体検出システム100は、キーボード111及びポインティングデバイス/メディア112と接続可能なヒューマンマシンインターフェース(HMI)110と、プロセッサ120と、記憶デバイス130と、メモリ140と、ローカルエリアネットワーク及びインターネットネットワークを含むネットワーク190と接続可能なネットワークインターフェースコントローラー150(NIC)と、ディスプレイインターフェース160と、撮像デバイス175と接続可能な撮像インターフェース170と、印刷デバイス585と接続可能なプリンターインターフェース180とを備える。物体検出システム100は、NIC150に接続されたネットワーク190を介して電子テキスト/撮像文書595を受信することができる。記憶デバイス130は、原画像131、フィルターシステムモジュール132、及びニューラルネットワーク200を含む。ポインティングデバイス/メディア112は、コンピューター可読記録媒体上に記憶されたプログラムを読み出すモジュールを備えることができる。
【0013】
画像内の物体を検出するために、キーボード111、ポインティングデバイス/メディア112を用いて、又は他のコンピューター(図示せず)に接続されたネットワーク190を介して、命令を物体検出システム100に送信することができる。物体検出システム100は、HMI110を用いてこれらの命令を受信し、記憶デバイス130に記憶されたニューラルネットワーク200を用いるプロセッサ120を用いて、画像内の物体を検出する命令を実行する。プロセッサ120は、1つ以上のグラフィックス処理ユニット(GPU)を含む複数のプロセッサであってもよい。フィルターシステムモジュール132は、画像処理を実行して、命令に関連した所与の画像から所定のフォーマットされた画像を得るように動作可能である。フィルターシステムモジュール132によって処理された画像は、物体を検出するニューラルネットワーク200が用いることができる。ニューラルネットワーク200を用いる物体検出プロセスは、以下で説明される。以下の説明では、グリンプス(glimpse:一見)領域は、グリンプスボックス、バウンディングボックス、グリンプスバウンディングボックス又はバウンディングボックス領域と呼ばれ、これは、画像内のターゲット物体の特徴を検出するために画像内のターゲット上に配置される。
【0014】
幾つかの実施形態は、画像内の物体を検出する方法が、第1のサブネットワークを用いて、画像の第1の領域から第1の特徴ベクトルを抽出することと、第1の領域を固定比にサイズ変更することによって画像の第2の領域を求めることであって、第1の領域のサイズは第2の領域のサイズよりも小さいことと、第2のサブネットワークを用いて画像の第2の領域から第2の特徴ベクトルを抽出することと、第1の特徴ベクトル及び第2の特徴ベクトルに基づいて第3のサブネットワークを用いて物体のクラスを分類することと、分類の結果に従って第1の領域内の物体のクラスを求めることとを含み、第1のサブネットワーク、第2のサブネットワーク、及び第3のサブネットワークは、ニューラルネットワークを形成し、当該方法のステップは、プロセッサによって実行されるという認識に基づいている。
【0015】
本発明の幾つかの実施形態は、画像内の小物体を検出すること及び/又は画像内の小物体のクラスラベルを予測することは、小物体を表す画像内のピクセルが少数であることに起因して、シーンの理解には困難な問題であるという認識に基づいている。しかしながら、幾つかの特定の小物体は、通常、特定のコンテキストに現れている。例えば、マウスは、通常、キーボード及びモニターの近くに置かれる。そのコンテキストは、小物体の小解像度を補償するトレーニング及び認識の一部とすることができる。そのために、幾つかの実施形態は、物体を含む種々の領域から特徴ベクトルを抽出する。それらの領域は、異なるサイズの領域であり、物体についての異なるコンテキスト情報を提供する。幾つかの実施形態では、物体は、特徴ベクトルの組み合わせに基づいて検出及び/又は分類される。
【0016】
図2は、画像内の小物体を検出するプロセスのフローチャートを示している。ステップS1において、第1の特徴ベクトルが、第1のサブネットワークを用いることによって画像内の第1の領域から抽出される。ステップS2において、画像内の第2の領域が、サイズ変更モジュールを用いることによって、第1の領域を所定の比を用いてサイズ変更することによって求められる。ステップS3において、第2の特徴ベクトルが、第2のサブネットワークを用いることによって第2の領域から抽出される。ステップS4において、第3のサブネットワークが、第1の特徴ベクトル及び第2の特徴ベクトルに基づいて物体を分類する。画像内の物体の分類結果は、ステップS5において、第3のサブネットワークによって出力される。この場合、第1のサブネットワーク、第2のサブネットワーク、及び第3のサブネットワークは、ニューラルネットワークを形成し、上記ステップは、プロセッサによって実行される。さらに、第1の領域をサイズ変更するステップは、第1の領域及び第2の領域のそれぞれが物体を含むとともに、第1の領域のサイズが第2の領域のサイズよりも小さくなるように実行される。
【0017】
図3は、本発明の幾つかの実施形態によるニューラルネットワーク200を用いた物体検出方法のブロック図を示している。ニューラルネットワーク200は、領域提案ネットワーク(RPN)400及びニューラルネットワーク250を備える。ニューラルネットワーク250は、ContexNet(コンテキストネット)250と呼ばれる場合がある。ContextNet250は、コンテキスト領域モジュール12、サイズ変更モジュール13、サイズ変更モジュール14、第1の深層畳み込みニューラルネットワーク(DCNN)210、第2の深層畳み込みニューラルネットワーク(DCNN)220及び第3のニューラルネットワーク300を備える。第3のニューラルネットワーク300は、連結モジュール310、完全接続ニューラルネットワーク311及びソフトマックス関数モジュール312を備える。第1のDCNN210は、第1のサブネットワークと呼ばれる場合があり、第2のDCNN220は、第2のサブネットワークと呼ばれる場合があり、第3のニューラルネットワーク300は、第3のサブネットワークと呼ばれる場合がある。第1のサブネットワーク及び第2のサブネットワークは、同一の構造を有することができる。
【0018】
命令実行時において、画像10が物体検出システム100に提供されると、領域提案ネットワーク(RPN)400が画像10に適用されて、画像内のターゲット物体画像の領域上に配置される提案ボックス15が生成される。提案ボックス15によって包含される画像10の部分は、ターゲット領域画像と呼ばれる。このターゲット領域画像は、サイズ変更モジュール13を用いて、所定の同一のサイズ及び所定の解像度を有するサイズ変更済み物体画像16にサイズ変更され、サイズ変更済み物体画像16は、ニューラルネットワーク200に送信される。小物体の定義に関して、小物体の閾値サイズが、画像内の物体を小物体カテゴリーに分類するように予め定められる。この閾値サイズは、物体検出のシステム設計に従って選ぶことができ、提案ボックス15を生成するためにRPN400において用いることができる。提案ボックス15は、画像10内のターゲット物体画像のロケーション情報340も提供する。例えば、閾値サイズは、画像内の物体の所定の物理サイズ、画像内の物体のピクセルサイズ又は画像の全体面積に対する物体画像の面積の比に基づいて求めることができる。続いて、コンテキストボックス20が、コンテキスト領域モジュール12を用いて、提案ボックス15をx方向及びy方向(高さの次元及び幅の次元)において7倍に拡大することによって得られる。コンテキストボックス20は、画像10の提案ボックス15上に配置されて、ターゲット領域画像を取り囲む。コンテキストボックス20を配置することによって決まる画像の部分は、コンテキスト領域画像と呼ばれる。この場合、コンテキストボックス20に対応するコンテキスト領域画像は、サイズ変更モジュール13を用いて、所定のサイズを有するサイズ変更済みコンテキスト画像21にサイズ変更され、ContexNet250に送信される。コンテキスト領域画像は、ContexNet250において用いられるデータ構成に従って7倍又は他の値にターゲット領域画像を拡大することによって得ることができる。したがって、提案ボックス15に対応するターゲット領域画像及びコンテキストボックス20に対応するコンテキスト領域画像は、ContexNet250に送信される前にサイズ変更モジュール13及びサイズ変更モジュール14を用いることによってサイズ変更済みターゲット画像16及びサイズ変更済みコンテキスト画像21に変換される。この場合、サイズ変更済みターゲット画像16及びサイズ変更済みコンテキスト画像21は、所定の同一のサイズを有する。例えば、この所定の同一のサイズは、227×227(VGG16の場合は224×224)パッチ(ピクセル)とすることができる。この所定の同一のサイズは、ニューラルネットワークにおいて用いられるデータフォーマットに従って変更することができる。さらに、所定の同一のサイズは、所定のピクセルサイズ又は所定の物理寸法に基づいて規定することができ、ターゲット領域画像及びコンテキスト領域画像の縦横比は、サイズ変更後に維持することができる。
【0019】
ContexNet250は、サイズ変更済みターゲット画像16及びサイズ変更済みコンテキスト画像21をそれぞれ第1のDCNN210及び第2のDCNN220から受信する。ContexNet250内の第1のDCNN210は、サイズ変更済みターゲット画像16から第1の特徴ベクトル230を抽出し、この第1の特徴ベクトル230を第3のニューラルネットワーク300の連結モジュール310に送信する。さらに、ContexNet250内の第2のDCNN220は、サイズ変更済みコンテキスト画像21から第2の特徴ベクトル240を抽出し、この第2の特徴ベクトル240を第3のニューラルネットワーク300の連結モジュール310に送信する。連結モジュール310は、第1の特徴ベクトル230と第2の特徴ベクトル240とを連結し、連結特徴を生成する。連結特徴は、完全接続ニューラルネットワーク(NN)311に送信され、完全接続NN311は、連結特徴から特徴ベクトルを生成し、連結特徴ベクトルをソフトマックス関数モジュール312に送信する。ソフトマックス関数モジュール312は、完全接続NN312からの連結特徴ベクトルに基づいてターゲット物体画像の分類を実行し、分類結果をカテゴリー出力330として出力する。その結果、提案ボックス15に対応するターゲット物体画像の物体検出が、カテゴリー出力330及びロケーション情報340に基づいて得られる。
【0020】
提案ボックス及びコンテキストボックス
図4Aは、画像内のターゲット領域画像及びコンテキスト領域画像をサイズ変更する手順を示している。提案ボックス15が画像10に適用されるとき、ニューラルネットワーク200は、提案ボックス15に対応するターゲット領域画像をクロッピングし、このターゲット領域画像をサイズ変更済みターゲット画像16にサイズ変更し、サイズ変更済みターゲット画像16は、第1のDCNN210に送信される。さらに、コンテキスト領域モジュール12は、提案ボックス15をx方向及びy方向の双方において7倍に拡大して、コンテキストボックス20を得る。また、コンテキスト領域モジュール12は、コンテキストボックス20が提案ボックス15に対応するターゲット領域画像を覆うように、コンテキストボックス20を画像10上に配置する。コンテキスト領域モジュール12は、コンテキストボックス20を画像10上に適用して、コンテキスト領域画像を画定する。ニューラルネットワーク200は、コンテキストボックス20に対応するコンテキスト領域画像をクロッピングし、このコンテキスト領域画像を、サイズ変更済みターゲット画像16のサイズと同一の所定のサイズを有するサイズ変更済みコンテキスト画像21にサイズ変更する。サイズ変更済みコンテキスト画像21は、第2のDCNN220に送信される。第2のDCNN220及び第1のDCNN210は同一の構造を有する。この手順は、小物体の検出を改善する。なぜならば、画像内のより大きなエリアから特徴を抽出することは、より良好な弁別動作をもたらすコンテキスト情報を組み込むことに役立つからである。別の実施形態では、コンテキストボックス20の面積と提案ボックス15の面積との間の所定の比に従って所定の距離だけ、コンテキストボックス20の中心を提案ボックス15の中心からシフトすることができる。
【0021】
幾つかの実施形態では、コンテキストボックス20が提案ボックス15を囲むように、コンテキストボックス20は提案ボックス15よりも大きくなるように設定される。例えば、コンテキストボックス20の側線のそれぞれは、提案ボックス15の側線の7倍以上とすることができる。この場合、提案ボックス15の中心は、コンテキストボックス20の中心と同一になるように配置される。
【0022】
図4Aは、提案ボックス15からのコンテキストボックス20の生成プロセスも示している。コンテキストボックス20のベクトルは、提案ボックス15のベクトルを変換することによって得られる。提案ボックス15のベクトルは、提案ボックス15の位置(x,y)、幅w、及び高さhによって表される。位置(x,y)は、画像10内のxy座標によって規定される提案ボックス15のコーナーのうちの1つの位置を示す。提案ボックス15のベクトルは、(x,y,w,h)によって表され、左下コーナーは、位置(x,y)によって与えられ、左下コーナーの位置(x,y)に対する対角位置は、(x+w,y+h)によって得られる。提案ボックス15の中心(x
c,y
c)は、点(x+w/2,y+h/2)によって表される。提案ボックス15の幅w及び高さhは、コンテキストボックス20を提供するためにc倍に拡大され、コンテキストボックス20のベクトル(x’,y’,w’,h’)は、(x
c−c・w/2,y
c−c・h/2,c・w,c・h)によって表される。
図4Aでは、提案ボックス15及びコンテキストボックス20は、同一の中心(x
c,y
c)を有する。別の実施形態では、コンテキストボックス20の中心は、提案ボックス15の中心から所定の量Δx及びΔyに従ってシフトすることができる。例えば、所定の量Δx及びΔyは、|Δx|≦(c−1)w/2及び|Δy|≦(c−1)h/2の条件を満たすように規定することができる。ここで、提案ボックス15が、コンテキストボックス20を越えて突出することなくコンテキストボックス20に含まれるように、c>1である。
【0023】
図4Bは、提案ボックス及びコンテキストボックスを画像13内の時計画像に適用する手順の一例を示している。拡大された時計画像が、画像13の右上コーナーに示されている。この時計画像は、家具、窓、暖炉等の他の物体よりもはるかに小さいことに留意すべきである。
図4Bでは、提案ボックス17が、画像13内のターゲット画像として時計画像の部分に適用される。その後、提案ボックス17に対応するターゲット画像は、サイズ変更モジュール13を介してサイズ変更済みターゲット画像16に拡大され、第1のDCNN210に送信される。さらに、ニューラルネットワーク200は、提案ボックス17に基づくコンテキストボックス22を提供し、コンテキストボックス22を時計画像に適用する。コンテキストボックス22は、
図4Bに示すように、所定のエリアを用いて提案ボックス17を完全に取り囲むように配置される。コンテキストボックス22に対応する画像領域は、画像13からコンテキスト画像としてクロッピングされ、サイズ変更モジュール14は、このコンテキスト画像をサイズ変更済みコンテキスト画像21にサイズ変更する。サイズ変更済みコンテキスト画像21は、第2のDCNN220に送信される。この場合、コンテキスト画像は、
図4Bに見られるようにターゲット画像を囲んでいる。この手順によって、ニューラルネットワーク200は、画像内の小物体の非常に重要な情報を得ることが可能になり、その結果、小物体の分類の確度はより高くなる。
【0024】
図4Cは、画像内のマウス画像を検出するプロセスのブロック図を示している。画像30が提供されると、領域提案ネットワーク400は、デスク上のマウスの背面を示すターゲット物体画像に対応する提案ボックス31を提供し、提案ボックス31を取り囲むコンテキストボックス32を提供する。サイズ変更モジュール13(図示せず)によってサイズ変更された後、ターゲット物体画像のサイズ変更済みターゲット画像が、第1のDCNN210(畳み込み層として示す)に送信される。第1のDCNN210は、サイズ変更済みターゲット画像からターゲット物体画像の第1の特徴ベクトルを抽出し、この第1の特徴ベクトルを連結モジュール310に送信する。さらに、コンテキストボックス32は、画像30に適用され、ターゲット物体画像を囲むコンテキスト領域画像が求められる。サイズ変更モジュール14(図示せず)によってサイズ変更された後、コンテキスト領域画像のサイズ変更済みコンテキスト画像が、第2のDCNN220(畳み込み層として示す)に送信される。第2のDCNN220は、サイズ変更済みコンテキスト画像からコンテキスト領域画像の第2の特徴ベクトルを抽出し、この第2の特徴ベクトルを連結モジュール310に送信する。連結モジュール310は、第1の特徴ベクトル及び第2の特徴ベクトルを得た後、第1の特徴ベクトルと第2の特徴ベクトルとを連結し、連結特徴を生成する。連結特徴は、完全接続NN311(完全接続層として示す)に送信される。完全接続NN311は、特徴ベクトルを生成し、ソフトマックス関数モジュール312に送信する。ソフトマックス関数モジュール312は、完全接続NN312からの特徴ベクトルに基づいてターゲット物体画像の分類を実行し、分類結果を出力する。この分類結果は、ターゲット物体画像のカテゴリーが
図4Cに示すような「マウス」であることを示す。
【0025】
小物体データセット
画像内の小物体に対応する小さな提案ボックスは、低次元の特徴ベクトルをもたらすので、提案ボックスのサイズは、物体検出システム100における提案ボックスのコンテキスト情報に対応する適切なサイズのベクトルを得るように選ばれる。
【0026】
幾つかの実施形態では、小物体を検出するデータセットは、SUN及びMicrosoft COCOデータセット等の従来のデータセットから所定の小物体を選択することによって構築することができる。例えば、小物体の画像のサブセットが、従来のデータセットから選択され、従来のデータセットにおけるグラウンドトゥルースバウンディングボックスロケーションが、従来のデータセットから大きな物体インスタンスをプルーニングするとともに、小物体を純粋に含む小物体データセットを小さなバウンディングボックスを用いて構成するのに用いられる。小物体データセットは、小物体の統計を計算することによって構築することができる。
【0027】
図5は、小物体カテゴリーの統計の一例を示している。10個の例示的なカテゴリーが
図5に列挙されている。例えば、「マウス」のカテゴリーに関しては、1739個の画像に2137個のインスタンスがあることが分かる。「電話機」、「スイッチ」、「コンセント」、「時計」、「トイレットペーパー」、「ティッシュボックス」、「蛇口」、「皿」、及び「瓶」等の他のカテゴリーも、
図5に列挙されている。
図5は、各カテゴリーに関するメジアン相対面積(median relative area)も示している。このメジアン相対面積は、同じカテゴリーにおける物体インスタンスの画像全体の面積に対するバウンディングボックスの面積の比に対応する。メジアン相対面積は、0.08%〜0.58%の範囲にある。この相対面積は、VGA画像における16×16ピクセル
2〜42×42ピクセル
2のピクセル面積に対応する。このため、この実施形態に従って構築される小物体データセットは、小物体向けにカスタマイズされる。小さなバウンディングボックスのサイズは、上記で説明した小物体データセットに基づいて求めることができる。他方、PASCAL VOCデータセット等の従来のデータセットにおける物体カテゴリーの相対面積のメジアンは、1.38%〜46.40%の範囲にある。したがって、本発明の幾つかの実施形態による小物体データセットによって提供される境界ボックスは、小物体について従来のデータセットによって提供されるバウンディングボックスよりも高い確度のバウンディングボックスを提供することができる。なぜならば、従来のデータセットは、小物体向けにカスタマイズされていない物体カテゴリーに対してはるかに広いバウンディングボックスエリアを提供するからである。
【0028】
小物体データセットを構築する際、所定のサイズよりも小さな物理寸法を有するインスタンスをカテゴリー化することによって、所定の小物体を決定することができる。例えば、所定のサイズは、30センチメートルとすることができる。別の例では、所定のサイズは、物体検出システム設計に従って50センチメートルとすることができる。
【0029】
図6は、カテゴリーごとの物体のメジアンバウンディングボックスサイズ及び対応するアップサンプリング比を示している。この実施形態では、アップサンプリング比は、深層畳み込みニューラルネットワークの入力サイズ(この場合、227×227)に整合するために6〜7となるように選ばれる。
【0030】
ネットワークの構成
幾つかの実施形態では、第1のDCNN210及び第2のDCNN220は、同一の構造を有するように設計され、第1のDCNN210及び第2のDCNN220のそれぞれは、少数の畳み込み層を備える。トレーニングプロセスにおいて、第1のDCNN210及び第2のDCNN220は、ImageNet事前トレーニング済みモデルを用いて初期化される。トレーニングプロセスが継続している間、第1のDCNN210及び第2のDCNN220は、ネットワークの重みを個別に進展させ、重みを共有しない。
【0031】
第1の特徴ベクトル230及び第2の特徴ベクトル240は、AlexNetの最初の6つの層又はVGG16の最初の6つの層から導出される。提案ボックス15に対応するターゲット物体画像及びコンテキストボックス20に対応するコンテキスト領域画像は、AlexNet画像パッチ用に227×227にサイズ変更され、VGG16画像パッチ用に224×224にサイズ変更される。第1のDCNN210及び第2のDCNN220はそれぞれ、4096次元特徴ベクトルを出力し、これらの4096次元特徴ベクトルは、連結モジュール310と、2つの完全接続層を有する完全接続NN311と、ソフトマックス関数モジュール312とを備える第3のニューラルネットワーク300に送信される。第3のニューラルネットワーク300は、第1のDCNN210及び第2のDCNN220から連結特徴を受信した後、連結モジュール310によって生成された連結特徴ベクトルに基づいて、ターゲット物体画像に対してソフトマックス関数モジュール312を用いて、予測された物体カテゴリーラベルを出力する。この場合、事前トレーニングされた重みは、完全接続NN311における所定の数の最後の層には用いられない。代わりに、畳み込み層が用いられる。
【0032】
提案ボックス15は、勾配方向ヒストグラム(HOG)特徴に基づく変形可能部分モデル(DPM)モジュールと、潜在的(latent)サポートベクトルモジュールとによって生成することができる。この場合、DPMモジュールは、カテゴリー固有の物体を検出するように設計され、DPMモジュールのルートパートテンプレート(root and part template)のサイズは、小物体サイズに対応するように調整され、その上、DMPモジュールは、所定の異なるクラスについてトレーニングされる。
【0033】
提案ボックス15は、領域提案ネットワーク(RPN)400によって生成することができる。RPN400によって生成される提案ボックス15は、所定の数のピクセルを有するように設計される。ピクセルの数は、物体検出システム100の構成設計に従って16
2ピクセル
2、40
2ピクセル
2又は100
2ピクセル
2とすることができる。別の例では、物体検出システムのデータセット内の小物体のカテゴリーが、100
2ピクセル
2よりも多くなるように規定されたとき、ピクセルの数は、100
2ピクセル
2よりも多くすることができる。例えば、VGGネットワークのconv4_3層は、小さなアンカーボックスに関連付けられた特徴マップに用いられる。conv4_3層のそれぞれのフィールドは92×92ピクセル
2である。
【0034】
図7は、種々のネットワークによって行われた平均精度結果の一例を示している。この例では、ContextNetは、AlexNetと呼ばれる。第2行(DPM提案(DPM prop.)+AlexNet)は、DPM提案を用いることによって得られ、トレーニング及び試験は、カテゴリーごとに1画像当たり500回実行される。第3行(RPN提案(RPN prop.)+AlexNet)は、幾つかの実施形態に従ってRPNを用いることによって得られ、トレーニングは、1画像当たり2000回実行され、試験は、1画像当たり500回実行される。これらの結果は、AlexNetトレーニングを用いたPRN提案が他のものよりも良好な性能を提供することを示している。
【0035】
物体を分類する際に、物体ボックスとグラウンドトゥルースバウンディングボックスとの間の重複比が0.5よりも大きいか否かの正しい判断が行われる。この重複比は、インターセクションオーバーユニオン(Intersection over Union)(IoU)測定モジュールによって測定される。
【0036】
別の実施形態では、重複比は、物体検出システム100において設計される所定の検出確度に従って変更することができる。
【0037】
幾つかの好ましい実施形態を図示及び説明してきたが、本発明の範囲から逸脱することなく多くの変形及び変更をこれらの実施形態に対して行うことができることが当業者には明らかであろう。本発明の範囲は、添付の特許請求の範囲及びその均等物によって画定される。