(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-29
(45)【発行日】2024-02-06
(54)【発明の名称】物体検出装置、物体検出方法及び端末機器
(51)【国際特許分類】
G06T 7/00 20170101AFI20240130BHJP
【FI】
G06T7/00 350C
(21)【出願番号】P 2020092988
(22)【出願日】2020-05-28
【審査請求日】2023-02-09
(31)【優先権主張番号】201910542145.7
(32)【優先日】2019-06-21
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】康 昊
(72)【発明者】
【氏名】タヌ・ジミン
【審査官】伊知地 和之
(56)【参考文献】
【文献】中国特許出願公開第109299722(CN,A)
【文献】中国特許出願公開第109670517(CN,A)
【文献】中国特許出願公開第109271946(CN,A)
【文献】国際公開第2019/079895(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00 - 3/12
G06N 7/08 - 99/00
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
(57)【特許請求の範囲】
【請求項1】
物体検出装置であって、
入力画像における特徴を抽出する特徴抽出部と、
前記特徴抽出部により抽出された特徴に基づいて、前記入力画像における物体を検出する検出部と、を含み、
前記特徴抽出部は、少なくとも1つのシャッフル部を含み、
前記シャッフル部は、複数の畳み込み層を含み、
前記複数の畳み込み層の各畳み込み層の入力チャネルの数と出力チャネルの数とは同一であり、
前記複数の畳み込み層は、少なくとも1つの深さ方向分離可能な畳み込み層を含
み、
前記少なくとも1つのシャッフル部は、少なくとも1つの第1シャッフル部及び/又は少なくとも1つの第2シャッフル部を含み、
前記第1シャッフル部は、ストライドが1のシャッフル部であり、
前記第2シャッフル部は、ストライドが2のシャッフル部である、装置。
【請求項2】
前記特徴抽出部は、
前記入力画像を処理する第1畳み込み層と、
前記第1畳み込み層により出力された特徴に対してプーリング処理を行い、プーリング処理された特徴を前記第1シャッフル部又は前記第2シャッフル部に入力するプーリング層と、を含む、請求項
1に記載の装置。
【請求項3】
前記第1シャッフル部は、
前記第1シャッフル部に入力された特徴を第1部分特徴と第2部分特徴とに分割する第1チャネル分割モジュールと、
前記第2部分特徴を処理する第2畳み込み層と、
前記第2畳み込み層により処理された第2部分特徴を処理する第1深さ方向分離可能な畳み込み層と、
前記第1深さ方向分離可能な畳み込み層により処理された第2部分特徴を処理する第3畳み込み層と、
前記第1部分特徴と前記第3畳み込み層により処理された第2部分特徴とを併合する第1併合モジュールと、
併合された前記第1部分特徴及び前記第2部分特徴に対してシャッフル処理を行う第1シャッフルモジュールと、を含む、請求項
1又は2に記載の装置。
【請求項4】
前記第2シャッフル部に入力された特徴は、第3部分特徴及び第4部分特徴を含み、
前記第2シャッフル部は、
前記第3部分特徴を処理する第2深さ方向分離可能な畳み込み層と、
前記第2深さ方向分離可能な畳み込み層により処理された第3部分特徴を処理する第4畳み込み層と、
前記第4部分特徴を処理する第5畳み込み層と、
前記第5畳み込み層により処理された第4部分特徴を処理する第3深さ方向分離可能な畳み込み層と、
前記第3深さ方向分離可能な畳み込み層により処理された第4部分特徴を処理する第6畳み込み層と、
前記第4畳み込み層により処理された第3部分特徴と前記第6畳み込み層により処理された第4部分特徴とを併合する第2併合モジュールと、
併合された前記第3部分特徴及び前記第4部分特徴に対してシャッフル処理を行う第2シャッフルモジュールと、を含む、請求項
1乃至3の何れかに記載の装置。
【請求項5】
前記少なくとも1つのシャッフル部は、複数の
前記第1シャッフル部及び複数の
前記第2シャッフル部を含み、
複数の
前記第1シャッフル部及
び複数の
前記第2シャッフル部は、所定の規則に従って並び替えられる、請求項
1乃至4の何れかに記載の装置。
【請求項6】
前記検出部は、YOLOネットワークを含む、請求項1
乃至5の何れかに記載の装置。
【請求項7】
請求項1乃至
6の何れかに記載の装置を含む、端末機器。
【請求項8】
物体検出方法であって、
特徴抽出部が入力画像における特徴を抽出するステップと、
検出部が前記特徴抽出部により抽出された特徴に基づいて、前記入力画像における物体を検出するステップと、を含み、
前記特徴抽出部は、少なくとも1つのシャッフル部を含み、
前記シャッフル部は、複数の畳み込み層を含み、
前記複数の畳み込み層の各畳み込み層の入力チャネルの数と出力チャネルの数とは同一であり、
前記複数の畳み込み層は、少なくとも1つの深さ方向分離可能な畳み込み層を含
み、
前記少なくとも1つのシャッフル部は、少なくとも1つの第1シャッフル部及び/又は少なくとも1つの第2シャッフル部を含み、
前記第1シャッフル部は、ストライドが1のシャッフル部であり、
前記第2シャッフル部は、ストライドが2のシャッフル部である、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報技術分野に関する。
【背景技術】
【0002】
近年、深層学習(ディープラーニング)により、コンピュータービジョンの分野の研究は大きな進歩を遂げている。深層学習とは、階層型のニューラルネットワークに様々な機械学習アルゴリズムを適用して画像やテキストなどの様々な問題を解決するためのアルゴリズムの集合を意味する。特徴学習は、深層学習のコアとして、階層型のニューラルネットワークを通じて階層型の特徴情報を取得することで、特徴を手動で設計する必要があるという従来の重要な問題を解決することを目的とする。
【0003】
現在、普及している深層学習方法は幾つかがあり、例えばYOLOネットワークは、物体の認識と検出のための有望な深層学習方法である。例えば、darknet53をバックボーンネットワーク構造として有するYOLO-Darknet53ネットワークは、マルチスケールの物体検出と優れた分類器を有するため、シングルステージ(single stage)に比べて、処理速度が速く、認識精度が高い。ここで、darknet53構造は、特徴の抽出のために用いられる。
【0004】
なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、例えばYOLO-Darknet53ネットワークなどの認識精度の高いニューラルネットワークは、広くて深い層を有するため、プロセッサへのメモリと処理速度の要件が高い。例えば、YOLO-Darknet53ネットワークでは、1秒あたりに実行される演算の回数(FLOPs:FLoating point Operations Per Second)が739.8Mであり、中央処理装置(CPU:Central Processing Unit)での処理速度が1フレームあたり1375.8msであり、グラフィック処理装置(GPU:Graphics Processing Unit)での処理速度が1フレームあたり37.0msであることが要求されている。例えば車載デバイスなどの端末機器では、約100MのFLOPsにしか対応できない。このため、現在の認識精度の高いニューラルネットワークは、モバイルデバイスに適用できない場合がある。
【0006】
本発明の実施例は、物体検出装置、物体検出方法及び端末機器を提供する。特徴抽出のためのシャッフル部における全ての畳み込み層の入力チャネルと出力チャネルの数が同一であるため、特徴の拡張及び圧縮を行う必要がなく、プロセッサへのメモリと性能の要件を軽減し、処理速度を向上させることができる。また、該シャッフル部が少なくとも1つの深さ方向分離可能な畳み込み層を有するため、FLOPsなどのプロセッサへのメモリと性能の要件を大幅に軽減すると共に、YOLO-Darknet53などのネットワークに比べて、認識精度を略維持しながらプロセッサへの要件を大幅に軽減することができる。従って、軽量であり、処理速度が速く、且つ認識精度が高い検出方法を提供できるため、メモリ及び性能が限られた端末機器に適用することができ、優れた認識効果を得ることができる。
【課題を解決するための手段】
【0007】
本発明の実施例の第1態様では、物体検出装置であって、入力画像における特徴を抽出する特徴抽出部と、前記特徴抽出部により抽出された特徴に基づいて、前記入力画像における物体を検出する検出部と、を含み、前記特徴抽出部は、少なくとも1つのシャッフル部を含み、前記シャッフル部は、複数の畳み込み層を含み、前記複数の畳み込み層の各畳み込み層の入力チャネルの数と出力チャネルの数とは同一であり、前記複数の畳み込み層は、少なくとも1つの深さ方向分離可能な畳み込み層を含む、装置を提供する。
【0008】
本発明の実施例の第2態様では、本発明の実施例の第1態様に記載の装置を含む、端末機器を提供する。
【0009】
本発明の実施例の第3態様では、物体検出方法であって、特徴抽出部が入力画像における特徴を抽出するステップ、検出部が前記特徴抽出部により抽出された特徴に基づいて、前記入力画像における物体を検出するステップと、を含み、前記特徴抽出部は、少なくとも1つのシャッフル部を含み、前記シャッフル部は、複数の畳み込み層を含み、前記複数の畳み込み層の各畳み込み層の入力チャネルの数と出力チャネルの数とは同一であり、前記複数の畳み込み層は、少なくとも1つの深さ方向分離可能な畳み込み層を含む、方法を提供する。
【0010】
本発明の有利な効果は以下の通りである。特徴抽出のためのシャッフル部における全ての畳み込み層の入力チャネルと出力チャネルの数が同一であるため、特徴の拡張及び圧縮を行う必要がなく、プロセッサへのメモリと性能の要件を軽減し、処理速度を向上させることができる。また、該シャッフル部が少なくとも1つの深さ方向分離可能な畳み込み層を有するため、FLOPsなどのプロセッサへのメモリと性能の要件を大幅に軽減すると共に、YOLO-Darknet53などのネットワークに比べて、認識精度を略維持しながらプロセッサへの要件を大幅に軽減することができる。従って、軽量であり、処理速度が速く、且つ認識精度が高い検出方法を提供できるため、メモリ及び性能が限られた端末機器に適用することができ、優れた認識効果を得ることができる。
【0011】
本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変、修正、及び均等的なものが含まれる。
【0012】
ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。
【0013】
なお、用語「含む/有する」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。
【図面の簡単な説明】
【0014】
ここで含まれる図面は、本発明の実施例を理解させるためのものであり、本明細書の一部を構成し、本発明の実施例を例示するためのものであり、文言の記載と合わせて本発明の原理を説明する。なお、ここに説明される図面は、単なる本発明の実施例を説明するためのものであり、当業者にとって、これらの図面に基づいて他の図面を容易に得ることができる。
【
図1】本発明の実施例1に係る物体検出装置を示す図である。
【
図2】本発明の実施例1に係る物体検出装置10による入力画像の検出結果を示す図である。
【
図3】本発明の実施例1に係る特徴抽出部100を示す図である。
【
図4】本発明の実施例1に係る第1シャッフル部103を示す図である。
【
図5】本発明の実施例1に係る第2シャッフル部104を示す図である。
【
図6】本発明の実施例2に係る端末機器を示す図である。
【
図7】本発明の実施例2に係る端末機器のシステム構成を示すブロック図である。
【
図8】本発明の実施例3に係る物体検出方法を示す図である。
【発明を実施するための形態】
【0015】
本発明の上記及びその他の特徴は、図面及び下記の説明により明確になる。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての変更、変形及び均等なものを含む。
【0016】
<実施例1>
本発明の実施例は物体検出装置を提供する。
図1は本発明の実施例1に係る物体検出装置を示す図である。
【0017】
図1に示すように、物体検出装置10は、特徴抽出部100及び検出部200を含む。
【0018】
特徴抽出部100は、入力画像における特徴を抽出する。
【0019】
検出部200は、特徴抽出部100により抽出された特徴に基づいて、該入力画像における物体を検出する。
【0020】
ここで、特徴抽出部100は、少なくとも1つのシャッフル部(shuffle unit)を含み、シャッフル部は、複数の畳み込み層を含み、該複数の畳み込み層の各畳み込み層の入力チャネルの数と出力チャネルの数とは同一であり、該複数の畳み込み層は、少なくとも1つの深さ方向分離可能な畳み込み層を含む。
【0021】
図2は本発明の実施例1に係る物体検出装置10による入力画像の検出結果を示す図である。
図2に示すように、物体検出装置10は、画像における各物体を正確に検出することができる。
【0022】
本実施例によれば、特徴抽出のためのシャッフル部における全ての畳み込み層の入力チャネルと出力チャネルの数が同一であるため、特徴の拡張及び圧縮を行う必要がなく、プロセッサへのメモリと性能の要件を軽減し、処理速度を向上させることができる。また、該シャッフル部が少なくとも1つの深さ方向分離可能な畳み込み層を有するため、FLOPsなどのプロセッサへのメモリと性能の要件を大幅に軽減すると共に、YOLO-Darknet53などのネットワークに比べて、認識精度を略維持しながらプロセッサへの要件を大幅に軽減することができる。従って、軽量であり、処理速度が速く、且つ認識精度が高い検出方法を提供できるため、メモリ及び性能が限られた端末機器に適用することができ、優れた認識効果を得ることができる。
【0023】
本実施例では、該入力画像は、リアルタイムで取得された画像であってもよいし、予め取得された画像であってもよい。例えば、該入力画像は、車載デバイスにより撮影されたビデオ画像であり、各入力画像は該ビデオ画像の1つのフレームに対応する。
【0024】
本実施例では、特徴抽出部100は入力画像における特徴を抽出する。特徴抽出部100は、少なくとも1つのシャッフル部を含み、シャッフル部は、複数の畳み込み層を含み、該複数の畳み込み層の各畳み込み層の入力チャネルの数と出力チャネルの数とは同一であり、該複数の畳み込み層は、少なくとも1つの深さ方向分離可能な畳み込み(depth-wise separable convolution)層を含む。
【0025】
本実施例では、該少なくとも1つのシャッフル部は、少なくとも1つの第1シャッフル部及び/又は少なくとも1つの第2シャッフル部を含んでもよい。ここで、第1シャッフル部は、ストライド(stride)が1のシャッフル部であり、第2シャッフル部は、ストライドが2のシャッフル部である。
【0026】
以下は、本実施例の特徴抽出部100の構成を例示的に説明する。
【0027】
図3は本発明の実施例1に係る特徴抽出部100を示す図である。
図3に示すように、特徴抽出部100は、第1畳み込み層101、プーリング層102、複数の第1シャッフル部103、及び複数の第2シャッフル部104を含む。
【0028】
第1畳み込み層101は、入力画像を処理する。
【0029】
プーリング層102は、第1畳み込み層101により出力された特徴に対してプーリング処理を行う。
【0030】
本実施例では、第1畳み込み装置及びプーリング層102は、従来の構造を用いてもよい。
【0031】
本実施例では、第1シャッフル部103及び第2シャッフル部104の数及び並び替えの順序は、実際の需要に応じて設定されてもよい。言い換えれば、実際の需要に応じて所定の規則を決定し、該所定の規則に従って第1シャッフル部103及び第2シャッフル部104の数及び並び替えの順序を決定してもよい。
【0032】
図3に示すように、「タイプ」(type)は特徴抽出部の各層のタイプを表し、「チャネルパラメータ」(filters)はチャネルの大きさを表し、「サイズ」(size)は各層により処理される特徴マップのサイズを表し、「ストライド」(stride)は各層のストライドを表し、「出力」(output)は出力された特徴のサイズを表す。
【0033】
本実施例では、各層のチャネルパラメータ、サイズ、ストライド及び出力特徴のサイズは、実際の需要に応じて決定されてもよい。
【0034】
また、
図3に示すように、数字と「×」の組み合わせは該層の繰り返し配置の数を表し、例えば、「7×」は対応する層が7個繰り返し配置されていることを表し、「3×」は対応する層が3個繰り返し配置されていることを表す。
【0035】
図3に示すように、第1畳み込み層101は入力画像に対して特徴抽出を行い、抽出された特徴はプーリング層102に入力されてプーリング処理が行われ、プーリング処理された特徴は、順序に従って並び替えられた複数の第1シャッフル部103及び複数の第2シャッフル部104に入力されてシャッフル処理が行われ、抽出された特徴は、検出を行うように検出部200に出力される。
【0036】
以下は、第1シャッフル部103及び第2シャッフル部104の構成をそれぞれ例示的に説明する。
【0037】
図4は本発明の実施例1に係る第1シャッフル部103を示す図である。
図4に示すように、第1シャッフル部103は、第1チャネル分割モジュール401、第2畳み込み層402、第1深さ方向分離可能な畳み込み層403、第3畳み込み層404、第1併合モジュール405、及び第1シャッフルモジュール406を含む。
【0038】
第1チャネル分割モジュール401は、第1シャッフル部103に入力された特徴を第1部分特徴と第2部分特徴とに分割する。
【0039】
第2畳み込み層402は、第2部分特徴を処理する。
【0040】
第1深さ方向分離可能な畳み込み層403は、第2畳み込み層402により処理された第2部分特徴を処理する。
【0041】
第3畳み込み層404は、第1深さ方向分離可能な畳み込み層403により処理された第2部分特徴を処理する。
【0042】
第1併合モジュール405は、第1部分特徴と第3畳み込み層404により処理された第2部分特徴とを併合する。
【0043】
第1シャッフルモジュール406は、併合された第1部分特徴及び第2部分特徴に対してシャッフル処理を行う。
【0044】
図4に示すように、入力された特徴は、第1チャネル分割モジュール401により2つの部分、即ち第1部分特徴と第2部分特徴に分割される。第1部分特徴は、処理が何れも行われず、左の分岐路を介して第1併合モジュール405に入力される。第2部分特徴は、右の分岐路に入り、まず1×1の第2畳み込み層402に入力される。第2畳み込み層402により出力された特徴は、正規化と活性化の処理が行われた後に、3×3の第1深さ方向分離可能な畳み込み層403に入力される。第1深さ方向分離可能な畳み込み層403により取得された特徴は、正規化が行われた後に、1×1の第3畳み込み層404に入力される。第3畳み込み層404により出力された特徴は、正規化と活性化の処理が行われた後に、第1併合モジュール405に出力される。第1併合モジュール405は、第1部分特徴と第2部分特徴とを併合し、併合された特徴を第1シャッフルモジュール406に入力する。第1シャッフルモジュール406は、併合された第1部分特徴及び第2部分特徴に対してシャッフル処理を行って出力する。
【0045】
図5は本発明の実施例1に係る第2シャッフル部104を示す図である。
図5に示すように、入力特徴は、第3部分特徴及び第4部分特徴を含み、第2シャッフル部104は、第2深さ方向分離可能な畳み込み層501、第4畳み込み層502、第5畳み込み層503、第3深さ方向分離可能な畳み込み層504、第6畳み込み層505、第2併合モジュール506、及び第2シャッフルモジュール507を含む。
【0046】
第2深さ方向分離可能な畳み込み層501は、第3部分特徴を処理する。
【0047】
第4畳み込み層502は、第2深さ方向分離可能な畳み込み層501により処理された第3部分特徴を処理する。
【0048】
第5畳み込み層503は、第4部分特徴を処理する。
【0049】
第3深さ方向分離可能な畳み込み層504は、第5畳み込み層503により処理された第4部分特徴を処理する。
【0050】
第6畳み込み層505は、第3深さ方向分離可能な畳み込み層504により処理された第4部分特徴を処理する。
【0051】
第2併合モジュール506は、第4畳み込み層502により処理された第3部分特徴と第6畳み込み層505により処理された第4部分特徴とを併合する。
【0052】
第2シャッフルモジュール507は、併合された第3部分特徴及び第4部分特徴に対してシャッフル処理を行う。
【0053】
図5に示すように、入力された第3部分特徴は、左の分岐路に入り、まず3×3の第2深さ方向分離可能な畳み込み層501に入力される。第2深さ方向分離可能な畳み込み層501により出力された特徴は、正規化が行われた後に、1×1の第4畳み込み層502に入力される。第4畳み込み層502により出力された特徴は、正規化と活性化が行われた後に、第2併合モジュール506に出力される。入力された第4部分特徴は、右の分岐路に入り、まず1×1の第5畳み込み層503に入力される。第5畳み込み層503により出力された特徴は、正規化と活性化が行われた後に、3×3の第3深さ方向分離可能な畳み込み層504に入力される。第3深さ方向分離可能な畳み込み層504により出力された特徴は、正規化が行われた後に、1×1の第6畳み込み層505に入力される。第6畳み込み層505により出力された特徴は、正規化と活性化が行われた後に、第2併合モジュール506に出力される。第2併合モジュール506は、第3部分特徴と第4部分特徴とを併合し、併合された特徴を第2シャッフルモジュール507に入力する。第2シャッフルモジュール507は、併合された第3部分特徴及び第4部分特徴に対してシャッフル処理を行って出力する。
【0054】
本実施例では、第1畳み込み層101、第2畳み込み層402、第3畳み込み層404、第4畳み込み層502、第5畳み込み層503及び第6畳み込み層505は、通常の畳み込み層であってもよい。第1深さ方向分離可能な畳み込み層403、第2深さ方向分離可能な畳み込み層501及び第3深さ方向分離可能な畳み込み層504は、従来の深さ方向に分離可能な畳み込み層であってもよい。
【0055】
上記の各畳み込み層の入力チャネルと出力チャネルの数が同一であり、即ち各畳み込み層が特徴の拡張及び圧縮を行う必要がないため、プロセッサへのメモリと性能の要件を軽減し、処理速度を向上させることができる。
【0056】
以上は本実施例の特徴抽出部100の構成を例示的に説明した。
【0057】
特徴抽出部100により入力画像から特徴が抽出された後に、検出部200は、特徴抽出部100により抽出された特徴に基づいて、該入力画像における物体を検出する。
【0058】
本実施例では、検出部200は従来のネットワーク構造を用いてもよく、例えば、検出部200はYOLO(You Only Look Once)ネットワークを含む。YOLOネットワークは、抽出された特徴に基づいて、入力画像における物体を検出する。YOLOネットワークによる物体検出の原理及びプロセスは、従来技術を参照してもよく、ここでその説明を省略する。
【0059】
表1は、本発明の実施例の物体検出装置と従来のネットワークとのパラメータの対比である。
【表1】
【0060】
表1に示すように、1列目は従来のYOLO-Darknet53のパラメータであり、2列目は本実施例の物体検出装置10のパラメータであり、3列目は本実施例の物体検出装置10’のパラメータである。ここで、物体検出装置10と物体検出装置10’とは、構造が同一であるが、パラメータが異なり、例えば、物体検出装置10’のチャネルパラメータは物体検出装置10より小さい。FLOPsは1秒あたりに実行される演算の回数を表し、CPUはCPUでの処理速度を表し、GPUはGPUでの処理速度を表し、mAPは平均認識正確度を表し、APpersonは人物の認識正確度を表し、APbicycleは自転車の認識正確度を表し、APcarは車の認識正確度を表し、APbusはバスの認識正確度を表し、APvanは箱型のトラックの認識正確度を表し、APtruckはフラット型のトラックの認識正確度を表す。表1から分かるように、本実施例の物体検出装置10及び物体検出装置10’は、YOLO-Darknet53ネットワークと略同一の認識正確度を維持しながら、YOLO-Darknet53ネットワークに比べてプロセッサへのメモリ及び性能の要件を大幅に軽減することができる。
【0061】
本実施例によれば、特徴抽出のためのシャッフル部における全ての畳み込み層の入力チャネルと出力チャネルの数が同一であるため、特徴の拡張及び圧縮を行う必要がなく、プロセッサへのメモリと性能の要件を軽減し、処理速度を向上させることができる。また、該シャッフル部が少なくとも1つの深さ方向分離可能な畳み込み層を有するため、FLOPsなどのプロセッサへのメモリと性能の要件を大幅に軽減すると共に、YOLO-Darknet53などのネットワークに比べて、認識精度を略維持しながらプロセッサへの要件を大幅に軽減することができる。従って、軽量であり、処理速度が速く、且つ認識精度が高い検出方法を提供できるため、メモリ及び性能が限られた端末機器に適用することができ、優れた認識効果を得ることができる。
【0062】
<実施例2>
本発明の実施例は端末機器をさらに提供し、
図6は本発明の実施例2に係る端末機器を示す図である。
図6に示すように、端末機器600は物体検出装置601を含み、該物体検出装置601は実施例1に記載されたものと同じであり、ここでその説明を省略する。
【0063】
図7は本発明の実施例2に係る端末機器のシステム構成を示すブロック図である。
図7に示すように、端末機器700は、中央処理装置(中央制御装置)701及び記憶装置702を含んでもよく、記憶装置702は中央処理装置701に接続される。該図は単なる例示的なものであり、電気通信機能又は他の機能を実現するように、他の種類の構成を用いて、該構成を補充又は代替してもよい。
【0064】
図7に示すように、端末機器700は、入力部703、ディスプレイ704及び電源705をさらに含んでもよい。
【0065】
1つの態様では、実施例1の物体検出装置の機能は中央処理装置701に統合されてもよい。ここで、中央処理装置701は、特徴抽出部により入力画像における特徴を抽出し、検出部により該特徴抽出部により抽出された特徴に基づいて、該入力画像における物体を検出するように構成されてもよい。ここで、該特徴抽出部は、少なくとも1つのシャッフル部を含み、該シャッフル部は、複数の畳み込み層を含み、該複数の畳み込み層の各畳み込み層の入力チャネルの数と出力チャネルの数とは同一であり、該複数の畳み込み層は、少なくとも1つの深さ方向分離可能な畳み込み層を含む。
【0066】
例えば、該少なくとも1つのシャッフル部は、少なくとも1つの第1シャッフル部及び/又は少なくとも1つの第2シャッフル部を含み、該第1シャッフル部は、ストライドが1のシャッフル部であり、該第2シャッフル部は、ストライドが2のシャッフル部である、請求項9に記載の方法。
【0067】
もう1つの態様では、実施例1に記載された物体検出装置は中央処理装置701とそれぞれ構成されてもよく、例えば該物体検出装置は中央処理装置701に接続されたチップであり、中央処理装置701の制御により該物体検出装置の機能を実現してもよい。
【0068】
本実施例における端末機器700は、
図7に示されている全ての構成部を含まなくてもよい。
【0069】
図7に示すように、中央処理装置701は、コントローラ又は操作制御部とも称され、マイクロプロセッサ又は他の処理装置及び/又は論理装置を含んでもよく、中央処理装置701は入力を受信し、端末機器700の各部の操作を制御する。
【0070】
記憶装置702は、例えばバッファ、フラッシュメモリ、ハードディスク、移動可能な媒体、発揮性メモリ、不発揮性メモリ、又は他の適切な装置の1つ又は複数であってもよい。また、中央処理装置701は、記憶装置702に記憶されたプログラムを実行し、情報の記憶又は処理などを実現してもよい。他の部材は従来技術に類似するため、ここでその説明が省略される。端末機器700の各部は、本発明の範囲から逸脱することなく、特定のハードウェア、ファームウェア、ソフトウェア又はその組み合わせによって実現されてもよい。
【0071】
本実施例によれば、特徴抽出のためのシャッフル部における全ての畳み込み層の入力チャネルと出力チャネルの数が同一であるため、特徴の拡張及び圧縮を行う必要がなく、プロセッサへのメモリと性能の要件を軽減し、処理速度を向上させることができる。また、該シャッフル部が少なくとも1つの深さ方向分離可能な畳み込み層を有するため、FLOPsなどのプロセッサへのメモリと性能の要件を大幅に軽減すると共に、YOLO-Darknet53などのネットワークに比べて、認識精度を略維持しながらプロセッサへの要件を大幅に軽減することができる。従って、軽量であり、処理速度が速く、且つ認識精度が高い検出方法を提供できるため、メモリ及び性能が限られた端末機器に適用することができ、優れた認識効果を得ることができる。
【0072】
<実施例3>
本発明の実施例は物体検出方法をさらに提供し、該物体検出方法は実施例1に記載された物体検出装置に対応する。
図8は本発明の実施例3に係る物体検出方法を示す図である。
図8に示すように、該方法は以下のステップを含む。
【0073】
ステップ801:特徴抽出部は入力画像における特徴を抽出する。
【0074】
ステップ802:検出部は該特徴抽出部により抽出された特徴に基づいて、該入力画像における物体を検出する。
【0075】
ここで、特徴抽出部は、少なくとも1つのシャッフル部を含み、シャッフル部は、複数の畳み込み層を含み、複数の畳み込み層の各畳み込み層の入力チャネルの数と出力チャネルの数とは同一であり、複数の畳み込み層は、少なくとも1つの深さ方向分離可能な畳み込み層を含む。
【0076】
本実施例では、上記の各ステップの具体的な実現方法は実施例1に記載されたものと同じであり、ここでその説明を省略する。
【0077】
本実施例によれば、特徴抽出のためのシャッフル部における全ての畳み込み層の入力チャネルと出力チャネルの数が同一であるため、特徴の拡張及び圧縮を行う必要がなく、プロセッサへのメモリと性能の要件を軽減し、処理速度を向上させることができる。また、該シャッフル部が少なくとも1つの深さ方向分離可能な畳み込み層を有するため、FLOPsなどのプロセッサへのメモリと性能の要件を大幅に軽減すると共に、YOLO-Darknet53などのネットワークに比べて、認識精度を略維持しながらプロセッサへの要件を大幅に軽減することができる。従って、軽量であり、処理速度が速く、且つ認識精度が高い検出方法を提供できるため、メモリ及び性能が限られた端末機器に適用することができ、優れた認識効果を得ることができる。
【0078】
本発明の実施例は、物体検出装置又は端末機器においてプログラムを実行する際に、コンピュータに、該物体検出装置又は端末機器において上記実施例3に記載の物体検出方法を実行させる、コンピュータ読み取り可能なプログラムをさらに提供する。
【0079】
本発明の実施例は、コンピュータに、物体検出装置又は端末機器において上記実施例3に記載の物体検出方法を実行させるためのコンピュータ読み取り可能なプログラムを記憶する、記憶媒体をさらに提供する。
【0080】
本発明の実施例を参照しながら説明した物体検出装置又は端末機器において実行される物体検出方法は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、
図1に示す機能的ブロック図における1つ若しくは複数、又は機能的ブロック図の1つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、
図8に示す各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ(FPGA)を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。
【0081】
ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、モバイルハードディスク、CD-ROM又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込むように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はASICに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、端末機器が比較的に大きい容量のMEGA-SIMカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該MEGA-SIMカード又は大容量のフラッシュメモリ装置に記憶されてもよい。
【0082】
図1に記載されている機能的ブロック図における一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、本願に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)又は他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理装置、ディスクリートハードウェアコンポーネント、またはそれらの任意の適切な組み合わせで実現されてもよい。
図1に記載されている機能的ブロック図における一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばDSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSP通信と組み合わせた1つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。
【0083】
以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び変更を行ってもよく、これらの変形及び変更も本発明の範囲に属する。