特許7587335 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニックオートモーティブシステムズ株式会社の特許一覧

特許7587335情報処理装置、情報処理方法、および、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-12

(45)【発行日】2024-11-20

(54)【発明の名称】情報処理装置、情報処理方法、および、プログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20241113BHJP

G06V 10/82 20220101ALI20241113BHJP

【ＦＩ】

G06T7/00 350C

G06V10/82

【請求項の数】 6

(21)【出願番号】P 2022192249

(22)【出願日】2022-11-30

(65)【公開番号】P2024079354

(43)【公開日】2024-06-11

【審査請求日】2023-10-18

(73)【特許権者】

【識別番号】322003857

【氏名又は名称】パナソニックオートモーティブシステムズ株式会社

(74)【代理人】

【識別番号】100109210

【弁理士】

【氏名又は名称】新居広守

(74)【代理人】

【識別番号】100137235

【弁理士】

【氏名又は名称】寺谷英作

(74)【代理人】

【識別番号】100131417

【弁理士】

【氏名又は名称】道坂伸一

(72)【発明者】

【氏名】吉濱豊

【審査官】豊田好一

(56)【参考文献】

【文献】特開２０２１－１９６９００（ＪＰ，Ａ）

【文献】特開２０２２－８３４８４（ＪＰ，Ａ）

【文献】特開２０２１－１７０２９３（ＪＰ，Ａ）

【文献】特開２０２０－１３５８７２（ＪＰ，Ａ）

【文献】特開２０２１－１５７２０７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｖ１０／８２

(57)【特許請求の範囲】

【請求項1】

画像が入力され、入力された前記画像に対してニューラルネットワークモデルを用いて推論を行う推論部と、
前記推論部による前記推論の結果を示す結果情報を処理して出力値を出力する後処理部とを備え、
前記推論部は、
前記ニューラルネットワークモデルが有する複数の層のうち、最も入力層側に位置する１以上の層として、１以上のＤＷＣｏｎｖ（ＤｅｐｔｈｗｉｓｅＣｏｎｖｏｌｕｔｉｏｎ）層であって、ストライドが２以上であるＤＷＣｏｎｖ層を有する
情報処理装置。

【請求項2】

前記推論部は、
前記ニューラルネットワークモデルが有する複数の層のうち、前記１以上のＤＷＣｏｎｖ層の後段の層として、１以上のＣｏｎｖ（Ｃｏｎｖｏｌｕｔｉｏｎ）層であって、ストライドが２以上であるＣｏｎｖ層を有する
請求項１に記載の情報処理装置。

【請求項3】

前記推論部は、
前記画像として、フルハイビジョンサイズの画像が入力される
請求項１に記載の情報処理装置。

【請求項4】

前記１以上のＤＷＣｏｎｖ層は、２個のＤＷＣｏｎｖ層である
請求項１～３のいずれか１項に記載の情報処理装置。

【請求項5】

情報処理装置が実行する情報処理方法であって、
画像が入力され、入力された前記画像に対してニューラルネットワークモデルを用いて推論を行い、
前記推論の結果を示す結果情報を処理して出力値を出力し、
前記ニューラルネットワークモデルは、前記ニューラルネットワークモデルが有する複数の層のうち、最も入力層側に位置する１以上の層として、１以上のＤＷＣｏｎｖ層であって、ストライドが２以上であるＤＷＣｏｎｖ層を有する
情報処理方法。

【請求項6】

請求項５に記載の情報処理方法をコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法、および、プログラムに関する。

【背景技術】

【0002】

画像に対する推論処理を、ディープニューラルネットワークを用いて行う技術がある。推論処理において、予め、画像のサイズを縮小する処理がなされることがある（特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９－２１９８０４号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、画像のサイズを縮小するなど、画像のサイズを調整する処理は、プロセッサに比較的高い負荷をかけ、また、上記処理の実行に比較的長い時間を要するという問題がある。

【0005】

そこで、本発明は、画像のサイズを調整する処理の負荷を低減する情報処理装置等を提供する。

【課題を解決するための手段】

【0006】

本発明の一態様に係る情報処理装置は、画像が入力され、入力された前記画像に対してニューラルネットワークモデルを用いて推論を行う推論部と、前記推論部による前記推論の結果を示す結果情報を処理して出力値を出力する後処理部とを備え、前記推論部は、前記ニューラルネットワークモデルが有する複数の層のうち、最も入力層側に位置する１以上の層として、１以上のＤＷＣｏｎｖ（ＤｅｐｔｈｗｉｓｅＣｏｎｖｏｌｕｔｉｏｎ）層であって、ストライドが２以上であるＤＷＣｏｎｖ層を有する情報処理装置である。

【0007】

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

【発明の効果】

【0008】

本発明の情報処理装置は、画像のサイズを調整する処理の負荷を低減することができる。

【図面の簡単な説明】

【0009】

【図1】実施の形態における情報処理装置の構成を示す説明図である。

【図2A】実施の形態におけるニューラルネットワークモデルの構成を示す説明図である。

【図2B】畳み込み演算におけるストライドを示す説明図である。

【図3】実施の形態における情報処理装置の処理を示すフロー図である。

【図4】実施の形態における情報処理装置の構成を示す説明図である。

【図5】実施の形態における情報処理装置の処理を示すフロー図である。

【図6】比較例における処理部の構成を示す説明図である。

【図7】比較例におけるニューラルネットワークモデルの構成を示す説明図である。

【図8】比較例における情報処理装置の処理を示すフロー図である。

【図9】比較例における処理部の構成を示す説明図である。

【図10】比較例における情報処理装置の処理を示すフロー図である。

【図11】実施の形態における情報処理装置の推論精度の例を示す説明図である。

【図12】実施の形態における情報処理装置の処理時間の例を示す説明図である。

【図13】実施の形態におけるニューラルネットワークモデルの構成の具体例を示す説明図である。

【発明を実施するための形態】

【0010】

（本発明の基礎となった知見）
本発明者は、「背景技術」の欄において記載した、画像を縮小する処理に関し、以下の問題が生じることを見出した。

【0011】

画像に対する推論処理を、ディープニューラルネットワークを用いて行う場合、入力される画像の画像サイズが比較的大きい（言い換えれば、解像度が比較的高い）と、ディープニューラルネットワークを用いた処理の負荷の増大、または、処理に要する時間の増大を招く。

【0012】

例えば、３０ｆｐｓのフレームレートで取得される画像に対してディープニューラルネットワークを用いて推論処理を行う場合、一の画像に対する推論処理を（１／３０）秒以内に行うことができれば、推論処理をリアルタイムで行うことができる利点がある。

【0013】

そこで、ディープニューラルネットワークを用いた推論処理において、予め、画像を縮小する処理がなされることがある（特許文献１参照）。縮小された画像を用いてディープニューラルネットワークを用いた推論処理を行うことで、情報処理装置の処理負荷の低減、および、処理の実行に要する時間の短縮の効果が得られる。

【0014】

【0015】

そこで、本発明は、画像のサイズを調整する処理の負荷を低減する情報処理装置等を提供する。

【0016】

以下、本明細書の開示内容から得られる発明を例示し、その発明から得られる効果等を説明する。

【0017】

（１）画像が入力され、入力された前記画像に対してニューラルネットワークモデルを用いて推論を行う推論部と、前記推論部による前記推論の結果を示す結果情報を処理して出力値を出力する後処理部とを備え、前記推論部は、前記ニューラルネットワークモデルが有する複数の層のうち、最も入力層側に位置する１以上の層として、１以上のＤＷＣｏｎｖ（ＤｅｐｔｈｗｉｓｅＣｏｎｖｏｌｕｔｉｏｎ）層であって、ストライドが２以上であるＤＷＣｏｎｖ層を有する、情報処理装置。

【0018】

上記態様によれば、情報処理装置は、ニューラルネットワークモデルの最も入力層側に位置する１以上の、ストライドが２以上であるＤＷＣｏｎｖ層を有するので、入力された画像に対するＤＷＣｏｎｖ層を用いた縮小処理と、縮小した画像に対する後続の層を用いた推論処理とを、ニューラルネットワークモデルを用いてまとめて行うことができる。これは、ストライドがＳ（ただしＳ≧２）であるＤＷＣｏｎｖ層が、入力画像を（１／Ｓ）倍に調整する機能を有することに基づく。

【0019】

仮に、情報処理装置が、ニューラルネットワークモデルに入力される前に画像に縮小処理を施すとすれば、縮小処理と推論処理とを別個に実行することになる。縮小処理は、一般に、プロセッサに比較的高い負荷をかける。また、情報処理装置が縮小処理と推論処理とを別個に実行する場合、縮小処理および推論処理そのものの負荷に加えて、各処理の呼び出しおよび復帰の処理も必要となり、負荷の増大を招く。上記態様によれば、情報処理装置は、ニューラルネットワークモデルに入力される前に画像に縮小処理を施す必要がないので、上記縮小処理を行うとすれば生じ得る処理負荷の上昇を未然に回避することに寄与する。よって、情報処理装置は、画像のサイズを調整する処理の負荷を低減することができる。

【0020】

（２）前記推論部は、前記ニューラルネットワークモデルが有する複数の層のうち、前記１以上のＤＷＣｏｎｖ層の後段の層として、１以上のＣｏｎｖ（Ｃｏｎｖｏｌｕｔｉｏｎ）層であって、ストライドが２以上であるＣｏｎｖ層を有する、（１）に記載の情報処理装置。

【0021】

上記態様によれば、ＤＷＣｏｎｖ層を用いて縮小された画像に対して、引き続き、ニューラルネットワークモデルが有する当該Ｃｏｎｖ層および後続の層により推論処理を行うことができる。これにより、ニューラルネットワークモデルを用いて縮小処理と推論処理とをまとめて実行することができ、処理負荷の低減に一層寄与する。よって、情報処理装置は、画像のサイズを調整する処理の負荷を、より一層低減することができる。

【0022】

（３）前記推論部は、前記画像として、フルハイビジョンサイズの画像が入力される、（１）または（２）に記載の情報処理装置。

【0023】

上記態様によれば、情報処理装置は、フルハイビジョンサイズの画像に対する推論処理において、画像のサイズを調整する処理の負荷を低減することができる。

【0024】

（４）前記１以上のＤＷＣｏｎｖ層は、２個のＤＷＣｏｎｖ層である、（１）～（３）のいずれかに記載の情報処理装置。

【0025】

上記態様によれば、情報処理装置は、ニューラルネットワークモデルの最も入力側に位置する２個のＤＷＣｏｎｖ層を用いた縮小処理により、入力画像のサイズを縦方向および横方向それぞれに１／４に容易に調整しながら、後続の層を用いて推論処理を実行することができる。よって、情報処理装置は、より容易に、画像のサイズを調整する処理の負荷を低減することができる。

【0026】

（５）情報処理装置が実行する情報処理方法であって、画像が入力され、入力された前記画像に対してニューラルネットワークモデルを用いて推論を行い、前記推論の結果を示す結果情報を処理して出力値を出力し、前記ニューラルネットワークモデルは、前記ニューラルネットワークモデルが有する複数の層のうち、最も入力層側に位置する１以上の層として、１以上のＤＷＣｏｎｖ層であって、ストライドが２以上であるＤＷＣｏｎｖ層を有する、情報処理方法。

【0027】

上記態様によれば、上記情報処理装置と同様の効果を奏する。

【0028】

（６）（５）に記載の情報処理方法をコンピュータに実行させるプログラム。

【0029】

上記態様によれば、上記情報処理装置と同様の効果を奏する。

【0030】

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。

【0031】

以下、実施の形態について、図面を参照しながら具体的に説明する。

【0032】

なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

【0033】

（実施の形態）
本実施の形態において、画像のサイズを調整する処理の負荷を低減する情報処理装置１０などについて説明する。画像のサイズは、例えば、画像の縦方向または横方向の画素数であり、この場合を例として説明するが、これに限られない。

【0034】

まず、本実施の形態におけるニューラルネットワークモデルを用いた推論処理について説明する。

【0035】

図１は、本実施の形態における情報処理装置１０の構成を示す説明図である。図２Ａは、本実施の形態におけるニューラルネットワークモデル１５の構成を示す説明図である。図２Ｂは、畳み込み演算におけるストライドを示す説明図である。

【0036】

情報処理装置１０は、ニューラルネットワークモデル１５を用いた推論処理を行う情報処理装置の構成の例である。

【0037】

図１に示されるように、本実施の形態における情報処理装置１０は、取得部１１と、処理部１２と、出力部１３とを備える。情報処理装置１０が備える構成要素の一部または全部は、情報処理装置１０が備えるプロセッサ（例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ））がメモリ（不図示）を用いて所定のプログラムを実行することで実現される。

【0038】

取得部１１は、情報処理装置１０による推論の対象となる画像を取得する。情報処理装置１０による推論の対象となる画像は、例えば、フルハイビジョンサイズの画像、つまり、１９２０画素×１０８０画素の画像であるがこれに限られない。取得部１１は、上記画像を、情報処理装置１０の外部の装置から通信インタフェース（不図示）を介して取得してもよいし、情報処理装置１０が備える記憶装置（不図示）に格納されている画像を読み出すことによって取得してもよい。取得部１１は、取得した画像を処理部１２に提供する。

【0039】

処理部１２は、取得部１１から提供された画像に対してニューラルネットワークモデルを用いた推論処理を行う。処理部１２は、行った推論処理の結果を示す情報を出力部１３に提供する。推論処理には、例えば、画像に映っている物体の検知処理、および、画像に映っている文字または図形の認識処理等が含まれ得る。

【0040】

処理部１２は、推論部１２１と、後処理部１２２とを有する。

【0041】

推論部１２１は、画像が入力され、入力された画像に対してニューラルネットワークモデル（ＮＮモデルともいう）１５を用いて推論を行う。ニューラルネットワークモデル１５は、入力層、中間層および出力層を有するディープニューラルネットワークモデルである。

【0042】

なお、推論部１２１に入力される画像は、取得部１１から提供された画像であり、画像のサイズを調整する処理（いわゆる前処理）は施されていない画像である。言い換えれば、処理部１２は、後述する比較例における情報処理装置の前処理部９２１に相当する前処理部（図６参照）を備えていない。

【0043】

図２Ａに示されるように、ニューラルネットワークモデル１５は中間層として、入力側から出力側に向かって、ＤＷＣｏｎｖ層２１および２２と、Ｃｏｎｖ層２３および２４等とを有する。ニューラルネットワークモデル１５が有する各層は、当該層に入力される入力値に対して演算（例えば、フィルタを用いた畳み込み演算等）を施し、演算の結果として得た値を出力する。なお、図２Ａにおいて、入力層および出力層の図示は省略されている。

【0044】

ＤＷＣｏｎｖ層２１および２２（ＤＷＣｏｎｖ層２１等ともいう）は、それぞれ、ストライドが２であるＤＷＣｏｎｖ層である。ＤＷＣｏｎｖ層２１等は、それぞれ、ストライドが２以上であるＤＷＣｏｎｖの例である。

【0045】

ストライドは、畳み込みニューラルネットワークにおける、畳み込み演算ごとのフィルタの移動幅である（図２Ｂ参照）。ストライドが大きいほど、より小さなサイズの出力画像が得られる。具体的には、図２Ｂの（ａ）に示される、ストライドが１である場合には、入力画像と同じ出力画像が得られるが、図２Ｂの（ｂ）に示される、ストライドが２である場合には、出力画像のサイズは、入力画像のサイズの約１／２である。

【0046】

なお、入力画像サイズがストライドで割り切れる場合に、出力画像のサイズが入力画像のサイズの１／２になる。一方、入力画像サイズがストライドで割り切れない場合には、出力画像のサイズが入力画像のサイズの１／２より若干大きくなることがあるが、出力画像のサイズと、入力画像のサイズの１／２との差分は、入力画像のサイズまたは出力画像のサイズに比べて極めて小さい。上記説明では、上記両方の場合を含めて、出力画像のサイズが入力画像のサイズの約１／２であると記載している。

【0047】

このように、ストライドがＳ（ただしＳ≧２）であるＤＷＣｏｎｖ層は、入力画像のサイズを約（１／Ｓ）倍に調整する機能を有するといえる。同様に、複数個の、ストライドがＳであるＤＷＣｏｎｖ層は、画像のサイズを約（１／Ｓ）のｎ乗倍に調整する機能を有するといえる。

【0048】

なお、ＤＷＣｏｎｖ層２１等のストライドが３以上である場合も同様である。ＤＷＣｏｎｖ層２１等のストライドがＳ（ただしＳ≧２）である場合、出力画像のサイズは、入力画像のサイズの約１／Ｓである。

【0049】

ＤＷＣｏｎｖ層２１および２２は、それぞれ、ストライドが２であるＤＷＣｏｎｖ層であるので、入力画像のサイズの約１／４のサイズの出力画像を、後段の層に提供する。

【0050】

Ｃｏｎｖ層２３および２４は、推論処理に用いられる層である。例えば、Ｃｏｎｖ層２３は、ストライドが１以上であるＣｏｎｖ層であり、Ｃｏｎｖ層２４は、ストライドが１であるＣｏｎｖ層である。なお、Ｃｏｎｖ層２３とＣｏｎｖ層２４との間に、１以上のＣｏｎｖ層またはＰＷＣｏｎｖ（ＰｏｉｎｔｗｉｓｅＣｏｎｖｏｌｕｔｉｏｎ）層が含まれてもよい。

【0051】

以上のように、ニューラルネットワークモデル１５が有する複数の層のうち、最も入力層側に位置する１以上の層が、１以上のＤＷＣｏｎｖ層であって、ストライドが２以上であるＤＷＣｏｎｖ層であるという特徴がある。図２Ａに示される例では、１以上のＤＷＣｏｎｖ層が、２個のＤＷＣｏｎｖ層２１および２２に相当する。

【0052】

また、ニューラルネットワークモデル１５が有する複数の層のうち、最も入力層側に位置する１以上のＤＷＣｏｎｖ層の後段の層が、１以上のＣｏｎｖ層であって、ストライドが２以上である１以上のＣｏｎｖ層であるという特徴があってもよい。

【0053】

なお、一般に、ニューラルネットワークモデルの最も入力層側に、ストライドが２以上であるＤＷＣｏｎｖ層が配置される構成は、知られていない。ニューラルネットワークモデルの最も入力層側に、画像サイズの変更を伴うＤＷＣｏｎｖ層が配置されると、単に入力画像のサイズを縮小することになるからである。

【0054】

後処理部１２２は、推論部１２１による推論の結果を示す結果情報に対して後処理を実行する。例えば、後処理部１２２は、推論部１２１による推論結果を示す情報が、物体の検知確率を示すスコア情報である場合には、比較的高いスコア情報を有する物体を示す情報（文字情報または画像）を生成する。

【0055】

ニューラルネットワークモデル１５は、ニューラルネットワークモデル１５が有する複数の層のうち、最も入力層側に位置する１以上の層として、ストライドが２以上である１以上のＤＷＣｏｎｖ層を有する、という特徴を有する。

【0056】

また、ニューラルネットワークモデル１５は、ニューラルネットワークモデル１５が有する複数の層のうち、上記１以上のＤＷＣｏｎｖ層の後段の層として、ストライドが２以上である１以上のＣｏｎｖ層を有する、という特徴を有する。

【0057】

出力部１３は、処理部１２が実行した推論処理の結果を出力する。出力部１３は、通信インタフェースを介して上記推論結果を他の装置に出力してもよい。情報処理装置１０が表示画面（不図示）を備えている場合には上記推論結果を示す画像を表示画面に表示することで出力してもよい。また、情報処理装置１０がスピーカ（不図示）を備えている場合には上記推論結果を示す音声をスピーカによりしてもよい。

【0058】

以降において、情報処理装置１０が実行する処理（情報処理方法ともいう）を説明する。

【0059】

図３は、本実施の形態における情報処理装置１０の処理を示すフロー図である。図３に示される処理は、情報処理装置１０によるディープニューラルネットワークを用いた推論処理の例である。

【0060】

ステップＳ１０１において、取得部１１は、画像を取得し、処理部１２（より具体的には推論部１２１）に提供する。

【0061】

ステップＳ１０２において、推論部１２１は、ステップＳ１０１で取得部１１から提供された画像に対してニューラルネットワークモデル１５を用いて推論処理を実行する。後処理部１２２は、推論部１２１による推論処理の結果に対する後処理を施す。

【0062】

ステップＳ１０３において、出力部１３は、ステップＳ１０２で実行された推論処理の結果を出力する。

【0063】

図３に示される一連の処理により、情報処理装置１０は、画像のサイズを調整する処理の負荷を低減することができる。

【0064】

以降において、本実施の形態におけるニューラルネットワークモデルの学習処理について説明する。

【0065】

図４は、本実施の形態における情報処理装置３０の構成を示す説明図である。情報処理装置３０は、ディープニューラルネットワークの学習処理を行う情報処理装置の構成の例である。

【0066】

図４に示されるように、情報処理装置３０は、取得部３１と、処理部３２と、訓練部３３とを備える。

【0067】

取得部３１は、ニューラルネットワークモデル３５の学習のための画像（訓練用画像ともいう）と、正解情報とを取得する。訓練用画像は、例えば、フルハイビジョンサイズの画像、つまり、１９２０画素×１０８０画素の画像であるがこれに限られない。訓練用画像は、予め用意された画像である。正解情報は、訓練用画像に紐づけられており、当該訓練用画像に対する推論処理によって処理部３２が出力すべき情報である。正解情報は、推論処理が画像に映っている物体の検知処理である場合には、当該画像に物体が映っているか否かを示す情報であり得る。

【0068】

取得部３１は、上記訓練用画像を、情報処理装置３０の外部の装置から通信インタフェース（不図示）を介して取得してもよいし、情報処理装置３０が備える記憶装置（不図示）に格納されている画像を読み出すことによって取得してもよい。取得部３１が取得する訓練用画像の個数は、例えば数千～数万以上である。取得部３１は、取得した訓練用画像を処理部３２に提供する。

【0069】

処理部３２は、取得部３１から提供された訓練用画像に対してニューラルネットワークモデル３５を用いた推論処理を行う。処理部３２は、行った推論処理の結果を示す情報を訓練部３３に提供する。推論処理は、情報処理装置１０の処理部１２が行う推論処理と同じである。情報処理装置３０による学習がなされた時点でのニューラルネットワークモデル３５が、情報処理装置１０のニューラルネットワークモデル１５として用いられ得る。

【0070】

処理部３２は、推論部３２１と、後処理部３２２とを有する。

【0071】

推論部３２１は、画像が入力され、入力された画像に対してニューラルネットワークモデル３５を用いて推論を行う。ニューラルネットワークモデル３５は、ディープニューラルネットワークモデルである。ニューラルネットワークモデル３５が有する層の構成は、ニューラルネットワークモデル１５におけるものと同じである（図２Ａ参照）。

【0072】

後処理部３２２は、推論部３２１による推論の結果を示す結果情報を処理する。後処理部３２２は、後処理部１２２の処理と同じである。

【0073】

訓練部３３は、ニューラルネットワークモデル３５が有する各層のパラメータを調整することで、ニューラルネットワークモデル３５の訓練を行う。訓練部３３は、処理部３２による推論処理によって得た出力情報と、取得部３１から得られた正解情報とを比較して、出力情報が正解情報に近づくようにニューラルネットワークモデル３５における各層のパラメータを調整する。

【0074】

情報処理装置３０は、訓練用画像を用いて訓練部３３によりニューラルネットワークモデル３５の各層のパラメータを調整する。このように調整がなされたニューラルネットワークモデル３５が、情報処理装置１０の処理部１２のニューラルネットワークモデル１５として用いられる。

【0075】

図５は、本実施の形態における情報処理装置３０の処理を示すフロー図である。図５に示される処理は、情報処理装置３０によるディープニューラルネットワークを用いた学習処理の例である。

【0076】

ステップＳ２０１において、取得部３１は、訓練用画像を取得し、処理部３２（具体的には推論部３２１）に提供する。

【0077】

ステップＳ２０２において、推論部３２１は、ステップＳ２０１で取得部３１から提供された訓練用画像に対してニューラルネットワークモデル３５を用いて推論処理を実行する。後処理部３２２は、推論部３２１による推論処理の結果に対する後処理を施す。

【0078】

ステップＳ２０３において、訓練部３３は、ステップＳ２０２の推論処理の結果を用いてニューラルネットワークモデル３５を訓練する。

【0079】

ステップＳ２０４において、訓練部３３は、ニューラルネットワークモデル３５による推論処理の精度が基準値以上であるか否かを判定する。推論処理の精度は、例えば物体検出におけるｍＡＰ（ｍｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）である。基準値は、推論処理の精度としてｍＡＰを用いる場合には、例えば６０％～９０％の範囲の値とすることができる。推論処理の精度が基準値以上であると判定した場合（ステップＳ２０４でＹｅｓ）には、図５に示される一連の処理を終了し、そうでない場合（ステップＳ２０４でＮｏ）には、ステップＳ２０１を再び実行する。

【0080】

図５に示される一連の処理により、ニューラルネットワークモデル３５の学習がなされる。

【0081】

以降において、本実施の形態の情報処理装置１０および情報処理装置３０に関連する技術（比較例ともいう）を説明する。比較例における情報処理装置は、処理部が、画像のサイズを調整する機能を有する前処理部を有し、ニューラルネットワークモデルが画像のサイズを調整する機能を有しない。

【0082】

以降において、比較例におけるニューラルネットワークモデルを用いた推論処理について説明する。

【0083】

比較例における情報処理装置は、情報処理装置１０と比較して、処理部１２に代えて処理部９２を備える点で情報処理装置１０と異なる。処理部９２の構成について説明する。

【0084】

図６は、比較例における処理部９２の構成を示す説明図である。図７は、比較例におけるニューラルネットワークモデル９５の構成を示す説明図である。

【0085】

処理部９２は、ニューラルネットワークモデル９５を用いた推論処理を行う処理部の例である。上記推論処理の前には、サイズ調整処理を含む前処理が実行される。

【0086】

処理部９２は、取得部から提供された画像に対してニューラルネットワークモデル９５を用いた推論処理を行う。処理部９２は、行った推論処理の結果を示す情報を出力部１３に提供する。

【0087】

図６に示されるように、処理部９２は、前処理部９２１と、推論部９２２と、後処理部９２３とを有する。

【0088】

前処理部９２１は、画像が入力され、入力された画像に対して前処理を行う。前処理は、画像のサイズを、ニューラルネットワークモデル９５を用いた推論処理に適したサイズに調整する処理を含む。画像のサイズを調整する処理は、例えば、線形近似を用いる方法がある。前処理部９２１は、前処理を施した後の画像を推論部９２２に提供する。

【0089】

推論部９２２は、画像が入力され、入力された画像に対してニューラルネットワークモデル９５を用いて推論を行う。ニューラルネットワークモデル９５は、ディープニューラルネットワークモデルである。

【0090】

図７に示されるように、ニューラルネットワークモデル９５は、入力側から出力側に向かって、Ｃｏｎｖ層８１および８２を有する。各層は、当該層に入力される入力値に対してフィルタを用いた畳み込み演算を施し、演算の結果として得た値を出力する。

【0091】

Ｃｏｎｖ層８１および８２は、情報処理装置１０のニューラルネットワークモデル１５が備えるＣｏｎｖ層２３および２４と同様である。なお、情報処理装置１０におけるＣｏｎｖ層２３とＣｏｎｖ層２４との場合と同様に、Ｃｏｎｖ層８１とＣｏｎｖ層８２との間に、１以上のＣｏｎｖ層またはＰＷＣｏｎｖ層が含まれてもよい。

【0092】

後処理部９２３は、推論部９２２による推論の結果を示す結果情報を処理する。後処理部９２３は、情報処理装置１０の後処理部１２２と同じである。

【0093】

図８は、比較例における情報処理装置の処理を示すフロー図である。図８に示される処理は、情報処理装置によるディープニューラルネットワークを用いた推論処理の例である。

【0094】

ステップＳ３０１において、取得部は、画像を取得し、処理部９２（より具体的には前処理部９２１）に提供する。

【0095】

ステップＳ３０２において、前処理部９２１は、ステップＳ３０１で取得部から提供された画像に対する前処理として、上記画像のサイズを調整する処理を施して推論部９２２に提供する。

【0096】

ステップＳ３０３において、推論部９２２は、ステップＳ３０２で前処理部９２１から提供された画像に対してニューラルネットワークモデル９５を用いて推論処理を実行する。また、後処理部９２３は、推論部９２２による推論処理の結果に対して後処理を施す。

【0097】

ステップＳ３０４において、出力部は、ステップＳ３０３で実行された推論処理の結果を出力する。

【0098】

一般に、画像に対するサイズ調整処理に要する時間は比較的長い。例えば、フルハイビジョンサイズの画像を９６０画素×５４０画素の画像にサイズ調整するのに５０ミリ秒の時間を要することがある。サイズ調整処理に比較的長い時間を要する場合、その後に実行される推論処理の実行が遅延し、推論処理の結果の出力の遅延を招く。

【0099】

以降において、比較例におけるニューラルネットワークモデルの学習処理について説明する。

【0100】

図９は、比較例における処理部７２の構成を示す説明図である。処理部７２は、ディープニューラルネットワークの学習処理を行う情報処理装置が備える処理部の構成の例である。

【0101】

比較例における情報処理装置は、情報処理装置３０と比較して、処理部３２に代えて処理部７２を備える点で情報処理装置３０と異なる。処理部７２の構成について説明する。

【0102】

処理部７２は、取得部から提供された訓練用画像に対してニューラルネットワークモデル７５を用いた推論処理を行う。処理部７２は、行った推論処理の結果を示す情報を訓練部７３に提供する。推論処理は、処理部９２が行う推論処理と同じである。学習処理がなされた時点でのニューラルネットワークモデル７５が、処理部９２のニューラルネットワークモデル９５として用いられ得る。

【0103】

処理部７２は、前処理部７２１と、推論部７２２と、後処理部７２３とを有する。

【0104】

前処理部７２１は、画像が入力され、入力された画像に対して前処理を行う。前処理は、前処理部９２１が実行する前処理と同様である。前処理部７２１は、前処理を施した後の画像を推論部７２２に提供する。

【0105】

推論部７２２は、画像が入力され、入力された画像に対してニューラルネットワークモデル７５を用いて推論を行う。ニューラルネットワークモデル７５は、ディープニューラルネットワークモデルである。ニューラルネットワークモデル７５が有する層の構成は、ニューラルネットワークモデル９５におけるものと同じである（図７参照）。

【0106】

後処理部７２３は、推論部７２２による推論の結果を示す結果情報を処理する。後処理部７２３は、後処理部９２３の処理と同じである。

【0107】

訓練部７３は、ニューラルネットワークモデル７５が有する各層のパラメータを調整することで、ニューラルネットワークモデル７５の訓練を行う。訓練部７３は、処理部７２による推論処理によって得た出力情報と、取得部から得られた正解情報とを比較して、出力情報が正解情報に近づくようにニューラルネットワークモデル７５における各層のパラメータを調整する。

【0108】

訓練部７３は、訓練用画像を用いてニューラルネットワークモデル７５の各層のパラメータを調整する。このように調整がなされたニューラルネットワークモデル７５が、処理部９２のニューラルネットワークモデル９５として用いられる。

【0109】

図１０は、比較例における情報処理装置の処理を示すフロー図である。図１０に示される処理は、情報処理装置によるディープニューラルネットワークを用いた学習処理の例である。

【0110】

ステップＳ４０１において、取得部は、訓練用画像を取得し、処理部７２（より具体的には前処理部７２１）に提供する。

【0111】

ステップＳ４０２において、前処理部７２１は、ステップＳ４０１で取得部から提供された画像に対する前処理として、上記画像のサイズを調整する処理を施して推論部７２２に提供する。

【0112】

ステップＳ４０３において、推論部７２２は、ステップＳ４０２で前処理部７２１から提供された画像に対してニューラルネットワークモデル７５を用いて推論処理を実行する。また、後処理部７２３は、推論部７２２による推論処理の結果に対して後処理を施す。

【0113】

ステップＳ４０４において、訓練部７３は、ステップＳ４０３の推論処理の結果を用いてニューラルネットワークモデル７５を訓練する。

【0114】

ステップＳ４０５において、訓練部７３は、ニューラルネットワークモデル７５による推論処理の精度が基準値以上であるか否かを判定する。推論処理の精度、および、基準値については、情報処理装置３０におけるものと同じである。推論処理の精度が基準値以上であると判定した場合（ステップＳ４０５でＹｅｓ）には、図１０に示される一連の処理を終了し、そうでない場合（ステップＳ４０５でＮｏ）には、ステップＳ４０１を再び実行する。

【0115】

以降において、本実施の形態における情報処理装置１０の推論精度および処理時間について説明する。

【0116】

図１１は、本実施の形態における情報処理装置１０の推論精度の例を示す説明図である。図１１には、情報処理装置１０の推論精度の例と、比較例における情報処理装置の推論精度の例とが示されている。

【0117】

図１１に示されるように、比較例における情報処理装置の推論精度は、約５１％であり、情報処理装置１０の推論精度は、約６２％である。

【0118】

このように、情報処理装置１０の推論精度は、比較例における情報処理装置の推論精度に劣ることがない。ＤＷＣｏｎｖ層でサイズ調整を行うことによる学習パラメータ追加により、情報処理装置１０の推論精度は、比較例における情報処理装置の推論精度より高くなる。

【0119】

図１２は、本実施の形態における情報処理装置１０の推論処理に要する処理時間の例を示す説明図である。

【0120】

図１２には、２つのハードウェアＨＷ１およびＨＷ２それぞれにより構築される情報処理装置１０の処理時間の例と、比較例における情報処理装置の処理時間の例とが示されている。処理時間は、一の画像についての推論処理に要する時間である。より具体的には、情報処理装置１０の場合には、処理時間は、一の画像について推論部１２１が実行する推論処理と、後処理部１２２が実行する後処理とに要する時間である。また、比較例における情報処理装置の場合には、処理時間は、一の画像について前処理部９２１が実行する前処理と、推論部９２２が実行する推論処理と、後処理部９２３が実行する後処理とに要する時間である。

【0121】

図１２に示されるように、ハードウェアＨＷ１により構築される、比較例における情報処理装置の処理時間は約４５ｍｓｅｃであり、情報処理装置１０の処理時間は約６ｍｓｅｃである。また、ハードウェアＨＷ２により構築される、比較例における情報処理装置の処理時間は約４８ｍｓｅｃであり、情報処理装置１０の処理時間は約８ｍｓｅｃである。

【0122】

このように、どちらのハードウェアを用いた場合でも、情報処理装置１０の処理時間は、比較例における情報処理装置より短く、具体的には、ハードウェアＨＷ１の場合で約（１／７．５）倍、ハードウェアＨＷ２の場合で約（１／６）倍である。

【0123】

以降において、本実施の形態における情報処理装置１０のニューラルネットワークモデル１５の具体的な構成例を説明する。

【0124】

図１３は、本実施の形態におけるニューラルネットワークモデルの構成の具体例を示す説明図である。

【0125】

図１３の（ａ）には、比較例におけるニューラルネットワークモデル９５の具体的な層の構成例が７つ示されている。図１３の（ａ）には、層の種別（Ｃｏｎｖ層、ＤＷＣｏｎｖ層およびＰＷＣｏｎｖ層）と、当該層のストライド（括弧内）とが示されている。

【0126】

図１３の（ａ）に示されている７つの例＃１～＃７は、それぞれ、周知のニューラルネットワークモデルである、ＭｏｂｉｌｅＮｅｔＶ１、ＭｏｂｉｌｅＮｅｔＶ２、ＭｏｂｉｌｅＮｅｔＶ３、ＥｆｆｉｃｉｅｎｔＮｅｔＶ１、ＥｆｆｉｃｉｅｎｔＮｅｔＶ２、ＶｏＶＮｅｔおよびＧＥＮｅｔに相当する。

【0127】

例えば、図１３の（ａ）に示されている例＃１のニューラルネットワークモデルは、入力側から順に、ストライドが２であるＣｏｎｖ層、ストライドが１であるＤＷＣｏｎｖ層、ストライドが１であるＰＷＣｏｎｖ層、ストライドが２であるＤＷＣｏｎｖ層、・・・を有する。

【0128】

図１３の（ｂ）には、本実施の形態におけるニューラルネットワークモデル１５の具体的な層の構成例が７つ示されている。

【0129】

図１３の（ｂ）に示される７つの例＃１～＃７は、それぞれ、図１３の（ｂ）に示される７つの例＃１～＃７をベースとして、ニューラルネットワークモデル１５の最も入力側に位置する層を、ストライドが２であるＤＷＣｏｎｖ層としたものである。図１３の（ｂ）に示される７つの例＃１～＃７における第２層以降は、それぞれ、図１３の（ａ）に示される７つの例＃１～＃７における第１層以降と同様である。

【0130】

例えば、図１３の（ｂ）に示されている例＃１のニューラルネットワークモデルは、入力側から順に、ストライドが２であるＤＷＣｏｎｖ層、ストライドが２であるＣｏｎｖ層、ストライドが１であるＤＷＣｏｎｖ層、ストライドが１であるＰＷＣｏｎｖ層、・・・を有する。

【0131】

なお、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記実施の形態の情報処理装置などを実現するソフトウェアは、次のようなプログラムである。

【0132】

すなわち、このプログラムは、コンピュータに、情報処理装置が実行する情報処理方法であって、画像が入力され、入力された前記画像に対してニューラルネットワークモデルを用いて推論を行い、前記推論の結果を示す結果情報を処理して出力値を出力し、前記ニューラルネットワークモデルは、前記ニューラルネットワークモデルが有する複数の層のうち、最も入力層側に位置する１以上の層として、１以上のＤＷＣｏｎｖ層であって、ストライドが２以上であるＤＷＣｏｎｖ層を有する情報処理方法を実行させるプログラムである。

【0133】

以上、一つまたは複数の態様に係る情報処理装置などについて、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

【産業上の利用可能性】

【0134】

本発明は、画像に映っている可能性がある物体を検知する物体検知処理を行う情報処理装置に利用可能である。

【符号の説明】

【0135】

１０、３０情報処理装置
１１、３１取得部
１２、３２、７２、９２処理部
１３出力部
１５、３５、７５、９５ニューラルネットワークモデル
２１、２２ＤＷＣｏｎｖ層
２３、２４、８１、８２Ｃｏｎｖ層
３３、７３訓練部
１２１、３２１、７２２、９２２推論部
１２２、３２２、７２３、９２３後処理部
７２１、９２１前処理部

【図1】