(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-21
(45)【発行日】2024-01-04
(54)【発明の名称】処理方法およびそれを利用した処理装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20231222BHJP
G06N 3/045 20230101ALI20231222BHJP
【FI】
G06T7/00 350C
G06N3/045
(21)【出願番号】P 2022555267
(86)(22)【出願日】2021-06-25
(86)【国際出願番号】 JP2021024225
(87)【国際公開番号】W WO2022074878
(87)【国際公開日】2022-04-14
【審査請求日】2023-04-04
(31)【優先権主張番号】P 2020170752
(32)【優先日】2020-10-08
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】100123102
【氏名又は名称】宗田 悟志
(72)【発明者】
【氏名】堀井 俊嗣
【審査官】合田 幸裕
(56)【参考文献】
【文献】特開2019-101519(JP,A)
【文献】特開2020-160616(JP,A)
【文献】国際公開第2018/154092(WO,A1)
【文献】国際公開第2019/167884(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 3/045
IEEE Xplore
JSTPlus(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
処理対象となる対象画像に対して第1ニューラルネットワークの処理を実行することによって、前記対象画像よりも小さいサイズの第1特徴マップを生成する第1処理部と、
前記第1処理部において生成した前記第1特徴マップを、前記対象画像と同一のサイズにするために拡大する拡大部と、
前記拡大部において拡大した前記第1特徴マップと、前記対象画像とを組み合わせることによって、組合せ画像を生成する組合せ部と、
前記組合せ部において生成した前記組合せ画像に対して第2ニューラルネットワークの処理を実行することによって、前記対象画像よりも小さく、かつ前記第1特徴マップよりも大きいサイズの第2特徴マップを生成する第2処理部とを備え、
前記第1処理部の前記第1ニューラルネットワークと前記第2処理部の前記第2ニューラルネットワークは全結合層を含まず、
学習時において、前記第1処理部の前記第1ニューラルネットワークだけに対する第1段階の学習がなされ、
学習時において、前記第1ニューラルネットワークに対する第1段階の学習がなされた状態で、前記第2処理部の前記第2ニューラルネットワークに対する第2段階の学習がなされる処理装置。
【請求項2】
前記組合せ部は、2つの入力を別のチャンネルとして合併する請求項1に記載の処理装置。
【請求項3】
処理対象となる対象画像に対して第1ニューラルネットワークの処理を実行することによって、前記対象画像よりも小さいサイズの第1特徴マップを生成するステップと、
生成した前記第1特徴マップを、前記対象画像と同一のサイズにするために拡大するステップと、
拡大した前記第1特徴マップと、前記対象画像とを組み合わせることによって、組合せ画像を生成するステップと、
生成した前記組合せ画像に対して第2ニューラルネットワークの処理を実行することによって、前記対象画像よりも小さく、かつ前記第1特徴マップよりも大きいサイズの第2特徴マップを生成するステップとを備え、
前記第1ニューラルネットワークと前記第2ニューラルネットワークは全結合層を含まず、
学習時において、前記第1ニューラルネットワークだけに対する第1段階の学習がなされ、
学習時において、前記第1ニューラルネットワークに対する第1段階の学習がなされた状態で、前記第2ニューラルネットワークに対する第2段階の学習がなされる処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、処理技術、特に入力された情報に対する処理を実行する処理方法およびそれを利用した処理装置に関する。
【背景技術】
【0002】
画像認識処理には、例えば、Deep Learningが使用される。Deep Learningは、多層のニューラルネットワークを使った機械学習の方法論として知られ、多層ニューラルネットワークには例えば畳み込みニューラルネットワークが使用される。畳み込みニューラルネットワークは、局所領域の畳み込み(Convolution)とプーリング(Pooling)とを繰り返す多層のニューラルネットワークによって形成される。さらに、畳み込みニューラルネットワークを構成する全結合層を畳み込み層にする完全畳み込みニューラルネットワークの構造が提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
完全畳み込みニューラルネットワークは局所領域の処理の積み重ねであるので、処理対象となる画像内の要素の位置関係が特定されない。ニューラルネットワークにおける画像認識の精度を向上させるためには、画像内の要素の位置関係を特定できる方が好ましい。
【0005】
本開示はこうした状況に鑑みなされたものであり、その目的は、全結合層を含まないニューラルネットワークにおける画像認識の精度を向上する技術を提供することにある。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本開示のある態様の処理装置は、処理対象となる対象画像に対して第1ニューラルネットワークの処理を実行することによって、対象画像よりも小さいサイズの第1特徴マップを生成する第1処理部と、第1処理部において生成した第1特徴マップを、対象画像と同一のサイズにするために拡大する拡大部と、拡大部において拡大した第1特徴マップと、対象画像とを組み合わせることによって、組合せ画像を生成する組合せ部と、組合せ部において生成した組合せ画像に対して第2ニューラルネットワークの処理を実行することによって、対象画像よりも小さく、かつ第1特徴マップよりも大きいサイズの第2特徴マップを生成する第2処理部とを備える。第1処理部の第1ニューラルネットワークと第2処理部の第2ニューラルネットワークは全結合層を含まず、学習時において、第1処理部の第1ニューラルネットワークだけに対する第1段階の学習がなされ、学習時において、第1ニューラルネットワークに対する第1段階の学習がなされた状態で、第2処理部の第2ニューラルネットワークに対する第2段階の学習がなされる。
【0007】
本開示の別の態様は、処理方法である。この方法は、処理対象となる対象画像に対して第1ニューラルネットワークの処理を実行することによって、対象画像よりも小さいサイズの第1特徴マップを生成するステップと、生成した第1特徴マップを、対象画像と同一のサイズにするために拡大するステップと、拡大した第1特徴マップと、対象画像とを組み合わせることによって、組合せ画像を生成するステップと、生成した組合せ画像に対して第2ニューラルネットワークの処理を実行することによって、対象画像よりも小さく、かつ第1特徴マップよりも大きいサイズの第2特徴マップを生成するステップとを備える。第1ニューラルネットワークと第2ニューラルネットワークは全結合層を含まず、学習時において、第1ニューラルネットワークだけに対する第1段階の学習がなされ、学習時において、第1ニューラルネットワークに対する第1段階の学習がなされた状態で、第2ニューラルネットワークに対する第2段階の学習がなされる。
【0008】
なお、以上の構成要素の任意の組合せ、本開示の表現を方法、装置、システム、コンピュータプログラム、またはコンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本開示の態様として有効である。
【発明の効果】
【0009】
本開示によれば、全結合層を含まないニューラルネットワークにおける画像認識の精度を向上できる。
【図面の簡単な説明】
【0010】
【
図1】
図1(a)-(b)は、本実施例の比較対象となる処理装置の構成を示す図である。
【
図2】
図1(a)-(b)のデンスブロックの構成を示す図である。
【
図3】本実施例に係る処理装置の構成を示す図である。
【
図4】
図4(a)-(b)は、本実施例に係る処理装置の構成を示す図である。
【
図5】
図5(a)-(b)は、
図3、
図4(b)の拡大部における処理概要を示す図である。
【
図6】
図6(a)-(c)は、
図3、
図4(b)の組合せ部における処理概要を示す図である。
【
図7】
図4(a)-(b)の処理装置による処理手順を示すシーケンス図である。
【発明を実施するための形態】
【0011】
本開示の実施例を具体的に説明する前に、本実施例の概要を説明する。実施例は、処理対象となる画像(以下、「対象画像」という)に対して画像認識処理を実行することによって、対象画像内の要素を特定する処理装置に関する。画像認識処理のために、全結合層を含まない完全畳み込みニューラルネットワークの使用が可能である。完全畳み込みニューラルネットワークでは、畳み込み層とプーリング層の処理が繰り返され、含まれる物体に対して色塗りによるセグメンテーションがなされた画像(以下、「セグメンテーション画像」あるいは「特徴マップ」という)が出力される。
【0012】
しかしながら、前述のごとく、完全畳み込みニューラルネットワークは局所領域の処理の積み重ねであるので、対象画像内の要素の位置関係が特定されない。対象画像内の要素の位置関係を利用することによって、画像認識の精度が向上するので、対象画像内の要素の位置関係を特定することが望まれる。一方、対象画像内の要素の位置関係を特定するためには、完全畳み込みニューラルネットワークの認識対象となる領域を広げる必要があるが、領域を広げることによって、領域内の画像認識の精度自体が低下してしまう。そのため、対象画像内の要素の位置関係の特定と、領域内の画像認識の精度の向上との両立が求められる。
【0013】
本実施例に係る処理装置は、広域を認識対象とするネットワーク(以下、「第1ネットワーク」という)と、狭域を認識対象とするネットワーク(以下、「第2ネットワーク」という)とを備え、処理画像を第1ネットワークに入力する。第1ネットワークにより生成される特徴マップ(以下、「第1特徴マップ」という)と処理画像とを組み合わせた画像(以下、「組合せ画像」という)は第2ネットワークに入力される。第2ネットワークにより生成される特徴マップ(以下、「第2特徴マップ」という)が出力される。
【0014】
図1(a)-(b)は、比較対象となる処理装置10の構成を示す。特に、
図1(a)は、学習処理のための構成を示し、
図1(b)は、認識処理ための構成を示す。
図1(a)における処理装置10と
図1(b)における処理装置10とは、同一の装置であってもよいし、別の装置であってもよい。
【0015】
処理装置10は、
図1(a)に示すように学習処理のための構成として、畳み込み層20、バッチノーマライゼーション層22、デンスブロック24、デンスブロック26、マックスプーリング層28、デンスブロック30、デンスブロック32、アベレージプーリング層34を含む。学習処理では、学習用画像40が使用される。学習用画像40は、画像認識の結果が教師データとして予め用意されている画像である。学習用画像40は、例えば、「28×28」のサイズを有する。これは、例えば、「1024×1024」のサイズを有する画像のうちの一部分の画像、つまり細部の画像であるといえる。学習用画像40は、畳み込み層20に入力される。
【0016】
畳み込み層20は、入力される画像、例えば学習用画像40のサイズよりも小さいサイズの空間フィルタをずらしながら空間フィルタリングを実行する。畳み込み層20において、空間フィルタのサイズが「5×5」と規定され、空間フィルタをずらす幅であるストライドが「2」と規定される。空間フィルタリングは公知の技術であるので、ここでは説明を省略するが、この空間フィルタリングが畳み込み処理に相当し、畳み込み処理によって画像の特徴量が抽出される。畳み込み層20においてパディング等が実行されてもよい。さらに、畳み込み層20は、画像に対して、複数の空間フィルタを並列に使用して、複数の空間フィルタリングを並列して実行してもよい。このような複数の空間フィルタの並列使用によって、画像が増加する。畳み込み層20において並列に使用される空間フィルタの数は、チャンネル数と呼ばれる。バッチノーマライゼーション層22には公知の技術が使用されればよい。中間情報42とは、畳み込み層20、バッチノーマライゼーション層22による処理がなされた結果であり、処理の途中の情報を示す。中間情報42は「14×14」のサイズを有する。
【0017】
デンスブロック24は、
図2のように示される。
図2は、デンスブロックの構成を示す。図示のごとく、中間情報60、畳み込み層62、組合せ層64、中間情報66、畳み込み層68、中間情報70、バッチノーマライゼーション層72を含む。中間情報60、中間情報66、中間情報70は、中間情報42と同様に、処理の途中の情報を示す。例えば、中間情報60は32チャンネルを有し、中間情報66は64チャンネルを有し、中間情報70は32チャンネルを有する。畳み込み層62、畳み込み層68は、畳み込み層20と同様である。畳み込み層62の空間フィルタのサイズは「3×3」と規定され、畳み込み層68の空間フィルタのサイズは「1×1」と規定される。組合せ層64は、中間情報60と、畳み込み層62の処理結果とを組み合わせることによって、中間情報66を生成する。中間情報60と、畳み込み層62の処理結果とは、別のチャンネルとして組み合わされる。バッチノーマライゼーション層72はバッチノーマライゼーション層22と同様である。
図1(a)に戻る。
【0018】
デンスブロック26、デンスブロック30、デンスブロック32は、デンスブロック24と同様に構成される。デンスブロック24、デンスブロック26、デンスブロック30、デンスブロック32は、
図2の構成に限定されず、畳み込み層等の組合せが異なっていてもよい。また、デンスブロック24、デンスブロック26、デンスブロック30、デンスブロック32の構成が互いに異なっていてもよい。
【0019】
マックスプーリング層28は畳み込み層20と同様に構成される。マックスプーリング層28は、画像内の任意の領域に含まれた複数の画素を1つの画素にまとめることによって、画像のサイズを小さくする。マックスプーリング層28は、複数の画素を1つの画素にまとめるために、領域内の複数の画素値の平均値を1つの画素に対して使用する。プーリング処理は、着目領域における平均値の並進移動に対してロバスト性を強化するためになされる。マックスプーリング層28において領域をずらす幅であるストライドが「2」と規定される。
【0020】
アベレージプーリング層34は、マックスプーリング層28と同様にプーリング処理を実行する。アベレージプーリング層34は、複数の画素を1つの画素にまとめるために、領域内の複数の画素値のうちの最大値を1つの画素に対して使用する。プーリング処理は、着目領域における代表値の並進移動に対してロバスト性を強化するためになされる。アベレージプーリング層34における領域のサイズが「7×7」と規定される。
【0021】
学習処理では、学習用画像40と教師データとをもとに、畳み込み層20と、デンスブロック24とデンスブロック26とデンスブロック30とデンスブロック32に含まれる畳み込み層の空間フィルタの係数が学習される。学習用画像40と教師データを使用する状況下における空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。
【0022】
処理装置10は、
図1(b)に示すように認識処理のための構成として、畳み込み層20からアベレージプーリング層34を含む。この構成は
図1(a)と同じである。ここで、
図1(a)における学習処理によって導出された空間フィルタの係数が、畳み込み層20と、デンスブロック24とデンスブロック26とデンスブロック30とデンスブロック32に含まれる畳み込み層に設定される。対象画像50は、処理装置10における認識処理の対象となる画像であり、例えば、「1024×1024」のサイズを有する。対象画像50は、畳み込み層20に入力される。
【0023】
畳み込み層20からアベレージプーリング層34は、これまでと同様の処理を実行するので、ここでは説明を省略する。また、認証処理において、中間情報52、中間情報54が生成される。中間情報52は、「512×512」のサイズを有し、中間情報54は、「256×256」のサイズを有する。認証処理の結果はアベレージプーリング層34から出力される。
【0024】
学習用画像40は「28×28」のサイズを有し、対象画像50は「1024×1024」のサイズを有するので、学習用画像40を使用する学習処理は、狭域に対してなされているといえる。そのため、処理装置10は、狭域における要素を詳細に認識可能である。ここで、異なった要素が狭域において類似する場合に、処理装置10では、それらの要素の区別が困難になる。一方、それらの要素が画像全体のうちの異なった位置に配置されていれば、それらの要素が配置された相対的な位置関係をもとに、それらの要素の区別が可能になる。そのためには、学習処理が広域に対してなされる必要がある。しかしながら、学習処理が広域に対してなされた場合、処理装置10は、狭域における要素を詳細に認識できなくなる。そのため、狭域における要素の詳細な認識と、広域における要素の位置の認識との両立が求められる。
【0025】
ここでは、本実施例を(1)構成、(2)学習処理、(3)認識処理の順に説明する。
(1)構成
図3は、処理装置1000の構成を示す。これは、認識処理のための構成である。処理装置1000は、第1処理部100、拡大部400、組合せ部500、第2処理部300を含む。第1処理部100は、バッチノーマライゼーション層110、畳み込み層112、デンスブロック114、マックスプーリング層118を含む。デンスブロック114とマックスプーリング層118との間の構成は省略される。第2処理部300は、バッチノーマライゼーション層310、畳み込み層312、デンスブロック314、デンスブロック316、マックスプーリング層318を含む。第1処理部100、第2処理部300には、全結合層が含まれない。
【0026】
(2)学習処理
学習処理では、第1段階の学習がなされてから、第2段階の学習がなされる。
図4(a)-(b)は、処理装置1000の構成を示す。
図4(a)は第1段階の学習のための構成を示し、
図4(b)は第2段階の学習のための構成を示す。
図4(a)に示される第1段階の学習では、
図3の第1処理部100だけに対する学習がなされる。第1段階の学習では、学習用画像650が使用される。学習用画像650は、画像認識の結果が教師データとして予め用意されている画像である。学習用画像650は、例えば、「112×112」のサイズを有する。学習用画像650は、第1処理部100に入力される。
【0027】
第1処理部100におけるバッチノーマライゼーション層110、畳み込み層112、デンスブロック114、マックスプーリング層118は、第1ニューラルネットワークに含まれる。これらは、
図1(a)-(b)、
図2と同様の処理を実行する。畳み込み層112の空間フィルタのサイズが「5×5」と規定され、ストライドが「2」と規定される。マックスプーリング層118のストライドが「2」と規定される。
【0028】
第1処理部100では、中間情報652が生成される。中間情報652は、「56×56」のサイズを有する。第1段階の学習では、学習用画像650と教師データとをもとに、第1処理部100に含まれる畳み込み層の空間フィルタの係数が学習される。空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。
【0029】
図4(b)に示される第2段階の学習は、第1処理部100に対する第1段階の学習がなされた状態で、第2処理部300に対してなされる。そのため、第1処理部100に含まれる各畳み込み層には、第1段階の学習によって導出された空間フィルタの係数が設定される。第2段階の学習でも、学習用画像650が使用される。学習用画像650は、第1処理部100、組合せ部500に入力される。第1処理部100は、学習用画像650に対して認識処理を実行して、中間情報654を生成する。中間情報654は、「7×7」を有する。そのため、第1処理部100は、「112×112」のサイズを「7×7」のサイズに変換する。
【0030】
学習用画像650と中間情報654とではサイズが異なるので、学習用画像650と中間情報654とを組み合わせることができない。そこで、第1処理部100には拡大部400が接続され、拡大部400が組合せ部500に接続される。拡大部400は、第1処理部100において生成した中間情報654を拡大することによって、中間情報656を生成する。中間情報656は、学習用画像650と同一の「112×112」のサイズを有する。
【0031】
図5(a)-(b)は、拡大部400における処理概要を示す。
図5(a)は、拡大部400における処理の一例を示す。画素850と総称される第1画素850aから第8画素850hは、中間情報654を構成する画素である。隣接する画素850の間に追加画素852が追加される。例えば、第1画素850a、第3画素850c、第4画素850d、第5画素850eの間に第3追加画素852cが追加される。第1追加画素852a、第4追加画素852d、第5追加画素852e、第7追加画素852g、第8追加画素852hも同様である。このように画素850に追加画素852を追加することによって、中間情報654が拡大される。拡大部400は、画素850の値を、隣接の追加画素852に複製する。例えば、第3画素850cの値は、第3追加画素852cに複製される。その結果、中間情報656が生成される。
【0032】
図5(b)は、拡大部400における処理の別の一例を示す。画素850と追加画素852は
図5(a)と同一である。拡大部400は、追加画素852を囲む複数の画素850の値を補間した値を、追加画素852に使用する。例えば、第1画素850aの値、第3画素850cの値、第4画素850dの値、第5画素850eの値を保管した値が、第3追加画素852cに使用される。補間には公知の技術が使用されればよいので、ここでは説明を省略する。
図4(b)に戻る。
【0033】
組合せ部500は、学習用画像650と中間情報656を組み合わせる。
図6(a)-(c)は、組合せ部500における処理概要を示す。第1入力情報800a、第2入力情報800bは、組合せ部500に入力される2つの情報であり、学習用画像650と中間情報656に相当する。
図6(a)では、第1入力情報800aと第2入力情報800bとが別のチャンネルとして合併される。
図6(b)では、第1入力情報800a、第2入力情報800bが、横方向に並べることによって1つのチャンネルの情報にされる。
図6(c)では、第1入力情報800a、第2入力情報800bが、縦軸方向に並べることによって1つのチャンネルの情報にされる。
図4(b)に戻る。組合せ部500は、2つの入力を画素毎に加算、減算等の四則演算して組み合わせてもよい。
【0034】
抽出部200は、組合せ部500において組み合わされた画像(以下、「組合せ画像」という)の一部、例えば中心部分を抽出する。組合せ画像は、「112×112」のサイズを有し、一部を抽出した組合せ画像(以下、これもまた「学習用画像」という)は、「28×28」のサイズを有する。学習用画像は、第2処理部300に入力される。
【0035】
第2処理部300におけるバッチノーマライゼーション層310、畳み込み層312、デンスブロック314、デンスブロック316、マックスプーリング層318は、第2ニューラルネットワークに含まれる。これらは、
図1(a)-(b)、
図2と同様の処理を実行する。畳み込み層312の空間フィルタのサイズが「5×5」と規定され、ストライドが「2」と規定される。マックスプーリング層318のストライドが「2」と規定される。
【0036】
第2処理部300では、中間情報662が生成される。中間情報662は、「14×14」のサイズを有する。そのため、第2処理部300は、「28×28」のサイズを「7×7」のサイズに変換する。第1段階の学習では、第1段階の学習がなされた状態で、学習用画像650と教師データとをもとに、第2処理部300に含まれる畳み込み層の空間フィルタの係数が学習される。空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。
【0037】
「112×112」の学習用画像650が第1処理部100の学習のために使用され、「28×28」の学習用画像が第2処理部300の学習のために使用される。学習用画像650のサイズは学習用画像のサイズよりも大きいので、第1処理部100の第1ネットワークは広域を認識対象とし、第2処理部300の第2ネットワークは狭域を認識対象とする。
【0038】
(3)認識処理
図4(a)-(b)における学習処理によって導出された空間フィルタの係数が、
図3における各畳み込み層に設定される。
図3に示される認証処理では、対象画像700が使用される。対象画像700は、処理装置1000における認識処理の対象となる画像であり、例えば、「1024×1024」のサイズを有する。対象画像700は、第1処理部100と組合せ部500に入力される。認証処理において抽出部200は使用されない。
【0039】
第1処理部100におけるバッチノーマライゼーション層110からマックスプーリング層118は、これまでと同様の処理を実行するので、ここでは説明を省略する。また、認証処理において、中間情報702が生成される。中間情報702は「512×512」のサイズを有する。第1処理部100は、対象画像700に対して第1ニューラルネットワークの処理を実行することによって、第1特徴マップ720を生成する。第1特徴マップ720は、「64×64」のサイズを有する。
【0040】
拡大部400は、第1特徴マップ720を対象画像700と同一のサイズにするために、第1特徴マップ720を拡大して第1特徴マップ722を生成する。第1特徴マップ722は、「1024×1024」のサイズを有する。組合せ部500は、拡大部400において拡大した第1特徴マップ722と、対象画像700とを組み合わせることによって、組合せ画像を生成する。組合せの処理は、前述のようになされればよい。組合せ部500は、組合せ画像を第2処理部300に出力する。
【0041】
第2処理部300におけるバッチノーマライゼーション層310からマックスプーリング層318は、これまでと同様の処理を実行するので、ここでは説明を省略する。また、認証処理において、中間情報712が生成される。中間情報712は「512×512」のサイズを有する。第2処理部300は、組合せ画像に対して第2ニューラルネットワークの処理を実行することによって、第2特徴マップ724を生成する。第2特徴マップ724は「256×256」のサイズを有しており、これは、対象画像700よりも小さく、かつ第1特徴マップ720よりも大きい。
【0042】
本開示における装置、システム、または方法の主体は、コンピュータを備えている。このコンピュータがプログラムを実行することによって、本開示における装置、システム、または方法の主体の機能が実現される。コンピュータは、プログラムにしたがって動作するプロセッサを主なハードウェア構成として備える。プロセッサは、プログラムを実行することによって機能を実現することができれば、その種類は問わない。プロセッサは、半導体集積回路(IC)、またはLSI(Large Scale Integration)を含む1つまたは複数の電子回路で構成される。複数の電子回路は、1つのチップに集積されてもよいし、複数のチップに設けられてもよい。複数のチップは1つの装置に集約されていてもよいし、複数の装置に備えられていてもよい。プログラムは、コンピュータが読み取り可能なROM、光ディスク、ハードディスクドライブなどの非一時的記録媒体に記録される。プログラムは、記録媒体に予め格納されていてもよいし、インターネット等を含む広域通信網を介して記録媒体に供給されてもよい。
【0043】
以上の構成による処理装置1000の動作を説明する。
図7は、処理装置1000による処理手順を示すシーケンス図である。処理装置1000は、第1処理部100に対して第1段階の学習を実行する(S10)。処理装置1000は、第1処理部100の学習結果を使用しながら、抽出部200に対して第2段階の学習を実行する(S12)。
【0044】
本実施例によれば、学習時において、第1処理部100に学習用画像650が入力され、第2処理部300に組合せ画像の一部の学習用画像が入力されるので、広域な認識対象のネットワークと狭域な認識対象のネットワークとを共存できる。また、広域な認識対象のネットワークと狭域な認識対象のネットワークとが共存されるので、対象画像内の要素の位置関係の特定と、領域内の画像認識の精度の向上との両立を実現できる。また、対象画像700と第1特徴マップ722とを組み合わせた組合せ画像を第2処理部300に入力するので、対象画像内の要素の位置関係の特定と、領域内の画像認識の精度の向上との両立を実現できる。また、対象画像内の要素の位置関係の特定と、領域内の画像認識の精度の向上との両立が実現されるので、全結合層を含まないニューラルネットワークにおける画像認識の精度を向上できる。
【0045】
また、拡大部400により第1特徴マップのサイズを変更するので、第1処理部100での変換の倍率と第2処理部300での変換の倍率とを独立して設定できる。また、第1処理部100での変換の倍率と第2処理部300での変換の倍率とが独立して設定されるので、第1処理部100と第2処理部300のそれぞれに適した処理を実行できる。また、第1処理部100と第2処理部300のそれぞれに適した処理が実行されるので、認識精度を向上できる。また、2つの入力を別のチャンネルとして合併するので、組合せを容易に実行できる。また、2つの入力を画素毎に四則演算して組み合わせるので、組合せを容易に実行できる。
【0046】
本開示の一態様の概要は、次の通りである。本開示のある態様の処理装置(1000)は、処理対象となる対象画像(700)に対して第1ニューラルネットワークの処理を実行することによって、対象画像(700)よりも小さいサイズの第1特徴マップ(720)を生成する第1処理部(100)と、第1処理部(100)において生成した第1特徴マップ(720)を、対象画像(700)と同一のサイズにするために拡大する拡大部(400)と、拡大部(400)において拡大した第1特徴マップ(722)と、対象画像(700)とを組み合わせることによって、組合せ画像を生成する組合せ部(500)と、組合せ部(500)において生成した組合せ画像に対して第2ニューラルネットワークの処理を実行することによって、対象画像(700)よりも小さく、かつ第1特徴マップ(720)よりも大きいサイズの第2特徴マップ(724)を生成する第2処理部(300)とを備える。第1処理部(100)の第1ニューラルネットワークと第2処理部(300)の第2ニューラルネットワークは全結合層を含まず、学習時において、第1処理部(100)の第1ニューラルネットワークだけに対する第1段階の学習がなされ、学習時において、第1ニューラルネットワークに対する第1段階の学習がなされた状態で、第2処理部(300)の第2ニューラルネットワークに対する第2段階の学習がなされる。
【0047】
組合せ部(500)は、2つの入力を別のチャンネルとして合併してもよい。
【0048】
本開示の別の態様は、処理方法である。この方法は、処理対象となる対象画像(700)に対して第1ニューラルネットワークの処理を実行することによって、対象画像(700)よりも小さいサイズの第1特徴マップ(720)を生成するステップと、生成した第1特徴マップ(720)を、対象画像(700)と同一のサイズにするために拡大するステップと、拡大した第1特徴マップ(722)と、対象画像(700)とを組み合わせることによって、組合せ画像を生成するステップと、生成した組合せ画像に対して第2ニューラルネットワークの処理を実行することによって、対象画像(700)よりも小さく、かつ第1特徴マップ(720)よりも大きいサイズの第2特徴マップ(724)を生成するステップとを備える。第1ニューラルネットワークと第2ニューラルネットワークは全結合層を含まず、学習時において、第1ニューラルネットワークだけに対する第1段階の学習がなされ、学習時において、第1ニューラルネットワークに対する第1段階の学習がなされた状態で、第2ニューラルネットワークに対する第2段階の学習がなされる。
【0049】
以上、本開示を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素あるいは各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本開示の範囲にあることは当業者に理解されるところである。
【産業上の利用可能性】
【0050】
本開示によれば、全結合層を含まないニューラルネットワークにおける画像認識の精度を向上できる。
【符号の説明】
【0051】
10 処理装置、 20 畳み込み層、 22 バッチノーマライゼーション層、 24,26 デンスブロック、 28 マックスプーリング層、 30,32 デンスブロック、 34 アベレージプーリング層、 62 畳み込み層、 64 組合せ層、 68 畳み込み層、 72 バッチノーマライゼーション層、 100 第1処理部、 110 バッチノーマライゼーション層、 112 畳み込み層、 114 デンスブロック、 118 マックスプーリング層、 200 抽出部、 300 第2処理部、 310 バッチノーマライゼーション層、 312 畳み込み層、 314,316 デンスブロック、 318 マックスプーリング層、 400 拡大部、 500 組合せ部、 1000 処理装置。