特許7407407 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニックＩＰマネジメント株式会社の特許一覧

特許7407407処理方法およびそれを利用した処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-21

(45)【発行日】2024-01-04

(54)【発明の名称】処理方法およびそれを利用した処理装置

(51)【国際特許分類】

G06T 7/00 20170101AFI20231222BHJP

G06N 3/045 20230101ALI20231222BHJP

【ＦＩ】

G06T7/00 350C

G06N3/045

【請求項の数】 3

(21)【出願番号】P 2022555267

(86)(22)【出願日】2021-06-25

(86)【国際出願番号】 JP2021024225

(87)【国際公開番号】W WO2022074878

(87)【国際公開日】2022-04-14

【審査請求日】2023-04-04

(31)【優先権主張番号】P 2020170752

(32)【優先日】2020-10-08

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】314012076

【氏名又は名称】パナソニックＩＰマネジメント株式会社

(74)【代理人】

【識別番号】100123102

【弁理士】

【氏名又は名称】宗田悟志

(72)【発明者】

【氏名】堀井俊嗣

【審査官】合田幸裕

(56)【参考文献】

【文献】特開２０１９－１０１５１９（ＪＰ，Ａ）

【文献】特開２０２０－１６０６１６（ＪＰ，Ａ）

【文献】国際公開第２０１８／１５４０９２（ＷＯ，Ａ１）

【文献】国際公開第２０１９／１６７８８４（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｎ３／０４５

ＩＥＥＥＸｐｌｏｒｅ

ＪＳＴＰｌｕｓ（ＪＤｒｅａｍＩＩＩ）

(57)【特許請求の範囲】

【請求項1】

処理対象となる対象画像に対して第１ニューラルネットワークの処理を実行することによって、前記対象画像よりも小さいサイズの第１特徴マップを生成する第１処理部と、
前記第１処理部において生成した前記第１特徴マップを、前記対象画像と同一のサイズにするために拡大する拡大部と、
前記拡大部において拡大した前記第１特徴マップと、前記対象画像とを組み合わせることによって、組合せ画像を生成する組合せ部と、
前記組合せ部において生成した前記組合せ画像に対して第２ニューラルネットワークの処理を実行することによって、前記対象画像よりも小さく、かつ前記第１特徴マップよりも大きいサイズの第２特徴マップを生成する第２処理部とを備え、
前記第１処理部の前記第１ニューラルネットワークと前記第２処理部の前記第２ニューラルネットワークは全結合層を含まず、
学習時において、前記第１処理部の前記第１ニューラルネットワークだけに対する第１段階の学習がなされ、
学習時において、前記第１ニューラルネットワークに対する第１段階の学習がなされた状態で、前記第２処理部の前記第２ニューラルネットワークに対する第２段階の学習がなされる処理装置。

【請求項2】

前記組合せ部は、２つの入力を別のチャンネルとして合併する請求項１に記載の処理装置。

【請求項3】

処理対象となる対象画像に対して第１ニューラルネットワークの処理を実行することによって、前記対象画像よりも小さいサイズの第１特徴マップを生成するステップと、
生成した前記第１特徴マップを、前記対象画像と同一のサイズにするために拡大するステップと、
拡大した前記第１特徴マップと、前記対象画像とを組み合わせることによって、組合せ画像を生成するステップと、
生成した前記組合せ画像に対して第２ニューラルネットワークの処理を実行することによって、前記対象画像よりも小さく、かつ前記第１特徴マップよりも大きいサイズの第２特徴マップを生成するステップとを備え、
前記第１ニューラルネットワークと前記第２ニューラルネットワークは全結合層を含まず、
学習時において、前記第１ニューラルネットワークだけに対する第１段階の学習がなされ、
学習時において、前記第１ニューラルネットワークに対する第１段階の学習がなされた状態で、前記第２ニューラルネットワークに対する第２段階の学習がなされる処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、処理技術、特に入力された情報に対する処理を実行する処理方法およびそれを利用した処理装置に関する。

【背景技術】

【0002】

画像認識処理には、例えば、ＤｅｅｐＬｅａｒｎｉｎｇが使用される。ＤｅｅｐＬｅａｒｎｉｎｇは、多層のニューラルネットワークを使った機械学習の方法論として知られ、多層ニューラルネットワークには例えば畳み込みニューラルネットワークが使用される。畳み込みニューラルネットワークは、局所領域の畳み込み(Ｃｏｎｖｏｌｕｔｉｏｎ)とプーリング(Ｐｏｏｌｉｎｇ)とを繰り返す多層のニューラルネットワークによって形成される。さらに、畳み込みニューラルネットワークを構成する全結合層を畳み込み層にする完全畳み込みニューラルネットワークの構造が提案されている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【文献】国際公開第１９／１５９４１９号

【発明の概要】

【発明が解決しようとする課題】

【0004】

完全畳み込みニューラルネットワークは局所領域の処理の積み重ねであるので、処理対象となる画像内の要素の位置関係が特定されない。ニューラルネットワークにおける画像認識の精度を向上させるためには、画像内の要素の位置関係を特定できる方が好ましい。

【0005】

本開示はこうした状況に鑑みなされたものであり、その目的は、全結合層を含まないニューラルネットワークにおける画像認識の精度を向上する技術を提供することにある。

【課題を解決するための手段】

【0006】

上記課題を解決するために、本開示のある態様の処理装置は、処理対象となる対象画像に対して第１ニューラルネットワークの処理を実行することによって、対象画像よりも小さいサイズの第１特徴マップを生成する第１処理部と、第１処理部において生成した第１特徴マップを、対象画像と同一のサイズにするために拡大する拡大部と、拡大部において拡大した第１特徴マップと、対象画像とを組み合わせることによって、組合せ画像を生成する組合せ部と、組合せ部において生成した組合せ画像に対して第２ニューラルネットワークの処理を実行することによって、対象画像よりも小さく、かつ第１特徴マップよりも大きいサイズの第２特徴マップを生成する第２処理部とを備える。第１処理部の第１ニューラルネットワークと第２処理部の第２ニューラルネットワークは全結合層を含まず、学習時において、第１処理部の第１ニューラルネットワークだけに対する第１段階の学習がなされ、学習時において、第１ニューラルネットワークに対する第１段階の学習がなされた状態で、第２処理部の第２ニューラルネットワークに対する第２段階の学習がなされる。

【0007】

本開示の別の態様は、処理方法である。この方法は、処理対象となる対象画像に対して第１ニューラルネットワークの処理を実行することによって、対象画像よりも小さいサイズの第１特徴マップを生成するステップと、生成した第１特徴マップを、対象画像と同一のサイズにするために拡大するステップと、拡大した第１特徴マップと、対象画像とを組み合わせることによって、組合せ画像を生成するステップと、生成した組合せ画像に対して第２ニューラルネットワークの処理を実行することによって、対象画像よりも小さく、かつ第１特徴マップよりも大きいサイズの第２特徴マップを生成するステップとを備える。第１ニューラルネットワークと第２ニューラルネットワークは全結合層を含まず、学習時において、第１ニューラルネットワークだけに対する第１段階の学習がなされ、学習時において、第１ニューラルネットワークに対する第１段階の学習がなされた状態で、第２ニューラルネットワークに対する第２段階の学習がなされる。

【0008】

なお、以上の構成要素の任意の組合せ、本開示の表現を方法、装置、システム、コンピュータプログラム、またはコンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本開示の態様として有効である。

【発明の効果】

【0009】

本開示によれば、全結合層を含まないニューラルネットワークにおける画像認識の精度を向上できる。

【図面の簡単な説明】

【0010】

【図1】図１（ａ）－（ｂ）は、本実施例の比較対象となる処理装置の構成を示す図である。

【図2】図１（ａ）－（ｂ）のデンスブロックの構成を示す図である。

【図3】本実施例に係る処理装置の構成を示す図である。

【図4】図４（ａ）－（ｂ）は、本実施例に係る処理装置の構成を示す図である。

【図5】図５（ａ）－（ｂ）は、図３、図４（ｂ）の拡大部における処理概要を示す図である。

【図6】図６（ａ）－（ｃ）は、図３、図４（ｂ）の組合せ部における処理概要を示す図である。

【図7】図４（ａ）－（ｂ）の処理装置による処理手順を示すシーケンス図である。

【発明を実施するための形態】

【0011】

本開示の実施例を具体的に説明する前に、本実施例の概要を説明する。実施例は、処理対象となる画像（以下、「対象画像」という）に対して画像認識処理を実行することによって、対象画像内の要素を特定する処理装置に関する。画像認識処理のために、全結合層を含まない完全畳み込みニューラルネットワークの使用が可能である。完全畳み込みニューラルネットワークでは、畳み込み層とプーリング層の処理が繰り返され、含まれる物体に対して色塗りによるセグメンテーションがなされた画像（以下、「セグメンテーション画像」あるいは「特徴マップ」という）が出力される。

【0012】

しかしながら、前述のごとく、完全畳み込みニューラルネットワークは局所領域の処理の積み重ねであるので、対象画像内の要素の位置関係が特定されない。対象画像内の要素の位置関係を利用することによって、画像認識の精度が向上するので、対象画像内の要素の位置関係を特定することが望まれる。一方、対象画像内の要素の位置関係を特定するためには、完全畳み込みニューラルネットワークの認識対象となる領域を広げる必要があるが、領域を広げることによって、領域内の画像認識の精度自体が低下してしまう。そのため、対象画像内の要素の位置関係の特定と、領域内の画像認識の精度の向上との両立が求められる。

【0013】

本実施例に係る処理装置は、広域を認識対象とするネットワーク（以下、「第１ネットワーク」という）と、狭域を認識対象とするネットワーク（以下、「第２ネットワーク」という）とを備え、処理画像を第１ネットワークに入力する。第１ネットワークにより生成される特徴マップ（以下、「第１特徴マップ」という）と処理画像とを組み合わせた画像（以下、「組合せ画像」という）は第２ネットワークに入力される。第２ネットワークにより生成される特徴マップ（以下、「第２特徴マップ」という）が出力される。

【0014】

図１（ａ）－（ｂ）は、比較対象となる処理装置１０の構成を示す。特に、図１（ａ）は、学習処理のための構成を示し、図１（ｂ）は、認識処理ための構成を示す。図１（ａ）における処理装置１０と図１（ｂ）における処理装置１０とは、同一の装置であってもよいし、別の装置であってもよい。

【0015】

処理装置１０は、図１（ａ）に示すように学習処理のための構成として、畳み込み層２０、バッチノーマライゼーション層２２、デンスブロック２４、デンスブロック２６、マックスプーリング層２８、デンスブロック３０、デンスブロック３２、アベレージプーリング層３４を含む。学習処理では、学習用画像４０が使用される。学習用画像４０は、画像認識の結果が教師データとして予め用意されている画像である。学習用画像４０は、例えば、「２８×２８」のサイズを有する。これは、例えば、「１０２４×１０２４」のサイズを有する画像のうちの一部分の画像、つまり細部の画像であるといえる。学習用画像４０は、畳み込み層２０に入力される。

【0016】

畳み込み層２０は、入力される画像、例えば学習用画像４０のサイズよりも小さいサイズの空間フィルタをずらしながら空間フィルタリングを実行する。畳み込み層２０において、空間フィルタのサイズが「５×５」と規定され、空間フィルタをずらす幅であるストライドが「２」と規定される。空間フィルタリングは公知の技術であるので、ここでは説明を省略するが、この空間フィルタリングが畳み込み処理に相当し、畳み込み処理によって画像の特徴量が抽出される。畳み込み層２０においてパディング等が実行されてもよい。さらに、畳み込み層２０は、画像に対して、複数の空間フィルタを並列に使用して、複数の空間フィルタリングを並列して実行してもよい。このような複数の空間フィルタの並列使用によって、画像が増加する。畳み込み層２０において並列に使用される空間フィルタの数は、チャンネル数と呼ばれる。バッチノーマライゼーション層２２には公知の技術が使用されればよい。中間情報４２とは、畳み込み層２０、バッチノーマライゼーション層２２による処理がなされた結果であり、処理の途中の情報を示す。中間情報４２は「１４×１４」のサイズを有する。

【0017】

デンスブロック２４は、図２のように示される。図２は、デンスブロックの構成を示す。図示のごとく、中間情報６０、畳み込み層６２、組合せ層６４、中間情報６６、畳み込み層６８、中間情報７０、バッチノーマライゼーション層７２を含む。中間情報６０、中間情報６６、中間情報７０は、中間情報４２と同様に、処理の途中の情報を示す。例えば、中間情報６０は３２チャンネルを有し、中間情報６６は６４チャンネルを有し、中間情報７０は３２チャンネルを有する。畳み込み層６２、畳み込み層６８は、畳み込み層２０と同様である。畳み込み層６２の空間フィルタのサイズは「３×３」と規定され、畳み込み層６８の空間フィルタのサイズは「１×１」と規定される。組合せ層６４は、中間情報６０と、畳み込み層６２の処理結果とを組み合わせることによって、中間情報６６を生成する。中間情報６０と、畳み込み層６２の処理結果とは、別のチャンネルとして組み合わされる。バッチノーマライゼーション層７２はバッチノーマライゼーション層２２と同様である。図１（ａ）に戻る。

【0018】

デンスブロック２６、デンスブロック３０、デンスブロック３２は、デンスブロック２４と同様に構成される。デンスブロック２４、デンスブロック２６、デンスブロック３０、デンスブロック３２は、図２の構成に限定されず、畳み込み層等の組合せが異なっていてもよい。また、デンスブロック２４、デンスブロック２６、デンスブロック３０、デンスブロック３２の構成が互いに異なっていてもよい。

【0019】

マックスプーリング層２８は畳み込み層２０と同様に構成される。マックスプーリング層２８は、画像内の任意の領域に含まれた複数の画素を１つの画素にまとめることによって、画像のサイズを小さくする。マックスプーリング層２８は、複数の画素を１つの画素にまとめるために、領域内の複数の画素値の平均値を１つの画素に対して使用する。プーリング処理は、着目領域における平均値の並進移動に対してロバスト性を強化するためになされる。マックスプーリング層２８において領域をずらす幅であるストライドが「２」と規定される。

【0020】

アベレージプーリング層３４は、マックスプーリング層２８と同様にプーリング処理を実行する。アベレージプーリング層３４は、複数の画素を１つの画素にまとめるために、領域内の複数の画素値のうちの最大値を１つの画素に対して使用する。プーリング処理は、着目領域における代表値の並進移動に対してロバスト性を強化するためになされる。アベレージプーリング層３４における領域のサイズが「７×７」と規定される。

【0021】

学習処理では、学習用画像４０と教師データとをもとに、畳み込み層２０と、デンスブロック２４とデンスブロック２６とデンスブロック３０とデンスブロック３２に含まれる畳み込み層の空間フィルタの係数が学習される。学習用画像４０と教師データを使用する状況下における空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。

【0022】

処理装置１０は、図１（ｂ）に示すように認識処理のための構成として、畳み込み層２０からアベレージプーリング層３４を含む。この構成は図１（ａ）と同じである。ここで、図１（ａ）における学習処理によって導出された空間フィルタの係数が、畳み込み層２０と、デンスブロック２４とデンスブロック２６とデンスブロック３０とデンスブロック３２に含まれる畳み込み層に設定される。対象画像５０は、処理装置１０における認識処理の対象となる画像であり、例えば、「１０２４×１０２４」のサイズを有する。対象画像５０は、畳み込み層２０に入力される。

【0023】

畳み込み層２０からアベレージプーリング層３４は、これまでと同様の処理を実行するので、ここでは説明を省略する。また、認証処理において、中間情報５２、中間情報５４が生成される。中間情報５２は、「５１２×５１２」のサイズを有し、中間情報５４は、「２５６×２５６」のサイズを有する。認証処理の結果はアベレージプーリング層３４から出力される。

【0024】

学習用画像４０は「２８×２８」のサイズを有し、対象画像５０は「１０２４×１０２４」のサイズを有するので、学習用画像４０を使用する学習処理は、狭域に対してなされているといえる。そのため、処理装置１０は、狭域における要素を詳細に認識可能である。ここで、異なった要素が狭域において類似する場合に、処理装置１０では、それらの要素の区別が困難になる。一方、それらの要素が画像全体のうちの異なった位置に配置されていれば、それらの要素が配置された相対的な位置関係をもとに、それらの要素の区別が可能になる。そのためには、学習処理が広域に対してなされる必要がある。しかしながら、学習処理が広域に対してなされた場合、処理装置１０は、狭域における要素を詳細に認識できなくなる。そのため、狭域における要素の詳細な認識と、広域における要素の位置の認識との両立が求められる。

【0025】

ここでは、本実施例を（１）構成、（２）学習処理、（３）認識処理の順に説明する。
（１）構成
図３は、処理装置１０００の構成を示す。これは、認識処理のための構成である。処理装置１０００は、第１処理部１００、拡大部４００、組合せ部５００、第２処理部３００を含む。第１処理部１００は、バッチノーマライゼーション層１１０、畳み込み層１１２、デンスブロック１１４、マックスプーリング層１１８を含む。デンスブロック１１４とマックスプーリング層１１８との間の構成は省略される。第２処理部３００は、バッチノーマライゼーション層３１０、畳み込み層３１２、デンスブロック３１４、デンスブロック３１６、マックスプーリング層３１８を含む。第１処理部１００、第２処理部３００には、全結合層が含まれない。

【0026】

（２）学習処理
学習処理では、第１段階の学習がなされてから、第２段階の学習がなされる。図４（ａ）－（ｂ）は、処理装置１０００の構成を示す。図４（ａ）は第１段階の学習のための構成を示し、図４（ｂ）は第２段階の学習のための構成を示す。図４（ａ）に示される第１段階の学習では、図３の第１処理部１００だけに対する学習がなされる。第１段階の学習では、学習用画像６５０が使用される。学習用画像６５０は、画像認識の結果が教師データとして予め用意されている画像である。学習用画像６５０は、例えば、「１１２×１１２」のサイズを有する。学習用画像６５０は、第１処理部１００に入力される。

【0027】

第１処理部１００におけるバッチノーマライゼーション層１１０、畳み込み層１１２、デンスブロック１１４、マックスプーリング層１１８は、第１ニューラルネットワークに含まれる。これらは、図１（ａ）－（ｂ）、図２と同様の処理を実行する。畳み込み層１１２の空間フィルタのサイズが「５×５」と規定され、ストライドが「２」と規定される。マックスプーリング層１１８のストライドが「２」と規定される。

【0028】

第１処理部１００では、中間情報６５２が生成される。中間情報６５２は、「５６×５６」のサイズを有する。第１段階の学習では、学習用画像６５０と教師データとをもとに、第１処理部１００に含まれる畳み込み層の空間フィルタの係数が学習される。空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。

【0029】

図４（ｂ）に示される第２段階の学習は、第１処理部１００に対する第１段階の学習がなされた状態で、第２処理部３００に対してなされる。そのため、第１処理部１００に含まれる各畳み込み層には、第１段階の学習によって導出された空間フィルタの係数が設定される。第２段階の学習でも、学習用画像６５０が使用される。学習用画像６５０は、第１処理部１００、組合せ部５００に入力される。第１処理部１００は、学習用画像６５０に対して認識処理を実行して、中間情報６５４を生成する。中間情報６５４は、「７×７」を有する。そのため、第１処理部１００は、「１１２×１１２」のサイズを「７×７」のサイズに変換する。

【0030】

学習用画像６５０と中間情報６５４とではサイズが異なるので、学習用画像６５０と中間情報６５４とを組み合わせることができない。そこで、第１処理部１００には拡大部４００が接続され、拡大部４００が組合せ部５００に接続される。拡大部４００は、第１処理部１００において生成した中間情報６５４を拡大することによって、中間情報６５６を生成する。中間情報６５６は、学習用画像６５０と同一の「１１２×１１２」のサイズを有する。

【0031】

図５（ａ）－（ｂ）は、拡大部４００における処理概要を示す。図５（ａ）は、拡大部４００における処理の一例を示す。画素８５０と総称される第１画素８５０ａから第８画素８５０ｈは、中間情報６５４を構成する画素である。隣接する画素８５０の間に追加画素８５２が追加される。例えば、第１画素８５０ａ、第３画素８５０ｃ、第４画素８５０ｄ、第５画素８５０ｅの間に第３追加画素８５２ｃが追加される。第１追加画素８５２ａ、第４追加画素８５２ｄ、第５追加画素８５２ｅ、第７追加画素８５２ｇ、第８追加画素８５２ｈも同様である。このように画素８５０に追加画素８５２を追加することによって、中間情報６５４が拡大される。拡大部４００は、画素８５０の値を、隣接の追加画素８５２に複製する。例えば、第３画素８５０ｃの値は、第３追加画素８５２ｃに複製される。その結果、中間情報６５６が生成される。

【0032】

図５（ｂ）は、拡大部４００における処理の別の一例を示す。画素８５０と追加画素８５２は図５（ａ）と同一である。拡大部４００は、追加画素８５２を囲む複数の画素８５０の値を補間した値を、追加画素８５２に使用する。例えば、第１画素８５０ａの値、第３画素８５０ｃの値、第４画素８５０ｄの値、第５画素８５０ｅの値を保管した値が、第３追加画素８５２ｃに使用される。補間には公知の技術が使用されればよいので、ここでは説明を省略する。図４（ｂ）に戻る。

【0033】

組合せ部５００は、学習用画像６５０と中間情報６５６を組み合わせる。図６（ａ）－（ｃ）は、組合せ部５００における処理概要を示す。第１入力情報８００ａ、第２入力情報８００ｂは、組合せ部５００に入力される２つの情報であり、学習用画像６５０と中間情報６５６に相当する。図６（ａ）では、第１入力情報８００ａと第２入力情報８００ｂとが別のチャンネルとして合併される。図６（ｂ）では、第１入力情報８００ａ、第２入力情報８００ｂが、横方向に並べることによって１つのチャンネルの情報にされる。図６（ｃ）では、第１入力情報８００ａ、第２入力情報８００ｂが、縦軸方向に並べることによって１つのチャンネルの情報にされる。図４（ｂ）に戻る。組合せ部５００は、２つの入力を画素毎に加算、減算等の四則演算して組み合わせてもよい。

【0034】

抽出部２００は、組合せ部５００において組み合わされた画像（以下、「組合せ画像」という）の一部、例えば中心部分を抽出する。組合せ画像は、「１１２×１１２」のサイズを有し、一部を抽出した組合せ画像（以下、これもまた「学習用画像」という）は、「２８×２８」のサイズを有する。学習用画像は、第２処理部３００に入力される。

【0035】

第２処理部３００におけるバッチノーマライゼーション層３１０、畳み込み層３１２、デンスブロック３１４、デンスブロック３１６、マックスプーリング層３１８は、第２ニューラルネットワークに含まれる。これらは、図１（ａ）－（ｂ）、図２と同様の処理を実行する。畳み込み層３１２の空間フィルタのサイズが「５×５」と規定され、ストライドが「２」と規定される。マックスプーリング層３１８のストライドが「２」と規定される。

【0036】

第２処理部３００では、中間情報６６２が生成される。中間情報６６２は、「１４×１４」のサイズを有する。そのため、第２処理部３００は、「２８×２８」のサイズを「７×７」のサイズに変換する。第１段階の学習では、第１段階の学習がなされた状態で、学習用画像６５０と教師データとをもとに、第２処理部３００に含まれる畳み込み層の空間フィルタの係数が学習される。空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。

【0037】

「１１２×１１２」の学習用画像６５０が第１処理部１００の学習のために使用され、「２８×２８」の学習用画像が第２処理部３００の学習のために使用される。学習用画像６５０のサイズは学習用画像のサイズよりも大きいので、第１処理部１００の第１ネットワークは広域を認識対象とし、第２処理部３００の第２ネットワークは狭域を認識対象とする。

【0038】

（３）認識処理
図４（ａ）－（ｂ）における学習処理によって導出された空間フィルタの係数が、図３における各畳み込み層に設定される。図３に示される認証処理では、対象画像７００が使用される。対象画像７００は、処理装置１０００における認識処理の対象となる画像であり、例えば、「１０２４×１０２４」のサイズを有する。対象画像７００は、第１処理部１００と組合せ部５００に入力される。認証処理において抽出部２００は使用されない。

【0039】

第１処理部１００におけるバッチノーマライゼーション層１１０からマックスプーリング層１１８は、これまでと同様の処理を実行するので、ここでは説明を省略する。また、認証処理において、中間情報７０２が生成される。中間情報７０２は「５１２×５１２」のサイズを有する。第１処理部１００は、対象画像７００に対して第１ニューラルネットワークの処理を実行することによって、第１特徴マップ７２０を生成する。第１特徴マップ７２０は、「６４×６４」のサイズを有する。

【0040】

拡大部４００は、第１特徴マップ７２０を対象画像７００と同一のサイズにするために、第１特徴マップ７２０を拡大して第１特徴マップ７２２を生成する。第１特徴マップ７２２は、「１０２４×１０２４」のサイズを有する。組合せ部５００は、拡大部４００において拡大した第１特徴マップ７２２と、対象画像７００とを組み合わせることによって、組合せ画像を生成する。組合せの処理は、前述のようになされればよい。組合せ部５００は、組合せ画像を第２処理部３００に出力する。

【0041】

第２処理部３００におけるバッチノーマライゼーション層３１０からマックスプーリング層３１８は、これまでと同様の処理を実行するので、ここでは説明を省略する。また、認証処理において、中間情報７１２が生成される。中間情報７１２は「５１２×５１２」のサイズを有する。第２処理部３００は、組合せ画像に対して第２ニューラルネットワークの処理を実行することによって、第２特徴マップ７２４を生成する。第２特徴マップ７２４は「２５６×２５６」のサイズを有しており、これは、対象画像７００よりも小さく、かつ第１特徴マップ７２０よりも大きい。

【0042】

本開示における装置、システム、または方法の主体は、コンピュータを備えている。このコンピュータがプログラムを実行することによって、本開示における装置、システム、または方法の主体の機能が実現される。コンピュータは、プログラムにしたがって動作するプロセッサを主なハードウェア構成として備える。プロセッサは、プログラムを実行することによって機能を実現することができれば、その種類は問わない。プロセッサは、半導体集積回路（ＩＣ）、またはＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）を含む１つまたは複数の電子回路で構成される。複数の電子回路は、１つのチップに集積されてもよいし、複数のチップに設けられてもよい。複数のチップは１つの装置に集約されていてもよいし、複数の装置に備えられていてもよい。プログラムは、コンピュータが読み取り可能なＲＯＭ、光ディスク、ハードディスクドライブなどの非一時的記録媒体に記録される。プログラムは、記録媒体に予め格納されていてもよいし、インターネット等を含む広域通信網を介して記録媒体に供給されてもよい。

【0043】

以上の構成による処理装置１０００の動作を説明する。図７は、処理装置１０００による処理手順を示すシーケンス図である。処理装置１０００は、第１処理部１００に対して第１段階の学習を実行する（Ｓ１０）。処理装置１０００は、第１処理部１００の学習結果を使用しながら、抽出部２００に対して第２段階の学習を実行する（Ｓ１２）。

【0044】

本実施例によれば、学習時において、第１処理部１００に学習用画像６５０が入力され、第２処理部３００に組合せ画像の一部の学習用画像が入力されるので、広域な認識対象のネットワークと狭域な認識対象のネットワークとを共存できる。また、広域な認識対象のネットワークと狭域な認識対象のネットワークとが共存されるので、対象画像内の要素の位置関係の特定と、領域内の画像認識の精度の向上との両立を実現できる。また、対象画像７００と第１特徴マップ７２２とを組み合わせた組合せ画像を第２処理部３００に入力するので、対象画像内の要素の位置関係の特定と、領域内の画像認識の精度の向上との両立を実現できる。また、対象画像内の要素の位置関係の特定と、領域内の画像認識の精度の向上との両立が実現されるので、全結合層を含まないニューラルネットワークにおける画像認識の精度を向上できる。

【0045】

また、拡大部４００により第１特徴マップのサイズを変更するので、第１処理部１００での変換の倍率と第２処理部３００での変換の倍率とを独立して設定できる。また、第１処理部１００での変換の倍率と第２処理部３００での変換の倍率とが独立して設定されるので、第１処理部１００と第２処理部３００のそれぞれに適した処理を実行できる。また、第１処理部１００と第２処理部３００のそれぞれに適した処理が実行されるので、認識精度を向上できる。また、２つの入力を別のチャンネルとして合併するので、組合せを容易に実行できる。また、２つの入力を画素毎に四則演算して組み合わせるので、組合せを容易に実行できる。

【0046】

本開示の一態様の概要は、次の通りである。本開示のある態様の処理装置（１０００）は、処理対象となる対象画像（７００）に対して第１ニューラルネットワークの処理を実行することによって、対象画像（７００）よりも小さいサイズの第１特徴マップ（７２０）を生成する第１処理部（１００）と、第１処理部（１００）において生成した第１特徴マップ（７２０）を、対象画像（７００）と同一のサイズにするために拡大する拡大部（４００）と、拡大部（４００）において拡大した第１特徴マップ（７２２）と、対象画像（７００）とを組み合わせることによって、組合せ画像を生成する組合せ部（５００）と、組合せ部（５００）において生成した組合せ画像に対して第２ニューラルネットワークの処理を実行することによって、対象画像（７００）よりも小さく、かつ第１特徴マップ（７２０）よりも大きいサイズの第２特徴マップ（７２４）を生成する第２処理部（３００）とを備える。第１処理部（１００）の第１ニューラルネットワークと第２処理部（３００）の第２ニューラルネットワークは全結合層を含まず、学習時において、第１処理部（１００）の第１ニューラルネットワークだけに対する第１段階の学習がなされ、学習時において、第１ニューラルネットワークに対する第１段階の学習がなされた状態で、第２処理部（３００）の第２ニューラルネットワークに対する第２段階の学習がなされる。

【0047】

組合せ部（５００）は、２つの入力を別のチャンネルとして合併してもよい。

【0048】

本開示の別の態様は、処理方法である。この方法は、処理対象となる対象画像（７００）に対して第１ニューラルネットワークの処理を実行することによって、対象画像（７００）よりも小さいサイズの第１特徴マップ（７２０）を生成するステップと、生成した第１特徴マップ（７２０）を、対象画像（７００）と同一のサイズにするために拡大するステップと、拡大した第１特徴マップ（７２２）と、対象画像（７００）とを組み合わせることによって、組合せ画像を生成するステップと、生成した組合せ画像に対して第２ニューラルネットワークの処理を実行することによって、対象画像（７００）よりも小さく、かつ第１特徴マップ（７２０）よりも大きいサイズの第２特徴マップ（７２４）を生成するステップとを備える。第１ニューラルネットワークと第２ニューラルネットワークは全結合層を含まず、学習時において、第１ニューラルネットワークだけに対する第１段階の学習がなされ、学習時において、第１ニューラルネットワークに対する第１段階の学習がなされた状態で、第２ニューラルネットワークに対する第２段階の学習がなされる。

【0049】

以上、本開示を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素あるいは各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本開示の範囲にあることは当業者に理解されるところである。

【産業上の利用可能性】

【0050】

本開示によれば、全結合層を含まないニューラルネットワークにおける画像認識の精度を向上できる。

【符号の説明】

【0051】

１０処理装置、２０畳み込み層、２２バッチノーマライゼーション層、２４，２６デンスブロック、２８マックスプーリング層、３０，３２デンスブロック、３４アベレージプーリング層、６２畳み込み層、６４組合せ層、６８畳み込み層、７２バッチノーマライゼーション層、１００第１処理部、１１０バッチノーマライゼーション層、１１２畳み込み層、１１４デンスブロック、１１８マックスプーリング層、２００抽出部、３００第２処理部、３１０バッチノーマライゼーション層、３１２畳み込み層、３１４，３１６デンスブロック、３１８マックスプーリング層、４００拡大部、５００組合せ部、１０００処理装置。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版