特許7162956 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社デンソーの特許一覧 ▶ 株式会社デンソーアイティーラボラトリの特許一覧

特許7162956データ処理装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25A
25B
26
27
28
29
30

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-10-21

(45)【発行日】2022-10-31

(54)【発明の名称】データ処理装置及びプログラム

(51)【国際特許分類】

G06F 17/10 20060101AFI20221024BHJP

G06F 12/00 20060101ALI20221024BHJP

G06F 17/16 20060101ALI20221024BHJP

G06N 3/10 20060101ALI20221024BHJP

【ＦＩ】

G06F17/10 A

G06F12/00 560B

G06F17/16 M

G06N3/10

【請求項の数】 14

(21)【出願番号】P 2019159501

(22)【出願日】2019-09-02

(65)【公開番号】P2021039483

(43)【公開日】2021-03-11

【審査請求日】2021-07-30

(73)【特許権者】

【識別番号】000004260

【氏名又は名称】株式会社デンソー

(73)【特許権者】

【識別番号】502324066

【氏名又は名称】株式会社デンソーアイティーラボラトリ

(74)【代理人】

【識別番号】110001519

【氏名又は名称】弁理士法人太陽国際特許事務所

(72)【発明者】

【氏名】森政文

(72)【発明者】

【氏名】安倍満

【審査官】漆原孝治

(56)【参考文献】

【文献】特開２０１８－１１６４１９（ＪＰ，Ａ）

【文献】特開２０１４－２２５０８９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１７／１０

Ｇ０６Ｆ１２／００

Ｇ０６Ｆ１７／１６

Ｇ０６Ｎ３／１０

(57)【特許請求の範囲】

【請求項1】

処理対象データを格納する外部メモリ（５２）と、
前記外部メモリに格納されているデータのうち少なくとも一部を格納する入力バッファ部（５４）と、
前記入力バッファ部に格納されたデータを用いてＭ×Ｍの畳み込み処理を行うＭ×Ｍデータ処理部（５６Ａ）と、
前記入力バッファ部に格納されたデータを用いてＮ×Ｎの畳み込み処理を行うＮ×Ｎデータ処理部（５６Ｂ）と、
前記Ｍ×Ｍデータ処理部及び前記Ｎ×Ｎデータ処理部の処理結果のうちの一方を格納する第１出力バッファ部（５８Ａ）と、
前記Ｍ×Ｍデータ処理部及び前記Ｎ×Ｎデータ処理部の処理結果のうちの他方を格納する第２出力バッファ部（５８Ｂ）と、
を備え、
前記第１出力バッファ部に格納された処理結果は、前記入力バッファ部に格納され、
前記第２出力バッファ部に格納された処理結果は、前記外部メモリに転送される、
データ処理装置（１００）。

【請求項2】

Ｍ及びＮは１以上の整数であり、Ｍ＞Ｎである請求項１記載のデータ処理装置。

【請求項3】

Ｎ＝１とする請求項２記載のデータ処理装置。

【請求項4】

前記処理対象データは、３つ以上の直交軸で規定されるデータであり、
前記処理対象データにおける第一の軸及び第二の軸に対して、前記Ｍ×Ｍの畳み込み処理または前記Ｎ×Ｎの畳み込み処理が行われる請求項１～請求項３の何れか１項記載のデータ処理装置。

【請求項5】

前記Ｍ×Ｍの畳み込み処理の結果のデータにおける第三の軸に属するデータ数が、前記Ｎ×Ｎの畳み込み処理の結果のデータにおける前記第三の軸に属するデータ数より小さい場合、前記Ｍ×Ｍデータ処理部の処理結果を前記第２出力バッファ部に格納し、前記Ｎ×Ｎデータ処理部の処理結果を前記第１出力バッファ部に格納する請求項４記載のデータ処理装置。

【請求項6】

前記Ｎ×Ｎの畳み込み処理の結果のデータにおける第三の軸に属するデータ数が、前記Ｍ×Ｍの畳み込み処理の結果のデータにおける前記第三の軸に属するデータ数より小さい場合、前記Ｎ×Ｎデータ処理部の処理結果を前記第２出力バッファ部に格納し、前記Ｍ×Ｍデータ処理部の処理結果を前記第１出力バッファ部に格納する請求項４記載のデータ処理装置。

【請求項7】

ニューラルネットワークを用いた画像処理の一部として、前記Ｎ×Ｎの畳み込み処理及び前記Ｍ×Ｍの畳み込み処理を行う請求項１～請求項６の何れか１項記載のデータ処理装置。

【請求項8】

処理対象データを格納する外部メモリ（５２）を含むコンピュータ（２００）を、
前記外部メモリに格納されているデータのうち少なくとも一部を格納する入力処理部（２５４）、
前記入力処理部からのデータを用いてＭ×Ｍの畳み込み処理を行うＭ×Ｍデータ処理部（２５６Ａ）、
前記入力処理部からのデータを用いてＮ×Ｎの畳み込み処理を行うＮ×Ｎデータ処理部（２５６Ｂ）、
前記Ｍ×Ｍデータ処理部及び前記Ｎ×Ｎデータ処理部の処理結果のうちの一方を格納する第１出力処理部（２５８Ａ）、及び
前記Ｍ×Ｍデータ処理部及び前記Ｎ×Ｎデータ処理部の処理結果のうちの他方を格納する第２出力処理部（２５８Ａ）として機能させるためのプログラムであって、
前記第１出力処理部は、前記処理結果を前記入力処理部に格納し、
前記第２出力処理部は、前記処理結果を前記外部メモリに転送する
プログラム。

【請求項9】

Ｍ及びＮは１以上の整数であり、Ｍ＞Ｎである請求項８記載のプログラム。

【請求項10】

Ｎ＝１とする請求項９記載のプログラム。

【請求項11】

前記処理対象データは、３つ以上の直交軸で規定されるデータであり、
前記処理対象データにおける第一の軸及び第二の軸に対して、前記Ｍ×Ｍの畳み込み処理または前記Ｎ×Ｎの畳み込み処理が行われる請求項８～請求項１０の何れか１項記載のプログラム。

【請求項12】

前記Ｍ×Ｍの畳み込み処理の結果のデータにおける第三の軸に属するデータ数が、前記Ｎ×Ｎの畳み込み処理の結果のデータにおける前記第三の軸に属するデータ数より小さい場合、前記Ｍ×Ｍデータ処理部の処理結果を前記第２出力処理部に格納させ、前記Ｎ×Ｎデータ処理部の処理結果を前記第１出力処理部に格納させる請求項１１記載のプログラム。

【請求項13】

前記Ｎ×Ｎの畳み込み処理の結果のデータにおける第三の軸に属するデータ数が、前記Ｍ×Ｍの畳み込み処理の結果のデータにおける前記第三の軸に属するデータ数より小さい場合、前記Ｎ×Ｎデータ処理部の処理結果を前記第２出力処理部に格納させ、前記Ｍ×Ｍデータ処理部の処理結果を前記第１出力処理部に格納させる請求項１１記載のプログラム。

【請求項14】

ニューラルネットワークを用いた画像処理の一部として、前記Ｎ×Ｎの畳み込み処理及び前記Ｍ×Ｍの畳み込み処理を行う請求項８～請求項１３の何れか１項記載のプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データ処理装置及びプログラムに関する。

【背景技術】

【0002】

既存ネットワークのレイヤの分解や圧縮レイヤの追加をすることで演算量を削減する手法がある（例えば、特許文献１、２）

【0003】

特許文献１には、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）のフィルターを分解する手法が記載されている。

【0004】

特許文献２には、圧縮レイヤを挿入する手法が記載されている。

【先行技術文献】

【特許文献】

【0005】

【文献】特表２０１７－５２５０３８号公報

【文献】特表２０１８－５０６７８５号公報

【非特許文献】

【0006】

【文献】J. Qiu et al, “Going Deeper with Embedded FPGA Platform for Convolutional Neural Network”, FPGA 2016

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら、上記特許文献１、２の手法では、レイヤの分解や圧縮レイヤの挿入により畳み込み演算の特徴量の中間特徴量が発生し、中間特徴量のサイズが大きく外部メモリに書き出す必要がある場合には、非特許文献１のような１ｌａｙｅｒごとに演算するハードウェアでは外部メモリへのアクセスが増大する（図３０参照）。

【0008】

本発明は、上記の問題点を鑑みてなされたものであり、外部メモリへのアクセス回数を抑えて、畳み込み処理の高速化を図ることができることを目的とする。

【課題を解決するための手段】

【0009】

上記目的を達成するために、本発明に係るデータ処理装置は、処理対象データを格納する外部メモリと、前記外部メモリに格納されているデータのうち少なくとも一部を格納する入力バッファ部と、前記入力バッファ部に格納されたデータを用いてＭ×Ｍの畳み込み処理を行うＭ×Ｍデータ処理部と、前記入力バッファ部に格納されたデータを用いてＮ×Ｎの畳み込み処理を行うＮ×Ｎデータ処理部と、前記Ｍ×Ｍデータ処理部及び前記Ｎ×Ｎデータ処理部の処理結果のうちの一方を格納する第１出力バッファ部と、前記Ｍ×Ｍデータ処理部及び前記Ｎ×Ｎデータ処理部の処理結果のうちの他方を格納する第２出力バッファ部と、を備え、前記第１出力バッファ部に格納された処理結果は、前記入力バッファ部に格納され、前記第２出力バッファ部に格納された処理結果は、前記外部メモリに転送される。これにより、外部メモリへのアクセス回数を抑えて、畳み込み処理の高速化を図ることができる。具体的には、２つの畳み込み演算を並列に動作可能であるため、サイズの大きい特徴量の、外部メモリへの保存回数が半減する。

【0010】

また、本発明に係るプログラムは、処理対象データを格納する外部メモリを含むコンピュータを、前記外部メモリに格納されているデータのうち少なくとも一部を格納する入力処理部、前記入力処理部からのデータを用いてＭ×Ｍの畳み込み処理を行うＭ×Ｍデータ処理部、前記入力処理部からのデータを用いてＮ×Ｎの畳み込み処理を行うＮ×Ｎデータ処理部、前記Ｍ×Ｍデータ処理部及び前記Ｎ×Ｎデータ処理部の処理結果のうちの一方を格納する第１出力処理部、及び前記Ｍ×Ｍデータ処理部及び前記Ｎ×Ｎデータ処理部の処理結果のうちの他方を格納する第２出力処理部として機能させるためのプログラムであって、前記第１出力処理部は、前記処理結果を前記入力処理部に格納し、前記第２出力処理部は、前記処理結果を前記外部メモリに転送する。これにより、外部メモリへのアクセス回数を抑えて、畳み込み処理の高速化を図ることができる。具体的には、２つの畳み込み演算を並列に動作可能であるため、サイズの大きい特徴量の、外部メモリへの保存回数が半減する。

【発明の効果】

【0011】

本発明に係るデータ処理装置及びプログラムによれば、外部メモリへのアクセス回数を抑えて、畳み込み処理の高速化を図ることができる。

【図面の簡単な説明】

【0012】

【図1】第１の実施の形態に係るデータ処理装置の構成を示すブロック図である。

【図2】中間特徴量と出力特徴量のデータサイズを説明するための図である。

【図3】外部メモリへのデータアクセスが生じるサイクルの例を示す図である。

【図4】２つの分解手法を説明するための図である。

【図5】第１の実施の形態に係るデータ処理装置の畳み込み演算制御処理の流れを示すフローチャートである。

【図6】第１の実施の形態に係るデータ処理装置の畳み込み演算制御処理の流れを示すフローチャートである。

【図7】各畳み込み層による畳み込み演算の流れの一例を示す図である。

【図8】第１の実施の形態に係るデータ処理装置の動作を説明するための図である。

【図9】第１の実施の形態に係るデータ処理装置の動作を説明するための図である。

【図10】第１の実施の形態に係るデータ処理装置の動作を説明するための図である。

【図11】第１の実施の形態に係るデータ処理装置の動作を説明するための図である。

【図12】第１の実施の形態に係るデータ処理装置の動作を説明するための図である。

【図13】第１の実施の形態に係るデータ処理装置の動作を説明するための図である。

【図14】第１の実施の形態に係るデータ処理装置の動作を説明するための図である。

【図15】第１の実施の形態に係るデータ処理装置の動作を説明するための図である。

【図16】各畳み込み層による畳み込み演算の流れの一例を示す図である。

【図17】第１の実施の形態に係るデータ処理装置の動作を説明するための図である。

【図18】第１の実施の形態に係るデータ処理装置の動作を説明するための図である。

【図19】第１の実施の形態に係るデータ処理装置の動作を説明するための図である。

【図20】第１の実施の形態に係るデータ処理装置の動作を説明するための図である。

【図21】第１の実施の形態に係るデータ処理装置の動作を説明するための図である。

【図22】第１の実施の形態に係るデータ処理装置の動作を説明するための図である。

【図23】第１の実施の形態に係るデータ処理装置の動作を説明するための図である。

【図24】第１の実施の形態に係るデータ処理装置の動作を説明するための図である。

【図25A】外部メモリへのデータアクセスが生じるサイクルが変更される例を示す図である。

【図25B】外部メモリへのデータアクセスが生じるサイクルが変更される例を示す図である。

【図26】第２の実施の形態に係るデータ処理装置の構成を示すブロック図である。

【図27】第２の実施の形態に係るデータ処理装置の演算部の構成を示すブロック図である。

【図28】第２の実施の形態に係るデータ処理装置の畳み込み演算制御処理の流れを示すフローチャートである。

【図29】第２の実施の形態に係るデータ処理装置の畳み込み演算制御処理の流れを示すフローチャートである。

【図30】レイヤの分解や圧縮レイヤの挿入により畳み込み演算の中間特徴量が発生することを説明するための図である。

【発明を実施するための形態】

【0013】

＜本実施の形態の概要＞
以下、本発明に係るデータ処理装置の実施の形態について図面を参照しながら説明する。

【0014】

本実施の形態では、中間特徴量のデータアクセスが発生する問題の対処法として、図１に示すように、２ｌａｙｅｒをパイプライン処理して、中間特徴量のための外部メモリへのアクセス回数を低減させる。

【0015】

具体的には、ＳＶＤ（ＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ）での分解を前提として、Ｍ×Ｍフィルターを用いた畳み込みを行うＭ×Ｍデータ処理部５６Ａと、Ｎ×Ｎフィルターを用いた畳み込みを行うＮ×Ｎデータ処理部５６Ｂとの２つを用意して、並列に計算する。計算結果を保存する第１出力バッファ部５８Ａから、Ｍ×Ｍデータ処理部５６ＡとＮ×Ｎデータ処理部５６Ｂとのデータを入力するための入力バッファ部５４へ計算結果を書き戻せるように配線を用意する。例えば、ＳＶＤを使用して、Ｍ×Ｍの畳み込み層を、Ｍ×Ｍの畳み込み層→１×１の畳み込み層に分解することができる。これにより、演算量の多い又はパラメータ数（データ量）の多いレイヤの演算を効率的にできるようになる。

【0016】

また、図２に示すように、ＳＶＤにより分解した層の畳み込み演算の処理結果の中間特徴量は、元の出力特徴量よりもデータサイズが小さい。そこで、データサイズが大きい出力特徴量については、外部メモリへのデータアクセスが生じないように、パイプライン処理する。一方、データサイズが小さい中間特徴量のみを外部メモリへ転送することで外部メモリへのデータアクセスを削減する（図３参照）。すなわち、図３に示すような処理サイクルＡ－ｃｙｃｌｅでは、１×１の畳み込み→Ｎ×Ｎの畳み込みの後に、中間特徴量を外部メモリへ転送する。

【0017】

例えば、出力特徴量のデータサイズは以下の式で表される（図４参照）。

【0018】

Ｃｏｕｔ＊Ｎｏｘ＊Ｎｏｙ＊ｂｉｔ＿ｗｉｄｔｈ

【0019】

ただし、Ｃｏｕｔは、出力特徴量のチャネル数、Ｎｏｘ、Ｎｏｙは、出力特徴量のｘ方向のサイズ、ｙ方向のサイズ、ｂｉｔ＿ｗｉｄｔｈは、ビット幅である。

【0020】

また、中間特徴量のデータサイズは以下の式で表される。

【0021】

Ｃｍｉｄ＊Ｎｏｘ＊Ｎｏｙ＊ｂｉｔ＿ｗｉｄｔｈ

【0022】

ただし、Ｃｍｉｄは、中間特徴量のチャネル数である。

【0023】

従って、中間特徴量のチャネル数Ｃｍｉｄが、出力特徴量のチャネル数Ｃｏｕｔより小さい場合には、中間特徴量のデータサイズは、出力特徴量のデータサイズより小さくなる。

【0024】

なお、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）の特徴量は大きく、すべてをオンチップメモリで行うことが難しいため、従来技術では、１ｌａｙｅｒごとに演算することが主流になっている。例えば、ＶＧＧ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ）第一層目出力（ａｃｔｉｖａｔｉｏｎ３２ｂｉｔ）は、２２４＊２２４＊６４＊３２／８ ≒１２ＭＢｙｔｅとなる。

【0025】

また、上記では、ＳＶＤによる分解（Ｎ×Ｎの畳み込み－＞１×１の畳み込みに分解。以下、分解手法１という。）について説明したが、分解手法２（１×１の畳み込み－＞Ｎ×Ｎの畳み込みに分解）もある（図４参照）。

【0026】

このとき、分解手法１，２の何れにおいても認識精度を担保できる場合には、分解効率（入力チャネル数と出力チャネル数の数に依存する）がよい方に切り替えて使う。

【0027】

すなわち、分解手法１，２ともに中間特徴量のほうが出力特徴量よりも小さいので、分解手法１，２に対応して、Ｎ×Ｎの畳み込み－＞外部メモリ転送－＞１×１の畳み込み－＞Ｎ×Ｎの畳み込み・・・と繰り返すループと、１×１の畳み込み－＞外部メモリ転送－＞Ｎ×Ｎの畳み込み－＞１×１の畳み込み・・と繰り返すループとを切り替える。

【0028】

ここで、分解手法１の演算に必要な特徴量へのアクセス回数は、以下の式で表される。

【0029】

Ｃｉｎ＊Ｋｘ＊Ｋｙ＊Ｃｍｉｄ＊Ｎｉｘ＊Ｎｉｙ＋Ｃｍｉｄ＊Ｃｏｕｔ＊Ｎｏｘ＊Ｎｏｙ

【0030】

ただし、Ｋｘ、Ｋｙは、フィルターのサイズであり、例えば、Ｋｘ＝Ｎ、Ｋｙ＝Ｎである。Ｎｉｘ、Ｎｉｙは、入力特徴量のｘ方向のサイズ、ｙ方向のサイズである。

【0031】

また、分解手法２の演算に必要な特徴量へのアクセス回数は、以下の式で表される。

【0032】

Ｃｉｎ＊Ｃｍｉｄ＊Ｎｉｘ＊Ｎｉｙ＋Ｃｍｉｄ＊Ｃｏｕｔ＊Ｋｘ＊Ｋｙ＊Ｎｏｘ＊Ｎｏｙ

【0033】

従って、Ｃｍｉｄの数が同じであれば、Ｃｉｎ＞Ｃｏｕｔである場合、分解手法２のほうが特徴量へのアクセス回数が少ないため、分解手法２を使用し、Ｃｉｎ＜Ｃｏｕｔである場合、分解手法１のほうが特徴量へのアクセス回数が少ないため、分解手法１を使用する。

【0034】

このように、本実施の形態では、ニューラルネットワークを用いた画像処理において、畳み込み層の各々を、ＳＶＤにより分解するか、又は、１×１の畳み込みとＮ×Ｎの畳み込みとを含む構造とし、分解後の畳み込み層の各々について、認識精度及び入力チャネル数と出力チャネル数の数に応じて定まる、分解手法１、２の何れかを用いるように、Ｎ×Ｎの畳み込み－＞外部メモリ転送－＞１×１の畳み込み－＞Ｎ×Ｎの畳み込み・・・と繰り返すループ、又は、１×１の畳み込み－＞外部メモリ転送－＞Ｎ×Ｎの畳み込み－＞１×１の畳み込み・・と繰り返すループにより、画像処理を行う。

【0035】

［第１の実施の形態］
＜第１の実施の形態に係るデータ処理装置の構成＞
次に、本実施の形態に係るデータ処理装置の構成について説明する。図１に示すように、本実施の形態に係るデータ処理装置１００は、制御部５０と、外部メモリ５２と、入力バッファ部５４と、Ｍ×Ｍデータ処理部５６Ａと、Ｎ×Ｎデータ処理部５６Ｂと、第１出力バッファ部５８Ａと、第２出力バッファ部５８Ｂとを備えている。制御部５０と、外部メモリ５２と、入力バッファ部５４と、Ｍ×Ｍデータ処理部５６Ａと、Ｎ×Ｎデータ処理部５６Ｂと、第１出力バッファ部５８Ａと、第２出力バッファ部５８Ｂとは、バス６０を介して相互に接続されている。ここで、Ｍ及びＮは１以上の整数であり、Ｍ＞Ｎである。なお、本実施の形態では、Ｍ＝３、Ｎ＝１の場合を例に説明する。

【0036】

制御部５０は、外部メモリ５２と、入力バッファ部５４と、Ｍ×Ｍデータ処理部５６Ａと、Ｎ×Ｎデータ処理部５６Ｂと、第１出力バッファ部５８Ａと、第２出力バッファ部５８Ｂとの各々を制御する。

【0037】

外部メモリ５２は、処理対象データを格納する。処理対象データとは、例えば、畳み込み演算の対象となる特徴マップである。外部メモリ５２は、更に、フィルターに関する重みデータなどを格納する。

【0038】

入力バッファ部５４は、外部メモリ５２のデータまたは第１出力バッファ部５８Ａからのデータを格納する。

【0039】

Ｍ×Ｍデータ処理部５６Ａは、入力バッファ部５４からのデータを用いてＭ×Ｍの畳み込み処理を行う。

【0040】

Ｎ×Ｎデータ処理部５６Ｂは、入力バッファ部５４からのデータを用いてＮ×Ｎの畳み込み処理を行う。

【0041】

第１出力バッファ部５８Ａは、Ｍ×Ｍデータ処理部５６Ａ及びＮ×Ｎデータ処理部５６Ｂの何れか一方の処理結果を格納する。

【0042】

第２出力バッファ部５８Ｂは、Ｍ×Ｍデータ処理部５６Ａ及びＮ×Ｎデータ処理部５６Ｂの何れか他方の処理結果を格納する。また、第２出力バッファ部５８Ｂは、処理結果を外部メモリ５２に転送する。

【0043】

処理対象データは、３つ以上の直交軸で規定されるデータであり、処理対象データにおける第一の軸及び第二の軸に対して、３×３の畳み込み処理または１×１の畳み込み処理が行われる。

【0044】

また、制御部５０は、３×３の畳み込み処理の結果のデータにおける第三の軸に属するデータ数（例えば、中間特徴量のチャネル数）が、１×１の畳み込み処理の結果のデータにおける第三の軸に属するデータ数（例えば、中間特徴量のチャネル数）より小さい場合、Ｍ×Ｍデータ処理部５６Ａの処理結果を第２出力バッファ部５８Ｂに格納し、Ｎ×Ｎデータ処理部５６Ｂの処理結果を第１出力バッファ部５８Ａに格納するように制御する。

【0045】

また、制御部５０は、１×１の畳み込み処理の結果のデータにおける第三の軸に属するデータ数（例えば、中間特徴量のチャネル数）が、３×３の畳み込み処理の結果のデータにおける第三の軸に属するデータ数（例えば、中間特徴量のチャネル数）より小さい場合、Ｎ×Ｎデータ処理部５６Ｂの処理結果を第２出力バッファ部５８Ｂに格納し、Ｍ×Ｍデータ処理部５６Ａの処理結果を第１出力バッファ部５８Ａに格納するように制御する。

【0046】

＜第１の実施の形態に係るデータ処理装置の作用＞
次に、本実施の形態に係るデータ処理装置の作用について説明する。

【0047】

ニューラルネットワークを用いた画像処理において、畳み込み層の各々を、ＳＶＤにより分解するか、又は、１×１の畳み込みと３×３の畳み込みとを含む構造とし、分解後の畳み込み層の各々について、制御部５０は、Ｃｉｎ＜Ｃｏｕｔである場合、図５に示す畳み込み演算制御処理を繰り返し、Ｃｉｎ＞Ｃｏｕｔである場合、図６に示す畳み込み演算制御処理を繰り返す。

【0048】

次に、図５に示す畳み込み演算制御処理について説明する。ここでは、一例として、図７に示すように、処理対象データＤ０を入力として、３×３の畳み込み演算と、１×１の畳み込み演算とを順に実行して外部メモリ５２に格納することを、繰り返し行う場合を例に説明する。

【0049】

まず、ステップＳ１００において、制御部５０は、外部メモリ５２から、処理対象データＤ０を読み込んで、入力バッファ部５４へ転送するように制御し、入力バッファ部５４に処理対象データＤ０を格納する（図８参照）。

【0050】

ステップＳ１０２において、制御部５０は、入力バッファ部５４に格納された処理対象データＤ０をＭ×Ｍデータ処理部５６Ａに入力して３×３の畳み込み演算Ｃ１を行うように制御する（図９参照）。

【0051】

ステップＳ１０４において、制御部５０は、３×３の畳み込み演算Ｃ１の処理結果データＤ１を、第１出力バッファ部５８Ａに格納するように制御する（図１０参照）。

【0052】

ステップＳ１０６において、制御部５０は、第１出力バッファ部５８Ａに格納された処理結果データＤ１を、入力バッファ部５４に格納するように制御する（図１１参照）。

【0053】

ステップＳ１０８において、制御部５０は、入力バッファ部５４に格納された処理結果データＤ１をＮ×Ｎデータ処理部５６Ｂに入力して１×１の畳み込み演算Ｃ２を行うように制御する（図１２参照）。

【0054】

ステップＳ１１０において、制御部５０は、１×１の畳み込み演算Ｃ２の処理結果データＤ２を、第２出力バッファ部５８Ｂに格納するように制御する（図１３参照）。

【0055】

ステップＳ１１２において、制御部５０は、第２出力バッファ部５８Ｂに格納された処理結果データＤ２を、外部メモリ５２へ転送するように制御する（図１４参照）。

【0056】

ステップＳ１１４において、制御部５０は、繰り返し処理を終了するか否かを判定する。繰り返し処理を終了しないと判定された場合には、上記ステップＳ１００へ戻り、上記ステップＳ１００～Ｓ１１４の処理を繰り返す（図１５参照）。一方、繰り返し処理を終了すると判定された場合には、畳み込み演算制御処理を終了する。

【0057】

次に、図６に示す畳み込み演算制御処理について説明する。ここでは、一例として、図１６に示すように、Ｍ＝３、Ｎ＝１とし、処理対象データＤ０を入力として、１×１の畳み込み演算と、３×３の畳み込み演算とを順に実行して外部メモリ５２に格納することを、繰り返し行う場合を例に説明する。

【0058】

まず、ステップＳ１２０において、制御部５０は、外部メモリ５２から、処理対象データＤ０を、入力バッファ部５４へ転送するように制御し、入力バッファ部５４に処理対象データＤ０を格納する（図１７参照）。

【0059】

ステップＳ１２２において、制御部５０は、入力バッファ部５４に格納された処理対象データＤ０をＮ×Ｎデータ処理部５６Ｂに入力して１×１の畳み込み演算Ｃ１を行うように制御する（図１８参照）。

【0060】

ステップＳ１２４において、制御部５０は、１×１の畳み込み演算Ｃ１の処理結果データＤ１を、第１出力バッファ部５８Ａに格納するように制御する（図１９参照）。

【0061】

ステップＳ１２６において、制御部５０は、第１出力バッファ部５８Ａに格納された処理結果データＤ１を、入力バッファ部５４に格納するように制御する（図２０参照）。

【0062】

ステップＳ１２８において、制御部５０は、入力バッファ部５４に格納された処理結果データＤ１をＭ×Ｍデータ処理部５６Ａに入力して３×３の畳み込み演算Ｃ２を行うように制御する（図２１参照）。

【0063】

ステップＳ１３０において、制御部５０は、３×３の畳み込み演算Ｃ２の処理結果データＤ２を、第２出力バッファ部５８Ｂに格納するように制御する（図２２参照）。

【0064】

ステップＳ１３２において、制御部５０は、第２出力バッファ部５８Ｂに格納された処理結果データＤ２を、外部メモリ５２へ転送するように制御する（図２３参照）。

【0065】

ステップＳ１３４において、制御部５０は、繰り返し処理を終了するか否かを判定する。繰り返し処理を終了しないと判定された場合には、上記ステップＳ１２０へ戻り、上記ステップＳ１２０～Ｓ１３４の処理を繰り返す（図２４参照）。一方、繰り返し処理を終了すると判定された場合には、畳み込み演算制御処理を終了する。

【0066】

上記では、入力チャネル数Ｃｉｎと出力チャネル数Ｃｏｕｔとの大小関係が各畳み込み層で同じ場合を例に説明したが、入力チャネル数Ｃｉｎと出力チャネル数Ｃｏｕｔとの大小関係が、ニューラルネットワークの中間の畳み込み層で切り替わってもよい。

【0067】

例えば、図２５Ａ（ａ）に示すオリジナルネットワークを、図２５Ａ（ｂ）に示すように、途中で分解手法を変更して分解した場合に、１×１の畳み込み－＞Ｎ×Ｎの畳み込み－＞外部メモリ転送・・・と繰り返すサイクル（Ａ－ｃｙｃｌｅ）から、Ｎ×Ｎの畳み込み－＞１×１の畳み込み－＞外部メモリ転送・・・と繰り返すサイクル（Ｂ－ｃｙｃｌｅ）に切り替える。サイクルの切り替えのタイミングで、１×１の畳み込み－＞１×１の畳み込みの演算が発生するが、１＜Ｎの場合、１×１の畳み込みの演算はＮ×Ｎデータ処理部５６Ｂで処理可能なため、変更位置をまたいで、当該サイクルを実行する。この場合、サイクル切り替え前には、上記図５の畳み込み演算制御処理を繰り返し、サイクル切り替え後には、上記図６の畳み込み演算制御処理を繰り返すようにすればよい。

【0068】

あるいは、図２５Ｂ（ａ）に示すオリジナルネットワークを、図２５Ｂ（ｂ）に示すように、途中で分解手法を変更して分解した場合に、Ｎ×Ｎの畳み込み－＞１×１の畳み込み－＞外部メモリ転送・・・と繰り返すサイクル（Ｂ－ｃｙｃｌｅ）から、１×１の畳み込み－＞ＮｘＮの畳み込み－＞外部メモリ転送・・・と繰り返すサイクル（Ａ－ｃｙｃｌｅ）に切り替える。サイクルの切り替えのタイミングで、Ｎ×Ｎの畳み込み－＞Ｎ×Ｎの畳み込みの演算が発生するが、Ｎ×Ｎの畳み込み－＞Ｎ×Ｎの畳み込みの演算は同一のデータ処理部を使うため、演算サイクルを半分にする。この場合、サイクル切り替え前には、上記図６の畳み込み演算制御処理を繰り返し、サイクル切り替え後には、上記図５の畳み込み演算制御処理を繰り返すようにすればよい。

【0069】

以上説明したように、本発明の実施の形態に係るデータ処理装置では、第１出力バッファ部から、Ｍ×Ｍデータ処理部及びＮ×Ｎデータ処理部の何れか一方の畳み込み演算の結果を、入力バッファ部に格納するようにし、第２出力バッファ部は、Ｍ×Ｍデータ処理部及びＮ×Ｎデータ処理部の何れか他方の畳み込み演算の結果を外部メモリに転送する。これにより、外部メモリへのアクセス回数を抑えて、畳み込み処理の高速化を図ることができる。具体的には、２つの畳み込み演算を並列に動作させ、サイズの大きい特徴量を持つ層（レイヤ）の次の層の計算を逐次実行するため、特徴量の、外部メモリへの保存回数が半減する。

【0070】

また、本発明の実施の形態に係るデータ処理装置において、Ｍ×Ｍの畳み込み処理の結果のデータにおける第三の軸に属するデータ数が、Ｎ×Ｎの畳み込み処理の結果のデータにおける第三の軸に属するデータ数より小さい場合、Ｍ×Ｍデータ処理部の処理結果を第２出力バッファ部に格納し、Ｎ×Ｎデータ処理部の処理結果を第１出力バッファ部に格納する。これにより、分解手法１の構造のネットワークに対しての演算回数削減を生かしつつ、外部メモリ転送を抑えることができる。

【0071】

また、本発明の実施の形態に係るデータ処理装置において、Ｎ×Ｎの畳み込み処理の結果のデータにおける第三の軸に属するデータ数が、Ｍ×Ｍの畳み込み処理の結果のデータにおける第三の軸に属するデータ数より小さい場合、Ｎ×Ｎデータ処理部の処理結果を第２出力バッファ部に格納し、Ｍ×Ｍデータ処理部の処理結果を第１出力バッファ部に格納する。これにより、分解手法２の構造のネットワークに対しての演算回数削減を生かしつつ、外部メモリ転送を抑えることができる。

【0072】

［第２の実施の形態］
＜第２の実施の形態に係るデータ処理装置の構成＞
次に、本実施の形態に係るデータ処理装置の構成について説明する。図２６に示すように、本実施の形態に係るデータ処理装置２００は、演算部２５０と、外部メモリ５２と、を備えている。演算部２５０と、外部メモリ５２とは、バス６０を介して相互に接続されている。

【0073】

演算部２５０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）と、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）と、を含むコンピュータで構成することが出来る。

【0074】

演算部２５０は、図２７に示すように、機能的には、入力処理部２５４と、Ｍ×Ｍデータ処理部２５６Ａと、Ｎ×Ｎデータ処理部２５６Ｂと、第１出力処理部２５８Ａと、第２出力処理部２５８Ｂとを備えている。ここで、Ｍ及びＮは１以上の整数であり、Ｍ＞Ｎである。なお、本実施の形態では、Ｍ＝３、Ｎ＝１の場合を例に説明する。

【0075】

入力処理部２５４は、外部メモリ５２のデータまたは第１出力処理部２５８ＡからのデータをＲＡＭに格納する。また、入力処理部２５４は、ＲＡＭに格納したデータを、Ｍ×Ｍデータ処理部２５６Ａ又はＮ×Ｎデータ処理部２５６Ｂに出力する。

【0076】

Ｍ×Ｍデータ処理部２５６Ａは、入力処理部２５４からのデータを用いて３×３の畳み込み処理を行う。

【0077】

Ｎ×Ｎデータ処理部２５６Ｂは、入力処理部２５４からのデータを用いて１×１の畳み込み処理を行う。

【0078】

第１出力処理部２５８Ａは、Ｍ×Ｍデータ処理部２５６Ａ及びＮ×Ｎデータ処理部２５６Ｂの何れか一方の処理結果をＲＡＭに格納する。また、第１出力処理部２５８Ａは、ＲＡＭに格納したデータを、入力処理部２５４に出力する。

【0079】

第２出力処理部２５８Ｂは、Ｍ×Ｍデータ処理部２５６Ａ及びＮ×Ｎデータ処理部２５６Ｂの何れか他方の処理結果をＲＡＭに格納する。また、第２出力処理部２５８Ｂは、ＲＡＭに格納した処理結果を外部メモリ５２に転送する。

【0080】

【0081】

また、３×３の畳み込み処理の結果のデータにおける第三の軸に属するデータ数（例えば、中間特徴量のチャネル数）が、１×１の畳み込み処理の結果のデータにおける第三の軸に属するデータ数（例えば、中間特徴量のチャネル数）より小さい場合、Ｍ×Ｍデータ処理部２５６Ａは、３×３の畳み込み処理の結果を第２出力処理部２５８Ｂに出力し、Ｎ×Ｎデータ処理部２５６Ｂは、１×１の畳み込み処理の結果を第１出力処理部２５８Ａに出力する。

【0082】

また、３×３の畳み込み処理の結果のデータにおける第三の軸に属するデータ数（例えば、中間特徴量のチャネル数）が、３×３の畳み込み処理の結果のデータにおける第三の軸に属するデータ数（例えば、中間特徴量のチャネル数）より小さい場合、Ｎ×Ｎデータ処理部２５６Ｂは、１×１の畳み込み処理の結果を第２出力処理部２５８Ｂに出力し、Ｍ×Ｍデータ処理部２５６Ａは、３×３の畳み込み処理の結果を第１出力処理部２５８Ａに出力する。

【0083】

＜第２の実施の形態に係るデータ処理装置の作用＞
次に、本実施の形態に係るデータ処理装置の作用について説明する。

【0084】

ニューラルネットワークを用いた画像処理において、畳み込み層の各々を、ＳＶＤにより分解し、分解後の畳み込み層の各々について、演算部２５０は、Ｃｉｎ＜Ｃｏｕｔである場合、図２８に示す畳み込み演算制御処理を繰り返し、Ｃｉｎ＞Ｃｏｕｔである場合、図２９に示す畳み込み演算制御処理を繰り返す。

【0085】

次に、図２８に示す畳み込み演算制御処理について説明する。ここでは、一例として、上記図７に示すように、処理対象データＤ０を入力として、３×３の畳み込み演算と、１×１の畳み込み演算とを順に実行して外部メモリ５２に格納することを、繰り返し行う場合を例に説明する。

【0086】

まず、ステップＳ２００において、演算部２５０は、外部メモリ５２から、処理対象データＤ０を読み出して、入力処理部２５４へ転送するように制御し、演算部２５０は、入力処理部２５４として、処理対象データＤ０をＲＡＭに格納する。

【0087】

ステップＳ２０２において、演算部２５０は、入力処理部２５４として、ＲＡＭに格納された処理対象データＤ０をＭ×Ｍデータ処理部２５６Ａに入力し、演算部２５０は、Ｍ×Ｍデータ処理部２５６Ａとして、３×３の畳み込み演算Ｃ１を行う。

【0088】

ステップＳ２０４において、演算部２５０は、Ｍ×Ｍデータ処理部２５６Ａとして、３×３の畳み込み演算Ｃ１の処理結果データＤ１を、第１出力処理部２５８Ａへ出力し、演算部２５０は、第１出力処理部２５８Ａとして、処理結果データＤ１をＲＡＭに格納する。

【0089】

ステップＳ２０６において、演算部２５０は、第１出力処理部２５８Ａとして、ＲＡＭに格納された処理結果データＤ１を、入力処理部２５４に出力し、演算部２５０は、入力処理部２５４として、処理結果データＤ１をＲＡＭに格納する。

【0090】

ステップＳ２０８において、演算部２５０は、入力処理部２５４として、ＲＡＭに格納された処理結果データＤ１を、Ｎ×Ｎデータ処理部２５６Ｂに入力し、演算部２５０は、Ｎ×Ｎデータ処理部２５６Ｂとして、１×１の畳み込み演算Ｃ２を行う。

【0091】

ステップＳ２１０において、演算部２５０は、Ｎ×Ｎデータ処理部２５６Ｂとして、１×１の畳み込み演算Ｃ２の処理結果データＤ２を、第２出力処理部２５８Ｂに出力し、演算部２５０は、第２出力処理部２５８Ｂとして、処理結果データＤ２をＲＡＭに格納する。

【0092】

ステップＳ２１２において、演算部２５０は、第２出力処理部２５８Ｂとして、ＲＡＭに格納された処理結果データＤ２を、外部メモリ５２へ転送する。

【0093】

ステップＳ２１４において、演算部２５０は、繰り返し処理を終了するか否かを判定する。繰り返し処理を終了しないと判定された場合には、上記ステップＳ２００へ戻り、上記ステップＳ２００～Ｓ２１４の処理を繰り返す。一方、繰り返し処理を終了すると判定された場合には、畳み込み演算制御処理を終了する。

【0094】

次に、図２９に示す畳み込み演算制御処理について説明する。ここでは、一例として、上記図１６に示すように、処理対象データＤ０を入力として、１×１の畳み込み演算と、３×３の畳み込み演算との組み合わせを、繰り返し行う場合を例に説明する。

【0095】

まず、ステップＳ２２０において、演算部２５０は、外部メモリ５２から、処理対象データＤ０を、入力処理部２５４へ転送するように制御し、演算部２５０は、入力処理部２５４として、処理対象データＤ０をＲＡＭに格納する。

【0096】

ステップＳ２２２において、演算部２５０は、入力処理部２５４として、ＲＡＭに格納された処理対象データＤ０をＮ×Ｎデータ処理部２５６Ｂに入力し、演算部２５０は、Ｎ×Ｎデータ処理部２５６Ｂとして、１×１の畳み込み演算Ｃ１を行う。

【0097】

ステップＳ２２４において、演算部２５０は、Ｎ×Ｎデータ処理部２５６Ｂとして、１×１の畳み込み演算Ｃ１の処理結果データＤ１を、第１出力処理部２５８Ａへ出力し、演算部２５０は、第１出力処理部２５８Ａとして、処理結果データＤ１をＲＡＭに格納する。

【0098】

ステップＳ２２６において、演算部２５０は、第１出力処理部２５８Ａとして、ＲＡＭに格納された処理結果データＤ１を、入力処理部２５４に出力し、演算部２５０は、入力処理部２５４として、処理結果データＤ１をＲＡＭに格納する。

【0099】

ステップＳ２２８において、演算部２５０は、入力処理部２５４として、ＲＡＭに格納された処理結果データＤ１を、Ｍ×Ｍデータ処理部２５６Ａに入力し、演算部２５０は、Ｍ×Ｍデータ処理部２５６Ａとして、３×３の畳み込み演算Ｃ２を行う。

【0100】

ステップＳ２３０において、演算部２５０は、Ｍ×Ｍデータ処理部２５６Ａとして、３×３の畳み込み演算Ｃ２の処理結果データＤ２を、第２出力処理部２５８Ｂに出力し、演算部２５０は、第２出力処理部２５８Ｂとして、処理結果データＤ２をＲＡＭに格納する。

【0101】

ステップＳ２３２において、演算部２５０は、第２出力処理部２５８Ｂとして、ＲＡＭに格納された処理結果データＤ２を、外部メモリ５２へ転送する。

【0102】

ステップＳ２３４において、演算部２５０は、繰り返し処理を終了するか否かを判定する。繰り返し処理を終了しないと判定された場合には、上記ステップＳ２２０へ戻り、上記ステップＳ２２０～Ｓ２３４の処理を繰り返す。一方、繰り返し処理を終了すると判定された場合には、畳み込み演算制御処理を終了する。

【0103】

上記では、入力チャネル数Ｃｉｎと出力チャネル数Ｃｏｕｔとの大小関係が各畳み込み層で同じ場合を例に説明したが、上記第１の実施の形態と同様に、入力チャネル数Ｃｉｎと出力チャネル数Ｃｏｕｔとの大小関係が、ニューラルネットワークの中間の畳み込み層で切り替わってもよい。

【0104】

以上説明したように、第２の実施の形態に係るデータ処理装置では、第１出力処理部から、Ｍ×Ｍデータ処理部及びＮ×Ｎデータ処理部の何れか一方の畳み込み演算の結果を、入力処理部へ出力するようにし、第２出力処理部は、Ｍ×Ｍデータ処理部及びＮ×Ｎデータ処理部の何れか他方の畳み込み演算の結果を外部メモリに転送する。これにより、外部メモリへのアクセス回数を抑えて、畳み込み処理の高速化を図ることができる。具体的には、２つの畳み込み演算を並列に動作可能であるため、サイズの大きい特徴量の、外部メモリへの保存回数が半減する。

【0105】

また、第２の実施の形態に係るデータ処理装置において、Ｍ×Ｍの畳み込み処理の結果のデータにおける第三の軸に属するデータ数が、Ｎ×Ｎの畳み込み処理の結果のデータにおける第三の軸に属するデータ数より小さい場合、Ｍ×Ｍデータ処理部の処理結果を第２出力処理部に格納させ、Ｎ×Ｎデータ処理部の処理結果を第１出力処理部に格納させる。これにより、分解手法１の構造のネットワークに対しての演算回数削減を生かしつつ、外部メモリ転送を抑える事ができる。

【0106】

また、第２の実施の形態に係るデータ処理装置において、Ｎ×Ｎの畳み込み処理の結果のデータにおける第三の軸に属するデータ数が、Ｍ×Ｍの畳み込み処理の結果のデータにおける第三の軸に属するデータ数より小さい場合、Ｎ×Ｎデータ処理部の処理結果を第２出力処理部に格納させ、Ｍ×Ｍデータ処理部の処理結果を第１出力処理部に格納させる。これにより、分解手法２の構造のネットワークに対しての演算回数削減を生かしつつ、外部メモリ転送を抑える事ができる。

【符号の説明】

【0107】

５０制御部
５２外部メモリ
５４入力バッファ部
５６Ａ、２５６ＡＭ×Ｍデータ処理部
５６Ｂ、２５６ＢＮ×Ｎデータ処理部
５８Ａ第１出力バッファ部
５８Ｂ第２出力バッファ部
６０バス
１００データ処理装置
２００データ処理装置
２５０演算部
２５４入力処理部
２５８Ａ第１出力処理部
２５８Ｂ第２出力処理部

【図1】