特許7467786 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 公立大学法人会津大学の特許一覧

特許7467786データ処理装置及びデータ処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-04-08

(45)【発行日】2024-04-16

(54)【発明の名称】データ処理装置及びデータ処理方法

(51)【国際特許分類】

G06F 17/10 20060101AFI20240409BHJP

G06N 3/04 20230101ALI20240409BHJP

G06N 3/08 20230101ALI20240409BHJP

【ＦＩ】

G06F17/10 A

G06N3/04

G06N3/08

G06F17/10 S

【請求項の数】 8

(21)【出願番号】P 2020043230

(22)【出願日】2020-03-12

(65)【公開番号】P2021144519

(43)【公開日】2021-09-24

【審査請求日】2022-12-26

【新規性喪失の例外の表示】特許法第３０条第２項適用（１）令和１年７月７日に８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｇｒｅｓｓｏｎＡｄｖａｎｃｅｄＡｐｐｌｉｅｄＩｎｆｏｒｍａｔｉｃｓの予稿集にて発表。（２）令和１年７月７日に８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｇｒｅｓｓｏｎＡｄｖａｎｃｅｄＡｐｐｌｉｅｄＩｎｆｏｒｍａｔｉｃｓにて発表。（３）令和１年１１月２７日にＩｏＴワークショップ「センシング・エッジによるＩｏＴ革新的ビジネスの潮流」～２０１９年度第１回産業・インフラ向けＩｏＴデバイス・システムの進展と活用事例～にて発表。（４）令和２年２月１３日にｈｔｔｐｓ：／／ｉｅｅｅｘｐｌｏｒｅ．ｉｅｅｅ．ｏｒｇ／ｄｏｃｕｍｅｎｔ／８９９２６４０にて発表。

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成３０年度、国立研究開発法人新エネルギー・産業技術総合開発機構、「高効率・高速処理を可能とするＡＩチップ・次世代コンピューティングの技術開発／革新的ＡＩエッジコンピューティング技術の開発／ソフトテンソルプロセッサによる超広範囲センシングＡＩエッジ技術の研究開発」、産業技術力強化法第１７条の適用を受ける特許出願

(73)【特許権者】

【識別番号】506301140

【氏名又は名称】公立大学法人会津大学

(74)【代理人】

【識別番号】100094525

【弁理士】

【氏名又は名称】土井健二

(74)【代理人】

【識別番号】100094514

【弁理士】

【氏名又は名称】林恒徳

(72)【発明者】

【氏名】富岡洋一

(72)【発明者】

【氏名】スタニスラフセドゥーキン

【審査官】坂東博司

(56)【参考文献】

【文献】特開２０１９－００３４１４（ＪＰ，Ａ）

【文献】特開２０１８－０６７１５４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１７／１０

Ｇ０６Ｎ３／０４

Ｇ０６Ｎ３／０８

(57)【特許請求の範囲】

【請求項1】

２次元の入力データの特徴量を前記２次元の入力データに対応する複数のフィルタを用いて算出するデータ処理装置であって、
２次元に配置された複数のプロセッシングエレメントからなるプロセッシングエレメント群と、
前記複数のプロセッシングエレメントごとであって前記複数のフィルタごとの３次元の記憶領域を有する第１記憶部と、を有し、
前記プロセッシングエレメント群は、
前記２次元の入力データに含まれるデータのそれぞれを、全ての送信先が異なるプロセッシングエレメントになるように前記複数のプロセッシングエレメントのいずれかに送信し、
前記複数のフィルタごとに、各フィルタに含まれる１つの特徴重みをそれぞれ取得し、
取得した前記複数のフィルタごとの前記１つの特徴重みを、前記複数のプロセッシングエレメントと同じ数だけ複製して前記複数のプロセッシングエレメントと同じ配置にすることによって３次元の特徴重みを生成し、
前記複数のプロセッシングエレメントのそれぞれに、取得した前記複数のフィルタごとの前記１つの特徴重みをそれぞれ送信し、
前記複数のプロセッシングエレメントのそれぞれに、送信した前記２次元の入力データに含まれるデータと、送信した前記複数のフィルタごとの前記１つの特徴重みとを乗算させることによって３次元の積を算出させ、
前記第１記憶部における前記３次元の記憶領域に記憶された値に前記３次元の積を加算し、
前記複数のプロセッシングエレメントのそれぞれに対して前記３次元の積の算出にまだ用いられていないデータが送信されるように、前記複数のプロセッシングエレメントのそれぞれに、前記複数のプロセッシングエレメントのそれぞれが保持する前記２次元の入力データに含まれるデータを隣接するプロセッシングエレメントに送信させ、
前記加算する処理が行われた回数が前記複数のフィルタのそれぞれに含まれる特徴重みの数に到達するまで、前記取得する処理、前記生成する処理、前記複数のフィルタごとの前記１つの特徴重みをそれぞれ送信する処理、前記算出させる処理、前記加算する処理及び前記２次元の入力データに含まれるデータを隣接するプロセッシングエレメントに送信させる処理を繰り返す、
ことを特徴とするデータ処理装置。

【請求項2】

請求項１において、
前記プロセッシングエレメント群は、畳み込みニューラルネットワークの畳み込み層における処理を行う、
ことを特徴とするデータ処理装置。

【請求項3】

請求項１において、
前記プロセッシングエレメント群は、前記繰り返す処理の後、前記第１記憶部に記憶された前記３次元の値を出力する、
ことを特徴とするデータ処理装置。

【請求項4】

請求項１において、
前記複数のプロセッシングエレメントごとであって前記複数のフィルタごとの３次元の記憶領域を有する第２記憶部を有し、
前記プロセッシングエレメント群は、生成した前記３次元の特徴重みを前記第２記憶部に記憶する、
ことを特徴とするデータ処理装置。

【請求項5】

請求項１において、
前記複数のプロセッシングエレメントごとの２次元の記憶領域を有する第３記憶部を有し、
前記プロセッシングエレメント群は、前記第３記憶部に記憶された前記２次元の入力データに含まれるデータのそれぞれを、全ての送信先が異なるプロセッシングエレメントになるように前記複数のプロセッシングエレメントのいずれかに送信する、
ことを特徴とするデータ処理装置。

【請求項6】

請求項１において、
それぞれ異なる前記２次元の入力データとそれぞれ異なる前記複数のフィルタとに基づく処理を行う複数の前記プロセッシングエレメント群と、
前記複数のプロセッシングエレメントごとであって前記複数のフィルタごとの３次元の記憶領域を有する第４記憶部と、を有し、
前記複数のプロセッシングエレメント群は、
前記繰り返す処理の後、各プロセッシングエレメント群の前記第１記憶部に記憶した前記３次元の値をそれぞれ加算することによって３次元の合計値を算出し、
算出した前記３次元の合計値を前記第４記憶部に記憶する、
ことを特徴とするデータ処理装置。

【請求項7】

請求項６において、
前記複数のプロセッシングエレメント群は、前記３次元の合計値を算出する処理の後、前記第４記憶部に記憶された前記３次元の合計値を出力する、
ことを特徴とするデータ処理装置。

【請求項8】

２次元の入力データの特徴量を前記２次元の入力データに対応する複数のフィルタを用いて算出するデータ処理装置におけるデータ処理方法であって、
２次元に配置された複数のプロセッシングエレメントからなるプロセッシングエレメント群と、
前記複数のプロセッシングエレメントごとであって前記複数のフィルタごとの３次元の記憶領域を有する第１記憶部と、を有し、
前記プロセッシングエレメント群は、
前記２次元の入力データに含まれるデータのそれぞれを、全ての送信先が異なるプロセッシングエレメントになるように前記複数のプロセッシングエレメントのいずれかに送信し、
前記複数のフィルタごとに、各フィルタに含まれる１つの特徴重みをそれぞれ取得し、
取得した前記複数のフィルタごとの前記１つの特徴重みを、前記複数のプロセッシングエレメントと同じ数だけ複製して前記複数のプロセッシングエレメントと同じ配置にすることによって３次元の特徴重みを生成し、
前記複数のプロセッシングエレメントのそれぞれに、取得した前記複数のフィルタごとの前記１つの特徴重みをそれぞれ送信し、
前記複数のプロセッシングエレメントのそれぞれに、送信した前記２次元の入力データに含まれるデータと、送信した前記複数のフィルタごとの前記１つの特徴重みとを乗算させることによって３次元の積を算出させ、
前記第１記憶部における前記３次元の記憶領域に記憶された値に前記３次元の積を加算し、
前記複数のプロセッシングエレメントのそれぞれに対して前記３次元の積の算出にまだ用いられていないデータが送信されるように、前記複数のプロセッシングエレメントのそれぞれに、前記複数のプロセッシングエレメントのそれぞれが保持する前記２次元の入力データに含まれるデータを隣接するプロセッシングエレメントに送信させ、
前記加算する処理が行われた回数が前記複数のフィルタのそれぞれに含まれる特徴重みの数に到達するまで、前記取得する処理、前記生成する処理、前記複数のフィルタごとの前記１つの特徴重みをそれぞれ送信する処理、前記算出させる処理、前記加算する処理及び前記２次元の入力データに含まれるデータを隣接するプロセッシングエレメントに送信させる処理を繰り返す、
ことを特徴とするデータ処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データ処理装置及びデータ処理方法に関し、特に、畳み込みニューラルネットワークにおける畳み込み演算に適したデータ処理装置及びデータ処理方法に関する。

【背景技術】

【0002】

近年、ニューラルネットワークに畳み込み(Ｃｏｎｖｏｌｕｔｉｏｎ）を追加した畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）が、画像認識等に有効な機械学習として広く認識されている。以下、ＣＮＮの概略について説明を行う。

【0003】

図１は、ＣＮＮのシステム構成の概略について説明する図である。図１に示すＣＮＮにおいて、レイヤーＬ１及びレイヤーＬ２は、畳み込み層（ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）及びプーリング層（ＰｏｏｌｉｎｇＬａｙｅｒ）をそれぞれ含む。

【0004】

畳み込み層は、入力データに対してフィルタ（Ｋｅｒｎｅｌ）の特徴重みを乗算する演算（特徴量を畳み込む演算）を行う層である。具体的に、畳み込み層では、入力データが画像データである場合、入力データに対してそれぞれ異なるフィルタの特徴重みを乗算することによって、フィルタの数に対応する画像データを得る。すなわち、畳み込み層では、複数のフィルタを使うことによって、入力データ（画像データ）のさまざまな特徴が捉えることが可能な入力データ内のパターンを検出することが可能になる。

【0005】

また、プーリング層は、畳み込み層の直後に配置される層である。プーリング層では、レイヤーを縮小することによって、後続処理の実行を容易にすることが可能になり、かつ、畳み込み層において抽出された特徴の位置感度を低下させることが可能になる。

【0006】

その後、ＣＮＮでは、レイヤーＬ３からレイヤーＬ５において全結合した多層パーセプトロンを配置することによって、入力データ（画像データ）の認識を行う（例えば、特許文献１を参照）。

【先行技術文献】

【特許文献】

【0007】

【文献】特開２０１９－００３４１４号公報

【発明の概要】

【発明が解決しようとする課題】

【0008】

ここで、上記のようなＣＮＮにおける畳み込み演算（特に、序盤のレイヤーにおいて行われる畳み込み演算）では、膨大な回数の積和演算が行われる。以下、畳み込み演算において行われる積和演算ついて説明を行う。

【0009】

図２は、畳み込み演算において行われる積和演算について説明する図である。図２（Ａ）に示す例における入力データ（ｉｎｐｕｔｆｅａｔｕｒｅｍａｐ）は、データサイズがＮｉｘ×Ｎｉｙであって、チャネル数がＮｉｆである。また、図２（Ａ）に示す例におけるフィルタ（ｆｉｌｔｅｒｓ）は、データサイズがＮｋｘ×Ｎｋｙである。さらに、図２（Ａ）に示す例における出力データ（ｏｕｔｐｕｔｆｅａｔｕｒｅｍａｐ）は、データサイズがＮｏｘ×Ｎｏｙであって、チャネル数がＮｏｆである。

【0010】

そして、この例における畳み込み演算では、図２（Ｂ）に示すように、積和演算として「ｐｉｘｅｌ_Ｌ（ｎｏ；ｘ,ｙ）＋＝ｐｉｘｅｌ_Ｌ－１（ｎｉ；ｘ＋ｋｘ,ｙ＋ｋｙ）＊ｗｅｉｇｈｔ_Ｌ－１（ｎｉ,ｎｏ；ｋｘ,ｋｙ）」が繰り返し行われる。なお、図２（Ｂ）に示す例において、「ｂｉａｓ（ｎｏ）」がない場合、「ｐｉｘｅｌ_Ｌ（ｎｏ；ｘ,ｙ）」の初期値は０になる。

【0011】

ここで、図２（Ｂ）に示す例における積和演算の実行回数は、Ｎｏｆ×Ｎｏｘ×Ｎｏｙ×Ｎｉｆ×Ｎｋｘ×Ｎｋｙ（回）になる。そのため、Ｎｏｆ等の大きさによっては、実行する必要がある積和演算の実行回数が膨大になる。

【0012】

したがって、例えば、ＣＮＮをロボットの動作制御や自動車の自動運転等の様々な分野においてより活用させる場合、畳み込み層において行われる畳み込み演算（積和演算）を可能な限り並行に実行し、ＣＮＮにおける処理時間をより高速化させる必要がある。

【0013】

そこで、本発明の目的は、畳み込み演算を高速に行うことを可能とするデータ処理装置及びデータ処理方法を提供することにある。

【課題を解決するための手段】

【0014】

上記目的を達成するための本発明におけるデータ処理装置は、２次元の入力データの特徴量を前記２次元の入力データに対応する複数のフィルタを用いて算出するデータ処理装置であって、２次元に配置された複数のプロセッシングエレメントからなるプロセッシングエレメント群と、前記複数のプロセッシングエレメントごとであって前記複数のフィルタごとの３次元の記憶領域を有する第１記憶部と、を有し、前記プロセッシングエレメント群は、前記２次元の入力データに含まれるデータのそれぞれを、全ての送信先が異なるプロセッシングエレメントになるように前記複数のプロセッシングエレメントのいずれかに送信し、前記複数のフィルタごとに、各フィルタに含まれる１つの特徴重みをそれぞれ取得し、取得した前記複数のフィルタごとの前記１つの特徴重みを、前記複数のプロセッシングエレメントと同じ数だけ複製して前記複数のプロセッシングエレメントと同じ配置にすることによって３次元の特徴重みを生成し、前記複数のプロセッシングエレメントのそれぞれに、取得した前記複数のフィルタごとの前記１つの特徴重みをそれぞれ送信し、前記複数のプロセッシングエレメントのそれぞれに、送信した前記２次元の入力データに含まれるデータと、送信した前記複数のフィルタごとの前記１つの特徴重みとを乗算させることによって３次元の積を算出させ、前記第１記憶部における前記３次元の記憶領域に記憶された値に前記３次元の積を加算し、前記複数のプロセッシングエレメントのそれぞれに対して前記３次元の積の算出にまだ用いられていないデータが送信されるように、前記複数のプロセッシングエレメントのそれぞれに、前記複数のプロセッシングエレメントのそれぞれが保持する前記２次元の入力データに含まれるデータを隣接するプロセッシングエレメントに送信させ、前記加算する処理が行われた回数が前記複数のフィルタのそれぞれに含まれる特徴重みの数に到達するまで、前記取得する処理、前記生成する処理、前記複数のフィルタごとの前記１つの特徴重みをそれぞれ送信する処理、前記算出させる処理、前記加算する処理及び前記２次元の入力データに含まれるデータを隣接するプロセッシングエレメントに送信させる処理を繰り返す、ことを特徴とする。

【0015】

上記目的を達成するための本発明におけるデータ処理装置は、前記プロセッシングエレメント群は、畳み込みニューラルネットワークの畳み込み層における処理を行う、ことを特徴とする。

【0016】

上記目的を達成するための本発明におけるデータ処理装置は、前記プロセッシングエレメント群は、前記繰り返す処理の後、前記第１記憶部に記憶された前記３次元の値を出力する、ことを特徴とする。

【0017】

上記目的を達成するための本発明におけるデータ処理装置は、前記複数のプロセッシングエレメントごとであって前記複数のフィルタごとの３次元の記憶領域を有する第２記憶部を有し、前記プロセッシングエレメント群は、生成した前記３次元の特徴重みを前記第２記憶部に記憶する、ことを特徴とする。

【0018】

上記目的を達成するための本発明におけるデータ処理装置は、前記複数のプロセッシングエレメントごとの２次元の記憶領域を有する第３記憶部を有し、前記プロセッシングエレメント群は、前記第３記憶部に記憶された前記２次元の入力データに含まれるデータのそれぞれを、全ての送信先が異なるプロセッシングエレメントになるように前記複数のプロセッシングエレメントのいずれかに送信する、ことを特徴とする。

【0019】

上記目的を達成するための本発明におけるデータ処理装置は、それぞれ異なる前記２次元の入力データとそれぞれ異なる前記複数のフィルタにとに基づく処理を行う複数の前記プロセッシングエレメント群と、前記複数のプロセッシングエレメントごとであって前記複数のフィルタごとの３次元の記憶領域を有する第４記憶部と、を有し、前記複数のプロセッシングエレメント群は、前記繰り返す処理の後、各プロセッシングエレメント群の前記第１記憶部に記憶した前記３次元の値をそれぞれ加算することによって３次元の合計値を算出し、算出した前記３次元の合計値を前記第４記憶部に記憶する、ことを特徴とする。

【0020】

上記目的を達成するための本発明におけるデータ処理装置は、前記複数のプロセッシングエレメント群は、前記３次元の合計値を算出する処理の後、前記第４記憶部に記憶された前記３次元の合計値を出力する、ことを特徴とする。

【0021】

また、上記目的を達成するための本発明におけるデータ処理方法は、２次元の入力データの特徴量を前記２次元の入力データに対応する複数のフィルタを用いて算出するデータ処理装置におけるデータ処理方法であって、２次元に配置された複数のプロセッシングエレメントからなるプロセッシングエレメント群と、前記複数のプロセッシングエレメントごとであって前記複数のフィルタごとの３次元の記憶領域を有する第１記憶部と、を有し、前記プロセッシングエレメント群は、前記２次元の入力データに含まれるデータのそれぞれを、全ての送信先が異なるプロセッシングエレメントになるように前記複数のプロセッシングエレメントのいずれかに送信し、前記複数のフィルタごとに、各フィルタに含まれる１つの特徴重みをそれぞれ取得し、取得した前記複数のフィルタごとの前記１つの特徴重みを、前記複数のプロセッシングエレメントと同じ数だけ複製して前記複数のプロセッシングエレメントと同じ配置にすることによって３次元の特徴重みを生成し、前記複数のプロセッシングエレメントのそれぞれに、取得した前記複数のフィルタごとの前記１つの特徴重みをそれぞれ送信し、前記複数のプロセッシングエレメントのそれぞれに、送信した前記２次元の入力データに含まれるデータと、送信した前記複数のフィルタごとの前記１つの特徴重みとを乗算させることによって３次元の積を算出させ、前記第１記憶部における前記３次元の記憶領域に記憶された値に前記３次元の積を加算し、前記複数のプロセッシングエレメントのそれぞれに対して前記３次元の積の算出にまだ用いられていないデータが送信されるように、前記複数のプロセッシングエレメントのそれぞれに、前記複数のプロセッシングエレメントのそれぞれが保持する前記２次元の入力データに含まれるデータを隣接するプロセッシングエレメントに送信させ、前記加算する処理が行われた回数が前記複数のフィルタのそれぞれに含まれる特徴重みの数に到達するまで、前記取得する処理、前記生成する処理、前記複数のフィルタごとの前記１つの特徴重みをそれぞれ送信する処理、前記算出させる処理、前記加算する処理及び前記２次元の入力データに含まれるデータを隣接するプロセッシングエレメントに送信させる処理を繰り返す、ことを特徴とする。

【発明の効果】

【0022】

本発明におけるデータ処理装置及びデータ処理方法によれば、畳み込み層において行われる畳み込み演算を並行に実行することが可能になるため、畳み込み演算を高速に行うことが可能になる。

【図面の簡単な説明】

【0023】

【図1】図１は、ＣＮＮのシステム構成の概略について説明する図である。

【図2】図２は、畳み込み演算において行われる積和演算について説明する図である。

【図3】図３は、本発明の実施の形態におけるデータ処理装置１０の構成例を示す図である。

【図4】図４は、本発明の実施の形態におけるＴＰＥｎの構成例を示す図である。

【図5】図５は、ＴＰＥｎにおける処理の詳細のフローチャート図である。

【図6】図６は、ＴＰＥｎにおける処理の詳細のフローチャート図である。

【図7】図７は、ＴＰＥｎにおける処理の詳細のフローチャート図である。

【図8】図８は、ＴＰＥｎにおける処理の詳細のフローチャート図である。

【図9】図９は、Ｓ１６からＳ２２の処理の具体例について説明する図である。

【図10】図１０は、Ｓ１６からＳ２２の処理の具体例について説明する図である。

【図11】図１１は、Ｓ１６からＳ２２の処理の具体例について説明する図である。

【図12】図１２は、Ｓ１６からＳ２２の処理の具体例について説明する図である。

【図13】図１３は、Ｓ１６からＳ２２の処理の具体例について説明する図である。

【図14】図１４は、Ｓ１６からＳ２２の処理の具体例について説明する図である。

【図15】図１５は、Ｓ１６からＳ２２の処理の具体例について説明する図である。

【図16】図１６は、畳み込み演算において行われる積和演算の並列度について説明する図である。

【発明を実施するための形態】

【0024】

以下、図面を参照して本発明の実施の形態について説明する。しかしながら、かかる実施の形態例が、本発明の技術的範囲を限定するものではない。

【0025】

［データ処理装置の構成］
初めに、データ処理装置１０の構成について説明を行う。図３は、本発明の実施の形態におけるデータ処理装置１０の構成例を示す図である。

【0026】

データ処理装置１０は、図３に示す例において、基盤１２と、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１３とを有する。そして、基盤１２は、図３に示す例において、チップ１４と、オフチップメモリ１５（以下、単にメモリ１５とも呼ぶ）とを有する。すなわち、データ処理装置１０では、例えば、ＣＰＵ１３とチップ１４とが各種処理を分担して実行する。

【0027】

なお、基盤１２は、例えば、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）ボードであってよい。また、チップ１４は、例えば、ＦＰＧＡチップやＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）チップであってよい。

【0028】

さらに、チップ１４は、図３に示す例において、コントローラ１７と、オンチップメモリ１６（以下、単にメモリ１６とも呼ぶ）と、ＴＰＥ（ＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＥｌｅｍｅｎｔ）１からＴＰＥｍまでのｍ個のＴＰＥを含むプロセッサであるＳＴＰ（ＳｏｆｔＴｅｎｓｏｒＰｒｏｃｅｓｓｏｒ）２０とを有する。なお、以下、ＴＰＥ１からＴＰＥｍを総称して単にＴＰＥとも呼ぶ。

【0029】

図３に示す例において、メモリ１６には、畳み込み演算の対象である３次元の入力データＸが記憶される情報格納領域であるバッファ２１と、畳み込み演算に用いられるフィルタが記憶される情報格納領域であるバッファ２２と、畳み込み演算の演算結果が記憶される情報格納領域であるバッファ２３（以下、第４記憶部とも呼ぶ）とが含まれる。

【0030】

また、図３に示す例において、コントローラ１７は、例えば、バッファ２１、バッファ２２及びバッファ２３に格納された各種情報をＴＰＥのそれぞれに送信することによって、ＴＰＥのそれぞれに畳み込み演算を行わせる処理を行う。

【0031】

［ＴＰＥの構成］
次に、ＴＰＥの構成について説明を行う。図４は、本実施の形態におけるＴＰＥｎの構成例を示す図である。なお、ＴＰＥｎ以外の他のＴＰＥについては、ＴＰＥｎと同様の構成であるため説明を省略する。

【0032】

図４に示す例において、ＴＰＥｎは、それぞれ畳み込み演算（積和演算）を行うＮｏｘ×Ｎｏｙ個の演算器Ｕと、演算器Ｕにおける畳み込み演算の演算結果が記憶されるレジスタＲ１，１からＲ１，Ｎｏｆのそれぞれ（以下、これらを総称してレジスタＲ１または第１記憶部とも呼ぶ）と、バッファ２２に記憶されていたフィルタの一部を格納するレジスタＲ２，１からレジスタＲ２，Ｎｏｆのそれぞれ（以下、これらを総称してレジスタＲ２または第２記憶部とも呼ぶ）と、バッファ２１に格納されていた入力データＸの一部を記憶するレジスタＲ３（以下、第３記憶部とも呼ぶ）と、を有する。

【0033】

具体的に、コントローラ１７は、図４に示すように、バッファ２２に記憶されたＮｏｆ種類のフィルタのうち、１種類目のフィルタに含まれる１つ目の特徴重みω_１ ^（１）を取得し、取得した特徴重みω_１ ^（１）をＮｏｘ×Ｎｏｙ個（演算器Ｕと同じ数）に複製して配置することによって２次元の特徴重みω_１ ^（１）を生成し、生成した２次元の特徴重みω_１ ^（１）をレジスタＲ２，１に記憶する。

【0034】

また、コントローラ１７は、図４に示すように、バッファ２２に記憶されたＮｏｆ種類のフィルタのうち、２種類目のフィルタに含まれる１つ目の特徴重みω_２ ^（１）を取得し、取得した特徴重みω_２ ^（１）をＮｏｘ×Ｎｏｙ個に複製して配置することによって２次元の特徴重みω_２ ^（１）を生成し、生成した２次元の特徴重みω_２ ^（１）をレジスタＲ２，２に記憶する。

【0035】

さらに、コントローラ１７は、他の種類のフィルタに含まれる１つ目の特徴重みについても同様に、２次元の特徴重みを生成してレジスタＲ２に記憶する。

【0036】

すなわち、コントローラ１７は、Ｎｏｆ種類のフィルタのそれぞれに対応する２次元の特徴重み（以下、これらを纏めて３次元の特徴重みΩとも呼ぶ）を生成してレジスタＲ２に記憶する。

【0037】

また、コントローラ１７は、図４に示すように、バッファ２１に記憶された３次元の入力データＸのうち、ＴＰＥｎに対応する２次元の入力データＸをレジスタＲ３に記憶する。

【0038】

続いて、Ｎｏｘ×Ｎｏｙ個の演算器Ｕは、レジスタＲ２に記憶された３次元の特徴重みΩを分解することによってＮｏｆ個の２次元の特徴重みΩを生成する。そして、Ｎｏｘ×Ｎｏｙ個の演算器Ｕは、レジスタＲ３に記憶された２次元の入力データＸと、分解することによって生成されたＮｏｆ個の２次元の特徴重みΩのそれぞれとを乗算することによって、Ｎｏｆ個の２次元の積（以下、これらを纏めて３次元の積とも呼ぶ）を算出する。

【0039】

すなわち、Ｎｏｘ×Ｎｏｙ個の演算器Ｕのそれぞれは、レジスタＲ３に記憶された２次元の入力データＸのうち、各演算器Ｕに対応するデータと、分解することによって生成されたＮｏｆ個の２次元の特徴重みΩのそれぞれのうち、各演算器Ｕに対応する特徴重みとを乗算することによって、１×１×Ｎｏｆ個の積を算出する。そのため、Ｎｏｘ×Ｎｏｙ個の演算器Ｕは、全体として、Ｎｏｘ×Ｎｏｙ×Ｎｏｆ個の３次元の積の算出を行う。

【0040】

そして、Ｎｏｘ×Ｎｏｙ個の演算器Ｕは、算出した３次元の積を、レジスタＲ１に記憶された３次元のデータＺ（既に算出した３次元の積の総和）に加算する。

【0041】

その後、Ｎｏｘ×Ｎｏｙ個の演算器Ｕは、バッファ２２に記憶された各フィルタに含まれる特徴重みの数に対応する回数（Ｋ^２回）だけ、上記の処理を繰り返し行う。以下、ＴＰＥｎにおける処理の詳細について説明を行う。

【0042】

［ＴＰＥにおける処理の詳細のフローチャート］
図５から図８は、ＴＰＥｎにおける処理の詳細のフローチャート図である。

【0043】

コントローラ１７は、図５に示すように、３次元の入力データＸに含まれる２次元の入力データＸのそれぞれを識別する変数であるｉにｎを設定する（Ｓ０１）。すなわち、ＴＰＥｎがＴＰＥ１である場合、コントローラ１７は、ｉに１を設定する。また、コントローラ１７は、各フィルタに含まれる特徴重みを識別する変数であるｋに１を設定する（Ｓ０２）。

【0044】

そして、コントローラ１７は、ｎが１である場合（Ｓ０３のＹＥＳ）、バッファ２２からバイアスに対応する３次元のデータを取得してレジスタＲ１に記憶する（Ｓ０４）。

【0045】

一方、コントローラ１７は、ｎが１でない場合（Ｓ０３のＮＯ）、全ての要素が０であってデータサイズがＮｏｘ×Ｎｏｙ×Ｎｏｆである３次元のデータＺをレジスタＲ１に記憶する（Ｓ０５）。すなわち、ＴＰＥｎが１である場合に限り、バイアスが加算されるように積和演算を行う。

【0046】

そして、コントローラ１７は、バッファ２１に記憶された３次元の入力データＸのうち、第ｉチャネルに対応する２次元のデータＸを取得してレジスタＲ３に記憶する（Ｓ０６）。

【0047】

続いて、コントローラ１７は、図６に示すように、バッファ２２に記憶された各フィルタの第ｉチャネルに含まれる特徴重みのうち、ｋに対応する１×１×Ｎｏｆのデータサイズの特徴重みを取得する（Ｓ１１）。

【0048】

そして、コントローラ１７は、Ｓ１１の処理で取得した各特徴重みをＮｏｘ×Ｎｏｙ個に複製することによってＮｏｘ×Ｎｏｙ×Ｎｏｆの３次元の特徴重みΩを生成してレジスタＲ２に格納する（Ｓ１２）。

【0049】

その後、Ｎｏｘ×Ｎｏｙ個の演算器Ｕは、レジスタＲ１に記憶された３次元のデータＺを取得する（Ｓ１３）。また、Ｎｏｘ×Ｎｏｙ個の演算器Ｕは、レジスタＲ２に記憶された３次元のデータΩを取得する（Ｓ１４）。さらに、Ｎｏｘ×Ｎｏｙ個の演算器Ｕは、レジスタＲ３に記憶された２次元のデータＸを取得する（Ｓ１５）。

【0050】

続いて、Ｎｏｘ×Ｎｏｙ個の演算器Ｕは、Ｓ１４の処理で取得したＮｏｘ×Ｎｏｙ×Ｎｏｆの３次元のデータΩをＮｏｆ個の２次元のデータ（データサイズがＮｏｘ×Ｎｏｙであるデータ）に分解し、分解した各２次元のデータとＳ１５で取得した２次元のデータＸとの３次元の積に対し、Ｓ１３の処理で取得した３次元のデータＺを加算する（Ｓ１６）。

【0051】

すなわち、各演算器Ｕは、３次元データΩから分解された２次元のデータに含まれる１×１のデータサイズのデータと、データＸに含まれる１×１のデータサイズのデータとの積に対し、３次元のデータＺのうちの対応するデータを加算する。

【0052】

そして、コントローラ１７は、図７に示すように、レジスタＲ１に記憶された３次元のデータＺを、Ｓ１６の処理で算出した３次元のデータに更新する（Ｓ２１）。

【0053】

次に、コントローラ１７は、レジスタＲ３に記憶された２次元のデータＸを所定の方法によって与えられた方向にシフトする（Ｓ２２）。具体的に、コントローラ１７は、２次元のデータＸに含まれる各データが各フィルタに含まれる全ての特徴重みを巡回するように、２次元のデータＸのシフト方向を決定する。Ｓ２２の処理の具体例については後述する。

【0054】

そして、コントローラ１７は、ｋに１を加算する（Ｓ２３）。その結果、ｋがＫ^２以上でない場合（Ｓ２４のＮＯ）、コントローラ１７は、Ｓ０６以降の処理を再度行う。

【0055】

一方、ｋがＫ^２以上である場合（Ｓ２４のＹＥＳ）、コントローラ１７は、ｉにｍを加算する（Ｓ２５）。その結果、ｉがＮｉｆ以上でない場合（Ｓ２６のＮＯ）、コントローラ１７は、Ｓ０６以降の処理を再度行う。すなわち、バッファ２１に記憶された３次元の入力データＸの全てが処理済でないと判定した場合、コントローラ１７は、Ｓ０６以降の処理を再度行う。以下、Ｓ１６からＳ２２の処理の具体例について説明を行う。

【0056】

［Ｓ１６からＳ２２の処理の具体例］
図９から図１５は、Ｓ１６からＳ２２の処理の具体例について説明する図である。以下、図９に示すように、ＴＰＥｎに４×４個の演算器Ｕ（演算器Ｕ_１，１、Ｕ_１，２、Ｕ_１，３、Ｕ_１，４、Ｕ_２，１、Ｕ_２，２、Ｕ_２，３、Ｕ_２，４、Ｕ_３，１、Ｕ_３，２、Ｕ_３，３、Ｕ_３，４、Ｕ_４，１、Ｕ_４，２、Ｕ_４，３及びＵ_４，４）が搭載されているものとして説明を行う。また、以下、各フィルタに含まれる特徴重みの数（Ｋ^２）が９であるものとして説明を行う。

【0057】

（ｋが１の場合の処理）
初めに、ｋが１の場合の処理について説明を行う。

【0058】

この場合、コントローラ１７は、図１０（Ａ）に示すように、分解後の２次元の特徴重みω_１を演算器Ｕ_１，１から演算器Ｕ_４，４のそれぞれに送信（ブロードキャスト送信）する。また、コントローラ１７は、図１０（Ａ）に示すように、レジスタＲ３に格納された２次元の入力データＸに含まれるデータＸ_１，１からデータＸ_４，４を演算器Ｕ_１，１から演算器Ｕ_４，４のそれぞれに送信する。

【0059】

その後、演算器Ｕ_１，１から演算器Ｕ_４，４のそれぞれは、特徴重みω_１とデータＸとを乗算する。具体的に、例えば、演算器Ｕ_２，２は、図１０（Ａ）に示すように、特徴重みω_１とデータＸ_２，２との積を算出する。

【0060】

続いて、演算器Ｕ_１，１から演算器Ｕ_４，４のそれぞれは、レジスタＲ３に格納された３次元のデータＺのうち、各演算器Ｕに対応するデータに、算出した積を加算する。具体的に、例えば、演算器Ｕ_２，２は、図１０（Ｂ）のＳｔｅｐ１に示すように、レジスタＲ３に格納された３次元のデータＺのうち、演算器Ｕ_２，２に対応する値（ｋが１である場合は０）に、特徴重みω_１とデータＸ_２，２との積を加算する。

【0061】

そして、演算器Ｕ_１，１から演算器Ｕ_４，４は、それぞれが保持しているデータＸを隣接している演算器Ｕに送信する。具体的に、例えば、演算器Ｕ_２，２は、図１１（Ａ）に示すように、データＸ_２，２を演算器Ｕ_２，１に送信する。

【0062】

ここで、データＸの送信方向に他の演算器Ｕが存在しない場合、各演算器Ｕは、図１０（Ａ）等に示すトラースネットワークを用いることによって、それぞれが保持しているデータＸを反対側の演算器Ｕに送信するものであってよい。具体的に、図１０（Ａ）に示す例において、演算器Ｕ_１，１、演算器Ｕ_２，１、演算器Ｕ_３，１及び演算器Ｕ_４，１（左端に位置する演算器Ｕ）は、それぞれが保持しているデータを演算器Ｕ_１，４、演算器Ｕ_２，４、演算器Ｕ_３，４及び演算器Ｕ_４，４（右端に位置する演算器Ｕ）のそれぞれに送信する。

【0063】

これにより、各演算器Ｕは、データＸの送信方向に他の演算器Ｕが存在しない場合であっても、それぞれが保持しているデータＸがシフトによって失われることを防止することが可能になる。

【0064】

なお、演算器Ｕ_１，１、演算器Ｕ_２，１、演算器Ｕ_３，１及び演算器Ｕ_４，１は、この場合、トラースネットワークを経由して反対側の演算器Ｕに送信されたデータＸが反対側の演算器Ｕにおいて積和計算に用いられることを防止する必要がある。そのため、演算器Ｕ_１，１、演算器Ｕ_２，１、演算器Ｕ_３，１及び演算器Ｕ_４，１のそれぞれは、例えば、トラースネットワークを経由して反対側の演算器Ｕから送信されたデータであることを示すフラグ（積和計算に用いられないデータであることを示すフラグ）を付加した上で、演算器Ｕ_１，４、演算器Ｕ_２，４、演算器Ｕ_３，４及び演算器Ｕ_４，４に対してデータＸの送信を行う。

【0065】

また、ＴＰＥｎは、この場合、演算器Ｕ_１，１等の４×４個の演算器Ｕの外側に配置されたパティング用の演算器Ｕをさらに有するものであってもよい。そして、図１０（Ａ）に示す例において、演算器Ｕ_１，１、演算器Ｕ_２，１、演算器Ｕ_３，１及び演算器Ｕ_４，１は、それぞれが保持しているデータを、各演算器Ｕの左側に位置するパティング用の演算器Ｕに送信するものであってよい。

【0066】

なお、この場合、ＴＰＥｎが有する演算器Ｕ（パティング用の演算器Ｕを含む）の数は、以下の式（１）によって算出される。

【0067】

【数1】

（ｋが２の場合の処理）
次に、ｋが２の場合の処理について説明を行う。

【0068】

この場合、コントローラ１７は、図１１（Ａ）に示すように、分解後の２次元の特徴重みω_２を演算器Ｕ_１，１から演算器Ｕ_４，４のそれぞれに送信（ブロードキャスト送信）する。そして、演算器Ｕ_１，１から演算器Ｕ_４，４のそれぞれは、データＸを保持している場合（直前に行われたＳ１２の処理において隣接する演算器ＵからデータＸを受信している場合）、特徴重みω_２とデータＸとを乗算する。具体的に、例えば、演算器Ｕ_２，２は、図１１（Ａ）に示すように、特徴重みω_２とデータＸ_２，３（演算器Ｕ_２，２から送信されたデータＸ）との積を算出する。

【0069】

続いて、演算器Ｕ_１，１から演算器Ｕ_４，４のそれぞれは、レジスタＲ３に格納された３次元のデータＺのうち、各演算器Ｕに対応する値に、算出した積を加算する。具体的に、例えば、演算器Ｕ_２，２は、図１１（Ｂ）のＳｔｅｐ２に示すように、レジスタＲ３に格納された３次元のデータＺのうち、演算器Ｕ_２，２に対応する値に、特徴重みω_２とデータＸ_２，３との積を加算する。

【0070】

そして、演算器Ｕ_１，１から演算器Ｕ_４，４は、保持しているデータＸを隣接している演算器Ｕに送信する。具体的に、例えば、演算器Ｕ_２，２は、図１１（Ｂ）に示すように、データＸ_２，３を演算器Ｕ_３，２に送信する。

【0071】

（ｋが３の場合の処理）
次に、ｋが３の場合の処理について説明を行う。

【0072】

コントローラ１７は、この場合、図１２（Ａ）に示すように、分解後の２次元の特徴重みω_３を演算器Ｕ_１，１から演算器Ｕ_４，４のそれぞれに送信（ブロードキャスト送信）する。そして、演算器Ｕ_１，１から演算器Ｕ_４，４のそれぞれは、データＸを保持している場合、特徴重みω_３とデータＸとを乗算する。具体的に、例えば、演算器Ｕ_２，２は、図１２（Ａ）に示すように、特徴重みω_３とデータＸ_１，３との積を算出する。

【0073】

続いて、演算器Ｕ_１，１から演算器Ｕ_４，４のそれぞれは、レジスタＲ３に格納された３次元のデータＺのうち、各演算器Ｕに対応する値に、算出した積を加算する。具体的に、例えば、演算器Ｕ_２，２は、図１２（Ｂ）のＳｔｅｐ３に示すように、レジスタＲ３に格納された３次元のデータＺのうち、演算器Ｕ_２，２に対応する値に、特徴重みω_３とデータＸ_１，３との積を加算する。

【0074】

そして、演算器Ｕ_１，１から演算器Ｕ_４，４は、保持しているデータＸを隣接している演算器Ｕに送信する。具体的に、例えば、演算器Ｕ_２，２は、データＸ_１，３を演算器Ｕ_２，３に送信する。

【0075】

その後、例えば、演算器Ｕ_２，２は、図１３及び図１４に示すように、特徴重みω_１とデータＸ_２，２との乗算（ｋが１の場合の演算）と、特徴重みω_２とデータＸ_２，３との乗算（ｋが２の場合の演算）と、特徴重みω_３とデータＸ_１，３との乗算（ｋが３の場合の演算）とに加え、特徴重みω_４とデータＸ_１，２との乗算（ｋが４の場合の演算）と、特徴重みω_５とデータＸ_１，１との乗算（ｋが５の場合の演算）と、特徴重みω_６とデータＸ_２，１との乗算（ｋが６の場合の演算）と、特徴重みω_７とデータＸ_３，１との乗算（ｋが７の場合の演算）と、特徴重みω_８とデータＸ_３，２との乗算（ｋが８の場合の演算）と、特徴重みω_９とデータＸ_３，３との乗算（ｋが９の場合の演算）とを行う。

【0076】

すなわち、各演算器Ｕは、ｋの値が加算されるごとに、特徴重みのブロードキャスト送信とデータＸのシフトとを行いながら、各フィルタに含まれる特徴重みと入力データＸとの畳み込み演算を行うことで、畳み込み演算を演算器Ｕごとに並行して行う。

【0077】

また、各演算器Ｕは、特徴重みとデータＸとの乗算を行う場合、図１５に示すように、Ｎｏｆ種類のフィルタごとに、各フィルタに含まれる特徴重みと入力データＸとの乗算を並行して行う。

【0078】

具体的に、演算器Ｕ_２，２は、ｋが１である場合、１種類目のフィルタに含まれる１つ目の特徴重みω_１ ^（１）とデータＸ_２，２との乗算を行うことによって、積Ｚ_{２，２，１}を算出する。また、演算器Ｕ_２，２は、この場合、２種類目のフィルタに含まれる１つ目の特徴重みω_２ ^（１）とデータＸ_２，２との乗算を行うことによって、積Ｚ_{２，２，２}を算出する。同様に、演算器Ｕ_２，２は、Ｎｏｆ種類のフィルタのそれぞれに対応する乗算を行う。

【0079】

これにより、各演算器Ｕは、演算器Ｕの数（Ｎｏｘ×Ｎｏｙ）とフィルタの種類数（Ｎｏｆ）との積に対応する多重度によって並列処理を行うことが可能になる。

【0080】

さらに、本実施の形態におけるデータ処理装置１０では、上記のように各演算器Ｕが行う処理を、各ＴＰＥにおいて行う。

【0081】

これにより、データ処理装置１０では、各ＴＰＥにおける演算器Ｕの数（Ｎｏｘ×Ｎｏｙ）とフィルタの種類数（Ｎｏｆ）とＴＰＥの数（ｎ）との積に対応する多重度によって並列処理を行うことが可能になる。そのため、データ処理装置１０では、ＣＮＮにおける畳み込み演算を高速に行うことが可能になる。

【0082】

図７に戻り、ｉがＮｉｆ以上である場合（Ｓ２６のＹＥＳ）、コントローラ１７は、Ｓ２７以降の処理を再度行う。すなわち、コントローラ１７は、各ＴＰＥにおける畳み込み演算が完了したことに応じて、各ＴＰＥにおいて算出された値の総和を算出する処理を開始する。

【0083】

そして、例えば、ＴＰＥｎがＴＰＥ１以外である場合（Ｓ２７のＮＯ）、コントローラ１７は、図８に示すように、隣接するＴＰＥ（ｎ－１）から３次元のデータＺ´を受信する（Ｓ３１）。

【0084】

続いて、Ｎｏｘ×Ｎｏｙ個の演算器Ｕは、Ｓ３１の処理で受信した３次元のデータＺ´に対して、レジスタＲ１に記憶された３次元のデータＺを加算する（Ｓ３２）。

【0085】

その後、Ｎｏｘ×Ｎｏｙの演算器Ｕは、Ｓ３２の処理で算出した３次元のデータＺをレジスタＲ１に記憶する（Ｓ３３）。

【0086】

そして、ＴＰＥｎがＴＰＥｍでない場合（Ｓ３４のＹＥＳ）、ＴＰＥｎは、レジスタＲ１に格納された３次元のデータＺを隣接するＴＰＥ（ｎ＋１）に送信する（Ｓ３５）。また、ＴＰＥｎは、レジスタＲ１に格納された３次元のデータＺをバッファ２３に格納する（Ｓ３６）。

【0087】

これにより、データ処理装置１０は、各ＴＰＥにおいて算出された畳み込み演算の結果の総和を算出することが可能になる。

【0088】

なお、ＴＰＥｎがＴＰＥ１である場合（Ｓ２７のＹＥＳ）も同様に、ＴＰＥｎは、Ｓ３５の処理を行う。

【0089】

一方、ＴＰＥｎがＴＰＥｍである場合（Ｓ３４のＮＯ）、ＴＰＥｎは、Ｓ３５の処理を行わずに、レジスタＲ１に格納された３次元のデータＺをバッファ２３に格納する（Ｓ３６）。すなわち、コントローラ１７は、この場合、各ＴＰＥにおいて行われた畳み込み演算の最終的な結果をバッファ２３に格納する。

【0090】

このように、本実施の形態におけるデータ処理装置１０では、Ｎｏｆ、Ｎｏｘ、Ｎｏｙ及びＮｉｆに関する積和演算を並行して行うことが可能になる。そのため、本実施の形態におけるデータ処理装置１０は、図１６に示すように、畳み込み演算における積和演算の並列度を他の方法を採用した場合よりも大きくすることが可能になる。

【0091】

従って、本実施の形態におけるデータ処理装置１０では、積和演算の実行回数を大幅に抑えることが可能になる。そのため、本実施の形態におけるデータ処理装置１０では、ＣＮＮの畳み込み層における畳み込み演算を高速に行うことが可能になる。

【0092】

また、例えば、畳み込み演算の実行時間が閾値以下にすることが求められる場合、本実施の形態におけるデータ処理装置１０によれば、積和演算の実行回数を抑えることが可能になるため、積和演算の１回あたりの実行速度が遅くなるように設定することが許容される。すなわち、これは、データ処理装置１０の動作周波数の抑えることが可能になり、かつ、回路の駆動電圧を抑制することが可能になることを意味する。したがって、本実施の形態におけるデータ処理装置１０では、畳み込み演算の実行に伴う消費電力を抑えることが可能になる。

【0093】

そのため、本実施の形態におけるデータ処理装置１０は、様々な制約が求められる各分野（例えば、ロボットの動作制御や自動車の自動運転等の分野）においても使用することが可能になる。

【符号の説明】

【0094】