特許7669894 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特許7669894演算処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-04-21

(45)【発行日】2025-04-30

(54)【発明の名称】演算処理装置

(51)【国際特許分類】

G06F 17/10 20060101AFI20250422BHJP

【ＦＩ】

G06F17/10 A

【請求項の数】 3

(21)【出願番号】P 2021156280

(22)【出願日】2021-09-27

(65)【公開番号】P2023047390

(43)【公開日】2023-04-06

【審査請求日】2024-05-08

(73)【特許権者】

【識別番号】000000295

【氏名又は名称】沖電気工業株式会社

(74)【代理人】

【識別番号】100116964

【弁理士】

【氏名又は名称】山形洋一

(74)【代理人】

【識別番号】100120477

【弁理士】

【氏名又は名称】佐藤賢改

(74)【代理人】

【識別番号】100135921

【弁理士】

【氏名又は名称】篠原昌彦

(74)【代理人】

【氏名又は名称】半田淳一

(72)【発明者】

【氏名】土井俊洋

【審査官】田中幸雄

(56)【参考文献】

【文献】特開２０２１－７１７７２（ＪＰ，Ａ）

【文献】特開２０１７－２１４８３（ＪＰ，Ａ）

【文献】特開２０１９－６１６４１（ＪＰ，Ａ）

【文献】中原康宏ほか，ＡＩエッジコンピューティング向けＤＮＮアクセラレータ，電子情報通信学会技術研究報告［ｏｎｌｉｎｅ］，日本，一般社団法人電子情報通信学会，2019年11月06日，第１１９巻第２８７号，１５～２０ページ

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１７／１０

(57)【特許請求の範囲】

【請求項1】

第１の演算モードと第２の演算モードを実行する演算処理装置において、
前記第１の演算モードと前記第２の演算モードに基づく入力データと重みデータを供給するデータ供給部と、
それぞれが複数の演算器を備え、前記データ供給部によって供給される前記入力データと前記重みデータに基づき互いに異なるタイミングで演算を実行し演算結果を出力する複数の演算器組を備えた並列演算器と、
集和部とを有し、
前記複数の演算器は、同じ前記演算器組内にあって、前記データ供給部によって供給されて入力する前記入力データと前記重みデータに基づき、互いに同じタイミングで演算を実行して演算結果を出力し、
前記集和部は、前記第２の演算モードの実行時に、前記演算器組の有する前記複数の演算器で同じタイミングで演算実行され出力された演算結果の和を出力する
ことを特徴とする演算処理装置。

【請求項2】

前記第１の演算モードは畳み込み層の演算モードであり、第２の演算モードは全結合層の演算モードであることを特徴とする請求項１記載の演算処理装置。

【請求項3】

前記データ供給部は、前記入力データを出力する入力データ供給部と、前記重みデータを供給する重みデータ供給部とからなることを特徴とする請求項１又は２記載の演算処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、全結合層の演算や畳み込み層の演算を実行する演算処理装置に関する。

【背景技術】

【0002】

近年、ＡＩをつかったアプリケーションをユーザに提供するにあたり、このアプリケーションの処理を高速化しユーザの利便性を高める目的で、ＡＩで使われる演算処理を高速実行可能な演算処理装置（回路）の提案が盛んになっている。特に時間のかかる演算処理として、多くの積和演算の実行が必要な全結合層の演算と畳み込み層の演算があり、これらの演算を高速に実行するための演算処理装置の提案が盛んとなっている。その中で、シストリックアレイによる積和演算回路は、超大規模な並列積和演算器を構成するのに有利であるため、多くの提案がされている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１７－２１４８３号公報（第９頁、図６）

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、シストリックアレイを用いた演算回路では、隣接する積和演算器間で積和結果を伝搬させていく構成であるため、隣接する演算器でタイミングをずらして入力データの入力を行う必要があり、遅延のためのバッファが必要である。また、並べて配置された積和演算器の配置に合わせて対応する重みデータを設定する必要があるため、配置された全ての積和演算器を利用することができない場合がある。

【0005】

更に上記により、入力データも積和演算器に設定された重みデータに合わせて入力する必要があり、畳み込み層の演算においては、本来の入力データの並び（ラスタ並び）からデータを並び替える手間が生じる場合がある。以上のように、従来のシストリックアレイを用いた演算回路では、回路規模の増加によるコスト増加や処理性能が低下するという問題があった。

【課題を解決するための手段】

【0006】

本発明による演算処理装置は、第１の演算モードと第２の演算モードを実行する演算処理装置であって、
前記第１の演算モードと前記第２の演算モードに基づく入力データと重みデータを供給するデータ供給部と、それぞれが複数の演算器を備え、前記データ供給部によって供給される前記入力データと前記重みデータに基づき互いに異なるタイミングで演算を実行し演算結果を出力する複数の演算器組を備えた並列演算器と、集和部とを有し、
前記複数の演算器は、同じ前記演算器組内にあって、前記データ供給部によって供給されて入力する前記入力データと前記重みデータに基づき、互いに同じタイミングで演算を実行して演算結果を出力し、
前記集和部は、前記第２の演算モードの実行時に、前記演算器組の有する前記複数の演算器で同じタイミングで演算実行され出力された演算結果の和を出力することを特徴とする。

【発明の効果】

【0007】

本発明によれば、入力データの遅延のためのバッファが不要となり、配置した演算器をより多く利用でき、第１の演算モードの演算においては、本来の入力データの並びからデータを並び替える手間も生じないため、回路規模を抑えながら処理性能を向上させた演算処理装置が提供できる。

【図面の簡単な説明】

【0008】

【図1】本発明による実施の形態１の演算処理装置の構成図である。

【図2】各演算器に共通の構成を示す回路構成図である。

【図3】畳み込み層の演算における積和演算の実行の説明に供する図である。

【図4】畳み込み層の演算でのサイクル（ＴＩＭ１）、サイクル（ＴＩＭ２）における、並列演算器への入力状態を示す図である。

【図5】畳み込み層の演算でのサイクル（ＴＩＭ３）、サイクル（ＴＩＭ３）における、並列演算器への入力状態を示す図である。

【図6】畳み込み層の演算でのサイクル（ＴＩＭ５）、サイクル（ＴＩＭ６）における、並列演算器への入力状態を示す図である。

【図7】畳み込み層の演算でのサイクル（ＴＩＭ７）、サイクル（ＴＩＭ８）における、並列演算器への入力状態を示す図である。

【図8】畳み込み層の演算でのサイクル（ＴＩＭ９）における、並列演算器に対する入出力状態を示す図である。

【図9】畳み込み層の演算でのサイクル（ＴＩＭ１～３６）における、並列演算器に対する入出力データを示す図である。

【図10】全結合層の演算で行う積和演算を行列式で示した図である。

【図11】全結合層の演算でのサイクル（ＴＩＭ１）、サイクル（ＴＩＭ４）における、並列演算器１３０への入力状態を示す図である。

【図12】全結合層の演算でのサイクル（ＴＩＭ３）、サイクル（ＴＩＭ２）における、並列演算器１３０への入力状態を示す図である。

【図13】全結合層の演算でのサイクル（ＴＩＭ５）、サイクル（ＴＩＭ６）における、並列演算器１３０への入力状態を示す図である。

【図14】全結合層の演算でのサイクル（ＴＩＭ７）における、並列演算器１３０への入力状態を示す図である。

【図15】（ａ）は参考例における全結合層の演算の概要図であり、図１５（ｂ）はその演算式を示す。

【図16】（ａ）は、参考例における畳み込み層の演算の概要図であり、図１６（ｂ）は、その演算式を示す。

【図17】参考例として示したシストリックアレイによる積和演算回路の構成例である。

【発明を実施するための形態】

【0009】

実施の形態１．
本発明による本実施の形態１の演算処理装置の説明の前に、ＡＩでよく使われる演算処理であり、ここでの演算処理装置の処理対象となる全結合層の演算と、畳み込み層の演算における積和演算と、参考例としてのシストリックアレイを用いた演算回路について、それらの概要を説明する。

【0010】

図１５（ａ）は、全結合層の演算の概要図であり、図１５（ｂ）は、その演算式を示す。同図に示すように、全結合層の演算では、複数の入力データ（Ｘ１～Ｘｎ）に対して、全結合層のノード（Ｙ１～Ｙｍ）毎に入力データと同じ数用意された重みデータ（Ｗ１１～Ｗｍｎ）を乗算し、全てを足し合わせる積和演算が行われる。ここでの積和演算は、図１５（ｂ）の演算式の点線で囲んだ演算に相当する。

【0011】

図１６（ａ）は、畳み込み層の演算の概要図であり、図１６（ｂ）は、その演算式を示す。同図に示すように、畳み込み層の演算では、幅と高さと深さ（＝入力チャンネル（以下、ＣＨと記す）数）をもった入力データ（Ｘ００１～Ｘｌｋｃ）に対して、出力するデータの深さ（出力ＣＨ数）分のボックスフィルタ（フィルタ１～フィルタｍ）を用いて、入力データを走査、処理することで演算結果を得ることができる。各ボックスフィルタは、演算式で示すように、幅ｋと高さｌと深さ（入力ＣＨ数）分の重みを持ち、局所的な範囲の入力データ（Ｘｘｙｃ）と対応する重み（Ｗｘｙｃｍ）とを乗算し全てを足し合わせる積和演算が行われる。ここでの積和演算は、図１６（ｂ）の演算式の点線で囲んだ演算に相当する。

【0012】

このように、全結合層の演算と畳み込み層の演算では、どちらも多くの積和演算が実行される。そこで多くの積和器を並べて並列に演算を実行することで高速化を行う処理装置（回路）が求められる。また、全結合層の演算と畳み込み層の演算は、どちらも積和演算を実行するものであり、回路規模（コスト）を抑えるために共用可能な処理装置（回路）が求められる。

【0013】

図１７は、参考例として示したシストリックアレイによる積和演算回路の構成例である。同図に示すように、シストリックアレイによる積和演算回路では、各積和器の出力は各隣接する積和器（図では右隣の積和器）に入力されるように接続されており、各積和器では、その積和器に設定された重みデータ供給部から供給される重みデータの値と、入力バッファから供給される入力データの値との乗算値に対して、隣接の積和器から入力された値の和をとる積和演算を行うよう構成されている。

【0014】

入力バッファで入力データの入力タイミングを調整し、左右に並ぶ複数の積和器への入力を、左端の積和器への入力が最初になるようずらして入力していくことで、左端の積和器から右端の積和器に向かって積和が繰り返し実行され、右端の積和器から最終的な結果が得られる。

【0015】

また、このような構成であることから、並べて配置された積和演算器の配置に合わせて対応する重みデータを設定する必要があるため、配置された全ての積和演算器を利用することができない場合がある。例えば、３×３のフィルタ（重みデータ９個）での畳み込み層の演算を、図１７の４×４＝１６個の積和器を使って実行する場合を考えると、設定される重みデータは９個であるので、１６個の積和器の内、９個の演算器しか利用できない。また、その際の入力は、あるタイミングで見たときに入力データ中のある３×３の範囲を入力とする必要があり、本来の入力データの並び（ラスタ並び）からデータを並び替える手間が生じる。

【0016】

次に本発明による本実施の形態１の演算処理装置について説明する。図１は、本実施の形態の演算処理装置１００の構成図である。

【0017】

同図に示すように、演算処理装置１００は、入力データ供給部１１０、重みデータ供給部１２０、演算器１５０を複数有する並列演算器１３０、マルチプレクサ１６０、行集和回路１７０、及び演算制御部１８０で構成される。尚、入力データ供給部１１０及び重みデータ供給部１２０は、データ供給部に相当する。

【0018】

入力データ供給部１１０と重みデータ供給部１２０は、第２の演算モードとしの全結合層の演算や第１の演算モードとしての畳み込み層の演算の対象となる入力データと重みデータを並列演算器１３０へ供給する部位である。入力データ供給部１１０は、入力データが格納された外部のメモリから、また重みデータ供給部１２０は重みデータが格納された外部のメモリから、それぞれデータを読み出すことができる。また、演算制御部１８０の指示により、供給のための動作を開始させ、その際、選択された演算モードに応じて、入力データと重みデータの並列演算器１３０への供給の仕方を変更させて動作する。

【0019】

並列演算器１３０は、入力データ供給部１１０から供給される入力データ、及び重みデータ供給部１２０より供給される重みデータに基づき、複数の演算器１５０により並列に演算処理し、全結合層の演算や畳み込み層の演算における積和演算の一部、又は積和演算の全ての演算を実行する部位である。

【0020】

図２は、各演算器１５０に共通の構成を示す回路構成図である。

【0021】

同図に示すように、演算器１５０は、フリップフロップ１５１，１５２，１５６、掛け算器１５３、加算器１５４、及びマルチプレクサ１５５で構成された積和演算器であり、クロックに同期して入力された入力データと重みデータの乗算を行い、結果の乗算値を被加算値に加算し出力する。被加算値は、フリップフロップ１５６に記憶されている前サイクルの演算結果又は０(リセット時)がマルチプレクサ１５５により選択される。例えば、入力データにＡ、Ｂ、重みデータにＣ、Ｄが順次入力された場合は、１サイクル目にＯＵＴ１＝Ａ×Ｃ＋０（リセット）を実行し、２サイクル目にＯＵＴ２＝Ｂ×Ｄ＋ＯＵＴ１を実行し、Ａ×Ｃ＋Ｂ×Ｄの結果を得るよう動作する。

【0022】

並列演算器１３０は、図１に示すように、上記した演算器１５０を複数並べて１組とした演算器組１４０を、複数組（段）用意し構成する。最上段（初段）に相当する演算器組１４０にある演算器１５０については、入力データ供給部１１０より直接入力データが入力されるように接続され、次段以降にある演算器１５０については、上方に隣接する（前段の）演算器１５０に入力された入力データが１サイクル遅延されて入力されるよう接続される。また、重みデータの入力については、重みデータ供給部１２０より各演算器１５０に直接供給されるように接続される。各演算器組１４０の各演算器１５０の出力は、全てマルチプレクサ１６０に入力される。

【0023】

マルチプレクサ１６０の出力であるが、並列演算器１３０の初段の演算器組１４０の複数の演算器１５０に対しての入力のタイミングが同じであれば、当然、ある組の複数の演算器１５０の出力は全て同じタイミングで出力される。また、各組の入力は1サイクルずつ遅延されることから、各組の出力は１サイクル毎ずれてタイミングが重ならず出力される。従って、マルチプレクサ１６０は、サイクル毎、入力された演算結果の内、有効な演算器組１４０の出力を選択し、後段の集和部としての行集和回路１７０に入力することができる。尚、マルチプレクサ１６０と行集和回路１７０とが集和部に相当する。

【0024】

行集和回路１７０は、サイクル毎に入力される複数の演算結果の和をとって出力を行う部位である。尚、複数の演算結果の和をとる動作は、演算制御部１８０で選択された演算モードによっては行わずに、複数の演算結果をそのまま出力することもできる。

【0025】

以上の構成において、畳み込み層の演算と、全結合層の演算における積和演算を実行する場合の具体的な動作について、それぞれ例をあげて詳細に説明する。

【0026】

（畳み込み層の演算における積和演算の実行について）
図３は、畳み込み層の演算における積和演算の実行の説明に供する図であり、図４～図８は、サイクル（ＴＩＭ１）～サイクル（ＴＩＭ９）における、サイクル毎の並列演算器１３０への入力状態を示す図であり、図９は、図３の例で示した畳み込み層の演算における全ての積和演算結果を示す図である。畳み込み層の演算における積和演算の実行の具体的な動作について、図３～図９を参照しながら以下に説明する。

【0027】

図３に示すように、ここでは、幅が６、高さが６、ＣＨ数（深さ）が１の入力データを、出力ＣＨ（１～４）数分の４つのフィルタ（フィルタ１～４）で畳み込み演算する場合を例にして説明する。図中の各要素に付記する番号はデータの並んでいる順番を表している。図４～図８は、並列演算器１３０が４×４の演算器１５０で構成されるとして、上記の例における入力データと重みデータの、並列演算器１３０への入力を表したものである。各図のサイクル（ＴＩＭ１）～サイクル（ＴＩＭ９）は、サイクル毎の並列演算器１３０への入力状態を示している。

【0028】

即ち、例えば図４に示す演算器１５０において、上中の囲み部は図２において入力データを入力するフリップフロップ１５１の入力部に相当し、各サイクルで入力する入力データの番号を表示し、左中の囲み部は図２において重みデータを入力するフリップフロップ１５２の入力部に相当し、各サイクルで入力する各フィルタの重みデータの番号に対応する塗り潰しパターンを表示している。更に、図８に示す演算器１５０において、右中の囲み部は図２において出力データを出力するフリップフロップ１５６の出力部に相当し、各サイクルで出力する出力データの番号を表示している。

【0029】

図４～図８の各図に示すように、畳み込み層の演算では、並列演算器１３０の各段の演算器組１４０が、畳み込み層の各出力ＣＨの演算を実行するように対応しており、重みデータ供給部１２０は、サイクル毎に、ここでの各段に対応するフィルタ中の１個のデータを各段の組の複数の演算器１５０に共通の重みデータと入力していき、入力データ供給部１１０は、サイクル毎に、前記重みデータに対応する入力データを１段目の演算器組１４０に存在する演算器１５０の数分まとめて入力していく。

【0030】

図４に示すように、最初のサイクル（ＴＩＭ１）で、重みデータ供給部１２０は、フィルタ１の１番のデータを１段目の演算器組１４０の共通の重みデータとして入力し、入力データ供給部１１０は、１段目の演算器組１４０へ、１番の重みデータに対応する、図３における１～４番の４個のデータを入力データとして入力する。

【0031】

次のサイクル（ＴＩＭ２）では、重みデータ供給部１２０は、フィルタ１の２番のデータを１段目の演算器組１４０の共通の重みデータとして入力し、入力データ供給部１１０は１段目の演算器組１４０へ、２番の重みデータに対応する図３における２～５番の４個のデータを入力データとして入力する。

【0032】

以降、サイクル（ＴＩＭ３）～（ＴＩＭ９）で、フィルタ１の最後の９番の重みデータが入力されるまで、重みデータと入力データの入力を順次行うことで、１段目の演算器組１４０の最初の出力に対応する入力分が完了する。

【0033】

（ＴＩＭ９）まで入力が完了したときの１段目の演算器組１４０の出力ＣＨ１からの出力として、入力データをＡ＊、重みデータをＷ＊（＊はデータの順番を示す番号）として表し、１段目の演算器組１４０の各演算器１５０の出力を左からＹ１、Ｙ２、Ｙ３、Ｙ４として表すと、
Ｙ１＝Ａ１×Ｗ１＋Ａ２×Ｗ２＋Ａ３×Ｗ３＋Ａ７×Ｗ４＋Ａ８×Ｗ５
＋Ａ９×Ｗ６＋Ａ１３×Ｗ７＋Ａ１４×Ｗ８＋Ａ１５×Ｗ９
Ｙ２＝Ａ２×Ｗ１＋Ａ３×Ｗ２＋Ａ４×Ｗ３＋Ａ８×Ｗ４＋Ａ９×Ｗ５
＋Ａ１０×Ｗ６＋Ａ１４×Ｗ７＋Ａ１５×Ｗ８＋Ａ１６×Ｗ９
Ｙ３＝Ａ３×Ｗ１＋Ａ４×Ｗ２＋Ａ５×Ｗ３＋Ａ９×Ｗ４＋Ａ１０×Ｗ５
＋Ａ１１×Ｗ６＋Ａ１５×Ｗ７＋Ａ１６×Ｗ８＋Ａ１７×Ｗ９
Ｙ４＝Ａ４×Ｗ１＋Ａ５×Ｗ２＋Ａ６×Ｗ３＋Ａ１０×Ｗ４＋Ａ１１×Ｗ５
＋Ａ１２×Ｗ６＋Ａ１６×Ｗ７＋Ａ１７×Ｗ８＋Ａ１８×Ｗ９
の通り出力される。

【0034】

更に、１段目の演算器組１４０以外の演算器組１４０への入力データは、上方に隣接する演算器組１４０へ入力された入力データが１サイクル遅延されて入力されていくので、重みデータ供給部１２０は、以降の段の演算器組１４０に入力する重みデータも同様に遅延させて、サイクル毎、１段目と同様、以降の段に対応するフィルタ（フィルタ２～４）の重みデータを１個ずつ順次入力していくことで、全ての出力ＣＨ（１～４）の演算結果を得ることができる。

【0035】

更に続けて、図９に示すように、サイクル（ＴＩＭ１０）～（ＴＩＭ１８）、サイクル（ＴＩＭ１９）～（ＴＩＭ２７）、サイクル（ＴＩＭ２８）～（ＴＩＭ３６）で、入力する入力データ（点線で囲ったデータ）を変更して、残りの入力データを同様に処理することで、図３の例で示した畳み込み層の演算における全ての積和演算結果を得ることができる。

【0036】

尚、この畳み込み層の演算における行集和回路１７０は、演算制御部１８０によって、サイクル毎に入力される複数の演算結果の和をとって出力する演算処理は行わず、入力したデータをそのまま出力する演算モードに設定されるものである。

【0037】

（全結合層の演算における積和演算の実行）
図１０は、全結合層の演算で行う積和演算を行列式で示した図であり、図１１～図１４は、サイクル（ＴＩＭ１）～サイクル（ＴＩＭ７）における、サイクル毎の並列演算器１３０への入力状態を示す図である。全結合層の演算における積和演算の実行の具体的な動作例について、図１０～図１４を参照しながら以下に説明する。

【0038】

図１０は、入力データが１６個、出力ノードが４個である全結合層で行う積和演算を行列式で示したものである。同図中の各要素に付記する番号はデータの並んでいる順番を表している。図１１～図１４は、並列演算器１３０が４×４の演算器１５０で構成されているとして、入力データと重みデータの並列演算器１３０への入力を表したものである。各図のサイクル（ＴＩＭ１）～（ＴＩＭ７）は、サイクル毎の並列演算器１３０への入力状態を示している。

【0039】

即ち、例えば図１１に示す演算器１５０において、上中の囲み部は図２において入力データを入力するフリップフロップ１５１の入力部に相当し、各サイクルで入力する入力データの番号を表示し、左中の囲み部は図２において重みデータを入力するフリップフロップ１５２の入力部に相当し、各サイクルで入力する重みデータの番号を表示している。更に、例えば図１２に示す演算器１５０において、右中の囲み部は図２において出力データを出力するフリップフロップ１５６の出力部に相当し、各サイクルで出力する出力データの番号を表示している。

【0040】

図１１～図１４の各図に示すように、全結合層の演算では、並列演算器１３０の各段の演算器組１４０が、全結合層の各出力ノードの演算を実行するように対応しており、重みデータ供給部１２０は、サイクル毎に、ここでの各段（出力ノード）に対応する重みデータを各段の組の複数の演算器１５０に各々入力していき、入力データ供給部１１０は、サイクル毎、前記重みデータに対応する入力データを１段目の演算器組１４０に入力していく。

【0041】

図１１に示すように、最初のサイクル（ＴＩＭ１）で、入力データ供給部１１０と重みデータ供給部１２０は、並列演算器１３０の１段目の演算器組１４０へ、それぞれ１～４番の４個のデータ（図１０）を入力する。

【0042】

次のサイクル（ＴＩＭ２）では、１段目の演算器組１４０へ、入力データ供給部１１０と重みデータ供給部１２０は、それぞれ５～８番のデータを入力し、２段目の演算器組１４０には１段目に前サイクルで入力した１～４番の入力データが入力され、重みデータ供給部１２０は、対応する１７～２０番の重みデータを２段目の演算器組１４０に入力する。

【0043】

図１２に示すように、次のサイクル（ＴＩＭ３）では、１段目の演算器組１４０へ、入力データ供給部１１０と重みデータ供給部１２０は、それぞれ９～１２番のデータを入力し、２段目の演算器組１４０には１段目に前サイクルで入力した５～８番の入力データが入力され、重みデータ供給部１２０は、対応する２１～２４番の重みデータを２段目の演算器組１４０に入力する。更に３段目の演算器組１４０には、同様にして１～４番の入力データと３３～３６番の重みデータが入力される。

【0044】

次のサイクル（ＴＩＭ４）（図１２）では、１段目の演算器組１４０へ、入力データ供給部１１０と重みデータ供給部１２０は、１段目の演算器組１４０の入力としては最後となるそれぞれ１３～１６番のデータを入力する。２段目の演算器組１４０には１段目に前サイクルで入力した９～１２番の入力データが入力され、重みデータ供給部１２０は、対応する２５～２８番の重みデータを２段目の演算器組１４０に入力する。更に３段目の演算器組１４０には、同様にして５～８番の入力データと３７～４０番の重みデータが入力され、４段目の演算器組１４０には、同様にして１～４番の入力データと４９～５２番の重みデータが入力される。

【0045】

次のサイクル（ＴＩＭ５）（図１３）では、２段目の演算器組１４０へ、２段目の演算器組１４０への入力としては最後となる１段目に前サイクルで入力された１３～１６番の入力データが入力され、重みデータ供給部１２０は、対応する２９～３２番の重みデータを２段目の演算器組１４０に入力する。更に３段目の演算器組１４０には、同様にして９～１２番の入力データと４１～４４番の重みデータが入力され、４段目の演算器組１４０には、同様にして５～８番の入力データと５３～５６番の重みデータが入力される。

【0046】

同様にして、次のサイクル（ＴＩＭ６）（図１３）では、３段目の演算器組１４０へ、３段目の演算器組１４０への入力としては最後となる１３～１６番の入力データと４５～４８番の重みデータが入力され、４段目の演算器組１４０へ、８～１２番の入力データと５７～６０番の重みデータが入力される。そして次のサイクル（ＴＩＭ７）（図１４）では、４段目の演算器組１４０に最後となる１３～１６番の入力データと６１～６４番の重みデータが入力される。

【0047】

前記したように各演算器１５０は、各演算器１５０に入力された入力データと重みデータとを乗算しながら乗算した結果と各演算器１５０で保持される前サイクルの結果との和をとる積和を行う。即ち、入力データをＡ＊、重みデータをＷ＊（＊はデータの順番を示す番号）として表し、１段目の演算器組１４０の演算器１５０の出力を、左からＹ１、Ｙ２、Ｙ３、Ｙ４として表し、以降の組の演算器１５０の出力をＹ５、Ｙ６、・・・と表すと、各段の各演算器１５０の出力は以下のようになる。

【0048】

１段目の演算器組１４０の出力：
Ｙ１＝Ａ１×Ｗ１＋Ａ５×Ｗ５＋Ａ９×Ｗ９＋Ａ１３×Ｗ１３、
Ｙ２＝Ａ２×Ｗ２＋Ａ６×Ｗ６＋Ａ１０×Ｗ１０＋Ａ１４×Ｗ１４、
Ｙ３＝Ａ３×Ｗ３＋Ａ７×Ｗ７＋Ａ１１×Ｗ１１＋Ａ１５×Ｗ１５、
Ｙ４＝Ａ４×Ｗ４＋Ａ８×Ｗ８＋Ａ１２×Ｗ１２＋Ａ１６×Ｗ１６、
となる。

【0049】

２段目の演算器組１４０の出力：
Ｙ５＝Ａ１×Ｗ１７＋Ａ５×Ｗ２１＋Ａ９×Ｗ２５＋Ａ１３×Ｗ２９、
Ｙ６＝Ａ２×Ｗ１８＋Ａ６×Ｗ２２＋Ａ１０×Ｗ２６＋Ａ１４×Ｗ３０、
Ｙ７＝Ａ３×Ｗ１９＋Ａ７×Ｗ２３＋Ａ１１×Ｗ２７＋Ａ１５×Ｗ３１、
Ｙ８＝Ａ４×Ｗ２０＋Ａ８×Ｗ２４＋Ａ１２×Ｗ２８＋Ａ１６×Ｗ３２、
となる。

【0050】

３段目の演算器組１４０の出力：
Ｙ９＝Ａ１×Ｗ３３＋Ａ５×Ｗ３７＋Ａ９×Ｗ４１＋Ａ１３×Ｗ４５、
Ｙ１０＝Ａ２×Ｗ３４＋Ａ６×Ｗ３８＋Ａ１０×Ｗ４２＋Ａ１４×Ｗ４６、
Ｙ１１＝Ａ３×Ｗ３５＋Ａ７×Ｗ３９＋Ａ１１×Ｗ４３＋Ａ１５×Ｗ４７、
Ｙ１２＝Ａ４×Ｗ３６＋Ａ８×Ｗ４０＋Ａ１２×Ｗ４４＋Ａ１６×Ｗ４８、
となる。

【0051】

４段目の演算器組１４０の出力：
Ｙ１３＝Ａ１×Ｗ４９＋Ａ５×Ｗ５３＋Ａ９×Ｗ５７＋Ａ１３×Ｗ６１、
Ｙ１４＝Ａ２×Ｗ５０＋Ａ６×Ｗ５４＋Ａ１０×Ｗ５８＋Ａ１４×Ｗ６２、
Ｙ１５＝Ａ３×Ｗ５１＋Ａ７×Ｗ５５＋Ａ１１×Ｗ５９＋Ａ１５×Ｗ６３、
Ｙ１６＝Ａ４×Ｗ５２＋Ａ８×Ｗ５６＋Ａ１２×Ｗ６０＋Ａ１６×Ｗ６４、
となる。

【0052】

ここで、上記並列演算器１３０の出力は、対象とした全結合層の各ノードに対応する出力が得られているが、各演算器組１４０に存在する複数の演算器１５０の演算結果は各々出力されるため、各演算器組１４０に存在する複数の演算器１５０の演算結果の和をとって最終的な出力とする必要があることが分かる。そこで、並列演算器１３０の後段に具備する行集和回路１７０が、複数の演算結果の和をとって出力するよう動作させることで、各演算器組１４０に対応する行集和回路１７０の出力は下記のようになる。

【0053】

１段目の演算器組１４０に対応する行集和回路１７０のノード出力：
ＯＵＴ１＝Ｙ１＋Ｙ２＋Ｙ３＋Ｙ４
＝Ａ１×Ｗ１＋Ａ５×Ｗ５＋Ａ９×Ｗ９
＋Ａ１３×Ｗ１３＋Ａ２×Ｗ２＋Ａ６×Ｗ６＋Ａ１０×Ｗ１０
＋Ａ１４×Ｗ１４＋Ａ３×Ｗ３＋Ａ７×Ｗ７＋Ａ１１×Ｗ１１
＋Ａ１５×Ｗ１５＋Ａ４×Ｗ４＋Ａ８×Ｗ８＋Ａ１２×Ｗ１２
＋Ａ１６×Ｗ１６

【0054】

２段目の演算器組１４０に対応する行集和回路１７０のノード出力：
ＯＵＴ２＝Ｙ５＋Ｙ６＋Ｙ７＋Ｙ８
＝Ａ１×Ｗ１７＋Ａ５×Ｗ２１＋Ａ９×Ｗ２５＋Ａ１３×Ｗ２９
＋Ａ２×Ｗ１８＋Ａ６×Ｗ２２＋Ａ１０×Ｗ２６＋Ａ１４×Ｗ３０
＋Ａ３×Ｗ１９＋Ａ７×Ｗ２３＋Ａ１１×Ｗ２７＋Ａ１５×Ｗ３１
＋Ａ４×Ｗ２０＋Ａ８×Ｗ２４＋Ａ１２×Ｗ２８＋Ａ１６×Ｗ３２

【0055】

３段目の演算器組１４０に対応する行集和回路１７０のノード出力：
ＯＵＴ３＝Ｙ９＋Ｙ１０＋Ｙ１１＋Ｙ１２
＝Ａ１×Ｗ３３＋Ａ５×Ｗ３７＋Ａ９×Ｗ４１＋Ａ１３×Ｗ４５
＋Ａ２×Ｗ３４＋Ａ６×Ｗ３８＋Ａ１０×Ｗ４２＋Ａ１４×Ｗ４６
＋Ａ３×Ｗ３５＋Ａ７×Ｗ３９＋Ａ１１×Ｗ４３＋Ａ１５×Ｗ４７
＋Ａ４×Ｗ３６＋Ａ８×Ｗ４０＋Ａ１２×Ｗ４４＋Ａ１６×Ｗ４８

【0056】

４段目の演算器組１４０に対応する行集和回路１７０のノード出力：
ＯＵＴ４＝Ｙ１３＋Ｙ１４＋Ｙ１５＋Ｙ１６
＝Ａ１×Ｗ４９＋Ａ５×Ｗ５３＋Ａ９×Ｗ５７＋Ａ１３×Ｗ６１
＋Ａ２×Ｗ５０＋Ａ６×Ｗ５４＋Ａ１０×Ｗ５８＋Ａ１４×Ｗ６２
＋Ａ３×Ｗ５１＋Ａ７×Ｗ５５＋Ａ１１×Ｗ５９＋Ａ１５×Ｗ６３
＋Ａ４×Ｗ５２＋Ａ８×Ｗ５６＋Ａ１２×Ｗ６０＋Ａ１６×Ｗ６４
以上のように、例示した全結合層の演算における積和演算の最終値を得ることができる。

【0057】

以上説明したように、本実施の形態の演算処理装置では、複数の演算器１５０の後段に行集和回路１７０を設けることで、隣接する演算器１５０でタイミングをずらさずに入力データを入力でき、また畳み込み層の演算と全結合層の演算のどちらの積和演算も実行でき、更に畳み込み層の演算と全結合層の演算の各々の本来の入力データの並びに合わせて入力ができる。

【0058】

また、複数の演算器１５０で構成される演算器組１４０を複数用意し、各演算器組１４０を畳み込み層の出力ＣＨや全結合層の出力ノードに対応させることで、配置した演算器１５０を最大限利用して処理を行うことが出来る。

【0059】

従って、本実施の形態の演算処理装置によれば、入力データの遅延のためのバッファが不要となり、配置した演算器をより多く利用でき、畳み込み層の演算においては本来の入力データの並びからデータを並び替える手間も生じないため、従来よりも回路規模を抑えながら処理性能を向上させた演算処理装置（回路）が提供できる。

【産業上の利用可能性】

【0060】

本発明は、ＡＩをつかったアプリケーションを高速に実行するための演算処理装置に適用可能である。

【符号の説明】

【0061】

１００演算処理装置、１１０入力データ供給部、１２０重みデータ供給部、１３０並列演算器、１４０演算器組、１５０演算器、１５１フリップフロップ、１５２フリップフロップ、１５３掛け算器、１５４加算器、１５５マルチプレクサ、１５６フリップフロップ、１６０マルチプレクサ、１７０行集和回路、１８０演算制御部。

【図1】