特許7265946 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社メガチップスの特許一覧

特許7265946ニューラルネットワーク用プロセッサ、ニューラルネットワーク用処理方法、および、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-04-19

(45)【発行日】2023-04-27

(54)【発明の名称】ニューラルネットワーク用プロセッサ、ニューラルネットワーク用処理方法、および、プログラム

(51)【国際特許分類】

G06N 3/02 20060101AFI20230420BHJP

G06F 17/10 20060101ALI20230420BHJP

G06F 17/16 20060101ALI20230420BHJP

【ＦＩ】

G06N3/02

G06F17/10 A

G06F17/16 K

【請求項の数】 8

(21)【出願番号】P 2019130416

(22)【出願日】2019-07-12

(65)【公開番号】P2021015510

(43)【公開日】2021-02-12

【審査請求日】2022-01-28

(73)【特許権者】

【識別番号】591128453

【氏名又は名称】株式会社メガチップス

(74)【代理人】

【識別番号】100143498

【弁理士】

【氏名又は名称】中西健

(74)【代理人】

【識別番号】100136319

【弁理士】

【氏名又は名称】北原宏修

(74)【代理人】

【識別番号】100148275

【弁理士】

【氏名又は名称】山内聡

(74)【代理人】

【識別番号】100142745

【弁理士】

【氏名又は名称】伊藤世子

(72)【発明者】

【氏名】松本真人

(72)【発明者】

【氏名】石尾康史

(72)【発明者】

【氏名】藤吉弘亘

【審査官】加藤優一

(56)【参考文献】

【文献】国際公開第２０１８／０１６６０８（ＷＯ，Ａ１）

【文献】KAMIYA, Ryuji ほか，Binary-decomposed DCNN for accelerating computation and compressing model without retraining，[オンライン]，2017年09月14日，pp.1-8，[検索日 2023.03.20], インターネット: <URL：https://arxiv.org/pdf/1709.04731.pdf>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｇ０６Ｆ１７／００－１７／１８

Ｇ０６Ｆ１８／００－１８／４０

(57)【特許請求の範囲】

【請求項1】

畳み込み層の処理と全結合層の処理とを含む多値化ニューラルネットワーク用処理を実行するためのニューラルネットワーク用プロセッサであって、
実数ベクトルデータであるスケーリング係数ベクトルを設定するとともに、多値データを要素とする多値基底行列を設定する制御部と、
前記畳み込み層に入力される特徴マップおよび前記全結合層に入力される特徴ベクトルに対して量子化処理を実行する量子化処理部であって、前記特徴マップの最小値および前記特徴ベクトルの最小値が所定の値よりも小さい値となるようにオフセット値を設定し、前記特徴マップおよび前記特徴ベクトルの最大値および最小値に基づいて取得される量子化幅を用いて前記量子化処理を実行する前記量子化処理部と、
二値基底行列を用いたときに所定の近似精度を実現するために必要となるスケーリング係数ベクトルの要素数よりも少ない要素数を有するスケーリング係数ベクトルと、当該スケーリング係数ベクトルに対応して設定される多値基底行列とを用いて行列演算処理を実行する内積処理部と、
を備えるニューラルネットワーク用プロセッサ。

【請求項2】

前記内積処理部は、
前記多値基底行列の要素のデータを入力するためのインターフェース部であって、Ｎ１ビット幅（Ｎ１：自然数）のバスに接続されている前記インターフェース部と、
前記多値基底行列の要素がとりうる値の数に応じて設定されるモードを設定するモード設定部と、
前記量子化処理後のデータと、前記多値基底行列に含まれる要素の所定数の要素からなるデータとに対して、前記モード設定部により設定された前記モードに基づいて、整数演算処理を実行する整数処理部と、
前記整数演算処理を実行することにより取得されたデータと、前記スケーリング係数ベクトルとに対して、実数演算処理を実行する実数処理部と、
を備える、
請求項１に記載のニューラルネットワーク用プロセッサ。

【請求項3】

前記整数処理部は、
前記多値基底行列に含まれる要素のデータと整数値である符号語とを割り当てた符号テーブルを保持する符号テーブル保持部と、
前記符号テーブル保持部により保持されている符号テーブルに基づいて、前記多値基底行列に含まれる要素のデータに対応する整数値である符号語にデコードするデコーダと、
を備え、
前記整数処理部は、
前記デコーダによりデコードされた前記多値基底行列に含まれる要素のデータに対応する整数値と、前記量子化処理後のデータとを用いて、前記整数演算処理を実行する、
請求項２に記載のニューラルネットワーク用プロセッサ。

【請求項4】

前記インターフェース部は、符号テーブル設定用データを入力することができ、前記符号テーブル設定用データを、前記符号テーブル保持部に出力し、
前記符号テーブル保持部は、前記インターフェース部から入力した前記符号テーブル設定用データにより特定される符号テーブルを保持する、
請求項３に記載のニューラルネットワーク用プロセッサ。

【請求項5】

前記内積処理部は、
前記インターフェース部のバス幅のビット数と、前記インターフェース部に一度に入力される前記多値基底行列の要素のデータの合計ビット数とに基づいて、前記整数演算処理の整数積算処理の繰り返し回数である整数積算ループ回数を決定するループ回数取得部をさらに備え、
前記整数処理部は、
前記ループ回数取得部により決定された前記整数積算ループ回数に従い、前記整数演算処理の整数積算処理を繰り返し実行する、
請求項２から４のいずれかに記載のニューラルネットワーク用プロセッサ。

【請求項6】

前記ループ回数取得部は、
前記インターフェース部に入力される前記スケーリング係数ベクトルの次元数に基づいて、前記実数演算処理の実数積算処理の繰り返し回数である実数積算ループ回数を決定し、
前記実数処理部は、
前記ループ回数取得部により決定された前記実数積算ループ回数に従い、前記実数演算処理の実数積算処理を繰り返し実行する、
請求項５に記載のニューラルネットワーク用プロセッサ。

【請求項7】

畳み込み層の処理と全結合層の処理とを含む多値化ニューラルネットワーク用処理を実行するためのニューラルネットワーク用処理方法であって、
実数ベクトルデータであるスケーリング係数ベクトルを設定するとともに、多値データを要素とする多値基底行列を設定する制御ステップと、
前記畳み込み層に入力される特徴マップおよび前記全結合層に入力される特徴ベクトルに対して量子化処理を実行する量子化処理ステップであって、前記特徴マップの最小値および前記特徴ベクトルの最小値が所定の値よりも小さい値となるようにオフセット値を設定し、前記特徴マップおよび前記特徴ベクトルの最大値および最小値に基づいて取得される量子化幅を用いて前記量子化処理を実行する前記量子化処理ステップと、
二値基底行列を用いたときに所定の近似精度を実現するために必要となるスケーリング係数ベクトルの要素数よりも少ない要素数を有するスケーリング係数ベクトルと、当該スケーリング係数ベクトルに対応して設定される多値基底行列とを用いて行列演算処理を実行する内積処理ステップと、
を備えるニューラルネットワーク用処理方法。

【請求項8】

請求項７に記載のニューラルネットワーク用処理方法をコンピュータに実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ニューラルネットワークの技術に関する。

【背景技術】

【0002】

近年、ニューラルネットワーク技術の１つである、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いた多様な技術が開発されている（例えば、特許文献１を参照）。ＣＮＮの中でも、中間層を多く設けたＤＣＮＮ（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いた技術が、多様な分野で成果を上げているため、特に注目を集めている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１５－１９７７０２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ＤＣＮＮは、一般物体認識やセマンティックセグメンテーション等の様々なタスクにおいて高い認識性能を実現している。その一方で、ＤＣＮＮは、処理を実行するために必要な計算量とパラメータ数が非常に多いため、処理を実行するときに、膨大な処理時間と多大なメモリ量が必要となる。

【0005】

また、ＤＣＮＮでは、層をより深くすることで認識精度が向上する傾向が見られ、これに伴い識別時間（処理時間）に加えモデルサイズも増加するという問題が発生する。組み込み機器やモバイル機器等の低スペックのデバイスでＤＣＮＮを使用するには、識別計算の高速化とモデルサイズの圧縮が大きな課題となる。

【0006】

つまり、組み込み機器やモバイル機器等の低スペックのデバイス（例えば、エッジ端末）において、大規模システムで学習し取得した学習済みモデルをそのまま搭載することは困難であり、低スペックのデバイスにおいて、コンパクト化したモデルを構築する必要がある。

【0007】

組み込み機器やモバイル機器等の低スペックのデバイス（例えば、エッジ端末）に、大規模システムで学習し取得した学習済みモデルを搭載するためには、低スペックのデバイスにおいて、当該学習済みモデルのコンパクト化したモデルを構築し、当該学習済みモデルに用いた学習用データを用いて、再度、コンパクト化したモデルにおいて、学習させる必要がある（この学習を「再学習」という）。

【0008】

つまり、組み込み機器やモバイル機器等の低スペックのデバイス（例えば、エッジ端末）で、大規模システムで学習し取得した学習済みモデルを搭載するためには、再学習が必要となるという課題がある。

【0009】

そこで、本発明は、上記課題に鑑み、再学習を必要とせず、組み込み機器やモバイル機器等の低スペックのデバイス（例えば、エッジ端末）において、高性能なコンパクト化したモデルを搭載することができるニューラルネットワーク用プロセッサ、ニューラルネットワーク用データ処理方法、および、プログラムを実現することを目的とする。

【課題を解決するための手段】

【0010】

上記課題を解決するために、第１の発明は、畳み込み層の処理と全結合層の処理とを含む多値化ニューラルネットワーク用処理を実行するためのニューラルネットワーク用プロセッサであって、制御部と、量子化処理部と、内積処理部と、を備える。

【0011】

制御部は、実数ベクトルデータであるスケーリング係数ベクトルを設定するとともに、多値データを要素とする多値基底行列を設定する。

【0012】

量子化処理部は、畳み込み層に入力される特徴マップおよび全結合層に入力される特徴ベクトルに対して量子化処理を実行する。また、量子化処理部は、特徴マップの最小値および特徴ベクトルの最小値が所定の値よりも小さい値となるようにオフセット値を設定し、特徴マップおよび特徴ベクトルの最大値および最小値に基づいて取得される量子化幅を用いて量子化処理を実行する。

【0013】

内積処理部は、二値基底行列を用いたときに所定の近似精度を実現するために必要となるスケーリング係数ベクトルの要素数よりも少ない要素数を有するスケーリング係数ベクトルと、当該スケーリング係数ベクトルに対応して設定される多値基底行列とを用いて行列演算処理を実行する。

【0014】

このニューラルネットワーク用プロセッサでは、多値基底行列を用いるため、多値基底行列の各要素がとりうる整数値の範囲が広くなるので、それに応じて、スケーリング係数ベクトルの次元数（要素数）を減らすことができる。スケーリング係数ベクトルの要素は実数であるため、スケーリング係数ベクトルの次元数（要素数）を減らすことで、実数演算処理の処理量を減らすことができる。その結果、このニューラルネットワーク用プロセッサでは、二値基底行列を用いた行列演算処理を実行するときの計算精度を確保しつつ、演算処理量を著しく低減させることができる。

【0015】

つまり、このニューラルネットワーク用プロセッサ１００では、多値基底行列を使用することで、スケーリング係数ベクトルの次元数を減らし、実数処理量を低減させつつ、高精度の演算処理を効率良く行うことができる。このため、このニューラルネットワーク用プロセッサを用いることで、再学習を必要とせず、組み込み機器やモバイル機器等の低スペックのデバイス（例えば、エッジ端末）において、高性能なコンパクト化したモデルを搭載することができる。

【0016】

なお、「所定の近似精度」とは、例えば、（１）所定の行列Ｍ１を、スケーリング係数ベクトルと二値基底行列とを用いてベクトル分解して近似したときに、目標値となる行列Ｍ１と、ベクトル分解して得られた、スケーリング係数ベクトルと二値基底行列とにより取得される行列との差（例えば、各要素の差分の２乗平均の総和）をＸ１とし、（２）所定の行列Ｍ１を、スケーリング係数ベクトルと多値基底行列とを用いてベクトル分解して近似したときに、目標値となる行列Ｍ１と、ベクトル分解して得られた、スケーリング係数ベクトルと多値基底行列とにより取得される行列との差（例えば、各要素の差分の２乗平均の総和）をＸ２とすると、Ｘ１とＸ２との差が所定の範囲内（許容誤差範囲内）に入っていることをいう。
また、「Ｘ１とＸ２との差が所定の範囲内（許容誤差範囲内）に入る」とは、例えば、目標値となる行列Ｍ１の各要素の値の２乗平均の総和をＺ１とし、上記のＸ１を（行列の）各要素の差分の２乗平均の総和とし、上記のＸ２を（行列の）各要素の差分の２乗平均の総和とすると、
Ａｂｓ（Ｘ１－Ｘ２）／Ｚ１＜Ｔｈ１
Ａｂｓ（ｘ）：ｘの絶対値をとる関数
を満たすことをいう。Ｔｈ１は、例えば、０．５以下の任意の実数である。

【0017】

また、「行列演算処理」には、内積演算処理（２つのベクトルの内積を求める処理）が含まれる。

【0018】

第２の発明は、第1の発明であって、内積処理部は、インターフェース部と、モード設定部と、整数処理部と、実数処理部と、を備える。

【0019】

インターフェース部は、多値基底行列の要素のデータを入力するためのインターフェース部であって、Ｎ１ビット幅（Ｎ１：自然数）のバスに接続されている。

【0020】

モード設定部は、多値基底行列の要素がとりうる値の数に応じて設定されるモードを設定する。

【0021】

整数処理部は、量子化処理後のデータと、多値基底行列に含まれる要素の所定数の要素からなるデータとに対して、モード設定部により設定されたモードに基づいて、整数演算処理を実行する。

【0022】

実数処理部は、整数演算処理を実行することにより取得されたデータと、スケーリング係数ベクトルとに対して、実数演算処理を実行する。

【0023】

このニューラルネットワーク用プロセッサでは、インターフェース部のバス幅（Ｎ１ビット）と、モード設定部により設定されたモードに応じて、整数演算処理を実行することができる。これにより、ニューラルネットワーク用プロセッサでは、データ転送バスのバス幅の有効データの占有率を高めることができるため、効率良く演算処理が実行できる。

【0024】

第３の発明は、第２の発明であって、整数処理部は、符号テーブル保持部と、デコーダと、を備える。

【0025】

符号テーブル保持部は、多値基底行列に含まれる要素のデータと整数値である符号語とを割り当てた符号テーブルを保持する。

【0026】

デコーダは、符号テーブル保持部により保持されている符号テーブルに基づいて、多値基底行列に含まれる要素のデータに対応する整数値である符号語にデコードする。

【0027】

そして、整数処理部は、デコーダによりデコードされた多値基底行列に含まれる要素のデータに対応する整数値と、量子化処理後のデータとを用いて、整数演算処理を実行する。

【0028】

これにより、このニューラルネットワーク用プロセッサでは、多値（Ｎ値）基底行列の各要素がとる整数値（符号語）を、符号テーブルを用いて柔軟に設定することができるため、多様な行列演算処理を効率良く行うことができる。

【0029】

第４の発明は、第３の発明であって、インターフェース部は、符号テーブル設定用データを入力することができ、符号テーブル設定用データを、符号テーブル保持部に出力する。

【0030】

符号テーブル保持部は、インターフェース部から入力した符号テーブル設定用データにより特定される符号テーブルを保持する。

【0031】

これにより、このニューラルネットワーク用プロセッサでは、例えば、外部から符号テーブル設定用データを内積処理部に入力することで、多様な符号テーブルを設定することができる。その結果、このニューラルネットワーク用プロセッサでは、柔軟性を有しつつ、高精度の演算処理を効率良く行うことができる。

【0032】

第５の発明は、第２から第４のいずれかの発明であって、内積処理部は、インターフェース部のバス幅のビット数と、インターフェース部に一度に入力される多値基底行列の要素のデータの合計ビット数とに基づいて、整数演算処理の整数積算処理の繰り返し回数である整数積算ループ回数を決定するループ回数取得部をさらに備える。

【0033】

整数処理部は、ループ回数取得部により決定された整数積算ループ回数に従い、整数演算処理の整数積算処理を繰り返し実行する。

【0034】

これにより、このニューラルネットワーク用プロセッサでは、インターフェース部に一度に入力される多値基底行列の要素のデータの合計ビット数が、インターフェース部のバス幅のビット数を超える場合であっても、整数積算処理を繰り返し実行することで、正しい計算値を取得することができる。

【0035】

第６の発明は、第５の発明であって、ループ回数取得部は、インターフェース部に入力されるスケーリング係数ベクトルの次元数に基づいて、実数演算処理の実数積算処理の繰り返し回数である実数積算ループ回数を決定する。

【0036】

実数処理部は、ループ回数取得部により決定された実数積算ループ回数に従い、実数演算処理の実数積算処理を繰り返し実行する。

【0037】

これにより、このニューラルネットワーク用プロセッサでは、スケーリング係数ベクトルの次元数がいくつであっても、適切に実数演算処理を実行することができる。

【0038】

第７の発明は、畳み込み層の処理と全結合層の処理とを含む多値化ニューラルネットワーク用処理を実行するためのニューラルネットワーク用処理方法であって、制御ステップと、量子化処理ステップと、内積処理ステップと、を備える。

【0039】

制御ステップは、実数ベクトルデータであるスケーリング係数ベクトルを設定するとともに、多値データを要素とする多値基底行列を設定する。

【0040】

量子化処理ステップは、畳み込み層に入力される特徴マップおよび全結合層に入力される特徴ベクトルに対して量子化処理を実行する。また、量子化処理ステップは、特徴マップの最小値および特徴ベクトルの最小値が所定の値よりも小さい値となるようにオフセット値を設定し、特徴マップおよび特徴ベクトルの最大値および最小値に基づいて取得される量子化幅を用いて量子化処理を実行する。

【0041】

内積処理ステップは、二値基底行列を用いたときに所定の近似精度を実現するために必要となるスケーリング係数ベクトルの要素数よりも少ない要素数を有するスケーリング係数ベクトルと、当該スケーリング係数ベクトルに対応して設定される多値基底行列とを用いて行列演算処理を実行する。

【0042】

これにより、第１の発明と同様の効果を奏するニューラルネットワーク用処理方法を実現することができる。

【0043】

第８の発明は、第７の発明であるニューラルネットワーク用処理方法をコンピュータに実行させるためのプログラムである。

【0044】

これにより、第１の発明と同様の効果を奏するニューラルネットワーク用処理方法をコンピュータに実行させるためのプログラムを実現することができる。

【発明の効果】

【0045】

本発明によれば、再学習を必要とせず、組み込み機器やモバイル機器等の低スペックのデバイス（例えば、エッジ端末）において、高性能なコンパクト化したモデルを搭載することができるニューラルネットワーク用プロセッサ、ニューラルネットワーク用処理方法、および、プログラムを実現することができる。

【図面の簡単な説明】

【0046】

【図1】第１実施形態に係るニューラルネットワーク用プロセッサ１００の概略構成図。

【図2】第１実施形態に係る内積処理部３の概略構成図。

【図3】第１実施形態に係る内積処理部３の概略構成図。

【図4】ＣＮＮの重み演算処理を、マトリックスで表現した図（上図）と、二値化ニューラルネットワークの重み演算処理を、マトリックスで表現した図（下図）とを含む図。

【図5】ＣＮＮの重み演算処理を、マトリックスで表現した図（上図）と、多値化ニューラルネットワークの重み演算処理を、マトリックスで表現した図（下図）とを含む図。

【図6】スケーリング係数ベクトルｖ＿ｃ（＝［ｃ１，ｃ２，・・・，ｃ６］）、および、二値基底行列Ｍの設定処理を説明するための図。

【図7】スケーリング係数ベクトルｖ＿ｃ（＝［ｃ１，ｃ２，ｃ３］）、および、Ｎ値基底行列Ｍ（Ｎ）（Ｎ＝４）の設定処理を説明するための図。

【図8】符号テーブル（４値基底行列用）（一例）を示す図。

【図9】ニューラルネットワーク用プロセッサ１００の内積演算処理（行列演算処理）を説明するための図。

【図10】１ビットデータフォーマット（１つの符号語に１ビットを割り当てる場合）を模式的に示した図。

【図11】２ビットデータフォーマット（１つの符号語に２ビットを割り当てる場合）を模式的に示した図。

【図12】ニューラルネットワーク用プロセッサ１００の内積演算処理（行列演算処理）を説明するための図。

【図13】符号テーブル（一例）を示す図。

【図14】ＣＰＵバス構成を示す図。

【発明を実施するための形態】

【0047】

［第１実施形態］
第１実施形態について、図面を参照しながら、以下、説明する。

【0048】

＜１．１：ニューラルネットワーク用プロセッサの構成＞
図１は、第１実施形態に係るニューラルネットワーク用プロセッサ１００の概略構成図である。

【0049】

図２、図３は、第１実施形態に係る内積処理部３の概略構成図である。

【0050】

ニューラルネットワーク用プロセッサ１００は、図１に示すように、第１インターフェース部ＩＦ１と、制御部ＣＰＵ１と、演算処理部ＰＬ１と、バスＢ１とを備える。第１インターフェース部ＩＦ１と、制御部ＣＰＵ１と、演算処理部ＰＬ１とは、図１に示すように、バスＢ１により接続されており、必要なデータ、コマンド等を、バスＢ１を介して、入出力することができる。なお、上記機能部の一部または全部は、バス接続ではなく、必要に応じて、直接接続されるものであってもよい。

【0051】

第１インターフェース部ＩＦ１は、外部から処理対象となるデータＤｉｎを入力し、ニューラルネットワーク用プロセッサによる処理結果を含むデータをデータＤｏｕｔとして外部に出力する。

【0052】

制御部ＣＰＵ１は、ニューラルネットワーク用プロセッサ１００の全体制御、各機能部の制御およびニューラルネットワーク用処理に必要な処理を行う。制御部ＣＰＵ１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＣＰＵコアにより実現される。

【0053】

制御部ＣＰＵ１は、例えば、大規模システムでの学習済みモデルのパラメータ（重み付けデータ）を近似するスケーリング係数ベクトルｖ＿ｃおよび多値基底行列Ｍを取得（設定）し、取得（設定）したスケーリング係数ベクトルｖ＿ｃおよび多値基底行列Ｍを、それぞれ、内部ＲＡＭＲ１の領域ＡＲ（ＣＶ）、および領域ＡＲ（ＭＭｔｘ）に記憶保持させる。

【0054】

なお、上記スケーリング係数ベクトルｖ＿ｃおよび多値基底行列Ｍは、第１インターフェース部ＩＦ１を介して、外部から、ニューラルネットワーク用プロセッサ１００に入力されるものであってもよい。

【0055】

演算処理部ＰＬ１は、図１に示すように、ＤＭＡ制御部１と、量子化処理部２と、内部ＲＡＭＲ１と、内積処理部３と、を備える。

【0056】

ＤＭＡ制御部１は、ＤＭＡ転送処理（ＤＭＡ：ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓ）を行う。

【0057】

量子化処理部２は、ＤＣＮＮ（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）の畳み込み層の入力である特徴マップのデータに対して、量子化処理を行う。また、量子化処理部２は、ＤＣＮＮの全結合層の入力データに対して、量子化処理を行う。

【0058】

内部ＲＡＭＲ１は、ニューラルネットワーク用処理を実行するために必要なデータを記憶保持するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）である。

【0059】

内積処理部３は、図２に示すように、第２インターフェース部ＩＦ２と、モード設定部３１と、ループ回数取得部３２と、整数処理部３３と、実数処理部３４とを備える。

【0060】

第２インターフェース部ＩＦ２は、内部ＲＡＭＲ１とのインターフェースである。第２インターフェース部ＩＦ２は、内部ＲＡＭＲ１から所定のデータを読み出し、および／または、内部ＲＡＭＲ１に所定のデータを書き込む。また、第２インターフェース部ＩＦ２は、内部ＲＡＭＲ１から読み出したデータから、所定のデータを取得し、取得したデータを、モード設定部３１、ループ回数取得部３２、整数処理部３３、および／または、実数処理部３４に出力する。また、第２インターフェース部ＩＦ２は、実数処理部３４から出力されるデータＤｏを入力し、当該データＤｏを、例えば、内部ＲＡＭＲ１の所定の領域に書き込む。

【0061】

モード設定部３１は、第２インターフェース部ＩＦ２から出力されるデータであって、モード設定のための情報を含むデータＩｎｆｏ１．Ｍｔｘ^（Ｎ）を入力する。そして、モード設定部３１は、データＩｎｆｏ１．Ｍｔｘ^（Ｎ）に基づいて、モード信号Ｍｏｄｅを生成し、生成したモード信号Ｍｏｄｅを整数処理部３３に出力する。

【0062】

ループ回数取得部３２は、第２インターフェース部ＩＦ２から出力されるデータであって、（１）整数処理部３３で実行される整数積算処理におけるループ回数を決定するための情報と、（２）実数処理部３４で実行される実数積算処理におけるループ回数を決定するための情報と、を含むデータＩｎｆｏ２．Ｍｔｘ^（Ｎ）を入力する。そして、ループ回数取得部３２は、データＩｎｆｏ２．Ｍｔｘ^（Ｎ）に基づいて、（１）整数処理部３３で実行される整数積算処理におけるループ回数を制御するための制御信号Ｃｔｌ＿ｌｏｏｐ１と、（２）実数処理部３４で実行される実数積算処理におけるループ回数を制御するための制御信号Ｃｔｌ＿ｌｏｏｐ２とを生成する。そして、ループ回数取得部３２は、制御信号Ｃｔｌ＿ｌｏｏｐ１を整数処理部３３に出力し、制御信号Ｃｔｌ＿ｌｏｏｐ２を実数処理部３４に出力する。

【0063】

整数処理部３３は、図２に示すように、整数演算部３３Ａと、整数積算部３３Ｂとを備える。

【0064】

整数演算部３３Ａは、図３に示すように、符号テーブル保持部３３１と、デコーダ３３２と、整数乗算器３３３と、積算器３３４と、を備える。整数演算部３３Ａは、モード設定部３１から出力されるモード信号Ｍｏｄｅを入力し、モード信号Ｍｏｄｅに従い、処理モードを設定する。そして、設定した処理モードに従い、デコード処理、整数乗算処理、積算処理を実行する。

【0065】

符号テーブル保持部３３１は、第２インターフェース部ＩＦ２から出力される符号テーブルのデータを入力し、当該符号テーブルのデータを保持する。

【0066】

デコーダ３３２は、第２インターフェース部ＩＦ２から出力される多値行列データＤ＿Ｍｔｘ^（Ｎ）を入力する。デコーダ３３２は、符号テーブル保持部３３１で保持されている符号テーブルを参照して、多値行列データＤ＿Ｍｔｘ^（Ｎ）に対してデコード処理を実行し、デコード処理後のデータをデータＤ１として取得する。そして、デコーダ３３２は、データＤ１を整数乗算器３３３に出力する。

【0067】

整数乗算器３３３は、第２インターフェース部ＩＦ２から出力される量子化処理後のデータＤ＿Ｑｉｎと、デコーダ３３２から出力されるデータＤ１とを入力する。整数乗算器３３３は、データＤ＿ＱｉｎおよびデータＤ１に対して整数乗算処理を行い、整数乗算処理後のデータをデータＤ２として取得する。そして、整数乗算器３３３は、取得したデータＤ２を積算器３３４に出力する。

【0068】

積算器３３４は、整数乗算器３３３から出力されるデータＤ２を入力し、データＤ２に対して積算処理を実行し、積算処理後のデータをデータＤ３として、整数積算部３３Ｂに出力する。

【0069】

整数積算部３３Ｂは、図３に示すように、遅延器３３５と積算器３３６とを備える。整数積算部３３Ｂは、ループ回数取得部３２から出力される制御信号Ｃｔｌ＿ｌｏｏｐ１を入力する。整数積算部３３Ｂでは、制御信号Ｃｔｌ＿ｌｏｏｐ１で指示されるループ回数分の積算処理（ループ処理）が実行される。

【0070】

遅延器３３５は、積算器３３６の出力データＤ４（これを現時刻ｔのデータＤ４（ｔ）と表記する）を入力とし、入力されたデータＤ４（ｔ）を保持し、積算器３３６が次の演算処理を実行するとき（このタイミングを時刻ｔ＋１とする）に、保持しているデータを積算器３３６に出力する。つまり、遅延器３３５は、時刻ｔにおいて、積算器３３６の１つ前の出力データ（これをデータＤ４（ｔ－１）と表記する）を積算器３３６の入力へと出力する。なお、データＤ４（ｔ－１）の初期値は「０」である。

【0071】

積算器３３６は、整数演算部３３Ａから出力されるデータＤ３と、遅延器３３５から出力されるデータＤ４（ｔ－１）とを入力する。そして、積算器３３６は、データＤ３およびデータＤ４（ｔ－１）に対して積算処理を実行し、積算処理後のデータをデータＤＩｏ（＝Ｄ４（ｔ））として、実数処理部３４に出力する。

【0072】

実数処理部３４は、図２、図３に示すように、実数乗算部３４Ａと、実数積算部３４Ｂとを備える。

【0073】

実数乗算部３４Ａは、第２インターフェース部ＩＦ２から出力されるスケーリング係数ベクトルデータＤ＿ｃｖと、整数処理部３３から出力されるデータＤＩｏとを入力する。実数乗算部３４Ａは、スケーリング係数ベクトルデータＤ＿ｃｖおよびデータＤＩｏに対して、実数乗算処理を実行し、実数乗算処理後のデータをデータＤ５として、実数積算部３４Ｂに出力する。

【0074】

実数積算部３４Ｂは、図３に示すように、遅延器３４１と実数積算器３４２とを備える。実数積算部３４Ｂは、ループ回数取得部３２から出力される制御信号Ｃｔｌ＿ｌｏｏｐ２を入力する。実数積算部３４Ｂでは、制御信号Ｃｔｌ＿ｌｏｏｐ２で指示されるループ回数分の積算処理（ループ処理）が実行される。

【0075】

遅延器３４１は、実数積算器３４２の出力データＤｏ（これを現時刻ｔのデータＤｏ（ｔ）と表記する）を入力とし、入力されたデータＤｏ（ｔ）を保持し、実数積算器３４２が次の演算処理を実行するとき（このタイミングを時刻ｔ＋１とする）に、保持しているデータを実数積算器３４２に出力する。つまり、遅延器３４１は、時刻ｔにおいて、実数積算器３４２の１つ前の出力データ（これをデータＤｏ（ｔ－１）と表記する）を実数積算器３４２の入力へと出力する。なお、データＤｏ（ｔ－１）の初期値は「０」である。

【0076】

実数積算器３４２は、実数乗算部３４Ａから出力されるデータＤ５と、遅延器３４１から出力されるデータＤｏ（ｔ－１）とを入力する。そして、実数積算器３４２は、データＤ５およびデータＤｏ（ｔ－１）に対して積算処理を実行し、積算処理後のデータをデータＤｏ（＝Ｄｏ（ｔ））として、第２インターフェース部ＩＦ２に出力する。

【0077】

＜１．２：ニューラルネットワーク用プロセッサの動作＞
以上のように構成されたニューラルネットワーク用プロセッサ１００の動作について、以下、説明する。

【0078】

一般に、ＣＮＮでは、入力層と、畳み込み層（コンボリューション層）と、全結合層とを含む。例えば、ニューラルネットワーク用プロセッサ１００の第１インターフェース部ＩＦ１に、入力データＤｉｎとして、画像データが入力され、ＣＮＮによる画像認識処理が実行され、画像認識処理結果が出力データＤｏｕｔとして外部に出力される。

【0079】

ＣＮＮでは、畳み込み層の処理、あるいは、全結合層の処理において、入力データに対して重み演算処理が実行され、当該処理結果に対して活性化関数（例えば、ランプ関数（ＲｅＬＵ：ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）、シグモイド関数、Ｓｏｆｔｍａｘ関数等）により処理が実行されることで、畳み込み層あるいは全結合層の出力が得られる。

【0080】

また、下記先行技術文献Ａに開示されているように、Ｂｉｎａｒｉｚｅｄ－ＤＣＮＮ（ＤＣＮＮ：ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）（以下、「ＢＮＮ」という）では、Ｑｕａｎｔｉｚａｔｉｏｎｓｕｂ－ｌａｙｅｒと結合係数の二値分解を導入し、実数同士の内積計算を二値同士の内積計算に置換することで、既存のネットワークモデルに対して再学習なしに識別計算の高速化およびモデルサイズの圧縮を実現することができる。ＢＮＮの二値同士の演算は、ＸＯＲやＡＮＤ等の論理演算とビットカウントにより高速な演算が可能となる。
（先行技術文献Ａ）：
神谷龍司等 “Binarized-DCNNによる識別計算の高速化とモデル圧縮” 信学技報 116(366), 47-52, 2016-12-15 電子情報通信学会
上記先行技術文献Ａの開示に基づいて、ＢＮＮの識別計算の基本式を、下記（数式１）のように導出することができる。
（数式１）：
ｙ_ｉｊｎ＝ｃ_ｎ ^ＴＭ_ｎ ^ＴＢ_ｉｊｒ_ｉｊ＋ｍｉｎ（ｘ）Ｏｆｆｓｅｔ
ｙ_ｉｊｎ：ｎ番目の特徴マップの出力（特徴マップの座標（ｉ，ｊ）の出力値）
ｃ_ｎ ^Ｔ：ｎ番目の特徴マップのスケーリング係数ベクトルｃ_ｎの転置行列
Ｍ_ｎ ^Ｔ：ｎ番目の特徴マップの二値基底行列の転置行列
Ｂ_ｉｊｒ_ｉｊ：二値特徴マップ（量子化後の二値特徴マップ）
ｍｉｎ（ｘ）：ｎ番目の特徴マップの各要素の値のうちの最小値
Ｏｆｆｓｅｔ：オフセット調整用データ
また、Ｍ_ｎ ^Ｔ∈｛－１，１｝とＢ_ｉｊｒ_ｉｊ∈｛０，１｝とは二値であるため、下記（数式２）を用いて論理演算とビットカウントで計算することができる。
（数式２）：
Ｍ_ｎ ^ＴＢ_ｉｊｒ_ｉｊ
＝２×ＢＩＴＣＮＴ（ＡＮＤ（Ｍ_ｎ ^Ｔ，Ｂ_ｉｊｒ_ｉｊ））－Ｎｏｒｍ（ｚ）
ｚ＝Ｂ_ｉｊｒ_ｉｊ
Ｎｏｒｍ（ｚ）：ｚのノルムを取得する関数
ＢＩＴＣＮＴ（ｘ）：バイナリコードｘにおいて、「１」であるビット数をカウントする関数
本実施形態のニューラルネットワーク用プロセッサ１００では、特徴マップの基底行列の要素のとりうる値を多値（Ｎ値、Ｎ：２以上の自然数）とする。つまり、ニューラルネットワーク用プロセッサ１００では、特徴マップの基底行列として、多値（Ｎ値）基底行列を用いる。これにより、ニューラルネットワーク用プロセッサ１００では、特徴マップのスケーリング係数ベクトルの要素数を少なくした場合であっても、ＣＮＮの処理の精度を確保することができる。

【0081】

多値ニューラルネットワークの識別計算の基本式を、下記（数式３）のように導出することができる。
（数式３）：
ｙ_ｉｊｎ＝ｃ_ｎ ^ＴＭ_ｎ ^（Ｎ）ＴＢ_ｉｊｒ_ｉｊ＋ｍｉｎ（ｘ）ｏｆｆｓｅｔ
ｙ_ｉｊｎ：ｎ番目の特徴マップの出力（特徴マップの座標（ｉ，ｊ）の出力値）
ｃ_ｎ ^Ｔ：ｎ番目の特徴マップのスケーリング係数ベクトルｃ_ｎの転置行列
Ｍ_ｎ ^（Ｎ）Ｔ：ｎ番目の特徴マップの多値（Ｎ値）基底行列の転置行列
Ｂ_ｉｊｒ_ｉｊ：二値特徴マップ（量子化後の二値特徴マップ）
ｍｉｎ（ｘ）：ｎ番目の特徴マップの各要素の値のうちの最小値
Ｏｆｆｓｅｔ：オフセット調整用データ
ここで、本実施形態のニューラルネットワーク用プロセッサ１００において、ＢＮＮを用いた場合と同程度の計算精度（ＣＮＮの処理精度）を実現できることについて、説明する。

【0082】

なお、説明便宜のために、Ｎ＝４の場合（４値基底行列を用いる場合）について、説明する。

【0083】

図４は、ＣＮＮの重み演算処理を、マトリックスで表現した図（上図）と、二値化ニューラルネットワークの重み演算処理を、マトリックスで表現した図（下図）とを含む図である。

【0084】

図５は、ＣＮＮの重み演算処理を、マトリックスで表現した図（上図）と、多値化ニューラルネットワークの重み演算処理を、マトリックスで表現した図（下図）とを含む図である。

【0085】

図４の上図に示すように、ＣＮＮの重み演算処理では、各要素ｗ_ｉｊが実数である行列Ｗ（ｎ×ｍの行列）と、入力データ（ベクトルｖ＿ｘ（１×ｍの行列））との行列の積を求めることで、出力データｙ（１×ｍの行列）が取得される。

【0086】

一方、二値化ニューラルネットワークの重み演算処理では、図４の下図に示すように、（１）各要素が実数であるスケーリング係数ベクトルｖ＿ｃ（＝［ｃ_１，ｃ_２，・・・，ｃ_６］）（ここでは、一例として、スケーリング係数ベクトルの次元数を６次元とする）と、（２）各要素が「－１」または「１」である二値基底行列Ｍと、（３）入力データｖ＿ｘ（＝［ｘ_１，ｘ_２，・・・，ｘ_ｍ］）との行列の積を求めることで、出力データｙ_１が取得される。そして、上記と同様の処理を、ｙ_２～ｙ_ｎに対して行うことで、出力データｙ（１×ｍの行列）が取得される。

【0087】

多値化ニューラルネットワークの重み演算処理では、図５の下図に示すように、（１）各要素が実数であるスケーリング係数ベクトルｖ＿ｃ（＝［ｃ_１，ｃ_２，ｃ_３］）（ここでは、一例として、スケーリング係数ベクトルの次元数を３次元とする）と、（２）各要素がＮ値をとる多値基底行列（Ｎ値基底行列）Ｍ^（Ｎ）と、（３）入力データｖ＿ｘ（＝［ｘ_１，ｘ_２，・・・，ｘ_ｍ］）との行列の積を求めることで、出力データｙ_１が取得される。そして、上記と同様の処理を、ｙ_２～ｙ_ｎに対して行うことで、出力データｙ（１×ｍの行列）が取得される。

【0088】

ここで、一例として、ＣＮＮの重み行列、つまり、各要素ｗ_ｉｊが実数である行列Ｗ（ｎ×ｍの行列）の第１行目の要素を要素とするベクトルが、
［ｗ_１１，ｗ_１２，ｗ_１３，ｗ_１４，ｗ_１５，ｗ_１６，ｗ_１７，ｗ_１８］
＝［４４．１，－１９．０，－２５．２，１４．０，２６．８，－２５．２，４４．１，－２５．１］
（図６、図７において、「目標値」として示しているベクトル）
である場合における（１）スケーリング係数ベクトルと二値基底行列とを用いた場合に取得される近似ベクトル、および、（２）スケーリング係数ベクトルとＮ値基底行列（Ｎ＝４）とを用いた場合に取得される近似ベクトルについて、説明する。

【0089】

図６は、スケーリング係数ベクトルｖ＿ｃ（＝［ｃ_１，ｃ_２，・・・，ｃ_６］）、および、二値基底行列Ｍの設定処理を説明するための図である。なお、説明便宜のため、ｍ＝８としている。

【0090】

例えば、大規模システムにおいて、学習が実行され、重み行列Ｗが取得された場合において、図６に示すように、重み行列Ｗの第１行目のデータが
ｖｅｃ１＿ｔａｒｇｅｔ＝
［ｗ_１１，ｗ_１２，ｗ_１３，ｗ_１４，ｗ_１５，ｗ_１６，ｗ_１７，ｗ_１８］
＝［４４．１，－１９．０，－２５．２，１４．０，２６．８，－２５．２，４４．１，－２５．１］
（図６において、「目標値」として示しているベクトル）
（上記ベクトルを、目標ベクトルｖｅｃ１＿ｔａｒｇｅｔとする）
である場合、図６の下段に示す値に、スケーリング係数ベクトル（６次元ベクトル）および二値基底行列を設定すれば、大規模システムでの学習により取得された重み行列Ｗの第１行目のデータを再現（近似）することができる。

【0091】

つまり、この場合、重み行列Ｗの第１行目のデータ（これをベクトルｖｅｃ１＿ｃｖ６＿Ｍｔｘ^（２）とする）は、
ｖｅｃ１＿ｃｖ６＿Ｍｔｘ^（２）＝
［ｗ’_１１，ｗ’_１２，ｗ’_１３，ｗ’_１４，ｗ’_１５，ｗ’_１６，ｗ’_１７，ｗ’_１８］
＝［４４．０，－１９．８，－２５．６，１４．６，２６．４，－２５．６，４４．０，－２５．６］
と近似することができる。そして、近似精度として、重み行列Ｗの第１行目のデータの目標データである目標ベクトルｖｅｃ１＿ｔａｒｇｅｔと、スケーリング係数ベクトル（６次元ベクトル）および二値基底行列により取得された重み行列Ｗの第１行目のデータのデータであるベクトルｖｅｃ１＿ｃｖ６＿Ｍｔｘ^（２）との差分ベクトルのノルムは、以下のようになる。
Ｎｏｒｍ（ｖｅｃ１＿ｔａｒｇｅｔ―ｖｅｃ１＿ｃｖ６＿Ｍｔｘ^（２））
≒１．３２３
Ｎｏｒｍ（ｖｅｃ＿ｘ）：ベクトルｖｅｃ＿ｘのノルム（ユークリッド距離）を取得する関数
図７は、スケーリング係数ベクトルｖ＿ｃ（＝［ｃ_１，ｃ_２，ｃ_３］）、および、Ｎ値基底行列Ｍ^（Ｎ）（Ｎ＝４）の設定処理を説明するための図である。なお、説明便宜のため、ｍ＝８としている。

【0092】

例えば、大規模システムにおいて、学習が実行され、重み行列Ｗが取得された場合において、図７に示すように、重み行列Ｗの第１行目のデータが
ｖｅｃ１＿ｔａｒｇｅｔ＝
［ｗ_１１，ｗ_１２，ｗ_１３，ｗ_１４，ｗ_１５，ｗ_１６，ｗ_１７，ｗ_１８］
＝［４４．１，－１９．０，－２５．２，１４．０，２６．８，－２５．２，４４．１，－２５．１］
（図７において、「目標値」として示しているベクトル（目標ベクトルｖｅｃ１＿ｔａｒｇｅｔ））
である場合、図７の下段に示す値に、スケーリング係数ベクトル（３次元ベクトル）およびＮ値基底行列（Ｎ＝４）を設定すれば、大規模システムでの学習により取得された重み行列Ｗの第１行目のデータを再現（近似）することができる。

【0093】

つまり、この場合、重み行列Ｗの第１行目のデータ（これをベクトルｖｅｃ１＿Ｍｔｘ^（４）とする）は、
ｖｅｃ１＿ｃｖ３＿Ｍｔｘ^（４）＝
［ｗ’’_１１，ｗ’’_１２，ｗ’’_１３，ｗ’’_１４，ｗ’’_１５，ｗ’’_１６，ｗ’’_１７，ｗ’’_１８］
＝［４４．２，－１８．２，－２５．０，１３．３，２７．０，－２５．０，４４．２，－２５．０］
と近似することができる。そして、近似精度として、重み行列Ｗの第１行目のデータの目標データである目標ベクトルｖｅｃ１＿ｔａｒｇｅｔと、スケーリング係数ベクトル（３次元ベクトル）およびＮ値基底行列（Ｎ＝４）により取得された重み行列Ｗの第１行目のデータのデータであるベクトルｖｅｃ１＿ｃｖ３＿Ｍｔｘ^（４）との差分ベクトルのノルムは、以下のようになる。
Ｎｏｒｍ（ｖｅｃ１＿ｔａｒｇｅｔ―ｖｅｃ１＿ｃｖ３＿Ｍｔｘ^（４））
≒１．１３１
Ｎｏｒｍ（ｖｅｃ＿ｘ）：ベクトルｖｅｃ＿ｘのノルム（ユークリッド距離）を取得する関数
上記から分かるように、
（１）ＢＮＮを用いた場合、すなわち、スケーリング係数ベクトル（６次元ベクトル）およびＮ値基底行列（Ｎ＝４）を用いて取得した重み行列Ｗの第１行目のデータ（ベクトルｖｅｃ１＿Ｍｔｘ^（２））と、目標ベクトルとの差（両ベクトルの差分ベクトルのノルム≒１．３２３）と、
（２）多値基底行列（ここでは、４値基底行列）によるベクトル分解を行うニューラルネットワークを用いた場合、すなわち、スケーリング係数ベクトル（３次元ベクトル）およびＮ値基底行列（Ｎ＝４）を用いて取得した重み行列Ｗの第１行目のデータ（ベクトルｖｅｃ１＿Ｍｔｘ^（４））と、目標ベクトルとの差（両ベクトルの差分ベクトルのノルム≒１．１３１）と、
は同程度である。

【0094】

つまり、本実施形態のニューラルネットワーク用プロセッサ１００において、ＢＮＮを用いた場合と同程度の計算精度（ＣＮＮの処理精度）を実現できる。すなわち、ニューラルネットワーク用プロセッサ１００では、特徴マップの基底行列として、多値（Ｎ値）基底行列を用いて、特徴マップのスケーリング係数ベクトルの要素数を少なくした場合であっても、ＣＮＮの処理の精度を確保することができる。

【0095】

このような処理を実行するニューラルネットワーク用プロセッサ１００の動作について、以下、図面を参照しながら説明する。

【0096】

（１．２．１：畳み込み層の処理）
まず、畳み込み層の処理について、説明する。

【0097】

ニューラルネットワーク用プロセッサ１００の量子化処理部２は、第ｌ層（ｌ：自然数）におけるｍ番目（ｍ：自然数）の特徴マップｚ^ｌ _ｉｊｍにおける最大値－最小値間の量子化幅Δｄを、
Δｄ＝｛ｍａｘ（ｚ^ｌ _ｉｊｍ）－ｍｉｎ（ｚ^ｌ _ｉｊｍ）｝／（２^Ｑ－１）
ｍａｘ（ｘ）：ｘの最大値を取得する関数
ｍｉｎ（ｘ）：ｘの最小値を取得する関数
Ｑ：量子化ビット数
として取得する。

【0098】

そして、量子化処理部２は、特徴マップの最小値が０となるように値をシフトさせる。つまり、量子化処理部２は、
ｚ^ｌ _ｉｊｍ’＝｛ｚ^ｌ _ｉｊｍ－ｍｉｎ（ｚ^ｌ _ｉｊｍ）｝／Ｑ
に相当する処理を実行し、さらに、上記数式により取得された値を四捨五入して整数値に丸め量子化する。さらに、量子化処理部２は、丸め量子化により取得された値に対して、二値化処理をすることで、バイナリコードｚ^ｌ _ｉｊｍ ^（ｂ）∈｛０，１｝を取得する。

【0099】

上記のようにして取得されたバイナリコードｚ^ｌ _ｉｊｍ ^（ｂ）∈｛０，１｝（量子化処理後の特徴マップＢ_ｉｊｒ_ｉｊ）は、内部ＲＡＭの所定の領域（この領域を領域ＢｉｎＩｎＴという）に記憶保持される。

【0100】

（１．２．２：内積処理（畳み込み層の処理））
次に、内積処理について、説明する。

【0101】

内積処理部３の第２インターフェース部ＩＦ２は、内部ＲＡＭＲ１に所定の領域に記憶保持されているモード設定用のデータ（情報）をデータＩｎｆｏ１．Ｍｔｘ^（Ｎ）として読み出し、読み出したデータＩｎｆｏ１．Ｍｔｘ^（Ｎ）をモード設定部３１に出力する。

【0102】

モード設定部３１は、第２インターフェース部ＩＦ２から出力されるデータＩｎｆｏ１．Ｍｔｘ^（Ｎ）に基づいて、モード信号Ｍｏｄｅを生成し、生成したモード信号Ｍｏｄｅを整数処理部３３に出力する。

【0103】

データＩｎｆｏ１．Ｍｔｘ^（Ｎ）は、ニューラルネットワーク用プロセッサ１００において用いられるＮ値基底行列の各要素の値を表現するためのビット数の情報を含んでいる。例えば、ニューラルネットワーク用プロセッサ１００において用いられるＮ値基底行列の各要素の値が４値（Ｎ＝４）である場合、Ｎ値基底行列の各要素の値を表現するためのビット数は、「２」（すなわち、２ビット）である。この場合、モード設定部３１は、整数演算部３３Ａに対して、２ビットモード（Ｎ値基底行列の各要素の値を表現するためのビット数が「２」であることを示すモード）を示すモード信号Ｍｏｄｅを整数処理部３３に出力する。

【0104】

整数演算部３３Ａは、モード信号Ｍｏｄｅに従い、上記の場合、２ビットモードで整数演算処理を実行する。

【0105】

なお、ニューラルネットワーク用プロセッサ１００で用いられるモードは、上記の２ビットモードの他に、例えば、１ビットモード（２値基底行列を用いるモード）、４ビットモード（例えば、１５値基底行列、あるいは、１６値基底行列を用いるモード）等であってもよい。

【0106】

第２インターフェース部ＩＦ２は、内部ＲＡＭＲ１に所定の領域に記憶保持されている整数処理部３３でのループ処理の回数、および、実数処理部３４でのループ処理の回数を決定するためのデータ（情報）をデータＩｎｆｏ２．Ｍｔｘ^（Ｎ）として読み出し、読み出したデータＩｎｆｏ２．Ｍｔｘ^（Ｎ）をループ回数取得部３２に出力する。

【0107】

ループ回数取得部３２は、データＩｎｆｏ２．Ｍｔｘ^（Ｎ）に基づいて、（１）整数処理部３３で実行される整数積算処理におけるループ回数を制御するための制御信号Ｃｔｌ＿ｌｏｏｐ１と、（２）実数処理部３４で実行される実数積算処理におけるループ回数を制御するための制御信号Ｃｔｌ＿ｌｏｏｐ２とを生成する。そして、ループ回数取得部３２は、制御信号Ｃｔｌ＿ｌｏｏｐ１を整数処理部３３に出力し、制御信号Ｃｔｌ＿ｌｏｏｐ２を実数処理部３４に出力する。

【0108】

また、内積処理部３の第２インターフェース部ＩＦ２は、内部ＲＡＭＲ１に所定の領域に記憶保持されている符号テーブルのデータをデータＤ＿ｔｂｌとして読み出し、読み出したデータＤ＿ｔｂｌを符号テーブル保持部３３１に出力する。

【0109】

データＤ＿ｔｂｌは、符号テーブルを特定するためのデータである。例えば、ニューラルネットワーク用プロセッサ１００において、４値基底行列を用いる場合であって、当該４値が｛－２，－１，１，２｝である場合、データＤ＿ｔｂｌは、例えば、図８に示すように、２ビットのビットパターンと値（４つの整数値（４値））との対応関係を特定するデータである。なお、図８に示すのは、一例であり、Ｎ値基底行列用のビットパターンと符号語（整数値）との対応関係は、他のもの（任意のもの）であってもよい。

【0110】

以下では、説明便宜のために、一例として、ニューラルネットワーク用プロセッサ１００において、以下の条件の場合について、説明する。
（１）設定モードは、２ビットモードである。
（２）Ｎ＝４、すなわち、４値基底行列を用いる場合であって、当該４値が｛－２，－１，１，２｝である。
（３）内部ＲＡＭＲ１と内積処理部３の第２インターフェース部ＩＦ２とのバス幅は、８ビットである（つまり、１度にデータ転送できるビット数は、８ビットである）。

【0111】

また、説明便宜のため、ニューラルネットワーク用プロセッサ１００において、図９の計算を実行する場合（一例）について、以下、説明する。なお、図９の場合、整数ｓｙロイブ３３で実行される整数積算処理におけるループ回数と、実数処理部３４で実行される実数積算処理におけるループ回数は、以下のようになる。
（１）整数積算処理におけるループ回数（制御信号Ｃｔｌ＿ｌｏｏｐ１）
Ｎ値基底行列（Ｎ＝４）の列数が８であり、量子化処理後のデータＤ＿Ｑｉｎ（バイナリコードｚ^ｌ _ｉｊｍ ^（ｂ））（図９において、ｖｅｃ＿Ｂ_ｉｊと表記）の行数が８であるので、モードが２ビットモードである場合、整数処理部３３で実行される整数積算処理におけるループ回数は「１」（＝（Ｎ値基底行列（Ｎ＝４）の列数）×（１つの符号語を表すために必要なビット数）／（バス幅（一度に転送できるビット数））＝８×２／８）－１）である。

【0112】

したがって、この場合、ループ回数取得部３２は、整数積算処理におけるループ回数が「１」とするための制御信号Ｃｔｌ＿ｌｏｏｐ１を生成し、当該制御信号Ｃｔｌ＿ｌｏｏｐ１を整数処理部３３に出力する。
（２）実数積算処理におけるループ回数（制御信号Ｃｔｌ＿ｌｏｏｐ２）
スケーリング係数ベクトルの次元数が「３」であるので、実数処理部３４で実行される実数積算処理におけるループ回数は、「２」（＝（スケーリング係数ベクトルの次元数）－１）である。

【0113】

したがって、この場合、ループ回数取得部３２は、実数積算処理におけるループ回数が「２」とするための制御信号Ｃｔｌ＿ｌｏｏｐ２を生成し、当該制御信号Ｃｔｌ＿ｌｏｏｐ２を実数処理部３４に出力する。

【0114】

≪１回目の整数積算処理≫
まず、整数処理部３３では、１回目の整数積算処理が実行される。

【0115】

符号テーブル保持部３３１は、第２インターフェース部ＩＦ２から出力される符号テーブルのデータを入力し、当該符号テーブルのデータを保持する。具体的には、符号テーブル保持部３３１は、図８に示す符号テーブルのデータを保持する。

【0116】

また、第２インターフェース部ＩＦ２は、内部ＲＡＭＲ１に所定の領域に記憶保持されている多値行列データＤ＿Ｍｔｘ^（Ｎ）を読み出し、読み出したデータＤ＿Ｍｔｘ^（Ｎ）をデコーダ３３２に出力する。なお、ここでは、Ｎ＝４であるので、多値行列データＤ＿Ｍｔｘ^（Ｎ）は、４値行列データＤ＿Ｍｔｘ^（４）である。そして、図９の場合、１回目のデータ転送において、８ビット分のデータ［００１１１１０１］（２ビットデータ４個）が、内部ＲＡＭＲ１から第２インターフェース部ＩＦ２へと転送される。つまり、図９に示した４値基底行列の第１行目の第１列から第４列までの要素を要素とするベクトル（１行４列の行列）ｖｅｃ＿ｒ１＿ｕｐｐｅｒ＿Ｍｔｘ^（４）に相当する８ビット分のデータが、内部ＲＡＭＲ１から第２インターフェース部ＩＦ２へと転送される。

【0117】

デコーダ３３２は、符号テーブル保持部３３１で保持されている符号テーブルを参照して、多値行列データＤ＿Ｍｔｘ^（Ｎ）（ここでは、４値行列データＤ＿Ｍｔｘ^（４））に対してデコード処理を実行し、デコード処理後のデータをデータＤ１として取得する。ここでは、モードが２ビットモードに設定されており、符号テーブルが図８に示すものであるので、デコーダ３３２は、４値行列データＤ＿Ｍｔｘ^（４）の２ビットのパターンを、図８の符号テーブルに基づいて、整数値にデコードする。デコーダ３３２は、図８の符号テーブルに基づいて、１回目のデータ転送により取得された８ビット分のデータ［００１１１１０１］（２ビットデータ４個）を、［２－１－１１］（４個の整数値）にデコードする。

【0118】

そして、デコーダ３３２は、デコードした整数値のデータをデータＤ１として、整数乗算器３３３に出力する。

【0119】

また、第２インターフェース部ＩＦ２は、内部ＲＡＭＲ１に領域ＢｉｎＩｎＴに記憶保持されている量子化処理後のデータＤ＿Ｑｉｎ（バイナリコードｚ^ｌ _ｉｊｍ ^（ｂ））を読み出し、読み出したデータＤ＿Ｑｉｎを整数乗算器３３３に出力する。なお、ここでは、図９に示すように、データＤ＿Ｑｉｎが１行８列の行列であり、［１０１０１０１０］（転置行列として表記）であるものとする。このデータＤ＿Ｑｉｎは、８ビット分のデータであるので、内部ＲＡＭＲ１から第２インターフェース部ＩＦ２への１回の転送により、データ転送することができる。

【0120】

第２インターフェース部ＩＦ２は、デコーダ３３２で取得されたデータＤ１（＝［２－１－１１］（４個の整数値））と整数乗算処理を行うのに必要な分のデータ、すなわち、この場合、データＤ＿Ｑｉｎの４ビット分のデータを整数乗算器３３３に出力する。具体的には、第２インターフェース部ＩＦ２は、データＤ＿Ｑｉｎの上位４ビット分のデータ（これをデータｖｅｃ＿ｕｐｐｅｒ＿Ｂ_ｉｊという。図９を参照。）を整数乗算器３３３に出力する。

【0121】

整数乗算器３３３は、データＤ＿Ｑｉｎ（＝［１０１０１０１０］（転置行列として表記））の上位４ビット分のデータｖｅｃ＿ｕｐｐｅｒ＿Ｂ_ｉｊ（＝［１０１０］（転置行列として表記））およびデータＤ１（＝［２－１－１１］（４個の整数値））に対して整数乗算処理を行う。具体的には、整数乗算器３３３は、以下の数式に相当する処理を実行して、整数乗算処理結果をデータＤ２として取得する。なお、ｋ回目（ｋ：自然数）の整数乗算処理結果のデータをデータＤ２（ｋ）と表記する。
１回目：Ｄ２（１）＝１×２＝２
２回目：Ｄ２（２）＝０×（－１）＝０
３回目：Ｄ２（３）＝１×（－１）＝－１
４回目：Ｄ２（４）＝０×１＝０
整数乗算器３３３は、上記により取得したデータＤ２（ｋ）を積算器３３６に出力する。

【0122】

積算器３３４は、整数乗算器３３３から出力されるデータＤ２（Ｄ２（ｋ））に対して積算処理を実行し、積算処理後のデータをデータＤ３として取得する。上記の場合、積算器３３４は、
Ｄ３＝Ｄ２（１）＋Ｄ２（２）＋Ｄ２（３）＋Ｄ２（４）＝１
に相当する処理（積算処理）により、データＤ３（上記の場合、Ｄ３＝１）を取得する。

【0123】

そして、積算器３３４は、取得したデータＤ３を整数積算部３３Ｂに出力する。

【0124】

≪２回目の整数積算処理≫
次に、整数処理部３３では、２回目の整数積算処理が実行される。

【0125】

第２インターフェース部ＩＦ２は、内部ＲＡＭＲ１に所定の領域に記憶保持されている多値行列データＤ＿Ｍｔｘ^（Ｎ）（Ｎ＝４）を読み出し、読み出したデータＤ＿Ｍｔｘ^（Ｎ）をデコーダ３３２に出力する。２回目のデータ転送において、８ビット分のデータ［０１１１００１１］（２ビットデータ４個）が、内部ＲＡＭＲ１から第２インターフェース部ＩＦ２へと転送される。つまり、図９に示した４値基底行列の第１行目の第５列から第８列までの要素を要素とするベクトル（１行４列の行列）ｖｅｃ＿ｒ１＿ｌｏｗｅｒ＿Ｍｔｘ^（４）に相当する８ビット分のデータが、内部ＲＡＭＲ１から第２インターフェース部ＩＦ２へと転送される。

【0126】

デコーダ３３２は、符号テーブル保持部３３１で保持されている符号テーブルを参照して、多値行列データＤ＿Ｍｔｘ^（Ｎ）（ここでは、４値行列データＤ＿Ｍｔｘ^（４））に対してデコード処理を実行し、デコード処理後のデータをデータＤ１として取得する。ここでは、モードが２ビットモードに設定されており、符号テーブルが図８に示すものであるので、デコーダ３３２は、４値行列データＤ＿Ｍｔｘ^（４）の２ビットのパターンを、図８の符号テーブルに基づいて、整数値にデコードする。デコーダ３３２は、図８の符号テーブルに基づいて、２回目のデータ転送により取得された８ビット分のデータ［０１１１００１１］（２ビットデータ４個）を、［１－１２－１］（４個の整数値）にデコードする。

【0127】

そして、デコーダ３３２は、デコードした整数値のデータをデータＤ１として、整数乗算器３３３に出力する。

【0128】

また、第２インターフェース部ＩＦ２は、１回目の整数積算処理において、内部ＲＡＭＲ１に領域ＢｉｎＩｎＴから読み出した量子化処理後のデータＤ＿Ｑｉｎ（バイナリコードｚ^ｌ _ｉｊｍ ^（ｂ））のうち、下位４ビット分のデータ（これをデータｖｅｃ＿ｌｏｗｅｒ＿Ｂ_ｉｊという。図９を参照。）を整数乗算器３３３に出力する。

【0129】

整数乗算器３３３は、データＤ＿Ｑｉｎ（＝［１０１０１０１０］（転置行列として表記））の下位４ビット分のデータｖｅｃ＿ｕｐｐｅｒ＿Ｂ_ｉｊ（＝［１０１０］（転置行列として表記））およびデータＤ１（＝［１－１２－１］（４個の整数値））に対して整数乗算処理を行う。具体的には、整数乗算器３３３は、以下の数式に相当する処理を実行して、整数乗算処理結果をデータＤ２として取得する。なお、ｋ回目（ｋ：自然数）の整数乗算処理結果のデータをデータＤ２（ｋ）と表記する。
１回目：Ｄ２（１）＝１×１＝１
２回目：Ｄ２（２）＝０×（－１）＝０
３回目：Ｄ２（３）＝１×２＝２
４回目：Ｄ２（４）＝０×（－１）＝０
整数乗算器３３３は、上記により取得したデータＤ２（ｋ）を積算器３３６に出力する。

【0130】

積算器３３４は、整数乗算器３３３から出力されるデータＤ２（Ｄ２（ｋ））に対して積算処理を実行し、積算処理後のデータをデータＤ３として取得する。上記の場合、積算器３３４は、
Ｄ３＝Ｄ２（１）＋Ｄ２（２）＋Ｄ２（３）＋Ｄ２（４）＝３
に相当する処理（積算処理）により、データＤ３（上記の場合、Ｄ３＝１）を取得する。

【0131】

そして、積算器３３４は、取得したデータＤ３を整数積算部３３Ｂに出力する。

【0132】

整数積算部３３Ｂの積算器３３６は、整数演算部３３Ａから出力されるデータＤ３と、遅延器３３５の出力データＤ４（ｔ－１）（１つ前の積算器３３６の積算処理結果データ）とを入力する。そして、積算器３３６は、データＤ３およびデータＤ４（ｔ－１）に対して積算処理を実行する。つまり、整数積算部３３Ｂの積算器３３６は、１回目の整数処理の処理結果をＤ４（ｔ－１）とし、２回目の整数処理の処理結果をＤ３（ｔ）として、
ＤＩｏ＝Ｄ４（ｔ－１）＋Ｄ３（ｔ）＝１＋３＝４
に相当する処理を実行することで、積算処理後のデータＤＩｏを取得する。

【0133】

≪１回目の実数処理≫
まず、実数処理部３４では、１回目の実数処理が実行される。

【0134】

第２インターフェース部ＩＦ２は、内部ＲＡＭＲ１から所定の領域から、スケーリング係数ベクトルデータＤ＿ｃｖを読み出す。図９の場合、第２インターフェース部ＩＦ２は、３次元のスケーリング係数ベクトルｖ＿ｃ（＝［ｃ_１ｃ_２ｃ_３］＝［２６８．８４．９］）の最初の要素ｃ_１のデータを、内部ＲＡＭＲ１から所定の領域から読み出し、読み出したデータをスケーリング係数ベクトルデータＤ＿ｃｖ（Ｄ＿ｃｖ（１））（＝２６）として、実数処理部３４に出力する。なお、ｋ回目（ｋ：自然数）の実数処理で読み出したスケーリング係数ベクトルデータＤ＿ｃｖをＤ＿ｃｖ（ｋ）と表記する。

【0135】

実数処理部３４の実数乗算部３４Ａは、第２インターフェース部ＩＦ２から出力されるスケーリング係数ベクトルデータＤ＿ｃｖ（１）（＝２６）と、整数処理部３３から出力されるデータＤＩｏ（＝４）とを入力する。実数乗算部３４Ａは、スケーリング係数ベクトルデータＤ＿ｃｖおよびデータＤＩｏに対して、実数乗算処理を実行する。すなわち、実数乗算部３４Ａは、
Ｄ５＝Ｄ＿ｃｖ（１）×ＤＩｏ＝２６×４＝１０４
に相当する処理を実行することで、実数乗算処理後のデータＤ５を取得する。

【0136】

そして、実数乗算部３４Ａは、データＤ５を実数積算部３４Ｂに出力する。

【0137】

≪２回目の実数処理≫
次に、実数処理部３４では、２回目の実数処理が実行される。

【0138】

第２インターフェース部ＩＦ２は、内部ＲＡＭＲ１から所定の領域から、スケーリング係数ベクトルデータＤ＿ｃｖを読み出す。図９の場合、第２インターフェース部ＩＦ２は、３次元のスケーリング係数ベクトルｖ＿ｃ（＝［ｃ_１ｃ_２ｃ_３］＝［２６８．８４．９］）の２番目の要素ｃ_２のデータを、内部ＲＡＭＲ１から所定の領域から読み出し、読み出したデータをスケーリング係数ベクトルデータＤ＿ｃｖ（Ｄ＿ｃｖ（２））（＝８．８）として、実数処理部３４に出力する。

【0139】

整数処理部３３では、上記説明したのと同様の処理により、４値基底行列Ｍｔｘ^（４）の第２行目と、量子化処理後のデータＤ＿Ｑｉｎ（バイナリコードｚ^ｌ _ｉｊｍ ^（ｂ））（図９において、ｖｅｃ＿Ｂ_ｉｊと表記）との整数乗算処理（内積演算処理）が実行される。つまり、整数処理部３３は、上記説明したのと同様の処理により、
ＤＩｏ＝ｖｅｃ＿ｒ２＿ｕｐｐｅｒ＿Ｍｔｘ^（４）・ｖｅｃ＿ｕｐｐｅｒ＿Ｂ_ｉｊ
＋ｖｅｃ＿ｒ２＿ｌｏｗｅｒ＿Ｍｔｘ^（４）・ｖｅｃ＿ｌｏｗｅｒ＿Ｂ_ｉｊ
＝－６
に相当する処理を実行することで、データＤＩｏを取得する。

【0140】

なお、データｖｅｃ＿ｒ２＿ｕｐｐｅｒ＿Ｍｔｘ^（４）は、４値基底行列Ｍｔｘ^（４）の第２行目の第１列～第４列の要素を要素とするベクトル（１行４列の行列）であり、図９の場合、
ｖｅｃ＿ｒ２＿ｕｐｐｅｒ＿Ｍｔｘ^（４）＝［－２２－１－２］
である。

【0141】

また、データｖｅｃ＿ｒ２＿ｌｏｗｅｒ＿Ｍｔｘ^（４）は、４値基底行列Ｍｔｘ^（４）の第２行目の第５列～第８列の要素を要素とするベクトル（１行４列の行列）であり、図９の場合、
ｖｅｃ＿ｒ２＿ｌｏｗｅｒ＿Ｍｔｘ^（４）＝［－１－１－２－１］
である。

【0142】

上記処理により取得されたデータＤＩｏ（＝－６）は、整数処理部３３から、実数処理部３４に出力される。

【0143】

実数処理部３４の実数乗算部３４Ａは、第２インターフェース部ＩＦ２から出力されるスケーリング係数ベクトルデータＤ＿ｃｖ（２）（＝８．８）と、整数処理部３３から出力されるデータＤＩｏ（＝－６）とを入力する。実数乗算部３４Ａは、スケーリング係数ベクトルデータＤ＿ｃｖおよびデータＤＩｏに対して、実数乗算処理を実行する。すなわち、実数乗算部３４Ａは、
Ｄ５＝Ｄ＿ｃｖ（２）×ＤＩｏ＝８．８×（－６）＝－５２．８
に相当する処理を実行することで、実数乗算処理後のデータＤ５を取得する。

【0144】

そして、実数乗算部３４Ａは、データＤ５を実数積算部３４Ｂに出力する。

【0145】

実数積算部３４Ｂの実数積算器３４２は、実数乗算部３４Ａから出力されるデータＤ５と、遅延器３４１から出力されるデータＤｏ（ｔ－１）（１つ前の実数積算器の処理結果データ）とを入力する。そして、実数積算器３４２は、データＤ５およびデータＤｏ（ｔ－１）に対して積算処理を実行する。つまり、実数積算部３４Ｂの実数積算器３４２は、１回目の実数処理の処理結果をＤｏ（ｔ－１）とし、２回目の実数処理の処理結果をＤｏ（ｔ）として、
Ｄｏ（ｔ）＝Ｄｏ（ｔ－１）＋Ｄ５（ｔ）＝１０４＋（－５２．８）＝５１．２
に相当する処理を実行することで、実数積算処理後のデータＤｏ（＝Ｄｏ（ｔ））を取得する。

【0146】

≪３回目の実数処理≫
次に、実数処理部３４では、３回目の実数処理が実行される。

【0147】

第２インターフェース部ＩＦ２は、内部ＲＡＭＲ１から所定の領域から、スケーリング係数ベクトルデータＤ＿ｃｖを読み出す。図９の場合、第２インターフェース部ＩＦ２は、３次元のスケーリング係数ベクトルｖ＿ｃ（＝［ｃ_１ｃ_２ｃ_３］＝［２６８．８４．９］）の３番目の要素ｃ_３のデータを、内部ＲＡＭＲ１から所定の領域から読み出し、読み出したデータをスケーリング係数ベクトルデータＤ＿ｃｖ（Ｄ＿ｃｖ（３））（＝４．９）として、実数処理部３４に出力する。

【0148】

整数処理部３３では、上記説明したのと同様の処理により、４値基底行列Ｍｔｘ^（４）の第２行目と、量子化処理後のデータＤ＿Ｑｉｎ（バイナリコードｚ^ｌ _ｉｊｍ ^（ｂ））（図９において、ｖｅｃ＿Ｂ_ｉｊと表記）との整数乗算処理（内積演算処理）が実行される。つまり、整数処理部３３は、上記説明したのと同様の処理により、
ＤＩｏ＝ｖｅｃ＿ｒ３＿ｕｐｐｅｒ＿Ｍｔｘ^（４）・ｖｅｃ＿ｕｐｐｅｒ＿Ｂ_ｉｊ
＋ｖｅｃ＿ｒ３＿ｌｏｗｅｒ＿Ｍｔｘ^（４）・ｖｅｃ＿ｌｏｗｅｒ＿Ｂ_ｉｊ
＝８
に相当する処理を実行することで、データＤＩｏを取得する。

【0149】

なお、データｖｅｃ＿ｒ３＿ｕｐｐｅｒ＿Ｍｔｘ^（４）は、４値基底行列Ｍｔｘ^（４）の第３行目の第１列～第４列の要素を要素とするベクトル（１行４列の行列）であり、図９の場合、
ｖｅｃ＿ｒ３＿ｕｐｐｅｒ＿Ｍｔｘ^（４）＝［２ ―２２１］
である。

【0150】

また、データｖｅｃ＿ｒ３＿ｌｏｗｅｒ＿Ｍｔｘ^（４）は、４値基底行列Ｍｔｘ^（４）の第３行目の第５列～第８列の要素を要素とするベクトル（１行４列の行列）であり、図９の場合、
ｖｅｃ＿ｒ３＿ｌｏｗｅｒ＿Ｍｔｘ^（４）＝［２２２２］
である。

【0151】

上記処理により取得されたデータＤＩｏ（＝８）は、整数処理部３３から、実数処理部３４に出力される。

【0152】

実数処理部３４の実数乗算部３４Ａは、第２インターフェース部ＩＦ２から出力されるスケーリング係数ベクトルデータＤ＿ｃｖ（３）（＝４．９）と、整数処理部３３から出力されるデータＤＩｏ（＝８）とを入力する。実数乗算部３４Ａは、スケーリング係数ベクトルデータＤ＿ｃｖおよびデータＤＩｏに対して、実数乗算処理を実行する。すなわち、実数乗算部３４Ａは、
Ｄ５＝Ｄ＿ｃｖ（３）×ＤＩｏ＝４．９×８＝３９．２
に相当する処理を実行することで、実数乗算処理後のデータＤ５を取得する。

【0153】

そして、実数乗算部３４Ａは、データＤ５を実数積算部３４Ｂに出力する。

【0154】

実数積算部３４Ｂの実数積算器３４２は、実数乗算部３４Ａから出力されるデータＤ５と、遅延器３４１から出力されるデータＤｏ（ｔ－１）（１つ前の実数積算器の処理結果データ）とを入力する。そして、実数積算器３４２は、データＤ５およびデータＤｏ（ｔ－１）に対して積算処理を実行する。つまり、実数積算部３４Ｂの実数積算器３４２は、１回目の実数処理の処理結果をＤｏ（ｔ－１）とし、２回目の実数処理の処理結果をＤｏ（ｔ）として、
Ｄｏ（ｔ）＝Ｄｏ（ｔ－１）＋Ｄ５（ｔ）＝５１．２＋３９．２＝９０．４
に相当する処理を実行することで、実数積算処理後のデータＤｏ（＝Ｄｏ（ｔ））を取得する。

【0155】

取得されたデータＤｏ（＝Ｄｏ（ｔ））は、実数処理部３４から第２インターフェース部ＩＦ２に出力される。そして、第２インターフェース部ＩＦ２は、例えば、データＤｏを内部ＲＡＭＲ１の所定の領域に書き込む。

【0156】

このように処理することで、ニューラルネットワーク用プロセッサ１００では、図９の下段の行列計算を行うことができ、ｙ_１の値を取得することができる。つまり、ニューラルネットワーク用プロセッサ１００において、上記のように処理することで、ＢＮＮでの処理精度と同等の処理精度を実現することができるとともに、ＢＮＮに比べて、実数演算処理を格段に少なくすることができる。図４、図５に示した計算を実行する場合、（１）ＢＮＮにより実行すると、実数を要素とするスケーリング係数ベクトルの次元が「６」であり、それに応じて、実数の演算処理の回数が多くなるが、（２）Ｎ値基底行列（Ｎ＝４）を用いるニューラルネットワーク用プロセッサ１００により実行すると、スケーリング係数ベクトルの次元が「３」（ＢＮＮのときの半分）であり、それに応じて、実数の演算処理の回数が、ＢＮＮの場合に比べて、格段に少なくなる。

【0157】

このように、ニューラルネットワーク用プロセッサ１００では、ＢＮＮと同等の計算精度を確保しつつ、実数演算の処理量を著しく低減させることができる。

【0158】

また、ニューラルネットワーク用プロセッサ１００では、多値基底行列を用いるため（１つの符号語（多値基底行列の要素の値）に複数ビットを割り当てるため）、内部ＲＡＭＲ１と内積処理部３とのデータ伝送効率を高めることができる。これについて、図１０、図１１を用いて説明する。

【0159】

図１０は、１ビットデータフォーマット（１つの符号語に１ビットを割り当てる場合）を模式的に示した図である。

【0160】

図１１は、２ビットデータフォーマット（１つの符号語に２ビットを割り当てる場合）を模式的に示した図である。

【0161】

上記では、説明便宜のために、内部ＲＡＭＲ１と内積処理部３との間のデータ転送バスのバス幅が８ビットであるとしたが、例えば、内部ＲＡＭＲ１と内積処理部３との間のデータ転送バスのバス幅が６４ビットである場合について説明する。

【0162】

１ビットモード（１つの符号語に１ビットを割り当てる場合、ＢＮＮがこれに相当）で９要素分のデータを転送する場合、図１０の上段に示すように、データは９ビット分であり、残りの５５ビット分は、パディングデータとなり、データ転送バスにおいて、有効データの占める割合が低く、データ転送効率が悪い。

【0163】

２ビットモード（１つの符号語に２ビットを割り当てる場合、上記実施形態のニューラルネットワーク用プロセッサ１００で４値基底行列を用いて処理する場合がこれに相当）で９要素分のデータを転送する場合、図１１の上段に示すように、データは１８ビット分（＝２×９）であり、残りの４６ビット分は、パディングデータとなり、データ転送バスにおいて、有効データの占める割合が１ビットモード（図１０の場合）に比べて高く、データ転送効率が良くなる。

【0164】

９要素分のデータを転送する場合、図１０の上段の図、図１１の上段の図から分かるように、ともにデータ転送回数は、１回であり、同じである。したがって、この場合、ニューラルネットワーク用プロセッサ１００では、２ビットモード（図１１の場合）で内部ＲＡＭＲ１と内積処理部３との間のデータ転送を行うことで、１ビットモードで処理（ＢＮＮで処理）する場合と同じデータ転送回数で済む。そして、この場合（ニューラルネットワーク用プロセッサ１００において２ビットモードで処理する場合）、上記で説明したように、スケーリング係数ベクトルの次元数を、１ビットモードで処理（ＢＮＮで処理）する場合に比べて著しく低減させることができる（上記実施形態では、スケーリング係数ベクトルの次元数を６次元から３次元に低減）。したがって、この場合、ニューラルネットワーク用プロセッサ１００では、内部ＲＡＭＲ１と内積処理部３との間のデータ転送回数を、１ビットモードで処理（ＢＮＮで処理）する場合と同じにしつつ、実数演算処理量を著しく低減させることができる。

【0165】

また、図１０の中段、および、図１１の中段に示すように、４８要素分のデータを転送する場合、ニューラルネットワーク用プロセッサ１００において２ビットモードで処理すると、データ転送回数は、１ビットモードで処理（ＢＮＮで処理）する場合の２倍となるが（データ転送回数が２回になるが）、図１０の下段、および、図１１の下段に示すように、９６要素分のデータを転送する場合、ニューラルネットワーク用プロセッサ１００において２ビットモードで処理すると、データ転送回数は、１ビットモードで処理（ＢＮＮで処理）する場合の１．５倍にしかならない（１ビットモードの場合、データ転送回数が２回であり、２ビットモードの場合、データ転送回数が３回である）。

【0166】

つまり、ニューラルネットワーク用プロセッサ１００において、Ｎビットモードで処理した場合、１ビットモードで処理する場合に比べて、データ転送回数は、符号語の数の増加率よりも低い割合で増加することになる（例えば、符号語の数を２倍にしても、データ転送回数は、２倍以下になる）。一方、ニューラルネットワーク用プロセッサ１００において、Ｎビットモードで処理した場合、１ビットモードで処理する場合に比べて、スケーリング係数ベクトルの次元数は、著しく低減させることができ、その結果、実数演算量を著しく低減させることができる。そのため、ニューラルネットワーク用プロセッサ１００において、Ｎビットモードで処理した場合、１ビットモードで処理する場合に比べて、トータルの処理量を著しく低減させることができる。

【0167】

このように、ニューラルネットワーク用プロセッサ１００では、多値基底行列を用いた処理を行うことで、内部ＲＡＭＲ１と内積処理部３との間のデータ転送バスの利用率を高め、スケーリング係数ベクトルの次元数を低減させることで、実数演算処理量を著しく低減させることができる。したがって、ニューラルネットワーク用プロセッサ１００では、従来のＢＮＮで処理する場合と同等の計算精度を確保しつつ、演算処理量を著しく低減させることができる。

【0168】

なお、上記では、説明便宜のために、量子化処理後のデータＤ＿Ｑｉｎが１行８列の行列のデータであり、各要素が１ビットデータである場合について説明したが、これに限定されることはなく、量子化処理後のデータＤ＿Ｑｉｎは、任意のｎ行ｍ列（ｎ，ｍ：自然数）の行列のデータあり、かつ、各要素がｐビット（ｐ：自然数）のデータであってもよい。

【0169】

例えば、図１２に示すように、ニューラルネットワーク用プロセッサ１００において、１行３列の出力データ［y_１１ｙ_１２ｙ_１３］を算出する場合、３次元のスケーリング係数ベクトル、３行３列のＮ値基底行列（Ｎ＝４）、および、ｐビットの量子化後データ（図１２の場合、ｐ＝３であり、３ビット目の量子化後２値化データの３行３列の行列（これをＢ［２］と表記する）、２ビット目の量子化後２値化データの３行３列の行列（これをＢ［１］と表記する）、および、１ビット目の量子化後２値化データの３行３列の行列（これをＢ［０］と表記する））に対して、上記で説明したのと同様に、行列計算の処理を行う。これにより、ニューラルネットワーク用プロセッサ１００では、図１２の右下端に示した算出結果を取得することができる。なお、算出結果のスケーリング係数ベクトルに掛ける３行３列の行列Ｍ^（Ｎ）Ｂの要素ｘ_ｉｊは、
ｘ_ｉｊ＝Ｍ^（Ｎ）Ｂ［２］_ｉｊ×２^２＋Ｍ^（Ｎ）Ｂ［１］_ｉｊ×２^１＋Ｍ^（Ｎ）Ｂ［０］_ｉｊ×２^０
である。

【0170】

なお、Ｍ^（Ｎ）Ｂ［ｋ］_ｉｊ（ｋ：整数、０≦ｋ≦２）は、図１２に示した３行３列の行列のｉ行ｊ列（ｉ，ｊ：自然数、１≦ｉ≦３、１≦ｊ≦３）の要素である。

【0171】

また、ニューラルネットワーク用プロセッサ１００において使用するＮ値基底行列は、任意のＮ値であってよい。上記では、ニューラルネットワーク用プロセッサ１００において、図８の符号テーブルを用いて、Ｎ＝４、すなわち、４値基底行列を用いる場合について説明したが、これに限定されることはない。例えば、ニューラルネットワーク用プロセッサ１００において、図１３の左図に示すように、３値基底行列用の符号テーブルを用いて、Ｎ＝３、すなわち、３値基底行列を用いて、上記と同様の手法により、内積演算処理（行列演算処理）を実行してもよい。また、ニューラルネットワーク用プロセッサ１００において、図１３の右図に示すように、８値基底行列用の符号テーブルを用いて、Ｎ＝８、すなわち、８値基底行列を用いて、上記と同様の手法により、内積演算処理（行列演算処理）を実行してもよい。また、ニューラルネットワーク用プロセッサ１００において、１５値の符号テーブルを用いて、１５値基底行列により、上記と同様の手法により、内積演算処理（行列演算処理）を実行してもよい。また、ニューラルネットワーク用プロセッサ１００において、１６値の符号テーブルを用いて、１６値基底行列により、上記と同様の手法により、内積演算処理（行列演算処理）を実行してもよい。

【0172】

なお、ニューラルネットワーク用プロセッサ１００において、符号テーブルにおける符号語使用率は、７５％以上とすることが好ましい。図１３の左図において、ビットパターン「００」は、符号語の割当がなく、２ビットの４通りのビットパターンのうち、符号語に使用されているのは、３つだけであるので、符号語使用率は、７５％となる。図１３の右図において、全てのビットパターンに対して符号語の割当があるので、図１３の右図の符号テーブルの符号語使用率は、１００％である。

【0173】

また、Ｎ値基底行列の要素のとりうる符号語（整数値）に、２の累乗ではない符号語（整数値）を少なくとも１つ含めることが好ましい（例えば、図１３の右図の符号テーブルでは、ビットパターン「００１」に割り当てられている符号語（整数値）「３」やビットパターン「１１０」に割り当てられている符号語（整数値）「―３」がこれに相当する）。これにより、表現できる整数値のバリエーションが増え、ニューラルネットワーク用プロセッサ１００における計算の精度が向上する。

【0174】

また、ニューラルネットワーク用プロセッサ１００において、４値の符号テーブルを用いて、４値基底行列により、内積演算処理（行列演算処理）を実行する場合、例えば、図８のように符号語に「０」を含まない符号テーブルにより、内積演算処理（行列演算処理）を実行することが好ましい。これにより、特定のビットパターンに符号語「０」に割り当てることがないため、他の符号語（整数値）にビットパターンを割り当てることができ、表現できる数値のバリエーションが増える。特に、密な行列の演算を行うことが多い場合、上記のように「０」以外の整数値（符号語）にビットパターンを割り当てる符号テーブルを用いて、内積演算処理（行列演算処理）を実行することで、効率良く、かつ、高精度の演算処理を行うことができる。

【0175】

以上のように、ニューラルネットワーク用プロセッサ１００では、従来のＢＮＮで処理する場合と同等の計算精度を確保しつつ、演算処理量を著しく低減させることができる。また、ニューラルネットワーク用プロセッサ１００では、上記の通り、データ転送バスのバス幅の有効データの占有率を高めることができるため、効率良く演算処理が実行できる。さらに、ニューラルネットワーク用プロセッサ１００では、多値（Ｎ値）基底行列の各要素がとる整数値（符号語）を、符号テーブルを用いて柔軟に設定することができるため、多様な行列演算処理を効率良く行うことができる。

【0176】

このように、ニューラルネットワーク用プロセッサ１００では、柔軟性を有しつつ、高精度の演算処理を効率良く行うことができる。このため、ニューラルネットワーク用プロセッサ１００を用いることで、再学習を必要とせず、組み込み機器やモバイル機器等の低スペックのデバイス（例えば、エッジ端末）において、高性能なコンパクト化したモデルを搭載することができる。

【0177】

［他の実施形態］
上記実施形態では、ニューラルネットワーク用プロセッサ１００で実行される処理として、畳み込み層の処理を想定して、説明したが、これに限定されることはなく、全結合層の処理も、ニューラルネットワーク用プロセッサ１００において、同様に実行することができる。この場合、ニューラルネットワーク用プロセッサ１００において、上記の特徴マップ（行列のデータ）を特徴ベクトル（ベクトルデータ）として、同様に処理を実行すればよい。

【0178】

ニューラルネットワーク用プロセッサ１００の各機能部の一部または全部は、マイクロコードにより、あるいは、マイクロコードとともに所定のハードウェアにより実現されるものであってもよい。

【0179】

また、上記実施形態では、ニューラルネットワーク用プロセッサ１００において、実数処理部３４の出力データＤｏが、第２インターフェースに出力され、第２インターフェースにより、当該データＤｏが内部ＲＡＭＲ１に書き込まれる場合について、説明したが、これに限定されることはなく、例えば、ニューラルネットワーク用プロセッサ１００において、実数処理部３４の出力データＤｏに対して、（数式３）の右辺の第２項のオフセット分の調整を行ったデータを内部ＲＡＭＲ１に書き込むようにしてもよい。

【0180】

また、上記実施形態では、内積処理部がニューラルネットワークの演算処理の一部を実行する場合について説明したが、これに限定されることはなく、例えば、演算処理部ＰＬ１の内積処理部３において、活性化関数の処理（例えば、ＲｅＬＵ関数の処理）を実行するようにしてもよい。また、活性化関数の処理（例えば、ＲｅＬＵ関数の処理）は、内積処理部３および制御部ＣＰＵ１で実行されるものであってもよい。

【0181】

上記実施形態では、内部ＲＡＭの個数については特に限定せず説明したが、内部ＲＡＭは、複数個のＲＡＭにより構成されるものであってもよいし、また、ニューラルネットワーク用プロセッサ１００の外部に設けたＲＡＭ（例えば、ＤＲＡＭ）等を用いて、上記実施形態の処理を実行するようにしてもよい。

【0182】

上記実施形態において、スカラー、ベクトル、行列で表現したデータについては、一例であり、上記に限定されるものではない。ＢＮＮの処理に応じて、スカラー、ベクトル、テンソルのデータとして、ニューラルネットワーク用プロセッサ１００が、上記と同様の処理を実行してもよい。

【0183】

上記実施形態で説明したニューラルネットワーク用プロセッサ１００の各ブロック（各機能部）は、ＬＳＩなどの半導体装置により個別に１チップ化されても良いし、一部又は全部を含むように１チップ化されても良い。また、上記実施形態で説明したニューラルネットワーク用プロセッサ１００の各ブロック（各機能部）は、複数のＬＳＩなどの半導体装置により実現されるものであってもよい。

【0184】

なお、ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

【0185】

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

【0186】

また、上記各実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして、上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置（ＣＰＵ）により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ＲＯＭなどの記憶装置に格納されており、ＲＯＭにおいて、あるいはＲＡＭに読み出されて実行される。

【0187】

また、上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア（ＯＳ（オペレーティングシステム）、ミドルウェア、あるいは、所定のライブラリとともに実現される場合を含む。）により実現してもよい。さらに、ソフトウェアおよびハードウェアの混在処理により実現しても良い。

【0188】

例えば、上記実施形態（変形例を含む）の各機能部を、ソフトウェアにより実現する場合、図１４に示したハードウェア構成（例えば、ＣＰＵ、ＧＰＵ、ＲＯＭ、ＲＡＭ、入力部、出力部等をバスＢｕｓにより接続したハードウェア構成）を用いて、各機能部をソフトウェア処理により実現するようにしてもよい。

【0189】

また、上記実施形態における処理方法の実行順序は、必ずしも、上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。

【0190】

前述した方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここで、コンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、大容量ＤＶＤ、次世代ＤＶＤ、半導体メモリを挙げることができる。

【0191】

上記コンピュータプログラムは、上記記録媒体に記録されたものに限られず、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

【0192】

また、文言「部」は、「サーキトリー（ｃｉｒｃｕｉｔｒｙ）」を含む概念であってもよい。サーキトリーは、ハードウェア、ソフトウェア、あるいは、ハードウェアおよびソフトウェアの混在により、その全部または一部が、実現されるものであってもよい。

【0193】

ここに開示される要素の機能は、当該開示される要素を実行するように構成された、あるいは当該開示される機能を実行するようにプログラミングされた汎用プロセッサ、専用プロセッサ、集積回路、ＡＳＩＣ（「特定用途向け集積回路」）、従来の回路構成及び／またはそれらの組み合わせを含む回路構成あるいは処理回路構成が用いられて実装されてもよい。プロセッサは、それが、その中にトランジスタ及び他の回路構成を含むとき、処理回路構成あるいは回路構成として見なされる。本開示において、回路構成、ユニットあるいは手段は、挙げられた機能を実行するハードウェア、あるいは当該機能を実行するようにプログラミングされたハードウェアである。ハードウェアは、挙げられた機能を実行するようにプログラミングされた、あるいは当該機能を実行するように構成された、ここで開示されるいかなるハードウェアあるいは既知の他のものであってもよい。ハードウェアが、あるタイプの回路構成として見なされるかもしれないプロセッサであるとき、回路構成、手段あるいはユニットは、ハードウェアとソフトウェアの組み合わせ、ハードウェアを構成するために用いられるソフトウェア及び／またはプロセッサである。

【0194】

なお、本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。

【符号の説明】

【0195】

１００ニューラルネットワーク用プロセッサ
ＰＬ１演算処理部
１ＤＭＡ制御部
２量子化処理部
Ｒ１内部ＲＡＭ
３内積処理部
３１モード設定部
３２ループ回数取得部
３３整数処理部
３４実数積算部

【図1】