特許7354736 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7354736情報処理装置、情報処理方法、情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-09-25

(45)【発行日】2023-10-03

(54)【発明の名称】情報処理装置、情報処理方法、情報処理プログラム

(51)【国際特許分類】

G06N 3/063 20230101AFI20230926BHJP

【ＦＩ】

G06N3/063

【請求項の数】 9

(21)【出願番号】P 2019178727

(22)【出願日】2019-09-30

(65)【公開番号】P2021056734

(43)【公開日】2021-04-08

【審査請求日】2022-06-09

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100147164

【弁理士】

【氏名又は名称】向山直樹

(72)【発明者】

【氏名】坂井靖文

【審査官】北川純次

(56)【参考文献】

【文献】特開２０１９－１４８８９６（ＪＰ，Ａ）

【文献】特開２０１９－７４９５１（ＪＰ，Ａ）

【文献】特開２０１８－１２４６８１（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１９／０２２８２９３（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／０２－３／１０

Ｇ０６Ｆ９／３０－９／３８

(57)【特許請求の範囲】

【請求項1】

ニューラルネットワークの学習を実行する情報処理装置であって、
複数の入力データ各々に対して所定の演算を実行することで、前記所定の演算の結果である複数の第１演算結果データを生成する演算部と、
前記複数の第１演算結果データ各々についての非符号となる最上位ビットの桁の分布についての統計情報を取得する統計情報取得部と、
所定のデータ型に基づいて前記複数の第１演算結果データを格納するレジスタと、
所定のビット幅で演算結果データを表現する第１データ型及び第２データ型のうち、前記第１データ型よりも狭いビット幅を有する前記第２データ型に基づいて前記複数の第１演算結果データに対し飽和処理又は丸め処理を実行することで複数の第２演算結果データを生成し、
前記統計情報に基づいて、前記複数の第１演算結果データにおける前記桁に前記最上位ビットが分布するデータの数と前記桁の値とを前記桁ごとにそれぞれ乗算した値を足し合わせた第１総和を算出し、
前記統計情報に基づいて、前記複数の第２演算結果データにおける前記桁に前記最上位ビットが分布するデータの数と前記桁の値とを前記桁ごとにそれぞれ乗算した値を足し合わせた第２総和を算出し、
前記第１総和と前記第２総和の差分である第１量子化差分を算出し、
算出した前記第１量子化差分が所定の閾値未満である場合に、前記複数の第２演算結果データを前記レジスタに格納する制御部と
を備えることを特徴とする情報処理装置。

【請求項2】

前記飽和処理は、前記複数の第１演算結果データのうち、前記第１データ型よりも狭いビット幅の最大桁よりも大きい桁に前記最上位ビットが分布するデータを、前記最大桁に前記最上位ビットが分布する値のデータに変更する処理であり、
前記丸め処理は、前記複数の第１演算結果データのうち、前記第１データ型よりも狭いビット幅の最小桁よりも小さい桁に前記最上位ビットが分布するデータを、前記最小桁に前記最上位ビットが分布する値に変更する処理である
ことを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記制御部は、前記第１量子化差分が前記所定の閾値以上となる場合に、前記複数の第１演算結果データを前記レジスタに格納する
ことを特徴とする請求項１又は２に記載の情報処理装置。

【請求項4】

第１の桁の範囲に基づいて前記複数の第１演算結果データに対し前記飽和処理又は前記丸め処理を実行することで複数の第３演算結果データを生成し、
前記統計情報に基づいて、前記複数の第３演算結果データにおける前記桁に前記最上位ビットが分布するデータの数と前記桁の値とを前記桁ごとにそれぞれ乗算した値を足し合わせた第３総和を算出し、
前記第１総和と前記第３総和の差分である第２量子化差分を算出し、
前記第１の桁の範囲と同じビット幅を有する第２の桁の範囲に基づいて前記複数の第１演算結果データに対し前記飽和処理又は前記丸め処理を実行することで複数の第４演算結果データを生成し、
前記統計情報に基づいて、前記複数の第４演算結果データにおける前記桁に前記最上位ビットが分布するデータの数と前記桁の値とを前記桁ごとにそれぞれ乗算した値を足し合わせた第４総和を算出し、
前記第１総和と前記第４総和の差分である第３量子化差分を算出し、
前記第２量子化差分と前記第３量子化差分とを比較し、前記第１の桁の範囲と前記第２の桁の範囲のうち量子化差分が小さくなる方の前記桁の範囲に基づいて前記複数の第１演算結果データに対し前記飽和処理又は前記丸め処理を実行することを決定する
ことを特徴とする請求項１～３いずれか１項に記載の情報処理装置。

【請求項5】

前記制御部は、順次入力される複数の入力データに対しそれぞれ得られる複数の前記統計情報それぞれから算出される複数の前記第１量子化差分のうち、少なくとも２つの前記第１量子化差分間の差分に基づいて前記所定の閾値を決定する
ことを特徴とする請求項１～４いずれか１項に記載の情報処理装置。

【請求項6】

前記第１データ型は浮動小数点数を用いるデータ型であり、前記第２データ型は固定小数点数を用いるデータ型である
ことを特徴とする請求項１～５いずれか１項に記載の情報処理装置。

【請求項7】

ニューラルネットワークの推論を実行する情報処理装置であって、
複数の入力データ各々に対して所定の演算を実行することで、前記所定の演算の結果である複数の第１演算結果データを生成する演算部と、
前記複数の第１演算結果データ各々についての非符号となる最上位ビットの桁の分布についての統計情報を取得する統計情報取得部と、
所定のデータ型に基づいて演算結果データを格納するレジスタと、
所定のビット幅で演算結果データを表現する第１データ型及び第２データ型のうち、前記第１データ型よりも狭いビット幅を有する前記第２データ型に基づいて前記複数の第１演算結果データに対し飽和処理又は丸め処理を実行することで複数の第２演算結果データを生成し、
前記統計情報に基づいて、前記複数の第１演算結果データにおける前記桁に前記最上位ビットが分布するデータの数と前記桁の値とを前記桁ごとにそれぞれ乗算した値を足し合わせた第１総和を算出し、
前記統計情報に基づいて、前記複数の第２演算結果データにおける前記桁に前記最上位ビットが分布するデータの数と前記桁の値とを前記桁ごとにそれぞれ乗算した値を足し合わせた第２総和を算出し、
前記第１総和と前記第２総和の差分である第１量子化差分を算出し、
算出した前記第１量子化差分を所定の閾値と比較し、前記第１量子化差分が所定の閾値未満である場合に、前記複数の第２演算結果データを前記レジスタに格納する制御部と
を備えることを特徴とする情報処理装置。

【請求項8】

複数の入力データ各々に対して所定の演算を実行する演算部と、所定のデータ型に基づいて前記演算部による演算結果データを格納するレジスタとを有し、ニューラルネットワークの学習を実行する情報処理装置が、
前記演算部により複数の入力データ各々に対して所定の演算を実行することで、前記所定の演算の結果である複数の第１演算結果データを生成し、
前記複数の第１演算結果データ各々についての非符号となる最上位ビットの桁の分布についての統計情報を取得し、
所定のビット幅で演算結果データを表現する第１データ型及び第２データ型のうち、前記第１データ型よりも狭いビット幅を有する前記第２データ型に基づいて前記複数の第１演算結果データに対し飽和処理又は丸め処理を実行することで複数の第２演算結果データを生成し、
前記統計情報に基づいて、前記複数の第１演算結果データにおける前記桁に前記最上位ビットが分布するデータの数と前記桁の値とを前記桁ごとにそれぞれ乗算した値を足し合わせた第１総和を算出し、
前記統計情報に基づいて、前記複数の第２演算結果データにおける前記桁に前記最上位ビットが分布するデータの数と前記桁の値とを前記桁ごとにそれぞれ乗算した値を足し合わせた第２総和を算出し、
前記第１総和と前記第２総和の差分である第１量子化差分を算出し、
算出した前記第１量子化差分を所定の閾値と比較し、前記第１量子化差分が所定の閾値未満である場合に、前記複数の第２演算結果データを前記レジスタに格納する
ことを特徴とする情報処理方法。

【請求項9】

複数の入力データ各々に対して所定の演算を実行する演算部と、所定のデータ型に基づいて前記演算部による演算結果データを格納するレジスタとを有し、ニューラルネットワークの学習を実行する情報処理装置に、
前記演算部により複数の入力データ各々に対して所定の演算を実行することで、前記所定の演算の結果である複数の第１演算結果データを生成し、
前記複数の第１演算結果データ各々についての非符号となる最上位ビットの桁の分布についての統計情報を取得し、
所定のビット幅で演算結果データを表現する第１データ型及び第２データ型のうち、前記第１データ型よりも狭いビット幅を有する前記第２データ型に基づいて前記複数の第１演算結果データに対し飽和処理又は丸め処理を実行することで複数の第２演算結果データを生成し、
前記統計情報に基づいて、前記複数の第１演算結果データにおける前記桁に前記最上位ビットが分布するデータの数と前記桁の値とを前記桁ごとにそれぞれ乗算した値を足し合わせた第１総和を算出し、
前記統計情報に基づいて、前記複数の第２演算結果データにおける前記桁に前記最上位ビットが分布するデータの数と前記桁の値とを前記桁ごとにそれぞれ乗算した値を足し合わせた第２総和を算出し、
前記第１総和と前記第２総和の差分である第１量子化差分を算出し、
算出した前記第１量子化差分を所定の閾値と比較し、前記第１量子化差分が所定の閾値未満である場合に、前記複数の第２演算結果データを前記レジスタに格納する
ことを実行させるための情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法、情報処理プログラムに関する。

【背景技術】

【0002】

機械学習の一例であるニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ、以下ＮＮと称する）は、入力層、複数の隠れ層、出力層が順番に並べられたネットワークである。各層は、１または複数のノードを持ち、各ノードは入力されたデータ等の値を持つ。そして、ある層と次の層の間のノード同士はエッジで結ばれ、各エッジは重みやバイアス等のパラメータを持つ。

【0003】

ＮＮにおいて、各層のノードの値は、前段の層のノードの値とエッジの重み等に基づく所定の演算を実行して求められる。そして、入力データが入力層のノードに入力されると、次の層のノードの値が所定の演算により求められ、さらに、演算により求められたデータを入力データとして次の層のノードの値がその層の所定の演算により求められる。そして、最終層である出力層のノードの値が、入力データに対する出力データとなる。

【0004】

データを入出力する際には、値を所定のデータ型で表現して記憶装置に読み書きを行う。このとき、値を表現するデータ型の表現可能な値の範囲、つまり表現範囲が広いほど必要なビット幅が増加する。例えば、浮動小数点数を用いるデータ型を用いると、表現範囲が広い代わりに必要なビット幅が大きくなり、記憶装置の使用容量及び演算量が増加する。

【0005】

ＮＮの演算量を減らすために、値の表現に必要なビット幅が狭いデータ型を用いる、量子化という手法が用いられる。例えば、固定小数点数を用いるデータ型では小数点位置を固定した表現により、仮数部と指数部の表現が必要な浮動小数点数に比べ表現に必要なビット幅を低減している。ただし、固定小数点数のデータ型は表現可能な範囲が浮動小数点数に比べて狭いため、演算により値の桁数が増えた場合に、表現範囲から外れるオーバーフローが発生し演算結果の値の上位ビットが飽和されること、アンダーフローが発生し下位ビットが丸められることがある。この場合、演算結果の精度の低下を招く場合がある。

【0006】

そのため、ＮＮの演算において、演算により求められた演算結果データの小数点位置を動的に調整する動的固定小数点（ＤｙｎａｍｉｃＦｉｘｅｄＰｏｉｎｔ）が提案されている。また、適切な小数点位置を決定するための方法として、非符号の最上位ビットの統計情報を取得し、統計情報に基づいて既定の閾値を用いた条件を満たす小数点位置を設定する方法が知られている。

【先行技術文献】

【特許文献】

【0007】

【文献】特開平０７－０８４９７５号公報

【文献】特開２０１２－２０３５６６号公報

【文献】特開２００９－２７１５９８号公報

【文献】特開２０１８－１２４６８１号公報

【発明の概要】

【発明が解決しようとする課題】

【0008】

従来のＮＮの量子化手法では、学習及び推論を開始する前にユーザが量子化を行う変数を指定している。量子化してもＮＮの認識率の劣化が少なくなるような変数は、特定の層や、特定の変数により決定することは困難である。これは、ＮＮに入力するデータの数、サイズや、層の接続関係等、複数のＮＮの設計条件によって変数が非線形的に変化するためである。ユーザによる量子化対象の変数の決定は、量子化を行っても精度が極端に低下しない特定の変数を経験則から選ぶことで行うことが考えられる。

【0009】

所定の変数について量子化が可能か否かは、狭い表現範囲でも演算結果データを表すテンソルに含まれる要素の値の分布、すなわち演算結果データの値の分布をカバーでき、ＮＮの認識精度を維持できるか否かによる。演算結果データの値の分布が狭い場合には量子化は可能であるが、分布が広すぎる場合には量子化による誤差が大きくなり極端に精度が下がるため、量子化ができない。例えば、学習の初期では演算結果データの値の変化が大きく演算結果データの値の分布が広くなる場合があるため、浮動小数点数で表現された値を固定小数点数で表現する際に最適な小数点位置を決定しても、ＮＮの認識精度が下がることを防ぐことができない。

【0010】

一つの側面では、本発明は、ＮＮの認識精度を維持しつつ演算量を低減した情報処理装置、情報処理方法、情報処理プログラムを提供することを目的とする。

【課題を解決するための手段】

【0011】

一つの様態によると、ニューラルネットワークの学習を実行する情報処理装置であって、複数入力データ各々に対して所定の演算を実行することで、所定の演算の結果である複数の第１演算結果データを生成する演算部と、複数の第１演算結果データ各々についての非符号となる最上位ビットの桁の分布についての統計情報を取得する統計情報取得部と、所定のデータ型に基づいて複数の第１演算結果データを格納するレジスタと、所定のビット幅で演算結果データを表現する第１データ型及び第２データ型のうち、第１データ型よりも狭いビット幅を有する第２データ型に基づいて複数の第１演算結果データに対し飽和処理又は丸め処理を実行することで複数の第２演算結果データを生成し、統計情報に基づいて、複数の第１演算結果データにおける桁に最上位ビットが分布するデータの数と桁の値とを桁ごとにそれぞれ乗算した値を足し合わせた第１総和を算出し、統計情報に基づいて、複数の第２演算結果データにおける桁に最上位ビットが分布するデータの数と桁の値とを桁ごとにそれぞれ乗算した値を足し合わせた第２総和を算出し、第１総和と第２総和の差分である第１量子化差分を算出し、算出した第１量子化差分が所定の閾値未満である場合に、複数の第２演算結果データをレジスタに格納することを制御する制御部とを備えることを特徴とする情報処理装置が、提供される。

【発明の効果】

【0012】

一つの側面では、ＮＮの認識精度を維持しつつ演算量を減らすことができる。

【図面の簡単な説明】

【0013】

【図1】ニューラルネットワーク（ＮＮ）の一例を示す図である。

【図2】ＮＮの学習処理のフローチャートの一例を示す図である。

【図3】学習システムの一例を示す図である。

【図4】図３に示すホストマシン３０の詳細を示す図である。

【図5】図３に示すＮＮ実行マシン４０の詳細を示す図である。

【図6】ホストマシン３０とＮＮ実行マシン４０による学習処理の概略を示すシーケンスチャートの図である。

【図7】学習の一例のフローチャートを示す図である。

【図8】図７に示す学習の処理のうち、Ｓ６１とＳ６３の詳細を説明する図である。

【図9】学習の順伝播処理と逆伝播処理とを説明する図である。

【図10】演算結果データの値の分布についての統計情報と、分布に基づく小数点位置の調整方法を示す図である。

【図11】演算結果データの値の分布についての統計情報と、分布に基づく小数点位置の調整方法を示す図である。

【図12】図７に示すフローチャートのうち、Ｓ６３の詳細な処理を示すフローチャートの図である。

【図13】第１実施形態にかかる学習のフローチャートを示す図である。

【図14】図１３に示すフローチャートのうちＳ２０３の詳細な処理を示すフローチャートの図である。

【図15】第１実施形態にかかる学習におけるＮＮの認識精度を示す図である。

【図16】第１実施形態にかかる学習におけるＮＮの演算量を示す図である。

【図17】学習において演算結果データの値の分布が広すぎない場合の飽和処理又は丸め処理を説明する図である。

【図18】学習において演算結果データの値の分布が広すぎる場合の飽和処理又は丸め処理を説明する図である。

【図19】第１実施形態における学習において演算結果データの値の分布が広すぎない場合に飽和処理又は丸め処理を行った場合の量子化誤差を示す図である。

【図20】第１実施形態における学習において演算結果データの値の分布が広すぎる場合に飽和処理又は丸め処理を行った場合の量子化誤差を示す図である。

【図21】ＮＮプロセッサ４３の構成例を示す図である。

【図22】ＮＮプロセッサ４３による統計情報の取得、集約、格納の処理を示すフローチャートの図である。

【図23】統計情報取得器ＳＴ＿ＡＣの論理回路例を示す図である。

【図24】統計情報取得器ＳＴ＿ＡＣが取得する演算結果データのビットパターンを示す図である。

【図25】統計情報集約器ＳＴ＿ＡＧＲ＿１の論理回路例を示す図である。

【図26】統計情報集約器ＳＴ＿ＡＧＲ＿１の動作を説明する図である。

【図27】第２の統計情報集約器ＳＴ＿ＡＧＲ＿２と統計情報レジスタファイルＳＴ＿ＲＥＧ＿ＦＬの例を示す図である。

【発明を実施するための形態】

【0014】

図１は、ニューラルネットワーク（ＮＮ）の一例を示す図である。図１のＮＮは、例えば、画像を入力し、入力画像の内容（例えば数字）に応じて有限個のカテゴリに分類する物体カテゴリ認識のモデルである。ＮＮは、入力層ＩＮＰＵＴ、第１の畳み込み層Ｃｏｎｖ＿１、第１のプーリング層Ｐｏｏｌ＿１、第２の畳み込み層Ｃｏｎｖ＿２、第２のプーリング層Ｐｏｏｌ＿２、第１の全結合層ｆｃ１、第２の全結合層ｆｃ２、出力層ＯＵＴＰＵＴを有する。各層は、単数または複数のノードを有する。

【0015】

第１の畳み込み層Ｃｏｎｖ＿１は、入力層ＩＮＰＵＴ内の複数のノードに入力された例えば画像の画素データにノード間の重み等を積和演算し、第１の畳み込み層Ｃｏｎｖ＿１内の複数のノードに画像の特徴を有する出力画像の画素データをそれぞれ出力する。第２の畳み込み層Ｃｏｎｖ＿２も同様である。

【0016】

第１のプーリング層Ｐｏｏｌ＿１は、前の層である第１の畳み込み層Ｃｏｎｖ＿１の局所的なノードから定まる値をノードとする層であり、例えば、局所的なノードの最大の値を自分のノードの値とすることで、画像のわずかな変化を吸収する。

【0017】

出力層ＯＵＴＰＵＴは、ソフトマックス関数等を用いてノードの値から各カテゴリに属する確率を求める。

【0018】

図２は、ＮＮの学習処理のフローチャートの一例を示す図である。学習処理は、例えば、複数の入力データと、入力データに基づいてＮＮが算出する出力データの正解となる複数の教師データを使用して、ＮＮ内の重み等の変数を最適化する。図２の例では、ミニバッチ法により、一対一で対応する入力データと教師データの複数の組み合わせを複数のミニバッチに分割し、各ミニバッチに分割された複数の入力データと、入力データに対応する複数の教師データを入力する。そして、それぞれの入力データに対してＮＮが出力した出力データと、入力データに対応する教師データとの誤差を小さくするように重み等の変数を最適化する。

【0019】

ＮＮは、複数の層をハードウエア回路で構成し、各層の演算をハードウエア回路が実行するようにしてもよい。または、ＮＮは、ＮＮの各層の演算を実行するプロセッサに、各層の演算を実行させるプログラムを実行させるようにしてもよい。図２において説明されるＮＮの処理は、後述するホストマシンとＮＮ実行マシンによって実行されるようにしてもよい。

【0020】

図２に示されるとおり、事前の準備として、一対一で対応する入力データと教師データの複数の組み合わせを並び替え（Ｓ１）、重み等のＮＮを構成する変数のうち量子化する変数を決定し（Ｓ２）、並び替えた複数の入力データと複数の教師データを複数のミニバッチに分割する（Ｓ３）。そして、学習では、分割した複数のミニバッチそれぞれに対して、量子化処理Ｓ４と、順伝播処理Ｓ５と、誤差評価Ｓ６と、逆伝播処理Ｓ７と、変数更新Ｓ８とを繰り返す。全てのミニバッチの処理が終了すると（Ｓ９：ＹＥＳ）、所定回数に達するまで（Ｓ１０：ＮＯ）、同じ入力データと教師データの組み合わせについて、処理Ｓ１～Ｓ９を繰り返し実行する。

【0021】

また、所定回数に達するまで同じ入力データと教師データの組み合わせで処理Ｓ１～Ｓ９を繰り返すことに代えて、学習結果の評価値、例えば、出力データと教師データとの誤差が一定の範囲に収まったことで、学習処理を終了することも行われる。

【0022】

ＮＮの学習処理の一例では、Ｓ２における量子化対象の決定は、ユーザが学習前に指定した変数を量子化対象とすることで行われる。また、Ｓ２について、学習を繰り返し実行する経過に合わせて量子化対象とする変数を変更してもよい。

【0023】

量子化処理Ｓ４では、Ｓ２にて量子化対象と決定された変数について量子化の処理を行う。例えば、入力層と隠れ層では３２ビットで浮動小数点数表現を行うＦＰ３２のデータ型を使用し、出力層では８ビットで整数表現を行うＩＮＴ８のデータ型を用いて量子化を行う。

【0024】

順伝播処理Ｓ５では、ＮＮの入力層から出力層に向かって各層の演算が順番に実行される。図１の例で説明すると、第１の畳み込み層Ｃｏｎｖ＿１が、入力層ＩＮＰＵＴに入力された１つのミニバッチが有する複数の入力データを、エッジの重み等で畳み込み演算を行い、複数の演算結果データを生成する。そして、第１のプーリング層Ｐｏｏｌ＿１が、第１の畳み込み層Ｃｏｎｖ＿１の演算結果の局所性を弱める処理を行う。さらに、第２の畳み込み層Ｃｏｎｖ＿２と第２のプーリング層Ｐｏｏｌ＿２が、上記と同様の処理を行う。最後に、全結合層ｆｃ１、ｆｃ２が、全エッジの重み等で畳み込み演算を行い、出力層ＯＵＴＰＵＴに出力データを出力する。

【0025】

次に、誤差評価Ｓ６にて、ＮＮの出力データと対応する教師データの誤差が演算される。そして、Ｓ６にて演算された誤差をＮＮの出力層から入力層に伝播する逆伝播処理Ｓ７が実行される。逆伝播処理Ｓ７では、誤差を出力層から入力層に伝播させることで、各層の重み等の変数により誤差が偏微分される。そして、変数更新Ｓ８では、Ｓ７で求めた変数による誤差の偏微分結果で現在の変数が更新され、各層の重み等が最適値方向に更新される。

【0026】

図３は、学習システムの一例を示す図である。学習システムは、ホストマシン３０とＮＮ実行マシン４０とを有し、例えば、専用インターフェースを介してホストマシン３０とＮＮ実行マシン４０とが接続される。また、ホストマシン３０には利用者端末５０がアクセス可能にされ、利用者は、利用者端末５０からホストマシン３０にアクセスし、ＮＮ実行マシン４０を操作し、学習を実行する。ホストマシン３０は、利用者端末５０からの指示に従い、ＮＮ実行マシン４０が実行するプログラムを作成し、ＮＮ実行マシン４０に送信する。そして、ＮＮ実行マシン４０は送信されたプログラムを実行し、ＮＮの学習を実行する。

【0027】

図４は、図３に示すホストマシン３０の詳細を示す図である。ホストマシン３０は、ＣＰＵ等のホストプロセッサ３１と、ＮＮ実行マシン４０と接続するための高速入出力インターフェース３２と、ＳＤＲＡＭ等のメインメモリ３３と、内部バス３４とを有する。さらに、内部バス３４に接続された大容量のＨＤＤ等の補助記憶装置３５と、利用者端末５０と接続するための低速入出力インターフェース３６とを有する。

【0028】

ホストマシン３０のホストプロセッサ３１は、補助記憶装置３５に記憶されているプログラムがメインメモリ３３に展開されたプログラムを実行する。高速入出力インターフェース３２は、例えば、ＰＣＩＥｘｐｒｅｓｓ等のホストプロセッサ３１とＮＮ実行マシン４０とを接続するインターフェースである。メインメモリ３３は、プロセッサが実行するプログラムやデータを記憶する。

【0029】

内部バス３４は、プロセッサより低速の周辺機器とプロセッサとを接続し、両者の通信を中継する。低速入出力インターフェース３６は、例えば、ＵＳＢ等で利用者端末５０のキーボードやマウスとの接続を行うか、または、イーサネット（登録商標）のネットワークとの接続を行う。

【0030】

補助記憶装置３５には、ＮＮ学習プログラムと、入力データ及び教師データが記憶される。ホストプロセッサ３１は、ＮＮ学習プログラムを実行して、例えば、学習プログラムと入力データ及び教師データをＮＮ実行マシン４０に送信し、ＮＮ実行マシン４０に学習プログラムを実行させる。

【0031】

図５は、図３に示すＮＮ実行マシン４０の詳細を示す図である。ＮＮ実行マシン４０は、ホストマシン３０との通信を中継する高速入出力インターフェース４１と、ホストマシン３０からの指令やデータに基づいて対応する処理を実行する制御部４２とを有する。また、ＮＮ実行マシン４０は、ＮＮプロセッサ４３と、メモリアクセスコントローラ４４と、内部メモリ４５を有する。

【0032】

ＮＮプロセッサ４３は、ホストマシン３０から送信されたプログラムとデータに基づいて、プログラムを実行し、学習の処理を実行する。ＮＮプロセッサ４３は、固定小数点演算を実行するＮＮプロセッサ４３＿１と、浮動小数点演算を実行するＮＮプロセッサ４３＿２とを有する。ただし、浮動小数点演算を実行するＮＮプロセッサ４３＿２はなくてもよい。

【0033】

固定小数点演算を実行するＮＮプロセッサ４３＿１は、ＮＮ内で演算される演算結果や学習により更新される変数等の演算結果データと、メモリ内のデータ等の有効な最上位ビットや有効な最下位ビットの数についての統計情報を取得する統計情報取得回路を有する。固定小数点演算を実行するＮＮプロセッサ４３＿１は、学習を実行しながら演算により求められる演算結果データの統計情報を取得し、統計情報に基づいて演算結果データの固定小数点位置を最適な位置に調整する。

【0034】

高速入出力インターフェース４１は、例えば、ＰＣＩＥｘｐｒｅｓｓであり、ホストマシン３０との通信を中継する。

【0035】

制御部４２は、ホストマシン３０から送信されるプログラムやデータを内部メモリ４５に記憶し、ホストマシン３０からの指令に応答して、ＮＮプロセッサ４３にプログラムの実行を指示する。メモリアクセスコントローラ４４は、制御部４２からのアクセス要求とＮＮプロセッサ４３からのアクセス要求に応答して、内部メモリ４５へのアクセス処理を制御する。

【0036】

内部メモリ４５は、ＮＮプロセッサ４３が実行するプログラム、処理対象データ、処理結果のデータ等を記憶する。内部メモリ４５は、例えば、ＳＤＲＡＭや、より高速のＧＤＲ５や広帯域のＨＢＭ２等である。

【0037】

図６は、ホストマシン３０とＮＮ実行マシン４０による学習処理の概略を示すシーケンスチャートの図である。ホストマシン３０は、ＮＮ実行マシン４０に、学習プログラムを送信し（Ｓ３１）、１ミニバッチ分の入力データを送信し（Ｓ３２＿１）、学習プログラム実行指示を送信する（Ｓ３３＿１）。

【0038】

これらの送信に応答して、ＮＮ実行マシン４０は、入力データと学習プログラムを内部メモリ４５に記憶し、学習プログラム実行指示に応答して、内部メモリ４５に記憶した入力データについて学習プログラムを実行する（Ｓ４０＿１）。学習プログラムの実行は、ＮＮプロセッサ４３により行われる。ホストマシン３０は、次回の１ミニバッチ分の入力データを送信してから（Ｓ３２＿２）、ＮＮ実行マシン４０による学習プログラムの実行完了まで待機する。この場合、ＮＮ実行マシン４０に入力データを格納する領域を２つ用意する。

【0039】

ＮＮ実行マシン４０は、学習プログラムの実行が完了すると、学習プログラム実行終了の通知をホストマシン３０に送信する（Ｓ４１＿１）。ホストマシン３０は、学習プログラムが参照する入力データ領域を切り替えて、学習プログラム実行指示を送信する（Ｓ３３＿２）。そして、ＮＮ実行マシン４０が学習プログラムを実行し（Ｓ４０＿２）、終了通知を送信する（Ｓ４１＿２）。これを繰り返してＮＮの学習を進める。

【0040】

ＮＮの学習は、ＮＮの順方向に各層の演算（順伝播処理）を実行し、出力層の出力データと教師データとの誤差をＮＮの逆方向に伝播して各層の変数による誤差の偏微分を演算し（逆伝播処理）、各層の変数による誤差の偏微分結果により変数を更新する処理（変数更新）を有する。これらのＮＮの学習処理を、全てＮＮ実行マシン４０が実行してもよく、また、一部の処理をホストマシン３０で実行してもよい。

【0041】

図７は、学習の一例のフローチャートを示す図である。学習の一例では、各層の各演算結果データの値の分布の統計情報を保存し、保存した各層の統計情報に基づいて各層の各演算結果データの固定小数点位置を調整する。

【0042】

まず、ＮＮプロセッサ４３が、各演算結果データ（各層の演算結果、変数等）の初期小数点位置を決定する（Ｓ６０）。初期小数点位置の決定は、浮動小数点数による事前学習や、ユーザの指定によって行われる。浮動小数点数により事前学習を行う場合、ＮＮ内の演算結果データは浮動小数点数となるので、演算結果データの大きさに対応した指数部が生成され、固定小数点数のように小数点位置を調整する必要はない。そして、浮動小数点数の演算結果データに基づいて、各演算結果データの固定小数点数の最適な小数点位置が決定される。

【0043】

次に、ＮＮプロセッサ４３が、ミニバッチ学習を実行しながら、各演算結果データの値の分布についての統計情報を取得・保存する（Ｓ６１）。ＮＮプロセッサ４３に含まれる固定小数点演算を実行するＮＮプロセッサ４３＿１は、固定小数点演算器の演算結果等の有効ビットの分布等の統計情報を取得する統計情報取得回路を有する。ＮＮプロセッサ４３に統計情報取得処理付の演算命令を実行させることで、ミニバッチ学習中に演算結果データの統計情報を取得し保存することができる。ミニバッチ学習をＫ回実行するまで（Ｓ６２：ＮＯ）、Ｓ６１を繰り返す。ミニバッチ学習をＫ回実行すると（Ｓ６２：ＹＥＳ）、演算結果データの値の分布の各層の統計情報に基づいて、ＮＮ内の各演算結果データの固定小数点位置を調整する（Ｓ６３）。

【0044】

上記のＮＮプロセッサ４３内の統計情報取得回路と、分布についての各層の統計情報に基づく固定小数点位置の調整方法については、後で詳述する。

【0045】

そして、ＮＮプロセッサ４３は、全ミニバッチの学習が終了するまで（Ｓ６４：ＮＯ）、Ｓ６１、Ｓ６２、Ｓ６３を繰り返す。全ミニバッチの学習が終了すると（Ｓ６４：ＹＥＳ）、所定回数に達するまで（Ｓ６５：ＮＯ）、最初のＳ６０に戻って全ミニバッチ学習を繰り返す。

【0046】

図７にて説明する学習の一例では、演算結果データの値の分布の統計情報を保存し、保存した統計情報に基づいて演算結果データの固定小数点位置を調整する場合を説明したが、この場合に限られるものではない。例えば、固定小数点位置は、他のデータ型に対応する量子化範囲と置き換えても良い。例えば、演算結果データは、ＮＮの各層の他の変数に置き換えても良い。例えば、値の分布の統計情報は、値の最大値や平均値等、他の統計情報に置き換えても良い。

【0047】

図８は、図７に示す学習の処理のうち、Ｓ６１とＳ６３の詳細を説明する図である。Ｓ６１では、ＮＮプロセッサ４３が、ミニバッチ学習をＫ回繰り返し実行する。各ミニバッチ学習では、ＮＮプロセッサ４３が、ミニバッチの複数の入力データ及び教師データについて、順伝播処理と、逆伝播処理と、各層を順番に変数を更新する処理を実行しながら、各処理における各層の演算結果データの値の分布についての統計情報を取得し、保存する。

【0048】

また、Ｓ６３では、ＮＮプロセッサ４３が、保存した統計情報に含まれる複数の演算結果データの有効ビットの分布に基づいて、各層の各演算結果データの最適な小数点位置を決定し更新する。

【0049】

図９は、学習の順伝播処理と逆伝播処理とを説明する図である。順伝播処理では、ＮＮプロセッサ４３内の固定小数点演算器が、入力層に近い層Ｌ１のノードのデータＸ_０－Ｘ_ｎにエッジの重みＷ_ｉｊを乗じ、バイアスを加算した値を累積加算して、出力層に近い層Ｌ２のノードに入力するデータＺ_０－Ｚ_ｊ…を演算する。さらに、層Ｌ２の活性化関数により出力データＺ_０－Ｚ_ｊ…に対する活性化関数の出力データＵ_０－Ｕ_ｊ…を演算する。層Ｌ１、Ｌ２での演算が、入力層から出力層にわたって繰り返される。

【0050】

一方、逆伝播処理では、ＮＮプロセッサ４３内の固定小数点演算器が、出力層に近い層Ｌ６の変数による出力層の出力データと教師データの誤差の偏微分結果δ_０ ^（６）－δ_ｉ ^（６）－δ_ｎ ^（６）から、入力層に近い層Ｌ５の偏微分δ_０ ^（５）－δ_ｊ ^（５）…を演算する。そして、層Ｌ５の偏微分δ_０ ^（５）－δ_ｊ ^（５）…を重みＷ_ｉｊ等の変数で偏微分した値に応じて、重みの更新データΔＷ_ｉｊを演算する。層Ｌ６、Ｌ５での演算が、出力層から入力層にわたって繰り返される。

【0051】

さらに、各層を順番に変数を更新する処理では、既存の重みＷ_ｉｊから更新データΔＷ_ｉｊを減算して、更新された重みＷ_ｉｊを演算する。

【0052】

図９に示される、層Ｌ２への入力データＺ_０－Ｚ_ｊ…及び活性化関数の出力データＵ_０－Ｕ_ｊ…、層Ｌ６、Ｌ５での偏微分結果δ_０ ^（６）－δ_ｉ ^（６）－δ_ｎ ^（６）、及びδ_０ ^（５）－δ_ｊ ^（５）…、及び重みの更新データΔＷ_ｉｊ、更新された重みＷ_ｉｊは、ＮＮの演算結果データである。これらの演算結果データの小数点位置を最適な位置に調整することで、各演算結果データの演算精度を高くすることができ、学習の精度を高くできる。

【0053】

図１０、図１１は、演算結果データの値の分布についての統計情報と、分布に基づく小数点位置の調整方法を示す図である。後述するとおり、ＮＮプロセッサ４３は、固定小数点演算器を有し、各演算器の出力や内部メモリ４５内に記憶されている演算結果データの有効ビットの分布についての統計情報を取得する統計情報取得回路を有する。

【0054】

演算結果データの有効ビットの分布についての統計情報は、例えば、以下の通りである。
（１）非符号となる最上位ビットの位置の分布
（２）非ゼロとなる最下位ビットの位置の分布
（３）非符号となる最上位ビットの位置の最大値
（４）非ゼロとなる最下位ビットの位置の最小値
（１）非符号となる最上位ビットの位置とは、演算結果データの有効ビットの最上位ビットの位置である。非符号とは、符号ビットが０（正）であれば「１」、１（負）であれば「０」である。（２）非ゼロとなる最下位ビットの位置とは、演算結果データの有効ビットの最下位ビットの位置である。符号ビットが０（正）であれば「１」の最下位ビットの位置、符号ビットが１（負）の場合も「１」の最下位ビットの位置である。符号ビットが１の場合、符号ビット以外のビットは２の補数で表され、２の補数を元の数に変換する処理に１を減算して、１、０を０、１に反転する処理が含まれる。そのため、「１」の最下位ビットは、１を減算することで「０」になり、ビット反転で「１」になるので、有効ビットの最下位ビットの位置となる。

【0055】

（３）非符号となる最上位ビットの位置の最大値は、複数の演算結果データそれぞれの有効ビットの最上位ビットの位置のうち、最大の位置である。同様に、（４）非ゼロとなる最下位ビットの位置の最小値は、複数の演算結果データそれぞれの有効ビットの最下位ビットの位置のうち、最小の位置である。

【0056】

図１０、図１１には、一例として、（１）非符号となる最上位ビットの位置の分布を示すヒストグラムが示される。横軸は、ヒストグラムのビンに対応する演算結果データの有効最上位ビットのべき乗（２の対数値）を示し、ビンの高さは各ビンの有効最上位ビットを有する演算結果データの数である。図１０の例では、非符号となる最上位ビットの位置の分布の広がり（ヒストグラムのビンの数）は、－２５のビンから＋１３のビンまで、ビン数が２５＋１３＋１＝３９である。分布の最上位のビンは、（３）非符号となる最上位ビットの位置の最大値に対応する。１６ビットの固定小数点数の場合、符号ビットを除くビット数は１５ビットである。そして、固定小数点数のフォーマットをＱｎ．ｍと表現する。Ｑｎ．ｍは、ｎビットの整数部と、ｍビットの小数部を意味する。小数点位置は整数部と小数部との間に位置する。小数点位置とビット幅が固定であるとき、整数部を表現するビット数と小数部を表現するビット数の情報を有する固定小数点数フォーマットを決定することは、データ値の桁に対する小数点位置を決定することと対応する。また、固定小数点数フォーマットを決定することは、演算結果である演算結果データを出力データとして格納する場合に、演算結果データよりも小さいビット幅で制限をかけることに対応する。演算結果データのビット幅を制限する際の、値を飽和・丸めをさせずに表現可能な桁の範囲を、第１実施形態ではビットレンジと呼ぶ。

【0057】

一方、非符号となる最上位ビットの位置の分布の広がり（ヒストグラムのビンの数）は、複数の演算結果データに依存して変化する。図１０のヒストグラムの分布の広がりは、－２２のビンから＋１０のビンまで、ビン数が３３となり、固定小数点数の１５ビット（固定小数点数で表現可能な領域）内には収まっていない。この表現可能な領域の１５ビットより上位のビットは、オーバーフローとなり飽和処理され、下位のビットはアンダーフローとなり丸め処理される。ここで、飽和処理は、複数の演算結果データのうち、固定小数点数のビット幅の最大桁よりも大きい桁、例えば、表現可能な領域の１５ビットより上位に最上位ビットが分布するデータを、最大桁に最上位ビットが分布する値のデータに変更する処理である。また、丸め処理は、複数の演算結果データのうち、固定小数点数のビット幅の最小桁よりも小さい桁、例えば、表現可能な領域の１５ビットより下位に最上位ビットが分布するデータを、最小桁に最上位ビットが分布する値のデータに変更する処理である。

【0058】

一方、図１１のヒストグラムは、－１３のビンから－２のビンまで、ビン数が１２となり、固定小数点数の１５ビット内に収まっている。

【0059】

そこで、ヒストグラムである統計情報に基づく小数点位置の決定方法は、ヒストグラムの横幅（ビン数）が１５ビットを超えて表現可能な領域（１５ビット）に収まらない場合（図１０）と、収まる場合（図１１）とで異なる。

【0060】

図１０のヒストグラムの横幅（ビン数）３３が１５ビットを超えて表現可能な領域（１５ビット）に収まらない場合、以下のように固定小数点数フォーマット（小数点位置）を決定する。すなわち、ヒストグラムの上位ビット側のデータ数の全データ数に対する割合が所定の閾値ｒ＿ｍａｘ未満を満たす、上位ビット側の最大ビット数Ｂｍａｘを決定し、決定したＢｍａｘより下位側に固定小数点数フォーマットを決定する。図１０に示すように、決定したＢｍａｘより上位側にはビンが含まれる、すなわち、新たに決定した固定小数点数フォーマットでは表現できないデータの値が存在することになる。第１実施形態の小数点位置の決定方法では、データ値のオーバーフローを許容することで、最上位ビットの位置が極端に上位側にある外れ値データを無視し、表現可能な領域に収まるデータ数を増加させることができる。

【0061】

図１０の例では、既存の固定小数点数フォーマットＱ５．１０が－１０～＋４のビットを収容しているのに対して、更新後の固定小数点数フォーマットをＱ３．１２が－１２～＋２のビットを収容するように変更される。この変更により、有効ビットの最上位ビットが＋３～＋１０の演算結果データは、オーバーフローにより値が飽和されるが、有効ビットの最上位ビットが－１１、－１２の演算結果データは少なくとも最上位ビットについては丸められない。

【0062】

図１１の例では、既存の固定小数点数フォーマットＱ４．１１が、ヒストグラムの上位ビット側にずれているので、更新後の固定小数点数フォーマットをＱ１．１４に変更する。Ｑ１．１４の場合は、ヒストグラムのピークの位置、すなわちヒストグラムの最頻値の位置にフォーマットＱ１．１４の中央ビットが位置する。これにより、有効ビットの最上位ビットが－１２、－１３、－１４の演算結果データは少なくとも最上位ビットについては丸められない。

【0063】

図１２は、図７に示すフローチャートのうち、Ｓ６３の詳細な処理を示すフローチャートの図である。Ｓ６３の詳細な処理では、条件により決定される演算結果データの値の分布の統計情報に基づいて、ＮＮ内の各演算結果データの固定小数点位置を調整する。以下、図１２を用いて説明するＳ６３の詳細な処理は、全てホストマシン３０のポストプロセッサが実行してもよく、また、一部の処理をＮＮ実行マシン４０のＮＮプロセッサ４３で実行してもよい。

【0064】

Ｓ６２が終了したことを契機に処理が開始され、Ｓ６１にて保存された各層の統計情報から、統計情報の最大値ｕｂを求める（Ｓ６３１）。統計情報の最大値ｕｂは、例えば、前述した非符号となる最上位ビットの位置の最大値と対応する。次に、Ｓ６１にて保存された各層の統計情報から、統計情報の最小値ｌｂを求める（Ｓ６３２）。統計情報の最小値ｌｂは、例えば、非符号となる最上位ビットの位置の最小値と対応する。次に、分布の広がりｕｂ－ｌｂ＋１を求める（Ｓ６３３）。ｕｂ－ｌｂ＋１は、統計情報の最大値と最小値の幅を示す。次に、分布の広がりｕｂ－ｌｂ＋１が、符号ビットを除くビット幅Ｎより大きいか否かを判定する（Ｓ６３４）。この判定は、ヒストグラムの横幅（ビン数）が表現可能な領域に収まらない場合（図１０）と、収まる場合（図１１）との場合分けに対応する。

【0065】

分布の広がりｕｂ－ｌｂ＋１が、符号ビットを除くビット幅Ｎより大きくない場合（Ｓ６３４：ＮＯ）、分布の中心（ｕｂ－ｌｂ＋１）／２とビット幅の中心Ｎ／２に基づいて整数部の桁数ｎを決定する（Ｓ６３５）。整数部の桁数ｎは、固定小数点数のフォーマットＱｎ．ｍで表現されるｎビットの整数部に対応する。分布の広がりが、符号ビットを除くビット幅Ｎより大きい場合（Ｓ６３４：ＹＥＳ）、オーバーフロー率が既定値ｒ＿ｍａｘを超える桁を求める関数に基づいて整数部の桁数ｎを決定する（Ｓ６３６）。次に、Ｓ６３５またはＳ６３６にて求められた整数部の桁数ｎとビット幅Ｎに基づいて小数部の桁数ｍを決定する（Ｓ６３７）。小数部の桁数ｍは、固定小数点数のフォーマットＱｎ．ｍで表現されるｍビットの小数部に対応する。

【0066】

［第１実施形態にかかる学習における量子化対象の決定］
第１実施形態にかかる学習における量子化対象の変数のデータ型の決定方法について説明する。第１実施形態にかかる学習では、ＮＮの各層の各変数について量子化を行うか否か、つまり、値の表現に必要なビット幅が狭いデータ型を用いるか否かを決定する。第１実施形態にかかる学習には、ＮＮの認識精度を保ちつつ、ＮＮの演算量を低減できる効果がある。

【0067】

図１３は、第１実施形態にかかる学習のフローチャートを示す図である。第１実施形態にかかる学習は、図２にて説明される学習に対して、共通の符号を用いる処理は同等だが、以下の点で異なる。図２にて説明されるフローチャートのＳ２にて量子化する変数の決定を行うとき、狭いビット幅のデータ型で量子化を行った場合の変数の量子化誤差について所定の閾値との比較を行い、変数の値を出力するときに用いるデータ型を決定する。Ｓ２の処理は、所定の入力データ及び教師データについてのミニバッチ学習が１回以上終了し図２で説明されるＳ１０からＳ１に戻った際に実行される。Ｓ２の処理を実行する際、ミニバッチ学習における量子化範囲の更新間隔Ｋ回ごとの統計情報が、変数ごとに保存され蓄積されている。ミニバッチ学習における量子化範囲の更新間隔Ｋ回ごとの統計情報は、学習を繰り返すことで得られる複数の統計情報とも呼ぶ。

【0068】

Ｓ１が終了したことを契機に処理が開始され、ホストプロセッサ３１が、変数について所定の量子化範囲を決定する（Ｓ２０３）。量子化範囲の決定は、図１０や図１１にて説明した分布の統計情報に基づく方法や、量子化誤差に基づく方法で行って良い。量子化誤差に基づいて量子化範囲を決定する方法は後述する。

【0069】

次に、ホストプロセッサ３１が、狭いビット幅のデータ型、Ｓ２０３にて決定した量子化範囲で量子化処理を行った場合の全ての変数の量子化誤差を保存した統計情報に基づいて算出する（Ｓ２０５）。量子化処理は、Ｓ２０３にて決定した量子化範囲に基づいて量子化処理を行うことを含む。ポストプロセッサ３１は、狭いビット幅のデータ型は、変数のデータを出力するときに用いるデータ型の候補から選ばれる。データ型の候補は、例えば、８ビットで整数表現を行うＩＮＴ８のデータ型と、３２ビットで浮動小数点数表現を行うＦＰ３２のデータ型である。

【0070】

次に、ホストプロセッサ３１が、所定の閾値を決定する（Ｓ２０６）。所定の閾値は、ユーザ指定としても良いし、Ｓ６１にて保存した統計情報に基づいて決定しても良い。統計情報に基づいて所定の閾値を決定する場合、統計情報に基づいて算出された量子化誤差の変化に基づいて決定する。所定の閾値は、例えば、全量子化誤差の平均値に基づいて決定しても良い。統計情報に基づいて算出された量子化誤差の変化に基づいて決定することで、入力データに対応する量子化対象の変数を決定する閾値を調整できるため、より精度の高い量子化対象の決定が可能となる。

【0071】

次に、ホストプロセッサ３１が、Ｓ２０５にて算出した量子化誤差が所定の閾値未満か否か判定する（Ｓ２０７）。量子化誤差が所定の閾値未満である場合（Ｓ２０７：ＹＥＳ）、量子化誤差の算出に用いた狭いビット幅のデータ型を変数の出力に用いることを決定する（Ｓ２０９）。量子化誤差が所定の閾値未満でない場合（Ｓ２０７：ＮＯ）、狭いビット幅のデータ型よりも広いビット幅を有するデータ型を変数の出力に用いることを決定する（Ｓ２１１）。

【0072】

そして、全変数のデータ型を決定するまで（Ｓ２１３：ＮＯ）、Ｓ２０６～Ｓ２１１を繰り返す。全変数のデータ型の決定が終了すると（Ｓ２１３：ＹＥＳ）、Ｓ３に進む。

【0073】

図１４は、図１３に示すフローチャートのうちＳ２０３の詳細な処理を示すフローチャートの図である。以下、図１４を用いて説明するＳ２０３の詳細な処理は、全てホストマシン３０が実行してもよく、また、一部の処理をＮＮ実行マシン４０で実行してもよい。

【0074】

Ｓ１が終了したことを契機に処理が開始され、変数を狭いビット幅のデータ型で量子化する場合の量子化範囲候補を決定する（Ｓ２０３１）。

【0075】

次に、Ｓ２０３１にて決定した量子化範囲候補で量子化処理を行った場合の変数の量子化誤差を、Ｓ６１にて保存した統計情報に基づいて算出する（Ｓ２０３３）。量子化誤差の算出の方法は、Ｓ２０５と同様である。

【0076】

全ての量子化範囲候補で量子化誤差を算出するまで（Ｓ２０３５：ＮＯ）、Ｓ２０３１～Ｓ２０３３を繰り返す。全ての量子化範囲候補で量子化誤差を算出すると（Ｓ２０３５：ＹＥＳ）、Ｓ２０３７に進む。

【0077】

そして、算出された量子化誤差が最小値となる量子化範囲候補を量子化範囲として決定する（Ｓ２０３７）。

【0078】

図１５は、第１実施形態にかかる学習におけるＮＮの認識精度を示す図である。図のグラフは、ＮＮ（ＩｍａｇｅＮｅｔ，ｒｅｓｎｅｔ－５０）による学習結果を示し、縦軸はＮＮの認識率、横軸はＮＮの学習回数を示す。図１５に示される点線は、ＮＮの全ての変数をＦＰ３２に固定して学習させた場合を示す。図１５に示される一点鎖線は、ＮＮの全ての変数をＩＮＴ８に固定して学習させた場合を示す。図１５に示される実線は、ＩＮＴ８を用いる変数を第１実施形態にかかる学習の方法で決定し、学習させた場合を示す。図１５に示されるように、第１実施形態の方法に対応する実線は、表現範囲の広いデータ型であるＦＰ３２を全ての変数に用いた点線と同等の認識率となっている。対して、一点鎖線は、認識率が極端に低下している。

【0079】

図１６は、第１実施形態にかかる学習におけるＮＮの演算量を示す図である。図１６のグラフは、ＮＮ（ＩｍａｇｅＮｅｔ，ｒｅｓｎｅｔ－５０）による演算量を示す。図１６の左側のグラフは、ＮＮの全ての変数をＦＰ３２に固定して学習させた比較例を示す。図１６の右側のグラフは、ＩＮＴ８を用いる変数を第１実施形態にかかる学習の方法で決定し、学習させた場合を示す。図１６に示されるように、第１実施形態の方法に対応する右側のグラフは、左側のグラフに対し約６０％の演算量となっている。

【0080】

図１５、図１６より、第１実施形態にかかる学習における量子化対象の変数のデータ型の決定を行うことによって、ＮＮの認識精度を維持しつつ演算量を減らすことができることが分かる。第１実施形態にかかる学習の方法を用いることで、変数の分布に対して量子化可能な変数を動的に選択し、量子化対象とする変数を選択する。

【0081】

ここで、量子化可能な変数とは、狭い表現範囲のデータ型で量子化しても量子化誤差が極端に大きくならない変数である。経験則や事前学習で量子化対象の変数を決定するときは量子化可能となる変数は学習の初期からデータの値の分布が広すぎない特定の変数に限られる。対して、例えば、学習の初期では値の変化が大きくデータの値の分布が広くなるが、学習が進むにつれてデータの値の分布の広がりが収まっていく傾向の変数がある。例えば、２つの変数の乗算を実行する層では、分布の変動が演算実行前後で大きく変化しない場合がある。

【0082】

第１実施形態にかかる学習における量子化対象の決定を行うことによって、例えば、学習の進捗に合わせて量子化対象とする変数を増やすことが可能となり、ＮＮの認識精度の維持と演算量の低減を両立することができる。

【0083】

ここで、変数のデータの値の分布に基づいて量子化可能なケースと量子化できないケースについて図１７～図２０を用いて説明する。

【0084】

図１７は、学習において演算結果データの値の分布が広すぎない場合の量子化処理を説明する図である。図１７は、ヒストグラムで表される複数の演算結果データの値の分布において、図１７下部に示される量子化範囲で飽和処理又は丸め処理を行った場合の複数の演算結果データの値の分布の変化を示す。ａ_ｉは、有効最上位ビットの桁の重みを示す。ａ_ｉは、例えば、２^ｎ－２、２^ｎ－１、２^ｎ、２^ｎ＋１、２^ｎ＋２のようにべき乗（２の対数値）の値をそれぞれ有する。ｂ_ｉは、複数の演算結果データのうち有効最上位ビットがａ_ｉの桁に分布するデータの数を示す。図１７のヒストグラムの分布の広がりはａ_１～ａ_１１であり、量子化範囲はａ_３～ａ_９である。ここで、ａ_１～ａ_１１に有効最上位ビットが分布する複数の演算結果データの値の分布についてａ_３～ａ_９の量子化範囲で飽和処理又は丸め処理を行うと、ａ_１、ａ_２に有効最上位ビットが分布するデータは、飽和処理により量子化範囲の最大値ａ_３の値を有するデータに変更され、ａ_１０、ａ_１１に有効最上位ビットが分布するデータは丸め処理により量子化範囲の最小値ａ_９の値を有するデータとなる。図１７に示される点線の長方形は飽和処理又は丸め処理の対象となったヒストグラムのビンを示し、網掛けの長方形は飽和処理又は丸め処理されたヒストグラムのビンを示し、これらは量子化誤差に対応する。量子化誤差を量子化前後の値の差分で表す場合、量子化誤差はａ_ｉとｂ_ｉを用いて下記式（１）で表される。ここで、Ｗは量子化前の変数のベクトル、Ｗ_Ｑは量子化後の変数のベクトルを表す。

【0085】

【数1】

【0086】

また、量子化誤差は、量子化範囲から外れるａ_１、ａ_２、ａ_１０、ａ_１１のデータについてのみ計算することで、下記式（２）で近似して表されても良い。

【0087】

【数2】

【0088】

表現範囲内の誤差は量子化範囲から外れるａ_１、ａ_２、ａ_１０、ａ_１１のデータについての誤差よりも十分小さいため、近似した量子化誤差を用いることで、認識精度を維持しつつ量子化誤差算出にかかる演算量を低減させることができる。

【0089】

また、量子化誤差として二乗誤差を用いても良く、下記式（３）で表される。

【0090】

【数3】

【0091】

図１８は、学習において演算結果データの値の分布が広すぎる場合の量子化処理を説明する図である。図１８のヒストグラムの分布の広がりは図１７に示すヒストグラムの分布、すなわちａ_１～ａ_１１より広く、図１８中の３点リーダは図示されたビンの分布の外側に表される１個以上の他のビンを省略していることを示すものである。量子化範囲は図１７と同様にａ_３～ａ_９である。ここで、演算結果データの値の分布についてａ_３～ａ_９の量子化範囲で飽和処理又は丸め処理を行うと、ａ_１、ａ_２と、ａ_１の外側の範囲のデータが飽和処理により量子化範囲の最大値ａ_３の値を有するデータとなる。また、ａ_１０、ａ_１１と、ａ_１０の外側の範囲のデータが丸め処理により量子化範囲の最小値ａ_９の値を有するデータとなる。図１８に示される点線の長方形は飽和処理又は丸め処理の対象となったヒストグラムのビンを示し、網掛けの長方形は飽和処理又は丸め処理されたヒストグラムのビンを示し、これらは量子化誤差に対応する。網掛けの長方形は、図１７に対して面積が大きくなっている。このことから、飽和処理又は丸め処理の対象となるデータの数が多くなっていることが示され、量子化誤差が極端に大きくなることが分かる。

【0092】

図１９は、第１実施形態における学習において演算結果データの値の分布が広すぎない場合に飽和処理又は丸め処理を行った場合の量子化誤差を示す図である。図１９のグラフは、学習回数と量子化誤差の関係を示し、縦軸は算出された量子化誤差の大きさ、横軸はＮＮの学習回数を示す。図１９のグラフ中の点線は、所定の閾値を示すものである。

【0093】

図２０は、第１実施形態における学習において演算結果データの値の分布が広すぎる場合に飽和処理又は丸め処理を行った場合の学習回数と量子化誤差の関係を示す図である。図２０の点線は、図１９と対応する位置に所定の閾値を示すものである。

【0094】

図１９に示される量子化誤差の大きさは閾値未満となり、図２０に示される量子化誤差の大きさは閾値以上となる。演算結果データの値の分布が広すぎない場合には、量子化範囲から外れる飽和・丸め対象となるデータ数が少なくなり、量子化誤差が大きくならない。一方で、演算結果データの値の分布が広い場合には、量子化範囲から外れる飽和・丸め対象となるデータ数が多くなり、量子化誤差が大きくなる。

【0095】

第１実施形態にかかるＮＮの学習を説明したが、学習処理に限られるものではなく、統計情報に基づいて算出された量子化誤差に基づいてデータ型を決定することはＮＮの推論についても適用することができる。

【0096】

［固定小数点ＮＮプロセッサの構成と統計情報の取得］
次に、第１実施形態にかかるＮＮプロセッサ４３の構成と統計情報の取得について説明する。

【0097】

図２１は、ＮＮプロセッサ４３の構成例を示す図である。ＮＮプロセッサ４３は、命令制御部ＩＮＳＴ＿ＣＯＮと、レジスタファイルＲＥＧ＿ＦＬと、特別レジスタＳＰＣ＿ＲＥＧと、スカラー演算ユニットＳＣ＿ＡＲ＿ＵＮＩＴ、ベクトル演算ユニットＶＣ＿ＡＲ＿ＵＮＩＴと、統計情報集約器ＳＴ＿ＡＧＲ＿１、ＳＴ＿ＡＧＲ＿２とを有する。

【0098】

ＮＮプロセッサ４３は、ベクトル演算ユニットＶＣ＿ＡＲ＿ＵＮＩＴ内に固定小数点数を演算する整数演算器ＩＮＴと、浮動小数点数を演算する浮動小数点演算器ＦＰとを有する。つまり、ＮＮプロセッサ４３は、固定小数点演算を実行するＮＮプロセッサ４３＿１と浮動小数点演算を実行するＮＮプロセッサ４３＿２とを有する。

【0099】

また、ＮＮプロセッサ４３には、メモリアクセスコントローラ４４を介して、命令用メモリ４５＿１とデータ用メモリ４５＿２とが接続される。メモリアクセスコントローラ４４は、命令用メモリアクセスコントローラ４４＿１と、データ用メモリアクセスコントローラ４４＿２とを有する。

【0100】

命令制御部ＩＮＳＴ＿ＣＯＮは、例えば、プログラムカウンタＰＣと、命令デコーダＤＥＣを有する。命令制御部ＩＮＳＴ＿ＣＯＮは、プログラムカウンタＰＣのアドレスに基づいて命令を命令用メモリ４５＿１からフェッチし、命令デコーダＤＥＣがフェッチした命令をデコードし、演算ユニットに発行する。

【0101】

レジスタファイルＲＥＧ＿ＦＬは、スカラー演算ユニットＳＣ＿ＡＲ＿ＵＮＩＴが使用する、スカラーレジスタファイルＳＣ＿ＲＥＧ＿ＦＬとスカラーアキュムレートレジスタＳＣ＿ＡＣＣとを有する。さらに、レジスタファイルＲＥＧ＿ＦＬは、ベクトル演算ユニットＶＣ＿ＡＲ＿ＵＮＩＴが使用する、ベクトルレジスタファイルＶＣ＿ＲＥＧ＿ＦＬと、ベクトルアキュムレートレジスタＶＣ＿ＡＣＣとを有する。

【0102】

スカラーレジスタファイルＳＣ＿ＲＥＧ＿ＦＬは、例えば、それぞれ３２ビットのスカラーレジスタＳＲ０－ＳＲ３１と、例えば、それぞれ３２ビット＋αビットのスカラーアキュムレートレジスタＳＣ＿ＡＣＣとを有する。

【0103】

ベクトルレジスタファイルＶＣ＿ＲＥＧ＿ＦＬは、例えば、それぞれ３２ビットのレジスタを８要素の数有するＲＥＧｎ０－ＲＥＧｎ７を、８セット有する。また、ベクトルアキュムレートレジスタＶＣ＿ＡＣＣは、例えば、それぞれ３２ビット＋αビットのレジスタを８要素の数有するＡ＿ＲＥＧ０－Ａ＿ＲＥＧ７を有する。

【0104】

スカラー演算ユニットＳＣ＿ＡＲ＿ＵＮＩＴは、１組の整数演算器ＩＮＴと、データ変換器Ｄ＿ＣＮＶと、統計情報取得器ＳＴ＿ＡＣとを有する。データ変換器Ｄ＿ＣＮＶは、整数演算器ＩＮＴが出力する固定小数点数の出力データを浮動小数点数に変換する。スカラー演算ユニットＳＣ＿ＡＲ＿ＵＮＩＴは、スカラーレジスタファイルＳＣ＿ＲＥＧ＿ＦＬ内のスカラーレジスタＳＲ０－ＳＲ３１とスカラーアキュムレートレジスタＳＣ＿ＡＣＣとを使用して演算を実行する。例えば、整数演算器ＩＮＴは、スカラーレジスタＳＲ０－ＳＲ３１のいずれかに格納されている入力データを演算し、その出力データを別のレジスタに格納する。また、整数演算器ＩＮＴは、積和演算を実行する場合、積和演算の結果をスカラーアキュムレートレジスタＳＣ＿ＡＣＣに格納する。スカラー演算ユニットＳＣ＿ＡＲ＿ＵＮＩＴの演算結果は、スカラーレジスタファイルＳＣ＿ＲＥＧ＿ＦＬ、スカラーアキュムレートレジスタＳＣ＿ＡＣＣ、データ用メモリ４５＿２のいずれかに格納される。

【0105】

ベクトル演算ユニットＶＣ＿ＡＲ＿ＵＮＩＴは、８要素（エレメント）の演算ユニットＥＬ０－ＥＬ７を有する。各エレメントＥＬ０－ＥＬ７は、整数演算器ＩＮＴと、浮動小数点演算器ＦＰと、データ変換器Ｄ＿ＣＮＶとを有する。ベクトル演算ユニットＶＣ＿ＡＲ＿ＵＮＩＴは、例えば、ベクトルレジスタファイルＶＣ＿ＲＥＧ＿ＦＬ内のいずれかのセットの８エレメントのレジスタＲＥＧｎ０－ＲＥＧｎ７を入力し、８エレメントの演算器で演算を並列に実行し、その演算結果を他のセットの８エレメントのレジスタＲＥＧｎ０－ＲＥＧｎ７に格納する。

【0106】

また、データ変換器Ｄ＿ＣＮＶは、演算の結果、データ用メモリ４５＿２からの読み出し結果等で得られる固定小数点数データをシフトする。データ変換器Ｄ＿ＣＮＶは、命令デコーダＤＥＣがフェッチした命令に指定されるシフト量Ｓだけ固定小数点数データをシフトする。データ変換器Ｄ＿ＣＮＶによるシフトは、固定小数点数のフォーマットに対応した小数点位置を調整することに相当する。また、データ変換器Ｄ＿ＣＮＶは、シフトとともに、固定小数点数データの上位ビットの飽和処理及び下位ビットの丸め処理を実行する。データ変換器Ｄ＿ＣＮＶは、例えば、入力を４０ビットの演算結果とし、下位ビットを小数部として丸め処理を行う丸め処理部と、算術シフトを実行するシフタと飽和処理を行う飽和処理部を有する。

【0107】

そして、データ変換器Ｄ＿ＣＮＶは、左シフト時、上位ビットの符号を維持し、符号ビット以外を飽和処理、すなわち、上位ビット廃棄し、下位ビットに０を埋め込む。また、データ変換器Ｄ＿ＣＮＶは、右シフト時、上位ビット（符号ビットより下位のビット）に符号ビットを埋め込む。そして、データ変換器Ｄ＿ＣＮＶは、上記のように丸め処理、シフト、飽和処理によって得られるデータを、レジスタファイルＲＥＧ＿ＦＬのレジスタと同一のビット幅で出力する。データ変換部は固定小数点数データの小数点位置を調整する回路の一例である。

【0108】

また、ベクトル演算ユニットＶＣ＿ＡＲ＿ＵＮＩＴは、８エレメントの演算器でそれぞれ積和演算を実行し、積和演算結果の累積加算値をベクトルアキュムレートレジスタＶＣ＿ＡＣＣの８エレメントのレジスタＡ＿ＲＥＧ０－Ａ＿ＲＥＧ７に格納する。

【0109】

ベクトルレジスタＲＥＧｎ０－ＲＥＧｎ７及びベクトルアキュムレートレジスタＡ＿ＲＥＧ０－Ａ＿ＲＥＧ７は、演算対象データのビット幅が３２ビット、１６ビット、８ビットかに応じて、演算エレメント数が８、１６、３２と増加する。

【0110】

ベクトル演算ユニットＶＣ＿ＡＲ＿ＵＮＩＴは、８エレメントの整数演算器ＩＮＴの出力データの統計情報をそれぞれ取得する８つの統計情報取得器ＳＴ＿ＡＣを有する。統計情報は、整数演算器ＩＮＴの出力データの非符号となる最上位ビットの位置情報である。統計情報は、後述する図２４で説明するビットパターンＢＰとして取得される。統計情報取得器ＳＴ＿ＡＣは、整数演算器ＩＮＴの出力データに加えて、データ用メモリ４５＿２内のデータや、スカラーレジスタファイルＳＣ＿ＲＥＧ＿ＦＬやスカラーアキュムレートレジスタＳＣ＿ＡＣＣ内のデータを入力し、その統計情報を取得するようにしてもよい。

【0111】

統計情報レジスタファイルＳＴ＿ＲＥＧ＿ＦＬは、後述する図２７に示すとおり、例えばそれぞれ３２ビット×４０エレメントの統計情報レジスタＳＴＲｎ＿０－ＳＴＲｎ＿３９を、例えば８セット有する。

【0112】

スカラーレジスタＳＲ０－ＳＲ３１には、例えば、アドレスやＮＮの変数等が格納される。また、ベクトルレジスタＲＥＧ００－ＲＥＧ７７には、ベクトル演算ユニットＶＣ＿ＡＲ＿ＵＮＩＴの入力データや出力データが格納される。そして、ベクトルアキュムレートレジスタＶＣ＿ＡＣＣには、ベクトルレジスタ同士の乗算結果や加算結果が格納される。

【0113】

統計情報レジスタＳＴＲ０＿０－ＳＴＲ０＿３９－ＳＴＲ７＿０－ＳＴＲ７＿３９には、最大で８種類のヒストグラムの複数のビンに属するデータの数が格納される。整数演算器ＩＮＴの出力データが４０ビットの場合、４０ビットそれぞれに非符号となる最上位ビットを有するデータ数が、例えば、統計情報レジスタＳＴＲ０＿０－ＳＴＲ０＿３９に格納される。

【0114】

スカラー演算ユニットＳＣ＿ＡＲ＿ＵＮＩＴは、四則演算、シフト演算、分岐、ロード・ストア等を有する。前述したとおり、スカラー演算ユニットＳＣ＿ＡＲ＿ＵＮＩＴは、整数演算器ＩＮＴの出力データから非符号となる最上位ビットの位置を有する統計情報を取得する統計情報取得器ＳＴ＿ＡＣを有する。

【0115】

ベクトル演算ユニットＶＣ＿ＡＲ＿ＵＮＩＴは、浮動小数点演算、整数演算、ベクトルアキュムレートレジスタＶＣ＿ＡＣＣを用いた積和演算等を実行する。また、ベクトル演算ユニットＶＣ＿ＡＲ＿ＵＮＩＴは、ベクトルアキュムレートレジスタＶＣ＿ＡＣＣのクリア、積和演算、累積加算、ベクトルレジスタファイルＶＣ＿ＲＥＧ＿ＦＬへの転送等を実行する。さらに、ベクトル演算ユニットＶＣ＿ＡＲ＿ＵＮＩＴは、ロードとストアも実行する。前述したとおり、ベクトル演算ユニットＶＣ＿ＡＲ＿ＵＮＩＴは、８エレメントそれぞれの整数演算器ＩＮＴの出力データから非符号となる最上位ビットの位置を有する統計情報を取得する統計情報取得器ＳＴ＿ＡＣを有する。

【0116】

［統計情報の取得、集約、格納］
次に、ＮＮプロセッサ４３による、演算結果データの統計情報の取得、集約、格納について、説明する。統計情報の取得、集約、格納は、ホストプロセッサ３１から送信される命令であり、ＮＮプロセッサ４３が実行する命令をトリガにして実行される。したがって、ホストプロセッサ３１は、ＮＮの各層の演算命令に加えて、統計情報の取得、集約、格納を実行する命令を、ＮＮプロセッサ４３に送信する。または、ホストプロセッサ３１は、各層の演算のために、統計情報の取得、集約、格納の処理付の演算命令をＮＮプロセッサ４３に送信する。

【0117】

図２２は、ＮＮプロセッサ４３による統計情報の取得、集約、格納の処理を示すフローチャートの図である。まず、ベクトル演算ユニットＶＣ＿ＡＲ＿ＵＮＩＴ内の８つの統計情報取得器ＳＴ＿ＡＣが、整数演算器ＩＮＴが出力する各層の演算による演算結果データの非符号となる最上位ビット位置を示すビットパターンをそれぞれ出力する（Ｓ１７０）。ビットパターンについては、後述する。

【0118】

次に、統計情報集約器ＳＴ＿ＡＧＲ＿１が、８つのビットパターンの各ビットの「１」を加算して集約する（Ｓ１７１）。

【0119】

さらに、統計情報集約器ＳＴ＿ＡＧＲ＿２が、統計情報レジスタファイルＳＴ＿ＲＥＧ＿ＦＬ内の統計情報レジスタ内の値に、Ｓ１７１で加算して集約した値を加算し、統計情報レジスタに格納する（Ｓ１７２）。

【0120】

上記の処理Ｓ１７０、Ｓ１７１、Ｓ１７２は、ベクトル演算ユニットＶＣ＿ＡＲ＿ＵＮＩＴ内の８つのエレメントＥＬ０－ＥＬ７による各層の演算の結果である演算結果データが生成されるたびに、繰り返される。

【0121】

学習の処理では、Ｋ回のミニバッチ内の複数の演算結果データについて、上記の統計情報の取得、集約、格納処理が完了すると、統計情報レジスタファイルＳＴ＿ＲＥＧ＿ＦＬには、Ｋ回のミニバッチ内の複数の演算結果データの非符号となる最上位ビットのヒストグラムの各ビンの数である統計情報が生成される。これにより、Ｋ回のミニバッチ内の演算結果データの非符号となる最上位ビットの位置の合計が、ビット別に集計される。この統計情報に基づいて、各演算結果データの小数点位置が調整される。

【0122】

各層の演算結果データの小数点位置の調整は、例えば、ホストマシン３０のホストプロセッサ３１によって行われる。統計情報レジスタＳＴＲ０＿０－ＳＴＲ０＿３９に格納される各層の統計情報がホストマシン３０のデータ用メモリ４５＿２に書き込まれ、ホストプロセッサ３１は演算を行い図２２にて説明される処理を実行する。ホストプロセッサ３１は、新たに決定した小数点位置と現在の小数点位置との差分を求め、シフト量Ｓとしてデータ用メモリ４５＿２に書き込む。

【0123】

［統計情報の取得］
図２３は、統計情報取得器ＳＴ＿ＡＣの論理回路例を示す図である。また、図２４は、統計情報取得器ＳＴ＿ＡＣが取得する演算結果データのビットパターンＢＰを示す図である。統計情報取得器ＳＴ＿ＡＣは、整数演算器ＩＮＴが出力するＮビット（Ｎ＝４０）の演算結果データ（例えば順伝播処理では畳み込み演算の演算結果データ、逆伝播処理では誤差や重みの更新差分）ｉｎ［３９：０］を入力し、非符号となる最上位ビットの位置を「１」で示しそれ以外を「０」で示すビットパターン出力ｏｕｔ［３９：０］を出力する。

【0124】

図２４に示されるとおり、統計情報取得器ＳＴ＿ＡＣは、演算結果データである入力ｉｎ［３９：０］について、非符号（符号ビットと異なる１または０）となる最上位ビットの位置で「１」をとり、それ以外の位置で「０」をとる出力ｏｕｔ［３９：０］をビットパターンＢＰとして出力する。但し、入力ｉｎ［３９：０］の全ビットが、符号ビットと同じ場合は、例外的に最上位ビットを「１」にする。図２４に、統計情報取得器ＳＴ＿ＡＣの真理値表が示される。

【0125】

この真理値表によれば、最初の２行は、入力ｉｎ［３９：０］の全ビットが符号ビット「１」、「０」と一致する例であり、出力ｏｕｔ［３９：０］の最上位ビットｏｕｔ［３９］が「１」（０ｘ８０００００００００）である。次の２行は、入力ｉｎ［３９：０］の３８ビットｉｎ［３８］が符号ビット「１」、「０」と異なる例であり、出力ｏｕｔ［３９：０］の３８ビットｏｕｔ［３８］が「１」、それ以外が「０」である。最も下の２行は、入力ｉｎ［３９：０］の０ビットｉｎ［０］が符号ビット「１」、「０」と異なる例であり、出力ｏｕｔ［３９：０］の０ビットｏｕｔ［０］が「１」、それ以外が「０」である。

【0126】

図２３に示す論理回路図は、以下のようにして非符号である最上位ビットの位置を検出する。まず、符号ビットｉｎ［３９］とｉｎ［３８］が不一致の場合、ＥＯＲ３８の出力が「１」となり、出力ｏｕｔ［３８］が「１」になる。ＥＯＲ３８の出力が「１」となると、論理和ＯＲ３７－ＯＲ０と論理積ＡＮＤ３７－ＡＮＤ０、反転ゲートＩＮＶにより、他の出力ｏｕｔ［３９］、ｏｕｔ［３８：０］は「０」となる。

【0127】

また、符号ビットｉｎ［３９］がｉｎ［３８］と一致、ｉｎ［３７］と不一致の場合、ＥＯＲ３８の出力が「０」、ＥＯＲ３７の出力が「１」となり、出力ｏｕｔ［３７］が「１」になる。ＥＯＲ３７の出力が「１」となると、論理和ＯＲ３６－ＯＲ０と論理積ＡＮＤ３６－ＡＮＤ０、反転ゲートＩＮＶにより、他の出力ｏｕｔ［３９：３８］、ｏｕｔ［３６：０］は「０」となる。以下、同様である。

【0128】

図２３、図２４から理解できるとおり、統計情報取得器ＳＴ＿ＡＣは、演算結果である演算結果データの符号ビットと異なる「１」または「０」の最上位ビットの位置を含む分布情報をビットパターンＢＰとして出力する。

【0129】

［統計情報の集約］
図２５は、統計情報集約器ＳＴ＿ＡＧＲ＿１の論理回路例を示す図である。また、図２６は、統計情報集約器ＳＴ＿ＡＧＲ＿１の動作を説明する図である。統計情報集約器ＳＴ＿ＡＧＲ＿１は、ベクトル演算ユニットＶＣ＿ＡＲ＿ＵＮＩＴで取得される８つの統計情報であるビットパターンＢＰ＿０－ＢＰ＿７を入力し、８つのビットパターンＢＰ＿０－ＢＰ＿７の各ビットの「１」を加算した出力ｏｕｔ［０］－ｏｕｔ［３９］を出力する。ビットパターンＢＰ＿０－ＢＰ＿７は、それぞれ４０ビットであり、ｏｕｔ［０］－ｏｕｔ［３９］は、例えば、それぞれ４ビットである。

【0130】

図２５の論理回路に示すとおり、統計情報集約器ＳＴ＿ＡＧＲ＿１は、ベクトル演算ユニットＶＣ＿ＡＲ＿ＵＮＩＴの統計情報取得器ＳＴ＿ＡＣそれぞれが取得した各ビットパターンＢＰ＿０－ＢＰ＿７の各ビットの「１」を、加算回路ＳＧＭ＿０－ＳＧＭ＿３９で加算し、加算結果を出力ｏｕｔ［０］－ｏｕｔ［３９］として生成する。図２６の出力に示されるとおり、出力はｏｕｔ［０］－ｏｕｔ［３９］である。出力の各ビットは、要素数をカウントできるようにｌｏｇ_２（要素数＝８）＋１ビットであり、要素数が８の場合は４ビットとなる。

【0131】

統計情報集約器ＳＴ＿ＡＧＲ＿１は、スカラー演算ユニットＳＣ＿ＡＲ＿ＵＮＩＴ内の統計情報取得器ＳＴ＿ＡＣが取得した１つのビットパターンＢＰをそのまま出力することもできる。そのために、加算回路ＳＧＭ＿０－ＳＧＭ＿３９の出力か、スカラー演算ユニットＳＣ＿ＡＲ＿ＵＮＩＴのビットパターンＢＰかのいずれかを選択するセレクタＳＥＬを有する。

【0132】

図２７は、第２の統計情報集約器ＳＴ＿ＡＧＲ＿２と統計情報レジスタファイルＳＴ＿ＲＥＧ＿ＦＬの例を示す図である。第２の統計情報集約器ＳＴ＿ＡＧＲ＿２は、第１の統計情報集約器ＳＴ＿ＡＧＲ＿１が集約した出力ｏｕｔ［０］－ｏｕｔ［３９］の各ビットの値を、統計情報レジスタファイルＳＴ＿ＲＥＧ＿ＦＬ内の１つのレジスタセットの値に加算し、格納する。

【0133】

統計情報レジスタファイルＳＴ＿ＲＥＧ＿ＦＬは、例えば、４０個の３２ビットレジスタＳＴＲｎ＿３９－ＳＴＲｎ＿０を８セット（ｎ＝０～７）有する。したがって、８種類のヒストグラムのそれぞれ４０ビンの数を格納できる。今仮に、集約対象の統計情報がｎ＝０の４０個の３２ビットレジスタＳＴＲ０＿３９－ＳＴＲ０＿０に格納されるとする。第２の統計情報集約器ＳＴ＿ＡＧＲ＿２は、４０個の３２ビットレジスタＳＴＲ０＿３９－ＳＴＲ０＿０に格納される累積加算値それぞれに、第１の統計情報集約器ＳＴ＿ＡＧＲ＿１が集計した集約値ｉｎ［３９：０］のそれぞれの値を加算する加算器ＡＤＤ＿３９－ＡＤＤ＿０を有する。そして、加算器ＡＤＤ＿３９－ＡＤＤ＿０の出力が、４０個の３２ビットレジスタＳＴＲ０＿３９－ＳＴＲ０＿０に再格納される。これにより、４０個の３２ビットレジスタＳＴＲ０＿３９－ＳＴＲ０＿０に、対象のヒストグラムの各ビンのサンプル数が格納される。

【0134】

図２１、図２３、図２５、図２７に示した演算ユニット内に設けられた統計情報取得器ＳＴ＿ＡＣ、統計情報集約器ＳＴ＿ＡＧＲ＿１、ＳＴ＿ＡＧＲ＿２のハードウエア回路により、ＮＮの各層で演算される演算結果データの非符号となる最上位ビットの位置（有効ビットの最上位ビットの位置）の分布（ヒストグラムの各ビンのサンプル数）を取得することができる。

【0135】

非符号となる最上位ビットの位置の分布以外に、非ゼロとなる最下位ビットの位置の分布についても、上記と同様の方法でＮＮプロセッサ４３のハードウエア回路により取得できる。さらに、非符号となる最上位ビット位置の最大値、非ゼロとなる最下位ビット位置の最小値も同様に取得できる。

【0136】

ＮＮプロセッサ４３のハードウエア回路により統計情報を取得できるので、学習での演算結果データの固定小数点位置の調整を、わずかな工数の増加で実現できる。

【符号の説明】

【0137】

３０：ホストマシン
３１：ホストプロセッサ
３２：高速入出力インターフェース
３３：メインメモリ
３４：内部バス
３５：補助記憶装置
３６：低速入出力インターフェース
４０：ＮＮ実行マシン
４１：高速入出力インターフェース
４２：制御部
４３：ＮＮプロセッサ
４３＿１：固定小数点演算を実行するＮＮプロセッサ
４３＿２：浮動小数点演算を実行するＮＮプロセッサ
４４：メモリアクセスコントローラ
４４＿１：命令用メモリアクセスコントローラ
４４＿２：データ用メモリアクセスコントローラ
４５：内部メモリ
４５＿１：命令用メモリ
４５＿２：データ用メモリ
５０：利用者端末
ＩＮＳＴ＿ＣＯＮ：命令制御部
ＰＣ：プログラムカウンタ
ＤＥＣ：命令デコーダ
ＲＥＧ＿ＦＬ：レジスタファイル
ＳＰＣ＿ＲＥＧ：特別レジスタ
ＳＣ＿ＲＥＧ＿ＦＬ：スカラーレジスタファイル
ＳＣ＿ＡＣＣ：スカラーアキュムレートレジスタ
ＶＣ＿ＲＥＧ＿ＦＬ：ベクトルレジスタファイル
ＶＣ＿ＡＣＣ：ベクトルアキュムレートレジスタ
ＳＴ＿ＲＥＧ＿ＦＬ：統計情報レジスタファイル
ＳＣ＿ＡＲ＿ＵＮＩＴ：スカラー演算ユニット
ＶＣ＿ＡＲ＿ＵＮＩＴ：ベクトル演算ユニット
ＩＮＴ：整数演算器
ＦＰ：浮動小数点演算器
ＳＴ＿ＡＣ：統計情報取得器
Ｄ＿ＣＮＶ：データ変換器
ＳＥＬ：セレクタ
ＢＰ：ビットパターン
ＳＴ＿ＡＧＲ＿１、ＳＴ＿ＡＧＲ＿２：統計情報集約器

【図1】