特許7700577 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7700577閾値決定プログラム、閾値決定方法および閾値決定装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-06-23

(45)【発行日】2025-07-01

(54)【発明の名称】閾値決定プログラム、閾値決定方法および閾値決定装置

(51)【国際特許分類】

G06N 3/0495 20230101AFI20250624BHJP

【ＦＩ】

G06N3/0495

【請求項の数】 4

(21)【出願番号】P 2021136804

(22)【出願日】2021-08-25

(65)【公開番号】P2023031367

(43)【公開日】2023-03-09

【審査請求日】2024-05-09

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】クレシュパエンジ

(72)【発明者】

【氏名】田原司睦

(72)【発明者】

【氏名】坂井靖文

【審査官】多賀実

(56)【参考文献】

【文献】特開２０２１－００５２１１（ＪＰ，Ａ）

【文献】国際公開第２０１９／２２０７５５（ＷＯ，Ａ１）

【文献】中国特許出願公開第１１２５８０８０５（ＣＮ，Ａ）

【文献】中国特許出願公開第１１２２８７９８６（ＣＮ，Ａ）

【文献】Hui Guan et al.，"Post-Training 4-bit Quantization on Embedding Tables"，arXiv.org [online]，arXiv:1911.02079v1，Cornell University ，2019年11月，pp.1-11，[検索日 2025.02.12], インターネット:<URL: https://arxiv.org/abs/1911.02079v1>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

推論モデルに含まれるニューラルネットワークの量子化において、
閾値の候補となる複数の異なる変数それぞれに対して、
変数を用いて量子化対象の複数の数値を量子化する処理と、量子化対象の各数値と量子化後の各数値とを用いて計算した、前記複数の数値それぞれに対する量子化誤差に基づいて量子化誤差の統計値を計算する処理とを、実行し、
前記閾値の候補となる複数の異なる変数のうち、最小の前記統計値を有する変数を前記閾値に決定し、
前記ニューラルネットワークの層ごとに、決定された前記閾値を用いて量子化対象の前記複数の数値各々を量子化することで、前記推論モデルを生成する処理を実行させ、前記変数を用いて量子化対象の複数の数値を量子化する処理において、
前記変数において規定される数値範囲から外れた数値を、前記変数に対応する量子化後の数値に変換し、
前記変数において規定される数値範囲内の数値を、スケーリングファクタを用いて量子化後の数値に変換する、
処理をコンピュータに実行させるための閾値決定プログラム。

【請求項2】

前記量子化対象は、前記ニューラルネットワークにおける重み、バイアス、又はアクティベーションであることを特徴とする請求項１に記載の閾値決定プログラム。

【請求項3】

推論モデルに含まれるニューラルネットワークの量子化において、
閾値の候補となる複数の異なる変数それぞれに対して、
変数を用いて量子化対象の複数の数値を量子化する処理と、量子化対象の各数値と量子化後の各数値とを用いて計算した、前記複数の数値それぞれに対する量子化誤差に基づいて量子化誤差の統計値を計算する処理とを、実行し、
前記閾値の候補となる複数の異なる変数のうち、最小の前記統計値を有する変数を前記閾値に決定し、
前記ニューラルネットワークの層ごとに、決定された前記閾値を用いて量子化対象の前記複数の数値各々を量子化することで、前記推論モデルを生成する処理を実行させ、前記変数を用いて量子化対象の複数の数値を量子化する処理において、
前記変数において規定される数値範囲から外れた数値を、前記変数に対応する量子化後の数値に変換し、
前記変数において規定される数値範囲内の数値を、スケーリングファクタを用いて量子化後の数値に変換する、
処理をコンピュータが実行することを特徴とする閾値決定方法。

【請求項4】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、閾値決定技術に関する。

【背景技術】

【0002】

機械学習により生成される学習済みモデルの一種であるニューラルネットワークは、画像処理、自然言語処理等の様々な分野において、入力データに対する推論を行うために利用されている（例えば、非特許文献１及び非特許文献２を参照）。

【0003】

近年のニューラルネットワークの複雑な構成に起因して、ニューラルネットワークによる推論を行うコンピュータの消費電力は増加する傾向にある。そこで、消費電力を削減するために、ニューラルネットワークの量子化が行われることがある。ニューラルネットワークの量子化は、所定のビット幅で表される量子化対象の数値を、より小さなビット幅で表される量子化後の数値に変換する処理である。

【0004】

ニューラルネットワークの量子化は、消費電力及びメモリ使用量の削減に有効であるが、量子化対象の数値の精度を劣化させる。例えば、３２ビットの単精度浮動小数点数（ＦＰ３２）を量子化によって８ビットの整数（ＩＮＴ８）に変換すると、推論精度が大きく低下する（例えば、非特許文献３を参照）。

【0005】

ニューラルネットワークの量子化に関連して、ニューラルネットワークの効率改善を促進する技術が知られている（例えば、特許文献１を参照）。演算の低ビット化によりＣＮＮ（Convolutional Neural Network）を軽量化しつつ、適切な演算を可能とする、ニューラルネットワークの学習装置も知られている（例えば、特許文献２を参照）。ニューラルネットワークの一部選択されたレイヤに係わる精度を、より低ビットに調整する方法も知られている（例えば、特許文献３を参照）。

【0006】

アテンション機構に基づくシーケンス変換モデルも知られている（例えば、非特許文献４を参照）。

【先行技術文献】

【特許文献】

【0007】

【文献】特表２０２１－５００６５４号公報

【文献】特開２０２０－９０４８号公報

【文献】特開２０２０－１１３２７３号公報

【非特許文献】

【0008】

【文献】A. Canziani et al, "An Analysis of Deep Neural Network Models for Practical Applications", arXiv:1605.07678v4, 14 April 2017

【文献】O. Sharir et al., "The Cost of Training NLP Models: A Concise Overview", arXiv:2004.08900v1, 19 April 2020

【文献】"8-bit Inference with TensorRT"、［online］、Szymon Migacz, NVIDIA、２０１７年５月８日、［令和３年６月１６日検索］、インターネット＜ＵＲＬ：https://on-demand.gputechconf.com/gtc/2017/presentation/s7310-8-bit-inference-with-tensorrt.pdf＞

【文献】A. Vaswani et al., "Attention is All You Need", 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017

【発明の概要】

【発明が解決しようとする課題】

【0009】

ニューラルネットワークの量子化では、量子化対象の数値を量子化後の数値に変換する適切なスケーリングファクタを選択することが重要である。量子化対象の数値は、ニューラルネットワークの２つの層の間における複数のエッジそれぞれの重み、ニューラルネットワークの各層に含まれる複数のノードそれぞれの出力値等である。各ノードの出力値は、アクティベーションと呼ばれる。量子化対象の複数の数値及び量子化後の複数の数値は、テンソルにより表されることもある。

【0010】

量子化対象の数値に対してクリッピングを行うことで、量子化後の数値の精度が改善されることがある。クリッピングは、閾値によって規定される数値範囲から外れた数値を、閾値に対応する量子化後の数値に変換する処理である。しかしながら、クリッピングのための適切な閾値を選択することは難しい。

【0011】

なお、かかる問題は、重み又はアクティベーションの量子化に限らず、ニューラルネットワークにおける様々な数値の量子化において生ずるものである。

【0012】

１つの側面において、本発明は、ニューラルネットワークの量子化による推論精度の低下を抑制することを目的とする。

【課題を解決するための手段】

【0013】

１つの案では、閾値決定プログラムは、以下の処理をコンピュータに実行させる。

【0014】

コンピュータは、ニューラルネットワークの量子化において、量子化対象の複数の数値のうち、閾値によって規定される数値範囲から外れた数値を、閾値に対応する量子化後の数値に変換する場合、閾値を決定する。このとき、コンピュータは、複数の数値それぞれに対する量子化誤差に基づいて閾値を決定する。

【発明の効果】

【0015】

１つの側面によれば、ニューラルネットワークの量子化による推論精度の低下を抑制することができる。

【図面の簡単な説明】

【0016】

【図1】比較例の閾値決定処理のフローチャートである。

【図2】更新処理を示す図である。

【図3】非特許文献３の量子化を適用した場合の実験結果を示す図である。

【図4】実施形態の閾値決定装置の機能的構成図である。

【図5】推論装置の機能的構成図である。

【図6】推論装置が行う閾値決定処理のフローチャートである。

【図7】重みの分布を示す図である。

【図8】重みに対する閾値決定処理のフローチャートである。

【図9】実施形態の量子化を適用した場合の実験結果を示す図である。

【図10】情報処理装置のハードウェア構成図である。

【発明を実施するための形態】

【0017】

以下、図面を参照しながら、実施形態を詳細に説明する。

【0018】

非特許文献３の量子化では、ＦＰ３２をＩＮＴ８に変換する際、スケーリングファクタを適用する前にクリッピングを行うことで、ＦＰ３２の数値範囲が制限される。この場合、数値範囲の上限は正の閾値＋｜Ｔ｜によって規定され、数値範囲の下限は負の閾値－｜Ｔ｜によって規定される。

【0019】

したがって、量子化により、－｜Ｔ｜以下の浮動小数点数は、－｜Ｔ｜に対応する整数に変換され、＋｜Ｔ｜以上の浮動小数点数は、＋｜Ｔ｜に対応する整数に変換される。－｜Ｔ｜に対応する整数は－１２７であり、＋｜Ｔ｜に対応する整数は＋１２７である。－｜Ｔ｜よりも小さい浮動小数点数と＋｜Ｔ｜よりも大きい浮動小数点数は、外れ値と呼ばれる。

【0020】

スケーリングファクタを適用する前にクリッピングを行うことで、量子化ノイズを低減することができ、量子化後の数値の精度が改善される。

【0021】

図１は、非特許文献３に基づく比較例の閾値決定処理の例を示すフローチャートである。図１の閾値決定処理は、ニューラルネットワークの層毎に行われる。

【0022】

まず、コンピュータは、数値範囲の下限又は上限を示す閾値の候補を表す変数Ｘに初期値を設定し（ステップ１０１）、Ｘを用いて量子化対象のＮ個（Ｎは２以上の整数）の数値を量子化する（ステップ１０２）。ステップ１０２において、コンピュータは、Ｘによって規定される数値範囲から外れた数値を、Ｘに対応する量子化後の数値に変換し、数値範囲内の数値を、スケーリングファクタを用いて量子化後の数値に変換する。

【0023】

次に、コンピュータは、量子化対象のＮ個の数値の確率分布Ｐと、量子化後のＮ個の数値の確率分布Ｑとを用いて、次式によりカルバック・ライブラー情報量（Kullback-Leibler divergence，ＫＬ情報量）を計算する（ステップ１０３）。

【0024】

【数1】

【0025】

式（１）のＫＬ（Ｐ||Ｑ）は、確率分布Ｐと確率分布ＱのＫＬ情報量を表し、Ｐ（ｉ）は、量子化対象のｉ番目（ｉ＝１～Ｎ）の数値の確率を表し、Ｑ（ｉ）は、量子化後のｉ番目の数値の確率を表す。ｌｏｇは、二進対数又は自然対数を表す。ＫＬ（Ｐ||Ｑ）は、確率分布Ｐと確率分布Ｑの差異を表す指標として用いられる。

【0026】

次に、コンピュータは、すべての候補についてＫＬ情報量を計算したか否かをチェックする（ステップ１０４）。未処理の候補が残っている場合（ステップ１０４，ＮＯ）、コンピュータは、Ｘの値を更新し（ステップ１０６）、次の候補についてステップ１０２以降の処理を繰り返す。

【0027】

すべての候補についてＫＬ情報量を計算した場合（ステップ１０４，ＹＥＳ）、コンピュータは、最小のＫＬ情報量を有する候補を、閾値として選択する（ステップ１０５）。

【0028】

図２は、図１のステップ１０６における更新処理の例を示している。０～２０４８は、確率分布Ｐを表すヒストグラムのビンの位置を示している。この場合、変数Ｘは、数値範囲の上限を示す閾値の候補を表し、Ｘの初期値は、１２８番目のビンの位置に設定される。

【0029】

ステップ１０６において、コンピュータは、Ｘの値を示すビンの位置を１だけインクリメントすることで、Ｘをビン幅だけ増加させる。ステップ１０６の処理を繰り返すことで、Ｘの値は、１２８番目のビンの位置から２０４８番目のビンの位置まで変化する。ステップ１０２において、Ｘよりも大きい外れ値は、Ｘに対応する量子化後の数値に変換される。

【0030】

最小のＫＬ情報量を有する閾値を用いて量子化を行うことで、量子化後の数値の確率分布を量子化対象の数値の確率分布に近づけることができる。しかしながら、図１の閾値決定処理は、ＣＮＮのアクティベーションを８ビットの数値に変換する量子化に対して有効であるに過ぎない。

【0031】

ＫＬ情報量は、量子化対象の各数値の出現頻度と量子化後の各数値の出現頻度の情報を含んでいるに過ぎず、それらの数値自体の情報を含んでいない。このため、量子化後の数値のビット幅が小さい場合、最小のＫＬ情報量を有する閾値を用いて量子化を行っても、推論精度が大きく低下することがある。

【0032】

図３は、非特許文献３の量子化を適用した場合の実験結果の例を示している。この実験では、学習済みモデルとして、非特許文献４に記載されたシーケンス変換モデルであるトランスフォーマが用いられている。実験で用いたトランスフォーマは、エンコーダ及びデコーダを含み、エンコーダ及びデコーダ各々は、９個の全結合層を含む。

【0033】

量子化対象の数値は、エンコーダ又はデコーダの各層に含まれるマルチヘッドアテンションブロック内の線形層の重みであり、ＦＰ３２により表される。量子化後の数値のビット幅は、２ビットである。

【0034】

データセットとしては、Multi30kのドイツ語－英語翻訳データセットが用いられている。訓練データは２９０００文であり、検証データは１０１４文であり、推論対象の入力データは１０００文である。

【0035】

量子化なしは、ＦＰ３２で表される重みを量子化することなく推論を行った場合を表し、量子化（ＫＬ）は、最小のＫＬ情報量を有する閾値に基づく量子化を適用して推論を行った場合を表す。

【0036】

推論精度１は、エンコーダの９個の全結合層に対して量子化を適用した場合のＢＬＥＵ（bilingual evaluation understudy）スコアを表す。推論精度２は、エンコーダ及びデコーダそれぞれの９個の全結合層に対して量子化を適用した場合のＢＬＥＵスコアを表す。ＢＬＥＵスコアが大きいほど、推論精度は高くなる。

【0037】

量子化なしの推論精度は、３５．０８である。一方、量子化（ＫＬ）の推論精度１は、３３．２６であり、量子化（ＫＬ）の推論精度２は、１１．８８である。この場合、量子化（ＫＬ）の推論精度２が大きく低下していることが分かる。

【0038】

図４は、実施形態の閾値決定装置の機能的構成例を示している。図４の閾値決定装置４０１は、決定部４１１を含む。決定部４１１は、ニューラルネットワークの量子化において、量子化対象の複数の数値のうち、閾値によって規定される数値範囲から外れた数値を、閾値に対応する量子化後の数値に変換する場合、閾値を決定する。このとき、決定部４１１は、複数の数値それぞれに対する量子化誤差に基づいて閾値を決定する。

【0039】

図４の閾値決定装置４０１によれば、ニューラルネットワークの量子化による推論精度の低下を抑制することができる。

【0040】

図５は、図４の閾値決定装置４０１に対応する推論装置の機能的構成例を示している。図５の推論装置５０１は、決定部５１１、量子化部５１２、推論部５１３、及び記憶部５１４を含む。決定部５１１は、図４の決定部４１１に対応する。

【0041】

記憶部５１４は、画像処理、自然言語処理等における推論を行う推論モデル５２１と、推論対象の入力データ５２４とを記憶する。推論モデル５２１は、ニューラルネットワークを含む学習済みモデルであり、例えば、教師あり機械学習により生成される。推論モデル５２１は、トランスフォーマであってもよい。

【0042】

決定部５１１は、推論モデル５２１に含まれるニューラルネットワークの層毎に、クリッピングのための閾値５２２を決定し、記憶部５１４に格納する。閾値５２２は、量子化対象の数値の数値範囲の下限及び上限を示す。

【0043】

決定部５１１は、閾値５２２の複数の候補各々によって規定される数値範囲に基づいて、量子化対象のＮ個（Ｎは２以上の整数）の数値各々を量子化することで、各数値に対応する量子化後の数値を生成する。

【0044】

ＦＰ３２をＩＮＴ８に変換する量子化では、例えば、数値範囲の上限が正の閾値の候補ＴＣによって規定され、数値範囲の下限が負の閾値の候補－ＴＣによって規定される。この場合、決定部５１１は、例えば、次式により、量子化対象のｉ番目（ｉ＝１～Ｎ）の数値ｖ（ｉ）を量子化後のｉ番目の数値ｑ（ｉ）に変換することができる。

【0045】

ｑ（ｉ）＝ｒｏｕｎｄ（ｖ（ｉ）／Ｓ）（２）

【0046】

式（２）のＳは、スケーリングファクタを表し、ｒｏｕｎｄ（ｖ（ｉ）／Ｓ）は、ｖ（ｉ）／Ｓを四捨五入した値を表す。ただし、ｖ（ｉ）がＴＣ以上の場合、ｑ（ｉ）＝１２７となり、ｖ（ｉ）が－ＴＣ以下の場合、ｑ（ｉ）＝－１２７となる。

【0047】

次に、決定部５１１は、量子化対象の各数値と、量子化対象の各数値に対応する量子化後の数値とを用いて、量子化誤差を計算し、量子化対象のＮ個の数値それぞれに対する量子化誤差の統計値を計算する。そして、決定部５１１は、複数の候補各々から計算された統計値に基づいて、複数の候補の中から閾値５２２を選択する。

【0048】

統計値としては、例えば、平均値、中央値、最頻値、最大値、又は総和が用いられ、閾値５２２としては、例えば、最小の統計値を有する候補が選択される。量子化誤差の統計値を用いることで、ニューラルネットワークの各層に適した閾値５２２を容易に決定することができる。

【0049】

ＦＰ３２をＩＮＴ８に変換する量子化では、例えば、次式により、量子化対象のＮ個の数値それぞれに対する量子化誤差の平均値ＱＥが計算される。

【0050】

ｖｑ（ｉ）＝Ｓ＊ｑ（ｉ）（３）

【数2】

【0051】

式（３）のｖｑ（ｉ）は、ｑ（ｉ）を逆量子化した数値を表し、式（４）の｜ｖｑ（ｉ）－ｖ（ｉ）｜は、ｉ番目の量子化誤差を表す。ただし、ｑ（ｉ）＝１２７の場合、ｖｑ（ｉ）＝ＴＣとなり、ｑ（ｉ）＝－１２７の場合、ｖｑ（ｉ）＝－ＴＣとなる。

【0052】

量子化誤差は、量子化対象の各数値の出現頻度と量子化後の各数値の出現頻度の情報とともに、それらの数値自体の情報を含んでいる。このため、量子化誤差の最小の統計値を有する候補を閾値５２２として選択することで、最小のＫＬ情報量を有する候補を選択した場合よりも、量子化後の数値の精度が向上する。したがって、量子化後の数値のビット幅が小さい場合であっても、量子化による推論精度の低下を抑制して、高い推論精度を維持することができる。

【0053】

量子化部５１２は、ニューラルネットワークの層毎に、閾値５２２を用いて量子化対象のＮ個の数値各々を量子化することで、量子化推論モデル５２３を生成し、記憶部５１４に格納する。

【0054】

量子化対象の数値の量子化において、量子化部５１２は、閾値５２２が示す下限及び上限によって規定される数値範囲から外れた外れ値を、下限又は上限に対応する量子化後の数値に変換する。そして、量子化部５１２は、数値範囲内の数値を、スケーリングファクタを用いて量子化後の数値に変換する。

【0055】

量子化対象は、例えば、ニューラルネットワークの各層における重み、バイアス、又はアクティベーションである。量子化後の数値のビット幅は、量子化対象の数値のビット幅よりも小さい。重み、バイアス、又はアクティベーションを量子化することで、ニューラルネットワークを効率よく圧縮することができる。

【0056】

推論部５１３は、量子化推論モデル５２３を用いて入力データ５２４に対する推論を行い、推論結果を出力する。推論モデル５２１の代わりに量子化推論モデル５２３を用いて推論を行うことで、消費電力及びメモリ使用量が削減されるとともに、推論処理が高速化される。

【0057】

図６は、図５の推論装置５０１が行う閾値決定処理の例を示すフローチャートである。図６の閾値決定処理は、推論モデル５２１に含まれるニューラルネットワークの層毎に行われる。

【0058】

まず、決定部５１１は、閾値５２２の候補を表す変数Ｘに初期値を設定し（ステップ６０１）、Ｘを用いて量子化対象のＮ個の数値を量子化する（ステップ６０２）。ステップ６０２において、決定部５１１は、Ｘによって規定される数値範囲から外れた数値を、Ｘに対応する量子化後の数値に変換し、数値範囲内の数値を、スケーリングファクタを用いて量子化後の数値に変換する。

【0059】

次に、決定部５１１は、量子化対象の各数値と量子化後の各数値とを用いて、量子化誤差を計算し、量子化対象のＮ個の数値それぞれに対する量子化誤差の統計値を計算する（ステップ６０３）。

【0060】

次に、決定部５１１は、すべての候補について量子化誤差の統計値を計算したか否かをチェックする（ステップ６０４）。未処理の候補が残っている場合（ステップ６０４，ＮＯ）、決定部５１１は、Ｘの値を更新し（ステップ６０６）、次の候補についてステップ６０２以降の処理を繰り返す。

【0061】

すべての候補について量子化誤差の統計値を計算した場合（ステップ６０４，ＹＥＳ）、決定部５１１は、最小の統計値を有する候補を、閾値５２２として選択する（ステップ６０５）。

【0062】

図６の閾値決定処理によれば、閾値５２２の候補毎に量子化誤差の統計値が計算されるため、計算された統計値に基づいて、各候補に対する量子化後の数値の精度を推測することができる。したがって、複数の候補の中から、より高い精度を有する候補を選択することが可能になる。

【0063】

次に、量子化対象がニューラルネットワークの各層における重みである場合の閾値決定処理について説明する。

【0064】

図７は、ニューラルネットワークの１つの層における量子化対象の重みの分布の例を示している。横軸は、重みを表し、縦軸は、出現頻度を表す。重みは、ＦＰ３２により表される。Ｗは、１つの層におけるＮ個の重みの集合を表す。ｍａｘ（Ｗ）は、Ｎ個の重みの最大値を表し、ｍｉｎ（Ｗ）は、Ｎ個の重みの最小値を表す。

【0065】

図７の重みの分布は、Ｍ本のビンを含むヒストグラムにより表されている。この場合、ビン幅Ｂは、次式により計算される。

【0066】

Ｂ＝（ｍａｘ（Ｗ）－ｍｉｎ（Ｗ））／Ｍ（５）

【0067】

図８は、重みに対する閾値決定処理の例を示すフローチャートである。図８の閾値決定処理は、推論モデル５２１に含まれるニューラルネットワークの層毎に行われる。

【0068】

制御変数ｋは、閾値５２２の候補を指定するハイパーパラメータとして用いられる。量子化対象の重みの数値範囲の下限は－ＴＨ（ｋ）で表され、上限は＋ＴＨ（ｋ）で表される。ＴＨ（ｋ）は、ｋに応じて変化する正の数値であり、数値範囲の上限の候補を表す。

【0069】

まず、決定部５１１は、ｋに初期値ｋ０を設定し（ステップ８０１）、次式によりＴＨ（ｋ）を計算する（ステップ８０２）。

【0070】

ＴＨ（ｋ）＝ｍａｘ（ａｂｓ（Ｗ））－ｋ＊Ｂ（６）

【0071】

式（６）のａｂｓ（Ｗ）は、Ｗに含まれる各重みの絶対値の集合を表し、ｍａｘ（ａｂｓ（Ｗ））は、ａｂｓ（Ｗ）の要素の最大値を表す。

【0072】

次に、決定部５１１は、ＴＨ（ｋ）を用いて量子化対象のＮ個の重みＷ（ｉ）（ｉ＝１～Ｎ）を量子化することで、量子化後の重みＱ（ｉ）を生成する（ステップ８０３）。

【0073】

ステップ８０３において、決定部５１１は、－ＴＨ（ｋ）以下のＷ（ｉ）を、－ＴＨ（ｋ）に対応する量子化後の重み－ＴＨＱ（ｋ）に変換し、ＴＨ（ｋ）以上のＷ（ｉ）を、ＴＨ（ｋ）に対応する量子化後の重みＴＨＱ（ｋ）に変換する。また、決定部５１１は、－ＴＨ（ｋ）よりも大きく、かつ、ＴＨ（ｋ）よりも小さいＷ（ｉ）を、スケーリングファクタを用いてＱ（ｉ）に変換する。例えば、Ｑ（ｉ）がＩＮＴ８で表される場合、ＴＨＱ（ｋ）＝１２７であってもよい。

【0074】

次に、決定部５１１は、制御変数ｉに初期値１を設定し（ステップ８０４）、ｉ番目の重みＷ（ｉ）の絶対値ａｂｓ（Ｗ（ｉ））とＴＨ（ｋ）とを比較する（ステップ８０５）。

【0075】

ａｂｓ（Ｗ（ｉ））がＴＨ（ｋ）よりも小さい場合（ステップ８０５，ＹＥＳ）、決定部５１１は、次式により、Ｗ（ｉ）に対する量子化誤差ｑｅ（ｉ）を計算する（ステップ８０６）。

【0076】

ｑｅ（ｉ）＝ａｂｓ（ＷＱ（ｉ）－Ｗ（ｉ））（７）

【0077】

式（７）のＷＱ（ｉ）は、Ｑ（ｉ）を逆量子化した数値を表し、ａｂｓ（ＷＱ（ｉ）－Ｗ（ｉ））は、ＷＱ（ｉ）－Ｗ（ｉ）の絶対値を表す。

【0078】

一方、ａｂｓ（Ｗ（ｉ））がＴＨ（ｋ）以上である場合（ステップ８０５，ＮＯ）、決定部５１１は、次式により、Ｗ（ｉ）に対する量子化誤差ｑｅ（ｉ）を計算する（ステップ８０７）。

【0079】

ｑｅ（ｉ）＝ａｂｓ（Ｗ（ｉ））－ＴＨ（ｋ）（８）

【0080】

次に、決定部５１１は、ｉとＮを比較する（ステップ８０８）。ｉがＮに達していない場合（ステップ８０８，ＮＯ）、決定部５１１は、ｉを１だけインクリメントして（ステップ８１２）、ステップ８０５以降の処理を繰り返す。

【0081】

ｉがＮに達した場合（ステップ８０８，ＹＥＳ）、決定部５１１は、次式により、Ｎ個の量子化誤差ｑｅ（ｉ）の平均値ＱＥ（ｋ）を計算する（ステップ８０９）。

【0082】

ＱＥ（ｋ）＝ａｖｅ（ｑｅ）（９）

【0083】

式（９）のｑｅは、ｑｅ（１）～ｑｅ（Ｎ）の集合を表し、ａｖｅ（ｑｅ）は、ｑｅ（１）～ｑｅ（Ｎ）の平均値を表す。

【0084】

次に、決定部５１１は、ＴＨ（ｋ）とＬ＊Ｂを比較する（ステップ８１０）。Ｌは、正の整数を表す。ＴＨ（ｋ）がＬ＊Ｂよりも大きい場合（ステップ８１０，ＹＥＳ）、決定部５１１は、ｋをΔｋだけインクリメントして（ステップ８１３）、ステップ８０２以降の処理を繰り返す。例えば、図７に示した重みの分布において、Ｍ＝２０４８の場合、ｋ０＝０、Δｋ＝０．２、Ｌ＝１２７であってもよい。

【0085】

ＴＨ（ｋ）がＬ＊Ｂ以下である場合（ステップ８１０，ＮＯ）、決定部５１１は、ＱＥ（ｋ）の計算を終了し、計算されたＱＥ（ｋ）のうち最小のＱＥ（ｋ）を有するＴＨ（ｋ）を選択する（ステップ８１１）。そして、決定部５１１は、数値範囲の下限を示す閾値５２２を－ＴＨ（ｋ）に決定し、数値範囲の上限を示す閾値５２２をＴＨ（ｋ）に決定する。

【0086】

図９は、実施形態の量子化を適用した場合の実験結果の例を示している。学習済みモデル及びデータセットは、図３に示した実験と同様である。

【0087】

量子化なしの推論精度と量子化（ＫＬ）の推論精度１及び推論精度２は、図３に示した実験結果と同様である。量子化（ＱＥ）は、最小のＱＥ（ｋ）を有する閾値５２２に基づく量子化を適用して推論を行った場合を表す。

【0088】

量子化（ＱＥ）の推論精度１は、３５．０９であり、量子化（ＱＥ）の推論精度２は、３４．９３である。この場合、量子化（ＱＥ）の推論精度１及び推論精度２は、量子化なしの推論精度とほとんど変わっていないことが分かる。したがって、ＫＬ情報量の代わりに量子化誤差の平均値を用いて閾値５２２を決定することで、量子化前と同じ程度の推論精度が維持される。

【0089】

図４の閾値決定装置４０１の構成は一例に過ぎず、閾値決定装置４０１の用途又は条件に応じて構成要素を変更してもよい。図５の推論装置５０１の構成は一例に過ぎず、推論装置５０１の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。

【0090】

図１、図６、及び図８のフローチャートは一例に過ぎず、閾値決定処理の用途又は条件に応じて、一部の処理を省略又は変更してもよい。例えば、図８の閾値決定処理において、量子化対象をバイアス又はアクティベーションに変更することも可能である。

【0091】

図２に示した更新処理は一例に過ぎず、閾値の候補の更新方法は、閾値決定処理の用途又は条件に応じて変化する。図３及び図９に示した実験結果は一例に過ぎず、推論精度は、推論モデル及び量子化対象に応じて変化する。図７に示した重みの分布は一例に過ぎず、重みの分布は、推論モデルに応じて変化する。

【0092】

式（１）～式（９）は一例に過ぎず、推論装置５０１は、別の計算式を用いて閾値５２２を決定してもよい。

【0093】

図１０は、図４の閾値決定装置４０１及び図５の推論装置５０１として用いられる情報処理装置（コンピュータ）のハードウェア構成例を示している。図１０の情報処理装置は、ＣＰＵ（Central Processing Unit）１００１、メモリ１００２、入力装置１００３、出力装置１００４、補助記憶装置１００５、媒体駆動装置１００６、及びネットワーク接続装置１００７を含む。これらの構成要素はハードウェアであり、バス１００８により互いに接続されている。

【0094】

メモリ１００２は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の半導体メモリであり、処理に用いられるプログラム及びデータを記憶する。メモリ１００２は、図５の記憶部５１４として動作してもよい。

【0095】

ＣＰＵ１００１（プロセッサ）は、例えば、メモリ１００２を利用してプログラムを実行することにより、図４の決定部４１１として動作する。ＣＰＵ１００１は、メモリ１００２を利用してプログラムを実行することにより、図５の決定部５１１、量子化部５１２、及び推論部５１３としても動作する。

【0096】

入力装置１００３は、例えば、キーボード、ポインティングデバイス等であり、ユーザ又はオペレータからの指示又は情報の入力に用いられる。出力装置１００４は、例えば、表示装置、プリンタ等であり、ユーザ又はオペレータへの問い合わせ又は指示、及び処理結果の出力に用いられる。処理結果は、入力データ５２４に対する推論結果であってもよい。

【0097】

補助記憶装置１００５は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置１００５は、ハードディスクドライブであってもよい。情報処理装置は、補助記憶装置１００５にプログラム及びデータを格納しておき、それらをメモリ１００２にロードして使用することができる。

【0098】

媒体駆動装置１００６は、可搬型記録媒体１００９を駆動し、その記録内容にアクセスする。可搬型記録媒体１００９は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体１００９は、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ（Digital Versatile Disk）、ＵＳＢ（Universal Serial Bus）メモリ等であってもよい。ユーザ又はオペレータは、可搬型記録媒体１００９にプログラム及びデータを格納しておき、それらをメモリ１００２にロードして使用することができる。

【0099】

このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ１００２、補助記憶装置１００５、又は可搬型記録媒体１００９のような、物理的な（非一時的な）記録媒体である。

【0100】

ネットワーク接続装置１００７は、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェース回路である。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置１００７を介して受信し、それらをメモリ１００２にロードして使用することができる。

【0101】

なお、情報処理装置が図１０のすべての構成要素を含む必要はなく、情報処理装置の用途又は条件に応じて一部の構成要素を省略することも可能である。例えば、ユーザ又はオペレータとのインタフェースが不要である場合は、入力装置１００３及び出力装置１００４を省略してもよい。可搬型記録媒体１００９又は通信ネットワークを使用しない場合は、媒体駆動装置１００６又はネットワーク接続装置１００７を省略してもよい。

【0102】

開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。

【0103】

図１乃至図１０を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
（付記１）
ニューラルネットワークの量子化において、量子化対象の複数の数値のうち、閾値によって規定される数値範囲から外れた数値を、前記閾値に対応する量子化後の数値に変換する場合、前記複数の数値それぞれに対する量子化誤差に基づいて前記閾値を決定する、
処理をコンピュータに実行させるための閾値決定プログラム。
（付記２）
前記閾値を決定する処理は、前記複数の数値それぞれに対する量子化誤差の統計値に基づいて前記閾値を決定する処理を含むことを特徴とする付記１記載の閾値決定プログラム。
（付記３）
前記統計値に基づいて前記閾値を決定する処理は、
前記閾値の複数の候補各々によって規定される数値範囲に基づいて前記複数の数値各々を量子化することで、前記複数の数値各々に対応する量子化後の数値を生成する処理と、
前記複数の数値各々と、前記複数の数値各々に対応する量子化後の数値とに基づいて、前記統計値を計算する処理と、
前記複数の候補各々から計算された前記統計値に基づいて、前記複数の候補の中から前記閾値を選択する処理と、
を含むことを特徴とする付記２記載の閾値決定プログラム。
（付記４）
前記量子化対象は、前記ニューラルネットワークにおける重み、バイアス、又はアクティベーションであることを特徴とする付記１乃至３の何れか１項に記載の閾値決定プログラム。
（付記５）
ニューラルネットワークの量子化において、量子化対象の複数の数値のうち、閾値によって規定される数値範囲から外れた数値を、前記閾値に対応する量子化後の数値に変換する場合、前記複数の数値それぞれに対する量子化誤差に基づいて前記閾値を決定する、
処理をコンピュータが実行することを特徴とする閾値決定方法。
（付記６）
前記閾値を決定する処理は、前記複数の数値それぞれに対する量子化誤差の統計値に基づいて前記閾値を決定する処理を含むことを特徴とする付記５記載の閾値決定方法。
（付記７）
前記統計値に基づいて前記閾値を決定する処理は、
前記閾値の複数の候補各々によって規定される数値範囲に基づいて前記複数の数値各々を量子化することで、前記複数の数値各々に対応する量子化後の数値を生成する処理と、
前記複数の数値各々と、前記複数の数値各々に対応する量子化後の数値とに基づいて、前記統計値を計算する処理と、
前記複数の候補各々から計算された前記統計値に基づいて、前記複数の候補の中から前記閾値を選択する処理と、
を含むことを特徴とする付記６記載の閾値決定方法。
（付記８）
前記量子化対象は、前記ニューラルネットワークにおける重み、バイアス、又はアクティベーションであることを特徴とする付記５乃至７の何れか１項に記載の閾値決定方法。

【符号の説明】

【0104】

４０１閾値決定装置
４１１、５１１決定部
５０１推論装置
５１２量子化部
５１３推論部
５１４記憶部
５２１推論モデル
５２２閾値
５２３量子化推論モデル
５２４入力データ
１００１ＣＰＵ
１００２メモリ
１００３入力装置
１００４出力装置
１００５補助記憶装置
１００６媒体駆動装置
１００７ネットワーク接続装置
１００８バス
１００９可搬型記録媒体

【図1】