特許7593761 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 三星電子株式会社の特許一覧

特許7593761人工ニューラルネットワークの量子化方法とそのためのシステム及び人工ニューラルネットワーク装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-25

(45)【発行日】2024-12-03

(54)【発明の名称】人工ニューラルネットワークの量子化方法とそのためのシステム及び人工ニューラルネットワーク装置

(51)【国際特許分類】

G06N 3/0495 20230101AFI20241126BHJP

G06N 3/06 20060101ALI20241126BHJP

G06N 3/10 20060101ALI20241126BHJP

【ＦＩ】

G06N3/0495

G06N3/06

G06N3/10

【請求項の数】 11

(21)【出願番号】P 2020156057

(22)【出願日】2020-09-17

(65)【公開番号】P2021072103

(43)【公開日】2021-05-06

【審査請求日】2023-07-28

(31)【優先権主張番号】62/929,752

(32)【優先日】2019-11-01

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】16/816,247

(32)【優先日】2020-03-11

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】390019839

【氏名又は名称】三星電子株式会社

【氏名又は名称原語表記】ＳａｍｓｕｎｇＥｌｅｃｔｒｏｎｉｃｓＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】１２９，Ｓａｍｓｕｎｇ－ｒｏ，Ｙｅｏｎｇｔｏｎｇ－ｇｕ，Ｓｕｗｏｎ－ｓｉ，Ｇｙｅｏｎｇｇｉ－ｄｏ，ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】110000051

【氏名又は名称】弁理士法人共生国際特許事務所

(72)【発明者】

【氏名】ファン，ヂュィン

(72)【発明者】

【氏名】ハッスン，ジョセフエイチ．

(72)【発明者】

【氏名】シャフィイーアルデスターニ，アリ

(72)【発明者】

【氏名】アブデルアジズ，ハムザアーメドアリ

(72)【発明者】

【氏名】ゲオルギアディス，ゲオルギオス

(72)【発明者】

【氏名】チェン，フゥイ

(72)【発明者】

【氏名】トースレイ，デイビッドフィリップロイド

【審査官】佐藤直樹

(56)【参考文献】

【文献】特開２０２０－１７７５３５（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１９／０１４７３２２（ＵＳ，Ａ１）

【文献】Shubham JAIN et al.，BiScaled-DNN: Quantizing Long-tailed Datastructures with Two Scale Factors for Deep Neural Networks，［online］，2019年06月06日，［検索日2024.07.05］，インターネット：<URL：https://dl.acm.org/doi/pdf/10.1145/3316781.3317783>

【文献】Ritchie ZHAO et al.，Improving Neural Network Quantization without Retraining using Outlier Channel Splitting，arXiv［online］，v3，2019年05月22日，［検索日2024.07.05］，インターネット：<URL：https://arxiv.org/pdf/1901.09504v3>

【文献】Ron BANNER et al.，Post training 4-bit quantization of convolutional networks for rapid-deployment，arXiv［online］，2019年05月29日，［検索日2024.07.05］，インターネット：<URL：https://arxiv.org/pdf/1810.05723v3>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／０４９５

Ｇ０６Ｎ３／０６

Ｇ０６Ｎ３／１０

(57)【特許請求の範囲】

【請求項1】

プロセッサによって実行される人工ニューラルネットワークを量子化する方法であって、
前記人工ニューラルネットワークのテンソルに対する量子化範囲を第１の領域と第２の領域とに分割するステップと、
前記第１の領域のテンソルの値及び前記第２の領域のテンソルの値を、それぞれ別途に線形量子化するステップと、を有し、
前記量子化範囲を第１の領域と第２の領域とに分割するステップは、前記第１の領域と前記第２の領域との間に１つ以上のブレークポイントを配置するステップを含み、
前記線形量子化するステップは、学習後の重み値分布の量子化範囲を重畳しない前記第１の領域と前記第２の領域とに分割した後、前記第１の領域及び前記第２の領域の各領域に均一の量子化を適用するステップを含み、
前記量子化範囲は、それぞれ正の部分及び負の部分を有する前記第１の領域と前記第２の領域とに分割され、
前記量子化範囲の前記各領域内の各区間内では、２ビットの均一の量子化が使用されることを特徴とする方法。

【請求項2】

前記第１の領域のテンソルの値は、第１の量子化関数に基づいて量子化され、
前記第２の領域のテンソルの値は、第２の量子化関数に基づいて量子化されることを特徴とする請求項１に記載の方法。

【請求項3】

前記第１の量子化関数と前記第２の量子化関数とは、互いに異なるスケールファクターを有することを特徴とする請求項２に記載の方法。

【請求項4】

前記第１の量子化関数と前記第２の量子化関数とは、互いに異なるオフセットを有することを特徴とする請求項３に記載の方法。

【請求項5】

前記ブレークポイントを配置するステップは、
前記量子化範囲の少なくとも一部に対する量子化エラーを決定するステップと、
前記量子化エラーを最小化するステップと、を含み、
前記ブレークポイントを配置するステップは、
ゼロ導関数（ｚｅｒｏｄｅｒｉｖａｔｉｖｅ）について解析的に（ａｎａｌｙｔｉｃａｌｌｙ）解決するステップと、
線形近似法で最適のブレークポイントを近似化するステップと、
グリッド（ｇｒｉｄ）の検索を行うステップと、の何れか１つ以上を含むことを特徴とする請求項１に記載の方法。

【請求項6】

前記量子化エラーを最小化するステップは、
前記ブレークポイントの位置の関数として、前記量子化エラーを定式化するステップと、
前記位置の関数の１次導関数を定式化するステップと、
前記１次導関数が０になるブレークポイントの値を決定するステップと、を含むことを特徴とする請求項５に記載の方法。

【請求項7】

前記１次導関数が０になるブレークポイントの値は、バイナリ探索を使用して決定されることを特徴とする請求項６に記載の方法。

【請求項8】

前記ブレークポイントの配置は、回帰を使用して近似化されることを特徴とする請求項５に記載の方法。

【請求項9】

前記量子化エラーは、グリッド検索を使用して最小化されることを特徴とする請求項５に記載の方法。

【請求項10】

前記ブレークポイントは、量子化値の密度と前記テンソルの値の密度とをマッチングさせるように配置されることを特徴とする請求項１に記載の方法。

【請求項11】

前記テンソルは、１つ以上の重み値を含むことを特徴とする請求項１に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、量子化に関し、より詳しくは、人工ニューラルネットワークのためのピースワイズ量子化（ｐｉｅｃｅｗｉｓｅｑｕａｎｔｉｚａｔｉｏｎ）方法とそのためのシステム及び人工ニューラルネットワーク装置に関する。

【背景技術】

【0002】

ディープニューラルネットワーク（ＤＮＮｓ：ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ）のような人工ニューラルネットワークは、イメージ分類及びオブジェクト検出などのような多様なマシンラーニングのタスクに使用される。ＤＮＮの正確度は、ネットワークの深さ、ネットワークの幅、イメージの解像度のような１つ以上のディメンションを拡張して向上させるが、これは計算の複雑性とメモリ要件が大きくなって、エネルギー消費及び実行時間が増加する。このような増加されたリソース要件のために、エンベデッドシステム及びモバイル装置のようなリソースが限られたアプリケーションにＤＮＮを利用することが困難になる。

【0003】

量子化技術は、精度一杯（ｆｕｌｌ－ｐｒｅｃｉｓｉｏｎ）の重み値及び活性化を低い精度（低いビット幅（ｂｉｔ－ｗｉｄｔｈ））の表現に変換することにより、ＤＮＮの資源要求を減少させるために使用することができる。例えば、人工ニューラルネットワークをトレーニングするうちに、一般的に使用される３２ビット浮動小数点数（ＦＰ３２：３２－ｂｉｔｆｌｏａｔｉｎｇ－ｐｏｉｎｔｎｕｍｂｅｒｓ）は、各数字を表すために使用される離散（ｄｉｓｃｒｅｔｅ）値の数を減少させる小さい８ビット整数（ＩＮＴ８：８－ｂｉｔｉｎｔｅｇｅｒｓ）に変換して量子化される。このような低いビット幅の数は、メモリでより少ない空間を占めており、これを処理するシステム（ハードウェア、ソフトウェア、又はそれらの組み合わせに関係なく）の複雑性、コスト、及び／又はエネルギー消費量を減少させることができる。しかし、量子化は、ＤＮＮの性能（正確度）を減少させる量子化エラーを引き起こすことがある。

【0004】

量子化エラーを最小化し、精度一杯のモデルの性能を維持するために、量子化されたＤＮＮは、量子化を考慮した学習（ｑｕａｎｔｉｚａｔｉｏｎ－ａｗａｒｅｔｒａｉｎｉｎｇ）を使用して、事前知識なしにトレーニングされる。他の方法で、事前トレーニングされた浮動小数点モデルは、量子化後に微調整される。しかし、２つの方法は、両方共利用プロセスを複雑にし、速度を低くし、トレーニングデータセット一杯にアクセスを要求する。

【0005】

いくつかのアプリケーションにおいて、ＩＮＴ８の数を有する均一な量子化を使用する学習後の量子化（ＰＴＱ：ｐｏｓｔ－ｔｒａｉｎｉｎｇｑｕａｎｔｉｚａｔｉｏｎ）は、略本来のＦＰ３２の事前学習済みモデルの性能を維持する。但し、一部のアプリケーションにおいて、８ビット量子化されたＤＮＮのリソース要件が相変わらず広く利用されるのには高すぎる場合がある。４ビットの均一なＰＴＱのような低いビット幅の技術は、ＤＮＮがより広い範囲のリソース限定アプリケーションに使用できるようにするが、低いビット幅の量子化は、収容することができないレベルに性能を低下させることがある。

【先行技術文献】

【特許文献】

【0006】

【文献】米国特許出願公開第２０１７／０３０８７８９号明細書

【文献】米国特許出願公開第２０１９／００４２９３５号明細書

【文献】米国特許出願公開第２０１７／０２０５７３６号明細書

【文献】欧州特許出願公開第０３５４３９１７号明細書

【文献】国際公開第２０１９／００６９７６号

【非特許文献】

【0007】

【文献】ＧＵＰＴＡ，Ｓｕｙｏｇｅｔａｌ．， “ＤｅｅｐＬｅａｒｎｉｎｇｗｉｔｈＬｉｍｉｔｅｄＮｕｍｅｒｉｃａｌＰｒｅｃｉｓｉｏｎ”，ａｒＸｉｖ：１５０２．０２５５１［ｃｓ．ＬＧ］，２０１５，ｐｇｓ．１－１０

【文献】ＪＡＣＯＢ，Ｂｅｎｏｉｔｅｔａｌ．，“ＱｕａｎｔｉｚａｔｉｏｎａｎｄＴｒａｉｎｉｎｇｏｆＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＥｆｆｉｃｉｅｎｔＩｎｔｅｇｅｒ－Ａｒｉｔｈｍｅｔｉｃ－ＯｎｌｙＩｎｆｅｒｅｎｃｅ”，ＴｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０１８，ｐｐ．２７０４－２７１３

【文献】ＪＡＩＮ，Ｓｈｕｂｈａｍｅｔａｌ．， “ＢｉＳｃａｌｅｄ－ＤＮＮＱｕａｎｔｉｚｉｎｇＬｏｎｇ－ｔａｉｌｅｄＤａｔａｓｔｒｕｃｔｕｒｅｓｗｉｔｈＴｗｏＳｃａｌｅＦａｃｔｏｒｓｆｏｒＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ”，２０１９５６ｔｈＡＣＭ／ＩＥＥＥＤｅｓｉｇｎＡｕｔｏｍａｔｉｏｎＣｏｎｆｅｒｅｎｃｅ（ＤＡＣ），２－６Ｊｕｎｅ２０１９

【文献】ＫＲＩＳＨＮＡＭＯＯＲＴＨＩ，Ｒａｇｈｕｒａｍａｎ， “Ｑｕａｎｔｉｚｉｎｇｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｅｆｆｉｃｉｅｎｔｉｎｆｅｒｅｎｃｅ：Ａｗｈｉｔｅｐａｐｅｒ”，ａｒＸｉｖ：１８０６．０８３４２［ｃｓ．ＬＧ］，２１Ｊｕｎ２０１８，ｐｇ．１－３６

【発明の概要】

【発明が解決しようとする課題】

【0008】

本発明は、上記従来の問題点に鑑みてなされたものであって、本発明の目的は、量子化エラーを最小化する人工ニューラルネットワークの量子化方法とシステム及び人工ニューラルネットワーク装置を提供することにある。

【課題を解決するための手段】

【0009】

上記目的を達成するためになされた本発明の一態様による人工ニューラルネットワークを量子化する方法は、前記人工ニューラルネットワークのテンソルに対する量子化範囲を第１の領域及び第２の領域に分割するステップと、前記第２の領域のテンソルの値とは別途に、前記第１の領域のテンソルの値を量子化するステップと、を有する。

【0010】

前記第１の領域のテンソルの値は、第１の量子化関数に基づいて量子化され、前記第２の領域のテンソルの値は、第２の量子化関数に基づいて量子化され得る。
前記第１及び第２の量子化関数は、異なる場合がある。
前記第１及び第２の量子化関数は、実質的に同一であり得る。
前記第１及び第２の量子化関数は、互いに異なるスケールファクターを有し得る。
前記第１及び第２の量子化関数は、互いに異なるオフセットを有し得る。
線形量子化は、前記第１の領域及び前記第２の領域のテンソルの値に適用され得る。
前記第１の領域は、正の部分及び負の部分を含み得る。
前記第２の領域は、正の部分及び負の部分を含み得る。
量子化の範囲は、テンソルの最小値から最大値まで拡張される。
量子化範囲を分割するステップは、前記第１の領域及び前記第２の領域に対するブレークポイント（ｂｒｅａｋｐｏｉｎｔ）を位置させるステップを含み得る。
前記ブレークポイントを位置させるステップは、前記量子化範囲の少なくとも一部に対する量子化エラーを決定するステップと、前記量子化エラーを実質的に最小化するステップと、を含み得る。
前記量子化エラーを最小化するステップは、前記ブレークポイントの位置の関数として量子化エラーを定式化するステップと、前記位置の関数の１次導関数（ｆｉｒｓｔｄｅｒｉｖａｔｉｖｅ）を定式化するステップと、前記１次導関数が実質的に０（ｚｅｒｏ）になるブレークポイントの値を決定するステップと、を含み得る。
前記１次導関数が実質的に０（ｚｅｒｏ）になるブレークポイントの値は、バイナリ探索を使用して決定され得る。
前記ブレークポイントの位置は、回帰（ｒｅｇｒｅｓｓｉｏｎ）を使用して近似化され得る。
前記量子化エラーは、グリッド検索を使用して実質的に最小化され得る。
前記ブレークポイントは、オフラインに位置し得る。
前記ブレークポイントは、オンラインに位置し得る。
前記ブレークポイントは、量子化範囲の中間点未満に制限され得る。
前記ブレークポイントは、量子化値の密度と前記テンソルの値の密度とをマッチングさせるように位置し得る。
前記テンソルは、第１及び第２の領域のうちの少なくとも１つで個別に量子化される少なくとも２つのチャンネルを含み得る。
前記テンソルは、第１及び第２の領域のうちの少なくとも１つで個別に量子化される少なくとも２つのグループを含み得る。
前記方法は、テンソルの量子化された値におけるバイアスを訂正するステップを更に含み得る。
前記テンソルは、１つ以上の重み値を含み得る。
前記テンソルは、１つ以上の活性化を含み得る。
前記人工ニューラルネットワークは、ディープニューラルネットワークを含み得る。
前記第１の領域及び第２の領域は重ならない場合がある。
前記テンソルは、学習後の値を含み得る。
前記テンソルの値は、トレーニングデータセットに応答して生成され、前記テンソルの量子化範囲は、前記トレーニングデータセット一杯にアクセスすることなく、又は全体トレーニングデータセットの一部のみにアクセスして分割され得る。

【0011】

上記目的を達成するためになされた本発明の一態様によるシステムは、プロシージャを実行するように構成されたプロセッサを備え、前記プロシージャは、人工ニューラルネットワークのテンソルに対する量子化範囲を第１の領域及び第２の領域に分割し、前記第２の領域のテンソルの値とは別途に、前記第１の領域のテンソルの値を量子化することを含む。

【0012】

前記プロセッサは、前記第１の領域及び前記第２の領域に対するブレークポイントを位置させることを含むプロシージャを実行するように、更に構成され得る。
前記プロセッサは、前記量子化範囲の少なくとも一部に対する量子化エラーを実質的に最小化することにより、前記ブレークポイントを位置させることを含むプロシージャを実行するように、更に構成され得る。

【0013】

上記目的を達成するためになされた本発明の一態様による人工ニューラルネットワーク装置は、量子化範囲の第１の領域に対する活性化と重み値積とを合算するように構成された第１のアキュムレータと、前記量子化範囲の第２の領域に対する活性化と重み値積とを合算するように構成された第２のアキュムレータと、前記第２の領域に対する活性化を合算するように構成された第３のアキュムレータと、を備える。

【0014】

前記第２の領域に対する活性化は、オフセットが掛けられる。
前記第１、第２、及び第３のアキュムレータは、専用のハードウェアで実装され得る。
前記第１、第２、及び第３のアキュムレータは、累積プロシージャを実行するように構成された１つ以上のプロセッサで実装され得る。

【発明の効果】

【0015】

本発明によると、量子化エラーを最小化するニューラルネットワークのためのピースワイズ量子化の方法及びシステムを提供することができる。

【図面の簡単な説明】

【0016】

【図1】トレーニングされたディープニューラルネットワークにおける重み値の分布の例を示すヒストグラム図である。

【図2】図１に示した重み値の４ビットの均一な学習後の量子化から量子化された値の分布を示す図である。

【図3】本発明の一実施形態によるピースワイズ線形学習後の量子化から量子化された値の分布を示す図である。

【図4】本発明の一実施形態によるピースワイズ量子化技術の他の例を示す図である。

【図5】本発明の一実施形態による人工ニューラルネットワークにおけるピースワイズ量子化された値を処理するための装置の一例を示す図である。

【図6】本発明の一実施形態によるコンピューティングシステムの一例を示す図である。

【発明を実施するための形態】

【0017】

以下、本発明を実施するための形態の具体例を、図面を参照しながら詳細に説明する。

【0018】

図面は、必ずしも縮尺通り図示したものではなく、類似する構造又は機能のエレメントは、一般的に図面全体に亘って例としての目的のために同じ参照符号で示される。図面は、本明細書に記述する多様な実施形態の説明を容易にするように示される。図面は、本明細書に記述する実施形態の全ての側面を説明せず、請求の範囲の範囲を限定しない。図面が不明瞭になることを防止するために、全てのコンポーネント、連結などが示されない可能性があり、全てのコンポーネントが参照符号を有するわけではない。しかし、コンポーネントの配置のパターンは、図面から容易に明らかになり得る。図面は、本明細書と共に本発明の実施形態を示し、詳しい説明と共に本発明の原理を説明する役割をする。

【0019】

いくつかの人工ニューラルネットワークにおいて、事前学習済みモデルにおける重み値及び活性化の分布は、ガウス（Ｇａｕｓｓｉａｎ）及び／又はラプラシアン（Ｌａｐｌａｃｉａｎ）関数によって近似される。図１は、トレーニングされたディープニューラルネットワーク（ＤＮＮ）における重み値の分布の例を示すヒストグラム図である。殆どの重み値は、０（ｚｅｒｏ）のまわりに群集（ｃｌｕｓｔｅｒ）され、一方、残りの重み値は、ロングテール（ｌｏｎｇｔａｉｌ）に広がる。

【0020】

図２は、図１に示した重み値の４ビットの均一な学習後の量子化（ＰＴＱ）から量子化された値（太いバーで図示する）の分布を示す図である。図２から明らかなように、均一な量子化技術は、重み値の不均一な分布にも拘らず、量子化範囲を均等に分割する。従って、特に低いビット幅の状況（ｒｅｇｉｍｅ）において、均一な量子化方式は、多数の小さなサイズを有する値に少なすぎる量子化レベルを割り当て、比較的（相対的に）少ない数の大きいサイズを有する値に比較的多すぎる量子化レベルを割り当てる。これは、例えば量子化エラーを増加させ、結果の正確度を低下させ、モデルの性能を低下させる。

【0021】

本発明の一実施形態による人工ニューラルネットワークにおいて、重み値のようなテンソル（ｔｅｎｓｏｒ）の量子化範囲は、個別に量子化される２つ以上の領域に分割される。例えば、ピースワイズ（ｐｉｅｃｅｗｉｓｅ）線形量子化技術は、学習後の重み値分布の量子化範囲を２つの重畳されない領域に分割して、図３に示すように各領域に均一の量子化を適用する。

【0022】

図３は、図１に示した重み値に適用される本発明の一実施形態によるピースワイズ線形の学習後の量子化から量子化された値（太いバーで示される）の分布を示す図である。図３のそれぞれの太いバーの高さは、その重み値で量子化された重み値のサンプルの個数を表す。

【0023】

量子化範囲［－ｔ、ｔ］は、それぞれ正の部分及び負の部分を有する２つの領域に分割される。第１の領域は、負の部分［－ｘ、０］及び正の部分［０、ｘ］を含む。第１の領域は、［－ｘ、０］∪［０、ｘ］又は代案的に［－ｘ、ｘ］として表される。第２の領域は、負の部分［－ｔ、－ｘ］及び正の部分［ｘ、ｔ］を含む。第２の領域は、［－ｔ、－ｘ］∪［ｘ、ｔ］として表される。便宜上、２つの領域のそれぞれの２つの部分は、また量子化範囲の４つの区間［－ｔ、－ｘ］、［－ｘ、０］、［０、ｘ］、及び［ｘ、ｔ］として集合的又は個別的に呼ばれる。

【0024】

第１の領域と第２の領域との間のブレークポイント（ｂｒｅａｋｐｏｉｎｔ）ｘは、－ｘ及びｘの破線で示され、２ビットの均一の量子化が各区間内で使用される。従って、各区間で４つの量子化された値が有り、全体の量子化範囲に対する総計１６個の量子化された値が有る。

【0025】

－ｘにおける太いバーは、２つの共存するバーを含む。１つは、区間［－ｔ、－ｘ］の上部に位置し、１つは、区間［－ｘ、０］の下部に位置する。同様に、０及びｘにおける太いバーは、それぞれ量子化範囲の隣接する区間（ピースワイズ）の終端に２つの共存するバーを含む。

【0026】

図３から明らかなように、量子化値は、［－ｘ、ｘ］領域（第１の領域）で、より稠密であり、ここで重み値の分布は更に稠密である。同様に、量子化値は、［－ｔ、－ｘ］∪［ｘ、ｔ］領域（第２の領域）では、それほど稠密ではなく、ここで重み値の分布はあまり稠密ではない。実装の詳細に依存して、２つの技術（ピースワイズ線形ＰＴＱ技術及び均一ＰＴＱ技術）の両方が量子化値の同一の数を使用するにも拘らず、この密度マッチングは、図３に示したピースワイズ線形ＰＴＱ技術が図２に示した均一ＰＴＱ技術よりも優れた性能（例えば、より低い量子化エラー）を提供することができる。

【0027】

なお、実装の詳細に依存して、本発明の実施形態によるピースワイズ量子化技術は、より高い速度、より低い消費電力、減少されたメモリ要件、ハードウェア及び／又はソフトウェアのより低い複雑性、及び／又はコスト、集積回路上の減少されたダイ領域、商用のハードウェアに対する変更が殆ど或いは全くない実施などのような１つ以上の追加的な利点を提供することができる。例えば、図２に示した均一な量子化方式は、４ビットの加算、乗算、累積などを要求する反面、図３に示したピースワイズ量子化技術は、より速く且つより効率的なパイプラインの少なくとも一部に対する２ビット演算だけを要求する。更に、実装の詳細に依存して、このような利点のうちの一部又は全部がトレーニングデータセット一杯にアクセスせずに実現される。

【0028】

一実施形態において、ピースワイズ量子化モデルの性能は、１つ以上の最適な位置に又は近くに配置される１つ以上のブレークポイント（例えば、図３の実施形態では、ｘ）の値に依存して量子化エラーを減らすか又は最小化される。本発明の実施形態は、また１つ以上の最適ブレークポイントを位置させるための技術を含む。この技術は、以下を含む。ブレークポイントの関数として量子化エラーを定式化し、ゼロ導関数（ｚｅｒｏｄｅｒｉｖａｔｉｖｅ）について解析的に（ａｎａｌｙｔｉｃａｌｌｙ）解決し、線形近似法で最適のブレークポイントを近似化し、及び／又はグリッド（ｇｒｉｄ）の検索を行う。これらの全ては、以下でより詳しく説明する。

【0029】

図３に示した実施形態は、本発明の実施形態に基づいて無数の方式に変更され、数多くのアプリケーションに使用されるように構成及び／又は適応される。可能な変更及び／又はアプリケーションの中の一部は、以下で説明する。

【0030】

一実施形態において、任意のビット幅が量子化範囲の任意の又は全ての領域及び／又はその領域の一部を量子化するのに使用される。人工ニューラルネットワークレイヤー内の異なるレイヤー及び／又はノードだけでなく、異なる領域及び／又はその領域の部分に対して異なるビット幅が使用される。

【0031】

一実施形態において、ピースワイズ量子化は、重み値、活性化（活性化関数の適用前後を含む）、及び量子化される任意の他のテンソル又は値を含む人工ニューラルネットワークの任意のテンソル又はテンソルの組み合わせに適用される。任意のテンソルは、符号付（ｓｉｇｎｅｄ）又は符号なし（ｕｎｓｉｇｎｅｄ）である。ピースワイズ量子化は、人工ニューラルネットワーク内の任意の位置における値の任意の分布を有する任意のテンソル又はテンソルの組み合わせに適用される。これは、例えば一般的にロングテールを有するガウス又はラプラシアン分布のような任意の一般的に鐘の形や正規分布を有するテンソルを含む。ピースワイズ量子化は、均一又は不均一、対称又は非対称などの値の分布を有するテンソルに適用される。

【0032】

一実施形態において、ピースワイズ量子化は、ディープニューラルネットワーク、コンボリューションニューラルネットワーク、フィードフォワードニューラルネットワークなどを含む任意のタイプの人工ニューラルネットワークに適用される。

【0033】

一実施形態において、ピースワイズ量子化は、均一又は線形及び非線形量子化、アフィン（ａｆｆｉｎｅ）又は非アフィン量子化などを含む任意の量子化関数、又はこれらの組み合わせと共に使用される。異なる量子化関数は、量子化範囲の異なる領域及び／又は領域の部分に対して使用される。ピースワイズ量子化は、レイヤー当たり（ｐｅｒ－ｌａｙｅｒ）、チャンネル当たり、グループ当たり、又はこれらの任意の変形又は組み合わせで適用される。

【0034】

一実施形態において、量子化範囲は、任意の数の領域及び／又はその部分に分割され、領域及び／又はその部分間に任意の数のブレークポイントを有する。領域及び／又はその部分は、対称又は非対称、均衡又は不均衡である。領域及び／又はその部分は、負の値のみ、正の値のみ、又はこれらの組み合わせを有する。量子化に使用される量子化範囲は、テンソルの全体（最小から最大まで）の値の範囲をカバーするか、又はテンソルの全体値の範囲の１つ以上の部分のみをカバーする。量子化の範囲は、重なるか若しくは重ならないか、隣接するか若しくは隣接しないか（接触されるか又は離隔されるか）、又はそれらの任意の組み合わせである領域及び／又はその領域の部分に分割される。実装の詳細に依存して、例えば、重ならない領域及び／又はその部分の使用は、本発明の実施形態によるピースワイズ量子化を使用するモデルの正確度を向上させる。

【0035】

一実施形態において、量子化は、量子化範囲の各領域又はその領域の部分に個別に適用される。一実施形態で、動作及び／又は装置は、１つ以上の領域又はその領域の部分で量子化を完全に又は部分的に結合するために、結合される。

【0036】

一実施形態において、ピースワイズ量子化は、オンライン（リアルタイムで）若しくはオフラインで、又はこれらの任意の組み合わせで実施される。ピースワイズ量子化は、トレーニング後、トレーニング前、初期トレーニング後の調整（ｔｕｎｉｎｇ）、若しくは再トレーニングのうち、量子化の認識トレーニングのうち、又はこれらの任意の組み合わせで実施される。一実施形態で、本発明の実施形態によるピースワイズ量子化は、テンソル値の分布を生成するのに使用されていた可能性があるトレーニングデータセット一杯（全て）にアクセスせずに実施される。一実施形態で、トレーニングデータセットの一部又は全部が使用される。例えば、トレーニングデータセットの小さな部分が活性化関数の範囲をプロファイリングするために使用される。

【0037】

一実施形態において、ピースワイズ量子化は、ハードウェア、ソフトウェア、又はこれらの任意の組み合わせで実装される。

【0038】

一実施形態において、ピースワイズ量子化は、量子化範囲の１つ以上の領域又はその領域の部分においてアフィン量子化で実装される。一実施形態で、アフィン量子化は、スケールファクター及びオフセット又は零点（ｚｅｒｏ－ｐｏｉｎｔ）のような量子化パラメータを含む。

【0039】

一実施形態において、量子化は、次のことを特徴とする。

【0040】

【数1】

【0041】

ここで、ｘ_ｑは量子化された出力値であり、ｘは入力浮動小数点値であり、ｘ_ｍｉｎは量子化領域の最小終端における浮動小数点値であり、Ｓは次によって与えられるスケールファクターである。

【0042】

【数2】

【0043】

ここで、ｘ_ｍａｘは量子化領域の最大終端における浮動小数点値であり、Ｎ_{ｌｅｖｅｌｓ}＝２^ｂであり、ｂは量子化に使用されるビット幅である。

【0044】

対称量子化の場合に、ｘ_ｍａｘは次のように与えられる。

【0045】

【数3】

【0046】

非対称量子化の場合に、ｘ_ｍａｘは次のように与えられる。

【0047】

【数4A】

【0048】

【数4B】

【0049】

ここで、ｘは入力浮動小数点値のアレイ（配列）である。

【0050】

本発明の実施形態は、量子化の任意の特定のタイプの使用に限定されないが、数学式１を参照して上述した例のようなアフィン量子化技術の使用は、実装の詳細に依存して、１つ以上の利点を提供する。これは、いくつかの代替的な実施技術を参照して理解される。例えば、量子化を実施するための１つの可能な技術は、数字の固定小数点表現を使用するものである。しかし、固定小数点数を使用すると、表現できる最も小さい数及び／又は最も大きい数に制限が有り、ブレークポイント及び／又はスケールファクターを選択するためのオプションに制限がある。このような制限は、モデル及び／又は結果の正確性を減少させる。例えば、固定小数点数の使用は、表現できる最小値及び／若しくは最大値、並びに／又はブレークポイント及び／若しくはスケールファクターを２^Ｎ（但し、Ｎは正又は負の整数）と同一である値に限定される。対照的に、数学式１を参照して上述した量子化技術の使用は、スケールファクター、オフセット又は零点、ブレークポイントなどに対する浮動小数点又は他のより柔軟な数値表現の使用を可能にし、より小さな数字、数字のより広い範囲などの表現を可能にする。実装の詳細に依存して、このようなファクターのうちのいずれかが、モデル及び／又は結果の正確性だけでなく、他の性能メトリック（ｍｅｔｒｉｃ）を改善する。

【0051】

数学式１を参照して上述した例のような量子化技術の更なる潜在的な利点は、重ならない量子化領域の実現を容易にする。例えば、一実施形態で、より大きな値のためにピースワイズ量子化領域の最小終端にｘ_ｍｉｎを位置させることにより、ｘ_ｍｉｎよりも小さな値で無駄になる量子化の解像度がなく、これは、もっと小さな値に対する別途の領域の一部として量子化される。

【0052】

図４は、本発明の一実施形態によるピースワイズ量子化技術の他の例を示す図である。図４の実施形態は、全体の量子化範囲［－ｔ、ｔ］（連続水平線で示される）内の重み値の浮動小数点表現が量子化範囲の４区間（ピースワイズ）［－ｔ、－ｘ］、［－ｘ、０］、［０、ｘ］、及び［ｘ、ｔ］で４つの異なる４ビット（ＩＮＴ４）の量子化された値にどのようにマッピングされるかを示している。

【0053】

一実施形態において、予想される量子化エラーを最小化することで、最適のブレークポイントが発見される。例えば、重み値のガウス分布及び２領域（各領域が正の部分と負の部分を有する）に分割された量子化範囲［－ｔ、ｔ］を有する実施形態で、重み値分布は、４つの区間［－ｔ、－ｘ］、［－ｘ、０］、［０、ｘ］、及び［ｘ、ｔ］に分割される。各区間は、浮動小数点の重み値の量子化された値を示すレベル（値）の数のＮ_{ｌｅｖｅｌｓ}を有する。ガウス確率密度関数（ＰＤＦ：ｐｒｏｂａｂｉｌｉｔｙｄｅｎｓｉｔｙｆｕｎｃｔｉｏｎ）は、次のように与えられる。

【0054】

【数5】

【0055】

そして、累積分布関数（ＣＤＦ：ｃｕｍｕｌａｔｉｖｅｄｉｓｔｒｉｂｕｔｉｏｎｆｕｎｃｔｉｏｎ）は、次のように与えられる。

【0056】

【数6】

【0057】

それにより、予想される量子化エラーは、次のように与えられる。

【0058】

【数7】

【0059】

ここで、Ｃは、次によって与えられた定数である。

【0060】

【数8】

【0061】

ここで、ｂは、量子化に使用されたビット幅である。

【0062】

数学式７の１次導関数は、次のように与えられる。

【0063】

【数9】

【0064】

０（ｚｅｒｏ）について解くと、最適のブレークポイントが提供される。

【0065】

は、次のように単調に（ｍｏｎｏｔｏｎｉｃａｌｌｙ）増加する。

【0066】

【数10】

【0067】

【数11】

【0068】

従って、固有の最適のブレークポイントｘ_ｏｐｔが次のように存在する。

【0069】

【数12】

【0070】

これは、量子化エラーを最小化する。

【0071】

実装の詳細に依存して、本発明の実施形態による区間均一（線形）量子化技術に対する量子化エラー

は、量子化レベルの同一の数を使用する均一量子化プロセス対する量子化エラーよりも小さい。例えば、本発明の実施形態による量子化範囲の４つの区間のそれぞれについて、４ビットの量子化を使用するピースワイズ量子化技術は、同一の量子化範囲に対する均一の６ビットの量子化を適用する一般的な量子化プロセスよりも、もっと少ない量子化エラーを有する。

【0072】

本発明の実施形態による最適のブレークポイントを位置させるために方程式

を解決する（又は解く）１つのアプローチは、例えば複雑度Ｏ（ｌｏｇｔ）を有するバイナリ検索を使用して、これを数値的に解決するものである。実装の詳細に依存して、このアプローチは、非常に正確な結果を提供し、例えば重み値を量子化する際に量子化がオフラインで遂行される実施に特に適している。

【0073】

本発明の実施形態による方程式

を解決するための他のアプローチは、Ｏ（１）の複雑度を有する線形回帰を使用して最適のブレークポイントを近似化するものである。例えば、これは正規化された量子化範囲［－ｔ、ｔ］を推定するために重み値（又は他のテンソル）の標準偏差に対する最大値を先ず決定することにより達成される。その次に、バイナリ検索は、正規化された量子化範囲に基づいて、最適のブレークポイントを見つけるために使用される。その後、バイナリ検索結果を使用して１つ以上の最適のブレークポイントに対する線形近似値を見つける。一実施形態で、ガウス重み値分布と小さな変化（摂動、ｐｅｒｔｕｒｂａｔｉｏｎ）

に対する大略的な最適のブレークポイントの値ｘ_ａｐｐは、次の式を使用して、このような近似を介して決定される。

【0074】

【数13】

【0075】

実装の詳細に依存して、ワンショット（ｏｎｅ－ｓｈｏｔ）のアプローチとして考慮されるこのアプローチは、量子化エラーの低下が殆ど発生せずに、最適のブレークポイントを決定するために必要な時間を減らすことができる。従って、近似化のアプローチは、活性化のようなオンライン又はオンザフライ（ｏｎ－ｔｈｅ－ｆｌｙ）の量子化を使用する実装に有利である。このアプローチは、ガウス以外の分布と共に使用される。例えば、ラプラシアン分布でｘ_ａｐｐの値は、次のように決定される。

【0076】

【数14】

【0077】

ここで、このような分布は、正規化される。

【0078】

本発明の実施形態による方程式

を解決するための他のアプローチは、粗密グリッド探索（ｃｏａｒｓｅ－ｔｏ－ｆｉｎｅｇｒｉｄｓｅａｒｃｈ）を使用するものであり、これは、テンソル値の分布に関するいかなる仮定も要求しない。一実施形態で、３段階のグリッド探索は、量子化エラーを最小化するために、テンソルの最大値に対する最適のブレークポイントの割合を探索するために、以下の段階を使用する。即ち、
段階１：ｎｐ．ａｒａｎｇｅ（０．１、１．０、０．１）で最上の割合ｒ１を検索
段階２：ｎｐ．ａｒａｎｇｅ（ｒ１－０．０５、ｒ１＋０．０５、０．０１）で最上の割合ｒ２を検索
段階３：ｎｐ．ａｒａｎｇｅ（ｒ２－０．００５、ｒ１＋０．００５、０．００１）で最上の割合ｒ３を検索
ここで、ｎｐはナンパイ（ＮｕｍＰｙ）演算子である。

【0079】

実装の詳細に依存して、グリッド探索のアプローチは、非常に正確な結果を提供し、量子化がオフラインで遂行する実装に特に適している。粗密グリッド探索のアプローチの潜在的な利点は、テンソル値の分布に関する特定の知識及び／又は仮定に対する必要がなくても量子化エラーを直接減少及び／又は最小化することができるというものである。

【0080】

表１は、本発明の実施形態によるブレークポイントを見つけるために粗密グリッド探索を実施するためのいくつかの擬似コード（ｐｓｅｕｄｏｃｏｄｅ）を示す。

【0081】

【表1】

【0082】

一実施形態において、本発明の実施形態による一般的に鐘型の分布を有するテンソルのピースワイズ量子化のためのブレークポイントを位置させる場合、値の最も高い密度は、一般的に０（ｚｅｒｏ）の周りに群集（ｃｌｕｓｔｅｒ）される。従って、ブレークポイントを量子化範囲の中間地点未満（例えば、ｘ_ｏｐｔ＜ｔ／２）に制限することが有利であり、これは量子化エラーを減らすか又は最小化してブレークポイントを配置する解析技術、検索技術，及び／又は他の技術を使用して最適なブレークポイントを見つけることに有用である。一実施形態で、量子化エラーは、全体の量子化範囲に対する量子化エラーを評価することにより、減少されるか又は最小化される。他の実施形態で、量子化エラーは、量子化範囲の部分及び／又は範囲が分割される区間（ピースワイズ）及び／又は領域の全部又は一部に対する量子化エラーを評価することにより、減少されるか又は最小化される。

【0083】

上述したように、量子化の範囲は、任意の数の領域及び／又はその領域の部分に分割され、領域及び／又はその領域の部分間に任意の数のブレークポイントを有する。多数のブレークポイントを有する実施形態では、上述した任意の技術は、１つ以上の最適のブレークポイントの値を見つけるために拡張される。例えば、一実施形態で、多数の最適なブレークポイント値は、多数のブレークポイントに適用される上記数学式７で与えられて予想された量子化エラーを最小化することにより、決定される。別の例として、粗密グリッド探索は、また多数のブレークポイントを位置させるために拡張される。一実施形態で、最適のブレークポイントの数及び／又は位置を決定することは、多様な考慮事項の均衡をとることを含む。例えば、実装の詳細に依存して、多数のブレークポイントを使用すると、正確度が大幅に向上する。しかし、他の実装において、多数のブレークポイントによって提供される正確度の改善は、追加的なブレークポイントを実現するために必要とする余分のハードウェア及び／又はソフトウェアの実行時間よりもそれほど重要ではない場合もある。

【0084】

本発明の実施形態による原理が１つ以上の最適化されたブレークポイントを見つけるために任意の特定の技術の使用を必要としないにも拘らず、本明細書に記載した任意の解析、近似、及び／又は検索の技術は、より容易に分析可能であり、拡張可能であり、そして／又は強力な解決策を提供することができる。

【0085】

一実施形態において、ピースワイズ量子化は、本発明の実施形態による専用のハードウェアで実装される。ハードウェア実装で、ピースワイズ量子化はテンソルの範囲を２つ以上の領域に分割し、それぞれの領域は、例えば異なるスケーリングファクター及び／又はオフセットを収容するために別の計算経路で実装される。図３に示したようなピースワイズ線形量子化を実現する実施形態で、ハードウェアの実施は、各領域及び／又はその領域の部分（例えば、量子化範囲の区間（ピースワイズ）に）内で均一の量子化に使用されるものに類似する一部のハードウェアを含むが、区間配置（ａｒｒａｎｇｅｍｅｎｔ）を収容するために、いくつかの装置を追加する。例えば、それぞれの区間内の均一の量子化は、２つのアキュムレータ（ａｃｃｕｍｕｌａｔｏｒ）で実装される。即ち、第１のアキュムレータは活性化及びテンソル（例えば、重み値）積（ｐｒｏｄｕｃｔ）を実行し、第２のアキュムレータは活性化を合算する。１つの追加のアキュムレータが、０（ｚｅｒｏ）からオフセットになる区間又は領域で（例えば、領域２で）０（ｚｅｒｏ）ではないオフセットが掛けられる活性化を合算するために含まれる。

【0086】

従って、一実施形態において、本発明の実施形態によるピースワイズ量子化技術のハードウェア実装は、次の中から任意のもの又はその両方を含む。即ち、均一の量子化に使用されるものに類似する加算器及び乗算器、３つの累積レジスタ（第１及び第２の累積レジスタは２つの計算経路のそれぞれにある積の合算のために、第３の累積レジスタは０（ｚｅｒｏ）以外のオフセットを処理する経路で活性化のために）、及びテンソル当たりのストレージの１つ又は２つの余分なビット（１つは符号を表し、１つはテンソル値が量子化された領域）を表す。符号を表すビットは、符号なし（ｕｎｓｉｇｎｅｄ）の値を有する実装に含まれない。領域を表すビットは、適切なアキュムレータを探している場合にのみ使用されるため、積和演算（ＭＡＣ：ｍｕｌｔｉｐｌｙ－ａｃｃｕｍｕｌａｔｅｃｏｍｐｕｔａｔｉｏｎｓ）に含まれない。従って、一実施形態で、本発明の実施形態によるピースワイズ量子化技術のハードウェア実装は、商用のハードウェアに対する最小限の修正で実現される。

【0087】

図５は、本発明の一実施形態による人工ニューラルネットワークにおけるピースワイズ量子化された値を処理するための装置の一例を示す図である。図５の実施形態で、重み値バッファ１１２は、４ビットの量子化された重み値の列を含み、これらのそれぞれは、領域１（灰色）又は領域２（白色）で量子化されたか否かを示すインデックスビットを伴う。任意の数の列が複数の値の並列処理を提供するために使用され、列は任意の適切なディープを有する。この例で、列は９の重み値のディープである。ローカル入力特徴マップ（ＩＦＭ：ｉｎｐｕｔｆｅａｔｕｒｅｍａｐ）キュー１１０は、４ビットの量子化された値（ｉｆｍ＿ｖａｌｕｅ）のストリームを提供し、これらのそれぞれは、最上位ニブル（ｎｉｂｂｌｅ）／最下位ニブルビット（ｉｆｍ＿ＭＳＮ／ＬＳＮ）を伴って、それがどの領域に関連するかを表す。ローカルＩＦＭキュー１１０で、それぞれの値（ｉｆｍ＿ｖａｌｕｅ）に関連するＩＦＭインデックス（ｉｆｍ＿ｉｄｘ）は、セレクター１１４（この例では、１－ｏｆ－９セレクター）を使用して４ビット乗算器１１６によって、ローカルＩＦＭキュー１１０から、その値（ｉｆｍ＿ｖａｌｕｅ）に掛けられる重み値のブリック１２０（ｂｒｉｃｋ）を選択する。部分積は、ｉｆｍ＿ＭＳＮ／ＬＳＮビットの状態に応じてシフトレジスタ１１８で４ビットほどの部分がシフトされる。従って、重み値のそれぞれのブリック１２０は、ＩＦＭインデックス（ｉｆｍ＿ｉｄｘ）及びニブルビット（ｉｆｍ＿ＭＳＮ／ＬＳＮ）の値の対応するセット１２２に関連する。それぞれの列に関連するオフセット加算器ツリー１２４は、対応する列の重み値が領域２に属する場合に活性化を合算する。図５に示した例としての状態で、第１の列は、第１の領域に関連付けられる。従って、第１の列に対する対応するオフセット加算器ツリー１２４は、×で示したように非活性化される。対照的に、第２及び最後の列は、第２の領域に関連付けられ、従って第２及び最終列に対する対応するオフセット加算器ツリー１２４は、〇で表示したように活性化される。

【0088】

ピースワイズ量子化に関する本発明の実施形態は、他の量子化技術に結合され、これにより相乗的な結果を生成する追加の実施形態を生成することができる。例えば、ピースワイズ均一（線形）量子化を実施する実形態は、量子化範囲の個別的又は集合的に各区間内でバイアス補正を実現する。このような実施形態において、テンソルの量子化された値で、バイアスは、例えば１つ以上の補正項を量子化範囲の１つ以上の区間に対するスケール及び／又はオフセットにフォールディング（ｆｏｌｄｉｎｇ）することにより補正される。実装の詳細に依存して、ピースワイズ量子化バイアス補正の組み合わせは、量子化エラーを更に減少させ、それが実装される人工ニューラルネットワークの性能を改善することができる。

【0089】

別の例として、本発明の実施形態によるピースワイズ均一（線形）量子化を実装する実施形態は、量子化範囲の区間の中のいずれか１つ以上に対して出力チャンネルフィルター当たりの個別の量子化を適用する。この技術は、本発明の実施形態に基づいて１つ以上の出力チャンネルのフィルターを量子化範囲の１つ以上の区間に対して個別に量子化される１つ以上のグループに分解するように更に拡張される。実装の詳細に依存して、チャンネル当たり及び／又はグループ当たりのピースワイズ量子化の組み合わせは、量子化エラーを更に減少させ、人工ニューラルネットワークの性能をより向上させることができる。一実施形態で、１つのグループから他のグループに変更することはスケールファクターを変更することを含む。実装の詳細に依存して、チャンネル当たり（又はチャネル単位で）のピースワイズ量子化を適用すると、レイヤー当たり（又はレイヤー単位で）の実装に比べて正確度が向上する。

【0090】

本発明の実施形態による方法及び／又は装置のうちの任意のもの又は全ては、人工ニューラルネットワークを使用する任意のアプリケーションに使用される。例として、本発明の実施形態によるピースワイズ量子化を実施する人工ニューラルネットワークは、イメージ分類、顔認識、音声認識、セマンティックセグメンテーション（ｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ）、自律走行、ロボット制御、及びその他のアプリケーションのためのピースワイズ量子化を実装する人工ニューラルネットワークを使用するように構成される装置を含むモバイルコンピューティング、モノのインターネット（ＩＯＴ）、及び／又はエンベデッドアプリケーションのための装置に利用される。本発明の実施形態によるピースワイズ量子化を実装する人工ニューラルネットワークは、またデスクトップ／ワークステーションのアプリケーション、サーバ、ハイパースケールのデータセンターを含むデータセンターなどに利用される。

【0091】

図６は、本発明の一実施形態によるコンピューティングシステムの一例を示す図である。図６のシステム１５０は、本発明の実施形態による方法及び／又は装置のうちの任意のもの又は全部を実装するために使用される。システム１５０は、中央処理装置１５２（ＣＰＵ）、ユーザーインターフェース１５４、ネットワークインターフェース１５６、メモリ１５８、ストレージ１６０、ＧＰＵ１６２、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）１５７、及びＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）１６３を含む。しかし、本発明の実施形態に基づいて、図６に示した任意のコンポーネントとしての実装に限定されず、任意の適切なハードウェア、ソフトウェア、又はこれらの組み合わせで実装され得る。異なる実施形態で、システムは、これらのコンポーネントの中のいずれか１つを省略したり、本発明の実施形態による方法及び／又は装置のうちの任意のものを実装したりするための任意の他のタイプのコンポーネントだけでなく、任意の重複又は任意の数の任意のコンポーネントを含み得る。

【0092】

ＣＰＵ１５２は、任意の数のコア、キャッシュ、バス及び／又はインターコネクトインターフェース及び／又はコントローラを含む。メモリ１５８は、ＤＲＡＭ及び／又はＳＲＡＭ、不揮発性メモリ（例えば、フラッシュメモリ）などの任意の配列を含む。ストレージ１６０は、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、及び／又はデータストレージ装置の任意の他のタイプ又はこれらの任意の組み合わせを含む。ユーザーインターフェース１５４は、キーボード、マウス、モニター、ビデオキャプチャー又は伝送装置、マイク、スピーカー、タッチスクリーンのような任意のタイプのヒューマンインターフェース装置だけでなく、そのような装置の任意の仮想化又はリモートバージョンを含む。ネットワークインターフェース１５６は、イーサネット、Ｗｉ－Ｆｉ、ブルートゥース（登録商標）又は任意の他のコンピュータのネットワーキング構成を介して通信するための１つ以上のアダプター又は他の装置を含み、コンポーネントがイントラネット、インターネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などのような物理的及び／又は論理的なネットワークを通じて通信できるようにする。ＧＰＵ１６２、ＦＰＧＡ１５７、及びＡＳＩＣ１６３は、本発明の実施形態による量子化及び／又は他のニューラルネットワークプロセッシングの中の任意のもの又は全てを効率的に実装するように構成するプログラム可能なＭＡＣ（ｍｕｌｔｉｐｌｙ－ａｃｃｕｍｕｌａｔｅｃｏｍｐｕｔａｔｉｏｎｓ）のハードウェアのような専用のハードウェアを含む。

【0093】

システム１５０の任意の又は全てのコンポーネントは、システムバス１６４を介して相互連結される。システムバス１６４は、電力バス、アドレス及びデータバス、ＳＡＴＡ（ＳｅｒｉａｌＡＴＡｔｔａｃｈｍｅｎｔ）、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）、ＰＣＩ－ｅ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔＥｘｐｒｅｓｓ）、ＳＭＢ（ＳｙｓｔｅｍＭａｎａｇｅｍｅｎｔＢｕｓ）、及びコンポーネントをある場所からローカルに及び／又は異なる場所の間に分散されて動作する他のタイプのインターフェースのような高速インターコネクトを含む多様なインターフェースを通称する。

【0094】

システム１５０は、また多様なチップセット、インターフェース、アダプター、グルーロジック、プログラム可能な又はプログラム可能でないロジック装置、又はアレイのようなエンベデッドコントローラ、ＡＳＩＣ、エンベデッドコンピュータ、スマートカードなどを含み、システム１５０の多様なコンポーネントが、本発明の実施形態による方法及び／又は装置のうちの任意のもの又は全部を実装するために共に作動するようにする。システム１５０の任意のコンポーネントは、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組み合わせで実装される。一実施形態で、任意の又は全てのコンポーネントは、仮想化された形態及び／又は、例えばデータセンター内で又は多数のデータセンターに分散されて、リソースの柔軟なプロビジョニングを有するクラウドベースの実装で実行される。

【0095】

本発明の実施形態による方法又はアルゴリズム及び機能の部分又はステップは、システム１５０を含むハードウェアやプロセッサによって実行される１つ以上のソフトウェアモジュール又はその２つの組み合わせで直接具現化される。ソフトウェアで実行される場合に、機能は、タンジブル（Ｔａｎｇｉｂｌｅ）、非一時的コンピュータ読み取り可能な記録媒体上に１つ以上の命令語又はコードとして格納又は伝送される。ソフトウェアモジュールは、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＥＰＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ－ＲＯＭ、又は他の形態のストレージ媒体で有る。本発明の実施形態による任意のシステム又はそのコンポーネント又は一部は、より大きなシステムのソフトウェアスタックの一部として実装される。本発明の実施形態による任意のシステム又はそのコンポーネント又は一部は、ソフトウェアスタックそのものとして実装される。

【0096】

上述した実施形態は、多様な実装の詳細のコンテキストで説明したが、本発明の実施形態は、これら又は他の任意の特定の詳細に限定されない。例えば、一部の機能は、特定のコンポーネントによって実装されるものとして説明したが、他の実施形態で、機能は、異なる位置において存在し、多様なユーザーインターフェースを有するコンポーネントと異なるシステムとの間に分散される。特定の実施形態は、特定のプロセスやステップなどを有するものとして説明したが、このような用語は、また特定のプロセス、ステップなど、又は多数のプロセス、多数のステップなどで実装されるか、又は単一のプロセス、単一のステップなどに集積される実施形態を含む。また、コンポーネント又はエレメントへの参照は、コンポーネント又はエレメントの一部のみを指すことがある。

【0097】

本明細書及び請求の範囲において、「第１の」及び「第２の」のような用語の使用は、これらが指すことを区別するためのものだけであり、文脈上明らかに別の意味を示していると判定されない限り、任意の空間的又は時間的順序を示さない場合がある。第１のものに対する言及は、第２のものの存在を意味しない場合もある。

【0098】

以上、本発明の実施形態について図面を参照しながら詳細に説明したが、本発は、上述の実施形態に限定されるものではなく、本発明の技術的思想から逸脱しない範囲内で多様に変更実施することが可能である。

【符号の説明】

【0099】

１１０ローカルＩＦＭ（入力特徴マップ）キュー
１１２重み値バッファ
１１４セレクター
１１６４ビット乗算器
１１８シフトレジスタ
１２０ブリック（ｂｒｉｃｋ）
１２２セット
１２４オフセット加算器ツリー
１５０システム
１５２中央処理装置
１５４ユーザーインターフェース
１５６ネットワークインターフェース
１５７ＦＰＧＡ
１５８メモリ
１６０ストレージ
１６２ＧＰＵ
１６３ＡＳＩＣ

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版