特表2024-533118 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2024-533118異なる精度によるビットごとの乗算のための混合信号回路

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3A
3B
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-09-12

(54)【発明の名称】異なる精度によるビットごとの乗算のための混合信号回路

(51)【国際特許分類】

G06G 7/60 20060101AFI20240905BHJP

G06F 17/10 20060101ALI20240905BHJP

G06N 3/063 20230101ALI20240905BHJP

G06G 7/16 20060101ALI20240905BHJP

G06G 7/14 20060101ALI20240905BHJP

G06G 7/184 20060101ALI20240905BHJP

【ＦＩ】

G06G7/60

G06F17/10 S

G06N3/063

G06G7/16

G06G7/14

G06G7/184

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024513738

(86)(22)【出願日】2022-09-13

(85)【翻訳文提出日】2024-02-29

(86)【国際出願番号】 IB2022058613

(87)【国際公開番号】W WO2023042068

(87)【国際公開日】2023-03-23

(31)【優先権主張番号】17/474,843

(32)【優先日】2021-09-14

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(74)【代理人】

【識別番号】100120710

【弁理士】

【氏名又は名称】片岡忠彦

(72)【発明者】

【氏名】アグラワル、アンクル

(72)【発明者】

【氏名】カン、ミング

(72)【発明者】

【氏名】キム、キュ－ヒョン

(72)【発明者】

【氏名】カー、モノディープ

【テーマコード（参考）】

5B056

【Ｆターム（参考）】

5B056BB71

(57)【要約】

装置は少なくとも１つのプロセッサと、命令コードを含む少なくとも１つのメモリとを含み、この命令コードは、少なくとも１つのプロセッサによって、第１および第２のデジタル入力のビットごとの乗算の第１の部分を第１の精度で行うことと、ビットごとの乗算の少なくとも第２の部分を第１の精度とは異なる第２の精度で行うこととを装置に少なくとも行わせるように構成される。
【選択図】図７

【特許請求の範囲】

【請求項1】

少なくとも１つのプロセッサと、
命令コードを含む少なくとも１つのメモリとを含む装置であって、
前記少なくとも１つのメモリおよび前記命令コードが、前記少なくとも１つのプロセッサによって、
第１および第２のデジタル入力のビットごとの乗算の第１の部分を、第１の精度で行うことと、
前記第１および第２のデジタル入力の前記ビットごとの乗算の少なくとも第２の部分を、前記第１の精度とは異なる第２の精度で行うことと
を前記装置に少なくとも行わせるように構成される、装置。

【請求項2】

前記第１および第２のデジタル入力の前記ビットごとの乗算が、前記第１および第２のデジタル入力のビットごとのドット積の重み付きの和のセットの計算を含み、前記第１および第２のデジタル入力の前記ビットごとの乗算の前記第１の部分が、前記第１および第２のデジタル入力の前記ビットごとのドット積の前記重み付きの和のセットの第１のサブセットを含み、前記第１および第２のデジタル入力の前記ビットごとの乗算の前記第２の部分が、前記第１および第２のデジタル入力の前記ビットごとのドット積の前記重み付きの和のセットの第２のサブセットを含む、請求項１に記載の装置。

【請求項3】

前記第１および第２のデジタル入力の前記ビットごとのドット積の前記重み付きの和のセットが、前記第１および第２のデジタル入力の前記ビットごとのドット積のｎの重み付きの和を含み、前記第１の精度で行われる前記ビットごとの乗算の前記第１の部分が、前記第１および第２のデジタル入力の前記ビットごとのドット積のｋの最高の重み付きの和の計算を含み、前記第２の精度で行われる前記ビットごとの乗算の前記第２の部分が、前記第１および第２のデジタル入力の前記ビットごとのドット積の残りｎ－ｋの重み付きの和の少なくとも一部分の計算を含む、請求項２に記載の装置。

【請求項4】

ｋの値が、前記第１および第２のデジタル入力の前記ビットごとの乗算の異なる項の付加ノイズ寄与の決定に少なくとも部分的に基づいて選択される、請求項３に記載の装置。

【請求項5】

前記第１および第２のデジタル入力の前記ビットごとの乗算が、ビットごとのドット積総和ユニットのセットのうちの１つを用いて計算され、前記第１の精度が、前記第１および第２のデジタル入力の前記ビットごとの乗算の前記第１の部分を行う前記ビットごとのドット積総和ユニットのセットの第１のサブセットに対する第１のタイプのハードウェアを用いて提供され、前記第２の精度が、前記第１および第２のデジタル入力の前記ビットごとの乗算の前記第２の部分を行う前記ビットごとのドット積総和ユニットのセットの第２のサブセットに対する、前記第１のタイプのハードウェアとは異なる第２のタイプのハードウェアを用いて提供される、請求項１に記載の装置。

【請求項6】

前記ビットごとのドット積総和ユニットのセットの各々がポップカウンタを含み、前記ビットごとのドット積総和ユニットのセットの前記第１のサブセットの前記ポップカウンタが第１の分解能を有し、前記ビットごとのドット積総和ユニットのセットの前記第２のサブセットの前記ポップカウンタが前記第１の分解能とは異なる第２の分解能を有する、請求項５に記載の装置。

【請求項7】

前記ビットごとのドット積総和ユニットのセットの各々が、コンパレータを含む逐次近似レジスタ・アナログ・デジタル・コンバータを使用して実装されるポップカウンタを含み、前記ビットごとのドット積総和回路の２つ以上のインスタンスのセットの前記第１のサブセットの前記逐次近似レジスタ・アナログ・デジタル・コンバータ回路において使用される第１のタイプのコンパレータが、前記ビットごとのドット積総和回路の前記２つ以上のインスタンスのセットの前記第２のサブセットの前記逐次近似レジスタ・アナログ・デジタル・コンバータ回路において使用される第２のタイプのコンパレータとは異なる、請求項５に記載の装置。

【請求項8】

前記第１のタイプのコンパレータが第１のノイズ・プロファイルを有し、かつ前記第２のタイプのコンパレータが前記第１のノイズ・プロファイルとは異なる第２のノイズ・プロファイルを有すること、および
前記第１のタイプのコンパレータが第１のオフセット・キャンセル精度を有し、かつ前記第２のタイプのコンパレータが前記第１のオフセット・キャンセル精度とは異なる第２のオフセット・キャンセル精度を有すること
のうちの少なくとも一方である、請求項７に記載の装置。

【請求項9】

前記ビットごとのドット積総和ユニットのセットの各々が、複数のコンデンサを含む逐次近似レジスタ・アナログ・デジタル・コンバータを使用して実装されるポップカウンタを含み、前記ビットごとのドット積総和ユニットのセットの前記第１のサブセットの前記逐次近似レジスタ・アナログ・デジタル・コンバータにおいて使用される前記複数のコンデンサがそれぞれの第１のサイズを有し、前記ビットごとのドット積総和ユニットのセットの前記第２のサブセットの前記逐次近似レジスタ・アナログ・デジタル・コンバータにおいて使用される前記複数のコンデンサが前記第１のサイズとは異なるそれぞれの第２のサイズを有する、請求項５に記載の装置。

【請求項10】

前記ビットごとのドット積総和ユニットのセットの各々が、複数のコンデンサを各々含む逐次近似レジスタ・アナログ・デジタル・コンバータを使用して実装される１つ以上のポップカウンタを含み、前記ビットごとのドット積総和ユニットのセットの前記第１のサブセットが、第１の数の入力を合計する複数の追加のコンデンサに結合された前記逐次近似レジスタ・アナログ・デジタル・コンバータの単一のインスタンスを含み、前記ビットごとのドット積総和ユニットのセットの前記第２のサブセットの各々が、前記第１の数の入力よりも少ない第２の数の入力を各々合計する前記逐次近似レジスタ・アナログ・デジタル・コンバータの２つ以上のインスタンスを含む、請求項５に記載の装置。

【請求項11】

第１および第２のデジタル入力のビットごとの乗算の第１の部分を第１の精度で行うステップと、
前記第１および第２のデジタル入力の前記ビットごとの乗算の少なくとも第２の部分を前記第１の精度とは異なる第２の精度で行うステップとを含む方法であって、
前記方法が、命令コードを実行するように構成された処理回路によって実行される、方法。

【請求項12】

【請求項13】

実行可能な命令コードが具現化された非一時的コンピュータ可読記憶媒体を含む製造物であって、前記実行可能な命令コードがプロセッサによって実行されるときに、
第１および第２のデジタル入力のビットごとの乗算の第１の部分を第１の精度で行うステップと、
前記第１および第２のデジタル入力の前記ビットごとの乗算の少なくとも第２の部分を前記第１の精度とは異なる第２の精度で行うステップと
を前記プロセッサに行わせる、製造物。

【請求項14】

【請求項15】

第１および第２のベクトルのバイナリ乗算を行うように構成された積和ユニットを含むシステムであって、
前記積和ユニットが、前記第１および第２のベクトルの一部分のビットごとの乗算を行ってデジタル出力を生成するように各々構成された２つ以上のビットごとのドット積総和ユニットのセットを含み、前記第１および第２のベクトルの前記ビットごとの乗算が、前記第１および第２のベクトルのビットごとのドット積の重み付きの和のセットの計算を含み、
前記２つ以上のビットごとのドット積総和ユニットのセットの各々のビットごとのドット積総和ユニットが、逐次近似レジスタ・アナログ・デジタル・コンバータ・ユニットのインスタンスに結合されたビットごとのドット積総和ユニットの少なくとも１つのインスタンスを含み、前記逐次近似レジスタ・アナログ・デジタル・コンバータ・ユニットが、前記ドット積総和ユニットのアナログ出力を前記デジタル出力の少なくとも一部分に変換するように構成され、
第１の精度を有する前記２つ以上のビットごとのドット積総和ユニットのセットの第１のサブセットが、前記第１および第２のベクトルの前記ビットごとの乗算の第１の部分を計算するために使用され、前記第１の精度とは異なる第２の精度を有する前記２つ以上のビットごとのドット積総和ユニットのセットの第２のサブセットが、前記第１および第２のベクトルの前記ビットごとの乗算の第２の部分を計算するために使用される、システム。

【請求項16】

前記第１および第２のベクトルの前記ビットごとの乗算が、前記第１および第２のベクトルのビットごとのドット積の重み付きの和のセットの計算を含み、前記第１および第２のベクトルの前記ビットごとの乗算の前記第１の部分が、前記第１および第２のベクトルの前記ビットごとのドット積の前記重み付きの和のセットの第１のサブセットを含み、前記第１および第２のベクトルの前記ビットごとの乗算の前記第２の部分が、前記第１および第２のベクトルの前記ビットごとのドット積の前記重み付きの和のセットの第２のサブセットを含む、請求項１５に記載のシステム。

【請求項17】

前記システムが人工知能システムの一部として実装される、請求項１５に記載のシステム。

【請求項18】

前記システムが１つ以上の集積回路の一部として実装される、請求項１５に記載のシステム。

【請求項19】

第１および第２のベクトルのバイナリ乗算を行うように構成された積和回路を含むデバイスであって、
前記積和回路が、前記第１および第２のベクトルの一部分のビットごとの乗算を行ってデジタル出力を生成するように各々構成されたビットごとのドット積総和回路の２つ以上のインスタンスのセットを含み、
前記ビットごとのドット積総和回路の前記２つ以上のインスタンスのセットの前記ビットごとのドット積総和回路の各インスタンスが、逐次近似レジスタ・アナログ・デジタル・コンバータ回路の少なくとも１つのインスタンスに結合されたビットごとのドット積計算回路の少なくとも１つのインスタンスを含み、前記逐次近似レジスタ・アナログ・デジタル・コンバータ回路が、前記ビットごとのドット積計算回路のアナログ出力を前記デジタル出力の少なくとも一部分に変換するように構成され、
第１の精度を有する前記ビットごとのドット積総和回路の前記２つ以上のインスタンスのセットの第１のサブセットが、前記第１および第２のベクトルの前記ビットごとの乗算の第１の部分を計算するために使用され、前記第１の精度とは異なる第２の精度を有する前記ビットごとのドット積総和回路の前記２つ以上のインスタンスのセットの第２のサブセットが、前記第１および第２のベクトルの前記ビットごとの乗算の第２の部分を計算するために使用される、デバイス。

【請求項20】

【請求項21】

前記ビットごとのドット積総和回路の前記２つ以上のインスタンスのセットの前記第１のサブセットが第１の分解能を有し、前記ビットごとのドット積総和回路の前記２つ以上のインスタンスの前記第２のサブセットが前記第１の分解能とは異なる第２の分解能を有する、請求項１９に記載のデバイス。

【請求項22】

前記ビットごとのドット積総和回路の前記２つ以上のインスタンスのセットの各々が複数の論理ＡＮＤゲートを含み、前記複数の論理ＡＮＤゲートの各々が入力として前記第１のベクトルの第１のベクトル要素と、前記第２のベクトルの第２のベクトル要素とを受信し、前記複数の論理ＡＮＤゲートのそれぞれの出力が複数のコンデンサの第１のプレートに結合され、前記ビットごとのドット積総和回路の前記２つ以上のインスタンスのセットの前記第１のサブセットの各々における前記複数のコンデンサがそれぞれの第１のサイズを有し、前記ビットごとのドット積総和回路の前記２つ以上のインスタンスのセットの前記第２のサブセットの各々における前記複数のコンデンサが前記第１のサイズとは異なるそれぞれの第２のサイズを有する、請求項１９に記載のデバイス。

【請求項23】

前記ビットごとのドット積総和回路の前記２つ以上のインスタンスのセットの各々の前記逐次近似レジスタ・アナログ・デジタル・コンバータ回路がコンパレータを含み、前記ビットごとのドット積総和回路の前記２つ以上のインスタンスのセットの前記第１のサブセットの前記逐次近似レジスタ・アナログ・デジタル・コンバータ回路において使用される第１のタイプのコンパレータが、前記ビットごとのドット積総和回路の前記２つ以上のインスタンスのセットの前記第２のサブセットの前記逐次近似レジスタ・アナログ・デジタル・コンバータ回路において使用される第２のタイプのコンパレータとは異なる、請求項１９に記載のデバイス。

【請求項24】

前記ビットごとのドット積総和回路の前記２つ以上のインスタンスのセットの前記第１のサブセットにおける前記ビットごとのドット積総和回路の各インスタンスが、前記ビットごとのドット積計算回路および前記逐次近似レジスタ・アナログ・デジタル・コンバータ回路の少なくとも２つのインスタンスを含み、前記ビットごとのドット積総和回路の前記２つ以上のインスタンスの前記第２のサブセットにおける前記ビットごとのドット積総和回路の各インスタンスが、追加のコンデンサ・バンクに結合された前記ビットごとのドット積計算回路および前記逐次近似レジスタ・アナログ・デジタル・コンバータ回路の単一のインスタンスを含む、請求項１９に記載のデバイス。

【請求項25】

前記ビットごとのドット積総和回路の前記２つ以上のインスタンスのセットの前記第１のサブセットにおける前記ビットごとのドット積総和回路の各インスタンスの前記ビットごとのドット積計算回路および前記逐次近似レジスタ・アナログ・デジタル・コンバータ回路の前記少なくとも２つのインスタンスの各々が、第１の数の入力を合計し、前記ビットごとのドット積総和回路の前記２つ以上のインスタンスのセットの前記第２のサブセットにおける前記ビットごとのドット積総和回路の各インスタンスの前記追加のコンデンサ・バンクに結合された前記ビットごとのドット積計算回路および前記逐次近似レジスタ・アナログ・デジタル・コンバータ回路の前記単一のインスタンスの各々が、前記第１の数の入力よりも大きい第２の数の入力を合計する、請求項２４に記載のデバイス。

【発明の詳細な説明】

【技術分野】

【0001】

この分野はエレクトロニクスに関し、より具体的には混合信号回路に関する。

【発明の概要】

【0002】

混合信号回路は、アナログ信号ドメインおよびデジタル信号ドメインの両方で動作する。したがって、少なくともいくつかの計算を行うために、通常はアナログ・デジタル変換（ＡＤＣ：ａｎａｌｏｇ－ｔｏ－ｄｉｇｉｔａｌｃｏｎｖｅｒｓｉｏｎ）が必要とされる。しかし、ＡＤＣ変換エネルギは混合信号回路設計における制限因子となり得る。
本発明の実施形態は、混合信号回路において異なる精度でビットごとの乗算の異なる部分を行うための改善された技術を提供する。

【0003】

一実施形態において、装置は少なくとも１つのプロセッサと、命令コードを含む少なくとも１つのメモリとを含む。少なくとも１つのメモリおよび命令コードは、少なくとも１つのプロセッサによって、第１および第２のデジタル入力のビットごとの乗算の第１の部分を第１の精度で行うことと、第１および第２のデジタル入力のビットごとの乗算の少なくとも第２の部分を第１の精度とは異なる第２の精度で行うこととを装置に少なくとも行わせるように構成される。

【0004】

別の実施形態において、積和演算を行う方法は、第１および第２のデジタル入力のビットごとの乗算の第１の部分を第１の精度で行うステップと、第１および第２のデジタル入力のビットごとの乗算の少なくとも第２の部分を第１の精度とは異なる第２の精度で行うステップとを含む。この方法は、命令コードを実行するように構成された処理回路によって実行される。

【0005】

別の実施形態において、製造物は、実行可能な命令コードが具現化された非一時的コンピュータ可読記憶媒体を含み、この実行可能な命令コードはプロセッサによって実行されるときに、第１および第２のデジタル入力のビットごとの乗算の第１の部分を第１の精度で行うステップと、第１および第２のデジタル入力のビットごとの乗算の少なくとも第２の部分を第１の精度とは異なる第２の精度で行うステップとをプロセッサに行わせる。

【0006】

別の実施形態において、システムは、第１および第２のベクトルのバイナリ乗算を行うように構成された積和ユニットを含む。積和ユニットは、第１および第２のベクトルの一部分のビットごとの乗算を行ってデジタル出力を生成するように各々構成された２つ以上のビットごとのドット積総和（dot-product summation）ユニットのセットを含む。２つ以上のビットごとのドット積総和ユニットのセットの各々のビットごとのドット積総和ユニットは、逐次近似レジスタ・アナログ・デジタル・コンバータ・ユニットのインスタンスに結合されたビットごとのドット積総和ユニットの少なくとも１つのインスタンスを含み、逐次近似レジスタ・アナログ・デジタル・コンバータ・ユニットは、ドット積総和ユニットのアナログ出力をデジタル出力の少なくとも一部分に変換するように構成される。第１の精度を有する２つ以上のビットごとのドット積総和ユニットのセットの第１のサブセットは、第１および第２のベクトルのビットごとの乗算の第１の部分を計算するために使用され、第１の精度とは異なる第２の精度を有する２つ以上のビットごとのドット積総和ユニットのセットの第２のサブセットは、第１および第２のベクトルのビットごとの乗算の第２の部分を計算するために使用される。

【0007】

別の実施形態において、デバイスは、第１および第２のベクトルのバイナリ乗算を行うように構成された積和回路を含む。積和回路は、第１および第２のベクトルの一部分のビットごとの乗算を行ってデジタル出力を生成するように各々構成されたビットごとのドット積総和回路の２つ以上のインスタンスのセットを含む。ビットごとのドット積総和回路の２つ以上のインスタンスのセットのビットごとのドット積総和回路の各インスタンスは、逐次近似レジスタ・アナログ・デジタル・コンバータ回路の少なくとも１つのインスタンスに結合されたビットごとのドット積計算回路の少なくとも１つのインスタンスを含み、逐次近似レジスタ・アナログ・デジタル・コンバータ回路は、ビットごとのドット積計算回路のアナログ出力をデジタル出力の少なくとも一部分に変換するように構成される。第１の精度を有するビットごとのドット積総和回路の２つ以上のインスタンスのセットの第１のサブセットは、第１および第２のベクトルのビットごとの乗算の第１の部分を計算するために使用され、第１の精度とは異なる第２の精度を有するビットごとのドット積総和回路の２つ以上のインスタンスのセットの第２のサブセットは、第１および第２のベクトルのビットごとの乗算の第２の部分を計算するために使用される。

【0008】

本明細書に記載される実施形態のこれらおよびその他の特徴および利点は、添付の図面および以下の詳細な説明からより明らかになるだろう。

【図面の簡単な説明】

【0009】

【図1A】１つ以上の例示的実施形態が実装され得るニューラル・ネットワーク・アクセラレータを示す図である。

【図1B】１つ以上の例示的実施形態が実装され得るニューラル・ネットワーク・アクセラレータにおいて行われる計算の数学的表現を示す図である。

【図2】１つ以上の例示的実施形態が実装され得る混合信号積和回路を示す図である。

【図3A】１つ以上の例示的実施形態が実装され得るドット積エンジンを示す図である。

【図3B】１つ以上の例示的実施形態が実装され得るドット積エンジンを示す図である。

【図4】１つ以上の例示的実施形態が実装され得るドット積計算に関連する代数表現を示す図である。

【図5】例示的実施形態によるドット積計算の異なる項の付加ノイズ寄与に対するビット位置の影響係数のプロットを示す図である。

【図6】例示的実施形態による異なるドット積エンジンに対して異なるハードウェア・アーキテクチャを使用する混合信号積和回路を示す図である。

【図7】例示的実施形態によるドット積エンジンのアーキテクチャを示す図である。

【図8】例示的実施形態による異なるドット積エンジンに対して異なるハードウェア・アーキテクチャを使用する混合信号積和回路を示す図である。

【図9】例示的実施形態による低ノイズ混合信号積和演算を行うための方法を示す図である。

【図10】例示的実施形態による人工知能システムの例示的実装を示す図である。

【図11】例示的実施形態による例示的プロセッサ・システムを示す図である。

【図12】例示的実施形態によるクラウド・コンピューティング環境を示す図である。

【図13】例示的実施形態による抽象化モデル・レイヤを示す図である。

【発明を実施するための形態】

【0010】

添付の図面に示されたさまざまな特徴は、縮尺どおりに描かれていない模式図であることが理解されるべきである。さらに、図面全体にわたって、同じかまたは類似の特徴、エレメント、または構造を示すために同じかまたは類似の参照番号が用いられており、よって各々の図面に対して、その同じかまたは類似の特徴、エレメント、または構造の詳細な説明は繰り返さない。さらに、本明細書において使用される「例示的（ｅｘｅｍｐｌａｒｙ）」および「例示的（ｉｌｌｕｓｔｒａｔｉｖｅ）」という用語は、「実施例、インスタンス、または例示の働きをすること」を意味する。本明細書において「例示的（ｅｘｅｍｐｌａｒｙ）」または「例示的（ｉｌｌｕｓｔｒａｔｉｖｅ）」と記載される任意の実施形態または設計は、他の実施形態または設計よりも好ましいか、または有利であると解釈されるべきではない。

【0011】

さらに、「ように構成される（ｃｏｎｆｉｇｕｒｅｄｔｏ）」という語句が、１つ以上の機能を行うか、または別様に何らかの機能を提供する回路（ｃｉｒｃｕｉｔ）（本明細書において「回路（ｃｉｒｃｕｉｔｒｙ）」という用語が交換可能に用いられることがある）、構造、エレメント、またはコンポーネントなどと共に用いられるとき、この語句は、その回路、構造、エレメント、またはコンポーネントなどがハードウェア、ソフトウェア、および／またはその組み合わせ、ならびにハードウェアを含む実装において実装される実施形態を包含することが意図されることが理解されるべきであり、そのハードウェアは個別の回路エレメント（例、トランジスタ、インバータ、論理ゲートなど）、プログラマブル・エレメント、処理デバイス、１つ以上の集積回路もしくはその他のタイプの回路またはその両方、および／あるいはその組み合わせを含んでもよい。よって、単なる例として、ある回路、構造、エレメント、コンポーネントなどが特定の機能を提供するように構成されると定義されるとき、それはその回路、構造、エレメント、コンポーネントなどが動作状態にあるとき（例、システムに接続されるかもしくは別様に展開されるとき、電源を入れられるとき、入力を受信するとき、または出力を生成するとき、あるいはその組み合わせ）に特定の機能を行うことを可能にするエレメント、処理デバイス、集積回路もしくはその他のタイプの回路またはその両方を含む実施形態を包含すること、およびその回路、構造、エレメント、コンポーネントなどが非動作状態にあるとき（例、システムに接続されることも別様に展開されることもないとき、電源を入れられていないとき、入力を受信していないとき、または出力を生成していないとき、あるいはその組み合わせのとき）、または部分的な動作状態にあるときの実施形態を包含することが意図されるが、それに限定されない。

【0012】

ニューラル・ネットワーク・モデルは、人工知能システムにおいて最も広く用いられるタイプの機械学習（ＭＬ：ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）アルゴリズムの１つである。たとえば、ニューラル・ネットワーク・モデルを用いて、人間の脳が動作する態様を模倣するプロセスを通じて、データのセットの基礎的な関係もしくはパターンまたはその両方を認識し得る。ニューラル・ネットワーク・モデルは、最初にトレーニング・データ・セットを用いてトレーニングされ（トレーニング段階）、次いでトレーニング済のニューラル・ネットワーク・モデルを用いて、ターゲット・データ・セットにおける関係もしくはパターンまたはその両方が認識される（推論段階）。

【0013】

ニューラル・ネットワーク・モデルを実行する多くのワークロードは、多数の行列乗算を必要とし、行列乗算は通常、積和（ＭＡＣ：ｍｕｌｔｉｐｌｙ－ａｃｃｕｍｕｌａｔｅ）演算を伴う。一般的に累積演算は、デジタル信号ドメインにおいて行われるときにはエネルギ効率が低いが、アナログ信号ドメインにおいてはそれよりもかなりエネルギ効率が高いことが認識されている。このため、乗算に対するデジタル信号ドメイン技術と、累積に対するアナログ信号ドメイン技術とを組み合わせることによって、より効率的な積和演算を達成できることがさらに認識されている。アナログおよびデジタル処理を組み合わせてＭＡＣ演算を行う回路は、混合信号ＭＡＣ（ＭＳ－ＭＡＣ：ｍｉｘｅｄｓｉｇｎａｌＭＡＣ）回路と呼ばれる。

【0014】

図１Ａは、１つ以上の例示的実施形態が実装され得るニューラル・ネットワーク・アクセラレータ１００を示す。いくつかの例示的実施形態において、ニューラル・ネットワーク・アクセラレータ１００は、１つ以上のグラフィックス処理ユニット（ＧＰＵ：ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ）、１つ以上のフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ：ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙｓ）、１つ以上の特定用途向け集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔｓ）、１つ以上のマルチコア中央処理ユニット（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ）、もしくはその他のタイプの回路、またはその組み合わせにおいて実装される。例として、ニューラル・ネットワーク・アクセラレータ１００またはその一部分は、実行可能なプログラム・コード（例、命令コード、コンピュータ・プログラム・コードなど）によってプログラムされた回路（例、回路、プロセッサ、メモリなど）を含んで特定の目的のためにカスタマイズされたか、または特定の目的のために別様に構成された上記のデバイスの１つ以上を含み得る。単なる例として、特定の目的は、人工知能システム（例、機械学習アルゴリズム）の実装および実行であり得る。加えて、ニューラル・ネットワーク・アクセラレータ１００は、たとえばニューロモルフィック・コンピュータ・システムなどのシステム・オン・チップ（ＳｏＣ：ｓｙｓｔｅｍ－ｏｎ－ｃｈｉｐ）の一部であってもよい。しかし、ニューラル・ネットワーク・アクセラレータ１００は、こうした人工知能ベースの意思決定による利益を受け得るさまざまな他のアプリケーションにおいて用いられ得る。

【0015】

示されるとおり、ニューラル・ネットワーク・アクセラレータ１００は、ニューラル・ネットワークの畳み込みレイヤおよび完全接続レイヤに対応する計算を行うように構成された行列乗算エンジン１０２を含み、この計算は通常、メモリ１０４からのデータに対する低精度整数計算を用いて行われ得る。次いで、その結果は出力先入れ先出し（ＦＩＦＯ：ｆｉｒｓｔ－ｉｎ－ｆｉｒｓｔ－ｏｕｔ）データ構造１０６を介して特殊関数ユニット１０８に転送され、特殊関数ユニット１０８は、たとえばバッチ正規化、シグモイド関数、整流線形ユニット（ＲｅＬＵ：ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）関数、およびＳｏｆｔＭａｘ関数などであるがそれに限定されない１つ以上の活性化関数に対応する計算を行う。特殊関数ユニット１０８における計算は通常、アクセラレータにマップされるニューラル・ネットワークの精度を保存するために高精度で行われる必要がある。

【0016】

しかし、行列乗算はニューラル・ネットワーク・ワークロードにおける計算の大部分を表し、よって行列乗算エンジン１０２はニューラル・ネットワーク・アクセラレータ１００によって消費される総電力のうちのかなりのパーセンテージを消費し得ることが認識される。さらに、行列乗算エンジン１０２において行われる低精度整数計算はアナログ・ドメインにおいて少なくとも部分的に動作することによって行われ得るため、計算のすべてをデジタル回路を使用するデジタル・ドメインにおいて行うアクセラレータと比較して、総電力消費がより低いアクセラレータがもたらされることが認識される。

【0017】

図１Ｂは、図１Ａのニューラル・ネットワーク・アクセラレータ１００における１つ以上の積和演算によってベクトル・ドット積（さらに説明されるとおり、本明細書においては内積とも呼ばれる）を計算することを可能にするための、例示的実施形態による数学的表現１１０を示す。図１Ｂの例において、左側の方程式は、各々６４のサイズの２つのベクトルｘおよびｗのドット積を数学的に表しており、ここで要素ｘ_ｉおよびｗ_ｉの各々は４ビットを有する。各々の４ビット掛ける４ビット積（４ｂ＊４ｂ）が、１６の１ビット掛ける１ビット積（１ｂ＊１ｂ）に分割される。右側の方程式は１ｂ＊１ｂ乗算を数学的に表しており、ここでｘ_ｉ，ｍおよびｗ_ｉ，ｎの各々は１ビットを有する。

【0018】

最初にビットごとの積が行われ、次いでビットの重みに基づいて総和が行われる。本質的に、４ビット掛ける４ビット項が１６の１ビット積に分割され、この１ビット積が累積（合計）され、次いで外部総和によって２の累乗によって適切にスケーリングされて、総計の和が生成される。電力の考慮に基づいて、１ｂ＊１ｂ乗算はデジタル・ドメインで行われ、１ｂ＊１ｂ乗算の内部総和はアナログ・ドメインで行われ、外部総和はデジタル・ドメインで行われる。内部総和がアナログ・ドメインで行われるのは、ここではアナログ回路がデジタル回路よりも電力の点で性能が高いためである。１６通りの加算は、アナログ・ドメインで行われても利点がほとんどないため、デジタル・ドメインで行われてもよい。１つの実施形態例において、内部総和の入力および出力はデジタルである。

【0019】

なお、図１Ｂは１つの例示的実施形態を表すものであり、よって他の実施形態はアナログおよびデジタル・ドメイン計算の異なる分割を用い得る。さらに、数学的表現１１０として示されるドット積計算は、説明を容易にするための例として意図されていることも認識されるべきである。よって、要素ｘ_ｉおよびｗ_ｉが異なるビット数を有し、かつ一方のベクトルが他方のベクトルと比較して異なる要素数を有するときのベクトルｘおよびｗのドット積の実装は、本明細書において提供される教示に基づく代替的な実施形態によってサポートされる。

【0020】

図２は、例示的実施形態による整数行列乗算を行うための混合信号積和回路２００を示す。当然のことながら、混合信号積和回路２００の一部またはすべては、いくつかの実施形態において図１の行列乗算エンジン１０２の一部として実装され得る。示されるとおり、第１のデジタル入力Ｘの各ビットｘ_ｉと、第２のデジタル入力Ｗのデジタル重みｗ_ｉを表す対応するビットとが、１６の１ビット（１－ｂ）ドット積エンジン２１０－１、２１０－２．．．、２１０－１５、２１０－１６（本明細書において共にドット積エンジン２１０と呼ばれる）のうちの１つに入力される。以下においてさらに説明されるとおり、ドット積エンジン２１０はバイナリ乗算演算において生じる１の数を有効にカウントするため、カウンタと呼ばれ得る。一例において、第１のデジタル入力Ｘは４ビットの要素によって表される活性化関数を表すのに対し、第２のデジタル入力Ｗは４ビットの要素によって表される重みを表す。ドット積エンジン２１０－１、２１０－２．．．、２１０－１５、２１０－１６によって、デジタル部分和２２０－１、２２０－２．．．、２２０－１５、２２０－１６（本明細書において共に部分和２２０と呼ばれる）がそれぞれ出力される。デジタル部分和２２０はデジタル低減回路２３０に入力され、デジタル低減回路２３０は外部総和を行ってＭＳ－ＭＡＣ出力を生成する。

【0021】

図３Ａおよび図３Ｂは、例示的実施形態によるドット積エンジン２１０によって行われる内積総和のために構成されたＭＳ－ＭＡＣ回路の例を示す。図３Ａおよび図３Ｂの例示的実施形態において、入力ベクトルＸおよびＷの各々は６３の要素を含み、各要素は４ビットを含むことが想定される。一般的にＭＳ－ＭＡＣ回路は、デジタル論理を用いるデジタル信号ドメインにおいて乗算を行い、電荷共有コンデンサを用いるアナログ・ドメインにおいて累積を行う。ＭＳ－ＭＡＣ回路は効果的に、デジタル・ドメインにおいてデジタル入力を乗算し、アナログ・ドメインにおいて乗算の結果を累積し、累積された結果に基づいてバイナリ重み付きデジタル・コードを生成する。バイナリ重み付きデジタル・コードのビット数は、ＭＳ－ＭＡＣ回路によって行われるアナログ・デジタル変換動作のアナログ分解能または量子化レベル（ｐ）と呼ばれる。６３ビット入力のセットに対する固有のバイナリ重み付きコードを生成するためのｐは６、すなわち、Ｄ［０：５］である。図３Ａおよび図３Ｂ全体にわたって、同様または類似の機能を提供する回路エレメントは、同じまたは類似の参照番号を使用する。

【0022】

より具体的には、図３Ａに示されるとおり、ＭＳ－ＭＡＣ回路３００はアナログ・ドット積エンジン３０２と、逐次近似レジスタ（ＳＡＲ：ｓｕｃｃｅｓｓｉｖｅａｐｐｒｏｘｉｍａｔｅｒｅｇｉｓｔｅｒ）ＡＤＣ３０４とを含む。示されるとおり、アナログ・ドット積エンジン３０２はＳＡＲＡＤＣ３０４のコンパレータ３１０に出力Ｖ_ＩＮを提供し、ここで出力Ｖ_ＩＮはアナログ・ドット積エンジン３０２によって生成される重みの和Σｘ_ｉｗ_ｉに比例する。アナログ・ドット積エンジン３０２は入力ｘ［６２：０］およびｗ［６２：０］を受信し、出力Ｖ_ＩＮ∝Σｘ_ｉｗ_ｉを生成する。コンパレータ３１０の出力は、ＳＡＲコントローラ３０６に入力される。ＳＡＲコントローラ３０６はバイナリ重み付きコードＤ［０：５］を出力し、この出力はコンデンサ３１２のセット（それぞれキャパシタンス値Ｃ、２Ｃ、４Ｃ、８Ｃ、１６Ｃ、３２Ｃを有する）に提供される。当然のことながら、バイナリ重み付きコードＤ［０：５］のビットはそれぞれ、コンデンサ３１２のセットに結合される（たとえば、最上位ビット（ＭＳＢ：ｍｏｓｔｓｉｇｎｉｆｉｃａｎｔｂｉｔ）から最下位ビット（ＬＳＢ：ｌｅａｓｔｓｉｇｎｉｆｉｃａｎｔｂｉｔ）へ）。６ビット量子化に対して、ＳＡＲコントローラ３０６のバイナリ重み付き出力のＭＳＢ（Ｄ５）は３２Ｃコンデンサに結合され、次のビット（Ｄ４）は１６Ｃコンデンサに結合され、次のビット（Ｄ３）は８Ｃコンデンサに結合され、次のビット（Ｄ２）は４Ｃコンデンサに結合され、次のビット（Ｄ１）は２Ｃコンデンサに結合され、ＬＳＢ（Ｄ０）は１Ｃコンデンサに結合される。示されるとおり、ＳＡＲコントローラ３０６から出力されるバイナリ重み付きコードＤ［０：５］は、バッファおよびスイッチ３１４のセットを通じてコンデンサ３１２の下部プレートに提供される。ＳＡＲＡＤＣ３０４はリセット・スイッチ３１６も含み、リセット・スイッチ３１６は開かれたときにコンデンサ３１２の上部プレートが電気的に浮動するようにする。

【0023】

図３Ｂは、アナログ・ドット積エンジン３０２の実装例を示すＭＳ－ＭＡＣ回路３２０を示す。図３Ｂに示されるとおり、アナログ・ドット積エンジン３０２は６３のＡＮＤゲート３２２のセットを含み、各々のＡＮＤゲート３２２は、入力ｘ［６２：０］およびｗ［６２：０］の対応するセットの乗算を行う。ＡＮＤゲート３２２の出力（すなわち、ｘ_０＊ｗ_０、ｘ_１＊ｗ_１、．．．、ｘ_６２＊ｗ_６２）は、リセット・スイッチ３２４を介してコンデンサ３２６の下部プレートに結合され、各々のコンデンサ３２６は同じキャパシタンス値Ｃを有する。アナログ・ドット積エンジン３０２は、リセット・スイッチ３２８をさらに含む。コンデンサ３２６の上部プレートは、コンパレータ３１０に出力Ｖ_ＩＮ∝Σｘ_ｉｗ_ｉを提供する。

【0024】

例示的実施形態において、混合信号ドメインにおいてドット積

【0025】

【数1】

【0026】

が計算され、ここでＸ_ｉおよびＷ_ｉは低精度（例、４ビット整数ＩＮＴ４）であってもよい。本明細書の他の場所に記載されるとおり、ドット積を計算することは、電力の観点から完全にデジタルの実装よりも有利である。しかし、混合信号の計算はノイズおよびビット・エラーに影響されやすい。本明細書に記載される例示的実施形態は、こうした混合信号ドメインの計算をノイズに対してよりロバストにするための技術を提供する。

【0027】

図４は、ドット積エンジン２１０によって行われるドット積の計算に関連する代数表現４００を示す。アナログ・ドメインにおけるポップカウンタとして例示的に実装されるドット積エンジン２１０は、６４のビットごとの乗算のうちの１（非ゼロ）の数をカウントする。６４のビットごとの乗算に対するこのカウントは、次のとおりに表されてもよい。

【0028】

【数2】

【0029】

ここで、２進数（積）は複数のビット位置に分解される。分解後に１６の項が生成され、各項はアナログ・ポップカウンタ（例、ドット積エンジン２１０の１つ）によって計算される。最終出力は、デジタル・バックエンドにおいて（例、シフタおよび加算器によって）計算される。

【0030】

【数3】

【0031】

の計算は例示的にアナログ・ドメインにおいて行われ、

【0032】

【数4】

【0033】

の計算はデジタル・ドメインにおいて行われる。図４に示されるとおり、各々の「ボックス」はアナログ・ポップカウンタ（例、ドット積エンジン２１０の１つ）に置き換えられてもよい。よって、

【0034】

【数5】

【0035】

の項はドット積エンジン２１０－１を介して実装されてもよく、

【0036】

【数6】

【0037】

の項はドット積エンジン２１０－２を介して実装されてもよく、

【0038】

【数7】

【0039】

の項はドット積エンジン２１０－３を介して実装されてもよく、．．．

【0040】

【数8】

【0041】

の項はドット積エンジン２１０－１６を用いて実装されてもよい。

【0042】

より具体的に、入力２０２に６４のＸ’が存在し、入力２０４に６４のＷ’が存在し、各ＸおよびＷは４ビットの精度を有するために６４の乗算（例、積）が行われ、それらの積すべてが加算されるものと考える。さらに、Ｘ掛けるＷ（ここで大文字ＸおよびＷは、これらの各々が４ビットの２進数で表されることを意味する）と呼ばれる、６４のうちの１つの乗算を考える。Ｘは８ａ＋４ｂ＋２ｃ＋１ｄと書き換えられてもよく、Ｗは８ｐ＋４ｑ＋２ｒ＋１ｓと書き換えられてもよい。よって、Ｘ掛けるＷは次のとおりになる。
Ｘ＊Ｗ＝（８ａ＋４ｂ＋２ｃ＋１ｄ）（８ｐ＋４ｑ＋２ｒ＋１ｓ）
Ｘ＊Ｗ＝６４ａｐ＋３２ｂｐ＋１６ｃｐ＋８ｄｐ＋３２ａｑ＋１６ｂｑ＋８ｃｑ＋４ｄｑ＋１６ａｒ＋８ｂｒ＋４ｃｒ＋２ｄｒ＋８ａｓ＋４ｂｓ＋２ｃｓ＋１ｄｓ
Ｘ＊Ｗ＝６４ａｐ＋３２（ｂｐ＋ａｑ）＋１６（ｃｐ＋ｂｑ＋ａｒ）＋８（ｄｐ＋ｃｑ＋ｂｒ＋ａｓ）＋４（ｄｑ＋ｃｒ＋ｂｓ）＋２（ｄｒ＋ｃｓ）＋１ｄｓ
よって、異なる項に係数６４、３２、１６、．．．、１が乗算され、いくつかの重複が存在することが分かる。たとえば、３つの項ｃｐ、ｂｑ、およびａｒに同じ係数１６が乗算される。２進数に対して、１６（＝２^４）による乗算は単純な４ビットのシフトによって達成されてもよい。よって、係数６４、３２、１６、８、４、２、および１による乗算は、＜＜６、＜＜５、＜＜４、＜＜３、＜＜２、＜＜１、および＜＜０と表されてもよい（ここで「＜＜」は左のシフトを意味する）。これは、図２、図３Ａ、および図３Ｂに関して上述したデジタル部分和２２０に示される（例、デジタル部分和２２０－１は＜＜６、デジタル部分和２２０－２および２２０－３は＜＜５、デジタル部分和２２０－４から２２０－６は＜＜４、デジタル部分和２２０－７から２２０－１０は＜＜３、デジタル部分和２２０－１１から２２０－１３は＜＜２、デジタル部分和２２０－１４および２２０－１５は＜＜１、デジタル部分和２２０－１６は＜＜０）。

【0043】

各々のアナログ・ポップカウンタ（例、ドット積エンジン２１０）は、ビット位置にかかわらず等しい確率のビット・エラー率（ＢＥＲ：ｂｉｔｅｒｒｏｒｒａｔｅ）を生成する。最高の重み付きの積和を有するポップカウンタ（たとえば、影響係数６４を有する項）

【0044】

【数9】

【0045】

においてビット・エラーが起こるとき、その影響は、最低の重み付きの積和を有するポップカウンタ（例、影響係数１を有する項）

【0046】

【数10】

【0047】

において起こるビット・エラーの６４倍大きくなる。たとえば、図２に示される構造において、最高の重み付きの積和は、１－ｂドット積エンジン２１０－１およびデジタル部分和２２０－１に関連付けられ、最低の重み付きの積和は、１－ｂドット積エンジン２１０－１６およびデジタル部分和２２０－１６に関連付けられる。

【0048】

図５は、各項（例、図４の代数表現４００の各項）の影響係数を、それぞれの発生のカウントと共に示すテーブル５００を示す。上記で考察されたとおり、ドット積エンジン２１０を実装するために用いられ得る逐次近似レジスタ（ＳＡＲ）アナログ・デジタル・コンバータ（ＡＤＣ：ａｎａｌｏｇ－ｔｏ－ｄｉｇｉｔａｌｃｏｎｖｅｒｔｅｒ）の特性のため、各々のアナログ・ポップカウンタからの誤差は＋／－１程度だけである可能性がある。

【0049】

Ｘ_ｉはｉ番目の項における付加ノイズであるとするとき、合計ノイズは次の式に従って決定される。
η＝Ｘ_１＋２Ｘ_２＋２Ｘ_３＋４Ｘ_４＋４Ｘ_５＋４Ｘ_６＋８Ｘ_７＋８Ｘ_８＋８Ｘ_９＋８Ｘ_１０＋１６Ｘ_１１＋１６Ｘ_１２＋１６Ｘ_１３＋３２Ｘ_１４＋３２Ｘ_１５＋６４Ｘ_１６
ここで、

【0050】

【数11】

【0051】

であり、ここで誤差Ｅは次の式に従って決定される。
Ｅ［Ｘ］＝０、Ｖａｒ［Ｘ_ｉ］＝Ｅ［Ｘ^２］－（Ｅ［Ｘ］）^２＝ＢＥＲ
ここでＶａｒ［Ｘ_ｉ］はＸ_ｉの分散を示し、ＢＥＲはビット・エラー率を示す。Ｅ［η］＝０であり、かつ次の式のとおりとなる。

【0052】

【数12】

【0053】

より高い重み付きの項（例、Ｘ_１６、Ｘ_１５、Ｘ_１４など）が低減されると、合計ノイズに対する非常に大きい影響を及ぼす。たとえば、Ｘ_１６、Ｘ_１５、およびＸ_１４の各々が１００ｘ低減されるときを考える。この場合は次の式のとおりとなり、

【0054】

【数13】

【0055】

ここで最後の３つの付加ノイズ項は１００ｘ低減されるため、寄与を無視できるとみなされる。

【0056】

したがって、ＭＡＣエンジンをノイズに対してよりロバストにするために、いくつかの実施形態は、異なるドット積エンジン２１０（例、異なる１－ｂ乗算ポップカウンタ）に対して異なるアーキテクチャを用いる。こうした異なるアーキテクチャは、互いに異なる精度を提供する。より高い精度（よってより少ないノイズ）を有する第１のアーキテクチャをいくつかのドット積エンジン２１０（例、より高い重み付きの項に対応するもの）に対して用い、相対的により低い精度を有する第２のアーキテクチャを他のドット積エンジン２１０（例、相対的により低い重み付きの項に対応するもの）に対して用いることによって、全体的な計算精度が増加することがある。

【0057】

以下の記載において、次の２つの異なるタイプのアーキテクチャのみが用いられると想定する。すなわち、３つの最高の重み付きの項に関連するポップカウンタ（例、上記の例における、より高い重み付きの項Ｘ_１６、Ｘ_１５、およびＸ_１４に対応するドット積エンジン２１０－１、２１０－２、および２１０－３）に対する第１のタイプのアーキテクチャ、および残りのポップカウンタ（例、相対的により低い重み付きの項Ｘ_１３～Ｘ_１に対応するドット積エンジン２１０－４から２１０－１６）に対する第２のタイプのアーキテクチャであり、ここで第１のアーキテクチャは第２のアーキテクチャよりも高い精度を提供する。しかし、他の実装においては、ポップカウンタの異なるサブセットに対して３つ以上の異なるタイプのアーキテクチャ（例、互いに異なる関連精度を有するもの）を用いることも可能であることが認識されるべきである。たとえば、いくつかの実施形態においては、次の３つの異なるタイプのアーキテクチャが用いられる。すなわち、３つの最高の重み付きの項に関連するポップカウンタ（例、上記の例における、より高い重み付きの項Ｘ_１６、Ｘ_１５、およびＸ_１４に対応するドット積エンジン２１０－１、２１０－２、および２１０－３）に対する第１のタイプのアーキテクチャ、次の３つの最高の重み付きの項に関連するポップカウンタ（例、上記の例における、中間の重み付きの項Ｘ_１３、Ｘ_１２、およびＸ_１１に対応するドット積エンジン２１０－４、２１０－５、および２１０－６）に対する第２のタイプのアーキテクチャ、および残りのポップカウンタ（例、相対的により低い重み付きの項Ｘ_１０～Ｘ_１に対応するドット積エンジン２１０－７から２１０－１６）に対する第３のタイプのアーキテクチャであり、ここで第１のアーキテクチャは第２のアーキテクチャよりも高い精度を提供し、第２のアーキテクチャは第３のアーキテクチャよりも高い精度を提供する。異なる精度を提供する異なる数のタイプのアーキテクチャを用いて、異なるアーキテクチャを用いる異なるポップカウンタによって、さまざまな他の例が可能である。

【0058】

異なるタイプのアーキテクチャは、異なる精度（例、ノイズの改善またはＢＥＲ）をさまざまなやり方で提供してもよく、そのやり方は、最小電圧ステップを効果的に増加することによって信号対ノイズ比（ＳＮＲ：ｓｉｇｎａｌｔｏｎｏｉｓｅｒａｔｉｏ）を改善するより低い分解能のポップカウンタの使用；より低い熱ノイズ（ｋＴ／Ｃ）およびより低いコンデンサ・ミスマッチを有するより大きいコンデンサの使用；より低いノイズのコンパレータの使用（例、ここではコンパレータのノイズよりもコンパレータ内のトランジスタの熱ノイズが優勢であってもよい）；コンパレータにおけるより正確なオフセット・キャンセルの使用；それらの組み合わせなどによって精度を改善することを含むが、それに限定されない。

【0059】

図６は、例示的実施形態による混合信号積和回路６００を示し、この混合信号積和回路６００は混合信号積和回路２００と類似であり、整数行列乗算を行うために使用可能である。当然のことながら、いくつかの実施形態において、混合信号積和回路６００の一部またはすべてを図１の行列乗算エンジン１０２の一部として実装し得る。示されるとおり、第１のデジタル入力Ｘの各ビットｘ_ｉと、第２のデジタル入力Ｗのデジタル重みｗ_ｉを表す対応するビットとが、１６の１ビット（１－ｂ）ドット積エンジン６１０－１、６１０－２．．．、６１０－１５、６１０－１６（本明細書において共にドット積エンジン６１０と呼ばれる）のうちの１つに入力される。ドット積エンジン６１０は、ドット積エンジン２１０と同様に、バイナリ乗算演算において生じる１の数を有効にカウントするため、カウンタと呼ばれ得る。一例において、第１のデジタル入力Ｘは４ビットの要素によって表される活性化関数を表すのに対し、第２のデジタル入力Ｗは４ビットの要素によって表される重みを表す。ドット積エンジン６１０－１、６１０－２．．．、６１０－１５、６１０－１６によって、デジタル部分和６２０－１、６２０－２．．．、６２０－１５、６２０－１６（本明細書において共に部分和６２０と呼ばれる）がそれぞれ出力される。デジタル部分和６２０はデジタル低減回路６３０に入力され、デジタル低減回路６３０は外部総和を行ってＭＳ－ＭＡＣ出力を生成する。

【0060】

図２の混合信号積和回路２００における各々のドット積エンジン２１０は同じアーキテクチャを使用することが想定されたのに対し、図６の混合信号積和回路６００における異なるドット積エンジン６１０は、異なるアーキテクチャを使用する。より具体的には、上記の例を続けると、３つのドット積エンジン６１０－１、６１０－２、および６１０－３（それぞれ項の重みｘ６４、ｘ３２、およびｘ３２に関連する）は第１のアーキテクチャを使用し、一方で残りのドット積エンジン６１０－４から６１０－１６（項の重みｘ１６からｘ１に関連する）は第２のアーキテクチャを使用し、ここで第１のアーキテクチャは第２のアーキテクチャよりも高い精度を提供する。こうした異なる精度は、上述のさまざまな技術を用いて実装されてもよい。

【0061】

いくつかの実施形態において、より低い精度を有するアーキテクチャに量子化ノイズを導入することによって、異なるアーキテクチャに対する異なる精度が達成されてもよい。図７は、追加のコンデンサ・バンク７２０に接続されたＭＳ－ＭＡＣ回路７００（例、ポップカウンタ）の実装例を示す。ＭＳ－ＭＡＣ回路７００および７２０は、共に「分割」ポップカウンタを実装するものと呼ばれてもよい。ドット積エンジン７００は、ＳＡＲコントローラ７０６およびコンパレータ７１０を含む。ＳＡＲコントローラ７０６は、ｘ_０、ｗ_０からｘ_６２、ｗ_６２のそれぞれの入力のセットを受信するサブセル・コントローラ７６２－１から７６２－６３のセット（共にサブセル・コントローラ７６２）を制御する。サブセル・コントローラ７６２は、スイッチ対７６４－１から７６４－６２のセット（共にスイッチ対７６４）に結合された出力によって、デジタル（論理）ＡＮＤゲートを実装してもよい。さらに説明されることとなるとおり、スイッチ対７６４は、ＳＡＲコントローラ７０６によって生成された制御入力を介して、ＭＳ－ＭＡＣ回路７００が総和動作フェーズとＳＡＲ動作フェーズとの間で切り換わることを可能にする。

【0062】

スイッチ対７６４は、共にコンデンサ７６６と呼ばれるコンデンサのセット７６６－１、．．．、７６６－６３のそれぞれの下部プレートに接続される。各々のコンデンサ７６６は、同じキャパシタンスＣ_０＝．．．＝Ｃ_６３を有する。コンデンサ７６６の上部プレートは、コンパレータ７１０の第１の入力およびプリチャージ・スイッチ７６８に接続される。さらに説明されることとなるとおり、プリチャージ・スイッチ７６８は、制御信号を介してコンデンサ７６６の上部プレートにコモン・モード電圧Ｖ_ＣＭを選択的に印加する。コンパレータ７１０の第２の入力はＶ_ＣＭに接続される。電圧Ｖ_ＣＭは、コンパレータ７１０の自然なコモン・モード電圧に設定され、これはコンパレータ７１０が最良の感度／ノイズ特徴を有すると考えられる電圧である。コンパレータ７１０の出力は、ＳＡＲコントローラ７０６に接続される。ＳＡＲコントローラ７０６は、バイナリ重み付きコードＤ［０：５］を出力する。図７に明示的に示されていないが、データ入力と制御入力とは異なるバッファを通じてバッファされてもよい。ＳＡＲコントローラ７０６とコンパレータ７１０との間のタイミングを同期するために、クロック信号（ｃｌｋ、明示されていない）が用いられてもよく、これはクロック・バッファ（明示されていない）によってバッファされてもよい。

【0063】

示されるとおり、ＭＳ－ＭＡＣ回路７００は追加のコンデンサ・バンク７２０に結合され、追加のコンデンサ・バンク７２０は、ｘ_６３、ｗ_６３からｘ_１２６、ｗ_１２６のそれぞれの入力のセットを受信するデジタル（論理）ＡＮＤまたはＮＡＮＤゲート７６３－６４、．．．７６３－１２７のセット（共にＡＮＤ／ＮＡＮＤゲート７６３）を含む。ＡＮＤ／ＮＡＮＤゲート７６３は、スイッチ対７６５－６４から７６５－１２７のセット（共にスイッチ対７６５）に結合された出力を有する。スイッチ対７６５は、コンデンサ７６７－６４、．．．７６７－１２７（共にコンデンサ７６７）の下部プレートに結合される。コンデンサ７６７の上部プレートは、スイッチ７７０を介して結合されることによって、スイッチ７７０が閉じられるときにそれらが共通ノード７７２の電圧に寄与するようにされる。さらに説明されることとなるとおり、プリチャージ・スイッチ７６９は、制御信号を介してコンデンサ７６７の上部プレートにコモン・モード電圧Ｖ_ＣＭを選択的に印加する。

【0064】

ＭＳ－ＭＡＣ回路７００において、総和の際にはコンデンサ７６６および７６７の両方が使用されるのに対し、ＳＡＲ変換の際にはコンデンサ７６６のみが使用される。入力総和フェーズの際にはコンデンサ７６６および７６７が個別に制御されるのに対し、ＳＡＲ変換動作の際にはコンデンサ７６６がバイナリ重み付けされる方式で制御される。

【0065】

第１の動作フェーズ（和）の際には、プリチャージ・スイッチ７６８および７６９が閉じられるため、共通ノード７７２における電圧Ｖ_ＳＵＭはＶ_ＣＭと等しく、コンパレータ７１０の入力は効果的に電気的に短絡する。同時に、サブセル・コントローラ７６２およびＡＮＤ／ＮＡＮＤゲート７６３によって入力ｘ_ｉ、ｗ_ｉの各対の積が計算され、ここでスイッチ７６４および７６５は、サブセル・コントローラ７６２およびＡＮＤ／ＮＡＮＤゲート７６３の論理出力に依存して、コンデンサ７６６および７６７の各々の下部プレートが基準電圧（Ｖｄｄ）または接地（０Ｖ）のいずれに帯電されるかを制御する。よって、各コンデンサ７６６は電荷Ｑ_ｉ＝Ｃ（ｘ_ｉ＊ｗ_ｉ＊Ｖ_ＤＤ－Ｖ_ＣＭ）を蓄積する。

【0066】

第２の動作フェーズ（ＳＡＲ）の際には、最初にスイッチ７７０が開かれ、次いでプリチャージ・スイッチ７６８および７６９が開かれる。これによって、ＳＡＲ動作フェーズの際には追加のコンデンサ・バンク７２０が使用されない。プリチャージ・スイッチ７６８は開かれ、コンデンサ７６６の上部プレートを接続する共通ノード７７２は電気的に浮動するようにされる。次に、ＳＡＲコントローラ７０６の出力がコンデンサ７６６の動作構成を制御するように、サブセル・コントローラ７６２を介してＳＡＲコントローラ７０６の制御出力を通すようにスイッチ対７６４が構成される。すなわち、このフェーズにおいて、コンデンサ７６６のセットはバイナリ重み付きキャパシタンスのアレイとして構成され、すなわちコンデンサ７６６のサブセットは、ＳＡＲコントローラ７０６のたとえばＬＳＢからＭＳＢなどの予め定められたビット制御ラインに接続される。それぞれのビット制御ラインは、たとえば６の量子化レベルに対するＤ［０：５］などの、ＳＡＲコントローラ７０６によって生成されるバイナリ重み付き出力（コード）のビットに対応する。すなわち、ＳＡＲ制御信号がスイッチ対７６４の対応するスイッチを閉じるとき、所与のコンデンサ７６６が所与のビット制御ラインに接続される。６ビット量子化に対して、ＳＡＲコントローラ７０６のバイナリ重み付き出力のＭＳＢ（Ｄ５）はコンデンサ７６６－３２から７６６－６３（３２コンデンサ）に結合され、次のビット（Ｄ４）はコンデンサ７６６－１６から７６６－３１（１６コンデンサ）に結合され、次のビット（Ｄ３）はコンデンサ７６６－８から７６６－１５（８コンデンサ）に結合され、次のビット（Ｄ２）はコンデンサ７６６－４から７６６－７（４コンデンサ）に結合され、次のビット（Ｄ１）はコンデンサ７６６－２および７６６－３（２コンデンサ）に結合され、ＬＳＢ（Ｄ０）はコンデンサ７６６－１（１コンデンサ）に結合される。

【0067】

サブセル・コントローラ７６２による乗算の結果、およびその結果としてコンデンサ７６６のセットに蓄積される電荷に依存して、出力ビットＤ［０：５］の各々に対する逐次反復においてコンパレータ７１０による意思決定が行われる（１または０）。したがって、図７に示される１２７通りのデータ入力に対する６ビットのバイナリ重み付き出力を生成するために、６回のＳＡＲ反復が行われる。

【0068】

図７のＭＳ－ＭＡＣ回路７００によって行われるドット積計算を要約すると、第１の動作フェーズ（第１のサイクル）において、サブセル・コントローラ７６２およびＡＮＤ／ＮＡＮＤゲート７６３は、自身のそれぞれの入力で受信したデータを乗算し、それらの出力はコンデンサ７６６および７６７を駆動する。次いで第２の動作フェーズ（第２～第７のサイクル、すなわち６ビットのバイナリ重み付き出力に対応する）において、上記で説明されたとおりに通常のＳＡＲＡＤＣ動作が行われる。

【0069】

図７のＭＳ－ＭＡＣ回路７００は、コンパレータ７１０およびＳＡＲコントローラ７０６に関連する面積および電力を有利に節約し、かつＳＡＲＡＤＣフェーズの際のコンデンサ７６７における大きい電圧振幅を回避する。

【0070】

図８は、例示的実施形態による混合信号積和回路８００を示し、この混合信号積和回路８００は混合信号積和回路６００と類似であり、整数行列乗算を行うために使用可能である。当然のことながら、いくつかの実施形態において、混合信号積和回路８００の一部またはすべてを図１の行列乗算エンジン１０２の一部として実装し得る。示されるとおり、第１のデジタル入力Ｘの各ビットｘ_ｉと、第２のデジタル入力Ｗのデジタル重みｗ_ｉを表す対応するビットとが、ドット積エンジン８１０－１ａ、８１０－１ｂ、８１０－２ａ、８１０－２ｂ、８１０－３ａ、８１０－３ｂ、８１０－４、８１０－５、．．．８１０－１６のセット（本明細書において共にドット積エンジン８１０と呼ばれる）のうちの１つに入力される。ドット積エンジン８１０－１ａ、８１０－１ｂ、８１０－２ａ、８１０－２ｂ、８１０－３ａ、および８１０－３ｂは、３つの最高の重み付きの項に対するより高い精度のアーキテクチャを提供し、ドット積エンジン８１０－４、８１０－５、．．．８１０－１６は、残りの相対的により低い重み付きの項に対する相対的により低い精度のアーキテクチャを提供する。ドット積エンジン８１０－４、８１０－５、．．．８１０－１６に対して用いられる相対的により低い精度のアーキテクチャは、図７に関して示されて上述された「分割」ポップカウンタ・アーキテクチャであってもよく、一方でドット積エンジン８１０－１ａ、８１０－１ｂ、８１０－２ａ、８１０－２ｂ、８１０－３ａ、および８１０－３ｂに対してはより高い精度のアーキテクチャが用いられる。ドット積エンジン８１０－１ａおよび８１０－１ｂ（共にドット積エンジン８１０－１）は最高の重み付きの項に対して用いられ、ドット積エンジン８１０－２ａおよび８１０－２ｂ（共にドット積エンジン８１０－２）は２番目に高い重み付きの項に対して用いられ、ドット積エンジン８１０－３ａおよび８１０－３ｂ（共にドット積エンジン８１０－３）は３番目に高い重み付きの項に対して用いられる。

【0071】

混合信号積和回路８００は、４ビットのデジタル入力８０２（Ｘ）および８０４（Ｗ）の１２８通りの総和を行うように構成される。｛１、２、４、８、１６｝によってスケーリングされる項（例、１３の相対的に最低の重み付きの積和）に対しては、ドット積エンジン８１０－４から８１０－１６において図７の「分割」ポップカウンタ・アーキテクチャが用いられてもよい。ドット積エンジン８１０－４から８１０－１６において用いられる「分割」ポップカウンタ・アーキテクチャは、最も近い偶数に対してのみ１の数をカウントし得るため、その出力（例、デジタル部分和８２０－４から８２０－１６）は不正確である（例、ノイズが多い）。しかし、ドット積エンジン８１０－４から８１０－１６において用いられる分割ポップカウンタ・アーキテクチャは、｛３２、６４｝によってスケーリングされる項（例、３つの最高の重み付きの積和）に対して用いられるドット積エンジン８１０－１から８１０－３において用いられる「通常」すなわち非分割のポップカウンタよりも電力が低い。これらの項の各々に対して、２つの結果を生成する２つのポップカウンタの間で計算が分割され（例、最高の重み付きの積和に対する８２０－１ａおよび８２０－１ｂ、２番目に高い重み付きの積和に対する８２０－２ａおよび８２０－２ｂ、ならびに３番目に高い重み付きの積和に対する８２０－３ａおよび８２０－３ｂ）、それらの結果が加算器８３０において合計される。たとえば、８２０－１ａは最高の重み付きの積和に対する最初の６３項の和であり、８２０－１ｂは最後の６３項の和である。

【0072】

全体として、混合信号積和回路８００は１９のポップカウンタを有する。すなわち、３つの最高の重み付きの積和に関連するドット積エンジン８１０－１から８１０－３に対して用いられる６つの６３ｂポップカウンタと、残りの相対的により低い重み付きの積和に関連するドット積エンジン８１０－４から８１０－１６に対して用いられる１３の１２７ｂ分割ポップカウンタとである。ドット積エンジン８１０－１から８１０－３は、６３ｂポップカウンタに基づく６ビット設計を有し、ターゲットＢＥＲは１０^－１２である。ドット積エンジン８１０－４から８１０－１６は６ビット設計において１２７項を合計し、この６ビット設計は６３ｂポップカウンタ回路を用いるが、図７に関して上述したとおりに追加のコンデンサ・バンクを接続する。より低いオーダのポップカウンタにおいては量子化ノイズが導入されるが、コンパレータ、デジタル・バックエンド、およびＳＡＲコントローラによるエネルギの節約が期待される。図８の例において、ドット積エンジン８１０－１から８１０－３はより高い精度のアーキテクチャを用い、ドット積エンジン８１０－４から８１０－１６は相対的により低い精度のアーキテクチャを用いる。重要性の低い計算（例、１３の相対的により低い重み付きの積和に対する計算）に対する電力および面積が節約され、一方でより重要な計算（例、３つの最高の重み付きの積和）はより高い精度で行われる。

【0073】

図８に示されるドット積エンジンのアーキテクチャの特定の数および配置は、単なる例として提示されたものであることが再び認識されるべきである。たとえば、他の実施形態においては、単に｛３２、６４｝によってスケーリングされる項の代わりに、｛１６、３２、６４｝によってスケーリングされる項に対して、より高い精度のアーキテクチャが用いられてもよい。さらに、項の３つ以上の異なるサブセットに対して用いられる異なるポップカウンタまたはドット積エンジンに対して、３つ以上の異なるタイプのアーキテクチャが用いられてもよい（例、｛３２、６４｝によってスケーリングされる項に対する第１の精度、｛８、１６｝によってスケーリングされる項に対する第２の精度、｛１、２、４｝によってスケーリングされる項に対する第３の精度）。加えてさらに、図８は１２７ｂ分割ポップカウンタ（例、ドット積エンジン８１０－４から８１０－１６に対するもの）と、６３ｂポップカウンタ（例、ドット積エンジン８１０－１から８１０－３に対するもの）とを有する例を示すが、これは必要条件ではない。相対的により低い重み付きの積和に対して用いられる分割ポップカウンタは６３ｂ分割ポップカウンタであってもよく（例、ここで追加のコンデンサ・バンクは、図７の例に示されるｘ_６３、ｗ_６３からｘ_１２６、ｗ_１２６ではなく、入力ｘ_３２、ｗ_３２からｘ_６２、ｗ_６２に対する３２のコンデンサを含む）、３つの最高の重み付きの積和に対して用いられる「通常の」ポップカウンタは３２ｂポップカウンタであってもよい。さまざまなその他の例が可能である。

【0074】

いくつかの実施形態において、ドット積計算エンジンをその最終結果に対するノイズ寄与によってソートし、ドット積エンジンの異なるセットに対して異なる精度回路アーキテクチャを選択する（例、最終結果に最も多くのノイズが寄与するドット積計算エンジンに対して最高精度のアーキテクチャを使用し、最終結果により少ないノイズが寄与するドット積計算エンジンに対して相対的により低い精度のアーキテクチャを使用する）ことによって、異なるドット積計算エンジン内の「重要な」計算と「重要でない」計算とを区別する混合信号積和回路が設計される。ドット積計算エンジンの異なるサブセットに対して用いられる異なるアーキテクチャは、さまざまなやり方で設計されてもよい。たとえば、いくつかの実施形態は、重要なビットごとのドット積を「正確に」（例、付加量子化ノイズなしに）行い、一方で重要性が低いビットごとのドット積を「近似的に」（例、付加的な量子化ノイズを伴って）行うことによって、より高い精度を提供する。有利には、重要性が低いビットごとのドット積の「近似的な」計算は、重要なビットごとのドット積の「正確な」計算に用いられる回路と比べて電力もしくは面積またはその両方の節約を提供する回路を使用することによって達成されてもよい。

【0075】

他の実施形態において、重要なビットごとのドット積を正確に（例、付加量子化ノイズなしに）行い、一方で重要性が低いビットごとのドット積を近似的に（例、付加的な量子化ノイズを伴って）行うことに加えて、またはその代わりに、重要なビットごとのドット積を行うドット積エンジンにおいて用いられる回路が、重要でないビットごとのドット積を行うドット積エンジンと比較して、（例、より大きいユニット・コンデンサ・サイズ、より低いノイズ・コンパレータなどによる）より大きい面積もしくは電力消費またはその両方を伴って設計されてもよい。これは、重要なドット積が重要でないドット積よりも低い計算エラー（例、ビット・エラー）を有することを確実にする（例、ビット・エラーは熱ノイズ、ユニット・コンデンサの製造上のばらつき、オフセットなどによって入り込むことがあるため）。

【0076】

図９は、低ノイズ混合信号積和演算を行うための方法９００を示す。方法９００はステップ９０２から開始され、第１および第２のデジタル入力のビットごとの乗算の異なる項の付加ノイズ寄与を決定する。たとえば図４および図５は、デジタル入力Ｘ_ｉおよびＷ_ｉの６３のビットごとの乗算に対する異なる項の付加ノイズ寄与の影響を決定することを示す。ステップ９０４において、第１および第２のデジタル入力のビットごとの乗算に対する決定された項の付加ノイズ寄与に基づいて項がソートされる。ステップ９０６において、第１および第２のデジタル入力のビットごとの乗算の２つ以上の異なる部分による使用のために、２つ以上の異なるドット積総和アーキテクチャが選択される。たとえば、第１および第２のデジタル入力のビットごとの乗算の第１の部分の実行による使用のために、第１の精度を有する第１のドット積総和アーキテクチャが選択されてもよく、第１および第２のデジタル入力のビットごとの乗算の第２の部分の実行による使用のために、第１の精度とは異なる第２の精度を有する少なくとも第２のドット積総和アーキテクチャが選択されてもよい。ビットごとの乗算の第１の部分は、第１および第２のデジタル入力のビットごとの乗算のｎの合計積和のうちのｋの最高の重み付きの積和を含んでもよく、一方でビットごとの乗算の第２の部分は、第１および第２のデジタル入力のビットごとの乗算の残りｎ－ｋの相対的により低い重み付きの積和の少なくとも一部分を含んでもよい。ステップ９０８において、選択された２つ以上の異なるドット積総和アーキテクチャを用いて、第１および第２のデジタル入力のビットごとの乗算の２つ以上の異なる部分が行われる。

【0077】

上記のとおり、第１および第２のデジタル入力のビットごとの乗算の３つ以上の異なる部分に対して、３つ以上の異なるドット積総和アーキテクチャが用いられてもよく、よってステップ９０６は、第１および第２のデジタル入力のビットごとの乗算の３つ以上の異なる部分に対して３つ以上の異なるドット積総和アーキテクチャを選択することを含んでもよい。たとえば、第１の部分は、第１および第２のデジタル入力のビットごとの乗算のｎの合計積和のうちのｋの最高の重み付きの積和に対するものであってもよく、第２の部分は、ｎの合計積和のうちのｌのその次に高い重み付きの積和に対するものであってもよく、第３の部分は、第１および第２のデジタル入力のビットごとの乗算の残りｎ－ｋ－ｌの相対的により低い重み付きの積和に対するものであってもよい。

【0078】

図１０は、例示的実施形態による人工知能システム１０００の例示的実装を示す。示されるとおり、システム１０００はデータ・セット１０１０と、ニューラル・ネットワーク・モデル１０２０と、低ノイズＡＤＣを有するＭＡＣユニット１０３０とを含む。本明細書の他の場所に記載されるとおり、低ノイズＡＤＣを有するＭＡＣユニット１０３０は、重要および重要でないビットごとのドット積計算に対して異なる精度を有するアーキテクチャを使用することを実装して、データ・セット１０１０を使用するニューラル・ネットワーク・モデル１０２０に対する計算を行い、この計算は、トレーニング・モードにおいてデータをトレーニングすること、または推論モードにおいてデータ・セットを推論することを含んでもよい。

【0079】

１つの例示的実施形態において、人工知能システム１０００は、１つ以上の特定用途向け集積回路（ＡＳＩＣ）によって実装される。ＡＳＩＣは、特定の目的のためにカスタマイズされた集積回路（ＩＣ）チップまたはデバイスであり、実行可能なプログラム・コード（例、命令コード、コンピュータ・プログラム・コードなど）によってプログラムされた論理（例、回路、プロセッサ、メモリなど）を含むか、または別様に特定の目的に対して構成される。この例示的な場合における特定の目的は、人工知能システム（例、機械学習アルゴリズム）の実装および実行である。ＡＳＩＣは、システム・オン・チップ（ＳｏＣ：ｓｙｓｔｅｍ－ｏｎ－ｃｈｉｐ）とも考えられる。１つ以上の例示的実施形態によって用いられ得るいくつかのＡＳＩＣ実装は、システムの構成（および再構成）を可能にするために、ユーザが選択可能な基本論理機能のセル・ライブラリ（例、たとえば切り換え、比較などのさまざまな機能を提供するための複数のＶＬＳＩトランジスタ・デバイスを含むマルチプレクサ、コンパレータなど）を使用する。

【0080】

さらに当然のことながら、人工知能システム１０００およびその一部は、たとえば１つ以上のマルチコア中央処理ユニット（ＣＰＵ）、１つ以上のグラフィックス処理ユニット（ＧＰＵ）、および１つ以上のフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）を含む技術などの、代替的な回路／プロセッサ・ベースの技術において実現され得る。いくつかの実施形態において、人工知能システム１０００は、２つ以上の回路／プロセッサ・ベースの技術（例、ＡＳＩＣ、ＣＰＵ、ＧＰＵ、ＦＰＧＡなど）の組み合わせとして実装され得る。

【0081】

本明細書に記載されるとおり、図１～１０に示される技術は、システムを提供することも含んでもよく、このシステムは別個のソフトウェア・モジュールを含み、別個のソフトウェア・モジュールの各々は、有形コンピュータ可読記録可能記憶媒体において実装される。たとえば、すべてのモジュール（またはその任意のサブセット）が同じ媒体に存在してもよいし、各々が異なる媒体に存在してもよい。モジュールは、図面に示されるコンポーネントもしくは本明細書に記載されるコンポーネントまたはその両方のいずれかまたはすべてを含み得る。本発明の実施形態において、モジュールは、たとえばハードウェア・プロセッサなどにおいて実行され得る。よって、ハードウェア・プロセッサにおいて実行される上述のシステムの別個のソフトウェア・モジュールを用いて、方法ステップが実行され得る。さらに、コンピュータ・プログラム製品は、別個のソフトウェア・モジュールを有するシステムのプロビジョニングを含む、本明細書に記載される少なくとも１つの方法ステップを行うために実行されるように適合されたコードを有する有形コンピュータ可読記録可能記憶媒体を含み得る。

【0082】

加えて、図１～１０に示される技術は、データ処理システムのコンピュータ可読記憶媒体に記憶されるコンピュータ使用可能プログラム・コードを含み得るコンピュータ・プログラム製品を介して実装されてもよく、このコンピュータ使用可能プログラム・コードは、リモート・データ処理システムからネットワークを通じてダウンロードされたものである。加えて、本発明の実施形態において、コンピュータ・プログラム製品はサーバ・データ処理システムのコンピュータ可読記憶媒体に記憶されたコンピュータ使用可能プログラム・コードを含んでもよく、このコンピュータ使用可能プログラム・コードは、リモート・データ処理システムによるコンピュータ可読記憶媒体での使用のために、ネットワークを通じてリモート・システムにダウンロードされる。

【0083】

本発明の実施形態またはそのエレメントは、メモリと、そのメモリに結合された少なくとも１つのプロセッサとを含み、かつ例示的な方法ステップを行うように構成された装置の形態で実装され得る。

【0084】

いくつかの実施形態において、装置は少なくとも１つのプロセッサと、命令コードを含む少なくとも１つのメモリとを含む。少なくとも１つのメモリおよび命令コードは、少なくとも１つのプロセッサによって、第１および第２のデジタル入力のビットごとの乗算の第１の部分を第１の精度で行うことと、第１および第２のデジタル入力のビットごとの乗算の少なくとも第２の部分を第１の精度とは異なる第２の精度で行うこととを装置に少なくとも行わせるように構成される。

【0085】

第１および第２のデジタル入力のビットごとの乗算は、第１および第２のデジタル入力のビットごとのドット積の重み付きの和のセットの計算を含んでもよく、第１および第２のデジタル入力のビットごとの乗算の第１の部分は、第１および第２のデジタル入力のビットごとのドット積の重み付きの和のセットの第１のサブセットを含み、第１および第２のデジタル入力のビットごとの乗算の第２の部分は、第１および第２のデジタル入力のビットごとのドット積の重み付きの和のセットの第２のサブセットを含む。第１および第２のデジタル入力のビットごとのドット積の重み付きの和のセットは、第１および第２のデジタル入力のビットごとのドット積のｎの重み付きの和を含んでもよく、第１の精度で行われるビットごとの乗算の第１の部分は、第１および第２のデジタル入力のビットごとのドット積のｋの最高の重み付きの和の計算を含み、第２の精度で行われるビットごとの乗算の第２の部分は、第１および第２のデジタル入力のビットごとのドット積の残りｎ－ｋの重み付きの和の少なくとも一部分の計算を含む。ｋの値は、第１および第２のデジタル入力のビットごとの乗算の異なる項の付加ノイズ寄与の決定に少なくとも部分的に基づいて選択されてもよい。

【0086】

第１および第２のデジタル入力のビットごとの乗算は、ビットごとのドット積総和ユニットのセットのうちの１つを用いて計算されてもよく、第１の精度は、第１および第２のデジタル入力のビットごとの乗算の第１の部分を行うビットごとのドット積総和ユニットのセットの第１のサブセットに対する第１のタイプのハードウェアを用いて提供され、第２の精度は、第１および第２のデジタル入力のビットごとの乗算の第２の部分を行うビットごとのドット積総和ユニットのセットの第２のサブセットに対する、第１のタイプのハードウェアとは異なる第２のタイプのハードウェアを用いて提供される。

【0087】

ビットごとのドット積総和ユニットのセットの各々は、ポップカウンタを含んでもよい。ビットごとのドット積総和ユニットのセットの第１のサブセットのポップカウンタは第１の分解能を有してもよく、ビットごとのドット積総和ユニットのセットの第２のサブセットのポップカウンタは第１の分解能とは異なる第２の分解能を有してもよい。

【0088】

ビットごとのドット積総和ユニットのセットの各々は、コンパレータを含むＳＡＲＡＤＣを使用して実装されるポップカウンタを含んでもよい。ビットごとのドット積総和ユニットのセットの第１のサブセットのＳＡＲＡＤＣにおいて使用される第１のタイプのコンパレータは第１のノイズ・プロファイルを有してもよく、ビットごとのドット積総和ユニットのセットの第２のサブセットのＳＡＲＡＤＣにおいて使用される第２のタイプのコンパレータは第１のノイズ・プロファイルとは異なる第２のノイズ・プロファイルを有してもよい。ビットごとのドット積総和ユニットのセットの第１のサブセットのＳＡＲＡＤＣにおいて使用される第１のタイプのコンパレータは、付加的または代替的に第１のオフセット・キャンセル精度を有してもよく、ビットごとのドット積総和ユニットのセットの第２のサブセットのＳＡＲＡＤＣにおいて使用される第２のタイプのコンパレータは、第１のオフセット・キャンセル精度とは異なる第２のオフセット・キャンセル精度を有してもよい。

【0089】

ビットごとのドット積総和ユニットのセットの各々は、複数のコンデンサを含むＳＡＲＡＤＣを使用して実装されるポップカウンタを含んでもよく、ビットごとのドット積総和ユニットのセットの第１のサブセットのＳＡＲＡＤＣにおいて使用される複数のコンデンサはそれぞれの第１のサイズを有してもよく、ビットごとのドット積総和ユニットのセットの第２のサブセットのＳＡＲＡＤＣにおいて使用される複数のコンデンサは第１のサイズとは異なるそれぞれの第２のサイズを有してもよい。ビットごとのドット積総和ユニットのセットの第１のサブセットは、付加的または代替的に、第１の数の入力を合計する複数の追加のコンデンサに結合されたＳＡＲＡＤＣの単一のインスタンスを含んでもよく、ビットごとのドット積総和ユニットのセットの第２のサブセットの各々は、第１の数の入力よりも少ない第２の数の入力を各々合計するＳＡＲＡＤＣの２つ以上のインスタンスを含んでもよい。

【0090】

いくつかの実施形態において、積和演算を行う方法は、第１および第２のデジタル入力のビットごとの乗算の第１の部分を第１の精度で行うステップと、第１および第２のデジタル入力のビットごとの乗算の少なくとも第２の部分を第１の精度とは異なる第２の精度で行うステップとを含む。この方法は、命令コードを実行するように構成された処理回路によって実行される。

【0091】

【0092】

いくつかの実施形態において、製造物は、実行可能な命令コードが具現化された非一時的コンピュータ可読記憶媒体を含み、この実行可能な命令コードはプロセッサによって実行されるときに、第１および第２のデジタル入力のビットごとの乗算の第１の部分を第１の精度で行うステップと、第１および第２のデジタル入力のビットごとの乗算の少なくとも第２の部分を第１の精度とは異なる第２の精度で行うステップとをプロセッサに行わせる。

【0093】

【0094】

いくつかの実施形態において、システムは、第１および第２のベクトルのバイナリ乗算を行うように構成された積和ユニットを含む。積和ユニットは、第１および第２のベクトルの一部分のビットごとの乗算を行ってデジタル出力を生成するように各々構成された２つ以上のビットごとのドット積総和ユニットのセットを含む。２つ以上のビットごとのドット積総和ユニットのセットの各々のビットごとのドット積総和ユニットは、ＳＡＲＡＤＣユニットのインスタンスに結合されたビットごとのドット積総和ユニットの少なくとも１つのインスタンスを含み、ＳＡＲＡＤＣユニットは、ドット積総和ユニットのアナログ出力をデジタル出力の少なくとも一部分に変換するように構成される。第１の精度を有する２つ以上のビットごとのドット積総和ユニットのセットの第１のサブセットは、第１および第２のベクトルのビットごとの乗算の第１の部分を計算するために使用され、第１の精度とは異なる第２の精度を有する２つ以上のビットごとのドット積総和ユニットのセットの第２のサブセットは、第１および第２のベクトルのビットごとの乗算の第２の部分を計算するために使用される。

【0095】

第１および第２のベクトルのビットごとの乗算は、第１および第２のベクトルのビットごとのドット積の重み付きの和のセットの計算を含んでもよく、第１および第２のベクトルのビットごとの乗算の第１の部分は、第１および第２のベクトルのビットごとのドット積の重み付きの和のセットの第１のサブセットを含み、第１および第２のベクトルのビットごとの乗算の第２の部分は、第１および第２のベクトルのビットごとのドット積の重み付きの和のセットの第２のサブセットを含む。第１および第２のベクトルのビットごとのドット積の重み付きの和のセットは、第１および第２のベクトルのビットごとのドット積のｎの重み付きの和を含んでもよく、第１および第２のベクトルのビットごとのドット積の重み付きの和のセットの第１のサブセットは、第１および第２のベクトルのビットごとのドット積のｋの最高の重み付きの和を含み、第１および第２のベクトルのビットごとのドット積の重み付きの和のセットの第２のサブセットは、第１および第２のベクトルのビットごとのドット積の残りｎ－ｋの重み付きの和の少なくとも一部分を含む。

【0096】

このシステムは、人工知能システムの一部、もしくは１つ以上の集積回路の一部、またはその両方として実装されてもよい。

【0097】

いくつかの実施形態において、デバイスは、第１および第２のベクトルのバイナリ乗算を行うように構成された積和回路を含む。積和回路は、第１および第２のベクトルの一部分のビットごとの乗算を行ってデジタル出力を生成するように各々構成されたビットごとのドット積総和回路の２つ以上のインスタンスのセットを含む。ビットごとのドット積総和回路の２つ以上のインスタンスのセットのビットごとのドット積総和回路の各インスタンスは、ＳＡＲＡＤＣ回路の少なくとも１つのインスタンスに結合されたビットごとのドット積計算回路の少なくとも１つのインスタンスを含み、ＳＡＲＡＤＣ回路は、ビットごとのドット積計算回路のアナログ出力をデジタル出力の少なくとも一部分に変換するように構成される。第１の精度を有するビットごとのドット積総和回路の２つ以上のインスタンスのセットの第１のサブセットは、第１および第２のベクトルのビットごとの乗算の第１の部分を計算するために使用され、第１の精度とは異なる第２の精度を有するビットごとのドット積総和回路の２つ以上のインスタンスのセットの第２のサブセットは、第１および第２のベクトルのビットごとの乗算の第２の部分を計算するために使用される。

【0098】

【0099】

ビットごとのドット積総和回路の２つ以上のインスタンスのセットの第１のサブセットは第１の分解能を有してもよく、ビットごとのドット積総和回路の２つ以上のインスタンスの第２のサブセットは第１の分解能とは異なる第２の分解能を有してもよい。

【0100】

ビットごとのドット積総和回路の２つ以上のインスタンスのセットの各々は、複数の論理ＡＮＤゲートを含んでもよく、各々の論理ＡＮＤゲートは入力として第１のベクトルの第１のベクトル要素と、第２のベクトルの第２のベクトル要素とを受信し、複数の論理ＡＮＤゲートのそれぞれの出力は複数のコンデンサの第１のプレートに結合され、ビットごとのドット積総和回路の２つ以上のインスタンスのセットの第１のサブセットの各々における複数のコンデンサはそれぞれの第１のサイズを有してもよく、ビットごとのドット積総和回路の２つ以上のインスタンスのセットの第２のサブセットの各々における複数のコンデンサは第１のサイズとは異なるそれぞれの第２のサイズを有してもよい。

【0101】

ビットごとのドット積総和回路の２つ以上のインスタンスのセットの各々のＳＡＲＡＤＣ回路はコンパレータを含んでもよく、ビットごとのドット積総和回路の２つ以上のインスタンスのセットの第１のサブセットのＳＡＲＡＤＣ回路において使用される第１のタイプのコンパレータは、ビットごとのドット積総和回路の２つ以上のインスタンスのセットの第２のサブセットのＳＡＲＡＤＣ回路において使用される第２のタイプのコンパレータとは異なる。第１のタイプのコンパレータは第１のノイズ・プロファイルを有してもよく、第２のタイプのコンパレータは第１のノイズ・プロファイルとは異なる第２のノイズ・プロファイルを有してもよい。第１のタイプのコンパレータは付加的または代替的に第１のオフセット・キャンセル精度を有してもよく、第２のタイプのコンパレータは第１のオフセット・キャンセル精度とは異なる第２のオフセット・キャンセル精度を有してもよい。

【0102】

ビットごとのドット積総和回路の２つ以上のインスタンスのセットの第１のサブセットにおけるビットごとのドット積総和回路の各インスタンスは、ビットごとのドット積計算回路およびＳＡＲＡＤＣ回路の少なくとも２つのインスタンスを含んでもよく、ビットごとのドット積総和回路の２つ以上のインスタンスの第２のサブセットにおけるビットごとのドット積総和回路の各インスタンスは、追加のコンデンサ・バンクに結合されたビットごとのドット積計算回路およびＳＡＲＡＤＣ回路の単一のインスタンスを含んでもよい。ビットごとのドット積総和回路の２つ以上のインスタンスのセットの第１のサブセットにおけるビットごとのドット積総和回路の各インスタンスのビットごとのドット積計算回路およびＳＡＲＡＤＣ回路の少なくとも２つのインスタンスの各々は、第１の数の入力を合計してもよく、ビットごとのドット積総和回路の２つ以上のインスタンスのセットの第２のサブセットにおけるビットごとのドット積総和回路の各インスタンスの追加のコンデンサ・バンクに結合されたビットごとのドット積計算回路およびＳＡＲＡＤＣ回路の単一のインスタンスの各々は、第１の数の入力よりも大きい第２の数の入力を合計してもよい。

【0103】

加えて、本発明の実施形態は、コンピュータまたはワークステーションにおいて実行されるソフトウェアを使用し得る。図１１を参照すると、こうした実装は、たとえばプロセッサ１１０２と、メモリ１１０４と、たとえばディスプレイ１１０６およびキーボード１１０８などによって形成される入力／出力インターフェースとなどを使用してもよい。本明細書において使用される「プロセッサ」という用語は、たとえばマルチコアＣＰＵ、ＧＰＵ、ＦＰＧＡ、もしくはたとえば１つ以上のＡＳＩＣなどのその他の形態の処理回路、またはその組み合わせを含む処理デバイスなどの任意の処理デバイスを含むことが意図される。さらに、「プロセッサ」という用語は２つ以上の別個のプロセッサを示してもよい。「メモリ」という用語は、プロセッサ（例、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、ＡＳＩＣなど）に関連するメモリ、たとえばＲＡＭ（ランダム・アクセス・メモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ））、ＲＯＭ（リード・オンリ・メモリ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ））、固定メモリ・デバイス（たとえばハード・ドライブなど）、取り外し可能なメモリ・デバイス（たとえばディスケットなど）、およびフラッシュ・メモリなどを含むことが意図される。加えて、本明細書において使用される「入力／出力インターフェース」という語句は、たとえば、処理ユニットにデータを入力するための機構（たとえばマウスなど）、および処理ユニットに関連する結果を提供するための機構（たとえばプリンタなど）などを含むことが意図される。プロセッサ１１０２と、メモリ１１０４と、たとえばディスプレイ１１０６およびキーボード１１０８などの入力／出力インターフェースとは、たとえばデータ処理ユニット１１１２の一部としてのバス１１１０などを介して相互接続され得る。コンピュータ・ネットワークとインターフェースするために提供され得るたとえばネットワーク・カードなどのネットワーク・インターフェース１１１４、および媒体１１１８とインターフェースするために提供され得るたとえばディスケットまたはＣＤ－ＲＯＭドライブなどの媒体インターフェース１１１６に対しても、たとえばバス１１１０などを介した好適な相互接続が提供され得る。

【0104】

したがって、本明細書に記載される本発明の方法を行うための命令またはコードを含むコンピュータ・ソフトウェアは、関連するメモリ・デバイス（たとえばＲＯＭ、固定または取り外し可能なメモリなど）に記憶されてもよく、使用される準備ができたときに、部分的または全体的に（たとえばＲＡＭなどに）ロードされて、ＣＰＵによって実装されてもよい。こうしたソフトウェアはファームウェア、常駐ソフトウェア、およびマイクロコードなどを含み得るが、それに限定されない。

【0105】

プログラム・コードの記憶もしくは実行またはその両方に好適なデータ処理システムは、システム・バス１１１０を通じてメモリ・エレメント１１０４に直接的または間接的に結合された少なくとも１つのプロセッサ１１０２を含むだろう。メモリ・エレメントは、プログラム・コードの実際の実装の際に使用されるローカル・メモリと、バルク・ストレージと、実装の際にバルク・ストレージからコードを読み出さなければならない回数を減らすために少なくとも何らかのプログラム・コードの一時的なストレージを提供するキャッシュ・メモリとを含み得る。

【0106】

入力／出力（Ｉｎｐｕｔ／ｏｕｔｐｕｔ）すなわちＩ／Ｏデバイス（キーボード１１０８、ディスプレイ１１０６、およびポインティング・デバイスなどを含むがそれに限定されない）は、システムに直接（たとえばバス１１１０などを介して）結合され得るか、または介在するＩ／Ｏコントローラ（明瞭にするために省略される）を通じて結合され得る。

【0107】

介在するプライベートまたはパブリック・ネットワークを通じてデータ処理システムが他のデータ処理システムまたはリモート・プリンタまたはストレージ・デバイスに結合されることを可能にするために、システムにはたとえばネットワーク・インターフェース１１１４などのネットワーク・アダプタも結合されてもよい。モデム、ケーブル・モデム、およびイーサネット（Ｅｔｈｅｒｎｅｔ）（Ｒ）・カードは、現在利用可能なタイプのネットワーク・アダプタのうちのほんのいくつかである。

【0108】

請求項を含む本明細書において使用される「サーバ」は、サーバ・プログラムを実行する物理データ処理システム（たとえば、図１１に示されるシステム１１１２など）を含む。こうした物理サーバは、ディスプレイおよびキーボードを含んでも含まなくてもよいことが理解されるだろう。

【0109】

本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、もしくはコンピュータ・プログラム製品、またはその組み合わせであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（または複数の媒体）を含んでもよい。

【0110】

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶できる有形デバイスであり得る。コンピュータ可読記憶媒体は、たとえば電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、または前述の任意の好適な組み合わせなどであってもよいが、それに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは以下を含む。ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリ・メモリ（ＲＯＭ）、消去可能プログラマブル・リード・オンリ・メモリ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）（ＥＰＲＯＭまたはフラッシュ・メモリ）、ＳＲＡＭ、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ（ＣＤ－ＲＯＭ：ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、デジタル多用途ディスク（ＤＶＤ：ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）、メモリ・スティック、フレキシブル・ディスク、機械的にコード化されたデバイス、たとえばパンチ・カードまたは記録された命令を有する溝の中の隆起構造体など、および前述の任意の好適な組み合わせ。本明細書において用いられるコンピュータ可読記憶媒体は、たとえば電波もしくはその他の自由に伝播する電磁波、導波路もしくはその他の伝送媒体を通じて伝播する電磁波（例、光ファイバ・ケーブルを通過する光パルス）、またはワイヤを通じて伝送される電気信号など、それ自体が一時的な信号であると解釈されるべきではない。

【0111】

本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスにダウンロードされ得るか、あるいはたとえばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、もしくは無線ネットワーク、またはその組み合わせなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードされ得る。ネットワークは銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、またはその組み合わせを含んでもよい。各コンピューティング／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信して、そのコンピュータ可読プログラム命令をそれぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。

【0112】

本発明の動作を実行するためのコンピュータ可読プログラム命令はアセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ：ｉｎｓｔｒｕｃｔｉｏｎ－ｓｅｔ－ａｒｃｈｉｔｅｃｔｕｒｅ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路に対する構成データ、または１つ以上のプログラミング言語の任意の組み合わせで書かれたソース・コードもしくはオブジェクト・コードであってもよく、このプログラミング言語はオブジェクト指向プログラミング言語、たとえばＳｍａｌｌｔａｌｋ、またはＣ＋＋など、および手続き型プログラミング言語、たとえば「Ｃ」プログラミング言語または類似のプログラミング言語などを含む。コンピュータ可読プログラム命令は、すべてがユーザのコンピュータで実行されてもよいし、スタンドアロン・ソフトウェア・パッケージとして部分的にユーザのコンピュータで実行されてもよいし、一部がユーザのコンピュータで、一部がリモート・コンピュータで実行されてもよいし、すべてがリモート・コンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ：ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）または広域ネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されてもよいし、（たとえば、インターネット・サービス・プロバイダを用いてインターネットを通じて）外部コンピュータへの接続が行われてもよい。いくつかの実施形態において、たとえばプログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル論理アレイ（ＰＬＡ：ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃａｒｒａｙｓ）などを含む電子回路は、本発明の態様を実行するために電子回路をパーソナライズするためのコンピュータ可読プログラム命令の状態情報を使用することによって、コンピュータ可読プログラム命令を実行してもよい。

【0113】

本明細書においては、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照して、本発明の態様を説明している。フローチャート図もしくはブロック図またはその両方の各ブロック、およびフローチャート図もしくはブロック図またはその両方におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装され得ることが理解されるだろう。

【0114】

これらのコンピュータ可読プログラム命令は、コンピュータか、またはマシンを生成するためのその他のプログラマブル・データ処理装置のプロセッサに提供されることによって、そのコンピュータまたはその他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートもしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能／動作を実装するための手段を生じてもよい。これらのコンピュータ可読プログラム命令は、コンピュータ、プログラマブル・データ処理装置、もしくはその他のデバイス、またはその組み合わせに特定の方式で機能するように指示できるコンピュータ可読記憶媒体にも記憶されることによって、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートもしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能／動作の態様を実装する命令を含む製造物を含んでもよい。

【0115】

コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにもロードされて、コンピュータに実装されるプロセスを生成するためにコンピュータ、他のプログラマブル装置、または他のデバイスにおいて一連の動作ステップを実行させることによって、そのコンピュータ、他のプログラマブル装置、または他のデバイスにおいて実行される命令が、フローチャートもしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能／動作を実装してもよい。

【0116】

図面におけるフローチャートおよびブロック図は、本発明のさまざまな実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能、および動作を示す。この点に関して、フローチャートまたはブロック図の各ブロックは、命令のモジュール、セグメント、または一部分を表してもよく、これは指定される論理機能（単数または複数）を実装するための１つ以上の実行可能命令を含む。いくつかの代替的実装において、ブロック内に示される機能は、図面に示されるものとは異なる順序で起こってもよい。たとえば、連続して示される２つのブロックは、実際には１つのステップとして達成されても、同時に実行されても、部分的もしくは全体的に時間が重複する方式で実質的に同時に実行されてもよく、または関与する機能に依存して、これらのブロックがときに逆の順序で実行されてもよい。加えて、ブロック図もしくはフローチャート図またはその両方の各ブロック、およびブロック図もしくはフローチャート図またはその両方のブロックの組み合わせは、指定された機能もしくは動作を行うか、または特定目的のハードウェアおよびコンピュータ命令の組み合わせを実行する特定目的のハードウェア・ベースのシステムによって実装され得ることが注目されるだろう。

【0117】

なお、本明細書に記載される任意の方法は、コンピュータ可読記憶媒体において実装される別個のソフトウェア・モジュールを含むシステムを提供する追加のステップを含み得る。そのモジュールは、たとえば、本明細書において詳述されるコンポーネントのいずれかまたはすべてを含み得る。次いで、この方法ステップは、ハードウェア・プロセッサ１１０２において実行される上述のシステムの別個のソフトウェア・モジュールもしくはサブモジュールまたはその両方を用いて実行され得る。さらに、コンピュータ・プログラム製品は、別個のソフトウェア・モジュールを有するシステムのプロビジョニングを含む、本明細書に記載される少なくとも１つの方法ステップを実行するように実装されるように適合されたコードを有するコンピュータ可読記憶媒体を含み得る。

【0118】

いずれの場合にも、本明細書において示されるコンポーネントは、たとえば特定用途向け集積回路（単数または複数）（ＡＳＩＣ）、機能回路、および関連メモリを有する適切にプログラムされたデジタル・コンピュータなどのさまざまな形態のハードウェア、ソフトウェア、またはその組み合わせにおいて実装されてもよいことが理解されるべきである。本明細書において提供される本発明の教示を与えられたとき、関連技術の当業者は本発明のコンポーネントの他の実装を想起し得るだろう。

【0119】

本開示はクラウド・コンピューティングに対する詳細な説明を含むが、本明細書に記述される教示の実装はクラウド・コンピューティング環境に限定されないことが理解されるべきである。むしろ本発明の実施形態は、現在公知であるか、または後に開発される任意の他のタイプのコンピューティング環境と共に実装され得る。

【0120】

クラウド・コンピューティングは、最小限の管理努力またはサービスのプロバイダとの対話によって迅速にプロビジョニングおよびリリースされ得る構成可能なコンピューティング・リソース（例、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共有プールへの便利なオンデマンド・ネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも５つの特性、少なくとも３つのサービス・モデル、および少なくとも４つの展開モデルを含んでもよい。

【0121】

特性は以下のとおりである。

【0122】

オンデマンド・セルフサービス。クラウド消費者は、サービスのプロバイダとの人的対話を必要とせずに、必要に応じて自動的に、たとえばサーバ時間およびネットワーク・ストレージなどのコンピューティング機能を一方的にプロビジョニングできる。

【0123】

広範なネットワーク・アクセス。機能は、ネットワークを通じて利用可能であり、異種のシンまたはシック・クライアント・プラットフォーム（例、携帯電話、ラップトップ、およびＰＤＡ）による使用を促進する標準的機構を通じてアクセスされる。

【0124】

リソース・プール。マルチテナント・モデルを用いて複数の消費者にサービスするために、プロバイダのコンピューティング・リソースはプールされ、要求に従って異なる物理および仮想リソースが動的に割り当ておよび再割り当てされる。消費者は一般的に、提供されるリソースの正確な場所に対する制御も知識も有さないが、より高い抽象化レベルにおける場所（たとえば国、州、またはデータセンタなど）を特定できてもよいという点で、場所独立性の意味が存在する。

【0125】

迅速な弾力性。機能は、素早くスケール・アウトするために場合によっては自動的に、迅速かつ弾力的にプロビジョニングされ、かつ素早くスケール・インするために迅速にリリースされ得る。消費者にとって、プロビジョニングのために利用可能な機能はしばしば無制限にみえ、任意のときに任意の量を購入できる。

【0126】

従量制サービス。クラウド・システムは、サービスのタイプ（たとえばストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウントなど）に対して適切な何らかの抽象化レベルにおいて計測機能を利用することによって、リソースの使用を自動的に制御および最適化する。リソースの使用をモニタ、制御、および報告して、使用されるサービスのプロバイダおよび消費者の両方に対する透明性を提供できる。

【0127】

サービス・モデルは次のとおりである。

【0128】

サービスとしてのソフトウェア（ＳａａＳ：ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）。消費者に提供される機能は、クラウド・インフラストラクチャにおいて動作するプロバイダのアプリケーションの使用である。アプリケーションは、さまざまなクライアント・デバイスからたとえばウェブ・ブラウザ（たとえば、ウェブ・ベースのｅメールなど）などのシン・クライアント・インターフェースを通じてアクセス可能である。消費者はネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション機能さえも含む基礎的なクラウド・インフラストラクチャを管理または制御することはなく、例外となり得るのは限られたユーザ特有のアプリケーション構成設定である。

【0129】

サービスとしてのプラットフォーム（ＰａａＳ：ＰｌａｔｆｏｒｍａｓａＳｅｒｖｉｃｅ）。消費者に提供される機能は、プロバイダによってサポートされるプログラミング言語およびツールを用いて作成された、消費者が作成または取得したアプリケーションのクラウド・インフラストラクチャへの展開である。消費者はネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎的なクラウド・インフラストラクチャを管理または制御することはないが、展開されたアプリケーションおよび場合によってはアプリケーション・ホスティング環境構成に対する制御を有する。

【0130】

サービスとしてのインフラストラクチャ（ＩａａＳ：ＩｎｆｒａｓｔｒｕｃｔｕｒｅａｓａＳｅｒｖｉｃｅ）。消費者に提供される機能は、オペレーティング・システムおよびアプリケーションを含み得る、消費者が任意のソフトウェアを展開および実行することが可能な処理、ストレージ、ネットワーク、およびその他の基本的なコンピューティング・リソースのプロビジョニングである。消費者は基礎的なクラウド・インフラストラクチャを管理または制御することはないが、オペレーティング・システム、ストレージ、展開されたアプリケーションに対する制御、および場合によってはネットワーク形成コンポーネント（たとえばホスト・ファイアウォールなど）の選択に対する限られた制御を有する。

【0131】

展開モデルは次のとおりである。

【0132】

プライベート・クラウド。このクラウド・インフラストラクチャは、ある組織に対してのみ操作される。これはその組織またはサード・パーティによって管理されてもよく、オンプレミスまたはオフプレミスに存在してもよい。

【0133】

コミュニティ・クラウド。このクラウド・インフラストラクチャは複数の組織によって共有され、共通する関心事項（たとえば任務、セキュリティ要件、ポリシー、およびコンプライアンスの検討など）を有する特定のコミュニティをサポートする。これはそれらの組織またはサード・パーティによって管理されてもよく、オンプレミスまたはオフプレミスに存在してもよい。

【0134】

パブリック・クラウド。このクラウド・インフラストラクチャは、一般人または大規模な産業グループに対して利用可能にされ、クラウド・サービスを販売する組織が所有している。

【0135】

ハイブリッド・クラウド。このクラウド・インフラストラクチャは２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）の複合体であり、それらのクラウドは独自のエンティティにとどまるが、データおよびアプリケーション・ポータビリティを可能にする標準または独自の技術（たとえば、クラウド間のロード・バランシングのためのクラウド・バースティングなど）によって共に結合される。

【0136】

クラウド・コンピューティング環境はサービス指向型であり、ステートレス性、低結合性、モジュラリティ、およびセマンティックな相互運用性に焦点を合わせている。クラウド・コンピューティングの中心には、相互接続されたノードのネットワークを含むインフラストラクチャがある。

【0137】

ここで図１２を参照すると、例示的なクラウド・コンピューティング環境１２５０が示される。示されるとおり、クラウド・コンピューティング環境１２５０は１つ以上のクラウド・コンピューティング・ノード１２１０を含み、たとえばパーソナル・デジタル・アシスタント（ＰＤＡ：ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ）もしくは携帯電話１２５４Ａ、デスクトップ・コンピュータ１２５４Ｂ、ラップトップ・コンピュータ１２５４Ｃ、または自動車のコンピュータ・システム１２５４Ｎ、あるいはその組み合わせなどの、クラウド消費者によって用いられるローカル・コンピュータ・デバイスが、このクラウド・コンピューティング・ノード１２１０によって通信してもよい。ノード１２１０は互いに通信してもよい。これらのノードは、たとえば上述したプライベート、コミュニティ、パブリック、もしくはハイブリッド・クラウド、またはその組み合わせなどの１つ以上のネットワークにおいて、物理的または仮想的にグループ化されてもよい（図示せず）。このことは、クラウド・コンピューティング環境１２５０がインフラストラクチャ、プラットフォーム、もしくはソフトウェア、またはその組み合わせを、クラウド消費者がそれに対するリソースをローカル・コンピュータ・デバイスにおいて維持する必要のないサービスとして提供することを可能にする。図１２に示されるコンピュータ・デバイス１２５４Ａ～Ｎのタイプは単なる例示であることが意図されており、コンピューティング・ノード１２１０およびクラウド・コンピューティング環境１２５０は、任意のタイプのネットワークもしくはネットワーク・アドレス可能接続（例、ウェブ・ブラウザを使用するもの）またはその両方を通じて、任意のタイプのコンピュータ・デバイスと通信できることが理解される。

【0138】

ここで図１３を参照すると、クラウド・コンピューティング環境１２５０（図１２）によって提供される機能的抽象化レイヤのセットが示される。図１３に示されるコンポーネント、レイヤ、および機能は単なる例示であることが意図されており、本発明の実施形態はそれらに限定されないことが予め理解されるべきである。示されるとおり、以下のレイヤおよび対応する機能が提供される。

【0139】

ハードウェアおよびソフトウェア・レイヤ１３６０は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム１３６１、ＲＩＳＣ（縮小命令セット・コンピュータ（ＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ））アーキテクチャ・ベースのサーバ１３６２、サーバ１３６３、ブレード・サーバ１３６４、ストレージ・デバイス１３６５、ならびにネットワークおよびネットワーク形成コンポーネント１３６６を含む。いくつかの実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア１３６７およびデータベース・ソフトウェア１３６８を含む。

【0140】

仮想化レイヤ１３７０が提供する抽象化レイヤから、仮想エンティティの以下の例が提供されてもよい。仮想サーバ１３７１、仮想ストレージ１３７２、仮想プライベート・ネットワークを含む仮想ネットワーク１３７３、仮想アプリケーションおよびオペレーティング・システム１３７４、ならびに仮想クライアント１３７５。

【0141】

一例において、管理レイヤ１３８０は以下に記載される機能を提供してもよい。リソース・プロビジョニング１３８１は、クラウド・コンピューティング環境内でタスクを実行するために使用されるコンピューティング・リソースおよびその他のリソースの動的調達を提供する。計測および価格決定１３８２は、クラウド・コンピューティング環境内でリソースが使用される際のコスト追跡と、これらのリソースの消費に対する課金またはインボイス作成とを提供する。一例において、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含んでもよい。セキュリティは、クラウド消費者およびタスクに対するアイデンティティ検証、ならびにデータおよびその他のリソースの保護を提供する。ユーザ・ポータル１３８３は、消費者およびシステム管理者に対するクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理１３８４は、要求されるサービス・レベルが満たされるようにクラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス・レベル・アグリーメント（ＳＬＡ：ＳｅｒｖｉｃｅＬｅｖｅｌＡｇｒｅｅｍｅｎｔ）計画および実現１３８５は、ＳＬＡによって将来の要求が予測されるクラウド・コンピューティング・リソースに対する事前の取り決めおよびその調達を提供する。

【0142】

ワークロード・レイヤ１３９０は、クラウド・コンピューティング環境が使用され得る機能の例を提供する。このレイヤから提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション１３９１、ソフトウェア開発およびライフサイクル管理１３９２、仮想教室の教育配信１３９３、データ分析処理１３９４、トランザクション処理１３９５、および本発明の１つ以上の実施形態による人工知能アルゴリズム（低ノイズＭＳ－ＤＰＥ／ＭＳ－ＭＡＣ計算による）処理１３９６を含む。

【0143】

本明細書において用いられる用語は、単に特定の実施形態を説明する目的のためのものであり、本発明を限定することは意図されていない。本明細書において用いられる単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈が別様を明確に示さない限り複数形も含むことが意図される。この明細書において用いられるときの「含む（ｃｏｍｐｒｉｓｅｓ）」もしくは「含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」またはその両方の用語は、記述される特徴、ステップ、動作、エレメント、もしくはコンポーネント、またはその組み合わせの存在を特定するが、別の特徴、ステップ、動作、エレメント、コンポーネント、もしくはそのグループ、またはその組み合わせの存在または追加を除外しないことがさらに理解されるだろう。

【0144】

本発明のさまざまな実施形態の記載は例示の目的のために提供されているが、開示される実施形態に対して網羅的または限定的になることは意図されていない。記載される実施形態の範囲および思想から逸脱することなく、当業者には多くの修正および変形が明らかになるだろう。本明細書で使用される用語は、実施形態の原理、実際の適用、もしくは市場で見出される技術に対する技術的改善を最もよく説明するため、または他の当業者が本明細書で開示される実施形態を理解できるようにするために選択されたものである。

【図1A】