特表2024-540786 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル　インコーポレイテッドの特許一覧

特表2024-540786大規模探索によるゼロロス低消費電力近似ＤＮＮアクセラレータの合成

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-11-06

(54)【発明の名称】大規模探索によるゼロロス低消費電力近似ＤＮＮアクセラレータの合成

(51)【国際特許分類】

G06F 17/16 20060101AFI20241029BHJP

G06N 3/063 20230101ALI20241029BHJP

G06F 15/80 20060101ALI20241029BHJP

G06F 30/27 20200101ALI20241029BHJP

G06F 30/327 20200101ALI20241029BHJP

【ＦＩ】

G06F17/16 M

G06N3/063

G06F15/80

G06F30/27

G06F30/327

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023571641

(86)(22)【出願日】2022-10-27

(85)【翻訳文提出日】2023-11-17

(86)【国際出願番号】 US2022048055

(87)【国際公開番号】W WO2023091281

(87)【国際公開日】2023-05-25

(31)【優先権主張番号】17/532,572

(32)【優先日】2021-11-22

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＶＥＲＩＬＯＧ

(71)【出願人】

【識別番号】502208397

【氏名又は名称】グーグルエルエルシー

【氏名又は名称原語表記】ＧｏｏｇｌｅＬＬＣ

【住所又は居所原語表記】１６００ＡｍｐｈｉｔｈｅａｔｒｅＰａｒｋｗａｙ９４０４３ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡＵ．Ｓ．Ａ．

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】ミルホセイニ，アザリア

(72)【発明者】

【氏名】フーダ，サフィン

(72)【発明者】

【氏名】マース，マーティン・クリストフ

(72)【発明者】

【氏名】ジェイン，パラス・ジャグディシュ

(72)【発明者】

【氏名】ディーン，ジェフリー・アドゲート

【テーマコード（参考）】

5B056

5B146

【Ｆターム（参考）】

5B056BB71

5B146DC03

5B146GA02

5B146GA06

(57)【要約】

ディープラーニングモデルを実行する際に精度がほとんど損なわれない、近似的で低消費電力のディープラーニングアクセラレータチップを設計するためのシステムと方法が提供される。近似シストリックアレイのセットを生成することができる。ディープニューラルネットワーク（ＤＮＮ：deep neural network）を処理する近似シストリックアレイのセット内の各近似シストリックアレイの性能が決定されてもよい。ＤＮＮの各レイヤは、近似シストリックアレイのセット内の近似シストリックアレイにマッピングされてもよい。近似シストリックアレイのセットのサブセットは、マッピングと近似シストリックアレイのセット内の各近似シストリックアレイの性能とに基づいて、推論チップ設計に含めるために選択されてもよい。

【特許請求の範囲】

【請求項1】

推論チップ設計を生成するための、コンピュータが実行する方法であって、
１つまたは複数のプロセッサによって、近似シストリックアレイのセットを生成するステップと、
前記１つまたは複数のプロセッサによって、ディープニューラルネットワーク（ＤＮＮ：deep neural network）を処理する前記近似シストリックアレイのセット内の各近似シストリックアレイの性能を決定するステップと、
前記１つまたは複数のプロセッサによって、前記ＤＮＮの各レイヤを、前記近似シストリックアレイのセット内の近似シストリックアレイにマッピングするステップと、
前記１つまたは複数のプロセッサによって、前記推論チップ設計に含めるために、前記マッピングと前記近似シストリックアレイのセット内の前記各近似シストリックアレイの性能とに基づいて、前記近似シストリックアレイのセットのサブセットを選択するステップとを含む、方法。

【請求項2】

近似シストリックアレイの第２のセットを生成するステップと、
前記ＤＮＮを処理する前記近似シストリックアレイの第２のセット内の各近似シストリックアレイの性能を決定するステップと、
前記ＤＮＮの各レイヤを、前記近似シストリックアレイの第２のセット内の近似シストリックアレイにマッピングするステップと、
前記マッピングと前記近似シストリックアレイの第２のセット内の前記各近似シストリックアレイの性能とに基づいて、前記近似シストリックアレイのサブセットを更新するステップとをさらに含み、前記近似シストリックアレイの更新されたサブセットは、前記近似シストリックアレイの第２のセットからの少なくとも１つのシストリックアレイを含む、請求項１に記載の方法。

【請求項3】

前記近似シストリックアレイのセットは、アーキテクチャテンプレートを満たすように生成され、前記アーキテクチャテンプレートは、前記推論チップ設計のためのシストリックアレイの数および／またはサイズを定義する、請求項１に記載の方法。

【請求項4】

前記近似シストリックアレイのセット内の各近似シストリックアレイは、予め定義された乗算積算ユニット（ＭＡＣ：multiply-accumulate unit）を使用して生成され、前記予め定義されたＭＡＣはバンクに記憶される、請求項３に記載の方法。

【請求項5】

前記近似シストリックアレイのセット内の各近似シストリックアレイは、乗算積算ユニット（ＭＡＣ：multiply-accumulate unit）を使用して生成され、前記ＭＡＣの少なくとも１つは、予め定義された基準に基づいて生成される、請求項３に記載の方法。

【請求項6】

前記予め定義された基準は、電力使用量または精度のうちの１つまたは複数を含む、請求項５に記載の方法。

【請求項7】

前記各近似シストリックアレイの性能を決定するステップは、前記各近似シストリックアレイの電力使用量を決定するステップを含む、請求項１に記載の方法。

【請求項8】

前記各近似シストリックアレイの性能を決定するステップは、前記各近似シストリックアレイの精度を決定するステップをさらに含む、請求項７に記載の方法。

【請求項9】

前記ＤＮＮの各レイヤを、前記近似シストリックアレイのセット内の近似シストリックアレイにマッピングするステップは、
前記ＤＮＮの各レイヤについて、前記各近似シストリックアレイの電力使用量と精度とに基づいて、前記近似シストリックアレイのサブセット内の特定の近似シストリックアレイに、前記推論チップ設計内のルータを構成するステップを含む、請求項８に記載の方法。

【請求項10】

前記推論チップ設計は、少なくとも１つの全精度シストリックアレイを含む、請求項１に記載の方法。

【請求項11】

推論チップ設計を生成するためのシステムであって、
１つまたは複数のプロセッサと、
命令を記憶するメモリとを備え、前記命令は、前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに、
近似シストリックアレイのセットを生成するステップと、
ディープニューラルネットワーク（ＤＮＮ：deep neural network）を処理する前記近似シストリックアレイのセット内の各近似シストリックアレイの性能を決定するステップと、
前記ＤＮＮの各レイヤを、前記近似シストリックアレイのセット内の近似シストリックアレイにマッピングするステップと、
前記推論チップ設計に含めるために、前記マッピングと近似シストリックアレイの前記セット内の各近似シストリックアレイの前記性能とに基づいて、前記近似シストリックアレイのセットのサブセットを選択するステップとを実行させる、システム。

【請求項12】

前記命令は、さらに、前記１つまたは複数のプロセッサに、
近似シストリックアレイの第２のセットを生成するステップと、
前記ＤＮＮを処理する前記近似シストリックアレイの第２のセット内の各近似シストリックアレイの性能を決定するステップと、
前記ＤＮＮの各レイヤを、前記近似シストリックアレイの第２のセット内の近似シストリックアレイにマッピングするステップと、
前記マッピングと前記近似シストリックアレイの第２のセット内の前記各近似シストリックアレイの性能とに基づいて、前記近似シストリックアレイのサブセットを更新するステップとをさらに実行させ、前記近似シストリックアレイの更新されたサブセットは、前記近似シストリックアレイの第２のセットからの少なくとも１つのシストリックアレイを含む、請求項１１に記載のシステム。

【請求項13】

前記近似シストリックアレイのセットは、アーキテクチャテンプレートを満たすように生成され、前記アーキテクチャテンプレートは、前記推論チップ設計のためのシストリックアレイの数および／またはサイズを定義する、請求項１１に記載のシステム。

【請求項14】

前記近似シストリックアレイのセット内の各近似シストリックアレイは、予め定義された乗算積算ユニット（ＭＡＣ：multiply-accumulate unit）を使用して生成され、前記予め定義されたＭＡＣはバンクに記憶される、請求項１３に記載のシステム。

【請求項15】

前記近似シストリックアレイの前記セット内の各近似シストリックアレイは、乗算積算ユニット（ＭＡＣ：multiply-accumulate unit）を使用して生成され、前記ＭＡＣの少なくとも１つは、予め定義された基準に基づいて生成される、請求項１３に記載のシステム。

【請求項16】

前記予め定義された基準は、電力使用量または精度のうちの１つまたは複数を含む、請求項１５に記載のシステム。

【請求項17】

前記各近似シストリックアレイの性能を決定するステップは、前記各近似シストリックアレイの電力使用量を決定するステップを含む、請求項１１に記載のシステム。

【請求項18】

前記各近似シストリックアレイの性能を決定するステップは、前記各近似シストリックアレイの精度を決定するステップをさらに含む、請求項１７に記載のシステム。

【請求項19】

【請求項20】

前記推論チップ設計は、少なくとも１つの全精度シストリックアレイを含む、請求項１１に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願との相互参照
本出願は、２０２１年１１月２２日に出願された米国特許出願第１７／５３２，５７２号の継続出願であり、その開示内容は、参照により本明細書に組み込まれる。

【背景技術】

【0002】

背景
ニューラルネットワークモデルをスケーリングすると、これらのニューラルネットワークモデルによって提供される出力の精度が向上することが多い。しかし、これらのニューラルネットワークモデルのサイズが成長し続けると、これらのディープニューラルネットワークモデルを実装する推論アクセラレータによって消費されるエネルギー量も増加する。したがって、ディープラーニングニューラルネットワークモデルにおけるわずかな効率改善でさえ、ディープラーニングモデルを実装する推論アクセラレータによるグローバルエネルギー消費を劇的に削減する可能性がある。

【発明の概要】

【発明が解決しようとする課題】

【0003】

ディープラーニングモデルを実装する際に基本的な数学演算を実行する演算ユニットは、推論アクセラレータによって消費されるエネルギーの大部分を占めることが多い。これらの演算ユニットの電力効率を改善するために、全精度浮動小数点計算を低ビット精度量子化演算に置き換えることができる。しかし、低ビット量子化の効率向上により、ディープラーニングモデルによる出力の精度が低下する可能性がある。場合によっては、近似によって失われた精度を回復するために、モデルの重み調整が行われることがある。しかし、この重み調整ステップは、精度劣化を回避するのに十分でない場合がある。

【0004】

ディープラーニングモデルを実装する推論アクセラレータによるエネルギー消費を削減するためのさらなる取り組みには、量子化演算子よりも電力効率の高い近似ユニットを使用することが含まれる。これらの近似ユニットは、ニューラルネットワーク評価中に観察される数値分布に近似を調整する近似演算子（例えば、乗算器および加算器）を実装することができる。評価中に特定のアプリケーションに合わせて近似を調整することで、量子化がすべての入力にわたって一様に近似される場合よりも、消費電力と精度のトレードオフが改善される可能性がある。しかし、近似ユニットによって生じる誤差は、ディープラーニングモデルが後続の各ニューラルネットワークレイヤを進むにつれて増幅され、不正確な出力につながる可能性がある。

【課題を解決するための手段】

【0005】

概要
本明細書で説明する技術は、生産のための推論チップ設計を生成することを対象とする。本開示の一態様は、推論チップを生成するための方法を対象とする。本方法は、１つまたは複数のプロセッサによって、近似シストリックアレイのセットを生成するステップと、１つまたは複数のプロセッサによって、ディープニューラルネットワーク（ＤＮＮ：deep neural network）を処理する近似シストリックアレイのセット内の各近似シストリックアレイの性能を決定するステップと、１つまたは複数のプロセッサによって、ＤＮＮの各レイヤを、近似シストリックアレイのセット内の近似シストリックアレイにマッピングするステップと、１つまたは複数のプロセッサによって、推論チップ設計に含めるために、近似シストリックアレイのセットのサブセットを、マッピングと近似シストリックアレイのセット内の各近似シストリックアレイの性能とに基づいて、近似シストリックアレイのセットのサブセットを選択するステップと、を含み得る。

【0006】

本開示の別の態様は、生産のための推論チップ設計を生成するためのシステムを対象とする。システムは、１つまたは複数のプロセッサと、命令を記憶するメモリとを含む。命令は、１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに、近似シストリックアレイのセットを生成するステップと、ディープニューラルネットワーク（ＤＮＮ：deep neural network）を処理する近似シストリックアレイのセット内の各近似シストリックアレイの性能を決定するステップと、ＤＮＮの各レイヤを、近似シストリックアレイのセット内の近似シストリックアレイにマッピングするステップと、推論チップ設計に含めるために、マッピングと近似シストリックアレイのセット内の各近似シストリックアレイの性能とに基づいて、近似シストリックアレイのセットのサブセットを選択するステップと、を実行させる。

【0007】

いくつかの例では、近似シストリックアレイの第２のセットが生成され、ＤＮＮを処理する近似シストリックアレイの第２のセット内の各近似シストリックアレイの性能が決定され、ＤＮＮの各レイヤを近似シストリックアレイの第２のセット内の近似シストリックアレイにマッピングし、マッピングと近似シストリックアレイの第２のセット内の各近似シストリックアレイの性能とに基づいて、シストリックアレイのサブセットが更新される場合があり、近似シストリックアレイの更新されたサブセットは、近似シストリックアレイの第２のセットからの少なくとも１つのシストリックアレイを含む。

【0008】

いくつかの例では、近似シストリックアレイのセットは、アーキテクチャテンプレートを満たすように生成され、アーキテクチャテンプレートは、推論チップ設計のためのシストリックアレイの数および／またはサイズを定義する。いくつかの例では、近似シストリックアレイのセット内の各近似シストリックアレイは、予め定義された乗算積算ユニット（ＭＡＣ：multiply-accumulate unit）を使用して生成され、予め定義されたＭＡＣはバンクに記憶される。

【0009】

いくつかの例では、近似シストリックアレイのセット内の各近似シストリックアレイは、乗算積算ユニット（ＭＡＣ：multiply-accumulate unit）を使用して生成され、ＭＡＣの少なくとも１つは、予め定義された基準に基づいて生成される。いくつかの例では、予め定義された基準は、電力使用量または精度のうちの１つまたは複数を含む。

【0010】

いくつかの例では、各近似シストリックアレイの性能を決定するステップは、各近似シストリックアレイの電力使用量を決定するステップを含む。いくつかの例では、各近似シストリックアレイの性能を決定するステップは、各近似シストリックアレイの精度を決定するステップをさらに含む。

【0011】

いくつかの例では、ＤＮＮの各レイヤを、近似シストリックアレイのセット内の近似シストリックアレイにマッピングするステップは、ＤＮＮの各レイヤについて、各近似シストリックアレイの電力使用量と精度とに基づいて、近似シストリックアレイのサブセット内の特定の近似シストリックアレイに、推論チップ設計内のルータを構成するステップを含む。

【0012】

いくつかの例では、推論チップ設計は、少なくとも１つの全精度シストリックアレイを含む。

【図面の簡単な説明】

【0013】

【図1】本開示の態様による、最適化された推論チップを生成するための例示的なフレームワークのブロック図である。

【図2】本開示の態様による、最適化された推論チップの図である。

【図3】本開示の態様による、様々なＭＡＣの主成分を示すグラフである。

【図4】本開示の態様による、単一のＭＡＣおよびシストリックアレイの消費電力を示すグラフである。

【図5】本技術の態様による、厳密なシストリックアレイから形成されたＭＸＵに対する、近似シストリックアレイの集合を含む最適化されたＭＸＵの動作温度を示すグラフである。

【図6】本技術の態様による、フレームワークを実装する例示的なコンピューティング環境のブロック図である。

【発明を実施するための形態】

【0014】

詳細な説明
本明細書で説明する技術は、ディープラーニングモデルを実行する際に精度がほとんど損なわれない、近似的で低消費電力のディープラーニングアクセラレータチップを設計することを対象とする。さらに、本明細書で説明する近似的で低消費電力のディープラーニングアクセラレータチップ（「推論チップ」）は、精度を維持するためにディープラーニングモデルを再トレーニングする必要がない。その代わりに、推論チップは、「正確な」ユニット（例えば、全精度計算が可能な演算ユニット）から構成されたチップと同じ、またはほぼ同じ精度でディープラーニングモデルを処理するように設計されている。

【0015】

推論チップは、アーキテクチャテンプレートを使用して設計されてもよい。このテンプレートは、近似加算器および／または近似乗算器などの近似ユニットを含むシストリックアレイのバンクへの再構成可能な配線アレイを備えた効率的な設計の多様なセットを生成することができる。これにより、実行時に、ディープラーニングモデル内のエラー耐性レイヤを推論チップアクセラレータ内のより多くの近似ユニットに動的にルーティングすることが可能になり、大幅な省電力化が実現する。さらに、ディープラーニングモデル内のエラーにより敏感なレイヤは、より正確な近似ユニットおよび／または正確なユニットで評価され、エラーの発生を最小化または回避することができる。推論チップ上の近似ユニットを、ディープラーニングモデル内のレイヤのシストリックアレイへのソフトウェアマッピングと共同設計することで、精度を低下させることなく、省電力化を達成することができる。

【0016】

図１は、低消費電力で高精度の推論チップを作成するための設計プロセスを示すフロー図である。本明細書で説明するように、推論チップ設計のために近似乗積近似ユニットを選択するタスクは、処理要素（ＰＥ）の集合を含むチップのシストリックアレイにＤＮＮレイヤをマッピングすることと同時に発生する。

【0017】

各シストリックアレイは、ＰＥの２次元アレイを含むことができ、各ＰＥは、１つまたは複数の乗算積算ユニット（ＭＡＣ）を含む。さらに、各ＰＥは、入力オペランドおよび出力結果用のバッファを含むことができる。各シストリックアレイはグローバルに活性化され、パラメータメモリはすべてのシストリックアレイで共有される。通常、各シストリックアレイは単一のタイプのＭＡＣを含むが、いくつかのシストリックアレイは複数のタイプのＭＡＣを含むことがある。さらに、本明細書で説明する例ではＭＡＣについて説明するが、他の演算ユニットも使用することができる（例えば、加算器）。ハードウェアを設計し、ＤＮＮレイヤをシストリックアレイに同時にマッピングすることによって、推論チップは、ニューラルネットワークの特定のクラスにカスタム調整することができる。

【0018】

フロー図は、シストリックアレイ生成器１０５を含むアクセラレータアーキテクチャ生成器１０６に入力された所与のアーキテクチャテンプレート１０１およびアーキテクチャパラメータ１１５を満たす近似ユニットおよび／または正確なユニットのシストリックアレイを生成するための推論チップ設計フレームワーク１００を示す。フレームワーク１００のアーキテクチャテンプレート１０１は、推論チップのレイアウトおよび構成に対応する要件を定義することができる。例えば、アーキテクチャテンプレート１０１は、推論チップのシストリックアレイの数およびシストリックアレイのサイズを定義することができる。例えば、アーキテクチャテンプレートは、推論チップが３つのシストリックアレイを有し、２つが近似ユニットから構成され、１つが正確なユニットから構成されることを定義することができる。他のテンプレートでは、他の量およびタイプのアレイが定義されてもよく、どの近似ユニット（例えば、ＭＡＣ）を使用するかなどが定義されてもよい。アーキテクチャパラメータ１１５は、異種シストリックアレイの構成、メモリおよびシステムパラメータ等を含み得る。フレームワーク１００による初期処理では、アーキテクチャパラメータは「シード」されてもよい。シードされたパラメータは、予め定義されてもよいし、または、フレームワークがプロセスを開始するたびに入力されてもよい。

【0019】

シストリックアレイ内の処理要素を作成するために使用され得るＭＡＣは、フレームワークのバンク１０３に記憶され得る。ＭＡＣは、エラー耐性および電力使用量などの特定の基準を満たす属性を有し得る。例えば、第１のＭＡＣは、正確なＭＡＣに対して１％の誤差および正確なＭＡＣに対して９９％の電力使用率などの属性を有することができる。別の例では、第２のＭＡＣは、正確なＭＡＣに対して３％の誤差および正確なＭＡＣに対して９０％の電力使用率を有することができる。バンク１０３は、場合によっては、（近似計算ではなく）全精度計算を実行する正確なＭＡＣを含む、任意の数の構成されたＭＡＣを記憶することができる。場合によっては、ＭＡＣはフレームワークによって生成されてもよい。この点に関して、フレームワークは、特定のエラー割合および電力使用量を有するＭＡＣなど、特定の使用ケースに適合するＭＡＣを生成することができる。シストリックアレイの生成中に、フレームワークは、バンク１０３に記憶された予め定義されたＭＡＣによって満たされない特定の使用ケースに適合するＭＡＣを生成してもよい。

【0020】

アクセラレータアーキテクチャ生成器１０６のシストリックアレイ生成器１０５は、バンク１０３に記憶されたＭＡＣを使用して、シストリックアレイのセットがＤＮＮ１０７を正確に実行できることを保証しながら、所与のアーキテクチャテンプレート（およびアーキテクチャパラメータ１１５）の要件を満たすように、多様なシストリックアレイのセットを生成することができる。これに関して、アクセラレータアーキテクチャ生成器１０６は、アーキテクチャテンプレート１０１およびアーキテクチャパラメータ１１５を受け取ることができる。次に、アクセラレータアーキテクチャ生成器１０６は、受け取ったデータの一部または全部をシストリックアレイ生成器に提供することができる。例えば、アクセラレータアーキテクチャ生成器１０６は、シストリックアレイのサイズ、構成（例えば、推論チップがｘ％のＭＡＣｘ、ｙ％のＭＡＣｙを含む）等のシストリックアレイの設計のパラメータをシストリックアレイ生成器１０５に通知してもよい。ＭＡＣｘおよびＭＡＣｙは、バンク１０３から選択することができる。

【0021】

シストリックアレイ生成器１０５は、受け取ったパラメータに従って、シストリックアレイのセットを生成してもよい。これに関して、フレームワークのシストリックアレイ生成器１０５は、受け取ったパラメータに従って、精度および電力属性が変化するＭＡＣを選択してもよい。シストリックアレイ生成器１０５は、ベリログ（Ｖｅｒｉｌｏｇ）、Ｃ＋＋、または他のそのような言語などで、シストリックアレイを表すコードを生成してもよい。

【0022】

ＤＮＮ１０７の各レイヤは、フレームワーク１００のレイヤワイズマッピング１２０関数に入力されてもよい。レイヤワイズマッピング１２０関数は、ＤＮＮ１０７の各レイヤを、シストリックアレイ生成器１０５によって生成されたシストリックアレイのセットの特定のシストリックアレイに割り当てることができる。本明細書で説明するように、ＤＮＮを処理するための最適な近似レベルは、ディープニューラルネットワークの異なるレイヤ間で劇的に変化する可能性がある。レイヤワイズマッピング関数１２０は、その近似許容度に基づいて各ＤＮＮレベルをマッピングしてもよい。

【0023】

本明細書で説明されるように、シストリックアレイの生成された各セットの電力および精度がテストされ、ＤＮＮ１０７を実行するようにカスタム調整された推論チップ設計のためにシストリックアレイの最適セットが選択される場合がある。本明細書ではＤＮＮについて説明するが、低消費電力で高精度の推論チップを作成するための設計プロセスは、他のタイプのニューラルネットワークに対して実行されてもよい。例えば、生成されたシストリックアレイの各セットは、本明細書で説明する高速精度推定１０９を使用して精度についてテストされてもよい。さらに、ブロック１１１によって示され、本明細書で説明されるように、生成されたシストリックアレイの各セットの電力推定値および性能推定値（集合的に「性能推定値」）が決定されてもよい。

【0024】

精度および性能推定値は、シストリックアレイの最適化された組み合わせを決定するために、本明細書で説明する目的関数１１２に入力されてもよい。この点に関して、目的関数１１２は、各ＤＮＮレイヤのマッピングが精度および性能の観点からどの程度優れているかを評価することができる。

【0025】

次に、アーキテクチャ探索アルゴリズム１１３は、目的関数の結果（および目的関数の他の以前の結果）を取り込み、異なるシストリックアレイのセットで改善が可能かどうかを決定することができる。これに関して、アーキテクチャ探索アルゴリズム１１３は、現在のパラメータに対する現在の目的関数の結果と、以前のパラメータに対する過去の目的関数の結果とを受け取ることができる。これらのパラメータに基づいて、アーキテクチャ探索アルゴリズム１１３は、試すべきパラメータの次のセットを決定することができる（図１の１１３から１１５への矢印で図示）。フレームワーク１００は、最適な構成をもたらすパラメータ空間の反復探索を通じて、目的関数の最適値を見つけることを目的とする。

【0026】

このプロセスは、ある回数、または、シストリックアレイ、レイヤワイズマッピングなどのすべての可能な組み合わせが完了するまで、繰り返すことができる。その後、最も効率的で正確なシストリックアレイのセットが選択される。図示していないが、フレームワークは、選択されたシストリックアレイのセットに従って推論チップを構成するための設計計画を出力することができる。

【0027】

シストリックアレイの最適化された組み合わせは、マルチタイル行列乗算ユニット（ＭＸＵ）を構成することができる。マルチタイルＭＸＵの各「タイル」は、特定の精度と電力属性を有するシストリックアレイを含むことができる。例えば、図２は、アレイＡ２０７、アレイＢ２０９、およびアレイＺ２１１を含む３つのシストリックアレイを含むマルチタイルＭＸＵ２０５を示す。ＭＸＵ２０５は３つのアレイのみを含むように示されているが、ＭＸＵは任意の数のシストリックアレイを含むことができる。図２にさらに示すように、活性化バッファ２０１は、ＤＮＮの以前のレイヤの結果を受け取ることができる。これらの以前の結果は、学習済みルータ２０３によって、ＤＮＮの次のレイヤを処理するためのシストリックアレイにルーティングされる。レイヤのルーティングは、ルータが処理のためにＤＮＮの特定のレイヤを予め定義されたシストリックアレイに向けるように、事前にプログラムされてもよい。例えば、図２はアレイＺ２１１によって処理されている現在のＤＮＮレイヤを示している。

【0028】

精度推定
大規模なディープニューラルネットワークのトレーニングと推論の両方は、何兆もの算術演算を伴う可能性がある。正確な算術演算と標準的なデータ型を使用すると、この評価はハイスループットＧＰＵ上で並列化できる。しかし、近似ＭＡＣを使用した不正確な算術演算のシミュレーションでは、既存のハードウェアがそのような演算をサポートしていないため、不正確な算術演算の直接評価が困難な場合がある。例えば、Ｖｅｒｉｌａｔｏｒ回路シミュレータのような回路シミュレータで近似ＭＡＣを直接評価すると、８ビットの正確な乗算を１回実行するだけで、高性能サーバでは３．７５±０．９５マイクロ秒かかることがある。したがって、５０レイヤの深さのＲｅｓＮｅｔ－５０のような大規模なニューラルネットワークの評価には、２２４×２２４フレームあたり４ＧＦＬＯＰｓで約４．２時間かかる可能性がある。ＩｍａｇｅＮｅｔ検証セット全体では、１つの近似乗算器を評価するのに約２３年かかる。

【0029】

さらに、呼び出しはキャッシュされる可能性があるが、Ｎビット乗算器のための完全な２^Ｎ＋Ｎルックアップテーブルは、広いビット幅に拡張できない可能性がある。例えば、１６ビット入力の場合、ルックアップテーブルは１６ギガバイトを超える。サイズが大きいため、ＧＰＵアクセラレーションを使用することはできない。

【0030】

【数1】

【0031】

Ｎビットの誤差行列ε∈Ｒ^２Ｎ＋Ｎを記憶する際のメモリを節約するために、切り捨てられた特異値分解が、以下の式（１）を用いてｋ＜＜２^Ｎで計算されてもよい。

【0032】

【数2】

【0033】

総メモリ消費量は、Ｏ（ｎ^２）からＯ（ｎｋ）に減少する。式（１）中、Σは誤差行列、σ_ｉは誤差行列のｉ番目の固有値、ｕ_ｉとｖ_ｉはそれぞれ誤差行列のｉ番目の左特異ベクトルと右特異ベクトルである。パラメータｋ＜＜２^Ｎは近似量を制御し、ｋが小さいほど近似量は増加するが、誤差行列を記憶するためのメモリ使用量は減少する。小さなｋ≦５０では、総メモリ消費量は２０ＭＢ以下より少なくなる。評価中、ｉ×ｊの近似乗算の結果が再計算されることがある。

【0034】

すべての結果は、ＩｍａｇｅＮｅｔ２０１２データセットのような大規模画像データセットのような分類データセットを使用して評価される場合がある。ターゲットデータセット上でのエンドツーエンドモデルの評価速度を向上させるために、完全な検証セットの１０％サンプルなどの小さなサンプルを評価することができる。例えば、ＩｍａｇｅＮｅｔ２０１２を使用する場合、５０００画像のサンプルを使用することができる。サンプル検証セットでのモデルの順序付けは、通常、完全なデータセットでの性能と相関する。

【0035】

全体として、本明細書で説明する最適化は、Ｖｅｒｉｌａｔｏｒでの直接回路シミュレーションと比較して、７２００倍のスピードアップをもたらす可能性がある。また、この戦略により、将来的に自動再トレーニングが可能なＧＰＵ評価が実現可能になる。低ランク分解でルックアップテーブルを圧縮することにより、本明細書で説明するモデル評価をより広いビット幅の回路に拡張することができる。

【0036】

さらに、本明細書で説明するアプローチは、他の既知の量子化方法と相補的である。例えば、推論前に重みが８ビットに静的に量子化されるダイナミックレンジのポストトレーニング量子化が実行されてもよい。推論中、活性は、［０；２５５］のｕｉｎｔ８範囲にスケーリングされ、次いで量子化され得るが、他の範囲が使用されてもよい。その後、以下の式（２）を用いて量子化を解除することができる。

【0037】

【数3】

【0038】

ｑ１は重み行列を表し、ｑ２は活性化行列を表し、Ｚはそれぞれのゼロ点を表す。量子化を考慮したトレーニングを利用した、より高度な量子化方法により、より高い省電力を達成することができる。

【0039】

【数4】

【0040】

ＭＸＵ全体にわたるシストリックアレイの性能を評価するために、半導体設計およびテストソフトウェアが使用され得る。テストは、サブ１０ｎｍプロセスでの半導体設計の評価が可能である。評価のために、各シストリックアレイに単一のクロックドメインが適用され、クロック周波数は最も遅いシストリックアレイによって決定される。この点で、クロック周波数は通常、「正確な」シストリックアレイに基づくが、他の「近似的な」シストリックアレイはより遅いため、クロック周波数の設定に使用される場合がある。さらに、この例では単一のクロック周波数について説明するが、ＭＸＵの設計の一部または全部のシストリックアレイは、異なる周波数でテストされる場合がある。合成中、異なるＭＸＵバリアントは最も遅いクロック周波数に制約される。これにより、合成ツールは、より高い固有性能を持つ近似ＭＸＵバリアントに対してより小さなゲートサイズを選択することができるため、電力と面積をある程度節約することができる。

【0041】

実際には、ＤＮＮアクセラレータは通常、遅延の制限ではなく、熱設計電力（ＴＤＰ）の制限を受けている。したがって、近似シストリックアレイによる熱の節約を使用して推論チップをオーバークロックすることで、さらなる利得が得られる可能性がある。例えば、図５は、最適化された近似ＭＸＵが、「正確な」シストリックアレイのみを持つＭＸＵと比較して、大幅に低い温度で動作することを示している。

【0042】

回路探索とレイヤマッピング
近似回路マッピング問題の定式化
特定の設計の性能は、畳み込みループのネストがどのようにアレイにマッピングされるかにも依存する。ＤＮＮレイヤを特定のシストリックアレイにマッピングすることで、生成されるアクセラレータが合成後に起こるものと一致するようになる。

【0043】

高いエンドツーエンドのタスク精度を維持するためには、ディープラーニングモデルのどのレイヤが近似耐性であるかを考慮する必要がある。この点に関して、最適な近似レベルは、ディープニューラルネットワークの異なるレイヤ間で劇的に変化する可能性がある。しかし、チップ設計のために近似シストリックアレイを選択するタスクと、ＤＮＮのレイヤをシストリックアレイにマッピングするタスクを同時に考慮することは困難である。この点で、これら２つのサブ問題（チップ設計のための近似ユニットの選択と、近似ユニットへのＤＮＮのレイヤのマッピング）は、それぞれ困難な組み合わせ最適化問題である。これらを合わせると、Ｋ個のＭＡＣ設計候補とＮ個のディープニューラルネットワークレイヤをマッピングするＯ（Ｋ^Ｎ）個の探索空間となる。Ｏとは、探索空間の複雑さを表す「ビッグＯ」表記である。さらに、最大２^２６８個の探索空間、あるいはそれ以上、あるいはそれ以下の多数の作業負荷が存在する場合もある。この場合、探索空間は近似ＭＡＣの設計方法を定義する。最適化アルゴリズムの目標は、この探索空間内で最適化された設計を見つけることである。したがって、ランダム探索ではうまくいかない。

【0044】

ガウス過程（ＧＰ）バンディットを用いたベイズ最適化は、高精度でありながらエネルギー効率の高いクロスレイヤ近似回路の構成を効率的に発見するために活用することができる。このアプローチは、未知の報酬関数ｆ：ｘ→ｙをガウス過程でモデル化することにより、ブラックボックス最適化のサンプル効率を改善する。

【0045】

近似回路マッピング問題の定式化のために、ディープニューラルネットワークレイヤへの近似回路の最小電力マッピングを求める以下の最適化問題を考える。

【0046】

【数5】

【0047】

【数6】

【0048】

精度オラクル「ＡＣＣ」は、近似によるクロスレイヤ相互作用の影響をモデル化する。近似乗数のレイヤへの特定の割り当てが与えられると、ＡＣＣは特定のデータセットに対するモデルの期待精度を計算する。あるレイヤで発生した誤差はそれ以降のレイヤで複合的に作用するため、精度オラクルはモデル化するのが非常に困難である。したがって、モデルの精度は、検証セットに対して行われる。

【0049】

このことは、最適化問題をブラックボックスの組み合わせ最適化問題に縮小し、さらに、ベイズ最適化手法は、上記の最適化問題に適用された場合、典型的には失敗する。これは、ベイズ最適化手法がランダム探索に似たパフォーマンスで遅い収束を示すためである。さらに、ベイズ最適化は、高次元の状態、離散的な構造、および制約のある探索空間に苦戦する。したがって、上記の最適化問題は、既知のベイズ最適化ツールを使用できるように再定式化することができる。

【0050】

単レイヤ近似の校正
高精度の近似回路設計を見つけるために、実行可能な解は、制約（２ｂ）の最小検証精度閾値で制約されてもよい。しかし、精度オラクル「ＡＣＣ」は知られていない。したがって、探索空間の複雑さを軽減するために、ターゲットレイヤに対する近似乗数のみを使用するオフライン研究が実行されることがある。他のすべてのレイヤは厳密乗数を用いて評価することができる。このモデルは、クロスレイヤ近似から期待精度の上限を提供する。例外的に期待精度が低いマッピングは刈り込まれるかもしれない。

【0051】

状態空間の連続緩和
ＧＰバンディットは主に離散探索空間上で最適化するように設計されている。ベイズ最適化フレームワークは、通常、実数値ボックスに埋め込むことによって離散探索空間をサポートする。しかし、この埋め込みは、異なるカテゴリー変数間の関係を考慮しないため、サンプル効率が悪い。例えば、この解決策には、連続予測変数を最も近い実行可能点に丸めることによる量子化誤差による不安定性という課題がある。

【0052】

この問題に対処するために、単レイヤ近似からのレイヤごとの精度劣化の推定値を使用して、各近似乗数の相対順序付けを表す順序付きセットを計算することができる。この点に関して、順序付けは、特定の乗数で単一レイヤｋを近似するためのプロファイル化されたエンドツーエンド精度として定義することができる。しかし、丸められない精度での直接探索は、不安定な緩和最適化問題となる。この結果、２つの近似乗算器は同じような精度を達成するが、消費電力は大きく異なる。そのため、乗数の線形順序は、精度の固定閾値内の同値が比較不可能とみなされる部分順序セットに緩和される可能性がある。そして、完成した線形順序は、同様の精度で比較不可能な乗算器の各ペアの中で最も効率の悪い乗算器を削除することによって解決され得る。

【0053】

この手順により、ニューラルネットワークのＮ個のレイヤの各々について乗数の線形順序が導出される。マッピング後の新しい次元における距離を定義するために、単レイヤ近似校正から得られた各乗算器のトップ１精度（すなわち、高確率）に最小－最大スケーリングを適用することができる。探索空間のこの新しい定式化が与えられると、次のようなコスト最適化目的が定義される。Ｎ個のレイヤの各々について、（０から１までの）近似乗数の実数値の選択を、切り捨てで、最も近いレイヤのエネルギー消費量に対応付けるために、ステップワイズコスト関数Ｑ_ｉ：Ｒ→Ｒを定義してもよい。

【0054】

次に、緩和された最適化問題は以下のようになる。

【0055】

【数7】

【0056】

バリア関数を用いた制約なし最適化
最近の研究では、ベイズ最適化を使用した多目的最適化が研究され始めているが、これらのアプローチは、一般に、単一目的オプティマイザよりもサンプル効率が著しく低い。推論チップ設計を最適化するために、精度とエネルギー消費との間の２次元パレートフロンティアを検討することができる。実際には、同様の精度を持つ冗長な近似乗算器が単一チップ上にインスタンス化される縮退解を回避するために、最終的なシストリックアレイの面積も制限することが有用な場合がある。

【0057】

バリア法は、制約（３ｂ）および（３ｃ）を除去するために使用することができる。バリア法は、ｘ≦ｂの形の各制約を、目的関数β（ｘ，ｂ）＝－ｌｏｇ（ｂ－ｘ）またはβ（ｘ；ｂ）＝ｅ^ｘ－ｂにおけるペナルティで置き換える。ｘが制約ｂに近づくと、ペナルティは∞になる。バリア法を利用すると、目的は以下のように表される。

【0058】

【数8】

【0059】

この更新された目的は、制約（３ｂ）と（３ｃ）の除去を可能にする。指数バリア関数は、ソフトな制約違反を可能にするため、活用することができる。精度の項では、目標精度τは０．６８またはそれ以上もしくはそれ以下であり、重みα_２は８またはそれ以上もしくはそれ以下であり得る。面積の項では、目標面積率（正確な倍率を含む）はφ＝４００％などまたはそれ以上もしくはそれ以下であり、スケールα_２は１：２またはそれ以上もしくはそれ以下であり得る。

【0060】

コンピューティング環境例
図６は、図１に示されるような例示的なフレームワークを実装する例示的なコンピューティング環境６００のブロック図である。例えば、フレームワークは、サーバコンピューティングデバイス６１５のような、１つまたは複数の場所に１つまたは複数のプロセッサを有する１つまたは複数のデバイスに実装され得る。ユーザコンピューティングデバイス６１２およびサーバコンピューティングデバイス６１５は、ネットワーク６６０を介して、１つまたは複数のストレージデバイス６３０に通信可能に結合され得る。ストレージデバイス６３０は、揮発性メモリと不揮発性メモリの組み合わせとすることができ、コンピューティングデバイス６１２、６１５と同じ物理的位置にあってもよく、異なる物理的位置にあってもよい。例えば、ストレージデバイス６３０は、ハードドライブ、ソリッドステートドライブ、テープドライブ、光学ストレージ、メモリカード、ＲＯＭ、ＲＡＭ、ＤＶＤ、ＣＤ－ＲＯＭ、書き込み可能なメモリ、および読み取り専用メモリなど、情報を記憶することができる任意のタイプの非一過性のコンピュータ可読媒体を含むことができる。

【0061】

サーバコンピューティングデバイス６１５は、１つまたは複数のプロセッサ６１３およびメモリ６１４を含み得る。メモリ６１４は、プロセッサ６１３によって実行され得る命令６２１を含む、プロセッサ６１３によってアクセス可能な情報を記憶し得る。メモリ６１４はまた、プロセッサ６１３によって検索、操作または記憶され得るデータ６２３を含み得る。メモリ６１４は、揮発性メモリおよび不揮発性メモリなど、プロセッサ６１３によってアクセス可能な情報を記憶することができるタイプの非一過性のコンピュータ可読媒体であり得る。プロセッサ６１３は、１つまたは複数の中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、および／またはテンソル処理装置（ＴＰＵ）などの特定用途向け集積回路（ＡＳＩＣ）を含み得る。

【0062】

命令６２１は、プロセッサ６１３によって実行されると、１つまたは複数のプロセッサに命令によって定義される動作を実行させる１つまたは複数の命令を含み得る。命令６２１は、プロセッサ６１３によって直接処理されるためのオブジェクトコード形式で、または解釈可能なスクリプト、またはオンデマンドで解釈されるか、または事前にコンパイルされる独立したソースコードモジュールのコレクション、を含む他の形式で記憶され得る。命令６２１は、本開示の態様と一致するフレームワーク１００を実装するための命令を含み得る。フレームワーク１００は、プロセッサ６１３を使用して、および／またはサーバコンピューティングデバイス６１５から遠隔に位置する他のプロセッサを使用して、実行され得る。

【0063】

データ６２３は、近似ＭＡＣ１０３のバンク、アーキテクチャテンプレート１０１、アーキテクチャパラメータ１１５など、命令６２１に従ってプロセッサ６１３によって検索、記憶、または変更することができる。データ６２３は、複数の異なるフィールドおよびレコードを有するテーブルとして、またはＪＳＯＮ、ＹＡＭＬ、ｐｒｏｔｏ、またはＸＭＬドキュメントとして、コンピュータレジスタ、リレーショナルまたは非リレーショナルデータベースに記憶することができる。また、データ６２３は、バイナリ値、ＡＳＣＩＩ、またはＵｎｉｃｏｄｅなどのコンピュータ可読フォーマットでフォーマットされ得るが、これらに限定されない。さらに、データ６２３は、数字、記述テキスト、専有コード、ポインタ、他のネットワークロケーションを含む他のメモリに記憶されたデータへの参照、または関連データを計算する機能によって使用される情報など、関連情報を識別するのに十分な情報を含むことができる。

【0064】

ユーザコンピューティングデバイス６１２はまた、１つまたは複数のプロセッサ６１６、メモリ６１７、命令６１８、およびデータ６１９を備える、サーバコンピューティングデバイス６１５と同様に構成され得る。ユーザコンピューティングデバイス６１２はまた、ユーザ出力６２６、およびユーザ入力６２４を含むことができる。ユーザ入力６２４は、キーボード、マウス、機械的アクチュエータ、ソフトアクチュエータ、タッチスクリーン、マイクロフォン、およびセンサなど、ユーザからの入力を受信するための任意の適切な機構または技術を含み得る。

【0065】

サーバコンピューティングデバイス６１５は、データをユーザコンピューティングデバイス６１２に送信するように構成されてもよく、ユーザコンピューティングデバイス６１２は、受信されたデータの少なくとも一部を、ユーザ出力６２６の一部として実装されたディスプレイに表示するように構成され得る。ユーザ出力６２６はまた、ユーザコンピューティングデバイス６１２とサーバコンピューティングデバイス６１５との間のインターフェースを表示するために使用することもできる。ユーザ出力６２６は、代替的にまたは追加的に、ユーザコンピューティングデバイス６１２のプラットフォームユーザに非視覚および非可聴情報を提供する、１つまたは複数のスピーカ、トランスデューサ、または他のオーディオ出力、触覚インターフェース、または他の触覚フィードバックを含み得る。

【0066】

図６は、プロセッサ６１３、６１６およびメモリ６１４、６１７を、コンピューティングデバイス６１５、６１２内にあるものとして図示しているが、プロセッサ６１３、６１６およびメモリ６１４、６１７を含む本明細書で説明されるコンポーネントは、同じコンピューティングデバイス内ではなく異なる物理的位置で動作することができる複数のプロセッサおよびメモリを含み得る。例えば、命令６２１、６１８およびデータ６２３、６１９の一部は、取り外し可能なＳＤカードに記憶することができ、他は、読み取り専用コンピュータチップ内に記憶することができる。命令およびデータの一部または全部は、プロセッサ６１３、６１６から物理的に離れた場所に記憶され得るが、それでもなお、プロセッサ６１３、６１６によってアクセス可能である。同様に、プロセッサ６１３、６１６は、同時動作および／または逐次動作を実行することができるプロセッサの集合体を含むことができる。コンピューティングデバイス６１５、６１２はそれぞれ、タイミング情報を提供する１つまたは複数の内部クロックを含むことができ、これは、コンピューティングデバイス６１５、６１２によって実行される動作およびプログラムの時間測定のために使用され得る。

【0067】

サーバコンピューティングデバイス６１５は、ユーザコンピューティングデバイス６１２からデータを処理する要求を受信するように構成され得る。例えば、環境６００は、プラットフォームサービスを公開する様々なユーザインターフェースおよび／またはＡＰＩを通して、ユーザに様々なサービスを提供するように構成されたコンピューティングプラットフォームの一部であり得る。１つまたは複数のサービスは、指定されたタスクおよびトレーニングデータに従ってニューラルネットワークまたは他の機械学習モデルを生成するための機械学習フレームワークまたはツールのセットであり得る。ユーザコンピューティングデバイス６１２は、特定のニューラルネットワークタスクを実行するようにトレーニングされたニューラルネットワークを実行するために割り当てられるターゲットコンピューティングリソースを指定するデータを受信および送信することができる。

【0068】

デバイス６１２、６１５は、ネットワーク６６０を介して直接的および間接的な通信が可能であり得る。デバイス６１５、６１２は、情報を送受信するための開始接続を受け入れることができるリスニングソケットを設定することができる。ネットワーク６６０自体は、インターネット、ワールドワイドウェブ、イントラネット、仮想プライベートネットワーク、ワイドエリアネットワーク、ローカルネットワーク、および１つまたは複数の企業独自の通信プロトコルを使用するプライベートネットワークを含む様々な構成およびプロトコルを含むことができる。ネットワーク６６０は、様々な短距離および長距離接続をサポートすることができる。短距離および長距離接続は、２．４０２ＧＨｚ～２．４８０ＧＨｚ（一般にＢｌｕｅｔｏｏｔｈ（登録商標）規格に関連する）、２．４ＧＨｚおよび５ＧＨｚ（一般にＷｉ－Ｆｉ（登録商標）通信プロトコルに関連する）、またはワイヤレスブロードバンド通信用のＬＴＥ（登録商標）規格などの様々な通信規格など、異なる帯域幅で行うことができる。ネットワーク６６０は、追加的または代替的に、様々なタイプのイーサネット（登録商標）接続を含む、デバイス６１２、６１５間の有線接続もサポートすることができる。

【0069】

単一のサーバコンピューティングデバイス６１５およびユーザコンピューティングデバイス６１２が図６に示されているが、本開示の態様は、逐次処理または並列処理のためのパラダイムにおける、または複数のデバイスの分散ネットワークにおけるものを含めて、コンピューティングデバイスの様々な異なる構成および数量に従って実施され得ることが理解される。いくつかの実装では、本開示の態様は、単一のデバイス、およびそれらの任意の組み合わせで実行され得る。

【0070】

本開示の態様は、デジタル回路、コンピュータ可読記憶媒体において、１つまたは複数のコンピュータプログラムとして、または前述の１つまたは複数の組み合わせで実施することができる。コンピュータ可読記憶媒体は、例えば、クラウドコンピューティングプラットフォームによって実行可能であり、有形記憶装置に記憶される１つまたは複数の命令として、非一過性であり得る。

【0071】

本明細書では、「構成されている」という語句は、コンピュータシステム、ハードウェア、またはコンピュータプログラム、エンジン、またはモジュールの一部に関連するさまざまな文脈で使用される。システムが１つまたは複数の動作を実行するように構成されていると言われる場合、これは、システムが、動作時に、システムに１つまたは複数の動作を実行させる、システムにインストールされた適切なソフトウェア、ファームウェア、および／またはハードウェアを有することを意味する。あるハードウェアが１つまたは複数の動作を実行するように構成されていると言われる場合、これは、ハードウェアが、動作時に、入力を受け取り、入力に従って、１つまたは複数の動作に対応する出力を生成する１つまたは複数の回路を含むことを意味する。コンピュータプログラム、エンジン、またはモジュールが１つまたは複数の動作を実行するように構成されていると言われる場合、これは、コンピュータプログラムが１つまたは複数のプログラム命令を含み、１つまたは複数のコンピュータによって実行されると、１つまたは複数のコンピュータに１つまたは複数の動作を実行させることを意味する。

【0072】

図面に示され、特許請求の範囲に記載された動作は特定の順序で示されているが、動作は示された順序とは異なる順序で実行することができ、いくつかの動作は省略することができ、複数回実行することができ、および／または他の動作と並行して実行することができることが理解される。さらに、異なる動作を実行するように構成された異なるシステムコンポーネントの分離は、コンポーネントを分離する必要があると理解されるべきではない。説明したコンポーネント、モジュール、プログラム、およびエンジンは、単一のシステムとして一緒に統合することも、複数のシステムの一部とすることもできる。本開示の態様による例示的なＳＴＯＣを実施する１つまたは複数の場所における１つまたは複数のプロセッサは、図面に示され、特許請求の範囲に記載された動作を実行することができる。

【0073】

特に断らない限り、前述の代替例は相互に排他的なものではなく、独自の利点を達成するために様々な組み合わせで実施することができる。上述した特徴のこれらおよび他の変形および組み合わせは、特許請求の範囲によって定義された主題から逸脱することなく利用することができるので、前述の例の説明は、特許請求の範囲によって定義された主題を限定するためではなく説明のためと解釈されるべきである。加えて、本明細書に記載された例の提供、ならびに「のように」、「を含む」などのように表現された句は、特許請求の範囲の主題を特定の例に限定するものとして解釈されるべきではなく、むしろ、例は、多くの可能な実施態様のうちの１つだけを例示することを意図している。さらに、異なる図面における同じ参照番号は、同じまたは類似の要素を識別することができる。

【図1】