特表2024-517833 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル　インコーポレイテッドの特許一覧

特表2024-517833特定用途向け機械学習アクセラレータの生成およびグローバルなチューニング

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-04-23

(54)【発明の名称】特定用途向け機械学習アクセラレータの生成およびグローバルなチューニング

(51)【国際特許分類】

G06N 3/06 20060101AFI20240416BHJP

【ＦＩ】

G06N3/06

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023568049

(86)(22)【出願日】2021-05-03

(85)【翻訳文提出日】2023-12-13

(86)【国際出願番号】 US2021030416

(87)【国際公開番号】W WO2022235251

(87)【国際公開日】2022-11-10

(81)【指定国・地域】

(71)【出願人】

【識別番号】502208397

【氏名又は名称】グーグルエルエルシー

【氏名又は名称原語表記】ＧｏｏｇｌｅＬＬＣ

【住所又は居所原語表記】１６００ＡｍｐｈｉｔｈｅａｔｒｅＰａｒｋｗａｙ９４０４３ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡＵ．Ｓ．Ａ．

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】ヤン，ヤン

(72)【発明者】

【氏名】ヌネス・コエーリョ，クラウディオナー・ホセ，ジュニア

(72)【発明者】

【氏名】チュアン，ハオ

(72)【発明者】

【氏名】クーセラ，アキ・オスカリ

(57)【要約】

ＭＬハードウェアアクセラレータをグローバルにチューニングおよび生成するための、コンピュータ可読媒体を含む、方法、システムおよび装置が記載されている。設計システムは、ベースラインプロセッサ構成を表すアーキテクチャを選択する。システムのＭＬコストモデルは、少なくとも、アーキテクチャが、複数の層を含むニューラルネットワークの計算をどのように実行するかをモデリングすることによって、アーキテクチャについての性能データを生成する。性能データに基づいて、アーキテクチャは、アーキテクチャが、ニューラルネットワークを実装しかつ標的アプリケーションのための機械学習計算を実行するときに、性能目標を満たすようにダイナミックにチューンされる。アーキテクチャをダイナミックにチューニングすることに応答して、システムは、ニューラルネットワークの複数の層の各々を実装するためのカスタマイズされたハードウェア構成を指定するＭＬアクセラレータの構成を生成する。

【特許請求の範囲】

【請求項1】

特定用途向け機械学習（ＭＬ）アクセラレータを生成するためのコンピュータが実行する方法であって、
ベースラインプロセッサ構成を表すアーキテクチャを選択するステップと、
ＭＬコストモデルによって、少なくとも、前記アーキテクチャが、複数の層を含む第１のニューラルネットワークの計算をどのように実行するかをモデリングすることによって、前記アーキテクチャについての性能データを生成するステップと、
前記性能データに基づいて、前記アーキテクチャが前記第１のニューラルネットワークを実装しかつ標的アプリケーションのための機械学習計算を実行するときに性能目標を満たすために前記アーキテクチャをダイナミックにチューニングするステップと、
前記アーキテクチャをダイナミックにチューニングすることに応答して、前記第１のニューラルネットワークの前記複数の層の各々を実装するためのカスタマイズされたハードウェア構成を指定するＭＬアクセラレータの構成を生成するステップと、を含む、特定用途向け機械学習（ＭＬ）アクセラレータを生成するためのコンピュータが実行する方法。

【請求項2】

前記カスタマイズされたハードウェア構成に基づいて特定用途向けハードウェアＭＬアクセラレータを生成するステップをさらに含み、
前記特定用途向けハードウェアＭＬアクセラレータは、前記ニューラルネットワークが、前記標的アプリケーションのための計算を実行するために使用されるときに、前記ニューラルネットワークの異なる層の各々を実装するように最適化されている、請求項１に記載の方法。

【請求項3】

前記性能目標は、複数の別々の目標を含み、前記特定用途向けＭＬアクセラレータを生成するステップは、
前記特定用途向けハードウェアＭＬアクセラレータが前記標的アプリケーションのための計算を実行するときに、前記複数の別々の目標の各々の別々の目標を満たすように構成されている特定用途向けハードウェアＭＬアクセラレータを生成するステップを含む、請求項２に記載の方法。

【請求項4】

前記性能データを生成するステップは、
前記ＭＬコストモデルによって、前記第１のニューラルネットワークの前記複数の層の各々の層を実行するために前記アーキテクチャの使用をモデリングするステップと、
各々の層を実行するために前記アーキテクチャの使用をモデリングすることに応答して、前記ＭＬコストモデルによって、前記複数の層の各々のための前記アーキテクチャの性能パラメータを生成するステップと、を含む、請求項３に記載の方法。

【請求項5】

前記性能パラメータは、前記複数の別々の目標の各々の別々の目標に対応し、
前記複数の別々の目標は、しきい値処理レイテンシ、しきい値電力消費、しきい値データスループット、およびしきい値プロセッサ利用のうちの少なくとも１つを含む、請求項４に記載の方法。

【請求項6】

前記アーキテクチャをダイナミックにチューニングするステップは、
前記特定用途向けハードウェアＭＬアクセラレータに前記ハードウェアＭＬアクセラレータのハードウェア計算ユニットのしきい値パーセンテージを利用させる入力テンソルのための計算のマッピングを決定するステップと、
決定された前記マッピングに基づいて前記アーキテクチャをダイナミックにチューニングするステップと、を含む、請求項２に記載の方法。

【請求項7】

前記アーキテクチャをダイナミックにチューニングするステップは、
グローバルチューナの複数のＭＬコストモデルの各々によって実行されるオペレーションに基づいて前記アーキテクチャをダイナミックにチューニングするステップと、
前記グローバルチューナのランダムチューナまたはシミュレートされたアニーリングチューナのうちの少なくとも１つによって実行されるオペレーションに基づいて前記アーキテクチャをダイナミックにチューニングするステップと、を含む、請求項６に記載の方法。

【請求項8】

前記アーキテクチャは、集積回路の１つまたは複数のハードウェアブロックを表し、前記アーキテクチャをダイナミックにチューニングするステップは、
前記アーキテクチャが、前記標的アプリケーションのための計算を実行するために前記第１のニューラルネットワークを実装するときに、前記１つまたは複数のハードウェアブロックの各々のためのそれぞれの性能目標を満たすように前記アーキテクチャをダイナミックにチューニングするステップを含む、請求項６に記載の方法。

【請求項9】

前記ハードウェアＭＬアクセラレータの構成は、前記第１のニューラルネットワークのためのカスタマイズされたソフトウェア構成を指定し、
前記特定用途向けハードウェアＭＬアクセラレータを生成するステップは、前記カスタマイズされたハードウェア構成および前記カスタマイズされたソフトウェア構成に基づいて前記特定用途向けハードウェアＭＬアクセラレータを生成するステップを含む、請求項６に記載の方法。

【請求項10】

前記ＭＬコストモデルは、１つまたは複数の個々の分析モデルを含むアーキテクチャ－アウェアコストモデルであり、
前記アーキテクチャ－アウェアコストモデルは、前記アーキテクチャを使用して処理されるデータの決定性データフローに基づいて前記アーキテクチャの性能を推定するように構成されている、請求項６に記載の方法。

【請求項11】

処理装置、および特定用途向け機械学習（ＭＬ）アクセラレータを生成するための命令を記憶する非一時的機械可読記憶装置を含むシステムであって、前記命令は、オペレーションの実行を生じるために前記処理装置によって実行可能であり、前記オペレーションは、
ベースラインプロセッサ構成を表すアーキテクチャを選択するステップと、
ＭＬコストモデルによって、少なくとも、前記アーキテクチャが、複数の層を含む第１のニューラルネットワークの計算をどのように実行するかをモデリングすることによって、前記アーキテクチャについての性能データを生成するステップと、
前記性能データに基づいて、前記アーキテクチャが前記第１のニューラルネットワークを実装しかつ標的アプリケーションのための機械学習計算を実行するときに性能目標を満たすために前記アーキテクチャをダイナミックにチューニングするステップと、
前記アーキテクチャをダイナミックにチューニングすることに応答して、前記第１のニューラルネットワークの前記複数の層の各々を実装するためのカスタマイズされたハードウェア構成を指定するＭＬアクセラレータの構成を生成するステップと、を含む、システム。

【請求項12】

【請求項13】

【請求項14】

【請求項15】

前記性能パラメータは、前記複数の別々の目標の各々の別々の目標に対応し、
前記複数の別々の目標は、しきい値処理レイテンシ、しきい値電力消費、しきい値データスループット、およびしきい値プロセッサ利用のうちの少なくとも１つを含む、請求項１４に記載のシステム。

【請求項16】

【請求項17】

【請求項18】

【請求項19】

前記ＭＬコストモデルは、１つまたは複数の個々の分析モデルを含むアーキテクチャ－アウェアコストモデルであり、
前記アーキテクチャ－アウェアコストモデルは、前記アーキテクチャを使用して処理されるデータの決定性データフローに基づいて前記アーキテクチャの性能を推定するように構成されている、請求項１６に記載のシステム。

【請求項20】

特定用途向け機械学習（ＭＬ）アクセラレータを生成するための命令を記憶する非一時的機械可読記憶装置であって、前記命令は、オペレーションの実行を生じるために処理装置によって実行可能であり、前記オペレーションは、
ベースラインプロセッサ構成を表すアーキテクチャを選択するステップと、
ＭＬコストモデルによって、少なくとも、前記アーキテクチャが、複数の層を含む第１のニューラルネットワークの計算をどのように実行するかをモデリングすることによって、前記アーキテクチャについての性能データを生成するステップと、
前記性能データに基づいて、前記アーキテクチャが前記第１のニューラルネットワークを実装しかつ標的アプリケーションのための機械学習計算を実行するときに性能目標を満たすために前記アーキテクチャをダイナミックにチューニングするステップと、
前記アーキテクチャをダイナミックにチューニングすることに応答して、前記第１のニューラルネットワークの前記複数の層の各々を実装するためのカスタマイズされたハードウェア構成を指定するＭＬアクセラレータの構成を生成するステップと、を含む、特定用途向け機械学習（ＭＬ）アクセラレータを生成するための命令を記憶する非一時的機械可読記憶装置。

【発明の詳細な説明】

【技術分野】

【0001】

背景
本明細書は、概して、機械学習計算を実行するために使用される集積回路に関する。

【背景技術】

【0002】

ニューラルネットワークは、受信された入力に対して出力、例えば、分類を生成するためにノードの１つまたは複数の層を使用する機械学習モデルである。幾つかのニューラルネットワークは、出力層に加えて１つまたは複数の隠れ層を含む。幾つかのニューラルネットワークは、画像処理のために構成された畳み込みニューラルネットワーク（ＣＮＮ）または発話および言語処理のために構成されたリカレントニューラルネットワーク（ＲＮＮ）であることができる。分類またはパターン認識、データモデリングを伴う予測、および情報クラスタリングに関する様々なタスクを実行するために異なるタイプのニューラルネットワークアーキテクチャを使用することができる。

【0003】

ニューラルネットワーク層は、パラメータまたは重みの対応するセットを有することができる。重みは、ニューラルネットワーク推論を計算するための層の対応する出力を生成するために、ニューラルネットワーク層を通じて入力（例えば、入力のバッチ）を処理するために使用される。入力のバッチおよびカーネルのセットは、入力および重みのテンソル、即ち多次元アレイとして表すことができる。ハードウェアアクセラレータは、ニューラルネットワークを実装するための専用集積回路である。回路は、回路の制御論理を使用してトラバースまたはアクセスされ得るテンソルの要素に対応するロケーションを有するメモリを含む。

【0004】

専用ハードウェアアクセラレータを設計することは、労力が大きく、時間がかかる。例えば、設計プロセスはしばしば、数か月の労力を必要とし、多数の設計反復を含むことができる。さらに、特定用途向け性能およびパワーターゲットを満たすために、設計プロセスは、基礎となるハードウェアにターゲットアプリケーションをマップするためのストラテジを必要とする。ニューラルネットワークの計算グラフはスタティックであるが、マッピング労力は、回路の実際の性能に影響する複数の設計パラメータを伴うことができる。また、設計空間のマニュアル探査はしばしば、異なるセッティングおよび異なるパラメータ間の相互関係の途方もない大きさにより法外である。

【発明の概要】

【0005】

概要
本明細書は、データ処理アーキテクチャをグローバルにチューニングし、チューンされたアーキテクチャに基づいて特定用途向け機械学習（ＭＬ）アクセラレータを自動的に生成するための技術を記載する。アーキテクチャは、アプリケーションレベル目的のセットに基づいて選択される候補アーキテクチャであることができる。例示的なアプリケーションレベル目標は、プロセッサ利用、電力消費、データスループット、およびレイテンシを含むことができる。幾つかの場合、目標は、例示的なＭＬアクセラレータのユーザの所望の性能属性を表す。目標のうちの幾つか（または全て）は、例示的なハードウェアアクセラレータ設計システムへのユーザ入力として受信されてよい。設計システムは、ユーザ入力から独立して目標の１つまたは複数を決定してもよい。

【0006】

システムは、候補アーキテクチャをグローバルにチューンしかつダイナミックに最適化するためにアプリケーションレベル目標（例えば、１つまたは複数の入力）を使用する。例えば、アーキテクチャは、電力消費およびプロセッサ利用などのエリアにおける効率を実現するために特定のタイプのニューラルネットワークを動作させるためにチューンおよび最適化されてよい。アクセラレータ設計システムは、アーキテクチャの様々な態様をチューンするために特定アーキテクチャ向けコストモデルを使用する。コストモデルの出力は、アクセラレータの最終構成を規定するために使用される。最適化およびチューニングの後、システムは、ハードウェアにおいて特定のニューラルネットワークを実装するために最適化された特定用途向け（ＭＬ）アクセラレータを生成するために、スケジューリング／マッピングオプションを含む、様々なアーキテクチャフィーチャを含むハードウェア構成を自動的に生成する。

【0007】

本明細書に記載された主題の１つの態様は、特定用途向け機械学習（ＭＬ）アクセラレータを生成するための、コンピュータが実行する方法において具体化することができる。方法は、ベースラインプロセッサ構成を表すアーキテクチャを選択し、少なくとも、アーキテクチャが、複数の層を含む第１のニューラルネットワークの計算をどのように実行するかをモデリングすることによって、アーキテクチャについての性能データをＭＬコストモデルによって生成することを含む。方法は、性能データに基づいて、アーキテクチャが、第１のニューラルネットワークを実装しかつターゲットアプリケーションのための機械学習計算を実行するときに性能目標を満たすためにアーキテクチャをダイナミックにチューニングすることを含む。方法は、アーキテクチャをダイナミックにチューニングすることに応答してＭＬアクセラレータの構成を生成することも含む。構成は、第１のニューラルネットワークの複数の層のそれぞれを実装するためのカスタマイズされたハードウェア構成を指定する。

【0008】

これらの実装およびその他の実装はそれぞれ選択的に、以下の特徴のうちの１つまたは複数を含むことができる。例えば、幾つかの実装において、方法は、さらに、カスタマイズされたハードウェア構成に基づいて特定用途向けハードウェアＭＬアクセラレータを生成することを含む。加えて、特定用途向けハードウェアＭＬアクセラレータは、ニューラルネットワークが、目標アプリケーションのための計算を実行するために使用されるとき、ニューラルネットワークの異なる層のそれぞれを実装するように最適化されることができる。

【0009】

性能目標は、複数の別々の目標を含み、特定用途向けＭＬアクセラレータを生成することは、特定用途向けハードウェアＭＬアクセラレータが目標アプリケーションのための計算を実行するとき複数の別々の目標の各々の別々の目標を満たすように構成された特定用途向けハードウェアＭＬアクセラレータを生成することを含む。幾つかの実装において、性能データを生成することは、ＭＬコストモデルによって、第１のニューラルネットワークの複数の層の各々の層を実行するためにアーキテクチャの使用をモデリングし、各々の層を実行するためにアーキテクチャの使用をモデリングすることに応答して、ＭＬコストモデルによって、複数の層の各々のアーキテクチャの性能パラメータを生成することを含む。

【0010】

性能パラメータは、複数の別々の目標の各々の別々の目標に対応することができ、複数の別々の目標は、しきい値処理レイテンシ、しきい値電力消費、しきい値データスループット、およびしきい値プロセッサ利用のうちの少なくとも１つを含む。幾つかの実装において、アーキテクチャをダイナミックにチューニングすることは、特定用途向けハードウェアＭＬアクセラレータにハードウェアＭＬアクセラレータのユニットを計算するハードウェアのしきい値パーセンテージを利用させる入力テンソルのための計算のマッピングを決定し、決定されたマッピングに基づいてアーキテクチャをダイナミックにチューニングすることを含む。

【0011】

アーキテクチャをダイナミックにチューニングすることは、グローバルチューナの複数のＭＬコストモデルの各々によって実行されるオペレーションに基づいてアーキテクチャをダイナミックにチューニングし、グローバルチューナのランダムチューナまたはシミュレートされたアニーリングチューナのうちの少なくとも１つによって実行されるオペレーションに基づいてアーキテクチャをダイナミックにチューニングすることを含むことができる。幾つかの実装において、アーキテクチャは、集積回路の１つまたは複数のハードウェアブロックを表し、アーキテクチャをダイナミックにチューニングすることは、目標アプリケーションのための計算を実行するためにアーキテクチャが第１のニューラルネットワークを実装するとき１つまたは複数のハードウェアブロックの各々のためのそれぞれの性能目標を満たすようにアーキテクチャをダイナミックにチューニングすることを含む。

【0012】

ハードウェアＭＬアクセラレータの構成は、第１のニューラルネットワークのためのカスタマイズされたソフトウェア構成を指定し、特定用途向けハードウェアＭＬアクセラレータを生成することは、カスタマイズされたハードウェア構成およびカスタマイズされたソフトウェア構成に基づいて特定用途向けハードウェアＭＬアクセラレータを生成することを含む。幾つかの実装において、ＭＬコストモデルは、１つまたは複数の個々の分析モデルを含むアーキテクチャ－アウェアコストモデルは、アーキテクチャを使用して処理されるデータの決定性データフローに基づいてアーキテクチャの性能を推定するように構成されている。

【0013】

この態様およびその他の態様のその他の実装は、コンピュータ記憶装置にエンコードされた、方法のアクションを実行するように構成された、対応するシステム、装置、およびコンピュータプログラムを含む。１つまたは複数のコンピュータのシステムは、動作時にシステムにアクションを実行させるシステムにインストールされたソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せによってそのように構成することができる。１つまたは複数のコンピュータプログラムは、データ処理装置によって実行されたときに、装置にアクションを実行させる命令を有することによってそのように構成することができる。

【0014】

本明細書に記載された主題は、以下の利点のうちの１つまたは複数を実現するために特定の実施形態において実装することができる。

【0015】

開示される技術は、ハードウェア回路においてニューラルネットワークを実装するためのオペレーションの効率的なスケジューリング／マッピングを含む、最適化されたハードウェアおよびソフトウェア構成を規定するためのアーキテクチャ探査プロセスを迅速化するために使用することができるフレームワークを提供する。このプロセスに基づいて、ハードウェア設計システムは、ＰＰＡ（性能、電力、エリア）制約の与えられたセットのための、システムに関して最適化されたハードウェアマッピングを規定する出力構成を自動的に生成することができる。ＰＰＡ制約は、少なくともプロセッサ利用、電力消費、レイテンシ、ブロックサイズ、および／またはデータスループットに関するハードウェアアクセラレータ性能しきい値であることができる。

【0016】

設計システムは、固定された数の層を有する例示的なネットワークモデルを識別し、識別されたハードウェアアーキテクチャの最適な属性（例えば、シストリックアレイ、計算タイル等）を決定することができ、識別されたハードウェアアーキテクチャの最適な属性は、ブロック接続、ハードウェアレイアウト、またはメモリなど、そのマイクロアーキテクチャの属性を含む。これらの最適化されたハードウェア属性に加えて、設計システムは、層ごとの処理のための効率的なスケジューリングおよびデータ割り当てを決定し、これにより、特定用途向けＭＬアクセラレータは、電力および回路面積の最小限の量をも消費しながら、層特定の処理のためのユーザまたはシステム規定された要求を満たす（または超える）ように生成されることができる。

【0017】

本明細書に記載された主題の１つまたは複数の実装の詳細は、添付の図面および以下の説明に示されている。主題のその他の潜在的な特徴、態様および利点は、説明、図面および請求項から明らかになるであろう。

【図面の簡単な説明】

【0018】

【図1】機械学習アクセラレータを生成およびグローバルにチューニングするための例示的なコンピューティングシステムのブロック図である。

【図2】特定用途向け機械学習アクセラレータをグローバルにチューニングするための例示的なシステムを示すブロック図である。

【図3】多層ニューラルネットワークをチューニングするための例示的なフレームワークを示す図である。

【図4】多層ニューラルネットワークのグラフ実行スケジュールをチューニングおよび最適化するための例示的なプロセスの流れ図である。

【図5】機械学習アクセラレータを生成およびグローバルにチューニングするために使用される例示的なプロセスの流れ図である。

【図6】図１のシステムを使用して生成された例示的な特定用途向けハードウェアアクセラレータのブロック図である。

【図7】入力テンソル、重みテンソルおよび出力テンソルの例を示す図である。

【発明を実施するための形態】

【0019】

様々な図面における同じ参照番号および指示は、同じ要素を指している。
詳細な説明
図１は、例示的なハードウェアアクセラレータ設計システム１００（「システム１００」）のブロック図である。概して、システム１００は、プロセッサ（例えば、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、専用プロセッサ等）、メモリ、および／またはカスタマイズされたハードウェア機械学習アクセラレータをグローバルにチューニングおよび生成するための機能を実行するために使用される処理リソースを集合的に形成するデータ記憶装置を含むことができる。

【0020】

以下に説明されるように、１つまたは複数の入力目標１０２を使用して、システム１００は、例示的なハードウェアアクセラレータを生成するための設計構成を開発および出力するように構成されている。ハードウェアアクセラレータは、特定のタイプの機械学習タスクを実行するように最適化されている専用または特定用途向けハードウェア回路として実装することができる。例えば、特定用途向け回路は、多層ニューラルネットワークを実装または動作するように構成された機械学習（ＭＬ）ハードウェアアクセラレータであってよい。

【0021】

より具体的には、特定用途向け回路は、ユーザによって指定された１つまたは複数の入力など、異なるアプリケーション目標に従ってユニークにチューンおよび／または最適化されてよい。例えば、特定のタイプのニューラルネットワーク（例えば、多層ＣＮＮ）を実装する場合、特定用途向けＭＬ回路のための候補データ処理アーキテクチャは、プロセッサ利用、電力消費、データスループット、および／またはレイテンシに関するしきい値性能目標を達成（または超過）するように最適化されてよい。

【0022】

本文書において使用される場合、データ処理「アーキテクチャ」は、ハードウェア回路アーキテクチャ、ソフトウェア／ニューラルアーキテクチャ、または両方を指すことができる。このように、アーキテクチャをチューニングおよび最適化することは、ハードウェアアーキテクチャのチューニング属性およびニューラルアーキテクチャのチューニング属性を含むことができ、これにより、結果として生じるアーキテクチャは、システム１００によって受信または決定されてよい各々の異なるアプリケーション目標に従って所与の機械学習タスクを実行するように最適化（例えば、完全に最適化）されている。

【0023】

システム１００は、設計空間１０４を構築および管理するための制御論理を含む。設計空間１０４は、ハードウェア装置およびシステム１００において実行されるソフトウェアルーチンの組合せに基づいて構築されてよい。例えば、制御論理は、様々な設計空間オペレーションを管理するためにプログラムされた命令を実行するシステムコントローラまたはホスト装置として実装されてよい。設計空間１０４のオペレーションは、候補アーキテクチャをチューニングするために必要とされる複数の設計アイテムまたはパラメータを処理することを含むことができる。

【0024】

概して、システム１００は、設計空間１０４のアクティビティおよびオペレーションを管理するために制御論理を使用する。所与のＭＬタスクのためのアーキテクチャを最適化することに加えて、幾つかの実装において、システム１００の制御論理はそれ自体、ＭＬモデルに基づいてよい。例えば、ＭＬモデルは、入力目標のセットに基づいて候補アーキテクチャをチューニングするために必要な設計入力および制御パラメータを処理するように訓練されてよい。幾つかの実装において、制御論理は、入力目標のセットおよび例示的なコストモデル（以下で説明される）によって実行されるオペレーションに従って候補アーキテクチャをチューンする例示的な最適化アルゴリズムを実行または適用する。

【0025】

候補アーキテクチャは、少なくともシステム１００のアーキテクチャリポジトリ１０６から選択される。システム１００は、少なくとも入力オブジェクト１０２に基づいてアーキテクチャリポジトリ１０６から候補アーキテクチャを識別または選択することができる。アーキテクチャリポジトリ１０６は、特定用途向けハードウェアＭＬアクセラレータを生成するために使用される複数の異なるハードウェアアーキテクチャを記述する情報を含む。

【0026】

例えば、アーキテクチャリポジトリ１０６を介してアクセスされる第１のハードウェアアーキテクチャは、シストリックアレイアーキテクチャを規定してよいのに対し、アーキテクチャリポジトリ１０６を介してアクセスされる第２の異なるハードウェアアーキテクチャは、計算タイルの配列に基づいてハードウェアアーキテクチャを規定してよい。同様に、アーキテクチャリポジトリ１０６を介してアクセスされる第３のアーキテクチャは、別々のベクトル処理ユニット（ＶＰＵ）を形成するタイトに結合されたデータ処理レーンのそれぞれのセットに基づいてハードウェアアーキテクチャを規定してよいのに対し、アーキテクチャリポジトリ１０６を介してアクセスされる第４のアーキテクチャは、大型の共有されるスクラッチパッドメモリおよびマトリックス計算ユニットと相互作用する少なくとも２つのベクトルプロセッサコアを含むハードウェアアーキテクチャを規定してよい。

【0027】

最適化およびチューニングのために選択される候補アーキテクチャは、例えば、アーキテクチャリポジトリ１０６から取得されるハードウェア回路アーキテクチャと、ニューラルアーキテクチャとの組合せであることができる。ニューラルアーキテクチャは、複数の異なるタイプのニューラルネットワークグラフを含むネットワークグラフモジュール１０８から取得されてよい。例えば、システム１００は、入力目標１０２、集積回路（ＩＣ）の例示的なハードウェアレイアウト、および例示的なニューラルネットワークグラフに基づいて、候補アーキテクチャを選択することができる。

【0028】

幾つかの実装において、システム１００は、所与のニューラルネットワークアーキテクチャのための特定のハードウェアアーキテクチャの選択に向かってシステムをバイアスする１つまたは複数の入力目標１０２に基づいて候補アーキテクチャを選択する。例えば、システム１００は、１つまたは複数のハードウェア変数に基づいて候補アーキテクチャを選択することができる。ハードウェア変数は、アーキテクチャ選択を制約し、設計空間１０４に、例えば、グラフモジュール１０８から取得された所与のニューラルアーキテクチャのためのリポジトリ１０６から特定のタイプのハードウェアアーキテクチャを選択させる、制御パラメータを表すことができる。

【0029】

システム１００は、例示的なデータ処理アーキテクチャをグローバルにチューンするために１つまたは複数のコストモデルと相互作用する最適化およびチューニングモジュール１１２を含む。例えば、システム１００は、１つまたは複数の個々のデータモデル１１４を含むことができるアーキテクチャ－アウェアコストモデル１１４を含む。幾つかの場合、これらの個々のデータモデルの各々は、入力目標のセットに基づいて候補アーキテクチャをチューニングするためのＭＬベース分析を実行するように構成されているそれぞれのコストモデル１１４である。アーキテクチャ－アウェアコストモデル１１４は、アーキテクチャを使用して処理されるデータの決定性データフローに基づいて候補アーキテクチャの性能を推定する。

【0030】

幾つかの実装において、システム１００は、２つのタイプのコストモデルのうちの１つ、即ち分析コストモデルまたはＭＬベースコストモデルに基づくそれぞれのコストモデル１１４を含む。両モデルは、以下に記載される最適化ループにおいて論じられるように、同じ入力を受信しかつ同じ出力を生成することができる。概して、これらの２つのタイプのコストモデルの違いは、各々のモデルがそのコストを内部でどのように予測するかである。分析コストモデルとＭＬベースコストモデルとの間には様々な違いがある。

【0031】

例えば、分析コストモデルは、ハードウェアマッピングパラメータおよびニューラルネットワークグラフのセットに基づいて様々な「シーリング」を考慮するルーフラインベースモデルであることができる。分析コストモデルは、訓練データを必要としない。所与の入力があると、分析コストモデルは「内部論理」を使用して、ボトルネックを引き出し、コストを出力する。内部で、分析コストモデルを実装するために使用される１つまたは複数のハードウェアブロックは、「コストモジュール」を共有するように構成することができる。共有されるコストモジュールは、ハードウェアブロックにおいて動作させられるハードウェアマッピングパラメータおよびニューラルネットワーク計算が与えられるとコストを生成するように動作可能である。幾つかの場合、分析コストモデルは、決定性データフローを有するアプリケーションのための特に正確なコスト出力を生じる。

【0032】

ＭＬベースコストモデルは、少なくともレイテンシおよびスループットを予測することができる機械学習モデルを訓練するために、ラベル付けされたデータを必要とする。例えば、機械学習モデルは、ＰＰＡ制約のうちの１つまたは複数を含む、異なるアプリケーションレベル目標のためのコスト値を予測するように訓練されることができる。ＭＬベースコストモデルは、教師あり学習およびマルチレベルパーセプトロンを使用して実装されることができる。幾つかの実装において、ＭＬベースコストモデルの訓練データは、高レベル合成およびＲＴＬシミュレーションによって取得される。入力の分散性質を降伏するために、ＭＬベースコストモデルの入力は、確率的勾配降下法などの標準的な技術を使用して学習される埋め込みに変換されることができる。幾つかの場合、ＭＬベースコストモデルは、オフラインで訓練される。訓練されたＭＬベースコストモデルは、候補アーキテクチャをダイナミックに最適化するために最適化ループ（以下で説明される）の間に使用される。

【0033】

最適化およびチューニングモジュール１１２ならびにコストモデル１１４のセットの各々は、設計空間１０４の拡張として機能することができる。幾つかの実装において、最適化およびチューニングモジュール１１２ならびにコストモデル１１４のセットは、候補アーキテクチャのハードウェアブロックおよびニューラルネットワークの両方の属性をチューンするグローバルチューナを表す。設計空間１０４の制御論理は、グローバルチューナのオペレーションを制御または管理するために使用することができる。例えば、グローバルチューナは、制御論理を使用して生成された制御信号に基づいて候補アーキテクチャをチューンするために設計空間１０４の異なる態様（例えば、変数および制約）と相互作用することができる。これは、図２を参照して以下で詳細に説明される。

【0034】

最適化およびチューニングモジュール１１２は、例示的なチューナ１１６および例示的なスケジューラ／マッパ１１８を含む。幾つかの実装において、チューナ１１６およびスケジューラ／マッパ１１８は、モジュール１１２の例示的なチューニングおよび最適化タスクを実行するために相互作用する（以下で説明する）。上記のように、データ処理アーキテクチャは、例えば、アーキテクチャリポジトリ１０６から取得される、ハードウェア回路アーキテクチャと、ニューラルネットワークグラフモジュール１０８から取得されるニューラルアーキテクチャとの組合せであることができる。ハードウェアアーキテクチャは、各々が、シストリックアレイセル、ベクトルプロセッサレーンまたは個々の計算タイルなどのハードウェアフィーチャを含む複数の個々のハードウェアブロックを含むことができる。

【0035】

チューナ１１６およびスケジューラ／マッパ１１８は、ｉ）１つまたは複数のハードウェアブロックへのニューラルネットワーク層の候補マッピングを構成しかつｉｉ）この候補マッピングのために、１つまたは複数のアプリケーション目標１０２に基づいて各々のハードウェアブロックのそれぞれのマイクロアーキテクチャをチューンする、ように協働する。このように、最適化およびチューニングモジュール１１２は、所与のハードウェアブロックが、ニューラルネットワークの１つまたは複数の層を実行するために最適化されるように、各々のハードウェアブロックのそれぞれのマイクロアーキテクチャをチューンするように構成されている。

【0036】

所望の性能目標を達成するために、最適化およびチューニングモジュール１１２は、候補マッピングを構成しかつ各々のハードウェアブロックのマイクロアーキテクチャをチューニングするプロセスを通じて反復するためにアーキテクチャ－アウェアコストモデル１１４と相互作用することができる。このチューニング反復は、最適化およびチューニングモジュール１１２から設計空間１０４への、例えば、選択的なデータパス１２０を介した、信号通信を含むことができる。通信は、例えば、コストモデル１１４によって生成された性能推定に基づいて候補アーキテクチャのハードウェアブロックを増大するための新たな入力、変数、制約、またはアーキテクチャフィーチャを取得するためであってよい。システム１００は、反復プロセスを表すチューニングループ１２２を含むことができる。

【0037】

システム１００は、設計空間１０４、最適化およびチューニングモジュール１１２、およびアーキテクチャ－アウェアコストモデル１１４の処理動作に基づいて例示的な出力構成１３０を生成する。以下で説明されるように、システム１００は、出力構成１３０に基づいて特定用途向けＭＬハードウェアアクセラレータ（例えば、集積回路）を自動的に生成することができる。

【0038】

図２は、グローバルチューナ２０２を含む例示的なシステム２００を示すブロック図である。幾つかの場合、システム２００は、１つまたは複数の処理装置によって実行可能なプログラムされた命令を有するソフトウェア／計算モジュールのサブシステムまたはハードウェア回路としてシステム１００内に含まれている。

【0039】

システム２００の動作は、標的アプリケーションのための訓練および推論などの学習タスクを行うようにカスタマイズされた特定用途向けＩＣを自動的に生成するためのグローバルチューニングフレームワークを提供する。幾つかの実装において、標的アプリケーション（または装置）は、固定されたハードウェア構成を有するカスタマイズされたハードウェアアクセラレータである。幾つかのその他の実装において、標的アプリケーションは、画像分類、オブジェクト検出、自律的車両ナビゲーション、グラフィックス処理、または科学的コンピューティングに関する作業負荷のタイプである。

【0040】

グローバルチューナ２０２は、特定用途向けＭＬアクセラレータを生成するために、異なるアプリケーション目標１０２に従って、候補アーキテクチャをグローバルにチューン／最適化するように構成されている。グローバルチューナ２０２は、１つまたは複数のチューナ変数および制約２１０に基づいて設計空間１０４を構築する設計空間ビルダ２０４を含む。設計空間ビルダ２０４は、設計空間エクスプローラ２１２およびグローバルチューナ２０２のための１つまたは複数のコストモデル２１４と通信する。コストモデル２１４は、上記で説明されているアーキテクチャ－アウェアコストモデル１１４の個々のモデルに対応する。

【0041】

モジュール１０８のパースされたニューラルネットワークグラフに基づいて、設計空間ビルダ２０４および設計空間エクスプローラ２１２は、標的アプリケーションのために最適に実行するニューラルネットワークアーキテクチャ（「ニューラルアーキテクチャ」）を選択するためのニューラルアーキテクチャサーチ（ＮＡＳ）システムを実装するために相互作用することができる。ＮＡＳは、強化学習、進化的探索、微分可能探索等に基づく技術など、様々な探索技術を採用してよい。設計空間ビルダ２０４および設計空間エクスプローラ２１２は、標的アプリケーションのために効率的にチューンおよび最適化されることができる異なるハードウェアアーキテクチャを探査するために類似のアプローチを採用してよい。

【0042】

設計空間ビルダ２０４および設計空間エクスプローラ２１２は、１つまたは複数のチューナ変数および制約２１０に基づいてＮＡＳおよびハードウェアアーキテクチャ探索技術を実装する。チューナ変数および制約２１０は、様々なアンロールファクタ、マックスマッパ入力／出力データ幅、またはマックスレデューサ入力／アウトデータ幅を含む。上記で説明されているように、ニューラルネットワーク層は、カーネル（例えば、重み／パラメータ）の対応するセットを有することができる。カーネルは、４つの次元、即ちＣ－入力チャネル、Ｋ－出力チャネル、Ｒ－カーネル高さ、およびＳ－カーネル幅を有する畳み込みカーネルであることができる。例示的な畳み込み動作は、４つの次元パラメータ（Ｃ、Ｋ、Ｒ、Ｓ）を使用して入れ子のループとして表すことができる。カーネルのセットは、多次元テンソルとして表されており、入れ子のループは、テンソルの異なる次元をトラバースするために使用することができる。この文脈において、アンロールファクタは、入れ子のループの各々のアンローリングに対応する。グローバルチューナ２０２は、全てのアンロールファクタのための入れ子のループのアンローリングをサポートし、これらのファクタに関して候補アーキテクチャをチューンすることができる。

【0043】

マッパおよびレデューサ入力／出力データ幅は、大きなテンソルが、所与の計算タイルまたはセルにマップされるより小さなピースへとどのように小さくされるかに影響する。例えば、入力テンソルおよび出力テンソルはかなり大きい可能性があり、これらのテンソルは一度に生成されない。これらのテンソルを処理するハードウェアアクセラレータの面積および電力を小さくするために、システム１００は、入力テンソルおよび出力テンソルを複数のより小さなピースに分割するためにテンソルタイリングを利用することができる。例えば、システム１００は、マッピング制約に基づいて大きな入力テンソルをより小さなピースに分割（または小さく）することができる。マッピング制約は、電力、面積、レイテンシ、および／またはスループットなどの目標に結合されてよい。グローバルチューナ２０２は、候補アーキテクチャのための計算タイルのセットの構成およびサイズを決定するためにこれらの目標を使用することができる。グローバルチューナ２０２は、入力テンソルの異なるピースのための計算を計算タイルのセットにおける所与のタイルにマップすることができる。

【0044】

マックスマッパ入力／出力データ幅およびマックスレデューサ入力／アウトデータ幅は、候補アーキテクチャのデータスループットに直接影響する制約である。チューナ変数および制約２１０は、ターゲットアプリケーションのための所与のニューラルネットワークを動作させるためにカスタマイズされたハードウェアＭＬアクセラレータを生成するための候補アーキテクチャを探査することに関するその他のアイテムを含むことができる。幾つかの実装において、タイルサイズが小さいほど、より長いデータ伝送時間が要求され、したがって、全体的なチップ性能もここで作用し始めることができる。全てのこれらの異なるチューナ変数および制約２１０は、性能、電力、および面積への暗示と共に、異なるハードウェア設計を生じることができる。したがって、グローバルチューナ２０２は、これらの変数／制約から設計空間を形成し、ハードウェアおよびニューラルアーキテクチャをカスタマイズするための最適なパラメータを選択することによって性能、電力、および面積間のバランスをストライクする。

【0045】

グローバルチューナ２０２は、少なくとも各々の個々のＭＬコストモデル２１４によって実行されるオペレーションに基づいて候補アーキテクチャをダイナミックにチューンすることができる。幾つかの実装において、グローバルチューナ２０２は、ｉ）ランダムサーチチューナ、ｉｉ）シミュレートされたアニーリングチューナ、またはｉｉｉ）プログレッシブチューナのうちの少なくとも１つによって実行されるオペレーションに基づいて候補アーキテクチャをダイナミックにチューンする。ランダムサーチチューナ、シミュレートされたアニーリングチューナ、およびプログレッシブチューナの各々は、上記で説明されたチューナ１１６に対応する。ブロックパーティションモデルのために、グローバルチューナ２０２は、シミュレートされたアニーリングチューナに関連した特定のチューニング軌道を実装する。ランダムチューナ、シミュレートされたアニーリングチューナ、およびプログレッシブチューナの各々は、ソフトウェア、ハードウェア、または両方において実装されてよい。これらのチューナの各々に関連した機能は、グローバルチューナ２０２において実装されるチューナ１１６に統合されてよい。

【0046】

グローバルチューナ２０２は、候補アーキテクチャのベースラインプロセッサ構成など、トライアル構成を取得するためにサーチ空間をランダムにサンプリングするためにランダムサーチチューナを使用する。トライアル構成／アーキテクチャにおいて目標アプリケーションを動作させるコストは、ＭＬコストモデル２１４の性能およびパワーコストモデルをクエリすることによって取得される。

【0047】

シミュレートされたアニーリングは、グローバルチューナ２０２においてチューナとして実装されることができ、所与の機能のグローバル最適条件を近似するための確率的技術である。各々のステップにおいて、このチューナは、現在のハードウェア設計ポイントｄの近隣ハードウェア設計ポイントｄ‘を考慮し、現在の設計ポイントを設計ポイントｄ’に向かって移動させるかまたは設計ポイントｄと共にとどまるかどうかを確率的に決定する。温度変数は、アクセプタンス確立を制御するために生成される。シミュレートされたアニーリングチューナは、その確率結果が標的アプリケーションのための最適な設計ポイントへの到着を示すまで、これらのステップを反復するように構成されている。例えば、しきい値スコアを超過する確率スコアは、特定の設計ポイントが制約の所与のセットに対して標的アプリケーションのために最適に実行することを示すことができる。

【0048】

隣接ハードウェア設計ポイントは、ランダムに生成されてよい。幾つかの実装において、隣接ハードウェア設計ポイントは、現在のハードウェア設計ポイントと類似または極めて類似のハードウェアパラメータ選択（例えば、アンローリング、タイリング、マッピング、またはスケジューリング）を有する。パラメータ選択の類似性は、２つの設計ポイントの間のハードウェアパラメータ選択におけるオーバーラップの量（またはパーセンテージ）によって特徴づけられてよい。幾つかのその他の実装において、隣接ハードウェア設計ポイントは、現在のハードウェア設計ポイントと同じハードウェアパラメータ選択のうちの１つまたは複数を有することができる。

【0049】

グローバルチューナ２０２は、ＮＡＳの設計空間など、例示的な設計空間のプログレッシブサーチ方法を実装するためにプログレッシブチューナを使用する。このプログレッシブサーチ方法は、候補アーキテクチャをチューニングするための設計空間探査時間を減じるために使用することができる。幾つかの実装において、グローバルチューナ２０２は、集積回路の機械学習ブロックへの固定されたデータレート入力などの所定のスループット要求を満たす（または超過する）ためにＭＬハードウェアを設計およびチューニングする際のステップとして設計空間を探査するためにプログレッシブサーチ方法を実行する。プログレッシブサーチ方法は、少なくともｉ）全てのニューラルネットワーク層のための最小設計としてのベースライン設計を初期化するステップ、およびｉｉ）データレート要求よりも低いデータスループットを有するボトルネック層を識別するためにコストモデル２１４をクエリするステップを含むことができる。コストモデル２１４がボトルネックを識別しないまたは示さないおよび／またはグローバルチューナ２０２が、ニューラルネットワークの層がボトルネックとして動作しないことを決定する場合、サーチ方法の実行は終了する。

【0050】

プログレッシブサーチ方法は、ｉｉｉ）全体的モデル性能において最も低いコストを有しながら、スループット要求を満たす（または超過する）ことによってボトルネックを最小限にする設計構成を決定するためにボトルネックに関してサーチ空間を徹底的に探査するステップ、およびｉｖ）新たなベースライン設計としてステップｉｉｉ）として決定される設計構成を使用し、次いで、再びステップｉｉ）へ進むステップをさらに含んでよい。幾つかの実装において、ベースライン設計は、所与のニューラルネットワークの全ての層を動作させるための最小限のハードウェア（およびニューラル）アーキテクチャ／設計パラメータを含むベースラインプロセッサ構成である。サーチ空間を徹底的に探査することは、多層ニューラルネットワークを実装するために各々の設計構成を使用し、各々の設計構成のそれぞれのデータスループットを評価し、かつ異なる設計構成の各々のためのそれぞれのコスト値を計算することによって、異なる設計構成を反復して探査することを含む。

【0051】

図２の例において、入力目標１０２は、ユーザ定義される、システム定義される、または両方であることができる。例えば、入力目標１０２は、ユーザ構成ファイルとしてまたはシステム生成された入力ファイルとして受信されることができる。構成または入力ファイルは、例えば、ＰＰＡ制約のセットから引き出される様々なアプリケーションレベル目標１０２を規定することができる。例えば、入力ファイルは、プロセッサ利用、電力消費、データスループット、ハードウェアブロックサイズ、および／またはレイテンシなどのアプリケーションレベル目標のセットを含むことができる。入力ファイルは、各々のアプリケーションレベル目標のためのそれぞれのハードウェアアクセラレータ性能しきい値も含む。

【0052】

幾つかの実装において、入力ファイルは、標的アプリケーションが複数のベクトルオペレーションを要求することを示す目標１０２を含む。この指示に基づいて、制御論理は、ベクトルパラメータ（ｖｅｃｔｏｒ＿ｃｔｒｌ）として設定される設計空間１０４のハードウェア変数１１０をトリガすることができる。設計空間１０４は、例えば、タイトに結合されたＶＰＵを形成する複数のベクトル処理レーンを含むアーキテクチャに、候補アーキテクチャの選択を制約するために、ｖｅｃｔｏｒ＿ｃｔｒｌパラメータを使用することができる。

【0053】

図２の実例において、コストモデル２１４の幾つか（または全て）は、候補アーキテクチャをチューニングするためのＭＬベース分析を実行する。入力目標１０２のセットに従って、グローバルチューナ２０２は、１つまたは複数の最適化アルゴリズムに基づいて候補アーキテクチャのハードウェアおよびニューラルアーキテクチャをチューンする。例えば、グローバルチューナは、ニューラルネットワークの所定のハードウェアブロックに関して多層ニューラルネットワークの各々の層を実行するために候補アーキテクチャの使用をモデル化するためにコストモデル２１４を使用する。各々の層を実行するためのアーキテクチャの使用のモデル化に応答して、ＭＬコストモデル２１４は、アーキテクチャが各々の層のためにどのように実行するかを記述する性能パラメータを生成する。

【0054】

幾つかの実装において、最適化アルゴリズムは、コストモデル相互作用ループ、例えば、最適化ループを実装するために使用される。例えば、オプティマイザまたはグローバルチューナ２０２（例えば、シミュレートされたアニーリング、プログレッシブ、ランダムなど）は、ＰＥの数、シストリックアレイ次元など、ハードウェアマッピングパラメータのセットを生成することができる。ハードウェアマッピングパラメータは、層依存関係および量子化スキーム（例えば、固定されている）を含むニューラルネットワークグラフと一緒に、コストモデル２１４へ送信される。コストモデル２１４は、入力に基づいて、レイテンシ、スループット、および電力などのコストを生成する。コストモデルのコスト出力は、最適化ループにおけるステップとしてオプティマイザへフィードバックされることができる。オプティマイザは、コスト出力を処理し、探査するための次のハードウェアマッピングストラテジを決定することができる。グローバルチューナ２０２は、集束条件が満たされるまたはサーチ空間が完全に探査されるまで、この最適化ループを反復することができる。

【0055】

幾つかの実装において、グローバルチューナ２０２の第１のコストモデル２１４は、候補アーキテクチャのハードウェア属性についての性能推定／パラメータを計算するために使用されるのに対し、第２のコストモデル２１４は、候補アーキテクチャにおいて実装されるニューラルネットワークについての性能推定／パラメータを計算するために使用される。第１および第２のコストモデル２１４は、同じであるまたは異なってよい。コストモデル２１４は、アーキテクチャをチューニングしかつ候補アーキテクチャの性能を最適化するために性能推定を計算するために単一の最適化アルゴリズムを使用することができる。幾つかの他の実装において、コストモデル２１４は、アーキテクチャ性能の様々な態様を最適化するための性能推定を計算するために異なる最適化アルゴリズムを使用する。

【0056】

グローバルチューナ２０２は、探査される様々なハードウェアおよびニューラルネットワークアーキテクチャのための異なる設計空間および最適化ストラテジを実装するために、少なくとも設計空間ビルダ２０４、設計空間エクスプローラ２１２、およびコストモデル２１４を使用することができる。例えば、候補アーキテクチャの各々のハードウェアブロック内で、グローバルチューナ２０２は、特にシストリックアレイ次元の層特定タイリングおよびチューニングなどの１つの層を標的とする異なる実装を探査する。グローバルチューナ２０２は、並列化を増大するために層変換を探査することができる。例えば、グローバルチューナ２０２は、１つまたは複数のハードウェアブロックを横断する計算ユニットのスループットおよび／または利用を増大するために、密な／１×１畳み込みをｎ×ｎ畳み込みに変換することができる。

【0057】

幾つかの実装において、その最適化アルゴリズムに基づいて、コストモデル２１４は、密な畳み込みが、複数の計算ユニットを含むハードウェアブロックの１つの計算ユニットに割り当てられていることの指示から利用推定を計算する。グローバルチューナ２０２は、利用推定を、アプリケーション目標１０２（または制約２１０）によって指定された利用しきい値と比較することができる。グローバルチューナ２０２は、計算された利用推定がしきい値よりも低いかどうかを決定する。グローバルチューナ２０２は、計算された利用推定がしきい値よりも低いことの決定に応答して、所与のハードウェアブロックを横断して計算ユニットの利用を増大するために、密な／１×１畳み込みをｎ×ｎ畳み込みへ変換することができる。利用推定は、コストモデル２１４によって生成された性能パラメータ（または推定）である。

【0058】

処理エンジン（例えば、セル、タイル、または処理レーン）の多次元アレイのために、グローバルチューナ２０２は、所望の性能目標を達成するために必要とされる最適なサイズ／面積および予測される出力密度を決定することができる。グローバルチューナ２０２は、決定されたサイズに基づいてアレイの各々の次元において処理エンジン（ＰＥ）の数を変化させることができる。システム１００，２００は、ニューラルネットワークの１つの層のための１つまたは複数のディープハードウェアカスタマイゼーションが、ニューラルネットワークの他の層の効率的な動作またはオペレーションを不可能にしないまたは不利な影響を与えないように構成されている。

【0059】

グローバルチューナ２０２は、候補アーキテクチャのチューニングに応答して出力構成２３０を生成する。出力構成２３０は、特定用途向けＭＬアクセラレータを自動的に生成するために使用される。出力構成２３０は、ＭＬモデル（またはアルゴリズム）および対応するアーキテクチャ構成を表すことができる。システム２００は、例示的なコード生成モジュール２４０を使用して、出力構成２３０を表すデータを高レベル合成（ＨＬＳ）コードに変換する。例えば、コード生成モジュール２４０は、高レベル合成言語（ＨＬＳ）を使用してハードウェアアクセラレータのためのＭＬアルゴリズムのファームウェア実装を生成することができる。

【0060】

概して、グローバルチューナ２０２は、標的アプリケーションのために完全にカスタマイズされた１つまたは複数の特定用途向けＭＬアクセラレータを生成するために使用される。例えば、カスタマイゼーションは、１つまたは複数のニューラルネットワーク層のために調整された異種量子化およびマイクロアーキテクチャなどのアイテムを含むことができる。幾つかの実装において、グローバルチューナ２０２およびシステム２００は、少なくとも、マイクロアーキテクチャ、空間マッピング、およびＰＰＡ制約（例えば、目標１０２）のセットのための全体的なアーキテクチャを最適化するための時間的マッピングなど、最適なハードウェアパラメータを識別することによって、カスタマイズされたアーキテクチャを生成するために使用される。

【0061】

ハードウェアフィーチャは、チップ上またはチップ内で分離させられてよい。アーキテクチャの空間マッピングを最適化することは、チップまたは集積プロセッサブロック内で空間的に分離された異なるニューラルネットワークオペレーションを動作させるために使用されるハードウェアブロックを含む。例えば、候補アーキテクチャは、ニューラルネットワークにおいて専用のオペレーションを実行するために専用のハードウェアブロックの特定の配列を使用することによって空間マッピングのために最適化されてよい。このマッピングは、ハードウェアブロックが、特定のアルゴリズムまたは計算パターンのために調整されることを可能にする。

【0062】

他の設計に関して、最適化された空間マッピングを有するアーキテクチャは、性能およびエネルギ効率の改善を提供することができる。改善は、少なくとも、特定のアルゴリズムまたは計算パターンを実行するために調整された専用ハードウェアブロックの配列から実現されてよい。幾つかの実装において、１つまたは複数の専用ハードウェアブロックは、固定次元テンソルを処理し、固定量子化スキームをサポートし、特定のニューラルネットワーク層のために調整されるように構成されている。

【0063】

アーキテクチャの時間マッピング（３０７）を最適化することは、ニューラルネットワークにおける異なるオペレーションの中で時間共有されるハードウェアブロックを含む。例えば、候補アーキテクチャは、ニューラルネットワークにおいて広範囲の様々な異なるオペレーションを実行するために同じハードウェアブロックを再利用することによって時間マッピングのために最適化されてよい。所与のハードウェアブロックのその使用においてより一般的であるが、このアプローチは、ハードウェアのプログラム可能性を高めることができる。さらに、このアプローチは、ハードウェアにおいて動作させられることができるニューラルネットワークに関して、アプリケーションデベロッパにより柔軟性を与えることができる。幾つかの例において、最適化された時間マッピングは、同じハードウェアブロックにおける異なる層の時間共有および複数の量子化スキームのサポートを提供する。

【0064】

カスタマイゼーションは、標的アプリケーションのためにカスタマイズされていない他の処理装置と比較したときに著しくより少ない電力および面積を消費する特定用途向けＭＬアクセラレータを生じることができる。

【0065】

図３は、多層ニューラルネットワークをチューニングするための例示的なフレームワーク３００を示す。このフレームワークを使用して、システム１００は、ニューラルネットワークグラフにおける計算ノードを所与のハードウェアブロックにおけるマイクロアーキテクチャ（または処理エンジン）の異なるフィーチャへ繰り返しマップすることができる。例えば、フレームワーク３００は、ニューラルネットワークグラフの様々な計算ノードの間の依存性を決定および構築するためにグローバルチューナ２０２または最適化およびチューニングモジュール１１２において実装されてよい。依存性は、例えば、ＭＬコストモデル２１４が候補アーキテクチャによってニューラルネットワークの各々の層の実行をモデル化するときに決定されてよい。ＭＬコストモデル２１４は、ニューラルネットワークの各々の層を実行するときに候補アーキテクチャがどのように実行するかの評価を提供する性能パラメータを生成する。

【0066】

図３の例において、ニューラルネットワーク３０２は、５つの層（Ｌ１～Ｌ５）を含み、第１の層がＬ１、第２の層がＬ２、などである。これらの５つの層は、候補アーキテクチャの異なるハードウェアフィーチャ（例えば、処理エンジン）への初期マッピングを有してよい。例えば、５つの層の各々は、シストリックアレイの異なるセル、異なるシストリックアレイブロック、計算タイルの異なる積和セル（ＭＡＣ）、または異なる計算タイルへマップされてよい。幾つかの実装において、シストリックアレイの個々のセルおよび計算タイルの個々のＭＡＣは、候補アーキテクチャのマイクロアーキテクチャの態様を表す。

【0067】

コストモデル２１４は、ニューラルネットワーク３０２を実行する候補アーキテクチャに対して性能推定を計算することができる。性能推定は、所与の層、全体的な処理レイテンシ、およびＰＥ利用を処理するための持続時間を示すパラメータを含む。コストモデル２１４は、タイミング制約のセットのために最適化されたニューラルアーキテクチャスケジュール３０４を生成するために持続時間を処理する。性能推定に基づいて、グローバルチューナ２０２は、層Ｌ１＋Ｌ２＋Ｌ５を計算するために必要とされる時間が、層Ｌ３＋Ｌ４を計算するために必要とされる時間とほぼ同じであることを決定することができる。

【0068】

この決定に基づいて、グローバルチューナ２０２は、同じハードウェアフィーチャＢ１を再利用するために層Ｌ１、Ｌ２およびＬ５を再マップすることができるのに対し、層Ｌ３およびＬ４は、同じハードウェアフィーチャＢ２（３０６）を再利用するために再マップされることができる。幾つかの例において、Ｂ１およびＢ２は、計算タイルまたはシストリックアレイ、ＭＡＣ、シストリックアレイセル、またはさらにはＶＰＵのベクトル処理レーンの数値演算ユニット（ＡＬＵ）などの、それぞれの処理エンジン３０８、３１０である。グローバルチューナ２０２は、処理レイテンシを減じるためにチューニングオペレーションの一部として再マップを実行し、目標１０２において指定されたレイテンシ要求に従ってニューラルネットワークモデルを実行するための候補アーキテクチャを最適化することができる。

【0069】

所与のニューラルネットワークのために、各々の層は、異なる計算サイクルを要求してよい。例えば、空間的再マッピングの後、幾つかのＰＥは、計算的不均衡により、他のＰＥよりも多くのアイドル時間を生じ得る。これは、負荷不均衡と呼ぶことができる。システム１００は、少なくとも時間形式において異なる層を横断してＰＥ再利用を許容するチューニングおよび最適化メカニズムを活用することによって負荷不均衡を補償または克服することができる。例えば、チューナ１１６およびスケジューラ／マッパ１１８は、負荷不均衡を検出し、各々のＰＥにおける計算サイクルを均等に平衡させるために候補アーキテクチャの属性を調整することができる。

【0070】

上記のように、ニューラルネットワーク３０２の５つの層は、各々の層が候補アーキテクチャの異なるハードウェアフィーチャ（例えば、処理エンジン）へマップされる初期マッピングを有してよい。この初期マッピングのための性能推定は、層がマップされてよい各々の処理エンジンにおける全体的な計算能力の低い利用を示す利用パラメータを含むことができる。これらの推定およびパラメータに基づいて、グローバルチューナ２０２は、例えば、同じ処理エンジンＢ１を再利用するために層Ｌ１、Ｌ２およびＬ５を再マップしかつ同じ処理エンジンＢ２を再利用するために層Ｌ３およびＬ４を再マップすることによって、処理利用を増大するために再マップを実行してもよい。この再マッピングは、Ｂ１およびＢ２の各々における全体的な利用を増大し、目標１０２において指定された利用（およびレイテンシ）要求に従ってニューラルネットワークモデルを実行するために候補アーキテクチャを最適化するために実行されてもよい。

【0071】

グローバルチューナ２０２は、他のオペレーションをあらゆる残りのＰＥ（例えば、Ｂ３、Ｂ４、Ｂ５）へ再割り当てするために候補アーキテクチャをチューンすることができる。幾つかの場合、グローバルチューナ２０２は、ＰＥの数を減じるために（例えば、５から２へ）候補アーキテクチャのハードウェアレイアウトを増大させるように設計空間エクスプローラ２１２に関与する。幾つかの他の場合、グローバルチューナ２０２は、少なくともＢ１およびＢ２を横断して並列性の量を増大するようにＰＥを再構成するために設計空間エクスプローラ２１２に関与する。グローバルチューナ２０２は、残りのＰＥ（例えば、Ｂ３、Ｂ４、Ｂ５）が、再マッピングの後により小さなデータセットを処理することを要求されることを決定してよい。この決定に基づいて、グローバルチューナ２０２は、例えば、より小さなデータセットを処理するためのＰＥのサイズおよび利用を最適化するためにこれらのＰＥのマイクロアーキテクチャの計算対メモリ比を調整することができる。

【0072】

フレームワーク３００は、入力として、ニューラルネットワークグラフを、アプリケーションレベル目標（例えば、推論時間、スループット、電力等）、および適用可能なハードウェア制約１１０，２１０と一緒に取る、例示的なアルゴリズムまたは計算シーケンスに対応することができる。グローバルチューナ２０２は、フレームワーク３００を、様々なアーキテクチャノブにおける層ごとの空間的マッピング探査を実行するための基礎として使用することができる。様々なアーキテクチャノブは、フレームワーク３００によってサポートされてよく、このようなアーキテクチャノブは、ｉ）シストリックアレイまたは完全にアンロールされた設計などの設計スタイル、ｉｉ）多数のマッパ（例えば、シストリックアレイクラスタ）、ｉｉｉ）クラスタごとの多数のシストリックアレイ、ｉｖ）入力および出力タイリング、およびｖ）密な層のためのハードウェア次元変換、を含むことができる。

【0073】

所与の制約２１０のための最適化を達成するための各々の再マップまたはチューニングは、別の制約に関する候補アーキテクチャへの対応する調整をトリガしてよい。例えば、所与のタイミングまたはレイテンシ制約のために最適化するためにＢ１およびＢ２に関する再マップは、ＰＥのためのスループット要求の増大を必要としてよい。したがって、様々なアーキテクチャノブはしばしば、新たな（またはその他の既存の）要求にリファインされる必要がある。幾つかの実装において、システム１００は、これらの制約の各々のための候補アーキテクチャを最適化するために少なくともレイテンシ、タイミング、および利用の間の相互作用を平衡させるために候補アーキテクチャのそのチューニングを通じて反復する。幾つかのその他の実装において、システム１００は、複数の制約、変数、および目標の間の相互作用を平衡させる。

【0074】

アーキテクチャノブの各々は、エンドツーエンドアプリケーション性能に対してプラスまたはマイナスの影響を有することができる。さらに、アーキテクチャノブの各々は、別の層のマッピングにおいてアーキテクチャノブの効果に影響することもできる。したがって、少なくともその制御論理の機械学習態様およびアーキテクチャ－アウェアコストモデル１１４に基づいて、システム１００は、これらのプラスまたはマイナスの影響を正確に予測するために評価の下で候補アーキテクチャの全体論的視野を提供するように構成されている。

【0075】

候補アーキテクチャは、複数の処理エンジンを含むことができ、１つまたは複数の層は、所定のマージングルール（例えば、ｃｏｎｖ２ｄ＋ＢＮ＋活性化マージング；ｃｏｎｖ２ｄ＋マックスプーリングマージング）に基づいて別の処理エンジンへマップされることができる。マージングルールは、例えば、ネットワークグラフモジュール１０８において命令またはコード化されたルールとして、予め規定されることができる。幾つかの実装において、次の層の計算が、前の層の計算（例えば、ｃｏｎｖ２ｄ（＋ＢＮ）＋活性化）に従って実行することができるならば、２つ以上のグラフノード（または層）がマージされる。例として、バッチ正規化（ＢＮ）層のための計算は、２Ｄ畳み込み層のための計算でマージされてよい。また、後続の層への入力として提供される各々の層出力のために、後続層のための入力および計算の量がしきい値サイズでありかつ特定の空間的および時間的ローカル性を有する場合、この後続層は、層出力を生成した前の層でマージされることができる。この例は、プーリング層（例えば、ｃｏｎｖ２ｄ＋プーリング）への入力として提供される２Ｄ畳み込み層の層出力に対応してよい。

【0076】

幾つかの実装において、候補アーキテクチャをチューンするために、グローバルチューナ２０２は、対応するＰＥへのそれぞれの層の初期マッピングを実行し、初期マッピングのための性能推定を生成する。初期マッピングのための性能推定に基づいて、グローバルチューナ２０２は、初期マッピングをチューンするために層の異なる組合せをＰＥに繰り返しマップすることができる。グローバルチューナ２０２は、各々の反復のための性能推定を生成し、そのために性能推定が目標１０２のＰＰＡ制約のセットと一致するマッピングを識別する。

【0077】

候補アーキテクチャをチューニングするとき、グローバルチューナ２０２は、異なるマッピングを通じて反復しかつ各々のマッピングのための性能パラメータを計算するために１つまたは複数のコストモデル２１４を使用する。性能パラメータから、システム１００は、ＰＰＡ制約２１０の所与のセットのために最適に実行する計算のマッピングを識別する。幾つかの実装において、システム１００は、処理レーン内で動作するノードのシーケンスを指定する時間的マッピングによりＶＰＵにおけるベクトル処理レーンのサブセットへ異なるベクトルオペレーションのための計算ノードを繰り返しマップすることができる。

【0078】

幾つかの実装において、フレームワーク３００は、（１）各々のトライアルのためのサイクル正確シミュレーションが時間を消費し、しばしば評価するための数百万から数十億の一意の設計ポイントが存在すること、（２）ニューラルネットワークの計算が計算インテンシブでありかつ入れ子のループで表されることができるので、分析モデルを高い忠実性で構築することができることにより、各々のトライアル（ハードウェア／ニューラル構成）のコストを予測するためにアーキテクチャ－アウェア分析コストモデル１１４を使用する。最適化およびチューニングモジュール１１２は、探索空間をサンプルし、各々の設計ポイントのコストのためのコストモデル１１４をクエリし、設計空間１０４を検索するために特定の探査軌道をたどる。各々の設計ポイントのコストおよび設計空間１０４の探査軌道は、少なくとも、各々の設計ポイントの処理コストを最小限にするためにアーキテクチャをチューニングすることによって、候補アーキテクチャを最適化するように実装される。幾つかの場合、探査軌道は、チューナ１１６によって採用される異なるチューナアルゴリズムのために異なる。

【0079】

図４は、多層ニューラルネットワークのグラフ実行スケジュールに関する例示的なプロセス４００の流れ図である。上記で説明されているように、グローバルチューナ２０２は、特定用途向けＭＬアクセラレータを自動的に生成するために使用される出力構成２３０を生成する。システム２００は、例示的なコード生成モジュール２４０を使用して、出力構成２３０を表すデータをＨＬＳコードに変換する。

【0080】

ニューラルネットワークグラフ４０２は、カスタマイズされた特定用途向けＭＬアクセラレータのためであり、ニューラルネットワーク層のセットのための例示的な割り当てまたはマッピングを示す。図４の例において、第１のニューラルネットワーク層Ｌ１は、特定のハードウェア構成４０４ａおよびソフトウェア構成４０４ｂに基づいて所与のＰＥにマップされてよいのに対し、第２の異なるニューラルネットワーク層Ｌ２は、特定のハードウェア構成４０６ａおよびソフトウェア構成４０６ｂに基づいて所与のＰＥにマップされてよい。幾つかの実装において、Ｌ１およびＬ２は、同じＰＥまたは異なるＰＥにマップされてよい。

【0081】

図５は、特定用途向け機械学習アクセラレータを生成およびグローバルにチューニングするための例示的なプロセス５００を示す流れ図である。プロセス５００は、上に説明されたシステム１００を使用して実装または実行することができる。プロセス５００の説明は、システム１００の上述のコンピューティングリソースを参照してよい。プロセス５００のステップまたはアクションは、本文献に記載された装置およびリソースの１つまたは複数のプロセッサによって実行可能な、プログラムされたファームウェアまたはソフトウェア命令によって有効化されてよい。

【0082】

ここでプロセス５００を参照すると、システム１００は、アーキテクチャを選択する（５０２）。例えば、システム１００のコントローラは、ベースラインプロセッサ構成を表す候補アーキテクチャを選択することができる。候補アーキテクチャは、ハードウェアアーキテクチャと、ニューラルネットワークグラフに対応するニューラルアーキテクチャとを含むことができる。幾つかの実装において、アーキテクチャは、アーキテクチャリポジトリ１０４のハードウェアレイアウトおよびネットワークグラフモジュール１０８のニューラルアーキテクチャに対して設計空間ビルダ２０４および設計空間エクスプローラ２１２によって実行される検索オペレーションに基づいて識別および選択される。

【0083】

システム２００は、１つまたは複数のチューナ変数またはＰＰＡ制約２１０に基づいてＮＡＳおよびハードウェアアーキテクチャ検索技術を実装することができる。ＰＰＡ制約は、ハードウェアアクセラレータの性能要求を規定するユーザ特定された目標１０２であることができる。例えば、要求は、プロセッサ利用、電力消費、処理レイテンシ、およびデータスループットのためのしきい値であることができる。幾つかの実装において、アーキテクチャを選択することは、性能目標を指定する入力基準を取得し、専用プロセッサを実装するための複数の候補アーキテクチャを識別することを含む。例えば、設計空間ビルダ２０４およびエクスプローラ２１２を含む、設計空間１０４を管理するための制御論理は、入力基準に基づいて複数の候補アーキテクチャの中から候補アーキテクチャを選択することができる。

【0084】

システム１００は、アーキテクチャについての性能データを生成する（５０４）。例えば、ＭＬコストモデル２１４は、少なくとも、アーキテクチャが、複数のニューラルネットワーク層を含む第１のニューラルネットワークの計算をどのように実行するかをモデル化することによって、候補アーキテクチャについての性能データを生成する。幾つかの実装において、ニューラルネットワークは、５０層深さである畳み込みニューラルネットワークである、多層ＲｅｓＮｅｔ－５０などの、公知のニューラルネットワークである。

【0085】

システム１００は、性能データに基づいてアーキテクチャをダイナミックにチューンする（５０６）。例えば、性能データに基づいて、最適化およびチューニングモジュール１１２は、１つまたは複数の性能目標を満たすために候補アーキテクチャをダイナミックにチューンする。より具体的には、最適化およびチューニングモジュール１１２は、ニューラルネットワークの各々の層の候補アーキテクチャの実行をモデル化するために、アーキテクチャ－アウェアコストモデル１１４と相互作用する。例えば、ＭＬコストモデル２１４は、ニューラルネットワークの各々の層を実行するときに候補アーキテクチャがどのように実行するかの評価を提供する性能パラメータを生成する。

【0086】

システム１００は、性能パラメータに基づいて第１のニューラルネットワークのアーキテクチャの実装を評価、チューン、および最適化するためにチューニングループ１２２を使用する。幾つかの実装において、システム１００は、標的ハードウェアプラットフォームにおける効率的なニューラルネットワーク実行のためのシステムごとの最適化されたパーオプマッピング（ｐｅｒ－ｏｐｍａｐｐｉｎｇ）を発見するためにグローバルチューニングを使用する（例えば、グローバルチューナ２０２を介して）。幾つかの他の実装において、システム１００は、複数の層を横断する処理エンジン（ＰＥ）再利用など、許容されるときにはいつでも最適化されたグラフ実行スケジュールを発見するためにグローバルチューニングを使用する。これは、図３を参照して上記に説明されている。

【0087】

例えば、グローバルチューナ２０２は、標的アプリケーションのための選択されたニューラルアーキテクチャを最適化するために、計算タイルまたはＭＡＣの同じサブセットに２つ以上の層（例えば、Ｌ１、Ｌ２、Ｌ５）を再マッピングすることによって候補アーキテクチャをチューンするように構成されている。アーキテクチャは、訓練／推論装置または画像分類作業負荷などの例示的なアプリケーションのために最適化されてよい。システム１００の制御論理は、クロックされた信号のタイミングを使用して、適切な時間に、命令および制御信号を最適化およびチューニングモジュール１１２およびアーキテクチャ－アウェアコストモデル１１４の各々に送信し、再マップを達成するために使用される性能データを生成することができる。最適化およびチューニングモジュール１１２は、ＭＬ作業負荷を加速させる集積回路のハードウェアレイアウトを生成するために特定用途向けチューニングおよび最適化を実行するように構成されている。最適化およびチューニングモジュール１１２（およびコストモデル１１４）は、グローバルチューナ２０２の幾つか（または全ての）機能を組み込むことができ、これにより、グローバルチューナ２０２によって実行されるオペレーションの記述は、最適化およびチューニングモジュール１１２のオペレーションに変換される。

【0088】

システム１００は、アーキテクチャをダイナミックにチューンすることに応答してＭＬアクセラレータの構成を生成する（５０８）。幾つかの実装において、ステップ５０６のチューニングおよび最適化は、層ごとにカスタマイズされるハードウェアアーキテクチャを有する専用集積回路を生成することを許容する出力構成２３０において具体化される。カスタマイゼーションのこの態様は、ハードウェアＭＬアクセラレータ回路が、単一の包括的なハードウェアブロックに基づく従来のアプローチに対して、エネルギ効率の数桁の改善を達成することを可能にすることができる。

【0089】

例えば、候補アーキテクチャの最適化およびチューニングの後、システム１００は、様々なアーキテクチャフィーチャおよびスケジューリング／マッピングストラテジを含む互換性のあるハードウェア構成２３０を生成し、これにより、システム１００は、特定用途向けＭＬアクセラレータを生成するために少なくともコード生成モジュール２４０によって使用されることができる。システム２００は、コード生成モジュール２４０を使用して、構成２３０を表すデータを高レベル合成（ＨＬＳ）コードに変換する。コード生成モジュール２４０は、高レベル合成言語（ＨＬＳ）を使用してハードウェアアクセラレータのためのＭＬアルゴリズムのファームウェア実装を生じることができる。システム１００は、次いで、ファームウェア実装およびＨＬＳオペレーションに基づいて特定用途向けハードウェアＭＬアクセラレータを生成することができる（５１０）。

【0090】

図６は、例示的な特定用途向けハードウェアＭＬアクセラレータ６００のブロック図である。ハードウェアアクセラレータ６００は、少なくともシステム１００および２００の例示的なオペレーションを含む、本文献に開示された技術を使用して生成される。コード発生器２４０を使用して、システム１００は、各々がニューラルネットワークの特定の層を動作するようにカスタマイズされてよいハードウェア回路のそれぞれの部分を指定する特定用途向けＭＬアクセラレータ６００のためのハードウェアレイアウトを生成するように構成されている。

【0091】

ハードウェアアクセラレータ６００は、ストリーミングおよびパイプライン式に１つまたは複数の層（例えば、それらが共通の特性を共有するならば）を実行するために別々のハードウェアブロック６０３ａ、６０３ｂ、６０３ｃ、６０３ｄ、６０３ｅ、６０３ｆを使用することができる。各々のハードウェアブロック６０３は、例えば、ハードウェアアクセラレータ６００を横断して低電力および高利用を可能にするために特にこれらの層に調整される（例えば、量子化、層特定タイリング、シストリックアレイ次元など）。幾つかの実装において、各々のハードウェアブロック１０３は、ニューラルネットワークの特定の層との関連付けまたはマッピングを有し、ニューラルネットワークの層（例えば、上述したＬ１、Ｌ２、Ｌ３、Ｌ４またはＬ５）とのハードウェアブロック１０３の関連付けは、部分的に、ニューラルネットワークのその層に関連したフィーチャおよび最適化労力に基づく。

【0092】

データフロー指示６０１ａ、６０１ｂ、６０１ｃ、６０１ｄ、６０１ｅ、６０１ｆは、ハードウェアブロック６０３の間のニューラルネットワークの通信データの例示的なシーケンスを提供する。幾つかの実装において、これらのデータフロー指示６０１ａ、６０１ｂ、６０１ｃ、６０１ｄ、６０１ｅ、６０１ｆは、例えば、グローバルチューナ２０２の最適化およびチューニングオペレーションに基づいて予め構成された通信シーケンスである。通信されるニューラルネットワークデータは、特定のハードウェアブロック６０３における計算ユニットの出力、ニューラルネットワーク入力／活性化、パラメータ重みデータ、およびその他のニューラルネットワークパラメータ関連データなど、計算結果データを含むことができる。

【0093】

各々のハードウェアブロック６０３は、標的アプリケーションのためにカスタマイズされたマイクロアーキテクチャを含むことができる。グローバルチューナ２０２は、システムレベルにおけるアーキテクチャの設計を平衡させるために、そのグローバルチューニングオペレーションにおいて異なるハードウェアブロックを横断して通信を最適化するように構成されている。このような最適化は、データ伝送におけるレートマッチングのためのインターフェースタイリング、計算におけるレートマッチングのための計算ブロックの数（例えば、入力チャネルブロッキング）、バッファサイジングなどを含む。例えば、ハードウェアブロック６０３ａは、ダイ間入力ブロック６０６ａ、６０９ｂ、ダイ間出力ブロック６１１ａ、６１１ｂ、およびホストインターフェースユニット６１３を含むことができるのに対し、ハードウェアブロック６０３ｂは、ダイ間入力ブロック６２１ａ、６２１ｂ、ダイ間出力ブロック６２３ａ、６２３ｂ、およびホストインターフェースユニット６１４を含む。

【0094】

アクセラレータ６００のカスタマイズされた構成は、ハードウェアブロック６０３ａにマップされているニューラルネットワークの第１の層と、ハードウェアブロック６０３ｄにマップされているニューラルネットワークの最後の層とを含むことができる。グローバルチューナ２０２は、効率的なニューラルネットワーク実行のためのパーオプ空間マッピングと、ＰＰＡ制約２１０のサイズ／面積制約との間の相互作用を平衡させるために、例えば、ハードウェアブロック６０３ａ、６０３ｄの間のフィードバック層を組み込むようにこのアーキテクチャを構成することができる。例えば、ハードウェアアクセラレータ６００は、依然として特定用途向け要求に基づいてスループット／レイテンシをマッチさせることができつつ、ニューラルネットワーク計算を効率的に実行するために最も少ない量のハードウェアを使用するように構成されている。

【0095】

図７は、入力テンソル７０４、重みテンソル７０６のバリエーション、および出力テンソル７０８を含むテンソルまたは多次元マトリックス７００の例を示す。テンソル７００は、アクセラレータ６００などのＭＬハードウェアアクセラレータを使用して処理または生成される例示的な機械学習データ構造である。例えば、システム１００は、少なくともテンソル７０４および７０６を処理するための候補アーキテクチャをチューンおよび最適化し、これらのテンソルに関連したデータを受信および処理するニューラルネットワークを実装するように構成されたカスタマイズされたハードウェアＭＬアクセラレータ６００を自動的に生成するために使用されることができる。

【0096】

テンソル７００の各々は、ニューラルネットワークの所与の層において実行される計算のためのデータ値に対応する要素を含む。計算は、別のニューラルネットワーク層への入力として提供されることができる活性化／出力値などの出力を生成するために１つまたは複数のクロックサイクルにおいてパラメータ／重みテンソル７０６との入力／活性化テンソル７０４の乗算を含むことができる。図７の例において、出力のセットにおける各々の出力は、出力テンソル７０８のそれぞれの要素に対応することができる。幾つかの例において、入力テンソル７０４は活性化テンソルである。対応する重みテンソル７０６と活性化テンソル７０４を乗じることは、部分和を生じるためにテンソル７０４の要素からの活性化をテンソル７０６の要素からの重みと乗じることを含む。

【0097】

幾つかの実装において、ＭＬアクセラレータ６００のハードウェアブロック６０３は、幾つかの多次元テンソルの同じ（または異なる）次元に沿って複数の別々の要素を含むことができるベクトルにおいて動作するそれぞれのプロセッサコアである。複数の要素の各々は、テンソルの次元性に応じてＸ、Ｙ座標（２Ｄ）を使用してまたはＸ、Ｙ、Ｚ座標（３Ｄ）を使用して表すことができる。ＭＬアクセラレータ６００のハードウェアレイアウトは、ＰＰＡ制約の所与のセットに従って複数の部分和を計算するように最適化されることができる。部分和は、バッチ入力に、対応する重み値を乗じることから生じる積に対応する。

【0098】

入力重み乗算は、入力テンソル７０４の行またはスライスなど、入力ボリュームの別々の入力を乗じた各々の重み要素の積和として書かれてよい。この行またはスライスは、入力テンソル７０４の第１の次元７１０または入力テンソル７０４の第２の異なる次元７１５など、所与の次元を表すことができる。次元は、ハードウェアブロック６０３を横断して様々なベクトル処理ユニットにマップされてよく、これにより、ＭＬアクセラレータ６００は、負荷不均衡を除外しかつ入力目標１０２の所与のセットに従って、各々のハードウェアブロック６０３におけるしきい値処理利用を達成する形式でその計算を定期的に実行する。

【0099】

幾つかの実装において、計算の例示的なセットは、畳み込みニューラルネットワーク層のための出力を計算するために使用することができる。ＣＮＮ層のための計算は、３Ｄ入力テンソル７０４と少なくとも１つの３Ｄフィルタ（重みテンソル７０６）との間の２Ｄ空間的畳み込みを実行することを含むことができる。例えば、３Ｄ入力テンソル７０４上で１つの３Ｄフィルタ７０６を畳み込みすることは、２Ｄ空間的平面７２０または７２５を生成することができる。計算は、入力ボリュームの特定の次元のためのドット積の和を計算することを含むことができる。例えば、空間的平面７２０は、次元７１０に沿って入力から計算された積の和のための出力値を含むことができるのに対し、空間的平面７２５は、次元７１５に沿って入力から計算された積の和のための出力値を含むことができる。空間的平面７２０および７２５の各々において出力値のための積の和を生成するための計算は、本文献に記載された技術を使用して生成およびチューンされるハードウェアブロック６０３を使用して実行されることができる。

【0100】

本明細書に記載された主題の実施形態および機能的オペレーションは、デジタル電子回路、有形的に具体化されたコンピュータソフトウェアまたはファームウェア、本明細書に開示された構造およびそれらの構造的均等物を含むコンピュータハードウェア、またはそれらのうちの１つまたは複数の組合せにおいて実装されることができる。本明細書に記載された主題の実施形態は、１つまたは複数のコンピュータプログラム、即ちデータ処理装置による実行のためにまたはデータ処理装置の作動を制御するために有形の非一時的プログラムキャリアにおいてエンコードされたコンピュータプログラム命令の１つまたは複数のモジュールとして実装されることができる。

【0101】

代替的にまたは追加的に、プログラム命令は、人工的に生成された伝播される信号、例えば、データ処理装置による実行のために適切な受信機装置への伝送のための情報をエンコードするために生成される、機械生成された電気的、光学的または電磁気的信号においてエンコードされることができる。コンピュータ記憶媒体は、機械可読記憶装置、機械可読記憶基板、ランダムまたはシリアルアクセスメモリ装置、またはそれらのうちの１つまたは複数の組合せであることができる。

【0102】

「コンピューティングシステム」という用語は、例えば、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサまたはコンピュータを含む、データを処理するための全ての種類の装置（ａｐｐａｒａｔｕｓ）、装置（ｄｅｖｉｃｅ）および機械を包含する。装置は、専用論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）を含むことができる。装置は、ハードウェアに加えて、問題となっているコンピュータプログラムのための実行環境を生成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの１つまたは複数の組合せを構成するコードも含むことができる。

【0103】

コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードとして呼ばれるかまたは記載されてもよい）は、コンパイルされたまたは解釈された言語、または宣言型言語または手続き型言語を含むあらゆる形式のプログラミング言語において書かれることができ、それは、独立型プログラムとしてまたはモジュール、コンポーネント、サブルーチン、またはコンピューティング環境における使用に適したその他のユニットを含むあらゆる形態において展開されることができる。

【0104】

コンピュータプログラムは、そうである必要はないが、ファイルシステムにおけるファイルに対応していてよい。プログラムは、他のプログラムまたはデータを保持するファイルの一部、例えば、マークアップ言語ドキュメントに記憶された１つまたは複数のスクリプト、問題となっているプログラムに専用の単一ファイル、または複数の調和したファイル、例えば、１つまたは複数のモジュール、サブプログラム、またはコードの部分を記憶するファイルに、記憶されることができる。コンピュータプログラムは、１つのコンピュータにおいてまたは１つのサイトに配置されたまたは複数のサイトを横断して分散させられかつ通信ネットワークによって相互接続された複数のコンピュータにおいて実行されるように展開されることができる。

【0105】

本明細書に記載されたプロセスおよびロジックフローは、入力データにおいて作動しかつ出力を生成することによって機能を実行するために１つまたは複数のコンピュータプログラムを実行する１つまたは複数のプログラマブルコンピュータによって実行されることができる。プロセスおよびロジックフローは、専用論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＩＣ（特定用途向け集積回路）、またはＧＰＧＰＵ（汎用グラフィックス処理ユニット）によって実行されることもでき、装置は、これらとして実装されることもできる。

【0106】

コンピュータプログラムの実行に適したコンピュータは、例えば、汎用または専用マイクルプロセッサまたは両方、またはあらゆるその他の種類の中央処理ユニットに基づくことができる。概して、中央処理ユニットは、読み出し専用メモリまたはランダムアクセスメモリまたは両方から命令およびデータを受信する。コンピュータの幾つかの要素は、命令を行うまたは実行するための中央処理ユニットならびに命令およびデータを記憶するための１つまたは複数のメモリ装置である。概して、コンピュータは、データを記憶するための１つまたは複数の大容量記憶装置、例えば、磁気、光磁気ディスク、または光ディスクも含む、またはこれらからデータを受信するまたはこれらへデータを送信するために動作可能に結合される、またはその両方である。ただし、コンピュータは、そのような装置を有する必要はない。さらに、コンピュータは、別の装置、例えば、幾つか例を挙げれば、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオまたはビデオプレーヤ、ゲームコンソール、全地球測位システム（ＧＰＳ）受信機、またはポータブル記憶装置、例えば、ユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブに埋め込まれることができる。

【0107】

コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、全ての形式の不揮発性メモリ、媒体およびメモリ装置、例えば、半導体メモリ装置、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリ装置、磁気ディスク、例えば、内部ハードディスクまたはリムーバブルディスク、光磁気ディスク、ＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む。プロセッサおよびメモリは、専用論理回路によって補足されることができるまたは専用論理回路に組み込まれることができる。

【0108】

ユーザとの相互作用を提供するために、本明細書に記載された主題の実施形態は、情報をユーザに表示するためのディスプレイ装置、例えば、ＬＣＤ（液晶ディスプレイ）モニタ、ならびにそれによってユーザがコンピュータへ入力を提供することができるキーボードおよびポインティング装置、例えば、マウスまたはトラックボール、を有するコンピュータにおいて実装されることができる。ユーザとの相互作用を提供するために、その他の種類の装置も使用することができる。例えば、ユーザに提供されるフィードバックは、あらゆる形式の感覚フィードバック、例えば、視覚的フィードバック、聴覚的フィードバック、または触覚フィードバックであることができる。ユーザからの入力は、音響、発話、または触覚入力を含むあらゆる形式において受信されることができる。加えて、コンピュータは、ユーザによって使用される装置へドキュメントを送信しかつユーザによって使用される装置からドキュメントを受信することによって、例えば、ウェブブラウザから受信されたリクエストに応答してユーザのクライアント装置におけるウェブブラウザへウェブページを送信することによって、ユーザと相互作用することができる。

【0109】

本明細書に記載された主題の実施形態は、例えば、データサーバとしての、バックエンドコンポーネントを含む、またはミドルウェアコンポーネント、例えば、アプリケーションサーバを含む、またはフロントエンドコンポーネント、例えば、それを通じてユーザが本明細書に記載された主題の実装と相互作用することができるグラフィカルユーザインターフェースまたはウェブブラウザを有するクライアントコンピュータ、または１つまたは複数のこのようなバックエンド、ミドルウェア、またはフロントエンドコンポーネントの任意の組合せを含む、コンピューティングシステムにおいて実装されることができる。システムのコンポーネントは、デジタルデータ通信のあらゆる形式または媒体、例えば、通信ネットワークによって相互接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）およびワイドエリアネットワーク（「ＷＡＮ」）、例えば、インターネットを含む。

【0110】

コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、概して、互いに離れており、典型的には、通信ネットワークを通じて相互作用する。クライアントとサーバとの関係は、それぞれのコンピュータにおいて動作しかつ互いにクライアント－サーバ関係を有するコンピュータプログラムによって生じる。

【0111】

本明細書は、多くの特定の実装詳細を含むが、これらは、あらゆる発明または請求され得るものの範囲の限定としてではなく、むしろ、特定の発明の特定の実施形態に特定であってよい特徴の説明として解釈されるべきである。別々の実施形態の文脈において本明細書に記載されたある特徴は、１つの実施形態において組み合わされて実装されることもできる。逆に、１つの実施形態の文脈において記載された様々な特徴は、複数の実施形態において別々にまたはあらゆる適切なサブコンビネーションで実装されることもできる。さらに、特徴は、ある組合せにおいて作用するように上記に記載されかつさらに最初にそのように請求されてよいが、請求された組合せからの１つまたは複数の特徴は、幾つかの場合、組合せから削除されることができ、請求された組合せは、サブコンビネーションまたはサブコンビネーションのバリエーションに向けられてよい。

【0112】

同様に、オペレーションは、特定の順序で図面に示されているが、これは、所望の結果を達成するために、このようなオペレーションが示された特定の順序でまたは順次に実行されること、または全ての例示されたオペレーションが実行されることを要求するものとして理解されるべきではない。ある状況では、マルチタスクおよび並列処理が有利であり得る。さらに、上記に記載の実施形態における様々なシステムモジュールおよびコンポーネントの分離は、全ての実施形態におけるこのような分離を要求するものと理解されるべきではなく、記載されたプログラムコンポーネントおよびシステムは、概して、１つのソフトウェア製品において一緒に統合されるまたは複数のソフトウェア製品にパッケージされることができることが理解されるべきである。

【0113】

主題の特定の実施形態が説明されている。その他の実施形態は、以下の請求項の範囲内にある。例えば、請求項に列挙された行為は、異なる順序で実行されることができ、依然として所望の結果を達成することができる。一例として、添付の図面に示されたプロセスは、所望の結果を達成するために、示された特定の順序または順番を必ずしも要求しない。ある実装において、マルチタスクおよび並列処理が有利であり得る。

【図1】