特表2024-536901 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル　インコーポレイテッドの特許一覧

特表2024-536901ハードウェアアクセラレータ最適化グループ畳み込みベースのニューラルネットワークモデル

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7A
7B
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-10-08

(54)【発明の名称】ハードウェアアクセラレータ最適化グループ畳み込みベースのニューラルネットワークモデル

(51)【国際特許分類】

G06N 3/063 20230101AFI20241001BHJP

G06N 3/0464 20230101ALI20241001BHJP

【ＦＩ】

G06N3/063

G06N3/0464

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024520990

(86)(22)【出願日】2021-10-08

(85)【翻訳文提出日】2024-06-03

(86)【国際出願番号】 US2021054148

(87)【国際公開番号】W WO2023059335

(87)【国際公開日】2023-04-13

(81)【指定国・地域】

(71)【出願人】

【識別番号】502208397

【氏名又は名称】グーグルエルエルシー

【氏名又は名称原語表記】ＧｏｏｇｌｅＬＬＣ

【住所又は居所原語表記】１６００ＡｍｐｈｉｔｈｅａｔｒｅＰａｒｋｗａｙ９４０４３ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡＵ．Ｓ．Ａ．

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】アキン，バーキン

(72)【発明者】

【氏名】グプタ，スヨグ

(72)【発明者】

【氏名】ガオ，ツァオ

(72)【発明者】

【氏名】ジョウ，ピン

(72)【発明者】

【氏名】ベンダー，ガブリエル・ミンツァー

(72)【発明者】

【氏名】リウ，ハンシアオ

(57)【要約】

グループ畳み込み層を備えた畳み込みニューラルネットワークを実装する集積回路を使用して入力画像を処理するための方法、システム、および装置（コンピュータ可読媒体を含む）について説明する。処理は、入力特徴マップのチャネル次元に沿ったパーティションのマッピングを回路の計算装置内の乗算累算セル（ＭＡＣ）に決定することと、入力特徴マップにグループ畳み込みを適用することと、を含む。グループ畳み込みを適用することは、各パーティションについて、マッピングに基づいて、ＭＡＣのサブセットにグループ畳み込み層の重みを提供することと、回路の入力バスを介して、サブセット内の各ＭＡＣに特徴マップの入力を提供することと、サブセット内の各ＭＡＣにおいて、入力とグループ畳み込み層の重みを使用して積を計算することと、を含む。積の累積に基づいて、グループ畳み込み層の出力特徴マップが生成される。

【特許請求の範囲】

【請求項1】

複数のニューラルネットワーク層を含む畳み込みニューラルネットワークを実装するように構成されるハードウェア集積回路を使用して入力画像を処理するための方法であって、前記複数のニューラルネットワーク層はグループ畳み込み層を含み、前記方法は、
入力特徴マップのチャネル次元に沿って複数のパーティションを定義する制御パラメータを識別することと、
前記集積回路の計算装置内の複数の乗算累算セル（ＭＡＣ）への前記複数のパーティションのマッピングを決定することと、
前記グループ畳み込み層について、前記入力特徴マップにグループ畳み込みを適用することと、を含み、前記複数のパーティションの各々について、
前記決定されたマッピングに基づいて、前記複数のＭＡＣのサブセットに前記グループ畳み込み層の重みを提供することと、
前記集積回路の入力バスを介して、前記サブセット内の各ＭＡＣに前記入力特徴マップのそれぞれの入力を提供することと、
前記サブセット内の各ＭＡＣにおいて、前記それぞれの入力と前記グループ畳み込み層の対応する重みを使用して積を計算することと、を含み、
前記方法は、
積の累積に基づいて前記グループ畳み込み層の出力特徴マップを生成することを含む、方法。

【請求項2】

前記複数の乗算累算セルへの前記複数のパーティションのマッピングを決定することは、
前記複数のパーティションの各々におけるチャネルの数に基づいて前記マッピングを決定することを含む、請求項１に記載の方法。

【請求項3】

前記複数のパーティションの各パーティションは、前記パーティションのそれぞれのサイズに対応するそれぞれの数の入力チャネルを含む、請求項２に記載の方法。

【請求項4】

前記出力特徴マップを生成することは、
各パーティションの前記それぞれのサイズに基づいて前記出力特徴マップを生成することを含む、請求項３に記載の方法。

【請求項5】

前記計算装置のハードウェア構成を記述する情報にアクセスすることと、
前記計算装置の前記ハードウェア構成に基づいて各パーティションの前記それぞれのサイズを決定することと、をさらに含む、請求項３に記載の方法。

【請求項6】

前記入力バスはブロードキャスト機能を含み、前記方法は、
前記入力バスを介して、各パーティションについて、前記入力特徴マップの複数の入力を前記集積回路の前記計算装置にブロードキャストすることをさらに含む、請求項１に記載の方法。

【請求項7】

前記入力バスを介して、前記入力特徴マップの第１のパーティションについて、前記第１のパーティションの第１の入力を前記サブセット内の各ＭＡＣにブロードキャストすることをさらに含み、
ブロードキャストされる前記第１の入力は、前記グループ畳み込み層の計算中に再利用される、請求項６に記載の方法。

【請求項8】

前記入力特徴マップの前記第１のパーティションは前記出力特徴マップの第１のパーティションに対応し、
前記第１の入力は前記出力特徴マップの前記第１のパーティションの出力に対して再利用を有する、請求項６に記載の方法。

【請求項9】

前記出力特徴マップを生成することは、
前記複数のＭＡＣの前記サブセットを使用して複数の積を計算することと、
前記複数の積から積の前記累積を生成することと、を含む、請求項１に記載の方法。

【請求項10】

入力画像を処理するためのシステムであって、前記システムは、
プロセッサと、
グループ畳み込み層を含む複数のニューラルネットワーク層を含む畳み込みニューラルネットワークを実装するように構成されるハードウェア集積回路と、
前記プロセッサによって実行可能であり、
入力特徴マップのチャネル次元に沿って複数のパーティションを定義する制御パラメータを識別することと、
前記集積回路の計算装置内の複数の乗算累算セル（ＭＡＣ）への前記複数のパーティションのマッピングを決定することと、
前記グループ畳み込み層について、前記入力特徴マップにグループ畳み込みを適用することと、を含み、前記複数のパーティションの各々について、
前記決定されたマッピングに基づいて、前記複数のＭＡＣのサブセットに前記グループ畳み込み層の重みを提供することと、
前記集積回路の入力バスを介して、前記サブセット内の各ＭＡＣに前記入力特徴マップのそれぞれの入力を提供することと、
前記サブセット内の各ＭＡＣにおいて、前記それぞれの入力と前記グループ畳み込み層の対応する重みを使用して積を計算することと、を含み、
積の累積に基づいて前記グループ畳み込み層の出力特徴マップを生成することを含む、演算を実行させるための命令を記憶する非一時的な機械可読記憶デバイスと、を含む、システム。

【請求項11】

前記複数の乗算累算セルへの前記複数のパーティションのマッピングを決定することは、
前記複数のパーティションの各々におけるチャネルの数に基づいて前記マッピングを決定することを含む、請求項１０に記載のシステム。

【請求項12】

前記複数のパーティションの各パーティションは、前記パーティションのそれぞれのサイズに対応するそれぞれの数の入力チャネルを含む、請求項１１に記載のシステム。

【請求項13】

前記出力特徴マップを生成することは、
各パーティションの前記それぞれのサイズに基づいて前記出力特徴マップを生成することを含む、請求項１２に記載のシステム。

【請求項14】

前記演算は、
前記計算装置のハードウェア構成を記述する情報にアクセスすることと、
前記計算装置の前記ハードウェア構成に基づいて各パーティションの前記それぞれのサイズを決定することと、をさらに含む、請求項１２に記載のシステム。

【請求項15】

前記入力バスはブロードキャスト機能を含み、前記演算は、
前記入力バスを介して、各パーティションについて、前記入力特徴マップの複数の入力を前記集積回路の前記計算装置にブロードキャストすることをさらに含む、請求項１０に記載のシステム。

【請求項16】

前記演算は、
前記入力バスを介して、前記入力特徴マップの第１のパーティションについて、前記第１のパーティションの第１の入力を前記サブセット内の各ＭＡＣにブロードキャストすることをさらに含み、
ブロードキャストされる前記第１の入力は、前記グループ畳み込み層の計算中に再利用される、請求項１５に記載のシステム。

【請求項17】

前記入力特徴マップの前記第１のパーティションは前記出力特徴マップの第１のパーティションに対応し、
前記第１の入力は、前記出力特徴マップの前記第１のパーティションの出力に対して再利用を有する、請求項１５に記載のシステム。

【請求項18】

【請求項19】

グループ畳み込み層を含む複数のニューラルネットワーク層を含む畳み込みニューラルネットワークを実装するように構成されるハードウェア集積回路を使用して入力画像を処理するための命令を記憶する非一時的な機械可読記憶デバイスであって、前記命令はプロセッサによって実行可能であり、
入力特徴マップのチャネル次元に沿って複数のパーティションを定義する制御パラメータを識別することと、
前記集積回路の計算装置内の複数の乗算累算セル（ＭＡＣ）への前記複数のパーティションのマッピングを決定することと、
前記グループ畳み込み層について、前記入力特徴マップにグループ畳み込みを適用することと、を含み、前記複数のパーティションの各々について、
前記決定されるマッピングに基づいて、前記複数のＭＡＣのサブセットに前記グループ畳み込み層の重みを提供することと、
前記集積回路の入力バスを介して、前記サブセット内の各ＭＡＣに前記入力特徴マップのそれぞれの入力を提供することと、
前記サブセット内の各ＭＡＣにおいて、前記それぞれの入力と前記グループ畳み込み層の対応する重みを使用して積を計算することと、を含み、
積の累積に基づいて前記グループ畳み込み層の出力特徴マップを生成することを含む、演算を実行させる、非一時的な機械可読記憶デバイス。

【請求項20】

前記複数のパーティションの各パーティションは、前記パーティションのそれぞれのサイズに対応するそれぞれの数の入力チャネルを含む、請求項１９に記載の非一時的な機械可読記憶デバイス。

【発明の詳細な説明】

【背景技術】

【0001】

背景
本明細書は、概して、畳み込みニューラルネットワークのグループ畳み込みを実行するためにハードウェア集積回路を使用することに関する。

【0002】

ニューラルネットワークは、受信した入力に対して分類などの出力を生成するために１つまたは複数のノード層を使用する機械学習モデルである。一部のニューラルネットワークには、出力層に加えて１つまたは複数の隠し層が含まれる。一部のニューラルネットワークは、画像処理用に構成される畳み込みニューラルネットワーク、または音声および言語処理用に構成される再帰型ニューラルネットワーク（ＲＮＮ）であり得る。さまざまなタイプのニューラルネットワークアーキテクチャを使用して、分類またはパターン認識、データモデリングを伴う予測、および情報のクラスタリングに関連するさまざまなタスクを実行できる。

【発明の概要】

【0003】

ニューラルネットワーク層は、対応するパラメータまたは重みのセットを持つことができる。重みは、ニューラルネットワーク層を介して入力（例えば、入力のバッチ）を処理し、ニューラルネットワーク推論を計算するための層の対応する出力を生成するために使用される。入力のバッチとカーネルのセットは、入力と重みのテンソル、つまり多次元アレイとして表すことができる。ハードウェアアクセラレータは、ニューラルネットワークを実装するための専用集積回路である。回路には、回路の制御論理を使用して横断またはアクセスできるテンソルの要素に対応する位置を持つメモリが含まれている。

【0004】

概要
本明細書では、ハードウェアニューラルネットワークアクセラレータ上でグループ畳み込みを効率的に実装するための技術について説明する。グループ畳み込みは、入力特徴マップを入力行列のチャネル次元に沿ってグループ化することで畳み込み、グループ畳み込みを表す各入力グループは、対応する出力グループに関連付けられる。特に、これらの技術に基づいて、グループ畳み込みを活用して、タブレットまたはスマートフォンなどの例示的なコンピューティングデバイス上に実装される機械学習モデルの畳み込みニューラルネットワーク（ＣＮＮ）を使用して入力画像を処理すると、あるハードウェアおよびコンピューティング効率を実現できる。

【0005】

入力画像は、グループ畳み込み層を備えた畳み込みニューラルネットワークを実装するハードウェア集積回路を使用して処理される。処理は、集積回路の計算装置内の乗算累算セルへの入力特徴マップのチャネル次元に沿ったパーティションのマッピングを決定し、入力特徴マップにグループ畳み込みを適用することを含む。グループ畳み込みを適用することは、各パーティションについて、マッピングに基づいてグループ畳み込み層の重みをＭＡＣのサブセットに提供することと、回路の入力バスを介してサブセット内の各ＭＡＣに特徴マップの入力を提供することと、サブセット内の各ＭＡＣで、入力とグループ畳み込み層の対応する重みを使用して積を計算することと、を含む。積の累積に基づいて、グループ畳み込み層の出力特徴マップが生成される。

【0006】

本明細書に記載される主題の一態様は、複数のニューラルネットワーク層を含む畳み込みニューラルネットワークを実装するように構成されるハードウェア集積回路を使用して入力画像を処理するための方法に具体化することができる。ニューラルネットワーク層はグループ畳み込み層を含む。この方法は、入力特徴マップのチャネル次元に沿って複数のパーティションを定義する制御パラメータを識別することと、集積回路の計算装置内の乗算累算セル（ＭＡＣ）へのパーティションのマッピングを決定することと、グループ畳み込み層について、入力特徴マップにグループ畳み込みを適用することと、を含む。

【0007】

適用することは、パーティションの各々について、決定されたマッピングに基づいて、複数のＭＡＣのサブセットにグループ畳み込み層の重みを提供することと、集積回路の入力バスを介して、サブセット内の各ＭＡＣに入力特徴マップのそれぞれの入力を提供することと、サブセット内の各ＭＡＣにおいて、それぞれの入力とグループ畳み込み層の対応する重みを使用して積を計算することと、を含む。この方法は、積の累積に基づいてグループ畳み込み層の出力特徴マップを生成することを含む。

【0008】

これらの実装および他の実装は、各々オプションで以下の特徴の１つまたは複数を含むことができる。例えば、いくつかの実装では、乗算累算セルへのパーティションのマッピングを決定することは、パーティションの各々におけるチャネルの数に基づいてマッピングを決定することを含む。いくつかの実装では、複数のパーティションの各パーティションは、パーティションのそれぞれのサイズに対応するそれぞれの数の入力チャネルを含む。

【0009】

出力特徴マップを生成することは、各パーティションのそれぞれのサイズに基づいて出力特徴マップを生成することを含む。いくつかの実装では、出力特徴マップを生成することは、ＭＡＣのサブセットを使用して複数の積を計算することと、複数の積から積の累積を生成することと、を含む。この方法は、計算装置のハードウェア構成を記述する情報にアクセスすることと、計算装置のハードウェア構成に基づいて各パーティションのそれぞれのサイズを決定することと、を含むことができる。

【0010】

いくつかの実装では、入力バスはブロードキャスト機能を含み、方法はさらに、入力バスを介して、各パーティションについて、入力特徴マップの複数の入力を集積回路の計算装置にブロードキャストすることを含む。この方法は、入力バスを介して、入力特徴マップの第１のパーティションについて、第１のパーティションの第１の入力をサブセット内の各ＭＡＣにブロードキャストすることも含み得、ブロードキャストされる第１の入力は、グループ畳み込み層の計算中に再利用される。いくつかの実装では、入力特徴マップの第１のパーティションは出力特徴マップの第１のパーティションに対応し、第１の入力は、出力特徴マップの第１のパーティションの出力に対して再利用を有する。

【0011】

この態様および他の態様の他の実装には、方法のアクションを実行するように構成され、コンピュータ記憶デバイスに符号化される、対応するシステム、装置、およびコンピュータプログラムが含まれる。１つまたは複数のコンピュータのシステムは、システムにインストールされるソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせによってそのように構成され得、演算中にシステムがアクションを実行する。１つまたは複数のコンピュータプログラムは、データ処理装置によって実行されると、装置にアクションを実行させる命令を持つことによって、そのように構成できる。

【0012】

本明細書に記載される主題は、特定の実施形態において実装することができ、以下の利点の１つまたは複数を実現することができる。専用集積回路のハードウェアアーキテクチャの例を活用して、グループ畳み込み層、つまり深さ単位の畳み込みや完全畳み込みではなくグループ畳み込みを実行する層を含む畳み込みニューラルネットワークの実行の改善を実現するための技術について説明する。

【0013】

ハードウェアアーキテクチャには、特定のタイプのメモリレイアウト、ブロードキャスト入力バス、および従来のアーキテクチャに比べて計算効率およびハードウェア使用率が向上したグループ畳み込みを実装できる乗算累算セルの構成が含まれる。入力バスは乗算累算セルに結合され、乗算累算セルの一部（またはすべて）に入力をブロードキャストするように構成される。ブロードキャスト機能を使用すると、対応するグループ畳み込みの出力チャネルを計算するときに再利用される入力の計算を並列化できる。

【0014】

このアーキテクチャは、さまざまなタイプのグループ畳み込みベースのニューラルネットワークの実行を最適化するために使用することができ、より広範囲のグループ畳み込みの概念をさまざまなコンピュータビジョンタスクに適用することを可能にする。例えば、コンパイラまたは関連する制御論理を使用して、回路の計算装置内の乗算累算セルにグループ畳み込み演算の最適なマッピングを決定できる。

【0015】

マッピングは、計算装置の全体的な使用率を最大化したり、演算の全体的な待ち時間を最小化したり、またはその両方を行うなど、計算演算のさまざまな態様を最適化するように決定されてもよい。特定のマッピングの利点は、所与の計算の新しいパラメータまたは追加のパラメータを取得するために必要なオフチップ通信の数を最小限に抑えることができることである。マッピングを決定する例示的なデバイス（例えば、ホスト）は、集積回路に対してオフチップである場合がある。いくつかの実装では、コンパイラおよびその他の関連する制御論理が例示的なデバイスに組み込まれ得る。

【0016】

本明細書に記載される主題の１つまたは複数の実装の詳細は、添付の図面および以下の説明に記載されている。主題のその他の潜在的な特徴、態様、および利点は、説明、図面、および請求項から明らかになるであろう。

【図面の簡単な説明】

【0017】

【図1】画像に対してグループ畳み込みを実行するための例示的なコンピューティングシステムのブロック図である。

【図2】グループ畳み込みに使用される例示的なグループ化を示すブロック図である。

【図3】異なる畳み込み演算に関する機械学習モデルの例示的な属性を示す図である。

【図4】畳み込みニューラルネットワークの異なる層ブロックに対応する演算を示すブロック図である。

【図5】図１の例示的なコンピューティングシステムで使用できる畳み込みニューラルネットワークモデルの例示的なアーキテクチャの図である。

【図6】畳み込みニューラルネットワークの計算を実行するために使用されるハードウェア集積回路の例示的なハードウェア計算タイルを示す図である。

【図7A】乗算累算セルのサブセットへのパーティションの例示的なマッピングを示すブロック図である。

【図7B】ハードウェア計算タイルの乗算累算セルにそれぞれの入力を提供する例示的な入力バスを示すブロック図である。

【図8】完全畳み込み、深さ単位の畳み込み、およびグループ畳み込みの、ある属性を示す例示的なブロック図である。

【図9】ハードウェア集積回路を使用してグループ畳み込みを適用する例示的なプロセスの図である。

【発明を実施するための形態】

【0018】

さまざまな図面における同様の参照番号および名称は、同様の要素を示す。
詳細な説明
図１は、入力画像に対してグループ畳み込みを実行するための例示的なコンピューティングシステム１００のブロック図である。システム１００は、一般的に、画像１０４を処理する、すなわち、画像のピクセルの強度値を処理するように構成される例示的な畳み込みニューラルネットワーク１０２を含む。畳み込みニューラルネットワーク１０２には、複数の畳み込みニューラルネットワーク層１０８に基づく例示的なニューラルネットワークアーキテクチャが含まれている。図１の例では、畳み込みニューラルネットワーク１０２には複数の畳み込みニューラルネットワーク層１０８が含まれている。例えば、畳み込みニューラルネットワーク１０２にはＮ個（またはＮセット）の層が含まれる。ここで、Ｎは１より大きい整数である。

【0019】

さまざまなタイプのＣＮＮアーキテクチャ１０６を使用して、さまざまな機械学習タスクを実行できる。例えば、機械学習タスクは、コンピュータビジョンタスク（「画像処理タスク」とも呼ばれる）であり得る。言い換えれば、ニューラルネットワークは、入力画像を受信し、入力画像を処理して入力画像のネットワーク出力を生成するように、つまり、何らかの画像処理タスクを実行するように構成できる。本明細書では、入力画像の処理とは、ニューラルネットワークを使用して画像のピクセルの強度値を処理することを指す。例えば、タスクは画像分類であり得、所与の画像に対してニューラルネットワークによって生成される出力は、対象カテゴリのセットの各々に対するスコアであり得、各スコアは、画像にそのカテゴリに属する対象の画像が含まれている可能性の推定値を表す。

【0020】

別の例として、タスクは画像埋め込み生成であり得、ニューラルネットワークによって生成される出力は入力画像の数値埋め込みであり得る。さらに別の例として、タスクは対象検出であり得、ニューラルネットワークによって生成される出力は、入力画像内の位置、例えば、特定のタイプの対象が描かれている画像内の境界ボックスまたはその他の幾何学的領域を識別できる。さらに別の例として、タスクは画像のセグメンテーションであり得、ニューラルネットワークによって生成される出力は、入力画像の各ピクセルについて、そのピクセルが複数のカテゴリのどれに属するかを定義できる。しかし、より一般的には、タスクは、画像以外の入力を処理するタスクを含む、さまざまなタスクのいずれかになり得る。

【0021】

画像処理タスクの中には、対象検出、データ分類、パターン認識、または画像認識、さらにはデータモデリングや情報クラスタリングを伴う計算予測に関連し得る。例えば、タスクに対象検出が含まれ得、ＣＮＮは画像を処理して特定の対象を検出し、対象の検出時にその対象を識別する出力を生成する。別のタスクには、データ／画像分類が含まれ得る。この場合、ＣＮＮは画像を処理して画像の分類を決定し、画像の内容に基づいて画像の特定の分類出力を生成する。別のタスクにはパターン認識が含まれ得る。パターン認識では、ＣＮＮが画像を処理して画像内の特定のパターンを識別または認識し、画像の内容に基づいて認識されるパターンを示す出力を生成する。別のタスクには、一般的な画像認識が含まれ得る。この場合、ＣＮＮは画像を処理して画像のさまざまな要素を識別または認識し、画像の内容に基づいて認識される要素を示す出力を生成する。

【0022】

いくつかの実装では、畳み込みニューラルネットワーク１０２は、例示的なモバイルデバイス１１０に実装されるか、または例示的なモバイルデバイス１１０によってアクセス可能である。モバイルデバイス１１０は、スマートフォン、タブレット、電子ノートブック、ラップトップ、ゲームコンソール、または関連するポータブルコンピューティングデバイスであり得る。他のいくつかの実装では、畳み込みニューラルネットワーク１０２は、サーババンク、サーバグループ、またはマルチプロセッサシステムなどの例示的なクラウドベースのシステムに統合されるか、または例示的なクラウドベースのシステムによってアクセス可能になる。

【0023】

畳み込みニューラルネットワーク１０２は、１つまたは複数の機械学習ハードウェアアクセラレータ１１２を使用して実装することができる。各ハードウェアアクセラレータ１１２は、１つまたは複数の専用ハードウェア集積回路１１４に対応する。一般に、回路１１４は、ニューラルネットワーク計算を実行するハードウェア回路（例えば、専用ハードウェア回路）である。例えば、回路１１４の一部（またはすべて）は、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、単一コアニューラルネットワークプロセッサ、またはマルチコアニューラルネットワークプロセッサなどの専用ハードウェア回路であり得る。回路１１４は、専用グラフィックス処理装置（ＧＰＵ）である場合もある。

【0024】

ハードウェア回路１１４は、ニューラルネットワークのワークロードの計算を加速するように演算可能である。いくつかの実装では、ハードウェア回路１１４には制御論理が含まれており、これはハードウェア、ソフトウェア、またはその両方で実装され得る。制御論理は、計算に使用されるデータの取得とルーティングを含む、ニューラルネットワーク計算の命令を発行するために使用される。回路１１４には、ニューラルネットワークの各層の入力、入力活性化、出力、出力活性化、およびパラメータを記憶するためのメモリを含めることができる。いくつかの実装では、回路１１４には専用メモリ、共有メモリ、またはその両方が含まれる。例えば、回路１１４には、入力、入力活性化、出力、または出力活性化を記憶するための入力／活性化メモリと、各ニューラルネットワーク層のそれぞれのパラメータセットを記憶するためのパラメータメモリを含めることができる。

【0025】

回路１１４は、ハードウェア行列装置、計算タイルの配置、またはこれらの組み合わせなどの計算装置を含むことができる。計算装置は、ニューラルネットワークの層を介して入力を処理するためのニューラルネットワーク計算を実行するために使用される。いくつかの実装では、各行列装置または個々の計算タイルには、乗算および累算演算を実行する乗算累算セルなどの計算セルのアレイが１つまたは複数含まれている。例えば、各セルは入力と重み値の乗算を実行して積を生成し、複数のクロックサイクルにわたって積の累算（例えば、加算演算）を実行できる。

【0026】

回路１１４は、入力行列のチャネル次元の所与の深さに対して、入力行列の対応する部分に対して異なる重みのフィルタを畳み込むために、完全畳み込み、深さ単位の畳み込み、およびグループ畳み込みを実装する。例えば、モバイルデバイス１１０は、畳み込みニューラルネットワーク１０２とモデルのＣＮＮ層１０８を使用して、受信した入力１０４に対する認識出力または検出出力などの画像処理出力１２０を生成する。例えば、入力１０４はラップトップ１２２の画像であり得、モバイルデバイス１１０は畳み込みニューラルネットワーク１０２を使用して画像を処理し、画像にラップトップの描写が含まれていることを検出または認識する。

【0027】

図２は、入力データセット２０２の表現と、入力データセットからの入力を使用してグループ畳み込みを実行するための例示的なグループ化２０３とを含むブロック図である。いくつかの実装では、入力データセット２０２は、入力の多次元行列構造であるか、またはそこから導出される。例えば、行列構造は、各々が空間次元Ｘ×Ｙを持つＺｉｎチャネルを含む入力テンソルであり得る。行列構造（またはテンソル）は、入力のセット、活性化入力のセット、または重み入力のセットのいずれかを表すことができる。場合によっては、本明細書では、活性化入力のセットの行列構造を入力特徴マップと呼び、重み入力のセットの行列構造をカーネル行列構造と呼ぶ。

【0028】

図２の例では、入力データセット２０２は、２つの（Ｘ、Ｙ）空間次元と１つの（Ｚ）チャネル次元の３次元を有する行列構造（またはテンソル）である。空間次元に関しては、いくつかの実装では、これらの次元は、活性化入力のセットの空間または位置に対応する。例えば、畳み込みニューラルネットワーク１０２が２次元の画像１０４を処理している場合、行列構造は、画像の空間座標、つまりＸ、Ｙ座標に対応する２つの空間次元を持つことができる。チャネル次元に関しては、この次元は入力（例えば、活性化入力）からの特徴に対応する。チャネル次元は、Ｚ、Ｚｉｎ、またはチャネル次元を参照して説明される。ここで、「チャネル」は画像のカラーチャネルに対応し得る。

【0029】

システム１００は、例えば入力データセット２０２のチャネル次元の深さレベルを参照して、グループ畳み込みの分割を決定するように構成されている。各入力チャネルには対応する深さレベルがあり得る。例えば、図２の行列構造には、Ｚｉｎ次元に沿って拡張される深さレベルがある。例として、例示的な行列構造２０２が、畳み込みニューラルネットワーク層への活性化入力のセットとして送信される３×３×３の画像を表す場合、画像のＸ次元とＹ次元（３×３）は空間次元であり得、Ｚ次元（３）はＲ、Ｇ、およびＢ値に対応するチャネル次元であり得る。

【0030】

上述のように、システム１００は、例示的な入力特徴マップのチャネル次元に沿ってグループ畳み込みの分割を決定することができる。例えば、システム１００は、チャネル次元に沿って入力グループ２１０－１の第１の分割と、チャネル次元に沿って入力グループ２１０－２の第２の分割を決定できる。いくつかの実装では、システム１００は、チャネル次元に沿ってｎ個のグループ化２１０－ｎを決定する。ここで、ｎは１以上の整数である。入力特徴マップ２０２が、活性化入力のセットとして送信される３×３×３の画像を表す例では、グループ畳み込みの入力グループ２１０－１を定義する第１の分割は、９つの「１」活性化入力（例えば、赤の値）の特徴に対応し得、グループ畳み込みの入力グループ２１０－２を定義する第２の分割は、９つの「２」活性化入力（例えば、緑の値）の特徴に対応し得、グループ畳み込みの入力グループ２１０－３を定義する第３の分割は、９つの「３」活性化入力（例えば、青の値）の特徴に対応し得る。

【0031】

上で説明したように、グループ畳み込みは、入力特徴マップを入力行列のチャネル次元に沿ってグループ化することによって畳み込み、グループ畳み込みを表す各入力グループ２１０－ｎは、対応する出力グループ２２０－ｎに関連付けられる。畳み込みニューラルネットワーク１０２は、１つまたは複数の畳み込みニューラルネットワーク層１０８を使用して、受信した入力２０２に対する出力２０６（例えば、分類）を生成する。例えば、各畳み込みニューラルネットワーク層には、カーネル２０４のセットが関連付けられている。カーネル２０４は、グループ畳み込みの構成に従って分割され得るため、各入力グループ２１０－ｎが対応するカーネル／重み行列と畳み込まれて畳み込み出力２２０－ｎが生成される。図２の例では、入力グループ２１０－１は対応するカーネル行列２１２と畳み込まれて畳み込み出力２２０－１が生成され、一方、入力グループ２１０－２は対応するカーネル行列２１４と畳み込まれて畳み込み出力２２０－２が生成される。

【0032】

システム１００は、制御パラメータｇの値を動的に決定するように構成されており、ｇは１より大きい整数である。システム１００は、Ｚｉｎ／ｇを計算することによってグループサイズを決定するようにも構成されている。ここで、Ｚｉｎは入力テンソルのチャネル次元に沿った入力チャネルの数であり、ｇは制御パラメータによって定義されるグループの数である。制御パラメータｇは、グループ畳み込みの数（例えば、分割）を定義するために使用される。場合によっては、ｇの値はシステム１００で動的に決定されるか、または所与の演算に対してシステム１００で事前定義され得る。例えば、グループ畳み込みの数を定義する制御パラメータｇは、システム１００のコンパイラによって事前定義（および／または埋め込み）することも、実行時に動的に決定することもできる。

【0033】

いくつかの実装では、システム１００は、要求される特定のタイプの機械学習タスクに基づいて、グループ畳み込みの数（例えば、分割）を定義し、そのタスクに応じて制御パラメータｇの値を設定する。他のいくつかの実装では、システム１００は、ｉ）処理される機械学習タスクのタイプ、ｉｉ）畳み込みニューラルネットワークのニューラルアーキテクチャ、ｉｉｉ）コンピューティング環境、ｉｖ）性能目標、またはｖ）これらの組み合わせに基づいて、グループ畳み込みの数（例えば、分割）を定義する。例示的なコンピューティング環境には、クラウドベースのコンピューティング環境やモバイルデバイスコンピューティング環境が含まれ得る。性能目標には、速度、待ち時間、ハードウェア使用率、モデルの精度、パラメータサイズ、またはこれらの組み合わせが含まれ得る。

【0034】

グループ畳み込みは、畳み込みの一般化される形式として記述することができる。いくつかの実装では、システム１００は、制御パラメータに特定の値を割り当てることによって制御パラメータｇを初期化する。制御パラメータｇの初期化される値または割り当てられる値は、グループ畳み込みの分割を制御するために使用できる。例えば、システム１００が、チャネル次元全体のデータを使用する畳み込み演算（例えば、完全畳み込み）が必要であると決定した場合、システム１００は制御パラメータの値をｇ＝１に設定し、行列構造２０２の関連データを使用して完全畳み込みをトリガーおよび／または実行する。

【0035】

関連して、システム１００は、より大規模なニューラルネットワーク計算における所与のステップに必要な深さ単位に分離可能な畳み込みのグループ化を決定することができる。例えば、システム１００が、チャネル次元の一部のデータを使用する２つ以上の深さ単位に分離可能な畳み込みが必要であると決定した場合、システム１００は制御パラメータを所望の値（例えば、ｇ＝４）に設定し、行列構造２０２内の関連するデータ部分を使用して２つ以上（例えば、４つ）の深さ単位に分離可能な畳み込みをトリガーおよび／または実行する。いくつかの実装では、２つ以上のグループ畳み込みの計算が、順次、同時に、またはこれらの組み合わせで実行される。例えば、２つ以上の深さ単位に分離可能な畳み込みの各々に対するそれぞれの計算セットの一部（またはすべて）は、順次または並列に実行できる。

【0036】

上述のように、本文書で説明するグループ／グループ化畳み込み技術は、少なくとも、例示的なＭＬアクセラレータのハードウェアリソースの使用率メトリックおよび計算効率に対するより細かい制御を提供する。いくつかの実装では、これらのグループ畳み込み技術は、例示的な機械学習モデルのある属性または性能メトリックに影響を与え、制御するために使用される多目的ブロックまたは制御ノブを提供する。例えば、１からチャネル数（ｚ）までの間の制御パラメータｇの値を選択すると、完全畳み込みと深さ単位に分離可能な畳み込みの２つの例示的な制約間の連続体が提供される。これについては以下でさらに詳しく説明する。

【0037】

図３は機械学習モデルの例示的な属性を示す。一般に、属性は、上記の畳み込みニューラルネットワーク１０２を使用して実行されるさまざまな畳み込み演算に対応する。例えば、属性３０２は、完全畳み込みの演算を実行するために使用されるパラメータ数と乗算累算セル（ＭＡＣ）を示し、属性３０４は、深さ単位の畳み込みの演算を実行するために使用されるパラメータ数と乗算累算セルを示し、属性３０６は、グループ畳み込みの演算を実行するために使用されるパラメータ数と乗算累算セルを示す。

【0038】

制御パラメータｇおよびグループ畳み込みの構成は、所与のタスクに使用されるパラメータ（例えば、トレーニング可能なパラメータ）の数、ならびにタスクの演算を実行するために使用される乗算累算セルの数を制御するために決定および／または調整することができる。機械学習モデルのこれらの各例示的な属性３０２、３０４、３０６は、モデルのさまざまな性能メトリックに対応する影響を与える、または影響する可能性がある。例えば、トレーニング可能なパラメータの数および／または乗算累算セル（または演算）の数の増加または減少は、機械学習モデルの精度、速度、および／または待ち時間に対応する影響を与える。別の例では、完全畳み込みに比べて、深さ単位の畳み込みの使用は軽量で低コスト（つまり、リソースをあまり消費しない）のオプションになり得るが、ＭＬアクセラレータの集積回路で深さ単位の畳み込みを実行すると、回路のハードウェアリソースの利用率が低下することがよくある。

【0039】

例えば、深さ単位（または深さ単位に分離可能）畳み込みを実行する場合、数十または数百のハードウェア乗算累算セルを含む回路１１４の標準ハードウェアアレイでは、所与の計算サイクルでそれらのハードウェアセルの使用率が３％になる可能性があり、一方、待ち時間は最小限または少なくなる。したがって、深さ単位の畳み込みを使用すると高速になる可能性があるが、ハードウェアの使用率が低いため非効率的でもある。逆に、完全畳み込みを実行する場合、回路１１４のハードウェアアレイは大幅に高い使用率（例えば、７３％）になる可能性があり、その結果、アレイの乗算累算セルの大部分が所与の計算サイクルに使用される。深さ単位の畳み込みと比較すると、完全畳み込みを実行する際のこのより高い使用率は、多くの場合、計算待ち時間が大幅に長くなるという代償を伴う。

【0040】

上述のように、本文書で説明するグループ畳み込み技術は、例示的なＭＬハードウェアアクセラレータのハードウェアリソースの使用率メトリックおよび計算効率をより細かく制御する。制御パラメータｇの値を１からチャネル数（ｚ）までの間で選択すると、完全畳み込み（３０８）と深さ単位に分離可能な畳み込み（３１０）という２つの例示的な制約の間の連続体が実現される。システム１００は、図２の例に示すように、チャネル次元の深さレベルを参照してグループ畳み込みの分割を決定できる。制御パラメータｇは、グループ畳み込みの数（例えば、分割）を定義するために使用される。

【0041】

図３の例示的なグラフ３１２は、完全畳み込み（３０８）と深さ単位の畳み込み（３１０）との間の連続体に沿って、２からチャネル数（ｚ）までの間のｇの異なる値（３２４）の選択に対する例示的なパラメータ数３２０およびＭＡＣ数３２２を示している。この例では、ｚｉｎ次元は２５６である。グラフ３１２は、グループ畳み込みの値（ｇ）の対応する増加に対する、トレーニング可能なパラメータの数と乗算累算セル（または演算）の数の減少の例を示している。

【0042】

上で説明したように、回路１１４には、グループ畳み込み層などの層の出力を計算するために回路の制御論理を使用して横断またはアクセスすることができるテンソルの要素に対応する位置を持つメモリを含めることができる。メモリから取得される要素（例えば、入力または活性化）は、層の複数の出力を計算するのに役立つ必要がある。重みの数（つまり、パラメータ）も、グループ化のサイズに応じて変化する。いくつかの実装では、メモリからのパラメータの転送がボトルネックとなり、計算の待ち時間が増加し得る。優先されるニューラルネットワークアーキテクチャを決定する際に、検索データまたはシミュレーションの例示的なセットから、パラメータ転送時間に関するボトルネックが示され得る。次に、開示されるグループ畳み込みの概念とグループ畳み込みベースのニューラルブロックを使用して、パラメータの数を減らし、機械学習タスクの計算時間を改善または加速するアーキテクチャを定義できる。

【0043】

図４は、プロセスブロック４１０、プロセスブロック４２０、およびプロセスブロック４３０の例を示すブロック図である。各プロセスブロック４１０、４２０、４３０には、１つまたは複数の層ブロックが含まれる。一般に、各プロセスブロック４１０、４２０、４３０は、畳み込みニューラルネットワークの異なる層ブロックによって表すことができる。図４の例では、プロセスブロック４１０、４２０、および４３０の各々は、所与の畳み込み演算に対して実行される演算のサブセットであり得る。畳み込み演算は、畳み込みニューラルネットワーク１０２を使用して実行され、畳み込みニューラルネットワーク１０２は、上記の例示的なハードウェア集積回路１１４上に実装できる。

【0044】

ニューラルネットワークブロックは、単一の層、または複数の層を含むニューラルネットワークの構成要素を記述することができる。モバイルビジョンモデルなどの例示的なコンピュータビジョンモデルで広く使用されている共通ブロックは、逆ボトルネック（ＩＢＮ）層ブロック４０２（「ＩＢＮ層４０２」）である。一般に、ＩＢＮブロックは、複数の畳み込み層をある方法で組み合わせた、より大きなニューラルアーキテクチャのマクロブロックであり得る。ＩＢＮ層を含む複数のタイプの層（またはブロック）が、例示的な分類または対象検出ネットワークを形成するための構築ブロックとして使用される。

【0045】

ＩＢＮ層４０２は、点単位の畳み込み（４０４）、Ｋ×Ｋの深さ単位の畳み込み（４０５）、および最終的な点単位の畳み込み（４０６）を含むことができる。点単位の畳み込みはチャネル次元を拡張し、この点単位畳み込みの例が図４に「１×１畳み込み（拡張）」として示されている。Ｋ×Ｋの深さ単位畳み込みカーネルは、点単位の畳み込みに続いて、チャネル次元の拡張される深さに適用される。最終的な点単位の畳み込み（４０６）は、拡張されるチャネル次元をより小さい値に投影する。この最終的な点単位の畳み込みの例は、図４に「１×１畳み込み（投影）」として示されている。

【0046】

ＩＢＮ層ブロック４０２のようなＫ×Ｋの深さ単位の畳み込みの使用は非常に一般的である。これは、拡張後、大きなまたは拡張されるチャネル次元にわたる完全畳み込みを計算すると、処理および計算リソースの点で非常にコストがかかるためである。いくつかの実装では、点単位の畳み込み（４０４）とＫ×Ｋ深さ単位の畳み込み（４０５）は、融合ＩＢＮ層４０７を表すＫ×Ｋ完全畳み込み（融合拡張）プロセスブロックに置き換えられる。一般に、融合ＩＢＮ層４０７は、拡張および深さ単位の畳み込み演算を単一の完全畳み込みニューラルブロックに統合する。

【0047】

完全畳み込みには、多数のパラメータ／重みが関与する可能性があり、集積回路のハードウェア計算リソースのかなりの割合が必要になり得る。前述のように、このようなリソースの例としては、回路１１４のハードウェア計算アレイ（例えば、シストリックアレイ）の乗算累算セル、集積回路１１４のベクトル装置、またはその両方が挙げられ得る。対照的に、以下に説明するブロック４１４、４１６、４２２、４３２などの開示されるニューラルブロック代替手段を使用して実装される開示されるグループ畳み込み技術は、入力チャネルのセット（例えば、大きな入力チャネル）のトレーニング可能なパラメータの数を増やすための改善されるアプローチを提供し、それによってモデルの精度を向上させるが、非グループ畳み込み代替手段に比べて計算コストは低くなる。

【0048】

ここで、プロセスブロック４１０を参照すると、グループ化ＩＢＮ漸進的投影（または漸進的拡張）ブロックが示されており、ここで、上述のＫ×Ｋ深さ単位の畳み込み（４０５）がＫ×Ｋグループ畳み込み（４１４）または（４１６）に置き換えられている。プロセスブロック４１０は、チャネル次元の漸進的投影を実行するためにＫ×Ｋグループ畳み込み（４１４）を実装する第１の例、またはチャネル次元の漸進的拡張を実行するためにＫ×Ｋグループ畳み込み（４１６）を実装する第２の例を有することができる。

【0049】

プロセスブロック４１０の第１の例では、システム１００は、入力特徴マップ（例えば、入力４３８）に１×１畳み込み（拡張）（４０４）を適用することにより、入力特徴マップから拡張特徴マップを生成することができる。入力特徴マップは、ｃ１チャネルを有するｈ×ｗ特徴マップであり得る。この拡張特徴マップは、ｃ２チャネルを有するｈ×ｗ特徴マップであり得る。ここで、ｃ２はｃ１より大きい。いくつかの実装では、１×１畳み込みには入力フィルタよりも多くの出力フィルタがある。Ｋ×Ｋグループ畳み込み（４１４）は、拡張特徴マップに適用され、チャネル次元の漸進的投影を実行する。例えば、畳み込みニューラルネットワーク１０２は、畳み込みニューラルネットワーク１０２のグループ畳み込み層で実装されるグループ畳み込みを使用して、拡張特徴マップに対して漸進的投影を実行できる。グループ化ＩＢＮ漸進的投影は、投影専用のパラメータとメインのＫ×Ｋ畳み込み演算子をトレードオフする柔軟性を提供できる。

【0050】

プロセスブロック４１０のこの第１の例では、最終的な点単位の畳み込み（４０６）は、拡張されるチャネル次元をより小さい値に投影する。したがって、グループ畳み込みに関連付けられるＫ×Ｋカーネルは、１×１投影（４０６）がチャネルサイズを最終値まで下げる前に、チャネルサイズの初期縮小を実行できる。各加算ブロック４１８は、所与のプロセスブロック（例えば、４１０）に供給される入力４３８と例示的な畳み込み出力４３６を加算するために使用できるオプションの残差（またはスキップ）接続である。例示的な合計４４０は、対応するプロセスブロックで実行される演算の出力として渡される。

【0051】

プロセスブロック４１０の第２の例では、システム１００は、入力特徴マップ（例えば、入力４３８）に１×１畳み込み（拡張）（４０４）を適用することにより、入力特徴マップから初期拡張特徴マップを生成することができる。この初期拡張特徴マップは、ｃ２チャネルを有するｈ×ｗ特徴マップであり得る。ここで、ｃ２はｃ１より大きい。システム１００は、初期拡張特徴マップに対してＫ×Ｋグループ畳み込み（４１６）を適用することにより、初期拡張特徴マップから拡張特徴マップを生成する。例えば、畳み込みニューラルネットワーク１０２は、畳み込みニューラルネットワーク１０２のグループ畳み込み層で実装されるグループ畳み込みを使用して、初期拡張特徴マップから拡張特徴マップを生成することができる。拡張特徴マップは、ｃ３チャネルを有するｈ×ｗ特徴マップであり得る。ここで、ｃ３はｃ２より大きい。このグループ化ＩＢＮ漸進的拡張演算は、拡張専用のパラメータとメインのＫ×Ｋ畳み込み演算子をトレードオフする柔軟性を提供できる。グループ化ＩＢＮ漸進的拡張では、拡張層の一部を融合せずに維持し、メインのＫ×Ｋ畳み込みの前にグループ間でチャネル単位の畳み込みを可能にし得る。プロセスブロック４１０の最終的な点単位の畳み込み（４０６）は、拡張されるチャネル次元をより小さい値に投影する。

【0052】

ここで、プロセスブロック４２０を参照すると、このプロセスブロックは、上述の１×１畳み込み（拡張）（４０４）およびＫ×Ｋ深さ単位の畳み込み（４０５）がＫ×Ｋグループ畳み込み（４２２）に置き換えられる、融合グループ化ＩＢＮブロックである。このＫ×Ｋグループ畳み込み（４２２）には、少なくとも、点単位（４０４）＋深さ単位（４０５）の対を置き換え、Ｋ×Ｋグループ畳み込み（４２２）を介してそれらの演算の態様を融合してチャネル次元を拡張できるため、「融合拡張」という指定が含まれている。したがって、プロセスブロック４２０では、システム１００は、入力特徴マップにＫ×Ｋグループ畳み込み（４２２）を適用することにより、例示的な入力特徴マップ（例えば、入力４３８）から拡張特徴マップを生成することができる。例示的な入力特徴マップは、ｃ１チャネルを有するｈ×ｗ特徴マップであり得る。拡張特徴マップは、ｃ２チャネルを有するｈ×ｗ特徴マップであり得る。ここで、ｃ２はｃ１より大きい。プロセスブロック４２０の最終的な点単位の畳み込み（４０６）は、拡張されるチャネル次元をより小さい値に投影する。前述のように、対応する合計４４０は、プロセスブロック４２０で実行される特定の演算の出力として渡される。

【0053】

いくつかの実装では、融合グループ畳み込みブロック４２２は、融合ＩＢＮ層４０７の代替手段を提供し、チャネル次元に沿ったより効率的な処理を可能にする。例えば、これらの効率は、コンピュータビジョンモデルの後の段階で実現され得る。場合によっては、これらの後の段階は、チャネル次元に沿った畳み込みに関連付けられたデータ解像度が非常に大きい場合に対応する。融合グループ畳み込みによって得られる処理速度の向上は、グループ畳み込み演算を含むプロセスブロック４２０が特定のタイプの専用集積回路を使用して実行される場合に特に最適化され得る。例えば、専用集積回路は、図６を参照して以下に説明するように、メモリからの層入力を回路の１つまたは複数の計算セルにブロードキャストするブロードキャスト入力バスを含むニューラルネットワークプロセッサであってもよい。

【0054】

融合グループ畳み込みブロック４２２は、グループ化ＩＢＮ層４１４に比べてわずかに高いパラメータ数を必要とし得る。完全畳み込みと深さ単位に分離可能な畳み込みの２つの制約間の連続体では、融合グループＩＢＮ４２２は連続体の上位にある。例えば、融合グループ化ＩＢＮ層４２２は、深さ単位の畳み込みから完全な連続体までの連続体に沿った完全畳み込みにより近い可能性がある。

【0055】

ここで、プロセスブロック４３０を参照すると、このプロセスブロックは、上述のＫ×Ｋの深さ単位の畳み込み（４０５）がＫ×Ｋのグループ畳み込み（４３２）に置き換えられるグループ化ＩＢＮブロックである。上述のように、システム１００は、入力４３８に１×１畳み込み（４０４）を適用して、拡張特徴マップを生成する。Ｋ×Ｋグループ畳み込み（４３２）は、畳み込みニューラルネットワーク１０２のグループ畳み込み層で適用される。Ｋ×Ｋグループ畳み込み（４３２）は、入力フィルタと出力フィルタの合計数を同じにすることができる。他のプロセスブロックと同様に、プロセスブロック４３０の最終的な点単位の畳み込み（４０６）は、拡張されるチャネル次元をより小さい値に投影し、対応する合計４４０がプロセスブロック４３０で実行される特定の演算の出力として渡される。

【0056】

プロセスブロック４３０で実行される畳み込み演算は、ベースラインＩＢＮ層に比べてより小さな拡張率を伴うことができる。これらのより小さな拡張率により、パラメータ数が減少し得る。パラメータ数を回復するために、プロセスブロック４３０（および他のプロセスブロック）の畳み込み演算では、チャネル間情報を活用するＫ×Ｋカーネルのグループ畳み込みを使用できる。Ｋ×Ｋグループ畳み込み（４３２）は、入力チャネル次元に沿った畳み込みを含む他のブロックタイプとインターリーブすることができる。このインターリーブパターンにより、グループ間の入力チャネル畳み込みの不足を軽減できる。

【0057】

一般に、プロセスブロック４１０、４３０のそれぞれのアーキテクチャは、Ｋ×Ｋの深さ単位の畳み込みをＫ×Ｋのグループ畳み込みに置き換える。Ｋ×Ｋの深さ単位の畳み込みをＫ×Ｋグループ畳み込みに置き換えることの少なくとも１つの利点は、Ｋ×Ｋグループ畳み込みでは、完全畳み込みに比べて待ち時間が短縮され、より多くのトレーニング可能なパラメータが生成されることである。Ｋ×Ｋグループ畳み込みの使用による追加のトレーニング可能なパラメータは、モデルの精度の向上に貢献する。この精度の向上は、深さ単位の畳み込みと比較すると、待ち時間がわずかまたは最小限に増加するだけで達成できる。

【0058】

深さ単位の畳み込みをグループ畳み込みに置き換えることは、モバイルデバイスまたはエッジコンピューティングアプリケーション用に構成されるテンソル処理装置（ＴＰＵ）などの特定のタイプのハードウェアアクセラレータの畳み込み演算に固有のものであり得る。いくつかの実装では、Ｋ×Ｋの深さ単位の畳み込みに対して、Ｋ×Ｋグループ畳み込みは、集積回路１１４のハードウェアレイアウトに関してより効率的なハードウェアマッピングを実現するように構成され得る。例えば、入力チャネルと出力チャネルの１対１の関係ではなく、グループ畳み込みではブロックの概念を活用して、グループ内の入力チャネルに沿って畳み込みを実行できる。これにより、入力チャネルに沿ってより多くの情報を使用できるアルゴリズムの利点が得られ、コンピュータビジョンネットワークの１つまたは複数の層での表現能力が向上する。

【0059】

ある機械学習タスクの計算がＣＮＮのより深い層に進むにつれて、チャネル次元が大きくなる可能性がある。出力精度や計算／処理速度などのある性能の向上を実現するために、従来のアプローチでは、上記の融合ＩＢＮ層４０７などの融合ＩＢＮ層ブロックの使用が検討された。しかし、入力チャネル（ｚｉｎ）のそれぞれの次元が大きいため、完全畳み込みを実行するコストがかかり、計算速度が低下するため、融合ＩＢＮ層の使用は非現実的になる。

【0060】

従来のアプローチと比較して、プロセスブロック４１０、４２０、および４３０のそれぞれのグループ畳み込みは、ある処理ペナルティを最小限に抑えながら、モデルの性能を各々向上させることができるニューラルブロックの代替手段を提供する。例えば、融合グループ化ＩＢＮブロック４２２を使用して、従来のＩＢＮ層または融合ＩＢＮ層に関連付けられる待ち時間や拡張／大規模データセット処理のペナルティなしに、性能の向上を実現できる。一般に、グループ畳み込みブロック４１４、４１６、４２２、４３２の各々は、１つまたは複数のグループ畳み込み層を含むことができるニューラルネットワークブロックである。さらに、各グループ畳み込みブロック４１４、４１６、４２２、４３２は、入力チャネル次元に沿って畳み込みを実装する他の層またはブロックタイプとインターリーブできる。インターリーブされるニューラルブロックの例を図５に示す。

【0061】

インターリーブパターンは、グループ間の入力チャネル畳み込みの不足を軽減することができる。例えば、グループ畳み込みではチャネル間情報が使用されるが、そのような情報はグループのみに限定されており、グループを使用する場合は、チャネル次元に沿って情報を混合するためにシャッフル演算が通常必要になる。インターリーブパターンでは、これらの追加のシャッフル演算子（例えば、ＳｈｕｆｆｌｅＮｅｔ）の使用も回避される。ブロック４１０および４３０と同様に、例えばブロック４２２を介した融合グループ畳み込み演算では、ベースラインＩＢＮに比べてより多くのトレーニング可能なパラメータを生成でき、あるタイプのテンソル形状に対して、ベースラインＩＢＮおよび融合ＩＢＮ層と比較して処理速度の向上が可能になる（例えば、実行速度が速くなる）。

【0062】

いくつかの実装では、深さ単位の畳み込みは入力チャネルと出力チャネルを同じサイズに制限するが、グループ畳み込みは異なるサイズを有効にすることができる。例えば、Ｋ×Ｋグループ畳み込み（４１４）カーネルは、１×１投影によってチャネルサイズが最終値まで下げられる前に、チャネルサイズの初期縮小を実行できる。ここでの１つの仮定は、グループ畳み込みによってチャネルが最終的なチャネル次元に縮小され、それにより、１×１投影が排除されると、グループあたりのチャネル深さ（ｚｏ）が小さいため、性能が最適よりも低くなる（例えば、低下する）可能性があるということである。しかし、これは、漸進的拡張の実装を可能にする集積回路構成によってグループ畳み込みがネイティブにサポートされている場合は、軽減できる。例えば、回路構成には、集積回路の個別のＭＡＣに入力を渡すことができる入力バスを含めることができる。これについては、図６～図９を参照して以下でさらに詳しく説明する。

【0063】

システム１００は、複数の異なるタイプのグループ畳み込みブロックから選択するように演算可能である。例えば、システム１００は、上記のグループ畳み込みブロック４１４、４１６、４２２、４３２に加えて、Ｋ×Ｋグループ畳み込みを実装する融合投影グループ化畳み込みブロックを選択することもできる。融合投影グループ化畳み込みは、点単位の投影をＫ×Ｋメイン畳み込みに融合する（点単位の拡張を融合する代わりに）。テンソルの形状に応じて、融合投影グループ化ＩＢＮは、融合ＩＢＮと比較して同様の処理効率を達成しながら、より多くのトレーニング可能なパラメータを提供できる。融合投影グループ化ＩＢＮは、投影層の一部を融合せずに保持し、メインのＫ×Ｋ畳み込みの後にグループ間でチャネル単位の畳み込みを可能にする。

【0064】

図５は、図１の例示的なコンピューティングシステムで使用できる機械学習モデル１０２の畳み込みニューラルネットワークの例示的なアーキテクチャ５００である。ニューラルアーキテクチャ５００は、畳み込み演算の複数のそれぞれのセットを実装して、例示的な入力画像のさまざまな特性を取得できる。いくつかの実装では、システム１００は、図４の例を参照して上で説明したグループ化ＩＢＮオプションとグループ化されていないＩＢＮオプションから、さまざまなＩＢＮ層／ブロックオプションを戦略的に選択して配置するように演算可能である。いくつかの実装では、システム１００は、スタックされる、接続される、または組み合わせられる構成で演算を選択して配置し（つまり、それらを一緒に配置して組み合わせる）、大規模なコンピュータビジョンネットワーク／モデルを実装するために使用できる例示的なアーキテクチャ５００を形成するように演算可能である。

【0065】

図５の例では、アーキテクチャ５００は、層ブロックのシーケンスを含み、シーケンス内の層ブロックの第１のサブセットの各々は、入力画像を処理するための演算を実行するように構成されている。より具体的には、アーキテクチャ５００には、層ブロックの第１のサブセット５０２、層ブロックの第２のサブセット５０４、および層ブロックの第３のサブセット５０６が含まれる。いくつかの実装では、層ブロック５０２、５０４、５０６の少なくとも１つのサブセットに、２つ以上の異なるタイプのニューラルブロックの交互シーケンスを含めることができる。例えば、層ブロック５０２のサブセットは、融合ＩＢＮ層と融合グループＩＢＮ層を含む交互のシーケンスを持つことができる。

【0066】

融合ＩＢＮ層は、拡張および深さ単位畳み込み演算を単一の完全畳み込みニューラルブロックに統合する融合ＩＢＮ層４０７（上記）などの第１の個別ニューラルブロック５１２を表すことができる一方、融合グループＩＢＮ層は、点単位（４０４）＋深さ単位（４０５）の対を置き換え、Ｋ×Ｋグループ畳み込み（４２２）を介してそれらの演算の態様を融合してチャネル次元を拡張することを可能にする融合グループＩＢＮ４２２などの第２の個別ニューラルブロック５１４を表すことができる。上で説明したように、このブロックは、チャネル次元に沿ったより効率的な処理を可能にする、融合ＩＢＮ層４０７の代替手段を提供できる。

【0067】

より具体的には、第１のニューラルブロック５１２はグループ化されていないＩＢＮブロックであり得、第２のニューラルブロック５１４はグループ化ＩＢＮブロックであり得る。第１のニューラルブロック５１２と第２のニューラルブロック５１４の各々には、１つまたは複数の畳み込みニューラルネットワーク層が含まれる。したがって、層ブロック５０２には、グループ化ＩＢＮ層とグループ化されていないＩＢＮ層の交互シーケンスを含めることができる。例えば、層ブロックの交互シーケンスには、非グループ畳み込み層ブロックとインターリーブされるグループ畳み込み層ブロックを含めることができる。

【0068】

図６は、畳み込みニューラルネットワークの計算を実行するために使用される例示的なハードウェア計算タイル６００（「計算タイル６００」）を示す。複数の計算タイル６００を配置または構成して、ニューラルネットワークプロセッサ、特定用途向け集積回路、またはハードウェアアクセラレータなどの専用プロセッサを形成できる。いくつかの実装では、計算タイル６００は、上記のハードウェア集積回路１１４に含まれる複数の計算タイルのうちの１つである。

【0069】

各計算タイル６００は、多層ニューラルネットワークの１つまたは複数の層で必要な計算（例えば、ニューラルネットワーク計算）を独立して実行するように構成されている。例えば、計算タイル６００は、計算タイル６００のメモリ（後述）からローカルに取得されるデータおよび命令に基づいて複数の計算スレッドを実行するように構成される。場合によっては、データおよび命令は、ハードウェア集積回路１１４の通信／データバス６０２を介して計算タイル６００で受信される。例えば、データバス６０２を各計算タイル６００に結合して、異なる計算タイル６００間でデータをルーティングし、命令を計算することができる。したがって、所与の計算タイル６００の場合、タイル外部のソースから計算タイル６００でデータおよび命令を受信できる。ソースは、別の計算タイル６００、ハードウェア回路１１４の上位のコントローラ、ハードウェア回路１１４の外部のホストデバイス、またはこれらの組み合わせであり得る。

【0070】

計算タイル６００は、ニューラルネットワーク計算を実行するための命令およびオペランドを含むことができるデータ６０４のセットを受信する。以下に説明するように、データ６０４は、グループ畳み込み演算を実行するための命令およびオペランドであり得る。計算タイル６００は、ローカル制御論理（例えば、コントローラ）を使用して、データ６０４の分析に応じて命令とオペランドを識別する。制御論理は、１つまたは複数の命令に基づいてオペランドを処理するための制御信号を生成する。例えば、制御論理は、命令の１つまたは複数のオペコードを使用して、計算タイル６００の対応する構成要素のそれぞれの制御信号を生成する。構成要素は、制御信号に基づいて連携してグループ畳み込み演算を実行する。

【0071】

図６の例では、ローカル制御論理は、少なくともテンソル制御装置６０６（「テンソル制御６０６」）およびメモリアクセス制御装置６０８（「ＤＭＡ制御６０８」）によって表される。テンソル制御６０６には、テンソルトラバーサル装置（ＴＴＵ）６２６が含まれる。一般に、テンソル制御６０６は、ＴＴＵ６２６を使用して、ニューラルネットワーク計算のためのテンソルトラバーサル演算を管理する。これについては以下でさらに詳しく説明する。ＤＭＡ制御６０８は、計算タイル６００に含まれるローカルメモリのメモリ位置への所与の計算のオペランドの書き込み／記憶を管理する。ＤＭＡ制御６０８は、ローカルメモリのメモリ位置からの所与の計算のオペランドの読み取り／取得も管理する。いくつかの実装では、ＤＭＡ制御６０８はＴＴＵ６２６と連携してメモリアクセス演算を実行する。他のいくつかの実装では、ＤＭＡ制御６０８には、ＴＴＵ６２６との連携とは独立してメモリアクセス演算を実行するための専用のＴＴＵが含まれている。

【0072】

各計算タイル６００には、ニューラルネットワーク層への入力を記憶し、層の重みを記憶するためのメモリが含まれている。入力と重みは、通信バス６０２を介して計算タイル６００に到着するオペランド（またはデータ）に対応する。図６の例では、メモリには、ニューラルネットワーク層への入力を記憶する第１のメモリ６１０と、ニューラルネットワーク層の重みを記憶する第２のメモリ６１２とが含まれる。第１のメモリは、例えば８ビットのチャンクでデータを記憶、読み取り、またはその他の方法で管理するナローメモリであり得る一方、第２のメモリは、例えば３２ビットのチャンクでデータを記憶、読み取り、またはその他の方法で管理するワイドメモリであり得る。第１のメモリと第２のメモリは各々、より多いビットまたはより少ないビットを持つデータを記憶、読み取り、および管理できる。いくつかの実装では、第１のメモリ６１０および第２のメモリ６１２の各々は、計算タイル６００のより大きなローカルメモリのサブ部分である。他のいくつかの実装では、第１のメモリ６１０と第２のメモリ６１２の各々は、計算タイル６００の個別のローカルメモリ装置である。

【0073】

各計算タイル６００には、計算タイル１６０に渡される入力および重み値に対応するオペランドを使用して、加算や乗算などの算術演算を実行するように構成されるそれぞれの計算装置６１４が含まれている。各計算装置６１４には複数の演算ブロックを含めることができる。図６の例では、演算ブロックは各々「セル＃＿」として識別される。各演算ブロック（またはセル）には、乗算累算セル６１６と合計レジスタ６１８が含まれる。乗算累算セル６１６は、入力と重みを使用して算術演算（例えば、乗算）を実行するように構成されている。

【0074】

例えば、算術演算には、ナローメモリ６１０から取得される入力または活性化と、ワイドメモリ６１２から取得される重みを乗算して、１つまたは複数の累積値セットを生成することが含まれる。各計算タイル６００には、計算装置６１４の個別のブロックまたは乗算累算セル６１６に入力をブロードキャストする、渡す、またはその他の方法で提供することを可能にするそれぞれの入力バス６１７が含まれる。いくつかの実装では、入力バス６１７は、ナローメモリから１つまたは複数の乗算累算セルにグループ畳み込み層の入力をブロードキャストするブロードキャスト入力バスである。合計レジスタ６１８は、累積出力値６２０のセットを形成するためにグループ化できる部分合計を記憶するために使用される。

【0075】

各計算タイル６００には、出力バス６２２と、出力バス６２２に結合される活性化装置６２６が含まれている。計算タイル６００には、オプションで、出力バス６２２に結合される１つまたは複数のレジスタ６２４が含まれ得る。いくつかの実装では、１つまたは複数のレジスタ６２４の各々は、ニューラルネットワーク層の出力値６２０（例えば、累積値または部分合計）を活性化装置６２６にシフトするために使用される個々のシフトレジスタである。活性化装置６２６は、出力値６２０に非線形活性化機能を適用するように演算可能である。活性化装置６２６は、出力６２０に適用される活性化機能に基づいて、層の出力活性化のセットを生成するように演算可能である。

【0076】

活性化装置６２６は、第１のメモリ６１０に結合され、出力活性化をナローメモリ６１０に渡してメモリに記憶するように構成されている。出力活性化は、ニューラルネットワーク層の層出力に対応する。例えば、出力活性化のセットは、入力特徴マップにグループ畳み込みを適用して出力特徴マップを生成するグループ畳み込み層の出力（または出力の一部）になり得る。したがって、出力活性化は出力特徴マップに対応し得る。いくつかの実装では、活性化装置６２６は、複数の部分合計または累積値を値のベクトルに集約するように演算可能である。

【0077】

各計算タイル６００には、計算タイルにおけるグループ畳み込み層の演算を管理および実装するように演算可能なオプションのグループ畳み込み制御６３５を含めることができる。例えば、計算タイル６００は、入力特徴マップのチャネル次元に沿って１つまたは複数の入力グループ化にグループ畳み込みを適用することにより、グループ畳み込み層を介して入力セットを処理する命令を受信できる。１つまたは複数の入力グループ化の個々の入力は、メモリ６１０のさまざまな場所だけでなく、異なる計算タイル６００にわたって記憶され得る。各メモリ位置はそれぞれのアドレスによって識別される。それぞれのグループ畳み込み入力を記憶する個々のメモリ位置（またはそのそれぞれのアドレス）は、第１のメモリ６１０に記憶されている多次元入力テンソルまたは入力特徴マップなどの入力テンソルの要素に対応し得る。

【0078】

グループ畳み込み制御６３５は、１つまたは複数の乗算累算セル６１６にブロードキャストされる対応するグループ畳み込み入力のメモリアドレスを取得または決定することができる。いくつかの実装では、グループ畳み込み制御６３５はＤＭＡ制御６０８とデータ通信し、ＤＭＡ制御６０８と対話して、対応するグループ畳み込み入力のメモリ位置にアクセスするためのアドレスを発行する。他のいくつかの実装では、グループ畳み込み制御６３５は、第１のメモリ６１０と直接通信して、対応するグループ畳み込み入力のメモリアドレスにアクセスする。グループ畳み込み制御６３５は、同様の演算を実行して、第２のメモリ６１２に記憶されているパラメータテンソルの重みにアクセスし、重みを対応する乗算累算セルに渡すか、または対応する乗算累算セルにロードすることができる。グループ畳み込み制御６３５については、図８を参照して以下でさらに説明する。

【0079】

各計算タイル６００は、１つまたは複数の計算スレッドを実行するように構成されている。いくつかの実装では、ハードウェア回路１１４は、計算タイル６００の一部（またはすべて）を使用して、複数の計算スレッドを並列に実行する。計算スレッドは複数のクロックサイクルにわたって実行され得、ニューラルネットワーク層への入力を処理してニューラルネットワーク層の出力を生成するために使用される。例えば、計算スレッドのそれぞれのサブセットを１つまたは複数の計算タイル６００に割り当てることで、例示的な入力特徴マップに対してグループ畳み込みを適用するグループ畳み込み層のループネストを実行できる。これについては以下でさらに詳しく説明する。図６には、計算タイル６００内のさまざまな構成要素のそれぞれの属性を示す参照マップ６３０が含まれている。参照マップ６３０はわかりやすくするために示されているが、計算タイル６００には含まれていない。属性には、特定の構成要素が装置、記憶デバイス、オペレータ、制御デバイス、またはデータパスであるかどうかが含まれる。

【0080】

図７Ａは、乗算累算セル６１６のサブセットへのパーティションの例示的なマッピングを示すブロック図である。図７Ｂは、ハードウェア計算タイル６００の乗算累算セル６１６にそれぞれの入力を提供する例示的な入力バス６１７を示すブロック図である。

【0081】

最初に図７Ａを参照すると、上述のように、データおよび命令は、タイル外部のソースから計算タイル６００で受信することができる。ソースは、別の計算タイル６００、ハードウェア回路１１４の上位のコントローラ、ハードウェア回路１１４の外部のホストデバイス、またはこれらの組み合わせであり得る。実行されるグループ畳み込み演算のタイプに基づいて、システム１００は、グループ畳み込みの数（例えば、分割）を表す制御パラメータｇのさまざまな定義済み値から選択できる。例えば、システム１００は、所与のニューラルネットワークアーキテクチャの異なるグループ畳み込みニューラルブロックに対してｇの特定の値を選択できる。いくつかの実装では、ｇの値は、所与の演算に対して外部ホストで事前定義され、ハードウェア回路１１４のコントローラに渡される。

【0082】

いくつかの実装では、上位のコントローラは、制御パラメータｇに基づいて、入力特徴マップのチャネル次元（例えば、Ｚｉｎ）に沿って１つまたは複数のパーティションを識別する。システム１００は、１つまたは複数のパーティションに基づいて、チャネル次元に沿って１つまたは複数のグループ化を形成することができる。図７の例では、入力チャネルのそれぞれのグループ化が、例示的な入力テンソルまたは入力特徴マップのＺｉｎに沿って形成されている。各それぞれのグループ化は、以下に説明するように、対応する乗算累算セル６１６－１、６１６－２、６１６－３、６１６－４にマッピングできる。さらに、入力チャネルの各グループ化には、それぞれのサイズが含まれる。より具体的には、各グループ化には、グループ化のそれぞれのサイズに対応するそれぞれの数の入力チャネルが含まれる。例えば、図７Ａの図に示すように、グループ化またはパーティションのサイズパラメータＳは、Ｚｉｎ／ｇによって定義できる。ここで、Ｚｉｎは入力テンソルのチャネル次元に沿った入力チャネルの数であり、ｇは上記の制御パラメータによって定義されるグループの数である。

【0083】

システム１００は、計算装置６１４内の乗算累算セル６１６へのグループ化のマッピング７００を決定するように演算可能である。例えば、マッピングは、計算タイル６００でローカルに決定することも、集積回路１１４の上位のコントローラを使用して決定することもできる。いくつかの実装では、ホストデバイスがマッピングを決定し、マッピング命令を生成し、マッピング命令を上位のコントローラに渡し、次に、上位のコントローラが命令を計算タイル６００に渡す。例えば、集積回路１１４には、外部ホストデバイスから上位のコントローラに渡されるデータまたは命令を受信するためのホストインターフェイスブロックを含めることができる。

【0084】

いくつかの実装では、システム１００（例えば、ホストまたは集積回路のコントローラ）は、各パーティション内のチャネルの数に基づいてマッピングを決定する。例えば、ホストデバイスまたは上位のコントローラのいずれかが、各計算タイル６００内の計算装置６１４の構成を含む、集積回路１１４のハードウェア構成を記述する情報にアクセスできる。これらのハードウェア構成に基づいて、システム１００は、計算装置６１４の乗算累算セルの数またはレイアウトを参照して、各グループ化のそれぞれのサイズを決定できる。例えば、システム１００は、グループ化とそれぞれの入力の最適なマッピングを乗算累積セル６１６に決定して、計算装置６１４の全体的な使用率を最大化することができる。これについては以下でさらに詳しく説明する。

【0085】

次に図７Ｂを参照すると、ナローメモリ６１０に結合される入力バス６１７が、１つまたは複数の乗算累算セル６１６に入力／活性化をブロードキャストする例示的なアーキテクチャが示されている。入力は、対応する乗算累算セル６１６によって受信されるように、一度に１つずつ入力バス６１７にシフトまたは送信することができる。

【0086】

いくつかの実装では、入力バス６１７は、ナローメモリ６１０から取得されるグループ畳み込み層入力を１つまたは複数の乗算累算セル６１６にブロードキャストするブロードキャスト入力バスである。例えば、入力バス６１７は、集積回路１１４の個別の乗算累算セル６１６－１、６１６－２、６１６－３、６１６－ｎにそれぞれの入力を渡す（またはブロードキャストする）ことができる。したがって、入力バス６１７には、集積回路１１４が、上で説明した決定されたマッピングに基づいて、入力特徴マップのＺｉｎ次元に沿った各グループ化の複数の入力を、対応する乗算累算セル６１６にブロードキャストできるようにするブロードキャスト機能が含まれている。

【0087】

いくつかの実装では、セル６１６のサブセット内のいくつか（またはすべて）の乗算累算セル６１６間で同じ入力が共有される。入力バス６１７の幅は、計算装置６１４の所与のサブセットに対応する数の乗算累算セル６１６にブロードキャストされる入力を供給するのに十分な幅でなければならない。例えば、入力バス６１７の構造に関して、計算装置６１４内の乗算累算セル６１６の数が４であり、入力（または活性化）のデータ解像度／幅が８ビットである場合、入力バス６１７は、サイクルごとに最大４つの入力活性化を提供するように構成できる。この例では、各乗算累算セル６１６は、ブロードキャストされる４つの活性化のうち１つの活性化を受信できる。

【0088】

システム１００は、入力バス６１７を介して、入力特徴マップの第１のグループ化（Ｚｉｎに沿って）のそれぞれの第１の入力（「０」）を、乗算累算セル６１６のサブセット内の各乗算累算セル６１６－１、６１６－２、６１６－３、６１６－ｎにブロードキャストすることができる。同様に、システム１００は、入力バス６１７を介して、入力特徴マップの第２のグループ化（Ｚｉｎに沿って）のそれぞれの第２の入力（「１」）を、乗算累算セル６１６のサブセット内の各乗算累算セル６１６－１、６１６－２、６１６－３、６１６－ｎにブロードキャストすることができる。ブロードキャストされる第１の入力と第２の入力は、グループ畳み込み層の計算中に再利用される。例えば、各入力７０２（「０」）、７０４（「１」）、７０６（「２」）、７０８（「３」）は、活性化テンソルのチャネル次元に沿った異なるグループ化に対応できる。

【0089】

いくつかの実装では、各入力７０２、７０４、７０６、７０８は、各乗算累算セルにわたってブロードキャストされ、再利用されて、グループ畳み込み層の計算を並列化することができる。例えば、グループ畳み込みの一部を実行するために、再利用される入力は、ワイドメモリ６１２のメモリ位置から取得され、乗算累算セル６１６のそれぞれの重みレジスタにルーティングされる、異なる個々の重み値で乗算される。この再利用属性については、図８を参照して以下でさらに詳しく説明する。このように各Ｚｉｎグループ化の計算を並列化することで、回路１１４は計算装置６１４と、装置内の対応する乗算累算セル６１６の利用率を最大化できる。より具体的には、少なくとも回路１１４の乗算累算セル６１６にわたる入力ブロードキャストを可能にするグループ畳み込みを実行するための回路アーキテクチャは、グループ畳み込みを実行するために使用される従来の回路アーキテクチャを超える利用率および効率レベルを達成することができる。

【0090】

さらに、グループ畳み込みベースのニューラルブロックの少なくとも１つの利点は、演算強度を変更できることである。例えば、演算強度を調整して、乗算累算セル６１６で実行される演算の数と、取得される重みごとのセル全体の使用率を制御できる。これにより、システム１００はパラメータ帯域幅を最適化できる。場合によっては、エッジでの推論計算用のアプリケーションではメモリ帯域幅が制限されることがある。グループ畳み込みを使用して、全体的な計算時間を最大化し、メモリから新しい重みを取得するための余分なメモリ演算の必要性を最小限に抑える（または回避する）ことができる。

【0091】

図８は、完全畳み込み、深さ単位の畳み込み、およびグループ畳み込みの、ある属性を示す例示的なブロック図８００である。より具体的には、ブロック図８００は、完全畳み込み演算（８０２）、深さ単位の畳み込み演算（８０４）、およびグループ畳み込み演算（８０６）中に処理される入力のそれぞれの再利用属性を示している。図８の例では、ブロック８０２（完全畳み込み）とブロック８０６（グループ畳み込み）を参照して再利用が示されている。例えば、第１のブロック８０２は、各入力８１２が完全畳み込みの各出力チャネル８１３を計算するために再利用されることを示し、一方、第２のブロック８０４は、各入力８１４が深さ単位の畳み込みの対応する出力チャネル８１５を計算するために１回だけ使用されることを示す。

【0092】

第３のブロック８０６は、所与のグループ畳み込みに対応する出力チャネル８１７、８１８を計算するときに、入力が再利用の尺度を持つことができることを示している。例えば、ブロック８０６では、各入力８１６は、対応する出力チャネル８１７、８１８を計算するときに特定の再利用係数（例えば、２）を持つ。グループ畳み込み層への入力の再利用係数は、その層で処理されるグループ化のサイズに対応する。場合によっては、入力チャネルからの各要素が再利用され、そのグループに属する出力チャネルが計算される。これを考慮して、再利用係数はグループのサイズに基づいて決定される。

【0093】

いくつかの実装では、計算タイル６００で受信される命令内の第１のオペコードは、入力テンソルのグループ畳み込み入力の分割およびそれに続くグループ化を示す制御パラメータｇの値を指定し、命令内の第２のオペコードは、グループ化における入力の再利用係数を示すサイズパラメータの値を指定する。各計算タイル６００は、ローカルグループ畳み込み制御６３５を使用して、計算タイル６００のハードウェア構成、計算タイル６００で実行されるグループ畳み込み、またはその両方に基づいてサイズパラメータを決定することもできる。

【0094】

回路１１４は、計算装置６１４内に３２個または６４個の乗算累算セルを備えることができる。グループ畳み込み制御６３５は、計算タイル６００でのグループ畳み込み演算を指定する命令内の１つまたは複数のオペコードを識別できる。例えば、グループ畳み込み制御６３５は、グループ畳み込みがＫ×Ｋグループ畳み込み（４１６）であることを決定し、チャネル次元の漸進的拡張を実行することができる。グループ畳み込み制御６３５は、この特定のタイプの畳み込み演算が、グループ化されるＩＢＮ漸進的拡張ニューラルブロック４１６の１つまたは複数のグループ畳み込み層で適用されることを決定できる。

【0095】

いくつかの実装では、システム１００は、特定のタイプの畳み込み演算に固有の制御パラメータｇの定義済み値を選択できる。例えば、所与のグループ畳み込みニューラルブロック４１２、４１６、４２２、または４３２の場合、システム１００は、各ニューラルブロックに関連付けられる異なるグループ畳み込み演算に対して、所定の制御値ｇから選択できる。グループ畳み込み演算のグループ化は、制御値から定義される。いくつかの実装では、所与の計算タイル６００のグループ畳み込み制御６３５は、タイルの乗算累算セル６１６へのグループ化のローカルマッピング７００を決定する。グループ畳み込み制御６３５は、グループ化ごとに、演算のグループ畳み込み入力８１６を処理するためのニューラルブロック４１６のグループ畳み込み層を識別し、グループ化と演算に応じてサイズパラメータＳを設定できる。

【0096】

前述のように、各グループ化には、グループ化のそれぞれのサイズに対応する入力チャネルのそれぞれの数が含まれているため、グループ化のサイズパラメータＳはＺｉｎ／ｇによって定義できる。各グループ化はグループ畳み込みを表し、出力グループ２２０－ｎの対応するチャネルに関連付けられる。各グループ化には、入力特徴マップから導出されたそれぞれの入力を含めることができる。図８の例では、各入力８１６は、入力テンソルのチャネル次元に沿った異なるグループ化からのものであり得る。いくつかの実装では、グループ畳み込み制御６３５は、命令の１つまたは複数のオペコードを分析し、オペコードに基づいて、計算タイル６００がＫ×Ｋグループ畳み込み（４１６）を適用して、チャネル次元の数を増やすことを伴うチャネル次元の漸進的拡張を実行することを決定する。

【0097】

グループ畳み込み制御６３５は、グループ畳み込みのさまざまな態様についてサイズパラメータＳを決定し、Ｋ×Ｋグループ畳み込み（４１６）の進行に応じてグループ化のローカルマッピングを調整することができる。いくつかの実装では、この漸進的な拡張演算は、ニューラルネットワークの一部として静的に表現される。例えば、出力チャネル全体の拡張をｅにするために、Ｋ×Ｋグループ畳み込み（４１６）は出力チャネルを係数ｇ＿ｅで拡張することができる。上で説明したように、この拡張の後に１×１の点単位の畳み込みを行うことができ、ｅ／ｇ＿ｅの拡張を有するため、全体の拡張はｇ＿ｅ＊ｅ／ｇ＿ｅ＝ｅとなる。

【0098】

次に、グループ畳み込みの計算を伴う例示的な演算について説明する。
６４個の乗算累算セルの例を再度参照すると、グループ畳み込み制御６３５は、ワイドメモリ６１２からグループ畳み込み層の６４個の異なる重み値を取得できる。例えば、グループ畳み込み制御６３５は、ハードウェア構成（例えば、セルの数）、グループ畳み込み層のタイプ、またはその両方に基づいて、６４個の異なる重み値を取得できる。グループ畳み込み制御６３５は、メモリ６１０から対応する入力８１６を取得することもできる。取得される入力は、乗算累算セル６１６全体で再利用を有する必要がある。いくつかの実装では、取得される入力は６４個の乗算累算セル全体で再利用を有する。いくつかの他の実装では、取得される入力は６４個の乗算累算セルのサブセット全体で再利用を有する。一般に、グループ内のすべての入力は、同じグループ内の出力に対してある程度の再利用を有する。

【0099】

この例では、入力８１６は、入力深さが乗算累算セルの数に対応するように、入力深さが６４である入力特徴マップから選択することができる。計算タイル６００は、６４個のセルを使用して１０００個の出力を計算できる。グループ畳み込み制御６３５はグループサイズを６４に設定できるため、１つの入力値８１６を取得してブロードキャストするサイクルごとに、計算タイル６００はその入力８１６を使用して１０００個の出力のうち６４個の出力を計算できる。したがって、グループサイズが十分に大きい場合、所与の計算タイル６００は入力バスの１００％使用率を達成できる。これは、１つの入力値を取得するサイクルごとに、６４個のセルすべてが使用されるためである。

【0100】

したがって、計算タイル６００は、乗算累算セルの数に基づいてグループサイズを定義し、グループ畳み込みの、ある特性に応じて、完全畳み込みの処理ペナルティを招くことなく、乗算累算セルの完全な利用を達成することができる。単一の入力チャネルを伴う例では、グループサイズ＝２の場合、これは計算タイル６００が２つのチャネル要素（例えば、２つの入力８１６）を畳み込むことを意味する。したがって、計算タイル６００は、グループサイズに基づいて、その個数のチャネル要素を畳み込む。完全畳み込みの場合、グループサイズは入力チャネル全体のサイズに等しくなる。

【0101】

入力チャネルが１０００個ある場合、完全畳み込みでは、システム１００は１０００個の入力チャネル全体を畳み込んで１つの出力チャネルを計算する。ここでの出力は、値または活性化のチャネルである。深さ単位の畳み込みの場合、システム１００は１つの入力チャネルを計算して１つの出力チャネルを計算するだけである。この例では、グループサイズが１の場合、これは深さ単位の畳み込みである。グループサイズが２の場合、１つの出力チャネルを計算するには、２つの入力チャネルを畳み込む必要がある。グループサイズが４の場合、１つの出力チャネルを計算するには、４つの入力チャネルを畳み込む必要がある。

【0102】

図９は、ハードウェア集積回路を使用してグループ畳み込みを適用することにより、例示的な画像を処理するために使用される例示的なプロセス９００のフロー図である。ハードウェア集積回路は、複数のニューラルネットワーク層を含むＣＮＮを実装するように構成されており、複数の層にはグループ畳み込み層が含まれる。例示的な画像は、上述の画像１０２であってもよく、または他のさまざまなタイプのデジタル画像および関連するグラフィックデータであってもよい。いくつかの実装では、プロセス９００は、ニューラルネットワーク計算を高速化するために使用される技術の一部であり、これにより、他のデータ処理技術と比較して、画像処理出力の精度も向上できる。

【0103】

プロセス９００は、上述のシステム１００を使用して実装または実行することができる。したがって、プロセス９００の説明では、システム１００の上記のコンピューティングリソースを参照し得る。プロセス９００のステップまたはアクションは、この文書で説明されているデバイスおよびリソースの１つまたは複数のプロセッサによって実行可能なプログラムされるファームウェアまたはソフトウェア命令によって有効にすることができる。いくつかの実装では、プロセス９００のステップは、ハードウェア集積回路を使用して、畳み込みニューラルネットワーク層、例えばグループ畳み込み層の出力を生成するための計算を実行するための方法に対応する。集積回路は、ＣＮＮを実装するように構成される専用ニューラルネットワークプロセッサまたはハードウェア機械学習アクセラレータにすることができる。

【0104】

プロセス９００を再度参照すると、システム１００は、入力特徴マップに関連付けられる制御パラメータを識別する（９０２）。例えば、入力特徴マップのチャネル次元に沿って２つ以上のパーティションを定義する制御パラメータが識別される。システム１００は、２つ以上のパーティションのマッピングを決定する（９０４）。より具体的には、システム１００は、ハードウェア集積回路の計算装置内の乗算累算セルへのパーティションのマッピングを決定する。

【0105】

グループ畳み込み層の場合、システム１００は、ハードウェア集積回路を使用して、入力特徴マップに対してグループ畳み込みを適用する（９０６）。２つ以上のパーティションの各々について、グループ畳み込み層にグループ畳み込みを適用することは、乗算累算セルのサブセットにグループ畳み込み層の重みを提供する（９０８）ことを含む。例えば、システム１００は、決定されたマッピングに基づいて、乗算累算セルのサブセットに重みを提供する。重みは、計算タイル６００の例示的なワイドメモリから提供される。

【0106】

システム１００は、入力特徴マップの入力を乗算累算セルのサブセットに提供する（９１０）。例えば、入力特徴マップのそれぞれの入力は、集積回路の入力バスを介してサブセット内の各乗算累算セルに提供される。より具体的には、各ハードウェア計算タイル６００には、所与の乗算累算セルに１つまたは複数の入力をブロードキャストするために使用されるそれぞれの入力バスが含まれる。

【0107】

システム１００は、それぞれの入力とグループ畳み込み層の対応する重みを使用して積を計算する（９１２）。例えば、積は、乗算累算セルの乗算回路を使用して、サブセット内の各乗算累算セルでそれぞれの入力と対応する重みを乗算することによって計算される。

【0108】

システム１００は、グループ畳み込み層の出力特徴マップを生成する（９１４）。例えば、グループ畳み込み層の出力特徴マップは、乗算累算セルのサブセット内の各乗算累算セル６１６で計算される複数のそれぞれの積の累積に基づいて生成される。グループ畳み込み層の計算タイル６００内で実行される計算プロセスには、入力テンソルのそれぞれの要素に記憶されているデータ値（例えば、入力または活性化）と、パラメータテンソルのそれぞれの要素に記憶されているデータ値（例えば、重み）の乗算が含まれる。例えば、計算には、１つまたは複数のサイクルで入力値または活性化値と重み値を乗算して複数の積（例えば、部分合計）を生成し、その後、多数のサイクルにわたってそれらの積の累積を実行することが含まれる。いくつかの実装では、出力特徴マップを生成することは、入力チャネルの各グループ化（またはパーティション）のそれぞれのサイズに基づいて出力特徴マップを生成することを含む。

【0109】

本明細書で説明する主題および機能演算の実施形態は、本明細書で開示される構造およびその構造的同等物を含む、デジタル電子回路、有形に具現化されるコンピュータソフトウェアまたはファームウェア、コンピュータハードウェア、またはそれらの１つもしくは複数の組み合わせで実装することができる。本明細書で説明する主題の実施形態は、１つまたは複数のコンピュータプログラム、すなわち、データ処理装置によって実行されるか、またはデータ処理装置の演算を制御するための、有形の非一時的なプログラムキャリア上に符号化されるコンピュータプログラム命令の１つもしくは複数のモジュールとして実装することができる。

【0110】

代替的にまたは追加的に、プログラム命令は、データ処理装置による実行のために適切な受信機装置に送信するために情報を符号化するために生成される、人工的に生成される伝播信号、例えば機械で生成される電気信号、光信号、または電磁信号上に符号化することができる。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムもしくはシリアルアクセスメモリデバイス、またはそれらの１つもしくは複数の組み合わせとすることができる。

【0111】

「コンピューティングシステム」という用語には、例えば、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサやコンピュータなど、データを処理するためのあらゆる種類の装置、デバイス、および機械が包含される。装置には、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）などの専用論理回路を含めることができる。装置には、ハードウェアに加えて、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらの１つもしくは複数の組み合わせを構成するコードなど、問題のコンピュータプログラムの実行環境を作成するコードも含まれ得る。

【0112】

コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードとも呼ばれ得るまたはそれらとして説明され得る）は、コンパイル型もしくは解釈型言語または宣言型もしくは手続き型言語を含む任意の形式のプログラミング言語で記述することができ、スタンドアロンプログラムとして、またはコンピューティング環境での使用に適したモジュール、構成要素、サブルーチン、もしくはその他の装置として、任意の形式で展開することができる。

【0113】

コンピュータプログラムは、ファイルシステム内のファイルに対応し得るが、対応する必要はない。プログラムは、他のプログラムもしくはデータを保持するファイルの一部（例えば、マークアップ言語文書に記憶される１つまたは複数のスクリプト）、問題のプログラム専用の単一のファイル、または複数の調整されるファイル（例えば、１つまたは複数のモジュール、サブプログラム、またはコードの一部を記憶するファイル）に記憶できる。コンピュータプログラムは、１台のコンピュータ、または１つのサイトにあるか複数のサイトに分散され通信ネットワークによって相互接続される複数のコンピュータ上で実行されるように展開できる。

【0114】

本明細書で説明するプロセスおよび論理フローは、入力データに対して演算を行い、出力を生成することによって機能を実行する１つまたは複数のコンピュータプログラムを実行する１つまたは複数のプログラマブルコンピュータによって実行することができる。プロセスおよび論理フローは、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＩＣ（特定用途向け集積回路）、またはＧＰＧＰＵ（汎用グラフィックス処理装置）などの専用論理回路によって実行することもでき、装置を専用論理回路として実装することもできる。

【0115】

コンピュータプログラムの実行に適したコンピュータとしては、例えば、汎用マイクロプロセッサまたは専用マイクロプロセッサまたはその両方、あるいは任意の他の種類の中央処理装置に基づき得る。一般的に、中央処理装置は、読み取り専用メモリまたはランダムアクセスメモリまたはその両方から命令とデータを受信する。いくつかのコンピュータの要素には、命令を実行するための中央処理装置と、命令とデータを記憶するための１つまたは複数のメモリデバイスがある。一般に、コンピュータには、磁気ディスク、光磁気ディスク、または光ディスクなどのデータを記憶するための１つまたは複数の大容量記憶デバイスも含まれるか、または、それらの記憶デバイスからデータを受信したり、それらの記憶デバイスにデータを転送したり、あるいはその両方を行うように動作的に結合される。しかし、コンピュータにはそのようなデバイスは必要ない。さらに、コンピュータは、ほんの数例を挙げると、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオまたはビデオプレーヤ、ゲームコンソール、全地球測位システム（ＧＰＳ）受信機、またはユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブなどのポータブルストレージデバイスなど、別のデバイスに組み込むことができる。

【0116】

コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体には、あらゆる形式の不揮発性メモリ、媒体、およびメモリデバイスが含まれ、例として、半導体メモリデバイス（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス）、磁気ディスク（例えば、内蔵ハードディスクまたはリムーバブルディスク）、光磁気ディスク、ＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクなどが含まれる。プロセッサとメモリは、専用論理回路によって補完され得るか、または専用論理回路に組み込まれ得る。

【0117】

ユーザとの対話を可能にするために、本明細書で説明する主題の実施形態は、ユーザに情報を表示するための表示デバイス（例えば、ＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがコンピュータに入力を提供できるキーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを備えたコンピュータ上で実装することができる。他の種類のデバイスを使用して、ユーザとの対話を提供することもできる。例えば、ユーザに提供されるフィードバックは、視覚フィードバック、聴覚フィードバックまたは、触覚フィードバックなど、あらゆる形式の感覚フィードバックにすることができ、ユーザからの入力は、音響、音声、または触覚入力など、あらゆる形式で受信できる。さらに、コンピュータは、ユーザが使用するデバイスに文書を送受信することで、ユーザと対話できる。例えば、ウェブブラウザから受信した要求に応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信する。

【0118】

本明細書で説明する主題の実施形態は、例えばデータサーバなどのバックエンド構成要素を含むコンピューティングシステム、または例えばアプリケーションサーバなどのミドルウェア構成要素を含むコンピューティングシステム、または例えばグラフィカルユーザインターフェイスもしくはウェブブラウザを備えたクライアントコンピュータなどのフロントエンド構成要素を含むコンピューティングシステムで実装することができ、ユーザはそれを介して本明細書で説明する主題の実装と対話することができ、あるいは、そのようなバックエンド、ミドルウェア、またはフロントエンド構成要素の１つまたは複数の任意の組み合わせで実装することができる。システムの構成要素は、通信ネットワークなど、デジタルデータ通信のあらゆる形式または媒体によって相互接続できる。通信ネットワークの例には、ローカルエリアネットワーク（「ＬＡＮ」）や、インターネットなどのワイドエリアネットワーク（「ＷＡＮ」）などが含まれる。

【0119】

コンピューティングシステムには、クライアントとサーバが含まれ得る。一般に、クライアントとサーバは互いに離れており、通常は通信ネットワークを介して対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、相互にクライアントとサーバの関係を持つコンピュータプログラムによって生じる。

【0120】

本明細書には多くの具体的な実装の詳細が含まれているが、これらは発明の範囲または請求され得るものの範囲を制限するものとして解釈されるべきではなく、むしろ特定の発明の特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。本明細書において個別の実施形態の文脈で説明されているある特徴は、単一の実施形態で組み合わせて実装することもできる。逆に、単一の実施形態の文脈で説明されているさまざまな特徴は、複数の実施形態で個別に、または任意の適切なサブ組み合わせで実装することもできる。さらに、特徴はある組み合わせで機能すると上記で説明され得、当初はそのように請求されていたとしても、請求される組み合わせからの１つまたは複数の特徴が、場合によっては組み合わせから削除され得、請求される組み合わせは、サブ組み合わせまたはサブ組み合わせのバリエーションに向けられ得る。

【0121】

同様に、図面では演算が特定の順序で描かれているが、これは、望ましい結果を得るために、そのような演算が図示される特定の順序または連続した順序で実行されること、または図示されるすべての演算が実行されることを要求するものとして理解されるべきではない。ある状況では、マルチタスクと並列処理が有利になり得る。さらに、上記の実施形態におけるさまざまなシステムモジュールおよび構成要素の分離は、すべての実施形態でそのような分離が必要であると理解されるべきではなく、説明されているプログラム構成要素およびシステムは、一般に、単一のソフトウェア製品に統合することも、複数のソフトウェア製品にパッケージ化することもできると理解されるべきである。

【0122】

主題の特定の実施形態について説明した。他の実施形態は、以下の請求項の範囲内である。例えば、請求項に記載されているアクションは、異なる順序で実行されても、望ましい結果が得られ得る。一例として、添付の図に示されるプロセスでは、望ましい結果を得るために、必ずしも示される特定の順序、または連続した順序を必要としているわけではない。ある実装では、マルチタスクと並列処理が有利になり得る。

【図1】