特表2024-533636 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドの特許一覧

特表2024-533636畳み込みニューラルネットワーク演算

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-09-12

(54)【発明の名称】畳み込みニューラルネットワーク演算

(51)【国際特許分類】

G06F 17/16 20060101AFI20240905BHJP

G06F 17/10 20060101ALI20240905BHJP

【ＦＩ】

G06F17/16 Z

G06F17/10 A

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024518136

(86)(22)【出願日】2022-09-16

(85)【翻訳文提出日】2024-04-23

(86)【国際出願番号】 US2022043872

(87)【国際公開番号】W WO2023055586

(87)【国際公開日】2023-04-06

(31)【優先権主張番号】17/489,734

(32)【優先日】2021-09-29

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】591016172

【氏名又は名称】アドバンスト・マイクロ・ディバイシズ・インコーポレイテッド

【氏名又は名称原語表記】ＡＤＶＡＮＣＥＤＭＩＣＲＯＤＥＶＩＣＥＳＩＮＣＯＲＰＯＲＡＴＥＤ

(74)【代理人】

【識別番号】100108833

【弁理士】

【氏名又は名称】早川裕司

(74)【代理人】

【識別番号】100111615

【弁理士】

【氏名又は名称】佐野良太

(74)【代理人】

【識別番号】100162156

【弁理士】

【氏名又は名称】村雨圭介

(72)【発明者】

【氏名】ブライアンエンバーリン

(72)【発明者】

【氏名】マイケルマントル

(72)【発明者】

【氏名】マイケルワイ．チョウ

(72)【発明者】

【氏名】ビンホー

【テーマコード（参考）】

5B056

【Ｆターム（参考）】

5B056BB26

5B056BB42

(57)【要約】

単一命令複数データ（ＳＩＭＤ）ユニット上で演算を実行するための方法及びシステムが開示される。開示される技術は、１コンピュータサイクル中に入力データに対して内積演算を実行する。実行することは、入力データを畳み込み、中間データを生成することと、１つ以上の遷移演算を中間データに適用して、出力データを生成することと、を含む。説明される態様では、入力データは、畳み込みニューラルネットワークのレイヤへの入力であり、生成された出力データは、レイヤの出力である。
【選択図】図３

【特許請求の範囲】

【請求項1】

単一命令複数データ（ＳＩＭＤ）ユニット上で演算を実行するための方法であって、
ＳＩＭＤユニット上で実行されるウェーブのレーンが、入力データを前記レーンのベクトル汎用レジスタ（ＶＧＰＲ）にロードすることと、
前記レーンが、１コンピュータサイクル中に内積演算を実行し、出力データを生成することと、を含み、
前記出力データを生成することは、
前記入力データのデータ要素を畳み込み、中間データ要素を生成することと、
１つ以上の遷移演算を前記中間データ要素に適用して、前記出力データの出力データ要素を生成することと、を含む、
方法。

【請求項2】

前記レーンが、前記１コンピュータサイクル中に内積演算を実行することを含み、
前記内積演算を実行することは、
前記入力データの第２のデータ要素を畳み込み、第２の中間データ要素を生成することと、
前記１つ以上の遷移演算を前記第２の中間データ要素に適用して、前記出力データの第２の出力データ要素を生成することと、を含む、
請求項１の方法。

【請求項3】

前記１つ以上の遷移演算は、再フォーマット演算、整流演算又はクランプ演算のうち何れかである、
請求項１の方法。

【請求項4】

前記入力データは、畳み込みニューラルネットワークのレイヤへの入力であり、前記出力データは、前記レイヤの出力である、
請求項１の方法。

【請求項5】

前記入力データは、ピクセルと、前記ピクセルを中心とするピクセルブロックと、を含む画像のピクセルを含み、
前記畳み込みは、前記ピクセルブロックと重みのカーネルとの内積を含み、前記ピクセルブロック及び前記カーネルは、前記レーンのＶＧＰＲに記憶されている、
請求項１の方法。

【請求項6】

前記ピクセルブロックの第１の部分が前記レーンのＶＧＰＲに記憶されており、前記ピクセルブロックの第２の部分が前記ウェーブ内の別のレーンのＶＧＰＲに記憶されている場合に、前記レーンは、前記別のレーンのＶＧＰＲの前記第２の部分にアクセスする、
請求項５の方法。

【請求項7】

前記ピクセルブロックの第１の部分が前記レーンのＶＧＰＲに記憶されており、前記ピクセルブロックの第２の部分が前記レーンのＶＧＰＲに記憶されていない場合に、前記第２の部分のデータは、前記第１の部分のデータによって置き換えられる、
請求項５の方法。

【請求項8】

生成された出力データは、第２のウェーブのレーンによって生成された出力データに置き換えられる、
請求項７の方法。

【請求項9】

前記入力データは、画像のピクセルのチャネルデータであり、
前記畳み込みは、前記チャネルデータと重みのカーネルとの内積を含み、前記チャネルデータ及び前記カーネルは、前記レーンのＶＧＰＲに記憶されている、
請求項１の方法。

【請求項10】

単一命令複数データ（ＳＩＭＤ）ユニット上で演算を実行するための回路であって、
少なくとも１つのプロセッサと、
命令を記憶するメモリと、を備え、
前記命令は、前記少なくとも１つのプロセッサによって実行されると、
ＳＩＭＤユニット上で実行されるウェーブのレーンが、入力データを前記レーンのベクトル汎用レジスタ（ＶＧＰＲ）にロードすることと、
前記レーンが、１コンピュータサイクル中に内積演算を実行し、出力データを生成することと、
を前記回路に行わせ、
前記出力データを生成することは、
前記入力データのデータ要素を畳み込み、中間データ要素を生成することと、
１つ以上の遷移演算を前記中間データ要素に適用して、前記出力データの出力データ要素を生成することと、を含む、
回路。

【請求項11】

前記命令は、
前記レーンが、前記１コンピュータサイクル中に内積演算を実行することを前記回路に行わせ、
前記内積演算を実行することは、
前記入力データの第２のデータ要素を畳み込み、第２の中間データ要素を生成することと、
前記１つ以上の遷移演算を前記第２の中間データ要素に適用して、前記出力データの第２の出力データ要素を生成することと、を含む、
請求項１０の回路。

【請求項12】

前記１つ以上の遷移演算は、再フォーマット演算、整流演算又はクランプ演算のうち何れかである、
請求項１０の回路。

【請求項13】

前記入力データは、畳み込みニューラルネットワークのレイヤへの入力であり、前記出力データは、前記レイヤの出力である、
請求項１０の回路。

【請求項14】

前記入力データは、ピクセルと、前記ピクセルを中心とするピクセルブロックと、を含む画像のピクセルを含み、
前記畳み込みは、前記ピクセルブロックと重みのカーネルとの内積を含み、前記ピクセルブロック及び前記カーネルは、前記レーンのＶＧＰＲに記憶されている、
請求項１０の回路。

【請求項15】

前記ピクセルブロックの第１の部分が前記レーンのＶＧＰＲに記憶されており、前記ピクセルブロックの第２の部分が前記ウェーブ内の別のレーンのＶＧＰＲに記憶されている場合に、前記レーンは、前記別のレーンのＶＧＰＲの前記第２の部分にアクセスする、
請求項１４の回路。

【請求項16】

前記ピクセルブロックの第１の部分が前記レーンのＶＧＰＲに記憶されており、前記ピクセルブロックの第２の部分が前記レーンのＶＧＰＲに記憶されていない場合に、前記第２の部分のデータは、前記第１の部分のデータによって置き換えられる、
請求項１４の回路。

【請求項17】

生成された出力データは、第２のウェーブのレーンによって生成された出力データに置き換えられる、
請求項１６の回路。

【請求項18】

前記入力データは、画像のピクセルのチャネルデータであり、
前記畳み込みは、前記チャネルデータと重みのカーネルとの内積を含み、前記チャネルデータ及び前記カーネルは、前記レーンのＶＧＰＲに記憶されている、
請求項１０の回路。

【請求項19】

単一命令複数データ（ＳＩＭＤ）ユニット上で演算を実行するための方法を実行するために少なくとも１つのプロセッサによって実行可能な命令を含むコンピュータ可読記憶媒体であって、
前記方法は、
ＳＩＭＤユニット上で実行されるウェーブのレーンが、入力データを前記レーンのベクトル汎用レジスタ（ＶＧＰＲ）にロードすることと、
前記レーンが、１コンピュータサイクル中に内積演算を実行し、出力データを生成することと、を含み、
前記出力データを生成することは、
前記入力データのデータ要素を畳み込み、中間データ要素を生成することと、
１つ以上の遷移演算を前記中間データ要素に適用して、前記出力データの出力データ要素を生成することと、を含む、
コンピュータ可読記憶媒体。

【請求項20】

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照）
本願は、２０２１年９月２９日に出願された米国特許出願第１７／４８９，７３４号の利益を主張し、参照によって、本明細書に十分に記載されているように組み込まれる。

【背景技術】

【0002】

様々な計算タスクは、複数の段階（stages）における多次元データの処理を含む。例えば、畳み込みニューラルネットワーク（ＣＮＮ）は、典型的には、複数のレイヤのアーキテクチャで構成されている。各レイヤでは、入力画像に対する畳み込み演算等の計算演算（computational operation）がレイヤの入力に適用され得る。そのような場合、結果として生じる畳み込み画像（又は中間画像）は、レイヤの出力を生成するために、遷移演算（transitional operations）によって更に処理され得る。遷移演算は、次のレイヤによる処理のために中間画像を準備するために、中間画像を再フォーマットすること、整流すること、及び／又は、クランプする（clamping）ことを含み得る。しかしながら、これらの遷移演算は、計算演算自体（例えば、畳み込み）を実行するのにかかる時間に対してかなりの時間を消費する。マルチレイヤ処理アーキテクチャによって使用される遷移演算の実行効率を高めるための技術が必要とされる。

【0003】

添付の図面と共に例として与えられる以下の説明から、より詳細な理解を得ることができる。

【図面の簡単な説明】

【0004】

【図1A】本開示の１つ以上の特徴が実装され得ることに基づく、例示的なデバイスのブロック図である。

【図1B】本開示の１つ以上の特徴が実装され得ることに基づく、図１Ａのデバイスによって使用可能なアクセラレータを示す例示的なシステムのブロック図である。

【図2】本開示の１つ以上の特徴が実装され得ることに基づく、単一命令複数データ（ＳＩＭＤ）ユニットにおけるウェーブのレーンによって実行される例示的な内積演算（dot product operation）を示す図である。

【図3】本開示の１つ以上の特徴が実装され得ることに基づく、ＣＮＮの例示的なレイヤ処理を示す図である。

【図4】本開示の１つ以上の特徴が実装され得ることに基づく、畳み込み演算（図４）及び遷移演算（図５）を含む例示的な双対（デュアル）内積命令（dual dot product instruction）を示す図である。

【図5】本開示の１つ以上の特徴が実装され得ることに基づく、畳み込み演算（図４）及び遷移演算（図５）を含む例示的な双対内積命令を示す図である。

【図6】本開示の１つ以上の特徴が実装され得ることに基づく、ＳＩＭＤユニット内のウェーブのレーンによって実行される例示的な内積演算を示す図である。

【図7】本開示の１つ以上の特徴が実装され得ることに基づく、別の例示的な双対内積命令を示す図である。

【図8】本開示の１つ以上の特徴が実装され得ることに基づく、双対内積命令の適用のための例示的な方法のフローチャートである。

【発明を実施するための形態】

【0005】

遷移演算、例えば、ＣＮＮのレイヤの入力データに適用されＣＮＮのレイヤ出力を生成する畳み込み演算を含む内積演算を使用するシステム及び方法が、本願において開示される。本明細書で開示される内積命令は、双対出力データ（dual output data）、すなわち双対内積命令を生成するために、入力データの２つの要素に関して同時に実行され得る。双対内積命令は、１コンピュータサイクル中に実行可能であり、ＳＩＭＤユニットによって並列に実行されるウェーブ（waves）のレーンによって実行することができる。これらのレーンは、ベクトル汎用レジスタ（ＶＧＰＲ）を利用して、それぞれの内積命令の実行に必要なデータを記憶する。本明細書で開示されるように、各レーンは、内積命令を実行するために、別のレーンのＶＧＰＲに記憶されたデータにアクセスすることもできる。

【0006】

本明細書で開示する態様は、ＳＩＭＤユニット上で演算を実行するための方法について説明する。方法は、ＳＩＭＤユニット上で実行されるウェーブのレーンによって、入力データをレーンのＶＧＰＲにロードすることと、次いで、レーンによって、１コンピュータサイクル中に内積演算を実行し、出力データを生成することと、を含むことができる。実行される内積演算は、入力データのデータ要素を畳み込み、中間データ要素を生成することと、中間データ要素に１つ以上の遷移演算を適用して、出力データの出力データ要素を生成することと、を含むことができる。方法は、レーンによって、１コンピュータサイクル中に第２の内積演算を実行することを更に含むことができる。第２の内積演算は、入力データの第２のデータ要素を畳み込み、第２の中間データ要素を生成することと、１つ以上の遷移演算を第２の中間データ要素に適用して、出力データの第２の出力データ要素を生成することと、を含むことができる。

【0007】

また、本明細書で開示する態様は、ＳＩＭＤユニット上で演算を実行するための回路について説明する。回路は、少なくとも１つのプロセッサと、命令を記憶するメモリと、を備えることができる。命令は、少なくとも１つのプロセッサによって実行される場合に、回路に、ＳＩＭＤユニット上で実行するウェーブのレーンによって、入力データをレーンのＶＧＰＲにロードさせ、レーンによって、１コンピュータサイクル中に内積演算を実行させ、出力データを生成させることができる。実行される内積演算は、入力データのデータ要素を畳み込み、中間データ要素を生成することと、中間データ要素に１つ以上の遷移演算を適用して、出力データの出力データ要素を生成することと、を含むことができる。更に、命令は、回路に、レーンによって、１コンピュータサイクル中に第２の内積演算を実行させることができる。第２の内積演算は、入力データの第２のデータ要素を畳み込み、第２の中間データ要素を生成することと、１つ以上の遷移演算を第２の中間データ要素に適用して、出力データの第２の出力データ要素を生成することと、を含むことができる。

【0008】

更に、本明細書で開示する態様は、ＳＩＭＤユニット上で演算を実行するための方法を実行するために少なくとも１つのプロセッサによって実行可能な命令を備える非一時的なコンピュータ可読記憶媒体について説明する。方法は、ＳＩＭＤユニット上で実行されるウェーブのレーンによって、入力データをレーンのＶＧＰＲにロードすることと、レーンによって、１コンピュータサイクル中に内積演算を実行し、出力データを生成することと、を含むことができる。実行される内積演算は、入力データのデータ要素を畳み込み、中間データ要素を生成することと、中間データ要素に１つ以上の遷移演算を適用して、出力データの出力データ要素を生成することと、を含むことができる。方法は、レーンによって、１コンピュータサイクル中に第２の内積演算を実行することを更に含むことができる。第２の内積演算は、入力データの第２のデータ要素を畳み込み、第２の中間データ要素を生成することと、１つ以上の遷移演算を第２の中間データ要素に適用して、出力データの第２の出力データ要素を生成することと、を含むことができる。

【0009】

図１Ａは、本開示の１つ以上の特徴が実装され得ることに基づく、例示的なデバイス１００Ａのブロック図である。機器１００Ａは、例えば、コンピュータ、ゲームデバイス、ハンドヘルドデバイス、セットトップボックス、テレビ、携帯電話、又は、タブレットコンピュータであり得る。デバイス１００Ａは、プロセッサ１０２と、加速処理ユニット（ＡＰＵ）１１６と、メモリ１０４と、ストレージ１０６と、１つ以上の入力デバイス１０８と、１つ以上の出力デバイス１１０と、を含む。また、デバイス１００Ａは、入力ドライバ１１２及び出力ドライバ１１４を含むことができる。一態様では、デバイス１００Ａは、図１に示されていない追加の構成要素を含むことができる。

【0010】

プロセッサ１０２は、中央処理装置（ＣＰＵ）又はＣＰＵの１つ以上のコアを含むことができる。グラフィックス処理装置（ＧＰＵ）を表すＡＰＵ１１６は、ＡＰＵの１つ以上のコアを含むことができる。プロセッサ１０２及びＡＰＵ１１６は、同じダイ上又は別のダイ上に位置してもよい。メモリ１０４は、プロセッサ１０２と同じダイ上に位置してもよいが、プロセッサ１０２とは別に位置し得る。メモリ１０４は、揮発性又は不揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックＲＡＭ、キャッシュ、又は、それらの組み合わせ）を含むことができる。

【0011】

ストレージ１０６は、固定又はリムーバブルストレージ（例えば、ハードディスクドライブ、ソリッドステートドライブ、光ディスク、フラッシュドライブ）を含むことができる。入力デバイス１０８は、例えば、キーボード、キーパッド、タッチスクリーン、タッチパッド、検出器、マイクロフォン、加速度計、ジャイロスコープ、バイオメトリックスキャナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号を受信するための無線ローカルエリアネットワークカード）を含むことができる。出力デバイス１１０は、例えば、ディスプレイ、スピーカ、プリンタ、触覚フィードバックデバイス、１つ以上のライト、アンテナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号を送信するための無線ローカルエリアネットワークカード）を含むことができる。

【0012】

入力ドライバ１１２は、プロセッサ１０２及び入力デバイス１０８と通信し、入力デバイス１０８からプロセッサ１０２への入力の受信を容易にする。出力ドライバ１１４は、プロセッサ１０２及び出力デバイス１１０と通信し、プロセッサ１０２から出力デバイス１１０への出力の送信を容易にする。一態様では、入力ドライバ１１２及び出力ドライバ１１４はオプションの構成要素であり、デバイス１００Ａは、入力ドライバ１１２及び出力ドライバ１１４が存在しない場合に同じように動作することができる。

【0013】

ＡＰＵ１１６は、プロセッサ１０２から計算コマンド及びグラフィックスレンダリングコマンドを受け取り、それらの計算コマンド及びグラフィックスレンダリングコマンドを処理し、及び／又は、ディスプレイ（出力デバイス１１０）に出力を提供するように構成することができる。以下で更に詳細に説明するように、ＡＰＵ１１６は、例えばＳＩＭＤパラダイムに従って計算を実行するように構成された１つ以上の並列処理ユニットを含むことができる。したがって、本明細書では、様々な機能がＡＰＵ１１６によって又はＡＰＵ１１６と併せて実行されるものとして説明されているが、様々な代替例では、ＡＰＵ１１６によって実行されるものとして説明される機能は、ホストプロセッサ（例えば、プロセッサ１０２）によって駆動されず、例えばディスプレイにグラフィック出力を提供するように構成することができる同様の能力を有する他のコンピューティングデバイスによって、追加的又は代替的に実行することができる。処理システムがＳＩＭＤパラダイムに従って処理タスクを実行することができるか否かにかかわらず、処理システムは、本明細書で説明される機能を実行するように構成され得る。

【0014】

図１Ｂは、本開示の１つ以上の特徴が実装され得ることに基づく、図１Ａのデバイスによって使用可能な例示的なシステム１００Ｂのブロック図である。図１Ｂは、ＡＰＵ１１６上での処理タスクの実行を更に詳細に示す。プロセッサ１０２は、プロセッサ１０２による実行のための１つ以上のモジュールをメモリ１０４内に維持することができる。モジュールは、オペレーティングシステム１２０、カーネルモードドライバ１２２及びアプリケーション１２６を含む。これらのモジュールは、プロセッサ１０２及びＡＰＵ１１６の演算の様々な特徴を制御することができる。例えば、オペレーティングシステム１２０は、システムコール、すなわち、アプリケーションプログラミングインターフェース（ＡＰＩ）を提供することができ、これは、アプリケーション１２６によって使用され、ハードウェアと直接インターフェースすることができる。カーネルモードドライバ１２２は、例えば、ＡＰＵ１１６の様々な機能にアクセスするためにプロセッサ１０２上で実行されるアプリケーション１２６にＡＰＩを提供することによってＡＰＵ１１６の演算を制御することができる。また、カーネルモードドライバ１２２は、ＡＰＵ１１６の構成要素（以下で更に詳細に説明するＳＩＭＤユニット１３８等）を処理することによって実行するためのプログラムをコンパイルするジャストインタイムコンパイラを含むことができる。

【0015】

ＡＰＵ１１６は、並列処理又は逐次処理の何れか、及び、順序処理又は非順序処理の何れかを含む、グラフィックス演算及び非グラフィックス演算のためのコマンド及びプログラムを実行することができる。ＡＰＵ１１６は、プロセッサ１０２から受信したコマンドに基づいて、ピクセル及び／又は幾何学的計算（例えば、ディスプレイ（出力デバイス１１０）に画像をレンダリングする）を処理する演算等のグラフィックスパイプライン演算を実行するために使用することができる。また、ＡＰＵ１１６は、プロセッサ１０２から受信したコマンドに基づいて、ビデオ、物理シミュレーション、計算流体力学又は他のタスクに関連する演算等のように、グラフィックス演算に関連しない処理演算を実行することができる。

【0016】

ＡＰＵ１１６は、ワークグループプロセッサ（ＷＧＰ）１３２．１～１３２．Ｍを含むことができ、各ＷＧＰ、例えば１３２．１は、ＳＩＭＤパラダイムに従って並列にプロセッサ１０２の要求に応じて演算を実行することができる１つ以上のＳＩＭＤユニット、例えば１３８．１．１～１３８．１．Ｎを有することができる。ＳＩＭＤパラダイムは、複数の処理要素が単一のプログラム制御フローユニット及びプログラムカウンタを共有し、したがって、同じプログラムを異なるデータで実行することができる。一例では、各ＳＩＭＤユニット、例えば１３８．１．１は、６４個のレーン（すなわち、スレッド）を含むことができ、各レーンは、ＳＩＭＤユニット内の他のレーンと同時に同じ命令を実行するが、異なるデータに対してその命令を実行する。レーンは、全てのレーンが所定の命令を実行する必要がない場合、予測でオフに切り替えることができる。また、予測は、分岐制御フローを有するプログラムを実行するために使用することができる。具体的には、制御フローが個々のレーンによって行われる計算に基づいている条件付き枝又は他の命令を有するプログラムについては、現在実行されていない制御フローパスに対応するレーンの予測及び異なる制御フローパスのシリアル実行が、任意の制御フローを可能にする。一態様では、ＷＧＰ１３２．１～１３２．Ｍの各々は、ローカルキャッシュを有することができる。別の態様では、複数のＷＧＰがキャッシュを共有することができる。

【0017】

ＷＧＰ（例えば１３２．１）における実行の基本単位は、ワークアイテムである。典型的には、各ワークアイテムは、特定のレーンにおいて並列に実行することができるプログラムの単一のインスタンス化を表す。ワークアイテムは、単一のＳＩＭＤ、例えば１３８．１．１上で「ウェーブフロント（wavefront）」（又は「ウェーブ」）として同時に実行することができる。１つ以上のウェーブをワークグループ内で実行することができ、各ウェーブは、同じプログラムを実行するように指定されたワークアイテムの集合を含む。ワークグループは、ワークグループを構成するウェーブの各々を実行することによって、実行される。また、ウェーブは、単一のＳＩＭＤユニット上で逐次実行されてもよいし、異なるＳＩＭＤユニット１３８．１～１３８．Ｎ上で部分的に若しくは完全に並列に実行されてもよい。したがって、ウェーブは、単一のＳＩＭＤユニット（例えば１３８．１．１）上で同時に実行され得るワークアイテムの集合と考えることができる。したがって、プロセッサ１０２から受信したコマンドが、単一のＳＩＭＤユニット上でプログラムを同時に実行することができない程度に特定のプログラムを並列化すべきであることを示す場合、そのプログラムは、必要に応じて、２つ以上のＳＩＭＤユニット（例えば、１３８．１．１～１３８．１．Ｎ）上で並列化、同じＳＩＭＤユニット（例えば、１３８．１．１）上で直列化、又は、並列化と直列化の両方が可能なウェーブに分けることができる。スケジューラ１３６は、異なるＷＧＰ１３２．１～１３２．Ｍ及びそれらのそれぞれのＳＩＭＤユニット上で様々なウェーブをスケジューリングすることに関連する演算を実行するように構成され得る。

【0018】

ＷＧＰ１３２．１～１３２．Ｍによって与えられる並列性は、例えば、ピクセル値に対する演算（例えば、フィルタ演算）、幾何学的データに対する演算（例えば、頂点変換）、及び、他のグラフィックス関連演算等のグラフィックス関連演算に適している。例えば、プロセッサ１０２上で実行されるアプリケーション１２６は、ＡＰＵ１１６によって実行される計算を含むことができる。アプリケーション１２６は、カーネルモードドライバ１２２によって提供されるＡＰＩを使用して、処理コマンドをＡＰＵ１１６に発行することができる。次に、処理コマンドは、スケジューラ１３６に提供される。スケジューラ１３６は、処理コマンドを、並列実行のためにＷＧＰ１３２．１～１３２．Ｍに割り当てられる計算タスクに変換する。

【0019】

図２は、本開示の１つ以上の特徴が実装され得ることに基づく、ＳＩＭＤユニット内のウェーブのレーンによって実行される例示的な内積演算２００を示している。ウェーブ２１０の２つのレーン２２０．１～２２０．２の演算が図２に示されている。レーンは、６４個のＶＧＰＲ２３０にアクセスすることができ、各レジスタは、例えば４バイトを保持することができる。典型的には、レーンのＶＧＰＲの一部（例えば、２３０．１～２３０．３）は、演算が実行される入力データを記憶するためにレーンによって使用されてもよく、他のレジスタ（例えば、２３０．６３）は、演算の結果を記憶するためにレーンによって使用され得る。ウェーブのレーンのＶＧＰＲ２３０に記憶されるデータは、レーンによって並列演算が実行される任意の多次元データであってもよい。例えば、レーン２２０．１のＶＧＰＲ２３０．２は、画像の４つの隣接ピクセルを保持することができ、各ピクセル値はバイトによって表される。別の例では、レーン２２０．１のＶＧＰＲ２３０．２は、ピクセルの４つの成分を保持することができ、各成分は、画像のチャネル（例えば、ＲＧＢ（赤、青、緑）カラーモデルの３つのチャネル及び透明チャネル）に対応し、各成分値はバイトによって表される。前者の例では、レーン１２２０．１の連続するＶＧＰＲ２３０．１～２３０．３は、画像の４×３ピクセルブロックを保持することができる。画像内の次の４×３ピクセルブロックは、レーン２２２０．２のＶＧＰＲ２３０．１～２３０．３によって保持することができる。

【0020】

一態様では、レーンを使用して、画像に対して畳み込み演算を実行することができる。畳み込み演算は、画像のピクセルブロックに重みのカーネルを乗算することを含む。例えば、画像は、３×３カーネル２４０で畳み込まれてもよく、すなわち、各ピクセルに対して、内積が、カーネルの要素と、画像内のピクセルの位置を中心とする３×３ピクセルブロックと、の間に適用される。したがって、レーン１２２０．１が画像ＩのピクセルＩ（ｘ，ｙ）２５０に対して畳み込み演算を実行する場合、まず、レーン２２０．１は、カーネル２４０と、ピクセル２５０を中心とする３×３ピクセルブロックと、にアクセスしなければならない。これらのデータは、（典型的にはそれぞれのＷＧＰ１３２によって）レーンのＶＧＰＲにロードされ、演算中の高速アクセスを可能にすることができる。例えば、上述したように、４×３×３ピクセルの画像領域は、レーン１のＶＧＰＲ２３０．１～２３０．３に記憶され得る。例えば、ピクセルＩ（ｘ，ｙ）２５０を畳み込むために、以下の内積演算を使用して、ピクセル２５０を中心とする３×３ピクセルブロック２６０にカーネルｗ２４０が乗算される。

【0021】

【数1】

内積の結果Ｉ’（ｘ，ｙ）は、次いで、出力（畳み込み）画像ピクセルを記憶するために使用されるレーン１のＶＧＰＲに記憶され得る。例えば、ＶＧＰＲ２３０．６３は、図２に示すように、その第２のバイト２７０にＩ’（ｘ，ｙ）を記憶するために使用することができる。同様に、レーン１のＶＧＰＲ２３０．２内の他のピクセルは、カーネル２４０を用いて畳み込まれ得る。例えば、ピクセルＩ（ｘ，ｙ）２５０の右側のピクセル、すなわち、ＶＧＰＲ２３０．２の第３のバイトに記憶されるピクセルは、畳み込まれ、ＶＧＰＲ２３０．６３の第３のバイトに記憶される、結果として生じる内積を有し得る。

【0022】

図３は、本開示の１つ以上の特徴が実装され得ることに基づく、ＣＮＮの例示的なレイヤ処理を示している。概して、レイヤ３２０の入力は、３次元（３Ｄ）ボリューム又は２次元（２Ｄ）行列等のような、整数又は浮動小数点数の多次元配列であり得る。図３に示されるように、レイヤ３２０の入力３１０は、画像の各ピクセルが８ビット整数であり得る２Ｄ画像の１つのチャネルである。レイヤ３２０の出力３８０は、同じサイズ又は異なるサイズであり得る別の２Ｄ画像である。レイヤ３２０の入力に典型的に適用される演算子は、畳み込み演算子３４０と、再フォーマット演算子３５０、整流演算子３６０及びクランプ演算子３７０等の遷移演算子と、を含む。したがって、入力画像３１０の各ピクセル３１５について、畳み込み演算子は、ピクセル３１５の中心にあるピクセルブロック３１６とカーネル３３０との間に内積を適用し、対応する畳み込みピクセルをもたらす。このような内積は、図２を参照して説明したように、レーンによって実行することができる。画像３１０の畳み込みピクセルの各々に対して遷移演算が実行され、出力画像３８０（ＣＮＮの次のレイヤに供給される）が以下のように生成される。各ピクセル、例えば３１５は、畳み込み３４０された後、再フォーマット３５０され得る。例えば、畳み込まれたピクセルは、２^－１４によって乗算され、これを最小の表現可能な浮動小数点（ＦＰ１６）にスケーリングし、バイアス（ＦＰ１６値）をこれに加えることができる。また、再フォーマットされたピクセルは、整流され得る（３６０）。例えば、整流線形ユニット（ＲｅＬＵ）を使用することができ、整流器への入力が負である場合、出力は０に設定され、そうでない場合、出力は入力と同じである。別の例では、漏洩整流線形ユニット（ＬＲｅＬＵ）を使用することができ、整流器への入力が負である場合、出力は４で除算され、そうでない場合、出力は入力と同じである。次に、整流されたピクセルをクランプして（３７０）、その値をある範囲内、例えば８ビット符号付き整数の－１２７～１２８の範囲内に設定することができる。クランプされたピクセルは出力ピクセル３８５となる。

【0023】

上述したように、畳み込み演算３４０の出力を、ＣＮＮの次のレイヤによる処理の準備ができている出力３８０に変換する遷移演算（再フォーマット３５０、整流３６０及びクランプ３７０）は、畳み込み３４０を実行するのにかかる時間を超えない場合に匹敵するかなりの計算時間を消費する。本明細書では、畳み込み演算及び遷移演算を１コンピュータサイクルで実行するように設計された命令が開示される。図４及び図５は、共に、以下に詳細に説明するように、１コンピュータサイクルにおいて画像の２つのピクセルに対して畳み込み演算（図４）及び遷移演算（図５）を実行するように設計された命令、すなわち双対内積命令を示している。

【0024】

図４及び図５は、本開示の１つ以上の特徴が実装され得ることに基づく、畳み込み演算（図４）及び遷移演算（図５）を含む、例示的な双対内積命令を示している。図４は、ＶＧＰＲ４５０の第２及び第３のバイトに記憶された２つの隣接ピクセル、すなわちピクセルＩ_２２及びピクセルＩ_２３に対して動作する双対内積命令を示している（図４において丸で囲まれている）。ピクセルＩ_２２及びＩ_２３の畳み込みを容易にするために、ＶＧＰＲ４４０、４５０、４６０に記憶されるデータは、２つの３×３ピクセルブロックを含む。第１のピクセルブロック（ピクセル｛Ｉ_１１、Ｉ_１２、Ｉ_１３、Ｉ_２１、Ｉ_２２、Ｉ_２３、Ｉ_３１、Ｉ_３２、Ｉ_３３｝を含む）は、ピクセルＩ_２２の畳み込みに使用される。第２のピクセルブロック（ピクセル｛Ｉ_１２、Ｉ_１３、Ｉ_１４、Ｉ_２２、Ｉ_２３、Ｉ_２４、Ｉ_３２、Ｉ_３３、Ｉ_３４｝を含む）は、ピクセルＩ_２３の畳み込みに使用される。３つの内積ユニット４１５、４２５、４３５は、それぞれ、第１のピクセルブロックの第１、第２及び第３のラインに対して内積演算を実行するために使用される。これらの内積の和は、ピクセルＩ_２２の畳み込み結果４８０を構成する。同様に、３つの内積ユニット４１０、４２０、４３０は、それぞれ、第２のピクセルブロックの第１、第２及び第３のラインに対して内積演算を実行するために使用される。これらの内積の和は、ピクセルＩ_２３の畳み込み結果４７０を構成する。内積ユニット４１０、４１５、４２０、４２５、４３０、４３５は、３×３カーネルの重み｛ｗ１１、ｗ１２、ｗ１３、ｗ２１、ｗ２２、ｗ２３、ｗ３１、ｗ３２、ｗ３３｝を使用することに留意されたい。例えば、内積ユニット４１０出力は、ｗ１１・Ｉ_１２＋ｗ１２・Ｉ_１３＋ｗ１３・Ｉ_１４である。

【0025】

図５に示すように、ピクセルＩ_２２の畳み込み結果４８０及びピクセルＩ_２３の畳み込み結果４７０に対して、遷移演算が更に適用される。図５において、ピクセルＩ_２２の畳み込み結果５１０及びピクセルＩ_２３の畳み込み結果５４０は、再フォーマット（５１５、５４５）され、整流（５２０、５５０）され、クランプ（５３０、５６０）され得る。例えば、ピクセルＩ_２２の畳み込み値５１０は、浮動小数点フォーマットに再フォーマットすることができる。すなわち、Ｉ_２２の整数値は、１４ビットの小数を可能にするために、１４ビットだけ右シフトされ得る。バイアス値５０５（例えば、浮動小数点数）は、再フォーマットされたＩ_２２の小数ビットに整列され、それに加えられ得る。バイアス値は、一定値又はそれぞれのレーンのＶＧＰＲに記憶された値の何れかであり得る。同様に、ピクセルＩ_２３５４０の畳み込み値を再フォーマットすることができ、バイアス値５３５をそれに加えてもよい。次いで、再フォーマットされた値は、シフト演算子５２２、５５２及びＲｅＬＵ（又はＬＲｅＬＵ）演算子５２５、５５５を適用することによって、整流され得る（５２０、５５０）。次に、整流された値をクランプすることができ（５３０、５６０）、その結果、宛先ＶＧＰＲ５７０に記憶される出力ピクセル５８０、５９０が得られる。

【0026】

図６は、本開示の１つ以上の特徴が実装され得ることに基づく、ＳＩＭＤユニットにおけるウェーブのレーンによって実行される例示的な内積演算を示している。図６は、境界に位置するピクセル（例えば、図４のピクセルＩ_２１又はＩ_２４）の畳み込み演算を示している。概して、画像を処理するために必要とされるウェーブの数は、ウェーブのサイズによって除算された画像において処理されるピクセルの数である。ウェーブのサイズは、レーンの数（例えば、６４）×各レーンが処理のために割り当てられるピクセルの数（例えば、４ピクセル）である。２つのウェーブが図６に示されている。各ウェーブは、画像ラインのセグメントの処理に割り当てられる。例えば、ウェーブ－１６１０は、２５６ピクセルの第１のセグメントを処理し、ウェーブ－２６５０は、２５６ピクセルの第２のセグメントを処理する。ウェーブの各レーン（すなわち、ウェーブ－１６１０の図示されたレーン６２０．１～６２０．６４及びウェーブ－２６５０のレーン－１６６０．１）は、画像ラインの４つのピクセルを処理する。例えば、レーン１６２０．１は、画像ライン６３０．２のピクセル１～４の処理に割り当てられ、レーン２６２０．２は、画像ライン６３０．２のピクセル５～８の処理に割り当てられる。

【0027】

例えば図２に関して説明したように、ピクセルを畳み込むために、レーンは、ピクセルを中心とするピクセルブロックへのアクセスを必要とする。したがって、レーンは、そのＶＧＰＲに、（画像ライン６３０．２内の）畳み込みを計算しなければならない４つのピクセルだけでなく、（画像ライン６３０．１内の）上の４つのピクセル及び（画像ライン６３０．３内の）下の４つのピクセルも記憶している。しかしながら、境界ピクセルを畳み込むためにレーンによって必要とされるピクセルブロックは、それぞれのレーンによって記憶されないピクセルを含む。例えば、ライン６３０．２のピクセル４を畳み込むために、レーン１６２０．１は、画像ライン６３０．１、６３０．２及び６３０．３のピクセル５へのアクセスを必要とする。一態様では、レーン（レーン１６２０．１等）は、ウェーブ内の別のレーンのＶＧＰＲ（ウェーブ１６１０のレーン２６２０．２のＶＧＰＲ等）に記憶されたピクセルデータにアクセスすることができる。

【0028】

同様に、ライン６３０．２のピクセル２５６を畳み込むために、レーン６４６２０．６４は、画像ライン６３０．１、６３０．２及び６３０．３のピクセル２５７へのアクセスを必要とする。しかしながら、ピクセル２５６は、ウェーブ１６１０に割り当てられた画像セグメントの終わりにあるので、これらのピクセルは、レーン６４にアクセスできない。したがって、一態様では、ピクセルブロック６４５の欠けている右列をメモリからロードする（すなわち、画像ライン６３０．１、６３０．２及び６３０．３のピクセル２５７をロードする）代わりに、レーン６４６２０．６４は、（図６中の矢印６４６によって示されるように）画像ライン６３０．１、６３０．２及び６３０．３のピクセル２５６をピクセルブロック６４５の右列にパディングすることができる。このパディングは、メモリからレーン６４のＶＧＰＲにデータをロードする必要性を省くが、画像ライン６３０．２のピクセル２５６等の境界ピクセルの畳み込み結果を汚染する。１つの解決策は、２つの隣接するウェーブに割り当てられた第１のセグメントと第２のセグメントとの間に２ピクセルのオーバーラップを維持することである。例えば、図６に示すように、ウェーブ－１のレーン－６４のピクセル２５５及び２５６もロードされ、ウェーブ－２のレーン－１によって処理される。（図６の矢印６８６によって示されるように）画像ライン６７０．２内のピクセル２５５の畳み込みを計算するのに必要なピクセルブロック６８０を完成させるためにパディングも実行される場合、このピクセルの畳み込み結果も汚染される。しかしながら、ライン６３０．２のピクセル２５５及びライン６７０．２のピクセル２５６は、それらのそれぞれのレーン６４６２０．６４及びレーン１６６０．１における境界ピクセルではなく、したがって、それらのそれぞれの畳み込み結果は有効であることに留意されたい。一態様では、レーン１及びレーン６４は畳み込み結果を切り替えることができる。すなわち、レーン６４は、（ライン６３０．２の）２５６に対する汚染された畳み込み結果を、レーン１によって計算された（ライン６３０．２の）２５６に対する有効な結果で置き換えることができ（６９５）、レーン１は、（ライン６７０．２の）２５５に対する汚染された畳み込み結果を、レーン６４によって計算された（ライン６７０．２の）２５５に対する有効な結果で置き換えることができる（６９０）。

【0029】

図７は、本開示の１つ以上の特徴が実装され得ることに基づく、別の例示的な双対内積命令を示している。また、図７に示す双対内積命令は、図５に示すような遷移演算を含む。一態様では、図７に示される命令は、２行４列のデータ行列に内積を実行するために適用され得る。例えば、この命令は、画像のチャネルにわたる畳み込み（すなわち、ポイントワイズ畳み込み）に適用され得る。図７は、８つのチャネルを有する画像に対して双対畳み込みを実行することを示す。したがって、第１のピクセルのチャネルは、１（１）、１（２）、１（３）及び１（４）で示される第１のＶＧＰＲ７１５と、１（５）、１（６）、１（７）及び１（８）で示される第２のＶＧＰＲ７２５と、に記憶される。第２のピクセルのチャネルは、２（１）、２（２）、２（３）及び２（４）で示される第１のＶＧＰＲ７３５と、２（５）、２（６）、２（７）及び２（８）で示される第２のＶＧＰＲ７４５と、に記憶される。４つの内積ユニット７１０、７２０、７３０、７４０は、双対内積演算を実行するために使用される。２つのユニット７１０、７２０は、第１のピクセルとカーネルとの内積、すなわち、ｗ１・１（１）、ｗ２・１（２）、ｗ３・１（３）、ｗ４・１（４）、ｗ５・１（５）、ｗ６・１（６）、ｗ７・１（７）及びｗ８・１（８）の和を実行する。この内積は、遷移演算子（図５に示される、例えば、再フォーマット演算子５１５、整流演算子５２０及びクランプ演算子５３０）に供給され得る、第１のピクセル７５０の畳み込み結果を構成し、その結果は、レーンのＶＧＰＲのうち何れか、例えば５８０に記憶され得る。２つのユニット７３０、７４０は、第２のピクセルとカーネルとの内積、すなわち、ｗ１・２（１）、ｗ２・２（２）、ｗ３・２（３）、ｗ４・２（４）、ｗ５・２（５）、ｗ６・２（６）、ｗ７・２（７）及びｗ８・２（８）の和を実行する。この内積は、遷移演算子（図５に示される、例えば、再フォーマット演算子５４５、整流演算子５５０及びクランプ演算子５６０）に供給され得る、第２のピクセル７６０の畳み込み結果を構成し、その結果は、レーンのＶＧＰＲのうち何れか、例えば５９０に記憶され得る。

【0030】

一態様では、第１の段階において、図４の双対内積命令を使用して、画像の各チャネル内のピクセルに畳み込みを適用し（すなわち、深さ方向畳み込み）、各チャネルの出力画像をもたらすことができる。次いで、第２の段階では、図７の双対内積命令を使用して、チャネルにわたって畳み込み（すなわち、ポイントワイズ畳み込み）を適用し、第１の段階によって生成された出力を入力として受信することができる。

【0031】

図８は、本開示の１つ以上の特徴が実装され得ることに基づく、双対内積命令の適用のための例示的な方法８００のフローチャートである。ＳＩＭＤユニット上で実行されるウェーブのレーンによって使用される方法８００は、ステップ８１０において、入力データをレーンのＶＧＰＲにロードすることから始まる。次に、ステップ８２０において、１コンピュータサイクル中に内積演算を実行することができる。内積演算は、入力データのデータ要素を畳み込み、次に畳み込まれたデータ要素に遷移演算を適用することを含む。第２の内積演算は、ステップ８３０において１コンピュータサイクル中に実行することができる。第２の内積演算は、入力データの第２のデータ要素を畳み込み、次いで、畳み込まれた第２のデータ要素に遷移演算を適用することを含むことができる。ステップ８２０及びステップ８３０の内積演算は、図４～図７を参照して説明したように、双対積命令（deal product instructions）を適用することによって実行することができる。

【0032】

本明細書の開示に基づいて、多くの変形が可能であることを理解されたい。特徴及び要素が特定の組み合わせで上述されているが、各特徴又は要素は、他の特徴及び要素を用いずに単独で、又は、他の特徴及び要素を用いて若しくは用いずに様々な組み合わせで使用することができる。

【0033】

提供される方法は、汎用コンピュータ、プロセッサ又はプロセッサコアにおいて実装することができる。好適なプロセッサとしては、例として、汎用プロセッサ、専用プロセッサ、従来のプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアに関連する１つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）回路、任意の他のタイプの集積回路（ＩＣ）、及び／又は、ステートマシンが挙げられる。そのようなプロセッサは、処理されたハードウェア記述言語（hardware description language、ＨＤＬ）命令及びネットリストを含む他の中間データ（コンピュータ可読媒体に記憶させることが可能な命令）の結果を使用して製造プロセスを構成することによって製造することができる。そのような処理の結果はマスクワークとすることができ、このマスクワークをその後の半導体製造プロセスにおいて使用して、実施形態の態様を実施するプロセッサを製造する。

【0034】

本明細書に提供される方法又はフローチャートは、汎用コンピュータ又はプロセッサによる実行のために非一時的なコンピュータ可読記憶媒体に組み込まれるコンピュータプログラム、ソフトウェア又はファームウェアにおいて実施することができる。非一時的なコンピュータ可読記憶媒体の例としては、読み取り専用メモリ（read only memory、ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体メモリデバイス、内蔵ハードディスク及びリムーバブルディスク等の磁気媒体、磁気光学媒体、並びに、ＣＤ－ＲＯＭディスク及びデジタル多用途ディスク（digital versatile disk、ＤＶＤ）等の光学媒体が挙げられる。

【図1A】