特表2024-523782 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2024-523782単一の起動において複数の動作を実行するためのリカレントニューラルネットワークセル活性化

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2A
2B
2C
2D
3A
3B
3C
4A
4B
5A
5B
6A
6B
6C
6D
6E
6F
6G
7
8A-8C
9
10A
10B
11A
11B
11C
12A
12B
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-07-02

(54)【発明の名称】単一の起動において複数の動作を実行するためのリカレントニューラルネットワークセル活性化

(51)【国際特許分類】

G06F 9/30 20180101AFI20240625BHJP

G06N 3/063 20230101ALI20240625BHJP

G06N 3/044 20230101ALI20240625BHJP

【ＦＩ】

G06F9/30 350A

G06N3/063

G06N3/044

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023571386

(86)(22)【出願日】2022-06-13

(85)【翻訳文提出日】2023-11-16

(86)【国際出願番号】 EP2022066055

(87)【国際公開番号】W WO2022263385

(87)【国際公開日】2022-12-22

(31)【優先権主張番号】17/350,747

(32)【優先日】2021-06-17

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(74)【代理人】

【識別番号】100120710

【弁理士】

【氏名又は名称】片岡忠彦

(74)【復代理人】

【識別番号】110000877

【氏名又は名称】弁理士法人ＲＹＵＫＡ国際特許事務所

(72)【発明者】

【氏名】リヒテナウ、セドリック

(72)【発明者】

【氏名】ブラッドベリ、ジョナサン

(72)【発明者】

【氏名】アルバラカット、ライス

(72)【発明者】

【氏名】ワイスハウプト、サイモン

【テーマコード（参考）】

5B033

【Ｆターム（参考）】

5B033AA03

5B033BE00

(57)【要約】

リカレントニューラルネットワークセル活性化を実行する命令が実行される。実行することは、リカレントニューラルネットワークセル活性化の複数の演算を実行して、リカレントニューラルネットワークセル活性化の結果を提供することを含む。複数の演算は、命令の単一の起動において実行される。リカレントニューラルネットワークセル活性化は、例えば、長短期記憶セル活性化又はゲート付きリカレントユニットセル活性化である。

【特許請求の範囲】

【請求項1】

コンピューティング環境内の処理を容易にするためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は：
１つ又は複数のコンピュータ可読記憶媒体、及び方法を実行するために前記１つ又は複数のコンピュータ可読記憶媒体上に集合的に記憶されたプログラム命令
を備え、前記方法は：
リカレントニューラルネットワークセル活性化を実行する命令を実行する段階
を有し、前記実行する段階は：
前記リカレントニューラルネットワークセル活性化の複数の演算を実行して、前記リカレントニューラルネットワークセル活性化の結果を提供する段階
を含み、前記複数の演算は、前記命令の単一の起動において実行される、コンピュータプログラム製品。

【請求項2】

前記複数の演算は、１つ又は複数のシグモイド関数及び１つ又は複数の正接関数を含む、直前の請求項に記載のコンピュータプログラム製品。

【請求項3】

前記複数の演算は、テンソル要素単位加算及びテンソル要素単位乗算演算を含む、前述の請求項のいずれか１項に記載のコンピュータプログラム製品。

【請求項4】

前記複数の演算は、１つ又は複数のシグモイド関数、１つ又は複数の正接関数、１つ又は複数のテンソル要素単位加算演算及び１つ又は複数のテンソル要素単位乗算演算を含む、前述の請求項のいずれか１項に記載のコンピュータプログラム製品。

【請求項5】

前記命令への１つ又は複数の入力は、１つ又は複数の連結テンソルを含む、前述の請求項のいずれか１項に記載のコンピュータプログラム製品。

【請求項6】

前記結果は、出力テンソルであり、前記出力テンソルは、前記命令の別の起動への入力である、前述の請求項のいずれか１項に記載のコンピュータプログラム製品。

【請求項7】

前記リカレントニューラルネットワークセル活性化は、長短期記憶セル活性化を含む、前述の請求項のいずれか１項に記載のコンピュータプログラム製品。

【請求項8】

前記リカレントニューラルネットワークセル活性化は、ゲート付きリカレントユニットセル活性化を含む、前述の請求項のいずれか１項に記載のコンピュータプログラム製品。

【請求項9】

前記リカレントニューラルネットワークセル活性化の前記複数の演算を実行する段階は、アクセラレータによって実行され、中間計算データを生成し、前記方法は、前記アクセラレータに前記中間計算データを記憶する段階を更に有する、前述の請求項のいずれか１項に記載のコンピュータプログラム製品。

【請求項10】

前記複数の演算を実行する段階は、空間的に近い入力データに対して前記複数の演算を実行する段階を含む、前述の請求項のいずれか１項に記載のコンピュータプログラム製品。

【請求項11】

コンピューティング環境内の処理を容易にするためのコンピュータシステムであって、前記コンピュータシステムは：
メモリ；及び
前記メモリと通信する少なくとも１つのプロセッサ
を備え、ここで、前記コンピュータシステムは、方法を実行するように構成されており、前記方法は：
リカレントニューラルネットワークセル活性化を実行する命令を実行する段階
を有し、前記実行する段階は：
前記リカレントニューラルネットワークセル活性化の複数の演算を実行して、前記リカレントニューラルネットワークセル活性化の結果を提供する段階
を含み、前記複数の演算は、前記命令の単一の起動において実行される、コンピュータシステム。

【請求項12】

前記複数の演算は、１つ又は複数のシグモイド関数、１つ又は複数の正接関数、１つ又は複数のテンソル要素単位加算演算及び１つ又は複数のテンソル要素単位乗算演算を含む、直前の請求項に記載のコンピュータシステム。

【請求項13】

前記命令への１つ又は複数の入力は、１つ又は複数の連結テンソルを含む、２つの直前の請求項のいずれか１項に記載のコンピュータシステム。

【請求項14】

前記リカレントニューラルネットワークセル活性化は、長短期記憶セル活性化又はゲート付きリカレントユニットセル活性化を含む、３つの直前の請求項のいずれか１項に記載のコンピュータシステム。

【請求項15】

前記リカレントニューラルネットワークセル活性化の前記複数の演算を実行する段階は、アクセラレータによって実行され、中間計算データを生成し、前記方法は、前記アクセラレータに前記中間計算データを記憶する段階を更に有する、４つの直前の請求項のいずれか１項に記載のコンピュータシステム。

【請求項16】

コンピューティング環境内の処理を容易にするためのコンピュータ実装方法であって、前記コンピュータ実装方法は：
リカレントニューラルネットワークセル活性化を実行する命令を実行する段階
を備え、前記実行する段階は：
前記リカレントニューラルネットワークセル活性化の複数の演算を実行して、前記リカレントニューラルネットワークセル活性化の結果を提供する段階
を有し、前記複数の演算は、前記命令の単一の起動において実行される、コンピュータ実装方法。

【請求項17】

前記複数の演算は、１つ又は複数のシグモイド関数、１つ又は複数の正接関数、１つ又は複数のテンソル要素単位加算演算及び１つ又は複数のテンソル要素単位乗算演算を含む、直前の請求項に記載のコンピュータ実装方法。

【請求項18】

前記命令への１つ又は複数の入力は、１つ又は複数の連結テンソルを含む、２つの直前の請求項のいずれか１項に記載のコンピュータ実装方法。

【請求項19】

前記リカレントニューラルネットワークセル活性化は、長短期記憶セル活性化又はゲート付きリカレントユニットセル活性化を含む、３つの直前の請求項のいずれか１項に記載のコンピュータ実装方法。

【請求項20】

前記リカレントニューラルネットワークセル活性化の前記複数の演算を実行する段階は、アクセラレータによって実行され、中間計算データを生成し、前記アクセラレータに前記中間計算データを記憶する段階を更に有する、４つの直前の請求項のいずれか１項に記載のコンピュータ実装方法。

【発明の詳細な説明】

【技術分野】

【0001】

１つ又は複数の態様は、概して、コンピューティング環境内の処理を容易にすることに関し、特に、そのような処理を改善することに関する。

【背景技術】

【0002】

データ及び／又は計算集約的であるコンピューティング環境における処理を向上するために、人工知能アクセラレータ（ニューラルネットワークプロセッサ又はニューラルネットワークアクセラレータとも称される）等のコプロセッサが利用される。そのようなアクセラレータは、例えば、行列又はテンソルに対する計算等の関与する計算を実行する際に使用される大量の計算パワーを提供する。

【0003】

テンソル計算は、一例として、機械学習のサブセットである深層学習を含む複雑な処理において使用される。人工知能の一態様である深層学習又は機械学習は、限定されないが、工学、製造、医療用技術、自動車技術、コンピュータ処理等を含む様々な技術において使用される。

【0004】

テンソル及びテンソル計算は、大量のデータ及び／又は詳細なデータを深層学習処理に入力することを可能にする。しかしながら、アクセラレータは、アクセラレータに対するデータ帯域幅によって制限される。従前では、この制限に対処しようと努力して、データ局所性及びアクセラレータにおけるデータ再使用が利用されている。テンソルの使用及び／又はそのようなテンソルを使用する処理における進歩は、コンピュータ処理を含む機械学習を使用する技術を改善するであろう。

【発明の概要】

【0005】

コンピューティング環境内の処理を容易にするためのコンピュータプログラム製品のプロビジョニングを通して従来技術の欠点が克服され、更なる利点が提供される。コンピュータプログラム製品は、１つ又は複数のコンピュータ可読記憶媒体、及び方法を実行するために１つ又は複数のコンピュータ可読記憶媒体上に集合的に記憶されたプログラム命令を含む。方法は、リカレントニューラルネットワークセル活性化を実行する命令を実行することを含む。実行することは、リカレントニューラルネットワークセル活性化の複数の演算を実行して、リカレントニューラルネットワークセル活性化の結果を提供することを含む。複数の演算は、命令の単一の起動において実行される。

【0006】

命令の単一の起動を使用して、複数の演算を実行することは、複雑度を低下させ、システムリソースの使用を削減し、システム性能を高める。

【0007】

１つの例では、複数の演算は、１つ又は複数のシグモイド関数及び１つ又は複数の正接関数を含む。１つの例では、複数の演算は、テンソル要素単位加算及びテンソル要素単位乗算演算を含む。

【0008】

一例として、複数の演算は、１つ又は複数のシグモイド関数、１つ又は複数の正接関数、１つ又は複数のテンソル要素単位加算演算及び１つ又は複数のテンソル要素単位乗算演算を含む。

【0009】

１つの例では、命令への１つ又は複数の入力は、１つ又は複数の連結テンソルを含む。連結テンソルは、例えば、リカレントニューラルネットワークのセル活性化を実行するアクセラレータ上で実行される命令によって直接使用されてよい。連結テンソルは、１つの演算においてアクセスされてよく、処理時間が節約されるとともに処理速度が高まる。さらに、管理されることになるテンソルポインタが少なくなり、アクセラレータの起動間でのテンソルデータのコピー又は再編成における削減が存在し、処理速度が改善される。

【0010】

１つの例では、結果は、出力テンソルであり、出力テンソルは、一例として、命令の別の起動への入力である。

【0011】

例として、リカレントニューラルネットワークセル活性化は、長短期記憶セル活性化又はゲート付きリカレントユニットセル活性化を含む。

【0012】

１つの例では、リカレントニューラルネットワークセル活性化の複数の演算を実行することは、アクセラレータによって実行され、中間計算データを生成する。中間計算データは、一例として、アクセラレータに記憶される。

【0013】

１つの例では、複数の演算を実行することは、空間的に近い入力データに対して複数の演算を実行することを含む。

【0014】

１つ又は複数の態様に関するコンピュータ実装方法及びシステムも、本明細書において説明されるとともに特許請求される。さらに、１つ又は複数の態様に関するサービスも説明され、本明細書において特許請求されてよい。

【0015】

追加の特徴及び利点が、本明細書において説明される技法を通して実現される。他の実施形態及び態様は、本明細書において詳細に説明され、特許請求される態様の一部とみなされる。

【図面の簡単な説明】

【0016】

１つ又は複数の態様は、本明細書の最後における特許請求の範囲の例として特に指摘され、明白に特許請求される。前述の、及び１つ又は複数の態様の目的、特徴、及び利点は、添付図面と併せて読まれると以下の詳細な説明から明らかである。

【図1A】本発明の１つ又は複数の態様を組み込んで使用するコンピューティング環境の１つの例を示す図である。

【図1B】本発明の１つ又は複数の態様に係る、図１Ａのプロセッサの更なる詳細を示す図である。

【図2A】本発明の１つ又は複数の態様に係る、結果テンソルの１つの例を示す図である。

【図2B】本発明の１つ又は複数の態様に従って使用される中間結果を提供するために入力特徴によって連結重みを乗算する１つの例を示す図である。

【図2C】本発明の１つ又は複数の態様に係る、図２Ａの結果テンソルを提供するために図２Ｂの中間結果に加算されるバイアスの１つの例を示す図である。

【図2D】本発明の１つ又は複数の態様に係る、連結出力テンソルの１つの例を示す図である。

【図3A】本発明の１つ又は複数の態様に係る、２Ｄテンソルの１つの例を示す図である。

【図3B】本発明の１つ又は複数の態様に係る、選択された次元のテンソルを作成する際に使用される処理の１つの例を示す図である。

【図3C】本発明の１つ又は複数の態様に係る、選択された次元のテンソルを作成する際に使用される処理の１つの例を示す図である。

【図4A】本発明の１つ又は複数の態様に係る、長短期記憶セル活性化の１つの例を示す図である。

【図4B】本発明の１つ又は複数の態様に係る、ゲート付きリカレントユニットセル活性化の１つの例を示す図である。

【図5A】本発明の１つ又は複数の態様に係る、チェーニングを使用する長短期記憶セル活性化の１つの例を示す図である。

【図5B】本発明の１つ又は複数の態様に係る、チェーニングを使用する長短期記憶セル活性化の１つの例を示す図である。

【図6A】本発明の１つ又は複数の態様に係る、ニューラルネットワーク処理支援命令のフォーマットの１つの例を示す図である。

【図6B】本発明の１つ又は複数の態様に係る、ニューラルネットワーク処理支援命令によって使用される汎用レジスタの１つの例を示す図である。

【図6C】本発明の１つ又は複数の態様に係る、ニューラルネットワーク処理支援命令によってサポートされる関数コードの例を示す図である。

【図6D】本発明の１つ又は複数の態様に係る、ニューラルネットワーク処理支援命令によって使用される別の汎用レジスタの１つの例を示す図である。

【図6E】本発明の１つ又は複数の態様に係る、ニューラルネットワーク処理支援命令のクエリ関数によって使用されるパラメータブロックの１つの例を示す図である。

【図6F】本発明の１つ又は複数の態様に係る、ニューラルネットワーク処理支援命令の１つ又は複数の非クエリ関数によって使用されるパラメータブロックの１つの例を示す図である。

【図6G】本発明の１つ又は複数の態様に係る、ニューラルネットワーク処理支援命令によって使用されるテンソル記述子の１つの例を示す図である。

【図7】本発明の１つ又は複数の態様に係る、ニューラルネットワーク処理（ＮＮＰ）データタイプ１データタイプのフォーマットの１つの例を示す図である。

【図8A】本発明の１つ又は複数の態様に係る、ニューラルネットワーク処理支援命令によって使用される入力データレイアウトの例を示す図である。

【図8B】本発明の１つ又は複数の態様に係る、ニューラルネットワーク処理支援命令によって使用される入力データレイアウトの例を示す図である。

【図8C】本発明の１つ又は複数の態様に係る、ニューラルネットワーク処理支援命令によって使用される入力データレイアウトの例を示す図である。

【図9】図９の（Ａ）は、本発明の１つ又は複数の態様に係る、図８Ａの入力データレイアウトに対応する例示の出力を示す図である。図９の（Ｂ）は、本発明の１つ又は複数の態様に係る、図８Ｂの入力データレイアウトに対応する例示の出力を示す図である。図９の（Ｃ）は、本発明の１つ又は複数の態様に係る、図８Ｃの入力データレイアウトに対応する例示の出力を示す図である。

【図10A】本発明の１つ又は複数の態様に係る、コンピューティング環境内の処理を容易にする１つの例を示す図である。

【図10B】本発明の１つ又は複数の態様に係る、コンピューティング環境内の処理を容易にする１つの例を示す図である。

【図11A】本発明の１つ又は複数の態様を組み込んで使用するコンピューティング環境の別の例を示す図である。

【図11B】本発明の１つ又は複数の態様に係る、図１１Ａのメモリの更なる詳細の１つの例を示す図である。

【図11C】本発明の１つ又は複数の態様に係る、図１１Ａのメモリの更なる詳細の別の例を示す図である。

【図12A】本発明の１つ又は複数の態様を組み込んで使用するコンピューティング環境の更に別の例を示す図である。

【図12B】本発明の１つ又は複数の態様に係る、図１２Ａのメモリの更なる詳細を示す図である。

【図13】本発明の１つ又は複数の態様に係る、クラウドコンピューティング環境の１つの実施形態を示す図である。

【図14】本発明の１つ又は複数の態様に係る、抽象化モデル層の１つの例を示す図である。

【発明を実施するための形態】

【0017】

本発明の１つ又は複数の態様によれば、長短期記憶（ＬＳＴＭ）アーキテクチャ及び／又はゲート付きリカレントユニット（ＧＲＵ）アーキテクチャ上のリカレントニューラルネットワーク等のリカレントニューラルネットワークにおける使用のための選択されたデータレイアウトフォーマットのテンソルを作成する能力が提供される。一例として、選択されたデータレイアウトフォーマットは、例えば、長短期記憶セル活性化及び／又はゲート付きリカレントユニットセル活性化において使用される連結入力及び／又は出力フォーマットを含む。

【0018】

長短期記憶は、典型的には、例えば、状態を記憶するセル、及びセルに出入りする情報のフローを制御する複数のゲートを含む人工リカレントニューラルネットワークアーキテクチャである。ゲートは、例えば、入力ゲート、出力ゲート及び忘却ゲートを含む。ゲート付きリカレントユニットは、別のリカレントニューラルネットワークアーキテクチャである。それは、長短期記憶アーキテクチャに類似しているが、より少ないパラメータを有し得、出力ゲートを有しない。各ネットワークは、タイムステップを使用し、ここで、タイムステップごとに、演算は、出力を生成する入力に対して実行される。１タイムステップの出力は、次のタイムステップへの入力であり得る。各タイムステップについて、複数の活性化（例えば、シグモイド、ｔａｎｈ）及び他の演算（例えば、加算、乗算）が、隠れ状態（Ｈ）、入力及びセル（ｃ）状態に適用される。これらの小ステップ（例えば、活性化、演算）の各々がプロセッサに対してローカルに効率的に実行され得る一方、これらのステップの各々についてアクセラレータを呼び出すことは、例えば、アクセラレータの起動時間に起因してリカレントニューラルネットワーク及び／又はシステムの全体性能に有害であり得る。それゆえ、本発明の１つ又は複数の態様によれば、（例えば、１タイムステップのための）個々の活性化及び演算は、組み合わされ、命令の単一の起動の一部として実行される。これは、例えば１つの起動しか存在しないので処理速度を大幅に高めるとともに効率性を提供し；中間計算データをメモリにライトバックするのではなくアクセラレータに記憶することができ；アクセラレータのＳＩＭＤ（単一命令複数データ）幅及びパイプライン化される性質を使用して、１計算あたりのより少ないサイクルで並列でより多くの計算を行うことができ；ＬＳＴＭ／ＧＲＵ演算のための向上した正確性及びより高い安定性をもたらすより高い精度を中間結果のために使用することができる。

【0019】

さらに、１つ又は複数の態様において、単一の命令は、選択されたデータレイアウトフォーマットを使用し、空間的に近い入力及び／又は出力データが提供され、アドレス変換リクエストが削減され、処理速度が改善される。選択されたデータレイアウトフォーマットは、効率性を提供し、ここで、例えば、リカレントニューラルネットワークのセル活性化等の演算は、汎用プロセッサに、セル活性化の各タイムステップについてデータを検査／再構成するように要求することなくチェーニングされることが可能である。

【0020】

選択されたデータレイアウトフォーマットの１つの例は、本発明の１つ又は複数の態様によれば、連結入力フォーマットである。そのようなフォーマットを提供するために、１つの例では、例えば、リカレントニューラルネットワークセルによって使用される重みテンソルは、選択された次元の再フォーマット化重みテンソル（例えば、２Ｄ再フォーマット化テンソル）に変換され、これらは、例えば、より大きい連結テンソルを形成するために線形方式で連結される。これは、例えば、結果として得られる連結テンソルに対して実行されるセル活性化の活性化及び他の演算を、例えば、アクセラレータに対して実行される１つの単一命令起動において実行することを可能にする。結果として得られる連結テンソルは、例えば、リカレントニューラルネットワーク上のセル活性化を実行しているアクセラレータに対する命令によって直接使用される選択された入力フォーマットである。

【0021】

選択されたデータレイアウトフォーマットの更なる例は、本発明の１つ又は複数の態様によれば、２Ｄ出力テンソル等の連結出力フォーマットである。フォーマットは、例えば、各タイムステップについて、例えば計算の次のタイムステップにフィードすることができるメモリ連続サブテンソルとして出力テンソルにアクセスすることができるように選択される。タイムステップは、１つのメモリ隣接テンソルとしてタイムステップからなる最終結果を返すために、メモリにおいて隣接状態を維持する。

【0022】

本発明の１つ又は複数の態様は、テンソルを再フォーマット化して、元のテンソルを表す選択された次元の（例えば、２Ｄテンソル）再フォーマット化テンソル（サブテンソルとも称され得る）を提供することを含む。これは、限定されないが、メモリアドレス計算、ロード／記憶動作及び／又はプリフェッチを含む処理を最適化する。一例として、テンソルは、再フォーマット化テンソルがメモリユニット（例えば、メモリページ）の境界上で開始し、元のテンソルの情報が選択された次元（例えば、２Ｄ）の再フォーマットテンソル（タイルとして知られている）内で適合するように再配置されるように、再フォーマット化される。再フォーマット化テンソルは、容易に計算可能なアドレスを有し、ブロックロード及び／又は記憶（例えば、１つの動作においてロード／記憶）されてよく、再フォーマット化テンソルを使用する際に効率性が提供される。

【0023】

本発明の１つ又は複数の態様に従って提供される連結入力／出力データフォーマットを使用する及び／又はリカレントニューラルネットワークセル活性化の複数の演算（例えば、活性化及び／又は他の演算）を組み合わせる命令の１つの例は、ニューラルネットワーク処理支援命令であり、これは、複数の機能を実行するように構成された単一の命令（例えば、ハードウェア／ソフトウェアインターフェースにおける単一の設計されたハードウェア機械命令）である。機能の各々は、単一の命令（例えば、単一の設計された命令）の一部として構成され、システムリソースの使用及び複雑度が削減され、システム性能が改善される。

【0024】

命令は、汎用プロセッサ命令セットアーキテクチャ（ＩＳＡ）の一部であってよく、これは、汎用プロセッサ等のプロセッサ上のプログラムによってディスパッチされる。それは、汎用プロセッサによって実行されてよく、及び／又は、命令の１つ又は複数の機能は、汎用プロセッサに結合されているか又はその一部である、特定の機能のために構成されたコプロセッサ又はアクセラレータ等の専用プロセッサによって実行されてよい。他の変形例も可能である。

【0025】

本発明の１つ又は複数の態様を組み込んで使用するコンピューティング環境の１つの実施形態は、図１Ａを参照して説明される。一例として、コンピューティング環境は、ニューヨーク州アーモンク所在のＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎによって提供されるｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ（登録商標）命令セットアーキテクチャに基づく。ｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ命令セットアーキテクチャの１つの実施形態は、「ｚ／ＡｒｃｈｉｔｅｃｔｕｒｅＰｒｉｎｃｉｐｌｅｓｏｆＯｐｅｒａｔｉｏｎ」ＩＢＭＰｕｂｌｉｃａｔｉｏｎＮｏ．ＳＡ２２－７８３２－１２、第１３版、２０１９年９月という名称の公刊物において記載されており、これは、その全体が参照によって本明細書に組み込まれる。しかしながら、ｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ命令セットアーキテクチャは、単なる１つの例示のアーキテクチャであり；ＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎ及び／又は他のエンティティの他のアーキテクチャ及び／又は他のタイプのコンピューティング環境が、本発明の１つ又は複数の態様を含み、及び／又はこれらを使用してよい。ｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ及びＩＢＭは、少なくとも１つの法域におけるＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎの商標又は登録商標である。

【0026】

図１Ａを参照すると、コンピューティング環境１００は、例えば汎用コンピューティングデバイスの形式において示されている、例えばコンピュータシステム１０２を含む。コンピュータシステム１０２は、１つ又は複数のバス及び／又は他の接続を介して互いに結合された、１つ又は複数の汎用プロセッサ又は処理ユニット１０４（例えば、中央処理ユニット（ＣＰＵ））、ニューラルネットワークプロセッサ１０５等の少なくとも１つの専用プロセッサ、メモリ１０６（例として、システムメモリ、メインメモリ、メインストレージ、中央ストレージ又はストレージとして知られている）、及び１つ又は複数の入力／出力（Ｉ／Ｏ）インターフェース１０８を含んでよいが、これらに限定されない。例えば、プロセッサ１０４、１０５及びメモリ１０６は、１つ又は複数のバス１１０を介してＩ／Ｏインターフェース１０８に結合され、プロセッサ１０４、１０５は、１つ又は複数のバス１１１を介して互いに結合される。

【0027】

バス１１１は、例えば、メモリ又はキャッシュコヒーレンスバスであり、バス１１０は、例えば、メモリバス又はメモリコントローラ、ペリフェラルバス、アクセラレーテッドグラフィックスポート、及び多様なバスアーキテクチャのうちの任意のものを使用するプロセッサ又はローカルバスを含む幾つかのタイプのバス構造の任意のもののうちの１つ又は複数を表す。限定ではなく例として、そのようなアーキテクチャは、業界標準アーキテクチャ（ＩＳＡ）、マイクロチャネルアーキテクチャ（ＭＣＡ）、エンハンスドＩＳＡ（ＥＩＳＡ）、ビデオエレクトロニクススタンダーズアソシエーション（ＶＥＳＡ）ローカルバス、及びペリフェラルコンポーネントインターコネクト（ＰＣＩ）を含む。

【0028】

例として、１つ又は複数の専用プロセッサ（例えば、ニューラルネットワークプロセッサ）は、１つ又は複数の汎用プロセッサとは別個であるが、これらに結合されてよく、及び／又は、１つ又は複数の汎用プロセッサ内に埋め込まれてよい。多くの変形例が可能である。

【0029】

メモリ１０６は、例えば、共有キャッシュ等のキャッシュ１１２を含んでよく、これは、例えば、１つ又は複数のバス１１１を介して、プロセッサ１０４のローカルキャッシュ１１４に、及び／又はニューラルネットワークプロセッサ１０５に結合されてよい。さらに、メモリ１０６は、１つ又は複数のプログラム又はアプリケーション１１６及び少なくとも１つのオペレーティングシステム１１８を含んでよい。例示のオペレーティングシステムは、ニューヨーク州アーモンク所在のＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎによって提供されるｚ／ＯＳ（登録商標）オペレーティングシステムを含む。ｚ／ＯＳは、少なくとも１つの法域におけるＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎの商標又は登録商標である。ＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎ及び／又は他のエンティティによって提供される他のオペレーティングシステムが使用されてもよい。メモリ１０６は、１つ又は複数のコンピュータ可読プログラム命令１２０を含んでもよく、これは、本発明の態様の実施形態の機能を実行するように構成されてよい。

【0030】

その上、１つ又は複数の実施形態において、メモリ１０６は、プロセッサファームウェア１２２を含む。プロセッサファームウェアは、例えば、プロセッサのマイクロコード又はミリコードを含む。それは、例えば、ハードウェアレベル命令及び／又はより高いレベルの機械コードの実装において使用されるデータ構造を含む。１つの実施形態では、それは、例えば、基本ハードウェアに固有の信頼されたソフトウェア、マイクロコード又はミリコードを含むマイクロコード又はミリコードとして典型的には送達されるプロプライエタリコードを含み、システムハードウェアへのオペレーティングシステムアクセスを制御する。

【0031】

コンピュータシステム１０２は、例えばＩ／Ｏインターフェース１０８を介して、ユーザ端末、テープドライブ、ポインティングデバイス、ディスプレイ等の１つ又は複数の外部デバイス１３０、及び１つ又は複数のデータストレージデバイス１３４等と通信してよい。データストレージデバイス１３４は、１つ又は複数のプログラム１３６、１つ又は複数のコンピュータ可読プログラム命令１３８、及び／又はデータ等を記憶してよい。コンピュータ可読プログラム命令は、本発明の態様の実施形態の機能を実行するように構成されてよい。

【0032】

コンピュータシステム１０２は、例えばＩ／Ｏインターフェース１０８を介して、ネットワークインターフェース１３２と通信してもよく、これは、コンピュータシステム１０２が、ローカルエリアネットワーク（ＬＡＮ）、一般的なワイドエリアネットワーク（ＷＡＮ）、及び／又はパブリックネットワーク（例えば、インターネット）等の１つ又は複数のネットワークと通信することを可能にし、他のコンピューティングデバイス又はシステムとの通信が提供される。

【0033】

コンピュータシステム１０２は、取り外し可能／取り外し不能揮発性／不揮発性コンピュータシステム記憶媒体を含み、及び／又はこれらに結合されてよい。例えば、それは、取り外し不能不揮発性磁気媒体（典型的には、「ハードドライブ」と呼ばれる）、取り外し可能不揮発性磁気ディスク（例えば、「フロッピディスク」）に対して読み出し及び書き込みを行う磁気ディスクドライブ、及び／又はＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ又は他の光学媒体等の取り外し可能不揮発性光学ディスクに対して読み出し又は書き込みを行う光学ディスクドライブを含み、及び／又はこれらに結合されてよい。他のハードウェア及び／又はソフトウェアコンポーネントを、コンピュータシステム１０２と併せて使用することができることが理解されるべきである。例としては、マイクロコード又はミリコード、デバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、ＲＡＩＤシステム、テープドライブ、及びデータアーカイブストレージシステム等が挙げられるが、これらに限定されない。

【0034】

コンピュータシステム１０２は、多数の他の汎用又は専用コンピューティングシステム環境又は構成とともに動作可能であってよい。コンピュータシステム１０２との使用に適し得る周知のコンピューティングシステム、環境、及び／又は構成の例としては、パーソナルコンピュータ（ＰＣ）システム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルド又はラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースシステム、セットトップボックス、プログラマブルコンシューマエレクトロニクス、ネットワークＰＣ、ミニコンピュータシステム、メインフレームコンピュータシステム、及び上記のシステム又はデバイスのいずれかを含む分散クラウドコンピューティング環境等が挙げられるが、これらに限定されない。

【0035】

１つの例では、プロセッサ（例えば、プロセッサ１０４及び／又はプロセッサ１０５）は、命令を実行するのに使用される複数の機能コンポーネント（又はこれらのサブセット）を含む。図１Ｂにおいて示されているように、これらの機能コンポーネントは、例えば、実行されることになる命令をフェッチする命令フェッチコンポーネント１５０；フェッチされた命令を復号し、復号された命令のオペランドを取得する命令復号ユニット１５２；復号された命令を実行する１つ又は複数の命令実行コンポーネント１５４；必要な場合、命令実行のためにメモリにアクセスするメモリアクセスコンポーネント１５６；及び実行された命令の結果を提供するライトバックコンポーネント１５８を含む。コンポーネントのうちの１つ又は複数は、命令処理において１つ又は複数のレジスタ１６０にアクセスし、及び／又はこれらを使用してよい。さらに、コンポーネントのうちの１つ又は複数は、本発明の１つ又は複数の態様によれば、本明細書において説明されるように、連結入力及び／又は出力データフォーマットを提供する際、セル活性化関数の複数の演算を組み合わせる際、テンソル処理（限定されないが、再フォーマット化テンソルの生成及び／又は使用を含む）の際、及び／又は、例えば、ニューラルネットワーク処理支援命令のニューラルネットワーク処理支援処理（又は本発明の１つ又は複数の態様を使用し得る他の処理）の際に使用される１つ又は複数の他のコンポーネントの少なくとも一部を含むか、又はこれらへのアクセスを有してよい。１つ又は複数の他のコンポーネントは、例えば、１つ又は複数の組み合わせ／連結コンポーネント１７０、テンソルコンポーネント１７１、及び／又はニューラルネットワーク処理支援コンポーネント１７２（及び／又は１つ又は複数の他のコンポーネント）を含んでよい。

【0036】

本発明の１つ又は複数の態様によれば、コンピューティング環境内の処理は、専用プロセッサ（例えば、ニューラルネットワークプロセッサ１０５）等のプロセッサによる使用のための改善されたデータフォーマットを提供することによって容易にされる。例えば、連結入力データフォーマットレイアウトが提供され、ここで、複数の２Ｄテンソル等の選択された次元の複数のテンソルが連結されて、連結テンソルが作成される。同様に、１つの例では、連結出力データフォーマットが提供され、ここで、複数の出力テンソルが連結される。連結入力／出力データレイアウトフォーマットに関する更なる詳細は、図２Ａ～図２Ｄを参照して説明される。図において、ｔはタイムステップを指し、Ｎｍｂはバッチサイズを指し、ｓはサイズを指し、ｌは入力特徴の長さである。

【0037】

図２Ａを参照すると、連結テンソル入力（本明細書において結果テンソルとも称される）２００の１つの例が示されている。この例では、サイズｓを有する複数の２Ｄテンソル２０２が（例えば、線形に）連結されて、サイズ４ｓを有するより大きい連結テンソル２００が作成される。１つの例では、連結テンソル２００は、特徴入力Ｘ（Ｘｉ）によって乗算された複数の（例えば、４つの）連結重みテンソル（例えば、Ｗ_ｆ、Ｗ_ｉ、

【数1】

、Ｗ_ｏ）を含む。例えば、図２Ｂにおいて示されているように、特徴入力Ｘ（２１０）は、重みの連結テンソル２１４によって乗算され（２１２）、中間結果（例えば、結果テンソル）が提供され、これは、図２Ｃを参照すると、バイアスのテンソル２２０に加算されて、結果が生成され、これは、例えば、連結入力テンソル２００である。ニューラルネットワークでは、例として、特徴は観測されることになるもの（例えば、文における次の単語、特定の写真等）の表現であり、重みは学習可能パラメータであり、バイアスはオフセットである。１つの例では、乗算及び加算は、ニューラルネットワーク処理支援命令のニューラルネットワーク処理支援行列乗算演算ブロードキャスト２３（例えば、ＮＮＰＡ－ＭＡＴＭＵＬ－ＯＰ－ＢＣＡＳＴ２３）演算として実行され、この一例が以下で説明される。

【0038】

１つの例では、図２Ｂの各重みテンソルは、テンソルの処理を容易にするために提供される再フォーマット化２Ｄテンソルである。重みテンソルは、２Ｄ再フォーマット化テンソルに独立して変換され、これらは、連結されて大きいテンソルが提供される。結果として得られるテンソルは、本発明の一態様によれば、リカレントニューラルネットワークのセル活性化を実行するアクセラレータ（例えば、プロセッサ１０５）上の命令（例えば、ニューラルネットワーク処理支援命令）によって直接使用される入力フォーマットである。これにより、セル活性化の行列乗算を、アクセラレータ上で実行された１つの単一の命令において複数のタイムステップにわたって実行することが可能になる。各再フォーマット化２Ｄテンソルは、本発明の一態様によれば、メモリユニットの境界（例えば、メモリページ境界）上で開始し、元のテンソルの情報が再フォーマット化テンソルにおいて再配置される。再フォーマット化テンソルの次元におけるテンソルの次元は、その次元における次の完全タイルに切り上げられる（例えば、固定サイズテンソル、例えば２Ｄテンソルを作成するためにパディングが提供される）。例えば、本明細書において説明されるように、固定サイズテンソルを作成するために、行パディング２１６及び／又はページパディング２１８が提供される。これは、メモリユニット境界（例えば、ページ境界）上の各テンソルにアクセスすることを可能にし、任意の２Ｄテンソルのアドレスの計算を容易にする。メモリユニット境界上での配置を提供することによって、アドレス変換リクエストが削減され、データ転送レートが高められる。さらに、１つの例では、各２Ｄテンソルは、一度にアクセラレータメモリにおける１つのメモリユニット（例えば、ページ）にアクセスする直接メモリアクセス（ＤＭＡ）のような動作を介してロードされてよい。これにより、帯域幅が大幅に増大する。

【0039】

同様に、１つの例では、バイアステンソル２２０は、複数のバイアステンソル２２２を含む連結バイアステンソルである。各バイアステンソルは、選択された固定サイズであり、したがって、行パディング２２４及び／又はページパディング２２６は、本明細書において説明されるように提供される。

【0040】

連結入力テンソルに加えて、本発明の１つ又は複数の態様によれば、連結出力テンソルが提供され、その一例が図２Ｄにおいて示されている。図２Ｄにおいて示されているように、連結出力テンソル２５０は、各入力について、内部セル状態（ｃ）テンソル２７０に連結された隠れ状態（ｈ）テンソル２６０を含む。１つの例では、各テンソル２６０、２７０は、選択された次元（例えば、２Ｄ）及び選択されたサイズの再フォーマット化テンソルである。選択されたサイズのテンソルを提供するために、行パディング２８０及び／又はページパディング２８２は、本明細書において説明されるように提供される。連結出力テンソルは、例えば、連結２Ｄ再フォーマット化出力テンソルである。連結出力テンソルは、計算の次のタイムステップにフィードすることができるメモリ連続サブテンソルとしてアクセス可能であり、その一方、一例として、全てのタイムステップが、１つのメモリ隣接テンソルとして全てのタイムステップからなる最終結果を返すためにメモリにおいて隣接状態を維持する。入力テンソルと同様に、再フォーマット化テンソルの次元におけるテンソルの次元は、その次元における次の完全タイルに切り上げられる（例えば、固定サイズテンソル、例えば２Ｄテンソルを作成するためにパディングが提供される）。

【0041】

２Ｄテンソルに関する更なる詳細は、本発明の１つ又は複数の態様によれば、図３Ａを参照して説明される。示されているように、２Ｄテンソル３００は、メモリ境界上で開始し、複数の４Ｋページ（例えば、２Ｄテンソルにおいて付番されたページ０～１１）等の複数のメモリユニットを使用する。各ページは、事前選択された数の行（例えば、３２）３０２を含み、各行は、事前選択された数の要素、例えば、６４個の要素を含む。或る行が事前選択された数の要素よりも少ないデータを有する場合、それは、例えば、ゼロ又はスペース等のような事前指定された値でパディングされる（３０４）。さらに、図３Ａにおいて示されているように、事前選択された数の行を提供するほど十分なデータが存在しない場合、追加のパディング済み行を追加するために追加のパディング３０６（例えば、予測不能なデータ、既存のデータ、任意の値等）が提供される。

【0042】

２Ｄテンソルの設計されたデータフォーマットは、容易に計算可能なアドレス及びメモリ単位の隣接テンソルユニットを提供し、これにより、複数の複雑なアドレス計算のオーバヘッドの削減が可能になる。これは、ハードウェアによってサポートされるブロックロード／記憶動作及びプリフェッチエンジンを支援し、アクセラレータ（例えば、ニューラルネットワークプロセッサ１０５）に対する実効データ帯域幅が大幅に増大する（例えば、２ｘ～５ｘ）。

【0043】

２Ｄテンソルを作成することに関する更なる詳細は、本発明の一態様によれば、図３Ｂ～図３Ｃを参照して説明される。１つの例では、処理は、本明細書において説明される４Ｄ特徴データレイアウトに基づいてテンソル（例えば、２Ｄ、３Ｄ、４Ｄ及び／又は他のテンソル）を作成する。一例として、この処理は、汎用プロセッサ１０４等のプロセッサによって実行される。この処理は、例として、２Ｄ、３Ｄ又は４Ｄテンソルを生成することが可能であるが、そのような例に限定されない。

【0044】

図３Ｂを参照すると、１つの例では、ｅ２＿ｌｉｍｉｔが、作成されている２Ｄテンソルが例えば３２行を有することを示すｃｅｉｌ（Ｅ２／３２）＊３２に等しく設定され（３５２）、Ｅ２は、次元２インデックスサイズを指す。さらに、ｅ１＿ｌｉｍｉｔが、作成されている２Ｄテンソルが例えば１行あたり６４個の要素を有することを示すｃｅｉｌ（Ｅ１／６４）＊６４に等しく設定され（３５４）、Ｅ１は、次元１インデックスサイズを指す。インデックスｅ４ｘは、ゼロに初期化される（３５６）。

【0045】

初期化に続いて、ｅ４ｘがＥ４未満であるか否かについて判定がなされ（３５８）、Ｅ４は、次元４インデックスサイズを指す。ｅ４ｘがＥ４未満ではない場合、処理は終了し（３６０）；そうではない場合、処理は、インデックスｅ３ｘをゼロに初期化することを続ける（３６２）。ｅ３ｘがＥ３未満であるか否かについて判定がなされ（３６４）、Ｅ３は、次元３インデックスサイズを指す。ｅ３ｘがＥ３未満ではない場合、処理は反復し、ここで、ｅ４ｘは、例えば１だけインクリメントされ（３６６）、処理は３５８に続く。一方、ｅ３ｘがＥ３未満である場合、インデックスｅ２ｘは、ゼロに初期化される（３６８）。ｅ２ｘがｅ２＿ｌｉｍｉｔ未満であるか否かについて判定がなされる（３７０）。ｅ２ｘがｅ２＿ｌｉｍｉｔ未満ではない場合、処理は反復し、ここで、ｅ３ｘは、例えば１だけインクリメントされ（３７２）、処理は３６４に続く。ｅ２ｘがｅ２＿ｌｉｍｉｔ未満である場合、インデックスｅ１ｘは、ゼロに初期化される（３７４）。

【0046】

図３Ｃを参照すると、ｅ１ｘがｅ１＿ｌｉｍｉｔ未満であるか否かについて判定がなされる（３７６）。ｅ１ｘがｅ１＿ｌｉｍｉｔ未満ではない場合、処理は反復し、ここで、ｅ２ｘは、例えば１だけインクリメントされ（ｅ２ｘ＝ｅ２ｘ＋１）（３７８）、処理は３７０に続く（図３Ｂ）。ｅ１ｘがｅ１＿ｌｉｍｉｔ未満である場合、ａｒｒ＿ｐｏｓ（例えば、或る行における位置）は、

【数2】

に等しく設定され、ここで、

【数3】

は、床関数３８２である。

【0047】

ｅ２ｘがＥ２よりも大きいか又はこれに等しいか否かについて判定がなされる（３８４）。ｅ２ｘがＥ２未満ではない場合、ｅ１ｘがｅ１よりも大きいか又はこれに等しいか否かについて更なる判定がなされる（３８６）。ｅ１ｘがＥ１未満である場合、値は、ｉｎｐｕｔ＿ａｒｒａｙ［ｅ４ｘ］［ｅ３ｘ］［ｅ２ｘ］［ｅ１ｘ］に等しく設定され（３８８）；ｅ１ｘがＥ１よりも大きいか又はこれに等しい場合、値＝Ｅ１ｐａｄである（３９０）（行がパディングされる）。さらに、ｅ２ｘがＥ２よりも大きいか又はこれに等しい場合（３８４）、値＝Ｅ２ｐａｄである（３９２）（パディングされる追加の行が２Ｄテンソルに追加される）。値の設定に続いて、ＯｕｔｐｕｔＴｅｎｓｏｒ［ａｒｒ＿ｐｏｓ］＝値である。さらに、インデックスｅ１ｘが、例えば１だけインクリメントされ（ｅ１ｘ＝ｅ１ｘ＋１）（３９４）、処理は３７６に続く。

【0048】

更なる例として、テンソルは、本明細書において説明される４Ｄ＿ｋｅｒｎｅｌレイアウトに基づいて作成されてよい。２Ｄ、３Ｄ、４Ｄ及び／又は他のテンソルを作成するために、図３Ｂ～図３Ｃの処理が使用され、ただし、３８２は、

【数4】

に置き換えられ；３９４はＯｕｔｐｕｔＴｅｎｓｏｒ［ｋｅｒｎ＿ｐｏｓ］＝値に置き換えられる。

【0049】

作成されたテンソル（例えば、元のテンソルの再フォーマット化から作成された再フォーマット化テンソル）は、１つ又は複数の命令によって使用されてよい。例えば、アドレス情報（例えば、例として、４Ｄテンソル又は２Ｄテンソルの開始）、テンソルの次元等は、正しいフォーマットにおいて（例えば、メモリのページの正しいロケーションにおいて）データをロード／記憶する際の使用のために、及び（例えば、テンソル計算において）データを使用するために、汎用プロセッサから専用プロセッサ（例えば、ニューラルネットワーク１０５）に転送される。他の実施形態では、汎用プロセッサは、作成された再フォーマット化テンソルを使用する。他の変形例が可能である。

【0050】

１つ又は複数の態様によれば、複数の再フォーマット化テンソルが連結されて、連結入力及び／又は出力テンソルが提供される。１つの例では、１つ又は複数の連結入力テンソルが、長短期記憶セル活性化又はゲート付きリカレントユニットセル活性化等のリカレントニューラルネットワークセル活性化に入力され、これは、１つ又は複数の連結出力テンソルを生成する。例示のセル活性化に関する更なる詳細が、図４Ａ～図４Ｂを参照して説明される。

【0051】

一例として、図４Ａを参照すると、第１の入力テンソル４００ａ（例えば、入力テンソル１）及び第２の入力テンソル４００ｂ（例えば、入力テンソル２）が、長短期記憶セル活性化４０１に入力される。例えば、第１の入力テンソル４００ａ及び第２の入力テンソル４００ｂは、連結テンソル（例えば、結果テンソル）であり、各々が、例えば、それぞれ、例えば４つの個々のテンソル４００ａ１～４００ａ４、及び４００ｂ１～４００ｂ４の連結を含み、これらの個々のテンソルの各々が、長短期記憶セル活性化４０１の加算演算に入力される。一例として、入力テンソル４００ａ１、４００ｂ１は、加算演算４０２ａに入力され；入力テンソル４００ａ２、４００ｂ２は、加算演算４０２ｂに入力され；入力テンソル４００ａ３、４００ｂ３は、加算演算４０２ｃに入力され；入力テンソル４００ａ４、４００ｂ４は、加算演算４０２ｄに入力される。各加算演算は、例えば、ＮＮＰＡ－ＡＤＤ演算に均等であり、その一例が本明細書において説明される。加算演算４０２ａの出力がシグモイド活性化４０４ａに入力され；加算演算４０２ｂの出力がシグモイド活性化４０４ｂに入力され；加算演算４０２ｃの出力が正接活性化４０６に入力され；加算演算４０２ｄの出力がシグモイド活性化４０４ｃに入力される。シグモイド活性化４０４ａ、４０４ｂ及び４０４ｃ及び正接活性化４０６は、例えば、それぞれ、ＮＮＰＡ－ＳＩＧＭＯＩＤ関数及びＮＮＰＡ－ＴＡＮＨ関数に均等であり、これらの例が、本明細書において説明される。シグモイド活性化４０４ｂ及び正接活性化４０６の出力は、乗算演算４０８に入力され、これは、例えば、ＮＮＰＡ－ＭＵＬ関数に均等であり、その一例が本明細書において説明される。

【0052】

シグモイド活性化４０４ａ及び乗算演算４０８の出力は、第３の入力テンソル４００ｃ（例えば、入力テンソル３）とともに、結合演算４１０に入力される。この例では、入力テンソル４００ｃは、連結テンソルではなく、直前のタイムステップからの出力である。例えば、入力テンソル４００ｃは、連結出力テンソルのセル状態部分である。結合演算４１０は、例えば、融合積和（ＦＭＡ）演算であり、これは、例えば、ＮＮＰＡ－ＢＡＴＣＨＮＯＲＭ関数に均等であり、その一例が本明細書において説明される。（他の例では、結合演算ではなく個々の演算が使用されてよい。）演算４１０では、シグモイド活性化４０４ａからの出力及び入力テンソル４００ｃが乗算されて、中間結果が提供される。中間結果は、乗算演算４０８の出力に加算されて、別の中間結果が提供される。当該別の中間結果（例えば、結合演算４１０の結果）は、正接活性化４１２に入力され、これは、例えば、ＮＮＰＡ－ＴＡＮＨ関数に均等であり、その一例が本明細書において説明される。正接関数４１２の出力及びシグモイド関数４０４ｃの出力は、乗算演算４１４に入力され、これは、例えば、ＮＮＰＡ－ＭＵＬ関数に均等であり、その一例が本明細書において説明される。ＮＮＰＡ－ＭＵＬ４１４の出力は、出力テンソル４２０ａ（例えば、出力テンソル１）である。さらに、１つの例では、結合演算４１０の出力は、出力テンソル４２０ｂ（例えば、出力テンソル２）である。一例として、出力テンソル４２０ａ及び４２０ｂは、図２Ｄを参照して説明されるもの等の連結出力テンソルである。

【0053】

図４Ｂを参照すると、ゲート付きリカレントユニットセル活性化の一例が説明される。１つの例では、第１の入力テンソル４５０ａ（例えば、入力テンソル１）及び第２の入力テンソル４５０ｂ（例えば、入力テンソル２）は、ゲート付きリカレントユニットセル活性化４５１に入力される。例えば、第１の入力テンソル４５０ａ及び第２の入力テンソル４５０ｂは、連結テンソル（例えば、結果テンソル）であり、各々が、例えば、それぞれ、例えば３つの個々のテンソル４５０ａ１～４５０ａ３、及び４５０ｂ１～４５０ｂ３の連結を含み、これらの個々のテンソルの各々が、ゲート付きリカレントユニットセル活性化４５１の演算に入力される。一例として、入力テンソル４５０ａ１、４５０ｂ１は、加算演算４５２ａに入力され；入力テンソル４５０ａ２、４５０ｂ２は、加算演算４５２ｂに入力される。各加算演算は、例えば、ＮＮＰＡ－ＡＤＤ演算に均等であり、その一例が本明細書において説明される。加算演算４５２ａの出力は、シグモイド活性化４５４ａに入力され；加算演算４５２ｂの出力は、シグモイド活性化４５４ｂに入力される。シグモイド活性化４５４ａ、及び４５４ｂは、例えば、ＮＮＰＡ－ＳＩＧＭＯＩＤ関数に均等であり、その一例が本明細書において説明される。シグモイド活性化４５４ａ及び４５４ｂの出力は、それぞれ、乗算演算４５６ａ及び４５６ｂに入力され、これらは、例えば、ＮＮＰＡ－ＭＵＬ関数に均等であり、その一例が本明細書において説明される。乗算演算４５６ａへの別の入力は、入力テンソル４５０ｃである。この例では、入力テンソル４５０ｃは、連結テンソルではなく、直前のタイムステップからの出力である。例えば、入力テンソル４５０ｃは、連結出力テンソルのセル状態部分である。さらに、乗算演算４５６ｂへの別の入力は、入力テンソル４５０ｂ３である。

【0054】

１つの例では、シグモイド関数４５４ａの出力も、１の数値とともに、減算演算４５８に入力される。減算演算の１つの例は、ＮＮＰＡ－ＳＵＢ関数であり、その一例が本明細書において説明される。

【0055】

乗算演算４５６ｂの出力及び入力テンソル４５０ａ３は、加算演算４６０に入力され、これは、例えば、ＮＮＰＡ－ＡＤＤ関数に均等であり、その一例が本明細書において説明される。加算演算４６０の出力は、正接活性化４６２に入力され、これは、例えば、ＮＮＰＡ－ＴＡＮＨ関数に均等であり、その一例が本明細書において説明される。減算演算４５８及び正接活性化４６２の出力は、乗算演算４６４に入力され、これは、例えば、ＮＮＰＡ－ＭＵＬ関数に均等であり、その一例が本明細書において説明される。乗算演算４６４の出力及び乗算演算４５６ａの出力は、加算演算４６６に入力され、これは、例えば、ＮＮＰＡ－ＡＤＤ関数に均等であり、その一例が本明細書において説明される。加算演算４６６の出力は、出力テンソル４６８である。一例として、出力テンソル４６８は、図２Ｄを参照して説明されるもの等の連結出力テンソルである。

【0056】

上記で説明されたように、複数の活性化（例えば、シグモイド、正接）及び他の演算（例えば、加算、減算及び／又は乗算）は、結合され、１つのセル活性化の一部として実行され、これは、単一の命令（例えば、ニューラルネットワーク処理支援命令）の起動に基づいて（例えば、ニューラルネットワークプロセッサ１０５等のアクセラレータ上で）実行される。単一の命令は、個々の活性化及び他の演算を結合するために実装される。これは、中間結果に対する精度を失うことなく、例えば、乗算及び加算演算をともに結合することに起因してより高い正確性を提供する。さらに、より高い精度でアクセラレータに中間計算を保存することによってより高い数値的正確性を達成することができる。加えて、本発明の１つ又は複数の態様によれば、セル活性化の活性化及び他の演算は、連結入力テンソルを作成するのに使用される行列乗算とは別個であり、単一の演算の複雑度が低下し、他のリカレントニューラルネットワークのための基本ブロックの再使用が可能になる。すなわち、（例えば、長短期記憶アーキテクチャ又はゲート付きリカレントユニットアーキテクチャ上の）リカレントニューラルネットワークは、入力特徴（例えば、図２ＢのＸ）及び異なる重みテンソル（例えば、図２Ｂの連結されていない、再フォーマット化されていない重みテンソル）の間の幾つかの行列乗算に依拠し、これに、生成された中間結果に対する幾つかの活性化関数（例えば、図４Ａ～図４Ｂのシグモイド、正接）が後続する。典型的には、行列乗算及び活性化関数は、独立したテンソルバッファ上で別個に実行され、これにより、リカレントニューラルネットワークタイムステップを計算する幾つかの別個の命令がもたらされ、それらの個々の命令の間でデータをコピー／再編成することが要求され得、性能が大幅に低下する。例えば、オンチップアクセラレータ（例えば、ニューラルネットワークプロセッサ１０５）の利点は、アクセラレータ動作間の汎用プロセッサ上のデータ操作が必要とされる場合に、大幅に低下する。これは、より低い帯域幅、要求される直列化及びアクセラレータを開始するためのセットアップ時間に起因する。したがって、本発明の１つ又は複数の態様によれば、リカレントニューラルネットワークのセル活性化を実行するアクセラレータ上での命令によって直接使用されるデータレイアウトフォーマット（例えば、再フォーマット化連結テンソル）が提供される。

【0057】

さらに、１つ又は複数の態様によれば、汎用プロセッサがデータを検査／再構成する必要なくアクセラレータ動作がチェーニングされることを可能にするタイムステップのセル活性化を計算することに基づいて、連結出力テンソルが生成されるデータレイアウトフォーマットが選択される。さらに、命令は、アドレス変換を削減するために空間的に近い入力及び出力ソースを提供する。メモリ内で隣接してデータを配置することによって、必要とされるアドレス変換が少なくなる。これは、アクセラレータ（例えば、ニューラルネットワークプロセッサ１０５）内の処理の速度の全体的な上昇及びより高い精度の上昇に寄与する。

【0058】

全体チェーニング動作の１つの例が、図５Ａ～図５Ｂを参照して説明される。図５Ａ～図５Ｂでは、Ｎｍｂはバッチサイズであり、ｔはタイムステップであり、ｓはサイズであり、ｌは特徴の長さである。この例では、チェーニングを使用するためのセル活性化は、長短期記憶セル活性化５００であり、その一例が図４Ａを参照して本明細書において説明される。しかしながら、他の例では、それは、限定されないが、ゲート付きリカレントユニットセル活性化（その一例が図４Ｂを参照して本明細書において説明される）及び／又は他のセル活性化を含む他のセル活性化であってよい。

【0059】

図５Ａを参照すると、セル活性化５００の出力は、履歴（ｈ）テンソル５０２及びセル状態（ｃ）テンソル５０４を含み、これらは、連結出力テンソル５１０を提供するのに使用される。連結出力テンソルは、次に、セル活性化５００の次のタイムステップに入力される（すなわち、チェーニング）。例えば、連結テンソル５１０の履歴テンソル５１０ａは、行列乗算演算５２０に入力され、連結テンソル５１０のセル状態テンソル５１０ｂは、結合演算５３０（例えば、ＮＮＰＡ－ＢＡＴＣＨＮＯＲＭ等の融合積和演算）に入力される。他の例では、結合演算ではなく個々の演算が使用されてよい。

【0060】

１つの例では、行列乗算演算５２０では、履歴テンソル５１０ａ及び連結重み付き行列５４０が乗算されて、中間結果が提供され、これは、連結バイアステンソル５５０に加算されて（図５Ｂ）、連結テンソル（例えば、入力テンソル２）が提供され、これは、セル活性化５００に入力される。さらに、１つの例では、別の連結テンソル（例えば、入力テンソル１）もセル活性化５００に入力される。入力テンソル１は、本明細書において説明されるとともに図５Ｂを参照して更に説明されるように、複数の重みテンソル５６０を連結して、連結重みテンソル５６２を提供することによって作成される。連結重みテンソル５６２は、例えば、行列乗算ブロードキャスト演算５６４（例えば、ＮＮＰＡ－ＭＡＴＭＵＬ－ＯＰ－ＢＣＡＳＴ２３）を使用して、特徴入力５６６によって乗算されて、中間結果が提供され、これは、例えば、行列乗算ブロードキャスト演算５６４を使用して、連結バイアステンソル５７０に加算されて、結果として得られる入力テンソル１が提供される。連結バイアステンソル５７０は、本明細書において説明されるように、複数のバイアステンソル５７２から作成される。

【0061】

連結重みテンソル５６２、連結バイアステンソル５７０及び／又は連結出力テンソル５１０（図５Ａ）は、本発明の１つ又は複数の態様によれば、例えば、再フォーマット化テンソルである。再フォーマット化テンソルは、本明細書において説明されるように、メモリ境界（例えば、ページ境界）上で開始し、選択されたサイズのテンソルを完成させるためのパディングを含む。例えば、テンソルが選択された数の行（例えば、３２行）を含むことになり、かつ再フォーマット化テンソルがより少ない行を有する場合、テンソルが選択された数の行を含むまでパディングされた行が追加される。加えて、及び／又は代替的には、１つの例では、各行は、選択された数の要素（例えば、６４個の要素）を含むことになり、或る行が、当該行が含むことができるよりも少ない要素を有する場合、当該行が選択された数の要素を含むまで当該行にパディングが追加される。

【0062】

連結テンソル（例えば、連結テンソルの個々のテンソル）の層は、セル活性化への入力として選択される。例えば、図５Ａを参照すると、入力テンソル１の個々の入力テンソルは、特定の演算に入力されるために選択される（５２５）。他の例が可能である。

【0063】

本発明の１つ又は複数の態様によれば、再フォーマット化テンソル及び／又は連結テンソルの作成及び／又は使用を可能にする、及び／又は命令の単一の起動によって実行されるセル活性化における活性化及び演算を組み合わせるデータレイアウトフォーマットをサポートする単一の設計された命令が提供される。そのような命令の１つの例は、ニューラルネットワーク処理支援命令である。１つの例では、命令は、汎用プロセッサ（例えば、プロセッサ１０４）上で開始され、命令によって指定される機能は、機能に依存して、汎用プロセッサ及び／又は専用プロセッサ（例えば、ニューラルネットワークプロセッサ１０５）のいずれか一方の上で実行される。例えば、１つの例では、ニューラルネットワーク処理支援命令のクエリ関数は、汎用プロセッサ上で実行され、非クエリ関数は、専用プロセッサ上で実行される。しかしながら、他の変形例が可能である。機能が専用プロセッサ上で実行されることになる（例えば、それは非クエリ関数であるか、又は別の例では、１つ又は複数の選択された機能である）場合、ニューラルネットワーク計算において使用されることになるテンソルデータに関するメモリアドレス情報等の情報が、例えば、機能を実行する際の使用のために汎用プロセッサによって専用プロセッサに提供される。専用プロセッサは、情報を取得し、機能を実行する。機能の実行が完了した後、処理は、汎用プロセッサに戻され、これにより、命令が完了する。他の例では、命令は、１つ又は複数の汎用プロセッサ又は１つ又は複数の専用プロセッサ上で開始、実行及び完了される。他の変形例が可能である。

【0064】

１つの例では、図６Ａを参照すると、ニューラルネットワーク処理支援命令６００は、レジスタ及び拡張演算コード（オペコード）を有するレジスタ演算を示すＲＲＥフォーマットを有する。図６Ａにおいて示されているように、１つの例では、ニューラルネットワーク処理支援命令６００は、ニューラルネットワーク処理支援演算を示す演算コード（オペコード）フィールド６０２（例えば、ビット０～１５）を含む。１つの例では、命令のビット１６～３１は、予約され、ゼロを格納することになる。命令及び／又は命令の機能の本明細書における説明では、特定のロケーション、特定のフィールド及び／又はフィールドの特定のサイズが示される（例えば、特定のバイト及び／又はビット）。しかしながら、他のロケーション、フィールド及び／又はサイズが提供されてよい。さらに、ビットの特定の値、例えば１又はゼロへの設定が指定されてよいが、これは単なる一例である。ビットは、他の例では、設定される場合、反対の値等の異なる値に、又は別の値に設定されてよい。多くの変形例が可能である。

【0065】

１つの例では、命令は、命令によって暗示的に指定される複数の汎用レジスタを使用する。例えば、ニューラルネットワーク処理支援命令６００は、暗示されたレジスタである汎用レジスタ０及び汎用レジスタ１を使用し、これらの例がそれぞれ図６Ｂ及び図６Ｄを参照して説明される。

【0066】

図６Ｂを参照すると、１つの例では、汎用レジスタ０は、関数コードフィールド、及び命令の完了時に更新され得るステータスフィールドを含む。一例として、汎用レジスタ０は、応答コードフィールド６１０（例えば、ビット０～１５）、例外フラグフィールド６１２（例えば、ビット２４～３１）及び関数コードフィールド６１４（例えば、ビット５６～６３）を含む。さらに、１つの例では、汎用レジスタ０のビット１６～２３及び３２～５５は、予約され、ゼロを格納することになる。１つ又は複数のフィールドは、命令によって実行される特定の関数によって使用される。１つの例では、全てのフィールドが全ての関数によって使用されるわけではない。フィールドの各々が以下で説明される。

【0067】

応答コード（ＲＣ）６１０：このフィールド（例えば、ビット位置０～１５）は、応答コードを格納する。ニューラルネットワーク処理支援命令の実行が例えば１の条件コードで完了する場合、応答コードが記憶される。無効入力条件に遭遇すると、非ゼロ値が応答コードフィールドに記憶され、これは、実行中に認識される無効入力条件の原因を示し、選択された条件コード、例えば１が設定される。応答コードフィールドに記憶されるコードは、１つの例では、以下のように定義される：

【0068】

応答コード意味

【0069】

０００１パラメータブロックバージョン番号によって指定されるような、パラメータブロックのフォーマットは、モデルによってサポートされない。

【0070】

０００２指定された関数は、定義されないか又は機械上にインストールされない。

【0071】

００１０指定されたテンソルデータレイアウトフォーマットは、サポートされない。

【0072】

００１１指定されたテンソルデータタイプは、サポートされない。

【0073】

００１２指定された単一のテンソル次元は、最大次元インデックスサイズよりも大きい。

【0074】

００１３指定されたテンソルのサイズは、最大テンソルサイズよりも大きい。

【0075】

００１４指定されたテンソルアドレスは、４Ｋバイト境界上に整列されない。

【0076】

００１５関数固有保存エリアアドレスは、４Ｋバイト境界上に整列されない。

【0077】

Ｆ０００－ＦＦＦＦ関数固有応答コード。これらの応答コードは、特定の関数のために定義される。

【0078】

例外フラグ（ＥＦ）６１２：このフィールド（例えば、ビット位置２４～３１）は、例外フラグを含む。例外条件が命令の実行中に検出される場合、対応する例外フラグ制御（例えば、ビット）は、例えば、１に設定されることになり；そうではない場合、制御は、不変のままである。例外フラグフィールドは、命令の第１の起動に先立ってゼロに初期化されることになる。予約済みフラグは、命令の実行中に不変である。例外フラグフィールドに記憶されるフラグは、１つの例では、以下のように定義される：

【0079】

ＥＦ（ビット）意味

【0080】

０範囲違反。このフラグは、非数字値が、入力テンソルにおいて検出されたか、又は出力テンソルに記憶されたかのいずれかである場合に、設定される。このフラグは、例えば、命令が条件コード、例えば０で完了する場合にのみ有効である。

【0081】

１～７予約済み。

【0082】

関数コード（ＦＣ）６１４：このフィールド（例えば、ビット位置５６～６３）は、関数コードを含む。ニューラルネットワーク処理支援命令のための割り当てられた関数コードの例は、図６Ｃにおいて示されている。他の全ての関数コードは不変である。割り当てられていない又はインストールされていない関数コードが指定される場合、例えば０００２ｈｅｘの応答コード、及び例えば１の選択された条件コードが設定される。このフィールドは、実行中に修正されない。

【0083】

示されているように、汎用レジスタ０に加えて、ニューラルネットワーク処理支援命令は、汎用レジスタ１も使用し、その一例が図６Ｄにおいて示されている。例として、２４ビットアドレス指定モードにおけるビット４０～６３、３１ビットアドレス指定モードにおけるビット３３～６３又は６４ビットアドレス指定モードにおけるビット０～６３は、パラメータブロック６２０のアドレスを含む。汎用レジスタ１のコンテンツは、例えば、ストレージにおけるパラメータブロックの最も左のバイトの論理アドレスを指定する。パラメータブロックは、ダブルワード境界上で指定されることになり；そうではない場合、指定例外が認識される。全ての関数について、汎用レジスタ１のコンテンツは、修正されない。

【0084】

アクセスレジスタモードにおいて、アクセスレジスタ１は、一例として、パラメータブロック、入力テンソル、出力テンソル及び関数固有保存エリアを格納するアドレス空間を指定する。

【0085】

１つの例では、パラメータブロックは、実行されることになる命令によって指定される関数に依存して異なるフォーマットを有してよい。例えば、クエリ関数は、１つのフォーマットのパラメータブロックを有し、命令の他の関数は、別のフォーマットのパラメータブロックを有する。別の例では、全ての関数が、同じパラメータブロックフォーマットを使用する。他の変形例も可能である。

【0086】

ＮＮＰＡクエリ利用可能関数（ＱＡＦ）演算等のクエリ関数によって使用されるパラメータブロックの１つの例は、図６Ｅを参照して説明される。示されているように、１つの例では、ＮＮＰＡクエリ利用可能関数パラメータブロック６３０は、例えば、以下を含む：

【0087】

インストール済み関数ベクトル６３２：パラメータブロックのこのフィールド（例えば、バイト０～３１）は、インストール済み関数ベクトルを含む。１つの例では、インストール済み関数ベクトルのビット０～２５５は、それぞれ、ニューラルネットワーク処理支援命令の関数コード０～２５５に対応する。ビットが例えば１である場合、対応する関数はインストールされ；そうではない場合、関数はインストールされない。

【0088】

インストール済みパラメータブロックフォーマットベクトル６３４：パラメータブロックのこのフィールド（例えば、バイト３２～４７）は、インストール済みパラメータブロックフォーマットベクトルを含む。１つの例では、インストール済みパラメータブロックフォーマットベクトルのビット０～１２７は、ニューラルネットワーク処理支援命令の非クエリ関数のためのパラメータブロックフォーマット０～１２７に対応する。ビットが例えば１である場合、対応するパラメータブロックフォーマットはインストールされ；そうではない場合、パラメータブロックフォーマットはインストールされない。

【0089】

インストール済みデータタイプ６３６：パラメータブロックのこのフィールド（例えば、バイト４８～４９）は、インストール済みデータタイプベクトルを含む。１つの例では、インストール済みデータタイプベクトルのビット０～１５は、インストールされているデータタイプに対応する。ビットが例えば１である場合、対応するデータタイプはインストールされ；そうではない場合、データタイプはインストールされない。例示のデータタイプは、以下を含む（追加の、より少ない及び／又は他のデータタイプが可能である）：

【0090】

ビットデータタイプ

【0091】

０ＮＮＰデータタイプ１

【0092】

１～１５予約済み

【0093】

インストール済みデータレイアウトフォーマット６３８：パラメータブロックのこのフィールド（例えば、バイト５２～５５）は、インストール済みデータレイアウトフォーマットベクトルを含む。１つの例では、インストール済みデータレイアウトフォーマットベクトルのビット０～３１は、インストールされているデータレイアウトフォーマットに対応する。ビットが例えば１である場合、対応するデータレイアウトフォーマットはインストールされ；そうではない場合、データレイアウトフォーマットはインストールされない。例示のデータレイアウトフォーマットは、以下を含む（追加の、より少ない及び／又は他のデータタイプが可能である）：

【0094】

ビットデータレイアウトフォーマット

【0095】

０４Ｄ特徴テンソル

【0096】

１４Ｄカーネルテンソル

【0097】

２～３１予約済み

【0098】

最大次元インデックスサイズ６４０：パラメータブロックのこのフィールド（例えば、バイト６０～６３）は、例えば、任意の指定されたテンソルのために指定された次元インデックスサイズにおける要素の最大数を指定する３２ビット符号なしバイナリ整数を含む。別の例では、最大次元インデックスサイズは、任意の指定されたテンソルのために指定された次元インデックスサイズにおけるバイトの最大数を指定する。他の例も可能である。

【0099】

最大テンソルサイズ６４２：パラメータブロックのこのフィールド（例えば、バイト６４～７１）は、例えば、テンソルフォーマットによって要求される任意のパッドバイトを含む任意の指定されたテンソルにおけるバイトの最大数を指定する３２ビット符号なしバイナリ整数を含む。別の例では、最大テンソルサイズは、テンソルフォーマットによって要求される任意のパディングを含む任意の指定されたテンソルにおける総要素の最大数を指定する。他の例も可能である。

【0100】

インストール済みＮＮＰデータタイプ１変換ベクトル３４４：パラメータブロックのこのフィールド（例えば、バイト７２－７３）は、インストール済みＮＮＰデータタイプ１変換ベクトルを含む。１つの例では、インストール済みＮＮＰデータタイプ１変換ベクトルのビット０～１５は、ＮＮＰデータタイプ１フォーマットに対するインストール済みデータタイプ変換に対応する。ビットが１である場合、対応する変換はインストールされ；そうではない場合、変換はインストールされない。追加の、より少ない及び／又は他の変換が指定されてよい。

【0101】

ビットデータタイプ

【0102】

０予約済み

【0103】

１ＢＦＰタイニーフォーマット

【0104】

２ＢＦＰショートフォーマット

【0105】

３～１５予約済み

【0106】

クエリ関数のためのパラメータブロックの１つの例が図６Ｅを参照して説明されているが、ＮＮＰＡクエリ利用可能関数演算を含むクエリ関数のためのパラメータブロックの他のフォーマットが使用されてよい。フォーマットは、１つの例では、実行されることになるクエリ関数のタイプに依存してよい。さらに、パラメータブロック及び／又はパラメータブロックの各フィールドは、追加の、より少ない及び／又は他の情報を含んでよい。

【0107】

クエリ関数のためのパラメータブロックに加えて、１つの例では、ニューラルネットワーク処理支援命令の非クエリ関数等の非クエリ関数のためのパラメータブロックフォーマットが存在する。ニューラルネットワーク処理支援命令の非クエリ関数等の非クエリ関数によって使用されるパラメータブロックの１つの例は、図６Ｆを参照して説明される。

【0108】

示されているように、１つの例では、例えばニューラルネットワーク処理支援命令の非クエリ関数によって利用されるパラメータブロック６５０は、例えば、以下を含む：

【0109】

パラメータブロックバージョン番号６５２：パラメータブロックのこのフィールド（例えば、バイト０～１）は、パラメータブロックのバージョン及びサイズを指定する。１つの例では、パラメータブロックバージョン番号のビット０～８は、予約され、ゼロを格納することになり、パラメータブロックバージョン番号のビット９～１５は、パラメータブロックのフォーマットを指定する符号なしバイナリ整数を格納する。クエリ関数は、利用可能なパラメータブロックフォーマットを示すメカニズムを提供する。指定されるパラメータブロックのサイズ又はフォーマットがモデルによってサポートされない場合、例えば０００１ｈｅｘの応答コードは汎用レジスタ０に記憶され、命令は条件コード、例えば条件コード１を設定することによって完了する。パラメータブロックバージョン番号は、プログラムによって指定され、命令の実行中に修正されない。

【0110】

モデルバージョン番号６５４：パラメータブロックのこのフィールド（例えば、バイト２）は、命令（例えば、特定の非クエリ関数）を実行したモデルを識別する符号なしバイナリ整数である。継続フラグ（以下で説明される）が１である場合、モデルバージョン番号は、演算を再開するためにパラメータブロックの継続状態バッファフィールド（以下で説明される）のコンテンツを解釈する目的での演算への入力であってよい。

【0111】

継続フラグ６５６：パラメータブロックのこのフィールド（例えば、ビット６３）、例えば１は、演算が部分的に完了していることを示し、継続状態バッファのコンテンツは、演算を再開するのに使用されてよい。プログラムは、継続フラグをゼロに初期化することであり、命令が演算を再開する目的で再実行されることになる場合には、継続フラグを変更せず；そうではない場合、結果は、予測不能である。

【0112】

継続フラグが演算の開始時に設定され、かつパラメータブロックのコンテンツが初期起動から変化している場合、結果は、予測不能である。

【0113】

関数固有保存エリアアドレス６５８：パラメータブロックのこのフィールド（例えば、バイト５６～６３）は、関数固有保存エリアの論理アドレスを含む。１つの例では、関数固有保存エリアアドレスは、４Ｋバイト境界上に整列されることになり；そうではない場合、例えば００１５ｈｅｘの応答コードは、汎用レジスタ０において設定され、命令は、例えば１の条件コードで完了する。アドレスは、現在のアドレス指定モードを受ける。関数固有保存エリアのサイズは、関数コードに依存する。

【0114】

関数固有保存エリア全体がプログラムイベント記録（ＰＥＲ）ストレージエリア指定に重複する場合、ＰＥＲストレージ変更イベントが、適用可能な場合、関数固有保存エリアのために認識される。関数固有保存エリアの一部分のみがＰＥＲストレージエリア指定に重複する場合、以下のいずれが発生するかはモデル依存である：

【0115】

＊ＰＥＲストレージ変更イベントは、適用可能な場合、関数固有保存エリア全体のために認識される。

【0116】

＊ＰＥＲストレージ変更イベントは、適用可能な場合、記憶される関数固有保存エリアの一部分のために認識される。

【0117】

パラメータブロック全体がＰＥＲストレージエリア指定に重複する場合、ＰＥＲストレージ変更イベントは、適用可能な場合、パラメータブロックのために認識される。パラメータブロックの一部分のみがＰＥＲストレージエリア指定に重複する場合、以下のいずれが発生するかはモデル依存である：

【0118】

＊ＰＥＲストレージ変更イベントは、適用可能な場合、パラメータブロック全体のために認識される。

【0119】

＊ＰＥＲストレージ変更イベントは、適用可能な場合、記憶されるパラメータブロックの一部分のために認識される。

【0120】

ＰＥＲゼロアドレス検出イベントは、適用可能な場合、パラメータブロックのために認識される。ゼロアドレス検出は、１つの例では、テンソルアドレス又は関数固有保存エリアアドレスに適用しない。

【0121】

出力テンソル記述子（例えば、１～２）６６０／入力テンソル記述子（例えば、１～３）６６５：テンソル記述子の１つの例は、図６Ｇを参照して説明される。１つの例では、テンソル記述子６６０、６６５は、以下を含む：

【0122】

データレイアウトフォーマット６８２：テンソル記述子のこのフィールド（例えば、バイト０）は、データレイアウトフォーマットを指定する。有効データレイアウトフォーマットは、例えば、以下を含む（追加の、より少ない及び／又は他のデータレイアウトフォーマットが可能である）：

【0123】

フォーマット記述整列（バイト）

【0124】

０４Ｄ特徴テンソル４０９６

【0125】

１４Ｄカーネルテンソル４０９６

【0126】

２～２５５予約済み

【0127】

サポートされていない又は予約されたデータレイアウトフォーマットが指定される場合、例えば００１０ｈｅｘの応答コードは、汎用レジスタ０に記憶され、命令は、条件コード、例えば１を設定することによって完了する。

【0128】

データタイプ６８４：このフィールド（例えば、バイト１）は、テンソルのデータタイプを指定する。サポートされたデータタイプの例は、以下で説明される（追加の、より少ない及び／又は他のデータタイプが可能である）：

【0129】

値データタイプデータサイズ（ビット）

【0130】

０ＮＮＰデータタイプ１１６

【0131】

１～２５５予約済み

【0132】

サポートされていない又は予約されたデータタイプが指定される場合、例えば００１１ｈｅｘの応答コードは、汎用レジスタ０に記憶され、命令は、条件コード、例えば１を設定することによって完了する。

【0133】

次元１～４インデックスサイズ６８６：集合的に、次元インデックスサイズ１～４（例えば、Ｅ４、Ｅ３、Ｅ２、Ｅ１）は、４Ｄテンソルの形状を指定する。各次元インデックスサイズは、ゼロよりも大きく、かつ最大次元インデックスサイズ未満か又はこれに等しいことになり（６４０、図６Ｅ）；そうではない場合、例えば００１２ｈｅｘの応答コードは、汎用レジスタ０に記憶され、命令は、条件コード、例えば１を設定することによって完了する。総テンソルサイズは、最大テンソルサイズ未満か又はこれに等しいことになり（６４２、図６Ｅ）；そうではない場合、例えば００１３ｈｅｘの応答コードは、汎用レジスタ０に記憶され、命令は、条件コード、例えば１を設定することによって完了する。

【0134】

１つの例では、ＮＮＰＡデータタイプ１（すなわち、総テンソルサイズ）の要素を有する４Ｄ特徴テンソルにおけるバイトの数を判定するために、以下が使用される：次元インデックス４＊次元インデックス３＊ｃｅｉｌ（次元インデックス２／３２）＊３２＊ｃｅｉｌ（次元インデックス１／６４）＊６４＊２。

【0135】

テンソルアドレス６８８：テンソル記述子のこのフィールド（例えば、バイト２４～３１）は、テンソルの最も左のバイトの論理アドレスを含む。アドレスは、現在のアドレス指定モードを受ける。

【0136】

アドレスが関連付けられたデータレイアウトフォーマットの境界上に整列されない場合、例えば００１４ｈｅｘの応答コードは、汎用レジスタ０に記憶され、命令は、条件コード、例えば１を設定することによって完了する。

【0137】

アクセスレジスタモードでは、アクセスレジスタ１は、ストレージにおいて全てのアクティブ入力及び出力テンソルを格納するアドレス空間を指定する。

【0138】

図６Ｆに戻ると、パラメータブロック６５０は、１つの例では、関数固有パラメータ１～５（６７０）を更に含み、これらは、本明細書において説明されるように、固有関数によって使用されてよい。

【0139】

さらに、パラメータブロック６５０は、１つの例では、継続状態バッファフィールド６７５を含み、これは、この命令の動作が再開されることになる場合に使用されることになるデータ（又はデータのロケーション）を含む。

【0140】

動作への入力として、パラメータブロックの予約済みフィールドは、ゼロを格納するべきである。動作が終了すると、予約済みフィールドは、ゼロとして記憶され、又は不変のままであってよい。

【0141】

非クエリ関数のためのパラメータブロックの１つの例が図６Ｆを参照して説明されているが、ニューラルネットワーク処理支援命令の非クエリ関数を含む非クエリ関数のためのパラメータブロックの他のフォーマットが使用されてよい。フォーマットは、１つの例では、実行されることになる関数のタイプに依存してよい。さらに、テンソル記述子の１つの例が図６Ｇを参照して説明されているが、他のフォーマットが使用されてよい。さらに、入力及び出力テンソルのための異なるフォーマットが使用されてよい。他の変形例が可能である。

【0142】

ニューラルネットワーク処理支援命令の１つの実施形態によってサポートされる様々な関数に関する更なる詳細が以下で説明される。追加の、より少ない及び／又は他の関数がサポートされてよい。

【0143】

関数コード０：ＮＮＰＡ－ＱＡＦ（クエリ利用可能関数）

【0144】

ニューラルネットワーク処理支援（ＮＮＰＡ）クエリ関数は、例えば、インストール済み関数の可用性、インストール済みパラメータブロックフォーマット、インストール済みデータタイプ、インストール済みデータレイアウトフォーマット、最大次元インデックスサイズ及び最大テンソルサイズ等の選択された情報を示すメカニズムを提供する。情報は、パラメータブロック（例えば、パラメータブロック６３０）等の選択されたロケーションにおいて取得及び配置される。動作が終了すると、パラメータブロックの予約済みフィールドは、ゼロとして記憶されてよく、又は不変のままであってよい。

【0145】

クエリ関数の１つの実施形態の実行において、汎用プロセッサ１０４等のプロセッサは、ニューラルネットワークプロセッサ１０５等のニューラルネットワークプロセッサの特定のモデル等の選択されたプロセッサの特定のモデルに関する情報を取得する。プロセッサ又は機械の特定のモデルは、特定の能力を有する。プロセッサ又は機械の別のモデルは、追加の、より少ない及び／又は異なる能力を有するか、及び／又は追加の、より少ない及び／又は異なる能力を有する異なる世代（例えば、現行の又は将来の世代）のものであってよい。取得される情報は、パラメータブロック（例えば、パラメータブロック６３０）、又は、更なる処理においてこの情報を使用し得る１つ又は複数のアプリケーションにとってアクセス可能な及び／又はこれらとともに使用される他の構造に配置される。１つの例では、パラメータブロック及び／又はパラメータブロックの情報は、メモリにおいて維持される。他の実施形態では、パラメータブロック及び／又は情報は、１つ又は複数のハードウェアレジスタにおいて維持されてよい。別の例として、クエリ関数は、オペレーティングシステムによって実行される優先動作であってよく、これは、この情報をアプリケーション又は非優先プログラムにとって利用可能にするためにアプリケーションプログラミングインターフェースを利用可能にする。また更なる例では、クエリ関数は、ニューラルネットワークプロセッサ１０５等の専用プロセッサによって実行される。他の変形例が可能である。

【0146】

情報は、例えば、クエリ関数を実行するプロセッサのファームウェアによって取得される。ファームウェアは、特定のプロセッサ（例えば、ニューラルネットワークプロセッサ）の特定のモデルの属性の知識を有する。この情報は、例えば、制御ブロック、レジスタ及び／又はメモリに記憶され、及び／又は別様にクエリ関数を実行するプロセッサにとってアクセス可能であってよい。

【0147】

取得される情報は、例えば、特定のプロセッサの少なくとも１つ又は複数のデータ属性に関するモデル依存詳細情報を含み、これは、例えば、１つ又は複数のインストール済み又はサポートされるデータタイプ、１つ又は複数のインストール済み又はサポートされるデータレイアウトフォーマット及び／又は特定のプロセッサの選択されたモデルの１つ又は複数のインストール済み又はサポートされるデータサイズを含む。この情報は、他のモデル（例えば、以前のモデル及び／又は将来のモデル）が同じデータタイプ、データサイズ、及び／又はデータレイアウトフォーマット等の同じデータ属性をサポートしない場合があるという点でモデル依存である。クエリ関数（例えば、ＮＮＰＡ－ＱＡＦ関数）の実行が完了すると、一例として、条件コード０が設定される。条件コード１、２及び３は、１つの例では、クエリ関数に適用可能ではない。取得される情報に関する更なる情報が以下で説明される。

【0148】

示されているように、１つの例では、取得される情報は、例えば、ニューラルネットワークプロセッサの特定のモデルの１つ又は複数のデータ属性に関するモデル依存情報を含む。データ属性の１つの例は、ニューラルネットワークプロセッサのインストール済みデータタイプである。例えば、ニューラルネットワークプロセッサ（又は他のプロセッサ）の特定のモデルは、例として、ＮＮＰデータタイプ１データタイプ（ニューラルネットワーク処理データタイプ１データタイプとも称される）及び／又は他のデータタイプ等の１つ又は複数のデータタイプをサポートしてよい。ＮＮＰデータタイプ１データタイプは、深層学習トレーニング及び推論計算のための複数の利点を提供する１６ビット浮動小数点フォーマットであり、これは、例えば：深層学習ネットワークの正確性を保存し；丸めモード及びコーナケースのハンドリングを単純化する異常フォーマットをなくし：算術演算のために最近傍値に自動的に丸めること；及び無限及び非数（ＮａＮ）の特別なエンティティが１つの値に結合される（ＮＩＮＦ）ことを含み、これは、算術演算によって受け入れられてハンドリングされる。ＮＩＮＦは、指数オーバフロー及び無効演算（ゼロによる除算等）のためのより良好なデフォルトを提供する。これにより、多くのプログラムが、そのようなエラーを隠すことなく、かつ特別な例外ハンドラを使用することなく実行を継続することが可能になる。他のモデル依存データタイプも可能である。

【0149】

ＮＮＰデータタイプ１データタイプのフォーマットの１つの例が図７において示されている。示されているように、１つの例では、ＮＮＰデータタイプ１データは、フォーマット７００において表されてよく、これは、例えば、符号７０２（例えば、ビット０）、指数部＋３１７０４（例えば、ビット１～６）及び小数部７０６（例えば、ビット７～１５）を含む。

【0150】

ＮＮＰデータタイプ１フォーマットの例示の特性は、以下で示される：

【0151】

特性ＮＮＰデータタイプ１

【0152】

フォーマット長さ（ビット）１６ビット

【0153】

バイアス付き指数部長（ビット）６ビット

【0154】

小数部長（ビット）９ビット

【0155】

精度（ｐ）１０ビット

【0156】

最大左単位表示指数（指数）Ｅｍａｘ３２

【0157】

最小左単位表示指数（指数）Ｅｍｉｎ－３１

【0158】

左単位表示（ＬＵＶ）バイアス３１

【0159】

【数5】

【0160】

【数6】

【0161】

Ｄｍｉｎ ―――

【0162】

【数7】

が、値が近似であることを示す場合、Ｎｍａｘは、（大きさにおける）最大の表現可能な有限数であり、Ｎｍｉｎは、（大きさにおける）最小の表現可能な数である。

【0163】

ＮＮＰデータタイプ１データタイプに関する更なる詳細が以下で説明される：

【0164】

バイアス付き指数部：指数が符号なし数として表現されることを可能にするのに使用されるバイアスは、上記で示されている。バイアス付き指数部は、ＮＮＰデータタイプ１データタイプのクラスを参照して以下で説明されるように、全てゼロ及び全て１のバイアス付き指数部に特別な意味が付与されない点を除いて、バイナリ浮動小数点フォーマットの特性と同様である。

【0165】

仮数：ＮＮＰデータタイプ１数のバイナリ小数点は、最も左の小数部ビットの左にあるとみなされる。バイナリ小数点の左には、暗示された単位ビットが存在し、これは、正規数については１及びゼロについてはゼロであるとみなされる。暗示された単位ビットが左にアペンドされた小数部は、数の仮数である。

【0166】

正規ＮＮＰデータタイプ１の値は、底２をバイアスなし指数部のべき乗したものによって乗算された仮数である。

【0167】

非ゼロ数の値：非ゼロ数の値が以下で示される：

【0168】

数クラス値

【0169】

正規数 ±２^ｅ－３１×（１．ｆ）

【0170】

ここで、ｅは、十進数において示されるバイアス付き指数部であり、ｆは、バイナリにおける小数部である。

【0171】

１つの実施形態では、数値及び関連する非数値エンティティを含むＮＮＰデータタイプ１データの３つのクラスが存在する。各データアイテムは、符号、指数部及び仮数を含む。指数部は、全てのバイアス付き指数部が非負の符号なし数であり、最小のバイアス付き指数部がゼロであるようにバイアスされる。仮数は、明示的な小数部、及びバイナリ小数点の左に対する暗示的な単位ビットを含む。符号ビットは、プラスについてはゼロであり、マイナスについては１である。

【0172】

許容される全ての非ゼロの有限数は、一意のＮＮＰデータタイプ１表現を有する。非正規化数は存在せず、この数は、同じ値について複数の表現を可能にし得、非正規化算術演算は存在しない。３つのクラスは、例えば、以下を含む：

【0173】

データクラス符号バイアス付き指数部単位ビット＊小数部

【0174】

ゼロ ± ０００

【0175】

正規数 ± ０１非０

【0176】

正規数 ± 非０、全て１ではない１任意

【0177】

正規数 ± 全て１－全て１ではない

【0178】

ＮＩＮＦ ± 全て１－全て１

【0179】

ここで：－は、適用しないことを示し、＊は、単位ビットが暗示されることを示し、ＮＩＮＦは、数又は無限ではない。

【0180】

クラスの各々に関する更なる詳細は、以下で説明される：

【0181】

ゼロ：ゼロは、ゼロのバイアス付き指数部及びゼロ小数部を有する。暗示された単位ビットは、ゼロである。

【0182】

正規数：正規数は、任意の値のバイアス付き指数部を有し得る。バイアス付き指数部が０である場合、小数部は、非ゼロであることになる。バイアス付き指数部が全て１である場合、小数部は、全て１であることにはならない。他のバイアス付き指数部値は、任意の小数部値を有してよい。暗示された単位ビットは、全ての正規数について１である。

【0183】

ＮＩＮＦ：ＮＩＮＦは、全て１のバイアス付き指数部及び全て１の小数部によって表される。ＮＩＮＦは、ＮＮＰデータタイプ１（すなわち、６つの指数部ビット及び９つの小数部ビットを有する深層学習のために設計された１６ビット浮動小数点）における表現可能な値の範囲にはない値を表す。通常、ＮＩＮＦは、それらが最後に可視のままであることになるように計算中に単に伝播される。

【0184】

１つの例ではＮＮＰデータタイプ１データタイプがサポートされているが、他の特別な又は非標準データタイプ、並びに、限定されないが：幾つかの例を挙げると、ＩＥＥＥ７５４短精度バイナリ浮動小数点１６ビット、ＩＥＥＥ半精度浮動小数点、８ビット浮動小数点、４ビット整数フォーマット及び／又は８ビット整数フォーマットを含む１つ又は複数の標準データタイプもサポートされ得る。これらのデータフォーマットは、ニューラルネットワーク処理について異なる品質を有する。一例として、より小さいデータタイプ（例えば、より少ないビット）は、より速く処理され得るとともにより少ないキャッシュ／メモリを使用し、より大きいデータタイプは、ニューラルネットワークにおいてより高い結果の正確性を提供する。サポートされることになる各データタイプは、クエリパラメータブロックにおいて（例えば、パラメータブロック６３０のインストール済みデータタイプフィールド６３６において）１つ又は複数の割り当てられたビットを有してよい。例えば、特定のプロセッサによってサポートされる特別な又は非標準データタイプは、インストール済みデータタイプフィールドにおいて示されるが、標準データタイプは示されない。他の実施形態では、１つ又は複数の標準データタイプも示される。他の変形例が可能である。

【0185】

１つの特定の例では、インストール済みデータタイプフィールド６３６のビット０は、ＮＮＰデータタイプ１データタイプのために予約され、それが、例えば１に設定される場合、それは、プロセッサがＮＮＰデータタイプ１をサポートすることを示す。１つの例では、インストール済みデータタイプのビットベクトルは、最大で１６個のデータタイプを表すように構成されており、ここで、ビットは、各データタイプに割り当てられる。しかしながら、他の実施形態におけるビットベクトルは、より多くの又はより少ないデータタイプをサポートしてよい。さらに、ベクトルが構成されてよく、ここで、１つ又は複数のビットが１つのデータタイプに割り当てられる。多くの例が可能であり、及び／又は追加の、より少ない及び／又は他のデータタイプがサポートされ、及び／又はベクトルにおいて示されてよい。

【0186】

１つの例では、クエリ関数は、モデル依存プロセッサ上にインストールされたデータタイプのインジケーションを取得し、例えば、１つ又は複数のビットをパラメータブロック６３０のインストール済みデータタイプフィールド６３６おいてに設定することによって、インジケーションをパラメータブロックに配置する。さらに、１つの例では、クエリ関数は、インストール済みデータレイアウトフォーマット（別のデータ属性）のインジケーションを取得し、例えば、１つ又は複数のビットをインストール済みデータレイアウトフォーマットフィールド６３８において設定することによって、情報をパラメータブロックに配置する。例示のデータレイアウトフォーマットは、例えば、４Ｄ特徴テンソルレイアウト及び４Ｄカーネルテンソルレイアウトを含む。これらのデータレイアウトフォーマットは、ニューラルネットワーク処理支援命令の関数の実行の処理効率性を高める方法でテンソルのためにストレージにおいてデータを配置する。例えば、効率的に動作するために、ニューラルネットワーク処理支援命令は、特定のデータレイアウトフォーマットにおいて提供される入力テンソルを使用する。例示のレイアウトが提供されているが、追加の、より少ない及び／又は他のレイアウトが、本明細書において説明される関数及び／又は他の関数のために提供されてよい。

【0187】

特定のプロセッサモデルのためのレイアウトの使用又は可用性は、インストール済みデータレイアウトフォーマットのベクトル（例えば、パラメータブロック６３０のフィールド６３８）によって提供される。ベクトルは、例えば、ＣＰＵがいずれのレイアウトがサポートされるのかをアプリケーションに伝達することを可能にするインストール済みデータレイアウトフォーマットのビットベクトルである。例えば、ビット０は、４Ｄ特徴テンソルレイアウトのために予約され、それが、例えば１に設定される場合、それは、プロセッサが４Ｄ特徴テンソルレイアウトをサポートすることを示し；ビット１は、４Ｄカーネルテンソルレイアウトのために予約され、それが、例えば１に設定される場合、それは、プロセッサが４Ｄカーネルテンソルレイアウトをサポートすることを示す。１つの例では、インストール済みデータレイアウトフォーマットのビットベクトルは、最大で１６個のデータレイアウトを表すように構成されており、ここで、ビットは、各データレイアウトに割り当てられる。しかしながら、他の実施形態におけるビットベクトルは、より多くの又はより少ないデータレイアウトをサポートしてよい。さらに、ベクトルが構成されてよく、ここで、１つ又は複数のビットが１つのデータレイアウトに割り当てられる。多くの例が可能である。４Ｄ特徴テンソルレイアウト及び４Ｄカーネルテンソルレイアウトに関する更なる詳細が以下で説明される。ここでもやはり、他のレイアウトが性能を最適化するためにここで又は将来において使用されてよい。

【0188】

１つの例では、ニューラルネットワーク処理支援命令は、４Ｄテンソル、すなわち、４次元を有するテンソルを用いて、動作する。これらの４Ｄテンソルは、例えば、行優先で、本明細書において説明される汎用入力テンソルから取得され、すなわち、メモリアドレスの昇順でテンソル要素を列挙する場合、Ｅ１と呼ばれる内部次元は、０から開始してＥ１インデックスサイズ１までのＥ１インデックスサイズ値を通してまず増大され、その後、Ｅ２次元のインデックスが増加し、Ｅ１次元を通した増大が繰り返される。Ｅ４次元と呼ばれる外部次元のインデックスは、最後に増加する。

【0189】

より低い数の次元（例えば、３Ｄ又は１Ｄテンソル）を有するテンソルは、元のテンソル次元を超える４Ｄテンソルの１つ又は複数の次元が１に設定された４Ｄテンソルとして表されることになる。

【0190】

次元Ｅ４、Ｅ３、Ｅ２、Ｅ１を有する行優先汎用４Ｄテンソルの、４Ｄ特徴テンソルレイアウト（本明細書においてＮＮＰＡデータレイアウトフォーマット０４Ｄ特徴テンソルとも称される）への変換が本明細書において説明される。

【0191】

結果として得られるテンソルは、例えば、例えば６４要素ベクトルの４Ｄテンソル、又は以下の次元を有する５Ｄテンソルとして表すことができる：

【0192】

【数8】

ここで、

【数9】

は、ｃｅｉｌ関数を指す。（換言すれば：Ｅ４＊Ｅ３＊ｃｅｉｌ（Ｅ２／３２）＊３２＊ｃｅｉｌ（Ｅ１／６４）＊６４要素である。）

【0193】

汎用テンソルの要素［ｅ４］［ｅ３］［ｅ２］［ｅ１］は、結果として得られる５Ｄテンソルの以下の要素にマッピングされてよい：

【0194】

【数10】

ここで、

【数11】

は、床関数であり、ｍｏｄは、モジュロである。（換言すれば：要素

【数12】

であり、ここで、

【数13】

及び

【数14】

である。）

【0195】

結果として得られるテンソルは、汎用テンソルよりも大きくてよい。汎用テンソルにおいて対応する要素を有しない結果として得られるテンソルの要素は、パッド要素と呼ばれる。

【0196】

６４要素ベクトルのＮＮＰＡデータレイアウトフォーマット０４Ｄ特徴テンソルの要素［ｆｅ４］［ｆｅ１］［ｆｅ３］［ｆｅ２］［ｆｅ０］又は要素の５Ｄテンソルとしてのその均等な表現を検討する。この要素は、パッド要素又は汎用４Ｄテンソルにおける対応する要素のいずれかであり、次元Ｅ４、Ｅ３、Ｅ２、Ｅ１は、以下の式を用いて判定することができる：

【0197】

・ｉｆｆｅ２≧Ｅ２ｔｈｅｎこれは、Ｅ２（又はページ）パッド要素である。

【0198】

・ｅｌｓｅｉｆｆｅ１＊６４＋ｆｅ０≧Ｅ１ｔｈｅｎこれは、Ｅ１（又は行）パッド要素である。

【0199】

・ｅｌｓｅ汎用４Ｄテンソルにおける対応する要素は、以下である：

【0200】

［ｆｅ４］［ｆｅ３］［ｆｅ２］［ｆｅ１＊６４＋ｆｅ０］

【0201】

畳み込みニューラルネットワークベース人工知能モデルのために、特徴テンソルの４次元の意味は、概して、以下にマッピングすることができる：

【0202】

Ｅ４：Ｎ－ミニバッチのサイズ

【0203】

Ｅ３：Ｈ－３Ｄテンソル／画像の高さ

【0204】

Ｅ２：Ｗ－３Ｄテンソル／画像の幅

【0205】

Ｅ１：Ｃ－３Ｄテンソルのチャネル又はクラス

【0206】

機械学習又はリカレントニューラルネットワークベース人工知能モデルのために、４Ｄ特徴テンソルの４次元の意味は、概して、以下にマッピングされ得る：

【0207】

・Ｅ４：Ｔ－タイムステップ又はモデルの数

【0208】

・Ｅ３：予約済み、概して１に設定される

【0209】

・Ｅ２：Ｎ_ｍｂ－ミニバッチサイズ

【0210】

・Ｅ１：Ｌ－特徴

【0211】

ＮＮＰＡデータレイアウトフォーマット０は、例えば、データ（ページ）の４ｋバイトブロック並びに生成済みテンソルの外部次元のための４ｋバイトブロックデータ整列を用いて、２次元データ局所性を提供する。

【0212】

パッド要素バイトは、入力テンソルについて無視され、出力テンソルについて予測不能である。パッドバイト上のＰＥＲストレージ変更は、予測不能である。

【0213】

次元Ｅ１、Ｅ２、Ｅ３及びＥ４を有する４Ｄ特徴テンソルレイアウトのための入力データレイアウトの１つの例が図８Ａ～図８Ｃにおいて示されており、４Ｄ特徴テンソルレイアウトのための例示の出力が図９の（Ａ）～図９の（Ｃ）において示されている。図８Ａを参照すると、３Ｄテンソル８００が示されており、これは、次元Ｅ１、Ｅ２及びＥ３を有する。１つの例では、各３Ｄテンソルは、複数の２Ｄテンソル８０２を含む。それゆえ、示されている例では、複数の２Ｄテンソル（例えば、３つの２Ｄテンソル）が、３Ｄテンソルを作成し、複数の３Ｄテンソル（例えば、３つの３Ｄテンソル）が、４Ｄテンソルを作成する。各２Ｄテンソル８０２における数は、その要素の各々がメモリ内にあるメモリオフセットを記述する。入力は、図８Ａ～図８Ｃに対応する図９の（Ａ）～図９の（Ｃ）において示されているように、メモリにおける元のテンソル（例えば、図８Ａ～図８Ｃの元の４Ｄテンソル）のデータをレイアウトするのに使用される。

【0214】

図９の（Ａ）では、一例として、メモリ９００のユニット（例えば、メモリページ）は、事前選択された数（例えば、３２）の行９０２を含み、その各々は、例えば、ｅ２＿ｐａｇｅ＿ｉｄｘによって識別され；各行は、例えばｅ１＿ｐａｇｅ＿ｉｄｘによって各々が識別される事前選択された数（例えば、６４）の要素９０４を有する。行が事前選択された数の要素を含まない場合、それはパディングされ（９０６）、行又はＥ１パディングと称され；メモリユニットが事前選択された数の行を有しない場合、それはパディングされ（９０８）、ページ又はＥ２パディングと称される。例として、行パディングは、例えば、ゼロ又は他の値であり、ページパディングは、例えば、既存の値、ゼロ、又は他の値である。

【0215】

１つの例では、行の出力要素は、その対応する入力のＥ１方向における要素位置に基づいてメモリにおいて（例えば、ページにおいて）提供される。例えば、図８Ａを参照すると、示されている３つの行列の要素位置０、１及び２（例えば、各行列における同じロケーションにおける要素位置）は、図９の（Ａ）のページ０の行０等おいて示されている等である。この例では、４Ｄテンソルは、小さく、４Ｄテンソルを表す各２Ｄテンソルの要素の全てが１つのページに収まる。しかしながら、これは単なる１つの例である。２Ｄテンソルは、１つ又は複数のページを含んでよい。図３Ａにおいて示されているように、その例における２Ｄテンソルは、１２個のページを含む。しかしながら、それは単なる１つの例である。ここでもやはり、２Ｄテンソルは、１つ又は複数のページを含んでよい。２Ｄテンソルが４Ｄテンソルの再フォーマット化に基づいて作成される場合、２Ｄテンソルのページの数は、４Ｄテンソルのサイズに基づく。１つの例では、１つ又は複数のｃｅｉｌ関数は、２Ｄテンソルにおける行の数及び各行における要素の数を判定するのに使用され、これは、使用されることになるページの数を示すことになる。他の変形例が可能である。

【0216】

再フォーマット化２Ｄテンソル（例えば、連結される）は、本発明の１つ又は複数の態様によれば、４Ｄ特徴テンソルレイアウトに基づき、本明細書において説明されるように、メモリに記憶される。セル活性化に入力される２Ｄテンソルは、例えば、Ｅ３及びＥ４が１に設定される４Ｄテンソルである。

【0217】

４Ｄ特徴テンソルレイアウトに加えて、１つの例では、ニューラルネットワークプロセッサは、４Ｄカーネルテンソルをサポートしてよく、これは、畳み込み等の人工知能（例えば、ニューラルネットワーク処理支援）動作を実行するときにメモリアクセスの数及びデータ収集段階を削減するために４Ｄテンソルの要素を再配置する。一例として、次元Ｅ４、Ｅ３、Ｅ２、Ｅ１を有する行優先の汎用４Ｄテンソルは、本明細書において説明されるように、ＮＮＰＡデータレイアウトフォーマット１４Ｄカーネルテンソル（４Ｄカーネルテンソル）に変換される：

【0218】

結果として得られるテンソルは、例えば６４要素ベクトルの４Ｄテンソル、又は以下の次元を有する５Ｄテンソルとして表すことができる：

【0219】

【数15】

ここで、

【数16】

は、ｃｅｉｌ関数を指す。（換言すれば：Ｅ４＊Ｅ３＊ｃｅｉｌ（Ｅ２／３２）＊３２＊ｃｅｉｌ（Ｅ１／６４）＊６４要素である。）

【0220】

汎用テンソルの要素［ｅ４］［ｅ３］［ｅ２］［ｅ１］は、結果として得られる５Ｄテンソルの以下の要素にマッピングされてよい：

【0221】

【数17】

ここで、

【数18】

は、床関数を指し、ｍｏｄは、モジュロである。換言すれば：要素

【数19】

であり、ここで、

【数20】

及び

【数21】

である。

【0222】

【0223】

６４要素ベクトルのＮＮＰＡデータレイアウトフォーマット１４Ｄ特徴テンソルの要素［ｆｅ１］［ｆｅ４］［ｆｅ３］［ｆｅ２］［ｆｅ０］又は要素の５Ｄテンソルとしてのその均等な表現を検討する。この要素は、パッド要素又は汎用４Ｄテンソルにおけるその対応する要素のいずれかであり、次元Ｅ４、Ｅ３、Ｅ２、Ｅ１は、以下の式を用いて判定することができる：

【0224】

ｉｆｆｅ２≧Ｅ２ｔｈｅｎこれは、Ｅ２（又はページ）パッド要素である

【0225】

ｅｌｓｅｉｆｆｅ１＊６４＋ｆｅ０≧Ｅ１ｔｈｅｎこれは、Ｅ１（又は行）パッド要素である

【0226】

ｅｌｓｅ汎用４Ｄテンソルにおける対応する要素は、以下である：

【0227】

［ｆｅ４］［ｆｅ３］［ｆｅ２］［ｆｅ１＊６４＋ｆｅ０］

【0228】

畳み込みニューラルネットワークベース人工知能モデルのために、カーネルテンソルの４次元の意味は、概して、以下にマッピングすることができる：

【0229】

Ｅ４：Ｈ－３Ｄテンソル／画像の高さ

【0230】

Ｅ３：Ｗ－３Ｄテンソル／画像の幅

【0231】

Ｅ２：Ｃ－３Ｄテンソルのチャネルの数

【0232】

Ｅ１：Ｋ－カーネルの数

【0233】

ＮＮＰＡデータレイアウトフォーマット１は、例えば、データ（ページ）の４ｋバイトブロック並びに効率的な処理のための生成済みテンソルの外部次元のための４ｋバイトブロックデータ整列内で、２次元カーネル並列性を提供する。

【0234】

パッドバイトは、入力テンソルについて無視される。パッドバイト上のＰＥＲストレージ変更は、予測不能である。

【0235】

ここでもやはり、例示のデータレイアウトフォーマットは、４Ｄ特徴テンソルレイアウト及び４Ｄカーネルテンソルレイアウトを含むが、他のデータレイアウトフォーマットは、プロセッサ（例えば、ニューラルネットワークプロセッサ１０５）によってサポートされてよい。サポートされるデータレイアウトのインジケーションが、１つ又は複数のビットを、例えばフィールド６３８において設定することによってクエリパラメータブロックにおいて取得及び配置される。

【0236】

クエリパラメータブロックは、本発明の１つ又は複数の態様によれば、他のデータ属性情報も含み、これは、例えば、データのためのサポートされるサイズ情報を含む。ニューラルネットワークプロセッサ等のプロセッサは、典型的には、テンソル次元の最大サイズ及び／又はテンソルの全体サイズを制限することができる内部バッファサイズ、処理ユニット、データバス構造、ファームウェア制限等に基づく制限を有する。したがって、クエリ関数は、これらの制限をアプリケーションに伝達するためのフィールドを提供する。例えば、プロセッサは、クエリ関数を実行することに基づいて、最大次元インデックスサイズ（例えば、６５，５３６個の要素）及び最大テンソルサイズ（例えば、８ＧＢ）等の様々なデータサイズを取得し、それぞれ、パラメータブロック（例えば、パラメータブロック６３０）のフィールド６４０及び６４２においてこの情報を含む。追加の、より少ない及び／又は他のサイズ情報も、プロセッサ（例えば、ニューラルネットワークプロセッサ１０５）によってサポートされ、それゆえ、パラメータブロック、例えば、フィールド６４０、６４２及び／又は他のフィールドにおいて取得及び配置されてよい。他の実施形態では、制限は、より小さいか又はより大きい可能性があり、及び／又は、サイズは、要素ではなくバイト、又はバイトではなく要素等のような他の単位であり得る。さらに、他の実施形態は、全ての次元について同じ最大ではなく、各次元の異なる最大サイズを可能にする。多くの変形例が可能である。

【0237】

本発明の１つ又は複数の態様によれば、クエリ関数は、特定のプロセッサに関するモデル依存情報を判定するために提供される。（プロセッサは、標準データタイプ、標準データレイアウト等のような標準データ属性もサポートしてよく、これらは、暗示され、クエリ関数によって必ずしも提示されるわけではない；ただし、他の実施形態では、クエリ関数は、データ属性の全ての又は様々な選択されたサブセット等を示してよい。）例示の情報が提供されているが、他の情報が、他の実施形態では提供されてよい。プロセッサの及び／又は異なるプロセッサの異なるモデルについて異なり得る取得される情報は、人工知能及び／又は他の処理を実行するのに使用される。人工知能及び／又は他の処理は、例えば、ニューラルネットワーク処理支援命令の１つ又は複数の非クエリ関数を利用してよい。処理において利用される特定の非クエリ関数は、ニューラルネットワーク処理支援命令を１回又は複数回実行し、非クエリ固有関数を指定することによって実行される。

【0238】

ニューラルネットワーク処理支援命令によってサポートされる例示の非クエリ関数の更なる詳細が以下で説明される（追加の、より少ない及び／又は他の関数が他の実施形態ではサポートされてよい）：

【0239】

関数コード１６：ＮＮＰＡ－ＡＤＤ（加算）

【0240】

ＮＮＰＡ－ＡＤＤ関数が指定される場合、テンソル記述子１によって記述される入力テンソル１の各要素は、テンソル記述子２によって記述される入力テンソル２の対応する要素に加算され、結果として得られる総和は、出力テンソル記述子によって記述される出力テンソルの対応する要素に配置される。

【0241】

１つの例では、指定されたテンソル記述子のうちの任意のものにおける指定されたデータレイアウトが４Ｄ特徴テンソルを指定しない場合（例えば、データレイアウト＝０）又は任意の指定されたテンソル記述子におけるデータタイプがＮＮＰデータタイプ１を指定しない場合（例えば、データタイプ＝０）、応答コード、例えば、それぞれ００１０ｈｅｘ又は００１１ｈｅｘが、汎用レジスタ０において設定され、命令は、条件コード、例えば１で完了する。

【0242】

入力テンソル１、入力テンソル２及び出力テンソルの形状、データレイアウト及びデータタイプは、１つの例では、同じであることになり；そうではない場合、全体オペランドデータ例外が認識される。

【0243】

出力テンソル記述子２、入力テンソル記述子３、関数固有パラメータ１～５及び関数固有保存エリアアドレスフィールドは、１つの例では無視される。

【0244】

関数コード１７：ＮＮＰＡ－ＳＵＢ（減算）

【0245】

ＮＮＰＡ－ＳＵＢ関数が指定される場合、テンソル記述子２によって記述される入力テンソル２の各要素は、テンソル記述子１によって記述される入力テンソル１の対応する要素から減算され、結果として得られる差は、出力テンソルの対応する要素に配置される。

【0246】

【0247】

【0248】

【0249】

関数コード１８：ＮＮＰＡ－ＭＵＬ（乗算）

【0250】

ＮＮＰＡ－ＭＵＬ関数が指定される場合、テンソル記述子１によって記述される入力テンソル１（乗数）の各要素及びテンソル記述子２によって記述される入力テンソル２（被乗数）の対応する要素の積は、出力テンソルの対応する要素に配置される。

【0251】

【0252】

【0253】

【0254】

関数コード１９：ＮＮＰＡ－ＤＩＶ（除算）

【0255】

ＮＮＰＡ－ＤＩＶ関数が指定される場合、テンソル記述子１（被除数）によって記述される入力テンソル１の各要素は、テンソル記述子２によって記述される入力テンソル２（除数）の対応する要素を除算され、商は、出力テンソルの対応する要素に配置される。

【0256】

【0257】

【0258】

【0259】

関数コード２０：ＮＮＰＡ－ＭＩＮ（最小）

【0260】

ＮＮＰＡ－ＭＩＮ関数が指定される場合、テンソル記述子１によって記述される入力テンソル１の各要素は、テンソル記述子２によって記述される入力テンソル２の対応する要素と比較される。２つの値のうちの小さい方が、出力テンソル記述子の対応する要素に配置される。両方の値が等しい場合、値は、出力テンソルの対応する要素に配置される。

【0261】

【0262】

【0263】

【0264】

関数コード２１：ＮＮＰＡ－ＭＡＸ（最大）

【0265】

ＮＮＰＡ－ＭＡＸ関数が指定される場合、テンソル記述子１によって記述される入力テンソル１の各要素は、テンソル記述子２によって記述される入力テンソル２の対応する要素と比較される。２つの値のうちの大きい方が、出力テンソル記述子の対応する要素に配置される。両方の値が同じである場合、値は、出力テンソルの対応する要素に配置される。

【0266】

【0267】

【0268】

【0269】

関数コード３２：ＮＮＰＡ－ＬＯＧ（自然対数）

【0270】

ＮＮＰＡ－ＬＯＧ関数が指定される場合、テンソル記述子１によって記述される入力テンソルの各要素について、その要素がゼロよりも大きい場合、出力テンソル記述子によって記述される出力テンソルにおける対応する要素は、その要素の自然対数である。そうではない場合、出力テンソルにおける対応する要素は、数値的に表現可能ではなく、ターゲットデータタイプにおける負の無限に関連付けられた値が記憶される。

【0271】

【0272】

入力テンソル１及び出力テンソルの形状、データレイアウト及びデータタイプは、１つの例では、同じであることになり；そうではない場合、全体オペランドデータ例外が認識される。

【0273】

出力テンソル記述子２、入力テンソル記述子２、入力テンソル記述子３、関数固有パラメータ１～５及び関数固有保存エリアアドレスフィールドは、１つの例では無視される。

【0274】

関数コード３３：ＮＮＰＡ－ＥＸＰ（指数関数）

【0275】

ＮＮＰＡ－ＥＸＰ関数が指定される場合、テンソル記述子１によって記述される入力テンソルの各要素について、出力テンソル記述子によって記述される出力テンソルにおける対応する要素は、その要素の指数関数である。

【0276】

【0277】

【0278】

【0279】

関数コード４９：ＮＮＰＡ－ＲＥＬＵ（正規化線形ユニット）

【0280】

ＮＮＰＡ－ＲＥＬＵ関数が指定される場合、テンソル記述子１によって記述される入力テンソルの各要素について、その要素がゼロ未満か又はこれに等しい場合、出力テンソル記述子によって記述される出力テンソルにおける対応する要素はゼロである。そうではない場合、出力テンソルにおける対応する要素は、入力テンソルにおける要素の最小であり、関数固有パラメータ１において指定されるクリッピング値である。

【0281】

一例として、関数固有パラメータ１は、ＲｅＬＵ演算のためのクリッピング値を定義する。例えば、クリッピング値は、関数固有パラメータ１のビット１６～３１内にある。クリッピング値は、例えば、ＮＮＰＡデータタイプ１フォーマットにおいて指定される。ゼロのクリッピング値は、最大の正の値を使用することを示し；換言すれば、クリッピングは実行されない。負の値が指定される場合、全体オペランドデータ例外が認識される。

【0282】

【0283】

【0284】

出力テンソル記述子２、入力テンソル記述子２、入力テンソル記述子３、及び関数固有保存エリアアドレスフィールドは、１つの例では無視される。関数固有パラメータ２～５は、１つの例では、ゼロを格納することになる。

【0285】

関数コード５０：ＮＮＰＡ－ＴＡＮＨ（正接）

【0286】

ＮＮＰＡ－ＴＡＮＨ関数が指定される場合、テンソル記述子１によって記述される入力テンソルの各要素について、出力テンソル記述子によって記述される出力テンソルにおける対応する要素値は、その要素の双曲線正接である。

【0287】

【0288】

【0289】

【0290】

関数コード５１：ＮＮＰＡ－ＳＩＧＭＯＩＤ

【0291】

ＮＮＰＡ－ＳＩＧＭＯＩＤ関数が指定される場合、テンソル記述子１によって記述される入力テンソルの各要素について、出力テンソル記述子によって記述される出力テンソルにおける対応する要素は、その要素のシグモイド関数である。

【0292】

【0293】

【0294】

【0295】

関数コード５２：ＮＮＰＡ－ＳＯＦＴＭＡＸ

【0296】

ＮＮＰＡ－ＳＯＦＴＭＡＸ関数が指定される場合、入力テンソル１の次元１における各ベクトルについて、出力テンソルにおける対応するベクトルは、以下で説明されるように、計算される。

【0297】

＊ベクトルの最大値が計算される。

【0298】

＊ベクトルの次元１における各要素及び上記で計算された最大値の間の差の指数関数の総和が計算される。入力ベクトルの次元１における要素及び上記で計算された最大値の両方が数値であり、かつ差が非数値である場合、その要素についての指数関数の結果は、ゼロに強制される。

【0299】

＊ベクトルにおける各要素について、中間の商は、要素及び上記で計算された最大値の間の差の指数関数を、上記で計算された総和によって除算したものから形成される。任意選択の活性化関数が、出力ベクトルにおける対応する要素を形成するためにこの中間の商に適用される。

【0300】

このプロセスは、例えば、次元１における全ての次元４インデックスサイズ×次元３インデックスサイズ×次元２インデックスサイズベクトルについて繰り返される。

【0301】

１つの例では、ＮＮＰＡ－ＳＯＦＴＭＡＸ関数固有パラメータ１は、活性化関数を制御する。一例として、関数固有パラメータ１のＡＣＴフィールド（例えば、ビット２８～３１）は、活性化関数を指定する。例示の活性化関数は、以下を含む：

【0302】

ＡＣＴ活性化関数

【0303】

０活性化関数は実行されない

【0304】

１ＬＯＧ

【0305】

２～１５予約済み

【0306】

予約された値がＡＣＴフィールドのために指定される場合、例えばＦ００１ｈｅｘの応答コードは、報告され、動作は、条件コード、例えば１で完了する。

【0307】

【0308】

１つの例では、入力テンソルの次元３インデックスサイズが１に等しくない場合、例えば、Ｆ０００ｈｅｘの応答コードが記憶され、命令は、条件コード、例えば１で完了する。

【0309】

【0310】

出力テンソル記述子２、入力テンソル記述子２及び入力テンソル記述子３は、１つの例では無視される。関数固有パラメータ２～５は、１つの例では、ゼロを格納することになる。

【0311】

８Ｋバイト関数固有保存エリアが、この関数によって使用されてよい。

【0312】

１つの実施形態では、次元１においてベクトルを取得するとき、要素は、指定されたデータレイアウトフォーマットに依存してメモリにおいて連続していない場合がある。入力テンソル１の次元１ベクトルの全ての要素が指定されたデータタイプにおいて表現可能な最大の大きさの負の数を格納する場合、結果は、より正確でなくなり得る。

【0313】

関数コード６４：ＮＮＰＡ－ＢＡＴＣＨＮＯＲＭ（バッチ正規化）

【0314】

ＮＮＰＡ－ＢＡＴＣＨＮＯＲＭ関数が指定される場合、入力１テンソルの次元１における各ベクトルについて、出力テンソルの次元１における対応するベクトルは、ベクトルにおける各要素を、入力２テンソルを構成する次元１ベクトルにおける対応する要素によって乗算することによって計算される。完全精度積は、次に、入力３テンソルを構成する次元１ベクトルにおける対応する要素に加算され、次に、出力テンソルの指定されたデータタイプの精度に丸められる。このプロセスは、例えば、次元１における全ての次元４インデックスサイズ×次元３インデックスサイズ×次元２インデックスサイズベクトルについて繰り返される。

【0315】

【0316】

１つの例では、以下の条件が真であることになり、そうではない場合、全体オペランドデータ例外が認識される：

【0317】

＊入力テンソル１及び出力テンソルの形状及びデータレイアウトは、同じであることになる。

【0318】

＊入力テンソル及び出力テンソルのデータタイプは、同じであることになる。

【0319】

＊入力テンソル１、２、３及び出力テンソルの次元１インデックスサイズは、同じであることになる。

【0320】

＊入力テンソル２及び３の次元２、３及び４インデックスサイズは、同じであることになる。

【0321】

出力テンソル記述子２及び関数固有保存エリアアドレスフィールドは、１つの例では無視される。関数固有パラメータ２～５は、１つの例では、ゼロを格納することになる。

【0322】

関数コード８０：ＮＮＰＡ－ＭＡＸＰＯＯＬ２Ｄ
関数コード８１：ＮＮＰＡ－ＡＶＧＰＯＯＬ２Ｄ

【0323】

ＮＮＰＡ－ＭＡＸＰＯＯＬ２Ｄ又はＮＮＰＡ－ＡＶＧＰＯＯＬ２Ｄ関数のいずれかが指定される場合、入力テンソル１記述子によって記述される入力テンソル１は、入力のウィンドウを要約するために指定された動作によって削減される。入力のウィンドウは、次元インデックス２及び３にわたって２Ｄスライディングウィンドウを移動することによって選択される。ウィンドウの要約は、出力テンソルにおける要素である。スライディングウィンドウ次元は、例えば、関数固有パラメータ４及び関数固有パラメータ５によって記述される。隣接した出力テンソル要素を計算するときに入力１テンソルにわたってスライディングウィンドウが移動する量はストライドと呼ばれる。スライディングウィンドウストライドは、例えば、関数固有パラメータ２及び関数固有パラメータ３によって指定される。ＮＮＰＡ－ＭＡＸＰＯＯＬ２Ｄ演算が指定される場合、以下で定義される最大値演算は、ウィンドウ上で実行される。ＮＮＰＡ－ＡＶＧＰＯＯＬ２Ｄ演算が指定される場合、以下で定義されるＡＶＧ演算は、ウィンドウ上で実行される。指定されたパディングタイプが有効である場合、ウィンドウにおける全ての要素が、結果として得られる出力要素を計算するのに使用される集合に加算される。指定されたパディングタイプが同じである場合、ウィンドウのロケーションに依存して、ウィンドウからの要素のサブセットのみが、結果として得られる出力要素を計算するのに使用される集合に加算されてよい。

【0324】

１つの例では、ＣｏｌｌｅｃｔＥｌｅｍｅｎｔｓ演算は、要素を要素の集合に加算し、集合における要素の数をインクリメントする。ウィンドウ開始位置が移動するたびに、集合が空にされる。演算を実行するために必要とされない要素がアクセスされるか否かは予測不能である。

【0325】

最大値演算：１つの例では、ウィンドウにおける要素の集合の最大値は、集合における全ての要素を、互いに比較し、最大値を返すことによって計算される。

【0326】

Ａｖｇ（平均）演算：１つの例では、ウィンドウにおける要素の集合の平均値は、集合における全ての要素の総和を、集合における要素の数によって除算したものとして計算される。

【0327】

１つの例では、フィールドは、以下のように割り当てられる：

【0328】

＊プーリング関数固有パラメータ１は、パディングタイプを制御する。例えば、関数固有パラメータ１のビット２９～３１は、パディングタイプを指定するＰＡＤフィールドを含む。例示のタイプは、例えば、以下を含む：

【0329】

ＰＡＤパディングタイプ

【0330】

０有効

【0331】

１同じ

【0332】

２～７予約済み

【0333】

予約された値がＰＡＤフィールドのために指定される場合、例えばＦ０００ｈｅｘの応答コードは、報告され、動作は、条件コード、例えば１で完了する。

【0334】

１つの例では、関数固有パラメータ１のビット位置０～２８が予約され、ゼロを格納することになる。

【0335】

＊関数固有パラメータ２は、例えば、スライディングウィンドウが次元２において移動する要素の数を指定する次元２ストライド（Ｄ２Ｓ）を指定する３２ビット符号なしバイナリ整数を格納する。

【0336】

＊関数固有パラメータ３は、例えば、スライディングウィンドウが次元３において移動する要素の数を指定する次元３ストライド（Ｄ３Ｓ）を指定する３２ビット符号なしバイナリ整数を格納する。

【0337】

＊関数固有パラメータ４は、例えば、スライディングウィンドウが格納する次元２における要素の数を指定する次元２ウィンドウサイズ（Ｄ２ＷＳ）を指定する３２ビット符号なしバイナリ整数を格納する。

【0338】

＊関数固有パラメータ５は、例えば、スライディングウィンドウが格納する次元３における要素の数を指定する次元３ウィンドウサイズ（Ｄ３ＷＳ）を指定する３２ビット符号なしバイナリ整数を格納する。

【0339】

１つの例では、関数固有パラメータ２～５における指定された値は、最大次元インデックスサイズ未満か又はこれに等しいことになり、関数固有パラメータ４～５における指定された値は、ゼロよりも大きいことになり；そうではない場合、応答コード、例えば、００１２ｈｅｘが報告され、動作は、条件コード、例えば、１で完了する。

【0340】

次元２ストライド及び次元３ストライドが両方ともゼロであり、かつ次元２ウィンドウサイズ又は次元３ウィンドウサイズのいずれかが例えば１０２４よりも大きい場合、応答コード、例えばＦ００１ｈｅｘが記憶される。次元２ストライド及び次元３ストライドが両方とも、例えばゼロよりも大きく、かつ次元２ウィンドウサイズ又は次元３ウィンドウサイズのいずれかが例えば６４よりも大きい場合、応答コード、例えばＦ００２ｈｅｘが記憶される。次元２ストライド及び次元３ストライドが両方とも、例えばゼロよりも大きく、かつ次元２ウィンドウストライド又は次元３ストライドのいずれかが例えば３０よりも大きい場合、応答コード、例えばＦ００３ｈｅｘが記憶される。次元２ストライド及び次元３ストライドが両方とも、例えばゼロよりも大きく、かつ入力テンソル次元２インデックスサイズ又は入力テンソル次元３インデックスサイズのいずれかが例えば１０２４よりも大きい場合、応答コード、例えばＦ００４ｈｅｘが記憶される。上記の条件のうちの全てについて、命令は、条件コード、例えば１で完了する。

【0341】

【0342】

１つの例では、以下の条件が真であることになり、そうではない場合、全体オペランドデータ例外が認識される：

【0343】

＊入力テンソル及び出力テンソルの次元４インデックスサイズ及び次元１インデックスサイズは、同じであることになる。

【0344】

＊入力テンソル及び出力テンソルのデータレイアウト及びデータタイプは、同じであることになる。

【0345】

＊次元２ストライド及び次元３ストライドが両方ともゼロである場合、以下の追加の条件が、１つの例では、真であることになる：

【0346】

＊入力テンソル次元２インデックスサイズは、次元２ウィンドウサイズに等しいことになる。

【0347】

＊入力テンソルの入力テンソル次元３インデックスサイズは、次元３ウィンドウサイズに等しいことになる。

【0348】

＊出力テンソルの次元２インデックスサイズ及び次元３インデックスサイズは、１であることになる。

【0349】

＊指定されたパディングは、有効であることになる。

【0350】

＊次元２ストライド又は次元３ストライドのいずれかが非ゼロである場合、両方のストライドは、１つの例では、非ゼロであることになる。

【0351】

＊次元２ストライド及び次元３ストライドが両方ともゼロよりも大きい場合、以下の追加の条件が、１つの例では、真であることになる：

【0352】

＊指定されたパディングが有効である場合、次元２ウィンドウサイズは、入力テンソルの次元２インデックスサイズ未満か又はこれに等しいことになる。

【0353】

＊指定されたパディングが有効である場合、次元３ウィンドウサイズは、入力テンソルの次元３インデックスサイズ未満か又はこれに等しいことになる。

【0354】

＊指定されたパディングが同じである場合、入力及び出力テンソルの次元２インデックスサイズ及び次元３インデックスサイズの間の以下の関係が満たされることになる（同じパディングのプーリング）：

【0355】

【数22】

【0356】

【数23】

【0357】

ここで：

【0358】

ＩｘＤｙＩＳテンソル記述子ｘにおいて定義される入力テンソルｘの次元ｙインデックスサイズ。

【0359】

ＯｘＤｙＩＳテンソル記述子ｘにおいて定義される出力テンソルｘの次元ｙインデックスサイズ。

【0360】

Ｄ２Ｓ次元２ストライド。

【0361】

Ｄ３Ｓ次元３ストライド。

【0362】

＊指定されたパディングが有効である場合、入力及び出力テンソルの次元２インデックスサイズ及び次元３インデックスサイズの間の以下の関係が満たされることになる（有効パディングのプーリング）：

【0363】

【数24】

【0364】

【数25】

【0365】

ここで、Ｄ２ＷＳは、次元２ウィンドウサイズであり、Ｄ３ＷＳは、次元３ウィンドウサイズである。

【0366】

出力テンソル記述子２、入力テンソル記述子２及び３、及び関数固有保存エリアアドレスフィールドは無視される。

【0367】

関数コード９６：ＮＮＰＡ－ＬＳＴＭＡＣＴ（長短期記憶活性化）

【0368】

ＮＮＰＡ－ＬＳＴＭＡＣＴ関数が指定される場合、入力テンソル２記述子によって記述され、各次元４インデックス値について４つのサブテンソルに分割される入力テンソル２（例えば、再フォーマット化、連結入力テンソル）とともに、入力テンソル１記述子によって記述され、各次元４インデックス値について４つのサブテンソルに分割される入力テンソル１（例えば、再フォーマット化、連結入力テンソル）、及び入力テンソル３記述子によって記述される入力テンソル３は、ＬＳＴＭＡＣＴ演算への入力である。ＬＳＴＭＡＣＴ演算の終了時に、結果は、出力テンソル１（例えば、再フォーマット化、連結出力テンソル）記述子によって記述される出力テンソル１、及び出力テンソル２記述子によって記述される出力テンソル２（例えば、再フォーマット化、連結出力テンソル）に書き込まれる。

【0369】

１つの例では、指定されたテンソル記述子のうちの任意のものにおける指定されたデータレイアウトが４Ｄ特徴テンソルを指定しない場合（例えば、データレイアウト＝０）又は任意の指定されたテンソル記述子におけるデータタイプがＮＮＰデータタイプ１を指定しない場合（例えば、データタイプ＝０）、それぞれ応答コード００１０ｈｅｘ又は００１１ｈｅｘが、汎用レジスタ０において設定され、命令は、条件コード、例えば１で完了する。

【0370】

１つの実施形態では、以下の条件が真であることになり、そうではない場合、全体オペランドデータ例外が認識される：

【0371】

＊入力テンソル３、及び出力テンソル１及び２の次元４インデックスサイズは、例えば１に等しいことになる。

【0372】

＊入力テンソル１及び入力テンソル２についての次元４インデックスサイズは、例えば４に等しいことになる。

【0373】

＊例えば、全ての入力テンソル及び２つの出力テンソルについての次元３インデックスサイズは、例えば１に等しいことになる。

【0374】

＊例えば、全ての入力テンソル及び２つの出力テンソルのデータレイアウト及びデータタイプは、同じであることになる。

【0375】

＊例えば、全ての入力テンソル及び２つの出力テンソルの次元１インデックスサイズは、同じであることになる。

【0376】

＊例えば、全ての入力テンソル及び２つの出力テンソルの次元２インデックスサイズは、同じであることになる。

【0377】

関数固有保存エリアアドレスフィールドは、１つの例では無視される。関数固有パラメータ１～５は、１つの例では、ゼロを格納することになる。

【0378】

長短期セル活性化の１つの実施形態に関する更なる詳細は、例えば、図４Ａ及び図５Ａ～図５Ｂを参照して本明細書において説明される。

【0379】

関数コード９７：ＮＮＰＡ－ＧＲＵＡＣＴ（ゲート付きリカレントユニット活性化）

【0380】

ＮＮＰＡ－ＧＲＵＡＣＴ関数が指定される場合、入力テンソル２記述子によって記述され、各次元４インデックス値について３つのサブテンソルに分割される入力テンソル２（例えば、再フォーマット化、連結入力テンソル）とともに、入力テンソル１記述子によって記述され、各次元４インデックス値について３つのサブテンソルに分割される入力テンソル１（例えば、再フォーマット化、連結入力テンソル）、及び入力テンソル３記述子によって記述される入力テンソル３は、ＧＲＵＡＣＴ演算への入力である。ＧＲＵＡＣＴ演算の終了時に、出力テンソル記述子によって記述される出力テンソル（例えば、再フォーマット化、連結出力テンソル）が記憶される。

【0381】

【0382】

１つの実施形態では、以下の条件が真であることになり、そうではない場合、全体オペランドデータ例外が認識される：

【0383】

＊出力テンソル及び入力テンソル３についての次元４インデックスサイズは、例えば１に等しいことになる。

【0384】

＊入力テンソル１及び入力テンソル２についての次元４インデックスサイズは、例えば３に等しいことになる。

【0385】

＊例えば、全ての入力テンソル及び出力テンソルについての次元３インデックスサイズは、例えば１に等しいことになる。

【0386】

＊例えば、全ての入力テンソル及び出力テンソルの次元１インデックスサイズは、同じであることになる。

【0387】

＊例えば、全ての入力テンソル及び出力テンソルの次元２インデックスサイズは、同じであることになる。

【0388】

＊例えば、全ての入力テンソル及び出力テンソルのデータレイアウト及びデータタイプは、同じであることになる。

【0389】

【0390】

ゲート付きリカレントユニットセル活性化の１つの実施形態に関する更なる詳細は、例えば、図４Ｂを参照して本明細書において説明される。

【0391】

関数コード１１２：ＮＮＰＡ－ＣＯＮＶＯＬＵＴＩＯＮ

【0392】

ＮＮＰＡ－ＣＯＮＶＯＬＵＴＩＯＮ関数が指定される場合、出力テンソル１記述子によって記述される出力テンソルにおける各出力要素について、次元インデックス３、２、及び１からなる３次元入力１ウィンドウは、入力テンソル１記述子によって記述される入力テンソル１から選択される。次元インデックス４、３、及び２からなる同じサイズの３次元入力２ウィンドウは、入力テンソル２記述子によって記述されるテンソル２から選択される。入力１ウィンドウにおける要素は、入力２ウィンドウにおける対応する要素によって乗算され、積の全てがともに加算されて、初期総和が作成される。初期総和は、入力テンソル３の対応する要素に加算されて、中間総和値が計算される。出力テンソルの要素は、中間総和に対して実行される指定された活性化関数の結果である。活性化関数が指定されない場合、出力要素は、中間総和に等しい。

【0393】

指定されたパディングタイプが有効である場合、ウィンドウにおける全ての要素が、結果として得られる初期総和を計算するのに使用される。指定されたパディングタイプが同じである場合、結果として得られる初期総和を計算するとき、ウィンドウのロケーションに依存して、入力１ウィンドウの幾つかの要素は、暗示されたゼロであり得る。

【0394】

演算を実行するために必要とされない要素がアクセスされるか否かは予測不能である。

【0395】

１つの例では、畳み込み関数によって使用される関数固有パラメータのフィールドは、以下のように割り当てられる：

【0396】

＊ＮＮＰＡ－ＣＯＮＶＯＬＵＴＩＯＮ関数固有パラメータ１は、パディングタイプ及び活性化関数を制御する。１つの例では、関数固有パラメータ１のビット２９～３１は、パディングタイプを指定するＰＡＤフィールドを含む。例示のタイプは、以下である：

【0397】

ＰＡＤパディングタイプ

【0398】

０有効

【0399】

１同じ

【0400】

２～７予約済み

【0401】

【0402】

さらに、１つの例では、ＮＮＰＡ－ＣＯＮＶＯＬＵＴＩＯＮ関数固有パラメータ１のビット２４～２７は、活性化関数を指定する活性化フィールドを含む。例示の関数は、以下である：

【0403】

ＡＣＴ活性化関数

【0404】

０活性化関数は実行されない

【0405】

１ＲＥＬＵ

【0406】

２～１５予約済み

【0407】

ＲＥＬＵの活性化関数が指定される場合、結果として得られる出力要素値は、以下のように判定される：中間総和値がゼロ未満か又はこれに等しい場合、出力テンソルにおける対応する要素はゼロであり；そうではない場合、出力テンソルにおける対応する要素は、中間総和値及び関数固有パラメータ４において指定されたクリッピング値の最小である。

【0408】

【0409】

【0410】

【0411】

関数固有パラメータ２～３における指定された値は、最大次元インデックスサイズ未満であることになり；そうではない場合、例えば、００１２ｈｅｘの応答コードは、報告され、動作は、条件コード、例えば１で完了する。

【0412】

＊関数固有パラメータ４は、任意選択のＲＥＬＵ演算のためのクリッピング値を定義する。１つの例では、クリッピング値は、関数固有パラメータ４のビット１６～３１内にある。

【0413】

１つの例では、ＡＣＴフィールドがゼロである場合、このフィールドは、無視される。ＡＣＴフィールドがＲＥＬＵを指定する場合、クリッピング値は、ＮＮＰデータタイプ１フォーマットにおいて指定される。ゼロのクリッピング値は、最大の正の値を使用することを示し；換言すれば、クリッピングは実行されない。非ゼロが指定される場合、全体オペランドデータ例外が認識される。

【0414】

１つの例では、入力テンソル２を除く指定されたテンソル記述子のうちの任意のものにおける指定されたデータレイアウトが４Ｄ特徴テンソルを指定しない場合（例えば、データレイアウト＝０）又は入力テンソル２における指定されたデータレイアウトが４Ｄカーネルテンソルを指定しない場合（例えば、データレイアウト＝１）、応答コード、例えば、００１０ｈｅｘが、汎用レジスタ０において設定され、命令は、条件コード、例えば１で完了する。１つの例では、任意の指定されたテンソル記述子におけるデータタイプがＮＮＰデータタイプ１を指定しない場合（例えば、データタイプ＝０）、応答コード、例えば、００１１ｈｅｘが、汎用レジスタ０において設定され、命令は、条件コード、例えば１で完了する。

【0415】

次元２ストライド及び次元３ストライドが両方ともゼロであり、かつ入力テンソル２の次元３インデックスサイズ又は次元４インデックスサイズが例えば４４８よりも大きい場合、応答コード、例えばＦ００２ｈｅｘが記憶される。次元２ストライド及び次元３ストライドが両方ともゼロよりも大きく、かつ入力テンソル２の次元３インデックスサイズ又は次元４インデックスサイズのいずれかが例えば６４よりも大きい場合、応答コード、例えばＦ００３ｈｅｘが記憶され、動作は、条件コード、例えば１で完了する。次元２ストライド又は次元３ストライドのいずれかが例えば１３よりも大きい場合、応答コード、例えばＦ００４ｈｅｘが記憶され、動作は、条件コード、例えば１で完了する。

【0416】

１つの例では、以下の条件が真であることになり、そうではない場合、全体オペランドデータ例外が認識される：

【0417】

＊入力テンソル１、入力テンソル３、及び出力テンソルのデータレイアウトは、同じであることになる。

【0418】

＊全ての入力テンソル及び出力テンソルのデータタイプは、同じであることになる。

【0419】

＊入力３テンソルの次元２、次元３及び次元４インデックスサイズは、１であることになる。

【0420】

＊出力テンソルの次元４インデックスサイズは、入力１テンソルの次元４インデックスサイズに等しいことになる。

【0421】

＊出力テンソルの次元１インデックスサイズは、入力２テンソルの次元１インデックスサイズ及び入力３テンソルの次元１インデックスサイズに等しいことになる。

【0422】

＊入力１テンソルの次元１インデックスサイズは、入力２テンソルの次元２インデックスサイズに等しいことになる。

【0423】

＊次元２ストライド及び次元３ストライドが両方ともゼロである場合、以下の追加の条件が、１つの例では、真であることになる：

【0424】

＊入力１テンソル次元２インデックスサイズは、入力２テンソルの次元３インデックスサイズに等しいことになる。

【0425】

＊入力テンソルの入力１テンソル次元３インデックスサイズは、入力２テンソルの次元４インデックスサイズに等しいことになる。

【0426】

＊出力テンソルの次元２インデックスサイズ及び次元３インデックスサイズは、１であることになる。

【0427】

＊指定されたパディングは、有効であることになる。

【0428】

＊次元２ストライド又は次元３ストライドのいずれかが非ゼロである場合、両方のストライドが非ゼロであることになる。

【0429】

＊次元２ストライド及び次元３ストライドが両方ともゼロよりも大きい場合、以下の追加の条件が、１つの例では、真であることになる：

【0430】

＊指定されたパディングが有効である場合、入力１テンソルの次元２インデックスサイズは、入力テンソル２の次元３インデックスサイズよりも大きいか又はこれに等しいことになる。

【0431】

＊指定されたパディングが有効である場合、入力１テンソルの次元３インデックスサイズは、入力２テンソルの次元４インデックスサイズよりも大きいか又はこれに等しいことになる。

【0432】

＊指定されたパディングが同じである場合、入力１テンソル及び出力テンソルの次元２インデックスサイズ及び次元３インデックスサイズの間の以下の関係は、１つの例では、満たされることになる（同じパディングの畳み込み）：

【0433】

【数26】

【0434】

【数27】

【0435】

ここで：

【0436】

Ｏ１Ｄ２ＩＳ出力テンソルの次元２インデックスサイズ。

【0437】

Ｏ１Ｄ３ＩＳ出力テンソルの次元３インデックスサイズ。

【0438】

Ｉ１Ｄ２ＩＳ入力１テンソルの次元２インデックスサイズ。

【0439】

Ｉ１Ｄ３ＩＳ入力１テンソルの次元３インデックスサイズ。

【0440】

Ｄ２Ｓ次元２ストライド。

【0441】

Ｄ３Ｓ次元３ストライド。

【0442】

＊指定されたパディングが有効である場合、入力１テンソルの次元２インデックスサイズ及び次元３インデックスサイズ、及び入力２テンソル及び出力テンソルの次元３インデックスサイズ及び次元４インデックスサイズの間の以下の関係は、１つの例では、満たされることになる（有効パディングの畳み込み）：

【0443】

【数28】

【0444】

【数29】

【0445】

ここで：

【0446】

Ｏ１Ｄ２ＩＳ出力テンソルの次元２インデックスサイズ。

【0447】

Ｏ１Ｄ３ＩＳ出力テンソルの次元３インデックスサイズ。

【0448】

Ｉ１Ｄ２ＩＳ入力１テンソルの次元２インデックスサイズ。

【0449】

Ｉ１Ｄ３ＩＳ入力１テンソルの次元３インデックスサイズ。

【0450】

Ｉ２Ｄ３ＩＳ入力２テンソルの次元３インデックスサイズ。

【0451】

Ｉ２Ｄ４ＩＳ入力２テンソルの次元４インデックスサイズ。

【0452】

Ｄ２Ｓ次元２ストライド。

【0453】

Ｄ３Ｓ次元３ストライド。

【0454】

出力テンソル記述子２及び関数固有保存エリアアドレスフィールドは、１つの例では無視される。関数固有パラメータ５は、１つの例では、ゼロを格納することになる。

【0455】

関数コード１１３：ＮＮＰＡ－ＭＡＴＭＵＬ－ＯＰ（行列乗算演算）

【0456】

ＮＮＰＡ－ＭＡＴＭＵＬ－ＯＰ関数が指定される場合、出力テンソル記述子によって記述される出力テンソルにおける各要素は、１つの例では、以下で説明されるように計算される：

【0457】

＊以下で説明される次元１ベクトル取得動作を使用して、入力テンソル１記述子によって記述される入力テンソル１から次元１ベクトルが選択される。

【0458】

＊以下で説明される次元２ベクトル取得動作を使用して、入力テンソル２記述子によって記述される入力テンソル２から次元２ベクトルが選択される。

【0459】

＊以下で説明されるドット積演算を使用して、次元１ベクトル及び次元２ベクトルの中間ドット積が計算される。

【0460】

＊演算は、中間ドット積及び入力テンソル３記述子によって記述される入力テンソル３の要素に対して、出力テンソル要素としての同じ次元インデックス４及び次元インデックス１値とともに、実行される。結果として得られる要素は、出力テンソルに記憶される。融合演算は、関数固有パラメータ１によって判定され、以下で説明される。

【0461】

次元１ベクトル取得動作：指定された出力要素について、次元１ベクトルが、入力１テンソルから選択され、ここで、入力次元４インデックスは、出力次元４インデックスであり、入力次元３インデックスは、出力次元３インデックスであり、入力次元２インデックスは、出力次元２インデックスである。

【0462】

次元２ベクトル取得動作：指定された出力要素について、次元２ベクトルが、入力２テンソルから選択され、ここで、入力次元４インデックスは、出力次元４インデックスであり、入力次元３インデックスは、出力次元３インデックスであり、入力次元１インデックスは、出力次元１インデックスである。

【0463】

ドット積演算：同じサイズ及びデータタイプの２つのベクトルの中間ドット積は、入力ベクトル１における各要素及び入力ベクトル２の対応する要素の積の総和として計算される。

【0464】

融合演算：関数固有パラメータ１は、中間ドット積及び入力テンソル３からの対応する要素に対して実行される動作を制御する。１つの例では、ＮＮＰＡ－ＭＡＴＭＵＬ－ＯＰ関数固有パラメータ１は、例えば、ビット２４～３１における演算フィールドを含む。演算フィールドは、実行される演算を指定する。例示の演算が、以下で示される：

【0465】

演算演算タイプ

【0466】

０加算

【0467】

１ドット積が高いか否かを比較する

【0468】

２ドット積が低くないか否かを比較する

【0469】

３ドット積及び要素が等しいか否かを比較する

【0470】

４ドット積及び要素が等しくないか否かを比較する

【0471】

５ドット積が高くないか否かを比較する

【0472】

６ドット積が低いか否かを比較する

【0473】

１つの例では、加算の演算タイプについて、入力テンソル３要素が中間ドット積に加算される。比較の演算タイプについて、中間ドット積は、入力テンソル３要素と比較され、出力テンソルについて指定されたデータタイプにおいて、比較が真である場合、結果は、例えば、＋１の値に設定され；そうではない場合、それは、例えば、＋０の値に設定される。

【0474】

１つの例では、ＯＰＥＲＡＴＩＯＮフィールドの全ての他の値が予約される。
予約された値がＯＰＥＲＡＴＩＯＮフィールドのために指定される場合、例えばＦ０００ｈｅｘの応答コードは、報告され、動作は、条件コード、例えば１で完了する。

【0475】

【0476】

１つの実施形態では、以下の条件が真であることになり、そうではない場合、全体オペランドデータ例外が認識される：

【0477】

＊全ての入力テンソル及び出力テンソルの次元４インデックスサイズは、同じであることになる。

【0478】

＊全ての入力テンソル及び出力テンソルの次元３インデックスサイズは、１に等しいことになる。

【0479】

＊入力テンソル３の次元２インデックスサイズは、１に等しいことになる。

【0480】

＊入力テンソル１及び出力テンソルの次元２インデックスサイズは、同じであることになる。

【0481】

＊入力テンソル１の次元１インデックスサイズ及び入力テンソル２の次元２インデックスサイズは、同じであることになる。

【0482】

＊入力テンソル２、入力テンソル３、及び出力テンソルの次元１インデックスサイズは、同じであることになる。

【0483】

＊全ての入力テンソル及び出力テンソルのデータレイアウト及びデータタイプは、同じであることになる。

【0484】

１つの実施形態では、出力テンソル記述子２及び関数固有保存エリアアドレスフィールドは無視される。関数固有パラメータ２～５は、一例では、ゼロを格納することになる。

【0485】

関数コード１１４：ＮＮＰＡ－ＭＡＴＭＵＬ－ＯＰ－ＢＣＡＳＴ２３（行列乗算演算－ブロードキャスト２３）

【0486】

ＮＮＰＡ－ＭＡＴＭＵＬ－ＯＰ－ＢＣＡＳＴ２３関数が指定される場合、出力テンソル記述子によって記述される出力テンソルにおける各要素は、１つの例では、以下で説明されるように計算される：

【0487】

【0488】

【0489】

＊以下で説明されるドット積演算を使用して、次元１ベクトル及び次元２ベクトルのドット積が計算される。

【0490】

＊入力テンソル３記述子によって記述される入力テンソル３の要素は、出力テンソル要素としての同じ次元インデックス１値とともに、以前に計算されたドット積に加算され、出力テンソルに記憶される。

【0491】

【0492】

次元２ベクトル取得動作：指定された出力要素について、次元２ベクトルが、入力２テンソルから選択され、ここで、入力次元４インデックスは１であり、入力次元３インデックスは、出力次元３インデックスであり、入力次元１インデックスは、出力次元１インデックスである。

【0493】

【0494】

【0495】

１つの実施形態では、以下の条件が真であることになり、そうではない場合、全体オペランドデータ例外が認識される：

【0496】

＊入力テンソル１及び出力テンソルの次元４インデックスサイズは、同じであることになる。

【0497】

＊入力テンソル２及び入力テンソル３の次元４インデックスサイズは、１に等しいことになる。

【0498】

＊全ての入力テンソル及び出力テンソルの次元３インデックスサイズは、１に等しいことになる。

【0499】

＊入力テンソル３の次元２インデックスサイズは、１に等しいことになる。

【0500】

＊入力テンソル１及び出力テンソルの次元２インデックスサイズは、同じであることになる。

【0501】

＊入力テンソル１の次元１インデックスサイズ及び入力テンソル２の次元２インデックスサイズは、同じであることになる。

【0502】

＊入力テンソル２、入力テンソル３、及び出力テンソルの次元１インデックスサイズは、同じであることになる。

【0503】

＊全ての入力テンソル及び出力テンソルのデータレイアウト及びデータタイプは、同じであることになる。

【0504】

１つの実施形態では、出力テンソル記述子２及び関数固有保存エリアアドレスフィールドは無視される。関数固有パラメータ１～５は、１つの例では、ゼロを格納することになる。

【0505】

ニューラルネットワーク処理支援命令について、１つの実施形態では、出力テンソルが入力テンソル又はパラメータブロックと重複する場合、結果は予測不能である。

【0506】

一例として、ニューラルネットワーク処理支援命令の実行が試みられ、パラメータブロックが、例えばダブルワード境界上に指定されない場合、指定例外が認識される。

【0507】

ニューラルネットワーク処理支援命令の実行が試みられ、例えば、テンソル記述子不一致が存在する場合、全体オペランドデータ例外が認識される。

【0508】

ニューラルネットワーク処理支援命令のための結果としてられる条件コードは、例えば以下を含む：０－通常完了；１－応答コードが設定される；２－；３－処理されるデータのＣＰＵにより判定される量。

【0509】

１つの実施形態では、ニューラルネットワーク処理支援命令のための実行の優先度は、例えば、以下を含む：

【0510】

１．－７一般的な場合のプログラム割り込み条件の優先度と同じ優先度を有する例外。

【0511】

８．Ａ指定される割り当てられていない又はインストールされていない関数コードに起因した条件コード１。

【0512】

８．Ｂダブルワード境界上に指定されないパラメータブロックに起因した指定例外。

【0513】

９．パラメータブロックへのアクセスのためのアクセス例外。

【0514】

１０．モデルによってサポートされないパラメータブロックの指定されたフォーマットに起因した条件コード１。

【0515】

１１．Ａ指定されたテンソルデータレイアウトがサポートされないことに起因した条件コード１。

【0516】

１１．Ｂテンソル記述子間の異なるデータレイアウトに起因した全体オペランドデータ例外。

【0517】

１２．Ａ上記の項目８．Ａ、１０及び１１．Ａ及び以下の１２．Ｂ．１に含まれる条件以外の条件に起因した条件コード１。

【0518】

１２．Ｂ．１ＮＮＰＡ－ＲＥＬＵ（正規化線形ユニット）及びＮＮＰＡ－ＣＯＮＶＯＬＵＴＩＯＮ（本明細書において説明されない他の利用可能な関数）のための無効な出力テンソルデータタイプに起因した条件コード１。

【0519】

１２．Ｂ．２ＮＮＰＡ－ＲＥＬＵ関数固有パラメータ１及びＮＮＰＡ－ＣＯＮＶＯＬＵＴＩＯＮ関数固有パラメータ４のための無効な値のための全体オペランドデータ例外。

【0520】

１３．Ａ出力テンソルへのアクセスのためのアクセス例外。

【0521】

１３．Ｂ入力テンソルへのアクセスのためのアクセス例外。

【0522】

１３．Ｃ関数固有保存エリアへのアクセスのためのアクセス例外。

【0523】

１４．条件コード０。

【0524】

本明細書において説明されるように、単一の命令（例えば、ニューラルネットワーク処理支援命令）は、クエリ関数及び複数の非クエリ関数を含む複数の機能を実行するように構成されている。各非クエリ関数は、４Ｄテンソル（又は他のサイズのテンソル）等のテンソルに対して動作する。テンソルを使用する処理を容易にするために、本発明の１つ又は複数の態様によれば、テンソルは、処理を改善するために特定の特性を有する複数の、例えば、２Ｄテンソルに再フォーマット化される。例えば、再フォーマット化テンソルは、容易に計算可能なアドレスを有し、１つの演算においてロード／記憶されてよく、帯域幅が増大するとともにシステム性能が改善される。これは、例えば、メモリ境界上のテンソルを開始し、固定次元（パディングを使用して可能にされた）を有する結果である。

【0525】

１つの例では、テンソルの再フォーマット化は、非クエリ関数を指定するニューラルネットワーク処理支援命令を取得するプロセッサ（例えば、汎用プロセッサ１０４）に基づいて実行される。指定されるテンソルは、例えば、パラメータブロックにおいて提供されるテンソル記述子情報（例えば、図６Ｇのテンソル記述子６６０、６６５）を使用して再フォーマット化される。再フォーマット化テンソルに関するアドレス情報は、命令によって指定される機能を実行する際の使用のために専用プロセッサ（例えば、ニューラルネットワークプロセッサ１０５）に提供される。

【0526】

１つの例では、命令（例えば、ニューラルネットワーク処理支援命令）は、リカレントニューラルネットワークセル活性化（例えば、長短期記憶セル活性化、ゲート付きリカレントユニットセル活性化及び／又は他のセル活性化）を実装し、ここで、入力及び／又は出力データは、演算間のデータの再フォーマット化を防止するためにテンソルのメモリにおいて連結データレイアウトを使用する。一例として、入力データの連結のために、重みテンソルは、独立して２Ｄ変換され、乗算演算に先立つタイムステップ内で連結される。命令の単一の起動は、中間結果のために、タイムステップにわたる入力特徴の全ての乗算を一度に計算する。中間結果は、活性化を計算するためにメモリアドレス連続テンソルにおいて提供される。

【0527】

出力データの連結のために、結果テンソルは、タイムステップの２Ｄ再フォーマット化結果の連結を含む。各タイムステップ結果テンソルは、リカレントニューラルネットワーク計算の完了結果のメモリアドレス連続テンソルを含む。タイムステップの結果テンソルは、データ操作又はコピー動作を伴うことなく次のタイムステップの計算において直接使用することができる。

【0528】

１つ又は複数の更なる態様では、個々の活性化及び演算は、アクセラレータにおいて一度に実行される１つの命令に組み合わされる。リカレントニューラルネットワークは、１つの例では、長短期記憶ネットワーク又はゲート付きリカレントユニットネットワークに依拠する。各タイムステップについて（演算ごとに）、複数の活性化（例えば、シグモイド、ｔａｎｈ）及び他の演算（例えば、加算、減算及び／又は乗算）が、隠れ状態（例えば、以前に学習された）、入力及状態及びセル状態に適用される。これらの段階の各々についてアクセラレータ（例えば、ニューラルネットワークプロセッサ１０５）を呼び出すことは、少なくともアクセラレータの起動時間に起因してプロセッサ及び／又はシステムの全体性能にとって有害である。本発明の一態様に従って、アクセラレータにおいて一度に実行される１つの命令に組み合わされる個々の活性化及び演算に基づいて大幅な高速化が達成される。本発明の一態様に従って、個々の活性化及び結合関数を組み合わせて単一の命令が実装される。それゆえ、１つのみの起動が存在し；中間計算データがメモリにライトバックされるのではなくアクセラレータに記憶され；アクセラレータのＳＩＭＤ幅及びパイプライン化される性質を使用して、コンピュータあたりのより少ないサイクルで並列でより多くの計算を行うことができ；長短期記憶及び／又はゲート付きリカレントユニット演算のための向上した正確性及びより高い安定性をもたらすより高い精度が中間結果のために使用される。例えば、乗算及び加算演算の結合は、中間結果に対する精度を失うことなく、より高い正確性を提供する。さらに、より高い精度でアクセラレータに中間計算を保存することによってより高い数値的正確性が達成され得る。

【0529】

さらに、本発明の１つ又は複数の態様によれば、セル活性化に入力される連結結果テンソルを提供するのに使用される行列乗算演算は、セル活性化とは別個であり、単一の演算の複雑度が低下し、他のリカレントニューラルネットワークのための基本ブロックの再使用が可能になる。設計された命令は、アドレス変換を削減するために空間的に近い入力及び出力データソースを提供する。

【0530】

１つ又は複数の態様によれば、内部フォーマットにおける入力の活性化が計算され、計算は組み合わされ、入力数値フォーマットにおける１つ又は複数の出力が生成される。一例として、内部フォーマットは、例えば、ニューラルネットワークプロセッサのためのモデル依存フォーマットである。１つの例では、使用される内部フォーマットは、正確性を高めるか又は計算時間及び電力を削減するために入力／出力数値フォーマットとは異なる数値精度を有してよい。

【0531】

さらに、１つ又は複数の態様によれば、複数の活性化が１つの命令においてカプセル化される。命令は、活性化を非常に小さい塊に分解することなくモジュール性を提供する。さらに、命令は、活性化のための連結入力及び出力フォーマットを使用し、処理時間における節約及び処理速度における向上が提供される。

【0532】

本発明の１つ又は複数の態様は、コンピュータ技術に密接に結び付けられており、コンピュータ内の処理を容易にし、その性能が改善される。再フォーマット化連結テンソル及び／又はそのようなテンソルを定義及び／又は使用する命令は、コンピュータ処理、人工知能、リカレントニューラルネットワーク、医療用処理、工学、自動車技術、製造等のような多くの技術分野において使用されてよい。本明細書において説明されるように、再フォーマット化連結テンソルを使用することによって、様々な技術分野において使用される複雑な計算を実行する際の最適化を含む特定の最適化が提供され、帯域幅を増大させることによってそれらの分野が改善され、効率性が提供され、及び／又は実行時間が削減される。

【0533】

本発明の１つ又は複数の態様に関するようなコンピューティング環境内の処理を容易にする１つの実施形態の更なる詳細は、図１０Ａ及び図１０Ｂを参照して説明される。

【0534】

図１０Ａを参照すると、リカレントニューラルネットワークセル活性化を実行する命令が実行される（１０００）。実行することは、例えば、リカレントニューラルネットワークセル活性化の複数の演算を実行して、リカレントニューラルネットワークセル活性化の結果を提供することを含む（１００２）。一例として、複数の演算は、命令の単一の起動において実行される（１００４）。

【0535】

命令の単一の起動を使用して、複数の演算を実行することは、複雑度を低下させ、システムリソースの使用を削減し、システム性能を高める。

【0536】

１つの例では、複数の演算は、１つ又は複数のシグモイド関数及び１つ又は複数の正接関数を含む（１００６）。１つの例では、複数の演算は、テンソル要素単位加算及びテンソル要素単位乗算演算を含む（１００８）。

【0537】

一例として、複数の演算は、１つ又は複数のシグモイド関数、１つ又は複数の正接関数、１つ又は複数のテンソル要素単位加算演算及び１つ又は複数のテンソル要素単位乗算演算を含む（１０１０）。

【0538】

１つの例では、命令への１つ又は複数の入力は、１つ又は複数の連結テンソルを含む（１０１２）。連結テンソルは、例えば、リカレントニューラルネットワークのセル活性化を実行するアクセラレータ上で実行される命令によって直接使用されてよい。連結テンソルは、１つの演算においてアクセスされてよく、処理時間が節約されるとともに処理速度が高まる。さらに、管理されることになるテンソルポインタが少なくなり、アクセラレータの起動間でのテンソルデータのコピー又は再編成における削減が存在し、処理速度が改善される。

【0539】

１つの例では、図１０Ｂを参照すると、結果は、出力テンソルであり（１０１４）、出力テンソルは、一例として、命令の別の起動への入力である（１０１６）。

【0540】

例として、リカレントニューラルネットワークセル活性化は、長短期記憶セル活性化を含み（１０２０）、又はリカレントニューラルネットワークセル活性化は、ゲート付きリカレントユニットセル活性化を含む（１０２２）。

【0541】

１つの例では、リカレントニューラルネットワークセル活性化の複数の演算を実行することは、アクセラレータによって実行され、中間計算データを生成する（１０２４）。中間計算データは、一例としてアクセラレータに記憶される（１０２６）。

【0542】

１つの例では、複数の演算を実行することは、空間的に近い入力データに対して複数の演算を実行することを含む（１０２８）。

【0543】

他の変形例及び実施形態が可能である。

【0544】

本発明の態様は、多くのタイプのコンピューティング環境によって使用されてよい。本発明の１つ又は複数の態様を組み込んで使用するコンピューティング環境の別の例は、図１１Ａを参照して説明される。一例として、図１１Ａのコンピューティング環境は、ニューヨーク州アーモンク所在のＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎによって提供されるｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ（登録商標）命令セットアーキテクチャに基づく。しかしながら、ｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ命令セットアーキテクチャは、単なる１つの例示のアーキテクチャである。ここでもやはり、コンピューティング環境は、限定されないが、Ｉｎｔｅｌ（登録商標）ｘ８６アーキテクチャを含む他のアーキテクチャ、ＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎの他のアーキテクチャ、及び／又は他の会社のアーキテクチャに基づいてよい。Ｉｎｔｅｌは、米国及び他の国におけるＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎ又はその子会社の商標又は登録商標である。

【0545】

１つの例では、コンピューティング環境１０は、中央電子処理装置（ＣＥＣ）１１を含む。中央電子処理装置１１は、例えば、１つ又は複数の汎用プロセッサ（中央処理ユニット（ＣＰＵ）１３として知られている）及び１つ又は複数の専用プロセッサ（例えば、ニューラルネットワークプロセッサ３１）等の１つ又は複数のプロセッサに、及び入力／出力（Ｉ／Ｏ）サブシステム１４に結合されたメモリ１２（システムメモリ、メインメモリ、メインストレージ、中央ストレージ、ストレージとして知られている）等の複数のコンポーネントを含む。

【0546】

例として、１つ又は複数の専用プロセッサは、１つ又は複数の汎用プロセッサとは別個であってよく、及び／又は少なくとも１つの専用プロセッサは、少なくとも１つの汎用プロセッサ内に埋め込まれてよい。他の変形例も可能である。

【0547】

Ｉ／Ｏサブシステム１４は、中央電子処理装置の一部、又はそこから分離されたものであり得る。それは、メインストレージ１２、及び中央電子処理装置に結合された入力／出力制御ユニット１５及び入力／出力（Ｉ／Ｏ）デバイス１６の間の情報のフローを指示する。

【0548】

多くのタイプのＩ／Ｏデバイスが使用されてよい。１つの特定のタイプは、データストレージデバイス１７である。データストレージデバイス１７は、１つ又は複数のプログラム１８、１つ又は複数のコンピュータ可読プログラム命令１９、及び／又はデータ等を記憶することができる。コンピュータ可読プログラム命令は、本発明の態様の実施形態の機能を実行するように構成することができる。

【0549】

中央電子処理装置１１は、取り外し可能／取り外し不能揮発性／不揮発性コンピュータシステム記憶媒体を含み、及び／又はこれに結合され得る。例えば、それは、取り外し不能不揮発性磁気媒体（典型的には、「ハードドライブ」と呼ばれる）、取り外し可能不揮発性磁気ディスク（例えば、「フロッピディスク」）に対して読み出し又は書き込みを行う磁気ディスクドライブ、及び／又は、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ又は他の光学媒体等の取り外し可能不揮発性光学ディスクに対して読み出し又は書き込みを行う光学ディスクドライブを含み、及び／又はこれらに結合され得る。他のハードウェア及び／又はソフトウェアコンポーネントを、中央電子処理装置１１と併せて使用することができることが理解されるべきである。例としては：マイクロコード又はミリコード、デバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、ＲＡＩＤシステム、テープドライブ、及びデータアーカイブストレージシステム等が挙げられるが、これらに限定されない。

【0550】

さらに、中央電子処理装置１１は、多数の他の汎用又は専用コンピューティングシステム環境又は構成とともに動作可能であり得る。中央電子処理装置１１との使用に適し得る周知のコンピューティングシステム、環境、及び／又は構成の例としては、パーソナルコンピュータ（ＰＣ）システム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルド又はラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースシステム、セットトップボックス、プログラマブルコンシューマエレクトロニクス、ネットワークＰＣ、ミニコンピュータシステム、メインフレームコンピュータシステム、及び上記のシステム又はデバイスのいずれかを含む分散クラウドコンピューティング環境等が挙げられるが、これらに限定されない。

【0551】

中央電子処理装置１１は、１つ又は複数の実施形態において、論理パーティション及び／又は仮想化サポートを提供する。１つの実施形態では、図１１Ｂにおいて示されているように、メモリ１２は、例えば、１つ又は複数の論理パーティション２０、論理パーティションを管理するハイパーバイザ２１、及びプロセッサファームウェア２２を含む。ハイパーバイザ２１の１つの例は、ニューヨーク州アーモンク所在のＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎによって提供されるプロセッサリソース／システムマネージャ（ＰＲ／ＳＭ（商標））である。ＰＲ／ＳＭは、少なくとも１つの法域におけるＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎの商標又は登録商標である。

【0552】

各論理パーティション２０は、別個のシステムとして機能することが可能である。すなわち、各論理パーティションは、独立してリセットされ、ニューヨーク州アーモンク所在のＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎによって提供されるｚ／ＯＳ（登録商標）オペレーティングシステム等のゲストオペレーティングシステム２３、又はカップリングファシリティ制御コード（ＣＦＣＣ）等の他の制御コード２４を実行し、異なるプログラム２５を用いて動作することができる。論理パーティションにおいて実行されるオペレーティングシステム又はアプリケーションプログラムは、全体でかつ完全なシステムへのアクセスを有するように見えるが、実際には、その一部のみが利用可能である。ｚ／ＯＳオペレーティングシステムが一例として提供されているが、ＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎ及び／又は他の会社によって提供される他のオペレーティングシステムが、本発明の１つ又は複数の態様に従って使用され得る。

【0553】

メモリ１２は、例えば、ＣＰＵ１３（図１１Ａ）に結合されており、これらは、論理パーティションに割り当てることができる物理プロセッサリソースである。例えば、論理パーティション２０は、１つ又は複数の論理プロセッサを含んでよく、これらの各々は、論理パーティションに動的に割り当てることができる物理プロセッサリソース１３の全て又は一定割合を表す。

【0554】

また更なる実施形態では、中央電子処理装置は、仮想機械サポート（論理パーティションサポートを用いるか又は用いないもののいずれか）を提供する。図１１Ｃにおいて示されているように、中央電子処理装置１１のメモリ１２は、例えば、１つ又は複数の仮想機械２６、仮想機械を管理するハイパーバイザ２７等の仮想機械マネージャ、及びプロセッサファームウェア２８を含む。ハイパーバイザ２７の１つの例は、ニューヨーク州アーモンク所在のＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎによって提供されるｚ／ＶＭ（登録商標）ハイパーバイザである。ハイパーバイザは、時として、ホストと称される。ｚ／ＶＭは、少なくとも１つの法域におけるＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎの商標又は登録商標である。

【0555】

中央電子処理装置の仮想機械サポートは、各々が異なるプログラム２９を用いて動作し、Ｌｉｎｕｘ（登録商標）オペレーティングシステム等のゲストオペレーティングシステム３０を実行することが可能である多数の仮想機械２６を動作させる能力を提供する。各仮想機械２６は、別個のシステムとして機能することが可能である。すなわち、各仮想機械は、独立してリセットされ、ゲストオペレーティングシステムを実行し、異なるプログラムを用いて動作し得る。仮想機械において実行されるオペレーティングシステム又はアプリケーションプログラムは、全体でかつ完全なシステムへのアクセスを有するように見えるが、実際には、その一部のみが利用可能である。ｚ／ＶＭ及びＬｉｎｕｘが例として提供されているが、他の仮想機械マネージャ及び／又はオペレーティングシステムが、本発明の１つ又は複数の態様に従って使用され得る。登録商標であるＬｉｎｕｘ（登録商標）は、世界的に当該商標の所有者であるＬｉｎｕｓＴｏｒｖａｌｄｓの独占的ライセンシであるＬｉｎｕｘＦｏｕｎｄａｔｉｏｎからのサブライセンスに従って使用されている。

【0556】

本発明の１つ又は複数の態様を組み込んで使用するコンピューティング環境の別の実施形態は、図１２Ａを参照して説明される。この例では、コンピューティング環境３６は、例えば、例えば１つ又は複数のバス４０及び／又は他の接続を介して互いに結合されたネイティブ中央処理ユニット（ＣＰＵ）３７、メモリ３８、及び、１つ又は複数の入力／出力デバイス及び／又はインターフェース３９を含む。例として、コンピューティング環境３６は、ニューヨーク州アーモンク所在のＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎによって提供されるＰｏｗｅｒＰＣ（登録商標）プロセッサ；カリフォルニア州パロアルト所在のＨｅｗｌｅｔｔＰａｃｋａｒｄＣｏ．によって提供されるＩｎｔｅｌ（登録商標）Ｉｔａｎｉｕｍ（登録商標）ＩＩプロセッサを用いるＨＰＳｕｐｅｒｄｏｍｅ；及び／又はＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎ、ＨｅｗｌｅｔｔＰａｃｋａｒｄ、ＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎ、Ｏｒａｃｌｅ及び／又は他社によって提供されるアーキテクチャに基づく他の機械を含んでよい。ＰｏｗｅｒＰＣは、少なくとも１つの法域におけるＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎの商標又は登録商標である。Ｉｔａｎｉｕｍは、米国及び他の国におけるＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎ又はその子会社の商標又は登録商標である。

【0557】

ネイティブ中央処理ユニット３７は、環境内の処理中に使用される１つ又は複数の汎用レジスタ及び／又は１つ又は複数の専用レジスタ等の１つ又は複数のネイティブレジスタ４１を含む。これらのレジスタは、任意の特定の時点における環境の状態を表す情報を含む。

【0558】

その上、ネイティブ中央処理ユニット３７は、メモリ３８に記憶されている命令及びコードを実行する。１つの特定の例では、中央処理ユニットは、メモリ３８に記憶されたエミュレータコード４２を実行する。このコードは、１つのアーキテクチャにおいて構成されたコンピューティング環境が別のアーキテクチャをエミュレートすることを可能にする。例えば、エミュレータコード４２は、ＰｏｗｅｒＰＣプロセッサ、ＨＰＳｕｐｅｒｄｏｍｅサーバ又は他のもの等の、ｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ命令セットアーキテクチャ以外のアーキテクチャに基づく機械が、ｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ命令セットアーキテクチャをエミュレートすること、及びｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ命令セットアーキテクチャに基づいて開発されたソフトウェア及び命令を実行することを可能にする。

【0559】

エミュレータコード４２に関する更なる詳細は、図１２Ｂを参照して説明される。メモリ３８に記憶されたゲスト命令４３は、ネイティブＣＰＵ３７以外のアーキテクチャにおいて実行されるように開発されたソフトウェア命令（例えば、機械命令と相関する）を備える。例えば、ゲスト命令４３は、ｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ命令セットアーキテクチャに基づくプロセッサ上で実行されるように設計されている場合があるが、その代わりに、例えばＩｎｔｅｌＩｔａｎｉｕｍＩＩプロセッサであり得るネイティブＣＰＵ３７上でエミュレートされる。１つの例では、エミュレータコード４２は、メモリ３８から１つ又は複数のゲスト命令４３を取得すること、及び任意選択で、取得された命令のためにローカルバッファリングを提供することを行うための命令フェッチルーチン４４を含む。それは、取得されたゲスト命令のタイプを判定すること、及びゲスト命令を１つ又は複数の対応するネイティブ命令４６に変換することを行うための命令変換ルーチン４５も含む。この変換は、例えば、ゲスト命令によって実行されることになる機能を識別すること、及びその機能を実行するネイティブ命令を選択することを含む。

【0560】

さらに、エミュレータコード４２は、ネイティブ命令を実行するためのエミュレーション制御ルーチン４７を含む。エミュレーション制御ルーチン４７は、ネイティブＣＰＵ３７に、１つ又は複数の以前に取得されたゲスト命令をエミュレートするネイティブ命令のルーチンを実行すること、及びそのような実行の最後に、次のゲスト命令又はゲスト命令のグループの取得をエミュレートするための命令フェッチルーチンに制御を返すことを行わせてよい。ネイティブ命令４６の実行は、メモリ３８からレジスタにデータをロードすること；レジスタからメモリにデータを戻して記憶すること；又は変換ルーチンによって判定されるような幾つかのタイプの算術又は論理演算を実行することを含んでよい。

【0561】

各ルーチンは、例えば、メモリに記憶され、ネイティブ中央処理ユニット３７によって実行されるソフトウェアにおいて実装される。他の例では、ルーチン又は動作のうちの１つ又は複数は、ファームウェア、ハードウェア、ソフトウェア又はこれらの何らかの組み合わせにおいて実装される。エミュレートされたプロセッサのレジスタは、ネイティブＣＰＵのレジスタ４１を使用して、又はメモリ３８におけるロケーションを使用することによって、エミュレートされてよい。実施形態において、ゲスト命令４３、ネイティブ命令４６及びエミュレータコード４２は、同じメモリ内に存在し得るか、又は異なるメモリデバイス間に分散され得る。

【0562】

エミュレートされ得る命令は、本発明の１つ又は複数の態様によれば、本明細書において説明されるニューラルネットワーク支援処理命令を含む。さらに、他の命令及び／又はテンソル処理の１つ又は複数の態様（限定されないが、テンソルの定義、生成、再フォーマット化及び／又は連結を含む）は、本発明の１つ又は複数の態様によれば、エミュレートされてよい。

【0563】

上記で説明されたコンピューティング環境は、使用され得るコンピューティング環境の単なる例である。限定されないが、パーティション化されていない環境、パーティション化されている環境、クラウド環境及び／又はエミュレートされた環境を含む他の環境が使用されてよく；実施形態は、任意の１つの環境に限定されない。コンピューティング環境の様々な例が本明細書において説明されているが、本発明の１つ又は複数の態様は、多くのタイプの環境とともに使用されてよい。本明細書において提供されるコンピューティング環境は単なる例である。

【0564】

各コンピューティング環境は、本発明の１つ又は複数の態様を含むように構成されることが可能である。

【0565】

１つ又は複数の態様が、クラウドコンピューティングに関連し得る。

【0566】

本開示はクラウドコンピューティングに関する詳細な説明を含むが、本明細書において記載される教示の実装はクラウドコンピューティング環境に限定されるものではないことが理解されるべきである。むしろ、本発明の実施形態は、現在既知の、又は今後開発される他の任意のタイプのコンピューティング環境と組み合わせて実装されることが可能である。

【0567】

クラウドコンピューティングは、最小の管理労力又はサービスプロバイダとのインタラクションで迅速にプロビジョニング及びリリースすることができる構成可能コンピューティングリソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、及びサービス）の共有プールへの簡便なオンデマンドネットワークアクセスを可能にするためのサービス配信のモデルである。このクラウドモデルは、少なくとも５つの特性、少なくとも３つのサービスモデル、及び少なくとも４つの展開モデルを含み得る。

【0568】

特性は、以下のとおりである：

【0569】

オンデマンドセルフサービス：クラウド消費者は、サービスプロバイダとの人的対話を必要とすることなく、必要に応じて自動的に、サーバ時間及びネットワークストレージ等のコンピューティング能力を一方的にプロビジョニングすることができる。

【0570】

幅広いネットワークアクセス：この能力は、ネットワークを介して利用可能であり、異種のシン又はシッククライアントプラットフォーム（例えば、携帯電話、ラップトップ、及びＰＤＡ（登録商標））による使用を促す標準メカニズムを通してアクセスされる。

【0571】

リソースプーリング：プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数の消費者に役立つようプールされ、異なる物理リソース及び仮想リソースが、需要に従って動的に割り当て及び再割り当てされる。消費者は概して提供されたリソースの正確なロケーションに対して制御又は知識を有していないが、より高いレベルの抽象化（例えば、国、州、又はデータセンタ）においてロケーションを指定することが可能である場合があるという点で、ロケーションの独立性がある。

【0572】

迅速な弾力性：この能力は、迅速かつ弾力的に、幾つかの事例では自動的にプロビジョニングして、早急にスケールアウトし、かつ迅速にリリースして早急にスケールインすることができる。消費者にとって、多くの場合、プロビジョニングに利用可能な能力は無制限に見え、任意の時点において任意の量で購入することができる。

【0573】

測定されるサービス：クラウドシステムは、サービスのタイプ（例えば、ストレージ、処理、帯域幅及びアクティブユーザアカウント）に適切な或るレベルの抽象化における計測能力を活用することによって、自動的にリソース使用を制御及び最適化する。リソース使用量をモニタリング、制御及び報告することができ、それにより、利用されるサービスのプロバイダ及び消費者の両方に透明性が提供される。

【0574】

サービスモデルは、以下のとおりである：

【0575】

ソフトウェアアズアサービス（ＳａａＳ）：消費者に提供される能力は、クラウドインフラストラクチャ上で稼働するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブブラウザ（例えば、ウェブベースの電子メール）等のシンクライアントインターフェースを通して様々なクライアントデバイスからアクセス可能である。消費者は、考えられる例外としての限定されたユーザ固有のアプリケーション構成設定を除き、ネットワーク、サーバ、オペレーティングシステム、ストレージ又は更には個々のアプリケーション能力を含む、基礎をなすクラウドインフラストラクチャを管理又は制御しない。

【0576】

プラットフォームアズアサービス（ＰａａＳ）：消費者に提供される能力は、クラウドインフラストラクチャ上に、プロバイダによってサポートされるプログラミング言語及びツールを使用して作成される、消費者が作成又は取得したアプリケーションを展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、又はストレージを含む、基礎をなすクラウドインフラストラクチャを管理又は制御しないが、展開されたアプリケーション、及び場合によってはアプリケーションホスティング環境構成を制御する。

【0577】

インフラストラクチャアズアサービス（ＩａａＳ）：消費者に提供される能力は、処理、ストレージ、ネットワーク及び他の基本的なコンピューティングリソースをプロビジョニングすることであり、ここで消費者は、オペレーティングシステム及びアプリケーションを含むことができる任意のソフトウェアを展開及び実行することが可能である。消費者は、基礎をなすクラウドインフラストラクチャを管理又は制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーションを制御するとともに、場合によっては選択されたネットワーキングコンポーネント（例えば、ホストファイアウォール）を限定的に制御する。

【0578】

展開モデルは、以下のとおりである：

【0579】

プライベートクラウド：このクラウドインフラストラクチャは、或る組織のためにのみ動作する。それは、その組織又はサードパーティによって管理されてよく、オンプレミス又はオフプレミスで存在してよい。

【0580】

コミュニティクラウド：このクラウドインフラストラクチャは、幾つかの組織によって共有され、共有される関心事項（例えば、ミッション、セキュリティ要件、ポリシ及びコンプライアンス考慮事項）を有する特定のコミュニティをサポートする。それは、それらの組織又はサードパーティによって管理されてよく、オンプレミス又はオフプレミスで存在してよい。

【0581】

パブリッククラウド：このクラウドインフラストラクチャは、一般大衆又は大規模な業界団体に利用可能とされ、クラウドサービスを販売する組織によって所有される。

【0582】

ハイブリッドクラウド：このクラウドインフラストラクチャは、２つ又はそれよりも多くのクラウド（プライベート、コミュニティ、又はパブリック）の複合体であり、２つ又はそれよりも多くのクラウドは、独自のエンティティのままであるが、データ及びアプリケーションのポータビリティ（例えば、クラウド間の負荷分散のためのクラウドバースト）を可能にする標準技術又はプロプライエタリ技術によってともに結合される。

【0583】

クラウドコンピューティング環境は、ステートレス性、低結合性、モジュール性及びセマンティック相互運用性に焦点を当てたサービス指向である。クラウドコンピューティングの中核には、相互接続されたノードのネットワークを含むインフラストラクチャが存在する。

【0584】

ここで図１３を参照すると、例示的なクラウドコンピューティング環境５０が示されている。示されているように、クラウドコンピューティング環境５０は、例えば、携帯情報端末（ＰＤＡ）又は携帯電話５４Ａ、デスクトップコンピュータ５４Ｂ、ラップトップコンピュータ５４Ｃ、及び／又は自動車コンピュータシステム５４Ｎ等の、クラウド消費者によって使用されるローカルコンピューティングデバイスが通信し得る、１つ又は複数のクラウドコンピューティングノード５２を備える。ノード５２は、互いに通信してよい。これらは、本明細書の上記で説明されたようなプライベートクラウド、コミュニティクラウド、パブリッククラウド、又はハイブリッドクラウド、又はこれらの組み合わせ等の１つ又は複数のネットワーク内で物理的に又は仮想的にグループ化されてよい（図示せず）。これにより、クラウドコンピューティング環境５０は、インフラストラクチャ、プラットフォーム及び／又はソフトウェアを、クラウド消費者がそのためにローカルコンピューティングデバイス上にリソースを維持する必要がないサービスとして提供することが可能になる。図１３において示されているコンピューティングデバイス５４Ａ～Ｎのタイプは、単に例示を意図し、コンピューティングノード５２及びクラウドコンピューティング環境５０は、任意のタイプのネットワーク及び／又はネットワークアドレス指定可能接続を介して（例えば、ウェブブラウザを使用して）、任意のタイプのコンピュータ化デバイスと通信することができることが理解される。

【0585】

ここで図１４を参照すると、クラウドコンピューティング環境５０（図１３）によって提供される機能抽象化層のセットが示されている。図１４において示されているコンポーネント、層、及び機能は、単に例示を意図するものであり、本発明の実施形態がそれらに限定されないことが事前に理解されるべきである。示されているように、以下の層及び対応する機能が提供される：

【0586】

ハードウェア及びソフトウェア層６０は、ハードウェア及びソフトウェアコンポーネントを備える。ハードウェアコンポーネントの例としては：メインフレーム６１；ＲＩＳＣ（縮小命令セットコンピュータ）アーキテクチャベースサーバ６２；サーバ６３；ブレードサーバ６４；記憶デバイス６５；及びネットワーク及びネットワーキングコンポーネント６６が挙げられる。幾つかの実施形態では、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア６７及びデータベースソフトウェア６８を含む。

【0587】

仮想化層７０は、仮想エンティティの次の例：仮想サーバ７１；仮想ストレージ７２；仮想プライベートネットワークを含む仮想ネットワーク７３；仮想アプリケーション及びオペレーティングシステム７４；及び仮想クライアント７５が提供され得る抽象化層を提供する。

【0588】

１つの例では、管理層８０は、以下で説明される機能を提供してよい。リソースプロビジョニング８１は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソース及び他のリソースの動的な調達を提供する。計測及び価格設定８２は、リソースがクラウドコンピューティング環境内で利用されるときのコスト追跡、及び、これらのリソースの消費に対する課金又は請求を提供する。１つの例では、これらのリソースは、アプリケーションソフトウェアライセンスを含んでよい。セキュリティは、クラウド消費者及びタスクに対する識別情報検証、並びに、データ及び他のリソースに対する保護を提供する。ユーザポータル８３は、消費者及びシステムアドミニストレータに対してクラウドコンピューティング環境へのアクセスを提供する。サービス水準管理８４は、要求されるサービス水準が満たされるように、クラウドコンピューティングリソース割り当て及び管理を提供する。サービス水準合意（ＳＬＡ）計画及び履行８５は、将来の要件がＳＬＡに従って予期されるクラウドコンピューティングリソースの事前の取り決め及び調達を提供する。

【0589】

ワークロード層９０は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロード及び機能の例としては：マッピング及びナビゲーション９１；ソフトウェア開発及びライフサイクル管理９２；仮想クラスルーム教育配信９３；データ解析処理９４；トランザクション処理９５；及びテンソル及び／又はニューラルネットワーク支援処理９６が挙げられる。

【0590】

本発明の態様は、統合のあらゆる可能な技術詳細レベルにおけるシステム、方法、及び／又はコンピュータプログラム製品であってよい。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（又は複数の媒体）を含んでよい。

【0591】

コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるための命令を保持及び記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、又は前述したものの任意の適した組み合わせであってよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、次のもの：ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピディスク、機械的にエンコードされたデバイス、例えば、パンチカード又は命令を記録した溝内の隆起構造、及び前述したものの任意の適した組み合わせを含む。コンピュータ可読記憶媒体は、本明細書において使用される場合、電波若しくは他の自由に伝播する電磁波、導波路又は他の伝送媒体を通して伝播する電磁波（例えば、光ファイバケーブルを通過する光パルス）、又はワイヤを通して伝送される電気信号等の一時的信号それ自体とは解釈されるべきではない。

【0592】

本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、それぞれのコンピューティング／処理デバイスに、又は、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又は無線ネットワークを介して、外部コンピュータ又は外部記憶デバイスに、ダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び／又はエッジサーバを含んでよい。各コンピューティング／処理デバイス内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、当該コンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。

【0593】

本発明の動作を実行するコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又は１つ又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかであってよく、１つ又は複数のプログラミング言語は、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋等のようなオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語又は同様のプログラミング言語等の手続き型プログラミング言語を含む。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で完全に実行されてもよいし、スタンドアロンソフトウェアパッケージとしてユーザのコンピュータ上で部分的に実行されてもよいし、部分的にユーザのコンピュータ上で、かつ、部分的にリモートコンピュータ上で実行されてもよいし、又はリモートコンピュータ又はサーバ上で完全に実行されてもよい。後者のシナリオでは、リモートコンピュータが、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよいし、又はその接続が、（例えば、インターネットサービスプロバイダを使用してインターネットを介して）外部コンピュータに対して行われてもよい。幾つかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路をパーソナライズすることができる。

【0594】

本発明の態様は、本明細書において、本発明の実施形態に係る方法、装置（システム）、及びコンピュータプログラム製品のフローチャート図及び／又はブロック図を参照して説明されている。フローチャート図及び／又はブロック図の各ブロック、及びフローチャート図及び／又はブロック図におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装することができることが理解されよう。

【0595】

これらのコンピュータ可読プログラム命令をコンピュータ、又は他のプログラマブルデータ処理装置のプロセッサに提供して機械を生成することができ、それにより、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び／又はブロック図の単数又は複数のブロックで指定された機能／動作を実装する手段を作成するようになる。また、これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶することができ、当該命令は、コンピュータ、プログラマブルデータ処理装置、及び／又は他のデバイスに対し、特定の方法で機能するよう命令することができ、それにより、命令を記憶したコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図の単数又は複数のブロックで指定された機能／動作の態様を実装する命令を含む製品を含むようになる。

【0596】

また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードして、一連の動作段階をコンピュータ、他のプログラマブル装置又は他のデバイス上で実行させ、コンピュータ実装プロセスを生成することができ、それにより、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行される命令は、フローチャート及び／又はブロック図の単数又は複数のブロックで指定された機能／動作を実装するようになる。

【0597】

図におけるフローチャート及びブロック図は、本発明の様々な実施形態に係るシステム、方法、及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び動作を示す。これに関して、フローチャート又はブロック図における各ブロックは、指定される論理機能を実装する１つ又は複数の実行可能命令を含む命令のモジュール、セグメント、又は部分を表し得る。幾つかの代替的な実装では、ブロックに記載される機能が、図に記載される順序とは異なる順序で行われ得る。例えば、連続して示されている２つのブロックは、実際には、１つの段階として達成されてもよいし、同時に、実質的に同時に、部分的に又は全体的に時間重複する形式で実行されてもよいし、又はブロックは、関与する機能に依存して逆の順序で実行される場合もあり得る。ブロック図及び／又はフローチャート図の各ブロック、及びブロック図及び／又はフローチャート図におけるブロックの組み合わせは、指定された機能又は動作を実行するか、又は専用ハードウェア及びコンピュータ命令の組み合わせを実行する専用ハードウェアベースシステムによって実装することができることにも留意されたい。

【0598】

上記に加えて、顧客環境の管理をオファーするサービスプロバイダによって、１つ又は複数の態様が提供され、オファーされ、展開され、管理され、サービス提供される等が行われ得る。例えば、サービスプロバイダは、１つ又は複数の顧客のために１つ又は複数の態様を実行するコンピュータコード及び／又はコンピュータインフラストラクチャを作成、維持、サポートする等を行うことができる。その引き換えとして、サービスプロバイダは、例として、加入及び／又は手数料同意の下で顧客から支払いを受け取り得る。加えて又は代替的に、サービスプロバイダは、１つ又は複数のサードパーティに対する広告コンテンツの販売から、支払いを受け取り得る。

【0599】

１つの態様では、アプリケーションは、１つ又は複数の実施形態を実行するために展開されてよい。１つの例として、アプリケーションの展開は、１つ又は複数の実施形態を実行するために動作可能なコンピュータインフラストラクチャを提供することを含む。

【0600】

更なる態様として、コンピューティングシステムにコンピュータ可読コードを統合することを含むコンピューティングインフラストラクチャが展開されてよく、ここで、コンピューティングシステムと組み合わされたコードは、１つ又は複数の実施形態を実行することが可能である。

【0601】

また更なる態様として、コンピュータ可読コードをコンピュータシステムに統合することを含むコンピューティングインフラストラクチャを統合するためのプロセスが提供されてよい。コンピュータシステムは、コンピュータ可読媒体を含み、ここで、コンピュータ媒体は、１つ又は複数の実施形態を含む。コンピュータシステムと組み合わされたコードは、１つ又は複数の実施形態を実行することが可能である。

【0602】

様々な実施形態が上記で説明されているが、これらは単なる例である。例えば、他のアーキテクチャのコンピューティング環境を、１つ又は複数の態様の組み込み及び／又は使用するのに使用することができる。さらに、異なる命令又は動作が使用されてよい。加えて、異なるタイプのレジスタ及び／又は異なるレジスタが使用されてよい。さらに、他データフォーマット、データレイアウト及び／又はデータサイズがサポートされてよい。１つ又は複数の実施形態では、１つ又は複数の汎用プロセッサ、１つ又は複数の専用プロセッサ又は汎用及び専用プロセッサの組み合わせが使用されてよい。多くの変形例が可能である。

【0603】

様々な態様が本明細書に説明されている。さらに、本発明の態様の趣旨から逸脱することなく多くの変形例が可能である。別段矛盾していない限り、本明細書に説明された各態様又は特徴及びその変形は、他の任意の態様又は特徴と組み合わされてよいことに留意されたい。

【0604】

さらに、他のタイプのコンピューティング環境が利益を得て、使用され得る。一例として、プログラムコードを記憶及び／又は実行するのに適したデータ処理システムが使用可能であり、これは、システムバスを通してメモリ要素に直接又は間接的に結合された少なくとも２つのプロセッサを含む。メモリ要素は、例えば、プログラムコードを実際に実行する間に利用されるローカルメモリ、大容量ストレージ、及び実行中にコードが大容量ストレージから索出されなければならない回数を削減するために、少なくとも一部のプログラムコードの一時的ストレージを提供するキャッシュメモリを含む。

【0605】

入力／出力又はＩ／Ｏデバイス（限定されないが、キーボード、ディスプレイ、ポインティングデバイス、ＤＡＳＤ、テープ、ＣＤ、ＤＶＤ、サムドライブ、及び他のメモリ媒体等を含む）は、直接又は介在するＩ／Ｏコントローラを介してのいずれかで、システムに結合することができる。ネットワークアダプタもまた、データ処理システムが介在するプライベート又はパブリックネットワークを通して他のデータ処理システム又はリモートプリンタ又は記憶デバイスに結合されることを可能するために、システムに結合され得る。モデム、ケーブルモデム及びイーサネット（登録商標）カードは、利用可能なタイプのネットワークアダプタ一部にすぎない。

【0606】

本明細書において使用される術語は、特定の実施形態を説明することのみを目的としており、限定することを意図しない。本明細書において使用される場合、文脈がそうではないことを明確に示さない限り、単数形「ａ」、「ａｎ」、及び「ｔｈｅ」は、複数形も含むことを意図する。用語「備える（ｃｏｍｐｒｉｓｅｓ）」及び／又は「備える（ｃｏｍｐｒｉｓｉｎｇ）」は、本明細書において使用される場合、記載された特徴、整数、段階、動作、要素、及び／又はコンポーネントの存在を指定するが、１つ又は複数の他の特徴、整数、段階、動作、要素、コンポーネント及び／又はこれらのグループの存在又は追加を除外するものではないことを更に理解されたい。

【0607】

【図1A】

【図1B】

【図2A】

【図2B】

【図2C】

【図2D】

【図3A】

【図3B】

【図3C】

【図4A】

【図4B】

【図5A】

【図5B】

【図6A】

【図6B】

【図6C】

【図6D】

【図6E】

【図6F】

【図6G】

【図7】

【図8A-8C】

【図9】

【図10A】

【図10B】

【図11A】

【図11B】

【図11C】

【図12A】

【図12B】

【図13】

【図14】

【手続補正書】

【提出日】2024-01-10

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

コンピューティング環境内の処理を容易にするためのコンピュータプログラムであって、コンピュータに：
リカレントニューラルネットワークセル活性化を実行する命令を実行する手順
を実行させ、前記実行する手順は：
前記リカレントニューラルネットワークセル活性化の複数の演算を実行して、前記リカレントニューラルネットワークセル活性化の結果を提供する手順
を含み、前記複数の演算は、前記命令の単一の起動において実行される、コンピュータプログラム。

【請求項2】

前記複数の演算は、１つ又は複数のシグモイド関数及び１つ又は複数の正接関数を含む、請求項１に記載のコンピュータプログラム。

【請求項3】

前記複数の演算は、テンソル要素単位加算及びテンソル要素単位乗算演算を含む、請求項１に記載のコンピュータプログラム。

【請求項4】

前記複数の演算は、１つ又は複数のシグモイド関数、１つ又は複数の正接関数、１つ又は複数のテンソル要素単位加算演算及び１つ又は複数のテンソル要素単位乗算演算を含む、請求項１に記載のコンピュータプログラム。

【請求項5】

前記命令への１つ又は複数の入力は、１つ又は複数の連結テンソルを含む、請求項１に記載のコンピュータプログラム。

【請求項6】

前記結果は、出力テンソルであり、前記出力テンソルは、前記命令の別の起動への入力である、請求項１に記載のコンピュータプログラム。

【請求項7】

前記リカレントニューラルネットワークセル活性化は、長短期記憶セル活性化を含む、請求項１に記載のコンピュータプログラム。

【請求項8】

前記リカレントニューラルネットワークセル活性化は、ゲート付きリカレントユニットセル活性化を含む、請求項１に記載のコンピュータプログラム。

【請求項9】

前記リカレントニューラルネットワークセル活性化の前記複数の演算を実行する手順は、アクセラレータによって実行され、中間計算データを生成し、前記コンピュータに、前記アクセラレータに前記中間計算データを記憶する手順を更に実行させる、請求項１に記載のコンピュータプログラム。

【請求項10】

前記複数の演算を実行する手順は、空間的に近い入力データに対して前記複数の演算を実行する手順を含む、請求項１に記載のコンピュータプログラム。

【請求項11】

【請求項12】

前記複数の演算は、１つ又は複数のシグモイド関数、１つ又は複数の正接関数、１つ又は複数のテンソル要素単位加算演算及び１つ又は複数のテンソル要素単位乗算演算を含む、請求項１１に記載のコンピュータシステム。

【請求項13】

前記命令への１つ又は複数の入力は、１つ又は複数の連結テンソルを含む、請求項１１に記載のコンピュータシステム。

【請求項14】

前記リカレントニューラルネットワークセル活性化は、長短期記憶セル活性化又はゲート付きリカレントユニットセル活性化を含む、請求項１１に記載のコンピュータシステム。

【請求項15】

前記リカレントニューラルネットワークセル活性化の前記複数の演算を実行する段階は、アクセラレータによって実行され、中間計算データを生成し、前記方法は、前記アクセラレータに前記中間計算データを記憶する段階を更に有する、請求項１１に記載のコンピュータシステム。

【請求項16】

【請求項17】

前記複数の演算は、１つ又は複数のシグモイド関数、１つ又は複数の正接関数、１つ又は複数のテンソル要素単位加算演算及び１つ又は複数のテンソル要素単位乗算演算を含む、請求項１６に記載のコンピュータ実装方法。

【請求項18】

前記命令への１つ又は複数の入力は、１つ又は複数の連結テンソルを含む、請求項１６に記載のコンピュータ実装方法。

【請求項19】

前記リカレントニューラルネットワークセル活性化は、長短期記憶セル活性化又はゲート付きリカレントユニットセル活性化を含む、請求項１６に記載のコンピュータ実装方法。

【請求項20】

前記リカレントニューラルネットワークセル活性化の前記複数の演算を実行する段階は、アクセラレータによって実行され、中間計算データを生成し、前記アクセラレータに前記中間計算データを記憶する段階を更に有する、請求項１６に記載のコンピュータ実装方法。

【手続補正2】

【補正対象書類名】明細書

【補正対象項目名】０６０７

【補正方法】変更

【補正の内容】

【0607】

以下の特許請求の範囲における全てのミーンズ又はステッププラスファンクション要素の対応する構造、材料、行為、及び均等物は、存在する場合、他の特許請求される要素との組み合わせで機能を実行するための任意の構造、材料、又は行為を、具体的に特許請求されるものとして含むものとして意図される。１つ又は複数の実施形態の説明は、例示及び説明の目的のために提示されているが、網羅的であることも又は開示された形式に限定されることも意図するものではない。当業者であれば、多くの修正及び変形例が明らかとなるであろう。様々な態様及び実際の適用を最良に説明するために、及び他の当業者が企図される特定の使用に適するように様々な修正を有する様々な実施形態を理解することを可能にするために、実施形態が選択及び説明された。
［項目１］
コンピューティング環境内の処理を容易にするためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は：
１つ又は複数のコンピュータ可読記憶媒体、及び方法を実行するために前記１つ又は複数のコンピュータ可読記憶媒体上に集合的に記憶されたプログラム命令
を備え、前記方法は：
リカレントニューラルネットワークセル活性化を実行する命令を実行する段階
を有し、前記実行する段階は：
前記リカレントニューラルネットワークセル活性化の複数の演算を実行して、前記リカレントニューラルネットワークセル活性化の結果を提供する段階
を含み、前記複数の演算は、前記命令の単一の起動において実行される、コンピュータプログラム製品。
［項目２］
前記複数の演算は、１つ又は複数のシグモイド関数及び１つ又は複数の正接関数を含む、直前の項目に記載のコンピュータプログラム製品。
［項目３］
前記複数の演算は、テンソル要素単位加算及びテンソル要素単位乗算演算を含む、前述の項目のいずれか１項に記載のコンピュータプログラム製品。
［項目４］
前記複数の演算は、１つ又は複数のシグモイド関数、１つ又は複数の正接関数、１つ又は複数のテンソル要素単位加算演算及び１つ又は複数のテンソル要素単位乗算演算を含む、前述の項目のいずれか１項に記載のコンピュータプログラム製品。
［項目５］
前記命令への１つ又は複数の入力は、１つ又は複数の連結テンソルを含む、前述の項目のいずれか１項に記載のコンピュータプログラム製品。
［項目６］
前記結果は、出力テンソルであり、前記出力テンソルは、前記命令の別の起動への入力である、前述の項目のいずれか１項に記載のコンピュータプログラム製品。
［項目７］
前記リカレントニューラルネットワークセル活性化は、長短期記憶セル活性化を含む、前述の項目のいずれか１項に記載のコンピュータプログラム製品。
［項目８］
前記リカレントニューラルネットワークセル活性化は、ゲート付きリカレントユニットセル活性化を含む、前述の項目のいずれか１項に記載のコンピュータプログラム製品。
［項目９］
前記リカレントニューラルネットワークセル活性化の前記複数の演算を実行する段階は、アクセラレータによって実行され、中間計算データを生成し、前記方法は、前記アクセラレータに前記中間計算データを記憶する段階を更に有する、前述の項目のいずれか１項に記載のコンピュータプログラム製品。
［項目１０］
前記複数の演算を実行する段階は、空間的に近い入力データに対して前記複数の演算を実行する段階を含む、前述の項目のいずれか１項に記載のコンピュータプログラム製品。
［項目１１］
コンピューティング環境内の処理を容易にするためのコンピュータシステムであって、前記コンピュータシステムは：
メモリ；及び
前記メモリと通信する少なくとも１つのプロセッサ
を備え、ここで、前記コンピュータシステムは、方法を実行するように構成されており、前記方法は：
リカレントニューラルネットワークセル活性化を実行する命令を実行する段階
を有し、前記実行する段階は：
前記リカレントニューラルネットワークセル活性化の複数の演算を実行して、前記リカレントニューラルネットワークセル活性化の結果を提供する段階
を含み、前記複数の演算は、前記命令の単一の起動において実行される、コンピュータシステム。
［項目１２］
前記複数の演算は、１つ又は複数のシグモイド関数、１つ又は複数の正接関数、１つ又は複数のテンソル要素単位加算演算及び１つ又は複数のテンソル要素単位乗算演算を含む、直前の項目に記載のコンピュータシステム。
［項目１３］
前記命令への１つ又は複数の入力は、１つ又は複数の連結テンソルを含む、２つの直前の項目のいずれか１項に記載のコンピュータシステム。
［項目１４］
前記リカレントニューラルネットワークセル活性化は、長短期記憶セル活性化又はゲート付きリカレントユニットセル活性化を含む、３つの直前の項目のいずれか１項に記載のコンピュータシステム。
［項目１５］
前記リカレントニューラルネットワークセル活性化の前記複数の演算を実行する段階は、アクセラレータによって実行され、中間計算データを生成し、前記方法は、前記アクセラレータに前記中間計算データを記憶する段階を更に有する、４つの直前の項目のいずれか１項に記載のコンピュータシステム。
［項目１６］
コンピューティング環境内の処理を容易にするためのコンピュータ実装方法であって、前記コンピュータ実装方法は：
リカレントニューラルネットワークセル活性化を実行する命令を実行する段階
を備え、前記実行する段階は：
前記リカレントニューラルネットワークセル活性化の複数の演算を実行して、前記リカレントニューラルネットワークセル活性化の結果を提供する段階
を有し、前記複数の演算は、前記命令の単一の起動において実行される、コンピュータ実装方法。
［項目１７］
前記複数の演算は、１つ又は複数のシグモイド関数、１つ又は複数の正接関数、１つ又は複数のテンソル要素単位加算演算及び１つ又は複数のテンソル要素単位乗算演算を含む、直前の項目に記載のコンピュータ実装方法。
［項目１８］
前記命令への１つ又は複数の入力は、１つ又は複数の連結テンソルを含む、２つの直前の項目のいずれか１項に記載のコンピュータ実装方法。
［項目１９］
前記リカレントニューラルネットワークセル活性化は、長短期記憶セル活性化又はゲート付きリカレントユニットセル活性化を含む、３つの直前の項目のいずれか１項に記載のコンピュータ実装方法。
［項目２０］
前記リカレントニューラルネットワークセル活性化の前記複数の演算を実行する段階は、アクセラレータによって実行され、中間計算データを生成し、前記アクセラレータに前記中間計算データを記憶する段階を更に有する、４つの直前の項目のいずれか１項に記載のコンピュータ実装方法。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版