特開2023-64233 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社Ｐｒｅｆｅｒｒｅｄ　Ｎｅｔｗｏｒｋｓの特許一覧

特開2023-64233コンパイル装置、生成方法、チップ及び実行方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023064233

(43)【公開日】2023-05-11

(54)【発明の名称】コンパイル装置、生成方法、チップ及び実行方法

(51)【国際特許分類】

G06F 8/41 20180101AFI20230501BHJP

【ＦＩ】

G06F8/41 130

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2021174381

(22)【出願日】2021-10-26

(71)【出願人】

【識別番号】515130201

【氏名又は名称】株式会社ＰｒｅｆｅｒｒｅｄＮｅｔｗｏｒｋｓ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】得居誠也

【テーマコード（参考）】

5B081

【Ｆターム（参考）】

5B081CC28

(57)【要約】

【課題】木構造のトポロジにより接続された複数のメモリに対するテンソルの各要素の配置を適切に表現できるようにする。
【解決手段】木構造のトポロジにより接続され、分散配置された複数のメモリを有するチップにおいて実行されるマシンコードを生成するコンパイル装置であって、１又は複数のメモリと、１又は複数のプロセッサと、を備え、前記１又は複数のプロセッサは、処理対象のテンソルに対する前記木構造の所定の階層における分割数及びストライドに基づいて、前記処理対象のテンソルの各要素と、前記チップが有する前記複数のメモリ内のアドレスとを対応付けること、を実行する。
【選択図】図２

【特許請求の範囲】

【請求項1】

木構造のトポロジにより接続され、分散配置された複数のメモリを有するチップにおいて実行されるマシンコードを生成するコンパイル装置であって、
１又は複数のメモリと、
１又は複数のプロセッサと、を備え、
前記１又は複数のプロセッサは、
処理対象のテンソルに対する前記木構造の所定の階層における分割数及びストライドに基づいて、前記処理対象のテンソルの各要素と、前記チップが有する前記複数のメモリ内のアドレスとを対応付けること、
を実行するコンパイル装置。

【請求項2】

前記対応付けることには、
前記処理対象のテンソルを、前記木構造の階層ごとの分割数に従って分割し、分割した後の各要素が、各階層のいずれのブロックに属するかを各階層におけるストライドに従って特定すること、
が含まれる、請求項１に記載のコンパイル装置。

【請求項3】

前記対応付けることには、
最下層において特定されたブロックに属する各要素に、対応するメモリ内のアドレスを、最下層のストライドに従って対応付けること、
が含まれる、請求項２に記載のコンパイル装置。

【請求項4】

前記所定の階層の分割数は、縦方向の分割数と横方向の分割数とを含み、前記所定の階層のストライドは、縦方向のストライドと横方向のストライドとを含む、請求項１乃至３のいずれか１項に記載のコンパイル装置。

【請求項5】

前記処理対象のテンソルに対する前記木構造の所定の階層における分割数及びストライドは、ソースコードに記述されている、請求項１乃至４のいずれか１項に記載のコンパイル装置。

【請求項6】

前記ソースコードには、前記処理対象のテンソルに対して、２以上の階層における分割数及びストライドが記述されている、請求項５に記載のコンパイル装置。

【請求項7】

前記１又は複数のプロセッサは、ソースコードの記述に基づいて、前記木構造の所定の階層における分割数及びストライドを生成する、請求項１乃至４のいずれか１項に記載のコンパイル装置。

【請求項8】

請求項１乃至７のいずれか１項に記載のコンパイル装置を用いて、前記チップにおいて実行されるマシンコードを生成する生成方法。

【請求項9】

木構造のトポロジにより接続され、分散配置された複数のメモリを有するチップであって、
処理対象のテンソルに対する前記木構造の所定の階層における分割数及びストライドに基づいて、前記処理対象のテンソルの各要素に、前記チップが有する前記複数のメモリ内のアドレスが対応付けられたマシンコードを実行し、少なくとも、前記処理対象のテンソルの各要素の値を、各要素に対応付けられたアドレスに書き込む処理、又は、前記処理対象のテンソルの各要素の値を、各要素に対応付けられたアドレスから読み出す処理、のいずれかを行う、
チップ。

【請求項10】

前記処理対象のテンソルの各要素の値を、各要素に対応付けられたアドレスに書き込む際、書き込み先のメモリに応じてサイズを調整するパディング処理を行う、請求項９に記載のチップ。

【請求項11】

配列の形状が合致しないテンソル同士の演算を行う際、ブロードキャスト処理を行う、請求項９又は１０に記載のチップ。

【請求項12】

木構造のトポロジにより接続され、分散配置された複数のメモリを有するチップによる、マシンコードの実行方法であって、
処理対象のテンソルに対する前記木構造の所定の階層における分割数及びストライドに基づいて、前記処理対象のテンソルの各要素に、前記チップが有する前記複数のメモリ内のアドレスが対応付けられたマシンコードを実行し、少なくとも、前記処理対象のテンソルの各要素の値を、各要素に対応付けられたアドレスに書き込む処理、又は、前記処理対象のテンソルの各要素の値を、各要素に対応付けられたアドレスから読み出す処理のいずれかを行う、
実行方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、コンパイル装置、生成方法、チップ及び実行方法に関する。

【背景技術】

【0002】

ソースコードを記述する際、ユーザは、テンソルの各要素をメモリ上のいずれの位置に配置するかを指定することができる。

【0003】

一方で、例えば、深層学習向けのアクセラレータチップは、木構造のトポロジにより接続された複数のメモリ（ＳＲＡＭ：Static Random Access Memory）が分散配置され、ＳＩＭＤ（Single Instruction/Multiple Data）アーキテクチャにより動作する場合がある。このため、当該アクセラレータチップを用いてテンソルの各要素を処理するにあたっては、当該テンソルの各要素を、複数のメモリのうちのいずれのメモリ上のいずれの位置に配置するかが重要となる。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特表２０２０－５１７００６号公報

【特許文献2】特開２００７－２４２０１７号公報

【特許文献3】特開平０６－２０８５０１号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

本開示は、木構造のトポロジにより接続された複数のメモリに対するテンソルの各要素の配置を適切に表現できるようにする。

【課題を解決するための手段】

【0006】

本開示の一態様によるコンパイル装置は、例えば、以下のような構成を有する。即ち、
木構造のトポロジにより接続され、分散配置された複数のメモリを有するチップにおいて実行されるマシンコードを生成するコンパイル装置であって、
１又は複数のメモリと、
１又は複数のプロセッサと、を備え、
前記１又は複数のプロセッサは、
処理対象のテンソルに対する前記木構造の所定の階層における分割数及びストライドに基づいて、前記処理対象のテンソルの各要素と、前記チップが有する前記複数のメモリ内のアドレスとを対応付けることを実行する。

【図面の簡単な説明】

【0007】

【図1】データ処理システムのシステム構成及び各装置のハードウェア構成の一例を示す図である。

【図2】データ処理システムの各装置の機能構成の一例を示す第１の図である。

【図3】アクセラレータチップのハードウェア構成の一例を示す図である。

【図4】木構造のトポロジにより接続された複数のメモリの具体例を示す図である。

【図5】レイアウトに関する記述の記述方法を示す図である。

【図6】レイアウトに関する記述及び割り当て部による処理の具体例を示す第１の図である。

【図7】レイアウトに関する記述及び割り当て部による処理の具体例を示す第２の図である。

【図8】書き込み部による処理の具体例を示す第１の図である。

【図9】書き込み部による処理の具体例を示す第２の図である。

【図10】要素値読み出し部による処理の具体例を示す第１の図である。

【図11】要素値読み出し部による処理の具体例を示す第２の図である。

【図12】ソースコード生成処理の流れを示すフローチャートである。

【図13】マシンコード生成処理の流れを示すフローチャートである。

【図14】マシンコード実行処理の流れを示すフローチャートである。

【図15】データ処理システムの各装置の機能構成の一例を示す第２の図である。

【発明を実施するための形態】

【0008】

以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する装置については、同一の符号を付することにより重複した説明を省略する。

【0009】

［第１の実施形態］
＜データ処理システムのシステム構成及び各装置のハードウェア構成＞
はじめに、第１の実施形態に係るサーバ装置を有するデータ処理システム全体のシステム構成、及び、データ処理システムを構成する各装置のハードウェア構成について説明する。

【0010】

図１に示すように、データ処理システム１００は、サーバ装置１１０と外部装置１６０とを有する。また、図１に示すように、サーバ装置１１０は、コンパイル装置１２０と、データ処理装置１４０とを有する。

【0011】

コンパイル装置１２０は、一例として、プロセッサ１２１、主記憶装置１２２（メモリ）、補助記憶装置１２３（メモリ）、ネットワークインタフェース１２４、デバイスインタフェース１２５を有する。コンパイル装置１２０は、これらの装置がバス１３０を介して接続されたコンピュータとして実現されてもよい。

【0012】

プロセッサ１２１は、電子回路（処理回路、Processing circuit、Processing circuitry、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、又はＡＳＩＣ等）であってもよい。また、プロセッサ１２１は、専用の処理回路を含む半導体装置等であってもよい。なお、プロセッサ１２１は、電子論理素子を用いた電子回路に限定されるものではなく、光論理素子を用いた光回路により実現されてもよい。また、プロセッサ１２１は、量子コンピューティングに基づく演算機能を含むものであってもよい。

【0013】

プロセッサ１２１は、コンパイル装置１２０の内部構成の各装置等から入力された各種データや命令に基づいて各種演算を行い、演算結果や制御信号を各装置等に出力する。プロセッサ１２１は、ＯＳ（Operating System）や、アプリケーション等を実行することにより、コンパイル装置１２０が備える各装置を制御してもよい。

【0014】

また、プロセッサ１２１は、１チップ上に配置された１又は複数の電子回路を指してもよいし、２つ以上のチップあるいは２つ以上のデバイス上に配置された１又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線又は無線により通信してもよい。

【0015】

主記憶装置１２２は、プロセッサ１２１が実行する命令及び各種データ等を記憶する記憶装置であり、主記憶装置１２２に記憶された各種データがプロセッサ１２１により読み出される。補助記憶装置１２３は、主記憶装置１２２以外の記憶装置である。なお、これらの記憶装置は、各種データを格納可能な任意の電子部品を意味するものとし、半導体のメモリでもよい。半導体のメモリは、揮発性メモリ、不揮発性メモリのいずれでもよい。コンパイル装置１２０において各種データを格納するための記憶装置は、主記憶装置１２２又は補助記憶装置１２３により実現されてもよく、プロセッサ１２１に内蔵される内蔵メモリにより実現されてもよい。

【0016】

ネットワークインタフェース１２４は、無線又は有線により、通信ネットワーク１５０に接続するためのインタフェースである。ネットワークインタフェース１２４には、既存の通信規格に適合したもの等、適切なインタフェースが用いられる。なお、通信ネットワーク１５０は、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、ＰＡＮ（Personal Area Network）等のいずれか、又は、それらの組み合わせであってもよい。ＷＡＮの一例としてインタネット等があり、ＬＡＮの一例としてＩＥＥＥ８０２．１１やイーサネット等があり、ＰＡＮの一例としてＢｌｕｅｔｏｏｔｈ（登録商標が）やＮＦＣ（Near Field Communication）等がある。

【0017】

デバイスインタフェース１２５は、外部装置１６０と直接接続するＵＳＢ等のインタフェースである。

【0018】

外部装置１６０はコンピュータと接続されている装置である。外部装置１６０は、一例として、入力装置であってもよい。入力装置は、例えば、キーボード、マウス、又はタッチパネル等の操作装置１６１であり、取得した情報をコンピュータに与える。

【0019】

また、外部装置１６０は、一例として、出力装置であってもよい。出力装置は、例えば、ＬＣＤ（Liquid Crystal Display）、ＣＲＴ（Cathode Ray Tube）、ＰＤＰ（Plasma Display Panel）、又は有機ＥＬ（Electro Luminescence）パネル等の表示装置１６２であってもよい。

【0020】

データ処理装置１４０は、各装置として、複数のボード（ボード１４０＿１～１４０＿４）を有する。ボード１４０＿１～１４０＿４は、複数のアクセラレータチップ（例えば、チップ１７０＿１～１７０＿ｎ）を搭載する。

【0021】

また、図１に示すように、コンパイル装置１２０の各装置と、データ処理装置１４０の各装置とは、バス１３０を介して接続される。なお、図１の例では、データ処理装置１４０が４枚のボード１４０＿１～１４０＿４を有する場合について示しているが、データ処理装置１４０が有するボードの枚数は任意である。

【0022】

チップ１７０＿１～１７０＿ｎは、例えば、深層学習の学習フェーズに特化した専用のチップである。なお、チップ１７０＿１～１７０＿ｎの詳細は後述する。

【0023】

＜データ処理システムの各装置の機能構成＞
次に、データ処理システム１００の各装置（ここでは、サーバ装置１１０、表示装置１６２）の機能構成について説明する。図２は、データ処理システムの各装置の機能構成の一例を示す第１の図である。

【0024】

コンパイル装置１２０には、ソースコードを生成するための生成プログラムと、マシンコードを生成するためのコンパイラとがインストールされており、当該プログラムが実行されることで、コンパイル装置１２０は、
・ソースコード記述部２１１、
・生成部２１２、
・コンパイル部２１３、
として機能する。

【0025】

コンパイル装置１２０のユーザは、ソースコード記述部２１１を起動させることで、ソースコードの記述を開始する。図２において、ソースコード２３０は、表示装置１６２に表示された、記述中のソースコードの一例であり、本実施形態の場合、ソースコード２３０には、テンソルに関する記述、レイアウトに関する記述、インデックスに関する記述等が含まれる。なお、記述されたソースコード２３０は、生成部２１２に通知される。

【0026】

生成部２１２は、ソースコード２３０に基づいて計算グラフを生成する。計算グラフとは、入力のテンソルから出力のテンソルを生成するまでの計算の流れをグラフに表したもの、あるいは、テンソルの値を更新する計算の流れをグラフに表したものを指す。例えば、ソースコード２３０が、Ｐｙｔｈｏｎ（登録商標）コードにより記述されている場合、計算グラフは、当該ソースコード２３０を実行し、ＯＮＮＸの表現形式に変換されることにより生成される。なお、ＯＮＮＸは、Open Neural Network Exchangeの略称である。

【0027】

また、生成部２１２は、ソースコード２３０に基づいて、レイアウト指示書を生成する。レイアウト指示書とは、ソースコード２３０に含まれるレイアウトに関する記述に基づいて生成される、テンソルの各要素にアドレスを割り当てる処理を実行するための情報である。ここでいう、"テンソルの各要素にアドレスを割り当てる処理"は、"テンソルの各要素とアドレスとを対応付ける処理"の一例である。"テンソルの各要素とアドレスとを対応付ける処理"には、少なくとも"テンソルの各要素にアドレスを割り当てる処理"又は"アドレスにテンソルの各要素を割り当てる処理"のいずれかが含まれる。

【0028】

なお、生成部２１２において生成された計算グラフ及びレイアウト指示書（以下、計算グラフ等と称す）は、コンパイル部２１３に通知される。

【0029】

コンパイル部２１３は、生成部２１２により通知された計算グラフ等が入力されることでコンパイル処理を行い、マシンコードを生成する。このとき、コンパイル部２１３は、割り当て部として機能する。具体的には、コンパイル部２１３は、例えば、レイアウトに関する記述に基づいて生成されたレイアウト指示書のもと、テンソルの各要素に、チップ１７０＿１～１７０＿ｎ内のメモリ（一例として、ＳＲＡＭでもよい）のいずれかのアドレスを割り当てる。

【0030】

なお、生成されたマシンコードは、データ格納部２１４に格納されたデータとともに、データ処理装置１４０に入力される。

【0031】

データ処理装置１４０のボード１４０＿１～１４０＿４は、コンパイル部２１３により生成されたマシンコードを実行し、データ格納部２１４に格納されたデータを処理する実行部２２０として機能する。

【0032】

このとき、実行部２２０は、書き込み部２５１として機能する。書き込み部２５１は、例えば、テンソルに関する記述に基づいて、テンソルの各要素の値（データ格納部２１４に格納されたデータ）を、割り当て部２４１によって割り当てられた、チップ１７０＿１～１７０＿ｎ内のメモリのアドレスに書き込む。

【0033】

また、実行部２２０は、要素値読み出し部２５２として機能する。要素値読み出し部２５２は、例えば、インデックスに関する記述に基づいて、チップ１７０＿１～１７０＿ｎ内のメモリに書き込まれたテンソルの特定の要素の値を読み出す。

【0034】

更に、実行部２２０は、補助書き込み部２５３として機能する。補助書き込み部２５３は、例えば、レイアウトに関する記述に基づいて、テンソルの各要素の値を補完する。具体的には、補助書き込み部２５３は、書き込み先のメモリに応じてテンソルのサイズを調整するよう、足りない要素の値を補完するパディング処理を行う。また、補助書き込み部２５３は、配列の形状が合致しないテンソル同士の各要素の演算を行う際に、形状を合わせるブロードキャスト処理を行う。

【0035】

＜アクセラレータチップのハードウェア構成＞
次に、ボード１４０＿１～１４０＿４等に搭載されるアクセラレータチップ（例えば、チップ１７０＿１～１７０＿ｎ）のハードウェア構成について説明する。図３は、アクセラレータチップのハードウェア構成の一例を示す図である。

【0036】

チップ１７０＿１（チップ１７０＿１～１７０＿ｎはいずれも同じハードウェア構成を有するため、ここでは、チップ１７０＿１について説明する）は、例えば、ＳＩＭＤアーキテクチャにより動作する。ＳＩＭＤとは、Single Instruction/Multiple Dataの略で、１つの命令を同時に複数のデータに適用し、並列に処理する方式を指す。ただし、チップ１７０＿１は、ＳＩＭＤアーキテクチャ以外のアーキテクチャにより動作してもよい。

【0037】

図３に示すように、チップ１７０＿１は、４個の第３階層ブロックを有する。また、各第３階層ブロックは、それぞれ、４個の第２階層ブロックを有する。そして、各第２階層ブロックは、複数の第１階層ブロックと、１個の第２階層ブロックメモリとを有する。

【0038】

また、各第１階層ブロックは、１個の演算器と、４個の演算ユニットとを有する。なお、４個の演算ユニットは、演算器にデータを供給する。

【0039】

このように、チップ１７０＿１は、複数の第１階層ブロックが４個の第２階層ブロック及び４個の第３階層ブロックに分散配置されており、これらは木構造のトポロジにより接続されている。このため、チップ１７０＿１内において、複数の第１階層ブロックに含まれるメモリ間の通信コストは一様ではない。例えば、互いに近いメモリ間の通信は、低コストであるのに対して、木構造の階層を遡る必要のあるメモリ間の通信は、高コストである。

【0040】

＜木構造のトポロジ＞
次に、木構造のトポロジにより接続された複数のメモリの具体例について説明する。図４は、木構造のトポロジにより接続された複数のメモリの具体例を示す図である。

【0041】

図４の例に示すように、４個の第３階層ブロックは、木構造のＬｅｖｅｌＡの階層に属し、互いに接続されている。また、各第３階層ブロックにそれぞれ含まれる４個の第２階層ブロックは、いずれも木構造のＬｅｖｅｌＢの階層に属し、それぞれ、木構造のＬｅｖｅｌＡの階層の対応する第３階層ブロックに接続される。

【0042】

更に、木構造のＬｅｖｅｌＢの階層に属する各第２階層ブロックにそれぞれ含まれる４個の第１階層ブロックは、いずれも木構造のＬｅｖｅｌＣの階層に属し、それぞれ、木構造のＬｅｖｅｌＢの階層の対応する第２階層ブロックに接続される。

【0043】

ここで、例えば、
・符号４０１に示すＬｅｖｅｌＣの第１階層ブロックに含まれるメモリ４１１に書き込まれた値を、
・符号４０２に示すＬｅｖｅｌＣの第１階層ブロックに含まれるメモリ４１２に、
移動させる場合について考える。

【0044】

この場合、チップ１７０＿１は、
・木構造の階層をＬｅｖｅｌＣ→ＬｅｖｅｌＢ→ＬｅｖｅｌＡまで遡り、
・ＬｅｖｅｌＡ内で異なるブロックを跨ぎ、
・木構造の階層をＬｅｖｅｌＡ→ＬｅｖｅｌＢ→ＬｅｖｅｌＣまで進む、
といった手順を踏む必要があり、通信コストがかかる。一方で、通信コストを低減させるためには、メモリ４１１に値を書き込む代わりに、メモリ４１２の近くのメモリに値を書き込むことが有効である。

【0045】

つまり、木構造のトポロジにより接続された複数のメモリが分散配置されたチップ１７０＿１の場合、木構造の階層を考慮したメモリにテンソルの各要素の値が書き込まれるよう、テンソルの各要素にメモリのアドレスを適切に割り当てることが重要となる。

【0046】

本実施形態において、データ処理システム１００では、
・テンソルの各要素にメモリのアドレスを適切に割り当てることが可能な記述方法を用いて「レイアウトに関する記述」を行うソースコード記述部２１１と、
・当該記述方法に従って、テンソルの各要素にアドレスを割り当てるコンパイル部２１３と、
・割り当てられたアドレスに、テンソルの各要素の値（データ格納部２１４に格納されたデータ）を書き込む実行部２２０と、
を提供する。

【0047】

＜レイアウトに関する記述の記述方法＞
次に、レイアウトに関する記述の記述方法について説明する。図５は、レイアウトに関する記述の記述方法を示す図である。

【0048】

図５に示すように、レイアウトに関する記述は、括弧内に、縦方向の配置に関する記述と、横方向の配置に関する記述とを含み、両者がカンマで区切られる。

【0049】

また、図５に示すように、縦方向の配置に関する記述は、１階層目のＬｅｖｅｌに関する記述、２階層目のＬｅｖｅｌに関する記述、・・・を含み、更に、最下層のＬｅｖｅｌのメモリに関する記述を含む。なお、１階層目のＬｅｖｅｌに関する記述とは、例えば、図４のＬｅｖｅｌＡに関する記述であり、２階層目のＬｅｖｅｌに関する記述とは、例えば、図４のＬｅｖｅｌＢに関する記述である。また、最下層のＬｅｖｅｌのメモリに関する記述とは、例えば、図４のＬｅｖｅｌＣの第１階層ブロックに含まれるメモリに関する記述である。

【0050】

また、図５に示すように、Ｎ階層目（Ｎは１以上の整数）のＬｅｖｅｌに関する記述の記述内容は、「分割数＿Ｌｅｖｅｌ名：ストライド」であり、最下層のＬｅｖｅｌのメモリに関する記述の記述内容は、「分割数＿メモリのアドレス：ストライド」である。

【0051】

なお、ここでいう"ストライド"とは、それぞれの階層において、ブロック（最下層の場合にはテンソルの要素）を縦方向に１個（最下層の場合には１要素）進めたときに、ブロック名（最下層の場合にはアドレス）が何個進むかを示す情報である。ただし、ブロック名は、各ブロックを識別可能な識別子（番号、名称等）であってもよい。

【0052】

例えば、ＬｅｖｅｌＡの階層における４個の第３階層ブロックのブロック名が"Ａ０"～"Ａ３"であったとする。また、１行目の左から、"Ａ０"、"Ａ１"の順で第３階層ブロックが配置され、２行目の左から、"Ａ２"、"Ａ３"の順で第３階層ブロックが配置されていたとする。この場合、ブロック名＝"Ａ０"の第３階層ブロックを縦方向に１個進めたときに、ブロック名は２個進む（"Ａ０"→"Ａ２"、"Ａ１"→"Ａ３"になる）。したがって、かかる配置方向の場合、ストライドは、"２"となる。

【0053】

また、例えば、ＬｅｖｅｌＣの階層において、テンソルの１行目の要素に割り当てられるメモリ４１１のアドレスが"０"～"２４"、２行目の要素に割り当てられるメモリ４１１のアドレスが"２５"～"４９"、・・・であったとする。この場合、テンソルの要素を縦方向に１個進めたときに、アドレスは２５個進む（"０"→"２５"→・・・になる）。したがって、かかるメモリの場合、ストライドは、"２５"となる。なお、上記ストライドの説明は一例であり、ストライドは、各階層における縦方向のブロック名の変化を示す情報であれば、他の表現形式であってもよい。

【0054】

同様に、図５に示すように、横方向の配置に関する記述は、１階層目のＬｅｖｅｌに関する記述、２階層目のＬｅｖｅｌに関する記述、・・・を含み、更に、最下層のＬｅｖｅｌのメモリに関する記述を含む。

【0055】

【0056】

なお、ここでいう"ストライド"とは、それぞれの階層において、ブロック（最下層の場合にあってはテンソルの要素）を横方向に１個進めたときに、ブロック名（最下層の場合にあってはアドレス）がいくつ進むかを示す情報である。

【0057】

例えば、ＬｅｖｅｌＡの階層における４個の第３階層ブロックのブロック名が"Ａ０"～"Ａ３"であったとする。また、１行目の左から、"Ａ０"、"Ａ１"の順で第３階層ブロックが配置され、２行目の左から、"Ａ２"、"Ａ３"の順で第３階層ブロックが配置されていたとする。この場合、ブロック名＝"Ａ０"の第３階層ブロックを横方向に１個進めたときに、ブロック名は１個進む（"Ａ０"→"Ａ１"、"Ａ２"→"Ａ３"になる）。したがって、かかる配置方向の場合、ストライドは、"１"となる。

【0058】

また、例えば、ＬｅｖｅｌＣの階層において、テンソルの１行目の要素に割り当てられるメモリ４１１のアドレスが"０"～"２４"、２行目の要素に割り当てられるメモリ４１１のアドレスが"２５"～"４９"、・・・であったとする。この場合、テンソルの要素を縦方向に１個進めたときに、アドレスは１個進む（"０"→"１"→・・・になる）。したがって、かかるメモリの場合、ストライドは、"１"となる。なお、上記ストライドの説明は一例であり、ストライドは、各階層における横方向のブロック名の変化を示す情報であれば、他の表現形式であってもよい。

【0059】

このように、縦方向の配置に関する記述と横方向の配置に関する記述とに分け、かつ、各階層の分割数、ストライドを指定する記述とすることで、
・表現力の高い記述方法が実現でき、複数のメモリが、木構造の複雑なトポロジにより接続されている場合であっても、複数のメモリに対するテンソルの各要素の配置を適切に表現することができる、
・これにより、テンソルの各要素に適切なアドレスを割り当てることが可能となり、チップ１７０＿１はメモリ間の通信コストを低減させることができる、
・表現力の高い記述方法が実現でき、演算ごとに課せられる制約に対応することができる、
・複数のメモリに対するテンソルの各要素の配置を、ユーザが直感で理解することができるため、ユーザはテンソルの各要素の配置を考慮した演算の最適化や、ＳＩＭＤの特性を考慮したテンソルの各要素の配置が可能になる、
・テンソル間で各要素の配置を揃えることができるため、ＳＩＭＤアーキテクチャによる動作において有利となる、
等の利点がある。

【0060】

＜レイアウトに関する記述及び割り当て部による処理の具体例＞
（１）具体例１
次に、レイアウトに関する記述の具体例について説明する。図６は、レイアウトに関する記述の具体例を示す第１の図である。なお、図６の例では、説明の簡略化のため、階層数を"２"としている（１階層目＝ＬｅｖｅｌＡ、２階層目＝最下層＝ＬｅｖｅｌＢ）。

【0061】

図６（ｂ）に示すように、１００行×１００列のテンソルＸの各要素を、図６（ａ）のチップ６００の最下層のＬｅｖｅｌＢのブロックに含まれるメモリに割り当てる場合、レイアウトに関する記述は、例えば、
（（２＿Ａ：２，２＿Ｂ：２，２５＿Ａｄｄｒ：２５），（２＿Ａ：１，２＿Ｂ：１，２５＿Ａｄｄｒ：１））
となる。

【0062】

ここで、縦方向の配置に関する記述のうち、２＿Ａ：２は、
・ＬｅｖｅｌＡにおいて、縦方向の１００個の要素を２分割し、５０個の要素のかたまりにすること、
・ＬｅｖｅｌＡにおいて、ブロックを縦方向に１個進めると、ブロック名が２個進むこと（"Ａ０"→"Ａ２"または"Ａ１"→"Ａ３"）、
を表している。

【0063】

また、縦方向の配置に関する記述のうち、２＿Ｂ：２は、
・ＬｅｖｅｌＢにおいて、縦方向の５０個の要素を２分割し、２５個の要素のかたまりにすること、
・ＬｅｖｅｌＢにおいて、ブロックを縦方向に１個進めると、ブロック名が２個進むこと（"Ｂ０"→"Ｂ２"または"Ｂ１"→"Ｂ３"）、
を表している。

【0064】

また、縦方向の配置に関する記述のうち、２５＿Ａｄｄｒ：２５は、
・ＬｅｖｅｌＢのブロックに含まれるメモリにおいて、縦方向の２５個の要素を２５分割すること、
・ＬｅｖｅｌＢのブロックに含まれるメモリにおいて、テンソルの要素を縦方向に１個進めると、アドレスが２５個進むこと（例えば、アドレス"０"→"２５"、"１"→"２６"、・・・）、
を表している。

【0065】

一方、横方向の配置に関する記述のうち、２＿Ａ：１は、
・ＬｅｖｅｌＡにおいて、横方向の１００個の要素を２分割し、５０個の要素のかたまりにすること、
・ＬｅｖｅｌＡにおいて、ブロックを横方向に１個進めると、ブロック名が１個進むこと（"Ａ０"→"Ａ１"または"Ａ２"→"Ａ３"）、
を表している。

【0066】

また、横方向の配置に関する記述のうち、２＿Ｂ：１は、
・ＬｅｖｅｌＢにおいて、横方向の５０個の要素を２分割し、２５個の要素のかたまりにすること、
・ＬｅｖｅｌＢにおいて、ブロックを横方向に１個進めると、ブロック名が１個進むこと（"Ｂ０"→"Ｂ１"または"Ｂ２"→"Ｂ３"）、
を表している。

【0067】

また、横方向の配置に関する記述のうち、２５＿Ａｄｄｒ：１は、
・ＬｅｖｅｌＢのブロックに含まれるメモリにおいて、横方向の２５個の要素を２５分割すること、
・ＬｅｖｅｌＢのブロックに含まれるメモリにおいて、テンソルの要素を横方向に１個進めると、アドレスが１個進むこと（例えば、アドレス"０"→"１"、"１"→"２"、・・・）、
を表している。

【0068】

このように、レイアウトに関する上記記述により、割り当て部２４１では、１００行×１００列の各要素に、チップ６００のＬｅｖｅｌＢのブロックに含まれるメモリのアドレスを割り当てることができる。

【0069】

（２）具体例２
次に、レイアウトに関する記述の他の具体例について説明する。図７は、レイアウトに関する記述の具体例を示す第２の図である。なお、図７の例においても、説明の簡略化のため、階層数を"２"としている（１階層目＝ＬｅｖｅｌＡ、２階層目＝最下層＝ＬｅｖｅｌＢ）。ただし、図７の例の場合、図６の例とは、ブロックの区切り方が異なっている（図７（ａ）参照）。

【0070】

図７（ｂ）に示すように、１００行×１００列のテンソルＸの各要素を、図７（ａ）のチップ７００の最下層のＬｅｖｅｌＢのブロックに含まれるメモリに割り当てる場合、レイアウトに関する記述は、例えば、
（（４＿Ａ：１，２５＿Ａｄｄｒ：２５），（４＿Ｂ：１，２５＿Ａｄｄｒ：１））
となる。

【0071】

ここで、縦方向の配置に関する記述のうち、４＿Ａ：１は、
・ＬｅｖｅｌＡにおいて、縦方向の１００個の要素を４分割し、２５個の要素のかたまりにすること、
・ＬｅｖｅｌＡにおいて、ブロックを縦方向に１個進めると、ブロック名が１個進むこと（"Ａ０"→"Ａ１"、"Ａ１"→"Ａ２"、"Ａ２"→"Ａ３"）、
を表している。

【0072】

【0073】

一方、横方向の配置に関する記述のうち、４＿Ｂ：１は、
・ＬｅｖｅｌＢにおいて、横方向の１００個の要素を４分割し、２５個の要素のかたまりにすること、
・ＬｅｖｅｌＢにおいて、ブロックを横方向に１個進めると、ブロック名が１個進むこと（"Ｂ０"→"Ｂ１"、"Ｂ１"→"Ｂ２"、"Ｂ２"→"Ｂ３"）、
を表している。

【0074】

【0075】

このように、レイアウトに関する上記記述により、割り当て部２４１では、１００行×１００列の各要素に、チップ７００のＬｅｖｅｌＢのブロックに含まれるメモリのアドレスを割り当てることができる。

【0076】

＜書き込み部による処理の具体例＞
（１）具体例１
次に、割り当て部２４１により割り当てられたアドレス（図６）に従って、テンソルＸの各要素の値を、対応するメモリに書き込む処理の具体例について説明する。図８は、書き込み部による処理の具体例を示す第１の図である。

【0077】

図８において、符号８００は、１００行×１００列のテンソルＸの各要素の値（データ格納部２１４に格納されたデータ）の具体例を示している。また、図８において、符号６００'は、チップ６００のＬｅｖｅｌＢのブロックに含まれるメモリに、テンソルＸの各要素の値が書き込まれた様子を示している。

【0078】

例えば、ブロック名＝"Ａ０"のブロック内の、ブロック名＝"Ｂ０"のブロックに含まれるメモリの、
・アドレス"０"～"２４"には、ｘ_１＿１～ｘ_１＿２５が書き込まれ、
・アドレス"２５"～"４９"には、ｘ_２＿１～ｘ_２＿２５が書き込まれ、
・・・
・アドレス"６００"～"６２４"には、ｘ_２５＿１～ｘ_{２５＿２５}が書き込まれる。

【0079】

また、ブロック名＝"Ａ０"のブロック内の、ブロック名＝"Ｂ１"のブロックに含まれるメモリの、
・アドレス"０"～"２４"には、ｘ_１＿２６～ｘ_１＿５０が書き込まれ、
・アドレス"２５"～"４９"には、ｘ_２＿２６～ｘ_２＿５０が書き込まれ、
・・・
・アドレス"６００"～"６２４"には、ｘ_{２５＿２６}～ｘ_{２５＿５０}が書き込まれる。

【0080】

また、ブロック名＝"Ａ０"のブロック内の、ブロック名＝"Ｂ２"のブロックに含まれるメモリの、
・アドレス"０"～"２４"には、ｘ_２６＿１～ｘ_{２６＿２５}が書き込まれ、
・アドレス"２５"～"４９"には、ｘ_２７＿１～ｘ_{２７＿２５}が書き込まれ、
・・・
・アドレス"６００"～"６２４"には、ｘ_５０＿１～ｘ_{５０＿２５}が書き込まれる。

【0081】

また、ブロック名＝"Ａ０"のブロック内の、ブロック名＝"Ｂ３"のブロックに含まれるメモリの、
・アドレス"０"～"２４"には、ｘ_{２６＿２６}～ｘ_{２６＿５０}が書き込まれ、
・アドレス"２５"～"４９"には、ｘ_{２７＿２６}～ｘ_{２７＿５０}が書き込まれ、
・・・
・アドレス"６００"～"６２４"には、ｘ_{５０＿２６}～ｘ_{５０＿５０}が書き込まれる。

【0082】

以降、同様に、テンソルＸの各要素の値がＬｅｖｅｌＢのブロックに含まれるメモリに書き込まれる。

【0083】

このように、書き込み部２５１では、１００行×１００列の各要素をチップ６００のＬｅｖｅｌＢのブロックに含まれるメモリに書き込むことができる。

【0084】

（２）具体例２
次に、割り当て部２４１により割り当てられたアドレス（図７）に従って、テンソルＸの各要素の値を、対応するメモリに書き込む処理の具体例について説明する。図９は、書き込み部による処理の具体例を示す第２の図である。

【0085】

図９において、符号８００は、１００行×１００列のテンソルＸの各要素の値（データ格納部２１４に格納されたデータ）の具体例を示している。また、図９において、符号７００'は、チップ７００のＬｅｖｅｌＢのブロックに含まれるメモリに、テンソルＸの各要素の値が書き込まれた様子を示している。

【0086】

【0087】

【0088】

また、ブロック名＝"Ａ０"のブロック内の、ブロック名＝"Ｂ２"のブロックに含まれるメモリの、
・アドレス"０"～"２４"には、ｘ_１＿５１～ｘ_１＿７５が書き込まれ、
・アドレス"２５"～"４９"には、ｘ_２＿５１～ｘ_２＿７５が書き込まれ、
・・・
・アドレス"６００"～"６２４"には、ｘ_{２５＿５１}～ｘ_{２５＿７５}が書き込まれる。

【0089】

また、ブロック名＝"Ａ０"のブロック内の、ブロック名＝"Ｂ３"のブロックに含まれるメモリの、
・アドレス"０"～"２４"には、ｘ_１＿７６～ｘ_{１＿１００}が書き込まれ、
・アドレス"２５"～"４９"には、ｘ_２＿７６～ｘ_{２＿１００}が書き込まれ、
・・・
・アドレス"６００"～"６２４"には、ｘ_{２５＿７６}～ｘ_{２５＿１００}が書き込まれる。

【0090】

以降、同様に、テンソルＸの各要素の値がＬｅｖｅｌＢのブロックに含まれるメモリに書き込まれる。

【0091】

このように、書き込み部２５１では、１００行×１００列の各要素をチップ７００のＬｅｖｅｌＢのブロックに含まれるメモリに書き込むことができる。

【0092】

＜要素値読み出し部による処理の具体例＞
次に、要素値読み出し部２５２による処理の具体例について説明する。上述したように、要素値読み出し部２５２は、ソースコード２３０に含まれるインデックスに関する記述に基づいて、メモリに書き込まれたテンソルの特定の要素の値を読み出す。

【0093】

（１）具体例１
図１０は、要素値読み出し部による処理の具体例を示す第１の図である。図１０の例は、図８の符号８００で示すテンソルＸの各要素の値が、図６（ｂ）の「レイアウトに関する記述」のもとで、チップ６００に書き込まれた状態（符号６００'参照）で、インデックス（９１，３６）の値を読み出す様子を示している。

【0094】

図１０に示すように、要素値読み出し部２５２は、縦方向のアドレスを特定するための値（＝"９１"）を、ＬｅｖｅｌＡの１ブロックあたりの縦方向の要素数（＝"５０"）で除算することで得た商の値に基づき、ＬｅｖｅｌＡの縦方向のブロックを特定する。

【0095】

図１０の例では、商の値が"１"であるため、要素値読み出し部２５２では、ＬｅｖｅｌＡの縦方向のブロックが１番目のブロック（ブロック名＝"Ａ２"または"Ａ３"）であることを特定する。

【0096】

続いて、要素値読み出し部２５２は、余りの値（＝"４１"）を、ＬｅｖｅｌＢの１ブロックあたりの縦方向の要素数（＝"２５"）で除算することで得た商の値に基づき、ＬｅｖｅｌＢの縦方向のブロックを特定する。

【0097】

図１０の例では、商の値が"１"であるため、要素値読み出し部２５２では、ＬｅｖｅｌＢの縦方向のブロックが１番目のブロック（ブロック名＝"Ｂ２"または"Ｂ３"）であることを特定する。

【0098】

続いて、要素値読み出し部２５２は、余りの値（＝"１６"）から、テンソルの縦方向の位置が、１６行目であることを特定する。

【0099】

同様に、要素値読み出し部２５２は、横方向のアドレスを特定するための値（＝"３６"）を、ＬｅｖｅｌＡの１ブロックあたりの横方向の要素数（＝"５０"）で除算することで得た商の値に基づき、ＬｅｖｅｌＡの横方向のブロックを特定する。

【0100】

図１０の例では、商の値が"０"であるため、要素値読み出し部２５２では、ＬｅｖｅｌＡの横方向のブロックが０番目のブロック（ブロック名＝"Ａ０"または"Ａ２"）であることを特定する。

【0101】

続いて、要素値読み出し部２５２は、余りの値（＝"３６"）を、ＬｅｖｅｌＢの１ブロックあたりの横方向の要素数（＝"２５"）で除算することで得た商の値に基づき、ＬｅｖｅｌＢの横方向のブロックを特定する。

【0102】

図１０の例では、商の値が"１"であるため、要素値読み出し部２５２では、ＬｅｖｅｌＢの横方向のブロックが１番目のブロック（ブロック名＝"Ｂ１"または"Ｂ３"）であることを特定する。

【0103】

続いて、要素値読み出し部２５２は、余りの値（＝"１１"）から、テンソルの横方向の位置が、１１列目であることを特定する。

【0104】

これにより、要素値読み出し部２５２は、
・ＬｅｖｅｌＡのブロックが、ブロック名＝"Ａ２"であり、
・ＬｅｖｅｌＢのブロックが、ブロック名＝"Ｂ３"であり、
・メモリのアドレスが、１６行目×２５＋１１列目＝"４１１番目のアドレス"（符号１０００参照）、
であることを特定する。

【0105】

この結果、要素値読み出し部２５２では、インデックスに関する記述に基づいて特定したアドレスに書き込まれた値を読み出すことができる。

【0106】

このように、インデックス（９１，３６）を、（（１，１，１６），（０，１，１１））に分解し、それぞれ、
・ＬｅｖｅｌＡのブロックとして、１×ストライド（＝"２"）＋０×ストライド（＝"１"）＝２を、
・ＬｅｖｅｌＢのブロックとして、１×ストライド（＝"２"）＋１×ストライド（＝"１"）＝３を、
・メモリのアドレスとして、１６×ストライド（＝"２５"）＋１１×ストライド（＝"１"）＝４１１を、
算出することで、ＬｅｖｅｌＡのブロックとして、ブロック名＝"Ａ２"、ＬｅｖｅｌＢのブロックとして、ブロック名＝"Ｂ３"、メモリのアドレスとして、"４１１番目のアドレス"を特定することができる。

【0107】

上記のように、要素値読み出し部２５２がインデックス（９１，３６）を分解することで得られる（（１，１，１６），（０，１，１１））を、本実施形態では、例えば、「分解されたインデックス」と称する。また、上記のように、要素値読み出し部２５２がインデックス（９１，３６）から特定したブロック名＝"Ａ２"，ブロック名＝"Ｂ３"、メモリのアドレス＝"４１１番目のアドレス"を、本実施形態では、例えば、「階層ごとのインデックス」と称す。

【0108】

「分解されたインデックス」である（（１，１，１６），（０，１，１１））や、「階層ごとのインデックス」である（"Ａ２"、"Ｂ３"、"４１１番目のアドレス"）等の表現は、コンパイル部２１３によるマシンコードの生成過程で利用されてもよい。例えば、同一テンソルに対するレイアウトの変更を実施するマシンコードを生成する際、テンソルの各要素の特定方法として利用されてもよい。

【0109】

なお、図８の符号８００で示すテンソルＸの各要素の値がチップ６００に書き込まれた場合には、テンソルＸを、例えば、３×３行列あるいは５×５行列等の単位で演算を行う状況において、通信コストの低減を実現できる。３×３行列あるいは５×５行列等の単位で演算を行う際に、ＬｅｖｅｌＡにおいて異なるブロックを跨ぐ回数を減らすことができるからである。なお、３×３行列あるいは５×５行列等の単位で行う演算には、例えば、畳み込み処理やプーリング処理等が含まれる。

【0110】

（２）具体例２
図１１は、要素値読み出し部による処理の具体例を示す第２の図である。図１１の例は、図９の符号９００で示すテンソルＸの各要素の値が、図７（ｂ）の「レイアウトに関する記述」のもとで、チップ７００に書き込まれた状態（符号７００'参照）で、インデックス（９１，３６）の値を読み出す様子を示している。

【0111】

図１１に示すように、要素値読み出し部２５２は、縦方向のアドレスを特定するための値（＝"９１"）を、ＬｅｖｅｌＡの１ブロックあたりの縦方向の要素数（＝"２５"）で除算することで得た商の値に基づき、ＬｅｖｅｌＡの縦方向のブロックを特定する。

【0112】

図１１の例では、商の値が"３"であるため、要素値読み出し部２５２では、ＬｅｖｅｌＡの縦方向のブロックが３番目のブロック（ブロック名＝"Ａ３"）であることを特定する。

【0113】

続いて、要素値読み出し部２５２は、余りの値（＝"１６"）から、テンソルの縦方向の位置が、１６行目であることを特定する。

【0114】

同様に、要素値読み出し部２５２は、横方向のアドレスを特定するための値（＝"３６"）を、ＬｅｖｅｌＢの１ブロックあたりの横方向の要素数（＝"２５"）で除算することで得た商の値に基づき、ＬｅｖｅｌＢの横方向のブロックを特定する。

【0115】

図１１の例では、商の値が"１"であるため、要素値読み出し部２５２では、ＬｅｖｅｌＢの横方向のブロックが１番目のブロック（ブロック名＝"Ｂ１"）であることを特定する。

【0116】

続いて、要素値読み出し部２５２は、余りの値（＝"１１"）から、テンソルの横方向の位置が、１１列目であることを特定する。

【0117】

これにより、要素値読み出し部２５２は、
・ＬｅｖｅｌＡのブロックが、ブロック名＝"Ａ３"であり、
・ＬｅｖｅｌＢのブロックが、ブロック名＝"Ｂ１"であり、
・メモリのアドレスが、１６行目×２５＋１１列目＝"４１１番目のアドレス"（符号１１００参照）、
であることを特定する。

【0118】

この結果、要素値読み出し部２５２では、インデックスに関する記述に基づいて特定したアドレスに書き込まれた値を読み出すことができる。

【0119】

このように、インデックス（９１，３６）を、（（３，１６），（１，１１））に分解し、それぞれ、
・ＬｅｖｅｌＡのブロックとして、３×ストライド（＝"１"）＝３を、
・ＬｅｖｅｌＢのブロックとして、１×ストライド（＝"１"）＝１を、
・メモリのアドレスとして、１６×ストライド（＝"２５"）＋１１×ストライド（＝"１"）＝４１１を、
算出することで、ＬｅｖｅｌＡのブロックとして、ブロック名＝"Ａ３"、ＬｅｖｅｌＢのブロックとして、ブロック名＝"Ｂ１"、メモリのアドレスとして、"４１１番目のアドレス"を特定することができる。

【0120】

なお、図９の符号９００で示すテンソルＸの各要素の値がチップ７００に書き込まれた場合には、例えば、テンソルＸの行ごとの統計値を算出する状況において、通信コストの低減を実現できる。テンソルＸの行ごとの統計値を算出する際に、ＬｅｖｅｌＡにおいて異なるブロックを跨ぐ必要がないからである。

【0121】

＜データ処理システムによるデータ処理の流れ＞
次に、データ処理システム１００によるデータ処理の流れについて説明する。ここでは、ソースコード記述部２１１及び生成部２１２によるソースコード生成処理と、コンパイル部２１３によるマシンコード生成処理と、実行部２２０によるマシンコード実行処理とにわけて説明する。

【0122】

（１）ソースコード生成処理
はじめに、ソースコード記述部２１１及び生成部２１２によるソースコード生成処理の流れについて説明する。図１２は、ソースコード生成処理の流れを示すフローチャートである。ユーザがソースコード記述部２１１を起動することで、図１２に示すソースコード生成処理を開始する。

【0123】

ステップＳ１２０１において、ユーザは、ソースコードの記述を開始する。これにより、ソースコード記述部２１１では、ユーザによるソースコードの記述を受け付ける。

【0124】

ステップＳ１２０２において、ユーザは、テンソルに関する記述をしたか否かを判断し、テンソルに関する記述をしたと判断した場合には（ステップＳ１２０２においてＹＥＳの場合には）、ステップＳ１２０３に進む。これにより、ソースコード記述部２１１では、ユーザによるテンソルに関する記述を受け付ける。

【0125】

ステップＳ１２０３において、ユーザは、レイアウトに関する記述をし、ステップＳ１２０４に進む。これにより、ソースコード記述部２１１では、ユーザによるレイアウトに関する記述を受け付ける。

【0126】

一方、ステップＳ１２０２において、テンソルに関する記述をしていないと判断した場合には（ステップＳ１２０２においてＮＯの場合には）、直接、ステップＳ１２０４に進む。

【0127】

ステップＳ１２０４において、ユーザは、ソースコードの記述を終了するか否かを判断する。ステップＳ１２０４において、ソースコードの記述を終了しないと判断した場合には（ステップＳ１２０４においてＮＯの場合には）、ステップＳ１２０２に戻り、ソースコードの記述を継続する。

【0128】

一方、ステップＳ１２０４において、ソースコードの記述を終了すると判断した場合には（ステップＳ１２０４においてＹＥＳの場合には）、ステップＳ１２０５に進む。

【0129】

ステップＳ１２０５において、ユーザは、生成部２１２を起動し、計算グラフ等を生成するよう指示する。これにより、生成部２１２は、ソースコード記述部２１１よりソースコードを取得し、計算グラフ等を生成する。また、生成部２１２は、生成した計算グラフ等をコンパイル部２１３に通知する。

【0130】

（２）マシンコード生成処理
次に、コンパイル部２１３によるマシンコード生成処理の流れについて説明する。図１３は、マシンコード生成処理の流れを示すフローチャートである。ユーザがコンパイル装置１２０のコンパイル部２１３を起動することで、コンパイル部２１３では、図１３に示すマシンコード生成処理を開始する。

【0131】

ステップＳ１３０１において、コンパイル部２１３は、計算グラフ等に基づいてコンパイル処理を開始する。

【0132】

ステップＳ１３０２において、コンパイル部２１３は、レイアウトに関する記述があるか否かを判定する。ステップＳ１３０２において、レイアウトに関する記述があると判定した場合には（ステップＳ１３０２においてＹＥＳの場合には）、ステップＳ１３０３に進む。

【0133】

ステップＳ１３０３において、コンパイル部２１３は、レイアウトに関する記述に基づいて、テンソルの各要素に、メモリのアドレスを割り当て、ステップＳ１３０４に進む。

【0134】

一方、ステップＳ１３０２において、レイアウトに関する記述がないと判定した場合には（ステップＳ１３０２においてＮＯの場合には）、直接、ステップＳ１３０４に進む。

【0135】

ステップＳ１３０４において、計算グラフ等についてコンパイル処理が終了したか否かを判定する。ステップＳ１３０４において、コンパイル処理が終了していないと判定した場合には（ステップＳ１３０４においてＮＯの場合には）、ステップＳ１３０２に戻り、コンパイル処理を継続する。

【0136】

一方、ステップＳ１３０４において、計算グラフ等についてコンパイル処理が終了したと判定した場合には（ステップＳ１３０４においてＹＥＳの場合には）、マシンコード生成処理を終了する。

【0137】

（３）マシンコード実行処理
次に、実行部２２０によるマシンコード実行処理の流れについて説明する。図１４は、マシンコード実行処理の流れを示すフローチャートである。ユーザがデータ格納部２１４に格納された処理対象のデータを指定して、サーバ装置１１０の実行部２２０に実行指示を入力することで、実行部２２０では、図１４に示すマシンコード実行処理を開始する。

【0138】

ステップＳ１４０１において、実行部２２０は、マシンコードの演算を開始する。

【0139】

ステップＳ１４０２において、実行部２２０は、割り当てられたメモリのアドレスに、テンソルの各要素の値（データ格納部２１４に格納された処理対象のデータ）を書き込む。

【0140】

ステップＳ１４０３において、実行部２２０は、マシンコード１４１０に含まれる各種処理を順次実行する。例えば、実行部２２０は、パディング処理を示すコードに応じて、パディング処理を行い、割り当てたメモリを、処理後のテンソルの各要素の値で更新する。また、実行部２２０は、ブロードキャスト処理を示すコードに応じて、ブロードキャスト処理を行い、割り当てたメモリを、処理後のテンソルの各要素の値で更新する。

【0141】

マシンコード１４１０に含まれる各種処理を全て実行すると、あるいは、所定の終了条件が成立すると、実行部２２０は、マシンコード実行処理を終了する。

【0142】

＜まとめ＞
以上の説明から明らかなように、第１の実施形態に係るコンパイル装置１２０は、
・木構造のトポロジにより接続され、分散配置された複数のメモリを有するアクセラレータチップにおいて実行されるマシンコードを生成する。
・処理対象のテンソルに対する階層ごとの分割数及びストライド（縦方向または横方向）に基づいて、処理対象のテンソルの各要素に、アクセラレータチップが有する複数のメモリ内のアドレスを割り当てる。

【0143】

これにより、第１の実施形態によれば、木構造のトポロジにより接続された複数のメモリに対するテンソルの各要素の配置を適切に表現できるようになる。

【0144】

［第２の実施形態］
上記第１の実施形態では、コンパイル装置１２０が、サーバ装置１１０内に配されるものとして説明したが、コンパイル装置１２０は、サーバ装置１１０とは別体に構成してもよい。また、上記第１の実施形態では、コンパイル部２１３をコンパイル装置１２０にて実現するものとして説明したが、コンパイル部２１３は、例えば、不図示の端末装置において実現されてもよい。あるいは、コンパイル部２１３は、端末以外の他の外部装置（例えば、他のサーバ装置）にて実現されてもよい。

【0145】

また、上記第１の実施形態では、コンパイル装置１２０にて、ソースコード記述部２１１、生成部２１２、コンパイル部２１３を実現するものとして説明した。しかしながら、ソースコード記述部２１１は、コンパイル装置１２０が配されたサーバ装置１１０とネットワークを介して接続された端末装置にて実現されてもよい。あるいは、ソースコード記述部２１１及び生成部２１２は、コンパイル装置１２０が配されたサーバ装置１１０と通信ネットワーク１５０を介して接続された端末装置にて実現されてもよい。

【0146】

図１５は、データ処理システムの各装置の機能構成の一例を示す第２の図である。図１５の例は、ソースコード記述部２１１及び生成部２１２が、端末装置１５１０にて実現され、端末装置１５１０に接続された表示装置１５２０に、ソースコード２３０が表示された様子を示している。図１５の例では、端末装置１５１０にて生成された計算グラフ等が、コンパイル装置１２０に送信される。

【0147】

また、上記第１の実施形態において、計算グラフは、ソースコード２３０が実行され、ＯＮＮＸの表現形式に変換されることで生成されるものとして説明したが、計算グラフの生成方法はこれに限定されず、他の方法により計算グラフを生成してもよい。

【0148】

また、上記第１の実施形態では、ユーザにより入力されたレイアウト記述に基づいて生成部２１２がレイアウト指示書を生成し、コンパイル部２１３が、レイアウト指示書に従ってテンソルの各要素に、アドレスを割り当てるものとして説明した。しかしながら、アドレスの割り当て方法はこれに限定されず、例えば、コンパイル部２１３がレイアウトを選択し、選択したレイアウトに従ってテンソルの各要素にアドレスを割り当てるようにしてもよい。

【0149】

また、上記第１の実施形態では、例えば、チップ１７０＿１がＬｅｖｅｌＡの階層に、４個の第３階層ブロックを有し、ＬｅｖｅｌＢの階層に、４個の第２階層ブロックを有するものとして説明した（図３）。しかしながら、各階層のブロック（メモリ）の数及び階層の数（深さ）はこれに限定されず、任意である。

【0150】

また、上記第１の実施形態では、
・ＬｅｖｅｌＡの階層：第３階層ブロック、
・ＬｅｖｅｌＢの階層：第２階層ブロック、
・ＬｅｖｅｌＣの階層：第１階層ブロック、
としたが、各階層の定義はこれに限定されず、例えば、
・ＬｅｖｅｌＡの階層：チップ、
・ＬｅｖｅｌＢの階層：第３階層ブロック、
・ＬｅｖｅｌＣの階層：第２階層ブロック、
・ＬｅｖｅｌＤの階層：第１階層ブロック、
としてもよいし、
・ＬｅｖｅｌＡの階層：チップ及び第３階層ブロック、
・ＬｅｖｅｌＢの階層：第２階層ブロック、
・ＬｅｖｅｌＣの階層：第１階層ブロック、
としてもよい。

【0151】

また、「ＬｅｖｅｌＡの階層：チップ及び第３階層ブロック」とする場合において、例えば、１つのボードに、４個のチップが搭載され、各チップが４個の第３階層ブロックを有していたとする。この場合、ＬｅｖｅｌＡの階層については、第３階層ブロックが１６個あるかのように、レイアウトに関する記述を行うことができる。

【0152】

なお、メモリが属する階層は、最下層に限定されず、他の階層に変わってもよい。また、最上位のメモリを束ねる構造（例えば、チップ）、チップを束ねる構造（例えば、ノード）、ノードを束ねる構造といった階層を定義して、上記第１及び第２の実施形態を適用してもよい。

【0153】

［その他の実施形態］
本明細書（請求項を含む）において、「ａ、ｂ及びｃの少なくとも１つ（一方）」又は「ａ、ｂ又はｃの少なくとも１つ（一方）」の表現（同様な表現を含む）が用いられる場合は、ａ、ｂ、ｃ、ａ－ｂ、ａ－ｃ、ｂ－ｃ、又はａ－ｂ－ｃのいずれかを含む。また、ａ－ａ、ａ－ｂ－ｂ、ａ－ａ－ｂ－ｂ－ｃ－ｃ等のように、いずれかの要素について複数のインスタンスを含んでもよい。さらに、ａ－ｂ－ｃ－ｄのようにｄを有する等、列挙された要素（ａ、ｂ及びｃ）以外の他の要素を加えることも含む。

【0154】

また、本明細書（請求項を含む）において、「データを入力として／データに基づいて／に従って／に応じて」等の表現（同様な表現を含む）が用いられる場合は、特に断りがない場合、各種データそのものを入力として用いる場合や、各種データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等）を入力として用いる場合を含む。また「データに基づいて／に従って／に応じて」何らかの結果が得られる旨が記載されている場合、当該データのみに基づいて当該結果が得られる場合を含むとともに、当該データ以外の他のデータ、原因、条件、及び／又は状態等にも影響を受けて当該結果が得られる場合をも含み得る。また、「データを出力する」旨が記載されている場合、特に断りがない場合、各種データそのものを出力として用いる場合や、各種データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等）を出力とする場合も含む。

【0155】

また、本明細書（請求項を含む）において、「接続される（connected）」及び「結合される（coupled）」との用語が用いられる場合は、直接的な接続／結合、間接的な接続／結合、電気的（electrically）な接続／結合、通信的（communicatively）な接続／結合、機能的（operatively）な接続／結合、物理的（physically）な接続／結合等のいずれをも含む非限定的な用語として意図される。当該用語は、当該用語が用いられた文脈に応じて適宜解釈されるべきであるが、意図的に或いは当然に排除されるのではない接続／結合形態は、当該用語に含まれるものして非限定的に解釈されるべきである。

【0156】

また、本明細書（請求項を含む）において、「ＡがＢするよう構成される（A configured to B）」との表現が用いられる場合は、要素Ａの物理的構造が、動作Ｂを実行可能な構成を有するとともに、要素Ａの恒常的（permanent）又は一時的（temporary）な設定（setting/configuration）が、動作Ｂを実際に実行するように設定（configured/set）されていることを含んでよい。例えば、要素Ａが汎用プロセッサである場合、当該プロセッサが動作Ｂを実行可能なハードウェア構成を有するとともに、恒常的（permanent）又は一時的（temporary）なプログラム（命令）の設定により、動作Ｂを実際に実行するように設定（configured）されていればよい。また、要素Ａが専用プロセッサ又は専用演算回路等である場合、制御用命令及びデータが実際に付属しているか否かとは無関係に、当該プロセッサの回路的構造が動作Ｂを実際に実行するように構築（implemented）されていればよい。

【0157】

また、本明細書（請求項を含む）において、含有又は所有を意味する用語（例えば、「含む（comprising/including）」及び「有する（having）」等）が用いられる場合は、当該用語の目的語により示される対象物以外の物を含有又は所有する場合を含む、open-endedな用語として意図される。これらの含有又は所有を意味する用語の目的語が数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）である場合は、当該表現は特定の数に限定されないものとして解釈されるべきである。

【0158】

また、本明細書（請求項を含む）において、ある箇所において「１つ又は複数（one or more）」又は「少なくとも１つ（at least one）」等の表現が用いられ、他の箇所において数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）が用いられているとしても、後者の表現が「１つ」を意味することを意図しない。一般に、数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）は、必ずしも特定の数に限定されないものとして解釈されるべきである。

【0159】

また、本明細書において、ある実施例の有する特定の構成について特定の効果（advantage/result）が得られる旨が記載されている場合、別段の理由がない限り、当該構成を有する他の１つ又は複数の実施例についても当該効果が得られると理解されるべきである。但し当該効果の有無は、一般に種々の原因、条件、及び／又は状態等に依存し、当該構成により必ず当該効果が得られるものではないと理解されるべきである。当該効果は、種々の原因、条件、及び／又は状態等が満たされたときに実施例に記載の当該構成により得られるものに過ぎず、当該構成又は類似の構成を規定したクレームに係る発明において、当該効果が必ずしも得られるものではない。

【0160】

本明細書（請求項を含む）において、「最適化する（optimize）／最適化（optimization）」等の用語が用いられる場合は、グローバルな最適値を求めること、グローバルな最適値の近似値を求めること、ローカルな最適値を求めること、及びローカルな最適値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最適値の近似値を確率的又はヒューリスティックに求めることを含む。

【0161】

また、本明細書（請求項を含む）において、複数のハードウェアが所定の処理を行う場合、各ハードウェアが協働して所定の処理を行ってもよいし、一部のハードウェアが所定の処理の全てを行ってもよい。また、一部のハードウェアが所定の処理の一部を行い、別のハードウェアが所定の処理の残りを行ってもよい。本明細書（請求項を含む）において、「１又は複数のハードウェアが第１の処理を行い、前記１又は複数のハードウェアが第２の処理を行う」等の表現が用いられている場合、第１の処理を行うハードウェアと第２の処理を行うハードウェアは同じものであってもよいし、異なるものであってもよい。つまり、第１の処理を行うハードウェア及び第２の処理を行うハードウェアが、前記１又は複数のハードウェアに含まれていればよい。なお、ハードウェアは、電子回路、又は、電子回路を含む装置等を含んでよい。

【0162】

また、本明細書（請求項を含む）において、複数の記憶装置（メモリ）がデータの記憶を行う場合、複数の記憶装置（メモリ）のうち個々の記憶装置（メモリ）は、データの一部のみを記憶してもよいし、データの全体を記憶してもよい。

【0163】

以上、本開示の実施形態について詳述したが、本開示は上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更、置き換え、部分的削除等が可能である。例えば、前述した全ての実施形態において、数値又は数式を説明に用いている場合は、一例として示したものであり、これらに限られるものではない。また、実施形態における各動作の順序は、一例として示したものであり、これらに限られるものではない。

【図1】