特開2023-64860 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社Ｐｒｅｆｅｒｒｅｄ　Ｎｅｔｗｏｒｋｓの特許一覧

特開2023-64860命令生成方法、演算処理装置及び命令生成装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023064860

(43)【公開日】2023-05-12

(54)【発明の名称】命令生成方法、演算処理装置及び命令生成装置

(51)【国際特許分類】

G06F 9/315 20180101AFI20230502BHJP

G06F 8/41 20180101ALI20230502BHJP

【ＦＩ】

G06F9/315 M

G06F8/41 170

【審査請求】未請求

【請求項の数】18

【出願形態】ＯＬ

(21)【出願番号】P 2021175277

(22)【出願日】2021-10-27

(71)【出願人】

【識別番号】515130201

【氏名又は名称】株式会社ＰｒｅｆｅｒｒｅｄＮｅｔｗｏｒｋｓ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】西川剛史

【テーマコード（参考）】

5B033

5B081

【Ｆターム（参考）】

5B033AA14

5B033DB09

5B081CC21

(57)【要約】

【課題】プロセッサのアーキテクチャに合わせてデータ転送を少ないコストで実行可能なデータ転送命令を生成する。
【解決手段】複数の演算実行部を含む複数の第１ブロックを有する演算処理装置に実行させる命令を生成する命令生成方法は、少なくとも１つのプロセッサによって、少なくとも、転送元が前記演算実行部で転送先が前記演算実行部である複数のデータ転送、又は、転送元が前記第１ブロックで転送先が前記第１ブロックである複数のデータ転送、のいずれかを前記演算処理装置に実行させる少なくとも１つのデータ転送命令を生成する。
【選択図】図４

【特許請求の範囲】

【請求項1】

複数の演算実行部を含む複数の第１ブロックを有する演算処理装置に実行させる命令を生成する命令生成方法であって、
少なくとも１つのプロセッサによって、少なくとも、転送元が前記演算実行部で転送先が前記演算実行部である複数のデータ転送、又は、転送元が前記第１ブロックで転送先が前記第１ブロックである複数のデータ転送、のいずれかを前記演算処理装置に実行させる少なくとも１つのデータ転送命令を生成する、
命令生成方法。

【請求項2】

前記第１ブロックに含まれる複数の前記演算実行部には、前記第１ブロック内で互いに異なり、複数の前記第１ブロック間で共通する識別子が割り当てられている、
請求項１に記載の命令生成方法。

【請求項3】

前記演算処理装置は、複数の前記第１ブロックを含む複数の第２ブロックを更に備え、
前記少なくとも１つのプロセッサによって、少なくとも、転送元が前記演算実行部で転送先が前記演算実行部である複数のデータ転送、転送元が前記第１ブロックで転送先が前記第１ブロックである複数のデータ転送、転送元が前記第１ブロックで転送先が前記第２ブロックである複数のデータ転送、転送元が前記第２ブロックで転送先が前記第１ブロックである複数のデータ転送、又は、転送元が前記第２ブロックで転送先が前記第２ブロックである複数のデータ転送、のいずれかを前記演算処理装置に実行させる前記少なくとも１つのデータ転送命令を生成する
請求項１又は２に記載の命令生成方法。

【請求項4】

前記第２ブロックに含まれる複数の前記第１ブロックには、前記第２ブロック内で互いに異なり、複数の前記第２ブロック間で共通する識別子が割り当てられており、
複数の前記第２ブロックには、互いに異なる識別子が割り当てられている、
請求項３に記載の命令生成方法。

【請求項5】

生成された前記少なくとも１つのデータ転送命令は、転送先の識別子が互いに同じで、転送元の識別子が互いに同じである複数のデータ転送を前記演算処理装置に実行させる命令である、
請求項１乃至４のいずれか１項に記載の命令生成方法。

【請求項6】

前記識別子は、少なくとも、アドレス又はブロックのいずれかを示す情報である
請求項５に記載の命令生成方法。

【請求項7】

生成された前記少なくとも１つのデータ転送命令は、複数のデータ転送命令の少なくとも一部を無効にする情報を含む
請求項１乃至請求項６のいずれか１項に記載の命令生成方法。

【請求項8】

生成された前記少なくとも１つのデータ転送命令は、少なくとも、データを１つの転送先に転送するユニキャスト命令、又は、データを複数の転送先に転送するマルチキャスト命令のいずれかを含む、
請求項１乃至請求項７のいずれか１項に記載の命令生成方法。

【請求項9】

動的計画法に基づいて前記少なくとも１つのデータ転送命令を生成する
請求項１乃至８のいずれか１項に記載の命令生成方法。

【請求項10】

階層が隣り合う２つのブロック間でのデータ転送の少なくとも一部について、命令数を少なくするマルチキャスト命令の組み合わせと実行順とを動的計画法を使用して決定する、
請求項９に記載の命令生成方法。

【請求項11】

前記マルチキャスト命令の決定後、他のデータ転送命令を決定する、
請求項１０に記載の命令生成方法。

【請求項12】

複数の第１ブロックと、複数の前記第１ブロックを含む複数の第２ブロックとを有する演算処理装置に実行させる命令を生成する命令生成方法であって、
階層が隣り合う２つのブロック間でのデータ転送を実行するデータ転送命令の組み合わせと実行順とを動的計画法を用いて決定し、
決定した前記組み合わせと前記実行順とにしたがってデータ転送命令を生成する
命令生成方法。

【請求項13】

前記データ転送命令は、データを複数の転送先に転送する１種類以上のマルチキャスト命令を含む、
請求項１２に記載の命令生成方法。

【請求項14】

使用するマルチキャスト命令を実行順が遅い順に動的計画法により探索する、
請求項１３に記載の命令生成方法。

【請求項15】

前記演算処理装置に実行させるＳＩＭＤ命令を生成する、
請求項１乃至１４のいずれか１項に記載の命令生成方法。

【請求項16】

複数の演算実行部を含む複数の第１ブロックと、
複数の前記第１ブロックを含む複数の第２ブロックと、を備え、
請求項１乃至１５のいずれか１項に記載の命令生成方法によって生成されたデータ転送命令に基づいて、データ転送を実行する、
演算処理装置。

【請求項17】

複数の演算実行部を含む複数の第１ブロックを有する演算処理装置に実行させる命令を生成する命令生成装置であって、
少なくとも１つのプロセッサによって、少なくとも、転送元が前記演算実行部で転送先が前記演算実行部である複数のデータ転送、又は、転送元が前記第１ブロックで転送先が前記第１ブロックである複数のデータ転送、のいずれかを前記演算処理装置に実行させる少なくとも１つのデータ転送命令を生成する、
命令生成装置。

【請求項18】

複数の第１ブロックと、複数の前記第１ブロックを含む複数の第２ブロックとを有する演算処理装置に実行させる命令を生成する命令生成装置であって、
階層が隣り合う２つのブロック間でのデータ転送を実行するデータ転送命令の組み合わせと実行順とを動的計画法を用いて決定し、
決定した前記組み合わせと前記実行順とにしたがってデータ転送命令を生成する、
命令生成装置。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、命令生成方法、演算処理装置及び命令生成装置に関する。

【背景技術】

【0002】

一般に、深層学習は、ＧＰＵ（Graphics Processing Unit）等の多数のコアを内蔵したプロセッサを使用して実行される。近時、深層学習での計算速度を向上するため、深層学習に特化したプロセッサ（アクセラレータ）が開発されている。深層学習に特化したプロセッサのアーキテクチャ（演算器の数、演算器を含むブロックの数、ブロックの階層数及び命令等）は、ＧＰＵ等の汎用品のアーキテクチャと異なる場合がある。このため、深層学習に特化したプロセッサを効率よく動作させるためには、プロセッサに実行させる命令を適切に生成するコンパイラ等の命令生成装置が重要である。

【発明の概要】

【発明が解決しようとする課題】

【0003】

本開示では、プロセッサのアーキテクチャに合わせてデータ転送を少ないコストで実行可能なデータ転送命令を生成する。

【課題を解決するための手段】

【0004】

本発明の実施形態の命令生成方法は、複数の演算実行部を含む複数の第１ブロックを有する演算処理装置に実行させる命令を生成する命令生成方法であって、少なくとも１つのプロセッサによって、少なくとも、転送元が前記演算実行部で転送先が前記演算実行部である複数のデータ転送、又は、転送元が前記第１ブロックで転送先が前記第１ブロックである複数のデータ転送、のいずれかを前記演算処理装置に実行させる少なくとも１つのデータ転送命令を生成する。

【図面の簡単な説明】

【0005】

【図1】本発明の一実施形態における演算処理装置の一例を示すブロック図である。

【図2】図１の演算処理装置が搭載されるボード及びホストを含むシステムと、演算処理装置に実行させる命令を生成する情報処理装置との一例を示すブロック図である。

【図3】データの転送経路に応じたデータ転送の分類の一例を示す説明図である。

【図4】図２の情報処理装置により実現されるコンパイラの動作の一例を示すフロー図である。

【図5】別の実施形態におけるボード及びホストを含むシステムと、演算処理装置に実行させる命令を生成する情報処理装置との一例を示すブロック図である。

【図6】図５の演算処理装置が実行可能なデータ転送命令の一例を示す説明図である。

【図7】図６のマルチキャスト命令によるデータ転送の一例を示す説明図である。

【図8】第３階層ブロックＢＬＫ３内の８個の第２階層ブロックＢＬＫ２間のデータ転送の一例を示す説明図である。

【図9】図５の情報処理装置により実現されるコンパイラの動作の一例を示すフロー図である。

【図10】図２及び図５に示したホスト及び情報処理装置のハードウェア構成の例を示すブロック図である。

【発明を実施するための形態】

【0006】

以下、本発明の実施形態について、図面を参照しながら詳細に説明する。

【0007】

図１は、本発明の一実施形態における演算処理装置の一例を示すブロック図である。例えば、図１に示す演算処理装置１００は、深層学習を実行するアクセラレータとして機能してもよい。なお、本願発明は、深層学習に特化したアクセラレータ等のプロセッサに適用されてもよく、深層学習に特化していない他のプロセッサに適用されてもよい。

【0008】

プロセッサの一例である演算処理装置１００は、複数の第１階層ブロックＢＬＫ１と、複数の第１階層ブロックＢＬＫ１を含む複数の第２階層ブロックＢＬＫ２と、複数の第２階層ブロックＢＬＫ２を含む複数の第３階層ブロックＢＬＫ３とを有する。すなわち、演算処理装置１００は、所定数の第１階層ブロックＢＬＫ１を含み階層化された第２階層ブロックＢＬＫ２及び第３階層ブロックＢＬＫ３を有する。以下の説明では、第１階層ブロックＢＬＫ１、第２階層ブロックＢＬＫ２及び第３階層ブロックＢＬＫ３が区別なく説明される場合、単にブロックＢＬＫと称される。演算処理装置１００は、各種のデータ転送命令を実行することで、階層化されたブロックＢＬＫ間でスキャッター、ギャザー、ブロードキャスト、縮約等のデータ転送を効率的に実行可能である。なお、階層数は一例であり、演算処理装置１００は４つ以上の階層で構成されてもよい。また、各階層におけるブロックＢＬＫは、少なくともメモリ又は演算器のいずれかを含んでもよく、演算器は行列演算を実行するものであってもよい。

【0009】

演算処理装置１００は、チップの形態でもよく、ＣＳＰ（Chip Size Package）等のパッケージの形態でもよい。第２階層ブロックＢＬＫ２は、メモリＭＥＭ２を有し、第３階層ブロックＢＬＫ３は、メモリＭＥＭ３を有する。第１階層ブロックＢＬＫ１は、第１ブロックの一例であり、第２階層ブロックＢＬＫ２及び第３階層ブロックＢＬＫ３は、第２ブロックの一例である。

【0010】

図１に示す例では、演算処理装置１００は、４個の第３階層ブロックＢＬＫ３を有する。各第３階層ブロックＢＬＫ３は、８個の第２階層ブロックＢＬＫ２を有する。各第２階層ブロックＢＬＫ２は、１６個の第１階層ブロックＢＬＫ１を有する。しかしながら、演算処理装置１００に搭載される第３階層ブロックＢＬＫ３の数、各第３階層ブロックＢＬＫ３に搭載される第２階層ブロックＢＬＫ２の数、及び各第２階層ブロックＢＬＫ２に搭載される第１階層ブロックＢＬＫ１の数は、図１に限定されない。但し、演算処理装置１００に搭載される第３階層ブロックＢＬＫ３の数、各第３階層ブロックＢＬＫ３に搭載される第２階層ブロックＢＬＫ２の数、及び各第２階層ブロックＢＬＫ２に搭載される第１階層ブロックＢＬＫ１の数は、それぞれ２のｎ乗個（ｎは１以上の整数）であることが好ましい。

【0011】

各第１階層ブロックＢＬＫ１は、演算器ＥＸ２と複数の演算ユニットＯＰＵとを有する。演算ユニットＯＰＵは、演算器ＥＸ２及び演算器ＥＸ１（図２）に実行させるデータを保持するメモリＭＥＭ１（図２）を有し、命令にしたがって演算器ＥＸ１、ＥＸ２にデータを供給する。例えば、演算器ＥＸ１（図２）は、整数演算器でもよい。演算ユニットＯＰＵは、演算実行部の一例である。例えば、各演算器ＥＸ１、ＥＸ２は、ＳＩＭＤ（Single Instruction Multiple Data）命令を実行可能である。複数の演算器ＥＸ１及び複数の演算器ＥＸ２は、それぞれ命令を並列に実行可能なため、各演算処理装置１００またはボード２００（図２）は、巨大なＳＩＭＤ実行マシンとして動作可能である。

【0012】

また、各ブロックＢＬＫ内のメモリＭＥＭ１、ＭＥＭ２、ＭＥＭ３が区別なく説明される場合、単にメモリＭＥＭと称される。第１階層ブロックＢＬＫ１に搭載される各演算ユニットＯＰＵ内のメモリＭＥＭ１(図２）は、第１階層ブロックＢＬＫ１のメモリとして説明される場合がある。

【0013】

図２は、図１の演算処理装置１００が搭載されるボード２００及びホスト３００を含むシステムと、演算処理装置１００に実行させる命令を生成する情報処理装置４００との一例を示すブロック図である。図２に示すボード２００は、相互に接続された複数の演算処理装置１００及びメモリＭＥＭ４を有する。例えば、ボード２００は、複数の演算処理装置１００及びメモリＭＥＭ４が搭載されたボードの形態を有してもよい。また、複数の演算処理装置１００は、マルチチップパッケージに搭載されてもよい。この際、複数の演算処理装置１００は、放熱性を高めるために、基板上に並べて配置されることが好ましい。

【0014】

図２では、ボード２００は、４個の演算処理装置１００を有するが、演算処理装置１００の数は、４個に限定されず、１個以上であればよい。メモリＭＥＭ４は、４個の演算処理装置１００に共通に設けられているが、各演算処理装置１００に対応して設けられてもよい。複数の演算処理装置１００を有するボード２００は、１つの演算処理装置として動作する。ボード２００が複数の演算処理装置１００を有する場合、各演算処理装置１００又はボード２００は、最上位の第２ブロックとして機能されてもよい。

【0015】

各演算処理装置１００において、各第３階層ブロックＢＬＫ３のメモリＭＥＭ３は、メモリＭＥＭ４と、第３階層ブロックＢＬＫ３内の各第２階層ブロックＢＬＫ２のメモリＭＥＭ２に接続され、データを相互に転送可能である。また、メモリＭＥＭ４から各メモリＭＥＭ３と、各メモリＭＥＭ３から各メモリＭＥＭ２には、それぞれデータ転送命令及び演算命令が転送されてもよい。

【0016】

各メモリＭＥＭ２は、第２階層ブロックＢＬＫ２内の各演算ユニットＯＰＵに搭載されるメモリＭＥＭ１に接続され、データを相互に転送可能である。各メモリＭＥＭ２からメモリＭＥＭ１には、データ転送命令及び演算命令が転送されてもよい。各第１階層ブロックＢＬＫ１及び各演算ユニットＯＰＵは、レジスタを有してもよい。

【0017】

メモリＭＥＭ４は、ホスト３００に搭載されるホストメモリＨＯＳＴＭとの間でデータを相互に転送可能である。ホストメモリＨＯＳＴＭからメモリＭＥＭ４には、データ転送命令及び演算命令が転送されてもよい。なお、図２に示すデータの転送経路とは別に、メモリＭＥＭ４から各メモリＭＥＭ３、各メモリＭＥＭ３から各メモリＭＥＭ２、及び各メモリＭＥＭ２から各メモリＭＥＭ１にデータ転送命令及び演算命令を転送する転送経路（不図示）が設けられてもよい。

【0018】

ホストメモリＨＯＳＴＭとメモリＭＥＭ４とは、例えば、ＰＣＩｅ（Peripheral Component Interconnect express）インタフェースを介してデータ及び命令等の情報を送受信してもよい。また、ホストメモリＨＯＳＴＭとメモリＭＥＭ４との情報の転送は、ＤＭＡ（Direct Memory Access）により実行されてもよい。

【0019】

ボード２００の各演算処理装置１００は、ホスト３００から受信する命令（データ転送命令及び演算命令）に基づいて、ホスト３００から受信するデータを使用して演算処理を実行する。ホスト３００から演算処理装置１００に送信される各種の命令は、情報処理装置４００により生成され、情報処理装置４００からホスト３００に転送され、ホストメモリＨＯＳＴＭに格納される。情報処理装置４００は、例えば、サーバでもよい。

【0020】

情報処理装置４００は、内蔵するＣＰＵ（Central Processing Unit）等のプロセッサが実行するプログラムにより、演算処理装置１００が実行する命令列を生成するコンパイラ５００（コードジェネレータ）として機能する。例えば、情報処理装置４００のプロセッサは、情報処理装置４００に搭載されるメモリに格納された命令生成プログラムを実行することで命令生成方法を実行し、命令列を生成する。情報処理装置４００は、命令生成装置の一例である。情報処理装置４００とホスト３００との間の破線の矢印は、コンパイラ５００が生成した命令列がホスト３００に転送されることを示す。なお、命令列の転送は、ネットワークを介して行われてもよい。

【0021】

例えば、コンパイラ５００は、ボード２００に深層学習を実行させる命令（命令コード）を生成する。この際、例えば、コンパイラ５００は、深層学習用の汎用のライブラリ（フレームワーク）を使用して生成された学習モデルに基づいて、ボード２００に深層学習を効率的に実行させる命令列を生成する。例えば、コンパイラ５００は、データの転送元から転送先への移動を指示するクエリの列を、同時に処理可能な複数のクエリにまとめ、まとめた複数のクエリ毎に１つ又は複数のデータ転送命令を示す命令コード等を生成する。これにより、ボード２００による深層学習の計算速度の向上が可能になり、深層学習に掛かる計算時間の短縮が可能になる。特に限定されないが、例えば、命令コードは、アセンブリ言語による記述をアセンブルすることで得られる機械語でもよい。

【0022】

図３は、データの転送経路に応じたデータ転送の分類の一例を示す説明図である。図２のコンパイラ５００が生成するデータ転送命令は、隣接する階層のブロックＢＬＫ間でデータを移動させる命令を含む。図３に示す矢印は、データ転送命令によるデータ転送の経路を示す。例えば、１本の矢印で示すデータ転送は、１つ又は複数のデータ転送命令により実現される。図３に示す黒丸は、データ転送時にデータがメモリＭＥＭを経由することを示す。図３に示す演算処理装置１００の平面図において、第２階層ブロックＢＬＫ２の１つの１６個の第１階層ブロックＢＬＫ１に示した数値は、第１階層ブロックＢＬＫ１の識別子を示す。数値を示していない他の第２階層ブロックＢＬＫ２の１６個の第１階層ブロックＢＬＫ１にも、同じ識別子が割り当てられる。なお、第１階層ブロックＢＬＫ１の識別子は、鏡面対称で割り当てられてもよい。

【0023】

また、図示を省略するが、各第１階層ブロックＢＬＫ１内の４個の演算ユニットＯＰＵにも図１に示したように０番から３番までの識別子が順次割り当てられる。各第３階層ブロックＢＬＫ３内の８個の第２階層ブロックＢＬＫ２にも０番から７番までの識別子が順次割り当てられる。各演算処理装置１００内の４個の第３階層ブロックＢＬＫ３にも０番から３番までの識別子が順次割り当てられる。さらに、ボード２００内の４個の演算処理装置１００にも０番から３番までの識別子が順次割り当てられる。

【0024】

なお、各要素に割り当てられる識別子は、一例であり、各要素を識別可能な識別子であれば番号に限定されない。例えば、識別子として、各要素の位置を識別可能なアドレスが使用されてよい。アドレスは、メモリのアドレスであってもよい。また、識別子として、レジスタの番号が使用されてもよい。

【0025】

データ転送命令により実行されるデータ転送として、第１階層ブロックＢＬＫ１内での演算ユニットＯＰＵ間のデータ転送がある。また、データ転送命令により実行されるデータ転送として、第２階層ブロックＢＬＫ２内での第１階層ブロックＢＬＫ１間のデータ転送、及び第３階層ブロックＢＬＫ３内での第２階層ブロックＢＬＫ２間のデータ転送がある。さらに、データ転送命令により実行されるデータ転送として、演算処理装置１００内での第３階層ブロックＢＬＫ３間のデータ転送がある。

【0026】

これらデータ転送を組み合わせることで、分類１から分類４に示すデータ転送が実現される。なお、分類１から分類４のデータ転送は一例である。例えば、ブロックの階層数が増える場合、分類数も増える。また、図３では、説明を分かりやすくするために、分類１から分類４の各々に対応して１つのデータ転送が示されるが、実際には、各演算処理装置１００は、分類毎に複数のデータ転送を実行可能である。分類１から分類４のデータ転送の各々は、演算ユニットＯＰＵ間又は第１階層ブロックＢＬＫ１間において、任意のアドレスが割り当てられるメモリＭＥＭのデータを別のアドレスが割り当てられるメモリＭＥＭに移動させる１つのクエリに対応する。分類１は、第１階層ブロックＢＬＫ１内での演算ユニットＯＰＵ（メモリＭＥＭ１またはレジスタ）間のデータ転送であり、データは、メモリＭＥＭ２、ＭＥＭ３、ＭＥＭ４を経由しない。

【0027】

分類２は、第２階層ブロックＢＬＫ２内での第１階層ブロックＢＬＫ１間のデータ転送であり、データを経由させるブロックＢＬＫの階層数は、１つ（第２階層ブロックＢＬＫ２）である。分類３は、第３階層ブロックＢＬＫ３内での異なる第２階層ブロックＢＬＫ２に属する第１階層ブロックＢＬＫ１間のデータ転送であり、データを経由させるブロックＢＬＫの階層数は、２つ（第２階層ブロックＢＬＫ２及び第３階層ブロックＢＬＫ３）である。

【0028】

分類４は、演算処理装置１００内での異なる第３階層ブロックＢＬＫ３に属する第１階層ブロックＢＬＫ１間のデータ転送であり、データを経由させるブロックＢＬＫの階層数は、３つ（第２階層ブロックＢＬＫ２、第３階層ブロックＢＬＫ３及び演算処理装置１００（メモリＭＥＭ４））である。なお、ボード２００内の４個の演算処理装置１００の各々は、他の３個の演算処理装置１００とは独立に、分類１から分類４のデータ転送を実行可能である。

【0029】

例えば、コンパイラ５００は、データの転送元の識別子が互いに同じであり、かつ、データの転送先の識別子が互いに同じである複数のデータ転送を共通に実行する少なくとも１つのデータ転送命令を生成可能である。例えば、データ転送命令は、分類１から分類４のデータ転送の各々について生成されてもよい。データ転送命令を分類毎に生成することで、同じような経路を通るデータの転送を容易にまとめることができ、複数のデータ転送を共通に実行する少なくとも１つのデータ転送命令を容易に生成することができる。なお、データ転送命令は、分類２から分類４に含まれるデータ転送経路のうちの一部のデータ転送経路でのデータ転送に対して生成されてもよい。

【0030】

また、コンパイラ５００は、データ転送命令の各々において、一部のデータの転送先（メモリＭＥＭ１、ＭＥＭ２、ＭＥＭ３、ＭＥＭ４またはレジスタ等の記憶部）への格納を無効にするマスク情報（オプション情報）をデータ転送命令に付加してもよい。これにより、マスク情報により指定される転送先へのデータの書き込みを抑止することができる。換言すれば、１つのデータ転送命令で実行可能な複数のデータ転送のうち、任意のデータの転送先への書き込みを実行することができる。なお、マスク情報によるデータ転送のマスク（無効化）は、データの転送元からの読み出しをマスク（無効化）することで実行されてもよい。

【0031】

例えば、分類１において、演算処理装置１００の５１２個の第１階層ブロックＢＬＫ１の各々での一対の演算ユニットＯＰＵ間のデータ転送は、少なくとも１つのデータ転送命令により実行可能である。分類１に含まれる複数のデータ転送は、データの転送元の演算ユニットＯＰＵの識別子が互いに同じで、かつ、データの転送先の演算ユニットＯＰＵの識別子が互いに同じ場合、共通する少なくとも１つのデータ転送命令により実行可能である。ここで、分類１での識別子の同一性は、演算ユニットＯＰＵに付与された識別子だけでなく、演算ユニットＯＰＵ内のレジスタの識別子又はメモリＭＥＭ１の識別子を用いて判断してもよい。

【0032】

なお、分類１のデータ転送を実行するデータ転送命令は、データの転送先の演算ユニットＯＰＵへのデータの格納を、データ転送命令に付加するマスク情報によりマスクすることができる。これにより、データの転送元を示すアドレスとデータの転送先を示すアドレスとがテータ転送命令で指定される場合にも、任意の演算ユニットＯＰＵ間のデータ転送を実行することができる。例えば、分類１のデータ転送の各々は、１つの転送元から１つの転送先にデータを転送するユニキャスト命令により実行されてもよい。

【0033】

分類２において、演算処理装置１００の３２個の第２階層ブロックＢＬＫ２の各々での１つの第１階層ブロックＢＬＫ１から別の第１階層ブロックＢＬＫ１へのデータ転送は、少なくとも１つのデータ転送命令により実行可能である。例えば、分類２において、データの転送元の識別子が互いに同じで、データの転送先の識別子が互いに同じデータ転送は、共通する少なくとも１つのデータ転送命令（例えば、マルチキャスト命令）により実行可能である。例えば、分類２のデータ転送の各々は、ユニキャスト命令により実行されてもよく、ユニキャスト命令とマルチキャスト命令とを組み合わせて実行されてもよい。

【0034】

分類２において、転送元の識別子の同一性は、データの転送元の演算ユニットＯＰＵ及び第１階層ブロックＢＬＫ１のそれぞれの識別子が互いに同じ場合に判断されてもよい。同様に、分類２において、データの転送先の識別子の同一性は、データの転送元の演算ユニットＯＰＵ及び第１階層ブロックＢＬＫ１のそれぞれの識別子が互いに同じ場合に判断されてもよい。ここで、分類２での識別子の同一性は、上記に加えて演算ユニットＯＰＵ内のレジスタの識別子、メモリＭＥＭ１の識別子、又はメモリＭＥＭ２の識別子を用いて判断してもよい。

【0035】

分類３において、第１階層ブロックＢＬＫ１と第２階層ブロックＢＬＫ２との間でのデータ転送は、少なくとも１つのデータ転送命令（例えば、ユニキャスト命令）により実行可能である。また、分類３において、演算処理装置１００の４個の第３階層ブロックＢＬＫ３の各々での第２階層ブロックＢＬＫ２間のデータ転送は、少なくとも１つのデータ転送命令（例えば、マルチキャスト命令）により実行可能である。例えば、マルチキャスト命令は、転送元の数及び転送先の数に応じて、複数種の命令が用意されている。ユニキャスト命令及びマルチキャスト命令等の命令については、図６及び図７でも説明される。例えば、分類３において、データの転送元の識別子が互いに同じで、データの転送先の識別子が互いに同じデータ転送は、共通する少なくとも１つのデータ転送命令により実行可能である。

【0036】

分類３において、第１階層ブロックＢＬＫ１と第２階層ブロックＢＬＫ２との間でのデータ転送の転送元の識別子の同一性は、データの転送元の演算ユニットＯＰＵ、第１階層ブロックＢＬＫ１及び第２階層ブロックＢＬＫ２のそれぞれの識別子が互いに同じ場合に判断されてもよい。同様に、分類３において、第１階層ブロックＢＬＫ１と第２階層ブロックＢＬＫ２との間でのデータ転送の転送先の識別子の同一性は、データの転送先の演算ユニットＯＰＵ、第１階層ブロックＢＬＫ１及び第２階層ブロックＢＬＫ２のそれぞれの識別子が互いに同じ場合に判断されてもよい。

【0037】

また、分類３において、第２階層ブロックＢＬＫ２間のデータ転送の転送元の識別子の同一性は、データの転送元の第２階層ブロックＢＬＫ２の識別子が互いに同じ場合に判断されてもよい。同様に、分類３において、第２階層ブロックＢＬＫ２間のデータ転送の転送先の識別子の同一性は、データの転送先の第２階層ブロックＢＬＫ２の識別子が互いに同じ場合に判断されてもよい。ここで、分類３での識別子の同一性は、演算ユニットＯＰＵ内のレジスタの識別子、メモリＭＥＭ１の識別子、メモリＭＥＭ２の識別子、又はメモリＭＥＭ３の識別子を用いて判断してもよい。

【0038】

分類４において、第１階層ブロックＢＬＫ１と第２階層ブロックＢＬＫ２との間でのデータ転送は、分類３と同様に、少なくとも１つのデータ転送命令（例えば、ユニキャスト命令）により実行可能である。分類４において、第２階層ブロックＢＬＫ２と第３階層ブロックＢＬＫ３との間でのデータ転送は、少なくとも１つのデータ転送命令（例えば、ユニキャスト命令）により実行可能である。また、分類４において、演算処理装置１００内での異なる第３階層ブロックＢＬＫ３間でのデータ転送は、少なくとも１つのデータ転送命令（例えば、マルチキャスト命令）により実行可能である。

【0039】

分類４において、第１階層ブロックＢＬＫ１と第２階層ブロックＢＬＫ２との間でのデータ転送の転送元の識別子の同一性は、分類３と同様に、データの転送元の演算ユニットＯＰＵ、第１階層ブロックＢＬＫ１及び第２階層ブロックＢＬＫ２のそれぞれの識別子が互いに同じ場合に判断されてもよい。同様に、分類４において、第１階層ブロックＢＬＫ１と第２階層ブロックＢＬＫ２との間でのデータ転送の転送先の識別子の同一性は、データの転送先の演算ユニットＯＰＵ、第１階層ブロックＢＬＫ１及び第２階層ブロックＢＬＫ２のそれぞれの識別子が互いに同じ場合に判断されてもよい。

【0040】

分類４において、第２階層ブロックＢＬＫ２と第３階層ブロックＢＬＫ３との間でのデータ転送の転送元の識別子の同一性は、第２階層ブロックＢＬＫ２及び第３階層ブロックＢＬＫ３のそれぞれの識別子が互いに同じ場合に判断されてもよい。同様に、分類４において、第２階層ブロックＢＬＫ２と第３階層ブロックＢＬＫ３との間でのデータ転送の転送先の識別子の同一性は、第２階層ブロックＢＬＫ２及び第３階層ブロックＢＬＫ３のそれぞれの識別子が互いに同じ場合に判断されてもよい。

【0041】

また、分類４において、第３階層ブロックＢＬＫ３間のデータ転送の転送元の識別子の同一性は、データの転送元の第３階層ブロックＢＬＫ３の識別子が互いに同じ場合に判断されてもよい。同様に、分類４において、第３階層ブロックＢＬＫ３間のデータ転送の転送先の識別子の同一性は、データの転送先の第３階層ブロックＢＬＫ３の識別子が互いに同じ場合に判断されてもよい。ここで、分類４での識別子の同一性は、演算ユニットＯＰＵ内のレジスタの識別子、メモリＭＥＭ１の識別子、メモリＭＥＭ２の識別子、又はメモリＭＥＭ３の識別子を用いて判断してもよい。

【0042】

分類２から分類４のデータ転送で転送されるデータは、演算ユニットＯＰＵから出力され、他の演算ユニットＯＰＵに入力される。このため、分類１で説明したように、データの転送先の演算ユニットＯＰＵへのデータの格納をマスクすることで、分類毎に１つのデータ転送命令により実行されるデータ転送の一部を無効にすることができる。

【0043】

なお、データ転送は、分類分けをせずに実行してもよい。例えば、図３に示す分類２、分類３及び分類４のデータ転送では、データの転送元の第１階層ブロックＢＬＫ１の識別子が"４"である。なお、識別子は、第１階層ブロックＢＬＫ１内のレジスタの番号等を含む識別子でもよい。この場合、第１階層ブロックＢＬＫ１から第２階層ブロックＢＬＫ２（メモリＭＥＭ２）へのデータ転送は、１つのデータ転送命令により実行してもよい。また、図３に示す分類３及び分類４のデータ転送では、データの転送先の第１階層ブロックＢＬＫ１の識別子が"１１"である。なお、識別子は、第１階層ブロックＢＬＫ１内のレジスタの番号等を含む識別子でもよい。この場合、第２階層ブロックＢＬＫ２（メモリＭＥＭ２）から第１階層ブロックＢＬＫ１へのデータ転送は、１つのデータ転送命令により実行してもよい。このように、分類に依らず、転送元と転送先の識別子が同じである複数のデータ転送命令を、共通する少なくとも１つのデータ転送命令により実行してもよい。

【0044】

図４は、図２のコンパイラ５００の動作の一例を示すフロー図である。すなわち、図４に示すフローは、情報処理装置４００のＣＰＵ等が命令生成プログラムを実行することにより実現されるコンパイラ５００による命令生成方法の一例を示す。

【0045】

まず、ステップＳ１０において、コンパイラ５００は、ボード２００に深層学習を実行させる複数のクエリを外部から順次入力する。次に、ステップＳ２０において、コンパイラ５００は、入力したクエリの各々を分類１から分類４のいずれかに分類する。次に、ステップＳ３０において、コンパイラ５００は、入力した全てのクエリを分類した場合、ステップＳ４０を実行し、分類していないクエリが残っている場合、ステップＳ２０に戻る。

【0046】

ステップＳ４０において、コンパイラ５００は、分類毎に１つのデータ転送命令で実行可能なデータ転送をグループに分ける。すなわち、グループは、１つのデータ転送命令に対応する。これにより、複数のデータを並列に転送できる共通のデータ転送命令をグループ毎に少なくとも１つ生成することが可能になる。この際、コンパイラ５００は、分類毎に、図３に示した階層が隣り合うブロックＢＬＫ間でのデータ転送を少なくとも１つのグループに分ける。例えば、分類３では、コンパイラ５００は、第１階層ブロックＢＬＫ１と第２階層ブロックＢＬＫ２間でのデータ転送と、第２階層ブロックＢＬＫ２及び第３階層ブロックＢＬＫ３との間でのデータ転送のそれぞれにおいて、データ転送を少なくとも１つのグループに分ける。

【0047】

次に、ステップＳ５０において、コンパイラ５００は、ステップＳ４０で分けたデータ転送のグループ毎にデータ転送命令を生成する。例えば、コンパイラ５００がグループ毎に生成するデータ転送命令は、データを１つの転送先に転送する複数種のユニキャスト命令のいずれか、又は、データを複数の転送先に転送する複数種のマルチキャスト命令のいずれかを含む。コンパイラ５００は、グループ毎に生成したユニキャスト命令又はマルチキャスト命令を組み合わせることで、例えば、階層が隣り合うブロックＢＬＫ間でのデータ転送を最小限のデータ転送命令の数により実行することができる。

【0048】

なお、例えば、階層が隣り合う２つのブロックＢＬＫ間でのデータ転送を複数種のマルチキャスト命令を使用して実行可能な場合、コンパイラ５００は、ブロックＢＬＫ間でのデータ転送の少なくとも一部について、命令数が少ないマルチキャスト命令の組み合わせと実行順とを、動的計画法を使用して決定してもよい。ここで、動的計画法は対象となる問題を再帰的に複数の部分問題に分割し、分割した部分問題の計算結果を再利用しながら解いていく手法を含む。また、階層が隣り合う２つのブロックＢＬＫ間でのデータ転送に複数種のユニキャスト命令の少なくともいずれかを使用して実行可能な場合、コンパイラ５００は、複数種のマルチキャスト命令の後に実行されるユニキャスト命令を生成する。なお、演算処理装置１００は、コンパイラ５００により生成され、ホスト３００から送信されるデータ転送命令を、コンパイラ５００が生成した順に実行する。

【0049】

次に、ステップＳ６０において、コンパイラ５００は、全てのクエリから命令を生成した場合、ステップＳ７０を実行し、命令を生成していないクエリが残っている場合、ステップＳ５０に戻る。ステップＳ７０において、コンパイラ５００は、ステップＳ５０で生成した命令を生成順に出力し、図４に示す動作を終了する。

【0050】

以上、この実施形態では、コンパイラ５００は、複数のクエリに含まれるデータ転送のうち、複数のデータ転送を並列に実行する少なくとも１つのデータ転送命令を、データを経由させるブロックＢＬＫの階層数に応じた分類毎に生成できる。これにより、演算ユニットＯＰＵを含むブロックＢＬＫが階層化された演算処理装置１００において、従来より少ない数のデータ転送命令により、多量のデータをブロックＢＬＫ間で移動することができる。すなわち、コンパイラ５００は、ボード２００および演算処理装置１００のアーキテクチャに合わせて、データ転送を従来より少ないコストで実行可能なデータ転送命令を生成することができる。この結果、演算処理装置１００又はボード２００による深層学習に掛かる計算時間を短縮することができる。

【0051】

例えば、図３に示す分類３のデータ転送において、演算処理装置１００は、第１階層ブロックＢＬＫ１から第２階層ブロックＢＬＫ２への複数のデータ転送及び第２階層ブロックＢＬＫ２から第１階層ブロックＢＬＫ１への複数のデータ転送のそれぞれを最小限の命令数で実行可能になる。また、分類３のデータ転送において、演算処理装置１００は、第３階層ブロックＢＬＫ３を経由する第２階層ブロックＢＬＫ２間の複数のデータ転送を最小限の命令数で実行できる。

【0052】

一方、例えば、分類３のデータ転送において、クエリをまとめずに第３階層ブロックＢＬＫ３内の２つの第１階層ブロックＢＬＫ１間でデータ転送を実行する場合、各データ転送は、４つのデータ転送命令を使用して実行される。４つのデータ転送命令は、第１階層ブロックＢＬＫ１から第２階層ブロックＢＬＫ２、第２階層ブロックＢＬＫ２から第３階層ブロックＢＬＫ３、第３階層ブロックＢＬＫ３から第２階層ブロックＢＬＫ２及び第２階層ブロックＢＬＫ２から第１階層ブロックＢＬＫ１にデータを転送する命令である。この場合、各第３階層ブロックＢＬＫ３での分類３のデータ転送に４命令が必要になる。

【0053】

各演算処理装置１００は、４個の第３階層ブロックＢＬＫ３を有し、ボード２００は、１６個の第３階層ブロックＢＬＫ３を有する。したがって、クエリをまとめずに分類３のデータ転送を実行する場合、各演算処理装置１００では、１６命令が必要になり、４個の演算処理装置１００を有するボード２００では、６４命令が必要になる。この実施形態では、各演算処理装置１００およびボード２００は、グループ毎に少なくとも１つの共通のデータ転送命令を使用して、データ転送命令毎に複数のデータ転送を並列に実行できる。この際、各演算処理装置１００は、第１階層ブロックＢＬＫ１及び第２階層ブロックＢＬＫ２、第２階層ブロックＢＬＫ２の各々にＳＩＭＤタイプのデータ転送命令を発行してもよい。この場合、第１階層ブロックＢＬＫ１及び第２階層ブロックＢＬＫ２、第２階層ブロックＢＬＫ２の各々に個別のデータ転送命令を発行する場合に比べて、少ない命令数で多数のデータ転送を並列に実行することができる。例えば、ボード２００全体で分類３のデータ転送を４命令で実行することができる。これは、ボード２００全体で分類３のデータ転送を６４命令で実行する場合のほぼ６％である。なお、１つのデータ転送命令で実行される複数のデータ転送の一部を、マスク情報を使用してマスク（無効化）してもよい。

【0054】

図５は、別の実施形態におけるボード２００及びホスト３００を含むシステムと、演算処理装置１００に実行させる命令を生成する情報処理装置４００との一例を示すブロック図である。ボード２００及びホスト３００を含むシステムの構成は、図２と同様である。情報処理装置４００は、内蔵するＣＰＵ等のプロセッサが実行するプログラムにより、演算処理装置１００が実行する命令列を生成するコンパイラ５００Ａ（コードジェネレータ）として機能する。

【0055】

図２と同様に、コンパイラ５００Ａは、ボード２００に深層学習を実行させる命令（命令コード）を生成する。この際、コンパイラ５００Ａは、ボード２００に実行させる複数のデータ転送命令の一部を、動的計画法を使用して決定する。例えば、コンパイラ５００Ａは、階層が隣り合う２つのブロックＢＬＫ間でのデータ転送の少なくとも一部について、命令数を少なくするマルチキャスト命令の組み合わせと実行順とを動的計画法を使用して決定する。動的計画法を使用することで、データ転送の規模の増加により指数関数的に増えるデータ転送命令の組み合わせの中から不要な組み合わせを排除できるため、データ転送命令の数を最小にする組み合わせを許容される時間内で決定することが可能になる。また、動的計画法を使用することで、命令数の少ないデータ転送命令の組み合わせを見つけることができるため、ボード２００による深層学習の計算速度の向上が可能になり、深層学習に掛かる計算時間の短縮が可能になる。

【0056】

図６は、図５の演算処理装置１００が実行可能なデータ転送命令の一例を示す説明図である。図６では、第２階層ブロックＢＬＫ２と第１階層ブロックＢＬＫ１との間のデータ転送命令と、第３階層ブロックＢＬＫ３を介した第２階層ブロックＢＬＫ２間のデータ転送命令と、第２階層ブロックＢＬＫ２、第３階層ブロックＢＬＫ３間のデータ転送命令とが例示される。なお、演算処理装置１００が実行可能なデータ転送命令は、図６に示されるものに限定されない。例えば、第２階層ブロックＢＬＫ２と第１階層ブロックＢＬＫ１との間のデータ転送命令は、第２階層ブロックＢＬＫ２に供給され、第２階層ブロックＢＬＫ２、第３階層ブロックＢＬＫ３間のデータ転送命令は、第３階層ブロックＢＬＫ３に供給される。

【0057】

第２階層ブロックＢＬＫ２と第１階層ブロックＢＬＫ１との間のデータ転送命令は、ユニキャスト命令を含む。ユニキャスト命令では、各第２階層ブロックＢＬＫ２において、メモリＭＥＭ２内又はメモリＭＥＭ１内のデータが移動される。ブロードキャスト命令では、各第２階層ブロックＢＬＫ２において、メモリＭＥＭ２内のデータが第２階層ブロックＢＬＫ２内の１６個の第１階層ブロックＢＬＫ１内のメモリＭＥＭ１に移動される。なお、データの移動は、データのコピーを示し、データが上書きされない限り、元のデータは残る。

【0058】

第２階層ブロックＢＬＫ２間のデータ転送命令は、３種類のマルチキャスト命令を含む。第２階層ブロックＢＬＫ２間のデータ転送命令では、第３階層ブロックＢＬＫ３を経由してデータが移動される。マルチキャスト命令によるデータの移動については、図４で説明される。第２階層ブロックＢＬＫ２、第３階層ブロックＢＬＫ３間のデータ転送命令は、ユニキャスト命令を含む。第３階層ブロックＢＬＫ３から第２階層ブロックＢＬＫ２にデータを移動するユニキャスト命令では、各第３階層ブロックＢＬＫ３において、第３階層ブロックＢＬＫ３のメモリＭＥＭ３から第２階層ブロックＢＬＫ２のメモリＭＥＭ２にデータが移動される。第２階層ブロックＢＬＫ２から第３階層ブロックＢＬＫ３にデータを移動するユニキャスト命令では、各第３階層ブロックＢＬＫ３において、第２階層ブロックＢＬＫ２のメモリＭＥＭ２から第３階層ブロックＢＬＫ３のメモリＭＥＭ３にデータが移動される。

【0059】

上述した実施形態と同様に、図６に示す各命令は、移動元アドレス、移動先アドレス又は相対アドレスを使用して、複数の第１階層ブロックＢＬＫ１、複数の第２階層ブロックＢＬＫ２又は複数の第３階層ブロックＢＬＫ３でデータを並列に移動可能である。このため、演算処理装置１００は、図３に示す命令の１つを実行することで、多量のデータを並列に移動することができる。

【0060】

図７は、図６のマルチキャスト命令によるデータ転送の一例を示す説明図である。図７においても、各第３階層ブロックＢＬＫ３が８個の第２階層ブロックＢＬＫ２を有し、各第２階層ブロックＢＬＫ２が１６個の第１階層ブロックＢＬＫ１を有する場合の例が示される。"ｒ"は、各第３階層ブロックＢＬＫ３内の８個の第２階層ブロックＢＬＫ２の識別子を示す。"ｐ"は、第２階層ブロックＢＬＫ２内のメモリＭＥＭ２においてデータの転送元のアドレスを示す。"ｑ"は、第２階層ブロックＢＬＫ２内のメモリＭＥＭ２においてデータの転送先のアドレスを示す。図７では、説明を簡単にするため、"ｐ"、"ｑ"のそれぞれは、値が固定されるとする。また、図７では、"ｒ"が"１"である場合の動作の例が示される。

【0061】

マルチキャスト命令"１ｔｏ７"では、ｒ番目の第２階層ブロックＢＬＫ２のメモリＭＥＭ２のアドレスｐにあるデータが、ｒ番目以外の７個の第２階層ブロックＢＬＫ２のメモリＭＥＭ２のアドレスｑに移動される。マルチキャスト命令"１ｔｏ７"は、８個の第２階層ブロックＢＬＫ２においてデータの移動元（＝"ｒ"）が８通りあるため、８種類のデータ転送が可能である。

【0062】

マルチキャスト命令"２ｔｏ６"では、ｒ番目の第２階層ブロックＢＬＫ２のメモリＭＥＭ２のアドレスｐにあるデータが、０番目から３番目（但し、ｒ番目を除く）の第２階層ブロックＢＬＫ２のメモリＭＥＭ２のアドレスｑに移動される。また、４＋ｒ番目の第２階層ブロックＢＬＫ２のメモリＭＥＭ２のアドレスｐにあるデータが、４番目から７番目（但し、４＋ｒ番目を除く）の第２階層ブロックＢＬＫ２のメモリＭＥＭ２のアドレスｑに移動される。マルチキャスト命令"２ｔｏ６"は、４個の第２階層ブロックＢＬＫ２毎にデータの移動元（＝"ｒ"）が４通りあるため、４種類のデータ転送が可能である。

【0063】

マルチキャスト命令"４ｔｏ４"では、ｒ番目、２＋ｒ番目、４＋ｒ番目、６＋ｒ番目の第２階層ブロックＢＬＫ２のメモリＭＥＭ２のアドレスｐにあるデータが、それぞれ１－ｒ番目、３－ｒ番目、５－ｒ番目、７－ｒ番目の第２階層ブロックＢＬＫ２のメモリＭＥＭ２のアドレスｑに移動される。マルチキャスト命令"４ｔｏ４"は、２個の第２階層ブロックＢＬＫ２毎にデータの移動元（＝"ｒ"）が２通りあるため、２種類のデータ転送が可能である。このため、図７に示す３種類のマルチキャスト命令により、１４種類（８＋４＋２）のデータ転送が可能である。換言すれば、この実施形態では、演算処理装置１００は、第２階層ブロックＢＬＫ２、第３階層ブロックＢＬＫ３間のデータ転送に、１４種類のマルチキャスト命令を使用できる。

【0064】

図８は、第３階層ブロックＢＬＫ３内の８個の第２階層ブロックＢＬＫ２間のデータ転送の一例を示す説明図である。以下では、マルチキャスト命令"２ｔｏ６"、"４ｔｏ４"をこの順で実行することで、命令数が最小になることが動的計画法の一種である単一始点最短経路問題により決定されているとして、状態（Ａ）を状態（Ｄ）にする例が説明される。状態（Ｄ）は、状態（Ａ）における第２階層ブロックＢＬＫ２（１）－ＢＬＫ２（７）のメモリＭＥＭ２のデータＳ１－Ｓ７が、第２階層ブロックＢＬＫ２（０）－ＢＬＫ（６）のメモリＭＥＭ２にそれぞれ移動された状態である。

【0065】

まず、演算処理装置１００は、状態（Ａ）においてマルチキャスト命令"２ｔｏ６"を実行する。これにより、第２階層ブロックＢＬＫ２（２）（ｋ＝２）のデータＳ２は、第２階層ブロックＢＬＫ２（０）、ＢＬＫ２（１）、ＢＬＫ２（３）に移動され、第２階層ブロックＢＬＫ２（６）（４＋ｋ＝６）のデータＳ６は、第２階層ブロックＢＬＫ２（４）、ＢＬＫ２（５）、ＢＬＫ２（７）に移動され、状態（Ｂ）になる。なお、各マルチキャスト命令では、第２階層ブロックＢＬＫ２のメモリＭＥＭ２内のデータは、メモリＭＥＭ３を経由して他の第２階層ブロックＢＬＫ２のメモリＭＥＭ２に転送される。

【0066】

次に、演算処理装置１００は、状態（Ｂ）においてマルチキャスト命令"４ｔｏ４"を実行する。これにより、第２階層ブロックＢＬＫ２（１）（ｋ＝１）のデータＳ１は、第２階層ブロックＢＬＫ２（０）に移動され、第２階層ブロックＢＬＫ２（３）のデータＳ３は、第２階層ブロックＢＬＫ２（２）に移動される。第２階層ブロックＢＬＫ２（５）のデータＳ５は、第２階層ブロックＢＬＫ２（４）に移動され、第２階層ブロックＢＬＫ２（７）のデータＳ７は、第２階層ブロックＢＬＫ２（６）に移動され、状態（Ｃ）になる。

【0067】

次に、演算処理装置１００は、全てのマルチキャスト命令の実行後の状態（Ｃ）においてユニキャスト命令を実行する。これにより、第２階層ブロックＢＬＫ２（４）のデータＳ４は、第２階層ブロックＢＬＫ２（３）に移動され、状態（Ｄ）になり、目的のデータ転送が完了する。なお、状態（Ｃ）から状態（Ｄ）では、データＳ４を第３階層ブロックＢＬＫ３のメモリＭＥＭ３に転送するユニキャスト命令と、データＳ４をメモリＭＥＭ３から第２階層ブロックＢＬＫ２（３）に転送するユニキャスト命令とが実行される。これにより、２つのマルチキャスト命令と２つのユニキャスト命令とにより、図７に示すデータ転送を実行することができる。

【0068】

以下では、図８に示す状態の変化を一般化する例が説明される。例えば、第２階層ブロックＢＬＫ２（０）－ＢＬＫ２（７）のアドレスｓｒｃにあるデータをそれぞれＳ０，Ｓ１，...，Ｓ７とする。アドレスｓｒｃは、転送元アドレスである。上述したように、マルチキャスト命令とユニキャスト命令とを組み合わせて、最小の命令数で第２階層ブロックＢＬＫ２（０）－ＢＬＫ２（７）のアドレスｄｓｔ（ｓｒｃと異なるアドレス）にデータＤ０，Ｄ１，...，Ｄ７が配置される。アドレスｄｓｔは、転送先アドレスである。ここで、"データＤ０，...，Ｄ７∈｛データＳ０，...，Ｓ７，Ｗｉｌｄ｝"である。Ｗｉｌｄは何が配置されてもよく、目的がないデータを表す。例えば、"Ｄ０，...，Ｄ７＝Ｓ１，...，Ｓ７，Ｗｉｌｄ"である。

【0069】

次に、動的計画法の一種である単一始点最短経路問題によるスケジューリングが説明される。ユニキャスト命令は、データ転送の最後の調整に使用されるため、最後のデータ転送で使用される。すなわち、所定数の複数種のマルチキャスト命令の列が実行された後、所定数のユニキャスト命令の列が実行される。以下では、まず、おおよその考え方が説明された後に、単一始点最短経路問題への帰着が説明される。

【0070】

マルチキャスト命令の列によって変化する状態は、組（ｘ０，ｘ１，...，ｘ７）で表されるとする。但し、各組の状態は、ｘ０，...，ｘ７∈｛ｏ，ｘ，－｝とする。"ｘｋ＝ｏ"（ｋは０－７のいずれか）は、ｋ番目の第２階層ブロックＢＬＫ２（ｋ）のアドレスｄｓｔがマルチキャスト命令の列によって更新され、Ｄｋが配置されていることを表わす。"ｘｋ＝ｘ"は、ｋ番目の第２階層ブロックＢＬＫ２（ｋ）のアドレスｄｓｔがマルチキャスト命令の列によって更新され、Ｄｋが配置されていないことを表わす。"ｘｋ＝－"は、ｋ番目の第２階層ブロックＢＬＫ２（ｋ）のアドレスｄｓｔがマルチキャスト命令の列によって更新されないことを表す。

【0071】

単一始点最短経路問題では、最適なマルチキャスト命令の列を基本的に全パターン探索するが、ここでは、コンパイラ５００Ａは、後で使う命令から順に決めていく。実際の命令の実行順では、例えば、図７に示すように、マルチキャスト命令"２ｔｏ６＠２"（ｋ＝２）とマルチキャスト命令"４ｔｏ４＠１"（ｋ＝１）とがこの順に使用される。しかしながら、コンパイラ５００Ａは、動的計画法を使用する場合、まず、マルチキャスト命令"４ｔｏ４＠１"によってどのような状態に変化するかを検討する。例えば、状態"ｓ０＝（－，－，…，－）"から"Ｓ１，－，Ｓ３，－，Ｓ５，－，Ｓ７，－"に変化するため、状態"ｓ１＝（ｏ，－，ｏ，－，ｏ，－，ｏ，－）"になる。

【0072】

次に、コンパイラ５００Ａは、マルチキャスト命令"２ｔｏ６＠２"をマルチキャスト命令"４ｔｏ４＠１"の前に挿入することを検討する。すると、"Ｓ１，Ｓ２，Ｓ３，Ｓ２，Ｓ５，Ｓ６，Ｓ７，Ｓ６"となるため、状態"ｓ２＝（ｏ，ｏ，ｏ，ｘ，ｏ，ｏ，ｏ，ｘ）となる。このように、複数種のマルチキャスト命令のいずれを先頭側に挿入しても、"ｏ"及び"ｘ"は変化せず、"－"のみが変化する。

【0073】

次に、単一始点最短経路問題への帰着が検討される。まず、各状態に対応する頂点が用意される。Ｖ（ｓ）は、状態ｓに対応する頂点を表すこととする。初期状態を"ｓ０＝（－，－，…，－）"とし、初期状態からの単一始点最短経路問題に帰着することを考える。遷移は、１つのマルチキャスト命令を先頭に挿入することによって行われる。

【0074】

正確には、各頂点Ｖ（ｓ）及び各マルチキャスト命令ｍ（ｍは１４種類のマルチキャスト命令のいずれか）について、Ｖ（ｓ）からＶ（ｓ'）へコスト１の辺が張られる。ここで、"ｓ'"は、"ｓ０"から"ｓ"に変化させるためのマルチキャスト命令の列の先頭にマルチキャスト命令ｍを挿入し、初期状態に対してマルチキャスト命令ｍから順に実行した結果の状態を表す。例えば、上述の例で"ｓ＝ｓ１"、"ｍ＝Ｍｕｌｔｉｃａｓｔ２ｔｏ６＠２"のとき、"ｓ'＝ｓ２"である。また、"ｓ０"から"ｓ"に変化させるためのマルチキャスト列は、どれを取っても同じ"ｓ'"になるはずである。

【0075】

コンパイラ５００Ａは、これによって構築された重み付き有向グラフの"ｓ０"からの単一始点最短経路問題を解くことで、あり得る全ての状態ｓにするための最適なマルチキャスト命令の列を得ることができる。この後、コンパイラ５００Ａは、各"ｓ"について、"（ｓ０からｓにするためのマルチキャスト命令数）＋（ｓから（ｏ，...，ｏ）にするためのユニキャスト命令数）"が最小となるものを取得する。"ｓから（ｏ，...，ｏ）にするためのユニキャスト命令数"は、"（ｓのうちｏでないものの数）×２"に等しくなる。

【0076】

以下、計算量と最適化について説明される。"ｏ"と"ｘ"は、同一視することができる。"ｘ"は、最後にその個数に２倍されたコストが足されるため、辺のコストを＋２すればよい。状態数が多いように見えるが、"ｏ"と"ｘ"の同一視により、マルチキャスト命令の性質上、１５状態しかないことが示される。１５状態は、第２階層ブロックＢＬＫ２の数に比例する。

【0077】

さらに、自己ループを除くと"－"が減る遷移しかなく、閉路がないため、直線的に計算することができる。この結果、計算量をさらに削減することができる。マルチキャスト命令の種類数が第２階層ブロックＢＬＫ２の個数に比例するとすれば、時間計算量は、"（第２階層ブロックＢＬＫ２の個数）＾２"に比例する。

【0078】

図９は、図５の情報処理装置４００により実現されるコンパイラ５００Ａの動作の一例を示すフロー図である。すなわち、図９に示すフローは、情報処理装置４００のＣＰＵ等が命令生成プログラムを実行することにより実現されるコンパイラ５００Ａによる命令生成方法の一例を示す。図４と同様の動作については、同じ符号を付し、詳細な説明は省略する。

【0079】

ステップＳ１０、Ｓ２０、Ｓ３０、Ｓ４０、Ｓ６０、Ｓ７０の処理は、図４と同様である。ステップＳ４０の後、ステップＳ４２において、コンパイラ５００Ａは、グループ分けしたデータ転送のうち、階層が隣り合う２つのブロックＢＬＫ間でのデータ転送を実行するデータ転送命令がマルチキャスト命令を含むか否かを判定する。コンパイラ５００Ａは、マルチキャスト命令を含む場合、ステップＳ４４を実行し、マルチキャスト命令を含まない場合、ステップＳ４６を実行する。

【0080】

ステップＳ４４において、コンパイラ５００Ａは、上述したように、動的計画法を使用して、ブロックＢＬＫ間でのデータ転送の少なくとも一部について、複数種のマルチキャスト命令の組み合わせと実行順を決定し、さらにマルチキャスト命令の後に実行するユニキャスト命令を決定する。コンパイラ５００Ａは、ステップＳ４４の後、ステップＳ４６を実行する。

【0081】

そして、ステップＳ４６において、コンパイラ５００Ａは、マルチキャスト命令を含まないデータ転送については、ステップＳ４０で分けたデータ転送のグループ毎にデータ転送命令を生成する。また、ステップＳ４６において、コンパイラ５００Ａは、マルチキャスト命令を含むデータ転送については、ステップＳ４４で決定したマルチキャスト命令とユニキャスト命令とを生成する。そして、コンパイラ５００Ａは、ステップ４６の処理の後、ステップＳ６０及びステップＳ７０を実行し、図９に示す動作を終了する。

【0082】

以上、この実施形態においても、上述した実施形態と同様に、コンパイラ５００Ａは、複数のクエリに含まれるデータ転送のうち、複数のデータ転送を並列に実行する少なくとも１つのデータ転送命令を、データを経由させるブロックの階層数に応じた分類毎に生成できる。これにより、演算ユニットＯＰＵを含むブロックＢＬＫが階層化された演算処理装置１００において、従来より少ない数のデータ転送命令により、多量のデータをブロックＢＬＫ間で移動することができる。この結果、演算処理装置１００又はボード２００による深層学習に掛かる計算時間を短縮することができる。

【0083】

さらに、この実施形態では、コンパイラ５００Ａは、動的計画法を使用して、階層が隣り合う２つのブロックＢＬＫ間でのデータ転送を少ない命令数で実行させるデータ転送命令の組み合わせと実行順とを決定し、決定にしたがってデータ転送命令を生成する。これにより、コンパイラ５００Ａは、命令数が多くなる命令列の探索を打ち切ることができるため、探索空間を徐々に小さくすることができる。この結果、コンパイラ５００Ａでの計算量を最小限にして、命令数の少ない適切なデータ転送命令の組み合わせを見つけることができる。

【0084】

また、動的計画法において、使用するマルチキャスト命令を実行順が遅い順に探索することで、実行順が早いマルチキャスト命令により転送されたデータが、実行順が遅いマルチキャスト命令により書き換えられることを抑制することができる。これにより、マルチキャスト命令による無駄なデータ転送を抑制することができ、コンパイラ５００Ａは、命令数の少ない適切なマルチキャスト命令の組み合わせを生成できる。

【0085】

また、コンパイラ５００Ａは、マルチキャスト命令に比べてデータ転送の自由度が高く、かつ、データ転送効率が低いユニキャスト命令を、使用するマルチキャスト命令が決定した後に決定する。これにより、コンパイラ５００Ａは、データ転送効率が低いユニキャスト命令の使用数を最小限にすることができ、階層が隣接するブロックＢＬＫ間でのデータ転送に使用する命令数を最小限にすることができる。

【0086】

なお、この実施形態では、第３階層ブロックＢＬＫ３内での異なる第２階層ブロックＢＬＫ２に属する第１階層ブロックＢＬＫ１間のデータ転送（分類３）について、動的計画法を使用して、実行する命令数を最小限にする例が説明された。しかしながら、動的計画法により探索する適切な命令列は、分類３のデータ転送に限定されず、分類１、分類２又は分類４のデータ転送に使用する命令列でもよい。また、探索により決定する命令列は、マルチキャスト命令に限定されず、ユニキャスト命令以外の他の特殊な命令でもよい。ここで、特殊な命令は、例えば、複数個所にデータを並列に転送する命令である。

【0087】

前述した実施形態におけるホスト３００又は情報処理装置４００の一部又は全部は、ハードウェアで構成されていてもよいし、ＣＰＵ又はＧＰＵ等が実行するソフトウェア（プログラム）の情報処理で構成されてもよい。ソフトウェアの情報処理で構成される場合には、前述した実施形態における各装置の少なくとも一部の機能を実現するソフトウェアを、ＣＤ－ＲＯＭ（Compact Disc-Read Only Memory）、ＵＳＢ（Universal Serial Bus）メモリ等の非一時的な記憶媒体（非一時的なコンピュータ可読媒体）に収納し、コンピュータに読み込ませることにより、ソフトウェアの情報処理を実行してもよい。また、通信ネットワークを介して当該ソフトウェアがダウンロードされてもよい。さらに、ソフトウェアの処理の全部又は一部がＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等の回路に実装されることにより、当該ソフトウェアによる情報処理がハードウェアにより実行されてもよい。

【0088】

ソフトウェアを収納する記憶媒体は、光ディスク等の着脱可能なものでもよいし、ハードディスク、メモリ等の固定型の記憶媒体であってもよい。また、記憶媒体は、コンピュータ内部に備えられてもよいし（主記憶装置、補助記憶装置等）、コンピュータ外部に備えられてもよい。

【0089】

図１０は、図２及び図５に示したホスト３００及び情報処理装置４００のハードウェア構成の一例を示すブロック図である。情報処理装置４００は、一例として、プロセッサ２０と、主記憶装置３０（例えば、ＤＲＡＭ等のメモリ）と、補助記憶装置４０（メモリ）と、ネットワークインタフェース５０と、デバイスインタフェース６０と、を備え、これらがバス７０を介して接続されたコンピュータとして実現されてもよい。例えば、プロセッサ２０が命令生成プログラムを実行することで、図４又は図９で説明した動作が実行される。

【0090】

情報処理装置４００は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、図１０では、１台の情報処理装置４００が示されているが、ソフトウェアが複数台の情報処理装置４００にインストールされて、当該複数台の情報処理装置４００のそれぞれがソフトウェアの同一の又は異なる一部の処理を実行してもよい。この場合、情報処理装置４００のそれぞれがネットワークインタフェース５０等を介して通信して処理を実行する分散コンピューティングの形態であってもよい。つまり、前述した実施形態における情報処理装置４００は、１又は複数の記憶装置に記憶された命令を１台又は複数台の情報処理装置４００が実行することで機能を実現するシステムとして構成されてもよい。また、端末から送信された情報をクラウド上に設けられた１台又は複数台の情報処理装置４００で処理し、この処理結果を端末に送信するような構成であってもよい。

【0091】

図４のフローで説明した動作及び図９のフローで説明した動作は、１又は複数のプロセッサ２０を用いて、又はネットワークを介した複数台のコンピュータを用いて、並列処理で実行されてもよい。また、各種演算が、プロセッサ２０内に複数ある演算コアに振り分けられて、並列処理で実行されてもよい。また、本開示の処理、手段等の一部又は全部は、ネットワークを介して情報処理装置４００と通信可能なクラウド上に設けられたプロセッサ及び記憶装置の少なくとも一方により実現されてもよい。このように、前述した実施形態における情報処理装置４００は、１台又は複数台のコンピュータによる並列コンピューティングの形態であってもよい。

【0092】

プロセッサ２０は、少なくともコンピュータの制御又は演算のいずれかを行う電子回路（処理回路、Processing circuit、Processing circuitry、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、ＡＳＩＣ等）であってもよい。また、プロセッサ２０は、汎用プロセッサ、特定の演算を実行するために設計された専用の処理回路又は汎用プロセッサと専用の処理回路との両方を含む半導体装置のいずれであってもよい。また、プロセッサ２０は、光回路を含むものであってもよいし、量子コンピューティングに基づく演算機能を含むものであってもよい。

【0093】

プロセッサ２０は、情報処理装置４００の内部構成の各装置等から入力されたデータやソフトウェアに基づいて演算処理を行ってもよく、演算結果や制御信号を各装置等に出力してもよい。プロセッサ２０は、情報処理装置４００のＯＳ（Operating System）や、アプリケーション等を実行することにより、情報処理装置４００を構成する各構成要素を制御してもよい。

【0094】

前述した実施形態における情報処理装置４００は、１又は複数のプロセッサ２０により実現されてもよい。ここで、プロセッサ２０は、１チップ上に配置された１又は複数の電子回路を指してもよいし、２つ以上のチップあるいは２つ以上のデバイス上に配置された１又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線又は無線により通信してもよい。

【0095】

主記憶装置３０は、プロセッサ２０が実行する命令及び各種データ等を記憶してもよく、主記憶装置３０に記憶された情報がプロセッサ２０により読み出されてもよい。補助記憶装置４０は、主記憶装置３０以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、半導体のメモリでもよい。半導体のメモリは、揮発性メモリ又は不揮発性メモリのいずれでもよい。前述した実施形態における情報処理装置４００において各種データ等を保存するための記憶装置は、主記憶装置３０又は補助記憶装置４０により実現されてもよく、プロセッサ２０に内蔵メモリにより実現されてもよい。

【0096】

前述した実施形態における情報処理装置４００が、少なくとも１つの記憶装置（メモリ）と、この少なくとも１つの記憶装置に接続（結合）される少なくとも１つのプロセッサで構成される場合、記憶装置１つに対して、少なくともプロセッサ２０が接続されてもよい。また、プロセッサ１つに対して、少なくとも１つの記憶装置が接続されてもよい。また、複数のプロセッサのうち少なくとも１つのプロセッサが、複数の記憶装置のうち少なくとも１つの記憶装置に接続される構成を含んでもよい。また、複数台の情報処理装置４００に含まれる記憶装置とプロセッサによって、この構成が実現されてもよい。さらに、記憶装置がプロセッサと一体になっている構成（例えば、Ｌ１キャッシュ、Ｌ２キャッシュを含むキャッシュメモリ）を含んでもよい。

【0097】

ネットワークインタフェース５０は、無線又は有線により、通信ネットワーク６００に接続するためのインタフェースである。通信ネットワーク６００は、既存の通信規格に適合したもの等、適切なインタフェースを用いればよい。ネットワークインタフェース５０により、通信ネットワーク６００を介して接続された外部装置７１０と情報のやり取りが行われてもよい。なお、通信ネットワーク６００は、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、ＰＡＮ（Personal Area Network）等の何れか又はそれらの組み合わせであってよく、情報処理装置４００と外部装置７１０との間で情報のやり取りが行われるものであればよい。ＷＡＮの一例としてインターネット等があり、ＬＡＮの一例としてＩＥＥＥ８０２．１１やイーサネット（登録商標）等があり、ＰＡＮの一例としてＢｌｕｅｔｏｏｔｈ（登録商標）やＮＦＣ（Near Field Communication）等がある。

【0098】

デバイスインタフェース６０は、外部装置７２０と直接接続するＵＳＢ等のインタフェースである。

【0099】

外部装置７１０は、情報処理装置４００とネットワークを介して接続されている装置である。外部装置７２０は、情報処理装置４００と直接接続されている装置である。

【0100】

外部装置７１０又は外部装置７２０は、一例として、入力装置であってもよい。入力装置は、例えば、カメラ、マイクロフォン、モーションキャプチャ、各種センサ、キーボード、マウス、タッチパネル等のデバイスであり、取得した情報を情報処理装置４００に与える。また、外部装置７１０又は外部装置７２０は、パーソナルコンピュータ、タブレット端末、スマートフォン等の入力部とメモリとプロセッサを備えるデバイスであってもよい。

【0101】

また、外部装置７１０又は外部装置７２０は、一例として、出力装置でもよい。出力装置は、例えば、ＬＣＤ（Liquid Crystal Display）、有機ＥＬ（Electro Luminescence）パネル等の表示装置であってもよいし、音声等を出力するスピーカ等であってもよい。また、パーソナルコンピュータ、タブレット端末又はスマートフォン等の出力部とメモリとプロセッサを備えるデバイスであってもよい。

【0102】

また、外部装置７１０又は外部装置７２０は、記憶装置（メモリ）であってもよい。例えば、外部装置７１０はネットワークストレージ等であってもよく、外部装置７２０はＨＤＤ等のストレージであってもよい。

【0103】

また、外部装置７１０又は外部装置７２０は、前述した実施形態における情報処理装置４００の構成要素の一部の機能を有する装置でもよい。つまり、情報処理装置４００は、外部装置７１０又は外部装置７２０に処理結果の一部又は全部を送信してもよいし、外部装置７１０又は外部装置７２０から処理結果の一部又は全部を受信してもよい。

【0104】

本明細書（請求項を含む）において、「ａ、ｂ及びｃの少なくとも１つ（一方）」又は「ａ、ｂ又はｃの少なくとも１つ（一方）」の表現（同様な表現を含む）が用いられる場合は、ａ、ｂ、ｃ、ａ－ｂ、ａ－ｃ、ｂ－ｃ又はａ－ｂ－ｃのいずれかを含む。また、ａ－ａ、ａ－ｂ－ｂ、ａ－ａ－ｂ－ｂ－ｃ－ｃ等のように、いずれかの要素について複数のインスタンスを含んでもよい。さらに、ａ－ｂ－ｃ－ｄのようにｄを有する等、列挙された要素（ａ、ｂ及びｃ）以外の他の要素を加えることも含む。

【0105】

本明細書（請求項を含む）において、「データを入力として／を用いて／データに基づいて／に従って／に応じて」等の表現（同様な表現を含む）が用いられる場合は、特に断りがない場合、データそのものを用いる場合や、データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、データから抽出した特徴量、データの中間表現等）を用いる場合を含む。また、「データを入力として／を用いて／データに基づいて／に従って／に応じて」何らかの結果が得られる旨が記載されている場合（同様な表現を含む）、特に断りがない場合、当該データのみに基づいて当該結果が得られる場合や、当該データ以外の他のデータ、要因、条件及び／又は状態にも影響を受けて当該結果が得られる場合を含む。また、「データを出力する」旨が記載されている場合（同様な表現を含む）、特に断りがない場合、データそのものを出力として用いる場合や、データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、データから抽出した特徴量、各種データの中間表現等）を出力として用いる場合を含む。

【0106】

本明細書（請求項を含む）において、「接続される（connected）」及び「結合される（coupled）」との用語が用いられる場合は、直接的な接続／結合、間接的な接続／結合、電気的（electrically）な接続／結合、通信的（communicatively）な接続／結合、機能的（operatively）な接続／結合、物理的（physically）な接続／結合等のいずれをも含む非限定的な用語として意図される。当該用語は、当該用語が用いられた文脈に応じて適宜解釈されるべきであるが、意図的に或いは当然に排除されるのではない接続／結合形態は、当該用語に含まれるものして非限定的に解釈されるべきである。

【0107】

本明細書（請求項を含む）において、「ＡがＢするよう構成される（A configured to B）」との表現が用いられる場合は、要素Ａの物理的構造が、動作Ｂを実行可能な構成を有するとともに、要素Ａの恒常的（permanent）又は一時的（temporary）な設定（setting/configuration）が、動作Ｂを実際に実行するように設定（configured/set）されていることを含んでよい。例えば、要素Ａが汎用プロセッサである場合、当該プロセッサが動作Ｂを実行可能なハードウェア構成を有するとともに、恒常的（permanent）又は一時的（temporary）なプログラム（命令）の設定により、動作Ｂを実際に実行するように設定（configured）されていればよい。また、要素Ａが専用プロセッサ、専用演算回路等である場合、制御用命令及びデータが実際に付属しているか否かとは無関係に、当該プロセッサの回路的構造等が動作Ｂを実際に実行するように構築（implemented）されていればよい。

【0108】

本明細書（請求項を含む）において、含有又は所有を意味する用語（例えば、「含む（comprising/including）」、「有する（having）」等）が用いられる場合は、当該用語の目的語により示される対象物以外の物を含有又は所有する場合を含む、open-endedな用語として意図される。これらの含有又は所有を意味する用語の目的語が数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）である場合は、当該表現は特定の数に限定されないものとして解釈されるべきである。

【0109】

本明細書（請求項を含む）において、ある箇所において「１つ又は複数（one or more）」、「少なくとも１つ（at least one）」等の表現が用いられ、他の箇所において数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）が用いられているとしても、後者の表現が「１つ」を意味することを意図しない。一般に、数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）は、必ずしも特定の数に限定されないものとして解釈されるべきである。

【0110】

本明細書において、ある実施形態の有する特定の構成について特定の効果（advantage/result）が得られる旨が記載されている場合、別段の理由がない限り、当該構成を有する他の１つ又は複数の実施形態についても当該効果が得られると理解されるべきである。但し、当該効果の有無は、一般に種々の要因、条件及び／又は状態に依存し、当該構成により必ず当該効果が得られるものではないと理解されるべきである。当該効果は、種々の要因、条件及び／又は状態が満たされたときに実施形態に記載の当該構成により得られるものに過ぎず、当該構成又は類似の構成を規定したクレームに係る発明において、当該効果が必ずしも得られるものではない。

【0111】

本明細書（請求項を含む）において、「最大化する（maximize）／最大化（maximization）」等の用語が用いられる場合は、グローバルな最大値を求めること、グローバルな最大値の近似値を求めること、ローカルな最大値を求めること、及びローカルな最大値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最大値の近似値を確率的又はヒューリスティックに求めることを含む。同様に、「最小化する（minimize）／最小化（minimization）」等の用語が用いられる場合は、グローバルな最小値を求めること、グローバルな最小値の近似値を求めること、ローカルな最小値を求めること、及びローカルな最小値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最小値の近似値を確率的又はヒューリスティックに求めることを含む。同様に、「最適化する（optimize）／最適化（optimization）」等の用語が用いられる場合は、グローバルな最適値を求めること、グローバルな最適値の近似値を求めること、ローカルな最適値を求めること、及びローカルな最適値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最適値の近似値を確率的又はヒューリスティックに求めることを含む。

【0112】

本明細書（請求項を含む）において、複数のハードウェアが所定の処理を行う場合、各ハードウェアが協働して所定の処理を行ってもよいし、一部のハードウェアが所定の処理の全てを行ってもよい。また、一部のハードウェアが所定の処理の一部を行い、別のハードウェアが所定の処理の残りを行ってもよい。本明細書（請求項を含む）において、「１又は複数のハードウェアが第１の処理を行い、前記１又は複数のハードウェアが第２の処理を行う」等の表現（同様な表現を含む）が用いられている場合、第１の処理を行うハードウェアと第２の処理を行うハードウェアは同じものであってもよいし、異なるものであってもよい。つまり、第１の処理を行うハードウェア及び第２の処理を行うハードウェアが、前記１又は複数のハードウェアに含まれていればよい。なお、ハードウェアは、電子回路、電子回路を含む装置等を含んでよい。

【0113】

本明細書（請求項を含む）において、複数の記憶装置（メモリ）がデータの記憶を行う場合、複数の記憶装置のうち個々の記憶装置は、データの一部のみを記憶してもよいし、データの全体を記憶してもよい。また、複数の記憶装置のうち一部の記憶装置がデータを記憶する構成を含んでもよい。

【0114】

以上、本開示の実施形態について詳述したが、本開示は上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において、種々の追加、変更、置き換え、部分的削除等が可能である。例えば、前述した実施形態において、数値又は数式を説明に用いている場合、これらは例示的な目的で示されたものであり、本開示の範囲を限定するものではない。また、実施形態で示した各動作の順序も例示的なものであり、本開示の範囲を限定するものではない。

【符号の説明】

【0115】

２０プロセッサ
３０主記憶装置
４０補助記憶装置
５０ネットワークインタフェース
６０デバイスインタフェース
７０バス
１００演算処理装置
２００ボード
３００ホスト
４００情報処理装置
５００、５００Ａコンパイラ
６００通信ネットワーク
７１０、７２０外部装置
ＢＬＫ１第１階層ブロック
ＢＬＫ２第２階層ブロック
ＢＬＫ３第３階層ブロック
ＥＸ１、ＥＸ２演算器
ＨＯＳＴＭホストメモリ
ＭＥＭ１、ＭＥＭ２、ＭＥＭ３、ＭＥＭ４メモリ
ＯＰＵ演算ユニット

【図1】