特開2023-63815 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社Ｐｒｅｆｅｒｒｅｄ　Ｎｅｔｗｏｒｋｓの特許一覧

特開2023-63815コンパイラ装置、命令生成方法、プログラム、コンパイル方法及びコンパイラプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023063815

(43)【公開日】2023-05-10

(54)【発明の名称】コンパイラ装置、命令生成方法、プログラム、コンパイル方法及びコンパイラプログラム

(51)【国際特許分類】

G06F 8/41 20180101AFI20230428BHJP

G06F 9/318 20180101ALI20230428BHJP

【ＦＩ】

G06F8/41 130

G06F9/318 Z

【審査請求】未請求

【請求項の数】15

【出願形態】ＯＬ

(21)【出願番号】P 2021173842

(22)【出願日】2021-10-25

(71)【出願人】

【識別番号】515130201

【氏名又は名称】株式会社ＰｒｅｆｅｒｒｅｄＮｅｔｗｏｒｋｓ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】村井翔悟

(72)【発明者】

【氏名】浜地慎一郎

(72)【発明者】

【氏名】立木泰樹

【テーマコード（参考）】

5B033

5B081

【Ｆターム（参考）】

5B033BB02

5B081CC24

(57)【要約】

【課題】演算処理装置に実行させる命令をまとめることで、演算処理装置の処理性能を向上する。
【解決手段】コンパイラ装置は、演算処理装置に実行させる命令列を生成するコンパイラ装置であって、第１の処理を実行する第１の命令列と、前記第１の処理後に実行される第２の処理を実行する第２の命令列とを受け、前記第１の命令列に含まれる複数の第１の命令及び前記第２の命令列に含まれる複数の第２の命令のうち、並列に実行可能な第１の命令及び第２の命令をまとめて第３の命令を生成し、前記第３の命令と、前記第３の命令にまとめた第１の命令及び第２の命令を除く第１の命令及び第２の命令とを連結して第３の命令列を生成する。
【選択図】図７

【特許請求の範囲】

【請求項1】

演算処理装置に実行させる命令列を生成するコンパイラ装置であって、
第１の処理を実行する第１の命令列と、前記第１の処理後に実行される第２の処理を実行する第２の命令列とを受け、
前記第１の命令列に含まれる複数の第１の命令及び前記第２の命令列に含まれる複数の第２の命令のうち、並列に実行可能な第１の命令及び第２の命令をまとめて第３の命令を生成し、
前記第３の命令と、前記第３の命令にまとめた第１の命令及び第２の命令を除く第１の命令及び第２の命令とを連結して第３の命令列を生成する
コンパイラ装置。

【請求項2】

階層別のメモリを有する前記演算処理装置であって外部メモリが接続される前記演算処理装置に対する命令列を生成する前記コンパイラ装置は、前記演算処理装置内の隣接する２階層のメモリ間でデータを転送する前記第１の命令、及び、前記演算処理装置と前記外部メモリとの間でデータを転送する前記第２の命令をまとめて第３の命令を生成する
請求項１に記載のコンパイラ装置。

【請求項3】

前記第３の命令列による処理結果が、前記第１の命令列及び前記第２の命令列を順次実行する場合の処理結果と等価となるように前記第３の命令列を生成する
請求項１又は請求項２に記載のコンパイラ装置。

【請求項4】

前記第１の命令列中の着目する第１の命令と、前記第２の命令列中の着目する第２の命令とを第３の命令にまとめた場合に処理結果が、命令をまとめない場合の処理結果と等価になるか否かを判定し、
処理結果が等価になる場合、前記着目する第１の命令と前記着目する第２の命令とをまとめて第３の命令を生成する
請求項３に記載のコンパイラ装置。

【請求項5】

前記第１の命令列による処理と前記第２の命令列による処理との間にデータの依存関係があり、第３の命令列の生成によりデータの依存関係が破綻する場合、前記第３の命令列の生成を抑止する
請求項４に記載のコンパイラ装置。

【請求項6】

前記第３の命令列の実行中に使用するメモリの容量が、前記演算処理装置が使用するメモリ容量を超える場合、前記第３の命令列の生成を抑止する
請求項４又は請求項５に記載のコンパイラ装置。

【請求項7】

前記第３の命令にまとめた第１の命令及び第２の命令の一方は、前記演算処理装置が有する演算器に演算を実行させる演算命令であり、前記第３の命令にまとめた第１の命令及び第２の命令の他方は、前記演算処理装置が有するメモリに対するデータ転送命令である
請求項１乃至請求項６のいずれか１項に記載のコンパイラ装置。

【請求項8】

前記第１の命令列に含まれる第１のデータ転送命令と、前記第２の命令列に含まれる第２のデータ転送命令とをまとめて前記第３の命令を生成する
請求項７に記載のコンパイラ装置。

【請求項9】

前記演算処理装置が使用するメモリは、階層が異なる複数のメモリを含み、
前記データ転送命令は、階層が異なるメモリ間でのデータ転送毎に用意される
請求項７又は請求項８のいずれか１項に記載のコンパイラ装置。

【請求項10】

前記階層が異なる複数のメモリのいずれかは、前記演算処理装置が演算の実行に使用するデータを保持するレジスタを含む
請求項９に記載のコンパイラ装置。

【請求項11】

前記第１の命令と、前記第２の命令と、前記第３の命令と、のそれぞれは、前記演算処理装置が有する異なる種類の処理を並列に実行可能な複数の処理ユニットに対する複数の異なる命令を含む
請求項１ないし請求項１０のいずれか１項に記載のコンパイラ装置。

【請求項12】

請求項１ないし請求項１１のいずれか１項に記載のコンパイラ装置を用いて前記第３の命令列を生成する命令生成方法。

【請求項13】

請求項１ないし請求項１１のいずれか１項に記載のコンパイラ装置を用いて生成される前記第３の命令列を含む、前記演算処理装置によって実行されるプログラム。

【請求項14】

演算処理装置に実行させる命令列を生成するコンパイル方法であって、
第１の処理を実行する第１の命令列と、前記第１の処理後に実行される第２の処理を実行する第２の命令列とを受け、
前記第１の命令列に含まれる複数の第１の命令及び前記第２の命令列に含まれる複数の第２の命令のうち、並列に実行可能な第１の命令及び第２の命令をまとめて第３の命令を生成し、
前記第３の命令と、前記第３の命令にまとめた第１の命令及び第２の命令を除く第１の命令及び第２の命令とを連結して第３の命令列を生成する
コンパイル方法。

【請求項15】

演算処理装置に実行させる命令列を生成するコンパイラプログラムであって、
第１の処理を実行する第１の命令列と、前記第１の処理後に実行される第２の処理を実行する第２の命令列とを受け、
前記第１の命令列に含まれる複数の第１の命令及び前記第２の命令列に含まれる複数の第２の命令のうち、並列に実行可能な第１の命令及び第２の命令をまとめて第３の命令を生成し、
前記第３の命令と、前記第３の命令にまとめた第１の命令及び第２の命令を除く第１の命令及び第２の命令とを連結して第３の命令列を生成する
処理をコンピュータに実行させるコンパイラプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、コンパイラ装置、命令生成方法、プログラム、コンパイル方法及びコンパイラプログラムに関する。

【背景技術】

【0002】

一般に、深層学習は、ＧＰＵ（Graphics Processing Unit）等の多数のコアを内蔵したプロセッサを使用して実行される。近時、深層学習での計算速度を向上するため、深層学習に特化したプロセッサ（アクセラレータ）が開発されている。

【0003】

深層学習に特化したプロセッサのアーキテクチャ（演算器の数、演算器を含むブロックの数、ブロックの階層数及び命令等）は、ＧＰＵ等の汎用品のアーキテクチャと異なる場合がある。このため、深層学習に特化したプロセッサを効率よく動作させるためには、プロセッサに実行させる命令を適切に生成するコンパイラ装置が重要である。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本開示では、演算処理装置に実行させる命令をまとめることで、演算処理装置の処理性能を向上する。

【課題を解決するための手段】

【0005】

本発明の実施形態のコンパイラ装置は、演算処理装置に実行させる命令列を生成するコンパイラ装置であって、第１の処理を実行する第１の命令列と、前記第１の処理後に実行される第２の処理を実行する第２の命令列とを受け、前記第１の命令列に含まれる複数の第１の命令及び前記第２の命令列に含まれる複数の第２の命令のうち、並列に実行可能な第１の命令及び第２の命令をまとめて第３の命令を生成し、前記第３の命令と、前記第３の命令にまとめた第１の命令及び第２の命令を除く第１の命令及び第２の命令とを連結して第３の命令列を生成する。

【図面の簡単な説明】

【0006】

【図1】本発明の一実施形態におけるコンパイラ装置の一例を示す機能ブロック図である。

【図2】図１のコンパイラ装置により生成されるプログラムを実行する演算処理装置の一例を示すブロック図である。

【図3】図２の演算処理装置が搭載されるプロセッサ及びホストを含むシステムの一例を示すブロック図である。

【図4】図２の演算処理装置の動作の例を示す説明図である。

【図5】図２の演算処理装置の動作の別の例を示す説明図である。

【図6】図１の命令マージ部を動作させない場合と動作させた場合とでコンパイラ装置が生成する命令コードによる処理の例を示す説明図である。

【図7】図１の命令マージ部により命令をマージする例を示す説明図である。

【図8】２つの命令をマージする例を示す説明図である。

【図9】２つの命令をマージする別の例を示す説明図である。

【図10】データの依存関係により命令をマージできない例を示す説明図である。

【図11】メモリ不足により命令をマージできない例を示す説明図である。

【図12】別の実施形態のコンパイラ装置において２つの命令をマージする例を示す説明図である。

【図13】図１に示したコンパイラ装置のハードウェア構成の例を示すブロック図である。

【発明を実施するための形態】

【0007】

以下、本発明の実施形態について、図面を参照しながら詳細に説明する。

【0008】

図１は、本発明の一実施形態におけるコンパイラ装置の一例を示す機能ブロック図である。例えば、図１に示すコンパイラ装置１０は、サーバ等の情報処理装置（コンピュータ）が内蔵するＣＰＵ（Central Processing Unit）等のプロセッサがコンパイラプログラムを実行することにより実現される。そして、コンパイラ装置１０は、コンパイラプログラムを実行することにより、図２に示す演算処理装置１００が実行する命令コードを生成する。コンパイラ装置１０は、計算グラフ生成部１１、第１命令コード生成部１２、演算グラフ生成部１３、第２命令コード生成部１４、命令マージ部１５及びファイナライズ部１６を有する。

【0009】

計算グラフ生成部１１は、例えば、深層学習用の汎用のライブラリ（フレームワーク）を使用して生成された学習モデル（例えば、ソースコード）に基づいて計算グラフを生成する。計算グラフとは、畳み込み演算、バッチノーマライゼーション、活性化関数演算などの深層学習でよく使われる計算処理の組み合わせとして学習モデルを表現するとき、計算間にどのような依存関係があるか（ある計算の入力は、どの計算の出力ないしモデル全体の入力から与えられるか、など）を表すものである。第１命令コード生成部１２は、計算グラフ生成部１１が生成する計算グラフを使用して抽象化レベルの命令コードを生成する。ここで、抽象化レベルの命令コードは、例えば、計算機に搭載されるプロセッサでは実行できない高水準言語で記述されてもよい。

【0010】

第１命令コード生成部１２は、学習モデルに基づく計算グラフを抽象化レベルの命令コードを含む１つの命令コード列に変換するのではなく、基本的操作のレベルで処理の実行順を決め、基本的操作毎に命令コードを生成する。ここで、基本的操作は、例えば、畳み込み層又はプーリング層等のレイヤの処理、ＲｅＬＵ（Rectified Linear Unit）関数等の処理又はデータ転送等の処理のいずれかを含む。

【0011】

演算グラフ生成部１３は、第１命令コード生成部１２が生成する命令コードに基づいて演算グラフを生成する。演算グラフとは、計算グラフの計算処理を演算処理装置１００が直接実行できる演算の組み合わせ（例えば、行列積演算、加算演算）で表現するとき、演算間にどのような依存関係があるかを表すものである。第２命令コード生成部１４は、演算グラフ生成部１３が生成する演算グラフに基づいて、機械語レベルの命令コードを生成する。例えば、第２命令コード生成部１４は、ディープニューラルネットワークのレイヤ毎に、複数の命令コードを含む命令コード列を生成する。第２命令コード生成部１４は、命令コードを生成するときに、命令コードの実行順を決める命令スケジューリングと、命令コードの実行に使用するメモリ領域の割り当てを決定するメモリアロケーティングを実施してもよい。

【0012】

命令マージ部１５は、第２命令コード生成部１４が生成する複数の命令コード列に含まれる命令のうち、重複して実行可能な命令を検索し、重複して実行可能な命令をマージするマージ処理を実施する。命令マージ部１５は、第２命令コード生成部１４が生成する複数の命令コード列に含まれる一部の命令をマージして、機械語レベルの１つの命令コード列を生成する。

【0013】

ファイナライズ部１６は、命令マージ部１５が生成する命令コード列をファイナライズし、プロセッサにより直接実行可能な機械語の命令コード列を出力する。ファイナライズされた命令コード列は、例えば、プロセッサにより実行される深層学習用のプログラムである。以下の説明では、命令コードは、命令とも称され、命令コード列は、命令列とも称される。

【0014】

図２は、図１のコンパイラ装置１０により生成されるプログラムを実行する演算処理装置の一例を示すブロック図である。例えば、図１に示す演算処理装置１００は、深層学習を実行するアクセラレータとして機能してもよい。演算処理装置１００は、チップの形態でもよく、ＣＳＰ（Chip Size Package）等のパッケージの形態でもよい。

【0015】

演算処理装置１００は、階層化された複数の演算ユニット及び複数のメモリを有する。例えば、演算処理装置１００は、所定数の第２階層ブロックＢＬＫ２を有する。各第２階層ブロックＢＬＫ２は、複数の第１階層ブロックＢＬＫ１及び当該複数の第１階層ブロックＢＬＫ１に共有されるメモリＭＥＭ２を有する。各第１階層ブロックＢＬＫ１は、複数の演算ユニットＯＰＵ及び当該複数の演算ユニットＯＰＵに共有されるメモリＭＥＭ１を有する。このように階層化された演算ユニットＯＰＵ、第１階層ブロックＢＬＫ１、第２階層ブロックＢＬＫ２の各々は、発行された命令に基づいて処理を実行する処理ユニットの一例である。演算処理装置１００は、各種のデータ転送命令を実行することで、階層化されたブロック間でデータ転送を効率的に実行可能である。

【0016】

図２に示す例では、演算処理装置１００は、４個の第２階層ブロックＢＬＫ２を有する。各第２階層ブロックＢＬＫ２は、８個の第１階層ブロックＢＬＫ１を有する。第１階層ブロックＢＬＫ１は、１６個の演算ユニットＯＰＵを有する。しかしながら、演算処理装置１００が有する第２階層ブロックＢＬＫ２の数、各第２階層ブロックＢＬＫ２に搭載される第１階層ブロックＢＬＫ１の数、及び各第１階層ブロックＢＬＫ１に搭載される演算ユニットＯＰＵの数は、図１に限定されない。但し、演算処理装置１００に搭載される第２階層ブロックＢＬＫ２の数、各第２階層ブロックＢＬＫ２に搭載される第１階層ブロックＢＬＫ１の数、及び各第１階層ブロックＢＬＫ１に搭載される演算ユニットＯＰＵの数は、それぞれ２のｎ乗個（ｎは１以上の整数）であることが好ましい。

【0017】

演算ユニットＯＰＵは、第０階層のメモリとしてメモリＭＥＭ０を有する。第１階層ブロックＢＬＫ１は、第１階層のメモリとしてメモリＭＥＭ１を有し、第２階層ブロックＢＬＫ２は、第２階層のメモリとしてメモリＭＥＭ２を有する。メモリＭＥＭ１、ＭＥＭ２の種類は、特に限定されず、演算処理装置１００に求められる性能に応じて適宜選択して良い。例えば、この実施形態では、演算ユニットＯＰＵ内のメモリＭＥＭ０とメモリＭＥＭ１との間でデータを転送する第１データ転送命令、及び、メモリＭＥＭ１とメモリＭＥＭ２との間でデータを転送する第２データ転送命令が用意されている。すなわち、隣接する２階層のメモリＭＥＭ２間でのデータ転送命令が用意されている。また、メモリＭＥＭ２と図３に第３階層のメモリとして示されるメモリＭＥＭ３（演算処理装置１００外のメモリ）との間で、データを転送する第３データ転送命令が用意されている。すなわち、演算処理装置１００と演算処理装置１００外のメモリＭＥＭ３との間でのデータ転送命令が用意されている。このように、演算処理装置１００は、互いに隣接する２つのメモリ階層間ごとにデータ転送命令を実行可能である。

【0018】

例えば、演算処理装置１００は、第１データ転送命令の実行により、演算処理装置１００内の全ての第１階層ブロックＢＬＫ１の各々において、演算ユニットＯＰＵ内のメモリＭＥＭ０とメモリＭＥＭ１との間でデータを転送する。演算処理装置１００は、第２データ転送命令の実行により、演算処理装置１００内の全ての第２階層ブロックＢＬＫ２の各々において、メモリＭＥＭ１、ＭＥＭ２間でデータを転送する。演算処理装置１００は、第３データ転送命令の実行により、演算処理装置１００内の全ての第２階層ブロックＢＬＫ２の各々において、メモリＭＥＭ２とメモリＭＥＭ３（図３）との間でデータを転送する。

【0019】

各データ転送命令は、１つの命令により複数のデータ転送を実行するＳＩＭＤ（Single Instruction Multiple Data）命令である。なお、上書きしたくないデータの消失を抑止するために、演算処理装置１００は、一部の要素間でのデータ転送をマスクする機能を有してもよい。

【0020】

各演算ユニットＯＰＵは、各種演算を実行する演算器ＥＸ（図３）を有する。演算器ＥＸは、例えば異なる種類の演算（例えば行列積演算や加算演算）をそれぞれ行う複数の演算要素を含んで良い。

【0021】

演算処理装置１００が実行する各種演算命令は、１つの命令により複数の演算を実行するＳＩＭＤ命令である。そして、この実施形態では、演算処理装置１００は、１つの演算命令に基づいて、演算処理装置１００内の全ての演算器ＥＸに演算を並列（同時を含む）に実行させることができる。

【0022】

ここで、通常のＳＩＭＤプロセッサが実行するＳＩＭＤ演算の並列度は、ＳＩＭＤレジスタに割り当てられるレジスタの数に依存する。一方、演算処理装置１００によるＳＩＭＤ演算の並列度は、演算処理装置１００内の演算器ＥＸの数に依存する。したがって、演算処理装置１００は、巨大なＳＩＭＤプロセッサとして動作可能である。

【0023】

異なる階層のデータ転送命令及び演算命令は、リソースが競合しない場合、並列に実行可能である。このため、図１のコンパイラ装置１０は、リソースが競合しない複数の命令を含む命令群を生成可能である。コンパイラ装置１０が生成する命令群については、図６から図１１で説明される。

【0024】

図３は、図２の演算処理装置１００が搭載されるプロセッサ及びホストを含むシステムの一例を示すブロック図である。図３に示すプロセッサ２００は、相互に接続された複数の演算処理装置１００及びメモリＭＥＭ３を有する。例えば、プロセッサ２００は、複数の演算処理装置１００及びメモリＭＥＭ３が搭載された電子回路基板の形態を有してもよい。複数の演算処理装置１００は、マルチチップパッケージに搭載されてもよい。メモリＭＥＭ３の種類は、特に限定されず、演算処理装置１００に求められる性能に応じて適宜選択して良い。

【0025】

図３では、プロセッサ２００は、４個の演算処理装置１００を有するが、演算処理装置１００の数は、４個に限定されず、１個以上であればよい。メモリＭＥＭ３は、各演算処理装置１００に対応して設けられてもよい。複数の演算処理装置１００を有するプロセッサ２００は、１つの演算処理装置として動作する。

【0026】

各演算処理装置１００において、各第２階層ブロックＢＬＫ２のメモリＭＥＭ２は、メモリＭＥＭ３と、第２階層ブロックＢＬＫ２内の各第１階層ブロックＢＬＫ１のメモリＭＥＭ１と、に接続され、データを相互に転送可能である。

【0027】

各第１階層ブロックＢＬＫ１のメモリＭＥＭ１は、第１階層ブロックＢＬＫ１内の各演算ユニットＯＰＵ内のメモリＭＥＭ０に接続され、データを相互に転送可能である。各メモリＭＥＭ１からメモリＭＥＭ０には、データ転送命令及び演算命令が転送されてもよい。演算ユニットＯＰＵ内の演算器ＥＸは当該演算ユニットＯＰＵ内のメモリＭＥＭ０を用いて各種演算を行う。

【0028】

ホストメモリＨＯＳＴＭとメモリＭＥＭ３とは、例えば、ＰＣＩｅ（Peripheral Component Interconnect express）インタフェースを介してデータ及び命令等の情報を送受信してもよい。また、ホストメモリＨＯＳＴＭとメモリＭＥＭ３との情報の転送は、ＤＭＡ（Direct Memory Access）により実行されてもよい。

【0029】

各演算処理装置１００は、ホスト３００から受信する演算命令に基づいて、演算処理を実行し、ホスト３００から受信するデータ転送命令に基づいて、データ転送処理を実行する。ホスト３００から演算処理装置１００に送信される各種の命令コードを含むプログラムは、図１のコンパイラ装置１０により生成され、ホスト３００内のホストメモリＨＯＳＴＭに格納される。

【0030】

図４及び図５は、図２の演算処理装置１００の動作の例を示す説明図である。図４及び図５に示す動作は、演算処理装置１００がデータ転送命令及び演算命令のうちの複数を並列に実行することで実現される。図４及び図５において、太枠で示す要素は、データ転送又は演算の実行に使用されるリソースを示す。また、太枠で示す要素間を結ぶ矢印は、データの転送方向を示す。

【0031】

なお、メモリＭＥＭ２とメモリＭＥＭ３との間のデータ転送に掛かるサイクル数は、メモリＭＥＭ１とメモリＭＥＭ２との間のデータ転送に掛かるサイクル数や、メモリＭＥＭ１と演算ユニットＯＰＵ内のメモリＭＥＭ０との間のデータ転送に係るサイクル数に比べて多い。また、演算器ＥＸによる各種演算の実行サイクルは異なりうる。しかしながら、以下の説明では、データ転送処理及び演算処理の実行サイクルの少なくとも一部のサイクルが重複する場合、処理が並列（同時を含む）に実行されるものとする。

【0032】

図４（Ａ）では、演算器ＥＸは、複数のメモリＭＥＭ０にそれぞれ保持されたデータを使用して演算を並列に実行する演算命令を実行する。また、演算処理装置１００は、メモリＭＥＭ３からメモリＭＥＭ２にデータを転送するデータ転送命令を、演算命令と並列に実行する。

【0033】

図４（Ａ）では、使用するリソースが異なる演算命令及びデータ転送命令は、並列に実行可能である。コンパイラ装置１０は、図４（Ａ）に示すように、リソースが競合しないと判定した場合、演算命令とデータ転送命令とを並列に実行可能な１つの命令群を生成する。

【0034】

図４（Ｂ）では、演算器ＥＸは、複数のメモリＭＥＭ０にそれぞれ保持されたデータを使用して演算を並列に実行する演算命令を実行する。また、演算処理装置１００は、演算を実行する演算器ＥＸを含む演算ユニットＯＰＵ内のメモリＭＥＭ０のそれぞれにメモリＭＥＭ１からデータを並列に転送する（書き込む）データ転送命令を、演算命令と並列に実行する。なお、ここでは、各メモリＭＥＭ０において、上記の演算及びデータ転送に関わるユニット（リソース）は互いに競合しないものとする。

【0035】

図４（Ｂ）では、演算に関わるユニットと、データ転送に関わるユニットとは競合しないため、演算命令及びデータ転送命令は、並列に実行可能である。一方、演算に関わるユニットと、データ転送に関わるユニットとが競合する場合、演算命令及びデータ転送命令は、並列に実行できないため、逐次に実行される。

【0036】

コンパイラ装置１０は、図４（Ｂ）に示すように、リソースが競合しないと判定した場合、演算命令とデータ転送命令とを並列に実行可能な１つの命令群を生成する。一方、コンパイラ装置１０は、リソースが競合すると判定した場合、演算命令とデータ転送命令とを逐次に実行する２つの命令群を生成する。

【0037】

図４（Ｃ）では、演算器ＥＸは、複数のメモリＭＥＭ０にそれぞれ保持されたデータを使用して演算を並列に実行する演算命令を実行する。また、演算処理装置１００は、演算を実行する演算器ＥＸを含む演算ユニットＯＰＵ内のメモリＭＥＭ０からメモリＭＥＭ１内の異なる領域にデータを並列に転送するデータ転送命令を、演算命令と並列に実行する。なお、ここでは、各メモリＭＥＭ０において、上記の演算およびデータ転送に関わるユニット（リソース）は互いに競合しないものとする。さらに、演算処理装置１００は、メモリＭＥＭ２からメモリＭＥＭ３にデータを転送するデータ転送命令を、演算命令と並列に実行する。

【0038】

図４（Ｃ）では、演算器ＥＸでの演算と２つのデータ転送に使用されるリソースは競合しないため、コンパイラ装置１０は、１つの演算命令と２つのデータ転送命令とを並列に実行可能な１つの命令群を生成する。一方、コンパイラ装置１０は、演算に関わるリソースとメモリＭＥＭ１へのデータ転送に関わるリソースとが競合する場合、演算命令を単独で生成し、２つのデータ転送命令を並列に実行可能な１つの命令群を生成する。

【0039】

図５（Ｄ）では、演算処理装置１００は、演算ユニットＯＰＵ内の複数のメモリＭＥＭ０からメモリＭＥＭ１内にデータを転送するデータ転送命令を実行する。また、演算処理装置１００は、メモリＭＥＭ２からメモリＭＥＭ３にデータを転送するデータ転送命令を、メモリＭＥＭ０からメモリＭＥＭ１へのデータ転送命令と並列に実行する。

【0040】

図５（Ｄ）では、２つのデータ転送は競合しないため、並列に実行可能である。このため、コンパイラ装置１０は、２つのデータ転送命令を並列に実行可能な１つの命令群を生成する。なお、２つのデータ転送が競合するか否かは、演算処理装置１００のアーキテクチャに依存し、コンパイラ装置１０は、このアーキテクチャを考慮して２つのデータ転送が競合するか否かを判定してよい。本実施形態のコンパイラ装置１０は、複数のデータ転送命令のデータの転送先が同じ場合、データ転送が競合していると判定する。

【0041】

図５（Ｅ）では、演算器ＥＸの第１及び第２の演算要素は、複数のメモリＭＥＭ０にそれぞれ保持されたデータを使用して第１及び第２の演算を並列に実行する演算命令を実行する。なお、ここでは、各メモリＭＥＭ０および演算器ＥＸにおいて、上記の第１及び第２の演算に関わるユニット（リソース）は互いに競合しないものとする。

【0042】

図５（Ｅ）では、第１及び第２の演算に関わるリソースは競合しない。このため、コンパイラ装置１０は、第１及び第２の演算要素での第１及び第２の演算を並列に実行可能な１つの命令群を生成する。なお、コンパイラ装置１０は、メモリＭＥＭ１、メモリＭＥＭ２間のデータ転送又はメモリＭＥＭ２とメモリＭＥＭ３との間のデータ転送を、命令群に含めることが可能である。図５（Ｅ）において、コンパイラ装置１０は、メモリＭＥＭ０が競合すると判定した場合、命令群を生成せずに、第１及び第２の演算要素での第１及び第２の演算をそれぞれ実行する２つの演算命令を逐次生成する。

【0043】

図５（Ｆ）では、演算器ＥＸは、メモリＭＥＭ０に保持されたデータを使用して演算を実行する演算命令を実行する。また、演算処理装置１００は、演算を実行する演算器ＥＸを含む演算ユニットにおいて、メモリＭＥＭ０にメモリＭＥＭ１からデータを転送するデータ転送命令を、演算命令と並列に実行する。なお、ここでは、各メモリＭＥＭ０において、上記の演算およびデータ転送に関わるユニット（リソース）は互いに競合しないものとする。さらに、演算処理装置１００は、メモリＭＥＭ３からメモリＭＥＭ２にデータを転送するデータ転送命令を、上記の演算命令及びデータ転送命令と並列に実行する。

【0044】

図５（Ｆ）では、演算器ＥＸによる演算と２つのデータ転送に使用されるリソースは競合しないため、コンパイラ装置１０は、１つの演算命令と２つのデータ転送命令とを並列に実行可能な１つの命令群を生成する。コンパイラ装置１０がリソースの競合を判定した場合の命令群の生成方法は、図４（Ｃ）の説明と同様である。

【0045】

以下、図６から図１１では、命令マージ部１５による命令をマージする処理の例が説明される。例えば、図６から図１１に示す処理は、コンパイラ装置１０が実行するコンパイラプログラムによる処理の例と、コンパイラ装置１０が実行するコンパイル方法による処理の例とを示す。図６から図１１に示す処理によりコンパイラ装置１０が命令を生成する方法は、命令生成方法の一例を示す。

【0046】

図６は、図１の命令マージ部１５を動作させない場合と動作させた場合とでコンパイラ装置１０が生成する命令コードによる処理の例を示す説明図である。コンパイラ装置１０が命令マージ部１５を動作させて命令コードを生成する方法は、命令生成方法の一例である。ダウンロードＤＬ（ＤＬ１、ＤＬ２）、アップロードＵＬ、畳み込み演算Ｃｏｎｖ（Ｃｏｎｖ１、Ｃｏｎｖ２、Ｃｏｎｖ３）、バッチノーマライゼーションＢＮ及びＲｅＬＵ関数の各々は、基本的操作の一例である。演算命令の頻度及びデータ転送命令の頻度を示す矩形は、網掛けの色が濃いほど命令の実行頻度が高いことを示す。

【0047】

図６に示す例では、演算処理装置１００は、メモリＭＥＭ３からメモリＭＥＭ０にデータのダウンロードＤＬ１し、ダウンロードしたデータを使用して畳み込み演算Ｃｏｎｖ１を実行する（図６（ａ）、（ｂ））。ダウンロードＤＬ１の処理は、データ転送命令を使用して実行される。畳み込み演算Ｃｏｎｖ１の処理は、主に演算命令を使用して実行される。

【0048】

次に、演算処理装置１００は、例えば、畳み込み演算Ｃｏｎｖ１により得られたデータをメモリＭＥＭ０からメモリＭＥＭ３にアップロードＵＬする（図６（ｃ））。アップロードＵＬの処理は、データ転送命令を使用して実行される。

【0049】

また、演算処理装置１００は、畳み込み演算Ｃｏｎｖ１により得られたデータに対してバッチノーマライゼーションＢＮの処理と、ＲｅＬＵ関数の処理とを順次実行する（図６（ｄ）、（ｅ））。バッチノーマライゼーションＢＮの処理及びＲｅＬＵ関数の処理は、主に演算命令を使用して実行される。次に、演算処理装置１００は、畳み込み演算Ｃｏｎｖ２を実行する（図６（ｆ））。

【0050】

また、演算処理装置１００は、データをメモリＭＥＭ３からメモリＭＥＭ０にダウンロードＤＬ２する（図６（ｇ））。そして、演算処理装置１００は、ダウンロードしたデータを使用して畳み込み演算Ｃｏｎｖ３を実行する（図６（ｈ））。このように、命令マージ部１５を動作させない場合、演算処理装置１００は、ディープニューラルネットワークの処理を順次実行する。

【0051】

一方、命令マージ部１５を動作させる場合、命令マージ部１５は、リソースが競合しない複数の命令を含む１つの命令群を生成することで、複数の基本的操作を並列に実行可能にする。これにより、例えば、ディープニューラルネットワークの訓練に掛かる計算時間を短縮することができ、演算処理装置１００の処理性能を向上することができる。

【0052】

例えば、アップロードＵＬ１の処理は、第１の処理の一例であり、バッチノーマライゼーションＢＮの処理及びＲｅＬＵ関数の処理は、第１の処理後に実行される第２の処理の一例である。この場合、アップロードＵＬ１の処理を実行する命令を含む命令列は、第１の命令を含む第１の命令列の一例である。バッチノーマライゼーションＢＮの処理を実行する命令を含む命令列及びＲｅＬＵ関数の処理を実行する命令を含む命令列は、第２の命令を含む第２の命令列の一例である。

【0053】

また、ＲｅＬＵ関数の処理及び畳み込み演算Ｃｏｎｖ２の処理は、第１の処理の一例であり、ダウンロードＤＬ２の処理は、第２の処理の一例である。この場合、ＲｅＬＵ関数の処理及び畳み込み演算Ｃｏｎｖ２の処理を実行する命令を含む命令列は、第１の命令を含む第１の命令列の一例である。ダウンロードＤＬ２の処理を実行する命令を含む命令列は、第２の命令を含む第２の命令列の一例である。

【0054】

例えば、命令マージ部１５は、バッチノーマライゼーションＢＮ及びＲｅＬＵ関数の処理で使用する演算命令と、アップロードＵＬの処理で使用するデータ転送命令のうち、リソースが競合しない命令を少なくとも１つの命令群にまとめる（図６（ｉ））。また、命令マージ部１５は、ＲｅＬＵ関数及び畳み込み演算Ｃｏｎｖ２の処理で使用する演算命令と、ダウンロードＤＬ２の処理で使用するデータ転送命令のうち、リソースが競合しない命令を少なくとも１つの命令群にまとめる（図６（ｊ））。

【0055】

複数の命令がまとめられた命令群は、第３の命令の一例である。命令マージ部１５は、複数の命令をまとめ命令群と、命令群にまとめた命令を除く命令とを連結し、図６の破線枠で示す命令列（第３の命令列）を生成する。命令をまとめることにより、例えば、データ転送命令の実行頻度を高くすることができ、データの転送効率を高くすることができる。この結果、演算処理装置１００の処理性能を向上することができる。

【0056】

演算命令及びデータ転送命令において競合するリソースはメモリＭＥＭ０である。このため、命令マージ部１５は、メモリＭＥＭ０のリソースが競合しなければ、演算命令とデータ転送命令とをまとめて命令群を生成できる。演算命令とデータ転送命令とによるリソースの競合は、演算命令同士のリソースの競合に比べて発生頻度が低い場合が多い。このため、演算命令とデータ転送命令とをまとめることで、演算命令をまとめる場合に比べて、命令数の圧縮効率を向上することができ、演算処理装置１００の処理性能を向上することができる。

【0057】

なお、命令マージ部１５は、命令をまとめることで基本的操作の処理結果が変わる場合、命令をまとめることをしない。換言すれば、命令マージ部１５は、着目する命令のマージ後の命令列による処理結果が、マージ前の命令列による処理結果と等価になるか否かを判定する。そして、命令マージ部１５は、処理結果が等価になる場合、命令をマージして命令群を生成する。これにより、マージ後の命令列を実行する演算処理装置１００が正常に動作しない不具合を抑止することができる。

【0058】

例えば、基本的操作の処理結果が変わる例として、データの依存関係が破綻する場合、又は、使用するメモリサイズが不足する場合がある。データの依存関係が破綻する例は、図１０で説明され、使用するメモリサイズが不足する例は、図１１で説明される。

【0059】

図７は、図１の命令マージ部１５により命令をマージする例を示す説明図である。例えば、大文字のアルファベットは、図６のバッチノーマライゼーションＢＮの処理で使用される命令ＩＳを含む命令列ＩＳ１を示す。小文字のアルファベットは、図６のアップロードＵＬの処理で使用される命令ＩＳを含む命令列ＩＳ２を示す。命令列ＩＳ１は、第１命令列の一例であり、命令列ＩＳ１に含まれる命令ＩＳは、第１の命令の一例である。命令列ＩＳ２は、第２命令列の一例であり、命令列ＩＳ２に含まれる命令ＩＳは、第２の命令の一例である。

【0060】

１つの命令ＩＳは、図８及び図９を用いて後述されるように、互いに異なる種類の処理を並列に実行可能な複数の処理ユニットそれぞれに対する複数の異なる命令を含む。すなわち、１つの命令ＩＳは、第１の処理ユニットに対する命令、第２の処理ユニットに対する命令、・・・第Ｎの処理ユニットに対する命令を含む。処理ユニットに提供される命令にはＮＯＰ（ＮＯＯＰＥＲＡＴＩＯＮ：何もしない）を含んでよい。複数の処理ユニットは、同時に提供された複数の異なる命令にしたがって、互いに異なる種類の処理（ＮＯＰ含む）を並列に実行する。

【0061】

命令マージ部１５は、命令列ＩＳ１、ＩＳ２にそれぞれ含まれる命令ＩＳのうち、重ね合わせが可能な命令ＩＳを抽出し、抽出した命令ＩＳをマージすることで命令群ＩＧｒを生成する。命令群ＩＧｒは、第３命令の一例である。そして、命令マージ部１５は、命令ＩＳをマージした命令群ＩＧｒとマージしない単独の命令ＩＳとを含む命令列ＩＳ３を生成する。命令列ＩＳ３は、第３の命令列の一例である。例えば、命令列ＩＳ１、ＩＳ２、ＩＳ３に含まれる命令ＩＳ及び命令群ＩＧｒは、機械語レベルで記述される。

【0062】

図７に示すように、２つの命令列ＩＳ１、ＩＳ２において、マージ可能な命令ＩＳの数は限られる。しかしながら、いくつかの命令ＩＳを命令群ＩＧｒとしてマージし、並列に実行可能にすることで、図６に示したように、命令ＩＳを逐次的に実行する場合に比べて、命令の実行速度を高くすることができる。

【0063】

図７のかぎ括弧内は、マージ処理の途中の状態を示す。命令列ＩＳ１、ＩＳ２、ＩＳ３の途中に示す太線より手前は、マージ可能な命令ＩＳのマージ処理が実施済みであることを示し、太線より後ろは、マージ処理が未実施であることを示す。破線枠で示す命令Ｇ、ｅは、次にマージされる命令ＩＳを示す。

【0064】

命令マージ部１５は、太線で示すように、命令列ＩＳ１、ＩＳ２のマージ処理をどこまで実施したかを認識しており、次の命令（例えば、Ｇ、ｅ）がマージ可能か否かを判定し、マージ可能な場合、命令群ＩＧｒを生成する処理を繰り返す。

【0065】

図８及び図９は、２つの命令をマージする例を示す説明図である。例えば、命令１は、図７の命令列ＩＳ１の命令ＩＳに対応し、命令２は、図７の命令列ＩＳ２の命令ＩＳに対応する。命令１＋２は、命令１と命令２とをマージした命令群を示す。命令１及び命令２において、符号－は、実行される命令が存在しないこと（ＮＯＰ）を示す。すなわち、命令１、命令２、命令１と命令２とがマージされた命令１＋２のそれぞれは、図７における命令ＩＳ同様に、互いに異なる種類の処理を並列に実行可能な複数の処理ユニットそれぞれに対する複数の異なる命令を含む。図８（Ａ）－図８（Ｃ）及び図９（Ｄ）－図９（Ｆ）は、図４（Ａ）－図４（Ｃ）及び図５（Ｄ）－図５（Ｆ）の動作にそれぞれ対応する。

【0066】

図８（Ａ）において、命令マージ部１５は、演算器ＥＸにより第１の演算を実行する演算命令を含む命令１と、メモリＭＥＭ３からメモリＭＥＭ２にデータを転送するデータ転送命令を含む命令２とに使用するリソースが競合しないため、マージが可能と判定する。このため、命令マージ部１５は、演算命令とデータ転送命令とをマージした命令１＋２を生成する。

【0067】

図８（Ｂ）において、命令マージ部１５は、第１の演算を実行する演算命令を含む命令１と、メモリＭＥＭ１からプロセッサエレメントＰＥにデータを転送するデータ転送命令を含む命令２とに使用するリソースが条件付きで競合しないと判定する。リソースが競合しない条件は、例えば、各メモリＭＥＭ０において、演算命令の結果が書き込まれるユニットとデータの転送先のユニットとが異なることである。条件を満足する場合、命令マージ部１５は、演算命令とデータ転送命令とをマージした命令１＋２を生成する。

【0068】

図８（Ｃ）において、命令マージ部１５は、第１の演算を実行する演算命令を含む命令１と、メモリＭＥＭ０からメモリＭＥＭ１にデータを転送するデータ転送命令を含む命令２と、メモリＭＥＭ２からメモリＭＥＭ３にデータを転送するデータ転送命令に使用するリソースが条件付きで競合しないと判定する。リソースが競合しない条件は、各メモリＭＥＭ０において、演算命令で使用するユニットとデータ転送に使用するユニットとが異なることである。

【0069】

条件を満足する場合、命令マージ部１５は、演算命令と２つのデータ転送命令とをマージした命令１＋２を生成する。条件を満足しない場合、命令マージ部１５は、単独の演算命令と２つのデータ転送命令とをマージせず、その結果、命令１と命令２とは別々の命令として維持される。ただし、命令１は、他の命令とマージされてもよいし、命令２は、他の命令とマージされてもよい。

【0070】

図９（Ｄ）において、命令マージ部１５は、メモリＭＥＭ０からメモリＭＥＭ１にデータを転送するデータ転送命令を含む命令１と、メモリＭＥＭ２からメモリＭＥＭ３にデータを転送するデータ転送命令を含む命令２とに使用するリソースが競合しないため、マージ可能と判定する。このため、命令マージ部１５は、２つのデータ転送命令をマージした命令１＋２を生成する。メモリＭＥＭ０からメモリＭＥＭ１にデータを転送するデータ転送命令は、第１のデータ転送命令の一例であり、メモリＭＥＭ２からメモリＭＥＭ３にデータを転送するデータ転送命令は、第１のデータ転送命令の一例である。

【0071】

この実施形態では、データ転送命令は、異なるメモリ階層間毎に用意される。このため、図９（Ｄ）に示すように、命令マージ部１５は、メモリ階層が重ならないデータ転送命令には競合がないと判定できる。この結果、コンパイラ装置１０による命令の生成処理を効率よく実行することができる。

【0072】

図９（Ｅ）において、命令マージ部１５は、演算器ＥＸに第１の演算を実行させる第１演算命令を含む命令１と、演算器ＥＸに第２の演算を実行させる第２演算命令を含む命令２とで使用するリソースが条件付きで競合しないと判定する。リソースが競合しない条件は、演算を実行する演算要素が互いに異なり、かつ、第１及び第２の演算で使用するメモリＭＥＭ０内のユニットが互いに異なることである。条件を満足する場合、命令マージ部１５は、第１演算命令と第２演算命令とをマージした命令１＋２を生成する。

【0073】

図９（Ｆ）において、命令マージ部１５は、演算器ＥＸに第１の演算を実行させる演算命令を含む命令１と、メモリＭＥＭ１からメモリＭＥＭ０にデータを転送するデータ転送命令及びメモリＭＥＭ３からメモリＭＥＭ２にデータを転送するデータ転送命令を含む命令２とに使用するリソースが条件付きで競合しないと判定する。リソースが競合しない条件は、各メモリＭＥＭ０において、演算命令で使用するユニットとデータ転送に使用するユニットとが異なることである。

【0074】

条件を満足する場合、命令マージ部１５は、演算命令と２つのデータ転送命令とをマージした命令１＋２を生成する。条件を満足しない場合、命令マージ部１５は、単独の演算命令と、２つのデータ転送命令とをマージせず、その結果、命令１と命令２とは別々の命令として維持される。

【0075】

図１０は、データの依存関係により命令をマージできない例を示す説明図である。図１０では、値ｘをメモリＭＥＭ０に書き込むレイヤＡの処理と、レイヤＡの処理でメモリＭＥＭ０に書き込まれた値ｘを読み出すレイヤＢの処理とが順次実行されるとする。

【0076】

命令マージ部１５は、レイヤＡの命令列とレイヤＢの命令列とをマージする場合に、メモリＭＥＭ０に読み書きされるデータに依存関係があるか否かを判定する。図１０の例では、メモリＭＥＭ０に読み書きされるデータに依存関係がある。そして、レイヤＡの命令列とレイヤＢの命令列とをマージする場合、値ｘがメモリＭＥＭ０に書き込まれる前に、メモリＭＥＭ０から値ｘを読み出す処理が実行される。このため、命令マージ部１５は、命令列をマージすると正しい処理が実行されないと判定し、命令列のマージを実行しない。

【0077】

このように、命令マージ部１５は、命令のマージ対象のレイヤＡ、Ｂで共通に使用するメモリＭＥＭ０等にデータの依存関係があり、マージ後のデータの読み書きが正しい順序で実行されない場合、命令列のマージを一時的に制限する。すなわち、図７の説明からも理解されるように、同じメモリＭＥＭ０へのデータの読み込み命令及び書き込み命令ついて、命令マージ部１５は、少なくともレイヤＡの命令列の書き込み命令のマージ処理が終わるまで、レイヤＢの命令列の読み込み命令のマージ処理を待機する。これにより、データの依存関係の破綻により演算処理装置１００が正常に動作しなくなる不具合を抑止することができる。なお命令列のマージを一時的に制限する代わりに、当該レイヤ同士の命令列のマージを放棄し、当該レイヤ同士の命令列のマージを一切しないとしてもよい。

【0078】

図１１は、メモリ不足により命令をマージできない例を示す説明図である。なお、以下で説明するメモリ容量の数値は例示である。例えば、レイヤＡの命令列とレイヤＢの命令列とで、記憶容量が８００のメモリを共通に使用して計算処理（計算１－１、１－２、２－１、２－２）が実行されるとする。なお、計算処理に使用するメモリは、メモリＭＥＭ０、ＭＥＭ１、ＭＥＭ２の内の複数個所に分散されてもよい。

【0079】

計算１－１、２－１に必要なメモリ容量は、それぞれ３００であり、計算１－２、２－２に必要なメモリ容量は、それぞれ４００である。レイヤＡは、計算１－２の実行後、計算１－１、１－２で確保したメモリ容量７００を解放する。レイヤＢは、計算２－２の実行後、計算２－１、２－２で確保したメモリ容量７００を解放する。このようにマージしない場合にはメモリ不足が生じない。

【0080】

命令マージ部１５は、レイヤＡの命令列とレイヤＢの命令列とをマージする場合に、使用するメモリ容量がメモリの記憶容量を超えることなく、レイヤＡとレイヤＢの計算処理が実行できるか否かを判定する。図１１に示す例では、命令列をマージした場合、計算１－１、２－１を実行後、計算１－２、計算２－２にそれぞれ必要なメモリ容量４００を確保できず、計算処理が破綻する。

【0081】

命令マージ部１５は、命令列のマージによりメモリ容量が不足する場合、命令列のマージを抑止する。これにより、メモリ容量の不足により演算処理装置１００が正常に動作しなくなる不具合を抑止することができる。

【0082】

以上、この実施形態では、命令マージ部１５は、リソースが競合しない複数の命令を含む１つの命令群を生成することで、複数の基本的操作を並列に実行可能にする。これにより、例えば、ディープニューラルネットワークの訓練に掛かる計算時間を短縮することができ、演算処理装置１００の処理性能を向上することができる。

【0083】

命令マージ部１５は、着目する命令のマージ後の命令列による処理結果が、マージ前の命令列による処理結果と等価になるか否かを判定する。そして、命令マージ部１５は、処理結果が等価になる場合、命令をマージして新たな命令列を生成する。これにより、マージ後の命令列を実行する演算処理装置１００が正常に動作しない不具合を抑止することができる。

【0084】

命令マージ部１５は、命令のマージ対象のレイヤＡ、Ｂで共通に使用するメモリＭＥＭ０等にデータの依存関係があり、マージ後のデータの読み書きの順序が正しくない場合、命令列のマージを一時的に制限する。これにより、データの依存関係の破綻により演算処理装置１００が正常に動作しなくなる不具合を抑止することができる。

【0085】

【0086】

図６で説明したように、演算命令とデータ転送命令とを１つの命令に含める形でまとめることで、演算命令をまとめる場合に比べて、命令数の圧縮効率を向上することができ、演算処理装置１００の処理性能を向上することができる。データ転送命令は、異なるメモリ階層間毎に用意される。このため、図９（Ｄ）に示すように、命令マージ部１５は、メモリ階層が重ならないデータ転送命令には競合がないと判定できる。このため、命令マージ部１５は、異なるメモリ階層間でのデータ転送命令の競合を容易に判定でき、コンパイラ装置１０による命令の生成処理を効率よく実行することができる。

【0087】

図１２は、別の実施形態のコンパイラ装置において２つの命令をマージする例を示す説明図である。図１２は、コンパイラ装置による命令生成方法の一例を示す。この実施形態のコンパイラ装置は、図１のコンパイラ装置１０の第２命令コード生成部１４、命令マージ部１５及びファイナライズ部１６と同様の機能を有する。すなわち、この実施形態のコンパイラ装置は、第１の命令列に含まれる命令と、第２の命令列に含まれる命令とをマージすることで新たな命令を生成する機能を有する。

【0088】

なお、この実施形態においても第１の命令列に含まれる命令と、第２の命令列に含まれる命令と、これら２つの命令がマージされて生成される新たな命令と、のそれぞれは、互いに異なる種類の処理を並列に実行可能な複数の処理ユニットそれぞれに対する複数の異なる命令を含む。すなわち、命令列に含まれる命令及びマージされて生成される新たな命令は、第１の処理ユニットに対する命令、第２の処理ユニットに対する命令、・・・第Ｎの処理ユニットに対する命令を含む。処理ユニットに提供される命令にはＮＯＰ（ＮＯＯＰＥＲＡＴＩＯＮ：何もしない）を含むことがある。複数の処理ユニットは、同時に提供された複数の異なる命令にしたがって、互いに異なる種類の処理（ＮＯＰ含む）を並列に実行する。

【0089】

例えば、図１２に示す命令１及び命令２を実行する演算処理装置は、ＶＬＩＷ（Very Long Instruction Word）プロセッサであり、ＡＬＵ（Arithmetic and Logic Unit）及び２つのＦＰＵ（Floating Point Unit）０、ＦＰＵ１といった互いに異なる種類の処理を実行可能な複数の処理ユニットを有する。なお、図１２では、説明を分かりやすくするために、命令１がＡＬＵ及びＦＰＵ０に対する２つの命令とＦＰＵ１に対するＮＯＰの命令とを含み、命令２がＡＬＵ及びＦＰＵ０に対するＮＯＰの命令とＦＰＵ１に対する１つの命令とを含む例を示すが、命令１及び命令２の各々は、４以上の命令を含んでもよい。

【0090】

命令マージ部１５は、整数の加算命令（ｃ＜－ａ＋ｂ）と浮動小数点数の加算命令（ｆ＜－ｄ＋．ｅ）を含む命令１と、浮動小数点数の乗算命令（ｚ＜－ｘ＊．ｙ）を含む命令２とのリソースが競合するか否かを判定する。命令マージ部１５は、命令１と命令２とでリソースが競合しないため、命令１と命令２とをマージ可能であると判定し、命令群（命令１＋２）を生成する。

【0091】

この整数の加算命令は、整数レジスタａ、ｂに保持されたデータを加算し、整数レジスタｃに格納する。浮動小数点数の加算命令は、浮動小数点数レジスタｄ、ｅに保持されたデータを加算し、浮動小数点数レジスタｆに格納する。加算符号"＋．"は、浮動小数点数の加算を示す。浮動小数点数の乗算命令は、浮動小数点数レジスタｘ、ｙに保持されたデータを乗算し、浮動小数点数レジスタｚに格納する。乗算符号"＊．"は、浮動小数点数の乗算を示す。

【0092】

以上、この実施形態においても上述した実施形態と同様の効果を得ることができる。例えば、この実施形態では、ＶＬＩＷプロセッサが実行する少なくとも１つの命令を含む命令１及び命令２をマージし、命令群を生成する。これにより、命令１及び命令２をマージしない場合に比べて、ＶＬＩＷプロセッサの実行効率を向上することができ、計算時間を短縮することができる。

【0093】

上述の各実施形態では、第１の命令列中の第１の命令と第２の命令列中の第２の命令とを１つの命令に含める形でマージする（まとめる）処理を説明した。しかし、第１の命令列中の第１の命令と第２の命令列中の第２の命令とをまとめる処理は、スーパースカラ型のプロセッサに供給する命令列に対しても適用可能である。スーパースカラ型のプロセッサは、命令列中において前後する２つの命令であって並列に実行可能なものを自動で検出し、これらを並列に実行できる。このようなスーパースカラ型のプロセッサに対して、コンパイラ装置１０は、次のように、複数の命令をまとめる処理を実行して良い。コンパイラ装置１０は、第１の命令列中の第１の命令と第２の命令列中の第２の命令について、当該第１の命令及び第２の命令を１つの命令列中に前後に並べて配置することでプロセッサが自動で並列実行することが期待されるならば、当該第１の命令及び第２の命令を前後に並べて配置する形で当該第１の命令及び第２の命令がマージされた（まとめる）命令を生成する。この場合、前後に並べて配置された第１及び第２の命令が第３の命令に相当する。この処理により、よりプロセッサが高い並列度で実行可能な命令列を得られることが期待できる。

【0094】

前述した実施形態におけるコンパイラ装置１０又はホスト３００の一部又は全部は、ハードウェアで構成されていてもよいし、ＣＰＵ又はＧＰＵ等が実行するソフトウェア（プログラム）の情報処理で構成されてもよい。ソフトウェアの情報処理で構成される場合には、前述した実施形態における各装置の少なくとも一部の機能を実現するソフトウェアを、ＣＤ－ＲＯＭ（Compact Disc-Read Only Memory）、ＵＳＢ（Universal Serial Bus）メモリ等の非一時的な記憶媒体（非一時的なコンピュータ可読媒体）に収納し、コンピュータに読み込ませることにより、ソフトウェアの情報処理を実行してもよい。また、通信ネットワークを介して当該ソフトウェアがダウンロードされてもよい。さらに、ソフトウェアの処理の全部又は一部がＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等の回路に実装されることにより、当該ソフトウェアによる情報処理がハードウェアにより実行されてもよい。

【0095】

ソフトウェアを収納する記憶媒体は、光ディスク等の着脱可能なものでもよいし、ハードディスク、メモリ等の固定型の記憶媒体であってもよい。また、記憶媒体は、コンピュータ内部に備えられてもよいし（主記憶装置、補助記憶装置等）、コンピュータ外部に備えられてもよい。

【0096】

図１３は、図１に示したコンパイラ装置１０のハードウェア構成の一例を示すブロック図である。図３に示すホスト３００のハードウェア構成も、図１３に示すコンパイラ装置１０のハードウェア構成と同様である。コンパイラ装置１０は、一例として、プロセッサ２０と、主記憶装置３０（メモリ）と、補助記憶装置４０（メモリ）と、ネットワークインタフェース５０と、デバイスインタフェース６０と、を備え、これらがバス７０を介して接続されたコンピュータとして実現されてもよい。例えば、プロセッサ２０がコンパイラプログラムを実行することで、図６から図１２で説明した動作が実行される。

【0097】

コンパイラ装置１０は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、図１３では、１台のコンパイラ装置１０が示されているが、ソフトウェアが複数台のコンパイラ装置１０にインストールされて、当該複数台のコンパイラ装置１０のそれぞれがソフトウェアの同一の又は異なる一部の処理を実行してもよい。この場合、コンパイラ装置１０のそれぞれがネットワークインタフェース５０等を介して通信して処理を実行する分散コンピューティングの形態であってもよい。つまり、前述した実施形態におけるコンパイラ装置１０は、１又は複数の記憶装置に記憶された命令を１台又は複数台のコンパイラ装置１０が実行することで機能を実現するシステムとして構成されてもよい。また、端末から送信された情報をクラウド上に設けられた１台又は複数台のコンパイラ装置１０で処理し、この処理結果を端末に送信するような構成であってもよい。

【0098】

図６から図１１で説明した動作を実現する各種演算は、１又は複数のプロセッサ２０を用いて、又はネットワークを介した複数台のコンピュータを用いて、並列処理で実行されてもよい。また、各種演算が、プロセッサ２０内に複数ある演算コアに振り分けられて、並列処理で実行されてもよい。また、本開示の処理、手段等の一部又は全部は、ネットワークを介してコンパイラ装置１０と通信可能なクラウド上に設けられたプロセッサ及び記憶装置の少なくとも一方により実現されてもよい。このように、前述した実施形態におけるコンパイラ装置１０は、１台又は複数台のコンピュータによる並列コンピューティングの形態であってもよい。

【0099】

プロセッサ２０は、少なくともコンピュータの制御又は演算のいずれかを行う電子回路（処理回路、Processing circuit、Processing circuitry、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、ＡＳＩＣ等）であってもよい。また、プロセッサ２０は、汎用プロセッサ、特定の演算を実行するために設計された専用の処理回路又は汎用プロセッサと専用の処理回路との両方を含む半導体装置のいずれであってもよい。また、プロセッサ２０は、光回路を含むものであってもよいし、量子コンピューティングに基づく演算機能を含むものであってもよい。

【0100】

プロセッサ２０は、コンパイラ装置１０の内部構成の各装置等から入力されたデータやソフトウェアに基づいて演算処理を行ってもよく、演算結果や制御信号を各装置等に出力してもよい。プロセッサ２０は、コンパイラ装置１０のＯＳ（Operating System）や、アプリケーション等を実行することにより、コンパイラ装置１０を構成する各構成要素を制御してもよい。

【0101】

前述した実施形態におけるコンパイラ装置１０は、１又は複数のプロセッサ２０により実現されてもよい。ここで、プロセッサ２０は、１チップ上に配置された１又は複数の電子回路を指してもよいし、２つ以上のチップあるいは２つ以上のデバイス上に配置された１又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線又は無線により通信してもよい。

【0102】

主記憶装置３０は、プロセッサ２０が実行する命令及び各種データ等を記憶してもよく、主記憶装置３０に記憶された情報がプロセッサ２０により読み出されてもよい。補助記憶装置４０は、主記憶装置３０以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、半導体のメモリでもよい。半導体のメモリは、揮発性メモリ又は不揮発性メモリのいずれでもよい。前述した実施形態におけるコンパイラ装置１０において各種データ等を保存するための記憶装置は、主記憶装置３０又は補助記憶装置４０により実現されてもよい。

【0103】

前述した実施形態におけるコンパイラ装置１０が、少なくとも１つの記憶装置（メモリ）と、この少なくとも１つの記憶装置に接続（結合）される少なくとも１つのプロセッサ２０で構成される場合、記憶装置１つに対して、少なくとも１つのプロセッサ２０が接続されてもよい。また、プロセッサ２０の１つに対して、少なくとも１つの記憶装置が接続されてもよい。また、複数のプロセッサ２０のうち少なくとも１つのプロセッサ２０が、複数の記憶装置のうち少なくとも１つの記憶装置に接続される構成を含んでもよい。また、複数台のコンパイラ装置１０に含まれる記憶装置とプロセッサ２０によって、この構成が実現されてもよい。さらに、記憶装置がプロセッサ２０と一体になっている構成（例えば、Ｌ１キャッシュ、Ｌ２キャッシュを含むキャッシュメモリ）を含んでもよい。

【0104】

ネットワークインタフェース５０は、無線又は有線により、通信ネットワーク６００に接続するためのインタフェースである。ネットワークインタフェース５０は、既存の通信規格に適合したもの等、適切なインタフェースを用いればよい。ネットワークインタフェース５０により、通信ネットワーク６００を介して接続された外部装置７１０と情報のやり取りが行われてもよい。なお、通信ネットワーク６００は、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、ＰＡＮ（Personal Area Network）等の何れか又はそれらの組み合わせであってよく、コンパイラ装置１０と外部装置７１０との間で情報のやり取りが行われるものであればよい。ＷＡＮの一例としてインターネット等があり、ＬＡＮの一例としてＩＥＥＥ８０２．１１やイーサネット（登録商標）等があり、ＰＡＮの一例としてＢｌｕｅｔｏｏｔｈ（登録商標）やＮＦＣ（Near Field Communication）等がある。

【0105】

デバイスインタフェース６０は、外部装置７２０と直接接続するＵＳＢ等のインタフェースである。

【0106】

外部装置７１０は、コンパイラ装置１０と通信ネットワーク６００を介して接続されている装置である。外部装置７２０はコンパイラ装置１０と直接接続されいる装置である。

【0107】

外部装置７１０又は外部装置７２０は、一例として、入力装置であってもよい。入力装置は、例えば、カメラ、マイクロフォン、モーションキャプチャ、各種センサ、キーボード、マウス、タッチパネル等のデバイスであり、取得した情報をコンパイラ装置１０に与える。また、パーソナルコンピュータ、タブレット端末、スマートフォン等の入力部とメモリとプロセッサを備えるデバイスであってもよい。

【0108】

また、外部装置７１０又は外部装置７２０は、一例として、出力装置でもよい。出力装置は、例えば、ＬＣＤ（Liquid Crystal Display）、又は有機ＥＬ（Electro Luminescence）パネル等の表示装置であってもよいし、音声等を出力するスピーカ等であってもよい。また、パーソナルコンピュータ、タブレット端末、又はスマートフォン等の出力部とメモリとプロセッサを備えるデバイスであってもよい。

【0109】

また、外部装置７１０又は外部装置７２０は、記憶装置（メモリ）であってもよい。例えば、外部装置７１０はネットワークストレージ等であってもよく、外部装置７２０はＨＤＤ等のストレージであってもよい。

【0110】

また、外部装置７１０又は外部装置７２０は、前述した実施形態におけるコンパイラ装置１０の構成要素の一部の機能を有する装置でもよい。つまり、コンパイラ装置１０は、外部装置７１０又は外部装置７２０の処理結果の一部又は全部を送信してもよいし、外部装置７１０又は外部装置７２０から処理結果の一部又は全部を受信してもよい。

【0111】

本明細書（請求項を含む）において、「ａ、ｂ及びｃの少なくとも１つ（一方）」又は「ａ、ｂ又はｃの少なくとも１つ（一方）」の表現（同様な表現を含む）が用いられる場合は、ａ、ｂ、ｃ、ａ－ｂ、ａ－ｃ、ｂ－ｃ又はａ－ｂ－ｃのいずれかを含む。また、ａ－ａ、ａ－ｂ－ｂ、ａ－ａ－ｂ－ｂ－ｃ－ｃ等のように、いずれかの要素について複数のインスタンスを含んでもよい。さらに、ａ－ｂ－ｃ－ｄのようにｄを有する等、列挙された要素（ａ、ｂ及びｃ）以外の他の要素を加えることも含む。

【0112】

本明細書（請求項を含む）において、「データを入力として／を用いて／データに基づいて／に従って／に応じて」等の表現（同様な表現を含む）が用いられる場合は、特に断りがない場合、データそのものを用いる場合や、データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、データから抽出した特徴量、データの中間表現等）を用いる場合を含む。また、「データを入力として／を用いて／データに基づいて／に従って／に応じて」何らかの結果が得られる旨が記載されている場合（同様な表現を含む）、特に断りがない場合、当該データのみに基づいて当該結果が得られる場合や、当該データ以外の他のデータ、要因、条件及び／又は状態にも影響を受けて当該結果が得られる場合を含む。また、「データを出力する」旨が記載されている場合（同様な表現を含む）、特に断りがない場合、データそのものを出力として用いる場合や、データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、データから抽出した特徴量、各種データの中間表現等）を出力として用いる場合を含む。

【0113】

本明細書（請求項を含む）において、「接続される（connected）」及び「結合される（coupled）」との用語が用いられる場合は、直接的な接続／結合、間接的な接続／結合、電気的（electrically）な接続／結合、通信的（communicatively）な接続／結合、機能的（operatively）な接続／結合、物理的（physically）な接続／結合等のいずれをも含む非限定的な用語として意図される。当該用語は、当該用語が用いられた文脈に応じて適宜解釈されるべきであるが、意図的に或いは当然に排除されるのではない接続／結合形態は、当該用語に含まれるものして非限定的に解釈されるべきである。

【0114】

本明細書（請求項を含む）において、「ＡがＢするよう構成される（A configured to B）」との表現が用いられる場合は、要素Ａの物理的構造が、動作Ｂを実行可能な構成を有するとともに、要素Ａの恒常的（permanent）又は一時的（temporary）な設定（setting/configuration）が、動作Ｂを実際に実行するように設定（configured/set）されていることを含んでよい。例えば、要素Ａが汎用プロセッサである場合、当該プロセッサが動作Ｂを実行可能なハードウェア構成を有するとともに、恒常的（permanent）又は一時的（temporary）なプログラム（命令）の設定により、動作Ｂを実際に実行するように設定（configured）されていればよい。また、要素Ａが専用プロセッサ、専用演算回路等である場合、制御用命令及びデータが実際に付属しているか否かとは無関係に、当該プロセッサの回路的構造等が動作Ｂを実際に実行するように構築（implemented）されていればよい。

【0115】

本明細書（請求項を含む）において、含有又は所有を意味する用語（例えば、「含む（comprising/including）」、「有する（having）」等）が用いられる場合は、当該用語の目的語により示される対象物以外の物を含有又は所有する場合を含む、open-endedな用語として意図される。これらの含有又は所有を意味する用語の目的語が数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）である場合は、当該表現は特定の数に限定されないものとして解釈されるべきである。

【0116】

本明細書（請求項を含む）において、ある箇所において「１つ又は複数（one or more）」、「少なくとも１つ（at least one）」等の表現が用いられ、他の箇所において数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）が用いられているとしても、後者の表現が「１つ」を意味することを意図しない。一般に、数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）は、必ずしも特定の数に限定されないものとして解釈されるべきである。

【0117】

本明細書において、ある実施形態の有する特定の構成について特定の効果（advantage/result）が得られる旨が記載されている場合、別段の理由がない限り、当該構成を有する他の１つ又は複数の実施形態についても当該効果が得られると理解されるべきである。但し、当該効果の有無は、一般に種々の要因、条件及び／又は状態に依存し、当該構成により必ず当該効果が得られるものではないと理解されるべきである。当該効果は、種々の要因、条件及び／又は状態が満たされたときに実施形態に記載の当該構成により得られるものに過ぎず、当該構成又は類似の構成を規定したクレームに係る発明において、当該効果が必ずしも得られるものではない。

【0118】

本明細書（請求項を含む）において、複数のハードウェアが所定の処理を行う場合、各ハードウェアが協働して所定の処理を行ってもよいし、一部のハードウェアが所定の処理の全てを行ってもよい。また、一部のハードウェアが所定の処理の一部を行い、別のハードウェアが所定の処理の残りを行ってもよい。本明細書（請求項を含む）において、「１又は複数のハードウェアが第１の処理を行い、前記１又は複数のハードウェアが第２の処理を行う」等の表現（同様な表現を含む）が用いられている場合、第１の処理を行うハードウェアと第２の処理を行うハードウェアは同じものであってもよいし、異なるものであってもよい。つまり、第１の処理を行うハードウェア及び第２の処理を行うハードウェアが、前記１又は複数のハードウェアに含まれていればよい。なお、ハードウェアは、電子回路、電子回路を含む装置等を含んでよい。

【0119】

本明細書（請求項を含む）において、複数の記憶装置（メモリ）がデータの記憶を行う場合、複数の記憶装置のうち個々の記憶装置は、データの一部のみを記憶してもよいし、データの全体を記憶してもよい。また、複数の記憶装置のうち一部の記憶装置がデータを記憶する構成を含んでもよい。

【0120】

以上、本開示の実施形態について詳述したが、本開示は上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において、種々の追加、変更、置き換え、部分的削除等が可能である。例えば、前述した実施形態において、数値又は数式を説明に用いている場合、これらは例示的な目的で示されたものであり、本開示の範囲を限定するものではない。また、実施形態で示した各動作の順序も例示的なものであり、本開示の範囲を限定するものではない。

【図1】