IP Force 特許公報掲載プロジェクト 2022.1.31 β版

ホーム > 特許ランキング > 富士通株式会社

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-14123演算処理装置及び演算処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024014123

(43)【公開日】2024-02-01

(54)【発明の名称】演算処理装置及び演算処理方法

(51)【国際特許分類】

G06F 12/0862 20160101AFI20240125BHJP

【ＦＩ】

G06F12/0862

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022116734

(22)【出願日】2022-07-21

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】小田嶋哲哉

【テーマコード（参考）】

5B205

【Ｆターム（参考）】

5B205JJ13

5B205MM05

5B205NN92

5B205UU32

5B205UX05

5B205VV03

5B205VV04

(57)【要約】

【課題】演算の処理性能を向上させる演算処理装置及び演算処理方法を提供する。
【解決手段】複数のプリフェッチャは、キャッシュ毎に配置され且つデータアクセス予測アルゴリズムがそれぞれ異なる。精度監視部１０２は、キャッシュ毎にプリフェッチャそれぞれによるプリフェッチのミス率を監視し、ミス率を基にプリフェッチを行わせるプリフェッチャを決定する。帯域監視部１０３は、各キャッシュ間又はキャッシュとメインメモリと間の読み込み方向の各バスのいずれかもしくは全ての使用率を監視し、使用率が低い低使用率バスのコア側のキャッシュに対応するプリフェッチャに確度の高いプリフェッチ及び確度の低いプリフェッチを発行させ、使用率が高い高使用率バスのコア側のキャッシュに対応するプリフェッチャに確度の低いプリフェッチの発行を停止させて確度の高いプリフェッチを発行させる。
【選択図】図２

【特許請求の範囲】

【請求項1】

コアとメインメモリとの間に階層化されて配置された複数のキャッシュと、
前記キャッシュ毎に、複数配置され且つデータアクセス予測アルゴリズムがそれぞれ異なるプリフェッチャと、
前記キャッシュ毎に、前記プリフェッチャそれぞれによるプリフェッチのミス率を監視し、前記ミス率を基にプリフェッチを行わせるプリフェッチャを決定する精度監視部と、
各前記キャッシュ間又は前記キャッシュと前記メインメモリと間の読み込み方向の各バスのいずれかもしくは全ての使用率を監視し、前記使用率が低い低使用率バスの前記コア側の前記キャッシュに対応する前記プリフェッチャに確度の高いプリフェッチ及び確度の低いプリフェッチを発行させ、前記使用率が高い高使用率バスの前記コア側の前記キャッシュに対応する前記プリフェッチャに前記確度の低いプリフェッチの発行を停止させて前記確度の高いプリフェッチを発行させる帯域監視部と
を備えたことを特徴とする演算処理装置。

【請求項2】

前記精度監視部は、前記キャッシュ毎の各前記プリフェッチャの過去の所定期間のプリフェッチ結果を保持し、前記所定期間にアクセス対象となったデータの情報及び前記プリフェッチ結果を基に各前記プリフェッチャの前記ミス率を算出することを特徴とする請求項１に記載の演算処理装置。

【請求項3】

前記精度監視部は、前記ミス率が最も低い低ミス率プリフェッチャにプリフェッチを行わせると決定し、
前記帯域監視部は、前記使用率が低い低使用率バスの前記コア側の前記キャッシュに対応する前記低ミス率プリフェッチャに前記確度の高いプリフェッチ及び前記確度の低いプリフェッチを発行させ、前記使用率が高い高使用率バスの前記コア側の前記キャッシュに対応する前記低ミス率プリフェッチャに前記確度の低いプリフェッチの発行を停止して前記確度の高いプリフェッチを発行させる
ことを特徴とする請求項１に記載の演算処理装置。

【請求項4】

前記コアは、複数存在し且つそれぞれが複数のスレッドを動作させ、
前記ミス率を基に移動させるスレッド及び移動先のコアを決定して、前記移動させるスレッドを前記移動先のコアに移動させる統合監視部をさらに備えた
ことを特徴とする請求項１に記載の演算処理装置。

【請求項5】

前記統合監視部は、前記ミス率及び前記使用率を基に前記移動させるスレッド及び前記移動先のコアを決定することを特徴とする請求項４に記載の演算処理装置。

【請求項6】

前記コアから実行したプログラムに対するプログラムカウンタを取得して、前記精度監視部により監視される前記ミス率及び前記帯域監視部により監視される前記使用率と前記プログラムカウンタとを比較して、前記プログラムと前記ミス率及び前記使用率との関係情報を生成し、生成した前記関係情報を出力する情報管理部をさらに備えたことを特徴とする請求項１に記載の演算処理装置。

【請求項7】

コアとメインメモリとの間に階層化されて配置された複数のキャッシュ、及び、前記キャッシュ毎に、複数配置され且つデータアクセス予測アルゴリズムがそれぞれ異なるプリフェッチャを有する演算処理装置に、
前記キャッシュ毎に、前記プリフェッチャそれぞれによるプリフェッチのミス率を監視させ、
前記ミス率を基にプリフェッチを行わせるプリフェッチャを決定させ、
各前記キャッシュ間又は前記キャッシュと前記メインメモリと間の読み込み方向の各バスのいずれかもしくは全ての使用率を監視させ、
前記使用率が低い低使用率バスの前記コア側の前記キャッシュに対応する前記プリフェッチャに確度の高いプリフェッチ及び確度の低いプリフェッチを発行させ、
前記使用率が高い高使用率バスの前記コア側の前記キャッシュに対応する前記プリフェッチャに前記確度の低いプリフェッチの発行を停止させて前記確度の高いプリフェッチを発行させる
ことを特徴とする演算処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、演算処理装置及び演算処理方法に関する。

【背景技術】

【0002】

近年、プロセッサの動作周波数が飛躍的に向上している。これに対し、メインメモリとして一般的に使用されるＤＲＡＭ（Dynamic Random Access Memory）の動作速度の向上は低調である。そこで、プロセッサの性能を十分に活かすためにデータ転送を効率化するアーキテクチャの研究が盛んである。情報処理装置では、一般にメインメモリよりもデータアクセスが高速なキャッシュメモリをＣＰＵ（Central Processing Unit）に配置する。そして、このキャッシュメモリ上に、最近参照したデータを置くことによって、メインメモリ参照によるレイテンシの低減が図られる。

【0003】

さらに、キャッシュ管理の技術として、プログラムのメモリアクセスの規則性から、実行中の演算において将来用いられるデータを予めメインメモリからキャッシュにコピーするハードウェアプリフェッチと呼ばれる機能が存在する。プリフェッチを行なう主体はプリフェッチャ（Prefetcher）と呼ばれる。プリフェッチャが最適なプリフェッチを発行することで、コアがデータを利用するタイミングにメモリまで読み込みに行くコストを削減することができる。従来、１つのキャッシュに対して、１種類のプリフェッチャが配置される。

【0004】

一般的に、プリフェッチを発行する距離は可変である。プリフェッチを発行する距離とは、次のプリフェッチの対象とするデータまでのアドレス間隔であり、例えば、隣のラインのデータを対象とする場合や、２８０ｂｙｔｅ先のデータを対象とする場合など様々である。

【0005】

これに対して、プリフェッチにおけるデータアクセスパターンの推定のアルゴリズムは固定である。プリフェッチのアルゴリズムには、例えば、StreamプリフェッチングやStrideプリフェッチングといった様々なアルゴリズムが存在する。Streamプリフェッチングは、連続したアドレス領域へのアクセスに着目して、連続したアドレスのうち所定の距離進んだアドレスの値をプリフェッチするアルゴリズムである。また、Strideプリフェッチングは、周期的なアドレス間隔でのアクセスに着目して、アクセスしたアドレスに所定のストライドを加算してプリフェッチするアルゴリズムである。例えば、プリフェッチのデータアクセスパターンの推定のアルゴリズムとしてStrideプリフェッチングが与えられたプリフェッチャは、演算の種類に関わらずStrideプリフェッチングを用いてプリフェッチを行なう。

【0006】

なお、プリフェッチに関する技術として、１つ又は複数のプリフェッチングストラテジにしたがって、データの行をメモリからキャッシュにプリフェッチする技術が提案されている。また、２つ以上のロード命令が同一のキャッシュページからのデータを要求しそうであることを示すプリフェッチヒントに基づいて、プリフェッチを行なう技術が提案されている。また、アクセスパターンを基に複数の選択可能なプリフェッチ戦略の中から一つを選択して、選択したプリフェッチ戦略にしたがってプリフェッチを実行する技術が提案されている。他にも、バス帯域幅に基づいてメモリからキャッシュへのデータのプリフェッチの速度を制御する技術が提案されている。

【先行技術文献】

【特許文献】

【0007】

【特許文献1】特表２０１０－５３２９０４号公報

【特許文献2】特開２００８－１５９０５７号公報

【特許文献3】米国特許出願公開第２０１５／０１２１０３８号明細書

【特許文献4】米国特許出願公開第２０１９／００７９８７１号明細書

【発明の概要】

【発明が解決しようとする課題】

【0008】

しかしながら、プログラムによっては、様々な特性を有する演算をそれぞれ実行する場合が考えられる。特性の異なる演算では、それぞれの特性に応じた動作方針のプリフェッチを用いることで、プリフェッチの精度を向上させることができる。これに対して、従来はプリフェッチの動作方針は固定であるため、様々な特性を有する演算を実行するプログラムでは、プリフェッチの精度が十分得られず、プログラム実行の性能低下を招くおそれがある。また、プリフェッチを積極的に発行することで、データがキャッシュに存在する確率を向上させることができるが、多数のプリフェッチを発行した場合、キャッシュ間またはメインメモリとキャッシュとの間のデータバスの帯域を圧迫し、より優先度の高いデータ転送を阻害してしまう。これもプログラム実行の性能低下を招く要因となる。したがって、演算の処理性能を向上させることは困難である。

【0009】

また、１つ又は複数のプリフェッチングストラテジにしたがってプリフェッチを実行する技術では、使用するプリフェッチングストラテジは固定であり、演算の特性に合った動作方針でプリフェッチを行なうことは困難である。また、プリフェッチヒントに基づいてプリフェッチを行なう技術では、適当なタイミングでプリフェッチを発行することは可能となるが、使用するプリフェッチングストラテジは固定であり、演算の特性に合った動作方針でプリフェッチを行なうことは困難である。また、アクセスパターンを基に複数の選択可能なプリフェッチ戦略の中から一つを選択する技術では、プリフェッチの発行数を適切に調整することは困難である。また、バス帯域幅に基づいてプリフェッチの速度を制御する技術では、算の特性に合った動作方針でプリフェッチを行なうことは困難である。したがって、いずれの技術を用いても、演算の処理性能を向上させることは困難である。

【0010】

開示の技術は、上記に鑑みてなされたものであって、演算の処理性能を向上させる演算処理装置及び演算処理方法を提供することを目的とする。

【課題を解決するための手段】

【0011】

本願の開示する演算処理装置及び演算処理方法の一つの態様において、複数のキャッシュが、コアとメインメモリとの間に階層化されて配置される。複数のプリフェッチャは、前記キャッシュ毎に配置され且つデータアクセス予測アルゴリズムがそれぞれ異なる。精度監視部は、前記キャッシュ毎に前記プリフェッチャそれぞれによるプリフェッチのミス率を監視し、前記ミス率を基にプリフェッチを行わせるプリフェッチャを決定する。帯域監視部は、各前記キャッシュ間又は前記キャッシュと前記メインメモリと間の読み込み方向の各バスのいずれかもしくは全ての使用率を監視する。そして、帯域監視部は、前記使用率が低い低使用率バスの前記コア側の前記キャッシュに対応する前記プリフェッチャに確度の高いプリフェッチ及び確度の低いプリフェッチを発行させる。また、帯域監視部は、前記使用率が高い高使用率バスの前記コア側の前記キャッシュに対応する前記プリフェッチャに前記確度の低いプリフェッチの発行を停止させて前記確度の高いプリフェッチを発行させる。

【発明の効果】

【0012】

１つの側面では、本発明は、演算の処理性能を向上させることができる。

【図面の簡単な説明】

【0013】

【図1】図１は、情報処理装置の全体構成を示す概略図である。

【図2】図２は、実施例１に係るＣＰＵにおけるＬ１キャッシュ及びＬ２キャッシュに対する制御機構の詳細を示す図である。

【図3】図３は、精度監視部によるプリフェッチャ毎のミス率の算出結果の一例を示す図である。

【図4】図４は、プリフェッチャ選択の動作の一例を示す図である。

【図5】図５は、実施例１に係るＣＰＵにおけるプリフェッチを用いた演算処理のフローチャートである。

【図6】図６は、実施例２に係るＣＰＵにおけるＬ１キャッシュ及びＬ２キャッシュに対する制御機構の詳細を示す図である。

【図7】図７は、精度監視部及び帯域監視部で得られるデータの一例を示す図である。

【図8】図８は、実施例３に係るＣＰＵにおけるＬ１キャッシュ及びＬ２キャッシュに対する制御機構の詳細を示す図である。

【発明を実施するための形態】

【0014】

以下に、本願の開示する演算処理装置及び演算処理方法の実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する演算処理装置及び演算処理方法が限定されるものではない。

【実施例0015】

図１は、情報処理装置の全体構成を示す概略図である。図１に示すように、情報処理装置１は、コア１１、Ｌ１キャッシュ１２、Ｌ２キャッシュ１３、ＬＬＣ（Low Level Cache）１４、メインメモリ１５、補助記憶装置１６、表示装置１７及び入力装置１８を有する。コア１１は、Ｌ１キャッシュ１２、Ｌ２キャッシュ１３、ＬＬＣ１４、メインメモリ１５、補助記憶装置１６、表示装置１７及び入力装置１８のそれぞれとバスで接続される。コア１１、Ｌ１キャッシュ１２、Ｌ２キャッシュ１３及びＬＬＣ１４は、例えば、演算処理装置であるＣＰＵ１０に搭載される。

【0016】

コア１１は、補助記憶装置１６に格納された各種プログラムなどを読み出してメインメモリ１５に展開して、Ｌ１キャッシュ１２、Ｌ２キャッシュ１３、ＬＬＣ１４及びメインメモリ１５に格納されたデータを用いて演算を実行する。

【0017】

Ｌ１キャッシュ１２は、動作速度が速く且つＬ２キャッシュ１３及びＬＬＣ１４と比べて容量の小さいキャッシュメモリであり、コア１１によるデータアクセス時に最初に読み込まれるキャッシュメモリである。Ｌ１キャッシュ１２は、例えば、ＳＲＡＭ（Static Random Access Memory）である。

【0018】

Ｌ２キャッシュ１３は、動作速度が速く且つ一般的にＬ１キャッシュ１２よりも容量の大きいキャッシュメモリであり、コア１１によるデータアクセス時に、Ｌ１キャッシュ１２でキャッシュミスが発生した場合に次に読み込まれるキャッシュメモリである。Ｌ２キャッシュ１３も、例えば、ＳＲＡＭである。

【0019】

ＬＬＣ１４は、動作速度が速く且つ一般的にＬ２キャッシュ１３よりも容量の大きいキャッシュメモリであり、コア１１によるデータアクセス時に、Ｌ２キャッシュ１３でキャッシュミスが発生した場合に次に読み込まれるキャッシュメモリである。ＬＬＣ１４は、Ｌ３キャッシュと呼ばれる場合もある。ＬＬＣ１４も、例えば、ＳＲＡＭである。

【0020】

ここで、本実施例では、情報処理装置１が、Ｌ１キャッシュ１２、Ｌ２キャッシュ１３及びＬＬＣ１４という３つのキャッシュメモリを有する場合で説明するが、キャッシュメモリの階層の数はこれに限らない、例えば、情報処理装置１は、Ｌ２キャッシュ１３やＬＬＣ１４を有さなくても良いし、４つ以上の階層を有してもよい。

【0021】

メインメモリ１５は、Ｌ１キャッシュ１２、Ｌ２キャッシュ１３及びＬＬＣ１４に比べて動作速度が遅く且つ大容量の主記憶装置である。メインメモリ１５は、コア１１が演算に用いるデータが格納される。メインメモリ１５は、Ｌ１キャッシュ１２、Ｌ２キャッシュ１３及びＬＬＣ１４のいずれにもアクセス対象のデータが存在しない場合にコア１１からのアクセスを受ける。メインメモリ１５は、例えば、ＤＲＡＭ（Dynamic Random Access Memory）である。

【0022】

補助記憶装置１６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）などである。補助記憶装置１６には、ＯＳ（Operating System）や演算を行なうためのプ各種ログラムが格納される。

【0023】

表示装置１７は、例えば、モニタやディスプレイなどである。表示装置１７は、コア１１による演算結果を表示することで利用者へ情報の提示を行なう。入力装置１８は、例えば、キーボードやマウスなどである。利用者は、表示装置１７に表示された画面を参照しつつ、入力装置１８を用いて情報処理装置１へのデータや命令の入力を行なう。表示装置１７及び入力装置１８は、１つのハードウェアとして構成されてもよい。

【0024】

図２は、実施例１に係るＣＰＵにおけるＬ１キャッシュ及びＬ２キャッシュに対する制御機構の詳細を示す図である。図２では、Ｌ１キャッシュ１２、Ｌ２キャッシュ１３及びＬＬＣ１４の階層構造を分かり易くするため、それぞれが多段で接続されるように示した。実際の接続は、図１に示したようにコア１１から延びるバスにそれぞれが接続される。

【0025】

図２に示すように、ＣＰＵ１０は、Ｌ１キャッシュ１２及びＬ２キャッシュ１３毎に、それぞれのプリフェッチ用の制御機構として、セレクタ１０１、精度監視部１０２及びプリフェッチャ１１１～１１３を有する。加えて、ＣＰＵ１０は、Ｌ１キャッシュ１２及びＬ２キャッシュ１３に対するプリフェッチ用の制御をまとめて行う帯域監視部１０３を有する。ここで、本実施例では、一例として、Ｌ１キャッシュ１２及びＬ２キャッシュ１３に対してプリフェッチ用の制御機構を配置したが、ＬＬＣ１４などの他のキャッシュについても同様の制御機構を配置してもよい。

【0026】

プリフェッチャ１１１～１１３は、それぞれ異なるデータアクセス予測アルゴリズムによりプリフェッチを行なうハードウェアプリフェッチャである。プリフェッチャ１１１～１１３のそれぞれを区別しない場合、プリフェッチャ１１０と呼ぶ。プリフェッチャ１１０は、プリフェッチしたデータを格納するプリフェッチバッファを有する。ここで、図２では、３つのプリフェッチャ１１０を記載したが、異なるデータアクセス予測アルゴリズムを有するプリフェッチャ１１０の数は２つ以上であればいくつであってもよい。

【0027】

プリフェッチにおけるデータアクセスパターンの推定を行うためのデータアクセス予測アルゴリズムには、例えば、Streamプリフェッチング、Strideプリフェッチング及びTemporalプリフェッチングなどが存在する。例えば、プリフェッチャ１１１はStreamプリフェッチングを用いてプリフェッチを行ない、プリフェッチャ１１２はStrideプリフェッチングを用いてプリフェッチを行ない、プリフェッチャ１１３はTemporalプリフェッチングを用いてプリフェッチを行なう。以下に代表的なデータアクセス予測アルゴリズムについて説明する。

【0028】

Streamプリフェッチングを用いた場合の、プリフェッチャ１１０の動作について説明する。プリフェッチャ１１０は、あるアドレスブロックＡでキャッシュミスが検出された場合、アドレスブロックＡに続くアドレスブロックＡ＋１をプリフェッチし、自己が有するプリフェッチバッファにデータを保存する。ここで、ハードウェアのパラメータによっては、プリフェッチャ１１０は、ミスの検出時にアドレスブロックＡに続く４つのアドレスブロックＡ＋１～Ａ＋４のデータを、同時にプリフェッチバッファに保存してもよい。その後、プリフェッチバッファにあるデータへのアクセスが発生した場合、プリフェッチャ１１０は、例えばＬ１キャッシュ１２にデータを移動して、以降更に先のアドレスブロックＡ＋２、Ａ＋３、・・・を順番にプリフェッチしていきつつデータをプリフェッチバッファに保存していく。

【0029】

次に、Strideプリフェッチングを用いた場合の、プリフェッチャ１１０の動作について説明する。連続したメモリアクセスがδアドレスブロック先である場合、アドレスブロックＡでキャッシュミスを検出した場合に、プリフェッチャ１１０は、アドレスブロックＡ＋１のStreamプリフェッチングでは対応ができない。そこで、プリフェッチャ１１０は、アクセスが等間隔であることを検出した場合、アドレスブロックＡでキャッシュミスを検出した際にアドレスブロックＡ＋δをプリフェッチしてプリフェッチバッファにデータを保存する。この場合も、パラメータによっては、プリフェッチャ１１０は、複数のアドレスブロックを同時にプリフェッチの対象としてもよい。以降のデータアクセスでプリフェッチバッファにデータが存在している場合、プリフェッチャ１１０は、例えばＬ１キャッシュ１２にデータを移し、さらにアドレスブロックＡ＋δ＊２をプリフェッチしてプリフェッチバッファにデータを保存する。ここで、プリフェッチャ１１０は、δ＝１とすることで、Strideプリフェッチングを用いて、Streamプリフェッチングと同等の動作をすることも可能である。

【0030】

次に、Temporalプリフェッチングを用いた場合の、プリフェッチャ１１０の動作について説明する。アクセスパターン履歴中で、一見ランダムに見えるアクセスパターン中に何度も繰り返されるデータアクセスパターンを抽出する事ができた場合、プリフェッチャ１１０は、その抽出したパターンでプリフェッチを行う。例えば、「N,A,B,C,E,G,H,A,B,C,I,J,K,A,B,C,L,M,N,O,A,B,C,...」といったアクセスパターンの場合、プリフェッチャ１１０は、A,B,Cが繰り返されると判定して、アドレスブロックＡ、Ｂ、Ｃの順にプリフェッチを行なう。

【0031】

さらに、Ｌ１キャッシュ１２を例に、プリフェッチャ１１０の動作を説明する。プリフェッチャ１１１～１１３の中から、セレクタ１０１によって実際にプリフェッチを行なうプリフェッチャ１１０が選択される。

【0032】

また、プリフェッチャ１１０には、積極的プリフェッチまたは保守的プリフェッチのいずれの動作モードでプリフェッチを行なうかの指示の入力を帯域監視部１０３から受ける。そして、各プリフェッチャ１１０は、帯域監視部１０３により指定された動作モードでプリフェッチを行なう。

【0033】

積極的プリフェッチとは、確度の高いプリフェッチに加えて確度の低いプリフェッチも発行する動作モードである。また、保守的プリフェッチとは、確度の低いプリフェッチは発行せず確度の高いプリフェッチを発行する動作モードである。

【0034】

Streamプリフェッチングを用いる場合であれば、例えば、アドレスブロックＡについてキャッシュミスが発生した場合、アドレスブロックＡ＋１のデータがヒットする角度が最も高く、その後アドレスブロックＡ＋２、Ａ＋３、・・・と続く。そこで、プリフェッチャ１１０は、保守的プリフェッチの場合、アドレスブロックＡに対してキャッシュミスが発生すると、アドレスブロックＡ＋１をプリフェッチの対象とする。これに対して、積極的プリフェッチの場合、プリフェッチャ１１０は、アドレスブロックＡ＋１～Ａ＋４をプリフェッチ対象とする。

【0035】

各プリフェッチャ１１０は、セレクタ１０１を介して、コア１１によるデータアクセスの情報及びＬ１キャッシュ１２におけるキャッシュミスの情報を取得する。キャッシュミスを検出すると、それぞれのプリフェッチャ１１０は、自己が使用するデータアクセス予測アルゴリズムにしたがってプリフェッチの対象とするアドレスブロックを算出する。すなわち、プリフェッチャ１１１～１１３は、それぞれ異なるデータアクセス予測アルゴリズムを用いてそれぞれがプリフェッチの対象とするアドレスブロックを算出する。

【0036】

その後、セレクタ１０１により選択されたプリフェッチャ１１０及び選択されていないプリフェッチャ１１０のいずれも含む全てのプリフェッチャ１１０は、算出したアドレスブロックの情報を精度監視部１０２へ出力する。

【0037】

また、セレクタ１０１により選択されたプリフェッチャ１１０は、算出したアドレスブロックからデータを取得して自己が有するプリフェッチバッファにデータを格納する。そして、セレクタ１０１により選択されたプリフェッチャ１１０は、データアクセスの対象となったデータが自己のプリフェッチバッファに格納されている場合、セレクタ１０１を介して自己が保持するデータをＬ１キャッシュ１２へ移す。その後、使用するデータアクセス予測アルゴリズムにしたがって、順次データをプリフェッチする。

【0038】

精度監視部１０２は、各プリフェッチャ１１０のそれぞれのプリフェッチミス率を算出するための各種パラメータの情報をレコードとして保持する。例えば、精度監視部１０２は、パラメータとして、プリフェッチャ１１０毎のプリフェッチしたアドレス、キャッシュ読み込みアクセス数及びプリフェッチャ１１０毎のプリフェッチヒット数を保持する。また、精度監視部１０２は、ＳＭＴ（Simultaneous Multi-Threading）機能を有する場合、スレッド毎に上述したパラメータを保持する。

【0039】

精度監視部１０２は、Ｌ１キャッシュ１２に対してデータの読み込みのアクセスが発生すると、キャッシュ読み込み発生の通知をＬ１キャッシュ１２から受ける。そして、精度監視部１０２は、キャッシュ読み込みアクセス数を１つインクリメントする。

【0040】

また、精度監視部１０２は、プリフェッチャ１１０毎のプリフェッチの対象とするアドレスブロックの算出結果をそれぞれのプリフェッチャ１１０から取得する。そして、精度監視部１０２は、プリフェッチャ１１０毎にプリフェッチされたアドレスブロックを記憶する。ここで、精度監視部１０２が記憶するアドレスブロックの個数は精度監視部１０２が有する記憶領域の大きさに依存する。また、精度監視部１０２は、プリフェッチャ１１０のプリフェッチ数をカウントして記憶する。

【0041】

そして、Ｌ１キャッシュ１２にキャッシュミスが発生すると、精度監視部１０２は、アクセス対象のアドレスブロックを含むキャッシュミスの情報がＬ１キャッシュ１２から入力される。そして、精度監視部１０２は、キャッシュミスが発生したアドレスブロックと同じアドレスブロックがそれぞれのプリフェッチャ１１０の過去にプリフェッチされたアドレスブロックのいずれかと一致するか否かを判定する。精度監視部１０２は、アドレスブロックが一致したプリフェッチャ１１０については、プリフェッチヒット数を１つインクリメントする。

【0042】

また、精度監視部１０２は、プリフェッチャ１１０の選択のタイミングの情報を予め有する。例えば、選択のタイミングは、定期的であっても良いし、キャッシュミスの発生回数が所定数に達した場合であってもよい。プリフェッチャ１１０の選択のタイミングに達すると、精度監視部１０２は、プリフェッチャ１１０毎にキャッシュ読み込みアクセス数からプリフェッチヒット数を減算してその時点でのプリフェッチミスの数を算出する。そして、精度監視部１０２は、プリフェッチャ１１０毎のプリフェッチミス数をプリフェッチ数で除算して百分率に直して、プリフェッチャ１１０毎のミス率を算出する。その後、精度監視部１０２は、ミス率が最も低いプリフェッチャ１１０をセレクタ１１０に通知する。

【0043】

すなわち、精度監視部１０２は、対応するキャッシュであるＬ１キャッシュ１２におけるプリフェッチャ１１０それぞれによるプリフェッチのミス率を監視し、ミス率を基にプリフェッチを行わせるプリフェッチャ１１０を決定する。また、精度監視部１０２は、Ｌ１キャッシュ１２の各プリフェッチャ１１０の過去の所定期間のプリフェッチ結果を保持し、所定期間にアクセス対象となったデータの情報及びプリフェッチ結果を基に各プリフェッチャ１１０の前記ミス率を算出する。そして、精度監視部１０２は、ミス率が最も低いプリフェッチャ１１０である低ミス率プリフェッチャにプリフェッチを行わせると決定する。

【0044】

図３は、精度監視部によるプリフェッチャ毎のミス率の算出結果の一例を示す図である。例えば、図３のような算出結果１３０を得た場合、精度監視部１０２は、プリフェッチャ１１１のミス率が最も高く、プリフェッチャ１１３のミス率が最も低いと判定する。その後、精度監視部１０２は、ミス率が最も低いプリフェッチャ１１０の情報をセレクタ１０１に通知する。

【0045】

セレクタ１０１は、実際にプリフェッチを実行させるプリフェッチャ１１０の初期値を予め有する。例えば、セレクタ１０１は、プリフェッチャ１１１を初期値として有する。セレクタ１０１は、情報処理装置１の起動直後など精度監視部１０２からミス率が最も低いプリフェッチャ１１０の情報が未通知の状態では、初期値で示されるプリフェッチャ１１０を、実際にプリフェッチを実行させるプリフェッチャ１１０として選択する。これにより、セレクタ１０１は、初期値で示されるプリフェッチャ１１０にＬ１キャッシュ１２に関するプリフェッチを実行させる。

【0046】

プリフェッチャ１１０の選択のタイミングに達すると、セレクタ１０１は、精度監視部１０２からミス率が最も低いプリフェッチャ１１０の情報の通知を受ける。そして、セレクタ１０１は、実際にプリフェッチを実行させるプリフェッチャ１１０として通知されたプリフェッチャ１１０を選択する。セレクタ１０１は、その時点でミス率が最も低いプリフェッチャ１１０にＬ１キャッシュ１２に関するプリフェッチを実行させる。

【0047】

帯域監視部１０３は、プリフェッチの制御対象となるＬ１キャッシュ１２及びＬ２キャッシュ１３の読み込み方向すなわち上流のバスの使用率を監視する。すなわち、Ｌ１キャッシュ１２については、帯域監視部１０３は、Ｌ１キャッシュ１２とＬ２キャッシュ１３との間のバス１２１の使用率を監視する。また、Ｌ２キャッシュ１３については、帯域監視部１０３は、Ｌ２キャッシュ１３とＬＬＣ１４との間のバス１２２の使用率を取得する。ここで、本実施例では、ＬＬＣ１４のプリフェッチの動作モードを調整は行わないため、帯域監視部１０３は、ＬＬＣ１４とメインメモリ１５の間のバスの監視を行っていないが、そのバスの監視を行ってＬＬＣ１４のプリフェッチの動作モードを調整してもよい。

【0048】

例えば、帯域監視部１０３は、バスにおけるデータ転送量をバスの使用率として監視する。域監視部１０３はいずれのバスについても同様の処理を行なうので、以下では、Ｌ１キャッシュ１２とＬ２キャッシュ１３との間のバス１２１の監視について説明する。

【0049】

帯域監視部１０３は、バス１２１の使用率が高いか低いかを判定するためのバス使用率閾値を予め有する。例えば、帯域監視部１０３は、バス使用率閾値をバス１２１の最大転送量の５０％とすることができる。

【0050】

そして、帯域監視部１０３は、バス１２１の使用率とバス使用率閾値とを比較する。帯域監視部１０３は、バス１２１の使用率がバス使用率閾値以上の場合、バス１２１の使用率が高いと判定し、バス１２１の使用率がバス使用率閾値未満の場合、バス１２１の使用率が低いと判定する。

【0051】

Ｌ１キャッシュ１２とＬ２キャッシュ１３との間のバス１２１の使用率が高いと判定した場合、帯域監視部１０３は、そのバスによるデータの受けてであるＬ１キャッシュ１２のプリフェッチを保守的プリフェッチで行うと決定する。そして、帯域監視部１０３は、Ｌ１キャッシュ１２のプリフェッチャ１１０に動作モードとして保守的プリフェッチを指示する。

【0052】

逆に、Ｌ１キャッシュ１２とＬ２キャッシュ１３との間のバス１２１の使用率が低いと判定した場合、帯域監視部１０３は、Ｌ１キャッシュ１２のプリフェッチを積極的プリフェッチで行うと決定する。そして、帯域監視部１０３は、Ｌ１キャッシュ１２のプリフェッチャ１１０に動作モードとして積極的プリフェッチを指示する。

【0053】

すなわち、帯域監視部１０３は、各キャッシュ間及びＬＬＣ１４とメインメモリ１５と間の読み込み方向の各バスの使用率を監視する。そして、帯域監視部１０３は、使用率が低い低使用率バスのコア１１側のキャッシュに対応するプリフェッチャ１１０に確度の高いプリフェッチ及び確度の低いプリフェッチを発行させる。また、帯域監視部１０３は、使用率が高い高使用率バスのコア１１側のキャッシュに対応するプリフェッチャ１１０に確度の低いプリフェッチの発行を停止させて確度の高いプリフェッチを発行させる。より詳しくは、帯域監視部１０３は、ミス率が最も低いプリフェッチャ１１０の動作モードを、確度の高いプリフェッチ及び確度の低いプリフェッチの発行又は確度の低いプリフェッチの発行を停止させて確度の高いプリフェッチの発行のいずれにするかを決定する。

【0054】

帯域監視部１０３は、バス１２１及び１２２のそれぞれについて動作モードを決定する。例えば、バス１２１及びバス１２２の使用率がいずれも高い場合、帯域監視部１０３は、Ｌ１キャッシュ１２及びＬ２キャッシュ１３のいずれにも保守的プリフェッチを用いる。また、バス１２１の使用率が高く及びバス１２２の使用率が低い場合、帯域監視部１０３は、Ｌ１キャッシュ１２には保守的プリフェッチを用い、Ｌ２キャッシュ１３には積極的プリフェッチを用いる。また、バス１２１及びバス１２２の使用率がいずれも低い場合、帯域監視部１０３は、Ｌ１キャッシュ１２及びＬ２キャッシュ１３のいずれにも積極的プリフェッチを用いる。

【0055】

ここで、本実施例では、同じデータアクセス予測アルゴリズムの中で積極的プリフェッチと保守的プリフェッチとのそれぞれの動作モードの切り替えを行った。ただし、プリフェッチの数を切り替えることができれば良く、例えば、異なるデータアクセス予測アルゴリズムを用いて積極的プリフェッチと保守的プリフェッチの切り替えを行なってもよい。例えば、保守的プリフェッチではStreamプリフェッチングを用いるプリフェッチャ１１０を動作させ、積極的プリフェッチではStreamプリフェッチングを用いるプリフェッチャ１１０とStrideプリフェッチングを用いるプリフェッチャ１１０の双方を動作させる。ただし、２つのプリフェッチャ１１０が動作するため、双方が同じアドレスブロックのデータをプリフェッチすると、Ｌ１キャッシュ１２は、使用するデータの特定が困難となる。そこで、この場合は、２つのプリフェッチャ１１０が異なるアドレスブロックのデータをプリフェッチすることが前提となる。

【0056】

図４は、プリフェッチャ選択の動作の一例を示す図である。次に、図４を参照して、プリフェッチャ１１０の選択の動作の一例を説明する。

【0057】

状態２０１は、起動時の状態を表す。ここでは、セレクタ１０１は、初期値としてプリフェッチャ１１１を有する。そこで、セレクタ１０１は、プリフェッチャ１１１を選択する。これにより、プリフェッチャ１１１が、Ｌ１キャッシュ１２に対するプリフェッチを行なう。

【0058】

その後、プリフェッチャ１１０の選択のタイミングが到来すると、精度監視部１０２は、各プリフェッチャ１１１～１１３のミス率の算出を行ない、状態２０２に示す算出結果１３１を得る。この場合、プリフェッチャ１１１のミス率が最も低いので、精度監視部１０２は、プリフェッチャ１１１の情報をセレクタ１０１に通知する。セレクタ１０１は、状態２０２に示すように、そのままプリフェッチャ１１１の選択状態を維持する。この場合、プリフェッチャ１１１が、そのままＬ１キャッシュ１２に対するプリフェッチを行なう。

【0059】

その後、プリフェッチャ１１０の選択のタイミングが再度到来すると、精度監視部１０２は、各プリフェッチャ１１１～１１３のミス率の算出を行ない、状態２０３に示す算出結果１３２を得る。この場合、プリフェッチャ１１３のミス率が最も低いので、精度監視部１０２は、プリフェッチャ１１３の情報をセレクタ１０１に通知する。セレクタ１０１は、状態２０３に示すように、プリフェッチャ１１３を選択する。この場合、プリフェッチャ１１３が、Ｌ１キャッシュ１２に対するプリフェッチを行なう。

【0060】

図５は、実施例１に係るＣＰＵにおけるプリフェッチを用いた演算処理のフローチャートである。次に、図５を参照して、実施例１に係るＣＰＵ１０におけるプリフェッチを用いた演算処理を説明する。ここでは、Ｌ１キャッシュ１２におけるプリフェッチ処理を例に説明する。

【0061】

コア１１は、演算処理を実行する（ステップＳ１）。

【0062】

コア１１は、演算が終了したか否かを判定する（ステップＳ２）。演算が終了した場合（ステップＳ２：肯定）、プリフェッチャ１１０は、プリフェッチ処理を終了する。

【0063】

これに対して、演算が終了していない場合（ステップＳ２：否定）、帯域監視部１０３は、Ｌ１キャッシュ１２とＬ２キャッシュ１３との間のバス１２１の使用率を監視する（ステップＳ３）。

【0064】

そして、帯域監視部１０３は、バス１２１の使用率がバス使用率閾値以上か否かを判定する（ステップＳ４）。

【0065】

バス１２１の使用率がバス使用率閾値以上の場合（ステップＳ４：肯定）、帯域監視部１０３は、保守的プリフェッチをプリフェッチャ１１０に指示する（ステップＳ５）。

【0066】

一方、バス１２１の使用率がバス使用率閾値未満の場合（ステップＳ４：否定）、帯域監視部１０３は、積極的プリフェッチをプリフェッチャ１１０に指示する（ステップＳ６）。

【0067】

各プリフェッチャ１１０は、キャッシュミスが発生するとプリフェッチを実行する（ステップＳ７）。

【0068】

各プリフェッチャ１１０は、プリフェッチしたデータのアドレスを精度監視部１０２に通知する。精度監視部１０２は、各プリフェッチャ１１０から取得したプリフェッチしたデータのアドレスをプリフェッチャ１１０毎にレコードに保存する（ステップＳ８）。

【0069】

さらに、精度監視部１０２は、キャッシュミスが発生時にデータアクセスが行われたアドレスの情報をＬ１キャッシュ１２から取得する。そして、精度監視部１０２は、データアクセスが行われたアドレスと一致するアドレスを過去にプリフェッチ対象としたプリフェッチャ１１０が存在すれば、そのプリフェッチャ１１０のプリフェッチヒット数を１つインクリメントする。これにより、精度監視部１０２は、各プリフェッチャ１１０のプリフェッチヒット数をカウントする（ステップＳ９）。また、精度監視部１０２は、Ｌ１キャッシュ１２にけるキャッシュ読み込みアクセス数を求める。

【0070】

次に、精度監視部１０２は、プリフェッチャ１１０の選択のタイミングが到来したか否かを判定する（ステップＳ１０）。プリフェッチャ１１０の選択のタイミングが到来していない場合（ステップＳ１０：否定）、プリフェッチを用いた演算処理は、ステップＳ１へ戻る。

【0071】

これに対して、プリフェッチャ１１０の選択のタイミングが到来した場合（ステップＳ１０：肯定）、精度監視部１０２は、プリフェッチャ１１０毎のミス率を算出する（ステップＳ１１）。詳しくは、精度監視部１０２は、キャッシュ読み込みアクセス数及びプリフェッチャ１１０毎のプリフェッチヒット数を用いて、プリフェッチャ１１０毎のミス率を算出する。

【0072】

その後、精度監視部１０２は、ミス率が最も低いプリフェッチャ１１０の情報をセレクタ１０１に通知する。セレクタ１０１は、精度監視部１０２から通知されたプリフェッチャ１１０を、実際にプリフェッチを行わせるプリフェッチャ１１０として選択する（ステップＳ１２）。その後、プリフェッチを用いた演算処理は、ステップＳ１へ戻る。

【0073】

ここで、以上では図２に示したコア１１が１つの場合を例に説明したが、ＣＰＵ１０は、他の構成を取ることも可能である。例えば、ＣＰＵ１０は、複数のコア１１を有してもよい。さらに、ＣＰＵ１０は、コア１１毎にＬ１キャッシュ１２及びＬ２キャッシュ１３をそれぞれ有する。そして、Ｌ１キャッシュ１２及びＬ２キャッシュ１３毎に、セレクタ１０１、精度監視部１０２及びプリフェッチャ１１０が配置される。さらに、それぞれのコア１１から延びるバス毎に、帯域監視部１０３が配置されてもよい。ただし、１つの帯域監視部１０３が、それぞれのコア１１から延びるバスをまとめて監視してもよい。

【0074】

以上に説明したように、本実施例に係るＣＰＵは、各プリフェッチャのプリフェッチのミス率を求め、ミス率が最も低いプリフェッチャにプリフェッチを行わせる。これにより、コアが行なう演算のデータアクセスの特徴に応じたデータアクセス予測アルゴリズムを用いてプリフェッチを行なうことができ、プリフェッチの精度を向上させることができる。したがって、ＣＰＵによる演算の処理性能を向上させることが可能となる。

【0075】

また、ＣＰＵは、各キャッシュの上流のバス、すなわち読み込み方向のバスの使用率を算出する。そして、ＣＰＵは、バスの使用率が低い場合は対応するキャッシュのプリフェッチを積極的プリフェッチで行わせ、バスの使用率が高い場合は対応するキャッシュのプリフェッチを保守的プリフェッチで行わせる。これにより、バスに余裕がある場合には多くのデータをプリフェッチすることができ、よりプリフェッチの精度を向上させることができる。したがって、ＣＰＵによる演算の処理性能をさらに向上させることが可能となる。

【実施例0076】

図６は、実施例２に係るＣＰＵにおけるＬ１キャッシュ及びＬ２キャッシュに対する制御機構の詳細を示す図である。本実施例に係るＣＰＵ１０は、複数のスレッドが同一のコア１１で実行されているときに、異なるパターンでデータアクセスを行なうスレッドによるプリフェッチの精度の低下が検出する。そして、ＣＰＵ１０は、プリフェッチの精度が低下したスレッドを別のＯＳ１０５に向けてマイグレーションする指示を出す。以下に、本実施例に係るＣＰＵ１０によるスレッドのマイグレーションの動作の詳細を説明する。本実施例に係るＣＰＵ１０は、図６に示すように、統合監視部１０４を有する。以下の説明では、実施例１と同様の各部の動作については説明を省略する。

【0077】

本実施例に係るＣＰＵ１０は、複数のコア１１を有する。さらに、各コア１１は、ＳＭＴの機能を有しており、複数のスレッドを実行する。さらに、各コア１１から延びるバスには、Ｌ１キャッシュ１２及びＬ２キャッシュ１３が接続され、それぞれにはセレクタ１０１、プリフェッチャ１１１～１１３及び精度監視部１０２が設けられる。また、コア１１毎に、帯域監視部１０３が設けられる。また、本実施例に係るＬＬＣ１４は、複数のコア１１により共有される。

【0078】

精度監視部１０２は、プリフェッチヒット数及びキャッシュ読み込みアクセス数を用いて、コア１１におけるスレッド毎に各プリフェッチャ１１０のプリフェッチヒット率を算出する。精度監視部１０２は、プリフェッチヒット率をキャッシュ読み込みアクセス数で除算することで、プリフェッチヒット率を算出できる。例えば、Ｌ１キャッシュ１２に対応する精度監視部１０２は、Ｌ１キャッシュ１２におけるプリフェッチヒット率を算出する。また、Ｌ２キャッシュ１３に対応する精度監視部１０２は、Ｌ２キャッシュ１３におけるプリフェッチヒット率を算出する。

【0079】

そして、各精度監視部１０２は、プリフェッチヒット率が最小のスレッド、すなわちミス率が最も高いスレッドを選出する。次に、各精度監視部１０２は、各プリフェッチャ１１０のミス率から選出したスレッドの平均ミス率を算出する。そして、各精度監視部１０２は、選出したスレッドの平均ミス率を統合監視部１０４へ出力する。

【0080】

ここで、精度監視部１０２は、データをパケット形式でキャッシュおよびデータパスを経由して統合監視部１０４へ一定時間間隔で送信する。他にも、精度監視部１０２は、統合監視部１０４との間に専用のパスが配線された場合であれば、その専用のパスを用いてデータを送信しても良い。

【0081】

帯域監視部１０３は、Ｌ１キャッシュ１２とＬ２キャッシュ１３との間のバス１２１及びＬ２キャッシュ１３とＬＬＣ１４との間のバス１２２のスレッド毎の帯域占有率を算出する。また、帯域監視部１０３は、ＬＬＣ１４とメインメモリ１５との間のバス１２３におけるスレッド毎のデータ量の情報の入力を統合監視部１０４から受ける。そして、帯域監視部１０３は、ＬＬＣ１４とメインメモリ１５との間のバス１２３のスレッド毎の帯域占有率を算出する。その後、帯域監視部１０３は、各バス１２１～１２３の帯域占有率を統合監視部１０４へ出力する。

【0082】

統合監視部１０４は、ＬＬＣ１４の階層に存在する。具体的には、統合監視部１０４は、ＬＬＣ１４とメインメモリ１５との間のバス１２３に接続される。また、統合監視部１０４は、ＬＬＣ１４に接続される。さらに、統合監視部１０４は、コア１１毎に設けられた帯域監視部１０３のそれぞれに接続される。

【0083】

統合監視部１０４は、各精度監視部１０２において選出されたスレッドの平均ミス率の入力をそれぞれの精度監視部１０２から定期的に受ける。また、統合監視部１０４は、ＬＬＣ１４とメインメモリ１５との間のバス１２３におけるスレッド毎のデータ量の情報を取得して帯域監視部１０３へ出力する。そして、統合監視部１０４は、各スレッドの各バス１２１～１２３の帯域占有率の入力を各帯域監視部１０３から受ける。

【0084】

統合監視部１０４は、予め平均ミス率及び帯域占有率の移動判定閾値を有する。統合監視部１０４は、以下のようにＬ１キャッシュ１２の平均ミス率、Ｌ２キャッシュ１３の平均ミス率、帯域占有率の順に優先度を付けて移動対象とするスレッドを決定する。ここで、統合監視部１０４は、移動対象とするスレッドの数である移動対象数を１つとしても良いし複数としてもよい。

【0085】

統合監視部１０４は、Ｌ１キャッシュ１２の平均ミス率が移動判定閾値を超過するスレッド及びそのスレッドを実行するコア１１を特定する。Ｌ１キャッシュ１２の平均ミス率が移動判定閾値を超過するスレッドが存在する場合、統合監視部１０４は、それらスレッドのうち平均ミス率が高い順に移動対象数のスレッドを移動対象とする。

【0086】

Ｌ１キャッシュ１２の平均ミス率を用いて移動対象を選択した後、移動対象としたスレッドの数が移動対象数に達していない場合、統合監視部１０４は、Ｌ２キャッシュ１３の平均ミス率による移動対象の判定に移る。具体的には、統合監視部１０４は、Ｌ２キャッシュ１３の平均ミス率が移動判定閾値を超過するスレッド及びそのスレッドを実行するコア１１を特定する。Ｌ２キャッシュ１３の平均ミス率が移動判定閾値を超過するスレッドが存在する場合、統合監視部１０４は、それらスレッドのうち平均ミス率が高い順に移動対象数までの残りの数のスレッドを移動対象とする。

【0087】

Ｌ２キャッシュ１３の平均ミス率を用いて移動対象を選択した後、移動対象としたスレッドの数が移動対象数に未だ達していない場合、統合監視部１０４は、帯域占有率による移動対象の判定に移る。具体的には、統合監視部１０４は、帯域占有率が移動判定閾値を超過するスレッド及びそのスレッドを実行するコア１１を特定する。帯域占有率が移動判定閾値を超過するスレッドが存在する場合、統合監視部１０４は、それらスレッドのうち帯域占有率が高い順に移動対象数までの残りの数のスレッドを移動対象とする。

【0088】

統合監視部１０４は、帯域占有率による移動対象の判定まで終了した時点で、移動対象数まで移動対象としたスレッドの数が達していなくても移動対象の選択処理を終了する。例えば、いずれのスレッドも平均ミス率及び帯域占有率ともに移動判定閾値を超えない場合、統合監視部１０４は、スレッドの移動を行わずにスレッドの移動処理を終了する。

【0089】

さらに、統合監視部１０４は、いずれのスレッドもＬ１キャッシュ１２のミス率、Ｌ２キャッシュ１３のミス率及び帯域占有率が移動判定閾値を超えていないコア１１がある場合、そのコア１１を移動先とする。移動先となるコア１１が複数存在する場合、統合監視部１０４は、Ｌ１キャッシュ１２のミス率の低い順、Ｌ２キャッシュ１３のミス率の低い順及び帯域占有率の低い順で移動先とするコア１１の選択を行なう。その後、統合監視部１０４は、移動対象と決定したスレッドを移動先としたコア１１へ移動させるマイグレーションの指示をＯＳ１０５へ出力する。例えば、統合監視部１０４は、システムコールなどを用いてＯＳ１０５に対してマイグレーションの指示を行なう。このように、統合監視部１０４は、プリフェッチャ１１０のミス率及び各バス１２１～１２３の使用率を基に移動させるスレッド及び移動先のコア１１を決定して、移動させるスレッドを移動先のコア１１に移動させる。

【0090】

図７は、精度監視部及び帯域監視部で得られるデータの一例を示す図である。図７では、コア＃０及び＃１という２つを含む複数のコア１１のそれぞれで、複数のスレッドが動作している場合でセル説明する。ここでは、コア＃０で動作するスレッド＃＃０及びコア＃１で動作するスレッド＃＃１に着目して説明する。

【0091】

例えば、精度監視部１０２は、図７のテーブル１４１にＬ１ミス率として示すように、コア＃０のスレッド＃＃０についてＬ１キャッシュ１２のミス率が、プリフェッチャ１１１で１０％、プリフェッチャ１１２で８％、プリフェッチャ１１３で５％と算出する。この場合、精度監視部１０２は、コア＃０のスレッド＃＃０のＬ１キャッシュ１２の平均ミス率を７．７％と算出する。同様に、精度監視部１０２は、テーブル１４１にＬ２ミス率として示すように、コア＃０のスレッド＃＃０についてＬ２キャッシュ１３のミス率が、プリフェッチャ１１１で５％、プリフェッチャ１１２で４％、プリフェッチャ１１３で３％と算出する。この場合、精度監視部１０２は、コア＃０のスレッド＃＃０のＬ２キャッシュ１３の平均ミス率を４．０％と算出する。

【0092】

また、精度監視部１０２は、テーブル１４１に示すように、コア＃１のスレッド＃＃１についてＬ１キャッシュ１２のミス率が、プリフェッチャ１１１で３％、プリフェッチャ１１２で３％、プリフェッチャ１１３で１％と算出する。この場合、精度監視部１０２は、コア＃１のスレッド＃＃１のＬ１キャッシュ１２の平均ミス率を２．３％と算出する。同様に、精度監視部１０２は、テーブル１４１に示すように、コア＃１のスレッド＃＃１についてＬ２キャッシュ１３のミス率が、プリフェッチャ１１１で２％、プリフェッチャ１１２で２％、プリフェッチャ１１３で０％と算出する。この場合、精度監視部１０２は、コア＃１のスレッド＃＃１のＬ２キャッシュ１３の平均ミス率を１．３％と算出する。

【0093】

また、帯域監視部１０３は、テーブル１４１にＬ１～Ｌ２帯域占有率として示すように、コア＃０のスレッド＃＃０のＬ１キャッシュ１２とＬ２キャッシュ１３との間のバス１２１の帯域占有率を６０％と算出する。また、ここでは、帯域監視部１０３は、Ｌ２～Ｍｅｍ帯域占有率として示すようにＬ２キャッシュ１３からメインメモリ１５までの間のバスの帯域占有率を算出する。このバスは、バス１２２とバス１２３をまとめたものである。このように、帯域監視部１０３は、帯域占有率を求めるバスの範囲を、バス１２１～１２３のそれぞれ別に求めなくても良く、いずれかをまとめた範囲としてもよい。この場合、帯域監視部１０３は、テーブル１４１に示すように、コア＃０のスレッド＃＃０のＬ２キャッシュ１３とメインメモリ１５との間のバスの帯域占有率を６０％と算出する。

【0094】

また、帯域監視部１０３は、テーブル１４１に示すように、コア＃１のスレッド＃＃１のＬ１キャッシュ１２とＬ２キャッシュ１３との間のバス１２１の帯域占有率を１０％と算出する。また、帯域監視部１０３は、テーブル１４１に示すように、コア＃１のスレッド＃＃１のＬ２キャッシュ１３とメインメモリ１５との間のバスの帯域占有率を１０％と算出する。

【0095】

統合監視部１０４は、図７のテーブル１４１に示された値に基づくスレッド＃＃０及び＃＃１のＬ１キャッシュ１２のミス率、Ｌ２キャッシュ１３のミス率及び帯域占有率を取得する。ここで、統合監視部１０４は、５．０％をミス率の移動判定閾値として有し、７０％帯域占有率の移動判定閾値として有する。

【0096】

この場合、統合監視部１０４は、コア＃０のスレッド＃＃０のＬ１キャッシュ１２のミス率が移動判定閾値以上であると判定する。そして、統合監視部１０４は、コア＃０のスレッド＃＃０を移動対象とする。

【0097】

そして、統合監視部１０４は、コア＃１のスレッド＃＃１がＬ１キャッシュ１２のミス率、Ｌ２キャッシュ１３のミス率及び帯域占有率が移動判定閾値を超えてないと判定する。統合監視部１０４は、コア＃１の他のスレッドについてもコア＃１のスレッド＃＃１がＬ１キャッシュ１２のミス率、Ｌ２キャッシュ１３のミス率及び帯域占有率が移動判定閾値を超えてないことを確認する。その後、統合監視部１０４は、コア＃０のスレッド＃＃０をコア＃１に移動させることをＯＳ１０５に通知する。

【0098】

ＯＳ１０５は、マイグレーションの指示とともに移動対象とするスレッドの情報及び移動先となるコア１１の情報の入力を統合監視部１０４から受ける。そして、ＯＳ１０５は、指定されたスレッドを指定されたコア１１へ移動する。

【0099】

以上に説明したように、本実施例に係る演算処理装置は、マルチコアマルチスレッド環境において、ミス率及び帯域占有率が高いスレッドを移動対象として、ミス率及び帯域占有率が低いスレッドを有するコアへ移動させる。あるコアが実行するスレッドのうちミス率が他のスレッドに比べて高いスレッドは、データへのアクセスパターンが他のスレッドと異なると考えられる。そこで、ミス率が高いスレッドを他のコアに移動させることで、データへのアクセスパターンの乱れを解消することができ、適切なプリフェッチ発行が可能となる。また、帯域占有率が高いスレッドを各スレッドの帯域占有率が低いコアに移動させることで、コア毎の帯域占有率を均等にでき、積極的プリフェッチの実行数を増やすことが可能となる。

【0100】

（変形例）
実施例３では、ミス率及び帯域占有率を用いてスレッドの移動を行なったが、帯域占有率を用いずにミス率を基にスレッドの移動を行なうことも可能である。以下に、ミス率を基にスレッドの移動を行なう場合について説明する。

【0101】

本変形例においても、Ｌ１キャッシュ１２に対応する精度監視部１０２は、Ｌ１キャッシュ１２における各プリフェッチャ１１０のプリフェッチヒット率を算出する。Ｌ２キャッシュ１３に対応する精度監視部１０２は、Ｌ２キャッシュ１３における各プリフェッチャ１１０のプリフェッチヒット率を算出する。そして、各精度監視部１０２は、プリフェッチヒット率が最小のスレッドを選出する。次に、各精度監視部１０２は、各プリフェッチャ１１０のミス率から選出したスレッドの平均ミス率を算出する。そして、各精度監視部１０２は、選出したスレッドの平均ミス率を統合監視部１０４へ出力する。

【0102】

統合監視部１０４は、Ｌ１キャッシュ１２に対応する精度監視部１０２から送信されたスレッドの平均ミス率を用いて、Ｌ１キャッシュ１２の平均ミス率が移動判定閾値を超過するスレッド及びそのスレッドを実行するコア１１を特定する。Ｌ１キャッシュ１２の平均ミス率が移動判定閾値を超過するスレッドが存在する場合、統合監視部１０４は、それらスレッドのうち平均ミス率が高い順に移動対象数のスレッドを移動対象とする。

【0103】

Ｌ１キャッシュ１２の平均ミス率を用いて移動対象を選択した後、移動対象としたスレッドの数が移動対象数に達していない場合、統合監視部１０４は、Ｌ２キャッシュ１３の平均ミス率が移動判定閾値を超過するスレッド及びそのスレッドを実行するコア１１を特定する。Ｌ２キャッシュ１３の平均ミス率が移動判定閾値を超過するスレッドが存在する場合、統合監視部１０４は、それらスレッドのうち平均ミス率が高い順に移動対象数までの残りの数のスレッドを移動対象とする。このように、本変形例では、統合監視部１０４は、Ｌ１キャッシュ１２における平均ミス率が高いスレッド、次に、Ｌ２キャッシュ１３における平均ミス率が高いスレッドの順に優先順位を付けて、移動するスレッドを決定する。

【0104】

次に、統合監視部１０４は、移動先となるコア１１を決定する。その後、統合監視部１０４は、移動対象と決定したスレッドを移動先としたコア１１へ移動させるマイグレーションの指示をＯＳ１０５へ出力する。例えば、統合監視部１０４は、システムコールなどを用いてＯＳ１０５に対してマイグレーションの指示を行なう。すなわち、統合監視部１０４は、ミス率を基に移動させるスレッド及び移動先のコア１１を決定して、移動させるスレッドを移動先のコア１１に移動させる。

【0105】

以上に説明したように、帯域占有率を用いずにミス率を基にスレッドの移動を行なうことも可能である。この場合にも、ミス率が高いスレッドを他のコアに移動させることで、データへのアクセスパターンの乱れを解消することができ、適切なプリフェッチ発行が可能となる。

【実施例0106】

図８は、実施例３に係るＣＰＵにおけるＬ１キャッシュ及びＬ２キャッシュに対する制御機構の詳細を示す図である。本実施例に係るＣＰＵ１０は、プリフェッチャ１１０の精度やデータバスの使用率などの情報をユーザに提供する。本実施例に係るＣＰＵ１０は、情報管理部１０６を有する。また、情報処理装置１は、出力装置１０７を有する。

【0107】

精度監視部１０２はそれぞれ、各プリフェッチャ１１０のミス率を情報管理部１０６へ出力する。また、帯域監視部１０３は、Ｌ１キャッシュ１２とＬ２キャッシュ１３との間のバス１２１の使用率及びＬ２キャッシュ１３とＬＬＣ１４との間のバス１２２の使用率を情報管理部１０６へ出力する。

【0108】

情報管理部１０６は、各プリフェッチャ１１０のミス率の入力を精度監視部１０２から受ける。また、情報管理部１０６は、Ｌ１キャッシュ１２とＬ２キャッシュ１３との間のバス１２１の使用率及びＬ２キャッシュ１３とＬＬＣ１４との間のバス１２２の使用率を帯域監視部１０３から受ける。さらに、情報管理部１０６は、プログラムカウンタの情報をコア１１から取得する。

【0109】

次に、情報管理部１０６は、プログラムカウンタにおいてＬ１キャッシュ１２におけるプリフェッチャ１１０のミス率が予め決められたミス率閾値以上となった部分を特定する。また、情報管理部１０６は、プログラムカウンタにおいてＬ２キャッシュ１３におけるプリフェッチャ１１０のミス率が予め決められたミス率閾値以上となった部分を特定する。また、情報管理部１０６は、プログラムカウンタにおいてＬ１キャッシュ１２とＬ２キャッシュ１３との間のバス１２１の使用率が予め決められた使用率閾値以上となった部分を特定する。さらに、情報管理部１０６は、プログラムカウンタにおいてＬ２キャッシュ１３とＬＬＣ１４との間のバス１２２の使用率が予め決められた使用率閾値以上となった部分を特定する。

【0110】

そして、情報管理部１０６は、特定した部分が、コア１１が実行するプログラムのどの部分であったかを示す情報を生成する。すなわち、情報管理部１０６は、ユーザが記述したプログラムのどの部分でプリフェッチ精度の低下やバス使用率の上昇が大きかったかを示す情報を生成する。その後、情報管理部１０６は、ユーザが記述したプログラムのどの部分でプリフェッチ精度の低下やバス使用率の上昇が大きかったかを示す情報を表示装置１７へ出力する。すなわち、情報管理部１０６は、コア１１から実行したプログラムに対するプログラムカウンタを取得する。そして、情報管理部１０６は、精度監視部１０２により監視されるミス率及び帯域監視部１０３により監視される使用率とプログラムカウンタとを比較して、プログラムとミス率及び使用率との関係情報を生成し、生成した関係情報を利用者に提供する。

【0111】

表示装置１７は、ユーザが記述したプログラムのどの部分でプリフェッチ精度の低下やバス使用率の上昇が大きかったかを示す情報の入力を情報管理部１０６から受ける。そして、表示装置１７は、ユーザが記述したプログラムのどの部分でプリフェッチ精度の低下やバス使用率の上昇が大きかったかを示す情報を画面表示させてユーザに提供する。

【0112】

ユーザは、表示装置１７により画面表示されたユーザが記述したプログラムのどの部分でプリフェッチ精度の低下やバス使用率の上昇が大きかったかを示す情報を確認する。そして、ユーザは、ユーザが記述したプログラムのどの部分でプリフェッチ精度の低下やバス使用率の上昇が大きかったかの情報を用いて、プログラムのチューニングを行い、コア１１にチューニングを加えたプログラムを再度実行させるなどしてパフォーマンスを評価する。

【0113】

例えば、チューニングの例として、プログラム上でインデックスリストを経由して配列にインダイレクトアクセスしている部分を、データ配列に直接アクセスするように記述し直す変更がある。これにより、プリフェッチャ１１０によるアクセスパターンの予測精度が向上する場合がある。

【0114】

以上に説明したように、本実施例に係るＣＰＵは、ユーザが記述したプログラムのどの部分でプリフェッチ精度の低下やバス使用率の上昇が大きかったかを示す情報をユーザに提供する。これにより、ユーザは、プログラムのチューニングを適切に行うことができ、演算処理のパフォーマンスを向上させることが可能となる。