(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-12
(45)【発行日】2022-10-20
(54)【発明の名称】プリフェッチコントローラ
(51)【国際特許分類】
G06F 9/46 20060101AFI20221013BHJP
G06F 9/38 20060101ALI20221013BHJP
【FI】
G06F9/46 410
G06F9/38 310A
(21)【出願番号】P 2018068436
(22)【出願日】2018-03-30
【審査請求日】2021-02-15
(73)【特許権者】
【識別番号】000004260
【氏名又は名称】株式会社デンソー
(73)【特許権者】
【識別番号】519084397
【氏名又は名称】株式会社エヌエスアイテクス
(74)【代理人】
【識別番号】100140486
【氏名又は名称】鎌田 徹
(74)【代理人】
【識別番号】100170058
【氏名又は名称】津田 拓真
(72)【発明者】
【氏名】九里 雅史
(72)【発明者】
【氏名】杉本 英樹
【審査官】多賀 実
(56)【参考文献】
【文献】米国特許第9921839(US,B1)
【文献】米国特許出願公開第2003/0004683(US,A1)
【文献】特開2006-343872(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 9/32
G06F 9/38
G06F 9/46-9/54
(57)【特許請求の範囲】
【請求項1】
プロセッサに設けられるプリフェッチコントローラであって、
複数のスレッド毎に予め設定されている平均命令消費量と、現時点でのプリフェッチ量とを比較するプリフェッチ量比較部(601)と、
前記プリフェッチ量比較部の比較結果に基づいて、プリフェッチ量が相対的に不足しているスレッドのプリフェッチ優先順位を上昇させる優先順位変更部(602)と、を備えるプリフェッチコントローラ。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、プロセッサに設けられるプリフェッチコントローラに関する。
【背景技術】
【0002】
命令キャッシュを備えるプロセッサでは、キャッシュミス後のキャッシュフィルを待たされることによって処理性能が低下するのを防止するために、プリフェッチ機能が広く採用されている。プリフェッチ機能は、プロセッサが将来実行するであろう命令を予測し、キャッシュミスが発生する前に予め命令キャッシュ等のプリフェッチバッファに読み込んでおく機能である(下記特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載されているプリフェッチ手法では、複数のスレッドを並列処理する際に、命令フェッチの競合や帯域不足が発生するおそれがある。
【0005】
本開示は、複数のスレッドを並列処理する際に、命令フェッチの競合や帯域不足を緩和するプリフェッチコントローラを提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示は、プロセッサに設けられるプリフェッチコントローラであって、複数のスレッド毎に予め設定されている平均命令消費量と、現時点でのプリフェッチ量とを比較するプリフェッチ量比較部(601)と、プリフェッチ量比較部の比較結果に基づいて、プリフェッチ量が相対的に不足しているスレッドのプリフェッチ優先順位を上昇させる優先順位変更部(602)と、を備える。
【0007】
本開示によれば、実際のプリフェッチ量の変動に応じてプリフェッチ優先順位を変更できるので、複数のスレッドを並列処理する際に、命令フェッチの競合や帯域不足を緩和することができる。
【0008】
尚、「課題を解決するための手段」及び「特許請求の範囲」に記載した括弧内の符号は、後述する「発明を実施するための形態」との対応関係を示すものであって、「課題を解決するための手段」及び「特許請求の範囲」が、後述する「発明を実施するための形態」に限定されることを示すものではない。
【発明の効果】
【0009】
本開示によれば、複数のスレッドを並列処理する際に、命令フェッチの競合や帯域不足を緩和するプリフェッチコントローラを提供することができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、本実施形態の前提となる並列処理について説明するための図である。
【
図2】
図2は、
図1に示される並列処理を実行するためのシステム構成例を示す図である。
【
図3】
図3は、
図2に用いられるDFPの構成例を示す図である。
【
図4】
図4は、コンパイラの機能的な構成例を説明するための図である。
【
図5】
図5は、コンパイラの処理を説明するための図である。
【
図6】
図6は、プリフェッチコントローラの機能的な構成例を説明するための図である。
【
図7】
図7は、プリフェッチコントローラの処理を説明するための図である。
【発明を実施するための形態】
【0011】
以下、添付図面を参照しながら本実施形態について説明する。説明の理解を容易にするため、各図面において同一の構成要素に対しては可能な限り同一の符号を付して、重複する説明は省略する。
【0012】
図1(A)は、グラフ構造のプログラムコードを示しており、
図1(B)は、スレッドの状態を示しており、
図1(C)は、並列処理の状況を示している。
【0013】
図1(A)に示されるように、本実施形態が処理対象とするプログラムは、データと処理とが分割されているグラフ構造を有している。このグラフ構造は、プログラムのタスク並列性、グラフ並列性を保持している。
【0014】
図1(A)に示されるプログラムコードに対して、コンパイラによる自動ベクトル化とグラフ構造の抽出を行うと、
図1(B)に示されるような大量のスレッドを生成することができる。
【0015】
図1(B)に示される多量のスレッドに対して、ハードウェアによる動的レジスタ配置とスレッド・スケジューリングにより、
図1(C)に示されるような並列実行を行うことができる。実行中にレジスタ資源を動的配置することで、異なる命令ストリームに対しても複数のスレッドを並列実行することができる。
【0016】
続いて
図2を参照しながら、動的レジスタ配置及びスレッド・スケジューリングを行うアクセラレータとしてのDFP(Data Flow Processor)10を含むシステム構成例である、データ処理システム2を説明する。
【0017】
データ処理システム2は、DFP10と、イベントハンドラ20と、ホストCPU21と、ROM22と、RAM23と、外部インターフェイス24と、システムバス25と、を備えている。ホストCPU21は、データ処理を主として行う演算装置である。ホストCPU21は、OSをサポートしている。イベントハンドラ20は、割り込み処理を生成する部分である。
【0018】
ROM22は、読込専用のメモリである。RAM23は、読み書き用のメモリである。外部インターフェイス24は、データ処理システム2外と情報授受を行うためのインターフェイスである。システムバス25は、DFP10と、ホストCPU21と、ROM22と、RAM23と、外部インターフェイス24との間で情報の送受信を行うためのものである。
【0019】
DFP10は、ホストCPU21の重い演算負荷に対処するために設けられている個別のマスタとして位置づけられている。DFP10は、イベントハンドラ20が生成した割り込みをサポートするように構成されている。
【0020】
続いて
図3を参照しながら、DFP10について説明する。
図3に示されるように、DFP10は、コマンドユニット12と、スレッドスケジューラ14と、実行コア16と、メモリサブシステム18と、を備えている。
【0021】
コマンドユニット12は、コンフィグ・インターフェイスとの間で情報通信可能なように構成されている。コマンドユニット12は、コマンドバッファとしても機能している。
【0022】
スレッドスケジューラ14は、
図1(B)に例示されるような多量のスレッドの処理をスケジューリングする部分である。スレッドスケジューラ14は、スレッドを跨いだスケジューリングを行うことが可能である。
【0023】
実行コア16は、4つのプロセッシングエレメントである、PE#0と、PE#1と、PE#2と、PE#3と、を有している。実行コア16は、独立してスケジューリング可能な多数のパイプラインを有している。
【0024】
メモリサブシステム18は、アービタ181と、L1キャッシュ18aと、L2キャッシュ18bと、を有している。メモリサブシステム18は、システム・バス・インターフェイス及びROMインターフェイスとの間で情報通信可能なように構成されている。
【0025】
続いて、
図4を参照しながら、コンパイラ50について説明する。コンパイラ50は、機能的な構成要素として、ループ構造解析部501と、平均命令消費量算出部502と、を備える。
【0026】
ループ構造解析部501は、
図1に示されるようなグラフ構造のプログラムコードを解析して複数のスレッドを特定する部分である。
【0027】
平均命令消費量算出部502は、ループ構造解析部501が特定した複数のスレッドそれぞれに対して平均命令消費量を算出する部分である。
図5に示される例では、スレッド1の平均命令消費量が1500、スレッド2の平均命令消費量が2000、スレッド3の平均命令消費量が1000、スレッド4の平均命令消費量が5000となっている。平均命令消費量算出部502は、算出した平均命令消費量をDFP10に通知する。
【0028】
続いて、
図6を参照しながら、DFP10に設けられるプリフェッチコントローラ60について説明する。プリフェッチコントローラ60は、機能的な構成要素として、プリフェッチ量比較部601と、優先順位変更部602と、を備える。
【0029】
プリフェッチ量比較部601は、平均命令消費量算出部502から通知された平均命令消費量と、現時点でのプリフェッチ量とを比較する部分である。
【0030】
優先順位変更部602は、プリフェッチ量比較部601の比較結果に基づいて、プリフェッチ量が相対的に不足しているスレッドのプリフェッチ優先順位を上昇させる部分である。優先順位変更部602は、この比較結果にスレッドの実行優先度を加味して優先順位を決定することができる。
【0031】
図7に示される例では、スレッド1の平均命令消費量が1500に対してプリフェッチ量が600、スレッド2の平均命令消費量が2000に対してプリフェッチ量が1700、スレッド3の平均命令消費量が1000に対してプリフェッチ量が1000、スレッド4の平均命令消費量が5000に対してプリフェッチ量が100となっている。
【0032】
図7に示される例の場合、スレッド1及びスレッド4の相対的なプリフェッチ量が相対的に不足しているのでプリフェッチ優先順位を上げ、スレッド2及びスレッド3のプリフェッチ優先順位を下げる。
【0033】
上記説明したように、本実施形態は、プロセッサであるDFP10に設けられるプリフェッチコントローラ60であって、複数のスレッド毎に予め設定されている平均命令消費量と、現時点でのプリフェッチ量とを比較するプリフェッチ量比較部601と、プリフェッチ量比較部の比較結果に基づいて、プリフェッチ量が相対的に不足しているスレッドのプリフェッチ優先順位を上昇させる優先順位変更部602と、を備える。
【0034】
本実施形態によれば、実際のプリフェッチ量の変動に応じてプリフェッチ優先順位を変更できるので、複数のスレッドを並列処理する際に、命令フェッチの競合や帯域不足を緩和することができる。
【0035】
以上、具体例を参照しつつ本実施形態について説明した。しかし、本開示はこれらの具体例に限定されるものではない。これら具体例に、当業者が適宜設計変更を加えたものも、本開示の特徴を備えている限り、本開示の範囲に包含される。前述した各具体例が備える各要素およびその配置、条件、形状などは、例示したものに限定されるわけではなく適宜変更することができる。前述した各具体例が備える各要素は、技術的な矛盾が生じない限り、適宜組み合わせを変えることができる。
【符号の説明】
【0036】
601:プリフェッチ量比較部
602:優先順位変更部