特表2024-501834 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エーティーアイ・テクノロジーズ・ユーエルシーの特許一覧

特表2024-501834集積回路内の非計算ユニット電力制御を提供するための方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-01-16

(54)【発明の名称】集積回路内の非計算ユニット電力制御を提供するための方法及び装置

(51)【国際特許分類】

G06F 12/00 20060101AFI20240109BHJP

G06F 11/30 20060101ALI20240109BHJP

G06F 11/34 20060101ALI20240109BHJP

G06F 1/3225 20190101ALI20240109BHJP

G06F 1/324 20190101ALI20240109BHJP

【ＦＩ】

G06F12/00 550E

G06F11/30 155

G06F11/30 140A

G06F11/34 133

G06F1/3225

G06F1/324

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023539261

(86)(22)【出願日】2021-12-16

(85)【翻訳文提出日】2023-08-18

(86)【国際出願番号】 IB2021061889

(87)【国際公開番号】W WO2022144677

(87)【国際公開日】2022-07-07

(31)【優先権主張番号】17/137,925

(32)【優先日】2020-12-30

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】508301087

【氏名又は名称】エーティーアイ・テクノロジーズ・ユーエルシー

【氏名又は名称原語表記】ＡＴＩＴＥＣＨＮＯＬＯＧＩＥＳＵＬＣ

【住所又は居所原語表記】ＯｎｅＣｏｍｍｅｒｃｅＶａｌｌｅｙＤｒｉｖｅＥａｓｔ，Ｍａｒｋｈａｍ，Ｏｎｔａｒｉｏ，Ｌ３Ｔ７Ｘ６Ｃａｎａｄａ

(74)【代理人】

【識別番号】100108833

【弁理士】

【氏名又は名称】早川裕司

(74)【代理人】

【識別番号】100111615

【弁理士】

【氏名又は名称】佐野良太

(74)【代理人】

【識別番号】100162156

【弁理士】

【氏名又は名称】村雨圭介

(72)【発明者】

【氏名】インドラニポール

(72)【発明者】

【氏名】レオナルドデポーラローザピガ

(72)【発明者】

【氏名】マヘシュサブラモニー

(72)【発明者】

【氏名】ソヌアローラ

(72)【発明者】

【氏名】ドナルドシェレパチャ

(72)【発明者】

【氏名】アダムエヌ．シー．クラーク

【テーマコード（参考）】

5B011

5B042

5B160

【Ｆターム（参考）】

5B011DC06

5B011EA08

5B011EB01

5B011LL13

5B042GA33

5B042JJ17

5B042MA08

5B042MC22

5B160AA14

(57)【要約】

方法及び装置は、複数の異種計算ユニットと、複数の計算ユニットに動作可能に結合された複数の非計算ユニットと、を使用する。電力管理ロジック（ＰＭＬ）は、ＩＣ上の複数の異種計算ユニットの各々で実行されるそれぞれの作業負荷に関連するメモリ帯域幅レベルを決定し、決定されたメモリ帯域幅レベルに基づいて、ＩＣ上のメモリシステムの少なくとも１つの非計算ユニットの電力レベルを、第１の電力レベルから第２の電力レベルに調整する。いくつかの例では、メモリアクセス待ち時間も考慮に入れて、非計算ユニットの電力レベルを調整する。
【選択図】図１

【特許請求の範囲】

【請求項1】

１つ以上の集積回路（ＩＣ）に電力管理を提供するための方法であって、
前記ＩＣ上の複数の異種計算ユニットの各々で実行される作業負荷に関連するメモリ帯域幅レベルを決定することと、
決定されたメモリ帯域幅レベルに基づいて、前記ＩＣ上のメモリシステムの少なくとも１つの非計算ユニットの電力レベルを、第１の電力レベルから第２の電力レベルに調整することと、を含む、
方法。

【請求項2】

前記メモリ帯域幅レベルを決定することは、前記ＩＣ上の前記複数の異種計算ユニットの各々に関連するメモリアクセストラフィックを監視することを含み、前記少なくとも１つの非計算ユニットは、前記複数の異種計算ユニットによって使用されるメモリにアクセスするために使用される、
請求項１の方法。

【請求項3】

前記非計算ユニットは、
前記異種計算ユニットとメモリとの間でデータを転送するデータファブリックを含み、
前記メモリシステムの前記非計算ユニットの電力レベルを調整することは、
より高いデータファブリッククロック周波数設定値及びより高い電圧レベルを用いて同じ最大レベルメモリデータ転送レートを提供する別のメモリパフォーマンス状態と比較して、前記データファブリックの低減された周波数クロック及び低減された電圧レベルを用いて、規定の電力割り当てに対して最大レベルメモリデータ転送レートを提供するメモリパフォーマンス状態を選択することを含む、
請求項１の方法。

【請求項4】

前記電力レベルを調整することは、メモリパフォーマンス状態テーブルにアクセスすることを含み、
前記メモリパフォーマンス状態テーブルは、
複数のメモリパフォーマンス状態であって、各状態は、前記パフォーマンス状態に対して許容可能なメモリデータ転送速度と、非計算メモリシステム電圧設定値と、データファブリッククロック周波数設定値と、メモリクロック周波数設定値と、を表すデータを含む、複数のメモリパフォーマンス状態を含み、
少なくとも第１のパフォーマンス状態及び第２のパフォーマンス状態は、同じ最大レベルメモリデータ転送レートを含み、前記第１のパフォーマンス状態は、前記第２のパフォーマンス状態と比較して、低いデータファブリック周波数設定値及び低い非計算メモリシステム電圧設定値を有する、
請求項３の方法。

【請求項5】

集積回路（ＩＣ）であって、
複数の異種計算ユニットと、
前記複数の計算ユニットに動作可能に結合された複数の非計算ユニット、を備え、
電力管理ロジックは、
前記ＩＣ上の複数の異種計算ユニットの各々で実行される作業負荷に関連するメモリ帯域幅レベルを決定することと、
決定されたメモリ帯域幅レベルに基づいて、前記ＩＣ上のメモリシステムの少なくとも１つの非計算ユニットの電力レベルを、第１の電力レベルから第２の電力レベルに調整することと、
を行うように動作可能である、
集積回路。

【請求項6】

前記電力管理ロジックは、
前記ＩＣ上の前記複数の異種計算ユニットの各々に関連するメモリアクセストラフィックを少なくとも監視することによって、前記メモリ帯域幅レベルを決定するように動作可能であり、
前記少なくとも１つの非計算ユニットは、前記複数の異種計算ユニットによって使用されるメモリにアクセスするために使用される、
請求項５のＩＣ。

【請求項7】

前記少なくとも１つの非計算ユニットは、前記異種計算ユニットとメモリとの間でデータを転送するデータファブリックを含み、
前記電力管理ロジックは、
少なくとも、より高いデータファブリッククロック周波数設定値及びより高い電圧レベルを用いて同じ最大レベルメモリデータ転送レートを提供する別のメモリパフォーマンス状態と比較して、前記データファブリックの低減された周波数クロック、及び低減された電圧レベルを用いて、規定の電力割り当てについて最大レベルメモリデータ転送レートを提供するメモリパフォーマンス状態を選択することによって、前記メモリシステムの前記非計算ユニットの前記電力レベルを調整するように動作可能である、
請求項５のＩＣ。

【請求項8】

前記電力管理ロジックは、メモリパフォーマンス状態テーブルにアクセスすることによって、前記電力レベルを調整するように動作可能であり、
前記メモリパフォーマンス状態テーブルは、
複数のメモリパフォーマンス状態であって、各状態は、前記パフォーマンス状態に対して許容可能なメモリデータ転送速度と、非計算メモリシステム電圧設定値と、データファブリッククロック周波数設定値と、メモリクロック周波数設定値と、を表すデータを含む、複数のメモリパフォーマンス状態を含み、
少なくとも第１のパフォーマンス状態及び第２のパフォーマンス状態は、同じ最大レベルメモリデータ転送レートを含み、前記第１のパフォーマンス状態は、前記第２のパフォーマンス状態と比較して、低いデータファブリック周波数設定値及び低い非計算メモリシステム電圧設定値を有する、
請求項７のＩＣ。

【請求項9】

集積回路（ＩＣ）であって、
複数の計算ユニットと、
前記複数の計算ユニットに動作可能に結合された複数の非計算ユニット、を備え、
電力管理ロジックは、
前記複数の計算ユニットのうち少なくとも１つで実行される作業負荷に関連するメモリアクセス待ち時間を検出することと、
検出された前記メモリアクセス待ち時間に基づいて、前記複数の非計算ユニットのうち少なくとも１つに関連するメモリパフォーマンス状態を変更することと、
を行うように動作可能である、
集積回路。

【請求項10】

少なくとも別の集積回路（ＩＣ）とデータを通信するように構成されたデータファブリックを備え、
前記電力管理ロジックは、前記別のＩＣの計算ユニットに関連するメモリアクセス待ち時間を検出し、前記別のＩＣに関連する検出された前記メモリアクセス待ち時間に基づいて、前記複数の非計算ユニットに関連する前記メモリパフォーマンス状態を変更するように動作可能である、
請求項９のＩＣ。

【請求項11】

前記電力管理ロジックは、前記ＩＣ上の複数の異種計算ユニットの各々で実行されるそれぞれの作業負荷に関連する帯域幅レベルを決定し、検出された前記メモリアクセス待ち時間及び決定されたメモリ帯域幅レベルの両方に基づいて、メモリパフォーマンス状態を選択するように動作可能である、
請求項９のＩＣ。

【請求項12】

前記複数の非計算ユニットは、
前記複数の計算ユニットに動作可能に結合されたデータファブリックと、
前記データファブリックを介して前記計算ユニットに動作可能に結合されたメモリ制御ロジックと、を備え、
前記電力管理ロジックは、中央処理コア計算ユニットに関連する検出された待ち時間レベル、及び、グラフィックス処理コア計算ユニットに関連付けられた決定されたメモリ帯域幅レベルを表すデータ間のアービトレーションを行うことによって、前記メモリパフォーマンス状態を選択するように動作可能である、
請求項９のＩＣ。

【請求項13】

前記電力管理ロジックは、
実行時間中に中央処理計算ユニットによって発行されるメモリロード要求に関連するメモリアクセス待ち時間を検出するように動作可能なメモリ待ち時間モニターロジックと、
前記複数の計算ユニットのうち他の計算ユニットに関連するメモリ帯域幅レベルを検出するように動作可能なメモリ帯域幅監視ロジックと、を備える、
請求項９のＩＣ。

【請求項14】

前記電力管理ロジックは、前記別のＩＣ上の計算ユニットに関連するメモリ帯域幅を検出するように構成された集積回路間メモリ帯域幅モニターロジックを備え、
前記電力管理ロジックは、前記別のＩＣの検出された前記メモリ帯域幅レベルに基づいて、メモリパフォーマンス状態を、データファブリッククロック周波数を最高パフォーマンス状態レベルに増加させることを含む最高電力状態に増加させるように動作可能である、
請求項１２のＩＣ。

【請求項15】

前記電力管理ロジックは、少なくとも１つの計算ユニットの待ち時間改善を、少なくとも別の計算ユニットの帯域幅改善よりも優先するように動作可能である、
請求項９のＩＣ。

【請求項16】

前記電力管理ロジックは、
少なくとも第１の計算ユニットに関連付けられた作業負荷のメモリ待ち時間を検出し、検出された前記メモリ待ち時間に基づいて、第１のメモリパフォーマンス状態を提供するように動作可能なメモリ待ち時間検出ロジックと、
少なくとも第２の計算ユニットによって使用されるメモリ帯域幅レベルを検出し、検出された前記メモリ帯域幅レベルに基づいて、第２のメモリパフォーマンス状態を提供するように動作可能なメモリ帯域幅検出ロジックと、
前記第１のメモリパフォーマンス状態及び第２のメモリパフォーマンス状態に基づいて、且つ、利用可能な電力ヘッドルームデータに基づいて、最終的なメモリパフォーマンス状態を選択するように動作可能なアービトレーションロジックと、を備える、
請求項９のＩＣ。

【請求項17】

前記複数の計算ユニットは、複数の異種計算ユニットを備え、
前記電力管理ロジックは、
前記ＩＣ上の複数の異種計算ユニットの各々で実行されるそれぞれの作業負荷に関連するメモリ帯域幅レベルを決定することと、
決定されたメモリ帯域幅レベルに基づいて、前記ＩＣ上のメモリシステムの少なくとも１つの非計算ユニットの電力レベルを、第１の電力レベルから第２の電力レベルに調整することと、
を行うように動作可能である、
請求項９のＩＣ。

【請求項18】

【請求項19】

装置であって、
メモリシステムと、
前記メモリに動作可能に結合された複数の計算ユニットと、
前記複数の計算ユニットに動作可能に結合された、前記メモリシステムの複数のメモリ非計算ユニットと、
電力管理ロジックと、を備え、
前記複数のメモリ非計算ユニットは、
前記複数の計算ユニットに動作可能に結合されたデータファブリックと、
前記データファブリック及び前記メモリシステムのメモリに動作可能に結合されたメモリインターフェースロジックと、を備え、
電力管理ロジックは、
前記複数の計算ユニット上で実行される作業負荷に関連するメモリアクセス待ち時間を検出することと、
前記複数の計算ユニットの各々で実行されるそれぞれの作業負荷に関連するメモリ帯域幅レベルを決定することと、
検出された前記メモリアクセス待ち時間及び決定されたメモリ帯域幅レベルに基づいて、前記複数の非計算ユニットに関連するメモリパフォーマンス状態を変更することと、
を行うように動作可能である、
装置。

【請求項20】

前記電力管理ロジックは、
メモリ待ち時間に敏感な作業負荷の決定が前記複数の計算ユニットのうち少なくとも１つによって実行されたことに応じて、前記データファブリックのクロック周波数を増加させて、前記メモリのための最大レベルメモリデータ転送レートを提供することと、
帯域幅レベルの増加が計算ユニットのために必要であることに応じて、より高いデータファブリッククロック周波数設定値及びより高い電圧レベルを用いて同じ最大レベルメモリデータ転送レートを提供する別のメモリパフォーマンス状態と比較して、前記データファブリックの低減された周波数クロック及び低減された電圧レベルを用いて、規定の電力割り当てについて最大レベルメモリデータ転送レートを提供するメモリパフォーマンス状態を選択することと、
を行うために、前記データファブリックの動作状態を制御することによって、前記メモリパフォーマンス状態を変更するように動作可能である、
請求項１９の装置。

【請求項21】

前記電力管理ロジックは、
少なくとも第１の計算ユニットに関連付けられた作業負荷のためのメモリ待ち時間を検出し、検出された前記メモリ待ち時間に基づいて、第１のメモリパフォーマンス状態を提供するように動作可能なメモリ待ち時間検出ロジックと、
少なくとも第２の計算ユニットによって使用されたメモリ帯域幅レベルを検出し、検出された前記メモリ帯域幅レベルに基づいて、第２のメモリパフォーマンス状態を提供するように動作可能な帯域幅検出ロジックと、
前記第１のメモリパフォーマンス状態及び第２のメモリパフォーマンス状態に基づいて、且つ、利用可能な電力ヘッドルームデータに基づいて、最終的なメモリパフォーマンス状態を選択するように動作可能なアービトレーションロジックと、を備える、
請求項１９の装置。

【請求項22】

前記電力管理ロジックは、少なくとも１つの計算ユニットの待ち時間改善を、少なくとも別の計算ユニットの帯域幅改善よりも優先するように動作可能である、
請求項１９の装置。

【請求項23】

前記データファブリックに動作可能に結合され、且つ、前記複数の計算ユニットのうちいくつかに動作可能に結合されたコヒーレントデータファブリックソケットを備え、
前記電力管理ロジックは、
前記コヒーレントデータファブリックソケットを使用して、計算ユニットに関連するメモリアクセス待ち時間を検出するように動作可能であり、
前記別の集積回路に関連する検出された前記メモリアクセス待ち時間に基づいて、前記複数の非計算ユニットに関連付けられたメモリパフォーマンス状態を変更するように動作可能である、
請求項１９の装置。

【請求項24】

前記電力管理ロジックは、メモリパフォーマンス状態テーブルにアクセスすることによって前記電力レベルを調整するように動作可能であり、
前記メモリパフォーマンス状態テーブルは、
複数のメモリパフォーマンス状態であって、各状態は、前記パフォーマンス状態に対して許容可能なメモリデータ転送速度と、非計算メモリシステム電圧設定値と、データファブリッククロック周波数設定値と、メモリクロック周波数設定値と、を表すデータを含む、複数のメモリパフォーマンス状態を含み、
少なくとも第１のパフォーマンス状態及び第２のパフォーマンス状態は、同じ最大レベルメモリデータ転送レートを含み、前記第１のパフォーマンス状態は、前記第２のパフォーマンス状態と比較して、低いデータファブリック周波数設定値及び低い非計算メモリシステム電圧設定値を有する、
請求項１９の装置。

【発明の詳細な説明】

【背景技術】

【0001】

システムオンチップ（systems on－chip、ＳＯＣ）等の集積回路（integrated circuit、ＩＣ）システムは、中央処理ユニットコア、グラフィックス処理ユニットコア、ビデオコーダ及びデコーダ（コーデック）等のように、コアコンポーネントとも称される計算ユニット、並びに、メモリにアクセする他の計算ユニットを用いる。そのようなシステムオンチップは、読み取り及び書き込みの要求等のメモリアクセス要求を行わないが、代わりに、集積回路上で他のタスクを実行する、非計算コンポーネントとも称される非計算ユニットも含み、非計算ユニットの例としては、データファブリック、ダイナミックランダムアクセスメモリ（dynamic random access memories、ＤＲＡＭ）等のメモリのためのメモリコントローラ、ＤＲＡＭメモリへの物理インターフェース回路（physical interface circuits、ＰＨＹ）、ＰＣＩＥｘｐｒｅｓｓインターフェース等の相互接続ロジック、ユニバーサルシリアルバス相互接続、及び、他のタイプの非計算ユニットが挙げられる。

【0002】

いくつかの（ＳＯＣ）アーキテクチャには、異なるタイプのメモリに接続するデータファブリックに接続される複数のコア中央処理ユニット（central processing unit、ＣＰＵ）及び／又は複数のコアグラフィックス処理ユニット（graphics processing unit、ＧＰＵ）が含まれる。そのようなシステムは、他のＳＯＣへのソケットにわたる帯域幅、及び、ＳＯＣ内のデータファブリックへの帯域幅を監視し、ＣＰＵの検出された帯域幅ニーズに応じて、データファブリックのためのクロック周波数を増加又は減少させることによって、電力を節約し及び／又はパフォーマンスを向上させようと試みる。しかしながら、待ち時間に敏感な作業負荷がＣＰＵ上で実行している場合に、待ち時間問題は、システムのパフォーマンスを低下させ、電力消費の増加を引き起こす可能性がある。

【0003】

増加するデータセンタパフォーマンスニーズ、及び、急速に成長するビデオコンテンツ消費に伴って、ＳＯＣの電力消費は、増加するパフォーマンス要件を前提とすると、低減することが困難になりつつある。例えば、サーバシステムオンチップのためのＳＯＣ上の電力管理ユニットは、例えば、データセンタ及び他のサーバ製品内で使用され、カウンタ及び関連するロジック等のメモリ帯域幅モニターを使用することが知られており、そのメモリ帯域幅モニターは、ＣＰＵによって実行されるもの等のように、同種の作業負荷に必要とされる帯域幅の量を識別しようと試みる。いくつかのシステムでは、データファブリック及び他の非計算ユニットのクロック周波数（ＦＣＬＫ）等の非計算ユニットクロック周波数は、ＣＰＵのためにより多くの帯域幅が必要であることが検出された場合に、増加し、並びに、電圧レベルを、非計算ユニットに提供する電圧アイランドに関連付けて、ＳＯＣ内のＣＰＵのパフォーマンス状態を向上させる。例えば、メモリ帯域幅を増加させるために、データファブリック、メモリコントローラ、及び、メモリ帯域幅の関数であるＤＲＡＭメモリへの物理インターフェース（ＰＨＹ）が使用される。しかしながら、そのような動作は、非計算ユニットによる高い電力消費を必要以上に引き起こす可能性があり、ＳＯＣ製品パフォーマンスに悪影響を及ぼす。非計算ユニットの増加する電力消費は、計算ユニットにとって利用可能な全体的な総電力予算に重大な影響を及ぼし得る。これは、所定の電力予算の下で、計算ユニットのパフォーマンスを低下させる可能性がある。

【0004】

メモリシステムの非計算ユニット又は非計算ユニットには、例えば、データファブリック、メモリコントローラ及び物理インターフェース（ＰＨＹ）が含まれ、これらは、組み合わさって、メモリ帯域幅に大きな影響を及ぼす可能性がある。使用されていない非計算ユニットの待機電力のリーク、又は、接続若しくは使用されていない複数のディスプレイ、ＰＣＩＥｘｐｒｅｓｓ及びＵＳＢインターフェース等の入力／出力コンポーネントも電力を消費する。

【0005】

システムオンチップ計算ユニット（例えば、メモリクライアント）上の異なる作業負荷は、データファブリック及びメモリシステムに異なる要求を課す。高解像度ゲーム等の場合、メモリ帯域幅が、計算エンジンのボトルネックとなる可能性がある。低解像度ゲーム等のように、多くのＣＰＵ作業負荷における他のアプリケーションは、メモリから要求を取り出すための待ち時間に敏感である。また、旧来のゲーム（１０８０ｐ解像度ゲーム等）も、メモリ待ち時間に敏感である。他の作業負荷は、ビデオ編集機のためのコンテンツ制作ソフトウェア等のように、メモリ帯域幅に敏感である。

【0006】

また、現在のメモリパフォーマンス状態アルゴリズムは、コース（course）帯域幅要求に基づく。各パフォーマンス状態は、帯域幅カットオフをサポートする。要求が満たされない場合、次のより高い適切な状態が、電力管理ユニットによって選択される。パフォーマンス状態が高いほど、より高い周波数及び電圧で実行される。例えば、同種計算ユニット（例えば、中央処理ユニット）帯域幅要求に基づいて、データファブリック周波数が増加され、メモリコントローラ周波数が増加され、及び、非計算ユニットの電圧が全て上昇又は下降する。これは、より高い電力を必要とする。帯域幅は、データを通信するために使用される並列データバスの数、データバス幅及び要素の周波数の関数である。既存の解決策は、より多くの帯域幅を提供するためのレバーとして周波数を使用するが、周波数が高いほど、そのような帯域幅を送達するのにより高い電圧及び電力コストを必要とすることを示唆する。

【0007】

集積回路のための電力管理システムを改善して、電力消費及びパフォーマンスを向上させることが望ましい。

【0008】

実施形態は、同様の符号が同様の要素を表す以下の図を伴う場合に、以下の説明を考慮してより容易に理解されるであろう。

【図面の簡単な説明】

【0009】

【図1】本開示に記載される一例による、異種作業負荷タイプ検出及び非計算ユニット電力制御を伴う電力管理を含む集積回路を例示するブロック図である。

【図2】本開示に記載される一例による、１つ以上の集積回路のための電力管理を提供するための方法を示すフローチャートである。

【図3】本開示に記載される一例による、待ち時間及び帯域幅ベースの非計算ユニット電力制御を電力管理に提供する集積回路を示すブロック図である。

【図4】以下に記載される１つ以上の例による、１つ以上の集積回路に電力管理を提供するための方法を示すフローチャートである。

【図5】本開示に記載される一例による、メモリ待ち時間ベースの非計算ユニット電力制御を伴う電力管理制御を含む装置を示すブロック図である。

【図6】本開示に記載される一例による、非計算ユニット電力制御を用いる装置を示すブロック図である。

【図7】本開示に記載される一例による、メモリパフォーマンス状態テーブルを示す図である。

【図8】本開示に記載される一例による、電力管理ロジックを示すブロック図である。

【図9】本開示に記載される一例による、メモリパフォーマンス状態変化を示す状態図である。

【図10】本開示に記載される一例による、電力管理を提供するための方法を示すフロー図である。

【図11】本開示に記載される一例による、検出される待ち時間遅延を示すタイミング図である。

【発明を実施するための形態】

【0010】

以下の説明において、異なる図面における同一の符号の使用は、同様の又は同一のアイテムを示す。別段言及されなければ、「結合される」という単語及びその関連する動詞形は、当該技術分野で知られている手段による直接接続及び間接電気接続の両方を含み、また、別段言及されなければ、直接接続の任意の記述は、好適な形態の間接電気接続を使用する代替の実施形態も意味する。

【0011】

方法及び装置は、いくつかの実施形態では、作業負荷認識方式（workload-aware manner）で、データファブリッククロック、メモリコントローラクロック、相互接続クロックのうち１つ以上を制御することによって、非コアユニットとも称される非計算ユニットへの電力レベルの制御を提供する。いくつかの実施形態では、非コアユニットの電力レベルは、メモリパフォーマンス状態（Ｐ状態）内の方式でグループ化される。いくつかの例では、実行時間電力管理動作が、作業負荷のメモリ帯域幅及び／又はメモリ待ち時間特性に基づいて、非計算ユニット動作状態を決定する。

【0012】

いくつかの実施形態では、方法及び装置は、待ち時間及び／又は帯域幅についての状態及びアプリケーション固有要件（application specific requirements）を区別する。いくつかの例では、使用ケースが待ち時間に敏感である場合にのみ、特定のデータファブリック周波数が引き上げられる。特定の実施形態では、帯域幅中心の適用について、周波数は、周波数を最小レベルに維持しながら、従来のシステムよりも計算ユニットによってデータファブリックに対して利用可能な多数のポートを使用すること等によって、並列インターフェースを介して最大帯域幅を送達するのに十分な最小レベルに維持される。いくつかの実施形態では、方法及び装置は、サーバシステム内の複数のソケット間のコヒーレントトラフィックの待ち時間要件を考慮に入れて、ＳＯＣ内と同様にファブリック周波数を決定する。非計算ユニットは、クロック周波数及び他の依存性等のように、それらの間に依存性を有する場合が多い。

【0013】

特定の実施形態では、１つ以上の集積回路（ＩＣ）に電力管理を提供するための方法は、ＩＣ上の複数の異種計算ユニットの各々の上で実行するそれぞれの作業負荷に関連付けられたメモリ帯域幅レベルを決定することと、決定されたメモリ帯域幅レベルに基づいて、ＩＣ上のメモリシステムの少なくとも１つの非計算ユニットの電力レベルを、第１の電力レベルから第２の電力レベルに調整することと、を含む。

【0014】

いくつかの例では、メモリ帯域幅レベルは、ＩＣ上の複数の異種計算ユニットの各々に関連付けられたメモリアクセストラフィックを監視することを含み、その少なくとも１つの非計算ユニットを使用して、複数の異種計算ユニットによって使用されるメモリにアクセスする。

【0015】

特定の例では、非計算ユニットは、異種計算ユニットとメモリとの間でデータを転送するデータファブリックを含み、メモリシステムの非計算ユニットの電力レベルは、より高いデータファブリッククロック周波数設定値及びより高い電圧レベルを用いて同じ最大レベルメモリデータ転送レートを提供する別のメモリパフォーマンス状態と比較して、データファブリックの低減された周波数クロック及び低減された電圧レベルを用いて、規定の電力割り当てについて最大レベルメモリデータ転送レートを提供するメモリパフォーマンス状態を選択することを含む。

【0016】

いくつかの例では、電力レベルを調整することは、メモリパフォーマンス状態テーブルにアクセスすることを含み、そのメモリパフォーマンス状態テーブルは、複数のメモリパフォーマンス状態であって、各状態が、パフォーマンス状態に対して許容できるメモリデータ転送速度、非計算メモリシステム電圧設定値、データファブリッククロック周波数設定値、及び、メモリクロック周波数設定値を表すデータを含む、複数のメモリパフォーマンス状態を含み、少なくとも第１のパフォーマンス状態及び第２のパフォーマンス状態は、同じ最大レベルメモリデータ転送レートを含み、第１のパフォーマンス状態は、第２のパフォーマンス状態と比較して、低いデータファブリック周波数設定値及び低い非計算メモリシステム電圧設定値を有する。

【0017】

特定の実施形態では、集積回路は、複数の異種計算ユニットと、複数の計算ユニットに動作可能に結合された複数の非計算ユニットと、を含む。電力管理ロジック（Power management logic、ＰＭＬ）は、ＩＣ上の複数の異種計算ユニットの各々の上で実行するそれぞれの作業負荷に関連付けられたメモリ帯域幅レベルを決定し、決定されたメモリ帯域幅レベルに基づいて、ＩＣ上のメモリシステムの少なくとも１つの非計算ユニットの電力レベルを第１の電力レベルから第２の電力レベルに調整する。

【0018】

いくつかの例では、電力管理ロジックは、ＩＣ上の複数の異種計算ユニットの各々に関連付けられたメモリアクセストラフィックを少なくとも監視することによって、メモリ帯域幅レベルを決定し、少なくとも１つの非計算ユニットは、複数の異種計算ユニットによって使用されるメモリにアクセスするために使用される。

【0019】

特定の例では、少なくとも１つの非計算ユニットは、異種計算ユニットとメモリとの間でデータを転送するデータファブリックを含み、電力管理ロジックは、メモリシステムの非計算ユニットの電力レベルを、少なくとも、より高いデータファブリッククロック周波数設定値及びより高い電圧レベルを用いて同じ最大レベルメモリデータ転送レートを提供する別のメモリパフォーマンス状態と比較して、データファブリックの低減された周波数クロック及び低減された電圧レベルを用いて、規定の電力割り当てについて最大レベルメモリデータ転送レートを提供するメモリパフォーマンス状態を選択することによって調整する。

【0020】

いくつかの例では、電力管理ロジックは、メモリパフォーマンス状態テーブルにアクセスすることによって電力レベルを調整し、そのメモリパフォーマンス状態テーブルは、複数のメモリパフォーマンス状態であって、各状態が、パフォーマンス状態に対して許容できるメモリデータ転送速度、非計算メモリシステム電圧設定値、データファブリッククロック周波数設定値、及び、メモリクロック周波数設定値を表すデータを含む、複数のメモリパフォーマンス状態を含み、少なくとも第１のパフォーマンス状態及び第２のパフォーマンス状態は、同じ最大レベルメモリデータ転送レートを含み、その第１のパフォーマンス状態は、第２のパフォーマンス状態と比較して、低いデータファブリック周波数設定値及び低い非計算メモリシステム電圧設定値を有する。

【0021】

特定の実施形態では、集積回路は、複数の計算ユニットと、その複数の計算ユニットに動作可能に結合された複数の非計算ユニットと、を含む。電力管理ロジックは、複数の計算ユニット上で実行する作業負荷に関連付けられたメモリアクセス待ち時間を検出し、検出されたメモリアクセス待ち時間に基づいて、複数の非計算ユニットに関連付けられたメモリパフォーマンス状態を変更する。

【0022】

いくつかの例では、装置は、少なくとも別の集積回路とデータを通信するように構成されたデータファブリックを含み、電力管理ロジックは、別のＩＣの計算ユニットに関連付けられたメモリアクセス待ち時間を検出し、別の集積回路に関連付けられた検出されたメモリアクセス待ち時間に基づいて、複数の非計算ユニットに関連付けられたメモリを変更する。

【0023】

特定の例では、電力管理ロジックは、ＩＣ上の複数の異種計算ユニットの各々の上で実行するそれぞれの作業負荷に関連付けられたメモリ帯域幅レベルを決定し、検出されたメモリアクセス待ち時間及び決定されたメモリ帯域幅レベルの両方に基づいて、メモリパフォーマンス状態を選択する。

【0024】

いくつかの例では、複数の非計算ユニットは、データファブリックと、１つ以上のメモリコントローラと、メモリへの関連するＰＨＹインターフェース等のメモリ制御ロジックと、を含む。電力管理ロジックは、中央処理コア計算ユニットに関連付けられた検出されたメモリ待ち時間レベル、及び、グラフィックス処理コア計算ユニットに関連付けられた決定されたメモリ帯域幅レベルを表すデータ間のアービトレーションを行うことによって、メモリパフォーマンス状態を選択する。

【0025】

特定の例では、電力管理ロジックは、実行時間中に中央処理計算ユニットによって出されるメモリロード要求に関連付けられたメモリアクセス待ち時間を検出するメモリ待ち時間モニターロジックと、複数の計算ユニットのうち他の計算ユニットに関連付けられたメモリ帯域幅レベルを検出するメモリ帯域幅監視ロジックと、を含む。

【0026】

いくつかの例では、電力管理ロジックは、別の集積回路上の計算ユニットに関連付けられたメモリ帯域幅を検出するように構成された集積回路間メモリ帯域幅モニターロジック（cross integrated circuit memory bandwidth monitor logic）を含み、電力管理ロジックは、別の集積回路からの検出されたメモリ帯域幅レベルに基づいて、メモリパフォーマンス状態を、データファブリッククロック周波数を最高パフォーマンス状態レベルに増加させることを含む最高電力状態に増加させる。

【0027】

特定の例では、電力管理ロジックは、少なくとも１つの計算ユニットの待ち時間の改善を、少なくとも別の計算ユニットの帯域幅の改善よりも優先する。

【0028】

いくつかの例では、電力管理ロジックは、少なくとも第１の計算ユニットに関連付けられた作業負荷のためのメモリ待ち時間を検出し、検出されたメモリ待ち時間に基づいて、第１のメモリパフォーマンス状態を提供するメモリ待ち時間検出ロジックを含む。特定の実施形態では、電力管理ロジックは、少なくとも第２の計算ユニットによって使用されるメモリ帯域幅レベルを検出し、検出されたメモリ帯域幅レベルに基づいて、第２のメモリパフォーマンス状態を提供するメモリ帯域幅検出ロジックを含む。いくつかの実施形態では、電力管理ロジックは、第１及び第２のメモリパフォーマンス状態に基づいて、及び、利用可能な電力ヘッドルームに基づいて、最終的なメモリパフォーマンス状態を選択するアービトレーションロジックを含む。

【0029】

特定の例では、複数の計算ユニットは、複数の異種計算ユニットを含み、電力管理ロジックは、ＩＣ上の複数の異種計算ユニットの各々の上で実行するそれぞれの作業負荷に関連付けられたメモリ帯域幅レベルを決定し、決定されたメモリ帯域幅レベルに基づいて、ＩＣ上のメモリシステムの少なくとも１つの非計算ユニットの電力レベルを第１の電力レベルから第２の電力レベルに調整する。

【0030】

【0031】

特定の実施形態では、装置は、メモリシステムと、メモリシステムに動作可能に結合された複数の計算ユニットと、メモリシステムの複数のメモリ非計算ユニットと、を含み、そのメモリ非計算ユニットは、データファブリックと、メモリコントローラと、メモリへのＰＨＹインターフェース等のメモリインターフェースロジックと、を含む。電力管理ロジックは、複数の計算ユニット上のうち少なくとも１つで実行する作業負荷に関連付けられたメモリアクセス待ち時間を検出し、複数の計算ユニットのうち複数の上で実行するそれぞれの作業負荷に関連付けられたメモリ帯域幅レベルを決定し、検出されたメモリアクセス待ち時間及び決定されたメモリ帯域幅レベルに基づいて、複数の非計算ユニットに関連付けられたメモリパフォーマンス状態を変更する。

【0032】

いくつかの例では、電力管理ロジックは、データファブリックの動作状態を制御することによってメモリパフォーマンス状態を変更して、メモリ待ち時間に敏感な作業負荷が複数の計算ユニットのうち少なくとも１つによって実行されるという決定に応じて、データファブリックのクロック周波数を増加させて、メモリのための最大レベルメモリデータ転送レートを提供することと、帯域幅レベルの増加が計算ユニットのために必要であることに応じて、より高いデータファブリッククロック周波数設定値、及び、より高い電圧レベルと同じ最大レベルメモリデータ転送レートを提供する別のメモリパフォーマンス状態と比較して、データファブリックの低減された周波数クロック及び低減された電圧レベルを用いて、規定の電力割り当てについて最大レベルメモリデータ転送レートを提供するメモリパフォーマンス状態を選択することと、を行う。

【0033】

特定の例では、電力管理ロジックは、少なくとも第１の計算ユニットに関連付けられた作業負荷のためのメモリ待ち時間を検出し、検出されたメモリ待ち時間に基づいて、第１のメモリパフォーマンス状態を提供するメモリ待ち時間検出ロジックを含む。いくつかの実施形態では、電力管理ロジックは、少なくとも第２の計算ユニットによって使用されたメモリ帯域幅レベルを検出し、検出されたメモリ帯域幅レベルに基づいて、第２のメモリパフォーマンス状態を提供する帯域幅検出ロジックを含む。いくつかの実施形態では、電力管理ロジックは、第１及び第２のメモリパフォーマンス状態に基づいて、及び、利用可能な電力ヘッドルームに基づいて、最終的なメモリパフォーマンス状態を選択するアービトレーションロジックを含む。いくつかの例では、電力管理ロジックは、少なくとも１つの計算ユニットの待ち時間の改善を、少なくとも別の計算ユニットの帯域幅の改善よりも優先する。

【0034】

特定の例では、装置は、データファブリックとインターフェース接続し、両方のＩＣ内の計算ユニットにインターフェース接続するコヒーレントデータファブリックソケットを含む。電力管理ロジックは、コヒーレントデータファブリックソケットを使用して、計算ユニットに関連付けられたメモリアクセス待ち時間を検出し、他の集積回路に関連付けられた検出されたメモリアクセス待ち時間に基づいて、複数の非計算ユニットに関連付けられたメモリパフォーマンス状態を変更する。

【0035】

いくつかの例では、電力管理ロジックは、複数のメモリパフォーマンス状態を含むメモリパフォーマンス状態テーブルにアクセスすることによって電力レベルを調整し、各状態は、パフォーマンス状態に対して許容できるメモリデータ転送速度、非計算メモリシステム電圧設定値、データファブリッククロック周波数設定値、及び、メモリクロック周波数設定値を表すデータを含み、少なくとも第１のパフォーマンス状態及び第２のパフォーマンス状態は、同じ最大レベルメモリデータ転送レートを含み、その第１のパフォーマンス状態は、第２のパフォーマンス状態と比較して、低いデータファブリック周波数設定値及び低い非計算メモリシステム電圧設定値を有する。

【0036】

図１は、システムオンチップ又は任意の他の好適な集積回路等の集積回路１００の例を示し、この例は、各々がデータを処理し、キャッシュメモリ、揮発性若しくは不揮発性メモリ等の共有メモリ、又は、任意の好適なメモリ等のメモリにアクセする複数の計算ユニット１０２を含む。いくつかの実施形態では、計算ユニットは、複数の非計算ユニット１０４を介してアクセス可能である。一実施形態では、非計算ユニットは、メモリシステムのコンポーネントであり、このコンポーネントは、いくつかの実施形態では、ＤＲＡＭ又は任意の他の好適なメモリ等のメモリ１０６を含む。このメモリ１０６は、いくつかの実施形態では、集積回路１００内に集積化され、他の実施形態では、チップ外にある。この例では、計算ユニット１０２は、異種計算ユニットであるが、同種計算ユニットも使用することができる。

【0037】

集積回路１００は、好適な通信経路１１０を介して、複数の異種計算ユニットのための電力設定値、及び、複数の非計算ユニットのための電力設定値を制御する電力管理ロジック１０８を含む。この実施形態では、電力管理ロジック１０８は、以下で更に説明されるように、異種作業負荷タイプ検出及び非計算電力消費を制御するための非計算ユニット電力制御を含む。この例では、キャッシュメモリ、レジスタメモリ又は任意の他の好適なメモリ等のメモリ１１２は、電力管理ロジック１０８が非計算ユニット１０４のためのクロック周波数及び電圧設定値を制御するためのメモリパフォーマンス状態テーブル１１４を提供する。いくつかの実施形態では、電力管理ロジック１０８は、テーブルを生成する。特定の実施形態では、メモリパフォーマンス状態テーブル１１４は、メモリに記憶され、電力管理ロジックによってアクセス可能である。テーブルが使用される場合、規定の各最大電力割り当てのための個別のテーブルにより、ＩＣ、又は、ＩＣがモバイルデバイスであるか若しくは非モバイルデバイスであるか等にかかわらず使用されるデバイスのタイプに応じて、異なる制御が可能になる。当技術分野で知られているように、メモリ１１２は、所望であれば、異種計算ユニット１０２のパフォーマンス状態を制御するための他のパフォーマンス状態テーブルも同様に含む。

【0038】

いくつかの実施形態では、集積回路１００は、システムオンチップであり、そこでは、異種計算ユニットは、各々、異なるタイプの計算ユニットであり、その計算ユニットは、中央処理コア１１６、グラフィックスコア１１８、及び、ビデオコーデック等の１つ以上のマルチメディアエンジン１２０を含む。そのような集積回路は、いくつかの例では、データセンタサーバ、ラップトップ、デスクトップ、ゲームコンソール、プリンタ、スマートフォン、ウェアラブル、及び、任意の他の好適なデバイスにおいて用いられる。したがって、集積回路は、いくつかの例では、モバイルデバイスの場合にバッテリーに結合され、他の実施形態では、電源が電源コンセント若しくは他の無制限電源である場合のサーバ、デスクトップ、ゲームコンソール又は他のデバイスにおいて使用される。

【0039】

この実施形態及び他の実施形態では、電力管理ロジック１０８は、ファームウェアを実行するマイクロコントローラとして実装されるが、以下に限定されない、１つ以上の状態機械、フィールドプログラマブルゲートアレイ又は他の実装等のように、任意の好適な構成が用いられ得る。更に、この例における電力管理ロジック１０８は、以下で更に説明されるように、メモリ帯域幅モニターを含み、そのメモリ帯域幅モニターは、メモリ１０６又は任意の他の好適なメモリに対して異種計算ユニット１０２の各々によって使用されるメモリ帯域幅レベルを検出するように構成される。

【0040】

電力管理ロジック１０８は、ＩＣ上の複数の異種計算ユニットの各々に関連付けられたメモリアクセストラフィックを監視することによって、メモリ帯域幅レベルを決定する。この例では、非計算ユニットを使用して、複数の異種計算ユニットによって使用されるメモリにアクセスし、一例では、非計算ユニットは、データファブリックを含み、別の非計算ユニットは、メモリコントローラを含み、別の非計算ユニットは、物理メモリインターフェース（ＰＨＹ）を含む。いくつかの実施形態では、非計算ユニットは、異種計算ユニットとメモリ１０６との間でデータを転送するデータファブリックを含む。いくつかの実施形態では、ＧＰＵ及びＣＰＵの両方が、電力制約条件下で、最大帯域幅及び最小待ち時間から恩恵を受けることができるのに対して、電力管理ロジックは、例えば、ＣＰＵトラフィックが待ち時間に対して最適化されるべきであり、グラフィックストラフィックがパフォーマンス／ワットに対して最適化されるべきであるという静的仮定（static assumptions）を行う。マルチメディアユニット（Multimedia unit、ＭＭ）トラフィックは、待ち時間及び帯域幅の両方に敏感であり、ＭＭトラフィック要求を検出すると、以下でも説明されるように、電力管理ロジックは、非コアユニットをメモリ状態Ｐ０に競合させる。

【0041】

いくつかの実施形態では、非計算ユニットのうち何れかは、データファブリックを含み、別の非計算ユニットは、データファブリックと通信するメモリコントローラを含み、別の非計算ユニットは、メモリコントローラとメモリ１０６との間に物理（ＰＨＹ）メモリインターフェースを含み、いくつかの実施形態では、非計算ユニットは、ＰＣＩＥ、ユニバーサルシリアルバス、並びに、他の相互接続回路等の相互接続回路及び入力／出力相互接続回路を含む。以下で更に説明されるように、データファブリックは、異種計算ユニット１０２とメモリ１０６との間でデータを転送する。

【0042】

図２も参照すると、フローチャートは、１つ以上の集積回路に電力管理を提供するための方法を示しており、いくつかの実施形態では、電力管理ロジック１０８によって実行される。ただし、任意の他の好適なロジックが動作を実行することができ、その動作が任意の好適な順序で実行され得ることが認識されるであろう。ブロック２００に示すように、本方法は、複数の異種計算ユニット１０２の各々の上で実行するそれぞれの作業負荷に関連付けられたメモリ帯域幅レベルを決定することを含む。ブロック２０２によって示されているように、本方法は、複数の異種計算ユニット１０２の各々の上で実行するそれぞれの作業負荷に関連付けられた決定されたメモリ帯域幅レベルに基づいて、メモリシステムの非計算ユニット１０４のうち少なくとも１つの電力レベルを、第１の電力レベルから第２の電力レベルに調整することを含む。

【0043】

言い換えると、集積回路１００は、複数の異種計算ユニット１０２、複数のメモリシステム非計算ユニット１０４及び複数の異種タイプの作業負荷のうち何れがＩＣ上の異種計算ユニットのうち１つ以上によって実行されているかを判定する電力管理ロジック１０８を含む。これは、以下で更に説明されるように、各計算ユニットについて帯域幅検出器を使用し、各計算ユニットの帯域幅使用量を評価することによって行われる。電力管理ロジック１０８は、決定されたタイプの異種作業負荷に対して増加した電力割り当てを提供する、データファブリック等の少なくとも１つのメモリシステム非計算ユニットの動作状態を調整する。例えば、非計算ユニット電力を減少させて、より多くの電力が、計算ユニット電力に適用するために利用可能であるようにする。例えば、計算の電圧及び／又は動作周波数は、計算ユニットのためのＰＳｔａｔｅテーブルを使用すること等を通じた既知の技術を使用して、電力管理ロジック１０８によって増加される。

【0044】

図３は、図１に示されたものと同様の帯域幅監視ベース非計算ユニット電力制御に加えて、ＣＰＵコア１１６等の非計算ユニットに関連付けられたメモリ待ち時間を監視する電力管理ロジック３０２を用いる集積回路３００の別の例を示すブロック図である。いくつかの実施形態では、電力管理ロジック３０２は、帯域幅監視を提供せずに、計算ユニットのうち１つ以上についてのメモリ待ち時間監視を提供する。説明のために、この例における電力管理ロジック３０２は、メモリ待ち時間監視及び帯域幅監視の両方を用いて、非計算ユニット電力レベルを制御する。いくつかの実施形態における計算ユニット１０２は、全てのＣＰＵコア又は全てのＣＰＵ複合体オンチップ等のように、全て同じタイプ（すなわち、同種）であり、したがって、異種ではないことが認識されるであろう。しかしながら、この例では、計算ユニット１０２は、異種計算ユニットであるように示されている。異種計算ユニットは、異なるタイプのユニットであるのに対して、同種計算ユニットは、全て同じタイプであり、例えば、全てのＣＰＵ、全てのＧＰＵ、又は、例えば、全てのマルチメディアユニットを意味する。

【0045】

この例における電力管理ロジック３０２は、電力管理ロジック１０８と同様であるだけでなく、メモリ待ち時間検出も含み、その結果、メモリ待ち時間及びメモリ帯域幅監視の両方を使用して、非計算ブロックのための好適な電力レベルを決定する。更に、この実施形態は、別のＳＯＣ等の別の集積回路３０６と相互接続するために使用される集積回路間ソケットの使用を示している。このソケットは、例えば、データファブリックと相互接続する。パフォーマンス状態テーブル１１４は、所定の動作モードのために割り当てられた異なる規定の最大電力レベルに対する、非計算ユニットのためのメモリパフォーマンス状態設定値を含む。例えば、一例におけるメモリＰＳｔａｔｅテーブルは、例えば、ラップトップ構成の場合、１５ワットで最高限度に達するのに対して、別のメモリＰＳｔａｔｅテーブルは、デスクトップ又はサーバの実施形態の場合、４５ワットの電力割り当てを可能にし、ただし、任意の好適な電力割り当てを、任意の好適な数のパフォーマンス状態テーブルで用いることができる。

【0046】

図４を参照すると、集積回路４００等の１つ以上の集積回路に電力管理を提供するための方法が示されている。動作は、任意の好適な順序で行われ、任意の好適な構造によって実行され得ることが認識されるであろう。特定の実施形態では、本方法は、電力管理ロジック３０２によって実行される。一実施形態では、電力管理ロジック３０２は、ＣＰＵコア１１６等の同種ユニットのためのメモリアクセス待ち時間検出のみを実行するように構成される。他の実施形態では、電力管理ロジック３０２は、計算ユニットのためのメモリ待ち時間検出及びメモリ帯域幅レベル検出の両方を実行する。

【0047】

いくつかの実施形態では、ブロック４０２に示すように、本方法は、複数の計算ユニットのうち少なくとも１つの上で実行する作業負荷に関連付けられたメモリアクセス待ち時間を検出することを含む。例えば、ＣＰＵコア上で実行する作業負荷は、ＣＰＵコア１１６によって経験したメモリ待ち時間を評価するメモリ待ち時間検出器の使用を通じて監視される。ブロック４０４に示すように、本方法は、検出されたメモリアクセス待ち時間に基づいて、ＣＰＵ等の非計算ユニットに関連付けられたメモリパフォーマンス状態を変更することを含む。例えば、待ち時間の誤りがＣＰＵについて検出された場合、電力管理ロジックは、メモリ電力状態をその最低レベル（最高電力状態）に増加させ、その結果、ＣＰＵは、作業負荷を実行する間、待ち時間による中断を経験しない。したがって、待ち時間作業負荷は、帯域幅集中的作業負荷よりも優先される。

【0048】

特定の実施形態では、本方法は、同じ又は他の計算ユニットについて検出される帯域幅レベルも考慮に入れて、所定のシナリオについて最良のメモリパフォーマンス状態を提供しようと試みる。ブロック４０６に示すように、本方法は、この例において、ＧＰＵコア、マルチメディアエンジン及びＣＰＵコアを含む複数の計算ユニットのうち少なくとも１つの上で実行するそれぞれの作業負荷に関連付けられたメモリ帯域幅レベルを決定することを含む。ブロック４０８に示すように、電力管理ロジックは、ブロック４０２からの検出されたメモリアクセス待ち時間、及び、様々な計算ユニットに関連付けられた決定されたメモリ帯域幅レベルの両方を考慮に入れ、検出されたメモリアクセス待ち時間に基づいて、且つ、ブロック４０６からの決定された帯域幅レベルに基づいて、メモリパフォーマンス状態を変更する。例えば、インソケット又はオンチップのローカル待ち時間に敏感なスレッドに対して、電力管理ロジック３０２は、帯域幅最適化よりも待ち時間最適化を優先する。ただし、複数の計算ユニットの帯域幅要件が特定のレベルを超えて、帯域幅の使用がボトルネックになる場合、電力管理ロジックは、待ち時間最適化設定値を上書きする。また、ソケット間のコヒーレントデータ転送のための待ち時間等のように、複数の集積回路間のソケットにわたる待ち時間感度も対処される。例えば、トランザクションデータベースのような作業負荷は、データセンタにおいて大容量のメモリ領域を必要とし、各ソケットに必ずしも完全に局所化されないが、待ち時間問題に敏感であり得る。そのような状況では、電力管理ロジックは、ファブリック周波数及び電圧を引き上げる。何れにしても、例えば、メモリ帯域幅は、それ以上高くすることができない。

【0049】

図５は、データ処理システム内で使用するのに好適なＡＰＵ等の集積回路（ＩＣ）３００のブロック図を示している。ただし、ＩＣ３００は、例えば、デスクトップコンピュータ、ゲームコンソール、ラップトップ、タブレット、ウェアラブル等のモバイルデバイス、又は、他の好適なデバイスで使用するためのＳＯＣを含む、任意の好適なＩＣであってもよい。この例では、ＩＣ３００は、概して、中央処理ユニット（central processing unit、ＣＰＵ）コア複合体２１０、グラフィックスコア１１８、ディスプレイエンジン若しくはマルチメディアエンジン１２０のセット、メモリ管理ハブ２４０、データファブリック５１８、周辺コントローラ２６０のセット、周辺バスコントローラ２７０のセット、システム管理ユニット（system management unit、ＳＭＵ）２８０、並びに、メモリコントローラ２９０（メモリコントローラ５２２及びメモリコントローラ５２０）のセットを含む。

【0050】

ＣＰＵコア複合体２１０は、ＣＰＵコア１１６を含む。この例では、ＣＰＵコア複合体２１０が２つのＣＰＵコアを含むが、他の実施形態では、ＣＰＵコア複合体は、任意の数のＣＰＵコアを含むことができる。ＣＰＵコア１１６及び２１４の各々は、制御ファブリックを形成するシステム管理ネットワーク（system management network、ＳＭＮ）に、且つ、データファブリック５１８に双方向に接続され、データファブリック５１８にメモリアクセス要求を提供することができる。ＣＰＵコア１１６及び２１４の各々は、単体のコアであってもよく、又は、更にキャッシュ等の特定のリソースを共有する２つ以上の単体のコアを有するコア複合体であってもよい。

【0051】

グラフィックスコア１１８は、頂点処理、フラグメント処理、シェーディング、テクスチャーブレンディング等のグラフィックス動作を、高度に統合化された並列方式で実行することができる高パフォーマンスグラフィックス処理ユニット（ＧＰＵ）である。グラフィックスコア１１８は、ＳＭＮに且つデータファブリック５１８に双方向に接続され、メモリアクセス要求をデータファブリック５１８に提供することができる。この点について、ＡＰＵは、ＣＰＵコア複合体２１０及びグラフィックスコア１１８が同じメモリ空間を共有する統合化メモリアーキテクチャか、又は、ＣＰＵコア複合体２１０及びグラフィックスコア１１８がメモリ空間の一部を共有するのに対して、グラフィックスコア１１８がＣＰＵコア複合体２１０によってアクセス不可能なプライベートグラフィックスメモリも使用するメモリアーキテクチャの何れかをサポートすることができる。

【0052】

マルチメディアエンジン１２０又はディスプレイエンジンは、モニター上に表示するための、グラフィックスコア１１８によって生成されたオブジェクトをレンダリングしてラスタライズする。グラフィックスコア１１８及びディスプレイエンジンは、メモリシステム内の好適なアドレスへの均一な変換のための共通のメモリ管理ハブ２４０に双方向に接続され、そのメモリ管理ハブ２４０は、そのようなメモリアクセスを生成して、メモリシステムから戻される読み取りデータを受信するためのデータファブリック５１８に双方向に接続されている。

【0053】

データファブリック５１８は、任意のメモリアクセスエージェントとメモリコントローラ２９０（メモリコントローラ５２２及びメモリコントローラ５２０）との間でメモリアクセス要求及びメモリ応答をルーティングするためのクロスバースイッチを含む。また、データファブリックは、システム構成に基づいてメモリアクセスの送信先を決定するための、ＢＩＯＳによって規定されるシステムメモリマップ、並びに、各仮想接続のためのバッファも含む。

【0054】

周辺コントローラ２６０は、ＵＳＢコントローラ５０６及びＳＡＴＡインターフェースコントローラ２６４を含み、これらの各々は、システムハブ２６６に且つＳＭＮバスに双方向に接続されている。これらの２つのコントローラは、ＡＰＵ内で使用され得る周辺コントローラの単なる例示である。

【0055】

周辺バスコントローラ２７０は、システムコントローラ又は「サウスブリッジ」（Southbridge、ＳＢ）２７２、及び、ＰＣＩｅコントローラ５０４を含み、これらの各々は、入力／出力（input／output、Ｉ／Ｏ）ハブ５０８に且つＳＭＮバスに双方向に接続されている。また、Ｉ／Ｏハブ５０８は、システムハブ２６６に且つデータファブリック５１８にも双方向に接続されている。したがって、例えば、ＣＰＵコアは、データファブリック５１８がＩ／Ｏハブ５０８を介してルーティングするアクセスにより、ＵＳＢコントローラ５０６、ＳＡＴＡインターフェースコントローラ２６４、ＳＢ２７２又はＰＣＩｅコントローラ５０４内のレジスタをプログラムすることができる。

【0056】

ＳＭＵ２８０は、ＡＰＵ上のリソースの動作を制御して、それらの間の通信を同期させるローカルコントローラである。ＳＭＵ２８０は、ＡＰＵ上の様々なプロセッサの電力アップ順序付けを管理し、リセット信号、有効信号又は他の信号を介して複数のオフチップデバイスを制御する。ＳＭＵ２８０は、ＡＰＵのコンポーネントの各々にクロック信号を提供するために、図２には示されていない、位相ロックループ（phase locked loop、ＰＬＬ）等の１つ以上のクロックソースを含む。また、ＳＭＵ２８０は、様々なプロセッサ及び他の機能ブロックのための電力も管理し、ＣＰＵコア１１６及び２１４、並びに、グラフィックスコア１１８からの測定された電力消費値を受信して、適切な電力状態を決定することができる。

【0057】

また、ＡＰＵは、様々なシステム監視機能及び節電機能も実装する。特に、１つのシステム監視機能は熱監視である。例えば、ＡＰＵが高温になった場合、ＳＭＵ２８０は、ＣＰＵコア１１６及び２１４、並びに／又は、グラフィックスコア１１８の周波数及び電圧を減少させることができる。ＡＰＵが高温になりすぎる場合、ＳＭＵを完全に停止することができる。ＳＭＮバスを介してＳＭＵ２８０によって外部センサから熱事象を受けることもでき、ＳＭＵ２８０は、それに応じてクロック周波数及び／又は電源電圧を低減することができる。

【0058】

また、図５は、ＳＯＣ間のコヒーレントデータファブリックを接続するソケット等のソケット３０８を介して相互接続されている複数の集積回路３００及び３０６を示している。そのような実施形態は、サーバシステム及びデータセンタ、並びに、複数のＳＯＣを用いる任意の他のデバイスで用いられ得る。したがって、この例では、ＩＣは、データファブリックに且つ複数の計算ユニットのうちいくつかに結合されたコヒーレントデータファブリックソケットを含み、電力管理ロジック３０２は、コヒーレントデータファブリックソケットを使用して、計算ユニットに関連付けられたメモリアクセス待ち時間及び／又は帯域幅を別のＩＣから検出し、別の集積回路に関連付けられた検出されたメモリアクセス待ち時間に基づいて、複数の非計算ユニットに関連付けられたメモリパフォーマンス状態を変更する。一例では、これは、より多くの帯域幅がＳＯＣ内又は他のソケット内のＳＯＣに対して必要である場合に、データファブリックのクロック周波数及び動作電圧を増加させて、データファブリックを介して帯域幅を改善することによって行われる。

【0059】

この例にも示されているように、集積回路３００は、入力／出力ハブ５０８を介した、相互接続ＰＣＩｅコントローラ５０４、５０６等のいくつかの異なる非計算ユニットを含む。帯域幅検出器５１０は、ＵＳＢ及びＰＣＩＥｘｐｒｅｓｓ相互接続を使用するクライアントのために、例えば、メモリ１０６にアクセスして、Ｉ／Ｏハブによってデータファブリックに渡されたメモリ帯域幅レベルを検出するように構成されている。独立した帯域幅検出器５１２、５１４、５１６は、データファブリック５１８とは異なるデータポートを介して、この例ではディスプレイエンジン、グラフィックスコア及びＣＰＵコアである異種計算ユニットに関連付けられたメモリアクセストラフィックを監視することによって、メモリ帯域幅レベルを検出するように構成されている。データファブリック５１８は、この例では異種計算ユニット１２０、１１６、１１８の間で、及び、相互接続非計算ユニット５０６、５０４のためにデータを転送する。電力管理ロジック（電力管理コントローラとも称される）３０２は、計算ユニットの各々に関連付けられたメモリアクセストラフィックを監視することによって、計算ユニットの各々についてのメモリ帯域幅レベルを決定する。作業負荷のタイプは、データファブリック５１８を介してメモリ１０６にアクセスする計算ユニットのタイプから推定される。例えば、グラフィックスコアのメモリ帯域幅使用量を監視している帯域幅検出器５１４によって検出された高帯域幅レベルは、ゲームアプリケーションがグラフィックスコアによって作業負荷として実行されていると判定するために使用されるであろう。同様に、ＣＰＵコアによって使用される帯域幅レベルを監視するように構成された帯域幅検出器５１６は、ＣＰＵの集中的な作業負荷であると推定することができる。データファブリック５１８は、物理インターフェース５２４及び５２６とともにそれぞれメモリシステムを形成するそれぞれのメモリコントローラ５２０及び５２２にデータフローを提供する。いくつかの実施形態におけるメモリシステムは、メモリ１０６も含む。したがって、いくつかの実施形態では、非計算ユニット５１８～５２６は、メモリ１０６にアクセスするために使用され、計算ユニットによって使用されてメモリにアクセスする。

【0060】

この実施形態では、データファブリック５１８は、ソケット３０８を介して、データを少なくとも別の集積回路３０６と通信するように構成されている。電力管理ロジック３０２は、ソケット待ち時間検出器を介してメモリアクセス待ち時間を検出し、及び／又は、ソケット帯域幅検出器５３０を介して帯域幅を検出する。一実施形態におけるソケット帯域幅検出器５３０は、ＳＯＣ３０６によって使用されているレーンの数を検出するレーン幅検出器である。使用されているレーンが多いほど、検出されるＳＯＣ３０６による帯域幅使用量が大きくなる。いくつかの実施形態では、ソケット帯域幅検出器５３０は、ソケット間待ち時間検出機構を含む。別のＳＯＣについての待ち時間は、他のＳＯＣからのＣＰＵがメモリを要求しているかどうか等の作業負荷タイプに基づいて推定され得るか、又は、待ち時間が、以下で更に説明されるように、各ＳＯＣからの待ち時間カウンタを使用して計算され得る。したがって、電力管理ロジックは、他のＩＣ３０６の計算ユニットに関連付けられたメモリアクセス待ち時間を検出し、データファブリック５１８、メモリコントローラ及び非計算ユニット５２０～５２６等の非計算ユニットに関連付けられたメモリパフォーマンス状態を変更して、ＳＯＣ３０６に関連付けられた検出されたメモリアクセス待ち時間に基づいて、非計算ユニットに関連付けられたメモリパフォーマンス状態を変更する。

【0061】

電力管理ロジック３０２は、計算ユニット１２０～１１８の各々の上で実行するそれぞれの作業負荷に関連付けられたメモリ帯域幅レベルを決定し、検出されたメモリアクセス待ち時間及び決定されたメモリ帯域幅の両方に基づいて、メモリパフォーマンス状態を選択する。待ち時間検出器５４０は、メモリ待ち時間検出ロジックとも称され、ＤＲＡＭ等のメモリ１０６へのメモリアクセスと関連して、ＣＰＵについてのメモリアクセス待ち時間を測定するように構成されている。帯域幅検出器及び待ち時間検出器の各々は、例えば、特定の計算ユニットによる、望ましくない待ち時間量又は望ましくない帯域幅使用量を示す閾値を設定するための構成レジスタに記憶されているプログラム可能な閾値を用いる。電力管理ロジック３０２は、実行時間中に中央処理計算コア１１６（計算ユニット）によって出されたメモリロード要求に関連付けられたメモリアクセス待ち時間を検出する待ち時間検出器５４０を含む。また、電力管理ロジック３０２は、それぞれの計算ユニットの各々に関連付けられたメモリ帯域幅レベルを検出する帯域幅検出器５１６、５１４、５１２、５１０も含む。帯域幅検出器の場所は、例えば、メモリ１０６へのメモリアクセス要求（例えば、読み取り及び書き込み）に関連付けられた着信及び発信データを検出するための、データファブリックへのデータポートの一部として、又は、所望に応じて任意の他の好適なインターフェースにおいて等のように、集積回路内の任意の好適な場所であり得ることが認識されるであろう。帯域幅検出器５１２は、データファブリックのデータポートを介してダイ間帯域幅を検出する。帯域幅検出器５１０は、ＰＣＩｅ接続デバイス等のＩ／Ｏデバイスから帯域幅を検出する。

【0062】

いくつかの実施形態では、ソケット帯域幅検出器５３０は、集積回路３０６内の計算ユニットに関連付けられたメモリ帯域幅を検出する集積回路間メモリ帯域幅モニターロジックとして機能する。電力管理ロジック３０２は、他の集積回路からの検出されたメモリ帯域幅レベルに基づいて、メモリパフォーマンス状態を、データファブリッククロック周波数を最高パフォーマンス状態レベルに増加させることを含む最高電力状態に増加させる。例えば、ソケット帯域幅検出器５３０が閾値を上回る帯域幅使用レベルを検出した場合、電力管理ロジック３０２は、データファブリッククロック周波数及び非計算ユニット電圧を増加させ、並びに、メモリコントローラ等の他の非計算ユニットについて、以前のパフォーマンス状態レベルから、データファブリック及びメモリシステムが処理することができる帯域幅の量を増加させることが所望される場合には、クロック周波数を増加させる。

【0063】

電力管理ロジック３０２は、グラフィックスコア１１８等の別の計算ユニットの帯域幅改善よりも、ＣＰＵコア１１６等の計算ユニットの待ち時間改善を優先する。例えば、望ましくない量の待ち時間がＣＰＵに対して検出された場合、より高い電力レベル（Ｐ１～Ｐ０等のより低い電力状態）が、電力管理ロジック３０２によって実施される。

【0064】

帯域幅検出器の各々は、帯域幅レベルデータ５５０等の帯域幅メトリックを電力管理ロジック３０２に提供する。同様に、待ち時間検出器５４０は、待ち時間カウントデータ５５２として示される遭遇した遅延負荷の数を示すカウントデータ等のように、メトリックの形態で測定された情報を提供する。いくつかの実施形態では、ＳＯＣ３０６は、ＳＯＣ３０４と同様の待ち時間及び帯域幅検出器構成を有するため、ソケット帯域幅検出器５３０ブロックは、ＳＯＣ３０６からの測定された待ち時間情報をＰＭＬに提供するＳＯＣ３０６内の待ち時間検出器を表し、その結果、以下で更に説明されるように、ＳＯＣ３０６からの待ち時間情報は、待ち時間検出器５４０からの待ち時間情報と比較されることができる。電力管理ロジック３０２はまた、動作状態電力制御データ５６０を非計算ユニットにも提供して、例えば、非計算ユニットの各々によって使用されるクロック周波数及び電圧レベルを制御する。一実施形態における電力制御データ設定値は、パフォーマンス状態テーブル１１４に記憶される。

【0065】

概して、電力管理ロジックは、計算的に集中した作業負荷の場合、非計算ユニットメモリＰ状態を最低レベル（Ｐ０）に押し進めて、計算リソースへのより多くの電力割り当てを可能にする。メモリコントローラ周波数（ＵＣＬＫ）によって多大に影響を受ける帯域幅最適化のために、電力管理ロジックは、最も高いメモリ周波数状態に移動する。例として、メモリＰ状態変更を作動させることができる主な帯域幅経路は、ＤＲＡＭ読み取り及び書き込みトラフィック、相互接続帯域幅使用量（例えば、ソケット上でのダイ間通信リンク、リンク及びソケット間リンク）、並びに、入力／出力ＰＣＩｅトラフィックである。

【0066】

ソケット内ローカル待ち時間に敏感なスレッドの場合、電力管理ロジックは、ＢＷ最適化よりも待ち時間最適化を優先する。ただし、ＢＷ要件が特定のレベルを超えた場合、ＢＷは、ボトルネックになり、したがって、電力管理ロジックは、任意の待ち時間最適化決定を無効にする。更に、大容量のメモリ領域を必要とし、したがって、各ソケットに必ずしも完全には局所化されないトランザクションデータベースのような作業負荷は、ソケット間のコヒーレントデータ転送のための待ち時間に敏感になり得る。電力管理ロジックは、ソケットにわたる待ち時間要求を点検することによってそのようなケースを検出し、ＤＲＡＭ帯域幅がそれ以上高くすることができない（例えば、接続されているメモリデバイスの最大速度によって制約される）場合であっても、ファブリック周波数を引き上げる。

【0067】

電力最適化について、これは、２つの段階、すなわち、活性状態にある場合の電力最適化、及び、待機状態にある場合の電力最適化に分けられる。

【0068】

特に電力制限された１５Ｗノートブックアプリケーションにおいて、高帯域幅及び最適ｐｊ／ビット要件を有するグラフィックスゲーム作業負荷等のように、活動中の電力（ｐｊ／ビット）が優先される。したがって、ＰＳｔａｔｅＰ２を使用して、非計算ユニット電力消費を低減し、ＧＰＵ等の計算ユニットのクロック周波数を増加させ、したがって、より高い電力割り当てを可能にする。ＰＭＬは、当技術分野において知られているように、計算ユニットＰＳｔａｔｅテーブルを使用して、ＧＰＵクロックをより高い速度に設定する。バッテリー寿命作業負荷にとって重要である、待機条件（低ＢＷ）中の電力消費について、ＰＭＬは、非計算ユニットを選択して、最低非計算電圧設定値（Ｖｍｉｎ）を有する最低ＰＳｔａｔｅ（Ｐ３）で動作する。

【0069】

また、図６～図７も参照すると、メモリパフォーマンス状態テーブル等のメモリパフォーマンス状態データの使用について説明されるであろう。任意の好適なデータ構造が用いられ得ることが認識されるであろう。図６は、集積回路３００の一部の一例を示すブロック図であり、電力管理ロジック３０２が非計算ユニットのための、１つ以上のクロック周波数及び電圧を制御することを示している。この例では、ＦＣＬＫは、データファブリック５１８のためのクロックであり、ＭＥＭＣＬＫは、メモリへの物理インターフェース（ＰＨＹ）５２４のためのクロックであり、ＵＣＬＫは、メモリコントローラ５２０のためのクロックである。Ｉ／Ｏハブ又はＰＣＩＥブロック等の相互接続非計算ブロックは、相互接続クロックを使用する。電圧レベルは、この例では、メモリ非計算ユニット間で共有され、電力管理ロジック（ＰＭＬ）によって選択されたメモリパフォーマンス状態に応じて、クロック周波数とともに変化する。レジスタ６００は、ＰＭＬによって使用されるプログラム可能な閾値を記憶して、待ち時間検出器５４０及び帯域幅検出器５１０～５１６によって取得された予測された又は実際の待ち時間メトリック及び帯域幅メトリックと比較する。

【0070】

図７を参照すると、メモリパフォーマンス状態（ＰＳｔａｔｅ）テーブル７００は、非計算ユニットのための動作設定値についての、ＰＳｔａｔｅＰ０～Ｐ０３と称される４つの電力レベルを示し、Ｐ０は、最高パフォーマンス状態であり、Ｐ３は、最低パフォーマンス状態である。電力管理ロジック３０２は、メモリパフォーマンス状態テーブル７００にアクセスすることによって、電力レベルを調整する。このメモリパフォーマンス状態テーブル７００は、複数のメモリパフォーマンス状態（Ｐ０～Ｐ３）を含み、各状態は、パフォーマンス状態に対する許容できるメモリデータ転送速度（例えば、３２００ＭＴ／秒、１６００ＭＴ／秒）、非計算メモリシステム電圧設定値（例えば、データファブリック、メモリコントローラ及びＰＨＹのために使用される非コア電圧）、データファブリッククロック周波数設定値（ＦＣＬＫ）、メモリクロック周波数設定値（ＭＥＭＣＬＫ）、及び、メモリコントローラ（ＵＣＬＫ）設定値を表すデータを含む。パフォーマンス状態Ｐ２及びＰ０は、同じ最大レベルメモリデータ転送レート（例えば、３２００ＭＴ／秒）を有し、状態Ｐ２は、計算ユニットにとって利用可能なより多くの電力予算を残すように、Ｐ０状態と比較して、低いデータファブリック周波数設定値及び低い非計算メモリシステム電圧設定値を有する。例えば、非計算ユニットのための電力レベルを低減することにより、ＰＭＬは、計算ユニットが、即座の非計算ユニット電力制御なしで利用可能な周波数／電圧よりも高い周波数／電圧で動作することを可能にすること等によって、より良好なパフォーマンスの選択肢を計算ユニットに適用することを可能にする。

【0071】

この例では、非計算ユニットは、メモリシステムの一部であり、データファブリック、メモリコントローラ、及び、ＰＨＹインターフェースを含む。ＰＳｔａｔｅＰ０は、ＣＰＵ作業負荷及びライブビデオ再生を含む、ビデオコーデックによる高精細及び標準精細のビデオ／オーディオ再生等のマルチメディア再生作業負荷等のように、高帯域幅及び低待ち時間を必要とする作業負荷タイプのためのものである。ＰＳｔａｔｅＰ１は、電力が制約された作業負荷のために使用され、Ｐ０よりも低い電力レベルを使用しながら、作業負荷のための帯域幅及び待ち時間の最適レベルを提供するように最適化される。そのような作業負荷タイプは、マルチスレッドＣＰＵ作業負荷を含む。ＰＳｔａｔｅＰ２は、高帯域幅を提供し、ビット当たりのピコジュール（ｐｊ／ビット）動作のために最適化される、より低い非計算ユニット電力レベル設定値である。そのような作業負荷タイプは、グラフィックスゲーム作業負荷を含む。ＰＳｔａｔｅＰ３は、バッテリー節電レベルであり、低電力動作を提供するように最適化される。

【0072】

見てわかるように、全てのＰＳｔａｔｅは、ＭＥＭＣＬＫと比較してデータファブリック周波数を半分にし、Ｐ０及びＰ１よりも低い電圧を有するＰＳｔａｔｅＰ２を別にして、全ての非計算ユニットに対して同じ周波数を使用する。メモリ転送レート３２００ＭＴ／ｓは、Ｐ０の場合と同様に、Ｐ２の場合と同じである。データファブリックは、計算ユニットに対してより広いデータポートを使用して、それらの計算ユニットがより低いデータファブリッククロックを用いて、より高い帯域幅を使用することを可能にする。例えば、データファブリックへのデータ経路は、特定の計算ユニットの電力、ＢＷ及び待ち時間を最適化するために、より広いデータ経路を必要とするエンジンに対してより広い。例えば、メモリインターフェースへのＧＰＵ１１８は、いくつかの他の計算ユニットの経路の２倍であり、その結果、データファブリックは、半分の速度で実行され、待ち時間を犠牲にして節電する。ＧＰＵエンジンは、ＣＰＵ等の他のエンジンよりも多くの待ち時間を許容することができる。しかしながら、大幅に低減された非計算電力によって十分に克服されても、パフォーマンスにロスがある場合（ＧＰＵパフォーマンスは、ＦＣＬＫが高くなるほど、高くなる）には、電力が制限される場合に、より高いＧＰＵクロックが引き起こされる。Ｐ０３は、バッテリー寿命を節約するために使用され、バッテリー寿命作業負荷のために使用される。

【0073】

電力管理ロジック３０２は、ＰＳｔａｔｅＰ０によって示されているように、データファブリックの動作状態を制御することによってメモリパフォーマンス状態を変更し、メモリ待ち時間に敏感な作業負荷が複数の計算ユニットのうち少なくとも１つによって実行されることに応じて、データファブリックのクロック周波数（ＦＣＬＫ）を増加させ、メモリ１０６に最大レベルメモリデータ転送レート（例えば、３２００ＭＴ／秒）を提供する。帯域幅レベルの増加が計算ユニットにとって必要とされることに応じて、ＰＭＬ３０２は、より高いデータファブリッククロック周波数設定値及びより高い電圧レベルを用いて同じ最大レベルメモリデータ転送レートを提供する別のメモリパフォーマンス状態（Ｐ０）と比較して、データファブリックの低減された周波数クロック（例えば、Ｐ２の場合８００ＭＨｚ対Ｐ０の場合１６００ＭＨｚ）及び電圧レベル（Ｐ２の場合７Ｖ対Ｐ０の場合１．０５Ｖ）を用いて、バッテリー式デバイスに対しては１５Ｗの電力状態テーブル、又は、非バッテリー電力式デバイスに対しては４０Ｗの規定の電力割り当て等の規定の電力割り当てについて最大レベルメモリデータ転送レート（例えば、３２００ＭＴ／秒）を提供するメモリパフォーマンス状態（Ｐ２）を選択する。

【0074】

図８は、待ち時間検出器及び帯域幅検出器、並びに、帯域幅検出器５１０～５１４、５３０、５４０の各々によって提供されたメモリパフォーマンス状態に基づいて、及び、ＰＭによって生成されるような利用可能な電力ヘッドルームデータに基づいて、最終的なメモリパフォーマンス状態を選択する、アービトレーションロジックとも称される、アービター９００を用いる電力管理ロジックの例を示すブロック図である。例えば、従来のヘッドルーム計算は、ＳＯＣ熱設計電力（ＰＤＰ）、及び、ＳＯＣにわたる電力モニターからの情報等に基づいて実行されて、現在の電力消費量を計算し、利用可能な電力ヘッドルームを決定する。ＰＭＬは、帯域幅が必要とされる場合に非計算ユニット電力増加を生成するか、又は、待ち時間に敏感な作業負荷が検出された場合にデータファブリック周波数を増加させる。この例において待ち時間検出器５４０として示されたメモリ待ち時間検出ロジックは、ＳＯＣ内又はＳＯＣＳにわたるものを含む要求が何処で発生したかに応じて、ＣＰＵコア等の特定の計算ユニットに関連付けられた作業負荷についてのメモリ待ち時間を検出し、検出されたメモリ待ち時間に基づいてメモリパフォーマンス状態９０２を提供する。同様に、帯域幅検出器５１０、５１２、５１４、５３０として示されたメモリ帯域幅検出ロジックは、各それぞれの計算ユニット（ソケット全体からの計算ユニット要求を含む）からの検出されたメモリ帯域幅レベルに基づいて、決定されたメモリパフォーマンス状態をそれぞれ提供する。

【0075】

例えば、待ち時間検出器及び帯域幅検出器の各々は、実際の待ち時間データ若しくはデータトラフィックメトリック、並びに／又は、予測待ち時間及び／若しくは予測帯域幅使用量を測定し、それ自体のパフォーマンス状態を探す、独立した最適化ユニットとして機能する。実際の実行時間データが監視されているいくつかの実施形態では、検出器は、監視されたメトリック９０６を、概して９０４として示された１つ以上の閾値と比較し、非計算ユニットメモリパフォーマンス状態を選択する。コントローラ９０８は、４つのメモリＰＳｔａｔｅのうち何れかを選択して、メモリパフォーマンス状態９０２としてアービター９００に出力する。次いで、アービター９００は、受信した全てのＰＳｔａｔｅの中の最大状態を選択する。最大とは、非計算ユニットによって提供される最も高い電力出力を指す。例えば、待ち時間遅延が閾値９０４を超えているために、待ち時間検出器５４０が、大量の待ち時間が経験されていることを検出した場合、コントローラ９０８は、ＤＰＭアービターに出力される最大ＰＳｔａｔｅＰ０を選択し、これは、待ち時間が最高の状態であるために、メモリパフォーマンス状態が既にＰ０にない場合、９１０によって示されるように、ＤＰＭアービターは、非計算ユニットメモリ状態の変化を引き起こすことであろう。独立したユニットは、メモリ帯域幅、メモリ待ち時間及びソケット間通信を監視する。

【0076】

いくつかの実施形態では、ソケット間通信は、例えば、ソケット間で帯域幅検出器５３０によって測定される。例えば、２つのソケット間のリモート待ち時間を最適化するために、帯域幅検出器５３０は、ソケット間の帯域幅を監視し、ソケット間活動に基づいてデータファブリック周波数を引き上げることになる非計算ユニットパフォーマンス状態を選択する。例えば、リンクがｘ１６に進む場合、電力レベルは、最も高いＰＳｔａｔｅ（Ｐ０）に進むことによって引き上げられる。したがって、リモート待ち時間最適化は、純粋な帯域幅最適化よりも優先される。例えば、グラフィックスコアに関連付けられた帯域幅検出器５１４は、高帯域幅状態を検出することができ、ソケット間活動優先度を与える集積回路間帯域幅検出器５３０によって出力されるＰ０よりも低い状態であるＰＳｔａｔｅＰ２を選択する。

【0077】

更に図８を参照すると、検出器は、個々に動作し、各検出器によって使用されるメトリックを考慮に入れている状態を選択する。アービター９００は、活動モニターに基づいて最終決定を行い、ＰＳｔａｔｅが現在設定されているＰＳｔａｔｅと異なる場合に、決定時間間隔毎にＰ状態の変更を強制する。

【0078】

いくつかの実施形態では、非計算ＰＳｔａｔｅ動作は、無効とすることができる。例えば、プラットフォームにおいて（例えば、ユーザ設定値又はＤＲＡＭ能力を介して）サポートされた最大ＤＤＲ速度、及び、ＩＣのために融合された最大ＦＣＬＫ周波数設定値に基づいて、電力管理ロジックは、実行時間電力管理のために、４つのメモリシステム非計算ユニットＰ状態を選択して訓練する。それらの状態のうち２つ（Ｐ２及びＰ１）が、実行時間活性電力管理のために使用され、それらは、実行時待ち時間／帯域幅検出動作が無効にされるときに固定される別の状態、及び、待機電力管理又は効率モード（パフォーマンス最適化のため）のための状態である。

【0079】

上述したように、ＰＭＬは、計算ユニットによる作業負荷の帯域幅及び／又は待ち時間監視に基づいて、非計算ユニットＰＳｔａｔｅを選択する。ＰＭＬは、検出された（予測を含む）作業負荷特性に基づいて、活性である場合に最低ＰＳｔａｔｅ（例えば、Ｐ２）をデフォルトにし、非計算エンジンＰＳｔａｔｅ（例えば、Ｐ１、Ｐ０）をより上位に押し進めるように制御する。

【0080】

低待ち時間が望ましい特定のシナリオでは、ＰＭＬによって制御される、計算ユニットのためのより高い計算クロック（ＣＣＬＫ）が、依然として、より良好なパフォーマンスを提供することができる。いくつかの実施形態では、ＰＭＬは、ＰＳｔａｔｅ変更機構がより高いＰ状態に積極的に切り替わり、待ち時間を低下させ、コアから電力を取り去り、ＣＣＬＫを低下させ、パフォーマンスに悪影響を及ぼすことを防止する。いくつかの実施形態では、ユーザは、ユーザインターフェースを介してレジスタ内にＣＣＬＫ閾値を設定し、ＰＭＬは、モニターが低待ち時間条件を示す場合であっても、ＰＳｔａｔｅをより高く積極的に切り替えることを防止するためのゲートとして、その閾値を使用する。

【0081】

いくつかの実施形態では、ＰＳｔａｔｅの移行の間にヒステリシスを提供して、ＰＳｔａｔｅの速すぎる移行を防止する。例えば、いくつかの実施形態では、プログラム可能なヒステリシス閾値を使用して、アップ及びダウンのヒステリシスを提供する。アップヒステリシスの場合、プログラム可能な閾値にわたる（例えば、現在のＤＰＭ状態帯域幅の５０％の閾値にわたる）単一の観測値が使用されるが、任意の好適な閾値を用いることができる。ダウンヒステリシスの場合、次のより低いＰＳｔａｔｅの閾値を下回る複数の連続した観測値を使用して、ディザリングを防止する。ただし、任意の好適な閾値及びヒステリシス機構を用いることができる。

【0082】

各ＩＣがそれ自体のデータファブリックを含む複数のソケットの実施形態の場合、ＦＣＬＫ要件は、独立して評価され、２つのソケット上に異なるＦＣＬＫを得ることができる。いくつかの例では、ファブリック周波数とソケット間相互接続周波数との間で、所望の比率が維持される。

【0083】

図９は、順序を切り替えるメモリパフォーマンス状態を示す状態図である。メモリパフォーマンス状態Ｐ０～Ｐｎは、メモリにアクセスするために使用されるメモリデータファブリック及び他の非コアユニットのパフォーマンス状態である。Ｐ０は、最高パフォーマンス状態であり、Ｐｎは、最低パフォーマンス状態である。ＰＬは、それぞれの状態にマッピングされた電力閾値を表す。ＡＣ電力設定値又は高パフォーマンス設定値に関する場合、非コアパフォーマンスが最大化され、バッテリーＤＣ設定値又はエネルギー効率設定値に関する場合、ファブリックのパフォーマンス／ワットが最大化される。ＳＭＵは、電力モニター及びリーク対温度曲線に基づいて、異なる非計算ユニットによって消費される電力を追跡する。この状態図は、図７に示されたパフォーマンス状態テーブルに基づく。

【0084】

図１０は、複数のコアグループ１１００及び１１０２を使用する集積回路を示しており、各コア１１０４は、メモリ待ち時間カウンタ１１０６を有する。いくつかの実施形態におけるＰＭＬは、コアのグループについての待ち時間測定値を集約する。特定の実施形態では、メモリ待ち時間カウンタは、１つのＳＯＣが複数のコアグループ（ＣＣＤ）１１００及び１１０２を有しているため、集約される。電力管理ロジックは、それらを読み取って、式１に示されるように、グループ毎に中間待ち時間メトリックを計算する。その後、ＰＭＬは、そのグループ内の全てのコアの中で最大値を見つける。次に、ＰＭＬは、全てのＣＣＤの中で最大値を計算する。その後、ＰＭＬは、式２に記載されるように、その結果にメモリビジーを乗算する。最後に、その値は、閾値に対して比較され、非計算ユニットメモリＰＳｔａｔｅを選択する。図１１において、ＭＰ５は、コアのグループの電力管理ユニットを表し、ＭＰ１は、ＳｏＣ電力管理ユニットを表す。いくつかの実施形態では、本方法は、各ＳｏＣについて集約された待ち時間カウンタが比較されるソケット間待ち時間にも適用され、ＳｏＣが待ち時間を補償するためにより高い電力ＰＳｔａｔｅを必要とする場合、より高いファブリック周波数を提供してソケット間待ち時間を改善するメモリＰＳｔａｔｅが選択される。

【0085】

図に示すように、ＳｏＣ周波数の電圧スケーリングが特定のＦＣＬＫを超えて平坦化することができるため、最大値が取られる。したがって、より低いＰＳｔａｔｅで実行することによって計算範囲シナリオのために得ることができる電力及びパフォーマンスコアの量は、わずかである。一方、より高いＰＳｔａｔｅで実行しないことによって喪失する可能性があるパフォーマンスコアの量は、メモリ待ち時間（及びメモリ帯域幅）に敏感な作業負荷に対して大きい。別の実施形態では、全てのコアの最大値の代わりに、集約された待ち時間メトリックは、全ての活性コアにわたる、閾値ｔからの各コアの待ち時間メトリックの距離の加重和として計算することができる。重み付けされた集約された待ち時間メトリックが依然として正である場合、Ｐ０状態が、グローバルシステムレベル最適値として取得される。重み付けされたメトリックが負である場合、より低いＰＳｔａｔｅが、グローバルシステムレベル最適値として選択される。これは、代替最終待ち時間メトリックのための以下の式で示される。

【数1】

【数2】

【0086】

（代替最終待ち時間メトリック）
特定の実施形態では、メモリ待ち時間作業負荷を推定するためのメトリックが使用される。メモリ待ち時間メトリックを使用して、作業負荷がいつメモリ待ち時間に敏感であるか（ＣＰＵ複合体によって実行されている作業負荷等）を識別する。この場合、ＳｏＣは、最良のパフォーマンスを提供するために、より高いＰＳｔａｔｅに移行する必要がある。このメトリックは、３つの事象、すなわち、サイクル当たりのマイクロ命令、負荷記憶ユニットによって見られるような、ＤＲＡＭ又はＩＯ内のサンプリングされた先行負荷ヒットの平均待ち時間、及び、メモリビジー信号に基づく。

【0087】

計算は、２つのステップで行われ、すなわち、１）コアカウンタを読み取り、中間待ち時間メトリックを導出する、２）各コアについて（最大を計算することによって）中間メトリックを集約し、その結果にメモリビジー信号を乗算する、ことである。以下の式は、メトリックの公式定義を与える。

【0088】

まず、コアｉ毎の中間メトリックｍｃ_ｉを計算する。ここで、ＩＰＣ_ｉは、サイクル毎のマイクロ命令であり、ＣｏｒｅＭｅｍＬａｔ_ｉは、負荷記憶ユニットによって見られるような、ＤＲＡＭ又はＩＯにおけるサンプリングされた先行負荷ヒットの平均待ち時間である。

【数3】

式１：中間待ち時間メトリック

【0089】

次に、ソケット内の全てのコアについてｍｃを集約し、ｍｓ値に基づいてソケットのＳｏＣＰ状態を決定する。

【数4】

式２：最終待ち時間メトリック

【0090】

メモリビジー信号による乗算の背後にある合理性は、希なメモリアクセスを有する作業負荷が単一のアクセスに対して長い待ち時間を経験することができることであるが、これらの希なアクセスは、作業負荷に重大な不利益を追加しない。したがって、メモリビジー信号を使用して、待ち時間メトリックを適格とし、この影響を償却する。両方のメトリックが結合される場合に、メトリックは、メモリ帯域幅にも敏感ではなく、待ち時間にも極端には敏感ではない作業負荷を取り込もうと試み、これらは、より低いＰＳｔａｔｅで実行される必要がある。他の全ては、より高く、より低いＰＳｔａｔｅで実行する必要がある。閾値を使用して、スペースを分離する。

【数5】

式３：ＤＦ－ＰＳｔａｔｅの決定

【0091】

図１１を参照すると、メモリ待ち時間を検出することに関して、先行負荷待ち時間は、キャッシュ／ＤＲＡＭメモリにおいて見逃された最初の負荷の待ち時間として定義することができる。先行負荷の例を示す図１２を参照されたい。最初の負荷見逃し（負荷見逃しＡ）の後、任意の連続した負荷見逃しは、それらの見逃しに起因する遅延が先行負荷によって隠されるため、先行負荷（負荷見逃しＢ）とはみなされない。最初の先行負荷が戻された後にのみ、正に次の負荷が、先行負荷（負荷見逃しＣ）とみなされることになる。

【0092】

様々な技術的解決策の中で、いくつかの実施形態では、構造及び動作は、待ち時間及び／又は帯域幅についての状態及びアプリケーション固有の要件を区別する。いくつかの例では、使用ケースが待ち時間に敏感である場合に限り、特定のファブリック周波数が引き上げられるが、帯域幅中心シナリオの場合、周波数は、並列インターフェースを介して、最大帯域幅をデータファブリックに送達するのに十分な最小レベルに維持される。特定の実施形態では、電力管理ロジックは、サーバシステム内の複数のソケット間のコヒーレントトラフィックの待ち時間要件を調べて、ファブリック周波数を決定する。これは、マルチ集積回路（例えば、ダイ又はチップ）構成に適用された場合に、ソケット間のコヒーレントファブリックにわたるデータトラフィックを考慮に入れるため、ソケット間のスケーリングを可能にする。いくつかの実施形態では、電力管理システムは、様々な異種タイプの作業負荷の中で決定し、何れの計算ユニットが閾値を上回る検出された帯域幅要件を有するか等のように、異種作業負荷のタイプに基づいて非計算ユニットの電力消費を調整する。この電力消費の調整は、１つのパフォーマンス状態から別のパフォーマンス状態に調整することを通じて行われる。各パフォーマンス状態は、非計算ユニットについての周波数及び／又は電圧を変化させる。１つの利点は、システムが計算ユニットにとって利用可能なより多くの電力予算を残すことである。異種タイプの作業負荷は、異種計算ユニットによって処理されるものである。

【0093】

いくつかの例では、様々な異種タイプの作業負荷を決定することは、例えば、予測オペレーティングシステムヒント、ドライバヒント、及び／又は、実行時間中に計算ユニット若しくはメモリアクセスエンジンの各々についてメモリアクセストラフィックを監視する活動モニターを使用して行われる。計算ユニットは、ビデオコーデック、ＧＰＵコア、ＣＰＵコア、ディスプレイエンジン、又は、メモリにアクセする他のエンジン若しくはユニットを含むことができる。

【0094】

特徴及び要素が特定の組み合わせで上に説明されているが、各特徴又は要素は、他の特徴及び要素を用いずに単独で、又は、他の特徴及び要素を用いて若しくは用いずに様々な組み合わせで使用することができる。いくつかの実施形態において本明細書に記載される装置は、汎用コンピュータ又はプロセッサによる実施のために非一時的なコンピュータ可読記憶媒体に組み込まれるコンピュータプログラム、ソフトウェア又はファームウェアにおいて実施され得る。コンピュータ可読記憶媒体の例としては、読み取り専用メモリ（read only memory、ＲＯＭ）、ランダムアクセスメモリ（random－access memory、RAM）、レジスタ、キャッシュメモリ、半導体メモリデバイス、磁気媒体（例えば、内蔵ハードディスク及びリムーバブルディスク）、磁気光学媒体、並びに、光学媒体（例えば、ＣＤ－ＲＯＭディスク及びデジタル多用途ディスク（digital versatile disk、ＤＶＤ））が挙げられる。

【0095】

様々な実施形態の前述の詳細な説明では、その一部を形成し、本発明を実施することができる特定の好ましい実施形態を例として示す添付図面を参照した。これらの実施形態は、当業者が本発明を実施することを可能にするために十分詳細に説明されており、他の実施形態が利用されてもよく、本発明の範囲から逸脱することなく論理的、機械的及び電気的変更が行われてもよいことを理解されたい。当業者が本発明を実施することを可能にするために必要でない詳細を避けるために、説明は、当業者に知られている特定の情報を省略する場合がある。更に、本開示の教示を組み込む多くの他の様々な実施形態が、当業者によって容易に構築され得る。したがって、本発明は、本明細書に記載の特定の形態に限定されることを意図するものではなく、逆に、本発明の範囲内に合理的に含まれ得るそのような代替形態、修正形態及び均等物を包含することを意図するものである。したがって、前述の詳細な説明は、限定的な意味で解釈されるべきではなく、本発明の範囲は、添付の特許請求の範囲によってのみ定義される。本明細書に記載される実施形態及び実施例の上記の詳細な説明は、限定ではなく、例示及び説明のためにのみ提示されている。例えば、説明された動作は、任意の好適な順序又は方法で行われる。したがって、本発明は、上記で開示され、本明細書で特許請求される基本的な基礎原理の範囲内に入るあらゆる修正、変形又は等価物を包含することが企図される。

【0096】

上記の詳細な説明及びそこに記載される実施例は、限定のためではなく、例示及び説明のためにのみ提示されている。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【手続補正書】

【提出日】2023-08-28

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】

【請求項13】

【請求項14】

【請求項15】

【請求項16】

【請求項17】

【請求項18】

【請求項19】

請求項９～１８の何れかの集積回路（ＩＣ）を含む装置であって、
メモリシステムと、
前記メモリシステムに動作可能に結合された前記複数の計算ユニットと、
前記複数の計算ユニットに動作可能に結合されたデータファブリックと、
前記データファブリック及び前記メモリシステムのメモリに動作可能に結合されたメモリインターフェースロジックと、を備え、
前記電力管理ロジックは、
前記複数の計算ユニット上で実行される作業負荷に関連するメモリアクセス待ち時間を検出することと、
前記複数の計算ユニットの各々で実行されるそれぞれの作業負荷に関連するメモリ帯域幅レベルを決定することと、
検出された前記メモリアクセス待ち時間及び決定されたメモリ帯域幅レベルに基づいて、前記複数の非計算ユニットに関連するメモリパフォーマンス状態を変更することと、
を行うように動作可能である、
装置。

【請求項20】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版