特開2024-138525 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドの特許一覧

特開2024-138525グラフィックス処理ユニットのためのクロック制御スキーム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024138525

(43)【公開日】2024-10-08

(54)【発明の名称】グラフィックス処理ユニットのためのクロック制御スキーム

(51)【国際特許分類】

G06F 1/08 20060101AFI20241001BHJP

G06F 1/10 20060101ALI20241001BHJP

H03K 21/02 20060101ALN20241001BHJP

【ＦＩ】

G06F1/08 520

G06F1/10

H03K21/02 026

【審査請求】有

【請求項の数】17

【出願形態】ＯＬ

(21)【出願番号】P 2024114543

(22)【出願日】2024-07-18

(62)【分割の表示】P 2022550173の分割

【原出願日】2021-03-05

(31)【優先権主張番号】62/985,985

(32)【優先日】2020-03-06

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/050,527

(32)【優先日】2020-07-10

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/032,701

(32)【優先日】2020-09-25

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】591016172

【氏名又は名称】アドバンスト・マイクロ・ディバイシズ・インコーポレイテッド

【氏名又は名称原語表記】ＡＤＶＡＮＣＥＤＭＩＣＲＯＤＥＶＩＣＥＳＩＮＣＯＲＰＯＲＡＴＥＤ

(74)【代理人】

【識別番号】100108833

【弁理士】

【氏名又は名称】早川裕司

(74)【代理人】

【識別番号】100111615

【弁理士】

【氏名又は名称】佐野良太

(74)【代理人】

【識別番号】100162156

【弁理士】

【氏名又は名称】村雨圭介

(72)【発明者】

【氏名】ランジートクマールサジャ

(72)【発明者】

【氏名】スリーカントゴーディ

(72)【発明者】

【氏名】アニルーダアール．アチャリャ

(57)【要約】（修正有）

【課題】グラフィックス処理ユニット（ＧＰＵ）のシェーダエンジンモジュール（ＳＥ）及び非シェーダエンジンモジュール（ｎＳＥ）をクロックするためのクロック信号を制御するシステム及び方法を提供する。
【解決手段】ＧＰＵ１００において、１つ以上の分割器１１０が、クロック信号ＣＬＫを受信し、クロック信号ＣＬＫＡをＳＥ１０４に出力し、クロック信号ＣＬＫＢをｎＳＥ１０６に出力する。ＣＬＫＡ及びＣＬＫＢの周波数は、ＳＥ及びｎＳＥにおいて監視された性能カウンタ１０９のデータのセットに基づいて独立して選択される。ＳＥ又はｎＳＥの何れかのクロック信号周波数は、対応する性能カウンタデータのセットがＳＥに関して又はｎＳＥに関して比較的低い処理ワークロードを示す場合に低減される。
【選択図】図１

【特許請求の範囲】

【請求項1】

グラフィックス処理ユニット（ＧＰＵ）であって、
分割器と、
前記分割器に結合され、第１の周波数を有する第１のクロック信号を前記分割器から受信するように構成された回路の第１のセットと、
前記分割器に結合され、第２の周波数を有する第２のクロック信号を前記分割器から受信するように構成された回路の第２のセットと、
前記回路の第１のセット及び前記回路の第２のセットに関連するそれぞれのワークロードに少なくとも部分的に基づいて、前記第１の周波数を、前記第２のクロック信号とは独立して選択的に制御するように構成されたコントローラと、を備える、
ＧＰＵ。

【請求項2】

前記回路の第１のセットは、１つ以上のシェーダエンジンを含む、
請求項１のＧＰＵ。

【請求項3】

前記回路の第２のセットは、１つ以上の非シェーダエンジンモジュールを含む、
請求項１のＧＰＵ。

【請求項4】

前記コントローラは、前記それぞれのワークロードに関連するイベントの量に少なくとも部分的に基づいて、前記第１の周波数を選択的に制御するように構成されている、
請求項１のＧＰＵ。

【請求項5】

前記コントローラは、前記それぞれのワークロードに関連する性能カウンタデータ間の差に少なくとも部分的に基づいて、前記第１の周波数を選択的に制御するように構成されている、
請求項１のＧＰＵ。

【請求項6】

前記第１の周波数を選択的に制御することは、
少なくとも１つの制御信号を前記分割器に送信することと、
前記分割器を用いて、前記少なくとも１つの制御信号に基づいて、前記第１の周波数を有する前記第１のクロック信号を前記回路の第１のセットに送信することと、
前記分割器を用いて、前記少なくとも１つの制御信号に基づいて、前記第２の周波数を有する前記第２のクロック信号を前記回路の第２のセットに送信することと、を含む、
請求項１のＧＰＵ。

【請求項7】

第１の複数の分割器と、
第２の複数の分割器と、を備え、
前記第１の周波数を選択的に制御することは、
第１の制御信号を前記第１の複数の分割器に送信することと、
第２の制御信号を前記第２の複数の分割器に送信することと、を含む、
請求項１のＧＰＵ。

【請求項8】

方法であって、
第１の周波数を有する第１のクロック信号を、グラフィックス処理ユニット（ＧＰＵ）の回路の第１のセットに供給することと、
第２の周波数を有する第２のクロック信号を、前記ＧＰＵの回路の第２のセットに供給することと、
前記回路の第１のセット及び前記回路の第２のセットに関連するそれぞれのワークロードに少なくとも部分的に基づいて、前記第１の周波数を、前記第２のクロック信号とは独立して選択的に調整することと、を含む、
方法。

【請求項9】

前記第１のクロック信号を前記回路の第１のセットに供給することは、
前記第１のクロック信号を前記ＧＰＵの１つ以上のシェーダエンジンに供給することを含む、
請求項８の方法。

【請求項10】

前記第２のクロック信号を前記回路の第２のセットに供給することは、
前記第２のクロック信号を前記ＧＰＵの非シェーダエンジン回路に供給することを含む、
請求項８の方法。

【請求項11】

前記第１の周波数を調整することは、前記それぞれのワークロードに関連するイベントの量に少なくとも部分的に基づいている、
請求項８の方法。

【請求項12】

前記第１の周波数を調整することは、前記それぞれのワークロードに関連する性能カウンタデータ間の差に少なくとも部分的に基づいている、
請求項８の方法。

【請求項13】

前記第１の周波数を調整することは、
少なくとも１つの制御信号を分割器に送信することと、
前記分割器を用いて、前記少なくとも１つの制御信号に基づいて、前記第１の周波数を有する前記第１のクロック信号を前記回路の第１のセットに送信することと、
前記分割器を用いて、前記少なくとも１つの制御信号に基づいて、前記第２の周波数を有する前記第２のクロック信号を前記回路の第２のセットに送信することと、を含む、
請求項８の方法。

【請求項14】

前記第１の周波数を調整することは、
第１の制御信号を第１の複数の分割器に送信することと、
第２の制御信号を第２の複数の分割器に送信することと、
前記第１の複数の分割器を用いて、前記第１の制御信号に基づいて、前記第１の周波数を有する前記第１のクロック信号を前記回路の第２のセットに送信することと、
前記第２の複数の分割器を用いて、前記第２の制御信号に基づいて、前記第２の周波数を有する前記第２のクロック信号を前記回路の第２のセットに送信することと、を含む、
請求項８の方法。

【請求項15】

システムであって、
１つ以上のプロセッサと、
前記１つ以上のプロセッサに通信可能に結合された１つ以上のメモリと、
前記１つ以上のプロセッサに通信可能に結合されたグラフィックス処理ユニット（ＧＰＵ）と、を備え、
前記ＧＰＵは、
第１の周波数を有する第１のクロック信号を分割器から受信するように構成された回路の第１のセットと、
第２の周波数を有する第２のクロック信号を前記分割器から受信するように構成された回路の第２のセットと、
前記回路の第１のセット及び前記回路の第２のセットに関連するそれぞれのワークロードに少なくとも部分的に基づいて、前記第１の周波数を、前記第２のクロック信号とは独立して選択的に制御するように構成されたコントローラと、を備える、
システム。

【請求項16】

前記回路の第１のセットは、１つ以上のシェーダエンジンを含む、
請求項１５のシステム。

【請求項17】

前記回路の第２のセットは、１つ以上の非シェーダエンジンモジュールを含む、
請求項１５のシステム。

【発明の詳細な説明】

【背景技術】

【0001】

コンピュータ処理システムは、概して、グラフィックス処理ユニット（graphics processing unit、ＧＰＵ）を用いて、テクスチャマッピング、レンダリング、頂点変換等のグラフィックス動作を実行する。ＧＰＵに関する性能要件又は仕様は、関連する電子デバイスのタイプに応じて異なり得る。例えば、モバイルデバイスのＧＰＵは、他のプラットフォームから大幅に乖離する可能性のある特徴及び要件を有する。性能、バッテリ寿命及び熱は、概して、モバイルデバイスプラットフォーム用の重要な基準であり、より良好な持続性能及び低アイドル電力消費が望ましい。デバイス動作中のＧＰＵ構成要素の周波数及び電圧スケーリングの両方に関連して、ＧＰＵ構成要素のクロッキングは、モバイルデバイスのこれらの動作態様の各々に影響を与える。

【0002】

本開示は、添付の図面を参照することによってより良好に理解することができ、本開示の特徴及び利点が当業者に明らかになり得る。異なる図面における同じ符号の使用は、類似又は同一のアイテムを示す。

【図面の簡単な説明】

【0003】

【図1】いくつかの実施形態による、ＧＰＵのシェーダエンジンモジュール（shader engine module、ＳＥ）及び非シェーダエンジンモジュール（non-shader-engine module、ｎＳＥ）をクロックするために使用されるクロック信号の周波数を選択的に調整するための分割器（divider）を含む、グラフィックス処理ユニット（ＧＰＵ）を示すブロック図である。

【図2】いくつかの実施形態による、ＳＥ及びｎＳＥをクロックするために使用されるクロック信号の周波数を選択的に調整するために、ＧＰＵのＳＥ及びｎＳＥの個々のタイルに配置された複数の分割器を含む、ＧＰＵを示すブロック図である。

【図3】いくつかの実施形態による、図１のＧＰＵに使用可能なクロック分割器を示すブロック図である。

【図4】いくつかの実施形態による、経時的なＳＥ性能カウンタデータとｎＳＥ性能カウンタデータとの差分の例を示す例示的なグラフである。

【図5】いくつかの実施形態による、対応する性能カウンタデータに基づいて、クロックＳＥ及びｎＳＥに使用されるクロック信号の周波数を調整するための方法を示すフロー図である。

【発明を実施するための形態】

【0004】

モバイルデバイス内の処理ワークロードは、シェーダが重い状態から、メモリ結合状態や散在的なロード状態に幅広く変化する（すなわち、ワークロード強度がメモリ集約型からシェーダ集約型に変化する場合や、その逆の場合）。システム内の全ての構成要素をクロックするために単一のクロック信号が使用される従来の単一／ユニバーサルクロックスキームは、これらのスキームが、それぞれのワークロードに基づいて、様々なシステム構成要素間のクロック周波数の差別化（differentiation）を可能にしないため、かかる変更された処理ワークロードステータスにわたってデバイス性能を制限する。本明細書において説明する技術を使用すると、デバイス構成要素の特定のグループに偏って影響を及ぼす処理ワークロードの変更は、ＧＰＵ内の構成要素の異なるグループに個別のクロッキングを提供することによって把握され、それによって、軽い処理ワークロードを有する構成要素のグループをクロックするために使用されるクロック信号の周波数を低減させ、一方で比較的重い処理ワークロードを有する構成要素のグループをクロックするために使用されるクロック信号の周波数を増加させる又は変更しないままにすることが可能になる。より軽いワークロードを有する構成要素のクロック周波数を低減させることによって、構成要素を含むシステムの電力及び熱効率は、単一／ユニバーサルクロックスキームのものに対して改善される。

【0005】

処理ワークロードが不均衡になる典型的なデバイス構成要素の２つのグループは、グラフィックス処理ユニット（ＧＰＵ）のシェーダエンジンモジュール及び非シェーダエンジンモジュールである。本明細書では、「シェーダエンジンモジュール」は、典型的には、シェーダエンジンの一部であり、グラフィックオブジェクトの生成及び操作のために頻繁に繰り返される指定されたタスクを実行するために使用されるＧＰＵのモジュールを指す。いくつかの実施形態では、かかるタスクは、テクスチャマッピング、レンダリング、頂点変換等を含む。本明細書では、ＧＰＵの「非シェーダエンジンモジュール」は、ＧＰＵのシェーダエンジンに含まれない回路及びモジュールを指す。

【0006】

例えば、モバイルデバイス内のＧＰＵのシェーダエンジンモジュールは、ＧＰＵがシェーダを多用する処理ワークロード（shader-heavy processing workload）を処理する場合に、非シェーダエンジンモジュールよりもアクティブになる。したがって、ユニバーサルクロックスキームでは、シェーダを多用する処理ワークロードをより良好に処理するためにシェーダエンジンモジュールのためのクロック信号の周波数を増加させると、非シェーダエンジンモジュールのクロック周波数も不必要に増加させ、最適でない熱及び電力性能をもたらす。対照的に、ＧＰＵのシェーダエンジンモジュール及び非シェーダエンジンモジュールを個別に制御可能なクロック信号でクロックすることにより、非シェーダエンジンモジュールがシェーダを多用する処理ワークロード中に低い周波数でクロックされ、シェーダエンジンモジュールのクロック周波数が増加又は変化しないままであることから、改善された熱及び電力性能をもたらす。

【0007】

いくつかの実施形態では、シェーダエンジンモジュールよりも非シェーダエンジンモジュールから顕著により多くのアクティビティを必要とするメモリ結合処理ワークロードに対して、異なるクロック周波数を選択的に設定するために、同様の技術が適用される。ユニバーサルクロックスキームを実装する場合、メモリを多用する処理ワークロード（memory-heavy processing workload）（例えば、ＧＰＵのシェーダエンジンモジュールよりもＧＰＵの非シェーダエンジン記憶デバイスにおいて顕著により多くのアクティビティを伴う処理ワークロード）をより良好に処理するために、非シェーダエンジンモジュールのクロック信号の周波数を増加させると、シェーダエンジンがクロックされる周波数を不必要に増加させ、最適でない熱及び電力性能をもたらす。対照的に、ＧＰＵのシェーダエンジンモジュール及び非シェーダエンジンモジュールを個別に制御可能なクロック信号でクロックすることにより、シェーダエンジン構成要素が、メモリを多用する処理ワークロード中により低い周波数でクロックされ、非シェーダエンジンモジュールのクロック周波数が増加又は変化しないままであり、改善された熱及び電力性能をもたらす。

【0008】

ＧＰＵは、ＧＰＵの構成要素の異なるグループに提供される各独立制御可能なクロック信号の周波数を設定するために、１つ以上のプログラム可能な分割器を用いる。例えば、いくつかの実施形態では、分割器は、位相同期ループ（phase locked loop、ＰＬＬ）等のクロックソースと、シェーダエンジンモジュール及び非シェーダエンジンモジュールと、の間に介在する。各分割器は、クロックソースからクロック信号（「入力クロック信号」ＣＬＫと呼ばれることもある）を受信し、第１のクロック信号及び第２のクロック信号を独立して選択可能な周波数で出力し、第１のクロック信号がシェーダエンジンモジュールに出力され、第２のクロック信号が非シェーダエンジンモジュールに出力される。分割器は、第１及び第２のクロック信号の周波数を設定するコントローラから制御信号を受信する。コントローラは、シェーダエンジンモジュール及び非シェーダエンジンモジュールにおける相対的なワークロードを示す性能カウンタデータのセットに基づいて、制御信号の値を選択する。例えば、性能カウンタデータが、所定期間よりも長い間、シェーダエンジンモジュールにおいてより重い処理ワークロードを示す場合に、第２のクロック信号の周波数を減少させて、非シェーダエンジンモジュールがクロックされる速度を低減させる。例えば、性能カウンタデータが、所定期間よりも長い間、非シェーダエンジンモジュールにおいてより重い処理ワークロードを示す場合に、第１のクロック信号の周波数を減少させて、シェーダエンジンモジュールがクロックされる速度を低減させる。例えば、性能カウンタデータが、シェーダエンジンモジュールと非シェーダエンジンモジュールとの間の処理ワークロードの差が、所定範囲（本明細書では「ガードバンド」として呼ばれることもある）内にあることを示す場合に、第１のクロック信号及び第２のクロック信号が同じ周波数（例えば、入力クロック信号の周波数）に設定される。

【0009】

図１は、それぞれ異なる構成可能なクロック信号でクロックされる、構成要素、シェーダエンジンモジュール（ＳＥ）及び非シェーダエンジンモジュール（ｎＳＥ）の異なるグループを有する例示的なＧＰＵ１００を示す図である。

【0010】

いくつかの実施形態では、ＧＰＵ１００は、例えば組み込みシステム、モバイルデバイス、パーソナルコンピュータ、サーバ、ワークステーション又はゲームコンソール等のように、少なくとも１つの中央処理ユニット（ＣＰＵ）、メモリデバイス及び記憶デバイスを含む処理システムに含まれる。ＧＰＵ１００は、処理システムに結合された電子画面に表示される画像をレンダリングする目的で、高周波で、数学的計算を実行するように構成された特殊な電子デバイスである。

【0011】

ＧＰＵ内のハードウェア構成要素は、画像レンダリングのために必要とされる数学的計算を実行する特定の目的のために設計されているため、ＧＰＵは、概して、一般的な目的の計算を処理するように設計されたＣＰＵよりも高速且つ効率を有するグラフィックス処理タスクを実行する傾向がある。従来のＧＰＵでは、システムの全ての構成要素は、単一のユニバーサルクロック信号を使用してクロックされる。一例では、従来のＧＰＵは、クロックソース、コントローラ、ＳＥ及びｎＳＥを含む。従来のＧＰＵのコントローラは、クロックソースを直接制御して、クロックソースによって出力されるクロック信号の周波数を調整する。クロック信号は、従来のＧＰＵのＳＥ及びｎＳＥの両方をクロックするために使用されるクロック信号のみである。従来のＧＰＵのクロック信号は、Ｈツリー又はメッシュクロック分配ネットワークを介してＳＥ及びｎＳＥに分配され、これにより、クロック信号のルーティングが、ＳＥ及びｎＳＥの各構成要素に対して等しい伝播遅延で発生することを確実とし、従来のＧＰＵのＳＥとｎＳＥとの間の同期タイミング関係を作り出す。しかしながら、ＳＥ及びｎＳＥの両方をクロックするための単一のユニバーサルクロック信号の使用に起因して、それぞれのワークロードに基づき、ＳＥとｎＳＥとの間で動的周波数スケーリングを実行することができず、熱及び電力消費の非効率性を作り出す。対照的に、ＧＰＵ１００は、分割器によって出力される個別に制御可能なクロック信号でクロックされるＳＥ及びｎＳＥを含み、それらのそれぞれのワークロードに基づいて、ＳＥとｎＳＥとの間で動的周波数スケーリングが実行されることを可能にし、ユニバーサルクロックスキームを有する従来のＧＰＵと比較して、熱効率及び電力消費効率を改善する。

【0012】

ＧＰＵ１００は、位相同期ループ（ＰＬＬ）モジュール１０２と、ＳＥ１０４と、ｎＳＥ１０６と、コントローラ１０８と、性能カウンタ１０９と、分割器１１０と、先入先出（ｆｉｒｓｔ－ｉｎ－ｆｉｒｓｔ－ｏｕｔ、ＦＩＦＯ）メモリモジュール１１２と、を含む。ＧＰＵ１００では、ＳＥ１０４の全ては、第１のクロック信号ＣＬＫＡを使用してクロックされ、ｎＳＥ１０６の全ては、第２のクロック信号ＣＬＫＢを使用してクロックされ、その結果、クロック周波数スケーリングは、ＳＥ１０４とｎＳＥ１０６との間に実装され得る。いくつかの実施形態では、ＳＥ１０４の各々は、例えば、幾何学プロセッサ、プリミティブユニット、複数の計算ユニット、ラスタライザ、レンダ出力ユニット（render output units、ＲＯＰ）、Ｌ１キャッシュを含む。いくつかの実施形態では、ｎＳＥ１０６は、コマンドプロセッサ、シェーダリソースアービタ、ディスパッチコントローラ、Ｌ１キャッシュ、Ｌ２キャッシュ、リングバッファ等のメモリリソースを含む。ＦＩＦＯメモリモジュール１１２は、ＳＥ１０４とｎＳＥ１０６との間でデータを渡す。ＳＥ１０４とｎＳＥ１０６との間の位相関係が既知であるため、ＦＩＦＯメモリモジュール１１２は、ＳＥ１０４のクロックドメインとｎＳＥ１０６のクロックドメインとの間のデータ送信を同期させる必要がなく、したがって、シンクロナイザを必要としない。

【0013】

ＰＬＬモジュール１０２は、指定された周波数を有するクロック信号ＣＬＫを生成し、分割器１１０の入力に出力する。クロック信号ＣＬＫを受信し、且つ、クロック信号ＣＬＫＡ及びＣＬＫＢを出力する分割器１１０は、ＳＥ１０４及びｎＳＥ１０６をクロックする。ＣＬＫＡ及びＣＬＫＢのそれぞれの周波数は、コントローラ１０８によって分割器１１０に出力される制御信号Ｓ０及びＳ１に基づいて設定される。ＣＬＫＡ及びＣＬＫＢの周波数は、クロック信号ＣＬＫの指定された周波数に基づいて設定される。例えば、いくつかの実施形態では、ＣＬＫＡ及びＣＬＫＢは、制御信号Ｓ０及びＳ１に個々に応じて、分割器１１０によるＣＬＫの周波数又はＣＬＫ／２の周波数の何れかに設定される。いくつかの実施形態では、各制御信号Ｓ０及びＳ１は、複数ビットの制御データを搬送し、複数のフリップフロップは、分割器１１０内に含まれ、３以上のクロック周波数（例えば、ＣＬＫ、ＣＬＫ／２、ＣＬＫ／４、ＣＬＫ／８等）のうち何れかがＣＬＫＡ及びＣＬＫＢに対して選択されることを可能にする。それゆえ、分割器１１０は、ＳＥ１０４及びｎＳＥ１０６が同じ周波数又は異なる周波数のクロック信号で選択的にクロックされることを可能にする。

【0014】

いくつかの実施形態では、コントローラ１０８は、ＳＥ１０４及びｎＳＥ１０６に関連する性能カウンタから取得された性能カウンタデータのそれぞれのセットに基づいて、分割器１１０によって出力される、ＣＬＫＡとＣＬＫＢとの間の周波数の比を判定するように構成されている。コントローラ１０８は、性能カウンタ１０９から性能カウンタデータ、ＳＥ_ｐ及びｎＳＥ_ｐを受信し、性能カウンタデータに基づいて、制御信号Ｓ０及びＳ１の値を設定する。いくつかの実施形態では、各性能カウンタ１０９は、ＧＰＵ１００内で発生する１つ以上のイベントに対応する性能カウンタ値を含む、性能カウンタデータを記憶するハードウェア又はソフトウェアにおいて実装されるレジスタである。いくつかの実施形態では、利用カウンタ、アクティブ静電容量（Ｃ_ａｃ）ビジー信号又はストリーミング性能カウンタは、追加的又は代替的に、ＳＥ１０４内で発生するアクティビティを識別及び定量化するために使用される。一例では、コントローラ１０８に結合された性能カウンタの第１のセットは、ＳＥ１０４内のアクティビティを示す、第１の性能カウンタデータ、ＳＥ_ｐを生成及び記憶する。いくつかの実施形態では、第１の性能カウンタデータ、ＳＥ_ｐは、性能カウンタの第１のセットから受信された性能カウンタ値を含むか、又は、性能カウンタ値の合計であり、性能カウンタの第１のセットは、ＳＥ１０４で発生する特定のイベントのそれぞれの量を追跡する。いくつかの実施形態では、ＳＥ１０４は、リングバッファ（ring buffer、ＲＢ）及びＬ１キャッシュを含む。いくつかの実施形態では、性能カウンタ及び対応する性能カウンタデータ、ＳＥ_ｐは、ベクトル及びスカラー算術論理ユニット（arithmetic logic unit、ＡＬＵ）アクティビティ、ピクセル速度、Ｌ１キャッシュヒット速度、及び／又は、シェーダメモリアクセス速度を含む若しくは別様に示す。例えば、コントローラ１０８に結合された性能カウンタの第２のセットは、ｎＳＥ１０６のうち１つ以上におけるアクティビティを示す、第２の性能カウンタデータ、ｎＳＥ_ｐを生成及び記憶する。いくつかの実施形態では、第２の性能カウンタデータ、ｎＳＥ_ｐは、性能カウンタの第２のセットから受信された性能カウンタ値の合計を含むか、又は、性能カウンタ値の合計であり、性能カウンタの第２のセットは、コマンドプロセッサ、シェーダリソースアービタ、ディスパッチコントローラ及びＬ２キャッシュ等のメモリリソース等の１つ以上の非シェーダ構成要素で発生する特定のイベントのそれぞれの量を追跡する。いくつかの実施形態では、性能カウンタ及び対応する性能カウンタデータ、ｎＳＥｐは、頂点速度、プリミティブ速度及び／又はＬ２キャッシュアクセス速度を含む若しくは別様に示す。コントローラ１０８は、第１の性能カウンタデータと第２の性能カウンタデータとの間の差、ＳＥ_ｐ－ｎＳＥ_ｐを計算する。いくつかの実施形態では、未加工の差ＳＥ_ｐ－ｎＳＥ_ｐを使用するのではなく、ヒステリシスを使用して、過渡的なグリッチに基づくスイッチングクロック信号を回避するために、経時的に計算された差の値をフィルタリングする。コントローラ１０８は、差の値を定期的に更新（すなわち、再計算）し、経時的な差の値に基づいて、制御信号Ｓ０及びＳ１の値を選択する。例えば、コントローラ１０８は、差が、本明細書ではガードバンドと呼ばれる上限閾値と下限閾値との間の所定の値の範囲内にあると判定した場合に、コントローラ１０８は、ＣＬＫＡ及びＣＬＫＢが１：１のクロック比（すなわち、ＣＬＫＡの周波数がＣＬＫＢの周波数に等しい）を有するようにＳ０及びＳ１の値を選択する。いくつかの実施形態では、ガードバンドを定義する差の値の範囲は、スイッチングレイテンシ又はクロック周波数の変化を強制するために必要とされる時間に基づいて選択される。コントローラ１０８は、所定の連続的な期間よりも長い間、差が、ガードバンドの上限閾値よりも高いと判定した場合に、概して、シェーダを多用するワークロードがＧＰＵ１００によって処理されていることを示し、コントローラ１０８は、ＣＬＫＡがＣＬＫＢよりも高い周波数を有するようなＳ０及びＳ１の値を選択する（例えば、ＣＬＫＡの周波数をＣＬＫの周波数に、及び、ＣＬＫＢの周波数をＣＬＫ／２の周波数に設定する）。このようにして、ＧＰＵ１００のワークロードが比較的高い非シェーダエンジン（例えば、メモリ）アクティビティを伴う場合に、ＳＥ１０４のクロックが縮小され（すなわち、周波数が低減され）、一方でＧＰＵ１００のワークロードが比較的高いシェーダアクティビティを伴う場合に、ｎＳＥ１０６のクロックが縮小され（すなわち、周波数が低減され）、それによって、単一のユニバーサルクロックがＳＥ及びｎＳＥの両方に関して使用される実装と比較して、ＧＰＵ１００の電力消費を低減させる。

【0015】

いくつかの実施形態では、ＧＰＵ１００は、各々がシェーダエンジンモジュールを有する、複数のシェーダエンジンを含む。いくつかの実施形態では、ＧＰＵ１００の所定のシェーダエンジンに含まれるシェーダエンジンモジュールは、ＧＰＵの全てのシェーダエンジンにわたって複製又はクローン化される。かかる実施形態では、非対称ワークロードを各シェーダエンジンに割り当てることができ、本明細書において説明するクロック周波数スケーリング方法がグローバルスキームに従って適用され、その結果、ＧＰＵ１００内のそれぞれのシェーダエンジンのシェーダエンジンモジュールに供給されるクロック信号のクロック周波数を個別に選択可能である。他の実施形態では、ＧＰＵ１００のシェーダエンジンには対称ワークロードが割り当てられ、本明細書おいて説明するクロック周波数スケーリング方法に従って同じクロック周波数を使用して全てクロックされる。

【0016】

図２は、クロック周波数スケーリングが、ＳＥ及びｎＳＥの各タイル上に配置された分割器を介して、ＳＥとｎＳＥとの間に実装される例示的なＧＰＵ２００を示す図である。ＧＰＵ２００は、位相同期ループ（ＰＬＬ）モジュール２０２と、ＳＥ２０４と、ｎＳＥ２０６と、コントローラ２０８と、性能カウンタ２０９と、ＦＩＦＯメモリモジュール２１２と、クロックメッシュ２１４と、を含む。いくつかの実施形態では、ＳＥ２０４の各々は、例えば、幾何学プロセッサ、プリミティブユニット、複数の計算ユニット、ラスタライザ、レンダ出力ユニット（ＲＯＰ）、リングバッファ（ＲＢ）、Ｌ１キャッシュを含む。いくつかの実施形態では、ｎＳＥ２０６は、コマンドプロセッサ、シェーダリソースアービタ、ディスパッチコントローラ、Ｌ２キャッシュ等のメモリリソースを含む。

【0017】

ＳＥ２０４は、Ｎ個のタイル２１６上に実装され、各タイル２１６は、それぞれの分割器２１０を含む。ここで、「タイル」は、処理及び／又はメモリ要素（例えば、計算ユニット、メモリセル等）の空間コヒーレントグループを指し、ＳＥ２０４及びｎＳＥ２０６の要素は、本実施形態において、かかるタイルに分割される。ｎＳＥ２０６は、Ｍ個のタイル２１７上に実装され、各タイル２１７は、それぞれの分割器２１１を含む。いくつかの実施形態では、分割器２１０及び分割器２１１の各々は、図３の分割器３１０に対応するが、単一のクロック信号出力のみを含むように変更され、オプションで、追加の選択可能なクロック分割のための追加のフリップフロップを含むように変更される。

【0018】

ＰＬＬモジュール２０２は、クロック信号ＣＬＫを生成し、クロックメッシュ２１４の入力に出力する。クロックメッシュ２１４は、クロック信号ＣＬＫを複数の出力に分配し、各々が、それぞれの分割器２１０又は分割器２１１のクロック入力にそれぞれ結合される。分割器２１０及び２１１の各々は、クロック信号ＣＬＫを受信し、ＣＬＫ、ＣＬＫ／２、ＣＬＫ／４、又は、ＣＬＫの周波数の別の所望の分割から選択される、選択された周波数を有するクロック信号を出力して、それぞれ、それらの対応するタイル２１６及び２１７でＳＥ２０４及びｎＳＥ２０６をクロックする。本実施形態では、全ての分割器２１０は、同じクロック信号ＣＬＫＡを出力し、一方で、全ての分割器２１１は、同じクロック信号ＣＬＫＢを出力し、ＣＬＫＡ及びＣＬＫＢは、コントローラ２０８によって出力される制御信号Ｓ０及びＳ１の値に応じて、同じ周波数又は異なる周波数を有することになる。例えば、周波数ＣＬＫＡは、ＣＬＫＢの周波数から独立して制御可能である。例えば、ＣＬＫＡのクロック信号周波数は、コントローラ２０８によって分割器２１０に出力される制御信号Ｓ０に基づいて選択され、ＣＬＫＢに対するクロック信号周波数は、コントローラ２０８によって分割器２１１に出力される制御信号Ｓ１に基づいて選択される。いくつかの実施形態では、各制御信号Ｓ０及びＳ１は、複数ビットの制御データを搬送し、複数のフリップフロップは、分割器２１０及び２１１の各々に含まれ、３以上のクロック周波数（例えば、ＣＬＫ、ＣＬＫ／２、ＣＬＫ／４、ＣＬＫ／８等）のうち何れかがＳＥ２０４及びｎＳＥ２０６をクロックするために選択されるのを可能にする。それゆえ、分割器２１０及び分割器２１１は、ＳＥ２０４及びｎＳＥ２０６が同じ周波数又は異なる周波数のクロック信号で選択的にクロックされるのを可能にする。

【0019】

いくつかの実施形態では、コントローラ２０８は、ＳＥ２０４及びｎＳＥ２０６に関連する性能カウンタから取得された性能カウンタデータのそれぞれのセットに基づいて、それぞれ、分割器２１０及び分割器２１１によって出力される、ＣＬＫＡとＣＬＫＢとの間の周波数の比を判定するように構成されている。コントローラ２０８は、上記の図１に関連して説明したように、性能カウンタ２０９の性能カウンタの第１及び第２のセットから、第１の性能カウンタデータ、ＳＥ_ｐ、及び、第２の性能カウンタデータｎＳＥ_ｐを受信し、性能カウンタデータに基づいて、制御信号Ｓ０及びＳ１の値を設定する。コントローラ２０８は、第１の性能カウンタデータと第２の性能カウンタデータとの間の差、ＳＥ_ｐ－ｎＳＥ_ｐを計算する。コントローラ２０８は、差の値を定期的に更新（すなわち、再計算）し、経時的な差の値に基づいて、制御信号Ｓ０及びＳ１の値を選択する。例えば、コントローラ２０８は、差が所定のガードバンド内にあると判定した場合に、コントローラ２０８は、ＣＬＫＡ及びＣＬＫＢが１：１のクロック比（すなわち、ＣＬＫＡの周波数がＣＬＫＢの周波数に等しい）を有するようにＳ０及びＳ１の値を選択する。コントローラ２０８は、所定の連続的な期間よりも長い間、差がガードバンドの上限閾値よりも高いと判定した場合に、概して、シェーダを多用するワークロードがＧＰＵ２００によって処理されていることを示し、コントローラ２０８は、ＣＬＫＡがＣＬＫＢよりも高い周波数を有するようなＳ０及びＳ１の値を選択する（例えば、ＣＬＫＡの周波数をＣＬＫの周波数に、及び、ＣＬＫＢの周波数をＣＬＫ／２の周波数に設定する）。このようにして、ＧＰＵ２００のワークロードが比較的高い非シェーダエンジン（例えば、メモリ）アクティビティを伴う場合に、ＳＥ２０４のクロックが縮小され（すなわち、周波数が低減され）、一方で、ＧＰＵ２００のワークロードが比較的高いシェーダアクティビティを伴う場合に、ｎＳＥ２０６のクロックが縮小され（すなわち、周波数が低減され）、それによって、単一の、ユニバーサルクロックがＳＥ及びｎＳＥの両方に関して使用される実装と比較して、ＧＰＵ２００の電力消費を低減させる。図１のＧＰＵ１００と比較した場合、ＧＰＵ２００は、概して、ＧＰＵ２００の比較的低いクロックツリー分岐によってオフセットされた、分割器２１０、２１１とコントローラ２０８との間の距離に起因して、クロック周波数変化に関するレイテンシを増加させる。

【0020】

図３は、分割器３１０の例示的なブロック図を示す。いくつかの実施形態では、分割器３１０は、図１の分割器１１０並びに図２の分割器２１０及び２１１のうち１つ以上に全体的又は部分的に対応する。例示するように、分割器３１０は、遅延回路３２２と、フリップフロップ３２０と、第１のマルチプレクサ３２４と、第２のマルチプレクサ３２６と、を含む。分割器３１０は、クロック入力でクロック信号ＣＬＫを受信する。次いで、クロック信号ＣＬＫは、遅延回路３２２及びフリップフロップ３２０によって受信される。フリップフロップ３２０は、クロック信号ＣＬＫの周波数を半分にして、クロック信号ＣＬＫ／２を生成する。遅延回路３２２は、クロック信号ＣＬＫに遅延量を提供し、これは、クロック信号ＣＬＫ／２を生成するためにフリップフロップ３２０によってクロック信号ＣＬＫに導入された遅延に等しく、その結果、遅延回路３２２によって出力されたクロック信号ＣＬＫは、フリップフロップ３２０によって出力されるクロック信号ＣＬＫ／２と同期される。第１のマルチプレクサ３２４は、遅延クロック信号ＣＬＫ、クロック信号ＣＬＫ／２及び制御信号Ｓ０を受信する。第１のマルチプレクサ３２４は、制御信号Ｓ０に基づいて選択された、遅延クロック信号ＣＬＫ及びクロック信号ＣＬＫ／２のうち選択された何れかであるクロック信号ＣＬＫＡを出力する。第２のマルチプレクサ３２６は、遅延クロック信号ＣＬＫ、クロック信号ＣＬＫ／２及び制御信号Ｓ１を受信する。第２のマルチプレクサ３２６は、制御信号Ｓ１に基づいて選択された遅延クロック信号ＣＬＫ及びクロック信号ＣＬＫ／２のうち選択された何れかであるクロック信号ＣＬＫＢを出力する。マルチプレクサ３２４及び３２６は、それぞれ、外部コントローラから制御信号Ｓ０及びＳ１を受信する。いくつかの実施形態では、外部コントローラは、図１及び図２のコントローラ１０８及び２０８の何れかに対応する。

【0021】

図４は、上述したように、第１及び第２の性能カウンタデータの間の差４０２、ＳＥ_ｐ－ｎＳＥ_ｐが、所定のガードバンド４０４の上限閾値Ａ及び下限閾値Ｂに対して経時的にどのように変化するかを示すグラフ４００である。グラフ４００は、図１のＧＰＵ１００の例示的な実装形態に関して説明されているが、図２のＧＰＵ２００にも適用可能である。

【0022】

点４０６から始まると、コントローラ１０８は、性能カウンタデータＳＥ_ｐ及びｎＳＥ_ｐが性能カウンタ１０９によってコントローラ１０８に提供されることに基づいて、差ＳＥ_ｐ－ｎＳＥ_ｐを計算する。いくつかの実施形態では、コントローラ１０８は、差４０２を定期的に計算し、その結果、差４０２の計算値がコントローラ１０８によって定期的に更新される。いくつかの実施形態では、コントローラ１０８は、新しい性能カウンタデータＳＥ_ｐ及びｎＳＥ_ｐが、性能カウンタ１０９によってコントローラ１０８に提供される毎に、差４０２を再計算する。本実施形態では、分割器１１０によるＣＬＫＡ及びＣＬＫＢ出力の周波数は、点４０６において等しいと仮定される。

【0023】

点４０８において、コントローラ１０８は、差４０２が、所定期間よりも長い間、ガードバンド４０４の下限閾値Ｂ未満であると判定し、この場合、グラフィックス処理ユニット１００によって処理されているワークロードの大部分が、所定期間よりも長い間、ｎＳＥ１０６によって実行されていることを示す。差４０２が所定期間よりも長い間、下限閾値Ｂ未満であると判定したことに応じて、コントローラ１０８は、制御信号Ｓ１を変更して、ｎＳＥ１０６をクロックするために使用されるクロック信号ＣＬＫＢの周波数を、ＣＬＫ／２等のより低い周波数に減少させる。

【0024】

点４１０において、コントローラ１０８は、差４０２が下限閾値Ｂを上回り交差していると判定し、この場合、ｎＳＥ１０６とＳＥ１０４との間のよりバランスのとれたワークロードを示す。差４０２が下限閾値Ｂを上回り交差すると判したことに応じて、コントローラ１０８は、制御信号Ｓ１を変更して、クロック信号ＣＬＫＢの周波数を、ＳＥ１０４をクロックするために使用されるクロック信号ＣＬＫＡの周波数と等しくなるように増加させる。

【0025】

点４１２において、コントローラ１０８は、差４０２がガードバンド４０４の上限閾値Ａを上回り交差すると判定し、この場合、ＧＰＵ１００によって処理されるワークロードの大部分がＳＥ１０４によって実行されていることを示す。

【0026】

点４１４において、コントローラ１０８は、差４０２が、所定期間よりも長い間、上限閾値Ａを上回ったままであると判定する。差４０２が、所定期間よりも長い間、ガードバンド４０４の上限閾値Ａを上回ったままであると判定したことに応じて、コントローラ１０８は、制御信号Ｓ０を変更して、クロック信号ＣＬＫＡの周波数を、ＣＬＫ／２等のより低い周波数に減少させる。

【0027】

点４１６において、コントローラ１０８は、差４０２が上限閾値Ａよりも高い状態から下限閾値Ｂよりも低い状態に低下したと判定し、この場合、処理ワークロードが、主にＳＥ１０４による処理から主にｎＳＥ１０６による処理に急にシフトしたことを示す。差４０２が上限閾値Ａよりも高い状態から下限閾値Ｂよりも低い状態に低下したと判定したことに応じて、コントローラ１０８は、ＣＬＫＡの周波数を増加させるために制御信号Ｓ０を変更して、ＣＬＫＢの周波数に一致させる。

【0028】

点４１８において、コントローラ１０８は、差４０２が、所定期間よりも長い間、下限閾値Ｂを下回ったままであることを判定する。これに応じて、コントローラは、制御信号Ｓ１を変更して、ＣＬＫＢの周波数を減少させる。

【0029】

図５は、いくつかの実施形態による、ＧＰＵのＳＥ及びｎＳＥに供給されるクロック信号を選択的に変更する方法５００の例示的なプロセスフローを示す。方法５００は、図１のＧＰＵ１００及びその構成要素における例示的な実装に関して説明される。

【0030】

ブロック５０２において、性能カウンタ１０９の第１のセットは、ＳＥ１０４における監視されたアクティビティに基づいて、第１の性能カウンタデータ、ＳＥ_ｐを生成する。いくつかの実施形態では、第１の性能カウンタデータ、ＳＥ_ｐは、スカラー及びベクトルＡＬＵアクティビティ、ピクセル速度、Ｌ１キャッシュヒット速度、並びに／又は、シェーダメモリアクセス速度を含むか示す。

【0031】

ブロック５０４において、性能カウンタ１０９の第２のセットは、ｎＳＥ１０６における監視されたアクティビティに基づいて、第２の性能カウンタ、ｎＳＥ_ｐデータを生成する。いくつかの実施形態では、第２の性能カウンタデータ、ＳＥ_ｐは、頂点速度、プリミティブ速度、及び／又は、Ｌ２キャッシュアクセス速度を含むか示す。

【0032】

ブロック５０６において、コントローラ１０８は、ＳＥ性能カウンタデータ、ＳＥ_ｐと、ｎＳＥ性能カウンタデータ、ｎＳＥ_ｐとの間の差、ＳＥ_ｐ－ｎＳＥ_ｐを計算する。いくつかの実施形態では、ＳＥ_ｐは、ＳＥ１０４で発生する様々な定義されたイベントについてのカウントに対応する複数の性能カウンタ値の合計であり、ｎＳＥ_ｐは、ｎＳＥ１０６において発生する様々な定義されたイベントのカウントに対応する複数の性能カウンタ値の合計である。したがって、差、ＳＥ_ｐ－ｎＳＥ_ｐは、ＳＥ１０４とｎＳＥ１０６との間の処理ワークロードにおける差を表す。

【0033】

ブロック５０８において、コントローラ１０８は、ＳＥ_ｐ－ｎＳＥ_ｐが、所定の閾値期間よりも長い間、所定のガードバンドの下限閾値を下回ったままであるかどうかを判定する。ＳＥ_ｐ－ｎＳＥ_ｐが、所定期間よりも長い間、下限閾値を下回ったままである場合に、方法５００は、ブロック５１０に進む。ＳＥ_ｐ－ｎＳＥ_ｐが下限閾値を上回る又は所定期間よりも長い間、下限閾値を下回ったままではない場合に、方法５００は、ブロック５１２に進む。

【0034】

ブロック５１０において、コントローラ１０８は、ｎＳＥ１０６に提供される１つ以上のクロック信号の周波数を減少させる。いくつかの実施形態では、ｎＳＥ１０６に提供されるクロック信号の周波数を減少させるために、コントローラ１０８は、制御信号Ｓ１を変更して、より低い周波数でクロック信号を分割器１１０に出力させる。いくつかの実施形態では、クロック信号Ｓ１のかかる変更は、分割器１１０によって出力されたクロック信号ＣＬＫＢの周波数を、分割器１１０のクロック信号入力において受信されたクロック信号ＣＬＫの周波数からその周波数の半分（すなわち、ＣＬＫ／２）まで変化させる。

【0035】

ブロック５１２において、コントローラ１０８は、ＳＥ_ｐ－ｎＳＥ_ｐが、所定の閾値期間よりも長い間、所定のガードバンドの上限閾値を上回ったままであるかどうかを判定する。ＳＥ_ｐ－ｎＳＥ_ｐが、所定期間よりも長い間、上限閾値を上回ったままである場合に、方法５００は、ブロック５１４に進む。ＳＥ_ｐ－ｎＳＥ_ｐが上限閾値を下回る又は所定期間よりも長い間、上限閾値を上回ったままではない場合に、方法５００は、ブロック５１６に進む。いくつかの実施形態では、ガードバンドの上限閾値に関連する所定の閾値期間は、ガードバンドの下限閾値に関連する所定の閾値期間と同じであるが、一方で、他の実施形態では、これらの所定の閾値期間が異なる。

【0036】

ブロック５１４において、コントローラ１０８は、ＳＥ構成要素１０４に提供される１つ以上のクロック信号の周波数を減少させる。いくつかの実施形態では、ＳＥ構成要素１０４に提供されるクロック信号の周波数を減少させるために、コントローラ１０８は、制御信号Ｓ０を変更して、より低い周波数でクロック信号を分割器１１０に出力させる。いくつかの実施形態では、クロック信号Ｓ０のかかる変更は、分割器１１０によって出力されたクロック信号ＣＬＫＡの周波数を、分割器１１０のクロック信号入力において受信されたクロック信号ＣＬＫの周波数からその周波数の半分（すなわち、ＣＬＫ／２）まで変化させる。

【0037】

ブロック５１６において、コントローラ１０８は、ＳＥ１０４及びｎＳＥ１０６に提供されるクロック信号に対して１：１の周波数比を設定する。いくつかの実施形態では、コントローラ１０８は、制御信号Ｓ０及びＳ１の一方又は両方を変更して、分割器１１０によって出力されたクロック信号ＣＬＫＡ及びＣＬＫＢの周波数を、それぞれ、ＳＥ１０４及びｎＳＥ１０６に同じ周波数であるように変更する。いくつかの実施形態では、コントローラ１０８は、クロック信号ＣＬＫＡ及びＣＬＫＢの周波数が、ＰＬＬ１０２によって分割器１１０に入力されるクロック信号ＣＬＫの周波数に等しくなるように、制御信号Ｓ０及びＳ１を変更する。

【0038】

方法５００は、図１のＧＰＵ１００に関連して説明されているが、当業者によって、方法５００が、図２のＧＰＵ２００にも適用可能であることが理解されよう。

【0039】

本明細書に開示したように、いくつかの実施形態では、方法は、１つ以上のシェーダエンジンモジュールの第１のワークロード及び１つ以上の非シェーダエンジンモジュールの第２のワークロードに基づいて、１つ以上のシェーダエンジンモジュールによって受信された第１のクロック信号の第１の周波数、及び、グラフィックス処理ユニットの１つ以上の非シェーダエンジンモジュールによって受信された第２のクロック信号の第２の周波数のうち少なくとも１つを独立して調整することを含む。一態様では、第１の周波数及び第２の周波数のうち少なくとも１つを独立して調整することは、第１のワークロードを示す第１の性能カウンタデータ、及び、第２のワークロードを示す第２の性能カウンタデータに基づいており、この方法は、第１の性能カウンタデータと第２の性能カウンタデータとの間の差を計算することを更に含み、第１の周波数及び第２の周波数のうち少なくとも１つを独立して調整することは、差に基づいて実行される。別の態様では、方法は、差が、所定期間よりも長い間、所定のガードバンドの下限閾値未満であると判定することを含み、第１の周波数及び第２の周波数のうち少なくとも１つを独立して調整することは、第２のクロック信号の第２の周波数を調整することなく、第１のクロック信号の第１の周波数を独立して調整することを含む。

【0040】

一態様では、方法は、差が、所定期間よりも長い間、所定のガードバンドの上限閾値よりも大きいと判定することを含み、第１の周波数及び第２の周波数のうち少なくとも１つを独立して調整することは、第１のクロック信号の第１の周波数を調整することなく、第２のクロック信号の第２の周波数を独立して調整することを含む。別の態様では、第１の周波数及び第２の周波数のうち少なくとも１つを独立して調整することは、差が所定のガードバンドの上限閾値と下限閾値との間にあることを判定することを含み、第１の周波数及び第２の周波数のうち少なくとも１つを独立して調整することは、第１のクロック信号の第１の周波数を、第２のクロック信号の第２の周波数に一致するように調整することを含む。別の態様では、第１の周波数及び第２の周波数のうち少なくとも１つを独立して調整することは、少なくとも１つの制御信号を分割器に送信することと、分割器を用いて、少なくとも１つの制御信号に基づいて、第１の周波数を有する第１のクロック信号を１つ以上のシェーダエンジンモジュールに送信することと、分割器を用いて、少なくとも１つの制御信号に基づいて、第２の周波数を有する第２のクロック信号を１つ以上の非シェーダエンジンモジュールに送信することと、を含む。更なる別の態様では、第１の周波数及び第２の周波数のうちの少なくとも１つを独立して調整することは、第１の制御信号を第１の複数の分割器に送信することと、第２の制御信号を第２の複数の分割器に送信することと、第１の複数の分割器を用いて、第１の制御信号に基づいて、第１の周波数を有する第１のクロック信号を１つ以上のシェーダエンジンモジュールに送信することと、第２の複数の分割器を用いて、第２の制御信号に基づいて、第２の周波数を有する第２のクロック信号を１つ以上の非シェーダエンジンモジュールに送信することと、を含む。

【0041】

いくつかの実施形態では、グラフィックス処理ユニット（ＧＰＵ）は、分割器と、分割器に結合され、分割器から第１のクロック信号を受信するように構成された複数のシェーダエンジンモジュールと、分割器に結合され、分割器から第２のクロック信号を受信するように構成された複数の非シェーダエンジンモジュールと、第１の制御信号及び第２の制御信号を分割器に出力して、複数のシェーダエンジンモジュールの第１の検出されたワークロード及び複数の非シェーダエンジンモジュールの第２の検出されたワークロードに基づいて、第１のクロック信号の第１の周波数及び第２のクロック信号の第２の周波数を選択的に制御するように構成されたコントローラと、を含む。一態様では、ＧＰＵは、複数のシェーダエンジンモジュールの第１の検出されたワークロードを示す第１の性能カウンタデータを生成するように構成された第１の複数の性能カウンタと、複数の非シェーダエンジンモジュールの第２の検出されたワークロードを示す第２の性能カウンタデータを生成するように構成された第２の複数の性能カウンタと、を含む。

【0042】

一態様では、コントローラは、第１の複数の性能カウンタから第１の性能カウンタデータを受信することと、第２の複数の性能カウンタから第２の性能カウンタデータを受信することと、第１の性能カウンタデータ及び第２の性能カウンタデータに基づいて、第１の周波数及び第２の周波数のうち少なくとも１つを独立して調整することと、を行うように更に構成されている。別の態様では、コントローラは、第１の性能カウンタデータと第２の性能カウンタデータとの間の差を計算することと、差に基づいて、第１の周波数及び第２の周波数のうち少なくとも１つを独立して調整することと、を行うように更に構成されている。更なる別の態様では、コントローラは、差が、所定期間よりも長い間、所定のガードバンドの下限閾値未満であると判定することと、第２のクロック信号の第２の周波数を調整することなく、第１のクロック信号の第１の周波数を独立して調整することと、を行うように更に構成されている。別の態様では、コントローラは、差が、所定期間よりも長い間、所定のガードバンドの上限閾値よりも大きいと判定することと、第１のクロック信号の第１の周波数を調整することなく、第２のクロック信号の第２の周波数を独立して調整することと、を行うように更に構成されている。更なる別の態様では、コントローラは、差が所定のガードバンドの上限閾値と下限閾値との間にあると判定することと、第１のクロック信号の第１の周波数を、第２のクロック信号の第２の周波数に一致させるように調整することと、を行うように更に構成されている。

【0043】

いくつかの実施形態では、グラフィックス処理ユニット（ＧＰＵ）は、複数の分割器と、複数の分割器の第１のサブセットから、第１の周波数を有する第１のクロック信号を受信するように構成された複数のシェーダエンジンモジュールと、複数の分割器の第２のサブセットから、第２の周波数を有する第２のクロック信号を受信するように構成された複数の非シェーダエンジンモジュールと、複数のシェーダエンジンモジュールの第１の検出されたワークロード及び複数の非シェーダエンジンモジュールの第２の検出されたワークロードに基づいて、第１の制御信号を複数の分割器の第１のサブセットに出力して、第１のクロック信号の第１の周波数を選択的に制御することと、第２の制御信号を複数の分割器の第２のサブセットに出力して、第２のクロック信号の第２の周波数を選択的に制御することと、を行うように構成されたコントローラと、を含む。別の態様では、ＧＰＵは、複数のシェーダエンジンモジュールの第１の検出されたワークロードを示す第１の性能カウンタデータを生成するように構成された第１の複数の性能カウンタと、複数の非シェーダエンジンモジュールの第２の検出されたワークロードを示す第２の性能カウンタデータを生成するように構成された第２の複数の性能カウンタと、を含む。

【0044】

一態様では、コントローラは、第１の複数の性能カウンタから第１の性能カウンタデータを受信することと、第２の複数の性能カウンタから第２の性能カウンタデータを受信することと、第１の性能カウンタデータと第２の性能カウンタデータとの間の差を計算することと、差に基づいて、第１の周波数及び第２の周波数のうち少なくとも１つを独立して調整することと、を行うように更に構成されている。更なる別の態様では、コントローラは、差が、所定期間よりも長い間、所定のガードバンドの下限閾値未満であると判定することと、第２の周波数を調整することなく、第１の周波数を独立して調整することと、を行うように更に構成されている。別の態様では、コントローラは、差が、所定期間よりも長い間、所定のガードバンドの上限閾値よりも大きいと判定することと、第１の周波数を調整することなく、第２の周波数を独立して調整することと、を行うように更に構成されている。別の態様では、コントローラは、差が所定のガードバンドの上限閾値と下限閾値との間にあると判定することと、第１の周波数を第２の周波数に一致させるように調整することと、を行うように更に構成されている。

【0045】

いくつかの実施形態では、上述した装置及び技術は、図１及び図２を参照して上述したＧＰＵ等の１つ以上の集積回路（ＩＣ）デバイス（集積回路パッケージ又はマイクロチップとも呼ばれる）を含むシステムに実装される。電子設計自動化（ＥＤＡ）及びコンピュータ支援設計（ＣＡＤ）ソフトウェアツールは、これらのＩＣデバイスの設計及び製造に使用される。これらの設計ツールは、典型的には、１つ以上のソフトウェアプログラムとして表される。１つ以上のソフトウェアプログラムは、回路を製造するための製造システムを設計するか又は適応させるためのプロセスの少なくとも一部を実行するために、１つ以上のＩＣデバイスの回路を表すコードで動作するようにコンピュータシステムを操作するための、コンピュータシステムによって実行可能なコードを含む。このコードは、命令、データ、又は、命令及びデータの組み合わせを含み得る。設計ツール又は製造ツールを表すソフトウェア命令は、典型的には、コンピューティングシステムにアクセス可能なコンピュータ可読記憶媒体に記憶される。同様に、ＩＣデバイスの設計又は製造の１つ以上の段階を表すコードは、同じコンピュータ可読記憶媒体又は異なるコンピュータ可読記憶媒体に記憶され、そこからアクセスされる。

【0046】

コンピュータ可読記憶媒体は、命令及び／又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュ）、不揮発性メモリ（例えば、読取専用メモリ（ＲＯＭ）若しくはフラッシュメモリ）、又は、微小電気機械システム（ＭＥＭＳ）ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体（例えば、システムＲＡＭ又はＲＯＭ）はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体（例えば、磁気ハードドライブ）はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、光学ディスク又はユニバーサルシリアルバス（ＵＳＢ）ベースのフラッシュメモリ）はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、ネットワークアクセス可能ストレージ（ＮＡＳ））は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。

【0047】

いくつかの実施形態では、上記の技術のいくつかの態様は、ソフトウェアを実行するプロセッシングシステムの１つ以上のプロセッサによって実装されてもよい。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶され、又は、非一時的なコンピュータ可読記憶媒体上で有形に具現化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、１つ以上のプロセッサによって実行されると、上記の技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する命令及び特定のデータを含むことができる。非一時的なコンピュータ可読記憶媒体は、例えば、磁気若しくは光ディスク記憶デバイス、例えばフラッシュメモリ、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）等のソリッドステート記憶デバイス、又は、他の１つ以上の不揮発性メモリデバイス等を含むことができる。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈若しくは実行可能な他の命令フォーマットであってもよい。

【0048】

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

【0049】

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版