特表2024-523454 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2024-523454マイクロプロセッサにおけるルーティング命令

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-06-28

(54)【発明の名称】マイクロプロセッサにおけるルーティング命令

(51)【国際特許分類】

G06F 9/38 20180101AFI20240621BHJP

G06F 9/30 20180101ALI20240621BHJP

【ＦＩ】

G06F9/38 310G

G06F9/30 310A

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023578818

(86)(22)【出願日】2022-06-24

(85)【翻訳文提出日】2023-12-20

(86)【国際出願番号】 CN2022101090

(87)【国際公開番号】W WO2023274060

(87)【国際公開日】2023-01-05

(31)【優先権主張番号】17/362,189

(32)【優先日】2021-06-29

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(74)【代理人】

【識別番号】100120710

【弁理士】

【氏名又は名称】片岡忠彦

(74)【復代理人】

【識別番号】100104880

【弁理士】

【氏名又は名称】古部次郎

(74)【復代理人】

【識別番号】100118108

【弁理士】

【氏名又は名称】久保洋之

(72)【発明者】

【氏名】トンプト、ブライアン、ダブリュー

(72)【発明者】

【氏名】ゲンデン、マイケル、ジョセフ

(72)【発明者】

【氏名】ピンディクラ、タルナチャラム

(72)【発明者】

【氏名】ウィリアムズ、フィリップ、ジー

(72)【発明者】

【氏名】リー、ケント

(72)【発明者】

【氏名】セゲブ、ニル

(72)【発明者】

【氏名】パテル、メフル

【テーマコード（参考）】

5B013

5B033

【Ｆターム（参考）】

5B013AA14

5B013AA18

5B013DD02

5B033AA03

5B033AA13

(57)【要約】

実行スライスを含む処理パイプラインの作業負荷をバランスするためのコンピュータシステム、プロセッサ、プログラミング命令もしくは方法またはその組み合わせであって、実行スライスは、命令を処理するための１または複数の実行ユニットを有する少なくとも２つの処理パイプラインであって、少なくとも第１の処理パイプラインおよび第２の処理パイプラインは、第１の命令タイプを実行可能である、処理パイプラインと、第１の処理パイプラインと第２の処理パイプラインのいずれで第１の命令タイプを実行するかを決定するための命令をデコードする命令デコードユニットと、を備える、コンピュータシステム、プロセッサ、プログラミング命令もしくは方法またはその組み合わせである。プロセッサは、第１の処理パイプライン作業負荷、第２の処理パイプライン作業負荷、およびそれらの組み合わせからなる作業負荷グループの少なくとも１つを計算することと、作業負荷グループの少なくとも１つに基づいて、第１の命令タイプを実行する第１の処理パイプラインまたは第２の処理パイプラインを選択することと、を実行するように構成される。
【選択図】図９

【特許請求の範囲】

【請求項1】

情報を処理するためのプロセッサであって、前記プロセッサは、
各々が命令を処理するための１または複数の実行ユニットを有する少なくとも２つの処理パイプラインであって、前記少なくとも２つの処理パイプラインのうちの少なくとも第１の処理パイプラインおよび第２の処理パイプラインは、第１の命令タイプを実行可能である、少なくとも２つの処理パイプラインと、
前記第１の処理パイプラインと前記第２の処理パイプラインのいずれで前記第１の命令タイプを実行するかを決定するための命令をデコードする命令デコードユニットと、を備え、
前記プロセッサは、
第１の処理パイプライン作業負荷、第２の処理パイプライン作業負荷、およびそれらの組み合わせからなる作業負荷グループの少なくとも１つを計算することと、
前記作業負荷グループの少なくとも１つに基づいて、前記第１の命令タイプを実行する前記第１の処理パイプラインまたは前記第２の処理パイプラインを選択することと、
を実行するように構成される、プロセッサ。

【請求項2】

前記プロセッサは、前記第１の処理パイプライン作業負荷を計算し、前記第２の処理パイプライン作業負荷を計算するようにさらに構成される、請求項１に記載のプロセッサ。

【請求項3】

前記第１の処理パイプライン作業負荷を計算することは、前記第１の処理パイプラインにおいて実行される命令の少なくとも第１のサブグループの数をカウントすることを含む、請求項２に記載のプロセッサ。

【請求項4】

前記第１の処理パイプラインの作業負荷を計算することは、
前記少なくとも２つの処理パイプラインによって実行されたすべての前記命令をカウントすることと、
命令の前記第１のサブグループの前記数、前記少なくとも２つの処理パイプラインによって実行されるすべての前記命令、およびそれらの組み合わせからなるグループの少なくとも１つに基づいて、前記第１の処理パイプラインにおいて実行される命令の前記第１のサブグループの割合を決定することと、
を含む、請求項３に記載のプロセッサ。

【請求項5】

前記第２の処理パイプライン作業負荷を計算することは、前記第２の処理パイプラインにおいて実行される命令の少なくとも第２のサブグループの数をカウントすることを含む、請求項２に記載のプロセッサ。

【請求項6】

前記第２の処理パイプライン作業負荷を計算することは、
前記少なくとも２つの処理パイプラインによって実行されたすべての前記命令をカウントすることと、
命令の前記第２のサブグループの前記数、前記少なくとも２つの処理パイプラインによって実行されるすべての前記命令、およびそれらの組み合わせからなるグループの少なくとも１つに基づいて、前記第２の処理パイプラインにおいて実行される命令の前記第２のサブグループの割合を決定することと、
を含む、請求項５に記載のプロセッサ。

【請求項7】

前記作業負荷グループの少なくとも１つに基づいて前記第１の処理パイプラインまたは前記第２の処理パイプラインを選択することは、前記第１の処理パイプライン作業負荷と第２の処理パイプライン作業負荷とを比較することを含む、請求項１に記載のプロセッサ。

【請求項8】

前記作業負荷グループの少なくとも１つに基づいて前記第１の処理パイプラインまたは前記第２の処理パイプラインを選択することは、前記第１の処理パイプライン作業負荷を計算することと、前記第１の処理パイプライン作業負荷を第１の閾値と比較することとを含み、前記第１の閾値は、数、割合、比率、およびそれらの組み合わせからなる第１の閾値グループの少なくとも１つである、請求項７に記載のプロセッサ。

【請求項9】

前記作業負荷グループの少なくとも１つに基づいて、前記第１の処理パイプラインまたは前記第２の処理パイプラインを選択することは、
前記第１の処理パイプライン作業負荷が前記第１の閾値未満であることに応答して、前記第１の命令タイプを実行する前記第１の処理パイプラインを選択することを含む、請求項８に記載のプロセッサ。

【請求項10】

前記作業負荷グループの少なくとも１つに基づいて、前記第１の処理パイプラインまたは前記第２の処理パイプラインを選択することは、
前記第１の処理パイプライン作業負荷を計算することと、
前記第２の処理パイプライン作業負荷を計算することと、
前記第１の処理パイプライン作業負荷を第１の閾値と比較することと、
前記第２の処理パイプライン作業負荷を第２の閾値と比較することと、
前記第１の処理パイプライン作業負荷が前記第１の閾値を超えること、および前記第２の処理パイプライン作業負荷が前記第２の閾値未満であることの両方に応答して、前記第１の命令タイプを実行する前記第２の処理パイプラインを選択することと、
前記第１の処理パイプライン作業負荷が前記第１の閾値以下であること、かつ、前記第１の処理パイプライン作業負荷が前記第１の閾値を超えることおよび前記第２の処理パイプライン作業負荷が前記第２の閾値未満であることの両方、に応答して、前記第１の命令タイプを実行する前記第１の処理パイプラインを選択することと、
を含む、請求項１に記載のプロセッサ。

【請求項11】

前記第１の処理パイプライン作業負荷の計算および前記第２の処理パイプライン作業負荷の計算は、「Ｎ」命令の固定間隔またはローリング間隔にわたって実行される、請求項１０に記載のプロセッサ。

【請求項12】

前記第１の処理パイプライン作業負荷を計算することは、前記第１の処理パイプラインにおいて実行される命令の第３のサブグループの数をカウントすることと、命令の前記第３のサブグループの前記数が第３の閾値を超えているか否かを判定することと、前記第１の処理パイプラインにおいて実行される命令の前記第３のサブグループの前記数が前記第３の閾値を超えていることに応答して、前記第１の命令タイプを実行する前記第２の処理パイプラインを選択することと、をさらに含む、請求項３に記載のプロセッサ。

【請求項13】

前記第１の命令タイプは、単純算術命令である、請求項１に記載のプロセッサ。

【請求項14】

前記プロセッサは、２つの実行スライスを含む少なくとも１つのスーパースライスを含み、各実行スライスは、前記少なくとも２つの処理パイプラインを含み、前記第１の処理パイプラインは、単純算術命令を実行するように構成された算術論理演算ユニット（ＡＬＵ）実行ユニットを有するＣｏｍｐｕｔｅパイプであり、前記第２の処理パイプラインは、少なくとも単純算術命令を実行するように構成された単純（ＳＸ）実行ユニットを有するStore/Branch/Simpleパイプであり、前記第１の命令タイプは単純算術命令であり、
前記命令デコードユニットは、命令の第１のサブグループの数をカウントする第１のカウンタを含み、命令の前記第１のサブグループが、前記Ｃｏｍｐｕｔｅパイプ内で実行される少なくともマルチサイクル演算命令を含み、
前記プロセッサは、
前記第１のカウンタを使用して、命令の前記第１のサブグループの数をカウントすることと、
命令の前記第１のサブグループの数を第１の閾値と比較することと、
命令の前記第１のサブグループの前記数が前記第１の閾値未満であることに応答して、前記単純算術命令を実行する前記Ｃｏｍｐｕｔｅパイプを選択することと、
命令の前記第１のサブグループが前記第１の閾値以上であることに応答して、前記単純算術命令を実行する前記Store/Branch/Simpleパイプを選択することと、
を実行するように構成される、請求項１に記載のプロセッサ。

【請求項15】

前記命令デコードユニットは、さらに、
前記Store/Branch/Simpleパイプ内で実行される命令の第２のサブグループの数をカウントする第２のカウンタであって、命令の前記第２のサブグループは、ストア命令、デュアルポートロード命令、分岐命令、ＳＸ命令、およびこれらの組み合わせからなる単純グループのうちの少なくとも１つを含む、第２のカウンタと、
前記少なくとも１つのスーパースライスで処理される命令の数をカウントする第３のカウンタと、を備え、
前記プロセッサは、
前記Ｃｏｍｐｕｔｅパイプのパイプラインで実行される命令の前記第１のサブグループの前記数と、前記第３のカウンタによってカウントされる命令の数とに基づいて、前記Ｃｏｍｐｕｔｅパイプで実行される命令の前記第１のサブグループの第１の比率を計算することと、
前記第２のカウンタを使用して、命令の前記第２のサブグループの数をカウントすることと、
前記Store/Branch/Simpleパイプで実行された命令の前記第２のサブグループの前記数と、前記第３のカウンタによってカウントされた命令の前記数とに基づいて、前記Store/Branch/Simpleパイプで実行された命令の前記第２のサブグループの第２の比率を計算することと、
前記第１の比率を第１の比率閾値と比較することと、
前記第２の比率を第２の比率閾値と比較することと、
前記第１の比率が前記第１の比率閾値未満であること、または前記第２の比率が前記第２の比率閾値以上であることに応答して、前記単純算術命令を実行する前記Ｃｏｍｐｕｔｅパイプを選択することと、
前記第１の比率が第１の比率閾値以上であることに応答し、さらに前記第２の比率が前記第２の比率閾値未満であることに応答して、前記単純算術命令を実行する前記Store/Branch/Simpleパイプを選択することと、
を実行するように構成される、
請求項１４に記載のプロセッサ。

【請求項16】

前記命令デコードユニットは、さらに、
前記Ｃｏｍｐｕｔｅパイプ内で実行される命令の第３のサブグループの数をカウントする第４のカウンタであって、命令の前記第３のサブグループは、行列乗算アキュムレータ命令のうちの少なくとも１つを含む、第４のカウンタと、を含み、
前記プロセッサは、
前記第４のカウンタを使用して、命令の前記第３のサブグループの前記数をカウントすることと、
前記スーパースライスのＣｏｍｐｕｔｅパイプで実行される命令の前記第３のサブグループの前記数、前記第３のカウンタによってカウントされる命令の前記数、およびそれらの組み合わせからなるグループの少なくとも１つに基づいて、前記Ｃｏｍｐｕｔｅパイプで実行される命令の前記第３のサブグループの第３の比率を計算することと、
前記第３の比率を第３の比率閾値と比較することと、
前記第１の比率と前記第１の比率閾値との前記比較、または前記第２の比率と前記第２の比率閾値との前記比較に関係なく、前記第３の比率が前記第３の比率閾値を超えることに応答して、前記単純算術命令を実行する前記Store/Branch/Simpleパイプを選択することと、
を実行するように構成される、請求項１５に記載のプロセッサ。

【請求項17】

プロセッサで情報を処理するための方法であって、前記方法は、
命令を処理するための１または複数の実行ユニットを有する少なくとも２つの処理パイプラインを提供することであって、前記少なくとも２つの処理パイプラインの少なくとも第１の処理パイプラインおよび第２の処理パイプラインは、第１の命令タイプを実行することができる、提供することと、
前記第１の処理パイプライン作業負荷、前記第２の処理パイプライン作業負荷、およびそれらの組み合わせからなる作業負荷グループの少なくとも１つを計算することと、
前記作業負荷グループの少なくとも１つに基づいて、前記第１の命令タイプを実行する前記第１の処理パイプラインまたは前記第２の処理パイプラインを選択することと、
を含む、方法。

【請求項18】

前記第１の処理パイプライン作業負荷を計算することは、前記第１の処理パイプラインにおいて実行される命令の少なくとも第１のサブグループの数をカウントすることを含み、
前記方法は、さらに、
前記第１の処理パイプライン作業負荷が第１の閾値未満であることに応答して、前記第１の命令タイプを実行する前記第１の処理パイプラインを選択することを含む、
請求項１７に記載の方法。

【請求項19】

前記第２の処理パイプライン作業負荷を計算することは、前記第２の処理パイプラインにおいて実行される命令の少なくとも第２のサブグループの数をカウントすることを含み、
前記方法は、さらに、
前記第１の処理パイプライン作業負荷が第１の閾値以上であり、前記第２の処理パイプライン作業負荷が第２の閾値未満であることに応答して、前記第１の命令タイプを実行する前記第２の処理パイプラインを選択すること、を含む、
請求項１８に記載の方法。

【請求項20】

前記第１の処理パイプライン作業負荷を計算することは、前記第１の処理パイプラインにおいて実行される命令の少なくとも第１のサブグループの数をカウントすることを含み、
第２の処理パイプライン作業負荷を計算することは、前記第２の処理パイプラインにおいて実行される命令の少なくとも第２のサブグループの数をカウントすることを含み、
前記方法は、さらに、
命令の前記第１のサブグループとは異なる、前記第１の処理パイプラインにおいて実行される命令の少なくとも第３のサブグループの数をカウントすることと、
命令の前記第３のサブグループが第３の閾値以下であること、前記第１の処理パイプライン作業負荷が第１の閾値以下であること、かつ、前記第１の処理パイプライン作業負荷が前記第１の閾値を超えることおよび前記第２の処理作業負荷が第２の閾値以上であることの両方、に応答して、前記第１の命令タイプを実行する前記第１の処理パイプラインを選択することと、
命令の少なくとも前記第３のサブグループの前記数が前記第３の閾値を超えること、かつ、前記第１の処理作業負荷の前記数が前記第１の閾値を超えることおよび前記第２の処理パイプライン作業負荷が第２の閾値未満であること、に応答して、前記第２の命令タイプを実行する前記第２の処理パイプラインを選択することと、
を含む、請求項１７に記載の方法。

【請求項21】

コンピュータプログラムであって、前記プログラムがコンピュータ上で実行されるとき、請求項１７から２０のいずれか１項に記載の方法ステップを実行するように適合されたプログラムコードを含む、コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、一般に、データ処理システム、プロセッサ、およびプロセッサアーキテクチャ、ならびに、例えば１または複数の行列乗算加算（ＭＭＡ）ユニットなどの高密度数学実行ユニットで実行するための、大きなデータ幅命令を処理する方法に関する。

【背景技術】

【0002】

現在、データ処理システムで使用されているプロセッサは、一度に複数の命令を処理し、多くの場合、それらの命令は順番通りに処理されない。最新のコンピュータアーキテクチャでは、一度に複数の命令を実行する、あるいは少なくとも同じ時間枠内で複数の命令を実行するようにコンピュータを設計する方法がいくつか知られている。例えば、スループットを向上させる設計の１つとして、複数の命令スレッドを同時に処理するために、プロセッサコア内に複数の実行スライスを設け、スレッドがプロセッサコアの特定のリソースを共有するものがある。実行スライスは、複数の命令を同時に処理するためにプロセッサ内で並列に接続された複数のデータ処理ハードウェアパイプラインを指す場合もある。パイプライン化には、命令を段階的に処理することが含まれ、マルチステージパイプラインは、マルチサイクル命令でシングルステージパイプラインと同じスループットを維持する。複数の実行スライスは、プロセッサコア内の同時マルチスレッディングの一部として使用されることがある。

【0003】

様々なパイプラインステージは、命令がメモリからフェッチされる「命令フェッチ」ステージを含むことができる。「デコード」ステージでは、命令が異なる制御ビットにデコードされる。この制御ビットは、一般に、（ｉ）命令によって指定された演算を実行するための機能ユニット（例えば、実行ユニット）のタイプ、（ｉｉ）演算のためのソースオペランド、および（ｉｉｉ）演算の結果の宛先を指定する。「ディスパッチ」ステージでは、デコードされた命令は、命令がデータおよび利用可能な実行ユニットを待機する発行キュー（ＩＳＱ）にディスパッチされる。発行キュー内の命令は通常、「実行」ステージの実行ユニットに発行される。「実行」ステージは、命令によって指定された演算を処理する。命令によって指定された演算を実行することは、通常、データ、例えば１または複数のオペランドを受け入れることと、１または複数の結果を生成することとを含む。実行ユニットのためのデータもしくは情報またはその両方を保持するために、通常、実行ユニットもしくは発行キューまたはその両方に関連するレジスタファイルが存在する。レジスタファイルは、通常、レジスタファイル内のエントリまたはロケーションから読み出される情報、もしくはエントリまたはロケーションに書き込まれる情報、またはその両方を有する。

【0004】

複数の実行スライスまたはパイプラインを有するプロセッサでは、演算中、１または複数の実行ユニットの作業負荷が、他の実行ユニットによって処理される作業負荷よりも高い、例えばはるかに高い場合がある。言い換えれば、一部の実行ユニットが命令で過負荷になる一方で、他の実行ユニットが軽負荷になることがある。異なる実行ユニットによって実行される作業負荷が、より良好にバランスされ、例えば、異なる実行ユニット間でより均等に分散されることができれば有利であり、これにより、プロセッサ性能が向上する、もしくは待ち時間が減少する、またはその両方である場合がある。

【発明の概要】

【0005】

本開示の要約は、コンピュータシステム、コンピュータアーキテクチャ構造、プロセッサ、プロセッサアーキテクチャ構造、ワイドデータ幅（アキュムレータ）レジスタファイルを含むレジスタファイル、およびプロセッサ内の実行ユニットの作業負荷をバランスさせる方法の理解を助けるために与えられるものであり、本開示または本発明を限定する意図で与えられるものではない。本開示は、当業者に向けられたものである。本開示の様々な態様および特徴は、いくつかの実施態様では有利に個別に使用され、他の実施態様では本開示の他の態様および特徴と組み合わせて使用され得ることが理解されるべきである。従って、コンピュータシステム、アーキテクチャ構造、プロセッサ、プロセッサアーキテクチャ構造、レジスタファイル、もしくはそれらの動作方法、またはその組み合わせに対して、異なる効果を達成するための変形および修正を行うことができる。

【0006】

情報を処理するためのコンピュータシステム、プロセッサ、もしくは方法、またはその組み合わせは、システム内もしくはプロセッサ内またはその両方の１または複数の実行ユニットの作業負荷をバランスさせるために開示され、一実施形態では、プロセッサパイプライン間、例えばプロセッサ内の固定小数点（ＦＸ）パイプラインと単純（ＳＸ）パイプラインとの間の作業負荷をバランスさせることを対象とする。一態様では、システム、プロセッサもしくは方法またはその組み合わせは、システム内もしくはプロセッサ内またはその両方の他の実行ユニットに命令をルーティングすることによって、第１の実行パイプラインの作業負荷を低減することを対象とする。１または複数の実施形態において、情報を処理するためのプロセッサは、実行スライスであって、実行スライスは、命令を処理するための１または複数の実行ユニットを有する少なくとも２つの処理パイプラインを含み、少なくとも２つの処理パイプラインの少なくとも第１の処理パイプラインおよび第２の処理パイプラインは、第１の命令タイプを実行することが可能である、実行スライスと、第１の処理パイプラインまたは第２の処理パイプラインのいずれが第１の命令タイプを実行するかを決定するために命令をデコードするための命令デコードユニットと、を含む。１または複数の態様において、プロセッサは、第１の処理パイプライン作業負荷、第２の処理パイプライン作業負荷、およびそれらの組み合わせからなる作業負荷グループの少なくとも１つを計算することと、作業負荷グループの少なくとも１つに基づいて、第１の命令タイプを実行する第１の処理パイプラインまたは第２の処理パイプラインを選択することと、を実行するように構成される。

【0007】

好ましくは、システムもしくはプロセッサまたはその両方は、第１の処理パイプライン作業負荷を計算し、第２の処理パイプライン作業負荷を計算するようにさらに構成される。第１の処理パイプライン作業負荷または第２の処理パイプライン作業負荷を計算することは、一実施形態において、第１の処理パイプラインにおいて実行される命令の少なくとも第１のサブグループの数をカウントすること、もしくは第２の処理パイプラインにおいて実行される命令の少なくとも第２のサブグループの数をカウントすること、またはその両方を含み、一態様において、実行スライスによって実行されるすべての命令をカウントすることと、第１の処理パイプラインにおいて実行される命令の第１のサブグループの割合、もしくは第２の処理パイプラインにおいて実行される命令の第２のサブグループの割合、またはその両方を、命令の第１のサブグループの数、命令の第２のサブグループの数、実行スライスによって実行されるすべての命令、およびそれらの組み合わせからなるグループのうちの少なくとも１つに基づいて決定することと、をさらに含む。１または複数のアプローチにおいて第１の処理パイプライン作業負荷を計算すること、および第２の処理パイプライン作業負荷を計算することは、「Ｎ」命令の固定間隔またはローリング間隔にわたって実行される。一態様において、第１の処理パイプライン作業負荷を計算することは、第１の処理パイプラインにおいて実行される命令の第３のサブグループの数をカウントすることと、命令の第３のサブグループの割合を決定することとをさらに含む。

【0008】

１または複数の実施形態において、作業負荷グループの少なくとも１つに基づいて第１の処理パイプラインまたは第２の処理パイプラインを選択することは、第１の処理パイプライン作業負荷と第２の処理パイプライン作業負荷とを比較することと、第１の処理パイプライン作業負荷を計算することと、第１の処理パイプライン作業負荷を第１の閾値と比較することであって、第１の閾値は、数、割合、比率、およびそれらの組み合わせからなる第１の閾値グループの少なくとも１つである、比較することと、第１の処理パイプライン作業負荷が第１の閾値未満であることに応答して、第１の命令タイプを実行する第１の処理パイプラインを選択することと、第１の処理パイプライン作業負荷を計算することと、第２の処理パイプライン作業負荷を計算することと、第１の処理パイプライン作業負荷を第１の閾値と比較することと、第２の処理パイプライン作業負荷を第２の閾値と比較することと、第１の処理パイプライン作業負荷が第１の閾値を超えること、および第２の処理パイプライン作業負荷が第２の閾値未満であることの両方に応答して、第１の命令タイプを実行する第２の処理パイプラインを選択することと、第１の処理パイプライン作業負荷が第１の閾値以下であること、かつ、第１の処理パイプライン作業負荷が第１の閾値を超えることおよび第２の処理パイプライン作業負荷が第２の閾値以下であることの両方、に応答して、命令タイプを実行する第１の処理パイプラインを選択することと、を含む。さらなる実施形態において、１または複数の実施形態における作業負荷グループの少なくとも１つに基づいて、第１の処理パイプラインまたは第２の処理パイプラインを選択することは、命令の第３のサブグループの数もしくは割合またはその両方が第３の閾値を超えているか否かを判定することと、第１の処理パイプラインにおいて実行される命令の第３のサブグループの数もしくは割合またはその両方が第３の閾値を超えていることに応答して、第２の処理パイプラインを選択することとを含む。

【0009】

一実施形態では、システムもしくはプロセッサまたはその両方は、２つの実行スライスを含む少なくとも１つのスーパースライスを含み、第１の処理パイプラインは、単純算術命令を実行するように構成された算術論理演算ユニット（ＡＬＵ）実行ユニットを有するＣｏｍｐｕｔｅパイプであり、第２の処理パイプラインは、少なくとも単純算術命令を実行するように構成された単純（ＳＸ）実行ユニットを有するStore/Branch/Simpleパイプであり、第１の命令タイプは単純算術命令であり、命令デコードユニットは、命令の第１のサブグループの数をカウントする第１のカウンタを含み、命令の第１のサブグループが、Ｃｏｍｐｕｔｅパイプ内で実行される少なくともマルチサイクル演算命令を含む。一態様では、プロセッサは、第１のカウンタを使用して、命令の第１のサブグループの数をカウントすることと、命令の第１のサブグループの数を第１の閾値と比較することと、命令の第１のサブグループの数が第１の閾値未満であることに応答して、単純算術命令を実行するＣｏｍｐｕｔｅパイプを選択することと、命令の第１のサブグループが第１の閾値以上であることに応答して、単純算術命令を実行するStore/Branch/Simpleパイプを選択することと、を実行するように構成される。さらなる実施形態において、命令デコードユニットは、さらに、Store/Branch/computeパイプ内で実行される命令の第２のサブグループの数をカウントする第２のカウンタであって、命令の第２のサブグループは、ストア命令、デュアルポートロード命令、分岐命令、ＳＸ命令、およびこれらの組み合わせからなる単純グループのうちの少なくとも１つを含む、第２のカウンタと、スーパースライスで処理される命令の数をカウントする第３のカウンタと、を備える。プロセッサは、Ｃｏｍｐｕｔｅパイプのパイプラインで実行される命令の第１のサブグループの数と、第３のカウンタによってカウントされる命令の数とに基づいて、Ｃｏｍｐｕｔｅパイプで実行される命令の第１のサブグループの第１の比率を計算することと、第２のカウンタを使用して、命令の第２のサブグループの数をカウントすることと、Store/Branch/Simpleパイプで実行された命令の第２のサブグループの数と、第３のカウンタによってカウントされた命令の数とに基づいて、Store/Branch/Simpleパイプで実行された命令の第２のサブグループの第２の比率を計算することと、第１の比率を第１の比率閾値と比較することと、第２の比率を第２の比率閾値と比較することと、第１の比率が第１の比率閾値未満であること、または第２の比率が第２の比率閾値以上であることに応答して、単純算術命令を実行するＣｏｍｐｕｔｅパイプを選択することと、第１の比率が第１の比率閾値以上であることに応答し、さらに第２の比率が第２の比率閾値未満であることに応答して、単純算術命令を実行するStore/Branch/Simpleパイプを選択することと、を実行するように構成される。

【0010】

本発明の前記および他の目的、特徴、および利点は、添付図面に示される本発明の例示的な実施形態のより具体的な以下の説明から明らかになるであろう。

【0011】

コンピュータシステム、コンピュータアーキテクチャ構造、プロセッサ、プロセッサアーキテクチャ構造、プロセッサパイプライン、実行ユニット、もしくはそれらの動作方法の様々な態様、特徴、および実施形態は、提供される図と併せて読むと、より良く理解されるであろう。実施形態は、コンピュータシステム、コンピュータアーキテクチャ構造、プロセッサ、プロセッサアーキテクチャ構造、プロセッサパイプライン、実行ユニット、もしくはそれらの動作方法、またはその組み合わせの態様、特徴、もしくは様々な実施形態、またはその組み合わせを例示する目的で図に提供されているが、特許請求の範囲は、示された正確なシステム、実施形態、方法、プロセス、もしくは装置、またはその組み合わせに限定されるべきではなく、示された特徴、もしくはプロセス、またはその両方は、単独で、または他の特徴もしくはプロセスまたはその両方と組み合わせて使用されてもよい。

【図面の簡単な説明】

【0012】

【図1】本開示の態様が実施され得るデータ処理システムの一例を示す図である。

【図2】本開示の特定の態様が実施され得るプロセッサのブロック図である。

【図3】本開示の特定の態様による、２つの実行スライスを有するマルチスライスプロセッサの一部のブロック図である。

【図4】本開示の一実施形態による、２つのスーパースライスとして配置された４つの実行スライスを有するマルチスライスプロセッサの一部のブロック図である。

【図5】本開示の実施形態によるプロセッサパイプラインの一部を示すブロック図である。

【図6】本開示の実施形態によるプロセッサパイプラインの一部を示す簡略化されたブロック図である。

【図7】本開示の実施形態によるプロセッサ実行ユニットで処理される命令の一例を示す図である。

【図8】本開示の実施形態によるプロセッサ実行ユニットで処理される命令の一例を示す図である。

【図9】プロセッサ内の１または複数の実行ユニットの作業負荷を調整するための実施形態による方法のフローチャートを示す図である。

【発明を実施するための形態】

【0013】

以下の説明は、本発明の一般原理を説明するためになされたものであり、本明細書で請求される発明概念を限定するものではない。以下の詳細な説明では、コンピュータシステム、コンピュータアーキテクチャ構造、プロセッサ、プロセッサアーキテクチャ構造、プロセッサ命令実行パイプライン、実行ユニット、およびそれらの動作方法の理解を提供するために、多数の詳細が記載されているが、当業者には、コンピュータシステム、コンピュータアーキテクチャ構造、プロセッサ、プロセッサアーキテクチャ構造、プロセッサ命令実行パイプライン、実行ユニット、およびそれらの動作方法の異なる多数の実施形態は、それらの特定の詳細がなくても実施されることがあり、特許請求の範囲および本発明は、本明細書で具体的に説明され示されるシステム、アセンブリ、サブアセンブリ、実施形態、機能ユニット、特徴、回路、プロセス、方法、態様、もしくは詳細、またはその組み合わせに限定されるべきではないことが理解されるだろう。さらに、本明細書に記載された特定の特徴は、様々な可能な組み合わせおよび順列のそれぞれにおいて、他の記載された特徴と組み合わせて使用することができる。

【0014】

本明細書において特に定義されない限り、すべての用語は、本明細書から暗示される意味、ならびに当業者によって理解される意味、もしくは辞書、専門書などで定義される意味、またはその両方を含め、可能な限り広義に解釈されるものとする。また、本明細書および添付の特許請求の範囲において使用される場合、単数形「ａ」、「ａｎ」および「ｔｈｅ」は、特に指定されない限り、複数の参照語を含み、用語「含む（comprises）」もしくは「含む（comprising）」またはその両方は、記載された特徴、整数、ステップ、動作、要素、もしくはコンポーネントまたはその組み合わせの存在を指定するが、１つ以上の他の特徴、整数、ステップ、動作、要素、コンポーネント、もしくはそれらのグループまたはその組み合わせの存在または追加を排除するものではないことに留意しなければならない。

【0015】

以下の議論では、当業者には明らかな、プロセッサおよびマイクロプロセッサシステム、プロセッサアーキテクチャを含む情報処理システムの従来の特徴を省略するか、または簡単にしか説明しない。当業者は、プロセッサの一般的なアーキテクチャ、特に、実行パイプラインおよび１または複数の実行ユニットを有するプロセッサに精通していることが想定される。番号付けされた要素には、その要素が導入された図に従って番号が付けられ、後続の図ではその番号によって参照されることが多いが、必ずしもそうではないことに留意されたい。

【0016】

図１は、本開示の態様が実施され得るデータ処理システム１００の一例を示す。このシステムは、プロセッサ１１０とも呼ばれる中央処理装置（ＣＰＵ）１１０を有する。ＣＰＵ１１０は、システムバス１１２によって他の様々な構成要素に結合されている。読取専用メモリ（「ＲＯＭ」）１１６は、システムバス１１２に結合され、データ処理システム１００の特定の基本機能を制御する基本入力／出力システム（「ＢＩＯＳ」）を備える。ランダムアクセスメモリ（「ＲＡＭ」）１１４、Ｉ／Ｏアダプタ１１８、および通信アダプタ１３４も、システムバス１１２に結合されている。Ｉ／Ｏアダプタ１１８は、ディスク記憶装置１２０と通信する小型コンピュータシステムインターフェース（「ＳＣＳＩ」）アダプタであってもよい。通信アダプタ１３４は、バス１１２を外部ネットワークと相互接続し、データ処理システムが他のかかるシステムと通信できるようにする。入力／出力装置も、ユーザインタフェースアダプタ１２２およびディスプレイアダプタ１３６を介してシステムバス１１２に接続されている。キーボード１２４、トラックボール１３２、マウス１２６、およびスピーカ１２８はすべて、ユーザインタフェースアダプタ１２２を介してバス１１２に相互接続されている。ディスプレイモニタ１３８は、ディスプレイアダプタ１３６によってシステムバス１１２に接続されている。このようにして、ユーザは、キーボード１２４、トラックボール１３２またはマウス１２６を介してシステムに入力し、スピーカ１２８およびディスプレイ１３８を介してシステムから出力を受信することができる。さらに、例えばＡＩＸ（「ＡＩＸ」はIBM Corporationの商標）などのオペレーティングシステムが、図１に示す様々なコンポーネントの機能を調整するために使用される。

【0017】

ＣＰＵ（または「プロセッサ」）１１０は、集積回路によって形成された様々なレジスタ、バッファ、実行ユニット、キャッシュ、メモリ、および他のユニットを含み、縮小命令セットコンピューティング（「ＲＩＳＣ」）技術に従って動作することができる。ＣＰＵ１１０は、いくつかの態様では内部クロック（図示せず）に同期したプロセッササイクルに従ってデータを処理する。

【0018】

図２は、実施形態によるプロセッサ１１０の簡略化されたブロック図を示す。プロセッサ１１０は、メモリ２０２、命令キャッシュ２０４、命令フェッチユニット２０６、デコードユニット２１０、ＬＳＵ処理パイプライン２３０およびＶＳＵ処理パイプライン２５５を含む実行スライス２１５、および宛先リソース２９０を含む。プロセッサ１１０は、コンピュータシステム内に含まれてもよいし、コンピュータシステム内に分散されていてもよい。命令およびデータは、メモリ２０２に格納することができ、命令キャッシュ２０４は、メモリ２０２内の命令にアクセスし、フェッチされる命令を格納することができる。メモリ２０２は、任意のタイプの揮発性メモリまたは不揮発性メモリを含むことができる。メモリ２０２および命令キャッシュ２０４は、複数のキャッシュレベルを含むことができる。

【0019】

図２では、命令フェッチユニット２０６、デコードユニット２１０、および実行スライス２１５の簡略化された例が描かれている。様々な実施形態において、プロセッサ１１０は、複数の処理実行スライス２１５、例えば、４つの実行スライス２１５を含み得る。一実施形態では、各実行スライス２１５は、ＬＳＵ処理パイプライン２３０およびＶＳＵ処理パイプライン２５５を含む。一態様では、ＬＳＵ処理パイプライン２３０は、ＬＳＵ発行ユニット２３５、実行ユニット２４０、および物理レジスタファイル２５０を含む。実施形態における実行ユニット２４０は、Ｓｘ／Ａｇｅｎ実行パイプライン２４５を含む。また、ＬＳＵ処理パイプライン２３０は、エラーチェックおよび処理ロジック、ＬＳＵ処理パイプライン２３０を通る１または複数の並列パス、および当該技術分野において現在または今後知られる他の機能などの他の機能を含むことができる。一態様では、ＶＳＵ処理パイプライン２５５は、ＶＳＵ発行ユニット２７０、実行ユニット２７５、および物理レジスタファイル２８５を含む。実施形態における実行ユニット２７５は、ＦＸ／ＡＬＵ実行パイプライン２８０を含む。ＶＳＵ処理パイプライン２５５はまた、エラーチェックおよび処理ロジック、ＶＳＵ処理パイプライン２５５を通る１または複数の並列パス、および当技術分野で現在または今後知られる他の機能などの他の機能を含むことができる。

【0020】

図２のプロセッサ１１０において、命令フェッチユニット２０６は、デコードユニット２１０によるさらなる処理のために、命令アドレスに従って命令キャッシュ２０４から命令をフェッチする。デコードユニット２１０は、命令をデコードし、デコードされた命令、命令の一部、または他のデコードされたデータを、命令のタイプに応じて適切なパイプライン２３０または２５５に渡す。デコードユニット２１０は、分岐命令を検出することもできる。より具体的には、図２の例では、デコードユニット２１０は、デコードされた命令をＬＳＵ発行ユニット２３５またはＶＳＵ発行ユニット２７０のいずれかに送信する。それぞれの発行ユニット２３５、２７０は、命令または他のデータを解析し、解析に基づいて、デコードされた命令、命令の一部、または他のデータを、それぞれのパイプライン２３０、２５５内の１または複数の実行ユニット２４０、２７５に送信する。それぞれの物理レジスタファイル２５０、２８５は、それぞれの実行ユニット２４５、２８０のデータを保持する。物理レジスタファイル２５０、２８５は、１つのレジスタファイル内のデータがいずれかの実行ユニット２４０、２７５によって使用され得る別個のレジスタファイルとすることができ、一実施形態では、レジスタファイル２５０、２８５は、単一のレジスタファイルとすることができる。プロセッサ１１０を通る順方向経路が図２に描かれているが、プロセッサ１１０の要素間に他のフィードバック経路および信号経路が含まれてもよい。

【0021】

実行ユニット２４０、２７５は、それぞれの実行ユニット２４０、２７５に発行された命令によって指定された演算を実行し（perform）、実行する（execute）。ＬＳＵパイプライン２３０は実行ユニットＳＸ／Ａｇｅｎ２４５と共に示されてきたが、実行ユニット２４０は、例えば、ロード／ストア実行ユニット（ＬＳＵ）、ストアアドレス生成器（Ａｇｅｎ）ロジックを含む単純ユニット（ＳＸ）、もしくは他の実行ユニット、またはその組み合わせなどの複数の実行ユニットを含むことができる。ＶＳＵパイプライン２５５は、実行ユニットＦＸ／ＡＬＵ２８０と共に示されてきたが、実行ユニット２７５は、例えば、固定小数点実行ユニット（ＦＸ）、浮動小数点実行ユニット（ＦＰＵ）、算術論理実行ユニット（ＡＬＵ）、ベクトルスカラー実行ユニット（ＶＳＵ）、もしくは他の実行ユニット、またはその組み合わせなどの複数の実行ユニットを含むことができる。

【0022】

プロセッサ１１０はまた、実行された命令の結果、例えば、ＬＳＵ処理パイプライン２３０およびＶＳＵ処理パイプライン２５５からの結果を宛先リソースに書き込むための結果／ライトバックロジック２９０を含む。宛先リソースは、レジスタ、キャッシュメモリ、他のメモリ、他のデバイスと通信するためのＩ／Ｏ回路、他の処理回路、または実行される命令またはデータのための他の任意のタイプの宛先を含む、任意のタイプのリソースであってよい。プロセッサ１１０は、他の回路、機能ユニット、およびコンポーネントを含んでもよい。

【0023】

命令は、図２のプロセッサ１１０において、論理的にパイプライン化されたステージのシーケンスで処理されてもよい。しかしながら、かかる限定が本明細書の特許請求の範囲において明確に示されない限り、ステージのこの特定の分割が限定として取られるべきでないように、これらのステージの機能が一緒にマージされてもよいことが理解されるべきである。実際、ステージまたは機能ユニットのいくつかは、理解を簡単にするために、図２において単一の論理ユニットとして示されており、関連するさらなる詳細は、以下で提供される。

【0024】

図３は、プロセッサ１１０の一部のブロック図であり、この例では、本開示の実施形態によるマルチスライスプロセッサ１１０を示す。図３は、議論の目的のために、マルチスライスプロセッサ１１０の一部を図式的に示しているに過ぎないことに留意されたい。マルチスライスプロセッサが他の構成を有してもよいことは理解されよう。図３に示すように、マルチスライスプロセッサは、２つの処理スライス－スライス０（スライスＳ０または２１５Ａ）およびスライス１（スライスＳ１または２１５Ｂ）を含む。プロセッサ１１０は、メモリ２０２、命令キャッシュ２０４、命令フェッチユニット２０６およびデコードユニット２１０を含む。スライスＳ０およびＳ１の各々は、命令ディスパッチユニット（２２０Ａおよび２２０Ｂ）、論理レジスタマッパ（２２５Ａおよび２２５Ｂ）、履歴バッファ（ＨＢ）（２２６Ａおよび２２６Ｂ）、命令補完テーブル（ＩＣＴ）（２２２Ａおよび２２２Ｂ）、ＬＳＵ処理パイプライン（２３０Ａおよび２３０Ｂ）、およびＶＳＵ処理パイプライン（２５５Ａおよび２２５Ｂ）を含む。

【0025】

各ＬＳＵ処理パイプライン（２３０Ａおよび２３０Ｂ）は、ＬＳＵ発行ユニット（ＬＳＵＩＳＱ）（２３５Ａおよび２３５Ｂ）と、実行ユニット（２４０Ａおよび２４０Ｂ）とを含み、それぞれのＬＳＵ処理パイプライン２３０Ａ、２３０Ｂ内の各実行ユニット２４０Ａ、２４０Ｂは、ＳＸ／Ａｇｅｎ実行ユニット（２４５Ａおよび２４５Ｂ）を含む。ＬＳＵ処理パイプライン２３０Ａ、２３０Ｂは、例えばロードストアユニット（ＬＳＵ）などの他の実行ユニットを含むことができる。各ＶＳＵ処理パイプライン（２５５Ａおよび２５５Ｂ）は、ＶＳＵ発行ユニット（ＶＳＵＩＳＱ）（２７０Ａおよび２７０Ｂ）および実行ユニット（２７５Ａおよび２７５Ｂ）を含み、それぞれのＶＳＵ処理パイプライン２５５Ａ、２５５Ｂ内の各実行ユニット２７５Ａ、２７５Ｂは、ＦＸ／ＡＬＵ実行ユニット（２８０Ａおよび２８０Ｂ）を含む。ＶＳＵ処理パイプライン（２５５Ａ、２５５Ｂ）は、例えば、ベクトルスカラーユニット（ＶＳＵ）および浮動小数点実行ユニット（ＦＰＵ）などの他の実行ユニットを含むことができる。物理レジスタファイル（ＲＦ）２５０Ａは、ＬＳＵ処理パイプライン２３０ＡおよびＶＳＵ処理パイプライン２５５Ａの両方によって使用することができ、物理レジスタファイル２５０Ｂは、ＬＳＵ処理パイプライン２３０ＢおよびＶＳＵ処理パイプライン２５５Ｂの両方によって使用することができる。図３のプロセッサ１１０は、ＬＳＵおよびＶＳＵ処理パイプライン間で共有される単一のレジスタファイル２５０Ａ、２５０Ｂを示しているが、１または複数のレジスタファイル２５０が、ＬＳＵおよびＶＳＵ処理パイプラインにおいて、および実行スライス２１５Ａ、２１５Ｂにわたって使用され得ることが理解され得る。実行ユニット２４０Ａ、２４０Ｂ、２７５Ａ、２７５Ｂは、実行ユニットによる実行のための命令を保持する１または複数のキューを含み得る。

【0026】

２つのスライス２１５Ａ、２１５Ｂは図示および議論を容易にするためだけに示されており、マルチスライスプロセッサ１１０は、各スライスがスライスＳ０、Ｓ１（スライス２１５Ａおよび２１５Ｂ）の各々について上述したすべての構成要素を有する２つ以上の実行スライスを含んでもよいことに留意されたい。さらに、処理スライスは、スーパースライス（ＳＳ３９５）にグループ化されてもよく、各スーパースライスは、処理スライスまたは実行スライスの組を含む。例えば、マルチスライスプロセッサは、２つのスーパースライスＳＳ０およびＳＳ１を含むことができ、ＳＳ０（例えば、３９５）はスライスＳ０およびＳ１を含み、ＳＳ１（図示せず）はスライスＳ２およびＳ３を含む。

【0027】

命令フェッチユニット２０６は、プロセッサ１１０またはプロセッサスーパースライス３９５によって実行される命令をフェッチする。命令フェッチユニット２０６によってフェッチされた命令はデコードユニット２１０に送られ、そこで命令が命令タイプ別にデコードされる。デコードユニット２１０は、デコードされた命令をそれぞれの命令ディスパッチユニット２２０Ａ、２２０Ｂに送信する。命令ディスパッチユニット２２０Ａ、２２０Ｂは、命令の種類と、その特定の命令を処理すべき実行ユニット２４０または２７５に応じて、ＬＳＵ発行ユニット２３５またはＶＳＵ発行ユニット２５５に命令をディスパッチする。命令ディスパッチユニット２２０Ａ、２２０Ｂは、それぞれのＬＳＵ発行ユニット２３５またはＶＳＵ発行ユニット２５５に、通常、プログラム順序で命令をディスパッチする。１または複数の実施形態では、ＬＳＵ発行ユニット２３５またはＶＳＵ発行ユニット２７０にディスパッチされた各命令には、命令を識別するための識別子、例えば識別タグ（ｉＴａｇ）が刻印される。命令には、他の情報やメタデータをスタンプすることもできる。命令（ｉＴａｇ）は通常、スレッドごとにプログラムの昇順で割り当てられ、スタンプされる。

【0028】

それぞれのＬＳＵ発行ユニット２３５またはＶＳＵ発行ユニット２７０は、命令タイプに基づいて、それぞれの実行ユニット２４０または実行ユニット２７５に命令を発行する。例えば、マルチサイクル演算命令、行列乗算アキュムレータ（ＭＭＡ）命令は、通常、ＶＳＵ処理パイプライン２５５（例えばＦＸ／ＡＬＵ実行ユニット２８０）で処理され、ストア命令、ロード命令（デュアルポートロードを含む）、分岐命令およびストア命令は、通常、ＬＳＵ処理パイプライン２３０で処理される。ＬＳＵおよびＶＳＵ発行ユニット２３５、２７０は通常、命令に関連するデータが取り出され、使用可能になるまで命令を保持する。特定の態様では、ＬＳＵ発行ユニット２３５およびＶＳＵ発行ユニット２７０は命令のセットを保持し、物理レジスタファイル２５０は命令入力のデータを蓄積する。レジスタファイルは、メモリとプロセッサ内の他の機能（実行）ユニットとの間でデータをステージングするために使用されることがある。多数のレジスタファイルとタイプがあってもよい。すべてのソースデータが命令のために蓄積されると、１または複数の実施形態におけるデータは、命令の実行のために指定された１または複数の実行ユニットに渡される。物理レジスタ（またはメインレジスタ）ファイル２５０は、実行ユニット２４０、２７５にディスパッチされた命令で指定された演算で使用されるデータを格納する役割を果たすことができ、実行ユニット２４０、２７５によって実行された演算の結果は、物理レジスタファイル２５０内の指定されたターゲットレジスタエントリに書き込まれることがある。各実行ユニット、例えばＳＸ／Ａｇｅｎ２４５およびＦＸ／ＡＬＵ２８０は、レジスタファイル（ＳＴＦ）エントリに書き込むために、ライトバックバス上で結果データを利用可能にすることができる。

【0029】

論理レジスタマッパ２２５は、論理レジスタ内のエントリ（例えば、ＧＰＲ１）と物理（メイン）レジスタファイル２５０内のエントリ（例えば、物理レジスタアレイエントリ）との間のマッピングを提供するメタデータ（例えば、ｉＴａｇ、ＳＴＦｔａｇなど）を含む。ＳＴＦｔａｇは、論理レジスタエントリを物理レジスタファイルエントリに関連付けるポインタである。例えば、ある命令が論理レジスタ、例えばＧＰＲ１を読み出したいとき、論理レジスタマッパ２２５はそれぞれの発行ユニット２３５、２７０に伝え、発行ユニット２３５、２７０は、物理レジスタファイル２５０内のどこにデータ、例えば物理レジスタアレイエントリを見つけることができるかを、それぞれの実行ユニット２４０、２７５、例えばＳＸ／Ａｇｅｎ２４５およびＦＸ／ＡＬＵ２８０に伝える。それぞれの実行ユニット２４０、２７５、例えばＳＸ／Ａｇｅｎ２４５またはＦＸ／ＡＬＵ２８０は、命令をアウトオブオーダーで実行し、それぞれの実行ユニット２４０、２７５が命令を終了すると、それぞれの実行ユニット２４０、２７５は、終了した命令、例えばｉＴａｇをＩＣＴ２２２に送信する。ＩＣＴ２２２は、ディスパッチユニット２２０によってディスパッチされた命令のキューを含み、それらが処理されるにつれて命令の進行状況を追跡する。

【0030】

誤予測された分岐命令または他の例外が検出されると、誤予測された分岐または例外に後続する命令およびデータは破棄され、例えば、プロセッサ１１０の様々なユニットからフラッシュされる。履歴バッファ（ＨＢ）２２６、例えば、セーブ＆リストアバッファ（ＳＲＢ）２２６は、投機的レジスタ状態とアーキテクトレジスタ状態の両方を含み、新しい命令がディスパッチされると、論理レジスタマッパ２２５をバックアップする。この点に関して、履歴バッファ２２６は、新しい命令がフラッシュされ、古いデータを回復する必要がある場合に備えて、新しい命令が論理レジスタマッパ２２６からデータを退避させるときに、論理レジスタマッパ２２５からの情報を格納する。履歴バッファ（ＨＢ）２２６は、新しい命令が完了するまで、格納された情報を保持する。履歴バッファ（ＨＢ）２２６は、論理レジスタマッパ２２５の内容を履歴バッファ（ＨＢ）２２６から論理レジスタマッパ２２５に戻すために、論理レジスタマッパ２２５とインタフェースし、論理レジスタマッパ２２５内のポインタを更新して、命令が正しいデータを得る場所を知るようにし、例えば、プロセッサは、割り込み可能な命令の前に存在した状態に戻され、例えば、分岐命令が誤予測された。

【0031】

複数の処理スライスを有するＣＰＵ１１０は、複数の命令を同時に実行することができ、例えば、１つの処理サイクルにおいて各処理スライスにおける１つの命令を同時に実行することができる。かかる複数の処理スライスを有するＣＰＵは、マルチスライスプロセッサまたはパラレルスライスプロセッサと呼ばれることがある。複数の実行スライスで同時に処理を行うことにより、マルチスライスプロセッサの処理速度を大幅に向上させることができる。シングルスレッド（ＳＴ）モードでは１つのスレッドが処理され、ＳＭＴモードでは２つのスレッド（ＳＭＴ２）または４つのスレッド（ＳＭＴ４）が同時に処理される。

【0032】

上述したように、命令はデコードユニット２１０でデコードされ、プロセッサで実行するために複数の実行ユニットの１つに指示される。多くのプロセッサでは、多数の命令を１または複数の実行ユニットで実行することができる。例えば、単純算術演算や他の些細な命令は、複数の実行ユニットによって実行することができる。待ち時間を短縮するために、プロセッサは、複数のパイプラインもしくは実行ユニットまたはその両方によって実行可能な命令を、様々なパイプラインもしくは実行ユニットまたはその両方の作業負荷に基づいて、命令を実行可能なプロセッサ内の１または複数のパイプラインもしくは実行ユニットまたはその両方のうちの１つに向けることができる。１または複数の実施形態において、プロセッサは、１または複数のパイプもしくは実行ユニットまたはその両方において実行可能な命令を実行することに応答して、１または複数のパイプもしくは実行ユニットまたはその両方の作業負荷を決定することができ、その命令を実行可能なプロセッサ内のパイプラインもしくは実行ユニットまたはその両方の作業負荷に基づいて、１または複数のパイプラインもしくは実行ユニットまたはその両方のうちの１つに、実行のためのそれらの命令を向けることができる。

【0033】

例えば、演算集中型作業負荷では、例えば、通常単純算術命令を実行する固定小数点（ＦＸ）実行ユニットなどの演算ユニットが、（他の演算命令に加えて）演算命令、例えば、マルチサイクル演算命令もしくは乗算行列加算（ＭＭＡ）命令またはその両方で過負荷になる可能性があり、一方、他の実行ユニット、例えば、単純算術命令も実行可能なＳＸ実行ユニットは軽負荷になる可能性がある。ＦＸ実行作業負荷を低減するために、１または複数の実施形態において、プロセッサ、例えば、プロセッサ内の命令デコードユニット（ＩＤＵ）は、ＦＸ実行ユニット／パイプラインの作業負荷およびＳＸ実行ユニット／パイプラインの作業負荷を検出もしくは判定またはその両方を行い、ＦＸ実行ユニットまたはＳＸ実行ユニットのいずれかで実行可能な単純算術命令を、これら２つのパイプラインもしくは実行ユニットまたはその両方のそれぞれの作業負荷に基づいて、ＦＸユニットまたはＳＸユニットにルーティングするロジックを実装することができる。

【0034】

例えば、典型的にはＶＳＵ処理パイプラインで処理されるが、ＬＳＵ処理パイプラインでも実行可能な些細なもしくは単純なまたはその両方である命令は、これら２つの処理パイプラインの作業負荷に基づいて、ＬＳＵ処理パイプラインで実行されるように指示することができ、その逆も可能である。例えば、ＶＳＵパイプラインの作業負荷が重く、ＬＳＵパイプラインの作業負荷が比較的軽い場合、プロセッサは、ＬＳＵパイプラインで実行可能な単純なもしくは些細なまたはその両方である演算命令をＬＳＵパイプラインに向けることができる。比較的単純で、パワーＩＳＡの複数の処理パイプラインで処理可能な、またはその両方である、頻繁に使用される命令の１つに、ａｄｄｉ命令がある。ａｄｄｉ命令は比較的単純な算術演算であり、通常、算術実行ユニット、例えばＦＸ実行ユニットによってＶＳＵ処理パイプラインで実行される。ａｄｄｉ命令は、ＳＸユニット、例えばストアアドレス生成（Ａｇｅｎ）実行ユニットによってＬＳＵ処理パイプラインで実行することもできる。プロセッサの動作中、ＦＸユニットはａｄｄｉ命令以外の演算命令、例えばマルチサイクル演算で過負荷になる可能性があり、一方、ａｄｄｉ命令も実行可能なＳＸユニットの作業負荷は軽い。ＦＸ実行ユニットの作業負荷を低減し、待ち時間を短縮してプロセッサのスループットと性能を向上させるために、ａｄｄｉ命令は実行のためにＳＸユニットにリダイレクトすることができる。１または複数の実施形態では、命令デコードユニット（ＩＤＵ）は、１または複数の実行ユニットもしくはパイプラインまたはその両方の作業負荷を検出もしくは判定またはその両方を行うロジックを実装することができ、１または複数の実行ユニット／パイプラインの作業負荷に応答して、実行のために命令を代替の実行ユニットもしくはパイプラインまたはその両方にリダイレクトまたは再ルーティングすることができる。異なる実行ユニットもしくは処理パイプラインまたはその両方の作業負荷を検出もしくは判定またはその両方を行うための１つのメカニズムは、特定の実行ユニットもしくは処理パイプラインまたはその両方によって処理される様々な命令をカウントする１または複数のカウンタを実装することである。

【0035】

図４に目を向けると、プロセッサ４１０の一部の別の実施形態が図示されている。プロセッサ４１０は、２つのスーパースライス（ＳＳ０およびＳＳ１）として構成された４つの実行スライスを有するマルチスライスプロセッサである。スーパースライスＡ（ＳＳ０）はスーパースライスＢ（ＳＳ１）と同じであり、４スレッドモード（ＳＭＴ４）ではスレッド０と２がＳＳ０で処理され、スレッド１と３がＳＳ１で処理される。開示される実施形態における命令デコードユニット（ＩＤＵ）２１０は、発行キュー２３５Ａ～２３５Ｄに対する８つの送信レーンを有し、送信レーン０：３はスーパースライスＡ（ＳＳ０）に供給され、送信レーン４：７はスーパースライスＢ（ＳＳ１）に供給される。命令デコードユニット（ＩＤＵ）２１０の送信レーン０：３は、スライス０発行キュー２３５Ａとスライス１発行キュー２３５Ｂに命令を送信し、命令デコードユニット（ＩＤＵ）２１０の送信レーン４：７は、スライス２発行キュー２３５Ｃとスライス３発行キュー２３５Ｄに命令を送信する。スーパースライスＳＳ０発行キュー２３５Ａ、２３５ＢおよびスーパースライスＳＳ１発行キュー２３５Ｃ、２３５Ｄは、命令の種類に基づいて、複数のパイプのいずれかに命令を発行する。図４の例では、発行キュー２３５Ａ、２３５Ｂは、ロードＡパイプ４４２Ａ、Store/Branch/SimpleＡパイプ４４４Ａ、スライスＣｏｍｐｕｔｅ０パイプ４７６Ａ、スライスＣｏｍｐｕｔｅ１パイプ４７６Ｂ、スーパースライスＣｏｍｐｕｔｅＡパイプ４７８Ａ、もしくはＳＭＴ４－コアリソースＣｏｍｐｕｔｅパイプ４８４、またはその組み合わせのうちの１つに命令を発行することができる。図４の例では、発行キュー２３５Ｃ、２３５Ｄは、ロードＢパイプ４４２Ｂ、Store/Branch/SimpleＢパイプ４４４Ｂ、スライスＣｏｍｐｕｔｅ２パイプ４７６Ｃ、スライスＣｏｍｐｕｔｅ３パイプ４７６Ｄ、スーパースライスＣｏｍｐｕｔｅＢパイプ４７８Ｂ、もしくはＳＭＴ４－コアリソースＣｏｍｐｕｔｅパイプ４８４、またはその組み合わせのうちの１つに命令を発行することができる。図４のプロセッサ４１０の動作は、スーパースライスＡ（ＳＳ０）がスーパースライスＢ（ＳＳ１）のコピーであることが理解され得るように、主にスーパースライスＡ（ＳＳ０）の動作を参照して説明される。パイプ４４２、４４４、４７６、４７８、および４８４の各々は、それぞれのパイプを下って発行された命令を実行するための１または複数の実行ユニットを含み得ることが理解され得る。

【0036】

図４の例では、スーパースライスＡ（ＳＳ０）を参照し、スーパースライスＢ（ＳＳ１）が同様に構成されることを認識すると、Store/Branch/SimpleＡパイプ４４４Ａは、ストア演算および単純算術演算、ならびに他の演算を処理できるストアアドレス生成（Ａｇｅｎ）ロジックを含むシンプル（ＳＸ）パイプラインを含む。スライスＣｏｍｐｕｔｅ０パイプ４７６Ａは、算術演算に使用される算術ロジック（ＡＬＵ）実行ユニットを含む固定小数点（ＦＸ）パイプラインを含む。単純算術演算は、通常、スライスＣｏｍｐｕｔｅ０パイプ４７６Ａで処理、例えば実行されるが、Store/Branch/Simpleパイプ４４４Ａで処理、例えば実行することもできる。例えば、ａｄｄｉ命令は、通常、ＡＬＵ実行ユニットによってスライスＣｏｍｐｕｔｅ０パイプ４７６Ａで処理され、ＳＸパイプラインによってStore/Branch/SimpleＡパイプ４４４Ａでも実行され得る。１または複数の実施形態では、スライスＣｏｍｐｕｔｅ０パイプ４７６Ａに重い作業負荷があり、Store/Branch/SimpleＡパイプ４４４Ａに比較的軽い作業負荷がある場合、例えばａｄｄｉ命令などの単純算術命令を、実行のためにStore/Branch/SimpleＡパイプ４４４Ａに向けることができる。

【0037】

１または複数の実施形態において、ＩＤＵ２０２は、様々な処理パイプラインもしくは実行ユニットまたはその両方の作業負荷を決定するために、処理パイプラインの１または複数に送信される命令の１または複数のグループまたはサブグループを追跡する。一実施形態では、１または複数のカウンタが、処理パイプラインもしくは実行ユニットまたはその両方の１または複数に送信される命令の１または複数のグループまたはサブグループを追跡するために使用される。図４の例示的な実施形態において、命令デコードユニット（ＩＤＵ）２１０は、複数の命令グループ、例えば、スーパースライスＡ（ＳＳ０）に向けられる命令グループとスーパースライスＢ（ＳＳ１）に向けられる命令グループを追跡する。一態様では、命令デコードユニット（ＩＤＵ）２０２は、スーパースライスＡ（ＳＳ０）に対してレーン０：３にわたって伝送される特定の命令、命令のグループ、または命令のサブグループをカウントする１または複数のカウンタと、スーパースライスＢ（ＳＳ１）に対してレーン４：７にわたって伝送される特定の命令、命令のグループ、または命令のサブグループをカウントする１または複数の他のカウンタとを有することができる。スーパースライスＡ（ＳＳ０）へのレーン０：３にわたって伝送される特定の命令をカウントする１または複数のカウンタは、スーパースライスＡ（ＳＳ０）における作業負荷を決定すること、および１または複数の態様において異なるパイプ４４２Ａ、４４４Ａ、４７６Ａ、４７６Ｂ、４７８Ａもしくは４８４またはその組み合わせの作業負荷を決定することを容易にする。レーン４：７を介してスーパースライスＢ（ＳＳ１）に伝送される特定の命令をカウントする１または複数のカウンタは、スーパースライスＢ（ＳＳ１）における作業負荷を決定すること、および１または複数の態様において異なるパイプ４４２Ｂ、４４４Ｂ、４７６Ｃ、４７６Ｄ、４７８Ｂもしくは４８４またはその組み合わせの作業負荷を決定することを容易にする。

【0038】

図５は、命令デコードユニット（ＩＤＵ）２０２の簡略化されたブロック図の一部を示しており、シングルスレッドモード（ＳＭＴ１）またはデュアルスレッドモード（ＳＭＴ２）において、サパースライスＳＳ０、ＳＳ１の両方、例えば、発行キュー２３５Ａ～２３５Ｄに送信される８つの（８）レーン０：７（５２７）の全ては、カウンタ４１１～４１４およびカウンタ４１６～４１９によってカウントされ、様々なパイプもしくは実行ユニットまたはその両方へのルーティングは、８つのデコードレーン５２７すべてに影響を与える。図６は、４スレッドモード（ＳＭＴ４）において、送信レーン０：３上のカウンタ４１１～４１４によってカウントされた命令が、スーパースライスＳＳ０発行キュー２３５Ａ～２３５Ｂへのデコードレーン０：３（６２８）に影響を与え、送信レーン４：７上のカウンタ４１６～４１９によってカウントされた命令が、スーパースライスＳＳ１発行キュー２３５Ｃ～２３５Ｄへのデコードレーン４：７（６２９）に影響を与える、命令デコードユニット（ＩＤＵ）２０２の簡略化されたブロック図の一部を示す。

【0039】

１または複数の実施形態では、図４に示すように、ＩＤＵ２１０は、複数のカウンタ４１１～４１４およびカウンタ４１６～４１９を含み、カウンタ４１１～４１４は、スーパースライスＡＳＳ０内の様々なパイプラインの作業負荷を決定することを容易にし、カウンタ４１６～４１９は、スーパースライスＢＳＳ１内の様々なパイプラインの作業負荷を決定することを容易にする。より具体的には、カウンタ４１１～４１４は、スーパースライスＡ（ＳＳ０）の発行キュー２３５Ａ、２３５Ｂへのレーン０：３にわたって伝送される様々な命令（または命令のグループ／サブグループ）をカウントし、カウンタ４１６～４１９は、スーパースライスＢ（ＳＳ１）の発行キュー２３５Ｃ、２３５Ｄへのレーン４：７にわたって伝送される様々な命令（または命令のグループ）をカウントする。

【0040】

一態様では、例えば図４のプロセッサにおいて、カウンタ４１１は、スーパースライスＡ（ＳＳ０）に送信された命令の総数（例えば、全ての命令）をカウントするように配置および構成され、一方、カウンタ４１６は、スーパースライスＢ（ＳＳ１）に送信された命令の総数（例えば、全ての命令）をカウントする。好ましくは、カウンタ４１１および４１６の各々は、ＩＤＵ２０２内に含まれ得る。１つのアプローチにおいて、例えば図４のプロセッサ４１０において、単純算術命令、例えばａｄｄｉ命令が、プロセッサ内の複数のパイプもしくは実行ユニットまたはその両方、例えば第１のパイプ／実行ユニットおよび第２のパイプ／実行ユニットにおいて実行可能である場合、異なるパイプもしくは実行ユニットまたはその両方の作業負荷もしくは相対的な作業負荷またはその両方を決定するために、第１のカウンタは、パイプもしくは実行ユニットまたはその両方のうちの１つ、例えば、第１のパイプもしくは実行ユニットまたはその両方に送信し、第２のカウンタは、パイプもしくは実行ユニットまたはその両方の別の１つ、例えば第２のパイプもしくは実行ユニットまたはその両方に送信された命令（または命令のグループ）をカウントすることができる。１または複数の実施形態において、異なるパイプもしくは実行ユニットまたはその両方の作業負荷に基づいて、プロセッサは、１つのパイプもしくは実行ユニットまたはその両方、例えば第１のパイプもしくは実行ユニットまたはその両方、または他のパイプもしくは実行ユニットまたはその両方、例えば第２のパイプもしくは実行ユニットまたはその両方の作業負荷に基づいて、異なるパイプもしくは実行ユニットまたはその両方に命令を指示することができる。

【0041】

図４のプロセッサの具体例に目を向けると、単純算術命令、例えばａｄｄｉ命令は、スーパースライスＡ（ＳＳ０）の複数のパイプもしくは実行ユニットまたはその両方で実行可能である。プロセッサ４１０内の単純算術命令、例えばａｄｄｉ命令は、スライスＣｏｍｐｕｔｅ０パイプ４７６ＡおよびスーパースライスＳＳ０内のStore/Branch/SimpleＡパイプ４４４Ａで実行可能である。カウンタ４１２は、一態様において、スライスＣｏｍｐｕｔｅ０パイプ４７６Ａによって処理される算術リソース集中型命令の第１のサブグループ、例えば、マルチサイクル算術（ＭＣＡｒｔｈ）命令の数をカウントするように構成され、カウンタ４１３は、命令の第３のサブグループ、例えば、行列乗算アキュムレータ（ＭＭＡ）命令（大量のリソースを大量に消費する計算命令など）の数をカウントするように構成され、およびカウンタ４１４は、Store/Branch/SimpleＡパイプ４４４Ａによって処理される命令の第２のサブグループの数、例えば、ストア命令、デュアルポートロード命令、分岐命令、およびＳＸ命令の数をカウントするように構成される。スーパースライスＢ（ＳＳ１）の場合、カウンタ４１７はカウンタ４１２と同様に構成および配置され、カウンタ４１８はカウンタ４１３と同様に構成および配置され、カウンタ４１９はカウンタ４１４と同様に構成および配置されることが理解できる。実施例では、命令の第１のサブグループは、例えば、ｘｘｂｒｄ、ｖｓｕｂｃｕｑ、ｄｄｉｖ、ｖｓｂｏｘ、ｖｄｉｖｓｗ、ｆｃｆｉｄなどのマルチサイクル演算命令を含むことができるが、これらに限定されず、命令の第３のサブグループは、例えば、ｘｖｂｆ１６ｇｅｒ２、ｘｖｆ１６ｇｅｒ２、ｘｖｆ３２ｇｅｒ、ｘｖｆ６４ｇｅｒ、およびｘｖｉ４ｇｅｒ２などのＭＭＡ命令を含むことができるが、これらに限定されない。実施例では、命令の第２のサブグループには、ストア命令、デュアルポートロード命令、分岐命令、および単純（ＳＸ）命令（例えば、ストア命令ｓｔｓｄｘ、ｓｔｄ、ｓｔｄｕ、ｓｔｈ、ｓｔｍｄ、ｓｔｗｄ、デュアルポートロード命令ｌｘｖｐ、ｌｘｖｐｘ、ｌｑ、ｌｑＡｒｘ、分岐命令ｂ、ｂａ、ｂｌ、ｂｌａ、ｂｃ、ｂｃａ、ｂｃｌｒ、ｂｃｌｒｌ、ｂｃｃｔｒ、ｂｃｃｔｒｌ、単純（ＳＸ）命令ｍｆｓｐｒ、ｍｔｓｐｒなど）が含まれるが、これらに限定されない。

【0042】

プロセッサ４１０は、カウンタ値を使用してStore/Branch/SimpleＡパイプ４４４Ａの作業負荷を決定し、スライスＣｏｍｐｕｔｅ０パイプ４７６Ａの作業負荷を決定するロジックを含み、決定された作業負荷値もしくは割合またはその両方に基づいて単純算術命令を指示することができる。異なる作業負荷チューニングに対応するために、例えば、単純算術命令、例えばａｄｄｉ命令を、２つ以上のパイプ、例えばStore/Branch/SimpleＡパイプ４４４ＡまたはスライスＣｏｍｐｕｔｅ０パイプ４７６Ａのいずれにいつ送信するかを決定するために、複数の異なる設定を実装することができる。複数の異なる設定は、事前設定、プリセット、調整可能、もしくはプログラム可能、またはその組み合わせであり得る。プロセッサ４１０は、特定の命令、例えば単純な算術命令をどのパイプもしくは実行ユニットまたはその両方にいつ向けるかを決定するための基礎として、特定の命令もしくは異なる命令またはその両方のカウント値もしくは比率（割合）またはその両方を使用することができる。

【0043】

１または複数の実施形態では、プロセッサは、マルチサイクル算術命令の比率または割合、行列乗算加算（ＭＭＡ）命令の比率または割合、もしくはプロセッサの１つのスーパースライス（ＳＳ０またはＳＳ１）上で処理されるストア命令、デュアルポートロード命令、分岐命令、および単純（ＳＸ）命令の比率、またはその両方を決定し、それらの比率に基づいて、単純算術命令、例えば、ａｄｄｉ命令をスライスＣｏｍｐｕｔｅ０パイプ４７６ＡまたはStore/Branch/SimpleＡパイプ４４４Ａのいずれに送るかを決定する。例えば、カウンタ４１２によってカウントされた命令の第１のサブグループ、カウンタ４１３によってカウントされた命令の第３のサブグループ、およびカウンタ４１４によってカウントされた命令の第２のサブグループの比率は、単純算術命令をスライスＣｏｍｐｕｔｅ０パイプ４７６Ａ（例えば、スライスＣｏｍｐｕｔｅ０パイプ４７６ＡのＦＸユニット）またはStore/Branch/SimpleＡパイプ４４４Ａ（例えば、Store/Branch SimpleＡパイプ４４４ＡのＳＸユニット）のいずれかに単純算術命令を送るかどうかを決定するために使用される。

【0044】

命令の比率は、一定数「Ｎ」命令ごとに、例えば６４命令ごとにカウントすることができる。この場合、比率は、例えば、６４命令後、１２８命令後、１９２命令後など、毎６４命令後のカウンタ値から計算することができる。すなわち、６４個の命令が送信されるごとに、各命令グループのカウントがサンプリングされる。プロセッサ、好ましくはＩＤＵは、サンプリング結果を閾値制御設定と比較し、単純算術命令のルーティングを同じに維持するか、または次の６４命令にわたって単純算術命令を再ルーティングする。ここで、６４個のマルチサイクル演算（ＭＣＡｒｔｈ）命令の後、マルチサイクル演算（ＭＣＡｒｔｈ）命令を処理するＦＸユニットの作業負荷が高い（例えば、６４個の命令に対して閾値以上である）場合、６４個の命令の固定数に基づいて、どのパイプもしくは実行ユニットまたはその両方を使用するかの決定を行う例が図７に示されており、次の固定された６４個の命令に対する単純算術命令、例えば、ａｄｄｉ命令は、ＳＸユニット（Store/Branch/Simpleパイプ４４４内）によって処理されるようにルーティングされる。図７では、１２８命令後、カウンタのサンプリング結果が変化したため、プロセッサは、スライスＣｏｍｐｕｔｅパイプ４７６内のＦＸユニットへの単純算術命令の送信に戻る。

【0045】

比率およびカウンタ値の決定もしくはサンプリングまたはその両方は、例えば、最後の数「Ｎ」サイクルにわたって、ローリングベースで実行することもできる。例えば、サンプリングおよび比率は、サンプリング結果もしくは比率またはその両方が、最後の６４個の命令に基づいて各命令の後に決定されるように、最後の６４個の命令に基づいて決定することができる。プロセッサ、好ましくはＩＤＵは、最後の６４個の命令に基づくサンプリング結果を閾値制御設定と比較し、単純算術命令をどのように指示するかを決定する。命令のローリング数「Ｎ」、例えば、６４個の命令のローリング数に基づいて、どのパイプもしくは実行ユニットまたはその両方を使用するかの決定を行う例が図８に示されており、６４個のマルチサイクル演算（ＭＣＡｒｔｈ）命令の後、ＦＸユニットの作業負荷が決定される。図８において、最初の６４個の命令の後、ＦＸユニットの作業負荷が計算され、高いと判定されるので、プロセッサは、Store/Branch/Simple４４４内のＳＸユニットに単純算術命令を指示する。６４回目の命令の後、プロセッサスライス（ＳＳ０）は、単純算術計算（Ａｒｔｈ）やロード命令（Ｌｏａｄ）、ストア命令（Ｓｔｏｒｅ）など、マルチサイクル演算（ＭＣＡｒｔｈ）命令以外の命令の処理を開始する。６４回目のサイクルの後の各命令の後、プロセッサは最後の６４命令からの結果をサンプリングし、比率を決定する。９番目のサイクル、例えば７２命令の後、比率は十分に変化しておらず、単純算術命令、例えばａｄｄｉ命令は、Store/Branch/Simpleパイプ４４４内のＳＸユニットに引き続きルーティングされる。９番目のサイクル（例えば７２命令）の後、プロセッサはあまり集中的でない演算作業負荷を処理し続け、１０番目のサイクル（例えば８０命令）の後、最後の６４命令の比率は、単純算術命令（例えばＡｄｄｉ命令）がＦＸユニット（例えばスライスＣｏｍｐｕｔｅパイプ４７６）にリダイレクトされるように十分に変化している。

【0046】

プロセッサ、例えばＩＤＵ２０２は、命令を代替パイプもしくは実行ユニットまたはその両方にリダイレクトするために、多数の異なる条件を処理するようにプログラムすることができる。図４のプロセッサ４１０の例では、ＩＤＵ２０２に、単純算術命令、例えば、Ａｄｄｉ命令を、Ｃｏｍｐｕｔｅパイプ４７６のようなＣｏｍｐｕｔｅパイプ、もしくはＦＸユニットのような実行ユニット、またはその両方から、Store/Branch/Simpleパイプ４４４もしくはＳＸユニットのような実行ユニットまたはその両方のような代替パイプ、もしくは代替実行ユニット、またはその両方に送らせるように、２つの条件をプログラムすることができる。単純算術命令をStore/Branch/Simpleパイプ４４４（例えば、ＳＸユニット）に向ける１つの条件は、マルチサイクル命令が第１の閾値を超え、ストア、デュアルロードポート、分岐、単純（ＳＸ）命令が第２の閾値未満である場合である。単純算術命令、例えばＡｄｄｉ命令をStore/Branch/Simpleパイプ４４４（例えばＳＸユニット）に向ける別の条件は、ＭＭＡ命令が第３の閾値を超えている場合である。

【0047】

一例では、マルチサイクル命令に関連する第１の閾値は、命令の固定数またはローリング数Ｎにわたって（例えば、６４命令にわたって）において、マルチサイクル演算（ＭＣＡｒｔｈ）命令の数が、例えば、２０％より大きい、例えば、３０％より大きい、または例えば、４０％より大きい場合であり、同じ固定またはローリング数Ｎの命令数におけるストア、デュアルロードポート、分岐、および単純（ＳＸ）命令の第２の閾値が、例えば、１５％より小さい、例えば、２５％より小さい、または例えば、３５％より小さい場合である。スーパースライスＡ（ＳＳ０）について、マルチサイクル演算（ＭＣＡｒｔｈ）命令の比率または割合は、カウンタ４１２およびカウンタ４１１のカウント値を見ることによって計算することができ、ストア、デュアルポートロード、分岐およびＳＸ（単純）命令の比率または割合は、カウンタ４１４およびカウンタ４１１の値を見ることによって計算することができ、ＭＭＡ命令の比率または割合は、カウンタ４１３およびカウンタ４１１のカウント値を見ることによって計算することができることが理解され得る。比率もしくは割合またはその両方は、スーパースライスＡ（ＳＳ０）においてそれぞれのカウンタ４１１～４１４を使用するのと同じ方法でそれぞれのカウンタ４１６～４１９の値を使用することにより、スーパースライスＢ（ＳＳ１）について計算することができる。閾値の割合／比率の値は、例示した値とは異なる可能性があり、部分的にはプロセッサのアーキテクチャや設計上の考慮事項の問題となることが理解されよう。カウンタからの数値は、比率や割合とは対照的に、様々なパイプもしくは実行ユニットまたはその両方の作業負荷を決定するための条件もしくは閾値またはその両方を設定するために使用することができる。

【0048】

単純算術命令を処理するための主要な実行ユニットが、マルチサイクル算術命令もしくはＭＭＡ命令またはその両方からのような重い算術／計算作業負荷を有する場合に、単純算術命令、例えば、ａｄｄｉ命令を、実行のために代替の実行ユニットに選択的にルーティングすることによって、実行ユニット間の作業負荷のバランスをとり、プロセッサ性能を向上させ、プロセッサ待ち時間を減少させることができることが理解され得る。実行パイプラインもしくは実行ユニットまたはその両方の作業負荷の選択的ルーティングおよびバランシングの実装は、様々な作業負荷を計算および決定するカウンタを使用し、異なる命令を異なる実行パイプラインもしくは実行ユニットまたはその両方に向ける閾値（調整可能、固定）を使用して達成することができる。

【0049】

図９は、プロセッサ性能を向上させるために、複数の実行パイプラインもしくは実行ユニットまたはその両方で実行可能な単純算術命令を特定の実行パイプラインもしくは実行ユニットまたはその両方に選択的にルーティングする特定の実施形態を含む、実施形態において、プロセッサ内の作業負荷または実行パイプライン、もしくは実行ユニット、またはその両方を調整することを含む、プロセッサ内でデータ、例えば、実行命令を処理する方法を図示し、説明する実施形態による例示的なフローチャートである。方法９００は、便宜上記載されており、一連のステップもしくは多数のステップまたはその両方を含むものとして本開示を限定する意図で記載されているわけではないが、プロセスは、一連のステップとして実行される必要はなく、もしくは、ステップは、図９に関して示され、記載された順序で実行される必要はなく、またはその両方であってもよいが、プロセスは、統合されてもよく、もしくは、１または複数のステップが、一緒に実行されてもよく、同時に実行されてもよく、またはその両方であってよく、あるいは、ステップは、開示された順序で実行されてもよく、または、代替の順序で実行されてもよいことを理解されたい。

【0050】

図９の方法９００は、複数の実行パイプラインもしくは実行ユニットまたはその両方を有するプロセッサにおいて、プロセッサの性能およびスループットを改善するために、プロセッサ内の作業負荷を調整し、バランスをとることに関する。９０５において、命令のタイプ、例えばＰｏｗｅｒＩＳＡアーキテクチャにおけるａｄｄｉ命令のような単純算術命令を実行することができる複数のパイプラインもしくは実行ユニットまたはその両方を有するプロセッサが提供される。他のプロセッサアーキテクチャには、異なる命令が適用可能であろう。プロセス９００は、命令のタイプを実行可能な第１の処理パイプラインもしくは第１の実行ユニットまたはその両方と、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方との両方を参照して説明されるが、プロセッサ内の２つ以上の処理パイプラインもしくは２つ以上の実行ユニットまたはその両方が、命令のタイプを実行可能である場合があり、２つ以上の処理パイプラインもしくは２つ以上の実行ユニットまたはその両方の間で作業負荷を調整させる、もしくはバランスさせる、またはその両方であるプロセス９００は、かかるプロセッサにも適用可能であることが、当業者には理解され得る。

【0051】

９１０において、命令のタイプ、例えば単純算術命令を実行することができる第１の処理パイプラインもしくは実行ユニットまたはその両方の作業負荷が計算される。議論を容易にするために、プロセス９００を単純算術命令を参照して説明するが、プロセス９００が、複数の処理パイプラインもしくは実行ユニットまたはその両方によって実行可能な他の命令のタイプに適用可能であることは、当業者には理解されるであろう。実施例では、プロセス９００は、単純算術命令を実行可能な第１の処理パイプラインとしてのスライスＣｏｍｐｕｔｅパイプ、および単純算術命令を実行可能な第１の実行ユニットとしてのＦＸ実行ユニット（例えば、第１の処理パイプライン内）を参照して説明される。実施例では、プロセス９００は、単純算術命令を実行可能な第２の処理パイプラインとしてのStore／Branch／Simpleパイプ、および単純算術命令を実行可能な第２の実行ユニットとしてのＳＸ実行ユニット（例えば、第２の処理パイプライン内）を参照して説明される。

【0052】

１または複数の実装において、９１５において、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方の作業負荷は、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方において実行されるすべての命令をカウントすることによって計算され得る。１つのアプローチでは、９１５において、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方の作業負荷は、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方によって実行される命令のサブグループをカウントすることによって計算され得ることが理解され得る。例えば、９１５において、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方の作業負荷は、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方によって実行される命令のサブグループであるマルチサイクル算術命令をカウントすることによって計算することができる。さらなるアプローチでは、９１５において、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方の作業負荷は、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方によって実行される命令の複数のサブグループをカウントすることによって計算され得る。例えば、９１５において、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方の作業負荷は、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方によって実行される命令の第１のサブグループであるマルチサイクル算術命令をカウントすることによって、および第１の処理パイプラインもしくは第１の実行ユニットまたはその両方によって実行される命令の第２のサブグループである行列乗算アキュムレータ（ＭＭＡ）命令をカウントすることによって、計算され得る。プロセッサ、処理パイプライン、もしくは実行ユニットまたはその組み合わせ内の様々な命令もしくは命令グループ／サブグループまたはその両方をカウントするために、１または複数のカウンタが提供され得ることが理解され得る。

【0053】

１または複数の実施形態において、９２０では、プロセッサまたは処理スライスにおいて実行されるすべての命令が計算され、９２５において、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方において実行される命令の比率または割合が計算されるであろう。１つのアプローチでは、９２５において、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方において実行された命令の比率または割合は、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方において実行された命令（または命令のサブグループ）の数を、それぞれのプロセッサ／処理スライスにおいて処理された命令の総数で割ることによって決定されるであろう。実施形態による９１５および９２０におけるカウントは、プロセッサ／処理スライスの固定数またはローリング数「Ｎ」命令にわたって決定される。例えば、９１５における第１の処理パイプラインもしくは第１の実行ユニットまたはその両方における命令のカウント、９２０におけるプロセッサもしくは処理スライスまたはその両方において実行されるすべての命令のカウント、ならびに９２５における比率もしくは割合またはその両方の計算／決定は、固定された６４個の命令間隔にわたって、またはローリングする６４個の命令間隔にわたって行うことができる。

【0054】

実施形態によれば、第１の処理パイプラインもしくは実行ユニットまたはその両方で実行される命令（または命令のサブグループ）の比率もしくは割合またはその両方を使用する代わりに、命令（または命令のサブグループ）の数「Ｎ」が９１５でカウントされ、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方の作業負荷を決定／計算するための基礎として９１０で使用され得ることが理解され得る。

【0055】

９１０で第１の処理パイプラインもしくは第１の実行ユニットまたはその両方の作業負荷を計算した後（例えば、９１５／９２５で命令（または命令のグループ）の数／比率／割合を計算した後）、プロセス９００は９３０に続き、１または複数のアプローチに従って、命令のタイプ、例えば単純算術命令を実行可能な第２の処理パイプラインもしくは第２の実行ユニットまたはその両方の作業負荷が計算される、もしくは決定される、またはその両方である。１または複数の実装では、９３５において、第２の処理パイプライン（例えば、Store/Branch/Simpleパイプ）もしくは第２の実行ユニット（例えば、ＳＸ実行ユニット）またはその両方の作業負荷は、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方において実行されるすべての命令をカウントすることによって計算され得る。１つのアプローチにおいて、９３５において、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方の作業負荷は、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方によって実行される命令のサブグループをカウントすることによって計算され得ることが理解され得る。例えば、９３５において、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方の作業負荷は、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方によって実行される命令のサブグループである、ストア命令、デュアルポートロード命令、分岐命令、およびＳＸ命令をカウントすることによって計算され得る。さらなるアプローチでは、９３５において、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方の作業負荷は、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方によって実行される命令の複数のサブグループをカウントすることによって計算され得る。プロセッサ、処理パイプライン、もしくは実行ユニット、またはその組み合わせ内の様々な命令もしくは命令グループ／サブグループまたはその両方をカウントするために、１または複数のカウンタが提供され得ることが理解され得る。

【0056】

１または複数の実施形態では、９４０において、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方において実行される命令の比率または割合が計算されるであろう。１つのアプローチでは、９４０において、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方において実行された命令の比率または割合は、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方において実行された命令（または命令のサブグループ）の数を、それぞれのプロセッサ／処理スライスにおいて処理された命令の総数で割ることによって決定されるであろう。それぞれのプロセッサ／処理スライスにおいて処理された命令の総数は、９２０において決定された。実施形態による９３５および９２０におけるカウントは、プロセッサ／処理スライスの固定数またはローリング数「Ｎ」命令にわたって決定される。例えば、９３５における第２の処理パイプラインもしくは第２の実行ユニットまたはその両方における命令のカウント、９２０におけるプロセッサもしくは処理スライスまたはその両方において実行されたすべての命令のカウント、ならびに９４０における比率もしくは割合またはその両方の計算／決定は、固定された６４個の命令間隔にわたって、またはローリングする６４個の命令間隔にわたって行うことができる。

【0057】

実施形態によれば、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方で実行される命令（または命令のサブグループ）の比率もしくは割合またはその両方を使用する代わりに、命令（または命令のサブグループ）の数「Ｎ」が９３５でカウントされ、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方の作業負荷を決定／計算するための基礎として９３０で使用され得ることが理解され得る。

【0058】

９３０で第２の処理パイプラインもしくは第２の実行ユニットまたはその両方の作業負荷を計算した後（例えば、９３５／９４０で命令（または命令グループ）の数／比率／割合を計算した後）、プロセス９００は９４５に続き、１または複数のアプローチに従って、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方の作業負荷が、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方の作業負荷と比較される。１または複数の実装において、９５０において、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方において実行される命令（または命令のグループ／サブグループ）の比率／割合／数が、第１の閾値と比較される。例えば、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方において処理／実行される命令の第１のサブグループの比率もしくは割合またはその両方、例えば、ＦＸユニットによってＣｏｍｐｕｔｅパイプ内で実行されるマルチサイクル演算命令は、第１の閾値と比較され、第１の閾値は、例えば、２０％、３０％、または４０％であり得る。別の例では、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方で処理／実行される命令の第１のサブグループの数「Ｎ」、例えば、ＦＸユニットによってＣｏｍｐｕｔｅパイプ内で実行されるマルチサイクル算術命令は、第１の閾値と比較され、第１の閾値は、例えば、プロセッサもしくは処理スライスまたはその両方によって実行される命令の例えば６４サイクルの固定またはローリング間隔のうちの５番、２５番、３２番、もしくは４５番、またはその組み合わせであり得る。第１の閾値は、上記の例とは異なる場合があり、第１の閾値は、固定される場合があり、予め決定される場合があり、プログラム可能である場合があり、もしくは調整される場合があり、またはその組み合わせである場合があり、プロセッサおよび設計の考慮事項に部分的に依存することが理解され得る。一態様において、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方において実行される命令（または命令のグループ／サブグループ）の比率／割合／数を９５０における第１の閾値と比較することは、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方のためのベースライン作業負荷を提供し、それ以下では、命令のタイプ、例えば、単純算術命令が、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方において処理され、それ以上では、プロセッサが、命令のタイプ、例えば、単純算術命令を、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方において実行する可能性がある。

【0059】

１または複数の実装では、９５５において、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方において実行される命令（または命令のグループ／サブグループ）の比率／割合／数が、第２の閾値と比較される。例えば、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方において処理／実行される命令の第１のサブグループ、例えば、ＳＸユニットによってStore/Branch/Simpleパイプにおいて実行されるストア命令、デュアルポートロード命令、分岐命令、ＳＸ命令の比率もしくは割合またはその両方が、第２の閾値と比較され、第２の閾値は、例えば、１５％、２５％、または３５％であり得る。別の実施例では、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方で処理／実行される命令の第１のサブグループの数「Ｎ」、例えば、ＳＸユニットによってStore/Branch/Simpleパイプで実行されるマルチサイクル算術命令は、第２の閾値と比較され、第２の閾値は、例えば、プロセッサもしくは処理スライスまたはその両方によって実行される６４命令の例えば固定またはローリング間隔のうちの１５番、３２番、４５番、もしくは５０番またはその組み合わせであり得る。第２の閾値は、上記の例とは異なる場合があり、第２の閾値は、固定される場合があり、予め決定される場合があり、プログラム可能である場合があり、もしくは調整される場合があり、またはその組み合わせである場合があり、プロセッサおよび設計の考慮事項に部分的に依存することが理解され得る。一態様において、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方において実行される命令（または命令のグループ／サブグループ）の比率／割合／数を９５５において第２の閾値と比較することは、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方のベースライン作業負荷を提供し、それ以下では、命令のタイプ、例えば、単純算術命令は、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方において処理され、それ以上では、プロセッサは、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方において命令のタイプ、例えば単純算術命令を実行する。

【0060】

９４５において、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方の作業負荷を第２の処理パイプラインもしくは第２の実行ユニットまたはその両方と比較した後（例えば、９５０／９５５において、第１および第２の処理パイプラインもしくは第１および第２の実行ユニットまたはその両方おいて実行される命令（または命令のグループ）の比率／割合／数を第１および第２の閾値と比較した後）、プロセス９００は９６０に続き、１または複数のアプローチに従って、第１または第２の処理パイプラインもしくは第１または第２の実行ユニットまたはその両方が、第１および第２のパイプラインもしくは第１および第２の実行ユニットまたはその両方の作業負荷に基づいて、命令の第１のタイプ、例えば単純算術命令を実行するように選択される。

【0061】

一例では、９６０において、第１の処理パイプライン（例えば、Ｃｏｍｐｕｔｅパイプ）もしくは第１の実行ユニット（例えば、ＦＸユニット）またはその両方は、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方の作業負荷（例えば、９２５／９５０において決定される）が第１の閾値未満、例えば、２０％未満であることに応答して、第１のタイプの命令、例えば、単純算術命令を処理するように選択される。第１の閾値は、上記の２０％の例とは異なることができ、第１の閾値は、固定された、予め決められた、プログラム可能な、もしくは調整可能な、またはその組み合わせである比率／割合／数であることができ、プロセッサおよび設計構成に部分的に依存することが理解され得る。別の実施例では、９６０において、第２の処理パイプライン（例えば、Store/Branch/Simpleパイプ）もしくは第２の実行ユニット（例えば、ＳＸユニット）またはその両方は、第１の処理パイプラインもしくは第１の実行ユニットまたはその両方の作業負荷（例えば９２５／９５０で決定される）が第１の閾値を超える、例えば２０％を超え、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方の作業負荷（例えば９４０／９５５で決定される）が第２の閾値未満であり、例えば１５％未満であることに応答して、第１のタイプの命令、例えば単純算術命令を処理／実行するように選択される。第２の閾値は、上記の１５％の例とは異なることができ、第２の閾値は、固定された、予め決められた、プログラム可能な、もしくは調整可能な、またはその組み合わせである比率／割合／数であることができ、プロセッサおよび設計構成に部分的に依存することが理解され得る。上述したように、第１および第２の閾値は、比率または割合の代わりに数値として表すことができることをさらに理解することができる。

【0062】

代替的に、もしくは追加的に、またはその両方で、９６０において、第１もしくは第２の処理パイプライン、もしくは第１もしくは第２の実行ユニット、またはその両方は、第１もしくは第２またはその両方のパイプラインのみの作業負荷、もしくは、第１もしくは第２またはその両方の実行ユニットのみの作業負荷、またはその両方に基づいて、命令の第１のタイプ、例えば単純算術命令を実行するように選択され得る。例えば、９６０において、第１もしくは第２の処理パイプライン、もしくは第１もしくは第２の実行ユニット、またはその両方は、第１の処理パイプライン／実行ユニットのみの作業負荷、または第２の処理パイプライン／実行ユニットのみの作業負荷に基づいて、命令のタイプを実行するように選択され得る。実施形態によれば、９６０において、第２の処理パイプライン（例えば、Store/Branch/Simpleパイプ）もしくは第２の実行ユニット（例えば、ＳＸユニット）、またはその両方は、第１の処理パイプライン（例えば、Ｃｏｍｐｕｔｅパイプ）もしくは１の実行ユニット（例えば、ＦＸユニット）またはその両方が、第３の閾値を超える命令の第２のサブグループ、例えば、行列乗算アキュムレータ（ＭＭＡ）命令を処理／実行することに応答して、命令のタイプ、例えば、単純算術命令を実行する。ＭＭＡ命令は一般に多くの計算リソースを必要とするので、第１の処理パイプラインもしくは第１の実行ユニット（例えば、ＦＸユニット）またはその両方が第３の閾値を超えるＭＭＡ命令を実行している状況では、プロセッサは、第２の処理パイプラインもしくは第２の実行ユニットまたはその両方において命令の第１のタイプ、例えば、単純算術命令を処理する。

【0063】

第３の閾値は、例えば、５％、１０％、または１５％とすることができる。別の例では、第３の閾値は、例えば、プロセッサもしくは理スライスまたはその両方によって実行される６４個の命令の固定またはローリング間隔のうちの５番、１５番、または２５番のような数値とすることができる。第３の閾値は、上記の例とは異なる場合があり、第３の閾値は、固定される場合があり、予め決定される場合があり、プログラム可能である場合があり、もしくは調整される場合があり、またはその組み合わせである場合があり、プロセッサおよび設計上の考慮事項に部分的に依存することが理解され得る。１または複数の処理パイプラインもしくは実行ユニットまたはその両方において実行可能な命令の第１のタイプを実行するために、９６０においてどの処理パイプラインもしくは実行ユニットまたはその両方が選択され得るかを決定することに、複数の条件もしくは基準またはその両方が置かれ得ることが理解され得る。したがって、異なる処理パイプラインもしくは実行ユニットまたはその両方を選択するために上で議論された基準／条件のうちの１または複数が、単独で、もしくは様々な組み合わせで、またはその両方で使用され得ることが理解され得る。

【0064】

したがって、フローチャート図のブロックは、指定された機能を実行するための手段の組み合わせ、指定された機能を実行するためのステップの組み合わせ、および指定された機能を実行するためのプログラム命令手段をサポートする。また、フローチャート図の各ブロック、およびフローチャート図のブロックの組み合わせは、指定された機能またはステップを実行する特別な目的のハードウェアベースのコンピュータシステムによって、または特別な目的のハードウェアとコンピュータ命令との組み合わせによって実施できることが理解されるであろう。

【0065】

本発明は、任意の可能な技術詳細レベルで統合されたシステム、方法もしくはコンピュータプログラム製品またはそれらの組み合せとすることができる。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を記憶したコンピュータ可読記憶媒体を含んでよい。

【0066】

コンピュータ可読記憶媒体は、命令実行装置によって使用される命令を保持し、記憶することができる有形の装置とすることができる。コンピュータ可読記憶媒体は、一例として、電子記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置またはこれらの適切な組み合わせであってよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な一例としては、ポータブルコンピュータディスケット、ハードディスク、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ（またはフラッシュメモリ）、ＳＲＡＭ、ＣＤ－ＲＯＭ、ＤＶＤ、メモリスティック、フロッピーディスク、パンチカードまたは溝内の隆起構造などに命令を記録した機械的に符号化された装置、およびこれらの適切な組み合せが挙げられる。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波管もしくは他の伝送媒体を介して伝播する電磁波（例えば、光ファイバケーブルを通過する光パルス）、またはワイヤを介して送信される電気信号のような、一過性の信号それ自体として解釈されるべきではない。

【0067】

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理装置に、または、ネットワーク（例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、もしくはワイヤレスネットワークまたはその組み合わせ）を介して外部コンピュータまたは外部記憶装置にダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバー、無線伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピュータ、もしくはエッジサーバーまたはその組み合わせで構成される。各コンピューティング／処理装置のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング／処理装置内のコンピュータ可読記憶媒体に格納するためにコンピュータ可読プログラム命令を転送する。

【0068】

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、統合回路のための構成データ、またはＳｍＡｌｌｔＡｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語と「Ｃ」プログラミング言語や類似のプログラミング言語などの手続き型プログラミング言語を含む、１つ以上のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードのいずれかであってよい。コンピュータ可読プログラム命令は、スタンドアロンソフトウェアパッケージとして、完全にユーザのコンピュータ上で、または部分的にユーザのコンピュータ上で実行可能である。あるいは、部分的にユーザのコンピュータ上でかつ部分的にリモートコンピュータ上で、または完全にリモートコンピュータまたはサーバ上で実行可能である。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され、または（例えば、インターネットサービスプロバイダーを使用したインターネット経由で）外部コンピュータに接続されてよい。いくつかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、またはプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用してパーソナライズすることにより、コンピュータ可読プログラム命令を実行することができる。

【0069】

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータプログラム製品のフローチャート図もしくはブロック図またはその両方を参照して本明細書に記載されている。フローチャート図もしくはブロック図またはその両方の各ブロック、およびフローチャート図もしくはブロック図またはその両方のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されよう。

【0070】

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令がフローチャートもしくはブロック図またはその両方の１または複数のブロックで指定された機能／動作を実装するための手段を生成するように、機械を生成するために汎用コンピュータ、専用コンピュータのプロセッサまたは他のプログラム可能なデータ処理装置に提供されることができる。これらのコンピュータ可読プログラム命令はまた、フローチャートもしくはブロック図またはその両方の１または複数のブロックで指定された機能／行為の態様を実装する命令を含む生成品の１つを命令が記憶されたコンピュータ可読記憶媒体が構成するように、コンピュータ、プログラム可能なデータ処理装置、もしくは特定の方法で機能する他のデバイスまたはその組み合わせに接続可能なコンピュータ可読記憶媒体の中に記憶されることができる。

【0071】

コンピュータ、他のプログラム可能な装置、または他のデバイス上でフローチャートもしくはブロック図またはその両方の１または複数のブロックで指定された機能／行為を実行する命令のように、コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラム可能な装置、または他のデバイス上で一連の操作ステップを実行し、コンピュータ実装された過程を生成することができる。

【0072】

図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品が実行可能な実装の構成、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、モジュール、セグメント、または命令の一部を表してよく、これは、指定された論理機能を実装するための１または複数の実行可能命令を構成する。いくつかの代替の実施形態では、ブロックに示されている機能は、図に示されている順序とは異なる場合がある。例えば、連続して示される２つのブロックは、実際には、実質的に同時に実行されるか、またはブロックは、関係する機能に応じて逆の順序で実行される場合がある。ブロック図もしくはフローチャート図またはその両方の各ブロック、およびブロック図もしくはフローチャート図またはその両方のブロックの組み合わせは、指定された機能または動作を実行する、または特別な目的のハードウェアとコンピュータ命令の組み合わせを実行する特別な目的のハードウェアベースのシステムによって実装できることにも留意されたい。

【0073】

さらに、様々な実施形態によるシステムは、プロセッサと、プロセッサと一体化され、もしくはプロセッサによって実行可能な、またはその両方であるロジックとを含むことができ、ロジックは、本明細書に記載される１または複数のプロセスステップを実行するように構成される。プロセッサと一体化されるとは、プロセッサが、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などのハードウェアロジックとして組み込まれたロジックを有することを意味する。プロセッサによって実行可能とは、ロジックがハードウェアロジックであること、ファームウェア、オペレーティングシステムの一部、アプリケーションプログラムの一部などのソフトウェアロジックであること、またはプロセッサによってアクセス可能であり、プロセッサによる実行時にプロセッサに何らかの機能を実行させるように構成されたハードウェアロジックとソフトウェアロジックの組み合わせであることを意味する。ソフトウェアロジックは、当該技術分野で知られているように、任意のメモリタイプのローカルメモリもしくはリモートメモリまたはその両方に格納することができる。ソフトウェアプロセッサモジュール、もしくはＡＳＩＣ、ＦＰＧＡ、中央処理装置（ＣＰＵ）、集積回路（ＩＣ）、グラフィック処理装置（ＧＰＵ）、またはその組み合わせなどのハードウェアプロセッサなど、当技術分野で公知の任意のプロセッサを使用することができる。

【0074】

前述のシステムもしくは方法論またはその両方のさまざまな特徴を任意の方法で組み合わせて、上で提示した説明から複数の組み合わせを作成できることは明らかであろう。

【0075】

本発明の実施形態は、オンデマンドでサービスを提供するために顧客に代わって展開されるサービスの形態で提供され得ることがさらに理解されよう。

【0076】

本発明の様々な実施形態の説明は、例示の目的で提示されているが、網羅的であることを意図するものではなく、開示される実施形態に限定されることを意図するものでもない。記載される実施形態の範囲から逸脱することなく、多くの修正および変更が可能であることは当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、市場で見られる技術に対する実際の適用または技術的改善を最もよく説明するため、または当業者が本明細書に記載の実施形態を理解できるようにするために選択された。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【手続補正書】

【提出日】2024-01-26

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

前記作業負荷グループの少なくとも１つに基づいて前記第１の処理パイプラインまたは前記第２の処理パイプラインを選択することは、前記第１の処理パイプライン作業負荷と前記第２の処理パイプライン作業負荷とを比較することを含む、請求項１に記載のプロセッサ。

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】

【請求項13】

前記第１の命令タイプは、単純算術命令である、請求項１に記載のプロセッサ。

【請求項14】

前記プロセッサは、２つの実行スライスを含む少なくとも１つのスーパースライスを含み、各実行スライスは、前記少なくとも２つの処理パイプラインを含み、前記第１の処理パイプラインは、単純算術命令を実行するように構成された算術論理演算ユニット（ＡＬＵ）実行ユニットを有するＣｏｍｐｕｔｅパイプであり、前記第２の処理パイプラインは、少なくとも単純算術命令を実行するように構成された単純（ＳＸ）実行ユニットを有するStore/Branch/Simpleパイプであり、前記第１の命令タイプは単純算術命令であり、
命令デコードユニットは、命令の第１のサブグループの数をカウントする第１のカウンタを含み、命令の前記第１のサブグループが、前記Ｃｏｍｐｕｔｅパイプ内で実行される少なくともマルチサイクル演算命令を含み、
前記プロセッサは、
前記第１のカウンタを使用して、命令の前記第１のサブグループの数をカウントすることと、
命令の前記第１のサブグループの数を第１の閾値と比較することと、
命令の前記第１のサブグループの前記数が前記第１の閾値未満であることに応答して、前記単純算術命令を実行する前記Ｃｏｍｐｕｔｅパイプを選択することと、
命令の前記第１のサブグループが前記第１の閾値以上であることに応答して、前記単純算術命令を実行する前記Store/Branch/Simpleパイプを選択することと、
を実行するように構成される、請求項１に記載のプロセッサ。

【請求項15】

【請求項16】

【請求項17】

【請求項18】

【請求項19】

【請求項20】

前記第１の処理パイプライン作業負荷を計算することは、前記第１の処理パイプラインにおいて実行される命令の少なくとも第１のサブグループの数をカウントすることを含み、
第２の処理パイプライン作業負荷を計算することは、前記第２の処理パイプラインにおいて実行される命令の少なくとも第２のサブグループの数をカウントすることを含み、
前記方法は、さらに、
命令の前記第１のサブグループとは異なる、前記第１の処理パイプラインにおいて実行される命令の少なくとも第３のサブグループの数をカウントすることと、
命令の前記第３のサブグループが第３の閾値以下であること、前記第１の処理パイプライン作業負荷が第１の閾値以下であること、かつ、前記第１の処理パイプライン作業負荷が前記第１の閾値を超えることおよび前記第２の処理パイプライン作業負荷が第２の閾値以上であることの両方、に応答して、前記第１の命令タイプを実行する前記第１の処理パイプラインを選択することと、
命令の少なくとも前記第３のサブグループの前記数が前記第３の閾値を超えること、かつ、前記第１の処理作業負荷の前記数が前記第１の閾値を超えることおよび前記第２の処理パイプライン作業負荷が第２の閾値未満であること、に応答して、第２の命令タイプを実行する前記第２の処理パイプラインを選択することと、
を含む、請求項１７に記載の方法。

【請求項21】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版