(58)【調査した分野】(Int.Cl.,DB名)
前記命令実行回路及び前記レジスタのセットに接続され、前記SIMD命令を選択し、前記レジスタのセットから前記第1レジスタ及び第2レジスタをそれぞれ選択するため命令データを供給する命令発行回路と、
前記レジスタのセットと前記算術回路との間に接続され、前記命令データ及び/又はオペランドデータによって制御され、少なくとも1つのポジションを含む前記第1系列の選択可能なポジションを選択するオペランド配信回路と、
を有し、
前記第1系列は、前記レジスタのセットからの第1レジスタ及び第2レジスタの双方に拡張する、請求項1記載のデータ処理回路。
前記算術回路のそれぞれは、前記更なるレジスタからのオペランドと、前記算術回路の全てに共通の係数と前記第1及び第2系列からのオペランドとの各自の積との和を計算するよう構成される、請求項4記載のデータ処理回路。
前記命令実行回路は、前記SIMD命令により選択される前記追加的なレジスタからのデータの制御の下で、前記レジスタのセットからの前記第1レジスタ及び第2レジスタ内の前記第1系列のポジションを少なくとも選択するよう構成される、請求項6記載のデータ処理回路。
【背景技術】
【0002】
Intel Pentium(登録商標)IIIプロセッサの命令セットのSIMD命令の使用が、Intel Technology Journal Q2,1999に刊行され、“www.intel.com/technology/itj/q21999/articles/art_5.htm”を介しインターネット上で公衆に利用可能なJames Abel、Kumar Balasubramanian、Mike Bargeron、Tom Craver及びMike Philpotによる“Applications Tuning for Streaming SIMD Extensions”という論文に記載されている。当該論文は、Abel等として参照される。SIMD命令に応答して、プロセッサは、複数の数列として(例えば、32ビットレジスタの4つの8ビット数など)オペランド及び結果レジスタのコンテンツを処理する。プロセッサは、SIMD命令により規定された処理をパラレルに数回実行し、各回毎にオペランドとして各入力レジスタからの異なる数のペアを利用する。プロセッサは、これらパラレルに実行される処理から得られる各数を含む合成された結果を命令により規定された結果レジスタに書き込む。
【0003】
プロセッサの命令セットにおけるこのタイプのSIMD命令の利用性は、タスクを実行するため実行される必要がある命令の合計数を低減する。ここでは、同一の関数が、コンピュータグラフィックス処理、画像圧縮又は解凍などの画像処理タスクなど、大量のデータに適用される必要がある。合計の命令数の低減は、このようなタスクが実行可能なスピードを増大させ、このようなタスクの実行に伴う電力消費を低減する。
【0004】
あるタスクがSIMD命令を用いて実行されるとき、アライメント(alignment)が問題を生じさせるかもしれない。アライメント問題は、オペランドデータがメモリからオペランドデータをSIMD命令に供給するのに利用されるレジスタにロード可能な方法の結果である。典型的には、オペランドデータは、ベーシックアドレス距離のある整数倍であるアドレスからスタートすることによってのみロード可能である。大部分のケースでは、すべてのデータが連続的なロード命令を利用することによってロード可能となるように、処理される必要があるデータ(連続するピクセルのデータなど)はアラインされたアドレス(aligned address)からスタートして連続的に格納されるため、これは問題とならない。Abel等は、キャッシュライン分割に関するアライメント問題について述べている。特殊なケースについて、Abel等は、アラインされていないアドレス(unaligned address)からのロードをサポートするため、“moveups”命令の利用を記載している。さらに、Abel等は、レジスタからの数を再構成するのに利用可能な“shuffling”命令を記載している。このタイプの命令を利用する必要性は、実行される必要がある命令数を増大させる。
【0005】
アライメント問題の一例は、隣接ピクセルの情報の組み合わせに関する画像データの補間中に発生する。Abel等は、SIMD命令のパラレル化が同一のピクセルの異なるカラーコンポーネントを補間するのに利用される補間アプローチについて記載している。このケースでは、連続するピクセルのカラーコンポーネントセットが連続的に格納されるメモリが利用される。
【0006】
あるいは、隣接ピクセルの1つのカラーコンポーネントのピクセルデータが、連続する隣接したメモリ位置に格納されてもよい。好ましくは、SIMD命令を用いて、複数のピクセル位置の補間データをパラレルに生成することが可能であるべきである。この場合、従来はSIMD命令の第1オペランドが複数の第1隣接ピクセルのピクセルデータを含むべきであり、第2オペランドが複数の第2ピクセルのピクセルデータを含むべきであり、そのピクセル位置は、固定されたオフセット(典型的には、1ピクセルポジション)だけ複数の第1ピクセルの位置にオフセットされる。しかしながら、この場合、オペランドの少なくとも1つは、アラインされていない位置からロードされる必要があり、このことは必要とされる命令数を増大させる。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明の課題は、特にアライメント距離の整数倍でないアドレス距離によりメモリに格納されているオペランドを利用して、SIMD処理を実行するため必要とされる命令数の低減をサポートする命令セットを有するプログラマブルプロセッサを提供することである。
【0008】
本発明の課題は、特に選択可能なアラインされていないアドレス距離によりメモリに格納されているオペランドを利用してSIMD処理を実行するため必要とされる命令数の低減をサポートする命令セットを有するプログラマブルプロセッサを提供する。
【課題を解決するための手段】
【0009】
本発明は、請求項1記載のデータ処理回路を提供する。本発明によると、データ処理回路は、新たなタイプのSIMD命令を有する命令セットを有する。このSIMD命令に応答して、N個の算術回路(N=4又は8など)が、N個の同一の処理をパラレルに実行する。SIMD命令は、当該SIMD命令によって選択される第1及び第2レジスタからのSIMD命令のN個の各SIMD命令オペランドの第1及び第2系列を規定する。各算術回路は、SIMD命令を実行する際、それぞれ第1及び第2系列から各自の第1オペランドと各自の第2オペランドを受け付けるよう構成される。命令実行ユニットは、第1及び第2系列が部分的に重複部分を有することを可能にするよう構成される。すなわち、第1及び第2レジスタからのオペランドのすべてではないが、少なくとも1つが、2つの算術ユニットにより利用される。典型的には、第1及び第2系列の少なくとも1つは、第1レジスタから取得される部分と、第2レジスタから取得される部分とを有するN個のオペランドを含む。
【0010】
一実施例では、SIMD命令が信号サンプルの補間又はフィルタリングに適用される。連続する出力サンプルポジションに対して補間された値は、入力サンプルポジションの各自のオペランドペアから計算されるN個のSIMD結果である。本実施例では、連続する各ペアに対して1つのオペランドが、先行するペアの他のオペランドと重複する。
【0011】
好ましくは、第1及び第2レジスタ内の第1系列のポジションは、プログラムにより選択可能である。従って、補間又はフィルタリングアプリケーションでは、最初のSIMD結果が計算される最初の入力サンプルポジションは、オペランドレジスタのコンテンツがアラインされたロード処理によりロードされたとしても、各サンプルポジションにプログラムにより調整することが可能である。これは、フィルタリング又は補間が、任意のポジションのウィンドウなど、任意の位置からスタートして格納されるアレイについて実行される必要がある場合に有用である。第2系列は、好ましくは、オペランドレジスタ内の1つのオペランドポジションによるオフセットなど、第1系列に関して所定の相対ポジションを有する。
【0012】
一実施例では、ポジションの選択は、SIMD命令のオペレーションコードによって制御される。他の実施例では、ポジションは、SIMD命令によって選択されるさらなるレジスタからのオペランドデータにより制御される。このように、異なる命令タイプの最小限しか必要でない。好ましくは、さらなるレジスタがまた、すべての算術回路に共通に供給されるフィルタリング又は補間に対する係数を供給する。
【0013】
さらなる実施例では、データ処理回路は、レジスタセット(典型的には、レジスタファイル)と算術回路との間に接続されるオペランド分配回路を有する。本実施例では、オペランド分配回路は、少なくとも第1オペランド系列のポジションを選択するため、命令データ及び/又はオペランドデータにより制御される。
【0014】
さらなる実施例では、SIMD命令は、第1及び第2オペランドに対して選択されたポジションと関係なく、さらなるオペランドレジスタの所定のポジションから提供されるさらなるオペランドを有する。フィルタリング又は補間アプリケーションでは、例えば、SIMD命令は、好ましくは、N個の積の和を計算する。この場合、N個の和がさらなるオペランドレジスタから提供されてもよい。あるいは、このような和は、算術回路により包含されるアキュミュレータレジスタから提供可能であるが、これは、SIMD命令が利用可能なフレキシビリティを制限する。
【0015】
このタイプのSIMD命令によると、例えば、いくつかのポジションに対するオペランド値a[]のアレイから、
【0016】
【数1】
などの結果r[i]のアレイをパラレル計算することが可能となる。他のオペランド又はオフセットが利用されるこのタイプの命令の他の実行に対する入力値sとして結果rを利用することによって、より大きなサポート領域(結果に影響を与える位置の領域)を有する補間又はフィルタリング処理が、最小数の命令により処理回路に対してプログラムにより実現可能である。
【0017】
さらに、命令セットはまた、好ましくは、従来のSIMD命令を有するようにしてもよく、これに応答して、算術回路はN個の同一の処理をパラレルに実行する。各算術回路は、さらなるSIMD命令によって選択されるレジスタの第1のレジスタからの各自の第1オペランドと、さらなるSIMD命令によって選択されるレジスタの第2レジスタからの各自の第2オペランドとを利用する。
【発明の効果】
【0018】
本発明によると、アライメント距離の整数倍でないアドレス距離によりメモリに格納されているオペランドを利用して、SIMD処理を実行するため必要とされる命令数の低減をサポートする命令セットを有するプログラマブルプロセッサを提供することができる。
【0019】
本発明によると、特に選択可能なアラインされていないアドレス距離によりメモリに格納されているオペランドを利用してSIMD処理を実行するため必要とされる命令数の低減をサポートする命令セットを有するプログラマブルプロセッサを提供することができる。
【0020】
本発明の上記及び他の課題及び効果的特徴が、以下の図面に示される非限定的な具体例を用いてより詳細に説明される。
【発明を実施するための形態】
【0022】
図1は、本発明が実現可能なデータ処理回路の一例を示す。データ処理回路は、命令発行回路10と、複数の機能ユニット12a及び12bと、レジスタファイル14と、データメモリ16とを有する。命令発行回路10は、レジスタファイル14のアドレスポートと機能ユニット12a及び12bとに接続される発行スロット出力11a及び11bを有する。機能ユニット12a及び12bは、レジスタファイルに接続されるオペランド/結果通信ライン13a及び13bを有する。第1機能ユニット12aは、データメモリ16に接続されるアドレス/データインタフェース15を有する。
【0023】
動作について、命令発行回路10は、発行スロット11a及び11bを介し命令を発行する。各命令は、機能ユニット12a及び12bに供給されるオペレーションコードと、レジスタファイル14に供給される少なくとも1つのオペランドレジスタアドレスと、レジスタファイル14に供給される少なくとも1つの結果レジスタアドレスとを有する。オペランドレジスタアドレスに応答して、レジスタファイル14は、アドレス指定されたレジスタからオペランドデータを読み込み、当該オペランドデータを命令を実行する機能ユニット12a及び12bに供給する。オペレーションコードに応答して、機能ユニット12a及び12bは、オペランドデータを入力として利用して選択された処理を実行する。機能ユニット12a及び12bは、結果レジスタアドレスによってアドレス指定されたレジスタに結果データを格納するレジスタファイル14に、処理の結果を結果データとして書き込む。
【0024】
図のデータ処理回路の構成は単なる一例であり、他の多数の構成が利用可能であるということが強調されるべきである。あるアーキテクチャの処理回路が本発明を説明するのに利用されたが、処理回路は本発明を実現するのに利用可能な処理回路の単なる一例であり、何れかのケースでは、最小限の詳細のみが示されることが理解されるべきである。例えば、2つの発行スロット11a及び11bと2つの機能ユニット12a及び12bとを有する処理回路が示されているが、より多く又はより少ない発行スロット及び/又は機能ユニットが利用可能であるということが理解されるべきである。他の例として、簡単化のためパイプライン処理については記載しないが、各命令の各処理部分が重複し、命令の各部分が異なる時点に発行されるように、典型的には、パイプライン処理が利用されるということが理解されるべきである。さらに、独立した機能ユニットが独立した発行スロットに接続されるよう示されているが、これらの機能ユニットの1以上が適切な命令を受け付けると、アクティブ状態となるように、これらの機能ユニットの機能は単一の機能ユニットに合成され、又は各機能ユニットは同一の発行ユニットに接続可能であることが理解されるべきである。さらに、簡単化のため、1つのレジスタファイル14しか示されていないが、実際には、レジスタファイルは、おそらく互いの異なるビット幅のレジスタを有する複数のレジスタファイルなどを有する何れかのレジスタセットを表すかもしれないということが理解されるべきである。発行スロットの各フィールドは、これらのレジスタファイルの異なるレジスタファイルをアドレス指定するかもしれない。さらに、各部分の間の接続を示すのに1つのラインが示されているが、各ラインは、一般には複数のビットをパラレルに供給する複数のコンダクタを表していることが理解されるべきである。
【0025】
第1機能ユニット12aは、データメモリ16へのアクセス処理を実行することによって、オペレーションコードに応答するメモリアクセスユニットである。例えば、リードオペレーションコードに応答して、機能ユニット12aは、アドレスとリードコントロール信号をメモリに供給し、当該アドレスからメモリが読み込んだデータを受け取り、当該データをレジスタファイル14に書き込むかもしれない。ライトオペレーションコードに応答する他の例として、機能ユニット12aは、アドレスを供給し、データとライトコントロール信号をメモリに書き込み、ライトデータはレジスタファイル14から受け付けされるオペランドデータであってもよい。この結果、データメモリ16は、当該アドレスによってアドレス指定された位置にライトデータを格納する。典型的には、メモリアクセスユニットは、連続するアラインしたアドレスの間の距離が、1つのレジスタに一緒にロード可能なメモリ位置の個数に対応するように、アラインしたアドレスと呼ばれる選択されたアドレスから始まるレジスタにデータをロード可能な高速ロード及び/又はストア命令をサポートする。
【0026】
第2機能ユニット12bは、各種SIMD(Single Instruction Multiple Data)命令を実行可能な算術プロセッサを有する。
【0027】
図2は、このような算術プロセッサの実施例を示す。この実施例では、機能ユニット12bは、2つのオペランド入力20a及び20bの入力接続22a及び22bと、オペランド分配回路24と、複数の算術回路26a〜26dと、出力接続28と、結果出力29とを有する。典型的には、入力20a及び20bはそれぞれ、レジスタファイル14(図示せず)に機能的にパラレルに接続される複数のコンダクタを有する。32又は64個のコンダクタが、各入力20a及び20bなどに対してパラレルに利用されるかもしれない。入力接続22a及び22bは、実際の回路に対応している必要はなく、入力20a及び20bが複数のオペランドに分割されるものとして処理可能であることを示すため単に示されている。32ビット入力20a及び20bは、例えば、各8ビットの4つのオペランドに分割されてもよく、又は64ビット入力20a及び20bは、例えば、各8ビットの8つのオペランド又は各16ビットの4つのオペランドに分割されてもよい。典型的には、各入力20a及び20bは、オペランド分配回路24の入力に提供される各オペランドのグループに分割可能な複数のコンダクタをパラレルに表す。
【0028】
オペランド分配回路24は、算術回路26a〜26dの各入力に接続される出力を有する。算術回路26a〜26dは、出力接続28に接続される出力を有し、さらに、出力接続28は、結果出力29に接続される出力を有する。出力接続28はまた、出力29が複数の結果に分割されるものとして処理可能であることを示すため単に示される。典型的には、各算術回路26a〜26dの出力は、出力29に合成可能な複数のコンダクタをパラレルに表す。32又は64個のコンダクタは、出力29などについてパラレルに利用可能である。32ビット出力29は、例えば、各算術回路26a〜26dからの各8ビットの4つの結果に分割されてもよく、又は64ビット出力29は、例えば、各算術回路26a〜26dからの各8ビットの8つのオペランド(図示せず)又は各算術回路26a〜26dからの各16ビットの4つの結果に分割されてもよい。
【0029】
命令発行回路10(図示せず)からオペレーションコードを受け付ける入力27は、各算術回路26a〜26dとオペランド分配回路24とに接続される。SIMD処理について、各算術回路26a〜26dは、それの入力オペランドに対して同一の処理を実行することによって応答する。従来のSIMD命令の実行については、オペランド分配回路24は、第1入力20aの各ポジションから算術回路26a〜26dの第1入力にオペランドを提供することによって、そして、第2入力20bの各ポジションから算術回路26a〜26dの第1入力に対応するオペランドを提供することによって、このような従来のSIMD命令を選択するオペレーションコードに応答するよう構成される。
【0030】
図3は、このような従来のSIMD命令に対するデータフローを示す。ここでは、各レジスタからの入力30a及び30bは、各オペランドに対応するフィールドに分割されるよう示されている。丸印32は処理を表し、フィールドと処理の間の矢印はデータフローを表す。このSIMD命令は、例えば、
【0031】
【数2】
などのアセンブリ言語表現によるベクトルADD命令とすることが可能である。
【0032】
ここでは、“ADDVECTOR”は、実行される必要がある処理を特定するオペレーションコードを表し、R1及びR2は、各レジスタが複数のオペランドとして処理されるコンテンツを有するレジスタのアドレスを表す。命令は複数の加算を実行することによって実行され、第1加算は、R1及びR2によりアドレス指定されるレジスタの第1ポジションからのオペランドを加算し、第2加算は、R1及びR2などによってアドレス指定されるレジスタの第2ポジションからのオペランドを加算する。R3は、複数の結果の和が命令に応答して格納されるレジスタのアドレスを表す。もちろん、減算、乗算などの他の処理に対して、同様の従来のSIMD命令が可能である。
【0033】
【数3】
図4aは、本発明によるSIMD命令の一例に対するデータフローを示す。この例では、第1入力30aの第1及び第2フィールドからのオペランドを利用して、処理が実行され、同一の処理が第1入力30aの第2及び第3フィールドからのオペランドを利用して実行し、同一の処理が、第1入力30aの第3及び第4フィールドからのオペランドを利用して実行され、同一の処理が、第1入力30aの第4フィールドと第2入力30bの第1フィールドからのオペランドを利用して実行される。SIMD命令は、
【0034】
【数4】
などの加算命令であってもよい。
【0035】
ここでは、R1によりアドレス指定されるレジスタの隣接ポジションのペアからのオペランドが加算され、R2によりアドレス指定されるレジスタは、R1によりアドレス指定されるレジスタの拡張として処理される。これらの加算の結果は、R3によりアドレス指定されるレジスタに格納される。もちろん、減算、乗算、MAC(Multiply Accumulate)処理などの他の処理の対する他の命令が、レジスタの隣接位置のペアからのオペランドについて可能である。
【0036】
【数5】
オペランド分配回路24は、オペランドの分配を実現する。従来タイプのSIMD命令を選択した入力27からのオペレーションコードに応答して、オペランド分配回路24は、
図3のデータフローに従って当該オペランドを算術回路26a〜26dに転送する。新しいタイプのSIMD命令を選択した入力27からのオペレーションコードに応答して、オペランド分配回路24は、
図4aのデータフローに従って算術回路26a〜26dに当該オペランドを転送する。
【0037】
本発明は
図4aに示されるタイプのデータフローに限定されるものでないということが、理解されるべきである。他の命令に応答して、オペランド分配回路24は、
図4bまたh4cに示されるデータフローを提供するようにしてもよい。
図4bは、SIMD命令のオペレーションコードに対する応答を示し、そこでは、算術回路26a及び26bが、第1入力の第1、第2、第3及び第4フィールドからそれらの第1オペランドをそれぞれ受け取り、第1入力の第4フィールドと、第2入力の第1、第2及び第3フィールドから第2オペランドをそれぞれ受け取る。このような命令は、
【0038】
【数6】
などのアセンブリ言語表現を有することが可能である。
【0039】
ここでは、オペレーションコードADD14又はMAC14は、処理とR1によりアドレス指定されるレジスタの第1オペランドのポジションとを示す。
【0040】
図4cは、SIMD命令のオペレーションコードに対する応答を示し、ここでは、算術回路26a及び26bは、第1入力の第2、第3及び第4フィールドと、第2入力の第1フィールドからそれぞれそれらの第1オペランドを受け取り、また第1入力の第3及び第4フィールドと、第2入力の第1及び第2フィールドとからそれぞれ第2オペランドを受け取る。
【0042】
【数7】
などのアセンブリ言語表現を有することが可能である。
【0043】
もちろん、同一の処理のすべてのポジションの組み合わせに対してオペレーションコードが必要となるわけでない。プログラムにおいて頻繁に必要とされる組み合わせのみを提供すれば十分であるかもしれない。
【0044】
ここまで与えられた例では、オペランド分配回路24は、命令発行回路10からのオペレーションコードの制御の下、フィールドからオペランドを選択する。あるいは、当該選択は、レジスタファイル14から受け付けたさらなるオペランドからのオペレーションコードの制御の下、又は命令発行回路10からのオペレーションコードとそのようなオペランドの組み合わせの制御の下、実行されてもよい。
【0045】
図5は、レジスタファイル14(図示せず)に接続されるさらなるオペランド入力50を有する機能ユニット12bの実施例を示す。本実施例では、命令発行回路10により発行される命令は、命令発行回路10がレジスタファイル14に供給するさらなるオペランドレジスタ選択アドレスを有する。このような命令の具体例のアセンブリ言語表現は、例えば、
【0047】
ここで、レジスタアドレスRpは、さらなるオペランドを提供するレジスタのアドレスを指定する。
【0048】
本実施例では、オペランド分配回路24は、さらなるオペランド入力50からのさらなるオペランドと、命令発行回路10からのオペレーションコードとの組み合わせの制御の下、オペランドの選択を実行する。本実施例では、オペレーションコードは、従来のフロー(
図3に示されるような)が必要であるか、またさらなるオペランド入力50からのさらなるオペランドがどのオペランド選択を利用するか制御しないか示すのに利用されてもよい。
【0049】
一例では、さらなるオペランドは、第1入力30aからのオペランドに対して第1フィールドを選択し、オペランド分配回路24は、当該フィールドからスタートして、第1入力30aのフィールドに続き、第2入力30bの第1フィールドから継続する各算術回路26a〜26dに対して4つの第1フィールドを選択する。この場合、オペランド分配回路24は、第1入力30aの選択されたフィールドに続く次のフィールドからスタートし、存在する場合には、第1入力30aのフィールドに続き、第2入力30bの第1フィールドから継続する各算術回路26a〜26dに対して4つの第2オペランドを選択するよう構成されてもよい。このようにして、例えば、
図4cのデータフローが選択されるかもしれない。この場合、さらなるオペランドは、例えば、0,1,2,3などの4つの値の1つを有し、各値は異なるポジションを示す。この場合、このためには、さらなるオペランドの2ビットで十分である。
【0050】
他の例では、オペランド分配回路24は、2つのさらなるオペランドから、又は上記さらなるオペランドの制御の下、2つのスタートオペランドのポジションの独立した選択を行うよう構成されてもよい。従って、例えば、さらなるオペランドは、第1フィールドが第1又は第2入力の第1フィールドを選択するためのものであり、第2フィールドが第1又は第2入力の第2フィールドを選択するためのものである2つのフィールドを有するかもしれない。この場合、オペランド分配回路24は、存在する場合には、第1入力30aの第1フィールドからスタートし、第2入力30bの第1フィールドから継続する各算術回路26a〜26dに対して4つの第1オペランドを選択するよう構成されてもよい。同様に、オペランド分配回路24は、存在する場合には、第1入力30aの第2フィールドからスタートし、第2入力30bの第1フィールドから継続する各算術回路26a〜26dに対して4つの第2オペランドを選択するよう構成されてもよい。このようにして、
図4bのデータフローは、さらなるオペランドの第1フィールドが第1入力の第1フィールドを選択し、さらなるオペランドの第2フィールドが第1入力の第4フィールドを選択する場合に実現されるかもしれない。この場合、このためには、各フィールドについてさらなるオペランドの2ビットが2回あれば十分である。
【0051】
さらなる実施例では、さらなるオペランドは、各オペランドの独立した選択のための選択フィールドを有するかもしれない。従って、各レジスタがN個のオペランドを有するものとして処理される場合、さらなるレジスタは、オペランドを選択するため、各
2logNビットの2Nフィールドを有するようにしてもよい。しかしながら、実際のプログラムについては、第1処理の第1オペランドについて1つのオフセットのみを選択し(残りのオペランドは、連続するポジションから選択される)、又は第1処理の第1及び第2オペランドに対して2つのオフセットのみを選択し(残りのオペランドは、連続するポジションから選択される)、より少ない選択で十分であるということが判明した。
【0052】
図6は、制限されたオペランド選択のみが使用されるときに利用可能な簡単化された機能ユニットの一部を示す。そこでは、最後の算術回路26d以外の各算術回路の第2オペランドが、次の算術回路の第1オペランドとして供される。このようにして、オペランド分配回路24をかなり簡単化することができる。オペランド分配回路24は、例えば、各マルチプレクサが算術回路26dの各オペランド入力と選択可能な入力とを選択可能に接続するマルチプレクサセットとして実現されてもよい。しかしながら、本発明の他の実現形態が可能である。例えば、複数の算術回路26a〜26dが、このタイプの命令によりアドレス指定されるレジスタからの所定のフィールドからのオペランドデータを利用する1つのタイプの命令のみを実行するため設けられてもよい。この場合、算術回路の入力は、アドレス指定されたレジスタのコンテンツの所定部分を受け付けるよう配線されてもよく、算術回路は、当該命令がこのタイプのものであることを示すオペレーションコードに応答して、当該結果を結果レジスタに書き込むよう起動される。この場合、オペランド分配回路24は、関連する配線接続より多く有する必要はない。
【0053】
図7は、すべての算術回路26a〜26dに共通に提供されるさらなるオペランドデータが提供可能なさらなる入力60が提供されるさらなる実施例を示す。この場合、機能ユニットの命令は、
【0054】
【数9】
などのアセンブリ言語表現を有するようにしてもよい。
【0055】
ここでは、Rcは、算術回路26a〜26dについて共通のさらなるオペランドによるレジスタのアドレスを示す。このさらなるオペランドデータは、例えば、フィルタ係数を表すものであるかもしれない。一実施例では、このような命令は、
【0056】
【数10】
の計算を実現するのに利用可能である。
【0057】
ここでは、a[0],a[1],a[2],a[3],a[4]などは、R1及びR2によりアドレス指定されるレジスタの各フィールドに格納されているオペランドデータを表す。(R2によりアドレス指定されるレジスタは、R1によりアドレス指定されるレジスタも拡張として扱われる。)オペランド“offset”は、Rpによりアドレス指定されるレジスタから取得され、R1及びR2によりアドレス指定されるレジスタのスタートフィールドポジションを示す。各算術回路26a〜26dは、b[0],b[1],b[2],b[3]のそれぞれを計算し、これらの結果は、R3によりアドレス指定されるレジスタの各フィールド(部分)に書き込まれる。
【0058】
本実施例では、Rcによりアドレス指定されるレジスタは、各算術回路26a〜26dに供給される係数w0及びw1を有する。他の実施例では、オペランド分配回路24を制御するオペランドと、算術回路26a〜26dに共通に提供されるオペランドとは、1つのさらなるオペランドから取得されるかもしれない。例えば、32ビットのレジスタの場合、2つの8ビット係数と2ビットオフセット選択とが、
【0059】
【数11】
の1つのオペランドの各フィールドから提供されるかもしれない。
【0060】
ここでは、ポジション及び係数情報は、Rpcによりアドレス指定されるレジスタからの1オペランドにより合成されて供給されると仮定される。当該フィールドは、Rsのコンテンツによって選択される。
【0061】
図8は、機能ユニットのさらなる実施例を示す。ここでは、追加的なオペランド接続70が加えられ、当該追加的オペランド接続70から各算術回路26a〜26dに各オペランドを提供する入力72に接続される。さらに、追加的な結果接続74が出力接続28に加えられた。この機能ユニットは、例えば、命令に応答して、
【0062】
【数12】
の計算を実行するのに利用可能である。
【0063】
これは、レジスタの連続する隣接フィールドからのオペランドを利用した乗算加算命令である。
【0064】
図9は、積w0*a[..]及びw1*a[..]を計算する乗算器90a及び90bと加算回路92とを有する上記目的に利用可能な算術回路26を示す。
【0065】
本例では、機能ユニットは、加数(summand)s[..]と積w0*a[..]及びw1*a[..]の各和を出力する。各算術回路26a〜26dの加数s[..]は、Rsによりアドレス指定されるレジスタの所定のフィールドから取得され、共通の係数は、R1及びR2によりアドレス指定されるレジスタの各フィールドから取得される。これらのオペランドが求められるポジションは、Rpcによりアドレス指定されるレジスタからのオフセット情報により制御される。各算術回路26a〜26dからの結果は合成され、R3によりアドレス指定されるレジスタに書き込まれる。
【0066】
好ましくは、結果が格納されるレジスタ(R3)は、オペランドa[..]を提供するのに利用されるレジスタ(R1,R2)のものの少なくとも2倍の長さを有する。これは、精度のロスなく2Mビットが2つのMビット数の積を表すのに必要とされる事実を考慮するため利用される。累積が利用される場合(ある数の積への加算)、さらに多くのビット、例えば、2M+2ビットなどが必要とされるかもしれない。この幅は、結果の関連する幅に従って選択されてもよい。従って、例えば、4つの8ビットオペランドa[..](M=8)が32ビット入力レジスタ(R1,R2)から供給される場合、好ましくは、64ビット出力レジスタ(R3)が、4つの16ビット結果(M=16)を格納するのに利用される。さらに、命令に応答して、当該結果はまた、好ましくは、入力レジスタ(R1,R2)と同じ幅を有するさらなる結果レジスタR4の丸められた精度により格納される。このさらなる結果レジスタでは、各結果b[..]の一部のみが、例えば、ビットの上位1/2のみ、ビットの上位関連する1/2のみ、ビット4〜12など各結果からのいくつかの所定のポジションからのビットなどが格納される。好ましくは、和s[..]を提供するのに利用されるレジスタ(Rs)はまた、オペランドa[..]を供給するのに用いられるレジスタ(R1,R2)のものの2倍の幅(ビット数)を有する。このことは、
【0067】
【数13】
の命令を利用して、多次元補間(2次元画像補間など)を実現するため利用されてもよい。
【0068】
ここでは、R1によりアドレス指定されるレジスタが、画像ラインに沿った隣接ピクセルポジションのN個(N=4など)のピクセル値(ピクセル値p[i,j],p[i+1,j],p[i+2,j],p[i+3,j]など(jはラインを表し、iはスタートピクセルポジションを表す))を有し、R2によりアドレス指定されるレジスタは、R1のものに続くポジションのピクセル値(ピクセル値p[i+4,j],p[i+5,j],p[i+6,j],p[i+7,j]など)を有すると仮定される。Rpc1によりアドレス指定されるレジスタは、2つの係数w00及びw01を有する。同様に、R1’及びR2’はそれぞれ、R1及びR2の画像ラインに隣接する次の画像ラインに沿った隣接するピクセルポジションのN個(N=4など)のピクセル値(それぞれピクセル値p[i,j+1],p[i+1,j+1],p[i+2,j+1],p[i+3,j+1]及びp[i+4,j+1],p[i+5,j+1],p[i+6,j+1],p[i+7,j+1]など)を有する。Rpc2によりアドレス指定されるレジスタは、2つの係数w10及びw11を有する。Rsによりアドレス指定されるレジスタは、ゼロの値を有する。この場合、上記2つの処理の後に、R3によりアドレス指定されるレジスタの結果は、
【0070】
このため、4つの4ピクセル補間が2つの命令を実行することによって実行された。完全な画像を補間するため、これは連続するピクセルグループのロードと共に繰り返されてもよい。
【0071】
好ましくは、機能ユニットはさらに、例えば、Rpc1及びRpc2によりアドレス指定されるレジスタのオペランドの一部として、オフセットを規定する少なくとも1つのオペランドをサポートする。このようにして、R1,R2,R1’,R2’によりアドレス指定されるレジスタのスタートピクセル値p[i+0,j]及びp[i+0,j+1]のポジションは、プログラムの制御の下で選択可能である。このことは、アラインされたアドレスを利用したロード処理と共にさらなる再アライメントなしに、データメモリの任意のアドレスからスタートして格納されているピクセル値に対する結果を生成することを可能にする。従って、例えば、あるラインに沿ったピクセル系列が、
【0072】
【数15】
の命令を利用して処理することが可能である。
【0073】
ここでは、隣接するメモリ位置のグループからのピクセル値が、R1,R2,R1’,R2’によりアドレス指定されるレジスタにロードされ、(MAC命令により)4つの補間された結果のグループを生成するのに利用される。ここで、第1補間結果を生成するのに利用されるレジスタR1及びR2から利用される第1ピクセルのオフセットは、Rpc1によりアドレス指定されるレジスタにより制御される。隣接メモリ位置の次のグループからの次のピクセル値がR1(及びR1’)にロードされ、R1及びR2の役割が補間命令(MAC)において交換される。この後、ループが繰り返される。
【0074】
このプログラムのメモリアクセス命令(LOAD及びSTORE)はすべてアラインされたアドレスを利用することが理解されるべきである。従って、アラインされていないスタートアドレスからスタートして格納されているピクセルデータの補間が容易になる。このことは、特に画像の任意に選択可能なポジションからスタートする相対的に小さなウィンドウにおいて補間が要求される場合、スピードを増大させる。
【0075】
本発明のアプリケーションが2次元画像処理について説明されたが、本発明が当該アプリケーションに限定されないということが理解されるべきである。本発明はまた、1次元アレイ処理又は3次以上のアレイ処理にも適用可能である。さらに、係数とピクセルの積の和に関するSIMD命令へのアプリケーションが説明されたが、他の命令も利用可能であるということが理解されるべきである。
【0076】
本発明によると、処理回路は、それの命令セットに新規な命令を含むよう構成される。周知なように、プロセッサの命令セットの仕様は、一般には何れの実現形態がプロセッサを実現するのに利用可能であるか当業者に通知すれば十分である。命令セットは、プロセッサに対するマシーンプログラムに含めることが可能な各種命令タイプを規定する。(ここで使用される「命令」とは、最終的に命令でない部分とならず、プログラムが分割可能な最小ユニットであるマシーンプログラムの“アトム”を表す。)本発明による処理回路の命令セットは、各々が複数の潜在的なオペランドを有するレジスタからのオペランドを利用して、同一タイプの処理をパラレルに実行することによって複数の結果が生成されるという意味において、処理回路にSIMD処理を実行させる命令を有する。パラレルに実行される処理は、オペランド系列の重複を利用する。好ましくは、命令は、オペランドが取得する必要があるレジスタのポジションを示すさらなるオペランドを有する。あるいは、異なるオペレーションコードが、異なるポジションを示す。