(58)【調査した分野】(Int.Cl.,DB名)
前記命令実行回路は、前記第1レジスタと前記第2レジスタの両方の各自の部分から少なくとも前記オペランドの第2系列を抽出するよう構成される、請求項1記載のデータ処理回路。
前記命令実行回路は、プログラム制御の下、前記第1レジスタと前記第2レジスタの内部において前記第1系列のポジションを少なくとも選択するよう構成される、請求項1記載のデータ処理回路。
前記命令実行回路は、前記所定のポジションが前記第1系列のポジションのプログラムされた選択によって影響を受けないように、プログラム制御の下、前記第1レジスタと前記第2レジスタの内部において前記第1系列の少なくとも1つのポジションを選択するよう構成される、請求項7記載のデータ処理回路。
前記命令実行回路は、前記命令によって選択された前記追加的レジスタからのデータの制御の下、前記第1レジスタと前記第2レジスタとの内部における前記第1系列のポジションを少なくとも選択するよう構成される、請求項9記載のデータ処理回路。
【発明を実施するための最良の形態】
【0019】
図1は、本発明が実現可能なデータ処理回路の一例を示す。データ処理回路は、命令発行回路10と、複数の機能ユニット12a及び12bと、レジスタファイル14と、データメモリ16とを有する。命令発行回路10は、レジスタファイル14のアドレスポートと機能ユニット12a及び12bとに接続される発行スロット出力11a及び11bを有する。機能ユニット12a及び12bは、レジスタファイルに接続されるオペランド/結果通信ライン13a及び13bを有する。第1機能ユニット12aは、データメモリ16に接続されるアドレス/データインタフェース15を有する。
【0020】
動作について、命令発行回路10は、発行スロット11a及び11bを介し命令を発行する。各命令は、機能ユニット12a及び12bに供給されるオペレーションコードと、レジスタファイル14に供給される少なくとも1つのオペランドレジスタアドレスと、レジスタファイル14に供給される少なくとも1つの結果レジスタアドレスとを有する。オペランドレジスタアドレスに応答して、レジスタファイル14は、アドレス指定されたレジスタからオペランドデータを読み込み、当該オペランドデータを命令を実行する機能ユニット12a及び12bに供給する。オペレーションコードに応答して、機能ユニット12a及び12bは、オペランドデータを入力として利用して選択された処理を実行する。機能ユニット12a及び12bは、結果レジスタアドレスによってアドレス指定されたレジスタに結果データを格納するレジスタファイル14に、処理の結果を結果データとして書き込む。
【0021】
図のデータ処理回路の構成は単なる一例であり、他の多数の構成が利用可能であるということが強調されるべきである。あるアーキテクチャの処理回路が本発明を説明するのに利用されたが、処理回路は本発明を実現するのに利用可能な処理回路の単なる一例であり、何れかのケースでは、最小限の詳細のみが示されることが理解されるべきである。例えば、2つの発行スロット11a及び11bと2つの機能ユニット12a及び12bとを有する処理回路が示されているが、より多く又はより少ない発行スロット及び/又は機能ユニットが利用可能であるということが理解されるべきである。他の例として、簡単化のためパイプライン処理については記載しないが、各命令の各処理部分が重複し、命令の各部分が異なる時点に発行されるように、典型的には、パイプライン処理が利用されるということが理解されるべきである。さらに、独立した機能ユニットが独立した発行スロットに接続されるよう示されているが、これらの機能結いニットの1以上が適切な命令を受け付けると、アクティブ状態となるように、これらの機能ユニットの機能は単一の機能ユニットに合成され、又は各機能ユニットは同一の発行ユニットに接続可能であることが理解されるべきである。さらに、簡単化のため、1つのレジスタファイル14しか示されていないが、実際には、レジスタファイルは、おそらく互いの異なるビット幅のレジスタを有する複数のレジスタファイルなどを有する何れかのレジスタセットを表すかもしれないということが理解されるべきである。発行スロットの各フィールドは、これらのレジスタファイルの異なるレジスタファイルをアドレス指定するかもしれない。さらに、各部分の間の接続を示すのに1つのラインが示されているが、各ラインは、一般には複数のビットをパラレルに供給する複数のコンダクタを表していることが理解されるべきである。
【0022】
第1機能ユニット12aは、データメモリ16へのアクセス処理を実行することによって、オペレーションコードに応答するメモリアクセスユニットである。例えば、リードオペレーションコードに応答して、機能ユニット12aは、アドレスとリードコントロール信号をメモリに供給し、当該アドレスからメモリが読み込んだデータを受け取り、当該データをレジスタファイル14に書き込むかもしれない。ライトオペレーションコードに応答する他の例として、機能ユニット12aは、アドレスを供給し、データとライトコントロール信号をメモリに書き込み、ライトデータはレジスタファイル14から受け付けされるオペランドデータであってもよい。この結果、データメモリ16は、当該アドレスによってアドレス指定された位置にライトデータを格納する。典型的には、メモリアクセスユニットは、連続するアラインしたアドレスの間の距離が、1つのレジスタに一緒にロード可能なメモリ位置の個数に対応するように、アラインしたアドレスと呼ばれる選択されたアドレスから始まるレジスタにデータをロード可能な高速ロード及び/又はストア命令をサポートする。
【0023】
第2機能ユニット12bは、各種SIMD(Single Instruction Multiple Data)命令を実行可能な算術プロセッサを有する。
【0024】
図2は、このような算術プロセッサの実施例を示す。この実施例では、機能ユニット12bは、2つのオペランド入力20a及び20bの入力接続22a及び22bと、オペランド分配回路24と、複数の算術回路26a〜26dと、出力接続28と、結果出力29とを有する。典型的には、入力20a及び20bはそれぞれ、レジスタファイル14(図示せず)に機能的にパラレルに接続される複数のコンダクタを有する。32又は64個のコンダクタが、各入力20a及び20bなどに対してパラレルに利用されるかもしれない。入力接続22a及び22bは、実際の回路に対応している必要はなく、入力20a及び20bが複数のオペランドに分割されるものとして処理可能であることを示すため単に示されている。32ビット入力20a及び20bは、例えば、各8ビットの4つのオペランドに分割されてもよく、又は64ビット入力20a及び20bは、例えば、各8ビットの8つのオペランド又は各16ビットの4つのオペランドに分割されてもよい。典型的には、各入力20a及び20bは、オペランド分配回路24の入力に提供される各オペランドのグループに分割可能な複数のコンダクタをパラレルに表す。
【0025】
オペランド分配回路24は、算術回路26a〜26dの各入力に接続される出力を有する。算術回路26a〜26dは、出力接続28に接続される出力を有し、さらに、出力接続28は、結果出力29に接続される出力を有する。出力接続28はまた、出力29が複数の結果に分割されるものとして処理可能であることを示すため単に示される。典型的には、各算術回路26a〜26dの出力は、出力29に合成可能な複数のコンダクタをパラレルに表す。32又は64個のコンダクタは、出力29などについてパラレルに利用可能である。32ビット出力29は、例えば、各算術回路26a〜26dからの各8ビットの4つの結果に分割されてもよく、又は64ビット出力29は、例えば、各算術回路26a〜26dからの各8ビットの8つのオペランド(図示せず)又は各算術回路26a〜26dからの各16ビットの4つの結果に分割されてもよい。
【0026】
命令発行回路10(図示せず)からオペレーションコードを受け付ける入力27は、各算術回路26a〜26dとオペランド分配回路24とに接続される。SIMD処理について、各算術回路26a〜26dは、それの入力オペランドに対して同一の処理を実行することによって応答する。従来のSIMD命令の実行については、オペランド分配回路24は、第1入力20aの各ポジションから算術回路26a〜26dの第1入力にオペランドを提供することによって、そして、第2入力20bの各ポジションから算術回路26a〜26dの第1入力に対応するオペランドを提供することによって、このような従来のSIMD命令を選択するオペレーションコードに応答するよう構成される。
【0027】
図3は、このような従来のSIMD命令に対するデータフローを示す。ここでは、各レジスタからの入力30a及び30bは、各オペランドに対応するフィールドに分割されるよう示されている。丸印32は処理を表し、フィールドと処理の間の矢印はデータフローを表す。このSIMD命令は、例えば、
【0028】
【数2】
などのアセンブリ言語表現によるベクトルADD命令とすることが可能である。
【0029】
ここでは、“ADDVECTOR”は、実行される必要がある処理を特定するオペレーションコードを表し、R1及びR2は、各レジスタが複数のオペランドとして処理されるコンテンツを有するレジスタのアドレスを表す。命令は複数の加算を実行することによって実行され、第1加算は、R1及びR2によりアドレス指定されるレジスタの第1ポジションからのオペランドを加算し、第2加算は、R1及びR2などによってアドレス指定されるレジスタの第2ポジションからのオペランドを加算する。R3は、複数の結果の和が命令に応答して格納されるレジスタのアドレスを表す。もちろん、減算、乗算などの他の処理に対して、同様の従来のSIMD命令が可能である。
【0030】
【数3】
図4aは、本発明によるSIMD命令の一例に対するデータフローを示す。この例では、第1入力30aの第1及び第2フィールドからのオペランドを利用して、処理が実行され、同一の処理が第1入力30aの第2及び第3フィールドからのオペランドを利用して実行し、同一の処理が、第1入力30aの第3及び第4フィールドからのオペランドを利用して実行され、同一の処理が、第1入力30aの第4フィールドと第2入力30bの第1フィールドからのオペランドを利用して実行される。SIMD命令は、
【0031】
【数4】
などの加算命令であってもよい。
【0032】
ここでは、R1によりアドレス指定されるレジスタの隣接ポジションのペアからのオペランドが加算され、R2によりアドレス指定されるレジスタは、R1によりアドレス指定されるレジスタの拡張として処理される。これらの加算の結果は、R3によりアドレス指定されるレジスタに格納される。もちろん、減算、乗算、MAC(Multiply Accumulate)処理などの他の処理の対する他の命令が、レジスタの隣接位置のペアからのオペランドについて可能である。
【0033】
【数5】
オペランド分配回路24は、オペランドの分配を実現する。従来タイプのSIMD命令を選択した入力27からのオペレーションコードに応答して、オペランド分配回路24は、
図3のデータフローに従って当該オペランドを算術回路26a〜26dに転送する。新しいタイプのSIMD命令を選択した入力27からのオペレーションコードに応答して、オペランド分配回路24は、
図4aのデータフローに従って算術回路26a〜26dに当該オペランドを転送する。
【0034】
本発明は
図4aに示されるタイプのデータフローに限定されるものでないということが、理解されるべきである。他の命令に応答して、オペランド分配回路24は、
図4bまたh4cに示されるデータフローを提供するようにしてもよい。
図4bは、SIMD命令のオペレーションコードに対する応答を示し、そこでは、算術回路26a及び26bが、第1入力の第1、第2、第3及び第4フィールドからそれらの第1オペランドをそれぞれ受け取り、第1入力の第4フィールドと、第2入力の第1、第2及び第3フィールドから第2オペランドをそれぞれ受け取る。このような命令は、
【0035】
【数6】
などのアセンブリ言語表現を有することが可能である。
【0036】
ここでは、オペレーションコードADD14又はMAC14は、処理とR1によりアドレス指定されるレジスタの第1オペランドのポジションとを示す。
【0037】
図4cは、SIMD命令のオペレーションコードに対する応答を示し、ここでは、算術回路26a及び26bは、第1入力の第2、第3及び第4フィールドと、第2入力の第1フィールドからそれぞれそれらの第1オペランドを受け取り、また第1入力の第3及び第4フィールドと、第2入力の第1及び第2フィールドとからそれぞれ第2オペランドを受け取る。
【0038】
このような命令は、
【0039】
【数7】
などのアセンブリ言語表現を有することが可能である。
【0040】
もちろん、同一の処理のすべてのポジションの組み合わせに対してオペレーションコードが必要となるわけでない。プログラムにおいて頻繁に必要とされる組み合わせのみを提供すれば十分であるかもしれない。
【0041】
ここまで与えられた例では、オペランド分配回路24は、命令発行回路10からのオペレーションコードの制御の下、フィールドからオペランドを選択する。あるいは、当該選択は、レジスタファイル14から受け付けたさらなるオペランドからのオペレーションコードの制御の下、又は命令発行回路10からのオペレーションコードとそのようなオペランドの組み合わせの制御の下、実行されてもよい。
【0042】
図5は、レジスタファイル14(図示せず)に接続されるさらなるオペランド入力50を有する機能ユニット12bの実施例を示す。本実施例では、命令発行回路10により発行される命令は、命令発行回路10がレジスタファイル14に供給するさらなるオペランドレジスタ選択アドレスを有する。このような命令の具体例のアセンブリ言語表現は、例えば、
【0043】
【数8】
である。
【0044】
ここで、レジスタアドレスRpは、さらなるオペランドを提供するレジスタのアドレスを指定する。
【0045】
本実施例では、オペランド分配回路24は、さらなるオペランド入力50からのさらなるオペランドと、命令発行回路10からのオペレーションコードとの組み合わせの制御の下、オペランドの選択を実行する。本実施例では、オペレーションコードは、従来のフロー(
図3に示されるような)が必要であるか、またさらなるオペランド入力50からのさらなるオペランドがどのオペランド選択を利用するか制御しないか示すのに利用されてもよい。
【0046】
一例では、さらなるオペランドは、第1入力30aからのオペランドに対して第1フィールドを選択し、オペランド分配回路24は、当該フィールドからスタートして、第1入力30aのフィールドに続き、第2入力30bの第1フィールドから継続する各算術回路26a〜26dに対して4つの第1フィールドを選択する。この場合、オペランド分配回路24は、第1入力30aの選択されたフィールドに続く次のフィールドからスタートし、存在する場合には、第1入力30aのフィールドに続き、第2入力30bの第1フィールドから継続する各算術回路26a〜26dに対して4つの第2オペランドを選択するよう構成されてもよい。このようにして、例えば、
図4cのデータフローが選択されるかもしれない。この場合、さらなるオペランドは、例えば、0,1,2,3などの4つの値の1つを有し、各値は異なるポジションを示す。この場合、このためには、さらなるオペランドの2ビットで十分である。
【0047】
他の例では、オペランド分配回路24は、2つのさらなるオペランドから、又は上記さらなるオペランドの制御の下、2つのスタートオペランドのポジションの独立した選択を行うよう構成されてもよい。従って、例えば、さらなるオペランドは、第1フィールドが第1又は第2入力の第1フィールドを選択するためのものであり、第2フィールドが第1又は第2入力の第2フィールドを選択するためのものである2つのフィールドを有するかもしれない。この場合、オペランド分配回路24は、存在する場合には、第1入力30aの第1フィールドからスタートし、第2入力30bの第1フィールドから継続する各算術回路26a〜26dに対して4つの第1オペランドを選択するよう構成されてもよい。同様に、オペランド分配回路24は、存在する場合には、第1入力30aの第2フィールドからスタートし、第2入力30bの第1フィールドから継続する各算術回路26a〜26dに対して4つの第2オペランドを選択するよう構成されてもよい。このようにして、
図4bのデータフローは、さらなるオペランドの第1フィールドが第1入力の第1フィールドを選択し、さらなるオペランドの第2フィールドが第1入力の第4フィールドを選択する場合に実現されるかもしれない。この場合、このためには、各フィールドについてさらなるオペランドの2ビットが2回あれば十分である。
【0048】
さらなる実施例では、さらなるオペランドは、各オペランドの独立した選択のための選択フィールドを有するかもしれない。従って、各レジスタがN個のオペランドを有するものとして処理される場合、さらなるレジスタは、オペランドを選択するため、各
2logNビットの2Nフィールドを有するようにしてもよい。しかしながら、実際のプログラムについては、第1処理の第1オペランドについて1つのオフセットのみを選択し(残りのオペランドは、連続するポジションから選択される)、又は第1処理の第1及び第2オペランドに対して2つのオフセットのみを選択し(残りのオペランドは、連続するポジションから選択される)、より少ない選択で十分であるということが判明した。
【0049】
図6は、制限されたオペランド選択のみが使用されるときに利用可能な簡単化された機能ユニットの一部を示す。そこでは、最後の算術回路26d以外の各算術回路の第2オペランドが、次の算術回路の第1オペランドとして供される。このようにして、オペランド分配回路24をかなり簡単化することができる。オペランド分配回路24は、例えば、各マルチプレクサが算術回路26dの各オペランド入力と選択可能な入力とを選択可能に接続するマルチプレクサセットとして実現されてもよい。しかしながら、本発明の他の実現形態が可能である。例えば、複数の算術回路26a〜26dが、このタイプの命令によりアドレス指定されるレジスタからの所定のフィールドからのオペランドデータを利用する1つのタイプの命令のみを実行するため設けられてもよい。この場合、算術回路の入力は、アドレス指定されたレジスタのコンテンツの所定部分を受け付けるよう配線されてもよく、算術回路は、当該命令がこのタイプのものであることを示すオペレーションコードに応答して、当該結果を結果レジスタに書き込むよう起動される。この場合、オペランド分配回路24は、関連する配線接続より多く有する必要はない。
【0050】
図7は、すべての算術回路26a〜26dに共通に提供されるさらなるオペランドデータが提供可能なさらなる入力60が提供されるさらなる実施例を示す。この場合、機能ユニットの命令は、
【0051】
【数9】
などのアセンブリ言語表現を有するようにしてもよい。
【0052】
ここでは、Rcは、算術回路26a〜26dについて共通のさらなるオペランドによるレジスタのアドレスを示す。このさらなるオペランドデータは、例えば、フィルタ係数を表すものであるかもしれない。一実施例では、このような命令は、
【0053】
【数10】
の計算を実現するのに利用可能である。
【0054】
ここでは、a[0],a[1],a[2],a[3],a[4]などは、R1及びR2によりアドレス指定されるレジスタの各フィールドに格納されているオペランドデータを表す。(R2によりアドレス指定されるレジスタは、R1によりアドレス指定されるレジスタも拡張として扱われる。)オペランド“offset”は、Rpによりアドレス指定されるレジスタから取得され、R1及びR2によりアドレス指定されるレジスタのスタートフィールドポジションを示す。各算術回路26a〜26dは、b[0],b[1],b[2],b[3]のそれぞれを計算し、これらの結果は、R3によりアドレス指定されるレジスタの各フィールド(部分)に書き込まれる。
【0055】
本実施例では、Rcによりアドレス指定されるレジスタは、各算術回路26a〜26dに供給される係数w0及びw1を有する。他の実施例では、オペランド分配回路24を制御するオペランドと、算術回路26a〜26dに共通に提供されるオペランドとは、1つのさらなるオペランドから取得されるかもしれない。例えば、32ビットのレジスタの場合、2つの8ビット係数と2ビットオフセット選択とが、
【0056】
【数11】
の1つのオペランドの各フィールドから提供されるかもしれない。
【0057】
ここでは、ポジション及び係数情報は、Rpcによりアドレス指定されるレジスタからの1オペランドにより合成されて供給されると仮定される。当該フィールドは、Rsのコンテンツによって選択される。
【0058】
図8は、機能ユニットのさらなる実施例を示す。ここでは、追加的なオペランド接続70が加えられ、当該追加的オペランド接続70から各算術回路26a〜26dに各オペランドを提供する入力72に接続される。さらに、追加的な結果接続74が出力接続28に加えられた。この機能ユニットは、例えば、命令に応答して、
【0059】
【数12】
の計算を実行するのに利用可能である。
【0060】
これは、レジスタの連続する隣接フィールドからのオペランドを利用した乗算加算命令である。
【0061】
図9は、積w0*a[..]及びw1*a[..]を計算する乗算器90a及び90bと加算回路92とを有する上記目的に利用可能な算術回路26を示す。
【0062】
本例では、機能ユニットは、加数(summand)s[..]と積w0*a[..]及びw1*a[..]の各和を出力する。各算術回路26a〜26dの加数s[..]は、Rsによりアドレス指定されるレジスタの所定のフィールドから取得され、共通の係数は、R1及びR2によりアドレス指定されるレジスタの各フィールドから取得される。これらのオペランドが求められるポジションは、Rpcによりアドレス指定されるレジスタからのオフセット情報により制御される。各算術回路26a〜26dからの結果は合成され、R3によりアドレス指定されるレジスタに書き込まれる。
【0063】
好ましくは、結果が格納されるレジスタ(R3)は、オペランドa[..]を提供するのに利用されるレジスタ(R1,R2)のものの少なくとも2倍の長さを有する。これは、精度のロスなく2Mビットが2つのMビット数の積を表すのに必要とされる事実を考慮するため利用される。累積が利用される場合(ある数の積への加算)、さらに多くのビット、例えば、2M+2ビットなどが必要とされるかもしれない。この幅は、結果の関連する幅に従って選択されてもよい。従って、例えば、4つの8ビットオペランドa[..](M=8)が32ビット入力レジスタ(R1,R2)から供給される場合、好ましくは、64ビット出力レジスタ(R3)が、4つの16ビット結果(M=16)を格納するのに利用される。さらに、命令に応答して、当該結果はまた、好ましくは、入力レジスタ(R1,R2)と同じ幅を有するさらなる結果レジスタR4の丸められた精度により格納される。このさらなる結果レジスタでは、各結果b[..]の一部のみが、例えば、ビットの上位1/2のみ、ビットの上位関連する1/2のみ、ビット4〜12など各結果からのいくつかの所定のポジションからのビットなどが格納される。好ましくは、和s[..]を提供するのに利用されるレジスタ(Rs)はまた、オペランドa[..]を供給するのに用いられるレジスタ(R1,R2)のものの2倍の幅(ビット数)を有する。このことは、
【0064】
【数13】
の命令を利用して、多次元補間(2次元画像補間など)を実現するため利用されてもよい。
【0065】
ここでは、R1によりアドレス指定されるレジスタが、画像ラインに沿った隣接ピクセルポジションのN個(N=4など)のピクセル値(ピクセル値p[i,j],p[i+1,j],p[i+2,j],p[i+3,j]など(jはラインを表し、iはスタートピクセルポジションを表す))を有し、R2によりアドレス指定されるレジスタは、R1のものに続くポジションのピクセル値(ピクセル値p[i+4,j],p[i+5,j],p[i+6,j],p[i+7,j]など)を有すると仮定される。Rpc1によりアドレス指定されるレジスタは、2つの係数w00及びw01を有する。同様に、R1’及びR2’はそれぞれ、R1及びR2の画像ラインに隣接する次の画像ラインに沿った隣接するピクセルポジションのN個(N=4など)のピクセル値(それぞれピクセル値p[i,j+1],p[i+1,j+1],p[i+2,j+1],p[i+3,j+1]及びp[i+4,j+1],p[i+5,j+1],p[i+6,j+1],p[i+7,j+1]など)を有する。Rpc2によりアドレス指定されるレジスタは、2つの係数w10及びw11を有する。Rsによりアドレス指定されるレジスタは、ゼロの値を有する。この場合、上記2つの処理の後に、R3によりアドレス指定されるレジスタの結果は、
【0066】
【数14】
を含むであろう。
【0067】
このため、4つの4ピクセル補間が2つの命令を実行することによって実行された。完全な画像を補間するため、これは連続するピクセルグループのロードと共に繰り返されてもよい。
【0068】
好ましくは、機能ユニットはさらに、例えば、Rpc1及びRpc2によりアドレス指定されるレジスタのオペランドの一部として、オフセットを規定する少なくとも1つのオペランドをサポートする。このようにして、R1,R2,R1’,R2’によりアドレス指定されるレジスタのスタートピクセル値p[i+0,j]及びp[i+0,j+1]のポジションは、プログラムの制御の下で選択可能である。このことは、アラインされたアドレスを利用したロード処理と共にさらなる再アライメントなしに、データメモリの任意のアドレスからスタートして格納されているピクセル値に対する結果を生成することを可能にする。従って、例えば、あるラインに沿ったピクセル系列が、
【0069】
【数15】
の命令を利用して処理することが可能である。
【0070】
ここでは、隣接するメモリ位置のグループからのピクセル値が、R1,R2,R1’,R2’によりアドレス指定されるレジスタにロードされ、(MAC命令により)4つの補間された結果のグループを生成するのに利用される。ここで、第1補間結果を生成するのに利用されるレジスタR1及びR2から利用される第1ピクセルのオフセットは、Rpc1によりアドレス指定されるレジスタにより制御される。隣接メモリ位置の次のグループからの次のピクセル値がR1(及びR1’)にロードされ、R1及びR2の役割が補間命令(MAC)において交換される。この後、ループが繰り返される。
【0071】
このプログラムのメモリアクセス命令(LOAD及びSTORE)はすべてアラインされたアドレスを利用することが理解されるべきである。従って、アラインされていないスタートアドレスからスタートして格納されているピクセルデータの補間が容易になる。このことは、特に画像の任意に選択可能なポジションからスタートする相対的に小さなウィンドウにおいて補間が要求される場合、スピードを増大させる。
【0072】
本発明のアプリケーションが2次元画像処理について説明されたが、本発明が当該アプリケーションに限定されないということが理解されるべきである。本発明はまた、1次元アレイ処理又は3次以上のアレイ処理にも適用可能である。さらに、係数とピクセルの積の和に関するSIMD命令へのアプリケーションが説明されたが、他の命令も利用可能であるということが理解されるべきである。
【0073】
本発明によると、処理回路は、それの命令セットに新規な命令を含むよう構成される。周知なように、プロセッサの命令セットの仕様は、一般には何れの実現形態がプロセッサを実現するのに利用可能であるか当業者に通知すれば十分である。命令セットは、プロセッサに対するマシーンプログラムに含めることが可能な各種命令タイプを規定する。(ここで使用される「命令」とは、最終的に命令でない部分とならず、プログラムが分割可能な最小ユニットであるマシーンプログラムの“アトム”を表す。)本発明による処理回路の命令セットは、各々が複数の潜在的なオペランドを有するレジスタからのオペランドを利用して、同一タイプの処理をパラレルに実行することによって複数の結果が生成されるという意味において、処理回路にSIMD処理を実行させる命令を有する。パラレルに実行される処理は、オペランド系列の重複を利用する。好ましくは、命令は、オペランドが取得する必要があるレジスタのポジションを示すさらなるオペランドを有する。あるいは、異なるオペレーションコードが、異なるポジションを示す。