特表2022-535982 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ フアシアジェネラルプロセッサーテクノロジーズインコーポレイテッドの特許一覧

特表2022-535982ＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-08-10

(54)【発明の名称】ＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法

(51)【国際特許分類】

G06F 17/16 20060101AFI20220803BHJP

G06F 15/80 20060101ALI20220803BHJP

G06F 9/34 20060101ALI20220803BHJP

【ＦＩ】

G06F17/16 E

G06F17/16 K

G06F15/80

G06F9/34 330

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2021573736

(86)(22)【出願日】2020-06-11

(85)【翻訳文提出日】2022-01-20

(86)【国際出願番号】 CN2020095649

(87)【国際公開番号】W WO2020249052

(87)【国際公開日】2020-12-17

(31)【優先権主張番号】201910512317.6

(32)【優先日】2019-06-13

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】521541860

【氏名又は名称】フアシアジェネラルプロセッサーテクノロジーズインコーポレイテッド

(74)【代理人】

【識別番号】110002572

【氏名又は名称】特許業務法人平木国際特許事務所

(72)【発明者】

【氏名】イン，チョンシン

(72)【発明者】

【氏名】ワン，レイ

【テーマコード（参考）】

5B033

5B056

【Ｆターム（参考）】

5B033AA14

5B033DD05

5B056AA06

5B056BB35

5B056BB42

5B056FF11

5B056HH03

(57)【要約】

本開示はグラフィックス処理ユニットの技術分野に関し、具体的にＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法に関する。マスク操作方法は、各ＧＰＵハードウェアスレッドはそれぞれの＄ｍ０～＄ｍ７と記す８つの１２８ビット幅の個別マスクレジスタにアクセスすることができるステップＳ１と、該ＧＰＵにおいて明示的で個別マスクレジスタのマスク操作コマンドにより、ＧＰＵにおける各ハードウェアスレッドはそれぞれの８つの１２８ビット幅の個別マスクレジスタにアクセスすることができるステップＳ２と、ユーザが使用可能な４つのマスク操作コマンドを有し、それぞれマスクレジスタに対するリダクション演算と、拡張演算と、論理演算及び汎用ベクトルレジスタとの間のデータ移動を実現するステップＳ３と、コマンドにより、条件制御における分岐マスクを生成し、同時にマスク値を求め、プログラマブルコアにおけるコマンド送信プロセスを最適化するステップＳ４と、を含む、これにより、無効なオペランドの読み取り及びパイプライン操作の実行を防止し、プログラマブル消費電力を低減することができる。
【選択図】図１

【特許請求の範囲】

【請求項1】

ＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法であって、
各ＧＰＵハードウェアスレッドはそれぞれの＄ｍ０～＄ｍ７と記す８つの１２８ビット幅の個別マスクレジスタにアクセスすることができるステップＳ１と、
前記＄ｍ０におけるデータはＧＰＵハードウェアスレッドコマンドの実行マスクをデフォルトとし、プログラムコードにおけるコマンドのマスクアドレスフィールドＭＳＡを変更することにより、現在のコマンドの実行マスクを指定することができるステップＳ２と、
コマンドによりそれぞれマスクレジスタに対するリダクション演算と、拡張演算と、論理演算及び汎用ベクトルレジスタとの間のデータ移動を実現し、対応するマスクレジスタを指定する必要があり、同時に最近の親要素のマスクレジスタを保持し、且つ二分木の方式で子要素と親要素のマスク関係を処理するステップＳ３と、
前記マスクレジスタの使用が８を超える場合、移動コマンドを介して、一時的に使用しないマスクオペランドを前記汎用ベクトルレジスタに記憶し、必要がある時に前記汎用ベクトルレジスタから再度取得するステップＳ４と、
ベクトル実行ユニットによりマスクリダクション操作を実現し、マスクリダクションの汎用及び明示的な読み取りを完了し、コマンド送信によるオーバーヘッドを防止し、ユーザはアプリケーションプログラムを解析した後、前記リダクション操作を追加するか否かを決定するステップＳ５と、
明示的な前記マスクレジスタは、処理条件を制御する時、後段の条件コードを前記マスクレジスタに記憶し、さらに真の分岐のコマンドシーケンスのマスク及び偽の分岐のコマンドシーケンスの条件コードを生成し、明示的なマスクにより、単一のマスクが上書きされ、上書き後にリセットされるという問題を防止し、前記ベクトル汎用レジスタと前記マスクレジスタとの間のデータ移動を減少させるステップＳ６と、を含むことを特徴とする、ＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法。

【請求項2】

前記１２８ビットのマスク及びベクトル実行ユニットは、ＳＩＭＤ１６の並列方式で割り当てられ、１つの前記マスクレジスタはベクトルユニットの実行を８回確保することができる、ことを特徴とする、請求項１に記載のＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法。

【請求項3】

前記ベクトルユニットのベクトルコマンドを送信する時、該コマンドのマスクレジスタが全てゼロであるか否かを判断し、全てゼロであれば該コマンドがいかなる有効な出力も発生させないことを示し、対応するコマンドの読み取り及び実行の操作をいずれも省略することができる、ことを特徴とする、請求項２に記載のＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法。

【請求項4】

前記ＳＩＭＤ１６の幅をリダクションする必要があり、リダクション結果がゼロでない場合はオペランドを読み取り、コマンドを送信し、それによりＳＩＭＤ１６のマスク処理を完了させることができる、ことを特徴とする、請求項２に記載のＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法。

【請求項5】

前記マスクリダクションコマンドはユーザが解析した後に、コマンドを送信する前の効率が低いリダクション操作をさらに防止することができ、それによりリダクションは前述した性能及び消費電力の最適化効果を必ず発揮することができる、ことを特徴とする、請求項２に記載のＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示はグラフィックス処理ユニットの技術分野に関し、具体的にはＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法に関する。

【0002】

＜関連出願の相互参照＞
本開示は、２０１９年６月１３日に出願された、出願番号２０１９１０５１２３１７．６、発明の名称「ＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法」の特許出願の優先権主張出願であり、その全部の内容が援用により本開示に組み込まれる。

【背景技術】

【0003】

高度なグラフィックスプロセッサはｓｈａｄｅｒコードを実行するための多くのプログラマブルプロセッサコア及びグラフィックス専用ハードウェアアクセラレータを含む。最初にこれらのプロセッサコアはグラフィックスアプリケーションにおけるｓｈａｄｅｒコードを実行するために用いられたが、後に非グラフィックス計算集約型のアプリケーションを良好に処理できることが発見され、汎用グラフィックスプロセッサに発展してきた。

【0004】

グラフィックアプリケーションにおいてＧＰＵは数が膨大な頂点及びセグメントを処理しなければならず、これらのオブジェクトに対してそれぞれ単独でコードを作成することは不可能である。従ってＧＰＵプログラミングモデルにおいて頂点を処理するためのｓｈａｄｅｒ及びセグメントを処理するためのｓｈａｄｅｒを定義する。ユーザはｓｈａｄｅｒにおいて頂点及びセグメントを処理するアルゴリズムを記述することができる。ＧＰＧＰＵアプリケーションに対して類似の方法を使用して、プログラミングモデルにおいて数が膨大な処理オブジェクトを定義しており、これらのオブジェクトはワークアイテムと呼ばれ、ユーザはｋｅｒｎｅｌを指定することによりこれらのワークアイテムをどのように処理するかを記述する。

【0005】

グラフィックスプロセッサは複数の頂点又はｋｅｒｎｅｌにおけるワークアイテムをスレッドに組み合わせ、シングルインストラクションマルチプルデータ（ＳＩＭＤ）に従って対応するｓｈａｄｅｒプログラム及びｋｅｒｎｅｌプログラムを実行し、プログラム内に条件制御コードが存在する場合、ＳＩＭＤ実現方式においてこの問題を解決する一つの方法は実行マスクにより実行結果の出力を制御し、マスクにおける対応ビットにおける値が０ｘ１である場合のみ、対応する目的オペランドを書き換えるものであり、ＧＰＵコマンドワードの符号化空間を節約するため、該方法は、グラフィックスプロセッサにおいては単一の隠しマスクレジスタの方式により実現することが多いが、図１に示すように、ｓｈａｄｅｒ又はｋｅｒｎｅｌコードにおける条件制御ステートメントが多いか又はネストが発生した場合、単一の隠しマスクレジスタ（＄ｅｘｅｃ）により現在のコマンドのマスクレジスタを変更することができず、隠しマスクレジスタと汎用レジスタとの間のデータが頻繁に移動することになってしまい、これにより、プログラムのコマンド数が増加するだけでなく、プログラムの実行遅延が増えて、同時にレジスタ間の読み書きが追加されて、プログラマブルプロセッサコアの消費電力が上昇する。

【発明の概要】

【発明が解決しようとする課題】

【0006】

本開示の目的は、ＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法を提供することにより、上記背景技術において提出された、グラフィックスプロセッサは複数の頂点又はｋｅｒｎｅｌにおけるワークアイテムをスレッドに組み合わせ、シングルインストラクションマルチプルデータ方式に従って対応するｓｈａｄｅｒプログラム及びｋｅｒｎｅｌプログラムを実行し、プログラム内に条件制御コードが存在する場合、この問題を解決するＳＩＭＤ実現方式による一つの方法は実行マスクにより実行結果の出力を制御し、マスクにおける対応ビットにおける値が０ｘ１である場合のみ、対応する目的オペランドを書き換えるものであり、ＧＰＵコマンドワードの符号化空間を節約するため、グラフィックスプロセッサにおいては単一の隠しマスクレジスタの方式により実現することが多いが、ｓｈａｄｅｒ又はｋｅｒｎｅｌコードにおける条件制御ステートメントが多いか又はネストが発生した場合、単一の隠しマスクレジスタ（＄ｅｘｅｃ）により現在のコマンドのマスクレジスタを変更することができず、隠しマスクレジスタと汎用レジスタとの間のデータが頻繁に移動することになってしまい、これにより、プログラムのコマンド数が増加するだけでなく、プログラムの実行遅延が増えて、同時にレジスタ間の読み書きが追加されて、プログラマブルプロセッサコアの消費電力が上昇する、という課題を解決することである。

【課題を解決するための手段】

【0007】

上記目的を実現するために、本開示は以下の技術的解決手段を提供する。ＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法は、
各ＧＰＵハードウェアスレッドはそれぞれの＄ｍ０～＄ｍ７と記す８つの１２８ビット幅の個別マスクレジスタにアクセスすることができるステップＳ１と、
前記＄ｍ０におけるデータはＧＰＵハードウェアスレッドコマンドの実行マスクをデフォルトとし、プログラムコードにおけるコマンドのマスクアドレスフィールドＭＳＡを変更することにより、現在のコマンドの実行マスクを指定することができるステップＳ２と、
コマンドによりそれぞれマスクレジスタに対するリダクション演算と、拡張演算と、論理演算及び汎用ベクトルレジスタとの間のデータ移動を実現し、対応するマスクレジスタを指定する必要があり、同時に最近の親要素のマスクレジスタを保持し、且つ二分木の方式で子要素と親要素のマスク関係を処理するステップＳ３と、
前記マスクレジスタの使用が８を超える場合、移動コマンドを介して、一時的に使用しないマスクオペランドを前記汎用ベクトルレジスタに記憶し、必要がある時に前記汎用ベクトルレジスタから再度取得するステップＳ４と、
ベクトル実行ユニットによりマスクリダクション操作を実現し、マスクリダクションの汎用及び明示的な読み取りを完了し、コマンド送信によるオーバーヘッドを防止し、ユーザはアプリケーションプログラムを解析した後、前記リダクション操作を追加するか否かを決定するステップＳ５と、
明示的な前記マスクレジスタは、処理条件を制御する時、後段の条件コードを前記マスクレジスタに記憶し、さらに真の分岐のコマンドシーケンスのマスク及び偽の分岐のコマンドシーケンスの条件コードを生成し、明示的なマスクにより、単一のマスクが上書きされ、上書き後にリセットされるという問題を防止し、前記ベクトル汎用レジスタと前記マスクレジスタとの間のデータ移動を減少させるステップＳ６と、を含む。

【0008】

好ましくは、前記１２８ビットのマスク及びベクトル実行ユニットは、ＳＩＭＤ１６の並列方式で割り当てられ、１つの前記マスクレジスタはベクトルユニットの実行を８回確保することができることである。

【0009】

好ましくは、前記ベクトルユニットのベクトルコマンドを送信する時、該コマンドのマスクレジスタが全てゼロであるか否かを判断し、全てゼロであれば該コマンドがいかなる有効な出力も発生させないことを示し、対応するコマンドの読み取り及び実行の操作をいずれも省略することができることである。

【0010】

好ましくは、前記ＳＩＭＤ１６の幅をリダクションする必要があり、リダクション結果がゼロでない場合はオペランドを読み取り、コマンドを送信し、それによりＳＩＭＤ１６のマスク処理を完了させることができることである。

【0011】

好ましくは、前記マスクリダクションコマンドはユーザが解析した後に、コマンドを送信する前の効率が低いリダクション操作をさらに防止することができ、それによりリダクションは前述した性能及び消費電力の最適化効果を必ず発揮することができることである。

【0012】

従来技術に比べて、本開示の有益な効果は、該ＧＰＵにおける明示的な独立マスクレジスタ及びマスク操作コマンドは、グラフィックスプロセッサにおいて実現される明示的な独立マスクレジスタ及び操作マスクレジスタのコマンドを提供し、ＧＰＵにおける各ハードウェアスレッドはそれぞれの＄ｍ０～＄ｍ７と記す８つの１２８ビット幅の個別マスクレジスタにアクセスすることができる。ただし、＄ｍ０におけるデータはＧＰＵハードウェアスレッドコマンドの実行マスクをデフォルトとし、コマンドのマスクアドレスフィールドＭＳＡを変更することによって現在のコマンドの実行マスクを指定することもできる。ユーザが使用可能な４つのマスク操作コマンドを有し、それぞれマスクレジスタに対するリダクション演算と、拡張演算と、論理演算及び汎用ベクトルレジスタとの間のデータ移動を実現することができる。コマンドにより、条件制御における分岐マスクを生成し、同時にマスク値を求め、プログラマブルコアにおけるコマンド送信プロセスを最適化することができる。これにより、無効なオペランドの読み取り及びパイプライン操作の実行を防止し、プログラマブル消費電力を低減することができる。

【図面の簡単な説明】

【0013】

【図1】図１は本開示の黙示的なユニットマスクレジスタの概略図である。

【図2】図２は本開示の第１リダクションプログラマブルプロセッサコアの概略図である。

【図3】図３は本開示の第２リダクションプログラマブルプロセッサコアの概略図である。

【図4】図４は本開示の黙示的な送信プロセスの概略図である。

【発明を実施するための形態】

【0014】

以下に本開示の実施例における図面を参照しながら、本開示の実施例における技術的解決手段を明確、且つ完全に説明するが、明らかな点として、説明される実施例は本開示の一部の実施例に過ぎず、全ての実施例ではない。本開示の実施例に基づき、当業者が創造的な労力を要することなく取得した全ての他の実施例は、いずれも本開示の保護範囲に属する。

【0015】

本開示は以下の技術的解決手段を提供する。図２及び図３に示すように、ＧＰＵにおける明示的な個別マスクレジスタのマスク操作方法は、
各ＧＰＵハードウェアスレッドはそれぞれの＄ｍ０～＄ｍ７と記す８つの１２８ビット幅の個別マスクレジスタにアクセスすることができるステップＳ1と、
＄ｍ０におけるデータはＧＰＵハードウェアスレッドコマンドの実行マスクをデフォルトとし、プログラムコードにおけるコマンドのマスクアドレスフィールドＭＳＡを変更することにより、現在のコマンドの実行マスクを指定することができるステップＳ２と、
コマンドによりそれぞれマスクレジスタに対するリダクション演算と、拡張演算と、論理演算及び汎用ベクトルレジスタとの間のデータ移動を実現し、対応するマスクレジスタを指定する必要があり、同時に最近の親要素のマスクレジスタを保持し、且つ二分木の方式で子要素と親要素のマスク関係を処理するステップＳ３と、
マスクレジスタの使用が８を超える場合、移動コマンドを介して、一時的に使用しないマスクオペランドを汎用ベクトルレジスタに記憶し、必要がある時に汎用ベクトルレジスタから再度取得するステップＳ４と、
ベクトル実行ユニットによりマスクリダクション操作を実現し、マスクリダクションの汎用及び明示的な読み取りを完了し、コマンド送信によるオーバーヘッドを防止し、ユーザはアプリケーションプログラムを解析した後、リダクション操作を追加するか否かを決定するステップＳ５と、
明示的なマスクレジスタは、処理条件を制御する時、後段の条件コードをマスクレジスタに記憶し、さらに真の分岐のコマンドシーケンスのマスク及び偽の分岐のコマンドシーケンスの条件コードを生成し、明示的なマスクにより、単一のマスクが上書きされ、上書き後にリセットされるという問題を防止し、ベクトル汎用レジスタとマスクレジスタとの間のデータ移動を減少させるステップＳ６と、を含む。

【0016】

ここで、１２８ビットのマスク及びベクトル実行ユニットは、ＳＩＭＤ１６の並列方式で割り当てられる。１つのマスクレジスタはベクトルユニットの実行を８回確保することができる。ベクトルユニットのベクトルコマンドを送信する時、該コマンドのマスクレジスタが全てゼロであるか否かを判断し、全てゼロであれば該コマンドがいかなる有効な出力も発生させないことを示し、対応するコマンドの読み取り及び実行の操作をいずれも省略することができる。ＳＩＭＤ１６の幅をリダクションする必要があり、リダクション結果がゼロでない場合はオペランドを読み取り、コマンドを送信し、それによりＳＩＭＤ１６のマスク処理を完了させることができる。マスクリダクションコマンドはユーザが解析した後に、コマンドを送信する前の効率が低いリダクション操作をさらに防止することができ、それによりリダクションは前記性能及び消費電力の最適化効果を必ず発揮することができる。

【0017】

具体的な使用においては、図４に示すように、まず明示的なマスクレジスタは、処理条件を制御する時、後段の条件コードをマスクレジスタに記憶し、さらに論理積、クリア、論理操作に従い真の分岐のコマンドシーケンスのマスク及び偽の分岐のコマンドシーケンスの条件コードを生成し、本開示のプログラマブルプロセッサコアにおいて、個別マスクレジスタと比較し、個別マスクレジスタ及びマスクリダクションにより誘導されるコマンド送信ユニットを追加し、１２８ビットのマスク＄ｍ_ｃに対して、ベクトル実行ユニットはＳＩＭＤ１６の並列方式に従って割り当てられ、１つのマスクレジスタはベクトルユニットの実行を８回確保することができる。これにより、コマンドフェッチの負荷を低減させる。ベクトルコマンドを送信する時、該コマンドのマスクレジスタが全てゼロであるか否かを優先的に判断する。全てゼロである場合、該コマンドがいかなる有効な出力も発生させないことを示す。このようにしてコマンドに対応するソースオペランドの読み取り及び実行をいずれも省略することができる。データ依存の発生を防止するために、依存フラグをクリーンアップすべきである。マスクにおける一部が全てゼロである場合、リダクション操作の結果は表現できず、この場合マスクを１６ビットの幅に合わせてリダクションする必要があり、現在の１６ビットのリダクション結果がゼロでない場合、オペランドを読み取るとともにコマンド送信をする必要があり、そうでなければ通常なコマンド送信のフローに応じて処理し、このようにマスクがカバーする全てのＳＩＭＤ１６のマスク処理が完了するまで実行して、コマンド送信を終了する。

【0018】

以上、実施例を参照して本開示を説明したが、本開示の範囲を逸脱することなく、種々の改良を行い、その構成要素を等価物に置換することができる。特に、本開示で示された実施例におけるそれぞれの特徴は、構造的矛盾がない限り、いずれも任意の方法で互いに組み合わせて使用されてもよく、本明細書においてそれらを組み合わせた状況を包括的に説明していないのは、単に文章の省略及び資源の節約を考慮したに過ぎない。したがって、本開示は、本明細書に開示された特定の実施例に限定されず、特許請求の範囲に含まれる全ての技術的解決手段を含む。

【図1】

【図2】

【図3】

【図4】

【国際調査報告】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版