特開2023-70010 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌビディア　コーポレーションの特許一覧

特開2023-70010バイナリ・クラスタ化を使用した前方誤り訂正符号化

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
2C
2D
3
4
5A
5B
5C
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023070010

(43)【公開日】2023-05-18

(54)【発明の名称】バイナリ・クラスタ化を使用した前方誤り訂正符号化

(51)【国際特許分類】

H03M 13/29 20060101AFI20230511BHJP

H03M 13/11 20060101ALI20230511BHJP

H04L 1/00 20060101ALI20230511BHJP

【ＦＩ】

H03M13/29

H03M13/11

H04L1/00 B

【審査請求】未請求

【請求項の数】20

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2022079561

(22)【出願日】2022-05-13

(31)【優先権主張番号】17/519,458

(32)【優先日】2021-11-04

(33)【優先権主張国・地域又は機関】US

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＺＩＧＢＥＥ

(71)【出願人】

【識別番号】501450960

【氏名又は名称】エヌビディアコーポレーション

(74)【代理人】

【識別番号】110000855

【氏名又は名称】弁理士法人浅村特許事務所

(72)【発明者】

【氏名】シュリダールマジャリ

(72)【発明者】

【氏名】ハーシュマニア―ル

(72)【発明者】

【氏名】レザマランディアンハグ

【テーマコード（参考）】

5J065

5K014

【Ｆターム（参考）】

5J065AD03

5J065AE06

5J065AH01

5K014BA05

(57)【要約】

【課題】バイナリ・クラスタ化された前方誤り訂正（ＦＥＣ）符号化スキームを提供する。
【解決手段】ＦＥＣパケットの計算元となるメディア・パケットのバイナリ・クラスタ化された符号化を定義するシステム及び方法が開示される。様々な符号化が、各ＦＥＣパケットを計算するために、Ｍ個のメディア・パケットを含むフレームのどのメディア・パケットを使用するのかを指定する。様々な符号化は、フレームのメディア・パケットの数量（Ｍ≦ｆｌｏｏｒ（２^Ｎ））に基づいて定義され、Ｎのバイナリ表現の各ビットは、メディア・パケットの異なるクラスタ・ペア符号化に関連付けられる。各クラスタ・ペアは、ビット＝０のクラスタ及びビット＝１のクラスタを含む。少なくとも２つのクラスタ・ペア符号化を使用するＦＥＣパケットの計算が、各メディア・パケットの冗長性を提供し、それによって、メディア・パケットの回復率を向上させる。
【選択図】図１

【特許請求の範囲】

【請求項1】

コンピュータ実装方法であって、
メディア・パケットのシーケンスを受信するステップであって、前記メディア・パケットの数量は、正の整数Ｎについて、２^Ｎ以下であり、各メディア・パケットは、Ｎビットによって指定される異なるバイナリ値に関連付けられている、ステップと、
メディア・パケットの前記シーケンスから、第１のビットがアサートされている前記バイナリ値に関連付けられている１つ又は複数のメディア・パケットで構成される前記メディア・パケットの第１のクラスタを選択するステップであって、前記数量における第１のメディア・パケット及び前記数量における第２のメディア・パケットは、前記第１のクラスタに含まれている、ステップと、
メディア・パケットの前記シーケンスから、第２のビットがアサートされている前記バイナリ値に関連付けられている１つ又は複数のメディア・パケットで構成される前記メディア・パケットの第２のクラスタを選択するステップであって、前記第１のメディア・パケットは、前記第２のクラスタに含まれており、前記第２のメディア・パケットは、前記第２のクラスタに含まれていない、ステップと、
前記第１のクラスタを使用して、複数の前方誤り訂正（ＦＥＣ）パケットのうちの第１のＦＥＣパケットを計算するステップと、
前記第２のクラスタを使用して、前記複数のＦＥＣパケットのうちの第２のＦＥＣパケットを計算するステップと
を含む、コンピュータ実装方法。

【請求項2】

前記第１のビットは、前記バイナリ値の最上位ビットである、請求項１に記載のコンピュータ実装方法。

【請求項3】

前記バイナリ値の前記第１のビットは、前記バイナリ値の最下位ビットではない、請求項１に記載のコンピュータ実装方法。

【請求項4】

前記数量における各メディア・パケットに関連付けられている前記バイナリ値は、前記メディア・パケットが受信される前記シーケンスを示す、請求項１に記載のコンピュータ実装方法。

【請求項5】

前記第１及び第２のＦＥＣパケットは、排他的ＯＲ演算を使用して計算される、請求項１に記載のコンピュータ実装方法。

【請求項6】

メディア・パケットの前記数量、並びに前記第１及び第２のＦＥＣパケットを、リモート・デバイスに送信するステップをさらに含む、請求項１に記載のコンピュータ実装方法。

【請求項7】

前記第１及び第２のＦＥＣパケットは、並行して計算される、請求項１に記載のコンピュータ実装方法。

【請求項8】

前記複数のＦＥＣパケットにおけるいくつかのＦＥＣパケットは、パケット・ロス率及び前記数量に基づいて決定される、請求項１に記載のコンピュータ実装方法。

【請求項9】

前記第１のクラスタを選択するステップ、前記第２のクラスタを選択するステップ、前記第１のＦＥＣパケットを計算するステップ、又は前記第２のＦＥＣパケットを計算するステップのうちの少なくとも１つは、メディア・パケットの前記数量、並びに前記第１及び第２のＦＥＣパケットを、ユーザ・デバイスにストリーミングするために、サーバ上又はデータ・センタにおいて実行される、請求項１に記載のコンピュータ実装方法。

【請求項10】

前記第１のクラスタを選択するステップ、前記第２のクラスタを選択するステップ、前記第１のＦＥＣパケットを計算するステップ、又は前記第２のＦＥＣパケットを計算するステップのうちの少なくとも１つは、クラウド計算環境内で実行される、請求項１に記載のコンピュータ実装方法。

【請求項11】

前記第１のクラスタを選択するステップ、前記第２のクラスタを選択するステップ、前記第１のＦＥＣパケットを計算するステップ、又は前記第２のＦＥＣパケットを計算するステップのうちの少なくとも１つは、ニューラル・ネットワークのトレーニング、テスト、又は認定のうちの少なくとも１つのために実行される、請求項１に記載のコンピュータ実装方法。

【請求項12】

前記ニューラル・ネットワークは、マシン、ロボット、又は自律走行車のうちの少なくとも１つに採用されているニューラル・ネットワークを含む、請求項１１に記載のコンピュータ実装方法。

【請求項13】

送信インターフェースと、
前記送信インターフェースに結合されている前方誤り訂正（ＦＥＣ）符号化器と
を備えるシステムであって、前記ＦＥＣ符号化器は、
メディア・パケットであって、前記メディア・パケットの数量は、正の整数Ｎについて、２^Ｎ以下であり、各メディア・パケットは、Ｎビットによって指定される異なるバイナリ値に関連付けられている、メディア・パケットのシーケンスを受信し、
メディア・パケットの前記シーケンスから、第１のビットがアサートされている前記バイナリ値に関連付けられている１つ又は複数のメディア・パケットで構成される前記メディア・パケットの第１のクラスタであって、前記数量における第１のメディア・パケット及び前記数量における第２のメディア・パケットを含む第１のクラスタを選択し、
メディア・パケットの前記シーケンスから、第２のビットがアサートされている前記バイナリ値に関連付けられている１つ又は複数のメディア・パケットで構成される前記メディア・パケットの第２のクラスタであって、前記第１のメディア・パケットを含み、前記第２のメディア・パケットを含まない第２のクラスタを選択し、
前記第１のクラスタを使用して、複数のＦＥＣパケットのうちの第１のＦＥＣパケットを計算し、
前記第２のクラスタを使用して、前記複数のＦＥＣパケットのうちの第２のＦＥＣパケットを計算する、
システム。

【請求項14】

前記バイナリ値の前記第１のビットは、最上位ビットである、請求項１９に記載のシステム。

【請求項15】

前記バイナリ値の前記第１のビットは、前記バイナリ値の最下位ビットではない、請求項１９に記載のシステム。

【請求項16】

前記数量における各メディア・パケットに関連付けられている前記バイナリ値は、前記メディア・パケットが受信される前記シーケンスを示す、請求項１９に記載のシステム。

【請求項17】

前記複数のＦＥＣパケットの数量は、パケット・ロス率に基づいて決定される、請求項１９に記載のシステム。

【請求項18】

前記ＦＥＣ符号化器は更に、前記送信インターフェースを介して、ネットワークに、メディア・パケットの前記数量、並びに前記第１及び第２のＦＥＣパケットを出力する、請求項１９に記載のシステム。

【請求項19】

コンピュータ命令を保存する非一時的コンピュータ可読媒体であって、前記コンピュータ命令は、１つ又は複数のプロセッサによって実行される場合に、前記１つ又は複数のプロセッサに、
メディア・パケットのシーケンスを受信するステップであって、前記メディア・パケットの数量は、正の整数Ｎについて、２^Ｎ以下であり、各メディア・パケットは、Ｎビットによって指定される異なるバイナリ値に関連付けられている、ステップと、
メディア・パケットの前記シーケンスから、第１のビットがアサートされている前記バイナリ値に関連付けられている１つ又は複数のメディア・パケットで構成される前記メディア・パケットの第１のクラスタを選択するステップであって、前記数量における第１のメディア・パケット及び前記数量における第２のメディア・パケットは、前記第１のクラスタに含まれている、ステップと、
メディア・パケットの前記シーケンスから、第２のビットがアサートされている前記バイナリ値に関連付けられている１つ又は複数のメディア・パケットで構成される前記メディア・パケットの第２のクラスタを選択するステップであって、前記第１のメディア・パケットは、前記第２のクラスタに含まれており、前記第２のメディア・パケットは、前記第２のクラスタに含まれていない、ステップと、
前記第１のクラスタを使用して、複数の前方誤り訂正（ＦＥＣ）パケットのうちの第１のＦＥＣパケットを計算するステップと、
前記第２のクラスタを使用して、前記複数のＦＥＣパケットのうちの第２のＦＥＣパケットを計算するステップと
を実行させる、非一時的コンピュータ可読媒体。

【請求項20】

メディア・パケットの前記数量、並びに前記第１及び第２のＦＥＣパケットを、リモート・デバイスに送信するステップをさらに含む、請求項１９に記載の非一時的コンピュータ可読媒体。

【発明の詳細な説明】

【背景技術】

【0001】

パケット・ロスは、マルチメディア・ストリーミングの性能を低下させる。前方誤り訂正（ＦＥＣ：ＦｏｒｗａｒｄＥｒｒｏｒＣｏｒｒｅｃｔｉｏｎ）は、失われたパケットの回復を可能にすることによって、ネットワーク・パケット・ロスを軽減するために使用され得る手法である。従来のＸＯＲベースのＦＥＣ手法は、フレーム内の任意のパケットを回復するのに十分な冗長性を提供しないことがよくある（１フレームにはＭ個のメディア・パケットが含まれている）。冗長性は、単一のＦＥＣパケット内のより多くのメディア・パケットをカバーし、及び／又はより多くのＦＥＣパケットを計算（及び送信）することによって向上され得る。従来の手法は、複数の失われたパケットが同じメディア・フレームに属している場合に、限られたカバレッジを提供することがよくある。また、従来の手法は、単に重複するメディア・パケットを送信して、メディア・パケットの回復を向上させ得る。

【発明の概要】

【発明が解決しようとする課題】

【0002】

これらの問題、及び／又は先行技術に関連付けられた他の問題に対処し、改善する必要性がある。

【課題を解決するための手段】

【0003】

本開示の実施例は、バイナリ・クラスタ化を使用した前方誤り訂正のための符号化スキームに関する。ＦＥＣパケットの計算元となるメディア・パケットのバイナリ・クラスタ化された符号化を定義するシステム及び方法が開示されている。様々な符号化がフレーム内のどのメディア・パケットを使用して各ＦＥＣパケットを計算したのかを指定する（１フレームにはＭ個のメディア・パケットが含まれる）。様々な符号化はフレーム内のメディア・パケットの数量、Ｍ≦ｆｌｏｏｒ（２^Ｎ）、に基づいて定義され得る。Ｎのバイナリ表現の各ビットは、メディア・パケットの異なるクラスタ・ペア符号化に関連付けられている。各クラスタ・ペアには、ビット＝０のクラスタとビット＝１のクラスタとが含まれる。

【0004】

例えば、Ｍ＝６４及びＮ＝６であるとき、６ビットは、メディア・パケットに関連付けられるバイナリ値を表す。Ｎ＝６の場合、６つのクラスタ・ペア（１２個のクラスタ符号化）が存在し得る。各クラスタ符号化は、ＦＥＣパケットを計算するためのメディア・パケットのセットを選択する。フレームのメディア・パケットの各々は、Ｎビット・バイナリ値０～２^Ｎ－１のうちのそれぞれの１つに関連付けられている（各値は単一のメディア・パケットに関連付けられている）。フレーム内の任意のパケットを回復するのに十分な冗長性を提供しないことがよくある前述の手法といった従来のＸＯＲベースのＦＥＣ手法とは対照的に、各特定のメディア・パケットは、１つよりも多いＦＥＣパケットによってカバーされないことがある。

【0005】

ＦＥＣのバイナリ・クラスタ化された符号化のためのシステム、方法、及びコンピュータ可読媒体が説明されている。一実施例では、メディア・パケットのシーケンスが受信される。メディア・パケットの数量は、正の整数Ｎについて、２^Ｎ以下であり、各メディア・パケットは、Ｎビットによって指定される異なるバイナリ値に関連付けられている。第１のビットがアサートされているバイナリ値に関連付けられているメディア・パケットで構成されるメディア・パケットの第１のクラスタが選択される。上記数量における第１のメディア・パケット及び上記数量における第２のメディア・パケットは、第１のクラスタに含まれている。一実施例では、第１のビットは、最下位ビット、最上位ビット、又はその中間の任意のビットであり得るが、限定されない。第２のビットがアサートされているバイナリ値に関連付けられているメディア・パケットで構成されるメディア・パケットの第２のクラスタが選択される。第１のメディア・パケットは、第２のクラスタに含まれており、第２のメディア・パケットは、第２のクラスタに含まれていない。第１のクラスタを使用して、複数のＦＥＣパケットのうちの第１のＦＥＣパケットが計算され、第２のクラスタを使用して、複数のＦＥＣパケットのうちの第２のＦＥＣパケットが計算される。

【0006】

バイナリ・クラスタ化されたＦＥＣ符号化スキームのための本システム及び方法について、添付の図面を参照して以下に詳細に説明する。

【図面の簡単な説明】

【0007】

【図1】本開示のいくつかの実施例を実装する際の使用に適しているＦＥＣパケットを生成するためにバイナリ・クラスタ化された符号化スキームを使用するシステム例のブロック図を示す。

【図2A】フレーム内のメディア・パケットと、本開示のいくつかの実施例を実装する際の使用に適しているクラスタ符号化ペアを示す。

【図2B】本開示のいくつかの実施例を実装する際の使用に適しているクラスタ符号化を示す。

【図2C】本開示のいくつかの実施例を実装する際の使用に適しているクラスタ符号化を示す。

【図2D】本開示のいくつかの実施例を実装する際の使用に適しているクラスタ符号化を示す。

【図3】一実施例による、バイナリ・クラスタ化されたＦＥＣ符号化スキームのための方法のフローチャートを示す。

【図4】本開示のいくつかの実施例を実装する際の使用に適している並列処理ユニット例を示す。

【図5A】本開示のいくつかの実施例を実装する際の使用に適している、図４のＰＰＵを使用して実装される処理システムの概念図である。

【図5B】様々な前の実施例の様々なアーキテクチャ及び／又は機能が実装され得る模範的なシステムを示す。

【図5C】少なくとも１つの実施例において、機械学習のトレーニング及び利用に使用することができる模範的なシステムのコンポーネントを示す。

【図6】本開示のいくつかの実施例を実装する際の使用に適している模範的なストリーミング・システムを示す。

【発明を実施するための形態】

【0008】

送信中に失われたパケットを回復するためのバイナリ・クラスタ化されたＦＥＣ符号化スキームに関するシステム及び方法が開示される。特に、バイナリ・クラスタ化されたＦＥＣ符号化スキームは、従来のＦＥＣ手法と比較して、マルチメディア・ストリーミングのパケット回復を向上させることができる。１フレームに対して生成されるいくつかのＦＥＣパケットと、ＦＥＣパケットを生成するために使用されるフレーム内のメディア・パケットとに応じて、失われた（例えば、ドロップされた）メディア・パケットを回復する能力は変化する。各ＦＥＣパケットは、排他的ＯＲ（ＸＯＲ：ＥｘｃｌｕｓｉｖｅＯＲ）論理演算子を使用して複数のメディア・パケットを組み合わせることによって生成される。従来のＸＯＲベースのＦＥＣ手法は、フレーム内の任意のメディア・パケットを回復するのに十分な冗長性を提供しないことがよくある。場合によっては、特定のメディア・パケットを使用して１つのＦＥＣパケットだけを計算する場合、パケットの冗長性はない。各ＦＥＣパケットを計算するためにより多くのメディア・パケットを使用することによって、冗長性を向上させることができ、これにより、特定のメディア・パケットを使用して、複数のＦＥＣパケットが計算される。より多くのＦＥＣパケットを計算することによっても、冗長性を向上させることができ、これにより、特定のメディア・パケットを使用して、複数のＦＥＣパケットが計算される。従来の手法では、通常、１つよりも多いＦＥＣパケットによって特定のメディア・パケットをカバーすることができない。従来の手法はまた、単に重複するメディア・パケットを送信して、冗長メディア・パケットを送信することによって、メディア・パケットの回復を向上させ得る。

【0009】

バイナリ・クラスタ化されたＦＥＣ符号化スキームは、ＦＥＣパケットを生成するためのメディア・パケットのセット（クラスタ）を選択して、冗長性及びメディア・パケット回復率を向上させる。メディア・パケットの各フレームについて計算されるＦＥＣパケットの数は、受信器によって決定されるパケット・ロスに基づいて変化し得る。例えば、均一なパケット・ロスが２％であるとき、従来のＦＥＣ符号化手法は、メディア・パケットの９０．８５％の回復を可能にするが、バイナリ・クラスタ化されたＦＥＣ符号化スキームは、メディア・パケットの９６．７３％の回復を可能にする。同様に、均一なパケット・ロスが４％であるとき、従来のＦＥＣ符号化手法では、メディア・パケットの８５％が回復されるが、バイナリ・クラスタ化されたＦＥＣ符号化スキームを使用すると９６．５７％のメディア・パケットが回復される。パケット・ロス率が２％又は４％であるときに、バイナリ・クラスタ化されたＦＥＣ符号化スキームと同様のメディア・パケット回復率を達成するためには、従来の手法は、約５％多くのＦＥＣパケットの計算及び送信が必要となる。

【0010】

図１は、本開示のいくつかの実施例を実装する際の使用に適しているバイナリ・クラスタ化されたＦＥＣ符号化スキームを実装するシステム例１００のブロック図を示す。本明細書で説明されるこの配置及び他の配置は、実例としてのみ記載されていることを理解すべきである。他の配置及び要素（例えば、マシン、インターフェース、機能、順序、機能のグループ分けなど）を、示されているものに加えて又は代わりに使用することができ、また、いくつかの要素を完全に省略することもできる。更に、本明細書で説明される要素のうちの多くは、個別の若しくは分散されたコンポーネントとして、又は他のコンポーネントと併せて、並びに任意の適切な組み合わせ及び場所で実装され得る機能的エンティティである。本明細書においてエンティティによって実行されていると説明される様々な機能は、ハードウェア、ファームウェア、及び／又はソフトウェアによって実行され得る。例えば、メモリに保存された命令を実行するプロセッサによって、様々な機能が実行され得る。更に、当業者は、システム１００の動作を実行する任意のシステムが、本開示の実施例の範囲及び趣旨内であることを理解するであろう。

【0011】

図１に示されるように、システム１００は、ＦＥＣ符号化器１１０、送信インターフェース１３０、ネットワーク１３５、受信インターフェース１４０、及びＸＯＲＦＥＣパケット復号化器１４５を含む。パケット・ロス・フィードバック１２４を介してパケット・ロス率を受信することに応答して、ＦＥＣコントローラ１２０は、メディア・パケット１０５の各フレームについて計算されるいくつかのＦＥＣパケット１１６を動的に決定する。一実施例では、パケット・ロス率は、フレームごとの失われたパケットの割合又は総数として表され得る。一実施例では、パケット・ロス率は、個々のフレームについて提供され得るか、又は複数のフレームについて決定され得る。一実施例では、ＦＥＣパケット１１６の数は、パケット・ロス率とフレーム内のメディア・パケット１０５の数とに基づいて決定される。一実施例では、ＦＥＣパケット１１６の数は、パケット・ロス率の増加に応じて増加し、パケット・ロス率の低下に応じて減少する。ルック・アップ・テーブルを使用して、各パケット・ロス率に必要なＦＥＣパケット１１６の数を決定することができる。ＦＥＣコントローラ１２０によって決定されるＦＥＣパケット１１６の数は、メディア・パケット選択ユニット１１５及び／又はＸＯＲＦＥＣパケット符号化器１２５に提供される。一実施例では、パケット１１６の数は、メディア・パケット選択ユニット１１５からＸＯＲＦＥＣパケット符号化器１２５に渡される。

【0012】

ＦＥＣパケット１２６は、（バイナリ）クラスタ符号化に従って計算される。具体的には、各クラスタ符号化は、ＸＯＲ演算を介して組み合わされるメディア・パケット１０５の特定のセット（クラスタ）に関連付けられて、ＦＥＣパケット１２６が計算される。クラスタ内のメディア・パケット１０５は、各メディア・パケットに関連付けられているバイナリ値に基づいて選択される。一実施例では、各フレームのメディア・パケット１０５には、０から始まりＭ－１までインクリメントする、メディア・パケット１０５が受信される順序に一致するシーケンスでのバイナリ値が割り当てられる。ここでは、Ｍは、各フレーム内のメディア・パケット１０５の数に相当する。別の実施例では、各フレームのメディア・パケット１０５には、シーケンスと等しくない順序でバイナリ値が割り当てられる。ここでは、フレーム内の各メディア・パケットには、０～Ｍ－１の異なるバイナリ値が割り当てられる。各クラスタ符号化は、図２Ａと併せて説明されるように、メディア・パケット１０５の異なるクラスタに関連付けられている。

【0013】

ユーザの希望に応じて、上記のフレームワークを実装し得る様々な任意選択のアーキテクチャ及び特徴に関して、理解をより助ける情報を記載する。以下の情報は、例示のために記載されているものであり、いかようにも限定と解釈されるべきではないことに強く留意されたい。以下の特徴はいずれも、任意選択で、説明される他の特徴を除外して又は除外することなく組み込むことができる。

【0014】

図２Ａは、フレーム２００内のメディア・パケットと、本開示のいくつかの実施例を実装する際の使用に適しているクラスタ符号化ペア２１０とを示す。フレーム２００は、Ｍ＝６４個のメディア・パケット１０５を含み、各メディア・パケット１０５にはバイナリ値が割り当てられている。図２Ａに示されているように、フレーム２００のメディア・パケット１０５は、８×８配列に編成され得、各メディア・パケット１０５は、１つの列及び１つの行に関連付けられた位置（１０進数０～６３）を占有している。例えば、位置１２のメディア・パケット１０５に割り当てられているバイナリ値は、バイナリ値００１１００である。なお、メディア・パケット１０５は、メディア・パケット１０５が受信されるシーケンス（１番目、２番目、３番目、４番目など）と一致する連続するバイナリ値に関連付けられている必要はない。

【0015】

次の説明のコンテキストでは、フレーム内のメディア・パケットの数量（Ｍ≦ｆｌｏｏｒ（２^Ｎ））と、各フレームのメディア・パケットのＮ個の異なるクラスタ・ペア符号化とに基づいて、異なるクラスタ符号化が定義され得る。各メディア・パケット１０５に割り当てられたバイナリ値は、Ｎビットで表される。各クラスタ・ペア符号化は、Ｎビットのうちの異なるビットに関連付けられる。クラスタ・ペア符号化は、関連付けられているビット＝０であるクラスタ符号化と、関連付けられているビット＝１のクラスタとを含む。

【0016】

例えば、Ｍ＝６４及びＮ＝６であるとき、６ビットは、メディア・パケットに関連付けられるバイナリ値を表す。Ｎ＝６の場合、６つのクラスタ・ペア符号化（１２個のクラスタ符号化）がある。各クラスタ符号化は、ＦＥＣパケット１２６を計算するためのメディア・パケット１０５のセット（クラスタ）を選択する。前述のように、フレーム２００内のメディア・パケット１０５の各々は、Ｎビット・バイナリ値０～２^Ｎ－１のうちのそれぞれの１つに関連付けられている（各値は単一のメディア・パケットに関連付けられている）。Ｎ＝６の場合、３ビット（Ｎ／２）が列ビットであり、３ビットが行ビットであり、各々、０～７で変動する。一実施例では、列ビットがバイナリ値の最下位ビットであり、行ビットがバイナリ値の最上位ビットである。別の実施例では、行ビットがバイナリ値の最下位ビットであり、列ビットがバイナリ値の最上位ビットである。更に別の実施例では、バイナリ値のビットは、行ビットと列ビットとの間で交互に入れ替わる。一般に、バイナリ値の各ビットは、限定なく、行ビット又は列ビットのいずれかに関連付けられる。

【0017】

クラスタ符号化ペア２１０は、クラスタ符号化２１１及び２１２を含み、且つ３つの列ビット（ビット０はｌｓｂである）のうちのビット１（中央）であるＮビット・バイナリ値のうちのビット１に関連付けられている。クラスタ符号化２１１に対して選択されたメディア・パケットのセットを示すために、ビット１が１に相当するフレーム２００内のメディア・パケットの４つの列は網掛けされている。クラスタ符号化２１２に対して選択されたメディア・パケットのセットを示すために、ビット１がゼロに相当するメディア・パケットの４つの列は網掛けされている。ビット１ではないバイナリ値のビットは、クラスタ符号化ペア２１０のメディア・パケットのセットの選択では無視される。ただし、クラスタ符号化ペア２１０は、第１及び第２のＦＥＣパケットを計算するために使用されたときには、冗長性を提供しない。これは、クラスタ符号化２１１及び２１２の両方に単一のメディア・パケットが含まれていないからである。冗長性は、第３のＦＥＣパケットを計算するために少なくとも１つの追加のクラスタ符号化を使用することによって、メディア・パケットの少なくとも一部分に対して提供され得る。

【0018】

図２Ｂは、本開示のいくつかの実施例を実装する際の使用に適しているクラスタ符号化２２１、２２２、２３１、及び２３２を示す。クラスタ符号化２２１及び２２２は、３つの列ビットのｌｓｂであるＮビット・バイナリ値のビット０に関連付けられたクラスタ符号化ペアである。クラスタ符号化２２１に対して選択されたメディア・パケットのセットを示すために、ビット０が１に相当するフレーム２００内のメディア・パケットの４つの列は網掛けされている。クラスタ符号化２２２に対して選択されたメディア・パケットのセットを示すために、ビット０がゼロに相当するメディア・パケットの４つの列は網掛けされている。クラスタ符号化ペア２１０と同様に、クラスタ符号化２２１及び２２２は、冗長性を提供しない。しかしながら、冗長性は、４つのＦＥＣパケットを計算するためにクラスタ符号化２１１、２１２、２２１、及び２２２を使用することによって、フレーム２００内のすべてのメディア・パケットに対して提供される。

【0019】

クラスタ符号化２３１及び２３２は、３つの列ビットのｍｓｂであるＮビット・バイナリ値のビット２に関連付けられたクラスタ符号化ペアである。クラスタ符号化２３１に対して選択されたメディア・パケットのセットを示すために、ビット２が１に相当するフレーム２００内のメディア・パケットの４つの列は網掛けされている。クラスタ符号化２３２に対して選択されたメディア・パケットのセットを示すために、ビット２がゼロに相当するフレーム２００内のメディア・パケットの４つの列は網掛けされている。冗長性は、４つのＦＥＣパケットを計算するためにクラスタ符号化２１１、２１２、２３１、及び２３２を使用することによって、フレーム２００内のすべてのメディア・パケットに対して提供される。或いは、冗長性は、４つのＦＥＣパケットを計算するためにクラスタ符号化２２１、２２２、２３１、及び２３２を使用することによって、フレーム２００内のすべてのメディア・パケットに対して提供される。更に、６つのクラスタ符号化２１１、２１２、２２１、２２２、２３１、及び２３２を使用して、追加の冗長性を提供することができる。

【0020】

図２Ｃは、本開示のいくつかの実施例を実装する際の使用に適しているクラスタ符号化２４１及び２４２を示す。クラスタ符号化２４１及び２４２は、３つの行ビットのビット１（中央）であるＮビット・バイナリ値のビット４に関連付けられたクラスタ符号化ペアである。クラスタ符号化２４１に対して選択されたメディア・パケットのセットを示すために、ビット４が１に相当するフレーム２００内のメディア・パケットの４つの行は網掛けされている。クラスタ符号化２４２に対して選択されたメディア・パケットのセットを示すために、ビット４がゼロに相当するフレーム２００内のメディア・パケットの４つの行は網掛けされている。クラスタ符号化ペア２１０と同様に、クラスタ符号化２４１及び２４２は、冗長性を提供しない。しかしながら、冗長性は、４つのＦＥＣパケットを計算するためにクラスタ符号化２４１及び２４２と、追加のクラスタ符号化ペアとを使用することによって、フレーム２００内のすべてのメディア・パケットに対して提供される。

【0021】

図２Ｄは、本開示のいくつかの実施例を実装する際の使用に適しているクラスタ符号化２５１、２５２、２６１、及び２６２を示す。クラスタ符号化２５１及び２５２は、３つの行ビットのｌｓｂであるＮビット・バイナリ値のビット３に関連付けられたクラスタ符号化ペアである。クラスタ符号化２５１に対して選択されたメディア・パケットのセットを示すために、ビット３が１に相当するフレーム２００内のメディア・パケットの４つの行は網掛けされている。クラスタ符号化２５２に対して選択されたメディア・パケットのセットを示すために、ビット３がゼロに相当するフレーム２００内のメディア・パケットの４つの行は網掛けされている。クラスタ符号化ペア２１０と同様に、クラスタ符号化２５１及び２５２は、冗長性を提供しない。しかしながら、冗長性は、４つのＦＥＣパケットを計算するためにクラスタ符号化２５１及び２５２と、追加のクラスタ符号化ペアとを使用することによって、フレーム２００内のすべてのメディア・パケットに対して提供される。

【0022】

クラスタ符号化２６１及び２６２は、３つの行ビットのｍｓｂであるＮビット・バイナリ値のビット５に関連付けられたクラスタ符号化ペアである。クラスタ符号化２６１に対して選択されたメディア・パケットのセットを示すために、ビット５が１に相当するフレーム２００内のメディア・パケットの４つの行は網掛けされている。クラスタ符号化２６２に対して選択されたメディア・パケットのセットを示すために、ビット５がゼロに相当するフレーム２００内のメディア・パケットの４つの行は網掛けされている。冗長性は、４つのＦＥＣパケットを計算するためにクラスタ符号化２６１及び２６２と、追加のクラスタ符号化ペアとを使用することによって、フレーム２００内のすべてのメディア・パケットに対して提供される。

【0023】

図１に戻ると、メディア・パケット選択ユニット１１５は、ＸＯＲＦＥＣパケット符号化器１２５によってＦＥＣパケット１１６の数におけるＦＥＣパケット１２６を計算するために使用される各クラスタ符号化のために、メディア・パケット１０５からメディア・パケット１１４のセット（クラスタ）を選択する。一実施例では、メディア・パケット選択ユニット１１５は、メディア・パケット１０５の少なくとも１つのフレームを保存するためのバッファを含む。クラスタ符号化は、ＦＥＣパケット１１６の数に従って決定され得る。

【0024】

一実施例では、ＦＥＣパケット１１６の数を決定することに加えて、ＦＥＣコントローラ１２０はまた、メディア・パケットのセットを選択して各ＦＥＣパケットを計算するクラスタ符号化を決定する。一実施例では、メディア・パケット選択ユニット１１５は、ＦＥＣパケット１１６の数に基づいてクラスタ符号化を決定する。例えば、パケット・ロス・フィードバック１２４が第１のパケット・ロス率を示しているときに、４つのＦＥＣパケット１２６が４つのクラスタ符号化に従って計算され得る。パケット・ロス・フィードバック１２４が第２のパケット・ロス率を示しているときに、５つのＦＥＣパケット１２６が５つのクラスタ符号化に従って計算され得る。

【0025】

クラスタ符号化は、ＦＥＣパケット１１６の数（又はパケット・ロス）と固定された関連付けを有していても、又は（ルック・アップ・テーブルを介して）プログラム可能であってもよい。関連付けが固定されているときは、第１及び第２のパケット・ロス率の両方に同じ４つのクラスタ符号化が使用され、第２のパケット・ロス率に異なるクラスタ符号化が追加される。関連付けがプログラム可能であるときは、第１及び第２のパケット・ロス率の両方に同じ４つのクラスタ符号化を使用する代わりに、第２のパケット・ロスが、第１のパケット・ロス率に使用されていないクラスタ符号化を少なくとも２つ指定し得る。

【0026】

メディア・パケット１１４の選択されたセットは、ＦＥＣパケット１２６の生成のためにＸＯＲＦＥＣパケット符号化器１２５に入力される。ＸＯＲＦＥＣパケット符号化器１２５はまた、各フレームに対して生成されるＦＥＣパケット１１６の数も受信する。ＸＯＲＦＥＣパケット符号化器１２５は、メディア・パケット１１４の各セットのＦＥＣパケットを計算し、ＦＥＣパケット１２６を送信インターフェース１３０に出力する。送信インターフェース１３０は、各フレームのＦＥＣパケット１２６及びメディア・パケット１０５をネットワーク１３５に送信する。受信インターフェース１４０は、受信したメディア・パケット１５５及び受信したＦＥＣパケット１４６を、ＸＯＲＦＥＣパケット復号化器１４５に出力する。ＸＯＲＦＥＣパケット復号化器１４５は、受信したＦＥＣパケット１４６と受信したメディア・パケット１５５との組み合わせを使用して、回復されたメディア・パケット１５０を生成する。バイナリ・クラスタ化された符号化スキームは、従来の送信インターフェース、受信インターフェース、及びＸＯＲＦＥＣパケット復号化器と互換性がある。したがって、ＦＥＣ符号化器１１０は、送信インターフェース、受信インターフェース、及びＸＯＲＦＥＣパケット復号化器に変更を加える必要なく、既存のシステムに組み込むことができる。

【0027】

図３は、一実施例による、バイナリ・クラスタ化されたＦＥＣ符号化スキームのための方法３００のフローチャートを示す。本明細書で説明される方法３００の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組み合わせを使用して実行され得る計算プロセスを含む。例えば、メモリに保存された命令を実行するプロセッサによって、様々な機能が実行され得る。この方法はまた、コンピュータ・ストレージ媒体に保存されたコンピュータ使用可能命令としても具体化され得る。この方法は、いくつか例を挙げると、スタンドアロン・アプリケーション、サービス又はホスト・サービス（スタンドアロン又は別のホスト・サービスとの組み合わせ）、又は別の製品へのプラグ・インによって提供され得る。更に、方法３００は、例として、図１のシステム１００に関して説明される。しかしながら、この方法は、任意の１つのシステム、又は本明細書で説明されているものを含むが、これらに限定されないシステムの任意の組み合わせによって、追加的又は代替的に実行され得る。更に、当業者は、方法３００を実行する任意のシステムが、本開示の実施例の範囲及び趣旨内であることを理解するであろう。

【0028】

ステップ３０５において、メディア・パケットのシーケンスが受信される。メディア・パケットの数量は、正の整数Ｎについて、２^Ｎ以下であり、各メディア・パケットは、Ｎビットによって指定される異なるバイナリ値に関連付けられている。一実施例では、上記数量における各メディア・パケットに関連付けられているバイナリ値は、メディア・パケットが受信されるシーケンスを示す。一実施例では、上記数量における各メディア・パケットに割り当てられているバイナリ値は、メディア・パケットが受信されるシーケンスに関連付けられていない。

【0029】

ステップ３１０において、第１のビットがアサートされているバイナリ値に関連付けられているメディア・パケットで構成されるメディア・パケットの第１のクラスタが選択される。上記数量における第１のメディア・パケット及び上記数量における第２のメディア・パケットは、第１のクラスタに含まれている。一実施例では、第１のビットは、バイナリ値の最上位ビットである。一実施例では、第１のビットは、バイナリ値の最下位ビットである。一実施例では、バイナリ値の第１のビットは、ｌｓｂでもｍｓｂでもない。

【0030】

ステップ３１５において、第２のビットがアサートされているバイナリ値に関連付けられているメディア・パケットで構成されるメディア・パケットの第２のクラスタが選択される。第１のメディア・パケットは、第２のクラスタに含まれており、第２のメディア・パケットは、第２のクラスタに含まれていない。

【0031】

ステップ３２０において、第１のクラスタを使用して、複数のＦＥＣパケットのうちの第１のＦＥＣパケットが計算される。ステップ３２５において、第２のクラスタを使用して、複数のＦＥＣパケットのうちの第２のＦＥＣパケットが計算される。一実施例では、複数のＦＥＣパケットにおけるいくつかのＦＥＣパケットは、パケット・ロス率及び上記数量に基づいて決定される。一実施例では、第１及び第２のＦＥＣパケットは、排他的ＯＲ演算を使用して計算される。一実施例では、第１及び第２のＦＥＣパケットは、並行して計算される。一実施例では、メディア・パケットの数量と、第１及び第２のＦＥＣパケットとは、リモート・デバイスに送信される。

【0032】

バイナリ・クラスタ符号化は、ＸＯＲベースのＦＥＣを使用したメディア・パケット回復を向上させるための冗長性を提供する。従来の手法では、通常、１つよりも多いＦＥＣパケットによって特定のメディア・パケットをカバーすることができない。バイナリ・クラスタ化されたＦＥＣ符号化スキームは、ＦＥＣパケットを生成するためのメディア・パケットのセット又はクラスタを選択する。クラスタは、冗長性及びメディア・パケット回復率を向上させるために定義される。追加的に、メディア・パケットの各フレームについて計算されるＦＥＣパケットの数は、受信器によって決定されるパケット・ロスに基づいて変化し得る。

【0033】

並列処理アーキテクチャ
図４は、一実施例による、並列処理ユニット（ＰＰＵ：ＰａｒａｌｌｅｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）４００を示す。ＰＰＵ４００を使用して、システム１００を実装し得る。ＰＰＵ４００を使用して、ＦＥＣ符号化器１１０及びＸＯＲＦＥＣパケット復号化器１４５のうちの１つ又は複数をシステム１００内に実装し得る。一実施例では、ＰＰＵ４００などのプロセッサは、ニューラル・ネットワーク・モデルを実装するように構成され得る。ニューラル・ネットワーク・モデルは、プロセッサによって実行されるソフトウェア命令として実装されても、又は、他の実施例では、プロセッサが、入力（例えば、値を表す電気信号）のセットを処理するように構成されたハードウェア要素の行列を含んで、ニューラル・ネットワーク・モデルのアクティベーションを表し得る出力のセットを生成することができる。更に他の実施例では、ニューラル・ネットワーク・モデルは、ソフトウェア命令と、ハードウェア要素の行列によって実行される処理との組み合わせとして実装されてもよい。ニューラル・ネットワーク・モデルの実装には、例えば、ニューラル・ネットワーク・モデルの教師付き又は教師なしトレーニングだけでなく、又は、別の方法では、パラメータのセットを使用して推論を実行して、新規の入力のセットを処理することを通じて、ニューラル・ネットワーク・モデルのパラメータのセットを決定することが含まれ得る。

【0034】

一実施例では、ＰＰＵ４００は、１つ又は複数の集積回路デバイスに実装されたマルチ・スレッド・プロセッサである。ＰＰＵ４００は、多くのスレッドを並行して処理するように設計されたレイテンシ隠蔽アーキテクチャである。スレッド（例えば、実行のスレッド）は、ＰＰＵ４００によって実行されるように構成された命令のセットのインスタンス化である。一実施例では、ＰＰＵ４００は、ディスプレイ・デバイスでの表示のための２次元（２Ｄ）画像データを生成するために、３次元（３Ｄ）グラフィックス・データを処理するためのグラフィックス・レンダリング・パイプラインを実装するように構成されたグラフィックス処理ユニット（ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）である。他の実施例では、ＰＰＵ４００は、汎用計算を実行するために利用され得る。本明細書では、例示のために１つの模範的な並列プロセッサが提供されているが、そのようなプロセッサは、例示のためにのみ記載されているものであり、また、当該プロセッサを補完及び／又は代替するために任意のプロセッサが採用され得ることに強く留意されたい。

【0035】

１つ又は複数のＰＰＵ４００は、数千もの高性能計算（ＨＰＣ：ＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＣｏｍｐｕｔｉｎｇ）アプリケーション、データ・センタ・アプリケーション、クラウド計算アプリケーション、及び機械学習アプリケーションを高速化するように構成され得る。ＰＰＵ４００は、自律走行車両、シミュレーション、レイ又はパス・トレーシングなどの計算グラフィックス、深層学習、高精度音声、画像、及びテキスト認識システム、インテリジェント・ビデオ分析、分子シミュレーション、創薬、疾患診断、天気予報、ビッグ・データ分析、天文学、分子動力学シミュレーション、財務モデリング、ロボット工学、工場自動化、リアル・タイム言語翻訳、オンライン検索の最適化、並びにパーソナライズ化されたユーザ推薦などのための多数の深層学習システム及びアプリケーションを高速化するように構成され得る。

【0036】

図４に示されているように、ＰＰＵ４００は、入出力（Ｉ／Ｏ：Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）ユニット４０５、フロント・エンド・ユニット４１５、スケジューラ・ユニット４２０、作業配分ユニット４２５、ハブ４３０、クロスバー（Ｘｂａｒ：Ｃｒｏｓｓｂａｒ）４７０、１つ又は複数の汎用処理クラスタ（ＧＰＣ：ＧｅｎｅｒａｌＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒ）４５０、及び１つ又は複数のメモリ・パーティション・ユニット４８０を含む。ＰＰＵ４００は、１つ又は複数の高速ＮＶＬｉｎｋ４１０インターコネクトを介してホスト・プロセッサ又は他のＰＰＵ４００に接続され得る。ＰＰＵ４００は、インターコネクト４０２を介してホスト・プロセッサ又は他の周辺デバイスに接続され得る。ＰＰＵ４００は、いくつかのメモリ・デバイスを含むローカル・メモリ４０４にも接続され得る。一実施例では、ローカル・メモリは、いくつかのダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ：ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）デバイスを含み得る。ＤＲＡＭデバイスは、各デバイス内に複数のＤＲＡＭダイがスタックされた高帯域幅メモリ（ＨＢＭ：Ｈｉｇｈ－ＢａｎｄｗｉｄｔｈＭｅｍｏｒｙ）サブシステムとして構成され得る。

【0037】

ＮＶＬｉｎｋ４１０インターコネクトは、１つ又は複数のＣＰＵと組み合わされた１つ又は複数のＰＰＵ４００をシステムがスケーリングし、含めることを可能にし、ＰＰＵ４００とＣＰＵとの間のキャッシュ・コヒーレンス、及びＣＰＵマスタリングをサポートする。データ及び／又はコマンドは、ＮＶＬｉｎｋ４１０によって、ハブ４３０を経由して、ＰＰＵ４００の他のユニット（１つ又は複数のコピー・エンジン、ビデオ符号化器、ビデオ復号化器、電源管理ユニットなど（明示的には図示せず））に／から送信され得る。ＮＶＬｉｎｋ４１０については、図５Ｂと併せてより詳細に説明する。

【0038】

Ｉ／Ｏユニット４０５は、インターコネクト４０２経由で、ホスト・プロセッサ（図示せず）から通信（例えば、コマンド、データなど）を送信及び受信するように構成されている。Ｉ／Ｏユニット４０５は、インターコネクト４０２を介して直接、又はメモリ・ブリッジなどの１つ又は複数の中間デバイスを通じて、ホスト・プロセッサと通信することができる。一実施例では、Ｉ／Ｏユニット４０５は、インターコネクト４０２を介してＰＰＵ４００のうちの１つ又は複数など、１つ又は複数の他のプロセッサと通信することができる。一実施例では、Ｉ／Ｏユニット４０５は、ペリフェラル・コンポーネント・インターコネクト・エクスプレス（ＰＣＩｅ：ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔＥｘｐｒｅｓｓ）インターフェースをＰＣＩｅバス経由の通信のために実装し、インターコネクト４０２は、ＰＣＩｅバスである。代替実施例では、Ｉ／Ｏユニット４０５は、他のタイプのよく知られているインターフェースを外部デバイスと通信するため実装してもよい。

【0039】

Ｉ／Ｏユニット４０５は、インターコネクト４０２経由で受信したパケットを復号化する。一実施例では、パケットは、ＰＰＵ４００に様々な操作を実行させるように構成されたコマンドを表す。Ｉ／Ｏユニット４０５は、復号化されたコマンドを、コマンドが指定し得るとおりにＰＰＵ４００の他の様々なユニットに送信する。例えば、いくつかのコマンドは、フロント・エンド・ユニット４１５に送信され得る。他のコマンドは、ハブ４３０、又はＰＰＵ４００の他のユニット（１つ又は複数のコピー・エンジン、ビデオ符号化器、ビデオ復号化器、電源管理ユニットなど（明示的には図示せず））に送信され得る。つまり、Ｉ／Ｏユニット４０５は、ＰＰＵ４００の様々な論理ユニット間の通信をルーティングするように構成されている。

【0040】

一実施例では、ホスト・プロセッサによって実行されるプログラムが、処理のためにＰＰＵ４００にワークロードを提供するバッファ内のコマンド・ストリームを符号化する。ワークロードは、いくつかの命令及びこれらの命令によって処理されるデータを含み得る。バッファは、ホスト・プロセッサとＰＰＵ４００との両方によってアクセス可能（例えば、読み取り／書き込み）であるメモリ内の領域である。例えば、Ｉ／Ｏユニット４０５は、インターコネクト４０２に接続されたシステム・メモリ内のバッファに、インターコネクト４０２経由で送信されたメモリ・リクエストを介してアクセスするように構成され得る。一実施例では、ホスト・プロセッサは、コマンド・ストリームをバッファに書き込み、その後、コマンド・ストリームの先頭へのポインタをＰＰＵ４００に送信する。フロント・エンド・ユニット４１５は、１つ又は複数のコマンド・ストリームへのポインタを受信する。フロント・エンド・ユニット４１５は、１つ又は複数のストリームを管理し、ストリームからコマンドを読み取り、ＰＰＵ４００の様々なユニットにコマンドを転送する。

【0041】

フロント・エンド・ユニット４１５は、１つ又は複数のストリームによって定義されたタスクを処理するために様々なＧＰＣ４５０を構成するスケジューラ・ユニット４２０に結合されている。スケジューラ・ユニット４２０は、スケジューラ・ユニット４２０によって管理される様々なタスクに関する状態情報を追跡するように構成されている。状態は、どのＧＰＣ４５０にタスクが割り当てられているか、タスクがアクティブであるか又は非アクティブであるか、タスクに関連付けられている優先レベルなどを示し得る。スケジューラ・ユニット４２０は、１つ又は複数のＧＰＣ４５０での複数のタスクの実行を管理する。

【0042】

スケジューラ・ユニット４２０は、ＧＰＣ４５０での実行のためのタスクをディスパッチするように構成された作業配分ユニット４２５に結合されている。作業配分ユニット４２５は、スケジューラ・ユニット４２０から受信されたいくつかのスケジュール済みタスクを追跡し得る。一実施例では、作業配分ユニット４２５は、ＧＰＣ４５０の各々について保留中タスクのプール及びアクティブ・タスクのプールを管理する。ＧＰＣ４５０がタスクの実行を完了すると、そのタスクは、ＧＰＣ４５０のアクティブ・タスクのプールから退去させられ、保留中タスクのプールから他のタスクのうちの１つが、ＧＰＣ４５０での実行のために選択及びスケジュールされる。アクティブ・タスクがＧＰＣ４５０でアイドル状態になっている場合（データ依存性が解決されるのを待っている間など）、そのアクティブ・タスクは、ＧＰＣ４５０から退去させられて、保留中タスクのプールに戻され得る。その一方で、保留中タスクのプール内の別のタスクがＧＰＣ４５０での実行のために選択及びスケジュールされる。

【0043】

一実施例では、ホスト・プロセッサがドライバ・カーネルを実行する。ドライバ・カーネルは、ホスト・プロセッサ上で実行される１つ又は複数のアプリケーションがＰＰＵ４００での実行のために操作をスケジュールすることを可能にするアプリケーション・プログラミング・インターフェース（ＡＰＩ：ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）を実装する。一実施例では、複数の計算アプリケーションがＰＰＵ４００によって同時に実行され、ＰＰＵ４００は、複数の計算アプリケーションに対して分離、サービス品質（ＱｏＳ：ＱｕａｌｉｔｙｏｆＳｅｒｖｉｃｅ）、及び独立したアドレス空間を提供する。アプリケーションは、ドライバ・カーネルに、ＰＰＵ４００による実行のための１つ又は複数のタスクを生成させる命令（例えば、ＡＰＩ呼び出し）を生成し得る。ドライバ・カーネルは、ＰＰＵ４００によって処理されている１つ又は複数のストリームにタスクを出力する。各タスクは、本明細書ではワープと呼ばれる、関連スレッドの１つ又は複数のグループを含み得る。一実施例では、１ワープは、並行して実行され得る３２個の関連スレッドを含む。協調スレッドとは、タスクを実行するための命令を含み、共有メモリを介してデータを交換し得る複数のスレッドを指し得る。タスクは、ＧＰＣ４５０内の１つ又は複数の処理ユニットに割り当てられ得、命令は少なくとも１つのワープによる実行のためにスケジュールされる。

【0044】

作業配分ユニット４２５は、ＸＢａｒ４７０を介して１つ又は複数のＧＰＣ４５０と通信する。ＸＢａｒ４７０は、ＰＰＵ４００のユニットのうちの多くをＰＰＵ４００の他のユニットに結合するインターコネクト・ネットワークである。例えば、ＸＢａｒ４７０は、作業配分ユニット４２５を特定のＧＰＣ４５０に結合するように構成され得る。明示的には示されていないが、ＰＰＵ４００の１つ又は複数の他のユニットも、ハブ４３０を介してＸＢａｒ４７０に接続され得る。

【0045】

タスクはスケジューラ・ユニット４２０によって管理され、作業配分ユニット４２５によってＧＰＣ４５０にディスパッチされる。ＧＰＣ４５０は、タスクを処理し、結果を生成するように構成されている。結果は、ＧＰＣ４５０内の他のタスクによって消費されたり、ＸＢａｒ４７０経由で異なるＧＰＣ４５０にルーティングされたり、又はメモリ４０４に保存されたりし得る。結果は、メモリ４０４に／からデータを読み取り及び書き込みするためのメモリ・インターフェースを実装するメモリ・パーティション・ユニット４８０を介してメモリ４０４に書き込まれ得る。結果は、ＮＶＬｉｎｋ４１０を介して別のＰＰＵ４００又はＣＰＵに送信されることも可能である。一実施例では、ＰＰＵ４００は、ＰＰＵ４００に結合されたメモリ４０４の別個且つ個別のメモリ・デバイスの数に相当する数Ｕのメモリ・パーティション・ユニット４８０を含む。各ＧＰＣ４５０は、仮想アドレスの物理アドレスへの変換、メモリ保護、及びメモリ・リクエストの調停を提供するためにメモリ管理ユニットを含み得る。一実施例では、メモリ管理ユニットは、仮想アドレスのメモリ４０４内の物理アドレスへの変換を実行するための１つ又は複数のトランスレーション・ルックアサイド・バッファ（ＴＬＢ：ＴｒａｎｓｌａｔｉｏｎＬｏｏｋａｓｉｄｅＢｕｆｆｅｒ）を提供する。

【0046】

一実施例では、メモリ・パーティション・ユニット４８０は、ラスタ演算（ＲＯＰ：ＲａｓｔｅｒＯｐｅｒａｔｉｏｎ）ユニット、レベル２（Ｌ２：Ｌｅｖｅｌｔｗｏ）キャッシュ、及びメモリ４０４に結合されたメモリ・インターフェースを含む。メモリ・インターフェースは、高速データ転送のために、３２、６４、１２８、１０２４ビット・データ・バスなどを実装し得る。ＰＰＵ４００は、高帯域幅メモリ・スタック又はグラフィックス・ダブル・データ・レート、バージョン５、シンクロナス・ダイナミック・ランダム・アクセス・メモリ、又は他のタイプの永続ストレージなど、最大Ｙ個のメモリ・デバイスに接続され得る。一実施例では、メモリ・インターフェースは、ＨＢＭ２メモリ・インターフェースを実装し、ＹはＵの半分に相当する。一実施例では、ＨＢＭ２メモリ・スタックは、ＰＰＵ４００と同じ物理パッケージに位置し、従来のＧＤＤＲ５ＳＤＲＡＭシステムと比較して大幅な電力及び面積の節約を提供する。一実施例では、各ＨＢＭ２スタックは、４つのメモリ・ダイを含み、Ｙ＝４であり、各ＨＢＭ２スタックは、合計で８つのチャネルに対して１つのダイあたりに２つの１２８ビット・チャネルと、１０２４ビットのデータ・バス幅とを含む。

【0047】

一実施例では、メモリ４０４は、データを保護するためにシングル・エラー訂正ダブル・エラー検出（ＳＥＣＤＥＤ：Ｓｉｎｇｌｅ－ＥｒｒｏｒＣｏｒｒｅｃｔｉｎｇＤｏｕｂｌｅ－ＥｒｒｏｒＤｅｔｅｃｔｉｎｇ）エラー訂正コード（ＥＣＣ：ＥｒｒｏｒＣｏｒｒｅｃｔｉｏｎＣｏｄｅ）をサポートしている。ＥＣＣは、データ破損の影響を受けやすい計算アプリケーションのより高い信頼性を提供する。ＰＰＵ４００が非常に大規模なデータセットを処理する、及び／又はアプリケーションを長時間実行する大規模なクラスタ計算環境では、信頼性が特に重要である。

【0048】

一実施例では、ＰＰＵ４００は、マルチ・レベルのメモリ階層を実装している。一実施例では、メモリ・パーティション・ユニット４８０は、統合メモリをサポートして、ＣＰＵ及びＰＰＵ４００のメモリに単一の統合された仮想アドレス空間を提供し、仮想メモリ・システム間でのデータ共有を可能にする。一実施例では、ＰＰＵ４００による他のプロセッサに位置するメモリへのアクセス頻度はトレースされて、メモリ・ページが、当該ページにより頻繁にアクセスするＰＰＵ４００の物理メモリに移動されることを確実にする。一実施例では、ＮＶＬｉｎｋ４１０は、アドレス変換サービスをサポートしているため、ＰＰＵ４００はＣＰＵのページ・テーブルに直接アクセスすることができ、ＰＰＵ４００によるＣＰＵメモリへのフル・アクセスが提供される。

【0049】

一実施例では、コピー・エンジンが、複数のＰＰＵ４００間、又はＰＰＵ４００とＣＰＵとの間でデータを転送する。コピー・エンジンは、ページ・テーブルにマッピングされていないアドレスのページ・フォールトを生成することができる。その後、メモリ・パーティション・ユニット４８０は、ページ・フォールトをサービスし、アドレスをページ・テーブルにマッピングし、その後、コピー・エンジンが転送を実行することができる。従来のシステムでは、複数のプロセッサ間での複数のコピー・エンジン操作のためにメモリがピン留めされ（例えば、非ページ可能である）、使用可能なメモリが大幅に削減される。ハードウェア・ページの障害が発生すると、メモリ・ページが存在し、コピー・プロセスが透過的であるかどうかを気にすることなく、アドレスをコピー・エンジンに渡すことができる。

【0050】

メモリ４０４又は他のシステム・メモリからのデータは、メモリ・パーティション・ユニット４８０によってフェッチされ、Ｌ２キャッシュ４６０に保存され得る。Ｌ２キャッシュ４６０は、オン・チップに位置し、様々なＧＰＣ４５０間で共有される。図に示されているように、各メモリ・パーティション・ユニット４８０は、対応するメモリ４０４に関連付けられたＬ２キャッシュの一部分を含む。この場合、より低いレベルのキャッシュは、ＧＰＣ４５０内の様々なユニットに実装され得る。例えば、ＧＰＣ４５０内の処理ユニットの各々は、レベル１（Ｌ１：Ｌｅｖｅｌｏｎｅ）キャッシュを実装することができる。Ｌ１キャッシュは、特定の処理ユニット専用のプライベート・メモリである。Ｌ２キャッシュ４６０は、メモリ・インターフェース４７０及びＸＢａｒ４７０に結合され、Ｌ２キャッシュからのデータはフェッチされ、処理のためにＬ１キャッシュの各々に保存され得る。

【0051】

一実施例では、各ＧＰＣ４５０内の処理ユニットは、単一命令、複数データ（ＳＩＭＤ：Ｓｉｎｇｌｅ－Ｉｎｓｔｒｕｃｔｉｏｎ，Ｍｕｌｔｉｐｌｅ－Ｄａｔａ）アーキテクチャを実装している。このアーキテクチャでは、スレッドのグループ（例えば、ワープ）内の各スレッドが、同じ命令セットに基づいてデータの異なるセットを処理するように構成されている。スレッドのグループ内のすべてのスレッドが同じ命令を実行する。別の実施例では、処理ユニットは、単一命令、複数スレッド（ＳＩＭＴ：Ｓｉｎｇｌｅ－Ｉｎｓｔｒｕｃｔｉｏｎ，Ｍｕｌｔｉｐｌｅ－Ｔｈｒｅａｄ）アーキテクチャを実装している。このアーキテクチャでは、スレッドのグループ内の各スレッドが、同じ命令セットに基づいてデータの異なるセットを処理するように構成されているが、スレッドのグループ内の個々のスレッドは、実行中に分岐することができる。一実施例では、各ワープに対してプログラム・カウンタ、呼び出しスタック、及び実行状態が維持され、ワープ内のスレッドが分岐するときに、ワープとワープ内の直列実行との間での同時並行性が可能になる。別の実施例では、各個々のスレッドに対してプログラム・カウンタ、呼び出しスタック、及び実行状態が維持され、すべてのスレッド間、ワープ内、及びワープ間で等しい同時並行性が可能になる。各個々のスレッドに対して実行状態が維持されるときは、同じ命令を実行するスレッドは収束され、最大効率のために並行して実行され得る。

【0052】

協調グループは、スレッドが通信する粒度を開発者が表現することを可能にする通信スレッドのグループを編成するためのプログラミング・モデルであり、これにより、より豊富で効率的な並列分解の表現が可能になる。協調起動ＡＰＩは、並列アルゴリズムの実行のためのスレッド・ブロック間の同期をサポートする。従来のプログラミング・モデルは、協調スレッドを同期させるための単一の単純なコンストラクトを提供する。つまり、スレッド・ブロック（例えば、ｓｙｎｃｔｈｒｅａｄｓ（）関数）のすべてのスレッドにわたるバリアである。しかしながら、多くの場合、プログラマは、スレッド・ブロックの粒度よりも小さくスレッドのグループを定義し、定義されたグループ内で同期して、より優れた性能、デザインの柔軟性、及び集合的なグループ全体の関数インターフェースの形式でのソフトウェアの再利用を可能にしたいと考える。

【0053】

協調グループは、プログラマがサブ・ブロック（例えば、単一スレッドのように小さい）及びマルチ・ブロック粒度でスレッドのグループを明示的に定義し、協調グループ内のスレッドの同期化などの集合的な操作を実行することを可能にする。プログラミング・モデルは、ソフトウェア境界を越えたクリーンな構成をサポートしているため、ライブラリ及び効用関数は、収束について仮定することなく、ローカル・コンテキスト内で安全に同期することができる。協調グループ・プリミティブは、プロデューサ・コンシューマ並列性、日和見並列性（ｏｐｐｏｒｔｕｎｉｓｔｉｃｐａｒａｌｌｅｌｉｓｍ）、及びスレッド・ブロックのグリッド全体にわたるグローバル同期など、協調的並列性の新しいパターンを可能にする。

【0054】

各処理ユニットは、完全にパイプライン化された単精度、倍精度、及び／又は混合精度であり得、且つ浮動小数点演算論理ユニット及び整数演算論理ユニットであり得る多数（例えば、１２８個など）の個別の処理コア（例えば、機能ユニット）を含む。一実施例では、浮動小数点演算論理ユニットは、浮動小数点演算のためのＩＥＥＥ７５４－２００８規格を実装している。一実施例では、コアは、６４個の単精度（３２ビット）浮動小数点コア、６４個の整数コア、３２個の倍精度（６４ビット）浮動小数点コア、及び８個のテンソル・コアを含む。

【0055】

行列演算を実行するように構成されているテンソル・コア。特に、テンソル・コアは、ニューラル・ネットワークのトレーニング及び推論中の畳み込み演算のための行列行列乗算（ＧＥＭＭ：Ｍａｔｒｉｘ－ＭａｔｒｉｘＭｕｌｔｉｐｌｉｃａｔｉｏｎ）などの深層学習行列演算を実行するように構成されている。一実施例では、各テンソル・コアは、４×４行列に対して演算を行い、行列積和演算Ｄ＝Ａ・Ｂ＋Ｃを実行する。ここで、Ａ、Ｂ、Ｃ、及びＤは４×４行列である。

【0056】

一実施例では、行列乗算入力Ａ及びＢは、整数、固定小数点、又は浮動小数点行列であり得る一方で、累積行列Ｃ及びＤは、等しい又はそれ以上のビット幅の整数、固定小数点、又は浮動小数点行列であり得る。一実施例では、テンソル・コアは、３２ビット整数累積を有する１、４、又は８ビット整数入力データに対して演算を行う。８ビット整数行列乗算では、１０２４回の演算が必要であり、後に８×８×１６行列乗算の他の中間積との３２ビット整数加算を使用して累積される完全精度積がもたらされる。一実施例では、テンソル・コアは、３２ビット浮動小数点累積で１６ビット浮動小数点入力データに対して演算を行う。１６ビット浮動小数点乗算では、６４回の演算が必要であり、後に４×４×４行列乗算の他の中間積との３２ビット浮動小数点加算を使用して累積される完全精度積がもたらされる。実際には、テンソル・コアを使用して、これらのより小さな要素から構築される、より大きな２次元又はより高い次元の行列演算を実行する。ＣＵＤＡ９Ｃ＋＋ＡＰＩなどのＡＰＩは、特殊化した行列ロード、行列積和、及び行列ストア演算を公開して、ＣＵＤＡ－Ｃ＋＋プログラムからテンソル・コアを効率的に使用する。ＣＵＤＡレベルでは、ワープ・レベルのインターフェースは、ワープの３２個のすべてのスレッドにスパンする１６×１６サイズの行列を想定している。

【0057】

各処理ユニットはまた、特殊関数（例えば、属性評価、逆数平方根など）を実行するＭ個の特殊関数ユニット（ＳＦＵ：ＳｐｅｃｉａｌＦｕｎｃｔｉｏｎＵｎｉｔ）を含み得る。一実施例では、ＳＦＵは、階層ツリー・データ構造を横断するように構成されたツリー・トラバーサル・ユニットを含み得る。一実施例では、ＳＦＵは、テクスチャ・マップ・フィルタリング演算を実行するように構成されたテクスチャ・ユニットを含み得る。一実施例では、テクスチャ・ユニットは、メモリ４０４からテクスチャ・マップ（例えば、テクセルの２Ｄ配列）をロードし、テクスチャ・マップをサンプリングして、処理ユニットによって実行されるシェーダ・プログラムで使用するためのサンプリングされたテクスチャ値を生成するように構成されている。一実施例では、テクスチャ・マップは、Ｌ１キャッシュを構成するか又は含めることができる共有メモリに保存される。テクスチャ・ユニットは、ミップ・マップ（例えば、様々な詳細レベルのテクスチャ・マップ）を使用したフィルタリング演算などのテクスチャ演算を実装する。一実施例では、各処理ユニットは、２つのテクスチャ・ユニットを含む。

【0058】

各処理ユニットはまた、共有メモリとレジスタ・ファイルとの間のロード及びストア演算を実装するＮ個のロード・ストア・ユニット（ＬＳＵ：ＬｏａｄＳｔｏｒｅＵｎｉｔ）を含む。各処理ユニットは、コアの各々をレジスタ・ファイルに、ＬＳＵをレジスタ・ファイル、共有メモリに接続するインターコネクト・ネットワークを含む。一実施例では、インターコネクト・ネットワークは、コアのいずれかをレジスタ・ファイル内のレジスタのいずれかに接続し、ＬＳＵをレジスタ・ファイル及び共有メモリ内のメモリ場所に接続するように構成され得るクロスバーである。

【0059】

共有メモリは、データ保存、並びに処理ユニット間及び処理ユニット内のスレッド間での通信を可能にするオン・チップ・メモリの配列である。一実施例では、共有メモリは、１２８ＫＢのストレージ容量を含み、処理ユニットの各々からメモリ・パーティション・ユニット４８０への経路にある。共有メモリは、読み取り及び書き込みのキャッシュに使用することができる。共有メモリ、Ｌ１キャッシュ、Ｌ２キャッシュ、及びメモリ４０４のうちの１つ又は複数がバッキング・ストアである。

【0060】

データ・キャッシュと共有メモリ機能を１つのメモリ・ブロックに組み合わせることで、両方のタイプのメモリ・アクセスにおいて最高の全体的な性能が提供される。容量は、共有メモリを使用しないプログラムによってキャッシュとして使用可能である。例えば、共有メモリが容量の半分を使用するように構成されている場合、テクスチャ及びロード／ストア演算では残りの容量を使用することができる。共有メモリ内への統合により、共有メモリをストリーミング・データ用の高スループット・コンジットとして機能させると同時に、頻繁に再利用されるデータへの高帯域幅及び低レイテンシ・アクセスを提供することが可能となる。

【0061】

汎用並列計算用に構成されていると、グラフィックス処理と比較してより単純な構成を使用することができる。具体的には、固定関数グラフィックス処理ユニットがバイパスされ、より単純なプログラミング・モデルが作成される。汎用並列計算構成では、作業配分ユニット４２５は、ＧＰＣ４５０内の処理ユニットにスレッドのブロックを直接割り当てて配分する。スレッドは、各スレッドが一意の結果を生成することを確実にするために計算において一意のスレッドＩＤを使用し、プログラムを実行し且つ計算を実行するために処理ユニットを使用し、スレッド間で通信するために共有メモリを使用し、共有メモリ及びメモリ・パーティション・ユニット４８０を介してグローバル・メモリの読み取り及び書き込みを行うためにＬＳＵを使用して、同じプログラムを実行する。汎用並列計算用に構成されていると、処理ユニットはまた、スケジューラ・ユニット４２０が処理ユニットでの新しい作業を開始するために使用することができるコマンドを書き込むことができる。

【0062】

ＰＰＵ４００の各々は、テンソル・コア（ＴＣ：ＴｅｎｓｏｒＣｏｒｅ）、テンソル処理ユニット（ＴＰＵ：ＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ピクセル・ビジュアル・コア（ＰＶＣ：ＰｉｘｅｌＶｉｓｕａｌＣｏｒｅ）、レイ・トレーシング（ＲＴ：ＲａｙＴｒａｃｉｎｇ）コア、ビジョン処理ユニット（ＶＰＵ：ＶｉｓｉｏｎＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、グラフィックス処理クラスタ（ＧＰＣ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒ）、テクスチャ処理クラスタ（ＴＰＣ：ＴｅｘｔｕｒｅＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒ）、ストリーミング・マルチプロセッサ（ＳＭ：ＳｔｒｅａｍｉｎｇＭｕｌｔｉｐｒｏｃｅｓｓｏｒ）、ツリー・トラバーサル・ユニット（ＴＴＵ：ＴｒｅｅＴｒａｖｅｒｓａｌＵｎｉｔ）、人工知能アクセラレータ（ＡＩＡ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＡｃｃｅｌｅｒａｔｏｒ）、深層学習アクセラレータ（ＤＬＡ：ＤｅｅｐＬｅａｒｎｉｎｇＡｃｃｅｌｅｒａｔｏｒ）、算術論理ユニット（ＡＬＵ：Ａｒｉｔｈｍｅｔｉｃ－ＬｏｇｉｃＵｎｉｔ）、特定用途向け集積回路（ＡＳＩＣ：Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、浮動小数点ユニット（ＦＰＵ：ＦｌｏａｔｉｎｇＰｏｉｎｔＵｎｉｔ）、入出力（Ｉ／Ｏ）要素、又はペリフェラル・コンポーネント・インターコネクト（ＰＣＩ：ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）又はペリフェラル・コンポーネント・インターコネクト・エクスプレス（ＰＣＩｅ）要素など、１つ又は複数の処理コア及び／又はそのコンポーネントを含むか、及び／又はその機能を実行するように構成され得る。

【0063】

ＰＰＵ４００は、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、サーバ、スーパーコンピュータ、スマートフォン（例えば、ワイヤレスのハンド・ヘルド・デバイス）、携帯情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、デジタル・カメラ、車両、ヘッド・マウント・ディスプレイ、ハンド・ヘルド電子デバイスなどに含まれていてもよい。一実施例では、ＰＰＵ４００は、単一の半導体基板上に具体化される。別の実施例では、ＰＰＵ４００は、追加のＰＰＵ４００、メモリ４０４、縮小命令セット・コンピュータ（ＲＩＳＣ：ＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ）ＣＰＵ、メモリ管理ユニット（ＭＭＵ：ＭｅｍｏｒｙＭａｎａｇｅｍｅｎｔＵｎｉｔ）、ディジタル・アナログ・コンバータ（ＤＡＣ：Ｄｉｇｉｔａｌ－ｔｏ－ＡｎａｌｏｇＣｏｎｖｅｒｔｅｒ）などの１つ又は複数のデバイスとともに、システム・オン・チップ（ＳｏＣ）に含まれている。

【0064】

一実施例では、ＰＰＵ４００は、１つ又は複数のメモリ・デバイスを含むグラフィックス・カード上に含まれていてもよい。グラフィックス・カードは、デスクトップ・コンピュータのマザーボード上のＰＣＩｅスロットとインターフェースするように構成され得る。更に別の実施例では、ＰＰＵ４００は、マザーボードのチップセットに含まれる統合型グラフィックス処理ユニット（ｉＧＰＵ）又は並列プロセッサであってもよい。更に別の実施例では、ＰＰＵ４００は、再構成可能なハードウェアで実現されてもよい。更に別の実施例では、ＰＰＵ４００の一部が、再構成可能なハードウェアで実現されてもよい。

【0065】

模範的な計算システム
人工知能計算などのアプリケーションにおいて、開発者がより多くの並列性を公開及び活用するようになるにつれて、多数のＧＰＵ及びＣＰＵを備えたシステムが様々な業界で使用されている。数十から数千もの計算ノードを備えた高性能ＧＰＵ高速化システムが、データ・センタ、研究施設、スーパーコンピュータに導入され、これまでになく大きな問題を解決する。高性能システム内の処理デバイスの数が増えるにつれて、通信及びデータ転送機構は、帯域幅の増加に対応するように拡張する必要がある。

【0066】

図５Ａは、一実施例による、図４のＰＰＵ４００を使用して実装された処理システム５００の概念図である。模範的なシステム５００は、図３に示される方法３００を実装するように構成され得る。処理システム５００は、ＣＰＵ５３０、スイッチ５１０、及び複数のＰＰＵ４００とそれぞれのメモリ４０４を含む。

【0067】

ＮＶＬｉｎｋ４１０は、ＰＰＵ４００の各々間に高速通信リンクを提供する。図５Ｂに特定の数のＮＶＬｉｎｋ４１０及びインターコネクト４０２接続が例示されているが、各ＰＰＵ４００及びＣＰＵ５３０への接続数は異なっていてもよい。スイッチ５１０は、インターコネクト４０２とＣＰＵ５３０との間でインターフェースする。ＰＰＵ４００、メモリ４０４、及びＮＶＬｉｎｋ４１０は、単一の半導体プラットフォーム上に位置付けられて、並列処理モジュール５２５を形成することができる。一実施例では、スイッチ５１０は、様々な異なる接続及び／又はリンク間でインターフェースするために、２つ以上のプロトコルをサポートする。

【0068】

別の実施例（図示せず）では、ＮＶＬｉｎｋ４１０は、ＰＰＵ４００の各々とＣＰＵ５３０との間に１つ又は複数の高速通信リンクを提供し、スイッチ５１０は、インターコネクト４０２とＰＰＵ４００の各々との間でインターフェースする。ＰＰＵ４００、メモリ４０４、及びインターコネクト４０２は、単一の半導体プラットフォーム上に位置付けられて、並列処理モジュール５２５を形成することができる。更に別の実施例（図示せず）では、インターコネクト４０２は、ＰＰＵ４００の各々とＣＰＵ５３０との間に１つ又は複数の通信リンクを提供し、スイッチ５１０は、ＮＶＬｉｎｋ４１０を使用してＰＰＵ４００の各々間でインターフェースして、ＰＰＵ４００間に１つ又は複数の高速通信リンクを提供する。別の実施例（図示せず）では、ＮＶＬｉｎｋ４１０は、スイッチ５１０を介してＰＰＵ４００とＣＰＵ５３０との間に１つ又は複数の高速通信リンクを提供する。更に別の実施例（図示せず）では、インターコネクト４０２は、ＰＰＵ４００の各々間に直接１つ又は複数の通信リンクを提供する。ＮＶＬｉｎｋ４１０高速通信リンクのうちの１つ又は複数は、物理ＮＶＬｉｎｋインターコネクトとして、又はＮＶＬｉｎｋ４１０と同じプロトコルを使用して、オン・チップ又はオン・ダイのいずれかのインターコネクトとして実装され得る。

【0069】

本説明のコンテキストでは、単一の半導体プラットフォームとは、ダイ又はチップ上に製作された単独の単位的な半導体ベースの集積回路を指し得る。単一の半導体プラットフォームという用語はまた、接続性が向上したマルチ・チップ・モジュールを指し、オン・チップ操作をシミュレートし、従来のバス実装を利用するよりも大幅な向上があることに留意されたい。当然ながら、様々な回路又はデバイスはまた、ユーザの希望に応じて、個別に又は半導体プラットフォームの様々な組み合わせに位置付けられてもよい。交互に、並列処理モジュール５２５は、回路ボード基板として実装されてもよく、ＰＰＵ４００及び／又はメモリ４０４の各々は、パッケージ・デバイスであってもよい。一実施例では、ＣＰＵ５３０、スイッチ５１０、及び並列処理モジュール５２５は、単一の半導体プラットフォーム上に位置付けられている。

【0070】

一実施例では、各ＮＶＬｉｎｋ４１０の信号速度は、２０～２５ギガビット／秒であり、各ＰＰＵ４００は、６つのＮＶＬｉｎｋ４１０インターフェースを含む（図５Ａに示されるように、各ＰＰＵ４００に５つのＮＶＬｉｎｋ４１０インターフェースが含まれる）。各ＮＶＬｉｎｋ４１０は、各方向に２５ギガバイト／秒のデータ転送レートを提供し、６つのリンクは、４００ギガバイト／秒を提供する。ＮＶＬｉｎｋ４１０は、図５Ａに示されるように、ＰＰＵ－ＰＰＵ間の通信に排他的に使用することができる。又は、ＣＰＵ５３０も１つ又は複数のＮＶＬｉｎｋ４１０インターフェースを含むときは、ＰＰＵ－ＰＰＵ間及びＰＰＵ－ＣＰＵ間の何らかの組み合わせに使用することができる。

【0071】

一実施例では、ＮＶＬｉｎｋ４１０は、ＣＰＵ５３０から各ＰＰＵ４００のメモリ４０４への直接ロード／保存／アトミック・アクセスを可能にする。一実施例では、ＮＶＬｉｎｋ４１０は、コヒーレンシー操作をサポートするため、メモリ４０４から読み取られたデータをＣＰＵ５３０のキャッシュ階層に保存して、ＣＰＵ５３０のキャッシュ・アクセス・レイテンシを低減することを可能にする。一実施例では、ＮＶＬｉｎｋ４１０は、アドレス・トランスレーション・サービス（ＡＴＳ：ＡｄｄｒｅｓｓＴｒａｎｓｌａｔｉｏｎＳｅｒｖｉｃｅ）のサポートを含んでいるため、ＰＰＵ４００がＣＰＵ５３０内のページ・テーブルに直接アクセスすることを可能にする。ＮＶＬｉｎｋ４１０のうちの１つ又は複数はまた、低電力モードで動作するように構成され得る。

【0072】

図５Ｂは、様々な前の実施例の様々なアーキテクチャ及び／又は機能が実装され得る模範的なシステム５６５を示す。模範的なシステム５６５は、図３に示される方法３００を実装するように構成され得る。

【0073】

図に示されているように、通信バス５７５に接続されている少なくとも１つの中央処理ユニット５３０を含むシステム５６５が提供されている。通信バス５７５は、次のデバイス：メイン・メモリ５４０、ネットワーク・インターフェース５３５、ＣＰＵ５３０、ディスプレイ・デバイス５４５、入力デバイス５６０、スイッチ５１０、及び並列処理システム５２５のうちの１つ又は複数を直接又は間接的に結合し得る。通信バス５７５は、任意の適切なプロトコルを使用して実装され得、また、アドレス・バス、データ・バス、制御バス、又はこれらの組み合わせなどの１つ又は複数のリンク又はバスを表し得る。通信バス５７５には、業界標準アーキテクチャ（ＩＳＡ：ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、拡張業界標準アーキテクチャ（ＥＩＳＡ：ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（ＶＥＳＡ：ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）バス、ペリフェラル・コンポーネント・インターコネクト（ＰＣＩ）バス、ペリフェラル・コンポーネント・インターコネクト・エクスプレス（ＰＣＩｅ）バス、ＨｙｐｅｒＴｒａｎｓｐｏｒｔ、及び／又は別のタイプのバス若しくはリンクなど、１つ又は複数のバス又はリンクのタイプが含まれ得る。いくつかの実施例では、コンポーネント間に直接接続がある。一実例として、ＣＰＵ５３０は、メイン・メモリ５４０に直接接続され得る。更に、ＣＰＵ５３０は、並列処理システム５２５に直接接続され得る。コンポーネント間に直接又はポイント・ツー・ポイント接続がある場合、通信バス５７５は、接続を実行するためにＰＣＩｅリンクを含み得る。これらの実例では、ＰＣＩバスをシステム５６５に含める必要はない。

【0074】

図５Ｂの様々なブロックは、通信バス５７５を介して回線で接続されているものとして示されているが、これは限定を意図したものではなく、明確にするためだけのものである。例えば、いくつかの実施例では、ディスプレイ・デバイス５４５などのプレゼンテーション・コンポーネントは、入力デバイス５６０などのＩ／Ｏコンポーネントと見なされ得る（例えば、ディスプレイがタッチ・スクリーンの場合）。別の実例として、ＣＰＵ５３０及び／又は並列処理システム５２５は、メモリを含み得る（例えば、メイン・メモリ５４０は、並列処理システム５２５、ＣＰＵ５３０、及び／又は他のコンポーネントに加えて、ストレージ・デバイスを表し得る）。つまり、図５Ｂの計算デバイスは例示にすぎない。図５Ｂの計算デバイスの範囲内であるとすべて企図されるため、「ワークステーション」、「サーバ」、「ラップトップ」、「デスクトップ」、「タブレット」、「クライアント・デバイス」、「モバイル・デバイス」、「ハンド・ヘルド・デバイス」、「ゲーム・コンソール」、「電子制御ユニット（ＥＣＵ：ＥｌｅｃｔｒｏｎｉｃＣｏｎｔｒｏｌＵｎｉｔ）」、「仮想現実システム」、及び／又は他のデバイス若しくはシステムのタイプなどのカテゴリ間で区別はされない。

【0075】

システム５６５はまた、メイン・メモリ５４０を含む。制御論理（ソフトウェア）及びデータは、様々なコンピュータ可読媒体の形式を取り得るメイン・メモリ５４０に保存される。コンピュータ可読媒体は、システム５６５によってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータ可読媒体には、揮発性及び不揮発性媒体、並びにリムーバブル及び非リムーバブル媒体の両方が含まれ得る。例として、限定ではないが、コンピュータ可読媒体は、コンピュータ・ストレージ媒体及び通信媒体を含み得る。

【0076】

コンピュータ・ストレージ媒体には、コンピュータ可読命令、データ構造、プログラム・モジュール、及び／又は他のデータ・タイプなどの情報の保存のための任意の方法又は技術で実装された揮発性及び不揮発性媒体及び／又はリムーバブル及び非リムーバブル媒体の両方が含まれ得る。例えば、メイン・メモリ５４０は、コンピュータ可読命令（例えば、プログラム及び／又はオペレーティング・システムなどのプログラム要素を表す）を保存し得る。コンピュータ・ストレージ媒体には、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュ・メモリ若しくは他のメモリ技術、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ：ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）若しくは他の光学ディスク・ストレージ、磁気カセット、磁気テープ、磁気ディスク・ストレージ若しくは他の磁気ストレージ・デバイス、又は、所望の情報を保存するために使用され得、且つシステム５６５によってアクセスされ得る任意の他の媒体が含まれるが、これらに限定されない。本明細書で使用される場合、コンピュータ・ストレージ媒体は、信号自体は含まない。

【0077】

コンピュータ・ストレージ媒体は、搬送波又は他の輸送機構などの変調されたデータ信号でコンピュータ可読命令、データ構造、プログラム・モジュール、及び／又は他のデータ・タイプを具体化し得、任意の情報配信媒体を含み得る。「変調されたデータ信号」という用語は、信号内の情報を符号化するようにその特性のうちの１つ又は複数が設定又は変更されている信号を指し得る。例として、限定ではないが、コンピュータ・ストレージ媒体には、有線ネットワーク又は直接有線接続などの有線メディア、並びに音響、ＲＦ、赤外線、及び他のワイヤレス媒体などのワイヤレス媒体が含まれ得る。上記のいずれかの組み合わせもまた、コンピュータ可読媒体の範囲に含まれる。

【0078】

コンピュータ・プログラムは、実行されると、システム５６５が様々な機能を実行することを可能にする。ＣＰＵ５３０は、コンピュータ可読命令のうちの少なくともいくつかを実行して、システム５６５の１つ又は複数のコンポーネントを制御して、本明細書で説明される方法及び／又はプロセスのうちの１つ又は複数を実行するように構成され得る。ＣＰＵ５３０の各々は、多数のソフトウェア・スレッドを同時に処理することが可能である１つ又は複数のコア（例えば、１、２、４、８、２８、７２個など）を含み得る。ＣＰＵ５３０は、任意のタイプのプロセッサを含み得、また、実装されているシステム５６５のタイプに応じて、異なるタイプのプロセッサ（例えば、モバイル・デバイスではコア数が少ないプロセッサ、サーバではコア数が多いプロセッサ）を含み得る。例えば、システム５６５のタイプに応じて、プロセッサは、縮小命令セット計算（ＲＩＳＣ）を使用して実装されるアドバンスドＲＩＳＣマシン（ＡＲＭ：ＡｄｖａｎｃｅｄＲＩＳＣＭａｃｈｉｎｅ）プロセッサ、又は複合命令セット計算（ＣＩＳＣ：ＣｏｍｐｌｅｘＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｉｎｇ）を使用して実装される×８６プロセッサであり得る。システム５６５は、１つ又は複数のマイクロプロセッサ、又は数学コ・プロセッサなどの補助コ・プロセッサに加えて、１つ又は複数のＣＰＵ５３０を含み得る。

【0079】

ＣＰＵ５３０に加えて又はそれに代えて、並列処理モジュール５２５は、コンピュータ可読命令のうちの少なくともいくつかを実行して、システム５６５の１つ又は複数のコンポーネントを制御して、本明細書で説明される方法及び／又はプロセスのうちの１つ又は複数を実行するように構成され得る。並列処理モジュール５２５は、システム５６５によって使用されて、グラフィックス（例えば、３Ｄグラフィックス）がレンダリングされるか、又は汎用計算が実行され得る。例えば、並列処理モジュール５２５は、ＧＰＵでの汎用計算（ＧＰＧＰＵ：Ｇｅｎｅｒａｌ－ＰｕｒｐｏｓｅｃｏｍｐｕｔｉｎｇｏｎＧＰＵ）に使用され得る。一実施例では、ＣＰＵ５３０及び／又は並列処理モジュール５２５は、方法、プロセス、及び／又はこれらの一部分の任意の組み合わせを個別に又は共同で実行し得る。

【0080】

システム５６５はまた、入力デバイス５６０、並列処理システム５２５、及びディスプレイ・デバイス５４５を含む。ディスプレイ・デバイス５４５には、ディスプレイ（例えば、モニタ、タッチ・スクリーン、テレビ画面、ヘッドアップディスプレイ（ＨＵＤ：Ｈｅａｄｓ－Ｕｐ－Ｄｉｓｐｌａｙ）、他のディスプレイ・タイプ、又はこれらの組み合わせ）、スピーカ、及び／又は他のプレゼンテーション・コンポーネントが含まれ得る。ディスプレイ・デバイス５４５は、他のコンポーネント（例えば、並列処理システム５２５、ＣＰＵ５３０など）からデータを受信し、データ（例えば、画像、ビデオ、サウンドなど）を出力し得る。

【0081】

ネットワーク・インターフェース５３５は、システム５６５が、入力デバイス５６０、ディスプレイ・デバイス５４５、及び／又は他のコンポーネント（そのうちのいくつかは、システム５６５に組み込まれていても（例えば、統合されていても）よい）を含む他のデバイスに論理的に結合されることを可能にし得る。例示的な入力デバイス５６０には、マイク、マウス、キーボード、ジョイスティック、ゲーム・パッド、ゲーム・コントローラ、サテライト・ディッシュ、スキャナ、プリンタ、ワイヤレス・デバイスなどが含まれる。入力デバイス５６０は、ユーザが生成したエア・ジェスチャ、声、又は他の生理学的入力を処理するナチュラル・ユーザ・インターフェース（ＮＵＩ：ＮａｔｕｒａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）を提供し得る。場合によっては、入力は、更なる処理のために適切なネットワーク要素に送信され得る。ＮＵＩは、音声認識、スタイラス認識、顔認識、バイオメトリック認識、画面上と画面の隣との両方のジェスチャ認識、エア・ジェスチャ、頭部及び目の追跡、並びにシステム５６５のディスプレイに関連付けられたタッチ認識（以下により詳細に説明される）の任意の組み合わせを実装し得る。システム５６５は、ジェスチャ検出及び認識のために、立体カメラ・システム、赤外線カメラ・システム、ＲＧＢカメラ・システム、タッチ・スクリーン技術、及びこれらの組み合わせなどの深度カメラを含み得る。追加的に、システム５６５は、動きの検出を可能にする加速度計又はジャイロスコープ（例えば、慣性測定ユニット（ＩＭＵ：ＩｎｅｒｔｉａＭｅａｓｕｒｅｍｅｎｔＵｎｉｔ）の一部として）を含み得る。いくつかの実例では、加速度計又はジャイロスコープの出力は、システム５６５によって使用されて、没入感のある拡張現実又は仮想現実をレンダリングすることができる。

【0082】

更に、システム５６５は、通信のために、ネットワーク・インターフェース５３５を介してネットワーク（例えば、電気通信ネットワーク、ローカル・エリア・ネットワーク（ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ワイヤレス・ネットワーク、インターネット、ピア・ツー・ピア・ネットワーク、ケーブル・ネットワークなどのワイド・エリア・ネットワーク（ＷＡＮ：ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ））に結合され得る。システム５６５は、分散ネットワーク及び／又はクラウド計算環境内に含まれていてもよい。

【0083】

ネットワーク・インターフェース５３５は、１つ又は複数の受信器、送信器、及び／又はトランシーバを含み得る。トランシーバは、システム５６５が、有線及び／又はワイヤレス通信を含む電子通信ネットワークを介して他の計算デバイスと通信することを可能にする。ネットワーク・インターフェース５３５は、パケット構文解析、並びにネットワーク処理及び通信の高速化（例えば、であり、限定されない）などの操作を実行するために、１つ又は複数の処理ユニット（ＤＰＵ：ＤａｔａＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を含むネットワーク・インターフェース・コントローラ（ＮＩＣ：ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣｏｎｔｒｏｌｌｅｒ）として実装され得る。ネットワーク・インターフェース５３５は、ワイヤレス・ネットワーク（例えば、Ｗｉ－Ｆｉ、Ｚ－Ｗａｖｅ、ブルートゥース（登録商標）、ブルートゥースＬＥ、ＺｉｇＢｅｅなど）、有線ネットワーク（例えば、イーサネット（登録商標）又はＩｎｆｉｎｉＢａｎｄ経由の通信）、ロー・パワー・ワイド・エリア・ネットワーク（例えば、ＬｏＲａＷＡＮ、ＳｉｇＦｏｘなど）、及び／又はインターネットなどの多数の異なるネットワークのうちのいずれかを介した通信を可能にするためにコンポーネント及び機能を含み得る。

【0084】

システム５６５はまた、セカンダリ・ストレージ（図示せず）を含み得る。セカンダリ・ストレージには、例えば、フロッピー（登録商標）・ディスク・ドライブ、磁気テープ・ドライブ、コンパクト・ディスク・ドライブ、デジタル多用途ディスク（ＤＶＤ）ドライブ、録音デバイス、ユニバーサル・シリアル・バス（ＵＳＢ：ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）フラッシュ・メモリを表す、ハード・ディスク・ドライブ及び／又はリムーバブル・ストレージ・ドライブが含まれる。リムーバブル・ストレージ・ドライブは、よく知られている方法でリムーバブル・ストレージ・ユニットに対する読み取り／書き込みを行う。システム５６５はまた、ハード・ワイヤード電源、バッテリ電源、又はこれらの組み合わせ（図示せず）を含み得る。電源は、システム５６５のコンポーネントが動作することを可能にするために、システム５６５に給電し得る。

【0085】

上記のモジュール及び／又はデバイスの各々さえも、単一の半導体プラットフォーム上に位置付けられて、システム５６５を形成することができる。交互に、様々なモジュールはまた、ユーザの希望に応じて、個別に、又は半導体プラットフォームの様々な組み合わせに位置付けられてもよい。上記では様々な実施例について説明しているが、これらの実施例は、限定ではなく、例としてのみ提示されていることを理解すべきである。したがって、好ましい実施例の幅及び範囲は、上記の模範的な実施例のいずれにも限定されるべきではなく、以下の特許請求の範囲及びその均等物に従ってのみ定義されるべきである。

【0086】

ネットワーク環境例
本開示の実施例を実装する際の使用に適しているネットワーク環境は、１つ又は複数のクライアント・デバイス、サーバ、ネットワーク・アッタッチド・ストレージ（ＮＡＳ：ＮｅｔｗｏｒｋＡｔｔａｃｈｅｄＳｔｏｒａｇｅ）、他のバックエンド・デバイス、及び／又は他のデバイス・タイプを含み得る。クライアント・デバイス、サーバ、及び／又は他のデバイス・タイプ（例えば、各デバイス）は、図５Ａの処理システム５００及び／又は図５Ｂの模範的なシステム５６５の１つ又は複数のインスタンスに実装され得る。例えば、各デバイスは、処理システム５００及び／又は模範的なシステム５６５の同様のコンポーネント、特徴、及び／又は機能を含み得る。

【0087】

ネットワーク環境のコンポーネントは、有線、ワイヤレス、又はその両方であり得るネットワークを介して互いに通信し得る。ネットワークには、複数のネットワーク又はネットワークのネットワークが含まれ得る。例として、ネットワークには、１つ又は複数のワイド・エリア・ネットワーク（ＷＡＮ）、１つ又は複数のローカル・エリア・ネットワーク（ＬＡＮ）、インターネット及び／又は公衆電話交換網（ＰＳＴＮ：ＰｕｂｌｉｃＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ）などの１つ又は複数のパブリック・ネットワーク、並びに／又は、１つ又は複数のプライベート・ネットワークが含まれ得る。ネットワークにワイヤレス電気通信ネットワークが含まれている場合、基地局、通信塔、又は更にはアクセス・ポイント（及び他のコンポーネント）などのコンポーネントがワイヤレス接続性を提供し得る。

【0088】

互換性のあるネットワーク環境には、１つ又は複数のピア・ツー・ピア・ネットワーク環境（この場合、サーバはネットワーク環境に含まれ得ない）、及び１つ又は複数のクライアント・サーバ・ネットワーク環境（この場合、１つ又は複数のサーバがネットワーク環境に含まれ得る）が含まれ得る。ピア・ツー・ピア・ネットワーク環境では、本明細書で説明されるサーバに関する機能は、任意の数のクライアント・デバイスで実装され得る。

【0089】

少なくとも１つの実施例では、ネットワーク環境には、１つ又は複数のクラウド・ベースのネットワーク環境、分散計算環境、これらの組み合わせなどが含まれ得る。クラウド・ベースのネットワーク環境は、フレームワーク層、ジョブ・スケジューラ、リソース・マネージャ、及び１つ又は複数のサーバ（１つ又は複数のコア・ネットワーク・サーバ及び／又はエッジ・サーバを含み得る）で実装される分散ファイル・システムを含み得る。フレームワーク層は、ソフトウェア層のソフトウェア及び／又はアプリケーション層の１つ又は複数のアプリケーションをサポートするためのフレームワークを含み得る。ソフトウェア又はアプリケーションには、それぞれ、ウェブ・ベースのサービス・ソフトウェア又はアプリケーションが含まれ得る。実施例では、クライアント・デバイスのうちの１つ又は複数が、（例えば、１つ又は複数のアプリケーション・プログラミング・インターフェース（ＡＰＩ）を介してサービス・ソフトウェア及び／又はアプリケーションにアクセスすることによって）ウェブ・ベースのサービス・ソフトウェア又はアプリケーションを使用し得る。フレームワーク層は、大規模なデータ処理（例えば、「ビッグ・データ」）に分散ファイル・システムを使用し得るなど、無料のオープン・ソースのソフトウェア・ウェブ・アプリケーション・フレームワークの一タイプであり得るが、これに限定されない。

【0090】

クラウド・ベースのネットワーク環境は、本明細書で説明される計算及び／又はデータ・ストレージ機能（又はその１つ又は複数の部分）の組み合わせを実行するクラウド計算及び／又はクラウド・ストレージを提供し得る。これらの様々な機能はいずれも、（例えば、州、地域、国、地球などの全体に分散され得る１つ又は複数のデータ・センタの）中央又はコア・サーバから複数の場所に分散され得る。ユーザ（例えば、クライアント・デバイス）への接続がエッジ・サーバに比較的近い場合、コア・サーバはエッジ・サーバに機能のうちの少なくとも一部分を指定し得る。クラウド・ベースのネットワーク環境は、プライベート（例えば、単一の組織に限定される）であっても、パブリック（例えば、多くの組織で利用可能である）であっても、及び／又はこれらの組み合わせ（例えば、ハイブリッドのクラウド環境）であってもよい。

【0091】

クライアント・デバイスは、図５Ａの処理システム例５００及び／又は図５Ｂの模範的なシステム５６５のコンポーネント、特徴、及び／又は機能のうちの少なくともいくつかを含み得る。例として、限定ではないが、クライアント・デバイスは、パーソナル・コンピュータ（ＰＣ：ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ラップトップ・コンピュータ、モバイル・デバイス、スマートフォン、タブレット・コンピュータ、スマート・ウォッチ、ウェアラブル・コンピュータ、携帯情報端末（ＰＤＡ）、ＭＰ３プレーヤ、仮想現実ヘッドセット、全地球測位システム（ＧＰＳ：ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）若しくはデバイス、ビデオ・プレーヤ、ビデオ・カメラ、監視デバイス若しくはシステム、車両、ボート、飛行船、仮想マシン、ドローン、ロボット、ハンド・ヘルド通信デバイス、病院用デバイス、ゲーム・デバイス若しくはシステム、エンターテインメント・システム、車載コンピュータ・システム、組み込みシステム・コントローラ、リモート・コントロール、電化製品、家庭用電子機器、ワークステーション、エッジ・デバイス、これらの描出したデバイスの任意の組み合わせ、又は任意の他の適切なデバイスとして具体化され得る。

【0092】

機械学習
ＰＰＵ４００などのプロセッサ上で開発された深層ニューラル・ネットワーク（ＤＮＮ：ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）は、自動運転車から、医薬品開発の迅速化、オンライン画像データベースでの自動画像キャプショニングから、ビデオ・チャット・アプリケーションでのスマートなリアル・タイム言語翻訳まで、様々な使用事例に使用されてきている。深層学習は、人間の脳の神経学習過程をモデル化し、継続的に学習し、継続的によりスマートになり、時間の経過とともにより正確な結果をより迅速にもたらす手法である。子どもは、まず大人から様々な形状を正しく識別して分類するように教育を受け、最終的には、指導なしで形状を特定できるようになる。同様に、深層学習システム又はニューラル学習システムは、基本的なオブジェクト、隠れたオブジェクトなどをよりスマート且つ効率的に識別すると同時に、オブジェクトにコンテキストを割り当てるために、オブジェクト認識及び分類に関するトレーニングを受ける必要がある。

【0093】

最も単純なレベルでは、人間の脳のニューロンは、受け取った様々な入力を観察し、これらの入力の各々に重要度レベルが割り当てられ、作用するために他のニューロンに出力が渡される。人工ニューロン又はパーセプトロンは、ニューラル・ネットワークの最も基本的なモデルである。１つの実例では、パーセプトロンは、パーセプトロンが認識及び分類するようにトレーニングされているオブジェクトの様々な特徴を表す１つ又は複数の入力を受け取ることができ、これらの特徴の各々には、オブジェクトの形状を定義する際のその特徴の重要度に基づいて、特定の重みが割り当てられる。

【0094】

深層ニューラル・ネットワーク（ＤＮＮ）モデルは、膨大な量の入力データでトレーニングされて複雑な問題を高精度で迅速に解決することができる多数の接続ノードの複数の層（例えば、パーセプトロン、ボルツマン・マシン、放射基底関数、畳み込み層など）を含む。１つの実例では、ＤＮＮモデルの第１の層は、自動車の入力画像を様々なセクションに分割し、直線及び角度などの基本パターンを探す。第２の層は、線を集めて、ホイール、フロントガラス、及びミラーなどの上位レベルのパターンを探す。次の層は、車両のタイプを識別し、いくつかの最終層は、入力画像のラベルを生成し、特定の自動車ブランドのモデルを識別する。

【0095】

ＤＮＮがトレーニングされると、ＤＮＮを導入及び使用して、推論として知られているプロセスでオブジェクト又はパターンを識別及び分類することができる。推論（ＤＮＮが所与の入力から有用な情報を抽出するプロセス）の実例としては、ＡＴＭマシンに預け入れされた小切手の手書きの数字を識別すること、写真の中の友人の画像を識別すること、５，０００万人以上のユーザに推薦する映画を提供すること、無人自動車において様々なタイプの自動車、歩行者、及び道路障害物を識別及び分類すること、又は、人間の音声をリアル・タイムで翻訳することが挙げられる。

【0096】

トレーニング中、データは、入力に対応するラベルを示す予測が生成されるまで、順方向伝播フェーズでＤＮＮを通過する。ニューラル・ネットワークが入力に正しくラベルを付けない場合、正しいラベルと予測ラベルとの間のエラーが解析され、ＤＮＮが当該入力とトレーニング・データセットの他の入力に正しくラベルを付けるまで、後方向伝播フェーズ中に各特徴の重みが調整される。複雑なニューラル・ネットワークをトレーニングするには、ＰＰＵ４００でサポートされる浮動小数点乗算及び加算など、大量の並列計算性能が必要である。推論は、トレーニングよりも計算集約的ではなく、トレーニングされたニューラル・ネットワークがこれまでに見たことのない新しい入力に適用されて、画像を分類し、感情を検出し、推薦事項を特定し、音声を認識及び翻訳し、概して新しい情報を推論するレイテンシに敏感なプロセスである。

【0097】

ニューラル・ネットワークは、行列数学演算に大きく依存しており、複雑な多層ネットワークでは、効率と速度との両方のために多大な量の浮動小数点性能及び帯域幅が必要である。行列数学演算に最適化され、且つ数十から数百のＴＦＬＯＰＳの性能を提供する数千の処理コアによって、ＰＰＵ４００は、深層ニューラル・ネットワーク・ベースの人工知能及び機械学習アプリケーションに必要な性能を提供することが可能である計算プラットフォームである。

【0098】

更に、本明細書に開示される手法のうちの１つ又は複数を適用して生成される画像を使用して、現実世界のオブジェクト及び環境を認識するために使用されるＤＮＮのトレーニング、テスト、又は認定を行うことができる。このような画像には、道路、工場、建物、都市部の環境、農村部の環境、人間、動物、及び他の物理的オブジェクト又は現実世界の環境のシーンが含まれ得る。このような画像を使用して、現実世界の物理的オブジェクトを操作する、処理する、又は修正するためにマシン又はロボットに採用されるＤＮＮのトレーニング、テスト、及び認定を行うことができる。更に、このような画像を使用して、現実世界で車両をナビゲート及び動かすために自律走行車両に採用されるＤＮＮのトレーニング、テスト、及び認定を行うことができる。追加的に、本明細書に開示される手法のうちの１つ又は複数を適用して生成される画像を使用して、そのようなマシン、ロボット、及び車両のユーザに情報を伝えることができる。

【0099】

図５Ｃは、少なくとも１つの実施例による、機械学習のトレーニング及び利用に使用できる模範的なシステム５５５のコンポーネントを示す。考察するように、様々なコンポーネントは、単一のエンティティ又は複数のエンティティの制御下にあり得る、計算デバイス及びリソースの様々な組み合わせ、又は単一の計算システムによって提供することができる。更に、様々なエンティティによって、態様がトリガされ、開始され、又は要求され得る。少なくとも１つの実施例では、ニューラル・ネットワークのトレーニングは、プロバイダ環境５０６に関連付けられたプロバイダから指示され得る一方で、少なくとも１つの実施例では、トレーニングは、クライアント・デバイス５０２又は他のそのようなリソースを介してプロバイダ環境へアクセスする顧客又は他のユーザから要求され得る。少なくとも１つの実施例では、トレーニング・データ（又はトレーニングされたニューラル・ネットワークによって解析されるデータ）は、プロバイダ、ユーザ、又はサード・パーティ・コンテンツ・プロバイダ５２４によって提供され得る。少なくとも１つの実施例では、クライアント・デバイス５０２は、ユーザの代理としてナビゲートされる車両又はオブジェクトであり得、例えば、デバイスのナビゲーションを支援するリクエストを提出する及び／又は指示を受信することができる。

【0100】

少なくとも１つの実施例では、プロバイダ環境５０６によって受信されるように、少なくとも１つのネットワーク５０４を介してリクエストを提出することができる。少なくとも１つの実施例では、クライアント・デバイスは、デスクトップ・コンピュータ、ノートブック・コンピュータ、コンピュータ・サーバ、スマートフォン、タブレット・コンピュータ、ゲーム・コンソール（ポータブルであるか又はそうでないもの）、コンピュータ・プロセッサ、計算論理、及びセット・トップ・ボックスなどであるが、これらに限定されない、ユーザがそのようなリクエストを生成及び送信することを可能にする任意の適切な電子及び／又は計算デバイスであり得る。ネットワーク５０４には、インターネット、イントラネット、イーサネット（登録商標）、セルラ・ネットワーク、ローカル・エリア・ネットワーク（ＬＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、パーソナル・エリア・ネットワーク（ＰＡＮ：ＰｅｒｓｏｎａｌＡｒｅａＮｅｔｗｏｒｋ）、ピア間の直接ワイヤレス接続のアド・ホック・ネットワークなどを含み得る、リクエスト又は他のそのようなデータを送信するための適切なネットワークが含まれ得る。

【0101】

少なくとも１つの実施例では、リクエストは、インターフェース層５０８で受信することができ、インターフェース層５０８は、この実例では、トレーニング及び推論マネージャ５３２にデータを転送することができる。トレーニング及び推論マネージャ５３２は、リクエスト、及びサービスに対応するデータ又はコンテンツを管理するためのハードウェア及びソフトウェアを含むシステム又はサービスであり得る。少なくとも１つの実施例では、トレーニング及び推論マネージャ５３２は、ニューラル・ネットワークをトレーニングするためのリクエストを受信することができ、また、トレーニング・モジュール５１２へのリクエストのためのデータを提供することができる。少なくとも１つの実施例では、トレーニング・モジュール５１２は、リクエストによって指定されていない場合、使用する適切なモデル又はニューラル・ネットワークを選択し、関連するトレーニング・データを使用してモデルをトレーニングすることができる。少なくとも１つの実施例では、トレーニング・データは、トレーニング・データ・リポジトリ５１４に保存された、クライアント・デバイス５０２から受信された、又はサード・パーティ・プロバイダ５２４から取得されたデータのバッチであり得る。少なくとも１つの実施例では、トレーニング・モジュール５１２は、トレーニング・データに対する責任を負っている場合がある。ニューラル・ネットワークは、リカレント・ニューラル・ネットワーク（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）又は畳み込みニューラル・ネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）など、任意の適切なネットワークであり得る。ニューラル・ネットワークがトレーニングされて、成功裏に評価されると、トレーニングされたニューラル・ネットワークは、モデル・リポジトリ５１６に保存され得る。モデル・リポジトリ５１６は、例えば、ユーザ、アプリケーション、又はサービスなどの様々なモデル又はネットワークを保存し得る。少なくとも１つの実施例では、多数の異なる要因に基づいて利用され得るように、単一のアプリケーション又はエンティティに対して複数のモデルが存在し得る。

【0102】

少なくとも１つの実施例では、次の時点において、トレーニングされたニューラル・ネットワークによって少なくとも部分的に決定されるか又は影響を受けるコンテンツ（例えば、パス決定）又はデータについて、クライアント・デバイス５０２（又は別のそのようなデバイス）からリクエストが受信され得る。このリクエストには、例えば、１つ又は複数の推論若しくは他の出力値、分類、又は予測を取得するためにニューラル・ネットワークを使用して処理される入力データが含まれ得る。又は、少なくとも１つの実施例では、入力データは、インターフェース層５０８によって受信され、推論モジュール５１８に向けられてもよい。ただし、異なるシステム又はサービスを使用することもできる。少なくとも１つの実施例では、推論モジュール５１８は、推論モジュール５１８にローカルにまだ保存されていない場合、本明細書で考察されるようにトレーニングされた深層ニューラル・ネットワーク（ＤＮＮ）などの適切なトレーニングされたネットワークを、モデル・リポジトリ５１６から取得することができる。推論モジュール５１８は、トレーニングされたネットワークへの入力としてデータを提供でき、トレーニングされたネットワークは、その後、出力として１つ又は複数の推論を生成することができる。これには、例えば、入力データのインスタンスの分類が含まれ得る。少なくとも１つの実施例では、推論は、次に、ユーザに対する表示又は通信のために、クライアント・デバイス５０２に送信され得る。少なくとも１つの実施例では、ユーザのコンテキスト・データはまた、ユーザ・コンテキスト・データ・リポジトリ５２２に保存され得る。ユーザ・コンテキスト・データ・リポジトリ５２２には、推論を生成する際又はインスタンスの取得後にユーザに返すデータを決定する際にネットワークへの入力として有用であり得るユーザに関するデータが含まれ得る。少なくとも１つの実施例では、入力又は推論データのうちの少なくとも一部を含み得る関連データはまた、将来のリクエストを処理するためにローカル・データベース５３４に保存され得る。少なくとも１つの実施例では、ユーザはアカウント情報又は他の情報を使用して、プロバイダ環境のリソース又は機能にアクセスすることができる。少なくとも１つの実施例では、許可され且つ利用可能である場合は、モデルを更にトレーニングするためにユーザ・データも収集及び使用して、将来のリクエストに対してより正確な推論を提供することができる。少なくとも１つの実施例では、リクエストは、ユーザ・インターフェースを介して、クライアント・デバイス５０２上で実行されている機械学習アプリケーション５２６へ受信され、同じインターフェースを介して結果が表示され得る。クライアント・デバイスは、リクエストを生成し、結果又は応答を処理するためのプロセッサ５２８及びメモリ５６２だけでなく、機械学習アプリケーション５２６のデータを保存するための少なくとも１つのデータ・ストレージ要素５５２などのリソースを含み得る。

【0103】

少なくとも１つの実施例では、プロセッサ５２８（又はトレーニング・モジュール５１２又は推論モジュール５１８のプロセッサ）は、中央処理ユニット（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）になる。しかしながら、すでに述べたように、このような環境におけるリソースは、ＧＰＵを利用して、少なくとも特定のタイプのリクエストのデータを処理することができる。数千のコアによって、ＰＰＵ４００などのＧＰＵは、かなりの並列ワークロードを処理するように設計されているため、ニューラル・ネットワークのトレーニング及び予測の生成のための深層学習によく使われるようになっている。オフライン・ビルド用にＧＰＵを使用することで、より大規模で複雑なモデルのトレーニングを迅速に行うことができるが、オフラインで予測を生成することは、要求時の入力特徴を使用できないか、又は特徴のすべての順列に対して予測を生成し、リアル・タイム・リクエストに役立つためにルック・アップ・テーブルに保存しなければならないことを意味する。深層学習フレームワークがＣＰＵモードをサポートしており、妥当なレイテンシで、ＣＰＵ上でフィード・フォワードを実行するのにモデルが十分に小さく且つ単純である場合、ＣＰＵインスタンス上のサービスがモデルをホストすることができる。この場合、トレーニングは、ＧＰＵで、オフラインで行うことができ、推論は、ＣＰＵで、リアル・タイムで行うことができる。ＣＰＵアプローチが実行可能ではない場合は、ＧＰＵインスタンスでサービスを実行することができる。しかしながら、ＧＰＵの性能及びコスト特性はＣＰＵとは異なるため、ランタイム・アルゴリズムをＧＰＵにオフロードするサービスを実行することは、ＣＰＵベースのサービスとは異なる設計が必要になり得る。

【0104】

少なくとも１つの実施例では、プロバイダ環境５０６におけるエンハンスメントのために、ビデオ・データがクライアント・デバイス５０２から提供され得る。少なくとも１つの実施例では、クライアント・デバイス５０２でのエンハンスメントのために、ビデオ・データが処理され得る。少なくとも１つの実施例では、ビデオ・データは、サード・パーティ・コンテンツ・プロバイダ５２４からストリーミングされ、サード・パーティ・コンテンツ・プロバイダ５２４、プロバイダ環境５０６、又はクライアント・デバイス５０２によってエンハンスされ得る。少なくとも１つの実施例では、プロバイダ環境５０６においてトレーニング・データとして使用されるために、ビデオ・データがクライアント・デバイス５０２から提供され得る。

【0105】

少なくとも１つの実施例では、クライアント・デバイス５０２及び／又はプロバイダ環境５０６によって、教師付き及び／又は教師なしトレーニングを実行することができる。少なくとも１つの実施例では、トレーニング・データ５１４（例えば、分類された又はラベル付けされたデータ）のセットが、トレーニング・データとして機能するための入力として提供される。少なくとも１つの実施例では、トレーニング・データには、ニューラル・ネットワークのトレーニング対象となる少なくとも１つのタイプのオブジェクトのインスタンスと、そのタイプのオブジェクトを特定する情報とが含まれ得る。少なくとも１つの実施例では、トレーニング・データには、各々があるタイプのオブジェクトの表現を含んでいる画像のセットが含まれ得る。また、各画像には、ラベル、メタデータ、分類、又はそれぞれの画像内に表されるオブジェクトのタイプを識別する他の情報が含まれているか、又は関連付けられている。トレーニング・データとして、他の様々なタイプのデータを使用することができ、テキスト・データ、オーディオ・データ、ビデオ・データなどが含まれ得る。少なくとも１つの実施例では、トレーニング・データ５１４は、トレーニング・モジュール５１２へのトレーニング入力として提供される。少なくとも１つの実施例では、トレーニング・モジュール５１２は、ニューラル・ネットワーク（又は他のモデル若しくはアルゴリズムなど）をトレーニングするためにトレーニング・アプリケーションを実行する１つ又は複数の計算デバイスなど、ハードウェア及びソフトウェアを含むシステム又はサービスであり得る。少なくとも１つの実施例では、トレーニング・モジュール５１２は、トレーニングに使用するモデルのタイプを示す指示又はリクエストを受信する。少なくとも１つの実施例では、モデルは、そのような目的に有用である任意の適切な統計モデル、ネットワーク、又はアルゴリズムであり得、人工ニューラル・ネットワーク、深層学習アルゴリズム、学習分類器、ベイズ・ネットワークなどが含まれ得る。少なくとも１つの実施例では、トレーニング・モジュール５１２は、適切なリポジトリ５１６から初期モデル又は他のトレーニングされていないモデルを選択し、トレーニング・データ５１４を利用してモデルをトレーニングし、これにより、同様のタイプのデータを分類したり、他のそのような推論を生成したりするために使用することができるトレーニングされたモデル（例えば、トレーニングされた深層ニューラル・ネットワーク）を生成することができる。トレーニング・データが使用されない少なくとも１つの実施例では、トレーニング・モジュール５１２に従って、入力データのトレーニングに適切な初期モデルを依然として選択することができる。

【0106】

少なくとも１つの実施例では、モデルは、選択されたモデルのタイプに部分的に応じて、いくつかの異なる方法でトレーニングすることができる。少なくとも１つの実施例では、機械学習アルゴリズムにトレーニング・データのセットを提供することができる。ここで、モデルは、トレーニング・プロセスによって作成されたモデル・アーチファクトである。少なくとも１つの実施例では、トレーニング・データの各インスタンスは、正解（例えば、分類）を含み、これは、ターゲット又はターゲット属性と呼ばれ得る。少なくとも１つの実施例では、学習アルゴリズムは、入力データ属性をターゲット（予測される回答）にマッピングするトレーニング・データのパターンを見つけ、これらのパターンをキャプチャする機械学習モデルが出力される。少なくとも１つの実施例では、次に、機械学習モデルを使用して、ターゲットが指定されていない新しいデータの予測を取得することができる。

【0107】

少なくとも１つの実施例では、トレーニング及び推論マネージャ５３２は、バイナリ分類モデル、マルチクラス分類モデル、生成モデル、及び回帰モデルを含む機械学習モデルのセットから選択することができる。少なくとも１つの実施例では、使用されるモデルのタイプは、少なくとも部分的に予測されるターゲットのタイプに依存することができる。

【0108】

一実施例では、ＰＰＵ４００は、グラフィックス処理ユニット（ＧＰＵ）を含む。ＰＰＵ４００は、グラフィックス・データを処理するためのシェーダ・プログラムを指定するコマンドを受信するように構成されている。グラフィックス・データは、点、直線、三角形、四角形、三角形ストリップなどのプリミティブのセットとして定義され得る。通常、プリミティブには、プリミティブのいくつかの頂点（例えば、モデル空間座標系にある）と、プリミティブの各頂点に関連付けられる属性とを指定するデータが含まれる。ＰＰＵ４００は、グラフィックス・プリミティブを処理してフレーム・バッファ（例えば、ディスプレイのピクセルの各々のピクセル・データ）を生成するように構成され得る。

【0109】

アプリケーションが、シーンのモデル・データ（例えば、頂点及び属性の集合）を、システム・メモリ又はメモリ４０４といったメモリに書き込みを行う。モデル・データは、ディスプレイで可視であり得るオブジェクトの各々を定義する。アプリケーションは、次に、モデル・データのレンダリング及び表示を要求するドライバ・カーネルに対してＡＰＩ呼び出しを行う。ドライバ・カーネルは、モデル・データを読み取り、１つ又は複数のストリームにコマンドを書き込み、モデル・データを処理するための操作を実行する。コマンドは、ＰＰＵ４００内の処理ユニットに実装される、頂点シェーダ、ハル・シェーダ、ドメイン・シェーダ、ジオメトリ・シェーダ、及びピクセル・シェーダのうちの１つ又は複数を含む様々なシェーダ・プログラムを参照し得る。例えば、処理ユニットのうちの１つ又は複数は、モデル・データによって定義されたいくつかの頂点を処理する頂点シェーダ・プログラムを実行するように構成され得る。一実施例では、異なる処理ユニットが、異なるシェーダ・プログラムを同時に実行するように構成され得る。例えば、処理ユニットの第１のサブセットは、頂点シェーダ・プログラムを実行するように構成され得、処理ユニットの第２のサブセットは、ピクセル・シェーダ・プログラムを実行するように構成され得る。処理ユニットの第１のサブセットは、頂点データを処理して、処理された頂点データを生成し、処理された頂点データをＬ２キャッシュ４６０及び／又はメモリ４０４に書き込む。処理された頂点データがラスタライズされて（例えば、３次元データからスクリーン空間内の２次元データに変換されて）、フラグメント・データが生成された後、処理ユニットの第２のサブセットは、ピクセル・シェーダを実行して、処理されたフラグメント・データを生成する。これは、次に、他の処理されたフラグメント・データとブレンドされ、メモリ４０４内のフレーム・バッファに書き込まれる。頂点シェーダ・プログラム及びピクセル・シェーダ・プログラムは同時に実行し、シーンのすべてのモデル・データがフレーム・バッファにレンダリングされるまで、パイプライン化された方法で同じシーンからの異なるデータを処理し得る。次に、フレーム・バッファの内容が、ディスプレイ・デバイスでの表示のためにディスプレイ・コントローラに送信される。

【0110】

本明細書に開示される手法のうちの１つ又は複数を適用して生成される画像は、モニタ又は他のディスプレイ・デバイスに表示され得る。いくつかの実施例では、ディスプレイ・デバイスは、画像を生成又はレンダリングするシステム又はプロセッサに直接結合され得る。他の実施例では、ディスプレイ・デバイスは、ネットワーク経由など、システム又はプロセッサに間接的に結合され得る。このようなネットワークの例としては、インターネット、モバイル電気通信ネットワーク、ＷＩＦＩネットワーク、並びに任意の他の有線及び／又はワイヤレス・ネットワーク・システムが挙げられる。ディスプレイ・デバイスが間接的に結合されている場合、システム又はプロセッサによって生成された画像は、ネットワーク経由でディスプレイ・デバイスにストリーミングされ得る。このようなストリーミングは、例えば、ビデオゲーム、又は画像をレンダリングする他のアプリケーションが、サーバ、データ・センタ、又は、クラウド・ベースの計算環境で実行されることを可能にし、また、レンダリングされた画像が、サーバ又はデータ・センタから物理的に別個の１つ又は複数のユーザ・デバイス（コンピュータ、ビデオ・ゲーム・コンソール、スマートフォン、他のモバイル・デバイスなど）に送信及び表示されることを可能にする。したがって、本明細書で開示される手法を適用して、ストリーミングされる画像をエンハンスしたり、ＮＶＩＤＩＡＧｅＦｏｒｃｅＮｏｗ（ＧＦＮ）、ＧｏｏｇｌｅＳｔａｄｉａなどの画像をストリーミングするサービスを向上させたりすることができる。

【0111】

ストリーミング・システム例
図６は、本開示のいくつかの実施例による、ストリーミング・システム６０５のシステム図例である。図６は、サーバ６０３（図５Ａの処理システム例５００及び／又は図５Ｂの模範的なシステム５６５と同様のコンポーネント、特徴、及び／又は機能を含み得る）、クライアント・デバイス６０４（図５Ａの処理システム例５００及び／又は図５Ｂの模範的なシステム５６５と同様のコンポーネント、特徴、及び／又は機能を含み得る）、及びネットワーク６０６（本明細書に説明されるネットワークと同様であり得る）を含む。本開示のいくつかの実施例では、システム６０５が実装され得る。

【0112】

一実施例では、ストリーミング・システム６０５は、ゲーム・ストリーミング・システムであり、サーバ６０３は、ゲーム・サーバである。システム６０５では、ゲーム・セッションでは、クライアント・デバイス６０４は、入力デバイス６２６への入力に応答して入力データのみを受信し、入力データをサーバ６０３に送信し、符号化された表示データをサーバ６０３から受信し、表示データをディスプレイ６２４に表示し得る。したがって、より計算集約的な計算及び処理が、サーバ６０３にオフロードされる（例えば、ゲーム・セッションのグラフィカル出力のためのレンダリング、特に、レイ又はパス・トレーシングがサーバ６０３のＧＰＵ６１５によって実行される）。つまり、ゲーム・セッションは、サーバ６０３からクライアント・デバイス６０４にストリーミングされるため、グラフィックス処理及びレンダリングのためのクライアント・デバイス６０４の要件が低減される。

【0113】

例えば、ゲーム・セッションのインスタンス化に関して、クライアント・デバイス６０４は、サーバ６０３からの表示データの受信に基づいて、ゲーム・セッションのフレームをディスプレイ６２４に表示し得る。クライアント・デバイス６０４は、入力デバイス６２６のうちの１つへの入力を受信し、それに応じて入力データを生成し得る。クライアント・デバイス６０４は、通信インターフェース６２１を介して、ネットワーク６０６（例えば、インターネット）経由でサーバ６０３に入力データを送信し、サーバ６０３は、通信インターフェース６１８を介して入力データを受信し得る。ＣＰＵ６０８は、入力データを受信し、入力データを処理し、ＧＰＵ６１５にゲーム・セッションのレンダリングを生成させるデータをＧＰＵ６１５に送信し得る。例えば、入力データは、ゲーム内のユーザのキャラクタの動き、武器の発射、再装弾、ボールの受け渡し、車両の旋回などを表し得る。レンダリング・コンポーネント６１２が、ゲーム・セッション（例えば、入力データの結果を表す）をレンダリングし、レンダ・キャプチャ・コンポーネント６１４が、ゲーム・セッションのレンダリングを表示データとして（例えば、ゲーム・セッションのレンダリングされたフレームをキャプチャする画像データとして）キャプチャし得る。ゲーム・セッションのレンダリングには、ＧＰＵなどの１つ又は複数の並列処理ユニットを使用して計算されるレイ又はパス・トレースされたライティング及び／又はシャドウ効果が含まれ得、ＧＰＵは更に、１つ又は複数の専用ハードウェア・アクセラレータ又は処理コアの使用を採用して、サーバ６０３のレイ又はパス・トレーシング手法を実行し得る。次に、符号化器６１６が表示データを符号化して、符号化された表示データを生成し得る。符号化された表示データは、通信インターフェース６１８を介して、ネットワーク６０６経由でクライアント・デバイス６０４に送信され得る。クライアント・デバイス６０４は、通信インターフェース６２１を介して、符号化された表示データを受信し得る。復号化器６２２が符号化された表示データを復号化して、表示データを生成し得る。次に、クライアント・デバイス６０４は、ディスプレイ６２４を介して表示データを表示し得る。

【0114】

サーバ６０３は、通信インターフェース６１８及びネットワーク６０６を介して、計算されたＦＥＣパケットとともにクライアント・デバイス６０４に転送される１つ又は複数のソース・ビデオ・ストリーム（メディア・パケット・フレーム）を受信するシステム１００のＦＥＣ符号化器１１０を含み得る。

【0115】

本明細書に説明される手法は、プロセッサ・ベースの命令実行マシン、システム、装置、又はデバイスによる、又はこれらに関連する使用のためにコンピュータ可読媒体に保存された実行可能命令に具体化され得ることに留意されたい。いくつかの実施例では、当業者は、データを保存するために様々なタイプのコンピュータ可読媒体を含めることが可能であることを理解するであろう。本明細書で使用される場合、「コンピュータ可読媒体」には、命令実行マシン、システム、装置、又はデバイスが、コンピュータ可読媒体から命令を読み取り（フェッチし）、説明された実施例を実行するために命令を実行し得るように、コンピュータ・プログラムの実行可能命令を保存するための任意の適切な媒体のうちの１つ又は複数が含まれる。適切なストレージ形式には、電子形式、磁気形式、光学形式、及び電磁形式のうちの１つ又は複数が含まれる。従来の模範的なコンピュータ可読媒体の非包括的リストには、ポータブル・コンピュータ・ディスケット、ランダム・アクセス・メモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、読み取り専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭ：ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュ・メモリ・デバイス、及び光学ストレージ・デバイス（ポータブル・コンパクト・ディスク（ＣＤ：ＣｏｍｐａｃｔＤｉｓｃ）、ポータブル・デジタル・ビデオ・ディスク（ＤＶＤ：ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃ）などを含む）が含まれる。

【0116】

添付の図に例示されているコンポーネントの配置は、例示のためのものであり、他の配置が可能であることを理解すべきである。例えば、本明細書で説明される要素のうちの１つ又は複数は、全体的又は部分的に、電子ハードウェア・コンポーネントとして実現され得る。他の要素は、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアとの組み合わせで実装され得る。更に、本明細書で説明される機能を依然として実現しながら、これらの他の要素のうちのいくつか又は全部を組み合わせても、いくつかを完全に省略しても、追加のコンポーネントを追加してもよい。したがって、本明細書で説明される主題は、多くの異なるバリエーションで具体化され得、そのようなバリエーションはすべて特許請求の範囲内であると企図されている。

【0117】

本明細書で説明される主題を理解しやすくするために、多くの態様は、一連のアクションで説明されている。当業者は、特殊回路によって、１つ又は複数のプロセッサによって実行されるプログラム命令によって、又はその両方の組み合わせによって、様々なアクションが実行され得ることを認識するであろう。本明細書における任意の一連のアクションの説明は、その一連を実行するために説明された特定の順序に従う必要があることを意味することを意図するものではない。本明細書に説明されるすべての方法は、本明細書に特に明記されていない限り、又はコンテキストによって明確に矛盾する場合を除き、任意の適切な順序で実行され得る。

【0118】

主題を説明するコンテキスト（特に、次の特許請求の範囲のコンテキスト）における「ａ」及び「ａｎ」及び「ｔｈｅ」の用語及び同様の参照の使用は、本明細書に特に明記されていない限り、又はコンテキストによって明確に矛盾する場合を除き、単数形及び複数形の両方を対象とするように解釈されるべきである。１つ又は複数の項目のリストが続く「少なくとも１つ」という用語の使用（例えば、「Ａ及びＢのうちの少なくとも１つ」）は、本明細書に特に明記されていない限り、又はコンテキストによって明確に矛盾する場合を除き、リストされた項目から選択される１つの項目（Ａ又はＢ）、又は、リストされた項目のうちの２つ以上の任意の組み合わせ（Ａ及びＢ）を意味するものと解釈されるべきである。更に、前述の説明は、例示のためだけであり、限定のためではない。これは、求められる保護の範囲は、以下に記載される特許請求の範囲と、その任意の均等物とともに定義されるためである。本明細書に提供される任意及びすべての実例又は例示的な用語（例えば、「など」）の使用は、単に主題をよりよく例示することを目的としたものであり、特に主張されていない限り、主題の範囲に限定を課すものではない。特許請求の範囲及び書面の説明の両方における、「～に基づく（ｂａｓｅｄｏｎ）」という用語及び結果をもたらすための条件を示す他の類似フレーズの使用は、その結果をもたらす他の条件を除外することは意図されていない。本明細書における用語は、請求項に係わらない任意の要素が、請求項に係る発明の実践に不可欠であることを示していると解釈されるべきではない。

【図1】