特開2023-44716 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌビディア　コーポレーションの特許一覧

特開2023-44716ニューラル・ネットワークを使用した心拍数及び呼吸数の共同推定

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
2A
2B
2C
2D
3A
3B
4
5A
5B
5C
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023044716

(43)【公開日】2023-03-31

(54)【発明の名称】ニューラル・ネットワークを使用した心拍数及び呼吸数の共同推定

(51)【国際特許分類】

G06T 7/20 20170101AFI20230324BHJP

A61B 5/11 20060101ALI20230324BHJP

A61B 5/113 20060101ALI20230324BHJP

【ＦＩ】

G06T7/20 300Z

A61B5/11 120

A61B5/113

【審査請求】未請求

【請求項の数】25

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2022103140

(22)【出願日】2022-06-28

(31)【優先権主張番号】17/479,648

(32)【優先日】2021-09-20

(33)【優先権主張国・地域又は機関】US

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＺＩＧＢＥＥ

(71)【出願人】

【識別番号】501450960

【氏名又は名称】エヌビディアコーポレーション

(74)【代理人】

【識別番号】110000855

【氏名又は名称】弁理士法人浅村特許事務所

(72)【発明者】

【氏名】ユージュオレン

(72)【発明者】

【氏名】ニランジャンアバダナム

(72)【発明者】

【氏名】ラジャスベッリパディシェッティ

【テーマコード（参考）】

4C038

5L096

【Ｆターム（参考）】

4C038VA04

4C038VB32

4C038VB33

4C038VC05

5L096AA06

5L096BA06

5L096CA04

5L096DA02

5L096HA11

5L096KA04

(57)【要約】

【課題】空間的注意とチャネル注意との両方を利用して、対象者の画像を処理することにより、対象者の心拍数及び呼吸数を共同推定するニューラル・ネットワーク・システムを提供する。
【解決手段】動きニューラル・ネットワークは対象者の画像を受信し、特定の特徴データに処理を集中させるために空間的ドメイン注意マスク及びチャネル・ドメイン注意マスクの両方を使用して対象者の心拍数及び呼吸数を推定する。外観ニューラル・ネットワークは対象者の画像から空間的注意マスクを計算し、心拍数及び／又は呼吸数を正確に推定するために対象者の顔（対象者の髪の毛又は肩ではなく）に関連する特徴を示す。チャネル単位ドメインの注意はトレーニング中に学習され、チャネル単位の特徴応答を再較正して処理に最も有益な特徴を選択する。チャネル注意マスクは、トレーニング中に学習され、デプロイメント中に様々な対象者に使用される。
【選択図】図１Ａ

【特許請求の範囲】

【請求項1】

対象者の心拍数又は呼吸数のうちの少なくとも１つを推定するためのコンピュータ実装方法であって、
２つの空間次元で特徴ベクトルのチャネルを生成するために、前記対象者の画像のシーケンスを、動きニューラル・ネットワーク・モデルの層によって処理するステップと、
前記対象者の推定心拍数又は推定呼吸数のうちの少なくとも１つを生成するために、学習されたチャネル注意マスクを前記特徴ベクトルの前記チャネルに適用するステップと、
を含む、コンピュータ実装方法。

【請求項2】

前記処理するステップは、少なくとも１つの空間的注意マスクを前記動きニューラル・ネットワークの２つ以上の前記層間に適用するステップを含む、請求項１に記載のコンピュータ実装方法。

【請求項3】

前記少なくとも１つの空間的注意マスクを計算するために、注意ニューラル・ネットワークによって、前記シーケンス内の少なくとも１つの画像についての外観マップ及び皮膚セグメンテーション・マスクを処理するステップを更に含む、請求項２に記載のコンピュータ実装方法。

【請求項4】

前記注意ニューラル・ネットワークは、前記少なくとも１つの空間的注意マスクを計算するために、少なくとも１つの外観チャネル注意マスクを前記注意ニューラル・ネットワークの２つ以上の層間に適用する、請求項３に記載のコンピュータ実装方法。

【請求項5】

前記外観マップは、前記対象者の顔、首、及び胸部領域を含む前記対象者の各画像の一部分を含む、請求項３に記載のコンピュータ実装方法。

【請求項6】

前記皮膚セグメンテーション・マスクは、前記対象者の各画像の背景、髪の毛、目、眉、及びひげ領域から、前記対象者の各画像の額、頬、鼻、首、及び胸部領域を含む顔の皮膚を個別に識別するセグメンテーション・マスクを含む、請求項３に記載のコンピュータ実装方法。

【請求項7】

前記少なくとも１つの外観チャネル注意マスクは、畳み込み層とプーリング層との間に適用される、請求項１に記載のコンピュータ実装方法。

【請求項8】

前記画像のシーケンス内の各画像が受信されるフレーム・レートは可変であり、前記処理するステップは、前記フレーム・レートに基づいて前記推定心拍数又は前記推定呼吸数のうちの少なくとも１つを調整するステップを含む、請求項１に記載のコンピュータ実装方法。

【請求項9】

前記画像のシーケンス内の１つ又は複数の画像は圧縮される、請求項１に記載のコンピュータ実装方法。

【請求項10】

前記１つ又は複数の画像は、可変のレベルで圧縮される、請求項９に記載のコンピュータ実装方法。

【請求項11】

前記推定心拍数と前記推定呼吸数との比率が所定の有効範囲外であることを決定するステップと、前記推定心拍数及び前記推定呼吸数を破棄するステップとを更に含む、請求項１に記載のコンピュータ実装方法。

【請求項12】

前記動きニューラル・ネットワーク・モデルの前記層によってパラメータが適用され、グラウンド・トゥルース心拍数又は呼吸数と前記推定心拍数又は呼吸数との間の差を小さくするために、前記パラメータを調整するステップを更に含む、請求項１に記載のコンピュータ実装方法。

【請求項13】

前記動きニューラル・ネットワーク・モデルの前記層によってパラメータが適用され、前記推定心拍数と前記推定呼吸数との推定比率とグラウンド・トゥルース比率範囲との間の差を小さくするために、前記パラメータを調整するステップを更に含む、請求項１に記載のコンピュータ実施方法。

【請求項14】

前記動きニューラル・ネットワーク・モデルの前記層によってパラメータが適用され、前記推定心拍数と前記推定呼吸数との間の相関関係を高めて、心拍数と呼吸数との間の予想される相関関係と整合させるために、前記パラメータを調整するステップを更に含む、請求項１に記載のコンピュータ実施方法。

【請求項15】

前記処理するステップ及び前記適用するステップのうちの少なくとも１つは、サーバ上又はデータ・センタ内で実行され、前記画像のシーケンスは、ユーザ・デバイスから前記サーバ又は前記データ・センタにストリーミングされる、請求項１に記載のコンピュータ実施方法。

【請求項16】

前記処理するステップ及び前記適用するステップのうちの少なくとも１つは、サーバ上又はデータ・センタ内で実行され、推定心拍数又は推定呼吸数のうちの前記少なくとも１つは、ユーザ・デバイスにストリーミングされる、請求項１に記載のコンピュータ実装方法。

【請求項17】

前記処理するステップ及び前記適用するステップのうちの少なくとも１つは、クラウド・コンピューティング環境内で実行される、請求項１に記載のコンピュータ実施方法。

【請求項18】

前記処理するステップ及び前記適用するステップのうちの少なくとも１つは、マシン、ロボット、又は自律車両に採用されるニューラル・ネットワークをトレーニング、テスト、又は認定するために実行される、請求項１に記載のコンピュータ実施方法。

【請求項19】

前記処理するステップ及び前記適用するステップのうちの少なくとも１つは、グラフィックス処理ユニットの一部分を含む仮想マシン上で実行される、請求項１に記載のコンピュータ実施方法。

【請求項20】

対象者の心拍数又は呼吸数のうちの少なくとも１つを推定するためのシステムであって、１つ又は複数の処理ユニットを備え、前記１つ又は複数の処理ユニットは、動きニューラル・ネットワーク・モデルを、
２つの空間次元で特徴ベクトルのチャネルを生成するために、画像のシーケンスを、前記動きニューラル・ネットワーク・モデルの層によって処理することと、
前記対象者の推定心拍数又は推定呼吸数のうちの少なくとも１つを生成するために、学習されたチャネル注意マスクを前記特徴ベクトルの前記チャネルに適用することと
によって実装する、システム。

【請求項21】

前記１つ又は複数の処理ユニットは、前記シーケンス内の各画像についての外観マップ及び皮膚セグメンテーション・マスクを処理することによって前記少なくとも１つの空間的注意マスクを計算するために、注意ニューラル・ネットワークを更に実装する、請求項２０に記載のシステム。

【請求項22】

前記皮膚セグメンテーション・マスクは、前記対象者の各画像の背景、髪の毛、目、眉、及びひげ領域から、前記対象者の各画像の額、１つ又は複数の頬、鼻、首、及び胸部のうちの少なくとも１つに対応する顔の皮膚の領域を個別に識別するマスクを含む、請求項２１に記載のシステム。

【請求項23】

対象者の心拍数又は呼吸数のうちの少なくとも１つを推定するためのコンピュータ命令を保存する非一時的コンピュータ可読媒体であって、前記コンピュータ命令は、１つ又は複数のプロセッサによって実行される場合に、前記１つ又は複数のプロセッサに、
２つの空間次元で特徴ベクトルのチャネルを生成するために、前記対象者の画像のシーケンスを、動きニューラル・ネットワーク・モデルの層によって処理するステップと、
前記対象者の推定心拍数又は推定呼吸数のうちの少なくとも１つを生成するために、学習されたチャネル注意マスクを前記特徴ベクトルの前記チャネルに適用するステップと
を実行させる、非一時的コンピュータ可読媒体。

【請求項24】

前記少なくとも１つの空間的注意マスクを計算するために、注意ニューラル・ネットワークによって、前記シーケンス内の各画像についての外観マップ及び皮膚セグメンテーション・マスクを処理するステップを更に含む、請求項２３に記載の非一時的コンピュータ可読媒体。

【請求項25】

前記注意ニューラル・ネットワークは、前記少なくとも１つの空間的注意マスクを計算するために、少なくとも１つの外観チャネル注意マスクを前記注意ニューラル・ネットワークの層間に適用する、請求項２４に記載の非一時的コンピュータ可読媒体。

【発明の詳細な説明】

【背景技術】

【0001】

心拍数及び呼吸数の測定は、多くの疾患及び症状を診断するための重要なステップである。非接触方法は感染のリスクを低減するため、非接触型カメラ・ベースの生理学的測定は、指先オキシメータなどの接触型機器と比較して、遠隔医療においてアクセス性と利便性がより向上する傾向がある。

【発明の概要】

【発明が解決しようとする課題】

【0002】

しかしながら、環境照明の変動、頭部の動き、顔の表情などに起因して、リモートでの生理学的信号測定は困難である。これらの問題、及び／又は先行技術に関連付けられた他の問題に対処する必要性がある。

【課題を解決するための手段】

【0003】

本開示の実施例は、心拍数及び呼吸数の共同推定を改善するための手法に関する。心拍数及び呼吸数（例えば、呼吸）の両方をより高い精度で推定し、従来のシステムと比較してシステムの複雑さ及びレイテンシを低減するニューラル・ネットワーク・システムを提供するシステム及び方法が開示される。ニューラル・ネットワーク・システムは、二重の注意、特に空間的注意とチャネル注意との両方を利用して、対象者のビデオを処理することによって、対象者の心拍数及び呼吸数を共同で推定する。

【0004】

実施例によれば、対象者の画像の検出ネットワーク・シーケンス及び画像のタイムスタンプ。境界ボックス及び対象者特徴又はランドマーク（例えば、顔の特徴）が、対象者の検出ネットワークを使用して生成される。連続する又はほぼ連続するフレームの境界ボックスから、フレーム間の特徴の動きを符号化する動きマップが生成される。画像のシーケンスから、対象者の外観（例えば、ピクセル位置の色値の平均値として）を符号化する外観マップと、対象者の皮膚を表す画像内の領域のバイナリ・セマンティック・マスクを含む皮膚セグメンテーション・マスクとが生成される。外観マップ及び皮膚セグメンテーション・マスクを使用して、外観ニューラル・ネットワークは、対象者の顔の特徴に対応するピクセルの位置の正確な推定のために、対象者の顔（対象者の髪の毛又は肩ではなく）に関連付けられる特徴を示すことができる空間的注意マスクを対象者の画像から計算する。動きニューラル・ネットワークは、動きマップ及び画像のシーケンスを使用して、画像内の対象者の心拍数及び呼吸数を推定する。空間的注意マスクは、動きネットワークに提供されて、動きニューラル・ネットワークの焦点を方向付け、従来のシステムで可能であるよりも高い精度、より優れた精度、及びより高い効率で結果を生成する。上記のような従来のシステムとは対照的に、空間的ドメイン及びチャネル単位ドメインの両方に注意メカニズムを適用することによって、推定精度が向上される。空間的ドメインの注意は、強い生理学的信号応答を含む顔領域の位置を特定する空間的符号化を強化する。チャネル単位ドメインの注意は、チャネル単位の特徴応答を再較正して、最も有益な特徴を選択する。チャネル注意マスクは、トレーニング中に学習され、デプロイメント中に様々な対象者に使用することができる。

【0005】

一実施例では、ニューラル・ネットワーク・システムは、心拍数と呼吸数との相関関係に基づいてこれらの２つの数を推定することを学習する。一実施例では、顔の皮膚（額、頬、及び鼻）、首、及び胸部を含む領域を識別して、心拍数及び呼吸数を推定するための追加データ（例えば、血液循環）を提供する皮膚セグメンテーション・マスクに空間的注意が基づいている場合に、ニューラル・ネットワーク・システムの精度が向上される。

【0006】

対象者の心拍数又は呼吸数のうちの少なくとも１つを共同で推定するための方法、コンピュータ可読媒体、及びシステムが開示される。一実施例では、対象者の画像のシーケンスが、動きニューラル・ネットワーク・モデルの層によって処理されて、２つの空間次元で特徴ベクトルのチャネルが生成され、学習されたチャネル注意マスクが特徴ベクトルのチャネルに適用されて、対象者の推定心拍数又は推定呼吸数のうちの少なくとも１つが共同で生成される。

【0007】

心拍数及び呼吸数の共同推定のための本システム及び方法について、添付の図面を参照して以下に詳細に説明する。

【図面の簡単な説明】

【0008】

【図1A】本開示のいくつかの実施例を実装する際の使用に適している心拍数及び呼吸数の共同推定ネットワーク・システム例のブロック図を示す。

【図1B】本開示のいくつかの実施例を実装する際の使用に適している空間的注意マップを示す。

【図1C】一実施例による心拍数及び呼吸数の共同推定のための方法のフローチャートを示す。

【図2A】本開示のいくつかの実施例を実装する際の使用に適している別の心拍数及び呼吸数の共同推定ネットワーク・システム例のブロック図を示す。

【図2B】一実施例による心拍数及び呼吸数の共同推定のための別の方法のフローチャートを示す。

【図2C】本開示のいくつかの実施例を実装する際の使用に適している心拍数と呼吸数との周波数関係を示す。

【図2D】本開示のいくつかの実施例を実装する際の使用に適している心拍数と呼吸数との比率の分布を示す。

【図3A】本開示のいくつかの実施例を実装する際の使用に適している心拍数及び呼吸数の共同推定ネットワーク・システムのためのトレーニング構成のブロック図を示す。

【図3B】本開示のいくつかの実施例を実装する際の使用に適している心拍数及び呼吸数の共同推定ネットワーク・システムをトレーニングするための方法の別のフローチャートを示す。

【図4】本開示のいくつかの実施例を実装する際の使用に適している並列処理ユニット例を示す。

【図5A】本開示のいくつかの実施例を実装する際の使用に適している、図４のＰＰＵを使用して実装される処理システムの概念図である。

【図5B】様々な前の実施例の様々なアーキテクチャ及び／又は機能が実装され得る模範的なシステムを示す。

【図5C】少なくとも１つの実施例において、機械学習のトレーニング及び利用に使用することができる模範的なシステムのコンポーネントを示す。

【図6】本開示のいくつかの実施例を実装する際の使用に適している模範的なストリーミング・システムを示す。

【発明を実施するための形態】

【0009】

心拍数及び呼吸数の共同推定ネットワークに関するシステム及び方法が開示される。特に自動車、ヘルスケア、及びゲーム環境において、心拍数及び／又は呼吸数の推定の多くの使用事例がある。自動車環境では、心拍数及び呼吸数の推定を使用して、運転者のストレス、疲労、又は不能状態（ｉｎｃａｐａｃｉｔａｔｉｏｎ）をモニタリングすることができる。推定値に基づいて、最小リスク操作を開始することができる（例えば、音楽の変更、ブレーキ設定の修正、路肩に止める、緊急電話など）。心拍数及び呼吸数の推定も使用して、子どもの存在の検出を実行することができる。ゲーム環境では、心拍数及び呼吸数の推定を使用して、ユーザの没頭及び／又は興奮レベルを測定することができる。ヘルスケア環境では、心拍数及び呼吸数の推定を遠隔治療又はタッチレス・オンサイト・スクリーニングに使用することができる。

【0010】

非接触型カメラ・ベースの生理学的測定は、活発な研究分野であり、特にパンデミックやリモート治療注目の人気の高まりの中で大きな注目を集めている。非接触型カメラ・ベースの生理学的測定は、感染リスクを低減し、遠隔医療及びリモート・ヘルス・モニタリングを可能にする。カメラ・ベースの生理学的測定の基本原理は、血液循環及び呼吸運動によって引き起こされる皮膚色の微妙な変化又は微妙な動きを捉えることである。皮膚色の変化及び動きは、光反射の変化に対応する。イメージング技術を使用して、血流の変化による、及び呼吸時の微妙な皮膚色及び動きの変化を捉えることによって、皮膚表面の血液の容積変化を測定することができる。

【0011】

イメージング・フォトプレチスモグラフィ（ｉＰＰＧ：ｉｍａｇｉｎｇＰｈｏｔｏｐｌｅｔｈｙｓｍｏｇｒａｐｈｙ）及びリモート・フォトプレチスモグラフィ（ｒＰＰＧ：ｒｅｍｏｔｅＰｈｏｔｏｐｌｅｔｈｙｓｍｏｇｒａｐｈｙ）技術は、皮膚から反射した光の微妙な変化の測定に基づいている。画像心弾動図（ｉＢＣＧ：ｉｍａｇｅＢａｌｌｉｓｔｏｃａｒｄｉｏｇｒａｍ）技術は、微妙な動きを引き起こす、体内を流れる血液の機械力の測定に基づいている。心拍数及び呼吸数のどちらも、ｉＰＰＧ、ｒＰＰＧ、及び／又はｉＢＣＧベースの方法を使用して回収することができる。血液循環によって引き起こされる皮膚色の変化及び動きが非常に微妙であるため、環境照明の変動、頭部の動き、顔の表情などによって容易に破損される可能性があることから、カメラ・ベースの心拍数及び呼吸数の推定は困難である。

【0012】

このモデルの理論的光学原理では、Ｓｈａｆｅｒの二色性反射モデル（ＤＲＭ：ＤｉｃｈｒｏｍａｔｉｃＲｅｆｌｅｃｔｉｏｎＭｏｄｅｌ）を使用して、照明反射信号及び生理学的信号をモデル化することができる。画像内のｋ番目の皮膚ピクセルのＲＧＢ色（赤、緑、青）値は、次の時変関数によって定義することができる：
Ｃ_ｋ（ｔ）＝ｌ（ｔ）・ｖ_ｓ（ｔ）＋ｖ_ｄ（ｔ）＋ｖ_ｎ（ｔ）式（１）
ｌ（ｔ）＝ｌ_０・（１＋Ψ（ｍ（ｔ），θ（ｂ（ｔ），ｒ（ｔ））））
ｖ_ｓ（ｔ）＝（ｕ_ｓ・（ｓ_０＋Φ（ｍ（ｔ），θ（ｂ（ｔ），ｒ（ｔ））））
ｖ_ｄ（ｔ）＝（ｕ_ｄ・ｄ_０＋ｕ_ｐ・（Θ（ｂ（ｔ），ｒ（ｔ）））
ここで、Ｃ_ｋ（ｔ）はＲＧＢ値のベクトルを示し、ｌ（ｔ）は照度強度であり、ｖ_ｓ（ｔ）及びｖ_ｄ（ｔ）はそれぞれ鏡面反射及び拡散反射であり、ｖ_ｎ（ｔ）はカメラ・センサの量子化雑音を示す。ｌ（ｔ）、ｖ_ｓ（ｔ）、及びｖ_ｄ（ｔ）はすべて定常部分ｌ_０、ｕ_ｓ・ｓ_０、ｕ_ｄ・ｄ_０と、時変部分（ｌ_０・Ψ（・）、ｕ_ｓ・Φ（・）、ｕ_ｐ・Θ（・））に分解することができる。ここで、ｍ（ｔ）は光源、頭部の動き、及び顔の表情からの照明の変動など、すべての非生理学的変動を示し、Θ（ｂ（ｔ），ｒ（ｔ））はパルスｂ（ｔ）と呼吸ｒ（ｔ）の両方の情報の組み合わせである時変生理学的信号を示し、Ψ（・）はカメラによって観察される強度変動を示し、Φ（・）は鏡面反射の変化する部分を示し、ｕ_ｓ及びｕ_ｄはそれぞれ光源及び皮膚組織の単位色ベクトルを示し、ｕ_ｐは相対的な拍動強度を示す。ｌ_０は照度強度の定常部分を示し、ｓ_０及びｄ_０はそれぞれ定常の鏡面反射及び拡散反射を示す。

【0013】

式（１）の皮膚反射モデルは、ｋ番目の皮膚ピクセルのＲＧＢ値Ｃ_ｋ（ｔ）と生理学的信号Θ（ｂ（ｔ），ｒ（ｔ））との関係が非線形であり、非線形性の複雑さは、照度の変動、頭部の動き、顔の表現、カメラ強度変動などの非定常項によって引き起こされる可能性があることを示している。Ｃ_ｋ（ｔ）とΘ（ｂ（ｔ），ｒ（ｔ））との複雑な関係をモデル化するために機械学習モデルが望ましい。

【0014】

図１Ａは、本開示のいくつかの実施例を実装する際の使用に適している心拍数及び呼吸数の共同推定ネットワーク・システム例１００のブロック図を示す。本明細書で説明されるこの配置及び他の配置は、実例としてのみ記載されていることを理解すべきである。他の配置及び要素（例えば、マシン、インターフェース、機能、順序、機能のグループ分けなど）を、示されているものに加えて又は代わりに使用することができ、また、いくつかの要素を完全に省略することもできる。更に、本明細書で説明される要素のうちの多くは、個別の若しくは分散されたコンポーネントとして、又は他のコンポーネントと併せて、並びに任意の適切な組み合わせ及び場所で実装され得る機能的エンティティである。本明細書においてエンティティによって実行されていると説明される様々な機能は、ハードウェア、ファームウェア、及び／又はソフトウェアによって実行され得る。例えば、メモリに保存された命令を実行するプロセッサによって、様々な機能が実行され得る。更に、当業者は、心拍数及び呼吸数の共同推定ネットワーク・システム１００の動作を実行する任意のシステムが、本開示の実施例の範囲及び趣旨内であることを理解するであろう。

【0015】

一実施例では、心拍数及び呼吸数の共同推定ネットワーク・システム１００は、空間的注意１１２、空間的注意１２２、及び動きマップを受信し、特定の特徴データに処理を集中させるために空間的ドメイン注意マスク及びチャネル・ドメイン注意マスクの両方を使用して対象者の心拍数及び呼吸数を推定する動きニューラル・ネットワークを備える。１つ又は複数の実施例では、動きマップは、対象者のシーケンス（例えば、ビデオ・フレーム）内の２つの画像間のピクセル毎の差として計算することができる。画像は、ＲＧＢ（赤、緑、青）カメラ、ＩＲ（赤外）カメラ、及びＲＧＢ＿ＩＲカメラを含むが、これらに限定されないカメラによって収集され得る。一実施例では、ＲＧＢ画像がＩＲ画像とインターリーブされてもよい。一実施例では、インターリーブは、画像の信号対雑音比（ＳＮＲ：ＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ）又は外部環境によって決定され得る。即ち、ＩＲ画像は低照明条件（例えば、夜間）及び照明の変化（例えば、運転中の通過する影）下で堅牢である。ＩＲ画像を使用して、ＲＧＢ画像の照明の変化を相殺することができる。別の実施例では、ＲＧＢ画像とＩＲ画像とを一緒に連結して４チャネル（赤、緑、青、赤外）をネットワークに入力し、ＲＧＢのみ又はＩＲ画像のみのネットワークと比較してネットワークの堅牢性を向上させることができる。

【0016】

一実施例では、動きマップはシーケンス内の２つの画像の各々内の対象者の顔を含む関心領域についてのピクセル毎の差として計算される。一実施例では、別個のニューラル・ネットワーク又は処理ユニットが関心領域を対象者の顔を取り囲む境界ボックスとして識別する。空間的注意１１２及び１２２はマスクとして符号化され得、外観ベースであり、且つ各画像の注意ニューラル・ネットワークによって生成され得る。一実施例では、画像は、利用可能なネットワーク帯域幅又はストレージ・リソースに基づいて、必要に応じて圧縮される。圧縮レベルは、可変であっても（即ち、利用可能な帯域幅に依存する）、固定であってもよい。心拍数及び呼吸数の共同推定ネットワーク・システム１００の堅牢性及び一般性を向上させるために、トレーニング中、入力画像は可変のレベル（例えば、圧縮率）で圧縮され得る（又は圧縮されない）。

【0017】

動きニューラル・ネットワークの各処理層は、学習したパラメータを入力に適用して、複数のチャネル（Ｃ）について空間次元の高さ（Ｈ）及び幅（Ｗ）で特徴データを生成する。単一のチャネル内の特徴データは、特徴ベクトルである。一実施例では、畳み込み層１０５は、各々Ｎ×３２×７２×７２（Ｎ×Ｃ×Ｈ×Ｗ）である２つの層を含み、入力画像は１×３×７２×７２である。Ｎは、連続する動きマップの数とも等しいフレーム（例えば、画像）の数である。Ｎ＞１の場合、動きニューラル・ネットワークは、隣接するフレームの動きマップから時間情報を学習し、堅牢性を向上させることができる。一実施例では、入力が学習されたパラメータで畳み込みされて、プーリング層１１０への入力を提供する前に、畳み込み層１０５の層のうちの１つ又は複数の層の入力に時間シフト操作が適用される。時間シフトは、チャネルの一部分を時間次元に沿ってシフトして、時間的に近い画像間での情報交換を容易にすることによって、３Ｄ畳み込みの複雑さを軽減することができる。

【0018】

プーリング層１１０は、特徴マップの次元を低減する。プーリング層１１０は、畳み込み層１０５と空間的注意１１２との間の要素単位の乗算を受信する。一実施例では、プーリング層１１０はＮ×３６×３６×３６である。生理学的信号は人間の皮膚に均一に分布しないため、空間的注意１１２（例えば、ソフト空間的注意マスク）は、ネットワーク精度を向上させるために生理学的信号がより強い領域では、より大きい重みを定義し得る。例えば、対象者の画像から計算された空間的注意マスクは、心拍数及び／又は呼吸数をより正確に推定するために、対象者の顔（対象者の髪の毛又は肩ではなく）に関連付けられた特徴を示すことができる。つまり、空間的注意１１２及び１２２は、特定の層の特徴間の空間的関係を定義する。

【0019】

プーリング層１１０の出力は、プーリング層１２０に入力される前に畳み込み層１１５によって処理される。プーリング層１２０も空間的注意１２２を受信する。一実施例では、入力が学習されたパラメータで畳み込みされて、プーリング層１２０への入力を提供する前に、畳み込み層１１５の層のうちの１つ又は複数の層の入力に時間シフト操作が適用される。プーリング層１２０は、畳み込み層１１５と空間的注意１２２との間の要素単位の乗算を受信する。一実施例では、プーリング層１２０は、サイズＮ×６４×１８×１８の次元で実装され得る。一実施例では、空間的注意１１２は第２の畳み込み層の後であり、空間的注意１２２は第４の畳み込み層の後である。空間的注意１１２及び１２２は、顔の皮膚の位置特定を向上させ、対象者の顔の関連領域と比較して背景領域にはるかに小さい重みを定義する。

【0020】

プーリング層１２０の出力は、チャネル注意層１２５に入力される。チャネル単位ドメインの注意は、トレーニング中に学習され、チャネル単位の特徴応答を再較正して、処理に最も有益な特徴を選択する。一実施例では、１次元畳み込みを実行した後、シグモイド関数を実行してチャネル注意を学習する。チャネル注意マスクはサイズ１×１×ｃで実装でき、チャネル毎のマスクを提供し、各チャネルｃにはトレーニング中に学習された重みが割り当てられることを意味する。Ｈ及びＷの寸法の弁別特徴を選択する空間的注意とは対照的に、チャネル単位の注意では、チャネル次元の弁別特徴が選択される。より重みの大きいチャネルはより有益な特徴を有するが、より重みの小さいチャネルは、心拍数及び／又は呼吸数の推定にはあまり重要ではない。チャネル注意層１２５によって各特徴ベクトルに適用される学習されたチャネル注意マスクは一般化されてもよく、したがって、トレーニング中に利用可能ではなかったデプロイメント中に対象者に使用することができる。つまり、同じ学習されたチャネル注意マスクが、トレーニング中に見られなかった対象者の心拍数及び／又は呼吸数を推定するために十分に一般化される。一実施例では、対象者固有のチャネル注意マスク及び空間的注意マスクが学習され、デプロイメント中の使用のために選択され得る。

【0021】

チャネル注意が適用された後、チャネル注意層１２５の出力は、推定心拍数及び／又は呼吸数を生成する全結合（ＦＣ）層１３０に入力される。ＦＣ層１３０によって実行される最終的な平均プーリングの前にチャネル注意層１２５を挿入することによって、動きニューラル・ネットワークは有益な特徴は強調し、あまり有用ではないものを抑制する。

【0022】

一実施例では、動きニューラル・ネットワークは、心拍数推定のための血液量パルス（ＢＶＰ：ＢｌｏｏｄＶｏｌｕｍｅＰｕｌｓｅ）、及び／又は呼吸数推定のための呼吸波を計算する。一実施例では、動きニューラル・ネットワークは、マルチタスクで動作し、ＢＶＰと呼吸波の両方を計算する。一実施例では、推定心拍数及び呼吸数は、それぞれパルス波形シーケンス及び呼吸波形シーケンスとして表される。心拍数及び呼吸数を１分当たりの拍動（ｂｅａｔｓｐｅｒｍｉｎｕｔｅ）で抽出するために、バタワース・バンドパス・フィルタがＦＣ層１３０の出力に適用され得る。一実施例では、０．６７及び４Ｈｚのフィルタ遮断周波数が心拍数に使用され、０．０８及び０．５０Ｈｚが呼吸数に使用される。フィルタリングされた信号は、１０秒のウィンドウに分割され得、フーリエ変換が適用されて、心拍数及び呼吸数として優位周波数が生成され得る。

【0023】

ユーザの希望に応じて、上記のフレームワークを実装し得る様々な任意選択のアーキテクチャ及び特徴に関して、理解をより助ける情報を記載する。以下の情報は、例示のために記載されているものであり、いかようにも限定と解釈されるべきではないことに強く留意されたい。以下の特徴はいずれも、任意選択で、説明される他の特徴を除外して又は除外することなく組み込むことができる。

【0024】

図１Ｂは、本開示のいくつかの実施例を実装する際の使用に適している空間的注意マップ１３５及び１４０を示す。一実施例では、空間的注意１１２及び１２２は、それぞれ空間的注意マップ１４２及び１４０を含む。一実施例では、空間的注意マップ１４２及び１４０は、図２Ａと併せて説明されているように、外観ニューラル・ネットワークによって生成される。

【0025】

空間的注意マップ１３５と、チャネル注意なしの従来の手法を使用して生成された空間的注意マップ１３２と比較した場合、空間的注意マップ１３２は、対象者の頬、鼻、及び額に大きい重み１３４を示す。しかしながら、空間的注意マップ１３２内の大きい重みの領域の境界はぼやけていて、対象者のまぶたの領域に誤判定の大きい重みを示している。また、空間的注意マップ１３２内の大きい重み１３４の値は、対象者の頬、鼻、及び額についての空間的注意マップ１３５内の大きい重み１３６の値未満である。同様に、空間的注意マップ１３５内の対象者の目、髪の毛、唇、あご、及び首の最も小さい重み１３３は、空間的注意マップ１３２内の同じ領域と比較してはるかに明確に定義され、且つより小さい値を有している。全体的に、空間的注意マップ１３５は、顔領域と背景との間より大きなコントラストと、空間的注意マップ１３２と比較して生理学的信号がより強い皮膚領域（額と頬）でのより優れた境界位置特定とを明確に示している。

【0026】

チャネル注意を有する従来の手法を使用して生成され、空間的注意マップ１４０に対応する空間的注意マップ１４２を比較すると、空間的注意マップ１４０は、顔領域と背景との間より大きなコントラストを、より優れた空間的及びチャネル単位の特徴抽出を示すより優れた境界位置特定とともに示す。特に、空間的注意マップ１４２の背景領域は大きい重み１４４を有するが、空間的注意マップ１４０の同じ領域は小さい重み１４８を有し、背景領域がそれほど重要ではないことを正しく示している。空間的注意マップ１３５と同様に、空間的注意マップ１４０は、対象者の目、鼻孔、及び唇に対して最も小さい重み１４３を定義し、対象者の額、鼻、及び頬に対して大きい重み１４６を維持している。要約すると、空間的注意マップ１３２及び１４２と比較して、空間的注意マップ１３５及び１４０は、より優れた位置特定とともに皮膚により大きい重みを有し、且つ背景領域により小さい重みを有し、動きニューラル・ネットワークの堅牢性が向上され、背景ノイズが低減される。

【0027】

図１Ｃは、一実施例による心拍数及び呼吸数の共同推定のための方法１５０のフローチャートを示す。本明細書で説明される方法１５０の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組み合わせを使用して実行され得る計算プロセスを含む。例えば、メモリに保存された命令を実行するプロセッサによって、様々な機能が実行され得る。この方法はまた、コンピュータ・ストレージ媒体に保存されたコンピュータ使用可能命令としても具体化され得る。この方法は、いくつか例を挙げると、スタンドアロン・アプリケーション、サービス又はホスト・サービス（スタンドアロン又は別のホスト・サービスとの組み合わせ）、又は別の製品へのプラグ・インによって提供され得る。更に、方法１５０は、例として、図１Ａのシステム１００に関して説明される。しかしながら、この方法は、任意の１つのシステム、又は本明細書で説明されているものを含むが、これらに限定されないシステムの任意の組み合わせによって、追加的又は代替的に実行され得る。更に、当業者は、方法１５０を実行する任意のシステムが、本開示の実施例の範囲及び趣旨内であることを理解するであろう。

【0028】

ステップ１５５において、対象者の画像のシーケンスが、動きニューラル・ネットワーク・モデルの層によって処理されて、２つの空間次元で特徴ベクトルのチャネルが生成される。一実施例では、動きニューラル・ネットワーク・モデルは、心拍数及び呼吸数の共同推定ネットワーク・システム１００を含む。一実施例では、処理は、少なくとも１つの空間的注意マスクを層間に適用することを含む。一実施例では、少なくとも１つの外観チャネル注意マスクが畳み込み層とプーリング層との間に適用される。

【0029】

一実施例では、画像のシーケンス内の各画像が受信されるフレーム・レートは可変であり、処理は、フレーム・レートに基づいて推定心拍数又は推定呼吸数のうちの少なくとも１つを調整することを含む。一実施例では、心拍数及び呼吸数の共同推定ネットワーク・システム１００は、各画像とともに、フレーム・レートの計算に使用できるタイムスタンプを受信する。一実施例では、画像のシーケンス内の１つ又は複数の画像が圧縮される。一実施例では、１つ又は複数の画像は可変のレベルで圧縮される。

【0030】

一実施例では、シーケンス内の各画像について、外観マップと皮膚セグメンテーション・マスクとが注意ニューラル・ネットワークによって処理されて、少なくとも１つの空間的注意マスクが計算される。一実施例では、注意ニューラル・ネットワークは、少なくとも１つの外観チャネル注意マスクを注意ニューラル・ネットワークの層間に適用して、少なくとも１つの空間的注意マスクを計算する。一実施例では、外観マップは、対象者の顔、首、及び胸部領域を含む対象者の各画像の一部分を含む。一実施例では、皮膚セグメンテーション・マスクは、対象者の各画像の背景、髪の毛、目、眉、及びひげ領域から、対象者の各画像の額、頬、鼻、首、及び胸部領域を含む顔の皮膚を個別に識別するマスクを含む。

【0031】

ステップ１６０において、学習されたチャネル注意マスクが特徴ベクトルのチャネルに適用されて、対象者の推定心拍数又は推定呼吸数のうちの少なくとも１つが生成される。一実施例では、学習されたチャネル注意マスクはチャネル毎のマスクである。つまり、各チャネルには、トレーニング中に学習される重みが割り当てられ、より重みの大きいチャネルはより有益な特徴を有するが、より重みの小さいチャネルは、心拍数及び／又は呼吸数の推定にはあまり重要ではない。一実施例では、学習されたチャネル注意マスクがプーリング層１２０と最終的な全結合層１３０との間の各特徴ベクトルに適用される。

【0032】

一実施例では、処理するステップ及び適用するステップのうちの少なくとも１つは、サーバ上又はデータ・センタ内で実行され、画像のシーケンスは、ユーザ・デバイスからサーバ又はデータ・センタにストリーミングされる。一実施例では、処理するステップ及び適用するステップのうちの少なくとも１つは、サーバ上又はデータ・センタ内で実行され、推定心拍数又は推定呼吸数のうちの少なくとも１つがユーザ・デバイスにストリーミングされる。一実施例では、処理するステップ及び適用するステップのうちの少なくとも１つは、クラウド・コンピューティング環境内で実行される。一実施例では、処理するステップ及び適用するステップのうちの少なくとも１つは、マシン、ロボット、又は自律車両に採用されるニューラル・ネットワークのトレーニング、テスト、又は認定のために実行される。一実施例では、処理するステップ及び適用するステップのうちの少なくとも１つは、グラフィックス処理ユニットの一部分を含む仮想マシン上で実行される。

【0033】

図２Ａは、本開示のいくつかの実施例を実装する際の使用に適している、別の心拍数及び呼吸数の共同推定ネットワーク・システム例２００のブロック図を示す。心拍数及び呼吸数の共同推定ネットワーク・システム２００は、外観ニューラル・ネットワーク２３５に加えて、図１Ａに示される動きニューラル・ネットワークを含む。

【0034】

本明細書で説明されるこの配置及び他の配置は、実例としてのみ記載されていることを理解すべきである。他の配置及び要素（例えば、マシン、インターフェース、機能、順序、機能のグループ分けなど）を、示されているものに加えて又は代わりに使用することができ、また、いくつかの要素を完全に省略することもできる。更に、本明細書で説明される要素のうちの多くは、個別の若しくは分散されたコンポーネントとして、又は他のコンポーネントと併せて、並びに任意の適切な組み合わせ及び場所で実装され得る機能的エンティティである。本明細書においてエンティティによって実行されていると説明される様々な機能は、ハードウェア、ファームウェア、及び／又はソフトウェアによって実行され得る。例えば、メモリに保存された命令を実行するプロセッサによって、様々な機能が実行され得る。更に、当業者は、心拍数及び呼吸数の共同推定ネットワーク・システム２００の動作を実行する任意のシステムが、本開示の実施例の範囲及び趣旨内であることを理解するであろう。

【0035】

外観ニューラル・ネットワーク２３５は、入力として外観マップ及び皮膚セグメンテーション・マスクを受信し、学習されたパラメータを適用して各画像フレームの空間的注意１１２及び１２２を計算する。一実施例では、外観マップ（例えば、ＲＧＢ画像）は、対象者のキャプチャされた画像のトリミングされた一部分である。一実施例では、キャプチャされた画像は、対象者の顔領域（首又は胸部の上部が含まれ得る）を識別する境界ボックスにトリミングされる。一実施例では、タスク固有のニューラル・ネットワーク（図示せず）を使用して境界ボックスを識別する。

【0036】

一実施例では、タスク固有のニューラル・ネットワーク（図示せず）を使用して、皮膚セグメンテーション・バイナリ・マスクの導出元の顔のランドマークを識別する。一実施例では、対象者の額、頬領域、鼻、首、及び胸部領域などの顔の皮膚を識別するマスクである皮膚セグメンテーション・マスク（例えば、バイナリ・セグメンテーション）。一実施例では、皮膚セグメンテーション・マスクは、「１」（真）とラベル付けされた「皮膚」ピクセルと、「０」（偽）とラベル付けされた背景ピクセル、髪の毛ピクセル、目、眉、ひげなどのピクセルとを有するバイナリ・マップである。

【0037】

注意ニューラル・ネットワーク２３５は、外観マップ、皮膚セグメンテーション・マスク、及びチャネル注意層２１０及び２２５によって適用される学習されたチャネル注意マスクを使用して、空間的注意１１２及び１２２を計算する。トレーニングを通じて、注意ニューラル・ネットワーク２３５は、心拍数又は呼吸数を推定するために、外観マップのどの領域がより重要であるかを学習する。空間的注意の重みを調べると、額及び頬の領域により大きな重みがある。皮膚セグメンテーション・マスクの目的は、注意ニューラル・ネットワーク２３５に、心拍数／呼吸数信号が検出可能な皮膚領域では、より大きい重みを使用するべきであることを通知することで、推定の精度を更に向上させることである。

【0038】

一実施例では、外観ニューラル・ネットワーク２３５は、１×１畳み込みフィルタを使用して、プーリング層１１０に入力するための空間的注意１１２と、プーリング層１２０に入力するための空間的注意１２２とを生成する。次に、空間的注意１１２及び１２２は、要素単位の乗算を介して動きニューラル・ネットワーク内で特徴マップで乗算される。一実施例では、プーリング層１１０及び１２０に渡されるマスクされた特徴マップ

【数1】

（ここで、ｋは層インデックスである）は、

【数2】

として計算され、ここで、σ（・）はシグモイド活性化関数であり、ω^ｋは１×１畳み込みカーネルであり、ｂ^ｋはバイアスであり、

【数3】

は動きニューラル・ネットワーク特徴マップであり、

【数4】

は外観ニューラル・ネットワーク２３５の特徴マップであり、

【数5】

は要素単位の乗算であり、Ｈ_ｋ及びＷ_ｋは特徴マップの高さ及び幅である。

【0039】

チャネル注意層１２５を含む動きニューラル・ネットワークと同様に、外観ニューラル・ネットワーク２３５にはチャネル単位の注意層、特にチャネル注意層２１０及び２２５が含まれる。チャネル注意層２１０は、畳み込み層２０５とプーリング層２１５との間にあり、チャネル注意層２２５は、畳み込み層２２０とプーリング層２３０との間にある。外観ニューラル・ネットワーク２３５にチャネル単位の注意層を挿入することにより、より優れた顔空間的注意マスクを生成することができる。チャネル注意層２１０及び２２５を挿入することによって、外観ニューラル・ネットワーク２３５が有益な特徴を強調し、あまり有用でないものを抑制するのに役立つ。

【0040】

図２Ｂは、一実施例による心拍数及び呼吸数の共同推定のための別の方法２５０のフローチャートを示す。本明細書で説明される方法２５０の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組み合わせを使用して実行され得る計算プロセスを含む。例えば、メモリに保存された命令を実行するプロセッサによって、様々な機能が実行され得る。この方法はまた、コンピュータ・ストレージ媒体に保存されたコンピュータ使用可能命令としても具体化され得る。この方法は、いくつか例を挙げると、スタンドアロン・アプリケーション、サービス又はホスト・サービス（スタンドアロン又は別のホスト・サービスとの組み合わせ）、又は別の製品へのプラグ・インによって提供され得る。更に、方法２５０は、例として、図２Ａのシステム２００に関して説明される。しかしながら、この方法は、任意の１つのシステム、又は本明細書で説明されているものを含むが、これらに限定されないシステムの任意の組み合わせによって、追加的又は代替的に実行され得る。更に、当業者は、方法２５０を実行する任意のシステムが、本開示の実施例の範囲及び趣旨内であることを理解するであろう。

【0041】

ステップ２５５において、対象者の画像のシーケンスが受信される。シーケンス内の各画像を処理して、動きマップ、外観マップ、及び皮膚セグメンテーション・マスクが生成され得る。ステップ２６０において、シーケンス内の各画像に対して外観マップと皮膚セグメンテーション・マスクが処理される。ステップ２６０において、外観ニューラル・ネットワーク・モデルが外観マップ及び皮膚セグメンテーション・マスクを処理して、空間的注意マスクを計算する。ステップ２６５において、画像のシーケンス及びそれに対応する空間的注意マスクが動きニューラル・ネットワーク・モデルによって処理されて、対象者の推定心拍数又は推定呼吸数のうちの少なくとも１つが生成される。

【0042】

空間的ドメインとチャネル単位ドメインとの両方で（二重の）注意を適用することによって、心拍数及び呼吸数の共同推定ネットワーク・システム１００及び２００の精度が向上される。空間的ドメインの注意は、強い生理学的信号応答を含む顔領域の位置を特定する空間的符号化を強化する。チャネル単位ドメインの注意は、チャネル単位の特徴応答を再較正して、最も有益な特徴を選択する。

【0043】

心拍数及び呼吸数の共同推定ネットワーク・システム１００及び２００はまた、心拍数と呼吸数との相関関係に依存して精度を向上させることもできる。図２Ｃは、本開示のいくつかの実施例を実装する際の使用に適している、心拍数と呼吸数との周波数関係を示している。各対象者について、測定された心拍数２７５が、測定された呼吸数２８０と比べてより高い周波数を有している。測定された心拍数２７５と測定された呼吸数２８０との関係は、ほとんどの対象者で一貫している。心拍数と呼吸数との相関関係は、対象者に固有である場合があり、システムの較正段階中に学習された相関関係は、デプロイメントで適用され得る。

【0044】

図２Ｄは、本開示のいくつかの実施例を実装する際の使用に適している心拍数と呼吸数との比率の分布を示している。心拍数対呼吸数比のグラフ２８５は、比率が５．５６５５の平均比の周りに集まり、最大値が１４．８３３３、最小値が２．５４１７であることを示している。標準偏差は１．９５４６で、Ｒ＝０．３０００である。一実施例では、心拍数及び呼吸数の共同推定ネットワーク・システム１００及び２００のデプロイメント中、推定心拍数と推定呼吸数との比率が心拍数及び呼吸数の所定（グラウンド・トゥルース）の比率範囲外であるときは、推定心拍数及び推定呼吸数は破棄される（例えば、削除される）。一実施例では、心拍数波形又は呼吸数波形の信号対雑音比を使用して心拍数又は呼吸数推定値の精度を評価することによって、誤判定の心拍数又は呼吸数推定が削除される。信号対雑音比は、最初の２つの高調波と、心拍数又は呼吸数の周波数範囲内の残りの周波数との比率として、周波数ドメインで計算することができる。一実施例では、信号対雑音比がゼロ未満の場合、信号はノイズより弱いことから、心拍数又は呼吸数の推定は破棄される。

【0045】

心拍数及び呼吸数の共同推定ネットワーク・システム１００及び２００のトレーニング中、パラメータ（例えば、重み）が学習され、また、チャネル注意も学習される。心拍数と呼吸数との相関関係をトレーニング中に使用して、心拍数及び呼吸数の共同推定ネットワーク・システム１００及び２００の精度を向上させることができる。一実施例では、４：１～６：１の心拍数対呼吸数比が、グラウンド・トゥルース比率範囲として使用される。

【0046】

従来では、マルチタスク学習損失Ｌは、心拍波形の平均二乗誤差（ＭＳＥ：ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ）損失と呼吸数波形のＭＳＥ損失との合計である。これは、次のように定義される：

【数6】

ここで、Ｔは時間ウィンドウであり、ｐ（ｔ）及びｒ（ｔ）はそれぞれ時変グラウンド・トゥルース・パルス（例えば、心拍数）波形シーケンス及び呼吸波形シーケンスであり、ｐ（ｔ）’及びｒ（ｔ）’は予測されるパルス波形及び呼吸波形であり、α、βはパルス波形損失と呼吸波形損失とのバランスをとるための経験的パラメータである。一実施例では、α＝β＝１である。

【0047】

目的関数又は損失関数は、予測心拍数及び呼吸数と、グラウンド・トゥルース心拍数及び呼吸数との差を小さくする。一実施例では、比率ベースの相関関係損失が次の損失関数に含まれる：

【数7】

ここで、γは比率ベースの相関関係損失を制御する経験的パラメータであり、ｒａｔｉｏ＿ｄｉｆｆは予測される心拍数と呼吸数との比率と、グラウンド・トゥルース比率範囲との差である。一実施例では、予測される心拍数と呼吸数との比率がグラウンド・トゥルース比率範囲［４：１，６：１］外である場合、式（４）の損失関数Ｌ_{ｒａｔｉｏ}は、より多くのペナルティを与える。一実施例では、トレーニング中、心拍数及び呼吸数の共同推定ネットワーク・システム１００及び２００のパラメータ（例えば、重み）及びチャネル注意を調整して、推定される心拍数と呼吸数との比率と、グラウンド・トゥルース心拍数と呼吸数との比率との差を小さくする。

【0048】

一実施例では、トレーニング中、パラメータを調整して、推定される心拍数と呼吸数との相関関係を、グラウンド・トゥルースの心拍数と呼吸数との相関関係と整合させる。一実施例では、比率ベースの相関関係損失及び整合相関損失が次の損失関数に含まれる：

【数8】

ここで、σ_ｐ（ｔ）及びσ_ｒ（ｔ）はそれぞれパルス波形及び呼吸波形の標準偏差であり、ＣＯＶは共分散である。

【0049】

図３Ａは、本開示のいくつかの実施例を実装する際の使用に適している心拍数及び呼吸数の共同推定ネットワーク・システム１００及び２００のためのトレーニング構成３００のブロック図を示している。本明細書で説明されるこの配置及び他の配置は、実例としてのみ記載されていることを理解すべきである。他の配置及び要素（例えば、マシン、インターフェース、機能、順序、機能のグループ分けなど）を、示されているものに加えて又は代わりに使用することができ、また、いくつかの要素を完全に省略することもできる。更に、本明細書で説明される要素のうちの多くは、個別の若しくは分散されたコンポーネントとして、又は他のコンポーネントと併せて、並びに任意の適切な組み合わせ及び場所で実装され得る機能的エンティティである。本明細書においてエンティティによって実行されていると説明される様々な機能は、ハードウェア、ファームウェア、及び／又はソフトウェアによって実行され得る。例えば、メモリに保存された命令を実行するプロセッサによって、様々な機能が実行され得る。更に、当業者は、トレーニング構成３００の動作を実行する任意のシステムが、本開示の実施例の範囲及び趣旨内であることを理解するであろう。

【0050】

図３Ａに示されるように、トレーニング構成３００には、心拍数及び呼吸数の共同推定ネットワーク・システム２００、損失関数ユニット３１０、比率演算ユニット３１５、及び圧縮ユニット３２０が含まれている。心拍数及び呼吸数の共同推定ネットワーク・システム１００は、心拍数及び呼吸数の共同推定ネットワーク・システム２００の代わりに用いてもよい。比率演算ユニット３１５は、予測された心拍数、予測された呼吸数、及びグラウンド・トゥルース比率範囲を使用して、心拍数対呼吸数比及びｒａｔｉｏ＿ｄｉｆｆを計算する。損失関数ユニット３１０は、予測された心拍数、予測された呼吸数、ｒａｔｉｏ＿ｄｉｆｆ、並びにグラウンド・トゥルース心拍数及び呼吸数を受信する。損失関数ユニット３１０は、式（３）、（４）、又は（５）のうちのいずれかを評価してパラメータ更新を計算し、誤差逆伝播を介して心拍数及び呼吸数の共同推定ネットワーク・システム２００のチャネル注意を更新し得る。

【0051】

いくつかの環境では、心拍数及び呼吸数の共同推定ネットワーク・システム２００がデプロイされるときに、入力画像が圧縮され得る。これは、通常、視覚アーチファクトを導入し、正確な推定がより困難になることがある。圧縮レベルは、可変であっても（即ち、利用可能な帯域幅に依存する）、固定であってもよい。心拍数及び呼吸数の共同推定ネットワーク・システム１００及び２００の堅牢性及び一般性を向上させるために、トレーニングでは、可変のレベル（例えば、圧縮率）で圧縮された（又はされない）入力画像を使用することができる。圧縮は、トレーニング中のデータ拡張の一形態として効果的に採用され得る。したがって、トレーニング構成３００にはまた、対象者の画像を受信し、且つ任意選択で、動きマップを計算する前に各画像を圧縮する圧縮ユニット３２０が含まれ得る。一実施例では、任意選択で圧縮された画像を使用して、外観マップ及び皮膚セグメンテーション・マスクも生成される。一実施例では、心拍数及び呼吸数の共同推定ネットワーク・システム１００及び２００が圧縮されていない入力画像と複数のレベルの圧縮された入力画像との両方を使用してトレーニングされた場合、圧縮されていない入力データの推定の精度は低下しない。

【0052】

図３Ｂは、本開示のいくつかの実施例を実装する際の使用に適している、心拍数及び呼吸数の共同推定ネットワーク・システム１００及び２００をトレーニングするための方法３３０の別のフローチャートを示している。本明細書で説明される方法３３０の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組み合わせを使用して実行され得る計算プロセスを含む。例えば、メモリに保存された命令を実行するプロセッサによって、様々な機能が実行され得る。この方法はまた、コンピュータ・ストレージ媒体に保存されたコンピュータ使用可能命令としても具体化され得る。この方法は、いくつか例を挙げると、スタンドアロン・アプリケーション、サービス又はホスト・サービス（スタンドアロン又は別のホスト・サービスとの組み合わせ）、又は別の製品へのプラグ・インによって提供され得る。更に、方法３３０は、例として、図２Ａの心拍数及び呼吸数の共同推定ネットワーク・システム２００に関して説明される。しかしながら、この方法は、任意の１つのシステム、又は本明細書で説明されているものを含むが、これらに限定されないシステムの任意の組み合わせによって、追加的又は代替的に実行され得る。更に、当業者は、方法３３０を実行する任意のシステムが、本開示の実施例の範囲及び趣旨内であることを理解するであろう。

【0053】

ステップ３３５において、対象者の画像のシーケンスが受信される。ステップ３４０において、圧縮ユニット３２０が、シーケンス内の各画像が圧縮されているかどうかを決定する。圧縮される画像の一部分については、圧縮ユニット３２０はまた、その部分の各画像の圧縮レベルを決定し、ステップ３４５では、圧縮ユニット３２０は、その部分の各画像を圧縮してから、動きマップ、外観マップ、及び皮膚セグメンテーション・マスクのうちの１つ又は複数を生成する。ステップ３４５では、データ拡張と同じ又は可変のレベルで圧縮された画像が生成されて、非圧縮データをトレーニング・データとして使用することができる。これにより、二重注意の心拍数及び呼吸数の共同推定ネットワーク・システム１００又は２００は、任意の圧縮レベルに対して推定を生成することを学習する。圧縮アーチファクトが生理学的信号を破損することから、画像又はビデオの圧縮は従来からｒＰＰＧにアーチファクトをもたらすと考えられているが、圧縮をトレーニング・データ拡張手法として使用して、心拍数及び呼吸数の共同推定ネットワーク・システム１００又は２００の堅牢性を向上させることができる。そうでなければ、圧縮されていない画像については、圧縮ユニット３２０は、非圧縮形式の画像を使用して、動きマップ、外観マップ、及び皮膚セグメンテーション・マスクのうちの１つ又は複数を生成する。

【0054】

ステップ３５０において、外観ニューラル・ネットワーク・モデル２３５のような外観ニューラル・ネットワーク・モデルが、各外観マップ及び皮膚セグメンテーション・マスクを使用して空間的注意マスクを生成する。ステップ３５５において、動きニューラル・ネットワーク・モデルが空間的注意マスクを使用して、対象者の推定心拍数及び／又は推定呼吸数を生成する。ステップ３６５において、推定心拍数及び／又は推定呼吸数に基づいて損失関数が評価される。一実施例では、損失関数ユニット３１０が損失関数を評価する。一実施例では、推定心拍数と推定呼吸数との比率が損失関数への入力として計算される。一実施例では、式（３）、（４）、又は（５）に従って計算された損失関数のうちの１つが評価される。

【0055】

ステップ３７０において、トレーニングを続行するかどうかが決定される。一実施例では、損失関数の評価によって、損失が所望の精度レベルに関連付けられた閾値よりも大きいことが示される場合、トレーニングは続行される。ステップ３７０においてトレーニングが続行されない場合、ステップ３７５において、トレーニングは完了し、心拍数及び呼吸数の共同推定ネットワーク・システム１００又は２００がデプロイされ得る。そうでなければ、ステップ３８０において、心拍数及び呼吸数の共同推定ネットワーク・システム１００又は２００のパラメータが調整される（例えば、更新される）。一実施例では、チャネル注意マップもステップ３８０において調整される。

【0056】

一実施例では、パラメータは動きニューラル・ネットワーク・モデル及び／又は注意ニューラル・ネットワーク・モデルの層によって適用され、パラメータは調整されて、グラウンド・トゥルース心拍数又は呼吸数と推定心拍数又は呼吸数との差を小さくする。一実施例では、パラメータは動きニューラル・ネットワーク・モデル及び／又は注意ニューラル・ネットワーク・モデルの層によって適用され、パラメータは調整されて、推定心拍数と推定呼吸数との推定比率と、グラウンド・トゥルース比率範囲との差を小さくする。一実施例では、パラメータは動きニューラル・ネットワーク・モデル及び／又は注意ニューラル・ネットワーク・モデルの層によって適用され、パラメータは調整されて、推定心拍数と推定呼吸数との相関関係を高めて、心拍数と呼吸数との予想される相関関係と整合させる。

【0057】

特に自動車、ヘルスケア、及びゲーム環境において、心拍数及び／又は呼吸数の推定の多くの使用事例がある。自動車環境では、心拍数及び呼吸数の共同推定ネットワーク・システム１００又は２００を使用して、運転者のストレス、疲労、又は不能状態をモニタリングすることができる。推定値に基づいて、最小リスク操作を開始することができる（例えば、音楽の変更、ブレーキ設定の修正、路肩に止める、緊急電話など）。心拍数及び呼吸数の共同推定ネットワーク・システム１００又は２００を使用して、子どもの存在の検出を実行することもできる。ヘルスケア環境では、心拍数及び呼吸数の共同推定ネットワーク・システム１００又は２００を遠隔治療又はタッチレス・オンサイト・スクリーニングに使用することができる。ゲーム環境では、心拍数及び呼吸数の共同推定ネットワーク・システム１００又は２００を使用して、ユーザの没頭及び／又は興奮レベルを測定することができる。

【0058】

空間的注意とチャネル単位の注意との両方を、動きニューラル・ネットワーク・モデル及び外観ニューラル・ネットワーク・モデルの畳み込みニューラル・ネットワーク・アーキテクチャに統合することによって、心拍数及び呼吸数の推定が向上される。特に、皮膚セグメンテーション・マスクは、顔の皮膚（額、頬、鼻など）、首、及び胸部領域を識別して、心拍数及び呼吸数を推定するための追加データ（例えば、血液循環）を提供することによって、精度を向上させる。対照的に、心拍数及び／又は呼吸数を推定するための従来の手法は、空間的注意マスクに依存し、チャネルベースの注意は使用しない。

【0059】

入力画像のシーケンスを転送するために利用可能な帯域幅は様々であり得、その結果、可変のフレーム・レート及び／又は画像圧縮レベルがもたらされる。ビデオ・フレーム・レートの場合、入力画像のシーケンスは動的であり、心拍数及び呼吸数はそれに応じて調整され得る。動きニューラル・ネットワーク・モデル及び外観ニューラル・ネットワーク・モデルの一般性及び堅牢性を向上させるために、トレーニング中に（可変のレベルの）圧縮拡張を採用することができる。

【0060】

並列処理アーキテクチャ
図４は、一実施例による、並列処理ユニット（ＰＰＵ：ＰａｒａｌｌｅｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）４００を示す。ＰＰＵ４００を使用して、心拍数及び呼吸数の共同推定ネットワーク・システム１００又は２００を実装することができる。ＰＰＵ４００を使用して、動きニューラル・ネットワーク・モデル、外観ニューラル・ネットワーク・モデル２３５、損失関数ユニット３１０、及び圧縮ユニット３２０のうちの１つ又は複数を実装することができる。一実施例では、ＰＰＵ４００などのプロセッサは、ニューラル・ネットワーク・モデルを実装するように構成され得る。ニューラル・ネットワーク・モデルは、プロセッサによって実行されるソフトウェア命令として実装されても、又は、他の実施例では、プロセッサが、入力（例えば、値を表す電気信号）のセットを処理するように構成されたハードウェア要素の行列を含んで、ニューラル・ネットワーク・モデルのアクティベーションを表し得る出力のセットを生成することができる。更に他の実施例では、ニューラル・ネットワーク・モデルは、ソフトウェア命令と、ハードウェア要素の行列によって実行される処理との組み合わせとして実装されてもよい。ニューラル・ネットワーク・モデルの実装には、例えば、ニューラル・ネットワーク・モデルの教師付き又は教師なしトレーニングだけでなく、又は、別の方法では、パラメータのセットを使用して推論を実行して、新規の入力のセットを処理することを通じて、ニューラル・ネットワーク・モデルのパラメータのセットを決定することが含まれ得る。

【0061】

一実施例では、ＰＰＵ４００は、１つ又は複数の集積回路デバイスに実装されたマルチ・スレッド・プロセッサである。ＰＰＵ４００は、多くのスレッドを並行して処理するように設計されたレイテンシ隠蔽アーキテクチャである。スレッド（例えば、実行のスレッド）は、ＰＰＵ４００によって実行されるように構成された命令のセットのインスタンス化である。一実施例では、ＰＰＵ４００は、ディスプレイ・デバイスでの表示のための２次元（２Ｄ）画像データを生成するために、３次元（３Ｄ）グラフィックス・データを処理するためのグラフィックス・レンダリング・パイプラインを実装するように構成されたグラフィックス処理ユニット（ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）である。他の実施例では、ＰＰＵ４００は、汎用計算を実行するために利用され得る。本明細書では、例示のために１つの模範的な並列プロセッサが提供されているが、そのようなプロセッサは、例示のためにのみ記載されているものであり、また、当該プロセッサを補完及び／又は代替するために任意のプロセッサが採用され得ることに強く留意されたい。

【0062】

１つ又は複数のＰＰＵ４００は、数千もの高性能計算（ＨＰＣ：ＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＣｏｍｐｕｔｉｎｇ）アプリケーション、データ・センタ・アプリケーション、クラウド計算アプリケーション、及び機械学習アプリケーションを高速化するように構成され得る。ＰＰＵ４００は、自律走行車両、シミュレーション、レイ又はパス・トレーシングなどの計算グラフィックス、深層学習、高精度音声、画像、及びテキスト認識システム、インテリジェント・ビデオ分析、分子シミュレーション、創薬、疾患診断、天気予報、ビッグ・データ分析、天文学、分子動力学シミュレーション、財務モデリング、ロボット工学、工場自動化、リアル・タイム言語翻訳、オンライン検索の最適化、並びにパーソナライズ化されたユーザ推薦などのための多数の深層学習システム及びアプリケーションを高速化するように構成され得る。

【0063】

図４に示されているように、ＰＰＵ４００は、入出力（Ｉ／Ｏ：Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）ユニット４０５、フロント・エンド・ユニット４１５、スケジューラ・ユニット４２０、作業配分ユニット４２５、ハブ４３０、クロスバー（Ｘｂａｒ：Ｃｒｏｓｓｂａｒ）４７０、１つ又は複数の汎用処理クラスタ（ＧＰＣ：ＧｅｎｅｒａｌＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒ）４５０、及び１つ又は複数のメモリ・パーティション・ユニット４８０を含む。ＰＰＵ４００は、１つ又は複数の高速ＮＶＬｉｎｋ４１０インターコネクトを介してホスト・プロセッサ又は他のＰＰＵ４００に接続され得る。ＰＰＵ４００は、インターコネクト４０２を介してホスト・プロセッサ又は他の周辺デバイスに接続され得る。ＰＰＵ４００は、いくつかのメモリ・デバイスを含むローカル・メモリ４０４にも接続され得る。一実施例では、ローカル・メモリは、いくつかのダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ：ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）デバイスを含み得る。ＤＲＡＭデバイスは、各デバイス内に複数のＤＲＡＭダイがスタックされた高帯域幅メモリ（ＨＢＭ：Ｈｉｇｈ－ＢａｎｄｗｉｄｔｈＭｅｍｏｒｙ）サブシステムとして構成され得る。

【0064】

ＮＶＬｉｎｋ４１０インターコネクトは、１つ又は複数のＣＰＵと組み合わされた１つ又は複数のＰＰＵ４００をシステムがスケーリングし、含めることを可能にし、ＰＰＵ４００とＣＰＵとの間のキャッシュ・コヒーレンス、及びＣＰＵマスタリングをサポートする。データ及び／又はコマンドは、ＮＶＬｉｎｋ４１０によって、ハブ４３０を経由して、ＰＰＵ４００の他のユニット（１つ又は複数のコピー・エンジン、ビデオ符号化器、ビデオ復号化器、電源管理ユニットなど（明示的には図示せず））に／から送信され得る。ＮＶＬｉｎｋ４１０については、図５Ｂと併せてより詳細に説明する。

【0065】

Ｉ／Ｏユニット４０５は、インターコネクト４０２経由で、ホスト・プロセッサ（図示せず）から通信（例えば、コマンド、データなど）を送信及び受信するように構成されている。Ｉ／Ｏユニット４０５は、インターコネクト４０２を介して直接、又はメモリ・ブリッジなどの１つ又は複数の中間デバイスを通じて、ホスト・プロセッサと通信することができる。一実施例では、Ｉ／Ｏユニット４０５は、インターコネクト４０２を介してＰＰＵ４００のうちの１つ又は複数など、１つ又は複数の他のプロセッサと通信することができる。一実施例では、Ｉ／Ｏユニット４０５は、ペリフェラル・コンポーネント・インターコネクト・エクスプレス（ＰＣＩｅ：ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔＥｘｐｒｅｓｓ）インターフェースをＰＣＩｅバス経由の通信のために実装し、インターコネクト４０２は、ＰＣＩｅバスである。代替実施例では、Ｉ／Ｏユニット４０５は、他のタイプのよく知られているインターフェースを外部デバイスと通信するため実装してもよい。

【0066】

Ｉ／Ｏユニット４０５は、インターコネクト４０２経由で受信したパケットを復号化する。一実施例では、パケットは、ＰＰＵ４００に様々な操作を実行させるように構成されたコマンドを表す。Ｉ／Ｏユニット４０５は、復号化されたコマンドを、コマンドが指定し得るとおりにＰＰＵ４００の他の様々なユニットに送信する。例えば、いくつかのコマンドは、フロント・エンド・ユニット４１５に送信され得る。他のコマンドは、ハブ４３０、又はＰＰＵ４００の他のユニット（１つ又は複数のコピー・エンジン、ビデオ符号化器、ビデオ復号化器、電源管理ユニットなど（明示的には図示せず））に送信され得る。つまり、Ｉ／Ｏユニット４０５は、ＰＰＵ４００の様々な論理ユニット間の通信をルーティングするように構成されている。

【0067】

一実施例では、ホスト・プロセッサによって実行されるプログラムが、処理のためにＰＰＵ４００にワークロードを提供するバッファ内のコマンド・ストリームを符号化する。ワークロードは、いくつかの命令及びこれらの命令によって処理されるデータを含み得る。バッファは、ホスト・プロセッサとＰＰＵ４００との両方によってアクセス可能（例えば、読み取り／書き込み）であるメモリ内の領域である。例えば、Ｉ／Ｏユニット４０５は、インターコネクト４０２に接続されたシステム・メモリ内のバッファに、インターコネクト４０２経由で送信されたメモリ・リクエストを介してアクセスするように構成され得る。一実施例では、ホスト・プロセッサは、コマンド・ストリームをバッファに書き込み、その後、コマンド・ストリームの先頭へのポインタをＰＰＵ４００に送信する。フロント・エンド・ユニット４１５は、１つ又は複数のコマンド・ストリームへのポインタを受信する。フロント・エンド・ユニット４１５は、１つ又は複数のストリームを管理し、ストリームからコマンドを読み取り、ＰＰＵ４００の様々なユニットにコマンドを転送する。

【0068】

フロント・エンド・ユニット４１５は、１つ又は複数のストリームによって定義されたタスクを処理するために様々なＧＰＣ４５０を構成するスケジューラ・ユニット４２０に結合されている。スケジューラ・ユニット４２０は、スケジューラ・ユニット４２０によって管理される様々なタスクに関する状態情報を追跡するように構成されている。状態は、どのＧＰＣ４５０にタスクが割り当てられているか、タスクがアクティブであるか又は非アクティブであるか、タスクに関連付けられている優先レベルなどを示し得る。スケジューラ・ユニット４２０は、１つ又は複数のＧＰＣ４５０での複数のタスクの実行を管理する。

【0069】

スケジューラ・ユニット４２０は、ＧＰＣ４５０での実行のためのタスクをディスパッチするように構成された作業配分ユニット４２５に結合されている。作業配分ユニット４２５は、スケジューラ・ユニット４２０から受信されたいくつかのスケジュール済みタスクを追跡し得る。一実施例では、作業配分ユニット４２５は、ＧＰＣ４５０の各々について保留中タスクのプール及びアクティブ・タスクのプールを管理する。ＧＰＣ４５０がタスクの実行を完了すると、そのタスクは、ＧＰＣ４５０のアクティブ・タスクのプールから退去させられ、保留中タスクのプールから他のタスクのうちの１つが、ＧＰＣ４５０での実行のために選択及びスケジュールされる。アクティブ・タスクがＧＰＣ４５０でアイドル状態になっている場合（データ依存性が解決されるのを待っている間など）、そのアクティブ・タスクは、ＧＰＣ４５０から退去させられて、保留中タスクのプールに戻され得る。その一方で、保留中タスクのプール内の別のタスクがＧＰＣ４５０での実行のために選択及びスケジュールされる。

【0070】

一実施例では、ホスト・プロセッサがドライバ・カーネルを実行する。ドライバ・カーネルは、ホスト・プロセッサ上で実行される１つ又は複数のアプリケーションがＰＰＵ４００での実行のために操作をスケジュールすることを可能にするアプリケーション・プログラミング・インターフェース（ＡＰＩ：ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）を実装する。一実施例では、複数の計算アプリケーションがＰＰＵ４００によって同時に実行され、ＰＰＵ４００は、複数の計算アプリケーションに対して分離、サービス品質（ＱｏＳ：ＱｕａｌｉｔｙｏｆＳｅｒｖｉｃｅ）、及び独立したアドレス空間を提供する。アプリケーションは、ドライバ・カーネルに、ＰＰＵ４００による実行のための１つ又は複数のタスクを生成させる命令（例えば、ＡＰＩ呼び出し）を生成し得る。ドライバ・カーネルは、ＰＰＵ４００によって処理されている１つ又は複数のストリームにタスクを出力する。各タスクは、本明細書ではワープと呼ばれる、関連スレッドの１つ又は複数のグループを含み得る。一実施例では、１ワープは、並行して実行され得る３２個の関連スレッドを含む。協調スレッドとは、タスクを実行するための命令を含み、共有メモリを介してデータを交換し得る複数のスレッドを指し得る。タスクは、ＧＰＣ４５０内の１つ又は複数の処理ユニットに割り当てられ得、命令は少なくとも１つのワープによる実行のためにスケジュールされる。

【0071】

作業配分ユニット４２５は、ＸＢａｒ４７０を介して１つ又は複数のＧＰＣ４５０と通信する。ＸＢａｒ４７０は、ＰＰＵ４００のユニットのうちの多くをＰＰＵ４００の他のユニットに結合するインターコネクト・ネットワークである。例えば、ＸＢａｒ４７０は、作業配分ユニット４２５を特定のＧＰＣ４５０に結合するように構成され得る。明示的には示されていないが、ＰＰＵ４００の１つ又は複数の他のユニットも、ハブ４３０を介してＸＢａｒ４７０に接続され得る。

【0072】

タスクはスケジューラ・ユニット４２０によって管理され、作業配分ユニット４２５によってＧＰＣ４５０にディスパッチされる。ＧＰＣ４５０は、タスクを処理し、結果を生成するように構成されている。結果は、ＧＰＣ４５０内の他のタスクによって消費されたり、ＸＢａｒ４７０経由で異なるＧＰＣ４５０にルーティングされたり、又はメモリ４０４に保存されたりし得る。結果は、メモリ４０４に／からデータを読み取り及び書き込みするためのメモリ・インターフェースを実装するメモリ・パーティション・ユニット４８０を介してメモリ４０４に書き込まれ得る。結果は、ＮＶＬｉｎｋ４１０を介して別のＰＰＵ４００又はＣＰＵに送信されることも可能である。一実施例では、ＰＰＵ４００は、ＰＰＵ４００に結合されたメモリ４０４の別個且つ個別のメモリ・デバイスの数に相当する数Ｕのメモリ・パーティション・ユニット４８０を含む。各ＧＰＣ４５０は、仮想アドレスの物理アドレスへの変換、メモリ保護、及びメモリ・リクエストの調停を提供するためにメモリ管理ユニットを含み得る。一実施例では、メモリ管理ユニットは、仮想アドレスのメモリ４０４内の物理アドレスへの変換を実行するための１つ又は複数のトランスレーション・ルックアサイド・バッファ（ＴＬＢ：ＴｒａｎｓｌａｔｉｏｎＬｏｏｋａｓｉｄｅＢｕｆｆｅｒ）を提供する。

【0073】

一実施例では、メモリ・パーティション・ユニット４８０は、ラスタ演算（ＲＯＰ：ＲａｓｔｅｒＯｐｅｒａｔｉｏｎ）ユニット、レベル２（Ｌ２：Ｌｅｖｅｌｔｗｏ）キャッシュ、及びメモリ４０４に結合されたメモリ・インターフェースを含む。メモリ・インターフェースは、高速データ転送のために、３２、６４、１２８、１０２４ビット・データ・バスなどを実装し得る。ＰＰＵ４００は、高帯域幅メモリ・スタック又はグラフィックス・ダブル・データ・レート、バージョン５、シンクロナス・ダイナミック・ランダム・アクセス・メモリ、又は他のタイプの永続ストレージなど、最大Ｙ個のメモリ・デバイスに接続され得る。一実施例では、メモリ・インターフェースは、ＨＢＭ２メモリ・インターフェースを実装し、ＹはＵの半分に相当する。一実施例では、ＨＢＭ２メモリ・スタックは、ＰＰＵ４００と同じ物理パッケージに位置し、従来のＧＤＤＲ５ＳＤＲＡＭシステムと比較して大幅な電力及び面積の節約を提供する。一実施例では、各ＨＢＭ２スタックは、４つのメモリ・ダイを含み、Ｙ＝４であり、各ＨＢＭ２スタックは、合計で８つのチャネルに対して１つのダイあたりに２つの１２８ビット・チャネルと、１０２４ビットのデータ・バス幅とを含む。

【0074】

一実施例では、メモリ４０４は、データを保護するためにシングル・エラー訂正ダブル・エラー検出（ＳＥＣＤＥＤ：Ｓｉｎｇｌｅ－ＥｒｒｏｒＣｏｒｒｅｃｔｉｎｇＤｏｕｂｌｅ－ＥｒｒｏｒＤｅｔｅｃｔｉｎｇ）エラー訂正コード（ＥＣＣ：ＥｒｒｏｒＣｏｒｒｅｃｔｉｏｎＣｏｄｅ）をサポートしている。ＥＣＣは、データ破損の影響を受けやすい計算アプリケーションのより高い信頼性を提供する。ＰＰＵ４００が非常に大規模なデータセットを処理する、及び／又はアプリケーションを長時間実行する大規模なクラスタ計算環境では、信頼性が特に重要である。

【0075】

一実施例では、ＰＰＵ４００は、マルチ・レベルのメモリ階層を実装している。一実施例では、メモリ・パーティション・ユニット４８０は、統合メモリをサポートして、ＣＰＵ及びＰＰＵ４００のメモリに単一の統合された仮想アドレス空間を提供し、仮想メモリ・システム間でのデータ共有を可能にする。一実施例では、ＰＰＵ４００による他のプロセッサに位置するメモリへのアクセス頻度はトレースされて、メモリ・ページが、当該ページにより頻繁にアクセスするＰＰＵ４００の物理メモリに移動されることを確実にする。一実施例では、ＮＶＬｉｎｋ４１０は、アドレス変換サービスをサポートしているため、ＰＰＵ４００はＣＰＵのページ・テーブルに直接アクセスすることができ、ＰＰＵ４００によるＣＰＵメモリへのフル・アクセスが提供される。

【0076】

一実施例では、コピー・エンジンが、複数のＰＰＵ４００間、又はＰＰＵ４００とＣＰＵとの間でデータを転送する。コピー・エンジンは、ページ・テーブルにマッピングされていないアドレスのページ・フォールトを生成することができる。その後、メモリ・パーティション・ユニット４８０は、ページ・フォールトをサービスし、アドレスをページ・テーブルにマッピングし、その後、コピー・エンジンが転送を実行することができる。従来のシステムでは、複数のプロセッサ間での複数のコピー・エンジン操作のためにメモリがピン留めされ（例えば、非ページ可能である）、使用可能なメモリが大幅に削減される。ハードウェア・ページの障害が発生すると、メモリ・ページが存在し、コピー・プロセスが透過的であるかどうかを気にすることなく、アドレスをコピー・エンジンに渡すことができる。

【0077】

メモリ４０４又は他のシステム・メモリからのデータは、メモリ・パーティション・ユニット４８０によってフェッチされ、Ｌ２キャッシュ４６０に保存され得る。Ｌ２キャッシュ４６０は、オン・チップに位置し、様々なＧＰＣ４５０間で共有される。図に示されているように、各メモリ・パーティション・ユニット４８０は、対応するメモリ４０４に関連付けられたＬ２キャッシュの一部分を含む。この場合、より低いレベルのキャッシュは、ＧＰＣ４５０内の様々なユニットに実装され得る。例えば、ＧＰＣ４５０内の処理ユニットの各々は、レベル１（Ｌ１：Ｌｅｖｅｌｏｎｅ）キャッシュを実装することができる。Ｌ１キャッシュは、特定の処理ユニット専用のプライベート・メモリである。Ｌ２キャッシュ４６０は、メモリ・インターフェース４７０及びＸＢａｒ４７０に結合され、Ｌ２キャッシュからのデータはフェッチされ、処理のためにＬ１キャッシュの各々に保存され得る。

【0078】

一実施例では、各ＧＰＣ４５０内の処理ユニットは、単一命令、複数データ（ＳＩＭＤ：Ｓｉｎｇｌｅ－Ｉｎｓｔｒｕｃｔｉｏｎ，Ｍｕｌｔｉｐｌｅ－Ｄａｔａ）アーキテクチャを実装している。このアーキテクチャでは、スレッドのグループ（例えば、ワープ）内の各スレッドが、同じ命令セットに基づいてデータの異なるセットを処理するように構成されている。スレッドのグループ内のすべてのスレッドが同じ命令を実行する。別の実施例では、処理ユニットは、単一命令、複数スレッド（ＳＩＭＴ：Ｓｉｎｇｌｅ－Ｉｎｓｔｒｕｃｔｉｏｎ，Ｍｕｌｔｉｐｌｅ－Ｔｈｒｅａｄ）アーキテクチャを実装している。このアーキテクチャでは、スレッドのグループ内の各スレッドが、同じ命令セットに基づいてデータの異なるセットを処理するように構成されているが、スレッドのグループ内の個々のスレッドは、実行中に分岐することができる。一実施例では、各ワープに対してプログラム・カウンタ、呼び出しスタック、及び実行状態が維持され、ワープ内のスレッドが分岐するときに、ワープとワープ内の直列実行との間での同時並行性が可能になる。別の実施例では、各個々のスレッドに対してプログラム・カウンタ、呼び出しスタック、及び実行状態が維持され、すべてのスレッド間、ワープ内、及びワープ間で等しい同時並行性が可能になる。各個々のスレッドに対して実行状態が維持されるときは、同じ命令を実行するスレッドは収束され、最大効率のために並行して実行され得る。

【0079】

協調グループは、スレッドが通信する粒度を開発者が表現することを可能にする通信スレッドのグループを編成するためのプログラミング・モデルであり、これにより、より豊富で効率的な並列分解の表現が可能になる。協調起動ＡＰＩは、並列アルゴリズムの実行のためのスレッド・ブロック間の同期をサポートする。従来のプログラミング・モデルは、協調スレッドを同期させるための単一の単純なコンストラクトを提供する。つまり、スレッド・ブロック（例えば、ｓｙｎｃｔｈｒｅａｄｓ（）関数）のすべてのスレッドにわたるバリアである。しかしながら、多くの場合、プログラマは、スレッド・ブロックの粒度よりも小さくスレッドのグループを定義し、定義されたグループ内で同期して、より優れた性能、デザインの柔軟性、及び集合的なグループ全体の関数インターフェースの形式でのソフトウェアの再利用を可能にしたいと考える。

【0080】

協調グループは、プログラマがサブ・ブロック（例えば、単一スレッドのように小さい）及びマルチ・ブロック粒度でスレッドのグループを明示的に定義し、協調グループ内のスレッドの同期化などの集合的な操作を実行することを可能にする。プログラミング・モデルは、ソフトウェア境界を越えたクリーンな構成をサポートしているため、ライブラリ及び効用関数は、収束について仮定することなく、ローカル・コンテキスト内で安全に同期することができる。協調グループ・プリミティブは、プロデューサ・コンシューマ並列性、日和見並列性（ｏｐｐｏｒｔｕｎｉｓｔｉｃｐａｒａｌｌｅｌｉｓｍ）、及びスレッド・ブロックのグリッド全体にわたるグローバル同期など、協調的並列性の新しいパターンを可能にする。

【0081】

各処理ユニットは、完全にパイプライン化された単精度、倍精度、及び／又は混合精度であり得、且つ浮動小数点演算論理ユニット及び整数演算論理ユニットであり得る多数（例えば、１２８個など）の個別の処理コア（例えば、機能ユニット）を含む。一実施例では、浮動小数点演算論理ユニットは、浮動小数点演算のためのＩＥＥＥ７５４－２００８規格を実装している。一実施例では、コアは、６４個の単精度（３２ビット）浮動小数点コア、６４個の整数コア、３２個の倍精度（６４ビット）浮動小数点コア、及び８個のテンソル・コアを含む。

【0082】

行列演算を実行するように構成されているテンソル・コア。特に、テンソル・コアは、ニューラル・ネットワークのトレーニング及び推論中の畳み込み演算のための行列行列乗算（ＧＥＭＭ：Ｍａｔｒｉｘ－ＭａｔｒｉｘＭｕｌｔｉｐｌｉｃａｔｉｏｎ）などの深層学習行列演算を実行するように構成されている。一実施例では、各テンソル・コアは、４×４行列に対して演算を行い、行列積和演算Ｄ＝Ａ・Ｂ＋Ｃを実行する。ここで、Ａ、Ｂ、Ｃ、及びＤは４×４行列である。

【0083】

一実施例では、行列乗算入力Ａ及びＢは、整数、固定小数点、又は浮動小数点行列であり得る一方で、累積行列Ｃ及びＤは、等しい又はそれ以上のビット幅の整数、固定小数点、又は浮動小数点行列であり得る。一実施例では、テンソル・コアは、３２ビット整数累積を有する１、４、又は８ビット整数入力データに対して演算を行う。８ビット整数行列乗算では、１０２４回の演算が必要であり、後に８×８×１６行列乗算の他の中間積との３２ビット整数加算を使用して累積される完全精度積がもたらされる。一実施例では、テンソル・コアは、３２ビット浮動小数点累積で１６ビット浮動小数点入力データに対して演算を行う。１６ビット浮動小数点乗算では、６４回の演算が必要であり、後に４×４×４行列乗算の他の中間積との３２ビット浮動小数点加算を使用して累積される完全精度積がもたらされる。実際には、テンソル・コアを使用して、これらのより小さな要素から構築される、より大きな２次元又はより高い次元の行列演算を実行する。ＣＵＤＡ９Ｃ＋＋ＡＰＩなどのＡＰＩは、特殊化した行列ロード、行列積和、及び行列ストア演算を公開して、ＣＵＤＡ－Ｃ＋＋プログラムからテンソル・コアを効率的に使用する。ＣＵＤＡレベルでは、ワープ・レベルのインターフェースは、ワープの３２個のすべてのスレッドにスパンする１６×１６サイズの行列を想定している。

【0084】

各処理ユニットはまた、特殊関数（例えば、属性評価、逆数平方根など）を実行するＭ個の特殊関数ユニット（ＳＦＵ：ＳｐｅｃｉａｌＦｕｎｃｔｉｏｎＵｎｉｔ）を含み得る。一実施例では、ＳＦＵは、階層ツリー・データ構造を横断するように構成されたツリー・トラバーサル・ユニットを含み得る。一実施例では、ＳＦＵは、テクスチャ・マップ・フィルタリング演算を実行するように構成されたテクスチャ・ユニットを含み得る。一実施例では、テクスチャ・ユニットは、メモリ４０４からテクスチャ・マップ（例えば、テクセルの２Ｄ配列）をロードし、テクスチャ・マップをサンプリングして、処理ユニットによって実行されるシェーダ・プログラムで使用するためのサンプリングされたテクスチャ値を生成するように構成されている。一実施例では、テクスチャ・マップは、Ｌ１キャッシュを構成するか又は含めることができる共有メモリに保存される。テクスチャ・ユニットは、ミップ・マップ（例えば、様々な詳細レベルのテクスチャ・マップ）を使用したフィルタリング演算などのテクスチャ演算を実装する。一実施例では、各処理ユニットは、２つのテクスチャ・ユニットを含む。

【0085】

各処理ユニットはまた、共有メモリとレジスタ・ファイルとの間のロード及びストア演算を実装するＮ個のロード・ストア・ユニット（ＬＳＵ：ＬｏａｄＳｔｏｒｅＵｎｉｔ）を含む。各処理ユニットは、コアの各々をレジスタ・ファイルに、ＬＳＵをレジスタ・ファイル、共有メモリに接続するインターコネクト・ネットワークを含む。一実施例では、インターコネクト・ネットワークは、コアのいずれかをレジスタ・ファイル内のレジスタのいずれかに接続し、ＬＳＵをレジスタ・ファイル及び共有メモリ内のメモリ場所に接続するように構成され得るクロスバーである。

【0086】

共有メモリは、データ保存、並びに処理ユニット間及び処理ユニット内のスレッド間での通信を可能にするオン・チップ・メモリの配列である。一実施例では、共有メモリは、１２８ＫＢのストレージ容量を含み、処理ユニットの各々からメモリ・パーティション・ユニット４８０への経路にある。共有メモリは、読み取り及び書き込みのキャッシュに使用することができる。共有メモリ、Ｌ１キャッシュ、Ｌ２キャッシュ、及びメモリ４０４のうちの１つ又は複数がバッキング・ストアである。

【0087】

データ・キャッシュと共有メモリ機能を１つのメモリ・ブロックに組み合わせることで、両方のタイプのメモリ・アクセスにおいて最高の全体的な性能が提供される。容量は、共有メモリを使用しないプログラムによってキャッシュとして使用可能である。例えば、共有メモリが容量の半分を使用するように構成されている場合、テクスチャ及びロード／ストア演算では残りの容量を使用することができる。共有メモリ内への統合により、共有メモリをストリーミング・データ用の高スループット・コンジットとして機能させると同時に、頻繁に再利用されるデータへの高帯域幅及び低レイテンシ・アクセスを提供することが可能となる。

【0088】

汎用並列計算用に構成されていると、グラフィックス処理と比較してより単純な構成を使用することができる。具体的には、固定関数グラフィックス処理ユニットがバイパスされ、より単純なプログラミング・モデルが作成される。汎用並列計算構成では、作業配分ユニット４２５は、ＧＰＣ４５０内の処理ユニットにスレッドのブロックを直接割り当てて配分する。スレッドは、各スレッドが一意の結果を生成することを確実にするために計算において一意のスレッドＩＤを使用し、プログラムを実行し且つ計算を実行するために処理ユニットを使用し、スレッド間で通信するために共有メモリを使用し、共有メモリ及びメモリ・パーティション・ユニット４８０を介してグローバル・メモリの読み取り及び書き込みを行うためにＬＳＵを使用して、同じプログラムを実行する。汎用並列計算用に構成されていると、処理ユニットはまた、スケジューラ・ユニット４２０が処理ユニットでの新しい作業を開始するために使用することができるコマンドを書き込むことができる。

【0089】

ＰＰＵ４００の各々は、テンソル・コア（ＴＣ：ＴｅｎｓｏｒＣｏｒｅ）、テンソル処理ユニット（ＴＰＵ：ＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ピクセル・ビジュアル・コア（ＰＶＣ：ＰｉｘｅｌＶｉｓｕａｌＣｏｒｅ）、レイ・トレーシング（ＲＴ：ＲａｙＴｒａｃｉｎｇ）コア、ビジョン処理ユニット（ＶＰＵ：ＶｉｓｉｏｎＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、グラフィックス処理クラスタ（ＧＰＣ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒ）、テクスチャ処理クラスタ（ＴＰＣ：ＴｅｘｔｕｒｅＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒ）、ストリーミング・マルチプロセッサ（ＳＭ：ＳｔｒｅａｍｉｎｇＭｕｌｔｉｐｒｏｃｅｓｓｏｒ）、ツリー・トラバーサル・ユニット（ＴＴＵ：ＴｒｅｅＴｒａｖｅｒｓａｌＵｎｉｔ）、人工知能アクセラレータ（ＡＩＡ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＡｃｃｅｌｅｒａｔｏｒ）、深層学習アクセラレータ（ＤＬＡ：ＤｅｅｐＬｅａｒｎｉｎｇＡｃｃｅｌｅｒａｔｏｒ）、算術論理ユニット（ＡＬＵ：Ａｒｉｔｈｍｅｔｉｃ－ＬｏｇｉｃＵｎｉｔ）、特定用途向け集積回路（ＡＳＩＣ：Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、浮動小数点ユニット（ＦＰＵ：ＦｌｏａｔｉｎｇＰｏｉｎｔＵｎｉｔ）、入出力（Ｉ／Ｏ）要素、又はペリフェラル・コンポーネント・インターコネクト（ＰＣＩ：ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）又はペリフェラル・コンポーネント・インターコネクト・エクスプレス（ＰＣＩｅ）要素など、１つ又は複数の処理コア及び／又はそのコンポーネントを含むか、及び／又はその機能を実行するように構成され得る。

【0090】

ＰＰＵ４００は、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、サーバ、スーパーコンピュータ、スマート・フォン（例えば、ワイヤレスのハンド・ヘルド・デバイス）、携帯情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、デジタル・カメラ、車両、ヘッド・マウント・ディスプレイ、ハンド・ヘルド電子デバイスなどに含まれていてもよい。一実施例では、ＰＰＵ４００は、単一の半導体基板上に具体化される。別の実施例では、ＰＰＵ４００は、追加のＰＰＵ４００、メモリ４０４、縮小命令セット・コンピュータ（ＲＩＳＣ：ＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ）ＣＰＵ、メモリ管理ユニット（ＭＭＵ：ＭｅｍｏｒｙＭａｎａｇｅｍｅｎｔＵｎｉｔ）、デジタル・アナログ・コンバータ（ＤＡＣ：Ｄｉｇｉｔａｌ－ｔｏ－ＡｎａｌｏｇＣｏｎｖｅｒｔｅｒ）などの１つ又は複数のデバイスとともに、システム・オン・チップ（ＳｏＣ）に含まれている。

【0091】

一実施例では、ＰＰＵ４００は、１つ又は複数のメモリ・デバイスを含むグラフィックス・カード上に含まれていてもよい。グラフィックス・カードは、デスクトップ・コンピュータのマザーボード上のＰＣＩｅスロットとインターフェースするように構成され得る。更に別の実施例では、ＰＰＵ４００は、マザーボードのチップセットに含まれる統合型グラフィックス処理ユニット（ｉＧＰＵ）又は並列プロセッサであってもよい。更に別の実施例では、ＰＰＵ４００は、再構成可能なハードウェアで実現されてもよい。更に別の実施例では、ＰＰＵ４００の一部が、再構成可能なハードウェアで実現されてもよい。

【0092】

模範的な計算システム
人工知能計算などのアプリケーションにおいて、開発者がより多くの並列性を公開及び活用するようになるにつれて、多数のＧＰＵ及びＣＰＵを備えたシステムが様々な業界で使用されている。数十から数千もの計算ノードを備えた高性能ＧＰＵ高速化システムが、データ・センタ、研究施設、スーパーコンピュータに導入され、これまでになく大きな問題を解決する。高性能システム内の処理デバイスの数が増えるにつれて、通信及びデータ転送機構は、帯域幅の増加に対応するように拡張する必要がある。

【0093】

図５Ａは、一実施例による、図４のＰＰＵ４００を使用して実装された処理システム５００の概念図である。模範的なシステム５００は、図１Ｃ、２Ｂ、及び／又は３Ｂにそれぞれに示される方法１５０、２５０、及び／又は３３０を実装するように構成され得る。処理システム５００は、ＣＰＵ５３０、スイッチ５１０、及び複数のＰＰＵ４００とそれぞれのメモリ４０４を含む。

【0094】

ＮＶＬｉｎｋ４１０は、ＰＰＵ４００の各々間に高速通信リンクを提供する。図５Ｂに特定の数のＮＶＬｉｎｋ４１０及びインターコネクト４０２接続が例示されているが、各ＰＰＵ４００及びＣＰＵ５３０への接続数は異なっていてもよい。スイッチ５１０は、インターコネクト４０２とＣＰＵ５３０との間でインターフェースする。ＰＰＵ４００、メモリ４０４、及びＮＶＬｉｎｋ４１０は、単一の半導体プラットフォーム上に位置付けられて、並列処理モジュール５２５を形成することができる。一実施例では、スイッチ５１０は、様々な異なる接続及び／又はリンク間でインターフェースするために、２つ以上のプロトコルをサポートする。

【0095】

別の実施例（図示せず）では、ＮＶＬｉｎｋ４１０は、ＰＰＵ４００の各々とＣＰＵ５３０との間に１つ又は複数の高速通信リンクを提供し、スイッチ５１０は、インターコネクト４０２とＰＰＵ４００の各々との間でインターフェースする。ＰＰＵ４００、メモリ４０４、及びインターコネクト４０２は、単一の半導体プラットフォーム上に位置付けられて、並列処理モジュール５２５を形成することができる。更に別の実施例（図示せず）では、インターコネクト４０２は、ＰＰＵ４００の各々とＣＰＵ５３０との間に１つ又は複数の通信リンクを提供し、スイッチ５１０は、ＮＶＬｉｎｋ４１０を使用してＰＰＵ４００の各々間でインターフェースして、ＰＰＵ４００間に１つ又は複数の高速通信リンクを提供する。別の実施例（図示せず）では、ＮＶＬｉｎｋ４１０は、スイッチ５１０を介してＰＰＵ４００とＣＰＵ５３０との間に１つ又は複数の高速通信リンクを提供する。更に別の実施例（図示せず）では、インターコネクト４０２は、ＰＰＵ４００の各々間に直接１つ又は複数の通信リンクを提供する。ＮＶＬｉｎｋ４１０高速通信リンクのうちの１つ又は複数は、物理ＮＶＬｉｎｋインターコネクトとして、又はＮＶＬｉｎｋ４１０と同じプロトコルを使用して、オン・チップ又はオン・ダイのいずれかのインターコネクトとして実装され得る。

【0096】

本説明のコンテキストでは、単一の半導体プラットフォームとは、ダイ又はチップ上に製作された単独の単位的な半導体ベースの集積回路を指し得る。単一の半導体プラットフォームという用語はまた、接続性が向上したマルチ・チップ・モジュールを指し、オン・チップ操作をシミュレートし、従来のバス実装を利用するよりも大幅な向上があることに留意されたい。当然ながら、様々な回路又はデバイスはまた、ユーザの希望に応じて、個別に又は半導体プラットフォームの様々な組み合わせに位置付けられてもよい。交互に、並列処理モジュール５２５は、回路ボード基板として実装されてもよく、ＰＰＵ４００及び／又はメモリ４０４の各々は、パッケージ・デバイスであってもよい。一実施例では、ＣＰＵ５３０、スイッチ５１０、及び並列処理モジュール５２５は、単一の半導体プラットフォーム上に位置付けられている。

【0097】

一実施例では、各ＮＶＬｉｎｋ４１０の信号速度は、２０～２５ギガビット／秒であり、各ＰＰＵ４００は、６つのＮＶＬｉｎｋ４１０インターフェースを含む（図５Ａに示されるように、各ＰＰＵ４００に５つのＮＶＬｉｎｋ４１０インターフェースが含まれる）。各ＮＶＬｉｎｋ４１０は、各方向に２５ギガバイト／秒のデータ転送レートを提供し、６つのリンクは、４００ギガバイト／秒を提供する。ＮＶＬｉｎｋ４１０は、図５Ａに示されるように、ＰＰＵ－ＰＰＵ間の通信に排他的に使用することができる。又は、ＣＰＵ５３０も１つ又は複数のＮＶＬｉｎｋ４１０インターフェースを含むときは、ＰＰＵ－ＰＰＵ間及びＰＰＵ－ＣＰＵ間の何らかの組み合わせに使用することができる。

【0098】

一実施例では、ＮＶＬｉｎｋ４１０は、ＣＰＵ５３０から各ＰＰＵ４００のメモリ４０４への直接ロード／保存／アトミック・アクセスを可能にする。一実施例では、ＮＶＬｉｎｋ４１０は、コヒーレンシー操作をサポートするため、メモリ４０４から読み取られたデータをＣＰＵ５３０のキャッシュ階層に保存して、ＣＰＵ５３０のキャッシュ・アクセス・レイテンシを低減することを可能にする。一実施例では、ＮＶＬｉｎｋ４１０は、アドレス・トランスレーション・サービス（ＡＴＳ：ＡｄｄｒｅｓｓＴｒａｎｓｌａｔｉｏｎＳｅｒｖｉｃｅ）のサポートを含んでいるため、ＰＰＵ４００がＣＰＵ５３０内のページ・テーブルに直接アクセスすることを可能にする。ＮＶＬｉｎｋ４１０のうちの１つ又は複数はまた、低電力モードで動作するように構成され得る。

【0099】

図５Ｂは、様々な前の実施例の様々なアーキテクチャ及び／又は機能が実装され得る模範的なシステム５６５を示す。模範的なシステム５６５は、図１Ｃ、２Ｂ、及び／又は３Ｂにそれぞれに示される方法１５０、２５０、及び／又は３３０を実装するように構成され得る。

【0100】

図に示されているように、通信バス５７５に接続されている少なくとも１つの中央処理ユニット５３０を含むシステム５６５が提供されている。通信バス５７５は、次のデバイス：メイン・メモリ５４０、ネットワーク・インターフェース５３５、ＣＰＵ５３０、ディスプレイ・デバイス５４５、入力デバイス５６０、スイッチ５１０、及び並列処理システム５２５のうちの１つ又は複数を直接又は間接的に結合し得る。通信バス５７５は、任意の適切なプロトコルを使用して実装され得、また、アドレス・バス、データ・バス、制御バス、又はこれらの組み合わせなどの１つ又は複数のリンク又はバスを表し得る。通信バス５７５には、業界標準アーキテクチャ（ＩＳＡ：ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、拡張業界標準アーキテクチャ（ＥＩＳＡ：ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（ＶＥＳＡ：ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）バス、ペリフェラル・コンポーネント・インターコネクト（ＰＣＩ）バス、ペリフェラル・コンポーネント・インターコネクト・エクスプレス（ＰＣＩｅ）バス、ＨｙｐｅｒＴｒａｎｓｐｏｒｔ、及び／又は別のタイプのバス若しくはリンクなど、１つ又は複数のバス又はリンクのタイプが含まれ得る。いくつかの実施例では、コンポーネント間に直接接続がある。一実例として、ＣＰＵ５３０は、メイン・メモリ５４０に直接接続され得る。更に、ＣＰＵ５３０は、並列処理システム５２５に直接接続され得る。コンポーネント間に直接又はポイント・ツー・ポイント接続がある場合、通信バス５７５は、接続を実行するためにＰＣＩｅリンクを含み得る。これらの実例では、ＰＣＩバスをシステム５６５に含める必要はない。

【0101】

図５Ｂの様々なブロックは、通信バス５７５を介して回線で接続されているものとして示されているが、これは限定を意図したものではなく、明確にするためだけのものである。例えば、いくつかの実施例では、ディスプレイ・デバイス５４５などのプレゼンテーション・コンポーネントは、入力デバイス５６０などのＩ／Ｏコンポーネントと見なされ得る（例えば、ディスプレイがタッチ・スクリーンの場合）。別の実例として、ＣＰＵ５３０及び／又は並列処理システム５２５は、メモリを含み得る（例えば、メイン・メモリ５４０は、並列処理システム５２５、ＣＰＵ５３０、及び／又は他のコンポーネントに加えて、ストレージ・デバイスを表し得る）。つまり、図５Ｂの計算デバイスは例示にすぎない。図５Ｂの計算デバイスの範囲内であるとすべて企図されるため、「ワークステーション」、「サーバ」、「ラップトップ」、「デスクトップ」、「タブレット」、「クライアント・デバイス」、「モバイル・デバイス」、「ハンド・ヘルド・デバイス」、「ゲーム・コンソール」、「電子制御ユニット（ＥＣＵ：ＥｌｅｃｔｒｏｎｉｃＣｏｎｔｒｏｌＵｎｉｔ）」、「仮想現実システム」、及び／又は他のデバイス若しくはシステムのタイプなどのカテゴリ間で区別はされない。

【0102】

システム５６５はまた、メイン・メモリ５４０を含む。制御論理（ソフトウェア）及びデータは、様々なコンピュータ可読媒体の形式を取り得るメイン・メモリ５４０に保存される。コンピュータ可読媒体は、システム５６５によってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータ可読媒体には、揮発性及び不揮発性媒体、並びにリムーバブル及び非リムーバブル媒体の両方が含まれ得る。例として、限定ではないが、コンピュータ可読媒体は、コンピュータ・ストレージ媒体及び通信媒体を含み得る。

【0103】

コンピュータ・ストレージ媒体には、コンピュータ可読命令、データ構造、プログラム・モジュール、及び／又は他のデータ・タイプなどの情報の保存のための任意の方法又は技術で実装された揮発性及び不揮発性媒体及び／又はリムーバブル及び非リムーバブル媒体の両方が含まれ得る。例えば、メイン・メモリ５４０は、コンピュータ可読命令（例えば、プログラム及び／又はオペレーティング・システムなどのプログラム要素を表す）を保存し得る。コンピュータ・ストレージ媒体には、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュ・メモリ若しくは他のメモリ技術、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ：ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）若しくは他の光学ディスク・ストレージ、磁気カセット、磁気テープ、磁気ディスク・ストレージ若しくは他の磁気ストレージ・デバイス、又は、所望の情報を保存するために使用され得、且つシステム５６５によってアクセスされ得る任意の他の媒体が含まれるが、これらに限定されない。本明細書で使用される場合、コンピュータ・ストレージ媒体は、信号自体は含まない。

【0104】

コンピュータ・ストレージ媒体は、搬送波又は他の輸送機構などの変調されたデータ信号でコンピュータ可読命令、データ構造、プログラム・モジュール、及び／又は他のデータ・タイプを具体化し得、任意の情報配信媒体を含み得る。「変調されたデータ信号」という用語は、信号内の情報を符号化するようにその特性のうちの１つ又は複数が設定又は変更されている信号を指し得る。例として、限定ではないが、コンピュータ・ストレージ媒体には、有線ネットワーク又は直接有線接続などの有線メディア、並びに音響、ＲＦ、赤外線、及び他のワイヤレス媒体などのワイヤレス媒体が含まれ得る。上記のいずれかの組み合わせもまた、コンピュータ可読媒体の範囲に含まれる。

【0105】

コンピュータ・プログラムは、実行されると、システム５６５が様々な機能を実行することを可能にする。ＣＰＵ５３０は、コンピュータ可読命令のうちの少なくともいくつかを実行して、システム５６５の１つ又は複数のコンポーネントを制御して、本明細書で説明される方法及び／又はプロセスのうちの１つ又は複数を実行するように構成され得る。ＣＰＵ５３０の各々は、多数のソフトウェア・スレッドを同時に処理することが可能である１つ又は複数のコア（例えば、１、２、４、８、２８、７２個など）を含み得る。ＣＰＵ５３０は、任意のタイプのプロセッサを含み得、また、実装されているシステム５６５のタイプに応じて、異なるタイプのプロセッサ（例えば、モバイル・デバイスではコア数が少ないプロセッサ、サーバではコア数が多いプロセッサ）を含み得る。例えば、システム５６５のタイプに応じて、プロセッサは、縮小命令セット計算（ＲＩＳＣ）を使用して実装されるアドバンスドＲＩＳＣマシン（ＡＲＭ：ＡｄｖａｎｃｅｄＲＩＳＣＭａｃｈｉｎｅ）プロセッサ、又は複合命令セット計算（ＣＩＳＣ：ＣｏｍｐｌｅｘＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｉｎｇ）を使用して実装される×８６プロセッサであり得る。システム５６５は、１つ又は複数のマイクロプロセッサ、又は数学コ・プロセッサなどの補助コ・プロセッサに加えて、１つ又は複数のＣＰＵ５３０を含み得る。

【0106】

ＣＰＵ５３０に加えて又はそれに代えて、並列処理モジュール５２５は、コンピュータ可読命令のうちの少なくともいくつかを実行して、システム５６５の１つ又は複数のコンポーネントを制御して、本明細書で説明される方法及び／又はプロセスのうちの１つ又は複数を実行するように構成され得る。並列処理モジュール５２５は、システム５６５によって使用されて、グラフィックス（例えば、３Ｄグラフィックス）がレンダリングされるか、又は汎用計算が実行され得る。例えば、並列処理モジュール５２５は、ＧＰＵでの汎用計算（ＧＰＧＰＵ：Ｇｅｎｅｒａｌ－ＰｕｒｐｏｓｅｃｏｍｐｕｔｉｎｇｏｎＧＰＵ）に使用され得る。一実施例では、ＣＰＵ５３０及び／又は並列処理モジュール５２５は、方法、プロセス、及び／又はこれらの一部分の任意の組み合わせを個別に又は共同で実行し得る。

【0107】

システム５６５はまた、入力デバイス５６０、並列処理システム５２５、及びディスプレイ・デバイス５４５を含む。ディスプレイ・デバイス５４５には、ディスプレイ（例えば、モニタ、タッチ・スクリーン、テレビ画面、ヘッドアップディスプレイ（ＨＵＤ：Ｈｅａｄｓ－Ｕｐ－Ｄｉｓｐｌａｙ）、他のディスプレイ・タイプ、又はこれらの組み合わせ）、スピーカ、及び／又は他のプレゼンテーション・コンポーネントが含まれ得る。ディスプレイ・デバイス５４５は、他のコンポーネント（例えば、並列処理システム５２５、ＣＰＵ５３０など）からデータを受信し、データ（例えば、画像、ビデオ、サウンドなど）を出力し得る。

【0108】

ネットワーク・インターフェース５３５は、システム５６５が、入力デバイス５６０、ディスプレイ・デバイス５４５、及び／又は他のコンポーネント（そのうちのいくつかは、システム５６５に組み込まれていても（例えば、統合されていても）よい）を含む他のデバイスに論理的に結合されることを可能にし得る。例示的な入力デバイス５６０には、マイク、マウス、キーボード、ジョイスティック、ゲーム・パッド、ゲーム・コントローラ、サテライト・ディッシュ、スキャナ、プリンタ、ワイヤレス・デバイスなどが含まれる。入力デバイス５６０は、ユーザが生成したエア・ジェスチャ、声、又は他の生理学的入力を処理するナチュラル・ユーザ・インターフェース（ＮＵＩ：ＮａｔｕｒａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）を提供し得る。場合によっては、入力は、更なる処理のために適切なネットワーク要素に送信され得る。ＮＵＩは、音声認識、スタイラス認識、顔認識、バイオメトリック認識、画面上と画面の隣との両方のジェスチャ認識、エア・ジェスチャ、頭部及び目の追跡、並びにシステム５６５のディスプレイに関連付けられたタッチ認識（以下により詳細に説明される）の任意の組み合わせを実装し得る。システム５６５は、ジェスチャ検出及び認識のために、立体カメラ・システム、赤外線カメラ・システム、ＲＧＢカメラ・システム、タッチスクリーン技術、及びこれらの組み合わせなどの深度カメラを含み得る。追加的に、システム５６５は、動きの検出を可能にする加速度計又はジャイロスコープ（例えば、慣性測定ユニット（ＩＭＵ：ＩｎｅｒｔｉａＭｅａｓｕｒｅｍｅｎｔＵｎｉｔ）の一部として）を含み得る。いくつかの実例では、加速度計又はジャイロスコープの出力は、システム５６５によって使用されて、没入感のある拡張現実又は仮想現実をレンダリングすることができる。

【0109】

更に、システム５６５は、通信のために、ネットワーク・インターフェース５３５を介してネットワーク（例えば、電気通信ネットワーク、ローカル・エリア・ネットワーク（ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ワイヤレス・ネットワーク、インターネット、ピア・ツー・ピア・ネットワーク、ケーブル・ネットワークなどのワイド・エリア・ネットワーク（ＷＡＮ：ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ））に結合され得る。システム５６５は、分散ネットワーク及び／又はクラウド計算環境内に含まれていてもよい。

【0110】

ネットワーク・インターフェース５３５は、１つ又は複数の受信器、送信器、及び／又はトランシーバを含み得る。トランシーバは、システム５６５が、有線及び／又はワイヤレス通信を含む電子通信ネットワークを介して他の計算デバイスと通信することを可能にする。ネットワーク・インターフェース５３５は、パケット構文解析、並びにネットワーク処理及び通信の高速化（例えば、であり、限定されない）などの操作を実行するために、１つ又は複数の処理ユニット（ＤＰＵ：ＤａｔａＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を含むネットワーク・インターフェース・コントローラ（ＮＩＣ：ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣｏｎｔｒｏｌｌｅｒ）として実装され得る。ネットワーク・インターフェース５３５は、ワイヤレス・ネットワーク（例えば、Ｗｉ－Ｆｉ、Ｚ－Ｗａｖｅ、ブルートゥース（登録商標）、ブルートゥースＬＥ、ＺｉｇＢｅｅなど）、有線ネットワーク（例えば、イーサネット（登録商標）又はＩｎｆｉｎｉＢａｎｄ経由の通信）、ロー・パワー・ワイド・エリア・ネットワーク（例えば、ＬｏＲａＷＡＮ、ＳｉｇＦｏｘなど）、及び／又はインターネットなどの多数の異なるネットワークのうちのいずれかを介した通信を可能にするためにコンポーネント及び機能を含み得る。

【0111】

システム５６５はまた、セカンダリ・ストレージ（図示せず）を含み得る。セカンダリ・ストレージには、例えば、フロッピー（登録商標）・ディスク・ドライブ、磁気テープ・ドライブ、コンパクト・ディスク・ドライブ、デジタル多用途ディスク（ＤＶＤ）ドライブ、録音デバイス、ユニバーサル・シリアル・バス（ＵＳＢ：ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）フラッシュ・メモリを表す、ハード・ディスク・ドライブ及び／又はリムーバブル・ストレージ・ドライブが含まれる。リムーバブル・ストレージ・ドライブは、よく知られている方法でリムーバブル・ストレージ・ユニットに対する読み取り／書き込みを行う。システム５６５はまた、ハード・ワイヤード電源、バッテリ電源、又はこれらの組み合わせ（図示せず）を含み得る。電源は、システム５６５のコンポーネントが動作することを可能にするために、システム５６５に給電し得る。

【0112】

上記のモジュール及び／又はデバイスの各々さえも、単一の半導体プラットフォーム上に位置付けられて、システム５６５を形成することができる。交互に、様々なモジュールはまた、ユーザの希望に応じて、個別に、又は半導体プラットフォームの様々な組み合わせに位置付けられてもよい。上記では様々な実施例について説明しているが、これらの実施例は、限定ではなく、例としてのみ提示されていることを理解すべきである。したがって、好ましい実施例の幅及び範囲は、上記の模範的な実施例のいずれにも限定されるべきではなく、以下の特許請求の範囲及びその均等物に従ってのみ定義されるべきである。

【0113】

ネットワーク環境例
本開示の実施例を実装する際の使用に適しているネットワーク環境は、１つ又は複数のクライアント・デバイス、サーバ、ネットワーク・アタッチド・ストレージ（ＮＡＳ：ＮｅｔｗｏｒｋＡｔｔａｃｈｅｄＳｔｏｒａｇｅ）、他のバックエンド・デバイス、及び／又は他のデバイス・タイプを含み得る。クライアント・デバイス、サーバ、及び／又は他のデバイス・タイプ（例えば、各デバイス）は、図５Ａの処理システム５００及び／又は図５Ｂの模範的なシステム５６５の１つ又は複数のインスタンスに実装され得る。例えば、各デバイスは、処理システム５００及び／又は模範的なシステム５６５の同様のコンポーネント、特徴、及び／又は機能を含み得る。

【0114】

ネットワーク環境のコンポーネントは、有線、ワイヤレス、又はその両方であり得るネットワークを介して互いに通信し得る。ネットワークには、複数のネットワーク又はネットワークのネットワークが含まれ得る。例として、ネットワークには、１つ又は複数のワイド・エリア・ネットワーク（ＷＡＮ）、１つ又は複数のローカル・エリア・ネットワーク（ＬＡＮ）、インターネット及び／又は公衆電話交換網（ＰＳＴＮ：ＰｕｂｌｉｃＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ）などの１つ又は複数のパブリック・ネットワーク、並びに／又は、１つ又は複数のプライベート・ネットワークが含まれ得る。ネットワークにワイヤレス電気通信ネットワークが含まれている場合、基地局、通信塔、又は更にはアクセス・ポイント（及び他のコンポーネント）などのコンポーネントがワイヤレス接続性を提供し得る。

【0115】

互換性のあるネットワーク環境には、１つ又は複数のピア・ツー・ピア・ネットワーク環境（この場合、サーバはネットワーク環境に含まれ得ない）、及び１つ又は複数のクライアント・サーバ・ネットワーク環境（この場合、１つ又は複数のサーバがネットワーク環境に含まれ得る）が含まれ得る。ピア・ツー・ピア・ネットワーク環境では、本明細書で説明されるサーバに関する機能は、任意の数のクライアント・デバイスで実装され得る。

【0116】

少なくとも１つの実施例では、ネットワーク環境には、１つ又は複数のクラウド・ベースのネットワーク環境、分散計算環境、これらの組み合わせなどが含まれ得る。クラウド・ベースのネットワーク環境は、フレームワーク層、ジョブ・スケジューラ、リソース・マネージャ、及び１つ又は複数のサーバ（１つ又は複数のコア・ネットワーク・サーバ及び／又はエッジ・サーバを含み得る）で実装される分散ファイル・システムを含み得る。フレームワーク層は、ソフトウェア層のソフトウェア及び／又はアプリケーション層の１つ又は複数のアプリケーションをサポートするためのフレームワークを含み得る。ソフトウェア又はアプリケーションには、それぞれ、ウェブ・ベースのサービス・ソフトウェア又はアプリケーションが含まれ得る。実施例では、クライアント・デバイスのうちの１つ又は複数が、（例えば、１つ又は複数のアプリケーション・プログラミング・インターフェース（ＡＰＩ）を介してサービス・ソフトウェア及び／又はアプリケーションにアクセスすることによって）ウェブ・ベースのサービス・ソフトウェア又はアプリケーションを使用し得る。フレームワーク層は、大規模なデータ処理（例えば、「ビッグ・データ」）に分散ファイル・システムを使用し得るなど、無料のオープン・ソースのソフトウェア・ウェブ・アプリケーション・フレームワークの一タイプであり得るが、これに限定されない。

【0117】

クラウド・ベースのネットワーク環境は、本明細書で説明される計算及び／又はデータ・ストレージ機能（又はその１つ又は複数の部分）の組み合わせを実行するクラウド計算及び／又はクラウド・ストレージを提供し得る。これらの様々な機能はいずれも、（例えば、州、地域、国、地球などの全体に分散され得る１つ又は複数のデータ・センタの）中央又はコア・サーバから複数の場所に分散され得る。ユーザ（例えば、クライアント・デバイス）への接続がエッジ・サーバに比較的近い場合、コア・サーバはエッジ・サーバに機能のうちの少なくとも一部分を指定し得る。クラウド・ベースのネットワーク環境は、プライベート（例えば、単一の組織に限定される）であっても、パブリック（例えば、多くの組織で利用可能である）であっても、及び／又はこれらの組み合わせ（例えば、ハイブリッドのクラウド環境）であってもよい。

【0118】

クライアント・デバイスは、図５Ａの処理システム例５００及び／又は図５Ｂの模範的なシステム５６５のコンポーネント、特徴、及び／又は機能のうちの少なくともいくつかを含み得る。例として、限定ではないが、クライアント・デバイスは、パーソナル・コンピュータ（ＰＣ：ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ラップトップ・コンピュータ、モバイル・デバイス、スマートフォン、タブレット・コンピュータ、スマート・ウォッチ、ウェアラブル・コンピュータ、携帯情報端末（ＰＤＡ）、ＭＰ３プレーヤ、仮想現実ヘッドセット、全地球測位システム（ＧＰＳ：ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）若しくはデバイス、ビデオ・プレーヤ、ビデオ・カメラ、監視デバイス若しくはシステム、車両、ボート、飛行船、仮想マシン、ドローン、ロボット、ハンドヘルド通信デバイス、病院用デバイス、ゲーム・デバイス若しくはシステム、エンターテインメント・システム、車載コンピュータ・システム、組み込みシステム・コントローラ、リモート・コントロール、電化製品、家庭用電子機器、ワークステーション、エッジ・デバイス、これらの描出したデバイスの任意の組み合わせ、又は任意の他の適切なデバイスとして具体化され得る。

【0119】

機械学習
ＰＰＵ４００などのプロセッサ上で開発された深層ニューラル・ネットワーク（ＤＮＮ：ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）は、自動運転車から、医薬品開発の迅速化、オンライン画像データベースでの自動画像キャプショニングから、ビデオ・チャット・アプリケーションでのスマートなリアル・タイム言語翻訳まで、様々な使用事例に使用されてきている。深層学習は、人間の脳の神経学習過程をモデル化し、継続的に学習し、継続的によりスマートになり、時間の経過とともにより正確な結果をより迅速にもたらす手法である。子どもは、まず大人から様々な形状を正しく識別して分類するように教育を受け、最終的には、指導なしで形状を特定できるようになる。同様に、深層学習システム又はニューラル学習システムは、基本的なオブジェクト、隠れたオブジェクトなどをよりスマート且つ効率的に識別すると同時に、オブジェクトにコンテキストを割り当てるために、オブジェクト認識及び分類に関するトレーニングを受ける必要がある。

【0120】

最も単純なレベルでは、人間の脳のニューロンは、受け取った様々な入力を観察し、これらの入力の各々に重要度レベルが割り当てられ、作用するために他のニューロンに出力が渡される。人工ニューロン又はパーセプトロンは、ニューラル・ネットワークの最も基本的なモデルである。１つの実例では、パーセプトロンは、パーセプトロンが認識及び分類するようにトレーニングされているオブジェクトの様々な特徴を表す１つ又は複数の入力を受け取ることができ、これらの特徴の各々には、オブジェクトの形状を定義する際のその特徴の重要度に基づいて、特定の重みが割り当てられる。

【0121】

深層ニューラル・ネットワーク（ＤＮＮ）モデルは、膨大な量の入力データでトレーニングされて複雑な問題を高精度で迅速に解決することができる多数の接続ノードの複数の層（例えば、パーセプトロン、ボルツマン・マシン、放射基底関数、畳み込み層など）を含む。１つの実例では、ＤＮＮモデルの第１の層は、自動車の入力画像を様々なセクションに分割し、直線及び角度などの基本パターンを探す。第２の層は、線を集めて、ホイール、フロントガラス、及びミラーなどの上位レベルのパターンを探す。次の層は、車両のタイプを識別し、いくつかの最終層は、入力画像のラベルを生成し、特定の自動車ブランドのモデルを識別する。

【0122】

ＤＮＮがトレーニングされると、ＤＮＮを導入及び使用して、推論として知られているプロセスでオブジェクト又はパターンを識別及び分類することができる。推論（ＤＮＮが所与の入力から有用な情報を抽出するプロセス）の実例としては、ＡＴＭマシンに預け入れされた小切手の手書きの数字を識別すること、写真の中の友人の画像を識別すること、５，０００万人以上のユーザに推薦する映画を提供すること、無人自動車において様々なタイプの自動車、歩行者、及び道路障害物を識別及び分類すること、又は、人間の音声をリアル・タイムで翻訳することが挙げられる。

【0123】

トレーニング中、データは、入力に対応するラベルを示す予測が生成されるまで、順方向伝播フェーズでＤＮＮを通過する。ニューラル・ネットワークが入力に正しくラベルを付けない場合、正しいラベルと予測ラベルとの間のエラーが解析され、ＤＮＮが当該入力とトレーニング・データセットの他の入力に正しくラベルを付けるまで、後方向伝播フェーズ中に各特徴の重みが調整される。複雑なニューラル・ネットワークをトレーニングするには、ＰＰＵ４００でサポートされる浮動小数点乗算及び加算など、大量の並列計算性能が必要である。推論は、トレーニングよりも計算集約的ではなく、トレーニングされたニューラル・ネットワークがこれまでに見たことのない新しい入力に適用されて、画像を分類し、感情を検出し、推薦事項を特定し、音声を認識及び翻訳し、概して新しい情報を推論するレイテンシに敏感なプロセスである。

【0124】

ニューラル・ネットワークは、行列数学演算に大きく依存しており、複雑な多層ネットワークでは、効率と速度との両方のために多大な量の浮動小数点性能及び帯域幅が必要である。行列数学演算に最適化され、且つ数十から数百のＴＦＬＯＰＳの性能を提供する数千の処理コアによって、ＰＰＵ４００は、深層ニューラル・ネットワーク・ベースの人工知能及び機械学習アプリケーションに必要な性能を提供することが可能である計算プラットフォームである。

【0125】

更に、本明細書に開示される手法のうちの１つ又は複数を適用して生成される画像、予測される心拍数、及び／又は予測される呼吸数などのデータを使用して、現実世界のオブジェクト及び環境を認識するために使用されるＤＮＮのトレーニング、テスト、又は認定を行うことができる。このようなデータには、道路、工場、建物、都市部の環境、農村部の環境、人間、動物、及び他の物理的オブジェクト又は現実世界の環境のシーンが含まれ得る。このようなデータを使用して、現実世界の物理的オブジェクトを操作する、処理する、又は修正するためにマシン又はロボットに採用されるＤＮＮのトレーニング、テスト、及び認定を行うことができる。更に、このようなデータを使用して、現実世界で車両をナビゲート及び動かすために自律走行車両に採用されるＤＮＮのトレーニング、テスト、及び認定を行うことができる。追加的に、本明細書に開示される手法のうちの１つ又は複数を適用して生成されるデータを使用して、そのようなマシン、ロボット、及び車両のユーザに情報を伝えることができる。

【0126】

図５Ｃは、少なくとも１つの実施例による、機械学習のトレーニング及び利用に使用できる模範的なシステム５５５のコンポーネントを示す。考察するように、様々なコンポーネントは、単一のエンティティ又は複数のエンティティの制御下にあり得る、計算デバイス及びリソースの様々な組み合わせ、又は単一の計算システムによって提供することができる。更に、様々なエンティティによって、態様がトリガされ、開始され、又は要求され得る。少なくとも１つの実施例では、ニューラル・ネットワークのトレーニングは、プロバイダ環境５０６に関連付けられたプロバイダから指示され得る一方で、少なくとも１つの実施例では、トレーニングは、クライアント・デバイス５０２又は他のそのようなリソースを介してプロバイダ環境へアクセスする顧客又は他のユーザから要求され得る。少なくとも１つの実施例では、トレーニング・データ（又はトレーニングされたニューラル・ネットワークによって解析されるデータ）は、プロバイダ、ユーザ、又はサード・パーティ・コンテンツ・プロバイダ５２４によって提供され得る。少なくとも１つの実施例では、クライアント・デバイス５０２は、ユーザの代理としてナビゲートされる車両又はオブジェクトであり得、例えば、デバイスのナビゲーションを支援するリクエストを提出する及び／又は指示を受信することができる。

【0127】

少なくとも１つの実施例では、プロバイダ環境５０６によって受信されるように、少なくとも１つのネットワーク５０４を介してリクエストを提出することができる。少なくとも１つの実施例では、クライアント・デバイスは、デスクトップ・コンピュータ、ノートブック・コンピュータ、コンピュータ・サーバ、スマートフォン、タブレット・コンピュータ、ゲーム・コンソール（ポータブルであるか又はそうでないもの）、コンピュータ・プロセッサ、計算論理、及びセット・トップ・ボックスなどであるが、これらに限定されない、ユーザがそのようなリクエストを生成及び送信することを可能にする任意の適切な電子及び／又は計算デバイスであり得る。ネットワーク５０４には、インターネット、イントラネット、イーサネット（登録商標）、セルラ・ネットワーク、ローカル・エリア・ネットワーク（ＬＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、パーソナル・エリア・ネットワーク（ＰＡＮ：ＰｅｒｓｏｎａｌＡｒｅａＮｅｔｗｏｒｋ）、ピア間の直接ワイヤレス接続のアド・ホック・ネットワークなどを含み得る、リクエスト又は他のそのようなデータを送信するための適切なネットワークが含まれ得る。

【0128】

少なくとも１つの実施例では、リクエストは、インターフェース層５０８で受信することができ、インターフェース層５０８は、この実例では、トレーニング及び推論マネージャ５３２にデータを転送することができる。トレーニング及び推論マネージャ５３２は、リクエスト、及びサービスに対応するデータ又はコンテンツを管理するためのハードウェア及びソフトウェアを含むシステム又はサービスであり得る。少なくとも１つの実施例では、トレーニング及び推論マネージャ５３２は、ニューラル・ネットワークをトレーニングするためのリクエストを受信することができ、また、トレーニング・モジュール５１２へのリクエストのためのデータを提供することができる。少なくとも１つの実施例では、トレーニング・モジュール５１２は、リクエストによって指定されていない場合、使用する適切なモデル又はニューラル・ネットワークを選択し、関連するトレーニング・データを使用してモデルをトレーニングすることができる。少なくとも１つの実施例では、トレーニング・データは、トレーニング・データ・リポジトリ５１４に保存された、クライアント・デバイス５０２から受信された、又はサード・パーティ・プロバイダ５２４から取得されたデータのバッチであり得る。少なくとも１つの実施例では、トレーニング・モジュール５１２は、トレーニング・データに対する責任を負っている場合がある。ニューラル・ネットワークは、リカレント・ニューラル・ネットワーク（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）又は畳み込みニューラル・ネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）など、任意の適切なネットワークであり得る。ニューラル・ネットワークがトレーニングされて、成功裏に評価されると、トレーニングされたニューラル・ネットワークは、モデル・リポジトリ５１６に保存され得る。モデル・リポジトリ５１６は、例えば、ユーザ、アプリケーション、又はサービスなどの様々なモデル又はネットワークを保存し得る。少なくとも１つの実施例では、多数の異なる要因に基づいて利用され得るように、単一のアプリケーション又はエンティティに対して複数のモデルが存在し得る。

【0129】

少なくとも１つの実施例では、次の時点において、トレーニングされたニューラル・ネットワークによって少なくとも部分的に決定されるか又は影響を受けるコンテンツ（例えば、パス決定）又はデータについて、クライアント・デバイス５０２（又は別のそのようなデバイス）からリクエストが受信され得る。このリクエストには、例えば、１つ又は複数の推論若しくは他の出力値、分類、又は予測を取得するためにニューラル・ネットワークを使用して処理される入力データが含まれ得る。又は、少なくとも１つの実施例では、入力データは、インターフェース層５０８によって受信され、推論モジュール５１８に向けられてもよい。ただし、異なるシステム又はサービスを使用することもできる。少なくとも１つの実施例では、推論モジュール５１８は、推論モジュール５１８にローカルにまだ保存されていない場合、本明細書で考察されるようにトレーニングされた深層ニューラル・ネットワーク（ＤＮＮ）などの適切なトレーニングされたネットワークを、モデル・リポジトリ５１６から取得することができる。推論モジュール５１８は、トレーニングされたネットワークへの入力としてデータを提供でき、トレーニングされたネットワークは、その後、出力として１つ又は複数の推論を生成することができる。これには、例えば、入力データのインスタンスの分類が含まれ得る。少なくとも１つの実施例では、推論は、次に、ユーザに対する表示又は通信のために、クライアント・デバイス５０２に送信され得る。少なくとも１つの実施例では、ユーザのコンテキスト・データはまた、ユーザ・コンテキスト・データ・リポジトリ５２２に保存され得る。ユーザ・コンテキスト・データ・リポジトリ５２２には、推論を生成する際又はインスタンスの取得後にユーザに返すデータを決定する際にネットワークへの入力として有用であり得るユーザに関するデータが含まれ得る。少なくとも１つの実施例では、入力又は推論データのうちの少なくとも一部を含み得る関連データはまた、将来のリクエストを処理するためにローカル・データベース５３４に保存され得る。少なくとも１つの実施例では、ユーザはアカウント情報又は他の情報を使用して、プロバイダ環境のリソース又は機能にアクセスすることができる。少なくとも１つの実施例では、許可され且つ利用可能である場合は、モデルを更にトレーニングするためにユーザ・データも収集及び使用して、将来のリクエストに対してより正確な推論を提供することができる。少なくとも１つの実施例では、リクエストは、ユーザ・インターフェースを介して、クライアント・デバイス５０２上で実行されている機械学習アプリケーション５２６へ受信され、同じインターフェースを介して結果が表示され得る。クライアント・デバイスは、リクエストを生成し、結果又は応答を処理するためのプロセッサ５２８及びメモリ５６２だけでなく、機械学習アプリケーション５２６のデータを保存するための少なくとも１つのデータ・ストレージ要素５５２などのリソースを含み得る。

【0130】

少なくとも１つの実施例では、プロセッサ５２８（又はトレーニング・モジュール５１２又は推論モジュール５１８のプロセッサ）は、中央処理ユニット（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）になる。しかしながら、すでに述べたように、このような環境におけるリソースは、ＧＰＵを利用して、少なくとも特定のタイプのリクエストのデータを処理することができる。数千のコアによって、ＰＰＵ３００などのＧＰＵは、かなりの並列ワークロードを処理するように設計されているため、ニューラル・ネットワークのトレーニング及び予測の生成のための深層学習によく使われるようになっている。オフライン・ビルド用にＧＰＵを使用することで、より大規模で複雑なモデルのトレーニングを迅速に行うことができるが、オフラインで予測を生成することは、要求時の入力特徴を使用できないか、又は特徴のすべての順列に対して予測を生成し、リアル・タイム・リクエストに役立つためにルックアップ・テーブルに保存しなければならないことを意味する。深層学習フレームワークがＣＰＵモードをサポートしており、妥当なレイテンシで、ＣＰＵ上でフィード・フォワードを実行するのにモデルが十分に小さく且つ単純である場合、ＣＰＵインスタンス上のサービスがモデルをホストすることができる。この場合、トレーニングは、ＧＰＵで、オフラインで行うことができ、推論は、ＣＰＵで、リアル・タイムで行うことができる。ＣＰＵアプローチが実行可能ではない場合は、ＧＰＵインスタンスでサービスを実行することができる。しかしながら、ＧＰＵの性能及びコスト特性はＣＰＵとは異なるため、ランタイム・アルゴリズムをＧＰＵにオフロードするサービスを実行することは、ＣＰＵベースのサービスとは異なる設計が必要になり得る。

【0131】

少なくとも１つの実施例では、プロバイダ環境５０６におけるエンハンスメントのために、ビデオ・データがクライアント・デバイス５０２から提供され得る。少なくとも１つの実施例では、クライアント・デバイス５０２でのエンハンスメントのために、ビデオ・データが処理され得る。少なくとも１つの実施例では、ビデオ・データは、サード・パーティ・コンテンツ・プロバイダ５２４からストリーミングされ、サード・パーティ・コンテンツ・プロバイダ５２４、プロバイダ環境５０６、又はクライアント・デバイス５０２によってエンハンスされ得る。少なくとも１つの実施例では、プロバイダ環境５０６においてトレーニング・データとして使用されるために、ビデオ・データがクライアント・デバイス５０２から提供され得る。

【0132】

少なくとも１つの実施例では、クライアント・デバイス５０２及び／又はプロバイダ環境５０６によって、教師付き及び／又は教師なしトレーニングを実行することができる。少なくとも１つの実施例では、トレーニング・データ５１４（例えば、分類された又はラベル付けされたデータ）のセットが、トレーニング・データとして機能するための入力として提供される。少なくとも１つの実施例では、トレーニング・データには、ニューラル・ネットワークのトレーニング対象となる少なくとも１つのタイプのオブジェクトのインスタンスと、そのタイプのオブジェクトを特定する情報とが含まれ得る。少なくとも１つの実施例では、トレーニング・データには、各々があるタイプのオブジェクトの表現を含んでいる画像のセットが含まれ得る。また、各画像には、ラベル、メタデータ、分類、又はそれぞれの画像内に表されるオブジェクトのタイプを識別する他の情報が含まれているか、又は関連付けられている。トレーニング・データとして、他の様々なタイプのデータを使用することができ、テキスト・データ、オーディオ・データ、ビデオ・データなどが含まれ得る。少なくとも１つの実施例では、トレーニング・データ５１４は、トレーニング・モジュール５１２へのトレーニング入力として提供される。少なくとも１つの実施例では、トレーニング・モジュール５１２は、ニューラル・ネットワーク（又は他のモデル若しくはアルゴリズムなど）をトレーニングするためにトレーニング・アプリケーションを実行する１つ又は複数の計算デバイスなど、ハードウェア及びソフトウェアを含むシステム又はサービスであり得る。少なくとも１つの実施例では、トレーニング・モジュール５１２は、トレーニングに使用するモデルのタイプを示す指示又はリクエストを受信する。少なくとも１つの実施例では、モデルは、そのような目的に有用である任意の適切な統計モデル、ネットワーク、又はアルゴリズムであり得、人工ニューラル・ネットワーク、深層学習アルゴリズム、学習分類器、ベイズ・ネットワークなどが含まれ得る。少なくとも１つの実施例では、トレーニング・モジュール５１２は、適切なリポジトリ５１６から初期モデル又は他のトレーニングされていないモデルを選択し、トレーニング・データ５１４を利用してモデルをトレーニングし、これにより、同様のタイプのデータを分類したり、他のそのような推論を生成したりするために使用することができるトレーニングされたモデル（例えば、トレーニングされた深層ニューラル・ネットワーク）を生成することができる。トレーニング・データが使用されない少なくとも１つの実施例では、トレーニング・モジュール５１２に従って、入力データのトレーニングに適切な初期モデルを依然として選択することができる。

【0133】

少なくとも１つの実施例では、モデルは、選択されたモデルのタイプに部分的に応じて、いくつかの異なる方法でトレーニングすることができる。少なくとも１つの実施例では、機械学習アルゴリズムにトレーニング・データのセットを提供することができる。ここで、モデルは、トレーニング・プロセスによって作成されたモデル・アーチファクトである。少なくとも１つの実施例では、トレーニング・データの各インスタンスは、正解（例えば、分類）を含み、これは、ターゲット又はターゲット属性と呼ばれ得る。少なくとも１つの実施例では、学習アルゴリズムは、入力データ属性をターゲット（予測される回答）にマッピングするトレーニング・データのパターンを見つけ、これらのパターンをキャプチャする機械学習モデルが出力される。少なくとも１つの実施例では、次に、機械学習モデルを使用して、ターゲットが指定されていない新しいデータの予測を取得することができる。

【0134】

少なくとも１つの実施例では、トレーニング及び推論マネージャ５３２は、バイナリ分類モデル、マルチクラス分類モデル、生成モデル、及び回帰モデルを含む機械学習モデルのセットから選択することができる。少なくとも１つの実施例では、使用されるモデルのタイプは、少なくとも部分的に予測されるターゲットのタイプに依存することができる。

【0135】

一実施例では、ＰＰＵ４００は、グラフィックス処理ユニット（ＧＰＵ）を含む。ＰＰＵ４００は、グラフィックス・データを処理するためのシェーダ・プログラムを指定するコマンドを受信するように構成されている。グラフィックス・データは、点、直線、三角形、四角形、三角形ストリップなどのプリミティブのセットとして定義され得る。通常、プリミティブには、プリミティブのいくつかの頂点（例えば、モデル空間座標系にある）と、プリミティブの各頂点に関連付けられる属性とを指定するデータが含まれる。ＰＰＵ４００は、グラフィックス・プリミティブを処理してフレーム・バッファ（例えば、ディスプレイのピクセルの各々のピクセル・データ）を生成するように構成され得る。

【0136】

アプリケーションが、シーンのモデル・データ（例えば、頂点及び属性の集合）を、システム・メモリ又はメモリ４０４といったメモリに書き込みを行う。モデル・データは、ディスプレイで可視であり得るオブジェクトの各々を定義する。アプリケーションは、次に、モデル・データのレンダリング及び表示を要求するドライバ・カーネルに対してＡＰＩ呼び出しを行う。ドライバ・カーネルは、モデル・データを読み取り、１つ又は複数のストリームにコマンドを書き込み、モデル・データを処理するための操作を実行する。コマンドは、ＰＰＵ４００内の処理ユニットに実装される、頂点シェーダ、ハル・シェーダ、ドメイン・シェーダ、ジオメトリ・シェーダ、及びピクセル・シェーダのうちの１つ又は複数を含む様々なシェーダ・プログラムを参照し得る。例えば、処理ユニットのうちの１つ又は複数は、モデル・データによって定義されたいくつかの頂点を処理する頂点シェーダ・プログラムを実行するように構成され得る。一実施例では、異なる処理ユニットが、異なるシェーダ・プログラムを同時に実行するように構成され得る。例えば、処理ユニットの第１のサブセットは、頂点シェーダ・プログラムを実行するように構成され得、処理ユニットの第２のサブセットは、ピクセル・シェーダ・プログラムを実行するように構成され得る。処理ユニットの第１のサブセットは、頂点データを処理して、処理された頂点データを生成し、処理された頂点データをＬ２キャッシュ４６０及び／又はメモリ４０４に書き込む。処理された頂点データがラスタライズされて（例えば、３次元データからスクリーン空間内の２次元データに変換されて）、フラグメント・データが生成された後、処理ユニットの第２のサブセットは、ピクセル・シェーダを実行して、処理されたフラグメント・データを生成する。これは、次に、他の処理されたフラグメント・データとブレンドされ、メモリ４０４内のフレーム・バッファに書き込まれる。頂点シェーダ・プログラム及びピクセル・シェーダ・プログラムは同時に実行し、シーンのすべてのモデル・データがフレーム・バッファにレンダリングされるまで、パイプライン化された方法で同じシーンからの異なるデータを処理し得る。次に、フレーム・バッファの内容が、ディスプレイ・デバイスでの表示のためにディスプレイ・コントローラに送信される。

【0137】

本明細書に開示される手法のうちの１つ又は複数を適用して生成される画像、予測される心拍数、及び／又は予測される呼吸数などのデータは、モニタ又は他のディスプレイ・デバイスに表示され得る。いくつかの実施例では、ディスプレイ・デバイスは、画像を生成又はレンダリングするシステム又はプロセッサに直接結合され得る。他の実施例では、ディスプレイ・デバイスは、ネットワーク経由など、システム又はプロセッサに間接的に結合され得る。このようなネットワークの例としては、インターネット、モバイル電気通信ネットワーク、ＷＩＦＩネットワーク、並びに任意の他の有線及び／又はワイヤレス・ネットワーク・システムが挙げられる。ディスプレイ・デバイスが間接的に結合されている場合、システム又はプロセッサによって生成されたデータは、ネットワーク経由でディスプレイ・デバイスにストリーミングされ得る。このようなストリーミングは、例えば、ビデオゲーム、又は画像をレンダリングする他のアプリケーションが、サーバ、データ・センタ、又は、クラウド・ベースの計算環境で実行されることを可能にし、また、レンダリングされた画像が、サーバ又はデータ・センタから物理的に別個の１つ又は複数のユーザ・デバイス（コンピュータ、ビデオ・ゲーム・コンソール、スマートフォン、他のモバイル・デバイスなど）に送信及び表示されることを可能にする。したがって、本明細書で開示される手法を適用して、ストリーミングされる画像をエンハンスしたり、ＮＶＩＤＩＡＧｅＦｏｒｃｅＮｏｗ（ＧＦＮ）、ＧｏｏｇｌｅＳｔａｄｉａなどの画像をストリーミングするサービスを向上させたりすることができる。

【0138】

ストリーミング・システム例
図６は、本開示のいくつかの実施例による、ストリーミング・システム６０５のシステム図例である。図６は、サーバ６０３（図５Ａの処理システム例５００及び／又は図５Ｂの模範的なシステム５６５と同様のコンポーネント、特徴、及び／又は機能を含み得る）、クライアント・デバイス６０４（図５Ａの処理システム例５００及び／又は図５Ｂの模範的なシステム５６５と同様のコンポーネント、特徴、及び／又は機能を含み得る）、及びネットワーク６０６（本明細書に説明されるネットワークと同様であり得る）を含む。本開示のいくつかの実施例では、システム６０５が実装され得る。

【0139】

一実施例では、ストリーミング・システム６０５は、ゲーム・ストリーミング・システムであり、サーバ６０４は、ゲーム・サーバである。システム６０５では、ゲーム・セッションでは、クライアント・デバイス６０４は、入力デバイス６２６への入力に応答して入力データのみを受信し、入力データをサーバ６０３に送信し、符号化された表示データをサーバ６０３から受信し、表示データをディスプレイ６２４に表示し得る。したがって、より計算集約的な計算及び処理が、サーバ６０３にオフロードされる（例えば、ゲーム・セッションのグラフィカル出力のためのレンダリング、特に、レイ又はパス・トレーシングがサーバ６０３のＧＰＵ６１５によって実行される）。つまり、ゲーム・セッションは、サーバ６０３からクライアント・デバイス６０４にストリーミングされるため、グラフィックス処理及びレンダリングのためのクライアント・デバイス６０４の要件が低減される。

【0140】

例えば、ゲーム・セッションのインスタンス化に関して、クライアント・デバイス６０４は、サーバ６０３からの表示データの受信に基づいて、ゲーム・セッションのフレームをディスプレイ６２４に表示し得る。クライアント・デバイス６０４は、入力デバイス６２６のうちの１つへの入力を受信し、それに応じて入力データを生成し得る。クライアント・デバイス６０４は、通信インターフェース６２１を介して、ネットワーク６０６（例えば、インターネット）経由でサーバ６０３に入力データを送信し、サーバ６０３は、通信インターフェース６１８を介して入力データを受信し得る。ＣＰＵ６０８は、入力データを受信し、入力データを処理し、ＧＰＵ６１５にゲーム・セッションのレンダリングを生成させるデータをＧＰＵ６１５に送信し得る。例えば、入力データは、ゲーム内のユーザのキャラクタの動き、武器の発射、再装弾、ボールの受け渡し、車両の旋回などを表し得る。レンダリング・コンポーネント６１２が、ゲーム・セッション（例えば、入力データの結果を表す）をレンダリングし、レンダ・キャプチャ・コンポーネント６１４が、ゲーム・セッションのレンダリングを表示データとして（例えば、ゲーム・セッションのレンダリングされたフレームをキャプチャする画像データとして）キャプチャし得る。ゲーム・セッションのレンダリングには、ＧＰＵなどの１つ又は複数の並列処理ユニットを使用して計算されるレイ又はパス・トレースされたライティング及び／又はシャドウ効果が含まれ得、ＧＰＵは更に、１つ又は複数の専用ハードウェア・アクセラレータ又は処理コアの使用を採用して、サーバ６０３のレイ又はパス・トレーシング手法を実行し得る。次に、符号化器６１６が表示データを符号化して、符号化された表示データを生成し得る。符号化された表示データは、通信インターフェース６１８を介して、ネットワーク６０６経由でクライアント・デバイス６０４に送信され得る。クライアント・デバイス６０４は、通信インターフェース６２１を介して、符号化された表示データを受信し得る。復号化器６２２が符号化された表示データを復号化して、表示データを生成し得る。次に、クライアント・デバイス６０４は、ディスプレイ６２４を介して表示データを表示し得る。

【0141】

本明細書に説明される手法は、プロセッサ・ベースの命令実行マシン、システム、装置、又はデバイスによる、又はこれらに関連する使用のためにコンピュータ可読媒体に保存された実行可能命令に具体化され得ることに留意されたい。いくつかの実施例では、当業者は、データを保存するために様々なタイプのコンピュータ可読媒体を含めることが可能であることを理解するであろう。本明細書で使用される場合、「コンピュータ可読媒体」には、命令実行マシン、システム、装置、又はデバイスが、コンピュータ可読媒体から命令を読み取り（フェッチし）、説明された実施例を実行するために命令を実行し得るように、コンピュータ・プログラムの実行可能命令を保存するための任意の適切な媒体のうちの１つ又は複数が含まれる。適切なストレージ形式には、電子形式、磁気形式、光学形式、及び電磁形式のうちの１つ又は複数が含まれる。従来の模範的なコンピュータ可読媒体の非包括的リストには、ポータブル・コンピュータ・ディスケット、ランダム・アクセス・メモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、読み取り専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭ：ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュ・メモリ・デバイス、及び光学ストレージ・デバイス（ポータブル・コンパクト・ディスク（ＣＤ：ＣｏｍｐａｃｔＤｉｓｃ）、ポータブル・デジタル・ビデオ・ディスク（ＤＶＤ：ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃ）などを含む）が含まれる。

【0142】

添付の図に例示されているコンポーネントの配置は、例示のためのものであり、他の配置が可能であることを理解すべきである。例えば、本明細書で説明される要素のうちの１つ又は複数は、全体的又は部分的に、電子ハードウェア・コンポーネントとして実現され得る。他の要素は、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアとの組み合わせで実装され得る。更に、本明細書で説明される機能を依然として実現しながら、これらの他の要素のうちのいくつか又は全部を組み合わせても、いくつかを完全に省略しても、追加のコンポーネントを追加してもよい。したがって、本明細書で説明される主題は、多くの異なるバリエーションで具体化され得、そのようなバリエーションはすべて特許請求の範囲内であると企図されている。

【0143】

本明細書で説明される主題を理解しやすくするために、多くの態様は、一連のアクションで説明されている。当業者は、特殊回路によって、１つ又は複数のプロセッサによって実行されるプログラム命令によって、又はその両方の組み合わせによって、様々なアクションが実行され得ることを認識するであろう。本明細書における任意の一連のアクションの説明は、その一連を実行するために説明された特定の順序に従う必要があることを意味することを意図するものではない。本明細書に説明されるすべての方法は、本明細書に特に明記されていない限り、又はコンテキストによって明確に矛盾する場合を除き、任意の適切な順序で実行され得る。

【0144】

主題を説明するコンテキスト（特に、次の特許請求の範囲のコンテキスト）における「ａ」及び「ａｎ」及び「ｔｈｅ」の用語及び同様の参照の使用は、本明細書に特に明記されていない限り、又はコンテキストによって明確に矛盾する場合を除き、単数形及び複数形の両方を対象とするように解釈されるべきである。１つ又は複数の項目のリストが続く「少なくとも１つ」という用語の使用（例えば、「Ａ及びＢのうちの少なくとも１つ」）は、本明細書に特に明記されていない限り、又はコンテキストによって明確に矛盾する場合を除き、リストされた項目から選択される１つの項目（Ａ又はＢ）、又は、リストされた項目のうちの２つ以上の任意の組み合わせ（Ａ及びＢ）を意味するものと解釈されるべきである。更に、前述の説明は、例示のためだけであり、限定のためではない。これは、求められる保護の範囲は、以下に記載される特許請求の範囲と、その任意の均等物とともに定義されるためである。本明細書に提供される任意及びすべての実例又は例示的な用語（例えば、「など」）の使用は、単に主題をよりよく例示することを目的としたものであり、特に主張されていない限り、主題の範囲に限定を課すものではない。特許請求の範囲及び書面の説明の両方における、「～に基づく（ｂａｓｅｄｏｎ）」という用語及び結果をもたらすための条件を示す他の類似フレーズの使用は、その結果をもたらす他の条件を除外することは意図されていない。本明細書における用語は、請求項に係わらない任意の要素が、請求項に係る発明の実践に不可欠であることを示していると解釈されるべきではない。

【図1A】