(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-17
(45)【発行日】2024-09-26
(54)【発明の名称】柔軟な精度のニューラル推論処理ユニット
(51)【国際特許分類】
G06N 3/063 20230101AFI20240918BHJP
【FI】
G06N3/063
(21)【出願番号】P 2022533479
(86)(22)【出願日】2020-09-29
(86)【国際出願番号】 EP2020077251
(87)【国際公開番号】W WO2021110299
(87)【国際公開日】2021-06-10
【審査請求日】2023-02-24
(32)【優先日】2019-12-06
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【氏名又は名称】片岡 忠彦
(72)【発明者】
【氏名】キャシディ,アンドリュー,スティーブン
(72)【発明者】
【氏名】アプスワミー,ラティナクマール
(72)【発明者】
【氏名】アーサー,ジョン、ヴァーノン
(72)【発明者】
【氏名】ダッタ,パラブ
(72)【発明者】
【氏名】エセール,スティーブ,カイル
(72)【発明者】
【氏名】フリクナー,マイロン
(72)【発明者】
【氏名】マッキンストリー,ジェフェリー
(72)【発明者】
【氏名】モダ,ダルメーンドラ
(72)【発明者】
【氏名】澤田 潤
(72)【発明者】
【氏名】タバ,ブライアン,セイショ
【審査官】渡辺 順哉
(56)【参考文献】
【文献】米国特許出願公開第2019/0303749(US,A1)
【文献】国際公開第2018/192500(WO,A1)
【文献】特表2019-522271(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
ニューラルコアを含むニューラル推論チップであって
、前記ニューラルコアは、
荷重行列精度を有する荷重行列を受信し、入力活性ベクトル精度を有する入力活性ベクトルを受信し、前記入力活性ベクトルに前記荷重行列を乗算することによって、部分和ベクトル精度を有する部分和ベクトルを計算するように適合されたベクトル行列乗算器と、
前記ベクトル行列乗算器を含む1または複数のベクトル・ソースから1または複数の部分和ベクトルを受信し、前記1または複数の部分和ベクトル上で1または複数のベクトル関数を実行し、前記部分和ベクトル精度と等しい精度を有するベクトル処理器出力ベクトルをもたらすように適合されたベクトル処理器と、
前記ベクトル処理器に動作可能に結合され、前記ベクトル処理器出力ベクトルに対し活性化関数を適用し、出力活性精度を有する出力活性ベクトルをもたらす活性化ユニットと
を含み
、前記ニューラルコアは、前記荷重行列精度、前記入力活性ベクトル精度、前記部分和ベクトル精度および前記出力活性精度のうちの少なくとも1つについて、それぞれ、サポートする複数の異なる精度のうちの1つを選択して動作するように適合される、ニューラル推論チップ。
【請求項2】
前記ニューラルコアを少なくとも1つの追加のニューラルコアに相互に接続する少なくとも1つのネットワークを含み、前記少なくとも1つのネットワークは、シナプス荷重もしくは入力活性またはその両方を前記ニューラルコアに可変精度で伝達するよう適合される、請求項1に記載のニューラル推論チップ。
【請求項3】
前記少なくとも1つのネットワークは、一定の帯域幅を維持しながら、前記荷重行列精度および次元、前記入力活性ベクトル精度および次元もしくは前記出力活性ベクトル精度および次元またはその組み合わせを変化するようにさらに適合される、請求項2に記載のニューラル推論チップ。
【請求項4】
前記ニューラルコアは、
少なくとも1つのメモリを含み、前記少なくとも1つのメモリは、前記荷重行列、前記入力活性ベクトルもしくは前記出力活性ベクトルまたはその組み合わせを可変精度で格納するように適合される、請求項1~3のいずれか1項に記載のニューラル推論チップ。
【請求項5】
前記少なくとも1つのメモリは、一定のストレージ利用率を維持しながら、前記荷重行列精度および次元、前記入力活性ベクトル精度および次元もしくは前記出力活性ベクトル精度および次元またはその組み合わせを変化させるようにさらに適合される、請求項4に記載のニューラル推論チップ。
【請求項6】
前記ベクトル行列乗算器は、さらに、一定の帯域幅を維持しながら、前記荷重行列精度および次元もしくは前記入力活性ベクトル精度および次元またはその両方を変化させるようにさらに適合される、請求項1~5のいずれか1項に記載のニューラル推論チップ。
【請求項7】
前記ベクトル行列乗算器は、1サイクル当たりの可変数の乗算を可変精度で計算するようにさらに適合されており、前記1サイクル当たりの可変数の乗算および可変精度は、反比例する、請求項6に記載のニューラル推論チップ。
【請求項8】
前記活性化関数は、前記ベクトル処理器出力ベクトルをリレンジするよう適合される、請求項1~7のいずれか1項に記載のニューラル推論チップ。
【請求項9】
前記活性化関数を適用することは、飽和関数を適用することを含む、請求項8に記載のニューラル推論チップ。
【請求項10】
前記飽和関数は、前記出力活性精度に対応した少なくとも1つの限界を有する、請求項9に記載のニューラル推論チップ。
【請求項11】
前記活性化関数を適用することは、1または複数の最下位ビットを切り詰めることを含む、請求項8に記載のニューラル推論チップ。
【請求項12】
前記複数の異なる精度は、2ビット、4ビット、8ビット、16ビットおよび32ビット
を含むグループから選択される
少なくとも2つを含む、請求項1~11のいずれか1項に記載のニューラル推論チップ。
【請求項13】
前記
複数の異なる精度のうちの1つは、実行時に選択可能である、請求項1~12のいずれか1項に記載のニューラル推論チップ。
【請求項14】
前記
複数の異なる精度のうちの1つは、ニューラル・ネットワークの各層について選択可能である、請求項1~13のいずれか1項に記載のニューラル推論チップ。
【請求項15】
前記荷重行列精度は、前記活性ベクトル精度に等しい、請求項1~14のいずれか1項に記載のニューラル推論チップ。
【請求項16】
前記部分和ベクトル精度は、前記出力活性精度と等しくない、請求項15に記載のニューラル推論チップ。
【請求項17】
前記部分和ベクトル精度は、前記荷重行列精度もしくは前記活性ベクトル精度またはその両方よりも高い、請求項1~16のいずれか1項に記載のニューラル推論チップ。
【請求項18】
前記出力活性精度は、前記荷重行列精度に等しい、請求項15に記載のニューラル推論チップ。
【請求項19】
方法であって、
ニューラル推論チップが、
第1の精度を有する荷重行列を受信するステップと、
前記第1の精度を有する活性ベクトルを受信するステップと、
前記荷重行列および前記活性ベクトルのベクトル行列乗算を計算し、第2の精度を有する部分和ベクトルをもたらすステップと、
前記部分和ベクトル上で1または複数のベクトル関数を実行し、前記第2の精度を有するベクトル処理器出力ベクトルをもたらすステップと、
前記ベクトル処理器出力ベクトルに対し活性化関数を適用し、第3の精度を有する出力活性ベクトルをもたらすステップと
を
実行することを含み、前記方法は、前記ニューラル推論チップが、前記第1の精度、前記第2の精度よび前記第3の精度のうちの少なくとも1つ
について、それぞれ、サポートする複数の異なる精度のうちの1つを選択するステップをさらに実行することを含む、方法。
【請求項20】
前記ニューラル推論チップが、ニューラル・ネットワークの各層の計算について、前記第1の精度、前記第2の精度および前記第3の精度のうちの少なくとも1つを変化させるステップ
をさらに
実行することを含む、請求項19に記載の方法。
【請求項21】
ニューラルコアを含むニューラル推論チップを動作させる方法であって、
前記ニューラル推論チップのベクトル行列乗算器によって、荷重行列精度を有する荷重行列を受信し、入力活性ベクトル精度を有する入力活性ベクトルを受信し
、前記入力活性ベクトルに前記荷重行列を乗算することによって、部分和ベクトル精度を有する部分和ベクトルを計算するステップと、
前記ニューラル推論チップのベクトル処理器によって、前記ベクトル行列乗算器を含む1または複数のベクトル・ソースから1または複数の部分和ベクトルを受信し、前記1または複数の部分和ベクトル上で1または複数のベクトル関数を実行し、前記部分和ベクトル精度と等しい精度を有するベクトル処理器出力ベクトルをもたらすステップと、
前記ニューラル推論チップの活性化ユニットによって、前記ベクトル処理器出力ベクトルに対し活性化関数を適用し、出力活性精度を有する出力活性ベクトルをもたらすステップと
を含
み、前記方法は、前記ニューラル推論チップによって、前記荷重行列精度、前記入力活性ベクトル精度、前記部分和ベクトル精度および前記出力活性精度のうちの少なくとも1つについて、それぞれ、サポートする複数の異なる精度のうちの1つを選択するステップをさらに含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の実施形態は、ニューラル・ネットワーク処理装置に関し、より詳細には、柔軟な精度のニューラル推論処理ユニットに関する。
【背景技術】
【0002】
人工ニューロンは、その出力がその入力の線形結合の非線形関数である数学的関数である。2つのニューロンは、一方の出力が他方への入力である場合に、接続される。荷重は、1つのニューロンの出力と他のニューロンの入力との間の接続の強度をエンコードするスカラー値である。
【0003】
ニューロンは、その入力の重み付け総和に対し非線形活性化関数を適用することにより、活性と参照されるその出力を計算する。重み付け総和は、各入力に対応する荷重を乗算して積を累積することによって計算される中間結果である。部分和は、入力の部分集合の重み付け総和である。すべての入力の重み付け総和は、1または複数の部分和を累積することによって段階的に計算され得る。
【0004】
ニューラル・ネットワークは、1または複数のニューロンのコレクションである。ニューラル・ネットワークは、しばしば、層と呼ばれるニューロンのグループに分割される。層は、すべてが同一層からの入力を受信し、すべてが出力を同一層に出力し、典型的には同様の機能を実行する、1または複数のニューロンのコレクションである。入力層は、ニューラル・ネットワーク外部のソースからの入力を受信する層である。出力層は、ニューラル・ネットワーク外部のターゲットに出力を送信する層である。他のすべての層は中間処理層である。多層ニューラル・ネットワークは、1または複数の層を有するニューラル・ネットワークである。深層ニューラル・ネットワークは、多くの層を有する多層ニューラル・ネットワークである。
【0005】
テンソルは、数値の多次元配列である。テンソル・ブロックは、テンソル内の要素の連続した部分配列である。
【0006】
各ニューラル・ネットワーク層は、パラメータ・テンソルV、荷重テンソルW、入力データ・テンソルX、出力データ・テンソルYおよび中間データ・テンソルZに関連付けられる。パラメータ・テンソルは、層内のニューロン活性化関数σを制御するすべてのパラメータを含む。荷重テンソルは、層への入力に接続するすべての荷重を含む。入力データ・テンソルは、層が入力として消費する全てのデータを含む。出力データ・テンソルは、層が出力として計算するデータの全てを含む。中間データ・テンソルは、部分和のような、層が中間計算として生成するすべてのデータを含む。
【0007】
ある層についてのデータ・テンソル(入力、出力および中間)は、3次元であってもよく、ここで、最初の2つの次元が、空間位置のエンコードとして解釈され、第3の次元が、異なる特徴のエンコードとして解釈されてもよい。例えば、データ・テンソルがカラー画像を表す場合、最初の2つの次元は、画像内の垂直座標および水平座標をエンコードし、第3の次元は、各位置での色をエンコードする。入力データ・テンソルXのあらゆる要素は、別個の荷重によって各ニューロンに接続されてもよく、そのため、荷重テンソルWは、一般に6次元を有し、入力データ・テンソル(入力行a、入力列b、特徴c)の3次元を、出力データ・テンソル(出力行i、出力列j、出力特徴k)の3次元に連結する。中間データ・テンソルZは、出力データ・テンソルYと同一の形状を有する。パラメータ・テンソルVは、3つの出力データ・テンソル次元を、活性化関数σのパラメータをインデックス化する付加的な次元oで連結する。
【0008】
層の出力データ・テンソルYの要素は、下記式1の通りに計算することができ、ここで、ニューロン活性化関数σは、活性化関数パラメータV[i,j,k:]のベクトルによって構成され、重み付け総和Z[i,j,k]は、下記式2の通りに計算することができる。
【0009】
【0010】
表記を簡単にするために、異なる活性化関数が使用される場合に一般性を失うことなく同一のステートメントが適用されるとの理解で、上記式(2)における重み付け総和は、出力と参照されてもよく、それは、線形活性化関数Y[i,j,k]=σ(Z[i,j,k])=Z[i,j,k]を使用することと等価である。しかしながら、ニューラル推論の柔軟な精度が必要とされる。従って、上述した問題に対処する必要がある。
【発明の概要】
【0011】
本開示の実施形態によれば、ニューラルコアを含むニューラル推論チップが提供される。ニューラルコアは、荷重行列精度を有する荷重行列を受信し、入力活性ベクトル精度を有する入力活性ベクトルを受信し、入力活性ベクトルに荷重行列を乗算することによって、部分和ベクトル精度を有する部分和ベクトルを計算するように適合されたベクトル行列乗算器を含む。ニューラルコアは、ベクトル行列乗算器を含む1または複数のベクトル・ソースから1または複数の部分和ベクトルを受信し、1または複数の部分和ベクトル上で1または複数のベクトル関数を実行し、部分和ベクトル精度と等しい精度を有するベクトル処理器出力ベクトルをもたらすように適合されたベクトル処理器を含む。ニューラルコアは、ベクトル処理器に動作可能に結合され、ベクトル処理器出力ベクトルに対し活性化関数を適用し、出力活性精度を有する出力活性ベクトルをもたらす活性化ユニットを含む。ベクトル行列乗算器、ベクトル処理器もしくは活性化ユニットまたはその組み合わせが可変精度で動作するように適合される。
【0012】
本開示の実施形態によれば、柔軟な精度のニューラル推論のための方法およびコンピュータ・プログラム製品が提供される。種々の実施形態においては、第1の精度を有する荷重行列が受信される。第1の精度を有する活性ベクトルが受信される。荷重行列および活性ベクトルのベクトル行列乗算が計算され、第2の精度を有する部分和ベクトルを生成する。1または複数のベクトル関数が部分和ベクトル上で実行され、第2の精度を有するベクトル処理器出力ベクトルが生成される。活性化関数が、ベクトル処理器出力ベクトルに適用され、第3の精度を有する出力活性ベクトルを生成する。第1、第2および第3の精度のうちの少なくとも1つが、実行時に変化する。
【0013】
以下の図面に示すように、本発明が、一例として、好ましい実施形態を参照しながら説明される。
【図面の簡単な説明】
【0014】
【
図1】本開示の実施形態によるニューラルコアを示す図である。
【
図2】本開示の実施形態による例示的な推論処理ユニット(IPU)を示す図である。
【
図3】本開示の実施形態によるマルチコアの推論処理ユニット(IPU)を示す図である。
【
図4】本開示の実施形態によるニューラルコアおよび関連ネットワークを示す図である。
【
図5】本開示の実施形態によるブール関数を示す図である。
【
図6】本開示の実施形態による3値関数を示す図である。
【
図7】本開示の実施形態による有界線形ユニットを示す。
【
図8】本開示の実施形態による有界ReLUを示す図である。
【
図9】本開示の実施形態による有界シフトReLUを示す図である。
【
図10】本開示の実施形態による有界pReLUを示す図である。
【
図11】本開示の実施形態による有界exp ReLUを示す図である。
【
図12】本開示の実施形態によるシグモイド関数を示す図である。
【
図13】本開示の実施形態によるtanh関数を示す図である。
【
図14】本開示の実施形態による柔軟性な精度の活性メモリを示す図である。
【
図15】本開示の実施形態による柔軟性な精度の活性メモリを示す図である。
【
図16】本開示の実施形態による柔軟な精度の荷重メモリを示す図である。
【
図17】本開示の実施形態による柔軟な精度のニューラル処理の方法を示す図である。
【
図18】本開示の実施形態によるコンピューティング・ノードを示す図である。
【発明を実施するための形態】
【0015】
種々の実施形態においては、上述したような出力データ・テンソルの計算は、より小さな問題に分解される。各問題は、次いで、1または複数のニューラルコア、または、従来のマルチコア・システムの1または複数のコア上で、並列に解かれ得る。
【0016】
ここで、
図1を参照すると、本開示の実施形態によるニューラルコアが示される。ニューラルコア100は、出力テンソルの2つのブロックを計算する、タイル構成可能な計算ユニットである。ニューラルコア100は、M個の入力およびN個の出力を有する。種々の実施形態においては、M=Nである。出力テンソル・ブロックを計算するために、ニューラルコアは、M×1の入力テンソル・ブロック101にM×Nの荷重テンソル・ブロック102を乗算し、積を、1×Nの中間テンソル・ブロック103に格納される重み付け総和に蓄積する。O×Nパラメータ・テンソル・ブロックは、1×Nの出力テンソル・ブロック105を生成するために中間テンソル・ブロック103に適用される、N個のニューロンの活性化関数の各々を特定するO個のパラメータを含む。
【0017】
複数のニューラルコアは、ニューラルコアの配列にタイル構成されてもよい。いくつかの実施形態においては、配列は2次元である。
【0018】
ニューラル・ネットワーク・モデルは、ニューロン間の接続のグラフ、すべてのニューロンについての荷重および活性化関数パラメータを含む、ニューラル・ネットワークによって実行される全体計算を集合的に指定する定数の集合である。トレーニングは、所望の関数を実行するためにニューラル・ネットワーク・モデルを修正するプロセスである。推論は、ニューラル・ネットワーク・モデルを修正することなく、ニューラル・ネットワークを入力に適用して出力を生成するプロセスである。
【0019】
推論処理ユニットは、ニューラル・ネットワークの推論を行うプロセッサのカテゴリである。ニューラル推論チップは、推論処理ユニットの具体的な物理的実例である。
【0020】
図2を参照すると、例示的な推論処理ユニット(IPU)が、本開示の実施形態に従って示される。IPU200は、ニューラル・ネットワーク・モデルのためのメモリ201を含む。上述したように、ニューラル・ネットワーク・モデルは、計算すべきニューラル・ネットワークのためのシナプス荷重を含んでもよい。IPU200は、一時的であり得る活性メモリ202を含む。活性メモリ202は、入力領域および出力領域に分割され、処理のためのニューロンの活性を格納する。IPU200は、モデル・メモリ201からのニューラル・ネットワーク・モデルを搭載するニューラル計算ユニット203を含む。各計算ステップの前に、活性メモリ202から入力活性が提供される。ニューラル計算ユニット203からの出力は、同一または別のニューラル計算ユニット上での処理のために、活性メモリ202に書き戻される。
【0021】
種々の実施形態においては、マイクロエンジン204がIPU200に含まれる。このような実施形態においては、IPU内の全ての演算は、マイクロエンジンによって指示される。以下に示すように、中央型もしくは分散型またはその両方のマイクロエンジンは、種々の実施形態で提供されてもよい。グローバル・マイクロエンジンがチップ・マイクロエンジンと参照され、ローカル・マイクロエンジンがコア・マイクロエンジンまたはローカル・コントローラと参照され得る。種々の実施形態においては、マイクロエンジンは、1または複数のマイクロエンジン、マイクロコントローラ、ステート・マシン、CPUまたは他のコントローラを含む。
【0022】
図3を参照すると、マルチコア推論処理ユニット(IPU)が、本開示の実施形態に従って示される。IPU300は、ニューラル・ネットワーク・モデルおよび命令のためのメモリ301を含む。いくつかの実施形態においては、メモリ301は、荷重部分311および命令部分312に分割される。上述したように、ニューラル・ネットワーク・モデルは、計算すべきニューラル・ネットワークのシナプス荷重を含んでもよい。IPU300は、一時的であり得る活性メモリ302を含む。活性メモリ302は、入力領域および出力領域に分割され、処理のためのニューロンの活性を格納する。IPU300は、複数のコア303を含む。各コア303は、モデル・メモリ301からのニューラル・ネットワーク・モデルを搭載するニューラル計算ユニット333を含む。各コアは、また、ローカル活性メモリ332を含む。入力活性が、各計算ステップの事前にローカル活性メモリ332から提供される。ニューラル計算ユニット333からの出力は、同一または別のニューラル計算ユニット上で処理するために、活性メモリ332に書き戻される。
【0023】
IPU300は、ニューラルコア303の配列306を含む。各コア303は、モデル・メモリ301からのニューラル・ネットワーク・モデルを搭載し、ベクトル計算を実行するように動作可能である計算ユニット333を含む。各コアは、また、ローカル活性メモリ332を含む。各計算ステップの事前に、ローカル活性メモリ332から入力活性が提供される。計算ユニット333からの出力は、同一または他の計算ユニット上で処理するために活性メモリ332に書き戻される。
【0024】
IPU300は、1または複数のネットワーク・オン・チップ(NoC)305を含む。いくつかの実施形態においては、部分和NoC351がコア303を相互接続し、それらの間で部分和を転送する。いくつかの実施形態においては、別個のパラメータ分布のNoC352が、荷重および命令をコア303に分配するためにコア303をメモリ301に接続する。NoC351および352の種々な構成が、本開示に従う使用に適していることが理解されるであろう。例えば、ブロードキャスト・ネットワーク、ロウ(row)ブロードキャスト・ネットワーク、ツリー・ネットワーク、およびスイッチ・ネットワークが使用されてもよい。
【0025】
種々の実施形態においては、グローバル・マイクロエンジン304がIPU300に含まれる。種々の実施形態においては、ローカル・コア・コントローラ334が各コア303に含まれる。このような実施形態においては、演算の指示(direction of operations)は、グローバル・マイクロエンジン(チップ・マイクロエンジン)およびローカル・コア・コントローラ(コア・マイクロエンジン)間で共有される。特に、311においては、計算命令が、モデル・メモリ301から、グローバル・マイクロエンジン304によって各コア303上のニューラル計算ユニット333にロードされる。312においては、パラメータ(例えば、ニューラル・ネットワーク/シナプス荷重)は、モデル・メモリ301から、グローバル・マイクロエンジン304によって各コア303上のニューラル計算ユニット333にロードされる。313においては、ニューラル・ネットワーク活性データが、ローカル活性メモリ332から、ローカル・コア・コントローラ334によって各コア303上のニューラル計算ユニット333にロードされる。上記のように、活性は、モデルによって定義される特定のニューラル・ネットワークの軸索に提供され、同一または別のニューラル計算ユニットまたはシステム外部に由来する可能性がある。314においては、ニューラル計算ユニット333は、ローカル・コア・コントローラ334によって指示され通りに、出力ニューロン活性を生成するための計算を実行する。特に、計算は、入力シナプス荷重を入力活性に適用することを含む。このような計算を実行するために種々の方法が利用可能であり、これには、イン・シリコ・デンドライト(in silico dendrites)およびベクトル乗算ユニットが含まれる。315において、計算からの結果は、ローカル・コア・コントローラ334によって指示される通り、ローカル活性メモリ332に格納される。上述したように、これらのステージは、各コア上でのニューラル計算ユニットの効率的な使用を提供するために、パイプライン化されてもよい。また、入力および出力が、所与のニューラル・ネットワークの要件に従って、ローカル活性メモリ332からグローバル活性メモリ302に転送され得ることが理解されるであろう。
【0026】
計算ユニット333は、ローカル・コア・コントローラ334によって指示された通り、出力ニューロン活性を生成するための計算を実行する。特に、計算は、入力シナプス荷重を入力活性に適用することを含む。このような計算を実行するために種々の方法が利用可能であり、これには、イン・シリコのデンドライト(in silico dendrites)およびベクトル乗算ユニットが含まれる。計算からの結果は、ローカル・コア・コントローラ334によって指示される通り、ローカル活性メモリ332に格納される。これらのステージは、各コア上での計算ユニットの効率的な使用を提供するためにパイプライン化されてもよい。また、入力および出力が、所与のニューラル・ネットワークの要件に従って、ローカル活性メモリ332からグローバル活性メモリ302に転送され得ることが理解されるであろう。
【0027】
したがって、本開示は、推論処理ユニット(IPU)における演算の実行時制御(runtime control of operations)を提供する。いくつかの実施形態においては、マイクロエンジンは、集中化される(単一のマイクロエンジン)。いくつかの実施形態においては、IPU計算は、分散される(コアの配列によって実行される)。いくつかの実施形態においては、演算の実行時制御は、中央型マイクロエンジンおよび分散型マイクロエンジンの両方で階層的である。
【0028】
マイクロエンジンまたは複数のマイクロエンジンは、IPU内のすべての演算の実行を指示する。各マイクロエンジン命令は、サブ・オペレーション(例えば、アドレス生成、ロード、計算、ストアなど)に対応する。分散型のケースにおいては、いくつかのコア・マイクロコードが、コア・マイクロエンジン(例えば、334)上で実行される。コア・マイクロコードは、フルの単一のテンソル演算を実行する命令を含む。例えば、荷重テンソルおよびデータ・テンソルの畳み込みなどである。単一コアの文脈では、コア・マイクロコードは、データ・テンソルの局所的に格納されたサブセット(および部分和)に対する単一のテンソル演算を実行する命令を含む。チップ・マイクロコードは、チップ・マイクロエンジン(例えば、304)上で実行される。マイクロコードは、ニューラル・ネットワークにおけるテンソル演算の全てを実行する命令を含む。
【0029】
ここで、
図4を参照すると、例示的なニューラルコアおよび関連ネットワークが、本開示の実施形態に従って示される。
図1を参照して説明したように具体化され得るコア401は、ネットワーク402…404によって追加のコアと相互接続されている。この実施形態においては、ネットワーク402は、荷重もしくは命令またはその両方を分配する責任を負い、ネットワーク403は、部分和を分配する責任を負い、ネットワーク404は、活性を分配する責任を負う。しかしながら、本開示の種々の実施形態は、これらのネットワークを組み合わせてもよく、またはさらにそれらを複数の追加ネットワークに分離してもよいことが理解されるであろう。
【0030】
入力活性(X)は、コア外(off-core)からコア401へ、活性ネットワーク404を介して活性メモリ405へ分配される。層命令は、コア外からコア401へ、荷重/命令ネットワーク402を介して命令メモリ406へ分配される。層荷重(W)もしくはパラメータまたはその両方は、コア外からコア401へ、荷重/命令ネットワーク402を介して、荷重メモリ407もしくはパラメータメモリ408またはその両方へ分配される。
【0031】
荷重行列(W)は、ベクトル行列乗算(VMM)ユニット409によって荷重メモリ407から読み出される。活性ベクトル(V)は、ベクトル行列乗算(VMM)ユニット409によって、活性メモリ405からが読み出される。ベクトル行列乗算(VMM)ユニット409は、次いで、ベクトル行列乗算Z=XTWを計算し、その結果をベクトル-ベクトル・ユニット410に提供する。ベクトル-ベクトル・ユニット410は、部分和メモリ411から追加の部分和を読み出し、部分和ネットワーク403を介してコア外から追加の部分和を受信する。ベクトル・ベクトル演算は、これらのソースの部分和からベクトル-ベクトル・ユニット410によって計算される。例えば、種々の部分和が次いで合計されてもよい。得られたターゲットの部分和は、部分和メモリ411に書き込まれ、部分和ネットワーク403を介してコア外に送信されるか、もしくはベクトル-ベクトル・ユニット410による更なる処理のために戻される。
【0032】
所与の層の入力に対する全ての計算が完了した後、ベクトル-ベクトル・ユニット410からの部分和の結果が、出力活性の計算のために活性化ユニット412に提供される。活性ベクトル(Y)は、活性メモリ405に書き込まれる。層活性(活性メモリに書き込まれた結果を含む)は、活性メモリ405から、活性ネットワーク404を介して、コアを横断して再分配される。受領されると、それらは、各受信したコアに対するローカル活性メモリに書き込まれる。所与のフレームに対する処理が完了すると、出力活性は、活性メモリ405から読み出され、ネットワーク404を介してコア外に送信される。
【0033】
低精度の計算は、電力、性能および面積に関して一定の利点を有する。特に、より少ない演算毎のエネルギーで済む。(ロジックのレベルが少ないことに起因して)より高い動作周波数が達成可能である。より小さな回路実装面積で済む。
【0034】
しかしながら、低精度の計算は、また、いくつかの欠点を有する。潜在的な精度の損失がある。例えば、より高い精度でトレーニングされたネットワークに対して、低精度での推論が実行される損失が存在し得る。
【0035】
これらの相反する目標に対処するために、本開示は、ニューラル推論における柔軟な精度を提供し、高精度計算の利点および低精度計算の利点の両方を組み合わせる。種々の実施形態においては、高精度計算は、必要とされるとき/必要とされるところで実行され、パフォーマンスが使用できるとき/使用できるところでは低精度である。
【0036】
種々の実施形態においては、柔軟な精度のベクトル・マトリックス乗算器(VMM)、柔軟な精度のベクトル・ユニットおよび柔軟な精度の活性化関数ユニットを含む、柔軟な精度の計算ユニットが提供される。種々の実施形態においては、柔軟な精度の活性、荷重および部分和のバスまたはネットワークを含む、柔軟な精度のデータ伝送が提供される。種々の実施形態においては、活性、荷重および部分和のメモリを含む、柔軟な精度のストレージが提供される。種々の実施形態においては、計算からメモリへの値の再フォーマット化を含む精度間の変換が提供される。
【0037】
いくつかの例示的な実施形態においては、VMMは、柔軟な精度(例えば、8ビット/4ビット/2ビット)から、高精度の固定精度出力(例えば、32ビット)に変換する。このような実施形態においては、ベクトル・ユニットは、高い固定精度(例えば、32ビット)である。活性化関数ユニットは、高い固定精度(例えば、32ビット)の入力から柔軟な精度(例えば、8ビット/4ビット/2ビット)の出力に変換する。この活性化関数は、押し潰し(squashing)/リレンジ(re-ranging)関数として使用される。
【0038】
他の例示的な実施形態においては、VMMは、柔軟な精度(例えば、8ビット/4ビット/2ビット)から、より高い、また柔軟な精度(例えば、32ビット/16ビット/8ビット)の内部表現に変換する。このような実施形態においては、ベクトル・ユニットは、高い柔軟な精度(例えば、32ビット/16ビット/8ビット)であり、活性化関数ユニットは、高い柔軟な精度(例えば、32ビット/16ビット/8ビット)の入力から低い柔軟な精度出力(例えば、8ビット/4ビット/2ビット)となる。この活性化関数は、押し潰し(squashing)/リレンジ(re-ranging)関数として使用される。
【0039】
例示的な柔軟な精度のVMMでは、VMMユニットは、演算Z=XTWを実行し、8ビット/4ビット/2ビットの入力精度(X,W)をサポートし、常に32ビットの精度(Z)を出力する。表1を参照すると、VMMの入力および出力が示される。表2を参照すると、各構成での荷重サイズが提供される。
【0040】
【0041】
【0042】
例示的な活性化関数ユニットでは、入力精度(Z)は、32ビットであり、8ビット/4ビット/2ビットの出力精度(Y)がサポートされる。柔軟な精度を提供するために、活性化関数の計算は、2段階で実行される。ステージ1では、32ビット入力精度および8ビット出力精度を用いて活性化関数が計算される。ステージ2では、8ビット出力は、必要に応じて適切な精度に丸められる(8ビット出力のうちの最上位4ビットまたは2ビットを維持する)。表3を参照すると、種々の構成における精度変換が示される。
【0043】
【0044】
クワッド精度(4x活性メモリ、上記インデックス3)の選択は、ニューロン出力としての部分和(Partial Sum)の値のフル精度読み出しのために使用される。これは線形回帰のような関数に使用される。クワッド出力精度が選択されると、活性化関数計算は無視される。代替として、フル32ビットのzjが、クワッド(32ビット)yj出力に直接割り当てられる。クワッド精度読み出しモードは、読み出しを実行するために4サイクルを必要とし、バック・ツー・バックの演算(back-to-back operations)の間で4サイクルに制限する。
【0045】
種々の実施形態においては、活性化関数は、オーバーフローおよびアンダーフローを回避するための飽和関数としての構成で設計される。飽和関数は、フロア/セーリングの限界確認のためにフル32ビットzjを使用する。それらは次のように飽和する:
INT8 : 0 and 255 (符号なし)
INT8 : -127 and 127 (符号付き)
INT4 : 0 and 15 (符号なし)
INT4 : -7 and 7 (符号付き)
INT2 : 0 and 3 (符号なし)
INT2 : -1 and 1 (符号付き)
【0046】
出力精度変換関数は、飽和活性関数の後に変換を行うことによってオーバーフローおよびアンダーフローを回避する。飽和活性関数は、全ての場合において同一の8ビットujの範囲を使用し、次いで、適切な出力精度のために最下位ビットを切り捨てる。
【0047】
例示的な飽和関数には、二値(binary)、三値(trinary)、シグモイド、tanh、有界ReLU、有界LUおよび当該技術分野で知られている他のものが含まれる。
【0048】
図5~
図13を参照すると、例示的な活性化関数が本開示に従って示される。これらの活性化伝達関数の形状は、リレンジ(re-ranging)を実行する。それらは、複数の精度対して良好に適している。
図5は、ブール関数を示す。
図6は、三値関数を示す。
図7は有界線形ユニットを示す。
図8は、有界ReLUを示す。
図9は有界シフトReLUを示す。
図10は、有界pReLUを示す。
図11は、有界exp ReLUを示す。
図12は、シグモイド関数を示す。
図13は、tanh関数を示す。
【0049】
種々の実施形態においては、柔軟な精度の通信およびストレージが提供される。同一ネットワークおよびメモリが、同一の基礎となる物理基板を使用して、データのフォーマットを変更することによって、全ての精度(例えば、8ビット/4ビット/2ビット)をサポートする。種々の実施形態においては、全体的なネットワーク帯域幅(例えば、バス上のワイヤ数で表現される)は一定に維持され、一方、要素数および精度が変化する。特に、全体的なネットワーク使用量は、精度を要素数で乗算することによって与えられる。このようにして、目標の量の帯域幅(例えば、全ての利用可能なワイヤ)を使用しながら、精度および要素カウントに対する進行中の調整を行うことができる。同様に、種々の実施形態においては、全体的なストレージ利用率が一定に維持される一方、要素数および精度が変化する。
【0050】
種々の実施形態においては、荷重NoCは、8ビット/4ビット/2ビットの精度をサポートする。いくつかの実施形態においては、512本のワイヤバスが提供され、8ビットで64個の要素、4ビットで128個の要素および2ビットで256個の要素をサポートする。
【0051】
種々の実施形態においては、活性NoCは、8ビット/4ビット/2ビットの精度をサポートする。いくつかの実施形態においては、256本のワイヤバスが提供され、8ビットで32要素、4ビットで64要素および2ビットで128要素をサポートする。
【0052】
種々の実施形態においては、荷重メモリは、4096本の読み出しデータ・ワイヤとして編成される。このような実施形態においては、4096本のワイヤは、8ビットの32×16要素、4ビットの64×16要素および2ビットの128×16要素をサポートする。
【0053】
種々の実施形態においては、活性メモリは、256本の読み出しデータ・ワイヤとして編成される。このような実施形態においては、256本のワイヤは、8ビットで32の要素、4ビットで64個の要素および2ビットで128個の要素をサポートする。
【0054】
ここで、
図14を参照すると、本開示の実施形態による活性メモリが示されている。活性メモリ1401は、8ビット/4ビット/2ビットのフォーマットをサポートする。図示のように、2ビット精度の活性ブロック1402と、4ビット精度の活性ブロック1403と、8ビット精度の活性ブロックとがサポートされる。
【0055】
ここで
図15を参照すると、本開示の実施形態による活性メモリが示されており、この例では、活性メモリ1501は、クワッド精度(32ビット)のフォーマットを使用する。この例では、活性ブロックは、複数のバンク・ワード・アドレスにまたがる。
【0056】
ここで
図16を参照すると、本開示の実施形態による、荷重メモリが示される。図示のように、2ビット・フォーマット1601、4ビット・フォーマット1602および8ビット・フォーマット1603がサポートされる。
【0057】
種々の実施形態においては、活性化関数ユニット出力は、32要素×8ビット、4ビットまたは2ビットである。しかしながら、活性ワードサイズは、8ビットで32要素、4ビットで64要素または2ビットで128要素である。低精度の計算については、複数の活性化関数ユニットの出力ワードは、以下のように結合される:8ビットでの1×32要素、4ビットでの2×64要素または2ビットでの4×128要素。
【0058】
この再フォーマット化を収容するために、種々の実施形態においては、4ビットでの部分ベクトル[127:0]または2ビットでの部分ベクトル[63:0]が、フルの活性ベクトル[255:0]をメモリに書き戻す前にレジスタに格納される。8ビットでは、1サイクルは、フル活性ベクトルを収容する。4ビットでは、2サイクルが、フル活性ベクトルを収容し、ここで、サイクル1が、ビット127:0をカバーし、サイクル2が、ビット255:128をカバーする。2ビットでは、4サイクルが、フル活性ベクトルを収容し、サイクル1は、ビット63:0をカバーし、サイクル2は、ビット127:64をカバーし、サイクル3は、ビット191:128をカバーし、サイクル4はビット255:192をカバーする。
【0059】
種々の実施形態においては、不完全なフル・ベクトルはゼロ・パディングされ、ここでは、未指定のサブベクトル要素にゼロが入れられる。全ての部分ベクトルが指定されていない場合であっても、フル・ベクトルがメモリに書き戻されてもよい。未使用のサブベクトル・スロットはゼロである。これにより、活性ベクトルの全次元が必要とされない4ビット2ビット精度のネットワークの計算時間が短縮される。例えば、2ビットモードでは、出力活性ベクトルが64個の要素のみである場合には、2サイクルの計算で済む。
【0060】
図17を参照すると、柔軟な精度のニューラル処理の方法が、本開示の実施形態に従って示される。1701においては、第1の精度を有する荷重行列が受信される。1702においては、第1の精度を有する活性ベクトルが受信される。1703においては、荷重行列および活性ベクトルのベクトル行列乗算が計算され、第2の精度で部分和ベクトルを生成する。1704においては、1または複数のベクトル関数が部分和ベクトル上で実行され、第2の精度を有するベクトル処理器出力ベクトルが生成される。1705においては、ベクトル処理器出力ベクトルに活性化関数が適用され、第3の精度を有する出力活性ベクトルが生成される。第1、第2および第3の精度のうちの少なくとも1つが、実行時に変化する。
【0061】
ここで、
図18を参照すると、コンピューティング・ノードの例の概要が示される。コンピューティング・ノード10は、適切なコンピューティング・ノードの一例にすぎず、本明細書に記載される実施形態の使用または機能性の範囲に関する制限を示唆するものではない。にもかかわらず、コンピューティング・ノード10は、上述した機能のいずれかが、実装されること、もしくは実行すること、またはその両方がなされることが可能である。
【0062】
コンピューティング・ノード10においては、コンピュータ・システム/サーバ12があり、このコンピュータ・システム/サーバ12は、多数の他の汎用または特定用途のコンピューティング・システム環境または構成で動作可能である。コンピュータ・システム/サーバ12と使用するのに適した周知のコンピューティング・システム、環境もしくは構成またはこれらの組み合わせの例は、これらに限定されないが、上述したシステムまたは装置などの任意のものを含む、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベース・システム、セットトップ・ボックス、プログラマブル・コンシューマ・エレクトロニクス、ネットワークPC、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、分散型クラウド・コンピューティング環境などを含む。
【0063】
コンピュータ・システム/サーバ12は、コンピュータ・システムによって実行される、プログラム・モジュールのようなコンピュータ・システム実行可能命令の一般的な文脈で記述され得る。概して、プログラム・モジュールは、特定のタスクを実行するか、または特定の抽象的なデータタイプを実装するかする、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含む。コンピュータ・システム/サーバ12は、通信ネットワークを介してリンクされたリモート処理装置によってタスクが実行される分散型クラウド・コンピューティング環境で実装することができる。分散型クラウド・コンピューティング環境では、プログラム・モジュールは、メモリ・ストレージ・デバイスを含むローカルおよびリモートの両方のコンピュータ・システム・ストレージ媒体に配置されてもよい。
【0064】
図18に示すように、コンピューティング・ノード10内のコンピュータ・システム/サーバ12は、汎用コンピューティング・デバイスの形態で示されている。コンピュータ・システム/サーバ12のコンポーネントは、これらに限定されないが、1以上のプロセッサまたは処理ユニット16と、システム・メモリ28と、システム・メモリ28を含む様々なシステム・コンポーネントをプロセッサ16に結合するバス18とを含む。
【0065】
バス18は、メモリバスまたはメモリコントローラ、周辺バスと、アクセレーテッド・グラフィックス・ポート、種々のバス・アーキテクチャの任意のものを使用するプロセッサまたはローカル・バスとを含む、いくつかのタイプのバス構造のうちの1以上を表す。一例として、また限定ではなく、このようなアーキテクチャには、インダストリ・スタンダード・アーキテクチャ(ISA)バス、マイクロ・チャネル・アーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション(VESA)ローカル・バス、ペリフェラル・コンポーネント・インターコネクト(PCI)バス、ペリフェラル・コンポーネント・インターコネクト・エクスプレス(PCIe)バス、および、アドバンス・マイクロコントローラ・バス・アーキテクチャ(AMBA)が含まれる。
【0066】
コンピュータ・システム/サーバ12は、典型的には、様々なコンピュータ・システム可読媒体を含む。このような媒体は、コンピュータ・システム/サーバ12によってアクセス可能な任意の利用可能な媒体であってもよく、これは、揮発性、不揮発性の両方の媒体、リムーバブルおよび非リムーバブル媒体を含む。
【0067】
システム・メモリ28は、ランダム・アクセス・メモリ(RAM)30またはキャッシュ・メモリ32など、揮発性メモリの形態でコンピュータ・システム可読な媒体を含んでもよい。コンピュータ・システム/サーバ12は、さらに、他のリムーバブル/非リムーバブルの揮発性/不揮発性コンピュータ・システム・ストレージ媒体を含んでもよい。一例として、ストレージ・システム34は、非ポータブルの不揮発性磁気媒体(図示しないが、典型的にはハード・ドライブと参照される)から読み出すおよび磁気媒体へ書き込むために提供される。図示しないが、リムーバブルの不揮発性磁気ディスク(例えば、フロッピー(登録商標)ディスク)から読み出し、および、磁気ディスクへ書き込むための磁気ディスク・ドライブ、または、CD-ROM、DVD-ROMまたは他の光学メディアなどのリムーバブルの不揮発性光学ディスクから読み出しおよび光学ディスクへ書き込むための光学ディスク・ドライブが提供されてもよい。このような実例において、各々は、1以上のデータ・メディア・インタフェースによってバス18に接続されてもよい。以下さらに説明するように、メモリ28は、本開示の実施形態の機能を実現するよう構成されたプログラム・モジュールのセット(少なくとも1つ)を有する少なくとも1つのプログラム製品を含んでいてもよい。
【0068】
プログラム/ユーティリティ40は、それぞれ、プログラム・モジュール42のセット(少なくとも1つ)を有しており、一例であるが限定されないメモリ28に格納されてもよく、1以上のオペレーティング・システム、1以上のアプリケーション・プログラム、他のプログラム・モジュールおよびプログラム・データを含んでもよい。オペレーティング・システム、1以上のアプリケーション・プログラム、他のプログラム・モジュールおよびプログラム・データの各々またはこれらのいくつかの組み合わせは、ネットワーキング環境の実装を含んでもよい。プログラム・モジュール42は、概して、本明細書で説明されるように実施形態の機能または方法論を実現する。
【0069】
コンピュータ・システム/サーバ12は、また、キーボード、ポインティング・デバイス、ディスプレイ24などの1以上の外部装置14と、ユーザがコンピュータ・システム/サーバ12と対話することを可能にする1以上のデバイス、もしくはコンピュータ・システム/サーバ12が1以上の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス(例えば、ネットワーク・カード、モデムなど)またはこれらの両方と通信してもよい。このような通信は、入力/出力(I/O)インタフェース22を介して行うことができる。さらに、コンピュータ・システム/サーバ12は、ネットワーク・アダプタ20を介して、ローカル・エリア・ネットワーク(LAN)、一般ワイド・エリア・ネットワーク(WAN)、もしくは公衆ネットワーク(例えば、インターネット)またはこれらの組み合わせなどの1以上のネットワークと通信することができる。図示されるように、ネットワーク・アダプタ20は、バス18を介してコンピュータ・システム/サーバ12の他のコンポーネントと通信することができる。図示されていないが、他のハードウェアもしくはソフトウェア・コンポーネントまたはこれらの両方を、コンピュータ・システム/サーバ12と組み合わせて使用することができることを理解されたい。例としては、これらに限定されないが、マイクロコード、デバイス・ドライバ、冗長処理ユニットおよび外部ディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、データ・アーカイブ・ストレージシステムなどを挙げることができる。
【0070】
本開示は、システム、方法もしくはコンピュータ・プログラム製品またはこれらの組み合わせとして具現化されてもよい。コンピュータ・プログラム製品は、プロセッサに本開示の側面を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体を含んでもよい。
【0071】
コンピュータ可読ストレージ媒体は、命令実行デバイスによって使用するための命令を保持し格納する有形のデバイスであってよい。コンピュータ可読ストレージ媒体は、例えば、これに限定されるものではないが、電子的ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイスまたは上記の任意の適切な組み合わせであってよい。コンピュータ可読ストレージ媒体のより具体的な例示の例示列挙としては、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、消去可能プログラマブル・リード・オンリー・メモリ(EPROMまたはフラッシュメモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・オンリー・メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリースティック、フロッピー(登録商標)ディスク、パンチカードまたは記録された命令を有する溝内の隆起構造のような機械的エンコードされたデバイス、および上記の任意の適切な組み合わせが含まれる。コンピュータ可読ストレージ媒体は、本明細書で使用されるように、電波、自由伝搬する電磁波、導波路または他の伝送媒体を伝搬する電磁波(たとえば、ファイバ光ケーブルを通過する光パルス)または、ワイヤを通して伝送される電気信号のような、それ自体が一時的な信号として解釈されるものではない。
【0072】
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピュータ/処理デバイスに、または、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはこれらの組み合わせといったネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータもしくはエッジサーバまたはこれらの組み合わせを含んでもよい。各コンピュータ/処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に格納するために転送する。
【0073】
本開示の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、1以上のプログラミング言語の任意の組み合わせで書かれたソース・コードあるいはオブジェクト・コードであってよく、1以上のプログラミング言語は、Smalltalk(登録商標)、C++またはこれらに類するもなどのオブジェクト指向言語、Cプログラミング言語または類似のプログラミング言語などの従来型の手続型言語を含む。コンピュータ可読プログラム命令は、スタンド・アローンのソフトウェア・パッケージとして、全体としてユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上かつ部分的に遠隔のコンピュータ上で、または、完全に遠隔のコンピュータまたはサーバ上で実行されてもよい。後者のシナリオでは、遠隔のコンピュータは、ユーザのコンピュータに、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを通じて接続されてもよく、あるいは接続は、(例えば、インターネット・サービス・プロバイダを用いてインターネットを通じて)外部コンピュータになされてもよい。いくつかの実施形態においては、電気的回路は、本開示の側面を実行するために、コンピュータ可読プログラム命令の状態情報を利用して、電気的回路を個別化することによって、コンピュータ可読プログラム命令を実行してもよく、この電気的回路は、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む。
【0074】
本開示の側面は、本明細書において、本開示の実施形態に従った方法、装置(システム)およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照しながら、説明される。フローチャート図もしくはブロック図またはその両方の各ブロック、および、フローチャート図もしくはブロック図またはその両方における複数のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装されてもよいことが理解されよう。
【0075】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、特定用途コンピュータのプロセッサまたは他のプログラマブル・データ処理装置に提供され、コンピュータのプロセッサまたは他のプログラマブル・データ処理装置を介して実行される命令が、フローチャート図もしくはブロックまたはその両方のブロックまたは複数のブロックにおいて特定される機能/作用を実装するための手段を作成するように、マシンを生成する。これらのコンピュータ可読プログラム命令は、また、コンピュータ、プログラマブル・データ処理装置もしくは他のデバイスまたはこれらの組み合わせに特定のやり方で機能するよう指示できるコンピュータ可読ストレージ媒体に格納され、それに格納された命令を有するコンピュータ可読ストレージ媒体に、フローチャートもしくはブロックまたはその両方のブロックまたは複数のブロックで特定される機能/作用の側面を実装する命令を含む製品が含まれるようにする。
【0076】
コンピュータ可読プログラム命令は、また、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル・データ処理装置または他のデバイス上で一連の動作ステップを実行させて、コンピュータ、他のプログラマブル・データ処理装置または他のデバイス上で実行される命令が、フローチャートもしくはブロックまたはその両方のブロックまたは複数のブロックで特定される機能/作用の側面を実装するように、コンピュータ実装処理を生成することもできる。
【0077】
図面におけるフローチャートおよびブロック図は、本開示の種々の実施形態に従ったシステム、方法およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能性および動作を示す。この点に関して、フローチャートまたはブロック図の各ブロックは、特定の論理機能を実装するための1以上の実行可能な命令を含む、モジュール、セグメントまたは命令の部分を表す可能性がある。いくつかの代替の実装では、ブロックにおいて言及された機能は、図面に示された順序から外れて生じる可能性がある。例えば、連続して示される2つのブロックは、実際には、実質的に同時に実行されてもよく、あるいは、複数のブロックは、関与する機能性に応じて逆の順序で実行されてもよい。ブロック図もしくはフローチャート図またはその両方の各ブロックおよびブロック図もしくはフローチャート図またはその両方の複数のブロックの組み合わせが、特定の機能または作用を実行し、または、特別な目的のハードウェアおよびコンピュータ命令の組み合わせを実施する、特定目的ハードウェアベースのシステムによって実装されてもよいことに留意されたい。
【0078】
本開示の種々の実施形態の説明が、説明のために提示されたが、しかしながら、網羅的であること、または、開示される実施形態に限定されることを意図するものではない。説明される実施形態の範囲および精神を逸脱することなく、多くの変更および変形が当業者にとって明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の応用または市場で発見される技術に対する技術的改善を最もよく説明するために、あるいは、他の当業者が、本明細書で開示される実施形態を理解できるように選ばれたものである。