特表2024-540317 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ウェスタン　デジタル　テクノロジーズ　インコーポレーテッドの特許一覧

特表2024-540317メモリデバイスベースの加速化深層学習システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-10-31

(54)【発明の名称】メモリデバイスベースの加速化深層学習システム

(51)【国際特許分類】

G06N 3/0985 20230101AFI20241024BHJP

G06F 12/02 20060101ALI20241024BHJP

【ＦＩ】

G06N3/0985

G06F12/02 570A

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024526651

(86)(22)【出願日】2022-05-21

(85)【翻訳文提出日】2024-05-02

(86)【国際出願番号】 US2022030419

(87)【国際公開番号】W WO2023149916

(87)【国際公開日】2023-08-10

(31)【優先権主張番号】17/592,953

(32)【優先日】2022-02-04

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】504056130

【氏名又は名称】ウェスタンデジタルテクノロジーズインコーポレーテッド

(74)【代理人】

【識別番号】100207837

【弁理士】

【氏名又は名称】小松原寿美

(72)【発明者】

【氏名】ナボン、アリエル

(72)【発明者】

【氏名】バザルスキー、アレクサンダー

(72)【発明者】

【氏名】ハーン、ジュダガムリエル

【テーマコード（参考）】

5B160

【Ｆターム（参考）】

5B160AB26

(57)【要約】

データ記憶デバイスは、メモリデバイス、及びメモリデバイスに結合されたコントローラを含む。コントローラは、ホストデバイスに結合されるように構成される。コントローラは、複数のコマンドを受信し、複数のコマンドの各々について論理ブロックアドレス（ＬＢＡ）から物理ブロックアドレス（ＰＢＡ）への（Ｌ２Ｐ）マッピングを生成し、生成されたＬ２Ｐマッピングに従って複数のコマンドのデータをそれぞれのＰＢＡに記憶するように更に構成される。Ｌ２Ｐマッピングの各々は、ニューラルネットワーク（ＮＮ）構造を使用する深層学習（ＤＬ）トレーニングモデルの結果に基づいて生成される。コントローラは、ＮＮコマンド解釈ユニットと、ＮＮコマンド解釈ユニットに結合されたＬ２Ｐマッピング生成器とを含む。コントローラは、メモリデバイスからトレーニングデータ及びＮＮパラメータをフェッチするように構成される。

【特許請求の範囲】

【請求項1】

データ記憶デバイスであって、
メモリデバイスと、
前記メモリデバイスに結合されたコントローラと、を備え、前記コントローラが、ホストデバイスに結合されるように構成されており、前記コントローラが、
複数のコマンドを受信し、
前記複数のコマンドの各々について論理ブロックアドレス（ＬＢＡ）から物理ブロックアドレス（ＰＢＡ）への（Ｌ２Ｐ）マッピングを生成し、前記Ｌ２Ｐマッピングの各々が、ニューラルネットワーク（ＮＮ）構造を使用する深層学習（ＤＬ）トレーニングモデルの結果に基づいて生成され、
前記生成されたＬ２Ｐマッピングに従って、前記複数のコマンドのデータをそれぞれのＰＢＡに記憶する、ように更に構成されている、データ記憶デバイス。

【請求項2】

前記コントローラが、
前記ＮＮ構造及び１つ以上のハイパーパラメータ値を受信し、
前記ＮＮ構造及び前記ハイパーパラメータ値を前記メモリデバイスに記憶する、ように更に構成されている、請求項１に記載のデータ記憶デバイス。

【請求項3】

前記ＮＮ構造が、ホストデバイスから受信される、請求項２に記載のデータ記憶デバイス。

【請求項4】

前記メモリデバイスが、不揮発性メモリデバイスである、請求項２に記載のデータ記憶デバイス。

【請求項5】

前記１つ以上のハイパーパラメータ値が、前記ＤＬトレーニングモデルのトレーニング手順を定義する、請求項２に記載のデータ記憶デバイス。

【請求項6】

前記ＮＮ構造及び前記１つ以上のハイパーパラメータ値が、前記トレーニング手順の開始時に前記ＤＬトレーニングモデルに提供される、請求項５に記載のデータ記憶デバイス。

【請求項7】

前記ＤＬトレーニングモデルが、１つ以上の所定のパラメータセットの所定のハイパーパラメータ値を使用する、請求項５に記載のデータ記憶デバイス。

【請求項8】

前記ＤＬトレーニングモデルが、前記Ｌ２Ｐマッピングの各々を生成した後に更新される、請求項１に記載のデータ記憶デバイス。

【請求項9】

前記コントローラが、前記ＮＮ構造に従って重みを読み取るように更に構成されており、前記重みが、前記Ｌ２Ｐマッピングの各々を生成した後に更新される、請求項１に記載のデータ記憶デバイス。

【請求項10】

前記コントローラが、前記複数のコマンドの前記データを指定されたバッファに配置するように更に構成されており、前記配置が、ホストデバイスの関与なしに完了される、請求項１に記載のデータ記憶デバイス。

【請求項11】

データ記憶デバイスであって、
メモリデバイスと、
前記メモリデバイスに結合されたコントローラと、を備え、前記コントローラが、
ニューラルネットワーク（ＮＮ）コマンド解釈ユニットと、
前記ＮＮコマンド解釈ユニットに結合された論理ブロックアドレス（ＬＢＡ）から物理ブロックアドレス（ＰＢＡ）への（Ｌ２Ｐ）マッピング生成器と、を備え、前記コントローラが、前記メモリデバイスからトレーニングデータ及びＮＮパラメータをフェッチするように構成されている、データ記憶デバイス。

【請求項12】

前記ＮＮコマンド解釈ユニットが、ホストデバイス内に配置されたＮＮインターフェースコマンド生成器とインターフェースするように構成されている、請求項１１に記載のデータ記憶デバイス。

【請求項13】

前記ＮＮパラメータが、ＫＶペアデータである、請求項１１に記載のデータ記憶デバイス。

【請求項14】

前記トレーニングデータ及び前記ＮＮパラメータが、深層学習（ＤＬ）トレーニングモデルにおいて利用される、請求項１１に記載のデータ記憶デバイス。

【請求項15】

前記ＤＬトレーニングモデルの１つ以上の部分が無効にされる、請求項１４に記載のデータ記憶デバイス。

【請求項16】

前記コントローラが、前記メモリデバイスからの前記トレーニングデータ及び前記ＮＮパラメータの自律的フェッチを実行するように構成されている、請求項１１に記載のデータ記憶デバイス。

【請求項17】

前記コントローラが、深層学習（ＤＬ）トレーニングモデルに関連付けられた１つ以上の重みを更新するように更に構成されており、前記更新が、前記１つ以上の重みの以前の読み取りと同じアドレスに対するものである、請求項１１に記載のデータ記憶デバイス。

【請求項18】

データ記憶デバイスであって、
不揮発性メモリ手段と、
前記不揮発性メモリ手段に結合されたコントローラであって、前記コントローラが、
ニューラルネットワーク（ＮＮ）パラメータ及び１つ以上のハイパーパラメータ値を前記不揮発性メモリ手段に記憶し、
完全自律深層学習（ＤＬ）トレーニングモデルを実行する、又は
半自律ＤＬトレーニングモデルを実行し、
前記実行されたＤＬトレーニングモデルに従ってデータを記憶する、ように構成されている、データ記憶デバイス。

【請求項19】

前記不揮発性メモリ手段が、ＮＡＮＤベースのメモリ手段である、請求項１８に記載のデータ記憶デバイス。

【請求項20】

前記実行が、所定のトレーニングスケジュールに従って読み取り及び書き込みを行うことを含む、請求項１８に記載のデータ記憶デバイス。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照）
本出願は、２０２２年０２月０４日に出願された「ＭＥＭＯＲＹＤＥＶＩＣＥＢＡＳＥＤＡＣＣＥＬＥＲＡＴＥＤＤＥＥＰ－ＬＥＡＲＮＩＮＧＳＹＳＴＥＭ」と題する米国非仮出願第１７／５９２，９５３号の全内容を、あらゆる目的のために、参照により本明細書に組み込む。

【0002】

（発明の分野）
本開示の実施形態は、概して、ソリッドステートドライブ（ＳＳＤ）などのデータ記憶デバイスに関し、より具体的には、不揮発性メモリに記憶された深層学習トレーニングモデルを利用して、データ記憶デバイスの読み取り及び書き込み性能を向上させることに関する。

【背景技術】

【0003】

深層学習（Deep Learning、ＤＬ）システムは、様々な分野における能力を有する発展しつつある技術である。しかしながら、ＤＬシステムの能力の増加に起因して、ＤＬシステムに対する対応するハードウェアリソース消費も同様に増加する。データセット及びＤＬモデルのサイズに起因して、ＤＬシステムは、非常に大容量の高速メモリを必要とし得る。そのようなメモリは、ランダムアクセスメモリ（ＲＡＭ）であり得る。しかしながら、ＮＡＮＤメモリデバイスなどの不揮発性メモリは、ＤＬハードウェア計算においてインターレースされ得る。

【0004】

典型的には、ＤＬモデルはデータ記憶デバイスのダイナミックＲＡＭ（ＤＲＡＭ）に保持される。ＤＬモデルのサイズが増大するにつれて、より多くのＤＲＡＭが必要とされる可能性があり、したがって、データ記憶デバイスのコストが増大する。しかしながら、ＮＡＮＤメモリなどの不揮発性メモリは、容量当たりのコストがＤＲＡＭほど高くない場合がある。しかしながら、ＮＡＮＤメモリは、ＤＲＡＭと性能出力が同等ではない場合がある。例えば、データセットは、約１００ＧＢ以上のサイズであってもよい。データセットは、ＤＬモデルを調整するために使用されるデータサンプル及びラベルの集合である。

【0005】

したがって、当技術分野では、ＤＬモデルのトレーニングのために不揮発性メモリを使用する改善されたＤＬシステムが必要とされている。

【発明の概要】

【0006】

本開示は、概して、ソリッドステートドライブ（ＳＳＤ）などのデータ記憶デバイスに関し、より具体的には、不揮発性メモリに記憶された深層学習トレーニングモデルを利用して、データ記憶デバイスの読み取り及び書き込み性能を向上させることに関する。データ記憶デバイスは、メモリデバイス、及びメモリデバイスに結合されたコントローラを含む。コントローラは、ホストデバイスに結合されるように構成される。コントローラは、複数のコマンドを受信し、複数のコマンドの各々について論理ブロックアドレス（ＬＢＡ）から物理ブロックアドレス（ＰＢＡ）への（Ｌ２Ｐ）マッピングを生成し、生成されたＬ２Ｐマッピングに従って複数のコマンドのデータをそれぞれのＰＢＡに記憶するように更に構成される。Ｌ２Ｐマッピングの各々は、ニューラルネットワーク（ＮＮ）構造を使用する深層学習（ＤＬ）トレーニングモデルの結果に基づいて生成される。コントローラは、ＮＮコマンド解釈ユニットと、ＮＮコマンド解釈ユニットに結合されたＬ２Ｐマッピング生成器とを含む。コントローラは、メモリデバイスからトレーニングデータ及びＮＮパラメータをフェッチするように構成される。

【0007】

一実施形態では、データ記憶デバイスは、メモリデバイスと、メモリデバイスに結合されたコントローラと、を含む。コントローラは、ホストデバイスに結合されるように構成される。コントローラは、複数のコマンドを受信し、複数のコマンドの各々について論理ブロックアドレス（ＬＢＡ）から物理ブロックアドレス（ＰＢＡ）への（Ｌ２Ｐ）マッピングを生成し、生成されたＬ２Ｐマッピングに従って複数のコマンドのデータをそれぞれのＰＢＡに記憶するように更に構成される。Ｌ２Ｐマッピングの各々は、ニューラルネットワーク（ＮＮ）構造を使用する深層学習（ＤＬ）トレーニングモデルの結果に基づいて生成される。

【0008】

別の実施形態では、データ記憶デバイスは、メモリデバイスと、メモリデバイスに結合されたコントローラと、を含む。コントローラは、ニューラルネットワーク（ＮＮ）コマンド解釈ユニットと、ＮＮコマンド解釈ユニットに結合された論理ブロックアドレス（ＬＢＡ）から物理ブロックアドレス（ＰＢＡ）への（Ｌ２Ｐ）マッピング生成器とを含む。コントローラは、メモリデバイスからトレーニングデータ及びＮＮパラメータをフェッチするように構成される。

【0009】

別の実施形態では、データ記憶デバイスは、不揮発性メモリ手段と、不揮発性メモリ手段に結合されたコントローラと、を含む。コントローラは、ニューラルネットワーク（ＮＮ）パラメータ及び１つ以上のハイパーパラメータ値を不揮発性メモリ手段に記憶し、完全自律深層学習（ＤＬ）トレーニングモデルを実行するか、又は半自律ＤＬトレーニングモデルを実行し、実行されたＤＬトレーニングモデルに従ってデータを記憶するように構成される。

【図面の簡単な説明】

【0010】

本開示の上記の特徴を詳細に理解することができるように、簡潔に上で要約した本開示のより具体的な説明は、実施形態を参照することによってなされ得、それらのいくつかが添付の図面に例示されている。しかしながら、添付の図面は、本開示の典型的な実施形態のみを例示し、したがって、その範囲を限定するものと見なされるべきではなく、本開示が他の同等に有効な実施形態を認め得ることに留意すべきである。

【図1】特定の実施形態による、データ記憶デバイスがホストデバイスの記憶デバイスとして機能し得る記憶システムを示す概略ブロック図である。

【図2】特定の実施形態による、深層ニューラルネットワークの例示的な図である。

【図3】特定の実施形態による、ＬＢＡ／ＰＢＡアドレス指定システムを示す概略ブロック図である。

【図4】特定の実施形態による、ＬＢＡ／ＰＢＡアドレス指定システムを示す概略ブロック図である。

【図5】特定の実施形態による、深層学習トレーニング中の完全自律データ記憶デバイス動作の方法を示す流れ図である。

【図6】特定の実施形態による、深層学習トレーニング中の半自律データ記憶デバイス動作の方法を示す流れ図である。

【0011】

理解を容易にするために、図面に共通する同一の要素を示すために、可能な限り、同一の参照番号を使用している。一実施形態で開示される要素は、特に断ることなく、他の実施形態に有益に利用され得ることが企図される。

【発明を実施するための形態】

【0012】

以下では、本開示の実施形態を参照する。しかしながら、本開示は、具体的に説明される実施形態に限定されないことを理解されたい。その代わりに、以下の特徴及び要素の任意の組み合わせが、異なる実施形態に関連するか否かに関わらず、本開示を実施及び実践すると企図される。更に、本開示の実施形態は、他の可能な解決策に勝る、及び／又は先行技術に勝る利点を達成し得るが、特定の利点が所与の実施形態によって達成されるか否かは、本開示を限定するものではない。したがって、以下の態様、特徴、実施形態、及び利点は、単なる例示に過ぎず、請求項（複数可）に明示的に記載されている場合を除いて、添付の特許請求の範囲の要素又は限定と見なされない。同様に、「本開示」への言及は、本明細書に開示される任意の発明の主題の一般化として解釈されるものではなく、請求項に明示的に記載されている場合を除いて、添付の特許請求の範囲の要素又は限定であると見なされるべきではない。

【0013】

【0014】

図１は、特定の実施形態による、ホストデバイス１０４がデータ記憶デバイス１０６と通信する記憶システム１００を示す概略ブロック図である。例えば、ホストデバイス１０４は、データ記憶デバイス１０６に含まれる不揮発性メモリ（ＮＶＭ）１１０を利用して、データを記憶及び取得し得る。ホストデバイス１０４は、ホストＤＲＡＭ１３８を備える。いくつかの実施例では、記憶システム１００は、記憶アレイとして動作し得るデータ記憶デバイス１０６などの複数の記憶デバイスを含み得る。例えば、記憶システム１００は、ホストデバイス１０４のための大量記憶デバイスとして集合的に機能する安価／独立ディスクの冗長アレイ（ＲＡＩＤ）として構成された複数のデータ記憶デバイス１０６を含み得る。

【0015】

ホストデバイス１０４は、データ記憶デバイス１０６などの１つ以上の記憶デバイスに及び／又はからデータを記憶及び／又は取得し得る。図１に例示されるように、ホストデバイス１０４は、インターフェース１１４を介してデータ記憶デバイス１０６と通信し得る。ホストデバイス１０４は、コンピュータサーバ、ネットワーク接続記憶（ＮＡＳ）ユニット、デスクトップコンピュータ、ノートブック（すなわち、ラップトップ）コンピュータ、タブレットコンピュータ、セットトップボックス、いわゆる「スマート」フォンなどの電話機、いわゆる「スマート」パッド、テレビ、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲームコンソール、ビデオストリーミングデバイス、又はデータ記憶デバイスからデータを送信又は受信することができる他のデバイスなどを含む、広範なデバイスのうちのいずれも備え得る。

【0016】

データ記憶デバイス１０６は、コントローラ１０８、ＮＶＭ１１０、電源１１１、揮発性メモリ１１２、インターフェース１１４、及び書き込みバッファ１１６を含む。いくつかの実施例では、データ記憶デバイス１０６は、明瞭化のために図１に示されていない追加の構成要素を含み得る。例えば、データ記憶デバイス１０６は、データ記憶デバイス１０６などの構成要素が機械的に取り付けられ、データ記憶デバイス１０６の構成要素を電気的に相互接続する導電性トレースを含む、プリント回路基板（ＰＣＢ）を含み得る。いくつかの実施例では、データ記憶デバイス１０６の物理的寸法及びコネクタ構成は、１つ以上の標準的フォームファクタに適合し得る。いくつかの例示的な標準的フォームファクタとしては、３．５”データ記憶デバイス（例えば、ＨＤＤ又はＳＳＤ）、２．５”データ記憶デバイス、１．８”データ記憶デバイス、周辺部品相互接続（ＰＣＩ）、ＰＣＩ拡張（ＰＣＩ－Ｘ）、ＰＣＩエクスプレス（ＰＣＩｅ）（例えば、ＰＣＩｅ×１、×４、×８、×１６、ＰＣＩｅミニカード、ミニＰＣＩなど）が挙げられるが、これらに限定されない。いくつかの実施例では、データ記憶デバイス１０６は、ホストデバイス１０４のマザーボードに直接結合（例えば、コネクタに直接半田付け又はプラグ接続）され得る。

【0017】

インターフェース１１４は、ホストデバイス１０４とデータを交換するためのデータバス及びホストデバイス１０４とコマンドを交換するための制御バスの一方又は両方を含み得る。インターフェース１１４は、任意の適切なプロトコルに従って動作し得る。例えば、インターフェース１１４は、以下のプロトコルのうちの１つ以上：先進技術アタッチメント（ＡＴＡ）（例えば、シリアルＡＴＡ（ＳＡＴＡ）及びパラレルＡＴＡ（ＰＡＴＡ））、ファイバチャネルプロトコル（ＦＣＰ）、シリアル接続ＳＣＳＩ（ＳＡＳ）、ＰＣＩ、及びＰＣＩｅ、スモールコンピュータシステムインターフェース（ＳＣＳＩ）、不揮発性メモリエクスプレス（ＮＶＭｅ）、ＯｐｅｎＣＡＰＩ、ＧｅｎＺ、キャッシュ・コヒーレント・インターフェース・アクセラレータ（ＣＣＩＸ）、オープンチャネルＳＳＤ（ＯＣＳＳＤ）などに従って動作し得る。インターフェース１１４（例えば、データバス、制御バス、又はその両方）は、コントローラ１０８に電気的に接続され、ホストデバイス１０４とコントローラ１０８との間の電気的接続を提供し、ホストデバイス１０４とコントローラ１０８との間でデータを交換することを可能にする。いくつかの実施例では、インターフェース１１４の電気的接続はまた、データ記憶デバイス１０６がホストデバイス１０４から電力を受け取ることを可能にし得る。例えば、図１に例示されるように、電源１１１は、インターフェース１１４を介してホストデバイス１０４から電力を受け取り得る。

【0018】

ＮＶＭ１１０は、複数のメモリデバイス又はメモリユニットを含み得る。ＮＶＭ１１０は、データを記憶及び／又は取得するように構成され得る。例えば、ＮＶＭ１１０のメモリユニットは、データと、データを記憶するようにメモリユニットに命令するメッセージと、をコントローラ１０８から受信し得る。同様に、メモリユニットは、データを取得するようにメモリユニットに命令するメッセージをコントローラ１０８から受信し得る。いくつかの実施例では、メモリユニットの各々は、ダイと称され得る。いくつかの実施例では、ＮＶＭ１１０は、複数のダイ（すなわち、複数のメモリユニット）を含み得る。いくつかの実施例では、各メモリユニットは、比較的大量のデータ（例えば、１２８ＭＢ、２５６ＭＢ、５１２ＭＢ、１ＧＢ、２ＧＢ、４ＧＢ、８ＧＢ、１６ＧＢ、３２ＧＢ、６４ＧＢ、１２８ＧＢ、２５６ＧＢ、５１２ＧＢ、１ＴＢなど）を記憶するように構成され得る。

【0019】

いくつかの実施例では、各メモリユニットは、フラッシュメモリデバイス、相変化メモリ（ＰＣＭ）デバイス、抵抗ランダムアクセスメモリ（ＲｅＲＡＭ）デバイス、磁気抵抗ランダムアクセスメモリ（ＭＲＡＭ）デバイス、強誘電性ランダムアクセスメモリ（Ｆ－ＲＡＭ）、ホログラフィックメモリデバイス、及び任意の他のタイプの不揮発性メモリデバイスなどの、任意のタイプの不揮発性メモリデバイスを含み得る。

【0020】

ＮＶＭ１１０は、複数のフラッシュメモリデバイス又はメモリユニットを備え得る。ＮＶＭフラッシュメモリデバイスは、ＮＡＮＤ又はＮＯＲベースのフラッシュメモリデバイスを含み得、各フラッシュメモリセルのトランジスタの浮遊ゲートに含まれる電荷に基づいてデータを記憶し得る。ＮＶＭフラッシュメモリデバイスでは、フラッシュメモリデバイスは複数のダイに分割されてもよく、複数のダイの各ダイは複数の物理ブロック又は論理ブロックを含み、複数の物理ブロック又は論理ブロックは複数のページに更に分割されてもよい。特定のメモリデバイス内の複数のブロックの各ブロックは、複数のＮＶＭセルを含み得る。ＮＶＭセルの行は、複数のページの各ページを定義するためにワード線を使用して電気的に接続され得る。複数のページの各々におけるそれぞれのセルは、それぞれのビット線に電気的に接続され得る。更に、ＮＶＭフラッシュメモリデバイスは、２Ｄ又は３Ｄデバイスであってもよく、単一レベルセル（ＳＬＣ）、マルチレベルセル（ＭＬＣ）、トリプルレベルセル（ＴＬＣ）、又はクアッドレベルセル（ＱＬＣ）であってもよい。コントローラ１０８は、ページレベルで、ＮＶＭフラッシュメモリデバイスにデータを書き込み、かつＮＶＭフラッシュメモリデバイスからデータを読み取り得、ブロックレベルで、ＮＶＭフラッシュメモリデバイスからデータを消去し得る。

【0021】

電源１１１は、データ記憶デバイス１０６の１つ以上の構成要素に電力を供給し得る。標準モードで動作するとき、電源１１１は、ホストデバイス１０４などの外部デバイスによって提供される電力を使用して、１つ以上の構成要素に電力を提供し得る。例えば、電源１１１は、インターフェース１１４を介してホストデバイス１０４から受け取った電力を使用して、１つ以上の構成要素に電力を供給し得る。いくつかの実施例では、電源１１１は、外部デバイスから電力を受け取ることを停止する場合などのシャットダウンモードで動作するときに、１つ以上の構成要素に電力を供給するように構成された１つ以上の電力貯蔵構成要素を含み得る。このように、電源１１１は、積載電源として機能し得る。１つ以上の電力貯蔵構成要素のいくつかの実施例としては、コンデンサ、超コンデンサ、バッテリなどが挙げられるが、これらに限定されない。いくつかの実施例では、１つ以上の電力貯蔵構成要素によって貯蔵され得る電力の量は、１つ以上の電力貯蔵構成要素のコスト及び／又はサイズ（例えば、面積／体積）の関数であり得る。換言すれば、１つ以上の電力貯蔵構成要素によって貯蔵される電力の量が増加するにつれて、１つ以上の電力貯蔵構成要素のコスト及び／又はサイズも増加する。

【0022】

揮発性メモリ１１２は、情報を記憶するためにコントローラ１０８によって使用され得る。揮発性メモリ１１２は、１つ以上の揮発性メモリデバイスを含み得る。いくつかの実施例では、コントローラ１０８は、揮発性メモリ１１２をキャッシュとして使用し得る。例えば、コントローラ１０８は、キャッシュされた情報がＮＶＭ１１０に書き込まれるまで、揮発性メモリ１１２にキャッシュされた情報を記憶し得る。図１に例示されるように、揮発性メモリ１１２は、電源１１１から受け取った電力を消費し得る。揮発性メモリ１１２の例としては、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックＲＡＭ（ＳＲＡＭ）、及び同期ダイナミックＲＡＭ（ＳＤＲＡＭ（例えば、ＤＤＲ１、ＤＤＲ２、ＤＤＲ３、ＤＤＲ３Ｌ、ＬＰＤＤＲ３、ＤＤＲ４、ＬＰＤＤＲ４など））が挙げられるが、これらに限定されない。

【0023】

コントローラ１０８は、データ記憶デバイス１０６の１つ以上の動作を管理し得る。例えば、コントローラ１０８は、ＮＶＭ１１０からのデータの読み取り及び／又はＮＶＭ１１０へのデータの書き込みを管理し得る。いくつかの実施形態では、データ記憶デバイス１０６がホストデバイス１０４から書き込みコマンドを受信すると、コントローラ１０８は、データ記憶コマンドを開始して、データをＮＶＭ１１０に記憶し、データ記憶コマンドの進捗を監視し得る。コントローラ１０８は、記憶システム１００の少なくとも１つの動作特性を判定し、少なくとも１つの動作特性をＮＶＭ１１０に記憶し得る。いくつかの実施形態では、データ記憶デバイス１０６がホストデバイス１０４から書き込みコマンドを受信すると、コントローラ１０８は、データをＮＶＭ１１０に送信する前に、内部メモリ又は書き込みバッファ１１６内の書き込みコマンドに関連付けられたデータを一時的に記憶する。

【0024】

図２は、特定の実施形態による、深層ニューラルネットワーク（ＤＮＮ）２００の例示的な図である。ＤＮＮ２００は、入力層２０２と、第１の隠れ層２０４ａと、第２の隠れ層２０４ｂと、第３隠れ層２０４ｃと、出力層２０６とを含む。図示されている隠れ層の数は、限定することを意図するものではなく、可能な実施形態の例を提供することを意図している。更に、入力層２０２、第１の隠れ層２０４ａ、第２の隠れ層２０４ｂ、第３隠れ層２０４ｃ及び出力層２０６は、各々複数のノードを含む。入力層２０２の各ノードは、データ入力のための入力ノードであってもよい。第１の隠れ層２０４ａ、第２の隠れ層２０４ｂ、及び第３の隠れ層２０４ｃの各ノードは、データからの入力を、その入力を増幅又は減衰させる係数又は重みのセットと組み合わせ、それによって、アルゴリズムが学習しようとしているタスクに関して入力に有意性を割り当てる。第３の隠れ層２０４ｃの結果は、出力層２０６のノードに渡される。

【0025】

ＤＮＮ２００における単一ノード活性化の基本前進計算動作（例えば、フィードフォワード）は、以下の式によって表されてもよい：

【0026】

【数1】

積和（ＭＡＣ）演算が合計され、活性化関数が計算され、活性化関数は、最大値（例えば、整流活性化関数又はＲｅＬＵ）又はシグモイド関数であり得る。言い換えれば、前進計算動作は、ネット内の各ニューロン又はノードへの入力値とバイアスとを乗算した重みの和に適用される活性化シグモイド関数である。ＤＮＮ２００学習方式は、ニューラルネットワーク（ＮＮ）重みを更新するために使用される逆伝搬方程式に基づく。逆伝搬方程式は、出力層２０６のノード、並びに第１の隠れ層２０４ａ、第２の隠れ層２０４ｂ、及び第３の隠れ層２０４ｃのノードに対して行列及びベクトル形式で以下に与えられる計算されたデルタ項を使用する加重和に基づく。

【0027】

【数2】

【0028】

逆伝搬方程式（ＢＰ１、ＢＰ２、ＢＰ３、及びＢＰ４）は、変更されず、静的メモリ（例えば、図１のＮＶＭ１１０）内で処理され得る固定入力（ｚ）が存在すること、及び一時的に調整又は計算され、動的メモリ（例えば、ＤＲＡＭ）内で処理され得る調整可能な値（Ｃ、δ及びｗ）が存在することを示す。別のメモリ消費要素は、ＤＬモデル自体である（すなわち、ＮＮパラメータであり、これは「重み」又はＣ、δ及びｗであり得る）である。ＤＮＮ２００の能力が増大するにつれて、ＤＬモデルのサイズも増大する。完全接続ＮＮアーキテクチャが例示されているが、本明細書で説明される実施形態は、他のＮＮアーキテクチャに適用可能であり得ることを理解されたい。

【0029】

図３は、特定の実施形態による、論理ブロックアドレス（ＬＢＡ）／物理ブロックアドレス（ＰＢＡ）アドレス指定システム３００を示す概略ブロック図である。ＬＢＡ／ＰＢＡアドレス指定システム３００は、データ記憶デバイス３０８に結合されたホストデバイス３０２を含む。データ記憶デバイス３０８は、複数のＮＶＭ３１６ａ～３１６ｎを含むＮＶＭストレージシステムに結合される。複数のＮＶＭ３１６ａ～３１６ｎは、データ記憶デバイス３０８内に配置されてもよいことを理解されたい。いくつかの例では、複数のＮＶＭ３１６ａ～３１６ｎはＮＡＮＤデバイスである。ホストデバイス３０２は、ＣＰＵ／ＧＰＵユニット３０４及びブロックベースのコマンド生成器ユニット３０６を含む。ブロックベースのコマンド生成器ユニット３０６は、複数のＮＶＭ３１６ａ～３１６ｎのうちのＮＶＭのブロックにプログラムされるコマンドを生成する。ホストデバイス３０２は、データが記憶されているＬＢＡを認識しており、データ記憶デバイス３０８は、複数のＮＶＭ３１６ａ～３１６ｎにおいてデータが記憶されているＰＢＡを認識している。

【0030】

データ記憶デバイス３０８は、コマンド解釈ユニット３１０、ブロックベースのフラッシュ変換層（ＦＴＬ）変換ユニット３１２、及びフラッシュインターフェースユニット３１４を含み、それらのすべては、図１のコントローラ１０８などのコントローラ内に配置され得る。コマンド解釈ユニット３１０は、ブロックベースのコマンド生成器ユニット３０６からコマンドを受信又は取り出すように構成され得る。コマンド解釈ユニット３１０は、コマンドを処理し、処理されたコマンドに対する関連制御情報を生成することができる。次に、コマンドはブロックベースのＦＴＬ変換ユニット３１２に渡され、そこでコマンドはＬＢＡからＰＢＡに変換される。フラッシュインターフェースユニット３１４は、ＰＢＡに基づいて複数のＮＶＭ３１６ａ～３１６ｎのうちの関連するＮＶＭに読み取り／書き込みコマンドを渡す。言い換えれば、ＬＢＡとＰＢＡとの間の変換層は、コマンドがホストデバイス３０２からデータ記憶デバイス３０８に渡されるたびに、コマンドに関連付けられたＬＢＡのための対応するＰＢＡが変換層から抽出されるように、データ記憶デバイス３０８に記憶される。

【0031】

図４は、特定の実施形態による、ＬＢＡ／ＰＢＡアドレス指定システム４００を示す概略ブロック図である。ＬＢＡ／ＰＢＡアドレス指定システム４００は、データ記憶デバイス４０８に結合されたホストデバイス４０２を含む。データ記憶デバイス４０８は、複数のＮＶＭ４１６ａ～４１６ｎを含むＮＶＭストレージシステムに結合される。複数のＮＶＭ４１６ａ～４１６ｎは、データ記憶デバイス４０８内に配置されてもよいことを理解されたい。ホストデバイス４０２は、ＣＰＵ／ＧＰＵユニット４０４及びＮＮインターフェースコマンド生成器ユニット４０６を含む。ＮＮインターフェースコマンド生成器ユニット４０６は、複数のＮＶＭ４１６ａ～４１６ｎのうちのＮＶＭのブロックにプログラムされるコマンドを生成する。いくつかの例では、複数のＮＶＭ４１６ａ～４１６ｎはＮＡＮＤデバイスである。コマンドは、ＮＮ構造及び１つ以上のハイパーパラメータ値を含み得る。ＮＮ構造及び１つ以上のハイパーパラメータ値は、複数のＮＶＭ４１６ａ～４１６ｎのうちの１つ以上のＮＶＭに記憶される。１つ以上のハイパーパラメータ値は、ＤＬモデルのトレーニング手順を定義し得る。ホストデバイス４０２は、データが記憶されているＬＢＡを認識しており、データ記憶デバイス４０８は、複数のＮＶＭ４１６ａ～４１６ｎにおいてデータが記憶されているＰＢＡを認識している。

【0032】

データ記憶デバイス４０８は、ＮＮインターフェースコマンド解釈ユニット４１０、スケジュールベースのＦＴＬ変換ユニット４１２、及びフラッシュインターフェースユニット４１４を含み、これらはすべて、図１のコントローラ１０８などのコントローラ内に配置され得る。ＮＮインターフェースコマンド解釈ユニット４１０は、ＮＮインターフェースコマンド生成器ユニット４０６からコマンドを受信又は取り出すように構成され得る。ＮＮインターフェースコマンド解釈ユニット４１０は、コマンドを処理し、処理されたコマンドに対する関連制御情報を生成することができる。いくつかの実施形態では、複数のＮＶＭ４１６ａ～４１６ｎのうちの１つのＮＶＭに記憶されたデータなどの動的パラメータ（例えば、「重み」及びコスト計算）及び静的パラメータの両方についてのオーバーヘッドを低減し、ストレージ利用を改善するために、データ記憶デバイスは、ＮＮ構造及びハイパーパラメータ値の一部又は全部を保持することができる。

【0033】

次いで、コマンドはスケジュールベースのＦＴＬ変換ユニット４１２に渡され、ここでコマンドは、ホストデバイス４０２からデータ記憶デバイス４０８に渡されるスケジュール（例えば、ＤＬモデル）に基づいて、ＬＢＡからＰＢＡに変換される。フラッシュインターフェースユニット４１４は、ＰＢＡに基づいて複数のＮＶＭ４１６ａ～４１６ｎのうちの関連するＮＶＭに読み取り／書き込みコマンドを渡す。言い換えれば、ＬＢＡとＰＢＡとの間の変換層は、コマンドがホストデバイス４０２からデータ記憶デバイス４０８に渡されるたびに、コマンドに関連付けられたＬＢＡのための対応するＰＢＡが変換層から抽出されるように、データ記憶デバイス４０８に記憶される。

【0034】

図５は、特定の実施形態による、深層学習トレーニング中の完全自律データ記憶デバイス動作の方法５００を示す流れ図である。方法５００は、図４のデータ記憶デバイス４０８又は図１のコントローラ１０８によって実装され得る。例示の目的で、ＬＢＡ／ＰＢＡアドレス指定システム４００の態様を本明細書で参照することができる。完全自律データ記憶デバイス動作は、ＣＰＵ／ＧＰＵユニット４０４からデータ記憶デバイス４０８への特定の読み取り及び書き込みコマンドのＮＮパラメータの明示的な転送を省略することができる。ＣＰＵに加えてＧＰＵが利用される場合、デュアル読み取り／書き込み直接ストレージアクセスが、ＧＰＵと複数のＮＶＭ４１６ａ～４１６ｎとの間で可能にされ得る。

【0035】

むしろ、データ記憶デバイス４０８は、ＮＮ構造及びハイパーパラメータ値を保持してもよい。ＮＮインターフェースコマンド解釈ユニット４１０は、トレーニングプロセスの前にＮＮ構造及び／又はハイパーパラメータ値を受信してもよく、又は静的構成で記憶された（すなわち、オフラインで記憶された）ＮＮ構造及び／又はハイパーパラメータ値を選択してもよい。したがって、トレーニングプロセス及びバッファへのデータの配置（すなわち、Ｌ２Ｐマッピングに基づく複数のＮＶＭ４１６ａ～４１６ｎのうちのあるＮＶＭへのデータの配置）は、ホストデバイス４０２からのフィードバックを必要としないなど、「完全自律」方式で完了することができる。

【0036】

ブロック５０２において、ホストデバイス４０２は、所定の構成からＮＮ構造を選択するか、又はＮＮ構造を明示的に渡す。所定の構成は、以前にトレーニングされたＮＮ構造又はデフォルトＮＮ構造であってもよい。ブロック５０４において、ホストデバイス４０２は、専用インターフェースを介してデータ位置を渡すことによってトレーニングプロセスを開始する。例えば、トレーニングプロセスは、図２の入力層２０２のノードに値又はデータ位置を配置することによって開始され得る。ブロック５０６において、データ記憶デバイス４０８、又はより具体的にはコントローラ１０８は、所定のスケジュールに従って読み取り及び書き込みを行う。所定のスケジュールは、トレーニングプロセスの前にホストデバイス４０２からデータ記憶デバイス４０８に渡されるか、又はオフライン位置（例えば、複数のＮＶＭ４１６ａ～４１６ｎのうちのあるＮＶＭ）のデータ記憶デバイス４０８に保持されるＮＮ構造及び／又はハイパーパラメータ値であってもよい。ブロック５０８において、ホストデバイス４０２は、データ記憶デバイス４０８に向けられたバッファ内のデータを読み取り及び配置することによって計算を行う。

【0037】

方法５００は、ブロック５０６及びブロック５０８のいずれかを独立して、又はブロック５０６及びブロック５０８の両方を一緒に実装することができる。例えば、コントローラ１０８は、ブロック５０８を実行せずに、ブロック５０６を実行してもよい。いくつかの例では、ブロック５０６の結果は、ブロック５０８において実装するためにホストデバイス４０２に渡されてもよく、及び／又はブロック５０８の結果は、ブロック５０６において実装するためにデータ記憶デバイス４０８に渡されてもよい。ランダムな読み取り及び書き込みの必要性が減少するにつれて、データは、完全なブロックサイズ又は部分的なブロックサイズのいずれかでアドレス指定され得る。したがって、ＮＮパラメータは、開始点及びオフセットを介して所定のスケジュールにおいてアドレス指定され得る。ブロック５１０において、ＤＬモデルトレーニングは、反復の閾値数に達した（すなわち、所定トレーニングスケジュールが終了した）場合、又はコスト計算が一定のままであることなどによりホストデバイス４０２がトレーニングプロセスを終了することによって終了する。

【0038】

代替アドレス指定方式では、ＰＢＡからＬＢＡへのマッピングではなく、キー値（ＫＶ）ペアインターフェースを使用することができる。各データインスタンス（例えば、値）は、キーを使用することによってアドレス指定され得る。ＮＮパラメータは、反復又は反復の一部に関連する構造においてアドレス指定され得る。例えば、第１の反復に属するすべてのＮＮパラメータ（例えば、１００より大きいノードのリストからのノード１～１００）は、単一のキーを介してアドレス指定され得る。

【0039】

モデルオーバーフィッティング（例えば、冗長計算、不必要なシフトなど）を低減するために、ＤＬモデルトレーニングはドロップアウトを使用し得る。ドロップアウトは、１つ又は隠れ層のノードのうちのいくつかをアルゴリズムの各反復において無効にさせ、ＤＬモデルのロバスト性を改善し、したがって、アルゴリズムの性能を改善する。しかしながら、ドロップアウトはある程度の不確実性をもたらす。ネットワーク接続は各反復において効果的に変化するので、ＮＮパラメータは異なって使用されてもよい。ドロップアウトがトレーニングプロセスの前に適用され得る場合、修正されたＮＮ接続は、ＮＮハイパーパラメータに既に反映されていてもよい。例えば、コントローラ１０８又はデータ記憶デバイス４０８は、反復ごとにＮＮ構造反復を解析することによって、又は各反復においてどのノードがスキップされるかを示すことによって、特定のノードにドロップアウトを適用することができる。いくつかの例では、データ記憶デバイス４０８又はコントローラ１０８は、所定のランダム化設定に従って、各反復において除外されるノードをランダム化することができる。

【0040】

図６は、特定の実施形態による、深層学習トレーニング中の半自律データ記憶デバイス動作の方法６００を示す流れ図である。方法６００は、図４のデータ記憶デバイス４０８又は図１のコントローラ１０８によって実装され得る。例示の目的で、ＬＢＡ／ＰＢＡアドレス指定システム４００の態様を本明細書で参照することができる。データ記憶デバイス４０８が半自律モードで動作しているとき、ＣＰＵ／ＧＰＵユニット４０４は、各反復において読み取るＮＮパラメータを指示し得る。したがって、Ｌ２Ｐマッピングに基づいて複数のＮＶＭ４１６ａ～４１６ｎにデータを記憶するときに、読み取り／書き込みを同期させるという課題を低減することができ、ドロップアウトを処理することを低減することができる。

【0041】

データ記憶デバイス４０８又はコントローラ１０８は、ＤＬモデルトレーニング作業負荷の一意の特徴を利用し、所定の決定論的方法で各読み取り及び損失計算の後にＮＮパラメータを更新することができる。したがって、データ記憶デバイス４０８又はコントローラ１０８は、書き込みコマンドを半自律的に実施することによって「重み」を更新することができる。言い換えれば、ＮＮパラメータ又は「重み」に対する各更新又は書き込みは、以前の読み取りと同じアドレスに対して完了される。したがって、特定の書き込みコマンドを送信する必要はない場合がある。むしろ、ＣＰＵ／ＧＰＵユニット４０４は、各反復の後に、更新するＮＮパラメータ「重み」のリストをデータ記憶デバイス４０８に転送する。

【0042】

ブロック６０２において、ホストデバイス４０２は、所定の構成からＮＮ構造を選択するか、又は１回の反復に対してＮＮ構造を明示的に渡す。所定の構成は、以前にトレーニングされたＮＮ構造又はデフォルトＮＮ構造であってもよい。ブロック６０４において、ホストデバイス４０２は、専用インターフェースを介してデータ位置を渡すことによってトレーニングプロセスを開始する。例えば、トレーニングプロセスは、図２の入力層２０２のノードに値又はデータ位置を配置することによって開始され得る。ブロック６０６において、データ記憶デバイス４０８、又はより具体的にはコントローラ１０８は、１回のトレーニング反復のための所定のスケジュールに従って読み取り及び書き込みを行う。所定のスケジュールは、トレーニングプロセスの前にホストデバイス４０２からデータ記憶デバイス４０８に渡されるか、又はオフライン位置（例えば、複数のＮＶＭ４１６ａ～４１６ｎのうちのあるＮＶＭ）のデータ記憶デバイス４０８に保持されるＮＮ構造及び／又はハイパーパラメータ値であってもよい。ブロック６０８において、ホストデバイス４０２は、データ記憶デバイス４０８に向けられたバッファ内のデータを読み取り及び配置することによって計算を行う。

【0043】

方法６００は、ブロック６０６及びブロック６０８のいずれかを独立して、又はブロック６０６及びブロック６０８の両方を一緒に実装することができる。例えば、コントローラ１０８は、ブロック６０８を実行せずに、ブロック６０６を実行してもよい。いくつかの例では、ブロック６０６の結果は、ブロック６０８において実装するためにホストデバイス４０２に渡されてもよく、及び／又はブロック６０８の結果は、ブロック６０６において実装するためにデータ記憶デバイス４０８に渡されてもよい。ランダムな読み取り及び書き込みの必要性が減少するにつれて、データは、完全なブロックサイズ又は部分的なブロックサイズのいずれかでアドレス指定され得る。したがって、ＮＮパラメータは、開始点及びオフセットを介して所定のスケジュールにおいてアドレス指定され得る。ブロック６１０において、データ記憶デバイス４０８又はコントローラ１０８は、ＤＬモデルトレーニングが終了したかどうかを判定する。例えば、反復の閾値数に達した（すなわち、所定のトレーニングスケジュールが終了した）場合、又はホストデバイス４０２が、コスト計算が一定のままであることなどによりトレーニングプロセスを終了した場合、トレーニングは終了している。ブロック６１０においてトレーニングが終了していない場合、方法６００はブロック６０２に戻る。しかしながら、ブロック６１０においてトレーニングが終了した場合、方法６００はブロック６１２において終了する。

【0044】

機械学習アプリケーションを実行するホストデバイスとデータ記憶デバイスのフラッシュメモリとの間のコマンド転送及び解釈のオーバーヘッドを低減することによって、電力消費が低減され得、スループットが改善され得る。

【0045】

【0046】

コントローラは、ＮＮ構造及び１つ以上のハイパーパラメータ値を受信し、ＮＮ構造及びハイパーパラメータ値をメモリデバイスに記憶するように更に構成される。ＮＮ構造はホストデバイスから受信される。メモリデバイスは不揮発性メモリデバイスである。１つ以上のハイパーパラメータ値は、ＤＬトレーニングモデルのトレーニング手順を定義する。ＮＮ構造及び１つ以上のハイパーパラメータ値は、トレーニング手順の開始時にＤＬトレーニングモデルに提供される。ＤＬトレーニングモデルは、１つ以上の所定のパラメータセットの所定のハイパーパラメータ値を使用する。ＤＬトレーニングモデルは、Ｌ２Ｐマッピングの各々を生成した後に更新される。コントローラは、ＮＮ構造に従って重みを読み取るように更に構成される。重みは、Ｌ２Ｐマッピングの各々を生成した後に更新される。コントローラは、複数のコマンドのデータを指定されたバッファに配置するように更に構成される。配置は、ホストデバイスの関与なしに完了する。

【0047】

【0048】

ＮＮコマンド解釈ユニットは、ホストデバイス内に配置されたＮＮインターフェースコマンド生成器とインターフェースするように構成されている。ＮＮパラメータは、ＫＶペアデータである。トレーニングデータ及びＮＮパラメータは、深層学習（ＤＬ）トレーニングモデルにおいて利用される。ＤＬトレーニングモデルの１つ以上の部分は無効にされる。コントローラは、メモリデバイスからのトレーニングデータ及びＮＮパラメータの自律的フェッチを実行するように構成されている。コントローラは、深層学習（ＤＬ）トレーニングモデルに関連付けられた１つ以上の重みを更新するように更に構成される。更新は、１つ以上の重みの以前の読み取りと同じアドレスに対するものである。

【0049】

【0050】

不揮発性メモリ手段は、ＮＡＮＤベースのメモリ手段である。実行とは、所定のトレーニングスケジュールに従って読み取り及び書き込みを行うことを含む。

【0051】

上記は本開示の実施形態を目的とするが、本開示の他の及び更なる実施形態が、その基本的範囲から逸脱することなく考案され得、その範囲は、以下の特許請求の範囲によって決定される。

【図1】