特表2024-534647 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン　バイドゥ　ネットコム　サイエンス　アンド　テクノロジー　カンパニー　リミテッドの特許一覧

特表2024-534647ディープラーニングモデルのトレーニング方法、装置、システム、機器、媒体及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-09-20

(54)【発明の名称】ディープラーニングモデルのトレーニング方法、装置、システム、機器、媒体及びコンピュータプログラム

(51)【国際特許分類】

G06N 3/08 20230101AFI20240912BHJP

【ＦＩ】

G06N3/08

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024519091

(86)(22)【出願日】2022-09-27

(85)【翻訳文提出日】2024-03-27

(86)【国際出願番号】 CN2022121697

(87)【国際公開番号】W WO2023221360

(87)【国際公開日】2023-11-23

(31)【優先権主張番号】202210559489.0

(32)【優先日】2022-05-19

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】514322098

【氏名又は名称】ベイジンバイドゥネットコムサイエンステクノロジーカンパニーリミテッド

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＢａｉｄｕＮｅｔｃｏｍＳｃｉｅｎｃｅＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】２／ＦＢａｉｄｕＣａｍｐｕｓ，Ｎｏ．１０，Ｓｈａｎｇｄｉ１０ｔｈＳｔｒｅｅｔ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８５，Ｃｈｉｎａ

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】張敏旭

(72)【発明者】

【氏名】王海峰

(72)【発明者】

【氏名】張帆

(72)【発明者】

【氏名】呉 ▲シン▼ ▲シュエン▼

(72)【発明者】

【氏名】姚雪峰

(72)【発明者】

【氏名】馮丹蕾

(72)【発明者】

【氏名】呉志華

(72)【発明者】

【氏名】譚志鵬

(72)【発明者】

【氏名】丁杰

(72)【発明者】

【氏名】于佃海

(57)【要約】

本開示は、ディープラーニングモデルのトレーニング方法を提供し、人工知能分野に関し、具体的にはディープラーニング及びインテリジェント推薦分野に関する。ディープラーニングモデルのトレーニング方法の具体的な実現解決手段は、現在のトレーニングラウンドの第一トレーニングデータに基づいて、第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータにおける、ターゲットプロセッサに含まれるメモリであるターゲットメモリに書き込む必要がある第一ターゲットパラメータを決定することと、ターゲットメモリの記憶スロットとネットワークパラメータとの間の第一マッピング関係に基づいて、ターゲットメモリにおける残りの記憶スロットを決定することと、ターゲットプロセッサに含まれる計算コアが第一トレーニングデータに基づいて第一ネットワークパラメータを調整するように、残りの記憶スロットが第一ターゲットパラメータの記憶要求を満たすことに応答して、第一ターゲットパラメータをターゲットメモリに書き込むことと、を含む。

【特許請求の範囲】

【請求項1】

現在のトレーニングラウンドの第一トレーニングデータに基づいて、前記第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータにおける、ターゲットプロセッサに含まれるメモリであるターゲットメモリに書き込む必要がある第一ターゲットパラメータを決定することと、
前記ターゲットメモリの記憶スロットとネットワークパラメータとの間の第一マッピング関係に基づいて、前記ターゲットメモリにおける残りの記憶スロットを決定することと、
前記ターゲットプロセッサに含まれる計算コアが前記第一トレーニングデータに基づいて前記第一ネットワークパラメータを調整するように、前記残りの記憶スロットが前記第一ターゲットパラメータの記憶要求を満たすことに応答して、前記第一ターゲットパラメータを前記ターゲットメモリに書き込むことと、を含む
ディープラーニングモデルのトレーニング方法。

【請求項2】

前記残りの記憶スロットが前記第一ターゲットパラメータの記憶要求を満たすことに応答して、前記第一ターゲットパラメータに前記残りの記憶スロットにおける記憶スロットを割り当てることと、
前記第一ターゲットパラメータに割り当てられた記憶スロットの識別子情報と前記第一ターゲットパラメータの識別子情報に基づいて、前記第一マッピング関係を更新することと、をさらに含み、
ここで、前記第一ターゲットパラメータを前記ターゲットメモリに書き込むことは、前記第一ターゲットパラメータを前記第一ターゲットパラメータに割り当てられた記憶スロットに書き込むことを含む
請求項１に記載の方法。

【請求項3】

前記第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータにおける、ターゲットメモリに書き込む必要がある第一ターゲットパラメータを決定することは、
前記第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータを決定することと、
前記第一ネットワークパラメータに重複排除処理を行い、重複排除後のネットワークパラメータを取得することと、
前記第一マッピング関係及び前記重複排除後のネットワークパラメータの識別子情報に基づいて、前記重複排除後のネットワークパラメータにおける前記ターゲットメモリに記憶されていないネットワークパラメータを決定し、前記第一ターゲットパラメータとすることと、を含む
請求項１に記載の方法。

【請求項4】

前記残りの記憶スロットが前記第一ターゲットパラメータの記憶要求を満たさないことに応答して、前記ターゲットメモリに記憶されたネットワークパラメータにおける転送可能なネットワークパラメータを決定することと、
前記転送可能なネットワークパラメータを前記ターゲットメモリからメモリに転送することと、
前記転送可能なネットワークパラメータが前記メモリに転送されることに応答して、前記第一ターゲットパラメータを前記ターゲットメモリに書き込むことと、をさらに含む
請求項１に記載の方法。

【請求項5】

前記ターゲットメモリに記憶されたネットワークパラメータにおける転送可能なネットワークパラメータを決定することは、
前記ターゲットメモリの記憶スロットと記憶スロットに記憶されたネットワークパラメータのパラメータ状態との間の第二マッピング関係に基づいて、パラメータ状態がターゲット状態であるネットワークパラメータが前記転送可能なネットワークパラメータであることを決定することを含み、
前記パラメータ状態は、引用状態、使用回数の少なくとも一つを含み、
前記ターゲット状態は、引用状態が引用されていない状態であること、使用回数が回数閾値より小さいことの少なくとも一つを含み、
前記方法は、
前記転送可能なネットワークパラメータが前記メモリに転送されることに応答して、前記第一ターゲットパラメータに前記ターゲットメモリにおける残りの記憶スロットを割り当てることと、
前記第一ターゲットパラメータに割り当てられた記憶スロットと前記第一ネットワークパラメータにおける前記第一ターゲットパラメータ以外の他のパラメータが位置する記憶スロットとに基づいて、前記第二マッピング関係を更新することにより、前記第一ネットワークパラメータのパラメータ状態を更新することと、をさらに含む
請求項４に記載の方法。

【請求項6】

前記計算コアによる前記第一ネットワークパラメータに対する調整を完了することに応答し、前記第二マッピング関係を更新することにより、前記第一ネットワークパラメータの引用状態を更新することをさらに含む
請求項５に記載の方法。

【請求項7】

前記転送可能なネットワークパラメータを前記ターゲットメモリからメモリに転送することは、
前記メモリの残りの記憶空間が空間閾値より小さいことに応答して、前記転送可能なネットワークパラメータを前記メモリを介してハードディスクメモリに書き込むことを含む
請求項４に記載の方法。

【請求項8】

前記計算コアが前記第一トレーニングデータに基づいて前記第一ネットワークパラメータをトレーニングすることに応答し、次のトレーニングラウンドの第二トレーニングデータに基づいて、前記第二トレーニングデータに埋め込み処理を行うために必要な第二ネットワークパラメータにおけるターゲットメモリに書き込む必要がある第二ターゲットパラメータを決定することと、
前記ターゲットメモリの記憶スロットとネットワークパラメータとの間の第一マッピング関係に基づいて、前記ターゲットメモリにおける残りの記憶スロットを決定することと、
前記残りの記憶スロットが前記第二ターゲットパラメータの記憶要求を満たすことに応答して、前記第二ターゲットパラメータを前記ターゲットメモリに書き込むことと、をさらに含む
請求項１に記載の方法。

【請求項9】

前記ターゲットプロセッサは複数のプロセッサを含み、前記第一トレーニングデータは前記複数のプロセッサにそれぞれ対応するマルチバッチのデータを含み、前記第一ターゲットパラメータを前記ターゲットメモリに書き込むことは、
前記複数のプロセッサにおける各プロセッサに対して、前記第一ターゲットパラメータにおける前記各プロセッサに対応する一つのバッチのデータに埋め込み処理を行うために必要な指定パラメータを決定することと、
所定のパラメータ値を用いて前記第一ターゲットパラメータにおける前記指定パラメータ以外の他のパラメータを置換し、前記各プロセッサに対する書き込むべきパラメータを取得することと、
前記各プロセッサに含まれる計算コアが前記各プロセッサに対応する一つのバッチのデータに基づいて前記指定パラメータをトレーニングするように、前記書き込むべきパラメータを前記各プロセッサに含まれるターゲットメモリに書き込むことと、を含む
請求項１に記載の方法。

【請求項10】

前記マルチバッチのデータにおける各バッチのデータに対して、前記各バッチのデータに埋め込み処理を行うために必要なネットワークパラメータの数は、前記各バッチのデータに対応するプロセッサにおけるターゲットメモリの記憶容量に関連する
請求項９に記載の方法。

【請求項11】

前記各プロセッサに含まれる計算コアが前記各プロセッサに対応する一つのバッチのデータに基づいて前記第三ネットワークパラメータを調整するように、前記マルチバッチのデータに対して予測処理を行うために必要な第三ネットワークパラメータを前記各プロセッサにおけるターゲットメモリに書き込むことをさらに含む
請求項９に記載の方法。

【請求項12】

第一プロセッサが現在のトレーニングラウンドの第一トレーニングデータに基づいて、前記第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータにおける、第二プロセッサに含まれるメモリであるターゲットメモリに書き込む必要がある第一ターゲットパラメータを決定することと、
第一プロセッサが前記ターゲットメモリの記憶スロットとネットワークパラメータとの間の第一マッピング関係に基づいて、前記ターゲットメモリにおける残りの記憶スロットを決定することと、
第一プロセッサが前記残りの記憶スロットが前記第一ターゲットパラメータの記憶要求を満たすことに応答し、前記第一ターゲットパラメータを前記ターゲットメモリに書き込み、前記第二プロセッサに前記第一トレーニングデータに基づくトレーニングタスク情報を送信することと、
前記第二プロセッサの計算コアが前記トレーニングタスク情報を受信したことに応答し、前記第一トレーニングデータに基づいて前記第一ネットワークパラメータを調整することと、を含む
ディープラーニングモデルのトレーニング方法。

【請求項13】

前記第二プロセッサは複数のプロセッサを含み、前記第一トレーニングデータは前記複数のプロセッサにそれぞれ対応するマルチバッチのデータを含み、前記第一ターゲットパラメータを前記ターゲットメモリに書き込むことは、
前記複数のプロセッサにおける各プロセッサに対して、前記第一ターゲットパラメータにおける、前記各プロセッサに対応する一つのバッチのデータに対して埋め込み処理を行うために必要な指定パラメータを決定することと、
所定のパラメータを用いて前記第一ターゲットパラメータにおける前記指定パラメータ以外の他のパラメータを置換し、前記各プロセッサに対する書き込むべきパラメータを取得することと、
前記書き込むべきパラメータを前記各プロセッサに含まれるターゲットメモリに書き込むことと、を含む
請求項１２に記載の方法。

【請求項14】

前記複数のプロセッサは、キャッシュコヒーレンス相互接続プロトコルを介してプロセッサリングを接続して形成し、前記第一トレーニングデータに基づいて前記第一ネットワークパラメータを調整することは、
前記複数のプロセッサにおける各プロセッサの計算コアが前記各プロセッサに対応する一つのバッチのデータ及び前記指定パラメータに基づいて順方向計算及び逆方向計算を行い、前記第一ネットワークパラメータに対する勾配データを取得することと、
前記各プロセッサが前記第一ネットワークパラメータが位置する記憶スロットに基づいて、 All reduceアルゴリズムを採用して前記第一ネットワークパラメータに対する勾配データと前記複数のプロセッサにおける他のプロセッサにより取得された勾配データに基づいて、前記第一ネットワークパラメータを調整することと、を含む
請求項１３に記載の方法。

【請求項15】

前記第二プロセッサは人工知能チップを含み、前記人工知能チップはコンロンコア二世代チップを含む
請求項１２～１４のいずれか一項に記載の方法。

【請求項16】

現在のトレーニングラウンドの第一トレーニングデータに基づいて、前記第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータにおける、ターゲットプロセッサに含まれるメモリであるターゲットメモリに書き込む必要がある第一ターゲットパラメータを決定するターゲットパラメータ決定モジュールと、
前記ターゲットメモリの記憶スロットとネットワークパラメータとの間の第一マッピング関係に基づいて、前記ターゲットメモリにおける残りの記憶スロットを決定する残りのスロット決定モジュールと、
前記ターゲットプロセッサに含まれる計算コアが前記第一トレーニングデータに基づいて前記第一ネットワークパラメータを調整するように、前記残りの記憶スロットが前記第一ターゲットパラメータの記憶要求を満たすことに応答し、前記第一ターゲットパラメータを前記ターゲットメモリに書き込むパラメータ書き込みモジュールと、を含む
ディープラーニングモデルのトレーニング装置。

【請求項17】

前記残りの記憶スロットが前記第一ターゲットパラメータの記憶要求を満たすことに応答し、前記第一ターゲットパラメータに前記残りの記憶スロットにおける記憶スロットを割り当てるスロット割当モジュールと、
前記第一ターゲットパラメータに割り当てられた記憶スロットの識別子情報と前記第一ターゲットパラメータの識別子情報に基づいて、前記第一マッピング関係を更新する第一関係更新モジュールと、をさらに含み、
前記パラメータ書き込みモジュールは、前記第一ターゲットパラメータを前記第一ターゲットパラメータに割り当てられた記憶スロットに書き込む
請求項１６に記載の装置。

【請求項18】

前記ターゲットパラメータ決定モジュールは、
前記第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータを決定する必要パラメータ決定サブモジュールと、
前記第一ネットワークパラメータに重複排除処理を行い、重複排除後のネットワークパラメータを取得する重複排除サブモジュールと、
前記第一マッピング関係及び前記重複排除後のネットワークパラメータの識別子情報に基づいて、前記重複排除後のネットワークパラメータにける前記ターゲットメモリに記憶されていないネットワークパラメータを決定し、前記第一ターゲットパラメータとするターゲットパラメータ決定サブモジュールと、を含む
請求項１６に記載の装置。

【請求項19】

前記残りの記憶スロットが前記第一ターゲットパラメータの記憶要求を満たさないことに応答して、前記ターゲットメモリに記憶されたネットワークパラメータにおける転送可能なネットワークパラメータを決定する転送パラメータ決定モジュールと、
前記転送可能なネットワークパラメータを前記ターゲットメモリからメモリに転送するパラメータ転送モジュールと、をさらに含み、
前記パラメータ書き込みモジュールは、さらに、前記転送可能なネットワークパラメータが前記メモリに転送されることに応答し、前記第一ターゲットパラメータを前記ターゲットメモリに書き込む
請求項１６に記載の装置。

【請求項20】

前記転送パラメータ決定モジュールは、
前記ターゲットメモリの記憶スロットと記憶スロットに記憶されたネットワークパラメータのパラメータ状態との間の第二マッピング関係に基づいて、パラメータ状態がターゲット状態であるネットワークパラメータが前記転送可能なネットワークパラメータであることを決定し、
前記パラメータ状態は、引用状態、使用回数の少なくとも一つを含み、
前記ターゲット状態は、引用状態が引用されていない状態であること、使用回数が回数閾値より小さいことの少なくとも一つを含み、
前記装置は、
前記転送可能なネットワークパラメータが前記メモリに転送されることに応答し、前記第一ターゲットパラメータに前記ターゲットメモリにおける残りの記憶スロットを割り当てるスロット割当モジュールと、
前記第一ターゲットパラメータに割り当てられた記憶スロットと前記第一ネットワークパラメータにおける前記第一ターゲットパラメータ以外の他のパラメータが位置する記憶スロットとに基づいて、前記第二マッピング関係を更新することにより、前記第一ネットワークパラメータのパラメータ状態を更新する第二関係更新モジュールと、をさらに含む
請求項１９に記載の装置。

【請求項21】

前記第二関係更新モジュールは、さらに、
前記計算コアによる前記第一ネットワークパラメータに対する調整を完了することに応答し、前記第二マッピング関係を更新することにより、前記第一ネットワークパラメータの引用状態を更新する
請求項２０に記載の装置。

【請求項22】

前記パラメータ転送モジュールは、
前記メモリの残りの記憶空間が空間閾値より小さいことに応答して、前記転送可能なネットワークパラメータを前記メモリを介してハードディスクメモリに書き込む
請求項１９に記載の装置。

【請求項23】

前記ターゲットパラメータ決定モジュールは、さらに、前記計算コアが前記第一トレーニングデータに基づいて前記第一ネットワークパラメータをトレーニングすることに応答し、次のトレーニングラウンドの第二トレーニングデータに基づいて、前記第二トレーニングデータに埋め込み処理を行うために必要な第二ネットワークパラメータにおけるターゲットメモリに書き込む必要がある第二ターゲットパラメータを決定し、
前記残りのスロット決定モジュールは、さらに、前記ターゲットメモリの記憶スロットとネットワークパラメータとの間の第一マッピング関係に基づいて、前記ターゲットメモリにおける残りの記憶スロットを決定し、
前記パラメータ書き込みモジュールは、さらに、前記残りの記憶スロットが前記第二ターゲットパラメータの記憶要求を満たすことに応答し、前記第二ターゲットパラメータを前記ターゲットメモリに書き込む
請求項１６に記載の装置。

【請求項24】

前記ターゲットプロセッサは複数のプロセッサを含み、前記第一トレーニングデータは、前記複数のプロセッサにそれぞれ対応するマルチバッチのデータを含み、前記パラメータ書き込みモジュールは、
前記複数のプロセッサにおける各プロセッサに対して、前記第一ターゲットパラメータにおける前記各プロセッサに対応する一つのバッチのデータに埋め込み処理を行うために必要な指定パラメータを決定する指定パラメータ決定サブモジュールと、
所定のパラメータ値を用いて前記第一ターゲットパラメータにおける前記指定パラメータ以外の他のパラメータを置換し、前記各プロセッサに対する書き込むべきパラメータを取得するパラメータ置換サブモジュールと、
前記各プロセッサに含まれる計算コアが前記各プロセッサに対応する一つのバッチのデータに基づいて前記指定パラメータをトレーニングするように、前記書き込むべきパラメータを前記各プロセッサに含まれるターゲットメモリに書き込む書き込みサブモジュールと、を含む
請求項１６に記載の装置。

【請求項25】

前記マルチバッチのデータにおける各バッチのデータに対して、前記各バッチのデータに埋め込み処理を行うために必要なネットワークパラメータの数は前記各バッチのデータに対応するプロセッサにおけるターゲットメモリの記憶容量に関連する
請求項２４に記載の装置。

【請求項26】

前記パラメータ書き込みモジュールは、さらに、
前記各プロセッサに含まれる計算コアが前記各プロセッサに対応する一つのバッチのデータに基づいて前記第三ネットワークパラメータを調整するように、前記マルチバッチのデータに対して予測処理を行うために必要な第三ネットワークパラメータを前記各プロセッサにおけるターゲットメモリに書き込む
請求項２４に記載の装置。

【請求項27】

第一プロセッサ及び第二プロセッサを含み、前記第二プロセッサはターゲットメモリ及び計算コアを含み、
前記第一プロセッサは、
現在のトレーニングラウンドの第一トレーニングデータに基づいて、前記第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータにおける前記ターゲットメモリに書き込む必要がある第一ターゲットパラメータを決定し、
前記ターゲットメモリの記憶スロットとネットワークパラメータとの間の第一マッピング関係に基づいて、前記ターゲットメモリにおける残りの記憶スロットを決定し、
前記残りの記憶スロットが前記第一ターゲットパラメータの記憶要求を満たすことに応答し、前記第一ターゲットパラメータを前記ターゲットメモリに書き込み、前記第二プロセッサに前記第一トレーニングデータに基づくトレーニングタスク情報を送信するように構成され、
前記第二プロセッサは、前記計算コアが前記トレーニングタスク情報を受信したことに応答し、前記第一トレーニングデータに基づいて前記第一ネットワークパラメータを調整するように構成される
ディープラーニングモデルのトレーニングシステム。

【請求項28】

前記第二プロセッサは複数のプロセッサを含み、前記第一トレーニングデータは前記複数のプロセッサにそれぞれ対応するマルチバッチのデータを含み、前記第一プロセッサは、以下の方式で前記第一ターゲットパラメータを前記ターゲットメモリに書き込むように構成され、
前記複数のプロセッサにおける各プロセッサに対して、前記第一ターゲットパラメータにおける前記各プロセッサに対応する一つのバッチのデータに対して埋め込み処理を行うために必要な指定パラメータを決定し、
所定のパラメータを用いて前記第一ターゲットパラメータにおける前記指定パラメータ以外の他のパラメータを置換し、前記各プロセッサに対する書き込むべきパラメータを取得し、
前記書き込むべきパラメータを前記各プロセッサに含まれるターゲットメモリに書き込む
請求項２７に記載のシステム。

【請求項29】

前記複数のプロセッサはキャッシュコヒーレンス相互接続プロトコルを介してプロセッサリングを接続して形成し、前記各プロセッサは、以下の方式で前記第一ネットワークパラメータを調整するように構成され、
計算コアが前記各プロセッサに対応する一つのバッチのデータ及び前記指定パラメータに基づいて順方向計算及び逆方向計算を行い、前記第一ネットワークパラメータに対する勾配データを取得し、
前記第一ネットワークパラメータが位置する記憶スロットに基づいて、 All reduceアルゴリズムを採用して前記第一ネットワークパラメータに対する勾配データと前記複数のプロセッサにおける他のプロセッサにより取得された勾配データに基づいて、前記第一ネットワークパラメータを調整する
請求項２８に記載のシステム。

【請求項30】

前記第二プロセッサは、人工知能チップを含み、前記人工知能チップは、コンロンコア二世代チップを含む
請求項２７～２９のいずれか一項に記載のシステム。

【請求項31】

少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記少なくとも一つのプロセッサが請求項１～１５のいずれか一項に記載の方法を実行することができるように前記命令は前記少なくとも一つのプロセッサにより実行される、
電子機器。

【請求項32】

コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項１～１５のいずれか一項に記載の方法を実行させる
非一時的なコンピュータ可読記憶媒体。

【請求項33】

プロセッサにより実行される時に請求項１～１５のいずれか一項に記載の方法のステップを実現するコンピュータプログラム／命令を含む
コンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、２０２２年５月１９日に提出され、出願番号が２０２２１０５５９４８９．０である中国特許出願の優先権を要求し、その全ての内容は参照により本開示に組み込まれる。

【0002】

本開示は、人工知能分野に関し、具体的にはディープラーニング及びインテリジェント推薦分野に関し、特にディープラーニングモデルのトレーニング方法、装置、システム、電子機器及び記憶媒体に関する。

【背景技術】

【0003】

コンピュータ技術、ネットワーク技術及び通信技術の発展に伴い、ディープラーニング等の技術はインテリジェント推薦等の分野での応用がますます普及している。ビックデータのプッシュとディープラーニング技術の発展に伴い、ディープラーニング技術のデータ規模及びモデル規模がいずれも顕著に増加している。それに応じて、モデルトレーニングにおいてハードウェア環境に高い要求を提出し、かつ通常トレーニングの時間コストも非常に高い。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明、ハードウェア要求を低減し大規模なモデルトレーニングを実現することに役立つディープラーニングモデルのトレーニング方法、装置、システム、電子機器及び記憶媒体を提供する。

【課題を解決するための手段】

【0005】

本開示の一態様によれば、現在のトレーニングラウンドの第一トレーニングデータに基づいて、第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータにおける、ターゲットプロセッサに含まれるメモリであるターゲットメモリに書き込む必要がある第一ターゲットパラメータを決定することと、ターゲットメモリの記憶スロットとネットワークパラメータとの間の第一マッピング関係に基づいて、ターゲットメモリにおける残りの記憶スロットを決定することと、ターゲットプロセッサに含まれる計算コアが第一トレーニングデータに基づいて第一ネットワークパラメータを調整するように、残りの記憶スロットが第一ターゲットパラメータの記憶要求を満たすことに応答して、第一ターゲットパラメータをターゲットメモリに書き込むことと、を含むディープラーニングモデルのトレーニング方法を提供している。

【0006】

本開示の別の態様によれば、第一プロセッサが現在のトレーニングラウンドの第一トレーニングデータに基づいて、第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータにおける、第二プロセッサに含まれるメモリであるターゲットメモリに書き込む必要がある第一ターゲットパラメータを決定することと、第一プロセッサがターゲットメモリの記憶スロットとネットワークパラメータとの間の第一マッピング関係に基づいて、ターゲットメモリにおける残りの記憶スロットを決定することと、第一プロセッサが残りの記憶スロットが第一ターゲットパラメータの記憶要求を満たすことに応答し、第一ターゲットパラメータをターゲットメモリに書き込み、第二プロセッサに第一トレーニングデータに基づくトレーニングタスク情報を送信することと、第二プロセッサの計算コアがトレーニングタスク情報を受信したことに応答し、第一トレーニングデータに基づいて第一ネットワークパラメータを調整することと、を含むディープラーニングモデルのトレーニング方法を提供している。

【0007】

本開示の別の態様によれば、現在のトレーニングラウンドの第一トレーニングデータに基づいて、第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータにおける、ターゲットプロセッサに含まれるメモリであるターゲットメモリに書き込む必要がある第一ターゲットパラメータを決定するターゲットパラメータ決定モジュールと、ターゲットメモリの記憶スロットとネットワークパラメータとの間の第一マッピング関係に基づいて、ターゲットメモリにおける残りの記憶スロットを決定する残りのスロット決定モジュールと、ターゲットプロセッサに含まれる計算コアが第一トレーニングデータに基づいて第一ネットワークパラメータを調整するように、残りの記憶スロットが第一ターゲットパラメータの記憶要求を満たすことに応答し、第一ターゲットパラメータをターゲットメモリに書き込むパラメータ書き込みモジュールと、を含むディープラーニングモデルのトレーニング装置を提供している。

【0008】

本開示の別の態様によれば、第一プロセッサ及び第二プロセッサを含み、第二プロセッサはターゲットメモリ及び計算コアを含み、第一プロセッサは、現在のトレーニングラウンドの第一トレーニングデータに基づいて、第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータにおけるターゲットメモリに書き込む必要がある第一ターゲットパラメータを決定し、ターゲットメモリの記憶スロットとネットワークパラメータとの間の第一マッピング関係に基づいて、ターゲットメモリにおける残りの記憶スロットを決定し、残りの記憶スロットが第一ターゲットパラメータの記憶要求を満たすことに応答し、第一ターゲットパラメータをターゲットメモリに書き込み、第二プロセッサに第一トレーニングデータに基づくトレーニングタスク情報を送信するように構成され、第二プロセッサは、計算コアがトレーニングタスク情報を受信したことに応答し、第一トレーニングデータに基づいて第一ネットワークパラメータを調整するように構成される、ディープラーニングモデルのトレーニングシステムを提供している。

【0009】

本開示の別の態様によれば、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されるメモリを含み、メモリは、少なくとも一つのプロセッサにより実行可能な命令が記憶され、少なくとも一つのプロセッサが本開示の提供するディープラーニングモデルのトレーニング方法を実行することができるように命令は少なくとも一つのプロセッサにより実行される、電子機器を提供している。

【0010】

本開示の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供している。ここで、コンピュータ命令はコンピュータに本開示の提供するディープラーニングモデルのトレーニング方法を実行させる。

【0011】

本開示の別の態様によれば、コンピュータプログラム／命令を含み、前記コンピュータプログラム／命令はプロセッサにより実行される時に本開示の提供するディープラーニングモデルのトレーニング方法を実現する、コンピュータプログラム製品を提供している。

【0012】

理解すべきこととして、本部分に記載された内容は本開示の実施例のキー又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものではない。本開示の他の特徴は、以下の説明により容易に理解される。

【0013】

図面は、本解決手段をよりよく理解するために用いられ、本開示を限定するものではない。

【図面の簡単な説明】

【0014】

【図1】図１は、本開示の実施例に係るディープラーニングモデルのトレーニング方法、装置及びシステムの応用シーンアーキテクチャ図である。

【図2】図２は、本開示の実施例に係るディープラーニングモデルのトレーニング方法のフローチャート概略図である。

【図3】図３は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法のフローチャート概略図である。

【図4】図４は、本開示の実施例に係るプロセッサキャッシュの構造概略図である。

【図5】図５は、本開示の実施例に係るディープラーニングモデルのトレーニング方法の全体フローチャートである。

【図6】図６は、本開示の実施例に係るプロセッサのスタンドアマルチカードの通信トポロジー構造図である。

【図7】図７は、本開示の実施例に係る非同期パイプライン形式でモデルをトレーニングする原理概略図である。

【図8】図８は、本開示の実施例に係るディープラーニングモデルのトレーニング装置の構造ブロック図である。

【図9】図９は、本開示の実施例に係るディープラーニングモデルのトレーニングシステムの構造ブロック図である。

【図10】図１０は、本開示の実施例に係るディープラーニングモデルのトレーニング方法を実施するための電子機器のブロック図である。

【発明を実施するための形態】

【0015】

以下に図面を参照して本開示の例示的な実施例を説明し、ここで本開示の実施例の様々な詳細を含み理解することに役立ち、それらを例示的なものと考えるべきである。したがって、当業者であれば分かるように、ここで説明した実施例に対して様々な変更及び修正を行うことができ、本開示の範囲及び精神から逸脱することはない。同様に、明確かつ簡単に説明するために、以下の説明において公知の機能及び構造に対する説明を省略する。

【0016】

ビックデータのプッシュとディープラーニング技術の発展に伴い、工業推薦シーンにおいて、データ規模及びモデル規模はいずれも顕著に増加する。例えば、推薦モデルの精度を向上させるために、一般的には億レベルのクリックデータに基づいてトレーニングサンプルを生成して、該推薦モデルをトレーニングする必要がある。推薦モデルにおいて、一般的には埋め込み（Ｅｍｂｅｄｄｉｎｇ）技術を用いてオブジェクト（ユーザ及び物品等）の高次元スパース特徴ベクトルを低次元緻密特徴ベクトルに変換する。このように、ｅｍｂｅｄｄｉｎｇ技術に係るパラメータは常に千億さらに万億のレベルに達し、かつ関連するパラメータはスパースな特性を有する。

【0017】

大規模なスパースパラメータへのトレーニングを実現するために、ＣＰＵ又はＧＰＵに基づくパラメータサーバアーキテクチャを使用し、大規模なスパースパラメータに対して分散トレーニングを行うことにより、トレーニング効率を向上させる。

【0018】

パラメータサーバアーキテクチャは、例えば、ＨｕｇｅＣＴＲ、Ｐａｄｄｌｅ－ＧＰＵＰＳ、Ｐｅｒｓｉａなどを含んでもよい。

【0019】

例えば、ＨｕｇｅＣＴＲは、ＧＰＵを用いて推薦モデルトレーニングを加速するフレームであり、該フレームは、マルチマシンマルチカードの加速をサポートし、該フレームは、パラメータスパース分布の埋め込み層に対してモデル並列トレーニングを行いかつパラメータ緻密分布のネットワークに対してデータ並列トレーニングを行う混合トレーニング方式をサポートする。ＨｕｇｅＣＴＲは、埋め込み層を複数部に分割し、かつそれぞれマルチマシンマルチカードに割り当て、各ＧＰＵにグローバル埋め込み層の一部を保存し、同時に各ＧＰＵに完全なパラメータ緻密分布のネットワークがある。推薦モデルをトレーニングする時に、グローバルサンプルデータをランダムに乱して（ｓｈｕｆｆｌｅ）分割することができ、各ＧＰＵに異なるサンプルデータを割り当ててデータ並列方式のトレーニングを行う。

【0020】

ＨｕｇｅＣＴＲに対して、二つの方式の埋め込み層の記憶をサポートし、一つは、同じスロット（ｓｌｏｔ）に属するスパースパラメータを同じＧＰＵのビデオカードメモリにキャッシュすることである。一つは、全量のスパースパラメータを分散した後に異なるＧＰＵのビデオカードメモリに記憶することである。これらの方式はいずれもいくつかのスパースパラメータが繰り返してキャッシュされる状況が存在し、ビデオカードメモリにある程度の浪費をもたらす。かつＨｕｇｅＣＴＲは、複数のＣＰＵがモデルのトレーニングに参加する必要があり、トレーニングコストが高いという問題が存在する。

【0021】

例えば、Ｐａｄｄｌｅ－ＧＰＵＰＳの出現により、上百台ＣＰＵサーバのトレーニングコストが高いという問題を解決する。該アーキテクチャは、各ＧＰＵに高帯域メモリ（ＨｉｇｈＢａｎｄｗｉｄｔｈＭｅｍｏｒｙ、ＨＢＭ）ハッシュテーブルを構築する。トレーニングを開始する前に、該アーキテクチャはまず、現在取得された一つのｐａｓｓ中のデータの特徴に埋め込み処理を行う時に必要なスパースパラメータをＣＰＵメモリからビデオカードメモリにロードする。ロードする時、同じ特徴群に必要なスパースパラメータを分散した後に異なるビデオカードメモリに記憶する。このように、一つのｐａｓｓから抽出された一つのｂａｔｃｈのデータに基づいてモデルをトレーニングする場合、各ＧＰＵは特徴識別子に基づいて他のビデオカードメモリから必要なスパースパラメータをコピーする必要がある。該アーキテクチャはトレーニング過程において、ＧＰＵの間の通信オーバーヘッドが大きく、かつ各ＧＰＵにＨＢＭハッシュテーブルが構築記憶されるため、ビデオカードメモリの大きさに対する要求が高い。

【0022】

例えば、Ｐｅｒｓｉａは、大規模異種クラスタトレーニングのための推薦モデルトレーニングフレームである。該フレームは、トレーニングアルゴリズム及びトレーニングシステムの二つの次元で協調して最適化することにより、最大のトレーニング可能なモデルパラメータの数は百万億レベルである。該フレームは、埋め込み層に対して非同期更新を行い、パラメータ緻密分布のネットワークに同期更新を行い、かつシステムの最適化により、一部の通信過程と計算過程を時間的に重ねることができる。該フレームは従来のフレームにＥｍｂｅｄｄｉｎｇＷｏｒｋｅｒの役割を導入し、埋め込み層のトレーニング更新タスクを全体モデルのトレーニングタスクから分割してＥｍｂｅｄｄｉｎｇＷｏｒｋｅｒにより実行される。該フレームは、ＥｍｂｅｄｄｉｎｇＷｏｒｋｅｒを導入するために、多くのＣＰＵを必要とし、これにより、モデルのトレーニングコストを増加させる。

【0023】

また、モデルのトレーニング効率を向上させるために、ニューラルネットワーク演算能力を加速するための人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）チップ、例えば、ディープラーニングプロセッサ（ＤｅｅｐｌｅａｒｎｉｎｇＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＤＰＵ）、ニューラルネットワークプロセッサ（ＮｅｕｒａｌＮｅｔｗｏｒｋＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＮＰＵ）及びテンソルプロセッサ（ＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＴＰＵ）などは、産生する。

【0024】

例えば、コンロンの二世代チップは、ＧＤＤＲ６ビデオメモリを用いた汎用ＡＩチップである。該チップはＸＰＵ－Ｒアーキテクチャに基づいて動作し、計算のコア計算力を明らかに向上させ、チップの汎用計算能力を向上させることができる。

【0025】

以下に図１を参照して本開示の提供する方法及び装置の応用シーンを説明する。
図１は、本開示の実施例に係るディープラーニングモデルのトレーニング方法、装置及びシステムの応用シーン図である。

【0026】

図１に示すように、該応用シーン１００は、電子機器を含み、該電子機器は、ノートパソコン、デスクトップコンピュータ又はサーバなどであってもよい。この電子機器には、プロセッサＣＰＵ１１０と、人工知能チップ１２０と、メモリ１３０と、ハードディスクメモリ１４０とが設けられている。

【0027】

メモリ１３０は、内部メモリであり、ＣＰＵ１１０が直接的にアドレッシングして記憶するための空間である。該メモリは、ＣＰＵ内の動作データ、及びハードディスク等の外部メモリと交換されたデータを一時的に記憶することができる。コンピュータが動作中であれば、ＣＰＵは演算する必要があるデータをメモリに呼び出して演算し、演算が完了した後にＣＰＵは結果を送信する。メモリ１３０は、例えばランダムメモリであってもよく、このようにＣＰＵはその中からデータを読み出してもよく、データを書き込んでもよい。

【0028】

ハードディスクプロセッサ１４０は、例えばＮＶＭｅインタフェース付きのソリッドステートディスク（ＳｏｌｉｄＳｔａｔｅＤｉｓｋ、ＳＳＤ）などであってもよく、本開示はこれを限定しない。

【0029】

人工知能チップは、データ処理能力を有し、ＣＰＵの動作を支援し、全体の動作速度を向上させることができる。人工知能チップとしては、例えば、上述したＤＰＵ、ＮＰＵ、ＴＰＵ等を含む。該人工知能チップ１２０は、計算コア、ビデオメモリ及びその関連回路を含むことができる。ビデオメモリは、表示メモリ１５０、すなわち人工知能チップの専用メモリであり、その作用は、計算コアが処理されたか又は抽出しようとするレンダリングデータを記憶することであり、メモリ１３０と類似し、表示メモリ１５０は、処理しようとするモデルパラメータ、トレーニングサンプルなどの情報を記憶する。

【0030】

人工知能チップ１２０における計算コアは、メモリ１３０のデータを直接読み取ることができず、計算コアは表示メモリ１５０からデータを読み取ることしかできない。ＣＰＵは、計算コアに計算タスクを割り当てることができ、計算コアが計算タスクを実行する過程において、ＣＰＵ１１０の制御下で、メモリ１３０と表示メモリ１５０との間にデータ交換を行うことができ、これにより、計算コアが計算タスクを実行する時に必要なデータをメモリ１３０から表示メモリ１５０にコピーし、又はメモリ１３０内のデータを表示メモリ１５０に直接的に転送する。

【0031】

ディープラーニング技術に基づいて構築されたモデルをトレーニングする場合、ＣＰＵ１１０は例えばトレーニングタスクを人工知能チップ１２０に割り当て、かつモデルをメモリ１３０から表示メモリ１５０に転送することができる。一実施例において、モデルをハードディスクメモリ１４０の提供するハードディスク記憶空間に記憶することができる。表示メモリ１５０、メモリ１３０及びハードディスクメモリ１４０で構成された三次バッファ空間を確立する。このように、モデルをハードディスクメモリ１４０に記憶する時、モデルトレーニング過程において、トレーニングの必要に応じて、ＣＰＵ１１０はハードディスクメモリ１４０からデータを読み取ってメモリにキャッシュし、かつＣＰＵ１１０が人工知能チップ１２０にトレーニングタスクを割り当てる時、計算コアが現在の計算タスクを実行する時に係るモデルパラメータをメモリ１３０から表示メモリ１５０に転送し、かつ表示メモリ１５０に記憶された計算コアが処理したデータを表示メモリ１５０からメモリ１３０に転送することにより、表示メモリの記憶空間が不足することを回避する。

【0032】

一実施例において、電子機器は、例えば複数の人工知能チップを設置することができ、該複数の人工知能チップは、異なるトレーニングサンプルに基づいてモデルトレーニングタスクを並行して実行することができ、それによりモデルのトレーニング効率を向上させる。

【0033】

理解されるように、本開示の提供するディープラーニングモデルのトレーニング方法は、電子機器により実行することができ、具体的にはＣＰＵ又は人工知能チップにより対応するプログラムコードを呼び出して実現することができる。それに応じて、本開示の提供するディープラーニングモデルのトレーニング装置、ディープラーニングモデルのトレーニングシステムは電子機器に設置することができる。

【0034】

以下に図２～図７を参照して本開示の提供するディープラーニングモデルのトレーニング方法を詳細に説明する。

【0035】

図２は、本開示の実施例に係るディープラーニングモデルのトレーニング方法のフローチャートである。

【0036】

図２に示すように、該実施例のディープラーニングモデルのトレーニング方法２００は、操作Ｓ２１０～操作Ｓ２３０を含むことができる。この方法２００は、例えば、上述した電子機器におけるＣＰＵにより実行されることができる。

【0037】

操作Ｓ２１０において、現在のトレーニングラウンドの第一トレーニングデータに基づいて、第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータにおけるターゲットメモリに書き込む必要がある第一ターゲットパラメータを決定する。

【0038】

操作Ｓ２２０において、ターゲットメモリの記憶スロットとネットワークパラメータとの間の第一マッピング関係に基づいて、ターゲットメモリにおける残りの記憶スロットを決定する。

【0039】

操作Ｓ２３０において、残りの記憶スロットが第一ターゲットパラメータの記憶要求を満たすことに応答し、第一ターゲットパラメータをターゲットメモリに書き込み、それによりターゲットプロセッサに含まれる計算コアは第一トレーニングデータに基づいて前記第一ネットワークパラメータを調整する。

【0040】

本開示の実施例によれば、ターゲットメモリは例えばターゲットプロセッサに含まれるメモリであってもよい。ターゲットプロセッサは例えば上記した人工知能チップであってもよく、グラフィックスプロセッサＧＰＵなどであってもよい。該ターゲットプロセッサは、ＣＰＵで割り当てられた計算タスクを受信し、かつターゲットメモリに記憶されたデータに基づいて割り当てられた計算タスクを実行することができる。該計算タスクは例えばモデルトレーニングタスクを含むことができ、それによりディープラーニングモデルをトレーニングする。ディープラーニングモデルは、例えば、画像処理モデル、音声処理モデル又はテキスト処理モデル等を含むことができる。具体的なシーンにおいて、ディープラーニングモデルは、推薦モデルであってもよく、該実施例は大量のユーザの推薦対象に対する対話行為情報に基づいて、勾配降下などの方法により推薦モデルをトレーニングすることができる。推薦モデルのモデルパラメータが集約した後、ユーザに個性化推薦を行うことができる。

【0041】

一実施例において、ディープラーニングモデルは例えば埋め込み層及び予測ネットワークを含むことができる。埋め込み層は、ディープラーニングモデルに入力されたデータに埋め込み処理を行うことにより、入力されたデータを高次元スパースな空間から低次元緻密の特徴空間に投射するために用いられる。本開示の実施例における第一トレーニングデータに埋め込む処理を行うために必要な第一ネットワークパラメータは、該埋め込み層におけるネットワークパラメータである。この第一ネットワークパラメータは、例えば、コア関数を呼び出すことにより決定することができる。

【0042】

一実施例において、決定された第一ネットワークパラメータをターゲットメモリに記憶されたネットワークパラメータと比較し、第一ネットワークパラメータにおけるターゲットメモリに記憶されていないネットワークパラメータを決定し、ターゲットメモリに書き込む必要がある第一ターゲットパラメータとすることができる。又は、該実施例において、さらに第一ネットワークパラメータをメモリ及び／又はハードディスクプロセッサに記憶されたネットワークパラメータと比較し、第一ネットワークパラメータにおけるメモリ及び／又はハードディスクプロセッサに記憶されたネットワークパラメータを第一ターゲットパラメータとすることができる。理解できるように、ネットワークパラメータを比較する場合、ネットワークパラメータに基づいて埋め込み処理を行うデータの特徴識別子Ｆｅａｔｕｒｅｓｉｇｎ（Ｆｅａｓｉｇｎと略称する）に基づいて比較を行うことができる。

【0043】

例えば、一つのトレーニングサンプルは複数のオブジェクトの特徴データを含むことができ、各オブジェクトは複数の特徴データを含み、一つの特徴データは一つの特徴識別子に対応する。各特徴データに対して、一定のネットワークパラメータを採用して埋め込み処理を行う必要がある。例えば、本開示の実施例はネットワークパラメータと特徴データとの間の対応関係に基づいて埋め込み層のネットワークパラメータを記憶し、かつネットワークパラメータに対応する特徴データの特徴識別子を添加することができる。

【0044】

一実施例において、ＣＰＵは、キャッシュ又はメモリに特徴データの特徴識別子とターゲットメモリに記憶されたネットワークパラメータとの間のマッピング関係テーブルをメンテナンスすることができ、該マッピング関係テーブルは、特徴識別子をＫｅｙとし、マッピング関係を有するネットワークパラメータの識別子情報をＶａｌｕｅとする。該実施例は、第一トレーニングデータに含まれる特徴データの特徴識別子に基づいてマッピング関係テーブルを照会し、かつマッピング関係テーブルに存在しない特徴識別子を決定し、第一ネットワークパラメータにおける該存在しない特徴識別子により識別された特徴データに埋め込み処理を行うためのネットワークパラメータを、第一ターゲットパラメータとする。

【0045】

理解できるように、ターゲットメモリに記憶されたネットワークパラメータは例えばスロット（Ｓｌｏｔ）に応じて記憶することができ、各スロットに記憶されたネットワークパラメータは一つの特徴データに対応する全てのネットワークパラメータである。すなわち、ネットワークパラメータは、グループごとに記憶することができ、一つの特徴データに対応する全てのネットワークパラメータは、一つのネットワークパラメータグループを構成する。このように、ターゲットメモリを複数の記憶スロットに分割することができ、各記憶スロットは一つのネットワークパラメータグループを記憶する。

【0046】

第一ターゲットパラメータを決定した後、該実施例はまずターゲットメモリにおける記憶空間が十分であるか否かを決定し、記憶空間が十分である場合にのみ、第一ターゲットパラメータをターゲットメモリに書き込むことができる。

【0047】

例えば、該実施例はＣＰＵのキャッシュ又はメモリに記憶スロットとネットワークパラメータとの間の第一マッピング関係をメンテナンスすることができる。該第一マッピング関係は、マッピングテーブルの形式で記憶することができ、ネットワークパラメータが特徴データと一対一に対応するため、該実施例は、特徴データの特徴識別子を採用してネットワークパラメータを表示し、かつターゲットメモリ内の記憶スロットをナンバー化することができる。このように、第一マッピング関係は、特徴データの特徴識別子をＫｅｙとし、記憶スロットのシリアルナンバー（ＦＩｄに設定される）をＶａｌｕｅとして、ＦｅａｓｉｇｎとＦＩｄとの間のマッピングテーブルとして示すことができる。このように、該実施例は該第一マッピング関係に基づいて、ターゲットメモリ内の残りの記憶スロットを決定することができる。

【0048】

例えば、ターゲットメモリの記憶空間の合計が１００個の記憶スロットに分割され、かつ該１００個の記憶スロットのシリアルナンバーが０～９９の整数であるように設定し、第一マッピング関係にシリアルナンバーが０～４９であるマッピング情報のみを含むと、残りの記憶スロットが５０個であると決定することができる。

【0049】

残りの記憶スロットを決定した後、該実施例は、該残りの記憶スロットを第一ターゲットパラメータにおけるネットワークパラメータのグループ数と比較し、第一ターゲットパラメータにおけるネットワークパラメータのグループ数が残りの記憶スロットより小さい場合、残りの記憶スロットが第一ターゲットパラメータの記憶要求を満たすと決定し、ＣＰＵは、第一ターゲットパラメータをメモリからターゲットメモリに転送することができる。一実施例において、ターゲットメモリにネットワークパラメータを書き込む場合、以上に説明したグループごとに書き込む方式を採用することができる。

【0050】

本開示の実施例は、ＣＰＵにおいて第一マッピング関係をメンテナンスし、かつ第一マッピング関係に基づいてターゲットメモリの残りの記憶空間を決定し、かつこれに基づいてネットワークパラメータの書き込みを制御することにより、ビデオカードメモリの記憶空間に対する管理を実現することができ、モデルトレーニング過程において埋め込み処理に必要なネットワークパラメータが多すぎることによりビデオカードメモリにもたらした巨大な圧力を回避し、大規模なモデルトレーニングのハードウェア条件に対する高い要求を低減することに役立ち、かつ大規模モデルのトレーニングを実現することに役立つ。さらに、該実施例における第一マッピング関係はＣＰＵがアクセス可能なメモリ又はキャッシュにメンテナンスされるため、関連技術においてマッピング関係を示すハッシュテーブルをビデオカードメモリに記憶する技術的解決手段と比較して、ビデオカードメモリを十分に利用してモデルトレーニングを行うことができ、さらにビデオカードメモリに対する圧力を低下させ、ＣＰＵとターゲットプロセッサとの間の通信オーバーヘッドを低減することに役立つ。

【0051】

理解されるように、残りの記憶スロットが第一ターゲットパラメータの記憶要求を満たすと決定する場合、該実施例はさらにまず第一ターゲットパラメータに残りの記憶スロットにおける記憶スロットを割り当て、かつ第一ターゲットパラメータを割り当てられた記憶スロットに書き込むことができる。例えば、第一ターゲットパラメータが１０個の特徴データに対応するネットワークパラメータを含み、かつターゲットメモリにおけるシリアルナンバーが０～４９である記憶スロットが既にネットワークパラメータを記憶した場合、第一ターゲットパラメータにシリアルナンバーが５０～４９である記憶スロットを割り当てることができる。

【0052】

第一ターゲットパラメータに記憶スロットを割り当てる後、割り当てられた記憶スロットのシリアルナンバー（すなわち記憶スロットの識別子情報とする）及び第一ターゲットパラメータの識別子情報（すなわち第一ターゲットパラメータに対応する特徴データの識別子情報）に基づいて第一マッピング関係を更新することができる。このようにして、第一マッピング関係における記憶スロットとネットワークパラメータとの間の対応関係をメンテナンスすることができる。

【0053】

理解されるように、各ラウンドのトレーニングにおいて、該実施例はさらにトレーニングデータに予測処理を行うために必要な第三ネットワークパラメータもターゲットメモリに書き込み、ターゲットプロセッサの計算コアが呼び出すことができ、かつ呼び出し結果に基づいて該第三ネットワークパラメータを調整することができる。これは一般的な予測処理に必要なネットワークパラメータが緻密分布のパラメータであり、かつパラメータが少なく、予測処理に必要な全量のネットワークパラメータをターゲットメモリに書き込み、一般的に明らかな圧力を与えないためである。推薦モデルにおいて、該第三ネットワークパラメータは例えば予測ネットワークに含まれるネットワークパラメータであってもよく、予測ネットワークは例えば多層パーセプトロン（ＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎ、ＭＬＰ）を含むことができる。

【0054】

理解できるように、ディープラーニングモデルのトレーニング過程は一般的に三つの部分を含む。第一部分は、順方向計算の過程に計算でディープラーニングモデルの損失を取得することであり、第二部分は、逆方向計算の過程に計算で勾配を取得することであり、第三部分は、勾配に基づいてディープラーニングモデルのネットワークパラメータを更新する過程である。計算コアは具体的には逆方向計算により得られた勾配に基づいて第一ネットワークパラメータ及び第三ネットワークパラメータを調整することにより、ディープラーニングモデルのネットワークパラメータが徐々に集約する。

【0055】

一実施例において、残りの記憶スロットが第一ターゲットパラメータの記憶要求を満たさない場合、ＣＰＵは例えばターゲットメモリにおける一時的に不要なネットワークパラメータを転送することができ、それにより第一ターゲットパラメータに十分な空間を残し、ディープラーニングモデルの後続のトレーニングに条件を提供する。該実施例により、ターゲットメモリ内のキャッシュス空間の大きさを動的に調整することができ、メモリにおける第一マッピング関係などのメンテナンスを結合し、ＣＰＵとターゲットプロセッサとの間の通信オーバーヘッドを効果的に低減することができる。

【0056】

例示的には、ＣＰＵはさらにキャッシュ又はメモリに記憶スロットと記憶スロットに記憶されたネットワークパラメータのパラメータ状態との間の第二マッピング関係をメンテナンスすることにより、転送可能なネットワークパラメータを決定する根拠とする。

【0057】

例えば、ネットワークパラメータのパラメータ状態は引用状態を含むことができる。ネットワークパラメータが現在のトレーニングラウンドに必要なネットワークパラメータである場合、該引用状態を引用された状態に設定し、現在のトレーニングラウンドが該ネットワークパラメータを必要としないと、該引用状態を引用されていない状態に設定する。例えば、引用状態は、引用カウント（ＲｅｆｅｒｅｎｃｅＣｏｕｎｔ、Ｃｏｕｎｔと略称される）で表すことができ、引用カウントの値が１であれば、引用された状態を表し、引用技術の値が０であれば、引用されていない状態を表す。

【0058】

該実施例において、第二マッピング関係は、上記したＦＩｄ、ＦｅａＳｉｇｎとＣｏｕｎｔとの間の対応関係で構成されたマッピングテーブルで表され、各ＦｅａＳｉｇｎはそれぞれのＲｅｆＣｏｕｎｔに対応し、ＦｅａＳｉｇｎ識別子の特徴データに埋め込み処理を行う時に必要なネットワークパラメータが引用されるか否かを示すために用いられる。該実施例は第二マッピング関係におけるＲｅｆＣｏｕｎｔの値が０であるＦｅａＳｉｇｎに対応するネットワークパラメータを転送可能なネットワークパラメータとすることができる。

【0059】

例えば、ネットワークパラメータのパラメータ状態は、使用回数を含むことができる。ネットワークパラメータが一つのトレーニングラウンドにおいて呼び出される場合、該使用回数に１を加算し、該使用回数の初期値は０であってもよい。例えば、使用回数は頻度（ＦｒｅｑｕｅｎｃｙＣｏｕｎｔ、ＦｒｅｑＣｏｕｎｔと略称する）で表すことができる。

【0060】

該実施例において、第二マッピング関係は、上記したＦＩｄ、ＦｅａＳｉｇｎとＦｒｅｑＣｏｕｎｔとの間の対応関係で構成されたマッピングテーブルで示され、各ＦｅａＳｉｇｎはそれぞれのＦｒｅｑＣｏｕｎｔに対応し、ＦｅａＳｉｇｎ識別子の特徴データに埋め込み処理を行う時に必要なネットワークパラメータの使用回数を示すために用いられる。該実施例は第二マッピング関係におけるＦｒｅｑＣｏｕｎｔの値が閾値より小さいＦｅａＳｉｇｎに対応するネットワークパラメータを転送可能なネットワークパラメータとすることができる。

【0061】

例えば、ネットワークパラメータのパラメータ状態は引用状態だけでなく、使用回数を含む。第二マッピング関係は、上記したＦＩｄ、ＦｅａＳｉｇｎ、ＲｅｆＣｏｕｎｔとＦｒｅｑＣｏｕｎｔとの間の対応関係で構成されたマッピングテーブルで表され、各ＦｅａＳｉｇｎはそれぞれのＲｅｆＣｏｕｎｔ及びＦｒｅｑＣｏｕｎｔに対応する。該実施例は引用状態が引用されておらずかつ使用回数が閾値より小さいＦｅａＳｉｇｎに対応するネットワークパラメータを転送可能なネットワークパラメータとすることができる。

【0062】

上記実施例の方法により、需要に応じて必要なネットワークパラメータをタイムリーに送信することができ、ディープラーニングモデルのトレーニングに十分な記憶スロットを残し、ディープラーニングモデルのトレーニング効率を向上させることに役立つ。

【0063】

例示的に、該実施例はさらに第一ネットワークパラメータをターゲットメモリに記憶されたネットワークパラメータと比較し、第一ネットワークパラメータに属しなくかつ引用状態が引用されていないネットワークパラメータを転送可能なネットワークパラメータとすることができる。例えば、転送可能なネットワークパラメータを決定する場合、例えば第一ターゲットパラメータに対応する特徴データの個数に基づいて、転送する必要があるネットワークパラメータのグループ数を決定し、ターゲットグループ数とする。次に引用されていない状態にありかつ使用頻度が低いターゲットグループ数のネットワークパラメータを転送可能なネットワークパラメータとする。

【0064】

転送可能なネットワークパラメータを決定した後、転送可能なネットワークパラメータをターゲットメモリからメモリに転送することができる。かつ転送可能なネットワークパラメータが転送された後、第一ターゲットパラメータをターゲットメモリに書き込む。理解されるように、上記と同様に、第一ターゲットパラメータをターゲットメモリに書き込む時に、第一ターゲットパラメータにターゲットメモリ内の残りの記憶スロットを割り当てることができる。理解されるように、ここでの残りの記憶スロットは転送可能なネットワークパラメータが位置する記憶スロットを含む。次に第一ターゲットパラメータを割り当てられた記憶スロットに書き込む。記憶スロットを割り当てた後、該実施例はさらに第一ターゲットパラメータに対応する特徴データの識別子情報と第一ターゲットパラメータに割り当てられた記憶スロットのシリアルナンバーに基づいて、上記第一マッピング関係と第二マッピング関係を更新することができる。

【0065】

例えば、第二マッピング関係を更新する場合、ＦＩｄとＦｅａＳｉｇｎとの間のマッピング関係を更新する必要がある以外に、さらに第一ネットワークパラメータのパラメータ状態を更新する必要がある。例えば、第一ネットワークパラメータの引用状態を被引用状態に変更し、すなわち第一ネットワークパラメータに対応するＦｅａＳｉｇｎのＲｅｆＣｏｕｎｔを０から１に変更することができる。例えば、第一ネットワークパラメータの使用回数に１を加算し、すなわち第一ネットワークパラメータに対応するＦｅａＳｉｇｎのＦｒｅｑＣｏｕｎｔに１を加算することができる。

【0066】

一実施例において、計算コアが第一ネットワークパラメータに対する調整を完了した後、該実施例はさらに第二マッピング関係を更新することにより、第一ネットワークパラメータの引用状態を更新することができる。具体的には第一ネットワークパラメータに対応するＦｅａＳｉｇｎのＲｅｆＣｏｕｎｔを１から０に変更することができる。

【0067】

一実施例において、ターゲットメモリ、メモリ及びハードディスクプロセッサで構成された三次バッファ構造を採用することにより、メモリ及びターゲットメモリの記憶圧力を低減することができる。前述の第一ターゲットパラメータをターゲットメモリに書き込む場合、メモリ又はハードディスクメモリから該第一ターゲットパラメータを読み取ることができる。メモリはハードディスクメモリのキャッシュであってもよく、メモリの占用率が高い場合、ＣＰＵはメモリにキャッシュされたデータをハードディスクメモリに書き込むことができる。該三次バッファ構造の設定により、モデルトレーニング過程におけるネットワークパラメータの検索及び引き取りを加速することができ、大規模なディープラーニングモデルのトレーニングを実現することに役立ち、例えば、サポートするディープラーニングモデルのモデルパラメータはＴレベルに達することができる。

【0068】

例えば、ＣＰＵは転送可能なネットワークパラメータをターゲットメモリからメモリに転送する時、まずメモリの残りの記憶空間が空間閾値より小さいか否かを決定することができる。空間閾値より小さければ、メモリをキャッシュとし、転送可能なネットワークパラメータをメモリを介してハードディスクメモリに書き込む。すなわち、転送可能なネットワークパラメータをメモリにキャッシュし、かつメモリにキャッシュされた転送可能なネットワークパラメータをハードディスクメモリに書き込む。

【0069】

一実施例において、第一ネットワークパラメータにおける第一ターゲットパラメータを決定する場合に、例えば先に説明した方式を採用して第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータを決定することができる。具体的にはまず第一トレーニングデータに含まれる特徴データを決定し、特徴データに対応する全てのネットワークパラメータを第一ネットワークパラメータとすることができる。その後に第一ネットワークパラメータに対して重複排除処理を行い、重複排除後のネットワークパラメータを取得する。例えば、特徴データの識別子情報に基づいて第一ネットワークパラメータに重複排除を行うことができる。その後に第一マッピング関係及び重複排除後のネットワークパラメータの識別子情報に基づいて、重複排除後のネットワークパラメータにおけるターゲットメモリに記憶されていないネットワークパラメータを決定し、決定されたネットワークパラメータを第一ターゲットパラメータとする。

【0070】

例えば、まず特徴データの識別子情報に基づいて、第一トレーニングデータに含まれる特徴データに重複排除を行うことができる。その後、重複排除後の特徴データに埋め込み処理を行う場合に必要なネットワークパラメータを重複排除後のネットワークパラメータとする。

【0071】

第一トレーニングデータは一般的に複数のトレーニングデータを含み、異なるトレーニングデータに同じ特徴データが含まれる可能性がある。決定された全ての第一ネットワークパラメータを全てターゲットメモリに書き込むと、同じネットワークパラメータがターゲットメモリの複数のスロットに書き込まれる状況が存在する。本開示の実施例は第一ネットワークパラメータに重複排除を行うことにより、上記状況を回避することができ、したがってターゲットメモリの記憶空間の浪費を減少させることができ、ターゲットメモリの記憶空間の利用率を向上させ、大規模なモデルトレーニング時にターゲットメモリに与える圧力を低下させ、大規模なモデルのトレーニングを実現することに役立つ。

【0072】

理解できるように、ＣＰＵが第一ターゲットパラメータをターゲットメモリに書き込んだ後、例えばターゲットプロセッサに第一トレーニングデータに基づくトレーニングタスク情報を送信することにより、ターゲットプロセッサの計算コアがターゲットメモリに記憶された第一ネットワークパラメータに基づいて第一トレーニングデータを処理し、かつ処理結果に基づいて第一ネットワークパラメータを調整することができる。これに基づいて、本開示はさらに別のモデル処理方法を提供する。以下に図３を参照して該別のモデルトレーニング方法を詳細に説明する。

【0073】

図３は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法のフローチャート概略図である。

【0074】

図３に示すように、該実施例のディープラーニングモデルのトレーニング方法３００は操作Ｓ３１０～操作Ｓ３４０を含むことができる。このモデルトレーニング方法３００は、上述した電子機器により実行することができる。

【0075】

操作Ｓ３１０において、第一プロセッサは、現在のトレーニングラウンドの第一トレーニングデータに基づいて、第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータにおけるターゲットメモリに書き込む必要がある第一ターゲットパラメータを決定する。

【0076】

本開示の実施例によれば、第一プロセッサは上記したＣＰＵであってもよく、ターゲットメモリは第二プロセッサに含まれるメモリである。第二プロセッサは上記したターゲットプロセッサと類似し、該操作Ｓ３１０の実現方式は上記操作Ｓ２１０と類似し、ここで説明を省略する。

【0077】

操作Ｓ３２０において、第一プロセッサはターゲットメモリの記憶スロットとネットワークパラメータとの間の第一マッピング関係に基づいて、ターゲットメモリ内の残りの記憶スロットを決定する。該操作Ｓ３２０は上記操作Ｓ２２０と類似し、ここでは説明を省略する。

【0078】

操作Ｓ３３０において、第一プロセッサは残りの記憶スロットが第一ターゲットパラメータの記憶要求を満たすことに応答し、第一ターゲットパラメータをターゲットメモリに書き込み、かつ第二プロセッサに第一トレーニングデータに基づくトレーニングタスク情報を送信する。

【0079】

操作Ｓ３４０において、第二プロセッサの計算コアはトレーニングタスク情報を受信したことに応答し、第一トレーニングデータに基づいて第一ネットワークパラメータを調整する。

【0080】

本開示の実施例によれば、第一ターゲットパラメータをターゲットメモリに書き込む実現方式は前述の操作Ｓ２３０の実現方式と類似し、ここでは説明を省略する。

【0081】

本開示の実施例によれば、第一プロセッサは、第一ターゲットパラメータをターゲットメモリに書き込んだ後、さらに第二プロセッサに第一トレーニングデータに基づくトレーニングタスク情報を送信することができる。このように、第二プロセッサの計算コアは該トレーニングタスク情報を受信した後、ターゲットメモリに記憶された第一ネットワークパラメータを直接呼び出して第一トレーニングデータを処理し、かつ処理結果に基づいて逆方向計算して第一トレーニングデータに対する勾配データを取得し、勾配データに基づいて第一ネットワークパラメータを調整することができる。

【0082】

本開示の実施例によれば、第一プロセッサはさらに第一ターゲットパラメータをターゲットメモリに書き込む過程において、第二プロセッサに第一トレーニングデータに基づくトレーニングタスク情報を送信することができる。このように、第二プロセッサの計算コアは該トレーニングタスク情報を受信した後、ターゲットメモリに記憶されたネットワークパラメータを段階的に呼び出し、必要なネットワークパラメータがまだターゲットメモリに書き込まれていない場合、まずターゲットメモリから必要なネットワークパラメータを読み取るまで、トレーニングタスクの実行を暫定的に実行することができる。

【0083】

本開示の実施例によれば、第一ターゲットパラメータをターゲットメモリに書き込むと同時に、第一プロセッサはさらに第一トレーニングデータを第二プロセッサのキャッシュに書き込むことができる。トレーニングタスク情報には、例えば、順方向計算のタスク情報、逆方向計算のタスク情報、及びパラメータ更新のタスク情報などが含まれ得る。順方向計算のタスク情報は、例えば、第一トレーニングデータの呼出情報、ネットワークパラメータの呼出情報、及び、損失ｌｏｓｓの算出情報等を含んでもよい。ネットワークパラメータの呼び出し情報は呼び出しを必要とするネットワークパラメータの識別子情報及びネットワークパラメータの呼び出し順序情報などを含むことができる。逆方向計算のタスク情報は、例えば学習率などの情報を含むことができ、パラメータ更新のタスク情報は、例えばステップサイズなどを調整することを含むことができる。

【0084】

本開示の実施例はＣＰＵにおいて第一マッピング関係をメンテナンスし、かつ第一マッピング関係に基づいてターゲットメモリの残りの記憶空間を決定し、かつこれに基づいてネットワークパラメータの書き込みを制御することにより、ビデオカードメモリの記憶空間に対する管理を実現することができ、モデルトレーニング過程において埋め込み処理に必要なネットワークパラメータが多すぎることによりビデオカードメモリにもたらした巨大な圧力を回避し、大規模なディープラーニングモデルトレーニングのハードウェア条件に対する高い要求を低減することに役立ち、かつ大規模なディープラーニングモデルのトレーニングを実現することに役立つ。さらに、該実施例における第一マッピング関係はＣＰＵがアクセス可能なメモリ又はキャッシュにメンテナンスされるため、関連技術においてマッピング関係を示すハッシュテーブルをビデオカードメモリに記憶する技術的解決手段と比較して、ビデオカードメモリを十分に利用してモデルトレーニングを行うことができ、さらにビデオカードメモリに対する圧力を低下させ、ＣＰＵとターゲットプロセッサとの間の通信オーバーヘッドを節約することに役立つ。

【0085】

理解できるように、上記説明したように、各ラウンドのトレーニングにおいて、該実施例はさらにトレーニングデータに予測処理を行うために必要な第三ネットワークパラメータもターゲットメモリに書き込み、ターゲットプロセッサの計算コアにより呼び出し、かつ呼び出し結果に基づいて該第三ネットワークパラメータを調整することができる。

【0086】

本開示をよりよく理解するために、以下に図４を参照して本開示の提供するモデルトレーニング方法を実現するためのプロセッサキャッシュの構造を詳細に説明する。

【0087】

図４は本開示の実施例に係るプロセッサキャッシュの構造概略図である。
図４に示すように、実施例４００において、本開示の提供するディープラーニングモデルのトレーニング方法を実現するために、プロセッサキャッシュの構造はメモリ４１０及びターゲットメモリ４２０を含むことができる。該実施例はターゲットメモリ４２０がビデオカードメモリであることを例として説明する。理解できるように、ターゲットメモリ４２０は任意の高帯域幅メモリ（ＨｉｇｈＢａｎｄｗｉｄｔｈＭｅｍｏｒｙ、ＨＢＭ）であってもよい。

【0088】

メモリ４１０には第一ハッシュテーブル４１１と第二ハッシュテーブル４１２がメンテナンスされてもよい。第一ハッシュテーブル４１１は上記第一マッピング関係を示すために用いられ、第二ハッシュテーブル４１２は上記第二マッピング関係を示すために用いられる。具体的には、第一ハッシュテーブルにおけるＫｅｙは特徴データの識別子情報ＦｅａＳｉｇｎであり、第一ハッシュテーブルにおけるＶａｌｕｅはビデオカードメモリ４２０に記憶されたスロットのシリアルナンバーである。第二ハッシュテーブルにおけるＫｅｙはビデオカードメモリ４２０に記憶されたスロットのシリアルナンバーであり、Ｖａｌｕｅは特徴データのタグ情報（ＦｅａｔｕｒｅＭｅｔａ、ＦｅａＭｅｔａと略称される）であり、該タグ情報は特徴データの識別子情報ＦｅａＳｉｇｎを含み、特徴データに埋め込み処理を行う時に必要なネットワークパラメータの引用状態ＲｅｆＣｏｕｎｔ及び使用回数ＦｒｅｑＣｏｕｎｔである。

【0089】

例えば、該実施例におけるビデオカードメモリ４２０が最大で１００個の特徴データに埋め込み処理を行う１００組のネットワークパラメータを記憶することを許可するように設定すれば、ビデオカードメモリ４２０内の記憶スロットは１００個を含み、該１００個の記憶スロットの番号はそれぞれ０、１、２、……、９８、９９である。各記憶スロットにキャッシュされたデータは一組の埋め込み層のネットワークパラメータ及び該一組の埋め込み層のネットワークパラメータを調整する時に必要なハイパーパラメータを含むことができる。

【0090】

プロセッサＣＰＵ４３０は上記のようなディープラーニングモデルのトレーニング方法の対応する操作を実行する時、第一マッピングテーブルを検索することによりビデオカードメモリ４２０に利用可能な記憶スロットの数を決定し、かつトレーニングデータに埋め込み処理を行う時に必要なビデオカードメモリ４２０に書き込むべきターゲットパラメータに記憶スロットを割り当て、かつ需要に応じてメモリ４１０に記憶された第一ハッシュテーブル４１１及び第二ハッシュテーブル４１２における情報に対して照会、追加、削除等の操作を行うことができる。

【0091】

ＣＰＵ４３０はさらにディープラーニングモデルのトレーニング方法における対応する操作を実行する時に、ビデオカードメモリ４２０にキャッシュする必要があるデータを割り当てられた記憶スロットにコピーし、かつＧＰＵ等のターゲットプロセッサがネットワークパラメータに対する調整を完了しかつ記憶スロットを解放する必要がある場合、ビデオカードメモリ４２０から関連するネットワークパラメータをコピーする。モデルトレーニング過程において、ＣＰＵ４３０は実質的にキャッシュ管理者の役割を果たす。

【0092】

一実施例において、ビデオカードメモリ４２０は人工知能チップ内のメモリであってもよい。具体的にはコンロン二世代チップ内のメモリであってもよい。このように、該実施例はディープラーニングモデルのトレーニング方法を実行する時、コンロン二世代チップの計算能力を十分に利用することができ、大規模な推薦モデルのトレーニングを実現することに役立つ。

【0093】

一実施例において、一つの電子機器に複数のターゲットプロセッサを設置することにより、ターゲットプロセッサは異なるトレーニングデータに基づいてディープラーニングモデルに並列トレーニングを行うことにより、モデルトレーニング効率を向上させる。

【0094】

例えば、上記ターゲットプロセッサは複数のプロセッサを含み、一つのラウンドのトレーニングにおいて、マルチバッチ（ｂａｔｃｈ）データを取得することができ、該マルチｂａｔｃｈのデータは第一トレーニングデータを構成する。該実施例は各ｂａｔｃｈのデータに埋め込む処理を行うために必要なネットワークパラメータのみを該各ｂａｔｃｈに対応するプロセッサのターゲットメモリに書き込み、これによりターゲットプロセッサ中のターゲットメモリのバッファ圧力を減少させることができる。

【0095】

例えば、該実施例はさらに第一ターゲットパラメータをターゲットメモリに書き込む場合、まず第一ターゲットパラメータにおける各プロセッサに対応する一つのバッチのデータに埋め込み処理を行うために必要なパラメータを決定し、該各プロセッサに対する指定パラメータとすることができる。次に所定のパラメータを用いて第一ターゲットパラメータにおける指定パラメータ以外の他のパラメータを置換し、それにより該各プロセッサに対する書き込むべきパラメータを取得する。該書き込むべきパラメータにおけるパラメータの数は第一ターゲットパラメータのパラメータの数と同じである。次に第一ターゲットパラメータに割り当てられた記憶スロットに基づいて、書き込むべきパラメータを各プロセッサに含まれるターゲットメモリに書き込む。該方式により、複数のターゲットプロセッサに含まれる複数のターゲットメモリに記憶されたネットワークパラメータの個数及びネットワークパラメータの分布を同じにすることができる。所定のパラメータは、ヌル値であってもよい。このように、ターゲットプロセッサ中のターゲットメモリのバッファ圧力を減少させる以外に、複数のターゲットプロセッサ同士の間の通信を介してネットワークパラメータを同期させることに役立つ。

【0096】

例えば、複数のターゲットプロセッサはそのターゲットメモリに記憶されたネットワークパラメータ及びネットワークパラメータが位置するスロットに基づいて、計算されたネットワークパラメータの勾配データを同期することができる。このようにして、ターゲットプロセッサとＣＰＵとの間の通信オーバーヘッドを減少させることができる。

【0097】

具体的には、各プロセッサの計算コアは該各プロセッサに対応する一つのｂａｔｃｈのトレーニングデータ及びネットワークパラメータに基づいて順方向計算及び逆方向計算を行うことができ、第一ネットワークパラメータに対する勾配データを取得する。例えば、計算コアは対応する一つのｂａｔｃｈのトレーニングデータ中の特徴データに基づいて、ターゲットメモリから特徴データに埋め込み処理及び予測処理を行うネットワークパラメータを取得し、かつネットワークパラメータに基づいて特徴データを処理し、処理結果を取得する。続いて処理結果に基づいてディープラーニングモデルの該一つのｂａｔｃｈのデータに対する損失ｌｏｓｓを決定し、それにより順方向計算のタスクを完了する。その後、該損失及び特徴データに埋め込み処理及び予測処理を行うネットワークパラメータに基づいて、逆方向伝播アルゴリズムを採用して第一ネットワークパラメータに対する勾配データを計算して得て、それにより逆方向計算のタスクを完了する。最後に、第一ネットワークパラメータが位置する記憶スロットと他のターゲットプロセッサとの通信に基づいて、他のターゲットプロセッサにより得られた第一ネットワークパラメータに対する勾配データを取得する。同時に、他のターゲットプロセッサとの通信により、他のターゲットプロセッサにより得られた予測処理に用いられる第三ネットワークパラメータに対する勾配データを取得することができる。最後に全ての勾配データをまとめ、集計結果に基づいて第一ネットワークパラメータ及び第三ネットワークパラメータを調整し、それによりパラメータ更新のタスクを完了する。

【0098】

以下、図５を参照して、ディープラーニングモデルのトレーニング方法の全体的な流れについて詳述する。

【0099】

図５は本開示の実施例に係るディープラーニングモデルのトレーニング方法の全体フローチャートである。

【0100】

図５に示すように、該実施例のディープラーニングモデルのトレーニング方法５００は操作Ｓ５０１～操作Ｓ５１８を含むことができる。操作Ｓ５０９～操作Ｓ５１２は上記ターゲットプロセッサにより実行される以外、他の操作はいずれもＣＰＵにより実行される。

【0101】

操作Ｓ５０１において、バッチのデータを取得する。具体的にはハードディスクメモリ又は外付けのデータベースから所定数のサンプルデータを取得することにより、ディープラーニングモデルをトレーニングすることができる。

【0102】

操作Ｓ５０２において、データ全体を乱し、バッチごとに得られたトレーニングデータのランダム性を向上させる。

【0103】

操作Ｓ５０３において、現在のトレーニングラウンドのデータを取得する。例えば、バッチのデータからｂａｔｃｈ_ｓｉｚｅ＊カード数のトレーニングデータをランダムに取得し、上記第一トレーニングデータとすることができる。カード数とは、電子機器に設けられたターゲットプロセッサの個数である。ｂａｔｃｈ_ｓｉｚｅは実際の需要に応じて設定することができる。例えば、該ｂａｔｃｈ_ｓｉｚｅはターゲットプロセッサ中のターゲットメモリの記憶容量に基づいて決定することができる。例えば、ｂａｔｃｈ_ｓｉｚｅ個のトレーニングデータに埋め込み処理を行うために必要なネットワークパラメータの個数はターゲットメモリの記憶容量に関連することができる。具体的には、ターゲットメモリに記憶されたスロットの数は埋め込み処理に必要なネットワークパラメータのグループ数の二倍であってもよい。

【0104】

操作Ｓ５０４において、ターゲットメモリの残りの記憶スロットが十分であるか否かを決定する。十分であれば、操作Ｓ５０５～操作Ｓ５１３を実行し、そうでなければ操作Ｓ５１４～操作Ｓ５１６を実行する。理解できるように、複数のターゲットプロセッサが同じタイプのプロセッサであり、複数のターゲットプロセッサに含まれる複数のターゲットメモリの記憶容量の大きさが等しいことを設定することができる。

【0105】

操作Ｓ５０５において、第一トレーニングデータに含まれる特徴データのＦｅａＳｉｇｎに基づいて、第一トレーニングデータの埋め込み処理に必要なネットワークパラメータに対して重複排除処理を行い、上記重複排除後のネットワークパラメータを取得する。

【0106】

操作Ｓ５０６において、ターゲットメモリにおけるキャッシュパラメータに対する増分を決定する。すなわち第一マッピング関係に基づいて重複排除後のネットワークパラメータをターゲット記憶装置に記憶されたネットワークパラメータと比較し、ターゲットメモリに書き込む必要があるネットワークパラメータを決定し、上記第一ターゲットパラメータを取得する。

【0107】

操作Ｓ５０７において、ターゲットメモリに書き込む必要があるネットワークパラメータに記憶スロットを割り当て、かつ割り当て結果に基づいて第一マッピング関係及び第二マッピング関係を更新し、具体的には第一マッピング関係にＦＩｄとＦｅａＳｉｇｎのマッピング関係を添加し、第二マッピング関係にＦＩｄとＦｅａＭｅｔａとのマッピング関係を添加し、かつ第一ネットワークパラメータにおける各組のネットワークパラメータに対応する特徴データのＦｅａＭｅｔａデータを更新し、具体的にはＲｅｆＣｏｕｎｔ及びＦｒｅｑＣｏｕｎｔをいずれも１に加算する。

【0108】

操作Ｓ５０８において、ターゲットメモリに追加されたネットワークパラメータをコピー（Ｐｕｌｌ）し、具体的には上記のように所定のパラメータに基づいて各ターゲットメモリに対する書き込むべきパラメータを決定し、かつ書き込むべきパラメータを割り当てられた記憶スロットに書き込むことができる。このように、各ターゲットプロセッサはターゲットメモリ内のネットワークパラメータを呼び出し、一つのｂａｔｃｈのトレーニングサンプルに基づいて、操作Ｓ５０９～操作Ｓ５１２を実行することができる。理解されるように、さらに予測ネットワークの第三ネットワークパラメータを複数のターゲットプロセッサ中の各ターゲットプロセッサに含まれるターゲットメモリにコピーすることができる。

【0109】

操作Ｓ５０９において、順方向計算タスクを実行することにより、ディープラーニングモデルの該一つのｂａｔｃｈに対するトレーニングサンプルの損失ｌｏｓｓを取得する。

【0110】

操作Ｓ５１０において、逆方向計算タスクを実行することにより、損失ｌｏｓｓに基づいて計算して一つのｂａｔｃｈのトレーニングサンプルに対する勾配データを取得する。該勾配データは第一ネットワークパラメータの勾配データ及び第三ネットワークパラメータの勾配データを含むべきである。

【0111】

操作Ｓ５１１において、 All reduceアルゴリズム（ＡｌｌＲｅｄｕｃｅａｌｇｏｒｉｔｈｍ）を採用して複数のターゲットプロセッサから得られた勾配データを集約する。理解されるように、第一ネットワークパラメータの勾配データを集約する時、第一ネットワークパラメータが位置する記憶スロットを参照とすべきであり、これは異なるターゲットメモリに記憶された第一ネットワークパラメータの値に差異が存在するためである。

【0112】

操作Ｓ５１２において、集約結果に基づいてターゲットメモリに記憶されたネットワークパラメータの値を更新する。集約結果は例えば各ネットワークパラメータに対する全ての勾配データに対して平均値を計算し、最終的な勾配を得て、かつ最終的な勾配に基づいて各ネットワークパラメータの値を更新することを含むことができる。

【0113】

操作Ｓ５１３において、現在のｂａｔｃｈの使用したネットワークパラメータに対応する特徴データのＲｅｆＣｏｕｎｔ値を１減算する。ここまで、ターゲットプロセッサは第一トレーニングデータに基づくネットワークパラメータの調整を完了する。

【0114】

操作Ｓ５１４において、ＲｅｆＣｏｕｎｔが０でかつＦｒｅｑＣｏｕｎｔが低い転送可能なネットワークパラメータをフィルタリングする。転送可能なネットワークパラメータに対応する特徴データのＲｅｆＣｏｕｎｔは０であり、ＦｒｅｑＣｏｕｎｔの値は回数閾値より低い。

【0115】

操作Ｓ５１５において、ターゲットメモリから該転送可能なネットワークパラメータをコピーし、かつコピーされた転送可能なネットワークパラメータをメモリにキャッシュする。

【0116】

操作Ｓ５１６において、第一マッピング関係における転送可能なネットワークパラメータに対応する特徴データのＦｅａＳｉｇｎとＦＩｄとのマッピング関係を削除する。操作Ｓ５１６を実行した後、操作Ｓ５０４を戻って実行することにより、残りの記憶スロットが十分であるか否かを改めて決定することができる。

【0117】

本開示の実施例によれば、ターゲットプロセッサが第一トレーニングデータに基づくネットワークパラメータに対する調整を完了した後、ＣＰＵは例えば操作Ｓ５１７を実行し、取得されたバッチデータがいずれもトレーニング済みであるか否かを決定することができる。すなわち、取得されたバッチデータがいずれもトレーニングデータとしてディープラーニングモデルのトレーニングを行ったか否かを判定する。そうであれば、操作Ｓ５１８を実行し、ターゲットメモリ（例えばＨＭＢ）に記憶された更新後のネットワークパラメータをメモリ又はハードディスクメモリにコピーして書き込む。そうでなければ、操作Ｓ５０３に戻って実行することにより、次のトレーニングラウンドのトレーニングを開始する。

【0118】

本開示の提供するディープラーニングモデルのトレーニング方法をよりよく理解するために、以下に図６を参照してプロセッサのスタンドアマルチカードの通信トポロジを詳細に説明する。

【0119】

図６は本開示の実施例に係るプロセッサのスタンドアマルチカードの通信トポロジー構造図である。

【0120】

図６に示すように、実施例６００において、スタンドアマルチカード構造の電子機器は一つのＣＰＵ及び四つのＸＰＵを含むことができ、例えばＸＰＵ＃０～ＸＰＵ＃３を含むことができる。ＣＰＵは、例えば、ＰＣＩｅ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔＥｘｐｒｅｓｓ）インタフェースを介して、四つのＸＰＵと通信接続されていてもよい。ネットワークインタフェースコントローラ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣｏｎｔｒｏｌｌｅｒ、ＮＩＣ）は電子機器をローカルエリアネットワークに接続するために用いられる。ＮＩＣは例えばイーサネットによりアクセススイッチ（ＴＯＲＳｗｉｔｃｈ）に接続され、それにより電子機器がローカルエリアネットワークにアクセスする。ここで、ＸＰＵはコンロンチップを指し、具体的には例えばコンロン二世代チップを指すことができる。

【0121】

四つのＸＰＵにおいて、ＸＰＵ＃０とＸＰＵ＃１との間、ＸＰＵ＃０とＸＰＵ＃３との間、ＸＰＵ＃１とＸＰＵ＃２との間及びＸＰＵ＃２とＸＰＵ＃３との間はキャッシュコヒーレンス相互接続プロトコル（ＣＣＩＸ）を介して接続されてプロセッサリングを形成することができる。ＣＣＩＸは二つ又は二つ以上のデバイスをキャッシュコヒーレンスの方式でデータのシート間相互接続を共有することができる。該シート間相互接続の構造は All reduceアルゴリズムの使用に基礎を提供する。理解されるように、図６に示すトポロジー構造はコンロン二世代チップの通信トポロジーであってもよく、該トポロジー構造により、部分的なスパースパラメータ（埋め込み処理を行うネットワークパラメータ）をサポートするＡｌｌＲｅｄｕｃｅ通信を達成することができる。理解できるように、該実施例は、各ＸＰＵを用いて全ての勾配データを他のＸＰＵにブロードキャストし、かつ他のＸＰＵの全ての勾配データを受信する方式を採用してネットワークパラメータの調整を行うことができる。この方式において、ＸＰＵ＃０ブロードキャストの勾配データは例えばＸＰＵ＃３、ＸＰＵ＃１又はＣＰＵ＃１を介してＸＰＵ＃２に転送することができる。

【0122】

一実施例において、図６に示すように、ディープラーニングモデルをトレーニングする時に、さらに２つの電子機器又はより多くの電子機器を採用することができ、該複数の電子機器の間はローカルエリアネットワークを介して接続されてもよく、複数の電子機器におけるＣＰＵは共通システムインタフェース（ＣｏｍｍｏｎＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ、ＱＰＩ）を介して通信接続されてもよく、ＱＰＩはチップ間の相互接続を実現するアーキテクチャである。

【0123】

本開示の提供するネットワークアーキテクチャに基づいて、ＳｐａｒｓｅパラメータのＡｌｌＲｅｄｕｃｅ通信を実現することができるため、複数のターゲットプロセッサのディープラーニングモデルに対する同期トレーニングを実現することができ、さらに大規模なディープラーニングモデルに対するトレーニングを実現することができ、したがって通信オーバーヘッドを低減することができる。

【0124】

本開示の実施例によれば、さらに非同期パイプライン方式を採用してディープラーニングモデルをトレーニングすることができ、これによりモデルトレーニング効率を向上させる。

【0125】

図７は本開示の実施例に係る非同期パイプライン形式でモデルをトレーニングする原理概略図である。

【0126】

図７に示すように、実施例７００において、ディープラーニングモデルをトレーニングする時、非同期化のパイプライン（Ｐｉｐｅｌｉｎｅ）設計を行うことができる。例えば、ターゲットプロセッサの計算コアが現在のトレーニングラウンドのトレーニングタスク７３０を実行する場合、ＣＰＵは次のトレーニングラウンドのトレーニングデータに前処理７１０を行い、かつ前処理を完了した後、ターゲットメモリに書き込む必要があるターゲットパラメータにスロットを割り当て、かつターゲットパラメータをターゲットメモリにコピーし、即ちスロットを割り当てかつデータをコピーするタスク７２０を実行する。このように、計算コアが現在のトレーニングラウンドのトレーニングタスク７３０を実行した後、次のトレーニングラウンドのトレーニングタスクを直接的に実行することができる。該方式により、モデルトレーニング効率を効果的に向上させ、隣接する二つのラウンドの反復トレーニングの間の間隔を減少させて、ターゲットプロセッサの利用率を向上させる。

【0127】

具体的には、該実施例７００において、ＣＰＵは計算コアが第一トレーニングデータに基づいて第一ネットワークパラメータをトレーニングすることに応答し、次のトレーニングラウンドの第二トレーニングデータに基づいて、第二トレーニングデータに埋め込み処理を行うために必要な第二ネットワークパラメータにおけるターゲットメモリに書き込む必要がある第二ターゲットパラメータを決定することができる。その後にターゲットメモリの記憶スロットとネットワークパラメータとの間の第一マッピング関係に基づいて、ターゲットメモリ内の残りの記憶スロットを決定する。その後に残りの記憶スロットが第二ターゲットパラメータの記憶要求を満たす場合、第二ターゲットパラメータに記憶スロットを割り当てかつ第二ターゲットパラメータをターゲットメモリに書き込む。

【0128】

本開示の提供するディープラーニングモデルのトレーニング方法に基づいて、本開示はさらにディープラーニングモデルのトレーニング装置を提供し、以下に図８を参照して該装置を詳細に説明する。

【0129】

図８は本開示の実施例に係るディープラーニングモデルのトレーニング装置の構造ブロック図である。

【0130】

図８に示すように、該実施例のディープラーニングモデルのトレーニング装置８００はターゲットパラメータ決定モジュール８１０、残りのスロット決定モジュール８２０及びパラメータ書き込みモジュール８３０を含むことができる。

【0131】

ターゲットパラメータ決定モジュール８１０は、現在のトレーニングラウンドの第一トレーニングデータに基づいて、第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータにおおけるターゲットメモリに書き込む必要がある第一ターゲットパラメータを決定するために用いられる。ターゲットメモリは、ターゲットプロセッサに含まれるメモリである。一実施例において、ターゲットパラメータ決定モジュール８１０は上記操作Ｓ２１０を実行するために用いられ、ここで説明を省略する。

【0132】

残りのスロット決定モジュール８２０は、ターゲットメモリの記憶スロットとネットワークパラメータとの間の第一マッピング関係に基づいて、ターゲットメモリ内の残りの記憶スロットを決定する。一実施例において、残りのスロット決定モジュール８２０は、上記操作Ｓ２２０を実行し、ここで説明を省略する。

【0133】

パラメータ書き込みモジュール８３０は、残りの記憶スロットが第一ターゲットパラメータの記憶要求を満たすことに応答し、第一ターゲットパラメータをターゲットメモリに書き込み、それによりターゲットプロセッサに含まれる計算コアは第一トレーニングデータに基づいて第一ネットワークパラメータを調整する。一実施例において、パラメータ書き込みモジュール８３０は上記操作Ｓ２３０を実行し、ここで説明を省略する。

【0134】

本開示の実施例によれば、上記装置８００は、残りの記憶スロットが第一ターゲットパラメータの記憶要求を満たすことに応答し、第一ターゲットパラメータに残りの記憶スロットにおける記憶スロットを割り当てるスロット割当モジュールと、第一ターゲットパラメータに割り当てられた記憶スロットの識別子情報と第一ターゲットパラメータの識別子情報に基づいて、第一マッピング関係を更新する第一関係更新モジュールと、をさらに含むことができる。パラメータ書き込みモジュール８３０は、第一ターゲットパラメータを第一ターゲットパラメータに割り当てられる記憶スロットに書き込む。

【0135】

本開示の実施例によれば、上記ターゲットパラメータ決定モジュール８１０は、第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータを決定する必要パラメータ決定サブモジュールと、第一ネットワークパラメータに対して重複排除処理を行い、重複排除後のネットワークパラメータを取得する重複排除サブモジュールと、第一マッピング関係及び重複排除後のネットワークパラメータの識別子情報に基づいて、重複排除後のネットワークパラメータにおけるターゲットメモリに記憶されていないネットワークパラメータを決定し、第一ターゲットパラメータとするターゲットパラメータ決定サブモジュールと、を含むことができる
本開示の実施例によれば、上記装置８００は、残りの記憶スロットが第一ターゲットパラメータの記憶要求を満たさないことに応答し、ターゲット記憶装置に記憶されたネットワークパラメータにおける転送可能なネットワークパラメータを決定する転送パラメータ決定モジュールと、転送可能なネットワークパラメータをターゲットメモリからメモリに転送するパラメータ転送モジュールと、をさらに含むことができる。パラメータ書き込みモジュール８３０はさらに転送可能なネットワークパラメータがメモリに転送されることに応答し、第一ターゲットパラメータをターゲットメモリに書き込む。

【0136】

本開示の実施例によれば、転送パラメータ決定モジュールは、ターゲットメモリの記憶スロットと記憶スロットに記憶されたネットワークパラメータのパラメータ状態との間の第二マッピング関係に基づいて、パラメータ状態がターゲット状態であるネットワークパラメータが転送可能なネットワークパラメータであることを決定する。パラメータ状態は、引用状態、使用回数の少なくとも一つを含む。ターゲット状態は、引用状態が引用されていない状態であること、使用回数が回数閾値より小さいこと、の少なくとも一つを含む。上記装置８００は、転送可能なネットワークパラメータがメモリに転送されることに応答し、第一ターゲットパラメータにターゲットメモリにおける残りの記憶スロットを割り当てるスロット割当モジュールと、第一ターゲットパラメータに割り当てられた記憶スロットと第一ネットワークパラメータにおける第一ターゲットパラメータ以外の他のパラメータが位置する記憶スロットとに基づいて、第二マッピング関係を更新することにより、第一ネットワークパラメータのパラメータ状態を更新する第二関係更新モジュールと、をさらに含むことができる。

【0137】

本開示の実施例によれば、第二関係更新モジュールはさらに計算コアが第一ネットワークパラメータに対する調整を完了することに応答し、第二マッピング関係を更新することにより、第一ネットワークパラメータの引用状態を更新する。

【0138】

本開示の実施例によれば、上記パラメータ転送モジュールは具体的にはメモリの残りの記憶空間が空間閾値より小さいことに応答し、転送可能なネットワークパラメータをメモリを介してハードディスクメモリに書き込む。

【0139】

本開示の実施例によれば、上記ターゲットパラメータ決定モジュール８１０はさらに、計算コアが第一トレーニングデータに基づいて第一ネットワークパラメータをトレーニングすることに応答し、次のトレーニングラウンドの第二トレーニングデータに基づいて、第二トレーニングデータに埋め込み処理を行うために必要な第二ネットワークパラメータにおけるターゲットメモリに書き込む必要がある第二ターゲットパラメータを決定する。上記残りのスロット決定モジュール８２０はさらに、ターゲットメモリの記憶スロットとネットワークパラメータとの間の第一マッピング関係に基づいて、ターゲットメモリ内の残りの記憶スロットを決定する。上記パラメータ書き込みモジュール８３０はさらに、残りの記憶スロットが第二ターゲットパラメータの記憶要求を満たすことに応答し、第二ターゲットパラメータをターゲットメモリに書き込む。

【0140】

本開示の実施例によれば、ターゲットプロセッサは複数のプロセッサを含み、第一トレーニングデータは複数のプロセッサにそれぞれ対応するマルチバッチのデータを含む。上記パラメータ書き込みモジュール８３０は、複数のプロセッサ中の各プロセッサに対して、第一ターゲットパラメータにおける各プロセッサに対応する一つのバッチのデータに対して埋め込み処理を行うために必要な指定パラメータを決定する指定パラメータ決定サブモジュールと、所定のパラメータ値を用いて第一ターゲットパラメータ中の指定パラメータ以外の他のパラメータを置換し、各プロセッサに対する書き込むべきパラメータを取得するパラメータ置換サブモジュールと、書き込むべきパラメータを各プロセッサに含まれるターゲットメモリに書き込み、それにより各プロセッサに含まれる計算コアが各プロセッサに対応する一つのバッチのデータに基づいて指定パラメータをトレーニングする書き込みサブモジュールと、を含むことができる。

【0141】

本開示の実施例によれば、マルチバッチのデータにおける各バッチのデータに対して、各バッチのデータに埋め込み処理を行うために必要なネットワークパラメータの数は各バッチのデータに対応するプロセッサ中のターゲットメモリの記憶容量に関連する。

【0142】

本開示の実施例によれば、上記パラメータ書き込みモジュール８３０はさらにマルチバッチのデータに対して予測処理を行うために必要な第三ネットワークパラメータを各プロセッサ中のターゲットメモリに書き込み、それにより各プロセッサに含まれる計算コアは各プロセッサに対応する一つのバッチのデータに基づいて第三ネットワークパラメータを調整する。

【0143】

本開示の別の実施例が提供するディープラーニングモデルのトレーニング方法に基づいて、本開示はさらにディープラーニングモデルのトレーニングシステムを提供し、以下に図９を参照して該システムを詳細に説明する。

【0144】

図９は本開示の実施例に係るディープラーニングモデルのトレーニングシステムの構造ブロック図である。

【0145】

図９に示すように、該実施例のディープラーニングモデルのトレーニングシステム９００は第一プロセッサ９１０及び第二及びプロセッサ９２０を含み、第二プロセッサはターゲットメモリ及び計算コアを含む。

【0146】

第一プロセッサ９１０は以下のように構成される：現在のトレーニングラウンドの第一トレーニングデータに基づいて、第一トレーニングデータに埋め込み処理を行うために必要な第一ネットワークパラメータにおけるターゲットメモリに書き込む必要がある第一ターゲットパラメータを決定する。ターゲットメモリの記憶スロットとネットワークパラメータとの間の第一マッピング関係に基づいて、ターゲットメモリ内の残りの記憶スロットを決定する。残りの記憶スロットが第一ターゲットパラメータの記憶要求を満たすことに応答し、第一ターゲットパラメータをターゲットメモリに書き込み、かつ第二プロセッサに第一トレーニングデータに基づくトレーニングタスク情報を送信する。理解できるように、第一プロセッサは上記操作Ｓ３１０～操作Ｓ３３０を実行するように構成されてもよく、ここでは説明を省略する。

【0147】

第二プロセッサ９２０は以下のように構成される：計算コアはトレーニングタスク情報を受信したことに応答し、第一トレーニングデータに基づいて第一ネットワークパラメータを調整する。

【0148】

本開示の実施例によれば、第二プロセッサは複数のプロセッサを含み、第一トレーニングデータは複数のプロセッサにそれぞれ対応するマルチバッチのデータを含む。上記第一プロセッサ９１０は以下の方式で第一ターゲットパラメータをターゲットメモリに書き込むように構成される：複数のプロセッサ中の各プロセッサに対して、第一ターゲットパラメータにおける各プロセッサに対応する一つのバッチのデータに対して埋め込み処理を行うために必要な指定パラメータを決定する。所定のパラメータを用いて第一ターゲットパラメータにおける指定パラメータ以外の他のパラメータを置換し、各プロセッサに対する書き込むべきパラメータを取得する。及び書き込むべきパラメータを各プロセッサに含まれるターゲットメモリに書き込む。

【0149】

本開示の実施例によれば、複数のプロセッサはキャッシュコヒーレンス相互接続プロトコルを介してプロセッサリングを接続して形成する。複数のプロセッサ中の各プロセッサは以下の方式で第一ネットワークパラメータを調整するように構成される：計算コアは各プロセッサに対応する一つのバッチのデータ及び指定パラメータに基づいて順方向計算及び逆方向計算を行い、第一ネットワークパラメータに対する勾配データを取得する。及び第一ネットワークパラメータが位置する記憶スロットに基づいて、 All reduceアルゴリズムを採用して第一ネットワークパラメータに対する勾配データと複数のプロセッサ中の他のプロセッサにより得られた勾配データに基づいて、第一ネットワークパラメータを調整する。

【0150】

本開示の実施例によれば、第二プロセッサは人工知能チップを含み、人工知能チップはコンロンコア二世代チップを含む。

【0151】

説明すべきものとして、本開示の技術的解決手段において、関するユーザ個人情報の収集、記憶、使用、加工、伝送、提供、開示及び応用等の処理は、いずれも相関法規則の規定に適合し、必要なセキュリティ対策を採用し、かつ公序良俗に反するものではない。本開示の技術的解決手段において、ユーザの個人情報を取得するか又は収集する前に、いずれもユーザの許可又は同意を取得する。

【0152】

本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラム製品を提供する。

【0153】

図１０は本開示の実施例に係るディープラーニングモデルのトレーニング方法の例示電子機器１０００の例示的なブロック図を示す。電子機器は、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータという様々な形式のデジタルコンピュータを表示することを意図する。電子機器は、さらに、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス及び他の類似の計算装置という様々な形式の移動装置を表示してもよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定するものではない。

【0154】

図１０に示すように、機器１０００は、計算ユニット１００１を含み、それはリードオンリーメモリ（ＲＯＭ）１００２に記憶されたコンピュータプログラム又は記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ）１００３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。ＲＡＭ１００３には、さらに機器１０００の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット１００１、ＲＯＭ１００２、およびＲＡＭ１００３は、バス１００４を介して相互に接続されている。バス１００４には、入出力（Ｉ／Ｏ）インタフェース１００５も接続されている。

【0155】

電子機器１０００における複数の部品は、Ｉ／Ｏインタフェース１００５に接続され、例えばキーボード、マウス等の入力ユニット１００６と、例えば様々な種別のディスプレイ、スピーカ等の出力ユニット１００７と、例えば磁気ディスク、光ディスク等の記憶ユニット１００８と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット１００９とを含む。通信ユニット１００９は、電子機器１０００がインターネット等のコンピュータネットワーク及び／又は各種の電気通信網を介して他のデバイスと情報／データをやり取りすることを可能にする。

【0156】

計算ユニット１００１は、処理及び計算能力を有する各種の汎用及び／又は専用の処理モジュールであってもよい。計算ユニット１００１の幾つかの例としては、中央処理装置（ＣＰＵ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、各種専用の人工知能（ＡＩ）演算チップ、各種機械学習モデルアルゴリズムの計算ユニット、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算ユニット１００１は、例えばディープラーニングモデルのトレーニング方法ような前記記載された各方法と処理を実行する。例えば、いくつかの実施例において、ディープラーニングモデルのトレーニング方法は、例えば記憶ユニット１００８のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ１００２及び／又は通信ユニット１００９を介してデバイス１０００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ１００３にロードされて計算ユニット１００１により実行される場合、前記記載されたディープラーニングモデルのトレーニング方法の１つ又は複数のステップを実行してもよい。代替的に、別の実施例において、計算ユニット１００１は、他の任意の適切な形態（例えば、ファームウェアを介する）によりディープラーニングモデルのトレーニング方法を実行するように構成されてもよい。

【0157】

本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムにおいて実施され、該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラムブルプロセッサを含むプログラムブルシステムで実行され及び／又は解釈されることが可能であり、該プログラムブルプロセッサは、専用又は汎用のプログラムブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に伝送することができることを含んでもよい。

【0158】

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラムブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び／又はブロック図に規定された機能／操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてるかもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。

【0159】

本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は前記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、１つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は前記内容の任意の適切な組み合わせを含む。

【0160】

ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種別の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、かついかなる形式（音声入力、語音入力又は触覚入力を含む）でユーザからの入力を受信してもよい。

【0161】

ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、局所エリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを例示的に含む。

【0162】

コンピュータシステムは、クライアント及びサーバを含んでよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント－サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストと呼ばれ、クラウドコンピューティングサービスシステムのうちの一つのホスト製品であり、それにより従来の物理ホストとＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「ＶＰＳ」と略称する）において、存在する管理難度が大きく、サービス拡張性が弱いという欠陥を解決する。サーバは、配布式システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。

【0163】

理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、ステップを改めてソーティングしたり、付加したり又は削除してもよい。例えば、本発明に記載の各ステップは、並列的に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の技術案の所望の結果を実現することができれば、本明細書はここで限定されない。

【0164】

前記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われた任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【手続補正書】

【提出日】2024-03-27

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】

【請求項13】

【請求項14】

【請求項15】

【請求項16】

【請求項17】

【請求項18】

【請求項19】

【請求項20】

【請求項21】

【請求項22】

【請求項23】

【請求項24】

【請求項25】

【請求項26】

【請求項27】

【請求項28】

【請求項29】

【請求項30】

【請求項31】

少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記少なくとも一つのプロセッサが請求項１～１１のいずれか一項に記載の方法を実行することができるように前記命令は前記少なくとも一つのプロセッサにより実行される、
電子機器。

【請求項32】

コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項１～１１のいずれか一項に記載の方法を実行させる
非一時的なコンピュータ可読記憶媒体。

【請求項33】

プロセッサにより実行される時に請求項１～１１のいずれか一項に記載の方法のステップを実現する
コンピュータプログラム。

【手続補正2】

【補正対象書類名】明細書

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【発明の詳細な説明】

【技術分野】

【0001】

【0002】

本開示は、人工知能分野に関し、具体的にはディープラーニング及びインテリジェント推薦分野に関し、特にディープラーニングモデルのトレーニング方法、装置、システム、電子機器、記憶媒体及びコンピュータプログラムに関する。

【背景技術】

【0003】

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明、ハードウェア要求を低減し大規模なモデルトレーニングを実現することに役立つディープラーニングモデルのトレーニング方法、装置、システム、電子機器、記憶媒体及びコンピュータプログラムを提供する。

【課題を解決するための手段】

【0005】

【0006】

【0007】

【0008】

【0009】

【0010】

【0011】

本開示の別の態様によれば、プロセッサにより実行される時に本開示の提供するディープラーニングモデルのトレーニング方法を実現する、コンピュータプログラムを提供している。

【0012】

【0013】

図面は、本解決手段をよりよく理解するために用いられ、本開示を限定するものではない。

【図面の簡単な説明】

【0014】

【図1】図１は、本開示の実施例に係るディープラーニングモデルのトレーニング方法、装置及びシステムの応用シーンアーキテクチャ図である。

【図2】図２は、本開示の実施例に係るディープラーニングモデルのトレーニング方法のフローチャート概略図である。

【図3】図３は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法のフローチャート概略図である。

【図4】図４は、本開示の実施例に係るプロセッサキャッシュの構造概略図である。

【図5】図５は、本開示の実施例に係るディープラーニングモデルのトレーニング方法の全体フローチャートである。

【図6】図６は、本開示の実施例に係るプロセッサのスタンドアマルチカードの通信トポロジー構造図である。

【図7】図７は、本開示の実施例に係る非同期パイプライン形式でモデルをトレーニングする原理概略図である。

【図8】図８は、本開示の実施例に係るディープラーニングモデルのトレーニング装置の構造ブロック図である。

【図9】図９は、本開示の実施例に係るディープラーニングモデルのトレーニングシステムの構造ブロック図である。

【図10】図１０は、本開示の実施例に係るディープラーニングモデルのトレーニング方法を実施するための電子機器のブロック図である。

【発明を実施するための形態】

【0015】

【0016】

【0017】

【0018】

パラメータサーバアーキテクチャは、例えば、ＨｕｇｅＣＴＲ、Ｐａｄｄｌｅ－ＧＰＵＰＳ、Ｐｅｒｓｉａなどを含んでもよい。

【0019】

【0020】

【0021】

【0022】

【0023】

【0024】

【0025】

【0026】

【0027】

【0028】

【0029】

【0030】

【0031】

【0032】

【0033】

【0034】

以下に図２～図７を参照して本開示の提供するディープラーニングモデルのトレーニング方法を詳細に説明する。

【0035】

図２は、本開示の実施例に係るディープラーニングモデルのトレーニング方法のフローチャートである。

【0036】

【0037】

【0038】

【0039】

【0040】

【0041】

【0042】

【0043】

【0044】

【0045】

【0046】

【0047】

【0048】

【0049】

【0050】

【0051】

【0052】

【0053】

【0054】

【0055】

【0056】

【0057】

【0058】

【0059】

【0060】

【0061】

【0062】

【0063】

【0064】

【0065】

【0066】

【0067】

【0068】

【0069】

【0070】

【0071】

【0072】

【0073】

図３は、本開示の別の実施例に係るディープラーニングモデルのトレーニング方法のフローチャート概略図である。

【0074】

【0075】

【0076】

【0077】

【0078】

【0079】

【0080】

【0081】

【0082】

【0083】

【0084】

【0085】

【0086】

【0087】

【0088】

【0089】

【0090】

【0091】

【0092】

【0093】

【0094】

【0095】

【0096】

【0097】

【0098】

以下、図５を参照して、ディープラーニングモデルのトレーニング方法の全体的な流れについて詳述する。

【0099】

図５は本開示の実施例に係るディープラーニングモデルのトレーニング方法の全体フローチャートである。

【0100】

【0101】

【0102】

操作Ｓ５０２において、データ全体を乱し、バッチごとに得られたトレーニングデータのランダム性を向上させる。

【0103】

【0104】

【0105】

【0106】

【0107】

【0108】

【0109】

【0110】

【0111】

【0112】

【0113】

【0114】

【0115】

【0116】

【0117】

【0118】

【0119】

図６は本開示の実施例に係るプロセッサのスタンドアマルチカードの通信トポロジー構造図である。

【0120】

【0121】

【0122】

【0123】

【0124】

【0125】

図７は本開示の実施例に係る非同期パイプライン形式でモデルをトレーニングする原理概略図である。

【0126】

【0127】

【0128】

【0129】

図８は本開示の実施例に係るディープラーニングモデルのトレーニング装置の構造ブロック図である。

【0130】

【0131】

【0132】

【0133】

【0134】

【0135】

【0136】

【0137】

【0138】

【0139】

【0140】

【0141】

【0142】

【0143】

【0144】

図９は本開示の実施例に係るディープラーニングモデルのトレーニングシステムの構造ブロック図である。

【0145】

【0146】

【0147】

【0148】

【0149】

【0150】

本開示の実施例によれば、第二プロセッサは人工知能チップを含み、人工知能チップはコンロンコア二世代チップを含む。

【0151】

【0152】

本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラムを提供する。

【0153】

【0154】

【0155】

【0156】

【0157】

【0158】

【0159】

【0160】

【0161】

【0162】

【0163】

【0164】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版