特表2022-541370 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッドの特許一覧

特表2022-541370データ強化ポリシーの更新方法、装置、デバイス及び記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-09-26

(54)【発明の名称】データ強化ポリシーの更新方法、装置、デバイス及び記憶媒体

(51)【国際特許分類】

G06N 20/00 20190101AFI20220915BHJP

G06N 3/08 20060101ALI20220915BHJP

【ＦＩ】

G06N20/00

G06N3/08

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2021569392

(86)(22)【出願日】2020-11-02

(85)【翻訳文提出日】2021-11-22

(86)【国際出願番号】 CN2020125967

(87)【国際公開番号】W WO2021248791

(87)【国際公開日】2021-12-16

(31)【優先権主張番号】202010519507.3

(32)【優先日】2020-06-09

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】321006888

【氏名又は名称】ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド

(74)【代理人】

【識別番号】100078282

【弁理士】

【氏名又は名称】山本秀策

(74)【代理人】

【識別番号】100113413

【弁理士】

【氏名又は名称】森下夏樹

(74)【代理人】

【識別番号】100181674

【弁理士】

【氏名又は名称】飯田貴敏

(74)【代理人】

【識別番号】100181641

【弁理士】

【氏名又は名称】石川大輔

(74)【代理人】

【識別番号】230113332

【弁護士】

【氏名又は名称】山本健策

(72)【発明者】

【氏名】田柯宇

(72)【発明者】

【氏名】林宸

(72)【発明者】

【氏名】▲孫▼明

(72)【発明者】

【氏名】▲閻▼俊杰

(57)【要約】

本開示の実施例は、データ強化ポリシーの更新方法、装置、デバイス及び記憶媒体を提供する。当該方法は、初期のデータ強化ポリシーを取得するステップと、データ強化ポリシー及びトレーニングデータに基づいて、予め設定された第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行うステップと、第２段階トレーニング済みデータ処理モデルに基づいて、データ強化ポリシーを更新し、更新されたデータ強化ポリシーを取得するステップと、を含む。

【特許請求の範囲】

【請求項1】

データ強化ポリシーの更新方法であって、
初期のデータ強化ポリシーを取得するステップと、
前記データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第１段階トレーニング済みデータ処理モデルに対して、第２段階のトレーニングを行うステップと、
第２段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新し、更新後のデータ強化ポリシーを取得するステップと、を含む、データ強化ポリシーの更新方法。

【請求項2】

前記データ強化ポリシーの更新方法は、
Ｍ回目の更新された前記データ強化ポリシーを取得するステップであって、前記Ｍが１以上である、ステップと、
Ｍ回目の更新された前記データ強化ポリシー及び前記トレーニングデータに基づいて、前記第１段階トレーニング済みデータ処理モデルに対して、第２段階のトレーニングを行うステップと、
第２段階トレーニング済みデータ強化モデルに基づいて、前記データ強化ポリシーに対してＭ＋１回目の更新を行うステップと、をさらに含む
請求項１に記載のデータ強化ポリシーの更新方法。

【請求項3】

前記初期のデータ強化ポリシーの数が複数であり、各前記データ強化ポリシーの更新が並行して実行され、前記データ強化ポリシーの更新方法は、
予め設定された更新回数ごとに、前記第２段階トレーニング済みデータ処理モデルに基づいて、更新後の各前記データ強化ポリシーから最適なデータ強化ポリシーを選択するステップと、
更新後の前記データ強化ポリシーにおいて、前記最適なポリシー以外の各前記データ強化ポリシーを前記最適なデータ強化ポリシーにそれぞれ置き換えるステップと、をさらに含むことを特徴とする
請求項２に記載のデータ強化ポリシーの更新方法。

【請求項4】

前記データ強化ポリシーには、複数の予め設定されたデータ強化操作が含まれ、前記データ強化ポリシー及び予め設定されたトレーニングデータに基づいて、予め設定された第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行うステップは、
各前記データ強化操作に従って、前記トレーニングデータに対してデータ強化を順次行うステップと、
データ強化後の前記トレーニングデータにより、前記第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行うステップと、を含むことを特徴とする
請求項１－３のいずれか一項に記載のデータ強化ポリシーの更新方法。

【請求項5】

前記第２段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新するステップは、
前記第２段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新するステップと、
更新後の前記ポリシーモデルにより、予め設定された各ポリシーの選択確率を確定するステップと、
前記予め設定された各ポリシーの選択確率に従って、前記予め設定された各ポリシーから更新後の前記データ強化ポリシーを選択するステップと、を含むことを特徴とする
請求項１－３のいずれか一項に記載のデータ強化ポリシーの更新方法。

【請求項6】

【請求項7】

前記履歴検証結果と前記検証結果に基づいて、前記ポリシーモデルを更新するステップは、
前記履歴検証結果の平均値を確定するステップと、
前記検証結果と前記平均値との差を確定するステップと、
前記差に基づいて、前記ポリシーモデルにおけるポリシーパラメータを更新するステップと、を含むことを特徴とする
請求項６に記載のデータ強化ポリシーの更新方法。

【請求項8】

前記初期のデータ強化ポリシーを取得するステップの前に、前記データ強化ポリシーの更新方法は、
予め設定された各ポリシーから、前記第１段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択するステップと、
前記第１段階のトレーニングにおけるデータ強化ポリシーと前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第１段階のトレーニングを行うステップと、をさらに含むことを特徴とする
請求項１－３のいずれか一項に記載のデータ強化ポリシーの更新方法。

【請求項9】

データ処理方法であって、
処理待ちデータを取得するステップと、
予めトレーニングされたデータ処理モデルにより、前記処理待ちデータを処理するステップであって、前記データ処理モデルは、第１段階のトレーニングと第２段階のトレーニングが順次行われ、前記データ処理モデルは、前記第２のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータによりトレーニングされ、前記データ強化ポリシーは請求項１－８のいずれか一項に記載のデータ強化ポリシーの更新方法を使用して生成される、ステップと、を含む、データ処理方法。

【請求項10】

前記データ処理方法は、
前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第１段階のトレーニングを行うステップと、
前記データ強化ポリシーにより、前記トレーニングデータに対してデータ強化を行うステップと、
データ強化後の前記トレーニングデータに基づいて、前記第１段階トレーニング済みデータ処理モデルに対して前記第２段階のトレーニングを行うステップと、をさらに含むことを特徴とする
請求項９に記載のデータ処理方法。

【請求項11】

前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第１段階のトレーニングを行うステップは、
予め設定された各ポリシーから、前記第１段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択するステップと、
前記第１段階のトレーニングにおけるデータ強化ポリシーと前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第１段階のトレーニングを行うステップと、を含むことを特徴とする
請求項１０に記載のデータ処理方法。

【請求項12】

前記処理待ちデータと前記トレーニングデータは、画像データ又はテキストデータであることを特徴とする
請求項９－１１のいずれか一項に記載のデータ処理方法。

【請求項13】

データ強化ポリシー更新装置であって、
初期のデータ強化ポリシーを取得するように構成される取得部と、
前記データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行うように構成されるトレーニング部と、
第２段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新し、更新後の前記データ強化ポリシーを取得するように構成される更新部と、を備える、データ強化ポリシー更新装置。

【請求項14】

データ処理装置であって、
処理待ちデータを取得するように構成される取得部と、
予めトレーニングされたデータ処理モデルにより、前記処理待ちデータを処理するように構成される処理部であって、前記データ処理モデルは、第１段階のトレーニングと第２段階のトレーニングが順次行われ、前記データ処理モデルは、前記第２のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータによりトレーニングされ、前記データ強化ポリシーは請求項１－８のいずれか一項に記載の更新方法を使用して生成される、処理部と、を備える、データ処理装置。

【請求項15】

プログラム命令を記憶するメモリと、
前記メモリに記憶された前記プログラムコマンドを呼び出して請求項１－８のいずれか一項又は請求項９－１２のいずれか一項に記載の方法を実行するプロセッサと、を備える、電子デバイス。

【請求項16】

コンピュータに、請求項１－８のいずれか一項又は請求項９－１２のいずれか一項に記載の方法を実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。

【請求項17】

電子デバイスで実行される場合、前記電子デバイスでのプロセッサに、請求項１－８のいずれか一項又は請求項９－１２のいずれか一項に記載の方法を実行させるためのコンピュータ可読コードを含む、コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願への相互参照）
本開示は、出願番号が２０２０１０５１９５０７．３で、出願日が２０２０年６月９日である中国特許に基づいて提案され、当該中国特許出願の優先権を主張し、当該中国特許の全ての内容がここで参照により本開示に組み込まれる。

【0002】

本開示の実施例は、機械学習分野に関し、データ強化ポリシーの更新方法、装置、デバイス及び記憶媒体に関する。

【背景技術】

【0003】

深層学習技術の適用効果は、大量のトレーニングデータに依存しており、限られた数のトレーニングデータでトレーニングされたデータ処理モデルは、通常、過剰適合現象が発生する。データ処理モデルのトレーニング効果を高め、モデルトレーニングに必要な人員を削減するために、自動データ強化技術は、トレーニングデータのデータ量及び多様性を高めるために徐々に使用されている。

【0004】

自動データ強化技術とは、自動機械学習技術によりデータ強化プロセスを自動化することを指し、したがって、１つの適切なデータ強化ポリシーを見つけることが非常に重要である。通常、データ処理モデルのトレーニング効果に基づいて、強化学習アルゴリズムによりデータ強化ポリシーを最適化することができる。

【0005】

トレーニングデータの規模が通常、大きく、かつデータ処理モデルのトレーニングにも時間がかかるため、データ強化ポリシーの生成効率を向上させる必要がある。

【発明の概要】

【課題を解決するための手段】

【0006】

本開示の実施例は、データ強化ポリシーの更新方法、装置、デバイス及び記憶媒体を提供する。

【0007】

第１の態様では、本開示の実施例によるデータ強化ポリシーの更新方法は、
初期のデータ強化ポリシーを取得するステップと、
前記データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第１段階トレーニング済みデータ処理モデルに対して、第２段階のトレーニングを行うステップと、
第２段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新し、更新後の前記データ強化ポリシーを取得するステップと、を含む。

【0008】

１つの可能な実施形態では、前記データ強化ポリシーの更新方法は、
Ｍ回目の更新された前記データ強化ポリシーを取得するステップであって、前記Ｍが１以上である、ステップと、
Ｍ回目の更新された前記データ強化ポリシー及び前記トレーニングデータに基づいて、前記第１段階トレーニング済みデータ処理モデルに対して、第２段階のトレーニングを行うステップと、
第２段階トレーニング済みデータ強化モデルに基づいて、前記データ強化ポリシーに対してＭ＋１回目の更新を行うステップと、をさらに含む。

【0009】

１つの可能な実施形態では、前記初期のデータ強化ポリシーの数が複数であり、各前記データ強化ポリシーの更新が並行して実行され、前記データ強化ポリシーの更新方法は、
予め設定された更新回数ごとに、前記第２段階トレーニング済みデータ処理モデルに基づいて、更新後の各前記データ強化ポリシーから最適なポリシーを選択するステップと、
更新後の前記データ強化ポリシーにおいて、前記最適なポリシー以外の各前記データ強化ポリシーを前記最適なデータ強化ポリシーにそれぞれ置き換えるステップと、をさらに含む。

【0010】

１つの可能な実施形態では、前記データ強化ポリシーには、複数の予め設定されたデータ強化操作が含まれ、前記データ強化ポリシー及び予め設定されたトレーニングデータに基づいて、予め設定された第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行うステップは、
各前記データ強化操作に従って、前記トレーニングデータに対してデータ強化を順次行うステップと、
データ強化後の前記トレーニングデータにより、前記第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行うステップと、を含む。

【0011】

１つの可能な実施形態では、第２段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新するステップは、
前記第２段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新するステップと、
更新後の前記ポリシーモデルにより、予め設定された各ポリシーの選択確率を確定するステップと、
前記予め設定された各ポリシーの選択確率に従って、前記予め設定された各ポリシーから更新後の前記データ強化ポリシーを選択するステップと、を含む。

【0012】

１つの可能な実施形態では、前記データ強化ポリシーの更新回数が複数回である場合、第２段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新するステップは、
予め設定された検証データに基づいて、前記第２段階トレーニング済みデータ処理モデルを検証し、検証結果を取得するステップと、
前記データ強化ポリシーの前のＮ－１回の更新における前記第２段階トレーニング済みデータ処理モデルの履歴検証結果を取得するステップであって、前記Ｎが前記データ強化ポリシーの現在の更新の総回数である、ステップと、
前記履歴検証結果と前記検証結果に基づいて、前記ポリシーモデルを更新するステップと、を含む。

【0013】

１つの可能な実施形態では、前記履歴検証結果と前記検証結果に基づいて、前記ポリシーモデルを更新するステップは、
前記履歴検証結果の平均値を確定するステップと、
前記検証結果と前記平均値との差を確定するステップと、
前記差に基づいて、前記ポリシーモデルにおけるポリシーパラメータを更新するステップと、を含む。

【0014】

１つの可能な実施形態では、初期のデータ強化ポリシーを取得するステップの前に、前記データ強化ポリシーの更新方法は、
予め設定された各ポリシーから、前記第１段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択するステップと、
前記第１段階のトレーニングにおけるデータ強化ポリシーと前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第１段階のトレーニングを行うステップと、をさらに含む。

【0015】

第２の態様では、本開示の実施例によるデータ処理方法は、
処理待ちデータを取得するステップと、
予めトレーニングされたデータ処理モデルにより、前記処理待ちデータを処理するステップであって、前記データ処理モデルが、第１段階のトレーニングと第２段階のトレーニングが順次行われ、前記データ処理モデルは、前記第２のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータによりトレーニングされ、前記データ強化ポリシーが第１の態様又は第１の態様の各可能な実施形態で記載された方法を使用して生成される、ステップと、を含む。

【0016】

１つの可能な実施形態では、前記データ処理方法は、
前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第１段階のトレーニングを行うステップと、
前記データ強化ポリシーにより、前記トレーニングデータに対してデータ強化を行うステップと、
データ強化後の前記トレーニングデータに基づいて、前記第１段階トレーニング済みデータ処理モデルに対して前記第２段階のトレーニングを行うステップと、をさらに含む。

【0017】

１つの可能な実施形態では、前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第１段階のトレーニングを行うステップは、
予め設定された各ポリシーから、前記第１段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択するステップと、
前記第１段階のトレーニングにおけるデータ強化ポリシーと前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第１段階のトレーニングを行うステップと、を含む。

【0018】

１つの可能な実施形態では、前記処理待ちデータ及び前記トレーニングデータは、画像データ又はテキストデータである。

【0019】

第３の態様では、本開示の実施例によるデータ強化ポリシー更新装置は、
初期のデータ強化ポリシーを取得するように構成される取得部と、
前記データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第１段階トレーニング済みデータ処理モデルに対して、第２段階のトレーニングを行うように構成されるトレーニング部と、
第２段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新し、更新後の前記データ強化ポリシーを取得するように構成される更新部と、を備える。

【0020】

第４の態様では、本開示の実施例によるデータ処理装置は、
処理待ちデータを取得するように構成される取得部と、
予めトレーニングされたデータ処理モデルにより、前記処理待ちデータを処理するように構成される処理部であって、前記データ処理モデルが、第１段階のトレーニングと第２段階のトレーニングが順次行われ、前記データ処理モデルは、前記第２のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータによりトレーニングされ、前記データ強化ポリシーが第１の態様又は第１の態様の各可能な実施形態で記載された方法を使用して生成される、処理部と、を備える。

【0021】

第５の態様では、本開示の実施例による電子デバイスは、
プログラム命令を記憶するメモリと、
前記メモリでの前記プログラム命令を呼び出して第１の態様、第１の態様の各可能な実施形態、第２の態様、又は第２の態様の各可能な実施形態で記載される方法を実行するプロセッサと、を備える。

【0022】

第６の態様では、本開示の実施例によるコンピュータ可読記憶媒体は、コンピュータに、第１の態様、第１の態様の各可能な実施形態、第２の態様、又は第２の態様の各可能な実施形態で記載される方法を実行させるためのコンピュータプログラムを記憶する。

【0023】

第７の態様では、本開示の実施例によるコンピュータプログラムは、電子デバイスで実行される場合、前記電子デバイスでのプロセッサに、第１の態様、第１の態様の各可能な実施形態、第２の態様、又は第２の態様の各可能な実施形態で記載される方法を実行させるためのコンピュータ可読コードを含む。

【0024】

本開示の実施例によるデータ強化ポリシーの更新方法では、データ処理モデルのトレーニング段階は、第１段階と第２段階の前後２段階に分けられ、データ強化ポリシーを更新するときに、データ強化ポリシー及びトレーニングデータに基づいて、第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行い、第２段階トレーニング済みデータ処理モデルに基づいてデータ強化ポリシーを更新し、これにより、データ強化ポリシーの更新プロセスにはデータ処理モデルを初めからトレーニングする必要がなく、データ強化ポリシーの品質が確保され、同時にデータ強化ポリシーの生成効率が向上する。また、生成されたデータ強化ポリシーは、トレーニングデータの同じタイプのデータに適用でき、遷移可能性を持っている。

【0025】

以上の一般的な説明及び以下の詳細な説明が例示的及び解釈的なものだけであり、本開示を制限するものではないことを理解すべきである。

【図面の簡単な説明】

【0026】

【図1】データ強化と画像分類モデルのトレーニング効果との関係の一例を示す図である。

【図2】本開示の一実施例によるネットワークアーキテクチャを示す図である。

【図3】本開示の一実施例によるデータ強化ポリシーの更新方法のフローチャートである。

【図4】本開示の別の実施例によるデータ強化ポリシーの更新方法のフローチャートである。

【図5】本開示の別の実施例によるデータ強化ポリシーの更新方法のフローチャートである。

【図6】本開示の別の実施例によるデータ強化ポリシーの更新方法のフローチャートである。

【図7】本開示の別の実施例による複数のデータ強化ポリシーの並行更新の一例を示す図である。

【図8】本開示の一実施例によるデータ処理方法のフローチャートである。

【図9】本開示の一実施例によるデータ強化ポリシー更新装置の構造図である。

【図10】本開示の一実施例によるデータ処理装置の構造図である。

【図11】本開示の一実施例による電子デバイスの構造図である。

【図12】本実施例によるデータ強化ポリシー更新装置のブロック図である。

【発明を実施するための形態】

【0027】

ここでの添付図面は、本明細書に組み込まれて本明細書の一部を構成し、本開示に一致する実施例を示し、且つ明細書と共に本開示の原理を解釈することに用いられる。

【0028】

本開示の明確な実施例は、上記の添付図面で示されているが、以下により詳細に説明される。これらの図面及び文字説明は、いかなる方式で本開示の考え範囲を限定するためのものではなく、特定の実施例を参照して当業者に対して本開示の概念を説明するためのものである。

【0029】

ここで例示的実施例を詳しく説明し、その例を添付の図面に示す。以下の説明が図面に関わる場合、特に明記しない限り、異なる図面の同じ数字は、同じ又は類似の要素を表す。以下の例示的実施例で説明される実施形態は、本開示と一致する全ての実施形態を表すものではない。逆に、それらは添付の特許請求の範囲に詳細に記載される、本開示のいくつかの態様に一致する装置及び方法の例に過ぎない。

【0030】

まず、本開示の実施例に係る名詞について解釈する。

【0031】

第１段階のトレーニング、第２段階のトレーニングとは、データ処理モデルのトレーニングの総回数に従って、データ処理モデルのトレーニングを第１段階のトレーニングと第２段階のトレーニングに順番で分けることを指す。例えば、データ処理モデルのトレーニングの総回数が３００回に予め設定されている場合、前の１００回のトレーニングを第１段階のトレーニングと呼び、最後の２００回のトレーニングを第２段階のトレーニングと呼ぶことができる。ここで、第１段階のトレーニングのトレーニング回数と第２段階のトレーニングのトレーニング回数は制限されない。

【0032】

データ強化操作とは、トレーニングデータのデータ量及び多様性を高めるために、トレーニングデータを微調整するという操作を指す。例えば、画像データを例とすると、画像データに対してサイズ、色の調整を行う。

【0033】

データ強化ポリシーとは、トレーニングデータに対してデータ強化を行うスキームを指す。ここで、データ強化ポリシーには、データ強化操作が含まれる。例えば、データ強化ポリシーにおけるデータ強化操作は、画像水平トリミングであり、画像水平トリミングに対応するトリミング振幅が０．１幅であり、即ち毎回の画像水平トリミングの幅が画像の元の幅の１０％である。

【0034】

深層学習技術は、複数の分野で広く使用されており、著しい成果を得る。画像ビジョン分野を例とすると、深層学習技術は、画像分類、ターゲット検出、画像分割、人体姿態推定などのタスクを実行することができる。これらのタスクをうまく完了するために、深層学習技術によるデータ処理モデルは、通常、大量のトレーニングデータでトレーニングされる必要があり、そうでない場合、トレーニングされたモデルは、過剰適合現象が発生する。したがって、データ強化は、トレーニングデータのデータ量及び多様性を増やすための一般的な方式になり、適切なデータ強化ポリシーを設計することは、データ処理モデルのトレーニング効果を高める重要な要素になる。

【0035】

一般的には、データ強化ポリシーは、専門家によって手動で設計されてもよいが、この方式は、時間コスト及び人件費が高いだけでなく、データ強化ポリシーの再利用性も低く、通常、特定のデータ処理モデルのトレーニングのみに適用する。データ強化ポリシーを自動的に生成する方式は、専門家によるデータ強化ポリシーの手動設計と比較して、データ強化ポリシーの生成効率を向上させることができるだけでなく、より良いデータ強化ポリシーを生成することができる。

【0036】

一般的には、データ強化ポリシーを自動的に生成する方式では、データ処理モデルのトレーニング効果に基づいて、強化学習アルゴリズムによりデータ強化ポリシーを最適化することができる。発明者は、この方法において、データ処理モデルのトレーニングプロセス全体を継続的に繰り返す必要があり、さらに、トレーニングデータの規模が小さくなく、全体の計算量が多く、時間がかかるため、データ強化ポリシーの生成効率が高くないことを発見した。

【0037】

深層学習技術では、データ処理モデルの過剰適合は、通常、後期トレーニング段階で発生する。したがって、発明者は、データ強化によるデータ処理モデルのトレーニング効果の向上が主にデータ処理モデルの後期トレーニング段階で発生することを推測する。データ強化ポリシーの生成効率を向上させ、当該データ強化ポリシーに基づいてトレーニングされたデータ処理モデルのトレーニング効果を確保するために、本発明者は、上記の推測を検証するために、データ強化ポリシーに基づくモデルトレーニングプロセスを徹底的に研究した。

【0038】

データ処理モデルが画像分類モデルであり、かつ画像分類モデルのトレーニングの総回数が３００回であることを例とすると、本発明者は、図１に示す結果を得る。図１はデータ強化と画像分類モデルのトレーニング効果との関係を示している。横座標は、画像分類モデルの３００回のトレーニングにおけるデータ強化ラウンド数であり、縦座標は、３００回のトレーニングが行われた後の画像分類モデルの分類精度である。点線は、トレーニング後期のデータ強化ラウンド数と画像分類モデルの分類精度との関係であり、実線は、トレーニング前期のデータ強化ラウンド数と画像分類モデルの分類精度との関係である。

【0039】

ここで、トレーニング後期のデータ強化ラウンド数は、画像分類モデルの最後のトレーニングから前へ継続的に計算され、例えば、トレーニング後期のデータ強化ラウンド数が５０であると、画像分類モデルの後の５０回のトレーニングでデータ強化を行うことを示す。トレーニング前期のデータ強化ラウンド数は、画像分類モデルの１回目のトレーニングから後へ継続的に計算され、例えば、トレーニング前期のデータ強化ラウンド数が５０であると、画像分類モデルの前の５０回のトレーニングでデータ強化を行うことを示す。

【0040】

図１からわかるように、１、データ強化ラウンド数が一致している場合、点線は、常に実線の上にあり、したがって、データ強化ラウンド数が一致している場合、トレーニング後期でデータ強化を行って取得された画像分類モデルの分類精度がトレーニング前期でデータ強化を行って取得された画像分類モデルの分類精度よりも高い。２、画像分類モデルの分類精度が一致している場合、点線は、常に実線の左側にあり、したがって、画像分類モデルの分類精度が一致している場合、トレーニング後期でデータ強化を行うために必要なデータ強化ラウンド数は、トレーニング前期でデータ強化を行うために必要なデータ強化ラウンド数よりも少ない。なお、実線及び点線上の１番目のポイントは、すべてデータ強化のラウンド数が０であることを示し、実線及び点線上の最後のポイントは、すべてデータ強化のラウンド数が３００であることを示し、したがって、上記の比較プロセスでは、これらの４つのポイントが考慮されていない。

【0041】

発明者の上記発見に基づき、本開示の実施例によるデータ強化ポリシーの更新方法では、初期のデータ強化ポリシーを取得し、データ強化ポリシー及びトレーニングデータに基づいて、予め設定された第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行い、第２段階トレーニング済みデータ処理モデルに基づいて、データ強化ポリシーを更新し、これにより、データ強化ポリシーモデルを更新するプロセスにおいて、データ処理モデルに対して第２段階のトレーニングを行うだけでよく、データ強化ポリシーの品質が確保されるだけでなく、データ強化ポリシーの生成効率が向上する。

【0042】

本開示の実施例によるデータ強化ポリシーの更新方法は、図２に示すネットワークアーキテクチャに適用できる。図２に示すように、当該ネットワークアーキテクチャは、少なくとも端末デバイス２０１又はサーバー２０２を含み、端末デバイス２０１上に第１段階トレーニング済みデータ処理モデルを記憶し、データ処理モデルへの第２段階のトレーニング及びデータ強化ポリシーの更新を行うことができ、サーバー２０２上に第１段階トレーニング済みデータ処理モデルを記憶し、データ処理モデルへの第２段階のトレーニング及びデータ強化ポリシーの更新を行うこともでき、端末デバイス２０１上に第１段階トレーニング済みデータ処理モデルを記憶し、サーバー２０２上でデータ処理モデルへの第２段階のトレーニング及びデータ強化ポリシーの更新を行い、又は、サーバー２０２上に第１段階トレーニング済みデータ処理モデルを記憶し、端末デバイス２０１上でデータ処理モデルへの第２段階のトレーニング及びデータ強化ポリシーの更新を行うこともできる。

【0043】

上記端末デバイスは、コンピュータ、タブレットコンピュータ、スマートフォンなどのデバイスであってもよく、上記サーバーは、単一のサーバー又は複数のサーバーからなるサーバー群であってもよい。

【0044】

以下、本開示の実施例の技術的解決策、及び本開示の技術的解決策が上記の技術的問題をどのように解決するかを詳細に説明する。以下のいくつかの実施例は、互いに組み合わせられてもよく、同じ又は類似の概念又はプロセスについては、いくつかの実施例では説明しない。以下、添付図面を参照しながら本開示の実施例を説明する。

【0045】

図３は本開示の一実施例によるデータ強化ポリシーの更新方法のフローチャートである。図３に示すように、当該方法は、以下のステップを含む。

【0046】

Ｓ３０１において、初期のデータ強化ポリシーを取得する。

【0047】

１つの可能な実施形態では、Ｓ３０１において予め設定された各データ強化ポリシーから、初期のデータ強化ポリシーを取得することができる。ここで、予め設定された各データ強化ポリシーと現在の使用されているデータ強化ポリシーとを区別するために、説明上、予め設定された各データ強化ポリシーをそれぞれの予め設定されたポリシーと略称し、現在の採用されているデータ強化ポリシーをデータ強化ポリシーと略称する。

【0048】

１つの可能な実施形態では、予め設定された各データ強化ポリシーから初期のデータ強化ポリシーを取得する以外、ユーザが初期のデータ強化ポリシーを予め設定することにより、当該設定されたデータ強化ポリシーを直接取得することができる。又は、予め設定された各データ強化操作から初期のデータ強化操作を取得し、さらに初期のデータ強化ポリシーを取得することができる。

【0049】

Ｓ３０２において、データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第１段階トレーニング済みデータ処理モデルに対して、第２段階のトレーニングを行う。

【0050】

ここで、データ処理モデルに対して第１段階のトレーニングを予め行い、第１段階トレーニング済みデータ処理モデルを取得することができる。トレーニングデータを予め収集することができ、トレーニングデータは、データベースの形態で記憶されてもよい。

【0051】

１つの可能な実施形態では、初期のデータ強化ポリシーが取得された後、データ強化ポリシーにより、トレーニングデータに対してデータ強化を行うことができ、データ強化後のトレーニングデータにより、第１段階トレーニング済みデータ処理モデルに対して第２段階トレーニングを行い、第２段階トレーニング済みデータ処理モデルを取得し、それによってデータ処理モデルへの後期トレーニングでトレーニングデータに対してデータ強化を行い、データ強化ポリシーがデータ処理モデルへの後期トレーニングにより大きな影響を与えるという特徴を十分に利用する。

【0052】

ここで、データ処理モデルに使用されるトレーニングアルゴリズムは制限されない。

【0053】

Ｓ３０３において、第２段階トレーニング済みデータ処理モデルに基づいて、データ強化ポリシーを更新する。

【0054】

１つの可能な実施形態では、データ処理モデルは、第１段階のトレーニング及び第２段階のトレーニングが行われた後、そのトレーニングプロセスが完了され、トレーニングされた処理モデルが取得される。したがって、第２段階トレーニング済みデータ処理モデルのトレーニング効果を検証し、検証結果を取得することができる。例えば、データ処理モデルのタスクが画像分類タスクである場合、データ処理モデルの検証結果は、データ処理モデルの画像分類の精度である。

【0055】

１つの可能な実施形態では、データ処理モデルの検証結果が得られると、データ強化ポリシーによりトレーニングデータへのデータ強化を行う場合、データ強化後のトレーニングデータに基づいてトレーニングされたデータ処理モデルのトレーニング効果を理解することができ、これにより、データ処理モデルの検証結果は、データ強化ポリシーの品質を示すことがわかる。例えば、データ処理モデルの画像分類の精度が高いほど、データ強化ポリシーの品質が良くなることを表す。したがって、データ処理モデルの検証結果に基づいて、データ強化ポリシーを更新することができる。データ強化ポリシーを更新するプロセスでは、ポリシー更新スペースにおける予め設定されたポリシーを更新後のデータ強化ポリシーとして取得することができる。

【0056】

本開示の実施例では、初期のデータ強化ポリシー及びトレーニングデータにより、第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行い、第２段階トレーニング済みデータ処理モデルに基づいてデータ強化ポリシーを更新し、データ強化ポリシーがデータ処理モデルへの後期トレーニングにより大きな影響を与えるという特徴を十分に利用し、データ強化ポリシーの品質を確保しながらデータ強化ポリシーの生成効率を向上させる。

【0057】

図４は本開示の別の実施例によるデータ強化ポリシーの更新方法のフローチャートである。図４に示すように、当該方法は、以下のステップを含む。

【0058】

Ｓ４０１において、初期のデータ強化ポリシーを取得する。

【0059】

１つの可能な実施形態では、予め設定された各ポリシーから、初期のデータ強化ポリシーを取得することができる。予め設定された各データ強化ポリシーから初期のデータ強化ポリシーを取得する以外、ユーザが初期のデータ強化ポリシーを予め設定することにより、当該設定されたデータ強化ポリシーを直接取得することができる。又は、予め設定された各データ強化操作から初期のデータ強化操作を取得し、さらに初期のデータ強化ポリシーを取得することができる。

【0060】

１つの可能な実施形態では、データ強化ポリシーには、データ強化ポリシーの品質を向上させるために、複数の予め設定されたデータ強化操作が含まれる。その後、第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行う場合、データ強化ポリシーにおける各データ強化操作に従って、トレーニングデータに対してデータ強化を順次行い、データ強化後のトレーニングデータにより、第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行うことができる。

【0061】

トレーニングデータが画像データであることを例とすると、表１に示す各データ強化操作及び各データ強化操作に対応する各操作振幅を予め設定することができる。図１におけるデータ強化操作のタイプは合計１４種類であり、その中の１１種類のデータ強化操作にはそれぞれ３種類の操作振幅が設定され、他の３種類のデータ強化操作には操作振幅を設定する必要がなく、異なる操作振幅の同じ種類のデータ強化操作を異なるデータ強化操作として扱うことができ、したがって、表１には合計３６つのデータ強化操作がある。データ強化ポリシーに２つのデータ強化操作が含まれる場合、表１のデータ強化操作を組み合わせて、３６×３６つのデータ強化ポリシーを取得することができる。したがって、表１に表１によると、３６×３６つの予め設定されたポリシーを設定することができる。

【0062】

【表1】

【0063】

Ｓ４０２において、データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第１段階トレーニング済みデータ処理モデルに対して、第２段階のトレーニングを行う。

【0064】

【0065】

Ｓ４０３において、第２段階トレーニング済みデータ処理モデルに基づいて、データ強化ポリシーを更新する。

【0066】

１つの可能な実施形態では、データ処理モデルは、第１段階のトレーニング及び第２段階のトレーニングが行われた後、そのトレーニングプロセスが完了され、トレーニングされた処理モデルが取得される。したがって、第２段階トレーニング済みデータ処理モデルのトレーニング効果を検証し、検証結果を取得することができる。

【0067】

１つの可能な実施形態では、データ処理モデルの検証結果が得られると、データ強化ポリシーによりトレーニングデータへのデータ強化を行う場合、データ強化後のトレーニングデータに基づいてトレーニングされたデータ処理モデルのトレーニング効果を理解することができ、これにより、データ処理モデルの検証結果は、現在の使用されているデータ強化ポリシーの品質を示すことがわかる。したがって、データ処理モデルの検証結果に基づいて、データ強化ポリシーを更新することができる。データ強化ポリシーを更新するプロセスでは、ポリシー更新スペースにおける予め設定されたポリシーを更新後のデータ強化ポリシーとして取得することができる。

【0068】

Ｓ４０４において、更新後のデータ強化ポリシーが予め設定された条件を満たしているか否かを確定する。

【0069】

１つの可能な実施形態では、更新後のデータ強化ポリシーが予め設定された条件を満たしている場合、ステップＳ４０６を実行し、更新後のデータ強化ポリシーが予め設定された条件を満たしていない場合、Ｓ４０５を実行する。

【0070】

Ｓ４０５において、初期のデータ強化ポリシーを更新後のデータ強化ポリシーとして更新する。

【0071】

１つの可能な実施形態では、初期のデータ強化ポリシーを更新後のデータ強化ポリシーとして更新し、即ち現在の使用されているデータ強化ポリシーを更新後のデータ強化ポリシーとして更新し、ステップＳ４０２にスキップして、データ強化ポリシーを複数回更新する。

【0072】

Ｓ４０６において、最終的なデータ強化ポリシーを取得する。

【0073】

１つの可能な実施形態では、更新後のデータ強化ポリシーが予め設定された条件を満たしている場合、データ強化ポリシーの更新を停止し、すべての更新プロセスにおいて第２段階トレーニング済みデータ処理モデルの検証結果が最も高いものを選択した場合、使用されているデータ強化ポリシーは、最終的なデータ強化ポリシーとして使用され、これにより、データ強化ポリシーの品質を効果的に向上させる。

【0074】

１つの可能な実施形態では、Ｍ回目の更新されたデータ強化ポリシーを取得し、Ｍが１以上であり、Ｍ回目の更新されたデータ強化ポリシー及びトレーニングデータに基づいて、第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行い、第２段階トレーニング済みデータ強化モデルに基づいて、データ強化ポリシーに対してＭ＋１回目の更新を行う。

【0075】

１つの可能な実施形態では、データ強化ポリシーの更新回数が予め設定された回数閾値に達するか否かを確定することにより、更新後のデータ強化ポリシーが予め設定された条件を満たしているか否かを確定することができる。更新回数が回数閾値に達する場合、更新後のデータ強化ポリシーが予め設定された条件を満たしていることを確定し、更新回数が回数閾値に達しない場合、更新後のデータ強化ポリシーが予め設定された条件を満たしていないことを確定し、これにより、更新回数により、データ強化ポリシーの更新を継続するか否かを制御し、データ強化ポリシーを常に更新することを回避する。

【0076】

１つの可能な実施形態では、データ強化ポリシーの更新回数が予め設定された回数閾値に達するか否かを確定することにより、データ強化ポリシーの継続的な更新を停止するか否かを確定する以外、第２段階トレーニング済みデータ処理モデルの検証結果が予め設定された条件を満たしているか否かを確定することにより、データ強化ポリシーの継続的な更新を停止するか否かを確定することもできる。

【0077】

ここで、データ処理モデルの検証結果と予め設定された検証閾値を比較することができ、データ処理モデルの検証結果が検証閾値よりも大きい場合、第２段階トレーニング済みデータ処理モデルが予め設定された条件を満たしていることを確定し、データ強化ポリシーを最終的なデータ強化ポリシーとして設定し、データ処理モデルの検証結果が当該検証閾値以下である場合、第２段階トレーニング済みデータ処理モデルが予め設定された条件を満たしていないことを確定し、データ強化ポリシーの更新を継続する。

【0078】

１つの可能な実施形態では、毎回の更新プロセスにおけるデータ強化ポリシーの数が複数であり、各データ強化ポリシーの更新が並行して実行されるため、データ強化ポリシーの生成効率を効果的に向上させる。

【0079】

１つの可能な実施形態では、予め設定された更新回数ごとに、第２段階トレーニング済みデータ処理モデルに基づいて、更新後の各データ強化ポリシーから、最適なデータ強化ポリシーを選択し、更新後のデータ強化ポリシーにおいて、更新後のデータ強化ポリシーにおいて、最適なポリシー以外の各データ強化ポリシーを最適なデータ強化ポリシーにそれぞれ置き換え、これにより、更新プロセスの収束性及びデータ強化ポリシーの生成効率が向上する。ここで、最適なデータ強化ポリシーを選択するプロセスにおいて、第２段階トレーニング済みデータ処理モデルのトレーニング効果を検証して得られた検証結果に基づいて選択する。

【0080】

１つの可能な実施形態では、トレーニングデータは、画像データ又はテキストデータであり、トレーニングデータが画像データである場合、データ処理モデルは、画像処理モデルであり、トレーニングデータがテキストデータである場合、データ処理モデルは、自然言語処理モデルである。したがって、本開示の実施例によるデータ強化ポリシーの更新方法は、画像処理分野にけるデータ強化ポリシーの生成及び自然言語分野におけるデータ強化ポリシーの生成に適用可能である。

【0081】

本開示の実施例では、初期のデータ強化ポリシー及びトレーニングデータにより、第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行い、第２段階トレーニング済みデータ処理モデルに基づいてデータ強化ポリシーを複数回更新し、データ強化ポリシーがデータ処理モデルへの後期トレーニングにより大きな影響を与えるという特徴を十分に利用し、データ強化ポリシーの品質を確保しながらデータ強化ポリシーの生成効率を向上させる。

【0082】

図５は本開示の別の実施例によるデータ強化ポリシーの更新方法のフローチャートである。図５に示すように、当該方法は、以下のステップを含む。

【0083】

Ｓ５０１において、初期のデータ強化ポリシーを取得する。

【0084】

１つの可能な実施形態では、予め設定された各ポリシーから、初期のデータ強化ポリシーを取得することができる。予め設定された各データ強化ポリシーから初期のデータ強化ポリシーを取得する以外、ユーザによって予め設定された初期のデータ強化ポリシーを直接取得することができる。又は、予め設定された各データ強化操作から初期のデータ強化操作を取得し、さらに初期のデータ強化ポリシーを取得することができる。

【0085】

１つの可能な実施形態では、予め設定された各データ強化ポリシーから初期のデータ強化ポリシーを取得する場合、予め設定された各ポリシーから１つ又は複数の予め設定されたポリシーを初期のデータ強化ポリシーとして均一かつランダムに選択することにより、初期のデータ強化ポリシーの選択の公平性が向上する。ここで、予め設定された各ポリシーから１つ又は複数の予め設定されたポリシーを均一かつランダムに選択すると、予め設定された各ポリシーの選択確率が等しいことを示す。

【0086】

１つの可能な実施形態では、予め設定された各ポリシーから複数の予め設定されたポリシーを初期のデータ強化ポリシーとして均一かつランダムに選択する場合、初期のデータ強化ポリシーが複数であることを示し、後の更新プロセスにおいて、各データ強化ポリシーを同期的に更新するため、データ強化ポリシーの生成効率が向上する。

【0087】

Ｓ５０２において、データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第１段階トレーニング済みデータ処理モデルに対して、第２段階のトレーニングを行う。

【0088】

１つの可能な実施形態では、データ強化ポリシーにおけるデータ強化操作により、トレーニングデータに対してデータ強化を行い、データ強化ポリシーに複数のデータ強化操作が含まれる場合、データ強化ポリシーにおける各データ強化操作により、トレーニングデータに対してデータ強化を順次行い、データ強化後のトレーニングデータを得る。データ強化後のトレーニングデータにより、第１段階トレーニング済みデータ処理モデルに対して２段階のトレーニングを行い、第２段階トレーニング済みデータ処理モデルを取得する。

【0089】

Ｓ５０３において、第２段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新する。

【0090】

ここで、ポリシーモデルは、パラメータ化モデルであり、そのパラメータは、予め設定されたポリシーパラメータであり、ポリシー操作を調整することにより、ポリシーモデルの出力を調整することができる。ポリシーモデルの出力は、予め設定された各ポリシーの選択確率であり、即ち、データ強化ポリシーが更新された場合、予め設定された各ポリシーが更新後のデータ強化ポリシーとして選択される確率である。したがって、ポリシーモデルは、１つの多項式分布として理解されてもよい。

【0091】

１つの可能な実施形態では、予め設定された検証データを取得することができ、検証データは、入力データと、入力データに対応するラベルデータを含む。例えば、画像データを例とすると、検証データが画像データであり、かつデータ処理モデルのタスクが画像分類タスクである場合、検証データは、入力画像と、入力画像に対応する分類ラベルとを含み、分類ラベルは、入力データのカテゴリである。

【0092】

１つの可能な実施形態では、検証データ内の入力データを第２段階トレーニング済みデータ処理モデルに入力し、データ処理モデルの出力結果を取得し、データ処理モデルの出力結果と入力データに対応するラベルデータとを比較すると、データ処理モデルの検証結果を得ることができる。ここで、データ処理モデルを検証することは、データ処理モデルのトレーニング効果を検証することを指す。例えば、画像データを例とすると、検証データが画像データであり、かつデータ処理モデルのタスクが画像分類タスクである場合、入力画像をデータ処理モデルに入力し、データ処理モデルの出力と入力画像に対応する分類ラべルとを比較すると、データ処理モデルの分類精度を取得することができる。

【0093】

１つの可能な実施形態では、データ処理モデルの検証結果が取得された後、当該検証結果に応じて、ポリシーモデルのポリシーパラメータを更新し、更新後のポリシーモデルを取得することができる。

【0094】

Ｓ５０４において、更新後のポリシーモデルにより、予め設定された各ポリシーの選択確率を確定する。

【0095】

Ｓ５０５において、予め設定された各ポリシーの選択確率に従って、予め設定された各ポリシーから更新後のデータ強化ポリシーを選択する。

【0096】

いくつかの実施形態では、更新後のポリシーモデルに従って、予め設定された各ポリシーの選択確率を新たに確定し、予め設定された各ポリシーの選択確率に従って、予め設定された各ポリシーから１つの予め設定されたポリシーを更新後のデータ強化ポリシーとして選択することができる。

【0097】

１つの可能な実施形態では、ポリシーパラメータには予め設定された各ポリシーに対応する重みが含まれ、ポリシーパラメータを更新し、即ち予め設定された各ポリシーに対応する重みを更新する。初期のデータ強化ポリシーを取得するプロセスでは、予め設定された各ポリシーのために同じ重みを設定することにより、予め設定された各ポリシーからの初期のデータ強化ポリシーの均一かつランダムな選択を実現することができる。ポリシーパラメータを更新するプロセスでは、予め設定された各ポリシーの重みに異なる変化が発生し、予め設定された各ポリシーの選択確率は、徐々に異なる。したがって、第２段階トレーニング済みデータモデルのトレーニング効果に応じて、ポリシーパラメータを調整し、ポリシーモデルに基づいて、予め設定された各ポリシーの選択確率を新たに確定し、予め設定された各ポリシーから品質がより良いデータ強化ポリシーを継続的に選択することにより、データ強化ポリシーの生成効率が向上するだけでなく、データ強化ポリシーの品質が確保される。

【0098】

１つの可能な実施形態では、ポリシーモデルは、式（１）に表されてもよい。

【0099】

【数1】

【0100】

ここで、

【0101】

【化1】

【0102】

は、自然対数の底であり、

【0103】

【化2】

【0104】

は、ポリシーパラメータにおけるｋ番目の重みであり、即ちｋ番目の予め設定されたポリシーに対応する重みであり、Ｋは、予め設定されたポリシーの総数を表し、

【0105】

【化3】

【0106】

は、ｋ番目の予め設定されたポリシーを表し、

【0107】

【化4】

【0108】

は、ｋ番目の予め設定されたポリシーの選択確率を表す。したがって、ポリシーモデルと予め設定された各ポリシーに対応する重みを含むポリシーパラメータとに基づいて、予め設定された各ポリシーの選択確率を確定することができ、ポリシーパラメータを調整することにより、予め設定された各ポリシーの選択確率を効果的に調整することができ、それによってデータ強化ポリシーの生成効率が向上するだけでなく、データ強化ポリシーの品質が確保される。

【0109】

１つの可能な実施形態では、ポリシーパラメータの更新は、式（２）に表されてもよい。

【0110】

【数2】

【0111】

ここで、

【0112】

【化5】

【0113】

は、第２段階トレーニング済みデータ処理モデルの検証結果を表し、

【0114】

【化6】

【0115】

は、第２段階トレーニング済みデータ処理モデルのモデルパラメータを表し、

【0116】

【化7】

【0117】

は、検証データを表す。

【0118】

１つの可能な実施形態では、第２段階トレーニング済みデータ処理モデルの検証結果に応じてポリシーパラメータを更新するプロセスでは、予め設定されたヒューリスティック検索アルゴリズムによりポリシーパラメータの更新を実現して、ポリシーパラメータの更新効果を向上させることができる。

【0119】

１つの可能な実施形態では、ポリシーパラメータ更新のためのヒューリスティック検索アルゴリズムが強化学習アルゴリズムである場合、ポリシーパラメータの更新は、式（３）に表されてもよい。

【0120】

【数3】

【0121】

ここで、

【0122】

【化8】

【0123】

は、ポリシーパラメータの勾配値を表し、

【0124】

【化9】

【0125】

は、強化学習アルゴリズムにおけるｎ番目の検索軌跡を表し、

【0126】

【化10】

【0127】

は、強化学習アルゴリズムにおける検索軌跡

【0128】

【化11】

【0129】

が検索される確率を表し、Ｎは、強化学習アルゴリズムにおける検索軌跡の数を表し、

【0130】

【化12】

【0131】

は、第２段階トレーニング済みデータ処理モデルの検証結果の期待値を表す。

【0132】

ここで、強化学習アルゴリズムによりポリシーパラメータを更新するプロセスでは、ポリシーパラメータの勾配値

【0133】

【化13】

【0134】

に強化学習アルゴリズムにおける予め設定された学習率を掛けて積を取得し、その積をポリシーパラメータに追加して、更新後のポリシーパラメータを取得することができる。例えば、Ａｄａｍ（ａｄａｐｔｉｖｅｍｏｍｅｎｔｅｓｔｉｍａｔｉｏｎ：適応モーメント推定）アルゴリズムを強化学習アルゴリズムとして使用する場合、Ａｄａｍの学習率は、

【0135】

【化14】

【0136】

に設定されてもよい。

【0137】

１つの可能な実施形態では、データ強化測定及びトレーニングデータに基づいて、第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行うプロセスでは、第２段階のトレーニングによって取得されたデータ処理モデルのモデルパラメータは、式（４）に表されてもよい。

【0138】

【数4】

【0139】

ここで、xは、トレーニングデータ内の入力データを表し、ｙは、トレーニングデータのうち、ｘに対応するラべルデータを表し、

【0140】

【化15】

【0141】

は、ｘに対してデータ強化を行うことを表し、

【0142】

【化16】

【0143】

は、予め設定された損失関数を表し、

【0144】

【化17】

【0145】

は、ポリシーモデルによって取得された確率分布に従って、予め設定された各ポリシーからデータ強化ポリシーを選択することを表し、

【0146】

【化18】

【0147】

は、トレーニングデータを表し、Ｚは、トレーニングデータ内の入力データｘの数を表す。

【0148】

１つの可能な実施形態では、データ処理モデルに対して第１段階のトレーニングを予め行うプロセスでは、予め設定された各ポリシーから、第１段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択し、第１段階でのデータ強化ポリシーに基づいてトレーニングデータに対してデータ強化を行い、データ強化のトレーニングデータに基づいて、データ処理モデルに対して第１段階のトレーニングを行い、これにより、第１段階のトレーニングでもトレーニングデータに対してデータ強化を行い、それによって第１段階トレーニング済みデータ処理モデルのトレーニング効果が向上する。

【0149】

１つの可能な実施形態では、第１段階トレーニング済みデータ処理モデルのモデルパラメータは、式（５）に表されてもよい。

【0150】

【数5】

【0151】

ここで、

【0152】

【化19】

【0153】

は、第１段階トレーニング済みデータ処理モデルのモデルパラメータを表し、

【0154】

【化20】

【0155】

は、均一な確率分布に従って、予め設定された各ポリシーからデータ強化ポリシーを選択することを表す。

【0156】

本開示の実施例では、データ強化ポリシーがデータ処理モデルの後期トレーニングに大きな影響を与えるという特徴を十分に利用し、データ強化ポリシー及びトレーニングデータに基づいて、第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行い、第２段階トレーニング済みデータ処理モデルに基づいて、ポリシーモデルを更新し、更新後のポリシーモデルにより、予め設定された各ポリシーの選択確率を確定し、予め設定された各ポリシーの選択確率を調整し、更新後のデータ強化ポリシーの品質を最適することにより、データ強化ポリシーの品質が高くなるだけでなく、データ強化ポリシーの生成効率が向上する。

【0157】

図６は本開示の別の実施例によるデータ強化ポリシーの更新方法のフローチャートである。図６に示すように、当該方法は、以下のステップを含む。

【0158】

Ｓ６０１において、初期のデータ強化ポリシーを取得する。

【0159】

Ｓ６０２において、データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第１段階トレーニング済みデータ処理モデルに対して、第２段階のトレーニングを行う。

【0160】

Ｓ６０３において、第２段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新する。

【0161】

１つの可能な実施形態では、第２段階トレーニング済みデータ処理モデルに基づいて、ポリシーモデルを更新するプロセスでは、検証データにより、第２段階トレーニング済みデータ処理モデルのトレーニング効果を検証し、検証結果を取得し、データ強化ポリシーの前のＮ－１回の更新における第２段階トレーニング済みデータ処理モデルの検証結果を取得する。説明を明確にするために、データ強化ポリシーの前のＮ－１回の更新における第２段階トレーニング済みデータ処理モデルの検証結果は、履歴検証結果と呼ばれ、当該検証結果及び履歴検証結果をまとめてポリシーモデルを更新し、毎回の更新プロセスにおける当該ポリシーモデル更新の安定性を確保し、さらにデータ強化ポリシーの更新効果を向上させることができる。ここで、Ｎは、データ強化ポリシーの現在の更新の総回数であり、Ｎ回目の更新は、現在の更新プロセスを指す。

【0162】

１つの可能な実施形態では、当該検証結果及び履歴検証結果をまとめて、ポリシーモデルを更新するプロセスにおいて、履歴検証結果の平均値を確定し、検証結果と当該平均値との差を確定し、差に基づいてポリシーモデルにおけるポリシーパラメータを更新し、毎回の更新プロセスにおける当該ポリシーモデルの更新の安定性を確定し、さらにデータ強化ポリシーの更新効果を向上させることができる。ポリシーパラメータの更新プロセスでは、ヒューリスティック検索アルゴリズムを使用することができるが、ここで説明を省略する。

【0163】

Ｓ６０４において、更新後のポリシーモデルにより、予め設定された各ポリシーの選択確率を確定する。

【0164】

Ｓ６０５において、予め設定された各ポリシーの選択確率に従って、予め設定された各ポリシーから更新後のデータ強化ポリシーを選択する。

【0165】

１つの可能な実施形態では、ステップＳ６０１～Ｓ６０５についてステップＳ５０１～Ｓ５０５の詳細な説明を参照することができ、ここで説明を省略する。

【0166】

Ｓ６０６において、更新後のデータ強化ポリシーが予め設定された条件を満たしているか否かを確定する。

【0167】

１つの可能な実施形態では、更新後のデータ強化ポリシーが予め設定された条件を満たしている場合、ステップＳ６０８を実行し、更新後のデータ強化ポリシーが予め設定された条件を満たしていない場合、Ｓ６０７を実行する。

【0168】

Ｓ６０７において、初期のデータ強化ポリシーを更新後のデータ強化ポリシーとして更新する。

【0169】

１つの可能な実施形態では、初期のデータ強化ポリシーを更新後のデータ強化ポリシーとして更新し、ステップＳ６０２にスキップして、データ強化ポリシーを複数回更新し、データ強化ポリシーの品質を向上させる。

【0170】

Ｓ６０８において、最終的なデータ強化ポリシーを取得する。

【0171】

１つの可能な実施形態では、更新後のデータ強化ポリシーを最終的なデータ強化ポリシーに設定する。

【0172】

１つの可能な実施形態では、データ強化ポリシーの更新回数が予め設定された回数閾値に達するか否かを確定することにより、更新後のデータ強化ポリシーが予め設定された条件を満たしているか否かを確定することができ、更新回数が回数閾値に達する場合、更新後のデータ強化ポリシーが予め設定された条件を満たしていることを確定し、更新回数が回数閾値に達しない場合、更新後のデータ強化ポリシーが予め設定された条件を満たしていないことを確定する。これにより、更新回数により、データ強化ポリシーの更新を継続するか否かを制御し、データ強化ポリシーを常に更新することを回避する。

【0173】

【0174】

１つの可能な実施形態では、データ処理モデルの検証結果と予め設定された検証閾値とを比較することができ、データ処理モデルの検証結果が検証閾値よりも大きい場合、第２段階トレーニング済みデータ処理モデルが予め設定された条件を満たしていることを示し、データ強化ポリシーを最終的なデータ強化ポリシーとして設定し、データ処理モデルの検証結果が当該検証閾値以下である場合、データ強化ポリシーの更新を継続する。

【0175】

１つの可能な実施形態では、予め設定された更新回数ごとに、第２段階トレーニング済みデータ処理モデルに基づいて、更新後の各データ強化ポリシーから、最適なデータ強化ポリシーを選択し、更新後のデータ強化ポリシーにおいて、最適なポリシー以外の各データ強化ポリシーを最適なデータ強化ポリシーにそれぞれ置き換え、これにより、更新プロセスの収束性及びデータ強化ポリシーの生成効率が向上する。ここで、最適なデータ強化プロセスを選択するプロセスにおいて、第２段階トレーニング済みデータ処理モデルのトレーニング効果を検証して得られた検証結果に基づいて選択することができる。

【0176】

例えば、図７は複数のデータ強化ポリシーの並行更新プロセスを示してる。図７に示すように、各直方体が１つのデータ強化ポリシーを表し、各立方体が１つのデータ処理モデルを表し、確率（ＡＣＣ：Ａｃｃｕｒａｃｙ）が第２段階トレーニング済みデータ処理モデルの検証結果を表し、各行は、１つのデータ強化ポリシーの更新プロセスを表し、各列は、各データ強化ポリシーの１回の更新を表す。

【0177】

図７に示すように、予め設定された各ポリシーからの１つの初期のデータ強化ポリシーを均一かつランダムに選択することができ、当該初期のデータ強化ポリシーを複数部コピーし、複数の同じ初期データ強化ポリシーを取得し、複数のデータ強化ポリシーが並行して更新され、予め設定された回数ごとに、更新後の各データ強化ポリシーから最適なデータ強化ポリシーを選択し、点線矢印で示すポリシーコピーなどの最適なデータ強化ポリシーコピーを行い、ここでのポリシーコピーは、更新後の各データ強化ポリシーにおいて、最適なデータ強化ポリシー以外の残りのデータ強化ポリシーを当該最適なデータ強化ポリシーに置き換えることである。したがって、データ強化ポリシーの複数回の更新の収束性を効果的に向上させて、品質が良いデータ強化ポリシーを取得することができる。

【0178】

図７に示すように、１回の更新プロセスでは、第１段階トレーニング済みデータ処理モデルのモデルパラメータ

【0179】

【化21】

【0180】

をデータ処理モデルにロードし、第１段階トレーニング済みデータ処理モデルを取得し、データ強化ポリシー及びトレーニングデータにより、第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行い、さらに検証データにより検証し、ＡＣＣ、即ち第２段階トレーニング済みデータ処理モデルの検証結果を取得し、当該検証結果に基づいて、データ強化ポリシーを更新し、更新後のデータ強化ポリシーを取得する。

【0181】

図７からわかるように、本開示の実施例では、複数のデータ強化ポリシーを並行して更新することができ、データ強化ポリシーの毎回の更新プロセスでは、データ処理モデルに対して第２段階のトレーニングを行うだけでよく、予め設定された更新回数ごとに、更新後の各データ強化ポリシーを現在の最適なデータ強化ポリシーに置き換え、かつポリシーパラメータ更新の計算量が少ないため、データ強化ポリシーの更新効率を効果的に高め、データ強化ポリシーの生成効率を向上させ、かつデータ強化ポリシーの品質を確保する。

【0182】

１つの実施例では、総トレーニング回数に占める第１段階のトレーニングのトレーニング回数の比率、又は総トレーニング回数に占める第２段階のトレーニングのトレーニング回数の比率を調整することで、データ強化ポリシーの生成効率を向上させることができる。

【0183】

図８は本開示の一実施例によるデータ処理方法のフローチャートである。図８に示すように、当該方法は、以下のステップを含む。

【0184】

Ｓ８０１において、処理待ちデータを取得する。

【0185】

ここで、ユーザによって入力された処理データを取得することができ、予め収集された処理待ちデータを取得することもできる。

【0186】

Ｓ８０２において、予めトレーニングされたデータ処理モデルにより、処理待ちデータを処理し、データ処理モデルが、第１段階のトレーニングと第２段階のトレーニングが順次行われ、第２のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータにより前記データ処理モデルをトレーニングする。

【0187】

ここで、データ処理モデルを予めトレーニングし、データ処理モデルのトレーニングプロセスにいて、まずデータ処理モデルに対して第１段階のトレーニングを行い、次にデータ強化ポリシー及びトレーニングデータに基づいてデータ処理モデルに対して第２段階のトレーニングを行い、これにより、データ強化ポリシーがデータ処理モデルの後期トレーニングに大きな影響を与えるという特徴を十分に利用し、データ処理モデルのデータ処理効果及びモデルトレーニング効率を向上させる。

【0188】

１つの可能な実施形態では、処理待ちデータをデータ処理モデルに入力し、データ処理モデルによって処理待ちデータを処理し、対応する処理結果を取得する。

【0189】

１つの可能な実施形態では、データ処理モデルへの第２段階のトレーニングで使用されるデータ強化ポリシーは、データ強化ポリシーの品質及び生成効率を向上させ、さらにデータ処理モデルのデータ処理効果及びモデルトレーニング効率を向上させるために、上記のいずれかの実施例によるデータ強化ポリシーの更新方法により取得されてもよい。

【0190】

１つの可能な実施形態では、データ処理モデルをトレーニングするプロセスにおいて、まずトレーニングデータにより、データ処理モデルに対して第１段階のトレーニングを行い、第１段階トレーニング済みデータ処理モデルを取得することができる。さらにデータ強化ポリシーにより、トレーニングデータに対してデータ強化を行い、データ強化後のトレーニングデータに基づいて、第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行い、トレーニングされたデータ処理モデルを取得し、これにより、データ強化ポリシーがデータ処理モデルの後期トレーニングに大きな影響を与えるという特徴を十分に利用し、データ処理モデルのデータ処理効果及びモデルトレーニング効率を向上させる。

【0191】

１つの可能な実施形態では、データ処理モデルに対して第１段階のトレーニングを行うプロセスでは、予め設定された各ポリシーから、データ強化ポリシーを第１段階のトレーニングにおけるデータ強化ポリシーとして均一かつランダムに選択することができ、選択されたデータ強化ポリシーにより、トレーニングデータに対してデータ強化を行い、データ強化後のトレーニングデータによりデータ処理モデルに対して第１段階のトレーニングを行い、これにより、データ強化ポリシーを均一かつランダムに選択し、モデルのトレーニングに費やす時間をできるだけ増やすことなく、データ処理モデルへの第１段階のトレーニング効果を高め、さらにデータ処理モデルへの全体的なトレーニング効果を向上させる。

【0192】

１つの可能な実施形態では、処理待ちデータ及びトレーニングデータは、画像データ又はテキストデータであってもよく、データ処理モデルが画像処理モデルである場合、処理待ちデータ及びトレーニングデータは、画像データであり、データ処理モデルが自然言語処理モデルである場合、処理待ちデータ及びトレーニングデータは、テキストデータであり、これにより、画像処理効果又は自然言語処理効果が向上する。

【0193】

本開示の実施例では、予めトレーニングされたデータ処理モデルにより、処理待ちデータを処理し、当該データ処理モデルのトレーニングプロセスは、第１段階のトレーニング及び第２段階のトレーニングに分けられ、第２段階のトレーニングプロセスでは、予め設定されたデータ強化ポリシーが使用されるため、データ処理モデルのデータ処理効果及びモデルトレーニング効率が向上し、さらにデータ処理効果が高くなる。

【0194】

以下、本開示の実施例における１つの実際の応用シーンでの例示的な応用について説明する。

【0195】

自動機械学習は、現在の機械学習分野の１つのホットスポット分野であり、その関連技術は、多くの分野で、モデル表現を向上させ、チューニングに必要な人員を削減するという役割を果たすことができる。画像データ強化技術は、画像処理分野でも広く使用されている。自動機械学習技術により画像データ強化プロセスを自動化することにより、データ強化のターゲット性を向上させ、不要な手動調整を減らすことができる。しかしながら、特定のタスクのデータセットで適切な強化ポリシーを見つけることは複雑であり、これは、データセットの規模が一般的に大きく、直接見つけるためのオーバーヘッドが許容できないためである。１つの共通のポリシーを見つけてそれをすべてのタスクに適用するだけの場合、モデルの向上機能は低くなる。しかしながら、既存のいくつかの自動データ強化検索技術は、一部のオーバーヘッドが依然として大きく、一部の向上効果も理想的ではない。ここで、機械学習プロセスの一部又は全部を自動化する。最も一般的なタスクは、適切なモデル構造、適切なデータ強化ポリシー、適切な損失関数、適切なオプティマイザーを自動的に見つけるなどの機械学習のパラメーターを自動的に調整することである。

【0196】

本開示の実施例によるデータ強化ポリシーの更新方法では、時間消費と評価精度との間の良好なバランスを達成することができ、即ち、通常の規模のデータセットで検索を直接実行し、安定な向上を得ることができ、かつ、複数の画像分類データセットに適用し、一定の遷移可能能力を持ち、また、各画像分類タスクに容易に組み込むこともできる。

【0197】

１つの可能な実施形態では、当該データ強化ポリシーの更新方法は、画像データ強化ポリシーの検索を含む。検索プロセスは、以下の３つのステップに分けて実行されてもよい。まず、モデルは、均一かつランダムなポリシーの下で前期のトレーニングが行われる。次にワンショット（検索ポリシー）検索段階を行い、即ち前期トレーニングの終了状態を繰り返しロードして後期トレーニングを実行し、同時に検索する。検索目標は、後期トレーニングの表現を最適化することである。最後に、検索されたポリシーを元のタスクに適用し、全体的なトレーニングを行い、最終的なモデル表現を取得する。ここで、ワンショットは１つの検索ポリシーであり、元の意図が検索スペース全体において一度に１つの「パス」をとることであり、複数回繰り返される単一のサンプリング更新として広く理解されてもよい。この方法の前期及び後期トレーニングの比率を合理的に調整することにより、検索の時間効率を大幅に向上させることができる。また、発明者は、後期トレーニングがデータ強化の影響に対してより敏感であることを観察した。したがって、実験では評価指標の安定性が損なわれることも観察されない。この方法により、所定のデータセットの下での各画像分類モデルの性能を向上させ、モデルが複数のタスクシーンでより高い性能を得ることに役立つことができる。

【0198】

本開示の実施例によるデータ強化ポリシーの更新方法は、主に以下のステップを含む。

【0199】

ステップＡにおいて、均一かつランダムなデータ強化ポリシーを使用して前期トレーニングを行う。

【0200】

１つの可能な実施形態では、当該ステップＡは、トレーニングされていない初期モデルを取得ステップと、均一かつランダムなデータ強化ポリシーの下でトレーニングし、前期トレーニングが完了されたモデルを取得するステップとを含む。ここで、ステップＡにおいて、指定された画像分類データセット、完全にトレーニングされていないモデルが入力され、前期トレーニングが完了されたモデルが出力される。

【0201】

１つの可能な実施形態では、当該ステップＡは、
トレーニングされていない初期モデルを開始点として使用するステップを含む。実験では、複数種類のモデルを選択してそれぞれ独立して実験することができる。

【0202】

前期トレーニングプロセスでは、画像は、同じ確率で様々なデータ強化が行われる。実際の実験的観察により、データ強化を実行しない場合と比較して、均一なデータ強化を実行すると、より高い効果が得られることを発見する。選択されたデータ強化操作は、公平性を確保するために、様々な自動データ強化操作であってもよい。操作リストが表１に示され、第２列は、各操作の異なる振幅値を表している。振幅値の違いを考慮すると、合計３６種類の可能なデータ強化操作がある。トレーニングするときに、２つの操作は、各ピクチャーに対して均一かつランダムに使用される。データ強化操作後のピクチャーは、モデルによって実際に得られた入力として使用される。

【0203】

前期トレーニングが完了されたモデルを後期トレーニングのために保存する。

【0204】

ステップＢにおいて、ワンショット（Ｏｎｅ－Ｓｈｏｔ）検索を行い、即ち後期トレーニングを行い、データ強化ポリシーを継続的に更新する。

【0205】

１つの可能な実施形態では、当該繰り返しトレーニングの詳細について図７を参照することができ、図７に示すように、各直方体が１つのデータ強化ポリシーを表し、各立方体が１つのデータ処理モデルを表し、正確率（ＡＣＣ：Ａｃｃｕｒａｃｙ）が第２段階トレーニング済みデータ処理モデルの検証結果を表し、各行は、１つのデータ強化ポリシーの更新プロセスを表し、各列は、各データ強化ポリシーの１回の更新を表す。

【0206】

ここで、１回の更新プロセスには、前期トレーニングが完了されたモデルをロードすることが含まれてもよい。即ち、後期トレーニングを行うたびに、モデルパラメータは、前期トレーニングが完了されたパラメータにリセットされる。現在のポリシーを使用してデータ強化を制御し、後期トレーニングを行う。現在のポリシーは、１つのパラメータ化されたモデルであり、そのパラメータは、各データ強化操作の確率を導き出すことができる。各ピクチャーに対して２回のデータ強化操作を行うため、順番関係を考慮すると、合計３６＊３６＝１２９６種類の強化方法がある。なお、ポリシーは、後期トレーニングするたびにリセットされず、検索期間全体が終了するまで更新されたままになる。後期トレーニングが完了されたモデルを取得する。このとき、モデルを評価する。画像分類を実際のタスクとして選択することにより、評価指標は、分類の正確率である。評価指標の安定性及び相対性を向上させるために、毎回の評価から過去の指数を引いた平均値をスライドさせることができる。このときのモデル評価指標を使用してポリシーを更新する。ここでは強化学習を使用して更新し、その更新の目標は、モデルの評価指標を向上させることである。

【0207】

トレーニング及び更新を数回繰り返した後、最終的なポリシーが得られる。最終的なポリシーは、所望のトレーニングプロセスに容易に追加するために、１つの短いスクリプトとして導き出されてもよい。

【0208】

ステップＣにおいて、最終的なポリシーを使用して新たにレーニングし、最終的なモデルと最終的な表現を取得する。当該ステップでは、各ピクチャーは、最終的なポリシーの制御下で（対応する確率値の下で）データ強化が行われる。当該ステップが完了された後、最終的なモデルと表現が得られる。

【0209】

本開示の実施例によるデータ強化ポリシーの更新方法は、ワンショット（Ｏｎｅ－Ｓｈｏｔ）考え方を利用し、検索効率と評価精度との間に良好なバランスを達成し、且つ同様な条件でより良好な実験効果を達成する。同時に、アルゴリズム検索の結果は、容易に導き出されてもよく、他のタスクに柔軟に使用されてもよい。

【0210】

本開示の実施例によるデータ強化ポリシーの更新方法では、画像分類タスク又は他の画像処理タスクのトレーニングプロセスにおいてデータ強化を直接行って、より良い表現及びより高い汎化性を取得することを望むことができ、高度にカスタマイズされたデータ強化ポリシーを取得するために、指定されたデータセットと指定されたモデルにおけるデータ強化ポリシーの検索を実現することができ、カスタマイズされた検索スペースと組み合わせて、より広範なタスクのデータ強化ポリシー検索を行うことができる。例えば、自然言語処理などの分野である。

【0211】

図９は本開示の一実施例によるデータ強化ポリシー更新装置の構造図である。図９に示すように、当該装置は、
初期のデータ強化ポリシーを取得するように構成される取得部９０１と、
データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第１段階トレーニング済みデータ処理モデルに対して、第２段階のトレーニングを行うように構成されるトレーニング部９０２と、
第２段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新し、更新後のデータ強化ポリシーを取得するように構成される更新部９０３と、を備える。

【0212】

１つの可能な実施形態では、更新部９０３は、さらに、
初期のデータ強化ポリシーを更新後のデータ強化ポリシーとして更新して、データ強化ポリシーを複数回更新するように構成される。

【0213】

１つの可能な実施形態では、データ強化ポリシーの数が複数であり、各データ強化ポリシーの更新が並行して実行され、更新部９０３は、さらに、
予め設定された更新回数ごとに、第２段階トレーニング済みデータ処理モデルに基づいて、更新後の各データ強化ポリシーから最適なデータ強化ポリシーを選択し、
更新後のデータ強化ポリシーにおいて、最適なポリシー以外の各データ強化ポリシーを最適なデータ強化ポリシーにそれぞれ置き換えるように構成される。

【0214】

１つの可能な実施形態では、データ強化ポリシーには予め設定された複数のデータ強化操作が含まれ、トレーニング部９０２は、さらに、
各データ強化操作に従って、トレーニングデータに対してデータ強化を順次行い、
データ強化後のトレーニングデータにより、第１段階トレーニング済みデータ処理モデルに対して２段階のトレーニングを行うように構成される。

【0215】

１つの可能な実施形態では、トレーニングデータは、画像データ又はテキストデータである。

【0216】

１つの可能な実施方式では、更新部９０３は、さらに、
第２段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新し、
更新後のポリシーモデルにより、予め設定された各ポリシーの選択確率を確定し、
予め設定された各ポリシーの選択確率に従って、予め設定された各ポリシーから更新後のデータ強化ポリシーを選択するように構成される。

【0217】

１つの可能な実施形態では、データ強化ポリシーの更新回数が複数回である場合、更新部９０３は、さらに、
予め設定された検証データに基づいて、第２段階トレーニング済みデータ処理モデルを検証し、検証結果を取得し、
データ強化ポリシーの前のＮ－１回の更新における前記第２段階トレーニング済みデータ処理モデルの履歴検証結果を取得し、Ｎがデータ強化ポリシーの現在の更新の総回数であり、
履歴検証結果と検証結果に基づいて、ポリシーモデルを更新するように構成される。

【0218】

１つの可能な実施形態では、更新部９０３は、さらに、
履歴検証結果の平均値を確定し、
検証結果と平均値との差を確定し、
差に基づいて、ポリシーモデルにおけるポリシーパラメータを更新するように構成される。

【0219】

１つの可能な実施形態では、トレーニング部９０２は、さらに、
予め設定された各ポリシーから、第１段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択し、
第１段階のトレーニングにおけるデータ強化ポリシー及びトレーニングデータに基づいて、データ処理モデルに対して第１段階のトレーニングを行うように構成される。

【0220】

図９に提供されるデータ強化ポリシー更新装置は、上記の対応する方法の実施例を実行することができ、その実施原理及び技術的効果は、類似しており、ここでは説明を省略する。

【0221】

図１０は本開示の一実施例によるデータ処理装置の構造図である。図１０に示すように、当該装置は、
処理待ちデータを取得するように構成される取得部１００１と、
予めトレーニングされたデータ処理モデルにより、処理待ちデータを処理し、データ処理モデルが、第１段階のトレーニングと第２段階のトレーニングが順次行われ、第２のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータにより前記データ処理モデルをトレーニングするように構成される処理部１００２と、を備える。

【0222】

１つの可能な実施形態では、データ強化ポリシーは、上記のいずれかの実施例に示されるデータ強化ポリシーの更新方法を使用して生成される。

【0223】

１つの可能な実施形態では、当該装置は、トレーニング部をさらに備え、トレーニング部は、さらに、
トレーニングデータに基づいて、データ処理モデルに対して第１段階のトレーニングを行い、
データ強化ポリシーにより、トレーニングデータに対してデータ強化を行い、
データ強化後のトレーニングデータに基づいて、第１段階トレーニング済みデータ処理モデルに対して２段階のトレーニングを行うように構成される。

【0224】

１つの可能な実施形態では、トレーニング部は、さらに、
予め設定された各ポリシーから、第１段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択し、
第１段階のトレーニングにおけるデータ強化ポリシー及びトレーニングデータに基づいて、データ処理モデルに対して第１段階のトレーニングを行うように構成される。

【0225】

１つの可能な実施形態では、処理待ちデータとトレーニングデータは、画像データ又はテキストデータである。

【0226】

図１０に提供されるデータ処理装置は、上記の対応する方法の実施例を実行することができ、その実施原理及び技術的効果は、類似しており、ここでは説明を省略する。

【0227】

図１１は本開示の実施例による電子デバイスの構造図である。図１１に示すように、当該電子デバイスは、プロセッサ１１０１とメモリ１１０２とを備えることができる。メモリ１１０２は、コンピュータ実行命令を記憶するように構成され、プロセッサ１１０１は、コンピュータプログラムを実行するときに、上記のいずれかの実施例の方法を実現するように構成される。

【0228】

上記プロセッサ１１０１は、中央プロセッサ（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、ネットワークプロセッサ（ＮＰ：ｎｅｔｗｏｒｋｐｒｏｃｅｓｓｏｒ）などを含む汎用プロセッサであってもよく、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、特定用途向け集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、フィールドプログラマブルゲートアレイ（ＦＰＧ：ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）又は他のプログラマブル論理デバイス、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェアコンポーネントであってもよい。上記メモリ１１０２は、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含むことができ、不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）、例えば少なくとも１つの磁気ディスクメモリを含むこともできる。

【0229】

本開示の実施例は、コンピュータ可読記憶媒体をさらに提供し、前記コンピュータ可読記憶媒体には命令が記憶されており、コンピュータで実行される場合、コンピュータに上記のいずれかの実施例の方法を実行させる。

【0230】

本開示の実施例は、プログラム製品をさらに提供し、前記プログラム製品は、コンピュータプログラムを含み、前記コンピュータプログラムは、記憶媒体に記憶され、少なくとも１つのプロセッサは、前記プログラムを前記記憶から読み取ることができ、前記少なくとも１つのプロセッサは、前記コンピュータプログラムを実行するときに上記のいずれかの実施例の方法を実現することができる。

【0231】

図１２は本実施例によるデータ強化ポリシー更新装置１２００のブロック図である。例えば、装置１２００は、サーバー又はコンピュータとして提供されてもよい。図１２を参照すると、装置１２００は、１つ又は複数のプロセッサをさらに含む処理コンポーネント、及び処理コンポーネント１２０１で実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ１２０２によって表されるメモリリソースを備える。メモリ１２０２に記憶されたアプリケーションプログラムは、それぞれが１グループの命令に対応する１つ又は複数の部分を含むことができる。また、処理コンポーネント１２０１は、上記の図３から図６のいずれかの実施例の方法を実行するための命令を実行するように構成される。

【0232】

装置１２００は、装置１２００の電源管理を実行するように構成された電源コンポーネント１２０３、装置１２００をネットワークに接続するように構成された有線又は無線ネットワークインターフェース１２０４、及び入出力（Ｉ／Ｏ）インターフェース１２０５を備えることができる。装置１２００は、例えばＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、Ｕｎｉｘ（登録商標）、Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤＴＭなどのメモリ１２０２に記憶されているオペレーティングシステムに基づいて動作することができる。

【0233】

本開示の実施例では、「少なくとも１つ」は、１つ又は複数を意味し、［複数］は、２つ又は２つ以上を意味する。「及び／又は」は、関連するオブジェクトの関連関係を記述するためのものであり、３種類の関係が存在してもよいことを示し、Ａ及び／又はＢは、Ａが単独で存在すること、ＡとＢが同時に存在すること、Ｂが単独で存在することの３つの状況を示すことができ、Ａ、Ｂは、単数形又は複数形であってもよい。文字「／」は、一般的に前後にある関連オブジェクトが「又は」の関係であることを示し、式において、文字「／」は、前後にある関連オブジェクトが「割り算」関係であることを示す。「以下の少なくとも１アイテム（個）」又はその類似の表現は、単一のアイテム（個）又は複数のアイテム（個）の任意の組み合わせを含む、これらのアイテムの任意の組み合わせを指す。例えば、ａ、ｂ又はｃの少なくとも１アイテム（個）は、ａ、ｂ、ｃ、ａ－ｂ、ａ－ｃ、ｂ－ｃ、又はａ－ｂ－ｃを示すことができ、ａ、ｂ、ｃは、単一であってもよく、複数であってもよい。

【0234】

本開示の実施例に係る様々な数字番号は、説明を容易にするために区別するためのものだけであり、本開示の実施例の範囲を限定するために使用されないことが理解可能である。

【0235】

本開示の実施例では、上記各プロセスの番号の大きさが実行順序を意味せず、各プロセスの実行順序は、その機能と内部論理で確定されるべきであり、本開示の実施例の実施プロセスのいかなる限定を構成すべきではないことが理解可能である。

【0236】

当業者は明細書を考慮及びここで開示された発明を実践した後、本開示の他の実施手段を容易に想到する。本開示の実施例は、本開示のいかなる変形、用途又は適応変更をカバーすることを意図しており、これらの変形、用途又は適応変更が本開示の一般的な原理に従い且つ本開示に開示されていない本技術分野における公知常識又は一般的な技術的手段を含む。明細書及び実施例は、単に例示的なものとして見なされるが、本開示の真の範囲と精神は、以下の特許請求の範囲によって示される。

【0237】

開示は、以上に説明され且つ添付図面に示された正確な構造に限定されず、且つその範囲から逸脱することなく様々な修正及び変更を行うことができることが理解すべきである。本開示の範囲は添付の特許請求の範囲のみによって制限される。

【産業上の利用可能性】

【0238】

本開示の実施例は、初期のデータ強化ポリシー及びトレーニングデータにより、第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行い、第２段階トレーニング済みデータ処理モデルに基づいて、データ強化ポリシーを更新する。このように、データ強化ポリシーがデータ処理モデルへの後期トレーニングにより大きな影響を与えるという特徴を十分に利用し、データ強化ポリシーの品質を確保しながらデータ強化ポリシーの生成効率を向上させることができる。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【手続補正書】

【提出日】2021-11-22

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

前記データ強化ポリシーの更新回数が複数回である場合、第２段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新するステップは、
予め設定された検証データに基づいて、前記第２段階トレーニング済みデータ処理モデルを検証し、検証結果を取得するステップと、
前記データ強化ポリシーの前のＮ－１回の更新における前記第２段階トレーニング済みデータ処理モデルの履歴検証結果を取得するステップであって、前記Ｎが前記データ強化ポリシーの現在の更新の総回数である、ステップと、
前記履歴検証結果と前記検証結果に基づいて、前記ポリシーモデルを更新するステップと、を含み、
前記履歴検証結果と前記検証結果に基づいて、前記ポリシーモデルを更新するステップは、
前記履歴検証結果の平均値を確定するステップと、
前記検証結果と前記平均値との差を確定するステップと、
前記差に基づいて、前記ポリシーモデルにおけるポリシーパラメータを更新するステップと、を含むことを特徴とする
請求項５に記載のデータ強化ポリシーの更新方法。

【請求項7】

【請求項8】

【請求項9】

【請求項10】

前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第１段階のトレーニングを行うステップは、
予め設定された各ポリシーから、前記第１段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択するステップと、
前記第１段階のトレーニングにおけるデータ強化ポリシーと前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第１段階のトレーニングを行うステップと、を含み、
前記処理待ちデータと前記トレーニングデータは、画像データ又はテキストデータであることを特徴とする
請求項１０に記載のデータ処理方法。

【請求項11】

【請求項12】

【請求項13】

プログラム命令を記憶するメモリと、
前記メモリに記憶された前記プログラムコマンドを呼び出して請求項１－７のいずれか一項又は請求項８－１０のいずれか一項に記載の方法を実行するプロセッサと、を備える、電子デバイス。

【請求項14】

コンピュータに、請求項１－７のいずれか一項又は請求項８－１０のいずれか一項に記載の方法を実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。

【請求項15】

コンピュータに、請求項１－７のいずれか一項又は請求項８－１０のいずれか一項に記載の方法を実行させる、コンピュータプログラム。

【手続補正2】

【補正対象書類名】明細書

【補正対象項目名】００２５

【補正方法】変更

【補正の内容】

【0025】

以上の一般的な説明及び以下の詳細な説明が例示的及び解釈的なものだけであり、本開示を制限するものではないことを理解すべきである。
例えば、本願は以下の項目を提供する。
（項目１）
データ強化ポリシーの更新方法であって、
初期のデータ強化ポリシーを取得するステップと、
前記データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第１段階トレーニング済みデータ処理モデルに対して、第２段階のトレーニングを行うステップと、
第２段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新し、更新後のデータ強化ポリシーを取得するステップと、を含む、データ強化ポリシーの更新方法。
（項目２）
前記データ強化ポリシーの更新方法は、
Ｍ回目の更新された前記データ強化ポリシーを取得するステップであって、前記Ｍが１以上である、ステップと、
Ｍ回目の更新された前記データ強化ポリシー及び前記トレーニングデータに基づいて、前記第１段階トレーニング済みデータ処理モデルに対して、第２段階のトレーニングを行うステップと、
第２段階トレーニング済みデータ強化モデルに基づいて、前記データ強化ポリシーに対してＭ＋１回目の更新を行うステップと、をさらに含む
項目１に記載のデータ強化ポリシーの更新方法。
（項目３）
前記初期のデータ強化ポリシーの数が複数であり、各前記データ強化ポリシーの更新が並行して実行され、前記データ強化ポリシーの更新方法は、
予め設定された更新回数ごとに、前記第２段階トレーニング済みデータ処理モデルに基づいて、更新後の各前記データ強化ポリシーから最適なデータ強化ポリシーを選択するステップと、
更新後の前記データ強化ポリシーにおいて、前記最適なポリシー以外の各前記データ強化ポリシーを前記最適なデータ強化ポリシーにそれぞれ置き換えるステップと、をさらに含むことを特徴とする
項目２に記載のデータ強化ポリシーの更新方法。
（項目４）
前記データ強化ポリシーには、複数の予め設定されたデータ強化操作が含まれ、前記データ強化ポリシー及び予め設定されたトレーニングデータに基づいて、予め設定された第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行うステップは、
各前記データ強化操作に従って、前記トレーニングデータに対してデータ強化を順次行うステップと、
データ強化後の前記トレーニングデータにより、前記第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行うステップと、を含むことを特徴とする
項目１－３のいずれか一項に記載のデータ強化ポリシーの更新方法。
（項目５）
前記第２段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新するステップは、
前記第２段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新するステップと、
更新後の前記ポリシーモデルにより、予め設定された各ポリシーの選択確率を確定するステップと、
前記予め設定された各ポリシーの選択確率に従って、前記予め設定された各ポリシーから更新後の前記データ強化ポリシーを選択するステップと、を含むことを特徴とする
項目１－３のいずれか一項に記載のデータ強化ポリシーの更新方法。
（項目６）
前記データ強化ポリシーの更新回数が複数回である場合、第２段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新するステップは、
予め設定された検証データに基づいて、前記第２段階トレーニング済みデータ処理モデルを検証し、検証結果を取得するステップと、
前記データ強化ポリシーの前のＮ－１回の更新における前記第２段階トレーニング済みデータ処理モデルの履歴検証結果を取得するステップであって、前記Ｎが前記データ強化ポリシーの現在の更新の総回数である、ステップと、
前記履歴検証結果と前記検証結果に基づいて、前記ポリシーモデルを更新するステップと、を含むことを特徴とする
項目５に記載のデータ強化ポリシーの更新方法。
（項目７）
前記履歴検証結果と前記検証結果に基づいて、前記ポリシーモデルを更新するステップは、
前記履歴検証結果の平均値を確定するステップと、
前記検証結果と前記平均値との差を確定するステップと、
前記差に基づいて、前記ポリシーモデルにおけるポリシーパラメータを更新するステップと、を含むことを特徴とする
項目６に記載のデータ強化ポリシーの更新方法。
（項目８）
前記初期のデータ強化ポリシーを取得するステップの前に、前記データ強化ポリシーの更新方法は、
予め設定された各ポリシーから、前記第１段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択するステップと、
前記第１段階のトレーニングにおけるデータ強化ポリシーと前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第１段階のトレーニングを行うステップと、をさらに含むことを特徴とする
項目１－３のいずれか一項に記載のデータ強化ポリシーの更新方法。
（項目９）
データ処理方法であって、
処理待ちデータを取得するステップと、
予めトレーニングされたデータ処理モデルにより、前記処理待ちデータを処理するステップであって、前記データ処理モデルは、第１段階のトレーニングと第２段階のトレーニングが順次行われ、前記データ処理モデルは、前記第２のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータによりトレーニングされ、前記データ強化ポリシーは項目１－８のいずれか一項に記載のデータ強化ポリシーの更新方法を使用して生成される、ステップと、を含む、データ処理方法。
（項目１０）
前記データ処理方法は、
前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第１段階のトレーニングを行うステップと、
前記データ強化ポリシーにより、前記トレーニングデータに対してデータ強化を行うステップと、
データ強化後の前記トレーニングデータに基づいて、前記第１段階トレーニング済みデータ処理モデルに対して前記第２段階のトレーニングを行うステップと、をさらに含むことを特徴とする
項目９に記載のデータ処理方法。
（項目１１）
前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第１段階のトレーニングを行うステップは、
予め設定された各ポリシーから、前記第１段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択するステップと、
前記第１段階のトレーニングにおけるデータ強化ポリシーと前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第１段階のトレーニングを行うステップと、を含むことを特徴とする
項目１０に記載のデータ処理方法。
（項目１２）
前記処理待ちデータと前記トレーニングデータは、画像データ又はテキストデータであることを特徴とする
項目９－１１のいずれか一項に記載のデータ処理方法。
（項目１３）
データ強化ポリシー更新装置であって、
初期のデータ強化ポリシーを取得するように構成される取得部と、
前記データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第１段階トレーニング済みデータ処理モデルに対して第２段階のトレーニングを行うように構成されるトレーニング部と、
第２段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新し、更新後の前記データ強化ポリシーを取得するように構成される更新部と、を備える、データ強化ポリシー更新装置。
（項目１４）
データ処理装置であって、
処理待ちデータを取得するように構成される取得部と、
予めトレーニングされたデータ処理モデルにより、前記処理待ちデータを処理するように構成される処理部であって、前記データ処理モデルは、第１段階のトレーニングと第２段階のトレーニングが順次行われ、前記データ処理モデルは、前記第２のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータによりトレーニングされ、前記データ強化ポリシーは項目１－８のいずれか一項に記載の更新方法を使用して生成される、処理部と、を備える、データ処理装置。
（項目１５）
プログラム命令を記憶するメモリと、
前記メモリに記憶された前記プログラムコマンドを呼び出して項目１－８のいずれか一項又は項目９－１２のいずれか一項に記載の方法を実行するプロセッサと、を備える、電子デバイス。
（項目１６）
コンピュータに、項目１－８のいずれか一項又は項目９－１２のいずれか一項に記載の方法を実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
（項目１７）
電子デバイスで実行される場合、前記電子デバイスでのプロセッサに、項目１－８のいずれか一項又は項目９－１２のいずれか一項に記載の方法を実行させるためのコンピュータ可読コードを含む、コンピュータプログラム。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版