(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-09-26
(54)【発明の名称】データ強化ポリシーの更新方法、装置、デバイス及び記憶媒体
(51)【国際特許分類】
G06N 20/00 20190101AFI20220915BHJP
G06N 3/08 20060101ALI20220915BHJP
【FI】
G06N20/00
G06N3/08
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021569392
(86)(22)【出願日】2020-11-02
(85)【翻訳文提出日】2021-11-22
(86)【国際出願番号】 CN2020125967
(87)【国際公開番号】W WO2021248791
(87)【国際公開日】2021-12-16
(31)【優先権主張番号】202010519507.3
(32)【優先日】2020-06-09
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】321006888
【氏名又は名称】ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】田柯宇
(72)【発明者】
【氏名】林宸
(72)【発明者】
【氏名】▲孫▼明
(72)【発明者】
【氏名】▲閻▼俊杰
(57)【要約】
本開示の実施例は、データ強化ポリシーの更新方法、装置、デバイス及び記憶媒体を提供する。当該方法は、初期のデータ強化ポリシーを取得するステップと、データ強化ポリシー及びトレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行うステップと、第2段階トレーニング済みデータ処理モデルに基づいて、データ強化ポリシーを更新し、更新されたデータ強化ポリシーを取得するステップと、を含む。
【特許請求の範囲】
【請求項1】
データ強化ポリシーの更新方法であって、
初期のデータ強化ポリシーを取得するステップと、
前記データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して、第2段階のトレーニングを行うステップと、
第2段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新し、更新後のデータ強化ポリシーを取得するステップと、を含む、データ強化ポリシーの更新方法。
【請求項2】
前記データ強化ポリシーの更新方法は、
M回目の更新された前記データ強化ポリシーを取得するステップであって、前記Mが1以上である、ステップと、
M回目の更新された前記データ強化ポリシー及び前記トレーニングデータに基づいて、前記第1段階トレーニング済みデータ処理モデルに対して、第2段階のトレーニングを行うステップと、
第2段階トレーニング済みデータ強化モデルに基づいて、前記データ強化ポリシーに対してM+1回目の更新を行うステップと、をさらに含む
請求項1に記載のデータ強化ポリシーの更新方法。
【請求項3】
前記初期のデータ強化ポリシーの数が複数であり、各前記データ強化ポリシーの更新が並行して実行され、前記データ強化ポリシーの更新方法は、
予め設定された更新回数ごとに、前記第2段階トレーニング済みデータ処理モデルに基づいて、更新後の各前記データ強化ポリシーから最適なデータ強化ポリシーを選択するステップと、
更新後の前記データ強化ポリシーにおいて、前記最適なポリシー以外の各前記データ強化ポリシーを前記最適なデータ強化ポリシーにそれぞれ置き換えるステップと、をさらに含むことを特徴とする
請求項2に記載のデータ強化ポリシーの更新方法。
【請求項4】
前記データ強化ポリシーには、複数の予め設定されたデータ強化操作が含まれ、前記データ強化ポリシー及び予め設定されたトレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行うステップは、
各前記データ強化操作に従って、前記トレーニングデータに対してデータ強化を順次行うステップと、
データ強化後の前記トレーニングデータにより、前記第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行うステップと、を含むことを特徴とする
請求項1-3のいずれか一項に記載のデータ強化ポリシーの更新方法。
【請求項5】
前記第2段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新するステップは、
前記第2段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新するステップと、
更新後の前記ポリシーモデルにより、予め設定された各ポリシーの選択確率を確定するステップと、
前記予め設定された各ポリシーの選択確率に従って、前記予め設定された各ポリシーから更新後の前記データ強化ポリシーを選択するステップと、を含むことを特徴とする
請求項1-3のいずれか一項に記載のデータ強化ポリシーの更新方法。
【請求項6】
前記データ強化ポリシーの更新回数が複数回である場合、第2段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新するステップは、
予め設定された検証データに基づいて、前記第2段階トレーニング済みデータ処理モデルを検証し、検証結果を取得するステップと、
前記データ強化ポリシーの前のN-1回の更新における前記第2段階トレーニング済みデータ処理モデルの履歴検証結果を取得するステップであって、前記Nが前記データ強化ポリシーの現在の更新の総回数である、ステップと、
前記履歴検証結果と前記検証結果に基づいて、前記ポリシーモデルを更新するステップと、を含むことを特徴とする
請求項5に記載のデータ強化ポリシーの更新方法。
【請求項7】
前記履歴検証結果と前記検証結果に基づいて、前記ポリシーモデルを更新するステップは、
前記履歴検証結果の平均値を確定するステップと、
前記検証結果と前記平均値との差を確定するステップと、
前記差に基づいて、前記ポリシーモデルにおけるポリシーパラメータを更新するステップと、を含むことを特徴とする
請求項6に記載のデータ強化ポリシーの更新方法。
【請求項8】
前記初期のデータ強化ポリシーを取得するステップの前に、前記データ強化ポリシーの更新方法は、
予め設定された各ポリシーから、前記第1段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択するステップと、
前記第1段階のトレーニングにおけるデータ強化ポリシーと前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第1段階のトレーニングを行うステップと、をさらに含むことを特徴とする
請求項1-3のいずれか一項に記載のデータ強化ポリシーの更新方法。
【請求項9】
データ処理方法であって、
処理待ちデータを取得するステップと、
予めトレーニングされたデータ処理モデルにより、前記処理待ちデータを処理するステップであって、前記データ処理モデルは、第1段階のトレーニングと第2段階のトレーニングが順次行われ、前記データ処理モデルは、前記第2のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータによりトレーニングされ、前記データ強化ポリシーは請求項1-8のいずれか一項に記載のデータ強化ポリシーの更新方法を使用して生成される、ステップと、を含む、データ処理方法。
【請求項10】
前記データ処理方法は、
前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第1段階のトレーニングを行うステップと、
前記データ強化ポリシーにより、前記トレーニングデータに対してデータ強化を行うステップと、
データ強化後の前記トレーニングデータに基づいて、前記第1段階トレーニング済みデータ処理モデルに対して前記第2段階のトレーニングを行うステップと、をさらに含むことを特徴とする
請求項9に記載のデータ処理方法。
【請求項11】
前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第1段階のトレーニングを行うステップは、
予め設定された各ポリシーから、前記第1段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択するステップと、
前記第1段階のトレーニングにおけるデータ強化ポリシーと前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第1段階のトレーニングを行うステップと、を含むことを特徴とする
請求項10に記載のデータ処理方法。
【請求項12】
前記処理待ちデータと前記トレーニングデータは、画像データ又はテキストデータであることを特徴とする
請求項9-11のいずれか一項に記載のデータ処理方法。
【請求項13】
データ強化ポリシー更新装置であって、
初期のデータ強化ポリシーを取得するように構成される取得部と、
前記データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行うように構成されるトレーニング部と、
第2段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新し、更新後の前記データ強化ポリシーを取得するように構成される更新部と、を備える、データ強化ポリシー更新装置。
【請求項14】
データ処理装置であって、
処理待ちデータを取得するように構成される取得部と、
予めトレーニングされたデータ処理モデルにより、前記処理待ちデータを処理するように構成される処理部であって、前記データ処理モデルは、第1段階のトレーニングと第2段階のトレーニングが順次行われ、前記データ処理モデルは、前記第2のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータによりトレーニングされ、前記データ強化ポリシーは請求項1-8のいずれか一項に記載の更新方法を使用して生成される、処理部と、を備える、データ処理装置。
【請求項15】
プログラム命令を記憶するメモリと、
前記メモリに記憶された前記プログラムコマンドを呼び出して請求項1-8のいずれか一項又は請求項9-12のいずれか一項に記載の方法を実行するプロセッサと、を備える、電子デバイス。
【請求項16】
コンピュータに、請求項1-8のいずれか一項又は請求項9-12のいずれか一項に記載の方法を実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
【請求項17】
電子デバイスで実行される場合、前記電子デバイスでのプロセッサに、請求項1-8のいずれか一項又は請求項9-12のいずれか一項に記載の方法を実行させるためのコンピュータ可読コードを含む、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への相互参照)
本開示は、出願番号が202010519507.3で、出願日が2020年6月9日である中国特許に基づいて提案され、当該中国特許出願の優先権を主張し、当該中国特許の全ての内容がここで参照により本開示に組み込まれる。
【0002】
本開示の実施例は、機械学習分野に関し、データ強化ポリシーの更新方法、装置、デバイス及び記憶媒体に関する。
【背景技術】
【0003】
深層学習技術の適用効果は、大量のトレーニングデータに依存しており、限られた数のトレーニングデータでトレーニングされたデータ処理モデルは、通常、過剰適合現象が発生する。データ処理モデルのトレーニング効果を高め、モデルトレーニングに必要な人員を削減するために、自動データ強化技術は、トレーニングデータのデータ量及び多様性を高めるために徐々に使用されている。
【0004】
自動データ強化技術とは、自動機械学習技術によりデータ強化プロセスを自動化することを指し、したがって、1つの適切なデータ強化ポリシーを見つけることが非常に重要である。通常、データ処理モデルのトレーニング効果に基づいて、強化学習アルゴリズムによりデータ強化ポリシーを最適化することができる。
【0005】
トレーニングデータの規模が通常、大きく、かつデータ処理モデルのトレーニングにも時間がかかるため、データ強化ポリシーの生成効率を向上させる必要がある。
【発明の概要】
【課題を解決するための手段】
【0006】
本開示の実施例は、データ強化ポリシーの更新方法、装置、デバイス及び記憶媒体を提供する。
【0007】
第1の態様では、本開示の実施例によるデータ強化ポリシーの更新方法は、
初期のデータ強化ポリシーを取得するステップと、
前記データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して、第2段階のトレーニングを行うステップと、
第2段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新し、更新後の前記データ強化ポリシーを取得するステップと、を含む。
【0008】
1つの可能な実施形態では、前記データ強化ポリシーの更新方法は、
M回目の更新された前記データ強化ポリシーを取得するステップであって、前記Mが1以上である、ステップと、
M回目の更新された前記データ強化ポリシー及び前記トレーニングデータに基づいて、前記第1段階トレーニング済みデータ処理モデルに対して、第2段階のトレーニングを行うステップと、
第2段階トレーニング済みデータ強化モデルに基づいて、前記データ強化ポリシーに対してM+1回目の更新を行うステップと、をさらに含む。
【0009】
1つの可能な実施形態では、前記初期のデータ強化ポリシーの数が複数であり、各前記データ強化ポリシーの更新が並行して実行され、前記データ強化ポリシーの更新方法は、
予め設定された更新回数ごとに、前記第2段階トレーニング済みデータ処理モデルに基づいて、更新後の各前記データ強化ポリシーから最適なポリシーを選択するステップと、
更新後の前記データ強化ポリシーにおいて、前記最適なポリシー以外の各前記データ強化ポリシーを前記最適なデータ強化ポリシーにそれぞれ置き換えるステップと、をさらに含む。
【0010】
1つの可能な実施形態では、前記データ強化ポリシーには、複数の予め設定されたデータ強化操作が含まれ、前記データ強化ポリシー及び予め設定されたトレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行うステップは、
各前記データ強化操作に従って、前記トレーニングデータに対してデータ強化を順次行うステップと、
データ強化後の前記トレーニングデータにより、前記第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行うステップと、を含む。
【0011】
1つの可能な実施形態では、第2段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新するステップは、
前記第2段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新するステップと、
更新後の前記ポリシーモデルにより、予め設定された各ポリシーの選択確率を確定するステップと、
前記予め設定された各ポリシーの選択確率に従って、前記予め設定された各ポリシーから更新後の前記データ強化ポリシーを選択するステップと、を含む。
【0012】
1つの可能な実施形態では、前記データ強化ポリシーの更新回数が複数回である場合、第2段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新するステップは、
予め設定された検証データに基づいて、前記第2段階トレーニング済みデータ処理モデルを検証し、検証結果を取得するステップと、
前記データ強化ポリシーの前のN-1回の更新における前記第2段階トレーニング済みデータ処理モデルの履歴検証結果を取得するステップであって、前記Nが前記データ強化ポリシーの現在の更新の総回数である、ステップと、
前記履歴検証結果と前記検証結果に基づいて、前記ポリシーモデルを更新するステップと、を含む。
【0013】
1つの可能な実施形態では、前記履歴検証結果と前記検証結果に基づいて、前記ポリシーモデルを更新するステップは、
前記履歴検証結果の平均値を確定するステップと、
前記検証結果と前記平均値との差を確定するステップと、
前記差に基づいて、前記ポリシーモデルにおけるポリシーパラメータを更新するステップと、を含む。
【0014】
1つの可能な実施形態では、初期のデータ強化ポリシーを取得するステップの前に、前記データ強化ポリシーの更新方法は、
予め設定された各ポリシーから、前記第1段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択するステップと、
前記第1段階のトレーニングにおけるデータ強化ポリシーと前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第1段階のトレーニングを行うステップと、をさらに含む。
【0015】
第2の態様では、本開示の実施例によるデータ処理方法は、
処理待ちデータを取得するステップと、
予めトレーニングされたデータ処理モデルにより、前記処理待ちデータを処理するステップであって、前記データ処理モデルが、第1段階のトレーニングと第2段階のトレーニングが順次行われ、前記データ処理モデルは、前記第2のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータによりトレーニングされ、前記データ強化ポリシーが第1の態様又は第1の態様の各可能な実施形態で記載された方法を使用して生成される、ステップと、を含む。
【0016】
1つの可能な実施形態では、前記データ処理方法は、
前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第1段階のトレーニングを行うステップと、
前記データ強化ポリシーにより、前記トレーニングデータに対してデータ強化を行うステップと、
データ強化後の前記トレーニングデータに基づいて、前記第1段階トレーニング済みデータ処理モデルに対して前記第2段階のトレーニングを行うステップと、をさらに含む。
【0017】
1つの可能な実施形態では、前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第1段階のトレーニングを行うステップは、
予め設定された各ポリシーから、前記第1段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択するステップと、
前記第1段階のトレーニングにおけるデータ強化ポリシーと前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第1段階のトレーニングを行うステップと、を含む。
【0018】
1つの可能な実施形態では、前記処理待ちデータ及び前記トレーニングデータは、画像データ又はテキストデータである。
【0019】
第3の態様では、本開示の実施例によるデータ強化ポリシー更新装置は、
初期のデータ強化ポリシーを取得するように構成される取得部と、
前記データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して、第2段階のトレーニングを行うように構成されるトレーニング部と、
第2段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新し、更新後の前記データ強化ポリシーを取得するように構成される更新部と、を備える。
【0020】
第4の態様では、本開示の実施例によるデータ処理装置は、
処理待ちデータを取得するように構成される取得部と、
予めトレーニングされたデータ処理モデルにより、前記処理待ちデータを処理するように構成される処理部であって、前記データ処理モデルが、第1段階のトレーニングと第2段階のトレーニングが順次行われ、前記データ処理モデルは、前記第2のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータによりトレーニングされ、前記データ強化ポリシーが第1の態様又は第1の態様の各可能な実施形態で記載された方法を使用して生成される、処理部と、を備える。
【0021】
第5の態様では、本開示の実施例による電子デバイスは、
プログラム命令を記憶するメモリと、
前記メモリでの前記プログラム命令を呼び出して第1の態様、第1の態様の各可能な実施形態、第2の態様、又は第2の態様の各可能な実施形態で記載される方法を実行するプロセッサと、を備える。
【0022】
第6の態様では、本開示の実施例によるコンピュータ可読記憶媒体は、コンピュータに、第1の態様、第1の態様の各可能な実施形態、第2の態様、又は第2の態様の各可能な実施形態で記載される方法を実行させるためのコンピュータプログラムを記憶する。
【0023】
第7の態様では、本開示の実施例によるコンピュータプログラムは、電子デバイスで実行される場合、前記電子デバイスでのプロセッサに、第1の態様、第1の態様の各可能な実施形態、第2の態様、又は第2の態様の各可能な実施形態で記載される方法を実行させるためのコンピュータ可読コードを含む。
【0024】
本開示の実施例によるデータ強化ポリシーの更新方法では、データ処理モデルのトレーニング段階は、第1段階と第2段階の前後2段階に分けられ、データ強化ポリシーを更新するときに、データ強化ポリシー及びトレーニングデータに基づいて、第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行い、第2段階トレーニング済みデータ処理モデルに基づいてデータ強化ポリシーを更新し、これにより、データ強化ポリシーの更新プロセスにはデータ処理モデルを初めからトレーニングする必要がなく、データ強化ポリシーの品質が確保され、同時にデータ強化ポリシーの生成効率が向上する。また、生成されたデータ強化ポリシーは、トレーニングデータの同じタイプのデータに適用でき、遷移可能性を持っている。
【0025】
以上の一般的な説明及び以下の詳細な説明が例示的及び解釈的なものだけであり、本開示を制限するものではないことを理解すべきである。
【図面の簡単な説明】
【0026】
【
図1】データ強化と画像分類モデルのトレーニング効果との関係の一例を示す図である。
【
図2】本開示の一実施例によるネットワークアーキテクチャを示す図である。
【
図3】本開示の一実施例によるデータ強化ポリシーの更新方法のフローチャートである。
【
図4】本開示の別の実施例によるデータ強化ポリシーの更新方法のフローチャートである。
【
図5】本開示の別の実施例によるデータ強化ポリシーの更新方法のフローチャートである。
【
図6】本開示の別の実施例によるデータ強化ポリシーの更新方法のフローチャートである。
【
図7】本開示の別の実施例による複数のデータ強化ポリシーの並行更新の一例を示す図である。
【
図8】本開示の一実施例によるデータ処理方法のフローチャートである。
【
図9】本開示の一実施例によるデータ強化ポリシー更新装置の構造図である。
【
図10】本開示の一実施例によるデータ処理装置の構造図である。
【
図11】本開示の一実施例による電子デバイスの構造図である。
【
図12】本実施例によるデータ強化ポリシー更新装置のブロック図である。
【発明を実施するための形態】
【0027】
ここでの添付図面は、本明細書に組み込まれて本明細書の一部を構成し、本開示に一致する実施例を示し、且つ明細書と共に本開示の原理を解釈することに用いられる。
【0028】
本開示の明確な実施例は、上記の添付図面で示されているが、以下により詳細に説明される。これらの図面及び文字説明は、いかなる方式で本開示の考え範囲を限定するためのものではなく、特定の実施例を参照して当業者に対して本開示の概念を説明するためのものである。
【0029】
ここで例示的実施例を詳しく説明し、その例を添付の図面に示す。以下の説明が図面に関わる場合、特に明記しない限り、異なる図面の同じ数字は、同じ又は類似の要素を表す。以下の例示的実施例で説明される実施形態は、本開示と一致する全ての実施形態を表すものではない。逆に、それらは添付の特許請求の範囲に詳細に記載される、本開示のいくつかの態様に一致する装置及び方法の例に過ぎない。
【0030】
まず、本開示の実施例に係る名詞について解釈する。
【0031】
第1段階のトレーニング、第2段階のトレーニングとは、データ処理モデルのトレーニングの総回数に従って、データ処理モデルのトレーニングを第1段階のトレーニングと第2段階のトレーニングに順番で分けることを指す。例えば、データ処理モデルのトレーニングの総回数が300回に予め設定されている場合、前の100回のトレーニングを第1段階のトレーニングと呼び、最後の200回のトレーニングを第2段階のトレーニングと呼ぶことができる。ここで、第1段階のトレーニングのトレーニング回数と第2段階のトレーニングのトレーニング回数は制限されない。
【0032】
データ強化操作とは、トレーニングデータのデータ量及び多様性を高めるために、トレーニングデータを微調整するという操作を指す。例えば、画像データを例とすると、画像データに対してサイズ、色の調整を行う。
【0033】
データ強化ポリシーとは、トレーニングデータに対してデータ強化を行うスキームを指す。ここで、データ強化ポリシーには、データ強化操作が含まれる。例えば、データ強化ポリシーにおけるデータ強化操作は、画像水平トリミングであり、画像水平トリミングに対応するトリミング振幅が0.1幅であり、即ち毎回の画像水平トリミングの幅が画像の元の幅の10%である。
【0034】
深層学習技術は、複数の分野で広く使用されており、著しい成果を得る。画像ビジョン分野を例とすると、深層学習技術は、画像分類、ターゲット検出、画像分割、人体姿態推定などのタスクを実行することができる。これらのタスクをうまく完了するために、深層学習技術によるデータ処理モデルは、通常、大量のトレーニングデータでトレーニングされる必要があり、そうでない場合、トレーニングされたモデルは、過剰適合現象が発生する。したがって、データ強化は、トレーニングデータのデータ量及び多様性を増やすための一般的な方式になり、適切なデータ強化ポリシーを設計することは、データ処理モデルのトレーニング効果を高める重要な要素になる。
【0035】
一般的には、データ強化ポリシーは、専門家によって手動で設計されてもよいが、この方式は、時間コスト及び人件費が高いだけでなく、データ強化ポリシーの再利用性も低く、通常、特定のデータ処理モデルのトレーニングのみに適用する。データ強化ポリシーを自動的に生成する方式は、専門家によるデータ強化ポリシーの手動設計と比較して、データ強化ポリシーの生成効率を向上させることができるだけでなく、より良いデータ強化ポリシーを生成することができる。
【0036】
一般的には、データ強化ポリシーを自動的に生成する方式では、データ処理モデルのトレーニング効果に基づいて、強化学習アルゴリズムによりデータ強化ポリシーを最適化することができる。発明者は、この方法において、データ処理モデルのトレーニングプロセス全体を継続的に繰り返す必要があり、さらに、トレーニングデータの規模が小さくなく、全体の計算量が多く、時間がかかるため、データ強化ポリシーの生成効率が高くないことを発見した。
【0037】
深層学習技術では、データ処理モデルの過剰適合は、通常、後期トレーニング段階で発生する。したがって、発明者は、データ強化によるデータ処理モデルのトレーニング効果の向上が主にデータ処理モデルの後期トレーニング段階で発生することを推測する。データ強化ポリシーの生成効率を向上させ、当該データ強化ポリシーに基づいてトレーニングされたデータ処理モデルのトレーニング効果を確保するために、本発明者は、上記の推測を検証するために、データ強化ポリシーに基づくモデルトレーニングプロセスを徹底的に研究した。
【0038】
データ処理モデルが画像分類モデルであり、かつ画像分類モデルのトレーニングの総回数が300回であることを例とすると、本発明者は、
図1に示す結果を得る。
図1はデータ強化と画像分類モデルのトレーニング効果との関係を示している。横座標は、画像分類モデルの300回のトレーニングにおけるデータ強化ラウンド数であり、縦座標は、300回のトレーニングが行われた後の画像分類モデルの分類精度である。点線は、トレーニング後期のデータ強化ラウンド数と画像分類モデルの分類精度との関係であり、実線は、トレーニング前期のデータ強化ラウンド数と画像分類モデルの分類精度との関係である。
【0039】
ここで、トレーニング後期のデータ強化ラウンド数は、画像分類モデルの最後のトレーニングから前へ継続的に計算され、例えば、トレーニング後期のデータ強化ラウンド数が50であると、画像分類モデルの後の50回のトレーニングでデータ強化を行うことを示す。トレーニング前期のデータ強化ラウンド数は、画像分類モデルの1回目のトレーニングから後へ継続的に計算され、例えば、トレーニング前期のデータ強化ラウンド数が50であると、画像分類モデルの前の50回のトレーニングでデータ強化を行うことを示す。
【0040】
図1からわかるように、1、データ強化ラウンド数が一致している場合、点線は、常に実線の上にあり、したがって、データ強化ラウンド数が一致している場合、トレーニング後期でデータ強化を行って取得された画像分類モデルの分類精度がトレーニング前期でデータ強化を行って取得された画像分類モデルの分類精度よりも高い。2、画像分類モデルの分類精度が一致している場合、点線は、常に実線の左側にあり、したがって、画像分類モデルの分類精度が一致している場合、トレーニング後期でデータ強化を行うために必要なデータ強化ラウンド数は、トレーニング前期でデータ強化を行うために必要なデータ強化ラウンド数よりも少ない。なお、実線及び点線上の1番目のポイントは、すべてデータ強化のラウンド数が0であることを示し、実線及び点線上の最後のポイントは、すべてデータ強化のラウンド数が300であることを示し、したがって、上記の比較プロセスでは、これらの4つのポイントが考慮されていない。
【0041】
発明者の上記発見に基づき、本開示の実施例によるデータ強化ポリシーの更新方法では、初期のデータ強化ポリシーを取得し、データ強化ポリシー及びトレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行い、第2段階トレーニング済みデータ処理モデルに基づいて、データ強化ポリシーを更新し、これにより、データ強化ポリシーモデルを更新するプロセスにおいて、データ処理モデルに対して第2段階のトレーニングを行うだけでよく、データ強化ポリシーの品質が確保されるだけでなく、データ強化ポリシーの生成効率が向上する。
【0042】
本開示の実施例によるデータ強化ポリシーの更新方法は、
図2に示すネットワークアーキテクチャに適用できる。
図2に示すように、当該ネットワークアーキテクチャは、少なくとも端末デバイス201又はサーバー202を含み、端末デバイス201上に第1段階トレーニング済みデータ処理モデルを記憶し、データ処理モデルへの第2段階のトレーニング及びデータ強化ポリシーの更新を行うことができ、サーバー202上に第1段階トレーニング済みデータ処理モデルを記憶し、データ処理モデルへの第2段階のトレーニング及びデータ強化ポリシーの更新を行うこともでき、端末デバイス201上に第1段階トレーニング済みデータ処理モデルを記憶し、サーバー202上でデータ処理モデルへの第2段階のトレーニング及びデータ強化ポリシーの更新を行い、又は、サーバー202上に第1段階トレーニング済みデータ処理モデルを記憶し、端末デバイス201上でデータ処理モデルへの第2段階のトレーニング及びデータ強化ポリシーの更新を行うこともできる。
【0043】
上記端末デバイスは、コンピュータ、タブレットコンピュータ、スマートフォンなどのデバイスであってもよく、上記サーバーは、単一のサーバー又は複数のサーバーからなるサーバー群であってもよい。
【0044】
以下、本開示の実施例の技術的解決策、及び本開示の技術的解決策が上記の技術的問題をどのように解決するかを詳細に説明する。以下のいくつかの実施例は、互いに組み合わせられてもよく、同じ又は類似の概念又はプロセスについては、いくつかの実施例では説明しない。以下、添付図面を参照しながら本開示の実施例を説明する。
【0045】
図3は本開示の一実施例によるデータ強化ポリシーの更新方法のフローチャートである。
図3に示すように、当該方法は、以下のステップを含む。
【0046】
S301において、初期のデータ強化ポリシーを取得する。
【0047】
1つの可能な実施形態では、S301において予め設定された各データ強化ポリシーから、初期のデータ強化ポリシーを取得することができる。ここで、予め設定された各データ強化ポリシーと現在の使用されているデータ強化ポリシーとを区別するために、説明上、予め設定された各データ強化ポリシーをそれぞれの予め設定されたポリシーと略称し、現在の採用されているデータ強化ポリシーをデータ強化ポリシーと略称する。
【0048】
1つの可能な実施形態では、予め設定された各データ強化ポリシーから初期のデータ強化ポリシーを取得する以外、ユーザが初期のデータ強化ポリシーを予め設定することにより、当該設定されたデータ強化ポリシーを直接取得することができる。又は、予め設定された各データ強化操作から初期のデータ強化操作を取得し、さらに初期のデータ強化ポリシーを取得することができる。
【0049】
S302において、データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して、第2段階のトレーニングを行う。
【0050】
ここで、データ処理モデルに対して第1段階のトレーニングを予め行い、第1段階トレーニング済みデータ処理モデルを取得することができる。トレーニングデータを予め収集することができ、トレーニングデータは、データベースの形態で記憶されてもよい。
【0051】
1つの可能な実施形態では、初期のデータ強化ポリシーが取得された後、データ強化ポリシーにより、トレーニングデータに対してデータ強化を行うことができ、データ強化後のトレーニングデータにより、第1段階トレーニング済みデータ処理モデルに対して第2段階トレーニングを行い、第2段階トレーニング済みデータ処理モデルを取得し、それによってデータ処理モデルへの後期トレーニングでトレーニングデータに対してデータ強化を行い、データ強化ポリシーがデータ処理モデルへの後期トレーニングにより大きな影響を与えるという特徴を十分に利用する。
【0052】
ここで、データ処理モデルに使用されるトレーニングアルゴリズムは制限されない。
【0053】
S303において、第2段階トレーニング済みデータ処理モデルに基づいて、データ強化ポリシーを更新する。
【0054】
1つの可能な実施形態では、データ処理モデルは、第1段階のトレーニング及び第2段階のトレーニングが行われた後、そのトレーニングプロセスが完了され、トレーニングされた処理モデルが取得される。したがって、第2段階トレーニング済みデータ処理モデルのトレーニング効果を検証し、検証結果を取得することができる。例えば、データ処理モデルのタスクが画像分類タスクである場合、データ処理モデルの検証結果は、データ処理モデルの画像分類の精度である。
【0055】
1つの可能な実施形態では、データ処理モデルの検証結果が得られると、データ強化ポリシーによりトレーニングデータへのデータ強化を行う場合、データ強化後のトレーニングデータに基づいてトレーニングされたデータ処理モデルのトレーニング効果を理解することができ、これにより、データ処理モデルの検証結果は、データ強化ポリシーの品質を示すことがわかる。例えば、データ処理モデルの画像分類の精度が高いほど、データ強化ポリシーの品質が良くなることを表す。したがって、データ処理モデルの検証結果に基づいて、データ強化ポリシーを更新することができる。データ強化ポリシーを更新するプロセスでは、ポリシー更新スペースにおける予め設定されたポリシーを更新後のデータ強化ポリシーとして取得することができる。
【0056】
本開示の実施例では、初期のデータ強化ポリシー及びトレーニングデータにより、第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行い、第2段階トレーニング済みデータ処理モデルに基づいてデータ強化ポリシーを更新し、データ強化ポリシーがデータ処理モデルへの後期トレーニングにより大きな影響を与えるという特徴を十分に利用し、データ強化ポリシーの品質を確保しながらデータ強化ポリシーの生成効率を向上させる。
【0057】
図4は本開示の別の実施例によるデータ強化ポリシーの更新方法のフローチャートである。
図4に示すように、当該方法は、以下のステップを含む。
【0058】
S401において、初期のデータ強化ポリシーを取得する。
【0059】
1つの可能な実施形態では、予め設定された各ポリシーから、初期のデータ強化ポリシーを取得することができる。予め設定された各データ強化ポリシーから初期のデータ強化ポリシーを取得する以外、ユーザが初期のデータ強化ポリシーを予め設定することにより、当該設定されたデータ強化ポリシーを直接取得することができる。又は、予め設定された各データ強化操作から初期のデータ強化操作を取得し、さらに初期のデータ強化ポリシーを取得することができる。
【0060】
1つの可能な実施形態では、データ強化ポリシーには、データ強化ポリシーの品質を向上させるために、複数の予め設定されたデータ強化操作が含まれる。その後、第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行う場合、データ強化ポリシーにおける各データ強化操作に従って、トレーニングデータに対してデータ強化を順次行い、データ強化後のトレーニングデータにより、第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行うことができる。
【0061】
トレーニングデータが画像データであることを例とすると、表1に示す各データ強化操作及び各データ強化操作に対応する各操作振幅を予め設定することができる。
図1におけるデータ強化操作のタイプは合計14種類であり、その中の11種類のデータ強化操作にはそれぞれ3種類の操作振幅が設定され、他の3種類のデータ強化操作には操作振幅を設定する必要がなく、異なる操作振幅の同じ種類のデータ強化操作を異なるデータ強化操作として扱うことができ、したがって、表1には合計36つのデータ強化操作がある。データ強化ポリシーに2つのデータ強化操作が含まれる場合、表1のデータ強化操作を組み合わせて、36×36つのデータ強化ポリシーを取得することができる。したがって、表1に表1によると、36×36つの予め設定されたポリシーを設定することができる。
【0062】
【0063】
S402において、データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して、第2段階のトレーニングを行う。
【0064】
1つの可能な実施形態では、初期のデータ強化ポリシーが取得された後、データ強化ポリシーにより、トレーニングデータに対してデータ強化を行うことができ、データ強化後のトレーニングデータにより、第1段階トレーニング済みデータ処理モデルに対して第2段階トレーニングを行い、第2段階トレーニング済みデータ処理モデルを取得し、それによってデータ処理モデルへの後期トレーニングでトレーニングデータに対してデータ強化を行い、データ強化ポリシーがデータ処理モデルへの後期トレーニングにより大きな影響を与えるという特徴を十分に利用する。
【0065】
S403において、第2段階トレーニング済みデータ処理モデルに基づいて、データ強化ポリシーを更新する。
【0066】
1つの可能な実施形態では、データ処理モデルは、第1段階のトレーニング及び第2段階のトレーニングが行われた後、そのトレーニングプロセスが完了され、トレーニングされた処理モデルが取得される。したがって、第2段階トレーニング済みデータ処理モデルのトレーニング効果を検証し、検証結果を取得することができる。
【0067】
1つの可能な実施形態では、データ処理モデルの検証結果が得られると、データ強化ポリシーによりトレーニングデータへのデータ強化を行う場合、データ強化後のトレーニングデータに基づいてトレーニングされたデータ処理モデルのトレーニング効果を理解することができ、これにより、データ処理モデルの検証結果は、現在の使用されているデータ強化ポリシーの品質を示すことがわかる。したがって、データ処理モデルの検証結果に基づいて、データ強化ポリシーを更新することができる。データ強化ポリシーを更新するプロセスでは、ポリシー更新スペースにおける予め設定されたポリシーを更新後のデータ強化ポリシーとして取得することができる。
【0068】
S404において、更新後のデータ強化ポリシーが予め設定された条件を満たしているか否かを確定する。
【0069】
1つの可能な実施形態では、更新後のデータ強化ポリシーが予め設定された条件を満たしている場合、ステップS406を実行し、更新後のデータ強化ポリシーが予め設定された条件を満たしていない場合、S405を実行する。
【0070】
S405において、初期のデータ強化ポリシーを更新後のデータ強化ポリシーとして更新する。
【0071】
1つの可能な実施形態では、初期のデータ強化ポリシーを更新後のデータ強化ポリシーとして更新し、即ち現在の使用されているデータ強化ポリシーを更新後のデータ強化ポリシーとして更新し、ステップS402にスキップして、データ強化ポリシーを複数回更新する。
【0072】
S406において、最終的なデータ強化ポリシーを取得する。
【0073】
1つの可能な実施形態では、更新後のデータ強化ポリシーが予め設定された条件を満たしている場合、データ強化ポリシーの更新を停止し、すべての更新プロセスにおいて第2段階トレーニング済みデータ処理モデルの検証結果が最も高いものを選択した場合、使用されているデータ強化ポリシーは、最終的なデータ強化ポリシーとして使用され、これにより、データ強化ポリシーの品質を効果的に向上させる。
【0074】
1つの可能な実施形態では、M回目の更新されたデータ強化ポリシーを取得し、Mが1以上であり、M回目の更新されたデータ強化ポリシー及びトレーニングデータに基づいて、第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行い、第2段階トレーニング済みデータ強化モデルに基づいて、データ強化ポリシーに対してM+1回目の更新を行う。
【0075】
1つの可能な実施形態では、データ強化ポリシーの更新回数が予め設定された回数閾値に達するか否かを確定することにより、更新後のデータ強化ポリシーが予め設定された条件を満たしているか否かを確定することができる。更新回数が回数閾値に達する場合、更新後のデータ強化ポリシーが予め設定された条件を満たしていることを確定し、更新回数が回数閾値に達しない場合、更新後のデータ強化ポリシーが予め設定された条件を満たしていないことを確定し、これにより、更新回数により、データ強化ポリシーの更新を継続するか否かを制御し、データ強化ポリシーを常に更新することを回避する。
【0076】
1つの可能な実施形態では、データ強化ポリシーの更新回数が予め設定された回数閾値に達するか否かを確定することにより、データ強化ポリシーの継続的な更新を停止するか否かを確定する以外、第2段階トレーニング済みデータ処理モデルの検証結果が予め設定された条件を満たしているか否かを確定することにより、データ強化ポリシーの継続的な更新を停止するか否かを確定することもできる。
【0077】
ここで、データ処理モデルの検証結果と予め設定された検証閾値を比較することができ、データ処理モデルの検証結果が検証閾値よりも大きい場合、第2段階トレーニング済みデータ処理モデルが予め設定された条件を満たしていることを確定し、データ強化ポリシーを最終的なデータ強化ポリシーとして設定し、データ処理モデルの検証結果が当該検証閾値以下である場合、第2段階トレーニング済みデータ処理モデルが予め設定された条件を満たしていないことを確定し、データ強化ポリシーの更新を継続する。
【0078】
1つの可能な実施形態では、毎回の更新プロセスにおけるデータ強化ポリシーの数が複数であり、各データ強化ポリシーの更新が並行して実行されるため、データ強化ポリシーの生成効率を効果的に向上させる。
【0079】
1つの可能な実施形態では、予め設定された更新回数ごとに、第2段階トレーニング済みデータ処理モデルに基づいて、更新後の各データ強化ポリシーから、最適なデータ強化ポリシーを選択し、更新後のデータ強化ポリシーにおいて、更新後のデータ強化ポリシーにおいて、最適なポリシー以外の各データ強化ポリシーを最適なデータ強化ポリシーにそれぞれ置き換え、これにより、更新プロセスの収束性及びデータ強化ポリシーの生成効率が向上する。ここで、最適なデータ強化ポリシーを選択するプロセスにおいて、第2段階トレーニング済みデータ処理モデルのトレーニング効果を検証して得られた検証結果に基づいて選択する。
【0080】
1つの可能な実施形態では、トレーニングデータは、画像データ又はテキストデータであり、トレーニングデータが画像データである場合、データ処理モデルは、画像処理モデルであり、トレーニングデータがテキストデータである場合、データ処理モデルは、自然言語処理モデルである。したがって、本開示の実施例によるデータ強化ポリシーの更新方法は、画像処理分野にけるデータ強化ポリシーの生成及び自然言語分野におけるデータ強化ポリシーの生成に適用可能である。
【0081】
本開示の実施例では、初期のデータ強化ポリシー及びトレーニングデータにより、第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行い、第2段階トレーニング済みデータ処理モデルに基づいてデータ強化ポリシーを複数回更新し、データ強化ポリシーがデータ処理モデルへの後期トレーニングにより大きな影響を与えるという特徴を十分に利用し、データ強化ポリシーの品質を確保しながらデータ強化ポリシーの生成効率を向上させる。
【0082】
図5は本開示の別の実施例によるデータ強化ポリシーの更新方法のフローチャートである。
図5に示すように、当該方法は、以下のステップを含む。
【0083】
S501において、初期のデータ強化ポリシーを取得する。
【0084】
1つの可能な実施形態では、予め設定された各ポリシーから、初期のデータ強化ポリシーを取得することができる。予め設定された各データ強化ポリシーから初期のデータ強化ポリシーを取得する以外、ユーザによって予め設定された初期のデータ強化ポリシーを直接取得することができる。又は、予め設定された各データ強化操作から初期のデータ強化操作を取得し、さらに初期のデータ強化ポリシーを取得することができる。
【0085】
1つの可能な実施形態では、予め設定された各データ強化ポリシーから初期のデータ強化ポリシーを取得する場合、予め設定された各ポリシーから1つ又は複数の予め設定されたポリシーを初期のデータ強化ポリシーとして均一かつランダムに選択することにより、初期のデータ強化ポリシーの選択の公平性が向上する。ここで、予め設定された各ポリシーから1つ又は複数の予め設定されたポリシーを均一かつランダムに選択すると、予め設定された各ポリシーの選択確率が等しいことを示す。
【0086】
1つの可能な実施形態では、予め設定された各ポリシーから複数の予め設定されたポリシーを初期のデータ強化ポリシーとして均一かつランダムに選択する場合、初期のデータ強化ポリシーが複数であることを示し、後の更新プロセスにおいて、各データ強化ポリシーを同期的に更新するため、データ強化ポリシーの生成効率が向上する。
【0087】
S502において、データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して、第2段階のトレーニングを行う。
【0088】
1つの可能な実施形態では、データ強化ポリシーにおけるデータ強化操作により、トレーニングデータに対してデータ強化を行い、データ強化ポリシーに複数のデータ強化操作が含まれる場合、データ強化ポリシーにおける各データ強化操作により、トレーニングデータに対してデータ強化を順次行い、データ強化後のトレーニングデータを得る。データ強化後のトレーニングデータにより、第1段階トレーニング済みデータ処理モデルに対して2段階のトレーニングを行い、第2段階トレーニング済みデータ処理モデルを取得する。
【0089】
S503において、第2段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新する。
【0090】
ここで、ポリシーモデルは、パラメータ化モデルであり、そのパラメータは、予め設定されたポリシーパラメータであり、ポリシー操作を調整することにより、ポリシーモデルの出力を調整することができる。ポリシーモデルの出力は、予め設定された各ポリシーの選択確率であり、即ち、データ強化ポリシーが更新された場合、予め設定された各ポリシーが更新後のデータ強化ポリシーとして選択される確率である。したがって、ポリシーモデルは、1つの多項式分布として理解されてもよい。
【0091】
1つの可能な実施形態では、予め設定された検証データを取得することができ、検証データは、入力データと、入力データに対応するラベルデータを含む。例えば、画像データを例とすると、検証データが画像データであり、かつデータ処理モデルのタスクが画像分類タスクである場合、検証データは、入力画像と、入力画像に対応する分類ラベルとを含み、分類ラベルは、入力データのカテゴリである。
【0092】
1つの可能な実施形態では、検証データ内の入力データを第2段階トレーニング済みデータ処理モデルに入力し、データ処理モデルの出力結果を取得し、データ処理モデルの出力結果と入力データに対応するラベルデータとを比較すると、データ処理モデルの検証結果を得ることができる。ここで、データ処理モデルを検証することは、データ処理モデルのトレーニング効果を検証することを指す。例えば、画像データを例とすると、検証データが画像データであり、かつデータ処理モデルのタスクが画像分類タスクである場合、入力画像をデータ処理モデルに入力し、データ処理モデルの出力と入力画像に対応する分類ラべルとを比較すると、データ処理モデルの分類精度を取得することができる。
【0093】
1つの可能な実施形態では、データ処理モデルの検証結果が取得された後、当該検証結果に応じて、ポリシーモデルのポリシーパラメータを更新し、更新後のポリシーモデルを取得することができる。
【0094】
S504において、更新後のポリシーモデルにより、予め設定された各ポリシーの選択確率を確定する。
【0095】
S505において、予め設定された各ポリシーの選択確率に従って、予め設定された各ポリシーから更新後のデータ強化ポリシーを選択する。
【0096】
いくつかの実施形態では、更新後のポリシーモデルに従って、予め設定された各ポリシーの選択確率を新たに確定し、予め設定された各ポリシーの選択確率に従って、予め設定された各ポリシーから1つの予め設定されたポリシーを更新後のデータ強化ポリシーとして選択することができる。
【0097】
1つの可能な実施形態では、ポリシーパラメータには予め設定された各ポリシーに対応する重みが含まれ、ポリシーパラメータを更新し、即ち予め設定された各ポリシーに対応する重みを更新する。初期のデータ強化ポリシーを取得するプロセスでは、予め設定された各ポリシーのために同じ重みを設定することにより、予め設定された各ポリシーからの初期のデータ強化ポリシーの均一かつランダムな選択を実現することができる。ポリシーパラメータを更新するプロセスでは、予め設定された各ポリシーの重みに異なる変化が発生し、予め設定された各ポリシーの選択確率は、徐々に異なる。したがって、第2段階トレーニング済みデータモデルのトレーニング効果に応じて、ポリシーパラメータを調整し、ポリシーモデルに基づいて、予め設定された各ポリシーの選択確率を新たに確定し、予め設定された各ポリシーから品質がより良いデータ強化ポリシーを継続的に選択することにより、データ強化ポリシーの生成効率が向上するだけでなく、データ強化ポリシーの品質が確保される。
【0098】
1つの可能な実施形態では、ポリシーモデルは、式(1)に表されてもよい。
【0099】
【0100】
ここで、
【0101】
【0102】
は、自然対数の底であり、
【0103】
【0104】
は、ポリシーパラメータにおけるk番目の重みであり、即ちk番目の予め設定されたポリシーに対応する重みであり、Kは、予め設定されたポリシーの総数を表し、
【0105】
【0106】
は、k番目の予め設定されたポリシーを表し、
【0107】
【0108】
は、k番目の予め設定されたポリシーの選択確率を表す。したがって、ポリシーモデルと予め設定された各ポリシーに対応する重みを含むポリシーパラメータとに基づいて、予め設定された各ポリシーの選択確率を確定することができ、ポリシーパラメータを調整することにより、予め設定された各ポリシーの選択確率を効果的に調整することができ、それによってデータ強化ポリシーの生成効率が向上するだけでなく、データ強化ポリシーの品質が確保される。
【0109】
1つの可能な実施形態では、ポリシーパラメータの更新は、式(2)に表されてもよい。
【0110】
【0111】
ここで、
【0112】
【0113】
は、第2段階トレーニング済みデータ処理モデルの検証結果を表し、
【0114】
【0115】
は、第2段階トレーニング済みデータ処理モデルのモデルパラメータを表し、
【0116】
【0117】
は、検証データを表す。
【0118】
1つの可能な実施形態では、第2段階トレーニング済みデータ処理モデルの検証結果に応じてポリシーパラメータを更新するプロセスでは、予め設定されたヒューリスティック検索アルゴリズムによりポリシーパラメータの更新を実現して、ポリシーパラメータの更新効果を向上させることができる。
【0119】
1つの可能な実施形態では、ポリシーパラメータ更新のためのヒューリスティック検索アルゴリズムが強化学習アルゴリズムである場合、ポリシーパラメータの更新は、式(3)に表されてもよい。
【0120】
【0121】
ここで、
【0122】
【0123】
は、ポリシーパラメータの勾配値を表し、
【0124】
【0125】
は、強化学習アルゴリズムにおけるn番目の検索軌跡を表し、
【0126】
【0127】
は、強化学習アルゴリズムにおける検索軌跡
【0128】
【0129】
が検索される確率を表し、Nは、強化学習アルゴリズムにおける検索軌跡の数を表し、
【0130】
【0131】
は、第2段階トレーニング済みデータ処理モデルの検証結果の期待値を表す。
【0132】
ここで、強化学習アルゴリズムによりポリシーパラメータを更新するプロセスでは、ポリシーパラメータの勾配値
【0133】
【0134】
に強化学習アルゴリズムにおける予め設定された学習率を掛けて積を取得し、その積をポリシーパラメータに追加して、更新後のポリシーパラメータを取得することができる。例えば、Adam(adaptive moment estimation:適応モーメント推定)アルゴリズムを強化学習アルゴリズムとして使用する場合、Adamの学習率は、
【0135】
【0136】
に設定されてもよい。
【0137】
1つの可能な実施形態では、データ強化測定及びトレーニングデータに基づいて、第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行うプロセスでは、第2段階のトレーニングによって取得されたデータ処理モデルのモデルパラメータは、式(4)に表されてもよい。
【0138】
【0139】
ここで、xは、トレーニングデータ内の入力データを表し、yは、トレーニングデータのうち、xに対応するラべルデータを表し、
【0140】
【0141】
は、xに対してデータ強化を行うことを表し、
【0142】
【0143】
は、予め設定された損失関数を表し、
【0144】
【0145】
は、ポリシーモデルによって取得された確率分布に従って、予め設定された各ポリシーからデータ強化ポリシーを選択することを表し、
【0146】
【0147】
は、トレーニングデータを表し、Zは、トレーニングデータ内の入力データxの数を表す。
【0148】
1つの可能な実施形態では、データ処理モデルに対して第1段階のトレーニングを予め行うプロセスでは、予め設定された各ポリシーから、第1段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択し、第1段階でのデータ強化ポリシーに基づいてトレーニングデータに対してデータ強化を行い、データ強化のトレーニングデータに基づいて、データ処理モデルに対して第1段階のトレーニングを行い、これにより、第1段階のトレーニングでもトレーニングデータに対してデータ強化を行い、それによって第1段階トレーニング済みデータ処理モデルのトレーニング効果が向上する。
【0149】
1つの可能な実施形態では、第1段階トレーニング済みデータ処理モデルのモデルパラメータは、式(5)に表されてもよい。
【0150】
【0151】
ここで、
【0152】
【0153】
は、第1段階トレーニング済みデータ処理モデルのモデルパラメータを表し、
【0154】
【0155】
は、均一な確率分布に従って、予め設定された各ポリシーからデータ強化ポリシーを選択することを表す。
【0156】
本開示の実施例では、データ強化ポリシーがデータ処理モデルの後期トレーニングに大きな影響を与えるという特徴を十分に利用し、データ強化ポリシー及びトレーニングデータに基づいて、第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行い、第2段階トレーニング済みデータ処理モデルに基づいて、ポリシーモデルを更新し、更新後のポリシーモデルにより、予め設定された各ポリシーの選択確率を確定し、予め設定された各ポリシーの選択確率を調整し、更新後のデータ強化ポリシーの品質を最適することにより、データ強化ポリシーの品質が高くなるだけでなく、データ強化ポリシーの生成効率が向上する。
【0157】
図6は本開示の別の実施例によるデータ強化ポリシーの更新方法のフローチャートである。
図6に示すように、当該方法は、以下のステップを含む。
【0158】
S601において、初期のデータ強化ポリシーを取得する。
【0159】
S602において、データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して、第2段階のトレーニングを行う。
【0160】
S603において、第2段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新する。
【0161】
1つの可能な実施形態では、第2段階トレーニング済みデータ処理モデルに基づいて、ポリシーモデルを更新するプロセスでは、検証データにより、第2段階トレーニング済みデータ処理モデルのトレーニング効果を検証し、検証結果を取得し、データ強化ポリシーの前のN-1回の更新における第2段階トレーニング済みデータ処理モデルの検証結果を取得する。説明を明確にするために、データ強化ポリシーの前のN-1回の更新における第2段階トレーニング済みデータ処理モデルの検証結果は、履歴検証結果と呼ばれ、当該検証結果及び履歴検証結果をまとめてポリシーモデルを更新し、毎回の更新プロセスにおける当該ポリシーモデル更新の安定性を確保し、さらにデータ強化ポリシーの更新効果を向上させることができる。ここで、Nは、データ強化ポリシーの現在の更新の総回数であり、N回目の更新は、現在の更新プロセスを指す。
【0162】
1つの可能な実施形態では、当該検証結果及び履歴検証結果をまとめて、ポリシーモデルを更新するプロセスにおいて、履歴検証結果の平均値を確定し、検証結果と当該平均値との差を確定し、差に基づいてポリシーモデルにおけるポリシーパラメータを更新し、毎回の更新プロセスにおける当該ポリシーモデルの更新の安定性を確定し、さらにデータ強化ポリシーの更新効果を向上させることができる。ポリシーパラメータの更新プロセスでは、ヒューリスティック検索アルゴリズムを使用することができるが、ここで説明を省略する。
【0163】
S604において、更新後のポリシーモデルにより、予め設定された各ポリシーの選択確率を確定する。
【0164】
S605において、予め設定された各ポリシーの選択確率に従って、予め設定された各ポリシーから更新後のデータ強化ポリシーを選択する。
【0165】
1つの可能な実施形態では、ステップS601~S605についてステップS501~S505の詳細な説明を参照することができ、ここで説明を省略する。
【0166】
S606において、更新後のデータ強化ポリシーが予め設定された条件を満たしているか否かを確定する。
【0167】
1つの可能な実施形態では、更新後のデータ強化ポリシーが予め設定された条件を満たしている場合、ステップS608を実行し、更新後のデータ強化ポリシーが予め設定された条件を満たしていない場合、S607を実行する。
【0168】
S607において、初期のデータ強化ポリシーを更新後のデータ強化ポリシーとして更新する。
【0169】
1つの可能な実施形態では、初期のデータ強化ポリシーを更新後のデータ強化ポリシーとして更新し、ステップS602にスキップして、データ強化ポリシーを複数回更新し、データ強化ポリシーの品質を向上させる。
【0170】
S608において、最終的なデータ強化ポリシーを取得する。
【0171】
1つの可能な実施形態では、更新後のデータ強化ポリシーを最終的なデータ強化ポリシーに設定する。
【0172】
1つの可能な実施形態では、データ強化ポリシーの更新回数が予め設定された回数閾値に達するか否かを確定することにより、更新後のデータ強化ポリシーが予め設定された条件を満たしているか否かを確定することができ、更新回数が回数閾値に達する場合、更新後のデータ強化ポリシーが予め設定された条件を満たしていることを確定し、更新回数が回数閾値に達しない場合、更新後のデータ強化ポリシーが予め設定された条件を満たしていないことを確定する。これにより、更新回数により、データ強化ポリシーの更新を継続するか否かを制御し、データ強化ポリシーを常に更新することを回避する。
【0173】
1つの可能な実施形態では、データ強化ポリシーの更新回数が予め設定された回数閾値に達するか否かを確定することにより、データ強化ポリシーの継続的な更新を停止するか否かを確定する以外、第2段階トレーニング済みデータ処理モデルの検証結果が予め設定された条件を満たしているか否かを確定することにより、データ強化ポリシーの継続的な更新を停止するか否かを確定することができる。
【0174】
1つの可能な実施形態では、データ処理モデルの検証結果と予め設定された検証閾値とを比較することができ、データ処理モデルの検証結果が検証閾値よりも大きい場合、第2段階トレーニング済みデータ処理モデルが予め設定された条件を満たしていることを示し、データ強化ポリシーを最終的なデータ強化ポリシーとして設定し、データ処理モデルの検証結果が当該検証閾値以下である場合、データ強化ポリシーの更新を継続する。
【0175】
1つの可能な実施形態では、予め設定された更新回数ごとに、第2段階トレーニング済みデータ処理モデルに基づいて、更新後の各データ強化ポリシーから、最適なデータ強化ポリシーを選択し、更新後のデータ強化ポリシーにおいて、最適なポリシー以外の各データ強化ポリシーを最適なデータ強化ポリシーにそれぞれ置き換え、これにより、更新プロセスの収束性及びデータ強化ポリシーの生成効率が向上する。ここで、最適なデータ強化プロセスを選択するプロセスにおいて、第2段階トレーニング済みデータ処理モデルのトレーニング効果を検証して得られた検証結果に基づいて選択することができる。
【0176】
例えば、
図7は複数のデータ強化ポリシーの並行更新プロセスを示してる。
図7に示すように、各直方体が1つのデータ強化ポリシーを表し、各立方体が1つのデータ処理モデルを表し、確率(ACC:Accuracy)が第2段階トレーニング済みデータ処理モデルの検証結果を表し、各行は、1つのデータ強化ポリシーの更新プロセスを表し、各列は、各データ強化ポリシーの1回の更新を表す。
【0177】
図7に示すように、予め設定された各ポリシーからの1つの初期のデータ強化ポリシーを均一かつランダムに選択することができ、当該初期のデータ強化ポリシーを複数部コピーし、複数の同じ初期データ強化ポリシーを取得し、複数のデータ強化ポリシーが並行して更新され、予め設定された回数ごとに、更新後の各データ強化ポリシーから最適なデータ強化ポリシーを選択し、点線矢印で示すポリシーコピーなどの最適なデータ強化ポリシーコピーを行い、ここでのポリシーコピーは、更新後の各データ強化ポリシーにおいて、最適なデータ強化ポリシー以外の残りのデータ強化ポリシーを当該最適なデータ強化ポリシーに置き換えることである。したがって、データ強化ポリシーの複数回の更新の収束性を効果的に向上させて、品質が良いデータ強化ポリシーを取得することができる。
【0178】
図7に示すように、1回の更新プロセスでは、第1段階トレーニング済みデータ処理モデルのモデルパラメータ
【0179】
【0180】
をデータ処理モデルにロードし、第1段階トレーニング済みデータ処理モデルを取得し、データ強化ポリシー及びトレーニングデータにより、第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行い、さらに検証データにより検証し、ACC、即ち第2段階トレーニング済みデータ処理モデルの検証結果を取得し、当該検証結果に基づいて、データ強化ポリシーを更新し、更新後のデータ強化ポリシーを取得する。
【0181】
図7からわかるように、本開示の実施例では、複数のデータ強化ポリシーを並行して更新することができ、データ強化ポリシーの毎回の更新プロセスでは、データ処理モデルに対して第2段階のトレーニングを行うだけでよく、予め設定された更新回数ごとに、更新後の各データ強化ポリシーを現在の最適なデータ強化ポリシーに置き換え、かつポリシーパラメータ更新の計算量が少ないため、データ強化ポリシーの更新効率を効果的に高め、データ強化ポリシーの生成効率を向上させ、かつデータ強化ポリシーの品質を確保する。
【0182】
1つの実施例では、総トレーニング回数に占める第1段階のトレーニングのトレーニング回数の比率、又は総トレーニング回数に占める第2段階のトレーニングのトレーニング回数の比率を調整することで、データ強化ポリシーの生成効率を向上させることができる。
【0183】
図8は本開示の一実施例によるデータ処理方法のフローチャートである。
図8に示すように、当該方法は、以下のステップを含む。
【0184】
S801において、処理待ちデータを取得する。
【0185】
ここで、ユーザによって入力された処理データを取得することができ、予め収集された処理待ちデータを取得することもできる。
【0186】
S802において、予めトレーニングされたデータ処理モデルにより、処理待ちデータを処理し、データ処理モデルが、第1段階のトレーニングと第2段階のトレーニングが順次行われ、第2のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータにより前記データ処理モデルをトレーニングする。
【0187】
ここで、データ処理モデルを予めトレーニングし、データ処理モデルのトレーニングプロセスにいて、まずデータ処理モデルに対して第1段階のトレーニングを行い、次にデータ強化ポリシー及びトレーニングデータに基づいてデータ処理モデルに対して第2段階のトレーニングを行い、これにより、データ強化ポリシーがデータ処理モデルの後期トレーニングに大きな影響を与えるという特徴を十分に利用し、データ処理モデルのデータ処理効果及びモデルトレーニング効率を向上させる。
【0188】
1つの可能な実施形態では、処理待ちデータをデータ処理モデルに入力し、データ処理モデルによって処理待ちデータを処理し、対応する処理結果を取得する。
【0189】
1つの可能な実施形態では、データ処理モデルへの第2段階のトレーニングで使用されるデータ強化ポリシーは、データ強化ポリシーの品質及び生成効率を向上させ、さらにデータ処理モデルのデータ処理効果及びモデルトレーニング効率を向上させるために、上記のいずれかの実施例によるデータ強化ポリシーの更新方法により取得されてもよい。
【0190】
1つの可能な実施形態では、データ処理モデルをトレーニングするプロセスにおいて、まずトレーニングデータにより、データ処理モデルに対して第1段階のトレーニングを行い、第1段階トレーニング済みデータ処理モデルを取得することができる。さらにデータ強化ポリシーにより、トレーニングデータに対してデータ強化を行い、データ強化後のトレーニングデータに基づいて、第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行い、トレーニングされたデータ処理モデルを取得し、これにより、データ強化ポリシーがデータ処理モデルの後期トレーニングに大きな影響を与えるという特徴を十分に利用し、データ処理モデルのデータ処理効果及びモデルトレーニング効率を向上させる。
【0191】
1つの可能な実施形態では、データ処理モデルに対して第1段階のトレーニングを行うプロセスでは、予め設定された各ポリシーから、データ強化ポリシーを第1段階のトレーニングにおけるデータ強化ポリシーとして均一かつランダムに選択することができ、選択されたデータ強化ポリシーにより、トレーニングデータに対してデータ強化を行い、データ強化後のトレーニングデータによりデータ処理モデルに対して第1段階のトレーニングを行い、これにより、データ強化ポリシーを均一かつランダムに選択し、モデルのトレーニングに費やす時間をできるだけ増やすことなく、データ処理モデルへの第1段階のトレーニング効果を高め、さらにデータ処理モデルへの全体的なトレーニング効果を向上させる。
【0192】
1つの可能な実施形態では、処理待ちデータ及びトレーニングデータは、画像データ又はテキストデータであってもよく、データ処理モデルが画像処理モデルである場合、処理待ちデータ及びトレーニングデータは、画像データであり、データ処理モデルが自然言語処理モデルである場合、処理待ちデータ及びトレーニングデータは、テキストデータであり、これにより、画像処理効果又は自然言語処理効果が向上する。
【0193】
本開示の実施例では、予めトレーニングされたデータ処理モデルにより、処理待ちデータを処理し、当該データ処理モデルのトレーニングプロセスは、第1段階のトレーニング及び第2段階のトレーニングに分けられ、第2段階のトレーニングプロセスでは、予め設定されたデータ強化ポリシーが使用されるため、データ処理モデルのデータ処理効果及びモデルトレーニング効率が向上し、さらにデータ処理効果が高くなる。
【0194】
以下、本開示の実施例における1つの実際の応用シーンでの例示的な応用について説明する。
【0195】
自動機械学習は、現在の機械学習分野の1つのホットスポット分野であり、その関連技術は、多くの分野で、モデル表現を向上させ、チューニングに必要な人員を削減するという役割を果たすことができる。画像データ強化技術は、画像処理分野でも広く使用されている。自動機械学習技術により画像データ強化プロセスを自動化することにより、データ強化のターゲット性を向上させ、不要な手動調整を減らすことができる。しかしながら、特定のタスクのデータセットで適切な強化ポリシーを見つけることは複雑であり、これは、データセットの規模が一般的に大きく、直接見つけるためのオーバーヘッドが許容できないためである。1つの共通のポリシーを見つけてそれをすべてのタスクに適用するだけの場合、モデルの向上機能は低くなる。しかしながら、既存のいくつかの自動データ強化検索技術は、一部のオーバーヘッドが依然として大きく、一部の向上効果も理想的ではない。ここで、機械学習プロセスの一部又は全部を自動化する。最も一般的なタスクは、適切なモデル構造、適切なデータ強化ポリシー、適切な損失関数、適切なオプティマイザーを自動的に見つけるなどの機械学習のパラメーターを自動的に調整することである。
【0196】
本開示の実施例によるデータ強化ポリシーの更新方法では、時間消費と評価精度との間の良好なバランスを達成することができ、即ち、通常の規模のデータセットで検索を直接実行し、安定な向上を得ることができ、かつ、複数の画像分類データセットに適用し、一定の遷移可能能力を持ち、また、各画像分類タスクに容易に組み込むこともできる。
【0197】
1つの可能な実施形態では、当該データ強化ポリシーの更新方法は、画像データ強化ポリシーの検索を含む。検索プロセスは、以下の3つのステップに分けて実行されてもよい。まず、モデルは、均一かつランダムなポリシーの下で前期のトレーニングが行われる。次にワンショット(検索ポリシー)検索段階を行い、即ち前期トレーニングの終了状態を繰り返しロードして後期トレーニングを実行し、同時に検索する。検索目標は、後期トレーニングの表現を最適化することである。最後に、検索されたポリシーを元のタスクに適用し、全体的なトレーニングを行い、最終的なモデル表現を取得する。ここで、ワンショットは1つの検索ポリシーであり、元の意図が検索スペース全体において一度に1つの「パス」をとることであり、複数回繰り返される単一のサンプリング更新として広く理解されてもよい。この方法の前期及び後期トレーニングの比率を合理的に調整することにより、検索の時間効率を大幅に向上させることができる。また、発明者は、後期トレーニングがデータ強化の影響に対してより敏感であることを観察した。したがって、実験では評価指標の安定性が損なわれることも観察されない。この方法により、所定のデータセットの下での各画像分類モデルの性能を向上させ、モデルが複数のタスクシーンでより高い性能を得ることに役立つことができる。
【0198】
本開示の実施例によるデータ強化ポリシーの更新方法は、主に以下のステップを含む。
【0199】
ステップAにおいて、均一かつランダムなデータ強化ポリシーを使用して前期トレーニングを行う。
【0200】
1つの可能な実施形態では、当該ステップAは、トレーニングされていない初期モデルを取得ステップと、均一かつランダムなデータ強化ポリシーの下でトレーニングし、前期トレーニングが完了されたモデルを取得するステップとを含む。ここで、ステップAにおいて、指定された画像分類データセット、完全にトレーニングされていないモデルが入力され、前期トレーニングが完了されたモデルが出力される。
【0201】
1つの可能な実施形態では、当該ステップAは、
トレーニングされていない初期モデルを開始点として使用するステップを含む。実験では、複数種類のモデルを選択してそれぞれ独立して実験することができる。
【0202】
前期トレーニングプロセスでは、画像は、同じ確率で様々なデータ強化が行われる。実際の実験的観察により、データ強化を実行しない場合と比較して、均一なデータ強化を実行すると、より高い効果が得られることを発見する。選択されたデータ強化操作は、公平性を確保するために、様々な自動データ強化操作であってもよい。操作リストが表1に示され、第2列は、各操作の異なる振幅値を表している。振幅値の違いを考慮すると、合計36種類の可能なデータ強化操作がある。トレーニングするときに、2つの操作は、各ピクチャーに対して均一かつランダムに使用される。データ強化操作後のピクチャーは、モデルによって実際に得られた入力として使用される。
【0203】
前期トレーニングが完了されたモデルを後期トレーニングのために保存する。
【0204】
ステップBにおいて、ワンショット(One-Shot)検索を行い、即ち後期トレーニングを行い、データ強化ポリシーを継続的に更新する。
【0205】
1つの可能な実施形態では、当該繰り返しトレーニングの詳細について
図7を参照することができ、
図7に示すように、各直方体が1つのデータ強化ポリシーを表し、各立方体が1つのデータ処理モデルを表し、正確率(ACC:Accuracy)が第2段階トレーニング済みデータ処理モデルの検証結果を表し、各行は、1つのデータ強化ポリシーの更新プロセスを表し、各列は、各データ強化ポリシーの1回の更新を表す。
【0206】
ここで、1回の更新プロセスには、前期トレーニングが完了されたモデルをロードすることが含まれてもよい。即ち、後期トレーニングを行うたびに、モデルパラメータは、前期トレーニングが完了されたパラメータにリセットされる。現在のポリシーを使用してデータ強化を制御し、後期トレーニングを行う。現在のポリシーは、1つのパラメータ化されたモデルであり、そのパラメータは、各データ強化操作の確率を導き出すことができる。各ピクチャーに対して2回のデータ強化操作を行うため、順番関係を考慮すると、合計36*36=1296種類の強化方法がある。なお、ポリシーは、後期トレーニングするたびにリセットされず、検索期間全体が終了するまで更新されたままになる。後期トレーニングが完了されたモデルを取得する。このとき、モデルを評価する。画像分類を実際のタスクとして選択することにより、評価指標は、分類の正確率である。評価指標の安定性及び相対性を向上させるために、毎回の評価から過去の指数を引いた平均値をスライドさせることができる。このときのモデル評価指標を使用してポリシーを更新する。ここでは強化学習を使用して更新し、その更新の目標は、モデルの評価指標を向上させることである。
【0207】
トレーニング及び更新を数回繰り返した後、最終的なポリシーが得られる。最終的なポリシーは、所望のトレーニングプロセスに容易に追加するために、1つの短いスクリプトとして導き出されてもよい。
【0208】
ステップCにおいて、最終的なポリシーを使用して新たにレーニングし、最終的なモデルと最終的な表現を取得する。当該ステップでは、各ピクチャーは、最終的なポリシーの制御下で(対応する確率値の下で)データ強化が行われる。当該ステップが完了された後、最終的なモデルと表現が得られる。
【0209】
本開示の実施例によるデータ強化ポリシーの更新方法は、ワンショット(One-Shot)考え方を利用し、検索効率と評価精度との間に良好なバランスを達成し、且つ同様な条件でより良好な実験効果を達成する。同時に、アルゴリズム検索の結果は、容易に導き出されてもよく、他のタスクに柔軟に使用されてもよい。
【0210】
本開示の実施例によるデータ強化ポリシーの更新方法では、画像分類タスク又は他の画像処理タスクのトレーニングプロセスにおいてデータ強化を直接行って、より良い表現及びより高い汎化性を取得することを望むことができ、高度にカスタマイズされたデータ強化ポリシーを取得するために、指定されたデータセットと指定されたモデルにおけるデータ強化ポリシーの検索を実現することができ、カスタマイズされた検索スペースと組み合わせて、より広範なタスクのデータ強化ポリシー検索を行うことができる。例えば、自然言語処理などの分野である。
【0211】
図9は本開示の一実施例によるデータ強化ポリシー更新装置の構造図である。
図9に示すように、当該装置は、
初期のデータ強化ポリシーを取得するように構成される取得部901と、
データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して、第2段階のトレーニングを行うように構成されるトレーニング部902と、
第2段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新し、更新後のデータ強化ポリシーを取得するように構成される更新部903と、を備える。
【0212】
1つの可能な実施形態では、更新部903は、さらに、
初期のデータ強化ポリシーを更新後のデータ強化ポリシーとして更新して、データ強化ポリシーを複数回更新するように構成される。
【0213】
1つの可能な実施形態では、データ強化ポリシーの数が複数であり、各データ強化ポリシーの更新が並行して実行され、更新部903は、さらに、
予め設定された更新回数ごとに、第2段階トレーニング済みデータ処理モデルに基づいて、更新後の各データ強化ポリシーから最適なデータ強化ポリシーを選択し、
更新後のデータ強化ポリシーにおいて、最適なポリシー以外の各データ強化ポリシーを最適なデータ強化ポリシーにそれぞれ置き換えるように構成される。
【0214】
1つの可能な実施形態では、データ強化ポリシーには予め設定された複数のデータ強化操作が含まれ、トレーニング部902は、さらに、
各データ強化操作に従って、トレーニングデータに対してデータ強化を順次行い、
データ強化後のトレーニングデータにより、第1段階トレーニング済みデータ処理モデルに対して2段階のトレーニングを行うように構成される。
【0215】
1つの可能な実施形態では、トレーニングデータは、画像データ又はテキストデータである。
【0216】
1つの可能な実施方式では、更新部903は、さらに、
第2段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新し、
更新後のポリシーモデルにより、予め設定された各ポリシーの選択確率を確定し、
予め設定された各ポリシーの選択確率に従って、予め設定された各ポリシーから更新後のデータ強化ポリシーを選択するように構成される。
【0217】
1つの可能な実施形態では、データ強化ポリシーの更新回数が複数回である場合、更新部903は、さらに、
予め設定された検証データに基づいて、第2段階トレーニング済みデータ処理モデルを検証し、検証結果を取得し、
データ強化ポリシーの前のN-1回の更新における前記第2段階トレーニング済みデータ処理モデルの履歴検証結果を取得し、Nがデータ強化ポリシーの現在の更新の総回数であり、
履歴検証結果と検証結果に基づいて、ポリシーモデルを更新するように構成される。
【0218】
1つの可能な実施形態では、更新部903は、さらに、
履歴検証結果の平均値を確定し、
検証結果と平均値との差を確定し、
差に基づいて、ポリシーモデルにおけるポリシーパラメータを更新するように構成される。
【0219】
1つの可能な実施形態では、トレーニング部902は、さらに、
予め設定された各ポリシーから、第1段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択し、
第1段階のトレーニングにおけるデータ強化ポリシー及びトレーニングデータに基づいて、データ処理モデルに対して第1段階のトレーニングを行うように構成される。
【0220】
図9に提供されるデータ強化ポリシー更新装置は、上記の対応する方法の実施例を実行することができ、その実施原理及び技術的効果は、類似しており、ここでは説明を省略する。
【0221】
図10は本開示の一実施例によるデータ処理装置の構造図である。
図10に示すように、当該装置は、
処理待ちデータを取得するように構成される取得部1001と、
予めトレーニングされたデータ処理モデルにより、処理待ちデータを処理し、データ処理モデルが、第1段階のトレーニングと第2段階のトレーニングが順次行われ、第2のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータにより前記データ処理モデルをトレーニングするように構成される処理部1002と、を備える。
【0222】
1つの可能な実施形態では、データ強化ポリシーは、上記のいずれかの実施例に示されるデータ強化ポリシーの更新方法を使用して生成される。
【0223】
1つの可能な実施形態では、当該装置は、トレーニング部をさらに備え、トレーニング部は、さらに、
トレーニングデータに基づいて、データ処理モデルに対して第1段階のトレーニングを行い、
データ強化ポリシーにより、トレーニングデータに対してデータ強化を行い、
データ強化後のトレーニングデータに基づいて、第1段階トレーニング済みデータ処理モデルに対して2段階のトレーニングを行うように構成される。
【0224】
1つの可能な実施形態では、トレーニング部は、さらに、
予め設定された各ポリシーから、第1段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択し、
第1段階のトレーニングにおけるデータ強化ポリシー及びトレーニングデータに基づいて、データ処理モデルに対して第1段階のトレーニングを行うように構成される。
【0225】
1つの可能な実施形態では、処理待ちデータとトレーニングデータは、画像データ又はテキストデータである。
【0226】
図10に提供されるデータ処理装置は、上記の対応する方法の実施例を実行することができ、その実施原理及び技術的効果は、類似しており、ここでは説明を省略する。
【0227】
図11は本開示の実施例による電子デバイスの構造図である。
図11に示すように、当該電子デバイスは、プロセッサ1101とメモリ1102とを備えることができる。メモリ1102は、コンピュータ実行命令を記憶するように構成され、プロセッサ1101は、コンピュータプログラムを実行するときに、上記のいずれかの実施例の方法を実現するように構成される。
【0228】
上記プロセッサ1101は、中央プロセッサ(CPU:central processing unit)、ネットワークプロセッサ(NP:network processor)などを含む汎用プロセッサであってもよく、デジタル信号プロセッサ(DSP:Digital Signal Processor)、特定用途向け集積回路(ASIC:application-specific integrated circuit)、フィールドプログラマブルゲートアレイ(FPG:field-programmable gate array)又は他のプログラマブル論理デバイス、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェアコンポーネントであってもよい。上記メモリ1102は、ランダムアクセスメモリ(RAM:Random Access Memory)を含むことができ、不揮発性メモリ(non-volatile memory)、例えば少なくとも1つの磁気ディスクメモリを含むこともできる。
【0229】
本開示の実施例は、コンピュータ可読記憶媒体をさらに提供し、前記コンピュータ可読記憶媒体には命令が記憶されており、コンピュータで実行される場合、コンピュータに上記のいずれかの実施例の方法を実行させる。
【0230】
本開示の実施例は、プログラム製品をさらに提供し、前記プログラム製品は、コンピュータプログラムを含み、前記コンピュータプログラムは、記憶媒体に記憶され、少なくとも1つのプロセッサは、前記プログラムを前記記憶から読み取ることができ、前記少なくとも1つのプロセッサは、前記コンピュータプログラムを実行するときに上記のいずれかの実施例の方法を実現することができる。
【0231】
図12は本実施例によるデータ強化ポリシー更新装置1200のブロック図である。例えば、装置1200は、サーバー又はコンピュータとして提供されてもよい。
図12を参照すると、装置1200は、1つ又は複数のプロセッサをさらに含む処理コンポーネント、及び処理コンポーネント1201で実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1202によって表されるメモリリソースを備える。メモリ1202に記憶されたアプリケーションプログラムは、それぞれが1グループの命令に対応する1つ又は複数の部分を含むことができる。また、処理コンポーネント1201は、上記の
図3から
図6のいずれかの実施例の方法を実行するための命令を実行するように構成される。
【0232】
装置1200は、装置1200の電源管理を実行するように構成された電源コンポーネント1203、装置1200をネットワークに接続するように構成された有線又は無線ネットワークインターフェース1204、及び入出力(I/O)インターフェース1205を備えることができる。装置1200は、例えばWindows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標)、Linux(登録商標)、FreeBSDTMなどのメモリ1202に記憶されているオペレーティングシステムに基づいて動作することができる。
【0233】
本開示の実施例では、「少なくとも1つ」は、1つ又は複数を意味し、[複数]は、2つ又は2つ以上を意味する。「及び/又は」は、関連するオブジェクトの関連関係を記述するためのものであり、3種類の関係が存在してもよいことを示し、A及び/又はBは、Aが単独で存在すること、AとBが同時に存在すること、Bが単独で存在することの3つの状況を示すことができ、A、Bは、単数形又は複数形であってもよい。文字「/」は、一般的に前後にある関連オブジェクトが「又は」の関係であることを示し、式において、文字「/」は、前後にある関連オブジェクトが「割り算」関係であることを示す。「以下の少なくとも1アイテム(個)」又はその類似の表現は、単一のアイテム(個)又は複数のアイテム(個)の任意の組み合わせを含む、これらのアイテムの任意の組み合わせを指す。例えば、a、b又はcの少なくとも1アイテム(個)は、a、b、c、a-b、a-c、b-c、又はa-b-cを示すことができ、a、b、cは、単一であってもよく、複数であってもよい。
【0234】
本開示の実施例に係る様々な数字番号は、説明を容易にするために区別するためのものだけであり、本開示の実施例の範囲を限定するために使用されないことが理解可能である。
【0235】
本開示の実施例では、上記各プロセスの番号の大きさが実行順序を意味せず、各プロセスの実行順序は、その機能と内部論理で確定されるべきであり、本開示の実施例の実施プロセスのいかなる限定を構成すべきではないことが理解可能である。
【0236】
当業者は明細書を考慮及びここで開示された発明を実践した後、本開示の他の実施手段を容易に想到する。本開示の実施例は、本開示のいかなる変形、用途又は適応変更をカバーすることを意図しており、これらの変形、用途又は適応変更が本開示の一般的な原理に従い且つ本開示に開示されていない本技術分野における公知常識又は一般的な技術的手段を含む。明細書及び実施例は、単に例示的なものとして見なされるが、本開示の真の範囲と精神は、以下の特許請求の範囲によって示される。
【0237】
開示は、以上に説明され且つ添付図面に示された正確な構造に限定されず、且つその範囲から逸脱することなく様々な修正及び変更を行うことができることが理解すべきである。本開示の範囲は添付の特許請求の範囲のみによって制限される。
【産業上の利用可能性】
【0238】
本開示の実施例は、初期のデータ強化ポリシー及びトレーニングデータにより、第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行い、第2段階トレーニング済みデータ処理モデルに基づいて、データ強化ポリシーを更新する。このように、データ強化ポリシーがデータ処理モデルへの後期トレーニングにより大きな影響を与えるという特徴を十分に利用し、データ強化ポリシーの品質を確保しながらデータ強化ポリシーの生成効率を向上させることができる。
【手続補正書】
【提出日】2021-11-22
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
データ強化ポリシーの更新方法であって、
初期のデータ強化ポリシーを取得するステップと、
前記データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して、第2段階のトレーニングを行うステップと、
第2段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新し、更新後のデータ強化ポリシーを取得するステップと、を含む、データ強化ポリシーの更新方法。
【請求項2】
前記データ強化ポリシーの更新方法は、
M回目の更新された前記データ強化ポリシーを取得するステップであって、前記Mが1以上である、ステップと、
M回目の更新された前記データ強化ポリシー及び前記トレーニングデータに基づいて、前記第1段階トレーニング済みデータ処理モデルに対して、第2段階のトレーニングを行うステップと、
第2段階トレーニング済みデータ強化モデルに基づいて、前記データ強化ポリシーに対してM+1回目の更新を行うステップと、をさらに含む
請求項1に記載のデータ強化ポリシーの更新方法。
【請求項3】
前記初期のデータ強化ポリシーの数が複数であり、各前記データ強化ポリシーの更新が並行して実行され、前記データ強化ポリシーの更新方法は、
予め設定された更新回数ごとに、前記第2段階トレーニング済みデータ処理モデルに基づいて、更新後の各前記データ強化ポリシーから最適なデータ強化ポリシーを選択するステップと、
更新後の前記データ強化ポリシーにおいて、前記最適なポリシー以外の各前記データ強化ポリシーを前記最適なデータ強化ポリシーにそれぞれ置き換えるステップと、をさらに含むことを特徴とする
請求項2に記載のデータ強化ポリシーの更新方法。
【請求項4】
前記データ強化ポリシーには、複数の予め設定されたデータ強化操作が含まれ、前記データ強化ポリシー及び予め設定されたトレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行うステップは、
各前記データ強化操作に従って、前記トレーニングデータに対してデータ強化を順次行うステップと、
データ強化後の前記トレーニングデータにより、前記第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行うステップと、を含むことを特徴とする
請求項1-3のいずれか一項に記載のデータ強化ポリシーの更新方法。
【請求項5】
前記第2段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新するステップは、
前記第2段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新するステップと、
更新後の前記ポリシーモデルにより、予め設定された各ポリシーの選択確率を確定するステップと、
前記予め設定された各ポリシーの選択確率に従って、前記予め設定された各ポリシーから更新後の前記データ強化ポリシーを選択するステップと、を含むことを特徴とする
請求項1-3のいずれか一項に記載のデータ強化ポリシーの更新方法。
【請求項6】
前記データ強化ポリシーの更新回数が複数回である場合、第2段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新するステップは、
予め設定された検証データに基づいて、前記第2段階トレーニング済みデータ処理モデルを検証し、検証結果を取得するステップと、
前記データ強化ポリシーの前のN-1回の更新における前記第2段階トレーニング済みデータ処理モデルの履歴検証結果を取得するステップであって、前記Nが前記データ強化ポリシーの現在の更新の総回数である、ステップと、
前記履歴検証結果と前記検証結果に基づいて、前記ポリシーモデルを更新するステップと、を含
み、
前記履歴検証結果と前記検証結果に基づいて、前記ポリシーモデルを更新するステップは、
前記履歴検証結果の平均値を確定するステップと、
前記検証結果と前記平均値との差を確定するステップと、
前記差に基づいて、前記ポリシーモデルにおけるポリシーパラメータを更新するステップと、を含むことを特徴とする
請求項5に記載のデータ強化ポリシーの更新方法。
【請求項7】
前記初期のデータ強化ポリシーを取得するステップの前に、前記データ強化ポリシーの更新方法は、
予め設定された各ポリシーから、前記第1段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択するステップと、
前記第1段階のトレーニングにおけるデータ強化ポリシーと前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第1段階のトレーニングを行うステップと、をさらに含むことを特徴とする
請求項1-3のいずれか一項に記載のデータ強化ポリシーの更新方法。
【請求項8】
データ処理方法であって、
処理待ちデータを取得するステップと、
予めトレーニングされたデータ処理モデルにより、前記処理待ちデータを処理するステップであって、前記データ処理モデルは、第1段階のトレーニングと第2段階のトレーニングが順次行われ、前記データ処理モデルは、前記第2のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータによりトレーニングされ、前記データ強化ポリシーは請求項1-8のいずれか一項に記載のデータ強化ポリシーの更新方法を使用して生成される、ステップと、を含む、データ処理方法。
【請求項9】
前記データ処理方法は、
前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第1段階のトレーニングを行うステップと、
前記データ強化ポリシーにより、前記トレーニングデータに対してデータ強化を行うステップと、
データ強化後の前記トレーニングデータに基づいて、前記第1段階トレーニング済みデータ処理モデルに対して前記第2段階のトレーニングを行うステップと、をさらに含むことを特徴とする
請求項
8に記載のデータ処理方法。
【請求項10】
前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第1段階のトレーニングを行うステップは、
予め設定された各ポリシーから、前記第1段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択するステップと、
前記第1段階のトレーニングにおけるデータ強化ポリシーと前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第1段階のトレーニングを行うステップと、を含
み、
前記処理待ちデータと前記トレーニングデータは、画像データ又はテキストデータであることを特徴とする
請求項10に記載のデータ処理方法。
【請求項11】
データ強化ポリシー更新装置であって、
初期のデータ強化ポリシーを取得するように構成される取得部と、
前記データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行うように構成されるトレーニング部と、
第2段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新し、更新後の前記データ強化ポリシーを取得するように構成される更新部と、を備える、データ強化ポリシー更新装置。
【請求項12】
データ処理装置であって、
処理待ちデータを取得するように構成される取得部と、
予めトレーニングされたデータ処理モデルにより、前記処理待ちデータを処理するように構成される処理部であって、前記データ処理モデルは、第1段階のトレーニングと第2段階のトレーニングが順次行われ、前記データ処理モデルは、前記第2のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータによりトレーニングされ、前記データ強化ポリシーは請求項1-8のいずれか一項に記載の更新方法を使用して生成される、処理部と、を備える、データ処理装置。
【請求項13】
プログラム命令を記憶するメモリと、
前記メモリに記憶された前記プログラムコマンドを呼び出して請求項1-
7のいずれか一項又は請求項
8-10のいずれか一項に記載の方法を実行するプロセッサと、を備える、電子デバイス。
【請求項14】
コンピュータに、請求項1-
7のいずれか一項又は請求項
8-10のいずれか一項に記載の方法を実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
【請求項15】
コンピュータに、請求項1-
7のいずれか一項又は請求項
8-10のいずれか一項に記載の方法を実行させ
る、コンピュータプログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0025
【補正方法】変更
【補正の内容】
【0025】
以上の一般的な説明及び以下の詳細な説明が例示的及び解釈的なものだけであり、本開示を制限するものではないことを理解すべきである。
例えば、本願は以下の項目を提供する。
(項目1)
データ強化ポリシーの更新方法であって、
初期のデータ強化ポリシーを取得するステップと、
前記データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して、第2段階のトレーニングを行うステップと、
第2段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新し、更新後のデータ強化ポリシーを取得するステップと、を含む、データ強化ポリシーの更新方法。
(項目2)
前記データ強化ポリシーの更新方法は、
M回目の更新された前記データ強化ポリシーを取得するステップであって、前記Mが1以上である、ステップと、
M回目の更新された前記データ強化ポリシー及び前記トレーニングデータに基づいて、前記第1段階トレーニング済みデータ処理モデルに対して、第2段階のトレーニングを行うステップと、
第2段階トレーニング済みデータ強化モデルに基づいて、前記データ強化ポリシーに対してM+1回目の更新を行うステップと、をさらに含む
項目1に記載のデータ強化ポリシーの更新方法。
(項目3)
前記初期のデータ強化ポリシーの数が複数であり、各前記データ強化ポリシーの更新が並行して実行され、前記データ強化ポリシーの更新方法は、
予め設定された更新回数ごとに、前記第2段階トレーニング済みデータ処理モデルに基づいて、更新後の各前記データ強化ポリシーから最適なデータ強化ポリシーを選択するステップと、
更新後の前記データ強化ポリシーにおいて、前記最適なポリシー以外の各前記データ強化ポリシーを前記最適なデータ強化ポリシーにそれぞれ置き換えるステップと、をさらに含むことを特徴とする
項目2に記載のデータ強化ポリシーの更新方法。
(項目4)
前記データ強化ポリシーには、複数の予め設定されたデータ強化操作が含まれ、前記データ強化ポリシー及び予め設定されたトレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行うステップは、
各前記データ強化操作に従って、前記トレーニングデータに対してデータ強化を順次行うステップと、
データ強化後の前記トレーニングデータにより、前記第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行うステップと、を含むことを特徴とする
項目1-3のいずれか一項に記載のデータ強化ポリシーの更新方法。
(項目5)
前記第2段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新するステップは、
前記第2段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新するステップと、
更新後の前記ポリシーモデルにより、予め設定された各ポリシーの選択確率を確定するステップと、
前記予め設定された各ポリシーの選択確率に従って、前記予め設定された各ポリシーから更新後の前記データ強化ポリシーを選択するステップと、を含むことを特徴とする
項目1-3のいずれか一項に記載のデータ強化ポリシーの更新方法。
(項目6)
前記データ強化ポリシーの更新回数が複数回である場合、第2段階トレーニング済みデータ処理モデルに基づいて、予め設定されたポリシーモデルを更新するステップは、
予め設定された検証データに基づいて、前記第2段階トレーニング済みデータ処理モデルを検証し、検証結果を取得するステップと、
前記データ強化ポリシーの前のN-1回の更新における前記第2段階トレーニング済みデータ処理モデルの履歴検証結果を取得するステップであって、前記Nが前記データ強化ポリシーの現在の更新の総回数である、ステップと、
前記履歴検証結果と前記検証結果に基づいて、前記ポリシーモデルを更新するステップと、を含むことを特徴とする
項目5に記載のデータ強化ポリシーの更新方法。
(項目7)
前記履歴検証結果と前記検証結果に基づいて、前記ポリシーモデルを更新するステップは、
前記履歴検証結果の平均値を確定するステップと、
前記検証結果と前記平均値との差を確定するステップと、
前記差に基づいて、前記ポリシーモデルにおけるポリシーパラメータを更新するステップと、を含むことを特徴とする
項目6に記載のデータ強化ポリシーの更新方法。
(項目8)
前記初期のデータ強化ポリシーを取得するステップの前に、前記データ強化ポリシーの更新方法は、
予め設定された各ポリシーから、前記第1段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択するステップと、
前記第1段階のトレーニングにおけるデータ強化ポリシーと前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第1段階のトレーニングを行うステップと、をさらに含むことを特徴とする
項目1-3のいずれか一項に記載のデータ強化ポリシーの更新方法。
(項目9)
データ処理方法であって、
処理待ちデータを取得するステップと、
予めトレーニングされたデータ処理モデルにより、前記処理待ちデータを処理するステップであって、前記データ処理モデルは、第1段階のトレーニングと第2段階のトレーニングが順次行われ、前記データ処理モデルは、前記第2のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータによりトレーニングされ、前記データ強化ポリシーは項目1-8のいずれか一項に記載のデータ強化ポリシーの更新方法を使用して生成される、ステップと、を含む、データ処理方法。
(項目10)
前記データ処理方法は、
前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第1段階のトレーニングを行うステップと、
前記データ強化ポリシーにより、前記トレーニングデータに対してデータ強化を行うステップと、
データ強化後の前記トレーニングデータに基づいて、前記第1段階トレーニング済みデータ処理モデルに対して前記第2段階のトレーニングを行うステップと、をさらに含むことを特徴とする
項目9に記載のデータ処理方法。
(項目11)
前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第1段階のトレーニングを行うステップは、
予め設定された各ポリシーから、前記第1段階のトレーニングにおけるデータ強化ポリシーを均一かつランダムに選択するステップと、
前記第1段階のトレーニングにおけるデータ強化ポリシーと前記トレーニングデータに基づいて、前記データ処理モデルに対して前記第1段階のトレーニングを行うステップと、を含むことを特徴とする
項目10に記載のデータ処理方法。
(項目12)
前記処理待ちデータと前記トレーニングデータは、画像データ又はテキストデータであることを特徴とする
項目9-11のいずれか一項に記載のデータ処理方法。
(項目13)
データ強化ポリシー更新装置であって、
初期のデータ強化ポリシーを取得するように構成される取得部と、
前記データ強化ポリシー及び予め設定されたレーニングデータに基づいて、予め設定された第1段階トレーニング済みデータ処理モデルに対して第2段階のトレーニングを行うように構成されるトレーニング部と、
第2段階トレーニング済みデータ処理モデルに基づいて、前記データ強化ポリシーを更新し、更新後の前記データ強化ポリシーを取得するように構成される更新部と、を備える、データ強化ポリシー更新装置。
(項目14)
データ処理装置であって、
処理待ちデータを取得するように構成される取得部と、
予めトレーニングされたデータ処理モデルにより、前記処理待ちデータを処理するように構成される処理部であって、前記データ処理モデルは、第1段階のトレーニングと第2段階のトレーニングが順次行われ、前記データ処理モデルは、前記第2のトレーニング段階で、予め設定されたデータ強化ポリシー及び予め設定されたトレーニングデータによりトレーニングされ、前記データ強化ポリシーは項目1-8のいずれか一項に記載の更新方法を使用して生成される、処理部と、を備える、データ処理装置。
(項目15)
プログラム命令を記憶するメモリと、
前記メモリに記憶された前記プログラムコマンドを呼び出して項目1-8のいずれか一項又は項目9-12のいずれか一項に記載の方法を実行するプロセッサと、を備える、電子デバイス。
(項目16)
コンピュータに、項目1-8のいずれか一項又は項目9-12のいずれか一項に記載の方法を実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
(項目17)
電子デバイスで実行される場合、前記電子デバイスでのプロセッサに、項目1-8のいずれか一項又は項目9-12のいずれか一項に記載の方法を実行させるためのコンピュータ可読コードを含む、コンピュータプログラム。
【国際調査報告】