IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2023-11883事前トレーニングモデルの生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム
<>
  • 特開-事前トレーニングモデルの生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図1
  • 特開-事前トレーニングモデルの生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図2
  • 特開-事前トレーニングモデルの生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図3
  • 特開-事前トレーニングモデルの生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図4
  • 特開-事前トレーニングモデルの生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023011883
(43)【公開日】2023-01-24
(54)【発明の名称】事前トレーニングモデルの生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム
(51)【国際特許分類】
   G06N 3/08 20230101AFI20230117BHJP
【FI】
G06N3/08
【審査請求】有
【請求項の数】21
【出願形態】OL
【公開請求】
(21)【出願番号】P 2022178057
(22)【出願日】2022-11-07
(31)【優先権主張番号】202111310437.1
(32)【優先日】2021-11-05
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000914
【氏名又は名称】弁理士法人WisePlus
(72)【発明者】
【氏名】シー, トン
(72)【発明者】
【氏名】ジャン, ガン
(57)【要約】      (修正有)
【課題】人工知能技術分野に関し、事前トレーニングモデルの生成方法、装置、電子機器、記憶媒体及びプログラムを提供する。
【解決手段】方法は、複数のタスクのうちの各タスクに対して、ハイパーネットワークに基づく探索空間に含まれる複数のモデル構造から特定される候補モデル構造集合に対応する性能指標集合を特定し、複数のタスクと一対一に対応する複数の性能指標集合に基づいて、候補モデル構造集合から、性能指標条件を満たすモデル構造である目標モデル構造を特定し、目標モデル構造を事前トレーニングモデルとして特定する。
【選択図】図2
【特許請求の範囲】
【請求項1】
複数のタスクのうちの各タスクに対して、ハイパーネットワークに基づく探索空間に含まれる複数のモデル構造から特定される候補モデル構造集合に対応する性能指標集合を特定することと、
前記複数のタスクと一対一に対応する複数の性能指標集合に基づいて、前記候補モデル構造集合から、性能指標条件を満たすモデル構造である目標モデル構造を特定することと、
前記目標モデル構造を事前トレーニングモデルとして特定することと、を含む、
事前トレーニングモデルの生成方法。
【請求項2】
複数のタスクのうちの各タスクに対して、前記タスクに対応するトレーニングセットを用いて前記タスクに対応するハイパーネットワークをトレーニングし、前記タスクに対応するトレーニングされたハイパーネットワークを取得することと、
前記複数のタスクに一対一に対応する複数のトレーニングされたハイパーネットワークに基づいて、前記探索空間を取得することと、をさらに含む、
請求項1に記載の方法。
【請求項3】
前記複数のタスクのうちの各タスクに対して、候補モデル構造集合に対応する性能指標集合を特定することは、
前記複数のタスクのうちの各タスクに対して、前記タスクに対応する性能予測器を用いて前記候補モデル構造集合を処理し、前記候補モデル構造集合に対応する性能指標集合を取得することを含む、
請求項1又は2に記載の方法。
【請求項4】
前記探索空間から評価モデル構造集合を特定することと、
前記評価モデル構造集合を用いて、前記複数のタスクに一対一に対応する複数の性能予測器を取得することと、をさらに含む、
請求項3に記載の方法。
【請求項5】
前記評価モデル構造集合を用いて、前記複数のタスクに一対一に対応する複数の性能予測器を取得することは、
前記複数のタスクのうちの各タスクに対して、前記評価モデル構造集合を用いて前記タスクに対応する評価セットを処理し、前記評価モデル構造集合に対応する性能指標集合を取得することと、
前記複数のタスクのうちの各タスクに対して、前記評価モデル構造集合及び前記評価モデル構造集合に対応する性能指標集合を用いて、前記タスクに対応する性能予測器を取得することと、を含む、
請求項4に記載の方法。
【請求項6】
前記評価モデル構造集合に対応する評価モデルコード集合を特定することをさらに含み、
前記複数のタスクのうちの各タスクに対して、前記評価モデル構造集合及び前記評価モデル構造集合に対応する性能指標集合を用いて、前記タスクに対応する性能予測器を取得することは、
前記複数のタスクのうちの各タスクに対して、前記評価モデル構造集合に対応する評価モデルコード集合及び性能指標集合を用いて、前記タスクに対応する性能予測器を取得することを含む、
請求項5に記載の方法。
【請求項7】
前記探索空間から評価モデル構造集合を特定することは、
前記探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーを特定することと、
前記探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーに基づいて、前記探索空間から前記評価モデル構造集合を特定することと、を含む、
請求項4に記載の方法。
【請求項8】
前記探索空間から評価モデル構造集合を特定することは、
前記探索空間に含まれる複数のモデル構造に基づいて、前記探索空間に対応する少なくとも1つのクラスタセンターを特定することと、
前記探索空間に対応する少なくとも1つのクラスタセンターに基づいて、前記探索空間から前記評価モデル構造集合を特定することと、を含む、
請求項4に記載の方法。
【請求項9】
前記性能指標集合に含まれる複数の性能指標のうちの各性能指標は、
精度値、リコール率値、トレーニング速度値、予測速度値の少なくとも1つを含む、
請求項1又は2に記載の方法。
【請求項10】
複数のタスクのうちの各タスクに対して、ハイパーネットワークに基づく探索空間に含まれる複数のモデル構造から特定される候補モデル構造集合に対応する性能指標集合を特定する第1の特定モジュールと、
前記複数のタスクと一対一に対応する複数の性能指標集合に基づいて、前記候補モデル構造集合から、性能指標条件を満たすモデル構造である目標モデル構造を特定する第2の特定モジュールと、
前記目標モデル構造を事前トレーニングモデルとして特定する第3の特定モジュールと、を含む、
事前トレーニングモデルの生成装置。
【請求項11】
複数のタスクのうちの各タスクに対して、前記タスクに対応するトレーニングセットを用いて前記タスクに対応するハイパーネットワークをトレーニングし、前記タスクに対応するトレーニングされたハイパーネットワークを取得する第1の取得モジュールと、
前記複数のタスクに一対一に対応する複数のトレーニングされたハイパーネットワークに基づいて、前記探索空間を取得する第2の取得モジュールと、をさらに含む、
請求項10に記載の装置。
【請求項12】
前記第1の特定モジュールは、
前記複数のタスクのうちの各タスクに対して、前記タスクに対応する性能予測器を用いて前記候補モデル構造集合を処理し、前記候補モデル構造集合に対応する性能指標集合を取得する第1の取得サブモジュールを含む、
請求項10又は11に記載の装置。
【請求項13】
前記探索空間から評価モデル構造集合を特定する第4の特定モジュールと、
前記評価モデル構造集合を用いて、前記複数のタスクに一対一に対応する複数の性能予測器を取得する第3の取得モジュールと、をさらに含む、
請求項12に記載の装置。
【請求項14】
前記第3の取得モジュールは、
前記複数のタスクのうちの各タスクに対して、前記評価モデル構造集合を用いて前記タスクに対応する評価セットを処理し、前記評価モデル構造集合に対応する性能指標集合を取得する第2の取得サブモジュールと、
前記複数のタスクのうちの各タスクに対して、前記評価モデル構造集合及び前記評価モデル構造集合に対応する性能指標集合を用いて、前記タスクに対応する性能予測器を取得する第3の取得サブモジュールと、を含む、
請求項13に記載の装置。
【請求項15】
前記評価モデル構造集合に対応する評価モデルコード集合を特定する第5の特定モジュールをさらに含み、
前記第3の取得サブモジュールは、
前記複数のタスクのうちの各タスクに対して、前記評価モデル構造集合に対応する評価モデルコード集合及び性能指標集合を用いて、前記タスクに対応する性能予測器を取得する第1の取得ユニットを含む、
請求項14に記載の装置。
【請求項16】
前記第4の特定モジュールは、
前記探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーを特定する第1の特定サブモジュールと、
前記探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーに基づいて、前記探索空間から前記評価モデル構造集合を特定する第2の特定サブモジュールと、を含む、
請求項13に記載の装置。
【請求項17】
前記第4の特定モジュールは、
前記探索空間に含まれる複数のモデル構造に基づいて、前記探索空間に対応する少なくとも1つのクラスタセンターを特定する第3の特定サブモジュールと、
前記探索空間に対応する少なくとも1つのクラスタセンターに基づいて、前記探索空間から前記評価モデル構造集合を特定する第4の特定サブモジュールと、を含む、
請求項13に記載の装置。
【請求項18】
前記性能指標集合に含まれる複数の性能指標のうちの各性能指標は、
精度値、リコール率値、トレーニング速度値、予測速度値の少なくとも1つを含む、
請求項10又は11に記載の装置。
【請求項19】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、
前記命令は、前記少なくとも1つのプロセッサが請求項1又は2に記載の方法を実行することができるように、前記少なくとも1つのプロセッサにより実行される、
電子機器。
【請求項20】
コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1又は2に記載の方法を実行させる、
非一時的なコンピュータ可読記憶媒体。
【請求項21】
プロセッサにより実行される場合に、請求項1又は2に記載の方法を実現する
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能技術分野に関し、特にコンピュータビジョン及びディープラーニングの技術分野に関する。具体的には、事前トレーニングモデルの生成方法、装置、電子機器、記憶媒体、及びコンピュータプログラムに関する。
【背景技術】
【0002】
事前トレーニングモデルは、大量のトレーニングデータを用いて、所定モデルをトレーニングして得られた、タスクと無関係なモデルを指してもよい。下流タスクに対して、下流タスクに関連する少量のトレーニングデータを用いて、事前トレーニングモデルを微調整して、下流タスクを処理するためのモデルを取得することができる。例えば、下流タスクは、画像処理タスク、音声処理タスク又はテキスト処理タスクなどを含んでよい。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本開示は、事前トレーニングモデルの生成方法、装置、電子機器、記憶媒体、及びコンピュータプログラムを提供する。
【課題を解決するための手段】
【0004】
本開示の一態様によれば、事前トレーニングモデルの生成方法を提供し、当該方法は、複数のタスクのうちの各タスクに対して、探索空間に含まれる複数のモデル構造から特定される候補モデル構造集合に対応する性能指標集合を特定することと、前記複数のタスクと一対一に対応する複数の性能指標集合に基づいて、前記候補モデル構造集合から、性能指標条件を満たすモデル構造である目標モデル構造を特定することと、前記目標モデル構造を事前トレーニングモデルとして特定することと、を含む。
【0005】
本開示の別の態様によれば、事前トレーニングモデルの生成装置を提供し、当該装置は、複数のタスクのうちの各タスクに対して、ハイパーネットワークに基づく探索空間に含まれる複数のモデル構造から特定される候補モデル構造集合に対応する性能指標集合を特定する第1の特定モジュールと、前記複数のタスクと一対一に対応する複数の性能指標集合に基づいて、前記候補モデル構造集合から、性能指標条件を満たすモデル構造である目標モデル構造を特定する第2の特定モジュールと、前記目標モデル構造を事前トレーニングモデルとして特定する第3の特定モジュールと、を含む。
【0006】
本開示の別の態様によれば、電子機器を提供し、当該電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが前記のような方法を実行することができるように、前記少なくとも1つのプロセッサにより実行される。
【0007】
本開示の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令が、コンピュータに前記のような方法を実行させる。
【0008】
本開示の別の態様によれば、コンピュータプログラムを提供し、プロセッサにより実行される場合に、前記のような方法を実現する。
【0009】
理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
【0010】
ここで、図面は、本開示の発明をよりよく理解するために用いられ、本開示を限定するものではない。
【図面の簡単な説明】
【0011】
図1図1は、本開示の実施例に係る事前トレーニングモデルを適用可能な生成方法及び装置の例示的なシステムアーキテクチャを模式的に示す図である。
図2図2は、本開示の実施例に係る事前トレーニングモデルの生成方法を模式的に示すフローチャートである。
図3図3は、本開示の実施例に係る事前トレーニングモデルの生成過程を模式的に示す原理概略図である。
図4図4は、本開示の実施例に係る事前トレーニングモデルの生成装置を模式的に示すブロック図である。
図5図5は、本開示の実施例に係る事前トレーニングモデルの生成方法を実現することに適する電子装置を模式的に示すブロック図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、本開示の範囲及び精神から逸脱することがなく、ここで記載される実施例に対して様々な変更・修正を行うことができると分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
【0013】
事前トレーニングモデルは、次のように生成されてもよい。
【0014】
1つの方式は、人工設計に基づくモデル構造を用いて事前トレーニングモデルを生成することである。すなわち、人工設計のモデル構造により、事前トレーニングモデルを取得する。例えば、人工設計のモデル構造は、ResNet(Residual Neural Network、残差ネットワーク)に基づくモデル構造又はTransformerに基づくモデル構造を含んでもよい。
【0015】
もう1つの方式は、自動ディープラーニング(即ちAutoDL)に基づいて探索して得られたモデル構造を用いて事前トレーニングモデルを生成することである。すなわち、自動探索方法に基づいて、ImageNetデータセットを用いて、AutoDLに基づくモデル構造を取得してもよい。AutoDLに基づくモデル構造を用いて、事前トレーニングモデルを生成する。
【0016】
上記1つの方式について、人工設計に基づくモデル構造を用いて生成された事前トレーニングモデルの予測精度は、高くない。上記もう1つの方式について、ImageNetデータセットと実際のデータ処理タスクが利用するトレーニングセットとの間のデータ分布状況に、差異が存在し、したがって、AutoDLに基づくモデル構造を用いて生成された事前トレーニングモデルの予測精度も高くない。
【0017】
このために、本開示の実施例は、事前トレーニングモデルの生成解決案を提供し、すなわち、複数のタスクのうちの各タスクに対応する性能指標集合に基づいて、候補モデル構造集合から性能指標条件を満たす目標モデル構造を特定し、候補モデル構造集合は、ハイパーネットワークに基づく探索空間から特定され、複数のタスクに対して、性能指標条件を満たす事前トレーニングモデルを自動的に探索して取得し、事前トレーニングモデルの異なる複数種のタスクに対する精度を向上させる。これにより、規模の小さい事前トレーニングモデルは、規模の大きい事前トレーニングモデルと同様の予測精度を達成することができ、かつ規模の小さい事前トレーニングモデルのトレーニング速度がより速い。これを基礎として、事前トレーニングモデルをチップ又は他のハードウェア製品に適用して、文字処理タスク、画像処理タスク又は音声処理タスク等を実行すれば、関連製品のコアコンピタンスを向上させることができる。
【0018】
本開示の発明において、係るユーザ個人情報の収集、記憶、使用、加工、伝送、提供、開示および適用等の処理は、いずれも関連する法律・法規の規定に適合し、必要な秘密保守装置を行ない、かつ公序良俗に反するものではない。
【0019】
本開示の技術的解決案において、ユーザの個人情報を取得し、または採集する前に、いずれもユーザの納得または同意を取得した。
【0020】
図1は、本開示の実施例に係る事前トレーニングモデルを適用可能な生成方法及び装置の例示的なシステムアーキテクチャを模式的に示す図である。
【0021】
留意されるべきこととして、図1に示すのは、当業者が本開示の技術的内容をより理解しやすいように本開示の実施例のシステムアーキテクチャを適用可能な例示に過ぎず、一方、本開示の実施例は、他の装置、システム、環境又はシーンに適用されないことを意味するものではない。例えば、別の実施例において、事前トレーニングモデルの生成方法及び装置を適用することができる例示的なシステムアーキテクチャは、端末装置を含んでもよいが、端末装置は、サーバと対話する必要がなく、本開示の実施例が提供する事前トレーニングモデルの生成方法及び装置を実現することができる。
【0022】
図1に示すように、該実施例に係るシステムアーキテクチャ100は、端末装置101、102、103と、ネットワーク104と、サーバ105とを含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105との間に通信リンクの媒体を提供するために用いられる。ネットワーク104は、例えば、有線及び/又は無線通信リンクなどの様々な接続タイプを含んでもよい。
【0023】
ユーザは、端末装置101、102、103を用いてネットワーク104を介してサーバ105と対話することによって、メッセージ等を受信又は送信してもよい。端末装置101、102、103に、例えば、知識閲覧系アプリケーション、ウェブページブラウザアプリケーション、探索系アプリケーション、リアルタイム通信ツール、メールボックスクライアント及び/又はソーシャルプラットフォームソフトウェアなど(例に過ぎない)の様々な通信クライアントアプリケーションがインストールされておいてもよい。
【0024】
端末装置101、102、103は、表示スクリーンを備えかつウェブページの閲覧をサポートする様々な電子機器であってよく、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ等を含むが、それらに限定されない。
【0025】
サーバ105は、例えば、ユーザが端末装置101、102、103により閲覧されたコンテンツをサポートすることを提供するバックグラウンド管理サーバ(例に過ぎない)など、様々なサービスを提供する様々なタイプのサーバであってもよい。バックグラウンド管理サーバは、受信されたユーザ要求等のデータに対する分析するなどの処理を行い、処理結果(例えば、ユーザの要求に応じて取得又は生成されたウェブページ、情報、又はデータなど)を端末装置にフィードバックしてもよい。
【0026】
サーバ105は、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストと呼ばれ、クラウドコンピューティングサービス系統のうちの1つのホスト製品であり、従来の物理ホストとVPSサービス(Virtual Private Server、VPS)において存在する管理難度が大きく、業務拡張性が弱いという欠陥が解決されている。サーバ105は、システムのサーバであってもよく、又はブロックチェーンを組み合わせしたサーバであってもよい。
【0027】
説明すべきこととして、本開示の実施例が提供する事前トレーニングモデルの生成方法は、一般的にサーバ105により実行されてもよい。それに応じて、本開示の実施例が提供する事前トレーニングモデルの生成装置は、一般的にサーバ105に設置されてもよい。本開示の実施例が提供する事前トレーニングモデルの生成方法は、サーバ105とは異なりかつ端末機器101、102、103及び/又はサーバ105と通信可能なサーバ又はサーバクラスタによって実行されてもよい。それに応じて、本開示の実施例が提供する事前トレーニングモデルの生成装置は、サーバ105とは異なりかつ端末装置101、102、103及び/又はサーバ105と通信可能なサーバ又はサーバクラスタに設置されてもよい。
【0028】
又は、本開示の実施例が提供する事前トレーニングモデルの生成方法は、一般的に端末装置101、102、又は103により実行されてもよい。それに応じて、本開示の実施例が提供する事前トレーニングモデルの生成装置は、端末装置101、102、又は103に設置されてもよい。
【0029】
理解されるべきこととして、図1における端末装置、ネットワーク及びサーバの数は、単に例示的である。必要に応じて、任意の数の端末装置、ネットワーク及びサーバを備えてもよい。
【0030】
図2は、本開示の実施例に係る事前トレーニングモデルの生成方法を模式的に示すフローチャートである。
【0031】
図2に示すように、該方法は、操作S210~S230を含む。
【0032】
操作S210では、複数のタスクのうちの各タスクに対して、候補モデル構造集合に対応する性能指標集合を特定し、ここで、候補モデル構造集合は、探索空間に含まれる複数のモデル構造から特定され、探索空間は、ハイパーネットワークに基づく探索空間である。
【0033】
操作S220では、複数の性能指標集合に基づいて、候補モデル構造集合から目標モデル構造を特定し、ここで、目標モデル構造は性能指標条件を満たすモデル構造であり、複数の性能指標集合は、複数のタスクと一対一に対応する。
【0034】
操作S230では、目標モデル構造を事前トレーニングモデルとして特定する。
【0035】
本開示の実施例によれば、タスクは、例えば、画像処理タスク、テキスト処理タスク及び音声処理タスクなどに分けられるように、処理データに応じて分類されてもよい。複数のタスクのそれぞれは、画像処理タスク、テキスト処理タスク、音声処理タスクのいずれかであってもよい。しかし、それに限定されない。タスクは、例えば、分類タスク、検出タスク、分割タスク、識別タスク、検索タスクなどに分けられるように、適用分野に応じて分類されてもよい。複数のタスクのそれぞれは、分類タスク、検出タスク、分割タスク、認識タスク、検索タスクのいずれかであってもよい。
【0036】
本開示の実施例によれば、初期探索空間とは、モデル構造を提供するための空間であることを意味してもよい。初期探索空間は、1つ以上のハイパーネットワークに基づく探索空間を含んでもよい。初期探索空間は、全量の探索空間であってもよい。
【0037】
本開示の実施例によれば、複数のタスクの需要に応じて、複数のタスクに一対一に対応する複数の初期探索空間を構築してよもよく、例えば、複数のタスクのうちの各タスクに対して、初期探索空間は、タスクに対応する探索空間を含んでもよい。例えば、初期探索空間は、タスクに対応する、ResNet(Residual Neural Network、残差ネットワーク)に基づく探索空間、MobileNetに基づく探索空間、Transformerに基づく探索空間などのうちの1つを含んでもよい。しかし、それに限定されない。複数のタスクの需要に応じて、1つの初期探索空間を構築してもよい。例えば、複数のタスクに対して、初期探索空間は、異種探索空間を含んでもよい。異種探索空間は、異なるタイプの探索空間を含む探索空間を指してもよい。例えば、異種探索空間は、複数のタスクに一対一に対応する複数の探索空間を含む探索空間を指してもよい。
【0038】
本開示の実施例によれば、初期探索空間は、複数のモデル構造を含んでもよい。モデル構造は、上記1つ以上のタスクを実行するためのモデル構造であってもよい。各モデル構造は、少なくとも1つのモデルサブ構造と、異なるモデルサブ構造との間の接続関係を含んでもよい。各モデル構造は、異なるモデルサブ構造の間の接続関係に基づいて、少なくとも1つのモデルサブ構造を接続して得られる構造であってもよい。各モデル構造が含む少なくとも1つのモデルサブ構造は、少なくとも1つの操作層からの構造であってもよく、すなわち、各モデル構造は、異なるモデルサブ構造の間の接続関係に基づいて、少なくとも1つの操作層からの少なくとも1つのモデルサブ構造を接続して得られる構造であってもよい。例えば、少なくとも1つの操作層は、入力層、畳み込み層、プーリング層、全結合層、バッチ正規化層及び非線形層などのうちの少なくとも1つを含んでもよい。少なくとも1つのモデルサブ構造は、畳み込み構造(すなわち、畳み込みカーネル)、プーリング構造(すなわち、プーリングカーネル)、全結合構造及び正規化構造などのうちの少なくとも1つを含んでもよい。異なるモデルサブ構造のハイパーパラメータは、同じであるか又は異なる。モデルサブ構造のハイパーパラメータは、モデルサブ構造のサイズ、モデルサブ構造の数及びステップサイズなどのうちの少なくとも1つを含んでもよい。例えば、畳み込み構造のハイパーパラメータは、畳み込み構造のサイズ、畳み込み構造の数及び畳み込みステップサイズを含んでもよい。接続関係は、加算及びチャネル合併等の少なくとも1つを含んでもよい。
【0039】
本開示の実施例によれば、初期探索空間は、探索空間の生成ポリシーに基づいて生成されてもよい。生成ポリシーは、タスク生成需要に応じて特定されてもよい。例えば、タスク生成需要に応じて、所望のモデルサブ構造の数、モデルサブ構造のタイプとモデルサブ構造との間の接続関係を特定してもよい。モデルサブ構造の数及びモデルサブ構造のタイプに基づいて、少なくとも1つのモデルサブ構造を特定する。モデルサブ構造の間の接続関係に基づいて、少なくとも1つのモデルサブ構造を関連し、少なくとも1つのモデル構造を取得する。少なくとも1つのモデル構造に基づいて、初期探索空間を取得する。
【0040】
本開示の実施例によれば、ハイパーネットワークは、探索ポリシーに基づいて初期探索空間から特定された、複数のモデル構造を含むネットワークであってもよい。複数のタスクに対して、複数のタスクに一対一に対応する複数の初期探索空間を特定し、複数の初期探索空間に基づいて、複数の初期探索空間に一対一に対応する複数のハイパーネットワークを特定してもよい。例えば、タスクの数は、3つを含み、それぞれタスクA、タスクB及びタスクCであり、タスクAに対応する初期探索空間1、タスクBに対応する初期探索空間2、タスクCに対応する初期探索空間3をそれぞれ構築し、探索ポリシーに基づいて、初期探索空間1からタスクAに対応するハイパーネットワーク1’を特定し、初期探索空間2からタスクBに対応するハイパーネットワーク2’を特定し、及び初期探索空間3からタスクCに対応するハイパーネットワーク3’を特定する。
【0041】
本開示の別の実施例によれば、複数のタスクに対して、複数のタスクに合わせた、異種探索空間を含む初期探索空間を特定してもよい。探索ポリシーに基づいて、異種探索空間を含む初期探索空間から複数のタスクに一対一に対応する複数のハイパーネットワークを特定してもよい。例えば、探索ポリシーに基づいて、異種探索空間を含む初期探索空間から、タスクAに対応するハイパーネットワーク1’、タスクBに対応するハイパーネットワーク2’、及びタスクCに対応するハイパーネットワーク3’を特定する。
【0042】
本開示の実施例によれば、探索ポリシーは、初期探索空間からハイパーネットワークを特定するためのポリシーを指してもよい。したがって、ハイパーネットワークに基づく探索空間は、初期探索空間のサブ空間であると考えられ、これにより、ハイパーネットワークに基づく探索空間の構成は、初期探索空間と同じであり、すなわち、ハイパーネットワークに基づく探索空間は、複数のモデル構造を含んでもよい。各モデル構造は、少なくとも1つのモデルサブ構造と、異なるモデルサブ構造との間の接続関係を含んでもよい。
【0043】
本開示の実施例によれば、ハイパーネットワークに基づく探索空間は、ハイパーネットワークに含まれる全てのモデル構造の探索空間であってもよい。複数のタスクに一対一に対応する複数のハイパーネットワークのうちの各ハイパーネットワークに対して、ハイパーネットワークに対応するタスクのトレーニングセットを用いてハイパーネットワークをトレーニングし、トレーニングされたハイパーネットワークを取得してもよい。ハイパーネットワークのトレーニングを完了した後、複数のトレーニングされたハイパーネットワークのうちの各トレーニングされたハイパーネットワークに含まれる各モデル構造のモデルパラメータが特定される。
【0044】
本開示の実施例によれば、ハイパーネットワークに基づく探索空間に含まれる複数のモデル構造のうちの各モデル構造のモデルパラメータが特定される。ハイパーネットワークに基づく探索空間は、複数を含んでもよく、複数の探索空間は、複数のタスクと一対一に対応する。ハイパーネットワークに基づく探索空間は、タイプの異なる複数の探索空間のうちの1つの異種探索空間を含んでもよい。
【0045】
本開示の実施例によれば、候補モデル構造集合は、目標モデル構造を特定するための集合を指してもよい。候補モデル集合は、スクリーニングポリシーに基づいて、探索空間に含まれる複数のモデル構成から特定されてもよい。候補モデル構成集合は、複数のモデル構成を含んでもよい。候補モデル構造集合に含まれるモデル構造を候補モデル構造と称してもよく、すなわち、候補モデル構造集合は、複数の候補モデル構造を含んでもよい。スクリーニングポリシーは、スクリーニング需要に応じて特定されてもよい。例えば、スクリーニング需要に応じて、所望のモデル構造の数及びモデル構造のタイプを特定してもよい。探索空間から、所望のモデル構造の数やタイプの要求に合わせた複数のモデル構造を探索する。複数のモデル構造に基づいて、候補モデル構造集合を取得する。ランダムサンプリングポリシーに基づいて、探索空間から、所望のモデル構造の数及びタイプの要求に合わせた複数のモデル構造を探索してもよい。候補モデル構造集合に含まれる候補モデル構造の数は、所定数閾値以上であってもよい。例えば、所定数閾値は、100万個である。
【0046】
本開示の例示的な実施例によれば、複数の候補モデル集合のうちの各候補モデル構造集合に対して、タスクに対応する探索空間から、複数の候補モデル構造を特定してもよい。例えば、タスクAに対して、タスクAに対応するハイパーネットワーク1’に基づく探索空間から、複数の候補モデル構造を特定し、タスクAに対応する候補モデル構造集合を形成し、タスクBに対して、タスクBに対応するハイパーネットワーク2’に基づく探索空間から、複数の候補モデル構造を特定し、タスクBに対応する候補モデル構造集合を形成する。
【0047】
本開示の実施例が提供する候補モデル構造集合の特定方式を用い、自動的に探索することができるだけでなく、知能性を向上させ、かつ候補モデル構造集合のうちの複数の候補モデル構造の間の多様性を豊富にすることができる。
【0048】
本開示の実施例によれば、複数の性能指標集合は、複数のタスクと一対一に対応する。複数の性能指標集合のうちの各性能指標集合は、複数の性能指標を含んでいてもよい。性能指標は、候補モデル構造のタスクに対する性能を評価するための指標値であってもよい。例えば、第1の性能評価集合は、タスクAに対する複数の候補モデル構造に一対一に対応する複数の性能指標を含む。第2の性能評価集合は、タスクBに対する複数の候補モデル構成と一対一に対応する複数の性能指標を含む。
【0049】
本開示の実施例によれば、少なくとも1つの性能指標項を用いて、複数のタスクの適用における各候補モデル構造の性能表現を評価してもよく、各性能指標項は、該性能指標項に対応する性能指標を有する。性能指標項は、精度(precision)、正確度(accuracy)、リコール率、トレーニング速度、予測速度のうちの少なくとも1つを含んでもよい。それに応じて、性能指標は、精度値、正確度値、リコール率値、トレーニング速度値、予測速度値などのうちの少なくとも1つを含んでもよい。
【0050】
本開示の実施例によれば、複数のタスクのうちの各タスクに対して、各タスクは、複数の候補モデル構造のうちの各候補モデル構造に対応する少なくとも1つの性能指標を有し、これにより、各タスクは、該タスクに対応する複数の候補モデル構造に関する性能指標集合を有する。
【0051】
本開示の実施例によれば、性能指標条件は、候補モデル構造集合から、目標モデル構造を特定する条件として用いられてもよい。例えば、性能指標は、精度値、正確度値、リコール率値、トレーニング速度値、予測速度値のうちの少なくとも1つを含んでもよい。性能指標条件は、目標モデル構造が、精度値が精度指標条件を満たすモデル構造であることであってもよい。しかし、それに限定されない。性能指標条件は、さらに、目標モデル構造が、リコール率値がリコール指標条件を満たすモデル構造であることであってもよい。
【0052】
本開示の実施例によれば、各候補モデル構造の複数のタスクのうちの各タスクに対応する少なくとも1つの性能指標が特定された後、性能指標条件及び複数のタスクのうちの各タスクに対応する性能指標集合に基づいて、複数の候補モデル構造から、目標モデル構造を特定してもよい。
【0053】
本開示の実施例によれば、性能指標条件及び複数のタスクのうちの各タスクに対応する性能指標集合に基づいて、複数の候補モデル構造から、目標モデル構造を特定することは、複数のタスクのうちの各タスクに対して、タスクに対応する性能指標集合から、複数の候補モデル構造のうちの各候補モデル構造の単一性能指標を特定し、候補モデル構造の単一性能指標に基づいて、候補モデル構造の複数のタスクに対する総合性能指標を特定することを含んでもよい。複数の候補モデル構造に一対一に対応する複数の総合性能指標に基づいて、候補モデル構造集合のうちの複数の候補モデル構造をソートし、ソート結果を取得してもよい。ソート結果に基づいて、複数の候補モデル構造から、目標モデル構造を特定する。ソートは、総合性能指標に応じて小さい順にソートするか又は総合性能指標に応じて大きい順にソートすることを含んでもよい。異なる総合性能指標のソート方式は、実際の業務需要に応じて配置されてもよく、ここでは限定されない。
【0054】
本開示の実施例によれば、候補モデル構造の単一性能指標に基づいて、候補モデル構造の複数のタスクに対する総合性能指標を特定することは、候補モデル構造に対応する複数の単一性能指標を重み付け加算して、総合性能指標を取得することを含んでもよい。
【0055】
例えば、性能指標項は、1つを含み、例えば精度である。タスクの数は、3つを含み、それぞれタスクA、タスクB及びタスクCである。候補モデル構造集合は、3つの候補モデル構造を含み、それぞれ候補モデル構造a、候補モデル構造b及び候補モデル構造cである。複数のタスクに一対一に対応する複数の性能指標集合は、タスクAに対応する性能指標集合と、タスクBに対応する性能指標集合と、タスクCに対応する性能指標集合とを含む。タスクAに対応する性能指標集合は、候補モデル構造a、候補モデル構造b及び候補モデル構造cのそれぞれタスクAに対する単一性能指標Aap、単一性能指標Abp及び単一性能指標Acpを含む。タスクBに対応する性能指標集合は、候補モデル構造a、候補モデル構造b及び候補モデル構造cのそれぞれタスクBに対する単一性能指標Bap、単一性能指標Bbp及び単一性能指標Bcpを含む。タスクCに対応する性能指標集合は、候補モデル構造a、候補モデル構造b及び候補モデル構造cのそれぞれタスクCに対する単一性能指標Cap、単一性能指標Cbp及び単一性能指標Ccpを含む。
【0056】
候補モデル構造aについて、総合性能指標は、単一性能指標Aap、単一性能指標Bap及び単一性能指標Capに基づいて重み付け加算して特定されてもよい。
【0057】
候補モデル構造bについて、総合性能指標は、単一性能指標Abp、単一性能指標Bbp及び単一性能指標Cbpに基づいて重み付け加算して特定されてもよい。
【0058】
候補モデル構造cについて、総合性能指標は、単一性能指標Acp、単一性能指標Bcp及び単一性能指標Ccpに基づいて重み付け加算して特定されてもよい。
【0059】
同様の方式で、複数の候補モデル構造に一対一に対応する複数の総合性能指標に基づいてソートし、ソート結果に基づいて、候補モデル構造a、候補モデル構造b及び候補モデル構造cから、候補モデル構造cを目標モデル構造として特定してもよい。
【0060】
本開示の実施例によれば、複数のタスクのうちの各タスクに対応する性能指標集合に基づいて、候補モデル構造集合から、性能指標条件を満たす目標モデル構造を特定し、候補モデル構造集合は、ハイパーネットワークに基づく探索空間から特定され、複数のタスクに対して性能指標条件を満たす事前トレーニングモデルを自動的に探索して取得することを実現し、事前トレーニングモデルの異なる複数種のタスクに対する精度を向上させる。これにより、規模の小さい事前トレーニングモデルは、規模の大きい事前トレーニングモデルと同様の予測精度を達成することができ、かつ規模の小さい事前トレーニングモデルのトレーニング速度がより速い。これを基礎として、事前トレーニングモデルがチップ又は他のハードウェア製品に適用されて、テキスト処理タスク、画像処理タスク又は音声処理タスク等を実行すれば、関連製品のコアコンピタンスを向上させることができる。
【0061】
本開示の実施例によれば、上記事前トレーニングモデルの生成方法は、さらに、以下の操作を含んでよい。
【0062】
複数のタスクのうちの各タスクに対して、タスクに対応するトレーニングセットを用いて、タスクに対応するハイパーネットワークをトレーニングし、タスクに対応するトレーニングされたハイパーネットワークを取得する。複数のタスクに一対一に対応する複数のトレーニングされたハイパーネットワークに基づいて、探索空間を取得する。
【0063】
本開示の実施例によれば、複数のタスクに一対一に対応する複数のトレーニングセットに合わせてもよく、各トレーニングセットは、タスクに対応するハイパーネットワークをトレーニングするために用いられる。各トレーニングセットは、複数のトレーニングデータを含んでもよい。トレーニングデータは、サーバが端末装置により取得されたサンプルデータであってもよく、サーバにより取得されたローカルに記憶されたサンプルデータであってもよく、インターネット等の経路を介して取得されたサンプルデータであってもよい。
【0064】
本開示の実施例によれば、探索ポリシーに基づいて、初期探索空間から、ハイパーネットワークを特定してもよい。損失関数に基づいて、トレーニングセットを用いてハイパーネットワークをトレーニングし、トレーニングされたハイパーネットワークを取得する。例えば、損失関数に基づいて、トレーニングセットを用いて、損失関数の出力値を取得し、損失関数の出力値に基づいて、所定の条件を満たすまでハイパーネットワークのモデルパラメータを調整し、所定の条件を満たす場合に得られたハイパーネットワークを、トレーニングされたハイパーネットワークとして特定してもよい。
【0065】
本開示の実施例によれば、複数のトレーニングされたハイパーネットワークを取得した後、複数のトレーニングされたハイパーネットワークに基づいて、ハイパーネットワークに基づく探索空間を取得してもよい。ハイパーネットワークに基づく探索空間は、複数のトレーニングされたハイパーネットワークに含まれる全てのモデル構造の探索空間であってもよい。トレーニングが完了してトレーニングされたハイパーネットワークを取得した後、トレーニングされたハイパーネットワークに含まれる各モデル構造のモデルパラメータが特定され、したがって、ハイパーネットワークに基づく探索空間に含まれる複数のモデル構造のうちの各モデル構造のモデルパラメータも特定される。
【0066】
本開示の実施例によれば、操作S210について、複数のタスクのうちの各タスクに対して、候補モデル構造集合に対応する性能指標集合を特定することは、以下の操作を含んでもよい。
【0067】
複数のタスクのうちの各タスクに対して、タスクに対応する性能予測器を用いて、候補モデル構造集合を処理し、候補モデル構造集合に対応する性能指標集合を取得する。
【0068】
本開示の実施例によれば、性能予測器は、モデル構造の性能を予測するために用いられる。性能予測器は、モデル構造とモデル構造の性能との間を表すモデルであってもよい。性能予測器は、機械学習モデル又はディープラーニングモデルを用いてトレーニングされたモデル構造とモデル構造の性能との間のモデルであってもよい。例えば、機械学習モデルは、ランダムフォレストモデル又はリッジ回帰モデル等を含んでもよい。性能予測器は、統計モデルを用いて構築されたモデル構造とモデル構造の性能との関係を表すモデルであってもよい。統計モデルは、確率分布モデルを含んでもよい。例えば、確率分布モデルは、ガウス分布モデルなどを含んでもよい。
【0069】
本開示の実施例によれば、複数のタスクに一対一に対応する複数の性能予測器を構築してもよい。複数のタスクのうちの各タスクに対して、タスクに対応する性能予測器を用いて、候補モデル構造集合に対応する単一性能指標集合を特定する。
【0070】
本開示の実施例によれば、上記事前トレーニングモデルの生成方法は、さらに、以下の操作を含んでもよい。
【0071】
探索空間から、評価モデル構造集合を特定する。評価モデル構造集合を用いて、複数のタスクに一対一に対応する複数の性能予測器を取得する。
【0072】
本開示の実施例によれば、評価モデル構造集合は、複数のモデル構造を含んでもよい。評価モデル構造集合に含まれるモデル構造を、評価モデル構造と称してもよい。評価モデル構造とは、ハイパーネットワークに基づく探索空間のうち、代表的なモデル構造であってもよい。代表的とは、探索空間におけるモデル構造が有する特徴を示すことが可能であることを指してもよい。評価モデル構造のモデルパラメータは、ハイパーネットワークにおける評価モデル構造に対応するモデル構造のモデルパラメータに基づいて特定されてもよく、すなわち、評価モデル構造のモデルパラメータは、ハイパーネットワークにおける評価モデル構造に対応するモデル構造のモデルパラメータと一致してもよい。評価モデル構造は、性能予測器の構築に関与してもよい。
【0073】
本開示の実施例によれば、代表的なポリシーに基づいて、探索空間から複数のモデル構造を特定し、複数のモデル構造に基づいて、評価モデル構造集合を取得してもよい。さらに、複数のタスクに一対一に対応する複数の評価セットに基づいて、評価モデル構造集合を用いて、複数のタスクに一対一に対応する複数の性能予測器を取得する。複数の評価セットのうちの各評価セットは、複数のトレーニングサンプルを含んでもよい。
【0074】
本開示の実施例によれば、複数のタスクに一対一に対応する複数の評価セットに基づいて、評価モデル構造集合を用いて、複数のタスクに一対一に対応する複数の性能予測器を取得することは、複数のタスクのうちの各タスクに対して、評価モデル構造集合を用いて、タスクに対応する評価セットを処理し、評価モデル構造集合に対応する性能指標集合を取得することを含んでもよい。複数のタスクのうちの各タスクに対して、評価モデル構造集合と、評価モデル構造集合に対応する性能指標集合と、所定モデルとを用いて、タスクに対応する性能予測器を取得する。
【0075】
本開示の実施例によれば、複数のタスクのうちの各タスクに対して、評価モデル構造集合と、評価モデル構造集合に対応する性能指標集合と、所定モデルとを用いて、タスクに対応する性能予測器を取得することは、複数のタスクのうちの各タスクに対して、評価モデル構造集合に対応する性能指標集合に基づいて、予測方法を用いて初期確率モデルのハイパーパラメータを更新し、ハイパーパラメータの予測値を取得することを含んでもよい。ハイパーパラメータの予測値に基づいて、性能予測器を特定する。初期確率モデルは、初期探索空間に対応する確率分布モデルを初期化して得られた確率分布モデルであってもよい。
【0076】
本開示の実施例によれば、複数のタスクのうちの各タスクに対して、評価モデル構造集合と、評価モデル構造集合に対応する性能指標集合と、所定モデルとを用いて、性能予測器を取得することは、評価モデル構造集合と、評価モデル構造集合に対応する性能指標集合とを用いて、機械学習モデル又はディープラーニングモデルをトレーニングし、性能予測器を取得することを含んでもよい。
【0077】
本開示の実施例によれば、評価モデル構造集合を用いて、性能予測器を取得することは、評価モデル構造集合を用いて評価セットを処理し、評価モデル構造集合に対応する精度評価値集合を取得することと、評価モデル構造集合と、評価モデル構造集合に対応する精度指標集合とを用いて、精度予測器を取得することとの少なくとも1つを含んでもよい。
【0078】
本開示の実施例によれば、精度予測器は、モデル構造の精度値を予測するために用いられてもよい。
【0079】
本開示の実施例によれば、上記事前トレーニングモデルの生成方法は、さらに、以下の操作を含んでもよい。
【0080】
評価モデル構造集合に対応する評価モデルコード集合を特定する。
【0081】
本開示の実施例によれば、複数のタスクのうちの各タスクに対して、評価モデル構造集合と、評価モデル構造集合に対応する性能指標集合とを用いて、タスクに対応する性能予測器を取得することは、以下の操作を含んでもよい。
【0082】
複数のタスクのうちの各タスクに対して、評価モデル構造集合に対応する評価モデルコード集合と、性能指標集合とを用いて、タスクに対応する性能予測器を取得する。
【0083】
本開示の実施例によれば、モデル構造は、モデルコードで示されてもよく、すなわち、コード生成器を用いて、評価モデル構造集合における各評価モデル構造を処理し、各評価モデル構造に対応する評価モデルコードを取得してもよい。
【0084】
本開示の実施例によれば、探索空間から、評価モデル構造集合を特定することは、以下の操作を含んでもよい。
【0085】
探索空間に含まれる複数のモデル構成のうちの各モデル構成に対応する情報エントロピーを特定する。探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーに基づいて、探索空間から評価モデル構造集合を特定する。
【0086】
本開示の実施例によれば、情報エントロピーは、情報量のメジャーを示すために用いられてもよい。モデル構造の情報エントロピーを用いて、探索空間に含まれる複数のモデル構造から、評価モデル構造集合を特定してもよい。
【0087】
本開示の実施例によれば、探索空間に含まれる複数のモデル構造のうちの各モデル構造のモデルコードを特定してもよい。確率モデルのハイパーパラメータと、各モデル構造のモデルコードとに基づいて、共分散行列を特定する。さらに、共分散行列に基づいて、各モデル構造の情報エントロピーを特定する。上記モデル構造の情報エントロピーの特定する方式は、例示的な実施例だけであり、それに限定されなく、本分野の既知の特定する方式を含んでもよく、モデル構造の情報エントロピーの特定を実現することができればよい。
【0088】
本開示の実施例によれば、探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーに基づいて、探索空間から評価モデル構造集合を特定することは、探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーをソートすることと、ソート結果に基づいて、探索空間から評価モデル構造集合を特定することとを含んでもよい。ソートは、情報エントロピーの大きい順にソートするか、又は情報エントロピーの小さい順にソートすることを含んでもよい。例えば、情報の大きい順に、探索空間に含まれる複数のモデル構造のうちの各モデル構造をソートし、ソート結果のうちソートして上位の所定数のモデル構造を、評価モデル構造集合として特定してもよい。候補として、情報エントロピー閾値と、探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーとに基づいて、探索空間に含まれる複数のモデル構造から、評価モデル構造集合を特定してもよい。例えば、探索空間に含まれる複数のモデル構造のうちの各モデル構造に対して、モデル構造の情報エントロピーが情報エントロピー閾値以上であることを特定した場合、モデル構造を評価モデル構造として特定する。
【0089】
本開示の実施例によれば、探索空間から評価モデル構造集合を特定することは、以下の操作を含んでもよい。
【0090】
探索空間に含まれる複数のモデル構造に基づいて、探索空間に対応する少なくとも1つのクラスタセンターを特定する。探索空間に対応する少なくとも1つのクラスタセンターに基づいて、探索空間から評価モデル構造集合を特定する。
【0091】
本開示の実施例によれば、クラスタリングアルゴリズムを用いて、探索空間に含まれる複数のモデル構造のうちのモデル構造を処理し、探索空間に対応する少なくとも1つのクラスタセンターを取得してもよい。クラスタリングアルゴリズムは、K平均値クラスタリングアルゴリズム、K中心クラスタリングアルゴリズム、CLARA(Clustering LARge Application)アルゴリズム又はファジィC平均値アルゴリズムを含んでもよい。
【0092】
本開示の実施例によれば、探索空間に対応する少なくとも1つのクラスタセンターのうちの各クラスタセンターを評価モデル構造として特定してもよい。
【0093】
以上、例示的な実施例だけであり、それに限定されるものではなく、事前トレーニングモデルの予測精度を向上させることができれば、本分野の既知の他の事前トレーニングモデルの生成方法を含んでもよい。
【0094】
以下、図3を参照し、具体的な実施例を参照して例えば図2に示す方法をさらに説明する。
【0095】
図3は、本開示の実施例に係る事前トレーニングモデルの生成過程を模式的に示す原理概略図である。
【0096】
図3に示すように、300において、ハイパーネットワークに基づく探索空間301から、評価モデル構造集合302を特定する。複数のタスクのうちの各タスクに対して、評価モデル構造302を用いて、タスクに対応する評価セット303を処理し、評価モデル構造集合302のタスクに対応する性能指標集合304を取得する。
【0097】
複数のタスクのうちの各タスクに対して、評価モデル構造集合302、評価モデル構造集合302のタスクに対応する性能指標集合304及び所定モデル305を用いて、タスクに対応する性能予測器306を取得する。
【0098】
複数のタスクのうちの各タスクに対して、ハイパーネットワークに基づく探索空間301から、タスクに対応する候補モデル構造集合307を特定する。
【0099】
複数のタスクのうちの各タスクに対して、タスクに対応する性能予測器306を用いて、タスクに対応する候補モデル構造集合307を処理し、タスクに対応する性能指標集合308を取得する。
【0100】
複数のタスクに一対一に対応する複数の性能指標集合308に基づいて、候補モデル構造集合307から、目標モデル構造309を特定する。目標モデル構造309を事前トレーニングモデル310とする。
【0101】
図4は、本開示の実施例に係る事前トレーニングモデルの生成装置を模式的に示すブロック図である。
【0102】
図4に示すように、事前トレーニングモデルの生成装置400は、第1の特定モジュール410と、第2の特定モジュール420と、第3の特定モジュール430とを含んでもよい。
【0103】
第1の特定モジュール410は、複数のタスクのうちの各タスクに対して、候補モデル構造集合に対応する性能指標集合を特定し、ここで、候補モデル構造集合は、ハイパーネットワークに基づく探索空間に含まれる複数のモデル構造から特定される。
【0104】
第2の特定モジュール420は、複数のタスクと一対一に対応する複数の性能指標集合に基づいて、候補モデル構造集合から、性能指標条件を満たすモデル構造である目標モデル構造を特定する。
【0105】
第3の特定モジュール430は、目標モデル構造を事前トレーニングモデルとして特定する。
【0106】
本開示の実施例によれば、上記事前トレーニングモデルの生成装置400は、第1の取得モジュールと、第2の取得モジュールとをさらに含んでもよい。
【0107】
第1の取得モジュールは、複数のタスクのうちの各タスクに対して、タスクに対応するトレーニングセットを用いて、タスクに対応するハイパーネットワークをトレーニングし、タスクに対応するトレーニングされたハイパーネットワークを取得する。
【0108】
第2の取得モジュールは、複数のタスクに一対一に対応する複数のトレーニングされたハイパーネットワークに基づいて、探索空間を取得する。
【0109】
本開示の実施例によれば、第1の特定モジュール410は、第1の取得サブモジュールを含んでもよい。
【0110】
第1の取得サブモジュールは、複数のタスクのうちの各タスクに対して、タスクに対応する性能予測器を用いて、候補モデル構造集合を処理し、候補モデル構造集合に対応する性能指標集合を取得する。
【0111】
本開示の実施例によれば、上記事前トレーニングモデルの生成装置400は、第4の特定モジュールと、第3の取得モジュールとをさらに含んでもよい。
【0112】
第4の特定モジュールは、探索空間から評価モデル構造集合を特定する。
【0113】
第3の取得モジュールは、評価モデル構造集合を用いて、複数のタスクに一対一に対応する複数の性能予測器を取得する。
【0114】
本開示の実施例によれば、第3の取得モジュールは、第2の取得サブモジュールと、第3の取得サブモジュールとを含んでもよい。
【0115】
第2の取得サブモジュールは、複数のタスクのうちの各タスクに対して、評価モデル構造集合を用いて、タスクに対応する評価セットを処理し、評価モデル構造集合に対応する性能指標集合を取得する。
【0116】
第3の取得サブモジュールは、複数のタスクのうちの各タスクに対して、評価モデル構造集合及び評価モデル構造集合に対応する性能指標集合を用いて、タスクに対応する性能予測器を取得する。
【0117】
本開示の実施例によれば、上記事前トレーニングモデルの生成装置500は、第5の特定モジュールをさらに含んでもよい。
【0118】
第5の特定モジュールは、評価モデル構造集合に対応する評価モデルコード集合を特定する。
【0119】
本開示の実施例によれば、第3の取得サブモジュールは、第1の取得ユニットを含んでもよい。
【0120】
第1の取得ユニットは、複数のタスクのうちの各タスクに対して、評価モデル構造集合に対応する評価モデルコード集合及び性能指標集合を用いて、タスクに対応する性能予測器を取得する。
【0121】
本開示の実施例によれば、第4の特定モジュールは、第1の特定サブモジュールと、第2の特定サブモジュールとを含んでもよい。
【0122】
第1の特定サブモジュールは、探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーを特定する。
【0123】
第2の特定サブモジュールは、探索空間に含まれる複数のモデル構造のうちの各モデル構造に対応する情報エントロピーに基づいて、探索空間から評価モデル構造集合を特定する。
【0124】
本開示の実施例によれば、第4の特定モジュールは、第3の特定サブモジュールと、第4の特定サブモジュールとを含んでもよい。
【0125】
第3の特定サブモジュールは、探索空間に含まれる複数のモデル構造に基づいて、探索空間に対応する少なくとも1つのクラスタセンターを特定する。
【0126】
第4の特定サブモジュールは、探索空間に対応する少なくとも1つのクラスタセンターに基づいて、探索空間から評価モデル構造集合を特定する。
【0127】
本開示の実施例によれば、性能指標集合に含まれる複数の性能指標のうちの各性能指標は、精度、リコール率、トレーニング速度、予測速度の少なくとも1つを含む。
【0128】
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラムをさらに提供する。
【0129】
本開示の実施例によれば、電子機器は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信接続されるメモリとを備え、ここで、メモリには、少なくとも1つのプロセッサにより実行可能な命令が記憶されており、命令は、少なくとも1つのプロセッサが上記のような方法を実行することができるように、少なくとも1つのプロセッサにより実行される。
【0130】
本開示の実施例によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、コンピュータ命令がコンピュータに上記のような方法を実行させる。
【0131】
本開示の実施例によれば、コンピュータプログラムであって、プロセッサにより実行される時に上記のような方法を実現する。
【0132】
図5は、本開示の実施例を実施可能な電子機器500を模式的に示すブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータという様々な形式のデジタルコンピュータを示すことを目的とする。電子機器は、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の演算装置という様々な形式の移動装置をさらに示してもよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は、例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定しない。
【0133】
図5に示すように、装置500は、演算ユニット501を含み、演算ユニット501は、リードオンリーメモリ(ROM)502に記憶されたコンピュータプログラム又は記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。RAM503には、さらに装置500の操作に必要な様々なプログラム及びデータを記憶してもよい。演算ユニット501、ROM502、およびRAM503は、バス504を介して相互に接続される。入出力インタフェース505も、バス504に接続される。
【0134】
装置500における複数の部品は、I/Oインタフェース505に接続され、I/Oインタフェース505は、例えばキーボード、マウス等の入力ユニット506と、例えば様々な種類のディスプレイ、スピーカ等の出力ユニット507と、例えば磁気ディスク、光ディスク等の記憶ユニット508と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット509とを含む。通信ユニット509は、機器500がインターネット等のコンピュータネットワーク及び/又は各種の電気通信ネットワークを介して他の機器と情報/データをやり取りすることを可能にする。
【0135】
演算ユニット501は、処理及び演算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。演算ユニット501の幾つかの例としては、中央処理装置(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種動作機械学習モデルアルゴリズムをランニングする演算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、それらに限定されない。演算ユニット501は、例えば事前トレーニングモデルの生成方法のような上記に記載の各方法及び処理を実行する。例えば、いくつかの実施例において、事前トレーニングモデルの生成方法は、例えば記憶ユニット508のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM502及び/又は通信ユニット509を介して装置500にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM503にロードされて演算ユニット501により実行される場合、上記に記載の事前トレーニングモデルの生成方法の1つ又は複数の操作を実行してもよい。代替的に、他の実施例において、演算ユニット501は、他の任意の適切な方式(例えば、ファームウェアを介する)により事前トレーニングモデルの生成方法を実行するように構成されてもよい。
【0136】
本明細書で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラムマブルプロセッサを含むプログラムマブルシステムで実行され及び/又は解釈されることが可能であり、該プログラムマブルプロセッサは、専用又は汎用のプログラムマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。
【0137】
本開示の方法を実施するためのプログラムコードは、1つ又は複数の言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラムマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
【0138】
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んでか又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んででもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
【0139】
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、音声入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
【0140】
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
【0141】
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、分散型システムのサーバであってもよく、又はブロックチェーンを組み合わせしたサーバであってもよい。
【0142】
理解されるべきこととして、以上に示した様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本発明に記載の各操作は、並列的に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の発明の所望の結果を実現することができれば、本明細書はここで限定されない。
【0143】
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解されるべきである。本開示の精神と原則内で行われた任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5