(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-29
(54)【発明の名称】融合パラメータの特定方法及び装置、情報推奨方法及び装置、パラメータ測定モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
(51)【国際特許分類】
G06N 3/045 20230101AFI20240122BHJP
【FI】
G06N3/045
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023509865
(86)(22)【出願日】2022-06-21
(85)【翻訳文提出日】2023-02-10
(86)【国際出願番号】 CN2022100122
(87)【国際公開番号】W WO2023109059
(87)【国際公開日】2023-06-22
(31)【優先権主張番号】202111565468.1
(32)【優先日】2021-12-17
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100106518
【氏名又は名称】松谷 道子
(74)【代理人】
【識別番号】100189555
【氏名又は名称】徳山 英浩
(72)【発明者】
【氏名】王 朝旭
(72)【発明者】
【氏名】胡 小雨
(72)【発明者】
【氏名】劉 慧捷
(72)【発明者】
【氏名】鄭 宇航
(72)【発明者】
【氏名】彭 志▲ミン▼
(57)【要約】
本開示は融合パラメータの特定方法及び装置、情報推奨方法及び装置、パラメータ特定モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラムを提供し、人工知能分野に関し、具体的にインテリジェント推奨分野及びディープラーニング分野に関する。融合パラメータの特定方法の具体的な実現形態は、目標対象の推奨参考情報をパラメータ特定モデルにおける特徴抽出ネットワークに入力して、目標対象に対する第1の対象特徴を抽出することと、第1の対象特徴をパラメータ特定モデルのうちのマルチタスクネットワークに入力して、目標対象に対する複数の評価指標の第1の融合パラメータを取得することとを含む。ここで、複数の評価指標は推奨情報に対する評価目標対象の好みを評価するものである。
【特許請求の範囲】
【請求項1】
目標対象の推奨参考情報をパラメータ特定モデルにおける特徴抽出ネットワークに入力して、前記目標対象に対する第1の対象特徴を抽出することと、
前記第1の対象特徴を前記パラメータ特定モデルにおけるマルチタスクネットワークに入力して、前記目標対象に対する複数の評価指標の第1の融合パラメータを取得することと、を含み、
ここで、前記複数の評価指標は、推奨情報に対する前記目標対象の好みを評価するものである、
融合パラメータの特定方法。
【請求項2】
推奨情報は、複数のタイプの情報を含み、各タイプの情報はいずれも前記複数の評価指標を有し、前記マルチタスクネットワークは特徴表現サブネットワークと複数の予測サブネットワークとを含み、前記第1の対象特徴を前記パラメータ特定モデルにおけるマルチタスクネットワークに入力して、前記目標対象に対する複数の評価指標の第1の融合パラメータを取得することは、
前記第1の対象特徴を前記特徴表現サブネットワークに入力して、表現特徴を取得することと、
前記表現特徴と前記第1の対象特徴とを前記複数の予測サブネットワークに入力して、前記複数の予測サブネットワークのうちの各サブネットワークによって1つの融合パラメータセットを出力することと、を含み、
ここで、前記複数の予測サブネットワークと前記複数のタイプとが一対一で対応し、前記融合パラメータセットは前記複数の評価指標の融合パラメータを含む、
請求項1に記載の融合パラメータの特定方法。
【請求項3】
前記特徴表現サブネットワークは複数のエキスパートユニットを含み、
前記第1の対象特徴を前記特徴表現サブネットワークに入力して、表現特徴を取得することは、
前記第1の対象特徴を前記複数のエキスパートユニットのうちの各エキスパートユニットに入力して、前記各エキスパートユニットによって1つの表現特徴を出力することを含み、
ここで、前記複数のエキスパートユニットはそれぞれ前記第1の対象特徴に基づいて複数の所定対象カテゴリのうちの1つのカテゴリに対する前記目標対象の特徴を表現するものである、
請求項2に記載の融合パラメータの特定方法。
【請求項4】
前記目標対象の推奨参考情報は、
前記目標対象の属性情報と、
前記目標対象に対して情報推奨を行うシーン情報と、
推奨情報に対する前記目標対象の好み情報との少なくとも1つを含む、
請求項1~3のいずれか一項に記載の融合パラメータの特定方法。
【請求項5】
目標対象に対する複数の第1の推奨すべき情報のうちの各第1の情報について、前記各第1の情報の複数の評価指標の推定値、及び前記目標対象に対する前記複数の評価指標の第1の融合パラメータに基づいて、前記目標対象に対する前記各第1の情報の第1の評価値を特定することと、
前記第1の評価値に基づいて、前記複数の第1の推奨すべき情報のうち、前記目標対象に対する第1の目標情報、及び前記第1の目標情報からなる第1の情報リストを特定することとを含み、
ここで、前記第1の融合パラメータは請求項1~4の何れか一項に記載の方法を採用して特定されたものである、
情報推奨方法。
【請求項6】
前記複数の第1の推奨すべき情報は、少なくとも2つのタイプの情報を含み、
前記各第1の情報の複数の評価指標の推定値、及び前記目標対象に対する前記複数の評価指標の融合パラメータに基づいて、前記目標対象に対する前記各第1の情報の第1の評価値を特定することは、
前記各第1の情報的タイプに基づいて、前記目標対象に対する前記複数の評価指標の複数の融合パラメータを特定して、前記各第1の情報に対する、情報のタイプと一対一で対応する融合パラメータセットを得ることと、
前記各第1の情報の前記複数の評価指標の推定値と前記融合パラメータセットとに基づいて、前記第1の評価値を特定することと、を含む
請求項5に記載の情報推奨方法。
【請求項7】
前記各第1の情報の前記複数の評価指標の推定値と前記融合パラメータセットとに基づいて、前記第1の評価値を特定することは、
前記複数の評価指標のうちの各評価指標に対して、前記各評価指標の推定値と前記融合パラメータセットにおける前記目標対象に対する前記各評価指標の融合パラメータとに基づいて、前記各評価指標的融合値を特定することと、
前記複数の評価指標の複数の融合値に基づいて、前記第1の評価値を特定することとを含む、
請求項6に記載の情報推奨方法。
【請求項8】
パラメータ特定モデルのトレーニング方法であって、前記パラメータ特定モデルは特徴抽出ネットワークとマルチタスクネットワークとを含み、前記方法は、
参考対象の推奨参考情報を前記特徴抽出ネットワークに入力して、前記参考対象に対する第2の対象特徴を抽出することと、
前記第2の対象特徴を前記マルチタスクネットワークに入力して、前記参考対象に対する複数の評価指標の第2の融合パラメータを取得することと、
前記参考対象に対する複数の第2の推奨すべき情報のうちの各第2の情報について、前記各第2の情報の前記複数の評価指標の推定値及び前記第2の融合パラメータに基づいて、前記参考対象に対する前記各第2の情報の第2の評価値を特定することと、
前記第2の評価値に基づいて、前記複数の第2の推奨すべき情報のうち、前記参考対象に対する第2の目標情報、及び前記第2の目標情報からなる第2の情報リストを特定することと、
前記第2の情報リストに対する前記参考対象のフィードバック情報に基づいて、前記マルチタスクネットワークをトレーニングすることとを含む、
パラメータ特定モデルのトレーニング方法。
【請求項9】
前記第2の情報リストに対する前記参考対象の対話情報、及び前記第2の情報リストにおける選択された情報に対する前記参考対象の対話情報に基づいて、前記第2の情報リストに対する前記参考対象のフィードバック評価値を特定する方式によって、前記第2の情報リストに対する前記参考対象のフィードバック情報を特定することをさらに含み、
ここで、前記フィードバック情報は前記フィードバック評価値を含む、
請求項8に記載のパラメータ特定モデルのトレーニング方法。
【請求項10】
前記第2の情報リストに対する前記参考対象のフィードバック情報に基づいて、前記マルチタスクネットワークをトレーニングすることは、
前記参考対象の識別情報に基づいて、前記マルチタスクネットワーク中の複数のネットワークパラメータに対する外乱値を生成することと、
前記フィードバック評価値と前記複数のネットワークパラメータに対する外乱値とに基づいて、前記複数のネットワークパラメータを調整することと、を含む
請求項9に記載のパラメータ特定モデルのトレーニング方法。
【請求項11】
前記複数のネットワークパラメータに対する外乱値は、前記複数のネットワークパラメータにそれぞれ対応する複数の外乱値を含み、前記フィードバック評価値と前記複数のネットワークパラメータに対する外乱値とに基づいて、前記複数のネットワークパラメータを調整することは、
前記複数のネットワークパラメータのうちの各ネットワークパラメータに対して、前記フィードバック評価値と前記各ネットワークパラメータに対応する外乱値との比に基づいて、前記各ネットワークパラメータに対する調整ステップサイズを特定することと、
前記調整ステップサイズに基づいて、前記各ネットワークパラメータを調整することと、を含む
請求項10に記載のパラメータ特定モデルのトレーニング方法。
【請求項12】
前記複数のネットワークパラメータに対する外乱値は複数の外乱値組を含み、前記複数の外乱値組のうちの各外乱値組は、前記複数のネットワークパラメータにそれぞれ対応する複数の外乱値を含み、前記フィードバック評価値と前記複数のネットワークパラメータに対する外乱値とに基づいて、前記複数のネットワークパラメータを調整することは、
前記フィードバック評価値と前記複数のネットワークパラメータに対する複数の外乱値組とに基づいて、進化アルゴリズムを採用して目標外乱値組を特定することと、
前記フィードバック評価値と前記目標外乱値組とに基づいて、前記複数のネットワークパラメータを調整することと、を含む
請求項10に記載のパラメータ特定モデルのトレーニング方法。
【請求項13】
前記フィードバック情報は実際閲覧時間長さを含み、前記パラメータ特定モデルは、予測ネットワークをさらに含み、前記方法は、
前記第2の対象特徴を前記予測ネットワークに入力して、予測閲覧時間長さを得ることと、
前記実際閲覧時間長さと前記予測閲覧時間長さとの相違に基づいて、前記特徴抽出ネットワークと前記予測ネットワークとをトレーニングすることと、さらに含む
請求項9に記載のパラメータ特定モデルのトレーニング方法。
【請求項14】
目標対象の推奨参考情報をパラメータ特定モデルにおける特徴抽出ネットワークに入力して、前記目標対象に対する第1の対象特徴を抽出する第1の特徴抽出モジュールと、
前記第1の対象特徴を前記パラメータ特定モデルにおけるマルチタスクネットワークに入力して、前記目標対象に対する複数の評価指標の第1の融合パラメータと取得する第1のパラメータ取得モジュールとを含み、
ここで、前記複数の評価指標は推奨情報に対する前記目標対象の好みを評価するものである、
融合パラメータの特定装置。
【請求項15】
推奨情報は、複数のタイプの情報を含み、各タイプの情報はいずれも前記複数の評価指標を有し、前記マルチタスクネットワークは特徴表現サブネットワークと複数の予測サブネットワークとを含み、
前記第1のパラメータ取得モジュールは、
前記第1の対象特徴を前記特徴表現サブネットワークに入力して、表現特徴を取得する特徴取得サブモジュールと、
前記表現特徴と前記第1の対象特徴とを前記複数の予測サブネットワークに入力して、前記複数の予測サブネットワークのうちの各サブネットワークによって1つの融合パラメータセットを出力するパラメータ取得サブモジュールと、
ここで、前記複数の予測サブネットワークと前記複数のタイプとが一対一で対応し、前記融合パラメータセットは前記複数の評価指標の融合パラメータを含む、
請求項14に記載の融合パラメータの特定装置。
【請求項16】
前記特徴表現サブネットワークは複数のエキスパートユニットを含み、前記特徴取得サブモジュールは、
前記対象特徴を前記複数のエキスパートユニットのうちの各エキスパートユニットに入力して、前記各エキスパートユニットによって1つの表現特徴を出力するものであり、
ここで、前記複数のエキスパートユニットは、それぞれ前記第1の対象特徴に基づいて複数の所定対象カテゴリのうちの1つのカテゴリに対する前記目標対象の特徴を表現するものである、
請求項15に記載の融合パラメータの特定装置。
【請求項17】
前記目標対象の推奨参考情報は、
前記目標対象の属性情報と、
前記目標対象に対して情報推奨を行うシーン情報と、
推奨情報に対する前記目標対象の好み情報との少なくとも1つを含む、
請求項14~16のいずれかに記載の融合パラメータの特定装置。
【請求項18】
目標対象に対する複数の第1の推奨すべき情報のうちの各第1の情報について、前記各第1の情報の複数の評価指標の推定値、及び前記目標対象に対する前記複数の評価指標の第1の融合パラメータに基づいて、前記目標対象に対する前記各第1の情報の第1の評価値を特定する第1の評価モジュールと、
前記第1の評価値に基づいて、前記複数の第1の推奨すべき情報のうち、前記目標対象に対する第1の目標情報、及び前記第1の目標情報からなる第1の情報リストを特定する第1の情報特定モジュールと、を含み、
ここで、前記第1の融合パラメータは請求項14~17の何れか一項に記載の装置を採用して特定されたものである、
情報推奨装置。
【請求項19】
前記複数の第1の推奨すべき情報は少なくとも2つのタイプの情報を含み、前記第1の評価モジュールは、
前記各第1の情報のタイプに基づいて、前記目標対象に対する前記複数の評価指標の複数の融合パラメータを特定して、前記各第1の情報に対する、情報のタイプと一対一で対応する融合パラメータセットを得るパラメータ特定サブモジュールと、
前記各第1の情報の前記複数の評価指標の推定値と前記融合パラメータセットとに基づいて、前記第1の評価値を特定する評価値特定サブモジュールとを含む
請求項18に記載の情報推奨装置。
【請求項20】
前記評価値特定サブモジュールは、
前記複数の評価指標のうちの各評価指標に対して、前記各評価指標の推定値と前記融合パラメータセットにおける前記目標対象に対する前記各評価指標の融合パラメータとに基づいて、前記各評価指標の融合値を特定する融合値特定手段と、
前記複数の評価指標の複数の融合値に基づいて、前記第1の評価値を特定する評価値特定手とを含む
請求項19に記載の情報推奨装置。
【請求項21】
パラメータ特定モデルのトレーニング装置であって、前記パラメータ特定モデルは特徴抽出ネットワークとマルチタスクネットワークとを含み、前記装置は、
参考対象の推奨参考情報を前記特徴抽出ネットワークに入力して、前記参考対象に対する第2の対象特徴を抽出する第2の特徴抽出モジュールと、
前記第2の対象特徴を前記マルチタスクネットワークに入力して、前記参考対象に対する複数の評価指標の第2の融合パラメータを取得する第2のパラメータ取得モジュールと、
前記参考対象に対する複数の第2の推奨すべき情報のうちの各第2の情報について、前記各第2の情報の前記複数の評価指標の推定値及び前記第2の融合パラメータに基づいて、前記参考対象に対する前記各第2の情報の第2の評価値を特定する第2の評価モジュールと、
前記第2の評価値に基づいて、前記複数の第2の推奨すべき情報のうち、前記参考対象に対する第2の目標情報、及び前記第2の目標情報からなる第2の情報リストを特定する第2の情報特定モジュールと、
前記第2の情報リストに対する前記参考対象のフィードバック情報に基づいて、前記マルチタスクネットワークをトレーニングする第1のトレーニングモジュールと、を含む
パラメータ特定モデルのトレーニング装置。
【請求項22】
前記第2の情報リストに対する前記参考対象の対話情報、及び前記第2の情報リストにおける選択された情報に対する前記参考対象の対話情報に基づいて、前記第2の情報リストに対する前記参考対象のフィードバック評価値を特定する方式によって、前記第2の情報リストに対する前記参考対象のフィードバック情報を特定するフィードバック情報特定モジュールをさらに含み、
ここで、前記フィードバック情報は前記フィードバック評価値を含む、
請求項21に記載のパラメータ特定モデルのトレーニング装置。
【請求項23】
前記第1のトレーニングモジュールは、
前記参考対象の識別情報に基づいて、前記マルチタスクネットワーク中の複数のネットワークパラメータに対する外乱値を生成する外乱値生成サブモジュールと、
前記フィードバック評価値と前記複数のネットワークパラメータに対する外乱値とに基づいて、前記複数のネットワークパラメータを調整するパラメータ調整サブモジュールとを含む
請求項22に記載のパラメータ特定モデルのトレーニング装置。
【請求項24】
前記複数のネットワークパラメータに対する外乱値は、前記複数のネットワークパラメータにそれぞれ対応する複数の外乱値を含み、
前記パラメータ調整サブモジュールは、
前記複数のネットワークパラメータのうちの各ネットワークパラメータに対して、前記フィードバック評価値と前記各ネットワークパラメータに対応する外乱値との比に基づいて、前記各ネットワークパラメータに対する調整ステップサイズを特定するステップサイズ特定手段と、
前記調整ステップサイズに基づいて、前記各ネットワークパラメータを調整する第1の調整手段とを含む、
請求項23に記載のパラメータ特定モデルのトレーニング装置。
【請求項25】
前記複数のネットワークパラメータに対する外乱値は複数の外乱値組を含み、前記複数の外乱値組のうちの各外乱値組は前記複数のネットワークパラメータにそれぞれ対応する複数の外乱値を含み、
前記パラメータ調整サブモジュールは、
前記フィードバック評価値と前記複数のネットワークパラメータに対する複数の外乱値組とに基づいて、進化アルゴリズムを採用して目標外乱値組を特定する目標外乱特定手段と、
前記フィードバック評価値と前記目標外乱値組とに基づいて、前記複数のネットワークパラメータを調整する第2の調整手段とを含む
請求項23に記載のパラメータ特定モデルのトレーニング装置。
【請求項26】
前記フィードバック情報は実際閲覧時間長さを含み、前記パラメータ特定モデルは予測ネットワークをさらに含み、前記装置は、
前記第2の対象特徴を前記予測ネットワークに入力して、予測閲覧時間長さを得る時間長さ予測モジュールと、
前記実際閲覧時間長さと前記予測閲覧時間長さとの相違に基づいて、前記特徴抽出ネットワークと前記予測ネットワークとをトレーニングする第2のトレーニングモジュールとをさらに含む
請求項22に記載のパラメータ特定モデルのトレーニング装置。
【請求項27】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続するメモリとを含み、
前記メモリに、前記少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが請求項1~13のいずれか一項に記載の方法を実行することができる、
電子機器。
【請求項28】
コンピュータに請求項1~13のいずれか一項に記載の方法を実行させるためのコンピュータコマンドを記憶している、
非一時的なコンピュータ読取可能な記憶媒体。
【請求項29】
プロセッサにより実行される場合に、請求項1~13のいずれか一項に記載の方法のステップを実現するコンピュータプログラム/コマンドを含むコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は人工知能の技術分野に関し、具体的にインテリジェント推奨の技術分野及びディープラーニングの技術分野に関する。より具体的には、融合パラメータの特定方法、情報推奨方法及びパラメータ特定モデルのトレーニング方法、装置、電子機器及び記憶媒体に関する。
【背景技術】
【0002】
モバイルインターネットの高度な発展に伴い、推奨システムは急速な発展を遂げた。推奨システムは機械学習技術を利用して、対象行為に対するマイニングにより、対象の興味好みを洞察し、対象のために個性化の内容推奨を自動的に生成することができる。
【発明の概要】
【0003】
これを基に、本開示は、大規模なスパース特徴を学習することを容易にする融合パラメータの特定方法、情報推奨方法及びパラメータ特定モデルのトレーニング方法、装置、電子機器並びに記憶媒体を提供した。
【0004】
本開示の1つの局面によれば、目標対象の推奨参考情報をパラメータ特定モデルにおける特徴抽出ネットワークに入力して、目標対象に対する第1の対象特徴を抽出することと、第1の対象特徴をパラメータ特定モデルにおけるマルチタスクネットワークに入力して、目標対象に対する複数の評価指標の第1の融合パラメータを取得することとを含み、ここで、複数の評価指標は、推奨情報に対する目標対象の好みを評価するものである融合パラメータの特定方法を提供した。
【0005】
本開示の別の局面によれば、目標対象に対する複数の第1の推奨すべき情報のうちの各第1の情報について、各第1の情報の複数の評価指標の推定値、及び目標対象に対する複数の評価指標の第1の融合パラメータに基づいて、目標対象に対する各第1の情報の第1の評価値を特定することと、第1の評価値に基づいて、複数の第1の推奨すべき情報のうち、目標対象に対する第1の目標情報、及び第1の目標情報からなる第1の情報リストを特定することとを含み、ここで、第1の融合パラメータは本開示が提供した融合パラメータの特定方法を採用して特定されたものである情報推奨方法を提供した。
【0006】
本開示の別の局面によれば、パラメータ特定モデルのトレーニング方法であって、パラメータ特定モデルは特徴抽出ネットワークとマルチタスクネットワークとを含み、トレーニング方法は、参考対象の推奨参考情報を特徴抽出ネットワークに入力して、参考対象に対する第2の対象特徴を抽出することと、第2の対象特徴をマルチタスクネットワークに入力して、参考対象に対する複数の評価指標の第2の融合パラメータを取得することと、参考対象に対する複数の第2の推奨すべき情報のうちの各第2の情報について、各第2の情報の複数の評価指標の推定値及び第2の融合パラメータに基づいて、参考対象に対する各第2の情報の第2の評価値を特定することと、第2の評価値に基づいて、複数の第2の推奨すべき情報のうち、参考対象に対する第2の目標情報、及び第2の目標情報からなる第2の情報リストを特定することと、第2の情報リストに対する参考対象のフィードバック情報に基づいて、マルチタスクネットワークをトレーニングすることとを含むパラメータ特定モデルのトレーニング方法を提供した。
【0007】
本開示の別の局面によれば、目標対象の推奨参考情報をパラメータ特定モデルにおける特徴抽出ネットワークに入力して、目標対象に対する第1の対象特徴を抽出する第1の特徴抽出モジュールと、第1の対象特徴をパラメータ特定モデルにおけるマルチタスクネットワークに入力して、目標対象に対する複数の評価指標の第1の融合パラメータと取得する第1のパラメータ取得モジュールとを含み、ここで、複数の評価指標は推奨情報に対する目標対象の好みを評価するものである融合パラメータの特定装置を提供した。
【0008】
本開示の別の局面によれば、目標対象に対する複数の第1の推奨すべき情報のうちの各第1の情報について、各第1の情報の複数の評価指標の推定値、及び目標対象に対する複数の評価指標の第1の融合パラメータに基づいて、目標対象に対する各第1の情報の第1の評価値を特定する第1の評価モジュールと、第1の評価値に基づいて、複数の第1の推奨すべき情報のうち、目標対象に対する第1の目標情報、及び第1の目標情報からなる第1の情報リストを特定する第1の情報特定モジュールと、を含み、ここで、第1の融合パラメータは本開示が提供した融合パラメータの特定装置を採用して特定されたものである情報推奨装置を提供した。
【0009】
本開示の別の局面によれば、パラメータ特定モデルのトレーニング装置であって、パラメータ特定モデルは特徴抽出ネットワークとマルチタスクネットワークとを含み、トレーニング装置は、参考対象の推奨参考情報を特徴抽出ネットワークに入力して、参考対象に対する第2の対象特徴を抽出する第2の特徴抽出モジュールと、第2の対象特徴をマルチタスクネットワークに入力して、参考対象に対する複数の評価指標の第2の融合パラメータを取得する第2のパラメータ取得モジュールと、参考対象に対する複数の第2の推奨すべき情報のうちの各第2の情報について、各第2の情報の複数の評価指標の推定値及び第2の融合パラメータに基づいて、参考対象に対する各第2の情報の第2の評価値を特定する第2の評価モジュールと、第2の評価値に基づいて、複数の第2の推奨すべき情報のうち、参考対象に対する第2の目標情報、及び第2の目標情報からなる第2の情報リストを特定する第2の情報特定モジュールと、第2の情報リストに対する参考対象のフィードバック情報に基づいて、マルチタスクネットワークをトレーニングする第1のトレーニングモジュールと、を含むパラメータ特定モデルのトレーニング装置を提供した。
【0010】
本開示の別の局面によれば、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信接続するメモリとを含み、メモリに、少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、コマンドが少なくとも1つのプロセッサによって実行されることで、少なくとも1つのプロセッサが本開示が提供した融合パラメータの特定方法、情報推奨方法及びパラメータ特定モデルのトレーニング方法の少なくとも1つを実行することができる電子機器を提供した。
【0011】
本開示の別の局面によれば、コンピュータに本開示が提供した融合パラメータの特定方法、情報推奨方法及びパラメータ特定モデルのトレーニング方法の少なくとも1つを実行させるためのコンピュータコマンドを記憶している非一時的なコンピュータ読取可能な記憶媒体を提供した。
【0012】
本開示の別の局面によれば、プロセッサにより実行される場合に、本開示が提供した融合パラメータの特定方法、情報推奨方法及びパラメータ特定モデルのトレーニング方法の少なくとも1つのステップを実現するコンピュータプログラム/コマンドを含むコンピュータプログラム製品を提供した。
【0013】
理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
【図面の簡単な説明】
【0014】
ここで、図面は、本技術案をよりよく理解するために用いられ、本開示を限定するものではない。
【0015】
【
図1】
図1は、本開示の実施例による融合パラメータの特定方法、情報推奨方法及びパラメータ特定モデルのトレーニング方法、装置の応用シーンの模式図である。
【
図2】
図2は、本開示の実施例によるパラメータ特定モデルのトレーニング方法のフロー模式図である。
【
図3】
図3は、本開示の実施例によるパラメータ特定モデルの構成模式図である。
【
図4】
図4は、本開示の別の実施例によるパラメータ特定モデルの構成模式図である。
【
図5】
図5は、本開示の実施例による融合パラメータの特定方法のフロー模式図である。
【
図6】
図6は、本開示の実施例による情報推奨方法のフロー模式図である。
【
図7】
図7は、本開示の実施例による目標対象に対する各第1の情報の評価値を特定する原理模式図である。
【
図8】
図8は、本開示の実施例によるパラメータ特定モデルのトレーニング装置の構成ブロック図である。
【
図9】
図9は、本開示の実施例による融合パラメータの特定装置の構成ブロック図である。
【
図10】
図10は、本開示の実施例による情報推奨装置の構成ブロック図である。
【
図11】
図11は、本開示の実施例の融合パラメータの特定方法、情報推奨方法、及びパラメータ特定モデルのトレーニング方法のいずれかの方法を実施するための電子機器のブロック図である。
【発明を実施するための形態】
【0016】
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分かるべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
【0017】
以下、
図1を参照して本開示が提供した方法及び装置の応用シーンを説明する。
【0018】
図1は、本開示の実施例による融合パラメータの特定方法、情報推奨方法、及びパラメータ特定モデルのトレーニング方法、装置の応用シーンの模式図である。
【0019】
図1に示すように、該実施例のシーン100は、ユーザ110と端末機器120とを含み、ユーザ110は端末機器120を介して情報をリフレッシュすることができる。例えば、リフレッシュされた情報は、例えばグラフィック文字情報、ショートビデオ情報、ミニビデオ情報又は映画ドラマ等を含む。
【0020】
例示的に、端末機器120は、スマートフォン、タブレットコンピュータ、ラップトップ型携帯コンピュータ又はデスクトップコンピュータ等であってもよい。該端末機器120には、ウェブページブラウザ、インスタント通信類アプリケーション、ビデオ再生類アプリケーション又はニュース情報類アプリケーション等のクライアントアプリケーション(単に例示である)がインストールされてもよい。該端末機器120は、例えばネットワーク130を介してサーバ140と対話することができる。ネットワークは、有線又は無線通信リンクであってもよい。
【0021】
一つの実施例において、サーバ140は、端末機器120におけるクライアントアプリケーションの稼働を支援するバックグラウンド管理サーバであってもよい。端末機器120は、例えばユーザ110のリフレッシュ操作又はクライアントアプリケーションを起動する操作に応答して、サーバ140へ取得リクエストを送信する。サーバ140は、該取得リクエストに応答して、データベース150からユーザ110とマッチングした情報を取得し、該取得された情報を推奨情報160として端末機器120にプッシュする。
【0022】
一つの実施例において、データベース150からユーザ110とマッチングした情報を取得する時、情報とユーザ110とのマッチング度を向上させ、ユーザが情報をクリックして閲覧する確率を向上させるために、サーバ140はリソースリコールモデル等を採用してデータベース150から情報をリコールしてもよい。ここで、リソースリコールモデルは、例えばユーザの閲覧情報とデータベースにおける情報との類似度に応じて情報をリコールしてもよい。データベース150から情報をリコールした後、サーバ140は例えば複数の評価指標に基づいてリコールされた情報を評価し、評価結果に基づいてリコールされた情報をさらに選別してソートすることで、推奨情報を得るようにしてもよい。ここで、複数の評価指標の値は、例えばユーザ特徴と情報特徴とに基づいて推定され得る。
【0023】
一つの実施例において、サーバ140は複数の評価指標の値の最大化を最適化目標として、複数の評価指標の値を融合して、リコールされた各情報の評価値を得る。ここで、グリッドサーチ(Grid Search)アルゴリズム、ランダムサーチ(Random Search)アルゴリズム、ベイズ最適化(Bayesian Optimization)アルゴリズム又は強化学習アルゴリズム等を採用して、複数の評価指標の値を融合する時の融合パラメータを得るようにしてもよい。
【0024】
ここで、グリッドサーチアルゴリズム、ランダムサーチアルゴリズム、ベイズ最適化アルゴリズムは、マルチターゲット最適化タスクを行う時、一般的にパラメータ最適化の過程は長い時間を費やす必要があり、かつ異なるアルゴリズムの得意なシーンが異なるため、最適化効果がよくないという問題が存在する恐れがある。強化学習アルゴリズムは最適化効果がよいが、一般的に実現コストが高く、複雑な方策勾配及び方策ネットワークを設計する必要があり、かつ大量の計算リソースを費やす必要がある。さらに、該強化学習アルゴリズムの実現は一般的にデンス特徴(dense feature)に依存する必要があり、スパース特徴に対する学習能力が弱いため、最適化効果がよくない問題が不可避的に存在する。
【0025】
一つの実施例において、以下に説明するパラメータ特定モデルを採用して、ユーザの推奨参考情報に基づいて、複数の評価指標の値を融合する時の融合パラメータを特定してもよい。ここでは詳細に説明しない。
【0026】
なお、本開示の実施例が提供した融合パラメータの特定方法、情報推奨方法、及びパラメータ特定モデルのトレーニング方法は、いずれもサーバ140により実行されてもよい。本開示の実施例が提供した融合パラメータの特定装置、情報推奨装置、及びパラメータ特定モデルのトレーニング装置は、いずれもサーバ140に設置されてもよい。又は、融合パラメータの特定方法及びパラメータ特定モデルのトレーニング方法は、サーバ140と通信する同一又は異なるサーバにより実行されてもよい。それに応じて、融合パラメータの特定装置及びパラメータ特定モデルのトレーニング装置は、サーバ140と通信する同一又は異なるサーバに設置させてもよい。
【0027】
理解されるべきこととして、
図1における端末機器、ネットワーク、サーバ、及びデータベースの数とタイプは、単に例示的なものである。実現の必要に応じて、任意の数とタイプの端末機器、ネットワーク、サーバ、及びデータベースを有してもよい。
【0028】
以下に
図1を参照して、以下の
図2~
図4によって本開示が提供したパラメータ特定モデルのトレーニング方法を詳細に説明する。
【0029】
図2は本開示の実施例によるパラメータ特定モデルのトレーニング方法のフロー模式図である。
【0030】
図2に示すように、該実施例のパラメータ特定モデルのトレーニング方法200は、操作S210~操作S250を含む。ここで、パラメータ特定モデルは、特徴抽出ネットワークとマルチタスクネットワークとを含む。
【0031】
操作S210において、参考対象の推奨参考情報を特徴抽出ネットワークに入力して、参考対象に対する第2の対象特徴を抽出する。
【0032】
本開示の実施例によれば、参考対象は、例えば前文で説明したユーザ又は端末機器を使用可能な任意の対象であってもよい。特徴抽出ネットワークは、例えばディープニューラルネットワーク等の、複数の非線形ネットワークがカスケード接続されたネットワークを含んでもよい。該特徴抽出ネットワークは、推奨タスク以外の他のタスクにおいてトレーニング済みの対象特徴を抽出するネットワークを採用することができる。
【0033】
該参考対象の推奨参考情報は、該参考対象の属性情報、画像情報又は行為情報等を含む。ここで、属性情報は、例えば参考対象のカテゴリや基本情報等を含む。該属性情報は、参考対象自体の基本属性を表し、例えば、対象性別、年齢、教育程度、対象活躍度及び対象履歴ふぁぼ比等の少なくとも一種を含む。理解されるべきこととして、推奨参考情報に属性情報を引き込むことで、後続の情報推奨時に、対象に基づく個性化推奨を実現し、それにより情報推奨結果と対象とのマッチング度を向上させ、さらにユーザ満足度を向上させることができる。
【0034】
該実施例は、推奨参考情報を特徴抽出ネットワークに入力して、特徴抽出ネットワークにより第2の対象特徴を出力する。
【0035】
操作S220において、第2の対象特徴をマルチタスクネットワークに入力して、参考対象に対する複数の評価指標の第2の融合パラメータを取得する。
【0036】
本開示の実施例によれば、マルチタスクネットワークはマルチタスク学習による機械学習ネットワークである。ここで、マルチタスク学習は、共有表現(shared representation)に基づいて、複数の相関するタスク(例えば、複数の評価指標の値を最大化するタスク)をまとめて学習する機械学習方法である。マルチタスクネットワークは、例えばHardパラメータ共有モデル、混合エキスパート(Mixture-of-Experts,MOE)モデル又はマルチゲート混合エキスパート(Multi-gate Mixture-of-Experts,MMOE)モデル等を含む。
【0037】
本開示の実施例によれば、複数の評価指標は、推奨情報に対する目標対象の好みを評価するためのものである。例えば、複数の評価指標は、クリック率、ランディングページ時間長さ、リストページ時間長さ、コメント、いいね及びシェア等の指標の少なくとも2つを含む。
【0038】
操作S230において、参考対象に対する複数の第2の推奨すべき情報のうちの各第2の情報について、各第2の情報の複数の評価指標の推定値及び第2の融合パラメータに基づいて、参考対象に対する各第2の情報の第2の評価値を特定する。
【0039】
本開示の実施例によれば、複数の評価指標の推定値は、例えば相関する予測モデルを採用して特定してもよい。例えば、クリック率については、対象の推奨参考情報と各第2の情報とを予測モデルに入力して、予測モデルによって出力されたものである。理解されるべきこととして、本開示は該複数の評価指標の推定値の取得方式を限定しない。
【0040】
本開示の実施例によれば、操作S220によって得られた第2の融合パラメータは、各評価指標に対する融合パラメータを含む。該実施例は、各評価指標に対する融合パラメータを該各評価指標の重みとし、複数の評価指標の推定値の加重和を、参考対象に対する各第2の情報の第2の評価値とする。
【0041】
操作S240において、第2の評価値に基づいて、複数の第2の推奨すべき情報のうち、参考対象に対する第2の目標情報、及び第2の目標情報からなる第2の情報リストを特定する。
【0042】
本開示の実施例によれば、複数の第2の推奨すべき情報のうち、第2の評価値が比較的大きい所定数の情報を第2の目標情報とする。その後、該所定数の第2の目標情報をランダムに配列し、又は第2の評価値の大きい順に配列することで、第2の情報リストが得られる。
【0043】
本開示の実施例によれば、第2の情報リストに含まれるのは、例えば所定数の第2の目標情報のランディングページのアクセスリンクであり、該アクセスリンクは、所定数の第2の目標情報のタイトルによって表示されてもよい。
【0044】
操作S250において、第2の情報リストに対する参考対象のフィードバック情報に基づいて、マルチタスクネットワークをトレーニングする。
【0045】
本開示の実施例によれば、フィードバック情報は、参考対象が第2の情報リストを閲覧した後に該第2の情報リストに対する操作に基づいて統計され得る。例えば、該フィードバック情報は、第2の情報リストにおける所定数の情報に対するクリック割合、第2の情報リストを閲覧した時間長さ(即ち、前述したリストページ時間長さ)、第2の情報リストのうち、クリックされた第2の情報のランディングページを閲覧した時間長さ(即ち、ランディングページ時間長さ)等を含む。該実施例は、前述した第2の情報リストに対する参考対象のフィードバック項(即ち、クリック割合、リストページ時間長さ、ランディングページ時間長さ等)を統計して、得られた統計情報をフィードバック情報としてもよい。
【0046】
本開示の実施例によれば、マルチタスクネットワークがトレーニング中止条件に達するまで、フィードバック情報を最大化する方式によって該マルチタスクネットワークをトレーニングする。ここで、トレーニング中止条件は、設定されたトレーニング回数に達すること、又はマルチタスクネットワークが出力した第2の評価値に基づいて特定された第2の情報リストに対する参考対象のフィードバック情報が安定化することなどを含む。
【0047】
一つの実施例において、例えば強化学習アルゴリズムを採用してマルチタスクネットワークをトレーニングする。具体的には、強化学習アルゴリズムを採用してマルチタスクネットワーク中のネットワークパラメータを調整することで、マルチタスクネットワークが第2の対象特徴に基づいて第2の融合パラメータを得るポリシーを調整していく。
【0048】
本開示の実施例は、第2の融合パラメータを特定する前に、まず特徴抽出ネットワークを採用して推奨参考情報から対象特徴を抽出することで、マルチタスクネットワークに入力される対象特徴の、スパースな推奨参考情報に対する表現能力を向上させることができる。即ち、特徴抽出ネットワークとマルチタスクネットワークとを結合することで、大規模なスパース特徴に対する学習を実現し、それによりパラメータ特定モデルによって特定される第2の融合パラメータの精度を向上させ、個性化とシーン化のマルチターゲット最適化を実現することができる。したがって、ある程度で第2の融合パラメータに基づいて特定された推奨情報の精度を向上させることができ、ユーザ体験を向上させることを容易にする。
【0049】
一つの実施例において、参考対象の推奨参考情報は、参考対象の属性情報に加えて、参考対象に対して情報推奨を行うシーン情報を含んでもよい。
【0050】
ここで、シーン情報は、参考対象に対して情報推奨を行う時のシーン状態データを表すものであり、例えば、シーン情報は、リフレッシュ回数、リフレッシュ状態、リフレッシュ大きさ、ネットワーク状態及びリフレッシュ時間帯等の少なくとも一種を含む。理解されるべきこととして、推奨参考情報にシーン情報を引き込むことで、後で情報推奨を行う時に、異なるシーンに対して、参考対象へ異なる推奨すべき情報を推奨し、それによりシーンによる個性化推奨の目的を達成する。
【0051】
一つの実施例において、参考対象の推奨参考情報は、参考対象の属性情報に加えて、推奨情報に対する目標対象の好み情報を含んでもよい。好み情報は、異なるタイプの情報のうち異なる種類の情報内容に対する参考対象の好み程度等を表すものである。理解されるべきこととして、推奨参考情報に好み情報を引き込むことで、後で情報推奨を行う時に、対象へ興味のある内容を推奨し、さらにユーザ満足度を向上させることができる。ここで、該好み情報は、例えば情報ペアの形式によって表すことができ、情報ペアは、対象のある属性情報とあるシーン情報から構成されてもよい。又は、該情報ペアは、対象のある属性情報と推奨すべき情報のカテゴリから構成されてもよい。
【0052】
一つの実施例において、参考対象の推奨参考情報は、参考対象の属性情報、推奨情報に対する目標対象の好み情報、及び参考対象に対して情報推奨を行うシーン情報のいずれか1つ又は複数を含む。例えば、参考対象の推奨参考情報は、属性情報も含み、好み情報及びシーン情報も含んでもよい。このように、特徴抽出ネットワークに多方面のスパース特徴を十分に学習させ、得られた対象特徴の表現能力を効果的に向上させることができる。
【0053】
一つの実施例において、第2の情報リストに対する参考対象の対話情報、及び第2の情報リストにおける選択された情報に対する参考対象の対話情報に基づいて、第2の情報リストに対する参考対象のフィードバック評価値を特定する。その後、該フィードバック評価値をフィードバック情報とする。第2の情報リストに対する参考対象の対話情報は、参考対象が該第2の情報リストを閲覧した時間長さ、参考対象が第2の情報リストにおける情報をクリックした個数等を含む。第2の情報リストにおける選択された情報に対する参考対象の対話情報は、参考対象が閲覧クリックした各情報のランディングページの時間長さ、参考対象が閲覧クリックした複数の情報のランディングページの平均時間長さ等を含む。第2の情報リストに対する参考対象の対話情報も考慮し、第2の情報リストにおける選択された情報に対する参考対象の対話情報も考慮して、フィードバック評価値を特定することで、特定されたフィードバック情報の表現能力を向上させることを容易にする。
【0054】
例えば、該実施例は、リストページ時間長さとランディングページ時間長さとの和をフィードバック評価値とする。
【0055】
例えば、フィードバック評価値を特定する時、例えば参考対象がクリックした情報数も考慮してもよい。これによって参考対象が単一の情報のランディングページを閲覧した時間長さが長すぎることによってフィードバック評価値が高くなり、それにより第2の情報リストに対する参考対象の満意程度を正確に表すことができないことを回避することができる。具体的には、該実施例は、所定ページ平均時間長さ及びクリックした情報数の積と、前述したリストページ時間長さ及びランディングページ時間長さの和とを加算することで、フィードバック評価値を得る。ここで、所定ページ平均時間長さは、統計によって得られた対象が推奨情報のランディングページを閲覧した平均時間長さであってもよく、又は、需要に応じて該所定ページ平均時間長さの値を設定してもよく、本開示はこれを限定しない。
【0056】
図3は、本開示の実施例によるパラメータ特定モデルの構成模式図である。
【0057】
一つの実施例において、前述したデータベースからリコールする情報は、複数のタイプの情報を含み、即ち参考対象へ推奨する情報は、複数のタイプの情報を含む。各タイプの情報は、いずれも前述した複数の評価指標を含む。各タイプの情報に対して、融合パラメータの値は異なってもよく、これにより各タイプの情報を評価して得られた評価値の精度を向上させる。これは、異なるタイプの情報に対する同一のユーザの好み程度が異なるためである。
【0058】
一つの実施例において、パラメータ特定モデルは、融合パラメータを特定する時、マルチタスクを完了する必要があるだけではなく、複数のタイプの情報のうちの各タイプ情報の融合パラメータに対する予測を完了する必要もある。例えば、該パラメータ特定モデルにおけるマルチタスクネットワークは、特徴表現サブネットワークと複数の予測サブネットワークとを含む。該複数の予測サブネットワークは、特徴表現サブネットワークが出力した特徴を共有する。
【0059】
以下、
図3を参照して、推奨参考情報が前述した属性情報、シーン情報及び好み情報を含むことを例として、該実施例が第2の融合パラメータを取得する原理を説明する。
【0060】
図3に示すように、該実施例300において、パラメータ特定モデルは、特徴抽出ネットワーク310とマルチタスクネットワーク320とを含む。マルチタスクネットワークは、特徴表現サブネットワーク321とn個の予測サブネットワークとを含む。ここで、n個の予測サブネットワークのうちの第1の予測サブネットワーク3221~第nの予測サブネットワーク3222は、それぞれn個のタイプと一対一で対応する第1の融合パラメータセット305~第nの融合パラメータセット306を予測するために用いられる。即ち、各タイプの情報に対して、1つの融合パラメータセットを予測する。該1つの融合パラメータセットには複数の評価指標と同じ個数の融合パラメータが含まれる。
【0061】
第2の融合パラメータを取得する時、参考対象の属性情報301、シーン情報302、好み情報303をそれぞれ埋め込み表現して、該3つの情報の3つの埋め込み特徴を得る。該3つの埋め込み特徴をスティッチングした後、特徴304が得られる。該実施例は、特徴304を特徴抽出ネットワーク310に入力することで、第2の対象特徴が得られる。ここで、特徴抽出ネットワーク310は、例えば複数の非線性ネットワークがカスケード接続されたものであり、各非線性ネットワークに含まれるニューロンの個数及び層数は、実際の需要に応じて設定され、本開示はこれを限定しない。
【0062】
第2の対象特徴が得られた後、該第2の対象特徴を特徴表現サブネットワーク321に入力して、特徴表現サブネットワーク321によって該第2の対象特徴に対して目的に合った学習を行って、得られた表現特徴が参考対象の好みをよりよく表現できるようにする。又は、該特徴表現サブネットワーク321の処理によって、表現特徴のサイズがn個の予測サブネットワークの入力特徴サイズに対する要求を満たすようにすることができる。
【0063】
表現特徴が得られた後、表現特徴と第2の対象特徴とをn個の予測サブネットワークのそれぞれに入力する。ここで、各予測サブネットワークの入力は、第2の対象特徴を含み、表現特徴により表現された情報が不完全であることによって予測結果に影響を及ぼすことを回避することができる。該各予測サブネットワークは、異なる重みで表現特徴を考慮し、異なるタイプの情報に対応する融合パラメータが、異なる方式で表現特徴を利用することを許容して、異なるタイプの情報の間の関係を捕る。
【0064】
例えば、表現特徴と第2の対象特徴とを第1の予測サブネットワーク3221に入力し、該第1の予測サブネットワーク3221は、第1の融合パラメータセット305を出力することができる。表現特徴と第2の対象特徴とを第nの予測サブネットワーク3222に入力し、該第nの予測サブネットワーク3222は、第nの融合パラメータセット306を出力することができる。
【0065】
図4は、本開示の別の実施例によるパラメータ特定モデルの構成模式図である。
【0066】
一つの実施例において、特徴表現サブネットワークは、複数のエキスパートユニットを含み、各エキスパートユニットは1つの得意な予測方向を有する。例えば、複数のエキスパート(Expert)ユニットは、それぞれ第2の対象特徴に基づいて複数の所定対象カテゴリのうちの1つのカテゴリに対する参考対象の特徴を表現するために用いられる。このように、複数のエキスパートユニットがそれぞれ取得した表現特徴に表現傾向性を持たせることができる。それに応じて、前述したn個の予測サブネットワークのうちの各予測サブネットワークは、第2の対象特徴に基づいて複数のエキスパートユニットの出力を総合的に考慮し、それにより各予測サブネットワークが取得した融合パラメータが、該各予測サブネットワークに対応する情報タイプに対する参考対象の好みをより正確的に表現することができる。
【0067】
例えば、複数の所定対象カテゴリを設定することは、グローバル低アクティブカテゴリ、情報タイプ別の情報に対する軽度好みの軽度カテゴリ、情報タイプ別の情報に対する中度好みの中度カテゴリ、及び情報タイプ別の情報に対する重度好みの重度カテゴリを含む。それに応じて、
図4に示すように、特徴表現サブネットワークは、低アクティブエキスパート(Expert)ユニット4211、軽度エキスパートユニット4212、中度エキスパートユニット4213、及び重度エキスパートユニット4214を含み、それぞれ第2の対象特徴に基づいて参考対象がグローバルアクティブカテゴリ、軽度カテゴリ、中度カテゴリ及び重度カテゴリに属す特徴を表すために用いられる。
【0068】
該実施例は、第2の融合パラメータを取得する時、まず属性情報401、シーン情報402、及び好み情報403に対してそれぞれ埋め込み表示を行い、埋め込み表示された3つの特徴をスティッチングして得られた特徴404を特徴抽出ネットワーク410に入力して、第2の対象特徴を得る。該第2の対象特徴を低アクティブエキスパートユニット4211、軽度エキスパートユニット4212、中度エキスパートユニット4213、及び重度エキスパートユニット4214に同時に入力し、該4つのユニットによりそれぞれ1つの表現特徴を出力し、合計で4つの表現特徴を得る。
【0069】
複数のタイプの情報は、グラフィック文字タイプの情報、ショートビデオタイプの情報、及びミニビデオタイプの情報を含むことを例として、4つの表現特徴が得られた後、該4つの表現特徴をグラフィック文字タイプに対応するグラフィック文字タイプ予測サブネットワーク4221、ショートビデオタイプに対応するショートビデオタイプ予測サブネットワーク4222、及びミニビデオタイプに対応するミニビデオタイプ予測サブネットワーク4223に同時に入力する。該グラフィック文字タイプ予測サブネットワーク4221、ショートビデオタイプ予測サブネットワーク4222、及びミニビデオタイプ予測サブネットワーク4223のそれぞれによって、第2の対象特徴に基づいて、各々が4つの表現特徴を考慮する重みを特定する。該3つの予測サブネットワークは、各々が特定した重みに基づいて4つの表現特徴に対して加重和を算出する。最終的に、算出された加重和に基づいて第2の融合パラメータセットを特定する。例えば、グラフィック文字タイプ予測サブネットワーク4221は、グラフィック文字融合パラメータセット405を予測することができ、ショートビデオタイプ予測サブネットワーク4222は、ショートビデオ融合パラメータセット406を予測することができ、ミニビデオタイプ予測サブネットワーク4223は、ミニビデオ融合パラメータセット407を予測することができる。
【0070】
一つの実施例において、フィードバック情報は、実際閲覧時間長さをさらに含んでもよく、該実際閲覧時間長さは、例えばリスト時間長さとランディングページ時間長さとの和で表すことができる。該実施例は、該実際閲覧時間長さを参考対象の推奨参考情報のラベルとすることで、実際閲覧時間長さを監督として、特徴抽出ネットワークをトレーニングし、これにより特徴抽出ネットワークの学習能力を向上させる。
【0071】
例えば、
図4に示すように、該実施例400において、パラメータ特定モデルは、特徴抽出ネットワーク410、マルチタスクネットワーク420に加えて、予測ネットワーク430をさらに含んでもよい。該予測ネットワーク430は、例えば、第2の対象特徴に基づいて推奨情報に対する参考対象の閲覧時間長さを予測するためのフル接続ネットワークを含んでもよい。
【0072】
例えば、特徴抽出ネットワーク410が出力した第2の対象特徴を予測ネットワーク430に入力し、該予測ネットワーク430によって予測閲覧時間長さ408を出力する。該実施例は、予測閲覧時間長さと実際閲覧時間長さとの相違に基づいて、特徴抽出ネットワークと予測ネットワークとをトレーニングする。例えば、予測閲覧時間長さと実際閲覧時間長さとに基づいて、特徴抽出ネットワークと予測ネットワークとから構成されるネットワークモデルの損失を特定する。その後、逆伝搬アルゴリズムを採用して特徴抽出ネットワークと予測ネットワークにおけるネットワークパラメータを調整して、ネットワークモデルの損失を最小化する。例えば、L1損失関数又はL2損失関数等を採用してネットワークモデルの損失を特定してもよく、本開示はこれを限定しない。
【0073】
本開示の実施例は、予測ネットワークを設置し、予測閲覧時間長さとラベルが示す実際閲覧時間長さとに基づいて、特徴抽出ネットワークをトレーニングすることで、特徴抽出ネットワークの監督ありトレーニングを実現することができる。このように、スパース特徴に対する特徴抽出ネットワークの学習能力をさらに向上させ、これによりパラメータ特定モデルの適用範囲及び精度を拡大することができる。
【0074】
理解されるべきこととして、一つの実施例において、MMOEモデルを採用してマルチタスクネットワークのアーキテクチャとすることができ、これによりマルチシーンでのマルチターゲット最適化タスクを実現する。また、該MMOEモデルは、複数の予測サブネットワークに同一の特徴表現サブネットワークを共有させることで、モデルのパラメータ規模を小さくして、モデルのオーバーフィッティングを防止することができる。また、該MMOEは、ゲート構造を、異なるシーンの間の学習のアテンション引き込みとして引き込むことで、マルチシーンの間のタスクの関連性も考慮し、異なるシーンの特異性も制限することができる。したがって、予測された融合パラメータの精度を向上させることを容易にする。
【0075】
一つの実施例において、例えばマルチタスクネットワークにおけるネットワークパラメータに外乱を加える方式で、マルチタスクネットワークをトレーニングする。例えば、ネットワークパラメータに外乱を加えることによるフィードバック情報に基づいて、ネットワークパラメータの外乱方向を特定する。
【0076】
例示的に、参考対象の識別情報に基づいてネットワークパラメータに加える外乱値を生成してもよい。その後、フィードバック評価値と外乱値とに基づいて、複数のネットワークパラメータを調整する。ここで、参考対象の識別情報は、例えば参考対象のアカウント情報を含む。生成された外乱値はデータセット形式であってもよく、データには各ネットワークパラメータに対する外乱値が含まれる。ここで、フィードバック評価値は、例えば外乱値と逆相関する。例えば、フィードバック評価値が大きいであれば、ネットワークパラメータに小さい外乱値を加えてよい。
【0077】
ここで、識別情報を暗号化演算して、乱数シードを得てから、分布関数を採用して乱数シードに基づいて外乱値組を生成する。ここで、暗号化演算は、ハッシュアルゴリズム等を採用して実現することができ、分布関数は、例えばガウス分布関数等を採用してもよく、本開示は該暗号化演算が採用するアルゴリズム及び分布関数のタイプを限定しない。
【0078】
一つの実施例において、外乱値を生成する時、例えば時間情報をさらに考慮してもよく、これにより生じた外乱値の多様性を保証する。例えば、時間情報は日付情報及び/又はクロック情報を含む。該実施例は、識別情報と時間情報とを暗号化演算することで、乱数シードを得る。
【0079】
例示的に、複数のネットワークパラメータを調整する時、例えば、まずフィードバック評価値と各ネットワークパラメータの外乱値との間の比に基づいて、該各ネットワークパラメータの調整ステップサイズを特定する。その後、該調整ステップサイズに基づいて、ネットワークパラメータを調整する。一つの実施例において、直接にフィードバック評価値と各ネットワークパラメータの外乱値との間の比を調整ステップサイズとしてもよく、該比にスーパーパラメータを付加して、該スーパーパラメータと比との積を調整ステップサイズとしてもよい。ここで、スーパーパラメータの値は、実際の需要に応じて設定することができ、本開示はこれを限定しない。
【0080】
例示的に、一ロッドの参考対象の複数の推奨参考情報を一ロッドのトレーニングサンプルとしてもよい。該実施例は、該一ロッドのトレーニングサンプルに基づいて得られた複数のフィードバック評価値の平均値と各ネットワークパラメータの外乱値との間の比を、該各ネットワークパラメータの調整ステップサイズを特定する根拠とする。
【0081】
該実施例は、外乱値を加える方式及びフィードバック結果を考慮する方式でマルチタスクモデルをトレーニングすることで、複雑な方策勾配を設計する必要がなく、それにより計算リソースを節約することができる。
【0082】
一つの実施例において、前述した方法を採用して複数の外乱値組を生じる。各外乱値組は、マルチタスクネットワーク中の複数のネットワークパラメータと一対一で対応する複数の外乱値を含む。該実施例は、進化アルゴリズムを採用して複数のネットワークパラメータを調整する目標外乱値組を特定する。これによりマルチタスクネットワークのトレーニング効果を向上させる。
【0083】
例えば、進化アルゴリズムは、フィードバック評価値と複数の外乱値組とを考慮することで、目標外乱値組を特定する。例えば、進化アルゴリズムは、フィードバック評価値を最大化することを目標とし、複数の外乱値組を融合することで、目標外乱値組を得る。該融合方法は、各外乱値組に係数を付加する方式を採用して行ってもよく、本開示はこれを限定しない。目標外乱値組が得られた後、該実施例はフィードバック評価値と目標外乱値組とに基づいて各ネットワークパラメータの調整ステップサイズを特定し、該調整ステップサイズに基づいて各ネットワークパラメータを調整する。
【0084】
ここまで、パラメータ特定モデルのトレーニング方法に対する詳細な説明が完了した。本開示のトレーニングされたパラメータ特定モデルを基に、本開示は融合パラメータの特定方法をさらに提供し、以下に
図5を参照して該方法を詳細に説明する。
【0085】
図5は、本開示の実施例による融合パラメータの特定方法のフロー模式図である。
【0086】
図5に示すように、該実施例の融合パラメータの特定方法500は、操作S510~操作S520を含む。
【0087】
操作S510において、目標対象の推奨参考情報をパラメータ特定モデルにおける特徴抽出ネットワークに入力して、目標対象に対する第1の対象特徴を抽出する。
【0088】
ここで、目標対象は、情報をリフレッシュするユーザ等であってもよく、該目標対象は前述した参考対象と類似する。目標対象の推奨参考情報は前文で説明した参考対象の推奨参考情報と類似し、例えば、目標対象の属性情報、目標対象に対して情報推奨を行うシーン情報、及び推奨情報に対する目標対象の好み情報の少なくとも1つを含む。該操作S510の実現方式は前文で説明した操作S210の実現方式と類似し、ここで説明を繰り返さない。
【0089】
操作S520において、第1の対象特徴をパラメータ特定モデルにおけるマルチタスクネットワークに入力して、目標対象に対する複数の評価指標の第1の融合パラメータを取得する。
【0090】
ここで、第1の融合パラメータは前文で説明した第2の融合パラメータと類似する。複数の評価指標は、推奨情報に対する目標対象の好みを評価するために用いられる。該操作S520の実現方式は前文で説明した操作S220の実現方式と類似し、ここで説明を繰り返さない。
【0091】
本開示の実施例は、融合パラメータを特定する時、まず推奨参考情報に基づいて対象特徴を抽出し、次にマルチタスクネットワークを介して第1の融合パラメータを特定することで、第1の融合パラメータの取得が大量のスパース特徴を考慮することを容易にし、これにより特定された融合パラメータの精度を向上させることを容易にする。また、本開示はマルチタスクネットワークを採用して融合パラメータを取得することで、直接にマルチタスクネットワークによって推奨情報を出力する技術案と比較して、該実施例の方法が複数のシーンにおける情報の推奨に適用することができるようにして、該方法のロバスト性を向上させることができる。
【0092】
本開示の実施例によれば、前文の説明と類似し、目標対象へ推奨する情報は複数のタイプの情報を含み、各タイプの情報はいずれも複数の評価指標を有する。該実施例は前文で説明した特徴表現サブネットワークと複数の予測サブネットワークとを含むマルチタスクネットワークによって第1の融合パラメータを取得する。具体的に、第1の対象特徴を特徴表現サブネットワークに入力して、表現特徴を取得する。その後、表現特徴と第1の対象特徴とを複数の予測サブネットワークに入力して、複数の予測サブネットワークのうちの各サブネットワークによって1つの融合パラメータセットを出力する。ここで、複数の予測サブネットワークは情報の複数のタイプと一対一で対応し、各融合パラメータセットは複数の評価指標それぞれの融合パラメータを含む。
【0093】
本開示の実施例によれば、前文の説明と類似し、特徴表現サブネットワークは複数のエキスパートユニットを含む。該実施例は表現特徴を取得する時、対象特徴を複数のエキスパートユニットのうちの各エキスパートユニットに入力し、各エキスパートユニットによって1つの表現特徴を出力する。ここで、複数のエキスパートユニットは、それぞれ第1の対象特徴に基づいて複数の所定対象カテゴリのうちの1つのカテゴリに対する目標対象の特徴を表現するために用いられる。
【0094】
本開示が提供した融合パラメータの特定方法を基に、本開示は情報推奨方法をさらに提供し、以下に
図6を参照して該情報推奨方法を詳細に説明する。
【0095】
図6は本開示の実施例による情報推奨方法のフロー模式図である。
【0096】
図6に示すように、該実施例の情報推奨方法600は操作S610~操作S620を含む。
【0097】
操作S610において、目標対象に対する複数の第1の推奨すべき情報のうちの各第1の情報について、各第1の情報の複数の評価指標の推定値及び目標対象に対する複数の評価指標の第1の融合パラメータに基づいて、目標対象に対する各第1の情報の第1の評価値を特定する。
【0098】
ここで、第1の推奨すべき情報は前文で説明した第2の推奨すべき情報と類似し、該第1の推奨すべき情報の取得方式も第2の推奨すべき情報の取得方式と類似し、ここで説明を繰り返さない。
【0099】
ここで、第1の融合パラメータは、前文で説明した融合パラメータの特定方法を採用して取得されたものである。該操作S610の実現方式は前文で説明した操作S230の実現方式と類似し、ここで説明を繰り返さない。
【0100】
操作S620において、第1の評価値に基づいて、複数の第1の推奨すべき情報のうち、目標対象に対する第1の目標情報、及び第1の目標情報からなる第1の情報リストを特定する。
【0101】
ここで、第1の目標情報と第1の情報リストとの特定方法は、前文で説明した操作S240における第2の目標情報と第2の情報リストとを特定する方法と類似し、ここで説明を繰り返さない。
【0102】
図7は本開示の実施例による目標対象に対する各第1の情報の評価値を特定する原理模式図である。
【0103】
一つの実施例において、複数の第1の推奨すべき情報は、例えば少なくとも2つのタイプの情報を含む。該少なくとも2つのタイプは、前文で説明した推奨情報の複数のタイプのいずれか少なくとも2つであってもよい。それに応じて、各タイプの情報に対して、いずれも1つの融合パラメータセットがある。
【0104】
図7に示すように、該実施例700は、目標対象に対する各第1の情報の第1の評価値を特定する時、まず該各第1の情報710の情報タイプを特定する。そして、パラメータ特定モデル701を採用して得られた、複数のタイプと一対一で対応する複数の融合パラメータセットから、該第1の情報の情報タイプ720に対応する融合パラメータセットを検索して、該各第1の情報710に対する融合パラメータセット730とする。
【0105】
複数の評価指標の個数をm個に設定すれば、該実施例が取得した融合パラメータセット730は、第1の融合パラメータ731~第mの融合パラメータ732を含み、それぞれ複数の評価指標のうちの第1の評価指標741~第mの評価指標742に対応する。一つの実施例において、各評価指標、及び目標対象に対する該各評価指標の融合パラメータに基づいて、該各評価指標の融合値を特定する。例えば、第1の評価指標741と第1の融合パラメータ731との積を第1の融合値751としてもよい。類似的に、第1の融合値751~第mの融合値752の合計m個の融合値が得られる。最後に、該複数の融合値に基づいて、第1の評価値760を特定する。該方式によって、複数の評価指標の効率的な融合を実現することができ、第1の評価値の精度を向上させることを容易にする。
【0106】
例えば、融合パラメータセット730が得られた後、該実施例は、m個の融合パラメータをそれぞれm個の評価指標の重みとし、m個の評価指標の加重和を算出することで、第1の評価値を得る。
【0107】
例えば、該実施例は融合パラメータを評価指標の推定値の指数として、融合値を算出する。最後に、m個の融合値を乗算することで、評価値を得る。該実施例は指数方式によって融合値を特定し、融合値に対する融合パラメータの影響程度を向上させることができ、得られた評価値の精度を向上させることを容易にする。また、融合値を乗算する方式で評価値を得ることで、異なる情報の評価値に大きな相違を持たせることを容易にし、第1の目標情報の特定に便宜を与えることができる。
【0108】
パラメータ特定モデルを採用して複数の評価指標の融合パラメータを特定し、最後に融合パラメータに基づいて情報の評価値を特定することは、モデルを採用して推奨情報を直接に出力する技術案と比較して、該実施例の情報推奨方法の応用範囲がより広い。異なるタイプの情報の推奨シーンにおいて、モデルを調整する必要がなく、情報推奨効率を向上させることができる。
【0109】
本開示が提供したパラメータ特定モデルのトレーニング方法を基に、本開示はパラメータ特定モデルのトレーニング装置をさらに提供し、
図8を参照して該装置を詳細に説明する。
【0110】
図8は、本開示の実施例によるパラメータ特定モデルのトレーニング装置の構成ブロック図である。
【0111】
図8に示すように、該実施例のパラメータ特定モデルのトレーニング装置800は、第2の特徴抽出モジュール810、第2のパラメータ取得モジュール820、第2の評価モジュール830、第2の情報特定モジュール840、及び第1のトレーニングモジュール850を含む。ここで、パラメータ特定モデルは、特徴抽出ネットワークとマルチタスクネットワークとを含む。
【0112】
第2の特徴抽出モジュール810は、参考対象の推奨参考情報を特徴抽出ネットワークに入力して、参考対象に対する第2の対象特徴を抽出するために用いられる。一つの実施例において、第2の特徴抽出モジュール810は、前文で説明した操作S210を実行するために用いられ、ここで説明を繰り返さない。
【0113】
第2のパラメータ取得モジュール820は、第2の対象特徴をマルチタスクネットワークに入力して、参考対象に対する複数の評価指標の第2の融合パラメータを取得するために用いられる。一つの実施例において、第2のパラメータ取得モジュール820は、前文で説明した操作S220を実行するために用いられ、ここで説明を繰り返さない。
【0114】
第2の評価モジュール830は、参考対象に対する複数の第2の推奨すべき情報のうちの各第2の情報について、各第2の情報の複数の評価指標の推定値及び第2の融合パラメータに基づいて、参考対象に対する各第2の情報の第2の評価値を特定するために用いられる。一つの実施例において、第2の評価モジュール830は、前文で説明した操作S230を実行するために用いられ、ここで説明を繰り返さない。
【0115】
第2の情報特定モジュール840は、第2の評価値に基づいて、複数の第2の推奨すべき情報のうち、参考対象に対する第2の目標情報、及び第2の目標情報からなる第2の情報リストを特定するために用いられる。一つの実施例において、第2の情報特定モジュール840は、前文で説明した操作S240を実行するために用いられ、ここで説明を繰り返さない。
【0116】
第1のトレーニングモジュール850は、第2の情報リストに対する参考対象のフィードバック情報に基づいて、マルチタスクネットワークをトレーニングするために用いられる。一つの実施例において、第1のトレーニングモジュール850は、前文で説明した操作S250を実行するために用いられ、ここで説明を繰り返さない。
【0117】
本開示の実施例によれば、上記パラメータ特定モデルのトレーニング装置800は、第2の情報リストに対する参考対象の対話情報、及び第2の情報リストにおける選択された情報に対する参考対象の対話情報に基づいて、第2の情報リストに対する参考対象のフィードバック評価値を特定する方式によって、第2の情報リストに対する参考対象のフィードバック情報を特定するために用いられるフィードバック情報特定モジュールをさらに含んでもよい。ここで、フィードバック情報はフィードバック評価値を含む。
【0118】
本開示の実施例によれば、上記第1のトレーニングモジュール850は、外乱値生成サブモジュールとパラメータ調整サブモジュールとを含む。外乱値生成サブモジュールは、参考対象の識別情報に基づいて、マルチタスクネットワーク中の複数のネットワークパラメータに対する外乱値を生成するために用いられる。パラメータ調整サブモジュールは、フィードバック評価値と複数のネットワークパラメータに対する外乱値とに基づいて、複数のネットワークパラメータを調整するために用いられる。
【0119】
本開示の実施例によれば、複数のネットワークパラメータに対する外乱値は、複数のネットワークパラメータにそれぞれ対応する複数の外乱値を含む。上記パラメータ調整サブモジュールは、ステップサイズ特定手段と第1の調整手段とを含む。ステップサイズ特定手段は、複数のネットワークパラメータのうちの各ネットワークパラメータに対して、フィードバック評価値と各ネットワークパラメータに対応する外乱値との比に基づいて、各ネットワークパラメータに対する調整ステップサイズを特定するために用いられる。第1の調整手段は、調整ステップサイズに基づいて、各ネットワークパラメータを調整するために用いられる。
【0120】
本開示の実施例によれば、複数のネットワークパラメータに対する外乱値は、複数の外乱値組を含み、複数の外乱値組のうちの各外乱値組は、複数のネットワークパラメータにそれぞれ対応する複数の外乱値を含む。上記パラメータ調整サブモジュールは、目標外乱特定手段と第2の調整手段とを含む。目標外乱特定手段は、フィードバック評価値と複数のネットワークパラメータに対する複数の外乱値組とに基づいて、進化アルゴリズムを採用して目標外乱値組を特定するために用いられる。第2の調整手段は、フィードバック評価値と目標外乱値組とに基づいて、複数のネットワークパラメータを調整するために用いられる。
【0121】
本開示の実施例によれば、フィードバック情報は、実際閲覧時間長さを含み、パラメータ特定モデルは、予測ネットワークをさらに含む。上記パラメータ特定モデルのトレーニング装置800は、時間長さ予測モジュールと第2のトレーニングモジュールとをさらに含んでもよい。時間長さ予測モジュールは、第2の対象特徴を予測ネットワークに入力して、予測閲覧時間長さを得るために用いられる。第2のトレーニングモジュールは、実際閲覧時間長さと予測閲覧時間長さとの相違に基づいて、特徴抽出ネットワークと予測ネットワークとをトレーニングする。
【0122】
本開示が提供した融合パラメータの特定方法によれば、本開示はさらに融合パラメータの特定装置をさらに提供し、以下に
図9を参照して該装置を詳細に説明する。
【0123】
図9は、本開示の実施例による融合パラメータの特定装置の構成ブロック図である。
【0124】
図9に示すように、該実施例の融合パラメータの特定装置900は、第1の特徴抽出モジュール910と第1のパラメータ取得モジュール920とを含む。
【0125】
第1の特徴抽出モジュール910は、目標対象の推奨参考情報をパラメータ特定モデルにおける特徴抽出ネットワークに入力して、目標対象に対する第1の対象特徴を抽出するために用いられる。一つの実施例において、第1の特徴抽出モジュール910は、前文で説明した操作S510を実行するために用いられ、ここで説明を繰り返さない。
【0126】
第1のパラメータ取得モジュール920は、第1の対象特徴をパラメータ特定モデルにおけるマルチタスクネットワークに入力して、目標対象に対する複数の評価指標の第1の融合パラメータを取得するために用いられる。ここで、複数の評価指標は、推奨情報に対する目標対象の好みを評価するために用いられる。一つの実施例において、第1のパラメータ取得モジュール920は、前文で説明した操作S520を実行するために用いられ、ここで説明を繰り返さない。
【0127】
本開示の実施例によれば、推奨情報は、複数のタイプの情報を含み、各タイプの情報は、いずれも複数の評価指標を有する。マルチタスクネットワークは、特徴表現サブネットワークと複数の予測サブネットワークとを含む。上記第1のパラメータ取得モジュール920は、特徴取得サブモジュールとパラメータ取得サブモジュールとを含む。特徴取得サブモジュールは、第1の対象特徴を特徴表現サブネットワークに入力して、表現特徴を取得するために用いられる。パラメータ取得サブモジュールは、表現特徴と第1の対象特徴とを複数の予測サブネットワークに入力して、複数の予測サブネットワークのうちの各サブネットワークによって1つの融合パラメータセットを出力するために用いられる。ここで、複数の予測サブネットワークは、複数のタイプと一対一で対応し、融合パラメータセットは、複数の評価指標の融合パラメータを含む。
【0128】
本開示の実施例によれば、特徴表現サブネットワークは複数のエキスパートユニットを含み、上記特徴取得サブモジュールは、対象特徴を複数のエキスパートユニットのうちの各エキスパートユニットに入力して、各エキスパートユニットによって1つの表現特徴を出力するために用いられる。ここで、複数のエキスパートユニットは、それぞれ第1の対象特徴に基づいて複数の所定対象カテゴリのうちの1つのカテゴリに対する目標対象の特徴を表現するために用いられる。
【0129】
本開示の実施例によれば、目標対象の推奨参考情報は、目標対象の属性情報、目標対象に対して情報推奨を行うシーン情報、及び推奨情報に対する目標対象の好み情報の少なくとも1つを含む。
【0130】
本開示が提供した情報推奨方法を基に、本開示は情報推奨装置をさらに提供し、以下に
図10を参照して該装置を詳細に説明する。
【0131】
図10は本開示の実施例による情報推奨装置の構成ブロック図である。
【0132】
図10に示すように、該実施例の情報推奨装置1000は第1の評価モジュール1010と第1の情報特定モジュール1020とを含む。
【0133】
第1の評価モジュール1010は、目標対象に対する複数の第1の推奨すべき情報のうちの各第1の情報について、各第1の情報の複数の評価指標の推定値、及び目標対象に対する複数の評価指標の第1の融合パラメータに基づいて、目標対象に対する各第1の情報の第1の評価値を特定するために用いられる。ここで、第1の融合パラメータは、前文で説明した融合パラメータの特定装置を採用して特定されたものである。一つの実施例において、第1の評価モジュール1010は前文で説明した操作S610を実行するために用いられ、ここで説明を繰り返さない。
【0134】
第1の情報特定モジュール1020は、第1の評価値に基づいて、複数の第1の推奨すべき情報のうち、目標対象に対する第1の目標情報、及び第1の目標情報からなる第1の情報リストを特定するために用いられる。一つの実施例において、第1の情報特定モジュール1020は、前文で説明した操作S620を実行するために用いられ、ここで説明を繰り返さない。
【0135】
本開示の実施例によれば、複数の第1の推奨すべき情報は、少なくとも2つのタイプの情報を含む。上記第1の評価モジュール1010は、パラメータ特定サブモジュールと評価値特定サブモジュールとを含む。パラメータ特定サブモジュールは、各第1の情報的タイプに基づいて、目標対象に対する複数の評価指標の複数の融合パラメータを特定して、各第1の情報に対する、情報のタイプと一対一で対応する融合パラメータセットを得るために用いられる。評価値特定サブモジュールは、各第1の情報の複数の評価指標の推定値と融合パラメータセットとに基づいて、第1の評価値を特定するために用いられる。
【0136】
本開示の実施例によれば、評価値特定サブモジュールは、融合値特定手段と評価値特定手段とを含む。融合値特定手段は、複数の評価指標のうちの各評価指標に対して、各評価指標の推定値と融合パラメータセットにおける目標対象に対する各評価指標の融合パラメータとに基づいて、各評価指標の融合値を特定するために用いられる。評価値特定手段は、複数の評価指標の複数の融合値に基づいて、第1の評価値を特定するために用いられる。
【0137】
なお、本開示の技術案において、係れたユーザ個人情報の取得、収集、記憶、使用、加工、伝送、提供及び開示等の処理は、関連法律や法規の規定に合致しており、公序良俗に反していない。
【0138】
本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体及びコンピュータプログラム製品をさらに提供した。
【0139】
図11は、本開示の実施例の融合パラメータの特定方法、情報推奨方法及びパラメータ特定モデルのトレーニング方法のいずれかの方法を実施するための電子機器のブロック図を示している。電子機器は、様々な形式のデジタルコンピュータを示すことを目的とし、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータである。電子機器は、さらに様々な形式の移動装置を示してもよく、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似の演算装置である。本明細書に示された部材、それらの接続及び関係、並びにそれらの機能は、例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定しない。
【0140】
図11に示すように、機器1100は、計算手段1101を含み、計算手段1101は、リードオンリーメモリ(ROM)1102に記憶されたコンピュータプログラム又は記憶手段1108からランダムアクセスメモリ(RAM)1103にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。RAM1103には、さらに機器1100の操作に必要な様々なプログラム及びデータを記憶してもよい。計算手段1101、ROM1102、及びRAM1103は、バス1104を介して相互に接続される。入出力(I/O)インターフェース1105も、バス1104に接続される。
【0141】
機器1100における複数の部品は、I/Oインターフェース1105に接続され、例えばキーボード、マウス等の入力手段1106と、例えば様々な種類のディスプレイ、スピーカ等の出力手段1107と、例えば磁気ディスク、光ディスク等の記憶手段1108と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段1109とを含む。通信手段1109は、機器1100がインターネット等のコンピュータネットワーク及び/又は各種の電気ネットワークを介して他の機器と情報・データをやり取りすることを可能にする。
【0142】
計算手段1101は、処理及び演算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算手段1101の幾つかの例として、中央処理ユニット(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種機械学習モデルアルゴリズムをランニングする演算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算手段1101は、前文で記載された各方法及び処理、例えば融合パラメータの特定方法、情報推奨方法、及びパラメータ特定モデルのトレーニング方法のいずれかの方法を実行する。例えば、幾つかの実施例において、融合パラメータの特定方法、情報推奨方法、及びパラメータ特定モデルのトレーニング方法のいずれかの方法は、例えば記憶手段1108のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM 1102及び/又は通信手段1109を介して機器1100にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM1103にロードされて計算手段1101により実行される場合、前文に記載の融合パラメータの特定方法、情報推奨方法、及びパラメータ特定モデルのトレーニング方法のいずれかの方法の1つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算手段1101は、他の任意の適切な方式(例えば、ファームウェアを介する)により融合パラメータの特定方法、情報推奨方法、及びパラメータ特定モデルのトレーニング方法のいずれかの方法を実行するように構成されてもよい。
【0143】
本明細書で以上に説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行され及び/又は解釈されることが可能であり、該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。
【0144】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
【0145】
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
【0146】
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
【0147】
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
【0148】
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。ここで、サーバは、クラウドサーバであってもよく、クラウドサーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのうちの1つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、又は「VPS」と略称する)に存在する管理難度が大きく、サービス拡張性が弱いという欠陥を解決する。サーバは、分散型システムのサーバであってもよく、又はブロックチェーンを組合せたサーバであってもよい。
【0149】
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示に開示された技術案の所望の結果を実現することができれば、本明細書はここで限定されない。
【0150】
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。
【手続補正書】
【提出日】2023-02-10
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【発明の詳細な説明】
【技術分野】
【0001】
本開示は人工知能の技術分野に関し、具体的にインテリジェント推奨の技術分野及びディープラーニングの技術分野に関する。より具体的には、融合パラメータの特定方法及び装置、情報推奨方法及び装置、パラメータ測定モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラムに関する。
【背景技術】
【0002】
モバイルインターネットの高度な発展に伴い、推奨システムは急速な発展を遂げた。推奨システムは機械学習技術を利用して、対象行為に対するマイニングにより、対象の興味好みを洞察し、対象のために個性化の内容推奨を自動的に生成することができる。
【発明の概要】
【0003】
これを基に、本開示は、大規模なスパース特徴を学習することを容易にする融合パラメータの特定方法及び装置、情報推奨方法及び装置、パラメータ測定モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラムを提供した。
【0004】
本開示の1つの局面によれば、目標対象の推奨参考情報をパラメータ特定モデルにおける特徴抽出ネットワークに入力して、目標対象に対する第1の対象特徴を抽出することと、第1の対象特徴をパラメータ特定モデルにおけるマルチタスクネットワークに入力して、目標対象に対する複数の評価指標の第1の融合パラメータを取得することとを含み、ここで、複数の評価指標は、推奨情報に対する目標対象の好みを評価するものである融合パラメータの特定方法を提供した。
【0005】
本開示の別の局面によれば、目標対象に対する複数の第1の推奨すべき情報のうちの各第1の情報について、各第1の情報の複数の評価指標の推定値、及び目標対象に対する複数の評価指標の第1の融合パラメータに基づいて、目標対象に対する各第1の情報の第1の評価値を特定することと、第1の評価値に基づいて、複数の第1の推奨すべき情報のうち、目標対象に対する第1の目標情報、及び第1の目標情報からなる第1の情報リストを特定することとを含み、ここで、第1の融合パラメータは本開示が提供した融合パラメータの特定方法を採用して特定されたものである情報推奨方法を提供した。
【0006】
本開示の別の局面によれば、パラメータ特定モデルのトレーニング方法であって、パラメータ特定モデルは特徴抽出ネットワークとマルチタスクネットワークとを含み、トレーニング方法は、参考対象の推奨参考情報を特徴抽出ネットワークに入力して、参考対象に対する第2の対象特徴を抽出することと、第2の対象特徴をマルチタスクネットワークに入力して、参考対象に対する複数の評価指標の第2の融合パラメータを取得することと、参考対象に対する複数の第2の推奨すべき情報のうちの各第2の情報について、各第2の情報の複数の評価指標の推定値及び第2の融合パラメータに基づいて、参考対象に対する各第2の情報の第2の評価値を特定することと、第2の評価値に基づいて、複数の第2の推奨すべき情報のうち、参考対象に対する第2の目標情報、及び第2の目標情報からなる第2の情報リストを特定することと、第2の情報リストに対する参考対象のフィードバック情報に基づいて、マルチタスクネットワークをトレーニングすることとを含むパラメータ特定モデルのトレーニング方法を提供した。
【0007】
本開示の別の局面によれば、目標対象の推奨参考情報をパラメータ特定モデルにおける特徴抽出ネットワークに入力して、目標対象に対する第1の対象特徴を抽出する第1の特徴抽出モジュールと、第1の対象特徴をパラメータ特定モデルにおけるマルチタスクネットワークに入力して、目標対象に対する複数の評価指標の第1の融合パラメータと取得する第1のパラメータ取得モジュールとを含み、ここで、複数の評価指標は推奨情報に対する目標対象の好みを評価するものである融合パラメータの特定装置を提供した。
【0008】
本開示の別の局面によれば、目標対象に対する複数の第1の推奨すべき情報のうちの各第1の情報について、各第1の情報の複数の評価指標の推定値、及び目標対象に対する複数の評価指標の第1の融合パラメータに基づいて、目標対象に対する各第1の情報の第1の評価値を特定する第1の評価モジュールと、第1の評価値に基づいて、複数の第1の推奨すべき情報のうち、目標対象に対する第1の目標情報、及び第1の目標情報からなる第1の情報リストを特定する第1の情報特定モジュールと、を含み、ここで、第1の融合パラメータは本開示が提供した融合パラメータの特定装置を採用して特定されたものである情報推奨装置を提供した。
【0009】
本開示の別の局面によれば、パラメータ特定モデルのトレーニング装置であって、パラメータ特定モデルは特徴抽出ネットワークとマルチタスクネットワークとを含み、トレーニング装置は、参考対象の推奨参考情報を特徴抽出ネットワークに入力して、参考対象に対する第2の対象特徴を抽出する第2の特徴抽出モジュールと、第2の対象特徴をマルチタスクネットワークに入力して、参考対象に対する複数の評価指標の第2の融合パラメータを取得する第2のパラメータ取得モジュールと、参考対象に対する複数の第2の推奨すべき情報のうちの各第2の情報について、各第2の情報の複数の評価指標の推定値及び第2の融合パラメータに基づいて、参考対象に対する各第2の情報の第2の評価値を特定する第2の評価モジュールと、第2の評価値に基づいて、複数の第2の推奨すべき情報のうち、参考対象に対する第2の目標情報、及び第2の目標情報からなる第2の情報リストを特定する第2の情報特定モジュールと、第2の情報リストに対する参考対象のフィードバック情報に基づいて、マルチタスクネットワークをトレーニングする第1のトレーニングモジュールと、を含むパラメータ特定モデルのトレーニング装置を提供した。
【0010】
本開示の別の局面によれば、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信接続するメモリとを含み、メモリに、少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、コマンドが少なくとも1つのプロセッサによって実行されることで、少なくとも1つのプロセッサが本開示が提供した融合パラメータの特定方法、情報推奨方法及びパラメータ特定モデルのトレーニング方法の少なくとも1つを実行することができる電子機器を提供した。
【0011】
本開示の別の局面によれば、コンピュータに本開示が提供した融合パラメータの特定方法、情報推奨方法及びパラメータ特定モデルのトレーニング方法の少なくとも1つを実行させるためのコンピュータコマンドを記憶している非一時的なコンピュータ読取可能な記憶媒体を提供した。
【0012】
本開示の別の局面によれば、プロセッサにより実行される場合に、本開示が提供した融合パラメータの特定方法、情報推奨方法及びパラメータ特定モデルのトレーニング方法の少なくとも1つのステップを実現するコンピュータプログラムを提供した。
【0013】
理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
【図面の簡単な説明】
【0014】
ここで、図面は、本技術案をよりよく理解するために用いられ、本開示を限定するものではない。
【0015】
【
図1】
図1は、本開示の実施例による融合パラメータの特定方法、情報推奨方法及びパラメータ特定モデルのトレーニング方法、装置の応用シーンの模式図である。
【
図2】
図2は、本開示の実施例によるパラメータ特定モデルのトレーニング方法のフロー模式図である。
【
図3】
図3は、本開示の実施例によるパラメータ特定モデルの構成模式図である。
【
図4】
図4は、本開示の別の実施例によるパラメータ特定モデルの構成模式図である。
【
図5】
図5は、本開示の実施例による融合パラメータの特定方法のフロー模式図である。
【
図6】
図6は、本開示の実施例による情報推奨方法のフロー模式図である。
【
図7】
図7は、本開示の実施例による目標対象に対する各第1の情報の評価値を特定する原理模式図である。
【
図8】
図8は、本開示の実施例によるパラメータ特定モデルのトレーニング装置の構成ブロック図である。
【
図9】
図9は、本開示の実施例による融合パラメータの特定装置の構成ブロック図である。
【
図10】
図10は、本開示の実施例による情報推奨装置の構成ブロック図である。
【
図11】
図11は、本開示の実施例の融合パラメータの特定方法、情報推奨方法、及びパラメータ特定モデルのトレーニング方法のいずれかの方法を実施するための電子機器のブロック図である。
【発明を実施するための形態】
【0016】
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分かるべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
【0017】
以下、
図1を参照して本開示が提供した方法及び装置の応用シーンを説明する。
【0018】
図1は、本開示の実施例による融合パラメータの特定方法、情報推奨方法、及びパラメータ特定モデルのトレーニング方法、装置の応用シーンの模式図である。
【0019】
図1に示すように、該実施例のシーン100は、ユーザ110と端末機器120とを含み、ユーザ110は端末機器120を介して情報をリフレッシュすることができる。例えば、リフレッシュされた情報は、例えばグラフィック文字情報、ショートビデオ情報、ミニビデオ情報又は映画ドラマ等を含む。
【0020】
例示的に、端末機器120は、スマートフォン、タブレットコンピュータ、ラップトップ型携帯コンピュータ又はデスクトップコンピュータ等であってもよい。該端末機器120には、ウェブページブラウザ、インスタント通信類アプリケーション、ビデオ再生類アプリケーション又はニュース情報類アプリケーション等のクライアントアプリケーション(単に例示である)がインストールされてもよい。該端末機器120は、例えばネットワーク130を介してサーバ140と対話することができる。ネットワークは、有線又は無線通信リンクであってもよい。
【0021】
一つの実施例において、サーバ140は、端末機器120におけるクライアントアプリケーションの稼働を支援するバックグラウンド管理サーバであってもよい。端末機器120は、例えばユーザ110のリフレッシュ操作又はクライアントアプリケーションを起動する操作に応答して、サーバ140へ取得リクエストを送信する。サーバ140は、該取得リクエストに応答して、データベース150からユーザ110とマッチングした情報を取得し、該取得された情報を推奨情報160として端末機器120にプッシュする。
【0022】
一つの実施例において、データベース150からユーザ110とマッチングした情報を取得する時、情報とユーザ110とのマッチング度を向上させ、ユーザが情報をクリックして閲覧する確率を向上させるために、サーバ140はリソースリコールモデル等を採用してデータベース150から情報をリコールしてもよい。ここで、リソースリコールモデルは、例えばユーザの閲覧情報とデータベースにおける情報との類似度に応じて情報をリコールしてもよい。データベース150から情報をリコールした後、サーバ140は例えば複数の評価指標に基づいてリコールされた情報を評価し、評価結果に基づいてリコールされた情報をさらに選別してソートすることで、推奨情報を得るようにしてもよい。ここで、複数の評価指標の値は、例えばユーザ特徴と情報特徴とに基づいて推定され得る。
【0023】
一つの実施例において、サーバ140は複数の評価指標の値の最大化を最適化目標として、複数の評価指標の値を融合して、リコールされた各情報の評価値を得る。ここで、グリッドサーチ(Grid Search)アルゴリズム、ランダムサーチ(Random Search)アルゴリズム、ベイズ最適化(Bayesian Optimization)アルゴリズム又は強化学習アルゴリズム等を採用して、複数の評価指標の値を融合する時の融合パラメータを得るようにしてもよい。
【0024】
ここで、グリッドサーチアルゴリズム、ランダムサーチアルゴリズム、ベイズ最適化アルゴリズムは、マルチターゲット最適化タスクを行う時、一般的にパラメータ最適化の過程は長い時間を費やす必要があり、かつ異なるアルゴリズムの得意なシーンが異なるため、最適化効果がよくないという問題が存在する恐れがある。強化学習アルゴリズムは最適化効果がよいが、一般的に実現コストが高く、複雑な方策勾配及び方策ネットワークを設計する必要があり、かつ大量の計算リソースを費やす必要がある。さらに、該強化学習アルゴリズムの実現は一般的にデンス特徴(dense feature)に依存する必要があり、スパース特徴に対する学習能力が弱いため、最適化効果がよくない問題が不可避的に存在する。
【0025】
一つの実施例において、以下に説明するパラメータ特定モデルを採用して、ユーザの推奨参考情報に基づいて、複数の評価指標の値を融合する時の融合パラメータを特定してもよい。ここでは詳細に説明しない。
【0026】
なお、本開示の実施例が提供した融合パラメータの特定方法、情報推奨方法、及びパラメータ特定モデルのトレーニング方法は、いずれもサーバ140により実行されてもよい。本開示の実施例が提供した融合パラメータの特定装置、情報推奨装置、及びパラメータ特定モデルのトレーニング装置は、いずれもサーバ140に設置されてもよい。又は、融合パラメータの特定方法及びパラメータ特定モデルのトレーニング方法は、サーバ140と通信する同一又は異なるサーバにより実行されてもよい。それに応じて、融合パラメータの特定装置及びパラメータ特定モデルのトレーニング装置は、サーバ140と通信する同一又は異なるサーバに設置させてもよい。
【0027】
理解されるべきこととして、
図1における端末機器、ネットワーク、サーバ、及びデータベースの数とタイプは、単に例示的なものである。実現の必要に応じて、任意の数とタイプの端末機器、ネットワーク、サーバ、及びデータベースを有してもよい。
【0028】
以下に
図1を参照して、以下の
図2~
図4によって本開示が提供したパラメータ特定モデルのトレーニング方法を詳細に説明する。
【0029】
図2は本開示の実施例によるパラメータ特定モデルのトレーニング方法のフロー模式図である。
【0030】
図2に示すように、該実施例のパラメータ特定モデルのトレーニング方法200は、操作S210~操作S250を含む。ここで、パラメータ特定モデルは、特徴抽出ネットワークとマルチタスクネットワークとを含む。
【0031】
操作S210において、参考対象の推奨参考情報を特徴抽出ネットワークに入力して、参考対象に対する第2の対象特徴を抽出する。
【0032】
本開示の実施例によれば、参考対象は、例えば前文で説明したユーザ又は端末機器を使用可能な任意の対象であってもよい。特徴抽出ネットワークは、例えばディープニューラルネットワーク等の、複数の非線形ネットワークがカスケード接続されたネットワークを含んでもよい。該特徴抽出ネットワークは、推奨タスク以外の他のタスクにおいてトレーニング済みの対象特徴を抽出するネットワークを採用することができる。
【0033】
該参考対象の推奨参考情報は、該参考対象の属性情報、画像情報又は行為情報等を含む。ここで、属性情報は、例えば参考対象のカテゴリや基本情報等を含む。該属性情報は、参考対象自体の基本属性を表し、例えば、対象性別、年齢、教育程度、対象活躍度及び対象履歴ふぁぼ比等の少なくとも一種を含む。理解されるべきこととして、推奨参考情報に属性情報を引き込むことで、後続の情報推奨時に、対象に基づく個性化推奨を実現し、それにより情報推奨結果と対象とのマッチング度を向上させ、さらにユーザ満足度を向上させることができる。
【0034】
該実施例は、推奨参考情報を特徴抽出ネットワークに入力して、特徴抽出ネットワークにより第2の対象特徴を出力する。
【0035】
操作S220において、第2の対象特徴をマルチタスクネットワークに入力して、参考対象に対する複数の評価指標の第2の融合パラメータを取得する。
【0036】
本開示の実施例によれば、マルチタスクネットワークはマルチタスク学習による機械学習ネットワークである。ここで、マルチタスク学習は、共有表現(shared representation)に基づいて、複数の相関するタスク(例えば、複数の評価指標の値を最大化するタスク)をまとめて学習する機械学習方法である。マルチタスクネットワークは、例えばHardパラメータ共有モデル、混合エキスパート(Mixture-of-Experts,MOE)モデル又はマルチゲート混合エキスパート(Multi-gate Mixture-of-Experts,MMOE)モデル等を含む。
【0037】
本開示の実施例によれば、複数の評価指標は、推奨情報に対する目標対象の好みを評価するためのものである。例えば、複数の評価指標は、クリック率、ランディングページ時間長さ、リストページ時間長さ、コメント、いいね及びシェア等の指標の少なくとも2つを含む。
【0038】
操作S230において、参考対象に対する複数の第2の推奨すべき情報のうちの各第2の情報について、各第2の情報の複数の評価指標の推定値及び第2の融合パラメータに基づいて、参考対象に対する各第2の情報の第2の評価値を特定する。
【0039】
本開示の実施例によれば、複数の評価指標の推定値は、例えば相関する予測モデルを採用して特定してもよい。例えば、クリック率については、対象の推奨参考情報と各第2の情報とを予測モデルに入力して、予測モデルによって出力されたものである。理解されるべきこととして、本開示は該複数の評価指標の推定値の取得方式を限定しない。
【0040】
本開示の実施例によれば、操作S220によって得られた第2の融合パラメータは、各評価指標に対する融合パラメータを含む。該実施例は、各評価指標に対する融合パラメータを該各評価指標の重みとし、複数の評価指標の推定値の加重和を、参考対象に対する各第2の情報の第2の評価値とする。
【0041】
操作S240において、第2の評価値に基づいて、複数の第2の推奨すべき情報のうち、参考対象に対する第2の目標情報、及び第2の目標情報からなる第2の情報リストを特定する。
【0042】
本開示の実施例によれば、複数の第2の推奨すべき情報のうち、第2の評価値が比較的大きい所定数の情報を第2の目標情報とする。その後、該所定数の第2の目標情報をランダムに配列し、又は第2の評価値の大きい順に配列することで、第2の情報リストが得られる。
【0043】
本開示の実施例によれば、第2の情報リストに含まれるのは、例えば所定数の第2の目標情報のランディングページのアクセスリンクであり、該アクセスリンクは、所定数の第2の目標情報のタイトルによって表示されてもよい。
【0044】
操作S250において、第2の情報リストに対する参考対象のフィードバック情報に基づいて、マルチタスクネットワークをトレーニングする。
【0045】
本開示の実施例によれば、フィードバック情報は、参考対象が第2の情報リストを閲覧した後に該第2の情報リストに対する操作に基づいて統計され得る。例えば、該フィードバック情報は、第2の情報リストにおける所定数の情報に対するクリック割合、第2の情報リストを閲覧した時間長さ(即ち、前述したリストページ時間長さ)、第2の情報リストのうち、クリックされた第2の情報のランディングページを閲覧した時間長さ(即ち、ランディングページ時間長さ)等を含む。該実施例は、前述した第2の情報リストに対する参考対象のフィードバック項(即ち、クリック割合、リストページ時間長さ、ランディングページ時間長さ等)を統計して、得られた統計情報をフィードバック情報としてもよい。
【0046】
本開示の実施例によれば、マルチタスクネットワークがトレーニング中止条件に達するまで、フィードバック情報を最大化する方式によって該マルチタスクネットワークをトレーニングする。ここで、トレーニング中止条件は、設定されたトレーニング回数に達すること、又はマルチタスクネットワークが出力した第2の評価値に基づいて特定された第2の情報リストに対する参考対象のフィードバック情報が安定化することなどを含む。
【0047】
一つの実施例において、例えば強化学習アルゴリズムを採用してマルチタスクネットワークをトレーニングする。具体的には、強化学習アルゴリズムを採用してマルチタスクネットワーク中のネットワークパラメータを調整することで、マルチタスクネットワークが第2の対象特徴に基づいて第2の融合パラメータを得るポリシーを調整していく。
【0048】
本開示の実施例は、第2の融合パラメータを特定する前に、まず特徴抽出ネットワークを採用して推奨参考情報から対象特徴を抽出することで、マルチタスクネットワークに入力される対象特徴の、スパースな推奨参考情報に対する表現能力を向上させることができる。即ち、特徴抽出ネットワークとマルチタスクネットワークとを結合することで、大規模なスパース特徴に対する学習を実現し、それによりパラメータ特定モデルによって特定される第2の融合パラメータの精度を向上させ、個性化とシーン化のマルチターゲット最適化を実現することができる。したがって、ある程度で第2の融合パラメータに基づいて特定された推奨情報の精度を向上させることができ、ユーザ体験を向上させることを容易にする。
【0049】
一つの実施例において、参考対象の推奨参考情報は、参考対象の属性情報に加えて、参考対象に対して情報推奨を行うシーン情報を含んでもよい。
【0050】
ここで、シーン情報は、参考対象に対して情報推奨を行う時のシーン状態データを表すものであり、例えば、シーン情報は、リフレッシュ回数、リフレッシュ状態、リフレッシュ大きさ、ネットワーク状態及びリフレッシュ時間帯等の少なくとも一種を含む。理解されるべきこととして、推奨参考情報にシーン情報を引き込むことで、後で情報推奨を行う時に、異なるシーンに対して、参考対象へ異なる推奨すべき情報を推奨し、それによりシーンによる個性化推奨の目的を達成する。
【0051】
一つの実施例において、参考対象の推奨参考情報は、参考対象の属性情報に加えて、推奨情報に対する目標対象の好み情報を含んでもよい。好み情報は、異なるタイプの情報のうち異なる種類の情報内容に対する参考対象の好み程度等を表すものである。理解されるべきこととして、推奨参考情報に好み情報を引き込むことで、後で情報推奨を行う時に、対象へ興味のある内容を推奨し、さらにユーザ満足度を向上させることができる。ここで、該好み情報は、例えば情報ペアの形式によって表すことができ、情報ペアは、対象のある属性情報とあるシーン情報から構成されてもよい。又は、該情報ペアは、対象のある属性情報と推奨すべき情報のカテゴリから構成されてもよい。
【0052】
一つの実施例において、参考対象の推奨参考情報は、参考対象の属性情報、推奨情報に対する目標対象の好み情報、及び参考対象に対して情報推奨を行うシーン情報のいずれか1つ又は複数を含む。例えば、参考対象の推奨参考情報は、属性情報も含み、好み情報及びシーン情報も含んでもよい。このように、特徴抽出ネットワークに多方面のスパース特徴を十分に学習させ、得られた対象特徴の表現能力を効果的に向上させることができる。
【0053】
一つの実施例において、第2の情報リストに対する参考対象の対話情報、及び第2の情報リストにおける選択された情報に対する参考対象の対話情報に基づいて、第2の情報リストに対する参考対象のフィードバック評価値を特定する。その後、該フィードバック評価値をフィードバック情報とする。第2の情報リストに対する参考対象の対話情報は、参考対象が該第2の情報リストを閲覧した時間長さ、参考対象が第2の情報リストにおける情報をクリックした個数等を含む。第2の情報リストにおける選択された情報に対する参考対象の対話情報は、参考対象が閲覧クリックした各情報のランディングページの時間長さ、参考対象が閲覧クリックした複数の情報のランディングページの平均時間長さ等を含む。第2の情報リストに対する参考対象の対話情報も考慮し、第2の情報リストにおける選択された情報に対する参考対象の対話情報も考慮して、フィードバック評価値を特定することで、特定されたフィードバック情報の表現能力を向上させることを容易にする。
【0054】
例えば、該実施例は、リストページ時間長さとランディングページ時間長さとの和をフィードバック評価値とする。
【0055】
例えば、フィードバック評価値を特定する時、例えば参考対象がクリックした情報数も考慮してもよい。これによって参考対象が単一の情報のランディングページを閲覧した時間長さが長すぎることによってフィードバック評価値が高くなり、それにより第2の情報リストに対する参考対象の満意程度を正確に表すことができないことを回避することができる。具体的には、該実施例は、所定ページ平均時間長さ及びクリックした情報数の積と、前述したリストページ時間長さ及びランディングページ時間長さの和とを加算することで、フィードバック評価値を得る。ここで、所定ページ平均時間長さは、統計によって得られた対象が推奨情報のランディングページを閲覧した平均時間長さであってもよく、又は、需要に応じて該所定ページ平均時間長さの値を設定してもよく、本開示はこれを限定しない。
【0056】
図3は、本開示の実施例によるパラメータ特定モデルの構成模式図である。
【0057】
一つの実施例において、前述したデータベースからリコールする情報は、複数のタイプの情報を含み、即ち参考対象へ推奨する情報は、複数のタイプの情報を含む。各タイプの情報は、いずれも前述した複数の評価指標を含む。各タイプの情報に対して、融合パラメータの値は異なってもよく、これにより各タイプの情報を評価して得られた評価値の精度を向上させる。これは、異なるタイプの情報に対する同一のユーザの好み程度が異なるためである。
【0058】
一つの実施例において、パラメータ特定モデルは、融合パラメータを特定する時、マルチタスクを完了する必要があるだけではなく、複数のタイプの情報のうちの各タイプ情報の融合パラメータに対する予測を完了する必要もある。例えば、該パラメータ特定モデルにおけるマルチタスクネットワークは、特徴表現サブネットワークと複数の予測サブネットワークとを含む。該複数の予測サブネットワークは、特徴表現サブネットワークが出力した特徴を共有する。
【0059】
以下、
図3を参照して、推奨参考情報が前述した属性情報、シーン情報及び好み情報を含むことを例として、該実施例が第2の融合パラメータを取得する原理を説明する。
【0060】
図3に示すように、該実施例300において、パラメータ特定モデルは、特徴抽出ネットワーク310とマルチタスクネットワーク320とを含む。マルチタスクネットワークは、特徴表現サブネットワーク321とn個の予測サブネットワークとを含む。ここで、n個の予測サブネットワークのうちの第1の予測サブネットワーク3221~第nの予測サブネットワーク3222は、それぞれn個のタイプと一対一で対応する第1の融合パラメータセット305~第nの融合パラメータセット306を予測するために用いられる。即ち、各タイプの情報に対して、1つの融合パラメータセットを予測する。該1つの融合パラメータセットには複数の評価指標と同じ個数の融合パラメータが含まれる。
【0061】
第2の融合パラメータを取得する時、参考対象の属性情報301、シーン情報302、好み情報303をそれぞれ埋め込み表現して、該3つの情報の3つの埋め込み特徴を得る。該3つの埋め込み特徴をスティッチングした後、特徴304が得られる。該実施例は、特徴304を特徴抽出ネットワーク310に入力することで、第2の対象特徴が得られる。ここで、特徴抽出ネットワーク310は、例えば複数の非線性ネットワークがカスケード接続されたものであり、各非線性ネットワークに含まれるニューロンの個数及び層数は、実際の需要に応じて設定され、本開示はこれを限定しない。
【0062】
第2の対象特徴が得られた後、該第2の対象特徴を特徴表現サブネットワーク321に入力して、特徴表現サブネットワーク321によって該第2の対象特徴に対して目的に合った学習を行って、得られた表現特徴が参考対象の好みをよりよく表現できるようにする。又は、該特徴表現サブネットワーク321の処理によって、表現特徴のサイズがn個の予測サブネットワークの入力特徴サイズに対する要求を満たすようにすることができる。
【0063】
表現特徴が得られた後、表現特徴と第2の対象特徴とをn個の予測サブネットワークのそれぞれに入力する。ここで、各予測サブネットワークの入力は、第2の対象特徴を含み、表現特徴により表現された情報が不完全であることによって予測結果に影響を及ぼすことを回避することができる。該各予測サブネットワークは、異なる重みで表現特徴を考慮し、異なるタイプの情報に対応する融合パラメータが、異なる方式で表現特徴を利用することを許容して、異なるタイプの情報の間の関係を捕る。
【0064】
例えば、表現特徴と第2の対象特徴とを第1の予測サブネットワーク3221に入力し、該第1の予測サブネットワーク3221は、第1の融合パラメータセット305を出力することができる。表現特徴と第2の対象特徴とを第nの予測サブネットワーク3222に入力し、該第nの予測サブネットワーク3222は、第nの融合パラメータセット306を出力することができる。
【0065】
図4は、本開示の別の実施例によるパラメータ特定モデルの構成模式図である。
【0066】
一つの実施例において、特徴表現サブネットワークは、複数のエキスパートユニットを含み、各エキスパートユニットは1つの得意な予測方向を有する。例えば、複数のエキスパート(Expert)ユニットは、それぞれ第2の対象特徴に基づいて複数の所定対象カテゴリのうちの1つのカテゴリに対する参考対象の特徴を表現するために用いられる。このように、複数のエキスパートユニットがそれぞれ取得した表現特徴に表現傾向性を持たせることができる。それに応じて、前述したn個の予測サブネットワークのうちの各予測サブネットワークは、第2の対象特徴に基づいて複数のエキスパートユニットの出力を総合的に考慮し、それにより各予測サブネットワークが取得した融合パラメータが、該各予測サブネットワークに対応する情報タイプに対する参考対象の好みをより正確的に表現することができる。
【0067】
例えば、複数の所定対象カテゴリを設定することは、グローバル低アクティブカテゴリ、情報タイプ別の情報に対する軽度好みの軽度カテゴリ、情報タイプ別の情報に対する中度好みの中度カテゴリ、及び情報タイプ別の情報に対する重度好みの重度カテゴリを含む。それに応じて、
図4に示すように、特徴表現サブネットワークは、低アクティブエキスパート(Expert)ユニット4211、軽度エキスパートユニット4212、中度エキスパートユニット4213、及び重度エキスパートユニット4214を含み、それぞれ第2の対象特徴に基づいて参考対象がグローバルアクティブカテゴリ、軽度カテゴリ、中度カテゴリ及び重度カテゴリに属す特徴を表すために用いられる。
【0068】
該実施例は、第2の融合パラメータを取得する時、まず属性情報401、シーン情報402、及び好み情報403に対してそれぞれ埋め込み表示を行い、埋め込み表示された3つの特徴をスティッチングして得られた特徴404を特徴抽出ネットワーク410に入力して、第2の対象特徴を得る。該第2の対象特徴を低アクティブエキスパートユニット4211、軽度エキスパートユニット4212、中度エキスパートユニット4213、及び重度エキスパートユニット4214に同時に入力し、該4つのユニットによりそれぞれ1つの表現特徴を出力し、合計で4つの表現特徴を得る。
【0069】
複数のタイプの情報は、グラフィック文字タイプの情報、ショートビデオタイプの情報、及びミニビデオタイプの情報を含むことを例として、4つの表現特徴が得られた後、該4つの表現特徴をグラフィック文字タイプに対応するグラフィック文字タイプ予測サブネットワーク4221、ショートビデオタイプに対応するショートビデオタイプ予測サブネットワーク4222、及びミニビデオタイプに対応するミニビデオタイプ予測サブネットワーク4223に同時に入力する。該グラフィック文字タイプ予測サブネットワーク4221、ショートビデオタイプ予測サブネットワーク4222、及びミニビデオタイプ予測サブネットワーク4223のそれぞれによって、第2の対象特徴に基づいて、各々が4つの表現特徴を考慮する重みを特定する。該3つの予測サブネットワークは、各々が特定した重みに基づいて4つの表現特徴に対して加重和を算出する。最終的に、算出された加重和に基づいて第2の融合パラメータセットを特定する。例えば、グラフィック文字タイプ予測サブネットワーク4221は、グラフィック文字融合パラメータセット405を予測することができ、ショートビデオタイプ予測サブネットワーク4222は、ショートビデオ融合パラメータセット406を予測することができ、ミニビデオタイプ予測サブネットワーク4223は、ミニビデオ融合パラメータセット407を予測することができる。
【0070】
一つの実施例において、フィードバック情報は、実際閲覧時間長さをさらに含んでもよく、該実際閲覧時間長さは、例えばリスト時間長さとランディングページ時間長さとの和で表すことができる。該実施例は、該実際閲覧時間長さを参考対象の推奨参考情報のラベルとすることで、実際閲覧時間長さを監督として、特徴抽出ネットワークをトレーニングし、これにより特徴抽出ネットワークの学習能力を向上させる。
【0071】
例えば、
図4に示すように、該実施例400において、パラメータ特定モデルは、特徴抽出ネットワーク410、マルチタスクネットワーク420に加えて、予測ネットワーク430をさらに含んでもよい。該予測ネットワーク430は、例えば、第2の対象特徴に基づいて推奨情報に対する参考対象の閲覧時間長さを予測するためのフル接続ネットワークを含んでもよい。
【0072】
例えば、特徴抽出ネットワーク410が出力した第2の対象特徴を予測ネットワーク430に入力し、該予測ネットワーク430によって予測閲覧時間長さ408を出力する。該実施例は、予測閲覧時間長さと実際閲覧時間長さとの相違に基づいて、特徴抽出ネットワークと予測ネットワークとをトレーニングする。例えば、予測閲覧時間長さと実際閲覧時間長さとに基づいて、特徴抽出ネットワークと予測ネットワークとから構成されるネットワークモデルの損失を特定する。その後、逆伝搬アルゴリズムを採用して特徴抽出ネットワークと予測ネットワークにおけるネットワークパラメータを調整して、ネットワークモデルの損失を最小化する。例えば、L1損失関数又はL2損失関数等を採用してネットワークモデルの損失を特定してもよく、本開示はこれを限定しない。
【0073】
本開示の実施例は、予測ネットワークを設置し、予測閲覧時間長さとラベルが示す実際閲覧時間長さとに基づいて、特徴抽出ネットワークをトレーニングすることで、特徴抽出ネットワークの監督ありトレーニングを実現することができる。このように、スパース特徴に対する特徴抽出ネットワークの学習能力をさらに向上させ、これによりパラメータ特定モデルの適用範囲及び精度を拡大することができる。
【0074】
理解されるべきこととして、一つの実施例において、MMOEモデルを採用してマルチタスクネットワークのアーキテクチャとすることができ、これによりマルチシーンでのマルチターゲット最適化タスクを実現する。また、該MMOEモデルは、複数の予測サブネットワークに同一の特徴表現サブネットワークを共有させることで、モデルのパラメータ規模を小さくして、モデルのオーバーフィッティングを防止することができる。また、該MMOEは、ゲート構造を、異なるシーンの間の学習のアテンション引き込みとして引き込むことで、マルチシーンの間のタスクの関連性も考慮し、異なるシーンの特異性も制限することができる。したがって、予測された融合パラメータの精度を向上させることを容易にする。
【0075】
一つの実施例において、例えばマルチタスクネットワークにおけるネットワークパラメータに外乱を加える方式で、マルチタスクネットワークをトレーニングする。例えば、ネットワークパラメータに外乱を加えることによるフィードバック情報に基づいて、ネットワークパラメータの外乱方向を特定する。
【0076】
例示的に、参考対象の識別情報に基づいてネットワークパラメータに加える外乱値を生成してもよい。その後、フィードバック評価値と外乱値とに基づいて、複数のネットワークパラメータを調整する。ここで、参考対象の識別情報は、例えば参考対象のアカウント情報を含む。生成された外乱値はデータセット形式であってもよく、データには各ネットワークパラメータに対する外乱値が含まれる。ここで、フィードバック評価値は、例えば外乱値と逆相関する。例えば、フィードバック評価値が大きいであれば、ネットワークパラメータに小さい外乱値を加えてよい。
【0077】
ここで、識別情報を暗号化演算して、乱数シードを得てから、分布関数を採用して乱数シードに基づいて外乱値組を生成する。ここで、暗号化演算は、ハッシュアルゴリズム等を採用して実現することができ、分布関数は、例えばガウス分布関数等を採用してもよく、本開示は該暗号化演算が採用するアルゴリズム及び分布関数のタイプを限定しない。
【0078】
一つの実施例において、外乱値を生成する時、例えば時間情報をさらに考慮してもよく、これにより生じた外乱値の多様性を保証する。例えば、時間情報は日付情報及び/又はクロック情報を含む。該実施例は、識別情報と時間情報とを暗号化演算することで、乱数シードを得る。
【0079】
例示的に、複数のネットワークパラメータを調整する時、例えば、まずフィードバック評価値と各ネットワークパラメータの外乱値との間の比に基づいて、該各ネットワークパラメータの調整ステップサイズを特定する。その後、該調整ステップサイズに基づいて、ネットワークパラメータを調整する。一つの実施例において、直接にフィードバック評価値と各ネットワークパラメータの外乱値との間の比を調整ステップサイズとしてもよく、該比にスーパーパラメータを付加して、該スーパーパラメータと比との積を調整ステップサイズとしてもよい。ここで、スーパーパラメータの値は、実際の需要に応じて設定することができ、本開示はこれを限定しない。
【0080】
例示的に、一ロッドの参考対象の複数の推奨参考情報を一ロッドのトレーニングサンプルとしてもよい。該実施例は、該一ロッドのトレーニングサンプルに基づいて得られた複数のフィードバック評価値の平均値と各ネットワークパラメータの外乱値との間の比を、該各ネットワークパラメータの調整ステップサイズを特定する根拠とする。
【0081】
該実施例は、外乱値を加える方式及びフィードバック結果を考慮する方式でマルチタスクモデルをトレーニングすることで、複雑な方策勾配を設計する必要がなく、それにより計算リソースを節約することができる。
【0082】
一つの実施例において、前述した方法を採用して複数の外乱値組を生じる。各外乱値組は、マルチタスクネットワーク中の複数のネットワークパラメータと一対一で対応する複数の外乱値を含む。該実施例は、進化アルゴリズムを採用して複数のネットワークパラメータを調整する目標外乱値組を特定する。これによりマルチタスクネットワークのトレーニング効果を向上させる。
【0083】
例えば、進化アルゴリズムは、フィードバック評価値と複数の外乱値組とを考慮することで、目標外乱値組を特定する。例えば、進化アルゴリズムは、フィードバック評価値を最大化することを目標とし、複数の外乱値組を融合することで、目標外乱値組を得る。該融合方法は、各外乱値組に係数を付加する方式を採用して行ってもよく、本開示はこれを限定しない。目標外乱値組が得られた後、該実施例はフィードバック評価値と目標外乱値組とに基づいて各ネットワークパラメータの調整ステップサイズを特定し、該調整ステップサイズに基づいて各ネットワークパラメータを調整する。
【0084】
ここまで、パラメータ特定モデルのトレーニング方法に対する詳細な説明が完了した。本開示のトレーニングされたパラメータ特定モデルを基に、本開示は融合パラメータの特定方法をさらに提供し、以下に
図5を参照して該方法を詳細に説明する。
【0085】
図5は、本開示の実施例による融合パラメータの特定方法のフロー模式図である。
【0086】
図5に示すように、該実施例の融合パラメータの特定方法500は、操作S510~操作S520を含む。
【0087】
操作S510において、目標対象の推奨参考情報をパラメータ特定モデルにおける特徴抽出ネットワークに入力して、目標対象に対する第1の対象特徴を抽出する。
【0088】
ここで、目標対象は、情報をリフレッシュするユーザ等であってもよく、該目標対象は前述した参考対象と類似する。目標対象の推奨参考情報は前文で説明した参考対象の推奨参考情報と類似し、例えば、目標対象の属性情報、目標対象に対して情報推奨を行うシーン情報、及び推奨情報に対する目標対象の好み情報の少なくとも1つを含む。該操作S510の実現方式は前文で説明した操作S210の実現方式と類似し、ここで説明を繰り返さない。
【0089】
操作S520において、第1の対象特徴をパラメータ特定モデルにおけるマルチタスクネットワークに入力して、目標対象に対する複数の評価指標の第1の融合パラメータを取得する。
【0090】
ここで、第1の融合パラメータは前文で説明した第2の融合パラメータと類似する。複数の評価指標は、推奨情報に対する目標対象の好みを評価するために用いられる。該操作S520の実現方式は前文で説明した操作S220の実現方式と類似し、ここで説明を繰り返さない。
【0091】
本開示の実施例は、融合パラメータを特定する時、まず推奨参考情報に基づいて対象特徴を抽出し、次にマルチタスクネットワークを介して第1の融合パラメータを特定することで、第1の融合パラメータの取得が大量のスパース特徴を考慮することを容易にし、これにより特定された融合パラメータの精度を向上させることを容易にする。また、本開示はマルチタスクネットワークを採用して融合パラメータを取得することで、直接にマルチタスクネットワークによって推奨情報を出力する技術案と比較して、該実施例の方法が複数のシーンにおける情報の推奨に適用することができるようにして、該方法のロバスト性を向上させることができる。
【0092】
本開示の実施例によれば、前文の説明と類似し、目標対象へ推奨する情報は複数のタイプの情報を含み、各タイプの情報はいずれも複数の評価指標を有する。該実施例は前文で説明した特徴表現サブネットワークと複数の予測サブネットワークとを含むマルチタスクネットワークによって第1の融合パラメータを取得する。具体的に、第1の対象特徴を特徴表現サブネットワークに入力して、表現特徴を取得する。その後、表現特徴と第1の対象特徴とを複数の予測サブネットワークに入力して、複数の予測サブネットワークのうちの各サブネットワークによって1つの融合パラメータセットを出力する。ここで、複数の予測サブネットワークは情報の複数のタイプと一対一で対応し、各融合パラメータセットは複数の評価指標それぞれの融合パラメータを含む。
【0093】
本開示の実施例によれば、前文の説明と類似し、特徴表現サブネットワークは複数のエキスパートユニットを含む。該実施例は表現特徴を取得する時、対象特徴を複数のエキスパートユニットのうちの各エキスパートユニットに入力し、各エキスパートユニットによって1つの表現特徴を出力する。ここで、複数のエキスパートユニットは、それぞれ第1の対象特徴に基づいて複数の所定対象カテゴリのうちの1つのカテゴリに対する目標対象の特徴を表現するために用いられる。
【0094】
本開示が提供した融合パラメータの特定方法を基に、本開示は情報推奨方法をさらに提供し、以下に
図6を参照して該情報推奨方法を詳細に説明する。
【0095】
図6は本開示の実施例による情報推奨方法のフロー模式図である。
【0096】
図6に示すように、該実施例の情報推奨方法600は操作S610~操作S620を含む。
【0097】
操作S610において、目標対象に対する複数の第1の推奨すべき情報のうちの各第1の情報について、各第1の情報の複数の評価指標の推定値及び目標対象に対する複数の評価指標の第1の融合パラメータに基づいて、目標対象に対する各第1の情報の第1の評価値を特定する。
【0098】
ここで、第1の推奨すべき情報は前文で説明した第2の推奨すべき情報と類似し、該第1の推奨すべき情報の取得方式も第2の推奨すべき情報の取得方式と類似し、ここで説明を繰り返さない。
【0099】
ここで、第1の融合パラメータは、前文で説明した融合パラメータの特定方法を採用して取得されたものである。該操作S610の実現方式は前文で説明した操作S230の実現方式と類似し、ここで説明を繰り返さない。
【0100】
操作S620において、第1の評価値に基づいて、複数の第1の推奨すべき情報のうち、目標対象に対する第1の目標情報、及び第1の目標情報からなる第1の情報リストを特定する。
【0101】
ここで、第1の目標情報と第1の情報リストとの特定方法は、前文で説明した操作S240における第2の目標情報と第2の情報リストとを特定する方法と類似し、ここで説明を繰り返さない。
【0102】
図7は本開示の実施例による目標対象に対する各第1の情報の評価値を特定する原理模式図である。
【0103】
一つの実施例において、複数の第1の推奨すべき情報は、例えば少なくとも2つのタイプの情報を含む。該少なくとも2つのタイプは、前文で説明した推奨情報の複数のタイプのいずれか少なくとも2つであってもよい。それに応じて、各タイプの情報に対して、いずれも1つの融合パラメータセットがある。
【0104】
図7に示すように、該実施例700は、目標対象に対する各第1の情報の第1の評価値を特定する時、まず該各第1の情報710の情報タイプを特定する。そして、パラメータ特定モデル701を採用して得られた、複数のタイプと一対一で対応する複数の融合パラメータセットから、該第1の情報の情報タイプ720に対応する融合パラメータセットを検索して、該各第1の情報710に対する融合パラメータセット730とする。
【0105】
複数の評価指標の個数をm個に設定すれば、該実施例が取得した融合パラメータセット730は、第1の融合パラメータ731~第mの融合パラメータ732を含み、それぞれ複数の評価指標のうちの第1の評価指標741~第mの評価指標742に対応する。一つの実施例において、各評価指標、及び目標対象に対する該各評価指標の融合パラメータに基づいて、該各評価指標の融合値を特定する。例えば、第1の評価指標741と第1の融合パラメータ731との積を第1の融合値751としてもよい。類似的に、第1の融合値751~第mの融合値752の合計m個の融合値が得られる。最後に、該複数の融合値に基づいて、第1の評価値760を特定する。該方式によって、複数の評価指標の効率的な融合を実現することができ、第1の評価値の精度を向上させることを容易にする。
【0106】
例えば、融合パラメータセット730が得られた後、該実施例は、m個の融合パラメータをそれぞれm個の評価指標の重みとし、m個の評価指標の加重和を算出することで、第1の評価値を得る。
【0107】
例えば、該実施例は融合パラメータを評価指標の推定値の指数として、融合値を算出する。最後に、m個の融合値を乗算することで、評価値を得る。該実施例は指数方式によって融合値を特定し、融合値に対する融合パラメータの影響程度を向上させることができ、得られた評価値の精度を向上させることを容易にする。また、融合値を乗算する方式で評価値を得ることで、異なる情報の評価値に大きな相違を持たせることを容易にし、第1の目標情報の特定に便宜を与えることができる。
【0108】
パラメータ特定モデルを採用して複数の評価指標の融合パラメータを特定し、最後に融合パラメータに基づいて情報の評価値を特定することは、モデルを採用して推奨情報を直接に出力する技術案と比較して、該実施例の情報推奨方法の応用範囲がより広い。異なるタイプの情報の推奨シーンにおいて、モデルを調整する必要がなく、情報推奨効率を向上させることができる。
【0109】
本開示が提供したパラメータ特定モデルのトレーニング方法を基に、本開示はパラメータ特定モデルのトレーニング装置をさらに提供し、
図8を参照して該装置を詳細に説明する。
【0110】
図8は、本開示の実施例によるパラメータ特定モデルのトレーニング装置の構成ブロック図である。
【0111】
図8に示すように、該実施例のパラメータ特定モデルのトレーニング装置800は、第2の特徴抽出モジュール810、第2のパラメータ取得モジュール820、第2の評価モジュール830、第2の情報特定モジュール840、及び第1のトレーニングモジュール850を含む。ここで、パラメータ特定モデルは、特徴抽出ネットワークとマルチタスクネットワークとを含む。
【0112】
第2の特徴抽出モジュール810は、参考対象の推奨参考情報を特徴抽出ネットワークに入力して、参考対象に対する第2の対象特徴を抽出するために用いられる。一つの実施例において、第2の特徴抽出モジュール810は、前文で説明した操作S210を実行するために用いられ、ここで説明を繰り返さない。
【0113】
第2のパラメータ取得モジュール820は、第2の対象特徴をマルチタスクネットワークに入力して、参考対象に対する複数の評価指標の第2の融合パラメータを取得するために用いられる。一つの実施例において、第2のパラメータ取得モジュール820は、前文で説明した操作S220を実行するために用いられ、ここで説明を繰り返さない。
【0114】
第2の評価モジュール830は、参考対象に対する複数の第2の推奨すべき情報のうちの各第2の情報について、各第2の情報の複数の評価指標の推定値及び第2の融合パラメータに基づいて、参考対象に対する各第2の情報の第2の評価値を特定するために用いられる。一つの実施例において、第2の評価モジュール830は、前文で説明した操作S230を実行するために用いられ、ここで説明を繰り返さない。
【0115】
第2の情報特定モジュール840は、第2の評価値に基づいて、複数の第2の推奨すべき情報のうち、参考対象に対する第2の目標情報、及び第2の目標情報からなる第2の情報リストを特定するために用いられる。一つの実施例において、第2の情報特定モジュール840は、前文で説明した操作S240を実行するために用いられ、ここで説明を繰り返さない。
【0116】
第1のトレーニングモジュール850は、第2の情報リストに対する参考対象のフィードバック情報に基づいて、マルチタスクネットワークをトレーニングするために用いられる。一つの実施例において、第1のトレーニングモジュール850は、前文で説明した操作S250を実行するために用いられ、ここで説明を繰り返さない。
【0117】
本開示の実施例によれば、上記パラメータ特定モデルのトレーニング装置800は、第2の情報リストに対する参考対象の対話情報、及び第2の情報リストにおける選択された情報に対する参考対象の対話情報に基づいて、第2の情報リストに対する参考対象のフィードバック評価値を特定する方式によって、第2の情報リストに対する参考対象のフィードバック情報を特定するために用いられるフィードバック情報特定モジュールをさらに含んでもよい。ここで、フィードバック情報はフィードバック評価値を含む。
【0118】
本開示の実施例によれば、上記第1のトレーニングモジュール850は、外乱値生成サブモジュールとパラメータ調整サブモジュールとを含む。外乱値生成サブモジュールは、参考対象の識別情報に基づいて、マルチタスクネットワーク中の複数のネットワークパラメータに対する外乱値を生成するために用いられる。パラメータ調整サブモジュールは、フィードバック評価値と複数のネットワークパラメータに対する外乱値とに基づいて、複数のネットワークパラメータを調整するために用いられる。
【0119】
本開示の実施例によれば、複数のネットワークパラメータに対する外乱値は、複数のネットワークパラメータにそれぞれ対応する複数の外乱値を含む。上記パラメータ調整サブモジュールは、ステップサイズ特定手段と第1の調整手段とを含む。ステップサイズ特定手段は、複数のネットワークパラメータのうちの各ネットワークパラメータに対して、フィードバック評価値と各ネットワークパラメータに対応する外乱値との比に基づいて、各ネットワークパラメータに対する調整ステップサイズを特定するために用いられる。第1の調整手段は、調整ステップサイズに基づいて、各ネットワークパラメータを調整するために用いられる。
【0120】
本開示の実施例によれば、複数のネットワークパラメータに対する外乱値は、複数の外乱値組を含み、複数の外乱値組のうちの各外乱値組は、複数のネットワークパラメータにそれぞれ対応する複数の外乱値を含む。上記パラメータ調整サブモジュールは、目標外乱特定手段と第2の調整手段とを含む。目標外乱特定手段は、フィードバック評価値と複数のネットワークパラメータに対する複数の外乱値組とに基づいて、進化アルゴリズムを採用して目標外乱値組を特定するために用いられる。第2の調整手段は、フィードバック評価値と目標外乱値組とに基づいて、複数のネットワークパラメータを調整するために用いられる。
【0121】
本開示の実施例によれば、フィードバック情報は、実際閲覧時間長さを含み、パラメータ特定モデルは、予測ネットワークをさらに含む。上記パラメータ特定モデルのトレーニング装置800は、時間長さ予測モジュールと第2のトレーニングモジュールとをさらに含んでもよい。時間長さ予測モジュールは、第2の対象特徴を予測ネットワークに入力して、予測閲覧時間長さを得るために用いられる。第2のトレーニングモジュールは、実際閲覧時間長さと予測閲覧時間長さとの相違に基づいて、特徴抽出ネットワークと予測ネットワークとをトレーニングする。
【0122】
本開示が提供した融合パラメータの特定方法によれば、本開示はさらに融合パラメータの特定装置をさらに提供し、以下に
図9を参照して該装置を詳細に説明する。
【0123】
図9は、本開示の実施例による融合パラメータの特定装置の構成ブロック図である。
【0124】
図9に示すように、該実施例の融合パラメータの特定装置900は、第1の特徴抽出モジュール910と第1のパラメータ取得モジュール920とを含む。
【0125】
第1の特徴抽出モジュール910は、目標対象の推奨参考情報をパラメータ特定モデルにおける特徴抽出ネットワークに入力して、目標対象に対する第1の対象特徴を抽出するために用いられる。一つの実施例において、第1の特徴抽出モジュール910は、前文で説明した操作S510を実行するために用いられ、ここで説明を繰り返さない。
【0126】
第1のパラメータ取得モジュール920は、第1の対象特徴をパラメータ特定モデルにおけるマルチタスクネットワークに入力して、目標対象に対する複数の評価指標の第1の融合パラメータを取得するために用いられる。ここで、複数の評価指標は、推奨情報に対する目標対象の好みを評価するために用いられる。一つの実施例において、第1のパラメータ取得モジュール920は、前文で説明した操作S520を実行するために用いられ、ここで説明を繰り返さない。
【0127】
本開示の実施例によれば、推奨情報は、複数のタイプの情報を含み、各タイプの情報は、いずれも複数の評価指標を有する。マルチタスクネットワークは、特徴表現サブネットワークと複数の予測サブネットワークとを含む。上記第1のパラメータ取得モジュール920は、特徴取得サブモジュールとパラメータ取得サブモジュールとを含む。特徴取得サブモジュールは、第1の対象特徴を特徴表現サブネットワークに入力して、表現特徴を取得するために用いられる。パラメータ取得サブモジュールは、表現特徴と第1の対象特徴とを複数の予測サブネットワークに入力して、複数の予測サブネットワークのうちの各サブネットワークによって1つの融合パラメータセットを出力するために用いられる。ここで、複数の予測サブネットワークは、複数のタイプと一対一で対応し、融合パラメータセットは、複数の評価指標の融合パラメータを含む。
【0128】
本開示の実施例によれば、特徴表現サブネットワークは複数のエキスパートユニットを含み、上記特徴取得サブモジュールは、対象特徴を複数のエキスパートユニットのうちの各エキスパートユニットに入力して、各エキスパートユニットによって1つの表現特徴を出力するために用いられる。ここで、複数のエキスパートユニットは、それぞれ第1の対象特徴に基づいて複数の所定対象カテゴリのうちの1つのカテゴリに対する目標対象の特徴を表現するために用いられる。
【0129】
本開示の実施例によれば、目標対象の推奨参考情報は、目標対象の属性情報、目標対象に対して情報推奨を行うシーン情報、及び推奨情報に対する目標対象の好み情報の少なくとも1つを含む。
【0130】
本開示が提供した情報推奨方法を基に、本開示は情報推奨装置をさらに提供し、以下に
図10を参照して該装置を詳細に説明する。
【0131】
図10は本開示の実施例による情報推奨装置の構成ブロック図である。
【0132】
図10に示すように、該実施例の情報推奨装置1000は第1の評価モジュール1010と第1の情報特定モジュール1020とを含む。
【0133】
第1の評価モジュール1010は、目標対象に対する複数の第1の推奨すべき情報のうちの各第1の情報について、各第1の情報の複数の評価指標の推定値、及び目標対象に対する複数の評価指標の第1の融合パラメータに基づいて、目標対象に対する各第1の情報の第1の評価値を特定するために用いられる。ここで、第1の融合パラメータは、前文で説明した融合パラメータの特定装置を採用して特定されたものである。一つの実施例において、第1の評価モジュール1010は前文で説明した操作S610を実行するために用いられ、ここで説明を繰り返さない。
【0134】
第1の情報特定モジュール1020は、第1の評価値に基づいて、複数の第1の推奨すべき情報のうち、目標対象に対する第1の目標情報、及び第1の目標情報からなる第1の情報リストを特定するために用いられる。一つの実施例において、第1の情報特定モジュール1020は、前文で説明した操作S620を実行するために用いられ、ここで説明を繰り返さない。
【0135】
本開示の実施例によれば、複数の第1の推奨すべき情報は、少なくとも2つのタイプの情報を含む。上記第1の評価モジュール1010は、パラメータ特定サブモジュールと評価値特定サブモジュールとを含む。パラメータ特定サブモジュールは、各第1の情報的タイプに基づいて、目標対象に対する複数の評価指標の複数の融合パラメータを特定して、各第1の情報に対する、情報のタイプと一対一で対応する融合パラメータセットを得るために用いられる。評価値特定サブモジュールは、各第1の情報の複数の評価指標の推定値と融合パラメータセットとに基づいて、第1の評価値を特定するために用いられる。
【0136】
本開示の実施例によれば、評価値特定サブモジュールは、融合値特定手段と評価値特定手段とを含む。融合値特定手段は、複数の評価指標のうちの各評価指標に対して、各評価指標の推定値と融合パラメータセットにおける目標対象に対する各評価指標の融合パラメータとに基づいて、各評価指標の融合値を特定するために用いられる。評価値特定手段は、複数の評価指標の複数の融合値に基づいて、第1の評価値を特定するために用いられる。
【0137】
なお、本開示の技術案において、係れたユーザ個人情報の取得、収集、記憶、使用、加工、伝送、提供及び開示等の処理は、関連法律や法規の規定に合致しており、公序良俗に反していない。
【0138】
本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体及びコンピュータプログラムをさらに提供した。
【0139】
図11は、本開示の実施例の融合パラメータの特定方法、情報推奨方法及びパラメータ特定モデルのトレーニング方法のいずれかの方法を実施するための電子機器のブロック図を示している。電子機器は、様々な形式のデジタルコンピュータを示すことを目的とし、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータである。電子機器は、さらに様々な形式の移動装置を示してもよく、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似の演算装置である。本明細書に示された部材、それらの接続及び関係、並びにそれらの機能は、例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定しない。
【0140】
図11に示すように、
電子機器1100は、計算手段1101を含み、計算手段1101は、リードオンリーメモリ(ROM)1102に記憶されたコンピュータプログラム又は記憶手段1108からランダムアクセスメモリ(RAM)1103にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。RAM1103には、さらに
電子機器1100の操作に必要な様々なプログラム及びデータを記憶してもよい。計算手段1101、ROM1102、及びRAM1103は、バス1104を介して相互に接続される。入出力(I/O)インターフェース1105も、バス1104に接続される。
【0141】
電子機器1100における複数の部品は、I/Oインターフェース1105に接続され、例えばキーボード、マウス等の入力手段1106と、例えば様々な種類のディスプレイ、スピーカ等の出力手段1107と、例えば磁気ディスク、光ディスク等の記憶手段1108と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段1109とを含む。通信手段1109は、電子機器1100がインターネット等のコンピュータネットワーク及び/又は各種の電気ネットワークを介して他の機器と情報・データをやり取りすることを可能にする。
【0142】
計算手段1101は、処理及び演算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算手段1101の幾つかの例として、中央処理ユニット(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種機械学習モデルアルゴリズムをランニングする演算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算手段1101は、前文で記載された各方法及び処理、例えば融合パラメータの特定方法、情報推奨方法、及びパラメータ特定モデルのトレーニング方法のいずれかの方法を実行する。例えば、幾つかの実施例において、融合パラメータの特定方法、情報推奨方法、及びパラメータ特定モデルのトレーニング方法のいずれかの方法は、例えば記憶手段1108のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM 1102及び/又は通信手段1109を介して電子機器1100にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM1103にロードされて計算手段1101により実行される場合、前文に記載の融合パラメータの特定方法、情報推奨方法、及びパラメータ特定モデルのトレーニング方法のいずれかの方法の1つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算手段1101は、他の任意の適切な方式(例えば、ファームウェアを介する)により融合パラメータの特定方法、情報推奨方法、及びパラメータ特定モデルのトレーニング方法のいずれかの方法を実行するように構成されてもよい。
【0143】
本明細書で以上に説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行され及び/又は解釈されることが可能であり、該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。
【0144】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
【0145】
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
【0146】
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
【0147】
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
【0148】
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。ここで、サーバは、クラウドサーバであってもよく、クラウドサーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのうちの1つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、又は「VPS」と略称する)に存在する管理難度が大きく、サービス拡張性が弱いという欠陥を解決する。サーバは、分散型システムのサーバであってもよく、又はブロックチェーンを組合せたサーバであってもよい。
【0149】
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示に開示された技術案の所望の結果を実現することができれば、本明細書はここで限定されない。
【0150】
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
目標対象の推奨参考情報をパラメータ特定モデルにおける特徴抽出ネットワークに入力して、前記目標対象に対する第1の対象特徴を抽出することと、
前記第1の対象特徴を前記パラメータ特定モデルにおけるマルチタスクネットワークに入力して、前記目標対象に対する複数の評価指標の第1の融合パラメータを取得することと、を含み、
ここで、前記複数の評価指標は、推奨情報に対する前記目標対象の好みを評価するものである、
融合パラメータの特定方法。
【請求項2】
推奨情報は、複数のタイプの情報を含み、各タイプの情報はいずれも前記複数の評価指標を有し、前記マルチタスクネットワークは特徴表現サブネットワークと複数の予測サブネットワークとを含み、前記第1の対象特徴を前記パラメータ特定モデルにおけるマルチタスクネットワークに入力して、前記目標対象に対する複数の評価指標の第1の融合パラメータを取得することは、
前記第1の対象特徴を前記特徴表現サブネットワークに入力して、表現特徴を取得することと、
前記表現特徴と前記第1の対象特徴とを前記複数の予測サブネットワークに入力して、前記複数の予測サブネットワークのうちの各サブネットワークによって1つの融合パラメータセットを出力することと、を含み、
ここで、前記複数の予測サブネットワークと前記複数のタイプとが一対一で対応し、前記融合パラメータセットは前記複数の評価指標の融合パラメータを含む、
請求項1に記載の融合パラメータの特定方法。
【請求項3】
前記特徴表現サブネットワークは複数のエキスパートユニットを含み、
前記第1の対象特徴を前記特徴表現サブネットワークに入力して、表現特徴を取得することは、
前記第1の対象特徴を前記複数のエキスパートユニットのうちの各エキスパートユニットに入力して、前記各エキスパートユニットによって1つの表現特徴を出力することを含み、
ここで、前記複数のエキスパートユニットはそれぞれ前記第1の対象特徴に基づいて複数の所定対象カテゴリのうちの1つのカテゴリに対する前記目標対象の特徴を表現するものである、
請求項2に記載の融合パラメータの特定方法。
【請求項4】
前記目標対象の推奨参考情報は、
前記目標対象の属性情報と、
前記目標対象に対して情報推奨を行うシーン情報と、
推奨情報に対する前記目標対象の好み情報との少なくとも1つを含む、
請求項1~3のいずれか一項に記載の融合パラメータの特定方法。
【請求項5】
目標対象に対する複数の第1の推奨すべき情報のうちの各第1の情報について、前記各第1の情報の複数の評価指標の推定値、及び前記目標対象に対する前記複数の評価指標の第1の融合パラメータに基づいて、前記目標対象に対する前記各第1の情報の第1の評価値を特定することと、
前記第1の評価値に基づいて、前記複数の第1の推奨すべき情報のうち、前記目標対象に対する第1の目標情報、及び前記第1の目標情報からなる第1の情報リストを特定することとを含み、
ここで、前記第1の融合パラメータは
請求項1に記載の方法を採用して特定されたものである、
情報推奨方法。
【請求項6】
前記複数の第1の推奨すべき情報は、少なくとも2つのタイプの情報を含み、
前記各第1の情報の複数の評価指標の推定値、及び前記目標対象に対する前記複数の評価指標の融合パラメータに基づいて、前記目標対象に対する前記各第1の情報の第1の評価値を特定することは、
前記各第1の情報的タイプに基づいて、前記目標対象に対する前記複数の評価指標の複数の融合パラメータを特定して、前記各第1の情報に対する、情報のタイプと一対一で対応する融合パラメータセットを得ることと、
前記各第1の情報の前記複数の評価指標の推定値と前記融合パラメータセットとに基づいて、前記第1の評価値を特定することと、を含む
請求項5に記載の情報推奨方法。
【請求項7】
前記各第1の情報の前記複数の評価指標の推定値と前記融合パラメータセットとに基づいて、前記第1の評価値を特定することは、
前記複数の評価指標のうちの各評価指標に対して、前記各評価指標の推定値と前記融合パラメータセットにおける前記目標対象に対する前記各評価指標の融合パラメータとに基づいて、前記各評価指標的融合値を特定することと、
前記複数の評価指標の複数の融合値に基づいて、前記第1の評価値を特定することとを含む、
請求項6に記載の情報推奨方法。
【請求項8】
パラメータ特定モデルのトレーニング方法であって、前記パラメータ特定モデルは特徴抽出ネットワークとマルチタスクネットワークとを含み、前記方法は、
参考対象の推奨参考情報を前記特徴抽出ネットワークに入力して、前記参考対象に対する第2の対象特徴を抽出することと、
前記第2の対象特徴を前記マルチタスクネットワークに入力して、前記参考対象に対する複数の評価指標の第2の融合パラメータを取得することと、
前記参考対象に対する複数の第2の推奨すべき情報のうちの各第2の情報について、前記各第2の情報の前記複数の評価指標の推定値及び前記第2の融合パラメータに基づいて、前記参考対象に対する前記各第2の情報の第2の評価値を特定することと、
前記第2の評価値に基づいて、前記複数の第2の推奨すべき情報のうち、前記参考対象に対する第2の目標情報、及び前記第2の目標情報からなる第2の情報リストを特定することと、
前記第2の情報リストに対する前記参考対象のフィードバック情報に基づいて、前記マルチタスクネットワークをトレーニングすることとを含む、
パラメータ特定モデルのトレーニング方法。
【請求項9】
前記第2の情報リストに対する前記参考対象の対話情報、及び前記第2の情報リストにおける選択された情報に対する前記参考対象の対話情報に基づいて、前記第2の情報リストに対する前記参考対象のフィードバック評価値を特定する方式によって、前記第2の情報リストに対する前記参考対象のフィードバック情報を特定することをさらに含み、
ここで、前記フィードバック情報は前記フィードバック評価値を含む、
請求項8に記載のパラメータ特定モデルのトレーニング方法。
【請求項10】
前記第2の情報リストに対する前記参考対象のフィードバック情報に基づいて、前記マルチタスクネットワークをトレーニングすることは、
前記参考対象の識別情報に基づいて、前記マルチタスクネットワーク中の複数のネットワークパラメータに対する外乱値を生成することと、
前記フィードバック評価値と前記複数のネットワークパラメータに対する外乱値とに基づいて、前記複数のネットワークパラメータを調整することと、を含む
請求項9に記載のパラメータ特定モデルのトレーニング方法。
【請求項11】
前記複数のネットワークパラメータに対する外乱値は、前記複数のネットワークパラメータにそれぞれ対応する複数の外乱値を含み、前記フィードバック評価値と前記複数のネットワークパラメータに対する外乱値とに基づいて、前記複数のネットワークパラメータを調整することは、
前記複数のネットワークパラメータのうちの各ネットワークパラメータに対して、前記フィードバック評価値と前記各ネットワークパラメータに対応する外乱値との比に基づいて、前記各ネットワークパラメータに対する調整ステップサイズを特定することと、
前記調整ステップサイズに基づいて、前記各ネットワークパラメータを調整することと、を含む
請求項10に記載のパラメータ特定モデルのトレーニング方法。
【請求項12】
前記複数のネットワークパラメータに対する外乱値は複数の外乱値組を含み、前記複数の外乱値組のうちの各外乱値組は、前記複数のネットワークパラメータにそれぞれ対応する複数の外乱値を含み、前記フィードバック評価値と前記複数のネットワークパラメータに対する外乱値とに基づいて、前記複数のネットワークパラメータを調整することは、
前記フィードバック評価値と前記複数のネットワークパラメータに対する複数の外乱値組とに基づいて、進化アルゴリズムを採用して目標外乱値組を特定することと、
前記フィードバック評価値と前記目標外乱値組とに基づいて、前記複数のネットワークパラメータを調整することと、を含む
請求項10に記載のパラメータ特定モデルのトレーニング方法。
【請求項13】
前記フィードバック情報は実際閲覧時間長さを含み、前記パラメータ特定モデルは、予測ネットワークをさらに含み、前記方法は、
前記第2の対象特徴を前記予測ネットワークに入力して、予測閲覧時間長さを得ることと、
前記実際閲覧時間長さと前記予測閲覧時間長さとの相違に基づいて、前記特徴抽出ネットワークと前記予測ネットワークとをトレーニングすることと、さらに含む
請求項9に記載のパラメータ特定モデルのトレーニング方法。
【請求項14】
目標対象の推奨参考情報をパラメータ特定モデルにおける特徴抽出ネットワークに入力して、前記目標対象に対する第1の対象特徴を抽出する第1の特徴抽出モジュールと、
前記第1の対象特徴を前記パラメータ特定モデルにおけるマルチタスクネットワークに入力して、前記目標対象に対する複数の評価指標の第1の融合パラメータと取得する第1のパラメータ取得モジュールとを含み、
ここで、前記複数の評価指標は推奨情報に対する前記目標対象の好みを評価するものである、
融合パラメータの特定装置。
【請求項15】
推奨情報は、複数のタイプの情報を含み、各タイプの情報はいずれも前記複数の評価指標を有し、前記マルチタスクネットワークは特徴表現サブネットワークと複数の予測サブネットワークとを含み、
前記第1のパラメータ取得モジュールは、
前記第1の対象特徴を前記特徴表現サブネットワークに入力して、表現特徴を取得する特徴取得サブモジュールと、
前記表現特徴と前記第1の対象特徴とを前記複数の予測サブネットワークに入力して、前記複数の予測サブネットワークのうちの各サブネットワークによって1つの融合パラメータセットを出力するパラメータ取得サブモジュールと、
ここで、前記複数の予測サブネットワークと前記複数のタイプとが一対一で対応し、前記融合パラメータセットは前記複数の評価指標の融合パラメータを含む、
請求項14に記載の融合パラメータの特定装置。
【請求項16】
前記特徴表現サブネットワークは複数のエキスパートユニットを含み、前記特徴取得サブモジュールは、
前記対象特徴を前記複数のエキスパートユニットのうちの各エキスパートユニットに入力して、前記各エキスパートユニットによって1つの表現特徴を出力するものであり、
ここで、前記複数のエキスパートユニットは、それぞれ前記第1の対象特徴に基づいて複数の所定対象カテゴリのうちの1つのカテゴリに対する前記目標対象の特徴を表現するものである、
請求項15に記載の融合パラメータの特定装置。
【請求項17】
前記目標対象の推奨参考情報は、
前記目標対象の属性情報と、
前記目標対象に対して情報推奨を行うシーン情報と、
推奨情報に対する前記目標対象の好み情報との少なくとも1つを含む、
請求項14~16のいずれかに記載の融合パラメータの特定装置。
【請求項18】
目標対象に対する複数の第1の推奨すべき情報のうちの各第1の情報について、前記各第1の情報の複数の評価指標の推定値、及び前記目標対象に対する前記複数の評価指標の第1の融合パラメータに基づいて、前記目標対象に対する前記各第1の情報の第1の評価値を特定する第1の評価モジュールと、
前記第1の評価値に基づいて、前記複数の第1の推奨すべき情報のうち、前記目標対象に対する第1の目標情報、及び前記第1の目標情報からなる第1の情報リストを特定する第1の情報特定モジュールと、を含み、
ここで、前記第1の融合パラメータは請求項14~
16の何れか一項に記載の装置を採用して特定されたものである、
情報推奨装置。
【請求項19】
前記複数の第1の推奨すべき情報は少なくとも2つのタイプの情報を含み、前記第1の評価モジュールは、
前記各第1の情報のタイプに基づいて、前記目標対象に対する前記複数の評価指標の複数の融合パラメータを特定して、前記各第1の情報に対する、情報のタイプと一対一で対応する融合パラメータセットを得るパラメータ特定サブモジュールと、
前記各第1の情報の前記複数の評価指標の推定値と前記融合パラメータセットとに基づいて、前記第1の評価値を特定する評価値特定サブモジュールとを含む
請求項18に記載の情報推奨装置。
【請求項20】
前記評価値特定サブモジュールは、
前記複数の評価指標のうちの各評価指標に対して、前記各評価指標の推定値と前記融合パラメータセットにおける前記目標対象に対する前記各評価指標の融合パラメータとに基づいて、前記各評価指標の融合値を特定する融合値特定手段と、
前記複数の評価指標の複数の融合値に基づいて、前記第1の評価値を特定する評価値特定手とを含む
請求項19に記載の情報推奨装置。
【請求項21】
パラメータ特定モデルのトレーニング装置であって、前記パラメータ特定モデルは特徴抽出ネットワークとマルチタスクネットワークとを含み、前記装置は、
参考対象の推奨参考情報を前記特徴抽出ネットワークに入力して、前記参考対象に対する第2の対象特徴を抽出する第2の特徴抽出モジュールと、
前記第2の対象特徴を前記マルチタスクネットワークに入力して、前記参考対象に対する複数の評価指標の第2の融合パラメータを取得する第2のパラメータ取得モジュールと、
前記参考対象に対する複数の第2の推奨すべき情報のうちの各第2の情報について、前記各第2の情報の前記複数の評価指標の推定値及び前記第2の融合パラメータに基づいて、前記参考対象に対する前記各第2の情報の第2の評価値を特定する第2の評価モジュールと、
前記第2の評価値に基づいて、前記複数の第2の推奨すべき情報のうち、前記参考対象に対する第2の目標情報、及び前記第2の目標情報からなる第2の情報リストを特定する第2の情報特定モジュールと、
前記第2の情報リストに対する前記参考対象のフィードバック情報に基づいて、前記マルチタスクネットワークをトレーニングする第1のトレーニングモジュールと、を含む
パラメータ特定モデルのトレーニング装置。
【請求項22】
前記第2の情報リストに対する前記参考対象の対話情報、及び前記第2の情報リストにおける選択された情報に対する前記参考対象の対話情報に基づいて、前記第2の情報リストに対する前記参考対象のフィードバック評価値を特定する方式によって、前記第2の情報リストに対する前記参考対象のフィードバック情報を特定するフィードバック情報特定モジュールをさらに含み、
ここで、前記フィードバック情報は前記フィードバック評価値を含む、
請求項21に記載のパラメータ特定モデルのトレーニング装置。
【請求項23】
前記第1のトレーニングモジュールは、
前記参考対象の識別情報に基づいて、前記マルチタスクネットワーク中の複数のネットワークパラメータに対する外乱値を生成する外乱値生成サブモジュールと、
前記フィードバック評価値と前記複数のネットワークパラメータに対する外乱値とに基づいて、前記複数のネットワークパラメータを調整するパラメータ調整サブモジュールとを含む
請求項22に記載のパラメータ特定モデルのトレーニング装置。
【請求項24】
前記複数のネットワークパラメータに対する外乱値は、前記複数のネットワークパラメータにそれぞれ対応する複数の外乱値を含み、
前記パラメータ調整サブモジュールは、
前記複数のネットワークパラメータのうちの各ネットワークパラメータに対して、前記フィードバック評価値と前記各ネットワークパラメータに対応する外乱値との比に基づいて、前記各ネットワークパラメータに対する調整ステップサイズを特定するステップサイズ特定手段と、
前記調整ステップサイズに基づいて、前記各ネットワークパラメータを調整する第1の調整手段とを含む、
請求項23に記載のパラメータ特定モデルのトレーニング装置。
【請求項25】
前記複数のネットワークパラメータに対する外乱値は複数の外乱値組を含み、前記複数の外乱値組のうちの各外乱値組は前記複数のネットワークパラメータにそれぞれ対応する複数の外乱値を含み、
前記パラメータ調整サブモジュールは、
前記フィードバック評価値と前記複数のネットワークパラメータに対する複数の外乱値組とに基づいて、進化アルゴリズムを採用して目標外乱値組を特定する目標外乱特定手段と、
前記フィードバック評価値と前記目標外乱値組とに基づいて、前記複数のネットワークパラメータを調整する第2の調整手段とを含む
請求項23に記載のパラメータ特定モデルのトレーニング装置。
【請求項26】
前記フィードバック情報は実際閲覧時間長さを含み、前記パラメータ特定モデルは予測ネットワークをさらに含み、前記装置は、
前記第2の対象特徴を前記予測ネットワークに入力して、予測閲覧時間長さを得る時間長さ予測モジュールと、
前記実際閲覧時間長さと前記予測閲覧時間長さとの相違に基づいて、前記特徴抽出ネットワークと前記予測ネットワークとをトレーニングする第2のトレーニングモジュールとをさらに含む
請求項22に記載のパラメータ特定モデルのトレーニング装置。
【請求項27】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続するメモリとを含み、
前記メモリに、前記少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが請求項1
~3のいずれか一項に記載の融合パラメータの特定方法、請求項5~7のいずれか一項に記載の情報推奨方法、請求項8~13のいずれか一項に記載の
パラメータ特定モデルのトレーニング方法を実行することができる、
電子機器。
【請求項28】
コンピュータに請求項1
~3のいずれか一項に記載の融合パラメータの特定方法、請求項5~7のいずれか一項に記載の情報推奨方法、請求項8~13のいずれか一項に記載の
パラメータ特定モデルのトレーニング方法を実行させるためのコンピュータコマンドを記憶している、
非一時的なコンピュータ読取可能な記憶媒体。
【請求項29】
プロセッサにより実行される場合に、請求項1
~3のいずれか一項に記載の融合パラメータの特定方法、請求項5~7のいずれか一項に記載の情報推奨方法、請求項8~13のいずれか一項に記載の
パラメータ特定モデルのトレーニング方法のステップを実現するコンピュータプログラ
ム。
【国際調査報告】