IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7350815リソース推奨およびパラメータ確定方法、装置、機器、並びに媒体
<>
  • 特許-リソース推奨およびパラメータ確定方法、装置、機器、並びに媒体 図1
  • 特許-リソース推奨およびパラメータ確定方法、装置、機器、並びに媒体 図2
  • 特許-リソース推奨およびパラメータ確定方法、装置、機器、並びに媒体 図3
  • 特許-リソース推奨およびパラメータ確定方法、装置、機器、並びに媒体 図4A
  • 特許-リソース推奨およびパラメータ確定方法、装置、機器、並びに媒体 図4B
  • 特許-リソース推奨およびパラメータ確定方法、装置、機器、並びに媒体 図4C
  • 特許-リソース推奨およびパラメータ確定方法、装置、機器、並びに媒体 図4D
  • 特許-リソース推奨およびパラメータ確定方法、装置、機器、並びに媒体 図5
  • 特許-リソース推奨およびパラメータ確定方法、装置、機器、並びに媒体 図6
  • 特許-リソース推奨およびパラメータ確定方法、装置、機器、並びに媒体 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-15
(45)【発行日】2023-09-26
(54)【発明の名称】リソース推奨およびパラメータ確定方法、装置、機器、並びに媒体
(51)【国際特許分類】
   G06F 16/9535 20190101AFI20230919BHJP
【FI】
G06F16/9535
【請求項の数】 34
【外国語出願】
(21)【出願番号】P 2021144383
(22)【出願日】2021-09-06
(65)【公開番号】P2022063224
(43)【公開日】2022-04-21
【審査請求日】2021-09-06
(31)【優先権主張番号】202011074769.X
(32)【優先日】2020-10-09
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】王 朝旭
(72)【発明者】
【氏名】彭 志▲みーん▼
(72)【発明者】
【氏名】秦 首科
(72)【発明者】
【氏名】宋 乃▲飛▼
(72)【発明者】
【氏名】胡 小雨
(72)【発明者】
【氏名】崔 ▲寧▼馨
【審査官】早川 学
(56)【参考文献】
【文献】特開2002-123739(JP,A)
【文献】米国特許出願公開第2020/0134696(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
電子機器により実行されるリソース推奨方法であって、
対象ユーザの推奨参照特徴を確定することと、
前記対象ユーザの推奨参照特徴を、カスケード接続された少なくとも2つのリソース推奨モデルのうちの第1のリソース推奨モデルに入力し、前記カスケード接続された少なくとも2つのリソース推奨モデルのうちの最後のリソース推奨モデルから前記対象ユーザのリソース推奨結果を出力するまで、選択したリソースを、前記カスケード接続された少なくとも2つのリソース推奨モデルのうちの第2のリソース推奨モデルの入力として、前記第1のリソース推奨モデルから出力することと、を含み、
前記カスケード接続された少なくとも2つのリソース推奨モデルのそれぞれに含まれている少なくとも2つの推奨ポリシーパラメータは、同一の過去のユーザの推奨行動データに基づいて確定され、前記カスケード接続された少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なり、
前記過去のユーザの推奨行動データは、前記過去のユーザの推奨参照特徴およびユーザフィードバックデータを含み、
前記ユーザフィードバックデータは、進化的学習アルゴリズムに基づいて実現されるパラメータ最適化モデルにおけるネットワークパラメータを調整することに用いられ、
前記推奨ポリシーパラメータは、調整されたパラメータ最適化モデルに基づいて過去のユーザの推奨参照特徴に応じて確定される、
リソース推奨方法。
【請求項2】
前記ユーザフィードバックデータは、
前記リソース推奨モデルに使用される指標であるトラフィック指標での前記過去のユーザの履歴リソース推奨結果に対する応答行動データ統計値を確定することと、
各前記トラフィック指標での応答行動データ統計値に基づいて前記ユーザフィードバックデータを確定することと、により確定される、
請求項1に記載の方法。
【請求項3】
前記トラフィック指標は、時間応答指標および/またはインタラクション応答指標を含み、
各前記トラフィック指標での応答行動データ統計値に基づいて前記ユーザフィードバックデータを確定することは、
前記時間応答指標での応答行動データ統計値に基づき、リソース応答総時間を確定することと、
前記インタラクション応答指標での応答行動データ統計値および履歴応答時間に基づき、時間補正量を確定することと、
前記リソース応答総時間に基づき、各前記過去のユーザのユーザフィードバックデータを確定する、または、前記時間補正量および前記リソース応答総時間に基づき、各前記過去のユーザのユーザフィードバックデータを確定することと、を含む、
請求項2に記載の方法。
【請求項4】
前記少なくとも2つのリソース推奨モデルのそれぞれに用いられる推奨ポリシーは、リソース種類配合ポリシー、リソースコンテンツ多様化ポリシー、および多推奨指標均衡ポリシーのうちの少なくとも1種を含み、
前記推奨ポリシーパラメータは、種類配合パラメータ、多様化重み調整パラメータ、および多推奨指標融合パラメータのうちの少なくとも1種を含む、
請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記リソース処理段階は、リソースリコール段階、リソース事前ランキング段階、リソースランキング段階、およびリソース再ランキング段階のうちの少なくとも2つを含み、
前記リソース推奨モデルは、リソースリコールモデル、リソース事前ランキングモデル、リソースランキングモデル、およびリソース再ランキングモデルのうちの少なくとも2つを含む、
請求項1~3のいずれか1項に記載の方法。
【請求項6】
前記推奨参照特徴は、シナリオ特徴、ユーザ基本特徴、およびユーザプリファレンス特徴のうちの少なくとも1種を含む、
請求項1~3のいずれか1項に記載の方法。
【請求項7】
複数の過去のユーザの推奨行動データを確定することと、
同一の過去のユーザの推奨行動データに基づき、カスケード接続された少なくとも2つのリソース推奨モデルのそれぞれに用いられる少なくとも2つの推奨ポリシーパラメータを確定することと、を含むパラメータ確定方法であって、
前記推奨ポリシーパラメータは、少なくとも2つのリソース推奨モデルにおける使用パラメータであり、前記少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なり、
前記過去のユーザの推奨行動データは、前記過去のユーザの推奨参照特徴およびユーザフィードバックデータを含み、
前記過去のユーザの推奨行動データに基づき、少なくとも2つの推奨ポリシーパラメータを共同で確定することは、
前記ユーザフィードバックデータに基づき、進化的学習アルゴリズムに基づいて実現されるパラメータ最適化モデルにおけるネットワークパラメータを調整することと、
前記過去のユーザの推奨参照特徴を調整されたパラメータ最適化モデルに入力し、前記少なくとも2つの推奨ポリシーパラメータを取得することと、を含む、
パラメータ確定方法。
【請求項8】
前記ユーザフィードバックデータに基づき、パラメータ最適化モデルにおけるネットワークパラメータを調整することは、
過去のユーザのアカウント情報および時間情報に基づき、外乱データセットを生成することと、
前記ユーザフィードバックデータおよび前記外乱データセットに基づき、パラメータ調整ステップサイズを確定することと、
前記パラメータ調整ステップサイズに基づき、前記パラメータ最適化モデルにおけるネットワークパラメータを調整することと、を含む、
請求項7に記載の方法。
【請求項9】
前記ユーザフィードバックデータおよび前記外乱データセットに基づき、パラメータ調整ステップサイズを確定することは、
前記ユーザフィードバックデータに基づき、前記外乱データセット内の各外乱データを重み付け、外乱増加データを取得することと、
前記外乱増加データに基づき、前記パラメータ調整ステップサイズを確定することと、を含む、
請求項8に記載の方法。
【請求項10】
前記ユーザフィードバックデータに基づき、前記外乱データセット内の各外乱データを重み付け、外乱増加データを取得することは、
前記過去のユーザの履歴フィードバックデータに基づき、前記ユーザフィードバックデータを標準化処理することにより、前記ユーザフィードバックデータを更新することと、
更新後のユーザフィードバックデータに基づき、前記外乱データセット内の各外乱データを重み付け、外乱増加データを取得することと、を含む、
請求項9に記載の方法。
【請求項11】
前記ユーザフィードバックデータは、
前記リソース推奨モデルに使用される指標であるトラフィック指標での前記過去のユーザの履歴リソース推奨結果に対する応答行動データ統計値を確定することと、
各前記トラフィック指標での応答行動データ統計値に基づいて前記ユーザフィードバックデータを確定することと、により確定される、
請求項7~10のいずれか1項に記載の方法。
【請求項12】
前記トラフィック指標は、時間応答指標および/またはインタラクション応答指標を含み、
各前記トラフィック指標での応答行動データ統計値に基づいて前記ユーザフィードバックデータを確定することは、
前記時間応答指標での応答行動データ統計値に基づき、リソース応答総時間を確定することと、
前記インタラクション応答指標での応答行動データ統計値および履歴応答時間に基づき、時間補正量を確定することと、
前記リソース応答総時間に基づき、各前記過去のユーザのユーザフィードバックデータを確定する、または、前記時間補正量および前記リソース応答総時間に基づき、各前記過去のユーザのユーザフィードバックデータを確定することと、を含む、
請求項11に記載の方法。
【請求項13】
前記少なくとも2つのリソース推奨モデルのそれぞれに用いられる推奨ポリシーは、リソース種類配合ポリシー、リソースコンテンツ多様化ポリシー、および多推奨指標均衡ポリシーのうちの少なくとも1種を含み、
前記推奨ポリシーパラメータは、種類配合パラメータ、多様化重み調整パラメータ、および多推奨指標融合パラメータのうちの少なくとも1種を含む、
請求項7~10のいずれか1項に記載の方法。
【請求項14】
前記推奨参照特徴は、シナリオ特徴、ユーザ基本特徴、およびユーザプリファレンス特徴のうちの少なくとも1種を含む、
請求項7~10のいずれか1項に記載の方法。
【請求項15】
対象ユーザの推奨参照特徴を確定するための推奨参照特徴確定モジュールと、
前記対象ユーザの推奨参照特徴を、カスケード接続された少なくとも2つのリソース推奨モデルのうちの第1のリソース推奨モデルに入力し、前記カスケード接続された少なくとも2つのリソース推奨モデルのうちの最後のリソース推奨モデルから前記対象ユーザのためにリソース推奨結果を出力するまで、選択したリソースを、前記カスケード接続された少なくとも2つのリソース推奨モデルのうちの第2のリソース推奨モデルの入力として、前記第1のリソース推奨モデルから出力するためのリソース推奨結果確定モジュールと、
を備えるリソース推奨装置であって、
前記カスケード接続された少なくとも2つのリソース推奨モデルのそれぞれに含まれている少なくとも2つの推奨ポリシーパラメータは、同一の過去のユーザの推奨行動データに基づいて確定され、前記カスケード接続された少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なり、
前記過去のユーザの推奨行動データは、前記過去のユーザの推奨参照特徴およびユーザフィードバックデータを含み、
前記ユーザフィードバックデータは、進化的学習アルゴリズムに基づいて実現されるパラメータ最適化モデルにおけるネットワークパラメータを調整することに用いられ、
前記推奨ポリシーパラメータは、調整されたパラメータ最適化モデルに基づいて過去のユーザの推奨参照特徴に応じて確定される、
リソース推奨装置。
【請求項16】
前記ユーザフィードバックデータを確定するためのユーザフィードバックデータ確定モジュールを更に備え、
前記ユーザフィードバックデータ確定モジュールは、具体的に、
前記リソース推奨モデルに使用される指標であるトラフィック指標での前記過去のユーザの履歴リソース推奨結果に対する応答行動データ統計値を確定するための応答行動データ統計値確定ユニットと、
各前記トラフィック指標での応答行動データ統計値に基づいて前記ユーザフィードバックデータを確定するためのユーザフィードバックデータ確定ユニットと、を備える、
請求項15に記載の装置。
【請求項17】
前記トラフィック指標は、時間応答指標および/またはインタラクション応答指標を含み、
前記ユーザフィードバックデータ確定ユニットは、
前記時間応答指標での応答行動データ統計値に基づき、リソース応答総時間を確定するためのリソース応答総時間確定サブユニットと、
前記インタラクション応答指標での応答行動データ統計値および履歴応答時間に基づき、時間補正量を確定するための時間抑圧量確定サブユニットと、
前記リソース応答総時間に基づき、各前記過去のユーザのユーザフィードバックデータを確定する、または、前記時間補正量および前記リソース応答総時間に基づき、各前記過去のユーザのユーザフィードバックデータを確定するためのユーザフィードバックデータ確定サブユニットと、を備える、
請求項16に記載の装置。
【請求項18】
推奨ポリシーは、リソース種類配合ポリシー、リソースコンテンツ多様化ポリシー、および多推奨指標均衡ポリシーのうちの少なくとも1種を含み、
前記推奨ポリシーパラメータは、種類配合パラメータ、多様化重み調整パラメータ、および多推奨指標融合パラメータのうちの少なくとも1種を含む、
請求項15~17のいずれか1項に記載の装置。
【請求項19】
前記リソース処理段階は、リソースリコール段階、リソース事前ランキング段階、リソースランキング段階、およびリソース再ランキング段階のうちの少なくとも2つを含み、
前記リソース推奨モデルは、リソースリコールモデル、リソース事前ランキングモデル、リソースランキングモデル、およびリソース再ランキングモデルのうちの少なくとも2つを含む、
請求項15~17のいずれか1項に記載の装置。
【請求項20】
前記推奨参照特徴は、シナリオ特徴、ユーザ基本特徴、およびユーザプリファレンス特徴のうちの少なくとも1種を含む、
請求項15~17のいずれか1項に記載の装置。
【請求項21】
複数の過去のユーザの推奨行動データを確定するための推奨行動データ確定モジュールと、
同一の過去のユーザの推奨行動データに基づき、カスケード接続された少なくとも2つのリソース推奨モデルのそれぞれに用いられる少なくとも2つの推奨ポリシーパラメータを確定するための推奨ポリシーパラメータ確定モジュールと、
を備えるパラメータ確定装置であって、
前記推奨ポリシーパラメータは、少なくとも2つのリソース推奨モデルにおける使用パラメータであり、前記少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なり、
前記過去のユーザの推奨行動データは、前記過去のユーザの推奨参照特徴およびユーザフィードバックデータを含み、
前記推奨ポリシーパラメータ確定モジュールは、
前記ユーザフィードバックデータに基づき、進化的学習アルゴリズムに基づいて実現されるパラメータ最適化モデルにおけるネットワークパラメータを調整するためのネットワークパラメータ調整ユニットと、
前記過去のユーザの推奨参照特徴を調整されたパラメータ最適化モデルに入力し、前記少なくとも2つの推奨ポリシーパラメータを取得するための推奨ポリシーパラメータ取得ユニットと、を備える、
パラメータ確定装置。
【請求項22】
前記ネットワークパラメータ調整ユニットは、
過去のユーザのアカウント情報および時間情報に基づき、外乱データセットを生成するための外乱データセット生成サブユニットと、
前記ユーザフィードバックデータおよび前記外乱データセットに基づき、パラメータ調整ステップサイズを確定するためのパラメータ調整ステップサイズ確定サブユニットと、
前記パラメータ調整ステップサイズに基づき、前記パラメータ最適化モデルにおけるネットワークパラメータを調整するためのネットワークパラメータ調整サブユニットと、を備える、
請求項21に記載の装置。
【請求項23】
前記パラメータ調整ステップサイズ確定サブユニットは、
前記ユーザフィードバックデータに基づき、前記外乱データセット内の各外乱データを重み付け、外乱増加データを取得するための外乱増加データ取得従属ユニットと、
前記外乱増加データに基づき、前記パラメータ調整ステップサイズを確定するためのパラメータ調整ステップサイズ確定従属ユニットと、を備える、
請求項22に記載の装置。
【請求項24】
前記外乱増加データ取得従属ユニットは、
前記過去のユーザの履歴フィードバックデータに基づき、前記ユーザフィードバックデータを標準化処理することにより、前記ユーザフィードバックデータを更新するためのユーザフィードバックデータ更新サブ従属ユニットと、
更新後のユーザフィードバックデータに基づき、前記外乱データセット内の各外乱データを重み付け、外乱増加データを取得するための外乱増加データ取得サブ従属ユニットと、を備える、
請求項23に記載の装置。
【請求項25】
ユーザフィードバックデータを確定するためのユーザフィードバックデータ確定モジュールを更に備え、
前記ユーザフィードバックデータ確定モジュールは、具体的に、
前記リソース推奨モデルに使用される指標であるトラフィック指標での前記過去のユーザの履歴リソース推奨結果に対する応答行動データ統計値を確定するための応答行動データ統計値確定ユニットと、
各前記トラフィック指標での応答行動データ統計値に基づいて前記ユーザフィードバックデータを確定するためのユーザフィードバックデータ確定ユニットと、を備える、
請求項21~24のいずれか1項に記載の装置。
【請求項26】
前記トラフィック指標は、時間応答指標および/またはインタラクション応答指標を含み、
前記ユーザフィードバックデータ確定ユニットは、
前記時間応答指標での応答行動データ統計値に基づき、リソース応答総時間を確定するためのリソース応答総時間確定サブユニットと、
前記インタラクション応答指標での応答行動データ統計値および履歴応答時間に基づき、時間補正量を確定するための時間抑圧量確定サブユニットと、
前記リソース応答総時間に基づき、各前記過去のユーザのユーザフィードバックデータを確定する、または、前記時間補正量および前記リソース応答総時間に基づき、各前記過去のユーザのユーザフィードバックデータを確定するためのユーザフィードバックデータ確定サブユニットと、を備える、
請求項25に記載の装置。
【請求項27】
推奨ポリシーは、リソース種類配合ポリシー、リソースコンテンツ多様化ポリシー、および多推奨指標均衡ポリシーのうちの少なくとも1種を含み、
前記推奨ポリシーパラメータは、種類配合パラメータ、多様化重み調整パラメータ、および多推奨指標融合パラメータのうちの少なくとも1種を含む、
請求項21~24のいずれか1項に記載の装置。
【請求項28】
前記推奨参照特徴は、シナリオ特徴、ユーザ基本特徴、およびユーザプリファレンス特徴のうちの少なくとも1種を含む、
請求項21~24のいずれか1項に記載の装置。
【請求項29】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、
を備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも1つのプロセッサが請求項1~6のいずれか1項に記載のリソース推奨方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
電子機器。
【請求項30】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、
を備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも1つのプロセッサが請求項7~14のいずれか1項に記載のパラメータ確定方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
電子機器。
【請求項31】
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに、請求項1~6のいずれか1項に記載のリソース推奨方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体。
【請求項32】
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに、請求項7~14のいずれか1項に記載のパラメータ確定方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体。
【請求項33】
コンピュータに、請求項1~6のいずれか1項に記載のリソース推奨方法を実行させるプログラム。
【請求項34】
コンピュータに、請求項7~14のいずれか1項に記載のパラメータ確定方法を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理の技術分野に関し、特に、インテリジェント検索および推奨の技術に関し、具体的には、リソース推奨およびパラメータ確定方法、装置、機器、並びに媒体に関する。
【背景技術】
【0002】
移動インターネットの発展に伴い、リソース推奨システムの広範な適用に基礎を定める。現実の生活において、出かけ、ショッピング、視聴、ニュースおよびソーシャル等の多くのアプリケーションはいずれもリソース推奨システムを使用し、これにより、ユーザにより多くのユーザ自身が興味を持っている情報を提供することができ、または、ユーザは自身が興味を持っている情報を素早くサーチしやすくなる。
【0003】
しかし、従来のリソース推奨システムは、リソース推奨を行う時、推奨結果が悪く、ユーザ体験度が低いという問題が存在する。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、リソース推奨結果がより良好なリソース推奨およびパラメータ確定方法、装置、機器、並びに媒体を提供する。
【課題を解決するための手段】
【0005】
本発明の一態様によれば、
対象ユーザの推奨参照特徴を確定することと、
少なくとも2つのリソース推奨モデルに基づき、前記対象ユーザの推奨参照特徴に応じて、前記対象ユーザのためにリソース推奨結果を確定することと、を含むリソース推奨方法であって、
前記少なくとも2つのリソース推奨モデルにおける少なくとも2つの推奨ポリシーパラメータは、履歴ユーザの推奨行動データに基づいて共同で確定され、前記少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なっている、
リソース推奨方法を提供する。
【0006】
本発明の実施例の別の態様によれば、
履歴ユーザの推奨行動データを確定することと、
前記履歴ユーザの推奨行動データに基づき、少なくとも2つの推奨ポリシーパラメータを共同で確定することと、を含むパラメータ確定方法であって、
前記推奨ポリシーパラメータは、少なくとも2つのリソース推奨モデルにおける使用パラメータであり、前記少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なっている、
パラメータ確定方法を更に提供する。
【0007】
本発明の別の態様によれば、
対象ユーザの推奨参照特徴を確定するための推奨参照特徴確定モジュールと、
少なくとも2つのリソース推奨モデルに基づき、前記対象ユーザの推奨参照特徴に応じて、前記対象ユーザのためにリソース推奨結果を確定するためのリソース推奨結果確定モジュールと、
を備えるリソース推奨装置であって、
前記少なくとも2つのリソース推奨モデルにおける少なくとも2つの推奨ポリシーパラメータは、履歴ユーザの推奨行動データに基づいて共同で確定され、前記少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なっている、
リソース推奨装置を更に提供する。
【0008】
本発明の別の態様によれば、
履歴ユーザの推奨行動データを確定するための推奨行動データ確定モジュールと、
前記履歴ユーザの推奨行動データに基づき、少なくとも2つの推奨ポリシーパラメータを共同で確定するための推奨ポリシーパラメータ確定モジュールと、
を備えるパラメータ確定装置であって、
前記推奨ポリシーパラメータは、少なくとも2つのリソース推奨モデルにおける使用パラメータであり、前記少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なっている、
パラメータ確定装置を更に提供する。
【0009】
本発明の別の態様によれば、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、
を備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが本発明のいずれかの実施例に係るリソース推奨方法を実行可能であるように、および/または、本発明のいずれかの実施例に係るパラメータ確定方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
電子機器を更に提供する。
【0010】
本発明の別の態様によれば、コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、本発明のいずれかの実施例に係るリソース推奨方法を前記コンピュータに実行させる、および/または、本発明のいずれかの実施例に係るパラメータ確定方法を前記コンピュータに実行させるためのコンピュータ命令が記憶された、
非一時的なコンピュータ可読記憶媒体を更に提供する。
【発明の効果】
【0011】
本発明の技術によれば、リソース推奨結果と対象ユーザとのマッチング度を向上させる。
【0012】
本発明に記載されたコンテンツは、本発明の実施例のキーとなるまたは重要な特徴を標識するためのものではなく、本発明の範囲を限定するものでもないことが理解できる。本発明の他の特徴は、以下の明細書により容易に理解することができる。
【図面の簡単な説明】
【0013】
図面は本形態をより良く理解するためのものであり、本発明を限定するものではない。
【0014】
図1】本発明の実施例に係るリソース推奨方法のフローチャートである。
図2】本発明の実施例に係るパラメータ確定方法のフローチャートである。
図3】本発明の実施例に係る別のパラメータ確定方法のフローチャートである。
図4A】本発明の実施例に係るリソース推奨システムの構造図である。
図4B】本発明の実施例に係るオンライン推奨システムのフレームの構造模式図である。
図4C】本発明の実施例に係るパラメータ最適化モデルの構造模式図である。
図4D】本発明の実施例に係る別のリソース推奨方法のフローチャートである。
図5】本発明の実施例に係るリソース推奨装置の構造図である。
図6】本発明の実施例に係るパラメータ確定装置の構造図である。
図7】本発明の実施例のリソース推奨方法および/またはパラメータ確定方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。ここで、理解の便宜上、本発明の実施例に係る様々な細かい内容まで含まれているが、例示的なものに過ぎないと理解すべきである。従って、当業者であれば理解するであろうが、本発明の範囲および主旨から逸脱しない限り、ここで説明する実施例に対して様々な変更や補正を行うことができる。同様に、以下の説明において、公知されている機能および構造の説明は、明確かつ簡潔にするために省略している。
【0016】
本発明の実施例に開示される各リソース推奨方法は、データ処理の技術分野でリソース推奨システムを用いてリソースを対象ユーザに推奨する場合に適用される。本発明の実施例に開示されるリソース推奨方法は、リソース推奨装置により実行可能であり、該装置は、ソフトウェアおよび/またはハードウェアで実現され、具体的に、リソース推奨機能を持っている電子機器に設けられている。
【0017】
図1は、本発明の実施例に係るリソース推奨方法のフローチャートであり、該方法は以下のステップを含む。
【0018】
S101において、対象ユーザの推奨参照特徴を確定する。
【0019】
ここで、対象ユーザは、リソース推奨を行う推奨待ちユーザと理解できる。
【0020】
ここで、推奨参照特徴は、リソース推奨過程において依存する特徴データと理解できる。例示的には、推奨参照特徴は、シナリオ特徴、ユーザ基本特徴、およびユーザプリファレンス特徴等のうちの少なくとも1種を含んでもよい。
【0021】
例示的には、シナリオ特徴は、リソースを対象ユーザに推奨する時のシナリオ状態のデータを表すことに用いられ、例えば、リフレッシュ回数、リフレッシュ状態、リフレッシュサイズ、ネットワーク状態、およびリフレッシュ期間等のうちの少なくとも1種を含んでもよいことが理解できる。推奨参照特徴にシナリオ特徴を導入することにより、後にリソース推奨を行う時、シナリオによって異なる推奨待ちリソースを対象ユーザに推奨することができ、シナリオに基づく個人化推奨の目的を達成する。
【0022】
例示的には、ユーザ基本特徴は、ユーザ自身の基本属性を表すことに用いられ、例えば、ユーザの性別、年齢、教育程度、ユーザの活発度、およびユーザの履歴いいね率等のうちの少なくとも1種を含んでもよい。推奨参照特徴にユーザ特徴を導入することにより、後にリソース推奨を行う時、対象ユーザに基づく個人化推奨を実現することができ、リソース推奨結果と対象ユーザ自身とのマッチング度を向上させ、更にユーザの満足度を向上させることが理解できる。
【0023】
例示的には、ユーザプリファレンス特徴は、異なるタイプリソースにおける異なる種類リソースコンテンツに対する対象ユーザのプリファレンス程度等を表すことに用いられる。推奨参照特徴にユーザプリファレンス特徴を導入することにより、後にリソース推奨を行う時、興味を持っているコンテンツを対象ユーザに推奨することができ、更にユーザの満足度を向上させることが理解できる。
【0024】
好ましくは、対象ユーザの推奨参照特徴は、電子機器のローカル、電子機器に関連する他の記憶機器もしくはクラウドに予め記憶されてもよい。それに対応し、リソース推奨を行う必要がある場合、電子機器のローカル、電子機器に関連する他の記憶機器もしくはクラウドから、対象ユーザの標識情報に基づいて対象ユーザの推奨参照特徴を取得する。
【0025】
または、好ましくは、推奨参考データを電子機器のローカル、電子機器に関連する他の記憶機器もしくはクラウドに予め記憶してもよい。それに対応し、リソース推奨を行う必要がある場合、電子機器のローカル、電子機器に関連する他の記憶機器もしくはクラウドから、対象ユーザの標識情報に基づいて対象ユーザの推奨参考データを読み取り、推奨参考データに対して特徴抽出を行い、構造化表示された推奨参照特徴を生成する。ここで、対象ユーザの推奨参照特徴は、シナリオ特徴、ユーザ基本特徴、およびユーザプリファレンス特徴等のデータを含んでもよいが、これらに限定されない。
【0026】
S102において、少なくとも2つのリソース推奨モデルに基づき、対象ユーザの推奨参照特徴に応じて、対象ユーザのためにリソース推奨結果を確定し、ここで、少なくとも2つのリソース推奨モデルにおける少なくとも2つの推奨ポリシーパラメータは、履歴ユーザの推奨行動データに基づいて共同で確定され、少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なっている。
【0027】
本発明の実施例に係る少なくとも2つのリソース推奨モデルは、リソース推奨システムを構成でき、異なるリソース処理段階のリソース推奨モデルをカスケード接続する方式によりリソースを対象ユーザに推奨することに用いられる。そのうちの1つのリソース推奨モデルは、推奨待ちリソースまたは前のカスケード接続されたリソース推奨モデルの出力結果に対してリソースを選択し、選択したリソースを後続のカスケード接続されたリソース推奨モデルの入力とする、またはリソース推奨結果として対象ユーザに表示することに用いられる。
【0028】
一実施例において、リソース推奨段階は、リソースリコール(Recall)段階、リソース事前ランキング(PreRanking)段階、リソースランキング(Ranking)段階、およびリソース再ランキング(ReRanking)段階を含んでもよいが、これらに限定されない。それに対応し、リソース推奨モデルは、リソースリコールモデル、リソース事前ランキングモデル、リソースランキングモデル、およびリソース再ランキングモデルを含んでもよいが、これらに限定されない。なお、上記リソース推奨システムは、必要に応じてリソース推奨段階および対応するリソース推奨モデルを増加、削除または調整することができる。もちろん、実際のニーズに応じ、少なくとも1つのリソース処理段階を、少なくとも1つのサブ段階を含むように設定してもよく、例えば、リソース再ランキング段階は、候補リソース系列生成段階およびターゲットリソース系列生成段階等を含んでもよい。
【0029】
本発明の実施例において、各リソース推奨モデルでは、リソース推奨モデルの推奨結果を制約するための少なくとも1種の推奨ポリシーを用い、それに対応し、各推奨ポリシーには少なくとも1つの推奨ポリシーパラメータが含まれ、ここで、異なる推奨ポリシーパラメータは対応するリソース推奨モデルの推奨性能に影響を及ぼすことができる。
【0030】
1つの好ましい実施例において、推奨ポリシーは、リソース種類配合ポリシー、リソースコンテンツ多様化ポリシー、および多推奨指標均衡ポリシー等のポリシーを含んでもよいが、これらに限定されない。それに対応し、推奨ポリシーパラメータは、種類配合パラメータ、多様化重み調整パラメータ、および多推奨指標融合パラメータ等のパラメータを含んでもよいが、これらに限定されない。
【0031】
好ましくは、リソース種類配合ポリシーは、リソース推奨を行う時、少なくとも2タイプのリソースを総合的に推奨するポリシーを設定することにより、ユーザのリソース推奨結果に対する満足度を向上させるものと理解できる。例えば、情報フローを推奨する場合、イメージテキスト、ショートビデオ、およびスモールビデオ等のリソースを総合的に推奨する。それに対応し、リソース種類配合ポリシーにおける使用パラメータは、種類配合パラメータであってもよい。
【0032】
好ましくは、リソースコンテンツ多様化ポリシーは、リソース推奨を行う時、同じタイプのリソースが推奨されるリソースコンテンツの多様性を提供することを確保し、リソースコンテンツの単一による過剰適合の問題を回避し、同じタイプのリソースのカバー率を高め、更にユーザ体験の満足度を向上させるものと理解できる。それに対応し、リソースコンテンツ多様化ポリシーにおける使用パラメータは、多様化に使用される重み調整数式における多様化重み調整パラメータであってもよい。ここで、多様化重み調整パラメータは、同じタイプのリソースにおける異なるリソースコンテンツカテゴリの配合重みを設定することに用いられる。ここで、重み調整数式は、技術者により必要または経験に応じて確定されてもよいし、大量の試験により繰り返し確定されてもよい。
【0033】
好ましくは、多推奨指標均衡ポリシーとは、リソース推奨を行う時、異なるリソース推奨指標の要求をどのように満たすかのポリシーを意味する。例えば、推奨指標は、クリック率、ランディングページ時間、リストページ時間、コメントすること、いいねをクリックすること、および共有すること等のうちの少なくとも1種を含んでもよい。異なるリソース推奨指標の間に互いに制約することが存在する可能性があるため、多推奨指標の均衡を両立させる方式により、異なる推奨指標間の影響をバランスさせることができる。それに対応し、多推奨指標均衡ポリシーの使用パラメータは、多推奨指標の推奨時に採用される融合数式の多推奨指標の融合パラメータであってもよい。ここで、融合数式は、技術者により必要または経験に応じて確定されてもよいし、大量の試験により繰り返し確定されてもよい。
【0034】
本実施例において、対象ユーザの推奨参照特徴をリソース推奨システムにおける最初のリソース推奨モデルの入力データとし、最初のリソース推奨モデルの出力データを後続のカスケード接続されたリソース推奨モデルの入力データとし、最終的に、最後のリソース推奨モデルにより対象ユーザのリソース推奨結果を出力することで、リソースを対象ユーザに推奨するという目的を達成する。
【0035】
ここで、履歴ユーザの推奨行動データは、リソースを履歴ユーザに推奨する時に依存する推奨参照特徴、履歴ユーザのリソース推奨結果、および履歴ユーザがリソース推奨結果に応答する時の行動データ等を含んでもよいが、これらに限定されない。
【0036】
履歴ユーザの推奨行動データによりリソース推奨モデルにおける少なくとも2つの推奨ポリシーパラメータを確定することで、確定したリソース推奨パラメータはリソース推奨モデルにより良く適合できることが理解できる。それと同時に、推奨ポリシーパラメータの機能の確定により、各推奨ポリシーパラメータの相互作用を両立することができ、リソース推奨モデルの推奨結果の正確性の向上に基礎を定める。
【0037】
本発明の実施例は、対象ユーザの推奨参照特徴を確定し、少なくとも2つのリソース推奨モデルに基づき、対象ユーザの推奨参照特徴に応じて、対象ユーザのためにリソース推奨結果を確定する。ここで、少なくとも2つのリソース推奨モデルにおける少なくとも2つのリソース推奨パラメータは、履歴ユーザの推奨行動データに基づいて共同で確定され、少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なっている。上記技術案は、少なくとも2つのリソース推奨モデルにおける少なくとも2つの推奨ポリシーパラメータを共同で確定することにより、異なるリソース処理段階の各推奨ポリシーパラメータに対する動的確定および自動調整を実現し、人為的に設定されたパラメータが不正確でリソース推奨結果が良くないという問題を回避する。それと同時に、各推奨ポリシーパラメータの共同確定により、単一の推奨ポリシーパラメータが孤立して確定されるため、各推奨ポリシーパラメータがマッチングしないという問題を回避し、各推奨ポリシーパラメータ間の相互作用を両立させ、更に、リソース推奨結果の正確性、リソース推奨結果と対象ユーザとのマッチング度、およびユーザの満足度を向上させる。
【0038】
上記各実施例の技術案の基に、履歴ユーザの推奨行動データを履歴ユーザの推奨参照特徴およびユーザフィードバックデータに細分化することにより、リソース推奨パラメータの確定メカニズムを改善することができ、即ち、履歴ユーザの推奨参照特徴およびユーザフィードバックデータに基づき、少なくとも2つの推奨ポリシーパラメータを共同で確定する。ここで、少なくとも2つのポリシー推奨パラメータは少なくとも2つのリソース推奨モデルの使用パラメータであり、少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なっている。
【0039】
なお、リソース推奨を行う時に使用される電子機器(リソース推奨機器)は、推奨ポリシーパラメータの確定を行う電子機器(パラメータ確定機器)と同じであってもよいし、異なってもよく、本発明の実施例はこれについて限定しない。
【0040】
ここで、ユーザフィードバックデータは、履歴ユーザがリソース推奨結果に応答して生成したデータと理解できる。
【0041】
1つの好ましい実施例において、推奨ポリシーパラメータは、パラメータ最適化モデルを採用し、履歴ユーザの推奨参考データおよびユーザフィードバックデータに基づいて確定できる。ここで、パラメータ最適化モデルは、進化的学習(Evolution Strategy、ES)アルゴリズムに基づいて実現されてもよいし、他のアルゴリズムで実現されてもよく、本発明の実施例はこれについて限定しない。
【0042】
なお、ESアルゴリズムが進化ポリシーに属しているため、自然界の進化をシミュレートすることによりグローバル最適化を行い、ダーウィンの自然淘汰、適者生存の進化理論に従う。従って、ESアルゴリズムに基づいて実現されたパラメータ最適化モデルで推奨ポリシーパラメータの確定を行う場合、ユーザフィードバックデータのみに依存し、誤差の逆伝搬に依存せず、多段階のマルチポリシーを含むリソース推奨モデルにおける各推奨ポリシーパラメータの最適化過程に適用され、それと同時に、ESアルゴリズムを用いる計算は簡単で効率的であり、高度に並列化でき、リソース損失が小さいため、更に推奨ポリシーパラメータの確定効率を高めることができる。従って、1つの好ましい実施例において、ESアルゴリズムに基づいて実現されたパラメータ最適化モデルを用いて推奨ポリシーパラメータの確定を行うことができる。
【0043】
1つの好ましい実施形態において、ユーザフィードバックデータに基づき、パラメータ最適化モデルにおけるネットワークパラメータを調整することができ、これにより、パラメータ最適化モデルのモデル出力結果は、リソース推奨モデルにおける推奨ポリシーパラメータに対応する物理的意義を備える。それと同時に、履歴ユーザの推奨参照特徴を用いて調整されたパラメータ最適化モデルに基づいてモデル出力結果を取得することにより、推奨ポリシーパラメータを確定し、パラメータ最適化モデルのモデル出力結果(即ち、推奨ポリシーパラメータ)とリソース推奨モデルとのマッチング度を向上させる。それに対応し、確定された推奨ポリシーパラメータをリソース推奨システムにおける対応するリソース推奨モデルに作用することにより、リソース推奨モデルを更新し、更に更新後のリソース推奨モデルを用いてリソースを対象ユーザに推奨する。
【0044】
推奨ポリシーパラメータの確定操作は予め実行され、取得された各推奨ポリシーパラメータを記憶してもよく、それに対応し、リソース推奨モデルを使用する時、推奨ポリシーパラメータの記憶領域から推奨ポリシーパラメータを取得して使用することが理解できる。
【0045】
推奨ポリシーパラメータの時効性を確保するために、一般的には、ユーザフィードバックデータは、リソースを対象ユーザに推奨する前に、設定期間内で履歴リソースを履歴ユーザに推奨した後に確定されたユーザフィードバックデータであってもよい。それに対応し、推奨ポリシーパラメータの再確定をリアルタイムまたは定時に行い、リソース推奨モデルにおける各推奨ポリシーパラメータを更新する。
【0046】
本発明の実施例は、パラメータ確定モデルを導入することにより推奨ポリシーパラメータの確定を行い、各推奨ポリシーパラメータの同時最適化を実現し、単一のリソース処理段階の単一の推奨ポリシーパラメータの最適化を必要とせず、パラメータ最適化過程のデータ演算量を減少し、推奨ポリシーパラメータの確定効率を高め、リソース推奨モデルにおける各推奨ポリシーパラメータのオンラインリアルタイム更新に可能性を提供する。また、同時最適化過程で異なる推奨ポリシーパラメータ間の相互作用を総合的に考慮し、単一の推奨ポリシーパラメータの確定を孤立して行う時に推奨ポリシーパラメータが互いに制約してリソース推奨システムが不安定となることの発生を回避する。それと同時に、履歴ユーザのユーザフィードバックデータを導入することによりパラメータ最適化モデルのトレーニング過程を指導することで、パラメータ最適化モデルの出力結果は、推奨ポリシーパラメータの物理的意義を備え、推奨ポリシーパラメータの同時最適化に基礎を定める。また、履歴フィードバックユーザの推奨参照特徴に応じて推奨ポリシーパラメータの確定を行うことで、推奨ポリシーパラメータの確定過程に使用されるデータを、リソース推奨モデルがリソース推奨を行う時に使用されるデータに適応させ、最終的に確定された推奨ポリシーパラメータとリソース推奨モデルとのマッチング度を向上させる。
【0047】
ユーザフィードバックデータに基づいて推奨ポリシーパラメータの確定を行うメカニズムを改善するために、下記1つの好ましい実施例において、ユーザフィードバックデータの生成過程について詳細に説明する。
【0048】
例示的には、ユーザフィードバックデータは、リソース推奨機器またはパラメータ確定機器により、リソース推奨モデルに使用される指標であるトラフィック指標での履歴ユーザの履歴リソース推奨結果に対する応答行動データ統計値を確定することと、各トラフィック指標での応答行動データ統計値に基づいてユーザフィードバックデータを確定することにより確定できる。
【0049】
ここで、トラフィック指標は、リソース推奨を行う時、満たす必要のある推奨指標ニーズと理解できる。例示的には、トラフィック指標は、クリック率、ランディングページ時間、リストページ時間、コメント数量、いいね数、および共有数等のうちの少なくとも1種を含む推奨指標であってもよいし、上記少なくとも1種のパラメータに基づいて推奨指標の確定を行うことであってもよい。
【0050】
好ましくは、トラフィック指標は、リソース推奨システムの応答時間、またはリソース推奨システムと履歴ユーザとの間のインタラクション時間を表すための時間応答指標を含んでもよい。
【0051】
好ましくは、トラフィック指標は、リソース推奨システムがリソース推奨を行った後の履歴ユーザのリソース推奨結果に対するインタラクション状況を表すためのインタラクション行動のインタラクション応答指標を含んでもよい。
【0052】
もちろん、上記は、トラフィック指標に含まれているコンテンツを例示的に説明したものに過ぎず、トラフィック指標は、リソース推奨システムの実際のトラフィックニーズに応じて他の指標パラメータとして確定されてもよく、ここでは説明を省略する。
【0053】
例示的には、応答行動データ統計値は、時間応答データに対する時間累積値を含んでもよく、または、好ましくは、応答行動データ統計値は、インタラクション応答データの頻度パラメータに対する頻度累積値を含んでもよい。
【0054】
1つの具体的な実現形態において、トラフィック指標が時間応答指標を含む場合、それに対応し、各トラフィック指標での応答行動データ統計値に基づき、ユーザフィードバックデータを確定することは、時間応答指標での応答行動データ統計値に基づき、リソース応答総時間を確定し、リソース応答総時間に基づき、各履歴ユーザのユーザフィードバックデータを確定することであってもよい。
【0055】
時間応答指標での応答行動データ統計値に基づいてユーザフィードバックデータの確定を行うことにより、履歴ユーザのリソース推奨モデルに対する時間粘度を側面から表すことができることが理解できる。これにより、後に時間粘度に関連するユーザフィードバックデータを用いてリソース推奨モデルの推奨ポリシーパラメータの確定を行うことにより、確定した推奨ポリシーパラメータがリソース推奨システムに作用される時、リソース推奨結果は時間応答指標により近づけることができる。
【0056】
例示的には、履歴ユーザによる1回のリフレッシュ総時間を時間応答指標とすることができる。それに対応し、履歴ユーザによる1回のリフレッシュ時のランディングページ時間とリストページ時間との和を、リソース応答総時間とする。リソース応答総時間に基づいてユーザフィードバックデータを確定する。例えば、直接リソース応答総時間をユーザフィードバックデータとする。
【0057】
リソース推奨システムにおいて、リソース応答総時間を導入することにより、ユーザによる1回のリフレッシュの時間を十分に長くし、対象ユーザのリソース推奨システムに関連するアプリケーションに対する使用粘性を高めることが理解できる。ここで、リソース推奨システムは、前述した異なるリソース処理段階が関連付けられた少なくとも2つのリソース推奨モデルで構築されたシステムである。
【0058】
別の具体的な実現形態において、トラフィック指標が少なくとも1つのインタラクション行動のインタラクション応答指標を含む場合、それに対応し、各トラフィック指標での応答行動データ統計値に基づき、ユーザフィードバックデータを確定することは、インタラクション応答指標での応答行動データ統計値に基づき、インタラクション応答データを確定し、インタラクション応答データに基づき、ユーザフィードバックデータを確定することであってもよい。ここで、インタラクション行動は、クリック、リフレッシュ、コメント、いいね、および共有等の行動のうちの少なくとも1種である。
【0059】
インタラクション応答指標での応答行動データ統計値に基づいて確定されたインタラクション応答データにより、履歴ユーザのリソース推奨システムに対するインタラクション状況を側面から表すことができ、該ユーザインタラクション状況に関連するユーザフィードバックデータに基づいてリソース推奨モデルの推奨ポリシーパラメータの確定を行うことにより、確定した推奨ポリシーパラメータがリソース推奨システムに作用される時、リソース推奨結果はインタラクション応答指標により近づけることができることが理解できる。
【0060】
例示的には、1回のリフレッシュ時のいいね数、共有数、コメント数量、およびクリック閲覧数のうちの少なくとも1種を、予め設定された式に基づいてインタラクション応答データを確定し、直接該インタラクション応答データをユーザフィードバックデータとすることができる。ここで、予め設定された式は各引数の単調増加式である。ここで、引数は、いいね数、共有数、コメント数量、およびクリック閲覧数等のパラメータを含んでもよいが、これらに限定されない。
【0061】
リソース推奨システムにおいて、インタラクション応答データを導入することにより、ユーザがリソース推奨システムに関連するアプリケーションを1回リフレッシュする時のアプリケーションのインタラクション回数を十分に多くし、ユーザの該アプリケーションに対するプリファレンス度を高めることが理解できる。
【0062】
更なる具体的な実現形態において、トラフィック指標は、時間応答指標およびインタラクション応答指標を含んでもよい(時間応答指標とインタラクション応答指標に一定の制約関係が存在する可能性があるため)。例えば、リソース推奨システムにおいて、リソース応答総時間を導入することでユーザによる1回のリフレッシュの時間が十分に長いことを確保し、システムが推奨した単一のリソースのリソース時間が長すぎる場合がある可能性がある。また、実際の推奨過程において、ユーザが実際に閲覧したリソース時間が、リソース推奨を行う時に推奨されたリソースの総時間と一致しない場合が更に存在し、例えば、ユーザが推奨されたリソース内の一部のリソースのみを閲覧し、または1つのリソース内の一部のコンテンツのみを閲覧するため、推奨結果とユーザの実際の閲覧結果との間の差は大きくなる。両者の両立を実現し、最終的に確定された推奨ポリシーパラメータをより合理的にし、ユーザの使用体験の向上に基礎を定めるために、各トラフィック指標での応答行動データ統計値に基づき、ユーザフィードバックデータを確定することは、時間応答指標での応答行動データ統計値に基づき、リソース応答総時間を確定し、時間補正量およびリソース応答総時間に基づき、各履歴ユーザのユーザフィードバックデータを確定し、時間補正量およびリソース応答総時間に基づき、各履歴ユーザのユーザフィードバックデータを確定することであってもよい。
【0063】
ここで、履歴応答時間は、リソース応答総時間の設定期間における平均レベルを表すことに用いられる。ここで、設定期間は、技術者により必要または経験値に応じて確定されてもよいし、大量の試験により繰り返し確定されてもよい。例えば、設定期間は、対象ユーザにリソースを推奨する前日に各履歴ユーザに推奨した各リソースのリソース応答総時間とリソース総数との比であってもよい。
【0064】
時間補正量を導入することにより、インタラクション応答指標と時間応答指標との両立を実現し、後に生成される推奨ポリシーパラメータをより合理的にし、リソース推奨システムの推奨性能の向上に基礎を定め、ユーザの使用体験の向上に保障を提供することが理解できる。
【0065】
例示的には、履歴ユーザが1回リフレッシュする時のランディングページ時間とリストページ時間との和をリソース応答総時間とし、少なくとも1種のインタラクション行動の統計回数とリソースページの平均時間との積を時間補正量とし、リソース応答総時間と時間補正量との和を確定し、該和をユーザフィードバックデータとして後続の推奨ポリシーパラメータの確定を導くために使用することができる。
【0066】
上記技術案の基に、ユーザフィードバックデータの多重化を容易にするために、ユーザフィードバックデータを、パラメータ確定機器のローカル、またはパラメータ確定機器に関連する他の記憶機器もしくはクラウドに予め記憶することができ、それに対応し、リソース推奨を行う時、パラメータ確定機器のローカル、パラメータ確定機器に関連する他の記憶機器もしくはクラウドからユーザフィードバックデータを取得し、更に、取得したユーザフィードバックデータに基づき、推奨ポリシーパラメータを確定する。
【0067】
本発明の実施例において、履歴ユーザの履歴リソース推奨結果に対する応答行動データ統計値を導入することでユーザフィードバックデータを確定し、ユーザフィードバックデータの確定メカニズムを改善する。それと同時に、トラフィック指標により応答行動データ統計値を限定することにより、確定されたユーザフィードバックデータはトラフィック指標ニーズを表すことができ、ユーザフィードバックデータに基づいて確定されたポリシー推奨パラメータにより、トラフィック指標ニーズと更にマッチングでき、確定された推奨ポリシーパラメータとリソース推奨システムとのマッチング度を向上させ、リソース推奨システムの推奨性能の向上に基礎を定め、ユーザの使用体験の向上に保障を提供する。
【0068】
上記各好ましい実施例における技術案は、リソース推奨方法の具体的な実現形態について詳細に説明した。理解しやすいために、以下の好ましい実施例は、リソース推奨方法に係るリソース推奨モデルにおける推奨ポリシーパラメータの具体的な確定過程について詳細に説明する。本実施例に係るパラメータ確定方法は、パラメータ確定装置により実行可能であり、該装置は、ソフトウェアおよび/またはハードウェアで実現され、且つ、パラメータ確定能力を持っている電子機器、即ち、具体的に、パラメータ確定機器に設けられている。なお、パラメータ確定機器は、前述したリソース推奨機器と同じまたは異なっている機器であってもよい。
【0069】
図2に示すパラメータ確定方法を参照し、パラメータ確定機器に適用され、以下のステップを含む。
【0070】
S201において、履歴ユーザの推奨行動データを確定する。
【0071】
ここで、履歴ユーザの推奨行動データは、リソースを履歴ユーザに推奨する時に依存する推奨参照特徴、履歴ユーザのリソース推奨結果、および履歴ユーザがリソース推奨結果に応答する時の行動データ等を含んでもよいが、これらに限定されない
【0072】
S202において、履歴ユーザの推奨行動データに基づき、少なくとも2つの推奨ポリシーパラメータを共同で確定し、推奨ポリシーパラメータは、少なくとも2つのリソース推奨モデルにおける使用パラメータであり、少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なっている。
【0073】
本発明の実施例に係る少なくとも2つのリソース推奨モデルは、リソース推奨システムを構成でき、異なるリソース処理段階のリソース推奨モデルをカスケード接続する方式によりリソースを対象ユーザに推奨することに用いられる。そのうちの1つのリソース推奨モデルは、推奨待ちリソースまたは前のカスケード接続されたリソース推奨モデルの出力結果に対してリソースを選択し、選択したリソースを後続のカスケード接続されたリソース推奨モデルの入力とする、またはリソース推奨結果として対象ユーザに表示することに用いられる。
【0074】
一実施例において、リソース推奨段階は、リソースリコール段階、リソース事前ランキング段階、リソースランキング段階、およびリソース再ランキング段階を含んでもよいが、これらに限定されない。それに対応し、リソース推奨モデルは、リソースリコールモデル、リソース事前ランキングモデル、リソースランキングモデル、およびリソース再ランキングモデルを含んでもよいが、これらに限定されない。なお、上記リソース推奨システムは、必要に応じてリソース推奨段階および対応するリソース推奨モデルを増加、削除または調整することができる。もちろん、実際のニーズに応じ、少なくとも1つのリソース処理段階を、少なくとも1つのサブ段階を含むように設定してもよく、例えば、リソース再ランキング段階は、候補リソース系列生成段階およびターゲットリソース系列生成段階等を含んでもよい。
【0075】
本発明の実施例において、各リソース推奨モデルでは、リソース推奨モデルの推奨結果を制約するための少なくとも1種の推奨ポリシーを用い、それに対応し、各推奨ポリシーには少なくとも1つの推奨ポリシーパラメータが含まれ、ここで、異なる推奨ポリシーパラメータは対応するリソース推奨モデルの推奨性能に影響を及ぼすことができる。
【0076】
1つの好ましい実施例において、推奨ポリシーは、リソース種類配合ポリシー、リソースコンテンツ多様化ポリシー、および多推奨指標均衡ポリシー等のポリシーを含んでもよいが、これらに限定されない。それに対応し、推奨ポリシーパラメータは、種類配合パラメータ、多様化重み調整パラメータ、および多推奨指標融合パラメータ等のパラメータを含んでもよいが、これらに限定されない。
【0077】
好ましくは、リソース種類配合ポリシーは、リソース推奨を行う時、少なくとも2タイプのリソースを総合的に推奨するポリシーを設定することにより、ユーザのリソース推奨結果に対する満足度を向上させるものと理解できる。例えば、情報フローを推奨する場合、イメージテキスト、ショートビデオ、およびスモールビデオ等のリソースを総合的に推奨する。それに対応し、リソース種類配合ポリシーにおける使用パラメータは、種類配合パラメータであってもよい。
【0078】
好ましくは、リソースコンテンツ多様化ポリシーは、リソース推奨を行う時、同じタイプのリソースが推奨されるリソースコンテンツの多様性を提供することを確保し、リソースコンテンツの単一による過剰適合の問題を回避し、同じタイプのリソースのカバー率を高め、更にユーザ体験の満足度を向上させるものと理解できる。それに対応し、リソースコンテンツ多様化ポリシーにおける使用パラメータは、多様化に使用される重み調整数式における多様化重み調整パラメータであってもよい。ここで、多様化重み調整パラメータは、同じタイプのリソースにおける異なるリソースコンテンツカテゴリの配合重みを設定することに用いられる。ここで、重み調整数式は、技術者により必要または経験に応じて確定されてもよいし、大量の試験により繰り返し確定されてもよい。
【0079】
好ましくは、多推奨指標均衡ポリシーとは、リソース推奨を行う時、異なるリソース推奨指標の要求をどのように満たすかのポリシーを意味する。例えば、推奨指標は、クリック率、ランディングページ時間、リストページ時間、コメントすること、いいねをクリックすること、および共有すること等のうちの少なくとも1種を含んでもよい。異なるリソース推奨指標の間に互いに制約することが存在する可能性があるため、多推奨指標の均衡を両立させる方式により、異なる推奨指標間の影響をバランスさせることができる。それに対応し、多推奨指標均衡ポリシーの使用パラメータは、多推奨指標の推奨時に採用される融合数式の多推奨指標の融合パラメータであってもよい。ここで、融合数式は、技術者により必要または経験に応じて確定されてもよいし、大量の試験により繰り返し確定されてもよい。
【0080】
本発明の実施例は、履歴ユーザの推奨行動データを確定し、履歴ユーザの推奨行動データに基づき、少なくとも2つの推奨ポリシーパラメータを共同で確定し、ここで、推奨ポリシーパラメータは、少なくとも2つのリソース推奨モデルにおける使用パラメータであり、少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なっている。上記技術案は、少なくとも2つのリソース推奨モデルにおける少なくとも2つの推奨ポリシーパラメータを共同で確定することにより、異なるリソース処理段階の各推奨ポリシーパラメータに対する動的確定および自動調整を実現し、人為的に設定されたパラメータが不正確でリソース推奨結果が良くないという問題を回避する。それと同時に、各推奨ポリシーパラメータの共同確定により、単一の推奨ポリシーパラメータが孤立して確定されるため、各推奨ポリシーパラメータがマッチングしないという問題を回避し、各推奨ポリシーパラメータ間の相互作用を両立させ、更に、リソース推奨結果の正確性、リソース推奨結果と対象ユーザとのマッチング度、およびユーザの満足度を向上させる。
【0081】
上記各技術案の基に、1つの好ましい実施例において、履歴ユーザの推奨行動データを、履歴ユーザの推奨参照特徴とユーザフィードバックデータとに細分化し、履歴ユーザの推奨参照特徴およびユーザフィードバックデータに基づき、推奨ポリシーパラメータを確定し、推奨ポリシーパラメータの確定メカニズムを改善する。
【0082】
図3に示すパラメータ確定方法を参照し、以下のステップを含む。
【0083】
S301において、履歴ユーザの推奨参照特徴およびユーザフィードバックデータを確定する。
【0084】
ここで、推奨参照特徴は、リソース推奨過程において依存する特徴データと理解できる。例示的には、推奨参照特徴は、シナリオ特徴、ユーザ基本特徴、およびユーザプリファレンス特徴等のうちの少なくとも1種を含んでもよいが、これらに限定されない。
【0085】
なお、ここで、パラメータ確定を行う時に採用される推奨参照特徴は、リソース推奨モデルに基づいてリソース推奨結果の確定を行うために採用される推奨参照特徴と一致する。
【0086】
例示的には、シナリオ特徴は、リソースを履歴ユーザに推奨する時のシナリオ状態のデータを表すことに用いられ、例えば、リフレッシュ回数、リフレッシュ状態、リフレッシュサイズ、ネットワーク状態、およびリフレッシュ期間等のうちの少なくとも1種を含んでもよい。推奨参照特徴にシナリオ特徴を導入することにより、後に確定される推奨ポリシーパラメータがリソース推奨モデルに作用される時、リソース推奨モデルは、シナリオによって異なる推奨待ちリソースを対象ユーザに推奨する能力を持ち、シナリオに基づく個人化推奨の目的を達成することが理解できる。
【0087】
例示的には、ユーザ基本特徴は、ユーザ自身の基本属性を表すことに用いられ、例えば、ユーザの性別、年齢、教育程度、ユーザの活発度、およびユーザの履歴いいね率等のうちの少なくとも1種を含んでもよい。推奨参照特徴にユーザ特徴を導入することにより、後に確定される推奨ポリシーパラメータがリソース推奨モデルに作用される時、リソース推奨モデルは、対象ユーザに基づいて個人化推奨する能力を持ち、リソース推奨結果と対象ユーザ自身とのマッチング度を向上させ、更にユーザの満足度を向上させることが理解できる。
【0088】
例示的には、ユーザプリファレンス特徴は、異なるタイプリソースにおける異なる種類リソースコンテンツに対する対象ユーザのプリファレンス程度等を表すことに用いられる。推奨参照特徴にユーザプリファレンス特徴を導入することにより、後に確定される推奨ポリシーパラメータがリソース推奨モデルに作用される時、リソース推奨モデルは、対象ユーザに興味を持っているコンテンツを推奨する能力を持ち、更にユーザの満足度を向上させることが理解できる。
【0089】
好ましくは、履歴ユーザの推奨参照特徴は、電子機器のローカル、電子機器に関連する他の記憶機器もしくはクラウドに予め記憶されてもよい。それに対応し、パラメータ確定を行う必要がある場合、電子機器のローカル、電子機器に関連する他の記憶機器もしくはクラウドから、履歴ユーザの標識情報に基づいて履歴ユーザの推奨参照特徴を取得する。
【0090】
または、好ましくは、推奨参考データを電子機器のローカル、電子機器に関連する他の記憶機器もしくはクラウドに予め記憶してもよい。それに対応し、リソース推奨を行う必要がある場合、電子機器のローカル、電子機器に関連する他の記憶機器もしくはクラウドから、履歴ユーザの標識情報に基づいて履歴ユーザの推奨参考データを読み取り、推奨参考データに対して特徴抽出を行い、構造化表示された推奨参照特徴を生成する。ここで、推奨参照特徴は、シナリオ特徴、ユーザ基本特徴、およびユーザプリファレンス特徴等のデータを含んでもよいが、これらに限定されない。
【0091】
ここで、ユーザフィードバックデータは、履歴ユーザがリソース推奨結果に応答して生成したデータと理解できる。
【0092】
例示的には、ユーザフィードバックデータは、リソース推奨機器またはパラメータ確定機器により、リソース推奨モデルに使用される指標であるトラフィック指標での履歴ユーザの履歴リソース推奨結果に対する応答行動データ統計値を確定することと、各トラフィック指標での応答行動データ統計値に基づいてユーザフィードバックデータを確定することにより確定できる。
【0093】
ここで、トラフィック指標は、リソース推奨を行う時、満たす必要のある推奨指標ニーズと理解できる。例示的には、トラフィック指標は、クリック率、ランディングページ時間、リストページ時間、コメント数量、いいね数、および共有数等のうちの少なくとも1種を含む推奨指標であってもよいし、上記少なくとも1種のパラメータに基づいて推奨指標の確定を行うことであってもよい。
【0094】
好ましくは、トラフィック指標は、リソース推奨システムの応答時間、またはリソース推奨システムと履歴ユーザとの間のインタラクション時間を表すための時間応答指標を含んでもよい。
【0095】
好ましくは、トラフィック指標は、リソース推奨システムがリソース推奨を行った後の履歴ユーザのリソース推奨結果に対するインタラクション状況を表すためのインタラクション行動のインタラクション応答指標を含んでもよい。
【0096】
もちろん、上記は、トラフィック指標に含まれているコンテンツを例示的に説明したものに過ぎず、トラフィック指標は、リソース推奨システムの実際のトラフィックニーズに応じて他の指標パラメータとして確定されてもよく、ここでは説明を省略する。
【0097】
例示的には、応答行動データ統計値は、時間応答データに対する時間累積値を含んでもよく、または、好ましくは、応答行動データ統計値は、インタラクション応答データの頻度パラメータに対する頻度累積値を含んでもよい。
【0098】
1つの具体的な実現形態において、トラフィック指標が時間応答指標を含む場合、それに対応し、各トラフィック指標での応答行動データ統計値に基づき、ユーザフィードバックデータを確定することは、時間応答指標での応答行動データ統計値に基づき、リソース応答総時間を確定し、リソース応答総時間に基づき、各履歴ユーザのユーザフィードバックデータを確定することであってもよい。
【0099】
時間応答指標での応答行動データ統計値に基づいてユーザフィードバックデータの確定を行うことにより、履歴ユーザのリソース推奨モデルに対する時間粘度を側面から表すことができることが理解できる。これにより、後に時間粘度に関連するユーザフィードバックデータを用いてリソース推奨モデルの推奨ポリシーパラメータの確定を行うことにより、確定した推奨ポリシーパラメータがリソース推奨システムに作用される時、リソース推奨結果は時間応答指標により近づけることができる。
【0100】
例示的には、履歴ユーザによる1回のリフレッシュ総時間を時間応答指標とすることができる。それに対応し、履歴ユーザによる1回のリフレッシュ時のランディングページ時間とリストページ時間との和を、リソース応答総時間とし、リソース応答総時間に基づいてユーザフィードバックデータを確定する。例えば、直接リソース応答総時間をユーザフィードバックデータとする。
【0101】
リソース推奨システムにおいて、リソース応答総時間を導入することにより、ユーザによる1回のリフレッシュの時間を十分に長くし、対象ユーザのリソース推奨システムに関連するアプリケーションに対する使用粘性を高めることが理解できる。ここで、リソース推奨システムは、前述した異なるリソース処理段階が関連付けられた少なくとも2つのリソース推奨モデルで構築されたシステムである。
【0102】
別の具体的な実現形態において、トラフィック指標が少なくとも1つのインタラクション行動のインタラクション応答指標を含む場合、それに対応し、各トラフィック指標での応答行動データ統計値に基づき、ユーザフィードバックデータを確定することは、インタラクション応答指標での応答行動データ統計値に基づき、インタラクション応答データを確定し、インタラクション応答データに基づき、ユーザフィードバックデータを確定することであってもよい。ここで、インタラクション行動は、クリック、リフレッシュ、コメント、いいね、および共有等の行動のうちの少なくとも1種である。
【0103】
インタラクション応答指標での応答行動データ統計値に基づいて確定されたインタラクション応答データにより、履歴ユーザのリソース推奨システムに対するインタラクション状況を側面から表すことができ、該ユーザインタラクション状況に関連するユーザフィードバックデータに基づいてリソース推奨モデルの推奨ポリシーパラメータの確定を行うことにより、確定した推奨ポリシーパラメータがリソース推奨システムに作用される時、リソース推奨結果はインタラクション応答指標により近づけることができることが理解できる。
【0104】
例示的には、1回のリフレッシュ時のいいね数、共有数、コメント数量、およびクリック閲覧数のうちの少なくとも1種を、予め設定された式に基づいてインタラクション応答データを確定し、直接該インタラクション応答データをユーザフィードバックデータとすることができる。ここで、予め設定された式は各引数の単調増加式である。ここで、引数は、いいね数、共有数、コメント数量、およびクリック閲覧数等のパラメータを含んでもよいが、これらに限定されない。
【0105】
リソース推奨システムにおいて、インタラクション応答データを導入することにより、ユーザがリソース推奨システムに関連するアプリケーションを1回リフレッシュする時のアプリケーションのインタラクション回数を十分に多くし、ユーザの該アプリケーションに対するプリファレンス度を高めることが理解できる。
【0106】
更なる具体的な実現形態において、トラフィック指標は、時間応答指標およびインタラクション応答指標を含んでもよい(時間応答指標とインタラクション応答指標に一定の制約関係が存在する可能性があるため)。例えば、リソース推奨システムにおいて、リソース応答総時間を導入することでユーザによる1回のリフレッシュの時間が十分に長いことを確保し、システムが推奨した単一のリソースのリソース時間が長すぎる場合がある可能性がある。一方、インタラクション応答データを導入することでユーザによる1回のリフレッシュ時のインタラクション回数が十分に多いことを確保し、システムが推奨した単位リソースの時間が短すぎる場合が存在する可能性がある。また、実際の推奨過程において、ユーザが実際に閲覧したリソース時間が、リソース推奨を行う時に推奨されたリソースの総時間と一致しない場合が更に存在し、例えば、ユーザが推奨されたリソース内の一部のリソースのみを閲覧し、または1つのリソース内の一部のコンテンツのみを閲覧するため、推奨結果とユーザの実際の閲覧結果との間の差は大きくなる。両者の両立を実現し、最終的に確定された推奨ポリシーパラメータをより合理的にし、ユーザの使用体験の向上に基礎を定めるために、各トラフィック指標での応答行動データ統計値に基づき、ユーザフィードバックデータを確定することは、時間応答指標での応答行動データ統計値に基づき、リソース応答総時間を確定し、時間補正量およびリソース応答総時間に基づき、各履歴ユーザのユーザフィードバックデータを確定し、時間補正量およびリソース応答総時間に基づき、各履歴ユーザのユーザフィードバックデータを確定することであってもよい。
【0107】
ここで、履歴応答時間は、リソース応答総時間の設定期間における平均レベルを表すことに用いられる。ここで、設定期間は、技術者により必要または経験値に応じて確定されてもよいし、大量の試験により繰り返し確定されてもよい。例えば、設定期間は、対象ユーザにリソースを推奨する前日に各履歴ユーザに推奨した各リソースのリソース応答総時間とリソース総数との比であってもよい。
【0108】
時間補正量を導入することにより、インタラクション応答指標と時間応答指標との両立を実現し、後に生成される推奨ポリシーパラメータをより合理的にし、リソース推奨システムの推奨性能の向上に基礎を定め、ユーザの使用体験の向上に保障を提供することが理解できる。
【0109】
例示的には、履歴ユーザが1回リフレッシュする時のランディングページ時間とリストページ時間との和をリソース応答総時間とし、少なくとも1種のインタラクション行動の統計回数とリソースページの平均時間との積を時間補正量とし、リソース応答総時間と時間補正量との和を確定し、該和をユーザフィードバックデータとして後続の推奨ポリシーパラメータの確定を導くために使用することができる。
【0110】
上記技術案の基に、ユーザフィードバックデータの多重化を容易にするために、ユーザフィードバックデータを、パラメータ確定機器のローカル、またはパラメータ確定機器に関連する他の記憶機器もしくはクラウドに予め記憶することができ、それに対応し、リソース推奨を行う時、パラメータ確定機器のローカル、パラメータ確定機器に関連する他の記憶機器もしくはクラウドからユーザフィードバックデータを取得し、更に、取得したユーザフィードバックデータに基づき、推奨ポリシーパラメータを確定する。
【0111】
なお、上記技術案は、履歴ユーザの履歴リソース推奨結果に対する応答行動データ統計値を導入することでユーザフィードバックデータを確定し、ユーザフィードバックデータの確定メカニズムを改善する。それと同時に、トラフィック指標により応答行動データ統計値を限定することにより、確定されたユーザフィードバックデータはトラフィック指標ニーズを表すことができ、ユーザフィードバックデータに基づいて確定されたポリシー推奨パラメータにより、トラフィック指標ニーズと更にマッチングでき、確定された推奨ポリシーパラメータとリソース推奨システムとのマッチング度を向上させ、リソース推奨システムの推奨性能の向上に基礎を定め、ユーザの使用体験の向上に保障を提供する。
【0112】
S302において、ユーザフィードバックデータに基づき、パラメータ最適化モデルにおけるネットワークパラメータを調整する。
【0113】
ここで、パラメータ最適化モデルは、進化的学習アルゴリズムに基づいて実現され、更に、他のアルゴリズムで実現されてもよく、本発明の実施例はこれについて限定しない。
【0114】
なお、ESアルゴリズムが進化ポリシーに属しているため、自然界の進化をシミュレートすることによりグローバル最適化を行い、ダーウィンの自然淘汰、適者生存の進化理論に従う。従って、ESアルゴリズムに基づいて実現されたパラメータ最適化モデルで推奨ポリシーパラメータの確定を行う場合、ユーザフィードバックデータのみに依存し、誤差の逆伝搬に依存せず、多段階のマルチポリシーを含むリソース推奨モデルにおける各推奨ポリシーパラメータの最適化過程に適用され、それと同時に、ESアルゴリズムを用いる計算は簡単で効率的であり、高度に並列化でき、リソース損失が小さいため、更に推奨ポリシーパラメータの確定効率を高めることができる。従って、1つの好ましい実施例において、ESアルゴリズムに基づいて実現されたパラメータ最適化モデルを用いて推奨ポリシーパラメータの確定を行うことができる。
【0115】
本発明の実施例の1つの好ましい実施形態において、ユーザフィードバックデータに基づき、パラメータ最適化モデルにおけるネットワークパラメータを調整することは、履歴ユーザのアカウント情報および時間情報に基づき、外乱データセットを生成し、ユーザフィードバックデータおよび外乱データセットに基づき、パラメータ調整ステップサイズを確定し、パラメータ調整ステップサイズに基づき、パラメータ最適化モデルにおけるネットワークパラメータを調整することであってもよい。
【0116】
ここで、アカウント情報は、履歴ユーザのリソース推奨システムにおけるユーザの身分を一意に表すためのログインアカウントであってもよい。ここで、時間情報は、履歴ユーザがリソース推奨システムを使用する期間を表すことに用いられる。ここで、時間情報の計量単位は、技術者が必要に応じて設定でき、例えば、時間を最小計量単位として使用することができる。
【0117】
1つの好ましい実施形態において、履歴ユーザのアカウント情報および時間情報に基づき、外乱データセットを生成することは、履歴ユーザのアカウント情報および時間情報をハッシュ演算し、乱数シードを取得し、分布関数を用いて乱数シードに基づいて外乱データセットを生成することであってもよい。ここで、外乱データセット内の外乱データ数は、推奨ポリシーパラメータにおける数と同じであり、異なる推奨ポリシーパラメータにおけるランダム外乱量を表すことに用いられる。ここで、分布関数は、技術者により必要または経験値に応じて確定されてもよいし、大量の試験により繰り返し確定されてもよい。例示的には、分布関数はガウス分布関数であってもよい。
【0118】
なお、リソース推奨システムが対象性および時効性を備えるため、例えば、異なるユーザに対して推奨するリソースコンテンツが異なり、同じユーザに対して同じ期間内で推奨するリソースコンテンツが類似し、同じユーザに対して異なる期間で推奨するリソースコンテンツも異なる。従って、外乱データセットを生成する際に履歴ユーザのアカウント情報および時間情報を導入し、生成された乱数シードは、同じユーザに対して同じ期間で数値が同じであり、異なるユーザに対して同じ期間で数値が異なり、同じユーザに対して異なる期間で異なり、更に、乱数シードに基づいて生成された外乱データセットは、リソース推奨システムにより適合することができる。
【0119】
乱数シードに対する多重化を実現するために、各履歴ユーザに対して異なる期間の乱数シードを実現した後、更に、乱数シードを含むデータを記憶して後続の使用に備えてもよいことが理解できる。
【0120】
好ましくは、履歴ユーザのログインアカウント、アカウントのログイン日および時間をハッシュ計算し、乱数シードを取得し、ガウス分布関数を用いて乱数シードに基づいて外乱データセットを生成する。
【0121】
1つの好ましい実施例において、ユーザフィードバックデータおよび外乱データセットに基づき、パラメータ調節ステップを確定することは、外乱データセットに基づき、初期パラメータ調整ステップサイズを確定し、ユーザフィードバックデータに基づき、初期調整ステップサイズを補正し、最終的なパラメータ調整ステップサイズを取得することであってもよい。
【0122】
別の好ましい実施例において、ユーザフィードバックデータおよび外乱データセットに基づき、パラメータ調整ステップサイズを確定することは、ユーザフィードバックデータに基づき、外乱データセット内の各外乱データを重み付け、外乱増加データを取得し、外乱増加データに基づいてパラメータ調整ステップサイズを確定することであってもよい。
【0123】
外乱データセットを導入することによりパラメータ調整ステップサイズの確定を行い、ユーザフィードバックデータを導入することにより各推奨ポリシーパラメータに対応する外乱量を補強するかまたは弱めることで、最終的に確定された外乱増加データは、リソース推奨システムの現在採用している推奨ポリシーパラメータの状況に更に適合し、後に外乱増加データに基づいて確定されたパラメータ調整ステップサイズの正確度および合理性に基礎を定めることが理解できる。
【0124】
好ましくは、ユーザフィードバックデータに基づき、外乱データセット内の各外乱データを重み付け、外乱増加データを取得することは、履歴ユーザの履歴フィードバックデータに基づき、ユーザフィードバックデータを標準化処理し、ユーザフィードバックデータを更新することと、更新後のユーザフィードバックデータに基づき、外乱データセット内の各外乱データを重み付け、外乱増加データを取得することとを含む。
【0125】
例示的には、履歴ユーザの履歴フィードバックデータに基づき、ユーザフィードバックデータを標準化処理し、ユーザフィードバックデータを更新することは、各履歴フィードバックユーザに対し、該履歴フィードバックユーザの履歴フィードバックデータに基づき、該履歴フィードバックユーザの履歴フィードバック統計値を確定し、履歴フィードバック統計値に基づき、履歴フィードバックユーザのユーザフィードバックデータを標準化処理し、ユーザフィードバックデータを更新することであってもよい。
【0126】
例示的には、履歴ユーザの履歴フィードバックデータに基づき、ユーザフィードバックデータを標準化処理し、ユーザフィードバックデータを更新することは、更に、各履歴フィードバックユーザに対し、該履歴フィードバックユーザの履歴フィードバックデータに基づき、履歴フィードバックユーザの現在期間のフィードバック予測値を確定し、フィードバック予測値に基づき、履歴フィードバックユーザのユーザフィードバックデータを標準化処理し、ユーザフィードバックデータを更新することであってもよい。
【0127】
例示的には、履歴ユーザの履歴フィードバックデータに基づき、ユーザフィードバックデータを標準化処理し、ユーザフィードバックデータを更新することは、更に、各履歴フィードバックユーザに対し、該履歴フィードバックユーザの履歴フィードバックデータに基づき、該履歴フィードバックユーザの標準フィードバックデータを確定し、ユーザフィードバックデータと標準フィードバックデータとの差分値を確定し、該差分値を更新後のユーザフィードバックデータとすることであってもよい。ここで、標準フィードバックデータは、履歴フィードバック統計値における平均値またはフィードバック予測値であってもよい。
【0128】
例示的には、履歴ユーザの履歴フィードバックデータに基づき、ユーザフィードバックデータを標準化処理し、ユーザフィードバックデータを更新することは、更に、各履歴フィードバックユーザに対し、該履歴フィードバックユーザの履歴フィードバックデータに基づき、該履歴フィードバックユーザの標準フィードバックデータを確定し、ユーザフィードバックデータと標準フィードバックデータとの差分値を確定し、確定した差分値と対応する標準フィードバックデータとの比を確定し、該比を更新後のユーザフィードバックデータとすることであってもよい。ここで、標準フィードバックデータは、履歴フィードバック統計値における平均値またはフィードバック予測値であってもよい。
【0129】
もちろん、本発明の実施例は、従来技術における他の方式を用いてユーザフィードバックデータを標準化処理することもでき、ここでは説明を省略する。
【0130】
なお、ユーザフィードバックデータを標準化処理することにより、異なるフィードバックユーザ自身とリソース推奨システムとの間の緊密さによりユーザフィードバックデータの差が明らかになることを解消し、異常に活躍なユーザおよび異常に失活したユーザのユーザフィードバックデータが外乱増加データの正確度に影響を与え、ひいては各推奨ポリシーパラメータの最終的な確定の正確度に影響を与えることを回避する。ここで、履歴フィードバック統計値は、最大値、最小値、平均値、分散、および標準偏差等のうちの少なくとも1種を含んでもよい。
【0131】
一実施例において、確定されたパラメータ調節ステップは、調整幅と調整方向とを含む。ここで、調整幅は、パラメータ最適化モデルにおけるネットワークパラメータを調整する数値の大きさを表すことに用いられ、調整方向は、パラメータ最適化モデルにおけるネットワークパラメータを正方向調整するか負方向調整するかを表す。一般的には、正負の符号により調整方向を区別する。
【0132】
例示的には、パラメータ調節ステップに基づき、パラメータ最適化モデルにおけるネットワークパラメータを調整することは、パラメータ調節ステップとパラメータ最適化モデルで最も新しく使用されるネットワークパラメータとの和を確定し、確定した和を新たなネットワークパラメータとすることであってもよい。
【0133】
履歴ユーザのアカウント情報および時間情報により、パラメータ調節ステップの確定を行うための外乱データセットを生成し、更に、パラメータ調節ステップに基づいてパラメータ最適化モデルのネットワークパラメータの調整を行い、ネットワークパラメータの調整方式を改善し、推奨ポリシーパラメータの生成にデータサポートを提供するとともに、推奨ポリシーパラメータとリソース推奨システムとのマッチング度の向上に基礎を定めることが理解できる。
【0134】
S303において、履歴ユーザの推奨参照特徴を調整されたパラメータ最適化モデルに入力し、少なくとも2つの推奨ポリシーパラメータを取得する。ここで、推奨ポリシーパラメータは、少なくとも2つのリソース推奨モデルにおける使用パラメータであり、少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なっている。
【0135】
ここで、パラメータ最適化モデルは、推奨ポリシーパラメータを確定することに用いられる。ここで、パラメータ最適化モデルのモデル入力データは、履歴ユーザの推奨参照特徴であり、モデル出力データは、リソース推奨モデルにおける各推奨ポリシーパラメータである。ここで、推奨参照特徴は、シナリオ特徴、ユーザ基本特徴、およびユーザプリファレンス特徴を含んでもよいが、これらに限定されない。推奨ポリシーパラメータとリソース推奨モデルとのマッチング度を確保するために、パラメータを確定する時に採用する履歴ユーザの推奨参照特徴は、リソースを推奨する時にリソース推奨モデルが採用する対象ユーザの推奨参照特徴に含まれるデータに対応し、即ち、データタイプが一致することが好ましい。
【0136】
具体的には、履歴ユーザの推奨参照特徴を調整されたパラメータ最適化モデルに入力し、リソース推奨モデルに作用してリソースを対象ユーザに推奨するための新たな各推奨ポリシーパラメータを取得する。それに対応し、対象ユーザのリソース推奨結果に対するフィードバック状況を取得し、該フィードバック状況に基づいてユーザフィードバックデータを確定し、後続のパラメータ最適化モデルのネットワークパラメータに対する調整過程を導き、モデルのトレーニングカットオフ条件を満たすまで循環往復し、リソース推奨モデルとのマッチング度が高い推奨ポリシーパラメータを次第に取得する。
【0137】
本発明の実施例の好ましい実施形態において、モデルのトレーニングカットオフ条件は、設定されたトレーニング回数に達すること、またはパラメータ最適化モデルが安定することであってもよい。
【0138】
なお、リソース推奨システムがリソース推奨を行う時、リソース自身の性能または推奨環境等の多くの要素によって影響される可能性があるため、パラメータ最適化モデル自身が安定した後にも、再び波動する状況が発生する可能性があり、これにより、対応するパラメータ最適化モデルが確定した推奨ポリシーパラメータとリソース推奨システムにおける各リソース推奨モデルとの間のマッチング度も低下する。
【0139】
上記状況がリソース推奨モデルの推奨性能に与える影響を軽減し、更にユーザのリソース推奨結果に対する満足度を高めるために、パラメータ最適化モデルが安定した後、パラメータ最適化モデルをトレーニングし続けてもよい。トレーニング過程において、まず、パラメータ最適化モデルの安定状況を確定し、パラメータ最適化モデルの波動状況が設定閾値よりも大きければ、パラメータ最適化モデルが不安定であることを表し、従って、パラメータ最適化モデルのネットワークパラメータの調整を続け、且つ、調整したパラメータ最適化モデルに基づいて推奨ポリシーパラメータを再確定して使用する必要がある。パラメータ最適化モデル波動状況が設定閾値以下であれば、パラメータ最適化モデルが相対的に安定することを表し、従って、元のネットワークパラメータを保持し、元のパラメータ最適化モデルに基づいて推奨ポリシーパラメータを再確定して使用する。または、好ましくは、パラメータ最適化モデルを周期的に初期化することができ、即ち、パラメータ最適化モデルの使用周期に達した後、パラメータ最適化モデルにおける少なくとも一部のネットワークパラメータを初期化し、その後、初期化したパラメータ最適化モデルを対応する使用周期で再トレーニングする。ここで、設定閾値および使用周期は、技術者により必要または経験値に応じて確定されてもよいし、大量の試験により繰り返し確定されてもよい。
【0140】
本発明の実施例は、パラメータ確定モデルを導入することにより推奨ポリシーパラメータの確定を行い、各推奨ポリシーパラメータの同時最適化を実現し、単一のリソース処理段階の単一の推奨ポリシーパラメータの最適化を必要とせず、パラメータ最適化過程のデータ演算量を減少し、推奨ポリシーパラメータの確定効率を高め、リソース推奨モデルにおける各推奨ポリシーパラメータのオンラインリアルタイム更新に可能性を提供する。また、同時最適化過程で異なる推奨ポリシーパラメータ間の相互作用を総合的に考慮し、単一の推奨ポリシーパラメータの確定を孤立して行う時に推奨ポリシーパラメータが互いに制約してリソース推奨システムが不安定となることを回避する。それと同時に、履歴ユーザのユーザフィードバックデータを導入することによりパラメータ最適化モデルのトレーニング過程を指導することで、パラメータ最適化モデルの出力結果は、推奨ポリシーパラメータの物理的意義を備え、推奨ポリシーパラメータの同時最適化に基礎を定める。また、履歴フィードバックユーザの推奨参照特徴に応じて推奨ポリシーパラメータの確定を行うことで、推奨ポリシーパラメータの確定過程に使用されるデータを、リソース推奨モデルがリソース推奨を行う時に使用されるデータに適応させ、最終的に確定された推奨ポリシーパラメータとリソース推奨モデルとのマッチング度を向上させる。
【0141】
本発明の実施例は、上記各技術案の基に、1つの好ましい実施例を更に提供する。本実施例の技術案を明確に説明するために、まず、本発明の実施例に係るリソース推奨システムを詳細に説明する。
【0142】
図4Aに示すリソース推奨システムを参照し、オンライン推奨システム100とオンライン進化システム200とを含み、ここで、オンライン推奨システム100には、少なくとも2つのカスケード接続されたリソース推奨モデルが設けられ、各リソース推奨モデルのリソース処理段階は異なっている。ここで、各リソース処理段階は、処理待ちリソースを選択し、最終的に選択した処理待ちリソースをリソース推奨結果として対象ユーザにフィードバックすることに用いられる。ここで、最初のリソース推奨モデルの処理待ちリソースは、リコール待ちリソースであり、最後のリソース推奨モデルの選択結果は、対象ユーザのリソース推奨結果である。ここで、オンライン進化システム200には、ESアルゴリズムに基づいて実現されるパラメータ最適化モデルが設けられ、履歴ユーザのリソース推奨結果に対するユーザフィードバックデータに基づいてリソース推奨モデルグループで採用される推奨ポリシーにおける推奨ポリシーパラメータを共同で確定し、確定した推奨ポリシーパラメータを、オンライン推奨システムに設けられた各リソース推奨モデルに作用し、リソースを新たな対象ユーザに推奨することに用いられる。
【0143】
図4Bに示すオンライン推奨システムのフレームの構造模式図を参照し、該オンライン推奨システムは、1つの漏斗状アーキテクチャであり、リソースリコール段階、リソース事前ランキング段階、リソースランキング段階、およびリソース再ランキング段階という4つのリソース処理段階を含む。それに対応し、リソース推奨モデルは、リソースリコールモデル、リソース事前ランキングモデル、リソースランキングモデル、およびリソース再ランキングモデルを含む。ここで、各リソース処理段階は、必要に応じて少なくとも1つのサブ段階を設けすることができる。例えば、リソース再ランキング段階は、候補リソース系列生成サブ段階およびターゲットリソース系列生成サブ段階を含むように構成されてもよい。
【0144】
上記各リソース処理段階のリソース推奨モデルにおいて、リソース推奨過程を制約するための少なくとも1種の推奨ポリシーを採用する。ここで、推奨ポリシーは、リソース種類配合ポリシー、リソースコンテンツ多様化ポリシー、および多推奨指標均衡ポリシーを含んでもよいが、これらに限定されない。
【0145】
ここで、リソース種類配合ポリシーは、リソース推奨を行う時、少なくとも2タイプのリソースを総合的に推奨するポリシーを設定することにより、ユーザのリソース推奨結果に対する満足度を向上させるものと理解できる。例えば、情報フローを推奨する場合、イメージテキスト、ショートビデオ、およびスモールビデオ等のリソースを総合的に推奨する。それに対応し、リソース種類配合ポリシーにおける使用パラメータは、リソース配合パラメータであってもよい。
【0146】
ここで、リソースコンテンツ多様化ポリシーは、リソース推奨を行う時、同じタイプのリソースが推奨されるリソースコンテンツの多様性を提供することを確保し、リソースコンテンツの単一による過剰適合の問題を回避するとともに、同じタイプのリソースのカバー率を高め、更にユーザ体験の満足度を向上させるものと理解できる。それに対応し、リソースコンテンツ多様化ポリシーにおける使用パラメータは、多様化に使用される重み調整数式における多様化重み調整パラメータであってもよい。ここで、重み調整パラメータは、同じタイプのリソースにおける異なるリソースコンテンツカテゴリの配合重みを設定することに用いられる。ここで、重み調整数式は、技術者により必要または経験に応じて確定されてもよいし、大量の試験により繰り返し確定されてもよい。
【0147】
ここで、多推奨指標均衡ポリシーとは、リソース推奨を行う時、異なるリソース推奨指標の要求をどのように満たすかのポリシーを意味する。例えば、推奨指標は、クリック率、ランディングページ時間、リストページ時間、コメントすること、いいねをクリックすること、および共有すること等のうちの少なくとも1種を含んでもよい。異なるリソース推奨指標の間に互いに制約することが存在する可能性があるため、多推奨指標の均衡を両立させる方式により、異なる推奨指標間の影響をバランスさせることができる。それに対応し、多推奨指標均衡ポリシーの使用パラメータは、多推奨指標の推奨時に採用される融合数式の多推奨指標の融合パラメータであってもよい。ここで、融合数式は、技術者により必要または経験に応じて確定されてもよいし、大量の試験により繰り返し確定されてもよい。
【0148】
図4Cに示すパラメータ最適化モデルの構造模式図を参照し、該パラメータ最適化モデルは、ES学習アルゴリズムに基づいて構築されたDNN(Deep Neural Networks、ディープニューラルネットワーク)モデルであり、入力層、隠れ層、および出力層を備える。ここで、入力層は、履歴ユーザのシナリオ特徴、ユーザ基本特徴、およびユーザプリファレンス特徴を入力し、履歴ユーザのシナリオ特徴、ユーザ基本特徴、およびユーザプリファレンス特徴を含む推奨参照特徴を隠れ層に入力して処理することに用いられる。隠れ層は、履歴ユーザの推奨参照特徴の各特徴を処理することに用いられる。出力層は、隠れ層の出力データに基づいてオンライン推奨システムにおける各リソース推奨モデルの推奨ポリシーパラメータを確定することに用いられる。
【0149】
ここで、シナリオ特徴は、リフレッシュ回数、リフレッシュ状態、リフレッシュサイズ、ネットワーク状態、およびリフレッシュ期間等を含んでもよいが、これらに限定されない。ユーザ基本特徴は、対象ユーザの性別、年齢、教育程度、ユーザの活発度、ユーザの履歴いいね率、およびユーザのリソースプリファレンス等を含んでもよいが、これらに限定されない。ユーザプリファレンス特徴は、異なるタイプリソースにおける異なる種類リソースコンテンツに対する対象ユーザのプリファレンス程度等を含んでもよいが、これらに限定されない。
【0150】
後に、図4A図4Cの基に、本実施例におけるリソース推奨方法について詳細に説明する。
【0151】
図4Dに示すリソース推奨方法は、
S410、ユーザフィードバックデータ確定段階、
S420、外乱データ生成段階、
S430、ネットワークパラメータ進化段階、
S440、リソース推奨段階、
を含む。
【0152】
例示的には、ユーザフィードバックデータ確定段階は、以下のステップを含む。
【0153】
S411において、前回生成された推奨ポリシーパラメータをオンライン推奨システムに作用した後の履歴ユーザによる1回のリフレッシュのランディングページ時間、リストページ時間、およびクリック数を取得する。
【0154】
S412において、各履歴ユーザに対し、リソースのページ当たりの時間とクリック数との積を確定し、該積とランディングページ時間とリストページ時間との和をユーザフィードバックデータとする。
【0155】
具体的には、以下の式によりユーザフィードバックデータを確定する。
【0156】
[式1]
Reward=Sum(ランディングページ時間+リストページ時間)+リソースのページ当たりの時間*クリック数
(ただし、Rewardは、フィードバックユーザの現在期間における1回のリフレッシュに対応するユーザフィードバックデータであり、Sum()は合計の数式であり、リソースのページ当たりの時間は、推奨システムが前日の一日中に推奨したリソースの総時間の平均値である。)
【0157】
S413において、各履歴ユーザのユーザフィードバックデータと該履歴ユーザのフィードバックデータ予測値との差分値を確定し、該差分値を新たなユーザフィードバックデータとする。
【0158】
ここで、フィードバックデータ予測値は、履歴ユーザの履歴期間におけるフィードバックデータにより現在期間のユーザフィードバック状況を予測する予測結果と理解できる。
【0159】
具体的には、以下の式によりユーザフィードバックデータを更新する。
【0160】
[式2]
△Reward=Reward-re_base
(ただし、Rewardは、フィードバックユーザの現在期間におけるユーザフィードバックデータであり、re_baseは、フィードバックユーザの現在期間におけるフィードバックデータ予測値であり、△Rewardは、フィードバックユーザの現在期間における更新後のユーザフィードバックデータである。)
【0161】
例示的には、外乱データ生成段階は、以下のステップを含む。
【0162】
S421において、履歴ユーザのログインアカウントおよびログイン時間をハッシュ計算し、乱数シードを生成する。
【0163】
S422において、乱数シードに基づき、ガウス分布関数を用いてネットワークパラメータにマッチングする外乱データセットを生成する。
【0164】
ここで、外乱データセットに含まれる外乱データの数は、ネットワークパラメータの数と同じであり、各ネットワークパラメータは外乱データと1対1で対応する。
【0165】
例示的には、ネットワークパラメータ進化段階は、以下のステップを含む。
【0166】
S431において、外乱データセット内の各外乱データと、対応するパラメータ最適化モデルの前回の反復のネットワークパラメータとの和を確定し、新たなネットワークパラメータを取得する。
【0167】
例示的には、以下の式を用いて新たなネットワークパラメータを確定する。
【0168】
[式3]
’=w+e
(ただし、wは、パラメータ最適化モデルにおけるi個目のネットワークパラメータであり、eは、外乱データセット内のi個目のネットワークパラメータに対応する外乱データであり、w’は、i個目のネットワークパラメータに対応する新たなネットワークパラメータである。)
【0169】
S432において、新たなユーザフィードバックデータにより、外乱データセット内の各外乱データセットを重み付け、外乱増加データを取得する。
【0170】
例示的には、以下の式を用いて外乱増加データを確定する。
【0171】
[式4]
Step_list=append(ei*△Reward)
(ただし、Step_listは、外乱増加データで形成された配列であり、該配列の長さは、外乱データ数とユーザフィードバックデータ数との積である。ここで、ユーザフィードバックデータの数は、現在期間における履歴ユーザ数とリフレッシュ回数との積である。)
【0172】
S433において、外乱増加データの和と外乱増加データとの比に基づき、パラメータ調節ステップを確定する。
【0173】
例示的には、以下の式を用いてパラメータ調節ステップを確定する。
【0174】
[式5]
Step=Sum(Step_list)/len(Step_list)*learning_rate
(ただし、Stepは、確定されたパラメータ調節ステップであり、len()は、配列長さ確定関数であり、learning_rateは学習率であり、数値は経験値である。)
【0175】
S434において、新たなネットワークパラメータを、対応するパラメータ調節ステップに累積し、今回の反復のネットワークパラメータを取得する。
【0176】
例示的には、リソース推奨段階は、以下のステップを含む。
【0177】
S441において、対象ユーザの推奨参照特徴を、今回の反復のネットワークパラメータを用いたパラメータ最適化モデルに入力し、今回の反復の推奨ポリシーパラメータを取得する。
【0178】
ここで、対象ユーザの推奨参照特徴は、シナリオ特徴、ユーザ基本特徴、およびユーザプリファレンス特徴を含んでもよいが、これらに限定されない。なお、オンライン推奨システムのリソース推奨結果と対象ユーザとのマッチング度を向上させるために、リソース推奨段階で使用される対象ユーザの推奨参照特徴に含まれるコンテンツは、パラメータ最適化モデルの入力層で使用される履歴ユーザの推奨参照特徴に含まれるコンテンツと同じまたは対応する。
【0179】
S442において、今回の反復の推奨ポリシーパラメータをオンライン推奨システムに作用した後、対象ユーザによる1回のリフレッシュのランディングページ時間、リストページ時間、およびクリック数を収集する。S411に戻って実行する。
【0180】
本発明の実施例は、オンライン進化的学習により、推奨システムにおける全ての処理ポリシー中の各推奨ポリシーパラメータの組み合わせられたグローバル最適化を実現し、システム全体のターゲットが一致し、最終的に確定された推奨ポリシーパラメータは推奨システムとのマッチング度はより良くなる。また、推奨ポリシーパラメータを確定する時、シナリオ特徴およびユーザ特徴等を導入することにより、推奨モデルは、深く個人化されたシナリオ適応推奨能力を備える。
【0181】
なお、本発明の実施例に係るリソース推奨方法は、同様に、少なくとも1つのリソース処理段階が含まれ、各リソース処理段階が少なくとも1種の処理ポリシーを採用し、各処理ポリシーが少なくとも1つの推奨ポリシーパラメータを含む他のリソース処理システムに適用され、且つ、リソース処理システムによりリソース処理を行う場合にも適用される。本発明は、リソース推奨方法を例として例示的に説明するものに過ぎず、限定するものとして理解されるべきではない。
【0182】
上記各リソース推奨方法の実現として、本発明は、リソース推奨方法を実施する仮想装置の一実施例を更に提供する。更に、図5に示すリソース推奨装置の構造図を参照し、該リソース推奨装置500は、推奨参照特徴確定モジュール501と、リソース推奨結果確定モジュール502とを備える。
【0183】
推奨参照特徴確定モジュール501は、対象ユーザの推奨参照特徴を確定することに用いられる。
【0184】
リソース推奨結果確定モジュール502は、少なくとも2つのリソース推奨モデルに基づき、対象ユーザの推奨参照特徴に応じて、対象ユーザのためにリソース推奨結果を確定することに用いられる。
【0185】
ここで、少なくとも2つのリソース推奨モデルにおける少なくとも2つの推奨ポリシーパラメータは、履歴ユーザの推奨行動データに基づいて共同で確定され、少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なっている。
【0186】
本発明の実施例は、推奨参照特徴確定モジュールで、対象ユーザの推奨参照特徴を確定し、リソース推奨結果確定モジュールで、少なくとも2つのリソース推奨モデルに基づき、対象ユーザの推奨参照特徴に応じて、対象ユーザのためにリソース推奨結果を確定する。ここで、少なくとも2つのリソース推奨モデルにおける少なくとも2つのリソース推奨パラメータは、履歴ユーザの推奨行動データに基づいて共同で確定され、少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なっている。上記技術案は、少なくとも2つのリソース推奨モデルにおける少なくとも2つの推奨ポリシーパラメータを共同で確定することにより、異なるリソース処理段階の各推奨ポリシーパラメータに対する動的確定および自動調整を実現し、人為的に設定されたパラメータが不正確でリソース推奨結果が良くないという問題を回避する。それと同時に、各推奨ポリシーパラメータの共同確定により、単一の推奨ポリシーパラメータが孤立して確定されるため、各推奨ポリシーパラメータがマッチングしないという問題を回避し、各推奨ポリシーパラメータ間の相互作用を両立させ、更に、リソース推奨結果の正確性、リソース推奨結果と対象ユーザとのマッチング度、およびユーザの満足度を向上させる。
【0187】
更に、履歴ユーザの推奨行動データは、履歴ユーザの推奨参照特徴およびユーザフィードバックデータを含む。
【0188】
ユーザフィードバックデータは、パラメータ最適化モデルにおけるネットワークパラメータを調整することに用いられ、パラメータ最適化モデルは、進化的学習アルゴリズムに基づいて実現される。
【0189】
推奨ポリシーパラメータは、調整されたパラメータ最適化モデルに基づいて履歴ユーザの推奨参照特徴に応じて確定される。
【0190】
更に、装置は、ユーザフィードバックデータを確定するためのユーザフィードバックデータ確定モジュールを更に備える。
【0191】
ユーザフィードバックデータ確定モジュールは、具体的に、
リソース推奨モデルに使用される指標であるトラフィック指標での履歴ユーザの履歴リソース推奨結果に対する応答行動データ統計値を確定するための応答行動データ統計値確定ユニットと、
各トラフィック指標での応答行動データ統計値に基づいてユーザフィードバックデータを確定するためのユーザフィードバックデータ確定ユニットと、
を備える。
【0192】
更に、トラフィック指標は、時間応答指標および/またはインタラクション応答指標を含む。
【0193】
ユーザフィードバックデータ確定ユニットは、
時間応答指標での応答行動データ統計値に基づき、リソース応答総時間を確定するためのリソース応答総時間確定サブユニットと、
時間補正量およびリソース応答総時間に基づき、各履歴ユーザのユーザフィードバックデータを確定するための時間抑圧量確定サブユニットと、
前記リソース応答総時間に基づき、各前記履歴ユーザのユーザフィードバックデータを確定する、または、前記時間補正量および前記リソース応答総時間に基づき、各前記履歴ユーザのユーザフィードバックデータを確定するためのユーザフィードバックデータ確定サブユニットと、
を備える。
【0194】
更に、推奨ポリシーは、リソース種類配合ポリシー、リソースコンテンツ多様化ポリシー、および多推奨指標均衡ポリシーのうちの少なくとも1種を含む。
【0195】
推奨ポリシーパラメータは、種類配合パラメータ、多様化重み調整パラメータ、および多推奨指標融合パラメータのうちの少なくとも1種を含む。
【0196】
更に、リソース処理段階は、リソースリコール段階、リソース事前ランキング段階、リソースランキング段階、およびリソース再ランキング段階のうちの少なくとも2つを含む。
【0197】
リソース推奨モデルは、リソースリコールモデル、リソース事前ランキングモデル、リソースランキングモデル、およびリソース再ランキングモデルのうちの少なくとも2つを含む。
【0198】
更に、推奨参照特徴は、シナリオ特徴、ユーザ基本特徴、およびユーザプリファレンス特徴のうちの少なくとも1種を含む。
【0199】
上記リソース推奨装置は、本発明のいずれかの実施例に係るリソース推奨方法を実行可能であり、リソース推奨方法の実行に対応する機能モジュールおよび有益な効果を有する。
【0200】
上記パラメータ確定方法の実現として、本発明は、パラメータ確定方法を実施する仮想装置の一実施例を更に提供する。更に、図6に示すパラメータ確定装置の構造図を参照し、該パラメータ確定装置600は、推奨行動データ確定モジュール601と、推奨ポリシーパラメータ確定モジュール602とを備える。
【0201】
推奨行動データ確定モジュール601は、履歴ユーザの推奨行動データを確定することに用いられる。
【0202】
推奨ポリシーパラメータ確定モジュール602は、履歴ユーザの推奨行動データに基づき、少なくとも2つの推奨ポリシーパラメータを共同で確定することに用いられる。
【0203】
ここで、推奨ポリシーパラメータは、少なくとも2つのリソース推奨モデルにおける使用パラメータであり、少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なっている。
【0204】
本発明の実施例は、推奨行動データ確定モジュールで、履歴ユーザの推奨行動データを確定し、ユーザ推奨ポリシーパラメータ確定モジュールで、履歴ユーザの推奨行動データに基づき、少なくとも2つの推奨ポリシーパラメータを共同で確定する。ここで、推奨ポリシーパラメータは、少なくとも2つのリソース推奨モデルにおける使用パラメータであり、少なくとも2つのリソース推奨モデルに関連するリソース処理段階は異なっている。上記技術案は、少なくとも2つのリソース推奨モデルにおける少なくとも2つの推奨ポリシーパラメータを共同で確定することにより、異なるリソース処理段階の各推奨ポリシーパラメータに対する動的確定および自動調整を実現し、人為的に設定されたパラメータが不正確でリソース推奨結果が良くないという問題を回避する。それと同時に、各推奨ポリシーパラメータの共同確定により、単一の推奨ポリシーパラメータが孤立して確定されるため、各推奨ポリシーパラメータがマッチングしないという問題を回避し、各推奨ポリシーパラメータ間の相互作用を両立させ、更に、リソース推奨結果の正確性、リソース推奨結果と対象ユーザとのマッチング度、およびユーザの満足度を向上させる。
【0205】
更に、履歴ユーザの推奨行動データは、履歴ユーザの推奨参照特徴およびユーザフィードバックデータを含む。
【0206】
推奨ポリシーパラメータ確定モジュール602は、
ユーザフィードバックデータに基づき、進化的学習アルゴリズムに基づいて実現されるパラメータ最適化モデルにおけるネットワークパラメータを調整するためのネットワークパラメータ調整ユニットと、
履歴ユーザの推奨参照特徴を調整されたパラメータ最適化モデルに入力し、少なくとも2つの推奨ポリシーパラメータを取得するための推奨ポリシーパラメータ取得ユニットと、
を備える。
【0207】
更に、ネットワークパラメータ調整ユニットは、
履歴ユーザのアカウント情報および時間情報に基づき、外乱データセットを生成するための外乱データセット生成サブユニットと、
ユーザフィードバックデータおよび外乱データセットに基づき、パラメータ調整ステップサイズを確定するためのパラメータ調整ステップサイズ確定サブユニットと、
パラメータ調整ステップサイズに基づき、パラメータ最適化モデルにおけるネットワークパラメータを調整するためのネットワークパラメータ調整サブユニットと、
を備える。
【0208】
更に、パラメータ調整ステップサイズ確定サブユニットは、
ユーザフィードバックデータに基づき、外乱データセット内の各外乱データを重み付け、外乱増加データを取得するための外乱増加データ取得従属ユニットと、
外乱増加データに基づき、パラメータ調整ステップサイズを確定するためのパラメータ調整ステップサイズ確定従属ユニットと、
を備える。
【0209】
更に、外乱増加データ取得従属ユニットは、
履歴ユーザの履歴フィードバックデータに基づき、ユーザフィードバックデータを標準化処理し、ユーザフィードバックデータを更新するためのユーザフィードバックデータ更新サブ従属ユニットと、
更新後のユーザフィードバックデータに基づき、外乱データセット内の各外乱データを重み付け、外乱増加データを取得するための外乱増加データ取得サブ従属ユニットと、
を備える。
【0210】
更に、装置は、ユーザフィードバックデータを確定するためのユーザフィードバックデータ確定モジュールを更に備える。
【0211】
ユーザフィードバックデータ確定モジュールは、具体的に、
リソース推奨モデルに使用される指標であるトラフィック指標での履歴ユーザの履歴リソース推奨結果に対する応答行動データ統計値を確定するための応答行動データ統計値確定ユニットと、
各トラフィック指標での応答行動データ統計値に基づいてユーザフィードバックデータを確定するためのユーザフィードバックデータ確定ユニットと、
を備える。
【0212】
更に、トラフィック指標は、時間応答指標および/またはインタラクション応答指標を含む。
【0213】
ユーザフィードバックデータ確定ユニットは、
時間応答指標での応答行動データ統計値に基づき、リソース応答総時間を確定するためのリソース応答総時間確定サブユニットと、
時間補正量およびリソース応答総時間に基づき、各履歴ユーザのユーザフィードバックデータを確定するための時間抑圧量確定サブユニットと、
前記リソース応答総時間に基づき、各前記履歴ユーザのユーザフィードバックデータを確定する、または、前記時間補正量および前記リソース応答総時間に基づき、各前記履歴ユーザのユーザフィードバックデータを確定するためのユーザフィードバックデータ確定サブユニットと、
を備える。
【0214】
更に、推奨ポリシーは、リソース種類配合ポリシー、リソースコンテンツ多様化ポリシー、および多推奨指標均衡ポリシーのうちの少なくとも1種を含む。
【0215】
推奨ポリシーパラメータは、種類配合パラメータ、多様化重み調整パラメータ、および多推奨指標融合パラメータのうちの少なくとも1種を含む。
【0216】
更に、推奨参照特徴は、シナリオ特徴、ユーザ基本特徴、およびユーザプリファレンス特徴のうちの少なくとも1種を含む。
【0217】
上記パラメータ確定装置は、本発明のいずれかの実施例に係るパラメータ確定方法を実行可能であり、パラメータ確定方法の実行に対応する機能モジュールおよび有益な効果を備える。
【0218】
本発明の実施例によれば、本発明は、電子機器と、可読記憶媒体とを更に提供する。
【0219】
図7に示すように、本発明の実施例のリソース推奨方法および/またはパラメータ確定方法を実現する電子機器のブロック図である。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータのような様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯端末、携帯電話、スマートフォン、ウェアラブル機器および他の類似する計算装置のような様々な形式の移動装置を表すこともできる。本発明に示されたコンポーネント、それらの接続、関係、およびそれらの機能は例示的なものに過ぎず、本発明に記載および/または要求される本発明の実現を限定するものではない。
【0220】
図7に示すように、該電子機器は、1つまたは複数のプロセッサ701と、メモリ702と、各コンポーネントを接続するための高速インタフェースおよび低速インタフェースを含むインタフェースとを備える。各コンポーネントは、異なるバスで互いに接続され、共通のマザーボードに取り付けられるかまたは必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行される命令を処理することができ、メモリ内またはメモリ上に記憶されて外部の入力/出力装置(例えば、インタフェースにカップリングされた表示機器)にGUIのグラフィクス情報を表示するための命令を含む。他の実施形態において、必要がある場合、複数のプロセッサおよび/または複数本のバスと、複数のメモリとを共に使用することができる。それと同様に、複数の電子機器に接続することができ、各機器は、一部の必要な動作(例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとする)を提供する。図7において、1つのプロセッサ701を例とする。
【0221】
メモリ702は、本発明に係る非一時的なコンピュータ可読記憶媒体である。ここで、本発明に係るリソース推奨方法および/またはパラメータ確定方法を少なくとも1つのプロセッサに実行させるために、メモリには少なくとも1つのプロセッサにより実行可能な命令が記憶されている。本発明の非一時的なコンピュータ可読記憶媒体はコンピュータ命令を記憶し、該コンピュータ命令は、本発明に係るリソース推奨方法および/またはパラメータ確定方法をコンピュータに実行させることに用いられる。
【0222】
メモリ702は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラムおよびモジュール、例えば、本発明の実施例におけるリソース推奨方法に対応するプログラム命令/モジュール(例えば、図5に示す推奨参照特徴確定モジュール501およびリソース推奨結果確定モジュール502)を記憶するように構成されてもよい。プロセッサ701は、メモリ702に記憶された非一時的なソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの各機能アプリケーションおよびデータ処理を実行し、即ち、上記方法の実施例におけるリソース推奨方法および/またはパラメータ確定方法を実現する。
【0223】
メモリ702は、プログラム記憶エリアおよびデータ記憶エリアを備えてもよく、ここで、プログラム記憶エリアは、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶エリアは、リソース推奨方法および/またはパラメータ確定方法を実現する電子機器の使用により作成されたデータ等を記憶することができる。また、メモリ702は、高速ランダムアクセスメモリを含んでもよく、少なくとも1つの磁気ディスク記憶機器、フラッシュメモリ、または他の非一時的な固体記憶機器のような非一時的なメモリを更に含んでもよい。いくつかの実施例において、メモリ702は、プロセッサ701に対してリモートに設けられたメモリを含むことが好ましく、これらのリモートメモリは、ネットワークを介してリソース推奨方法および/またはパラメータ確定方法を実現する電子機器に接続することができる。上記ネットワークの実例は、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワークおよびその組み合わせを含んでもよいが、それらに限定されない。
【0224】
リソース推奨方法および/またはパラメータ確定方法を実現する電子機器は、入力装置703と、出力装置704とを更に備えてもよい。プロセッサ701、メモリ702、入力装置703および出力装置704は、バスまたは他の方式で接続することができ、図7において、バスを介して接続することを例とする。
【0225】
入力装置703は、入力された数字または文字情報を受信し、リソース推奨方法および/またはパラメータ確定方法を実現する電子機器のユーザ設定および機能制御に関連するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、インジケータ、1つまたは複数のマウスボタン、トラックボール、ジョイスティック等の入力装置である。出力装置704は、表示機器、補助照明装置(例えば、LED)、および触覚フィードバック装置(例えば、振動モータ)等を含んでもよい。該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施形態において、表示機器はタッチパネルであってもよい。
【0226】
ここで説明するシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現できる。これらの各実施形態は以下を含んでもよい。1つまたは複数のコンピュータプログラムに実施され、該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行する、および/または解釈することができ、該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、且つデータおよび命令を、該ストレージシステム、該少なくとも1つの入力装置、および該少なくとも1つの出力装置に伝送することができる専用または汎用のプログラマブルプロセッサであってもよい。
【0227】
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、且つ、高度なプロセスおよび/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語を用いてこれらの計算プログラムを実施することができる。本発明に使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するように構成される任意のコンピュータプログラム製品、機器、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理機器(PLD))を意味し、機械可読信号としての機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
【0228】
ユーザとのインタラクションを提供するために、ここで説明するシステムおよび技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザがそれにより入力をコンピュータに提供することができるキーボードおよび指向装置(例えば、マウスまたはトラックボール)とを有する。他の種類の装置は、更にユーザとのインタラクションを提供するように構成されてもよい。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、且つ、任意の形式(音入力、音声入力または、触覚入力を含む)でユーザからの入力を受信することができる。
【0229】
ここで説明するシステムおよび技術を、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、または中間コンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、ユーザがそれによりここで説明するシステムおよび技術の実施形態とインタラクションできるグラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータ)、またはこのようなバックグラウンドコンポーネント、中間コンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)により、システムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ブロックチェーンネットワーク、およびインターネットを含む。
【0230】
コンピュータシステムはクライアントおよびサーバを含んでもよい。クライアントとサーバとは、一般的に互いに離れ、且つ、通常、通信ネットワークを介してインタラクションを行う。対応するコンピュータで実行されて互いにクライアント-サーバ関係を持つコンピュータプログラムにより、クライアントとサーバとの関係を生成する。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系における1つのホスト製品であり、従来の物理ホストおよびVPSサービスに存在する管理しにくく、トラフィックの拡張性が弱いという欠陥を解決するために使用される。
【0231】
本発明の実施例による技術案は、少なくとも2つのリソース推奨モデルにおける少なくとも2つの推奨ポリシーパラメータを共同で確定することにより、異なるリソース処理段階の各推奨ポリシーパラメータに対する動的確定および自動調整を実現し、人為的に設定されたパラメータが不正確でリソース推奨結果が良くないという問題を回避する。それと同時に、各推奨ポリシーパラメータの共同確定により、単一の推奨ポリシーパラメータが孤立して確定されるため、各推奨ポリシーパラメータがマッチングしないという問題を回避し、各推奨ポリシーパラメータ間の相互作用を両立させ、更に各推奨ポリシーパラメータ間の相互作用を考慮し、更に、リソース推奨結果の正確性、リソース推奨結果と対象ユーザとのマッチング度、およびユーザの満足度を向上させる。
【0232】
上記に示す様々な形式のフローを用い、ステップを並べ替え、追加または削除することができることを理解すべきである。例えば、本発明に記載された各ステップは、並列に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本発明に開示された技術案の所望する結果を達成できる限り、本発明はここで限定しない。
【0233】
上記具体的な実施形態は、本発明の保護範囲を限定するものではない。当業者は、設計要求および他の要因に基づき、様々な補正、組み合わせ、サブ組み合わせおよび代替が可能であることを理解すべできる。本発明の精神および原則内で行われる任意の補正、均等置換および改良等は、いずれも本発明の保護範囲内に含まれているべきである。
図1
図2
図3
図4A
図4B
図4C
図4D
図5
図6
図7