特許第6643554号(P6643554)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

<>
  • 特許6643554-エンティティ推薦方法及び装置 図000071
  • 特許6643554-エンティティ推薦方法及び装置 図000072
  • 特許6643554-エンティティ推薦方法及び装置 図000073
  • 特許6643554-エンティティ推薦方法及び装置 図000074
  • 特許6643554-エンティティ推薦方法及び装置 図000075
  • 特許6643554-エンティティ推薦方法及び装置 図000076
  • 特許6643554-エンティティ推薦方法及び装置 図000077
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6643554
(24)【登録日】2020年1月9日
(45)【発行日】2020年2月12日
(54)【発明の名称】エンティティ推薦方法及び装置
(51)【国際特許分類】
   G06F 16/9535 20190101AFI20200130BHJP
   G06F 16/9536 20190101ALI20200130BHJP
【FI】
   G06F16/9535
   G06F16/9536
【請求項の数】16
【外国語出願】
【全頁数】34
(21)【出願番号】特願2018-131409(P2018-131409)
(22)【出願日】2018年7月11日
(65)【公開番号】特開2019-185716(P2019-185716A)
(43)【公開日】2019年10月24日
【審査請求日】2018年7月27日
(31)【優先権主張番号】201810317390.3
(32)【優先日】2018年4月10日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド
(74)【代理人】
【識別番号】110001416
【氏名又は名称】特許業務法人 信栄特許事務所
(72)【発明者】
【氏名】ホアン,チーチョウ
(72)【発明者】
【氏名】ティン,シーチアン
(72)【発明者】
【氏名】ワン,ハイフォン
【審査官】 後藤 彰
(56)【参考文献】
【文献】 特開2013−093015(JP,A)
【文献】 特開2006−127452(JP,A)
【文献】 特開2010−224873(JP,A)
【文献】 特開2006−164246(JP,A)
【文献】 特表2016−532962(JP,A)
【文献】 国際公開第2017/203672(WO,A1)
【文献】 特開2015−197915(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/90 − 16/958
(57)【特許請求の範囲】
【請求項1】
受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得することと、
前記候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティテイシーケンスを得ることと、
候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦することと、
を含むエンティティ推薦方法であって、
前記ソートモデルは、
前記候補エンティティ集合における各候補エンティティと前記検索しようとするエンティティとの相関度と、
前記候補エンティティ集合における各候補エンティティに対する前記ユーザの興味度と、
前記候補エンティティ集合における各候補エンティティに対する前記ユーザの期待度と、のうち少なくとも一つに基づいて前記候補エンティティ集合をソート
前記ソートモデルは、
訓練サンプル集合を生成することであって、前記訓練サンプル集合のそれぞれの訓練サンプルは、トリプルとクリック行為タッグとを含み、前記トリプルは、ユーザ身分標識と第1のエンティティと第2のエンティティとを含み、前記クリック行為タッグは、ユーザが前記第1のエンティティを検索して得られた検索結果の中で前記第2のエンティティに対してクリック行為をしたか否かを示すために用いられることと、
生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成することと、
前記訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて前記勾配ブースティング決定木モデルを訓練することと、
交差エントロピー損失関数が最小となることに応答して、前記ソートモデルを生成することと、
を含むステップにより訓練されて得られ、
前記特徴ベクトルは、
各トリプルにおける第1のエンティティと第2のエンティティ間の相関度と、
各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する興味度と、
各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する期待度と、のうち少なくとも一つを示すための特徴値を含む、
コンピュータにより実施されるエンティティ推薦方法。
【請求項2】
検索しようとするエンティティに関連する候補エンティティ集合を取得することは、
予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとの関連関係が存在することに応答して、前記候補エンティティを前記候補エンティティ集合に添加すること、
をさらに含む、請求項1に記載の方法。
【請求項3】
検索しようとするエンティティに関連する候補エンティティ集合を取得することは、
検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第1の閾値を超えることに応答して、前記候補エンティティを前記候補エンティティ集合に添加すること、
をさらに含む、請求項1又は2に記載の方法。
【請求項4】
検索しようとするエンティティに関連する候補エンティティ集合を取得することは、
予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを共起候補エンティティとすることと、
検索しようとするエンティティとの共起度が予め設定された第2の閾値を超える共起候補エンティティを、前記候補エンティティ集合に添加することと、
をさらに含む、請求項3に記載の方法。
【請求項5】
前記各トリプルにおける第1のエンティティと第2のエンティティ間の相関度を示すための成分は、
前記トリプルにおける第1のエンティティと第2のエンティティとの、予め設定されたナレッジグラフにおける相関度と、
前記トリプルにおける第1のエンティティと第2のエンティティとの、検索会話履歴における共起度と、
前記トリプルにおける第1のエンティティと第2のエンティティとの、予め設定されたコーパスにおける共起度と、
前記トリプルにおける第1のエンティティと第2のエンティティとの主題の類似度と、
のうち少なくとも一つを含む、請求項に記載の方法。
【請求項6】
前記各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する興味度を示すための特徴値は、
当該トリプルにおける第2のエンティティのクリック率と、
第2のエンティティが予め設定された分類表で所属する主題タイプのクリック率と、
前記トリプルにおける第1のエンティティと第2のエンティティとの語意の類似度と、
のうち少なくとも一つを含む、請求項に記載の方法。
【請求項7】
前記各トリプルにおける、ユーザが当該トリプル中の第2のエンティティに対する期待度を示すための特徴値は、
前記トリプルにおけるユーザの履歴クリックデータに基づいて決定される、第2のエンティティに対するユーザ及び/又は第1のエンティティの関係の熟知度と、
ユーザ及び/又は第1のエンティティに対する前記トリプルにおける第2のエンティティの意外度と、
前記トリプルにおける第1のエンティティのクリックの多様性と、
のうち少なくとも一つを含む、請求項に記載の方法。
【請求項8】
受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得する、ように配置される、取得ユニットと、
前記候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得る、ように配置される、ソートユニットと、
前記ソートモデルを訓練するように配置される訓練ユニットと、
前記候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する、ように配置される、推薦ユニットと、
を含むエンティティ推薦装置であって、
前記ソートモデルは、
前記候補エンティティ集合における各候補エンティティと前記検索しようとするエンティティとの相関度と、
前記候補エンティティ集合における各候補エンティティに対する前記ユーザの興味度と、
前記候補エンティティ集合における各候補エンティティに対するユーザの期待度と、
のうち少なくとも一つに基づいて前記候補エンティティ集合をソート
前記訓練ユニットは、
訓練サンプル集合を生成するように配置される、訓練サンプル生成モジュールであって、前記訓練サンプル集合のそれぞれの訓練サンプルは、トリプルとクリック行為タッグとを含み、前記トリプルは、ユーザ身分標識と第1のエンティティと第2のエンティティとを含み、前記クリック行為タッグは、ユーザが前記第1のエンティティを検索して得られた検索結果の中で前記第2のエンティティに対してクリック行為をしたか否かを示す、訓練サンプル生成モジュールと、
生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成する、ように配置される、特徴ベクトル生成モジュールと、
前記訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて前記勾配ブースティング決定木モデルを訓練する、ように配置される、反復訓練モジュールと、
交差エントロピー損失関数が最小となることに応答して、前記ソートモデルを生成する、ように配置される生成ユニットと、
を含み、
前記特徴ベクトルは、
各トリプルにおける第1のエンティティと第2のエンティティとの間の相関度と、
各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する興味度と、
各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する期待度と、のうち少なくとも一つを示すための特徴値を含む、
エンティティ推薦装置。
【請求項9】
前記取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、
同一の予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとが存在することに応答して、前記候補エンティティを前記候補エンティティ集合に添加する、ように配置される、請求項に記載の装置。
【請求項10】
前記取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、
検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第1の閾値を超えることに応答して、前記候補エンティティを前記候補エンティティ集合に添加する、ように配置される、請求項又はに記載の装置。
【請求項11】
前記取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、
予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを共起候補エンティティとし、
検索しようとするエンティティとの共起度が予め設定された第2の閾値を超える共起候補エンティティを、前記候補エンティティ集合に添加する、ように配置される、請求項1に記載の装置。
【請求項12】
前記各トリプルにおける第1のエンティティと第2のエンティティ間の相関度を示すための成分は、
前記トリプルにおける第1のエンティティと第2のエンティティとの、予め設定されたナレッジグラフにおける相関度と、
前記トリプルにおける第1のエンティティと第2のエンティティとの、検索会話履歴における共起度と、
前記トリプルにおける第1のエンティティと第2のエンティティとの、予め設定されたコーパスにおける共起度と、
前記トリプルにおける第1のエンティティと第2のエンティティとの主題の類似度と、
のうち少なくとも一つを含む、請求項に記載の装置。
【請求項13】
前記各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する興味度を示すための特徴値は、
当該トリプルにおける第2のエンティティのクリック率と、
第2のエンティティが予め設定された分類表で所属する主題タイプのクリック率と、
前記トリプルにおける第1のエンティティと第2のエンティティとの語意の類似度と、
のうち少なくとも一つを含む、請求項に記載の装置。
【請求項14】
前記各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する期待度を示すための特徴値は、
前記トリプルにおけるユーザの履歴クリックデータに基づいて決定される、第2のエンティティに対するユーザ及び/又は第1のエンティティの関係の熟知度と、
ユーザ及び/又は第1のエンティティに対する前記トリプルにおける第2のエンティティの意外度と、
前記トリプルにおける第1のエンティティのクリックの多様性と、
のうち少なくとも一つを含む、請求項に記載の装置。
【請求項15】
一つ又は複数のプロセッサーと、
一つ又は複数のプログラムを記憶するための記憶装置と、
を含み、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサーにより実行される際に、前記一つ又は複数のプロセッサーに請求項1〜のいずれか一項に記載の方法を実現させる、機器。
【請求項16】
コンピュータプログラムが記憶され、
前記プログラムがプロセッサーにより実行される際に、請求項1〜のいずれか一項に記載の方法を実現する、コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、インターネット分野に関し、具体的には、検索分野に関し、特にエンティティ推薦方法及び装置に関する。
【背景技術】
【0002】
エンティティ推薦とは、ユーザにエンティティアドバイスを提供することにより、ユーザに興味のある情報を発見させることを補助するための一連の操作である。
【0003】
従来技術において、通常、協調フィルタリングの方式を採用して、エンティティ推薦を行う。協調フィルタリングのアルゴリズムは、ユーザの履歴行為データの発掘により、ユーザの好みを発見し、異なる好みに基づいてユーザに対してグループ分けを行い、ユーザ群において指定されたユーザと(興味が)類似するユーザを探し出して、それらの類似するユーザがある情報に対する評価を統合することにより、この情報に対する当該指定されたユーザの好み程度のシステムの予測を生成する。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願は、エンティティ推薦方法及び装置を提供する。
【課題を解決するための手段】
【0005】
第1の態様では、本願は、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得することと、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得ることと、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦することと、
を含むエンティティ推薦方法であって、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいて候補エンティティ集合をソートする、エンティティ推薦方法を提供する。
【0006】
複数の実施形態において、検索しようとするエンティティに関連する候補エンティティ集合を取得することは、予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとの関連関係が存在することに応答して、候補エンティティを候補エンティティ集合に添加すること、
をさらに含む。
【0007】
複数の実施形態において、検索しようとするエンティティに関連する候補エンティティ集合を取得することは、検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第1の閾値を超えることに応答して、候補エンティティを候補エンティティ集合に添加すること、をさらに含む。
【0008】
複数の実施形態において、検索しようとするエンティティに関連する候補エンティティ集合を取得することは、予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを共起候補エンティティとすることと、検索しようとするエンティティとの相関度が予め設定された第2の閾値を超える共起候補エンティティを、候補エンティティ集合に添加することと、をさらに含む。
【0009】
複数の実施形態において、ソートモデルは、訓練サンプル集合を生成することであって、訓練サンプル集合のそれぞれの訓練サンプルは、トリプルとクリック行為タッグとを含み、トリプルは、ユーザ身分標識と第1のエンティティと第2のエンティティとを含み、クリック行為タッグは、ユーザが第1のエンティティを検索して得られた検索結果の中で第2のエンティティに対してクリック行為をしたか否かを示すために用いられることと、生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成することと、訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて勾配ブースティング決定木モデルを訓練することと、交差エントロピー損失関数が最小となることに応答して、ソートモデルを生成することと、
を含むステップにより訓練されて得られ、特徴ベクトルは、各トリプルにおける第1のエンティティと第2のエンティティ間の相関度と、各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する興味度と、各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する期待度と、のうち少なくとも一つを示すための特徴値を含む。
【0010】
複数の実施形態において、各トリプルにおける第1のエンティティと第2のエンティティ間の相関度を示すための成分は、トリプルにおける第1のエンティティと第2のエンティティとの、予め設定されたナレッジグラフにおける相関度と、トリプルにおける第1のエンティティと第2のエンティティとの、検索会話履歴における共起度と、トリプルにおける第1のエンティティと第2のエンティティとの、予め設定されたコーパスにおける共起度と、トリプルにおける第1のエンティティと第2のエンティティとの主題の類似度と、のうち少なくとも一つを含む。
【0011】
複数の実施形態において、各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する興味度を示すための特徴値は、当該トリプルにおける第2のエンティティのクリック率と、第2のエンティティが予め設定された分類表で所属する主題タイプのクリック率と、トリプルにおける第1のエンティティと第2のエンティティとの語意の類似度と、のうち少なくとも一つを含む。
【0012】
複数の実施形態において、各トリプルにおける、ユーザが当該トリプル中の第2のエンティティに対する期待度を示すための特徴値は、トリプルにおけるユーザの履歴クリックデータに基づいて決定される、第2のエンティティに対するユーザ及び/又は第1のエンティティの関係の熟知度と、ユーザ及び/又は第1のエンティティに対するトリプルにおける第2のエンティティの意外度と、トリプルにおける第1のエンティティのクリックの多様性と、のうち少なくとも一つを含む。
【0013】
第2の態様では、本願の実施形態は、さらに、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得する、ように配置される、取得ユニットと、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得る、ように配置される、ソートユニットと、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する、ように配置される、推薦ユニットと、を含むエンティティ推薦装置であって、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいて候補エンティティ集合をソートする、エンティティ推薦装置を提供する。
【0014】
複数の実施形態において、取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、同一の予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとが存在することに応答して、候補エンティティを候補エンティティ集合に添加する、ように配置される。
【0015】
複数の実施形態において、取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第1の閾値を超えることに応答して、候補エンティティを候補エンティティ集合に添加する、ように配置される。
【0016】
複数の実施形態において、取得ユニットが検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを共起候補エンティティとし、検索しようとするエンティティとの相関度が予め設定された第2の閾値を超える共起候補エンティティを、候補エンティティ集合に添加する、ように配置される。
【0017】
複数の実施形態において、装置は、ソートモデルを訓練するように配置される訓練ユニットをさらに含み、訓練ユニットは、訓練サンプル集合を生成するように配置される、訓練サンプル生成モジュールであって、訓練サンプル集合のそれぞれの訓練サンプルは、トリプルとクリック行為タッグとを含み、トリプルは、ユーザ身分標識と第1のエンティティと第2のエンティティとを含み、クリック行為タッグは、ユーザが第1のエンティティを検索して得られた検索結果の中で第2のエンティティに対してクリック行為をしたか否かを示す、訓練サンプル生成モジュールと、生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成する、ように配置される、特徴ベクトル生成モジュールと、訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて勾配ブースティング決定木モデルを訓練する、ように配置される、反復訓練モジュールと、交差エントロピー損失関数が最小となることに応答して、ソートモデルを生成する、ように配置される生成ユニットと、を含み、特徴ベクトルは、各トリプルにおける第1のエンティティと第2のエンティティ間の相関度と、各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する興味度と、各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する期待度と、のうち少なくとも一つを示すための特徴値を含む。
【0018】
複数の実施形態において、各トリプルにおける第1のエンティティと第2のエンティティ間の相関度を示すための成分は、トリプルにおける第1のエンティティと第2のエンティティとの、予め設定されたナレッジグラフにおける相関度と、トリプルにおける第1のエンティティと第2のエンティティとの、検索会話履歴における共起度と、トリプルにおける第1のエンティティと第2のエンティティとの、予め設定されたコーパスにおける共起度と、トリプルにおける第1のエンティティと第2のエンティティとの主題の類似度と、のうち少なくとも一つを含む。
【0019】
複数の実施形態において、各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する興味度を示すための特徴値は、当該トリプルにおける第2のエンティティのクリック率と、第2のエンティティが予め設定された分類表で所属する主題タイプのクリック率と、トリプルにおける第1のエンティティと第2のエンティティとの語意の類似度と、のうち少なくとも一つを含む。
【0020】
複数の実施形態において、各トリプルにおけるユーザが当該トリプル中の第2のエンティティに対する期待度を示すための特徴値は、トリプルにおけるユーザの履歴クリックデータに基づいて決定される、第2のエンティティに対するユーザ及び/又は第1のエンティティの関係の熟知度と、ユーザ及び/又は第1のエンティティに対するトリプルにおける第2のエンティティの意外度と、トリプルにおける第1のエンティティのクリックの多様性と、のうち少なくとも一つを含む。
【0021】
第3の態様では、本願の実施形態は、さらに、一つ又は複数のプロセッサーと、一つ又は複数のプログラムを記憶するための記憶装置と、を含み、一つ又は複数のプログラムが一つ又は複数のプロセッサーにより実行される際に、一つ又は複数のプロセッサーに第1の態様の方法を実現させる、機器を提供する。
【0022】
第4の態様では、本願の実施形態は、さらに、コンピュータプログラムが記憶され、プログラムがプロセッサーにより実行される際に、第1の態様の方法を実現する、コンピュータ可読記憶媒体を提供する。
【発明の効果】
【0023】
本願が提供するエンティティ推薦方法及び装置は、受信されたユーザのエンティティに対する検索請求に応答することにより、予め設定されたエンティティ集合において検索しようとするエンティティに関連する候補エンティティ集合を取得し、その後、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得て、最後に、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する。また、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいてソートすることができるため、ユーザ及び/又は検索しようとするエンティティについての更なる相関的な、パーソナライゼーション、サプライズ感および多様性を有するエンティティ推薦を実現する。
【0024】
また、本願の複数の実施形態のエンティティ推薦方法及び装置において、候補エンティティ集合には、予め設定されたナレッジグラフ中に検索しようとするエンティティとの関連関係が存在するエンティティと、検索しようとするエンティティとの検索会話履歴における共起回数が予め設定された第1の閾値を超えるエンティティと、予め設定されたコーパスにおける、検索しようとするエンティティとの相関度が予め設定された相関度閾値を超えるエンティティとが含まれ、かつ、ユーザの興味度、期待度及びエンティティ間の相関度の3つの面から候補エンティティ集合に入れるエンティティを考慮するため、候補エンティティ集合におけるそれぞれの成分と検索請求との異なる次元における相関性を実現する。
【図面の簡単な説明】
【0025】
以下の図面を解読・参照して行われた非限定的な実施形態についての詳細な説明により、本願の他の特徴、目的及び利点はより明瞭になる。
図1図1は本願を適用できる例示的なシステムアーキテクチャーの図である。
図2図2は本願のエンティティ推薦方法による一実施例のフローチャートである。
図3図3は一つのナレッジグラフの模式図である。
図4図4は本願のエンティティ推薦方法による一応用シーンの模式図である。
図5図5は本願のエンティティ推薦方法による他の実施例のフローチャートである。
図6図6は本願のエンティティ推薦装置による一実施例の構造図である。
図7図7は本願の実施例を実現するために適切なサーバのコンピュータシステムの構造模式図である。
【発明を実施するための形態】
【0026】
以下、図面と実施例を参照しながら、本願を詳細に説明する。理解できるのは、ここで記載される具体的な実施例は、関連の発明を解釈するのみに用いられ、当該発明を限定することではない。なお、説明の便利のために、図面には、関連の発明に関わる部分のみを示す。
【0027】
なお、衝突が生じない限り、本願における実施例及び実施例における特徴は互いに組み合わせることができる。以下、図面を参照しながら、実施例と連携して本願を詳しく説明する。
【0028】
図1には、本願のエンティティ推薦方法又はエンティティ推薦装置を適用できる実施例の例示的なシステムアーキテクチャー100を示す。
【0029】
図1に示すように、システムアーキテクチャー100は、端末デバイス101、102、103と、ネットワーク104と、サーバ105とを含むことができる。ネットワーク104は、端末デバイス101、102、103とサーバ105との間で通信リンクの媒体を提供するために用いられる。ネットワーク104は、例えば、有線や無線通信リンク又は光ケーブルなどのような各種の接続タイプを含むことができる。
【0030】
端末デバイス101、102、103は、ハードウェアであっても、ソフトウェアであってもよい。端末デバイス101、102、103がハードウェアである場合、ディスプレイを有しかつ検索サービスをサポートする各種の電子デバイスであってもよく、スマートフォン、タブレット型パソコン、電子書籍リーダー、ラップトップコンピュータ及びデスクトップ式コンピュータなどを含むが、それらに限定されるものではない。端末デバイス101、102、103がソフトウェアである場合、上記挙げられた電子デバイスにインストールされることができる。複数のソフトウェア又はソフトウェアモジュール(例えば、分散型サービスを提供するための複数のソフトウェア又はソフトウェアモジュール)として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されても良い。ここで、具体的な限定をしない。
【0031】
サーバ105は、例えば、端末デバイス101、102、103を使用するユーザにより送信された検索請求に対してサポートを提供するバックグラウンド処理サーバのような、各種サービスを提供するサーバであってもよい。バックグラウンド処理サーバは、受信された検索請求などに対してデータ解析などの処理を行い、処理結果(例えば、エンティティ推薦コンテンツを含む検索結果ページ)を端末デバイスにフィードバックすることができる。
【0032】
なお、本願の実施例が提供するエンティティ推薦方法は、一般的にサーバ105により実行される。それに応じて、エンティティ推薦装置は、一般的にサーバ105に設置される。
【0033】
理解すべきなのは、図1における端末デバイス101、102、103、ネットワーク104及びサーバ105の数は、模式的なもののみである。実施の必要に応じて、任意の数の端末デバイス、ネットワーク及びサーバを有してもよい。
【0034】
続いて、図2を参照し、本願のエンティティ推薦方法による一実施例の流れ200を示す。当該エンティティ推薦方法は、下記ステップを含む。
【0035】
ステップ210において、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得する。
【0036】
本実施例において、エンティティ推薦方法の実行主体(例えば、図1に示すサーバ105)は、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得することができる。
【0037】
ここで、ユーザは、本実施例におけるエンティティ推薦方法の実行主体と有線又は無線の方式により通信接続可能な任意の電子デバイス(例えば、図1に示す端末デバイス101、102、103)を使用して、当該実行主体に検索請求を送信することができる。
【0038】
また、本実施例において、候補エンティティ集合における候補エンティティは、検索しようとするエンティティと任意の実現可能な関連関係を有するエンティティであってもよい。ここで、関連関係は、2つのエンティティの直接的な関連関係(例えば、ナレッジグラフにおける関連)、及び/又は、2つのエンティティが検索会話履歴又は予め設定されたコーパスにより構築された間接的な関連関係であってもよい。例えば、同一ユーザにより短時間で順番に検索された2つのエンティティは、互いに候補エンティティとなることができ、百科コーパスにおいて、同一文章において現れた2つのエンティティも、互いに候補エンティティとなることができる。検索会話履歴による場合を例として、あるユーザAが検索中において、短時間で順番にエンティティe及びエンティティeを検索する。そうすると、他のユーザBがエンティティeを検索する際に、エンティティeが、当該エンティティeの一候補エンティティであると考えられる。そのため、それらの応用シーンにおいて、eは候補エンティティ集合における一成分とすることができる。
【0039】
ステップ220において、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得る。
【0040】
本実施例において、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいて候補エンティティ集合をソートすることができる。
【0041】
ここで、各候補エンティティと検索しようとするエンティティとの相関度は、候補エンティティと検索しようとするエンティティとの間の関連程度と理解できる。候補エンティティと検索しようとするエンティティとの両者の相関度は、両者の、両者の具体的なコンテンツや主題の抽象などの面での類似度であってもよく、及び/又は、両者のナレッジグラフ、検索会話履歴、予め設定されたコーパス等の面での関連又は共起などの複数の指標の相関度であってもよい。
【0042】
候補エンティティ集合における各候補エンティティに対するユーザの興味度は、検索請求を発起するユーザが当該候補エンティティに対して興味を感じる程度を特徴づけるために用いられると理解できる。最も直接的な方法は、検索請求を発起するユーザの履歴行為データを解析し、候補エンティティのクリック率(クリック数/展示数)の統計により当該候補エンティティに対するユーザの興味度を評価することであり、その他、間接的にニューラルネットワークモデルにより、ユーザがクリック行為をしたか否かを語意の類似度計算に汎化することにより、当該候補エンティティに対するユーザの興味度を評価することができる。
【0043】
候補エンティティ集合における各候補エンティティに対するユーザの期待度は、検索請求を発起するユーザが検索結果において現れるある候補エンティティに対して期待する程度を特徴づけるために用いられると理解できる。選択的に、検索請求を発起するユーザの履歴行為データと候補エンティティとの間の主題の類似度に基づいて実現されることができる。例えば、ユーザがよくクリックした候補エンティティは、ユーザがこのエンティティをより熟知し、期待度がより高いと考えられる。
【0044】
ここで、予め訓練されたソートモデルは、一連の演算により、入力された候補エンティティ集合における各候補エンティティに対して優先度の採点を与え、構築された優先度に基づいてソートし、候補エンティティシーケンスを得ることができる。
【0045】
例えば、予め訓練されたソートモデルは、LTR(Learning to Rank)フレームワークのうちいずれか1つのソートモデルであってもよい。LTRフレームワークは、訓練されたソートモデルが入力された候補エンティティに対して優先度の採点を与えることができ、さらにソートすることができるように、タッグの訓練データ及びそれから抽出された特徴に対して、特定の最適化目的で特定の最適化方式によって訓練することができる。
【0046】
複数の応用シーンにおいて、ソートモデルにより構築された優先度は、候補エンティティ集合における各候補エンティティに対する定性的な描写であってもよい。それらの応用シーンにおいて、ソートモデルは、候補エンティティ集合における各候補エンティティを所定の優先度レベルに従って分けることにより、候補エンティティシーケンスを得ることができる。
【0047】
例えば、ソートモデルが候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、各候補エンティティに対する各ユーザの各種履歴行為データを解析することにより、候補エンティティ集合における各候補エンティティを、それと検索しようとするエンティティとの相関度に従って、強相関、中強相関、中相関、中弱相関、弱相関、無相関等のタイプに分けることができる。
【0048】
同じように、ソートモデルが候補エンティティ集合における各候補エンティティに対するユーザの興味度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、検索請求を発起するユーザの各種履歴クリックデータを解析することにより、候補エンティティ集合における各候補エンティティを、それに対する検索請求を発起するユーザの興味度に従って、高興味度、中高興味度、中興味度、中低興味度、低興味度、無興味等のタイプに分けることができる。
【0049】
このように類推すると、ソートモデルが同時に候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度、及び、候補エンティティ集合における各候補エンティティに対するユーザの興味度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、まず、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度、及び、候補エンティティ集合における各候補エンティティに対する検索請求を発起するユーザの興味度をそれぞれ決定し、さらに、それに対する検索請求を発起するユーザの興味度をソートすることができ。例えば、候補エンティティと検索しようとするエンティティとの相関度よりも、候補エンティティに対する検索請求を発起するユーザの興味度を着目しようとする場合、ソートモデルによりソートされた候補エンティティシーケンスは、下記のようなレベル順番に従ってソートされることができる。即ち、高興味度かつ強相関、高興味度かつ中強相関、高興味度かつ中相関、高興味度かつ弱相関、高興味度かつ無相関、中高興味度かつ強相関、中高興味度かつ中強相関、中高興味度かつ中相関、中高興味度かつ弱相関、中高興味度かつ無相関、中興味度かつ強相関、中興味度かつ中強相関、中興味度かつ中相関、中興味度かつ弱相関、中興味度かつ無相関、中低興味度かつ強相関、中低興味度かつ中強相関、中低興味度かつ中相関、中低興味度かつ弱相関、中低興味度かつ無相関、低興味度かつ強相関、低興味度かつ中強相関、低興味度かつ中相関、低興味度かつ弱相関、低興味度かつ無相関、無興味かつ強相関、無興味かつ中強相関、無興味かつ中相関、無興味かつ弱相関、無興味かつ無相関を含む。
【0050】
他の複数の応用シーンにおいて、ソートモデルにより構築された優先度は、候補エンティティ集合における各候補エンティティに対する定量的な描写であってもよい。それらの応用シーンにおいて、ソートモデルは、候補エンティティ集合における各候補エンティティを所定のアルゴリズムに従って量化して採点することにより、候補エンティティシーケンスを得ることができる。
【0051】
それらの応用シーンにおいて、ソートモデルが候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、予め設定されたアルゴリズムに基づいて、各候補エンティティに対する各ユーザの各種履歴クリックデータに対して計算することにより、候補エンティティ集合における各候補エンティティの相関度の得点値を算出することができる。
【0052】
同じように、ソートモデルが候補エンティティ集合における各候補エンティティに対するユーザの興味度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、予め設定されたアルゴリズムに基づいて、検索請求を発起するユーザの各種履歴クリックデータに対して演算することにより、候補エンティティ集合における各候補エンティティの興味度の得点値を算出することができる。
【0053】
このように類推すると、ソートモデルが同時に候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度、及び、候補エンティティ集合における各候補エンティティに対するユーザの興味度に基づいて候補エンティティ集合における各候補エンティティをソートすると、ソートモデルは、予め設定された(又は訓練された)重み値に基づいて、相関度の得点値及び興味度の得点値を加重加算し、加重加算された得点値により候補エンティティ集合における各候補エンティティをソートすることにより、候補エンティティシーケンスを得ることができる。
【0054】
ステップ230において、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する。
【0055】
このステップにおいて、ステップ220のソートモデルから出力された候補エンティティシーケンスにおける各候補エンティティの優先度により、選択してユーザに推薦することができる。
【0056】
例えば、複数の応用シーンにおいて、ソートモデルにより決定された各候補エンティティの優先度は、定性的なレベルで特徴づけられる。それらの応用シーンにおいて、例えば、候補エンティティシーケンスにおける最も高い優先度を有する候補エンティティをユーザに推薦することができる。
【0057】
あるいは、他の複数の応用シーンにおいて、ソートモデルにより決定された各候補エンティティの優先度は、定量的な数値(例えば、得点値)で特徴づけられる。それらの応用シーンにおいて、例えば、候補エンティティシーケンスにおける、得点値がある予め設定された閾値を超える候補エンティティを選択して、ユーザに推薦することができる。あるいは、それらの応用シーンにおいて、候補エンティティシーケンスにおける、得点値が最も高いN個(Nが予め設定された正の整数である)の候補エンティティを選択して、ユーザに推薦することができる。
【0058】
本実施例のエンティティ推薦方法は、受信されたユーザのエンティティに対する検索請求に応答することにより、予め設定されたエンティティ集合において検索しようとするエンティティに関連する候補エンティティ集合を取得し、その後、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得て、最後に、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する。また、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、に基づいてソートすることができる。このため、ユーザについての更なる相関的な、パーソナライゼーション、サプライズ感および多様性を有するエンティティ推薦を実現する。
【0059】
複数の選択できる実施形態において、本実施例のステップ210における検索しようとするエンティティに関連する候補エンティティ集合を取得することは、下記のような方式により実現されることができる。
【0060】
ステップ211において、予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとの関連関係が存在することに応答して、候補エンティティを候補エンティティ集合に添加する。
【0061】
ナレッジグラフ(Knowledge Graph、KG)は、あるエンティティと、関連するその他のエンティティとの間の関連関係を記憶するための、一つの集中式記憶ライブラリーであると理解できる。
【0062】
図3を参照しながら示すように、「哺乳動物」というエンティティのナレッジグラフの模式図である。
【0063】
図3に示すナレッジグラフにおいて、「哺乳動物」は、「動物」の一種であり、両者は図3に示すナレッジグラフで接続関係(例えば、両者の間で1つの接続線が存在する)が存在するため、「動物」というエンティティを「哺乳動物」の候補エンティティの一つとすることができる。
【0064】
そうすると、ユーザが「哺乳動物」というエンティティを検索する際に、図3に示すナレッジグラフにおける「動物」、「ネコ」、「クジラ」、「クマ」、「脊椎」などのエンティティを候補エンティティ集合における成分とし、「水」、「魚」、「毛」などのエンティティを候補エンティティ集合における成分としないことができる。ステップ211により生成された候補エンティティ集合は、例えば、K(e)と表記されることができ、その中、eは検索しようとするエンティティを示す。
【0065】
他の複数の選択できる実施形態において、本実施例のステップ210における検索しようとするエンティティに関連する候補エンティティ集合を取得することは、さらに、下記のような方式により実現されることができる。
【0066】
ステップ212において、検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第1の閾値を超えることに応答して、候補エンティティを候補エンティティ集合に添加する。
【0067】
コンピュータ用語において、会話(session)とは、一つの端末ユーザとインタラクションシステム(例えば、サービス側)と通信するプロセスを意味する。例えば、会話は、端末がサービス側にアクセスすることから始め、サービス側がオフし又はクライアント側がオフする時点で終了する。
【0068】
複数の応用シーンにおいて、検索会話履歴において、検索しようとするエンティティeとの共起回数が比較的に多いエンティティを抽出して一候補エンティティ集合を形成し、S(e)と表記する。
【0069】
他の複数の選択できる実施形態において、本実施例のステップ210における検索しようとするエンティティに関連する候補エンティティ集合を取得することは、さらに、下記のような方式により実現されることができる。
【0070】
ステップ213において、予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを、共起候補エンティティとする。
【0071】
ここで、予め設定されたコーパスにおいて、検索しようとするエンティティとともに当該コーパスにおける同一ネットワークファイルに現れるエンティティを、共起候補エンティティとして選別し、集合D(e)を形成することができる。
【0072】
また、ステップ214において、検索しようとするエンティティとの相関度が予め設定された第2の閾値を超える候補エンティティを、候補エンティティ集合に添加する。
【0073】
複数の応用シーンにおいて、集合D(e)における共起候補エンティティと検索しようとするエンティティとの間の共起度は、下記のような式(1)の計算により得られることができる。
【0074】
【数1】
【0075】
上記式(1)において、Tは、検索しようとするエンティティeのエンティティタイプ集合を示し、Rは、予め設定されたエンティティ間の関係を述べるための言語集合において、ネットワークファイルが述べるeとeとの間の関係を示す。P(e|e)は、コンテンツ無関の共起度であり、P(R|e,e)は、コンテンツ相関の共起度である。
【0076】
P(e|e)及びP(R|e,e)は、それぞれ下記のような式(2)及び式(3)の計算により得られることができる。
【0077】
【数2】
【数3】
【0078】
その中、上記式(2)におけるPMI(e,e)及びPMI’(e,e)は、下記のような式(4)の計算により得られることができる。
【0079】
【数4】
【0080】
その中、cnt(e,e)は、予め設定されたコーパスにおける、e及びeの共起回数であり、cnt(e)及びcnt(e)は、それぞれ、e及びeが予め設定されたコーパスにおいて現れる回数である。
【0081】
上記式(3)におけるθqcは、予め設定された共起語言モデルが出力したeとeとの間の関係の得点値であり、n(t,R)は、tがRにおいて現れる回数である。
【0082】
また、上記式(1)におけるP(T|e)は、関係フィルターであり、下記のような式(5)により得られることができる。
【0083】
【数5】
【0084】
その中、cat(e)は、エンティティeをeのタイプ集合にマッピングするマップ関数であり、cat’(T)は、Tに対してタイプ拡張操作を実行して得られた一連のエンティティタイプである。
【0085】
そうすると、以上の式(1)により集合D(e)における共起候補エンティティに対して共起度を計算することにより、共起度が第2の予め設定された閾値を超える共起候補エンティティをそれらから選別し、集合D(e)を形成することができる。
【0086】
理解できるのは、本実施例のステップ210における検索しようとするエンティティに関連する候補エンティティ集合を取得することを実行する際に、上記のような3つの選択できる実施形態の1つの方式を採用することにより、候補エンティティ集合K(e)、S(e)又はD(e)を得ることができる。上記3つの選択できる実施形態の任意の組み合わせにより、候補エンティティ集合を得ることもできる。具体的には、上記のようなステップ211及びステップ212を採用することにより候補エンティティ集合を得ると、最終的に生成された候補エンティティ集合は、K(e)∪S(e)であってもよい。同じように、上記のようなステップ211及びステップ213〜214を採用することにより候補エンティティ集合を得ると、最終的に生成された候補エンティティ集合は、S(e)∪D(e)であってもよい。このように類推すると、上記のようなステップ211、ステップ212及びステップ213〜214を採用することにより候補エンティティ集合を得ると、最終的に生成された候補エンティティ集合は、K(e)∪S(e)∪D(e)であってもよい。
【0087】
理解できるのは、生成された候補エンティティ集合がK(e)∪S(e)∪D(e)である場合、候補エンティティ集合には、予め設定されたナレッジグラフ中に検索しようとするエンティティとの関連関係が存在するエンティティ(K(e)における候補エンティティ)のみならず、検索しようとするエンティティとの検索会話履歴における共起回数が予め設定された第1の閾値を超えるエンティティ(S(e)における候補エンティティ)、及び、予め設定されたコーパスにおける、検索しようとするエンティティとの相関度が予め設定された相関度の閾値を超えるエンティティ(D(e)における候補エンティティ)も含まれるため、ユーザの興味度、期待度及びエンティティとの間の相関度の3つの面から、候補エンティティ集合に入れるエンティティを考慮して、候補エンティティ集合におけるそれぞれの成分と検索請求との異なる次元における相関性を実現する。
【0088】
図4を参照しながら示すように、本実施例のエンティティ推薦方法の一応用シーンの模式図である。
【0089】
図4に示す応用シーンにおいて、ユーザ410は、使用する端末デバイス(図示せず)により、あるエンティティの検索請求を検索サーバに送信することができる。符号401で示すように、検索サーバは、当該検索請求を受信した後、データベース402から検索しようとするエンティティに関連する候補エンティティ集合を取得することができる。続いて、符号403で示すように、検索サーバは、取得された候補エンティティ集合を予め訓練されたソートモデルに入力することにより、候補エンティティ集合における各候補エンティティをソートし、候補エンティティシーケンス404を得ることができる。そうすると、候補エンティティシーケンス404におけるソートN番目までの候補エンティティをユーザに推薦することができる。
【0090】
図5を参照しながら示すように、本願のエンティティ推薦方法の他の実施例の模式的なフローチャートである。
【0091】
本実施例の方法は、下記のようなステップを含む。
【0092】
ステップ510において、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得する。
【0093】
本実施例のステップ510は、図2に示す実施例におけるステップ210と類似する実行方式を有することができる。また、本実施例のステップ510において、検索しようとするエンティティに関連する候補エンティティ集合を取得する選択できる実施形態も、上記のようなステップ211、ステップ212、ステップ213〜ステップ214の方式、又は当該3つの方式の任意の組み合わせを参照することにより得られ、ここで記載を省略する。
【0094】
ステップ520において、前記候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得る。
【0095】
本実施例のエンティティ推薦方法において、ソートモデルは、下記のような方式により訓練されることができる。
【0096】
ステップ521において、訓練サンプル集合を生成し、当該訓練サンプル集合のそれぞれの訓練サンプルがトリプルとクリック行為タッグとを含み、当該リプルは、ユーザ身分標識と第1のエンティティと第2のエンティティとを含み、当該クリック行為タッグは、ユーザが第1のエンティティを検索して得られた検索結果の中で第2のエンティティに対してクリック行為をしたか否かを示す。
【0097】
のエンティティ(例えば、あるエンティティを一回検索して得られた検索結果ページに現れるエンティティ)である。
【0098】
また、クリック行為タッグyijkの値は、下記のような式により決定されることができる。
【0099】
【数6】
【0100】
行為をした集約クリック(aggregated click)を示すために用いられる。
る。
【0101】
ステップ522において、生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成する。その中、特徴ベクトルは、各
【0102】
ティと検索しようとするエンティティ間で存在する相互関連の関連程度と理解できる。候補エンティティと検索しようとするエンティティとの両者の相関度は、両者の、両者の具体的なコンテンツや主題の抽象などの面での類似度であってもよく、及び/又は、両者のナレッジグラフ、検索会話履歴、予め設定されたコーパス等の面での関連又は共起などの複数の指標の相関度(例えば、ナレッジグラフにおいて2つのエンティティが直接的な関連を有するか、又は、検索会話履歴における共起情報など)であってもよい。
【0103】
【0104】
な式(7)により決定されることができる。
【0105】
【数7】
【0106】
め設定されたナレッジグラフにおいて1つの接続線が存在すると理解できる。また、図3に示すナレッジグラフを例として、エンティティの「哺乳動物」とエンティティの「クジラ」とは、当該ナレッジグラフにおいて1つの接続線が存在するため、両者がそれぞれト
合、両者の相関度の特徴値は式(7)により「1」と決定されることができる。それに対して、エンティティの「哺乳動物」とエンティティの「魚」とは、図3に示すナレッジグラフにおいて接続線が存在しないため、両者がそれぞれトリプルにおける第1のエンティ
り「0」と決定されることができる。
【0107】
を採用することにより決定されることができる。理解できるのは、式(2)を利用してト
れた候補エンティティ集合に相応すべきである。
【0108】
(1)により決定されることができる。
【0109】
できる。
【0110】
【数8】
【0111】
潜在的ディリクレ配分法(latent dirichlet allocation、LDA)を利用して、ネットワークファイルに対してモデリングすることができる。例えば、ネットワークファイル集合における各ネットワークファイルの主題の特徴ベクトルを特徴づけるように、1つのLDAモデルを予め訓練することができる。そうすると、第1のエ
度を評価するための特徴値とすることができる。
【0112】
本実施例の複数の選択できる実施形態において、特徴ベクトルが、各トリプルにおける
【0113】
リック率の特徴値は、下記のような式(9)〜式(11)のうち少なくとも一つにより決定されることができる。
【0114】
【数9】
【数10】
【数11】
【0115】
ク回数であってもよい。
【0116】
【0117】
クリック率数値を得るようにすることができる。
【0118】
ク率の特徴値が上記式(9)〜式(11)の三者により決定されると、最終的に得られたサンプルの特徴ベクトルは、式(9)〜式(11)のそれぞれから計算された3つのクリック率の特徴値を有する。
【0119】
主題タイプのクリック率の特徴値は、下記のような式(12)〜式(14)のうち少なくとも一つにより決定されることができる。
【0120】
【数12】
【数13】
【数14】
【0121】
ここで、Tは、第1のエンティティeが所属する主題集合であり、Tは、第2のエンティティeが所属する主題集合である。
【0122】
のクリック率の特徴値が上記式(12)〜式(14)の三者により決定されると、最終的に得られたサンプルの特徴ベクトルは、式(12)〜式(14)のそれぞれから計算された3つのクリック率の特徴値を有する。
【0123】
ことができる。
【0124】
【数15】
【0125】
それらの応用シーンにおいて、まず、あるエンティティeを述べる描写語句sにおけるそれぞれの単語を、単語埋め込み行列(word embedding matrix)により1つの単語ベクトルにマッピングし、さらに、畳み込みニューラルネットワーク及びプーリング操作により、この描写語句を最終的に1つの語意ベクトルと表記することがで
語意ベクトル及び第2のエンティティeの語意ベクトルと理解でき、それに応じて、第1のエンティティと第2のエンティティとの語意の類似度の特徴値は、第1のエンティティeの語意ベクトルと第2のエンティティeの語意ベクトルとの間のコサインの類似度と理解できる。
【0126】
歴クリックデータに基づいて決定される、第2のエンティティに対するユーザ及び/又は第1のエンティティの関係の熟知度と、ユーザ及び/又は第1のエンティティeに対する
る第1のエンティティeのクリックの多様性と、のうち少なくとも一つを含む。
【0127】
理解できるのは、ある第2のエンティティeが既に第1のエンティティeを検索するユーザuにより発見された場合、当該ユーザが再び当該第1のエンティティeを検索する際に、当該第2のエンティティeを当該ユーザuに推薦すると、当該第2のエンティティeに対する当該ユーザuの熟知程度は比較的高くなり、即ち、当該第2のエンティティeに対する当該ユーザuの予期不可能性がより低くなる。
【0128】
クリックデータに基づいて決定される、第2のエンティティeに対するユーザu及び/又は第1のエンティティeの関係の熟知度を示すための特徴値を含むと、当該特徴値は、下記のような式(16)及び式(17)のうち少なくとも一つにより決定されることができる。
【0129】
【数16】
【数17】
【0130】
よりクリックされたネットワークファイルにおいて、それらのネットワークファイルの標
取得される、ユーザuによりクリックされたすべてのエンティティである。
【0131】
エンティティeをクリックしたユーザの数であり、Nは、予め設定された、第1のエンティティeと第2のエンティティeとの間の関係に対する大多数のユーザの熟知程度を特徴づけるための予め設定された閾値である。
【0132】
定される関係の熟知度の特徴値が、それぞれ上記式(16)〜式(17)の両者により決定されると、最終的に得られたサンプルの特徴ベクトルは、式(16)〜式(17)のそれぞれから計算された3つの関係の熟知度の特徴値を有する。
【0133】
本実施例の複数の選択できる実施形態において、特徴ベクトルが、ユーザu及び/又は
外度を示すための特徴値を含むと、それらの特徴値は、下記のような式(18)〜式(21)のうち少なくとも一つにより決定されることができる。
【0134】
【数18】
【数19】
【数20】
【数21】
【0135】
,e)=1−sim(e,e)であり、sim(e,e)は、上記式(8)により求められることができる。第2のエンティティeと当該集合における各成分との距離の最小値を求めることにより、第1のエンティティeに対する第2のエンティティeの意外度を評価することができる。
【0136】
しかしながら、式(18)及び/又は式(20)のみで第1のエンティティeに対する第2のエンティティeの意外度を評価する場合、第2のエンティティeは、ユーザuが完全に興味を持たなく、かつユーザuと完全に相関しないエンティティとなる可能性が高い。この課題を解決するために、上記のような式(19)及び/又は式(21)により、ユーザuの興味度を考慮することができる。
【0137】
かつ、
を満たす。
【0138】
【0139】
つ、
を満たす。
【0140】
理解できるのは、ユーザu及び/又は第1のエンティティeに対するトリプル
式(21)により決定されると、最終的に得られたサンプルの特徴ベクトルは、式(18)〜式(21)のそれぞれにより決定された第1のエンティティeに対する第2のエンティティeの意外度の特徴値を有する。
【0141】
おける第1のエンティティeのクリックの多様性を示すための特徴値を含むと、当該特徴値は、下記のような式(22)により決定されることができる。
【数22】
その中、
C(e)は、第1のエンティティeを検索して得られた検索結果において、クリックされたエンティティから構成される集合である。
【0142】
上記式(22)により決定されたクリックの多様性の特徴値は、第1のエンティティeを検索して得られた検索結果のクリックの多様性を直観的に反映することができる。
【0143】
理解できるのは、本ステップ522において、選択された特徴値が多くなるほど、訓練されて得られたソートモデルがソートする際に、ソート結果に影響を与える影響要因も相応的に多くなり、ソートモデルにより得られた候補エンティティシーケンスも、ユーザの興味度、期待度及びエンティティとの間の相関度などの面での需要をより適切に満たす。
【0144】
ステップ523において、訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて勾配ブースティング決定木モデルを訓練する。
【0145】
ここで、勾配ブースティング決定木モデルは、例えば、確率的勾配ブースティング決定木(stocastic Gradient Boosted Decision Tree、確率的GBDT)モデルであってもよい。ここで注意すべきなのは、確率的GBDTモデルにおける木の数、ノードの数、学習率、及びサンプリングレートなどのパラメータを調整することにより、訓練されたモデルが最適の効果を奏することができる。
【0146】
ステップ524において、交差エントロピー損失関数が最小となることに応答して、ソートモデルを生成する。
【0147】
ここで、交差エントロピー損失関数Loss(H)は、下記のような式(23)の表記形式を有することができる。
【0148】
【数22】
【0149】
確率的勾配ブースティング決定木モデルを訓練することにより、交差エントロピー損失関数Loss(H)が最小値を取れる際に相応するモデルを、最終的に得られたソートモデルとすることができる。
【0150】
さらに、図6を参照しながら、上記各図に示す方法の実現として、本願は、エンティティ推薦装置の一実施例を提供し、当該装置の実施例は、図2に示す方法の実施例に対応し、当該装置は、具体的に各種電子機器に適用することができる。
【0151】
図6に示すように、本実施例のエンティティ推薦装置は、取得ユニット610と、ソートユニット620と、推薦ユニット630とを含むことができる。
【0152】
取得ユニット610は、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得する、ように配置されることができる。
【0153】
ソートユニット620は、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得る、ように配置されることができる。
【0154】
推薦ユニット630は、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する、ように配置されることができる。
【0155】
本実施例において、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいて候補エンティティ集合をソートすることができる。
【0156】
複数の選択できる実施形態において、取得ユニット610は、検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、予め設定されたナレッジグラフ中に候補エンティティと検索しようとするエンティティとの関連関係が存在することに応答して、候補エンティティを候補エンティティ集合に添加する、ように配置されることができる。
【0157】
複数の選択できる実施形態において、取得ユニット610は、検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、検索会話履歴における候補エンティティと検索しようとするエンティティとの共起回数が予め設定された第1の閾値を超えることに応答して、候補エンティティを候補エンティティ集合に添加する、ように配置されることができる。
【0158】
複数の選択できる実施形態において、取得ユニット610は、検索しようとするエンティティに関連する候補エンティティ集合を取得する際に、さらに、予め設定されたコーパスにおける、検索しようとするエンティティと共起関係を有するエンティティを共起候補エンティティとし、検索しようとするエンティティとの相関度が予め設定された第2の閾値を超える共起候補エンティティを、候補エンティティ集合に添加する、ように配置されることができる。
【0159】
複数の選択できる実施形態において、本実施例のエンティティ推薦装置は、さらに、訓練ユニット(図示せず)を含むことができる。訓練ユニットは、ソートモデルを訓練する、ように配置されることができる。
【0160】
それらの選択できる実施形態において、訓練ユニットは、訓練サンプル生成モジュールと、特徴ベクトル生成モジュールと、反復訓練モジュールと、生成ユニットと、を含むことができる。当該訓練サンプル生成モジュールは、訓練サンプル集合を生成し、当該訓練サンプル集合のそれぞれの訓練サンプルは、トリプルとクリック行為タッグとを含む、ように配置され、当該トリプルは、ユーザ身分標識と第1のエンティティと第2のエンティティとを含み、当該クリック行為タッグは、第1のエンティティを検索して得られる検索結果の中でユーザが第2のエンティティに対してクリック行為をしたか否かを示す。当該特徴ベクトル生成モジュールは、生成された訓練サンプル集合におけるそれぞれの訓練サンプルに対して、当該訓練サンプルの特徴ベクトルを生成する、ように配置される。当該反復訓練モジュールは、訓練サンプル集合及び生成された特徴ベクトルを予め構築された勾配ブースティング決定木モデルに入力し、確率的勾配降下法のアルゴリズムに基づいて勾配ブースティング決定木モデルを訓練する、ように配置される。当該生成ユニットは、交差エントロピー損失関数が最小となることに応答して、ソートモデルを生成する、ように配置される。ここで、特徴ベクトルが、各トリプルにおける第1のエンティティと第2のエンティティとの間の相関度と、各トリプルにおけるユーザが当該トリプルにおける第2のエンティティに対する興味度と、各トリプルにおけるユーザが当該トリプルにおける第2のエンティティに対する期待度と、のうち少なくとも一つを示すための特徴値を含む。
【0161】
複数の選択できる実施形態において、各トリプルにおける第1のエンティティと第2のエンティティとの間の相関度を示すための成分は、トリプルにおける第1のエンティティと第2のエンティティとの予め設定されたナレッジグラフにおける相関度と、トリプルにおける第1のエンティティと第2のエンティティとの検索会話履歴における共起度と、トリプルにおける第1のエンティティと第2のエンティティとの予め設定されたコーパスにおける共起度と、トリプルにおける第1のエンティティと第2のエンティティとの主題の類似度と、のうち少なくとも一つを含む。
【0162】
複数の選択できる実施形態において、各トリプルにおけるユーザが当該トリプルにおける第2のエンティティに対する興味度を示すための特徴値は、当該トリプルにおける第2のエンティティのクリック率と、第2のエンティティが予め設定された分類表で所属する主題タイプのクリック率と、トリプルにおける第1のエンティティと第2のエンティティとの語意の類似度と、のうち少なくとも一つを含む。
【0163】
複数の選択できる実施形態において、各トリプルにおけるユーザが当該トリプルにおける第2のエンティティに対する期待度を示すための特徴値は、トリプルにおけるユーザの履歴クリックデータに基づいて決定される、第2のエンティティに対するユーザ及び/又は第1のエンティティの関係の熟知度と、ユーザ及び/又は第1のエンティティに対するトリプルにおける第2のエンティティの意外度と、トリプルにおける第1のエンティティのクリックの多様性と、のうち少なくとも一つを含む。
【0164】
続いて、図7を参照しながら、本願の実施例を実現するために適切なサーバのコンピュータシステム700の構造模式図である。図7に示すサーバは、1つの例示のみであり、本願の実施例の機能及び使用の範囲に何らかの限定を与えない。
【0165】
図7に示すように、コンピュータシステム700は、読み出し専用メモリ(ROM)702に記憶されたプログラム、又は記憶部708からランダムアクセスメモリ(RAM)703に取り込まれたプログラムにより各種適宜な動作及び処理を実行することができる中央処理装置(CPU)701を含む。RAM703において、システム700の操作に必要な各種のプログラム及びデータが記憶される。CPU701、ROM702及びRAM703は、バス704に介して互いに接続されている。入力/出力(I/O)インターフェース705もバス704に接続されている。
【0166】
ハードディスクなどを含む記憶部706と、LANカード、モデムなどのネットワークインターフェースカードを含む通信部707との部材がI/Oインターフェース705に接続されている。通信部707は、インターネットのようなネットワークを経由して、通信処理を実行する。ドライバ708も、必要に応じてI/Oインターフェース705に接続されている。磁気ディスク、光ディスク、磁気光ディスク、半導体メモリーなどのようなリムーバブルメディア709は、必要に応じて、その中から読み取られたコンピュータプログラムが必要に応じて記憶部706にインストールされることに適するように、ドライバ708に取り付けられる。
【0167】
特に、本発明の実施例によれば、以上のフローチャートを参照しながら記載されているプロセスは、コンピュータソフトウェアプログラムとして実現されることができる。例えば、本発明の実施例は、コンピュータ可読媒体に載せられるコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信部707を介してネットワークからダウンロードされてインストールされてもよく、及び/又はリムーバブルメディア709からインストールされてもよい。当該コンピュータプログラムが中央処理装置(CPU)701により実行される際に、本願の方法に限定された上記機能を実行する。なお、本願前記のコンピュータ可読媒体は、コンピュータ可読シグナル媒体、又はコンピュータ可読記憶媒体、あるいは上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、あるいは任意の上記の組み合わせであってもよいが、これらに限定するものではない。コンピュータ可読記憶媒体のより具体的な例は、一つ又は複数の導線を有する電気接続、便携式コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ケーブル、携帯式コンパクトディスク読み出し専用メモリ(CD−ROM)、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含むが、これらに限定するものではない。本願において、コンピュータ可読記憶媒体は、プログラムを含有又は記憶する任意の有形媒体であってもよく、当該プログラムは、コマンド実行システム、装置又はデバイスにより使用され、又はそれらと組み合わせて使用されることができる。本願において、コンピュータ可読のシグナル媒体は、ベースバンドにおいて又はキャリア波の一部として転送されるデータシグナルを含み、その中に、コンピュータ可読のプログラムコードが載せられる。このように転送されたデータシグナルは、電磁気シグナル、光シグナル、又は上記の任意の適切な組み合わせを含む種々の形式を採用することができるが、これらに限定するものではない。コンピュータ可読の信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、当該コンピュータ可読媒体は、コマンド実行システム、装置又はデバイスにより使用される、又はそれらと組み合わせて使用されるためのプログラムを送信、転送又は伝達することができる。コンピュータ可読媒体に含まれるプログラムコードは、無線、電線、光ケーブル、RFなど、又は上記の任意の適切な組み合わせを含む、任意の適切な媒体を用いて伝達されることができるが、それらに限定するものではない。
【0168】
一種又は複数種のプログラミング言語又はその組み合わせで本願の操作を実行するためのコンピュータプログラムコードを書くことができ、前記プログラミング言語は、Java、Smalltalk、C++のようなオブジェクト指向プログラミング言語を含み、さらに、「C」言語又は類似のプログラミング言語のような通常のプロシージャオリエンティドプログラミング言語を含む。プログラムコードは、完全的にユーザコンピュータで実行されてもよく、部分的にユーザコンピュータで実行されてもよく、1つの独立したソフトウェアパッケージとして実行されてもよく、一部がユーザコンピュータで実行され、一部がリモートコンピュータで実行されてもよく、あるいは、完全的にリモートコンピュータ又はサーバで実行されてもよい。リモートコンピュータに係る場合において、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含むいずれかの種類のネットワークにより、ユーザコンピュータに接続することができ、あるいは、外部コンピュータに接続することができる(例えば、インターネットサービスプロバイダによるインターネットにより接続する)。
【0169】
図面におけるフローチャート及びブロック図は、本願の各種実施例のシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャー、機能及び操作を図示する。この点から、フローチャート又はブロック図におけるそれぞれのブロックは、1つのモジュール、プログラムブロック、又はコードの一部を示すことができ、当該モジュール、プログラムブロック、又はコードの一部は、一つ又は複数の所定のロジカル機能を実現するための実行可能なコマンドを含む。なお、複数の代わりとする実現において、ブロックに標識された機能は、図面に標識された順番と異なる順番で発生することができる。例えば、2つの接続的に示されるブロックは、実際、基本的に並行的に実行されることができ、係る機能によって、これらは逆の順番で実行されることもある。なお、ブロック図及び/又はフローチャートにおけるそれぞれのブロック、及び、ブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用のハードウェアに基づくシステムにより実装されることができ、あるいは、専用ハードウェアとコンピュータコマンドの組み合わせにより実装されることができる。
【0170】
本願実施例に記載される係るユニットは、ソフトウェアの方式で実装されてもよく、ハードウェアの方式で実装されてもよい。記載されるユニットは、プロセッサーに設定されることができ、例えば、取得ユニットと、ソートユニットと、推薦ユニットとを含むプロセッサーとして記載されることができる。その中、それらのユニットの名称は、特定の場合において当該ユニット自身に対する限定とならなく、例えば、取得ユニットは、「受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得するユニット」と記載されることができる。
【0171】
他の態様として、本願は、コンピュータ可読媒体を提供し、当該コンピュータ可読媒体は、上記実施例に記載される装置に含まれるものであってもよく、当該装置に取り込まれなく、単独で存在するものであってもよい。上記コンピュータ可読媒体が一つ又は複数のプログラムを載せて、上記一つ又は複数のプログラムが当該装置により実行される際に、当該装置は、受信されたユーザのエンティティに対する検索請求に応答して、検索しようとするエンティティに関連する候補エンティティ集合を取得し、候補エンティティ集合を予め訓練されたソートモデルに入力して、候補エンティティシーケンスを得て、候補エンティティシーケンスから候補エンティティを選択し、選択された候補エンティティをユーザに推薦する。ここで、ソートモデルは、候補エンティティ集合における各候補エンティティと検索しようとするエンティティとの相関度と、候補エンティティ集合における各候補エンティティに対するユーザの興味度と、候補エンティティ集合における各候補エンティティに対するユーザの期待度と、のうち少なくとも一つに基づいて候補エンティティ集合をソートする。
【0172】
以上の記載は、本願の好ましい実施例、及び使用された技術的原理の説明に過ぎない。当業者は、本願に係る発明の範囲は、上記した技術的特徴の特定な組合せからなる技術案に限定されることではなく、本発明の趣旨を逸脱しない範囲で、上記技術的特徴又は同等の特徴の任意の組合せからなる他の技術案も含むべきであることを理解すべきである。例えば、上記特徴と、本願に開示された類似の機能を持っている技術的特徴(これらに限定されていない)とを互いに置き換えてなる技術案を含む。
図1
図2
図3
図4
図5
図6
図7