特許第6073345号(P6073345)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アリババ・グループ・ホールディング・リミテッドの特許一覧

特許6073345検索結果をランク付けする方法および装置ならびに検索方法および装置
<>
  • 特許6073345-検索結果をランク付けする方法および装置ならびに検索方法および装置 図000016
  • 特許6073345-検索結果をランク付けする方法および装置ならびに検索方法および装置 図000017
  • 特許6073345-検索結果をランク付けする方法および装置ならびに検索方法および装置 図000018
  • 特許6073345-検索結果をランク付けする方法および装置ならびに検索方法および装置 図000019
  • 特許6073345-検索結果をランク付けする方法および装置ならびに検索方法および装置 図000020
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6073345
(24)【登録日】2017年1月13日
(45)【発行日】2017年2月1日
(54)【発明の名称】検索結果をランク付けする方法および装置ならびに検索方法および装置
(51)【国際特許分類】
   G06F 17/30 20060101AFI20170123BHJP
【FI】
   G06F17/30 380E
   G06F17/30 170A
   G06F17/30 320C
【請求項の数】19
【全頁数】27
(21)【出願番号】特願2014-539150(P2014-539150)
(86)(22)【出願日】2012年10月31日
(65)【公表番号】特表2014-532928(P2014-532928A)
(43)【公表日】2014年12月8日
(86)【国際出願番号】US2012062673
(87)【国際公開番号】WO2013066929
(87)【国際公開日】20130510
【審査請求日】2015年10月7日
(31)【優先権主張番号】201110338609.6
(32)【優先日】2011年10月31日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】510330264
【氏名又は名称】アリババ・グループ・ホールディング・リミテッド
【氏名又は名称原語表記】ALIBABA GROUP HOLDING LIMITED
(74)【代理人】
【識別番号】110001243
【氏名又は名称】特許業務法人 谷・阿部特許事務所
(72)【発明者】
【氏名】ジョウ ヘンミン
【審査官】 吉田 誠
(56)【参考文献】
【文献】 特開2001−134588(JP,A)
【文献】 特開2011−128669(JP,A)
【文献】 特開2006−163998(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
コンピュータ装置によって実行される検索結果をランク付けする方法であって、
キーワード要素決定ユニットが、キーワードに関連する1つ以上のキーワード要素を決定することであって、前記1つ以上のキーワード要素は、検索エンジンに入力されたキーワードの中で予め定められた閾値よりも高い入力率を有するキーワードに基づいて生成されることと、
第1の関連性値決定ユニットが、前記キーワードに基づいて得られたそれぞれの検索結果に対して、キーワード要素、検索結果、ならびに前記検索結果と前記キーワード要素との関連性を測定するために使用される第1の関連性値の間の予め記憶された対応関係から、前記キーワードに基づいて得られた前記検索結果および決定された前記1つ以上のキーワード要素の両方に対応する第1の関連性値を別々に決定し、前記キーワードと前記決定されたキーワード要素との関連性を測定するために使用される第2の関連性値を別々に決定することと、
ランク付けスコア決定ユニットが、前記第1の関連性値および前記第2の関連性値を使用して、前記キーワードに基づいて得られたそれぞれの検索結果のランク付けスコアを別々に決定することと、
ランク付けユニットが、それぞれの検索結果の前記ランク付けスコアに基づいて、前記検索結果のランク付け順を指示するために使用されるランク付け情報を決定することと、を含む、方法。
【請求項2】
前記第1の関連性値および前記第2の関連性値を使用して、前記キーワードに基づいて得られたそれぞれの検索結果のランク付けスコアを別々に決定することは、
前記キーワードに基づいて得られた前記検索結果のそれぞれに対して、
前記キーワード要素のそれぞれに対して、前記キーワード要素が検索のキーワードとして使用される前記検索結果が提示されるたびに、最高広告収入のデータ値を決定し、
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される第2の関連性値、および最高広告収入の前記データ値に基づいて、前記検索結果のランク付けスコアを決定し、
前記検索結果のランク付けスコアとして前記キーワード要素のそれぞれの前記ランク付けスコアから最高スコアを選択する、行為を行うことを含む、請求項1に記載の方法。
【請求項3】
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される前記第2の関連性値、および最高広告収入の前記データ値に基づいて、前記検索結果の前記ランク付けスコアを決定することは、
前記キーワード要素のそれぞれに対して、前記検索結果が属する情報カテゴリと前記キーワード要素が属する情報カテゴリとの関連性を測定するために使用されるカテゴリ特性スコアを決定することと、
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記データ値、および前記カテゴリ特性スコアに基づいて、前記検索結果の前記ランク付けスコアを決定することと、を含む、請求項2に記載の方法。
【請求項4】
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される前記第2の関連性値、および最高広告収入の前記データ値に基づいて、前記検索結果の前記ランク付けスコアを決定することは、
前記キーワード要素のそれぞれに対して、前記キーワード要素が検索の前記キーワードとして使用される前記検索結果と関連付けられるクリック率を決定することと、
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との前記関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との前記関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記データ値、および前記クリック率に基づいて、前記検索結果の前記ランク付けスコアを決定することと、を含む、請求項2に記載の方法。
【請求項5】
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との前記関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との前記関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記データ値、および前記クリック率に基づいて、前記検索結果の前記ランク付けスコアを決定することは、
前記キーワード要素のそれぞれに対して、前記検索結果が属する情報カテゴリと前記キーワード要素が属する情報カテゴリとの関連性を測定するために使用されるカテゴリ特性スコアを決定することと、
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との前記関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との前記関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記データ値、前記クリック率、および前記カテゴリ特性スコアに基づいて、前記検索結果の前記ランク付けスコアを決定することと、を含む、請求項4に記載の方法。
【請求項6】
前記キーワード要素は、前記キーワードを分割することによって生成されるキーワード要素、前記キーワードから特殊文字を削除した後に残るキーワード要素、前記キーワードに近い意味を有するキーワード要素、前記キーワードが属する情報カテゴリに関連すると決定されるキーワード要素、ならびに他のキーワードと前記キーワードとの共起の確率に基づいて決定されるキーワード要素を含む、請求項1に記載の方法。
【請求項7】
前記第1の関連性値決定ユニットが、勾配ブースト決定木(GBDT)または線形モデルを使用して、前記キーワードに基づいて得られた前記検索結果および決定された前記1つ以上のキーワード要素の両方に対応する前記第1の関連性値を計算することをさらに含む、請求項1に記載の方法。
【請求項8】
コンピュータ装置によって実行される検索方法であって、
検索要求受信ユニットが、キーワードを含む検索要求を受信することと、
ランク付け情報決定ユニットが、前記キーワードに基づいて検索結果を求め、前記検索結果のランク付け順を指示するために使用されるランク付け情報を決定することと、
送信ユニットが、前記検索結果および前記ランク付け情報を前記検索要求に対応する送信者の装置に送信し、前記ランク付け情報に従って前記検索結果を順序付けるように前記送信者の装置に指示することと、を含む、方法であって、前記方法は、
キーワード要素決定ユニットが、前記キーワードに関連するキーワード要素を決定することであって、前記キーワード要素は、検索エンジンに入力されたキーワードの中で予め定められた閾値よりも高い入力率を有するキーワードに基づいて生成されることと、
第1の関連性値決定ユニットが、前記キーワードに基づいて得られたそれぞれの検索結果に対して、前記キーワード要素、前記検索結果、ならびに前記検索結果と前記キーワード要素との関連性を測定するために使用される第1の関連性値の間の予め記憶された対応関係から、前記検索結果および前記キーワード要素の両方に対応する第1の関連性値を別々に決定し、前記キーワードと前記決定されたキーワード要素との関連性を測定するために使用される第2の関連性値を別々に決定することと、
ランク付けスコア決定ユニットが、前記第1の関連性値および前記第2の関連性値を使用して、前記キーワードに基づいて得られたそれぞれの検索結果のランク付けスコアを別々に決定することであって、前記ランク付け情報を決定することが、それぞれの検索結果の前記ランク付けスコアに基づいて、前記検索結果の前記ランク付け順を指示するために使用される前記ランク付け情報を決定することを含むことと、
をさらに含む、方法
【請求項9】
前記第1の関連性値および前記第2の関連性値を使用して、前記キーワードに基づいて得られたそれぞれの検索結果のランク付けスコアを別々に決定することは、
前記キーワードに基づいて得られた検索結果のそれぞれに対して、
前記キーワード要素のそれぞれに対して、前記キーワード要素が検索のキーワードとして使用される前記検索結果が提示されるたびに、最高広告収入のデータ値を決定し、
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される第2の関連性値、および最高広告収入の前記データ値に基づいて、前記検索結果のランク付けスコアを決定し、
前記検索結果のランク付けスコアとして前記キーワード要素のそれぞれの前記ランク付けスコアから最高スコアを選択する、行為を行うことを含む、請求項に記載の方法。
【請求項10】
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される前記第2の関連性値、および最高広告収入の前記データ値に基づいて、前記検索結果の前記ランク付けスコアを決定することは、
前記キーワード要素のそれぞれに対して、前記検索結果が属する情報カテゴリと前記キーワード要素が属する情報カテゴリとの関連性を測定するために使用されるカテゴリ特性スコアを決定することと、
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記データ値、および前記カテゴリ特性スコアに基づいて、前記検索結果の前記ランク付けスコアを決定すること、を含む、請求項に記載の方法。
【請求項11】
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される前記第2の関連性値、および最高広告収入の前記データ値に基づいて、前記検索結果の前記ランク付けスコアを決定することは、
前記キーワード要素のそれぞれに対して、前記キーワード要素が検索の前記キーワードとして使用される前記検索結果と関連付けられるクリック率を決定することと、
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との前記関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との前記関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記データ値、および前記クリック率に基づいて、前記検索結果の前記ランク付けスコアを決定することと、を含む、請求項に記載の方法。
【請求項12】
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との前記関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との前記関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記データ値、および前記クリック率に基づいて、前記検索結果の前記ランク付けスコアを決定することは、
前記キーワード要素のそれぞれに対して、前記検索結果が属する情報カテゴリと前記キーワード要素が属する情報カテゴリとの関連性を測定するために使用されるカテゴリ特性スコアを決定することと、
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との前記関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との前記関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記データ値、前記クリック率、および前記カテゴリ特性スコアに基づいて、前記検索結果の前記ランク付けスコアを決定することと、を含む、請求項11に記載の方法。
【請求項13】
前記キーワード要素は、前記キーワードを分割することによって生成されるキーワード要素、前記キーワードから特殊文字を削除した後に残るキーワード要素、前記キーワードに近い意味を有するキーワード要素、前記キーワードが属する情報カテゴリに関連すると決定されるキーワード要素、ならびに他のキーワードと前記キーワードとの共起の確率に基づいて決定されるキーワード要素を含む、請求項8に記載の方法。
【請求項14】
前記第1の関連性値決定ユニットが、勾配ブースト決定木(GBDT)または線形モデルを使用して、前記キーワードに基づいて得られた前記検索結果および決定された前記キーワード要素の両方に対応する前記第1の関連性値を計算することをさらに含む、請求項8に記載の方法。
【請求項15】
キーワードに関連するキーワード要素を決定するように構成されるキーワード要素決定ユニットであって、前記キーワード要素は、検索エンジンに入力されたキーワードの中で予め定められた閾値よりも高い入力率を有するキーワードに基づいて生成される、キーワード要素決定ユニットと、
前記キーワードに基づいて得られたそれぞれの検索結果に対して、キーワード要素、検索結果、ならびに前記検索結果と前記キーワード要素との関連性を測定するために使用される第1の関連性値の間の予め記憶された対応関係から、前記キーワードに基づいて得られた前記検索結果および決定された前記キーワード要素の両方に対応する第1の関連性値を別々に決定し、かつ前記キーワードと前記キーワード要素決定ユニットによって決定された前記キーワード要素との関連性を測定するために使用される第2の関連性値を別々に決定するように構成される、第1の関連性値決定ユニットと、
前記キーワードと前記キーワード要素決定ユニットによって決定された前記キーワード要素との関連性を測定するために使用される第2の関連性値を別々に決定するように構成される、第2の関連性値決定ユニットと、
前記第1の関連性値決定ユニットによって決定された前記第1の関連性値および前記第2の関連性値決定ユニットによって決定された前記第2の関連性値を使用して、前記キーワードに基づいて得られるそれぞれの検索結果のランク付けスコアを別々に決定するように構成される、ランク付けスコア決定ユニットと、
前記ランク付けスコア決定ユニットによって決定されるそれぞれの検索結果の前記ランク付けスコアに従って前記検索結果のランク付け順を指示するために使用される前記ランク付け情報を決定するように構成される、ランク付けユニットと、を備える、装置。
【請求項16】
前記ランク付けスコア決定ユニットは、
前記キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、前記キーワード要素がキーワードとして使用される前記検索結果が提示されるたびに、得られる最高広告収入のデータ値を決定するように構成される、最高広告収入データ値決定サブユニットと、
前記キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される前記第2の関連性値、および前記最高広告収入データ値決定サブユニットによって決定された最高広告収入の前記データ値に基づいて、前記検索結果の前記ランク付けスコアを決定するように構成される、ランク付けスコア決定サブユニットと、
関連付けられた検索結果のランク付けスコアとして前記ランク付けスコア決定サブユニットによって決定された前記キーワード要素の前記ランク付けから最高ランク付けスコアを選択するように構成される、ランク付けスコア選択サブユニットと、を備える、請求項15に記載の装置。
【請求項17】
前記ランク付けスコア決定サブユニットは、
前記キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、前記検索結果が属する情報カテゴリと前記キーワード要素が属する情報カテゴリとの関連性を測定するカテゴリ特性スコアを決定するように構成される、カテゴリ特性スコア決定モジュールと、
前記キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記データ値、および前記カテゴリ特性スコア決定モジュールによって決定された前記カテゴリ特性スコアに基づいて、前記検索結果の前記ランク付けスコアを決定するように構成される、ランク付けスコア決定モジュールと、を備える、請求項16に記載の装置。
【請求項18】
前記ランク付けスコア決定サブユニットは、
前記キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、前記キーワード要素を使用することが検索のキーワードとして使用されるときに、前記検索結果と関連付けられるクリック率を決定するように構成される、クリック率決定モジュールと、
前記キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される前記第2の関連性値、前記最高広告収入データ値決定サブユニットによって決定された最高広告収入の前記データ値、および前記クリック率決定モジュールによって決定された前記クリック率に基づいて、前記検索結果の前記ランク付けスコアを決定するように構成される、ランク付けスコア決定モジュールと、を備える、請求項16に記載の装置。
【請求項19】
前記ランク付けスコア決定サブユニットは、
前記キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、前記検索結果が属する情報カテゴリと前記キーワード要素が属する情報カテゴリとの関連性を測定するカテゴリ特性スコアを決定するように構成される、カテゴリ特性スコア決定サブモジュールと、
前記キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記対応するデータ値、前記クリック率、および前記カテゴリ特性スコア決定サブモジュールによって決定された前記カテゴリ特性スコアに基づいて、前記検索結果の前記ランク付けスコアを決定するように構成される、ランク付けスコア決定サブモジュールと、を備える、請求項18に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
(関連特許出願の相互参照)
本出願は、2011年10月31日出願の中国特許出願第201110338609.6号、名称「Method and Apparatus of Ranking Search Results,and Search Method and Apparatus」の外国優先権を主張するものであり、参照によりその全体が本明細書に組み込まれる。
【0002】
本開示は、データ検索技術の分野に関し、具体的には検索結果をランク付けする方法および装置ならびに検索方法および装置に関する。
【背景技術】
【0003】
インターネット検索技術の分野では、キーワード検索は、ユーザから入力される検索キーワード(クエリーとも呼ばれる)に基づいて、検索エンジンサーバによって膨大な量のデータから生成される指標から検索キーワードと一致する指標を検索すること、およびユーザへの指標に対応する検索結果(すなわち、求められたデータ)を提示することに対応する。検索結果を提示すると、検索結果は、検索キーワードとのそれぞれの関連性に従って最初にランク付けされ、次いでユーザに提示されてもよい。
【0004】
一般的に、検索結果が提示されるウェブページ上の検索結果をランク付けするための原理は、検索結果と関連付けられた検索キーワードとの関連性の降順に、上から下に(またはフロントエンドからバックエンドへ)検索結果を配列することである。検索結果と検索キーワードとの関連性値が検索結果とユーザの検索意図との関連性度を反映するため、上記のランク付け原理を採用する利点は、ユーザの検索意図を表すそれらの結果がウェブページで比較的より高い(またはよりフロントエンド)位置に示されることである。したがって、これらの結果は、ユーザによってより容易に気付かれ、それ故にユーザの検索体験を改善することができる。
【0005】
検索結果と検索キーワードとのそれぞれの関連性に従って検索結果のランク付けを達成するために、既存の技術は、いくつかのランク付けモデルを提供し、これは、比較的十分に開発されたモデルが千回ごとに検索結果を表示することによって広告収入を得る「1000あたりの有効単価(ECPM)」ランク付けモデルであり、ECPMモデルと略称される。ECPMモデルの基本理念は、検索結果のそれぞれのランク付けスコアを計算し、計算されたランク付けスコアに基づいて検索結果のランク付け順を決定することである。具体的には、このモデルは、以下の数式[1]などのランク付けスコアを計算する数式を用いる。
【0006】
【数1】
【0007】
式中、Sはキーワード検索のi番目の検索結果のランク付けスコアであり、Aはi番目の検索結果とキーワードとの関連性を測定する関連性値であり、γはSに与えるAの影響を調整するために使用される重み値であり、Cは、i番目の検索結果が提示されるたびに、得られ得る最高広告収入のデータ値である。
【0008】
一般的に、Aは、一連の特性に対応する固有ベクトルを機械学習モデルに代入することによって計算されることが可能である。例示的な特性関連情報が以下のように表1に示される。
【0009】
【表1-1】
【0010】
【表1-2】
【0011】
特定のキーワードの場合、キーワードとキーワードに基づいて求められるi番目の検索結果との関連性を反映する関連性値を計算するために、表1の固有ベクトルv〜vが最初に計算されてもよく、次いで重み値w〜wがそれに応じて決定されてもよい。v〜vおよびw〜wの値に基づいて、Aは、以下の数式[2]を使用して決定されてもよい。
【0012】
【数2】
【0013】
過去の経験に基づいて、クリックフィードバックに関連するv(例えば、vなど)がAを計算するために使用されるときに、vは通常、最終的に計算されたAに最大の影響を与える。
【0014】
頻繁に入力され、比較的少ないキーワード要素を含む「最も検索されたキーワード」の場合、クリックフィードバックに関連するvなどの固有ベクトルは、比較的多数の検索結果が通常、最も検索されたキーワードに基づいて求められるため比較的正確である。したがって、検索結果のより良いランク付け方式が最後に得られ得る。しかしながら、入力頻度がより低く、より多くのキーワード要素を含む「ロングテールキーワード」の場合、ロングテールキーワードに基づく検索で得られる検索結果の数は通常、最も検索されたキーワードと比較して非常に少ない。したがって、クリックフィードバックに関連する固有ベクトルは、これらの不十分な検索結果に基づいて決定されるのは難しい。したがって、検索結果とキーワードとの関連性を測定する上記の数式[2]に基づいて計算される関連性値は通常、十分に正確ではなく、検索結果の不正確なランク付けにつながる。さらに、不正確なランク付け結果は、ユーザに検索を繰り返させ、それ故に検索サーバの作業負荷を増大させるだけではなくネットワーク帯域の占有を増大させ得る。
【発明の概要】
【0015】
本概要は、発明を実施するための形態にさらに後述される簡略化された形態で概念の選択を紹介するために提供される。本概要は、特許請求の主題のすべての重要な特徴または本質的な特徴を識別するように意図されず、また特許請求の主題の範囲を決定することの補助としてのみに使用されることを意図されない。例えば、用語「技法」は、上記の文脈によって、かつ本開示にわたって認められるようにデバイス(複数可)、システム(複数可)、方法(複数可)、および/またはコンピュータ可読命令を指すことができる。
【0016】
本開示の実施形態は、検索サーバの作業負荷およびネットワーク帯域の占有が低減され得るように、既存の技術がロングテールキーワードのために求められる検索結果をランク付けするために使用されるときに不正確なランク付けの問題を解決するために検索結果をランク付けする方法および装置を提供する。
【0017】
本開示の実施形態は、検索方法および装置をさらに提供する。
【0018】
本開示の実施形態は、以下の技術的方式を採用する。
【0019】
検索結果をランク付けする方法は、キーワードに関連するキーワード要素を決定することと、キーワードに基づいて得られたそれぞれの検索結果に対して、キーワード要素、検索結果、ならびに検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値の間の予め記憶された対応関係から、キーワードに基づいて得られた検索結果および決定されたキーワード要素の両方に対応する第1の関連性値をそれぞれ決定し、キーワードと決定されたキーワード要素との関連性を測定するために使用される第2の関連性値をそれぞれ決定することと、第1の関連性値および第2の関連性値を使用して、キーワードに基づいて得られたそれぞれの検索結果のランク付けスコアをそれぞれ決定することと、それぞれの検索結果のランク付けスコアに基づいて、検索結果のランク付け順を指示するために使用されるランク付け情報を決定することとを含む。
【0020】
検索方法は、キーワードを含む検索要求を受信することと、キーワードに基づいて関連した検索結果を求め、検索結果のランク付け順を指示するために使用されるランク付け情報を決定することと、検索結果およびランク付け情報を検索要求に対応する送信者の装置に送信し、ランク付け情報に従って検索結果を順序付けるように送信者の装置に指示することとを含み、ランク付け情報が検索結果をランク付けする前述の方法を使用して決定され得る。
【0021】
検索結果をランク付けする装置は、キーワードに関連するキーワード要素を決定するように構成されるキーワード要素決定ユニットと、キーワードに基づいて得られたそれぞれの検索結果に対して、キーワード要素、検索結果、ならびに検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値の間の予め記憶された対応関係から、キーワードに基づいて得られた検索結果および決定されたキーワード要素の両方に対応する第1の関連性値をそれぞれ決定し、かつキーワードとキーワード要素決定ユニットによって決定されるキーワード要素との関連性を測定するために使用される第2の関連性値をそれぞれ決定するように構成される第1の関連性値決定ユニットと、キーワードとキーワード要素決定ユニットによって決定されるキーワード要素との関連性を測定するために使用される第2の関連性値をそれぞれ決定するように構成される第2の関連性値決定ユニットと、第1の関連性値決定ユニットによって決定された第1の関連性値および第2の関連性値決定ユニットによって決定された第2の関連性値を使用して、キーワードに基づいて得られるそれぞれの検索結果のランク付けスコアをそれぞれ決定するように構成されるランク付けスコア決定ユニットと、ランク付けスコア決定ユニットによって決定されたそれぞれの検索結果のランク付けスコアに従って検索結果のランク付け順を指示するために使用されるランク付け情報を決定するように構成されるランク付けユニットとを含む。
【0022】
検索装置は、キーワードを含む検索要求を受信するように構成される検索要求受信ユニットと、検索要求受信ユニットによって受信される検索要求内に含まれるキーワードに基づいて、関連した検索結果を求めるように構成される検索ユニットと、検索ユニットによって求められた検索結果のランク付け順を指示するために使用されるランク付け情報を決定するように構成されるランク付け情報決定ユニットと、検索ユニットによって得られた検索結果およびランク付け情報決定ユニットによって決定されたランク付け情報を検索要求に対応する送信者の装置に送信し、かつランク付け情報に従って検索結果を順序付けるように送信者の装置に指示するように構成される送信ユニットとを含み、ランク付け情報決定ユニットが検索結果をランク付けする前述の装置を含み得る。
【0023】
本開示の実施形態の利点は以下の通りである。
【0024】
本開示の実施形態によって提供される技術的方式を使用して、ロングテールキーワードに対応する検索結果のランク付けスコアが決定されるとき、ロングテールキーワードと検索結果との関連性を測定する関連性値が直接計算される必要はない。それよりむしろ、ロングテールキーワードと検索結果との関連性は、ロングテールキーワードとキーワード要素との関連性、ならびにキーワード要素と検索結果との関連性に変換される。キーワード要素に基づいて得られる検索結果の数が通常、ロングテールキーワードに基づいて得られた検索結果の数より多いため、クリックフィードバックに関連し、かつキーワード要素と検索結果との関連性を測定する関連性値を計算するのに使用される固有ベクトルは比較的正確である。したがって、ランク付けスコアの精度、それ故、検索結果のランク付けの精度が改善され、ひいては検索サーバの作業負荷およびネットワーク帯域の占有を低減する。
【図面の簡単な説明】
【0025】
図1】本開示の実施形態において提供される検索結果をランク付けする方法を例示するフローチャートを示す。
図2】本開示の実施形態において提供される技術的方式を実施するためのシステムを例示する構造図を示す。
図3】実践での例示的な方法を例示するフローチャートを示す。
図4】本開示の実施形態において提供される検索結果をランク付けする装置の構造図を示す。
図5図4に記載されるような例示的な装置の構造図を示す。
【発明を実施するための形態】
【0026】
既存の技術がロングテールキーワードについて求められた検索結果をランク付けするために使用される際の不正確なランク付けの問題を克服するために、本開示の実施形態は、検索結果をランク付けする方法を提供する。ロングテールキーワードと検索結果との関連性をロングテールキーワードとキーワード要素との関連性ならびにキーワード要素と検索結果との関連性に変換することによって、クリックフィードバックに関連し、かつ関連性値を計算するのに使用される固有ベクトルがより正確になる。したがって、ランク付けスコアの精度は改善され、それ故に検索結果のランク付けの精度を改善することができる。
【0027】
本開示の実施形態において提供される方法を実施する特定のプロセスが、添付の図とともに以下に詳細に記載される。
【0028】
図1は、本開示の実施形態において提供される検索結果をランク付けする方法を例示するフローチャートを示し、これは、以下の手順を含む。
【0029】
ブロック11では、キーワードに関連するキーワード要素を決定する。
【0030】
本実施形態では、ユーザクライアントから送信されるキーワードに関連するキーワード要素は、クエリーリライト(QR)などを含むが限定されない技術を使用して決定されてもよい。一般的に、キーワードを分割することによって生成されるキーワード要素以外に、決定されたキーワード要素はまた、キーワードから特殊文字を削除した後に残るキーワード要素、キーワードに近い意味を有するキーワード要素、キーワードが属する情報カテゴリに関連すると決定されるキーワード要素、および他のキーワードとキーワードとの共起の確率に基づいて決定されるキーワード要素など、1つ以上の種類を含むことができる。具体的には、英語のキーワードの場合、決定されたキーワード要素は、キーワードの文字の大文字と小文字の変換後に得られるキーワード要素をさらに含むことができる。
【0031】
一般的に、キーワード要素に含まれる文字の数は、キーワード自体に含まれる文字の数より少ない。したがって、キーワード要素に基づいて得られる検索結果の数は通常、キーワードに基づいて得られる検索結果の数より多い。
【0032】
ブロック12では、キーワードに基づいて得られたそれぞれの検索結果に対して、キーワード要素、検索結果、ならびに検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値の間の予め記憶された対応関係から、キーワードに基づいて得られた検索結果および決定されたキーワード要素の両方に対応する第1の関連性値を個別に決定する。
【0033】
この実施形態では、検索結果のランク付けスコアを計算する効率を確保するために、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値は、予め計算され、記憶されてもよい。検索結果のランク付けスコアが後の段階で計算されるとき、キーワードに基づいて得られた検索結果に対応する第1の関連性値が、記憶された第1の関連性値から直接選択されてもよい。第1の関連性値を計算するときに参照されるキーワード要素がユーザによって検索エンジンに予め入力されたキーワードに基づいて統計的に生成され得ることに留意されたい。このようなキーワードは、検索エンジンに予め入力されたすべてのキーワード、および/または検索エンジンに入力されたキーワードの間の所定の閾値より高い入力率を有するキーワードなどであってもよい。
【0034】
具体的には、第1の関連性値は、既存の技術において比較的十分に開発されている勾配ブースト決定木(GBDT)モデルまたは線形モデルを使用して計算されてもよい。これら2つのモデルを使用して第1の関連性値を計算する特定の例は、後節において提供され、本明細書に重複して記載されない。上記のモデルを使用して第1の関連性値を計算する際に、キーワード要素、検索結果、ならびに検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値の間の対応関係は、検索結果のランク付けスコアが後の段階で計算されるときにデータ支援を提供するためにそれに応じて記憶されてもよい。
【0035】
ブロック13では、キーワードと決定されたキーワード要素との関連性を測定するために使用される第2の関連性値を決定する。
【0036】
この実施形態では、いくつかの方法が第2の関連性値を計算するために使用されてもよい。例えば、第2の関連性値は、キーワードとキーワード要素とのテキスト関連性、それぞれの関係者が属する情報カテゴリ間の関連性、または共起の確率(共起確率と略称される)に基づいて計算されてもよい。
【0037】
テキスト関連性に基づいて第2の関連性値を計算する特定の手法は、キーワードとキーワード要素とのテキスト一致度を測定するテキスト一致値を決定することと、決定されたテキスト一致値に基づいて、第2の関連性値とテキスト一致値との予め構成された対応関係からテキスト一致値に対応する第2の関連性値を決定することとを含む。
【0038】
カテゴリ関連性に基づいて第2の関連性値を計算する特定の手法は、キーワードおよびキーワード要素が属するそれぞれの情報カテゴリ間の関連性度に基づいて第2の関連性値を計算することを含む。
【0039】
共起確率に基づいて第2の関連性値を計算する特定の手法は、キーワードおよびキーワード要素が同一のテキストで共起する確率に基づいて第2の関連性値を計算することを含む。
【0040】
これらの計算方法を実施する詳細が後続の例示的な実施形態に記載され、したがって本明細書に重複して記載されない。
【0041】
ブロック12およびブロック13の実行の上記順が逆転され得ることに留意されたい。また、ブロック12およびブロック13は、並行して実行されてもよい。
【0042】
ブロック14では、第1の関連性スコアおよび第2の関連性スコアを使用して、キーワードに基づいて求められるそれぞれの検索結果に対してランク付けスコアを決定する。
【0043】
この実施形態では、ブロック14は、多くの異なる手法で実施されてもよい。下記は、これらの手法の実施プロセスの説明を提供する。
【0044】
第1の手法:
キーワードに基づいて求められるそれぞれの検索結果に対して、以下のプロセスが行われる。
最初に、それぞれの決定されたキーワード要素に対して、このキーワード要素がキーワードとして使用される検索結果が提示されるたびに、最高広告収入のデータ値を決定し、
次に、それぞれの決定されたキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、および最高広告収入の対応するデータ値に基づいて、検索結果のランク付けスコアを決定し、
最後に、それぞれのキーワード要素の決定されたランク付けスコアから、検索結果と関連付けられるランク付けスコアとして最高スコアを選択する。
【0045】
第2の手法:
第2の手法は、それぞれの決定されたキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、および最高広告収入の対応するデータ値に基づいて、検索結果のランク付けスコアを決定する第1の手法とは異なり、以下の手順を含むことができる。
最初に、それぞれの決定されたキーワード要素に対して、検索結果が属する情報カテゴリとキーワード要素が属する情報カテゴリとの関連性を測定するために使用されるカテゴリ特性スコアを決定し、
次に、それぞれの決定されたキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、最高広告収入の対応するデータ値、および対応するカテゴリ特性スコアに基づいて、検索結果のランク付けスコアを決定する。
【0046】
第3の手法:
第3の手法は、それぞれの決定されたキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、および最高広告収入の対応するデータ値に基づいて、検索結果のランク付けスコアを決定する第1の手法とは異なり、以下の手順を含むことができる。
それぞれの決定されたキーワード要素に対して、そのキーワード要素がキーワードとして使用されるときに検索結果のクリック率を決定し、
それぞれの決定されたキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、最高広告収入の対応するデータ値、およびクリック率に基づいて、検索結果のランク付けスコアを決定する。
【0047】
第4の手法:
第4の手法は、それぞれの決定されたキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、最高広告収入の対応するデータ値、およびクリック率に基づいて、検索結果のランク付けスコアを決定する第3の手法とは異なり、以下の手順を含むことができる:
最初に、それぞれの決定されたキーワード要素に対して、検索結果が属する情報カテゴリとキーワード要素が属する情報カテゴリとの関連性を測定するために使用されるカテゴリ特性スコアを決定し、
次いで、それぞれの決定されたキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、最高広告収入の対応するデータ値、対応するクリック率、およびカテゴリ特性スコアに基づいて、検索結果のランク付けスコアを決定する。
【0048】
ロングテールキーワードの場合、それに基づいて得られる検索結果の数は非常に少ない。これらの少ない検索結果を考慮して、ユーザは、検索結果の数がユーザの期待に応えないため、任意の検索結果をクリックすることをあきらめるか、またはユーザの検索意図を無視し、1つずつ検索結果をクリックするかのいずれかであり得る。これは通常、上記のクリック率が実際にユーザの検索意図とのその関係を測定するのを困難にする。したがって、第1および第2の手法は、この実施形態に用いられるのが好ましい。これら2つの手法の共通点は、クリック率の影響がランク付けスコアの計算に含まれないことである。
【0049】
ブロック15では、それぞれの検索結果のランク付けスコアを使用して、キーワードに基づいて得られた検索結果のランク付け順を指示するために使用されるランク付け情報を決定する。
【0050】
この実施形態では、このブロックを実施する主要な関係者は、検索エンジン装置、または検索結果のランク付け専用であり、検索エンジン装置から独立し、かつそれとは別個である検索結果ランク付け装置であってもよい。
【0051】
本開示の実施形態によって提供される上記の技術的方式を使用して、ロングテールキーワードの場合、ロングテールキーワードと対応する検索結果との関連性を測定する関連性値を直接計算する数式[1]などの数式が必要とされなくてもよい。その代わりに、ロングテールキーワードと検索結果との関連性は、ロングテールキーワードとキーワード要素との関連性ならびにキーワード要素と検索結果との関連性に変換される。キーワード要素に基づいて得られる検索結果の数が通常、ロングテールキーワードに基づいて得られる検索結果の数より多いため、クリックフィードバックに関連し、かつキーワード要素と検索結果との関連性を測定する関連性値を計算するのに使用される固有ベクトルは比較的正確である。したがって、ランク付けスコアの精度、それ故、検索結果のランク付けの精度が改善され、ひいては検索サーバの作業負荷およびネットワーク帯域の占有を低減する。
【0052】
検索結果をランク付けするための上記の例示的な方法に基づいて、本開示の実施形態は、検索方法をさらに提供する。本方法は、以下の手順を具体的に含むことができる。
最初に、キーワードを含む検索要求を受信し、
次いで、検索要求に含まれるキーワードに基づいて対応する検索結果を求め、ランク付け情報が本開示の実施形態において提供されるような検索結果をランク付けする方法、すなわち、図1に示されるような方法、またはその方法から生じる方法を使用して決定され得る、求められた検索結果のランク付け順を指示するために使用されるランク付け情報を決定し、
最後に、求められた検索結果および決定されたランク付け情報を検索要求に対応する送信者の装置に送信し、ランク付け情報に従って求められた検索結果を順序付けるように送信者の装置に指示する。
【0053】
この実施形態において提供される検索方法よって、キーワード要素に基づいて得られる検索結果の数は通常、ロングテールキーワードに基づいて得られる検索結果の数と比較してより多い。したがって、例えば、図1に示されるような方法、またはその方法から生じる方法を使用して決定されるランク付け情報はより正確である。したがって、送信者の装置は、このようなランク付け情報に基づいて検索結果のより正確なランク付けを行うことができ、それ故に検索結果の不正確なランク付けに起因する、正確なランク付け結果を得る検索要求を送信者の装置により繰り返し送信することによって引き起こされる大量のシステムリソースを浪費する問題を避けることができる。
【0054】
本開示の実施形態において提供される上記の方式を実施するプロセスが実用性とともに以下に詳細に記載される。
【0055】
上記方式を行うために確立されるシステムアーキテクチャが最初に本明細書に紹介される。本システムアーキテクチャは、図2に例示され、アプリケーション層212、論理層214、およびデータ層216に分割されてもよい。
【0056】
アプリケーション層における主装置はユーザクライアント202であり、これは、ユーザからユーザインターフェースを介して入力されるキーワードを受信するように構成され、論理層の検索結果ランク付けモジュールから送信されるランク付け情報による入力されたキーワードに基づいて求められる検索結果をランク付けおよび提示するようにさらに構成される。
【0057】
論理層における主装置は、オンラインリアルタイム関連性計算モジュール204および検索結果ランク付けモジュール206である。オンラインリアルタイム関連性計算モジュール204は、アプリケーション層のユーザクライアント202から受信されるキーワードに関連するキーワード要素を決定し、かつキーワードとキーワード要素との関連性を測定するために使用されるそれぞれの第2の関連性値を決定するように主に構成される。さらに、オンラインリアルタイム関連性計算モジュール206は、データ層における関連性値データベース内に記憶される3つの関係者(キーワード要素、検索結果、ならびにキーワード要素と検索結果との関連性を測定するために使用される第1の関連性値)間の対応関係に基づいて、キーワードに関連するキーワード要素およびキーワードに基づいて得られた検索結果の両方に対応する第1の関連性値を決定し、かつキーワードに基づいて得られる検索結果のそれぞれに対して、対応する第1の関連性値および対応する第2の関連性値に基づいてランク付けスコアを決定する動作を行うように構成される。キーワードとキーワード要素との関係は、キーワードがキーワード要素と同一または類似の意味を有し、かつキーワードが通常、複数のキーワード要素に分割され得ることであることに留意されたい。例えば、キーワード「中国人民銀行」は、「中国」、「人民」、「銀行」、「中国の人民」、「人民の銀行」、「中国の銀行」などのようなキーワード要素に分割されてもよい。論理層に含まれる検索結果ランク付けモジュール206は、オンラインリアルタイム関連性計算モジュール204によって得られるランク付けスコアに基づいて検索結果のランク付け順を指示するように使用されるランク付け情報を決定するように主に構成されてもよい。
【0058】
データ層における主装置は、オフライン完全関連性計算モジュール208および関連性値データベース210である。オフライン関連性値計算モジュール208は、キーワード要素とキーワード要素に基づいて得られる検索結果との関連性値を計算するように構成される。関連性値データベース210は、記憶デバイスであり、キーワード要素、検索結果、およびそれに応じてオフライン完全関連性値計算モジュール208によって得られた関連性値を記憶するように構成される。
【0059】
図2に例示されるシステムアーキテクチャに基づいて、実際に本開示の実施形態において提供される方法を実施するプロセスの詳細は、図3に例示されるようにブロックに分割されてもよい。これらのブロックは一般的に、ブロック31およびブロック32がオフライン処理ブロックである2つの部分に分割されてもよく、この目的は、ランク付けスコアの後続の決定に対するデータ支援を提供するためにキーワード要素と対応する検索結果との関連性値を決定および記憶することである。ブロック33〜39は、オンライン処理ブロックであり、この目的は、オフライン処理ブロックで決定された関連性値を使用して、キーワードに基づいて求められる検索結果のランク付けスコアを決定し、ランク付けスコアに従って検索結果をランク付けすることである。
【0060】
これらのブロックは、以下に詳細に記載される。
【0061】
ブロック31では、特定のキーワード要素に対して、オフライン完全関連性計算モジュールは、検索キーワードとしてこれらのキーワード要素を使用して得られる検索結果を決定し、キーワード要素と対応する検索結果との関連性を測定するために使用される第1の関連性値を計算する。
【0062】
第1の関連性値を計算するための計算モデルは、GBDTモデルまたは線形モデルなどであってもよい。これらのモデルが既存の技術において比較的十分に開発され、かつ頻繁に用いられるモデルであるため、それらの実施原理の簡単な説明のみ下記に提供される。
【0063】
GBDTモデルは、複数(通常、百超)の決定木で構成される計算モデルである。第1の関連性値を計算するとき、第1の関連性値の初期値の予測は、GBDTモデルに入力される固有ベクトル(例えば、表1における固有ベクトルv〜vのうちのいずれか)に最初に割り当てられ、次いで、このモデルにおける決定木のそれぞれは、キーワード要素と検索結果との関連性を測定するために使用される第1の関連性値を得るために、この初期の第1の関連性値を調整するように通過される。j番目のキーワード要素とj番目のキーワード要素に基づいて得られるi番目の検索結果との関連性を測定するために使用される第1の関連性値Xijを例にとってみる。GBDTモデルによれば、Xijは、以下の数式[3]に示されるように計算されてもよい。
【0064】
【数3】
【0065】
式中、vがGBDTモデルに入力される固有ベクトルであり、
【0066】
【数4】
【0067】
がGBDTモデルの固有ベクトルvに割り当てられる初期の第1の関連性値であり、kがGBDTモデルに含まれる決定木の数であり、
【0068】
【数5】
【0069】
が、lが1≦l≦kを満たす、l番目の決定木の重みであり、Tl(v)が初期の第1の関連性値を調整するためにl番目の決定木によって使用される調整関数である。
【0070】
上記のGBDTモデルに加えて、第1の関連性値は、線形モデルを使用して代わりに計算されてもよい。一般的に、線形モデルを使用して第1の関連性値を計算する方法は、比較的単純であり、固有ベクトルの加重和を計算することによって通常行われてもよい。特定の数式は、前述の節における数式[2]を指すことができ、本明細書に重複して記載されない。
【0071】
ブロック32では、関連性値データベースは、キーワード要素、検索結果、およびそれに応じてオフライン完全関連性計算モジュールによって得られた第1の関連性値を記憶する。
【0072】
第1の関連性値、検索結果、およびそれに応じてキーワード要素を記憶する関連性値データベースの目的は、検索結果のランク付けスコアを決定することにおいてオンラインリアルタイム関連性計算モジュールに対するデータ支援を提供することである。
【0073】
j番目のキーワード要素の場合、対応する検索結果および対応する第1の関連性値でそれに応じてそれを記憶する手法が表2に示される。
【0074】
【表2】
【0075】
ブロック33では、ユーザクライアントは、ユーザによってユーザインターフェースを介して入力されるキーワードを受信し、オンラインリアルタイム関連性計算モジュールに受信されたキーワードを提供する。
【0076】
ブロック34では、オンラインリアルタイム関連性計算モジュールは、ユーザクライアントから送信されるキーワードに関連するキーワード要素を決定する。
【0077】
ブロック34では、オンラインリアルタイム関連性計算モジュールは、QRなどの技術を使用して、ユーザクライアントから送信されるキーワードに関連するキーワード要素を決定することができる。一般的に、キーワードを分割することによって生成されるキーワード要素以外に、決定されたキーワード要素はまた、キーワードから特殊文字を削除した後に残るキーワード要素、キーワードに近い意味を有するキーワード要素、キーワードが属する情報カテゴリに関連すると決定されるキーワード要素、他のキーワードとそのキーワードとの共起の確率に基づいて決定されるキーワード要素など、1つ以上の種類を含むことができる。特に、英語のキーワードの場合、決定されたキーワード要素は、キーワードの文字の大文字と小文字の変換後に得られるキーワード要素をさらに含むことができる。
【0078】
同一キーワードのために決定されるキーワード要素の間の共通点は、これらのキーワード要素とキーワードとのある関連性の存在である。この関連性は、異なる視点から測定されてもよい。例えば、キーワード要素の検索結果とキーワードの検索結果との一致度は、キーワード要素とキーワードとの関連性を直観的に決定するために使用されてもよく、一致度が高ければ高いほど関連性は高くなる。その逆は、関連性がより低いことを意味する。
【0079】
ブロック35では、オンラインリアルタイム関連性計算モジュールは、キーワードとブロック34で決定されたキーワード要素との関連性を測定するために使用される第2の関連性値を決定する。
【0080】
この実施形態では、第2の関連性値は、多くの異なる手法で計算されてもよい。例えば、第2の関連性値は、キーワードとキーワード要素とのテキスト関連性、キーワードおよびキーワード要素が属するそれぞれの情報カテゴリ間の関連性、またはキーワードとキーワード要素との共起の確率(共起確率と略称される)に基づいて計算されてもよい。
【0081】
テキスト関連性を使用して第2の関連性値を計算する特定の手法は、キーワードとそれぞれのキーワード要素とのテキスト一致度を測定するために使用されるテキスト一致値を決定すること、決定されたテキスト一致値に基づいて、第2の関連性値とテキスト一致値との予め構成された対応関係からそれぞれのテキスト一致値に対応する第2の関連性値を選択することとを含む。第2の関連性値とテキスト一致値との対応関係が設定されるとき、参照規則としては、テキスト一致値が高ければ高いほど対応する第2の関連性値が大きくなり、そうでないとテキスト一致値が低ければ低いほど対応する第2の関連性値が小さくなることが挙げられ得る。換言すれば、テキスト一致値の昇順は、第2の関連性値の昇順に対応する。このような対応関係が予め設定されない場合、テキスト一致値は、対応する第2の関連性値として直接処理されてもよい。テキスト一致値を使用して第2の関連性値を計算する例が以下のように記載される。
【0082】
キーワード「国立地質公園」を考慮すると、それに関連する決定されたキーワード要素は、「地質公園」および「国立」であると考えられてもよい。したがって、「国立地質公園」および「地質公園」は、テキスト一致値が4であると考えられ得ることから4文字を共通に有すると決定されてもよい。同様に、「国立地質公園」および「国立」は、2文字を共通に有すると決定されてもよく、したがってテキスト一致率は、2であると考えられてもよい。決定された一致値(4および2)に基づいて、テキスト一致値(4および2)に対応するそれぞれの第2の関連性値は、第2の関連性値と第2の関連性値の昇順でテキスト一致値の対応する昇順の規則に従って予め構成されるテキスト一致値との対応関係から決定されてもよい。
【0083】
さらに、情報カテゴリの関連性に基づいて第2の関連性値を計算する特定の手法は、キーワードおよびキーワード要素が属するそれぞれの情報カテゴリ間の関連性に基づいて第2の関連性値を決定することを含む。一般的に、キーワードが属する情報カテゴリおよびキーワード要素が属する情報カテゴリが類似であるか、または階層関係を有する場合、対応する第2の関連性値が得られてもよい。例えば、キーワードが「婦人服」の情報カテゴリに属する場合、それに関連すると決定されたキーワード要素は、「服装」の情報カテゴリに属してもよい。「服装」の情報カテゴリが「婦人服」の情報カテゴリの下の情報サブカテゴリであるため、階層関係は、「服装」および「婦人服」のこれら2つの情報カテゴリ間で確立され、「婦人服」の情報カテゴリは、「服装」の情報カテゴリより高いレベルである。この状況下で、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値が決定されてもよい。具体的には、第2の関連性値は、この階層関係と関連付けられる距離によって計算されてもよい。例えば、キーワードが属する情報カテゴリとキーワード要素が属する情報カテゴリとの中間にあるレベルの数が大きければ大きいほど第2の関連性値が小さくなる。あるいは、第2の関連性値は、キーワードの情報カテゴリがキーワード要素の情報カテゴリより高いかまたは低いかどうかに基づいて計算されてもよい。例えば、キーワードが属する情報カテゴリのレベルが第1のキーワード要素が属する情報カテゴリのレベルより高いが、第2のキーワード要素が属する情報カテゴリのレベルより低い場合、キーワードと第1のキーワード要素との関連性を測定するために使用される第2の関連性値は、キーワードと第2のキーワード要素との関連性を測定するために使用される第2の関連性値より大きいように設定されてもよい。
【0084】
上記の計算方法に加えて、共起確率を使用して第2の関連性値を計算する特定の手法は、キーワードおよびキーワード要素が同一のテキストで共起する確率に基づいて第2の関連性値を計算することを含むことができる。特定の数式は、以下の数式[4]として示される。
【0085】
【数6】
【0086】
式中、Yがキーワードとそれに関連するj番目のキーワード要素との関連性を測定する第2の関連性値であり、Hがキーワードおよびj番目のキーワード要素が同一のテキストコレクションで共起する回数であり、H0jが、キーワードがそのテキストコレクションで生じる回数であり、H1jが、j番目のキーワード要素がそのテキストコレクションで生じる回数である。
【0087】
ブロック36では、オンラインリアルタイム関連性計算モジュールは、ブロック34で決定されるキーワード要素に対応する第1の関連性値に対する関連性値データベースを問い合わせる。
【0088】
例えば、j番目のキーワード要素の場合、オンラインリアルタイム関連性計算モジュールは、関連性値データベース内に記憶される対応関係(例えば、表2に示されるような)から第1の関連性値X1,j〜Xr,jのr番号を求めることができる。同様に、キーワードに関連する他のキーワード要素に対する第1の関連性値もまた、それに応じて求められてもよい。
【0089】
ブロック37では、オンラインリアルタイム計算モジュールは、決定された第2の関連性値および求められた第1の関連性値を使用して、キーワードに基づいて求められる検索結果のランク付けスコアを決定する。
【0090】
この実施形態では、検索結果のランク付けスコアを決定するために複数の方法が存在してもよい。ランク付けスコアが決定されるi番目の検索結果、およびそのキーワードに関連するj番目のキーワード要素が例として使用される。j番目のキーワード要素とi番目の検索結果との関連性を測定する第1の関連性値Xijが求められる場合、j番目のキーワード要素に関するi番目の検索結果のランク付けSは、Xij、j番目のキーワード要素とキーワードとの関連性を測定するために使用される第2の関連性Y、j番目のキーワード要素が検索のキーワードとして使用されるときにi番目の検索結果と関連付けられるクリック率Q、およびj番目のキーワード要素が検索のキーワードとして使用されるi番目の検索結果が提示されるたびに得られる最高広告収入のデータ値Cに基づいて決定されてもよい。特定の数式は、以下のような数式[5]に参照されてもよい。
【0091】
【数7】
【0092】
式中、βがSに与えるQの影響を調整するために使用される。Qが通常、統計値であることに留意されたい。例えば、ユーザがユーザの検索意図を反映して、複数の検索を行う検索のキーワードとしてj番目のキーワード要素を使用するとき、i番目の検索結果が提示される回数およびi番目の検索結果がクリックされる回数は統計的に分析されてもよい。次に、検索結果と関連付けられるクリック率は、これらの数から計算されてもよい。
【0093】
あるいは、i番目の検索結果のランク付けスコアSは、第1の関連性値Xij、第2の関連性値Y、j番目のキーワード要素が検索のキーワードとして使用されるときにi番目の検索結果と関連付けられるクリック率Q、j番目のキーワード要素が検索のキーワードとして使用されるi番目の検索結果が提示されるごとの最高広告収入のデータ値C、およびカテゴリ特性スコアDに基づいて決定されてもよい。カテゴリ特性スコアDは、i番目の検索結果が属する情報カテゴリとj番目のキーワード要素が属する情報カテゴリとの関連性を測定する値を指す。具体的には、Sを計算するための数式は、以下の数式[6]を指すことができる。
【0094】
【数8】
【0095】
ロングテールキーワードの場合、それに基づいて得られる検索結果の数は非常に少ない。これらの少ない検索結果を考慮して、ユーザは、検索結果の数がユーザの期待に応えないため、任意の検索結果をクリックすることをあきらめるか、またはユーザの検索意図を無視し、1つずつ検索結果をクリックするかのいずれかであり得る。これは通常、Qが実際にユーザの検索意図とのその関係を測定するのを困難にする。したがって、Sがこの実施形態において計算されるとき、Qは、上記の数式から削除されてもよい。Qを削除することによって、上記の数式[5]および[6]は、数式[7]および[8]として変換されてもよい。
【0096】
【数9】
【0097】
【数10】
【0098】
あるいは、本実施形態は、以下の数式[9]などの簡略化された数式を用いて、Sを計算することができる。
【0099】
【数11】
【0100】
上記の計算によって、同一の検索結果に関する異なるキーワード要素のランク付けスコアが計算されてもよい。この実施形態では、任意の検索結果に対して、リアルタイム関連性計算モジュールは、限定されないが、検索結果のランク付けスコアとしてその検索結果に対応する複数の計算されたランク付けスコアから最高ランク付けスコアを選択することができる。したがって、1つのランク付けスコアのみが最後にランク付けのための基準としてそれぞれの検索結果に対して決定されてもよい。
【0101】
ブロック38では、検索結果ランク付けモジュールは、オンラインリアルタイム関連性計算モジュールによって決定されたランク付けスコアに基づいて、検索結果のランク付け順を指示するために使用されるランク付け情報を決定し、ランク付け情報をユーザクライアントに送信する。
【0102】
この実施形態では、ランク付け情報は、検索結果のランク付け順を指示するために特別に使用される。例えば、10個の検索結果がキーワードに基づいて求められると考えられる(番号1〜10がそれぞれ異なる検索結果を表すと考える)。さらに、検索結果のランク付けスコアに基づくランク付け順は、「2、1、5、8、3、4、9、10、7、6」であり、対応するランク付け情報がこのランク付け順を指示するランク付け情報として処理され得る。
【0103】
ブロック39では、ユーザクライアントは、検索結果ランク付けモジュールから送信されるランク付け情報に従って検索結果を提示する。プロセスが終了する。
【0104】
検索結果をランク付けする上記の方式の特質により、この実施形態における方式によって採用されるランク付けモデルは、「2部ランク付けモデル」と呼ばれてもよい。「2部」のうちの一方の部は、リアルタイムにキーワードとキーワード要素との関連性を測定するために使用される第2の関連性値のオンライン計算を指し、他方の部は、キーワード要素と検索結果との関連性を測定するために使用される第1の関連性値のオフライン完全計算を指す。
【0105】
本開示の実施形態によって提供される上記の技術的方式を使用して、ロングテールキーワードの場合、ロングテールキーワードと検索結果との関連性を測定する関連性値を直接計算する数式[1]などの数式が必要とされなくてもよい。その代わりに、ロングテールキーワードと検索結果との関連性は、ロングテールキーワードとキーワード要素との関連性ならびにキーワード要素と検索結果との関連性に変換される。キーワード要素に基づいて得られる検索結果の数が通常、ロングテールキーワードに基づいて得られる検索結果の数より大きいため、クリックフィードバックに関連し、かつキーワード要素と検索結果との関連性を測定する関連性値を計算するのに使用される固有ベクトルが比較的正確である。したがって、ランク付けスコアの精度は改善され、それ故に検索結果のランク付けの精度を間接的に改善する。
【0106】
ロングテールキーワードに基づいて求められる検索結果をランク付けするために既存の技術が使用されるときに不正確なランク付けになり得る問題を解決するために、本開示の実施形態は、検索結果をランク付けする上記の方法に対応する検索結果をランク付けするための装置をさらに提供する。本装置の特定の構造が図4に示され、
キーワードに関連するキーワード要素を決定するように構成されるキーワード要素決定ユニット41と、
キーワードに基づいて得られたそれぞれの検索結果に対して、キーワード要素、検索結果、および検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値の間の予め記憶された対応関係から、キーワードに基づいて得られた検索結果および決定されたキーワード要素の両方に対応する第1の関連性値を別々に決定し、かつキーワードとキーワード要素決定ユニット41によって決定されたキーワード要素との関連性を測定するために使用される第2の関連性値を別々に決定するように構成される第1の関連性値決定ユニット42と、
キーワードとキーワード要素決定ユニット41によって決定されたキーワード要素との関連性を測定するために使用される第2の関連性値を別々に決定するように構成される第2の関連性値決定ユニット43と、
第1の関連性値決定ユニット42によって決定された第1の関連性値および第2の関連性値決定ユニット43によって決定された第2の関連性値を使用して、キーワードに基づいて得られるそれぞれの検索結果のランク付けスコアを別々に決定するように構成されるランク付けスコア決定ユニット44と、
ランク付けスコア決定ユニット44によって決定されたそれぞれの検索結果のランク付けスコアに従って検索結果のランク付け順を指示するために使用されるランク付け情報を決定するように構成されるランク付けユニット45との機能ユニットを含む。
【0107】
任意に、ランク付けスコア決定ユニット44の機能の実施に対応して、このユニットは、
キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、キーワード要素が検索のキーワードとして使用される検索結果が提示されるたびに、得られる最高広告収入のデータ値を決定するように構成される最高広告収入データ値決定サブユニット441と、
キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、および最高広告収入データ値決定サブユニット441によって決定された最高広告収入のデータ値に基づいて、検索結果のランク付けスコアを決定するように構成されるランク付けスコア決定サブユニット442と、
関連付けられた検索結果のランク付けスコアとしてランク付けスコア決定サブユニット442によって決定されたキーワード要素のランク付けから最高ランク付けスコアを選択するように構成されるランク付けスコア選択サブユニット443と、を含む図4に例示されるような機能的サブユニットに分割されてもよい。
【0108】
任意に、ランク付けスコア決定サブユニット442の機能の実施に対応して、このユニットは、
キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、検索結果が属する情報カテゴリとキーワード要素が属する情報カテゴリとの関連性を測定するカテゴリ特性スコア値を決定するように構成されるカテゴリ特性スコア決定モジュールと、
キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、最高広告収入の対応するデータ値、およびカテゴリ特性スコア決定モジュールによって決定されたカテゴリ特性スコアに基づいて、検索結果のランク付けスコアを決定するように構成されるランク付けスコア決定モジュールと、を含む機能的モジュールに分割されてもよい。
【0109】
任意に、ランク付けスコア決定サブユニット442の機能の実施に対応して、このユニットは、
キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、キーワード要素を使用することが検索のキーワードとして使用されるときに、検索結果と関連付けられるクリック率を決定するように構成されるクリック率決定モジュールと、
キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、最高広告収入データ値決定サブユニットによって決定された最高広告収入の対応するデータ値、およびクリック率決定モジュールによって決定されたクリック率に基づいて、検索結果のランク付けスコアを決定するように構成されるランク付けスコア決定モジュールと、を含む機能的モジュールに分割されてもよい。
【0110】
任意に、本開示の実施形態は、上記のランク付けスコア決定モジュールの構造を、
キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、検索結果が属する情報カテゴリとキーワード要素が属する情報カテゴリとの関連性を測定するカテゴリ特性スコア値を決定するように構成されるカテゴリ特性スコア決定サブモジュールと、
キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、最高広告収入の対応するデータ値、対応するクリック率、およびカテゴリ特性スコア決定サブモジュールによって決定された対応するカテゴリ特性スコアに基づいて、検索結果のランク付けスコアを決定するように構成されるランク付けスコア決定サブモジュールと、のサブモジュールにさらに分割することができる。
【0111】
検索結果をランク付けする上述の装置に基づいて、本開示の実施形態は、検索装置をさらに提供する。具体的には、検索装置は、
キーワードを含む検索要求を受信するように構成される検索要求受信ユニットと、
検索要求受信ユニットによって受信される検索要求内に含まれるキーワードに基づいて、関連する検索結果を求めるように構成される検索ユニットと、
検索ユニットによって求められた検索結果のランク付け順を指示するために使用されるランク付け情報を決定するように構成されるランク付け情報決定ユニット(具体的には、ランク付け情報決定ユニットは、図4に示されるような検索結果ランク付け装置、または検索結果ランク付け装置の機能から生じる検索結果をランク付けする拡張装置を含む)と、
検索ユニットによって得られた検索結果およびランク付け情報決定ユニットによって決定されたランク付け情報を検索要求に対応する送信者の装置に送信し、かつランク付け情報に従って検索結果を順序付けるように送信者の装置に指示するように構成される送信ユニットと、の機能ユニットを含むことができる。
【0112】
この実施形態において提供される検索方法によって、キーワード要素に基づいて得られる検索結果の数は通常、ロングテールキーワードに基づいて得られる検索結果の数と比較してより大きい。したがって、図4に示されるような装置を使用して決定されるランク付け情報、または、例えば、その装置から生じる他の拡張装置はより正確である。したがって、送信者の装置は、このようなランク付け情報に基づいて検索結果のより正確なランク付けを行うことができ、それ故に検索結果の不正確なランク付けに起因する、正確なランク付け結果を得る検索要求を送信者の装置により繰り返し送信することによって引き起こされる大量のシステムリソースを浪費する問題を避けることができる。
【0113】
当業者であれば、本開示の趣旨および範囲から逸脱することなく多くの異なる手法で開示される方法、システム、および装置を変更または修正することができる。したがって、本開示は、本開示の特許請求の範囲に含まれるすべての修正および変形ならびにそれらの均等物を包含することが意図される。
【0114】
例えば、図5は、より詳細に上述されるような装置などの例示的な装置500を例示する。一実施形態では、装置500は、1つ以上のプロセッサ501と、ネットワークインターフェース502と、メモリ503と、入力/出力インターフェース504とを含むことができるがこれらに限定されない。
【0115】
メモリ503は、ランダムアクセスメモリ(RAM)等の揮発性メモリ、および/または読取専用メモリ(ROM)もしくはフラッシュRAM等の不揮発性メモリの形態の、コンピュータ可読媒体を含んでもよい。メモリ503は、コンピュータ可読媒体の一例である。
【0116】
コンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータ等の情報の格納のための任意の方法または技術で実施される、揮発性および不揮発性の、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体の例は、これらに限定されないが、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他の種類のランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、電気的に消去可能なプログラマブル読取専用メモリ(EEPROM)、フラッシュメモリもしくは他のメモリ技術、コンパクトディスク読取専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)もしくは他の光学式記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、または、コンピュータデバイスによるアクセスのための情報を格納するように使用され得る任意の他の非伝送媒体を含む。本明細書において定義されるように、コンピュータ可読媒体は、変調データ信号および搬送波等の一時的な媒体を含まない。
【0117】
メモリ503は、プログラムユニット505と、プログラムデータ506とを含んでもよい。一実施形態では、プログラムユニット505は、キーワード要素決定ユニット507と、第1の関連性値決定ユニット508と、第2の関連性値決定ユニット509と、ランク付けスコア決定ユニット510と、ランク付けユニット511と、検索要求受信ユニット512と、検索ユニット513と、ランク付け情報決定ユニット514と、送信ユニット515とを含んでもよい。これらのプログラムユニットならびにこのサブユニットおよび/またはモジュールに関する詳細は、上述される前述の実施形態において求めることができる。
図1
図2
図3
図4
図5