(58)【調査した分野】(Int.Cl.,DB名)
前記確率計算モジュールは、ユーザが前記ログファイルをクリックしたかどうか、前記ユーザが前記ログファイルを視認したかどうか、前記ログファイルと前記ユーザの前記検索リクエストとの間の関連度、前記ユーザが次のログファイルを閲覧したかどうか、および/または以前のログファイルのクリック条件に基づいて、前記フィルタリングされたログファイルのうちのログファイルと前記検索リクエストとの間のベイズの事後確率を計算するように構成される、請求項6に記載の装置。
【発明を実施するための形態】
【0012】
当業者が例示的な実施形態の技術的設計、目標、特徴、および利点を明確に理解することを支援するため、例示的な実施形態の添付の図面を参照して、例示的な実施形態の技術的設計のさらに詳細を記載する。
【0013】
第1の例示的な実施形態
図1は、検索結果を順位付ける例示的な方法を図示する流れ図であり、以下のブロックを含む。
【0014】
101で、方法は、ログシステムから露出ログファイルを取得する。
【0015】
ログシステムは、増分更新手法を使用して、過去に露出されたログファイルおよび当日に露出されたログファイルを記憶する。ログシステムに記憶されたログファイル全ては、ログシステムから呼び出される。ユーザが検索エンジンを通して検索を実施すると、対応する検索リクエストに関連性がある検索結果がユーザに表示される。ユーザに表示された検索結果が露出検索結果であり、これらは、ログファイルの形式でログシステムに記憶される。
【0016】
102で、方法は、ログファイルと検索リクエストとの間の関連性のベイズの事後確率を計算する。
【0017】
研究中、本特許出願の発明人は、情報とユーザ検索リクエストの間の関連度がしばしば、検索結果リスト内のその情報の位置および検索結果リストに伴うクリックシークエンスに関係することを認めた。例えば、検索結果ページがユーザに示されると、ユーザは典型的に、ウェブページ内に表示された、ログファイルの表示情報を上から下まで閲覧し、ログファイルの表示情報が自分の検索意図を満たす場合、ログファイルの表示情報をクリックして、対応する内容を読む。その表示情報の内容を読んだ後、ユーザは、その後に続くログファイルの表示情報を閲覧することを継続するか、または所望のコンテンツが発見された場合には、閲覧を停止する場合がある。したがって、ユーザが所定のログファイルをクリックするかどうかは、そのログファイルを視認したかどうかに依存し、さらに、ログファイルとユーザの検索リクエストとの間の関連度に依存する。さらに、ユーザが次のログファイルの閲覧を継続するかどうかは、その次のログファイルの前にあるログファイルのクリック状況に依存する。
【0018】
上記の状況に基づいて、数学モデルが作成される。
図2は、本開示に従って作成される確率モデルの構造の模式図である。
図2では、各ノードがランダム変数を表す。Sは、ログファイルとユーザの検索リクエストとの間の関連性を表す。Eは、ユーザがログファイルを視認したかどうかを表す。Cは、ユーザがログファイルをクリックしたかどうかを表す。Aの添字は、検索結果ページ内に表示されたログファイルの位置を表し、Mは、検索結果ページ内のログファイルの総数を表す。前述の解析に基づいて、ユーザが所定のログファイルをクリックするかどうかは、ユーザがログファイルを視認したかどうか、およびログファイルとユーザの検索リクエストとの間の関連度に関係する。さらに、ユーザが次のログファイルの閲覧を継続するかどうかは、以前のログファイルのクリック状況に関係する。例えば、
図2のモデルから、S1およびE1は別々にC1に向かっており、ユーザがログファイルC1をクリックするかどうかは、ユーザがログファイルE1を視認したかどうか、およびそのログファイルとユーザの検索リクエストとの間の関連度S1に関係することを示す。さらに、C1はE2に向かっており、ユーザが次のログファイルE2の閲覧を継続するかどうかは、ログファイルC1のクリック状況に関係することを示す。
【0019】
図2に示された数学モデルの確率推論に基づいて、事前分散が[0,1]上の一様分布に従い、0および1は実数値区間の2つの端点を表していること(すなわち、関連性変数の事前分布が実数値区間の0と1の間に一様に分布される)、およびユーザがログファイルC1、C2・・・CNをクリックしたという条件下では、ログファイルと検索リクエストとの間の関連性の結合事後分布を計算するための式は、以下である。
【0021】
上記の式中、R
jは、ログファイルjおよびユーザ検索リクエストに対するランダム関連性変数を表す。N
jは、ログファイルjがクリックされた総回数を表す。
【0023】
は、ログファイルjが位置r+dにあって、クリックされず、位置rにあるログファイルがクリックされ、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数を表す。Tは、(r,d)の間の全ての可能な値を表す。
【0025】
は、グローバルパラメータである。Nは、ログシステムから呼び出されたログファイルの総数を表す。zは、正規化係数を表す。
【0026】
結合分布の上記の形態から、結合分布は、個別のファイルの分布の乗法の積として求められてもよい。したがって、単一ドキュメントjの関連性の事後分布を計算するための式は以下である。
【0033】
は、ログファイルjを含む同じクリックシーケンス内において、位置rおよびr+dにあるログファイルがクリックされ、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数である。
【0035】
は、ログファイルjを含む同じクリックシーケンス内において、位置rにあるログファイルがクリックされ、位置r+dにあるログファイルがクリックされず、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数である。rの値は、M−1以下の自然数であり、dの値は、M−r以下の整数であり、Mは、ログファイルjを含む同じクリックシーケンス内のログファイルの総数を表す。同じクリックシーケンスは、ユーザの検索リクエストに対して取得された全ての検索結果を構成するシーケンスに対応する。例えば、ユーザの検索リクエスト「MP3」に対応して、ユーザのその検索リクエストに対する検索結果の総数は、100個のログファイルである。したがって、これらの100個のログファイルは、「MP3」に対する同じクリックシーケンスを成す。
【0036】
103で、方法は、ベイズの事後確率に基づいて、ログファイルと検索リクエストとの間の関連性の期待値を計算する。
【0037】
前のブロックから取得されたベイズの事後確率に基づいて、ログファイルと検索リクエストとの間の関連性の期待値が計算され、期待値を計算するための式は以下である。
【0039】
期待値を計算するためのコストは比較的大きく、比較的大量のシステムリソースを消費するようになることに注意されたい。期待値を計算するためにシステムリソースを過剰に消費することを回避するため、このブロックで、ログファイルに対する関連性の期待値を計算する前に、ログファイルに対するフィルタリングが実施される。あるログファイルは、ユーザの検索リクエストに関して、良くも悪くもない関連性を有する。実際に適用する際、関連性が良くも悪くもないこれらのログファイルは、容量および時間を節約するために、フィルタリングされてもよい。
【0040】
一般的に、ログファイルとユーザの検索リクエストとの間の関連性は、関連性の期待値が0.5である場合は、良くも悪くもない。したがって、例えば、検索リクエストに関する関連性が0.5以下の期待値を有するログファイルがフィルタリングされてもよい。本開示は、期待値を計算する前に、関連性が良くも悪くもないログファイルをフィルタリングする手法を提供する。
【0041】
好ましくは、ベイズの事後確率に基づいてログファイルと検索リクエストとの間の関連性の期待値を計算する前に、方法は、グローバルパラメータに基づいてログファイルをフィルタリングすることをさらに含み、事前に定義された閾値未満のそれぞれのグローバルパラメータを有するログファイルがフィルタリングされる。ここで、グローバルパラメータとは、ユーザの検索リクエストに関係しないが、ユーザによる検索エンジンの評価を反映する一群のインジケータパラメータに対応するパラメータを言う。ある状況では、グローバルパラメータと、ログファイルと検索リクエストとの間の関連性の期待値との間の対応関係は、確率分布関数を通して確立される。期待値に対する閾値に基づくフィルタリングは、グローバルパラメータに対する閾値に基づくフィルタリングに等しい。このような関係の微分は、前もって解析されることが必要であり、グローバルパラメータに対する閾値は、システムの初期段階で期待値に対する閾値に基づいて計算される。このように、フィルタリングは、ログ処理段階でグローバルパラメータを使用して実施されてもよい。
【0042】
例えば、露出ログファイルから、1回露出されたが、クリックされなかったログファイルが選択される。選択されたログファイルの中で、フィルタリング条件式
【0044】
に従って事前に定義された閾値未満のそれぞれのグローバルパラメータを有するログファイルがフィルタリングされ、式中、β
r,dはグローバルパラメータである。
【0048】
は、選択されたログファイルを含む同じクリックシーケンス内において、位置rおよびr+dにあるログファイルがクリックされ、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数である。説明の目的で、例示のために5つのログファイルを含むクリックシーケンスの例を使用する。第1、第3、および第5の位置にあるログファイルがクリックされたが、第2および第4の位置にあるログファイルはクリックされなかった。具体的には、第1および第3の位置にあるログファイルがクリックされ、第2と第4との間の位置にあるログファイル(すなわち、第2の位置にあるログファイル)がクリックされなかった状況では、発生回数は1である。さらに、第3および第5の位置にあるログファイルがクリックされ、第3と第5との間の位置にあるログファイル(すなわち、第4の位置にあるログファイル)がクリックされなかった状況では、発生回数は1である。したがって、上記のクリックシーケンスに従うと
【0052】
は、選択されたログファイルを含む同じクリックシーケンス内において、位置rにあるログファイルがクリックされ、位置r+dにあるログファイルがクリックされず、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数である。rの値は、M−1以下の自然数であり、dの値は、M−r以下の整数であり、Mは、選択されたログファイルを含む同じクリックシーケンス内のログファイルの総数を表す。E
thは、ログファイルと検索リクエストとの間の関連性の期待値に対応して事前に定義された閾値である。
【0053】
E
thは、ログファイルと検索リクエストとの間の関連性の期待値に対応して事前に定義された閾値であることに注意されたい。一般的に、閾値は、ログファイルと検索リクエストとの間の関連性の期待値に対して定義される。例えば、閾値が0.5として設定される場合、0.5となる関連性の期待値を有するログファイルがフィルタリングされてもよい。理解できるように、関連性の期待値の事前に定義される閾値は、ユーザの必要性およびユーザの適用事例に従って設定されてもよい。本開示はこれに関する制限を全く有さない。
【0054】
ログファイルをフィルタリングした上で、このブロックで、フィルタリングされたログファイルの期待値が計算される。
【0055】
さらに、ログファイルと検索リクエストとの間の関連性の期待値を計算した後、かつログファイルと検索リクエストとの間の関連性の期待値を値として検索データ構造内に記憶する前に、ログファイルに対して、更なるフィルタリングが実施されてもよい。これによって、データ構造内に記憶されるログファイルは、2つのフィルタリング動作後、検索リクエストとのより高い関連性を有することが確実にする。したがって、検索エンジンは、検索データ構造から、ユーザによって提出された検索リクエストに関連性があるログファイルおよびそれぞれの期待値を迅速に検出することができる。さらに、ログファイルと検索リクエストとの間の関連性の期待値が計算されているため、フィルタリングは、ログファイルと検索リクエストとの間の関連性の期待値を通して直接実施することができる。具体的には、ログファイルと検索リクエストとの間の関連性の期待値が事前に定義された値以下である場合、そのログファイルはフィルタリングされる。
【0056】
さらに、ログファイルと検索リクエストとの間の関連性の分散は、ベイズの事後確率に基づいて計算されてもよく、フィルタリングのために、すなわち、ログファイルと検索リクエストとの間の関連性の分散が事前に定義された値以下である場合、ログファイルをフィルタリングするために、直接使用されてもよい。
【0057】
分散を計算するための数式は以下である。
【0059】
ログファイルと検索リクエストとの間の関連性の期待値または分散に相当する事前に定義された閾値が、使用の必要性およびユーザの適用事例に基づいて設定されてもよいことにさらに注意されたい。本開示は、これに関して一切の制限を有さない。
【0060】
104で、方法は、検索リクエストおよびログファイルの識別子をキー、ならびにログファイルと検索リクエストとの間の関連性のそれぞれの期待値を、検索データ構造内に価値として記憶する。
【0061】
例えば、キー(key)は、検索リクエストおよびログファイルの識別子によって占有される連続的なメモリブロックであり、検索リクエスト内の1文字は1メモリバイトを占有し、ログファイルの識別子は、4メモリバイトによって表される。値(value)は、それぞれの期待値の乗じた積の整数部で占有し10000倍したメモリである。検索データ構造内のキーと値のインデックス付けは、一般的に使用されるトライ木を使用して確立されてもよく、本明細書のこの例示的な実施形態ではさらに詳細を記載しない。
【0062】
好ましくは、検索データ構造の精度を確実にするため、検索リクエストおよびログファイルの識別子をキーとして、ならびにログファイルと検索リクエストとの間の関連性のそれぞれの期待値を値として検索データ構造内に記憶した後、方法は、検索データ構造を検証することをさらに含む。検索データ構造から、ユーザによって提出された検索リクエストと提出された検索リクエストに関連する全てのログファイルとの間の関連性の期待値を検出することは、検証された検索データ構造から、ユーザによって提出された検索リクエストと提出された検索リクエストに関連する全てのログファイルとの間の関連性の期待値を検出することを含む。
【0063】
検索データ構造を検索するために検索データ構造内のキーを検索エンジンに対する入力データとして使用した上で、出力結果が入力データとして使用されたキーの対応する値である場合、検証は合格である。例えば、検索データ構造は、1群のキー・値対を含む。検索リクエストに対応するキー・値対内のキーの部分は、「MP3」であり、ログファイルの識別子に対応するキー・値対内のキーの部分は、それぞれ、ID1、ID2、およびID3である。ログファイルと検索リクエストとの間の関連性の期待値に対応するキー・値対内の値は、それぞれ、0.5、0.8、および0.7である。「MP3およびID1」、「MP3およびID2」、ならびに「MP3およびID3」は個別に入力データとして使用される。検索エンジンを通して検索データ構造を検索した後、それぞれの出力結果が0.5、0.8、および0.7である場合、検証は合格である。それ以外、検証は失敗である。
【0064】
検索データ構造内のキー全ては、上記の手法を使用して1つずつ検証される。検索データ構造は、キー全ての検証に成功すると、検証に合格する。
【0065】
105で、方法は、ユーザによって提出された検索リクエストを受信することに応答して、検索データ構造から、ユーザによって提出された検索リクエストと提出された検索リクエストに関連する全てのログファイルとの間の関連性の期待値を検出する。
【0066】
106で、方法は、検出されたログファイルを検出された期待値の降順に順位付ける。
【0067】
上記の例示的な実施形態から、開示される方法は、ベイズの事後確率に基づいてログファイルと検索リクエストとの間の関連性の期待値を計算し、ユーザによって提出された検索リクエストと提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検索データ構造から検出することに応答して、検出されたログファイルを検出された期待値の降順に順位付ける。情報の位置およびクリックシーケンスに関する因子を考慮することによって、ユーザは、最も所望する情報を迅速に取得することができ、これによって、検索エンジンサーバの検索プロセスのコストを削減し、検索エンジンサーバのシステムリソースを節約する。
【0068】
第2の例示的な実施形態
検索結果を順位付ける方法の別の実施形態を以下に詳細に記載する。
図3は、検索結果を順位付ける別の例示的な方法を図示する流れ図である。方法は、以下のブロックを含む。
【0069】
301で、方法は、ログシステムから、今日露出されたログファイルと、過去に露出されたログファイルとを取得する。
【0070】
今日露出されたログファイルと、ある時間間隔内の過去に露出されたログファイルは、別々に保存されてもよい。例えば、変動する時間枠内のログファイルがバックアップコピーとして保存される場合があり、一連のシステム動作において異常が発生した場合に、問題を調査し、データを復元するために使用される場合がある。
【0071】
302で、方法は、ログシステムからそれぞれ今日露出されたログファイルおよび過去に露出されたログファイルに基づいて、今日の部分統計および履歴の部分統計を計算する。
【0078】
は、ログファイルjがクリックされた総回数を表す。
【0080】
は、位置r+dにあるログファイルjがクリックされ、位置rにあるログファイルがクリックされ、rとr+dとの間の位置にあるログファイルがクリックされないという状況の発生回数を表す。Tは、(r,d)の間の全ての可能な値を表す。
【0081】
303で、方法は、今日の部分統計および履歴の部分統計を結合する。
【0082】
今日の部分統計およびある時間間隔内の履歴の部分統計は、増分更新をサポートし、動作中に発生する場合がある問題を調査し、データを復元するために、別々に保存されてもよい。
【0083】
304で、方法は、ログシステムからそれぞれ今日露出されたログファイルおよび過去に露出されたログファイルに基づいて、今日の全体統計および履歴の全体統計を計算する。
【0090】
は、ログファイルjを含む同じクリックシーケンス内において、位置rおよびr+dにあるログファイルがクリックされ、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数である。
【0092】
は、ログファイルjを含む同じクリックシーケンス内において、位置rにあるログファイルがクリックされ、位置r+dにあるログファイルがクリックされず、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数である。rの値は、M−1以下の自然数であり、dの値は、M−r以下の整数であり、Mは、ログファイルjを含む同じクリックシーケンス内のログファイルの総数を表す。
【0093】
305で、方法は、今日の全体統計および履歴の全体統計を結合する。
【0094】
今日の全体統計およびある時間間隔内の履歴の全体統計は、増分更新をサポートし、動作中に発生する場合がある問題を調査し、データを復元するために、別々に保存されてもよい。
【0095】
306で、方法は、結合された全体統計に基づいて、グローバルパラメータを計算する。
【0101】
307で、方法は、対応する事前に定義された閾値未満のグローバルパラメータを有するログファイルがフィルタリングされるように、グローバルパラメータに基づいてログファイルをフィルタリングする。
【0102】
308で、方法は、フィルタリングされたログファイルと検索リクエストとの間の関連性に対するベイズの事後確率を計算する。
【0103】
ログファイルと検索リクエストとの間の関連性のベイズの事後確率を計算するプロセスは、第1の例示的な実施形態において詳細に記載されているため、本明細書では重ねて記載しない。関係する計算プロセスは、第1の例示的な実施形態において言及されている場合がある。
【0104】
309で、方法は、ベイズの事後確率に基づいて、フィルタリングされたログファイルと検索リクエストとの間の関連性の期待値を計算する。
【0105】
ログファイルと検索リクエストとの間の関連性の期待値のプロセスは、第1の例示的な実施形態において詳細に記載されているため、本明細書では重ねて記載しない。関係する計算プロセスは、第1の例示的な実施形態において言及されている場合がある。
【0106】
310で、方法は、事前に定義された値以下の期待値を有するログファイルがフィルタリングされるように、ログファイルと検索リクエストとの間の関連性の期待値に基づいてログファイルをフィルタリングする。
【0107】
311で、方法は、検索リクエストおよびログファイルの識別子をキーとして、ならびにログファイルと検索リクエストとの間の関連性の期待値をそれぞれの値として、検索データ構造内に記憶する。
【0108】
検索データ構造はさらに、検証された検索データ構造を取得するように検証されてもよい。
【0109】
312で、方法は、ユーザによって提出された検索リクエストを受信することに応答して、検索データ構造から、ユーザによって提出された検索リクエストと提出された検索リクエストに関連する全てのログファイルとの間の関連性の期待値を検出する。
【0110】
313で、方法は、検出されたログファイルを検出された期待値の降順に順位付ける。
【0111】
開示の検索結果を順位付ける方法は、検索および順位決定システムの構造図を示す、
図4に示される検索分野において適用されてもよい。新しい検索ログの日次取得および増分更新、ならびに検索および順位決定システムを更新するために関連インデックスデータを出力することは、順位決定のための重要因子である。
【0112】
さらに、開示の検索結果を順位付ける方法は、順位決定評価システム内で適用されてもよい。例えば、検索リクエストが与えられると、開示の方法を使用して、ログファイルシーケンス内の検索リクエストに関する各ログファイルの関連性スコアが取得される。これらのスコアは、シーケンスの暗示的なユーザ評価である。これらの関連性スコアのシーケンスは、確率分布関数p(x)を求めるために正規化されてもよい。さらに、評価される順位付け方法は、確率分布関数g(x)を求めるために、同じログファイルシーケンス内の各ログファイルの関連性スコアを計算し、正規化するために使用される。p(x)とg(x)との間の距離は、評価される順位付け方法に対する推定値として使用される。差が小さくなればなるほど、評価される順位付け方法の評価が高くなる。距離を計算するための数式は
【0115】
さらに、開示の検索結果を順位付ける方法は、順位決定トレーニングシステムに適用されてもよい。例えば、開示の方法を使用して、Yとして表される、(検索、ファイル)対に対する関連性スコアが取得される。(検索、ファイル)対のプロパティ(Xによって表される)、例えば、テキストプロパティまたは画像プロパティは、その後取得される。次いで、機械学習方法を使用して、関連性アルゴリズムY=f(X)がトレーニングされる。
【0116】
上記の例示的な実施形態から、開示される方法はユーザによって提出された検索リクエストと提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検索データ構造から検出することに応答して、ベイズの事後確率に基づいてログファイルと検索リクエストの間の関連性の期待値を計算し、検出されたログファイルを検出された期待値の降順に順位付ける。情報の位置およびクリックシーケンスに関する因子を考慮することによって、ユーザは、最も所望する情報を迅速に取得することができ、これによって、検索エンジンサーバの検索プロセスのコストを削減し、検索エンジンサーバのシステムリソースを節約する。
【0117】
第3の例示的な実施形態
上記の検索結果を順位付ける方法に対応して、例示的な実施形態はさらに、検索結果を順位付ける装置を提供する。
図5は、検索結果を順位付けるための例示的な装置を図示する構造図であり、取得モジュール501と、確率計算モジュール502と、期待値計算モジュール503と、インデックス付けモジュール504と、検索モジュール505と、順位付けモジュール506とを含む。装置の内部構造および接続関係は、装置の作動原則を使用して記載する。
【0118】
取得モジュール501は、ログシステムから露出ログファイルを取得するように構成される。
【0119】
確率計算モジュール502は、ログファイルと検索リクエストとの間の関連性のベイズの事後確率を計算するように構成される。
【0120】
期待値計算モジュール503は、ベイズの事後確率に基づいて、ログファイルと検索リクエストとの間の関連性の期待値を計算するように構成される。
【0121】
インデックス付けモジュール504は、検索リクエストおよびログファイルの識別子をキーとして、ログファイルと検索リクエストとの間の関連性の期待値をそれぞれの値として、検索データ構造内に記憶するように構成される。
【0122】
検索モジュール505は、ユーザによって提出された検索リクエストを受信することに応答して、検索データ構造から、ユーザによって提出された検索リクエストと提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検出するように構成される。
【0123】
順位付けモジュール506は、検出された期待値の降順に従って、検出されたログファイルを順位付けるように構成される。
【0124】
好ましくは、
図6は、検索結果を順位付ける別の例示的な装置を図示する構造図である。取得モジュール501、確率計算モジュール502、期待値計算モジュール503、インデックス付けモジュール504、検索モジュール505、および順位付けモジュール506に加えて、装置は、ベイズの事後確率に基づいてログファイルと検索リクエストとの間の関連性の期待値を計算する前に、グローバルパラメータに基づいてログファイルをフィルタリングするように構成された第1のフィルタリングモジュール507をさらに含み、期待値計算モジュール503は、ベイズの事後確率に基づいて、フィルタリングされたログファイルと検索リクエストとの間の関連性の期待値を計算するように構成される。
【0125】
第1のフィルタリングモジュール507は、選択サブモジュール5071と、フィルタリングサブモジュール5072とをさらに含む。
【0126】
選択サブモジュール5071は、露出ログファイルから、1回露出されていて、かつクリックされていないログファイルを選択するように構成される。
【0127】
フィルタリングサブモジュール5072は、フィルタリング条件式
【0129】
に従って、選択されたログファイルから、ログファイルの対応する事前に定義された閾値未満のグローバルパラメータを有するログファイルをフィルタリングするように構成され、式中、
【0135】
は、選択されたログファイルを含む同じクリックシーケンス内において、位置rおよびr+dにあるログファイルがクリックされ、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数である。
【0137】
は、選択されたログファイルを含む同じクリックシーケンス内において、位置rにあるログファイルがクリックされ、位置r+dにあるログファイルがクリックされず、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数である。rの値は、M−1以下の自然数であり、dの値は、M−r以下の整数であり、Mは、選択されたログファイルを含む同じクリックシーケンス内のログファイルの総数を表す。E
thは、関連性の期待値に対応して事前に定義された値である。
【0138】
図7は、検索結果を順位付けるさらに別の例示的な装置を図示する構造図である。装置は、検索リクエストおよびログファイルの前記識別子をキーとして、ならびにログファイルの期待値をそれぞれの値として検索データ構造内に記憶する前に、ログファイルと検索リクエストとの間の関連性の期待値または分散に基づいて、ログファイルをフィルタリングするように構成された第2のフィルタリングモジュール508をさらに含み、対応する事前に定義された閾値未満の期待値または分散を有するログファイルがフィルタリングされ、インデックス付けモジュール504は、検索リクエストおよびフィルタリングされたログファイルの識別子をキーとして、ならびにフィルタリングされたログファイルの期待値をそれぞれの値として、検索データ構造内に記憶するように、さらに構成される。
【0139】
図8は、検索結果を順位付けるさらに別の例示的な装置を図示する構造図である。取得モジュール501、確率計算モジュール502、期待値計算モジュール503、インデックス付けモジュール504、検索モジュール505、および順位付けモジュール506に加えて、装置は、検索リクエストおよびログファイルの識別子をキーとして、ならびにログファイルの期待値をそれぞれの値として検索データ構造内に記憶する前に、検索データ構造を検証するように構成された検証モジュール509をさらに含み、検索モジュール505は、検証された検索データ構造から、ユーザによって提出された検索リクエストと、提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検出するように構成される。
【0140】
上記の例示的な実施形態から、開示される装置は、ユーザによって提出された検索リクエストと提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検索データ構造から検出することに応答して、ベイズの事後確率に基づいてログファイルと検索リクエストの間の関連性の期待値を計算し、そして検出されたログファイルを検出された期待値の降順に順位付ける。情報の位置およびクリックシーケンスに関する因子を考慮することによって、ユーザは、最も所望する情報を迅速に取得することができ、これによって、検索エンジンサーバの検索プロセスのコストを削減し、検索エンジンサーバのシステムリソースを節約する。
【0141】
代替実施形態
上記の実施形態は、関連性の期待値を計算し、これらの関連性の期待値に基づいて検索結果を順位付けるために、ベイズの事後確率を使用することを記載するが、本開示はこれに限定されない。例のためであって限定ではなく、開示される方法および装置は、ログファイルと検索リクエストとの間の関連性の期待値を判定するために、例えば、ログファイルに対するクリック数等、前述の実施形態に記載される因子の線形結合等の任意の他の数学モデルを採用してもよい。当業者は、コンピュータプログラムを通してハードウェアを命令することによって達成されてもよい上記の例示的な方法におけるプロセスの全てまたは一部を理解することができることに注意されたい。プログラムは、コンピュータ可読記憶媒体の中に記憶されてもよい。実行中、プログラムは、上記の例示的な実施形態のうちの任意の1プロセスを含んでもよい。記憶媒体として、磁気ディスク、光学式ディスク、読み出し専用メモリ(ROM)、またはランダムアクセスメモリ(RAM)等を挙げることができる。
【0142】
例えば、
図9は、
図508の装置のような装置の追加詳細を示す例示的なシステム900である。一実施形態において、システム900は、1つ以上のプロセッサ901と、ネットワークインターフェース902と、メモリ903と、入力/出力インターフェース904とを含むことができるが、これらに限定されない。
【0143】
メモリ903は、RAM等の揮発性メモリおよび/またはROMまたはフラッシュRAM等の不揮発性メモリの形式におけるコンピュータ可読媒体を含んでもよい。メモリ903は、コンピュータ可読記憶媒体の例である。
【0144】
コンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータ等の情報の記憶のために、任意の方法または技術において実装される、揮発性および不揮発性の、取り外し可能および取り外し不可能な媒体を含む。コンピュータ記憶媒体の例として、相変化メモリ(PRAM)、静的ランダムアクセスメモリ(SRAM)、動的ランダムアクセスメモリ(DRAM)、他の種類のRAM、ROM、電気的消去可能プログラマブル読み出し専用メモリ(EEPROM)、フラッシュメモリまたは他のメモリ技術、コンパクトディスク読み出し専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)または他の光学式記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいはコンピュータデバイスによってアクセスするための情報を記憶するように使用することが可能である任意の他の非伝送媒体が挙げられるが、これらに限定されない。本明細書に定義される場合、コンピュータ可読記憶媒体は、変調データ信号および搬送波等の一時的媒体を含まない。
【0145】
メモリ903は、プログラムモジュール905と、プログラムデータ906とを含んでもよい。一実施形態において、プログラムモジュール905は、取得モジュール907と、確率計算モジュール908と、期待値計算モジュール909と、インデックス付けモジュール910と、検索モジュール911と、順位付けモジュール912とを含む場合がある。加えて、いくつかの実施形態において、プログラムモジュール905は、第1のフィルタリングモジュール913をさらに含む場合がある。いくつかの実施形態において、第1のフィルタリングモジュール913は、選択サブモジュール914と、フィルタリングサブモジュール915とを含む場合がある。加えてまたは代替として、プログラムモジュール905は、第2のフィルタリングモジュール916をさらに含んでもよい。加えてまたは代替として、いくつかの実施形態において、プログラムモジュール905は、検証モジュール917をさらに含む場合がある。これらのプログラムモジュールに関する詳細は、上記の前述の実施形態に見出すことができる。
【0146】
検索結果を順位付ける方法および装置は、本開示において詳細に記載されている。例示的な実施形態は、本開示において本発明の概念および実装を例示するために採用される。例示的な実施形態は、本発明の方法および重要な概念の理解を深めるためにのみ使用される。本開示の概念に基づいて、当業者は、例示的な実施形態および適用分野を変更してもよい。全体的に、本開示内の内容は、開示された方法および装置に対する限定として解釈されてはならない。