(58)【調査した分野】(Int.Cl.,DB名)
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される前記第2の関連性値、および最高広告収入の前記データ値に基づいて、前記検索結果の前記ランク付けスコアを決定することは、
前記キーワード要素のそれぞれに対して、前記検索結果が属する情報カテゴリと前記キーワード要素が属する情報カテゴリとの関連性を測定するために使用されるカテゴリ特性スコアを決定することと、
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記データ値、および前記カテゴリ特性スコアに基づいて、前記検索結果の前記ランク付けスコアを決定することと、を含む、請求項2に記載の方法。
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される前記第2の関連性値、および最高広告収入の前記データ値に基づいて、前記検索結果の前記ランク付けスコアを決定することは、
前記キーワード要素のそれぞれに対して、前記キーワード要素が検索の前記キーワードとして使用される前記検索結果と関連付けられるクリック率を決定することと、
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との前記関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との前記関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記データ値、および前記クリック率に基づいて、前記検索結果の前記ランク付けスコアを決定することと、を含む、請求項2に記載の方法。
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との前記関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との前記関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記データ値、および前記クリック率に基づいて、前記検索結果の前記ランク付けスコアを決定することは、
前記キーワード要素のそれぞれに対して、前記検索結果が属する情報カテゴリと前記キーワード要素が属する情報カテゴリとの関連性を測定するために使用されるカテゴリ特性スコアを決定することと、
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との前記関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との前記関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記データ値、前記クリック率、および前記カテゴリ特性スコアに基づいて、前記検索結果の前記ランク付けスコアを決定することと、を含む、請求項4に記載の方法。
前記キーワード要素は、前記キーワードを分割することによって生成されるキーワード要素、前記キーワードから特殊文字を削除した後に残るキーワード要素、前記キーワードに近い意味を有するキーワード要素、前記キーワードが属する情報カテゴリに関連すると決定されるキーワード要素、ならびに他のキーワードと前記キーワードとの共起の確率に基づいて決定されるキーワード要素を含む、請求項1に記載の方法。
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される前記第2の関連性値、および最高広告収入の前記データ値に基づいて、前記検索結果の前記ランク付けスコアを決定することは、
前記キーワード要素のそれぞれに対して、前記検索結果が属する情報カテゴリと前記キーワード要素が属する情報カテゴリとの関連性を測定するために使用されるカテゴリ特性スコアを決定することと、
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記データ値、および前記カテゴリ特性スコアに基づいて、前記検索結果の前記ランク付けスコアを決定すること、を含む、請求項9に記載の方法。
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との関連性を測定するために使用される前記第2の関連性値、および最高広告収入の前記データ値に基づいて、前記検索結果の前記ランク付けスコアを決定することは、
前記キーワード要素のそれぞれに対して、前記キーワード要素が検索の前記キーワードとして使用される前記検索結果と関連付けられるクリック率を決定することと、
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との前記関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との前記関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記データ値、および前記クリック率に基づいて、前記検索結果の前記ランク付けスコアを決定することと、を含む、請求項9に記載の方法。
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との前記関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との前記関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記データ値、および前記クリック率に基づいて、前記検索結果の前記ランク付けスコアを決定することは、
前記キーワード要素のそれぞれに対して、前記検索結果が属する情報カテゴリと前記キーワード要素が属する情報カテゴリとの関連性を測定するために使用されるカテゴリ特性スコアを決定することと、
前記キーワード要素のそれぞれに対して、前記検索結果と前記キーワード要素との前記関連性を測定するために使用される前記第1の関連性値、前記キーワードと前記キーワード要素との前記関連性を測定するために使用される前記第2の関連性値、最高広告収入の前記データ値、前記クリック率、および前記カテゴリ特性スコアに基づいて、前記検索結果の前記ランク付けスコアを決定することと、を含む、請求項11に記載の方法。
前記キーワード要素は、前記キーワードを分割することによって生成されるキーワード要素、前記キーワードから特殊文字を削除した後に残るキーワード要素、前記キーワードに近い意味を有するキーワード要素、前記キーワードが属する情報カテゴリに関連すると決定されるキーワード要素、ならびに他のキーワードと前記キーワードとの共起の確率に基づいて決定されるキーワード要素を含む、請求項8に記載の方法。
【発明を実施するための形態】
【0026】
既存の技術がロングテールキーワードについて求められた検索結果をランク付けするために使用される際の不正確なランク付けの問題を克服するために、本開示の実施形態は、検索結果をランク付けする方法を提供する。ロングテールキーワードと検索結果との関連性をロングテールキーワードとキーワード要素との関連性ならびにキーワード要素と検索結果との関連性に変換することによって、クリックフィードバックに関連し、かつ関連性値を計算するのに使用される固有ベクトルがより正確になる。したがって、ランク付けスコアの精度は改善され、それ故に検索結果のランク付けの精度を改善することができる。
【0027】
本開示の実施形態において提供される方法を実施する特定のプロセスが、添付の図とともに以下に詳細に記載される。
【0028】
図1は、本開示の実施形態において提供される検索結果をランク付けする方法を例示するフローチャートを示し、これは、以下の手順を含む。
【0029】
ブロック11では、キーワードに関連するキーワード要素を決定する。
【0030】
本実施形態では、ユーザクライアントから送信されるキーワードに関連するキーワード要素は、クエリーリライト(QR)などを含むが限定されない技術を使用して決定されてもよい。一般的に、キーワードを分割することによって生成されるキーワード要素以外に、決定されたキーワード要素はまた、キーワードから特殊文字を削除した後に残るキーワード要素、キーワードに近い意味を有するキーワード要素、キーワードが属する情報カテゴリに関連すると決定されるキーワード要素、および他のキーワードとキーワードとの共起の確率に基づいて決定されるキーワード要素など、1つ以上の種類を含むことができる。具体的には、英語のキーワードの場合、決定されたキーワード要素は、キーワードの文字の大文字と小文字の変換後に得られるキーワード要素をさらに含むことができる。
【0031】
一般的に、キーワード要素に含まれる文字の数は、キーワード自体に含まれる文字の数より少ない。したがって、キーワード要素に基づいて得られる検索結果の数は通常、キーワードに基づいて得られる検索結果の数より多い。
【0032】
ブロック12では、キーワードに基づいて得られたそれぞれの検索結果に対して、キーワード要素、検索結果、ならびに検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値の間の予め記憶された対応関係から、キーワードに基づいて得られた検索結果および決定されたキーワード要素の両方に対応する第1の関連性値を個別に決定する。
【0033】
この実施形態では、検索結果のランク付けスコアを計算する効率を確保するために、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値は、予め計算され、記憶されてもよい。検索結果のランク付けスコアが後の段階で計算されるとき、キーワードに基づいて得られた検索結果に対応する第1の関連性値が、記憶された第1の関連性値から直接選択されてもよい。第1の関連性値を計算するときに参照されるキーワード要素がユーザによって検索エンジンに予め入力されたキーワードに基づいて統計的に生成され得ることに留意されたい。このようなキーワードは、検索エンジンに予め入力されたすべてのキーワード、および/または検索エンジンに入力されたキーワードの間の所定の閾値より高い入力率を有するキーワードなどであってもよい。
【0034】
具体的には、第1の関連性値は、既存の技術において比較的十分に開発されている勾配ブースト決定木(GBDT)モデルまたは線形モデルを使用して計算されてもよい。これら2つのモデルを使用して第1の関連性値を計算する特定の例は、後節において提供され、本明細書に重複して記載されない。上記のモデルを使用して第1の関連性値を計算する際に、キーワード要素、検索結果、ならびに検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値の間の対応関係は、検索結果のランク付けスコアが後の段階で計算されるときにデータ支援を提供するためにそれに応じて記憶されてもよい。
【0035】
ブロック13では、キーワードと決定されたキーワード要素との関連性を測定するために使用される第2の関連性値を決定する。
【0036】
この実施形態では、いくつかの方法が第2の関連性値を計算するために使用されてもよい。例えば、第2の関連性値は、キーワードとキーワード要素とのテキスト関連性、それぞれの関係者が属する情報カテゴリ間の関連性、または共起の確率(共起確率と略称される)に基づいて計算されてもよい。
【0037】
テキスト関連性に基づいて第2の関連性値を計算する特定の手法は、キーワードとキーワード要素とのテキスト一致度を測定するテキスト一致値を決定することと、決定されたテキスト一致値に基づいて、第2の関連性値とテキスト一致値との予め構成された対応関係からテキスト一致値に対応する第2の関連性値を決定することとを含む。
【0038】
カテゴリ関連性に基づいて第2の関連性値を計算する特定の手法は、キーワードおよびキーワード要素が属するそれぞれの情報カテゴリ間の関連性度に基づいて第2の関連性値を計算することを含む。
【0039】
共起確率に基づいて第2の関連性値を計算する特定の手法は、キーワードおよびキーワード要素が同一のテキストで共起する確率に基づいて第2の関連性値を計算することを含む。
【0040】
これらの計算方法を実施する詳細が後続の例示的な実施形態に記載され、したがって本明細書に重複して記載されない。
【0041】
ブロック12およびブロック13の実行の上記順が逆転され得ることに留意されたい。また、ブロック12およびブロック13は、並行して実行されてもよい。
【0042】
ブロック14では、第1の関連性スコアおよび第2の関連性スコアを使用して、キーワードに基づいて求められるそれぞれの検索結果に対してランク付けスコアを決定する。
【0043】
この実施形態では、ブロック14は、多くの異なる手法で実施されてもよい。下記は、これらの手法の実施プロセスの説明を提供する。
【0044】
第1の手法:
キーワードに基づいて求められるそれぞれの検索結果に対して、以下のプロセスが行われる。
最初に、それぞれの決定されたキーワード要素に対して、このキーワード要素がキーワードとして使用される検索結果が提示されるたびに、最高広告収入のデータ値を決定し、
次に、それぞれの決定されたキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、および最高広告収入の対応するデータ値に基づいて、検索結果のランク付けスコアを決定し、
最後に、それぞれのキーワード要素の決定されたランク付けスコアから、検索結果と関連付けられるランク付けスコアとして最高スコアを選択する。
【0045】
第2の手法:
第2の手法は、それぞれの決定されたキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、および最高広告収入の対応するデータ値に基づいて、検索結果のランク付けスコアを決定する第1の手法とは異なり、以下の手順を含むことができる。
最初に、それぞれの決定されたキーワード要素に対して、検索結果が属する情報カテゴリとキーワード要素が属する情報カテゴリとの関連性を測定するために使用されるカテゴリ特性スコアを決定し、
次に、それぞれの決定されたキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、最高広告収入の対応するデータ値、および対応するカテゴリ特性スコアに基づいて、検索結果のランク付けスコアを決定する。
【0046】
第3の手法:
第3の手法は、それぞれの決定されたキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、および最高広告収入の対応するデータ値に基づいて、検索結果のランク付けスコアを決定する第1の手法とは異なり、以下の手順を含むことができる。
それぞれの決定されたキーワード要素に対して、そのキーワード要素がキーワードとして使用されるときに検索結果のクリック率を決定し、
それぞれの決定されたキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、最高広告収入の対応するデータ値、およびクリック率に基づいて、検索結果のランク付けスコアを決定する。
【0047】
第4の手法:
第4の手法は、それぞれの決定されたキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、最高広告収入の対応するデータ値、およびクリック率に基づいて、検索結果のランク付けスコアを決定する第3の手法とは異なり、以下の手順を含むことができる:
最初に、それぞれの決定されたキーワード要素に対して、検索結果が属する情報カテゴリとキーワード要素が属する情報カテゴリとの関連性を測定するために使用されるカテゴリ特性スコアを決定し、
次いで、それぞれの決定されたキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、最高広告収入の対応するデータ値、対応するクリック率、およびカテゴリ特性スコアに基づいて、検索結果のランク付けスコアを決定する。
【0048】
ロングテールキーワードの場合、それに基づいて得られる検索結果の数は非常に少ない。これらの少ない検索結果を考慮して、ユーザは、検索結果の数がユーザの期待に応えないため、任意の検索結果をクリックすることをあきらめるか、またはユーザの検索意図を無視し、1つずつ検索結果をクリックするかのいずれかであり得る。これは通常、上記のクリック率が実際にユーザの検索意図とのその関係を測定するのを困難にする。したがって、第1および第2の手法は、この実施形態に用いられるのが好ましい。これら2つの手法の共通点は、クリック率の影響がランク付けスコアの計算に含まれないことである。
【0049】
ブロック15では、それぞれの検索結果のランク付けスコアを使用して、キーワードに基づいて得られた検索結果のランク付け順を指示するために使用されるランク付け情報を決定する。
【0050】
この実施形態では、このブロックを実施する主要な関係者は、検索エンジン装置、または検索結果のランク付け専用であり、検索エンジン装置から独立し、かつそれとは別個である検索結果ランク付け装置であってもよい。
【0051】
本開示の実施形態によって提供される上記の技術的方式を使用して、ロングテールキーワードの場合、ロングテールキーワードと対応する検索結果との関連性を測定する関連性値を直接計算する数式[1]などの数式が必要とされなくてもよい。その代わりに、ロングテールキーワードと検索結果との関連性は、ロングテールキーワードとキーワード要素との関連性ならびにキーワード要素と検索結果との関連性に変換される。キーワード要素に基づいて得られる検索結果の数が通常、ロングテールキーワードに基づいて得られる検索結果の数より多いため、クリックフィードバックに関連し、かつキーワード要素と検索結果との関連性を測定する関連性値を計算するのに使用される固有ベクトルは比較的正確である。したがって、ランク付けスコアの精度、それ故、検索結果のランク付けの精度が改善され、ひいては検索サーバの作業負荷およびネットワーク帯域の占有を低減する。
【0052】
検索結果をランク付けするための上記の例示的な方法に基づいて、本開示の実施形態は、検索方法をさらに提供する。本方法は、以下の手順を具体的に含むことができる。
最初に、キーワードを含む検索要求を受信し、
次いで、検索要求に含まれるキーワードに基づいて対応する検索結果を求め、ランク付け情報が本開示の実施形態において提供されるような検索結果をランク付けする方法、すなわち、
図1に示されるような方法、またはその方法から生じる方法を使用して決定され得る、求められた検索結果のランク付け順を指示するために使用されるランク付け情報を決定し、
最後に、求められた検索結果および決定されたランク付け情報を検索要求に対応する送信者の装置に送信し、ランク付け情報に従って求められた検索結果を順序付けるように送信者の装置に指示する。
【0053】
この実施形態において提供される検索方法よって、キーワード要素に基づいて得られる検索結果の数は通常、ロングテールキーワードに基づいて得られる検索結果の数と比較してより多い。したがって、例えば、
図1に示されるような方法、またはその方法から生じる方法を使用して決定されるランク付け情報はより正確である。したがって、送信者の装置は、このようなランク付け情報に基づいて検索結果のより正確なランク付けを行うことができ、それ故に検索結果の不正確なランク付けに起因する、正確なランク付け結果を得る検索要求を送信者の装置により繰り返し送信することによって引き起こされる大量のシステムリソースを浪費する問題を避けることができる。
【0054】
本開示の実施形態において提供される上記の方式を実施するプロセスが実用性とともに以下に詳細に記載される。
【0055】
上記方式を行うために確立されるシステムアーキテクチャが最初に本明細書に紹介される。本システムアーキテクチャは、
図2に例示され、アプリケーション層212、論理層214、およびデータ層216に分割されてもよい。
【0056】
アプリケーション層における主装置はユーザクライアント202であり、これは、ユーザからユーザインターフェースを介して入力されるキーワードを受信するように構成され、論理層の検索結果ランク付けモジュールから送信されるランク付け情報による入力されたキーワードに基づいて求められる検索結果をランク付けおよび提示するようにさらに構成される。
【0057】
論理層における主装置は、オンラインリアルタイム関連性計算モジュール204および検索結果ランク付けモジュール206である。オンラインリアルタイム関連性計算モジュール204は、アプリケーション層のユーザクライアント202から受信されるキーワードに関連するキーワード要素を決定し、かつキーワードとキーワード要素との関連性を測定するために使用されるそれぞれの第2の関連性値を決定するように主に構成される。さらに、オンラインリアルタイム関連性計算モジュール206は、データ層における関連性値データベース内に記憶される3つの関係者(キーワード要素、検索結果、ならびにキーワード要素と検索結果との関連性を測定するために使用される第1の関連性値)間の対応関係に基づいて、キーワードに関連するキーワード要素およびキーワードに基づいて得られた検索結果の両方に対応する第1の関連性値を決定し、かつキーワードに基づいて得られる検索結果のそれぞれに対して、対応する第1の関連性値および対応する第2の関連性値に基づいてランク付けスコアを決定する動作を行うように構成される。キーワードとキーワード要素との関係は、キーワードがキーワード要素と同一または類似の意味を有し、かつキーワードが通常、複数のキーワード要素に分割され得ることであることに留意されたい。例えば、キーワード「中国人民銀行」は、「中国」、「人民」、「銀行」、「中国の人民」、「人民の銀行」、「中国の銀行」などのようなキーワード要素に分割されてもよい。論理層に含まれる検索結果ランク付けモジュール206は、オンラインリアルタイム関連性計算モジュール204によって得られるランク付けスコアに基づいて検索結果のランク付け順を指示するように使用されるランク付け情報を決定するように主に構成されてもよい。
【0058】
データ層における主装置は、オフライン完全関連性計算モジュール208および関連性値データベース210である。オフライン関連性値計算モジュール208は、キーワード要素とキーワード要素に基づいて得られる検索結果との関連性値を計算するように構成される。関連性値データベース210は、記憶デバイスであり、キーワード要素、検索結果、およびそれに応じてオフライン完全関連性値計算モジュール208によって得られた関連性値を記憶するように構成される。
【0059】
図2に例示されるシステムアーキテクチャに基づいて、実際に本開示の実施形態において提供される方法を実施するプロセスの詳細は、
図3に例示されるようにブロックに分割されてもよい。これらのブロックは一般的に、ブロック31およびブロック32がオフライン処理ブロックである2つの部分に分割されてもよく、この目的は、ランク付けスコアの後続の決定に対するデータ支援を提供するためにキーワード要素と対応する検索結果との関連性値を決定および記憶することである。ブロック33〜39は、オンライン処理ブロックであり、この目的は、オフライン処理ブロックで決定された関連性値を使用して、キーワードに基づいて求められる検索結果のランク付けスコアを決定し、ランク付けスコアに従って検索結果をランク付けすることである。
【0060】
これらのブロックは、以下に詳細に記載される。
【0061】
ブロック31では、特定のキーワード要素に対して、オフライン完全関連性計算モジュールは、検索キーワードとしてこれらのキーワード要素を使用して得られる検索結果を決定し、キーワード要素と対応する検索結果との関連性を測定するために使用される第1の関連性値を計算する。
【0062】
第1の関連性値を計算するための計算モデルは、GBDTモデルまたは線形モデルなどであってもよい。これらのモデルが既存の技術において比較的十分に開発され、かつ頻繁に用いられるモデルであるため、それらの実施原理の簡単な説明のみ下記に提供される。
【0063】
GBDTモデルは、複数(通常、百超)の決定木で構成される計算モデルである。第1の関連性値を計算するとき、第1の関連性値の初期値の予測は、GBDTモデルに入力される固有ベクトル(例えば、表1における固有ベクトルv
1〜v
nのうちのいずれか)に最初に割り当てられ、次いで、このモデルにおける決定木のそれぞれは、キーワード要素と検索結果との関連性を測定するために使用される第1の関連性値を得るために、この初期の第1の関連性値を調整するように通過される。j番目のキーワード要素とj番目のキーワード要素に基づいて得られるi番目の検索結果との関連性を測定するために使用される第1の関連性値X
ijを例にとってみる。GBDTモデルによれば、X
ijは、以下の数式[3]に示されるように計算されてもよい。
【0065】
式中、v
zがGBDTモデルに入力される固有ベクトルであり、
【0067】
がGBDTモデルの固有ベクトルv
zに割り当てられる初期の第1の関連性値であり、kがGBDTモデルに含まれる決定木の数であり、
【0069】
が、lが1≦l≦kを満たす、l番目の決定木の重みであり、T
l(v
z)が初期の第1の関連性値を調整するためにl番目の決定木によって使用される調整関数である。
【0070】
上記のGBDTモデルに加えて、第1の関連性値は、線形モデルを使用して代わりに計算されてもよい。一般的に、線形モデルを使用して第1の関連性値を計算する方法は、比較的単純であり、固有ベクトルの加重和を計算することによって通常行われてもよい。特定の数式は、前述の節における数式[2]を指すことができ、本明細書に重複して記載されない。
【0071】
ブロック32では、関連性値データベースは、キーワード要素、検索結果、およびそれに応じてオフライン完全関連性計算モジュールによって得られた第1の関連性値を記憶する。
【0072】
第1の関連性値、検索結果、およびそれに応じてキーワード要素を記憶する関連性値データベースの目的は、検索結果のランク付けスコアを決定することにおいてオンラインリアルタイム関連性計算モジュールに対するデータ支援を提供することである。
【0073】
j番目のキーワード要素の場合、対応する検索結果および対応する第1の関連性値でそれに応じてそれを記憶する手法が表2に示される。
【0075】
ブロック33では、ユーザクライアントは、ユーザによってユーザインターフェースを介して入力されるキーワードを受信し、オンラインリアルタイム関連性計算モジュールに受信されたキーワードを提供する。
【0076】
ブロック34では、オンラインリアルタイム関連性計算モジュールは、ユーザクライアントから送信されるキーワードに関連するキーワード要素を決定する。
【0077】
ブロック34では、オンラインリアルタイム関連性計算モジュールは、QRなどの技術を使用して、ユーザクライアントから送信されるキーワードに関連するキーワード要素を決定することができる。一般的に、キーワードを分割することによって生成されるキーワード要素以外に、決定されたキーワード要素はまた、キーワードから特殊文字を削除した後に残るキーワード要素、キーワードに近い意味を有するキーワード要素、キーワードが属する情報カテゴリに関連すると決定されるキーワード要素、他のキーワードとそのキーワードとの共起の確率に基づいて決定されるキーワード要素など、1つ以上の種類を含むことができる。特に、英語のキーワードの場合、決定されたキーワード要素は、キーワードの文字の大文字と小文字の変換後に得られるキーワード要素をさらに含むことができる。
【0078】
同一キーワードのために決定されるキーワード要素の間の共通点は、これらのキーワード要素とキーワードとのある関連性の存在である。この関連性は、異なる視点から測定されてもよい。例えば、キーワード要素の検索結果とキーワードの検索結果との一致度は、キーワード要素とキーワードとの関連性を直観的に決定するために使用されてもよく、一致度が高ければ高いほど関連性は高くなる。その逆は、関連性がより低いことを意味する。
【0079】
ブロック35では、オンラインリアルタイム関連性計算モジュールは、キーワードとブロック34で決定されたキーワード要素との関連性を測定するために使用される第2の関連性値を決定する。
【0080】
この実施形態では、第2の関連性値は、多くの異なる手法で計算されてもよい。例えば、第2の関連性値は、キーワードとキーワード要素とのテキスト関連性、キーワードおよびキーワード要素が属するそれぞれの情報カテゴリ間の関連性、またはキーワードとキーワード要素との共起の確率(共起確率と略称される)に基づいて計算されてもよい。
【0081】
テキスト関連性を使用して第2の関連性値を計算する特定の手法は、キーワードとそれぞれのキーワード要素とのテキスト一致度を測定するために使用されるテキスト一致値を決定すること、決定されたテキスト一致値に基づいて、第2の関連性値とテキスト一致値との予め構成された対応関係からそれぞれのテキスト一致値に対応する第2の関連性値を選択することとを含む。第2の関連性値とテキスト一致値との対応関係が設定されるとき、参照規則としては、テキスト一致値が高ければ高いほど対応する第2の関連性値が大きくなり、そうでないとテキスト一致値が低ければ低いほど対応する第2の関連性値が小さくなることが挙げられ得る。換言すれば、テキスト一致値の昇順は、第2の関連性値の昇順に対応する。このような対応関係が予め設定されない場合、テキスト一致値は、対応する第2の関連性値として直接処理されてもよい。テキスト一致値を使用して第2の関連性値を計算する例が以下のように記載される。
【0082】
キーワード「国立地質公園」を考慮すると、それに関連する決定されたキーワード要素は、「地質公園」および「国立」であると考えられてもよい。したがって、「国立地質公園」および「地質公園」は、テキスト一致値が4であると考えられ得ることから4文字を共通に有すると決定されてもよい。同様に、「国立地質公園」および「国立」は、2文字を共通に有すると決定されてもよく、したがってテキスト一致率は、2であると考えられてもよい。決定された一致値(4および2)に基づいて、テキスト一致値(4および2)に対応するそれぞれの第2の関連性値は、第2の関連性値と第2の関連性値の昇順でテキスト一致値の対応する昇順の規則に従って予め構成されるテキスト一致値との対応関係から決定されてもよい。
【0083】
さらに、情報カテゴリの関連性に基づいて第2の関連性値を計算する特定の手法は、キーワードおよびキーワード要素が属するそれぞれの情報カテゴリ間の関連性に基づいて第2の関連性値を決定することを含む。一般的に、キーワードが属する情報カテゴリおよびキーワード要素が属する情報カテゴリが類似であるか、または階層関係を有する場合、対応する第2の関連性値が得られてもよい。例えば、キーワードが「婦人服」の情報カテゴリに属する場合、それに関連すると決定されたキーワード要素は、「服装」の情報カテゴリに属してもよい。「服装」の情報カテゴリが「婦人服」の情報カテゴリの下の情報サブカテゴリであるため、階層関係は、「服装」および「婦人服」のこれら2つの情報カテゴリ間で確立され、「婦人服」の情報カテゴリは、「服装」の情報カテゴリより高いレベルである。この状況下で、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値が決定されてもよい。具体的には、第2の関連性値は、この階層関係と関連付けられる距離によって計算されてもよい。例えば、キーワードが属する情報カテゴリとキーワード要素が属する情報カテゴリとの中間にあるレベルの数が大きければ大きいほど第2の関連性値が小さくなる。あるいは、第2の関連性値は、キーワードの情報カテゴリがキーワード要素の情報カテゴリより高いかまたは低いかどうかに基づいて計算されてもよい。例えば、キーワードが属する情報カテゴリのレベルが第1のキーワード要素が属する情報カテゴリのレベルより高いが、第2のキーワード要素が属する情報カテゴリのレベルより低い場合、キーワードと第1のキーワード要素との関連性を測定するために使用される第2の関連性値は、キーワードと第2のキーワード要素との関連性を測定するために使用される第2の関連性値より大きいように設定されてもよい。
【0084】
上記の計算方法に加えて、共起確率を使用して第2の関連性値を計算する特定の手法は、キーワードおよびキーワード要素が同一のテキストで共起する確率に基づいて第2の関連性値を計算することを含むことができる。特定の数式は、以下の数式[4]として示される。
【0086】
式中、Y
jがキーワードとそれに関連するj番目のキーワード要素との関連性を測定する第2の関連性値であり、H
jがキーワードおよびj番目のキーワード要素が同一のテキストコレクションで共起する回数であり、H
0jが、キーワードがそのテキストコレクションで生じる回数であり、H
1jが、j番目のキーワード要素がそのテキストコレクションで生じる回数である。
【0087】
ブロック36では、オンラインリアルタイム関連性計算モジュールは、ブロック34で決定されるキーワード要素に対応する第1の関連性値に対する関連性値データベースを問い合わせる。
【0088】
例えば、j番目のキーワード要素の場合、オンラインリアルタイム関連性計算モジュールは、関連性値データベース内に記憶される対応関係(例えば、表2に示されるような)から第1の関連性値X
1,j〜X
r,jのr番号を求めることができる。同様に、キーワードに関連する他のキーワード要素に対する第1の関連性値もまた、それに応じて求められてもよい。
【0089】
ブロック37では、オンラインリアルタイム計算モジュールは、決定された第2の関連性値および求められた第1の関連性値を使用して、キーワードに基づいて求められる検索結果のランク付けスコアを決定する。
【0090】
この実施形態では、検索結果のランク付けスコアを決定するために複数の方法が存在してもよい。ランク付けスコアが決定されるi番目の検索結果、およびそのキーワードに関連するj番目のキーワード要素が例として使用される。j番目のキーワード要素とi番目の検索結果との関連性を測定する第1の関連性値X
ijが求められる場合、j番目のキーワード要素に関するi番目の検索結果のランク付けS
iは、X
ij、j番目のキーワード要素とキーワードとの関連性を測定するために使用される第2の関連性Y
i、j番目のキーワード要素が検索のキーワードとして使用されるときにi番目の検索結果と関連付けられるクリック率Q
i、およびj番目のキーワード要素が検索のキーワードとして使用されるi番目の検索結果が提示されるたびに得られる最高広告収入のデータ値C
iに基づいて決定されてもよい。特定の数式は、以下のような数式[5]に参照されてもよい。
【0092】
式中、β
iがS
iに与えるQ
iの影響を調整するために使用される。Q
iが通常、統計値であることに留意されたい。例えば、ユーザがユーザの検索意図を反映して、複数の検索を行う検索のキーワードとしてj番目のキーワード要素を使用するとき、i番目の検索結果が提示される回数およびi番目の検索結果がクリックされる回数は統計的に分析されてもよい。次に、検索結果と関連付けられるクリック率は、これらの数から計算されてもよい。
【0093】
あるいは、i番目の検索結果のランク付けスコアS
iは、第1の関連性値X
ij、第2の関連性値Y
j、j番目のキーワード要素が検索のキーワードとして使用されるときにi番目の検索結果と関連付けられるクリック率Q
i、j番目のキーワード要素が検索のキーワードとして使用されるi番目の検索結果が提示されるごとの最高広告収入のデータ値C
i、およびカテゴリ特性スコアD
iに基づいて決定されてもよい。カテゴリ特性スコアD
iは、i番目の検索結果が属する情報カテゴリとj番目のキーワード要素が属する情報カテゴリとの関連性を測定する値を指す。具体的には、S
iを計算するための数式は、以下の数式[6]を指すことができる。
【0095】
ロングテールキーワードの場合、それに基づいて得られる検索結果の数は非常に少ない。これらの少ない検索結果を考慮して、ユーザは、検索結果の数がユーザの期待に応えないため、任意の検索結果をクリックすることをあきらめるか、またはユーザの検索意図を無視し、1つずつ検索結果をクリックするかのいずれかであり得る。これは通常、Q
iが実際にユーザの検索意図とのその関係を測定するのを困難にする。したがって、S
iがこの実施形態において計算されるとき、Q
iは、上記の数式から削除されてもよい。Q
iを削除することによって、上記の数式[5]および[6]は、数式[7]および[8]として変換されてもよい。
【0098】
あるいは、本実施形態は、以下の数式[9]などの簡略化された数式を用いて、S
iを計算することができる。
【0100】
上記の計算によって、同一の検索結果に関する異なるキーワード要素のランク付けスコアが計算されてもよい。この実施形態では、任意の検索結果に対して、リアルタイム関連性計算モジュールは、限定されないが、検索結果のランク付けスコアとしてその検索結果に対応する複数の計算されたランク付けスコアから最高ランク付けスコアを選択することができる。したがって、1つのランク付けスコアのみが最後にランク付けのための基準としてそれぞれの検索結果に対して決定されてもよい。
【0101】
ブロック38では、検索結果ランク付けモジュールは、オンラインリアルタイム関連性計算モジュールによって決定されたランク付けスコアに基づいて、検索結果のランク付け順を指示するために使用されるランク付け情報を決定し、ランク付け情報をユーザクライアントに送信する。
【0102】
この実施形態では、ランク付け情報は、検索結果のランク付け順を指示するために特別に使用される。例えば、10個の検索結果がキーワードに基づいて求められると考えられる(番号1〜10がそれぞれ異なる検索結果を表すと考える)。さらに、検索結果のランク付けスコアに基づくランク付け順は、「2、1、5、8、3、4、9、10、7、6」であり、対応するランク付け情報がこのランク付け順を指示するランク付け情報として処理され得る。
【0103】
ブロック39では、ユーザクライアントは、検索結果ランク付けモジュールから送信されるランク付け情報に従って検索結果を提示する。プロセスが終了する。
【0104】
検索結果をランク付けする上記の方式の特質により、この実施形態における方式によって採用されるランク付けモデルは、「2部ランク付けモデル」と呼ばれてもよい。「2部」のうちの一方の部は、リアルタイムにキーワードとキーワード要素との関連性を測定するために使用される第2の関連性値のオンライン計算を指し、他方の部は、キーワード要素と検索結果との関連性を測定するために使用される第1の関連性値のオフライン完全計算を指す。
【0105】
本開示の実施形態によって提供される上記の技術的方式を使用して、ロングテールキーワードの場合、ロングテールキーワードと検索結果との関連性を測定する関連性値を直接計算する数式[1]などの数式が必要とされなくてもよい。その代わりに、ロングテールキーワードと検索結果との関連性は、ロングテールキーワードとキーワード要素との関連性ならびにキーワード要素と検索結果との関連性に変換される。キーワード要素に基づいて得られる検索結果の数が通常、ロングテールキーワードに基づいて得られる検索結果の数より大きいため、クリックフィードバックに関連し、かつキーワード要素と検索結果との関連性を測定する関連性値を計算するのに使用される固有ベクトルが比較的正確である。したがって、ランク付けスコアの精度は改善され、それ故に検索結果のランク付けの精度を間接的に改善する。
【0106】
ロングテールキーワードに基づいて求められる検索結果をランク付けするために既存の技術が使用されるときに不正確なランク付けになり得る問題を解決するために、本開示の実施形態は、検索結果をランク付けする上記の方法に対応する検索結果をランク付けするための装置をさらに提供する。本装置の特定の構造が
図4に示され、
キーワードに関連するキーワード要素を決定するように構成されるキーワード要素決定ユニット41と、
キーワードに基づいて得られたそれぞれの検索結果に対して、キーワード要素、検索結果、および検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値の間の予め記憶された対応関係から、キーワードに基づいて得られた検索結果および決定されたキーワード要素の両方に対応する第1の関連性値を別々に決定し、かつキーワードとキーワード要素決定ユニット41によって決定されたキーワード要素との関連性を測定するために使用される第2の関連性値を別々に決定するように構成される第1の関連性値決定ユニット42と、
キーワードとキーワード要素決定ユニット41によって決定されたキーワード要素との関連性を測定するために使用される第2の関連性値を別々に決定するように構成される第2の関連性値決定ユニット43と、
第1の関連性値決定ユニット42によって決定された第1の関連性値および第2の関連性値決定ユニット43によって決定された第2の関連性値を使用して、キーワードに基づいて得られるそれぞれの検索結果のランク付けスコアを別々に決定するように構成されるランク付けスコア決定ユニット44と、
ランク付けスコア決定ユニット44によって決定されたそれぞれの検索結果のランク付けスコアに従って検索結果のランク付け順を指示するために使用されるランク付け情報を決定するように構成されるランク付けユニット45との機能ユニットを含む。
【0107】
任意に、ランク付けスコア決定ユニット44の機能の実施に対応して、このユニットは、
キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、キーワード要素が検索のキーワードとして使用される検索結果が提示されるたびに、得られる最高広告収入のデータ値を決定するように構成される最高広告収入データ値決定サブユニット441と、
キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、および最高広告収入データ値決定サブユニット441によって決定された最高広告収入のデータ値に基づいて、検索結果のランク付けスコアを決定するように構成されるランク付けスコア決定サブユニット442と、
関連付けられた検索結果のランク付けスコアとしてランク付けスコア決定サブユニット442によって決定されたキーワード要素のランク付けから最高ランク付けスコアを選択するように構成されるランク付けスコア選択サブユニット443と、を含む
図4に例示されるような機能的サブユニットに分割されてもよい。
【0108】
任意に、ランク付けスコア決定サブユニット442の機能の実施に対応して、このユニットは、
キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、検索結果が属する情報カテゴリとキーワード要素が属する情報カテゴリとの関連性を測定するカテゴリ特性スコア値を決定するように構成されるカテゴリ特性スコア決定モジュールと、
キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、最高広告収入の対応するデータ値、およびカテゴリ特性スコア決定モジュールによって決定されたカテゴリ特性スコアに基づいて、検索結果のランク付けスコアを決定するように構成されるランク付けスコア決定モジュールと、を含む機能的モジュールに分割されてもよい。
【0109】
任意に、ランク付けスコア決定サブユニット442の機能の実施に対応して、このユニットは、
キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、キーワード要素を使用することが検索のキーワードとして使用されるときに、検索結果と関連付けられるクリック率を決定するように構成されるクリック率決定モジュールと、
キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、最高広告収入データ値決定サブユニットによって決定された最高広告収入の対応するデータ値、およびクリック率決定モジュールによって決定されたクリック率に基づいて、検索結果のランク付けスコアを決定するように構成されるランク付けスコア決定モジュールと、を含む機能的モジュールに分割されてもよい。
【0110】
任意に、本開示の実施形態は、上記のランク付けスコア決定モジュールの構造を、
キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、検索結果が属する情報カテゴリとキーワード要素が属する情報カテゴリとの関連性を測定するカテゴリ特性スコア値を決定するように構成されるカテゴリ特性スコア決定サブモジュールと、
キーワードに基づいて求められたそれぞれの検索結果および決定されたそれぞれのキーワード要素に対して、検索結果とキーワード要素との関連性を測定するために使用される第1の関連性値、キーワードとキーワード要素との関連性を測定するために使用される第2の関連性値、最高広告収入の対応するデータ値、対応するクリック率、およびカテゴリ特性スコア決定サブモジュールによって決定された対応するカテゴリ特性スコアに基づいて、検索結果のランク付けスコアを決定するように構成されるランク付けスコア決定サブモジュールと、のサブモジュールにさらに分割することができる。
【0111】
検索結果をランク付けする上述の装置に基づいて、本開示の実施形態は、検索装置をさらに提供する。具体的には、検索装置は、
キーワードを含む検索要求を受信するように構成される検索要求受信ユニットと、
検索要求受信ユニットによって受信される検索要求内に含まれるキーワードに基づいて、関連する検索結果を求めるように構成される検索ユニットと、
検索ユニットによって求められた検索結果のランク付け順を指示するために使用されるランク付け情報を決定するように構成されるランク付け情報決定ユニット(具体的には、ランク付け情報決定ユニットは、
図4に示されるような検索結果ランク付け装置、または検索結果ランク付け装置の機能から生じる検索結果をランク付けする拡張装置を含む)と、
検索ユニットによって得られた検索結果およびランク付け情報決定ユニットによって決定されたランク付け情報を検索要求に対応する送信者の装置に送信し、かつランク付け情報に従って検索結果を順序付けるように送信者の装置に指示するように構成される送信ユニットと、の機能ユニットを含むことができる。
【0112】
この実施形態において提供される検索方法によって、キーワード要素に基づいて得られる検索結果の数は通常、ロングテールキーワードに基づいて得られる検索結果の数と比較してより大きい。したがって、
図4に示されるような装置を使用して決定されるランク付け情報、または、例えば、その装置から生じる他の拡張装置はより正確である。したがって、送信者の装置は、このようなランク付け情報に基づいて検索結果のより正確なランク付けを行うことができ、それ故に検索結果の不正確なランク付けに起因する、正確なランク付け結果を得る検索要求を送信者の装置により繰り返し送信することによって引き起こされる大量のシステムリソースを浪費する問題を避けることができる。
【0113】
当業者であれば、本開示の趣旨および範囲から逸脱することなく多くの異なる手法で開示される方法、システム、および装置を変更または修正することができる。したがって、本開示は、本開示の特許請求の範囲に含まれるすべての修正および変形ならびにそれらの均等物を包含することが意図される。
【0114】
例えば、
図5は、より詳細に上述されるような装置などの例示的な装置500を例示する。一実施形態では、装置500は、1つ以上のプロセッサ501と、ネットワークインターフェース502と、メモリ503と、入力/出力インターフェース504とを含むことができるがこれらに限定されない。
【0115】
メモリ503は、ランダムアクセスメモリ(RAM)等の揮発性メモリ、および/または読取専用メモリ(ROM)もしくはフラッシュRAM等の不揮発性メモリの形態の、コンピュータ可読媒体を含んでもよい。メモリ503は、コンピュータ可読媒体の一例である。
【0116】
コンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータ等の情報の格納のための任意の方法または技術で実施される、揮発性および不揮発性の、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体の例は、これらに限定されないが、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他の種類のランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、電気的に消去可能なプログラマブル読取専用メモリ(EEPROM)、フラッシュメモリもしくは他のメモリ技術、コンパクトディスク読取専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)もしくは他の光学式記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、または、コンピュータデバイスによるアクセスのための情報を格納するように使用され得る任意の他の非伝送媒体を含む。本明細書において定義されるように、コンピュータ可読媒体は、変調データ信号および搬送波等の一時的な媒体を含まない。
【0117】
メモリ503は、プログラムユニット505と、プログラムデータ506とを含んでもよい。一実施形態では、プログラムユニット505は、キーワード要素決定ユニット507と、第1の関連性値決定ユニット508と、第2の関連性値決定ユニット509と、ランク付けスコア決定ユニット510と、ランク付けユニット511と、検索要求受信ユニット512と、検索ユニット513と、ランク付け情報決定ユニット514と、送信ユニット515とを含んでもよい。これらのプログラムユニットならびにこのサブユニットおよび/またはモジュールに関する詳細は、上述される前述の実施形態において求めることができる。