特許第6986577号(P6986577)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京三快在線科技有限公司の特許一覧

特許6986577複数のドキュメント交差を取得するための方法及びドキュメントサーバー
<>
  • 特許6986577-複数のドキュメント交差を取得するための方法及びドキュメントサーバー 図000006
  • 特許6986577-複数のドキュメント交差を取得するための方法及びドキュメントサーバー 図000007
  • 特許6986577-複数のドキュメント交差を取得するための方法及びドキュメントサーバー 図000008
  • 特許6986577-複数のドキュメント交差を取得するための方法及びドキュメントサーバー 図000009
  • 特許6986577-複数のドキュメント交差を取得するための方法及びドキュメントサーバー 図000010
  • 特許6986577-複数のドキュメント交差を取得するための方法及びドキュメントサーバー 図000011
  • 特許6986577-複数のドキュメント交差を取得するための方法及びドキュメントサーバー 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6986577
(24)【登録日】2021年12月1日
(45)【発行日】2021年12月22日
(54)【発明の名称】複数のドキュメント交差を取得するための方法及びドキュメントサーバー
(51)【国際特許分類】
   G06F 16/9532 20190101AFI20211213BHJP
   G06F 16/332 20190101ALI20211213BHJP
【FI】
   G06F16/9532
   G06F16/332
【請求項の数】15
【全頁数】23
(21)【出願番号】特願2019-568694(P2019-568694)
(86)(22)【出願日】2017年12月29日
(65)【公表番号】特表2020-523697(P2020-523697A)
(43)【公表日】2020年8月6日
(86)【国際出願番号】CN2017120062
(87)【国際公開番号】WO2019047437
(87)【国際公開日】20190314
【審査請求日】2019年12月13日
(31)【優先権主張番号】201710797899.8
(32)【優先日】2017年9月6日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】519142480
【氏名又は名称】北京三快在線科技有限公司
【氏名又は名称原語表記】BEIJING SANKUAI ONLINE TECHNOLOGY CO.,LTD.
(74)【代理人】
【識別番号】110002262
【氏名又は名称】TRY国際特許業務法人
(72)【発明者】
【氏名】畢 成龍
(72)【発明者】
【氏名】潘 文彬
【審査官】 原 秀人
(56)【参考文献】
【文献】 特表2014−519123(JP,A)
【文献】 米国特許出願公開第2009/0113309(US,A1)
【文献】 特開平8−329112(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
(57)【特許請求の範囲】
【請求項1】
複数のドキュメント交差を取得するための方法であって、
検索中に交差を取得する必要がある少なくとも2つのドキュメントコレクションに対して、各前記ドキュメントコレクションのドキュメントコレクション長さを取得することと、
前記少なくとも2つのドキュメントコレクション長さの差に基づき、ドキュメント交差を取得するための交差アルゴリズムを確定することと、
確定された前記交差アルゴリズムにより、前記少なくとも2つのドキュメントコレクションのドキュメント交差を取得することとを含み、
確定された前記交差アルゴリズムにより、前記少なくとも2つのドキュメントコレクションのドキュメント交差を取得することは、
前記少なくとも2つのドキュメントコレクション長さの差が予め設定された条件を満たしている場合、最短ドキュメントコレクションのクエリ要素をトラバース開始点とし、各残りのドキュメントコレクションに前記クエリ要素を検索し、ここで、前記最短ドキュメントコレクションが前記少なくとも2つのドキュメントコレクションのうち、最短ドキュメントコレクション長さを有するドキュメントコレクションであることと、
各前記残りのドキュメントコレクションに前記クエリ要素がある場合、前記クエリ要素を前記ドキュメント交差の要素とすることとを含むことを特徴とする複数のドキュメント交差を取得するための方法。
【請求項2】
前記予め設定された条件は、
前記少なくとも2つのドキュメントコレクションのうち、最長ドキュメントコレクションの長さと最短ドキュメントコレクションの長さの差が第一の予め設定された閾値を超えていること、及び
前記少なくとも2つのドキュメントコレクションのうち、最短ドキュメントコレクションの長さに対する最長ドキュメントコレクションの長さの比が第二の予め設定された閾値を超えていることのいずれか一つ又は複数を含むことを特徴とする
請求項に記載の方法。
【請求項3】
前記最短ドキュメントコレクションのクエリ要素をトラバース開始点とし、各残りのドキュメントコレクションに前記クエリ要素を検索することは、
前記最短ドキュメントコレクションの現在のソートシリアル番号のクエリ要素を残りのドキュメントコレクションの各要素とマッチングさせることと、
少なくとも一つの残りのドキュメントコレクションに前記クエリ要素とマッチングする要素が検索されない場合、前記最短ドキュメントコレクションにおける次のソートシリアル番号のクエリ要素を残りのドキュメントコレクションの要素とマッチングさせることと、
全ての残りのドキュメントコレクションに前記クエリ要素とマッチングする要素が検索された場合、前記クエリ要素を前記ドキュメント交差の要素とし、前記最短ドキュメントコレクションにおける次のソートシリアル番号のクエリ要素を残りのドキュメントコレクションの要素とマッチングさせることとを含むことを特徴とする
請求項に記載の方法。
【請求項4】
前記ドキュメントコレクションの要素は識別子の値の昇順又は降順でソートされ、ソートシリアル番号を有することを特徴とする
請求項1に記載の方法。
【請求項5】
検索をトリガするための検索語を受信することと、
前記検索語に基づいて検索解析ツリーを構築し、ここで、前記解析ツリーの葉ノードが前記検索語の単語セグメントであることとを含むことを特徴とする
請求項1に記載の方法。
【請求項6】
前記検索中に交差を取得する必要がある前記少なくとも2つのドキュメントコレクションに対して、各前記ドキュメントコレクションのドキュメントコレクション長さを取得することは、
前記検索解析ツリーにおける交差計算が実行されていない最下層の交差ノードから開始し、前記交差ノードの各サブノードに基づき、交差を取得する必要がある前記少なくとも2つのドキュメントコレクションを確定することと、
各前記ドキュメントコレクションのドキュメントコレクション長さを取得することとを含むことを特徴とする
請求項に記載の方法。
【請求項7】
確定された前記交差アルゴリズムにより、前記少なくとも2つのドキュメントコレクションのドキュメント交差を取得することは、
前記少なくとも2つのドキュメントコレクションの長さの差が予め設定された条件を満たしていない場合、前記少なくとも2つのドキュメントコレクションにおける関心のあるドキュメントコレクションのクエリ要素をトラバース開始点とし、各残りのドキュメントコレクションに前記クエリ要素を検索することと、
各前記残りのドキュメントコレクションに前記クエリ要素がある場合、前記クエリ要素を前記ドキュメント交差の要素とすることとを含み、
ここで、前のクエリ要素が関心のあるドキュメントコレクションからのものであり、且つ前記前のクエリ要素が前記ドキュメント交差の要素として確定され、又は、前記関心のあるドキュメントコレクションが最初に前記前のクエリ要素を有しないと確定され、前記クエリ要素のソートシリアル番号が前記前のクエリ要素の次のソートシリアル番号であることを特徴とする
請求項1−のいずれか一項に記載の方法。
【請求項8】
ドキュメントサーバーであって、
プロセッサと、
前記プロセッサで実行可能な機械実行可能命令を記憶する非一時的コンピュータ可読記憶媒体とを備え、
ここで、前記機械実行可能命令により前記プロセッサは、
検索中に交差を取得する必要がある少なくとも2つのドキュメントコレクションに対して、各前記ドキュメントコレクションのドキュメントコレクション長さを取得することと、
前記少なくとも2つのドキュメントコレクションの長さの差に基づき、ドキュメント交差を取得するための交差アルゴリズムを確定し、
確定された前記交差アルゴリズムにより、前記少なくとも2つのドキュメントコレクションのドキュメント交差を取得することとを含み、
確定された前記交差アルゴリズムにより、前記少なくとも2つのドキュメントコレクションのドキュメント交差を取得する場合、前記機械実行可能命令により前記プロセッサは、
前記少なくとも2つのドキュメントコレクションの長さの差が予め設定された条件を満たしている場合、最短ドキュメントコレクションのクエリ要素をトラバース開始点とし、各残りのドキュメントコレクションに前記クエリ要素を検索し、ここで、前記最短ドキュメントコレクションが前記少なくとも2つのドキュメントコレクションのうち、最短ドキュメントコレクション長さを有するドキュメントコレクションであり、
各前記残りのドキュメントコレクションに前記クエリ要素がある場合、前記クエリ要素を前記ドキュメント交差の要素とすることを特徴とするドキュメントサーバー。
【請求項9】
前記予め設定された条件は、
前記少なくとも2つのドキュメントコレクションのうち、最長ドキュメントコレクションの長さと最短ドキュメントコレクションの長さの差が第一の予め設定された閾値を超えていること、及び
前記少なくとも2つのドキュメントコレクションのうち、最短ドキュメントコレクションの長さに対する最長ドキュメントコレクションの長さの比が第二の予め設定された閾値を超えていることのいずれか一つ又は複数を含むことを特徴とする
請求項に記載のサーバー
【請求項10】
前記最短ドキュメントコレクションのクエリ要素をトラバース開始点とし、各残りのドキュメントコレクションに前記クエリ要素を検索する場合、前記機械実行可能命令により前記プロセッサは、
前記最短ドキュメントコレクションの現在のソートシリアル番号のクエリ要素を残りのドキュメントコレクションの各要素とマッチングさせ、
少なくとも一つの残りのドキュメントコレクションに前記クエリ要素とマッチングする要素が検索されない場合、前記最短ドキュメントコレクションにおける次のソートシリアル番号のクエリ要素を残りのドキュメントコレクションの要素とマッチングさせ、
全ての残りのドキュメントコレクションに前記クエリ要素とマッチングする要素が検索された場合、前記クエリ要素を前記ドキュメント交差の要素とし、前記最短ドキュメントコレクションにおける次のソートシリアル番号のクエリ要素を残りのドキュメントコレクションの要素とマッチングさせることを特徴とする
請求項に記載のサーバー
【請求項11】
前記ドキュメントコレクションの要素は識別子の値の昇順又は降順でソートされ、ソートシリアル番号を有することを特徴とする
請求項に記載のサーバー
【請求項12】
前記機械実行可能命令により前記プロセッサは、
検索をトリガするための検索語を受信し、
前記検索語に基づいて検索解析ツリーを構築し、ここで、前記解析ツリーの葉ノードが前記検索語の単語セグメントであることを特徴とする
請求項に記載のサーバー
【請求項13】
前記検索中に交差を取得する必要がある前記少なくとも2つのドキュメントコレクションに対して、各前記ドキュメントコレクションのドキュメントコレクション長さを取得する場合、前記機械実行可能命令により前記プロセッサは、
前記検索解析ツリーにおける交差計算が実行されていない最下層の交差ノードから開始し、前記交差ノードの各サブノードに基づき、交差を取得する必要がある前記少なくとも2つのドキュメントコレクションを確定し、
各前記ドキュメントコレクションのドキュメントコレクション長さを取得することを特徴とする
請求項12に記載のサーバー
【請求項14】
確定された前記交差アルゴリズムにより、前記少なくとも2つのドキュメントコレクションのドキュメント交差を取得する場合、前記機械実行可能命令により前記プロセッサは、
前記少なくとも2つのドキュメントコレクションの長さの差が予め設定された条件を満たしていない場合、前記少なくとも2つのドキュメントコレクションにおける関心のあるドキュメントコレクションのクエリ要素をトラバース開始点とし、各残りのドキュメントコレクションに前記クエリ要素を検索し、
各前記残りのドキュメントコレクションに前記クエリ要素がある場合、前記クエリ要素を前記ドキュメント交差の要素とし、
ここで、前のクエリ要素が関心のあるドキュメントコレクションからのものであり、且つ前記前のクエリ要素が前記ドキュメント交差の要素として確定され、又は、前記関心のあるドキュメントコレクションが最初に前記前のクエリ要素を有しないと確定され、前記クエリ要素のソートシリアル番号が前記前のクエリ要素の次のソートシリアル番号であることを特徴とする
請求項8−13のいずれか一項に記載のサーバー
【請求項15】
非一時的機械可読記憶媒体であって、プロセッサで実行可能な機械実行可能命令を記憶し、前記機械実行可能命令がドキュメントサーバーでのプロセッサによって実行される場合、前記ドキュメントサーバーは請求項1−のいずれか一項に記載の複数のドキュメント交差を取得するための方法を実行することができる、前記非一時的機械可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
<関連出願への相互参照>
本特許出願は、2017年9月6日に提出された、出願番号が201710797899.8で、発明名称が「複数のドキュメント交差を取得するための方法、装置、デバイス及び可読記憶媒体」である中国特許出願の優先権を主張し、該出願の全内容が引用により本出願に組み込まれる。
【0002】
本発明の実施例は検索エンジン技術分野に関し、特に複数のドキュメントの交差の取得に関する。
【背景技術】
【0003】
検索エンジンはワールドワイドウェブで数千万から数十億のウェブページを収集し、そしてウェブページにおける各単語にインデックスを付けてインデックスデータベースを確立するインデックスデータベースを確立する可能性がある。ユーザがあるキーワードを検索する場合、ページコンテンツに該キーワードが含まれる全てのウェブページが検索結果として検索される。
【0004】
広く使用されているオープンソース検索エンジン、例えばLuceneは、複数のドキュメントの交差共通部分を線形に取得する方法を採用し、即ち各ドキュメントコレクションをソートした後、1番目のドキュメントコレクションの1番目の要素から他のドキュメントコレクションをトラバースし始める。この場合、該要素が現在のドキュメントコレクションで検索される可能性があるため、次のドキュメントコレクションをトラバースし続ける。該要素が検索されない場合、現在のドキュメントコレクションにおける次の要素をクエリ要素として他のドキュメントコレクションを再度トラバースする。このプロセスは、全てのドキュメントコレクションに同時に存在する一つの要素、即ちドキュメントコレクションが検索されるまで繰り返される。この方式は、その中の一つのドキュメントコレクションへのトラバースが終了し、複数のドキュメントコレクションの交差を取得するプロセスが終了するまで繰り返される。
【0005】
ここで、各ドキュメントコレクションをトラバースする場合、現在の比較されている要素が要求を満たしておらず、即ちクエリ要素ではないと、このドキュメントコレクションにおける次の要素を比較し続ける必要がある。しかし、異なるドキュメントコレクションの長さの差がある閾値より大きい場合、このような検索が一般的に不要であり、これは複数のドキュメントコレクションの交差を取得するために、一つのドキュメントコレクションにある要素さえ存在しなければ、該要素が必ず交差内の要素ではないためである。したがって、上記ドキュメント交差の取得効率が低い可能性がある。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、異なるドキュメントコレクションの長さの差がある閾値より大きい場合でもドキュメントの交差を高い効率で取得することができるように、複数のドキュメント交差を取得するための方法、装置及び可読記憶媒体を提供する。
【課題を解決するための手段】
【0007】
本発明の第一の態様による複数のドキュメント交差を取得するための方法は、検索中で交差を取得する必要がある少なくとも2つのドキュメントコレクションに対して、各前記ドキュメントコレクションのドキュメントコレクション長さを取得することと、前記少なくとも2つのドキュメントコレクションの長さの差に基づき、ドキュメント交差を取得するための交差アルゴリズムを確定することと、確定された前記交差アルゴリズムにより、前記少なくとも2つのドキュメントコレクションのドキュメント交差を取得することとを含む。
【0008】
本発明の第二の態様によるドキュメントサーバーは、プロセッサと、前記プロセッサで実行可能な機械実行可能命令を記憶する非一時的コンピュータ可読記憶媒体とを備える。ここで、前記機械実行可能命令により前記プロセッサは、検索中で交差を取得する必要がある少なくとも2つのドキュメントコレクションに対して、各前記ドキュメントコレクションのドキュメントコレクション長さを取得し、前記少なくとも2つのドキュメントコレクションの長さの差に基づき、ドキュメント交差を取得するための交差アルゴリズムを確定し、確定された前記交差アルゴリズムにより、前記少なくとも2つのドキュメントコレクションのドキュメント交差を取得する。
【0009】
本発明の第三の態様による非一時的機械可読記憶媒体は、プロセッサで実行可能な機械実行可能命令を記憶する。前記非一時的機械可読記憶媒体における前記機械実行可能命令がドキュメントサーバーでのプロセッサによって実行される場合、前記ドキュメントサーバーは、上述した、複数のドキュメント交差を取得するための方法を実行することができる。
【発明の効果】
【0010】
本発明の実施例による複数のドキュメント交差を取得するための方法、装置及び可読記憶媒体では、検索中に交差を取得する必要がある少なくとも2つのドキュメントコレクションに対して、前記少なくとも2つのドキュメントコレクションのドキュメントコレクション長さが予め設定された条件を満たしている場合、長さが最も短いドキュメントコレクションの要素をクエリ要素として残りのドキュメントコレクションを順次トラバースすることにより、キュメント交差の取得効率を効果的に向上させ、ユーザに対する検索エンジンの応答時間を短縮させることができる。
【図面の簡単な説明】
【0011】
本発明の実施例における技術的解決策をより明確に説明するために、以下に実施例の記述において必要な図面を簡単に説明するが、明らかに、以下に記載する図面は本発明のいくつかの実施例だけであり、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面を得ることができる。
図1】本発明の一つの実施例による検索エンジンの構造図である。
図2】本発明の一つの実施例による複数のドキュメント交差を取得するための方法のフローチャートである。
図3】本発明の別の実施例による複数のドキュメント交差を取得するための方法のフローチャートである。
図3A】本発明の一つの実施例による基本的な解析ツリーの構造図でる。
図3B】本発明の一つの実施例による最終的な解析ツリーの構造図でる。
図4】本発明の一つの実施例による複数のドキュメント交差を取得するための装置の構造である。
図5】本発明の別の実施例による複数のドキュメント交差を取得するための装置の構造図である。
【発明を実施するための形態】
【0012】
以下は本発明の実施例の図面を組み合わせながら、本発明の実施例に係る技術的解決策を明確且つ完全に説明し、明らかに、説明される実施例は本発明の実施例の一部だけであり、全ての実施例ではない。本発明の実施例に基づき、当業者が創造的な労力を要さずに想到し得る他の実施例は、全て本発明の保護範囲に属する。
【0013】
本発明の実施例による複数のドキュメント交差を取得するための方法は、ユーザによって検索エンジンインターフェイスに入力されたクエリコンテンツに従って、クエリコンテンツに対して単語分割を行い、各単語セグメントを対応するドキュメントとマッチングさせることにより、各単語セグメントに対応するドキュメントコレクションを生成し、全てのドキュメントコレクションの交差を取得することにより、ドキュメント交差を取得し、そしてドキュメント交差をユーザに返すために、検索エンジン技術に応用されてもよい。
【0014】
検索エンジン技術は、インターネット通信技術である。インターネットにおいて、サーバー側はコンテンツを提供し、該コンテンツに対してインデックスを構築する。ユーザがクライアントを使用して検索リクエストをサーバーに送信する場合、サーバーは検索リクエストにおけるキーワードに従ってインデックスからコンテンツを検索し、検索されたコンテンツを該クライアントに返して表示することができる。
【0015】
図1を参照すると、検索エンジンは通常、WEB(WorldWideWeb:ワールドワイドウェブ)サーバー110、インデックスサーバー120とドキュメントサーバー130を備えることができる。ここで、ドキュメントサーバー130はドキュメント情報を格納することができる。
【0016】
ユーザが検索エンジンブラウザ140によって検索語を入力した場合、WEBサーバー110は、該検索語を受信し、そして該検索語をインデックスサーバー120に送信する。次に、インデックスサーバー120は、検索語に対して文法的な単語分割処理を行い、各単語セグメントをインデックスデータベース内の対応するドキュメントとマッチングさせ、マッチング結果をドキュメントサーバー130に送信する。次に、ドキュメントサーバー130はマッチング結果に従って各単語セグメントに対応するドキュメントコレクションを確立することができ、全ての単語セグメントのそれぞれに対応するドキュメントコレクションの交差を取得することでドキュメント交差を取得し、そしてWEBサーバー110によって該ドキュメント交差を検索エンジンブラウザ140に返す。このようにして、検索エンジンブラウザ140は、ドキュメント交差内のドキュメントをユーザに表示することができる。
【0017】
本発明による複数のドキュメント交差を取得するための方法における一般的な用語は次のとおりである。
【0018】
ドキュメント(Document)であって、検索エンジンの処理オブジェクトは、一般的にインターネットのウェブページであるが、ドキュメントという概念はより広く、テキスト形態で存在する記憶オブジェクトを表す。ウェブページと比較して、ドキュメントは、様々な形態をカバーすることができ、例えばWord、PDF、html、XML等の異なるフォーマットのファイルはドキュメントと呼ばれてもよく、また、例えば電子メール、ショートメッセージ、サービスメッセージもドキュメントと呼ばれてもよい。本発明では、各ドキュメントには、各ドキュメントを識別するためのドキュメント識別子が対応して設定される。
【0019】
ドキュメントコレクション(DocumentCollection)であって、いくつかのドキュメントで構成されたセットは、ドキュメントコレクションと呼ばれる。例えば、大量のインターネットウエブページ又は大量の電子メールはどちらもドキュメントコレクションの具体例である。
【0020】
解析ツリー(ParseTree)であって、解析ツリーは、ステートメントの構造のグラフィック表現であり、ステートメントの導出結果を表し、ステートメントの文法構造のレベルの理解に有利である。簡単に言えば、解析ツリーは、あるルールに従って導出する時に形成されたツリーである。
【0021】
葉ノード(leafnode)であって、葉ノードは、解析ツリーの最下層ノードであり、より下位層のノードを含めない。本発明では、葉ノードは検索語の単語セグメントである。
【0022】
図2は複数のドキュメント交差を取得するための方法のステップのフローチャートである。
【0023】
ステップ210において、交差を取得する必要がある少なくとも2つのドキュメントコレクションに対して、各ドキュメントコレクションのドキュメントコレクション長さを取得する。
【0024】
インデックスデータベースでは、検索語の異なる単語セグメントとマッチングするドキュメントの数も異なる可能性があり、さらに異なるセグメントの使用人気度の違いにより、検索中に交差を取得する必要がある少なくとも2つのドキュメントコレクションの長さの差が長さの閾値を超える可能性が高い。説明すべきものとして、ドキュメントコレクションの長さはドキュメントコレクションに含まれるドキュメント要素の数を指す。
【0025】
本発明の実施例では、各単語セグメントに対応して生成された、交差を取得する必要があるドキュメントコレクションに対して、各ドキュメントコレクションの長さを取得し、具体的に各ドキュメントコレクションにおけるドキュメントの数を取得することができる。
【0026】
例えば、ユーザが検索エンジンブラウザ140に検索語「ハイディラオホットポット」を入力する場合、単語セグメント1「ハイディラオ」と単語セグメント2「ホットポット」を取得することができ、単語セグメント1と単語セグメント2について対応してクエリされたドキュメントを次の表1に示す。
【0027】
したがって、クエリされた各単語セグメントに対応するドキュメントをドキュメント識別子の昇順でソートし、その結果、表1を得ることができる。ここで、単語セグメント1「ハイディラオ」に対応する第一のドキュメントコレクションにおけるドキュメント要素の数が4であり、単語セグメント2「ホットポット」に対応する第二のドキュメントコレクションにおけるドキュメント要素の数が40である(ドキュメント6〜ドキュメント20の間とドキュメント20〜ドキュメント80の間に省略がある)。このようにして、単語セグメント1「ハイディラオ」に対応する第一のドキュメントコレクションの長さが4とし、単語セグメント2「ホットポット」に対応する第二のドキュメントコレクションの長さが40として得られる。
【0028】
ステップ220において、前記少なくとも2つのドキュメントコレクションの長さを比較して、前記少なくとも2つのドキュメントコレクションの長さの差に基づき、ドキュメント交差を取得するための交差アルゴリズムを確定する。
【0029】
ステップ230において、確定された交差アルゴリズムにより、前記少なくとも2つのドキュメントコレクションのドキュメント交差を取得する。
【0030】
本発明の実施例では、少なくとも2つのドキュメントコレクションのドキュメントコレクション長さが予め設定された条件を満たしている場合、最短のドキュメントコレクション内のクエリ要素をトラバース開始点とし、残りのドキュメントコレクションに該クエリ要素を検索することができる。ここで、前記最短ドキュメントコレクションは前記少なくとも2つのドキュメントコレクションのうち、最短ドキュメントコレクション長さを有するドキュメントコレクションである。予め設定された条件は、複数のドキュメントコレクションのうちの最長ドキュメントコレクションと最短ドキュメントコレクションの長さの差が第一の予め設定された閾値よりも大きいことであってもよい。該第一の予め設定された閾値は、実際の状況に応じて設定されてもよく、例えば検索エンジンに対して定期的な検索テストを行うことにより得られる好ましい値であってもよい。説明すべきものとして、予め設定された条件も複数のドキュメントコレクションのうち、最短ドキュメントコレクションの長さに対する最長ドキュメントコレクションの長さの比が第二の予め設定された閾値を超えていることであってもよい。
【0031】
表1におけるデータについて、予め設定された条件が複数のドキュメントコレクションのうちの最長ドキュメントコレクションと最短ドキュメントコレクションの長さの差が10より大きいことである場合、第一のドキュメントコレクションと第二のドキュメントコレクションの長さの差が30であり、予め設定された条件を満たしている。この場合、第一のドキュメントコレクションにおけるドキュメント1をクエリ要素とし、第二のドキュメントコレクションをトラバースする。第二のドキュメントコレクションにドキュメント1があることを見つけ、ドキュメント1をドキュメント交差に挿入する。その後、第一のドキュメントコレクションにおけるドキュメント2をクエリ要素とし、第二のドキュメントコレクションをトラバースし、第二のドキュメントコレクションにドキュメント2がないことを見つける。第一のドキュメントコレクションにおけるドキュメント20をクエリ要素として選択し続け、そして第二のドキュメントコレクションにドキュメント20があることを見つけ、ドキュメント20をドキュメント交差に挿入した後、第一のドキュメントコレクションにおけるドキュメント85をクエリ要素として第二のドキュメントコレクションをトラバースする。最後、第二のドキュメントコレクションにドキュメント85がないことを見つけ、そして第一のドキュメントコレクションのトラバースが終了する。このようにして、今回の交差取得プロセスを終了し、最終のドキュメント交差[ドキュメント1、ドキュメント20]をユーザに返すことができる。
【0032】
共通の交差アルゴリズムに従うと、表1について、おおよその交差取得プロセスは、第一のドキュメントコレクションにおけるドキュメント1をクエリ要素とし、第二のドキュメントコレクションをトラバースし、第二のドキュメントコレクションにドキュメント1があることを見つけ、ドキュメント1をドキュメント交差に挿入することである。その後、第一のドキュメントコレクションにおけるドキュメント2をクエリ要素とし、第二のドキュメントコレクションをトラバースし、第二のドキュメントコレクションにドキュメント2がないことを見つけ、それによって第二のドキュメントコレクションにおけるドキュメント3をクエリ要素として第一のドキュメントコレクションをトラバースする。第一のドキュメントコレクションにドキュメントがないため、第一のドキュメントコレクションのドキュメント20をクエリ要素とする。第二のドキュメントコレクションにドキュメント20があることを見つけるため、ドキュメント20をドキュメント交差に挿入し、そしてクエリ要素を第一のドキュメントコレクションのドキュメント85に変更する。最後、第二のドキュメントコレクションにドキュメント85がないことを見つけ、そして第一のドキュメントコレクションのトラバースが終了する。このようにして、今回の交差取得プロセスを終了し、最終のドキュメント交差[ドキュメント1、ドキュメント20]をユーザに返すことができる。明らかに、該共通の交差アルゴリズムによりドキュメント3のトラバースが無駄につながる。実際には、ドキュメント3が第一のドキュメントコレクションに含まれておらず、即ち該ドキュメント3がまったくリコールされなく、そのため、少なくとも2つのドキュメントコレクションの長さの差が長さ閾値を超えている場合、共通の交差アルゴリズムによる交差取得の効率が低い。
【0033】
例えば、ユーザがコンピュータのブラウザの検索エンジンによって「ハイディラオホットポット」をクエリする場合、ドキュメント1とドキュメント20に対応するウェブページは、今回のユーザによってクエリされた結果であり、そしてブラウザのインターフェイスによってドキュメント1とドキュメント20に対応するウェブページのリンクをユーザに表示することができる。
【0034】
例えば、ユーザが携帯電話のアプリケーションの検索エンジンによって「ハイディラオホットポット」をクエリする場合、ドキュメント1とドキュメント20に対応するアプリケーションインターフェイスが今回のユーザによってクエリされた結果であり、そして携帯電話のインターフェイスによってドキュメント1とドキュメント2に対応するウェブページのリンクをユーザに表示することができる。
【0035】
上述したように、本発明の実施例による複数のドキュメント交差を取得するための方法では、検索中に交差を取得する必要がある少なくとも2つのドキュメントコレクションに対して、2つのドキュメントコレクションのドキュメントコレクション長さが予め設定された条件を満たしている場合、長さが最も短いドキュメントコレクションの要素をクエリ要素として残りのドキュメントコレクションを順次トラバースすることにより、キュメント交差の取得効率を効果的に向上させ、ユーザに対する検索エンジンの応答時間を短縮させることができる。
【0036】
図3は複数のドキュメント交差を取得するための方法の具体的なステップのフローチャートである。
【0037】
ステップ310において、検索語を受信する。
本発明の実施例では、検索エンジンはユーザによって入力された検索語を受信し、検索語の解析ツリーを構築することができる。
【0038】
ステップ320において、受信された検索語に基づいて検索解析ツリーを構築する。ここで前記解析ツリーの葉ノードは検索語の単語セグメントである。
【0039】
本発明の実施例では、ユーザによって入力された検索語を解析ツリーで解析して解析ツリーを構築することができる。例えば、文法解析により追加スペースが見つけられる場合、追加スペースの前後の2つの単語が「アンド(and)」関係にあると判断されるというルールを設定する。ユーザが「北京市フルタイムコンビニエンスストア」を入力する場合、追加スペースの前後の2つの単語「北京市」と「フルタイムコンビニエンスストア」を保存し、そして解析結果を図3Aに示す基本的な解析ツリーに構築する。
【0040】
その後、最終的な解析ツリーのノードを構築する時に、図3Aに示す基本的な解析ツリーの構築に従って同期して構築する。このプロセスででは、システムは基本的な解析ツリーのノードがテキストであるか否かを判定する。テキストであれば、システムはそれに対して単語分割を再度実行し、例えば、「北京市」が「北京」と「市」に分割され、「フルタイムコンビニエンスストア」が「フルタイム」、「コンビニエンス」と「ストア」に分割される。単語分割後の結果に応じて基本的な解析ツリーを再構築し、単語分割後の「アンド」ノードを基本的な解析ツリーに追加し、検索エンジンが最終的な解析ツリーにおける各単語セグメントに対して交差アルゴリズムを行うように、図3Bに示す最終的な解析ツリーを形成する。
【0041】
ステップ330において、交差を取得する必要がある少なくとも2つのドキュメントコレクションに対して、各ドキュメントコレクションのドキュメントコレクション長さを取得する。
【0042】
該ステップの基本的な実現については上記ステップ210を参照でき、ここでは説明を省略する。
【0043】
また、ステップ320で構築された検索解析ツリーについて、前記検索解析ツリーにおける交差計算が実行されていない最下層の交差ノードから開始し、前記交差ノードの各サブノードに基づき、交差を取得する必要がある前記少なくとも2つのドキュメントコレクションを確定し、そして前記少なくとも2つのドキュメントのそれぞれのドキュメントコレクション長さを確定することができる。
【0044】
本発明の実施例では、検索語に基づいて構築された解析ツリーの最下層の交差ノードから交差計算を開始することができる。最下層の交差ノードの交差計算が終了した場合、最上層のドキュメント交差が取得されるまで、得られた下位層のドキュメント交差に基づき、上位層の交差ノードに対して交差計算を行い、それをユーザに返す。
【0045】
例えば、図3Bに示す「北京市フルタイムコンビニエンスストア」に対する最終的な解析ツリーでは、交差ノード10、20が最下層ノードであり、交差ノード30が最上層ノードである。この場合、最下層ノード10と最下層ノード20に基づき、最上層ノード30の交差を取得する必要があるドキュメントコレクションが「北京」及び「市」に対応するドキュメントコレクションと「フルタイム」、「コンビニエンス」と「ストア」に対応するドキュメントコレクションであることを確定することができる。
【0046】
次に、「北京」及び「市」のそれぞれに対応するドキュメントコレクションのドキュメント要素の数、及び「フルタイム」、「コンビニエンス」と「ストア」のそれぞれに対応するドキュメントコレクションの数をそれぞれ得ることができる。
【0047】
ステップ340において、前記少なくとも2つのドキュメントコレクションの長さを比較して、前記少なくとも2つのドキュメントコレクションの長さの差に基づき、ドキュメント交差を取得するための交差アルゴリズムを確定する。
【0048】
ステップ350において、前記少なくとも2つのドキュメントコレクションの長さの差が予め設定された条件を満たしている場合、最短ドキュメントコレクション内のクエリ要素をトラバース開始点とし、残りのドキュメントコレクションに前記クエリ要素を検索する。各残りのドキュメントコレクションに前記現在のソートシリアル番号のクエリ要素とマッチングする要素が検索された場合、前記クエリ要素を前記ドキュメント交差の要素とする。ここで、前記最短ドキュメントコレクションは前記少なくとも2つのドキュメントコレクションのうち、最短ドキュメントコレクション長さを有するドキュメントコレクションである。
【0049】
ここで、前記予め設定された条件は、前記少なくとも2つのドキュメントコレクションのドキュメントコレクション長さのうち、最長ドキュメントコレクションの長さと最短ドキュメントコレクションの長さの差が第一の予め設定された閾値を超えていること、又は、前記少なくとも2つのドキュメントセクションのうち、最短ドキュメントコレクションの長さに対する最長ドキュメントコレクションの長さの比が第二の予め設定された閾値を超えていることを含むことができる。該第一の予め設定された閾値と第二の予め設定された閾値がいずれも実際の状況に応じて設定されてもよい。例えば、検索エンジンに対して定期的な検索テストを行うことにより一つの好ましい値を得ることができる。
【0050】
前記最短ドキュメントコレクションの現在のソートシリアル番号のクエリ要素を残りのドキュメントコレクションの各要素とマッチングさせることができる。少なくとも一つの前記残りのドキュメントコレクションに前記現在のソートシリアル番号のクエリ要素とマッチングする要素が検索されない場合、前記最短ドキュメントコレクションにおける次のソートシリアル番号のクエリ要素を残りのドキュメントコレクションの各要素とマッチングさせる。全ての前記残りのドキュメントコレクションに前記現在のソートシリアル番号のクエリ要素とマッチングする要素が検索された場合、前記クエリ要素を前記ドキュメント交差の要素とし、前記最短ドキュメントコレクションにおける次のソートシリアル番号のクエリ要素を残りのドキュメントコレクションの各要素とマッチングさせる。このプロセスは、前記最短ドキュメントコレクションの全ての要素がトラバースされるまで繰り返される。
【0051】
例えば、図3Bに示す「北京市フルタイムコンビニエンスストア」の最終的な解析ツリーの交差ノード10に対して、単語セグメント「北京」の第一のドキュメントコレクションのドキュメント要素の数が4であり、単語セグメント「市」に対応する第二のドキュメントコレクションのドキュメント要素の数が40であり、第一の予め設定された閾値が10であると仮定し、且つ単語セグメント「北京」と「市」のそれぞれに対応するドキュメント要素を次の表2に示す。
【0052】
第一のドキュメントコレクションと第二のドキュメントセクションの長さの差30が第一の予め設定された閾値10より大きいため、この時に第一のドキュメントコレクションのドキュメント1をクエリ要素とし、第二のドキュメントコレクションをトラバースする。
【0053】
選択可能に、ドキュメントコレクションの要素が識別子の値の昇順又は降順でソートされている。
【0054】
本発明の実施例では、ドキュメントコレクションの要素の識別子が即ち表2におけるドキュメントの後の対応する数字であり、該識別子がドキュメント要素を識別することに用いられ、表2はドキュメントコレクションの要素が識別子の値の昇順で並べ替えることによって取得される。ドキュメントコレクションの要素を識別子の値の降順でソートすると、表3を得ることができ、この場合、第一のドキュメントコレクションの1番目の要素ドキュメント85をクエリ要素としてトラバースすることができる。
【0055】
第一のドキュメントコレクションにおけるドキュメント1をクエリ要素とし、第二のドキュメントコレクションをトラバースし、第二のドキュメントコレクションにドキュメント1があることを見つける場合、ドキュメント1をドキュメント交差に挿入する。その後、第一のドキュメントコレクションにおけるドキュメント2をクエリ要素とし、第二のドキュメントコレクションをトラバースし、第二のドキュメントコレクションにドキュメント2がないことを見つける。この場合、第一のドキュメントコレクションにおけるドキュメント20をクエリ要素として選択し、そして第二のドキュメントコレクションにドキュメント20があることを見つける場合、ドキュメント20をドキュメント交差に挿入する。その後、第一のドキュメントコレクションにおける最後のドキュメント85をクエリ要素とし、第二のドキュメントコレクションをトラバースし、第二のドキュメントコレクションにドキュメント85がないことを見つける場合、トラバースを停止する。次に、交差ノード10のドキュメント交差「ドキュメント1、ドキュメント20」を図3Bに示す最上層の交差ノード30に返すことができる。
【0056】
ステップ360において、前記少なくとも2つのドキュメントの長さの差が予め設定された条件を満たしていない場合、共通の交差アルゴリズムにより前記ドキュメントを取得する。例えば、前記少なくとも2つのドキュメントコレクションにおける関心のあるドキュメントコレクションのクエリ要素をトラバース開始点とし、各残りのドキュメントコレクションに前記クエリ要素を検索する。各前記残りのドキュメントコレクションに前記クエリ要素がある場合、前記クエリ要素を前記ドキュメント交差の要素とする。ここで、前のクエリ要素が関心のあるドキュメントコレクションからのものであり、且つ前記前のクエリ要素が前記ドキュメント交差の要素として確定され、又は、前記関心のあるドキュメントコレクションが最初に前記前のクエリ要素を有しないと確定され、前記クエリ要素のソートシリアル番号が前記前のクエリ要素の次のソートシリアル番号である。
【0057】
本発明の実施例では、前記少なくとも2つのドキュメントコレクションにおける1番目のドキュメントコレクションの最小ソートシリアル番号のクエリ要素を最初のトラバース開始点とし、各残りのドキュメントコレクションに前記クエリ要素を検索することができる。現在の検索されている残りのドキュメントに前記現在のソートシリアル番号のクエリ要素とマッチングする要素が検索されない場合、該残りのドキュメントにおける次のソートシリアル番号の要素を新しいクエリ要素とする。全ての残りのドキュメントコレクションに前記現在のソートシリアル番号のクエリ要素とマッチングする要素が検索された場合、前記クエリ要素を前記ドキュメント交差の要素とし、前記クエリ要素が選択されたドキュメントコレクションにおける次のソートシリアル番号のクエリ要素を新しいクエリ要素とする。このプロセスは、前記少なくとも2つのドキュメントコレクションのうちの一つのドキュメントコレクションの全ての要素がトラバースされるまで繰り返される。
【0058】
本発明の実施例では、図3Bに示す「北京市フルタイムコンビニエンスストア」の最終的な解析ツリーの交差ノード20に対して、単語セグメント「フルタイム」に対応する第三のドキュメントコレクションのドキュメント要素の数が2であり、単語セグメント「コンビニエンス」に対応する第四のドキュメントコレクションのドキュメント要素の数が3であり、単語セグメント「ストア」に対応する第五のドキュメントコレクションのドキュメント要素の数が4であり、第一の予め設定された閾値が10であると仮定し、単語セグメント「フルタイム」、「コンビニエンス」、「ストア」のそれぞれに対応するドキュメント要素を次の表4に示す。
【0059】
この場合、最長の第五のドキュメントコレクションと最短の第三のドキュメントコレクションの間のドキュメントコレクション長さの差2が第一の予め設定された閾値10より小さいため、共通の交差アルゴリズムにより第三のドキュメントコレクション、第四のドキュメントコレクションと第五のドキュメントコレクションの交差を取得することができ、具体的には、第三のドキュメントコレクションのドキュメント1をクエリ要素として第四のドキュメントコレクションをトラバースし、第四のドキュメントコレクションにドキュメント1がないことを見つける場合、クエリ要素を第四のドキュメントコレクションのドキュメント2に変更する。第五のドキュメントコレクションにドキュメント2がないことを見つけた場合、クエリ要素を第五のドキュメントコレクションのドキュメント20に変更し、そして第三のドキュメントコレクションと第四のドキュメントコレクションのそれぞれにドキュメント20があることを見つけた場合、ドキュメント20を交差ノード20に対応するドキュメント交差に挿入する。第三のドキュメントコレクションと第四のドキュメントコレクションにドキュメント20があることを見つけた場合、第五のドキュメントコレクションにおけるドキュメント40をクエリ要素とし、そして第三のドキュメントコレクションにドキュメント40がなく且つ第三のドキュメントコレクションのトラバースが終了したことを見つける。この場合、クエリが停止し、交差ノード20に対応するドキュメント交差[ドキュメント20]を上位層の交差ノード30にアップロードする。各単語セグメントに対応するドキュメントコレクションの長さの差が小さい場合、共通の交差アルゴリズムを用いるとクエリの効率を向上させることができる。
【0060】
上記の処理に基づき、図3Bに示す「北京市フルタイムコンビニエンスストア」の最終的な解析ツリーでは、交差ノード30に対応するドキュメントコレクションはそれぞれ交差ノード10に対応するドキュメント交差[ドキュメント1、ドキュメント2]と交差ノード20に対応するドキュメント交差[ドキュメント20]である。この場合、交差ノード30に対して交差を取得することができ、その結果、最終的なドキュメント交差[ドキュメント20]を得てユーザに返す。
【0061】
本発明で提供される上記の複数のドキュメント交差を取得するための方法では、テストシステムのテストにより、応答遅延に関するTP90、TP99、TP999指標においていずれも向上し、そして向上幅が10%以上である。ここで、TP90時間は、リクエストの90%を満たす最低時間であり、TP99時間は、リクエストの99%を満たす最低の時間消費であり、TP999時間は、リクエストの99.9%を満たす最低の時間消費である。
【0062】
上述したように、本発明の実施例による上記の複数のドキュメント交差を取得するための方法では、検索中に交差を取得する必要がある少なくとも2つのドキュメントコレクションのドキュメントコレクション長さが予め設定された条件を満たしている場合、長さが最も短いドキュメントコレクションの要素をクエリ要素として残りのドキュメントコレクションを順次トラバースすることにより、キュメント交差の取得効率を効果的に向上させ、ユーザに対する検索エンジンの応答時間を短縮させることができる。
【0063】
図4は複数のドキュメント交差を取得するための装置の構造図である。
【0064】
図4に示すように、該複数のドキュメント交差を取得するための装置は、検索中に交差を取得する必要がある少なくとも2つのドキュメントコレクションに対して、各ドキュメントコレクションのドキュメントコレクション長さを取得するための取得モジュール401と、前記少なくとも2つのドキュメントコレクションの長さを比較して、ドキュメント交差を取得するための交差アルゴリズムを確定するための長さ比較モジュール402と、確定された交差アルゴリズムに従って前記少なくとも2つのドキュメント交差を取得するための交差取得モジュール403とを備えることができる。
【0065】
上述したように、本発明の実施例による複数のドキュメント交差を取得するための装置では、交差を取得する必要がある少なくとも2つのドキュメントコレクションのドキュメントコレクション長さが予め設定された条件を満たしている場合、長さが最も短いドキュメントコレクションの要素をクエリ要素として残りのドキュメントコレクションを順次トラバースすることにより、キュメント交差の取得効率を効果的に向上させ、ユーザに対する検索エンジンの応答時間を短縮させることができる。
【0066】
図5は複数のドキュメント交差を取得するための装置の具体的な構造図である。
【0067】
図5に示すように、該複数のドキュメント交差を取得するための装置は以下のモジュールを備えることができる。
【0068】
受信モジュール501は、検索語を受信するために用いられる。
【0069】
解析ツリー構築モジュール502は、前記検索語に基づいて検索解析ツリーを構築するために用いられ、前記解析ツリーの葉ノードが前記検索語の単語セグメントである。
【0070】
取得モジュール503は、検索中に交差を取得する必要がある少なくとも2つのドキュメントコレクションに対して、各ドキュメントコレクションのドキュメントコレクション長さを取得するために用いられる。
【0071】
長さ比較モジュール504は、前記少なくとも2つのドキュメントコレクションの長さを比較して、ドキュメント交差を取得するための交差アルゴリズムを確定するために用いられる。
【0072】
第一の交差取得モジュール505は、前記少なくとも2つのドキュメントコレクションの長さの差が予め設定された条件を満たしている場合、最短ドキュメントコレクション内のクエリ要素をトラバース開始点とし、各残りのドキュメントコレクションに前記クエリ要素を検索し、各残りのドキュメントコレクションに前記クエリ要素がある場合、前記クエリ要素を前記ドキュメント交差の要素とするために用いられる。ここで、前記最短ドキュメントコレクションは前記少なくとも2つのドキュメントコレクションのうち、最短ドキュメントコレクション長さを有するドキュメントコレクションである。
【0073】
第二の交差取得モジュール506は、前記少なくとも2つのドキュメントの長さの差が予め設定された条件を満たしていない場合、共通の交差アルゴリズムにより前記ドキュメントを取得するために用いられる。例えば、前記少なくとも2つのドキュメントコレクションにおける関心のあるドキュメントコレクションのクエリ要素をトラバース開始点とし、各残りのドキュメントコレクションに前記クエリ要素を検索し、各残りのドキュメントコレクションに前記クエリ要素がある場合、前記クエリ要素を前記ドキュメント交差の要素とすることができる。ここで、前のクエリ要素が関心のあるドキュメントコレクションからのものであり、且つ前記前のクエリ要素が前記ドキュメント交差の要素として確定され、又は、前記関心のあるドキュメントコレクションが最初に前記前のクエリ要素を有しないと確定され、前記クエリ要素のソートシリアル番号が前記前のクエリ要素の次のソートシリアル番号である。
【0074】
ここで、取得モジュール503は具体的に前記検索解析ツリーにおける交差計算が実行されていない交差ノードの最下層の第一の交差ノードから開始し、前記第一の交差ノードのサブノードに基づき、交差を取得する必要がある前記少なくとも2つのドキュメントコレクションを確定し、そして各ドキュメントセクションのドキュメントコレクション長さを取得するために用いられてもよい。
【0075】
第一の交差取得モジュール505は具体的に前記最短ドキュメントコレクションの現在のソートシリアル番号のクエリ要素を残りのドキュメントの要素とマッチングさせ、少なくとも一つの前記残りのドキュメントコレクションに前記現在のソートシリアル番号のクエリ要素とマッチングする要素が検索されない場合、前記最短ドキュメントコレクションにおける次のソートシリアル番号のクエリ要素を残りのドキュメントコレクションの要素とマッチングさせ、全ての前記残りのドキュメントに前記現在のソートシリアル番号のクエリ要素とマッチングする要素が検索された場合、前記クエリ要素を前記ドキュメント交差の要素とし、前記最短ドキュメントコレクションの次のソートシリアル番号のクエリ要素を残りのドキュメントコレクションの各要素とマッチングさせるために用いられてもよい。このプロセスは、前記最短ドキュメントコレクションの全ての要素がトラバースされるまで繰り返される。
【0076】
第二の交差取得モジュール506は具体的に前記少なくとも2つのドキュメントコレクションにおける1番目のドキュメントコレクションの最小ソートシリアル番号のクエリ要素を最初のトラバース開始点とし、各残りのドキュメントコレクションに前記クエリ要素を検索するために用いられてもよい。現在の検索されている残りのドキュメントに現在のソートシリアル番号のクエリ要素とマッチングする要素が検索されない場合、該残りのドキュメントの次のソートシリアル番号の要素を新しいクエリ要素とする。全ての残りのドキュメントコレクションに前記現在のソートシリアル番号のクエリ要素とマッチングする要素が検索された場合、前記クエリ要素を前記ドキュメント交差の要素とし、前記クエリ要素が選択されたドキュメントコレクションにおける次のソートシリアル番号のクエリ要素を新しいクエリ要素とする。このプロセスは、前記少なくとも2つのドキュメントコレクションのうちの一つのドキュメントコレクションの全ての要素がトラバースされるまで繰り返される。
【0077】
上述したように、本発明の実施例による複数のドキュメント交差を取得するための装置では、交差を取得する必要がある少なくとも2つのドキュメントコレクションのドキュメントコレクション長さが予め設定された条件を満たしている場合、長さが最も短いドキュメントコレクションの要素をクエリ要素として残りのドキュメントコレクションを順次トラバースすることにより、ドキュメントコレクション長さの差が大きい場合のキュメント交差の取得効率を効果的に向上させ、ユーザに対する検索エンジンの応答時間を短縮させることができる。
【0078】
本発明の実施例によるドキュメントサーバーは、プロセッサと、前記プロセッサで実行可能な機械実行可能命令を記憶する非一時的コンピュータ可読記憶媒体とを備える。ここで、前記機械実行可能命令により、前記プロセッサは、上述した実施例における複数のドキュメント交差を取得するための方法のステップを実行し、例えば検索中で交差を取得する必要がある少なくとも2つのドキュメントコレクションに対して、各前記ドキュメントコレクションのドキュメントコレクション長さを取得し、前記少なくとも2つのドキュメントコレクションの長さの差に基づき、ドキュメント交差を取得するための交差アルゴリズムを確定し、確定された前記交差アルゴリズムにより、前記少なくとも2つのドキュメントコレクションのドキュメント交差を取得する。
【0079】
本発明の実施例による非一時的機械可読記憶媒体は、前記記憶媒体における命令がドキュメントサーバーでのプロセッサによって実行される場合、ドキュメントサーバーが上述した実施例における複数のドキュメント交差を取得するための方法を実行することができる。
【0080】
装置の実施例については、それが方法の実施例とほぼ同じであるため、簡単に説明し、関連する内容は方法の実施例の部分の説明を参照すればよい。
【0081】
本明細書で提供されるアルゴリズム及び表示はいかなる特定のコンピュータ、仮想システム又は他のデバイスと固有に関連しない。様々な汎用システムは本明細書に基づく教示とともに使用されてもよい。以上の説明によれば、このようなシステムに要件される構造を構築することは明らかである。また、本発明はいかなる特定のプログラミング言語に向けられない。理解すべきものとして、様々なプログラミング言語を用いて本明細書に記載された本発明の内容を実現することができ、且つ以上に特定の言語に対してなされる説明は本発明の最適な実施形態を開示するためのものである。
【0082】
ここで提供された明細書において、多くの具体的な詳細を説明する。しかしながら、本発明の実施例がこれらの具体的な詳細なしで実施されてもよいことを理解できる。いくつかの例では、周知の方法、構造及び技術は詳細に示されず、本明細書の理解をあいまいにしない。
【0083】
同様に、本開示を簡素化して個々の発明態様の一つ又は複数への理解を助けるために、以上の本発明の例示的な実施例の説明において、本発明の様々な特徴は単一の実施例、図面、又はそれに対する記述にグループ化される。しかしながら、該開示される方法は以下の意図を反映するものと解釈されるべきではなく、即ち、保護が要件される本発明は各請求項において明確に記載された特徴よりも多く要件される。より具体的には、以下の特許請求の範囲が反映するように、発明態様は以上に開示された単一の実施例の全ての特徴より少ない。したがって、具体的な実施形態に従う特許請求の範囲はこれにより明示的に該具体的な実施形態に組み込まれ、その中各請求項自体は本発明の別個の実施例とする。
【0084】
当業者であれば、実施例におけるデバイスのモジュールを適応的に変更し且つそれらを該実施例と異なる一つ又は複数の装置に設置することができると理解できる。実施例におけるモジュール、ユニット、又はアセンブリを一つのモジュール、ユニット、又はアセンブリに組み合わせることができ、またそれらを複数のサブモジュール、サブユニット、又はサブアセンブリに区分することができる。このような特徴及び/又はプロセス又はユニットのうちの少なくともいくつかが相互に排他的である以外、いずれかの組み合わせを用いて本明細書(添付の特許請求の範囲、要約及び図面を含む)に開示された全ての特徴及びこのように開示されるいずれかの方法又は装置の全てのプロセス又はユニットを組み合わせることができる。特に明記しない限り、本明細書(添付の特許請求の範囲、要約及び図面を含む)に開示される各特徴は同じ、同等又は同様の目的を提供する代替的な特徴で代替されてもよい。
【0085】
本発明の各部材の実施例はハードウェアで実現され、又は一つ又は複数のプロセッサで動作されるソフトウェアモジュールで実現され、又はそれらの組み合わせで実現されることができる。当業者であれば、実践中にマイクロプロセッサ又はデジタル信号プロセッサ(DSP)を使用して本発明の実施例による支払情報処理装置におけるいくつか又は全ての部材のいくつか又は全ての機能を果たすことができる。本発明はさらに本明細書に記載される方法を実行するための一部又は全ての装置又は装置プログラムとして実現されてもよい。このように本発明を実現するプログラムはンピュータ可読媒体に記憶されてもよく、又は一つ又は複数の信号の形態を有してもよい。このような信号はインターネットサイトからダウンロードされ、又はキャリア信号で提供され、又は任意の他の形態で提供されることができる。
【0086】
注意すべきものとして、上記実施例は本発明を説明するものであるが本発明を限定するものではなく、且つ当業者は添付する請求項の範囲から逸脱せずに代替的な実施例を設計することができる。特許請求の範囲において、括弧間に位置するいずれかの参照記号は特許請求の範囲を限定するものとして構成されるべきではない。単語“含む”は特許請求の範囲に記載されない素子又はステップの存在を排除するものではない。素子の前に位置する単語“一”又は“一つ”はこのような素子が複数存在することを排除するものではない。本発明はいくつかの異なる素子を含むハードウェアおよび適切にプログラムされたコンピュータによって実現されてもよい。いくつかの装置のユニットを列挙した特許請求の範囲において、これらの装置のいくつかは同一のハードウェアアイテムにより具現化されてもよい。単語第一、第二、及び第三などの使用はいかなる順序を示すものではない。これらの単語は名称として解釈されてもよい。
図1
図2
図3
図3A
図3B
図4
図5