特許第5951729号(P5951729)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバー コーポレーションの特許一覧

特許5951729リアルタイム検索実現方法およびそのシステム
<>
  • 特許5951729-リアルタイム検索実現方法およびそのシステム 図000002
  • 特許5951729-リアルタイム検索実現方法およびそのシステム 図000003
  • 特許5951729-リアルタイム検索実現方法およびそのシステム 図000004
  • 特許5951729-リアルタイム検索実現方法およびそのシステム 図000005
  • 特許5951729-リアルタイム検索実現方法およびそのシステム 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5951729
(24)【登録日】2016年6月17日
(45)【発行日】2016年7月13日
(54)【発明の名称】リアルタイム検索実現方法およびそのシステム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20160630BHJP
   G06F 13/00 20060101ALI20160630BHJP
【FI】
   G06F17/30 180A
   G06F17/30 210D
   G06F17/30 414Z
   G06F13/00 540B
【請求項の数】16
【全頁数】13
(21)【出願番号】特願2014-219919(P2014-219919)
(22)【出願日】2014年10月29日
(65)【公開番号】特開2015-88190(P2015-88190A)
(43)【公開日】2015年5月7日
【審査請求日】2014年10月29日
(31)【優先権主張番号】10-2013-0129196
(32)【優先日】2013年10月29日
(33)【優先権主張国】KR
(73)【特許権者】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(74)【代理人】
【識別番号】110000408
【氏名又は名称】特許業務法人高橋・林アンドパートナーズ
(72)【発明者】
【氏名】康 泰 基
(72)【発明者】
【氏名】姜 宇 信
(72)【発明者】
【氏名】朴 虎 敏
【審査官】 齊藤 貴孝
(56)【参考文献】
【文献】 特開2009−110196(JP,A)
【文献】 特開2008−186157(JP,A)
【文献】 特開2006−172363(JP,A)
【文献】 特開2009−122930(JP,A)
【文献】 田村 孝之、外1名,多周期的Webクローリングにおける時間分解能向上手法,情報処理学会論文誌 論文誌トランザクション 平成22年度(2) [CD−ROM],日本,一般社団法人情報処理学会,2011年 5月 2日,第4巻,第1号,p.40−49
【文献】 田村 孝之、外1名,多周期的更新アクセスに適した二次記憶管理技法,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,2010年 6月 1日,第J93−D巻,第6号,p.805−815
【文献】 山名 早人,データベース最前線,bit,日本,共立出版株式会社,2000年12月 1日,第32巻,第12号,p.72−79
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
G06F 13/00
(57)【特許請求の範囲】
【請求項1】
分割部と索引部と検索部とを有するコンピュータにおいて、
前記分割部が、複数の文書からなる文書コレクションを、文書が登録された時間を基準として時間区間別に分けて複数の文書グループに分割し、
前記索引部が、前記複数の文書グループそれぞれに対して該当する時間区間の周期に応じて索引を実行し、
前記検索部が、前記索引による索引データを利用して前記文書コレクションに対する検索を実行することを含み、
前記複数の文書グループに分割することは、
前記文書グループのうち直近の時間区間である最近区間に該当する文書グループに含まれた文書の数が基準値を超過する場合には、該当の文書グループを複数の小グループに分割することである、
リアルタイム検索方法。
【請求項2】
前記複数の文書グループに分割することは、
隣接する時間区間の間に重なる時間が存在するように前記時間区間を分けること
を特徴とする、請求項1に記載のリアルタイム検索方法。
【請求項3】
前記複数の文書グループに分割することは、
前記時間区間のうち直近の時間区間である最近区間を最も短い時間周期で設定し、前記最近区間を基準とし、以後の時間区間の場合には時間の経過に応じて漸次的に長い時間周期で設定すること
を特徴とする、請求項1に記載のリアルタイム検索方法。
【請求項4】
前記索引を実行することは、
前記文書グループのうち直近の時間区間である最近区間に該当する文書グループの場合には無限ループ(infinite loop)で索引を実行し、前記最近区間に該当する文書グループの索引結果を持続してアップデートすること
を特徴とする、請求項1に記載のリアルタイム検索方法。
【請求項5】
前記索引を実行することは、
語節単位索引技法、形態素単位索引技法、およびNグラム(N−Gram)基盤索引技法のうちいずれか1つを利用して索引を実行すること
を特徴とする、請求項1に記載のリアルタイム検索方法。
【請求項6】
前記索引を実行することは、
前記最近区間に該当する文書グループに対して前記複数の小グループを並列に同時索引すること
を特徴とする、請求項に記載のリアルタイム検索方法。
【請求項7】
前記文書コレクションに対する検索を実行することは、
前記索引データを利用した検索結果から前記文書グループ間に前記重なった時間によって重複する検索結果を取り除いた後、最終的な検索結果を提供すること
を特徴とする、請求項2に記載のリアルタイム検索方法。
【請求項8】
コンピュータシステムに、
複数の文書からなる文書コレクションを、文書が登録された時間を基準として時間区間別に分けて複数の文書グループに分割するステップと、
前記文書グループそれぞれに対して該当する時間区間の周期に応じて索引を実行するステップと、
前記索引による索引データを利用して前記文書コレクションに対する検索を実行するステップと、
を実行させ、
前記複数の文書グループに分割するステップは、
前記文書グループのうち直近の時間区間である最近区間に該当する文書グループに含まれた文書の数が基準値を超過する場合には、該当の文書グループを複数の小グループに分割するステップであり、
前記コンピュータシステムに検索対象である文書に対するリアルタイム検索を実行させるためのプログラムを記録した、コンピュータで読み取り可能な記録媒体。
【請求項9】
複数の文書からなる文書コレクションを、文書が登録された時間を基準として時間区間別に分けて複数の文書グループに分割する分割部と、
前記文書グループそれぞれに対して該当する時間区間の周期に応じて索引を実行する索引部と、
前記索引による索引データを利用して前記文書コレクションに対する検索を実行する検索部と
を備え、
前記分割部は、
前記文書グループのうち直近の時間区間である最近区間に該当する文書グループに含まれた文書の数が基準値を超過する場合には、該当の文書グループを複数の小グループに分割する、リアルタイム検索システム。
【請求項10】
前記分割部は、
隣接する時間区間の間に重なる時間が存在するように前記時間区間を分けること
を特徴とする、請求項に記載のリアルタイム検索システム。
【請求項11】
前記分割部は、
前記時間区間のうち直近の時間区間である最近区間を最も短い時間周期で設定し、前記最近区間を基準とし、以後の時間区間の場合には時間の経過に応じて漸次的に長い時間周期で設定すること
を特徴とする、請求項に記載のリアルタイム検索システム。
【請求項12】
前記索引部は、
前記文書グループのうち直近の時間区間である最近区間に該当する文書グループの場合には無限ループ(infinite loop)で索引を実行し、前記最近区間に該当する文書グループの索引結果を持続してアップデートすること
を特徴とする、請求項に記載のリアルタイム検索システム。
【請求項13】
前記索引部は、
語節単位索引技法、形態素単位索引技法、およびNグラム(N−Gram)基盤索引技法のうちいずれか1つを利用して索引を実行すること
を特徴とする、請求項に記載のリアルタイム検索システム。
【請求項14】
前記索引部は、
前記最近区間に該当する文書グループに対して前記複数の小グループを並列に同時索引すること
を特徴とする、請求項に記載のリアルタイム検索システム。
【請求項15】
前記検索部は、
前記索引データを利用した検索結果から前記文書グループ間に前記重なる時間によって重複する検索結果を取り除いた後、最終的な検索結果を提供すること
を特徴とする、請求項10に記載のリアルタイム検索システム。
【請求項16】
コンピュータシステムに、
複数の文書からなる文書コレクションを、文書が登録された時間を基準として時間区間別に分けて複数の文書グループに分割するステップと、
前記文書グループそれぞれに対して該当する時間区間の周期に応じて索引を実行するステップと、
前記索引による索引データを利用して前記文書コレクションに対する検索を実行するステップと、
を実行させ、
前記複数の文書グループに分割するステップは、
前記文書グループのうち直近の時間区間である最近区間に該当する文書グループに含まれた文書の数が基準値を超過する場合には、該当の文書グループを複数の小グループに分割するステップであり、
前記コンピュータシステムに検索対象である文書に対するリアルタイム検索を実行させる処理を行わせるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、リアルタイム検索のためのサービス実現方法およびそのシステムに関する。
【背景技術】
【0002】
検索サービスを提供する、最も一般的な形態であるキーワード検索サービスでは、ユーザから検索用クエリが入力されると、該当するクエリを含む情報、例えば、クエリを含んだウェブサイトに関する情報、クエリを含んだ記事情報、クエリを含んだファイル名の資料情報などを、ユーザに検索結果として提供している。
【0003】
このような検索結果を表示するためには、検索したい文書に対して予め索引を行って検索可能なデータに変える過程が必要となる。例えば、韓国登録特許第10−0835706号公報では、大容量のデータに対して形態素解析によって自動索引を実行する技術が開示されている。
【0004】
しかし、一般的な検索方法では特定の周期に1回ずつ索引を行うため、アップデートが頻繁に行われるデータの場合には、アップデート状況に対応して索引をすることが困難であるという問題がある。
【0005】
特に、SNS(social network service)関連データ、ニュース記事、ニュースのコメントなどは、最新データであるほど大きな意味をもつ反面、時間が経過するほど重要度が急激に低下するという特性があるため、このような最新データがより迅速に検索結果に反映されるようにする新たな方式の検索技術が必要となっている。
【0006】
さらに、SNS関連データ、ニュース記事、ニュースのコメントなどは時間的イシューに対応するデータである場合が多いため、データが急増する場合が度々発生するが、これに対応してデータを十分に迅速かつ安定的な速度で索引することができる技術も必要となっている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】韓国公開特許第10−0835706号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
最新データを迅速に検索することができるリアルタイム検索環境を実現するための方法およびシステムを提供する。
【0009】
リアルタイム検索のために、検索対象のデータをさらに迅速かつ安定的な速度で索引することができる方法およびシステムを提供する。
【課題を解決するための手段】
【0010】
本発明の一実施形態によると、リアルタイム検索方法は、複数の文書からなる文書コレクションを、文書が登録された時間を基準として時間区間別に分けて複数の文書グループに分割し、前記文書グループそれぞれに対して該当する時間区間の周期に応じて索引を実行し、前記索引による索引データを利用して前記文書コレクションに対する検索を実行することを含んでもよい。
【0011】
一実施形態によると、前記複数の文書グループに分割することは、隣接する時間区間に重なり合う時間が存在するように前記時間区間を分けてもよい。
【0012】
他の一実施形態によると、前記複数の文書グループに分割することは、前記時間区間のうち直近の時間区間である最近区間を最も短い時間周期で設定し、前記最近区間を基準として以後の時間区間の場合には、時間の経過に応じて漸次的に長い時間周期で設定してもよい。
【0013】
さらに他の一実施形態によると、前記索引を実行することは、前記文書グループのうち直近の時間区間である最近区間に該当する文書グループの場合には無限ループ(infinite loop)に索引を実行し、前記最近区間に該当する文書グループの索引結果を持続してアップデートしてもよい。
【0014】
さらに他の一実施形態によると、前記索引を実行することは、語節単位索引技法、形態素単位索引技法、およびNグラム(N−Gram)基盤索引技法のうちいずれか1つを利用して索引を実行してもよい。
【0015】
さらに他の一実施形態によると、前記複数の文書グループに分割することは、前記文書グループのうち直近の時間区間である最近区間に該当する文書グループに含まれた文書の数が基準値を超過する場合には、該当の文書グループを複数の小グループに分割してもよい。
【0016】
さらに他の一実施形態によると、前記索引を実行することは、前記最近区間に該当する文書グループに対して前記複数の小グループを並列に同時索引してもよい。
【0017】
さらに他の一実施形態によると、前記文書コレクションに対する検索を実行することは、前記索引データを利用した検索結果から前記文書グループ間に前記重なり合う時間によって重複する検索結果を取り除いた後、最終的な検索結果を提供してもよい。
【0018】
本発明の一実施形態によると、リアルタイム検索システムは、複数の文書からなる文書コレクションを、文書が登録された時間を基準として時間区間に分けて複数の文書グループに分割する分割部と、前記文書グループそれぞれに対して該当する時間区間の周期に応じて索引を実行する索引部と、前記索引による索引データを利用して前記文書コレクションに対する検索を実行する検索部を備えてもよい。
【発明の効果】
【0019】
本発明の実施形態によると、全体文書コレクションを時間区間別に分けて索引を行い、最新データの場合には最大限短い周期で設定して索引を行うことにより、最新データに対する索引アップデートの速度を画期的に減らすことができ、これによってリアルタイムに近い検索結果を提供することができる。
【0020】
本発明の実施形態によると、リアルタイム検索のための索引を行うとき、最近区間のデータを複数のデータに分けて索引を並列で同時に処理することにより、特定のイシューによって最新データが急増しても迅速かつ安定的な速度で索引を行うことができ、リアルタイム検索に最適となる索引技術を実現することができる。
【図面の簡単な説明】
【0021】
図1】本発明の一実施形態において、リアルタイムの検索環境を提供するためのリアルタイム検索方法を示したフローチャートである。
図2】本発明の一実施形態において、リアルタイム検索のための索引過程を説明するための例示図である。
図3】本発明の一実施形態において、最近区間の文書を複数のグループに分割して並列索引を行う過程を説明するための例示図である。
図4】本発明の一実施形態において、最近区間の文書を複数のグループに分割して並列索引を行う過程を説明するための例示図である。
図5】本発明の一実施形態において、リアルタイムの検索環境を提供するためのリアルタイム検索システムの内部構成を示したブロック図である。
【発明を実施するための形態】
【0022】
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
【0023】
本実施形態は、検索環境を提供する検索エンジンシステムに適用されてもよく、特に最新のアップデートされた文書をリアルタイムで検索することができるリアルタイム検索環境を提供することができる。
【0024】
本明細書において、「文書」とは、検索エンジンで検索対象となるデータを意味し、SNS(social network service)を通じてユーザが作成した文章やリアルタイムでアップデートされるニュース記事およびコメントなど、文章単位のすべてのデータを意味してもよい。また、「文書コレクション」とは、文書を集めたファイルを意味する。
【0025】
さらに、「索引」とは、文書コレクションに含まれた文書から意味をもつキーワードを抜き出して索引語として決めた後、出現頻度や出現位置、出現文書などに関する情報を索引語に含め、索引語別にソーティングして索引データセット(index data set)を作成する作業であり、「索引ボリューム」とは、索引過程で出た最終結果物である索引データセットを意味してもよい。
【0026】
図1は、本発明の一実施形態において、リアルタイムの検索環境を提供するためのリアルタイム検索方法を示したフローチャートである。一実施形態に係るリアルタイム検索方法は、図5を参照しながら後述するリアルタイム検索システムによってそれぞれのステップが実行されてもよい。
【0027】
図1において、ステップ110で、リアルタイム検索システムは、リアルタイム検索に適した索引のために、文書が登録された時間を基準として全体文書コレクションを時間区間別に分け、全体文書コレクションを複数のグループに分割してもよい。
【0028】
本実施形態において、リアルタイム検索システムは、各時間区間で文書に漏れが生じることを防ぐために、区間と区間の間に所定の重複時間が発生するように区間の周期を設定してもよい。区間の間で重なる時間はシステム環境に応じて決められてもよく、多様な要素を考慮した上で変更が可能である。
【0029】
特に、リアルタイム検索システムは、時間区間を分けるとき、現時点に近いほど区間の時間周期を短く設定してもよく、直近の文書が属する区間(以下、「最近区間」とする)の場合には、索引完了まで最大限短い時間以内に入ってくるように十分に短い周期で設定してもよい。最近区間の周期は、索引を実行する索引サーバの台数、索引およびアップデート性能などに応じて決められてもよい。
【0030】
例えば、図2を参照すると、文書コレクションが4つの時間区間に分けられているが、文書コレクションに含まれた文書のうち現時点から5分前(0分〜5分)に登録された文書をD区間(すなわち、最近区間)、3分から40分前(3分〜40分)に登録された文書をC区間、30分から6時間前(30分〜6時)に登録された文書をB区間、5時間から24時間前(5時〜24時)に登録された文書をA区間として分けてもよい。すなわち、全体文書コレクションは、索引のために、各時間区間に対応する4つの索引グループ(索引1〜索引4)201〜204に分割されてもよい。
【0031】
さらに、本実施形態において、リアルタイム検索システムは、最も短い周期の最近区間に登録された文書を、再び複数のグループに分割してもよい。
【0032】
図3を参照すると、リアルタイム検索システムは、最近区間の文書が急増したと判断される場合(S111)には、これに対応して円滑かつ安定的な索引のために、最近区間の周期に該当する一定の時間以内に登録された文書を複数の小グループに分割してもよい(S112)。
【0033】
一例として、リアルタイム検索システムは、最近区間の周期内に登録された文書の数が基準値を超過する場合には文書急増と判断し、該当の文書を小グループに分割してもよい。また、リアルタイム検索システムは、索引を実行する索引サーバの台数、および索引サーバそれぞれが一定の時間以内に処理することができる文書の数に応じて最近区間に対する小グループの数を決めた後、該当の文書を小グループに分割してもよい。
【0034】
例えば、特定のイシューによって最近登録された文書が急増した場合には、図4に示すように、D区間(すなわち、最近区間)に対して文書コレクションを3つの索引グループ(索引4〜索引6)404〜406に分割してもよい。このとき、索引サーバの台数を考慮ながら、最近1分以内の文書に対して30秒以内に索引およびアップデートが可能な水準の文書数を計算した後、このとき計算された文書数が5000件であれば、5000件を基準としてD区間の文書コレクションを分割してもよい。
【0035】
再び図1において、ステップ120で、リアルタイム検索システムは、全体文書コレクションから分割された索引グループそれぞれに対し、該当する時間区間の周期に応じて索引を実行してもよい。
【0036】
このとき、リアルタイム検索システムは、文書内の語節から非索引分節を切断する方式によって索引語を抽出して索引する語節単位索引技法、形態素解析や構文解釈によって重要な意味をもつ名詞や名詞句を抽出する方式によって単一名詞を抽出して索引する形態素単位索引技法、文章内の各語節に対して索引語の部分として不適切な非索引分節を取り除く語節単位索引技法を適用し、その結果として生成された索引分節から隣接しているn個の音節を抽出して索引するN−Gram基盤索引技法などの索引法のうちいずれか1つを利用してもよい。
【0037】
本実施形態において、索引グループのうち最近区間の索引グループに対しては、無限ループを実行して継続して索引が行われるようにしてもよい。言い換えれば、リアルタイム検索システムは、最近文書に対する迅速な索引のために、最近区間の索引グループに対して無限ループを実行することにより、該当のグループの索引結果を持続してアップデートできるようになる。
【0038】
特に、リアルタイム検索システムは、図3に示すように、最近文書の急増によって最近区間の文書コレクションが複数の索引グループに分割された場合には、分割された索引グループを並列に同時索引してもよい(S121)。図4を参照すると、最近区間(D区間)に対して無限ループを回して索引を行うことにより、最近区間の分割された索引グループである索引4〜索引6(404〜406)を並列に同時に処理できるようになる。
【0039】
したがって、最近区間に対しては最大限短い周期を適用しながら、無限ループを回して継続して索引が行われるようにすることにより、索引アップデート速度を画期的に減らし、リアルタイムに近い索引を実現することができる。さらに、文書が急増しても最近区間の文書コレクションを分割し、これを並列に同時索引することにより、索引に要される時間を毎回一定の水準に保持することができる。
【0040】
再び図1において、ステップ130で、リアルタイム検索システムは、ステップ110とステップ120で処理された索引ボリュームを利用してユーザ要求に対する検索を実行してもよい。
【0041】
このとき、リアルタイム検索システムは、時間区間別の文書コレクションで区間の間に重複が存在するように設定するため、索引ボリュームから検索結果を招来して先に重複を取り除いた後、最終的な検索結果を提供してもよい。
【0042】
また、本実施形態では、全体文書コレクションから分割されたグループだけ索引の種類が追加されるため、上述した索引ボリュームによる文書検索のときに、グループの数に対応する検索環境設定によって検索を実行してもよい。言い換えれば、リアルタイム検索システムは、検索環境設定によって自動で文書分割数に合うように可変的に検索を実行できるようになる。
【0043】
上述したリアルタイム検索方法は、全体文書コレクションを時間区間別に分割し、さらに最近区間の文書を再び複数のデータに分けて索引することにより、迅速に索引アップデートが行われるため、ユーザが検索するときにはリアルタイムに近い検索結果を確認することができる。
【0044】
本発明の実施形態に係る方法は、多様なコンピュータシステムによって実行されるプログラム命令(instruction)形態で実現され、コンピュータで読み取り可能な媒体に記録されてもよい。特に、本実施形態では、複数の文書からなる文書コレクションを複数のグループに分割するステップ、および文書コレクションに対して複数のグループを並列に同時索引するステップを含むプログラムが記録されるコンピュータで読み取り可能な媒体を含んでもよい。
【0045】
図5は、本発明の一実施形態において、リアルタイムの検索環境を提供するためのリアルタイム検索システムの内部構成を示したブロック図である。図5に示すように、リアルタイム検索システムは、分割部510、索引部520、および検索部530からなるプロセッサ500と、メモリ501と、データベース502を備えて構成されてもよい。
【0046】
メモリ501には、検索対象の文書に対してリアルタイム検索を実行するための命令語を含むプログラムが格納されてもよい。図1図4を参照しながら説明したリアルタイム検索システムで実行されるステップは、メモリ501に格納されたプログラムによって実行されてもよい。例えば、メモリ501は、ハードディスク、SSD、SDカード、およびその他の記録媒体であってもよい。
【0047】
データベース502は、検索対象となる文書とこれに対する索引ボリュームなど、検索サービスのために必要なすべての情報を格納および保持することができる格納所の役割を行ってもよい。
【0048】
プロセッサ500は、メモリ501に格納されたプログラムの命令語にしたがって処理する装置であって、CPUなどのマイクロプロセッサが含まれてもよい。プロセッサ500の詳細構成は次のとおりである。
【0049】
分割部510は、リアルタイム検索に適する索引のために、文書が登録された時間を基準として全体文書コレクションを時間区間別に分け、全体文書コレクションを複数のグループに分割してもよい。このとき、分割部510は、各時間区間から文書が漏れることを防ぐために、区間と区間の間に所定の重複時間が生じるように区間の周期を設定してもよい。特に、分割部510は、時間区間を分けるときに、現時点に近いほど区間の時間周期を短く設定してもよく、直近の区間の場合には、索引完了まで最大限短い時間以内に入ってくるように十分に短い周期で設定してもよい。さらに、分割部510は、最も短い周期の最近区間に登録された文書を再び複数のグループに分割してもよい。一例として、分割部510は、最近区間の文書が急増する場合には、これに対応して円滑かつ安定的な索引のために、最近区間の周期に該当する一定の時間内に登録された文書を複数のグループに分割してもよい。このとき、分割部510は、最近区間の周期以内に登録された文書の数が基準値を超過する場合には文書急増と判断し、該当の文書を小グループに分割してもよい。さらに、分割部510は、索引を実行する索引サーバの台数、および索引サーバそれぞれが一定の時間以内に処理することができる文書の数に応じて最近区間に対する小グループの数を決めた後、該当の文書を小グループに分割してもよい。
【0050】
索引部520は、全体文書コレクションから分割された索引グループそれぞれに対し、該当の時間区間の周期にしたがって索引を実行してもよい。このとき、索引部520は、語節単位索引技法、形態素単位索引技法、N−Gram基盤索引技法のうちいずれか1つを利用してもよい。特に、索引部520は、索引グループのうち最近区間の索引グループに対しては無限ループを回し、継続して索引が行われるようにしてもよい。言い換えれば、索引部520は、最近文書に対する迅速な索引のために、最近区間の索引グループに対して無限ループを実行することにより、該当のグループの索引結果を持続してアップデートできるようになる。さらに、索引部520は、最近文書の急増によって最近区間の文書コレクションが複数の索引グループに分割された場合には、分割された索引グループを並列に同時索引してもよい。
【0051】
検索部530は、索引部520で処理された索引ボリュームを利用してユーザ要求に対する検索を実行してもよい。このとき、検索部530は、時間区間別に文書コレクションで区間の間に重複が存在するように設定するため、索引ボリュームから検索結果を招来して先に重複を取り除いた後、最終的な検索結果を提供してもよい。また、検索部530は、全体文書コレクションから分割されたグループだけ索引の種類が追加されるため、上述した索引ボリュームによる文書検索時には、グループの数に対応する検索環境設定によって検索を実行してもよい。言い換えれば、検索部530は、検索環境設定によって自動で文書分割数に合うように可変的に検索を実行できるようになる。
【0052】
上述したリアルタイム検索システムは、図1図4を参照しながら説明したリアルタイム検索方法の詳細内容に基づき、構成要素の一部が省略されたり追加される構成要素がさらに含まれてもよい。また、2つ以上の構成要素が組み合わされてもよく、構成要素間の動作順序や連携方式は変更されてもよい。
【0053】
このように、本発明の実施形態によると、全体文書コレクションを時間区間別に分けて索引を行い、最新データの場合には最大限短い周期で設定して索引を行うことにより、最新データに対する索引アップデート速度を画期的に減らすことができ、これによってリアルタイムに近い検索結果を提供することができる。さらに、本発明の実施形態によると、リアルタイム検索のための索引を行うときに、最近区間のデータを複数のデータに分けて索引を並列に同時に処理することにより、特定のイシューによって最新データが急増しても迅速かつ安定的な速度で索引を行うことができ、リアルタイム検索に最適となる索引技術を実現することができる。
【0054】
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素およびソフトウェア構成要素の組み合わせによって実現されてもよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令(instruction)を実行して応答することができる異なる装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてもよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してもよい。また、処理装置は、ソフトウェアの実行に応答し、データをアクセス、保存、操作、処理、および生成してもよい。理解の便宜のために、処理装置は1つが使用されると説明される場合もあるが、該当する技術分野において通常の知識を有する者は、処理装置が複数の処理要素(processing element)および/または複数類型の処理要素を含んでもよい。例えば、処理装置は、複数のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでもよい。また、並列プロセッサ(parallel processor)のような、他の処理構成(processing configuration)も可能である。
【0055】
ソフトウェアは、コンピュータプログラム(computer program)、コード(code)、命令(instruction)、またはこれらのうちの1つ以上の組み合わせを含んでもよく、所望とおりに動作するように処理装置を構成したり、独立的または結合的に(collectively)処理装置を命令したりしてもよい。ソフトウェアおよび/またはデータは、処理装置によって解釈されたり処理装置に命令またはデータを提供したりするために、ある類型の機械、構成要素(component)、物理的装置、仮想装置(virtual equipment)、コンピュータ記録媒体または装置、または送信される信号波(signal wave)に永久的または一時的に具体化(embody)されてもよい。ソフトウェアは、ネットワークによって連結したコンピュータシステム上に分散し、分散した方法によって格納されたり実行されたりしてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータで読み取り可能な記録媒体に格納されてもよい。
【0056】
実施形態に係る方法は、多様なコンピュータ手段によって実行が可能なプログラム命令形態で実現されてコンピュータで読み取り可能な媒体に記録されてもよい。コンピュータで読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含んでもよい。媒体に記録されるプログラム命令は、実施形態のために特別に設計されて構成されたものであってもよく、コンピュータソフトウェア当業者に公知されて使用可能なものであってもよい。コンピュータで読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体(magnetic media)、CD−ROM、DVDのような光記録媒体(optical media)、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto−optical media)、およびROM、RAM、フラッシュメモリなどのようなプログラム命令を格納して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。上述したハードウェア装置は、実施形態の動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成されてもよく、その逆も同じである。
【0057】
以上のように、実施形態を限定された実施形態と図面に基づいて説明したが、該当する技術分野において通常の知識を有する者であれば、上述した記載から多様な修正および変形が可能であることが理解できるであろう。例えば、説明された技術が説明された方法とは異なる順序で実行されたり、および/または説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態で結合または組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
【0058】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
【符号の説明】
【0059】
510:分割部
520:索引部
530:検索部
図1
図2
図3
図4
図5