IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

<>
  • 特許-情報処理装置及びプログラム 図1
  • 特許-情報処理装置及びプログラム 図2
  • 特許-情報処理装置及びプログラム 図3
  • 特許-情報処理装置及びプログラム 図4
  • 特許-情報処理装置及びプログラム 図5
  • 特許-情報処理装置及びプログラム 図6
  • 特許-情報処理装置及びプログラム 図7
  • 特許-情報処理装置及びプログラム 図8
  • 特許-情報処理装置及びプログラム 図9
  • 特許-情報処理装置及びプログラム 図10
  • 特許-情報処理装置及びプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-11
(45)【発行日】2023-09-20
(54)【発明の名称】情報処理装置及びプログラム
(51)【国際特許分類】
   G06F 16/00 20190101AFI20230912BHJP
【FI】
G06F16/00
【請求項の数】 6
(21)【出願番号】P 2018240134
(22)【出願日】2018-12-21
(65)【公開番号】P2020102035
(43)【公開日】2020-07-02
【審査請求日】2021-11-18
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001210
【氏名又は名称】弁理士法人YKI国際特許事務所
(72)【発明者】
【氏名】尾崎 良太
(72)【発明者】
【氏名】宇野 渉
(72)【発明者】
【氏名】加藤 典司
【審査官】玉木 宏治
(56)【参考文献】
【文献】特開2012-118628(JP,A)
【文献】特開2006-309377(JP,A)
【文献】特開2009-169519(JP,A)
【文献】特開2006-107467(JP,A)
【文献】特開2013-092823(JP,A)
【文献】米国特許第09298828(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
時系列に沿って発生した各検索行為の発生時間に基づいて、複数の検索行為を含む検索行為群を生成する群生成手段と、
各検索行為群の間における検索行為の重複率を示す群関連度に基づいて、同一の検索イベントに含まれる検索行為を特定する特定手段と、
を有し、
前記群生成手段は、基準となる検索行為の発生時間を基準として予め定められた時間範囲内に発生した1又は複数の検索行為を含む検索行為群を生成し、前記基準となる検索行為を行ったユーザの検索能力に応じて、前記時間範囲を変更する、
情報処理装置。
【請求項2】
前記群生成手段は、前記検索能力が高いほど前記時間範囲を狭くする、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
時系列に沿って発生した各検索行為の発生時間に基づいて、複数の検索行為を含む検索行為群を生成する群生成手段と、
各検索行為群の間における検索行為の重複率を示す群関連度に基づいて、同一の検索イベントに含まれる検索行為を特定する特定手段と、
を有し、
検索行為は、検索用のクエリと検索結果とを含み、
前記群生成手段は、基準となる検索行為の発生時間を基準として予め定められた時間範囲内に発生した1又は複数の検索行為を含む検索行為群を生成し、前記基準となる検索行為に含まれるクエリと検索結果との間の関連度に応じて前記時間範囲を変更する、
情報処理装置。
【請求項4】
前記群生成手段は、前記関連度が高いほど前記時間範囲を狭くする、
ことを特徴とする請求項3に記載の情報処理装置。
【請求項5】
コンピュータを、
時系列に沿って発生した各検索行為の発生時間に基づいて、複数の検索行為を含む検索行為群を生成する群生成手段、
各検索行為群の間における検索行為の重複率を示す群関連度に基づいて、同一の検索イベントに含まれる検索行為を特定する特定手段、
として機能させ、
前記群生成手段は、基準となる検索行為の発生時間を基準として予め定められた時間範囲内に発生した1又は複数の検索行為を含む検索行為群を生成し、前記基準となる検索行為を行ったユーザの検索能力に応じて、前記時間範囲を変更する、
プログラム。
【請求項6】
コンピュータを、
時系列に沿って発生した各検索行為の発生時間に基づいて、複数の検索行為を含む検索行為群を生成する群生成手段、
各検索行為群の間における検索行為の重複率を示す群関連度に基づいて、同一の検索イベントに含まれる検索行為を特定する特定手段、
として機能させ、
検索行為は、検索用のクエリと検索結果とを含み、
前記群生成手段は、基準となる検索行為の発生時間を基準として予め定められた時間範囲内に発生した1又は複数の検索行為を含む検索行為群を生成し、前記基準となる検索行為に含まれるクエリと検索結果との間の関連度に応じて前記時間範囲を変更する、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及びプログラムに関する。
【背景技術】
【0002】
情報を検索するために発生した一連の検索行為(例えば、目的の情報が検索されるまでに発生した一連の検索行為や、ユーザの検索の意図が変わるまでに発生した一連の検索行為等)を検索イベントとして抽出し、その検索イベントを解析することで、検索方法等を推奨する場合がある。
【0003】
特許文献1には、検索時に用いられたキーワードと、当該キーワードを用いて検索された検索結果の中から選択された複数の対象に関する情報とが関連付けられて検索履歴情報として記憶部に記憶し、記憶部に記憶された検索履歴情報に基づき、キーワードに対応する複数の対象間の類似度を算出し、その類似度からキーワードの曖昧性を判定する装置が記載されている。
【0004】
特許文献2には、クエリ検索においてユーザが選択したWebページに係る情報(タイトル及び要約文)と検索したクエリとの相関度を求めることで、推薦クエリを提示するサーバが記載されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2017-146926号公報
【文献】特開2009-169541号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の目的は、目的の情報を検索するために発生した各検索行為を同一の検索イベントとして抽出する場合に、検索行為間の関連度のみを用いる場合と比較して、より正確に同一の検索イベントに含まれる検索行為を特定することにある。
【課題を解決するための手段】
【0007】
請求項1に係る発明は、時系列に沿って発生した各検索行為の発生時間に基づいて、複数の検索行為を含む検索行為群を生成する群生成手段と、各検索行為群の間における検索行為の重複率を示す群関連度に基づいて、同一の検索イベントに含まれる検索行為を特定する特定手段と、を有し、前記群生成手段は、基準となる検索行為の発生時間を基準として予め定められた時間範囲内に発生した1又は複数の検索行為を含む検索行為群を生成し、前記基準となる検索行為を行ったユーザの検索能力に応じて、前記時間範囲を変更する、情報処理装置である。
【0009】
請求項に係る発明は、前記群生成手段は、前記検索能力が高いほど前記時間範囲を狭くする、ことを特徴とする請求項に記載の情報処理装置である。
【0010】
請求項に係る発明は、時系列に沿って発生した各検索行為の発生時間に基づいて、複数の検索行為を含む検索行為群を生成する群生成手段と、各検索行為群の間における検索行為の重複率を示す群関連度に基づいて、同一の検索イベントに含まれる検索行為を特定する特定手段と、を有し、検索行為は、検索用のクエリと検索結果とを含み、前記群生成手段は、基準となる検索行為の発生時間を基準として予め定められた時間範囲内に発生した1又は複数の検索行為を含む検索行為群を生成し、前記基準となる検索行為に含まれるクエリと検索結果との間の関連度に応じて前記時間範囲を変更する、情報処理装置である。
【0011】
請求項に係る発明は、前記群生成手段は、前記関連度が高いほど前記時間範囲を狭くする、ことを特徴とする請求項に記載の情報処理装置である。
【0015】
請求項に係る発明は、コンピュータを、時系列に沿って発生した各検索行為の発生時間に基づいて、複数の検索行為を含む検索行為群を生成する群生成手段、各検索行為群の間における検索行為の重複率を示す群関連度に基づいて、同一の検索イベントに含まれる検索行為を特定する特定手段、として機能させ、前記群生成手段は、基準となる検索行為の発生時間を基準として予め定められた時間範囲内に発生した1又は複数の検索行為を含む検索行為群を生成し、前記基準となる検索行為を行ったユーザの検索能力に応じて、前記時間範囲を変更する、プログラムである。
請求項に係る発明は、コンピュータを、時系列に沿って発生した各検索行為の発生時間に基づいて、複数の検索行為を含む検索行為群を生成する群生成手段、各検索行為群の間における検索行為の重複率を示す群関連度に基づいて、同一の検索イベントに含まれる検索行為を特定する特定手段、として機能させ、検索行為は、検索用のクエリと検索結果とを含み、前記群生成手段は、基準となる検索行為の発生時間を基準として予め定められた時間範囲内に発生した1又は複数の検索行為を含む検索行為群を生成し、前記基準となる検索行為に含まれるクエリと検索結果との間の関連度に応じて前記時間範囲を変更する、プログラムである。
【発明の効果】
【0016】
請求項1,に係る発明によれば、目的の情報を検索するために発生した各検索行為を同一の検索イベントとして抽出する場合に、検索行為間の関連度のみを用いる場合と比較して、より正確に同一の検索イベントに含まれる検索行為を特定することができる。
【0017】
請求項1,に係る発明によれば、ユーザの検索能力に応じた検索行為群を生成することができる。
【0018】
請求項に係る発明によれば、ユーザの検索能力に関わらず時間範囲を一定にする場合と比較して、ノイズとなり得る検索行為を除いて検索行為群を生成することができる。
【0019】
請求項3,に係る発明によれば、クエリと検索結果との間の関連度に応じた検索行為群を生成することができる。
【0020】
請求項に係る発明によれば、検索行為と検索結果との間の関連度に関わらず時間範囲を一定にする場合と比較して、ノイズとなり得る検索行為を除いて検索行為群を生成することができる。
【図面の簡単な説明】
【0023】
図1】本実施形態に係る情報処理システムの構成を示すブロック図である。
図2】本実施形態に係る情報処理装置の構成を示すブロック図である。
図3】本実施形態に係る処理部の構成を示すブロック図である。
図4】行為関連度を演算する識別器の学習処理に関するフローチャートを示す図である。
図5】本実施形態に係る情報処理装置による処理に関するフローチャートを示す図である。
図6】検索行為の一覧を示す図である。
図7】拡張検索行為群を示す図である。
図8】行為関連度を示す図である。
図9】拡張検索行為群を示す図である。
図10】行為関連度を示す図である。
図11】プロファイリング情報を示す図である。
【発明を実施するための形態】
【0024】
図1を参照して、本発明の実施形態に係る情報処理システムについて説明する。図1は、本実施形態に係る情報処理システムの一例を示す。
【0025】
本実施形態に係る情報処理システムは、情報処理装置10と1又は複数の端末装置12とを含む。図1には1つの端末装置12が示されているが、複数の端末装置12が情報処理システムに含まれてもよい。情報処理装置10及び端末装置12は、例えば通信経路Nを介して互いに通信する機能を有する。通信経路Nは、例えば、インターネットや他のネットワーク(例えばLAN等)等である。もちろん、情報処理装置10及び端末装置12は、通信経路Nを介さずに他の装置と直接的に通信してもよい。また、サーバ等の装置が情報処理システムに含まれてもよい。
【0026】
情報処理装置10は、情報を検索するために発生した検索行為を示す情報を取得し、同一の検索イベントに含まれる検索行為を特定するように構成されている。以下、検索行為を示す情報を「検索行為情報」と称することとする。検索対象となる情報は、文書データ、テキストデータ、画像データ(静止画像データ、動画像データ)、Webページ及び音声データ等である。もちろん、これら以外の情報が検索されてもよい。また、検索対象となる情報は、データベースに格納されている情報であってもよいし、Webサーバやファイルサーバやクラウド上に格納されている情報であってもよいし、ユーザが利用する端末装置12等に格納されている情報であってもよいし、その他のストレージに格納されている情報であってもよい。
【0027】
端末装置12は、PC(パーソナルコンピュータ)、タブレットPC、スマートフォン又は携帯電話等であり、例えば、情報の検索時にユーザによって利用される。
【0028】
なお、ユーザは、情報処理装置10を用いて情報を検索してもよい。また、情報処理装置10に端末装置12が組み込まれてもよい。
【0029】
以下、図2を参照して、情報処理装置10の構成について詳しく説明する。図2は、情報処理装置10の構成の一例を示す。
【0030】
通信部14は通信インターフェースであり、情報を他の装置に送信する機能、及び、他の装置から送られてきた情報を受信する機能を有する。通信部14は、無線通信機能を有していてもよいし、有線通信機能を有していてもよい。
【0031】
記憶部16は、各種の情報を格納する1又は複数の格納領域である。各格納領域は、情報処理装置10に設けられている1又は複数の記憶装置(例えばハードディスクドライブやメモリ等の物理ドライブ)として定義されてもよいし、1又は複数の記憶装置に設定された論理パーティション又は論理ドライブとして定義されてもよい。
【0032】
UI部18はユーザインターフェースであり、表示部と操作部とを含む。表示部は、例えば、液晶ディスプレイやELディスプレイ等の表示装置である。操作部は、キーボードやマウス等の入力装置である。表示部と操作部とを兼ね備えたユーザインターフェース(例えばタッチパネル等)が、UI部18として用いられてもよい。なお、情報処理装置10は、UI部18を備えていなくてもよい。
【0033】
処理部20は、検索行為情報を取得し、同一の検索イベントに含まれる検索行為を特定するように構成されている。処理部20の詳細については図3を参照して後で説明する。
【0034】
制御部22は、情報処理装置10の各部の動作を制御するように構成されている。
【0035】
以下、図3を参照して、処理部20の構成について詳しく説明する。図3は、処理部20の構成の一例を示す。
【0036】
検索行為情報取得部24は、検索行為情報を取得するように構成されている。検索行為情報取得部24は、例えば、検索が行われたデータベース、Webサーバ、ファイルサーバ又はクラウド等から検索行為情報を取得してもよいし、検索に用いられた端末装置12から検索行為情報を取得してもよい。検索行為情報取得部24は、ユーザによって検索が行われる度に検索行為情報を取得してもよいし、予め定められた時間毎にまとめて検索行為情報を取得してもよい。
【0037】
検索行為の概念の範疇には、例えば、ユーザがクエリ等を用いて検索を指示する行為、及び、検索結果を出力(例えば表示)する処理が含まれる。例えば、ユーザがあるクエリを用いて検索を指示し、その検索結果が表示されて、ユーザがその検索結果を閲覧した場合、その一連の行為や処理が1つの検索行為を構成する。ユーザが更に別のクエリを用いて検索を指示し、その検索結果が表示されて、ユーザがその検索結果を閲覧した場合、その一連の行為や処理が別の1つの検索行為を構成する。
【0038】
検索行為情報は、例えば、検索に使用されたクエリを示す情報、検索結果を示す情報、検索に関する時間を示す情報、検索に用いられたWebブラウザのタブに関する情報、及び、クエリと検索結果との間の関連度を示す情報等を含む。これらの中の少なくとも1つの情報が検索行為情報に含まれてもよい。これら以外の情報であって検索に関する情報が、検索行為情報に含まれてもよい。また、検索行為情報は、検索を行ったユーザを識別するためのユーザ識別情報(例えばユーザ名やユーザID等)を含む。ユーザ識別情報の代わりに、又は、ユーザ識別情報と共に、検索に用いられた装置(例えば端末装置12)を識別するため装置識別情報(例えば装置名やMACアドレスやIPアドレス等)が、検索行為情報に含まれてもよい。Webブラウザのタブは、Webページを切り替えて表示するためのユーザインターフェースである。
【0039】
クエリは、例えば、検索のためにユーザが入力したキーワードや、ユーザが選択した検索条件(例えばAND検索やOR検索等の検索式等)等である。検索結果は、例えば、検索によって得られたWebページや文書データ等に記載されている内容や要約やタイトル等である。これら以外に、検索によって得られた画像データや音声データ等が検索結果を示す情報に含まれてもよい。検索に関する時間は、例えば、検索が行われた時間(例えば日時)や、検索結果へアクセスした時間(例えば日時)や、ユーザが検索結果を閲覧した時間(例えば日時や、ユーザが検索結果を閲覧した時間の長さ等)等である。閲覧時間は、例えば、検索結果が表示されている時間(例えば日時や、検索結果が表示されている時間の長さ等)である。タブに関する情報は、例えば、ユーザがWebブラウザにおいてタブを作成した時間(例えば日時)や、タブを閉じた時間(例えば日時)や、タブを識別するためのタブ識別情報(例えばタブID)等である。クエリと検索結果との間の関連度は、例えば、検索結果に含まれるタイトルやスニペットや内容と、クエリとの間の類似度や、検索結果同士の類似度等である。なお、これらの類似度は、例えば、検索行為情報の取得元であるデータベースやWebサーバやファイルサーバやクラウドや端末装置12等において演算される。検索行為情報取得部24が、これらの類似度を演算してもよい。
【0040】
検索履歴情報保存部26は、各検索が行われたときの検索履歴を示す情報(以下、「検索履歴情報」と称する)を取得して記憶部16に保存するように構成されている。検索履歴情報保存部26は、例えば、検索が行われたデータベース、Webサーバ、ファイルサーバ又はクラウド等から検索履歴情報を取得してもよいし、検索に用いられた端末装置12から検索履歴情報を取得してもよい。検索履歴情報保存部26は、ユーザによって検索が行われる度に検索履歴情報を取得してもよいし、予め定められた時間毎にまとめて検索履歴情報を取得してもよい。
【0041】
また、検索履歴情報保存部26は、検索行為情報を記憶部16に保存するように構成されている。検索履歴情報は検索行為情報に含まれてもよい。この場合、検索履歴情報保存部26は、検索行為情報取得部24から検索履歴情報を取得する。
【0042】
検索履歴情報は、例えば、ユーザが各閲覧ページを開いた際のタブの情報(新規ページ又は他のページからの移動)、各検索における閲覧ページ数を示す情報、各検索にてユーザが閲覧したページのランキングを示す情報、検索に用いられたクエリを示す情報、ユーザが閲覧したページを示す情報、検索に要した時間を示す情報、及び、ユーザが検索結果を閲覧した時間を示す情報等を含む。これらの中の少なくとも1つの情報が検索履歴情報に含まれてもよい。これら以外の情報であって検索の履歴に関する情報が、検索履歴情報に含まれてもよい。また、検索履歴情報は、検索を行ったユーザを識別するためのユーザ識別情報を含む。ユーザ識別情報の代わりに、又は、ユーザ識別情報と共に、検索に用いられた装置を識別するための装置識別情報が、検索行為情報に含まれてもよい。
【0043】
プロファイリング情報生成部28は、記憶部16に保存されている各ユーザの検索履歴情報に基づいて、個々のユーザ毎の検索の特性を示すプロファイリング情報を生成するように構成されている。プロファイリング情報生成部28は、複数のユーザが属する組織等のグループ毎にプロファイリング情報を生成してもよい。プロファイリング情報は、例えば、マルチタスク度を示す情報、検索速度を示す情報、閲覧時間を示す情報、閲覧速度を示す情報、及び、興味分野を示す情報等を含む。これらの中の少なくとも1つの情報がプロファイリング情報に含まれてもよい。
【0044】
マルチタスク度は、検索時に同時に用いられたタブの数(同時に開かれたタブの数)や、複数のタブの間の切替回数等に基づいて演算される。一例として、マルチタスク度は、予め定められた時間内(例えばn分間)で同時に開いているタブの数にタブの切替回数を乗算して得られた値である。検索速度は、各検索の時間間隔に基づいて演算される。一例として、検索速度は、各検索行為間の平均時間間隔である。閲覧時間は、各検索においてユーザがWebページや文書や画像等の各情報を閲覧した時間の長さに基づいて演算される。閲覧速度は、例えば、Webページや文書や画像等の各情報の平均閲覧時間である。興味分野は、例えば、検索に用いられたクエリや、ユーザが閲覧したページ等に基づいて特定される。一例として、興味分野は、ユーザが閲覧したWebページや文書や画像等の情報に含まれる単語や、クエリに含まれる単語等によって特定される。これらの演算や特定処理は、プロファイリング情報生成部28によって行われる。
【0045】
プロファイリング情報は、マルチタスク度や検索速度や閲覧時間等を示しているため、ユーザの検索能力を示しているといえる。つまり、検索速度が速いユーザほど、検索に慣れているユーザや、検索能力が高いユーザであると推測される。また、マルチタスク度が高いユーザほど(例えば同時に使用されるタブ数が多いユーザほど)、検索に慣れているユーザや、検索能力が高いユーザであると推測される。また、プロファイリング情報は、ユーザの検索の個性や特徴や癖等を示しているともいえる。
【0046】
検索行為関連度演算部30は、検索行為情報取得部24から複数の検索行為情報を取得し、各検索行為の間の関連度(以下、「行為関連度」と称する)を演算するように構成されている。検索行為関連度演算部30は、例えば、検索を行ったユーザ毎に、又は、検索に用いられた端末装置12等の装置毎に、各検索行為の間の行為関連度を演算する。
【0047】
検索行為関連度演算部30は、例えば、各検索行為にて用いられたクエリ間のレーベンシュタイン距離、クエリ間の類似度、編集文字数、又は、各検索行為における検索結果間の類似度(タイトル、スニペット、内容、URL等の類似度)等に基づいて、行為関連度を演算する。検索行為関連度演算部30は、これらの中の複数の値を組み合わせることで行為関連度を演算してもよい。また、これらの情報を入力として用いて、Deep Neural Network、Random Forest、Adaboost、Gradient Boosting等の機械学習手法によって、各検索行為が互いに関連しているか否かを判断する識別器が、予め学習によって作成されてもよい。その識別器の出力値が行為関連度として用いられてもよい。検索行為関連度演算部30は、各ユーザのプロファイリング情報を取得し、各ユーザのプロファイリング情報に基づいて、ユーザ毎やグループ毎に識別器を作成してもよい。また、検索行為関連度演算部30は、例えば、word2vecやseq2vec等の手法によって作成された特徴量に基づいて、クエリの類似度や検索結果の類似度を演算する。
【0048】
拡張検索行為群生成部32は、検索行為情報取得部24から1又は複数の検索行為情報を取得し、当該1又は複数の検索行為情報が示す1又は複数の検索行為を含む拡張検索行為群を生成するように構成されている。拡張検索行為群生成部32は、例えば、検索を行ったユーザ毎に、又は、検索に用いられた端末装置12等の装置毎に、複数の検索行為情報を取得し、時系列に沿って発生した各検索行為の発生時間に基づいて、複数の検索行為を含む検索行為群を生成する。検索行為の発生時間は、例えば、検索が行われた時間(例えば日時)や、検索結果へアクセスした時間(例えば日時)や、ユーザが検索結果を閲覧した時間(例えば日時)等である。
【0049】
拡張検索行為群生成部32は、例えば、基準となる検索行為の発生時間を基準として予め定められた時間範囲内に発生した1又は複数の検索行為を含む拡張検索行為群を生成する。拡張検索行為群生成部32は、基準となる検索行為を変えて、基準となる検索行為毎に拡張検索行為群を生成する。当該時間範囲は、予備実験等に基づいて予め定められてもよいし、ユーザや管理者等によって変更されてもよい。例えば、ある検索行為に注目した場合、拡張検索行為群生成部32は、当該検索行為の発生時間を基準として上記時間範囲内に発生した1又は複数の検索行為を含む拡張検索行為群を生成する。同様に、拡張検索行為群生成部32は、別の検索行為の発生を基準として上記時間範囲内に発生した1又は複数の検索行為を含む拡張検索行為群を生成する。
【0050】
拡張検索行為群生成部32は、プロファイリング情報をプロファイリング情報生成部28から取得し、当該プロファイリング情報が示すユーザの検索能力に応じて、上記の時間範囲を変更してもよい。別の例として、拡張検索行為群生成部32は、特定の検索行為に含まれるクエリと検索結果との間の関連度に応じて、上記の時間範囲を変更してもよい。これらの処理については後で詳しく説明する。
【0051】
群関連度演算部34は、各拡張検索行為群の間の関連度(以下、「群関連度」と称する)を演算するように構成されている。群関連度演算部34は、例えば、各拡張検索行為群の間における検索行為の重複率を群関連度として演算してもよいし、拡張検索行為群に含まれる各検索行為間の行為関連度に発生時間差に応じた重み付けを行うことで群関連度を演算してもよい。例えば、発生時間差が大きくなるほど重みは小さくなる。群関連度の演算の詳細については後で詳しく説明する。
【0052】
統合関連度演算部36は、各検索行為の間の統合した関連度(以下、「統合関連度」と称する)を演算するように構成されている。統合関連度演算部36は、例えば、各検索行為間の行為関連度と群関連度とに基づいて各検索行為間の統合関連度を定める。具体的には、統合関連度演算部36は、各行為関連度に群関連度を乗算することで各検索行為間の統合関連度を演算する。統合関連度演算部36は、各検索行為の間の発生時間が近いほど統合関連度が高くなるように重み付けを行ってもよいし、同じタブが用いられた検索行為に関する統合関連度ほど高くなるように重み付けを行ってもよい。
【0053】
判定部38は、群関連度又は統合関連度に基づいて、各検索行為が同一の検索イベントに含まれるか否かを判定するように構成されている。判定部38は、同一の検索イベントに含まれる検索行為を特定する特定手段の一例として機能する。
【0054】
判定部38は、例えば、各拡張検索行為群の間の群関連度が閾値以上になった場合、当該各拡張検索行為群に含まれる複数の検索行為は、同一の検索イベントに含まれると判定する。別の例として、判定部38は、各検索行為の間の統合関連度が閾値以上になった場合、当該各検索行為は、同一の検索イベントに含まれると判定してもよい。閾値は、例えば、予め定められてもよいし、ユーザや管理者等によって変更されてもよい。判定部38は、プロファイリング情報をプロファイリング情報生成部28から取得し、ユーザの検索能力に応じて閾値を変更してもよい。この処理の詳細については後で説明する。
【0055】
なお、処理部20が端末装置12に設けられて、処理部20による処理が端末装置12によって実行されてもよいし、処理部20がサーバ等の装置に設けられて、処理部20による処理が当該装置によって実行されてもよい。
【0056】
以下、図4を参照して、行為関連度を演算する識別器の学習処理について説明する。図4は、当該学習処理に関するフローチャートの一例を示す。
【0057】
検索行為情報取得部24は、N人のユーザの検索行為情報(検索履歴情報を含む)を取得する(S01)。検索履歴情報保存部26は、当該検索行為情報を記憶部16に保存する(S02)。プロファイリング情報生成部28は、検索履歴情報に基づいて、ユーザ毎のプロファイリング情報を生成する(S03)。検索行為関連度演算部30は、各検索行為にて用いられたクエリ間のレーベンシュタイン距離、クエリ間の類似度、編集文字数、各検索行為における検索結果間の類似度(タイトル、スニペット、内容、URL等の類似度)等を演算し、それらを特徴量として、各検索行為が互いに関連しているか否かを判断する識別器を学習によって作成する(S04)。このようにして作成された識別器を用いて、行為関連度が演算されてもよい。
【0058】
以下、図5を参照して、本実施形態に係る情報処理装置10による処理について説明する。図5は、当該処理に関するフローチャートを示す。以下では、ユーザAの検索行為に関する検索イベントを抽出するものとする。
【0059】
検索行為情報取得部24は、ユーザAのユーザ識別情報を含む複数の検索行為情報(検索履歴情報を含む)を取得する(S10)。ここでは、検索行為情報B~Bが取得され、これらが検索行為情報群B{B,・・・,B}を構成する。
【0060】
次に、プロファイリング情報生成部28は、検索行為情報群Bに基づいてユーザAのプロファイリング情報Dを生成する(S11)。
【0061】
次に、検索行為関連度演算部30は、検索行為情報群Bに含まれる各検索行為の間の行為関連度を演算する(S12)。上述したように、行為関連度として、クエリ間のレーベンシュタイン距離や類似度等が演算されてもよいし、学習によって作成された識別器が用いられてもよい。
【0062】
次に、拡張検索行為群生成部32は、検索行為情報群Bに基づいて、拡張検索行為群E{Ec1,・・・,Ec2}を生成する(S13)。C1,C2は、検索行為毎に設定される。拡張検索行為群生成部32は、ユーザAのプロファイリング情報に基づいて、拡張検索行為群を生成するときに用いられる時間範囲を変更してもよい。
【0063】
次に、群関連度演算部34は、各拡張検索行為群の間の群関連度を演算する(S14)。
【0064】
次に、統合関連度演算部36は、各検索行為間の行為関連度と群関連度とに基づいて統合関連度を演算する(S15)。
【0065】
以下、判定部38による処理が行われる。
【0066】
まず、判定部38は、係数tを「1」に設定する(S16)。
【0067】
次に、判定部38は、検索行為情報群Bの中から、時系列順に、判定対象となるF個の検索行為情報を選択し、当該F個の検索行為情報に対応した統合関連度G{Gii+1,・・・,Gj-1j}を統合関連度演算部36から取得する(S17)。ここで、i=minであり、j=maxである。
【0068】
ii+1≧閾値Hではない場合(S18,No)、判定部38は、検索行為Bi+1に新しい検索イベントIDを付与する(S19)。つまり、統合関連度が閾値H未満である場合、検索行為Bと検索行為Bi+1とは互いに関連した検索行為ではないと判定され、検索行為Bi+1には、検索行為Bとは異なる検索イベントIDが付与されて、検索行為Bi+1は、検索行為Bとは異なる検索イベントに分類される。そして、処理は、S23に移行する。
【0069】
ii+1≧閾値Hである場合において(S18,Yes)、検索行為Bに検索イベントIDが付与されている場合(S20,Yes)、判定部38は、検索行為Bi+1に検索行為Bと同じ検索イベントIDを付与する(S21)。
【0070】
ii+1≧閾値Hである場合において(S18,Yes)、検索行為Bに検索イベントIDが付与されていない場合(S20,No)、判定部38は、検索行為Bに新しい検索イベントIDを付与し(S22)、検索行為Bi+1に検索行為Bと同じ検索イベントIDを付与する(S21)。
【0071】
つまり、統合関連度が閾値H以上である場合、検索行為Bと検索行為Bi+1とは互いに関連した検索行為であると判定され、検索行為Bi+1には、検索行為Bと同じ検索イベントIDが付与されて、検索行為Bi+1は、検索行為Bと同じ検索イベントに分類される。
【0072】
次に、判定部38は、係数iを係数 i+1に変更する(S23)。
【0073】
i≧jではない場合(S24,No)、処理はS17に移行する。
【0074】
i≧jである場合において(S24,Yes)、すべての検索行為に対して検索イベントIDが付与されている場合(S25,Yes)、処理は終了する。
【0075】
i≧jである場合において(S24,Yes)、検索イベントIDが付与されていない検索行為が存在する場合(S25,No)、係数tが係数t+1に変更され(S26)、処理はS16に移行し、S17以降の処理が実行される。こうすることで、各検索行為が、互いに同一又は異なる検索イベントに分類される。
【0076】
以下、具体例を挙げて情報処理装置10による処理について詳しく説明する。
【0077】
図6は、あるユーザ(例えばユーザA)についての検索行為の一例を示す。図6に示されている各検索行為は、検索行為情報取得部24によって取得された各検索行為情報が示す検索行為であり、各検索行為情報は記憶部16に保存される。例えば、検索行為を識別するためのIDと、検索行為が発生した日時を示す情報と、検索行為の具体的な内容を示す情報とが互いに紐付けられて記憶部16に保存される。図6においては、各検索行為が、検索行為が発生した日時順に並んでいる。
【0078】
例えば、ID「001」の検索行為は、2018年4月20日の13:45に行われており、その検索行為では、キーワード「コンピュータビジョン」と「国際会議」が、検索のためにユーザAによって入力されている。他の検索行為においても、検索のためのキーワードがユーザAによって用いられている。
【0079】
なお、図6には、前の検索との関連度(本実施形態、比較例)が参考として示されている。本実施形態に係る関連度は、上述した群関連度を考慮に入れた統合関連度である。比較例に係る関連度は、検索行為間の関連度であり、群関連度は考慮されていない関連度である。これらの関連度は参考として示されているものであり、検索行為に含まれるものではない。例えば、ID「002」の検索行為に注目すると、前の検索は、時間順で1つ前のID「001」の検索行為である。ID「002」の検索行為とID「001」との間の本実施形態に係る関連度(統合関連度)は、「0.65」であり、比較例に係る関連度(行為関連度)は、「0.6」である。
【0080】
拡張検索行為群生成部32は、例えば、基準となる検索行為の発生日時を基準として予め定められた時間範囲内に発生した1又は複数の検索行為を含む拡張検索行為群を生成する。拡張検索行為群生成部32は、基準となる検索行為を変えて拡張検索行為群を生成する。
【0081】
具体的には、ID「001」,「002」の検索行為を含む拡張検索行為群1が生成され、ID「001」~「003」の検索行為を含む拡張検索行為群2が生成され、ID「003」,「004」の検索行為を含む拡張検索行為群3が生成され、ID「005」,「006」の検索行為を含む拡張検索行為群4が生成される。
【0082】
次に、検索行為関連度演算部30は、各検索行為の間の行為関連度を演算し、群関連度演算部34は、各拡張検索行為群の間の群関連度を演算する。
【0083】
例えば、拡張検索行為群1と拡張検索行為群2とを対象として、行為関連度と群関連度とが演算される。図7を参照して、この演算について詳しく説明する。図7は、拡張検索行為群1,2を示す。検索行為関連度演算部30は、ID「001」の検索行為とID「001」の検索行為との間の行為関連度、ID「001」の検索行為とID「002」の検索行為との間の行為関連度、ID「001」の検索行為とID「003」との間の行為関連度、ID「002」の検索行為とID「002」の検索行為との間の行為関連度、及び、ID「002」の検索行為とID「003」の検索行為との間の行為関連度を演算する。図7中の矢印は、行為関連度を演算するときの検索行為の組み合わせを示している。
【0084】
図8は、上記のようにして演算された各行為関連度の一例を示す。図8には、各検索行為間の発生時間の差分(例えば秒)も示されている。例えば、ID「001」の検索行為とID「002」の検索行為との間の行為関連度は「0.6」であり、時間の差分は「5.0秒」である。行為関連度は、上述したように、クエリ間の類似度等に基づいて演算される。
【0085】
群関連度演算部34は、拡張検索行為群1と拡張検索行為群2との間の群関連度を演算する。
【0086】
群関連度演算部34は、例えば、拡張検索行為群1,2の間における検索行為の重複率を群関連度として演算する。以下、この群関連度を「群関連度1」と称することとする。群関連度1は、以下の式(1)によって表される。拡張検索行為群1,2にはID「001」~「003」の検索行為が含まれるため、拡張検索行為群1,2中の全検索行為数(IDが互いに異なる検索行為の全数)は「3」である。重複する検索行為の数は「2」である。よって、群関連度1は「0.67」となる。
【0087】
【数1】
【0088】
別の例として、群関連度演算部34は、拡張検索行為群1,2の間における各検索行為間の行為関連度に発生時間差分に応じた重み付けを行うことで群関連度を演算してもよい。以下、この群関連度を「群関連度2」と称することとする。群関連度2は、以下の式(2)によって表される。ここでは、群関連度2は、発生時間差分の逆数を用いた加重平均であり、その値は「0.907」である。
【0089】
【数2】
【0090】
更に別の例として、群関連度演算部34は、発生時間差分の逆数を用いた加重平均と、拡張検索行為群1,2の間の発生時間差分の平均の逆数とによって定められる群関連度を演算してもよい。以下、この群関連度を「群関連度3」と称することとする。群関連度3は、以下の式(3)によって表される。ここでは、群関連度3は、発生時間差分の逆数を用いた加重平均に、拡張検索行為群1,2の間の発生時間差分の平均の逆数を乗算することで演算される値であり、その値は「0.15」である。
【0091】
【数3】
【0092】
群関連度として、上記の群関連度1,2又は3のいずれかが用いられる。群関連度1,2又は3の中の予め定められた群関連度が用いられてもよいし、ユーザや管理者等によって指定された群関連度が用いられてもよい。もちろん、群関連度1,2,3以外に、拡張検索行為群間の関連度を示す値が群関連度として用いられてもよい。
【0093】
統合関連度演算部36は、各検索行為間の行為関連度と群関連度とに基づいて統合関連度を演算する。統合関連度演算部36は、例えば、各行為関連度に群関連度を乗算することで各検索行為間の統合関連度を演算する。
【0094】
例えば、図8に示す例において、群関連度として群関連度1が用いられる場合、統合関連度演算部36は、図8に示されている各行為関連度に群関連度1「0.67」を乗算することで、各検索行為間の統合関連度を演算する。この場合、ID「001」の検索行為とID「002」の検索行為との間の統合関連度は「0.6×0.67」となり、ID「001」の検索行為とID「003」の検索行為との間の統合関連度は「0.1×0.67」となり、ID「002」の検索行為とID「003」の検索行為との間の統合関連度は「0.3×0.67」となる。
【0095】
判定部38は、各検索行為間の統合関連度が閾値以上になった場合、当該各検索行為は、同一の検索イベントに含まれると判定する。例えば、ID「001」の検索行為とID「002」の検索行為との間の統合関連度が閾値以上になった場合、判定部38は、ID「001」の検索行為とID「002」の検索行為とは同一の検索イベントに含まれると判定する。他の検索行為についても同様である。なお、群関連度1の代わりに群関連度2又は3が用いられてもよい。
【0096】
別の例として、判定部38は、各拡張検索行為群の間の群関連度が閾値以上になった場合、当該各拡張検索行為群に含まれる複数の検索行為は、同一の検索イベントに含まれると判定してもよい。例えば、群関連度2,3は、それぞれ行為関連度を含む値であるため、群関連度2,3は、検索行為間の関連度をも指し示しているといえる。例えば、判定部38は、群関連度2が閾値以上になった場合、拡張検索行為群1,2に含まれる各検索行為(ID「001」~「003」の各検索行為)は、同一の検索イベントに含まれると判定してもよい。群関連度2の代わりに群関連度3が用いられた場合も同様である。
【0097】
拡張検索行為群1,2以外の群についても、拡張検索行為群1,2と同様に、行為関連度と群関連度とが演算される。
【0098】
図9は、拡張検索行為群3,4を示す。検索行為関連度演算部30は、ID「003」の検索行為とID「005」の検索行為との間の行為関連度、ID「003」の検索行為とID「006」の検索行為との間の行為関連度、ID「004」の検索行為とID「005」の検索行為との間の行為関連度、及び、ID「004」の検索行為とID「006」の検索行為との間の行為関連度を演算する。図9中の矢印は、行為関連度を演算するときの検索行為の組み合わせを示している。
【0099】
図10は、上記のようにして演算された各行為関連度の一例を示す。図10には、各検索行為間の発生時間の差分(例えば秒)も示されている。
【0100】
群関連度演算部34は、拡張検索行為群3と拡張検索行為群4との間の群関連度を演算する。
【0101】
拡張検索行為群3と拡張検索行為群4との間の群関連度1は、以下の式(4)によって表される。拡張検索行為群3,4にはID「003」~「006」の検索行為が含まれるため、拡張検索行為群3,4中の全検索行為数は「4」である。重複する検索行為の数は「0」である。よって、群関連度1は「0.0」である。
【0102】
【数4】
【0103】
また、拡張検索行為群3と拡張検索行為群4との間の群関連度2は、以下の式(5)によって表される。ここでは、群関連度2は「0.4005」である。
【0104】
【数5】
【0105】
また、拡張検索行為群3と拡張検索行為群4との間の群関連度3は、以下の式(6)によって表される。ここでは、群関連度3は「0.00000694」となる。
【0106】
【数6】
【0107】
図10に示す例において、群関連度として群関連度1が用いられる場合、統合関連度演算部36は、図10に示されている各行為関連度に群関連度1「0.0」を乗算することで、各検索行為間の統合関連度を演算する。ここでは、各統合関連度は「0.0」となり、閾値未満となる。従って、判定部38は、拡張検索行為群3に含まれるID「003」,「004」の検索行為と、拡張検索行為群4に含まれるID「005」,「006」の検索行為とは、同一の検索イベントに含まれないと判断する。群関連度1の代わりに群関連度2又は3が用いられた場合も、判定部38は、統合関連度と閾値との比較によって、各検索行為が同一の検索イベントに含まれるか否かを判定する。
【0108】
上記の例では、拡張検索行為群1と拡張検索行為群2とが比較され、拡張検索行為群3と拡張検索行為群4とが比較されているが、これら以外にも、拡張検索行為群1と拡張検索行為群3とが比較されてもよいし、拡張検索行為群1と拡張検索行為群4とが比較されてもよい。
【0109】
以上のように、群関連度を用いて、各検索行為が同一の検索イベントに含まれるか否かが判定される。こうすることで、検索行為間の関連度のみを用いる場合と比較して、より正確に同一の検索イベントに含まれる検索行為が特定される。
【0110】
(変形例1)
以下、変形例1について説明する。変形例1では、拡張検索行為群生成部32は、ユーザのプロファイリング情報を取得し、当該プロファイリング情報が示す当該ユーザの検索能力に応じて、拡張検索行為群の生成のために用いられる時間範囲を変更する。例えば、拡張検索行為群生成部32は、検索能力が高いほど当該時間範囲を狭くして拡張検索行為群を生成する。
【0111】
ここで、図11を参照して、プロファイリング情報の一例について説明する。例えば、各ユーザのプロファイリング情報として、ユーザを識別するためのユーザIDと、マルチタスク度を示す情報と、検索速度を示す情報と、閲覧時間を示す情報と、興味分野を示す情報とが互いに紐付けられている。これらの情報は、各ユーザの閲覧履歴情報に基づいてプロファイリング情報生成部28によって生成される。
【0112】
例えば、ユーザID「001」のユーザについて説明すると、マルチタスク度は「高」であり、検索速度は「速」であり、閲覧時間は「長」であり、興味分野は「コンピュータビジョン」と「Python」である。なお、マルチタスク度や検索速度や閲覧時間は数値によって表現されてもよい。
【0113】
マルチタスク度が高いほど、検索能力が高いと評価され、検索速度が速いほど、検索能力が高いと評価される。従って、拡張検索行為群生成部32は、マルチタスク度が高いほど時間範囲を狭くし、検索速度が速いほど時間範囲を狭くする。
【0114】
拡張検索行為群の生成に用いられる時間範囲を広げるほど、同一の検索イベントに含まれ得ない検索行為が、ノイズとして同一の拡張検索行為群に含まれる可能性が高くなる。検索能力が高いほど時間範囲を狭くすることで、そのようなノイズを除去して拡張検索行為群が生成される。例えば、検索能力が高いユーザは、検索能力が低いユーザと比較して、短時間で目的の情報を検索すると想定される。それ故、検索能力が高いほど時間範囲を狭くすることで、ノイズが除去された拡張検索行為群が生成されて、同一検索イベントの判定処理の精度が高くなる。一方、検索能力が低いユーザは、検索能力が高いユーザと比較して、目的の情報を検索するために要する時間が長くなると想定される。それ故、検索能力が低いほど時間範囲を広げることで、より多くの検索行為情報を用いて拡張検索行為群が生成される。
【0115】
(変形例2)
以下、変形例2について説明する。変形例2では、拡張検索行為群生成部32は、拡張検索行為群の生成のための基準となる検索行為に含まれるクエリと検索結果との間の関連度に応じて、当該拡張検索行為群の生成のために用いられる時間範囲を変更する。例えば、拡張検索行為群生成部32は、当該関連度が高いほど当該時間範囲を狭くして拡張検索行為群を生成する。
【0116】
クエリと検索結果との間の関連度は、上述したように、例えば、検索結果に含まれるタイトルやスニペットや内容と、クエリの間の類似度や、検索結果同士の類似度等である。
【0117】
クエリと検索結果との間の関連度が高いほど、ユーザの目的の情報が検索されたと推測され、より短時間で検索イベントが終了すると推測される。それ故、クエリと検索結果との間の関連度が高いほど時間範囲を狭くして拡張検索行為群を生成することで、時間範囲を広げて拡張検索行為群を生成する場合と比較して、よりノイズの少ない拡張検索行為群が生成され、その結果、同一検索イベントの判定処理の精度が高くなり得る。
【0118】
(変形例3)
以下、変形例3について説明する。変形例3では、判定部38は、ユーザのプロファイリング情報を取得し、当該プロファイリング情報が示す当該ユーザの検索能力に応じて、同一検索イベントを判定するための閾値を変更する。例えば、判定部38は、検索能力が高いほど閾値を高い値に設定する。具体的には、判定部38は、マルチタスク度が高いほど閾値を高い値に設定し、検索速度が速いほど閾値を高い値に設定する。
【0119】
検索能力が高いほど閾値を高い値に設定することで、ノイズとなり得るより関連度の低い検索行為を除外して同一検索イベントに含まれる検索行為が特定されるので、同一検索イベントの判定処理の精度が高くなる。
【0120】
(変形例4)
以下、変形例4について説明する。変形例4では、判定部38は、ユーザのプロファイリング情報を取得し、当該プロファイリング情報が示す当該ユーザの検索能力に応じて、判定対象となる検索行為を選択したり変更したりする。例えば、マルチタスク度が高いユーザほど、様々な検索を短時間で行う傾向が高い。同様に、検索速度が速いユーザほど、様々な検索を短時間で行う傾向が高い。そのため、マルチタスク度がより低いユーザや検索速度がより遅いユーザと比較して、例えば、検索イベント1、検索イベント2、検索イベント1のように、同一の検索イベントの間に別の検索イベントが発生する可能性が高い。そこで、変形例4では、判定部38は、検索能力が高いほど、より多くの検索行為を判定対象の検索行為として選択して、各検索行為が同一検索イベントに含まれるか否かを判定する。
【0121】
上記の情報処理装置10及び端末装置12は、一例としてハードウェアとソフトウェアとの協働により実現される。具体的には、情報処理装置10及び端末装置12は、図示しないCPU等の1又は複数のプロセッサを備えている。当該1又は複数のプロセッサが、図示しない記憶装置に記憶されたプログラムを読み出して実行することにより、情報処理装置10及び端末装置12のそれぞれの各部の機能が実現される。上記プログラムは、CD又はDVD等の記録媒体を経由して、又は、ネットワーク等の通信経路を経由して、記憶装置に記憶される。別の例として、情報処理装置10及び端末装置12のそれぞれの各部は、例えばプロセッサ、電子回路又はASIC(Application Specific Integrated Circuit)等のハードウェア資源により実現されてもよい。その実現においてメモリ等のデバイスが利用されてもよい。更に別の例として、情報処理装置10及び端末装置12のそれぞれの各部は、DSP(Digital Signal Processor)又はFPGA(Field Programmable Gate Array)等によって実現されてもよい。
【符号の説明】
【0122】
10 情報処理装置、20 処理部、24 検索行為情報取得部、26 検索履歴情報保存部、28 プロファイリング情報生成部、30 検索行為関連度演算部、32 拡張検索行為群生成部、34 群関連度演算部、36 統合関連度演算部、38 判定部。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11