(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-22
(45)【発行日】2023-12-01
(54)【発明の名称】情報処理装置、情報処理方法および情報処理プログラム
(51)【国際特許分類】
G06F 16/90 20190101AFI20231124BHJP
G06Q 30/0251 20230101ALI20231124BHJP
【FI】
G06F16/90
G06Q30/0251
(21)【出願番号】P 2021045297
(22)【出願日】2021-03-18
【審査請求日】2022-06-17
(73)【特許権者】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】坪内 孝太
(72)【発明者】
【氏名】田口 拓明
【審査官】松尾 真人
(56)【参考文献】
【文献】特開2013-037404(JP,A)
【文献】中国特許出願公開第107229645(CN,A)
【文献】韓国公開特許第10-2012-0089963(KR,A)
【文献】菊井 玄一郎,検索ホットワードとブログ系テキストの関係を探る.,電子情報通信学会技術研究報告,一般社団法人電子情報通信学会,2012年08月23日,第112巻, 第196号,pp.31~36
【文献】菊池 匡晃,階層型クラスタリングを用いた時系列テキスト集合からの話題推移抽出,Journal of the DBSJ,日本データベース学会,2008年06月27日,第7巻, 第1号,pp.85~90
【文献】枝 隼也,ユーザのWeb探索履歴からのキーワード遷移グラフ抽出法に関する一検討,マルチメディア,分散,協調とモバイル(DICOMO2010)シンポジウム論文集 情報処理学会シンポジウムシリーズ Vol.2010 No.1 [CD-ROM],社団法人情報処理学会,2010年06月30日,第2010巻, 第1号,pp.406~413
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
既知のワードの誤記候補であるワードをユーザがクエリとして入力した場合の前記ユーザの検索行動に関する履歴情報を取得する取得部と、
前記履歴情報
に基づいて前記検索行動に関する統計量および前記検索行動に際してのコンテキストを含む前記検索行動の特徴情報を抽出し、前記統計量の変化に基づいて前記クエリ
を新規のワード
として検出する検出部と、
前記新規のワードの検出時点から逆時系列
の各時点における前記コンテキストに共通性ある前記ユーザのグルーピングを繰り返し、時系列上で最も過去のグループにおける前記コンテキストの共通性に基づいて前記新規のワードの起源を推定する推定部と
を備えることを特徴とする情報処理装置。
【請求項2】
前記推定部は、
前記最も過去のグループにおいて共通する位置情報に基づいて、前記新規のワードの起源
となる場所を特定する
ことを特徴とする請求項
1に記載の情報処理装置。
【請求項3】
前記推定部は、
前記最も過去のグループにおいて共通する日付および前記場所におけるイベントに関する情報を取得し、当該イベントに関する情報に基づいて前記新規のワードの起源となる物を特定する
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
コンピュータが実行する情報処理方法であって、
既知のワードの誤記候補であるワードをユーザがクエリとして入力した場合の前記ユーザの検索行動に関する履歴情報を取得する取得工程と、
前記履歴情報
に基づいて前記検索行動に関する統計量および前記検索行動に際してのコンテキストを含む前記検索行動の特徴情報を抽出し、前記統計量の変化に基づいて前記クエリ
を新規のワード
として検出する検出工程と、
前記新規のワードの検出時点から逆時系列
の各時点における前記コンテキストに共通性ある前記ユーザのグルーピングを繰り返し、時系列上で最も過去のグループにおける前記コンテキストの共通性に基づいて前記新規のワードの起源を推定する推定工程と
を含むことを特徴とする情報処理方法。
【請求項5】
既知のワードの誤記候補であるワードをユーザがクエリとして入力した場合の前記ユーザの検索行動に関する履歴情報を取得する取得手順と、
前記履歴情報
に基づいて前記検索行動に関する統計量および前記検索行動に際してのコンテキストを含む前記検索行動の特徴情報を抽出し、前記統計量の変化に基づいて前記クエリ
を新規のワード
として検出する検出手順と、
前記新規のワードの検出時点から逆時系列
の各時点における前記コンテキストに共通性ある前記ユーザのグルーピングを繰り返し、時系列上で最も過去のグループにおける前記コンテキストの共通性に基づいて前記新規のワードの起源を推定する推定手順と
をコンピュータに実行させることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。
【背景技術】
【0002】
従来、ユーザが入力した文字列を検索クエリ(以下、単に「クエリ」と呼ぶ)として、様々な情報の検索サービスを行うための技術が提供されている。そのような検索サービスにおいては、ユーザが入力したクエリに誤記が含まれる場合等において、その誤記を変換した上で検索を行い、検索結果をユーザに提供する技術が提供されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の従来技術を用いた場合、入力されたクエリと実際の検索に用いるべきクエリの間の関係性を判断することが難しい。例えば、従来技術では、第1文字列とその第1文字列の誤記として入力され得る第2文字列とを対応付けた辞書を用いて、第2文字列が入力された場合に、第2文字列を第1文字列へと変換しているに過ぎない。
【0005】
このため、従来技術では、ユーザが入力した第2文字列をそのままクエリとしたい場合には、ユーザは望む検索結果を得られないおそれがある。この点に関し、例えば、ユーザが入力した第2文字列による検索が要求された時点から、ユーザへ第2文字列とは異なる第1文字列を用いた検索結果を提供し、ユーザによりその検索結果が選択された時点までの経過時間に基づいて、第2文字列が誤記であるか否かを推定することができる。
【0006】
かかる場合、第2文字列が誤記であるか否かにより前述の経過時間に差があるので、例えば経過時間のばらつき度合いが所定の閾値以上であれば、第2文字列が誤記ではなく、新規のワードであると推定することができる。しかしながら、このように第2文字列が新規のワードであると推定できても、その起源まで推定することはできない。もし、起源が推定できれば、ターゲティング等の各種分析などに非常に有用となる。
【0007】
本願は、上記に鑑みてなされたものであって、クエリに関しての新規のワードの起源を推定することができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本願に係る情報処理装置は、取得部と、検出部と、推定部とを備える。前記取得部は、既知のワードの誤記候補であるワードをユーザがクエリとして入力した場合の前記ユーザの検索行動に関する履歴情報を取得する。前記検出部は、前記履歴情報に基づいて前記検索行動に関する統計量および前記検索行動に際してのコンテキストを含む前記検索行動の特徴情報を抽出し、前記統計量の変化に基づいて前記クエリを新規のワードとして検出する。前記推定部は、前記新規のワードの検出時点から逆時系列の各時点における前記コンテキストに共通性ある前記ユーザのグルーピングを繰り返し、時系列上で最も過去のグループにおける前記コンテキストの共通性に基づいて前記新規のワードの起源を推定する。
【発明の効果】
【0009】
実施形態の一態様によれば、クエリに関しての新規のワードの起源を推定することができるという効果を奏する。
【図面の簡単な説明】
【0010】
【
図1】
図1は、実施形態に係る情報処理の一例を示す図である。
【
図2】
図2は、実施形態に係る情報処理システムの構成例を示す図である。
【
図3】
図3は、実施形態に係る情報処理装置の構成例を示すブロック図である。
【
図4】
図4は、実施形態に係る推定処理の処理説明図(その1)である。
【
図5】
図5は、実施形態に係る推定処理の処理説明図(その2)である。
【
図6】
図6は、実施形態に係る情報処理装置が実行する処理手順を示すフローチャートである。
【
図7】
図7は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0011】
以下に、本願に係る情報処理装置、情報処理方法および情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0012】
また、以下では、クエリとして用いられる新規のワード、すなわちクエリに関しての新規のワードについては、適宜「新規ワード」と呼ぶ。また、以下では、「起源」と言った場合、単に事の起こりの時点のみを指すものではなく、かかる時点におけるコンテキスト等を含むものとする。
【0013】
〔1.情報処理の一例〕
まず、実施形態に係る情報処理の一例について、
図1を用いて説明する。
図1は、実施形態に係る情報処理の一例を示す図である。
【0014】
図1では、実施形態に係る情報処理システム1に含まれる情報処理装置100が、ユーザUによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザUの検索行動に関する履歴情報を取得し、履歴情報から抽出される検索行動の特徴情報の変化に基づいてクエリに関しての新規ワードを検出し、新規ワードの検出時点から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源を推定する処理を実行する例を示す。
【0015】
図1に示すように、実施形態に係る情報処理システム1は、ユーザ端末10と、情報処理装置100とを含む。
【0016】
ユーザ端末10は、ユーザUすなわちユーザU1,U2…がそれぞれ利用する端末装置であるユーザ端末10-1,10-2…である。ユーザUは、ユーザ端末10から図示略のネットワークを介し、情報処理装置100へアクセスすることで、情報処理装置100が提供するサービスの一つである検索サービスを利用する。なお、以下では、「ユーザU」は、適宜「ユーザ端末10」と読み替えることができる。
【0017】
情報処理装置100は、各種サービスをユーザUへ提供するサーバ装置である。情報処理装置100が提供するサービスは、例えば、ユーザ端末10にインストールされた各種アプリやブラウザを介して各種情報を提供するサービスである。提供されるサービスには、検索サービスの他、例えば、ニュース提供サービスや、オークションサービス、天気予報サービス、ショッピングサービス、金融取引(株取引等)サービス、路線検索サービス、地図提供サービス、旅行サービス、飲食店紹介サービス、ブログサービス等が含まれてもよい。
【0018】
ユーザUは、検索サービスを利用する場合、情報処理装置100へアクセス後、ユーザ端末10から検索キーワードとなる文字列であるクエリを入力する。そして、ユーザUは、クエリによる検索要求を情報処理装置100へ送信する(ステップS1)。
【0019】
ここで、クエリには誤記が含まれる場合がある。情報処理装置100は、例えば誤記として入力され得る第1クエリと、第1クエリに対し正しいと想定される文字列である第2クエリとを対応付けた辞書情報を有しており、これを用いて第1クエリが入力された場合に、第1クエリを第2クエリへ変換して第2クエリを用いた情報の検索を行う。
【0020】
そして、情報処理装置100は、クエリによる検索要求に基づく検索結果をユーザUへ送信する(ステップS2)。ユーザUは、これに応じ、閲覧したい検索結果のうちの一つを選択する(ステップS3)。
【0021】
情報処理装置100は、これらステップS1~S3のユーザUの検索行動を含むユーザUの行動に関する履歴情報をユーザ端末10から随時収集し、蓄積する。
【0022】
履歴情報には、例えば、クエリに誤記が含まれる場合の、前述の第1クエリによる検索が要求された時点から、ユーザUに第1クエリとは異なる第2クエリを用いた検索結果を提供し、ユーザUによりその検索結果が選択された時点までの経過時間が含まれる。また、履歴情報には、例えば、ユーザUの行動から推定されるコンテキストが含まれる。
【0023】
コンテキストは、検索行動を含む各種の行動をユーザUが取るに際してのユーザUの状況や、ユーザUの環境等を示す情報である。具体的には、コンテキストには、ユーザUのジオグラフィック属性(検索行動をとった際の位置等)や、デモグラフィック属性(年齢や、性別、収入、職業等)、サイコグラフィック属性(価値観や、ライフスタイル、性格、好み等)等が含まれる。
【0024】
そして、情報処理装置100は随時、履歴情報に基づいてユーザUの検索行動に関する特徴情報を抽出する(ステップS4)。特徴情報は、特定のクエリによる検索要求や前述した経過時間に関する統計量や、検索行動に際してのコンテキストを含む。
【0025】
そして、情報処理装置100は、抽出された時系列上の特徴情報の変化に基づいて、新規ワードを検出する(ステップS5)。例えば、情報処理装置100は、同図に示すように、特定のクエリによる検索要求数cが閾値Thを超えた状態を所定期間n以上継続した場合等に、かかる特定のクエリを新規ワードとして検出する。
【0026】
また、図示は略するが、例えば、情報処理装置100は、前述の経過時間のばらつき度合いが大きくなると、前述の第1クエリと第2クエリとの関係性が低いと推定し、第1クエリを第2クエリの誤記でなく、新規ワードとして検出する。
【0027】
そして、情報処理装置100は、新規ワードの検出時点T1から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源T0を推定する。
【0028】
具体的に、例えば情報処理装置100は、逆時系列に、検出時点T1から過去の特徴情報を解析し(ステップS6)、共通性あるユーザUをグルーピングし、さらに共通性あるグループをグルーピングしてゆく(ステップS7)。情報処理装置100は、このように逆時系列にグルーピングを繰り返すことにより、グルーピングされるグループを絞り込む。
【0029】
そして、情報処理装置100は、絞り込まれたグルーピング結果に基づいて新規ワードの起源T0を推定する(ステップS8)。すなわち、情報処理装置100は、検出時点T1から逆時系列に特徴情報の共通性を再帰的に絞り込むことによって、新規ワードの起源T0を推定する。
【0030】
起源T0が推定できれば、ターゲティング等の各種分析や、いわゆる「バズる」といった事象発生の分析等に活用することができる。なお、ステップS6~S8の具体例については、
図4および
図5を用いた説明で後述する。
【0031】
上述したように、実施形態に係る情報処理方法では、ユーザUによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザUの検索行動に関する履歴情報を取得し、履歴情報から抽出される検索行動の特徴情報の変化に基づいてクエリに関しての新規ワードを検出し、新規ワードの検出時点T1から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源T0を推定する。
【0032】
したがって、実施形態に係る情報処理方法によれば、クエリに関しての新規ワードの起源T0を推定することができる。
【0033】
以下、上記のような情報処理を行う情報処理装置100、および、かかる情報処理装置100を含む情報処理システム1について詳細に説明する。
【0034】
〔2.情報処理システム1の構成〕
次に、
図2を用いて、実施形態に係る情報処理システム1の構成について説明する。
図2は、実施形態に係る情報処理システム1の構成例を示す図である。
図2に例示するように、実施形態に係る情報処理システム1は、複数のユーザ端末10-1~10-nと、情報処理装置100と、を含む。
【0035】
これらの各種装置は、ネットワークNを介して、有線または無線により通信可能に接続される。ネットワークNは、LAN(Local Area Network)、WAN(Wide Area Network)、電話網(携帯電話網、固定電話網等)、地域IP(Internet Protocol)網、インターネット等の通信ネットワークである。ネットワークNには、有線ネットワークが含まれていてもよいし、無線ネットワークが含まれていてもよい。
【0036】
ユーザ端末10は、上記したように、ユーザUによって利用される端末装置である。ユーザ端末10は、例えば、スマートフォンを含む携帯電話機や、タブレット端末や、デスクトップ型PCや、ノート型PCや、PDA(Personal Digital Assistant)等の情報処理装置である。また、ユーザ端末10には、眼鏡型や時計型の情報処理装置であるウェアラブルデバイス(wearable device)も含まれる。
【0037】
ユーザ端末10は、ユーザUによる操作や、ユーザ端末10が有する機能(例えば、検索サービスを利用するためのアプリを実行する機能や、ブラウザ機能等)に応じて各種情報を取得し、取得した情報に応じた情報を生成して送信する。例えば、ユーザ端末10は、ネットワークNを介して、情報処理装置100が提供する検索サービスのサイトへアクセスする。そして、ユーザUが例えば検索したい検索キーワードであるクエリを指定することによって、ユーザ端末10は、情報処理装置100に対してクエリを送信する。
【0038】
情報処理装置100は、ユーザ端末10に対し、検索サービスを提供するサービス提供サーバとして機能するサーバ装置である。また、情報処理装置100は、ユーザUによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザUの検索行動に関する履歴情報を取得し、履歴情報から抽出される検索行動の特徴情報の変化に基づいてクエリに関しての新規ワードを検出し、新規ワードの検出時点T1から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源T0を推定する。
【0039】
なお、
図2では、1つの情報処理装置100が、検索サービスの提供、履歴情報の取得、新規ワードの検出、新規ワードの起源T0の推定の各機能を兼ね備える場合を示したが、例えば、複数の情報処理装置100が、これらの各機能を分担して行ってもよい。
【0040】
〔3.情報処理装置100〕
次に、
図3を用いて、情報処理装置100の構成例について説明する。
図3は、実施形態に係る情報処理装置100の構成例を示すブロック図である。なお、
図3では、情報処理装置100の説明に必要となる構成要素のみを示しており、一般的な構成要素についての記載を省略している。
【0041】
図3に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
【0042】
(通信部110について)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワークNと有線または無線で接続され、ネットワークNを介して、ユーザ端末10との間で情報の送受信を行う。
【0043】
(記憶部120について)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、
図3の例では、記憶部120は、履歴情報記憶部121と、特徴情報記憶部122と、推定情報記憶部123とを有する。
【0044】
(履歴情報記憶部121)
履歴情報記憶部121は、後述する取得部131によって取得されるユーザUの検索行動の履歴に関する各種情報、すなわち上述した履歴情報を記憶する。したがって、履歴情報記憶部121は、例えば、クエリが誤記であるか否かを問わず、ユーザUによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザUの検索行動に関する履歴情報を記憶する。また、履歴情報記憶部121は、上述した経過時間を記憶する。また、履歴情報記憶部121は、例えば、ユーザUの検索行動から推定されるコンテキストを記憶する。
【0045】
(特徴情報記憶部122)
特徴情報記憶部122は、後述する検出部132によって抽出されるユーザUの検索行動に関する特徴情報を記憶する。
【0046】
(推定情報記憶部123)
推定情報記憶部123は、後述する推定部133によって推定された推定結果に関する情報を記憶する。例えば、推定情報記憶部123は、新規ワードの起源T0に関する情報を記憶する。起源T0に関する情報は、起源T0の時点情報、起源T0におけるコンテキスト等を含む。
【0047】
(制御部130について)
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、コントローラであり、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0048】
図3に示すように、制御部130は、取得部131と、検出部132と、推定部133と、処理部134と、提供部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、
図3に示した構成に限られず、後述する情報処理を行うことができる構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、
図3に示した接続関係に限られず、他の接続関係であってもよい。
【0049】
制御部130は、ユーザUによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザUの検索行動に関する履歴情報を取得し、履歴情報から抽出される検索行動の特徴情報の変化に基づいてクエリに関しての新規ワードを検出し、新規ワードの検出時点T1から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源T0を推定する。
【0050】
(取得部131について)
取得部131は、ユーザUによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザUの検索行動に関する履歴情報を取得する。
【0051】
具体的には、取得部131は、通信部110を介して、ユーザUによって入力されたクエリによる検索要求を取得する。また、取得部131は、通信部110を介して、ユーザUによって選択された検索結果を取得する。また、取得部131は、通信部110を介して履歴情報を取得し、履歴情報記憶部121へ記憶させる。
【0052】
(検出部132について)
検出部132は、履歴情報記憶部121へ記憶された履歴情報に基づいて、ユーザUの検索行動に際してのコンテキストを含む検索行動の特徴情報を抽出する。また、検出部132は、抽出された特徴情報を特徴情報記憶部122へ記憶させる。また、検出部132は、特徴情報記憶部122へ記憶された特徴情報の時系列上の変化に基づいてクエリに関しての新規ワードを検出する。
【0053】
既に述べたが、一例として検出部132は、特定のクエリによる検索要求数cが閾値Thを超えた状態を所定期間n以上継続した場合等に、かかる特定のクエリを新規ワードとして検出する。
【0054】
同様に、他の一例として、検出部132は、前述の経過時間のばらつき度合いが大きくなると、前述の第1クエリと第2クエリとの関係性が低いと推定し、第1クエリを第2クエリの誤記でなく、新規ワードとして検出する。
【0055】
(推定部133について)
推定部133は、検出部132によって検出された新規ワードの検出時点T1から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源T0を推定する。
【0056】
ここで、推定部133が実行する推定処理について、より具体的に説明する。
図4は、実施形態に係る推定処理の処理説明図(その1)である。また、
図5は、実施形態に係る推定処理の処理説明図(その2)である。
【0057】
前提として、例えば既知のメディア作品に関する既知のワード「鬼滅の巨人」があり、これに対する誤記候補として、クエリ「撲滅の巨人」があるものとする。そして、
図4に示すように、かかるクエリ「撲滅の巨人」による検索要求数cが閾値Thを超えた状態を所定期間n以上継続し、検出部132がクエリ「撲滅の巨人」を新規ワードとして検出したとする。
【0058】
かかる場合、
図5に示すように、推定部133は、新規ワード「撲滅の巨人」の検出時点T1から逆時系列にユーザUごとの検索行動に関する特徴情報を解析する。特徴情報には上述した通り検索行動に際してのコンテキストが含まれており、推定部133は、かかるコンテキストに基づいて共通性あるユーザUをグルーピングする。
【0059】
ここで、同図に示すように、クエリ「撲滅の巨人」による検索行動は、逆時系列のある時点で、「〇〇高校女子G(グループ、以下同様)」、「○×大学男子G」…といった各グループにグルーピングされたものとする。
【0060】
そして、推定部133は、このようにグルーピングされたグループ同士につき、さらにコンテキストに共通性あるグループをグルーピングしてゆく。時を遡れば、消失するグループも無論存在する。推定部133は、このように逆時系列の解析処理を繰り返すことにより、最終的に残るいくつかのグループを絞り込む。
【0061】
すなわち、推定部133は、コンテキストに共通性あるユーザUをグルーピングし、グルーピングされたグループの中からさらに共通性あるグループ同士をグルーピングすることによって、新規ワードの起源に関わるグループを絞り込む。
【0062】
そして、同図に示すように、最終的にグループが「〇〇高校女子G」および「○×大学男子G」に絞り込まれた場合、推定部133は、これらグループの共通性あるコンテキストであり、両グループが参加していたと推定される「○月□日漫画イベント」を抽出する。参加していたことは、例えばコンテキストに含まれる位置情報等から推定可能である。
【0063】
そして、推定部133は、かかる「○月□日漫画イベント」を新規ワード「撲滅の巨人」の起源T0として推定する。なお、推定部133はさらに、ネットワークNを介して外部サーバからかかるイベントに関する情報を取得し、たとえば出品リストの中から、作品「撲滅の巨人」の出品の事実まで把握するようにしてもよい。
【0064】
このように、推定部133は、コンテキストに共通性あるユーザUをグルーピングし、グルーピングされたグループの中からさらに共通性あるグループ同士をグルーピングすることによって、新規ワードの起源に関わるグループを絞り込む。
【0065】
また、推定部133は、絞り込まれた新規ワードの起源に関わるグループのコンテキストの共通性に基づいて、新規ワードの起源を特定する。
【0066】
(処理部134について)
図3の説明に戻る。処理部134は、各種の処理を実行する。処理部134は、ユーザUが入力したクエリに基づく検索処理を実行する。処理部134は、ユーザUが入力したクエリを用いて検索処理を実行する。また、処理部134は、ユーザUへ提供するコンテンツを含む各種情報を生成する。
【0067】
また、処理部134は、ユーザUが入力した第1クエリとは異なる第2クエリを用いて検索処理を実行する。処理部134は、ユーザUが入力した第1クエリが第2クエリの誤記候補に含まれる場合、第1クエリを第2クエリへ変換する。そして、処理部134は、変換後の第2クエリを用いて検索処理を実行する。
【0068】
(提供部135について)
提供部135は、通信部110を介して、ユーザ端末10へ各種情報を送信する。提供部135は、ユーザUへ検索サービスを提供する。例えば、提供部135は、処理部134による検索処理の結果である検索結果をユーザ端末10へ送信する。また、提供部135は、処理部134により生成された各種情報をユーザ端末10へ送信する。また、提供部135は、推定部133によって推定された推定結果を情報処理装置100のオペレータ等へ提供する。
【0069】
〔4.情報処理装置100の処理手順〕
次に、実施形態に係る情報処理装置100が実行する処理手順について説明する。
図6は、実施形態に係る情報処理装置100が実行する処理手順を示すフローチャートである。
【0070】
図6に示すように、まず取得部131が、ユーザUによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザUの検索行動に関する履歴情報を取得する(ステップS101)。
【0071】
そして、検出部132が、履歴情報から抽出される検索行動の特徴情報の変化に基づいてクエリに関しての新規ワードを検出する(ステップS102)。
【0072】
そして、推定部133が、新規ワードの検出時点T1から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源T0を推定する(ステップS103)。そして、処理を終了する。
【0073】
〔5.ハードウェア構成〕
上述してきた実施形態に係る情報処理装置100やユーザ端末10は、例えば
図7に示すような構成のコンピュータ1000によって実現される。以下、情報処理装置100を例に挙げて説明する。
図7は、実施形態に係る情報処理装置100の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU(Central Processing Unit)1100、RAM(Random Access Memory)1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、およびメディアインターフェイス(I/F)1700を備える。
【0074】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0075】
HDD1400は、CPU1100によって実行されるプログラムおよび当該プログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、通信網500(
図2に示したネットワークNに対応)を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを、通信網500を介して他の機器へ送信する。
【0076】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、および、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを、入出力インターフェイス1600を介して出力装置へ出力する。
【0077】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、当該プログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0078】
例えば、コンピュータ1000が実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の各機能を実現する。また、HDD1400には、記憶部120内のデータが記憶される。コンピュータ1000のCPU1100は、これらのプログラムを、記録媒体1800から読み取って実行するが、他の例として、他の装置から、通信網500を介してこれらのプログラムを取得してもよい。
【0079】
〔6.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0080】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0081】
例えば、
図3に示した取得部131と提供部135とは、統合されてもよい。また、例えば、検出部132と推定部133とは、統合されてもよい。また、例えば、記憶部120に記憶される情報は、ネットワークNを介して、外部に備えられた所定の記憶装置に記憶されてもよい。
【0082】
また、上記実施形態では、情報処理装置100が、例えば、ユーザUによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザUの検索行動に関する履歴情報を取得する取得処理と、履歴情報から抽出される検索行動の特徴情報の変化に基づいてクエリに関しての新規ワードを検出する検出処理と、新規ワードの検出時点T1から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源T0を推定する推定処理と、を行う例を示した。しかし、上述した情報処理装置100は、取得処理を行う取得装置と、検出処理を行う検出装置と、推定処理を行う推定装置とが分離されてもよい。この場合、取得装置は、少なくとも取得部131を有する。検出装置は、少なくとも検出部132を有する。推定装置は、少なくとも推定部133を有する。そして、上記の情報処理装置100による処理は、取得装置と、検出装置と、推定装置との各装置を含む情報処理システム1によって実現される。
【0083】
また、上記実施形態では、推定部133は、検出部132によって検出された新規ワードの検出時点T1から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源T0を推定する例を挙げたが、その過程において次のような方法で有用な情報を得ることができる。
【0084】
例えば、起源T0へ遡るまでの途中経路を系統樹のような階層構造に見立て、各ノードにおけるクエリをベクトル化してクエリごとの有向成分を抽出したり、メタ情報化したりすることによって、クエリを取り扱う際に、より現実に沿ったクエリのモデリングなどを行うことが可能となる。
【0085】
また、上記実施形態では、検索行動のみに基づいて起源T0まで遡る例を挙げたが、これに限られるものではなく、その他のユーザUの行動、例えば買い物行動や、位置情報の変化を伴う移動行動などに基づいて、あるいはこれら他の行動を検索行動に加味して、起源T0まで遡るようにしてもよい。
【0086】
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0087】
〔7.効果〕
実施形態に係る情報処理装置100は、取得部131と、検出部132と、推定部133とを備える。取得部131は、ユーザUによって入力されたクエリによる検索要求に基づく検索結果が提供された場合のユーザUの検索行動に関する履歴情報を取得する。検出部132は、履歴情報から抽出される上記検索行動の特徴情報の変化に基づいてクエリに関しての新規ワードを検出する。推定部133は、新規ワードの検出時点T1から逆時系列に抽出される特徴情報の共通性に基づいて新規ワードの起源T0を推定する。
【0088】
したがって、実施形態に係る情報処理装置100によれば、クエリに関しての新規ワードの起源T0を推定することができる。また、起源T0を推定できることにより、ターゲティング等の各種分析や、「バズる」といった事象発生の分析等に活用することができる。
【0089】
また、推定部133は、上記検出時点から逆時系列に特徴情報の共通性を再帰的に絞り込むことによって、新規ワードの起源T0を推定する。
【0090】
したがって、実施形態に係る情報処理装置100によれば、上記検出時点から逆時系列に特徴情報の共通性を再帰的に絞り込むことにより、新規ワードの起源T0を推定することができる。
【0091】
また、推定部133は、特徴情報に含まれる上記検索行動に際してのコンテキストに基づいて特徴情報の共通性を推定する。
【0092】
したがって、実施形態に係る情報処理装置100によれば、特徴情報に含まれる上記検索行動に際してのコンテキストに基づいて、新規ワードの起源T0を推定することができる。
【0093】
また、推定部133は、コンテキストに共通性あるユーザUをグルーピングし、グルーピングされたグループの中からさらに共通性あるグループ同士をグルーピングすることによって、新規ワードの起源に関わるグループを絞り込む。
【0094】
したがって、実施形態に係る情報処理装置100によれば、コンテキストに共通性あるユーザUに基づいて、新規ワードの起源T0を推定することができる。
【0095】
また、推定部133は、絞り込まれた新規ワードの起源に関わるグループのコンテキストの共通性に基づいて、新規ワードの起源を特定する。
【0096】
したがって、実施形態に係る情報処理装置100によれば、新規ワードの起源に関わるグループのコンテキストの共通性に基づいて、新規ワードの起源T0を推定することができる。
【0097】
以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0098】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
【符号の説明】
【0099】
1 情報処理システム
10 ユーザ端末
100 情報処理装置
110 通信部
120 記憶部
121 履歴情報記憶部
122 特徴情報記憶部
123 推定情報記憶部
130 制御部
131 取得部
132 検出部
133 推定部
134 処理部
135 提供部