IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特開2024-74178情報処理装置、情報処理方法及び情報処理プログラム
<>
  • 特開-情報処理装置、情報処理方法及び情報処理プログラム 図1
  • 特開-情報処理装置、情報処理方法及び情報処理プログラム 図2
  • 特開-情報処理装置、情報処理方法及び情報処理プログラム 図3
  • 特開-情報処理装置、情報処理方法及び情報処理プログラム 図4
  • 特開-情報処理装置、情報処理方法及び情報処理プログラム 図5
  • 特開-情報処理装置、情報処理方法及び情報処理プログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024074178
(43)【公開日】2024-05-30
(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
   G06F 16/9032 20190101AFI20240523BHJP
【FI】
G06F16/9032
【審査請求】未請求
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2022185304
(22)【出願日】2022-11-18
(71)【出願人】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】吉成 望
(72)【発明者】
【氏名】鍜治 伸裕
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175GA01
5B175GB03
5B175GC01
(57)【要約】
【課題】検索クエリの適切なスペース区切りの位置を特定する。
【解決手段】本願に係る情報処理装置は、利用者が入力した検索クエリに含まれるスペース区切りを削除することで、当該検索クエリが示す文字列を生成する生成部と、生成部により生成された文字列に基づいて、検索クエリを分類する分類部と、同一のグループに分類された各検索クエリが入力された回数に基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定する特定部とを有することを特徴とする。
【選択図】図2
【特許請求の範囲】
【請求項1】
利用者が入力した検索クエリに含まれるスペース区切りを削除することで、当該検索クエリが示す文字列を生成する生成部と、
前記生成部により生成された文字列に基づいて、前記検索クエリを分類する分類部と、
同一のグループに分類された各検索クエリが入力された回数に基づいて、当該各検索クエリから生成された前記文字列におけるスペース区切りの位置を特定する特定部と
を有することを特徴とする情報処理装置。
【請求項2】
前記特定部は、
同一のグループに分類された各検索クエリが入力された割合であって、同一のグループ内での割合に基づいて、当該各検索クエリから生成された前記文字列におけるスペース区切りの位置を特定する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記特定部は、
同一のグループに分類された各検索クエリを入力したブラウザの数に基づいて、当該各検索クエリから生成された前記文字列におけるスペース区切りの位置を特定する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記特定部は、
さらに、同一のグループに分類された各検索クエリによる検索結果を示すコンテンツが選択された回数に基づいて、当該各検索クエリから生成された前記文字列におけるスペース区切りの位置を特定する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記特定部は、
さらに、同一のグループに分類された各検索クエリに対応する広告コンテンツのコンバージョンの回数に基づいて、当該各検索クエリから生成された前記文字列におけるスペース区切りの位置を特定する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項6】
前記特定部は、
同一のグループに分類された各検索クエリのうち、入力された回数が最も多い検索クエリのスペース区切りの位置に基づいて、当該各検索クエリから生成された前記文字列におけるスペース区切りの位置を特定する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項7】
前記特定部は、
同一のグループに分類された各検索クエリのうち、入力された回数が所定の閾値以上である検索クエリが複数存在する場合、入力された回数が所定の閾値以上である検索クエリのうち、スペース区切りの数が最も多い検索クエリに基づいて、当該各検索クエリから生成された前記文字列におけるスペース区切りの位置を特定する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項8】
前記特定部は、
同一のグループに分類された各検索クエリのうち、入力された回数が所定の閾値以上である検索クエリが複数存在する場合、入力された回数が所定の閾値以上である検索クエリのうち、スペース区切りの数が最も少ない検索クエリに基づいて、当該各検索クエリから生成された前記文字列におけるスペース区切りの位置を特定する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項9】
前記特定部は、
同一のグループに分類された各検索クエリのうち、入力された回数が所定の閾値以上である検索クエリが複数存在する場合、入力された回数が所定の閾値以上である検索クエリのうち、スペースにより区切られた各部分文字列が入力された回数に基づき抽出される検索クエリに基づいて、当該各検索クエリから生成された前記文字列におけるスペース区切りの位置を特定する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項10】
前記分類部は、
一の前記検索クエリが複数のグループに分類可能である場合、一の前記検索クエリが入力された回数と、当該複数のグループに分類される各検索クエリが入力された回数とに基づいて、一の前記検索クエリを分類する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項11】
前記特定部により特定された前記文字列におけるスペース区切りの位置に基づいて、文字列が入力された場合に、スペースにより区切られた文字列を出力するモデルの学習を行う第1学習部
をさらに有することを特徴とする請求項1に記載の情報処理装置。
【請求項12】
前記第1学習部は、
さらに、前記モデルにより出力された文字列を用いた検索結果に関する情報に基づいて、前記モデルの学習を行う
ことを特徴とする請求項11に記載の情報処理装置。
【請求項13】
前記特定部により特定された前記文字列におけるスペース区切りの位置に基づいて、文字列が入力された場合に、スペース区切りを削除した文字列を出力するモデルの学習を行う第2学習部
をさらに有することを特徴とする請求項1に記載の情報処理装置。
【請求項14】
前記第2学習部は、
さらに、前記モデルにより出力された文字列を用いた検索結果に関する情報に基づいて、前記モデルの学習を行う
ことを特徴とする請求項13に記載の情報処理装置。
【請求項15】
前記生成部は、
さらに、検索クエリに含まれる所定の文字を削除することで、当該検索クエリが示す文字列を生成する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項16】
コンピュータが実行する情報処理方法であって、
利用者が入力した検索クエリに含まれるスペース区切りを削除することで、当該検索クエリが示す文字列を生成する生成工程と、
前記生成工程により生成された文字列に基づいて、前記検索クエリを分類する分類工程と、
同一のグループに分類された各検索クエリが入力された回数に基づいて、当該各検索クエリから生成された前記文字列におけるスペース区切りの位置を特定する特定工程と
を含むことを特徴とする情報処理方法。
【請求項17】
利用者が入力した検索クエリに含まれるスペース区切りを削除することで、当該検索クエリが示す文字列を生成する生成手順と、
前記生成手順により生成された文字列に基づいて、前記検索クエリを分類する分類手順と、
同一のグループに分類された各検索クエリが入力された回数に基づいて、当該各検索クエリから生成された前記文字列におけるスペース区切りの位置を特定する特定手順と
をコンピュータに実行させるための情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
従来、インターネット検索等を行う際に、ユーザが入力した文字列である検索クエリに関する支援を行うための技術が知られている。このような技術の一例として、入力された検索クエリが、誤記として入力され得る文字列に該当する場合に、当該誤記として入力され得る文字列に対応付けられている文字列に変換し、変換した後の文字列を検索クエリとして情報を検索する技術が提供されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第6529456号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述した技術では、検索クエリの適切なスペース区切りの位置を特定できるとは言えない場合がある。
【0005】
例えば、上述した技術では、誤記の文字列を、対応する正規の文字列に変換しているに過ぎず、検索クエリの適切なスペース区切りの位置を特定できるとは言えない。
【0006】
本願は、上記に鑑みてなされたものであって、検索クエリの適切なスペース区切りの位置を特定することを目的とする。
【課題を解決するための手段】
【0007】
本願に係る情報処理装置は、利用者が入力した検索クエリに含まれるスペース区切りを削除することで、当該検索クエリが示す文字列を生成する生成部と、前記生成部により生成された文字列に基づいて、前記検索クエリを分類する分類部と、同一のグループに分類された各検索クエリが入力された回数に基づいて、当該各検索クエリから生成された前記文字列におけるスペース区切りの位置を特定する特定部とを有することを特徴とする。
【発明の効果】
【0008】
実施形態の一態様によれば、検索クエリの適切なスペース区切りの位置を特定することができるという効果を奏する。
【図面の簡単な説明】
【0009】
図1図1は、実施形態に係る情報処理の一例を示す図である。
図2図2は、実施形態に係る情報処理装置10の構成例を示す図である。
図3図3は、実施形態に係る検索クエリ情報データベース31の一例を示す図である。
図4図4は、実施形態に係るグループ情報データベース32の一例を示す図である。
図5図5は、実施形態に係る情報処理の手順の一例を示すフローチャートである。
図6図6は、情報処理装置10の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0010】
以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の実施形態において、同一の部位には同一の符号を付し、重複する説明は省略される。
【0011】
〔1.実施形態〕
図1を用いて、本実施形態の情報処理装置等により実現される情報処理を説明する。図1は、実施形態に係る情報処理の一例を示す図である。なお、図1では、本願に係る情報処理装置の一例である情報処理装置10によって、実施形態に係る情報処理などが実現されるものとする。
【0012】
図1に示すように、実施形態に係る情報処理システム1は、情報処理装置10と、利用者端末100とを含む。情報処理装置10及び利用者端末100は、ネットワークN(例えば、図2参照)を介して有線または無線により相互に通信可能に接続される。ネットワークNは、例えば、インターネットなどのWAN(Wide Area Network)である。なお、図1に示した情報処理システム1には、複数台の情報処理装置10及び複数台の利用者端末100が含まれていてもよい。
【0013】
図1に示す情報処理装置10は、情報処理を行う情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、情報処理装置10は、検索サービスを提供し、利用者が検索サービスにおいて入力した検索クエリの履歴を示す情報を自装置の記憶部で管理する。そして、情報処理装置10は、検索クエリの履歴に基づいて、検索クエリの適切なスペース区切りの位置を特定する。
【0014】
なお、情報処理装置10が提供するサービスは、例えば、検索サービスや、ショッピングサービス、決済サービス、路線検索サービス、地図提供サービス、旅行サービス、飲食店紹介サービス、天気予報サービス、スケジュール管理サービス、ニュース提供サービス、オークションサービス、動画コンテンツ配信サービス、金融取引(株取引等)サービスなどのサービスであってもよい。
【0015】
ここで、従来、利用者が検索サービス等において検索クエリを入力する際、利用者の入力ミス等により、検索クエリにスペース区切りが入力されない場合や、検索クエリを音声入力で行ったことにより、スペース区切りが入力されない場合がある。このような場合、形態素解析技術を用いることにより、利用者が入力した検索クエリに対しスペース区切りを自動的に入力する方法が考えられる。しかしながら、このような方法を用いると、例えば、検索クエリに、最近新たに生じた固有名詞(例えば、漫画や映画、楽曲などのコンテンツの名称)が含まれる場合、固有名詞が過剰に区切られてしまう場合がある。
【0016】
そこで、本実施形態の情報処理装置等は、検索クエリの適切なスペース区切りの位置を特定することを目的として、以下の情報処理を実行する。
【0017】
図1に示す利用者端末100は、利用者によって利用される情報処理装置である。利用者端末100は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。なお、図1に示す例において、利用者端末100は、利用者によって利用されるスマートフォンである場合を示す。
【0018】
以下、図1を用いて、情報処理装置10が行う情報処理の一例について説明する。なお、以下の説明において、利用者端末100を利用する利用者に応じて、利用者端末100を利用者端末100-1~100-N(Nは任意の自然数)として説明する。例えば、利用者端末100-1は、利用者ID「UID#1」により識別される利用者(利用者U1)により使用される利用者端末100である。また、以下では、利用者端末100-1~100-Nについて、特に区別なく説明する場合には、利用者端末100と記載する。また、以下の説明では、利用者端末100を利用者と同一視する場合がある。すなわち、以下では、利用者U1を利用者端末100-1と読み替えることもできる。
【0019】
まず、情報処理装置10は、利用者が検索サービスにおいて入力した検索クエリが示す文字列を生成する(ステップS1)。例えば、情報処理装置10は、検索クエリに含まれるスペース区切りを削除することにより、文字列を生成する。
【0020】
具体的な例を挙げると、情報処理装置10は、検索クエリ「AA BB CC」において、「AA」及び「BB」の間に存在するスペース区切り、並びに、「BB」及び「CC」の間に存在するスペース区切りを削除することにより、検索クエリ「AA BB CC」から文字列「AABBCC」を生成する。また、検索クエリ「AA BBCC」において、「AA」及び「BBCC」の間に存在するスペース区切りを削除することにより、検索クエリ「AA BBCC」から文字列「AABBCC」を生成する。なお、検索クエリ「AABBCC」にはスペース区切りが存在しないため、情報処理装置10は、検索クエリ「AABBCC」をそのまま示す文字列「AABBCC」を生成する。
【0021】
続いて、情報処理装置10は、検索クエリから生成した文字列に基づいて、検索クエリを分類する(ステップS2)。例えば、情報処理装置10は、スペース区切りを削除した後の文字列が一致する検索クエリを、同一のグループに分類する。具体的な例を挙げると、情報処理装置10は、検索クエリ「AABBCC」、「AA BB CC」及び「AA BBCC」のそれぞれから生成された文字列が「AABBCC」であるため、これらの検索クエリをグループ#1に分類する。また情報処理装置10は、検索クエリ「DDEEFF」、「DDEE FF」及び「DD EE FF」のそれぞれから生成された文字列が「DDEEFF」であるため、これらの検索クエリをグループ#2に分類する。
【0022】
続いて、情報処理装置10は、同一のグループに分類された各検索クエリのうち、検索サービスにおける利用者の入力回数が最も多い検索クエリに基づいて、文字列のスペース区切りの位置を特定する(ステップS3)。例えば、情報処理装置10は、グループ#1において、検索クエリ「AA BB CC」の入力回数が最も多いため、文字列「AABBCC」の適切なスペース区切りの位置が、「AA」及び「BB」の間、並びに、「BB」及び「CC」の間であると特定する。
【0023】
また、例えば、情報処理装置10は、グループ#2において、検索クエリ「DDEE FF」の入力回数が最も多いため、文字列「DDEEFF」の適切なスペース区切りの位置が、「DDEE」及び「FF」の間であると特定する。
【0024】
続いて、情報処理装置10は、ステップS3において特定された文字列におけるスペース区切りの位置に基づいて、文字列が入力された場合に、スペース区切りを追加、若しくは、スペース区切りを削除した文字列を出力するモデルの学習を行う(ステップS4)。例えば、情報処理装置10は、検索サービスにおいて利用者が入力した検索クエリが入力された場合に、当該検索クエリにスペース区切りを追加、若しくは、当該検索クエリに存在するスペース区切りを削除した文字列を出力するモデルの学習を行う。
【0025】
なお、情報処理装置10は、モデルの生成及び学習は、機械学習に関する種々の従来技術を適宜用いて行われてもよい。例えば、モデルの生成は、SVM(Support Vector Machine)等の教師あり学習の機械学習に関する技術を用いて行われてもよい。また、モデルの生成は、教師なし学習の機械学習に関する技術を用いて行われてもよい。また、モデルの生成は、深層学習(ディープラーニング)の技術を用いて行われてもよい。また、モデルの生成は、DNN(Deep Neural Network)やRNN(Recurrent Neural Network)やCNN(Convolutional Neural Network)等の種々のディープラーニングの技術を適宜用いて行われてもよい。なお、上記モデルの生成及び学習に関する記載は例示であり、モデルの生成は、取得可能な情報等に応じて適宜選択された学習手法により行われてもよい。
【0026】
続いて、情報処理装置10は、検索サービスにおいて利用者が入力した検索クエリを利用者端末100から受け付ける(ステップS5)。続いて、情報処理装置10は、ステップS3において特定したスペース区切りの位置や、ステップS4において学習を行ったモデルを用いて、利用者が入力した検索クエリを編集し、編集した検索クエリに基づく検索結果を利用者端末100に提供する(ステップS6)。例えば、利用者U1が検索クエリ「AA BBCC」を入力した場合(言い換えると、スペース区切りを削除した場合に、グループ#1に分類される検索クエリを入力した場合)、情報処理装置10は、当該検索クエリを「AA BB CC」と編集し、編集後の検索クエリに基づく検索結果を提供する。また、利用者U2が検索クエリ「DD EE FF」を入力した場合(言い換えると、スペース区切りを削除した場合に、グループ#2に分類される検索クエリを入力した場合)、情報処理装置10は、当該検索クエリを「DDEE FF」と編集し、編集後の検索クエリに基づく検索結果を提供する。
【0027】
また、適切なスペース区切りの位置が特定されていない文字列「GGHHII」を示す検索クエリ(例えば、「GG HHII」)を利用者U3が入力した場合、情報処理装置10は、当該検索クエリをモデルに入力し、出力された文字列「GGHH II」に基づく検索結果を提供する。
【0028】
続いて、情報処理装置10は、検索結果を提供した後の利用者の行動に関する行動情報を利用者端末100から取得する(ステップS7)。例えば、情報処理装置10は、モデルから出力された文字列「GGHH II」に基づく検索結果を提供した利用者U3の行動情報を、利用者端末100-3から取得する。具体的な例を挙げると、情報処理装置10は、「GGHH II」に基づく検索結果として提供されたコンテンツを利用者U3が選択したか否かを示す行動情報を取得する。
【0029】
続いて、情報処理装置10は、利用者の行動情報に基づいて、モデルの再学習を行う(ステップS8)。例えば、情報処理装置10は、利用者U3の行動情報が、「GGHH II」に基づく検索結果として提供されたコンテンツを、利用者U3が選択したことを示す場合、情報処理装置10は、文字列「GGHHII」を編集した文字列「GGHH II」を正例としてモデルの学習を行う。また、利用者U3の行動情報が、「GGHH II」に基づく検索結果として提供されたコンテンツを、利用者U3が選択しなかったことを示す場合、情報処理装置10は、文字列「GGHHII」を編集した文字列「GGHH II」を負例としてモデルの学習を行う。
【0030】
以上のように、実施形態に係る情報処理装置10は、同一のグループに分類された各検索クエリのうち、利用者により最も多く入力された検索クエリに基づき、当該各検索クエリが示す文字列における、スペース区切りの位置を特定する。すなわち、実施形態に係る情報処理装置10は、検索クエリの適切なスペース区切りの位置を特定することができる。
【0031】
〔2.その他の処理例〕
なお、上述した処理は一例に過ぎず、情報処理装置10は、様々な情報を用いて様々な処理を行ってもよい。この点について、以下例示を列挙する。
【0032】
〔2-1.スペース区切りの特定について〕
図1の例において、情報処理装置10は、グループ内において、各検索クエリが入力された割合を算出し、割合が最も多い検索クエリのスペース区切りの位置に基づき、文字列の適切なスペース区切りの位置を特定してもよい。
【0033】
また、情報処理装置10は、同一のグループに分類された各検索クエリのうち、入力を行ったユニークユーザの数が最も多い検索クエリに基づいて、文字列のスペース区切りの位置を特定してもよい。
【0034】
また、情報処理装置10は、同一のグループに分類された各検索クエリのうち、入力が行われたユニークブラウザの数が最も多い検索クエリに基づいて、文字列のスペース区切りの位置を特定してもよい。
【0035】
また、情報処理装置10は、同一のグループに分類された各検索クエリによる検索結果を示すコンテンツが選択された回数に基づいて、文字列におけるスペース区切りの位置を特定してもよい。例えば、情報処理装置10は、同一のグループに分類された検索クエリのうち、検索結果として利用者に提供されたコンテンツが選択された回数(CTR(Click Through Rate)等)が最も多い検索クエリに基づいて、文字列のスペース区切りの位置を特定する。
【0036】
また、情報処理装置10は、同一のグループに分類された各検索クエリに対応する広告コンテンツのコンバージョンの回数に基づいて、文字列におけるスペース区切りの位置を特定してもよい。例えば、情報処理装置10は、同一のグループに分類された検索クエリのうち、検索結果として利用者に提供された広告コンテンツが選択された回数(CVR(Conversion Rate)等)が最も多い検索クエリに基づいて、文字列のスペース区切りの位置を特定する。
【0037】
なお、情報処理装置10は、上記の処理を複数組み合わせ、文字列の適切なスペース区切りの位置を特定してもよい。例えば、情報処理装置10は、同一のグループに分類された各検索クエリが入力された回数や、グループ内における各検索クエリが入力された割合、各検索クエリの入力を行ったユニークユーザの数、各検索クエリの入力が行われたユニークブラウザの数、各検索クエリによる検索結果を示すコンテンツが選択された回数、各検索クエリに対応する広告コンテンツのコンバージョンの回数などに基づいて、文字列の適切なスペース区切りの位置を特定してもよい。
【0038】
〔2-2.所定の閾値以上に入力された検索クエリが複数存在する場合について〕
図1の例において、情報処理装置10は、同一のグループに分類された各検索クエリのうち、入力回数が所定の閾値以上である検索クエリが複数存在する場合(言い換えると、同程度に利用者から多く入力された検索クエリが複数存在する場合)、スペース区切りの数が最も多い検索クエリに基づいて、文字列におけるスペース区切りの位置を特定してもよい。例えば、入力回数の閾値が「100」と設定されている場合、グループ#2では、検索クエリ「DDEE FF」及び「DD EE FF」が該当する。このような場合、情報処理装置10は、スペース区切りの位置が最も多い検索クエリ「DD EE FF」に基づき、文字列「DDEEFF」のスペース区切りの位置を特定する。
【0039】
なお、情報処理装置10は、同一のグループに分類された各検索クエリのうち、入力回数が所定の閾値以上である検索クエリが複数存在する場合、スペース区切りの数が最も少ない検索クエリに基づいて、文字列におけるスペース区切りの位置を特定してもよい。例えば、情報処理装置10は、検索クエリ「DDEE FF」及び「DD EE FF」のうち、スペース区切りの位置が最も少ない検索クエリ「DDEE FF」に基づき、文字列「DDEEFF」のスペース区切りの位置を特定する。
【0040】
情報処理装置10は、同一のグループに分類された各検索クエリのうち、入力回数が所定の閾値以上である検索クエリが複数存在する場合、スペースにより区切られた各部分文字列が入力された回数に基づき抽出される検索クエリに基づいて、文字列におけるスペース区切りの位置を特定してもよい。例えば、情報処理装置10は、検索クエリ「DDEE FF」及び「DD EE FF」に含まれる部分検索クエリ「DD」、「EE」及び「DDEE」(言い換えると、検索クエリ「DDEE FF」及び「DD EE FF」とで、スペース区切りの位置が異なる部分に対応する部分検索クエリ)の入力回数をそれぞれ集計する。そして、部分検索クエリ「DD」、「EE」の各入力回数よりも、部分検索クエリ「DDEE」の入力回数の方が多い場合、情報処理装置10は、検索クエリ「DDEE FF」に基づき、文字列「DDEEFF」のスペース区切りの位置を特定する。一方、部分検索クエリ「DD」、「EE」のうち、いずれかの入力回数が、部分検索クエリ「DDEE」の入力回数よりも多い場合、情報処理装置10は、検索クエリ「DD EE FF」に基づき、文字列「DDEEFF」のスペース区切りの位置を特定する。
【0041】
〔2-3.一の検索クエリ(単一の検索クエリ)が複数のグループに分類可能な場合について〕
図1の例において、情報処理装置10は、一の検索クエリが複数のグループに分類可能である場合、一の検索クエリが入力された回数と、複数のグループに分類される各検索クエリが入力された回数とに基づいて、一の検索クエリを分類してもよい。例えば、シソーラスを用いて、検索クエリの一部を同義語や類義語に変換した場合に、一の検索クエリが複数のグループに分類可能である場合、情報処理装置10は、分類可能なグループのうち、分類されている検索クエリの入力回数(例えば、入力回数の平均値)と、当該一の検索クエリの入力回数との差異が所定の閾値未満であるグループに、当該一の検索クエリを分類する。また、一の検索クエリが複数のグループに分類可能である場合、情報処理装置10は、分類可能なグループのうち、分類されている検索クエリの入力回数と、当該一の検索クエリの入力回数との差異が所定の閾値以上であるグループに、当該一の検索クエリを分類する。
【0042】
〔2-4.モデルについて〕
図1の例において、情報処理装置10は、文字列が入力された場合に、スペースにより区切られた文字列を出力するモデル(以下、「モデル#1」と記載する場合がある)と、文字列が入力された場合に、スペース区切りを削除した文字列を出力するモデル(以下、「モデル#2」と記載する場合がある)とを個別に生成し、学習を行ってもよい。
【0043】
なお、情報処理装置10は、モデル#1及び#2とで、それぞれ異なる学習用のデータを用いて学習を行ってもよい。例えば、情報処理装置10は、同一のグループに分類された各検索クエリの入力回数に基づいて特定した文字列のスペース区切りの位置(言い換えると、検索クエリの入力回数を指標として特定した文字列のスペース区切りの位置)と、当該文字列とを示す情報を用いてモデル#1の学習を行う。そして、情報処理装置10は、モデル#1の学習に用いた情報とは異なる指標(例えば、CTRや、CVR)を用いて特定した文字列のスペース区切りの位置と、当該文字列とを示す情報を用いて、モデル#2の学習を行う。
【0044】
また、情報処理装置10は、モデル#1に用いたものとは異なる手法により特定された文字列のスペース区切りの位置と、当該文字列とを示す情報を用いてモデル#2の学習を行う。具体的な例を挙げると、情報処理装置10は、同一のグループに分類された検索クエリのうち、検索結果として利用者に提供されたコンテンツが選択された回数が最も多い検索クエリに基づいて特定した文字列のスペース区切りの位置と、当該文字列を示す情報を用いてモデル#2の学習を行う。また、情報処理装置10は、同一のグループに分類された各検索クエリに対応する広告コンテンツのコンバージョンの回数に基づいて特定した文字列のスペース区切りの位置と、当該文字列を示す情報を用いてモデル#2の学習を行う。
【0045】
〔2-5.所定の文字を削除した文字列の生成について〕
図1の例において、情報処理装置10は、スペース区切り以外に、検索クエリに含まれる所定の文字を削除することにより、文字列を生成してもよい。例えば、情報処理装置10は、スペース区切りと、スペースで区切られた部分検索クエリの長音符とを削除することで、検索クエリが示す文字列を生成する。具体的な例を挙げると、情報処理装置10は、検索クエリ「チェリー ジュース 旬」や、「チェリージュース 旬」から、スペース区切りと、単語「チェリー」の語末の長音符等を削除することにより、文字列「チェリジュース旬」を生成する。
【0046】
なお、情報処理装置10は、検索クエリに含まれるスペース区切りに加え、検索クエリに含まれる長音符を削除した場合に、検索クエリを所定のグループに分類することが可能である場合に、検索クエリの長音符を削除してもよい。例えば、検索クエリ「チェリージュース 旬」に含まれる単語「チェリー」の語末の長音符等を削除することにより、当該検索クエリを、文字列「チェリジュース旬」のグループに分類可能である場合、情報処理装置10は、単語「チェリー」の語末の長音符を削除する。
【0047】
また、情報処理装置10は、検索クエリに含まれるスペース区切りに加え、検索クエリに含まれる長音符をすべて削除し、文字列を生成してもよい。例えば、検索クエリ「チェリー ジュース 旬」から、スペース区切りと、長音符とを削除し、文字列「チェリジュス旬」を生成してもよい。また、情報処理装置10は、スペース区切りを残し、文字列「チェリ ジュス 旬」を生成してもよい。
【0048】
〔3.情報処理装置の構成〕
次に、図2を用いて、情報処理装置10の構成について説明する。図2は、実施形態に係る情報処理装置10の構成例を示す図である。図2に示すように、情報処理装置10は、通信部20と、記憶部30と、制御部40とを有する。
【0049】
(通信部20について)
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、利用者端末100等との間で情報の送受信を行う。
【0050】
(記憶部30について)
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図2に示すように、記憶部30は、検索クエリ情報データベース31と、グループ情報データベース32と、モデルデータベース33とを有する。
【0051】
(検索クエリ情報データベース31について)
検索クエリ情報データベース31は、利用者に入力された検索クエリに関する各種の情報を記憶する。ここで、図3を用いて、検索クエリ情報データベース31が記憶する情報の一例を説明する。図3は、実施形態に係る検索クエリ情報データベース31の一例を示す図である。図3の例において、検索クエリ情報データベース31は、「検索クエリID」、「グループID」、「検索クエリ」、「文字列」、「入力回数」、「検索結果情報」、「コンバージョン情報」といった項目を有する。
【0052】
「検索クエリID」は、検索クエリを識別するための識別情報を示す。「グループID」は、グループを識別するための識別情報を示す。「検索クエリ」は、検索クエリを示す情報(テキスト情報等)を示す。「文字列」は、検索クエリから生成された文字列を示す。「入力回数」は、検索クエリが入力された回数を示す。「検索結果情報」は、検索クエリが入力された際の検索結果に関する情報を示し、例えば、検索結果として入力されたコンテンツが選択された回数などを示す情報などが格納される。「コンバージョン情報」は、検索クエリに対応する広告コンテンツのコンバージョンに関する情報を示す。
【0053】
すなわち、図3では、検索クエリID「QID#1」により識別される検索クエリが、グループID「GID#1」により識別されるグループに分類された、当該検索クエリが「検索クエリ#1」であり、文字列が「文字列#1」、入力回数が「入力回数#1」、検索結果情報が「検索結果情報#1」、コンバージョン情報が「コンバージョン情報#1」である例を示す。
【0054】
なお、検索クエリ情報データベース31が記憶する情報は上記のものに限定されず、各種の情報を記憶してよい、例えば、検索クエリ情報データベース31は、検索クエリの入力を行ったユニークユーザの数や、検索クエリの入力が行われたユニークブラウザの数などを示す情報を記憶してもよい。
【0055】
(グループ情報データベース32について)
グループ情報データベース32は、検索クエリが分類されるグループに関する各種の情報を記憶する。ここで、図4を用いて、グループ情報データベース32が記憶する情報の一例を説明する。図4は、実施形態に係るグループ情報データベース32の一例を示す図である。図4の例において、グループ情報データベース32は、「グループID」、「検索クエリ情報」、「文字列」、「スペース区切り情報」といった項目を有する。
【0056】
「グループID」は、グループを識別するための識別情報を示す。「検索クエリ情報」は、グループに含まれる検索クエリに関する情報(検索クエリID等)を示す。「文字列」は、グループに分類された検索クエリから生成された文字列を示す。「スペース区切り情報」は、文字列のスペース区切りの位置を示す。
【0057】
すなわち、図4では、グループID「GID#1」により期別されるグループの検索クエリ情報が「検索クエリ情報#1」、文字列が「文字列#1」、スペース区切り情報が「スペース区切り情報#1」である例を示す。
【0058】
(モデルデータベース33について)
モデルデータベース33は、文字列が入力された場合に、スペース区切りを追加、若しくは、スペース区切りを削除した文字列を出力するモデルを記憶する。
【0059】
(制御部40について)
制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置10内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部40は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。実施形態に係る制御部40は、図3に示すように、生成部41と、分類部42と、特定部43と、学習部44とを有し、以下に説明する情報処理の機能や作用を実現または実行する。
【0060】
(生成部41について)
生成部41は、利用者が入力した検索クエリに含まれるスペース区切りを削除することで、当該検索クエリが示す文字列を生成する。例えば、図1の例において、生成部41は、検索クエリ「AA BB CC」において、「AA」及び「BB」の間に存在するスペース区切り、並びに、「BB」及び「CC」の間に存在するスペース区切りを削除することにより、検索クエリ「AA BB CC」から文字列「AABBCC」を生成し、検索クエリ情報データベース31に格納する。
【0061】
また、生成部41は、さらに、検索クエリに含まれる所定の文字を削除することで、当該検索クエリが示す文字列を生成してもよい。例えば、図1の例において、生成部41は、スペース区切りと、スペースで区切られた部分検索クエリの語末の長音符とを削除することで、検索クエリが示す文字列を生成する。
【0062】
(分類部42について)
分類部42は、生成部41により生成された文字列に基づいて、検索クエリを分類する。例えば、図1の例において、分類部42は、検索クエリ「AABBCC」、「AA BB CC」及び「AA BBCC」のそれぞれから生成された文字列が「AABBCC」であるため、これらの検索クエリをグループ#1に分類する。具体的な例を挙げると、分類部42は、検索クエリ「AABBCC」、「AA BB CC」及び「AA BBCC」を、グループ#1に対応付けてグループ情報データベース32に格納する。
【0063】
また、分類部42は、一の検索クエリが複数のグループに分類可能である場合、一の検索クエリが入力された回数と、当該複数のグループに分類される各検索クエリが入力された回数とに基づいて、一の検索クエリを分類してもよい。例えば、図1の例において、シソーラスを用いて、検索クエリの一部を同義語や類義語に変換した場合に、一の検索クエリが複数のグループに分類可能である場合、分類部42は、分類可能なグループのうち、分類されている検索クエリの入力回数と、当該一の検索クエリの入力回数との差異が所定の閾値未満であるグループに、当該一の検索クエリを分類する。また、一の検索クエリが複数のグループに分類可能である場合、分類部42は、分類可能なグループのうち、分類されている検索クエリの入力回数と、当該一の検索クエリの入力回数との差異が所定の閾値以上であるグループに、当該一の検索クエリを分類する。
【0064】
(特定部43について)
特定部43は、同一のグループに分類された各検索クエリが入力された回数に基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定する。例えば、図1の例において、特定部43は、グループ#1において、検索クエリ「AA BB CC」の入力回数が最も多いため、文字列「AABBCC」の適切なスペース区切りの位置が、「AA」及び「BB」の間、並びに、「BB」及び「CC」の間であると特定する。
【0065】
また、特定部43は、同一のグループに分類された各検索クエリが入力された割合であって、同一のグループ内での割合に基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定してもよい。例えば、図1の例において、特定部43は、グループ内において、各検索クエリが入力された割合を算出し、割合が最も多い検索クエリのスペース区切りの位置に基づき、文字列の適切なスペース区切りの位置を特定する。
【0066】
また、特定部43は、同一のグループに分類された各検索クエリを入力したブラウザの数に基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定してもよい。例えば、図1の例において、特定部43は、同一のグループに分類された各検索クエリのうち、入力が行われたユニークブラウザの数が最も多い検索クエリに基づいて、文字列のスペース区切りの位置を特定する。
【0067】
また、特定部43は、さらに、同一のグループに分類された各検索クエリによる検索結果を示すコンテンツが選択された回数に基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定してもよい。例えば、図1の例において、特定部43は、同一のグループに分類された検索クエリのうち、検索結果として利用者に提供されたコンテンツが選択された回数が最も多い検索クエリに基づいて、文字列のスペース区切りの位置を特定する。
【0068】
また、特定部43は、さらに、同一のグループに分類された各検索クエリに対応する広告コンテンツのコンバージョンの回数に基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定してもよい。例えば、図1の例において、特定部43は、同一のグループに分類された検索クエリのうち、検索結果として利用者に提供された広告コンテンツが選択された回数が最も多い検索クエリに基づいて、文字列のスペース区切りの位置を特定する。
【0069】
また、特定部43は、同一のグループに分類された各検索クエリのうち、入力された回数が最も多い検索クエリのスペース区切りの位置に基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定してもよい。例えば、図1の例において、特定部43は、グループ#1において、検索クエリ「AA BB CC」の入力回数が最も多いため、文字列「AABBCC」の適切なスペース区切りの位置が、「AA」及び「BB」の間、並びに、「BB」及び「CC」の間であると特定する。
【0070】
また、特定部43は、同一のグループに分類された各検索クエリのうち、入力された回数が所定の閾値以上である検索クエリが複数存在する場合、入力された回数が所定の閾値以上である検索クエリのうち、スペース区切りの数が最も多い検索クエリに基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定してもよい。例えば、図1の例において、入力回数の閾値が「100」と設定されている場合、グループ#2では、検索クエリ「DDEE FF」及び「DD EE FF」が該当する。このような場合、特定部43は、スペース区切りの位置が最も多い検索クエリ「DD EE FF」に基づき、文字列「DDEEFF」のスペース区切りの位置を特定する。
【0071】
また、特定部43は、同一のグループに分類された各検索クエリのうち、入力された回数が所定の閾値以上である検索クエリが複数存在する場合、入力された回数が所定の閾値以上である検索クエリのうち、スペース区切りの数が最も少ない検索クエリに基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定してもよい。例えば、図1の例において、入力回数の閾値が「100」と設定されている場合、グループ#2では、検索クエリ「DDEE FF」及び「DD EE FF」が該当する。このような場合、特定部43は、検索クエリ「DDEE FF」及び「DD EE FF」のうち、スペース区切りの位置が最も少ない検索クエリ「DDEE FF」に基づき、文字列「DDEEFF」のスペース区切りの位置を特定する。
【0072】
また、特定部43は、同一のグループに分類された各検索クエリのうち、入力された回数が所定の閾値以上である検索クエリが複数存在する場合、入力された回数が所定の閾値以上である検索クエリのうち、スペースにより区切られた各部分文字列が入力された回数に基づき抽出される検索クエリに基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定してもよい。例えば、図1の例において、入力回数の閾値が「100」と設定されている場合、グループ#2では、検索クエリ「DDEE FF」及び「DD EE FF」が該当する。このような場合、特定部43は、検索クエリ「DDEE FF」及び「DD EE FF」に含まれる部分検索クエリ「DD」、「EE」及び「DDEE」の入力回数をそれぞれ集計する。そして、部分検索クエリ「DD」、「EE」の各入力回数よりも、部分検索クエリ「DDEE」の入力回数の方が多い場合、情報処理装置10は、検索クエリ「DDEE FF」に基づき、文字列「DDEEFF」のスペース区切りの位置を特定する。一方、部分検索クエリ「DD」、「EE」のうち、いずれかの入力回数が、部分検索クエリ「DDEE」の入力回数よりも多い場合、情報処理装置10は、検索クエリ「DD EE FF」に基づき、文字列「DDEEFF」のスペース区切りの位置を特定する。
【0073】
(学習部44について)
学習部44は、特定部43により特定された文字列におけるスペース区切りの位置に基づいて、文字列が入力された場合に、スペースにより区切られた文字列を出力するモデルの学習を行う。例えば、図1の例において、学習部44は、文字列が入力された場合に、スペースにより区切られた文字列を出力するモデルの学習を行う。
【0074】
また、学習部44は、さらに、モデルにより出力された文字列を用いた検索結果に関する情報に基づいて、モデルの学習を行ってもよい。例えば、図1の例において、学習部44は、利用者U3の行動情報が、「GGHH II」に基づく検索結果として提供されたコンテンツを、利用者U3が選択したことを示す場合、学習部44は、文字列「GGHHII」を編集した文字列「GGHH II」を正例としてモデルの学習を行う。また、利用者U3の行動情報が、「GGHH II」に基づく検索結果として提供されたコンテンツを、利用者U3が選択しなかったことを示す場合、学習部44は、文字列「GGHHII」を編集した文字列「GGHH II」を負例としてモデルの学習を行う。
【0075】
また、学習部44は、特定部43により特定された文字列におけるスペース区切りの位置に基づいて、文字列が入力された場合に、スペース区切りを削除した文字列を出力するモデルの学習を行ってもよい。例えば、図1の例において、学習部44は、文字列が入力された場合に、スペース区切りを削除した文字列を出力するモデルの学習を行う。
【0076】
〔4.情報処理のフロー〕
図5を用いて、実施形態に係る情報処理装置10の情報処理の手順について説明する。図5は、実施形態に係る情報処理の手順の一例を示すフローチャートである。
【0077】
図5に示すように、情報処理装置10は、利用者が入力した検索クエリに含まれるスペース区切りを削除することで、当該検索クエリが示す文字列を生成する(ステップS101)。続いて、情報処理装置10は、生成された文字列に基づいて、検索クエリを分類する(ステップS102)。続いて、情報処理装置10は、同一のグループに分類された各検索クエリが入力された回数に基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定する(ステップS103)。続いて、情報処理装置10は、利用者から検索クエリを受け付けたか否かを判定する(ステップS104)。検索クエリを受け付けていない場合(ステップS104;No)、情報処理装置10は、検索クエリを受け付けるまで待機する。
【0078】
一方、検索クエリを受け付けた場合(ステップS104;Yes)、特定したスペース区切りの位置と、受け付けた検索クエリとに基づき、検索結果を提供し(ステップS105)、処理を終了する。
【0079】
〔5.変形例〕
上述の実施形態は一例を示したものであり、種々の変更及び応用が可能である。
【0080】
〔5-1.検索クエリが入力された期間について〕
上述の実施形態において、情報処理装置10は、利用者が所定の期間(例えば、直近1か月や、直近6か月など)に入力した検索クエリを用いて、上述の処理を実行してもよい。なお、利用者が所定の期間において入力した検索クエリの量が、所定の量に達しない場合、情報処理装置10は、利用者が入力した検索クエリの量が所定の量に達するように、期間を延長(例えば、直近1か月から直近3か月に延長、直近6か月から直近1年に延長など)してもよい。
【0081】
〔5-2.文字列の生成について〕
情報処理装置10が検索クエリから文字列を生成する手法は、上述したものに限定されず、任意のものが用いられてよい。例えば、文字列「BBCCAA」のグループが存在する場合、情報処理装置10は、検索クエリ「AA BB CC」からスペース区切りを削除するとともに、部分検索クエリの順番を変更し、当該検索クエリから文字列「BBCCAA」を生成してもよい。
【0082】
〔5-3.処理態様について〕
上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文章中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0083】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0084】
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0085】
なお、情報処理装置10は、スペル訂正を行うモデルを構築するために、上述した処理を各種他の処理と組みあわせて実施してもよい。例えば、情報処理装置10は、訂正前文字列として「しょっぷYY港町」と訂正後文字列として「ショップYY港町」といったスペル訂正データを取得する。かかる処理は、例えば、入力された検索クエリのログと、あらかじめ作成されたデータベースとを比較し、異なる文字の数、発音、入力時に隣接するキーボードの数等が所定の閾値以上類似する文字列のペアを、訂正前文字列および訂正後文字列として抽出することにより取得される。情報処理装置10は、このようなスペル訂正データに対して、上述したモデルによりスペース区切りを追加する。例えば、情報処理装置10は、スペル訂正データの訂正後文字列「ショップYY港町」を「ショップYY 港町」というデータに変換し、「しょっぷYY港町」を「ショップYY 港町」といった文字列に訂正する訂正モデルを学習してもよい。すなわち、情報処理装置10は、生成したモデルを用いて、訂正モデルの学習に用いる訂正後文字列にスペース区切りを入力し、訂正前文字列から訂正後文字列に訂正を行う訂正モデルを生成してもよい。
【0086】
〔6.効果〕
上述してきたように、実施形態に係る情報処理装置10は、生成部41と、分類部42と、特定部43と、学習部44とを有する。生成部41は、利用者が入力した検索クエリに含まれるスペース区切りを削除することで、当該検索クエリが示す文字列を生成する。また、生成部41は、さらに、検索クエリに含まれる所定の文字を削除することで、当該検索クエリが示す文字列を生成する。分類部42は、生成部41により生成された文字列に基づいて、検索クエリを分類する。また、分類部42は、一の検索クエリが複数のグループに分類可能である場合、一の検索クエリが入力された回数と、当該複数のグループに分類される各検索クエリが入力された回数とに基づいて、一の検索クエリを分類する。特定部43は、同一のグループに分類された各検索クエリが入力された回数に基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定する。また、特定部43は、同一のグループに分類された各検索クエリのうち、入力された回数が最も多い検索クエリのスペース区切りの位置に基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定する。学習部44は、特定部43により特定された文字列におけるスペース区切りの位置に基づいて、文字列が入力された場合に、スペースにより区切られた文字列を出力するモデルの学習を行う。また、学習部44は、特定部43により特定された文字列におけるスペース区切りの位置に基づいて、文字列が入力された場合に、スペース区切りを削除した文字列を出力するモデルの学習を行う。また、学習部44は、さらに、モデルにより出力された文字列を用いた検索結果に関する情報に基づいて、モデルの学習を行う。
【0087】
これにより、実施形態に係る情報処理装置10は、同一のグループに分類された各検索クエリのうち、利用者により最も多く入力された検索クエリに基づき、当該各検索クエリが示す文字列における、スペース区切りの位置を特定することができるため、検索クエリの適切なスペース区切りの位置を特定することができる。
【0088】
また、実施形態に係る情報処理装置10において、例えば、特定部43は、同一のグループに分類された各検索クエリが入力された割合であって、同一のグループ内での割合に基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定する。また、特定部43は、同一のグループに分類された各検索クエリを入力したブラウザの数に基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定する。また、特定部43は、さらに、同一のグループに分類された各検索クエリによる検索結果を示すコンテンツが選択された回数に基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定する。また、特定部43は、さらに、同一のグループに分類された各検索クエリに対応する広告コンテンツのコンバージョンの回数に基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定する。また、特定部43は、同一のグループに分類された各検索クエリのうち、入力された回数が所定の閾値以上である検索クエリが複数存在する場合、入力された回数が所定の閾値以上である検索クエリのうち、スペース区切りの数が最も多い検索クエリに基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定する。また、特定部43は、同一のグループに分類された各検索クエリのうち、入力された回数が所定の閾値以上である検索クエリが複数存在する場合、入力された回数が所定の閾値以上である検索クエリのうち、スペース区切りの数が最も少ない検索クエリに基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定する。また、特定部43は、同一のグループに分類された各検索クエリのうち、入力された回数が所定の閾値以上である検索クエリが複数存在する場合、入力された回数が所定の閾値以上である検索クエリのうち、スペースにより区切られた各部分文字列が入力された回数に基づき抽出される検索クエリに基づいて、当該各検索クエリから生成された文字列におけるスペース区切りの位置を特定する。
【0089】
これにより、実施形態に係る情報処理装置10は、各種の指標を用いて、検索クエリのスペース区切りの位置を特定することができるため、スペース区切りの位置の特定の精度を向上させることができる。
【0090】
〔7.ハードウェア構成〕
また、上述してきた各実施形態に係る情報処理装置10は、例えば、図6に示すような構成のコンピュータ1000によって実現される。以下、情報処理装置10を例に挙げて説明する。図6は、情報処理装置10の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、ROM1200、RAM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
【0091】
CPU1100は、ROM1200又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1200は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0092】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス1500は、通信網500(実施形態のネットワークNに対応する)を介して他の機器からデータを受信してCPU1100へ送り、また、通信網500を介してCPU1100が生成したデータを他の機器へ送信する。
【0093】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して生成したデータを出力装置へ出力する。
【0094】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラム又はデータを読み取り、RAM1300を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1300上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0095】
例えば、コンピュータ1000が情報処理装置10として機能する場合、コンピュータ1000のCPU1100は、RAM1300上にロードされたプログラムを実行することにより、制御部40の機能を実現する。また、HDD1400には、情報処理装置10の記憶装置内の各データが格納される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
【0096】
〔8.その他〕
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0097】
また、上述した情報処理装置10は、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。
【0098】
また、特許請求の範囲に記載した「部」は、「手段」や「回路」などに読み替えることができる。例えば、生成部は、生成手段や生成回路に読み替えることができる。
【符号の説明】
【0099】
10 情報処理装置
20 通信部
30 記憶部
31 検索クエリ情報データベース
32 グループ情報データベース
33 モデルデータベース
40 制御部
41 生成部
42 分類部
43 特定部
44 学習部
100 利用者端末
図1
図2
図3
図4
図5
図6