IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特開2024-31491情報処理装置、情報処理方法、及び、プログラム
<>
  • 特開-情報処理装置、情報処理方法、及び、プログラム 図1
  • 特開-情報処理装置、情報処理方法、及び、プログラム 図2
  • 特開-情報処理装置、情報処理方法、及び、プログラム 図3
  • 特開-情報処理装置、情報処理方法、及び、プログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024031491
(43)【公開日】2024-03-07
(54)【発明の名称】情報処理装置、情報処理方法、及び、プログラム
(51)【国際特許分類】
   G06Q 30/0601 20230101AFI20240229BHJP
【FI】
G06Q30/06 300
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022135069
(22)【出願日】2022-08-26
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100109313
【弁理士】
【氏名又は名称】机 昌彦
(74)【代理人】
【識別番号】100149618
【弁理士】
【氏名又は名称】北嶋 啓至
(72)【発明者】
【氏名】渡邉 倖平
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049BB22
(57)【要約】
【課題】 顧客の欲求をより適切に判定する。
【解決手段】 本発明の情報処理装置は、顧客が商品の検索に用いたキーワードと、キーワードと共に用いられたサジェストワードとを取得し、キーワード及びサジェストワードを用いて検索されたウェブページのデータを取得し、取得されたウェブページのデータに含まれる、キーワードと、キーワードに関連するサジェストワード候補とを抽出し、抽出されたキーワード及びサジェストワード候補において、適合率が第1閾値以上であるキーワード及びサジェストワード候補を判定し、適合率が第1閾値以上であると判定されたキーワード及びサジェストワード候補の中から、検索に用いられたキーワード及びサジェストワードとの整合性が第2閾値以上となる、キーワード及びサジェストワード候補を選択し、選択されたキーワード及びサジェストワード候補を出力する。
【選択図】 図1
【特許請求の範囲】
【請求項1】
顧客が商品の検索に用いたキーワードと、前記キーワードと共に用いられたサジェストワードとを取得するワード取得手段と、
前記キーワード及び前記サジェストワードを用いて検索されたウェブページのデータを取得するページデータ取得手段と、
取得された前記ウェブページのデータに含まれる、前記キーワードと、前記キーワードに関連するサジェストワード候補とを抽出するワード抽出手段と、
抽出された前記キーワード及び前記サジェストワード候補において、適合率が第1閾値以上である前記キーワード及び前記サジェストワード候補を判定する適合ワード判定手段と、
適合率が第1閾値以上であると判定された前記キーワード及び前記サジェストワード候補の中から、検索に用いられた前記キーワード及び前記サジェストワードとの整合性が第2閾値以上となる、前記キーワード及び前記サジェストワード候補を選択する整合ワード選択手段と、
選択された前記キーワード及び前記サジェストワード候補を出力するワード出力手段と
を含む情報処理装置。
【請求項2】
前記ワード抽出手段は、
前記ウェブページのデータに含まれるタグ情報、文字コンテンツ、及び、画像の少なくとも一つに基づいて、前記キーワード及び前記サジェストワード候補を抽出する
請求項1に記載の情報処理装置。
【請求項3】
前記ワード抽出手段は、前記キーワードとして商品を抽出し、前記サジェストワード候補として前記商品の属性を抽出する
請求項2に記載の情報処理装置。
【請求項4】
前記適合ワード判定手段は、画像に対する適合率に基づいて、前記キーワード及び前記サジェストワード候補を判定する
請求項1ないし3のいずれか1項に記載の情報処理装置。
【請求項5】
顧客が商品の検索に用いたキーワードと、前記キーワードと共に用いられたサジェストワードとを取得し、
前記キーワード及び前記サジェストワードを用いて検索されたウェブページのデータを取得し、
取得された前記ウェブページのデータに含まれる、前記キーワードと、前記キーワードに関連するサジェストワード候補とを抽出し、
抽出された前記キーワード及び前記サジェストワード候補において、適合率が第1閾値以上である前記キーワード及び前記サジェストワード候補を判定し、
適合率が第1閾値以上であると判定された前記キーワード及び前記サジェストワード候補の中から、検索に用いられた前記キーワード及び前記サジェストワードとの整合性が第2閾値以上となる、前記キーワード及び前記サジェストワード候補を選択し、
選択された前記キーワード及び前記サジェストワード候補を出力する
情報処理方法。
【請求項6】
顧客が商品の検索に用いたキーワードと、前記キーワードと共に用いられたサジェストワードとを取得する処理と、
前記キーワード及び前記サジェストワードを用いて検索されたウェブページのデータを取得する処理と、
取得された前記ウェブページのデータに含まれる、前記キーワードと、前記キーワードに関連するサジェストワード候補とを抽出する処理と、
判定された前記キーワード及び前記サジェストワード候補において、適合率が第1閾値以上である前記キーワード及び前記サジェストワード候補を判定する処理と、
適合率が第1閾値以上であると判定された前記キーワード及び前記サジェストワード候補の中から、検索に用いられた前記キーワード及び前記サジェストワードとの整合性が第2閾値以上となる、前記キーワード及び前記サジェストワード候補を選択する処理と、
選択された前記キーワード及び前記サジェストワード候補を出力する処理と
をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報の処理に関し、特に、顧客などが検索に用いたワードの処理に関する。
【背景技術】
【0002】
インターネットを利用した電子商取引(EC: Electronic Commerce)において商品を検索する場合、顧客は、検索用の入力欄に、商品の名称などを入力する。商品の名称などの入力の際に、特許文献1のように、入力した商品の名称に関連するサジェストワードが表示される。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開第2015/132970号
【発明の概要】
【発明が解決しようとする課題】
【0004】
検索に利用されたサジェストワードは、商品に対する顧客の欲求の判定に用いられている。しかし、顧客は、必ずしも、自分の欲求を明確に意識できているとは限らない。そのため、選択されたサジェストワードは、顧客の欲求を正確には反映していない場合がある。つまり、利用されたサジェストワードを用いた顧客の欲求の判定は、顧客の欲求を適切に反映していない場合がある。
【0005】
本発明の目的は、上記問題点を解決し、顧客の欲求をより適切に判定する情報処理装置などを提供することにある。
【課題を解決するための手段】
【0006】
本発明の一形態における情報処理装置は、顧客が商品の検索に用いたキーワードと、キーワードと共に用いられたサジェストワードとを取得するワード取得手段と、キーワード及びサジェストワードを用いて検索されたウェブページのデータを取得するページデータ取得手段と、取得されたウェブページのデータに含まれる、キーワードと、キーワードに関連するサジェストワード候補とを抽出するワード抽出手段と、抽出されたキーワード及びサジェストワード候補において、適合率が第1閾値以上であるキーワード及びサジェストワード候補を判定する適合ワード判定手段と、適合率が第1閾値以上であると判定されたキーワード及びサジェストワード候補の中から、検索に用いられたキーワード及びサジェストワードとの整合性が第2閾値以上となる、キーワード及びサジェストワード候補を選択する整合ワード選択手段と、選択されたキーワード及びサジェストワード候補を出力するワード出力手段とを含む。
【0007】
本発明の一形態における情報処理方法は、顧客が商品の検索に用いたキーワードと、キーワードと共に用いられたサジェストワードとを取得し、キーワード及びサジェストワードを用いて検索されたウェブページのデータを取得し、取得されたウェブページのデータに含まれる、キーワードと、キーワードに関連するサジェストワード候補とを抽出し、
抽出されたキーワード及びサジェストワード候補において、適合率が第1閾値以上であるキーワード及びサジェストワード候補を判定し、適合率が第1閾値以上であると判定されたキーワード及びサジェストワード候補の中から、検索に用いられたキーワード及びサジェストワードとの整合性が第2閾値以上となる、キーワード及びサジェストワード候補を選択し、選択されたキーワード及びサジェストワード候補を出力する。
【0008】
本発明の一形態におけるプログラムは、顧客が商品の検索に用いたキーワードと、キーワードと共に用いられたサジェストワードとを取得する処理と、キーワード及びサジェストワードを用いて検索されたウェブページのデータを取得する処理と、取得されたウェブページのデータに含まれる、キーワードと、キーワードに関連するサジェストワード候補とを抽出する処理と、判定されたキーワード及びサジェストワード候補において、適合率が第1閾値以上であるキーワード及びサジェストワード候補を判定する処理と、適合率が第1閾値以上であると判定されたキーワード及びサジェストワード候補の中から、検索に用いられたキーワード及びサジェストワードとの整合性が第2閾値以上となる、キーワード及びサジェストワード候補を選択する処理と、選択されたキーワード及びサジェストワード候補を出力する処理とをコンピュータに実行させる。
【発明の効果】
【0009】
本発明に基づけば、顧客の欲求をより適切に判定するとの効果を奏することができる。
【図面の簡単な説明】
【0010】
図1】本発明における第1実施形態にかかる情報処理装置の構成の一例を示すブロック図である。
図2】第1実施形態にかかる情報処理装置の動作の一例を示すフロー図である。
図3】ワード抽出部におけるキーワードとサジェストワード候補とを抽出する動作の一例を示すフロー図である。
図4】情報処理装置のハードウェア構成の一例を示すブロック図である。
【発明を実施するための形態】
【0011】
ECを利用して商品を購入する場合、顧客は、ECサイトの検索用の入力欄に、商品の名称などを入力する。以下、顧客が入力したワードを「キーワード」と呼ぶ。顧客がキーワードを入力すると、そのキーワードとの関連性が高いワードが表示される。以下、キーワードに関連するワードを「サジェストワード」と呼ぶ。顧客は、表示されたサジェストワードから、適切と判断したサジェストワードを選択して商品を検索する。なお、顧客は、サジェストワードを用いずに商品を検索する場合もある。
【0012】
しかし、顧客は、必ずしも自分の欲求を明確に把握できているわけではない。そのため、利用されたサジェストワードは、必ずしも、顧客の欲求を適切には反映していない場合がある。そこで、顧客が意識していない、又は、気づいていない意識・行動・動機(本音・本質)などの欲求をより適切に判定することが望まれている。
【0013】
以下で説明するように、各実施形態は、サジェストワードを用いて検索されたデータを用いて、より適切に顧客の欲求を判定する。なお、顧客又は消費者が意識していない、又は、気が付いていない、その人の意識・行動・動機(本音・本質)などの欲求のことを「顧客インサイト(customer insight)」又は「消費者インサイト(consumer insight)」と呼ぶ場合もある。つまり、各実施形態は、より適切に、顧客インサイトを判定する。
【0014】
<第1実施形態>
図1は、本発明における第1実施形態にかかる情報処理装置10の構成の一例を示すブロック図である。情報処理装置10は、ワード取得部110と、ページデータ取得部120と、ワード抽出部130と、適合ワード判定部140と、整合ワード選択部150と、ワード出力部160とを含む。
【0015】
ワード取得部110は、顧客が商品の検索に用いたキーワードと、キーワードと共に用いられたサジェストワードとを取得する。例えば、ワード取得部110は、顧客が利用したECサイトを運営するサーバから、キーワード及びサジェストワードを取得する。例えば、ワード取得部110は、キーワード及びサジェストワードとして、ECサイトを運営するサーバが取得したクッキー(cookie)情報を取得してもよい。具体的には、例えば、顧客が「シャツ」に関して検索した場合、ワード取得部110は、クッキー情報に含まれるキーワード「シャツ」と、「色」又は「スタイル」など「シャツ」と共に用いられたサジェストワードとを取得する。このように、キーワードは、「シャツ」のような商品の種別、又は、商品の名称など商品を示すワードであるが、これらに限られない。また、サジェストワードは、「色」、「柄」、「生地」、「袖の形状」、「襟の形状」、「スタイル」、「サイズ」、及び、「価格」などの商品の属性であるが、これらに限られない。ワード取得部110は、一つのキーワードに限られず、複数のキーワードと、キーワードそれぞれと共に用いられたサジェストワードとを取得してもよい。さらに、キーワードに関連するサジェストワードは、一つでもよいし、複数でもよい。
【0016】
ページデータ取得部120は、キーワード及びサジェストワードを用いて検索されたウェブページのデータを取得する。例えば、ページデータ取得部120は、ECサイトを運営するサーバにおいて検索されたウェブページのデータから、キーワード及びサジェストワードを用いて顧客が検索したウェブページのデータを取得する。なお、この場合、例えば、ページデータ取得部120は、ECサイトを運営するサーバから、キーワード及びサジェストワードを用いて顧客が検索したウェブページのデータを取得する。具体的には、例えば、顧客がキーワード及びサジェストワードを用いて「シャツ」を検索した場合、ページデータ取得部120は、検索結果である「シャツ」のウェブページのデータを取得する。
【0017】
ページデータ取得部120は、検索結果として、一回の検索におけるウェブページのデータを取得してもよいし、複数回の検索におけるウェブページのデータを取得してもよい。例えば、ページデータ取得部120は、顧客が複数回検索したウェブページのデータを取得してもよい。あるいは、ページデータ取得部120は、複数の顧客が検索した複数のウェブページのデータを取得してもよい。あるいは、ページデータ取得部120は、所定期間又は所定回数ごとに、検索された複数のウェブページのデータを取得してもよい。
【0018】
ワード抽出部130は、取得されたウェブページのデータに含まれるキーワードと、キーワードに関連するサジェストワード候補とを抽出する。さらに、ワード抽出部130は、抽出したキーワード及びサジェストワード候補についての適合率を算出する。例えば、ワード抽出部130は、ウェブページのデータに含まれる、タグ情報、文字コンテンツ、及び、画像の少ないとも一つを用いて、キーワード及びサジェストワード候補とを抽出し、それらの適合率を算出する。ワード抽出部130は、適合率として、キーワード及びサジェストワード候補それぞれ適合率を算出してもよいし、キーワード及びサジェストワード候補の組合せに対する適合率を算出してもよい。なお、ワード抽出部130は、キーワードとして、検索に用いられたキーワードに限られず、検索に用いられたキーワードの上位概念の語句又は類義語など他のキーワードを抽出してもよい。例えば、キーワード「シャツ」を用いて検索されている場合、ワード抽出部130は、キーワードとして「上着」などの上位概念の語句を抽出してもよい。なお、適合率とは、ウェブページのデータが、キーワード及びサジェストワード候補にどの程度関連するかを示す割合である。適合率の値が1(100%)に近いほど、そのウェブページのデータは、キーワード及びサジェストワード候補に対する関連性が高いこととなる。
【0019】
抽出についての具体例を説明する。例えば、ワード抽出部130は、タグ情報及び文字コンテンツの少なくとも一方に含まれるキーワードを抽出し、さらに、抽出されたキーワードの位置に用いた構文解析を用いて、サジェストワード候補を抽出してもよい。あるいは、ワード抽出部130は、テキスト分析を用いて、タグ情報及び文字コンテンツの少なくとも一方に含まれるキーワードとサジェストワード候補とを抽出してもよい。あるいは、ワード抽出部130は、予め生成した意味解析モジュールをタグ情報及び文字コンテンツの少なくとも一方に適用して、キーワード及びサジェストワード候補を抽出してもよい。
【0020】
あるいは、ワード抽出部130は、画像に対して所定の画像認識などを適用して、画像に含まれる物体及び属性を判定し、その物体の名称及び属性を、キーワード及びサジェストワード候補として抽出してもよい。より詳細には、例えば、ワード抽出部130は、物体認識を用いて画像に含まれる商品を判定し、商品の名称をキーワードとして抽出してもよい。さらに、ワード抽出部130は、物体認識を用いて、商品の色、柄、生地、袖の形状、襟の形状、及び、スタイルの少なくとも一つを含む商品の属性を判定し、判定した属性内容をサジェストワード候補として抽出してもよい。あるいは、ワード抽出部130は、文字認識を用いて画像に含まれる文字を解析して、商品の名称などキーワードと、サイズ又は価格などのサジェストワード候補とを抽出してもよい。ワード抽出部130は、商品などの判定において、所定の機械学習又は人工知能の技術を用いて生成した判定モデルを用いてもよい。
【0021】
ワード抽出部130は、複数の判定対象に基づく判定の結果を統合して、キーワード及びサジェストワード候補を抽出してもよい。例えば、ワード抽出部130は、画像を用いて抽出した商品及び属性と、タグ情報又は文字コンテンツを用いて抽出した商品及び属性との両方を用いて、キーワード及びサジェストワード候補を抽出してもよい。あるいは、ワード抽出部130は、タグ情報を用いた抽出結果と、文字コンテンツを用いた抽出結果と、画像を用いた抽出結果とを統合してもよい。
【0022】
商品のウェブページには、検索に用いられたサジェストワードに加え、キーワードに関連する他のサジェストワードが含まれている場合が多い。そのため、ワード抽出部130は、検索されたウェブページのデータにおいて、サジェストワード候補として、検索に用いられたサジェストワードに加え、キーワードに関連する他のサジェストワードを抽出できる。このように抽出されたサジェストワードは、顧客インサイトに関連するサジェストワード候補となる。
【0023】
適合ワード判定部140は、適合率が高いキーワード及びサジェストワード候補を判定する。例えば、適合ワード判定部140は、抽出されたキーワード及びサジェストワード候補において、適合率が閾値以上であるキーワード及びサジェストワード候補を判定する。以下、説明の便宜のため、適合率の閾値を「第1閾値」と呼ぶ。適合率が、キーワード及びサジェストワード候補それぞれに対して算出されている場合、適合ワード判定部140は、第1閾値として、キーワード及びサジェストワード候補それぞれの適合率に対して同じ値を用いてもよいし、異なる値を用いてもよい。
【0024】
一般的に、ECのサイトは、各種の検索エンジンから検索されやすいようにするため、検索エンジン最適化(SEO: Search Engine Optimization)を実施している。そのため、通常の検索結果のウェブページには、検索に用いられたキーワード及びサジェストワードに関連しないウェブページが含まれている。ただし、そのようなSEOの技術の結果として検索されたウェブページのデータにおいて、キーワード及びサジェストワード候補の適合率は、低いと想定される。そこで、適合ワード判定部140は、キーワード及びサジェストワード候補の判定における適合率を用いて、実体的な内容としてキーワード及びサジェストワードを含んでいるウェブページにおける、キーワードとサジェストワード候補とを判定する。
【0025】
なお、SEOを実施する場合、タグ情報及び文字コンテンツに対して実施される場合が多い。一方、画像に対するSEOの実施は、難しい。そこで、例えば、ワード抽出部130は、タグ情報及び文字コンテンツを用いずに、画像を用いてキーワード及びサジェストワード候補を抽出し、それらの適合率を算出してもよい。あるいは、適合ワード判定部140は、画像に対する適合率に基づいて、キーワード及びサジェストワード候補を判定してもよい。例えば、適合ワード判定部140は、画像を用いて抽出されたキーワード及びサジェストワード候補の中から、適合率が高いキーワード及びサジェストワード候補を判定してもよい。あるいは、適合ワード判定部140は、画像とタグ情報と文字コンテンツとを統合した適合率の判定において、画像に対する重みを大きくした加重平均を用いてもよい。
【0026】
整合ワード選択部150は、検索に用いられたキーワード及びサジェストワードとの整合性が高い、キーワード及びサジェストワード候補を選択する。例えば、整合ワード選択部150は、適合率が第1閾値以上であると判定されたキーワード及びサジェストワード候補の中から、検索に用いられたキーワード及びサジェストワードとの整合性が閾値以上となる、キーワード及びサジェストワード候補を選択する。以下、説明の便宜のため、整合性の閾値を「第2閾値」と呼ぶ。整合ワード選択部150は、第2閾値として、キーワード及びサジェストワード候補それぞれに対して同じ値を用いてもよいし、異なる値を用いてもよい。なお、整合性とは、「キーワード及びサジェストワード」と「キーワード及びサジェストワード候補」との一致の程度を示す値である。
【0027】
検索結果のウェブページに含まれるキーワード及びサジェストワードには、検索に用いられたキーワード及びサジェストワードとあまり整合しないキーワード及びサジェストワード候補が含まれる場合がある。例えば、キーワード「シャツ」を用いて検索されている場合、キーワード「ポロシャツ」及び「ワイシャツ」は、同じ上着でも「ブレザー」及び「ブルゾン」などと比較して、整合性が高い。あるいは、サジェストワード「緑」を用いて検索されている場合、例えば、サジェストワード候補「黄緑」及び「青緑」などの色に関連するワードは、襟に関連するワードである「ボタンダウン」及び「バンドカラー」と比較して、整合性が高い。整合性が高いワードは、顧客インサイトに関連する可能性が高い。そこで、整合ワード選択部150は、検索に用いられたキーワード及びサジェストワードとの整合性に基づいて、適切なキーワード及びサジェストワード候補を選択する。
【0028】
整合ワード選択部150は、整合性判定方法として、任意の方法を用いてもよい。例えば、整合ワード選択部150は、テキスト分析を用いてもよい。あるいは、整合ワード選択部150は、テキスト分析に限られず、例えば、ハッシュコードを用いた判定、又は、スクリプト言語における整合性判定関数など他の方法を用いてもよい。
【0029】
整合ワード選択部150は、整合性を判定する方法として、「赤」に対する「朱」又は「紅」のような直接的に関連するワードについての整合性を高いと判定する方法に限られず、間接的に関連するワードの整合性を高いと判定する方法を用いてもよい。直接的及び間接的な整合性の一例として、色の例を用いて説明する。例えば、サジェストワードが「赤」の場合、整合ワード選択部150は、直接的な判定として、赤色の種類である「朱」、「紅」及び「薔薇色」などの整合性を高いと判定してもよい。なお、この場合、整合ワード選択部150は、異なる色である「白」又は「グレー」などの色に関連するワードに加え、色とは異なるワードの整合性を低いと判定してもよい。ただし、例えば、「赤」は、「シャツ」の色として、派手な色である。一方、「白」及び「グレー」は、「シャツ」の色として、地味な色である。そこで、例えば、キーワード「シャツ」及びサジェストワード「赤」が用いられた場合、整合ワード選択部150は、サジェストワード候補として、赤色の種類に加え、間接的に関連する「派手な色」又は「目立つ色」などを整合性が高いと判定してもよい。なお、この場合、整合ワード選択部150は、「白」及び「グレー」などに加え、「地味な色」及び「控えめ色」などを整合性が低いと判定してもよい。整合ワード選択部150は、これらの判定のための辞書を備えていてもよい。
【0030】
顧客は、明確には、顧客インサイトを意識していない。そのため、顧客は、検索において、顧客インサイトに対応したサジェストワードを用いるとは限らない。しかし、顧客は、明確には意識していなくても、具体的な行動において、自覚していない欲求、つまり、顧客インサイトに沿った行動をとる傾向がある。そのため、顧客の複数の検索結果は、顧客インサイトに関連したサジェストワードを用いた検索を含む可能性が高い。つまり、複数の検索結果において、「検索に用いられたキーワード及びサジェストワード」との整合性が高い「キーワード及びサジェストワード候補」は、顧客インサイトに関連する可能性が高い。
【0031】
そのため、整合ワード選択部150は、複数のウェブページから抽出されたキーワード及びサジェストワード候補の中から、キーワード及びサジェストワード候補を選択することが望ましい。例えば、整合ワード選択部150は、所定期間に検索された複数のウェブページのデータから抽出されたキーワード及びサジェストワード候補の中から、整合性が第2閾値以上となるキーワード及びサジェストワード候補を選択してもよい。あるいは、整合ワード選択部150は、所定数又は所定量のウェブページのデータから抽出されたキーワード及びサジェストワード候補の中から、整合性が第2閾値以上となるキーワード及びサジェストワード候補を選択してもよい。なお、ページデータ取得部120は、複数のウェブページのデータとして、整合ワード選択部150における処理単位となる複数のウェブページのデータを取得してもよい。この場合、整合ワード選択部150は、ページデータ取得部120が取得した複数のウェブページのデータごとに動作してもよい。
【0032】
さらに、色などの属性は、より詳細な複数の種類の属性を含む場合がある。例えば、緑色は、深緑、黄緑、及び、青緑など、複数の種類の色を含む。あるいは、襟は、「ボタンダウン」及び「バンドカラー」など、複数の襟の種類を含む。そこで、例えば、整合ワード選択部150は、サジェストワード候補として、複数のウェブページのデータに含まれる属性の種類の中から、数の多い詳細な属性を選択してもよい。例えば、サジェストワードとして「緑」が用いられ、サジェストワード候補として「黄緑」、「深緑」、及び、「青緑」が選択されとする。さらに、それぞれワードの数が、「10」、「60」、及び、「20」であるとする。この場合、整合ワード選択部150は、サジェストワード候補として、「深緑」を選択してもよい。このように、整合ワード選択部150は、複数のウェブページのデータを用いて、より詳細なサジェストワード候補を選択してもよい。
【0033】
ワード出力部160は、選択されたキーワード及びサジェストワード候補を出力する。例えば、ワード出力部160は、顧客が利用したECサイトを運営するサーバに、キーワード及びサジェストワード候補を出力する。ワード出力部160は、キーワードに対するサジェストワード候補として、複数のサジェストワード候補を出力してもよい。ワード出力部160は、キーワードとサジェストワード候補との加え、それらの適合率及び整合性の少なくとも一方を出力してもよい。
【0034】
上記のように選択及び出力されたキーワード及びサジェストワード候補は、検索されたウェブページとの適合率が高い。さらに、選択及び出力されたキーワード及びサジェストワード候補は、検索に用いられたキーワード及びサジェストワードとの整合性が高い。そのため、選択されたキーワード及びサジェストワード候補は、顧客インサイトなど、顧客の検索における欲求を反映したものである可能性が高い。そのため、例えば、ワード出力部160が、ECサイトを運営するサーバに、キーワード及びサジェストワード候補を出力する場合、ECサイトの運営者は、取得したキーワード及びサジェストワード候補を参照して、品揃えなどを決定すればよい。このように、情報処理装置10は、顧客の欲求をより適切に判定した結果として、選択されたキーワード及びサジェストワード候補を出力する。
【0035】
次に、第1実施形態にかかる情報処理装置10の動作について、図面を参照して説明する。図2は、第1実施形態にかかる情報処理装置10の動作の一例を示すフロー図である。ワード取得部110は、顧客が商品の検索に用いたキーワードと、キーワードと共に用いられたサジェストワードとを取得する(ステップS301)。ページデータ取得部120は、キーワード及びサジェストワードを用いて検索されたウェブページのデータを取得する(ステップS302)。ワード抽出部130は、取得されたウェブページのデータに含まれるキーワードと、キーワードに関連するサジェストワード候補とを抽出し、それらの適合率を算出する(ステップS303)。ステップS303の動作については、後ほどさらに説明する。
【0036】
適合ワード判定部140は、抽出されたキーワード及びサジェストワード候補の中から、適合率が高いキーワード及びサジェストワード候補を判定する(ステップS304)。具体的には、適合ワード判定部140は、抽出されたキーワード及びサジェストワード候補において、適合率が第1閾値以上であるキーワード及びサジェストワード候補を判定する。ページデータ取得部120が複数のウェブページのデータを取得している場合、情報処理装置10は、全てのウェブページのデータを処理するまで、ステップS303からS304の動作を繰り返す(ステップS305)。
【0037】
整合ワード選択部150は、適合率が高いと判定されたキーワード及びサジェストワード候補の中から、整合性が高いキーワード及びサジェストワード候補を選択する(ステップS306)。具体的には、整合ワード選択部150は、適合率が高いキーワード及びサジェストワード候補の中から、検索に用いられたキーワード及びサジェストワードとの整合性が第2閾値以上となる、キーワード及びサジェストワード候補を選択する。ワード出力部160は、選択されたキーワード及びサジェストワード候補を出力する(ステップS307)。上記の動作に基づいて、情報処理装置10は、顧客の欲求をより適切に判定した結果として、キーワード及びサジェストワード候補を出力する。
【0038】
図3は、ワード抽出部130におけるキーワードとサジェストワード候補とを抽出する動作の一例を示すフロー図である。ワード抽出部130は、ウェブページのデータからタグ情報を取得する(ステップS331)。そして、ワード抽出部130は、テキスト分析又は構文解析などを用いて、タグ情報に含まれるキーワードと、サジェストワード候補とを抽出し、さらにそれらの適合率を算出する(ステップS332)。ワード抽出部130は、ウェブページのデータから文字コンテンツを取得する(ステップS333)。そして、ワード抽出部130は、テキスト分析又は構文解析などを用いて、文字コンテンツに含まれるキーワードと、サジェストワード候補とを抽出し、さらにそれらの適合率を算出する(ステップS334)。
【0039】
ワード抽出部130は、ウェブページのデータから画像を取得する(ステップS335)。そして、ワード抽出部130は、画像に対して所定の画像認識を適用して、画像に基づいて、キーワードと、サジェストワード候補とを抽出し、さらにそれらの適合率を算出する(ステップS336)。そして、ワード抽出部130は、上記の抽出結果を統合して、ウェブページのデータに対応する、キーワードと、サジェストワード候補と、それらの適合率とを出力する(ステップS337)。このように、ワード抽出部130は、文字を用いた判定と、画像を用いた判定とを組み合わせてキーワードとサジェストワード候補とを抽出してもよい。
【0040】
[ハードウェア構成]
次に、情報処理装置10のハードウェア構成について説明する。情報処理装置10の各構成部は、ハードウェア回路で構成されてもよい。あるいは、情報処理装置10において、各構成部は、ネットワークを介して接続した複数の装置を用いて、構成されてもよい。例えば、情報処理装置10は、クラウドコンピューティングを利用して構成されてもよい。あるいは、情報処理装置10において、複数の構成部は、1つのハードウェアで構成されてもよい。
【0041】
あるいは、情報処理装置10は、中央処理装置(CPU: Central Processing Unit)を含むコンピュータ装置として実現されてもよい。より具体的には、情報処理装置10は、CPUと、読み取り専用メモリ(ROM: Read Only Memory)と、ランダム・アクセス・メモリ(RAM: Random Access Memory)と、ネットワークインターフェースカード(NIC: Network Interface Card)又はネットワークインターフェース機器を含むコンピュータ装置として実現されてもよい。図4は、情報処理装置10のハードウェア構成の一例であるコンピュータ装置600の構成を示すブロック図である。コンピュータ装置600は、CPU610と、ROM620と、RAM630と、記憶装置640と、NIC650とを含む。
【0042】
CPU610は、ROM620及び記憶装置640の少なくとも一方からプログラムを読み込む。そして、CPU610は、読み込んだプログラムに基づいて、RAM630と、記憶装置640と、NIC650とを制御する。そして、CPU610は、これらの構成を制御し、ワード取得部110と、ページデータ取得部120と、ワード抽出部130と、適合ワード判定部140と、整合ワード選択部150と、ワード出力部160としての各機能を実現する。
【0043】
CPU610は、コンピュータで読み取り可能にプログラムを記憶した記録媒体690が含むプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。あるいは、CPU610は、NIC650を介して、図示しない外部の装置からプログラムを受け取り、RAM630又は記憶装置640に保存して、保存したプログラムを基に動作してもよい。CPU610は、各機能を実現する際に、RAM630又は記憶装置640を、プログラム及びデータの一時的な記憶媒体として使用してもよい。
【0044】
ROM620は、CPU610が実行するプログラム及び固定的なデータを記憶する。ROM620は、例えば、プログラマブルROM(P-ROM: Programmable-ROM)又はフラッシュROMである。RAM630は、CPU610が実行するプログラム及びデータを一時的に記憶する。RAM630は、例えば、ダイナミックRAM(D-RAM: Dynamic-RAM)である。記憶装置640は、コンピュータ装置600が長期的に保存するデータ及びプログラムを記憶する。また、記憶装置640は、CPU610の一時記憶装置として動作してもよい。記憶装置640は、例えば、ハードディスク装置、光磁気ディスク装置、ソリッド・ステート・ドライブ(SSD: Solid State Drive)又はディスクアレイ装置である。
【0045】
ROM620及び記憶装置640は、不揮発性(non-transitory)の記録媒体である。一方、RAM630は、揮発性(transitory)の記録媒体である。そして、CPU610は、ROM620、記憶装置640、又は、RAM630に記憶されているプログラムを基に動作可能である。つまり、CPU610は、不揮発性記録媒体及び揮発性記録媒体のどちらを用いても動作可能である。
【0046】
NIC650は、ネットワークを介した図示しない外部の装置とのデータのやり取りを中継する。NIC650は、例えば、ローカル・エリア・ネットワーク(LAN: Local Area Network)カード又はハブである。さらに、NIC650は、有線に限らず、無線を用いてもよい。
【0047】
このように構成されたコンピュータ装置600は、情報処理装置10における各構成の動作を実行して、情報処理装置10としての機能を実現する。
【0048】
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成及び詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0049】
10 情報処理装置
110 ワード取得部
120 ページデータ取得部
130 ワード抽出部
140 適合ワード判定部
150 整合ワード選択部
160 ワード出力部
600 コンピュータ装置
610 CPU
620 ROM
630 RAM
640 記憶装置
650 NIC
690 記録媒体
図1
図2
図3
図4