(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6879958
(24)【登録日】2021年5月7日
(45)【発行日】2021年6月2日
(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム
(51)【国際特許分類】
G06F 16/38 20190101AFI20210524BHJP
G06F 16/30 20190101ALI20210524BHJP
【FI】
G06F16/38
G06F16/30
【請求項の数】13
【全頁数】12
(21)【出願番号】特願2018-21601(P2018-21601)
(22)【出願日】2018年2月9日
(65)【公開番号】特開2019-139464(P2019-139464A)
(43)【公開日】2019年8月22日
【審査請求日】2020年3月6日
(73)【特許権者】
【識別番号】319013263
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100181124
【弁理士】
【氏名又は名称】沖田 壮男
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】長利 健治
【審査官】
吉田 誠
(56)【参考文献】
【文献】
特開2006−189980(JP,A)
【文献】
米国特許第09378191(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
(57)【特許請求の範囲】
【請求項1】
第1テキストと第2テキストを含む評価対象のコンテンツにおいて、前記第2テキストに含まれるキーワードが、前記第1テキストに含まれるか否かに基づいて、前記評価対象のコンテンツを評価する評価部と、
複数のコンテンツをサンプルとし、前記第1テキストと第2テキストとをそれぞれ分割することで得られるキーワードが、同じコンテンツにおいて前記第1テキストと前記第2テキストとの双方に含まれる確率を導出する導出部と、を備え、
前記評価部は、前記導出部により導出された確率が基準よりも高いキーワードを処理対象とする、
情報処理装置。
【請求項2】
前記評価部は、前記評価対象のコンテンツに含まれるキーワードが前記第1テキストに含まれず且つ前記第2テキストに含まれる度合いに基づいて、前記評価対象のコンテンツを評価する、
請求項1記載の情報処理装置。
【請求項3】
前記評価部は、前記評価対象のコンテンツにおいて、前記導出部により導出された確率が基準よりも高く、且つ前記第1テキストに含まれず前記第2テキストに含まれるキーワードの数に基づいて、前記評価対象のコンテンツを評価する、
請求項1または2記載の情報処理装置。
【請求項4】
前記評価部は、前記評価対象のコンテンツを評価した後、予め定められた所定のキーワードが前記第1テキストに含まれず前記第2テキストに含まれるキーワードとしてカウントされた場合において、前記所定のキーワードに対応する他の表現によるキーワードが前記第1テキストに含まれる場合、前記第1テキストに含まれず前記第2テキストに含まれるキーワードの数を減ずる補正を行う、
請求項3記載の情報処理装置。
【請求項5】
前記評価部は、前記評価対象のコンテンツにおいて、前記導出部により導出された確率が基準よりも高く、且つ前記第1テキストに含まれず前記第2テキストに含まれるキーワードのそれぞれの前記確率に基づいて、前記評価対象のコンテンツを評価する、
請求項1から4のうちいずれか1項記載の情報処理装置。
【請求項6】
前記第1テキストは、前記コンテンツのタイトルであり、
前記第2テキストは、前記コンテンツの詳細説明である、
請求項1から5のうちいずれか1項記載の情報処理装置。
【請求項7】
前記評価部による評価結果に基づいて、前記コンテンツを提供する際の優先度として用いられるランキングを決定するランキング処理部を更に備える、
請求項1から6のうちいずれか1項記載の情報処理装置。
【請求項8】
前記コンテンツは、ネットワークを介して商品またはサービスを販売するためのコンテンツである、
請求項1から7のうちいずれか1項記載の情報処理装置。
【請求項9】
前記コンテンツは、階層構造を有する画面遷移の中で提供されるものであり、
前記第1テキストは、前記商品またはサービスを販売するための画面よりも上の階層の画面において一部または全部が表示される、
請求項8記載の情報処理装置。
【請求項10】
前記第1テキストまたは前記第2テキストは、前記商品またはサービスを出品する出品者によって作成されるものであり、
前記導出部は、前記商品またはサービスを大量に出品する出品者によって作成された前記第1テキスト及び前記第2テキストを、前記確率を導出する元データから間引く処理を行う、
請求項8または9記載の情報処理装置。
【請求項11】
前記評価部により所定の評価を得たコンテンツに係る商品またはサービスを出品する出品者の端末装置に対し、前記第1テキストまたは前記第2テキストの修正を促す情報を出力するサジェスト部を更に備える、
請求項8から10のうちいずれか1項記載の情報処理装置。
【請求項12】
コンピュータが、
第1テキストと第2テキストを含む評価対象のコンテンツにおいて、前記第2テキストに含まれるキーワードが、前記第1テキストに含まれるか否かに基づいて、前記評価対象のコンテンツを評価し、
複数のコンテンツをサンプルとし、前記第1テキストと第2テキストとをそれぞれ分割することで得られるキーワードが、同じコンテンツにおいて前記第1テキストと前記第2テキストとの双方に含まれる確率を導出し、
前記評価する際に、前記導出された確率が基準よりも高いキーワードを処理対象とする、
情報処理方法。
【請求項13】
コンピュータに、
第1テキストと第2テキストを含む評価対象のコンテンツにおいて、前記第2テキストに含まれるキーワードが、前記第1テキストに含まれるか否かに基づいて、前記評価対象のコンテンツを評価させ、
複数のコンテンツをサンプルとし、前記第1テキストと第2テキストとをそれぞれ分割することで得られるキーワードが、同じコンテンツにおいて前記第1テキストと前記第2テキストとの双方に含まれる確率を導出させ、
前記評価させる際に、前記導出された確率が基準よりも高いキーワードを処理対象とさせる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
従来、店舗で販売されている商品を販売するネットスーパーのWebページに、商品を検索するための語句を入力する入力欄を表示する入力欄表示手段と、前記入力欄に入力された語句を検索に用いる検索語句として確定し、検索処理を開始する検索開始指示を受付ける検索開始指示受付手段と、前記ネットスーパーのWebページを介して前記店舗が販売している商品の商品情報を格納した商品マスタを参照し、当該商品マスタに格納されている商品情報を検索対象として、前記検索開始指示を受付けた前記検索語句に関する検索処理を行う検索手段と、前記検索開始指示に先立って、前記商品マスタから、前記入力欄に入力されているテキストを前記商品情報の一部として有する商品の商品名を抽出し、前記検索処理を行う商品名の候補として、前記入力欄の下方に並べて表示する商品名候補表示手段と、前記商品名の候補から、検索を行う商品名候補の選択を受付ける検索語句受付手段と、を備え、前記検索手段は前記検索語句受付手段が受付けた前記商品名候補により前記検索処理を行う、情報処理装置が知られている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2017−146988号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えば、上記のような電子商取引の分野においては、利用者が購入しようとする商品等の名称やブランド名、カテゴリなどがクエリとして入力され、商品等のデータベースを検索することで得られた商品等の紹介ページへのリンクが、検索結果表示画面に表示される。この検索においては、商品等に付与されたメタ情報が利用されるが、メタ情報が不適切なものであると、その商品等の情報が過剰に露出する機会が生じてしまう。同様のことは、例えば、ニュース記事の配信においても生じ得る。ニュース記事に不適切なワードが多く含まれていると、ニュース検索の結果、過剰に検索ヒットする可能性があり、同様に、過剰に露出する機会が生じてしまう。従来の技術では、過剰な露出が生じる可能性についてコンテンツを適切に評価することができない場合があった。
【0005】
本発明は、このような事情を考慮してなされたものであり、コンテンツを適切に評価することが可能な情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。
【課題を解決するための手段】
【0006】
本発明の一態様は、第1テキストと第2テキストを含む評価対象のコンテンツにおいて、前記第2テキストに含まれるキーワードが、前記第1テキストに含まれるか否かに基づいて、前記評価対象のコンテンツを評価する評価部を備える、情報処理装置である。
【発明の効果】
【0007】
本発明の一態様によれば、コンテンツを適切に評価することができる。
【図面の簡単な説明】
【0008】
【
図1】情報処理装置を利用したショッピングサーバ100の構成および使用環境の一例を示す図である。
【
図3】検索結果表示画面IM2の一例を示す図である。
【
図5】商品データ140の内容の一例を示す図である。
【
図6】同時存在確率導出部130および商品評価部132により実行される処理の流れの一例を示すフローチャートである。
【
図7】S220における処理の内容について説明するための図である。
【
図8】商品評価部132により実行される処理の流れの一例を示すフローチャートである。
【
図9】ネガティブチェックリストを用いた処理について説明するための図である。
【発明を実施するための形態】
【0009】
以下、図面を参照し、本発明の情報処理装置、情報処理方法、およびプログラムの実施形態について説明する。情報処理装置は、一以上のプロセッサにより実現される。情報処理装置は、ネットワークを介して行われるショッピングやオークション、フリーマーケットなどの電子商取引における商品またはサービスの販売画面(紹介画面)、ネットワークを介して配信されるニュース記事などのコンテンツを評価する装置である。以下の説明では、コンテンツはショッピングにおける商品またはサービスの販売画面であるものとする。また、商品またはサービスを区別せず、単に商品と称して説明する。
【0010】
情報処理装置は、ショッピングサイトを管理するショッピングサーバ(出品者と管理者が異なるという意味で販売仲介サーバとも称する)などに包含される装置であってもよい。すなわち、情報処理装置は、仮想的な装置であってもよい。また、情報処理装置は、ショッピングサーバそのものであってもよい。以下では、情報処理装置がショッピングサーバの少なくとも一部を構成するものとして説明する。
【0011】
[全体構成]
図1は、情報処理装置を利用したショッピングサーバ100の構成および使用環境の一例を示す図である。ショッピングサーバ100は、ネットワークNWを介して一以上の端末装置10と通信する。ネットワークNWは、例えば、インターネット、WAN(Wide Area Network)、LAN(Local Area Network)、無線基地局、プロバイダ端末、専用回線などを含む。
【0012】
端末装置10は、例えば、パーソナルコンピュータやスマートフォンなどの携帯電話、タブレット端末などである。端末装置10には、商品の出品者により使用される端末装置と、商品の購入者により使用されるの端末装置とがあるが、
図1ではこれらを区別せず表記している。端末装置10では、ブラウザやアプリケーションプログラムなどのUA(User Agent)20が起動する。UA20は、ショッピングサーバ100から提供された販売画面を表示すると共に、端末装置10の利用者によってなされた入力操作に応じたリクエストをショッピングサーバ100に送信する。ショッピングサーバ100は、UA20からのリクエストに応じて商品の販売を管理する。以下の説明では、UA20はブラウザであり、ショッピングサーバ100はウェブサーバであるものとする。
【0013】
ショッピングサーバ100は、例えば、サイト提供部102と、出品受付部104と、検索実行部106と、ランキング処理部108と、ログ収集部110と、情報修正サジェスト部114と、同時存在確率導出部130と、商品評価部132とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。
【0014】
「情報処理装置」は、少なくとも商品評価部132を含む。また、「情報処理装置」は、同時存在確率導出部130、ランキング処理部108、情報修正サジェスト部112などのうち一部または全部を含んでもよい。例えば、同時存在確率導出部130と商品評価部132とは別体の装置によってそれぞれ実現されてもよい。
【0015】
また、ショッピングサーバ100は、HDDやフラッシュメモリ、RAM(Random Access Memory)などの記憶装置に、商品データ140、ログデータ150などのデータを格納している。
【0016】
[ショッピングサーバの機能]
サイト提供部102は、ショッピングサイトとしての各種画面を端末装置10に提供する。
図2は、検索入力画面IM1の一例を示す図である。検索入力画面IM1には、商品を検索するためのクエリを入力するためのクエリ入力欄A1、および、入力されたクエリで検索を実行させるための検索ボタンB1が設けられている。クエリ入力欄A1にクエリが入力され、検索ボタンB1が操作されると、検索結果表示画面IM2に遷移する。なお、クエリには、一語だけのクエリもあるし、複数の子クエリがスペースなどで結合された複数語を含むクエリもある。
【0017】
図3は、検索結果表示画面IM2の一例を示す図である。検索結果表示画面IM2には、検索結果表示欄A2が含まれる。検索結果表示欄A2には、ランキング処理部108によって決定されたランキング順に、商品の画像や説明(例えば、後述するタイトルの一部または全部)が並べて表示される。検索結果表示画面IM2において一つの商品の画像や説明が操作されると、商品販売画面IM3に遷移する。
【0018】
図4は、商品販売画面IM3の一例を示す図である。商品販売画面IM3には、商品画像表示欄A3−1、タイトル欄A3−2、詳細説明欄A3−3などが含まれる。タイトル欄A3−2や詳細説明欄A3−3には、製造元、商品の素材、使用、その他の内容がテキストとして掲載される。タイトル欄A3−2に表示されるテキスト(以下、「タイトル」と表記する)は、詳細説明欄A3−3に表示されるテキスト(以下、「詳細説明」と称する)よりも文字数が制限されている。タイトルは、第1テキストの一例である。詳細説明は、第2テキストの一例である。商品販売画面IM3は、検索入力画面IM1や検索結果表示画面IM2を上位とする階層構造を有する画面遷移の中で提供されるものである。
【0019】
サイト提供部102は、
図2〜4で示すような各種画面の他、出品者に対するインターフェースとなる画像も提供する。出品受付部104は、このインターフェースとなる画像を用いて出品者により入力された、商品の出品のための情報を取得し、商品データ140に登録する。
【0020】
図5は、商品データ140の内容の一例を示す図である。商品データ140は、商品の識別情報である商品IDに対して、商品カテゴリ、商品画像、タイトル、詳細説明、価格、発送条件、その他のデータが対応付けられたものである。これらのうち、商品IDは、出品受付部104により付番された情報であり、その他の情報は、出品者により入力されたものである。
【0021】
検索実行部106は、前述したように検索入力画面IM1に対してなされた検索指示に応じて、商品データ140を検索する。例えば、検索実行部106は、タイトルまたは詳細説明の中にクエリが含まれる商品データ140のレコード(商品ID)を抽出する。
【0022】
ランキング処理部108は、検索実行部106により抽出されたレコードに対応する商品についてログデータ150に基づいてランキング処理(順位付け)を行い、検索結果表示画面IM2の検索結果表示欄A2に情報を表示する商品の順序を決定する。例えば、ランキング処理部108は、ログデータ150に基づいてインプレッション数、CTR(Click Through Ratio)、CVR(Conversion Rate)などの指標値を計算し、指標値に基づいてランキング処理を行う。
【0023】
ログ収集部110は、利用者ごとのショッピングサイトの利用履歴を収集し、ログデータ150に登録する。情報修正サジェスト部112の機能については後述する。
【0024】
[情報処理装置としての機能]
以下、ショッピングサーバ100における情報処理装置としての機能について説明する。この機能は、出品者により出品された商品について、過剰な露出が生じる可能性があるかどうかを評価するためのものである。
【0025】
図6は、同時存在確率導出部130および商品評価部132により実行される処理の流れの一例を示すフローチャートである。まず、同時存在確率導出部130は、商品データ140に含まれる全てのレコードを対象として(すなわち複数のコンテンツをサンプルとして)、各レコードにおけるタイトルと詳細説明とを、それぞれ形態素解析などによって単語に分割し、分割した単語を例えば名詞に絞り込む処理を行う(S200)。以下、係る処理によって絞り込まれた名詞をキーワードと称する。
【0026】
次に、同時存在確率導出部130は、S200で絞り込んだキーワードを更に、一定数(例えば1000程度)の商品の詳細説明に含まれているキーワードに絞り込む(S210)。
【0027】
次に、同時存在確率導出部130は、キーワードごとに、そのキーワードが商品のタイトルと詳細説明の双方に含まれている確率Pを計算する(S220)。
図7は、S220における処理の内容について説明するための図である。同時存在確率導出部130は、例えば、対象となるキーワードを「A」とすると、商品データ140の各レコードのタイトルにおけるキーワード「A」の出現数F_titと、商品データ140の各レコードの詳細説明におけるキーワード「A」の出現数F_desとをそれぞれカウントし、F_titをF_desで除算した値を、キーワード「A」についての確率Pとして算出する。なお、同時存在確率導出部130は、一つのレコードに同じキーワードが複数個存在する場合でも、そのレコードにおける出現数を1とカウントする。
【0028】
図6に戻り、商品評価部132は、確率Pが基準よりも高いキーワードが、タイトルに含まれず且つ商品詳細に含まれる度合いが高いほど、過剰な露出が生じやすい商品と評価する(S230)。係る処理の具体例については
図8を用いて説明する。
【0029】
図8は、商品評価部132により実行される処理の流れの一例を示すフローチャートである。まず、商品評価部132は、S210で絞り込まれたキーワードを更に、確率Pが閾値Th1以上であるキーワードに絞りこむ(S231)。閾値Th1は、1未満の値であり、例えば、0.85程度の値である。ここまでの処理によって、一定数の商品の詳細説明に含まれ、且つ確率Pが閾値以上であるキーワードの集合が抽出される。
【0030】
次に、商品評価部132は、商品ごとに、S232〜S237の処理を行う。以下の説明において、「i」は商品を識別する情報である。まず、商品評価部132は、S231で絞り込まれたキーワードを母集団として、着目する商品に対応するレコードのタイトルに含まれるキーワード群{KW_tit(i)}を作成する(S232)。
【0031】
次に、商品評価部132は、S231で絞り込まれたキーワードを母集団として、その商品に対応するレコードの詳細説明に含まれるキーワード群{KW_des(i)}を作成する(S233)。
【0032】
次に、商品評価部132は、S232で作成したキーワード群{KW_tit(i)}と、S233で作成したキーワード群{KW_des(i)}の積集合{KW_tit(i)∩KW_des(i)}を作成する(S234)。
【0033】
そして、商品評価部132は、着目する商品についての評価値Diを、キーワード群{KW_des(i)}に含まれるキーワードの数から、積集合{KW_tit(i)∩KW_des(i)}に含まれるキーワードの数を減算することで導出する(S235)。なお、N[]は、括弧内の集合要素の数を表すものとする。
【0034】
続いて、商品評価部132は、評価値Diが閾値Th2以上であるか否かを判定し(S236)、評価値Diが閾値Th2以上である場合、識別情報iで表される商品が、過剰な露出が生じやすい商品であると判定する(S237)。
【0035】
前述したように、詳細説明に記載可能なテキストの文字数は、タイトルよりも多い。このため、本来の商品とは全く無関係な情報(例えば、出品者の商品と関係の無いブランド名や、商品の特性と明らかに異なる記載(商品が「サファイアの指輪」なのに「ダイヤモンド」など))を記載することで検索ヒット数を増やそうというアクションは、詳細説明の欄に対して行われることが多い。
【0036】
これに対して実施形態の情報処理装置では、確率Pが基準よりも高いキーワード、すなわちタイトルと詳細説明の双方に記載される確率が高く、購入者への訴求度が高いと考えられるキーワードが、タイトルに含まれず且つ商品詳細に含まれる度合いが高いほど、過剰な露出が生じやすい商品と評価することで、商品に付されたタイトルや詳細説明、ひいては商品販売画面(コンテンツ)を適切に評価することができる。
【0037】
なお、閾値Th2は、1以上の任意の数に定められる。商品のカテゴリや特性にもよるが、例えば、3〜5程度の値に定められると好適である。閾値Th2を1や2程度の値にすると、ブランド名のカタカナ表記などが該当してしまうため、過剰な露出が生じやすい商品であると判定される頻度が高くなり過ぎるからである。
【0038】
図8の処理が終了すると、商品評価部132は、評価結果を出力する(
図6;S240)。商品評価部132は、例えば、ランキング処理部108や情報修正サジェスト部112に評価結果を出力する。ランキング処理部108では、過剰な露出が生じやすい商品であると判定された商品のランキングを下げる処理などを行う。例えば、ランキング処理部108は、タイトルに含まれず詳細説明に含まれる、確率Pが基準よりも高いキーワードについては、検索ヒットに対する重みを小さくするなどして、結果的にその商品のランキングを下げるようにしてよい。また、ランキング処理部108は、過剰な露出が生じやすい商品であると判定された商品のランキングを、機械的に下位の順位(例えば100位など)に下げるようにしてもよい。また、情報修正サジェスト部112では、過剰な露出が生じやすい商品であると判定された商品の出品者の端末装置10に対し、確率Pの高いキーワードを詳細説明だけでなくタイトルにも記載した方が良い、という内容のサジェスト情報(タイトルまたは詳細説明の修正を促す情報)を送信する。
【0039】
図6および
図8に示す処理は、必ずしも一連の処理として実行される必要はない。例えば、S200〜S220の処理は一日に一回程度の頻度でバッチ処理として実行され、S230(
図8の処理も含む)およびS240の処理は、新しい商品が出品される度に実行されてもよい。
【0040】
[変形例]
商品評価部132は、上記説明した処理に加えて、過剰な露出が生じやすい商品であると判定しないためのネガティブチェックリストを用意しておき、該当する場合には過剰な露出が生じやすい商品であると判定しないようにしてもよい。
【0041】
図9は、ネガティブチェックリストを用いた処理について説明するための図である。例えば、「AA(スペース)BB(スペース)CC」のようなブランド名があり、これをカタカナ表記するとスペース無しで「エイエイビービーシーシー」のようになる場合を考慮する。このカタカナ表記は認知度が高く、タイトルにも記載される頻度が高いため、キーワードとして確率Pが高く算出されるものとする。この場合において、英字のブランド名が形態素解析によって「AA」「BB」「CC」に分割されてしまうと、「エイエイビービーシーシー」はタイトルに記載されていないと判定されてしまう。このような場面を想定し、情報処理装置の運用者は、予めネガティブチェックリストを記憶装置に記憶させておき、誤判断しやすいキーワードである「エイエイビービーシーシー」を、本来の英字のブランド名(対応するキーワード)である「AA(スペース)BB(スペース)CC」と共にネガティブチェックリストに登録しておく。そして、商品評価部132は、タイトルまたは詳細説明に「エイエイビービーシーシー」がある場合、ネガティブチェックリストを参照して対応する「AA(スペース)BB(スペース)CC」を抽出し、「AA(スペース)BB(スペース)CC」がタイトルまたは詳細説明にあるかどうかを判定する。そして、いずれか一方に「エイエイビービーシーシー」があり、他方に「AA(スペース)BB(スペース)CC」がある場合、これについて評価値Diから1(後述するように確率Pを考慮する場合は、確率Pに応じた値)を減算する。これによって、形態素解析によって分割されてしまいやすい名詞の存在によって評価値Diが不当に高くなるという現象が生じるのを抑制することができる。
【0042】
また、同時存在確率導出部130および商品評価部132は、大文字と小文字の違いなど、表記揺れに関する辞書を用意しておき、表記揺れの範囲内である場合には同じキーワードであると判定するようにしてもよい。
【0043】
また、同時存在確率導出部130は、大量に出品する出品者(ストア)に関しては、同じ傾向でタイトルおよび詳細説明を記載する場合があるので、その出品者の記載傾向に偏らないように、S200〜S220の処理対象とする際に、データの間引き処理を行ってもよい。これによって、特定の出品者の記載傾向に基づいて確率Pの計算にバイアスがかかるのを抑制することができる。
【0044】
また、商品評価部132は、集合要素の数を表すN[]に基づいて評価値Diを算出するものとしたが、確率Pを反映させて、確率Pの高いキーワードが詳細説明に含まれ且つタイトルに含まれないほど、過剰な露出が生じやすい商品であると判定するようにしてもよい。以下、その具体例を示す。
【0045】
(1)例えば、商品評価部132は、式(1)に基づいて、評価値Di#1を導出してもよい。式中、jは、キーワード群{KW_des(i)}に含まれ且つ積集合{KW_tit(i)∩KW_des(i)}に含まれないキーワードであり、Pjは、そのキーワードについて導出されている確率である。この式によって求められる評価値Di#1は、評価値Diとは逆に、値が小さいほど、過剰な露出が生じやすい商品である傾向を示すものである。従って、商品評価部132は、評価値Di#1が閾値Th3以下である場合に、過剰な露出が生じやすい商品であると判定する。
【0047】
(2)また、商品評価部132は、式(2)に基づいて、評価値Di#2を導出してもよい。この式によって求められる評価値Di#2は、値が大きいほど、過剰な露出が生じやすい商品である傾向を示すものである。従って、商品評価部132は、評価値Di#2が閾値Th4以下である場合に、過剰な露出が生じやすい商品であると判定する。なお、閾値Th4は、前述した閾値Th2よりも若干小さい値(例えば2〜4程度の値)にすると好適である。
【0049】
以上説明した実施形態によれば、第1テキストと第2テキストを含む評価対象のコンテンツにおいて、第2テキストに含まれるキーワードが、第1テキストに含まれるか否かに基づいて、評価対象のコンテンツを評価することにより、コンテンツを適切に評価することができる。
【0050】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【符号の説明】
【0051】
10 端末装置
100 ショッピングサーバ(情報処理装置)
102 サイト提供部
104 出品受付部
106 検索実行部
108 ランキング処理部
110 ログ収集部
112 情報修正サジェスト部
130 同時存在確率導出部
132 商品評価部
140 商品データ
150 ログデータ