特許第6359045号(P6359045)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特許6359045情報処理装置、情報処理方法および情報処理プログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6359045
(24)【登録日】2018年6月29日
(45)【発行日】2018年7月18日
(54)【発明の名称】情報処理装置、情報処理方法および情報処理プログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20180709BHJP
【FI】
   G06F17/30 210D
【請求項の数】7
【全頁数】17
(21)【出願番号】特願2016-52702(P2016-52702)
(22)【出願日】2016年3月16日
(65)【公開番号】特開2017-167831(P2017-167831A)
(43)【公開日】2017年9月21日
【審査請求日】2017年8月15日
【早期審査対象出願】
【前置審査】
(73)【特許権者】
【識別番号】500257300
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】牧山 幸史
(72)【発明者】
【氏名】山下 勝司
(72)【発明者】
【氏名】平井 尚樹
【審査官】 岡北 有平
(56)【参考文献】
【文献】 特開2006−318249(JP,A)
【文献】 国際公開第2011/004529(WO,A1)
【文献】 特開2012−178128(JP,A)
【文献】 特開2005−266866(JP,A)
【文献】 特開2009−294939(JP,A)
【文献】 米国特許出願公開第2002/0091676(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
階層構造を有する複数のカテゴリのうち、所定カテゴリの下位に位置する複数の下位カテゴリに含まれるオブジェクトの特徴量であって、連続値で表される前記特徴量に基づき、複数の前記下位カテゴリの組み合わせごとに、統計的検定値を算出する算出部と、
前記算出部の算出結果に基づいて、複数の前記下位カテゴリを統合する統合部と、
を備え
前記統合部は、前記所定カテゴリの2つ下位にカテゴリが存在する場合に、該所定カテゴリの1つ下位の前記下位カテゴリと当該所定カテゴリとを統合しないことを特徴とする情報処理装置。
【請求項2】
前記統合部は、
前記下位カテゴリに含まれる前記オブジェクトの数が所定値以下である前記下位カテゴリを統合する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記統合部は、
複数の前記カテゴリの数に応じて前記下位カテゴリを統合する、
ことを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
複数の前記カテゴリの階層情報を取得する取得部をさらに備え、
前記算出部は、
前記取得部が取得した前記階層情報に基づき、前記下位カテゴリの組み合わせごとの前記統計的検定値を算出する、
ことを特徴とする請求項1〜3のいずれか1項に記載の情報処理装置。
【請求項5】
前記オブジェクトは商品であり、前記カテゴリは前記商品に関する商品カテゴリであって、
前記算出部は、
前記商品の属性情報を前記特徴量として前記統計的検定値を算出する、
ことを特徴とする請求項1〜4のいずれか1項に記載の情報処理装置。
【請求項6】
階層構造を有する複数のカテゴリのうち、所定カテゴリの下位に位置する複数の下位カテゴリに含まれるオブジェクトの特徴量であって、連続値で表される特徴量に基づき、複数の前記下位カテゴリの組み合わせごとに、統計的検定値を算出する算出工程と、
前記算出工程での算出結果に基づいて、複数の前記下位カテゴリを統合する統合工程と、
を含み、
前記統合工程は、前記所定カテゴリの2つ下位にカテゴリが存在する場合に、該所定カテゴリの1つ下位の前記下位カテゴリと当該所定カテゴリとを統合しないことを特徴とする情報処理方法。
【請求項7】
コンピュータに、
階層構造を有する複数のカテゴリのうち、所定カテゴリの下位に位置する複数の下位カテゴリに含まれるオブジェクトの特徴量であって、連続値で表される特徴量に基づき、複数の前記下位カテゴリの組み合わせごとに、統計的検定値を算出する算出手順と、
前記算出手順での算出結果に基づいて、複数の前記下位カテゴリを統合する統合手順と、
を実行させ
前記統合手順は、前記所定カテゴリの2つ下位にカテゴリが存在する場合に、該所定カテゴリの1つ下位の前記下位カテゴリと当該所定カテゴリとを統合しないことを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。
【背景技術】
【0002】
例えば商品の購入など、商品やサービスに関するイベントの発生を予測したり、学習したりするために、商品やサービスを複数のカテゴリに分類する技術がある。
【0003】
このような場合に、構築したカテゴリを、商品やサービスを利用する顧客の特徴量に基づいて統合することで、当該カテゴリを再構築する技術が提供されている。かかる技術では、離散値である特徴量の分布が類似するカテゴリを統合している。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−318249号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の従来技術では、連続値の特徴量を所定単位で区切ることで離散化している。そのため、例えば離散化による丸め誤差の影響等によって、特徴量の分布の類似判定の精度が低下する恐れがある。
【0006】
本願は、上記に鑑みてなされたものであって、カテゴリの統合精度を向上させることができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本願に係る情報処理装置は、階層構造を有する複数のカテゴリのうち、所定カテゴリの下位に位置する複数の下位カテゴリに含まれるオブジェクトの特徴量であって、連続値で表される前記特徴量に基づき、複数の前記下位カテゴリごとに、統計的検定値を算出する算出部と、前記算出部の算出結果に基づいて、複数の前記下位カテゴリを統合する統合部と、を備える。前記統合部は、前記所定カテゴリの2つ下位にカテゴリが存在する場合に、該所定カテゴリの1つ下位の前記下位カテゴリと当該所定カテゴリとを統合しない。
【発明の効果】
【0008】
実施形態の一態様によれば、カテゴリの統合精度を向上させることができる。
【図面の簡単な説明】
【0009】
図1図1は、実施形態に係る統合処理の一例を示す図である。
図2図2は、実施形態に係る情報処理装置の構成を示すブロック図である。
図3A図3Aは、実施形態に係るカテゴリ情報記憶部の一例を示す図である。
図3B図3Bは、カテゴリ情報記憶部が記憶する複数のカテゴリの階層関係を示す模式図である。
図4図4は、実施形態に係る属性情報記憶部の一例を示す図である。
図5A図5Aは、実施形態に係る下位カテゴリに含まれるオブジェクトの特徴量の分布の一例を示すグラフである。
図5B図5Bは、実施形態に係る下位カテゴリに含まれるオブジェクトの特徴量の分布の一例を示すグラフである。
図6図6は、実施形態に係る統合処理部が生成する複数のカテゴリの一例を示す図である。
図7A図7Aは、実施形態に係る下位カテゴリに含まれるオブジェクトの特徴量の分布の一例を示すグラフである。
図7B図7Bは、実施形態に係る下位カテゴリに含まれるオブジェクトの特徴量の分布の一例を示すグラフである。
図8A図8Aは、実施形態に係る下位カテゴリに含まれるオブジェクトの特徴量の分布の一例を示すグラフである。
図8B図8Bは、実施形態に係る下位カテゴリに含まれるオブジェクトの特徴量の分布の一例を示すグラフである。
図8C図8Cは、実施形態に係る下位カテゴリに含まれるオブジェクトの特徴量の分布の一例を示すグラフである。
図9図9は、実施形態に係る統合処理部が生成する複数のカテゴリの一例を示す図である。
図10図10は、実施形態に係る更新後のカテゴリ情報記憶部を示す図である。
図11図11は、実施形態に係る更新後の属性情報記憶部を示す図である。
図12図12は、実施形態に係る情報処理装置による統合処理手順を示すフローチャートである。
図13図13は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0010】
以下に、本願に係る情報処理装置、情報処理方法および情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0011】
〔1.統合処理〕
まず、図1を用いて、実施形態に係る統合処理の一例について説明する。図1は、実施形態に係る統合処理の一例を示す図である。実施形態に係る統合処理は、階層構造を有する複数のカテゴリを統合する処理であり、図示しない情報処理装置によって行われる。
【0012】
情報処理装置は、例えばツリー構造のカテゴリを統合する装置である。情報処理装置は、カテゴリに含まれるオブジェクトの特徴量に基づいてカテゴリを統合する。この点について、図1を用いて詳細に説明する。
【0013】
図1に示すカテゴリツリーT11は、オブジェクトを分類する分類カテゴリツリーである。具体的には、例えばオブジェクトは、インターネットオークションに出品された商品であり、分類カテゴリツリーは、かかる商品を分類するために予め用意されたカテゴリツリーである。図1の例では、「デスクトップ型」および「ノート型」の2つのカテゴリが、「パソコン」の下位に位置する下位カテゴリである。また、「商品A」、「商品B」および「商品C」の3つのカテゴリが、「デスクトップ型」の下位に位置する下位カテゴリである。
【0014】
「商品A」、「商品B」および「商品C」には、それぞれオブジェクトとして、例えばインターネットオークションに出品された商品(以下、出品商品と呼ぶ)が複数含まれている。出品商品には例えばそれぞれ商品IDが割り振られており、かかる商品IDが各カテゴリに対応付けられている。なお、以下、出品IDを各出品商品の符号として参照する。図1の例では、出品商品の特徴量として、出品商品の落札価格が各商品IDと対応付けられている。出品商品の落札価格は連続変数であり、その項目値は連続値となる。
【0015】
まず、情報処理装置は、所定カテゴリの下位カテゴリに含まれる出品商品の落札価格に基づき、統計的検定値を算出する(ステップS1)。ここでは、所定カテゴリが「デスクトップ型」であるものとする。また、情報処理装置がt検定を行うものとする。情報処理装置は、2つのカテゴリの特徴量の分布の平均値の差に基づき、平均値の差が大きいほど値が小さい統計的検定値を算出する。
【0016】
図1に示すように、情報処理装置は、複数の下位カテゴリの組み合わせごとに統計的検定値を算出する。情報処理装置は、例えば「商品A」、「商品B」の組み合わせで「0.60」、「商品A」、「商品C」の組み合わせで「1.23e−36」、「商品B」、「商品C」の組み合わせで「2.55e−28」という統計的検定値を算出したものとする。
【0017】
次に、情報処理装置は、算出結果に基づいて、複数の下位カテゴリを統合する(ステップS2)。具体的には、情報処理装置は、閾値Thと算出結果を比較し、閾値Thより統計的検定値が大きい下位カテゴリの組み合わせを統合する。図1では、「商品A」、「商品B」の組み合わせの統計的検定値が閾値Thより大きく、それ以外の組み合わせが閾値Th以下であるものとする。
【0018】
この場合、情報処理装置は、「商品A」および「商品B」を統合し、カテゴリツリーT12を生成する。ここで、情報処理装置は、統合するカテゴリに含まれるオブジェクトを含む新たなカテゴリを所定カテゴリの下位に生成し、統合するカテゴリを削除することで、カテゴリを統合する。図1の例では、情報処理装置は、「商品Aおよび商品B」という新たなカテゴリを「デスクトップ型」の下位に生成し、「商品A」および「商品B」を削除する。
【0019】
このように、実施形態に係る情報処理装置は、階層構造を有する複数のカテゴリのうち、所定カテゴリの下位に位置する複数の下位カテゴリに含まれるオブジェクトの特徴量であって、連続値で表される特徴量に基づき、複数の下位カテゴリの組み合わせごとに、統計的検定値を算出する。また、情報処理装置は、算出結果に基づいて、複数の下位カテゴリを統合する。
【0020】
これにより、情報処理装置は、連続値である特徴量に基づき、カテゴリを統合することができる。このため、カテゴリの統合精度を向上させることができる。
【0021】
〔2.情報処理装置の構成〕
図2を用いて、実施形態に係る情報処理装置1の構成について説明する。図2は、実施形態に係る情報処理装置1の構成を示すブロック図である。図2に示すように、情報処理装置1は、記憶部10と、制御部(コントローラ)20を備える。
【0022】
記憶部10は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部10は、カテゴリ情報記憶部110と、属性情報記憶部120とを有する。
【0023】
カテゴリ情報記憶部110は、階層構造を有する複数のカテゴリに関するカテゴリ情報を記憶する。具体的には、カテゴリ情報記憶部110は、カテゴリ間の階層関係である階層情報を記憶する。ここで、図3Aおよび図3Bを用いて、カテゴリ情報記憶部110の一例を説明する。図3Aは、実施形態に係るカテゴリ情報記憶部110の一例を示す図である。図3Bは、カテゴリ情報記憶部110が記憶する複数のカテゴリの階層関係を示す模式図である。なお、ここでは、複数のカテゴリは、オブジェクトである出品商品の分類カテゴリ、すなわち商品カテゴリであるものとして説明するが、商品カテゴリに限定されない。また、複数のカテゴリがツリー構造を有するものとして説明するが、階層構造を有するカテゴリであればよく、ツリー構造に限定されない。
【0024】
図3Aに示すように、カテゴリ情報記憶部110は、「親ノード」および「子ノード」を項目として有する。親ノードは、上位カテゴリを指し、子ノードは下位カテゴリを指す。すなわち、子ノードのカテゴリは、親ノードのカテゴリの下位に位置する下位カテゴリである。例えば、親ノードが「コンピュータ」であり、子ノードが「タブレット」である場合、「コンピュータ」の下位に「タブレット」が位置する。
【0025】
図3Bでは、カテゴリ情報記憶部110が記憶する複数のカテゴリで構成されるカテゴリツリーT21を模式的に示している。図3Bでは、最上位カテゴリとして「コンピュータ」が位置している。「コンピュータ」の下位に、「タブレット」および「パソコン」が位置している。
【0026】
属性情報記憶部120は、複数のカテゴリに含まれるオブジェクトに関する情報を記憶する。属性情報記憶部120は、例えばオブジェクト名、オブジェクトが属するカテゴリ等のオブジェクトの属性を示す属性情報を記憶する。ここで、図4を用いて、属性情報記憶部120の一例を説明する。図4は、実施形態に係る属性情報記憶部120の一例を示す図である。なお、ここでは、オブジェクトが出品商品であるものとして説明するが、オブジェクトは、上述するカテゴリに含まれるオブジェクトであればよく、出品商品に限定されない。
【0027】
図4に示すように、属性情報記憶部120は、「商品ID」、「商品カテゴリ」、「落札価格」、「商品画像」、「入札件数」、「商品状態」等の項目を有する。「商品ID」は、例えば各商品を識別する固有の番号等を示す情報である。また、「商品カテゴリ」は、カテゴリ情報記憶部110が記憶するカテゴリに対応し、出品商品がどのカテゴリに含まれているかを示す情報である。「落札価格」、「入札件数」は、それぞれ出品商品を落札した価格や入札した件数を示す連続変数である。「商品画像」や「商品状態」は、画像の有無や状態を示す離散変数である。
【0028】
図2に戻る。制御部20は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置1内部の記憶部10に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部20は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0029】
制御部20は、処理部200と、特徴指定部210と、取得部220と、算出部230と、統合部240とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部20の内部構成は、図2に示す構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部20が有する各処理部の接続関係は、図2に示す接続関係に限られず、他の接続関係であってもよい。
【0030】
処理部200は、記憶部10が記憶する属性情報を用いた処理を行う。例えば、ユーザが所定商品を出品するか否か検討する場合などに、出品を予定している商品(以下、出品予定商品と呼ぶ)がどれくらいの価格で落札されるか予測したい場合がある。この場合、処理部200は、属性情報を特徴量とする予測モデル演算を行う。
【0031】
しかしながら、例えば、出品予定商品と同じカテゴリの商品数が少ない場合など、生成されたモデルによる予測演算の精度が低下してしまう場合がある。そこで実施形態に係る情報処理装置1では、例えば属性情報を用いた演算精度を向上させるために、複数のカテゴリの統合処理を行う。このときに、処理部200による予測演算処理に応じた特徴量に基づいてカテゴリを統合することで、処理部200による予測演算精度を低下させることなくカテゴリの統合を行うことができる。
【0032】
特徴指定部210は、算出部230が算出する統計的検定値の算出に用いる特徴量を指定する。特徴指定部210が指定する特徴量は、処理部200で行われる処理に応じて異なる。例えば、処理部200により落札価格の予測処理が行われる場合、特徴指定部210は、特徴量として「落札価格」を指定する。なお、特徴指定部210が指定する特徴量は、属性情報記憶部120が記憶する属性情報に含まれる特徴量のうち連続値である特徴量であればよく、「落札価格」に限定されない。例えば、図4の例では、特徴指定部210は、「入札件数」を指定することもできる。
【0033】
なお、ここでは、特徴指定部210が処理部200による演算に応じて特徴量を指定する場合について説明したが、これに限定されない。例えば、予め指定する特徴量が決められていてもよい。この場合、例えば指定する特徴量に関する情報が記憶部10に記憶されており、特徴指定部210は、記憶部10を参照して特徴量を指定する。あるいは、ユーザが特徴量を指定するようにしてもよい。この場合、特徴指定部210は、例えば受付部として機能する。特徴指定部210は、ユーザから受け付けた特徴量を指定する。特徴指定部210は、指定した特徴量を取得部220および算出部230に出力する。
【0034】
取得部220は、複数のカテゴリの階層情報を取得する。また、取得部220は、カテゴリに含まれるオブジェクトの特徴量を取得する。具体的には、取得部220は、カテゴリ情報記憶部110からカテゴリ情報を取得する。また、取得部220は、特徴指定部210が指定した特徴量を属性情報記憶部120から取得する。取得部220は、取得したカテゴリ情報および特徴量を算出部230に出力する。
【0035】
算出部230は、取得部220が取得したカテゴリ情報および特徴量に基づき、統計的検定値を算出する。具体的には、算出部230は、所定カテゴリの下位に位置する複数の下位カテゴリの組み合わせごとに統計的検定値を算出する。算出部230は、算出した統計的検定値を統合部240に出力する。
【0036】
統合部240は、算出部230が算出した統計的検定値に基づいてカテゴリを統合する。統合部240は、統合決定部241と、統合処理部242とを有する。
【0037】
統合決定部241は、統合するカテゴリを決定する。統合決定部241は、例えば、所定カテゴリの下位に1つの下位カテゴリが位置する場合、当該下位カテゴリおよび所定カテゴリを統合すると決定する。また、統合決定部241は、算出部230が算出した統計的検定値に応じて統合するカテゴリを決定する。例えば、統合決定部241は、統計的検定値が所定閾値Th以上である下位カテゴリの組み合わせを統合するカテゴリに決定する。統合決定部241は、決定したカテゴリの組み合わせを統合処理部242に出力する。
【0038】
統合処理部242は、統合決定部241が決定したカテゴリの組み合わせを統合し、新たなカテゴリを生成する。統合処理部242は、生成したカテゴリに基づいて、カテゴリ情報記憶部110が記憶するカテゴリ情報を更新する。また、生成したカテゴリに基づいて、統合処理部242は、属性情報記憶部120が記憶する属性情報を更新する。例えば、情報処理装置1は、統合処理部242が更新したカテゴリ情報および属性情報に基づいて、統合できるカテゴリがなくなるまでカテゴリの統合処理を行うものとする。
【0039】
続いて、図5A図11を用いて、情報処理装置1が行う統合処理の詳細について説明する。ここでは、図3Aおよび図3Bに示す複数のカテゴリに対して統合処理が行われるものとする。まず、情報処理装置1の算出部230は、属性情報に分類カテゴリとして記載されている最下位カテゴリの上位カテゴリを所定カテゴリとする。また、算出部230は、所定カテゴリの中から、最下位カテゴリが複数属する所定カテゴリの1つを指定カテゴリとする。図3Aおよび図3Bの例では、所定カテゴリは「ブランドA」、「B会社」、「ブランドC」〜「ブランドE」となる。算出部230は、所定カテゴリの中から「ブランドE」を指定カテゴリとする。
【0040】
算出部230は、指定カテゴリの下位カテゴリの組み合わせごとに統計的検定値を算出する。図3Aおよび図3Bの例では、算出部230は、「商品E1」および「商品E2」の組み合わせについて、「落札価格」に基づいた統計的検定値を算出する。ここでは、算出部230がt検定を行い、2つのカテゴリの平均値が等しいと「1」、平均値の差が大きいほど値が0に近づく統計的検定値を算出するものとする。
【0041】
情報処理装置1の統合決定部241は、下位カテゴリが1つの所定カテゴリと、当該下位カテゴリを統合するカテゴリの組み合わせに決定する。図3Aおよび図3Bの例では、統合決定部241は、「ブランドA」および「商品A」の組み合わせ、「B会社」および「商品B」の組み合わせ、「ブランドC」および「商品C」の組み合わせ、および、「ブランドD」および「商品D」の組み合わせを統合するカテゴリの組み合わせに決定する。
【0042】
また、統合決定部241は、算出部230の算出結果に基づいて統合するカテゴリの組み合わせを決定する。例えば、「商品E1」に含まれる出品商品の「落札価格」が図5Aに示す分布となり、「商品E2」に含まれる出品商品の「落札価格」が図5Bに示す分布となるとする。なお、図5Aおよび図5Bは下位カテゴリに含まれるオブジェクトの特徴量の分布の一例を示すグラフであり、縦軸が商品数、横軸が価格を示している。
【0043】
図5Aおよび図5Bに示すように、「商品E1」の分布および「商品E2」の分布が類似しているものとする。この場合、2つのカテゴリの分布の平均値の差が小さくなり、算出部230は、「1」に近いt検定値を算出する。統合決定部241は、「商品E1」および「商品E2」の組み合わせを統合するカテゴリの組み合わせに決定する。
【0044】
なお、「商品E1」および「商品E2」を統合すると、指定カテゴリ「ブランドE」の下位に位置するカテゴリが1つとなる。このような場合に、統合決定部241は、指定カテゴリ「ブランドE」も「商品E1」および「商品E2」に統合すると決定する。
【0045】
情報処理装置1の統合処理部242は、統合決定部241が決定したカテゴリの組み合わせを統合する。具体的には、統合処理部242は、新たなカテゴリを生成し、統合すると決定したカテゴリに含まれるオブジェクトを新たなカテゴリに含める。このとき、統合処理部242は、例えば統合するカテゴリに上位カテゴリが含まれる場合は、上位カテゴリ名を新たなカテゴリ名にする。言い換えると、上位カテゴリに下位カテゴリのオブジェクトが含まれるようにし、下位カテゴリを削除する。また、統合処理部242は、統合するカテゴリに上位カテゴリが含まれない場合は、例えば、下位カテゴリ名を連結して新たなカテゴリ名にする。
【0046】
図6に、統合処理部242が更新した複数のカテゴリをツリーT22として示す。図6は、実施形態に係る統合処理部242が生成する複数のカテゴリの一例を示す図である。図6に示すように、統合処理部242は、「ブランドA」に「商品A」を、「B会社」に「商品B」を、「ブランドC」に「商品C」を、「ブランドD」に「商品D」をそれぞれ統合する。また、統合処理部242は、「ブランドE」に「商品E1」および「商品E2」を統合する。これにより、統合処理部242は、カテゴリ情報を更新する。
【0047】
情報処理装置1は、統合処理部242が生成した複数のカテゴリに対して統合処理をさらに行う。この場合、例えば算出部230は、「ブランドA」および「B会社」の組み合わせについて統計的検定値を算出する。また、算出部230は、「ブランドC」、「ブランドD」および「ブランドE」の全ての組み合わせについて統計的検定値を算出する。
【0048】
統合決定部241は、算出部230の算出結果に基づいて統合するカテゴリの組み合わせを決定する。例えば、「ブランドA」に含まれる出品商品の「落札価格」が図7Aに示す分布となり、「B会社」に含まれる出品商品の「落札価格」が図7Bに示す分布となるとする。なお、図7Aおよび図7Bは下位カテゴリに含まれるオブジェクトの特徴量の分布の一例を示すグラフであり、縦軸が商品数、横軸が価格を示している。
【0049】
図7Aおよび図7Bに示すように、「ブランドA」の分布および「B会社」の分布が類似しているものとする。この場合、2つのカテゴリの分布の平均値の差が小さくなり、算出部230は、「1」に近い統計的検定値を算出する。この場合、統合決定部241は、「ブランドA」および「B会社」の組み合わせを統合するカテゴリの組み合わせに決定する。
【0050】
なお、「ブランドA」および「B会社」を統合すると、指定カテゴリ「タブレット」の下位に位置するカテゴリが1つとなる。このような場合に、統合決定部241は、指定カテゴリ「タブレット」も「ブランドA」および「B会社」に統合すると決定する。
【0051】
また、統合決定部241は、「ブランドC」、「ブランドD」および「ブランドE」から統合するカテゴリの組み合わせを決定する。例えば、「ブランドC」に含まれる出品商品の「落札価格」が図8Aに示す分布となり、「ブランドD」に含まれる出品商品の「落札価格」が図8Bに示す分布となり、「ブランドE」に含まれる出品商品の「落札価格」が図8Cに示す分布となるとする。なお、図8A図8Cは下位カテゴリに含まれるオブジェクトの特徴量の分布の一例を示すグラフであり、縦軸が商品数、横軸が価格を示している。また、図8Cに示す「ブランドE」の「落札価格」の分布は、図5Aおよび図5Bに示す「商品E1」および「商品E2」の「落札価格」の分布を合わせた分布となっている。
【0052】
図8A図8Cに示すように、「ブランドC」の分布および「ブランドD」の分布が類似しており、「ブランドE」の分布は「ブランドC」、「ブランドD」の分布に類似していないものとする。この場合、「ブランドC」および「ブランドD」の分布の平均値の差が小さくなり、算出部230は、「1」に近い統計的検定値を算出する。一方、「ブランドC」および「ブランドE」の分布、「ブランドD」および「ブランドE」の分布の平均値の差は大きくなり、算出部230は「0」に近い統計的検定値をそれぞれ算出する。この場合、統合決定部241は、「ブランドC」および「ブランドD」の組み合わせを統合するカテゴリの組み合わせに決定する。また、「ブランドE」は統合を行わないと決定する。
【0053】
情報処理装置1の統合処理部242は、統合決定部241が決定したカテゴリの組み合わせを統合する。図9に、統合処理部242がカテゴリを統合した後のカテゴリツリーT23を示す。図9は、実施形態に係る統合処理部242が生成する複数のカテゴリの一例を示す図である。図9に示すように、統合処理部242は、「タブレット」に「ブランドA」および「B会社」を統合する。また、統合処理部242は、「ブランドCおよびD」を生成することで「ブランドC」および「ブランドD」を統合する。
【0054】
ここで、図9に示すように、「コンピュータ」の2つ下位に「ブランドCおよびD」および「ブランドE」が存在する。したがって、「コンピュータ」の下位カテゴリである「タブレット」および「パソコン」は統合できない。また、「タブレット」には下位カテゴリがなく、「パソコン」の下位カテゴリである「ブランドE」は、統合決定部241が統合を行わないと決定したカテゴリである。このように、図9に示すカテゴリツリーT23は、統合をおこなえるカテゴリが存在しない。この場合、情報処理装置1の統合処理部242は、カテゴリ情報および属性情報を更新し、統合処理を終了する。
【0055】
図10は、実施形態に係る更新後のカテゴリ情報記憶部110を示す図である。図10に示すように、統合処理部242は、「商品A」〜「商品E2」や「ブランドA」、「B会社」を削除し、カテゴリ情報を更新する。図11は、実施形態に係る更新後の属性情報記憶部120を示す図である。図11に示すように、統合処理部242は、属性情報の「商品カテゴリ」を更新後のカテゴリ情報に基づいて統合後のカテゴリに変更する。図11では、統合処理部242は、例えば商品A1の「商品カテゴリ」を「商品A」から「タブレット」に変更する(図4参照)。
【0056】
〔3.統合処理手順〕
次に、図12を用いて、実施形態に係る情報処理装置1による統合処理の手順について説明する。図12は、実施形態に係る情報処理装置1による統合処理手順を示すフローチャートである。実施形態に係る情報処理装置1は、下位カテゴリの1つ上位のカテゴリ(所定カテゴリ)に対し、以下の統合処理を行う。統合処理は、例えば統合できるカテゴリが存在しなくなるまで繰り返し行われるものとする。
【0057】
図12に示すように、情報処理装置1は、所定カテゴリの1つを指定カテゴリに指定する(ステップS101)。情報処理装置1は、指定カテゴリの2つ下位にカテゴリが存在するか否かを判定する(ステップS102)。2つ下位にカテゴリが存在する場合(ステップS102;Yes)、情報処理装置1は、統合を行わないとしてステップS108に進む。一方、2つ下位にカテゴリが存在しない、すなわち、指定カテゴリの下位カテゴリが全て最下位カテゴリである場合、(ステップS102;No)、情報処理装置1は、指定カテゴリの下位カテゴリ数が1であるか否かを判定する(ステップS103)。
【0058】
下位カテゴリ数が1、すなわち指定カテゴリに1つの下位カテゴリが属する場合(ステップS103;Yes)、情報処理装置1は、下位カテゴリと指定カテゴリとを統合し(ステップS104)、ステップS108に進む。
【0059】
一方、下位カテゴリ数が1ではない、すなわち指定カテゴリに複数の下位カテゴリが属する場合(ステップS103;No)、情報処理装置1は、複数の下位カテゴリの全ての組み合わせで統計的検定値を算出する(ステップS105)。情報処理装置1は、ステップS105で算出した統計的検定値に基づいて統合する下位カテゴリを決定し(ステップS106)、決定した下位カテゴリを統合する(ステップS107)。
【0060】
情報処理装置1は、全ての所定カテゴリについて統合判定を行ったか否かを判定する(ステップS108)。下位カテゴリの統合判定を行っていない所定カテゴリがある場合(ステップS108;No)、情報処理装置1は、統合判定を行っていない所定カテゴリ(未判定カテゴリ)を指定カテゴリに変更し(ステップS109)、ステップS102に戻る。一方、全ての所定カテゴリについて統合判定を行っている場合(ステップS108;Yes)、情報処理装置1は、統合処理を終了する。
【0061】
これにより、情報処理装置1は、カテゴリの統合精度を向上させることができる。そのため、カテゴリ数を削減することができ、例えば予測演算等のカテゴリを用いた処理を行う場合に、処理精度を低下させることなく処理速度を向上させることができる。
【0062】
〔4.変形例〕
上述した実施形態に係る情報処理装置1は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、他の実施形態について説明する。
【0063】
上記実施形態では、情報処理装置1は、t検定を行い、統計的検定値を算出するとしたが、これに限定されない。情報処理装置1は、連続値である特徴量に基づいた統計的検定を行えばよく、例えばブルンナー・ムンツェル検定やマン・ホイットニーのU検定等を行うようにしてもよい。またt検定としてウェルチのt検定を行うようにしてもよい。
【0064】
上記実施形態では、情報処理装置1は、全てのカテゴリについて統合できないと判定されるまで繰り返し統合処理を行うものとしたが、これに限定されない。例えば、下位カテゴリに含まれるオブジェクトの数に応じて統合処理を繰り返し行うようにしてもよい。すなわち、情報処理装置1の統合部240は、オブジェクトの数が所定値以下である下位カテゴリを統合する。具体的には、情報処理装置1の統合決定部241が、算出部230が算出した統計的検定値に基づいて、オブジェクトの数が所定値以下である下位カテゴリと統合する下位カテゴリを決定する。
【0065】
例えば処理部200によるカテゴリ情報を用いた演算処理において、統合前の下位カテゴリに含まれるオブジェクト数が所定値以下である場合、オブジェクト数が少なく、演算処理精度が低下してしまう場合である。このような場合においても、オブジェクト数が所定値以下である下位カテゴリを高精度で統合することでオブジェクト数を所定値以上に増加させることができ、演算処理精度を向上させることができる。なお、所定値は、例えば、算出部230で所定の精度で統計的検定が行える数であるとする。あるいは、所定値は、例えば、処理部200による演算処理において所定の精度で演算が行える数であってもよい。
【0066】
また、情報処理装置1の統合部240が、複数のカテゴリの数に応じて下位カテゴリを統合するようにしてもよい。すなわち、情報処理装置1の統合部240は、カテゴリの総数に応じて下位カテゴリを統合する。
【0067】
例えば処理部200によるカテゴリ情報を用いた演算処理において、カテゴリ情報に含まれるカテゴリの総数が多いと、演算精度が向上するが、演算量も増加する。そこで、情報処理装置1は、例えば処理部200が処理可能な演算量や求められる演算精度に応じたカテゴリ数になるように、下位カテゴリを統合する。これにより、処理部200の演算処理に応じた所望のカテゴリ数になるようにカテゴリを統合することができる。
【0068】
また、上記実施形態では、情報処理装置1の処理部200が「落札価格」の予測モデルの演算処理を行うとしたが、これに限定されない。処理部200はカテゴリ情報や属性情報に基づいた処理を行えばよく、例えばユーザが入札するか否かを予測する予測モデルや、商品の出品に違反がないか否かを予測する予測モデルなど、種々の演算を行うようにしてもよい。
【0069】
また、上記実施形態では、情報処理装置1が処理部200を備える構成としたが、これに限定されない。例えば、情報処理装置1とは異なる他装置が処理部200を備え、カテゴリ情報を用いた演算を行うようにしてもよい。この場合、情報処理装置1は、他装置からの要求に応じて複数のカテゴリを統合する。
【0070】
また、上記実施形態では、情報処理装置1が、カテゴリ情報および属性情報を記憶するとしたが、これに限定されない。カテゴリ情報および属性情報が図示しない記憶装置やサーバ装置などに記憶されていてもよい。この場合、情報処理装置1の取得部220が、記憶装置やサーバ装置などからカテゴリ情報および属性情報を取得するものとする。
【0071】
上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0072】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図2に示した特徴指定部210および取得部220は統合されてもよい。
【0073】
また、上記実施形態では、属性情報は、インターネットオークションの出品商品に関する情報としたがこれに限定されない。属性情報は、例えばインターネットを介して販売される商品に関する情報であってもよい。この場合、カテゴリ情報は、販売される商品を分類する商品カテゴリとなる。また、属性情報は、連続値の特徴量を含む情報であればよく、例えばユーザに関する情報であってもよい。このように、属性情報は、商品に関する情報に限られない。
【0074】
〔5.ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置1は、例えば図13に示すような構成のコンピュータ1000によって実現される。図13は、情報処理装置1の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、およびメディアインターフェイス(I/F)1700を有する。
【0075】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0076】
HDD1400は、CPU1100によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、通信網500を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを通信網500を介して他の機器へ送信する。
【0077】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、および、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
【0078】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0079】
例えば、コンピュータ1000が実施形態に係る情報処理装置1として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部20の機能を実現する。また、HDD1400には、記憶部10内のデータが格納される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から通信網500を介してこれらのプログラムを取得してもよい。
【0080】
〔6.効果〕
上述してきたように、実施形態に係る情報処理装置1は、算出部230と、統合部240とを備える。算出部230は、階層構造を有する複数のカテゴリのうち、所定カテゴリの下位に位置する複数の下位カテゴリに含まれるオブジェクトの特徴量であって、連続値で表される特徴量に基づき、複数の下位カテゴリの組み合わせごとに、統計的検定値を算出する。統合部240は、算出部230の算出結果に基づいて、複数の下位カテゴリを統合する。
【0081】
これにより、情報処理装置1は、連続値である特徴量に基づき、カテゴリを統合することができる。このため、カテゴリの統合精度を向上させることができる。このため、カテゴリ数を削減することができ、例えば予測演算等のカテゴリを用いた処理を行う場合に、処理精度を低下させることなく処理速度を向上させることができる。
【0082】
また、実施形態に係る統合部240は、下位カテゴリに含まれるオブジェクトの数が所定値以下である下位カテゴリを統合する。これにより、オブジェクト数が所定値以下である下位カテゴリを高精度で統合することができ、オブジェクト数を増加させることができる。このため、例えば予測演算等のカテゴリを用いた処理を行う場合に、処理精度を向上させることができる。
【0083】
また、実施形態に係る統合部240は、複数のカテゴリの数に応じて下位カテゴリを統合する。これにより、所望のカテゴリ数になるようにカテゴリを統合することができる。このため、複数のカテゴリの総数が、例えば予測演算等のカテゴリを用いた処理を行う場合の処理精度や処理速度に応じたカテゴリ数になるようにカテゴリを統合することができる。
【0084】
また、実施形態に係る情報処理装置1は、複数のカテゴリの階層情報(カテゴリ情報)を取得する取得部220をさらに備える。また、算出部230は、取得部220が取得した階層情報に基づき、下位カテゴリの組み合わせごとの統計的検定値を算出する。これにより、予め階層化されている複数のカテゴリを高精度に統合することができる。
【0085】
また、実施形態に係るオブジェクトは商品であり、カテゴリは商品に関する商品カテゴリである。また、算出部230は、商品の属性情報を特徴量として統計的検定値を算出する。これにより、情報処理装置1は、商品カテゴリの各カテゴリを精度よく統合することができる。
【0086】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【符号の説明】
【0087】
1 情報処理装置
110 カテゴリ情報記憶部
120 属性情報記憶部
200 処理部
220 取得部
230 算出部
240 統合部
241 統合決定部
242 統合処理部
図1
図2
図3A
図3B
図4
図5A
図5B
図6
図7A
図7B
図8A
図8B
図8C
図9
図10
図11
図12
図13