(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-07
(45)【発行日】2024-10-16
(54)【発明の名称】情報処理装置、分類方法、および分類プログラム
(51)【国際特許分類】
G06F 16/906 20190101AFI20241008BHJP
【FI】
G06F16/906
(21)【出願番号】P 2023510005
(86)(22)【出願日】2021-03-31
(86)【国際出願番号】 JP2021013793
(87)【国際公開番号】W WO2022208709
(87)【国際公開日】2022-10-06
【審査請求日】2023-07-12
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】小山田 昌史
【審査官】松尾 真人
(56)【参考文献】
【文献】米国特許出願公開第2008/0313142(US,A1)
【文献】特開2010-039600(JP,A)
【文献】特開2008-204444(JP,A)
【文献】特開2011-221877(JP,A)
【文献】米国特許出願公開第2009/0292696(US,A1)
【文献】山本 岳洋,役割に基づく協調検索における検索行動分析,第7回データ工学と情報マネジメントに関するフォーラム (第13回日本データベース学会年次大会) [online],電子情報通信学会データ工学研究専門委員会 日本データベース学会 情報処理学会データベースシステム研究会,2015年03月04日,DEIM Forum 2015 A8-5, Internet<URL:http://db-event.jpn.org/deim2015/paper/215.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段と、
前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段と
、
前記対象データについて検索した検索結果を前記対象関連情報として取得すると共に、前記カテゴリについて検索した検索結果を前記カテゴリ関連情報として取得する関連情報取得手段と、
前記対象関連情報が示す検索結果と前記カテゴリ関連情報が示す検索結果とが類似している度合いを示す前記類似度を算出する類似度算出手段と、を備え、
前記分類手段は、前記対象データを、前記類似度が最も高くなった前記カテゴリ関連情報に対応する前記カテゴリに分類し、
前記対象関連情報は、前記対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記カテゴリ関連情報は、前記カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記類似度算出手段は、前記対象関連情報と前記カテゴリ関連情報が示す上位から下位までの各検索結果の類似の程度に基づいて前記類似度を算出する、情報処理装置。
【請求項2】
前記類似度算出手段は、前記類似度の算出において、上位の検索結果間の類似の程度に対する重みを下位の検索結果間の類似の程度に対する重みよりも重くする、請求項
1に記載の情報処理装置。
【請求項3】
複数の前記カテゴリは階層構造となっており、
前記分類手段は、前記類似度と、前記対象データに関連する対象関連情報と前記カテゴリの上位のカテゴリに関連する上位カテゴリ関連情報とが類似している程度を示す上位類似度とに基づいて、前記対象データを複数の前記カテゴリの何れかに分類する、請求項1
または2に記載の情報処理装置。
【請求項4】
少なくとも1つのプロセッサが、
複数のカテゴリの何れかへの分類の対象となる対象データを取得することと、
前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類することと、
前記対象データについて検索した検索結果を前記対象関連情報として取得することと、
前記カテゴリについて検索した検索結果を前記カテゴリ関連情報として取得することと、
前記対象関連情報が示す検索結果と前記カテゴリ関連情報が示す検索結果とが類似している度合いを示す前記類似度を算出することと、を含み、
前記対象データの分類においては、前記対象データを、前記類似度が最も高くなった前記カテゴリ関連情報に対応する前記カテゴリに分類し、
前記対象関連情報は、前記対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記カテゴリ関連情報は、前記カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記類似度の算出においては、前記対象関連情報と前記カテゴリ関連情報が示す上位から下位までの各検索結果の類似の程度に基づいて前記類似度を算出する、分類方法。
【請求項5】
コンピュータを、
複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段
、
前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段、
前記対象データについて検索した検索結果を前記対象関連情報として取得すると共に、前記カテゴリについて検索した検索結果を前記カテゴリ関連情報として取得する関連情報取得手段、および
前記対象関連情報が示す検索結果と前記カテゴリ関連情報が示す検索結果とが類似している度合いを示す前記類似度を算出する類似度算出手段、として機能させる分類プログラム
であって、
前記分類手段は、前記対象データを、前記類似度が最も高くなった前記カテゴリ関連情報に対応する前記カテゴリに分類し、
前記対象関連情報は、前記対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記カテゴリ関連情報は、前記カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記類似度算出手段は、前記対象関連情報と前記カテゴリ関連情報が示す上位から下位までの各検索結果の類似の程度に基づいて前記類似度を算出する、分類プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、分類対象のデータをカテゴリに分類する情報処理装置等に関する。
【背景技術】
【0002】
近年では、様々なデータが大量に収集・蓄積されるようになったことに伴い、蓄積されたデータを効果的に利用するための分類に要するコストも増大している。このようなコストを抑えるための技術として、例えば下記の特許文献1が挙げられる。下記の特許文献1には、ネットワークを介して販売される商品またはサービスに関する商品データを様々なカテゴリに分類する情報処理装置が開示されている。
【0003】
より詳細には、特許文献1に記載されている情報処理装置は、階層的なカテゴリに分類された商品データを学習データとして、入力された商品データが示す商品に対して階層的なカテゴリの分類結果を出力するように学習された分類器を用いてカテゴリを決定する。この情報処理装置によれば、自動で商品データを分類することができるので、商品データの分類にかかる人的コストを削減することができる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1のように機械学習により構築した分類器を用いる場合、カテゴリ毎に十分な学習データがないと高精度な分類結果を出力できないという問題がある。本発明の一態様は、機械学習により構築した分類器を用いることなく、データを自動で分類することができる情報処理装置等を提供することを目的としている。
【課題を解決するための手段】
【0006】
本発明の一側面に係る情報処理装置は、複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段と、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段と、を備える。
【0007】
本発明の一側面に係る分類方法は、少なくとも1つのプロセッサが、複数のカテゴリの何れかへの分類の対象となる対象データを取得することと、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類することと、を含む。
【0008】
本発明の一側面に係る分類プログラムは、コンピュータを、複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段、および、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段、として機能させる。
【発明の効果】
【0009】
本発明の一態様によれば、機械学習により構築した分類器を用いることなく、データを自動で分類することができる。
【図面の簡単な説明】
【0010】
【
図1】本発明の例示的実施形態1に係る情報処理装置の構成を示すブロック図である。
【
図2】本発明の例示的実施形態1に係る分類方法の流れを示すフロー図である。
【
図3】本発明の例示的実施形態2に係る情報処理装置の構成を示すブロック図である。
【
図4】上記情報処理装置が実行する分類方法の流れを示すフロー図である。
【
図5】上記情報処理装置による対象データの分類の例を示す図である。
【
図6】本発明の例示的実施形態3に係る情報処理装置の構成を示すブロック図である。
【
図7】上記情報処理装置による、ウェブ検索の結果に基づく類似度の算出例を示す図である。
【
図8】上記情報処理装置による、ウェブ検索で検出されたウェブページ間の類似度に基づく類似度の算出例を示す図である。
【
図9】本発明の例示的実施形態4に係る情報処理装置の構成を示すブロック図である。
【
図10】上記情報処理装置による総合類似度の算出例を示す図である。
【
図11】上記情報処理装置が実行する分類方法の流れを示すフロー図である。
【
図12】本発明の各例示的実施形態に係る情報処理装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの一例を示す図である。
【発明を実施するための形態】
【0011】
〔例示的実施形態1〕
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
【0012】
(情報処理装置1の構成)
本例示的実施形態に係る情報処理装置1の構成について、
図1を参照して説明する。
図1は、情報処理装置1の構成を示すブロック図である。
図1に示すように、情報処理装置1は、データ取得部11と分類部12を備えている。
【0013】
データ取得部11は、複数のカテゴリの何れかへの分類の対象となる対象データを取得する。
【0014】
分類部12は、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する。
【0015】
以上のように、本例示的実施形態に係る情報処理装置1においては、複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段と、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段と、を備える、という構成が採用されている。
【0016】
対象データに関連する対象関連情報と、カテゴリに関連するカテゴリ関連情報とが類似している場合、対象データはそのカテゴリに適合している可能性が高い。よって、対象関連情報とカテゴリ関連情報の類似度に基づいて対象データの分類を行う前記の構成によれば、対象データを適切なカテゴリに分類することができる。また、前記の構成によれば、機械学習により構築した分類器を用いる必要がない。このように、本例示的実施形態に係る情報処理装置1によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができるという効果が得られる。
【0017】
(変換パターン決定プログラム)
上述の情報処理装置1の機能は、プログラムによって実現することもできる。本例示的実施形態に係る分類プログラムは、コンピュータを、複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段、および、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段、として機能させる、という構成が採用されている。このため、本例示的実施形態に係る分類プログラムによれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができるという効果が得られる。
【0018】
(分類方法の流れ)
本例示的実施形態に係る分類方法の流れについて、
図2を参照して説明する。
図2は、分類方法の流れを示すフロー図である。なお、この分類方法における各ステップの実行主体は、情報処理装置1が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。
【0019】
S11では、少なくとも1つのプロセッサが、複数のカテゴリの何れかへの分類の対象となる対象データを取得する。
【0020】
S12では、少なくとも1つのプロセッサが、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する。
【0021】
以上のように、本例示的実施形態に係る分類方法においては、少なくとも1つのプロセッサが、複数のカテゴリの何れかへの分類の対象となる対象データを取得することと、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類することと、を含む、という構成が採用されている。このため、本例示的実施形態に係る分類方法によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができるという効果が得られる。
【0022】
〔例示的実施形態2〕
(情報処理装置2の構成)
図3に基づいて本例示的実施形態に係る情報処理装置2の構成を説明する。
図3は、情報処理装置2の構成を示すブロック図である。図示のように、情報処理装置2は、情報処理装置2の各部を統括して制御する制御部20と、情報処理装置2が使用する各種データを記憶する記憶部21を備えている。また、情報処理装置2は、情報処理装置2が他の装置と通信するための通信部22、情報処理装置2に対する各種データの入力を受け付ける入力部23、情報処理装置2が各種データを出力するための出力部24を備えている。
【0023】
また、制御部20には、データ取得部201、分類先データ取得部202、関連情報取得部203、類似度算出部204、および分類部205が含まれている。そして、記憶部21には、分類先データ211および関連情報DB212が記憶されている。
【0024】
データ取得部201は、複数のカテゴリの何れかへの分類の対象となる対象データを取得する。対象データは分類の対象となり得るものであればよく、例えばテキストデータ、画像データ、または音声データ等を対象データとしてもよい。対象データは、例えばデータベースやデータテーブルに含まれるアイテム名等であってもよい。
【0025】
分類先データ取得部202は、対象データの分類先となる複数のカテゴリを示す分類先データ211を取得して、対象データの分類先の候補となるカテゴリを特定する。分類先のカテゴリについて特に制限はなく、対象データの分類先として適当なカテゴリを予め分類先データ211に規定しておけばよい。
【0026】
なお、分類先のカテゴリは階層化されていてもよい。この場合、分類先データ211は、分類先の各カテゴリとそれらの階層(例えば、大分類、中分類、小分類等)を示すデータとすればよい。
【0027】
関連情報取得部203は、対象データに関連する対象関連情報を取得する。対象関連情報は対象データに関連した情報であればよい。本例示的実施形態では、対象データについて検索した検索結果を対象関連情報として取得する例を説明する。より詳細には、関連情報取得部203は、対象データに関連する情報を、関連情報DB212内で検索し、この検索で検出された情報を対象関連情報として取得する。
【0028】
関連情報DB212は、対象データに関連する可能性がある各種情報を記録するデータベースである。関連情報DB212は、対象データに応じたものを予め用意しておけばよい。なお、関連情報DB212は、情報処理装置2の外部の装置に記憶されていてもよい。
【0029】
例えば、対象データが商品の名称を示すテキストデータである場合、各種商品についての説明文や、各種商品についてのレビュー等の各種テキストデータを記録した関連情報DB212を用いてもよい。この他にも、例えば、対象データと関連する商品やサービスを扱う企業のデータベースやデータレイクを関連情報DB212として利用してもよい。
【0030】
また、例えば、対象データと関連し得る様々な商品やサービスに関する各種データを対象としたデータエンリッチメントにより抽出されたデータを格納するデータベースを関連情報DB212として利用してもよい。データエンリッチメントとは、対象となるデータに関連する各種情報を抽出してそのデータの付加情報とすることにより、対象となるデータの利用価値を高めるサービスである。また、この場合、情報処理装置2が決定したカテゴリを対象データに関連する情報として関連情報DB212に追加してもよい。この場合、情報処理装置2は、対象データのデータエンリッチメントを行っているともいえる。
【0031】
また、対象データが画像データである場合には、関連情報取得部203は、対象データと類似した画像や、対象データに関連するテキストデータを関連情報DB212内で検索してもよい。
【0032】
また、関連情報取得部203は、カテゴリに関連するカテゴリ関連情報を取得する。カテゴリ関連情報は対象となるカテゴリに関連した情報であればよい。本例示的実施形態では、上述した対象データと同様に、カテゴリに関連する情報を、関連情報DB212内で検索し、その検索結果をカテゴリ関連情報として取得する例を説明する。なお、対象データについての検索と、カテゴリについての検索は、同一の関連情報DB212を対象として行ってもよいし、記録されているデータが異なる関連情報DB212を対象として行ってもよい。
【0033】
類似度算出部204は、対象関連情報が示す検索結果とカテゴリ関連情報が示す検索結果とが類似している度合いを示す類似度を算出する。なお、検索結果の類似度の算出方法については実施形態3で説明する。
【0034】
分類部205は、類似度算出部204が算出する類似度、すなわち、対象データに関連する対象関連情報と、カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、対象データを複数のカテゴリの何れかに分類する。具体的には、分類部205は、対象データを、その分類先の候補の複数のカテゴリのうち、上述の類似度が最も高くなったカテゴリ関連情報に対応するカテゴリに分類する。
【0035】
以上のように、本例示的実施形態に係る情報処理装置2においては、対象データについて検索した検索結果を対象関連情報として取得すると共に、カテゴリについて検索した検索結果をカテゴリ関連情報として取得する関連情報取得部203と、対象関連情報が示す検索結果とカテゴリ関連情報が示す検索結果とが類似している度合いを示す類似度を算出する類似度算出部204と、を備え、分類部205は、対象データを、類似度が最も高くなったカテゴリ関連情報に対応するカテゴリに分類する、という構成が採用されている。
【0036】
対象データについて検索した検索結果は対象データに関連しているから対象関連情報として妥当な情報である。また、カテゴリについて検索した検索結果も同様にカテゴリ関連情報として妥当な情報である。そして、各検索結果が類似している程度は、類似度として数値化することが可能である。このため、本例示的実施形態に係る情報処理装置2によれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、対象データをより適切に分類することが可能になるという効果が得られる。
【0037】
(分類方法の流れ)
本例示的実施形態に係る分類方法の流れについて、
図4を参照して説明する。
図4は、情報処理装置2が実行する分類方法の流れを示すフロー図である。なお、以下では、分類の例を示す
図5についてもあわせて説明する。
【0038】
S21では、データ取得部201が、複数のカテゴリの何れかへの分類の対象となる対象データを取得する。例えば、
図5の例であれば、データ取得部201は、「タピ茶」という単語(商品名)のテキストデータを対象データとして取得する。
【0039】
S22では、分類先データ取得部202が、記憶部21に記憶されている分類先データ211を取得し、S21で取得された対象データの分類先の候補となるカテゴリを特定する。例えば、
図5の例において、対象データの「タピ茶」を大分類のカテゴリに分類する場合、分類先データ取得部202は、分類先データ211に示される大分類から小分類までの各カテゴリのうち、大分類のカテゴリである「ドリンク」と「フード」を特定する。
【0040】
S23では、関連情報取得部203が、S21で取得された対象データに関連する情報を、関連情報DB212内で検索する。そして、この検索により得られた検索結果を対象関連情報として取得する。例えば、
図5の例において、各種商品の商品情報やレビュー等のテキストデータが格納された関連情報DB212の検索を行う場合、「タピ茶」という文字列を含む商品情報やレビューが検出され、それらの商品情報やレビューのテキストデータが対象関連情報として取得される。なお、この検索はテキストデータの全文一致検索に限られず、部分一致検索としてもよい。例えば、「タピ茶」であれば、この文字列を分割して得られる文字列「タピ」や「茶」で検索してもよい。
【0041】
S24では、関連情報取得部203は、S22で取得された分類先データに示される各カテゴリに関連する情報を、関連情報DB212内で検索する。そして、この検索により得られた各検索結果を、各カテゴリのカテゴリ関連情報として取得する。例えば、
図5の例において、各種商品の商品情報やレビュー等のテキストデータが格納された関連情報DB212の検索を行う場合、「ドリンク」という文字列を含む商品情報やレビューが検出され、それらの商品情報やレビューのテキストがカテゴリ関連情報として取得される。同様に、「フード」という文字列による検索により、この文字列を含む商品情報やレビュー検出され、それらの商品情報やレビューのテキストもカテゴリ関連情報として取得される。なお、S24の処理をS23の処理より先に行ってもよいし、これらの処理を並行で行ってもよい。
【0042】
S25では、類似度算出部204が、S23で取得された対象関連情報が示す検索結果と、S24で取得されたカテゴリ関連情報が示す検索結果とが類似している度合いを示す類似度を算出する。この処理は、S22で特定されたカテゴリのそれぞれについて行われる。例えば、
図5の例では、「タピ茶」の検索結果と「ドリンク」の検索結果の類似度が0.9と算出され、「タピ茶」の検索結果と「フード」の検索結果の類似度が0.7と算出されている。
【0043】
S26では、分類部205が、類似度算出部204が算出した類似度が最も高かったカテゴリに対象データを分類する。例えば、
図5の例では、「タピ茶」の検索結果と「ドリンク」の検索結果の類似度が0.9であり、「タピ茶」の検索結果と「フード」の検索結果の類似度が0.7であるから、「タピ茶」は大分類「ドリンク」に分類される。そして、分類部205は、算出した類似度を出力部24に出力させる。これにより、
図4に示す分類方法は終了する。算出した類似度は通信部22を介して他の装置に送信して出力させてもよいし、算出した類似度を記憶部21に記憶させてもよい。
【0044】
なお、S26で分類した分類先にさらに下位の分類先が存在する場合には、S26の処理に続いて下位の分類先への分類を行ってもよい。この場合、S26の処理が終了した後にS22の処理に戻り、S22で下位の分類先の候補となるカテゴリを特定し、続いてS23~S26の処理を行うことにより、下位の分類先のカテゴリを決定する。
【0045】
例えば、
図5の例では、「タピ茶」の大分類を「ドリンク」に決定した後には、「ドリンク」の下位の中分類のカテゴリである「アルコール」と「お茶」が分類先の候補となっている。そして、「タピ茶」の検索結果と「アルコール」の検索結果の類似度が0.05と算出され、「タピ茶」の検索結果と「お茶」の検索結果の類似度が0.95と算出されている。これにより、「タピ茶」の中分類は「お茶」に決定される。なお、下位のカテゴリを決定する際には、S23の処理を再度行う必要はなく、上位のカテゴリを決定する際に取得した対象関連情報をそのまま用いればよい。
【0046】
また、中分類の「お茶」には、さらに下位の小分類のカテゴリとして「タピオカミルクティー」と「緑茶」が存在するから、これらのカテゴリが次の分類における分類先の候補となる。そして、「タピ茶」の検索結果と「タピオカミルクティー」の検索結果の類似度が0.97と算出され、「タピ茶」の検索結果と「緑茶」の検索結果の類似度が0.25と算出されている。これにより、「タピ茶」の小分類は「タピオカミルクティー」に決定される。以上の処理により、「タピ茶」という対象データについて、大分類「ドリンク」、中分類「お茶」、小分類「タピオカミルクティー」という妥当な分類結果が得られる。
【0047】
なお、上述の例では、上位カテゴリから順に決定しているが、下位カテゴリから順に決定してもよい。下位カテゴリから順に決定する場合、S22で特定される分類先候補のカテゴリが多数となり、S24でそれら多数のカテゴリの関連情報を取得する必要がある。その一方で、下位カテゴリが決定されれば上位カテゴリは自動的に決まるため、この場合には、
図4のS22~S26の処理を複数回繰り返す必要はない。
【0048】
また、上位から順にカテゴリを決定する場合と、下位から順にカテゴリを決定する場合とで、決定される各階層のカテゴリが異なることもあり得る。このため、例えば、情報処理装置2は、上位から順にカテゴリを決定する処理と、下位から順にカテゴリ決定する処理とを両方を行い、各処理で決定した各階層のカテゴリを出力してもよい。この場合、情報処理装置2のユーザは、出力されたカテゴリのうち、自身が妥当と判断した方を最終的なカテゴリとして採用すればよい。
【0049】
〔例示的実施形態3〕
本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態2にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
【0050】
(情報処理装置2Aの構成)
本例示的実施形態に係る情報処理装置2Aの構成を
図6に基づいて説明する。
図6は、情報処理装置2Aの構成を示すブロック図である。情報処理装置2Aは、
図3に示した情報処理装置2と比べて、ウェブ検索部203Aを備えている点、および記憶部21に関連情報DB212が記憶されていない点で相違している。
【0051】
ウェブ検索部203Aは、対象データについてウェブ検索を行い、その検索結果を関連情報取得部203に出力する。つまり、本例示的実施形態において、関連情報取得部203が取得する対象関連情報は、ウェブ検索部203Aによる対象データのウェブ検索の結果である。なお、検索方法は特に限定されない。例えば、ウェブ検索部203Aは、テキストデータによる検索であれば、全文一致検索を行ってもよいし、部分一致検索を行ってもよい。また、例えば、ウェブ検索部203Aは、対象データが画像データであれば、その画像データに類似した画像を検索してもよい。
【0052】
同様に、ウェブ検索部203Aは、対象データの分類先の候補である各カテゴリについてもウェブ検索を行い、その検索結果を関連情報取得部203に出力する。つまり、本例示的実施形態において、関連情報取得部203が取得するカテゴリ関連情報は、ウェブ検索部203Aによる各カテゴリのウェブ検索の結果である。
【0053】
このため、本例示的実施形態では、類似度算出部204は、対象関連情報が示す、対象データのウェブ検索の結果と、カテゴリ関連情報が示す、各カテゴリのウェブ検索の結果とが類似している度合いを示す類似度を算出する。
【0054】
(類似度の算出方法の概要)
本例示的実施形態における類似度の算出方法の概要を
図7に基づいて説明する。
図7は、ウェブ検索の結果に基づく類似度の算出例を示す図である。より詳細には、
図7は、対象データが「タピ茶」であり、分類先の候補が「アルコール」と「お茶」のカテゴリである例を示している。
【0055】
図7の例では、ウェブ検索部203Aは、対象データである「タピ茶」についてウェブ検索を行っている。
図7には、この検索結果をSR1として示している。SR1に示されるように、ウェブ検索により「タピ茶」という文字列を含む様々なウェブページが検出される。
【0056】
同様に、
図7の例では、ウェブ検索部203Aは、分類先の候補であるカテゴリ「アルコール」と「お茶」についてもそれぞれウェブ検索を行っている。
図7には、これらの検索結果をそれぞれSR2、SR3として示している。SR2、SR3に示されるように、ウェブ検索により「アルコール」という文字列を含む様々なウェブページが検出されると共に、「お茶」という文字列を含む様々なウェブページが検出される。
【0057】
上述のような各検索結果は関連情報取得部203に出力され、関連情報取得部203は出力された検索結果から対象関連情報およびカテゴリ関連情報(以下、これらをまとめて単に関連情報と呼ぶ)を取得する。なお、関連情報取得部203は、ウェブ検索部203Aによる検出結果の全てを関連情報とする必要はなく、類似度の算出に必要な検索結果を関連情報として取得すればよい。例えば、関連情報取得部203は、ウェブ検索部203Aの検索結果のうち上位の所定数を関連情報として取得してもよい。
【0058】
そして、類似度算出部204は、関連情報取得部203が取得する関連情報を用いて類似度を算出する。
図7の例では、対象データ「タピ茶」の検索結果と、カテゴリ「アルコール」の検索結果との類似度が0.2と算出されており、対象データ「タピ茶」の検索結果と、カテゴリ「お茶」の検索結果との類似度が0.6と算出されている。この場合、分類部205は、対象データ「タピ茶」を類似度がより高いカテゴリ「お茶」に分類する。
【0059】
(類似度の算出方法の詳細)
続いて、類似度算出部204による類似度の算出方法の詳細について
図8に基づいて説明する。
図8は、ウェブ検索で検出されたウェブページ間の類似度に基づく類似度の算出例を示す図である。
【0060】
図8には、対象データ「タピ茶」の検索結果のうち、最も上位の検索結果として検出されたウェブページP
I
1と、2番目に上位の検索結果として検出されたウェブページP
I
2を示している。また、
図8には、カテゴリ「お茶」の検索結果のうち、最も上位の検索結果であるウェブページP
C
1と、2番目に上位の検索結果であるウェブページP
C
2を示している。
【0061】
類似度算出部204は、検出されたウェブページ間の類似度sim(PI
i,PC
j)を用いて、対象データ「タピ茶」の検索結果と、カテゴリ「お茶」の検索結果との類似度を算出してもよい。
【0062】
例えば、類似度算出部204は、類似度を算出する対象となるウェブページあるいはドキュメントで使用されている単語の重複度合い、ドメイン名の重複度合い、またはファイルパスに含まれる単語の重複度合いを、ウェブページ間の類似度sim(PI
i,PC
j)として算出してもよい。例えば、重複度合いをJaccard-Indexで算出してもよく、この場合、ウェブページ間の類似度sim(PI
i,PC
j)は下記の数式で表される。
sim(PI
i,PC
j)=J(bow(PI
i),bow(PC
j))
なお、bow(PI
i)は、ウェブページPI
iにおける単語のカウント値からなる多重集合である。同様に、bow(PC
j)は、ウェブページPC
jにおける単語のカウント値からなる多重集合である。無論、Jaccard-Indexは一例にすぎず、各検索結果から得られる集合間の類似度を算出する任意の手法を適用することができる。
【0063】
類似度算出部204は、上述のようにして算出した各ウェブページ間の類似度を用いて、
図8に示す数式(1)により、対象データとカテゴリの類似度(より正確には対象関連情報とカテゴリ関連情報の類似度)を算出してもよい。数式(1)におけるr(i,j)は重みである。つまり、数式(1)を用いる場合、類似度算出部204は、ウェブページ間の類似度にその検索順位に応じた重みr(i,j)を乗じるという演算を、1位から10位までの各検索順位の全ての組み合わせについて行い、各演算結果の和を対象関連情報とカテゴリ関連情報の類似度として算出する。
【0064】
無論、重みを乗じることは必須ではない。ただし、重みを乗じることにより、妥当な類似度が算出される確度を高めることが可能になるので、重みを乗じることは好ましい。例えば、上位の検索結果間の類似の程度に対する重みを下位の検索結果間の類似の程度に対する重みよりも重くしてもよい。これは、上位の検索結果は下位の検索結果よりも対象データやカテゴリと関連の深いものとなることが多いためである。具体的には、例えば、r(i,j)=(1/i)・(1/j)としてもよい。
【0065】
なお、
図7および
図8に示した類似度の算出方法は、関連情報DB212を対象とした検索の検索結果の類似度の算出にも同様に適用することができる。
【0066】
ここで、ウェブまたは関連情報DB212を対象として検索を行った場合、対象データやカテゴリと関連の深いものから低いものまで、様々な検索結果が得られる可能性がある。このため、対象関連情報およびカテゴリ関連情報に含まれる検索結果が、何れも対象データやカテゴリと関連の低いものであった場合には、妥当な類似度が算出されないことも考えられる。
【0067】
そこで、本例示的実施形態に係る情報処理装置2Aにおいては、以上のように、対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示す対象関連情報を用いる。また、カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示すカテゴリ関連情報を用いる。具体的には、類似度算出部204は、対象関連情報とカテゴリ関連情報が示す上位から下位までの各検索結果の類似の程度に基づいて類似度を算出する、という構成が採用されている。
【0068】
このため、本例示的実施形態に係る情報処理装置2Aによれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、対象関連情報およびカテゴリ関連情報の中に、対象データやカテゴリと関連の高い検索結果が含まれる可能性を高めて、類似度の確度を高めることができるという効果が得られる。また、対象関連情報およびカテゴリ関連情報に対象データやカテゴリと関連の低い検索結果が含まれていたとしても、全体として妥当な類似度を算出することが可能になる。
【0069】
また、以上のように、本例示的実施形態に係る情報処理装置2Aにおいては、類似度算出部204は、類似度の算出において、上位の検索結果間の類似の程度に対する重みを下位の検索結果間の類似の程度に対する重みよりも重くする、という構成を採用してもよい。
【0070】
上位の検索結果は下位の検索結果よりも対象データやカテゴリと関連の深いものとなることが多い。このため、本例示的実施形態に係る情報処理装置2Aによれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、妥当な類似度が算出される確度を高めることができるという効果が得られる。
【0071】
〔例示的実施形態4〕
本発明の第4の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態3にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
【0072】
(情報処理装置2Bの構成)
本例示的実施形態に係る情報処理装置2Bの構成を
図9に基づいて説明する。
図9は、情報処理装置2Bの構成を示すブロック図である。情報処理装置2Bは、
図6に示した情報処理装置2Aと比べて、階層構造特定部203Bを備えている点、および記憶部21に階層情報211Bが記憶されている点で相違している。
【0073】
階層構造特定部203Bは、カテゴリの階層構造を示す階層情報211Bに基づいて、分類先の候補の各カテゴリの上位のカテゴリを特定する。具体的には、階層情報211Bには、分類先データ211に示される各カテゴリについて、その上位カテゴリと下位カテゴリが示されている。なお、最上位のカテゴリには下位カテゴリのみが示され、最下位のカテゴリには上位カテゴリのみが示されている。よって、階層構造特定部203Bは、階層情報211Bを参照することにより、分類先データ取得部202が取得した分類先の候補の各カテゴリの上位カテゴリを特定することができる。
【0074】
本例示的実施形態では、ウェブ検索部203Aは、対象データと対象データの分類先の候補のカテゴリのそれぞれについてウェブ検索を行うと共に、そのカテゴリの上位のカテゴリについてもウェブ検索を行い、それらの検索結果を関連情報取得部203に出力する。このため、本例示的実施形態の関連情報取得部203は、対象関連情報とカテゴリ関連情報に加えて、カテゴリの上位のカテゴリに関連する情報である上位カテゴリ関連情報を取得する。
【0075】
また、類似度算出部204は、対象関連情報とカテゴリ関連情報との類似度を算出すると共に、対象関連情報と上位カテゴリ関連情報とが類似している程度を示す上位類似度を算出する。そして、分類部205は、上述のようにして算出された類似度および上位類似度に基づいて対象データを分類する。より詳細には、類似度算出部204は、類似度と上位類似度から総合類似度を算出するので、分類部205は、この総合類似度に基づいて対象データを分類する。
【0076】
(総合類似度の算出方法)
総合類似度の算出方法を
図10に基づいて説明する。
図10は、総合類似度の算出例を示す図である。この例では、対象データが「タピ茶」であり、分類先の候補が小分類のカテゴリ「ビール」と「タピオカミルクティー」である。
【0077】
この例では、分類先データ取得部202は、分類先データ211から、小分類のカテゴリ「ビール」と「タピオカミルクティー」を分類先の候補として取得する。そして、階層構造特定部203Bは、「ビール」の上位カテゴリが「アルコール」であることを特定すると共に、「タピオカミルクティー」の上位カテゴリが「お茶」であることを特定する。なお、階層構造特定部203Bは、さらに上位のカテゴリについても特定してもよい。
【0078】
次に、ウェブ検索部203Aが、対象データ「タピ茶」、分類先の候補のカテゴリである「ビール」と「タピオカミルクティー」、およびそれらの上位カテゴリである「アルコール」と「お茶」のそれぞれについてウェブ検索を行う。そして、関連情報取得部203は、これらの検索結果を示す対象関連情報とカテゴリ関連情報と上位カテゴリ関連情報とを取得する。
【0079】
次に、類似度算出部204が、対象関連情報とカテゴリ関連情報との類似度sim(I,C)を算出すると共に、対象関連情報と上位カテゴリ関連情報との類似度である上位類似度simrecursive(I,parent(C))を算出する。
【0080】
図10の例において、「タピ茶」の対象関連情報と「ビール」のカテゴリ関連情報との類似度sim(I,C)と、「タピ茶」の対象関連情報と「アルコール」(「ビール」の上位カテゴリ)のカテゴリ関連情報との類似度である上位類似度sim
recursive(I,parent(C))は、何れも0.05と算出されている。また、「タピ茶」の対象関連情報と「タピオカミルクティー」のカテゴリ関連情報との類似度sim(I,C)は、0.97と算出され、「タピ茶」の対象関連情報と「お茶」(タピオカミルクティー」の上位カテゴリ)の上位カテゴリ関連情報との類似度である上位類似度sim
recursive(I,parent(C))は、0.95と算出されている。
【0081】
ここで、類似度算出部204は、
図10に示す数式(2)で総合類似度sim
recursive(I,C)を算出してもよい。なお、数式(2)におけるαは0から1の間で設定される重み値である。数式(2)を用いる場合、αが0.5未満のときに、対象関連情報とカテゴリ関連情報との類似度sim(I,C)に対する重みが、対象関連情報と上位カテゴリ関連情報との上位類似度sim
recursive(I,parent(C))に対する重みよりも重くなる。このため、αは0.5未満とすることが好ましい。また、上位カテゴリのさらに上位のカテゴリについては、上位カテゴリよりもさらに重みを小さくすることが好ましい。これにより、分類先の候補のカテゴリに近いものにより高い影響度を持たせることができる。
【0082】
例えば、α=0.2とした場合、「タピ茶」と「ビール」についての総合類似度simrecursive(I,C)=0.8×0.05+0.2×0.05=0.05となる。また、「タピ茶」と「タピオカミルクティー」についての総合類似度simrecursive(I,C)=0.8×0.97+0.2×0.95=0.97となる。
【0083】
分類部205は、このようにして算出した、各カテゴリについての総合類似度に基づいて対象データを分類する。
図10の例では、分類部205は、総合類似度がより高い「タピオカミルクティー」に「タピ茶」を分類する。
【0084】
(分類方法の流れ)
本例示的実施形態に係る分類方法の流れについて、
図11を参照して説明する。
図11は、情報処理装置2Bが実行する分類方法の流れを示すフロー図である。なお、S31およびS32は、
図4のS21およびS22と同様であるからここでは説明を繰り返さない。
【0085】
S33では、階層構造特定部203Bが、階層情報211Bに基づいて、S32で特定されたカテゴリの上位カテゴリを特定する。なお、階層構造特定部203Bは、特定した上位カテゴリにさらに上位のカテゴリがある場合には、そのカテゴリについても特定してもよい。また、この処理は、最上位のカテゴリを特定するまで繰り返してもよい。例えば、大分類、中分類、小分類の3階層のカテゴリが規定されている場合に、S32で小分類のカテゴリが特定されたときには、階層構造特定部203Bは、少なくとも中分類のカテゴリを特定し、さらに大分類のカテゴリについても特定してもよい。なお、S32で特定されたカテゴリに上位のカテゴリが存在しない場合には、例示的実施形態2または3と同様に、対象関連情報とカテゴリ関連情報の類似度に基づいて分類を行えばよい。
【0086】
S34では、ウェブ検索部203AがS31で取得された対象データに関連する情報をウェブ検索してその検索結果を関連情報取得部203に出力し、関連情報取得部203が、上記検索結果を対象関連情報として取得する。例えば、関連情報取得部203は、検索結果のうち上位所定件数を対象関連情報として取得してもよい。
【0087】
S35では、関連情報取得部203は、S32で特定された複数のカテゴリの中から1つを選択する。そして、続くS36では、ウェブ検索部203Aが、S35で選択されたカテゴリに関連する情報をウェブ検索してその検索結果を関連情報取得部203に出力し、関連情報取得部203が、上記検索結果をカテゴリ関連情報として取得する。
【0088】
S37では、ウェブ検索部203Aが、S35で選択されたカテゴリの上位カテゴリ(S33で特定されたもの)に関連する情報をウェブ検索してその検索結果を関連情報取得部203に出力する。そして、関連情報取得部203が、上記検索結果を上位カテゴリ関連情報として取得する。
【0089】
S38では、類似度算出部204が、S34で取得された対象関連情報と、S36で取得されたカテゴリ関連情報との類似度を算出すると共に、S34で取得された対象関連情報と、S37で取得された上位カテゴリ関連情報との類似度を算出する。そして、S39では、類似度算出部204は、S38で算出した各類似度から総合類似度を算出する。
【0090】
S40では、関連情報取得部203が、S32で特定された複数のカテゴリの全てについて総合類似度の算出が終了しているか否かを判定する。ここで終了していると判定された場合(S40でYES)にはS41の処理に進む。一方、関連情報取得部203は、総合類似度の算出が終了していないと判定した場合(S40でNO)にはS35の処理に戻り、総合類似度の算出に用いられていないカテゴリを1つ選択する。
【0091】
S41では、分類部205が、S32で特定された複数のカテゴリのうち、総合類似度が最も高いカテゴリに対象データを分類する。これにより、
図11の分類方法は、終了する。
【0092】
以上のように、本例示的実施形態に係る情報処理装置2Bにおいては、分類先の複数のカテゴリが階層構造となっている場合、分類部205は、対象関連情報とカテゴリ関連情報との類似度と、対象関連情報と上位カテゴリ関連情報とが類似している程度を示す上位類似度とに基づいて、対象データを複数のカテゴリの何れかに分類する、という構成が採用されている。
【0093】
このため、本例示的実施形態に係る情報処理装置2Bによれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、対象関連情報とカテゴリ関連情報との類似度のみからは適切なカテゴリを特定できないような場合にも、対象データを適切なカテゴリに分類することが可能になるという効果が得られる。
【0094】
これは、カテゴリが階層構造となっている場合、対象データを正しいカテゴリに分類できたときには、対象関連情報と上位カテゴリ関連情報との類似度が高くなることが多いためである。例えば、「タピ茶」という対象データの正しい分類が、上位カテゴリ「茶」であり、下位カテゴリ「タピオカミルクティー」であるとする。この場合、「タピ茶」の関連情報(対象関連情報)と、「茶」の関連情報(上位カテゴリ関連情報)との類似度が高くなる。
【0095】
例えば、上述の例で、下位カテゴリに「タピオカサワー」という分類が存在したとする。この場合、「タピ茶」の関連情報と「タピオカサワー」の関連情報との類似度と、「タピ茶」の関連情報と「タピオカミルクティー」の関連情報との類似度に差が出ないか、または「タピオカサワー」の関連情報との類似度の方が高くなることも考えられる。このような場合であっても、「タピオカサワー」の上位カテゴリが例えば「アルコール」であれば、「タピ茶」の関連情報の「アルコール」の関連情報に対する類似度は、「タピ茶」の関連情報の「茶」の関連情報に対する類似度よりも低くなると考えられる。よって、上位類似度に基づいて分類することにより、「タピ茶」を「タピオカミルクティー」に正しく分類することが可能になる。
【0096】
〔変形例〕
例示的実施形態3に係る情報処理装置2Aおよび例示的実施形態4に係る情報処理装置2Bにおいては、例示的実施形態2に係る情報処理装置2と同様に、関連情報DB212で検索した検索結果を関連情報としてもよい。なお、ここで関連情報とは、対象データ関連情報、カテゴリ関連情報、および上位カテゴリ関連情報の何れかまたは全部である。
【0097】
また、情報処理装置2Aおよび情報処理装置2Bは、ウェブ検索結果と関連情報DB212の検索結果の両方を関連情報としてもよい。また、情報処理装置2Bは、関連情報DB212で検索した検索結果を関連情報とする場合、ウェブ検索部203Aを省略してもよい。
【0098】
また、上述の各例示的実施形態において、対象データとカテゴリの類似度についても算出し、その類似度も加味して対象データの分類を行ってもよい。例えば、対象データ名とカテゴリ名との類似度を、それらの名称に含まれる文字列の共通性等に基づいて算出してもよい。
【0099】
上述の各例示的実施形態で説明した各処理の実行主体は任意であり、上述の例に限られない。つまり、相互に通信可能な複数の装置により、情報処理装置1、2、2A、2Bと同様の機能を有する情報処理システムを構築することができる。例えば、
図3、
図6、および
図9に示す各ブロックを複数の装置に分散して設けることにより、情報処理装置2、2A、2Bと同様の機能を有する情報処理システムを構築することができる。
【0100】
〔ソフトウェアによる実現例〕
情報処理装置1、2、2A、2Bの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
【0101】
後者の場合、情報処理装置1、2、2A、2Bは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を
図12に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを情報処理装置1、2、2A、2Bとして動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、情報処理装置1、2、2A、2Bの各機能が実現される。
【0102】
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
【0103】
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
【0104】
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
【0105】
〔付記事項1〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
【0106】
〔付記事項2〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
【0107】
(付記1)
複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段と、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段と、を備える情報処理装置。この構成によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができる。
【0108】
(付記2)
前記対象データについて検索した検索結果を前記対象関連情報として取得すると共に、前記カテゴリについて検索した検索結果を前記カテゴリ関連情報として取得する関連情報取得手段と、前記対象関連情報が示す検索結果と前記カテゴリ関連情報が示す検索結果とが類似している度合いを示す前記類似度を算出する類似度算出手段と、を備え、前記分類手段は、前記対象データを、前記類似度が最も高くなった前記カテゴリ関連情報に対応する前記カテゴリに分類する、付記1に記載の情報処理装置。この構成によれば、対象データを適切に分類することができる。
【0109】
(付記3)
前記対象関連情報は、前記対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、前記カテゴリ関連情報は、前記カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、前記類似度算出手段は、前記対象関連情報と前記カテゴリ関連情報が示す上位から下位までの各検索結果の類似の程度に基づいて前記類似度を算出する、付記2に記載の情報処理装置。この構成によれば、類似度の確度を高めることができる。また、対象関連情報およびカテゴリ関連情報に対象データやカテゴリと関連の低い検索結果が含まれていたとしても、全体として妥当な類似度を算出することが可能になる。
【0110】
(付記4)
前記類似度算出手段は、前記類似度の算出において、上位の検索結果間の類似の程度に対する重みを下位の検索結果間の類似の程度に対する重みよりも重くする、付記3に記載の情報処理装置。この構成によれば、妥当な類似度が算出される確度を高めることができる。
【0111】
(付記5)
複数の前記カテゴリは階層構造となっており、前記分類手段は、前記類似度と、前記対象データに関連する対象関連情報と前記カテゴリの上位のカテゴリに関連する上位カテゴリ関連情報とが類似している程度を示す上位類似度とに基づいて、前記対象データを複数の前記カテゴリの何れかに分類する、付記1から4の何れかに記載の情報処理装置。この構成によれば、対象関連情報とカテゴリ関連情報との類似度のみからは適切なカテゴリを特定できないような場合にも、対象データを適切なカテゴリに分類することが可能になる。
【0112】
(付記6)
少なくとも1つのプロセッサが、複数のカテゴリの何れかへの分類の対象となる対象データを取得することと、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類することと、を含む分類方法。この構成によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができる。
【0113】
(付記7)
コンピュータを、複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段、および、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段、として機能させる分類プログラム。この構成によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができる。
【0114】
〔付記事項3〕
上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
【0115】
少なくとも1つのプロセッサを備え、前記プロセッサは、複数のカテゴリの何れかへの分類の対象となる対象データを取得する処理と、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する処理とを実行する情報処理装置。
【0116】
なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記対象データを取得する処理と、前記対象データを複数の前記カテゴリの何れかに分類する処理とを前記プロセッサに実行させるための分類プログラムが記憶されていてもよい。また、この分類プログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
【符号の説明】
【0117】
1 情報処理装置
11 データ取得部(データ取得手段)
12 分類部(分類手段)
2、2A、2B 情報処理装置
201 データ取得部(データ取得手段)
203 関連情報取得部(関連情報取得手段)
204 類似度算出部(類似度算出手段)
205 分類部(分類手段)