特許7568064 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7568064情報処理装置、分類方法、および分類プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-07

(45)【発行日】2024-10-16

(54)【発明の名称】情報処理装置、分類方法、および分類プログラム

(51)【国際特許分類】

G06F 16/906 20190101AFI20241008BHJP

【ＦＩ】

G06F16/906

【請求項の数】 5

(21)【出願番号】P 2023510005

(86)(22)【出願日】2021-03-31

(86)【国際出願番号】 JP2021013793

(87)【国際公開番号】W WO2022208709

(87)【国際公開日】2022-10-06

【審査請求日】2023-07-12

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】110000338

【氏名又は名称】弁理士法人ＨＡＲＡＫＥＮＺＯＷＯＲＬＤＰＡＴＥＮＴ＆ＴＲＡＤＥＭＡＲＫ

(72)【発明者】

【氏名】小山田昌史

【審査官】松尾真人

(56)【参考文献】

【文献】米国特許出願公開第２００８／０３１３１４２（ＵＳ，Ａ１）

【文献】特開２０１０－０３９６００（ＪＰ，Ａ）

【文献】特開２００８－２０４４４４（ＪＰ，Ａ）

【文献】特開２０１１－２２１８７７（ＪＰ，Ａ）

【文献】米国特許出願公開第２００９／０２９２６９６（ＵＳ，Ａ１）

【文献】山本岳洋，役割に基づく協調検索における検索行動分析，第７回データ工学と情報マネジメントに関するフォーラム（第１３回日本データベース学会年次大会）［ｏｎｌｉｎｅ］，電子情報通信学会データ工学研究専門委員会日本データベース学会情報処理学会データベースシステム研究会，2015年03月04日，DEIM Forum 2015 A8-5, Internet<URL:http://db-event.jpn.org/deim2015/paper/215.pdf>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

(57)【特許請求の範囲】

【請求項1】

複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段と、
前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段と、
前記対象データについて検索した検索結果を前記対象関連情報として取得すると共に、前記カテゴリについて検索した検索結果を前記カテゴリ関連情報として取得する関連情報取得手段と、
前記対象関連情報が示す検索結果と前記カテゴリ関連情報が示す検索結果とが類似している度合いを示す前記類似度を算出する類似度算出手段と、を備え、
前記分類手段は、前記対象データを、前記類似度が最も高くなった前記カテゴリ関連情報に対応する前記カテゴリに分類し、
前記対象関連情報は、前記対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記カテゴリ関連情報は、前記カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記類似度算出手段は、前記対象関連情報と前記カテゴリ関連情報が示す上位から下位までの各検索結果の類似の程度に基づいて前記類似度を算出する、情報処理装置。

【請求項2】

前記類似度算出手段は、前記類似度の算出において、上位の検索結果間の類似の程度に対する重みを下位の検索結果間の類似の程度に対する重みよりも重くする、請求項１に記載の情報処理装置。

【請求項3】

複数の前記カテゴリは階層構造となっており、
前記分類手段は、前記類似度と、前記対象データに関連する対象関連情報と前記カテゴリの上位のカテゴリに関連する上位カテゴリ関連情報とが類似している程度を示す上位類似度とに基づいて、前記対象データを複数の前記カテゴリの何れかに分類する、請求項１または２に記載の情報処理装置。

【請求項4】

少なくとも１つのプロセッサが、
複数のカテゴリの何れかへの分類の対象となる対象データを取得することと、
前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類することと、
前記対象データについて検索した検索結果を前記対象関連情報として取得することと、
前記カテゴリについて検索した検索結果を前記カテゴリ関連情報として取得することと、
前記対象関連情報が示す検索結果と前記カテゴリ関連情報が示す検索結果とが類似している度合いを示す前記類似度を算出することと、を含み、
前記対象データの分類においては、前記対象データを、前記類似度が最も高くなった前記カテゴリ関連情報に対応する前記カテゴリに分類し、
前記対象関連情報は、前記対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記カテゴリ関連情報は、前記カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記類似度の算出においては、前記対象関連情報と前記カテゴリ関連情報が示す上位から下位までの各検索結果の類似の程度に基づいて前記類似度を算出する、分類方法。

【請求項5】

コンピュータを、
複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段、
前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段、
前記対象データについて検索した検索結果を前記対象関連情報として取得すると共に、前記カテゴリについて検索した検索結果を前記カテゴリ関連情報として取得する関連情報取得手段、および
前記対象関連情報が示す検索結果と前記カテゴリ関連情報が示す検索結果とが類似している度合いを示す前記類似度を算出する類似度算出手段、として機能させる分類プログラムであって、
前記分類手段は、前記対象データを、前記類似度が最も高くなった前記カテゴリ関連情報に対応する前記カテゴリに分類し、
前記対象関連情報は、前記対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記カテゴリ関連情報は、前記カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記類似度算出手段は、前記対象関連情報と前記カテゴリ関連情報が示す上位から下位までの各検索結果の類似の程度に基づいて前記類似度を算出する、分類プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、分類対象のデータをカテゴリに分類する情報処理装置等に関する。

【背景技術】

【0002】

近年では、様々なデータが大量に収集・蓄積されるようになったことに伴い、蓄積されたデータを効果的に利用するための分類に要するコストも増大している。このようなコストを抑えるための技術として、例えば下記の特許文献１が挙げられる。下記の特許文献１には、ネットワークを介して販売される商品またはサービスに関する商品データを様々なカテゴリに分類する情報処理装置が開示されている。

【0003】

より詳細には、特許文献１に記載されている情報処理装置は、階層的なカテゴリに分類された商品データを学習データとして、入力された商品データが示す商品に対して階層的なカテゴリの分類結果を出力するように学習された分類器を用いてカテゴリを決定する。この情報処理装置によれば、自動で商品データを分類することができるので、商品データの分類にかかる人的コストを削減することができる。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１９－１６４４０２号

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、特許文献１のように機械学習により構築した分類器を用いる場合、カテゴリ毎に十分な学習データがないと高精度な分類結果を出力できないという問題がある。本発明の一態様は、機械学習により構築した分類器を用いることなく、データを自動で分類することができる情報処理装置等を提供することを目的としている。

【課題を解決するための手段】

【0006】

本発明の一側面に係る情報処理装置は、複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段と、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段と、を備える。

【0007】

本発明の一側面に係る分類方法は、少なくとも１つのプロセッサが、複数のカテゴリの何れかへの分類の対象となる対象データを取得することと、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類することと、を含む。

【0008】

本発明の一側面に係る分類プログラムは、コンピュータを、複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段、および、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段、として機能させる。

【発明の効果】

【0009】

本発明の一態様によれば、機械学習により構築した分類器を用いることなく、データを自動で分類することができる。

【図面の簡単な説明】

【0010】

【図1】本発明の例示的実施形態１に係る情報処理装置の構成を示すブロック図である。

【図2】本発明の例示的実施形態１に係る分類方法の流れを示すフロー図である。

【図3】本発明の例示的実施形態２に係る情報処理装置の構成を示すブロック図である。

【図4】上記情報処理装置が実行する分類方法の流れを示すフロー図である。

【図5】上記情報処理装置による対象データの分類の例を示す図である。

【図6】本発明の例示的実施形態３に係る情報処理装置の構成を示すブロック図である。

【図7】上記情報処理装置による、ウェブ検索の結果に基づく類似度の算出例を示す図である。

【図8】上記情報処理装置による、ウェブ検索で検出されたウェブページ間の類似度に基づく類似度の算出例を示す図である。

【図9】本発明の例示的実施形態４に係る情報処理装置の構成を示すブロック図である。

【図10】上記情報処理装置による総合類似度の算出例を示す図である。

【図11】上記情報処理装置が実行する分類方法の流れを示すフロー図である。

【図12】本発明の各例示的実施形態に係る情報処理装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの一例を示す図である。

【発明を実施するための形態】

【0011】

〔例示的実施形態１〕
本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。

【0012】

（情報処理装置１の構成）
本例示的実施形態に係る情報処理装置１の構成について、図１を参照して説明する。図１は、情報処理装置１の構成を示すブロック図である。図１に示すように、情報処理装置１は、データ取得部１１と分類部１２を備えている。

【0013】

データ取得部１１は、複数のカテゴリの何れかへの分類の対象となる対象データを取得する。

【0014】

分類部１２は、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する。

【0015】

以上のように、本例示的実施形態に係る情報処理装置１においては、複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段と、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段と、を備える、という構成が採用されている。

【0016】

対象データに関連する対象関連情報と、カテゴリに関連するカテゴリ関連情報とが類似している場合、対象データはそのカテゴリに適合している可能性が高い。よって、対象関連情報とカテゴリ関連情報の類似度に基づいて対象データの分類を行う前記の構成によれば、対象データを適切なカテゴリに分類することができる。また、前記の構成によれば、機械学習により構築した分類器を用いる必要がない。このように、本例示的実施形態に係る情報処理装置１によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができるという効果が得られる。

【0017】

（変換パターン決定プログラム）
上述の情報処理装置１の機能は、プログラムによって実現することもできる。本例示的実施形態に係る分類プログラムは、コンピュータを、複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段、および、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段、として機能させる、という構成が採用されている。このため、本例示的実施形態に係る分類プログラムによれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができるという効果が得られる。

【0018】

（分類方法の流れ）
本例示的実施形態に係る分類方法の流れについて、図２を参照して説明する。図２は、分類方法の流れを示すフロー図である。なお、この分類方法における各ステップの実行主体は、情報処理装置１が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。

【0019】

Ｓ１１では、少なくとも１つのプロセッサが、複数のカテゴリの何れかへの分類の対象となる対象データを取得する。

【0020】

Ｓ１２では、少なくとも１つのプロセッサが、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する。

【0021】

以上のように、本例示的実施形態に係る分類方法においては、少なくとも１つのプロセッサが、複数のカテゴリの何れかへの分類の対象となる対象データを取得することと、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類することと、を含む、という構成が採用されている。このため、本例示的実施形態に係る分類方法によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができるという効果が得られる。

【0022】

〔例示的実施形態２〕
（情報処理装置２の構成）
図３に基づいて本例示的実施形態に係る情報処理装置２の構成を説明する。図３は、情報処理装置２の構成を示すブロック図である。図示のように、情報処理装置２は、情報処理装置２の各部を統括して制御する制御部２０と、情報処理装置２が使用する各種データを記憶する記憶部２１を備えている。また、情報処理装置２は、情報処理装置２が他の装置と通信するための通信部２２、情報処理装置２に対する各種データの入力を受け付ける入力部２３、情報処理装置２が各種データを出力するための出力部２４を備えている。

【0023】

また、制御部２０には、データ取得部２０１、分類先データ取得部２０２、関連情報取得部２０３、類似度算出部２０４、および分類部２０５が含まれている。そして、記憶部２１には、分類先データ２１１および関連情報ＤＢ２１２が記憶されている。

【0024】

データ取得部２０１は、複数のカテゴリの何れかへの分類の対象となる対象データを取得する。対象データは分類の対象となり得るものであればよく、例えばテキストデータ、画像データ、または音声データ等を対象データとしてもよい。対象データは、例えばデータベースやデータテーブルに含まれるアイテム名等であってもよい。

【0025】

分類先データ取得部２０２は、対象データの分類先となる複数のカテゴリを示す分類先データ２１１を取得して、対象データの分類先の候補となるカテゴリを特定する。分類先のカテゴリについて特に制限はなく、対象データの分類先として適当なカテゴリを予め分類先データ２１１に規定しておけばよい。

【0026】

なお、分類先のカテゴリは階層化されていてもよい。この場合、分類先データ２１１は、分類先の各カテゴリとそれらの階層（例えば、大分類、中分類、小分類等）を示すデータとすればよい。

【0027】

関連情報取得部２０３は、対象データに関連する対象関連情報を取得する。対象関連情報は対象データに関連した情報であればよい。本例示的実施形態では、対象データについて検索した検索結果を対象関連情報として取得する例を説明する。より詳細には、関連情報取得部２０３は、対象データに関連する情報を、関連情報ＤＢ２１２内で検索し、この検索で検出された情報を対象関連情報として取得する。

【0028】

関連情報ＤＢ２１２は、対象データに関連する可能性がある各種情報を記録するデータベースである。関連情報ＤＢ２１２は、対象データに応じたものを予め用意しておけばよい。なお、関連情報ＤＢ２１２は、情報処理装置２の外部の装置に記憶されていてもよい。

【0029】

例えば、対象データが商品の名称を示すテキストデータである場合、各種商品についての説明文や、各種商品についてのレビュー等の各種テキストデータを記録した関連情報ＤＢ２１２を用いてもよい。この他にも、例えば、対象データと関連する商品やサービスを扱う企業のデータベースやデータレイクを関連情報ＤＢ２１２として利用してもよい。

【0030】

また、例えば、対象データと関連し得る様々な商品やサービスに関する各種データを対象としたデータエンリッチメントにより抽出されたデータを格納するデータベースを関連情報ＤＢ２１２として利用してもよい。データエンリッチメントとは、対象となるデータに関連する各種情報を抽出してそのデータの付加情報とすることにより、対象となるデータの利用価値を高めるサービスである。また、この場合、情報処理装置２が決定したカテゴリを対象データに関連する情報として関連情報ＤＢ２１２に追加してもよい。この場合、情報処理装置２は、対象データのデータエンリッチメントを行っているともいえる。

【0031】

また、対象データが画像データである場合には、関連情報取得部２０３は、対象データと類似した画像や、対象データに関連するテキストデータを関連情報ＤＢ２１２内で検索してもよい。

【0032】

また、関連情報取得部２０３は、カテゴリに関連するカテゴリ関連情報を取得する。カテゴリ関連情報は対象となるカテゴリに関連した情報であればよい。本例示的実施形態では、上述した対象データと同様に、カテゴリに関連する情報を、関連情報ＤＢ２１２内で検索し、その検索結果をカテゴリ関連情報として取得する例を説明する。なお、対象データについての検索と、カテゴリについての検索は、同一の関連情報ＤＢ２１２を対象として行ってもよいし、記録されているデータが異なる関連情報ＤＢ２１２を対象として行ってもよい。

【0033】

類似度算出部２０４は、対象関連情報が示す検索結果とカテゴリ関連情報が示す検索結果とが類似している度合いを示す類似度を算出する。なお、検索結果の類似度の算出方法については実施形態３で説明する。

【0034】

分類部２０５は、類似度算出部２０４が算出する類似度、すなわち、対象データに関連する対象関連情報と、カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、対象データを複数のカテゴリの何れかに分類する。具体的には、分類部２０５は、対象データを、その分類先の候補の複数のカテゴリのうち、上述の類似度が最も高くなったカテゴリ関連情報に対応するカテゴリに分類する。

【0035】

以上のように、本例示的実施形態に係る情報処理装置２においては、対象データについて検索した検索結果を対象関連情報として取得すると共に、カテゴリについて検索した検索結果をカテゴリ関連情報として取得する関連情報取得部２０３と、対象関連情報が示す検索結果とカテゴリ関連情報が示す検索結果とが類似している度合いを示す類似度を算出する類似度算出部２０４と、を備え、分類部２０５は、対象データを、類似度が最も高くなったカテゴリ関連情報に対応するカテゴリに分類する、という構成が採用されている。

【0036】

対象データについて検索した検索結果は対象データに関連しているから対象関連情報として妥当な情報である。また、カテゴリについて検索した検索結果も同様にカテゴリ関連情報として妥当な情報である。そして、各検索結果が類似している程度は、類似度として数値化することが可能である。このため、本例示的実施形態に係る情報処理装置２によれば、例示的実施形態１に係る情報処理装置１の奏する効果に加えて、対象データをより適切に分類することが可能になるという効果が得られる。

【0037】

（分類方法の流れ）
本例示的実施形態に係る分類方法の流れについて、図４を参照して説明する。図４は、情報処理装置２が実行する分類方法の流れを示すフロー図である。なお、以下では、分類の例を示す図５についてもあわせて説明する。

【0038】

Ｓ２１では、データ取得部２０１が、複数のカテゴリの何れかへの分類の対象となる対象データを取得する。例えば、図５の例であれば、データ取得部２０１は、「タピ茶」という単語（商品名）のテキストデータを対象データとして取得する。

【0039】

Ｓ２２では、分類先データ取得部２０２が、記憶部２１に記憶されている分類先データ２１１を取得し、Ｓ２１で取得された対象データの分類先の候補となるカテゴリを特定する。例えば、図５の例において、対象データの「タピ茶」を大分類のカテゴリに分類する場合、分類先データ取得部２０２は、分類先データ２１１に示される大分類から小分類までの各カテゴリのうち、大分類のカテゴリである「ドリンク」と「フード」を特定する。

【0040】

Ｓ２３では、関連情報取得部２０３が、Ｓ２１で取得された対象データに関連する情報を、関連情報ＤＢ２１２内で検索する。そして、この検索により得られた検索結果を対象関連情報として取得する。例えば、図５の例において、各種商品の商品情報やレビュー等のテキストデータが格納された関連情報ＤＢ２１２の検索を行う場合、「タピ茶」という文字列を含む商品情報やレビューが検出され、それらの商品情報やレビューのテキストデータが対象関連情報として取得される。なお、この検索はテキストデータの全文一致検索に限られず、部分一致検索としてもよい。例えば、「タピ茶」であれば、この文字列を分割して得られる文字列「タピ」や「茶」で検索してもよい。

【0041】

Ｓ２４では、関連情報取得部２０３は、Ｓ２２で取得された分類先データに示される各カテゴリに関連する情報を、関連情報ＤＢ２１２内で検索する。そして、この検索により得られた各検索結果を、各カテゴリのカテゴリ関連情報として取得する。例えば、図５の例において、各種商品の商品情報やレビュー等のテキストデータが格納された関連情報ＤＢ２１２の検索を行う場合、「ドリンク」という文字列を含む商品情報やレビューが検出され、それらの商品情報やレビューのテキストがカテゴリ関連情報として取得される。同様に、「フード」という文字列による検索により、この文字列を含む商品情報やレビュー検出され、それらの商品情報やレビューのテキストもカテゴリ関連情報として取得される。なお、Ｓ２４の処理をＳ２３の処理より先に行ってもよいし、これらの処理を並行で行ってもよい。

【0042】

Ｓ２５では、類似度算出部２０４が、Ｓ２３で取得された対象関連情報が示す検索結果と、Ｓ２４で取得されたカテゴリ関連情報が示す検索結果とが類似している度合いを示す類似度を算出する。この処理は、Ｓ２２で特定されたカテゴリのそれぞれについて行われる。例えば、図５の例では、「タピ茶」の検索結果と「ドリンク」の検索結果の類似度が０．９と算出され、「タピ茶」の検索結果と「フード」の検索結果の類似度が０．７と算出されている。

【0043】

Ｓ２６では、分類部２０５が、類似度算出部２０４が算出した類似度が最も高かったカテゴリに対象データを分類する。例えば、図５の例では、「タピ茶」の検索結果と「ドリンク」の検索結果の類似度が０．９であり、「タピ茶」の検索結果と「フード」の検索結果の類似度が０．７であるから、「タピ茶」は大分類「ドリンク」に分類される。そして、分類部２０５は、算出した類似度を出力部２４に出力させる。これにより、図４に示す分類方法は終了する。算出した類似度は通信部２２を介して他の装置に送信して出力させてもよいし、算出した類似度を記憶部２１に記憶させてもよい。

【0044】

なお、Ｓ２６で分類した分類先にさらに下位の分類先が存在する場合には、Ｓ２６の処理に続いて下位の分類先への分類を行ってもよい。この場合、Ｓ２６の処理が終了した後にＳ２２の処理に戻り、Ｓ２２で下位の分類先の候補となるカテゴリを特定し、続いてＳ２３～Ｓ２６の処理を行うことにより、下位の分類先のカテゴリを決定する。

【0045】

例えば、図５の例では、「タピ茶」の大分類を「ドリンク」に決定した後には、「ドリンク」の下位の中分類のカテゴリである「アルコール」と「お茶」が分類先の候補となっている。そして、「タピ茶」の検索結果と「アルコール」の検索結果の類似度が０．０５と算出され、「タピ茶」の検索結果と「お茶」の検索結果の類似度が０．９５と算出されている。これにより、「タピ茶」の中分類は「お茶」に決定される。なお、下位のカテゴリを決定する際には、Ｓ２３の処理を再度行う必要はなく、上位のカテゴリを決定する際に取得した対象関連情報をそのまま用いればよい。

【0046】

また、中分類の「お茶」には、さらに下位の小分類のカテゴリとして「タピオカミルクティー」と「緑茶」が存在するから、これらのカテゴリが次の分類における分類先の候補となる。そして、「タピ茶」の検索結果と「タピオカミルクティー」の検索結果の類似度が０．９７と算出され、「タピ茶」の検索結果と「緑茶」の検索結果の類似度が０．２５と算出されている。これにより、「タピ茶」の小分類は「タピオカミルクティー」に決定される。以上の処理により、「タピ茶」という対象データについて、大分類「ドリンク」、中分類「お茶」、小分類「タピオカミルクティー」という妥当な分類結果が得られる。

【0047】

なお、上述の例では、上位カテゴリから順に決定しているが、下位カテゴリから順に決定してもよい。下位カテゴリから順に決定する場合、Ｓ２２で特定される分類先候補のカテゴリが多数となり、Ｓ２４でそれら多数のカテゴリの関連情報を取得する必要がある。その一方で、下位カテゴリが決定されれば上位カテゴリは自動的に決まるため、この場合には、図４のＳ２２～Ｓ２６の処理を複数回繰り返す必要はない。

【0048】

また、上位から順にカテゴリを決定する場合と、下位から順にカテゴリを決定する場合とで、決定される各階層のカテゴリが異なることもあり得る。このため、例えば、情報処理装置２は、上位から順にカテゴリを決定する処理と、下位から順にカテゴリ決定する処理とを両方を行い、各処理で決定した各階層のカテゴリを出力してもよい。この場合、情報処理装置２のユーザは、出力されたカテゴリのうち、自身が妥当と判断した方を最終的なカテゴリとして採用すればよい。

【0049】

〔例示的実施形態３〕
本発明の第３の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態２にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。

【0050】

（情報処理装置２Ａの構成）
本例示的実施形態に係る情報処理装置２Ａの構成を図６に基づいて説明する。図６は、情報処理装置２Ａの構成を示すブロック図である。情報処理装置２Ａは、図３に示した情報処理装置２と比べて、ウェブ検索部２０３Ａを備えている点、および記憶部２１に関連情報ＤＢ２１２が記憶されていない点で相違している。

【0051】

ウェブ検索部２０３Ａは、対象データについてウェブ検索を行い、その検索結果を関連情報取得部２０３に出力する。つまり、本例示的実施形態において、関連情報取得部２０３が取得する対象関連情報は、ウェブ検索部２０３Ａによる対象データのウェブ検索の結果である。なお、検索方法は特に限定されない。例えば、ウェブ検索部２０３Ａは、テキストデータによる検索であれば、全文一致検索を行ってもよいし、部分一致検索を行ってもよい。また、例えば、ウェブ検索部２０３Ａは、対象データが画像データであれば、その画像データに類似した画像を検索してもよい。

【0052】

同様に、ウェブ検索部２０３Ａは、対象データの分類先の候補である各カテゴリについてもウェブ検索を行い、その検索結果を関連情報取得部２０３に出力する。つまり、本例示的実施形態において、関連情報取得部２０３が取得するカテゴリ関連情報は、ウェブ検索部２０３Ａによる各カテゴリのウェブ検索の結果である。

【0053】

このため、本例示的実施形態では、類似度算出部２０４は、対象関連情報が示す、対象データのウェブ検索の結果と、カテゴリ関連情報が示す、各カテゴリのウェブ検索の結果とが類似している度合いを示す類似度を算出する。

【0054】

（類似度の算出方法の概要）
本例示的実施形態における類似度の算出方法の概要を図７に基づいて説明する。図７は、ウェブ検索の結果に基づく類似度の算出例を示す図である。より詳細には、図７は、対象データが「タピ茶」であり、分類先の候補が「アルコール」と「お茶」のカテゴリである例を示している。

【0055】

図７の例では、ウェブ検索部２０３Ａは、対象データである「タピ茶」についてウェブ検索を行っている。図７には、この検索結果をＳＲ１として示している。ＳＲ１に示されるように、ウェブ検索により「タピ茶」という文字列を含む様々なウェブページが検出される。

【0056】

同様に、図７の例では、ウェブ検索部２０３Ａは、分類先の候補であるカテゴリ「アルコール」と「お茶」についてもそれぞれウェブ検索を行っている。図７には、これらの検索結果をそれぞれＳＲ２、ＳＲ３として示している。ＳＲ２、ＳＲ３に示されるように、ウェブ検索により「アルコール」という文字列を含む様々なウェブページが検出されると共に、「お茶」という文字列を含む様々なウェブページが検出される。

【0057】

上述のような各検索結果は関連情報取得部２０３に出力され、関連情報取得部２０３は出力された検索結果から対象関連情報およびカテゴリ関連情報（以下、これらをまとめて単に関連情報と呼ぶ）を取得する。なお、関連情報取得部２０３は、ウェブ検索部２０３Ａによる検出結果の全てを関連情報とする必要はなく、類似度の算出に必要な検索結果を関連情報として取得すればよい。例えば、関連情報取得部２０３は、ウェブ検索部２０３Ａの検索結果のうち上位の所定数を関連情報として取得してもよい。

【0058】

そして、類似度算出部２０４は、関連情報取得部２０３が取得する関連情報を用いて類似度を算出する。図７の例では、対象データ「タピ茶」の検索結果と、カテゴリ「アルコール」の検索結果との類似度が０．２と算出されており、対象データ「タピ茶」の検索結果と、カテゴリ「お茶」の検索結果との類似度が０．６と算出されている。この場合、分類部２０５は、対象データ「タピ茶」を類似度がより高いカテゴリ「お茶」に分類する。

【0059】

（類似度の算出方法の詳細）
続いて、類似度算出部２０４による類似度の算出方法の詳細について図８に基づいて説明する。図８は、ウェブ検索で検出されたウェブページ間の類似度に基づく類似度の算出例を示す図である。

【0060】

図８には、対象データ「タピ茶」の検索結果のうち、最も上位の検索結果として検出されたウェブページＰ^Ｉ _１と、２番目に上位の検索結果として検出されたウェブページＰ^Ｉ _２を示している。また、図８には、カテゴリ「お茶」の検索結果のうち、最も上位の検索結果であるウェブページＰ^Ｃ _１と、２番目に上位の検索結果であるウェブページＰ^Ｃ _２を示している。

【0061】

類似度算出部２０４は、検出されたウェブページ間の類似度ｓｉｍ（Ｐ^Ｉ _ｉ，Ｐ^Ｃ _ｊ）を用いて、対象データ「タピ茶」の検索結果と、カテゴリ「お茶」の検索結果との類似度を算出してもよい。

【0062】

例えば、類似度算出部２０４は、類似度を算出する対象となるウェブページあるいはドキュメントで使用されている単語の重複度合い、ドメイン名の重複度合い、またはファイルパスに含まれる単語の重複度合いを、ウェブページ間の類似度ｓｉｍ（Ｐ^Ｉ _ｉ，Ｐ^Ｃ _ｊ）として算出してもよい。例えば、重複度合いをJaccard-Indexで算出してもよく、この場合、ウェブページ間の類似度ｓｉｍ（Ｐ^Ｉ _ｉ，Ｐ^Ｃ _ｊ）は下記の数式で表される。
ｓｉｍ（Ｐ^Ｉ _ｉ，Ｐ^Ｃ _ｊ）＝Ｊ（ｂｏｗ（Ｐ^Ｉ _ｉ），ｂｏｗ（Ｐ^Ｃ _ｊ））
なお、ｂｏｗ（Ｐ^Ｉ _ｉ）は、ウェブページＰ^Ｉ _ｉにおける単語のカウント値からなる多重集合である。同様に、ｂｏｗ（Ｐ^Ｃ _ｊ）は、ウェブページＰ^Ｃ _ｊにおける単語のカウント値からなる多重集合である。無論、Jaccard-Indexは一例にすぎず、各検索結果から得られる集合間の類似度を算出する任意の手法を適用することができる。

【0063】

類似度算出部２０４は、上述のようにして算出した各ウェブページ間の類似度を用いて、図８に示す数式（１）により、対象データとカテゴリの類似度（より正確には対象関連情報とカテゴリ関連情報の類似度）を算出してもよい。数式（１）におけるｒ（ｉ，ｊ）は重みである。つまり、数式（１）を用いる場合、類似度算出部２０４は、ウェブページ間の類似度にその検索順位に応じた重みｒ（ｉ，ｊ）を乗じるという演算を、１位から１０位までの各検索順位の全ての組み合わせについて行い、各演算結果の和を対象関連情報とカテゴリ関連情報の類似度として算出する。

【0064】

無論、重みを乗じることは必須ではない。ただし、重みを乗じることにより、妥当な類似度が算出される確度を高めることが可能になるので、重みを乗じることは好ましい。例えば、上位の検索結果間の類似の程度に対する重みを下位の検索結果間の類似の程度に対する重みよりも重くしてもよい。これは、上位の検索結果は下位の検索結果よりも対象データやカテゴリと関連の深いものとなることが多いためである。具体的には、例えば、ｒ（ｉ，ｊ）＝（１／ｉ）・（１／ｊ）としてもよい。

【0065】

なお、図７および図８に示した類似度の算出方法は、関連情報ＤＢ２１２を対象とした検索の検索結果の類似度の算出にも同様に適用することができる。

【0066】

ここで、ウェブまたは関連情報ＤＢ２１２を対象として検索を行った場合、対象データやカテゴリと関連の深いものから低いものまで、様々な検索結果が得られる可能性がある。このため、対象関連情報およびカテゴリ関連情報に含まれる検索結果が、何れも対象データやカテゴリと関連の低いものであった場合には、妥当な類似度が算出されないことも考えられる。

【0067】

そこで、本例示的実施形態に係る情報処理装置２Ａにおいては、以上のように、対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示す対象関連情報を用いる。また、カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示すカテゴリ関連情報を用いる。具体的には、類似度算出部２０４は、対象関連情報とカテゴリ関連情報が示す上位から下位までの各検索結果の類似の程度に基づいて類似度を算出する、という構成が採用されている。

【0068】

このため、本例示的実施形態に係る情報処理装置２Ａによれば、例示的実施形態１に係る情報処理装置１の奏する効果に加えて、対象関連情報およびカテゴリ関連情報の中に、対象データやカテゴリと関連の高い検索結果が含まれる可能性を高めて、類似度の確度を高めることができるという効果が得られる。また、対象関連情報およびカテゴリ関連情報に対象データやカテゴリと関連の低い検索結果が含まれていたとしても、全体として妥当な類似度を算出することが可能になる。

【0069】

また、以上のように、本例示的実施形態に係る情報処理装置２Ａにおいては、類似度算出部２０４は、類似度の算出において、上位の検索結果間の類似の程度に対する重みを下位の検索結果間の類似の程度に対する重みよりも重くする、という構成を採用してもよい。

【0070】

上位の検索結果は下位の検索結果よりも対象データやカテゴリと関連の深いものとなることが多い。このため、本例示的実施形態に係る情報処理装置２Ａによれば、例示的実施形態１に係る情報処理装置１の奏する効果に加えて、妥当な類似度が算出される確度を高めることができるという効果が得られる。

【0071】

〔例示的実施形態４〕
本発明の第４の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態３にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。

【0072】

（情報処理装置２Ｂの構成）
本例示的実施形態に係る情報処理装置２Ｂの構成を図９に基づいて説明する。図９は、情報処理装置２Ｂの構成を示すブロック図である。情報処理装置２Ｂは、図６に示した情報処理装置２Ａと比べて、階層構造特定部２０３Ｂを備えている点、および記憶部２１に階層情報２１１Ｂが記憶されている点で相違している。

【0073】

階層構造特定部２０３Ｂは、カテゴリの階層構造を示す階層情報２１１Ｂに基づいて、分類先の候補の各カテゴリの上位のカテゴリを特定する。具体的には、階層情報２１１Ｂには、分類先データ２１１に示される各カテゴリについて、その上位カテゴリと下位カテゴリが示されている。なお、最上位のカテゴリには下位カテゴリのみが示され、最下位のカテゴリには上位カテゴリのみが示されている。よって、階層構造特定部２０３Ｂは、階層情報２１１Ｂを参照することにより、分類先データ取得部２０２が取得した分類先の候補の各カテゴリの上位カテゴリを特定することができる。

【0074】

本例示的実施形態では、ウェブ検索部２０３Ａは、対象データと対象データの分類先の候補のカテゴリのそれぞれについてウェブ検索を行うと共に、そのカテゴリの上位のカテゴリについてもウェブ検索を行い、それらの検索結果を関連情報取得部２０３に出力する。このため、本例示的実施形態の関連情報取得部２０３は、対象関連情報とカテゴリ関連情報に加えて、カテゴリの上位のカテゴリに関連する情報である上位カテゴリ関連情報を取得する。

【0075】

また、類似度算出部２０４は、対象関連情報とカテゴリ関連情報との類似度を算出すると共に、対象関連情報と上位カテゴリ関連情報とが類似している程度を示す上位類似度を算出する。そして、分類部２０５は、上述のようにして算出された類似度および上位類似度に基づいて対象データを分類する。より詳細には、類似度算出部２０４は、類似度と上位類似度から総合類似度を算出するので、分類部２０５は、この総合類似度に基づいて対象データを分類する。

【0076】

（総合類似度の算出方法）
総合類似度の算出方法を図１０に基づいて説明する。図１０は、総合類似度の算出例を示す図である。この例では、対象データが「タピ茶」であり、分類先の候補が小分類のカテゴリ「ビール」と「タピオカミルクティー」である。

【0077】

この例では、分類先データ取得部２０２は、分類先データ２１１から、小分類のカテゴリ「ビール」と「タピオカミルクティー」を分類先の候補として取得する。そして、階層構造特定部２０３Ｂは、「ビール」の上位カテゴリが「アルコール」であることを特定すると共に、「タピオカミルクティー」の上位カテゴリが「お茶」であることを特定する。なお、階層構造特定部２０３Ｂは、さらに上位のカテゴリについても特定してもよい。

【0078】

次に、ウェブ検索部２０３Ａが、対象データ「タピ茶」、分類先の候補のカテゴリである「ビール」と「タピオカミルクティー」、およびそれらの上位カテゴリである「アルコール」と「お茶」のそれぞれについてウェブ検索を行う。そして、関連情報取得部２０３は、これらの検索結果を示す対象関連情報とカテゴリ関連情報と上位カテゴリ関連情報とを取得する。

【0079】

次に、類似度算出部２０４が、対象関連情報とカテゴリ関連情報との類似度ｓｉｍ（Ｉ，Ｃ）を算出すると共に、対象関連情報と上位カテゴリ関連情報との類似度である上位類似度ｓｉｍ_{ｒｅｃｕｒｓｉｖｅ}（Ｉ，ｐａｒｅｎｔ（Ｃ））を算出する。

【0080】

図１０の例において、「タピ茶」の対象関連情報と「ビール」のカテゴリ関連情報との類似度ｓｉｍ（Ｉ，Ｃ）と、「タピ茶」の対象関連情報と「アルコール」（「ビール」の上位カテゴリ）のカテゴリ関連情報との類似度である上位類似度ｓｉｍ_{ｒｅｃｕｒｓｉｖｅ}（Ｉ，ｐａｒｅｎｔ（Ｃ））は、何れも０．０５と算出されている。また、「タピ茶」の対象関連情報と「タピオカミルクティー」のカテゴリ関連情報との類似度ｓｉｍ（Ｉ，Ｃ）は、０．９７と算出され、「タピ茶」の対象関連情報と「お茶」（タピオカミルクティー」の上位カテゴリ）の上位カテゴリ関連情報との類似度である上位類似度ｓｉｍ_{ｒｅｃｕｒｓｉｖｅ}（Ｉ，ｐａｒｅｎｔ（Ｃ））は、０．９５と算出されている。

【0081】

ここで、類似度算出部２０４は、図１０に示す数式（２）で総合類似度ｓｉｍ_{ｒｅｃｕｒｓｉｖｅ}（Ｉ，Ｃ）を算出してもよい。なお、数式（２）におけるαは０から１の間で設定される重み値である。数式（２）を用いる場合、αが０．５未満のときに、対象関連情報とカテゴリ関連情報との類似度ｓｉｍ（Ｉ，Ｃ）に対する重みが、対象関連情報と上位カテゴリ関連情報との上位類似度ｓｉｍ_{ｒｅｃｕｒｓｉｖｅ}（Ｉ，ｐａｒｅｎｔ（Ｃ））に対する重みよりも重くなる。このため、αは０．５未満とすることが好ましい。また、上位カテゴリのさらに上位のカテゴリについては、上位カテゴリよりもさらに重みを小さくすることが好ましい。これにより、分類先の候補のカテゴリに近いものにより高い影響度を持たせることができる。

【0082】

例えば、α＝０．２とした場合、「タピ茶」と「ビール」についての総合類似度ｓｉｍ_{ｒｅｃｕｒｓｉｖｅ}（Ｉ，Ｃ）＝０．８×０．０５＋０．２×０．０５＝０．０５となる。また、「タピ茶」と「タピオカミルクティー」についての総合類似度ｓｉｍ_{ｒｅｃｕｒｓｉｖｅ}（Ｉ，Ｃ）＝０．８×０．９７＋０．２×０．９５＝０．９７となる。

【0083】

分類部２０５は、このようにして算出した、各カテゴリについての総合類似度に基づいて対象データを分類する。図１０の例では、分類部２０５は、総合類似度がより高い「タピオカミルクティー」に「タピ茶」を分類する。

【0084】

（分類方法の流れ）
本例示的実施形態に係る分類方法の流れについて、図１１を参照して説明する。図１１は、情報処理装置２Ｂが実行する分類方法の流れを示すフロー図である。なお、Ｓ３１およびＳ３２は、図４のＳ２１およびＳ２２と同様であるからここでは説明を繰り返さない。

【0085】

Ｓ３３では、階層構造特定部２０３Ｂが、階層情報２１１Ｂに基づいて、Ｓ３２で特定されたカテゴリの上位カテゴリを特定する。なお、階層構造特定部２０３Ｂは、特定した上位カテゴリにさらに上位のカテゴリがある場合には、そのカテゴリについても特定してもよい。また、この処理は、最上位のカテゴリを特定するまで繰り返してもよい。例えば、大分類、中分類、小分類の３階層のカテゴリが規定されている場合に、Ｓ３２で小分類のカテゴリが特定されたときには、階層構造特定部２０３Ｂは、少なくとも中分類のカテゴリを特定し、さらに大分類のカテゴリについても特定してもよい。なお、Ｓ３２で特定されたカテゴリに上位のカテゴリが存在しない場合には、例示的実施形態２または３と同様に、対象関連情報とカテゴリ関連情報の類似度に基づいて分類を行えばよい。

【0086】

Ｓ３４では、ウェブ検索部２０３ＡがＳ３１で取得された対象データに関連する情報をウェブ検索してその検索結果を関連情報取得部２０３に出力し、関連情報取得部２０３が、上記検索結果を対象関連情報として取得する。例えば、関連情報取得部２０３は、検索結果のうち上位所定件数を対象関連情報として取得してもよい。

【0087】

Ｓ３５では、関連情報取得部２０３は、Ｓ３２で特定された複数のカテゴリの中から１つを選択する。そして、続くＳ３６では、ウェブ検索部２０３Ａが、Ｓ３５で選択されたカテゴリに関連する情報をウェブ検索してその検索結果を関連情報取得部２０３に出力し、関連情報取得部２０３が、上記検索結果をカテゴリ関連情報として取得する。

【0088】

Ｓ３７では、ウェブ検索部２０３Ａが、Ｓ３５で選択されたカテゴリの上位カテゴリ（Ｓ３３で特定されたもの）に関連する情報をウェブ検索してその検索結果を関連情報取得部２０３に出力する。そして、関連情報取得部２０３が、上記検索結果を上位カテゴリ関連情報として取得する。

【0089】

Ｓ３８では、類似度算出部２０４が、Ｓ３４で取得された対象関連情報と、Ｓ３６で取得されたカテゴリ関連情報との類似度を算出すると共に、Ｓ３４で取得された対象関連情報と、Ｓ３７で取得された上位カテゴリ関連情報との類似度を算出する。そして、Ｓ３９では、類似度算出部２０４は、Ｓ３８で算出した各類似度から総合類似度を算出する。

【0090】

Ｓ４０では、関連情報取得部２０３が、Ｓ３２で特定された複数のカテゴリの全てについて総合類似度の算出が終了しているか否かを判定する。ここで終了していると判定された場合（Ｓ４０でＹＥＳ）にはＳ４１の処理に進む。一方、関連情報取得部２０３は、総合類似度の算出が終了していないと判定した場合（Ｓ４０でＮＯ）にはＳ３５の処理に戻り、総合類似度の算出に用いられていないカテゴリを１つ選択する。

【0091】

Ｓ４１では、分類部２０５が、Ｓ３２で特定された複数のカテゴリのうち、総合類似度が最も高いカテゴリに対象データを分類する。これにより、図１１の分類方法は、終了する。

【0092】

以上のように、本例示的実施形態に係る情報処理装置２Ｂにおいては、分類先の複数のカテゴリが階層構造となっている場合、分類部２０５は、対象関連情報とカテゴリ関連情報との類似度と、対象関連情報と上位カテゴリ関連情報とが類似している程度を示す上位類似度とに基づいて、対象データを複数のカテゴリの何れかに分類する、という構成が採用されている。

【0093】

このため、本例示的実施形態に係る情報処理装置２Ｂによれば、例示的実施形態１に係る情報処理装置１の奏する効果に加えて、対象関連情報とカテゴリ関連情報との類似度のみからは適切なカテゴリを特定できないような場合にも、対象データを適切なカテゴリに分類することが可能になるという効果が得られる。

【0094】

これは、カテゴリが階層構造となっている場合、対象データを正しいカテゴリに分類できたときには、対象関連情報と上位カテゴリ関連情報との類似度が高くなることが多いためである。例えば、「タピ茶」という対象データの正しい分類が、上位カテゴリ「茶」であり、下位カテゴリ「タピオカミルクティー」であるとする。この場合、「タピ茶」の関連情報（対象関連情報）と、「茶」の関連情報（上位カテゴリ関連情報）との類似度が高くなる。

【0095】

例えば、上述の例で、下位カテゴリに「タピオカサワー」という分類が存在したとする。この場合、「タピ茶」の関連情報と「タピオカサワー」の関連情報との類似度と、「タピ茶」の関連情報と「タピオカミルクティー」の関連情報との類似度に差が出ないか、または「タピオカサワー」の関連情報との類似度の方が高くなることも考えられる。このような場合であっても、「タピオカサワー」の上位カテゴリが例えば「アルコール」であれば、「タピ茶」の関連情報の「アルコール」の関連情報に対する類似度は、「タピ茶」の関連情報の「茶」の関連情報に対する類似度よりも低くなると考えられる。よって、上位類似度に基づいて分類することにより、「タピ茶」を「タピオカミルクティー」に正しく分類することが可能になる。

【0096】

〔変形例〕
例示的実施形態３に係る情報処理装置２Ａおよび例示的実施形態４に係る情報処理装置２Ｂにおいては、例示的実施形態２に係る情報処理装置２と同様に、関連情報ＤＢ２１２で検索した検索結果を関連情報としてもよい。なお、ここで関連情報とは、対象データ関連情報、カテゴリ関連情報、および上位カテゴリ関連情報の何れかまたは全部である。

【0097】

また、情報処理装置２Ａおよび情報処理装置２Ｂは、ウェブ検索結果と関連情報ＤＢ２１２の検索結果の両方を関連情報としてもよい。また、情報処理装置２Ｂは、関連情報ＤＢ２１２で検索した検索結果を関連情報とする場合、ウェブ検索部２０３Ａを省略してもよい。

【0098】

また、上述の各例示的実施形態において、対象データとカテゴリの類似度についても算出し、その類似度も加味して対象データの分類を行ってもよい。例えば、対象データ名とカテゴリ名との類似度を、それらの名称に含まれる文字列の共通性等に基づいて算出してもよい。

【0099】

上述の各例示的実施形態で説明した各処理の実行主体は任意であり、上述の例に限られない。つまり、相互に通信可能な複数の装置により、情報処理装置１、２、２Ａ、２Ｂと同様の機能を有する情報処理システムを構築することができる。例えば、図３、図６、および図９に示す各ブロックを複数の装置に分散して設けることにより、情報処理装置２、２Ａ、２Ｂと同様の機能を有する情報処理システムを構築することができる。

【0100】

〔ソフトウェアによる実現例〕
情報処理装置１、２、２Ａ、２Ｂの一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。

【0101】

後者の場合、情報処理装置１、２、２Ａ、２Ｂは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図１２に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを情報処理装置１、２、２Ａ、２Ｂとして動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、情報処理装置１、２、２Ａ、２Ｂの各機能が実現される。

【0102】

プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

【0103】

なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

【0104】

また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

【0105】

〔付記事項１〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

【0106】

〔付記事項２〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

【0107】

（付記１）
複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段と、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段と、を備える情報処理装置。この構成によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができる。

【0108】

（付記２）
前記対象データについて検索した検索結果を前記対象関連情報として取得すると共に、前記カテゴリについて検索した検索結果を前記カテゴリ関連情報として取得する関連情報取得手段と、前記対象関連情報が示す検索結果と前記カテゴリ関連情報が示す検索結果とが類似している度合いを示す前記類似度を算出する類似度算出手段と、を備え、前記分類手段は、前記対象データを、前記類似度が最も高くなった前記カテゴリ関連情報に対応する前記カテゴリに分類する、付記１に記載の情報処理装置。この構成によれば、対象データを適切に分類することができる。

【0109】

（付記３）
前記対象関連情報は、前記対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、前記カテゴリ関連情報は、前記カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、前記類似度算出手段は、前記対象関連情報と前記カテゴリ関連情報が示す上位から下位までの各検索結果の類似の程度に基づいて前記類似度を算出する、付記２に記載の情報処理装置。この構成によれば、類似度の確度を高めることができる。また、対象関連情報およびカテゴリ関連情報に対象データやカテゴリと関連の低い検索結果が含まれていたとしても、全体として妥当な類似度を算出することが可能になる。

【0110】

（付記４）
前記類似度算出手段は、前記類似度の算出において、上位の検索結果間の類似の程度に対する重みを下位の検索結果間の類似の程度に対する重みよりも重くする、付記３に記載の情報処理装置。この構成によれば、妥当な類似度が算出される確度を高めることができる。

【0111】

（付記５）
複数の前記カテゴリは階層構造となっており、前記分類手段は、前記類似度と、前記対象データに関連する対象関連情報と前記カテゴリの上位のカテゴリに関連する上位カテゴリ関連情報とが類似している程度を示す上位類似度とに基づいて、前記対象データを複数の前記カテゴリの何れかに分類する、付記１から４の何れかに記載の情報処理装置。この構成によれば、対象関連情報とカテゴリ関連情報との類似度のみからは適切なカテゴリを特定できないような場合にも、対象データを適切なカテゴリに分類することが可能になる。

【0112】

（付記６）
少なくとも１つのプロセッサが、複数のカテゴリの何れかへの分類の対象となる対象データを取得することと、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類することと、を含む分類方法。この構成によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができる。

【0113】

（付記７）
コンピュータを、複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段、および、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段、として機能させる分類プログラム。この構成によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができる。

【0114】

〔付記事項３〕
上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。

【0115】

少なくとも１つのプロセッサを備え、前記プロセッサは、複数のカテゴリの何れかへの分類の対象となる対象データを取得する処理と、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する処理とを実行する情報処理装置。

【0116】

なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記対象データを取得する処理と、前記対象データを複数の前記カテゴリの何れかに分類する処理とを前記プロセッサに実行させるための分類プログラムが記憶されていてもよい。また、この分類プログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

【符号の説明】

【0117】

１情報処理装置
１１データ取得部（データ取得手段）
１２分類部（分類手段）
２、２Ａ、２Ｂ情報処理装置
２０１データ取得部（データ取得手段）
２０３関連情報取得部（関連情報取得手段）
２０４類似度算出部（類似度算出手段）
２０５分類部（分類手段）

【図1】