(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-03-03
(45)【発行日】2025-03-11
(54)【発明の名称】情報処理装置、分類方法、および分類プログラム
(51)【国際特許分類】
G06F 16/906 20190101AFI20250304BHJP
【FI】
G06F16/906
(21)【出願番号】P 2023510002
(86)(22)【出願日】2021-03-31
(86)【国際出願番号】 JP2021013770
(87)【国際公開番号】W WO2022208706
(87)【国際公開日】2022-10-06
【審査請求日】2023-09-15
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】小山田 昌史
【審査官】松尾 真人
(56)【参考文献】
【文献】特開2008-204444(JP,A)
【文献】特開2009-266204(JP,A)
【文献】特開2010-026782(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
階層構造の複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段と、
前記対象データが前記カテゴリに適合する度合いを示す適合度と、前記対象データが前記カテゴリの上位カテゴリに適合する度合いを示す上位適合度とに基づいて、当該対象データを複数の前記カテゴリの何れかに分類する分類手段と
、
前記対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示す対象関連情報と、前記カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示すカテゴリ関連情報とが類似している程度に基づいて前記適合度を算出すると共に、前記対象関連情報と、前記上位カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示す上位カテゴリ関連情報とが類似している程度に基づいて前記上位適合度を算出する適合度算出手段と、を備え、
前記適合度算出手段は、前記対象関連情報および前記カテゴリ関連情報に示される上位から下位までの各検索結果の類似の程度に基づいて前記適合度を算出し、前記対象関連情報および前記上位カテゴリ関連情報に示される上位から下位までの各検索結果の類似の程度に基づいて前記上位適合度を算出する、情報処理装置。
【請求項2】
前記適合度算出手段は、前記適合度と前記上位適合度から、前記分類手段が前記分類に用いる総合適合度を算出
し、前記総合適合度の算出において、前記適合度の重みを、前記上位適合度の重みよりも重くする、請求項1に記載の情報処理装置。
【請求項3】
少なくとも1つのプロセッサが、
階層構造の複数のカテゴリの何れかへの分類の対象となる対象データを取得することと、
前記対象データが前記カテゴリに適合する度合いを示す適合度と、前記対象データが前記カテゴリの上位カテゴリに適合する度合いを示す上位適合度とに基づいて、当該対象データを複数の前記カテゴリの何れかに分類することと、
前記対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示す対象関連情報と、前記カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示すカテゴリ関連情報とが類似している程度に基づいて前記適合度を算出することと、
前記対象関連情報と、前記上位カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示す上位カテゴリ関連情報とが類似している程度に基づいて前記上位適合度を算出することと、を含み、
前記適合度の算出においては、前記対象関連情報および前記カテゴリ関連情報に示される上位から下位までの各検索結果の類似の程度に基づいて前記適合度を算出し、
前記上位適合度の算出においては、前記対象関連情報および前記上位カテゴリ関連情報に示される上位から下位までの各検索結果の類似の程度に基づいて前記上位適合度を算出する、分類方法。
【請求項4】
コンピュータを、
階層構造の複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段
、
前記対象データが前記カテゴリに適合する度合いを示す適合度と、前記対象データが前記カテゴリの上位カテゴリに適合する度合いを示す上位適合度とに基づいて、当該対象データを複数の前記カテゴリの何れかに分類する分類手段、
および
前記対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示す対象関連情報と、前記カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示すカテゴリ関連情報とが類似している程度に基づいて前記適合度を算出すると共に、前記対象関連情報と、前記上位カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示す上位カテゴリ関連情報とが類似している程度に基づいて前記上位適合度を算出する適合度算出手段、として機能させ、
前記適合度算出手段は、前記対象関連情報および前記カテゴリ関連情報に示される上位から下位までの各検索結果の類似の程度に基づいて前記適合度を算出し、前記対象関連情報および前記上位カテゴリ関連情報に示される上位から下位までの各検索結果の類似の程度に基づいて前記上位適合度を算出する、分類プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、分類対象のデータをカテゴリに分類する情報処理装置等に関する。
【背景技術】
【0002】
近年では、様々なデータが大量に収集・蓄積されるようになったことに伴い、蓄積されたデータを効果的に利用するための分類に要するコストも増大している。このようなコストを抑えるための技術として、例えば下記の特許文献1が挙げられる。下記の特許文献1には、ネットワークを介して販売される商品またはサービスに関する商品データを様々なカテゴリに分類する情報処理装置が開示されている。
【0003】
より詳細には、特許文献1に記載されている情報処理装置は、階層的なカテゴリに分類された商品データを学習データとして、入力された商品データが示す商品に対して階層的なカテゴリの分類結果を出力するように学習された分類器を用いてカテゴリを決定する。この情報処理装置によれば、自動で商品データを分類することができるので、商品データの分類にかかる人的コストを削減することができる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1のように機械学習により構築した分類器を用いる場合、カテゴリ毎に十分な学習データがないと高精度な分類結果を出力できないという問題がある。本発明の一態様は、機械学習により構築した分類器を用いることなく、データを自動で分類することができる情報処理装置等を提供することを目的としている。
【課題を解決するための手段】
【0006】
本発明の一側面に係る情報処理装置は、階層構造の複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段と、前記対象データが前記カテゴリに適合する度合いを示す適合度と、前記対象データが前記カテゴリの上位カテゴリに適合する度合いを示す上位適合度とに基づいて、当該対象データを複数の前記カテゴリの何れかに分類する分類手段と、を備える。
【0007】
本発明の一側面に係る分類方法は、少なくとも1つのプロセッサが、階層構造の複数のカテゴリの何れかへの分類の対象となる対象データを取得することと、前記対象データが前記カテゴリに適合する度合いを示す適合度と、前記対象データが前記カテゴリの上位カテゴリに適合する度合いを示す上位適合度とに基づいて、当該対象データを複数の前記カテゴリの何れかに分類することと、を含む。
【0008】
本発明の一側面に係る分類プログラムは、コンピュータを、階層構造の複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段、および前記対象データが前記カテゴリに適合する度合いを示す適合度と、前記対象データが前記カテゴリの上位カテゴリに適合する度合いを示す上位適合度とに基づいて、当該対象データを複数の前記カテゴリの何れかに分類する分類手段、として機能させる。
【発明の効果】
【0009】
本発明の一態様によれば、機械学習により構築した分類器を用いることなく、データを自動で分類することができる。
【図面の簡単な説明】
【0010】
【
図1】本発明の例示的実施形態1に係る情報処理装置の構成を示すブロック図である。
【
図2】本発明の例示的実施形態1に係る分類方法の流れを示すフロー図である。
【
図3】本発明の例示的実施形態2に係る情報処理装置の構成を示すブロック図である。
【
図4】上記情報処理装置による総合適合度の算出例を示す図である。
【
図5】上記情報処理装置が実行する分類方法を説明する図である。
【
図6】本発明の例示的実施形態3に係る情報処理装置の構成を示すブロック図である。
【
図7】上記情報処理装置による、ウェブ検索で検出されたウェブページ間の類似度に基づく適合度の算出例を示す図である。
【
図8】上記情報処理装置が実行する分類方法の流れを示すフロー図である。
【
図9】本発明の各例示的実施形態に係る情報処理装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの一例を示す図である。
【発明を実施するための形態】
【0011】
〔例示的実施形態1〕
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
【0012】
(情報処理装置1の構成)
本例示的実施形態に係る情報処理装置1の構成について、
図1を参照して説明する。
図1は、情報処理装置1の構成を示すブロック図である。
図1に示すように、情報処理装置1は、データ取得部11と分類部12を備えている。
【0013】
データ取得部11は、階層構造の複数のカテゴリの何れかへの分類の対象となる対象データを取得する。
【0014】
分類部12は、前記対象データが前記カテゴリに適合する度合いを示す適合度と、前記対象データが前記カテゴリの上位カテゴリに適合する度合いを示す上位適合度とに基づいて、当該対象データを複数の前記カテゴリの何れかに分類する。
【0015】
以上のように、本例示的実施形態に係る情報処理装置1においては、階層構造の複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得部11と、前記対象データが前記カテゴリに適合する度合いを示す適合度と、前記対象データが前記カテゴリの上位カテゴリに適合する度合いを示す上位適合度とに基づいて、当該対象データを複数の前記カテゴリの何れかに分類する分類部12と、を備える、という構成が採用されている。
【0016】
カテゴリが階層構造となっている場合、対象データを正しいカテゴリに分類できたときには、対象データと上位カテゴリとの適合度が高くなることが多い。例えば、「タピ茶」という商品名が対象データであるとする。そして、この対象データの正しい分類が、上位カテゴリ「茶」であり、下位カテゴリ「タピオカミルクティー」であるとする。この場合、「タピ茶」は、「タピオカミルクティー」への適合度が高いと共に、「茶」への適合度も高い。
【0017】
よって、あるカテゴリに対する適合度のみならず、その上位カテゴリに対する適合度に基づいて対象データの分類を行う上記の構成によれば、カテゴリに対する適合度のみからは適切なカテゴリを特定できないような場合にも、対象データを適切なカテゴリに分類することが可能になる。
【0018】
例えば、上述の例で、下位カテゴリに「タピオカサワー」という分類が存在したとする。この場合、「タピ茶」と「タピオカサワー」の適合度と、「タピ茶」と「タピオカミルクティー」の適合度に差が出ないか、または「タピオカサワー」の適合度の方が高くなることも考えられる。このような場合であっても、「タピオカサワー」の上位カテゴリが例えば「アルコール」であれば、「タピ茶」の「アルコール」に対する適合度は、「タピ茶」の「茶」に対する適合度よりも低くなると考えられる。よって、上位カテゴリに対する適合度に基づいて分類することにより、「タピ茶」を「タピオカミルクティー」に正しく分類することが可能になる。
【0019】
また、上記の構成によれば、機械学習により構築した分類器を用いる必要がない。このように、上記の構成によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができるという効果が得られる。
【0020】
(変換パターン決定プログラム)
上述の情報処理装置1の機能は、プログラムによって実現することもできる。本例示的実施形態に係る分類プログラムは、コンピュータを、階層構造の複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段、および前記対象データが前記カテゴリに適合する度合いを示す適合度と、前記対象データが前記カテゴリの上位カテゴリに適合する度合いを示す上位適合度とに基づいて、当該対象データを複数の前記カテゴリの何れかに分類する分類手段、として機能させる、という構成が採用されている。このため、本例示的実施形態に係る分類プログラムによれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができるという効果が得られる。
【0021】
(分類方法の流れ)
本例示的実施形態に係る分類方法の流れについて、
図2を参照して説明する。
図2は、分類方法の流れを示すフロー図である。なお、この分類方法における各ステップの実行主体は、情報処理装置1が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。
【0022】
S11では、少なくとも1つのプロセッサが、階層構造の複数のカテゴリの何れかへの分類の対象となる対象データを取得する。
【0023】
S12では、少なくとも1つのプロセッサが、前記対象データが前記カテゴリに適合する度合いを示す適合度と、前記対象データが前記カテゴリの上位カテゴリに適合する度合いを示す上位適合度とに基づいて、当該対象データを複数の前記カテゴリの何れかに分類する。
【0024】
以上のように、本例示的実施形態に係る分類方法においては、少なくとも1つのプロセッサが、階層構造の複数のカテゴリの何れかへの分類の対象となる対象データを取得することと、前記対象データが前記カテゴリに適合する度合いを示す適合度と、前記対象データが前記カテゴリの上位カテゴリに適合する度合いを示す上位適合度とに基づいて、当該対象データを複数の前記カテゴリの何れかに分類することと、を含む、という構成が採用されている。このため、本例示的実施形態に係る分類方法によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができるという効果が得られる。
【0025】
〔例示的実施形態2〕
(情報処理装置2の構成)
図3に基づいて情報処理装置2の構成を説明する。
図3は、情報処理装置2の構成を示すブロック図である。図示のように、情報処理装置2は、情報処理装置2の各部を統括して制御する制御部20と、情報処理装置2が使用する各種データを記憶する記憶部21を備えている。また、情報処理装置2は、情報処理装置2が他の装置と通信するための通信部22、情報処理装置2に対する各種データの入力を受け付ける入力部23、情報処理装置2が各種データを出力するための出力部24を備えている。
【0026】
また、制御部20には、データ取得部201、分類先データ取得部202、階層構造特定部203、適合度算出部204、および分類部205が含まれている。そして、記憶部21には、分類先データ211および階層情報212が記憶されている。
【0027】
データ取得部201は、階層構造の複数のカテゴリの何れかへの分類の対象となる対象データを取得する。対象データは、分類の対象となり得るものであればよく、例えばテキストデータ、画像データ、または音声データ等を対象データとしてもよい。対象データは、例えばデータベースやデータテーブルに含まれるアイテム名等であってもよい。
【0028】
分類先データ取得部202は、対象データの分類先となる複数のカテゴリを示す分類先データ211を取得して、対象データの分類先の候補となるカテゴリを特定する。分類先のカテゴリは、少なくとも2階層の階層構造を有するものであれば特に制限はなく、所望のカテゴリを予め分類先データ211に規定しておけばよい。
【0029】
階層構造特定部203は、カテゴリの階層構造を示す階層情報212に基づいて、分類先の候補の各カテゴリの上位のカテゴリを特定する。具体的には、階層情報212には、分類先データ211に示される各カテゴリについて、その上位カテゴリと下位カテゴリが示されている。なお、最上位のカテゴリには下位カテゴリのみが示され、最下位のカテゴリには上位カテゴリのみが示されている。よって、階層構造特定部203は、階層情報212を参照することにより、分類先データ取得部202が取得した分類先の候補の各カテゴリの上位カテゴリを特定することができる。
【0030】
適合度算出部204は、対象データが、分類先データ取得部202の特定した分類先の候補のカテゴリに適合する度合いを示す適合度を算出する。また、適合度算出部204は、対象データが、階層構造特定部203が特定した上位カテゴリに適合する度合いを示す上位適合度を算出する。そして、適合度算出部204は、適合度と上位適合度から、分類部205が分類に用いる総合適合度を算出する。これらの各適合度の算出方法は
図4に基づいて後述する。
【0031】
分類部205は、適合度算出部204が算出する総合適合度に基づいて、対象データを複数のカテゴリの何れかに分類する。上述のように、総合適合度は、対象データがカテゴリに適合する度合いを示す適合度と上位適合度とに基づいて算出されるから、分類部205は、対象データがカテゴリに適合する度合いを示す適合度と上位適合度とに基づいて対象データを分類しているといえる。
【0032】
(総合適合度の算出方法)
総合適合度の算出方法を
図4に基づいて説明する。
図4は、総合適合度の算出例を示す図である。この例では、対象データが「タピ茶」であり、分類先の候補が小分類のカテゴリ「ビール」と「タピオカミルクティー」である。
【0033】
この例では、分類先データ取得部202は、分類先データ211から、小分類のカテゴリ「ビール」と「タピオカミルクティー」を分類先の候補として取得する。そして、階層構造特定部203は、「ビール」の上位カテゴリが「アルコール」であることを特定すると共に、「タピオカミルクティー」の上位カテゴリが「お茶」であることを特定する。なお、階層構造特定部203は、さらに上位のカテゴリについても特定してもよい。
【0034】
次に、適合度算出部204が、対象データとカテゴリとの適合度ada(I,C)を算出すると共に、対象データと上位カテゴリとの上位適合度adarecursive(I,parent(C))を算出する。
【0035】
対象データとカテゴリとの適合度ada(I,C)は、その対象データがそのカテゴリに該当する可能性が高いほど大きい値となるような指標値であればよい。例えば、「タピ茶」と「お茶」のように、対象データ名とカテゴリ名とが類似している場合、その対象データがそのカテゴリに該当する可能性が高いといえる。このため、例えば、対象データ名とカテゴリ名との類似度を、それらの名称に含まれる文字列の共通性等に基づいて算出したものを適合度ada(I,C)としてもよい。また、後述する例示的実施形態3のように、対象データに関連する対象データ関連情報と、カテゴリに関連するカテゴリ関連情報との類似度を適合度ada(I,C)としてもよい。
【0036】
図4の例において、対象データ「タピ茶」の、カテゴリ「ビール」に対する適合度ada(I,C)と、対象データ「タピ茶」のカテゴリ「アルコール」(「ビール」の上位カテゴリ)に対する上位適合度ada
recursive(I,parent(C))は、何れも0.05と算出されている。また、対象データ「タピ茶」の、カテゴリ「タピオカミルクティー」に対する適合度ada(I,C)は、0.97と算出され、対象データ「タピ茶」の、上位カテゴリ「お茶」に対する上位適合度ada
recursive(I,parent(C))は、0.95と算出されている。
【0037】
ここで、適合度算出部204は、
図4に示す数式(1)で総合適合度ada
recursive(I,C)を算出してもよい。なお、数式(1)におけるαは0から1の間で設定される重み値である。数式(1)を用いる場合、αが0.5未満のときに、対象データのカテゴリに対する適合度ada(I,C)に対する重みが、対象データの上位カテゴリに対する上位適合度ada
recursive(I,parent(C))に対する重みよりも重くなる。このため、αは0.5未満とすることが好ましい。また、上位カテゴリのさらに上位のカテゴリについては、上位カテゴリよりもさらに重みを小さくすることが好ましい。これにより、分類先の候補のカテゴリに近いものにより高い影響度を持たせることができる。
【0038】
例えば、α=0.2とした場合、「タピ茶」の「ビール」に対する総合適合度adarecursive(I,C)=0.8×0.05+0.2×0.05=0.05となる。また、「タピ茶」の「タピオカミルクティー」に対する総合適合度adarecursive(I,C)=0.8×0.97+0.2×0.95=0.97となる。
【0039】
分類部205は、このようにして算出した、各カテゴリについての総合適合度に基づいて対象データを分類する。
図4の例では、分類部205は、総合適合度がより高い「タピオカミルクティー」に「タピ茶」を分類する。
【0040】
以上のように、本例示的実施形態に係る情報処理装置2は、対象データのカテゴリに対する適合度と上位適合度から、分類部205が分類に用いる総合適合度を算出する適合度算出部204を備えている。そして、適合度算出部204は、総合適合度の算出において、適合度の重みを、上位適合度の重みよりも重くしてもよい。
【0041】
上記の構成によれば、対象データのあるカテゴリに対する適合度の重みを、そのカテゴリの上位カテゴリに対する適合度の重みよりも重くして総合適合度を算出し、分類部205はこの総合適合度を用いて対象データを分類する。このため、本例示的実施形態に係る情報処理装置2によれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、対象データのカテゴリに対する適合度を重視して対象データを分類することができるという効果が得られる。
【0042】
(分類方法の流れ)
本例示的実施形態に係る分類方法の流れについて、
図5を参照して説明する。
図5は、情報処理装置2が実行する分類方法を説明する図である。なお、
図5には、分類方法の流れを示すフローチャートと共に、対象データとその対象データの分類先となるカテゴリの階層構造の例を示している。
【0043】
S21では、データ取得部201が、階層構造の複数のカテゴリの何れかへの分類の対象となる対象データを取得する。例えば、図示のように、対象データが「タピ茶」という単語(商品名)であれば、データ取得部201は「タピ茶」というテキストデータを対象データとして取得する。
【0044】
S22では、分類先データ取得部202が、記憶部21に記憶されている分類先データ211を取得し、S21で取得された対象データの分類先の候補となるカテゴリを特定する。例えば、
図5の例において、対象データの「タピ茶」を小分類のカテゴリに分類する場合、分類先データ取得部202は、分類先データ211に示される大分類から小分類までの各カテゴリのうち、小分類のカテゴリである「ビール」、「焼酎」、「タピオカミルクティー」、および「緑茶」を特定する。
【0045】
S23では、階層構造特定部203が、階層情報212に基づいて、S22で特定されたカテゴリの上位カテゴリを特定する。なお、階層構造特定部203は、特定した上位カテゴリにさらに上位のカテゴリがある場合には、そのカテゴリについても特定してもよい。また、この処理は、最上位のカテゴリを特定するまで繰り返してもよい。例えば、大分類、中分類、小分類の3階層のカテゴリが規定されている場合に、S22で小分類のカテゴリが特定されたときには、階層構造特定部203は、少なくとも中分類のカテゴリを特定し、さらに大分類のカテゴリについても特定してもよい。なお、S22で特定されたカテゴリに上位のカテゴリが存在しない場合には、対象関連情報とカテゴリ関連情報の類似度に基づいて分類を行えばよい。
【0046】
例えば、
図5に示すカテゴリのうち「ビール」がS22で特定された場合、階層構造特定部203は、上位カテゴリとして少なくとも「アルコール」を特定すればよく、「アルコール」の上位カテゴリである「ドリンク」についても特定してもよい。他のカテゴリについても同様である。
【0047】
S24では、適合度算出部204が、S22で特定された複数のカテゴリの中から1つを選択する。そして、続くS25では、適合度算出部204は、S21で取得された対象データの、S22で特定された各カテゴリに対する適合度をそれぞれ算出する。また、適合度算出部204は、S21で取得された対象データの、S23で特定された各上位カテゴリに対する上位適合度についてもそれぞれ算出する。そして、S26では、適合度算出部204は、S25で算出した各適合度から総合適合度を算出する。
【0048】
S27では、適合度算出部204は、S22で特定された複数のカテゴリの全てについて総合適合度の算出が終了しているか否かを判定する。ここで終了していると判定された場合(S27でYES)にはS28の処理に進む。一方、適合度算出部204は、終了していないと判定した場合(S27でNO)にはS24の処理に戻り、総合適合度の算出に用いられていないカテゴリを1つ選択する。
【0049】
例えば、S22では
図5に示すカテゴリのうち小分類の4つのカテゴリが特定され、S23では各カテゴリについて中分類と大分類のカテゴリがそれぞれ特定されたとする。この場合、S24~S27の処理では、「タピ茶」のカテゴリ「ビール」に対する適合度が算出されると共に、「タピ茶」の上位カテゴリ「アルコール」および「ドリンク」のそれぞれに対する上位適合度が算出されて、これらの適合度および上位適合度から「タピ茶」のカテゴリ「ビール」に対する総合適合度が算出される。また、残り3つの小分類のカテゴリ「焼酎」、「タピオカミルクティー」、および「緑茶」についても同様にして総合適合度が算出される。
【0050】
S28では、分類部205が、S22で特定された複数のカテゴリのうち、総合適合度が最も高いカテゴリに対象データを分類する。これにより、
図5の分類方法は、終了する。
【0051】
〔例示的実施形態3〕
本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態2にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
【0052】
(情報処理装置2Aの構成)
本例示的実施形態に係る情報処理装置2Aの構成を
図6に基づいて説明する。
図6は、情報処理装置2Aの構成を示すブロック図である。情報処理装置2Aは、
図3に示した情報処理装置2と比べて、関連情報取得部204Aを備えている点、および適合度算出部204が適合度算出部204Bに変わっている点で相違している。
【0053】
関連情報取得部204Aは、対象データに関連する対象関連情報と、その対象データの分類先の候補のカテゴリに関連するカテゴリ関連情報と、そのカテゴリの上位のカテゴリに関連する上位カテゴリ関連情報と、を取得する。
【0054】
対象関連情報は、対象データに関連した情報であればよい。同様に、カテゴリ関連情報は、カテゴリに関連した情報であればよく、上位カテゴリ関連情報は、上位カテゴリに関連した情報であればよい。なお、以下では、対象関連情報、カテゴリ関連情報、および上位カテゴリ関連情報をまとめて単に関連情報と呼ぶ場合がある。これらの関連情報の取得方法については後述する。
【0055】
適合度算出部204Bは、対象関連情報とカテゴリ関連情報とが類似している程度に基づいて対象データのカテゴリに対する適合度を算出する。また、適合度算出部204Bは、対象関連情報と上位カテゴリ関連情報とが類似している程度に基づいて上位適合度を算出する。
【0056】
以上のように、本例示的実施形態に係る情報処理装置2Aは、対象データに関連する対象関連情報と、カテゴリに関連するカテゴリ関連情報とが類似している程度に基づいて適合度を算出すると共に、対象関連情報と、上位カテゴリに関連する上位カテゴリ関連情報とが類似している程度に基づいて上位適合度を算出する適合度算出部204Bを備えている。
【0057】
対象データに関連する対象関連情報と、カテゴリに関連するカテゴリ関連情報とが類似している場合、対象データはそのカテゴリに適合している可能性が高い。同様に、対象関連情報と、上位カテゴリに関連する上位カテゴリ関連情報とが類似している場合、対象データはその上位カテゴリに適合している可能性が高い。
【0058】
よって、対象関連情報とカテゴリ関連情報とが類似している程度に基づいて算出した適合度と、対象関連情報と上位カテゴリ関連情報とが類似している程度に基づいて算出した上位適合度に基づいて対象データの分類を行う上記の構成によれば、対象データを適切なカテゴリに分類することができるという効果が得られる。
【0059】
(関連情報の取得方法)
関連情報取得部204Aは、検索により関連情報を取得してもよい。検索場所は、対象データに関連する可能性がある各種情報が記録されている場所であればよい。例えば、関連情報取得部204Aは、対象データに関連する情報を、対象データに関連する可能性がある各種情報を記録した関連情報DB(データベース)内で検索し、この検索で検出された情報を対象関連情報として取得してもよい。関連情報DBは、記憶部21に記憶されていてもよいし、情報処理装置2Aの外部の装置に記憶されていてもよく、複数の場所に分散して設けられていてもよい。
【0060】
例えば、対象データが商品の名称を示すテキストデータである場合、各種商品についての説明文や、各種商品についてのレビュー等の各種テキストデータを記録した関連情報DBを用いてもよい。この他にも、例えば、対象データと関連する商品やサービスを扱う企業のデータベースやデータレイクを関連情報DBとして利用してもよい。
【0061】
また、例えば、対象データと関連し得る様々な商品やサービスに関する各種データを対象としたデータエンリッチメントにより抽出された各種データを格納するデータベースを関連情報DBとして利用してもよい。データエンリッチメントとは、対象となるデータに関連する各種情報を抽出してそのデータの付加情報とすることにより、対象となるデータの利用価値を高めるサービスである。また、この場合、情報処理装置2Aが決定したカテゴリを対象データに関連する情報として関連情報DBに追加してもよい。この場合、情報処理装置2Aは、対象データのデータエンリッチメントを行っているともいえる。
【0062】
また、対象データが画像データである場合には、関連情報取得部204Aは、対象データと類似した画像や対象データに関連するテキストデータを関連情報DB内で検索してもよい。
【0063】
また、例えば、関連情報取得部204Aは、対象データについてウェブ検索を行うことにより得られた検索結果を対象関連情報として取得してもよい。何れの検索においても、検索方法は特に限定されず、例えばテキストデータによる検索であれば、全文一致検索を行ってもよいし、部分一致検索を行ってもよい。
【0064】
また、関連情報取得部204Aは、対象関連情報と同様にして、分類先の候補のカテゴリに関連するカテゴリ関連情報を取得すると共に、そのカテゴリの上位のカテゴリに関連する上位カテゴリ関連情報を取得する。
【0065】
なお、各関連情報の取得方法は同じであってもよいし、異なっていてもよい。また、異なる取得方法で取得された各情報を関連情報としてもよい。例えば、関連情報取得部204Aは、対象データについてウェブ検索を行うことにより得られた検索結果と、対象データについて関連情報DB内の検索を行うことにより得られた検索結果の両方を対象関連情報として取得してもよい。
【0066】
(関連情報間の類似度の算出方法と類似度に基づく適合度の算出方法)
適合度算出部204Bは、上述のようにして取得された各関連情報間の類似度を算出し、その類似度に基づいて対象データとカテゴリの適合度を算出する。ここでは、関連情報間の類似度の算出方法と、類似度に基づく適合度の算出方法について
図7に基づいて説明する。
図7は、ウェブ検索で検出されたウェブページ間の類似度に基づく適合度の算出例を示す図である。
【0067】
図7には、対象データ「タピ茶」の検索結果のうち、最も上位の検索結果として検出されたウェブページP
I
1と、2番目に上位の検索結果として検出されたウェブページP
I
2を示している。また、
図7には、カテゴリ「お茶」の検索結果のうち、最も上位の検索結果であるウェブページP
C
1と、2番目に上位の検索結果であるウェブページP
C
2を示している。
【0068】
このように、対象データである「タピ茶」についてウェブ検索を行うことにより「タピ茶」という文字列を含む様々なウェブページが検出される。同様に、カテゴリ「お茶」についてウェブ検索を行うことにより「お茶」という文字列を含む様々なウェブページが検出される。なお、関連情報取得部204Aは、ウェブ検索結果の全てを関連情報とする必要はなく、類似度の算出に必要な検索結果を関連情報として取得すればよい。例えば、関連情報取得部204Aは、ウェブ検索結果のうち上位の所定数を関連情報として取得してもよい。
【0069】
適合度算出部204Bは、検出されたウェブページ間の類似度sim(PI
i,PC
j)を用いて、対象データ「タピ茶」の検索結果と、カテゴリ「お茶」の検索結果との類似度を算出してもよい。
【0070】
例えば、適合度算出部204Bは、類似度を算出する対象となるウェブページあるいはドキュメントで使用されている単語の重複度合い、ドメイン名の重複度合い、またはファイルパスに含まれる単語の重複度合いを、ウェブページ間の類似度sim(PI
i,PC
j)として算出してもよい。例えば、重複度合いをJaccard-Indexで算出してもよく、この場合、ウェブページ間の類似度sim(PI
i,PC
j)は下記の数式で表される。
sim(PI
i,PC
j)=J(bow(PI
i),bow(PC
j))
なお、bow(PI
i)は、ウェブページPI
iにおける単語のカウント値からなる多重集合である。同様に、bow(PC
j)は、ウェブページPC
jにおける単語のカウント値からなる多重集合である。無論、Jaccard-Indexは一例にすぎず、各検索結果から得られる集合間の類似度を算出する任意の手法を適用することができる。
【0071】
適合度算出部204Bは、上述のようにして算出した各ウェブページ間の類似度を用いて、
図7に示す数式(2)により、対象データとカテゴリの適合度を算出してもよい。数式(2)におけるr(i,j)は重みである。つまり、数式(2)を用いる場合、適合度算出部204Bは、ウェブページ間の類似度にその検索順位に応じた重みr(i,j)を乗じるという演算を、1位から10位までの各検索順位の全ての組み合わせについて行い、各演算結果の和を対象データとカテゴリとの適合度として算出する。
【0072】
無論、重みを乗じることは必須ではない。ただし、重みを乗じることにより、妥当な類似度が算出される確度を高めることが可能になるので、重みを乗じることは好ましい。例えば、上位の検索結果間の類似の程度に対する重みを下位の検索結果間の類似の程度に対する重みよりも重くしてもよい。これは、上位の検索結果は下位の検索結果よりも対象データやカテゴリと関連の深いものとなることが多いためである。具体的には、例えば、r(i,j)=(1/i)・(1/j)としてもよい。
【0073】
なお、
図7に示した類似度の算出方法は、関連情報DBを対象とした検索の検索結果の類似度の算出にも同様に適用することができる。また、対象データと上位カテゴリの適合度、すなわち上位適合度についても上記と同様にして算出することができる。
【0074】
ここで、ウェブまたは関連情報DBを対象として検索を行った場合、対象データやカテゴリと関連の深いものから低いものまで、様々な検索結果が得られる可能性がある。このため、対象関連情報およびカテゴリ関連情報に含まれる検索結果が、何れも対象データやカテゴリと関連の低いものであった場合には、妥当な類似度が算出されないことも考えられる。
【0075】
そこで、本例示的実施形態に係る情報処理装置2Aにおいては、以上のように、対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示す対象関連情報を用いてもよい。また、カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示すカテゴリ関連情報を用いてもよい。さらに、上位カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示す上位カテゴリ関連情報を用いてもよい。この場合、適合度算出部204Bは、各関連情報が示す上位から下位までの各検索結果の類似の程度に基づいて適合度を算出する。
【0076】
この構成によれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、各関連情報の中に、対象データ、カテゴリ、および上位カテゴリと関連の高い検索結果が含まれる可能性を高めて、適合度の確度を高めることができるという効果が得られる。また、各関連情報に対象データ、カテゴリ、および上位カテゴリと関連の低い検索結果が含まれていたとしても、全体として妥当な適合度を算出することが可能になる。
【0077】
また、以上のように、本例示的実施形態に係る情報処理装置2Aにおいては、適合度算出部204Bは、適合度の算出において、上位の検索結果間の類似の程度に対する重みを下位の検索結果間の類似の程度に対する重みよりも重くする、という構成を採用してもよい。
【0078】
上位の検索結果は下位の検索結果よりも対象データやカテゴリと関連の深いものとなることが多い。このため、本例示的実施形態に係る情報処理装置2Aによれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、妥当な適合度が算出される確度を高めることができるという効果が得られる。
【0079】
(分類方法の流れ)
本例示的実施形態に係る分類方法の流れについて、
図8を参照して説明する。
図8は、情報処理装置2Aが実行する分類方法の流れを示すフロー図である。なお、S31~S33、およびS39~S41は、
図5のS21~S23、およびS27~S29と同様であるからここでは説明を繰り返さない。
【0080】
S34では、関連情報取得部204Aが、S31で取得された対象データの関連情報である対象関連情報を取得する。例えば、関連情報取得部204Aは、対象データについて検索した検索結果のうち上位所定件数を対象関連情報として取得してもよい。
【0081】
S35では、関連情報取得部204Aは、S32で特定された複数のカテゴリの中から1つを選択する。そして、続くS36では、関連情報取得部204Aは、S35で選択したカテゴリに関連する情報をカテゴリ関連情報として取得する。例えば、関連情報取得部204Aは、S34と同様に、カテゴリについて検索した検索結果のうち上位所定件数をカテゴリ関連情報として取得してもよい。
【0082】
S37では、関連情報取得部204Aは、S35で選択されたカテゴリの上位カテゴリ(S33で特定されたもの)に関連する情報を上位カテゴリ関連情報として取得する。例えば、関連情報取得部204Aは、S34、S36と同様に、上位カテゴリについて検索した検索結果のうち上位所定件数を上位カテゴリ関連情報として取得してもよい。
【0083】
S38では、適合度算出部204Bが、S34で取得された対象関連情報と、S36で取得されたカテゴリ関連情報との類似度に基づいて、対象データのカテゴリに対する適合度を算出する。また、適合度算出部204Bは、S34で取得された対象関連情報と、S37で取得された上位カテゴリ関連情報との類似度に基づいて、対象データの上位カテゴリに対する上位適合度を算出する。そして、S39では、適合度算出部204Bは、S38で算出した適合度と上位適合度から総合適合度を算出する。
【0084】
〔変形例〕
上述の各例示的実施形態で説明した各処理の実行主体は任意であり、上述の例に限られない。つまり、相互に通信可能な複数の装置により、情報処理装置1、2、2Aと同様の機能を有する情報処理システムを構築することができる。例えば、
図3および
図6に示す各ブロックを複数の装置に分散して設けることにより、情報処理装置2、2Aと同様の機能を有する情報処理システムを構築することができる。
【0085】
〔ソフトウェアによる実現例〕
情報処理装置1、2、2Aの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
【0086】
後者の場合、情報処理装置1、2、2Aは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を
図9に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを情報処理装置1、2、2Aとして動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、情報処理装置1、2、2Aの各機能が実現される。
【0087】
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
【0088】
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
【0089】
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
【0090】
〔付記事項1〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
【0091】
〔付記事項2〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
【0092】
(付記1)
階層構造の複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段と、前記対象データが前記カテゴリに適合する度合いを示す適合度と、前記対象データが前記カテゴリの上位カテゴリに適合する度合いを示す上位適合度とに基づいて、当該対象データを複数の前記カテゴリの何れかに分類する分類手段と、を備える情報処理装置。この構成によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができる。
【0093】
(付記2)
前記適合度と前記上位適合度から、前記分類手段が前記分類に用いる総合適合度を算出する適合度算出手段を備え、前記適合度算出手段は、前記総合適合度の算出において、前記適合度の重みを、前記上位適合度の重みよりも重くする、付記1に記載の情報処理装置。この構成によれば、対象データのカテゴリに対する適合度を重視して対象データを分類することができる。
【0094】
(付記3)
前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度に基づいて前記適合度を算出すると共に、前記対象関連情報と、前記上位カテゴリに関連する上位カテゴリ関連情報とが類似している程度に基づいて前記上位適合度を算出する適合度算出手段を備える、付記1または2に記載の情報処理装置。この構成によれば、対象データを適切なカテゴリに分類することができる。
【0095】
(付記4)
少なくとも1つのプロセッサが、階層構造の複数のカテゴリの何れかへの分類の対象となる対象データを取得することと、前記対象データが前記カテゴリに適合する度合いを示す適合度と、前記対象データが前記カテゴリの上位カテゴリに適合する度合いを示す上位適合度とに基づいて、当該対象データを複数の前記カテゴリの何れかに分類することと、を含む分類方法。この構成によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができる。
【0096】
(付記5)
コンピュータを、階層構造の複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段、および前記対象データが前記カテゴリに適合する度合いを示す適合度と、前記対象データが前記カテゴリの上位カテゴリに適合する度合いを示す上位適合度とに基づいて、当該対象データを複数の前記カテゴリの何れかに分類する分類手段、として機能させる分類プログラム。この構成によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができる。
【0097】
〔付記事項3〕
上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
【0098】
少なくとも1つのプロセッサを備え、前記プロセッサは、階層構造の複数のカテゴリの何れかへの分類の対象となる対象データを取得する処理と、前記対象データが前記カテゴリに適合する度合いを示す適合度と、前記対象データが前記カテゴリの上位カテゴリに適合する度合いを示す上位適合度とに基づいて、当該対象データを複数の前記カテゴリの何れかに分類する処理とを実行する情報処理装置。
【0099】
なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記対象データを取得する処理と、前記対象データを複数の前記カテゴリの何れかに分類する処理とを前記プロセッサに実行させるための分類プログラムが記憶されていてもよい。また、この分類プログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
【符号の説明】
【0100】
1 情報処理装置
11 データ取得部(データ取得手段)
12 分類部(分類手段)
2 情報処理装置
201 データ取得部(データ取得手段)
204 適合度算出部(適合度算出手段)
205 分類部(分類手段)
2A 情報処理装置
204B 適合度算出部(適合度算出手段)