特許7017533 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＫＤＤＩ株式会社の特許一覧

特許7017533分類装置、学習装置、分類方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-01-31

(45)【発行日】2022-02-08

(54)【発明の名称】分類装置、学習装置、分類方法及びプログラム

(51)【国際特許分類】

G06F 16/35 20190101AFI20220201BHJP

G06F 40/20 20200101ALI20220201BHJP

G06F 40/279 20200101ALI20220201BHJP

【ＦＩ】

G06F16/35

G06F40/20

G06F40/279

【請求項の数】 7

(21)【出願番号】P 2019030780

(22)【出願日】2019-02-22

(65)【公開番号】P2020135644

(43)【公開日】2020-08-31

【審査請求日】2021-02-01

(73)【特許権者】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】100106002

【弁理士】

【氏名又は名称】正林真之

(74)【代理人】

【識別番号】100120891

【弁理士】

【氏名又は名称】林一好

(72)【発明者】

【氏名】グエンソンホアンコック

(72)【発明者】

【氏名】トランフンタオ

(72)【発明者】

【氏名】披田野清良

(72)【発明者】

【氏名】清本晋作

【審査官】田川泰宏

(56)【参考文献】

【文献】特開２０１５－１７６５１１（ＪＰ，Ａ）

【文献】特開２００９－１２９２７９（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１６／０２６７０７３（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／３５

Ｇ０６Ｆ４０／２０

Ｇ０６Ｆ４０／２７９

(57)【特許請求の範囲】

【請求項1】

文書データのそれぞれを単語に分割し、当該単語のそれぞれに品詞タグを付与するタグ付け部と、
前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出部と、
前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出部と、
前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出部と、
前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予め機械翻訳又は人間翻訳の区分がラベル付けされた文書データにより学習されたモデルにより、分類結果を出力する分類部と、を備える分類装置。

【請求項2】

前記統計量は、平均又は分散の少なくともいずれかを含む請求項１に記載の分類装置。

【請求項3】

文書データのそれぞれを単語に分割し、当該単語のそれぞれに品詞タグを付与するタグ付け部と、
前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出部と、
前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出部と、
前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出部と、
前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予めラベル付けされている機械翻訳又は人間翻訳の区分を学習したモデルを生成する学習部と、を備える学習装置。

【請求項4】

前記学習部は、複数の学習アルゴリズムにより複数の前記モデルを生成し、前記区分の出力精度が最も高いモデルを選別する請求項３に記載の学習装置。

【請求項5】

文書データのそれぞれを単語に分割し、当該単語のそれぞれに品詞タグを付与するタグ付けステップと、
前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出ステップと、
前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出ステップと、
前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出ステップと、
前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予め機械翻訳又は人間翻訳の区分がラベル付けされた文書データにより学習されたモデルにより、分類結果を出力する分類ステップと、をコンピュータが実行する分類方法。

【請求項6】

請求項１又は請求項２に記載の分類装置としてコンピュータを機能させるための分類プログラム。

【請求項7】

請求項３又は請求項４に記載の学習装置としてコンピュータを機能させるための学習プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械翻訳と人間翻訳とを分類するための装置に関する。

【背景技術】

【0002】

従来、スパムメール等の悪意のある文書を攻撃者が作成するために、機械翻訳が利用されている。このため、文書が機械翻訳されたものであるか、人間により翻訳されたものであるかを判別することにより、悪意のある文書を高い確率で検出し、セキュリティ上のリスクを低減することができる。
例えば、非特許文献１～８において、機械翻訳と人間翻訳とを分類する手法が提案されている。

【先行技術文献】

【非特許文献】

【0003】

【文献】Ｃｈａｅ，Ｊ．，Ｎｅｎｋｏｖａ，Ａ．：Ｐｒｅｄｉｃｔｉｎｇｔｈｅｆｌｕｅｎｃｙｏｆｔｅｘｔｗｉｔｈｓｈａｌｌｏｗｓｔｒｕｃｔｕｒａｌｆｅａｔｕｒｅｓ：ｃａｓｅｓｔｕｄｉｅｓｏｆｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎａｎｄｈｕｍａｎ－ｗｒｉｔｔｅｎｔｅｘｔ．Ｉｎ：ＥＡＣＬ，ｐｐ．１３９－１４７（２００９）．

【文献】Ｌｉ，Ｙ．，Ｗａｎｇ，Ｒ．，Ｚｈａｏ，Ｈ．：Ａｍａｃｈｉｎｅｌｅａｒｎｉｎｇｍｅｔｈｏｄｔｏｄｉｓｔｉｎｇｕｉｓｈｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎｆｒｏｍｈｕｍａｎｔｒａｎｓｌａｔｉｏｎ．Ｉｎ：ＰＡＣＬＩＣ，ｐｐ．３５４－３６０（２０１５）．

【文献】Ａｒａｓｅ，Ｙ．，Ｚｈｏｕ，Ｍ．：Ｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎｄｅｔｅｃｔｉｏｎｆｒｏｍｍｏｎｏｌｉｎｇｕａｌｗｅｂ－ｔｅｘｔ．Ｉｎ：ＡＣＬ（１）．ｐｐ．１５９７－１６０７（２０１３）．

【文献】Ａｈａｒｏｎｉ，Ｒ．，Ｋｏｐｐｅｌ，Ｍ．，Ｇｏｌｄｂｅｒｇ，Ｙ．：Ａｕｔｏｍａｔｉｃｄｅｔｅｃｔｉｏｎｏｆｍａｃｈｉｎｅｔｒａｎｓｌａｔｅｄｔｅｘｔａｎｄｔｒａｎｓｌａｔｉｏｎｑｕａｌｉｔｙｅｓｔｉｍａｔｉｏｎ．Ｉｎ：ＡＣＬ（２０１４）．

【文献】Ｎｇｕｙｅｎ－Ｓｏｎ，Ｈ．Ｑ．，Ｅｃｈｉｚｅｎ，Ｉ．：Ｄｅｔｅｃｔｉｎｇｃｏｍｐｕｔｅｒ－ｇｅｎｅｒａｔｅｄｔｅｘｔｕｓｉｎｇｆｌｕｅｎｃｙａｎｄｎｏｉｓｅｆｅａｔｕｒｅｓ．Ｉｎ：ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＰａｃｉｆｉｃＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍ－ｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．ｐｐ．２８８－３００．Ｓｐｒｉｎｇｅｒ（２０１７）．

【文献】Ｎｇｕｙｅｎ－Ｓｏｎ，Ｈ．Ｑ．，Ｔｉｅｕ，Ｎ．Ｄ．Ｔ．，Ｎｇｕｙｅｎ，Ｈ．Ｈ．，Ｙａｍａｇｉｓｈｉ，Ｊ．，Ｚｅｎ，Ｉ．Ｅ．：Ｉｄｅｎ－ｔｉｆｙｉｎｇｃｏｍｐｕｔｅｒ－ｇｅｎｅｒａｔｅｄｔｅｘｔｕｓｉｎｇｓｔａｔｉｓｔｉｃａｌａｎａｌｙｓｉｓ．Ｉｎ：Ａｓｉａ－ＰａｃｉｆｉｃＳｉｇｎａｌａｎｄＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＡｓｓｏｃｉａｔｉｏｎＡｎｎｕａｌＳｕｍｍｉｔａｎｄＣｏｎｆｅｒｅｎｃｅ（ＡＰＳＩＰＡＡＳＣ），２０１７．ｐｐ．１５０４－１５１１．ＩＥＥＥ（２０１７）．

【文献】Ｌａｂｂｅ，Ｃ．，Ｌａｂｂｅ，Ｄ．：Ｄｕｐｌｉｃａｔｅａｎｄｆａｋｅｐｕｂｌｉｃａｔｉｏｎｓｉｎｔｈｅｓｃｉｅｎｔｉｆｉｃｌｉｔｅｒａｔｕｒｅ：ｈｏｗｍａｎｙＳＣＩｇｅｎｐａｐｅｒｓｉｎｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ？Ｉｎ：Ｓｃｉｅｎｔｏｍｅｔｒｉｃｓ９４（１），３７９－３９６（２０１３）．

【文献】Ｎｇｕｙｅｎ－Ｓｏｎ，Ｈ．Ｑ．，Ｔｉｅｕ，Ｎ．Ｄ．Ｔ．，Ｎｇｕｙｅｎ，Ｈ．Ｈ．，Ｙａｍａｇｉｓｈｉ，Ｊ．，Ｅｃｈｉｚｅｎ，Ｉ．：Ｉｄｅｎｔｉｆｙｉｎｇｃｏｍｐｕｔｅｒ－ｇｅｎｅｒａｔｅｄｐａｒａｇｒａｐｈｓｕｓｉｎｇｃｏｈｅｒｅｎｃｅａｎｄｆｌｕｅｎｃｙｆｅａｔｕｒｅｓ．Ｉｎ：ＰｒｏｃｅｅｄｉｎｇｓＰＡＣＬＩＣ（２０１８）．

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来の分類手法は、機械翻訳の品質に大きく依存しており、機械翻訳の品質が人間翻訳に比べて大きく劣っている場合には両者を分類できるものの、近年の機械翻訳の性能向上により、分類精度が低下していた。

【0005】

本発明は、精度良く機械翻訳と人間翻訳とを分類できる分類装置、学習装置、分類方法及びプログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明に係る分類装置は、文書データのそれぞれを単語に分割し、当該単語のそれぞれに品詞タグを付与するタグ付け部と、前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出部と、前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出部と、前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出部と、前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予め機械翻訳又は人間翻訳の区分がラベル付けされた文書データにより学習されたモデルにより、分類結果を出力する分類部と、を備える。

【0007】

前記統計量は、平均又は分散の少なくともいずれかを含んでもよい。

【0008】

本発明に係る学習装置は、文書データのそれぞれを単語に分割し、当該単語のそれぞれに品詞タグを付与するタグ付け部と、前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出部と、前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出部と、前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出部と、前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予めラベル付けされている機械翻訳又は人間翻訳の区分を学習したモデルを生成する学習部と、を備える。

【0009】

前記学習部は、複数の学習アルゴリズムにより複数の前記モデルを生成し、前記区分の出力精度が最も高いモデルを選別してもよい。

【0010】

本発明に係る分類方法は、文書データのそれぞれを単語に分割し、当該単語のそれぞれに品詞タグを付与するタグ付けステップと、前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出ステップと、前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出ステップと、前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出ステップと、前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予め機械翻訳又は人間翻訳の区分がラベル付けされた文書データにより学習されたモデルにより、分類結果を出力する分類ステップと、をコンピュータが実行する。

【0011】

本発明に係る分類プログラムは、前記分類装置としてコンピュータを機能させるためのものである。

【0012】

本発明に係る学習プログラムは、前記学習装置としてコンピュータを機能させるためのものである。

【発明の効果】

【0013】

本発明によれば、精度よく機械翻訳と人間翻訳とを分類できる。

【図面の簡単な説明】

【0014】

【図1】実施形態に係る分類装置の機能構成を示す図である。

【図2】実施形態に係る品詞タグの種類を例示する図である。

【図3】実施形態に係る文書データを構成する単語に品詞タグが付与される手順を例示する図である。

【図4】実施形態に係る距離の算出単位の具体例を示す図である。

【図5】実施形態に係る単語間の距離の最小値を抽出する手順を示す図である。

【図6】実施形態に係る文書データ及び品詞ペア毎の単語間の距離データを例示する図である。

【図7】実施形態に係る文書データ毎の特徴量を例示する図である。

【発明を実施するための形態】

【0015】

以下、本発明の実施形態の一例について説明する。
図１は、本実施形態に係る分類装置１の機能構成を示す図である。
分類装置及び学習装置としての分類装置１は、サーバ装置又はパーソナルコンピュータ等の情報処理装置（コンピュータ）であり、制御部１０及び記憶部２０の他、各種データの入出力デバイス及び通信デバイス等を備える。

【0016】

制御部１０は、分類装置１の全体を制御する部分であり、記憶部２０に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部１０は、ＣＰＵであってよい。

【0017】

記憶部２０は、ハードウェア群を分類装置１として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ＲＯＭ、ＲＡＭ、フラッシュメモリ又はハードディスク（ＨＤＤ）等であってよい。具体的には、記憶部２０は、本実施形態の各機能を制御部１０に実行させるためのプログラムの他、辞書データ２１、コーパス２２、学習モデル２３等を記憶する。

【0018】

制御部１０は、入力部１１と、タグ付け部１２と、距離算出部１３と、抽出部１４と、特徴量算出部１５と、学習部１６と、分類部１７とを備える。制御部１０は、これらの機能部により、機械翻訳と人間翻訳とを分類する学習モデル２３を生成し、新たな文書データを、機械翻訳されたものであるか、人間により翻訳されたものであるかに分類して結果を出力する。

【0019】

入力部１１は、学習モデル２３の訓練データ、又は学習モデル２３による分類対象として、文書データ（テキスト）の入力を受け付ける。

【0020】

タグ付け部１２は、入力された文書データのそれぞれを単語に分割し、これらの単語のそれぞれに品詞タグを付与する。
品詞タグを付与するためには、既存の形態素解析の手法が利用可能である。このとき、日本語又は英語等の言語に応じた品詞が定義された辞書データ２１が参照される。
なお、辞書データ２１は、分類装置１とは別の装置に記憶されていてもよいし、また、例えば、インターネット等を経由してアクセス可能な公開データベースに記憶されていてもよい。

【0021】

図２は、本実施形態に係る品詞タグの種類を例示する図である。
ここでは、英語の文書データを処理する場合を例に、分解された単語に付与する４５種類の品詞（ＰＯＳｔａｇ）と、その意味とを示している。

【0022】

図３は、本実施形態に係る文書データを構成する単語に品詞タグが付与される手順を例示する図である。
例えば、文書１に含まれる名詞「ｓｃｈｏｏｌ」、「ｍｏｒｎｉｎｇ」、「ｂａｇ」等には、品詞タグ「ＮＮ」が付与され、動詞「ｇｏ」、「ｗａｌｋ」等には、品詞タグ「ＶＢ」が付与されている。
このように、タグ付け部１２は、入力された複数の文書データのそれぞれに対して、文書データを構成する全ての単語について、前述の４５種類の品詞タグのいずれかを付与する。

【0023】

距離算出部１３は、文書データ毎に、単語の組み合わせについて、単語のそれぞれに定義された単語ベクトル間の距離を算出する。
各単語に固有の多次元（例えば３００次元）の単語ベクトルは、大量のデータセットに基づいて学習され、単語間の相対的な距離の近さによって意味の類似性又は関連性が示されるデータである。単語ベクトルは、予めコーパス２２に格納されている。
なお、コーパス２２は、分類装置１とは別の装置に記憶されていてもよいし、また、例えば、インターネット等を経由してアクセス可能な公開データベースに記憶されていてもよい。

【0024】

距離算出部１３は、例えば、次の計算式によりユークリッド距離ｄを算出する。ここで、ｐ及びｑは、２つの単語を、ｐ_ｉ及びｑ_ｉは、ｎ次元の単語ベクトルのｉ（１≦ｉ≦ｎ）番目の要素を示す。

【数1】

【0025】

図４は、本実施形態に係る距離の算出単位の具体例を示す図である。
距離算出部１３は、文書１に含まれる名詞（ＮＮ）と名詞との組み合わせ（品詞ペア）として、「ｓｃｈｏｏｌ」と「ｍｏｒｎｉｎｇ」、「ｓｃｈｏｏｌ」と「ｂａｇ」、「ｍｏｒｎｉｎｇ」と「ｂａｇ」のように、２つの単語の組み合わせを順に抽出し、これらの組み合わせの距離ｄを算出する。
同様に、例えば品詞が４５種類の場合には、１０３５通りの品詞ペアそれぞれについて、単語間の距離ｄが文書毎に算出される。

【0026】

抽出部１４は、文書データ及び品詞ペア毎に、同一の単語に関する他の単語との距離のグループの中で、最小値をそれぞれ抽出する。
例えば、文書１の品詞ペア「ＮＮ－ＮＮ」については、「ｓｃｈｏｏｌ」と他の単語（「ｍｏｒｎｉｎｇ」及び「ｂａｇ」等）との距離のグループ、「ｍｏｒｎｉｎｇ」と他の単語との距離のグループ、「ｂａｇ」と他の単語との距離のグループのように、複数のグループからそれぞれ距離の最小値を抽出する。

【0027】

図５は、本実施形態に係る単語間の距離の最小値を抽出する手順を示す図である。
文書１の品詞ペア１（ＮＮ－ＮＮ）では、ある単語に関する距離のグループ「６．３，４．６，２．８，０．６，９．２」からは、最小値０．６が抽出される。また、別の単語に関する距離のグループ「３．９，６．５，２．１，５．８，４．６」からは、最小値２．１が抽出される。
このように、文書データ及び品詞ペア毎に、１つ以上の最小値データが抽出され、同様の処理が全ての品詞ペア及び文書データについて行われる。

【0028】

図６は、本実施形態に係る文書データ及び品詞ペア毎の単語間の距離データを例示する図である。
この例では、抽出部１４により抽出された最小値データが文書データと品詞ペアとのマトリクスとして記述されている。マトリクスの各要素には、前述の通り、１つ又は複数の最小値データが配置される。
さらに、文書データが学習のための訓練データである場合、各文書データには、機械翻訳か人間翻訳かの分類ラベルが付与されている。

【0029】

特徴量算出部１５は、文書データ及び品詞ペア毎に、最小値のグループの中での統計量を特徴量として算出する。
統計量は、例えば、次の計算式により算出される平均（ａｖｅｒａｇｅ）又は分散（ｖａｒｉａｎｃｅ）の少なくともいずれかを含んでよい。ここで、ａ_ｉ（１≦ｉ≦ｎ）は、マトリクスの要素（グループ）に含まれるｎ個の最小値データのｉ番目を示す。

【数2】

【0030】

図７は、本実施形態に係る文書データ毎の特徴量を例示する図である。
この例では、文書データ毎に、１０３５通りの品詞ペアに対して平均及び分散の２つの特徴量がそれぞれ算出されている。

【0031】

学習部１６は、文書データ毎に、品詞ペアに対する特徴量を入力とし、予めラベル付けされている機械翻訳又は人間翻訳の区分を学習した学習モデル２３を生成する。
学習モデル２３を生成する手法は、ロジスティック回帰、線形分類器、確率的勾配降下法によるサポートベクタマシン、逐次最小問題最適化法によるサポートベクタマシン等、各種の学習アルゴリズムから適宜選択されてよい。
また、学習部１６は、複数の学習アルゴリズムにより複数の学習モデル２３を生成してもよく、この場合、出力精度が最も高い学習モデル２３が選別されてよい。

【0032】

分類部１７は、分類対象の文書データが入力された際に、前述の特徴量算出部１５により算出された品詞ペアに対する特徴量（例えば、平均及び分散）を入力とし、学習モデル２３により、分類結果を出力する。

【0033】

本実施形態によれば、分類装置１は、文書データを構成する単語に品詞タグを付与し、品詞ペア毎に単語間の距離を算出する。そして分類装置１は、この単語間の距離を統計処理した特徴量を入力として、機械翻訳であるか人間翻訳であるかの既知の区分に基づいて学習モデル２３を生成する。
機械翻訳に比べて人間翻訳は、単一の文だけでなく文書内の複数の文の中で、類似性又は関連性の高い単語が一貫性を持って使用される傾向にある。分類装置１は、このような傾向の違いを、単語間の距離に基づく特徴量により表し、適切な学習モデル２３を生成できる。
したがって、分類装置１は、精度良く機械翻訳と人間翻訳とを分類できる。この結果、スパムメール等のユーザが望まない文書データを高精度に判別することが可能となる。

【0034】

また、分類装置１は、特徴量として、単語毎の距離の最小値に関する平均又は分散の少なくともいずれかを用いることで、容易な計算により精度良く文書データを分類できる。
さらに、分類装置１は、複数の学習アルゴリズムを用いて学習モデル２３を生成し、精度が最も高いものを選別するので、より高精度に文書データを分類できる。

【0035】

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。

【0036】

分類装置１による学習方法及び分類方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置（コンピュータ）にインストールされる。また、これらのプログラムは、ＣＤ－ＲＯＭのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したＷｅｂサービスとしてユーザのコンピュータに提供されてもよい。

【符号の説明】

【0037】

１分類装置（学習装置）
１０制御部
１１入力部
１２タグ付け部
１３距離算出部
１４抽出部
１５特徴量算出部
１６学習部
１７分類部
２０記憶部
２３学習モデル

【図1】