特表2024-516440 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インディアン　インスティテュート　オブ　テクノロジー　マドラス　（アイアイティー　マドラス）の特許一覧 ▶ クラリトリックスインクディー．ビー．エーブディヘルスの特許一覧

特表2024-516440データ分類のためのシステム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-04-15

(54)【発明の名称】データ分類のためのシステム及び方法

(51)【国際特許分類】

G06N 20/00 20190101AFI20240408BHJP

【ＦＩ】

G06N20/00

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023567079

(86)(22)【出願日】2022-04-20

(85)【翻訳文提出日】2023-12-15

(86)【国際出願番号】 IN2022050376

(87)【国際公開番号】W WO2022229975

(87)【国際公開日】2022-11-03

(31)【優先権主張番号】202141019838

(32)【優先日】2021-04-30

(33)【優先権主張国・地域又は機関】IN

(81)【指定国・地域】

(71)【出願人】

【識別番号】519360844

【氏名又は名称】インディアンインスティテュートオブテクノロジーマドラス（アイアイティーマドラス）

【氏名又は名称原語表記】ＩＮＤＩＡＮＩＮＳＴＩＴＵＴＥＯＦＴＥＣＨＮＯＬＯＧＹＭＡＤＲＡＳ（ＩＩＴＭＡＤＲＡＳ）

【住所又は居所原語表記】ＴｈｅＤｅａｎ，ＩｎｄｕｓｔｒｉａｌＣｏｎｓｕｌｔａｎｃｙ＆ＳｐｏｎｓｏｒｅｄＲｅｓｅａｒｃｈ（ＩＣ＆ＳＲ），ＩｎｄｉａｎＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙＭａｄｒａｓ，ＩＩＴＰＯ，Ｃｈｅｎｎａｉ，ＴａｍｉｌＮａｄｕ，Ｃｈｅｎｎａｉ６０００３６，Ｉｎｄｉａ

(71)【出願人】

【識別番号】523410506

【氏名又は名称】クラリトリックスインクディー．ビー．エーブディヘルス

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(72)【発明者】

【氏名】ラヴィンドラン，バララマン

(72)【発明者】

【氏名】サンシアッパン，スダルサン

(72)【発明者】

【氏名】シュラヴァン，ニティン

(57)【要約】

【課題】本開示は、データ分類のための方法及びシステム（１２０）を説明する。
【解決手段】システム（１２０）は、メモリ（２４０）に結合され、少なくとも１つのラベル付けされたデータセット及び少なくとも１つのラベル付けされていないデータセットを含む少なくとも１つの第１のデータセットを受信し、受信したラベル付けされたデータセットを処理して、クラスタインデックスを含む少なくとも１つの第１のメタ特徴を生成するように構成された少なくとも１つのプロセッサ（２３０）を含む。プロセッサ（２３０）は、生成されたメタ特徴を予め構築されたモデルと関連付けることによって、少なくとも１つのラベル付けされたデータセットに対する複数の分類モデルの各々の分類性能スコアを推定するようにさらに構成される。プロセッサ（２３０）は、推定された性能スコアの降順に並べられた分類モデルを含むリストを生成し、リストから上位Ｎ個の分類モデルを選択して、少なくとも１つのラベル付けされていないデータセットを分類するためのアンサンブル分類モデルを構築するようにさらに構成される。
【選択図】図３

【特許請求の範囲】

【請求項1】

データ分類のための方法（５００）であって、
少なくとも１つの第１のデータセットを受信すること（５０２）であって、前記少なくとも１つの第１のデータセットは、少なくとも１つのラベル付けされたデータセットと、少なくとも１つのラベル付けされていないデータセットとを含む、受信することと、
前記少なくとも１つのラベル付けされたデータセットから少なくとも１つの第１のメタ特徴を生成するために、前記少なくとも１つのラベル付けされたデータセットを処理すること（５０４）であって、前記少なくとも１つの第１のメタ特徴は、少なくとも１つの第１のクラスタインデックスである、処理することと、
前記少なくとも１つの第１のメタ特徴を、複数の分類モデルを含む予め構築されたモデル（３２０）と関連付けること（５０６）であって、前記予め構築されたモデル（３２０）は、少なくとも１つの予め計算されたメタ特徴を、前記複数の分類モデルに対応する複数の予め計算された分類性能スコアにマッピングするための少なくとも１つのマッピング関数をさらに含む、関連付けることと、
前記少なくとも１つの第１のメタ特徴を前記予め構築されたモデル（３２０）と関連付けることに基づいて、前記少なくとも１つのラベル付けされたデータセットについての前記複数の分類モデルの各々の分類性能スコアを推定すること（５０８）と、
前記推定された分類性能スコアの降順に並べられた前記複数の分類モデルを含むリストを生成すること（５１０）と、
前記リストから所定数の上位分類モデルを選択して、前記少なくとも１つのラベル付けされていないデータセットを分類するためのアンサンブル分類モデルを構築すること（５１２）と、
を含む、方法。

【請求項2】

前記少なくとも１つのラベル付けされていないデータセットを分類することは、
多数決、加重平均、及びモデルスタッキングのうちの１つに基づいてクラスラベルを予測するために、前記アンサンブル分類モデルを使用して前記少なくとも１つのラベル付けされていないデータセットを処理することと、を含む、請求項１に記載の方法。

【請求項3】

少なくとも１つの第１のメタ特徴を生成するために前記少なくとも１つのラベル付けされたデータセットを処理することは、
少なくとも１つのクリーニングされたデータセットを生成するために、前記少なくとも１つのラベル付けされたデータセットを処理することと、
１つ以上のクラスタを生成するために、少なくとも１つのクラスタリングモデルを使用して、前記少なくとも１つのクリーニングされたデータセットを処理することと、
前記１つ以上のクラスタを処理することによって多次元ベクトルを生成することであって、前記多次元ベクトルは前記少なくとも１つの第１のメタ特徴を含む、生成することと、
を含む、請求項１に記載の方法。

【請求項4】

前記推定された分類性能スコアを予め設定された閾値と比較することによって、前記少なくとも１つの第１のデータセットの分類複雑度を決定すること、
をさらに含む、請求項１に記載の方法。

【請求項5】

前記予め構築されたモデルは、
少なくとも１つの第２のデータセットを受信することと、
少なくとも１つの訓練サブデータセットを生成するために、前記少なくとも１つの第２のデータセットを処理することと、
１つ以上のクラスタを生成するために、少なくとも１つのクラスタリングモデルを使用して前記少なくとも１つの訓練サブデータセットを処理することと、
前記１つ以上のクラスタを処理することによって多次元ベクトルを生成することであって、前記多次元ベクトルは、前記少なくとも１つの訓練サブデータセットに対応する少なくとも１つの第２のメタ特徴を含み、前記少なくとも１つの第２のメタ特徴は、少なくとも１つの第２のクラスタインデックスである、生成することと、
前記少なくとも１つの訓練サブデータセットを処理することによって、前記複数の分類モデルに対応する複数の分類性能スコアを生成することと、
前記生成された少なくとも１つの第２のメタ特徴を前記生成された複数の分類性能スコアと関連付けることによって前記予め構築されたモデルを生成することであって、前記少なくとも１つの第２のメタ特徴は前記少なくとも１つの予め計算されたメタ特徴に対応し、前記複数の分類性能スコアは前記複数の予め計算された分類性能スコアに対応する、生成することと、
によって生成される、請求項１に記載の方法。

【請求項6】

前記複数の分類モデルに対応する複数の分類性能スコアを生成することは、前記複数の分類モデルに対応する１つ以上のハイパーパラメータを調整することによって、前記複数の分類モデルの各々について最良の分類性能スコアを生成することを含む、請求項５に記載の方法。

【請求項7】

データ分類のためのシステム（１２０）であって、
メモリ（２４０）と、
前記メモリ（２４０）と通信可能に結合された少なくとも１つのプロセッサ（２３０）と、を備え、前記少なくとも１つのプロセッサ（２３０）は、
少なくとも１つの第１のデータセットを受信し、前記少なくとも１つの第１のデータセットは、少なくとも１つのラベル付けされたデータセットと、少なくとも１つのラベル付けされていないデータセットとを含み、
前記少なくとも１つのラベル付けされたデータセットから少なくとも１つの第１のメタ特徴を生成ために、前記少なくとも１つのラベル付けされたデータセットを処理し前記少なくとも１つの第１のメタ特徴は、少なくとも第１の１つのクラスタインデックスであり、
前記少なくとも１つの第１のメタ特徴を、複数の分類モデルを含む予め構築されたモデル（３２０）と関連付け、前記予め構築されたモデル（３２０）は、少なくとも１つの予め計算されたメタ特徴を、前記複数の分類モデルに対応する複数の予め計算された分類性能スコアにマッピングするための少なくとも１つのマッピング関数をさらに含み、
前記少なくとも１つの第１のメタ特徴を前記予め構築されたモデル（３２０）と関連付けることに基づいて、前記少なくとも１つのラベル付けされたデータセットについての前記複数の分類モデルの各々の分類性能スコアを推定し、
前記推定された分類性能スコアの降順に並べられた前記複数の分類モデルを含むリストを生成し、
前記少なくとも１つのラベル付けされていないデータセットを分類するためのアンサンブル分類モデルを構築するために、前記リストから所定数の上位分類モデルを選択する、
ように構成されている、システム。

【請求項8】

前記少なくとも１つのプロセッサは、前記少なくとも１つのラベル付けされていないデータセットを、
多数決、加重平均、及びモデルスタッキングのうちの１つに基づいてクラスラベルを予測するために、前記アンサンブル分類モデルを使用して前記少なくとも１つのラベル付けされていないデータセットを処理することによって、
分類するように構成されている、請求項７に記載のシステム。

【請求項9】

前記少なくとも１つのプロセッサは、前記少なくとも１つのラベル付けされたデータセットを処理して少なくとも１つの第１のメタ特徴を生成するように構成され、
前記少なくとも１つの第１のメタ特徴を生成することは、
少なくとも１つのクリーニングされたデータセットを生成するために、前記少なくとも１つのラベル付けされたデータセットを処理することと、
１つ以上のクラスタを生成するために、少なくとも１つのクラスタリングモデルを使用して前記少なくとも１つのクリーニングされたデータセットを処理することと、
前記１つ以上のクラスタを処理することによって多次元ベクトルを生成することであって、前記多次元ベクトルは前記少なくとも１つの第１のメタ特徴を含む、生成することと、
によって、前記少なくとも１つの第１のメタ特徴を生成する、請求項７に記載のシステム。

【請求項10】

前記少なくとも１つのプロセッサは、
前記推定された分類性能スコアを予め設定された閾値と比較することによって、前記少なくとも１つの第１のデータセットの分類複雑度を決定するようにさらに構成されている、請求項７に記載のシステム。

【請求項11】

前記少なくとも１つのプロセッサは、前記予め構築されたモデルを生成するようにさらに構成され、
前記予め構築されたモデルを生成することは、
少なくとも１つの第２のデータセットを受信することと、
少なくとも１つの訓練サブデータセットを生成するために、前記少なくとも１つの第２のデータセットを処理することと、
１つ以上のクラスタを生成するために、少なくとも１つのクラスタリングモデルを使用して前記少なくとも１つの訓練サブデータセットを処理することと、
前記１つ以上のクラスタを処理することによって多次元ベクトルを生成することであって、前記多次元ベクトルは、前記少なくとも１つの訓練サブデータセットに対応する少なくとも１つの第２のメタ特徴を含み、前記少なくとも１つの第２のメタ特徴は、少なくとも１つの第２のクラスタインデックスである、生成することと、
前記少なくとも１つの訓練サブデータセットを処理することによって、前記複数の分類モデルに対応する複数の分類性能スコアを生成することと、
前記生成された少なくとも１つの第２のメタ特徴を前記生成された複数の分類性能スコアと関連付けることによって前記予め構築されたモデルを生成することであって、前記少なくとも１つの第２のメタ特徴は前記少なくとも１つの予め計算されたメタ特徴に対応し、前記複数の分類性能スコアは前記複数の予め計算された分類性能スコアに対応する、生成することと、
によって前記予め構築されたモデルを生成する、請求項７に記載のシステム。

【請求項12】

前記少なくとも１つのプロセッサは、前記複数の分類モデルに対応する１つ以上のハイパーパラメータを調整して、前記複数の分類モデルの各々について最良の分類性能スコアを生成することによって、前記複数の分類モデルに対応する複数の分類性能スコアを生成するように構成されている、請求項１１に記載のシステム。

【請求項13】

前記システムは、データ分類及び分類モデル選択のためのサービス（ＭＬａａＳ）プラットフォームとしての機械学習を提供するように構成されている、請求項７に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、概して、自動機械学習の分野に関する。特に、本開示は、データ分類のためのシステム及び方法に関する。

【背景技術】

【0002】

機械学習は、コンピュータサイエンスにおいて重要かつ急速に成長している分野である。これは、様々な現実世界の問題に対処するのに役立つ。機械学習は、統計からの様々な概念を使用して、新しい出力値を予測するために履歴データからパターンを学習することができるモデルを構築する。機械学習は、多種多様な分野にわたって適用されるため、学術及び産業の両方において潜在的な成長を見せている。

【0003】

教師あり機械学習の分野では、分類は、クラスラベルが所与のデータについて予測される予測モデリング問題を指す。分類は、訓練のために与えられた入力データからいくつかの結論を引き出し、所与のデータについてクラスラベル／カテゴリを予測する。与えられたデータを分類することは、例えば、電子メールがスパム電子メールであるか非スパム電子メールであるか、トランザクションが不正なものであるか否かなど、機械学習において非常に重要なタスクである。分類の用途が膨大であるため、所与のデータセットに対して最良の分類モデルを選択することが必要になる。

【0004】

任意の機械学習分類タスクの性能は、学習モデルの選択、分類モデルの選択、及びデータセットの特性に依存する。様々な分類モデル／方法が、データ分類のために導入されている。分類モデル選択は、所与のデータセットを分類するのに最も適した適切な分類モデルを識別するプロセスである。所与のタスクに対する性能を最大化する適切な分類モデルの選択は、データサイエンスにおいて不可欠なステップである。最良の分類モデルを選択するための従来のアプローチは、異なる分類モデルを訓練し、検証セットに対するそれらの性能を評価し、最良の分類モデルを選択することである。しかしながら、この手法は、時間がかかり、リソース集約的であり、最良の分類モデルを選択するためにユーザの介入を必要とする。

【0005】

今日では、メタ学習、深層強化学習、ベイズ最適化、進化アルゴリズム、及び予算ベース評価など、自動分類モデル選択のための様々な技法が導入されている。これらの技術は、所与のデータセットに対する分類モデルを自動的に選択する。しかしながら、これらの自動分類モデル技術はまた、時間がかかり、リソース集約的である。さらに、近年の技術の進歩により、生成されるデータの量は増加し続けている。しかしながら、従来の技術では、膨大なデータセットをリアルタイムで正確に分類することは困難である。

【0006】

したがって、分類される必要があるデータの量が膨大かつ急速に増大しているため、技術のさらなる改善、特に、所与のデータセットに対して最良の分類モデルを自動的に選択することができ、データセットが膨大な量のデータを含む場合であっても所与のデータセットをリアルタイムで正確に分類することができる時間及びリソース効率のよい技法が必要とされている。

【0007】

従来、上記の問題に対処することができる市販の技術は存在しない。したがって、所与のデータセットを正確に分類するための時間及びリソース効率の良い自動分類モデル選択を容易にする技術が必要とされている。

【0008】

背景の欄に開示された情報は、本発明の一般的な背景の理解を深めるためのものに過ぎず、この情報が当業者に既に知られている先行技術を形成するとの承認又は任意の形式の提案として解釈されるべきではない。

【発明の概要】

【0009】

本開示によって、上述した１つ以上の欠点が克服され、さらなる利点が提供される。本開示の技術によって、さらなる特徴及び利点が実現される。本開示の他の実施形態及び態様は、本明細書で詳細に説明され、開示の一部と見なされる。

【0010】

本開示の目的は、１つ以上の最良の分類モデルを自動的に推奨／選択することである。

【0011】

本開示の別の目的は、１つ以上の最良の分類モデルを使用して所与のデータセットを分類することである。

【0012】

本開示の別の目的は、ラベル付けされていないデータセットに、時間及びリソース効率のよい方法でクラスラベルを正確に割り当てることである。

【0013】

本開示の別の目的は、所与のデータセットの分類複雑度を決定することである。

【0014】

本開示のさらに別の目的は、分類モデル構築及びデータ分類のためのサービスプラットフォームとして機械学習を提供することである。

【0015】

本開示の上述の目的並びに他の目的、特徴、及び利点は、以下の説明、添付の図面、及び添付の特許請求の範囲を検討することによって当業者に明らかになるであろう。

【0016】

本開示の一態様によれば、データ分類のための方法及びシステムが提供される。

【0017】

本開示の非限定的な実施形態において、本出願は、データ分類のための方法を開示する。本方法は、少なくとも１つの第１のデータセットを受信することを含んでもよく、少なくとも１つの第１のデータセットは、少なくとも１つのラベル付けされたデータセットと、少なくとも１つのラベル付けされていないデータセットとを含んでもよい。本方法は、少なくとも１つのラベル付けされたデータセットを処理して、少なくとも１つのラベル付けされたデータセットから少なくとも１つの第１のメタ特徴を生成することであって、少なくとも１つの第１のメタ特徴は、少なくとも１つの第１のクラスタインデックスである、ことをさらに含んでもよい。本方法は、少なくとも１つの第１のメタ特徴を、複数の分類モデルを含む予め構築されたモデルと関連付けることであって、予め構築されたモデルは、少なくとも１つの予め計算されたメタ特徴を、複数の分類モデルに対応する複数の予め計算された分類性能スコアにマッピングするための少なくとも１つのマッピング関数をさらに含んでもよい。本方法は、少なくとも１つの第１のメタ特徴を予め構築されたモデルと関連付けることに基づいて、少なくとも１つのラベル付けされたデータセットについての複数の分類モデルの各々の分類性能スコアを推定することをさらに含んでもよい。本方法は、推定された分類性能スコアの降順に並べられた複数の分類モデルを含むリストを生成することと、リストから所定数の上位分類モデルを選択して、少なくとも１つのラベル付けされていないデータセットを分類するためのアンサンブル分類モデルを構築することと、をさらに含んでもよい。

【0018】

本開示の別の非限定的な実施形態では、少なくとも１つのラベル付けされていないデータセットを分類することは、アンサンブル分類モデルを使用して少なくとも１つのラベル付けされていないデータセットを処理して、多数決、加重平均、及びモデルスタッキングのうちの１つに基づいてクラスラベルを予測することをさらに含んでもよい。

【0019】

本開示の別の非限定的な実施形態では、少なくとも１つのラベル付けされたデータセットを処理して少なくとも１つの第１のメタ特徴を生成することは、少なくとも１つのラベル付けされたデータセットを処理して、少なくとも１つのクリーニングされたデータセットを生成することと、少なくとも１つのクラスタリングモデルを使用して少なくとも１つのクリーニングされたデータセットを処理して、１つ以上のクラスタを生成することと、１つ以上のクラスタを処理することによって多次元ベクトルを生成することであって、多次元ベクトルは少なくとも１つの第１のメタ特徴を含む、ことと、を含んでもよい。

【0020】

本開示の別の非限定的な実施形態では、方法は、推定された分類性能スコアを予め設定された閾値と比較することによって、少なくとも１つの第１のデータセットの分類複雑度を決定することをさらに含んでもよい。

【0021】

本開示の別の非限定的な実施形態では、予め構築されたモデルは、以下：少なくとも１つの第２のデータセットを受信することと、少なくとも１つの第２のデータセットを処理して、少なくとも１つの訓練サブデータセットを生成することと、少なくとも１つのクラスタリングモデルを使用して少なくとも１つの訓練サブデータセットを処理して、１つ以上のクラスタを生成することと、１つ以上のクラスタを処理することによって多次元ベクトルを生成することであって、多次元ベクトルは、少なくとも１つの訓練サブデータセットに対応する少なくとも１つの第２のメタ特徴を含み、少なくとも１つの第２のメタ特徴は、少なくとも１つの第２のクラスタインデックスである、ことと、少なくとも１つの訓練サブデータセットを処理することによって、複数の分類モデルに対応する複数の分類性能スコアを生成することと、生成された少なくとも１つの第２のメタ特徴を生成された複数の分類性能スコアと関連付けることによって予め構築されたモデルを生成することであって、少なくとも１つの第２のメタ特徴は少なくとも１つの予め計算されたメタ特徴に対応し、複数の分類性能スコアは複数の予め計算された分類性能スコアに対応する、ことと、によって、生成されてもよい。

【0022】

本開示の別の非限定的な実施形態では、複数の分類モデルに対応する複数の分類性能スコアを生成することは、複数の分類モデルに対応する１つ以上のハイパーパラメータを調整することによって、複数の分類モデルの各々について最良の分類性能スコアを生成することを含んでもよい。

【0023】

本開示の別の非限定的な実施形態において、本出願は、データ分類のためのシステムを開示する。システムは、メモリと、メモリに通信可能に結合された少なくとも１つのプロセッサとを備えることができる。少なくとも１つのプロセッサは、少なくとも１つの第１のデータセットを受信し、少なくとも１つの第１のデータセットは、少なくとも１つのラベル付けされたデータセットと、少なくとも１つのラベル付けされていないデータセットとを含むように構成され得る。少なくとも１つのプロセッサは、少なくとも１つのラベル付けされたデータセットを処理して、少なくとも１つのラベル付けされたデータセットから少なくとも１つの第１のメタ特徴を生成するようにさらに構成されてもよく、少なくとも１つの第１のメタ特徴は、少なくとも第１の１つのクラスタインデックスである。少なくとも１つのプロセッサは、少なくとも１つの第１のメタ特徴を、複数の分類モデルを含む予め構築されたモデルと関連付けるようにさらに構成されてもよい。予め構築されたモデルは、少なくとも１つの予め計算されたメタ特徴を、複数の分類モデルに対応する複数の予め計算された分類性能スコアにマッピングするための少なくとも１つのマッピング関数をさらに含んでもよい。少なくとも１つのプロセッサは、少なくとも１つの第１のメタ特徴を予め構築されたモデルと関連付けることに基づいて、少なくとも１つのラベル付けされたデータセットについての複数の分類モデルの各々の分類性能スコアを推定し、推定された分類性能スコアの降順に並べられた複数の分類モデルを含むリストを生成するようにさらに構成されてもよい。少なくとも１つのプロセッサは、リストから所定数の上位分類モデルを選択して、少なくとも１つのラベル付けされていないデータセットを分類するためのアンサンブル分類モデルを構築するようにさらに構成され得る。

【0024】

本開示の別の非限定的な実施形態では、少なくとも１つのプロセッサは、アンサンブル分類モデルを使用して少なくとも１つのラベル付けされていないデータセットを処理して、多数決、加重平均、及びモデルスタッキングのうちの１つに基づいてクラスラベルを予測することによって、少なくとも１つのラベル付けされていないデータセットを分類するように構成されてもよい。

【0025】

本開示の別の非限定的な実施形態では、少なくとも１つのプロセッサは、少なくとも１つのラベル付けされたデータセットを処理して、少なくとも１つのクリーニングされたデータセットを生成することによって、少なくとも１つのラベル付けされたデータセットを処理することによって、少なくとも１つの第１のメタ特徴を生成することと、少なくとも１つのクラスタリングモデルを使用して少なくとも１つのクリーニングされたデータセットを処理して、１つ以上のクラスタを生成することと、１つ以上のクラスタを処理することによって多次元ベクトルを生成することであって、多次元ベクトルは少なくとも１つの第１のメタ特徴を含む、ことと、を含んでもよい。

【0026】

本開示の別の非限定的な実施形態では、少なくとも１つのプロセッサは、推定された分類性能スコアを予め設定された閾値と比較することによって、少なくとも１つの第１のデータセットの分類複雑度を決定するようにさらに構成されてもよい。

【0027】

本開示の別の非限定的な実施形態において、少なくとも１つのプロセッサは、少なくとも１つの第２のデータセットを受信することと、少なくとも１つの第２のデータセットを処理して、少なくとも１つの訓練サブデータセットを生成することと、少なくとも１つのクラスタリングモデルを使用して、少なくとも１つの訓練サブデータセットを処理して、１つ以上のクラスタを生成することと、によって予め構築されたモデルを生成するようにさらに構成されてもよい。少なくとも１つのプロセッサは、１つ以上のクラスタを処理することによって多次元ベクトルを生成するようにさらに構成されてもよく、多次元ベクトルは、少なくとも１つの訓練サブデータセットに対応する少なくとも１つの第２のメタ特徴を含み、少なくとも１つの第２のメタ特徴は、少なくとも１つの第２のクラスタインデックスである。少なくとも１つのプロセッサは、少なくとも１つの訓練サブデータセットを処理することによって、複数の分類モデルに対応する複数の分類性能スコアを生成するようにさらに構成されてもよい。少なくとも１つのプロセッサは、生成された少なくとも１つの第２のメタ特徴を生成された複数の分類性能スコアと関連付けることによって予め構築されたモデルを生成することであって、少なくとも１つの第２のメタ特徴は少なくとも１つの予め計算されたメタ特徴に対応し、複数の分類性能スコアは複数の予め計算された分類性能スコアに対応する、ことと、によって予め構築されたモデルを生成するようにさらに構成されてもよい。

【0028】

本開示の別の非限定的な実施形態では、少なくとも１つのプロセッサは、複数の分類モデルに対応する複数の分類性能スコアを生成して、複数の分類モデルに対応する１つ以上のハイパーパラメータを調整することによって、複数の分類モデルの各々について最良の分類性能スコアを生成するように構成されてもよい。

【0029】

本開示の別の非限定的な実施形態では、システムは、データ分類及び分類モデル選択のためのサービス（ＭＬａａＳ）プラットフォームとしての機械学習を提供するように構成されていてもよい。

【0030】

前述の概要は、例示的なものに過ぎず、限定することを決して意図するものではない。上述の例示的な態様、実施形態、及び特徴に加えて、さらなる態様、実施形態、及び特徴が、図面及び以下の詳細な説明を参照することによって明らかになるであろう。

【図面の簡単な説明】

【0031】

本開示のさらなる態様及び利点は、添付の図面を参照して以下の詳細な説明から容易に理解されるであろう。参照番号は、同一又は機能的に類似の要素を指すために使用されている。図面は、以下の詳細な説明とともに、本明細書に組み込まれ、本明細書の一部を形成し、本開示に従って、実施形態をさらに示し、様々な原理及び利点を説明する役割を果たす。

【0032】

【図1】本開示のいくつかの実施形態による、データ分類のための通信システム１００の例示的な環境を示す。

【図2】本開示のいくつかの実施形態による、図１に示される通信システム１００のブロック図２００を示す。

【図3】本開示のいくつかの実施形態による、モデル選択及びデータ分類のためのプロセスフロー図３００を示す。

【図4】本開示のいくつかの実施形態による、コンピューティングシステム１１０、１２０のブロック図４００を示す。

【図5】本開示のいくつかの実施形態による、データ分類のための方法を図示する、フローチャート５００を示す。

【図6】本開示のいくつかの実施形態による、訓練された／予め構築されたモデルを生成するための方法を図示する、フローチャート６００を示す。

【0033】

本明細書における任意のブロック図は、本開示の原理を具現化する例示的なシステムの概念図を表すことを当業者は理解すべきである。同様に、任意のフローチャート、流れ図、状態遷移図、疑似コードなどは、実質的にコンピュータ可読媒体において表されてもよく、そのため、コンピュータ又はプロセッサが明示的に図示されているか否かにかかわらず、そのようなコンピュータ又はプロセッサによって実行されてもよい様々なプロセスを表すことが諒解されよう。

【発明を実施するための形態】

【0034】

本明細書では、「例示的」という単語は、本明細書において使用されて、「例、実例、又は説明として機能すること」を意味する。本明細書において「例示的な」として説明される本開示の任意の実施形態又は実施態様は、必ずしも他の実施形態よりも好ましいか、又は有利であると解釈されるべきではない。

【0035】

本開示は様々な修正及び代替形態が可能であるが、その特定の実施形態は、例として図面に示されており、以下で詳細に説明される。しかしながら、本開示を開示された特定の形態に限定することを意図するものではなく、逆に、本開示は、本開示の精神及び範囲内にある全ての修正、等価物、及び代替物を包含するものであることを理解されたい。

【0036】

「備える（comprise（s））」、「備える（comprising）」、「含む（include （s））」という用語、又はそれらの任意の他の変形は、構成要素又はステップのリストを含むセットアップ、デバイス、装置、システム、又は方法がそれらの構成要素又はステップのみを含むのではなく、明示的に列挙されていない、又はそのようなセットアップ若しくはデバイス若しくは装置若しくはシステム若しくは方法に固有の他の構成要素又はステップを含むことができるように、非排他的な包含を網羅することを意図している。言い換えれば、「．．．を含む／備える（comprises．．．a）」が続くシステム内の１つ以上の要素は、さらなる制約なしに、デバイス又はシステム又は装置内の他の要素又は追加の要素の存在を排除しない。

【0037】

「少なくとも１つ」及び「１つ以上」のような用語は、説明全体を通して互換的に使用され得る。「複数の（a plurality of）」及び「複数の（multiple）」のような用語は、説明全体を通して互換的に使用され得る。さらに、「マッピング関数」、「リグレッサ」、及び「回帰関数」のような用語は、説明全体を通して互換的に使用され得る。さらに、「予め構築されたモデル」及び「訓練されたモデル」のような用語は、説明全体を通して交換可能に使用され得る。

【0038】

本開示の実施形態の以下の詳細な説明では、本明細書の一部を形成し、本開示が実践され得る特定の実施形態の例証として示される、添付の図面を参照する。これらの実施形態は、当業者が本開示を実施することを可能にするために十分に詳細に説明され、他の実施形態が利用されてもよく、本開示の範囲から逸脱することなく変更が行われてもよいことを理解されたい。したがって、以下の説明は、限定的な意味で解釈されるべきではない。以下の説明において、周知の機能又は構成は、不必要な詳細で説明を不明瞭にするので、詳細には説明されない。

【0039】

一般に、クラスタリングは教師なし機械学習タスクであり、分類は教師あり機械学習タスクである。本開示において、クラスタリングインデックスは、所与のデータセットに対するクラスタリングモデルによって引き起こされるクラスタの品質を評価するために使用されるクラスタ評価メトリックを表す。クラスタリングモデルは、同様の特性を有するデータセットを、異なるサイズの近傍又は分離物にグループ化する。クラスタリングインデックスは、同様のデータ特性を共有する良好な品質の近傍を誘導するクラスタリングモデルの能力を測定する。したがって、クラスタリングインデックスは、クラスタリングモデルに関するデータセット特性を表す。本開示では、クラスタリングインデックスは、分類モデル選択のため、及び所与のデータセットを正確に分類するためのメタ特徴として使用される。

【0040】

本開示では、モデル適合性という用語は、所与のデータセットに対する分類タスクを学習する分類モデルの能力を示す。データセットの実際のモデル適合性は、所与のデータセットに対する分類モデルの予想される分類性能に基づいて測定され得る。Ｆ１スコアは、本開示において分類性能メトリックとして使用される。

【0041】

本開示では、分類複雑度という用語は、所与のデータセットに対する分類モデルを学習する難しさを示す。

【0042】

機械学習において、分類タスクは、データセットの特性を適切な出力カテゴリにマッピングする判別関数である。一般に、判別関数は、項目を２つ以上のグループのうちの１つに割り当てるために使用されるいくつかの変量の関数である。機械学習分類モデルは、観測されないデータを一般化及び分類する能力によって規定される。

【0043】

本開示は、データ分類及びモデル選択のための技法（方法及びシステム）を提供する。背景技術のセクションで説明したように、分類モデル選択のための従来の技法は、時間がかかり、リソース集約的であり、従来の技法を使用してリアルタイムで巨大なデータセットの正確な分類を実行することは困難である。

【0044】

これら及び他の問題を克服するために、本開示は、アンサンブル分類モデルを形成するために複数の利用可能な分類モデルから１つ以上の分類モデルを自動的に選択するためのクラスタリングインデックスを使用する技法を提案する。アンサンブル分類モデルは、所与のデータセットを正確に分類するために使用され得る。本開示は、最良の分類モデルを選択するためのデータ特性（又はメタ特徴）としてクラスタリングインデックスを使用して、データセットにわたって複数の分類モデルを適合／訓練することなく、アンサンブル分類モデルを構築する。本開示は、データ分類及び分類モデル選択のためのサービス（ＭＬａａＳ）プラットフォームとして機械学習をユーザに提供することができる。

【0045】

近年、データソースの増加に伴い、サービスとしての機械学習の需要が増加している。産業全体にわたる企業は、その製品サイクルの様々な段階で機械学習の力を利用している。これにより、企業が機械学習をサービスとして提供する道が開かれた。機能的ですぐに使えるサービスとしての機械学習（ＭＬａａＳ）プラットフォームは、小規模企業、開発者、及び研究者にとって有益であり、独自のソリューションを構築するのに役立つ。これは、高い計算リソース及び費やされる時間の必要性を克服するのに役立つ。本開示の提案システムは、機械学習モデル構築のサービスとして利用することができる。特に、アンサンブル分類モデルは、予測アプリケーションプログラミングインタフェース（ＡＰＩ）又は展開可能なソリューションのいずれかとしてユーザ／クライアントに提供され得る。

【0046】

本開示のいくつかの実施形態による、データ分類及びモデル選択において使用するための通信システム１００を図示する図１を参照する。通信システム１００は、１つ以上の第１のデータソース１３０と通信することができる第１のコンピューティングシステム１１０（又はクライアントコンピューティングシステム）を備えることができる。１つ以上の第１のデータソース１３０は、分類が実行される少なくとも１つの第１のデータセット１６０を含んでもよい。通信システム１００はさらに、少なくとも１つのネットワーク１５０を介して第１のコンピューティングシステム１１０と通信する第２のコンピューティングシステム１２０（又はサーバ）を備えることができる。さらに、第２のコンピューティングシステム１２０は、１つ以上の第２のデータソース１４０と通信することができる。１つ以上の第２のデータソース１４０は、第２のコンピューティングシステム１２０を訓練するための少なくとも１つの第２のデータセット１６０を含んでもよい。

【0047】

ネットワーク１５０は、インターネット、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）メトロポリタンエリアネットワーク（ＭＡＮ）などのデータネットワークを含むことができる。特定の実施形態では、ネットワーク１５０は、限定はしないが、セルラーネットワークなどの無線ネットワークを含むことができ、ＥｎｈａｎｃｅｄＤａｔａｒａｔｅｓｆｏｒＧｌｏｂａｌＥｖｏｌｕｔｉｏｎ（ＥＤＧＥ）、ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ（ＧＰＲＳ）、ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ（ＧＳＭ）、ＩｎｔｅｒｎｅｔｐｒｏｔｏｃｏｌＭｕｌｔｉｍｅｄｉａＳｕｂｓｙｓｔｅｍ（ＩＭＳ）、ＵｎｉｖｅｒｓａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｙｓｔｅｍ（ＵＭＴＳ）などを含む様々な技術を使用することができる。一実施形態では、ネットワーク１５０は、ネットワーク又はサブネットワークを含むか、又はカバーすることができ、ネットワーク又はサブネットワークの各々は、例えば、有線又は無線データ経路を含むことができる。

【0048】

第１及び第２のデータソース１３０、１４０は、膨大な量のデータ及び／又は情報を含む任意のデータソースであってもよい。第１及び第２のデータソース１３０、１４０は、銀行記録、ＩｏＴログ、コンピュータ化された医療記録、オンラインショッピング記録、サーバ上に記憶されたユーザのチャットデータ、コンピューティングデバイスのログ、脆弱性データベース等であってもよいが、それらに限定されない、任意のパブリック又はプライベートデータソースであってもよい。第１のコンピューティングシステム１１０は、少なくとも１つの第１のデータソース１４０から少なくとも１つの第１のデータセット１６０をフェッチ／受信してもよく、第２のコンピューティングシステム１１０は、少なくとも１つの第２のデータソース１３０から少なくとも１つの第２のデータセット１７０をフェッチ／受信してもよい。

【0049】

ここで、図１は、本開示のいくつかの実施形態による、通信システム１００のブロック図２００である図２と併せて説明される。本開示の一実施形態によれば、通信システム１００、２００は、第１のコンピューティングシステム１１０、第２のコンピューティングシステム１２０、少なくとも１つの第１のソース１３０、及び少なくとも１つの第２のソース１４０を備えることができる。第１のコンピューティングシステム１１０は、少なくとも１つの第１のプロセッサ２１０及び少なくとも１つの第１のメモリ２２０を備えることができる。同様に、第２のコンピューティングシステム１２０は、少なくとも１つの第２のプロセッサ２３０及び少なくとも１つの第２のメモリ２４０を備えることができる。

【0050】

第１及び第２のプロセッサ２１０、２３０は、これらに限定されるものではないが、汎用プロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、マイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、中央処理装置、状態機械、論理回路、及び／又は動作命令に基づいて信号を操作する任意のデバイスを含んでもよい。プロセッサはまた、コンピュータデバイスの組み合わせ、例えば、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと組み合わせた１つ以上のマイクロプロセッサ、又は任意の他のそのような構成として実装されてもよい。

【0051】

第１のメモリ２２０は、少なくとも１つの第１のプロセッサ２１０に通信可能に結合されてもよく、第２のメモリ２４０は、少なくとも１つの第２のプロセッサ２３０に通信可能に結合されてもよい。第１及び第２のメモリ２２０、２４０は、様々な命令、１つ以上のデータセット、及び１つ以上のクラスタ、１つ以上のクラスラベル、１つ以上の分類モデル、１つ以上のクラスタリングモデルなどを含んでもよい。第１及び第２のメモリ２２０、２４０は、ランダムアクセスメモリ（ＲＡＭ）ユニット及び／又は不揮発性メモリユニット、例えば、読み出し専用メモリ（ＲＯＭ）、光ディスクドライブ、磁気ディスクドライブ、フラッシュメモリ、電気的消去可能読み出し専用メモリ（ＥＥＰＲＯＭ）、サーバ又はクラウド上のメモリ空間などを含んでもよい。

【0052】

本開示で提案する通信システム１００は、訓練されたモデルを構築し、訓練されたモデルを用いて少なくとも１つの分類モデルを選択し、選択された少なくとも１つの分類モデルを用いてアンサンブル分類モデルを形成し、アンサンブル分類モデルを用いて所与のデータセットを分類することができるデータ分類システムと称することができる。

【0053】

本開示の非限定的な一実施形態では、少なくとも１つの第１のプロセッサ２１０は、少なくとも１つの第１のデータソース１３０から少なくとも１つの第１のデータセット１６０を抽出することができる。非限定的な一実施形態では、１つ以上のデータセット１６０は、第１のプロセッサ２１０に送信されてもよい。少なくとも１つの第１のプロセッサ２１０は、少なくとも１つの第１のデータセット１６０を第２のコンピューティングシステム１２０の第２の少なくとも１つの第２のプロセッサ２３０に送信することができる。少なくとも１つの第２のプロセッサ２３０は、受信された少なくとも１つの第１のデータセット１６０を処理して、１つ以上のクラスラベルを割り当てることができる。少なくとも１つの第２のプロセッサ２３０は、データ分類のために予め構築された／訓練されたモデルを使用する。少なくとも１つの第２のプロセッサ２３０における処理は、図３で説明されるようなプロセスフロー図３００の助けを借りて以下で説明される。

【0054】

第２のコンピューティングシステム１２０は、２つのフェーズ、すなわち、訓練フェーズ３０２である第１のフェーズと、予測フェーズ３０４である第２のフェーズで動作し得る。ここで、第２のコンピューティングシステム１２０が最初に訓練され、モデル選択及びデータ分類がその後に行われることは注目に値してもよい。訓練フェーズ３０２の結果は、訓練されたモデル又は予め構築されたモデル３２０である。「訓練されたモデル」及び「予め構築されたモデル」という用語は、説明全体を通して交換可能に使用される。

【0055】

訓練フェーズ３０２はさらに、３つのサブフェーズ、すなわち、前処理フェーズ３０６、データセット構築フェーズ３０８、及びマッパフェーズ（mapper phase）３１０に分割され得る。予測フェーズ３０４は、２つのサブフェーズ、すなわち、推奨フェーズ３１２及びモデル構築／分類フェーズ３１４にさらに分割され得る。推奨フェーズ３１２は、訓練フェーズ３０２の前処理フェーズ３０６及びデータセット構築フェーズ３０８の一部又は全ての機能を含むことができる。異なるフェーズを以下に詳細に説明する。
訓練フェーズ：

【0056】

本開示の非限定的な一実施形態では、少なくとも１つの第２のプロセッサ２３０は、少なくとも１つの第２のデータソース１４０から少なくとも１つの第２のデータセット１７０を受信又はフェッチすることができる。少なくとも１つの第２のデータセット１７０は、集合的にＤ_Ｔとして表すことができ、１つ以上のデータセットを含むことができる：
Ｄ_Ｔ＝｛Ｄ_１，Ｄ_２，Ｄ_３，．．．，Ｄ_ｎ｝（１）

【0057】

本開示の非限定的な一実施形態では、前処理フェーズ３０６は、少なくとも１つの第２のデータセット１７０を、置換を伴う層別ランダムサンプリングによって生成されたいくつかのサブデータセット（又はサブサンプル）のセットＢ_Ｔに変換するためのいくつかのサブタスクを含んでもよい。１つのサブタスクにおいて、少なくとも１つの第２のプロセッサ２３０は、受信された少なくとも１つの第２のデータセット１７０に対してクリーニング動作を実行して、少なくとも１つのクリーニングされたデータセットを生成することができる。データクリーニングは、信頼できるデータセットを作成するために、少なくとも１つの第２のデータセット１７０からエラー及び重複データを識別して除去する。データクリーニングは、訓練データの品質を改善し、正確な意思決定を可能にする。少なくとも１つの第２のデータセット１７０のクリーニングは、少なくとも１つの第２のデータセット１７０を正規化すること、少なくとも１つの第２のデータセット１７０から空のセルをドロップすること、及び少なくとも１つの第２のデータセット１７０を標準化することなどを含み得るが、これらに限定されない。クリーニングの目的は、データセットを様々な機械学習モデルに対して均一かつ理解可能にするために、少なくとも１つの第２のデータセット１７０から不要なデータを除去することである。初期段階において少なくとも１つの第２のデータセット１７０をクリーニングすることは、後続のフェーズにおける不必要な計算を低減し、それによって訓練フェーズ３０２の全体的な時間を節約することができる。

【0058】

本開示の１つの非限定的な実施形態では、少なくとも１つの第２のプロセッサ２３０は、クリーニングされたデータセットを、訓練データセットとテストデータセットとの所定の比率に分割することができる。非限定的な一実施形態では、所定の比は、７０：３０又は８０：２０であってもよい。訓練データセットは、訓練されたモデル３２０を生成するようにコンピューティングシステム１２０を訓練するために使用されてもよく、テストデータセットは、訓練されたモデル３２０を相互検証するために使用されてもよい。テストデータセットは、検証データセットと称され得る。

【0059】

本開示の１つの非限定的な実施形態では、訓練データセット及びテストデータセットは、それぞれのサブデータセットを生成するために独立したサンプリングを受けてもよく、すなわち、少なくとも１つの訓練サブデータセットが訓練データセットから生成されてもよく、少なくとも１つのテストサブデータセットがテストデータセットから生成されてもよい。ここで使用されるサンプリングは、置換を伴う層別ランダムサンプリングである。ここで、サンプリング（すなわち、複数のサブデータセットの構築）は、予め構築されたモデル３２０を訓練するためのデータセットの数の増加をもたらし、訓練データセットの数が多いほど、生成されるモデルが良好であり、精度が高いことに留意されたい。サブデータセットを使用する別の利点は、回帰関数に特徴的なデータセット分散のより広い適用範囲を提供することである。訓練サブデータセットのセットは、Ｂ_Ｔとして表され得る。
Ｂ_Ｔ＝｛Ｂ_１，Ｂ_２，Ｂ_３，．．．，Ｂ_ｎ｝（２）
テストサブデータセットは、セットＢ_Ｔの一部であってもよいし、別個のセットであってもよい。前処理フェーズ３０６の出力は、データセット構築フェーズ３０８への入力として供給されるサブデータセットである。

【0060】

本開示の１つの非限定的な実施形態では、データセット構築フェーズ３０８における少なくとも１つの第２のプロセッサ２３０は、生成された訓練及びテストサブデータセットを受信してもよく、それらを処理して１つ以上の多次元ベクトルを生成してもよい。データセット構築フェーズ３０８での処理は、２つの並列ステップ３１６及び３１８で行われる。本開示の１つの非限定的な実施形態では、少なくとも１つのクラスタリングモデル及び複数の分類モデルが、少なくとも１つの第２のプロセッサ２３０に事前定義／事前供給され得る。少なくとも１つのクラスタリングモデルは、まとめてＡとして表されてもよく、複数の分類モデルは、まとめてＣとして表されてもよい。
Ａ＝｛Ａ_１，Ａ_２，Ａ_３，．．．，Ａ_ｎ｝（３）
Ｃ＝｛Ｃ_１，Ｃ_２，Ｃ_３，．．．，Ｃ_ｎ｝（４）

【0061】

データセット構築フェーズ３０８の第１のステップ３１６において、少なくとも１つの第２のプロセッサ２３０は、少なくとも１つのクラスタリングモデルＡを使用して少なくとも１つの訓練サブデータセットを処理して、各クラスタリングモデルについて少なくとも１つのクラスタを生成することができる。少なくとも１つのクラスタリングモデルを使用して生成されたクラスタは、異なるクラスタリングモデルによって生成された異なるクラスタを含み得る多次元ベクトルＣＬとして集合的に表され得る。
ＣＬ＝｛ＣＬ_１，ＣＬ_２，ＣＬ_３，．．．，ＣＬ_ｎ｝（５）
ここで、ＣＬ_ｉは、クラスタリングモデルＣ_ｉによって生成されたクラスタのセットを示す。クラスタのセットの各々は、以下のような少なくとも１つのクラスタをさらに含み得る：
モデルＡ_１によって生成されたクラスタ：ＣＬ_１＝｛ＣＬ_１１，ＣＬ_１２，ＣＬ_１３，．．．，ＣＬ_１ｎ｝
モデルＡ_２によって生成されたクラスタ：ＣＬ_２＝｛ＣＬ_２１，ＣＬ_２２，ＣＬ_２３，．．．，ＣＬ_２ｎ｝
モデルＡ_３によって生成されたクラスタ：ＣＬ_３＝｛ＣＬ_３１，ＣＬ_３２，ＣＬ_３３，．．．，ＣＬ_３ｎ｝
モデルＡｍによって生成されたクラスタ：ＣＬ_ｍ＝｛ＣＬ_ｍ１，ＣＬ_ｍ２，ＣＬ_ｍ３，．．．，ＣＬ_ｍｎ｝

【0062】

各クラスタリングモデルに対して少なくとも１つのクラスタを生成した後、少なくとも１つの第２のプロセッサ２３０は、生成されたクラスタの各々からメタ特徴を抽出するために、生成されたクラスタの各々を処理し得る。メタ特徴は、データ特性とも呼ばれ、データセットの複雑さを特徴付け、異なるクラスタリングモデルの性能の推定値を提供することができる。本開示では、クラスタリングインデックスが、少なくとも１つの第２のデータセットＤ_Ｔの異なる特性を表すメタ特徴として使用される。ここで、クラスタリングインデックスが、所与のデータセットに対する分類／クラスタリングモデルの性能と強い相関を有することは注目に値し得る。異なるクラスタリングモデルは、サブデータセットを近傍にグループ化するための異なるクラスタリング仮定を有する。クラスタリングインデックスがそのようなクラスタリングアルゴリズムの性能を測定するとき、それらは本質的にサブデータセットの異なる特性を捉える。一般に、クラスタリングインデックスは、クラスタリングモデルによって誘導されたクラスタを検証するための尺度である。

【0063】

クラスタリングインデックスは、内部クラスタリングインデックスと外部クラスタリングインデックスの２つのカテゴリに分類することができる。クラスタリングインデックスがデータラベルなどの外部情報に依存しない場合、インデックスは内部クラスタリングインデックス又は品質インデックスと呼ばれる。逆に、クラスタリングインデックスがデータ点ラベルを使用する場合、インデックスは外部クラスタリングインデックスと呼ばれる。したがって、外部クラスタリングインデックスは、クラスタリングモデルの結果を評価するために先験的データを必要とするが、内部クラスタリングインデックスは必要としない。最も一般的に使用されるクラスタリングインデックスのいくつかは以下の通りである：
内部クラスタリングインデックス：分散、Ｂａｎｆｅｌｄ－Ｒａｆｔｅｒｙ、Ｂａｌｌ－Ｈａｌｌ、ＰＢＭ、Ｄｅｔ比、Ｌｏｇ－Ｄｅｔ比、Ｋｓｑ－ＤｅｔＷ、スコア、シルエット、Ｌｏｇ－ＳＳ比、Ｃインデックス、Ｄｕｎｎ、Ｒａｙ－Ｔｕｒｉ、Ｃａｌｉｎｓｋｉ－Ｈａｒａｂａｓｚ、Ｔｒａｃｅ－ＷｉＢ、Ｄａｖｉｅｓ－Ｂｏｕｌｄｉｎ等。
外部クラスタリングインデックス：エントロピー、Ｐｕｒｉｔｙ、Ｒｅｃａｌｌ、Ｆｏｌｋｅｓ－Ｍａｌｌｏｗｓ、Ｒｏｇｅｒｓ－Ｔａｎｉｍｏｔｏ、Ｆ１、Ｋｕｌｃｚｙｎｓｋｉ、Ｎｏｒｍ－Ｍｕｔｕａｌ情報、Ｓｏｋａｌ－Ｓｎｅａｔｈ、Ｒａｎｄ、ユベール、均質性、完全性、Ｖ－Ｍｅａｓｕｒｅ、Ｊａｃｃａｒｄ、Ａｄｊ－Ｒａｎｄ、Ｐｈｉ、ＭｃＮｅｍａｒ、Ｒｕｓｓｅｌ－Ｒａｏ、Ｐｒｅｃｉｓｉｏｎなど。

【0064】

少なくとも１つの所望のクラスタリングインデックスが予め選択され、少なくとも１つの第２のプロセッサ２３０に供給されてもよい。次いで、少なくとも１つの第２のプロセッサ２３０は、各クラスタリングモデルの生成されたクラスタに対する少なくとも１つの所望のクラスタリングインデックスの値を決定することができる。クラスタリングインデックスの値は、従来の既知の技術を用いて決定されてもよい。次いで、少なくとも１つの第２のプロセッサ２３０は、特定のクラスタリングモデルの異なるクラスタの対応するクラスタリングインデックスの平均をとってクラスタリングインデックスの多次元ベクトルを生成することによって、特定のクラスタリングモデルについての最終的なクラスタリングインデックスを決定することができる。クラスタリングインデックスの多次元ベクトルは、Ｉ_Ｔとして表すことができる。ここで、多次元ベクトルＩ_Ｔの生成を一例として説明する。

【0065】

サブデータセットをクラスタリングするために２つのクラスタリングアルゴリズムＡ_１及びＡ_２が使用され、クラスタリングモデルＡ_１、Ａ_２の各々によって生成された２つのクラスタがある例を考える。
クラスタリングモデルＡ＝｛Ａ_１，Ａ_２｝
第１のクラスタリングモデルＡ_１のクラスタ：ＣＬ_１＝｛ＣＬ_１１，ＣＬ_１２｝
第２のクラスタリングモデルＡ_２のクラスタ：ＣＬ_２＝｛ＣＬ_２１，ＣＬ_２２｝
メタ特徴として２つのクラスタリングインデックスＩ_１及びＩ_２を用いる場合を考える。少なくとも１つの第２のプロセッサ２３０は、生成されたクラスタの各々についてＩ_１及びＩ_２の値を決定することができる。
ＣＬ_１１に対する第１のクラスタリングインデックスＩ_１の値＝Ｉ_１１１
ＣＬ_１２に対する第１のクラスタリングインデックスＩ_１の値＝Ｉ_１１２
ＣＬ_１１に対する第２のクラスタリングインデックスＩ_２の値＝Ｉ_２１１
ＣＬ_１２に対する第２のクラスタリングインデックスＩ_２の値＝Ｉ_２１２

【0066】

次いで、少なくとも１つの第２のプロセッサ２３０は、第１のクラスタリングモデルＡ_１の異なるクラスタＣＬ_１１、ＣＬ_１２について生成された第１のクラスタリングインデックスＩ_１の値Ｉ_１１１、Ｉ_１１２の平均をとることによって、第１のクラスタリングモデルＡ_１についての第１のクラスタリングインデックスＩ_１の値を決定することができる。
すなわち、第１のクラスタリングモデルＡ_１に対する第１のクラスタリングインデックスＩ_１の値：
Ｉ_１１＝ａｖｇ（Ｉ_１１１，Ｉ_１１２）
同様に、
第１のクラスタリングモデルＡ_１に対する第２クラスタリングインデックスＩ_２の値：
Ｉ_２１＝ａｖｇ（Ｉ_２１１，Ｉ_２１２）
ここで、第１のクラスタリングモデルＡ_１に対するクラスタリングインデックスＩ_１及びＩ_２の値が決定された。同様に、少なくとも１つの第２のプロセッサ２３０は、第２のクラスタリングモデルＡ_２についてのクラスタリングインデックスＩ_１及びＩ_２の値（すなわち、Ｉ_１２及びＩ_２２）を決定することができる。次いで、２つのクラスタリングモデルＡ_１及びＡ_２のクラスタリングインデックスの値を連結して、クラスタリングインデックスの多次元ベクトルＩ_Ｔを形成することができる。

【数1】

【0067】

同様に、少なくとも１つのクラスタリングモデルの全てについてのクラスタリングインデックスの値が決定され、ベクトルＩ_Ｔにおいて連結され得る。

【数2】

第１のステップ３１６の出力は、多次元ベクトルＩ_Ｔである。

【0068】

データセット構築フェーズ３０８の第２のステップ３１８において、少なくとも１つの第２のプロセッサ２３０は、少なくとも１つの訓練サブデータセットに対する複数の分類モデルＣ＝｛Ｃ_１，Ｃ_２，Ｃ_３，．．．，Ｃ_ｎ｝の各々に対する分類性能スコアを生成してもよい。データセットについての分類モデルの分類性能スコアは、モデル適合度スコアとして測定される分類モデルの最大達成可能分類性能を示し得る。分類性能は、Ｆ１スコアを使用して測定され得る。Ｆ１スコアは、精度及び再現性の加重平均である。Ｆ１スコアの値は、０～１の間にあり得る（１は最良スコアであり、０は最悪スコアである）。異なる分類モデルの分類性能は、ベクトルＯ_Ｔとして集合的に表され得る。
Ｏ_Ｔ＝｛Ｏ_１，Ｏ_２，Ｏ_３，．．．，Ｏ_ｎ｝（７）
本開示の１つの非限定的な実施形態では、少なくとも１つの第２のプロセッサ２３０は、複数の分類モデルに対応する１つ以上のハイパーパラメータを調整することによって、複数の分類モデルの各々について最良の分類性能スコアを生成し得る。非限定的な一実施形態では、各分類モデルは、それ自体のハイパーパラメータを有し得る。例えば、分類モデル「ロジスティック回帰」は、そのハイパーパラメータとしてペナルティ及び許容範囲を有し得る。いくつかの例示的な分類モデル及びそれらのハイパーパラメータを以下の表１に列挙する。

【表1】

【0069】

ここで、ベクトルＯ_Ｔの生成について例を挙げて説明する。訓練サブデータセットＢ_Ｔのセット内に、２つの分類モデルＣ_１及びＣ_２があり、３つの訓練サブデータセットＢ_１、Ｂ_２、及びＢ_３があるとする。
分類モデルＣ＝｛Ｃ_１，Ｃ_２｝
訓練サブデータセットＢ_Ｔ＝｛Ｂ_１，Ｂ_２，Ｂ_３｝
Ｏ_ｉｊが、サブデータセットＢ_ｊに対する分類モデルＣ_ｉの分類性能スコアを表すと考える。
サブデータセットＢ_１に対するＣ_１の分類性能スコア＝Ｏ_１１
サブデータセットＢ_２に対するＣ_１の分類性能スコア＝Ｏ_１２
サブデータセットＢ_３に対するＣ_１の分類性能スコア＝Ｏ_１３
サブデータセットＢ_１に対するＣ_２の分類性能スコア＝Ｏ_２１
サブデータセットＢ_２に対するＣ_２の分類性能スコア＝Ｏ_２２
サブデータセットＢ_３に対するＣ_２の分類性能スコア＝Ｏ_２３

【0070】

非限定的な一実施形態では、データセットＢ_Ｔ全体に対する分類モデルＣ_１の分類性能スコアは、Ｏ_１として表されてもよく、データセットＢ_Ｔ全体に対する分類モデルＣ_１の分類性能スコアは、Ｏ_２として表されてもよい。ここで、分類性能スコアＯ_１を決定するために、少なくとも１つの第２のプロセッサ２３０は、分類性能スコアＯ_１１、Ｏ_１２、Ｏ_１３の平均を取ることができる。
すなわち、
Ｏ_１＝ａｖｇ｛Ｏ_１１，Ｏ_１２，Ｏ_１３｝
同様に、Ｏ_２＝ａｖｇ（Ｏ_２１，Ｏ_２２，Ｏ_２３）である。
ここで、分類モデルＣ_１及びＣ_２の多次元ベクトルＯ_Ｔは、以下のように表すことができる：
Ｏ_Ｔ＝｛Ｏ_１，Ｏ_２｝。
複数の分類モデルＣの多次元ベクトルＯ_Ｔは、次のように表すことができる。
Ｏ_Ｔ＝｛Ｏ_１，Ｏ_２，Ｏ_３，．．．，Ｏ_ｎ｝。
第２のステップ３１８の出力は、多次元ベクトルＯ_Ｔである。

【0071】

本開示の１つの非限定的な実施形態において、マッパフェーズ３１０は、データセット構築フェーズ３０８から２つの異なるベクトル／データセット、すなわち、クラスタインデックスの１つのベクトルＩ_Ｔ及び分類性能スコアの別のベクトルＯ_Ｔを受信し得る。ここで、特定のクラスタリング仮定の下でのデータセットのクラスタリングインデックスと、異なる分類モデルについてＦ１スコアに関して測定されたその最大の達成可能な分類性能スコアとの間に強い相関が存在することは注目に値し得る。この相関は、複数の分類モデルについての１つ以上の回帰関数（又はリグレッサ）としてモデル化され得る。一般に、回帰は、１つ以上の予測変数（ｘ）の値に基づいて連続的な結果変数（ｙ）を予測するのに役立つ機械学習技法である。簡単に説明すると、回帰関数の目標は、変数（ｘ）の関数として変数（ｙ）を定義する数式を構築することである。１つ以上の回帰関数は、Ｒとして集合的に表され得る。
Ｒ＝｛Ｒ_１，Ｒ_２，Ｒ_３，．．．，Ｒ_ｎ｝（８）
本開示では、回帰関数はマッピング関数と呼ばれることもある。マッパフェーズ３１０の目標は、１つ以上のマッピング／回帰関数を使用して訓練されたモデル３２０を構築することである。

【0072】

本開示の１つの非限定的な実施形態では、少なくとも１つの第２のプロセッサ２３０は、ベクトル（Ｉ_Ｔ，Ｏ_Ｔ）を訓練データとして使用して１つ以上の回帰関数Ｒを訓練することができる。
Ｒ：Ｉ_Ｔ→Ｏ_Ｔ（９）
少なくとも１つの第２のプロセッサ２３０は、Ｒ二乗（Ｒ２）メトリックを使用して回帰関数の性能を評価することができる。Ｒ二乗は、回帰関数における独立変数（単数又は複数）によって説明される従属変数に対する分散の割合を表す統計的尺度である。リグレッサ関数Ｒの１つ以上のハイパーパラメータは、訓練サブデータセットに対する交差検証を使用して調整され得る。このようにして、少なくとも１つの第２のデータセットに対して最良の性能を与える回帰関数を選択することができる。１つの非限定的な実施形態では、少なくとも１つの第２のプロセッサ２３０は、全ての分類モデルに対する単一の回帰関数の代わりに、複数の分類モデルに対する個々の回帰関数を構築することができる。最良性能の回帰関数は、訓練されたモデル又は予め構築されたモデル３２０を構成する。訓練されたモデル３２０が生成されると、訓練フェーズ３０２が終了する。

【0073】

本発明の非限定的な一実施形態では、少なくとも１つの第２のデータセット１７０の各データセットがクラスタリングインデックスの単一インスタンスベクトルと見なされる場合、訓練サンプルの数は、少なくとも１つの第２のデータセット１７０内に存在するデータセットの数によって制限される。このため、訓練サンプルの不足により、リグレッサ関数の学習が困難になる。したがって、回帰関数は、完全なデータセットの代わりにサブデータセットを使用して訓練される。このプロセスでは、全てのデータセットが、複数の訓練サブデータセットを生成するために、置換を伴うランダムサンプリングによる拡張を受ける。完全なデータセットの代わりにサブデータセットを使用する利点は、回帰関数を訓練するために使用されるデータセットにおけるより多くの可変性であり、回帰関数をデータセットの分散に対してロバストにする。別の利点は、シングルショットで大きなデータセットを扱う場合と比較して、サブデータセットからクラスタリングインデックスを生成することが容易であることである。

【0074】

予測フェーズ：
本開示の１つの非限定的な実施形態では、訓練された／予め構築されたモデル３２０は、少なくとも１つの第１のデータセット１６０に対するクラスラベルの予測又は分類モデルの推奨のために、予測フェーズ３０４において利用され得る。推奨フェーズ３１２において、少なくとも１つの第２のプロセッサ２３０は、少なくとも１つの第１のデータセット１６０を受信することができる。少なくとも１つの第１のデータセット１６０は、集合的にＤ_Ｐとして表されてもよく、１つ以上のデータセットを含んでもよい。
Ｄ_Ｐ＝｛Ｄ_１’，Ｄ_２’，Ｄ_３’，．．．，Ｄ_ｎ’｝（１０）
少なくとも１つの第１のデータセット１６０は、少なくとも１つのラベル付けされたデータセット及び少なくとも１つのラベル付けされていないデータセットを含むことができる。少なくとも１つのラベル付けされたデータセットは、１つ以上の分類モデルを構築／訓練するために使用され得る。少なくとも１つの第２のプロセッサ２３０は、少なくとも１つのラベル付けされていないデータセットを分類するために、構築された分類モデルを使用することができる。

【0075】

本開示の１つの非限定的な実施形態では、ブロック３２２において、少なくとも１つの第２のプロセッサ２３０は、少なくとも１つのラベル付けされたデータセットから少なくとも１つの第１のメタ特徴を生成するために、受信された少なくとも１つのラベル付けされたデータセットを処理することができる。本開示では、メタ特徴はクラスタインデックスである。最初に、少なくとも１つの第２のプロセッサ２３０は、受信された少なくとも１つのラベル付けされたデータセットを前処理して、少なくとも１つのクリーニングされたデータセットを生成することができる。次いで、少なくとも１つの第２のプロセッサ２３０は、少なくとも１つのクリーニングされたデータセットから１つ以上のサブデータセットを生成することができる。１つ以上のサブデータセットは、以下のように表され得る
Ｂ_Ｐ＝｛Ｂ_１’，Ｂ_２’，Ｂ_３’，．．．，Ｂ_ｎ’｝（１１）

【0076】

本開示の１つの非限定的な実施形態では、少なくとも１つの第２のプロセッサ２３０は、少なくとも１つの第１のクラスタを生成するために少なくとも１つのクラスタリングモデルを使用して少なくとも１つのクリーニングされたデータセットを処理することができる。訓練フェーズ３０２で生成された少なくとも１つのクラスタは、少なくとも１つの第２のクラスタと呼ばれ得る。少なくとも１つの第２のプロセッサ２３０は、次いで、少なくとも１つの第１のクラスタインデックスを備える多次元ベクトルを生成するために、少なくとも１つの第１のクラスタを処理し得る。ここで、データクリーニング、サブデータセット生成、クラスタインデックス生成の詳細な説明は、訓練フェーズ３０２を説明している間に既に説明されていることに留意されたい。したがって、簡潔にするために、ここでは同じことが省略されている。少なくとも１つの第１のクラスタインデックスは、多次元ベクトルＩ_Ｐとして集合的に表されてもよく、式（６）と同様に少なくとも１つのクラスタリングモデルの各々について１つ以上のクラスタインデックスを備えてもよい。ここで、推奨フェーズ３１２の目的は、少なくとも１つのラベル付けされたデータセットに対する複数の分類モデルの各々の分類性能スコアを見つけることである。

【0077】

本開示の１つの非限定的な実施形態では、少なくとも１つの第２のプロセッサ２３０は、少なくとも１つの第１のクラスタインデックスを使用して、予め構築されたモデル３２０を照会してもよい。特に、少なくとも１つの第２のプロセッサ２３０は、少なくとも１つの第１のクラスタインデックスを、複数の分類モデルを含む予め構築されたモデル３２０と関連付けることができる。上述したように、予め構築されたモデル３２０は、少なくとも１つのメタ特徴を複数の分類モデルに対応する複数の分類性能スコアにマッピングするための少なくとも１つの最良マッピング関数Ｒを含むことができる。少なくとも１つの第２のプロセッサ２３０は、少なくとも１つの第１のクラスタインデックスを予め構築されたモデル３２０と関連付けることに基づいて、少なくとも１つのラベル付けされたデータセットに対する複数の分類モデルの各々の分類性能スコアを推定／予測することができる。

【0078】

本開示の１つの非限定的な実施形態において、少なくとも１つの第１のクラスタインデックスを含む多次元ベクトルＩ_Ｐは、予め構築されたモデル３２０の少なくとも１つのマッピング関数Ｒに入力されて、複数の分類モデルＣの各々の予測される分類性能スコア又はモデル適合性スコアの推定を行ってもよい。少なくとも１つのラベル付けされたデータセットについての特定の分類モデルについての推定された分類性能スコア３２４は、サブデータセットＢ_Ｐの各データセットについての特定の分類モデルの推定された分類性能スコア３２４を平均化することによって取得され得る。推定された分類性能スコア３２４は、集合的にＯ_Ｐとして表され、以下のように計算され得る。
Ｏ_Ｐ←Ｒ（Ｉ_Ｐ）（１２）
及び
Ｏ_Ｐ＝｛Ｏ_１’，Ｏ_２’，Ｏ_３’，．．．，Ｏ_ｎ’｝（１３）
したがって、本開示で説明される技法を使用して、異なる分類モデルについての分類性能スコアは、少なくとも１つの第１のデータセット１６０にわたってそれらを訓練することさえなく、予測されることができる。この予測は、少なくとも１つの第１のデータセット１６０から抽出されたクラスタリングインデックスに基づく。

【0079】

本開示の１つの非限定的な実施形態において、少なくとも１つのラベル付けされたデータセットに対する複数の分類モデルの各々の分類性能スコアを推定した後、少なくとも１つの第２のプロセッサ２３０は、複数の分類モデルの順序付けされたリストを生成し得る。順序付けされたリストは、推定された分類性能スコア３２４の降順に配列された複数の分類モデルを含むことができる（すなわち、最高の分類性能スコアを有する分類モデルがリストの最上部に配置され、最低の分類性能スコアを有する分類モデルがリストの最下部に配置される）。したがって、本開示の技法を使用して、推定された分類性能スコア３２４に基づいて、少なくとも１つの第１のデータセットについて最良の分類モデルが推奨され得る。

【0080】

本開示の１つの非限定的な実施形態において、少なくとも１つの第２のプロセッサ２３０は、アンサンブル分類モデル３２６を構築するために、順序付けられたリストから所定数（Ｎ）の上位分類モデルを選択することができる。モデル構築／分類フェーズ３１４において、少なくとも１つの第２のプロセッサ２３０は、少なくとも１つのラベル付けされたデータセットを使用して、最良のパラメータ設定を有するＴＯＰ_Ｎ個の分類モデルのみを構築／訓練することができる。

【0081】

次いで、少なくとも１つの第２のプロセッサ２３０は、少なくとも１つのラベル付けされていないデータセットを受信することができる。少なくとも１つの第２のプロセッサ２３０は、少なくとも１つのラベル付けされていないデータセットを分類するために、又は少なくとも１つのラベル付けされていないデータセットのクラスラベルを予測するために、アンサンブル分類モデル３２６を使用することができる。クラスラベルを予測するために、少なくとも１つの第２のプロセッサ２３０は、ＴＯＰ_Ｎ個のクラス分類モデルを使用してクラスラベルの予測を生成することができ、少なくとも１つのラベル付けされていないデータセットのクラスラベルを予測するために、多数決、加重平均、及びモデルスタッキングのうちのいずれか１つを使用してそれらの出力を組み合わせることができる。

【0082】

したがって、本開示は、複数の分類モデルから１つ以上の分類モデルを自動的に選択及び推奨するためのメタ特徴としてクラスタリングインデックスを使用する技法について説明する。開示されたデータ分類及びモデル選択の技術は、時間効率がよく、必要な計算リソースが少ない。開示された技術は、データ分類の他の技術と比較してより高い精度を有する。

【0083】

本開示の１つの非限定的な実施形態において、ハイパーパラメータは、コンピューティングシステム１２０の挙動を制御する。ハイパーパラメータは、試行錯誤によって調整することができる。ハイパーパラメータの例は、クラスタの数及び訓練サブデータセットの数であってもよい。クラスタの数は、ほとんどのクラスタリングモデルにとって重要なパラメータである。クラスタの数は、最良の結果を与える値に設定され得る。同様に、訓練サブサンプルの数は、最良の結果を与える値に設定することができる。

【0084】

本開示の１つの非限定的な実施形態では、少なくとも１つの第２のプロセッサ２３０は、少なくとも１つの第１のデータセット１６０の分類複雑度を決定することができる。分類複雑度は、所与のデータセットに対して分類モデルを学習する難しさを示し得る。少なくとも１つの第２のプロセッサ２３０は、推定された分類性能スコアＯ_Ｐを所定の閾値と比較することができる。任意の推定された分類性能スコアの値が所定の閾値未満である場合、分類複雑度はより高く、少なくとも１つの第１のデータセット１６０は、学習することが困難である。一方、推定された分類性能スコアの全ての値が所定の閾値以上である場合、分類複雑度は低く、少なくとも１つの第１のデータセット１６０は学習が容易である。ここで、所定の閾値の値は、試行錯誤に基づいてもよいことに留意されたい。

【0085】

したがって、本開示は、分類モデル選択の前にモデルクラスに関する少なくとも１つの第１のデータセットの分類複雑度を推定することができ、分類問題を解決するために適切な分類モデルを選ぶことが比較的簡単になる。分類モデル選択のために大きな母集団で異なる分類モデルを評価することは面倒で時間がかかるので、これは大きなデータセットを扱う場合に特に有用である。

【0086】

本開示の１つの非限定的な実施形態では、提案される自動モデル分類技法は、サービスとして分類モデリングを提供するための自動機械学習プラットフォームに拡張され得る。特に、本開示の技法は、クラスタリングインデックスが分類モデル選択のためのデータ特性として使用され、高度な機械学習モデルを構築し得るサービスプラットフォームとして機械学習を提供し得る。機能的で、すぐに使えるサービスとしての機械学習（ＭＬａａＳ）プラットフォームは、組織、開発者、及び研究者にとって、このパラダイムがどのように機能し、彼らのソリューションを構築するのに役立つかの学習曲線を調べるのに有益である。それは、高い計算及び人的リソースのコストから彼らを救う。

【0087】

ＭＬａａＳプラットフォームは、アプリケーションプログラミングインタフェース（ＡＰＩ）又は展開可能なソリューションの形態でユーザに提供され得る。クライアントは、少なくとも１つの第１のデータセットをアップロードしてもよく、プラットフォームは、分類のためのクラスラベル又は推奨モデルをクライアントに提供してもよい。これは、追加の計算コストを節約し、ユーザ体験を向上させる。

【0088】

したがって、本開示の技法は、データのより高速な分類を行うことができ、（巨大なデータセットであっても）より正確なクラスラベルをリアルタイムで提供することができる。

【0089】

ここで図４を参照すると、それは、本開示のいくつかの実施形態による、コンピューティングシステム１１０、１２０のブロック図を示す。本開示の１つの非限定的な実施形態では、コンピューティングシステム１１０、１２０は、図４に示されるように、様々なインタフェース４０２、メモリ４０８、及び様々なユニット又は手段などの様々な他のハードウェア構成要素を備え得る。これらのユニットは、受信ユニット４１４と、処理ユニット４１６と、送信ユニット４１８と、関連付けユニット４２０と、推定ユニット４２２と、生成ユニット４２４と、選択ユニット４２６と、決定ユニット４２８と、様々な他のユニット４３０とを備え得る。他のユニット４３０は、表示ユニット、識別ユニット、マッピングユニットなどを含んでもよい。一実施形態では、ユニット４１４～４３０は、コンピューティングシステム１１０、１２０の様々な動作を実行するためにメモリ４０８に記憶された１つ以上の命令を実行することができる専用ハードウェアユニットであってもよい。別の実施形態では、ユニット４１４～４３０は、コンピューティングシステム１１０、１２０の動作を実行するために少なくとも１つのプロセッサ２１０、２３０によって実行され得る、メモリ４０８に記憶されたソフトウェアモジュールであり得る。

【0090】

インタフェース４０２は、様々なソフトウェア及びハードウェアインタフェース、例えば、ウェブインタフェース、グラフィカルユーザインタフェース、入力デバイス－出力デバイス（Ｉ／Ｏ）インタフェース４０６、ネットワークインタフェース４０４などを含むことができる。Ｉ／Ｏインタフェース４０６は、コンピューティングシステム１１０、１２０が他のコンピューティングシステムと直接又は他のデバイスを介して対話することを可能にすることができる。ネットワークインタフェース４０４は、コンピューティングシステム１１０、１２０が、１つ以上のデータソース１３０、１４０と直接又はネットワーク１５０を介して対話することを可能にすることができる。

【0091】

メモリ４０８は、１つ以上のデータセット４１０、及び他の様々なタイプのデータ４１２（１つ以上のクリーニングされたデータセット、１つ以上のクラスタインデックス、１つ以上のクラスタリングモデル、１つ以上の分類モデル、１つ以上の分類性能スコア、訓練及びテストの１つ以上のデータセットなど）を含むことができる。メモリ４０８は、少なくともプロセッサ２１０、２３０によって実行可能な１つ以上の命令をさらに記憶することができる。メモリ４０８は、メモリ２４０、２６０のいずれであってもよい。

【0092】

次に図５を参照すると、本開示の一実施形態による、データ分類のための例示的な方法５００を示すフローチャートが記載されている。方法５００は、単に例示的な目的のために提供され、実施形態は、少なくとも１つのデータセットから少なくとも１つのパターンを生成するための任意の方法又は手順を含むか、又はさもなければカバーするように意図される。

【0093】

方法５００は、ブロック５０２において、少なくとも１つの第１のデータセットを受信することを含み得る。少なくとも１つの第１のデータセットは、少なくとも１つのラベル付けされたデータセット及び少なくとも１つのラベル付けされていないデータセットを含んでもよく、少なくとも１つの第１のプロセッサ２１０から少なくとも１つの第２のプロセッサ２３０によって受信されてもよい。ブロック５０２の動作は、図２の少なくとも１つの第２のプロセッサ２３０によって、又は図４の受信ユニット４１４によって実行され得る。

【0094】

ブロック５０４において、方法５００は、少なくとも１つのラベル付けされたデータセットから少なくとも１つの第１のメタ特徴を生成するために、少なくとも１つのラベル付けされたデータセットを処理することを含み得る。少なくとも１つの第１のメタ特徴は、少なくとも１つの第１のクラスタインデックスであり得る。例えば、少なくとも１つの第２のプロセッサ２３０は、少なくとも１つのラベル付けされたデータセットから少なくとも１つの第１のメタ特徴を生成するために、少なくとも１つのラベル付けされたデータセットを処理するように構成され得る。ブロック５０４の動作は、図４の処理ユニット４１６によって実行されてもよい。

【0095】

本開示の１つの非限定的な実施形態では、ブロック５０４の動作、すなわち、少なくとも１つの第１のメタ特徴を生成するために少なくとも１つのラベル付けされたデータセットを処理することは、少なくとも１つのクリーニングされたデータセットを生成するために少なくとも１つのラベル付けされたデータセットを処理することと、１つ以上のクラスタを生成するために少なくとも１つのクラスタリングモデルを使用して少なくとも１つのクリーニングされたデータセットを処理することとを含み得る。例えば、図２の少なくとも１つの第２のプロセッサ２３０又は図４の処理ユニット４１６は、少なくとも１つのラベル付けされたデータセットを処理して少なくとも１つのクリーニングされたデータセットを生成し、少なくとも１つのクラスタリングモデルを使用して少なくとも１つのクリーニングされたデータセットを処理して１つ以上のクラスタを生成するように構成されてもよい。

【0096】

本開示の１つの非限定的な実施形態において、ブロック５０４の動作、すなわち、少なくとも１つの第１のメタ特徴を生成するために少なくとも１つのラベル付けされたデータセットを処理することは、１つ以上のクラスタを処理することによって多次元ベクトルを生成することをさらに含み得る。例えば、図２の少なくとも１つの第２のプロセッサ２３０又は図４の生成ユニット４２４は、１つ以上のクラスタを処理することによって多次元ベクトルを生成するように構成されてもよい。多次元ベクトルは、少なくとも１つの第１のメタ特徴を含んでもよい。

【0097】

ブロック５０６において、方法５００は、少なくとも１つの第１のメタ特徴を予め構築されたモデルと関連付けることを含んでもよい。例えば、図２の少なくとも１つの第２のプロセッサ２３０又は図４の関連付けユニット４２０は、少なくとも１つの第１のメタ特徴を予め構築されたモデルと関連付けるように構成されてもよい。予め構築されたモデルは、複数の分類モデルを含んでもよい。予め構築されたモデルは、少なくとも１つの予め計算されたメタ特徴を、複数の分類モデルに対応する複数の予め計算された分類性能スコアにマッピングするための少なくとも１つのマッピング関数をさらに含んでもよい。

【0098】

ブロック５０８において、方法５００は、少なくとも１つの第１のメタ特徴を予め構築されたモデルと関連付けることに基づいて、少なくとも１つのラベル付けされたデータセットについての複数の分類モデルの各々の分類性能スコアを推定することをさらに含んでもよい。例えば、図２の少なくとも１つの第２のプロセッサ２３０又は図４の推定ユニット４２２は、少なくとも１つの第１のメタ特徴を予め構築されたモデルと関連付けることに基づいて、少なくとも１つのラベル付けされたデータセットに対する複数の分類モデルの各々の分類性能スコアを推定するように構成されてもよい。

【0099】

ブロック５１０において、方法５００は、推定された分類性能スコアの降順に並べられた複数の分類モデルを含むリストを生成することを含み得る。例えば、図２の少なくとも１つの第２のプロセッサ２３０又は図４の生成ユニット４２４は、推定された分類性能スコアの降順に並べられた複数の分類モデルを含むリストを生成するように構成されてもよい。

【0100】

ブロック５１２において、方法５００は、リストから所定数の上位分類モデルを選択して、少なくとも１つのラベル付けされていないデータセットを分類するためのアンサンブル分類モデルを構築することを含んでもよい。例えば、図２の少なくとも１つの第２のプロセッサ２３０又は図４の選択ユニット４２６は、リストから所定数の上位分類モデルを選択して、少なくとも１つのラベル付けされていないデータセットを分類するためのアンサンブル分類モデルを構築するように構成され得る。

【0101】

本開示の１つの非限定的な実施形態では、少なくとも１つのラベル付けされていないデータセットを分類することは、アンサンブル分類モデルを使用して少なくとも１つのラベル付けされていないデータセットを処理して、多数決、加重平均、及びモデルスタッキングのうちの１つに基づいてクラスラベルを予測することをさらに含んでもよい。例えば、図２の少なくとも１つの第２のプロセッサ２３０又は図４の処理ユニット４１６は、アンサンブル分類モデルを使用して少なくとも１つのラベル付けされていないデータセットを処理して、多数決、加重平均、及びモデルスタッキングのうちの１つに基づいて、クラスラベルを予測するように構成され得る。

【0102】

ブロック５１４において、方法５００は、推定された分類性能スコアを予め設定された閾値と比較することによって、少なくとも１つの第１のデータセットの分類複雑度を決定することを含み得る。例えば、図２の少なくとも１つの第２のプロセッサ２３０又は図４の決定ユニット４２８は、推定された分類性能スコアを予め設定された閾値と比較することによって、少なくとも１つの第１のデータセットの分類複雑度を決定するように構成されてもよい。

【0103】

次に図６を参照すると、本開示の一実施形態による、予め構築されたモデル３２０を生成するための例示的な方法６００を示すフローチャートが記載されている。方法６００は、単に例示的な目的のために提供され、実施形態は、少なくとも１つのデータセットから少なくとも１つのパターンを生成するための任意の方法又は手順を含むか、又はさもなければカバーするように意図される。

【0104】

方法６００は、ブロック６０２において、少なくとも１つの第２のデータセットを受信又は抽出することを含み得る。少なくとも１つの第２のデータセットは、少なくとも１つの第１のプロセッサ２１０から少なくとも１つの第２のプロセッサ２３０によって受信され得る。ブロック６０２の動作は、図２の少なくとも１つの第２のプロセッサ２３０によって、又は図４の受信ユニット４１４によって実行され得る。

【0105】

ブロック６０４において、方法６００は、少なくとも１つの訓練サブデータセットを生成するために少なくとも１つの第２のデータセットを処理することを含み得る。例えば、図２の少なくとも１つの第２のプロセッサ２３０又は図４の処理ユニット４１６は、少なくとも１つの訓練サブデータセットを生成するために少なくとも１つの第２のデータセットを処理するように構成されてもよい。

【0106】

ブロック６０６において、方法６００は、１つ以上のクラスタを生成するために、少なくとも１つのクラスタリングモデルを使用して少なくとも１つの訓練サブデータセットを処理することを含み得る。例えば、図２の少なくとも１つの第２のプロセッサ２３０又は図４の処理ユニット４１６は、少なくとも１つのクラスタリングモデルを使用して少なくとも１つの訓練サブデータセットを処理して、１つ以上のクラスタを生成するように構成されてもよい。

【0107】

ブロック６０８において、方法６００は、１つ以上のクラスタを処理することによって多次元ベクトルを生成することを含み得る。例えば、図２の少なくとも１つの第２のプロセッサ２３０又は図４の生成ユニット４２４は、１つ以上のクラスタを処理することによって多次元ベクトルを生成するように構成されてもよい。多次元ベクトルは、少なくとも１つの訓練サブデータセットに対応する少なくとも１つの第２のメタ特徴を含む。少なくとも１つの第２のメタ特徴は、少なくとも１つの第２のクラスタインデックスであり得る。

【0108】

ブロック６１０において、方法６００は、少なくとも１つの訓練サブデータセットを処理することによって、複数の分類モデルに対応する複数の分類性能スコアを生成することを含み得る。例えば、図２の少なくとも１つの第２のプロセッサ２３０又は図４の生成ユニット４２４は、少なくとも１つの訓練サブデータセットを処理することによって、複数の分類モデルに対応する複数の分類性能スコアを生成するように構成されてもよい。

【0109】

本開示の非限定的な実施形態では、ブロック６１０の動作、すなわち、複数の分類モデルに対応する複数の分類性能スコアを生成することは、複数の分類モデルに対応する１つ以上のハイパーパラメータを調整することによって、複数の分類モデルの各々について最良の分類性能スコアを生成することを含んでもよい。例えば、図２の少なくとも１つの第２のプロセッサ２３０又は図４の生成ユニット４２４は、複数の分類モデルに対応する１つ以上のハイパーパラメータを調整することによって、複数の分類モデルの各々について最良の分類性能スコアを生成するように構成され得る。

【0110】

ブロック６１２において、方法６００は、生成された少なくとも１つの第２のメタ特徴を生成された複数の分類性能スコアと関連付けることによって、予め構築されたモデルを生成することを含み得る。例えば、図２の少なくとも１つの第２のプロセッサ２３０又は図４の生成ユニット４２４は、生成された少なくとも１つの第２のメタ特徴を生成された複数の分類性能スコアと関連付けることによって、予め構築されたモデルを生成するように構成されてもよい。少なくとも１つの第２のメタ特徴は、少なくとも１つの予め計算されたメタ特徴に対応することができ、複数の分類性能スコアは、複数の予め計算された分類性能スコアに対応することができる。

【0111】

上記の方法５００、６００は、コンピュータ実行可能命令の一般的な文脈で説明することができる。一般に、コンピュータ実行可能命令は、特定の機能を実行するか又は特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成情報、データ構造、手順、モジュール、及び関数を含むことができる。

【0112】

方法の様々な動作が説明される順序は、限定として解釈されることを意図されず、任意の数の説明された方法ブロックが、方法を実装するために任意の順序で組み合わされ得る。加えて、個々のブロックは、本明細書で説明される主題の精神及び範囲から逸脱することなく、方法から削除され得る。さらに、方法は、任意の適切なハードウェア、ソフトウェア、ファームウェア、又はそれらの組合せで実装され得る。

【0113】

上記で説明した方法の様々な動作は、対応する機能を実行することが可能な任意の好適な手段によって実行され得る。手段は、図２のプロセッサ２１０、２３０及び図４の様々なユニットを含むがこれらに限定されない、様々なハードウェア及び／又はソフトウェア構成要素及び／又はモジュールを含み得る。概して、図に示された動作がある場合、それらの動作は、対応するカウンターパートのミーンズプラスファンクション構成要素を有し得る。

【0114】

ここで、図１～図４を参照して説明されるいくつか又は全ての実施形態の主題は、方法に関連してもよく、簡潔にするために同じことが繰り返されないことに留意されたい。

【0115】

本開示の非限定的な実施形態では、１つ以上の非一時的コンピュータ可読媒体が、本開示と一致する実施形態を実装するために利用され得る。いくつかの態様は、本明細書で提示される動作を実行するためのコンピュータプログラム製品を備え得る。例えば、そのようなコンピュータプログラム製品は、本明細書で説明する動作を実行するために１つ以上のプロセッサによって実行可能である命令が記憶された（及び／又は符号化された）コンピュータ可読媒体を備え得る。いくつかの態様では、コンピュータプログラム製品はパッケージング材料を含み得る。

【0116】

様々な構成要素、モジュール、又はユニットが、開示される技法を実行するように構成されたデバイスの機能的態様を強調するために本開示で説明されるが、必ずしも異なるハードウェアユニットによる実現を必要とするとは限らない。むしろ、上記で説明したように、様々なユニットは、適切なソフトウェア及び／又はファームウェアとともに、上記で説明したような１つ以上のプロセッサを含む、ハードウェアユニットにおいて組み合わされるか、又は相互動作可能なハードウェアユニットの集合によって提供され得る。

【0117】

「含む（including）」、「備える（comprising）」、「有する（having）」という用語及びそれらの変形は、特に明記しない限り、「含むがそれに限定されない（including but not limited to）」を意味する。

【0118】

最後に、本明細書で使用される言語は、主に読みやすさ及び教示目的のために選択されたものであり、本発明の主題を描写又は制限するために選択されたものではない場合がある。したがって、技術の範囲は、この詳細な説明によって限定されるのではなく、むしろ、本明細書に基づく出願で発行するいずれかの特許請求の範囲によって限定されることが意図されている。したがって、様々な実施形態の開示は、以下の特許請求の範囲に記載される技術の範囲の、例示であるが限定ではないことが意図されている。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版