(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-15
(54)【発明の名称】データ分類のためのシステム及び方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20240408BHJP
【FI】
G06N20/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023567079
(86)(22)【出願日】2022-04-20
(85)【翻訳文提出日】2023-12-15
(86)【国際出願番号】 IN2022050376
(87)【国際公開番号】W WO2022229975
(87)【国際公開日】2022-11-03
(31)【優先権主張番号】202141019838
(32)【優先日】2021-04-30
(33)【優先権主張国・地域又は機関】IN
(81)【指定国・地域】
(71)【出願人】
【識別番号】519360844
【氏名又は名称】インディアン インスティテュート オブ テクノロジー マドラス (アイアイティー マドラス)
【氏名又は名称原語表記】INDIAN INSTITUTE OF TECHNOLOGY MADRAS (IIT MADRAS)
【住所又は居所原語表記】The Dean,Industrial Consultancy & Sponsored Research (IC&SR),Indian Institute of Technology Madras,IIT PO,Chennai,Tamil Nadu,Chennai 600036,India
(71)【出願人】
【識別番号】523410506
【氏名又は名称】クラリトリックス インク ディー.ビー.エー ブディ ヘルス
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】ラヴィンドラン,バララマン
(72)【発明者】
【氏名】サンシアッパン,スダルサン
(72)【発明者】
【氏名】シュラヴァン,ニティン
(57)【要約】
【課題】本開示は、データ分類のための方法及びシステム(120)を説明する。
【解決手段】システム(120)は、メモリ(240)に結合され、少なくとも1つのラベル付けされたデータセット及び少なくとも1つのラベル付けされていないデータセットを含む少なくとも1つの第1のデータセットを受信し、受信したラベル付けされたデータセットを処理して、クラスタインデックスを含む少なくとも1つの第1のメタ特徴を生成するように構成された少なくとも1つのプロセッサ(230)を含む。プロセッサ(230)は、生成されたメタ特徴を予め構築されたモデルと関連付けることによって、少なくとも1つのラベル付けされたデータセットに対する複数の分類モデルの各々の分類性能スコアを推定するようにさらに構成される。プロセッサ(230)は、推定された性能スコアの降順に並べられた分類モデルを含むリストを生成し、リストから上位N個の分類モデルを選択して、少なくとも1つのラベル付けされていないデータセットを分類するためのアンサンブル分類モデルを構築するようにさらに構成される。
【選択図】
図3
【特許請求の範囲】
【請求項1】
データ分類のための方法(500)であって、
少なくとも1つの第1のデータセットを受信すること(502)であって、前記少なくとも1つの第1のデータセットは、少なくとも1つのラベル付けされたデータセットと、少なくとも1つのラベル付けされていないデータセットとを含む、受信することと、
前記少なくとも1つのラベル付けされたデータセットから少なくとも1つの第1のメタ特徴を生成するために、前記少なくとも1つのラベル付けされたデータセットを処理すること(504)であって、前記少なくとも1つの第1のメタ特徴は、少なくとも1つの第1のクラスタインデックスである、処理することと、
前記少なくとも1つの第1のメタ特徴を、複数の分類モデルを含む予め構築されたモデル(320)と関連付けること(506)であって、前記予め構築されたモデル(320)は、少なくとも1つの予め計算されたメタ特徴を、前記複数の分類モデルに対応する複数の予め計算された分類性能スコアにマッピングするための少なくとも1つのマッピング関数をさらに含む、関連付けることと、
前記少なくとも1つの第1のメタ特徴を前記予め構築されたモデル(320)と関連付けることに基づいて、前記少なくとも1つのラベル付けされたデータセットについての前記複数の分類モデルの各々の分類性能スコアを推定すること(508)と、
前記推定された分類性能スコアの降順に並べられた前記複数の分類モデルを含むリストを生成すること(510)と、
前記リストから所定数の上位分類モデルを選択して、前記少なくとも1つのラベル付けされていないデータセットを分類するためのアンサンブル分類モデルを構築すること(512)と、
を含む、方法。
【請求項2】
前記少なくとも1つのラベル付けされていないデータセットを分類することは、
多数決、加重平均、及びモデルスタッキングのうちの1つに基づいてクラスラベルを予測するために、前記アンサンブル分類モデルを使用して前記少なくとも1つのラベル付けされていないデータセットを処理することと、を含む、請求項1に記載の方法。
【請求項3】
少なくとも1つの第1のメタ特徴を生成するために前記少なくとも1つのラベル付けされたデータセットを処理することは、
少なくとも1つのクリーニングされたデータセットを生成するために、前記少なくとも1つのラベル付けされたデータセットを処理することと、
1つ以上のクラスタを生成するために、少なくとも1つのクラスタリングモデルを使用して、前記少なくとも1つのクリーニングされたデータセットを処理することと、
前記1つ以上のクラスタを処理することによって多次元ベクトルを生成することであって、前記多次元ベクトルは前記少なくとも1つの第1のメタ特徴を含む、生成することと、
を含む、請求項1に記載の方法。
【請求項4】
前記推定された分類性能スコアを予め設定された閾値と比較することによって、前記少なくとも1つの第1のデータセットの分類複雑度を決定すること、
をさらに含む、請求項1に記載の方法。
【請求項5】
前記予め構築されたモデルは、
少なくとも1つの第2のデータセットを受信することと、
少なくとも1つの訓練サブデータセットを生成するために、前記少なくとも1つの第2のデータセットを処理することと、
1つ以上のクラスタを生成するために、少なくとも1つのクラスタリングモデルを使用して前記少なくとも1つの訓練サブデータセットを処理することと、
前記1つ以上のクラスタを処理することによって多次元ベクトルを生成することであって、前記多次元ベクトルは、前記少なくとも1つの訓練サブデータセットに対応する少なくとも1つの第2のメタ特徴を含み、前記少なくとも1つの第2のメタ特徴は、少なくとも1つの第2のクラスタインデックスである、生成することと、
前記少なくとも1つの訓練サブデータセットを処理することによって、前記複数の分類モデルに対応する複数の分類性能スコアを生成することと、
前記生成された少なくとも1つの第2のメタ特徴を前記生成された複数の分類性能スコアと関連付けることによって前記予め構築されたモデルを生成することであって、前記少なくとも1つの第2のメタ特徴は前記少なくとも1つの予め計算されたメタ特徴に対応し、前記複数の分類性能スコアは前記複数の予め計算された分類性能スコアに対応する、生成することと、
によって生成される、請求項1に記載の方法。
【請求項6】
前記複数の分類モデルに対応する複数の分類性能スコアを生成することは、前記複数の分類モデルに対応する1つ以上のハイパーパラメータを調整することによって、前記複数の分類モデルの各々について最良の分類性能スコアを生成することを含む、請求項5に記載の方法。
【請求項7】
データ分類のためのシステム(120)であって、
メモリ(240)と、
前記メモリ(240)と通信可能に結合された少なくとも1つのプロセッサ(230)と、を備え、前記少なくとも1つのプロセッサ(230)は、
少なくとも1つの第1のデータセットを受信し、前記少なくとも1つの第1のデータセットは、少なくとも1つのラベル付けされたデータセットと、少なくとも1つのラベル付けされていないデータセットとを含み、
前記少なくとも1つのラベル付けされたデータセットから少なくとも1つの第1のメタ特徴を生成ために、前記少なくとも1つのラベル付けされたデータセットを処理し前記少なくとも1つの第1のメタ特徴は、少なくとも第1の1つのクラスタインデックスであり、
前記少なくとも1つの第1のメタ特徴を、複数の分類モデルを含む予め構築されたモデル(320)と関連付け、前記予め構築されたモデル(320)は、少なくとも1つの予め計算されたメタ特徴を、前記複数の分類モデルに対応する複数の予め計算された分類性能スコアにマッピングするための少なくとも1つのマッピング関数をさらに含み、
前記少なくとも1つの第1のメタ特徴を前記予め構築されたモデル(320)と関連付けることに基づいて、前記少なくとも1つのラベル付けされたデータセットについての前記複数の分類モデルの各々の分類性能スコアを推定し、
前記推定された分類性能スコアの降順に並べられた前記複数の分類モデルを含むリストを生成し、
前記少なくとも1つのラベル付けされていないデータセットを分類するためのアンサンブル分類モデルを構築するために、前記リストから所定数の上位分類モデルを選択する、
ように構成されている、システム。
【請求項8】
前記少なくとも1つのプロセッサは、前記少なくとも1つのラベル付けされていないデータセットを、
多数決、加重平均、及びモデルスタッキングのうちの1つに基づいてクラスラベルを予測するために、前記アンサンブル分類モデルを使用して前記少なくとも1つのラベル付けされていないデータセットを処理することによって、
分類するように構成されている、請求項7に記載のシステム。
【請求項9】
前記少なくとも1つのプロセッサは、前記少なくとも1つのラベル付けされたデータセットを処理して少なくとも1つの第1のメタ特徴を生成するように構成され、
前記少なくとも1つの第1のメタ特徴を生成することは、
少なくとも1つのクリーニングされたデータセットを生成するために、前記少なくとも1つのラベル付けされたデータセットを処理することと、
1つ以上のクラスタを生成するために、少なくとも1つのクラスタリングモデルを使用して前記少なくとも1つのクリーニングされたデータセットを処理することと、
前記1つ以上のクラスタを処理することによって多次元ベクトルを生成することであって、前記多次元ベクトルは前記少なくとも1つの第1のメタ特徴を含む、生成することと、
によって、前記少なくとも1つの第1のメタ特徴を生成する、請求項7に記載のシステム。
【請求項10】
前記少なくとも1つのプロセッサは、
前記推定された分類性能スコアを予め設定された閾値と比較することによって、前記少なくとも1つの第1のデータセットの分類複雑度を決定するようにさらに構成されている、請求項7に記載のシステム。
【請求項11】
前記少なくとも1つのプロセッサは、前記予め構築されたモデルを生成するようにさらに構成され、
前記予め構築されたモデルを生成することは、
少なくとも1つの第2のデータセットを受信することと、
少なくとも1つの訓練サブデータセットを生成するために、前記少なくとも1つの第2のデータセットを処理することと、
1つ以上のクラスタを生成するために、少なくとも1つのクラスタリングモデルを使用して前記少なくとも1つの訓練サブデータセットを処理することと、
前記1つ以上のクラスタを処理することによって多次元ベクトルを生成することであって、前記多次元ベクトルは、前記少なくとも1つの訓練サブデータセットに対応する少なくとも1つの第2のメタ特徴を含み、前記少なくとも1つの第2のメタ特徴は、少なくとも1つの第2のクラスタインデックスである、生成することと、
前記少なくとも1つの訓練サブデータセットを処理することによって、前記複数の分類モデルに対応する複数の分類性能スコアを生成することと、
前記生成された少なくとも1つの第2のメタ特徴を前記生成された複数の分類性能スコアと関連付けることによって前記予め構築されたモデルを生成することであって、前記少なくとも1つの第2のメタ特徴は前記少なくとも1つの予め計算されたメタ特徴に対応し、前記複数の分類性能スコアは前記複数の予め計算された分類性能スコアに対応する、生成することと、
によって前記予め構築されたモデルを生成する、請求項7に記載のシステム。
【請求項12】
前記少なくとも1つのプロセッサは、前記複数の分類モデルに対応する1つ以上のハイパーパラメータを調整して、前記複数の分類モデルの各々について最良の分類性能スコアを生成することによって、前記複数の分類モデルに対応する複数の分類性能スコアを生成するように構成されている、請求項11に記載のシステム。
【請求項13】
前記システムは、データ分類及び分類モデル選択のためのサービス(MLaaS)プラットフォームとしての機械学習を提供するように構成されている、請求項7に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、自動機械学習の分野に関する。特に、本開示は、データ分類のためのシステム及び方法に関する。
【背景技術】
【0002】
機械学習は、コンピュータサイエンスにおいて重要かつ急速に成長している分野である。これは、様々な現実世界の問題に対処するのに役立つ。機械学習は、統計からの様々な概念を使用して、新しい出力値を予測するために履歴データからパターンを学習することができるモデルを構築する。機械学習は、多種多様な分野にわたって適用されるため、学術及び産業の両方において潜在的な成長を見せている。
【0003】
教師あり機械学習の分野では、分類は、クラスラベルが所与のデータについて予測される予測モデリング問題を指す。分類は、訓練のために与えられた入力データからいくつかの結論を引き出し、所与のデータについてクラスラベル/カテゴリを予測する。与えられたデータを分類することは、例えば、電子メールがスパム電子メールであるか非スパム電子メールであるか、トランザクションが不正なものであるか否かなど、機械学習において非常に重要なタスクである。分類の用途が膨大であるため、所与のデータセットに対して最良の分類モデルを選択することが必要になる。
【0004】
任意の機械学習分類タスクの性能は、学習モデルの選択、分類モデルの選択、及びデータセットの特性に依存する。様々な分類モデル/方法が、データ分類のために導入されている。分類モデル選択は、所与のデータセットを分類するのに最も適した適切な分類モデルを識別するプロセスである。所与のタスクに対する性能を最大化する適切な分類モデルの選択は、データサイエンスにおいて不可欠なステップである。最良の分類モデルを選択するための従来のアプローチは、異なる分類モデルを訓練し、検証セットに対するそれらの性能を評価し、最良の分類モデルを選択することである。しかしながら、この手法は、時間がかかり、リソース集約的であり、最良の分類モデルを選択するためにユーザの介入を必要とする。
【0005】
今日では、メタ学習、深層強化学習、ベイズ最適化、進化アルゴリズム、及び予算ベース評価など、自動分類モデル選択のための様々な技法が導入されている。これらの技術は、所与のデータセットに対する分類モデルを自動的に選択する。しかしながら、これらの自動分類モデル技術はまた、時間がかかり、リソース集約的である。さらに、近年の技術の進歩により、生成されるデータの量は増加し続けている。しかしながら、従来の技術では、膨大なデータセットをリアルタイムで正確に分類することは困難である。
【0006】
したがって、分類される必要があるデータの量が膨大かつ急速に増大しているため、技術のさらなる改善、特に、所与のデータセットに対して最良の分類モデルを自動的に選択することができ、データセットが膨大な量のデータを含む場合であっても所与のデータセットをリアルタイムで正確に分類することができる時間及びリソース効率のよい技法が必要とされている。
【0007】
従来、上記の問題に対処することができる市販の技術は存在しない。したがって、所与のデータセットを正確に分類するための時間及びリソース効率の良い自動分類モデル選択を容易にする技術が必要とされている。
【0008】
背景の欄に開示された情報は、本発明の一般的な背景の理解を深めるためのものに過ぎず、この情報が当業者に既に知られている先行技術を形成するとの承認又は任意の形式の提案として解釈されるべきではない。
【発明の概要】
【0009】
本開示によって、上述した1つ以上の欠点が克服され、さらなる利点が提供される。本開示の技術によって、さらなる特徴及び利点が実現される。本開示の他の実施形態及び態様は、本明細書で詳細に説明され、開示の一部と見なされる。
【0010】
本開示の目的は、1つ以上の最良の分類モデルを自動的に推奨/選択することである。
【0011】
本開示の別の目的は、1つ以上の最良の分類モデルを使用して所与のデータセットを分類することである。
【0012】
本開示の別の目的は、ラベル付けされていないデータセットに、時間及びリソース効率のよい方法でクラスラベルを正確に割り当てることである。
【0013】
本開示の別の目的は、所与のデータセットの分類複雑度を決定することである。
【0014】
本開示のさらに別の目的は、分類モデル構築及びデータ分類のためのサービスプラットフォームとして機械学習を提供することである。
【0015】
本開示の上述の目的並びに他の目的、特徴、及び利点は、以下の説明、添付の図面、及び添付の特許請求の範囲を検討することによって当業者に明らかになるであろう。
【0016】
本開示の一態様によれば、データ分類のための方法及びシステムが提供される。
【0017】
本開示の非限定的な実施形態において、本出願は、データ分類のための方法を開示する。本方法は、少なくとも1つの第1のデータセットを受信することを含んでもよく、少なくとも1つの第1のデータセットは、少なくとも1つのラベル付けされたデータセットと、少なくとも1つのラベル付けされていないデータセットとを含んでもよい。本方法は、少なくとも1つのラベル付けされたデータセットを処理して、少なくとも1つのラベル付けされたデータセットから少なくとも1つの第1のメタ特徴を生成することであって、少なくとも1つの第1のメタ特徴は、少なくとも1つの第1のクラスタインデックスである、ことをさらに含んでもよい。本方法は、少なくとも1つの第1のメタ特徴を、複数の分類モデルを含む予め構築されたモデルと関連付けることであって、予め構築されたモデルは、少なくとも1つの予め計算されたメタ特徴を、複数の分類モデルに対応する複数の予め計算された分類性能スコアにマッピングするための少なくとも1つのマッピング関数をさらに含んでもよい。本方法は、少なくとも1つの第1のメタ特徴を予め構築されたモデルと関連付けることに基づいて、少なくとも1つのラベル付けされたデータセットについての複数の分類モデルの各々の分類性能スコアを推定することをさらに含んでもよい。本方法は、推定された分類性能スコアの降順に並べられた複数の分類モデルを含むリストを生成することと、リストから所定数の上位分類モデルを選択して、少なくとも1つのラベル付けされていないデータセットを分類するためのアンサンブル分類モデルを構築することと、をさらに含んでもよい。
【0018】
本開示の別の非限定的な実施形態では、少なくとも1つのラベル付けされていないデータセットを分類することは、アンサンブル分類モデルを使用して少なくとも1つのラベル付けされていないデータセットを処理して、多数決、加重平均、及びモデルスタッキングのうちの1つに基づいてクラスラベルを予測することをさらに含んでもよい。
【0019】
本開示の別の非限定的な実施形態では、少なくとも1つのラベル付けされたデータセットを処理して少なくとも1つの第1のメタ特徴を生成することは、少なくとも1つのラベル付けされたデータセットを処理して、少なくとも1つのクリーニングされたデータセットを生成することと、少なくとも1つのクラスタリングモデルを使用して少なくとも1つのクリーニングされたデータセットを処理して、1つ以上のクラスタを生成することと、1つ以上のクラスタを処理することによって多次元ベクトルを生成することであって、多次元ベクトルは少なくとも1つの第1のメタ特徴を含む、ことと、を含んでもよい。
【0020】
本開示の別の非限定的な実施形態では、方法は、推定された分類性能スコアを予め設定された閾値と比較することによって、少なくとも1つの第1のデータセットの分類複雑度を決定することをさらに含んでもよい。
【0021】
本開示の別の非限定的な実施形態では、予め構築されたモデルは、以下:少なくとも1つの第2のデータセットを受信することと、少なくとも1つの第2のデータセットを処理して、少なくとも1つの訓練サブデータセットを生成することと、少なくとも1つのクラスタリングモデルを使用して少なくとも1つの訓練サブデータセットを処理して、1つ以上のクラスタを生成することと、1つ以上のクラスタを処理することによって多次元ベクトルを生成することであって、多次元ベクトルは、少なくとも1つの訓練サブデータセットに対応する少なくとも1つの第2のメタ特徴を含み、少なくとも1つの第2のメタ特徴は、少なくとも1つの第2のクラスタインデックスである、ことと、少なくとも1つの訓練サブデータセットを処理することによって、複数の分類モデルに対応する複数の分類性能スコアを生成することと、生成された少なくとも1つの第2のメタ特徴を生成された複数の分類性能スコアと関連付けることによって予め構築されたモデルを生成することであって、少なくとも1つの第2のメタ特徴は少なくとも1つの予め計算されたメタ特徴に対応し、複数の分類性能スコアは複数の予め計算された分類性能スコアに対応する、ことと、によって、生成されてもよい。
【0022】
本開示の別の非限定的な実施形態では、複数の分類モデルに対応する複数の分類性能スコアを生成することは、複数の分類モデルに対応する1つ以上のハイパーパラメータを調整することによって、複数の分類モデルの各々について最良の分類性能スコアを生成することを含んでもよい。
【0023】
本開示の別の非限定的な実施形態において、本出願は、データ分類のためのシステムを開示する。システムは、メモリと、メモリに通信可能に結合された少なくとも1つのプロセッサとを備えることができる。少なくとも1つのプロセッサは、少なくとも1つの第1のデータセットを受信し、少なくとも1つの第1のデータセットは、少なくとも1つのラベル付けされたデータセットと、少なくとも1つのラベル付けされていないデータセットとを含むように構成され得る。少なくとも1つのプロセッサは、少なくとも1つのラベル付けされたデータセットを処理して、少なくとも1つのラベル付けされたデータセットから少なくとも1つの第1のメタ特徴を生成するようにさらに構成されてもよく、少なくとも1つの第1のメタ特徴は、少なくとも第1の1つのクラスタインデックスである。少なくとも1つのプロセッサは、少なくとも1つの第1のメタ特徴を、複数の分類モデルを含む予め構築されたモデルと関連付けるようにさらに構成されてもよい。予め構築されたモデルは、少なくとも1つの予め計算されたメタ特徴を、複数の分類モデルに対応する複数の予め計算された分類性能スコアにマッピングするための少なくとも1つのマッピング関数をさらに含んでもよい。少なくとも1つのプロセッサは、少なくとも1つの第1のメタ特徴を予め構築されたモデルと関連付けることに基づいて、少なくとも1つのラベル付けされたデータセットについての複数の分類モデルの各々の分類性能スコアを推定し、推定された分類性能スコアの降順に並べられた複数の分類モデルを含むリストを生成するようにさらに構成されてもよい。少なくとも1つのプロセッサは、リストから所定数の上位分類モデルを選択して、少なくとも1つのラベル付けされていないデータセットを分類するためのアンサンブル分類モデルを構築するようにさらに構成され得る。
【0024】
本開示の別の非限定的な実施形態では、少なくとも1つのプロセッサは、アンサンブル分類モデルを使用して少なくとも1つのラベル付けされていないデータセットを処理して、多数決、加重平均、及びモデルスタッキングのうちの1つに基づいてクラスラベルを予測することによって、少なくとも1つのラベル付けされていないデータセットを分類するように構成されてもよい。
【0025】
本開示の別の非限定的な実施形態では、少なくとも1つのプロセッサは、少なくとも1つのラベル付けされたデータセットを処理して、少なくとも1つのクリーニングされたデータセットを生成することによって、少なくとも1つのラベル付けされたデータセットを処理することによって、少なくとも1つの第1のメタ特徴を生成することと、少なくとも1つのクラスタリングモデルを使用して少なくとも1つのクリーニングされたデータセットを処理して、1つ以上のクラスタを生成することと、1つ以上のクラスタを処理することによって多次元ベクトルを生成することであって、多次元ベクトルは少なくとも1つの第1のメタ特徴を含む、ことと、を含んでもよい。
【0026】
本開示の別の非限定的な実施形態では、少なくとも1つのプロセッサは、推定された分類性能スコアを予め設定された閾値と比較することによって、少なくとも1つの第1のデータセットの分類複雑度を決定するようにさらに構成されてもよい。
【0027】
本開示の別の非限定的な実施形態において、少なくとも1つのプロセッサは、少なくとも1つの第2のデータセットを受信することと、少なくとも1つの第2のデータセットを処理して、少なくとも1つの訓練サブデータセットを生成することと、少なくとも1つのクラスタリングモデルを使用して、少なくとも1つの訓練サブデータセットを処理して、1つ以上のクラスタを生成することと、によって予め構築されたモデルを生成するようにさらに構成されてもよい。少なくとも1つのプロセッサは、1つ以上のクラスタを処理することによって多次元ベクトルを生成するようにさらに構成されてもよく、多次元ベクトルは、少なくとも1つの訓練サブデータセットに対応する少なくとも1つの第2のメタ特徴を含み、少なくとも1つの第2のメタ特徴は、少なくとも1つの第2のクラスタインデックスである。少なくとも1つのプロセッサは、少なくとも1つの訓練サブデータセットを処理することによって、複数の分類モデルに対応する複数の分類性能スコアを生成するようにさらに構成されてもよい。少なくとも1つのプロセッサは、生成された少なくとも1つの第2のメタ特徴を生成された複数の分類性能スコアと関連付けることによって予め構築されたモデルを生成することであって、少なくとも1つの第2のメタ特徴は少なくとも1つの予め計算されたメタ特徴に対応し、複数の分類性能スコアは複数の予め計算された分類性能スコアに対応する、ことと、によって予め構築されたモデルを生成するようにさらに構成されてもよい。
【0028】
本開示の別の非限定的な実施形態では、少なくとも1つのプロセッサは、複数の分類モデルに対応する複数の分類性能スコアを生成して、複数の分類モデルに対応する1つ以上のハイパーパラメータを調整することによって、複数の分類モデルの各々について最良の分類性能スコアを生成するように構成されてもよい。
【0029】
本開示の別の非限定的な実施形態では、システムは、データ分類及び分類モデル選択のためのサービス(MLaaS)プラットフォームとしての機械学習を提供するように構成されていてもよい。
【0030】
前述の概要は、例示的なものに過ぎず、限定することを決して意図するものではない。上述の例示的な態様、実施形態、及び特徴に加えて、さらなる態様、実施形態、及び特徴が、図面及び以下の詳細な説明を参照することによって明らかになるであろう。
【図面の簡単な説明】
【0031】
本開示のさらなる態様及び利点は、添付の図面を参照して以下の詳細な説明から容易に理解されるであろう。参照番号は、同一又は機能的に類似の要素を指すために使用されている。図面は、以下の詳細な説明とともに、本明細書に組み込まれ、本明細書の一部を形成し、本開示に従って、実施形態をさらに示し、様々な原理及び利点を説明する役割を果たす。
【0032】
【
図1】本開示のいくつかの実施形態による、データ分類のための通信システム100の例示的な環境を示す。
【
図2】本開示のいくつかの実施形態による、
図1に示される通信システム100のブロック
図200を示す。
【
図3】本開示のいくつかの実施形態による、モデル選択及びデータ分類のためのプロセスフロー
図300を示す。
【
図4】本開示のいくつかの実施形態による、コンピューティングシステム110、120のブロック
図400を示す。
【
図5】本開示のいくつかの実施形態による、データ分類のための方法を図示する、フローチャート500を示す。
【
図6】本開示のいくつかの実施形態による、訓練された/予め構築されたモデルを生成するための方法を図示する、フローチャート600を示す。
【0033】
本明細書における任意のブロック図は、本開示の原理を具現化する例示的なシステムの概念図を表すことを当業者は理解すべきである。同様に、任意のフローチャート、流れ図、状態遷移図、疑似コードなどは、実質的にコンピュータ可読媒体において表されてもよく、そのため、コンピュータ又はプロセッサが明示的に図示されているか否かにかかわらず、そのようなコンピュータ又はプロセッサによって実行されてもよい様々なプロセスを表すことが諒解されよう。
【発明を実施するための形態】
【0034】
本明細書では、「例示的」という単語は、本明細書において使用されて、「例、実例、又は説明として機能すること」を意味する。本明細書において「例示的な」として説明される本開示の任意の実施形態又は実施態様は、必ずしも他の実施形態よりも好ましいか、又は有利であると解釈されるべきではない。
【0035】
本開示は様々な修正及び代替形態が可能であるが、その特定の実施形態は、例として図面に示されており、以下で詳細に説明される。しかしながら、本開示を開示された特定の形態に限定することを意図するものではなく、逆に、本開示は、本開示の精神及び範囲内にある全ての修正、等価物、及び代替物を包含するものであることを理解されたい。
【0036】
「備える(comprise(s))」、「備える(comprising)」、「含む(include (s))」という用語、又はそれらの任意の他の変形は、構成要素又はステップのリストを含むセットアップ、デバイス、装置、システム、又は方法がそれらの構成要素又はステップのみを含むのではなく、明示的に列挙されていない、又はそのようなセットアップ若しくはデバイス若しくは装置若しくはシステム若しくは方法に固有の他の構成要素又はステップを含むことができるように、非排他的な包含を網羅することを意図している。言い換えれば、「...を含む/備える(comprises...a)」が続くシステム内の1つ以上の要素は、さらなる制約なしに、デバイス又はシステム又は装置内の他の要素又は追加の要素の存在を排除しない。
【0037】
「少なくとも1つ」及び「1つ以上」のような用語は、説明全体を通して互換的に使用され得る。「複数の(a plurality of)」及び「複数の(multiple)」のような用語は、説明全体を通して互換的に使用され得る。さらに、「マッピング関数」、「リグレッサ」、及び「回帰関数」のような用語は、説明全体を通して互換的に使用され得る。さらに、「予め構築されたモデル」及び「訓練されたモデル」のような用語は、説明全体を通して交換可能に使用され得る。
【0038】
本開示の実施形態の以下の詳細な説明では、本明細書の一部を形成し、本開示が実践され得る特定の実施形態の例証として示される、添付の図面を参照する。これらの実施形態は、当業者が本開示を実施することを可能にするために十分に詳細に説明され、他の実施形態が利用されてもよく、本開示の範囲から逸脱することなく変更が行われてもよいことを理解されたい。したがって、以下の説明は、限定的な意味で解釈されるべきではない。以下の説明において、周知の機能又は構成は、不必要な詳細で説明を不明瞭にするので、詳細には説明されない。
【0039】
一般に、クラスタリングは教師なし機械学習タスクであり、分類は教師あり機械学習タスクである。本開示において、クラスタリングインデックスは、所与のデータセットに対するクラスタリングモデルによって引き起こされるクラスタの品質を評価するために使用されるクラスタ評価メトリックを表す。クラスタリングモデルは、同様の特性を有するデータセットを、異なるサイズの近傍又は分離物にグループ化する。クラスタリングインデックスは、同様のデータ特性を共有する良好な品質の近傍を誘導するクラスタリングモデルの能力を測定する。したがって、クラスタリングインデックスは、クラスタリングモデルに関するデータセット特性を表す。本開示では、クラスタリングインデックスは、分類モデル選択のため、及び所与のデータセットを正確に分類するためのメタ特徴として使用される。
【0040】
本開示では、モデル適合性という用語は、所与のデータセットに対する分類タスクを学習する分類モデルの能力を示す。データセットの実際のモデル適合性は、所与のデータセットに対する分類モデルの予想される分類性能に基づいて測定され得る。F1スコアは、本開示において分類性能メトリックとして使用される。
【0041】
本開示では、分類複雑度という用語は、所与のデータセットに対する分類モデルを学習する難しさを示す。
【0042】
機械学習において、分類タスクは、データセットの特性を適切な出力カテゴリにマッピングする判別関数である。一般に、判別関数は、項目を2つ以上のグループのうちの1つに割り当てるために使用されるいくつかの変量の関数である。機械学習分類モデルは、観測されないデータを一般化及び分類する能力によって規定される。
【0043】
本開示は、データ分類及びモデル選択のための技法(方法及びシステム)を提供する。背景技術のセクションで説明したように、分類モデル選択のための従来の技法は、時間がかかり、リソース集約的であり、従来の技法を使用してリアルタイムで巨大なデータセットの正確な分類を実行することは困難である。
【0044】
これら及び他の問題を克服するために、本開示は、アンサンブル分類モデルを形成するために複数の利用可能な分類モデルから1つ以上の分類モデルを自動的に選択するためのクラスタリングインデックスを使用する技法を提案する。アンサンブル分類モデルは、所与のデータセットを正確に分類するために使用され得る。本開示は、最良の分類モデルを選択するためのデータ特性(又はメタ特徴)としてクラスタリングインデックスを使用して、データセットにわたって複数の分類モデルを適合/訓練することなく、アンサンブル分類モデルを構築する。本開示は、データ分類及び分類モデル選択のためのサービス(MLaaS)プラットフォームとして機械学習をユーザに提供することができる。
【0045】
近年、データソースの増加に伴い、サービスとしての機械学習の需要が増加している。産業全体にわたる企業は、その製品サイクルの様々な段階で機械学習の力を利用している。これにより、企業が機械学習をサービスとして提供する道が開かれた。機能的ですぐに使えるサービスとしての機械学習(MLaaS)プラットフォームは、小規模企業、開発者、及び研究者にとって有益であり、独自のソリューションを構築するのに役立つ。これは、高い計算リソース及び費やされる時間の必要性を克服するのに役立つ。本開示の提案システムは、機械学習モデル構築のサービスとして利用することができる。特に、アンサンブル分類モデルは、予測アプリケーションプログラミングインタフェース(API)又は展開可能なソリューションのいずれかとしてユーザ/クライアントに提供され得る。
【0046】
本開示のいくつかの実施形態による、データ分類及びモデル選択において使用するための通信システム100を図示する
図1を参照する。通信システム100は、1つ以上の第1のデータソース130と通信することができる第1のコンピューティングシステム110(又はクライアントコンピューティングシステム)を備えることができる。1つ以上の第1のデータソース130は、分類が実行される少なくとも1つの第1のデータセット160を含んでもよい。通信システム100はさらに、少なくとも1つのネットワーク150を介して第1のコンピューティングシステム110と通信する第2のコンピューティングシステム120(又はサーバ)を備えることができる。さらに、第2のコンピューティングシステム120は、1つ以上の第2のデータソース140と通信することができる。1つ以上の第2のデータソース140は、第2のコンピューティングシステム120を訓練するための少なくとも1つの第2のデータセット160を含んでもよい。
【0047】
ネットワーク150は、インターネット、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、メトロポリタンエリアネットワーク(MAN)メトロポリタンエリアネットワーク(MAN)などのデータネットワークを含むことができる。特定の実施形態では、ネットワーク150は、限定はしないが、セルラーネットワークなどの無線ネットワークを含むことができ、Enhanced Data rates for Global Evolution(EDGE)、General Packet Radio Service(GPRS)、Global System for Mobile Communications(GSM)、Internet protocol Multimedia Subsystem(IMS)、Universal Mobile Telecommunications System(UMTS)などを含む様々な技術を使用することができる。一実施形態では、ネットワーク150は、ネットワーク又はサブネットワークを含むか、又はカバーすることができ、ネットワーク又はサブネットワークの各々は、例えば、有線又は無線データ経路を含むことができる。
【0048】
第1及び第2のデータソース130、140は、膨大な量のデータ及び/又は情報を含む任意のデータソースであってもよい。第1及び第2のデータソース130、140は、銀行記録、IoTログ、コンピュータ化された医療記録、オンラインショッピング記録、サーバ上に記憶されたユーザのチャットデータ、コンピューティングデバイスのログ、脆弱性データベース等であってもよいが、それらに限定されない、任意のパブリック又はプライベートデータソースであってもよい。第1のコンピューティングシステム110は、少なくとも1つの第1のデータソース140から少なくとも1つの第1のデータセット160をフェッチ/受信してもよく、第2のコンピューティングシステム110は、少なくとも1つの第2のデータソース130から少なくとも1つの第2のデータセット170をフェッチ/受信してもよい。
【0049】
ここで、
図1は、本開示のいくつかの実施形態による、通信システム100のブロック
図200である
図2と併せて説明される。本開示の一実施形態によれば、通信システム100、200は、第1のコンピューティングシステム110、第2のコンピューティングシステム120、少なくとも1つの第1のソース130、及び少なくとも1つの第2のソース140を備えることができる。第1のコンピューティングシステム110は、少なくとも1つの第1のプロセッサ210及び少なくとも1つの第1のメモリ220を備えることができる。同様に、第2のコンピューティングシステム120は、少なくとも1つの第2のプロセッサ230及び少なくとも1つの第2のメモリ240を備えることができる。
【0050】
第1及び第2のプロセッサ210、230は、これらに限定されるものではないが、汎用プロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、マイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、中央処理装置、状態機械、論理回路、及び/又は動作命令に基づいて信号を操作する任意のデバイスを含んでもよい。プロセッサはまた、コンピュータデバイスの組み合わせ、例えば、DSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、DSPコアと組み合わせた1つ以上のマイクロプロセッサ、又は任意の他のそのような構成として実装されてもよい。
【0051】
第1のメモリ220は、少なくとも1つの第1のプロセッサ210に通信可能に結合されてもよく、第2のメモリ240は、少なくとも1つの第2のプロセッサ230に通信可能に結合されてもよい。第1及び第2のメモリ220、240は、様々な命令、1つ以上のデータセット、及び1つ以上のクラスタ、1つ以上のクラスラベル、1つ以上の分類モデル、1つ以上のクラスタリングモデルなどを含んでもよい。第1及び第2のメモリ220、240は、ランダムアクセスメモリ(RAM)ユニット及び/又は不揮発性メモリユニット、例えば、読み出し専用メモリ(ROM)、光ディスクドライブ、磁気ディスクドライブ、フラッシュメモリ、電気的消去可能読み出し専用メモリ(EEPROM)、サーバ又はクラウド上のメモリ空間などを含んでもよい。
【0052】
本開示で提案する通信システム100は、訓練されたモデルを構築し、訓練されたモデルを用いて少なくとも1つの分類モデルを選択し、選択された少なくとも1つの分類モデルを用いてアンサンブル分類モデルを形成し、アンサンブル分類モデルを用いて所与のデータセットを分類することができるデータ分類システムと称することができる。
【0053】
本開示の非限定的な一実施形態では、少なくとも1つの第1のプロセッサ210は、少なくとも1つの第1のデータソース130から少なくとも1つの第1のデータセット160を抽出することができる。非限定的な一実施形態では、1つ以上のデータセット160は、第1のプロセッサ210に送信されてもよい。少なくとも1つの第1のプロセッサ210は、少なくとも1つの第1のデータセット160を第2のコンピューティングシステム120の第2の少なくとも1つの第2のプロセッサ230に送信することができる。少なくとも1つの第2のプロセッサ230は、受信された少なくとも1つの第1のデータセット160を処理して、1つ以上のクラスラベルを割り当てることができる。少なくとも1つの第2のプロセッサ230は、データ分類のために予め構築された/訓練されたモデルを使用する。少なくとも1つの第2のプロセッサ230における処理は、
図3で説明されるようなプロセスフロー
図300の助けを借りて以下で説明される。
【0054】
第2のコンピューティングシステム120は、2つのフェーズ、すなわち、訓練フェーズ302である第1のフェーズと、予測フェーズ304である第2のフェーズで動作し得る。ここで、第2のコンピューティングシステム120が最初に訓練され、モデル選択及びデータ分類がその後に行われることは注目に値してもよい。訓練フェーズ302の結果は、訓練されたモデル又は予め構築されたモデル320である。「訓練されたモデル」及び「予め構築されたモデル」という用語は、説明全体を通して交換可能に使用される。
【0055】
訓練フェーズ302はさらに、3つのサブフェーズ、すなわち、前処理フェーズ306、データセット構築フェーズ308、及びマッパフェーズ(mapper phase)310に分割され得る。予測フェーズ304は、2つのサブフェーズ、すなわち、推奨フェーズ312及びモデル構築/分類フェーズ314にさらに分割され得る。推奨フェーズ312は、訓練フェーズ302の前処理フェーズ306及びデータセット構築フェーズ308の一部又は全ての機能を含むことができる。異なるフェーズを以下に詳細に説明する。
訓練フェーズ:
【0056】
本開示の非限定的な一実施形態では、少なくとも1つの第2のプロセッサ230は、少なくとも1つの第2のデータソース140から少なくとも1つの第2のデータセット170を受信又はフェッチすることができる。少なくとも1つの第2のデータセット170は、集合的にDTとして表すことができ、1つ以上のデータセットを含むことができる:
DT={D1,D2,D3,...,Dn} (1)
【0057】
本開示の非限定的な一実施形態では、前処理フェーズ306は、少なくとも1つの第2のデータセット170を、置換を伴う層別ランダムサンプリングによって生成されたいくつかのサブデータセット(又はサブサンプル)のセットBTに変換するためのいくつかのサブタスクを含んでもよい。1つのサブタスクにおいて、少なくとも1つの第2のプロセッサ230は、受信された少なくとも1つの第2のデータセット170に対してクリーニング動作を実行して、少なくとも1つのクリーニングされたデータセットを生成することができる。データクリーニングは、信頼できるデータセットを作成するために、少なくとも1つの第2のデータセット170からエラー及び重複データを識別して除去する。データクリーニングは、訓練データの品質を改善し、正確な意思決定を可能にする。少なくとも1つの第2のデータセット170のクリーニングは、少なくとも1つの第2のデータセット170を正規化すること、少なくとも1つの第2のデータセット170から空のセルをドロップすること、及び少なくとも1つの第2のデータセット170を標準化することなどを含み得るが、これらに限定されない。クリーニングの目的は、データセットを様々な機械学習モデルに対して均一かつ理解可能にするために、少なくとも1つの第2のデータセット170から不要なデータを除去することである。初期段階において少なくとも1つの第2のデータセット170をクリーニングすることは、後続のフェーズにおける不必要な計算を低減し、それによって訓練フェーズ302の全体的な時間を節約することができる。
【0058】
本開示の1つの非限定的な実施形態では、少なくとも1つの第2のプロセッサ230は、クリーニングされたデータセットを、訓練データセットとテストデータセットとの所定の比率に分割することができる。非限定的な一実施形態では、所定の比は、70:30又は80:20であってもよい。訓練データセットは、訓練されたモデル320を生成するようにコンピューティングシステム120を訓練するために使用されてもよく、テストデータセットは、訓練されたモデル320を相互検証するために使用されてもよい。テストデータセットは、検証データセットと称され得る。
【0059】
本開示の1つの非限定的な実施形態では、訓練データセット及びテストデータセットは、それぞれのサブデータセットを生成するために独立したサンプリングを受けてもよく、すなわち、少なくとも1つの訓練サブデータセットが訓練データセットから生成されてもよく、少なくとも1つのテストサブデータセットがテストデータセットから生成されてもよい。ここで使用されるサンプリングは、置換を伴う層別ランダムサンプリングである。ここで、サンプリング(すなわち、複数のサブデータセットの構築)は、予め構築されたモデル320を訓練するためのデータセットの数の増加をもたらし、訓練データセットの数が多いほど、生成されるモデルが良好であり、精度が高いことに留意されたい。サブデータセットを使用する別の利点は、回帰関数に特徴的なデータセット分散のより広い適用範囲を提供することである。訓練サブデータセットのセットは、BTとして表され得る。
BT={B1,B2,B3,...,Bn} (2)
テストサブデータセットは、セットBTの一部であってもよいし、別個のセットであってもよい。前処理フェーズ306の出力は、データセット構築フェーズ308への入力として供給されるサブデータセットである。
【0060】
本開示の1つの非限定的な実施形態では、データセット構築フェーズ308における少なくとも1つの第2のプロセッサ230は、生成された訓練及びテストサブデータセットを受信してもよく、それらを処理して1つ以上の多次元ベクトルを生成してもよい。データセット構築フェーズ308での処理は、2つの並列ステップ316及び318で行われる。本開示の1つの非限定的な実施形態では、少なくとも1つのクラスタリングモデル及び複数の分類モデルが、少なくとも1つの第2のプロセッサ230に事前定義/事前供給され得る。少なくとも1つのクラスタリングモデルは、まとめてAとして表されてもよく、複数の分類モデルは、まとめてCとして表されてもよい。
A={A1,A2,A3,...,An} (3)
C={C1,C2,C3,...,Cn} (4)
【0061】
データセット構築フェーズ308の第1のステップ316において、少なくとも1つの第2のプロセッサ230は、少なくとも1つのクラスタリングモデルAを使用して少なくとも1つの訓練サブデータセットを処理して、各クラスタリングモデルについて少なくとも1つのクラスタを生成することができる。少なくとも1つのクラスタリングモデルを使用して生成されたクラスタは、異なるクラスタリングモデルによって生成された異なるクラスタを含み得る多次元ベクトルCLとして集合的に表され得る。
CL={CL1,CL2,CL3,...,CLn} (5)
ここで、CLiは、クラスタリングモデルCiによって生成されたクラスタのセットを示す。クラスタのセットの各々は、以下のような少なくとも1つのクラスタをさらに含み得る:
モデルA1によって生成されたクラスタ:CL1={CL11,CL12,CL13,...,CL1n}
モデルA2によって生成されたクラスタ:CL2={CL21,CL22,CL23,...,CL2n}
モデルA3によって生成されたクラスタ:CL3={CL31,CL32,CL33,...,CL3n}
モデルAmによって生成されたクラスタ:CLm={CLm1,CLm2,CLm3,...,CLmn}
【0062】
各クラスタリングモデルに対して少なくとも1つのクラスタを生成した後、少なくとも1つの第2のプロセッサ230は、生成されたクラスタの各々からメタ特徴を抽出するために、生成されたクラスタの各々を処理し得る。メタ特徴は、データ特性とも呼ばれ、データセットの複雑さを特徴付け、異なるクラスタリングモデルの性能の推定値を提供することができる。本開示では、クラスタリングインデックスが、少なくとも1つの第2のデータセットDTの異なる特性を表すメタ特徴として使用される。ここで、クラスタリングインデックスが、所与のデータセットに対する分類/クラスタリングモデルの性能と強い相関を有することは注目に値し得る。異なるクラスタリングモデルは、サブデータセットを近傍にグループ化するための異なるクラスタリング仮定を有する。クラスタリングインデックスがそのようなクラスタリングアルゴリズムの性能を測定するとき、それらは本質的にサブデータセットの異なる特性を捉える。一般に、クラスタリングインデックスは、クラスタリングモデルによって誘導されたクラスタを検証するための尺度である。
【0063】
クラスタリングインデックスは、内部クラスタリングインデックスと外部クラスタリングインデックスの2つのカテゴリに分類することができる。クラスタリングインデックスがデータラベルなどの外部情報に依存しない場合、インデックスは内部クラスタリングインデックス又は品質インデックスと呼ばれる。逆に、クラスタリングインデックスがデータ点ラベルを使用する場合、インデックスは外部クラスタリングインデックスと呼ばれる。したがって、外部クラスタリングインデックスは、クラスタリングモデルの結果を評価するために先験的データを必要とするが、内部クラスタリングインデックスは必要としない。最も一般的に使用されるクラスタリングインデックスのいくつかは以下の通りである:
内部クラスタリングインデックス:分散、Banfeld-Raftery、Ball-Hall、PBM、Det比、Log-Det比、Ksq-DetW、スコア、シルエット、Log-SS比、Cインデックス、Dunn、Ray-Turi、Calinski-Harabasz、Trace-WiB、Davies-Bouldin等。
外部クラスタリングインデックス:エントロピー、Purity、Recall、Folkes-Mallows、Rogers-Tanimoto、F1、Kulczynski、Norm-Mutual情報、Sokal-Sneath、Rand、ユベール、均質性、完全性、V-Measure、Jaccard、Adj-Rand、Phi、McNemar、Russel-Rao、Precisionなど。
【0064】
少なくとも1つの所望のクラスタリングインデックスが予め選択され、少なくとも1つの第2のプロセッサ230に供給されてもよい。次いで、少なくとも1つの第2のプロセッサ230は、各クラスタリングモデルの生成されたクラスタに対する少なくとも1つの所望のクラスタリングインデックスの値を決定することができる。クラスタリングインデックスの値は、従来の既知の技術を用いて決定されてもよい。次いで、少なくとも1つの第2のプロセッサ230は、特定のクラスタリングモデルの異なるクラスタの対応するクラスタリングインデックスの平均をとってクラスタリングインデックスの多次元ベクトルを生成することによって、特定のクラスタリングモデルについての最終的なクラスタリングインデックスを決定することができる。クラスタリングインデックスの多次元ベクトルは、ITとして表すことができる。ここで、多次元ベクトルITの生成を一例として説明する。
【0065】
サブデータセットをクラスタリングするために2つのクラスタリングアルゴリズムA1及びA2が使用され、クラスタリングモデルA1、A2の各々によって生成された2つのクラスタがある例を考える。
クラスタリングモデルA={A1,A2}
第1のクラスタリングモデルA1のクラスタ:CL1={CL11,CL12}
第2のクラスタリングモデルA2のクラスタ:CL2={CL21,CL22}
メタ特徴として2つのクラスタリングインデックスI1及びI2を用いる場合を考える。少なくとも1つの第2のプロセッサ230は、生成されたクラスタの各々についてI1及びI2の値を決定することができる。
CL11に対する第1のクラスタリングインデックスI1の値=I111
CL12に対する第1のクラスタリングインデックスI1の値=I112
CL11に対する第2のクラスタリングインデックスI2の値=I211
CL12に対する第2のクラスタリングインデックスI2の値=I212
【0066】
次いで、少なくとも1つの第2のプロセッサ230は、第1のクラスタリングモデルA
1の異なるクラスタCL
11、CL
12について生成された第1のクラスタリングインデックスI
1の値I
111、I
112の平均をとることによって、第1のクラスタリングモデルA
1についての第1のクラスタリングインデックスI
1の値を決定することができる。
すなわち、第1のクラスタリングモデルA
1に対する第1のクラスタリングインデックスI
1の値:
I
11=avg(I
111,I
112)
同様に、
第1のクラスタリングモデルA
1に対する第2クラスタリングインデックスI
2の値:
I
21=avg(I
211,I
212)
ここで、第1のクラスタリングモデルA
1に対するクラスタリングインデックスI
1及びI
2の値が決定された。同様に、少なくとも1つの第2のプロセッサ230は、第2のクラスタリングモデルA
2についてのクラスタリングインデックスI
1及びI
2の値(すなわち、I
12及びI
22)を決定することができる。次いで、2つのクラスタリングモデルA
1及びA
2のクラスタリングインデックスの値を連結して、クラスタリングインデックスの多次元ベクトルI
Tを形成することができる。
【数1】
【0067】
同様に、少なくとも1つのクラスタリングモデルの全てについてのクラスタリングインデックスの値が決定され、ベクトルI
Tにおいて連結され得る。
【数2】
第1のステップ316の出力は、多次元ベクトルI
Tである。
【0068】
データセット構築フェーズ308の第2のステップ318において、少なくとも1つの第2のプロセッサ230は、少なくとも1つの訓練サブデータセットに対する複数の分類モデルC={C
1,C
2,C
3,...,C
n}の各々に対する分類性能スコアを生成してもよい。データセットについての分類モデルの分類性能スコアは、モデル適合度スコアとして測定される分類モデルの最大達成可能分類性能を示し得る。分類性能は、F1スコアを使用して測定され得る。F1スコアは、精度及び再現性の加重平均である。F1スコアの値は、0~1の間にあり得る(1は最良スコアであり、0は最悪スコアである)。異なる分類モデルの分類性能は、ベクトルO
Tとして集合的に表され得る。
O
T={O
1,O
2,O
3,...,O
n} (7)
本開示の1つの非限定的な実施形態では、少なくとも1つの第2のプロセッサ230は、複数の分類モデルに対応する1つ以上のハイパーパラメータを調整することによって、複数の分類モデルの各々について最良の分類性能スコアを生成し得る。非限定的な一実施形態では、各分類モデルは、それ自体のハイパーパラメータを有し得る。例えば、分類モデル「ロジスティック回帰」は、そのハイパーパラメータとしてペナルティ及び許容範囲を有し得る。いくつかの例示的な分類モデル及びそれらのハイパーパラメータを以下の表1に列挙する。
【表1】
【0069】
ここで、ベクトルOTの生成について例を挙げて説明する。訓練サブデータセットBTのセット内に、2つの分類モデルC1及びC2があり、3つの訓練サブデータセットB1、B2、及びB3があるとする。
分類モデルC={C1,C2}
訓練サブデータセットBT={B1,B2,B3}
Oijが、サブデータセットBjに対する分類モデルCiの分類性能スコアを表すと考える。
サブデータセットB1に対するC1の分類性能スコア=O11
サブデータセットB2に対するC1の分類性能スコア=O12
サブデータセットB3に対するC1の分類性能スコア=O13
サブデータセットB1に対するC2の分類性能スコア=O21
サブデータセットB2に対するC2の分類性能スコア=O22
サブデータセットB3に対するC2の分類性能スコア=O23
【0070】
非限定的な一実施形態では、データセットBT全体に対する分類モデルC1の分類性能スコアは、O1として表されてもよく、データセットBT全体に対する分類モデルC1の分類性能スコアは、O2として表されてもよい。ここで、分類性能スコアO1を決定するために、少なくとも1つの第2のプロセッサ230は、分類性能スコアO11、O12、O13の平均を取ることができる。
すなわち、
O1=avg{O11,O12,O13}
同様に、O2=avg(O21,O22,O23)である。
ここで、分類モデルC1及びC2の多次元ベクトルOTは、以下のように表すことができる:
OT={O1,O2}。
複数の分類モデルCの多次元ベクトルOTは、次のように表すことができる。
OT={O1,O2,O3,...,On}。
第2のステップ318の出力は、多次元ベクトルOTである。
【0071】
本開示の1つの非限定的な実施形態において、マッパフェーズ310は、データセット構築フェーズ308から2つの異なるベクトル/データセット、すなわち、クラスタインデックスの1つのベクトルIT及び分類性能スコアの別のベクトルOTを受信し得る。ここで、特定のクラスタリング仮定の下でのデータセットのクラスタリングインデックスと、異なる分類モデルについてF1スコアに関して測定されたその最大の達成可能な分類性能スコアとの間に強い相関が存在することは注目に値し得る。この相関は、複数の分類モデルについての1つ以上の回帰関数(又はリグレッサ)としてモデル化され得る。一般に、回帰は、1つ以上の予測変数(x)の値に基づいて連続的な結果変数(y)を予測するのに役立つ機械学習技法である。簡単に説明すると、回帰関数の目標は、変数(x)の関数として変数(y)を定義する数式を構築することである。1つ以上の回帰関数は、Rとして集合的に表され得る。
R={R1,R2,R3,...,Rn} (8)
本開示では、回帰関数はマッピング関数と呼ばれることもある。マッパフェーズ310の目標は、1つ以上のマッピング/回帰関数を使用して訓練されたモデル320を構築することである。
【0072】
本開示の1つの非限定的な実施形態では、少なくとも1つの第2のプロセッサ230は、ベクトル(IT,OT)を訓練データとして使用して1つ以上の回帰関数Rを訓練することができる。
R:IT→OT (9)
少なくとも1つの第2のプロセッサ230は、R二乗(R2)メトリックを使用して回帰関数の性能を評価することができる。R二乗は、回帰関数における独立変数(単数又は複数)によって説明される従属変数に対する分散の割合を表す統計的尺度である。リグレッサ関数Rの1つ以上のハイパーパラメータは、訓練サブデータセットに対する交差検証を使用して調整され得る。このようにして、少なくとも1つの第2のデータセットに対して最良の性能を与える回帰関数を選択することができる。1つの非限定的な実施形態では、少なくとも1つの第2のプロセッサ230は、全ての分類モデルに対する単一の回帰関数の代わりに、複数の分類モデルに対する個々の回帰関数を構築することができる。最良性能の回帰関数は、訓練されたモデル又は予め構築されたモデル320を構成する。訓練されたモデル320が生成されると、訓練フェーズ302が終了する。
【0073】
本発明の非限定的な一実施形態では、少なくとも1つの第2のデータセット170の各データセットがクラスタリングインデックスの単一インスタンスベクトルと見なされる場合、訓練サンプルの数は、少なくとも1つの第2のデータセット170内に存在するデータセットの数によって制限される。このため、訓練サンプルの不足により、リグレッサ関数の学習が困難になる。したがって、回帰関数は、完全なデータセットの代わりにサブデータセットを使用して訓練される。このプロセスでは、全てのデータセットが、複数の訓練サブデータセットを生成するために、置換を伴うランダムサンプリングによる拡張を受ける。完全なデータセットの代わりにサブデータセットを使用する利点は、回帰関数を訓練するために使用されるデータセットにおけるより多くの可変性であり、回帰関数をデータセットの分散に対してロバストにする。別の利点は、シングルショットで大きなデータセットを扱う場合と比較して、サブデータセットからクラスタリングインデックスを生成することが容易であることである。
【0074】
予測フェーズ:
本開示の1つの非限定的な実施形態では、訓練された/予め構築されたモデル320は、少なくとも1つの第1のデータセット160に対するクラスラベルの予測又は分類モデルの推奨のために、予測フェーズ304において利用され得る。推奨フェーズ312において、少なくとも1つの第2のプロセッサ230は、少なくとも1つの第1のデータセット160を受信することができる。少なくとも1つの第1のデータセット160は、集合的にDPとして表されてもよく、1つ以上のデータセットを含んでもよい。
DP={D1’,D2’,D3’,...,Dn’} (10)
少なくとも1つの第1のデータセット160は、少なくとも1つのラベル付けされたデータセット及び少なくとも1つのラベル付けされていないデータセットを含むことができる。少なくとも1つのラベル付けされたデータセットは、1つ以上の分類モデルを構築/訓練するために使用され得る。少なくとも1つの第2のプロセッサ230は、少なくとも1つのラベル付けされていないデータセットを分類するために、構築された分類モデルを使用することができる。
【0075】
本開示の1つの非限定的な実施形態では、ブロック322において、少なくとも1つの第2のプロセッサ230は、少なくとも1つのラベル付けされたデータセットから少なくとも1つの第1のメタ特徴を生成するために、受信された少なくとも1つのラベル付けされたデータセットを処理することができる。本開示では、メタ特徴はクラスタインデックスである。最初に、少なくとも1つの第2のプロセッサ230は、受信された少なくとも1つのラベル付けされたデータセットを前処理して、少なくとも1つのクリーニングされたデータセットを生成することができる。次いで、少なくとも1つの第2のプロセッサ230は、少なくとも1つのクリーニングされたデータセットから1つ以上のサブデータセットを生成することができる。1つ以上のサブデータセットは、以下のように表され得る
BP={B1’,B2’,B3’,...,Bn’} (11)
【0076】
本開示の1つの非限定的な実施形態では、少なくとも1つの第2のプロセッサ230は、少なくとも1つの第1のクラスタを生成するために少なくとも1つのクラスタリングモデルを使用して少なくとも1つのクリーニングされたデータセットを処理することができる。訓練フェーズ302で生成された少なくとも1つのクラスタは、少なくとも1つの第2のクラスタと呼ばれ得る。少なくとも1つの第2のプロセッサ230は、次いで、少なくとも1つの第1のクラスタインデックスを備える多次元ベクトルを生成するために、少なくとも1つの第1のクラスタを処理し得る。ここで、データクリーニング、サブデータセット生成、クラスタインデックス生成の詳細な説明は、訓練フェーズ302を説明している間に既に説明されていることに留意されたい。したがって、簡潔にするために、ここでは同じことが省略されている。少なくとも1つの第1のクラスタインデックスは、多次元ベクトルIPとして集合的に表されてもよく、式(6)と同様に少なくとも1つのクラスタリングモデルの各々について1つ以上のクラスタインデックスを備えてもよい。ここで、推奨フェーズ312の目的は、少なくとも1つのラベル付けされたデータセットに対する複数の分類モデルの各々の分類性能スコアを見つけることである。
【0077】
本開示の1つの非限定的な実施形態では、少なくとも1つの第2のプロセッサ230は、少なくとも1つの第1のクラスタインデックスを使用して、予め構築されたモデル320を照会してもよい。特に、少なくとも1つの第2のプロセッサ230は、少なくとも1つの第1のクラスタインデックスを、複数の分類モデルを含む予め構築されたモデル320と関連付けることができる。上述したように、予め構築されたモデル320は、少なくとも1つのメタ特徴を複数の分類モデルに対応する複数の分類性能スコアにマッピングするための少なくとも1つの最良マッピング関数Rを含むことができる。少なくとも1つの第2のプロセッサ230は、少なくとも1つの第1のクラスタインデックスを予め構築されたモデル320と関連付けることに基づいて、少なくとも1つのラベル付けされたデータセットに対する複数の分類モデルの各々の分類性能スコアを推定/予測することができる。
【0078】
本開示の1つの非限定的な実施形態において、少なくとも1つの第1のクラスタインデックスを含む多次元ベクトルIPは、予め構築されたモデル320の少なくとも1つのマッピング関数Rに入力されて、複数の分類モデルCの各々の予測される分類性能スコア又はモデル適合性スコアの推定を行ってもよい。少なくとも1つのラベル付けされたデータセットについての特定の分類モデルについての推定された分類性能スコア324は、サブデータセットBPの各データセットについての特定の分類モデルの推定された分類性能スコア324を平均化することによって取得され得る。推定された分類性能スコア324は、集合的にOPとして表され、以下のように計算され得る。
OP←R(IP) (12)
及び
OP={O1’,O2’,O3’,...,On’} (13)
したがって、本開示で説明される技法を使用して、異なる分類モデルについての分類性能スコアは、少なくとも1つの第1のデータセット160にわたってそれらを訓練することさえなく、予測されることができる。この予測は、少なくとも1つの第1のデータセット160から抽出されたクラスタリングインデックスに基づく。
【0079】
本開示の1つの非限定的な実施形態において、少なくとも1つのラベル付けされたデータセットに対する複数の分類モデルの各々の分類性能スコアを推定した後、少なくとも1つの第2のプロセッサ230は、複数の分類モデルの順序付けされたリストを生成し得る。順序付けされたリストは、推定された分類性能スコア324の降順に配列された複数の分類モデルを含むことができる(すなわち、最高の分類性能スコアを有する分類モデルがリストの最上部に配置され、最低の分類性能スコアを有する分類モデルがリストの最下部に配置される)。したがって、本開示の技法を使用して、推定された分類性能スコア324に基づいて、少なくとも1つの第1のデータセットについて最良の分類モデルが推奨され得る。
【0080】
本開示の1つの非限定的な実施形態において、少なくとも1つの第2のプロセッサ230は、アンサンブル分類モデル326を構築するために、順序付けられたリストから所定数(N)の上位分類モデルを選択することができる。モデル構築/分類フェーズ314において、少なくとも1つの第2のプロセッサ230は、少なくとも1つのラベル付けされたデータセットを使用して、最良のパラメータ設定を有するTOPN個の分類モデルのみを構築/訓練することができる。
【0081】
次いで、少なくとも1つの第2のプロセッサ230は、少なくとも1つのラベル付けされていないデータセットを受信することができる。少なくとも1つの第2のプロセッサ230は、少なくとも1つのラベル付けされていないデータセットを分類するために、又は少なくとも1つのラベル付けされていないデータセットのクラスラベルを予測するために、アンサンブル分類モデル326を使用することができる。クラスラベルを予測するために、少なくとも1つの第2のプロセッサ230は、TOPN個のクラス分類モデルを使用してクラスラベルの予測を生成することができ、少なくとも1つのラベル付けされていないデータセットのクラスラベルを予測するために、多数決、加重平均、及びモデルスタッキングのうちのいずれか1つを使用してそれらの出力を組み合わせることができる。
【0082】
したがって、本開示は、複数の分類モデルから1つ以上の分類モデルを自動的に選択及び推奨するためのメタ特徴としてクラスタリングインデックスを使用する技法について説明する。開示されたデータ分類及びモデル選択の技術は、時間効率がよく、必要な計算リソースが少ない。開示された技術は、データ分類の他の技術と比較してより高い精度を有する。
【0083】
本開示の1つの非限定的な実施形態において、ハイパーパラメータは、コンピューティングシステム120の挙動を制御する。ハイパーパラメータは、試行錯誤によって調整することができる。ハイパーパラメータの例は、クラスタの数及び訓練サブデータセットの数であってもよい。クラスタの数は、ほとんどのクラスタリングモデルにとって重要なパラメータである。クラスタの数は、最良の結果を与える値に設定され得る。同様に、訓練サブサンプルの数は、最良の結果を与える値に設定することができる。
【0084】
本開示の1つの非限定的な実施形態では、少なくとも1つの第2のプロセッサ230は、少なくとも1つの第1のデータセット160の分類複雑度を決定することができる。分類複雑度は、所与のデータセットに対して分類モデルを学習する難しさを示し得る。少なくとも1つの第2のプロセッサ230は、推定された分類性能スコアOPを所定の閾値と比較することができる。任意の推定された分類性能スコアの値が所定の閾値未満である場合、分類複雑度はより高く、少なくとも1つの第1のデータセット160は、学習することが困難である。一方、推定された分類性能スコアの全ての値が所定の閾値以上である場合、分類複雑度は低く、少なくとも1つの第1のデータセット160は学習が容易である。ここで、所定の閾値の値は、試行錯誤に基づいてもよいことに留意されたい。
【0085】
したがって、本開示は、分類モデル選択の前にモデルクラスに関する少なくとも1つの第1のデータセットの分類複雑度を推定することができ、分類問題を解決するために適切な分類モデルを選ぶことが比較的簡単になる。分類モデル選択のために大きな母集団で異なる分類モデルを評価することは面倒で時間がかかるので、これは大きなデータセットを扱う場合に特に有用である。
【0086】
本開示の1つの非限定的な実施形態では、提案される自動モデル分類技法は、サービスとして分類モデリングを提供するための自動機械学習プラットフォームに拡張され得る。特に、本開示の技法は、クラスタリングインデックスが分類モデル選択のためのデータ特性として使用され、高度な機械学習モデルを構築し得るサービスプラットフォームとして機械学習を提供し得る。機能的で、すぐに使えるサービスとしての機械学習(MLaaS)プラットフォームは、組織、開発者、及び研究者にとって、このパラダイムがどのように機能し、彼らのソリューションを構築するのに役立つかの学習曲線を調べるのに有益である。それは、高い計算及び人的リソースのコストから彼らを救う。
【0087】
MLaaSプラットフォームは、アプリケーションプログラミングインタフェース(API)又は展開可能なソリューションの形態でユーザに提供され得る。クライアントは、少なくとも1つの第1のデータセットをアップロードしてもよく、プラットフォームは、分類のためのクラスラベル又は推奨モデルをクライアントに提供してもよい。これは、追加の計算コストを節約し、ユーザ体験を向上させる。
【0088】
したがって、本開示の技法は、データのより高速な分類を行うことができ、(巨大なデータセットであっても)より正確なクラスラベルをリアルタイムで提供することができる。
【0089】
ここで
図4を参照すると、それは、本開示のいくつかの実施形態による、コンピューティングシステム110、120のブロック図を示す。本開示の1つの非限定的な実施形態では、コンピューティングシステム110、120は、
図4に示されるように、様々なインタフェース402、メモリ408、及び様々なユニット又は手段などの様々な他のハードウェア構成要素を備え得る。これらのユニットは、受信ユニット414と、処理ユニット416と、送信ユニット418と、関連付けユニット420と、推定ユニット422と、生成ユニット424と、選択ユニット426と、決定ユニット428と、様々な他のユニット430とを備え得る。他のユニット430は、表示ユニット、識別ユニット、マッピングユニットなどを含んでもよい。一実施形態では、ユニット414~430は、コンピューティングシステム110、120の様々な動作を実行するためにメモリ408に記憶された1つ以上の命令を実行することができる専用ハードウェアユニットであってもよい。別の実施形態では、ユニット414~430は、コンピューティングシステム110、120の動作を実行するために少なくとも1つのプロセッサ210、230によって実行され得る、メモリ408に記憶されたソフトウェアモジュールであり得る。
【0090】
インタフェース402は、様々なソフトウェア及びハードウェアインタフェース、例えば、ウェブインタフェース、グラフィカルユーザインタフェース、入力デバイス-出力デバイス(I/O)インタフェース406、ネットワークインタフェース404などを含むことができる。I/Oインタフェース406は、コンピューティングシステム110、120が他のコンピューティングシステムと直接又は他のデバイスを介して対話することを可能にすることができる。ネットワークインタフェース404は、コンピューティングシステム110、120が、1つ以上のデータソース130、140と直接又はネットワーク150を介して対話することを可能にすることができる。
【0091】
メモリ408は、1つ以上のデータセット410、及び他の様々なタイプのデータ412(1つ以上のクリーニングされたデータセット、1つ以上のクラスタインデックス、1つ以上のクラスタリングモデル、1つ以上の分類モデル、1つ以上の分類性能スコア、訓練及びテストの1つ以上のデータセットなど)を含むことができる。メモリ408は、少なくともプロセッサ210、230によって実行可能な1つ以上の命令をさらに記憶することができる。メモリ408は、メモリ240、260のいずれであってもよい。
【0092】
次に
図5を参照すると、本開示の一実施形態による、データ分類のための例示的な方法500を示すフローチャートが記載されている。方法500は、単に例示的な目的のために提供され、実施形態は、少なくとも1つのデータセットから少なくとも1つのパターンを生成するための任意の方法又は手順を含むか、又はさもなければカバーするように意図される。
【0093】
方法500は、ブロック502において、少なくとも1つの第1のデータセットを受信することを含み得る。少なくとも1つの第1のデータセットは、少なくとも1つのラベル付けされたデータセット及び少なくとも1つのラベル付けされていないデータセットを含んでもよく、少なくとも1つの第1のプロセッサ210から少なくとも1つの第2のプロセッサ230によって受信されてもよい。ブロック502の動作は、
図2の少なくとも1つの第2のプロセッサ230によって、又は
図4の受信ユニット414によって実行され得る。
【0094】
ブロック504において、方法500は、少なくとも1つのラベル付けされたデータセットから少なくとも1つの第1のメタ特徴を生成するために、少なくとも1つのラベル付けされたデータセットを処理することを含み得る。少なくとも1つの第1のメタ特徴は、少なくとも1つの第1のクラスタインデックスであり得る。例えば、少なくとも1つの第2のプロセッサ230は、少なくとも1つのラベル付けされたデータセットから少なくとも1つの第1のメタ特徴を生成するために、少なくとも1つのラベル付けされたデータセットを処理するように構成され得る。ブロック504の動作は、
図4の処理ユニット416によって実行されてもよい。
【0095】
本開示の1つの非限定的な実施形態では、ブロック504の動作、すなわち、少なくとも1つの第1のメタ特徴を生成するために少なくとも1つのラベル付けされたデータセットを処理することは、少なくとも1つのクリーニングされたデータセットを生成するために少なくとも1つのラベル付けされたデータセットを処理することと、1つ以上のクラスタを生成するために少なくとも1つのクラスタリングモデルを使用して少なくとも1つのクリーニングされたデータセットを処理することとを含み得る。例えば、
図2の少なくとも1つの第2のプロセッサ230又は
図4の処理ユニット416は、少なくとも1つのラベル付けされたデータセットを処理して少なくとも1つのクリーニングされたデータセットを生成し、少なくとも1つのクラスタリングモデルを使用して少なくとも1つのクリーニングされたデータセットを処理して1つ以上のクラスタを生成するように構成されてもよい。
【0096】
本開示の1つの非限定的な実施形態において、ブロック504の動作、すなわち、少なくとも1つの第1のメタ特徴を生成するために少なくとも1つのラベル付けされたデータセットを処理することは、1つ以上のクラスタを処理することによって多次元ベクトルを生成することをさらに含み得る。例えば、
図2の少なくとも1つの第2のプロセッサ230又は
図4の生成ユニット424は、1つ以上のクラスタを処理することによって多次元ベクトルを生成するように構成されてもよい。多次元ベクトルは、少なくとも1つの第1のメタ特徴を含んでもよい。
【0097】
ブロック506において、方法500は、少なくとも1つの第1のメタ特徴を予め構築されたモデルと関連付けることを含んでもよい。例えば、
図2の少なくとも1つの第2のプロセッサ230又は
図4の関連付けユニット420は、少なくとも1つの第1のメタ特徴を予め構築されたモデルと関連付けるように構成されてもよい。予め構築されたモデルは、複数の分類モデルを含んでもよい。予め構築されたモデルは、少なくとも1つの予め計算されたメタ特徴を、複数の分類モデルに対応する複数の予め計算された分類性能スコアにマッピングするための少なくとも1つのマッピング関数をさらに含んでもよい。
【0098】
ブロック508において、方法500は、少なくとも1つの第1のメタ特徴を予め構築されたモデルと関連付けることに基づいて、少なくとも1つのラベル付けされたデータセットについての複数の分類モデルの各々の分類性能スコアを推定することをさらに含んでもよい。例えば、
図2の少なくとも1つの第2のプロセッサ230又は
図4の推定ユニット422は、少なくとも1つの第1のメタ特徴を予め構築されたモデルと関連付けることに基づいて、少なくとも1つのラベル付けされたデータセットに対する複数の分類モデルの各々の分類性能スコアを推定するように構成されてもよい。
【0099】
ブロック510において、方法500は、推定された分類性能スコアの降順に並べられた複数の分類モデルを含むリストを生成することを含み得る。例えば、
図2の少なくとも1つの第2のプロセッサ230又は
図4の生成ユニット424は、推定された分類性能スコアの降順に並べられた複数の分類モデルを含むリストを生成するように構成されてもよい。
【0100】
ブロック512において、方法500は、リストから所定数の上位分類モデルを選択して、少なくとも1つのラベル付けされていないデータセットを分類するためのアンサンブル分類モデルを構築することを含んでもよい。例えば、
図2の少なくとも1つの第2のプロセッサ230又は
図4の選択ユニット426は、リストから所定数の上位分類モデルを選択して、少なくとも1つのラベル付けされていないデータセットを分類するためのアンサンブル分類モデルを構築するように構成され得る。
【0101】
本開示の1つの非限定的な実施形態では、少なくとも1つのラベル付けされていないデータセットを分類することは、アンサンブル分類モデルを使用して少なくとも1つのラベル付けされていないデータセットを処理して、多数決、加重平均、及びモデルスタッキングのうちの1つに基づいてクラスラベルを予測することをさらに含んでもよい。例えば、
図2の少なくとも1つの第2のプロセッサ230又は
図4の処理ユニット416は、アンサンブル分類モデルを使用して少なくとも1つのラベル付けされていないデータセットを処理して、多数決、加重平均、及びモデルスタッキングのうちの1つに基づいて、クラスラベルを予測するように構成され得る。
【0102】
ブロック514において、方法500は、推定された分類性能スコアを予め設定された閾値と比較することによって、少なくとも1つの第1のデータセットの分類複雑度を決定することを含み得る。例えば、
図2の少なくとも1つの第2のプロセッサ230又は
図4の決定ユニット428は、推定された分類性能スコアを予め設定された閾値と比較することによって、少なくとも1つの第1のデータセットの分類複雑度を決定するように構成されてもよい。
【0103】
次に
図6を参照すると、本開示の一実施形態による、予め構築されたモデル320を生成するための例示的な方法600を示すフローチャートが記載されている。方法600は、単に例示的な目的のために提供され、実施形態は、少なくとも1つのデータセットから少なくとも1つのパターンを生成するための任意の方法又は手順を含むか、又はさもなければカバーするように意図される。
【0104】
方法600は、ブロック602において、少なくとも1つの第2のデータセットを受信又は抽出することを含み得る。少なくとも1つの第2のデータセットは、少なくとも1つの第1のプロセッサ210から少なくとも1つの第2のプロセッサ230によって受信され得る。ブロック602の動作は、
図2の少なくとも1つの第2のプロセッサ230によって、又は
図4の受信ユニット414によって実行され得る。
【0105】
ブロック604において、方法600は、少なくとも1つの訓練サブデータセットを生成するために少なくとも1つの第2のデータセットを処理することを含み得る。例えば、
図2の少なくとも1つの第2のプロセッサ230又は
図4の処理ユニット416は、少なくとも1つの訓練サブデータセットを生成するために少なくとも1つの第2のデータセットを処理するように構成されてもよい。
【0106】
ブロック606において、方法600は、1つ以上のクラスタを生成するために、少なくとも1つのクラスタリングモデルを使用して少なくとも1つの訓練サブデータセットを処理することを含み得る。例えば、
図2の少なくとも1つの第2のプロセッサ230又は
図4の処理ユニット416は、少なくとも1つのクラスタリングモデルを使用して少なくとも1つの訓練サブデータセットを処理して、1つ以上のクラスタを生成するように構成されてもよい。
【0107】
ブロック608において、方法600は、1つ以上のクラスタを処理することによって多次元ベクトルを生成することを含み得る。例えば、
図2の少なくとも1つの第2のプロセッサ230又は
図4の生成ユニット424は、1つ以上のクラスタを処理することによって多次元ベクトルを生成するように構成されてもよい。多次元ベクトルは、少なくとも1つの訓練サブデータセットに対応する少なくとも1つの第2のメタ特徴を含む。少なくとも1つの第2のメタ特徴は、少なくとも1つの第2のクラスタインデックスであり得る。
【0108】
ブロック610において、方法600は、少なくとも1つの訓練サブデータセットを処理することによって、複数の分類モデルに対応する複数の分類性能スコアを生成することを含み得る。例えば、
図2の少なくとも1つの第2のプロセッサ230又は
図4の生成ユニット424は、少なくとも1つの訓練サブデータセットを処理することによって、複数の分類モデルに対応する複数の分類性能スコアを生成するように構成されてもよい。
【0109】
本開示の非限定的な実施形態では、ブロック610の動作、すなわち、複数の分類モデルに対応する複数の分類性能スコアを生成することは、複数の分類モデルに対応する1つ以上のハイパーパラメータを調整することによって、複数の分類モデルの各々について最良の分類性能スコアを生成することを含んでもよい。例えば、
図2の少なくとも1つの第2のプロセッサ230又は
図4の生成ユニット424は、複数の分類モデルに対応する1つ以上のハイパーパラメータを調整することによって、複数の分類モデルの各々について最良の分類性能スコアを生成するように構成され得る。
【0110】
ブロック612において、方法600は、生成された少なくとも1つの第2のメタ特徴を生成された複数の分類性能スコアと関連付けることによって、予め構築されたモデルを生成することを含み得る。例えば、
図2の少なくとも1つの第2のプロセッサ230又は
図4の生成ユニット424は、生成された少なくとも1つの第2のメタ特徴を生成された複数の分類性能スコアと関連付けることによって、予め構築されたモデルを生成するように構成されてもよい。少なくとも1つの第2のメタ特徴は、少なくとも1つの予め計算されたメタ特徴に対応することができ、複数の分類性能スコアは、複数の予め計算された分類性能スコアに対応することができる。
【0111】
上記の方法500、600は、コンピュータ実行可能命令の一般的な文脈で説明することができる。一般に、コンピュータ実行可能命令は、特定の機能を実行するか又は特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成情報、データ構造、手順、モジュール、及び関数を含むことができる。
【0112】
方法の様々な動作が説明される順序は、限定として解釈されることを意図されず、任意の数の説明された方法ブロックが、方法を実装するために任意の順序で組み合わされ得る。加えて、個々のブロックは、本明細書で説明される主題の精神及び範囲から逸脱することなく、方法から削除され得る。さらに、方法は、任意の適切なハードウェア、ソフトウェア、ファームウェア、又はそれらの組合せで実装され得る。
【0113】
上記で説明した方法の様々な動作は、対応する機能を実行することが可能な任意の好適な手段によって実行され得る。手段は、
図2のプロセッサ210、230及び
図4の様々なユニットを含むがこれらに限定されない、様々なハードウェア及び/又はソフトウェア構成要素及び/又はモジュールを含み得る。概して、図に示された動作がある場合、それらの動作は、対応するカウンターパートのミーンズプラスファンクション構成要素を有し得る。
【0114】
ここで、
図1~
図4を参照して説明されるいくつか又は全ての実施形態の主題は、方法に関連してもよく、簡潔にするために同じことが繰り返されないことに留意されたい。
【0115】
本開示の非限定的な実施形態では、1つ以上の非一時的コンピュータ可読媒体が、本開示と一致する実施形態を実装するために利用され得る。いくつかの態様は、本明細書で提示される動作を実行するためのコンピュータプログラム製品を備え得る。例えば、そのようなコンピュータプログラム製品は、本明細書で説明する動作を実行するために1つ以上のプロセッサによって実行可能である命令が記憶された(及び/又は符号化された)コンピュータ可読媒体を備え得る。いくつかの態様では、コンピュータプログラム製品はパッケージング材料を含み得る。
【0116】
様々な構成要素、モジュール、又はユニットが、開示される技法を実行するように構成されたデバイスの機能的態様を強調するために本開示で説明されるが、必ずしも異なるハードウェアユニットによる実現を必要とするとは限らない。むしろ、上記で説明したように、様々なユニットは、適切なソフトウェア及び/又はファームウェアとともに、上記で説明したような1つ以上のプロセッサを含む、ハードウェアユニットにおいて組み合わされるか、又は相互動作可能なハードウェアユニットの集合によって提供され得る。
【0117】
「含む(including)」、「備える(comprising)」、「有する(having)」という用語及びそれらの変形は、特に明記しない限り、「含むがそれに限定されない(including but not limited to)」を意味する。
【0118】
最後に、本明細書で使用される言語は、主に読みやすさ及び教示目的のために選択されたものであり、本発明の主題を描写又は制限するために選択されたものではない場合がある。したがって、技術の範囲は、この詳細な説明によって限定されるのではなく、むしろ、本明細書に基づく出願で発行するいずれかの特許請求の範囲によって限定されることが意図されている。したがって、様々な実施形態の開示は、以下の特許請求の範囲に記載される技術の範囲の、例示であるが限定ではないことが意図されている。
【国際調査報告】