特表2023-537193 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エルアンドティー　テクノロジー　サービシズ　リミテッドの特許一覧

特表2023-537193クラスタを表現するためにサンプルを選択する方法およびシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-08-31

(54)【発明の名称】クラスタを表現するためにサンプルを選択する方法およびシステム

(51)【国際特許分類】

G06F 16/906 20190101AFI20230824BHJP

【ＦＩ】

G06F16/906

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2022578769

(86)(22)【出願日】2022-03-15

(85)【翻訳文提出日】2023-02-13

(86)【国際出願番号】 IB2022052333

(87)【国際公開番号】W WO2022269368

(87)【国際公開日】2022-12-29

(31)【優先権主張番号】202141028706

(32)【優先日】2021-06-25

(33)【優先権主張国・地域又は機関】IN

(81)【指定国・地域】

(71)【出願人】

【識別番号】520412811

【氏名又は名称】エルアンドティーテクノロジーサービシズリミテッド

(74)【代理人】

【識別番号】110002365

【氏名又は名称】弁理士法人サンネクスト国際特許事務所

(72)【発明者】

【氏名】ダス，イシタ

(72)【発明者】

【氏名】シン，マドゥスダン

(72)【発明者】

【氏名】バララマン，ムリダル

(72)【発明者】

【氏名】デブナス，スカント

(72)【発明者】

【氏名】グプタ，ムリナル

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175FA03

5B175FB04

(57)【要約】

クラスタを表現するためにサンプルを選択する方法が開示される。方法は、最適化デバイスによって、１つまたは複数のクラスタを受信することを含んでもよい。１つまたは複数のクラスタのそれぞれは、複数のサンプルを含む。方法は、１つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントを決定してもよく、１つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列を生成してもよい。方法は、クラスタの複数のサンプルを、クラスタ内の複数のサンプルのばらつきの度合いに基づいて、ソートしてもよい。ソートすることは、１つまたは複数のクラスタのそれぞれについてのアレイベースの距離行列を使用して実施してもよい。さらに、方法は、クラスタを表現するために、サンプルの数の決定されたカウントを、複数のクラスタのそれぞれの、ソートされた複数のサンプルから選択してもよい。
【選択図】図３

【特許請求の範囲】

【請求項1】

クラスタを表現するためにサンプルを選択する方法であって、
最適化デバイスによって、それぞれが複数のサンプルを備える１つまたは複数のクラスタを受信し、
前記最適化デバイスによって、前記１つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントを決定し、
前記最適化デバイスによって、前記１つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列を生成し、
前記最適化デバイスによって、前記クラスタの前記複数のサンプルを、前記クラスタ内の前記複数のサンプルのばらつきの度合いに基づいて、前記１つまたは複数のクラスタのそれぞれについての前記アレイベースの距離行列を使用して、ソートし、
前記最適化デバイスによって、前記クラスタを表現するために、サンプルの数の前記決定されたカウントを、前記複数のクラスタのそれぞれの、前記ソートされた複数のサンプルから選択する、
方法。

【請求項2】

前記サンプルの数の前記選択された決定されたカウントがしきい値未満である場合、前記サンプルの数の所定のカウントを、前記１つまたは複数のクラスタのそれぞれから選択し、前記しきい値が、各データセットに特有であり、クラスタのサイズを前記データセットと比較することによって決定される、
請求項１に記載の方法。

【請求項3】

前記１つまたは複数のクラスタのそれぞれから選択されるサンプルの数の前記カウントが、前記１つまたは複数のクラスタのそれぞれについてのサイズ、ばらつき、およびクラスタ確率のうちの少なくとも１つに基づいて、層化サンプリング技法を使用して、決定される、
請求項１に記載の方法。

【請求項4】

前記クラスタ確率が、機械学習（ＭＬ）モデルを使用して決定され、前記ＭＬモデルが、前記クラスタの前記複数のサンプルを分類する、
請求項３に記載の方法。

【請求項5】

下記を行なうように構成された１つまたは複数のコンピューティングデバイスを備える、
最適化デバイスによって、それぞれが複数のサンプルを備える１つまたは複数のクラスタを受信する、
前記最適化デバイスによって、前記１つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントを決定する、
前記最適化デバイスによって、前記１つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列を生成する、
前記最適化デバイスによって、前記クラスタの前記複数のサンプルを、前記クラスタ内の前記複数のサンプルのばらつきの度合いに基づいて、前記１つまたは複数のクラスタのそれぞれについての前記アレイベースの距離行列を使用して、ソートする、および、
前記最適化デバイスによって、前記クラスタを表現するために、サンプルの数の前記決定されたカウントを、前記複数のクラスタのそれぞれの、前記ソートされた複数のサンプルから選択する、
システム。

【請求項6】

前記サンプルの数の前記選択された決定されたカウントがしきい値未満である場合、前記サンプルの数の所定のカウントを、前記１つまたは複数のクラスタのそれぞれから選択し、前記しきい値が、各データセットに特有であり、クラスタのサイズを前記データセットと比較することによって決定される、
請求項５に記載のシステム。

【請求項7】

前記１つまたは複数のクラスタのそれぞれから選択されるサンプルの数の前記カウントが、１つまたは複数のクラスタのそれぞれについてのサイズ、ばらつき、およびクラスタ確率のうちの少なくとも１つに基づいて、層化サンプリング技法を使用して、決定される、
請求項５に記載のシステム。

【請求項8】

前記クラスタ確率が、機械学習（ＭＬ）モデルを使用して決定され、前記ＭＬモデルが、前記クラスタの前記複数のサンプルを分類する、
請求項７に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、一般に、データセットのサイズを小さくすることに関し、より詳細には、データセットのサイズを小さくするためのクラスタを表現するために複数のサンプルを選択することに関する。

【背景技術】

【0002】

情報爆発を伴うビッグデータの時代では、データ処理に関連するビジネス要件が、日々高まっており、処理対象のデータサンプルは、益々複雑化している。データのクラスタリングは、システムのエンジニアリングおよび計算科学において極めて重要な分野であり、教師無し学習を使用して、ラベル付けされたデータを伴わずに機械学習モデルを訓練する。クラスタリングアルゴリズムは、自身の一意な特徴を有するいくつかのクラスタに、データを分割する。時には、これらのクラスタ自身が、膨大な数のサンプルを有する。ラベル付けされていないデータが利用可能となるのは、高い次元、また線形に分離不可能なデータ空間であり、そのことにより、機械学習モデルの処理および訓練の間、大きなメモリチャンクおよび時間を消費する。

【発明の概要】

【0003】

したがって、当分野では、機械学習モデルの効果的でリソース効率の良い訓練のために、クラスタ内のサンプルの総数のカウントを低減することによって、データセットのサイズを小さくするための方法およびシステムを提供する必要性がある。

【0004】

【0005】

本開示に組み込まれ、その一部を成す添付の図面は、例示の実施形態を図示しており、説明と併せて、開示される原理を説明するよう機能する。

【図面の簡単な説明】

【0006】

【図1】本開示の実施形態による、１つまたは複数のクラスタから複数のデータサンプルを選択するためのプロセス図である。

【図2】本開示のいくつかの実施形態による、１つまたは複数のクラスタから複数のデータサンプルをソートして選択するためのプロセス図である。

【図3】本開示のいくつかの実施形態による、クラスタを表現するためにサンプルを選択する方法のフローチャートである。

【発明を実施するための形態】

【0007】

例示的な実施形態を、添付の図面を参照して説明する。同一または類似の部分を参照するために、好都合であればいつでも、図面を通じて同一の参照符号を使用する。本明細書では開示される原理の例および特徴が説明されるが、開示される実施形態の思想および範囲から逸脱することなく、修正、適合、および他の実装が可能である。以下の詳細な説明は、単なる例として考えられ、真の範囲および思想は、後に続く特許請求の範囲によって示されることが意図されている。追加的な例示の実施形態を以降に列挙する。

【0008】

理解されるように、クラスタリングアルゴリズムは、自身の一意な特徴を有するいくつかのクラスタに、データを分割する。時には、これらのクラスタ自身が、膨大な数のサンプルを有する。本開示は、クラスタに固有なばらつき、性質をカバーする、限られた数のサンプルを用いてクラスタを表現することができる解決策を提供する。このやり方で、アルゴリズムは、さらなるプロセスのためにデータセット全体を使用するために依存性を低減し、それにより、大きなデータセットを用いて作業する際のメモリおよび時間の複雑さを制限する。アルゴリズムはまた、クラスタのサイズが小さい場合に、ユーザが必要なサンプル数をクラスタから選択できるようにする、柔軟なものである。

【0009】

さらには、プロセスは、均質なクラスタからでも、一意なサンプルを選択することができるよう確実にする。

【0010】

図１を参照すると、本開示の実施形態による、１つまたは複数のクラスタから複数のデータサンプルを選択するためのプロセス１００が図示される。

【0011】

ステップ１０２では、データセットは、１つまたは複数の異なるクラスタにクラスタ化されてもよい。クラスタリングは、同じように見え、類似の特徴を有するデータセットが、特定のクラスタ内に一緒に保持されることを確実にするよう実施されてもよい。

【0012】

ステップ１０４では、複数のデータサンプルのうち、いくつのデータサンプルを、１つまたは複数の異なる作成済クラスタのうちの１つのクラスタから選択することができるかを決定することができる。

【0013】

いくつのデータサンプルが選択されるかを決定するために、最適な割り当てのための、層化サンプリングメカニズムが使用されてもよい。層化サンプリングメカニズムは、複数のデータサンプルを考慮することができる。複数のデータサンプルのそれぞれは、均質なグループ（つまり、類似の特徴を有する複数のデータサンプルのそれぞれを一緒に格納することができる、クラスタ）に分割することができる。決定は、複数の類似して見えるサンプルの中から、いくつのサンプルが選択され得るかに関する場合がある。ステップ１０６では、データサンプルのうち、どれを、１つまたは複数の異なるクラスタから選択することができるかを決定することができる。層化サンプリングメカニズムは、特定の均質なデータグループのうちの１つを選択してもよく、特定の計算に基づいて１つまたは複数のデータサンプルをランダムに選択してもよい。

【0014】

ステップ１０８では、所与のクラスタについて、下で言及する式を用いて、Ｎ_ｉ個のサンプルをクラスタから選択することができる：

【数1】

ただし、ｗ_ｉは、ｉ番目のクラスタ内に存在するデータサンプルの数であり、
Ｓ_ｉは、クラスタ内のデータサンプルのばらつきであり、
Ｃ_ｉは、平均のクラスタ確率であり、
Ｃ_０は、定数である。

【0015】

式（１）は、式（２）のように、簡単にすることができる。

【数2】

【0016】

式（２）では、クラスタのサイズとばらつきを考慮してもよい。

【0017】

クラスタ内に存在する複数のデータサンプル同士を区別するために機械学習モデルが利用可能であり、また所与のセットの特徴に基づいて複数のデータサンプル同士の区別の正確なレベルを予測することができる事例では、機械学習モデルから導かれる学習を利用して、クラスタ確率を考慮することによって、いくつのデータサンプルをクラスタから選択することができるかを決定することができる。区別のレベルに関する学習が、利用可能な機械学習モデルのいずれからも利用可能ではない場合、クラスタ確率パラメータは、データサンプルの数の選択を決定するための重み付けが、あまり与えられない場合がある。

【0018】

ステップ１０６では、どのデータサンプルが選択されるかに関する決定が実施されてもよい。一般的に、データサンプルは、利用可能なランダム選択メカニズムのいずれかに基づいて、ランダムに選択され得る。しかしながら、選択されたデータサンプルがクラスタ全体を表現するべく、クラスタのばらつきの度合いを最大化するために、距離ベースの選択メカニズムが、ステップ１１０で利用されてもよい。距離ベースの選択メカニズムでは、クラスタ内に存在するアレイベースで最適化された距離が利用されてもよい。距離行列は、例えば、ユークリッドベースの距離行列またはマンハッタンベースの距離行列であってもよい。さらに、データサンプルは、その距離に基づいて、つまり、ばらつきの最大化に基づいてソートされてもよい。

【0019】

ステップ１１６では、１つまたは複数のクラスタの、クラスタのそれぞれにおいて、式（２）を使用して、「ｎ_ｉ」個のデータサンプルが選択されてもよい。さらに、「ｎ_ｉ」個のデータサンプルを選択する手順は、データセットの１つまたは複数のクラスタのクラスタすべてについて繰り返すことができる。具体的なシナリオでは、クラスタから選択された、ある数のデータサンプルが最小限である場合、プロセス１００は、１つまたは複数のクラスタのそれぞれから、サンプルの数の所定のカウントを選択してもよい。これは、サンプルの数の選択された決定されたカウントが、しきい値未満である場合に行なわれ得る。ステップ１１８では、合計「ｎ」個のデータサンプルが、１つまたは複数のクラスタのそれぞれから選択され、それにより、データセットのサイズを小さくする。

【0020】

次に図２を参照すると、本開示のいくつかの実施形態による、１つまたは複数のクラスタからの複数のデータサンプルをソートして選択するためのプロセス２００が図示される。

【0021】

ステップ２０４では、１つまたは複数のクラスタのうち、１つのクラスタから第１のデータサンプルが選択されてもよい。ステップ２０６では、第１の選択されたサンプルから最も遠い、第２のデータサンプルが選択されてもよい。ステップ２０８では、第１のデータサンプルと第２のサンプルは、データセット内に維持されてもよい。ステップ２１０では、第３のデータサンプルが選択されてもよい。第３のデータサンプルの選択は、ステップ２１６において、あるメカニズムにしたがって実施され、データセットの外部から、例えば第３のデータサンプルから、ランダムなサンプルが選択される。データセットの外部のデータサンプルに関して、データセットのデータサンプルの距離を、決定することができる。例えば、第３のデータサンプルの距離は、データセットの第１のデータサンプルに関して「ｄ１３」として、およびデータセットの第２のデータサンプルに関して「ｄ２３」として決定されてもよい。

【0022】

距離「ｄ１３」と距離「ｄ２３」の距離のうち、小さいほうを選択することができる。小さいほうの距離とは、例えば図２で図示されるような「ｄ１３」である。さらに、データセットの外部に存在するデータサンプルのすべてについて、距離をチェックして最小距離を選択する、上で言及したステップが決定されてもよい。例えば、データセットの外部の別のデータサンプルは、第４のデータサンプルであってもよく、決定される距離は、例えば、データセットの第１のデータサンプルから第４のデータサンプルまで、「ｄ１４」として、およびデータセットの第２のデータサンプルからの「ｄ２４」としてであってもよい。

【0023】

続いて、決定される距離の最小を、例えば「ｄ１３」および「ｄ２４」として決定することができる。次に、最小の決定された距離からの最大距離、例えば「ｄ１３」が選択される。最終的に、データサンプル、例えば最大距離に対応する第３のサンプル、例えば「ｄ１３」が選択されてもよく、データセットに挿入されてもよい。

【0024】

層化サンプリングメカニズムを使用することによって、および、ばらつきの最大化に基づいてクラスタ内でデータサンプルをソートすることによって、ステップ２１２では、「ｎ_ｉ」個のサンプルを、１つまたは複数のクラスタのクラスタから選択することができ、それによって、選択されたサンプルは一意であり、そのクラスタのばらつき全体をカバーすることができる。

【0025】

ステップ２１４では、上述のステップ２０４～２１２は、１つまたは複数のクラスタの、クラスタのそれぞれについて繰り返され、データセットの性質を保った新しい縮小データセットを作成することができる。

【0026】

例示の実施形態では、手書きのアルファベットのデータセットがあると仮定する。データセットでは、アルファベット「ａ」は、様々なユーザによって、イタリック体、ボールド体、異なるフォントサイズで、または筆記体など、異なった形で書かれ得る。さらに、アルファベットは、アルファベットが「ａ」、「ｂ」、「ｃ」などのアルファベットのカテゴリに存在するかどうかに基づいてクラスタ化され得る。アルファベット「ａ」のクラスタからの複数のデータサンプルを検討する。アルファベット「ａ」のクラスタでは、イタリック体の「ａ」は、数が少ないものとする。例えば、５０Ｋデータサンプルを有するデータセット中、５Ｋデータサンプルだけが、アルファベット「ａ」のイタリック体を表現する場合があり、故に５０Ｋデータサンプル内で、イタリック体の「ａ」の一意性を表現し得る。一意なイタリック体「ａ」は、データサンプルを配列してソートするために使用されてもよい。したがって、５０Ｋサンプルから、５Ｋサンプルが、アルファベット「ａ」のイタリック体を表現するために使用することができると結論付けることができる。さらに、これらの表現される５Ｋサンプルのうち、どれが選ばれるかは、クラスタ内でのデータサンプルのばらつきの最大化に基づいたソーティングメカニズムによって決定されてもよい。

【0027】

次に図３を参照すると、実施形態による、クラスタを表現するためにサンプルを選択する方法３００のフローチャートが図示される。ステップ３０２では、１つまたは複数のクラスタが受信される。１つまたは複数のクラスタのそれぞれは、複数のサンプルを含んでもよい。

【0028】

ステップ３０４では、１つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントが決定されてもよい。１つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントは、１つまたは複数のクラスタのそれぞれについてのサイズ、ばらつき、およびクラスタ確率のうちの少なくとも１つに基づいて、層化サンプリング技法を使用して、決定されてもよい。クラスタ確率は、機械学習（ＭＬ）モデルを使用して決定されてもよく、ＭＬモデルは、クラスタの複数のサンプルを分類する。訓練無しのＭＬモデルの事例では、各クラスタは、等しい確率を割振られることに留意されたい。

【0029】

ステップ３０６では、１つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列が生成されてもよい。例えば、アレイベースの距離行列は、ユークリッド距離行列であってもよい。ステップ３０８では、クラスタの複数のサンプルは、クラスタ内の複数のサンプルのばらつきの度合いに基づいて、１つまたは複数のクラスタのそれぞれについてのアレイベースの距離行列を使用して、ソートすることができる。

【0030】

ステップ３１０では、クラスタを表現するために、サンプルの数の決定されたカウントを、複数のクラスタのそれぞれの、ソートされた複数のサンプルから選択してもよい。加えて、いくつかの実施形態では、サンプルの数の選択された決定されたカウントがしきい値未満である場合、サンプルの数の所定のカウントは、１つまたは複数のクラスタのそれぞれから選択されてもよい。

【0031】

１つまたは複数のコンピュータ可読記憶媒体は、本開示と一貫性のある実施形態を実装する際に利用される。コンピュータ可読記憶媒体とは、プロセッサによって可読な情報またはデータを記憶することができる、あらゆるタイプの物理メモリを称する。故に、コンピュータ可読記憶媒体は、本明細書で説明される実施形態と一貫性のあるステップまたは工程をプロセッサに実行させるための命令を含む、１つまたは複数のプロセッサによる実行のための命令を記憶する。「コンピュータ可読媒体」という用語は、有形物を含み、搬送波および一過性の信号を含まない、つまり非一時的であると理解されるべきである。例としては、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、揮発性メモリ、非揮発性メモリ、ハードドライブ、ＣＤＲＯＭ、ＤＶＤ、フラッシュドライブ、ディスク、およびあらゆる他の既知の物理的な記憶媒体が挙げられる。

【0032】

明確にするために、上述のことは、本開示の実施形態を、異なる機能的なユニットおよびプロセッサに関して説明したものであることを諒解されたい。しかしながら、異なる機能的なユニット、プロセッサ、またはドメイン間での機能性のあらゆる好適な分散が、本開示から逸脱することなく使用され得ることが明らかとなろう。

【0033】

例えば、別個のプロセッサまたはコントローラによって実施されるよう図示される機能性は、同一のプロセッサまたはコントローラによって実施されてもよい。したがって、特定の機能的なユニットへの参照は、厳密な論理的または物理的な構造または編成を示すのではなく、説明される機能性を提供するための好適な手段への参照として考えられるに過ぎない。

【0034】

いくつかの実施形態に関連して本開示を説明したが、本開示は、本明細書で説明した特定の形態に限定されるよう意図されていない。そうではなく、本開示の範囲は、特許請求の範囲によってのみ制限される。加えて、特徴は、特定の実施形態に関連して説明されるように見えるかもしれないが、当業者であれば、説明される実施形態の様々な特徴は、本開示にしたがって組み合わせることができることを認識されよう。

【0035】

さらには、個々に列挙されているが、複数の手段、要素、またはプロセスのステップは、例えば単一のユニットまたはプロセッサによって実装されてもよい。加えて、個々の特徴が、異なる請求項に含まれる場合があるが、これらは、可能であれば有利に組み合わされてもよく、異なる請求項に含まれることは、特徴の組み合わせが、実行可能ではない、および／または有利ではないということを意味するものではない。また、特徴が、請求項の１つのカテゴリに含まれることは、このカテゴリへの限定することを意味するものではなく、むしろ、適当であれば特徴は他の請求項カテゴリに等しく適用可能であり得る。

【図1】

【図2】

【図3】

【手続補正書】

【提出日】2022-08-16

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

クラスタを表現するためにサンプルを選択する方法であって、
最適化デバイスによって、それぞれが複数のサンプルを備える１つまたは複数のクラスタを受信し（３０６）、
前記最適化デバイスによって、前記１つまたは複数のクラスタのそれぞれについてのサイズ、ばらつき、およびクラスタ確率のうちの少なくとも１つに基づいて、層化サンプリング技法を使用して、前記１つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントを決定し（３０４）、
前記最適化デバイスによって、前記１つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列を生成し（３０６）、
前記最適化デバイスによって、前記クラスタの前記複数のサンプルを、前記クラスタ内の前記複数のサンプルのばらつきの度合いに基づいて、前記１つまたは複数のクラスタのそれぞれについての前記アレイベースの距離行列を使用して、ソートし（３０８）、
前記最適化デバイスによって、前記クラスタを表現するために、サンプルの数の前記決定されたカウントを（３１０）、前記複数のクラスタのそれぞれの、前記ソートされた複数のサンプルから選択する、
方法。

【請求項2】

【請求項3】

前記クラスタ確率が、機械学習（ＭＬ）モデルを使用して決定され、前記ＭＬモデルが、前記クラスタの前記複数のサンプルを分類する、
請求項１に記載の方法。

【請求項4】

下記を行なうように構成された１つまたは複数のコンピューティングデバイスを備える、
最適化デバイスによって、それぞれが複数のサンプルを備える１つまたは複数のクラスタを受信する、
前記最適化デバイスによって、前記１つまたは複数のクラスタのそれぞれについてのサイズ、ばらつき、およびクラスタ確率のうちの少なくとも１つに基づいて、層化サンプリング技法を使用して、前記１つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントを決定する、
前記最適化デバイスによって、前記１つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列を生成する、
前記最適化デバイスによって、前記クラスタの前記複数のサンプルを、前記クラスタ内の前記複数のサンプルのばらつきの度合いに基づいて、前記１つまたは複数のクラスタのそれぞれについての前記アレイベースの距離行列を使用して、ソートする、および、
前記最適化デバイスによって、前記クラスタを表現するために、サンプルの数の前記決定されたカウントを、前記複数のクラスタのそれぞれの、前記ソートされた複数のサンプルから選択する、
システム。

【請求項5】

前記サンプルの数の前記選択された決定されたカウントがしきい値未満である場合、前記サンプルの数の所定のカウントを、前記１つまたは複数のクラスタのそれぞれから選択し、前記しきい値が、各データセットに特有であり、クラスタのサイズを前記データセットと比較することによって決定される、
請求項４に記載のシステム。

【請求項6】

前記クラスタ確率が、機械学習（ＭＬ）モデルを使用して決定され、前記ＭＬモデルが、前記クラスタの前記複数のサンプルを分類する、
請求項４に記載のシステム。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版