(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023184419
(43)【公開日】2023-12-28
(54)【発明の名称】データ予測方法及び装置
(51)【国際特許分類】
G06N 20/00 20190101AFI20231221BHJP
G06F 18/2411 20230101ALI20231221BHJP
【FI】
G06N20/00
G06F18/2411
【審査請求】有
【請求項の数】5
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023027824
(22)【出願日】2023-02-24
(31)【優先権主張番号】63/352,644
(32)【優先日】2022-06-16
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】111137595
(32)【優先日】2022-10-03
(33)【優先権主張国・地域又は機関】TW
(71)【出願人】
【識別番号】504429600
【氏名又は名称】緯創資通股▲ふん▼有限公司
【氏名又は名称原語表記】WISTRON CORPORATION
(74)【代理人】
【識別番号】100204490
【弁理士】
【氏名又は名称】三上 葉子
(72)【発明者】
【氏名】何 宇軒
(72)【発明者】
【氏名】黄 ▲ぎょく▼文
(57)【要約】 (修正有)
【課題】予測データに最も類似するデータグループに対応する第1の機械学習モデルを検索して予測データを予測さし、機械学習の精度、感度及び特異性の向上を促進させるデータ予測方法及び装置を提供する。
【解決手段】データ予測方法は、予測データと複数のデータグループとの間の距離を決定し、複数の機械学習モデルから、予測データとの距離が最も短いデータグループに対応する第1の機械学習モデルを選択し、第1の機械学習モデルによって予測データを予測する。これらの機械学習モデルは、それぞれ異なるデータグループを使用してトレーニングされる。
【選択図】
図9
【特許請求の範囲】
【請求項1】
予測データと複数のデータグループとの間の複数の距離を決定することと、
複数の機械学習モデルから、前記予測データとの距離が最も短い前記データグループの1つに対応する第1の機械学習モデルを選択することと、
前記第1の機械学習モデルを使用して前記予測データに対応する予測結果を予測することであって、前記機械学習モデルは異なるデータグループに基づいてそれぞれトレーニングされることと、
を含むことを特徴とする、データ予測方法。
【請求項2】
複数の特徴セットに対して次元削減分析を実行して分析結果を取得することであって、各前記特徴セットのそれぞれは複数の特徴を含むことと、
前記分析結果に従って前記特徴セットを正規化して、複数の正規化された特徴セットを生成することと、
前記正規化された特徴セットの距離関係を生成することであって、前記距離関係は前記正規化された特徴セットの2つの間の距離を含むことと、
前記距離関係に従って前記特徴セットをクラスタリングして、前記データグループを生成することであって、各前記データグループは少なくとも1つの前記特徴セットを含むことと、
前記データグループを使用して、前記機械学習モデルをそれぞれトレーニングすることと、
をさらに含むことを特徴とする、請求項1に記載のデータ予測方法。
【請求項3】
前記次元削減分析は、主成分分析(PCA)または主座標分析(PCoA)であり、前記分析結果は複数の主成分の比率を含み、前記分析結果に従って前記特徴セットを正規化することは、
前記主成分から第1の主成分を選択することであって、前記第1の主成分は、前記主成分の中で最も比率が高い主成分であるか、前記第1の主成分は、前記主成分の中で最も高い比率を有する主成分若しくは前記主成分の中で2番目に高い比率を有する主成分であり、前記最も高い比率を有する主成分と前記2番目に高い比率を有する主成分との差は、閾値未満であることと、
前記第1の主成分に従って前記特徴セットを正規化することと、を含むこと、または、
前記距離関係は距離マトリックスであり、前記距離マトリックスの各要素は、2つの前記正規化された特徴セットの特徴間の距離であること、または
前記距離関係に従って前記特徴セットをクラスタリングすることは、
階層的クラスタリングにより、前記距離関係に従って、距離関係が最も小さい前記特徴セットを前記データグループの 1つにクラスタリングすることを含むこと、または、
前記データ予測方法は、
前記データグループのグループ番号を決定することと、
前記グループ番号に従ってクラスタ距離を決定することと、
前記クラスタ距離に従って前記特徴セットをクラスタリングすることと、
をさらに含むこと、
を特徴とする請求項2に記載のデータ予測方法。
【請求項4】
複数のセンシングデータを前記特徴セットに変換することであって、前記センシングデータは時間依存データであり、各前記センシングデータはレーダーのセンシング結果であることと、
各前記データグループに対応する前記特徴セットまたは前記センシングデータに基づいて、対応する機械学習モデルをトレーニングすることと、
をさらに含むことを特徴とする、請求項2に記載のデータ予測方法。
【請求項5】
プログラムコードを格納するメモリと、
予測データと複数のデータグループとの間の距離を決定することと、
複数の機械学習モデルから、前記予測データとの距離が最も短い前記データグループの1つに対応する第1の機械学習モデルを選択することと、
前記第1の機械学習モデルを使用して、前記予測データに対応する予測結果を予測することであって、前記機械学習モデルはそれぞれ異なるデータグループを使用してトレーニングされることと、
を実行するように前記プログラムコードをロードするプロセッサと、を備える
ことを特徴とする、データ予測装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ予測技術に関し、特に、機械学習のためのデータ予測方法及び装置に関する。
【背景技術】
【0002】
機械学習アルゴリズムは、大量のデータを分析してデータ内のパターンを推測することにより、未知のデータに関する予測を行うことができる。近年、機械学習は、画像認識、自然言語処理、結果予測、医療診断、エラー検出、または音声認識で広く使用されている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
これを考慮して、本発明の実施形態は、クラスタリングを通じてデータを予測して、予測精度を改善することができるデータ予測方法及び装置を提供する。
【課題を解決するための手段】
【0004】
本発明の実施形態のデータ予測方法は、機械学習に適しており、データ予測方法は、以下の動作を含む(ただし、これに限定されない)。予測データと複数のデータグループとの間の距離が決定される。複数の機械学習モデルから、予測データとの距離が最も短いデータグループに対応する機械学習モデルが選択される。予測データを予測するために、第1の機械学習モデルが使用される。機械学習モデルは、それぞれ異なるデータグループを使用してトレーニングされる。
【0005】
本発明の実施形態のデータ予測装置は、メモリ及びプロセッサを含む(ただし、これらに限定されない)。メモリは、プログラムコードを格納するために使用される。プロセッサはメモリに結合される。プロセッサは、プログラムコードをロードして次の動作を実行するように構成される。予測データと複数のデータグループとの間の距離が決定される。複数の機械学習モデルから、予測データとの距離が最も短いデータグループの1つに対応する第1の機械学習モデルが選択される。第1の機械学習モデルは、予測データを予測するために使用される。機械学習モデルは、それぞれ異なるデータグループを使用してトレーニングされる。
【発明の効果】
【0006】
以上より、本発明の実施形態のデータ予測方法及び装置によれば、予測データに最も類似するデータグループに対応する第1の機械学習モデルが検索され、予測データが予測される。これにより、機械学習の精度、感度、及び特異性の向上が促進される。
【0007】
上述した本発明の特徴及び利点を理解できるように、図面を伴う実施形態を以下で詳細に説明する。
【図面の簡単な説明】
【0008】
【
図1】本発明の一実施形態によるデータ予測装置のコンポーネントブロック図である。
【
図2】本発明の一実施形態によるデータ予測方法のフローチャートである。
【
図3】本発明の一実施形態による分析結果の概略図である。
【
図4】本発明の一実施形態による主成分の分布図である。
【
図5】本発明の一実施形態による階層的クラスタリング方法のクラスタリング概略図である。
【
図6】本発明の一実施形態による、第1のグループをそれぞれトレーニングした検証結果の概略図である。
【
図7】本発明の一実施形態による、第2のグループをそれぞれトレーニングした検証結果の概略図である。
【
図8】は、本発明の一実施形態による複数のグループの共同トレーニングの検証結果の概略図である。
【
図9】本発明の一実施形態によるデータ予測のフローチャートである。
【発明を実施するための形態】
【0009】
図1は、本発明の一実施形態によるデータ予測装置10のコンポーネントブロック図である。
図1を参照すると、データ予測装置10は、メモリ11及びプロセッサ12を含む(ただし、これらに限定されない)。データ予測装置10は、携帯電話、タブレット型パソコン、ノート型パソコン、デスクトップ型パソコン、音声アシスタント機器、スマート家電、ウェアラブル機器、車載機器、その他の電子機器であってもよい。
【0010】
メモリ11は、任意のタイプの固定または可動ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、フラッシュメモリ、従来のハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、または同様のコンポーネントであってよい。一実施形態では、メモリ11は、プログラムコード、ソフトウェアモジュール、構成、データ、またはファイル(例えば、データ、モデル、または機能)を格納するために使用され、これらは後続の実施形態で詳細に説明される。
【0011】
プロセッサ12は、メモリ11に結合される。プロセッサ12は、中央処理装置(Central Processing Unit,CPU)、グラフィックス処理装置(Graphic Processing unit,GPU)、またはその他のプログラマブル汎用または専用マイクロプロセッサ(Microprocessor)、デジタル信号プロセッサ(Digital Signal Processor,DSP)、プログラマブルコントローラ、フィールドプログラマブルゲート アレイ(Field Programmable Gate Array,FPGA)、特定用途向け集積回路(Application-Specific Integrated Circuit,ASIC)、ニューラルネットワークアクセラレータ、またはその他類似のコンポーネント、またはそれらのコンポーネントの組み合わせであってよい。一実施形態では、プロセッサ12は、データ予測装置10の動作のすべてまたは一部を実行するために使用され、メモリ11に格納された各プログラムコード、ソフトウェアモジュール、ファイル、及びデータをロードして実行することができる。本発明の実施形態の方法におけるいくつかの動作は、異なるまたは同じプロセッサ12によって実施されてよい。
【0012】
一実施形態では、データ予測装置10は、センサ15をさらに含む。プロセッサ12は、センサ15に結合される。例えば、センサ15は、USB、サンダーボルト、Wi‐Fi、ブルートゥース(登録商標)、または他の有線または無線通信技術を介してプロセッサ12に接続される。別の例として、データ予測装置10は、内蔵センサ15を有する。センサ15は、レーダー、マイクロフォン、温度センサ、湿度センサ、画像センサ、モーションセンサ、または他のタイプのセンサであってよい。一実施形態では、センサ15は、センシングデータを取得するためのセンシングに使用される。一実施形態では、センシングデータは時間依存データである。 つまり、時系列、連続時間、または複数の時点で記録されたデータである。例えば、センシングデータは、センシング結果(例えば、同相直交信号)、オーディオ信号、またはレーダーの連続画像である。
【0013】
以下、本発明の実施形態による方法を、データ予測装置10内の様々な装置、構成要素、及びモジュールと併せて説明する。この方法の各プロセスは、実装に応じて調整することができ、これに限定されるものではない。
【0014】
図2は、本発明の一実施形態によるデータ予測方法のフローチャートである。
図2を参照すると、プロセッサ12は、複数の特徴セットに対して次元削減分析を実行し、分析結果を得る(ステップS201)。具体的には、各特徴セットには1以上の特徴が含まれる。特徴のタイプは、センサ15のセンシングデータのタイプに応じて異なってよい。レーダーのIQ信号を例にとると、特徴は、異なるチャネル間の分散(variance)であってもよいし、波形に関連していてもよい。別の例では、特徴は、音響特徴におけるゼロ交差率(zero-crossing rate、ZCR)、ピッチ、またはメル周波数ケプストラム係数(Mel frequency cepstral coefficients、MFCC)であってもよい。
【0015】
一実施形態では、プロセッサ12は、複数のセンシングデータを特徴セットに変換することができる。例えば、IQ信号は、異なるチャネルまたは波形間の分散に関連する特徴に変換される。別の例では、音声信号は、ZCR、ピッチ、または MFCCに変換される。
【0016】
例えば、表1は、レーダーの IQ センシングデータである。
【0017】
【0018】
プロセッサ12は、表1のセンシングデータをマトリックス形式に再形成することができる。例えば、マトリックスは300x500のマトリックスで、その要素はIまたはQデータである。
【0019】
別の実施形態では、プロセッサ12は、通信トランシーバ(図示せず)を介して、外部のコンピューティング装置によって生成された外部センサまたは特徴セットのセンシングデータをダウンロードまたは受信することができる。
【0020】
異なる特徴セットは、異なる被験者または異なるターゲットのセンシングデータに対応してもよい。例えば、第1の特徴セットは第1の被験者のセンシングデータから変換され、第2の特徴セットは第2の被験者のセンシングデータから変換される。代替として、異なる特徴セットは、同じ被験者または同じターゲットの、異なる時間または異なる環境におけるセンシングデータに対応してもよい。例えば、第3の特徴セットは、第1の期間における第3の被験者のセンシングデータに対応し、第4の特徴セットは、第2の期間における第3の被験者のセンシングデータに対応する。
【0021】
一実施形態では、プロセッサ12は、1つまたは複数の特徴セットをマークすることができる。例えば、呼吸低下、覚醒、無呼吸などのイベントがマークされる。しかしながら、マークされるコンテンツは、特徴のタイプによって依然として異なってもよく、本発明の実施形態は限定されない。
【0022】
次元削減分析は、特徴を削減するために使用される。つまり、各特徴は1つの次元と見なされ、次元を削減すると特徴も削減される。一実施形態では、次元削減分析は、主成分分析(PCA)または主座標分析(PCoA)である。PCAの場合、直交変換を使用して、一連の潜在的に相関する変数の観測値(この実施形態では特徴)を線形変換し、それによってそれらを一連の線形に相関しない変数値に射影する。これらの相関のない変数は、主成分と呼ばれる。つまり、主要な要素と構造を複数の特徴から見つけることができる。PCAとは異なり、PCoAは、異なる距離アルゴリズムによって取得された観測値の距離マトリックス(2つの観測値間の差/距離の記録)の射影である。さらに、PCoAは距離マトリックスの主要な座標を見つける。
【0023】
分析結果は、主成分とその比率、または主座標とその比率であってよい。比率とは、主成分または主座標を指す。例えば、
図3は、本発明の一実施形態による分析結果の概略図である。
図3を参照すると、センシングデータは連続波(CW)レーダーを通じてセンシングされた睡眠データであり、対応するマークされた検証データは、ポリソムノグラフィー(PSG)によって生成されたデータであると仮定する。比較の被験者は、低呼吸、覚醒、無呼吸などの睡眠イベントである。つまり、レーダーを使用して睡眠イベントを予測する。この実施形態は、32人の被験者からのデータを使用して分析されたものである。32人の被験者のレーダーデータを特徴に変換した後、PCA/PCoA処理を行い、
図3に示される主成分の構成が得られる。分析結果には、PC1からPC11までの主成分とその比率が含まれる。主成分PC1の比率が最も高い。
【0024】
他の実施形態では、次元削減分析は、線形判別分析(linear discriminant analysis、LDA)、tt分布型確率的近傍埋め込み法(t-distributed stochastic neighbor embedding、t-SNE)、または他の次元削減であってよい。分析結果には、削減された特徴または次元とその比率が含まれる。
【0025】
図2を参照すると、プロセッサ12は、分析結果に従って特徴セットを正規化し、複数の正規化された特徴セットを生成することができる(ステップS220)。具体的には、正規化とは、スケーリングされた値が特定の区間([0,1]または[0,10]等)に収まるように特徴の値をスケーリングすることである。つまり、特徴セット内の各特徴の値は、特定の区間に収まるようにスケーリングされる。
【0026】
一実施形態では、プロセッサ12は、複数の主成分から1つまたは複数の第1の主成分を選択し、第1の主成分に従って特徴セットを正規化する。例えば、プロセッサ12は、区間の最大値と最小値を設定し、互いの基準点が一致するように各主成分に対して正規化を行う。
【0027】
一実施形態では、第1の主成分は、主成分の中で最も高い比率を有する主成分である。例えば、
図3の主成分PC1の比率は、他の主成分PC2からPC11のそれよりもはるかに高いので、主成分PC1は、その後の正規化のために選択され得る。
【0028】
別の実施形態では、第1の主成分は、主成分の中で最も高い比率を有する主成分または2番目に高い比率を有する主成分である。全ての成分の中で、最も高い比率を有する主成分と比率が2番目に高い比率を有する主成分との差は、閾値未満である(例えば、閾値は3%、5%、または10%であってよい)。例えば、比率が最も高い主成分と比率が2番目に高い主成分の差が5%以内であれば、2番目に比率が高い主成分も考慮して一緒に選択する。比率が最も高い主成分との差が閾値未満である他の比率ランキングの主成分がある場合、そのような主成分も後続の正規化で考慮される。
【0029】
一実施形態では、プロセッサ12は、パーセンタイル変換(Percentile transformation)、すなわち、特徴値をランキングに変換することによって、特徴セットをランク付けすることができる。たとえば、表2は特徴の特徴セットである。
【0030】
【0031】
表2を変換したランキングが表3である。
【0032】
【0033】
図4は、本発明の一実施形態による主成分の分布図である。
図4を参照すると、横軸は番号順に並べられた特徴であり、縦軸は異なる被験者の数である。異なる被験者は異なる特徴を有する。例えば、番号5 と番号10の被験者の17番目と18番目の特徴(つまり、図の異なるグレースケールで表される重要度)のパフォーマンスは、他の被験者のパフォーマンスとは異なる。
【0034】
図2を参照すると、プロセッサ12は、正規化された特徴セットの距離関係を生成する(ステップS230)。 具体的には、距離関係には、正規化された特徴セットの2つの間の距離が含まれる。プロセッサ12は、正規化された特徴セット内の特徴を同じ空間に射影して座標を形成し、異なる正規化された特徴セットの特徴間の空間距離(すなわち、2つの座標間の距離)を計算することができる。
【0035】
一実施形態では、距離関係は距離マトリックスであり、距離マトリックスの各要素は、2つの正規化された特徴セットの特徴間の距離である。距離アルゴリズムは、ユークリッド距離、コサイン類似度、または KL発散(Kullback-Leibler divergence)であってよい。例えば、第1の正規化された特徴セットは [1.5,2.2]であり、第2の正規化された特徴セットは [0.1,1.6]であり、第3の正規化された特徴セットは [5.7,4.3] である。距離マトリックスは[1.52,4.7,6.22]であり、ユークリッド距離アルゴリズムを例にとると、(1.5-0.1)^2+(2.2-1.6)^2 の平方根は1.52 となり、その他も同様である。
【0036】
距離関係はマトリックス形式に限定されない。他の実施形態では、距離関係は、比較表、数学的変換式、または異なる特徴セット間の距離を記録する他の関係であってもよい。
【0037】
図2を参照すると、プロセッサ12は、距離関係に従って特徴セットをクラスタリングして、複数のデータグループを生成する(ステップS240)。具体的には、各データグループには、1つまたは複数の特徴セットが含まれる。異なる特徴セット間の類似度は、距離関係から知ることができる。クラスタリングとは、類似度の高い複数の特徴セットを同じデータグループに割り当てることである。クラスタリング方法は、k-meansクラスタリング(K-Means Clustering)、階層的クラスタリング(Hierarchical Clustering)、またはファジィクラスタリング方法(Fuzzy clustering)であってもよい。
【0038】
例えば、
図5は、本発明の一実施形態による階層的クラスタリング方法のクラスタリングの概略図である。
図5を参照すると、各特徴セット番号は、特徴セット(例えば、被験者)に対応する。プロセッサ12は、階層的クラスタリングを使用して、最も近い特徴セットをデータグループの1つにクラスタリングする。特徴セットは、番号28と16の間の2つのグループ(例えば、番号16と28の被験者に対応する特徴セット)に分割することができる。なお、最も近いとは、距離閾値との比較結果をいう。2つの特徴セット間の距離が距離閾値よりも小さい場合、最も近い2つの特徴セットと見なされる。それ以外の場合、近接していない2つの特徴セットと見なされる。
【0039】
一実施形態では、プロセッサ12は、データグループのグループ番号を決定し、グループ番号に従ってクラスタ距離を決定し、クラスタ距離に従って特徴セットをクラスタリングすることができる。
図5を例とすると、グループ番号が2の場合、クラスタ距離は60である。番号が5、12、11、27、19、23、30、3、及び 28の特徴セット間の距離(例えば、被験者番号5、12、11、27、19、23、30、3、及び28に対応する特徴セット)は60以内であるため、それらは全て同じデータグループに割り当てられる。グループ番号が3の場合、クラスタ距離は50である。番号16、24、10、15、及び29の特徴セット間の距離は50以内であるため、それらは全て同じデータグループに割り当てられる。
【0040】
図2を参照すると、プロセッサ12は、データグループをそれぞれ使用して、複数の機械学習モデルをトレーニングする(ステップS250)。具体的には、クラスタリング結果を取得した後、各データグループを他のデータグループとは別にトレーニングすることができる。機械学習モデルは、それぞれ異なるデータグループを使用してそれぞれトレーニングされる。プロセッサ12は、各データグループに対応する特徴セット(すなわち、センシングデータから変換された特徴セット)または変換されていないセンシングデータを使用して、対応する機械学習モデルをトレーニングすることができる。例えば、第1の機械学習モデルは、第1のデータグループの特徴セットを使用してトレーニングされ、第2の機械学習モデルは、第2のデータグループの特徴セットを使用してトレーニングされる。第1のデータグループは、第2の機械学習モデルのトレーニングには使用されない。さらに、機械学習アルゴリズムは、深層学習、決定木、再帰型ニューラルネットワーク(Recurrent Neural Network、RNN)、またはその他のアルゴリズムであってよい。
【0041】
以下の検証結果は、本発明の実施形態のクラスタトレーニングが機械学習のトレーニングを容易にすることを証明し得る。
【0042】
図6は、本発明の一実施形態による、第1のグループをそれぞれトレーニングした検証結果の概略図である。
図7は、本発明の一実施形態による、第2のグループをそれぞれトレーニングした検証結果の概略図である。
図8は、本発明の一実施形態による、複数のグループの共同トレーニングの検証結果の概略図である。
図6、
図7、及び
図8において、精度は、各機械学習モデルによって得られた複数の予測結果と実際の結果との正確率である。感度は、実際に陽性であるサンプルのうち、陽性であると判断されたサンプルの比率である。特異度とは、実際に陰性であるサンプルのうち、陰性であると判断されたサンプルの比率である。
【0043】
図6は、
図5で番号5、12、11、27、19、23、30、3、及び28が付された特徴セット(例えば、番号5、12、11、27、19、23、30、3、及び28の被験者に対応する特徴セットまたは生のセンシングデータ)を使用してトレーニングされた検証結果である。
図7は、
図5のその他の特徴セット(例えば、番号 5、12、11、27、19、23、30、3、及び28の被験者以外の被験者に対応する特徴セットまたは生のセンシングデータ)を使用してトレーニングされた検証結果である。
図8は、
図5の全ての特徴セット(例えば、すべての被験者または生のセンシングデータに対応する特徴セット)を使用して共同トレーニングされた検証結果である。クラスタートレーニング(
図6、
図7に対応)は、共同トレーニング(
図8に対応)よりも精度、感度、特異度において優れている。精度を例にとると、共同トレーニングの下で、
図8に示される精度は、約0.7に収束する。一方、クラスタトレーニングの下では、
図6及び
図7に示される精度は、0.7以上に収束し得る。同じデータグループのみの
図6の精度は、約 0.9に収束することさえあり得る。
【0044】
トレーニングの最適化に加えて、本発明の実施形態は、モデル予測を最適化することができる。
図9は、本発明の一実施形態によるデータ予測のフローチャートである。
図9を参照すると、プロセッサ12は、予測データとデータグループとの間の距離を決定することができる(ステップS910)。具体的には、プロセッサ12は、最初に予測データを取得してもよい。予測データについては、前掲のセンシングデータの説明を参照することができ、ここでは説明を繰り返さない。必要に応じて、プロセッサ12は、予測データを予測特徴セットに変換する。 特徴変換の説明は、前掲のセンシングデータの特徴セットへの変換を参照することができ、ここでは説明を繰り返さない。次に、プロセッサ12は、予測特徴セットとデータグループとの間の距離を決定する。
【0045】
例えば、第1のデータグループの代表値(例えば、平均値、中央値、またはその他の統計値) は、[8.16, 9.8, 3.7, 15.54, 2.74, 4.04, 16.82, 4.56, 21, 11.88, 12.78 ,11.1, 9.54, 7.22, 7.24, 18.34, 17.04, 4.24, 20, 12.1, 13.16]であり、第2 のデータグループの代表値は、[4.61, 6.42, 9.95, 5.7, 4, 6.61, 2.85, 10.28, 21, 15.85, 14.66, 12.047, 8.28, 10.38, 9.95, 18.85, 16.42, 3.57, 20, 13.33, 16.09]であり、予測特徴セットは[10, 13, 6, 16, 2, 3, 17, 5, 21, 9, 15, 12, 8, 7, 4, 19, 18, 1, 20, 11, 14]である。ユークリッド距離を例に取ると、予測特徴セットと第1のデータグループの間の距離が7.855の場合、予測特徴セットと第2のデータグループの間の距離は23.495である。
【0046】
プロセッサ12は、複数の機械学習モデルから予測データとの距離が最も短いデータグループに対応する第1の機械学習モデルを選択し(ステップS920)、第1の機械学習モデルを使用して予測データを予測してもよい(ステップS930)。例えば、7.855は23.495より小さいため、予測特徴セットとの距離が最も短いデータグループが第1のデータグループである。プロセッサ12は、第1のデータグループの第1の機械学習モデルをロードし、ロードされた第1の機械学習モデルに予測データを入力して、予測結果を予測することができる。予測データがレーダーのセンシング結果を例にとると、予測結果は睡眠イベントであってよい。ただし、予測結果は実際の需要に応じて変更され得る。
【0047】
なお、一実施形態では、複数のデータグループと予測データとの間の距離が距離の下限より小さいか距離の上限より大きいという事実に応答して、これらのデータ グループの機械学習モデルの全てが予測対象のデータの結果を予測するために選択され得る。別の実施形態では、データグループと予測データとの間の距離が同じである、または距離が所定の値より小さいという事実に応答して、プロセッサ12は、予測のためにデータグループによって共同トレーニングされた機械学習モデルをロードすることができる。
【0048】
まとめると、本発明の実施形態によるデータ予測方法及び装置では、特徴セットは、次元削減の結果に従って正規化され、さらにクラスタリングされる。次に、それぞれ異なるデータグループを使用して異なる機械学習モデルをトレーニングする。さらに、類似した距離を有するデータグループに対応する機械学習モデルが予測のために選択される。これにより、トレーニング及び予測の効果が向上する。
【0049】
以上、実施形態を参照しながら本発明を詳細に説明したが、これらは本発明を限定するものではない。 当業者は、本発明の精神及び範囲から逸脱することなく、変更及び修正を行うことが可能であることを理解すべきである。 したがって、開示の保護範囲は、以下の特許請求の範囲によって定義されるものとする。
【産業上の利用可能性】
【0050】
本発明のデータ予測方法及び装置は、データ予測技術の分野に適用することができる。
【符号の説明】
【0051】
10: データ予測装置
11: メモリ
12: プロセッサ
15: センサ
PC1~PC11: 主成分
S201~S250, S910~S930: ステップ
【外国語明細書】