特許7561477 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 緯創資通股▲ふん▼有限公司の特許一覧

特許7561477データ予測方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-26

(45)【発行日】2024-10-04

(54)【発明の名称】データ予測方法及び装置

(51)【国際特許分類】

G06N 20/00 20190101AFI20240927BHJP

G06F 18/2411 20230101ALI20240927BHJP

【ＦＩ】

G06N20/00

G06F18/2411

【請求項の数】 5

【外国語出願】

(21)【出願番号】P 2023027824

(22)【出願日】2023-02-24

(65)【公開番号】P2023184419

(43)【公開日】2023-12-28

【審査請求日】2023-02-24

(31)【優先権主張番号】63/352,644

(32)【優先日】2022-06-16

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】111137595

(32)【優先日】2022-10-03

(33)【優先権主張国・地域又は機関】TW

(73)【特許権者】

【識別番号】504429600

【氏名又は名称】緯創資通股▲ふん▼有限公司

【氏名又は名称原語表記】ＷＩＳＴＲＯＮＣＯＲＰＯＲＡＴＩＯＮ

(74)【代理人】

【識別番号】100204490

【弁理士】

【氏名又は名称】三上葉子

(72)【発明者】

【氏名】何宇軒

(72)【発明者】

【氏名】黄 ▲ぎょく▼文

【審査官】渡辺順哉

(56)【参考文献】

【文献】特開２０２１－０７１８１８（ＪＰ，Ａ）

【文献】特許第６４７４９４６（ＪＰ，Ｂ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ２０／００－２０／２０

Ｇ０６Ｆ９／４４５

Ｇ０６Ｆ１８／００

Ｇ０６Ｆ１２３／０２

(57)【特許請求の範囲】

【請求項1】

プロセッサによって実行されるデータ予測方法であって、
複数の特徴セットに対して次元削減分析を実行して分析結果を取得することであって、前記複数の特徴セットのそれぞれは少なくとも一つの特徴を含むことと、
前記分析結果に従って前記複数の特徴セットをクラスタリングして、複数のデータグループを生成することであって、前記複数のデータグループのそれぞれは前記複数の特徴セットの少なくとも１つを含むことと、
前記複数のデータグループを使用して、複数の機械学習モデルをそれぞれトレーニングすることと、
予測データと前記データグループとの間の複数の距離を決定することと、
前記機械学習モデルから、前記予測データとの距離が最も短い前記データグループの１つに対応する第１の機械学習モデルを選択することと、
前記第１の機械学習モデルを使用して前記予測データに対応する予測結果を予測することであって、前記機械学習モデルは異なるデータグループに基づいてそれぞれトレーニングされることと、
を含むことを特徴とする、データ予測方法。

【請求項2】

前記分析結果に従って前記複数の特徴セットを正規化して、複数の正規化された特徴セットを生成することと、
前記複数の正規化された特徴セットの距離関係を生成することであって、前記距離関係は前記複数の正規化された特徴セットの２つの間の距離を含むことと、
前記距離関係に従って前記複数の特徴セットをクラスタリングして、前記複数のデータグループを生成することと、
をさらに含むことを特徴とする、請求項１に記載のデータ予測方法。

【請求項3】

前記次元削減分析は、主成分分析（ＰＣＡ）または主座標分析（ＰＣｏＡ）であり、前記分析結果は複数の主成分の比率を含み、前記分析結果に従って前記特徴セットを正規化することは、
前記主成分から第１の主成分を選択することであって、前記第１の主成分は、前記主成分の中で最も比率が高い主成分であるか、前記第１の主成分は、前記主成分の中で最も高い比率を有する主成分若しくは前記主成分の中で２番目に高い比率を有する主成分であり、前記最も高い比率を有する主成分と前記２番目に高い比率を有する主成分との差は、閾値未満であることと、
前記第１の主成分に従って前記特徴セットを正規化することと、を含むこと、または、
前記距離関係は距離マトリックスであり、前記距離マトリックスの各要素は、２つの前記正規化された特徴セットの特徴間の距離であること、または
前記距離関係に従って前記特徴セットをクラスタリングすることは、
階層的クラスタリングにより、前記距離関係に従って、距離関係が最も小さい前記特徴セットを前記データグループの１つにクラスタリングすることを含むこと、または、
前記データ予測方法は、
前記データグループのグループ番号を決定することと、
前記グループ番号に従ってクラスタ距離を決定することと、
前記クラスタ距離に従って前記特徴セットをクラスタリングすることと、
をさらに含むこと、
を特徴とする請求項２に記載のデータ予測方法。

【請求項4】

複数のセンシングデータを前記特徴セットに変換することであって、前記センシングデータは時間依存データであり、各前記センシングデータはレーダーのセンシング結果であることと、
各前記データグループに対応する前記特徴セットまたは前記センシングデータに基づいて、対応する機械学習モデルをトレーニングすることと、
をさらに含むことを特徴とする、請求項２に記載のデータ予測方法。

【請求項5】

プログラムコードを格納するメモリと、
複数の特徴セットに対して次元削減分析を実行して分析結果を取得することであって、前記複数の特徴セットのそれぞれは少なくとも一つの特徴を含むことと、
前記分析結果に従って前記複数の特徴セットをクラスタリングして、複数のデータグループを生成することであって、前記複数のデータグループのそれぞれは前記複数の特徴セットの少なくとも１つを含むことと、
前記複数のデータグループを使用して、複数の機械学習モデルをそれぞれトレーニングすることと、
予測データと前記データグループとの間の距離を決定することと、
前記機械学習モデルから、前記予測データとの距離が最も短い前記データグループの１つに対応する第１の機械学習モデルを選択することと、
前記第１の機械学習モデルを使用して、前記予測データに対応する予測結果を予測することであって、前記機械学習モデルはそれぞれ異なるデータグループを使用してトレーニングされることと、
を実行するように前記プログラムコードをロードするプロセッサと、を備える
ことを特徴とする、データ予測装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データ予測技術に関し、特に、機械学習のためのデータ予測方法及び装置に関する。

【背景技術】

【0002】

機械学習アルゴリズムは、大量のデータを分析してデータ内のパターンを推測することにより、未知のデータに関する予測を行うことができる。近年、機械学習は、画像認識、自然言語処理、結果予測、医療診断、エラー検出、または音声認識で広く使用されている。

【発明の概要】

【発明が解決しようとする課題】

【0003】

これを考慮して、本発明の実施形態は、クラスタリングを通じてデータを予測して、予測精度を改善することができるデータ予測方法及び装置を提供する。

【課題を解決するための手段】

【0004】

本発明の実施形態のデータ予測方法は、機械学習に適しており、データ予測方法は、以下の動作を含む（ただし、これに限定されない）。予測データと複数のデータグループとの間の距離が決定される。複数の機械学習モデルから、予測データとの距離が最も短いデータグループに対応する機械学習モデルが選択される。予測データを予測するために、第１の機械学習モデルが使用される。機械学習モデルは、それぞれ異なるデータグループを使用してトレーニングされる。

【0005】

本発明の実施形態のデータ予測装置は、メモリ及びプロセッサを含む（ただし、これらに限定されない）。メモリは、プログラムコードを格納するために使用される。プロセッサはメモリに結合される。プロセッサは、プログラムコードをロードして次の動作を実行するように構成される。予測データと複数のデータグループとの間の距離が決定される。複数の機械学習モデルから、予測データとの距離が最も短いデータグループの１つに対応する第１の機械学習モデルが選択される。第１の機械学習モデルは、予測データを予測するために使用される。機械学習モデルは、それぞれ異なるデータグループを使用してトレーニングされる。

【発明の効果】

【0006】

以上より、本発明の実施形態のデータ予測方法及び装置によれば、予測データに最も類似するデータグループに対応する第１の機械学習モデルが検索され、予測データが予測される。これにより、機械学習の精度、感度、及び特異性の向上が促進される。

【0007】

上述した本発明の特徴及び利点を理解できるように、図面を伴う実施形態を以下で詳細に説明する。

【図面の簡単な説明】

【0008】

【図1】本発明の一実施形態によるデータ予測装置のコンポーネントブロック図である。

【図2】本発明の一実施形態によるデータ予測方法のフローチャートである。

【図3】本発明の一実施形態による分析結果の概略図である。

【図4】本発明の一実施形態による主成分の分布図である。

【図5】本発明の一実施形態による階層的クラスタリング方法のクラスタリング概略図である。

【図6】本発明の一実施形態による、第１のグループをそれぞれトレーニングした検証結果の概略図である。

【図7】本発明の一実施形態による、第２のグループをそれぞれトレーニングした検証結果の概略図である。

【図8】は、本発明の一実施形態による複数のグループの共同トレーニングの検証結果の概略図である。

【図9】本発明の一実施形態によるデータ予測のフローチャートである。

【発明を実施するための形態】

【0009】

図１は、本発明の一実施形態によるデータ予測装置１０のコンポーネントブロック図である。図１を参照すると、データ予測装置１０は、メモリ１１及びプロセッサ１２を含む（ただし、これらに限定されない）。データ予測装置１０は、携帯電話、タブレット型パソコン、ノート型パソコン、デスクトップ型パソコン、音声アシスタント機器、スマート家電、ウェアラブル機器、車載機器、その他の電子機器であってもよい。

【0010】

メモリ１１は、任意のタイプの固定または可動ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、フラッシュメモリ、従来のハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、または同様のコンポーネントであってよい。一実施形態では、メモリ１１は、プログラムコード、ソフトウェアモジュール、構成、データ、またはファイル（例えば、データ、モデル、または機能）を格納するために使用され、これらは後続の実施形態で詳細に説明される。

【0011】

プロセッサ１２は、メモリ１１に結合される。プロセッサ１２は、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，ＣＰＵ）、グラフィックス処理装置（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇｕｎｉｔ，ＧＰＵ）、またはその他のプログラマブル汎用または専用マイクロプロセッサ（Ｍｉｃｒｏｐｒｏｃｅｓｓｏｒ）、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ，ＤＳＰ）、プログラマブルコントローラ、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ，ＦＰＧＡ）、特定用途向け集積回路（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ，ＡＳＩＣ）、ニューラルネットワークアクセラレータ、またはその他類似のコンポーネント、またはそれらのコンポーネントの組み合わせであってよい。一実施形態では、プロセッサ１２は、データ予測装置１０の動作のすべてまたは一部を実行するために使用され、メモリ１１に格納された各プログラムコード、ソフトウェアモジュール、ファイル、及びデータをロードして実行することができる。本発明の実施形態の方法におけるいくつかの動作は、異なるまたは同じプロセッサ１２によって実施されてよい。

【0012】

一実施形態では、データ予測装置１０は、センサ１５をさらに含む。プロセッサ１２は、センサ１５に結合される。例えば、センサ１５は、ＵＳＢ、サンダーボルト、Ｗｉ‐Ｆｉ、ブルートゥース（登録商標）、または他の有線または無線通信技術を介してプロセッサ１２に接続される。別の例として、データ予測装置１０は、内蔵センサ１５を有する。センサ１５は、レーダー、マイクロフォン、温度センサ、湿度センサ、画像センサ、モーションセンサ、または他のタイプのセンサであってよい。一実施形態では、センサ１５は、センシングデータを取得するためのセンシングに使用される。一実施形態では、センシングデータは時間依存データである。つまり、時系列、連続時間、または複数の時点で記録されたデータである。例えば、センシングデータは、センシング結果（例えば、同相直交信号）、オーディオ信号、またはレーダーの連続画像である。

【0013】

以下、本発明の実施形態による方法を、データ予測装置１０内の様々な装置、構成要素、及びモジュールと併せて説明する。この方法の各プロセスは、実装に応じて調整することができ、これに限定されるものではない。

【0014】

図２は、本発明の一実施形態によるデータ予測方法のフローチャートである。図２を参照すると、プロセッサ１２は、複数の特徴セットに対して次元削減分析を実行し、分析結果を得る（ステップＳ２０１）。具体的には、各特徴セットには１以上の特徴が含まれる。特徴のタイプは、センサ１５のセンシングデータのタイプに応じて異なってよい。レーダーのＩＱ信号を例にとると、特徴は、異なるチャネル間の分散（variance）であってもよいし、波形に関連していてもよい。別の例では、特徴は、音響特徴におけるゼロ交差率（ｚｅｒｏ－ｃｒｏｓｓｉｎｇｒａｔｅ、ＺＣＲ）、ピッチ、またはメル周波数ケプストラム係数（Ｍｅｌｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔｓ、ＭＦＣＣ）であってもよい。

【0015】

一実施形態では、プロセッサ１２は、複数のセンシングデータを特徴セットに変換することができる。例えば、ＩＱ信号は、異なるチャネルまたは波形間の分散に関連する特徴に変換される。別の例では、音声信号は、ＺＣＲ、ピッチ、またはＭＦＣＣに変換される。

【0016】

例えば、表１は、レーダーのＩＱセンシングデータである。

【0017】

【表1】

【0018】

プロセッサ１２は、表１のセンシングデータをマトリックス形式に再形成することができる。例えば、マトリックスは３００ｘ５００のマトリックスで、その要素はＩまたはＱデータである。

【0019】

別の実施形態では、プロセッサ１２は、通信トランシーバ（図示せず）を介して、外部のコンピューティング装置によって生成された外部センサまたは特徴セットのセンシングデータをダウンロードまたは受信することができる。

【0020】

異なる特徴セットは、異なる被験者または異なるターゲットのセンシングデータに対応してもよい。例えば、第１の特徴セットは第１の被験者のセンシングデータから変換され、第２の特徴セットは第２の被験者のセンシングデータから変換される。代替として、異なる特徴セットは、同じ被験者または同じターゲットの、異なる時間または異なる環境におけるセンシングデータに対応してもよい。例えば、第３の特徴セットは、第１の期間における第３の被験者のセンシングデータに対応し、第４の特徴セットは、第２の期間における第３の被験者のセンシングデータに対応する。

【0021】

一実施形態では、プロセッサ１２は、１つまたは複数の特徴セットをマークすることができる。例えば、呼吸低下、覚醒、無呼吸などのイベントがマークされる。しかしながら、マークされるコンテンツは、特徴のタイプによって依然として異なってもよく、本発明の実施形態は限定されない。

【0022】

次元削減分析は、特徴を削減するために使用される。つまり、各特徴は１つの次元と見なされ、次元を削減すると特徴も削減される。一実施形態では、次元削減分析は、主成分分析（ＰＣＡ）または主座標分析（ＰＣｏＡ）である。ＰＣＡの場合、直交変換を使用して、一連の潜在的に相関する変数の観測値（この実施形態では特徴）を線形変換し、それによってそれらを一連の線形に相関しない変数値に射影する。これらの相関のない変数は、主成分と呼ばれる。つまり、主要な要素と構造を複数の特徴から見つけることができる。ＰＣＡとは異なり、ＰＣｏＡは、異なる距離アルゴリズムによって取得された観測値の距離マトリックス（２つの観測値間の差／距離の記録）の射影である。さらに、ＰＣｏＡは距離マトリックスの主要な座標を見つける。

【0023】

分析結果は、主成分とその比率、または主座標とその比率であってよい。比率とは、主成分または主座標を指す。例えば、図３は、本発明の一実施形態による分析結果の概略図である。図３を参照すると、センシングデータは連続波（ＣＷ）レーダーを通じてセンシングされた睡眠データであり、対応するマークされた検証データは、ポリソムノグラフィー（ＰＳＧ）によって生成されたデータであると仮定する。比較の被験者は、低呼吸、覚醒、無呼吸などの睡眠イベントである。つまり、レーダーを使用して睡眠イベントを予測する。この実施形態は、３２人の被験者からのデータを使用して分析されたものである。３２人の被験者のレーダーデータを特徴に変換した後、ＰＣＡ／ＰＣｏＡ処理を行い、図３に示される主成分の構成が得られる。分析結果には、ＰＣ１からＰＣ１１までの主成分とその比率が含まれる。主成分ＰＣ１の比率が最も高い。

【0024】

他の実施形態では、次元削減分析は、線形判別分析（ｌｉｎｅａｒｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓ、ＬＤＡ）、ｔｔ分布型確率的近傍埋め込み法（ｔ－ｄｉｓｔｒｉｂｕｔｅｄｓｔｏｃｈａｓｔｉｃｎｅｉｇｈｂｏｒｅｍｂｅｄｄｉｎｇ、ｔ－ＳＮＥ）、または他の次元削減であってよい。分析結果には、削減された特徴または次元とその比率が含まれる。

【0025】

図２を参照すると、プロセッサ１２は、分析結果に従って特徴セットを正規化し、複数の正規化された特徴セットを生成することができる（ステップＳ２２０）。具体的には、正規化とは、スケーリングされた値が特定の区間（［０，１］または［０，１０］等）に収まるように特徴の値をスケーリングすることである。つまり、特徴セット内の各特徴の値は、特定の区間に収まるようにスケーリングされる。

【0026】

一実施形態では、プロセッサ１２は、複数の主成分から１つまたは複数の第１の主成分を選択し、第１の主成分に従って特徴セットを正規化する。例えば、プロセッサ１２は、区間の最大値と最小値を設定し、互いの基準点が一致するように各主成分に対して正規化を行う。

【0027】

一実施形態では、第１の主成分は、主成分の中で最も高い比率を有する主成分である。例えば、図３の主成分ＰＣ１の比率は、他の主成分ＰＣ２からＰＣ１１のそれよりもはるかに高いので、主成分ＰＣ１は、その後の正規化のために選択され得る。

【0028】

別の実施形態では、第１の主成分は、主成分の中で最も高い比率を有する主成分または２番目に高い比率を有する主成分である。全ての成分の中で、最も高い比率を有する主成分と比率が２番目に高い比率を有する主成分との差は、閾値未満である（例えば、閾値は３％、５％、または１０％であってよい）。例えば、比率が最も高い主成分と比率が２番目に高い主成分の差が５％以内であれば、２番目に比率が高い主成分も考慮して一緒に選択する。比率が最も高い主成分との差が閾値未満である他の比率ランキングの主成分がある場合、そのような主成分も後続の正規化で考慮される。

【0029】

一実施形態では、プロセッサ１２は、パーセンタイル変換（Ｐｅｒｃｅｎｔｉｌｅｔｒａｎｓｆｏｒｍａｔｉｏｎ）、すなわち、特徴値をランキングに変換することによって、特徴セットをランク付けすることができる。たとえば、表２は特徴の特徴セットである。

【0030】

【表2】

【0031】

表２を変換したランキングが表３である。

【0032】

【表3】

【0033】

図４は、本発明の一実施形態による主成分の分布図である。図４を参照すると、横軸は番号順に並べられた特徴であり、縦軸は異なる被験者の数である。異なる被験者は異なる特徴を有する。例えば、番号５と番号１０の被験者の１７番目と１８番目の特徴（つまり、図の異なるグレースケールで表される重要度）のパフォーマンスは、他の被験者のパフォーマンスとは異なる。

【0034】

図２を参照すると、プロセッサ１２は、正規化された特徴セットの距離関係を生成する（ステップＳ２３０）。具体的には、距離関係には、正規化された特徴セットの２つの間の距離が含まれる。プロセッサ１２は、正規化された特徴セット内の特徴を同じ空間に射影して座標を形成し、異なる正規化された特徴セットの特徴間の空間距離（すなわち、２つの座標間の距離）を計算することができる。

【0035】

一実施形態では、距離関係は距離マトリックスであり、距離マトリックスの各要素は、２つの正規化された特徴セットの特徴間の距離である。距離アルゴリズムは、ユークリッド距離、コサイン類似度、またはＫＬ発散（Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒｄｉｖｅｒｇｅｎｃｅ）であってよい。例えば、第１の正規化された特徴セットは［１．５，２．２］であり、第２の正規化された特徴セットは［０．１，１．６］であり、第３の正規化された特徴セットは［５．７，４．３］である。距離マトリックスは［１．５２，４．７，６．２２］であり、ユークリッド距離アルゴリズムを例にとると、（１．５－０．１）＾２＋（２．２－１．６）＾２の平方根は１．５２となり、その他も同様である。

【0036】

距離関係はマトリックス形式に限定されない。他の実施形態では、距離関係は、比較表、数学的変換式、または異なる特徴セット間の距離を記録する他の関係であってもよい。

【0037】

図２を参照すると、プロセッサ１２は、距離関係に従って特徴セットをクラスタリングして、複数のデータグループを生成する（ステップＳ２４０）。具体的には、各データグループには、１つまたは複数の特徴セットが含まれる。異なる特徴セット間の類似度は、距離関係から知ることができる。クラスタリングとは、類似度の高い複数の特徴セットを同じデータグループに割り当てることである。クラスタリング方法は、ｋ－ｍｅａｎｓクラスタリング（Ｋ－ＭｅａｎｓＣｌｕｓｔｅｒｉｎｇ）、階層的クラスタリング（ＨｉｅｒａｒｃｈｉｃａｌＣｌｕｓｔｅｒｉｎｇ）、またはファジィクラスタリング方法（Ｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇ）であってもよい。

【0038】

例えば、図５は、本発明の一実施形態による階層的クラスタリング方法のクラスタリングの概略図である。図５を参照すると、各特徴セット番号は、特徴セット（例えば、被験者）に対応する。プロセッサ１２は、階層的クラスタリングを使用して、最も近い特徴セットをデータグループの１つにクラスタリングする。特徴セットは、番号２８と１６の間の２つのグループ（例えば、番号１６と２８の被験者に対応する特徴セット）に分割することができる。なお、最も近いとは、距離閾値との比較結果をいう。２つの特徴セット間の距離が距離閾値よりも小さい場合、最も近い２つの特徴セットと見なされる。それ以外の場合、近接していない２つの特徴セットと見なされる。

【0039】

一実施形態では、プロセッサ１２は、データグループのグループ番号を決定し、グループ番号に従ってクラスタ距離を決定し、クラスタ距離に従って特徴セットをクラスタリングすることができる。図５を例とすると、グループ番号が２の場合、クラスタ距離は６０である。番号が５、１２、１１、２７、１９、２３、３０、３、及び２８の特徴セット間の距離（例えば、被験者番号５、１２、１１、２７、１９、２３、３０、３、及び２８に対応する特徴セット）は６０以内であるため、それらは全て同じデータグループに割り当てられる。グループ番号が３の場合、クラスタ距離は５０である。番号１６、２４、１０、１５、及び２９の特徴セット間の距離は５０以内であるため、それらは全て同じデータグループに割り当てられる。

【0040】

図２を参照すると、プロセッサ１２は、データグループをそれぞれ使用して、複数の機械学習モデルをトレーニングする（ステップＳ２５０）。具体的には、クラスタリング結果を取得した後、各データグループを他のデータグループとは別にトレーニングすることができる。機械学習モデルは、それぞれ異なるデータグループを使用してそれぞれトレーニングされる。プロセッサ１２は、各データグループに対応する特徴セット（すなわち、センシングデータから変換された特徴セット）または変換されていないセンシングデータを使用して、対応する機械学習モデルをトレーニングすることができる。例えば、第１の機械学習モデルは、第１のデータグループの特徴セットを使用してトレーニングされ、第２の機械学習モデルは、第２のデータグループの特徴セットを使用してトレーニングされる。第１のデータグループは、第２の機械学習モデルのトレーニングには使用されない。さらに、機械学習アルゴリズムは、深層学習、決定木、再帰型ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）、またはその他のアルゴリズムであってよい。

【0041】

以下の検証結果は、本発明の実施形態のクラスタトレーニングが機械学習のトレーニングを容易にすることを証明し得る。

【0042】

図６は、本発明の一実施形態による、第１のグループをそれぞれトレーニングした検証結果の概略図である。図７は、本発明の一実施形態による、第２のグループをそれぞれトレーニングした検証結果の概略図である。図８は、本発明の一実施形態による、複数のグループの共同トレーニングの検証結果の概略図である。図６、図７、及び図８において、精度は、各機械学習モデルによって得られた複数の予測結果と実際の結果との正確率である。感度は、実際に陽性であるサンプルのうち、陽性であると判断されたサンプルの比率である。特異度とは、実際に陰性であるサンプルのうち、陰性であると判断されたサンプルの比率である。

【0043】

図６は、図５で番号５、１２、１１、２７、１９、２３、３０、３、及び２８が付された特徴セット（例えば、番号５、１２、１１、２７、１９、２３、３０、３、及び２８の被験者に対応する特徴セットまたは生のセンシングデータ）を使用してトレーニングされた検証結果である。図７は、図５のその他の特徴セット（例えば、番号５、１２、１１、２７、１９、２３、３０、３、及び２８の被験者以外の被験者に対応する特徴セットまたは生のセンシングデータ）を使用してトレーニングされた検証結果である。図８は、図５の全ての特徴セット（例えば、すべての被験者または生のセンシングデータに対応する特徴セット）を使用して共同トレーニングされた検証結果である。クラスタートレーニング（図６、図７に対応）は、共同トレーニング（図８に対応）よりも精度、感度、特異度において優れている。精度を例にとると、共同トレーニングの下で、図８に示される精度は、約０．７に収束する。一方、クラスタトレーニングの下では、図６及び図７に示される精度は、０．７以上に収束し得る。同じデータグループのみの図６の精度は、約０．９に収束することさえあり得る。

【0044】

トレーニングの最適化に加えて、本発明の実施形態は、モデル予測を最適化することができる。図９は、本発明の一実施形態によるデータ予測のフローチャートである。図９を参照すると、プロセッサ１２は、予測データとデータグループとの間の距離を決定することができる（ステップＳ９１０）。具体的には、プロセッサ１２は、最初に予測データを取得してもよい。予測データについては、前掲のセンシングデータの説明を参照することができ、ここでは説明を繰り返さない。必要に応じて、プロセッサ１２は、予測データを予測特徴セットに変換する。特徴変換の説明は、前掲のセンシングデータの特徴セットへの変換を参照することができ、ここでは説明を繰り返さない。次に、プロセッサ１２は、予測特徴セットとデータグループとの間の距離を決定する。

【0045】

例えば、第１のデータグループの代表値（例えば、平均値、中央値、またはその他の統計値）は、［８．１６，９．８，３．７，１５．５４，２．７４，４．０４，１６．８２，４．５６，２１，１１．８８，１２．７８，１１．１，９．５４，７．２２，７．２４，１８．３４，１７．０４，４．２４，２０，１２．１，１３．１６］であり、第２のデータグループの代表値は、［４．６１，６．４２，９．９５，５．７，４，６．６１，２．８５，１０．２８，２１，１５．８５，１４．６６，１２．０４７，８．２８，１０．３８，９．９５，１８．８５，１６．４２，３．５７，２０，１３．３３，１６．０９］であり、予測特徴セットは［１０，１３，６，１６，２，３，１７，５，２１，９，１５，１２，８，７，４，１９，１８，１，２０，１１，１４］である。ユークリッド距離を例に取ると、予測特徴セットと第１のデータグループの間の距離が７．８５５の場合、予測特徴セットと第２のデータグループの間の距離は２３．４９５である。

【0046】

プロセッサ１２は、複数の機械学習モデルから予測データとの距離が最も短いデータグループに対応する第１の機械学習モデルを選択し（ステップＳ９２０）、第１の機械学習モデルを使用して予測データを予測してもよい（ステップＳ９３０）。例えば、７．８５５は２３．４９５より小さいため、予測特徴セットとの距離が最も短いデータグループが第１のデータグループである。プロセッサ１２は、第１のデータグループの第１の機械学習モデルをロードし、ロードされた第１の機械学習モデルに予測データを入力して、予測結果を予測することができる。予測データがレーダーのセンシング結果を例にとると、予測結果は睡眠イベントであってよい。ただし、予測結果は実際の需要に応じて変更され得る。

【0047】

なお、一実施形態では、複数のデータグループと予測データとの間の距離が距離の下限より小さいか距離の上限より大きいという事実に応答して、これらのデータグループの機械学習モデルの全てが予測対象のデータの結果を予測するために選択され得る。別の実施形態では、データグループと予測データとの間の距離が同じである、または距離が所定の値より小さいという事実に応答して、プロセッサ１２は、予測のためにデータグループによって共同トレーニングされた機械学習モデルをロードすることができる。

【0048】

まとめると、本発明の実施形態によるデータ予測方法及び装置では、特徴セットは、次元削減の結果に従って正規化され、さらにクラスタリングされる。次に、それぞれ異なるデータグループを使用して異なる機械学習モデルをトレーニングする。さらに、類似した距離を有するデータグループに対応する機械学習モデルが予測のために選択される。これにより、トレーニング及び予測の効果が向上する。

【0049】

以上、実施形態を参照しながら本発明を詳細に説明したが、これらは本発明を限定するものではない。当業者は、本発明の精神及び範囲から逸脱することなく、変更及び修正を行うことが可能であることを理解すべきである。したがって、開示の保護範囲は、以下の特許請求の範囲によって定義されるものとする。

【産業上の利用可能性】

【0050】

本発明のデータ予測方法及び装置は、データ予測技術の分野に適用することができる。

【符号の説明】

【0051】

１０：データ予測装置
１１：メモリ
１２：プロセッサ
１５：センサ
ＰＣ１～ＰＣ１１：主成分
Ｓ２０１～Ｓ２５０，Ｓ９１０～Ｓ９３０：ステップ

【図1】