特許7703130 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱電機株式会社の特許一覧

特許7703130データ圧縮装置、データ圧縮方法、及びデータ圧縮プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2025-06-26

(45)【発行日】2025-07-04

(54)【発明の名称】データ圧縮装置、データ圧縮方法、及びデータ圧縮プログラム

(51)【国際特許分類】

H03M 7/30 20060101AFI20250627BHJP

H03M 7/46 20060101ALI20250627BHJP

【ＦＩ】

H03M7/30 Z

H03M7/46

【請求項の数】 9

(21)【出願番号】P 2025517517

(86)(22)【出願日】2023-10-31

(86)【国際出願番号】 JP2023039338

【審査請求日】2025-03-21

【早期審査対象出願】

(73)【特許権者】

【識別番号】000006013

【氏名又は名称】三菱電機株式会社

(74)【代理人】

【識別番号】110002491

【氏名又は名称】弁理士法人クロスボーダー特許事務所

(72)【発明者】

【氏名】森郁海

【審査官】北村智彦

(56)【参考文献】

【文献】特開２００７－１０４２７１（ＪＰ，Ａ）

【文献】特開平０３－０５５９１９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０３Ｍ３／００－９／００

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

時系列的に連続的な１つ以上の同一値を示すデータ点から成る連続値を複数含む離散的な時系列データを圧縮するデータ圧縮装置であって、
前記時系列データに含まれている各連続値を対象連続値としたとき、
前記対象連続値の継続期間が指定期間未満であり、かつ、前記対象連続値の値と、時系列的に前記対象連続値の開始点の直前のデータ点の値との差分が差分閾値以下である場合に前記対象連続値をノイズであると判定し、
前記対象連続値の継続期間が前記指定期間以上であり、かつ、前記対象連続値の値と、時系列的に前記対象連続値の開始点の直前のデータ点の値との差分が前記差分閾値以下である場合に前記対象連続値をノイズではないと判定し、
前記時系列データからノイズであると判定した各連続値を削除することによって圧縮済データを生成するノイズ判定部
を備えるデータ圧縮装置。

【請求項2】

前記ノイズ判定部は、前記対象連続値の値と、時系列的に前記対象連続値の開始点の直前のデータ点の値との差分が前記差分閾値よりも大きい場合に前記対象連続値をノイズではないと判定する請求項１に記載のデータ圧縮装置。

【請求項3】

前記ノイズ判定部は、差分符号化により前記圧縮済データを生成する請求項１又は２に記載のデータ圧縮装置。

【請求項4】

前記指定期間と前記差分閾値との各々は、ドメイン知識に基づいて算出された値である請求項１又は２に記載のデータ圧縮装置。

【請求項5】

前記データ圧縮装置は、さらに、
前記時系列データに含まれている各連続値の継続期間に基づいて前記指定期間を算出する指定期間算出部と、
前記時系列データに含まれている各連続値の値と、時系列的に各連続値の開始点の直前のデータ点の値との差分に基づいて前記差分閾値を算出する差分閾値算出部と
を備える請求項１又は２に記載のデータ圧縮装置。

【請求項6】

前記データ圧縮装置は、さらに、
前記指定期間を算出する際に使用される統計量と、前記差分閾値を算出する際に使用される統計量との各々を選択する統計量選択部
を備える請求項５に記載のデータ圧縮装置。

【請求項7】

前記データ圧縮装置は、さらに、
前記時系列データを用いて学習した機械学習モデルの精度に対する、前記圧縮済データを復元したデータを用いて学習した機械学習モデルの精度に基づいて、算出された指定期間と、算出された差分閾値との各々を採用するか否かを判定するパラメータ判定部
を備える請求項５に記載のデータ圧縮装置。

【請求項8】

時系列的に連続的な１つ以上の同一値を示すデータ点から成る連続値を複数含む離散的な時系列データを圧縮するコンピュータであるデータ圧縮装置が実行するデータ圧縮方法であって、
前記時系列データに含まれている各連続値を対象連続値としたとき、
前記データ圧縮装置は、
前記対象連続値の継続期間が指定期間未満であり、かつ、前記対象連続値の値と、時系列的に前記対象連続値の開始点の直前のデータ点の値との差分が差分閾値以下である場合に前記対象連続値をノイズであると判定し、
前記対象連続値の継続期間が前記指定期間以上であり、かつ、前記対象連続値の値と、時系列的に前記対象連続値の開始点の直前のデータ点の値との差分が前記差分閾値以下である場合に前記対象連続値をノイズではないと判定し、
前記時系列データからノイズであると判定した各連続値を削除することによって圧縮済データを生成するデータ圧縮方法。

【請求項9】

時系列的に連続的な１つ以上の同一値を示すデータ点から成る連続値を複数含む離散的な時系列データを圧縮するコンピュータであるデータ圧縮装置が実行するデータ圧縮プログラムであって、
前記時系列データに含まれている各連続値を対象連続値としたとき、
前記対象連続値の継続期間が指定期間未満であり、かつ、前記対象連続値の値と、時系列的に前記対象連続値の開始点の直前のデータ点の値との差分が差分閾値以下である場合に前記対象連続値をノイズであると判定し、
前記対象連続値の継続期間が前記指定期間以上であり、かつ、前記対象連続値の値と、時系列的に前記対象連続値の開始点の直前のデータ点の値との差分が前記差分閾値以下である場合に前記対象連続値をノイズではないと判定し、
前記時系列データからノイズであると判定した各連続値を削除することによって圧縮済データを生成するノイズ判定処理
を前記データ圧縮装置に実行させるデータ圧縮プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、データ圧縮装置、データ圧縮方法、及びデータ圧縮プログラムに関する。

【背景技術】

【0002】

連続値を多く含む離散的な時系列データを圧縮する技術がある。特許文献１は、当該技術の一例を開示している。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２００１－１６５７１２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１が開示している技術によれば、所定時間に応じて時系列データを圧縮する、即ち同一値が連続する期間の長さを考慮せずに時系列データを圧縮する。なお、当該技術においてデッドバンド幅よりも大きな値の変化が発生した場合に、値の変化に対応するデータを保存する。そのため、当該技術には、所定時間の範囲内においてデッドバンド幅以内の範囲で値が変化したとき、値の変化がノイズに起因するものとは考えられない場合であっても、圧縮後の時系列データには値の変化を示す情報が含まれないことがあるという課題がある。
ここで、機械学習の学習過程において膨大なデータが用いられるため、データの圧縮率をできるだけ高めることが好ましい。また、機械学習において変化点が重要視される。さらに、ノイズを排除したデータを用いて学習しても精度に対する影響は一般的に小さい。そのため、機械学習の学習過程において用いられるデータを生成することを目的として連続値を多く含む離散的な時系列データを圧縮する際、ノイズを排除しつつ、デッドバンド幅以内の範囲で値が変化した場合であっても同一値が連続する期間が一定以上長い場合に同一値が連続する期間におけるデータを示す情報を残すことが好ましい。

【0005】

本開示は、連続値を多く含む離散的な時系列データを圧縮する技術において、ノイズを排除しつつ、差分閾値以内の範囲で値が変化した場合であっても同一値が連続する期間が指定期間以上である場合に当該同一値が連続する期間におけるデータを示す情報を残すことを目的とする。

【課題を解決するための手段】

【0006】

本開示に係るデータ圧縮装置は、
時系列的に連続的な１つ以上の同一値を示すデータ点から成る連続値を複数含む離散的な時系列データを圧縮するデータ圧縮装置であって、
前記時系列データに含まれている各連続値を対象連続値としたとき、
前記対象連続値の継続期間が指定期間未満であり、かつ、前記対象連続値の値と、時系列的に前記対象連続値の開始点の直前のデータ点の値との差分が差分閾値以下である場合に前記対象連続値をノイズであると判定し、
前記対象連続値の継続期間が前記指定期間以上であり、かつ、前記対象連続値の値と、時系列的に前記対象連続値の開始点の直前のデータ点の値との差分が前記差分閾値以下である場合に前記対象連続値をノイズではないと判定し、
前記時系列データからノイズであると判定した各連続値を削除することによって圧縮済データを生成するノイズ判定部
を備える。

【発明の効果】

【0007】

本開示によれば、ノイズ判定部が、対象連続値の継続期間が指定期間未満であり、かつ、対象連続値の値と、時系列的に対象連続値の開始点の直前のデータ点の値との差分が差分閾値以下である場合に対象連続値をノイズであると判定する。また、ノイズ判定部が、対象連続値の継続期間が指定期間以上であり、かつ、対象連続値の値と、時系列的に対象連続値の開始点の直前のデータ点の値との差分が差分閾値以下である場合に対象連続値をノイズではないと判定する。さらに、ノイズ判定部は、ノイズであると判定した各連続値を示さないデータであって、ノイズではないと判定した各連続値を示すデータであって、時系列データを圧縮したデータである圧縮済データを生成する。ここで、時系列データは複数の連続値を含む離散的なデータである。
従って、本開示によれば、連続値を多く含む離散的な時系列データを圧縮する技術において、ノイズを排除しつつ、差分閾値以内の範囲で値が変化した場合であっても同一値が連続する期間が指定期間以上である場合に当該同一値が連続する期間におけるデータを示す情報を残すことができる。

【図面の簡単な説明】

【0008】

【図1】実施の形態１に係るデータ圧縮システム９０の構成例を示す図。

【図2】実施の形態１に係るデータ圧縮システム９０の構成例を示す図。

【図3】実施の形態１に係るノイズ判定部１１の処理を説明する図。

【図4】実施の形態１に係るノイズ判定部１１の処理を説明する図であり、（ａ）は定常状態及び過渡状態を説明する図、（ｂ）は空気調和機の性能に対応する関数を示す図。

【図5】実施の形態１に係るノイズ判定部１１の処理を説明する図。

【図6】実施の形態１に係るデータ圧縮装置１００のハードウェア構成例を示す図。

【図7】実施の形態１に係るデータ圧縮システム９０の処理を示すフローチャート。

【図8】実施の形態１に係るノイズ判定部１１の処理を示すフローチャート。

【図9】実施の形態１に係るノイズ判定部１１の処理を示すフローチャート。

【図10】実施の形態１の変形例に係るデータ圧縮装置１００のハードウェア構成例を示す図。

【図11】実施の形態２に係るデータ圧縮システム９０の構成例を示す図。

【図12】実施の形態２に係る統計量選択部３０の構成例を示す図。

【図13】実施の形態２に係る指定期間１２及び差分閾値１３を説明する図。

【図14】実施の形態２に係るデータ圧縮システム９０の処理を示すフローチャート。

【図15】実施の形態２に係る統計量選択部３０の処理を示すフローチャート。

【図16】実施の形態２に係る指定期間算出部３２の処理を示すフローチャート。

【図17】実施の形態２に係る差分閾値算出部３４の処理を示すフローチャート。

【図18】実施の形態３に係るデータ圧縮システム９０の構成例を示す図。

【図19】実施の形態３に係るパラメータ判定部４０の構成例を示す図。

【図20】実施の形態３に係る統計量選択部３０の構成例を示す図。

【図21】実施の形態３に係るデータ圧縮システム９０の処理を説明する図。

【図22】実施の形態３に係るデータ圧縮システム９０の処理を示すフローチャート。

【図23】実施の形態３に係るデータ圧縮システム９０の処理を示すフローチャート。

【図24】実施の形態３に係る統計量選択部３０の処理を示すフローチャート。

【図25】実施の形態３に係るパラメータ判定部４０の処理を示すフローチャート。

【図26】実施の形態３に係るパラメータ判定部４０の処理を示すフローチャート。

【発明を実施するための形態】

【0009】

実施の形態の説明及び図面において、同じ要素及び対応する要素には同じ符号を付している。同じ符号が付された要素の説明は、適宜に省略又は簡略化する。図中の矢印はデータの流れ又は処理の流れを主に示している。また、「部」又は「装置」を、「システム」、「回路」、「工程」、「手順」、「処理」又は「サーキットリー」に適宜読み替えてもよい。

【0010】

実施の形態１．
以下、本実施の形態について、図面を参照しながら詳細に説明する。
本実施の形態では、機械学習の学習過程において用いられるデータを生成することを目的として連続値を多く含む離散的な時系列データを圧縮する技術において、機械学習に対する影響がない又は小さいノイズを除去することによりデータ量を小さくすることと、ノイズを除去したデータに基づいて学習を実行した機械学習モデルの精度を、生データを用いて学習した機械学習モデルの精度と同等とすることとを両立させることを目的とする。また、本実施の形態では、時系列データの保管コストを低減するために時系列データから微弱ノイズを除去して圧縮することによりデータ量を削減することを目的とする。本実施の形態に係る時系列データは、離散値から成るデータであり、連続値を複数含むデータである。即ち、当該時系列データは離散的な時系列データである。連続値は、時系列的に連続的な１つ以上の同一値を示すデータ点から成る。
具体例として、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）のユースケースでは連続値が多くなる。この要因として、センサーの感度（分解能）が低いこと、又は四捨五入等により値を意図的に丸めてデータ量を削減すること等が挙げられる。なお、孤立点を連続値と表現することもある。孤立点の値は、孤立点に隣接するいずれのデータ点の値とも異なる。

【0011】

＊＊＊構成の説明＊＊＊
図１及び図２は、本実施の形態に係るデータ圧縮システム９０の構成例を示している。
データ圧縮装置１００は時系列データを圧縮する。データ圧縮装置１００は、図１に示すようにクラウドシステム１により実現されてもよく、図２に示すようにエッジシステム１９により実現されてもよい。データ圧縮装置１００とデータ復元装置２００とは一体的に構成されてもよい。
以下、データ圧縮装置１００がクラウドシステム１により実現される具体例を説明する。
データ圧縮装置１００がエッジシステム１９により実現される場合については、データ圧縮装置１００がクラウドシステム１により実現される場合と同様である。復元方法２２は圧縮済データ１４を復元する方法を示すデータである。

【0012】

各センサー２が取得した時系列データ５は、ネットワーク６を経由してクラウドシステム１に送信される。時系列データ５は、各センサー２が取得したセンサ値を時系列に記録したデータである。時系列データ５は生データに相当する。
クラウドシステム１は、データ受信部７と、データ圧縮装置１００と、データベース１５と、データ復元装置２００とを備える。
データ受信部７は時系列データ５を受信する。
データ圧縮装置１００は、符号化部９と、ノイズ判定部１１とを備える。

【0013】

符号化部９は、データ受信部７から時系列データ５を受け取り、受け取った時系列データ５を符号化することにより符号化済データ１０を生成する。
符号化部９は、具体例として、差分符号化により符号化済データ１０を生成する。差分符号化は、隣接するデータ点間の差分に基づいて離散的な時系列データを圧縮する方式である。差分符号化において、各データ点は、時系列的に直前のデータ点との差分が０ではない場合に保持され、また、時系列的に直前のデータ点との差分が０である場合に削除される。

【0014】

ノイズ判定部１１は、指定期間１２と差分閾値１３とに基づいて符号化済データ１０に含まれている部分データ点列がノイズであるか否かを判定し、ノイズと判定した部分データ点列を符号化済データ１０から削除して圧縮済データ１４を生成する。ノイズ判定部１１は、差分符号化により圧縮済データ１４を生成してもよい。ノイズ判定部１１は、生成した圧縮済データ１４をデータベース１５に保存する。圧縮済データ１４は、ノイズ判定部１１がノイズであると判定した各連続値を示さないデータであって、ノイズ判定部１１がノイズではないと判定した各連続値を示すデータであって、時系列データ５を圧縮したデータである。圧縮済データ１４は符号化済データ１０をさらに圧縮したデータであってもよい。
本実施の形態では、各データ点がノイズであるか否かを判定するために指定期間１２及び差分閾値１３を導入する。指定期間１２及び差分閾値１３の各々は、ドメイン知識に基づいて算出された値であってもよい。なお、ノイズ判定部１１は符号化済データ１０の代わりに時系列データ５を用いてもよい。圧縮済データ１４は、生データから抽出された特徴を示すデータに相当する。
ノイズ判定部１１は、ある連続値の継続期間が指定期間１２よりも短い場合に、当該ある連続値をノイズと判断する。しかしながら、ノイズ判定部１１は、指定期間１２に基づいてノイズと判断した連続値であっても、当該連続値の値と、時系列的に当該連続値の開始点の直前のデータ点の値との差分（変動）が差分閾値１３よりも大きい場合に当該連続値をノイズと判断しない。
時系列データ５に含まれている各連続値を対象連続値としたとき、ノイズ判定部１１は、対象連続値の継続期間が指定期間１２未満であり、かつ、対象連続値の値と、時系列的に対象連続値の開始点の直前のデータ点の値との差分が差分閾値１３以下である場合に対象連続値をノイズであると判定する。また、ノイズ判定部１１は、対象連続値の継続期間が指定期間１２以上であり、かつ、対象連続値の値と、時系列的に対象連続値の開始点の直前のデータ点の値との差分が差分閾値１３以下である場合に対象連続値をノイズではないと判定する。なお、ノイズ判定部１１は、対象連続値の値と、時系列的に対象連続値の開始点の直前のデータ点の値との差分が差分閾値１３よりも大きい場合に対象連続値をノイズではないと判定する。

【0015】

図３は、ノイズ判定部１１の処理の具体例を説明する図である。図３において、指定期間１２は３であり、差分閾値１３は０．５である。図３において、元データと保存データとが示されている。元データは、時系列データ５が示す各データ点である。保存データは、時系列データ５が示すデータ点のうち、圧縮済データ１４において保存される各データ点であり、差分符号化に基づいて定められる各データ点である。
データＤ１の継続期間は０である、即ち指定期間１２未満である。また、データＤ１の値と連続値Ｓ１の値との差分は０．５である、即ち差分閾値１３以下である。ここで、連続値Ｓ１の値は時系列的にデータＤ１の直前のデータ点の値である。データＤ１は連続値でもある。そのため、ノイズ判定部１１は、データＤ１をノイズと判定し、符号化済データ１０からデータＤ１を削除する。なお、図３に示す例において、時系列データ５及び符号化済データ１０において時刻ｔ１における値は１．５であるが、圧縮済データ１４を復元したデータにおいて時刻ｔ１における値は１である。即ち、圧縮済データ１４においてデータＤ１は実質的にデータＤ１’として扱われる。
ここで、連続値Ｓ１及び連続値Ｓ２の各々の継続期間は２である。しかしながら、データＤ１がデータＤ１’として扱われるため、連続値Ｓ１とデータＤ１’と連続値Ｓ２とが一体的に連続値Ｓ１’として扱われる。連続値Ｓ１’の継続期間は６である、即ち指定期間１２以上であるため、ノイズ判定部１１は連続値Ｓ１’をノイズと判定しない。なお、ノイズ判定部１１は連続値Ｓ１及び連続値Ｓ２全体を連続的なデータ点とみなしてもよい。
連続値Ｓ３の継続期間は３である、即ち指定期間１２以上である。そのため、ノイズ判定部１１は連続値Ｓ３をノイズと判定しない。
連続値Ｓ４の継続期間は２である。しかしながら、連続値Ｓ４の値と連続値Ｓ３の値との差分は差分閾値１３よりも大きい。そのため、ノイズ判定部１１は連続値Ｓ４をノイズと判定しない。同様に、ノイズ判定部１１は連続値Ｓ５及び連続値Ｓ６の各々をノイズと判定しない。

【0016】

データベース１５は、生成された圧縮済データ１４を保管するデータベースである。

【0017】

データ復元装置２００は復元部１７を備える。
復元部１７は、データベース１５から圧縮済データ１４を取得し、取得した圧縮済データ１４を復元データ１８として時系列データに復元する。この際、復元部１７は圧縮済データ１４を符号化したアルゴリズムに対応する復号アルゴリズムを用いる。

【0018】

図４を用いて時系列データ５が空気調和機の室温データ系列である場合における指定期間１２及び差分閾値１３の算出例を説明する。ここで、指定期間１２及び差分閾値１３の各々はドメイン知識に基づいて算出される。なお、図４に示す例において、空気調和機の性能及び空気調和機が設置されている部屋の性質等から想定される正常状態ではない状態を検出することを目的としている。

【0019】

空気調和機が稼働すると、室温は過渡状態を経て定常状態となる。過渡状態は、設定温度に向けて室温が上がっている状態又は下がっている状態である。定常状態は、室温が設定温度において静止している状態である。
その後、図４の（ａ）に示すように、定常状態となることにより空気調和が停止した後、ｚ分かけて室温が徐々に下降又は上昇した結果、設定温度と室温とが閾値以上離れた場合に、空気調和機は再び過渡状態に移行する。ここで、時刻ｘ_ｉ＋ｚと時刻ｘ_ｉとの差分はｚ分である。また、指定期間１２を１０分とする。当該閾値をαとすると、室温が自然に、即ち何らかの環境要因がなく降下又は上昇する変動幅を「｜（設定温度）－（室温）｜＜α」と定義することができる。
空気調和機の能力に基づいてαを指定期間１２以内に室温を設定温度に戻すことができる室温とすると、「α≦（差分閾値１３）」となる。
室温の値が指定期間１２内に差分閾値１３を超えて変化した場合、換気又は人の出入り等の何らかの環境要因が発生したものとみなされ、変化した室温の値が保存されるように圧縮済データ１４が生成される。

【0020】

なお、差分閾値１３の設定に当たり、空気調和機の能力（具体例として、冷房２．８ｋＷ、暖房３．６ｋＷ）と、空気調和機が設置されている部屋のサイズとから、「ｘ分かけて空気調和機が室温をｙ度上げる又は下げる」ということが分かればよい。ここで、室温の変化ｙを空気調和機の性能ｆと時間ｘの関数ｙ＝ｆ（ｘ）により定義することができる場合、図４の（ｂ）に示すように単位時間あたりの最大変動幅を特定することができる。図４の（ｂ）において、（ｘ_ｉ＋１－ｘ_ｉ）は単位時間に対応し、「｜ｆ（ｘ_ｉ）－ｆ（ｘ_ｉ＋１）｜」は単位時間における空気調和機の性能のみで想定される室温の最大変動幅である。
ここで、温度センサーが計測する室温の粒度が０．５度単位である場合、時刻ｘ_ｉから時刻ｘ_ｉ＋１に対応する差分閾値１３は［数１］に示すようになる。具体例として、ある時点における室温の変化が、ｆ（ｘ_１＝１）＝１５．５であり、ｆ（ｘ_２＝２）＝１８．５であった場合に、ドメイン知識に基づく差分閾値１３は［数２］に示すようになる。

【0021】

【数1】

【数2】

【0022】

空気調和機以外のユースケースとして、図５に示すように工場等に設置されている工作機の工具摩耗を検知するための振動センサーのデータが挙げられる。
ここで、振動波形自体は周期的に変化するために、図５の左側に示すように連続値を含まない。しかしながら、フーリエ変換等により振動波形を変換すると、図５の右側に示すようにある種の連続値を多く含むデータが現れることがある。このようなデータから指定期間１２及び差分閾値１３に基づいて微弱ノイズを削除して圧縮することにより、データ量を削減することができる。また、圧縮済データ１４において正常波形及び異常波形の各々を示す情報が保持される。

【0023】

図６は、本実施の形態に係るデータ圧縮装置１００のハードウェア構成例を示している。データ圧縮装置１００はコンピュータから成る。データ圧縮装置１００は複数のコンピュータから成ってもよい。

【0024】

データ圧縮装置１００は、本図に示すように、プロセッサ５１と、メモリ５２と、補助記憶装置５３と、入出力ＩＦ（Ｉｎｔｅｒｆａｃｅ）５４と、通信装置５５等のハードウェアを備えるコンピュータである。これらのハードウェアは、信号線５９を介して適宜接続されている。

【0025】

プロセッサ５１は、演算処理を行うＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）であり、かつ、コンピュータが備えるハードウェアを制御する。プロセッサ５１は、具体例として、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、又はＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）である。
データ圧縮装置１００は、プロセッサ５１を代替する複数のプロセッサを備えてもよい。複数のプロセッサはプロセッサ５１の役割を分担する。

【0026】

メモリ５２は、典型的には揮発性の記憶装置であり、具体例としてＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）である。メモリ５２は、主記憶装置又はメインメモリとも呼ばれる。メモリ５２に記憶されたデータは、必要に応じて補助記憶装置５３に保存される。

【0027】

補助記憶装置５３は、典型的には不揮発性の記憶装置であり、具体例として、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、又はフラッシュメモリである。補助記憶装置５３に記憶されたデータは、必要に応じてメモリ５２にロードされる。
メモリ５２及び補助記憶装置５３は一体的に構成されていてもよい。

【0028】

入出力ＩＦ５４は、入力装置及び出力装置が接続されるポートである。入出力ＩＦ５４は、具体例として、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）端子である。入力装置は、具体例として、キーボード及びマウスである。出力装置は、具体例として、ディスプレイである。

【0029】

通信装置５５は、レシーバ及びトランスミッタである。通信装置５５は、具体例として、通信チップ又はＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）である。

【0030】

データ圧縮装置１００の各部は、他の装置等と通信する際に、入出力ＩＦ５４及び通信装置５５を適宜用いてもよい。

【0031】

補助記憶装置５３はデータ圧縮プログラムを記憶している。データ圧縮プログラムは、データ圧縮装置１００が備える各部の機能をコンピュータに実現させるプログラムである。データ圧縮プログラムは、メモリ５２にロードされて、プロセッサ５１によって実行される。データ圧縮装置１００が備える各部の機能は、ソフトウェアにより実現される。

【0032】

データ圧縮プログラムを実行する際に用いられるデータと、データ圧縮プログラムを実行することによって得られるデータ等は、記憶装置に適宜記憶される。データ圧縮装置１００の各部は記憶装置を適宜利用する。記憶装置は、具体例として、メモリ５２と、補助記憶装置５３と、プロセッサ５１内のレジスタと、プロセッサ５１内のキャッシュメモリとの少なくとも１つから成る。なお、データという用語と情報という用語とは同等の意味を有することもある。記憶装置は、コンピュータと独立したものであってもよい。
メモリ５２及び補助記憶装置５３の機能は、他の記憶装置によって実現されてもよい。

【0033】

データ圧縮プログラムは、コンピュータが読み取り可能な不揮発性の記録媒体に記録されていてもよい。不揮発性の記録媒体は、具体例として、光ディスク又はフラッシュメモリである。データ圧縮プログラムは、プログラムプロダクトとして提供されてもよい。

【0034】

＊＊＊動作の説明＊＊＊
データ圧縮システム９０の動作手順はデータ圧縮方法に相当する。また、データ圧縮システム９０の動作を実現するプログラムはデータ圧縮プログラムに相当する。

【0035】

図７は、データ圧縮装置１００の処理の一例を示すフローチャートである。図７を用いてデータ圧縮装置１００の処理を説明する。

【0036】

（ステップＳ１０１）
データ受信部７は、時系列データ５を受信し、受信した時系列データ５を符号化部９に送る。

【0037】

（ステップＳ１０２）
符号化部９は、データ受信部７から時系列データ５を受け取り、受け取った時系列データ５を符号化することにより符号化済データ１０を生成し、生成した符号化済データ１０をノイズ判定部１１に送る。

【0038】

（ステップＳ１０３）
ノイズ判定部１１に指定期間１２が入力される。

【0039】

（ステップＳ１０４）
ノイズ判定部１１に差分閾値１３が入力される。

【0040】

（ステップＳ１０５）
ノイズ判定部１１は、符号化済データ１０を受け取り、受け取った符号化済データ１０と、入力された指定期間１２と差分閾値１３とを用いて圧縮済データ１４を生成する。この際、ノイズ判定部１１は、継続期間が指定期間１２よりも短い連続値を検出し、検出した連続値のうち、連続値の値と、時系列的に連続値の開始点の直前のデータ点の値との差分が差分閾値１３以下である各連続値を符号化済データ１０から削除する。

【0041】

（ステップＳ１０６）
ノイズ判定部１１は、生成した圧縮済データ１４を出力する。

【0042】

図８及び図９は、ノイズ判定部１１の処理の一例を示すフローチャートである。図８及び図９を用いてノイズ判定部１１の処理を説明する。

【0043】

（ステップＳ１２１）
ノイズ判定部１１に符号化済データ１０が入力される。

【0044】

（ステップＳ１２２）
ノイズ判定部１１に指定期間１２が入力される。

【0045】

（ステップＳ１２３）
ノイズ判定部１１に差分閾値１３が入力される。

【0046】

（ステップＳ１２４）
ノイズ判定部１１は、定数Ｐを指定期間１２が示す値とし、定数Ｄを差分閾値１３が示す値とし、符号化済データ１０を（Ｘ，Ｙ）とする。ここで、Ｘ［ｋ］（１≦ｋ≦ｎ）は時系列データ５の時系列的にｋ番目の時刻を示し、Ｙ［ｋ］は時系列データ５の時系列的にｋ番目の時刻における値を示す。ｎは時系列データ５の添字の最大値である。Ｅ［ｋ］（０≦Ｅ［ｋ］≦ｎ）は符号化済データ１０の時系列的にｋ番目のデータ点に対応するＸの添字を示す。

【0047】

（ステップＳ１２５）
ノイズ判定部１１は、変数ｉに１を代入し、Ｅ’を空集合とする。Ｅ’には符号化済データ１０のうちノイズと判定されたＥが順次格納される。

【0048】

（ステップＳ１２６）
ｉ＜ｎが満たされている場合、ノイズ判定部１１はステップＳ１２７に進む。それ以外の場合、ノイズ判定部１１はステップＳ１３１に進む。

【0049】

（ステップＳ１２７）
Ｘ［Ｅ［ｉ＋１］－１］－Ｘ［Ｅ［ｉ］］＜Ｐが満たされている場合、ノイズ判定部１１はステップＳ１２８に進む。それ以外の場合、ノイズ判定部１１はステップＳ１３０に進む。

【0050】

（ステップＳ１２８）
｜Ｙ［Ｅ［ｉ＋１］－１］－Ｙ［Ｅ［ｉ］］｜≦Ｄが満たされている場合、ノイズ判定部１１はステップＳ１２９に進む。それ以外の場合、ノイズ判定部１１はステップＳ１３０に進む。

【0051】

（ステップＳ１２９）
ノイズ判定部１１は、Ｅ’にＥ［ｉ］を追加する。

【0052】

（ステップＳ１３０）
ノイズ判定部１１は、変数ｉの値を１増やす。

【0053】

（ステップＳ１３１）
ノイズ判定部１１は、Ｅ’’をＥとＥ’との差集合とする。ここで、Ａ＼Ｂは集合Ａから集合Ｂを引いた差集合を示す。

【0054】

（ステップＳ１３２）
ノイズ判定部１１は、圧縮済データ１４を（Ｘ［Ｅ’’］，Ｙ［Ｅ’’］）とする。

【0055】

（ステップＳ１３３）
ノイズ判定部１１は、生成した圧縮済データ１４を出力する。

【0056】

＊＊＊実施の形態１の効果の説明＊＊＊
以上のように、本実施の形態によれば、時系列データが連続値を多く含む場合に、特許文献１に示すように所定時間が経過した時点における各データ点を保存しないため、時系列データをより圧縮することができる。
また、本実施の形態によれば、差分閾値１３以下の変動があった場合であっても変動直後の連続値が指定期間１２以上続く場合に、圧縮済データ１４において当該連続値を示す情報が保持される。そのため、機械学習における重要な変化点が破棄されない。ここで、機械学習では、変動が大きい値、即ち分散が大きい値ほど予測に大きな影響を及ぼすことが多い。本実施の形態は、変動の大きい点を積極的に残し、機械学習モデルの精度に対する影響がない又は小さいノイズだけを削除する。そのため、本実施の形態によれば、精度を維持しつつ、データ量が少なくなり、データの保管コストを低減することができる。
圧縮済データ１４の復元において、具体例として通常の差分符号化の復元アルゴリズムが使用される。そのため、本実施の形態では特別なデータ復元装置を用意する必要がない。なお、指定期間１２及び差分閾値１３の設定値はデータの復元に影響しないので、指定期間１２及び差分閾値１３をメタデータとして残さなくてもよい。
さらに、圧縮済データ１４を生成する処理には機械学習における前処理と同等の効果があることもある。そのため、機械学習モデル（学習アルゴリズム）によっては、精度向上が期待される。

【0057】

＊＊＊他の構成＊＊＊
＜変形例１＞
図１０は、本変形例に係るデータ圧縮装置１００のハードウェア構成例を示している。
データ圧縮装置１００は、プロセッサ５１、プロセッサ５１とメモリ５２、プロセッサ５１と補助記憶装置５３、あるいはプロセッサ５１とメモリ５２と補助記憶装置５３とに代えて、処理回路５８を備える。
処理回路５８は、データ圧縮装置１００が備える各部の少なくとも一部を実現するハードウェアである。
処理回路５８は、専用のハードウェアであってもよく、また、メモリ５２に格納されるプログラムを実行するプロセッサであってもよい。

【0058】

処理回路５８が専用のハードウェアである場合、処理回路５８は、具体例として、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）又はこれらの組み合わせである。
データ圧縮装置１００は、処理回路５８を代替する複数の処理回路を備えてもよい。複数の処理回路は、処理回路５８の役割を分担する。

【0059】

データ圧縮装置１００において、一部の機能が専用のハードウェアによって実現されて、残りの機能がソフトウェア又はファームウェアによって実現されてもよい。

【0060】

処理回路５８は、具体例として、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせにより実現される。
プロセッサ５１とメモリ５２と補助記憶装置５３と処理回路５８とを、総称して「プロセッシングサーキットリー」という。つまり、データ圧縮装置１００の各機能構成要素の機能は、プロセッシングサーキットリーにより実現される。
他の実施の形態に係るデータ圧縮装置１００についても、本変形例と同様の構成であってもよい。

【0061】

実施の形態２．
以下、主に前述した実施の形態と異なる点について、図面を参照しながら説明する。

【0062】

＊＊＊構成の説明＊＊＊
図１１は、本実施の形態に係るデータ圧縮システム９０の構成例を示している。
本実施の形態に係るデータ圧縮装置１００は、統計量選択部３０と、指定期間算出部３２と、差分閾値算出部３４とをさらに備える。なお、データ圧縮装置１００はエッジシステム１９により実現されてもよい。

【0063】

図１２は、統計量選択部３０の構成例を示している。統計量選択部３０は、統計量リスト３０１の中から、統計量３１と、統計量３３とを適宜選択する。
統計量３１は、指定期間１２を算出する際に使用される統計量である。
統計量３３は、差分閾値１３を算出する際に使用される統計量である。
なお、統計量３１と統計量３３とが互いに異なる統計量であってもよい。
統計量リスト３０１は、各統計量を示すリストである。統計量リスト３０１は、具体例として「相加平均」と「中央値」と「最頻値」と「トリム平均」と「加重平均」との各々を示すデータから成る。

【0064】

指定期間算出部３２は、各時系列データ５に含まれている各連続値の継続期間に基づいて指定期間１２を算出する。具体的には、指定期間算出部３２は、統計量３１と、過去時系列データ３５と、時系列データ５とを入力として指定期間１２を算出する。過去時系列データ３５は、過去に生成された圧縮済データ１４を復元したデータである。過去時系列データ３５は、過去に取得された時系列データ５であってもよい。
具体例として、相加平均により指定期間１２を決定する場合、指定期間算出部３２は［数３］により指定期間１２を算出する。図１３に示す時系列データ５が入力である場合、指定期間算出部３２は［数４］に示すように指定期間１２を算出する。

【0065】

【数3】

【数4】

【0066】

差分閾値算出部３４は、各時系列データ５に含まれている各連続値の値と、時系列的に各連続値の開始点の直前のデータ点の値との差分に基づいて差分閾値１３を算出する。具体的には、差分閾値算出部３４は、統計量３３と、過去時系列データ３５と、時系列データ５とを入力として差分閾値１３を算出する。
具体例として、相加平均により差分閾値１３を決定する場合、差分閾値算出部３４は［数５］により差分閾値１３を算出する。図１３に示す時系列データ５が入力である場合、指定期間算出部３２は［数６］に示すように差分閾値１３を算出する。

【0067】

【数5】

【数6】

【0068】

＊＊＊動作の説明＊＊＊
図１４は、データ圧縮システム９０の処理の一例を示すフローチャートである。図１４を用いてデータ圧縮システム９０の処理を説明する。

【0069】

（ステップＳ２０１）
統計量選択部３０は、統計量３１及び統計量３３を選択する。

【0070】

（ステップＳ２０２）
指定期間算出部３２及び差分閾値算出部３４の各々に、時系列データ５及び過去時系列データ３５が入力される。

【0071】

（ステップＳ２０３）
指定期間算出部３２は指定期間１２を算出する。

【0072】

（ステップＳ２０４）
差分閾値算出部３４は差分閾値１３を算出する。

【0073】

図１５は、統計量選択部３０の処理の一例を示すフローチャートである。図１５を用いて統計量選択部３０の処理を説明する。

【0074】

（ステップＳ２２１）
統計量選択部３０に統計量リスト３０１が入力される。

【0075】

（ステップＳ２２２）
統計量選択部３０は、統計量３１として、統計量リスト３０１が示す統計量の中から指定期間１２を算出する際に使用される統計量を選択する。

【0076】

（ステップＳ２２３）
統計量選択部３０は、選択した統計量３１を指定期間算出部３２に出力する。

【0077】

（ステップＳ２２４）
統計量選択部３０は、統計量３３として、統計量リスト３０１が示す統計量の中から差分閾値１３を算出する際に使用される統計量を選択する。

【0078】

（ステップＳ２２５）
統計量選択部３０は、選択した統計量３３を差分閾値算出部３４に出力する。

【0079】

図１６は、指定期間算出部３２の処理の一例を示すフローチャートである。図１６を用いて指定期間算出部３２の処理を説明する。

【0080】

（ステップＳ２４１）
指定期間算出部３２に統計量３１が入力される。

【0081】

（ステップＳ２４２）
指定期間算出部３２に時系列データ５が入力される。

【0082】

（ステップＳ２４３）
指定期間算出部３２に過去時系列データ３５が入力される。

【0083】

（ステップＳ２４４）
指定期間算出部３２は、変数Ｓｅｑに時系列データ５を代入する。

【0084】

（ステップＳ２４５）
過去時系列データ３５が存在する場合、指定期間算出部３２はステップＳ２４６に進む。それ以外の場合、指定期間算出部３２はステップＳ２４７に進む。

【0085】

（ステップＳ２４６）
指定期間算出部３２は、変数Ｓｅｑに過去時系列データ３５を追加する。

【0086】

（ステップＳ２４７）
指定期間算出部３２は、変数Ｓｅｑが示す時系列データからｎ個の連続値をｐｅｒｉｏｄ［ｉ］（１≦ｉ≦ｎ）として抽出する。

【0087】

（ステップＳ２４８）
指定期間算出部３２は、入力された統計量３１に応じて指定期間１２を算出する。

【0088】

（ステップＳ２４９）
指定期間算出部３２は、算出した指定期間１２をノイズ判定部１１に出力する。

【0089】

図１７は、差分閾値算出部３４の処理の一例を示すフローチャートである。図１７を用いて差分閾値算出部３４の処理を説明する。

【0090】

（ステップＳ２６１）
差分閾値算出部３４に統計量３３が入力される。

【0091】

（ステップＳ２６２）
差分閾値算出部３４に時系列データ５が入力される。

【0092】

（ステップＳ２６３）
差分閾値算出部３４に過去時系列データ３５が入力される。

【0093】

（ステップＳ２６４）
差分閾値算出部３４は、変数Ｓｅｑに時系列データ５を代入する。

【0094】

（ステップＳ２６５）
過去時系列データ３５が存在する場合、差分閾値算出部３４はステップＳ２６６に進む。それ以外の場合、差分閾値算出部３４はステップＳ２６７に進む。

【0095】

（ステップＳ２６６）
差分閾値算出部３４は、変数Ｓｅｑに過去時系列データ３５を追加する。

【0096】

（ステップＳ２６７）
差分閾値算出部３４は、変数Ｓｅｑが示す時系列データからｍ個のデータの差分をｄｉｆｆ［ｉ］（１≦ｉ≦ｍ）として抽出する。

【0097】

（ステップＳ２６８）
差分閾値算出部３４は、入力された統計量３３に応じて差分閾値１３を算出する。

【0098】

（ステップＳ２６９）
差分閾値算出部３４は、算出した差分閾値１３をノイズ判定部１１に出力する。

【0099】

＊＊＊実施の形態２の効果の説明＊＊＊
以上のように、本実施の形態によれば、時系列データと選択された統計量とに基づいて指定期間１２及び差分閾値１３を算出する。そのため、データ系列ごとに指定期間１２及び差分閾値１３の各々を判断する必要がない、即ちドメイン知識が不要である。
また、本実施の形態によれば、ユーザパラメータが減るので使いやすさが向上する。

【0100】

実施の形態３．
以下、主に前述した実施の形態と異なる点について、図面を参照しながら説明する。

【0101】

＊＊＊構成の説明＊＊＊
図１８は、本実施の形態に係るデータ圧縮システム９０の構成例を示している。
データ圧縮装置１００は、実施の形態２に係るデータ圧縮装置１００と比較してパラメータ判定部４０をさらに備える。なお、実施の形態１に係るデータ圧縮装置１００がパラメータ判定部４０をさらに備えてもよい。

【0102】

図１９は、パラメータ判定部４０の構成例を示している。パラメータ判定部４０は、モデル生成部４０１と、推論部４０４と、精度判定部４０７とを備える。
パラメータ判定部４０は、時系列データ５を用いて学習した機械学習モデルの精度に対する、圧縮済データ１４を復元したデータを用いて学習した機械学習モデルの精度に基づいて、算出された指定期間１２と、算出された差分閾値１３との各々を採用するか否かを判定する。

【0103】

モデル生成部４０１は、時系列データ５を用いて比較モデル４０２を生成し、復元データ４１を用いて判定対象モデル４０３を生成する。復元データ４１は、復元部１７が圧縮済データ１４を復元したデータであり、判定対象の時系列データである。比較モデル４０２及び判定対象モデル４０３の各々は機械学習モデルである。
モデル生成部４０１は、比較モデル４０２を生成する際に過去時系列データ３５を用いてもよい。過去時系列データ３５は、復元部１７がデータベース１５から過去の圧縮済データ１４を取り出し、取り出した圧縮済データ１４を復元することによって生成された時系列データである。

【0104】

推論部４０４は、比較モデル４０２を用いて推論を実行することにより推論結果４０５を算出し、判定対象モデル４０３を用いて推論を実行することにより推論結果４０６を算出する。推論結果４０５及び推論結果４０６の各々は予測値である。推論結果４０６は判定対象に当たる。

【0105】

精度判定部４０７は、推論結果４０５と推論結果４０６とを用いて推論誤差を測定することにより、圧縮済データ１４に対応する機械学習モデルの精度を許容することができるか否かを判定する。

【0106】

図２０は、本実施の形態に係る統計量選択部３０の構成例を示している。統計量選択部３０は、使用済テーブル３０２をさらに備える。
使用済テーブル３０２は、パラメータ判定部４０によって判定された各統計量を保持するテーブルデータであり、使用済みである各統計量を管理するテーブルデータである。使用済テーブル３０２は、図２０に示すように、指定期間１２に対応する統計量と、差分閾値１３に対応する統計量との組を保持してもよい。使用済テーブル３０２として、指定期間１２に対応する使用済テーブルと、差分閾値１３に対応する使用済テーブルとが存在してもよい。
統計量選択部３０は、使用済テーブル３０２に含まれていない統計量を統計量リスト３０１から選択する。統計量選択部３０は、使用済テーブル３０２に統計量の組が保持されている場合において、使用済テーブル３０２に含まれていない統計量の組合せを選択してもよい。
統計量選択部３０は、使用した各統計量を使用済テーブル３０２に記録する。

【0107】

図２１は、本実施の形態に係るデータ圧縮システム９０の処理のイメージを示している。
パラメータ判定部４０は、生データと、圧縮済データ１４を復元した時系列データとのそれぞれを用いて機械学習モデルを作成し、作成した２つの機械学習モデルの推論精度の差に基づいて、圧縮済データ１４を生成する際に用いられた指定期間１２及び差分閾値１３の採否を判定する。パラメータ判定部４０が指定期間１２及び差分閾値１３を不採用とする場合、統計量選択部３０は指定期間１２及び差分閾値１３の算出において用いられる統計量を再選択する。パラメータ判定部４０は、指定期間１２及び差分閾値１３の一方のみについての採否の判定を実行してもよく、指定期間１２及び差分閾値１３の採否の判定を同時に実行してもよく順に実行してもよい。
なお、復元データ４１に対応する機械学習モデルと比較する機械学習モデルは、これまでに収集したデータを用いて学習した機械学習モデルであってもよい。パラメータ判定部４０は、生データに対応する機械学習モデルの精度に対する誤差が最も小さくなる指定期間１２及び差分閾値１３の組合せを採用してもよい。

【0108】

＊＊＊動作の説明＊＊＊
図２２及び図２３は、データ圧縮システム９０の処理の一例を示すフローチャートである。図２２及び図２３を用いてデータ圧縮システム９０の処理を説明する。

【0109】

（ステップＳ３０１）
復元部１７は、ノイズ判定部１１によって生成された圧縮済データ１４を復元することにより復元データ４１を生成する。

【0110】

（ステップＳ３０２）
パラメータ判定部４０に時系列データ５が入力される。

【0111】

（ステップＳ３０３）
復元部１７は、データベース１５から過去に生成された各圧縮済データ１４を取り出し、取り出した各圧縮済データ１４を過去時系列データ３５として復元する。

【0112】

（ステップＳ３０４）
パラメータ判定部４０は、復元データ４１に対応する機械学習モデルの精度を測定し、測定結果に基づいて現在の指定期間１２及び差分閾値１３を採用するか否かを判定する。

【0113】

（ステップＳ３０５）
現在の指定期間１２及び差分閾値１３を採用する場合、データ圧縮システム９０はステップＳ１０６に進む。これらを採用しない場合、データ圧縮システム９０は本フローチャートの処理を繰り返し実行する。

【0114】

図２４は、統計量選択部３０の処理の一例を示すフローチャートである。図２４を用いて統計量選択部３０の処理を説明する。

【0115】

（ステップＳ３２１）
統計量選択部３０に使用済テーブル３０２が入力される。

【0116】

（ステップＳ３２２）
使用済テーブル３０２に選択した統計量３１及び統計量３３が存在する場合、統計量選択部３０は各統計量を選択する処理に戻る。それ以外の場合、統計量選択部３０はステップＳ３２３に進む。

【0117】

（ステップＳ３２３）
統計量選択部３０は、選択した統計量３１及び統計量３３を使用済テーブル３０２に記録する。

【0118】

図２５及び図２６は、パラメータ判定部４０の処理の一例を示すフローチャートである。図２５及び図２６を用いてパラメータ判定部４０の処理を説明する。

【0119】

（ステップＳ３４１）
パラメータ判定部４０に時系列データ５が入力される。

【0120】

（ステップＳ３４２）
パラメータ判定部４０に過去時系列データ３５が入力される。

【0121】

（ステップＳ３４３）
パラメータ判定部４０に判定対象である復元データ４１が入力される。

【0122】

（ステップＳ３４４）
モデル生成部４０１は、変数ＢａｓｅＳｅｑに時系列データ５を代入する。

【0123】

（ステップＳ３４５）
過去時系列データ３５が存在する場合、モデル生成部４０１はステップＳ３４６に進む。それ以外の場合、モデル生成部４０１はステップＳ３４６をスキップする。

【0124】

（ステップＳ３４６）
モデル生成部４０１は、変数ＢａｓｅＳｅｑに過去時系列データ３５を追加する。

【0125】

（ステップＳ３４７）
モデル生成部４０１は、変数ＢａｓｅＳｅｑが示すデータを学習データ（ＴｒａｉｎＤａｔａ）と評価データ（ＴｅｓｔＤａｔａ）とに分割する。

【0126】

（ステップＳ３４８）
モデル生成部４０１は、ＴｒａｉｎＤａｔａを入力として機械学習を実行することにより比較モデル４０２を生成する。

【0127】

（ステップＳ３４９）
推論部４０４は、モデル生成部４０１によって生成された比較モデル４０２に対してＴｅｓｔＤａｔａを入力して推論を実行することにより、推論結果４０５を生成する。

【0128】

（ステップＳ３５０）
モデル生成部４０１は、復元データ４１が示すデータを学習データ（ＴｒａｉｎＤａｔａ）と評価データ（ＴｅｓｔＤａｔａ）とに分割する。

【0129】

（ステップＳ３５１）
モデル生成部４０１は、ＴｒａｉｎＤａｔａを入力として機械学習を実行することにより判定対象モデル４０３を生成する。

【0130】

（ステップＳ３５２）
推論部４０４は、モデル生成部４０１によって生成された判定対象モデル４０３に対してＴｅｓｔＤａｔａを入力して推論を実行することにより、推論結果４０６を生成する。

【0131】

（ステップＳ３５３）
精度判定部４０７は、推論結果４０５に対する推論結果４０６の誤差を算出する。誤差の指標は、具体例として、ＲＳＭＥ（ＲｏｏｔＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ）、ＭＳＥ（ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ）、ＭＡＥ（ＭｅａｎＡｂｓｏｌｕｔｅＥｒｒｏｒ）、又はＭＡＰＥ（ＭｅａｎＡｂｓｏｌｕｔｅＰｅｒｃｅｎｔａｇｅＥｒｒｏｒ）である。

【0132】

（ステップＳ３５４）
算出した誤差が所定の閾値以上である場合、精度判定部４０７はステップＳ３５５に進む。それ以外の場合、精度判定部４０７はステップＳ３５６に進む。

【0133】

（ステップＳ３５５）
精度判定部４０７は採否４３を不採用とする。

【0134】

（ステップＳ３５６）
精度判定部４０７は採否４３を採用とする。

【0135】

（ステップＳ３５７）
パラメータ判定部４０は採否４３を出力する。

【0136】

＊＊＊実施の形態３の効果の説明＊＊＊
以上のように、本実施の形態によれば、生データに対応する機械学習モデルに対する、圧縮済データ１４に対応する機械学習モデルの誤差に基づいて指定期間１２及び差分閾値１３の採否を決定する。そのため、本実施の形態によれば、機械学習モデルの推論精度の低下を最小限にとどめるような指定期間１２及び差分閾値１３を自動的に判断することができる。

【0137】

＊＊＊他の実施の形態＊＊＊
前述した各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
また、実施の形態は、実施の形態１から３で示したものに限定されるものではなく、必要に応じて種々の変更が可能である。フローチャート等を用いて説明した手順は適宜変更されてもよい。

【符号の説明】

【0138】

１クラウドシステム、２センサー、５時系列データ、６ネットワーク、７データ受信部、９符号化部、１０符号化済データ、１１ノイズ判定部、１２指定期間、１３差分閾値、１４圧縮済データ、１５データベース、１７復元部、１８復元データ、１９エッジシステム、２２復元方法、３０統計量選択部、３０１統計量リスト、３０２使用済テーブル、３１統計量、３２指定期間算出部、３３統計量、３４差分閾値算出部、３５過去時系列データ、４０パラメータ判定部、４０１モデル生成部、４０２比較モデル、４０３判定対象モデル、４０４推論部、４０５，４０６推論結果、４０７精度判定部、４１復元データ、４３採否、５１プロセッサ、５２メモリ、５３補助記憶装置、５４入出力ＩＦ、５５通信装置、５８処理回路、５９信号線、９０データ圧縮システム、１００データ圧縮装置、２００データ復元装置。

【要約】

時系列的に連続的な１つ以上の同一値を示すデータ点から成る連続値を複数含む離散的な時系列データを圧縮するデータ圧縮装置（１００）はノイズ判定部（１１）を備える。時系列データに含まれている各連続値を対象連続値としたとき、ノイズ判定部（１１）は、対象連続値の継続期間が指定期間未満であり、かつ、対象連続値の値と、時系列的に対象連続値の開始点の直前のデータ点の値との差分が差分閾値以下である場合に対象連続値をノイズであると判定し、対象連続値の継続期間が指定期間以上であり、かつ、対象連続値の値と、時系列的に対象連続値の開始点の直前のデータ点の値との差分が差分閾値以下である場合に対象連続値をノイズではないと判定し、ノイズであると判定した各連続値を示さないデータであって、ノイズではないと判定した各連続値を示すデータであって、時系列データを圧縮したデータである圧縮済データを生成する。

【図1】