(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-04-25
(54)【発明の名称】機械学習を使用するデータ圧縮および通信
(51)【国際特許分類】
H03M 7/38 20060101AFI20220418BHJP
G06N 20/00 20190101ALI20220418BHJP
【FI】
H03M7/38
G06N20/00 130
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021552773
(86)(22)【出願日】2020-01-29
(85)【翻訳文提出日】2021-10-26
(86)【国際出願番号】 US2020015698
(87)【国際公開番号】W WO2020180424
(87)【国際公開日】2020-09-10
(32)【優先日】2019-03-04
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】521395816
【氏名又は名称】アイオーカレンツ, インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】バタチャリヤ, バスカー
【テーマコード(参考)】
5J064
【Fターム(参考)】
5J064BA01
5J064BB01
5J064BB03
5J064BC21
(57)【要約】
センサデータのストリームをモデル化し、予測統計モデルのパラメータを生成するステップと、予測統計モデルを定義する情報を伝送機から受信機に通信するステップと、予測統計モデルを定義する情報を受信機に通信した後に、統計モデルによる後続のセンサデータの予測に関する後続のセンサデータの誤差に依存する、後続のセンサデータを特徴付ける情報を伝送機から受信機に通信するステップとを含む、情報を通信する方法。対応する方法もまた、包含される。
【特許請求の範囲】
【請求項1】
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体は、コンテンツを記憶しており、前記コンテンツは、1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、伝送デバイスと受信デバイスとの間で情報を通信するためのアクションを実施させ、前記アクションは、
前記伝送デバイスから前記受信デバイスに、1つ以上の予測統計モデルを定義する情報を通信することであって、前記1つ以上の予測統計モデルは、少なくとも部分的にセンサデータの第1のカテゴリに基づいて、センサデータの第2のカテゴリを予測するように構成される、ことと、
前記1つ以上の予測統計モデルを定義する前記情報を通信した後に、前記伝送デバイスから前記受信デバイスに、(a)前記センサデータの第1のカテゴリのインスタンス、および(b)少なくとも、前記センサデータの第2のカテゴリのインスタンスと、前記センサデータの第1のカテゴリのインスタンスに基づいて前記1つ以上の統計モデルによって行われる予測との間の差異とを通信し、少なくとも前記センサデータの第2のカテゴリのインスタンスを暗示的形態で前記受信デバイスに伝達することと
を含む、コンピュータ可読記憶媒体。
【請求項2】
伝送デバイスと受信デバイスとの間で情報を通信するコンピュータ実装方法であって、
1つ以上の予測統計モデルを定義する情報を取得することであって、前記1つ以上の予測統計モデルは、少なくとも部分的にセンサデータの第1のカテゴリに基づいて、センサデータの第2のカテゴリを予測するように構成される、ことと、
前記伝送デバイスから前記受信デバイスに、(a)前記センサデータの第1のカテゴリのインスタンス、および(b)前記1つ以上の統計モデルによる予測と関連付けられる誤差データを通信し、少なくとも前記センサデータの第2のカテゴリのインスタンスを暗示的形態で伝達することと
を含む、方法。
【請求項3】
前記センサデータの第1のカテゴリは、前記1つ以上の予測統計モデルの独立変数に対応し、前記センサデータの第2のカテゴリは、前記1つ以上の予測統計モデルの従属変数に対応する、請求項2に記載の方法。
【請求項4】
前記1つ以上の統計モデルによる予測と関連付けられる前記誤差データは、前記センサデータの第2のカテゴリのインスタンスのうちの少なくとも1つと、前記センサデータの第1のカテゴリのインスタンスに基づいて前記1つ以上の統計モデルによって行われる予測との間の差異のインジケーションを備える、請求項2に記載の方法。
【請求項5】
前記1つ以上の予測統計モデルは、少なくとも部分的に前記センサデータの第1および第2のカテゴリの前のインスタンスに基づいて訓練される、請求項2に記載の方法。
【請求項6】
少なくとも部分的に前記センサデータの第1のカテゴリのインスタンスおよび前記センサデータの第2のカテゴリのインスタンスに基づいて、前記1つ以上の予測統計モデルを更新することをさらに含む、請求項2に記載の方法。
【請求項7】
情報を通信する方法であって、
センサデータのストリームをモデル化し、予測統計モデルのパラメータを生成することと、
前記予測統計モデルを定義する情報を伝送機から受信機に通信することと、
前記予測統計モデルを定義する前記情報を前記受信機に通信した後に、前記統計モデルによる前記後続のセンサデータの予測に関する後続のセンサデータの誤差に依存する前記後続のセンサデータを特徴付ける情報を前記伝送機から前記受信機に通信することと
を含む、方法。
【請求項8】
前記受信機において、少なくとも部分的に前記センサデータの誤差および統計モデルによる前記センサデータの予測に基づいて、前記後続のセンサデータを計算することをさらに含む、請求項7に記載の方法。
【請求項9】
後続のセンサデータの時系列を入手することと、前記伝送機から前記受信機に、前記予測統計モデルによる後続のセンサデータ時間サンプルの予測に関する前記後続のセンサデータ時間サンプルの誤差の時系列を備える前記後続のセンサデータの時系列を特徴付ける情報を通信することとさらに含む、請求項7に記載の方法。
【請求項10】
前記予測統計モデルは、後続のセンサデータを特徴付ける前記通信された情報に適応する、請求項7に記載の方法。
【請求項11】
前記伝送機のメモリおよび前記受信機のメモリ内の前記予測統計モデルに依存する情報を記憶することをさらに含む、請求項7に記載の方法。
【請求項12】
予測されるセンサデータ誤差標準偏差に基づいて、センサデータ標準誤差を決定することをさらに含む、請求項7に記載の方法。
【請求項13】
前記予測統計モデルは、少なくとも部分的に前記センサデータで表される独立変数と従属変数との間の関係に基づいて導出される、請求項7に記載の方法。
【請求項14】
前記予測統計モデルは、平均訓練誤差と、訓練周期内の訓練データセットのセンサデータのストリームに関する前記平均訓練誤差の標準偏差とを備える誤差統計を発生させる、請求項13に記載の方法。
【請求項15】
前記予測統計モデルに基づいて、センサデータの予測されるストリーム、センサデータ誤差平均の予測されるストリーム、およびセンサデータ誤差標準偏差の予測されるストリームを算出することをさらに含む、請求項14に記載の方法。
【請求項16】
前記センサデータ誤差平均の予測されるストリームを前記伝送機から前記受信機に通信することをさらに含む、請求項15に記載の方法。
【請求項17】
前記受信機において前記センサデータ誤差平均の予測されるストリームを受信することと、前記予測統計モデルおよび前記センサデータ誤差平均の受信されたストリームに基づいて、前記センサデータのストリームを再構築することとをさらに含む、請求項16に記載の方法。
【請求項18】
システムであって、
1つ以上のプロセッサと、
メモリであって、前記メモリは、コンテンツを記憶しており、前記コンテンツは、前記1つ以上のプロセッサによって実行されると、前記システムに、
センサデータのストリームをモデル化する予測統計モデルを定義する情報を取得することと、
前記統計モデルによる後続のセンサデータの予測に関する前記後続のセンサデータの誤差に依存する前記後続のセンサデータを特徴付ける情報を伝送機から受信機に通信することと
を行わせる、メモリと
を備える、システム。
【請求項19】
前記コンテンツは、前記1つ以上のプロセッサによって実行されると、前記システムにさらに、前記予測統計モデルによる前記後続のセンサデータの予測の標準誤差を前記伝送機から前記受信機に伝送させる、請求項18に記載のシステム。
【請求項20】
前記センサデータのストリームは、少なくとも1つの共通制御変数に依存する複数のセンサからのセンサデータを備え、前記予測統計モデルは、前記複数のセンサからの前記センサデータの相関に依存し、前記コンテンツは、前記1つ以上のプロセッサによって実行されると、前記システムにさらに、
前記センサデータの相関に依存する前記予測統計モデルに関する前記複数のセンサからの後続のセンサデータの標準誤差を計算し、少なくとも前記相関に基づいて前記標準誤差をエントロピーエンコードすることと、
前記エントロピーエンコードされた標準誤差、および前記少なくとも1つの共通制御変数の表現を前記伝送機から前記受信機に伝送することと
を行わせる、請求項18に記載のシステム。
【請求項21】
前記センサデータのストリームは、エンジン速度、エンジン負荷、冷却剤温度、冷却剤圧力、油温度、油圧、燃料圧力、または燃料アクチュエータ状態のうちの少なくとも1つを備えるタイムスタンプ付きデータを備える、請求項18に記載のシステム。
【請求項22】
前記予測統計モデルは、スプラインモデル、ニューラルネットワーク、サポートベクトルマシン、または一般化加法モデル(GAM)のうちの少なくとも1つを備える、請求項18に記載のシステム。
【請求項23】
前記センサデータのストリームは、一連のタイムスタンプに関して時間的に平均されたセンサデータを備える、請求項18に記載のシステム。
【請求項24】
前記伝送機と前記受信機との間の通信は、帯域幅が制約される、請求項18に記載のシステム。
【請求項25】
前記伝送機および受信機は、非対称であり、前記伝送機は、データソースであり、前記受信機は、データシンクであり、前記受信機は、複数の伝送機から通信を受信するように構成される、請求項18に記載のシステム。
【請求項26】
前記予測統計モデルによる前記後続のセンサデータの予測に関する後続のセンサデータの誤差を備える後続のセンサデータを特徴付ける前記情報は、後続のセンサデータと予測される後続のセンサデータとの間の瞬間誤差から訓練誤差平均を減算し、本差異を個別のセンサに関する訓練誤差標準偏差で除算し、予測誤差のzスコアを生成することによって標準化される標準化された訓練誤差平均を備える、請求項18に記載のシステム。
【請求項27】
前記後続のセンサデータの予測に関する前記後続のセンサデータの誤差は、前記後続のセンサデータの予測される平均から離れるように標準偏差の単位に関して統計的に正規化および量子化される、請求項18に記載のシステム。
【請求項28】
前記後続のセンサデータの予測に関する前記後続のセンサデータの誤差は、前記後続のセンサデータの予測される平均から離れるように標準偏差の単位に関して不均等なステップで量子化される、請求項18に記載のシステム。
【請求項29】
前記後続のセンサデータの予測に関する前記後続のセンサデータの誤差は、前記後続のセンサデータの予測される平均からのより高い偏差に関するよりも前記後続のセンサデータの予測される平均から離れたより小さい偏差に関して高い分解能で表される、請求項18に記載のシステム。
【請求項30】
後続のセンサデータを特徴付ける情報を通信することは、独立変数を表す暗号化された情報および従属変数を表す暗号化されていない情報を通信することを含む、請求項18に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、参照することによってその全体として本明細書に組み込まれる、2019年3月4日に出願され、「SYSTEM AND METHOD FOR DATA COMPRESSION AND PRIVATE COMMUNICATION OF MACHINE DATA BETWEEN COMPUTERS USING MACHINE LEARNING」と題された、仮米国出願第62/813,664号の利益を主張する。
【0002】
本開示は、データ圧縮の分野に関し、より具体的には、例えば、センサデータの記憶および通信のための統計的性質に基づくデータの非可逆圧縮に関する。
【背景技術】
【0003】
コンピュータの間で(例えば、1つ以上の機械のデータを収集し、1つ以上のクラウドサーバに送信しているエッジデバイスから)機械データ時系列を持続的に転送するために、1つのコンピュータが、典型的には、タイムスタンプデータ、随意に、位置データ(例えば、GPS場所)または他のコンテキスト情報とともに、各タイムスタンプにおいて機械から収集されるセンサデータ値の全てを、クラウド内にあり得る別のコンピュータに転送する。本通信負担は、大量のデータを転送するコストに起因して、モノのインターネット(IoT)データ転送における主要な課題のうちの1つである。さらに、待ち時間が、増加し得、通信信頼性が、データ量の増加とともに減少し得る。
【0004】
データファイルのサイズを縮小するプロセスは、多くの場合、データ圧縮と称される。データ伝送との関連で、これは、ソースコーディングと呼ばれ、すなわち、記憶または伝送される前にデータのソースにおいて行われるエンコーディングである。
【0005】
信号処理では、データ圧縮、ソースコーディング、またはビットレート削減は、典型的には、本来の表現よりも少ないビットを使用して情報をエンコードすることを伴う。圧縮は、非可逆または可逆のいずれかであり得る。可逆圧縮は、冗長性を識別および排除することによって、ビットを削減する。本削減は、決定論的である、すなわち、ビットの削減が保証される、または統計的であり得る、すなわち、殆どの状況下の特定のタイプの冗長性削減が、エンコーディングに要求されるビットの正味の削減につながる。いずれの情報も、可逆圧縮では失われない。
【0006】
可逆データ圧縮アルゴリズムは、通常、プロセスが可逆的であるように、統計的冗長性を活用し、いずれの情報も失うなかにとなくデータを表す。可逆圧縮は、実世界データが典型的には冗長性(エントロピーの欠如)を有するという事実に依拠する。したがって、データを再エンコードし、表現のエントロピーを増加させることによって、データ(ビット)の量が削減され得る。Lempel-Ziv(LZ)圧縮方法が、ランレングスエンコーディングを採用する。殆どのLZ方法に関して、前の文字列のテーブルが、入力内の以前のデータから動的に発生される。テーブル自体が、多くの場合、ハフマンエンコードされる。このような文法ベースのコードは、高度に反復的な入力、例えば、同一のまたは密接に関連する種の生物学的データ収集、巨大バージョンの文書収集、インターネットアーカイバル等を極めて効果的に圧縮することができる。文法ベースのコードの基本的タスクは、単一の文字列を導出するコンテキストがない文法を構築することである。他の実用的文法圧縮アルゴリズムは、SequiturおよびRe-Pairを含む。
【0007】
いくつかの可逆圧縮器は、部分マッチングによる予測等の確率的モデルを使用する。Burrows-Wheeler変換もまた、統計モデル化の間接的形態と見なされることができる。確率的モデル化の直接使用のさらなる改良では、統計的推定が、有限状態機械の数学的計算を使用し、一連の入力データシンボルからエンコードされたビットの列を生成する、算術コーディングと呼ばれるアルゴリズムに結合されることができる。これは、内部メモリ状態を使用し、整数のビット数を使用する明確に異なる表現への個々の入力シンボルの1対1のマッピングを実施する必要性を回避し、データシンボルの列全体をエンコーディングした後のみ、内部メモリを消去する。算術コーディングは、特に、入力データの確率分布の適応モデルと容易に結合され得るため、統計が変動し、コンテキスト依存性である、適応データ圧縮タスクにうまく適用される。
【0008】
非可逆圧縮は、典型的には、不必要な、またはあまり重要ではない情報を除去することによって、ビット数を削減する。これは、雑音と見なされ得る信号側面および/またはデータの最終的使用のために低い重要性を有する信号側面を予測することを伴うことができる。非可逆データ圧縮は、一側面では、情報を失う可逆データ圧縮の逆である。しかしながら、情報の損失を受けて、可逆圧縮の技法もまた、非可逆データ圧縮とともに採用されてもよい。
【0009】
機械学習と圧縮との間には密接な関連性があり、その履歴全体を前提としてシーケンスの事後確率を予測するシステムが、(出力分布上で算術コーディングを使用することによって)最適なデータ圧縮のために使用されることができる一方、最適な圧縮器が、(前の履歴を前提として最良に圧縮するシンボルを見出すことによって)予測のために使用されることができる。
【0010】
圧縮アルゴリズムは、文字列を暗示的特徴空間ベクトルの中に暗示的にマップすることができ、圧縮ベースの類似性尺度が、これらの特徴空間内の類似性を算出するために使用されることができる。圧縮器C(.)毎に、C(.)が、ベクトルノルム||~x||に対応する入力文字列xをマップするように、関連付けられるベクトル空間
【化1】
を定義する。
【0011】
可逆圧縮、典型的には、同様に非可逆圧縮では、情報冗長性が、非圧縮データを表すために使用される情報の量を削減するように、コーディング、パターン認識、および線形予測等の方法を使用して、削減される。非可逆アルゴリズムの質に起因して、品質は、ファイルが解凍および再圧縮されるときに損なわれる(デジタル発生損失)。(可逆圧縮が、非冗長情報の損失を通して達成され得るため、エントロピーの増加は、保証されない。)
【0012】
非可逆圧縮では、失われた情報は、雑音である、または雑音として扱われる。雑音をフィルタ処理するための1つの方法は、データを、想定信号がデータ空間の領域内に集中している表現に変換し、疎分布を形成することである。分布の疎領域は、例えば、閾値を適用することによって、切断されてもよく、分布の残りの高密度領域は、さらに変換またはエンコードされてもよい。複数の異なる方法が、異なる基準に基づいて雑音を低減させるために採用されてもよい。
【0013】
【0014】
無線センサネットワーク(WSN)は、典型的には、連続環境監視等の異なるタスクを果たすように感知面積内に分配される多数のセンサから成る。これらのネットワークは、着目面積を持続的に感知し、感知されたデータをシンクノードに伝送することを意図している。電力消費制約に起因して、多くの場合、空間および時間ドメイン内で高い相関を呈し、電力および帯域幅要件を低減させ、待ち時間を短縮し、誤差検出および補正(EDC)エンコーディングのためのさらなる機会を提供するように、効率的に圧縮され得るため、未加工の感知されたデータをシンクに直接伝送することは、非効率的である。
【0015】
【化3-1】
【化3-2】
【化3-3】
【化3-4】
【化3-5】
を参照されたい。
【0016】
WSN内の空間相関は、例えば、空間的に隣接するセンサノードにおける感知されたデータの間の相関を指す。他方では、時間相関は、通常、感知されたデータの遅い変動する性質を指す。圧縮感知(CS)は、これらのデータの疎性を活用することによって、効率的な様式で相関データを処理および運搬するための手段を提供するツールである。時間相関は、ソースを自己回帰(AR)プロセスとしてモデル化し、次いで、そのような情報を疎信号復元のための疎ベイズ学習のフレームワークの中に組み込み、多重測定ベクトル(MMV)をブロック単一測定ベクトル(SMV)モデルに変換する、MMVの形態でモデル化されることができる。圧縮感知理論は、洗練された数学的フレームワークを提供し、少数の線形測定を使用して、信号を圧縮および復元する。測定行列上のある条件下で、入手された信号は、これらの測定から完全に再構築されることができる。
平均は、中心傾向の一般的に使用されている尺度であり、以下の式による、サンプル内の全値による影響を受ける。
【化4】
【0017】
μは、母平均であり、
【化5】
は、サンプル平均である。
【0018】
標準偏差は、以下の式による、変動性の尺度である。
【化6】
【0019】
【0020】
わずかなサンプルバイアスが、n-1で除算することによって補正され得てもよく、nは、サンプルの数、すなわち、以下である。
【化8】
【0021】
正規分布は、釣鐘曲線を有し、ランダムプロセスによって導入される(全てではないが)多くの天然分布の合理的に正確な説明である。これは、単峰型、対称であり、μ±σにおいて変曲点を有し、x軸に接近するテールを有し、その平均および標準偏差によって完全に定義される。
平均の標準誤差は、所与のサンプルサイズの異なるサンプルのサンプリング誤差の標準偏差である。
【化9】
のサンプリング誤差に関して、
【0022】
nが増加するにつれて、変動性が減少する。
【化10】
【0023】
【化11-1】
【化11-2】
【化11-3】
【化11-4】
【化11-5】
【化11-6】
【化11-7】
【化11-8】
【化11-9】
【図面の簡単な説明】
【0024】
【
図1】
図1は、本開示される技術のいくつかの実施形態による、伝送機と、受信機とを含む、システムのブロック図を示す。
【0025】
【
図2】
図2は、本開示される技術のいくつかの実施形態による、伝送機および受信機によって実施されるアクションのフローチャートを示す。
【発明を実施するための形態】
【0026】
本開示は、センサデータを通信することに関する。いくつかの実施形態によると、開示される技法は、送信および受信側の両方で一般的な機械学習ベースのモデルを使用し、全てのセンサデータを連続変数として送信する代わりに、発生されたモデルの予測に基づいて、独立センサ変数および従属センサ変数の離散標準誤差値のみを送信することによって、データ量を有意に圧縮する。したがって、本開示される技術は、精度の損失を犠牲にしてデータ量を削減する。精度の損失は、データの意図された目的、例えば、人間の閲覧を果たすように、慎重に設計されることができる。いくつかの実施形態では、種々の適用可能な可逆データ圧縮技法(例えば、ハフマンエンコーディング)が、本開示される非可逆圧縮技術の前に、後に、および/または別様にそれと組み合わせて、実装されることができる。例えば、本開示される技術を適用した後に、独立パラメータ(例えば、独立センサ変数)および/またはコンテキストデータ(例えば、タイムスタンプ、緯度、経度、または同等物)が、データ伝送の前に、他の圧縮技法を使用して圧縮されることができる。
【0027】
1つまたは複数の機械がエッジデバイスに接続される、システムを考慮されたい。システムの開始時に、伝送デバイス(例えば、エッジコンピュータ)は、機械データの全てを受信デバイス(例えば、クラウドサーバ)に転送しなければならない。十分なデータが伝送されるとき、システムの両側が、同じ機械学習ベースのモデルを発生させる。いったんモデル発生が両側で完了すると、システムは、削減伝送モードに同期して切り替わり、算出された誤差値のみ、例えば、標準誤差値を従属センサ変数のデータとして送信する。
【0028】
経時的に、モデルは、更新されてもよいが、しかしながら、本更新は、圧縮に導入される精度の損失に起因して、エッジデバイス上で生じなければならない。新しいモデルが、必要に応じて発生され、利用可能であるときに、高帯域幅および/または安価な通信チャネル(例えば、LAN、WLAN、またはセルラー通信)を経由して送信されてもよい一方、より低いデータレートおよび/または高価な通信媒体(例えば、衛星通信、LoRaWAN等)が、機械データを送信するために使用されることができる。モデル同期化プロセスは、エッジデバイスが高帯域幅および/または安価な通信媒体へのアクセスを有するときに(例えば、展開されたエッジデバイスを伴う車両がある地理的地域に進入するときに)、ある周期にわたってスケジュールされてもよい。本システムは、送信機および受信機が両方とも新しいモデルおよび新しい訓練誤差統計を同期化するまで、新しいモデルを使用し始めることができず、その時点で、両側は、同期して切り替わり、更新された圧縮機構に従って、圧縮されたデータを送信および受信し始めなければならない。
【0029】
機械学習ベースのモデルの潜在的に大きいサイズに起因して、モデルは、データベースルックアップテーブルとして記憶されてもよく、精度の損失を犠牲にしてモデルサイズを著しく縮小する。モデルデータ列は、入力独立変数の実用的な可能性として考えられる組み合わせに制限され、故に、モデルのサイズを収縮し得る。テーブル形態で保存され、0~2,000のディーゼルエンジンの速度(すなわち、毎分回転数)と、0~100%のエンジン負荷とを含む、典型的モデルは、200,001列(すなわち、両方ともゼロであるエンジン速度およびエンジン負荷割合に関して2,000×100列+1列)を有するであろう。したがって、20センサモデル(2独立および18従属)が、センサあたり4バイトの記憶を考慮する、約16MB空間を要求するであろう。
【0030】
いくつかの実施形態では、エッジデバイスは、機械から経時的に収集される訓練データセット上で機械学習ベースの方法を起動し、独立変数と従属変数との間の関係を表すモデルを発生させる。いったんモデルが構築されると、これは、モデル予測従属センサ値と実際の測定される従属センサ値との間の差異から訓練周期に関して誤差統計(すなわち、平均訓練誤差および訓練誤差の標準偏差)を発生させ、センサ特有の誤差統計を保存するであろう。いったんMLベースのモデルが訓練データを使用して構築され、従属センサの誤差平均および誤差標準偏差が発生され、送信機および受信機側の両方で記憶されると、実行時に、エッジデバイスは、全ての独立および従属センサ変数を測定し、測定される従属センサ値と予測されるセンサ値との間の差異からの全ての従属センサ値の標準誤差、および誤差平均、および誤差標準偏差を算出し、従属センサ値の標準誤差のみを伝送することができる。受信コンピュータは、それが以前にエッジから受信した正確に同一のデータから独立して、同一のモデルを発生させることができる。受信コンピュータが、センサ毎に標準誤差値を受信するとき、具体的独立センサ変数に関するモデル予測センサ値および訓練誤差統計を使用して、標準誤差値から戻るように実際のセンサデータ値を算出することができる。
【0031】
したがって、センサデータのストリームをモデル化し、予測統計モデルのパラメータを生成するステップと、予測統計モデルを定義する情報を伝送機から受信機に通信するステップと、予測統計モデルを定義する情報を受信機に通信した後に、統計モデルによる後続のセンサデータの予測に関する後続のセンサデータの誤差に依存する、後続のセンサデータを特徴付ける情報を伝送機から受信機に通信するステップとを含む、情報を通信する方法を提供することが目的である。
【0032】
また、伝送機へのセンサデータ入力のストリームをモデル化し、予測統計モデルのパラメータを生成するステップと、予測統計モデルを定義する情報を受信機に通信するステップと、予測統計モデルによる後続のセンサデータの予測に関する後続のセンサデータの統計的に正規化された差分エンコーディングとして、後続のセンサデータを特徴付ける情報を伝送機から受信機に通信するステップとを含む、伝送機および受信機の状態を同期化し、センサデータのストリームを通信する方法を提供することも目的である。
【0033】
さらに、センサデータのストリームをモデル化することによって導出される、メモリ内に記憶された予測統計モデルと、伝送機から通信を受信するように構成される、通信ポートと、伝送機から予測統計モデルを定義する情報を受信し、予測統計モデルを定義する情報の受信後に、統計モデルによる後続のセンサデータの予測に関する後続のセンサデータの誤差に依存する、後続のセンサデータを特徴付ける情報を伝送機から受信するように構成される、少なくとも1つのプロセッサとを備える、通信された情報を受信するためのシステムを提供することが目的である。
【0034】
センサデータのストリームをモデル化することによって導出される、メモリ内に記憶された予測統計モデルと、受信機と通信するように構成される、通信ポートと、予測統計モデルを定義する情報を受信機に伝送し、受信機への予測統計モデルを定義する情報の通信後に、統計モデルによる後続のセンサデータの予測に関する後続のセンサデータの誤差に依存する、後続のセンサデータを特徴付ける情報を受信機に通信するように構成される、少なくとも1つのプロセッサとを備える、情報を通信するためのシステムを提供することが別の目的である。
【0035】
さらなる目的は、受信機と通信するように構成される、通信ポートと、センサデータのストリームをモデル化し、予測統計モデルのパラメータを定義し、予測統計モデルの定義されたパラメータを受信機に通信し、予測統計モデルによる一連の後続のセンサデータの予測に関する一連の統計的に正規化された差分的にエンコードされる後続のセンサデータを備える、後続のセンサデータを特徴付ける情報を受信機に通信するように構成される、少なくとも1つの自動プロセッサと備える、伝送機および受信機の状態を同期化し、センサデータのストリームを通信するためのシステムを提供する。
【0036】
本方法はさらに、受信機において、センサデータの誤差および統計モデルによるセンサデータの予測から後続のセンサデータを計算するステップを含んでもよい。
【0037】
本方法はさらに、後続のセンサデータの時系列を入手するステップと、伝送機から受信機に、予測統計モデルによる後続のセンサデータ時間サンプルの予測に関する後続のセンサデータ時間サンプルの誤差の時系列を備える、後続のセンサデータの時系列を特徴付ける情報を通信するステップとを含んでもよい。
【0038】
予測統計モデルは、後続のセンサデータを特徴付ける、通信された情報に適応し得る。
【0039】
本方法はさらに、伝送機のメモリおよび受信機のメモリ内の予測統計モデルに依存する情報を記憶するステップを含んでもよい。
【0040】
本方法はさらに、予測されるセンサデータ誤差標準偏差に基づいて、センサデータ標準誤差を決定するステップを含んでもよい。
【0041】
予測統計モデルは、センサデータで表される独立変数と従属変数との間の関係に基づいて開発される、機械学習ベースのアルゴリズムから導出されてもよい。
【0042】
予測統計モデルは、平均訓練誤差と、訓練周期内の訓練データセットのセンサデータのストリームに関する平均訓練誤差の標準偏差とを備える、誤差統計を発生させてもよい。
【0043】
予測統計モデルは、機械学習によって発生される線形モデルを備えてもよい。
【0044】
予測統計モデルは、センサデータのストリームの少なくとも1つの独立変数の範囲のセットに関してそれぞれ提供される、複数の予測統計モデルを備えてもよい。
【0045】
本方法はさらに、予測統計モデルに基づいて、センサデータの予測されるストリーム、センサデータ誤差平均の予測されるストリーム、およびセンサデータ誤差標準偏差の予測されるストリームを算出するステップを含んでもよい。
【0046】
本方法はさらに、センサデータ誤差平均の予測されるストリームを伝送機から受信機に通信するステップを含んでもよい。本方法はさらに、受信機においてセンサデータ誤差平均の予測されるストリームを受信するステップと、予測統計モデルおよびセンサデータ誤差平均の受信されたストリームに基づいて、センサデータのストリームを再構築するステップとを含んでもよい。
【0047】
本方法はさらに、受信された予測統計モデル、少なくとも1つの制御変数、および後続のセンサデータのストリームの誤差に基づいて、後続のセンサデータのストリームを近似的に再構築するステップを含んでもよい。
【0048】
本方法はさらに、予測統計モデルによる後続のセンサデータの予測の標準誤差を伝送機から受信機に伝送するステップと、予測の受信された標準誤差および予測統計モデルから、受信機における予測統計モデルによる後続のセンサデータの予測を推論するステップとを含んでもよい。
【0049】
センサデータのストリームは、少なくとも1つの共通制御変数に依存する複数のセンサからのセンサデータを備えてもよく、予測統計モデルは、複数のセンサからのセンサデータの相関に依存し、センサデータの相関に依存する予測統計モデルに関する複数のセンサからの後続のセンサデータの標準誤差を計算し、少なくとも相関に基づいて標準誤差をエントロピーエンコードするステップと、エントロピーエンコードされた標準誤差、および少なくとも1つの共通制御変数の表現を伝送機から受信機に伝送するステップとをさらに含む。
【0050】
センサデータのストリームは、エンジンデータを備える。エンジンデータは、エンジン速度、エンジン負荷、冷却剤温度、冷却剤圧力、油温度、油圧、燃料圧力、または燃料アクチュエータ状態のうちの少なくとも1つを備える、タイムスタンプ付きデータを備えてもよい。エンジンデータは、エンジン速度と、エンジン負荷割合と、冷却剤温度、冷却剤圧力、油温度、油圧、および燃料圧力のうちの少なくとも1つとを備える、タイムスタンプ付きデータを備えてもよい。エンジンは、ディーゼルエンジンであってもよく、センサデータのモデル化されたストリームは、ディーゼルエンジンがエンジン速度およびエンジン負荷の有界範囲内で定常状態である間に入手される。
【0051】
予測統計モデルは、スプラインモデル、ニューラルネットワーク、サポートベクトルマシン、および/または一般化加法モデル(GAM)であってもよい。
【0052】
データハンドリングのグループ方法、ナイーブベイズ、k近傍法アルゴリズム、大多数分類子、サポートベクトルマシン、ランダムフォレスト、ブーストされたツリー、CART(分類および回帰ツリー)、多変量適応回帰スプライン(MARS)、ニューラルネットワークおよびディープニューラルネットワーク、ACEおよびAVAS、通常最小二乗、一般化線形モデル(GLM)(一般化線形モデル(GLM)は、単一の方法の下で統一される柔軟なモデル族である。ロジスティック回帰は、GLMの著しい特別な場合である。他のタイプのGLMは、ポアソン回帰、ガンマ回帰、および多項回帰を含む)、ロジスティック回帰(ロジスティック回帰は、離散変数の未知の値が1つ以上の連続および/または離散変数の既知の値に基づいて予測される、技法である。ロジスティック回帰は、従属変数が本質的に2進数であるという点で、通常最小二乗(OLS)回帰と異なる。本手順は、多くの用途を有する)、一般化加法モデル、ロバスト回帰、およびセミパラメトリック回帰を含む、種々の予測モデル化方法が、公知である。以下を参照されたい。
【0053】
【0054】
統計学では、一般化線形モデル(GLM)は、正規分布以外の誤差分布モデルを有する応答変数を可能にする、通常の線形回帰の柔軟な一般化である。GLMは、線形モデルがリンク関数を介して応答変数に関連することを可能にすることによって、かつ各測定の分散の規模がその予測値の関数であることを可能にすることによって、線形回帰を一般化する。一般化線形モデルは、線形回帰、ロジスティック回帰、およびポアソン回帰を含む、種々の他の統計モデルを統一し、モデルパラメータの最大尤度推定のために反復的再加重最小二乗方法を採用する。以下を参照されたい。
【0055】
【化13-1】
【化13-2】
【化13-3】
【化13-4】
【化13-5】
【化13-6】
【化13-7】
【化13-8】
【0056】
通常の線形回帰は、観察される値(予測因子)のセットの線形結合として、所与の未知の数量(応答変数、ランダム変数)の期待値を予測する。これは、予測因子の一定の変化が応答変数の一定の変化につながること(すなわち、線形応答モデル)を含意する。これは、応答変数が正規分布を有するときに(直観的に、応答変数が固定された「ゼロ値」を伴わずにいずれかの方向に本質的に無期限に変動し得るときに、またはより一般的には、比較的に少量だけ変動する任意の数量、例えば、ヒトの身長に関して)適切である。しかしながら、これらの仮定は、いくつかのタイプの応答変数にとって不適切である。例えば、応答変数が、常に正であり、広範囲にわたって変動することが予期される場合において、一定の入力変化は、常に変動するのではなく、幾何学的に変動する出力変化につながる。
【0057】
GLMでは、従属変数の各成果Yは、とりわけ、正規、2項、ポアソン、およびガンマ分布を含む、広い範囲の確率分布である、指数分布族内の特定の分布から発生されると仮定される。
【0058】
GLMは、3つの要素、すなわち、指数分布族からの確率分布、線形予測因子η=Xβ、およびE(Y)=μ=g-1(η)であるようなリンク関数gから成る。線形予測因子は、独立変数についての情報をモデルの中に組み込む数量である。シンボルη(ギリシャ文字の「エータ」)は、線形予測因子を表す。これは、リンク関数を通してデータの期待値に関連する。ηは、未知のパラメータβの線形結合(したがって、「線形」)として表現される。線形結合の係数は、独立変数Xの行列として表される。ηは、したがって、線形予測因子と分布関数の平均との間の関係を提供するリンク関数として表現されることができる。多くの一般的に使用されているリンク関数が存在し、それらの選定は、いくつかの考慮事項によって知らされる。応答の密度関数の指数関数から導出される、明確に定義された正準リンク関数が常に存在する。しかしながら、ある場合には、リンク関数のドメインを分布関数の平均の範囲に合致させようとすること、またはアルゴリズムの目的、例えば、ベイズプロビット回帰のために、正準リンク関数を使用することが意味を成す。最も一般的な分布に関して、平均は、分布の密度関数の標準形態のパラメータのうちの1つであり、次いで、密度関数をその正準形態にマッピングする、上記に定義されるような関数である。一般化線形モデルの単純で非常に重要な実施例(また、一般的線形モデルの実施例)は、線形回帰である。線形回帰では、最小二乗推定量の使用は、分布が正規であると仮定しない、ガウス・マルコフの定理によって正当化される。
【0059】
標準GLMは、観察が無相関であると仮定する。拡張が、例えば、縦断研究およびクラスタ化された設計で生じるような観察の間の相関を可能にするために開発されてきた。一般化推定方程式(GEE)が、相関の起源のために明示的な確率モデルを使用することなく、観察の間の相関を可能にするため、明示的な尤度が存在しない。それらは、その起源を解説することなく相関を可能にするため、変量効果およびそれらの分散が本質的に着目されないときに好適である。焦点は、所与の個人のXの1つ以上の成分を変化させる効果の予測を可能にするであろう、回帰パラメータではなく、母集団にわたって平均応答を推定すること(「母集団平均」効果)にある。GEEは、通常、Huber-White標準誤差と併せて使用される。一般化線形混合モデル(GLMM)は、線形予測因子に変量効果を含み、相関の起源を解説する明示的確率モデルをもたらす、GLMへの拡張である。結果として生じる「対象特有の」パラメータ推定値は、焦点が所与の個人のXの1つ以上の成分を変化させる効果を推定することにあるときに好適である。GLMMはまた、マルチレベルモデルおよび混合モデルとも称される。一般に、GLMMを適合させることは、GEEを適合させることよりも計算上複雑かつ集約的である。
【0060】
統計学では、一般化加法モデル(GAM)は、線形予測因子が、いくつかの予測因子変数の未知の平滑関数に直線的に依存し、関心が、これらの平滑関数についての推論に焦点を当てる、一般化線形モデルである。GAMは、本来、一般化線形モデルの性質を加法モデルと混成するためにTrevor HastieおよびRobert Tibshiraniによって開発された。
【0061】
モデルは、単変量応答変数をいくつかの予測因子変数に関連させる。指数分布族分布が、単変量応答変数の期待値を予測因子変数に関連させるリンク関数g(例えば、恒等または対数関数)とともに規定される(例えば、正規、2項、またはポアソン分布)。
【0062】
関数は、規定パラメトリック形態(例えば、変数の多項式または非処罰化回帰スプライン)を有してもよい、または非パラメトリック手段によって推定されるように、単に「平滑関数」として非パラメトリックに、または半パラメトリックに規定されてもよい。したがって、典型的GAMが、局所的加重平均等の散布図平滑化関数を使用し得る。応答と予測因子との間の実際の関係上で緩和した仮定との非パラメトリック適合を可能にするための本柔軟性は、ほぼ間違いなく解釈可能性のある程度の損失を伴うが、純パラメトリックモデルよりもデータへの良好な適合の潜在性を提供する。
【0063】
任意の多変量関数が、単変量関数の総和および組成として表されることができる。残念ながら、Kolmogorov-Arnold表現定理は、本形態の関数の存在を主張するが、それが構築され得る機構をもたらさない。ある構成的証明が存在するが、それらは、極めて複雑な(すなわち、フラクタル)関数を要求する傾向があり、したがって、モデル化アプローチのために好適ではない。任意の段階的(すなわち、バックフィッティングアルゴリズム)アプローチが解を近似さえし得ることは明確ではない。したがって、一般化加法モデルは、外側総和をドロップし、代わりに、関数がより単純なクラスに属することを要求する。
【0064】
本来のGAM適合方法は、バックフィッティングアルゴリズムを介して、非パラメトリック平滑化因子(例えば、平滑化スプラインまたは局所線形回帰平滑化因子)を使用して、モデルの平滑成分を推定した。バックフィッティングは、部分残余の反復平滑化によって作用し、多種多様な平滑化方法を使用し、項を推定することが可能である、非常に一般的なモジュール式推定方法を提供する。GAMおよびそれらの拡張の多くの現代の実装が、比較的に控えめな算出コストにおいて成分平滑の平滑性の根拠の確かな推定を可能にし、また、他の方法ではより困難である方法でいくつかのモデル拡張の実装を促進するため、低減ランク平滑化アプローチの周囲に構築される。端的に言えば、発想は、モデル内の未知の平滑関数を基本拡張と置換することである。バイアスを平滑化することは、これらのモデルのための間隔推定を複雑にし、最も単純なアプローチは、ベイズアプローチを伴うことが判明する。本平滑化のベイズ見解を理解することはまた、平滑化パラメータ推定へのREMLおよび完全ベイズアプローチを理解することにも役立つ。あるレベルにおいて、平滑化罰則が課される。
【0065】
過剰適合は、特に、モデル化されていない残余自己相関またはモデル化されていない過剰分散が存在する場合、GAMでは問題であり得る。相互検証が、GAM(または他の統計的方法)に関する過剰適合問題を検出する、および/または低減させるために使用されることができ、ソフトウェアが、多くの場合、処罰化のレベルが増加されることを可能にし、より平滑な適合を強制する。非常に多数の平滑化パラメータを推定することはまた、統計的に困難である可能性が高く、予測誤差基準(GCV、AIC等)が、特に、中程度のサンプルサイズにおいて、場合によって実質的に平滑不足である既知の傾向が存在し、REMLは、この点に関して若干問題が少ない。適切である場合、GAMが、当該用途のために実質的に(検証セット内で)予測能力を改良しない限り、GLM等のより単純なモデルが、GAMよりも好ましくあり得る。
【0066】
【化14-1】
【化14-2】
【化14-3】
【化14-4】
【0067】
センサデータのストリームは、一連のタイムスタンプに関して時間的に平均化されたセンサデータを備えてもよい。
【0068】
伝送機と受信機との間の通信は、帯域幅が制約されてもよい。
【0069】
伝送機および受信機は、非対称であり得、伝送機は、データソースであり、受信機は、データシンクであり、受信機は、複数の伝送機から通信を受信するように構成される。
【0070】
後続のセンサデータを特徴付ける情報は、後続のセンサデータと予測される後続のセンサデータとの間の瞬間誤差から訓練誤差平均を減算し、本差異を個別のセンサに関する訓練誤差標準偏差で除算し、予測誤差のzスコアを生成することによって標準化される、標準化された訓練誤差平均を備える、予測統計モデルによる後続のセンサデータの予測に関する後続のセンサデータの誤差を備えてもよい。
【0071】
後続のセンサデータの予測に関する後続のセンサデータの誤差は、後続のセンサデータの予測される平均から離れるように標準偏差の単位に関して統計的に正規化および量子化されてもよい。
【0072】
後続のセンサデータの予測に関する後続のセンサデータの誤差は、後続のセンサデータの予測される平均から離れるように標準偏差の単位に関して不均等なステップで量子化されてもよい。
【0073】
後続のセンサデータの予測に関する後続のセンサデータの誤差は、後続のセンサデータの予測される平均からのより高い偏差に関するよりも後続のセンサデータの予測される平均から離れたより小さい偏差に関して高い分解能で表されてもよい。
【0074】
伝送機から受信機に通信される、予測統計モデルを定義する情報は、暗号化されてもよい。
【0075】
後続のセンサデータを特徴付ける情報を通信するステップは、独立変数を表す暗号化された情報および従属変数を表す暗号化されていない情報を通信するステップを含んでもよい。
【0076】
少なくとも1つのプロセッサはさらに、センサデータの誤差および統計モデルによるセンサデータの予測から後続のセンサデータを計算するように構成されてもよい。
【0077】
少なくとも1つのプロセッサはさらに、後続のセンサデータの時系列を入手するように、かつ予測統計モデルによる後続のセンサデータ時間サンプルの予測に関する後続のセンサデータ時間サンプルの誤差の時系列を備える、後続のセンサデータの時系列を特徴付ける情報を受信機に通信するように構成されてもよい。
【0078】
少なくとも1つのプロセッサは、平均訓練誤差と、予測統計モデルに基づく訓練周期内の訓練データセットのセンサデータのストリームに関する平均訓練誤差の標準偏差とを備える、誤差統計を発生させるように構成されてもよい。
【0079】
少なくとも1つのプロセッサは、予測統計モデルに基づいて、センサデータの予測されるストリーム、センサデータ誤差平均の予測されるストリーム、およびセンサデータ誤差標準偏差の予測されるストリームを算出するように構成されてもよい。
【0080】
少なくとも1つのプロセッサは、センサデータ誤差平均の予測されるストリームを受信機に通信するように構成されてもよい。
【0081】
受信機は、センサデータ誤差平均の予測されるストリームを受信し、予測統計モデルおよびセンサデータ誤差平均の受信されたストリームに基づいて、センサデータのストリームを再構築するように構成されてもよい。
【0082】
受信機は、受信された予測統計モデル、少なくとも1つの制御変数、および後続のセンサデータのストリームの誤差に基づいて、後続のセンサデータのストリームを近似的に再構築するように構成されてもよい。
【0083】
少なくとも1つのプロセッサは、予測統計モデルによる後続のセンサデータの予測の標準誤差を受信機に伝送するように構成されてもよい。
【0084】
受信機は、予測の受信された標準誤差および予測統計モデルから、受信機における予測統計モデルによる後続のセンサデータの予測を推論するように構成されてもよい。
【0085】
いくつかの実施形態によると、モデルおよび標準誤差を発生させ、発生されたモデルおよび訓練誤差統計(誤差平均および標準偏差)に基づいてデータを通信するプロセスは、以下の通りである。
【0086】
エッジデバイスは、限定ではないが、タイムスタンプ(ts)と、以下のエンジンパラメータ、すなわち、エンジン速度(rpm)、エンジン負荷割合(負荷)、冷却剤温度(冷却剤温度)、冷却剤圧力(冷却剤圧力)、油温度(油温度)、油圧(油圧)、燃料圧力(燃料圧力)、および燃料アクチュエータ割合(燃料アクチュエータ割合)とを含み得る、n次元エンジンデータ時系列等の機械データを収集する。エッジデバイスは、例えば、IoTデバイスのネットワーク内のコンピューティングノードの地理的分布によると、企業ネットワーク、メトロポリタンネットワーク、または他のネットワークの「エッジ」におけるコンピューティングノードであり得る。本側面では、エッジコンピューティングは、算出が、主に集中型クラウド環境で生じることと対照的に、大部分は、または完全に、分散型デバイスノード上で実施される、分散型コンピューティングパラダイムである。
【0087】
例えば、本開示される技術のある実装によると、エッジコンピューティングデバイスが、船舶上にインストールされ、船舶の全てのディーゼルエンジンの電子制御ユニット/モジュール(ECU/ECM)とインターフェースをとる。エッジコンピューティングデバイスは、時系列としてエンジンセンサデータ(例えば、全てのエンジンのRPM、負荷割合、燃料率、油圧、油温度、冷却剤圧力、冷却剤温度、吸気温度、軸受温度、シリンダ温度、または同等物)を収集し、エッジデバイスの内部GPS/DGPSおよび/または船舶のGPS/DGPSから船舶速度および場所データを収集する。エッジデバイスはまた、インターフェースをとり、船上PLC、および発電機、z駆動部、タンク、または同等物等の他のデバイス、システム、またはアセットからデータを収集することもできる。例証的に、エッジデバイスは、1分あたり60個のサンプルの近似率においてセンサデータを収集し、NTPサービスを介して同期化される、その独自のクロックを使用して、データを毎秒のタイムスタンプ(例えば、12:00:00、12:00:01、12:00:02、…)に整合させる。船に関しては、本データは、典型的には、衛星コネクティビティを通して沿岸のオフィスに伝送され、沿岸の近傍で動作する船舶(例えば、内陸タグボート)に関しては、セルラーデータ伝送が、別の選択肢である。
【0088】
1,000個のセンサデータ点を有する、例示的船舶のエッジデバイスインストールでは、毎日、エッジデバイスは、(各センサデータ点が4バイトまたは32ビットのサイズである構成に基づいて)1秒分解能において24*60*60*1,000*4=345.6MBのデータを収集、記憶、および送信することができる。エッジデバイスが、1分の平均データ(すなわち、毎秒のデータの代わりに毎分のデータの平均または算術平均)を送信する場合でさえも、低帯域幅接続(例えば、衛星またはセルラー)を経由して1日に24*60*1,000*4=5.76MBを伝送し、これは、特に、それらの個別のデータを同時に伝送する複数の船舶が存在するときに、依然として低帯域幅ネットワークリソースを歪ませ得る。
【0089】
種々の実施形態では、エッジデバイスは、船舶、自動車、航空機(例えば、飛行機、ドローン等)、モノのインターネット(IoT)デバイス、または他のモバイルデバイス上に常駐し、収集されたデータの全てを明示的な形態で1つ以上のサーバ、クラウド記憶装置、または他の遠隔システムまたはデバイスに伝送することなく、ローカルでデータを収集することができる。上記の機械データ実施例に戻って参照すると、ディーゼルエンジンデータの分散分析では、冷却剤温度を含む、エンジンパラメータの殆どは、エンジンが定常状態である、すなわち、RPMおよびエンジン負荷が安定しているときに、エンジン速度の有界範囲内でエンジンRPMおよびエンジン負荷と強い相関を有することが見出される。(例えば、アイドルエンジンRPMよりも高い)エンジンRPMのその有界範囲の内側に、以下であるような関数f1が存在する。
冷却剤温度=f1(rpm、負荷)
【化15】
この場合、nは、2(rpmおよび負荷)に等しく、mは、1(冷却剤温度)に等しい。
換言すると、f1は、2つの独立変数からの単一の従属変数の予測を可能にするマップである。同様に、
冷却剤圧力=f2(rpm、負荷) 油温度=f3(rpm、負荷)
油圧=f4(rpm、負荷)
燃料圧力=f5(rpm、負荷)
燃料アクチュエータ割合=f6(rpm、負荷) 燃料率=f7(rpm、負荷)
吸気温度=f8(rpm、負荷)である。
これらのマップを1つのマップに群化することは、
【化16】
であるように、多次元マップ(すなわち、モデル)につながる。
【0090】
この場合、nは、2(rpmおよび負荷)に等しく、mは、8(冷却剤温度、冷却剤圧力、油温度、油圧、燃料圧力、燃料アクチュエータ割合、燃料率、および吸気温度)に等しい。重要なこととして、多くのマップが、同一の入力変数を伴う単一のマップに群化され、潜在的に多くの相関変数(すなわち、変数のテンソル)が有界範囲内で予測されることを可能にする。具体的独立変数は、エンジンRPMおよびエンジン負荷である必要はなく、2つの変数に限定される必要はないことに留意されたい。例えば、エンジン動作時間数が、動作時間に伴うエンジン劣化を考慮するように、マップ内に独立変数として追加され得る。
【0091】
エンジンモデルを生成するために、エンジンが明白な動作問題を有していなかった訓練時間周期が、選択される。機械学習ベースの方法が、エッジデバイス上またはクラウド内にエンジンモデルを発生させるために使用される。例えば、低いモデルバイアスを提供するモデル化技法(例えば、スプライン、ニューラルネットワークまたはサポートベクトルマシン(SVM)、および/または一般化加法モデル(GAM))が、選択される。
【0092】
いくつかの実施形態では、プログラミング言語「R」が、統計的コンピューティングおよびグラフィックのための環境として使用され、GAMが、低バイアスモデルを生成するために使用される。誤差統計および/または予測誤差のzスコアが、予測誤差をさらに最小限にするために使用される。エンジンの動作範囲は、複数の明確に異なる範囲に分割されることができ、複数の多次元モデルが、モデル正確度を改良するように構築されることができる。
【0093】
モデルを構築するために使用された訓練データの同一のセット(または他の適用可能な訓練データ)が、次いで、予測されるセンサ値時系列を生成するために、入力セットとしてモデルにパスされる。測定されるセンサ値から予測されるセンサ値を減算することによって、全ての従属センサ値に関する誤差時系列が、訓練データセットに関して生成される。訓練周期誤差系列の平均および標準偏差等の誤差統計が、算出され、訓練周期誤差統計として保存される。
【0094】
データが正規分布等の推定に準拠しない場合において、正規化プロセスが、含まれてもよい。他の場合では、代替統計的技法が、伝送機および受信機において同期化される限り、採用されてもよい。
【0095】
いったんモデルがエッジデバイスに展開され、本システムが動作すると、従属および独立センサ値が、近リアルタイムで測定されることができ、(例えば、1分あたりの)平均データが、算出されてもよい。従属エンジンセンサに関する期待値が、独立センサ値をエンジンモデルにパスすることによって予測されることができる。従属変数の測定値とその予測値との間の誤差(すなわち、差異)が、次いで、算出されることができる。これらの誤差は、瞬間誤差から訓練誤差平均を減算し、本差異を、本質的に予測誤差のzスコアである、所与のセンサに関する訓練誤差標準偏差で除算することによって標準化される。予測誤差または標準化された予測誤差のこれらのzスコアは、以降で説明されるように、ビット説明テーブルを使用して測定されるような実際の未加工データの代わりに、遠隔コンピュータに送信されることができる。
Yは、タイムスタンプTにおける従属センサ変数の測定値のセットであると仮定されたい。
【0096】
T=t0,t1,t2,t3,t4,t5,...
【0097】
Y=y0,y1,y2,y3,y4,y5,...
X0およびX1は、その値が同一のタイムスタンプにおいて測定される、2つの独立変数である。
【0098】
X0=x00,x01,x02,x03,x04,x05,...
【0099】
X1=x1
0,x1
1,x1
2,x1
3,x1
4,x1
5,...
Yの値が、
【化17】
による同一のタイムスタンプにおいて測定され得るように、機械学習ベースのモデルが存在し、
【化18】
である。
【0100】
【化19】
であるように、
【化20】
であり、
センサYに関する訓練平均誤差がμ
Yであり、
センサYに関する訓練誤差の標準偏差がσ
Yであると仮定すると、
算出される標準誤差系列または予測誤差のzスコアは、
【化21】
となり、
【化22】
である。
【0101】
伝送機(例えば、エッジデバイスまたは送信コンピュータ)は、独立変数X0、X1、およびタイムスタンプデータ系列Tとともに、これらの標準誤差を送信する。いったんこれらのデータが受信されると、受信機は、時間t
iにおいて予測されるセンサ値
【化23】
を算出する。
【化24】
【0102】
式中、fは、送信および受信側の両方で同じ機械学習モデルである。
受信側は、受信機が送信機と同じ機械学習ベースのモデルおよび訓練誤差統計を有することを前提として、所与のセンサの値を復元することができる。
【化25】
【0103】
非線形損失を圧縮アルゴリズムの中に導入することによって、圧縮比が、大いに増加されることができる。実施例として、例えば、一意の標準誤差状態を一意のビットパターンに割り当てる、標準誤差の以下のバケットを考慮されたい。
【表1】
【0104】
4ビットは、標準誤差が-1~+1範囲外であるときの標準誤差の値を表し、2ビットは、標準誤差が-1~+1範囲内であるときの値を表す。受信機側アルゴリズムは、最上位ビット(すなわち、最左ビット)がゼロであるかどうかをチェックし、したがって、誤差が±1以内となり、2ビットによって表されるであろう、そうでなければ、誤差が±1を上回り、4ビットによって表されるであろうことを識別することができる。第2のビットは、誤差数量の極性(正または負の標準誤差)等を決定する。
【0105】
実施例として典型的ディーゼルエンジンを使用し、10個のセンサを含有する機械データセットが伝送されなければならないと仮定されたい。センサのうちの2つは、独立センサ変数であり、8つは、従属センサ変数であると仮定されたい。十分なデータを与えられると、8つの従属センサ値が、2つの独立変数から成る入力から予測され得るように、機械学習ベースのモデルが、発生されることができる。
【0106】
表1は、1,454RPMのエンジン速度および種々のエンジン負荷割合に関して、燃料圧力、燃料アクチュエータ割合、油温度、油圧、冷却剤温度、冷却剤圧力、燃料率、および吸気温度の予測を示す、機械学習ベースのモデルの出力を表す。
【表2】
【0107】
いったん両側がモデルを算出すると、センサ毎の2つの独立センサ変数、タイムスタンプ、および標準誤差バケットが、送信され、以下の全データサイズにつながる。
【化26】
【0108】
最悪の場合(すなわち、標準誤差が±1範囲外であるとき)、またはセンサあたり4×8-4=28ビットの節約である。8つのセンサに関して、節約は、タイムスタンプ毎に28×8ビットまたは28バイトであろう。
各データ列が10個のセンサ値およびタイムスタンプから成ると考慮して、各機械データ列の未加工サイズは、以下である。
【化27】
これは、以下に圧縮される。
【化28】
または以下の圧縮比である。
【0109】
100×(1-16/44)=63.63%
【0110】
平均的な場合でもある、最良の場合(すなわち、標準誤差が±1の範囲の内側であるとき)、標準誤差は、センサ変数あたり2ビットを使用して表される。
したがって、圧縮されたデータサイズは、以下である。
【化29】
または以下の圧縮比である。
【0111】
100×(1-14/44)=68.18%
【0112】
一般に、圧縮比は、m個のセンサを伴う機械に関して計算されることができ、m=n+kであるように、n個のセンサは、独立変数であり、k個のセンサは、従属変数であり、r個のセンサは、オーバーヘッドである(タイムスタンプ、位置データ等)。全てのデータが4バイトであると仮定されたい。各列のデータサイズが、
(m+r)×4バイト
である一方、本スキームでは、データ列サイズは、
(n+k/8+r)×4バイト
であり、以下の圧縮比を生成し、
100×(1-(n+k/8+r)×4/(m+r)×4)
m=20、n=2、およびk=18、およびr=1に関して、上記のスキームは、以下の最悪の場合の圧縮比を提供し、
100×(1-(2×4+18/2+4)/(21×4))=75.0%
m=20、n=2、およびk=18、およびr=1に関して、上記のスキームは、以下の最良の場合および平均的な場合の圧縮比を提供し、
100×(1-(2×4+18/4+4)/(21×4))=80.36%
同様に、m=40、n=2、およびk=38、およびr=1に関して、上記のスキームは、以下の最良の場合および平均的な場合の圧縮比を提供し、
100×(1-(2×4+38/4+4)/(41×4))=86.89%
標準誤差の多くのバケットスキームが、生成されることができる。例えば、±1標準誤差範囲は、1つの状態にマージされてもよい。
【表3】
【0113】
m=20、n=2、k=18、およびr=1に関して、上記のスキームの最悪の場合の圧縮比は、以前と同一である。
100×(1-(2×4+18/2+4)/(21×4))=75.0%
しかし、m=20、n=2、k=18、およびr=1に関して、上記のスキームは、以下の最良の場合の圧縮比を提供する。
100×(1-(2×4×8+18+4×8)/(21×4×8))=83.04%
m=40、n=2、k=38、およびr=1に関して、上記のスキームは、以下の最良の場合の圧縮比を提供する。
100×(1-(2×4×8+38+4×8)/(41×4×8))=89.79%
【0114】
機械データを圧縮する代わりに、上記のアルゴリズムが、より頻繁に生じるデータの範囲に関する精度を増加させ、低頻度で起こるデータに関する精度を減少させるために使用されてもよい。例えば、付加的ビットが、範囲±3zスコア内の標準誤差を有するデータを表すように割り当てられ、より少ないビットが、その範囲外の標準誤差を有するデータのために割り当てられることができる。
【0115】
いくつかの実施形態では、本開示される技術は、実際のデータの少なくともある部分を送信することを伴わず、むしろ、本技術は、パラメータおよび/または統計誤差を使用し、実際のデータを暗示的に通信する。したがって、本システムは、データ難読化技法として使用されてもよい。いくつかの実施形態では、実際の正確なデータ値は、モデルおよびモデルパラメータの予備知識がないと、センサ標準誤差値から復元されることができない。モデルが、伝送の間に暗号化される場合、独立変数のみが、伝送の間に暗号化されて送信される必要がある。従属センサ変数に関する標準誤差は、プレーンテキストとして送信されてもよく、したがって、伝送暗号化オーバーヘッドを削減し、性能を改良する。
【0116】
他のモデル化技法と比較して、モデルサイズを大いに減少させる、機械学習によって発生される線形モデルもまた、使用されてもよい。2つだけのモデルパラメータ(すなわち、オフセットおよび勾配)が要求され、比較的にわずかなコンピューティングリソースが線形モデルを発生させるために必要とされるため、モデルの再計算および再伝送が、任意の伝送インターフェース上、例えば、衛星、LoRaWAN、セルラー等の上で、より頻繁に生じ得る。加えて、範囲ベースの線形モデルもまた、使用されてもよい。例えば、独立パラメータの全動作範囲は、「n」個のより小さい範囲に分割され、「n」個の線形モデルが、より小さい範囲毎に算出される。ほんのわずかな変数が、線形モデルを記憶するために要求されると考慮して、組み合わせられたモデルサイズは、非常に小さいままであろう(例えば、100個の範囲ベースのモデルは、それぞれ、100×モデルあたり2つのパラメータ×パラメータあたり4バイト+100×(1つの誤差平均+1つの誤差標準偏差)×4バイト=1,600バイト、または上記で参照されるモデルルックアップテーブルより4桁小さいものを要求する)。
【0117】
図1は、本開示される技術のいくつかの実施形態による、少なくとも伝送機102と、受信機112とを含む、システムのブロック図を示す。上記に説明されるように、伝送機102は、1つ以上のセンサからデータストリーム108を受信する、エッジデバイスであり得る。エッジデバイスのいくつかの実施形態が、2017年9月13日に出願された、米国出願第15/703,487号に説明される。伝送機102は、統計モデル106を実装し、使用される統計モデルに関してデータ差を(例えば、ビット表現に)エンコードするように構成される、1つ以上のプロセッサ104を含むことができる。伝送機102は、ネットワーク接続120を介して、受信機112に通信可能に接続される。受信機112は、統計モデル116を実装し、使用される統計モデルに関してデータ差を(例えば、ビット表現から)デコードするように構成される、1つ以上のプロセッサ114を含む、サーバであり得る。デコードが実施された後、または実施されるにつれて、受信機112は、再構築されたデータストリーム118を発生させ、それを別のデバイスまたはユーザに提供することができる。
【0118】
実施例として、伝送機は、以下のように構築されてもよい。伝送機のコントローラは、システムオンチップ、または市販の組み込みプロセッサ、すなわち、Arduino、MeOS、MicroPython、Raspberry Pi、または他のタイプのプロセッサボードのうちのいずれか、またはそれらの任意の組み合わせを含んでもよい。伝送機はまた、1つ以上のソフトウェアまたはファームウェアプログラムを実行し得る、特定用途向け集積回路(ASIC)、電子回路、プログラマブル組み合わせ回路(例えば、FPGA)、プロセッサ(共有、専用、または群)、またはメモリ(共有、専用、または群)、または説明される機能性を提供する他の好適なコンポーネントを含んでもよい。コントローラは、通信ポート、例えば、無線またはネットワークデバイスへのインターフェースを有する。
【0119】
実施形態では、1つ以上の他の特性に関するデータを決定する、感知する、および/またはコントローラに提供する、センサのうちの1つ以上のものは、モノのインターネット(「IoT」)デバイスである、および/またはそれを含んでもよい。IoTデバイスは、それぞれ、ネットワークへのコネクティビティを可能にし、典型的には、情報をコントローラ等のシステムに提供し得る、ハードウェアまたはソフトウェアを組み込まれ得る、物体または「モノ」であってもよい。IoTデバイスは、ネットワークを経由して通信することを可能にされるため、IoTデバイスは、提供され得るサービスを向上させる、または補完するために、イベントベースのデータをサービスプロバイダまたはシステムと交換してもよい。これらのIoTデバイスは、典型的には、自律的に、またはユーザ介入を殆どまたは全く伴わずに、データを伝送することができる。実施形態では、接続は、IoTデバイスとして車両センサを適応させてもよく、WiFi、LoRan、900MHz Wifi、BlueTooth(登録商標)、低エネルギーBlueTooth(登録商標)、USB、UWB等のうちのいずれかまたは全てを含み得る、IoT互換性コネクティビティを含んでもよい。Ethernet(登録商標) 1000baseT、CANBus、USB3.0、USB3.1等の有線接続が、採用されてもよい。
【0120】
実施形態が、所望に応じて構成するために任意の好適なハードウェアおよび/またはソフトウェアを使用して、コンピューティングデバイスまたはシステムに実装されてもよい。コンピューティングデバイスは、限定ではないが、プロセッサおよび少なくとも1つの通信インターフェースデバイスを含む、いくつかのコンポーネントを含み得る、マザーボード等のボードを収納してもよい。プロセッサは、マザーボードに物理的および電気的に結合される、1つ以上のプロセッサコアを含んでもよい。少なくとも1つの通信インターフェースデバイスもまた、マザーボードに物理的および電気的に結合されてもよい。さらなる実装では、通信インターフェースデバイスは、プロセッサの一部であってもよい。実施形態では、プロセッサは、ハードウェアアクセラレータ(例えば、FPGA)を含んでもよい。
【0121】
その用途に応じて、コンピューティングデバイスは、限定ではないが、揮発性メモリ(例えば、DRAM)、不揮発性メモリ(例えば、ROM)、およびフラッシュメモリを含む、他のコンポーネントを含んでもよい。実施形態では、フラッシュおよび/またはROMは、アルゴリズム、オペレーティングシステム、アプリケーション、ユーザインターフェース等を実装するように構成される、実行可能プログラミング命令を含んでもよい。
【0122】
実施形態では、コンピューティングデバイスはさらに、アナログ/デジタルコンバータ、デジタル/アナログコンバータ、プログラマブル利得増幅器、サンプル-ホールド増幅器、データ入手サブシステム、パルス幅変調器入力、パルス幅変調器出力、グラフィックプロセッサ、デジタル信号プロセッサ、暗号プロセッサ、チップセット、セルラー無線、アンテナ、ディスプレイ、タッチスクリーンディスプレイ、タッチスクリーンコントローラ、バッテリ、オーディオコーデック、ビデオコーデック、電力増幅器、全地球測位システム(GPS)デバイスまたはサブシステム、コンパス(磁力計)、加速度計、バロメータ(圧力計)、ジャイロスコープ、スピーカ、カメラ、大容量記憶デバイス(SIMカードインターフェース、およびSDメモリまたはマイクロSDメモリインターフェース、SATAインターフェース、ハードディスクドライブ、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)等)、マイクロホン、フィルタ、発振器、圧力センサ、および/またはRFIDチップを含んでもよい。
【0123】
通信ネットワークインターフェースデバイスは、コンピューティングデバイスへおよびそれからのデータの転送のための無線通信を可能にし得る。用語「無線」およびその派生語は、非固体媒体を通した変調電磁放射線の使用を通してデータを通信し得る、回路、デバイス、システム、プロセス、技法、通信チャネル等を説明するために使用されてもよい。用語は、関連付けられるデバイスがいずれのワイヤも含有しないが、いくつかの実施形態では、含有しない場合があることを含意しない。通信チップ406は、限定ではないが、Wi-Fi(IEEE 802.11族)、IEEE 802.16規格(例えば、IEEE 802.16-2005年改正)を含む、Institute for Electrical and Electronic Engineers(IEEE)規格、任意の改正、更新、および/または改定付きのロングタームエボリューション(LTE)プロジェクト(例えば、アドバンストLTEプロジェクト、ウルトラモバイルブロードバンド(UMB)プロジェクト(「3GPP2」ともと称される)等)を含む、いくつかの無線規格またはプロトコルのうちのいずれかを実装してもよい。IEEE 802.16互換性BWAネットワークは、概して、IEEE 802.16規格のための適合性および相互運用性試験に合格する製品のための認証マークである、Worldwide Interoperability for Microwave Accessを表す頭字語である、WiMAXネットワークと称される。通信チップ406は、グローバルシステムフォーモバイルコミュニケーション(GSM(登録商標))、汎用パケット無線サービス(GPRS)、ユニバーサルモバイルテレコミュニケーションシステム(UMTS)、高速パケットアクセス(HSPA)、進化型HSPA(E-HSPA)、またはLTEネットワークに従って動作してもよい。通信チップ406は、GSM(登録商標)進化型強化データ(EDGE)、GSM(登録商標) EDGE無線アクセスネットワーク(GERAN)、ユニバーサル地上無線アクセスネットワーク(UTRAN)、または進化型UTRAN(E-UTRAN)に従って動作してもよい。通信チップ406は、符号分割多重アクセス(CDMA)、時分割多重アクセス(TDMA)、ジタル強化無線電気通信(DECT)、進化データ最適化(EV-DO)、それらの派生物、および3G、4G、5G、およびそれ以上として指定される任意の他の無線プロトコルに従って動作してもよい。通信チップは、他の実施形態では、他の無線プロトコルに従って動作してもよい。コンピューティングデバイスは、複数の通信チップを含んでもよい。例えば、第1の通信チップは、Wi-FiおよびBluetooth(登録商標)等の短距離無線通信専用でありし得、第2の通信チップは、GPS、EDGE、GPRS、CDMA、WiMAX、LTE、Ev-DO、およびその他等の長距離無線通信専用であり得る。
【0124】
コンピューティングデバイスのプロセッサは、パッケージアセンブリ内にダイを含んでもよい。用語「プロセッサ」は、レジスタおよび/またはメモリからの電子データを処理し、その電子データを、レジスタおよび/またはメモリ内に記憶され得る他の電子データに変換する、任意のデバイスまたはデバイスの一部を指し得る。
【0125】
図2は、本開示される技術のいくつかの実施形態による、
図1の伝送機および受信機によって実施されるアクションのフローチャートを示す。
【0126】
図2に示されるように、ブロック202では、伝送機は、センサデータのストリームを受信する。ブロック204では、伝送機は、入力を受信する、またはセンサデータのストリームを説明または別様にモデル化する統計モデルを自動的に発生させる。ブロック206では、伝送機は、統計モデルまたは統計モデルを定義するデータ(例えば、モデルパラメータ)を受信機に伝送する。ブロック208では、伝送機は、ストリームの後続のセンサデータを受信する。ブロック210では、伝送機は、統計モデルに基づいて、後続のセンサデータと期待(例えば、予測値)との間の差異を計算する。ブロック212では、伝送機は、差異データを(例えば、ビット表現に)エンコードする。ブロック214では、伝送機は、エンコードされた差異データを受信機に伝送する。
【0127】
図2を継続して参照すると、ブロック222では、受信機は、統計モデルまたは統計モデルを定義するデータを伝送機から受信する。ブロック224では、受信機は、エンコードされた差異データを受信する。ブロック226では、受信機は、差異データをデコードする。ブロック228では、受信機は、統計モデルおよびデコードされた差異データを使用し、後続のセンサデータを推定する。ブロック230では、受信機は、推定された後続のセンサデータを出力する。
【0128】
ある実施形態が、説明の目的のために本明細書に図示および説明されたが、同一の目的を達成するように計算される、多種多様の代替および/または同等の実施形態または実装が、本開示の範囲から逸脱することなく、示され、かつ説明される実施形態に代用され得る。本明細書に記載される種々の実施形態および随意の特徴は、本明細書の議論と一致する、任意の組み合わせ、副次的組み合わせ、または順列で採用され得る。本願は、請求項のみによって限定される、本明細書に議論される実施形態の任意の適合または変形例を網羅することを意図している。
【0129】
上記に説明される種々の実施形態は、さらなる実施形態を提供するように組み合わせられることができる。本明細書で参照される、および/または出願データシートに列挙される、米国特許、米国特許出願公開、米国特許出願、外国特許、外国特許出願、および非特許出版物の全てが、参照することによってそれらの全体として本明細書に組み込まれる。実施形態の側面は、種々の特許、出願、および公開の概念を採用し、その上さらなる実施形態を提供するために、必要である場合、修正されることができる。参照することによって組み込まれる任意の文書が本願と矛盾する場合、本願が優先される。
【0130】
これらおよび他の変更が、上記に詳述される説明を踏まえて実施形態に行われることができる。一般に、以下の請求項では、使用される用語は、請求項を本明細書および請求項に開示される具体的実施形態に限定すると解釈されるべきではなく、そのような請求項が権利を与えられる均等物の全範囲とともに、全ての可能性として考えられる実施形態を含むと解釈されるべきである。故に、請求項は、本開示によって限定されない。
【国際調査報告】