(58)【調査した分野】(Int.Cl.,DB名)
前記少なくとも一つの終了基準が満たされないとの決定は、前記少なくとも一セットの第1改善誤差値と前記少なくとも一セットの第2改善誤差値との対比に基づく請求項2のコンピュータ実装方法。
前記少なくとも一つの終了基準が満たされないとの決定は、前記少なくとも一つの終了基準が、前記少なくとも一セットの第1改善誤差値と前記少なくとも一セットの第2改善誤差値との差異を超えない改善値を有するとの決定に基づく請求項3のコンピュータ実装方法。
前記データセットからの前記一以上のデータ値は、前記データセットからの前記一以上のデータ値に対する前記一セットの相対誤差値の前記相対誤差値と前記一セットの誤差値の前記絶対誤差値とが前記少なくとも一つの誤差しきい基準を超過する場合に、前記データ外れ値として決定される請求項9のコンピュータ実装方法。
前記外れ値偏り低減の第2反復を行うコンピュータ操作はさらに、前記データセットを生成するべく前記外れ値フィルタリング済みデータセットと前記データ外れ値とを再び組み合わせるステップを含む請求項1のコンピュータ実装方法。
前記データセットに対して前記外れ値偏り低減の第2反復を行うことはさらに、前記データセットを生成するべく前記外れ値フィルタリング済みデータセットと前記データ外れ値とを再び組み合わせることを含む請求項13のコンピュータシステム。
前記データセットに対して前記外れ値偏り低減の第1反復を行うことはさらに、改善値が、前記少なくとも一セットの第1改善誤差値と前記少なくとも一セットの第2改善誤差値との複数の差異を超過すると決定することを含む請求項15のコンピュータシステム。
【発明の概要】
【0006】
好ましい実施形態は、外れ値偏りを低減するコンピュータ実装方法であって以下のステップを含む。すなわち、一の偏り基準を選択するステップ、一のデータセットを与えるステップ、複数のモデル係数の一セットを与えるステップ、複数の目標値の一セットを選択するステップ、(1)完成した当該データセットに対して複数の予測値の一セットを生成するステップ、(2)当該データセットに対して一の誤差セットを生成するステップ、(3)当該誤差セット及び当該偏り基準に基づいて複数の誤差しきい値の一セットを生成するステップ、(4)当該誤差セット及び複数の誤差しきい値の当該セットに基づいてプロセッサが一の打ち切られたデータセットを生成するステップ、(5)当該プロセッサが複数の新モデル係数の一セットを生成するステップ、並びに(6)複数の新モデル係数の当該セットを使用して一の打ち切りパフォーマンス終了基準が満たされるまでステップ(1)〜(5)を繰り返すステップである。好ましい実施形態において、複数の予測値の当該セットは、当該データセット及び複数のモデル係数の当該セットに基づいて生成される。好ましい実施形態において、当該誤差セットは、複数の予測値の当該セット及び複数の目標値の当該セットに基づいて生成された複数の絶対誤差の一セット及び複数の相対誤差の一セットを含む。他の実施形態において、当該誤差セットは、複数の予測値の当該セットと複数の目標値の当該セットとの差分として計算された複数の値を含む。他の実施形態において、複数の新係数の当該セットを生成するステップはさらに、線形又は非線形の最適化モデルを使用して達成することができる複数の予測値の当該セットと複数の実際値の当該セットとの間の複数の誤差の当該セットを最小化するステップを含む。好ましい実施形態において、当該打ち切りパフォーマンス終了基準は、一の標準誤差及び一の決定係数に基づく。
【0007】
他の実施形態は、外れ値偏りを低減するコンピュータ実装方法を含む。この方法は以下のステップを含む。すなわち、一の誤差基準を選択するステップ、一のデータセットを選択するステップ、複数の実際値の一セットを選択するステップ、複数のモデル係数の一の初期セットを選択するステップ、完成した当該データセット及び複数のモデル係数の当該初期セットに基づいて複数のモデル予測値の一セットを生成するステップ、(1)完成した当該データセットに対する当該モデル予測値及び複数の実際値の当該セットに基づいて複数の誤差の一セットを生成するステップ、(2)完成した当該データセットに対する複数の誤差の完成した当該セット及び当該誤差基準に基づいて複数の誤差しきい値の一セットを生成するステップ、(3)一の外れ値除去済みデータセットを生成するステップであって、そのフィルタリングは完成した当該データセット及び複数の誤差しきい値の当該セットに基づくステップ、(4)当該フィルタリングされたデータセット及び複数の旧係数の当該セットに基づいて複数の新係数の一セットを生成するステップであって、複数の新係数の当該セットの生成はコンピュータプロセッサによって行われるステップ、(5)当該フィルタリングされたデータセット及び複数の新モデル係数の当該セットに基づいて複数の外れ値偏り低減済みモデル予測値の一セットを生成するステップであって、複数の外れ値偏り低減済みモデル予測値の当該セットの生成はコンピュータプロセッサによって行われるステップ、(6)当該モデル予測値及び複数の実際値の当該セットに基づいて複数のモデルパフォーマンス値の一セットを生成するステップ、先の反復からの複数の係数の当該セットの代わりに複数の新係数の当該セットを使用しながら一のパフォーマンス終了基準が満たされるまでステップ(1)〜(6)を繰り返すステップ、並びに複数のモデル予測値の当該セットをコンピュータデータ媒体に格納するステップである。
【0008】
他の実施形態は、外れ値偏りを低減するコンピュータ実装方法を含む。この方法は以下のステップを含む。すなわち、施設に対する一の目標変数を選択するステップ、当該目標変数の複数の実際値の一セットを選択するステップ、当該目標変数に関連する当該施設に対する複数の変数を識別するステップ、当該施設に対する一のデータセットを取得するステップであって当該データセットは当該複数の変数に対する複数の値を含むステップ、一の偏り基準を選択するステップ、複数のモデル係数の一セットを選択するステップ、(1)完成した当該データセット及び複数のモデル係数の当該セットに基づいて複数の予測値の一セットを生成するステップ、(2)複数の予測値の当該セット及び複数の実際値の当該セットに基づいて複数の打ち切りモデルパフォーマンス値の一セットを生成するステップ、(3)当該目標変数に対する複数の予測値の当該セット及び複数の実際値の当該セットに基づいて一の誤差セットを生成するステップ、(4)当該誤差セット及び当該偏り基準に基づいて複数の誤差しきい値の一セットを生成するステップ、(5)当該データセット及び複数の誤差しきい値の当該セットに基づいてプロセッサが一の打ち切られたデータセットを生成するステップ、(6)当該打ち切られたデータセット及び複数のモデル係数の当該セットに基づいて当該プロセッサが複数の新モデル係数の一セットを生成するステップ、(7)当該データセット及び複数の新モデル係数の当該セットに基づいて当該プロセッサが複数の新予測値の一セットを生成するステップ、(8)複数の新予測値の当該セット及び複数の実際値の当該セットに基づいて複数の新打ち切りモデルパフォーマンス値の一セットを生成するステップ、複数の新係数の当該セットを使用して一の打ち切りパフォーマンス終了基準が満たされるまでステップ(1)〜(8)を繰り返すステップ、並びに複数の新モデル予測値の当該セットをコンピュータデータ媒体に格納するステップである。
【0009】
他の実施形態は、外れ値偏りを低減するコンピュータ実装方法を含む。この方法は以下のステップを含む。すなわち、施設に対する一の目標変数を決定するステップであって当該目標変数は工業施設に対するその製造、金融パフォーマンス又は排出に関連する測定基準であるステップ、当該施設に対する複数の変数を識別するステップであって、当該複数の変数は、当該目標変数に影響する当該施設に対する複数の直接的変数と、それぞれが当該目標変数に影響する少なくとも一つの直接的施設変数の関数である当該施設に対する複数の変換された変数の一セットとであるステップ、一の絶対誤差及び一の相対誤差を含む一の誤差基準を選択するステップ、当該施設に対する一のデータセットを取得するステップであって当該データセットは当該複数の変数に対する複数の値を含むステップ、当該目標変数の複数の実際値の一セットを選択するステップ、複数のモデル係数の一の初期セットを選択するステップ、完成した当該データセット及び複数のモデル係数の当該初期セットに基づいて複数のモデル予測値の一セットを生成するステップ、複数のモデル予測値の当該完成したセット及び複数の実際値の当該セットに基づいて複数の誤差の完成した一セットを生成するステップであって、相対誤差が式:相対誤差
m=((予測値
m−実際値
m)/実際値
m)
2(「m」は参照番号)を使用して計算され、かつ、絶対誤差が式:絶対誤差
m=(予測値
m−実際値
m)
2を使用して計算されるステップ、複数のモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数のモデルパフォーマンス値の一セットを生成するステップであって全体的な複数のモデルパフォーマンス値の当該セットは第1標準誤差及び第1決定係数を含むステップ、(1)完成した当該データセットに対する当該モデル予測値及び複数の実際値の当該セットに基づいて複数の誤差の一セットを生成するステップ、(2)複数の誤差の完成した当該セット及び完成した当該データセットに対する当該誤差基準に基づいて複数の誤差しきい値の一セットを生成するステップ、(3)当該誤差しきい値以上の誤差値を有するデータを除去することによって一の外れ値除去済みデータセットを生成するステップであってそのフィルタリングは完成した当該データセット及び複数の誤差しきい値の当該セットに基づくステップ、(4)一の線形最適化モデル及び一の非線形最適化モデルの少なくとも一つを使用して複数の予測値の当該セットと複数の実際値の当該セットとの間の誤差を最小化することにより、当該外れ値除去済みデータセット及び複数のモデル係数の当該セットに基づいて複数の外れ値偏り低減済みモデル予測値の一セットを生成するステップであって新しい当該モデル予測値の生成はコンピュータプロセッサによって行われるステップ、(5)当該外れ値除去済みデータセット及び複数の係数の旧セットに基づいて複数の新係数の一セットを生成するステップであって複数の新係数の当該セットの生成は当該コンピュータプロセッサによって行われるステップ、(6)複数の新予測モデル値の当該セット及び複数の実際値の当該セットに基づいて全体的な複数のモデルパフォーマンス値の一セットを生成するステップであって複数のモデルパフォーマンス値の当該セットは第2標準誤差及び第2決定係数を含むステップ、先の反復からの複数の係数の当該セットの代わりに複数の新係数の当該セットを使用しながら一のパフォーマンス終了基準が満たされるまでステップ(1)〜(6)を繰り返すステップであって、当該パフォーマンス終了基準は一の標準誤差終了値及び一の決定係数終了値を含み、かつ、当該パフォーマンス終了基準を満たすことは当該標準誤差終了値が当該第1及び第2標準誤差間の差分よりも大きくかつ当該決定係数終了値が当該第1及び第2決定係数間の差分よりも大きいことを含むステップ、並びに複数の新モデル予測値の当該セットをコンピュータデータ媒体に格納するステップである。
【0010】
他の実施形態は、外れ値偏りを低減するコンピュータ実装方法を含む。この方法は以下のステップを含む。すなわち、一の誤差基準を選択するステップ、一のデータセットを選択するステップ、複数の実際値の一セットを選択するステップ、複数のモデル予測値の一の初期セットを選択するステップ、複数のモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数の誤差の一セットを決定するステップ、(1)複数の誤差の完成した当該セット及び当該誤差基準に基づいて複数の誤差しきい値の一セットを決定するステップ、(2)一の外れ値除去済みデータセットを生成するステップであってそのフィルタリングは当該データセット及び複数の誤差しきい値の当該セットに基づくステップ、(3)当該外れ値除去済みデータセット及び複数の旧モデル予測値に基づいて複数の外れ値偏り低減済みモデル予測値の一セットを生成するステップであって複数の外れ値偏り低減済みモデル予測値の当該セットの生成はコンピュータプロセッサによって行われるステップ、(4)複数の新モデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数の誤差の一セットを決定するステップ、先の反復からの複数のモデル予測値の当該セットの代わりに複数の新モデル予測値を使用しながら一のパフォーマンス終了基準が満たされるまでステップ(1)〜(4)を繰り返すステップ、並びに複数の外れ値偏り低減済みモデル予測値の当該セットをコンピュータデータ媒体に格納するステップである。
【0011】
他の実施形態は、外れ値偏りを低減するコンピュータ実装方法を含む。この方法は以下のステップを含む。すなわち、施設に対する一の目標変数を決定するステップ、当該施設に対する複数の変数を識別するステップであって、当該複数の変数は、当該目標変数に影響する当該施設に対する複数の直接的変数と、それぞれが当該目標変数に影響する少なくとも一つの直接的施設変数の関数である当該施設に対する複数の変換された変数の一セットとであるステップ、一の絶対誤差及び一の相対誤差を含む一の誤差基準を選択するステップ、当該複数の変数に対する複数の値を含む一のデータセットを取得するステップ、当該目標変数の複数の実際値の一セットを選択するステップ、複数のモデル係数の一の初期セットを選択するステップ、複数のモデル係数の一セットを当該データセットに適用することによって複数のモデル予測値の一セットを生成するステップ、複数のモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数のパフォーマンス値の一セットを決定するステップであって複数のパフォーマンス値の当該セットは第1標準誤差及び第1決定係数を含むステップ、(1)複数のモデル予測値の当該セット及び完成した当該データセットに対する複数の実際値の当該セットに基づいて複数の誤差の一セットを生成するステップであって相対誤差が式:相対誤差
m=((予測値
m−実際値
m)/実際値
m)
2(「m」は参照番号)を使用して計算され、かつ、絶対誤差が式:絶対誤差
m=(予測値
m−実際値
m)
2)を使用して計算されるステップ、(2)完成した当該データセットに対する複数の誤差の完成した当該セット及び当該誤差基準に基づいて複数の誤差しきい値の一セットを生成するステップ、(3)複数の誤差しきい値の当該セット以上の複数の誤差値を有するデータを除去することによって、一の外れ値除去済みデータセットを生成するステップであってそのフィルタリングは当該データセット及び複数の誤差しきい値の当該セットに基づくステップ、(4)当該外れ値除去済みデータセット及び複数の旧係数の当該セットに基づいて複数の新係数の一セットを生成するステップ、(5)一の線形最適化モデル及び一の非線形最適化モデルの少なくとも一つを使用して複数の予測値の当該セットと複数の実際値の当該セットとの間の誤差を最小化することにより、当該外れ値除去済みデータセット及び複数の新モデル係数の当該セットに基づいて複数の外れ値偏り低減済みモデル予測値の一セットを生成するステップであって当該モデル予測値の生成はコンピュータプロセッサによって行われるステップ、(6)複数の外れ値偏り低減済みモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数の更新済みパフォーマンス値の一セットを生成するステップであって当該更新済みパフォーマンス値の当該セットは第2標準誤差及び第2決定係数を含むステップ、先の反復からの複数の係数の当該セットの代わりに複数の新係数の当該セットを使用しながら一のパフォーマンス終了基準が満たされるまでステップ(1)〜(6)を繰り返すステップであって、当該パフォーマンス終了基準は一の標準誤差終了値及び一の決定係数終了値を含み、かつ、当該パフォーマンス終了基準を満たすことは当該標準誤差終了値が当該第1及び第2標準誤差間の差分よりも大きくかつ当該決定係数終了値が当該第1及び第2決定係数間の差分よりも大きいことを含むステップ、並びに複数の外れ値偏り低減因子の当該セットをコンピュータデータ媒体に格納するステップである。
【0012】
他の実施形態は、一のモデルを展開するときに使用される一のデータセットの実現性を評価するコンピュータ実装方法を含む。この方法は以下のステップを含む。すなわち、複数のデータ値を含む一の目標データセットを与えるステップ、当該目標データセットに基づいて一のランダム目標データセットを生成するステップ、複数の偏り基準値の一セットを選択するステップ、当該データセット及び選択された各偏り基準値に基づいてプロセッサが一の外れ値偏り低減済み目標データセットを生成するステップ、ランダムな当該データセット及び選択された各偏り基準値に基づいて当該プロセッサが一の外れ値偏り低減済みランダムデータセットを生成するステップ、当該外れ値偏り低減済みデータセット及び当該外れ値偏り低減済みランダムデータセットに対して複数の誤差値の一セットを計算するステップ、当該外れ値偏り低減済みデータセット及び当該外れ値偏り低減済みランダムデータセットに対して複数の相関係数の一セットを計算するステップ、選択された当該複数の偏り基準値と対応する誤差値及び相関係数とに基づいて当該データセット及び当該ランダムデータセットに対する複数の偏り基準曲線を生成するステップ、並びに当該データセットに対する当該偏り基準曲線と当該ランダムデータセットに対する当該偏り基準曲線とを対比するステップである。当該外れ値偏り低減済み目標データセット及び当該外れ値偏り低減済みランダム目標データセットは、動的外れ値偏り除去法を使用して生成される。当該ランダム目標データセットは、当該複数のデータ値の範囲内にある複数の値から展開された複数の任意抽出データ値からなり得る。また、複数の誤差値の当該セットは複数の標準誤差の一セットを含み得る。ここで、複数の相関係数の当該セットは複数の決定係数値の一セットを含む。他の実施形態はさらに、当該目標データセットに対する当該偏り基準曲線と当該ランダム目標データセットに対する当該偏り基準曲線との対比に基づいて、展開された当該モデルをサポートする当該目標データセットの実現性及びその逆に関する自動化されたアドバイスを生成するステップを含む。アドバイスは、相関係数しきい値及び/又は誤差しきい値のような、分析者によって選択されたパラメータに基づいて生成することができる。さらに他の実施形態はさらに以下のステップを含む。すなわち、当該モデル予測値に対応する複数の実際データ値を含む一の実際データセットを与えるステップ、当該実際データセットに基づいて一のランダム実際データセットを生成するステップ、当該実際データセット及び選択された各偏り基準値に基づいてプロセッサが一の外れ値偏り低減済み実際データセットを生成するステップ、当該ランダム実際データセット及び選択された各偏り基準値に基づいて当該プロセッサが一の外れ値偏り低減済みランダム実際データセットを生成するステップ、選択された各偏り基準に対し当該外れ値偏り低減済みランダム目標データセット及び当該外れ値偏り低減済みランダム実際データに基づいて一のランダムデータプロットを生成するステップ、選択された各偏り基準に対し当該外れ値偏り低減済み目標データセット及び当該外れ値偏り低減済み実際目標データセットに基づいて一の現実的データプロットを生成するステップ、並びに当該ランダムデータプロットと選択された各偏り基準に対応する当該現実的データプロットとを対比するステップである。
【0013】
好ましい実施形態は、プロセッサ及び格納サブシステムを含むサーバと、一のデータセットを含みかつ当該格納サブシステムによって格納されるデータベースと、当該格納サブシステムによって格納されるコンピュータプログラムとを備えるシステムを含む。当該コンピュータプログラムは、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、一の偏り基準を選択すること、複数のモデル係数の一セットを与えること、複数の目標値の一セットを選択すること、(1)当該データセットに対する複数の予測値の一セットを生成すること、(2)当該データセットに対する一の誤差セットを生成すること、(3)当該誤差セット及び当該偏り基準に基づいて複数の誤差しきい値の一のセットを生成すること、(4)当該誤差セット及び複数の誤差しきい値の当該セットに基づいて一の打ち切られたデータセットを生成すること、(5)複数の新モデル係数の一セットを生成すること、並びに(6)複数の新モデル係数の当該セットを使用して一の打ち切りパフォーマンス終了基準が満たされるまでステップ(1)〜(5)を繰り返すことである。好ましい実施形態において、複数の予測値の当該セットは、当該データセット及び複数のモデル係数の当該セットに基づいて生成される。好ましい実施形態において、当該誤差セットは、複数予測値の当該セット及び複数目標値の当該セットに基づいて生成された複数の絶対誤差の一セット及び複数の相対誤差の一セットを含む。他の実施形態において、当該誤差セットは、複数の予測値の当該セットと複数の目標値の当該セットとの差分として計算された値を含む。他の実施形態において、複数の新係数の当該セットを生成するステップはさらに、複数の予測値の当該セットと複数の実際値の当該セットとの間の複数の誤差の当該セットを最小化するステップを含む。これは、線形又は非線形最適化モデルを使用して達成することができる。好ましい実施形態において、当該打ち切りパフォーマンス終了基準は、一の標準誤差及び一の決定係数に基づく。
【0014】
本発明の他の実施形態は、プロセッサ及び格納サブシステムを含むサーバと、一のデータセットを含みかつ当該格納サブシステムによって格納されるデータベースと、当該格納サブシステムによって格納されるコンピュータプログラムとを備えるシステムを含む。当該コンピュータプログラムは、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、一の誤差基準を選択すること、複数の実際値の一セットを選択すること、複数の係数の一の初期セットを選択すること、当該データセット及び複数の係数の当該初期セットから複数のモデル予測値の一の完成したセットを生成すること、(1)完成した当該データセットに対する当該モデル予測値及び複数の実際値の当該セットに基づいて複数の誤差の一セットを生成すること、(2)完成した当該データセットに対する複数の誤差の完成した当該セット及び当該誤差基準に基づいて複数の誤差しきい値の一セットを生成すること、(3)一の外れ値除去済みデータセットを生成することであってそのフィルタリングは完成した当該データセット及び複数の誤差しきい値の当該セットに基づくこと、(4)当該外れ値除去済みデータセット及び複数の係数の当該セットに基づいて複数の外れ値偏り低減済みモデル予測値の一セットを生成することであって、複数の外れ値偏り低減済みモデル予測値の当該セットの生成はコンピュータプロセッサによって行われること、(5)当該外れ値除去済みデータセット及び複数の旧係数の当該セットに基づいて複数の新係数の一セットを生成することであって複数の新係数の当該セットの生成は当該コンピュータプロセッサによって行われること、(6)当該外れ値偏り低減済みモデル予測値及び複数の実際値の当該セットに基づいて複数のモデルパフォーマンス値の一セットを生成すること、先の反復からの複数の係数の当該セットの代わりに複数の新係数の当該セットを使用しながら一のパフォーマンス終了基準が満たされるまでステップ(1)〜(6)を繰り返すこと、並びに全体的な複数の外れ値偏り低減モデル予測値の一セットをコンピュータデータ媒体に格納することである。
【0015】
さらに他の実施形態は、プロセッサ及び格納サブシステムを含むサーバと、当該格納サブシステムによって格納されるデータベースであって施設に対する一の目標変数、当該目標変数の複数の実際値の一セット、当該目標変数に関連する当該施設に対する複数の変数、当該複数の変数に対する複数の値を含む当該施設に対する一のデータセットを含むデータベースと、当該格納サブシステムによって格納されるコンピュータプログラムとを備えるシステムを含む。当該コンピュータプログラムは、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、一の偏り基準を選択すること、複数のモデル係数の一セットを選択すること、(1)当該データセット及び複数のモデル係数の当該セットに基づいて複数の予測値の一セットを生成すること、(2)複数の予測値の当該セット及び複数の実際値の当該セットに基づいて複数の打ち切りモデルパフォーマンス値の一セットを生成すること、(3)当該目標変数に対する複数の予測値の当該セット及び複数の実際値の当該セットに基づいて一の誤差セットを生成すること、(4)当該誤差セット及び当該偏り基準に基づいて複数の誤差しきい値の一セットを生成すること、(5)当該データセット及び複数の誤差しきい値の当該セットに基づいて一の打ち切られたデータセットを生成すること、(6)当該打ち切られたデータセット及び複数のモデル係数の当該セットに基づいて複数の新モデル係数の一セットを生成すること、(7)当該データセット及び複数の新モデル係数の当該セットに基づいて複数の新予測値の一セットを生成すること、(8)複数の新予測値の当該セット及び複数の実際値の当該セットに基づいて複数の新打ち切りモデルパフォーマンス値の一セットを生成すること、複数の新係数の当該セットを使用して一の打ち切りパフォーマンス終了基準が満たされるまでステップ(1)〜(8)を繰り返すこと、並びに複数の新モデル予測値の当該セットを当該格納サブシステムに格納することである。
【0016】
他の実施形態は、プロセッサ及び格納サブシステムを含むサーバと、施設に対する一のデータセットを含みかつ当該格納サブシステムによって格納されるデータベースと、当該格納サブシステムによって格納されるコンピュータプログラムとを備えるシステムを含む。当該コンピュータプログラムは、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、一の目標変数を決定すること、複数の変数を識別することであって当該複数の変数は、当該目標変数に影響する当該施設に対する複数の直接的変数と、それぞれが当該目標変数に影響する少なくとも一つの直接的変数の関数である当該施設に対する複数の変換された変数の一セットとであること、一の絶対誤差及び一の相対誤差を含む一の誤差基準を選択すること、当該目標変数の複数の実際値の一セットを選択すること、複数の係数の一の初期セットを選択すること、当該データセット及び複数の係数の当該初期セットから複数のモデル予測値の一セットを生成すること、複数のモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数の誤差の一セットを決定することであって、相対誤差が式:相対誤差
m=((予測値
m−実際値
m)/実際値
m)
2(「m」は参照番号)を使用して計算され、かつ、絶対誤差が式:絶対誤差
m=(予測値
m−実際値
m)
2を使用して計算されること、複数のモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数のパフォーマンス値の一セットを決定することであって複数のパフォーマンス値の当該セットは第1標準誤差及び第1決定係数を含むこと、(1)当該モデル予測値及び複数の実際値の当該セットに基づいて複数の誤差の一セットを生成すること、(2)完成した当該データセットに対する複数の誤差の完成した当該セット及び当該誤差基準に基づいて複数の誤差しきい値の一セットを生成すること、(3)複数の誤差しきい値の当該セットの外にある複数の誤差値を有するデータをフィルタリングすることによって、一の外れ値除去済みデータセットを生成することであってそのフィルタリングは当該データセット及び複数の誤差しきい値の当該セットに基づくこと、(4)一の線形最適化モデル及び一の非線形最適化モデルの少なくとも一つを使用して複数の予測値の当該セットと複数の実際値の当該セットとの間の一の誤差を最小化することにより、当該外れ値除去済みデータセット及び複数の係数の当該セットに基づいて複数の新モデル予測値の一セットを生成することであって当該外れ値偏り低減済みモデル予測値の生成はコンピュータプロセッサによって行われること、(5)当該外れ値除去済みデータセット及び複数の旧係数の当該セットに基づいて複数の新係数の一セットを生成することであって複数の新係数の当該セットの生成は当該コンピュータプロセッサによって行われること、(6)複数の新モデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数のパフォーマンス値の一セットを生成することであって複数のモデルパフォーマンス値の当該セットは第2標準誤差及び第2決定係数を含むこと、先の反復からの複数の係数の当該セットの代わりに複数の新係数の当該セットを使用しながら一のパフォーマンス終了基準が満たされるまでステップ(1)〜(6)を繰り返すことであって、当該パフォーマンス終了基準は一の標準誤差終了値及び一の決定係数を含み、かつ、当該パフォーマンス終了基準を満たすことは当該標準誤差終了値が当該第1及び第2標準誤差間の差分よりも大きくかつ当該決定係数終了値が当該第1及び第2決定係数間の差分よりも大きいことを含むこと、並びに複数の新モデル予測値の当該セットをコンピュータデータ媒体に格納することである。
【0017】
本発明の他の実施形態は、プロセッサ及び格納サブシステムを含むサーバと、一のデータセットを含みかつ当該格納サブシステムによって格納されるデータベースと、当該格納サブシステムによって格納されるコンピュータプログラムとを備えるシステムを含む。当該コンピュータプログラムは、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、一の誤差基準を選択すること、一のデータセットを選択すること、複数の実際値の一セットを選択すること、複数のモデル予測値の一の初期セットを選択すること、複数のモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数の誤差の一セットを決定すること、(1)複数の誤差の完成した当該セット及び当該誤差基準に基づいて複数の誤差しきい値の一セットを決定すること、(2)一の外れ値除去済みデータセットを生成するステップであってそのフィルタリングは当該データセット及び複数の誤差しきい値の当該セットに基づくこと、(3)当該外れ値除去済みデータセット及び複数のモデル予測値の完成した当該セットに基づいて複数の外れ値偏り低減済みモデル予測値の一セットを生成することであって複数の外れ値偏り低減済みモデル予測値の当該セットの生成はコンピュータプロセッサによって行われること、(4)複数の外れ値偏り低減モデル予測値の当該セット及び複数の実際値の対応するセットに基づいて複数の誤差の一セットを決定すること、複数のモデル予測値の当該セットの代わりに複数の外れ値偏り低減モデル予測値の当該セットを使用しながら一のパフォーマンス終了基準が満たされるまでステップ(1)〜(4)を繰り返すこと、並びに複数の外れ値偏り低減因子の当該セットをコンピュータデータ媒体に格納することである。
【0018】
本発明の他の実施形態は、プロセッサ及び格納サブシステムを含むサーバと、一のデータセットを含みかつ当該格納サブシステムによって格納されるデータベースと、当該格納サブシステムによって格納されるコンピュータプログラムとを備えるシステムを含む。当該コンピュータプログラムは、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、一の目標変数を決定すること、当該施設に対する複数の変数を識別することであって、当該複数の変数は、当該目標変数に影響する当該施設に対する複数の直接的変数と、それぞれが当該目標変数に影響する少なくとも一つの主要施設変数の関数である当該施設に対する複数の変換された変数の一セットとであること、一の絶対誤差及び一の相対誤差を含む一の誤差基準を選択すること、当該複数の変数に対する複数の値を含む一のデータセットを取得して当該目標変数の複数の実際値の一セットを選択すること、複数の係数の一の初期セットを選択すること、複数のモデル係数の当該セットを当該データセットに適用することによって複数のモデル予測値の一セットを生成すること、複数のモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数のパフォーマンス値の一セットを決定することであって複数のパフォーマンス値の当該セットは第1標準誤差及び第1決定係数を含むこと、(1)複数のモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数の誤差の一セットを決定することであって、相対誤差が式:相対誤差
k=((予測値
k−実際値
k)/実際値
k)
2(「k」は参照番号)を使用して計算され、かつ、絶対誤差が式:絶対誤差
k=(予測値
k−実際値
k)
2を使用して計算されること、(2)完成した当該データセットに対する複数の誤差の当該セット及び当該誤差基準に基づいて複数の誤差しきい値の一セットを決定すること、(3)当該誤差しきい値以上の誤差値を有するデータを除去することによって、一の外れ値除去済みデータセットを生成することであってそのフィルタリングは当該データセット及び複数の誤差しきい値の当該セットに基づくこと、(4)当該外れ値除去済みデータセット及び複数の旧係数の当該セットに基づいて複数の新係数の一セットを生成すること、(5)一の線形最適化モデル及び一の非線形最適化モデルの少なくとも一つを使用して複数の予測値の当該セットと複数の実際値の当該セットとの間の一の誤差を最小化することと当該外れ値除去済みデータセット及び複数の係数の当該セットとに基づいて複数の外れ値偏り低減済みモデル予測値の一セットを生成すること、(5)複数の外れ値偏り低減済みモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数の更新済みパフォーマンス値の一セットを生成することであって当該更新済みパフォーマンス値の当該セットは第2標準誤差及び第2決定係数を含むこと、先の反復からの複数の係数の当該セットの代わりに複数の新係数の当該セットを使用しながら一のパフォーマンス終了基準が満たされるまでステップ(1)〜(5)を繰り返すことであって、当該パフォーマンス終了基準は一の標準誤差終了値及び一の決定係数終了値を含み、かつ、当該パフォーマンス終了基準を満たすことは当該標準誤差終了値が当該第1及び第2標準誤差間の差分よりも大きくかつ当該決定係数終了値が当該第1及び第2決定係数間の差分よりも大きいことを含むこと、並びに複数の外れ値偏り低減因子の当該セットをコンピュータデータ媒体に格納することである。
【0019】
さらに他の実施形態は、一のモデルを展開するときに使用される一のデータセットの実現性を評価するシステムを含む。当該システムは、プロセッサ及び格納サブシステムを含むサーバと、複数のモデル予測値を含む一の目標データセットを含みかつ当該格納サブシステムによって格納されるデータベースと、当該格納サブシステムによって格納されるコンピュータプログラムとを含む。当該コンピュータプログラムは、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、一のランダム目標データセットを生成すること、複数の偏り基準値の一セットを選択すること、当該目標データセット及び選択された各偏り基準値に基づいて複数の外れ値偏り低減済みデータセットを生成すること、当該ランダム目標データセット及び選択された各偏り基準値に基づいて一の外れ値偏り低減済みランダム目標データセットを生成すること、当該外れ値偏り低減済み目標データセット及び当該外れ値偏り低減済みランダム目標データセットに対する複数の誤差値の一セットを計算すること、当該外れ値偏り低減済み目標データセット及び当該外れ値偏り低減済みランダム目標データセットに対する複数の相関係数の一セットを計算すること、選択された各偏り基準に対する対応する誤差値及び相関係数に基づいて当該目標データセット及び当該ランダム目標データセットに対する複数の偏り基準曲線を生成すること、並びに当該目標データセットに対する当該偏り基準曲線と当該ランダム目標データセットに対する当該偏り基準曲線とを対比することである。プロセッサは、動的外れ値偏り除去法を使用して当該外れ値偏り低減済み目標データセット及び当該外れ値偏り低減済みランダム目標データセットを生成する。当該ランダム目標データセットは、当該複数のデータ値の範囲内にある複数の値から展開された複数の任意抽出データ値からなり得る。また、複数の誤差値の当該セットは複数の標準誤差の一セットを含み得る。複数の相関係数の当該セットは複数の決定係数値の一セットを含む。他の実施形態において、プログラムはさらに、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、当該目標データセットに対する当該偏り基準曲線と当該ランダム目標データセットに対する当該偏り基準曲線との対比に基づいて自動化されたアドバイスを生成させることである。アドバイスは、相関係数しきい値及び/又は誤差しきい値のような、分析者によって選択されたパラメータに基づいて生成することができる。さらに他の実施形態において、システムのデータベースはさらに、当該モデル予測値に対応する複数の実際データ値を備える一の実際データセットを含み、かつ、当該プログラムはさらに、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、当該実際データセットに基づいて一のランダム実際データセットを生成すること、当該実際データセット及び選択された各偏り基準値に基づいて一の外れ値偏り低減済み実際データセットを生成すること、当該ランダム実際データセット及び選択された各偏り基準値に基づいて一の外れ値偏り低減済みランダム実際データセットを生成すること、選択された各偏り基準に対し当該外れ値偏り低減済みランダム目標データセット及び当該外れ値偏り低減済みランダム実際データに基づいて一のランダムデータプロットを生成すること、選択された各偏り基準に対し当該外れ値偏り低減済み目標データセット及び当該外れ値偏り低減済み実際目標データセットに基づいて一の現実的データプロットを生成すること、並びに当該ランダムデータプロットと選択された各偏り基準に対応する当該現実的データプロットとを対比することである。
【0020】
他の実施形態は、施設に対して測定された目標変数における外れ値偏りを低減するシステムであって一のデータセットを処理するコンピュータユニットを含むシステムを含む。当該コンピュータユニットは、プロセッサ及び格納サブシステム、処理される当該データセットを入力する入力ユニットであって所与の目標変数を測定しかつ対応データセットを与える測定装置を含む入力ユニット、一の処理済みデータセットを出力する出力ユニット、当該格納サブシステムによって格納されるコンピュータプログラムを含む。当該コンピュータプログラムは、実行されると当該プロセッサに以下のステップを実行させる命令を含む。すなわち、施設に対する当該目標変数を選択するステップ、当該目標変数に関連する当該施設に対する複数の変数を識別するステップ、当該施設に対する一のデータセットを取得するステップであって当該データセットは当該複数の変数に対する複数の値を含むステップ、一の偏り基準を選択するステップ、複数のモデル係数の一セットを選択するステップ、(1)当該データセットに対する複数の予測値の一セットを生成するステップ、(2)当該データセットに対する一の誤差セットを生成するステップ、(3)当該誤差セット及び当該偏り基準に基づいて複数の誤差しきい値の一セットを生成するステップ、(4)当該誤差セット及び複数の誤差しきい値の当該セットに基づいて一の打ち切られたデータセットを生成するステップ、(5)複数の新モデル係数の一セットを生成するステップ、並びに(6)複数の新モデル係数の当該セットを使用して一の打ち切りパフォーマンス終了基準が満たされるまでステップ(1)〜(5)を繰り返すステップである。
【0021】
さらに、他の実施形態は、持分証券(例えば普通株式)又はデリバティブ契約(例えば、先渡、先物、オプション、スワップ等)のような金融商品に対して測定された目標変数における外れ値偏りを低減するシステムを含む。当該システムは、データセットを処理するコンピュータユニットであってプロセッサ及び格納サブシステムを含むコンピュータユニット、処理されるデータセットを受け取る入力ユニットであって目標変数(例えば株価)についてのデータを格納しかつ対応データセットを与える格納装置を含む入力ユニット、処理済みデータセットを出力する出力ユニット、当該格納サブシステムによって格納されるコンピュータプログラムを含む。当該コンピュータプログラムは、実行されると当該プロセッサに以下のステップを実行させる命令を含む。すなわち、当該金融商品に対する当該目標変数を選択するステップ、当該目標変数(例えば、配当、収益、キャッシュフロー等)に関連する当該商品に対する複数の変数を識別するステップ、当該金融商品に対する一のデータセットを取得するステップであって当該データセットは当該複数の変数に対する複数の値を含むステップ、一の偏り基準を選択するステップ、複数のモデル係数の一セットを選択するステップ、(1)当該データセットに対する複数の予測値の一セットを生成するステップ、(2)当該データセットに対する一の誤差セットを生成するステップ、(3)当該誤差セット及び当該偏り基準に基づいて複数の誤差しきい値の一のセットを生成するステップ、(4)当該誤差セット及び複数の誤差しきい値の当該セットに基づいて一の打ち切られたデータセットを生成するステップ、(5)複数の新モデル係数の一セットを生成するステップ、並びに(6)複数の新モデル係数の当該セットを使用して一の打ち切りパフォーマンス終了基準が満たされるまでステップ(1)〜(5)を繰り返すステップである。
【発明を実施するための形態】
【0023】
以下の開示は、構造化された内容に対するアクセス及び管理のためのシステム及び方法の異なる特徴を実装する多くの異なる実施形態又は例を与える。コンポーネント、プロセス及び実装の特定の例は、本発明を明確にすることに役立てるべく説明される。これらは単なる例であって、本発明を特許請求の範囲に記載されるものから制限することを意図しない。周知の要素は、本発明の好ましい実施形態を不必要な詳細によって不明瞭にすることがないように、詳細な説明なしに提示される。ほとんどの箇所に対し、本発明の好ましい実施形態の完全な理解を得るのに不必要な詳細は、かかる詳細が当業者のスキル内にある限り省略される。
【0024】
動的外れ値偏り低減の一実施形態の数学的記述は以下の通りである。
【数1】
【数2】
【0026】
動的外れ値偏り低減の一実施形態の他の数学的記述は以下のとおりである。
【数4】
【数5】
【0028】
現行の打ち切られたデータセットから新モデル係数が計算される各反復の後、先の反復からの除去されたデータに現行の打ち切られたデータをプラスしたものが再び組み合わせられる。この組み合わせは、完成したデータセットにおけるすべてのデータ値を包含する。現行のモデル係数はその後、予測値の完成されたセットを計算するべく、完成されたデータセットに適用される。予測値の完成されたセットに対して絶対及び相対誤差が計算され、新たな偏り基準百分位数しきい値が計算される。絶対又は相対誤差がしきい値よりも大きなデータ値すべてを除去することにより新たな打ち切られたデータセットが作られ、その後、非線形最適化モデルが新たに打ち切られたデータセットに適用されて新たなモデル係数が計算される。このプロセスにより、すべてのデータ値がモデルデータセットに包含される可能性を、反復ごとに調べることができる。モデル係数が当該データに最適適合する値に収束するときは、先の反復において除外されたいくつかのデータ値がその後の反復において含められることもあり得る。
【0029】
一実施形態において、温室効果ガス排出のばらつきが、モデル予測値の偏りにつながる排出結果の過大評価又は過小評価をもたらし得る。環境条件及び計算手順での誤差のような、これらの非工業的影響により、特定の施設に対する結果が、モデル予測値における偏りが除去されない限り、同様の施設と根本的に異なることとなる。モデル予測値における偏りはまた、独特の操作条件によっても存在する。
【0030】
施設の計算が誤っていること又は独特の酌量すべき特徴を有していることが分析者に確信できるのであれば、施設のデータを単に計算から除去することにより、偏りは手動で除去することができる。しかしながら、多くの異なる会社、地域及び国から施設のパフォーマンスを測定する場合、データ詳細の正確な先験的知識は現実的ではない。したがって、分析者に基づくデータ除去手順はいずれも、モデル結果に対して文書化されず、データにサポートされない偏りを加える可能性を有する。
【0031】
一実施形態において、モデル係数計算から除去される統計的な外れ値を決定するべく、データ及び所定の全体的な誤差基準を使用する手順に動的外れ値偏り低減が適用される。これは、データによりもたらされる大域的誤差基準を使用して、例えば百分位数関数を使用して、外れ値を識別するデータ主導型プロセスである。動的外れ値偏り低減の使用は、モデル予測値における偏りの低減に限られない。この実施形態におけるその使用は図示的かつ例示的にすぎない。動的外れ値偏り低減はまた、例えば任意の統計データセットから外れ値を除去するべく使用される。これは、例えば、算術平均、線形回帰及び傾向線の計算における使用を含むがこれらに限られない。外れ値の施設は依然として計算結果から順位付けされているが、外れ値は、モデル係数又は統計結果を計算するべく適用されるフィルタリング済みデータセットにおいて使用されない。
【0032】
外れ値を除去するべく一般に使用される標準手順は、データセットの標準偏差(σ)を計算して平均からの2σ間隔外にあるデータすべてを、例えば外れ値として単純に画定することである。この手順は、一般には実際に検定不可能な統計的仮定を有する。本発明の一実施形態において適用される動的外れ値偏り低減方法の記述は、
図1にまとめられており、相対誤差及び絶対誤差の双方を使用する。例えば、施設「m」に対し:
相対誤差
m=((予測値
m−実際値
m)/実際値
m)
2 (1)
絶対誤差
m=(予測値
m−実際値
m)
2 (2)
となる。
【0033】
ステップ110において、分析者は、計算から除去される外れ値を画定する誤差しきい値基準を特定する。例えば、誤差関数として百分位数操作を使用して、相対及び絶対誤差に対する80パーセントの百分位数値が設定され得る。この意味は、相対誤差に対する第80百分位数値未満のデータ値及び絶対誤差に対する第80百分位数値のデータ値の計算が含まれ、かつ、残りの値は除去されるか又は外れ値とみなされるということである。この例では、除去されるのを回避するべきデータ値に対しては、当該データ値は、相対及び絶対誤差の双方が第80百分位数値未満でなければならない。しかしながら、相対及び絶対誤差の双方に対する百分位数しきい値は独立して変化し得るので、他の実施形態においては、一方の百分位数しきい値のみが使用される。
【0034】
ステップ120において、モデル標準誤差及び決定係数(r
2)のパーセント変化基準が特定される。これらの統計の値がモデルごとに変わる一方、先の反復手順におけるパーセント変化は、例えば5パーセントのように、予備的に設定することができる。これらの値は、反復手順を終了させるべく使用することができる。他の終了基準は単純な反復回数であり得る。
【0035】
ステップ130において、各施設に対するモデル係数及び予測値を生成する最適化計算が行われる。
【0036】
ステップ140において、式(1)及び(2)を使用してすべての施設に対する相対及び絶対誤差の双方が計算される。
【0037】
ステップ150において、ステップ110で特定されたしきい値基準を有する誤差関数がステップ140で計算されたデータに適用されて、外れ値しきい値が決定される。
【0038】
ステップ160において、データが、選択された構成に応じ、相対誤差、絶対誤差又は双方の誤差がステップ150で計算された誤差しきい値より小さい施設のみを含むようにフィルタリングされる。
【0039】
ステップ170において、外れ値除去済みデータセットを使用して最適化計算が行われる。
【0040】
ステップ180において、標準誤差及びr
2のパーセント変化が、ステップ120で特定された基準と対比される。パーセント変化が基準よりも大きい場合、ステップ140に戻ることによってプロセスが繰り返される。そうでない場合、反復手順はステップ190で終了し、この動的外れ値偏り低減基準から計算された結果的なモデルが完成される。モデル結果が、その現行反復の、過去に除去された又は容認されたデータの状態にかかわらず、すべての施設に対して適用される。
【0041】
他の実施形態において、プロセスは、所定の反復パラメータの選択から開始される。具体的には、(1)一方、他方又は双方が反復プロセスにおいて使用される絶対誤差及び相対誤差百分位数値、(2)決定係数(r
2としても知られる)の改善値、及び(3)標準誤差改善値である。
【0042】
プロセスは、原データセット、実際データのセット、及び、当該原データセットに基づいて予測値を計算するべく使用される少なくとも一つの係数又は一つの因子のいずれかから開始する。係数又は係数のセットが原データセットに適用されて予測値のセットが作られる。係数のセットは、スカラー、指数、パラメータ及び周期関数を含むがこれらに限られない。予測データのセットはその後、実際データのセットと対比される。予測データと実際データとの差分に基づいて標準誤差及び決定係数が計算される。ユーザ選択の絶対及び相対誤差百分位数値に基づいてデータ外れ値を除去するべく、各データ点に関連付けられた絶対及び相対誤差が使用される。データの順位付けは必要ない。絶対及び/又は相対誤差に対する百分位数値に関連付けられた範囲から外れたデータが、すべて原データセットから除去されるからである。データをフィルタリングするべく絶対及び相対誤差を使用することは例示的であって、例示目的のみに限られる。本方法は、絶対若しくは相対誤差のみについて又は他の関数について行うことができるからである。
【0043】
ユーザ選択の百分位数範囲内にある絶対及び相対誤差に関連付けられたデータは、外れ値除去済みデータセットであり、プロセスの各反復がそれ自身のフィルタリング済みデータセットを有する。この第1外れ値除去済みデータセットが使用されて、実際値と対比される予測値が決定される。誤差を最適化することにより少なくとも一つの係数が決定され、その後当該係数が使用されて第1外れ値除去済みデータセットに基づく予測値が生成される。外れ値偏り低減済み係数は、一の反復から次の反復へ知識が伝えられるメカニズムとして機能する。
【0044】
第1外れ値除去済みデータセットが作られた後、標準誤差及び決定係数が計算され、かつ、原データセットの標準誤差及び決定係数と対比される。標準誤差の差分及び決定係数の差分の双方が各改善値未満であればプロセスは停止する。しかしながら、改善基準の少なくとも一つが満たされなければプロセスはもう一回の反復に続く。標準誤差及び決定係数を反復プロセスのチェックに使用することは図示的かつ例示的にすぎない。当該チェックは、標準誤差のみ若しくは決定係数のみ、異なる統計的チェック、又は他の(反復回数のような)パフォーマンス終了基準を使用して行うことができるからである。
【0045】
第1反復が改善基準を満たすことができない場合、新セットの予測値を決定するべく、第1外れ値偏り低減済みデータ係数を原データに適用することによって第2反復が開始される。この場合、原データが再び処理され、第1外れ値除去済みデータセットの係数が使用されている間に当該データ点に対する絶対及び相対誤差並びに原データセットに対する標準誤差及び決定係数値が確立される。データはその後フィルタリングされ、第2外れ値除去済みデータセットが形成され、かつ、第2外れ値除去済みデータセットに基づく係数が決定される。
【0046】
しかしながら、第2外れ値除去済みデータセットは必ずしも、第1外れ値除去済みデータセットのサブセットというわけではなく、外れ値偏り低減済みモデル係数の第2セット、第2標準誤差及び第2決定係数に関連付けられる。これらの値がひとたび決定されると、第2標準誤差が第1標準誤差と対比され、かつ、第2決定係数が第1決定係数と対比される。
【0047】
(標準誤差及び決定係数の)改善値がこれらのパラメータの差分を超過するとプロセスは終了する。そうでなければ、原データをなおも再び処理することによってもう一回の反復が開始される。このとき、原データセットを処理しかつ新セットの予測値を生成するべく第2外れ値偏り低減済み係数が使用される。絶対及び相対誤差に対するユーザ選択の百分位数値に基づくフィルタリングによって、第3外れ値偏り低減済み係数のセットを決定するべく最適化される第3外れ値除去済みデータセットが作られる。プロセスは、誤差改善又は他の(収束基準又は特定の反復数のような)終了基準が満たされるまで続けられる。
【0048】
このプロセスの出力は、係数又はモデルパラメータのセットである。ここで、係数又はモデルパラメータは、数学的な値(又は値のセット)であって、例えば、データ、線形方程式の傾き及び切片値、指数、又は多項式の係数を対比するためのモデル予測値であるがこれに限られない。動的外れ値偏り低減の出力は、それ独自の出力値ではなくむしろ、出力値を決定するべくデータを修正する係数である。
【0049】
図2に例示される他の実施形態において、動的外れ値偏り低減は、データが特定の使用に対して適切であることを確証するべく、データの一貫性及び正確性を評価するデータ品質法として適用される。データ品質操作に対し、本方法は反復手順を伴わない。このプロセスの間、動的外れ値偏り低減とともに他のデータ品質法を使用することもできる。本方法は、所与のデータセットの算術平均計算に対して適用される。データ品質基準は、例えば、連続するデータ値が同じ範囲内に包含されることである。すなわち、あまりにもかけ離れた間隔の値はいずれも、劣った品質データを構成する。この場合、誤差項が関数の連続的な値から構成され、かつ、動的外れ値偏り低減がこれらの誤差値に適用される。
【0050】
ステップ210において、初期データが任意の順序でリストアップされる。
【0051】
ステップ220は、データセットに対して行われる関数又は操作を構成する。この実施形態の例では、関数及び操作は、各ラインが当該ライン以上にある全データの平均に対応する連続的算術平均計算が追従するデータの昇順順位付けである。
【0052】
ステップ230は、ステップ220の結果からの連続する値を使用してデータから相対及び絶対誤差を計算する。
【0053】
ステップ240により、分析者は望ましい外れ値除去誤差基準(%)を入力することができる。品質基準値は、ステップ220のデータに基づくステップ230の誤差計算からの結果値である。
【0054】
ステップ250は、データ品質外れ値フィルタリング済みデータセットを示す。相対及び絶対誤差が、ステップ240で与えられた特定誤差基準を超える場合、特定値が除去される。
【0055】
ステップ260は、完成されたデータセットと外れ値除去済みデータセットとの算術平均計算の対比を示す。分析者は、適用される数学又は統計計算すべてにおいて、識別された外れ値除去済みデータ成分が実際に劣った品質であるか否かを判断する最終ステップとなる。動的外れ値偏り低減システム及び方法によって、分析者が直接的にデータを除去することがなくなり、最適な実施指針が、分析者に見直しを促しかつ実施妥当性に対する結果をチェックしてくれる。
【0056】
図3に例示される他の実施形態において、動的外れ値偏り低減は、データが特定の使用に対して適切であるか否かを決定するべく、データセットの合理的正確性を検定するデータ認証法として適用される。データ認証操作に対し、本方法は反復手順を伴わない。この例では、動的外れ値偏り低減は、2つのデータセット間のピアソン相関係数の計算に適用される。ピアソン相関係数は、データセットにおいて他のデータ点とは相対的に異なる値に対する感度が高い。この統計に対してデータセットを認証することは、当該結果が、極端な値の影響以外に大部分のデータが示唆するものを代表していることを保証する上で重要である。この例におけるデータ認証プロセスは、連続するデータ値が特定された範囲内に包含されるということである。すなわち、あまりにもかけ離れた間隔の値(例えば特定された範囲外にある値)はいずれも、劣った品質データであることを意味する。これは、当該関数の連続値の誤差項を構築することによって達成される。これらの誤差値に動的外れ値偏り低減が適用されることにより、外れ値除去済みデータセットが認証済みデータとなる。
【0057】
ステップ310において、対のデータが任意の順序でリストアップされる。
【0058】
ステップ320は、データセットにおいて並べられた各対に対して相対及び絶対誤差を計算する。
【0059】
ステップ330により、分析者は望ましいデータ認証基準を入力することができる。本例では、90%の相対及び絶対双方の誤差しきい値が選択される。ステップ330における品質基準値の項目は、ステップ320に示されたデータに対する結果的な絶対及び相対誤差百分位数の値である。
【0060】
ステップ340は、外れ値除去プロセスを示す。このプロセスでは、相対及び絶対双方の誤差値が、ステップ330で入力されたユーザ選択の百分位数値に対応する値を超える基準を使用して、無効かもしれないデータがデータセットから除去される。実際には、他の誤差基準を使用することができるので、この例に示されるように複数の基準が適用される場合、外れ値除去のルールを決定するべく誤差値の任意の組み合わせを適用することができる。
【0061】
ステップ350は、認証済みデータ及び原データ値統計結果を計算する。このケースでは、ピアソン相関係数である。これらの結果はその後、分析者によって実施妥当性が調べられる。
【0062】
他の実施形態において、データセット全体の認証を行うべく動的外れ値偏り低減が使用される。標準誤差改善値、決定係数改善値、並びに絶対及び相対誤差しきい値が選択され、その後当該データセットが誤差基準に従ってフィルタリングされる。原データセットが高品質であっても、絶対及び相対誤差しきい値から外れた誤差値を有するデータが依然としていくつか存在する。したがって、データのなんらかの除去が必要か否かを決定することは重要である。第1反復後に外れ値除去済みデータセットが標準誤差改善及び決定係数の改善基準に合格する場合、原データセットは認証済みとなる。フィルタリングされたデータセットが、あまりにも小さくて有意とみなすことができない(例えば選択された改善値未満の)標準誤差及び決定係数を生成しているからである。
【0063】
他の実施形態において、データ外れ値除去の反復が当該計算にどのような影響を与えているのかについての洞察を与えるべく動的外れ値偏り低減が使用される。グラフ又はデータ表が与えられるので、各反復が行われているときのデータ外れ値除去計算の進捗をユーザが観測することができる。この段階的アプローチにより、分析者は、結果に値及び知識を加え得る計算の独特な特性を観測することができる。例えば、収束の速度及び性質によって、多次元データセットに対する代表的因子を計算することに与える動的外れ値偏り低減の影響が示される。
【0064】
例示のとおり、87のレコードの劣った品質のデータセットに対して線形回帰計算を考慮する。回帰対象の式の形式はy=mx+bである。表1は、5回の反復に対する反復プロセスの結果を示す。注目すべきなのは、95%の相対及び絶対誤差基準を使用して、3回の反復で収束が達成されることである。回帰係数の変化を観測することができる。動的外れ値偏り低減方法は、79のレコードに基づいて計算データセットを低減させた。相対的に低い決定係数(r
2=39%)は、r
2統計に対する及び計算された回帰係数に対する付加的な外れ値除去効果を検討するべく、低い(<95%)基準を検定する必要があることを示している。
【表1】
【0065】
表2は、80%の相対及び絶対誤差基準を使用して動的外れ値偏り低減を適用した結果を示す。注目すべきなのは、外れ値誤差基準の15パーセントポイント(95%から80%)の変化が、(79から51のレコードが含まれる)許容データの35%の付加的な減少を伴うr
2の35パーセントポイント(39%から74%)の増加をもたらしたことである。分析者は、外れ値除去済み結果を幅広い聴衆に伝えるべく、かつ、分析結果のデータばらつきの効果に関する洞察を与えるべく、分析プロセスにおける表1及び2の外れ値除去済みデータ及び数値結果とともに、回帰線の変化のグラフ図を使用することができる。
【表2】
【0066】
図4に例示されるように、本方法を行うべく使用されるシステムの一実施形態は、コンピュータシステムを含む。ハードウェアは、必要な数値計算を行うのに十分なシステムメモリ420を包含するプロセッサ410からなる。プロセッサ410は、本方法を行うべくシステムメモリ420にあるコンピュータプログラムを実行する。ディスプレイ440の操作を可能にするべく、ビデオ及び格納コントローラ430が使用される。システムは、様々なデータ入力用データ格納装置を含む。例えば、フロッピー(登録商標)ディスクユニット450、内部/外部ディスクドライブ460、内部CD/DVD470、テープユニット480、及び他のタイプの電子格納媒体490である。上述のデータ格納装置は、図示的かつ例示的にすぎない。これらの格納媒体が使用されてデータセット及び外れ値除去基準がシステムに入力され、外れ値除去済みデータセットが格納され、計算因子が格納され、並びに、システム生成傾向線及び傾向線反復グラフが格納される。計算は、統計ソフトウェアパッケージに適用すること、又は例えばマイクロソフト(登録商標)のエクセル(登録商標)を使用してスプレッドシート形式で入力されたデータから行うことができる。計算は、企業専用システム実装のために設計されるカスタマイズされたソフトウェアプログラムを使用して、又はエクセル等のデータベース及びスプレッドシートプログラムと互換性のある市販ソフトウェアを使用して行われる。システムはまた、動的外れ値偏り低減システム及び方法計算とともに使用されるデータを与えるべく、他のデータベースと連携する専有の又は公共の外部格納媒体300とのインタフェースを有し得る。出力装置は、計算ワークシート等のシステム生成グラフ及びレポートを、イントラネット又はインターネットを介して管理等の職員、プリンタ520、入力装置450、460、470、480、490として上述したものと同様の電子格納媒体、及び専有の格納データベース530に送信する遠距離通信装置510であり得る。これらの出力装置はここでは、図示的かつ例示的にすぎない。
【0067】
図5、6A、6B、7A、7B、8A及び8Bに例示されるように、一実施形態において、データセットの品質を定量的かつ定性的に評価するべく動的外れ値偏り低減を使用することができる。これは、データセットのデータ値の誤差及び相関が、適切な範囲内から展開されたランダムデータ値からなるベンチマークデータセットの誤差及び相関と対比されることに基づく。一実施形態において、誤差は、データセットの標準誤差となるように指定することができる。相関は、データセットの決定係数(r
2)となるように指定することができる。他の実施形態において、相関は、一般にケンドールのタウ(τ)係数と称されるケンドールの順位相関係数となるように指定することができる。さらに他の実施形態において、相関は、スピアマンの順位相関係数又はスピアマンのρ(ロー)係数となるように指定することができる。上述のように、動的外れ値偏り低減は、外れ値として識別されるデータ値を体系的に除去するべく使用される。基礎となるモデル又はプロセスの代表が記述されるわけではない。通常、外れ値は、相対的に少数のデータ値に関連付けられる。しかしながら実際は、データセットは、知らぬ間に疑似値又はランダムノイズで汚染され得る。
図5、6A、6B、7A、7B、8A及び8Bのグラフ図は、基礎となるモデルがデータによってサポートされない状況を識別するべく、動的外れ値偏り低減システム及び方法をどのようにして適用することができるのかを例示する。外れ値低減は、予測モデルと実際データ値との間で計算された相対及び/又は絶対誤差が、例えば80%のような百分位数に基づく偏り基準よりも大きいデータ値を除去することによって行われる。これが意味するのは、相対又は絶対誤差百分位数の値が、第80百分位数(データ値の80%がこの値未満の誤差を有する)に関連付けられた百分位数しきい値よりも大きい場合に、データ値が除去されるということである。
【0068】
図5に例示されるように、実際データセットの範囲内で展開された現実的モデル展開データセット及びランダム値のデータセットの双方が対比される。実際には、分析者が任意のデータセット汚染について先行知識を有していないのが典型的であるから、かかる理解は、動的外れ値偏り低減システム及び方法を使用していくつかのモデル計算からの反復結果を観測することに基づく必要がある。
図5は、双方のデータセットに対する一例のモデル展開計算結果を例示する。標準誤差、すなわちモデルで説明がつかない誤差量の尺度が、どの程度のデータばらつきが当該モデルによって説明されるのかを表す決定係数(%)又はr
2に対してプロットされる。各点の隣にある百分位数の値が偏り基準を表す。例えば、90%は、第90百分位数よりも大きな相対又は絶対誤差値に対するデータ値が当該モデルから外れ値として除去されることを示す。これは、最高誤差を有するデータ値の10%を反復ごとに除去することに対応する。
【0069】
図5に例示されるように、ランダム及び現実的データセットモデルの双方に対し、偏り基準を増加させることによって誤差が低減される。すなわち、標準誤差及び決定係数が双方のデータセットに対して改善される。しかしながら、ランダムデータセットに対する標準誤差は、現実的モデルデータセットよりも2倍から3倍大きくなる。分析者は、80%の決定係数要件を、例えばモデルパラメータを決定するための許容可能精度レベルとして使用することができる。
図5では、ランダムデータセットに対する70%の偏り基準において、及び現実的データに対する近似的に85%の偏り基準において80%のr
2が達成される。しかしながら、ランダムデータセットに対する対応標準誤差は、現実的データセットのものよりも2倍以上大きい。すなわち、モデルデータセット分析を異なる偏り基準で体系的に実行し、かつ、計算を代表的な疑似データセットで繰り返して
図5に示されるように結果をプロットすることにより、分析者は、データセットに対する許容可能な偏り基準(すなわち除去されたデータ値の許容可能なパーセント)、ひいては全体的なデータセット品質を評価することができる。さらに、かかる体系的なモデルデータセット分析は、設定可能なパラメータセットに基づくモデル展開において使用されるデータセットの実現性に関するアドバイスを自動的に与えるべく使用することができる。例えば、データセットに対する動的外れ値偏り除去を使用してモデルが展開される一実施形態において、異なる偏り基準のもとで計算されたモデルデータセットに対する及び代表的疑似データセットに対する誤差及び相関係数の値は、展開されたモデルをサポートする際のデータセットの実現性、及び本質的にはデータセットをサポートする際の展開されたモデルの実現性に関するアドバイスを自動的に与えるべく使用することができる。
【0070】
図5に例示されるように、いくつかのケースに対してこれらのモデルパフォーマンス値の挙動を観測することにより、データ値が、モデル化されるプロセスを代表するか否かを決定するための定量的土台を得ることができる。例えば、
図5を参照すると、100%の偏り基準(すなわち偏り低減なし)における現実的データセットに対する標準誤差は、近似的に65%の偏り基準(すなわち最高誤差が除去されたデータ値の35%)におけるランダムデータセットに対する標準誤差に対応する。かかる知見により、データが汚染されていないとの結論がサポートされる。
【0071】
図5の例示的なグラフにより容易とされる上述の定量分析に加え、動的外れ値偏り低減は、強力ではなくても同等の、データセットの品質評価を補助する主観的手順において利用することができる。これは、外れ値及び包含される結果の双方に対し、モデル予測値を、データが与える実際目標値に対してプロットすることにより行われる。
【0072】
図6A及び6Bは、
図5における現実的曲線及びランダム曲線双方の、100%の点に対する当該プロットを例示する。
図6Aにおける大きな散布は、任意の目標値に、及び結果的にモデルが意図的なランダム性にフィッティングできないことに一致する。
図6Bは、実際のデータの集まりに一致しかつ一般的であって、モデル予測及び実際値が、モデル予測値が実際目標値に等しい線(以下実際=予測線とする)付近に群をなしている。
【0073】
図7A及び7Bは、
図5における70%の点からの結果を例示する(すなわちデータの30%が外れ値として除去されている)。
図7A及び7Bにおいて外れ値偏り低減は、実際=予測線から最も離れた点を除去するように示されているが、
図7A及び7B間のモデル正確性の大きなばらつきが示すのは、このデータセットがモデル化されるプロセスを表していることである。
【0074】
図8A及び8Bは、
図5における50%の点からの結果を示す(すなわちデータの50%が外れ値として除去されている)。このケースでは、データの約半数が外れ値として識別されており、これほどのばらつきがデータセットから除去されてもなお、モデルは
図8Aにおいて、ランダムデータセットを厳密に記述するわけではない。実際=予測線付近の一般的なばらつきは、各ケースでの除去済みデータを考慮すれば
図6A及び7Aにおけるものとほぼ同様である。
図8Bは、ばらつきの50%が除去された場合、モデルが、実際データに厳密にマッチする予測結果を生成できたことを示す。
図5に示されたパフォーマンス基準の分析に加え、これらのタイプの可視プロットの分析は、分析者が、モデル展開に対する実施において実際データセットの品質を評価するべく使用することができる。
図5、6A、6B、7A、7B、8A及び8Bは、可視プロットを例示する。ここで、分析は、様々な偏り基準値に対応するパフォーマンス基準傾向に基づく。他の実施形態では、分析は、分析者が選択する様々な偏り基準に対応するモデル係数傾向のような、偏り基準値に対応する他の変数に基づき得る。
【0075】
様々な実施形態は、施設に対して測定された目標変数の外れ値偏りを低減するシステムを含む。
図9は、かかる実施形態の一例を示す。
図9に例示されるシステムは、工業施設に対する様々なパフォーマンス測定値を包含するデータセットのようなデータセットを処理することができるコンピュータユニット1012を含む。コンピュータユニット1012は、コンピュータプログラムがここに開示される動的外れ値偏り除去法を具体化するプロセッサ1014及び格納サブシステム1016を含む。システム1010は入力ユニット1018を含む。入力ユニット1018はさらに、所与の目標変数を測定し、かつ、対応するデータセットを与える測定装置1020を含む。測定装置1020は、任意の関心目標変数を測定するべく構成することができる。当該変数は、例えば、単位時間当たりに工業プラント施設から出る部品数、又は単位時間当たりに精製施設により生産された精製物質体積である。その他、複数の目標変数を同時に測定することもできる。図示の実施形態では、測定装置1020はセンサ1022を含む。当業者であれば、本発明の範囲内には、物質の様々な物理的属性及び/又は工業施設により生産される若しくは工業施設において使用される成分を測定するのに使用される様々なセンサが含まれることがわかる。例としては、例えば温室効果ガス排出物のような化学物質を検出かつ定量することができるセンサである。加えて、当業者であれば、関心目標変数の測定には、データの収集、受け取り、測定、蓄積及び処理の任意手段が含まれることがわかる。目標変数、データセット及びデータは、工業プロセスデータ、コンピュータシステムデータ、金融データ、経済データ、株式、債券及び先物のデータ、インターネット検索データ、セキュリティデータ、音声等のヒト識別データ、クラウドデータ、ビッグデータ、保険データ等の関心データを含むがこれらに限られないすべての種類のデータを含むことができる。本開示及び本発明の範囲及び示唆は当該タイプの目標変数、データセット又はデータに限られない。当業者であれば、センサ及び測定装置が、コンピュータ、コンピュータシステム及びプロセッサであるか又はこれらも含み得ることもわかる。さらに、システム1010は、処理されたデータを出力することができる出力ユニット1024を含む。出力装置は、モニタ、プリンタ又は送信装置(図示せず)を含む。
【0076】
一実施形態において、システム1010はセンサ1022を起動させる。センサ1022は次に、例えば二酸化炭素のような所与の化合物の検出及び定量を行う。検出及び定量は、連続的に又は離散した時間ステップ内で行うことができる。測定が完了するごとにデータセットが生成され、格納サブシステム1016に格納され、及びコンピュータユニット1012に入力される。データセットは、格納サブシステム1016に格納された動的外れ値偏り除去コンピュータプログラムによって処理され、ここに開示された方法の様々な実施形態に応じて打ち切られる。コンピュータプログラムのデータ処理がひとたび完了すると、処理済みデータが出力ユニット1024によって出力される。出力ユニット1024がモニタ又はプリンタである実施形態において、結果が線図で可視化される。出力ユニット1024が送信装置を含む一実施形態において、処理済みデータは、中央データベース又はコントロールセンターに送られる。そこでデータはさらに処理される(図示せず)。したがって、様々な開示の実施形態に係るシステムは、外れ値偏りが低減される自動的態様で一企業内又は一技術分野内の異なる施設同士を対比する強力なツールを与える。
【0077】
好ましい実施形態において、測定装置1020は、化学物質を検出かつ定量する一以上のセンサを含む。地球温暖化ゆえに、施設から排出される温室効果ガスは、ますます重要な目標変数となっている。少量の温室効果ガスを排出する施設は、大量に排出する施設よりも良好に順位付けされる。ただし、全体的な生産性は後者の方が良好である。温室効果ガスとは、例えば、二酸化炭素(CO
2)、オゾン(O
3)、水蒸気(H
2O)、ハイドロフルオロカーボン(HFC)、パーフルオロカーボン(PFC)、クロロフルオロカーボン(CFC)、六フッ化硫黄(SF
6)、メタン(CH
4)、亜酸化窒素(N
2O)、一酸化炭素(CO)、窒素酸化物(NO
x)及び非メタン揮発性有機化合物(NMVOC)である。これらの化合物の自動化された検出及び定量は、温室効果ガスの所定許容排出に関する工業基準を展開するべく使用することができる。しかしながら、動的外れ値偏り除去の適用により、生産の異常な状況が、例えば動作誤差又は事故でさえもが引き起こす外れ値の除去がもたらされる。すなわち、ここに開示された様々な実施形態の使用により、正確かつ有意義な基準の展開が得られる。工業基準がひとたび展開されると、システムが使用されて排出と当該基準とが対比される。
【0078】
当業者であればさらに、本発明の範囲には、持分証券(例えば普通株式)又はデリバティブ契約(例えば、先渡、先物、オプション、スワップ等)のような金融商品に関連する目標変数において目標変数の外れ値偏りを低減するための、様々な開示の実施形態のアプリケーションが含まれることがわかる。例えば、一実施形態において、システム1010は、普通株式のような金融商品に関連するデータを受け取る入力ユニット1018を含み、対応するデータセットを与える。目標変数は、株価とすることができる。さらに、目標変数に関連する変数は、金融商品を評価する様々な周知の方法、例えば、割引キャッシュフロー分析のような方法を使用して決定することができる。かかる関連変数には、関連する配当金、利益剰余金、又はキャッシュフロー、一株当たりの利益、株価収益率若しくは成長率等が含まれる。目標値及び関連変数値のデータベースがひとたび形成されると、ここに開示された動的外れ値偏り除去の様々な実施形態を当該データベースに適用して、金融商品を評価するための正確なモデルを得ることができる。
【0079】
本発明の好ましい実施形態の上記開示及び記載は、図示的かつ例示的であって、当業者には、例示のシステム及び方法の詳細において、本発明の範囲を逸脱することなく様々な変更をなし得ることが理解される。