特許第6704930号(P6704930)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キンダイ、インコーポレイテッドの特許一覧

特許6704930大規模非構造化データフィールドにおけるテクニカルおよびセマンティックシグナル処理
<>
  • 特許6704930-大規模非構造化データフィールドにおけるテクニカルおよびセマンティックシグナル処理 図000003
  • 特許6704930-大規模非構造化データフィールドにおけるテクニカルおよびセマンティックシグナル処理 図000004
  • 特許6704930-大規模非構造化データフィールドにおけるテクニカルおよびセマンティックシグナル処理 図000005
  • 特許6704930-大規模非構造化データフィールドにおけるテクニカルおよびセマンティックシグナル処理 図000006
  • 特許6704930-大規模非構造化データフィールドにおけるテクニカルおよびセマンティックシグナル処理 図000007
  • 特許6704930-大規模非構造化データフィールドにおけるテクニカルおよびセマンティックシグナル処理 図000008
  • 特許6704930-大規模非構造化データフィールドにおけるテクニカルおよびセマンティックシグナル処理 図000009
  • 特許6704930-大規模非構造化データフィールドにおけるテクニカルおよびセマンティックシグナル処理 図000010
  • 特許6704930-大規模非構造化データフィールドにおけるテクニカルおよびセマンティックシグナル処理 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6704930
(24)【登録日】2020年5月15日
(45)【発行日】2020年6月3日
(54)【発明の名称】大規模非構造化データフィールドにおけるテクニカルおよびセマンティックシグナル処理
(51)【国際特許分類】
   G06F 16/33 20190101AFI20200525BHJP
【FI】
   G06F16/33
【請求項の数】43
【全頁数】35
(21)【出願番号】特願2017-550089(P2017-550089)
(86)(22)【出願日】2015年12月10日
(65)【公表番号】特表2018-503206(P2018-503206A)
(43)【公表日】2018年2月1日
(86)【国際出願番号】US2015065075
(87)【国際公開番号】WO2016094709
(87)【国際公開日】20160616
【審査請求日】2018年12月10日
(31)【優先権主張番号】62/090,178
(32)【優先日】2014年12月10日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】517204427
【氏名又は名称】キンダイ、インコーポレイテッド
【氏名又は名称原語表記】KYNDI, INC.
(74)【代理人】
【識別番号】100091982
【弁理士】
【氏名又は名称】永井 浩之
(74)【代理人】
【識別番号】100091487
【弁理士】
【氏名又は名称】中村 行孝
(74)【代理人】
【識別番号】100082991
【弁理士】
【氏名又は名称】佐藤 泰和
(74)【代理人】
【識別番号】100105153
【弁理士】
【氏名又は名称】朝倉 悟
(74)【代理人】
【識別番号】100202429
【弁理士】
【氏名又は名称】石原 信人
(72)【発明者】
【氏名】アルン、マジュムダール
【審査官】 鹿野 博嗣
(56)【参考文献】
【文献】 特開2014−096086(JP,A)
【文献】 特開2009−003888(JP,A)
【文献】 米国特許第08005858(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/33
(57)【特許請求の範囲】
【請求項1】
自動エージェント回路を用いたテクニカルおよび/またはセマンティックシグナル解釈の方法であって、
前記自動エージェント回路により、生データストリームから生データを得るステップと、
前記自動エージェント回路により、測定ルブリックに従って前記生データを操作し、測定値を生成するステップと、
前記自動エージェント回路により、前記生データの前記生成された測定値の間の区別可能性を表す区別可能性メトリックに基づき、シグナルインジケータの第1の組を決定するステップと、
前記自動エージェント回路により、前記生データの前記生成された測定値の間の区別不可能性を表す区別不可能性メトリックに基づき、シグナルインジケータの第2の組を決定するステップと、
前記自動エージェント回路により、前記生データの前記生成された測定値の前記区別可能性および前記区別不可能性の不明を表す不明メトリックに基づき、シグナルインジケータの第3の組を決定するステップと、
前記自動エージェント回路により、前記生データストリームに前記シグナルインジケータの第1の組を適用することによって前記生データストリームにおける区別可能性インジケータを認識して、1つ以上の区別可能性データストリームを生成するステップと、
前記自動エージェント回路により、前記生データストリームに前記シグナルインジケータの第2の組を適用することによって前記生データストリームにおける区別不可能性インジケータを認識して、1つ以上の区別不可能性データストリームを生成するステップと、
前記自動エージェント回路により、前記生データストリームに前記シグナルインジケータの第3の組を適用することによって前記生データストリームにおける不明インジケータを認識して、1つ以上の不明データストリームを生成するステップと、
前記自動エージェント回路により、前記1つ以上の区別可能性データストリーム、1つ以上の区別不可能性データストリーム、および1つ以上の不明データストリームを組み合わせ、1つ以上のセマンティック境界インデックスを生成するステップと、
前記自動エージェント回路により、前記1つ以上のセマンティック境界インデックスを使用し、前記生データストリームの1つ以上のテクニカルおよび/またはセマンティック解釈あるいは1つ以上のテクニカルおよび/またはセマンティック決定を出力するステップと
を備える方法。
【請求項2】
前記測定ルブリックに従って前記生データを操作するステップは、前記測定ルブリックが、金融または商品セキュリティのテクニカルインジケータ、セマンティック距離尺度、およびResnik尺度のうちの1つであることをさらに備える、請求項1に記載の方法。
【請求項3】
前記シグナルインジケータの第1の組を決定するステップは、
前記自動エージェント回路により、前記測定値から一式のパターンを決定し、訓練データを生成するステップと、
前記自動エージェント回路により、前記訓練データを、生データ空間から多次元ベクトル空間であるターゲット空間へとマッピングするステップと、
前記自動エージェント回路により、クラスタリングを使用して、前記測定値からの前記一式のパターンに対応する前記訓練データのオントロジを決定するステップと、
前記自動エージェント回路により、前記生データの解釈に基づく基準パターンを受け取るステップと、
前記自動エージェント回路により、前記訓練データの前記一式のパターンと前記基準パターンとの間の類似度尺度を決定するステップと、
前記自動エージェント回路により、前記生データ空間から前記ターゲット空間へのマッピングの第1の組を推定するステップであって、前記類似度マッピングの第1の組の各々のマッピングは、前記決定された類似度尺度のうちの対応する類似度尺度に基づいており、前記マッピングの第1の組は、前記シグナルインジケータの第1の組を備えるステップと、
によって実行される請求項1に記載の方法。
【請求項4】
前記訓練データの生データ空間からターゲット空間へのマッピングするステップは、反復制限の対象となる反復関数システムである幾何学的非線形マッピング関数を使用して実行される、請求項3に記載の方法。
【請求項5】
前記訓練データのオントロジを決定するステップは、k平均クラスタリング法および距離尺度に基づくクラスタリング法のうちの1つ以上であるクラスタリングを使用して実行される、請求項3に記載の方法。
【請求項6】
前記類似度尺度を決定するステップは、Pearson相関係数を使用して実行される、請求項3に記載の方法。
【請求項7】
前記決定された類似度尺度に基づく前記生データ空間から前記ターゲット空間への類似度マッピングを推定するステップは、Shepard補間関数を使用して実行される、請求項3に記載の方法。
【請求項8】
前記シグナルインジケータの第2の組を決定するステップは、
前記自動エージェント回路により、概念的距離メトリックを使用して前記マッピングされた訓練データを連鎖させ、および/または、クラスタリングして、前記ターゲット空間内の複数のクラスタを生成するステップであって、各クラスタはそれぞれ、それぞれのクラスタの対応する基底に対する区別不可能性に従って連鎖させられ、および/または、クラスタリングされるステップと、
前記自動エージェント回路により、前記ターゲット空間内の各々の独立クラスタについて、それぞれの前記基準パターンのうちの前記基準パターンの前記ターゲット空間への最も近いマッピングを決定するステップと、
前記自動エージェント回路により、前記複数のクラスタの各クラスタについて、前記生データ空間から前記ターゲット空間へのマッピングの第2の組のマッピングを決定するステップであって、マッピングの第2の組の各マッピングは、前記複数のクラスタのそれぞれのクラスタに対するマッピングの前記第1の組の不明瞭なメンバーシップに対応するステップと、
前記自動エージェント回路により、マッピングの前記第1の組からマッピングの前記第2の組へのそれぞれのマッピングとなるように、シグナルインジケータの前記第2の組を決定するステップと
によって実行される、請求項3に記載の方法。
【請求項9】
前記シグナルインジケータの第3の組を決定するステップは、シグナルインジケータの前記第1の組とシグナルインジケータの前記第2の組との間の和集合の補集合を得ることによって実行される、請求項1に記載の方法。
【請求項10】
前記自動エージェント回路により、シグナルインジケータの前記第1の組、シグナルインジケータの前記第2の組、およびシグナルインジケータの前記第3の組をグループ化し、受け取った前記基準パターンに対応するチャネルを生成するステップであって、前記チャネルは、シグナルインジケータの前記第1の組を使用して生成された第1のデータストリームと、シグナルインジケータの前記第2の組を使用して生成された第2のデータストリームと、シグナルインジケータの前記第3の組を使用して生成された第3のデータストリームとを含むステップと、
前記自動エージェント回路により、前記第1のデータストリームを対数関数で乗算して第1の積を生成し、該第1の積を時間に関して微分して第1のスパイク列を生成するステップと、
前記自動エージェント回路により、前記第2のデータストリームを対数関数で乗算して第2の積を生成し、該第2の積を時間に関して微分して第2のスパイク列を生成するステップと、
前記自動エージェント回路により、前記第3のデータストリームを対数関数で乗算して第3の積を生成し、該第3の積を時間に関して微分して第3のスパイク列を生成するステップと
をさらに備える、請求項1に記載の方法。
【請求項11】
前記自動エージェント回路により、第1のクロックの各サイクルにおいて前記第1のスパイク列の値をそれぞれのバイナリ値で近似するステップと、
前記自動エージェント回路により、第2のクロックの各サイクルにおいて前記第2のスパイク列をそれぞれのバイナリ値で近似するステップと、
前記自動エージェント回路により、第3のクロックの各サイクルにおいて前記第3のスパイク列をそれぞれのバイナリ値で近似するステップと、
前記自動エージェント回路により、前記第1のスパイク列、前記第2のスパイク列、および前記第3のスパイク列の前記バイナリ値を時間ウインドウ化されたバイナリビットコードへと分割するステップであって、時間ウインドウ化されたバイナリビットコードの各々の時系列が、前記1つ以上のセマンティック境界インデックスのうちの1つに対応するステップと
をさらに含む、請求項10に記載の方法。
【請求項12】
前記自動エージェント回路により、前記時間ウインドウ化されたバイナリビットコードを一意に識別するためのそれぞれの素数識別子を決定するステップ
をさらに含み、
前記それぞれの素数識別子とそれぞれの前記時間ウインドウ化されたバイナリビットコードとの組み合わせが、前記1つ以上のセマンティック境界インデックスを含む、請求項11に記載の方法。
【請求項13】
前記第1のクロック、前記第2のクロック、および前記第3のクロックは、それぞれLamportクロックである、請求項11に記載の方法。
【請求項14】
前記1つ以上のセマンティック境界インデックスは、別の1つ以上のセマンティック境界インデックスを生成するために使用された別の生データストリームの生データを含む、請求項1に記載の方法。
【請求項15】
前記1つ以上のセマンティック境界インデックスは、別の生データストリームからの生データを使用して生成された別の1つ以上のセマンティック境界インデックスである前記生データストリームからの前記生データを使用して生成される、請求項1に記載の方法。
【請求項16】
前記1つ以上のセマンティック境界インデックスを生成するために使用される前記生データストリームからの前記生データは、前記1つ以上のセマンティック境界インデックスを含む、請求項1に記載の方法。
【請求項17】
前記自動エージェント回路により、別の生データストリームを得るステップと、
前記自動エージェント回路により、前記別の生データストリームにシグナルインジケータの別の第1の組、シグナルインジケータの別の第2の組、およびシグナルインジケータの別の第3の組を適用することによってそれぞれ生成される前記別の生データストリームの別の1つ以上の区別可能性データストリーム、別の1つ以上の区別不可能性データストリーム、および別の1つ以上の不明データストリームに基づいて、別の1つ以上のセマンティック境界インデックスを生成するステップと、
前記自動エージェント回路により、前記別の1つ以上のセマンティック境界インデックスと前記1つ以上のセマンティック境界インデックスとの間の類似度を使用して、前記生データストリームと前記別の生データストリームとの間の予想アナログを特定するステップと、
前記自動エージェント回路により、アナロジ推論エンジンを使用して、前記生データストリームと前記別の生データストリームとの間の前記予想アナログから前記生データストリームと前記別の生データストリームとの間のアナロジを決定するステップと
をさらに備える、請求項1に記載の方法。
【請求項18】
前記自動エージェント回路により、別の生データストリームを得るステップと、
前記自動エージェント回路により、前記別の生データストリームにシグナルインジケータの別の第1の組、シグナルインジケータの別の第2の組、およびシグナルインジケータの別の第3の組を適用することによってそれぞれ生成される前記別の生データストリームの別の1つ以上の区別可能性データストリーム、別の1つ以上の区別不可能性データストリーム、および別の1つ以上の不明データストリームに基づいて、別の1つ以上のセマンティック境界インデックスを生成するステップと、
前記自動エージェント回路により、前記生データストリームと前記別の生データストリームとの間の構造化された関係を生成し、アナロジカルスキャフォールディングを生成するステップと、
前記自動エージェント回路により、前記生データストリームに基づいてイベントを予測するインジケータであって、前記アナロジカルスキャフォールディングと、前記別の生データを使用して他のイベントを予測する他のインジケータと、に基づいて生成するステップであって、前記別のインジケータは、前もって得られているステップと、
をさらに備える、請求項1に記載の方法。
【請求項19】
前記自動エージェント回路により、金融テクニカルインジケータを、前記1つ以上のセマンティック境界インデックスを前記金融テクニカルインジケータへの入力として使用して、計算するステップと、
前記自動エージェント回路により、前記1つ以上のセマンティック境界インデックスの前記金融テクニカルインジケータについて金融ポートフォリオ分析を実行し、前記生データストリームによって知らされる変化点および/または交差点を予測するステップと
をさらに備える、請求項1に記載の方法。
【請求項20】
前記自動エージェント回路により、別の生データストリームを得るステップと、
前記自動エージェント回路により、前記別の生データストリームにシグナルインジケータの別の第1の組、シグナルインジケータの別の第2の組、およびシグナルインジケータの別の第3の組を適用することによってそれぞれ生成される前記別の生データストリームの別の1つ以上の区別可能性データストリーム、別の1つ以上の区別不可能性データストリーム、および別の1つ以上の不明データストリームに基づいて、別の1つ以上のセマンティック境界インデックスを生成するステップと、
前記自動エージェント回路により、前記別の1つ以上のセマンティック境界インデックスと前記1つ以上のセマンティック境界インデックスとの間の相関、前記別の1つ以上のセマンティック境界インデックスおよび前記1つ以上のセマンティック境界インデックスのそれぞれのインデックスの間の距離尺度、およびk平均クラスタリング法のうちの1つ以上を決定することにより、前記別の1つ以上のセマンティック境界インデックスと前記1つ以上のセマンティック境界インデックスとの間の類似度を使用して、前記生データストリームと前記別の生データストリームとの間の予想アナログを特定するステップと
をさらに備える、請求項1に記載の方法。
【請求項21】
前記自動エージェント回路により、前記生データストリームにおけるサプライズおよび/またはアノマラスイベントに対応する時間の第1の組を特定するステップと、
前記自動エージェント回路により、前記生データストリームにおける非サプライズおよび/または非アノマラスイベントに対応する時間の第2の組を特定するステップと、
前記自動エージェント回路により、前記1つ以上のセマンティック境界インデックスに基づいてテクニカルインジケータの移動平均を計算するステップと、
前記自動エージェント回路により、前記移動平均の統計分析を実行し、前記時間の第2の組と比較した前記時間の第1の組における前記移動平均の相違を特定するステップと、
前記自動エージェント回路により、前記移動平均についてのそれぞれのサプライズ閾値を、前記時間の第1の組における前記移動平均と前記時間の第2の組における前記移動平均との間の前記対応する相違のあらかじめ定められた割合として決定するステップと、
前記自動エージェント回路により、前記サプライズ閾値を超える前記生データストリームの移動平均に対応するイベントを、予想サプライズおよび/またはアノマラスイベントとして知らせるステップと
をさらに備える、請求項1に記載の方法。
【請求項22】
前記移動平均について実行される統計分析は、前記移動平均の歪度、前記移動平均の尖度、前記移動平均の偏差、および前記1つ以上のセマンティック境界インデックスのバリアスの指数移動平均を計算することを含む、請求項21に記載の方法。
【請求項23】
前記生データストリームは、非構造化データストリーム、テキストデータストリーム、数値データストリーム、金融セキュリティデータストリーム、および物理学的測定の時系列のうちの1つ以上である、請求項1に記載の方法。
【請求項24】
テクニカルおよび/またはセマンティックシグナル解釈を実行する装置であって、
生データストリームから生データを取得し、
測定ルブリックに従って前記生データを操作して、測定値を生成し、
前記生データの前記生成された測定値の間の区別可能性を表す区別可能性メトリックに基づき、シグナルインジケータの第1の組を決定し、
前記生データの前記生成された測定値の間の区別不可能性を表す区別不可能性メトリックに基づき、シグナルインジケータの第2の組を決定し、
前記生データの前記生成された測定値の前記区別可能性および前記区別不可能性の不明を表す不明メトリックに基づき、シグナルインジケータの第3の組を決定し、
前記生データストリームに前記シグナルインジケータの第1の組を適用することによって前記生データストリームにおける区別可能性インジケータを検出して、1つ以上の区別可能性データストリームを生成し、
前記生データストリームに前記シグナルインジケータの第2の組を適用することによって前記生データストリームにおける区別不可能性インジケータを検出して、1つ以上の区別不可能性データストリームを生成し、
前記生データストリームに前記シグナルインジケータの第3の組を適用することによって前記生データストリームにおける不明インジケータを認識して、1つ以上の不明データストリームを生成し、
前記1つ以上の区別可能性データストリーム、1つ以上の区別不可能性データストリーム、および1つ以上の不明データストリームを組み合わせ、1つ以上のセマンティック境界インデックスを生成し、
前記1つ以上のセマンティック境界インデックスを使用し、前記生データストリームの1つ以上のテクニカルおよび/またはセマンティック解釈あるいは1つ以上のテクニカルおよび/またはセマンティック決定を出力する、
自動エージェント回路を備える装置。
【請求項25】
前記回路はさらに、前記測定ルブリックに従って前記生データを操作し、前記測定ルブリックが、金融または商品セキュリティのテクニカルインジケータ、セマンティック距離尺度、およびResnik尺度のうちの1つである、請求項24に記載の装置。
【請求項26】
前記回路はさらに、
前記測定値から一式のパターンを決定し、訓練データを生成し、
前記訓練データを、生データ空間から多次元ベクトル空間であるターゲット空間へとマッピングし、
クラスタリングを使用して、前記測定値からの前記一式のパターンに対応する前記訓練データのオントロジを決定し、
前記生データの解釈に基づく基準パターンを受け取り、
前記訓練データの前記一式のパターンと前記基準パターンとの間の類似度尺度を決定し、
前記生データ空間から前記ターゲット空間へのマッピングの第1の組を推定して、前記類似度マッピングの第1の組の各々のマッピングは、前記決定された類似度尺度のうちの対応する類似度尺度に基づいており、前記マッピングの第1の組は、前記シグナルインジケータの第1の組を備える、
請求項24に記載の装置。
【請求項27】
前記回路はさらに、前記訓練データの生データ空間からターゲット空間へのマッピングを、反復制限の対象となる反復関数システムである幾何学的非線形マッピング関数を使用して実行する、請求項26に記載の装置。
【請求項28】
前記回路はさらに、前記訓練データのオントロジの決定を、k平均クラスタリング法および距離尺度に基づくクラスタリング法のうちの1つ以上であるクラスタリングを使用して実行する、請求項26に記載の装置。
【請求項29】
前記回路はさらに、前記類似度尺度の決定を、Pearson相関係数を使用して実行する、請求項26に記載の装置。
【請求項30】
前記回路はさらに、
概念的距離メトリックを使用して前記マッピングされた訓練データを連鎖し、および/または、クラスタリングして、前記ターゲット空間内の複数のクラスタを生成して、各クラスタはそれぞれ、それぞれのクラスタの対応する基底に対する区別不可能性に従って連鎖し、および/または、クラスタリングし、
前記ターゲット空間内の各々の独立クラスタについて、それぞれの前記基準パターンのうちの基準パターンの前記ターゲット空間への最も近いマッピングを決定し、
前記複数のクラスタの各クラスタについて、前記生データ空間から前記ターゲット空間へのマッピングの第2の組のマッピングを決定して、マッピングの第2の組の各マッピングは、前記複数のクラスタのそれぞれのクラスタに対するマッピングの前記第1の組の不明瞭なメンバーシップに対応し、
マッピングの前記第1の組からマッピングの前記第2の組へのそれぞれのマッピングとなるように、シグナルインジケータの前記第2の組を決定して、
前記シグナルインジケータの第2の組を決定する、
請求項26に記載の装置。
【請求項31】
前記回路はさらに、前記シグナルインジケータの第3の組の決定を、シグナルインジケータの前記第1の組とシグナルインジケータの前記第2の組との間の和集合の補集合を得ることによって実行する、請求項24に記載の装置。
【請求項32】
前記回路はさらに、
シグナルインジケータの前記第1の組、シグナルインジケータの前記第2の組、およびシグナルインジケータの前記第3の組をグループ化し、受け取った前記基準パターンに対応するチャネルを、前記チャネルが、シグナルインジケータの前記第1の組を使用して生成された第1のデータストリームと、シグナルインジケータの前記第2の組を使用して生成された第2のデータストリームと、シグナルインジケータの前記第3の組を使用して生成された第3のデータストリームとを含むように生成し、
前記第1のデータストリームを対数関数で乗算して第1の積を生成して、該第1の積を時間に関して微分して第1のスパイク列を生成し、
前記第2のデータストリームを対数関数で乗算して第2の積を生成して、該第2の積を時間に関して微分して第2のスパイク列を生成し、
前記第3のデータストリームを対数関数で乗算して第3の積を生成して、該第3の積を時間に関して微分して第3のスパイク列を生成する
請求項24に記載の装置。
【請求項33】
前記回路はさらに、
第1のクロックの各サイクルにおいて前記第1のスパイク列の値をそれぞれのバイナリ値で近似し、
第2のクロックの各サイクルにおいて前記第2のスパイク列をそれぞれのバイナリ値で近似し、
第3のクロックの各サイクルにおいて前記第3のスパイク列をそれぞれのバイナリ値で近似し、
前記第1のスパイク列、前記第2のスパイク列、および前記第3のスパイク列の前記バイナリ値を時間ウインドウ化されたバイナリビットコードへと分割し、時間ウインドウ化されたバイナリビットコードの各々の時系列が、前記1つ以上のセマンティック境界インデックスのうちの1つに対応する、
請求項32に記載の装置。
【請求項34】
前記回路はさらに、
前記時間ウインドウ化されたバイナリビットコードを一意に識別するためのそれぞれの素数識別子を決定し、
前記それぞれの素数識別子とそれぞれの前記時間ウインドウ化されたバイナリビットコードとの組み合わせが、前記1つ以上のセマンティック境界インデックスを含む、請求項33に記載の装置。
【請求項35】
前記回路はさらに、
前記第1のクロック、前記第2のクロック、および、前記第3のクロックとしてLampartクロックをそれぞれ使用し、前記第1のクロック、前記第2のクロック、および、前記第3のクロックを近似する、請求項33に記載の装置。
【請求項36】
前記1つ以上のセマンティック境界インデックスは、別の1つ以上のセマンティック境界インデックスを生成するために使用された別の生データストリームの生データを含む、請求項24に記載の装置。
【請求項37】
前記1つ以上のセマンティック境界インデックスは、別の生データストリームからの生データを使用して生成された別の1つ以上のセマンティック境界インデックスである前記生データストリームからの前記生データを使用して生成される、請求項24に記載の装置。
【請求項38】
前記1つ以上のセマンティック境界インデックスを生成するために使用される前記生データストリームからの前記生データは、前記1つ以上のセマンティック境界インデックスを含む、請求項24に記載の装置。
【請求項39】
前記回路はさらに、
別の生データストリームを取得し、
前記別の生データストリームにシグナルインジケータの別の第1の組、シグナルインジケータの別の第2の組、およびシグナルインジケータの別の第3の組を適用することによってそれぞれ生成される前記別の生データストリームの別の1つ以上の区別可能性データストリーム、別の1つ以上の区別不可能性データストリーム、および別の1つ以上の不明データストリームに基づいて、別の1つ以上のセマンティック境界インデックスを生成し、
前記別の1つ以上のセマンティック境界インデックスと前記1つ以上のセマンティック境界インデックスとの間の類似度を使用して、前記生データストリームと前記別の生データストリームとの間の予想アナログを特定し
アナロジ推論エンジンを使用して、前記生データストリームと前記別の生データストリームとの間の前記予想アナログから前記生データストリームと前記別の生データストリームとの間のアナロジを決定する、
請求項24に記載の装置。
【請求項40】
前記回路はさらに、
別の生データストリームを取得し、
前記別の生データストリームにシグナルインジケータの別の第1の組、シグナルインジケータの別の第2の組、およびシグナルインジケータの別の第3の組を適用することによってそれぞれ生成される前記別の生データストリームの別の1つ以上の区別可能性データストリーム、別の1つ以上の区別不可能性データストリーム、および別の1つ以上の不明データストリームに基づいて、別の1つ以上のセマンティック境界インデックスを生成し、
前記生データストリームと前記別の生データストリームとの間の構造化された関係を生成し、アナロジカルスキャフォールディングを生成し、
前記生データストリームに基づいてイベントを予測するインジケータであって、前記アナロジカルスキャフォールディングと、前記別の生データを使用して他のイベントを予測する他のインジケータと、に基づいて生成し、前記別のインジケータは、前もって得られている、
請求項24に記載の装置。
【請求項41】
前記回路はさらに、
金融テクニカルインジケータを、前記1つ以上のセマンティック境界インデックスを前記金融テクニカルインジケータへの入力として使用して、計算し、
前記1つ以上のセマンティック境界インデックスの前記金融テクニカルインジケータについて金融ポートフォリオ分析を実行し、前記生データストリームによって知らされる変化点および/または交差点を予測する
請求項24に記載の装置。
【請求項42】
実行可能な命令を含む非一時的なコンピュータ可読記憶媒体であって、前記命令は、回路により実行されると、前記回路に、
生データストリームから生データを得るステップと、
測定ルブリックに従って前記生データを操作し、測定値を生成するステップと、
前記生データの前記生成された測定値の間の区別可能性を表す区別可能性メトリックに基づき、シグナルインジケータの第1の組を決定するステップと、
前記生データの前記生成された測定値の間の区別不可能性を表す区別不可能性メトリックに基づき、シグナルインジケータの第2の組を決定するステップと、
前記生データの前記生成された測定値の前記区別可能性および前記区別不可能性の不明を表す不明メトリックに基づき、シグナルインジケータの第3の組を決定するステップと、
前記生データストリームに前記シグナルインジケータの第1の組を適用することによって前記生データストリームにおける区別可能性インジケータを認識して、1つ以上の区別可能性データストリームを生成するステップと、
前記生データストリームに前記シグナルインジケータの第2の組を適用することによって前記生データストリームにおける区別不可能性インジケータを認識して、1つ以上の区別不可能性データストリームを生成するステップと、
前記生データストリームに前記シグナルインジケータの第3の組を適用することによって前記生データストリームにおける不明インジケータを認識して、1つ以上の不明データストリームを生成するステップと、
前記1つ以上の区別可能性データストリーム、1つ以上の区別不可能性データストリーム、および1つ以上の不明データストリームを組み合わせ、1つ以上のセマンティック境界インデックスを生成するステップと、
前記1つ以上のセマンティック境界インデックスを使用し、前記生データストリームの1つ以上のテクニカルおよび/またはセマンティック解釈あるいは1つ以上のテクニカルおよび/またはセマンティック決定を出力するステップと
を実行させる非一時的なコンピュータ可読記憶媒体。
【請求項43】
前記生データストリームから取得された前記生データは、非構造化データである、請求項1に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願との相互参照
本出願は、2014年12月10日に出願された米国特許仮出願第62/090,178号に基づくとともに、この米国特許仮出願の優先権の利益を主張し、この米国特許仮出願の全内容が、参照によって本明細書に組み込まれる。
【0002】
本明細書に開示される実施形態は、広くには、非構造化データからのシグナルを分析および解釈し、アナログまたはプロキシを通じて間接的にアクセスすることしかできない内在概念を識別および推論するための分析アルゴリズム、方法、およびプロセスに関する。
【背景技術】
【0003】
本明細書において提示される背景の説明は、本開示の文脈を大まかに提示することを目的とするものである。現時点の記名発明者の研究のうち、この背景技術の項に記載される範囲の研究、ならびに本明細書の態様のうち、出願の時点における先行技術に該当し得ない態様は、明示的にも、黙示的にも、本開示に対する先行技術として同意されるものではない。
【0004】
ビジネス情報処理アプリケーションは、テクニカルな理解と、非構造化データの蓄積からのデータマイニングの能力とに依存する。これらのビジネス情報処理アプリケーションは、技術、市場動向、競合品、テクニカルシステムおよび機能、ならびに新規および将来の新興成長市場の評価を含むことができる。非構造化データは、形式あるいはテクニカルな形式または構造において同質でなく、その保存および検索の方法においても同質でない。非構造化データは、本質的に、コンピュータハードウェアおよびソフトウェアプラットフォームにまたがる標準化された機械可読のやり方では、格納、整理、フォーマット、またはアクセス可能にされていない。
【0005】
これまでのところ、非構造化データフィールドに隠された情報、ならびにリスク、脅威、および機会の特定に及ぼす影響に関するポートフォリオ検体による評価は、テクニカル分析(例えば、テクニカルな機能および手段)ならびにファンダメンタル分析(例えば、セマンティックデータ、情報、およびオントロジ)のいずれかを使用して行われている。しかしながら、特定の結果が生じるための「前提」条件(例えば、リスクプロキシ、アナロジ、およびアナロジのアナロジ)の特定および特性評価を目的として黙示的および明示的の両方の起源の非構造化データからの情報シグナルを識別および使用する能力を備えるためのテクニカルおよびファンダメンタル分析の完全な統合は、実現されていない。
【0006】
自然言語処理(NLP)に直面する重大な課題は、非構造化データの幾何級数的増加が、継続的に変化する意味をもたらす継続的に変化するテキストストリームを生み出すことにある。現代の非構造化データは、分析結果をタイムリーにもたらすための「事後」処理あるいはエキスパートシステムに頼ったフィルタ処理、ふるい分け、ソート処理、および計算に、適していない。代わりに、非構造化データコンテンツについてリアルタイムのフィルタ処理、ふるい分け、ソート処理、および計算を提供することができ、データの内在の意味の変化に合わせて出力が変化するシステムが必要である。この課題に対して、単語、文章、段落、文書、およびファイル単位に注目したシンタクティックおよびセマンティック処理のための伝統的な手法は、表象(すなわち、辞書)のみに基づくセマンティック解釈にリスクを付加する隠れた概念または暗黙の概念の存在の特定に取り組んでいないため、不充分である。具体的には、LSI/LSA(2)、セマンティック検索の確率論的および統計的データ駆動モデル(3)、エキスパートモデルおよびシステム(4)、概念グラフ(5)、セマンティックグラフ(6)、メタタグ(7)、および関連の分野のディシプリンによって表されるとおりの伝統的な自然言語処理(NLP)および数理言語学は、アナログを発見するための非構造化データのリアルタイム処理の技術的要件に、対応していない。
【0007】
大規模なデータセットの場合、類似度が、通常は、コレクション内のデータ間のすべてのペア関係を含む対称マトリクスの形式にて記述される。残念なことに、ペアによる類似度マトリクスは、数値処理および目視検査には役立たない。この問題の一般的な解決策は、例えばLSA、PCA、および他のそのようなベクトル方法など、元のペアごとの近接度を可能な限り忠実に保存するやり方で、オブジェクトを低次元のユークリッド空間へと埋め込むことである。
【0008】
多次元尺度構成法(MDS)または非線形マッピング(NLM)として知られる1つの手法は、データポイントを、後に種々のパターン認識および分類のタスクに使用することができる一連の実数値ベクトルに変換する。多次元尺度構成法(MDS)は、相違度マトリクスによって記述された一式のパターンを、それらの元の(セマンティックにペアごとの)相互関係を最小の誤差および歪みにて保存するやり方で低次元平面へと埋め込むことを試みる統計的手法である。しかしながら、現在のMDSアルゴリズムは、きわめて低速であり、その使用は、小さなデータセットに限られている。
【発明の概要】
【課題を解決するための手段】
【0009】
本発明は、非構造化データから抽出されたシグナルから導出されるアナログを用いたリスク定量化のあらゆる形態に適用することができ、これらのアナログは、関心の対象についてのデータに隠され、あるいは暗黙的であり、明示的でない可能性があるリスクの特定および定量化を代理する。
【0010】
本発明は、非構造化データのコンテンツを体系的かつ柔軟にデータマイニングし、システム、製品、市場、傾向、または他の関心事項の現在の状態および将来の予測される状態に関するタイムクリティカルな分析的発見に不可欠なリスクアナログまたはリスクプロキシの形態で異種ファイルの隠された意味およびコンテンツへのアクセスをユーザに提供することを、コンピュータシステムにとって可能にする方法を定める。
【0011】
本発明は、データから得られたシグナルの区別可能性および区別不可能性の関数としてのデータ内の不明を表現するための計算データ構造のための特定の表現を有する非構造化テキストフィールドからのセマンティックシグナル処理のための方法、ならびにアノーマリまたはサプライズの分析のためのオントロジカルフレームワークにおけるその使用を開示する。本明細書で説明されるシグナル処理は、非構造化データフローにおける収束エージェントベースのセミオティックシグナル処理による。テクニカルシグナルは、非構造化情報から生成され、トークン、オブジェクト、文字、記号、単語、文書識別子、またはファイル内の他の原子のコンピュータエンコーディングによって生成されるシグナルを含む。セマンティックシグナルは、本発明における非構造化情報から生成され、3種類のセマンティック境界インデックス、すなわち区別不可能性に基づいてデータを分類するインデックス、区別可能性に基づいてデータを分類するインデックス、および不明に基づいてデータを分類するインデックスによって表される。これらの分類は、本発明に特有であり、暗黙的または間接的な概念エンティティのギャップまたはホールあるいは存在を示す他のシグナルを導出するために使用される。本発明は、シグナルの解釈として役立つアナログまたはプロキシを形成するために集約することができる独特のセマンティック境界インデックスを定める。
【0012】
以下の詳細な説明を参照し、添付の図面と併せて検討することによって、本開示のより完全な理解がもたらされる。
【図面の簡単な説明】
【0013】
図1】一実施例によるセマンティックシグナル処理のための方法のフロー図を示している。
図2】一実施例によるテクニカルシグナルストリームを生成するための装置の概略図を示している。
図3】一実施例による動的パーティショニングプロセスのフロー図を示している。
図4】一実施例によるセマンティック境界インデックスプロセスのフロー図を示している。
図5】一実施例による情報表現プロセスのフロー図を示している。
図6】一実施例によるアナロジック発見を実行するためのプロセスのフロー図を示している。
図7】一実施例によるサプライズおよびアノーマリを検出するためのプロセスのフロー図を示している。
図8】一実施例による次元ストレスインデックスを決定するためのプロセスのフロー図を示している。
図9】一実施例によるコンピューティングデバイスのブロック図を示している。
【発明を実施するための形態】
【0014】
本明細書に記載の方法は、非構造化データからのシグナルを分析および解釈し、アナログ(類似物)またはプロキシ(代用物)を通じて間接的にアクセスすることしかできない内在概念について識別および推論するための分析アルゴリズム、方法、およびプロセスを提供する。本開示は、アナロジを含む明示的セマンティック概念およびそれらの暗黙的な関係または関連概念のアナログまたはプロキシとしての定性的および定量的表現を生成する。本明細書に記載の方法は、アナロジを含む明示的ならびに暗黙的または隠れセマンティック概念を特定するために、暗黙的および明示的情報または証拠を特徴付け、格納し、測定し、監視し、あるいはトランザクションの更新または分析を可能にするやり方で、非構造化データフィールドまたはストリームのリアルタイム処理に使用されるセマンティック境界インデックス(SBI:Semantic Boundary Index)と呼ばれるデータ構造および処理方法を使用する。
【0015】
SBIは、セミオティックベースのシグナル処理を用いた動的なパーティショニングによって生成される。この処理は、非構造化データのエージェントベースの動的なセンシング、特徴付け、格納、監視、推論、およびコアセマンティック要素への分割によって行われる。パーティションは、アナリストに帰属するコア値によって割り当てられるようなSBI値の閾値およびその関連する意味、ならびにマシンによって提供される結果のフィードバックに従って定義される。SBIは、テクニカルおよびセマンティックシグナルと、それに含まれる内在コンテンツに基づいて非構造化データのセット内で発生するセマンティックおよびシンタクティックパーティションに関するそれらの意味についての機械によって生成され完全に統合されたステートメントの数値プロキシである。
【0016】
SBIのセマンティック境界は、アナリストにとって最大の説明的または記述的価値を有する境界タイプに従って調整することができる。SBIは、ドメインに依存せず、リアルタイムで変化することができ、シグナルベースのアナログタイプ、コンセプトマップ、オントロジ、情報ギャップ、傾向の特徴付け、テクニカル機能およびメトリクスのインスタンスとその特徴付け、ドメイン評価における開発のレベル、ならびに他のセマンティック要素を含むダウンストリームコアセマンティック要素の定義および特徴付けのために、本明細書に記載の方法を使用して継続的に判断、測定、処理、および評価される。
【0017】
したがって、本明細書に記載の方法は、サプライズまたはアノーマリの特定および予測におけるアナロジの形成のための定性的および定量的アナログの発見、ならびに仮のシナリオ特定の予想または予測のためのSBIを用いて生成されたアナログおよびプロキシからの黙示的または明示的証拠の迅速な検索のために、非構造化データの完全に自動化された評価を好都合に提供する。
【0018】
本明細書に記載の方法のさらなる利点は、以下を含む。(1)これまでは明白でなかった非構造化データにおける暗黙の概念のネットワークが、シグナルの3つの分類を生成し、すなわち区別不可能性の関係を通じてデータを表すシグナル、関係の区別を通じてデータを表すシグナル、および区別可能性と区別不可能性との間の相互作用を通じて導出される不明の尺度によってデータを表すシグナルを生成する本実施形態の適用後のアナログおよびプロキシの表現を通じて明白にされる。
【0019】
(2)従来のデータ処理のパラダイムでは、アナロジの特定が困難であり、場合によってはかなりの人間の努力を伴わない限りは不可能であるが、本明細書に記載の方法は、関連概念の特定のためのアナロジカル推論エンジンにおいて使用することができる内在概念のアナログまたはプロキシを生成するために、データからのシグナル抽出を利用する。
【0020】
(3)シグナルおよび導出されたアナログが、セマンティック境界レイヤ間の次元ストレスを特徴付けてラベル付けし、非構造化データセットを表すように示されるデータシグナルフィールド内の潜在的な破壊点およびストレス点を明らかにする。
【0021】
(4)非構造化データフィールドにおけるシグナル処理は、ドメインに依存しない情報処理を可能にし、非構造化データが知識の貯蔵所であるあらゆる分野に適用可能である。これには、これらに限られるわけではないが、技術および科学の分野(例えば、物理学、生物学、化学、材料科学、工学、ならびに生物物理学、バイオエンジニアリング、遺伝子工学、などの異なる学問分野にまたがる分野)、一般的なビジネス分野(例えば、金融、マーケティング、管理、運営、サプライチェーンマネジメント、など)、大学および非政府組織の分野(例えば、管理、知識管理、資金および助成金管理、図書館科学、など)、政府分野(例えば、行政、公共政策、税制、法律、国家安全保障、研究開発ポートフォリオ管理、など)、ならびに非構造化データが関連情報のリポジトリであるその他の分野が含まれる。
【0022】
(5)アナログ表現プロセスは、迅速で堅牢であり、ノイズの多いデータまたは歪んだデータからの学習を提供する。
【0023】
(6)シグナルタイプ間のアナロジを通じた統合学習は、表現ならびに方法およびプロセスを用いて実装することが自明である。
【0024】
(7)プロセスおよび方法は、非言語または言語外の処理に適用可能である。
【0025】
(8)方法およびプロセスは、リファレンスあるいはオープンソースのデータソースまたはユーザ(すなわち、人間または他のコンピュータエージェント)との相互作用の適用を通じて、ゼロ語彙から言語を学習すべくブートストラップするために充分である。
【0026】
(9)アナログ学習手順は、事例からの共通構造を投影し(「ノイズ」と思われるものを拒否する)、証拠が期待と一致したときに陽性シグナルが生じるような充分な証拠および期待の基準を有する。したがって、本発明は、データ相互作用を介して暗示的な否定的証拠を「収集」することができ、その内在システムは、シグナル間のこれらの観察された相互作用から「学習」する。
【0027】
(10)学習とは、相互作用がエージェントの集団を通って伝播し、それらの相互作用および視点を手元の対象に向けて調整することを意味する。これは、(人間の)脳の本来の特徴あるいは言語または固定語彙もしくはハードコーディングされた解決策の規定された側面ではなく、セマンティック変化(定義および使用の観点からの言語の進化)の多くの顕著な特徴を説明する。
【0028】
さらに、本明細書に記載の方法は、非構造化データから抽出されたシグナルから導出されるアナログを用いたリスク定量化のあらゆる形態に適用することができ、これらのアナログは、関心の対象についてのデータに隠され、あるいは暗黙的であり、明示的でなくてよいリスクの特定および定量化を代理する。
【0029】
SBIを、アナログベースの推論およびシグナル処理に使用することができる。アナログおよびプロキシは、論理的または時間的な時間にわたるデータのパターンに対応するシグナルベクトルの特別なパターンである。ひとたび訓練されると、学習された(構築された)アナログのネットワークを、集団の残りのメンバーを投影するためにフィードフォワード方式で使用することができる。したがって、新しい/見えないデータパターンおよび/または情報を、最小限の歪みで好都合に認識および抽出することができる。
【0030】
このように、本明細書に記載の方法は、低レベルのエージェントを、直接的に観察することはできないが、他の因子を通じて観察することができる(すなわち、因子に類似する)ものを測定するための手段であるアナログまたはプロキシのデータ表現および計算方法に、好都合に結合させる。したがって、直接的な観察が不可能であり、あるいは直接的な測定が不可能であるデータへのレファラントまたはインタープリタラントの役割を果たすアナログについてのアクティブ定量的データシグナル尺度を提供するソフトウェアオブジェクトであるセマンティック境界インデックスの概念が導入される。
【0031】
本発明のアナログ発見プロセスおよび方法は、明確かつ迅速な知識形成および発見コンポーネントを形成し、この手法の明確な利点は、明示的な関数で非線形マッピング関係を捕捉し、シグナルベクトルのマップ全体を毎回再構成する必要なく、追加情報をスケーリングして利用可能にすることができることにある。
【0032】
単語、文章、段落、文書、およびファイルを符号化するコンピュータコードの複数の特性によって生成されるので、アナログをシグナルのパターンからリアルタイムで推論する能力は、類似性計算に基づく相関分析のための式と、間接的または黙視的な概念に対するアナログまたはプロキシのためのインデックス構造(すなわち、これらはシグネチャである)を表すシグナルのパターンカタログとを使用して得られるノンパラメトリックで非統計的なスキーマに基づく。
【0033】
本明細書に記載の方法は、米国の哲学者および論理学者であるCharles Sanders Peirceからのセミオティック理論に基づくソフトウェアエージェントの使用によって表されるセミオシスの拡張および特有の実施形態を提供する。
【0034】
Peirceは、サインがサインを生じさせるセミオシスおよびサインのタクソノミの枠組みにおいて「サイン」のモデルを策定した。Peirceは、表意体、すなわちサインがとる形態(必ずしも重要でない)と、オブジェクト、すなわちサインが指し、最終的に結果が生み出す観察者の心において生じなければならない相互作用と、インタープリタではなく、むしろサインで形成される意味であるインタープリタラントとで構成される3元モデルを説明した。表意体の形態のサインは、誰かにとって或る点または能力において何かを表すものである。サインは、何か、そのオブジェクトを表す。それは、そのオブジェクトを、すべての点ではなく、表意体のグラウンドと呼ばれることもある或る種のアイデアに関して表す。表意体およびオブジェクトならびに観察者の目との間の相互作用は、インタープリタラントを生成し、Peirceによってセミオシスのプロセスとして言及される。Peirceのサインのモデルにおいて、「停止」のシグナルサインは、交差点において交通に面する赤色光(表意体)と、車両の停止(オブジェクト)と、観察者(すなわち、運転者)の心に定式化される赤色光が、車両が停止しなければならないことを示しているというアイデア(インタープリタラント)とで構成されると考えられる。
【0035】
Peirceのサインのモデルは、オブジェクトまたはレファラントを含む。表意体は、意味においてオブジェクトへのポインタに類似する。しかしながら、インタープリタラントは、シニフィエのそれとは異なる質を有し、それ自体がインタープリタの心の中のサインである。Umberto Ecoは、「無限のセミオシス」という表現を使用して、これが一連の連続的なインタープリタラントへと(潜在的に)無限につながり、したがってセミオシスのプロセスを描くことができるやり方に言及している。
【0036】
Perceanフレームワークを実装するために、2つの特定のコンポーネントが必要であり、すなわち(i)観察および解釈が可能な自律型ソフトウェアプロセスと、(ii)観察および解釈されることが可能なサインを形成する知覚システムが必要である。
【0037】
2つのコンポーネントは、それぞれ、観察および解釈のためのエージェント技術、ならびに静的であるか、あるいは動的に変化するかにかかわらず、いくつかの内在するデータセット上の時系列シグナルウインドウとして実装される他のサインの関数としてサインを生成するための専用の知覚システムによってもたらされる。
【0038】
Dinah GoldinおよびPeter Wegnerが、相互作用による計算の性質を説明しており、WegnerおよびGoldinは、モデルをPeirceのセミオシスに関連付けたり、あるいは接続したりしていないが、オブジェクトおよび表意体についてサインを解釈するエージェント間の相互作用は、伝統的なコンピューティングアルゴリズムモデルの能力および限界を超える可能性があるSuper−Turingマシンと同等になることがWegnerおよびGoldinによって証明されている「相互作用説」による計算(連続するサイン状態を生成する)に相当する。
【0039】
ここで図面を参照すると、類似の参照番号は、いくつかの図面を通して、同一または対応する部分を示しており、図1が、アナログ発見方法およびプロセスのフロー図を示している。
【0040】
方法100のプロセス110は、動的パーティショニング方法を実行する。
【0041】
方法100のプロセス120は、SBIを定義するセマンティック境界インデックス方法を実行する。
【0042】
方法100のプロセス130は、情報表現方法を実行する。
【0043】
方法100のプロセス140は、重み付け表現方法を実行する。方法100において、プロセス130および140は、並行して生じるものとして示されている。これは、プロセス130および140の間に依存関係がなく、プロセス130および140が実行されるべき所定の順序がないことを示す。
【0044】
方法100のプロセス150は、シグナル交換方法を実行する。
【0045】
方法100のプロセス160は、アナロジカル発見方法を実行する。
【0046】
方法100のプロセス170は、第1のサプライズおよびアノーマリ検出方法を実行する。
【0047】
方法100のプロセス180は、第2のサプライズおよびアノーマリ検出方法を実行する。
【0048】
方法100のプロセス190は、次元ストレス発見方法を実行する。
【0049】
図2は、3つのチャネルが別々のクロックを有し、各々のチャネルに異なる遅延が設定され、シグナルが結合されてテクニカルシグナルストリームを生成するときに一連のオフセットされたスパイクを生じるシグナル取得装置の例を示す。遅延は情報のパターンを設定し、相対振幅は強度を設定する。素数による概念的なインデキシングが、アイデンティティを提供する。したがって、複合的なパターンを、組成的に認識することができる。
【0050】
図3は、動的パーティショニング方法を実行するプロセス110の実施例を示す。
【0051】
プロセス110のプロセス310は、シグナル間の区別に対応する第1のチャネルを決定する。
【0052】
プロセス110のプロセス350は、シグナル間の非区別に対応する第2のチャネルを決定する。
【0053】
プロセス110のプロセス380は、シグナル間の不明に対応する第1のチャネルを決定する。
【0054】
したがって、プロセス110によって実行される動的パーティショニングアルゴリズムは、データ要素を区別可能、区別不可能、および不明と呼ばれるカテゴリに分割するアルゴリズムである。
【0055】
動的パーティショニングプロセス110は、エージェントの所見に基づいてシグナル測定値を生成するためにエージェントを割り当て、「区別不可能性」のラインに沿ってデータを分割するために、エージェントの私的知識による区別性に基づき、あるいはエージェントの私的知識を反対制約として使用して、シグナルをセマンティックコンポーネントへと分割し、一部のデータは区別可能でも区別不可能でもない第3の分類に含まれる可能性があり、そのデータは「不明」とラベリングされる。区別不可能性に基づくパーティショニングは、「ラフセット」手法に関連する。さらに、区別に基づくパーティショニングは、データクラスタリングの方法に関連する。しかしながら、区別データと非区別データとの間の相互作用は、アナログまたはプロキシの生成に使用することができる「不明」データを生成する。動的パーティショニングは、すべてのシグナルの観察、存在の証拠、意味、指示物、符号化、分類、および検索の機構が一貫して系統的かつ完全に行われるマシン処理レイヤにおける基本的な単一性を使用する。これは、本開示のベースにある記号ベースのシグナル処理のコア属性である。まさに区別および非区別のためのモデルの間のギャップが、アナログまたはプロキシを特定するために反復されることができるデータの形態のシグナルレバーを生成する。このプロセスは、以下でさらに論じられる。
【0056】
区別シグナルを決定するプロセス310は、下記のアルゴリズム1の各ステップによって定義される。
i)測定ルブリックを用いて何らかのクラスへの生の観察を取得する。例えば、現存するオントロジまたはデータベースに基づくResnik尺度などの株式市場テクニカルインジケータまたはセマンティック距離尺度を使用することができる。
ii)セットpから学習パターンのランダムセットを抽出する。
iii)幾何学的非線形マッピング関数p−>yを使用してパターンをy:Rへとマッピングする。すべての反復システムは本質的にフラクタルであり、挙動において非線形であるため、任意の反復関数システムを、反復限界で利用することができる。
iv)例えばK平均クラスタリングまたは他の距離尺度に基づく方法を使用するクラスタリングによってパターンのオントロジoを決定する。
v)既知のデータ解釈に基づいていくつかの参照パターンrを作成する。
vi)pとrとの間の類似度関数sim(p、r)をoのもとで決定し、例えばPearson Correlation Coefficientを用いて類似度sのセットを呼び出す。
vii)例えばシェパード補間(Shepard Interpolation)関数を使用して、マッピングs−>yのための関数のセットS(f)を決定する。
viii)S(f)のすべての関数を収集し、知識マッピングへの情報IKとしてエクスポートする。このセットは、テクニカルシグナルセットと呼ばれる。
【0057】
さらに、区別シグナルチャネルを、下記のアルゴリズム2の各ステップによって新しいパターンについて更新することができる。
i)各々の基準パターンに対する任意の新たなパターンの類似度を決定する。
ii)マッピングs−>yのための関数S(g)を決定する。
iii)S(f)を含むシグナルをgで更新する。非区別シグナルを決定するプロセス350は、下記の各ステップによって定義される。
i)プロセス310による区別の不成功に基づいて生の観察を何らかのクラスセットへと抽出する。
ii)セットpから学習パターンのランダムセットを抽出する。
iii)幾何学的非線形マッピング関数p−>yを使用してパターンをy:Rへとマッピングする。
iv)パターンのオントロジoを決定する。
v)いくつかの基準パターンrを生成する。
vi)pとrとの間の類似度関数sim(p、r)をoのもとで決定し、非類似度sのセットを呼び出す。
vii)oのもとでのマッピングs−>yのための関数のセットS(f)を決定する。
viii)概念距離メトリックおよび基底Cを用いてオブジェクトyを連鎖させ、あるいはクラスタ化し、選択された基底基準に対する区別不可能性によってクラスタ化されたクラスタのセット{yci}を作成する。
ix)yのCにおける各々の互いに素なクラスタcについて、クラスタプロトタイプcに対するr−>yの間の距離に基づいて「最も近い」学習基準セットを決定する。
x)Cにおける各々のcへの関数S(f)の非区別メンバーシップ(すなわち、ラフセット)を決定する|ci|独立関数を見つけ、このセットをS(h)と呼ぶ。
xi)各々のS(h)について、S(f)へのマッピングを決定し、これをMと呼ぶ。
xii)Mは、非区別テクニカルシグナルである。
【0058】
したがって、アナログを生成するために使用されるテクニカルシグナルの生成アルゴリズムは、区別を使用してシグナルを生成するアルゴリズムと、非区別に基づいてデータのパーティションを生成する第2のアルゴリズムとの間の相互作用として説明される。便宜上、区別、非区別、および不明のための3種類のシグナルは、それぞれタイプ1チャネル(チャネル1とも言う)データ、チャネル2、およびチャネル3とラベリングされる。
【0059】
不明シグナルを決定するプロセス380は、第1または第2のチャネルにないシグナルを第3のチャネルにあるものとして特定する(すなわち、不明シグナル)。上記のアルゴリズム−1およびアルゴリズム−2を参照すると、所与の境界ウインドウ(すなわち、サンプルサイズ)内のデータに関するシグナルセットのヒストグラムの和集合の補集合を特定し、このセットを「不明シグナル」セットと呼ぶ。このセットは、アノーマリを生み出すデータ、または提供された方法によって直接観察することができない暗黙的な関係を介して関連するデータを表す。
【0060】
ここで図4を参照すると、プロセス120は、セマンティック境界インデックスアルゴリズムを実行する。セマンティック境界インデックスアルゴリズムは、直接的な測定が不可能であるかもしれない内在データの種々の他の特性に計算に適した単一のストリームに基づくソフトウェアデータ表現オブジェクトに3つの区別をカプセル化する方法である。
【0061】
プロセス120のステップ410において、各エージェントが、チャネルを作成することができ、あるいは単一のエージェントが、3つすべてを作成することができる。
【0062】
プロセス120のステップ420において、各チャネルは、クロックが論理Lamportクロックであってよいマスタに対して自身のタイムベースまたはクロック基準を有する。
【0063】
プロセス120のステップ430において、各チャネルは、区別、非区別、および不明というタイプに基づいてデータストリームをそれぞれ生成する。データストリームは、クロックに対する或るレートで、特定の数のサンプルについてサンプリングされる。サンプルウインドウのサイズおよびサンプリングのレートは、「境界」と呼ばれる。
【0064】
プロセス120のステップ440において、シグナルは、対数関数によって乗算され、時間に関して微分されて、ウインドウ内の各々の規則的な間隔のクロックに対する有界サンプルウインドウサイズ内のコード化されたスパイク列を生成する。
【0065】
プロセス120のステップ450において、スパイク列のパターンは、内在データまたは概念のタイプに対応し、元のデータは、一意的に生成されたMD5(メッセージダイジェスト)識別子でタグ付けされる。
【0066】
プロセス120のステップ460において、ステップ(4)で生成された有界スパイク列シグナルは、ビットコードがあらゆるビット位置でクロックを含むようにバイナリビットコードに変換される。したがって、64個のクロック・ティックの場合、64ビットのバイナリビットコードが存在する。
【0067】
プロセス120のステップ470において、ステップ460の出力にメッセージダイジェスト識別子が添付される。
【0068】
プロセス120のステップ480において、セマンティック境界インデックス(SBI)が、メッセージ識別子、データ、およびビットコードとして返される。
【0069】
ここで図5を参照すると、プロセス130は、情報表現アルゴリズムを実行する。
【0070】
プロセス130のステップ510において、スキーマが、既知の参照データサンプルまたはオントロジラベルからストリームを学習される。参照データは、割り当てられたメタデータタグを有し、このタグは、プロセス120から導出されたSBIをタグ付けするために使用される。
【0071】
プロセス130のステップ520において、未知データは、Dice尺度、Jaccard尺度、または任意の他の測定値などの距離の尺度を用いてストリームに従って分割される。
【0072】
プロセス130のステップ530において、未知のシグナルは、選択された測定システムに関して選択された閾値に基づいて、未知のパターンを分類するためのパターンアナログまたはプロキシとして機能するSBIを有するシグナル成分とマッチングされる。
【0073】
プロセス130のステップ540において、SBIの出力は、内在するSBI自体の発展に対応するサンプルサイズを有するサンプルウインドウ内の時系列シグナルとして返され、このプロセスは、ユーザが選択した任意の深度まで再帰的であり得る。
【0074】
プロセス130のステップ550において、得られたSBIウインドウ化時系列は、ウインドウのシーケンスに対する時間オフセットを用いて0から1のスケールで正規化され、各々のウインドウは、デルタ符号化(すなわち、差分符号化)され、階層的セマンティック境界インデックス(HSBI)として返される。例えば、周期的パターンの場合、HSBIは一定数のサンプル内で繰り返され、固定点を形成する。
【0075】
プロセス130のステップ560において、HSBIが返され、またはデータストレージに格納される。
【0076】
関数(データをチャネルへと変換する)の選択が、得られるシグナル測定の品質に影響を及ぼす。関数のデータ点の選択は、最大エントロピー(または、ダイバーシティ)に基づくことができ、入力データの表現における冗長性を排除するがゆえに、ランダム選択よりも有益な効果を有する。しかしながら、区別性、区別不可能性、および不明が表現される限りにおいて、SBIを生成するために他の方法を使用することも可能である。
【0077】
セマンティック境界インデックスのアルゴリズムおよび方法とは対照的に、ベクトル空間法およびアルゴリズムは、以下の問題を有する。
【0078】
1)ユークリッド正規化が用いられるが、これは、実際のニューラルハードウェアにとって些細な計算ではない。
【0079】
2)入力成分Ikのサイズと重要性とが、混同される。弱いコンポーネントが特段の重要性を有する場合や、強いコンポーネントが信頼できない場合に、これを表現する方法が存在しない。単一のW尺度は、ターゲットコンポーネントの1つのセマンティック次元だけしか表すことができない。
【0080】
3)入力をいくつかの部分に分解し、独立して解き、その結果を最終的な認識のために上位レベルのプロセッサに供給することによって、問題を階層に分解する場合に、自然な構成が存在しない。これは視覚への類似性によって最もよく理解される。或る者が絵画において或る縮尺の祖母の鼻を認識し、別の縮尺の祖母の口を認識し、第3の縮尺の祖母の右目を認識する場合、それは決して祖母ではない。別々の正規化は、階層の作成に関して困難である(すべてのセマンティックを平坦化してしまう)。
【0081】
4)かなりの数の入力が欠落しているか、あるいは大いに誤った情報を与えている可能性がある。「ドット積と閾値」による解決策は、セマンティックな区別が失われるため、この問題に対処することができない。
【0082】
情報が符号化され、動的パーティショニングを使用して計算され、データのシグナル測定値が生成されるとき、上記の4つの問題はすべて除去される。シグナル表現への3つのデータ供給チャネルは、基準時間の時間シグネチャT(おそらくは、論理クロック)に対するシグナルの位置によって生じる。Tとチャネルにおける「スパイク」の時間との間隔は対数的にスケーリングされるので、スパイクの時間はjであり、したがって入力チャネルIにおいてlog Ijによって定義されると言える。さらに、シグナルは、他の情報(例えば、Dempster−Shafer理論を用いる統計的または確信的または確率的または証拠的情報)に従って重み付けされてもよい。
【0083】
したがって、挙動パターンを、テクニカルシグナル測定ウインドウからのその「相対」成分に基づいて認識することができる。スケール情報は、認識ユニットが駆動される時間に保持される。システムは明らかに「合成」し、困難(3)は克服される。正規化は不要であり、困難(1)がなくなる。各チャネルは、それを記述する3つのパラメータ、すなわち遅延(認識されるパターンに関する情報を含む)およびシグナル強度(認識ユニットでの重みを表す)ならびに形状(計算される概念を表現する)を有する。
【0084】
したがって、スケールおよび重要度(重みまたは信頼度)が別々に表される一方で、伝統的なシステムにおいては、それらが平坦化される。中心的な計算モチーフは、テクニカルシグナル測定値およびそれらに関連するセマンティックコンポーネントを、それらがデータと情報との間の相対性、関連性、および暗黙の相関関係を捕捉するがゆえに使用することにあり、簡潔に、相対的タイミングは、情報動的パターン(埋め込まれたデータ自体に関する情報内の時間的発展または挙動)を表すための情報および時間遅延を表す。
【0085】
動的パーティショニングのための本方法は、例えば伝統的なニューラルネットワークモデルまたはLSA/LSIを用いる従来の方法のそれらによる時間ドメイン情報マッピングにおける欠落または著しく不正確な情報計算に起因するエラーを許容することができる。その理由は、学習閾値を高く設定すると、両方のスキームが同じ情報を認識するからである(すなわち、高い閾値は、受信された情報に高い明瞭さがあり、あいまいでないことを意味する)。
【0086】
高ノイズまたは競合シグナルの状況では、時間ドメインスキームにおける認識閾値を下げることにより、第3の成分のサイズとは無関係に、任意の2つの成分が正しい比率にあるかどうかが判定される。スケールを重要度から切り離すことは、これを従来の方法で識別することを可能にする。このタイプの閾値低下は、スケールが相対重要度と混ざり合っているため、(入力情報の)ほとんどのベクトルが(誤って)認識されることを意味する。
【0087】
各チャネルは、センサデータ間の相対タイミングを完全に破壊することなく存在する限りにおいて、正確なノイズ耐性のあるデータから情報への変換のモデルを提供する種々のレベルの歪み、ノイズ、および相対的な時間ワーピングを受けることができる。
【0088】
HSBIのセマンティック境界レイヤに関しては、シグナルの集約された組み合わせが新しい階層的セマンティック境界インデックス(HSBI)出力を形成するトリプルセット(すなわち、入力がオブジェクトであり、表現がアウトプットである)に縮小される階層でシグナルが処理されるとき(すなわち、入力がオブジェクトおよび表意体であり、出力が解釈項である)。境界レイヤは、階層間のレイヤに対応し、これらのレイヤにおいて、凝集のクラスタおよび新しい解釈項に対応する集合体の境界条件を明示するサンプリングウインドウの選択。
【0089】
SBIに関しては、セマンティック境界インデックスは、連続する解釈項の間の差の尺度に対応する。
【0090】
次元ストレス測定に関しては、次元ストレスは、解釈項の歪み、膨張、および収縮に対応する。
【0091】
セマンティック境界インデックスアルゴリズムおよびその再帰的な階層的セマンティック境界インデックスは、変化する環境要因の下での貢献が類似体の表現に与える貢献に関して変化するインデックス構造を生成し、言い換えれば、本発明を利用するために、SBIはメタデータタグでタグ付けされ、異なる不一致のタグを有するSBIの類似性またはクラスタは、タグが互いにアナログであることを意味すると解釈される。SBIのクラスタ間の境界は、重なり合うクラスタ間で共有される可能性のあるレイヤを形成し、したがってアナログは直接的な類似性を共有してもよく、または様々な重み付けで境界が拡大または縮小してもよい。極端な場合、1つのSBIからの境界レイヤが、隣接するSBIを消費し得る。この極端な場合に、消費者は、或るアナログが別のアナログを包含するという意味で、そのデータおよびその内在するSBIの新しい分類子になる。このようにして、SBIを包含または包囲する逐次的な階層を、重み付けのイメージとして構造化することができる。この変化は、アルゴリズムのための重み付けスキームの使用によって定量化され、本発明のために提示される。
【0092】
プロセス140は、これらの重みをSBIに適用する。重みは、主題エキスパートの信頼度尺度によって、統計的あるいは可能性または経験的方法によって導き出すことができ、アナログが人間の検証された判断と一致するまで重みを調整する学習プロセスによって割り当てられてもよい。
【0093】
プロセス150は、シグナル交換アルゴリズムを実行する。シグナル交換アルゴリズムは、1つの表現を1つのチャネルから別のチャネルへと変換する手段を提供し、SBIを使用するエージェントの相互運用を可能にする。例えば、シグナルAがシグナルBおよびシグナルCをカプセル化するように、3つのシグナルタイプの間で交換が生じ得る。シグナル交換の別の例は、シグナル−Aがシグナル−Dにマージされる場合であり得る。
【0094】
ここで図6を参照すると、プロセス160は、アナログ発見アルゴリズムを実行する。一連の測定値およびそれらの内在するデータ駆動の特徴との関連は、SBIを介した相関によって、具体的なデータ構造をアナログとして互いに関連付けるために使用できる表現を生成する。プロセス160は、ここで定義されるとおりのアプリケーションプロセスにおける非明白な将来の予想および予測にVivoMind Analogy Engine(VAE)などのアナロジエンジンの使用を適用し、SBIを使用して、完全かつ完璧なアナロジを合成するための充分なパーツをアナロジエンジンに提供するために使用することができる予想のアナログを特定する。
【0095】
プロセス160のステップ610において、関心ドメイン(例えば、金融フロー)におけるアナロジエンジンの現代的な知識が探索され、このドメインは、「ターゲット」ドメインと称される。
【0096】
プロセス160のステップ620において、ターゲットドメインから抽出された関心のある挙動を使用して別のシステム(例えば、生物学的プロセス)が特定され、これを「ソース」ドメインと呼ぶ。
【0097】
プロセス160のステップ630において、ドメイン内の概念的スキャフォールディングが、それらの特徴、挙動、属性、機能、または能力のプロトオントロジとして特定される。
【0098】
プロセス160のステップ640において、(iv)構造化された関係が、アナロジカルスキャフォールディングを構築するために、ソースドメインスキャフォールドとターゲットドメインスキャフォールドとの間に生成される。
【0099】
プロセス160のステップ650において、(v)アナロジカルスキャフォールディングを使用して、ソースドメインとターゲットドメインとの間の新たに見出されたアナロジを用いて、先物インジケータが生成される(例えば、質問する正しい質問が生成される)。
【0100】
プロセス160のステップ660において、ソースシステムとターゲットシステムとの間で適合するアナロジのペアが特定され、それらの動的類似性のビューが生成される。
【0101】
プロセス160のステップ670において、これらの動的類似性から、仮説が生成され、ターゲットシステムの将来の発展が予測される。
【0102】
ソースドメインについて、多数の潜在的なシステムが存在する。いくつかのモデルがここに挙げられるが、ソースドメインの潜在的なモデルのこのリストは、限定を意味するものではない。アナロジのためのモデルとして、以下を挙げることができる。1.科学および技術ジャーナルからの情報モデル。2.生物学、政治、株式市場、および他のソースからのシグナルデータモデル。3.情報科学のジャーナルまたはソースからの測定モデル(シグナルデータに適用可能)。4.ビジネスプロセスまたはメーカー直売店のスケジューリングモデルからの処理モデル(シグナルデータモデルのコンピュータ計装)。5.ビジネスインテリジェンス、科学または技術インテリジェンスプラクティスで生じるとおりの分析モデル。6.定性的評価モデル:分析階層プロセス(AHP)の出力など。7.定量的評価モデル:AHPからの重み付け出力など。8.科学的、技術的、または社会的要求工学で理解されているとおりのギャップ分析モデル。9.NASAの技術準備評価レベルモデルなどの「開発レベル」モデル。10.類似推論モデル:VealeらまたはFalkenheimerらのAnalogy Ontologyなど。11.前提条件マッピングモデル:設計のためのTRIZ法マッピングモデルなど。12.本発明によるサプライズモデル。13.ポートフォリオおよび株式市場分析モデルによるプロジェクションモデル。14.アナロジのアナロジモデル:学習セットとして本発明に類似する隠喩、寓意、直喩、および他の散漫な構造など。15.ときどき使用または特定され得る他のオントロジカルなベースのモデル。現在の開示に含まれる類推発見プロセスの重要な利点は、新奇または予期せぬ状況における動作上の革新を達成するために過去の経験を迅速に再目的化できる点にある。シグナル処理のパラダイムによる類推は、ドメイン内およびドメイン間に暗黙のうちに隠された知識を発見することを可能にする。類似発見プロセスは、ユーザが明らかに不相応かつ別々のドメインを構造化された関係として関連付けることを可能にし、その際に、大規模非構造化データフィールドの意味の新たな視点および理解を協働して生み出す結果およびクラフトを作り上げることを可能にする。
【0103】
プロセス170は、第1のサプライズおよびアノーマリ検出プロセスを実行する。伝統的なポートフォリオ分析で使用されるような移動平均ならびにモメンタムおよび周期性検出プロセスの使用が、大きなシフトが発生し得る次元ストレスの臨界点の表示を生成するために組み合わされる。これらの不安定性の高い領域は、サプライジングな結果またはアノーマリの連鎖を形成し、その特性は、サプライズおよびアノーマリを生み出すことができるカオスシステムに見られる進化的構造プロセスのタイプと似ている。
【0104】
上記の移動平均、モメンタム、および周期性の検出プロセスに加えて、伝統的なポートフォリオ分析は、多数の他のテクニカルインジケータを使用する。ここで、いくつかのテクニカルインジケータが、その全体が援用によって本明細書に組み込まれるSteven B.Achelis,Technical Analysis from A to Z,McGraw−Hill,(2000)から挙げられる。これらのインジケータは、以下を含む。
【0105】
1.絶対幅インデックス
2.蓄積分散
3.蓄積スイングインデックス
4.A/Dライン
5.A/D比
6.値上がり−値下がり銘柄
7.Armsインデックス
8.アルン
9.アベレージトゥルーレンジ
10.Bollingerバンド
11.幅スラスト
12.ブル|ベア比
13.Chaikinマネーフロー
14.Chaikinオシレータ
15.Chandeモメンタムオシレータ
16.商品チャネルインデックス
17.商品選択インデックス
18.相関
19.累積出来高インデックス
20.DEMAおよびTEMA
21.トレンド排除価格オシレータ
22.指向性運動インジケータ
23.ダイナミックモメンタムインデックス
24.動きやすさ
25.エンベロープ
26.予測オシレータ
27.慣性
28.日中モメンタムインデックス
29.Klingerオシレータ
30.ラージブロックレシオ
31.線形回帰インジケータ
32.線形回帰トレンドライン
33.線形回帰スロープ
34.MACD
35.マーケットファシリテーションインデックス
36.マスインデックス
37.McClellanオシレータ
38.McClellanサメ−ション
39.中間価格
40.メンバーショートレシオ
41.モメンタム
42.マネーフローインデックス
43.移動平均−指数関数
44.移動平均−単純
45.移動平均−時系列
46.移動平均−三角
47.移動平均−可変
48.移動平均−出来高調整済み
49.移動平均−加重
50.ネガティブ出来高インデックス
51.新高値−安値累積
52.新高値−新安値
53.新高値|新安値比率
54.端株残高インデックス
55.端株短期比率
56.オンバランスボリューム
57.オープン10 TRIN
58.買い越し|売り越し
59.パラボリックSAR
60.パフォーマンス
61.ポジティブ出来高インデックス
62.価格チャネル
63.価格オシレータ
64.価格ROC
65.価格および出来高トレンド
66.プロジェクションバンド
67.プロジェクションオシレータ
68.パブリックショートレシオ
69.プット|コールレシオ
70.QStick
71.r二乗
72.ラフ回帰チャネル
73.レンジインジケータ
74.相対モメンタムインデックス
75.相対強度、比較
76.相対強度インデックス
77.相対Voltlty Idxおよび慣性
78.標準偏差
79.標準偏差チャネル
80.標準誤差
81.標準誤差バンド
82.標準誤差チャネル
83.STIX
84.確率的モメンタムインデックス
85.確率的オシレータ
86.スイングインデックス
87.TEMA
88.時系列予測
89.トータルショートレシオ
90.TRIX
91.典型的な価格
92.アルティメットオシレータ
93.アップサイド|ダウンサイドレシオ
94.アップサイド−ダウンサイド出来高
95.垂直水平フィルタ
96.Chaikinボラティリティ
97.出来高オシレータ
98.出来高変化率
99.加重終値
100.Wilder平滑化
101.Williams蓄積−分散
102.Williams %R
アナログは、オペレーティングシステム環境内でプレゼンスリスクを示すシグナルのシンボリックな観察として機能するメタデータタグの投票を生成する低レベルデータフィルタからのデータストリームに依存する。
【0106】
EMAは、タグをサポートする現在の投票頻度のパーセンテージと昨日の移動平均値のパーセンテージとの比較である。指数移動平均は、タグをサポートするための最近の投票により大きな重みを付ける。指数移動平均(EMA)インジケータが単純な移動平均に対して有する利点は、直近の投票がより以前の投票よりも優位を占めることにある。これは、短期トレンド(短期的な初期アプリケーション挙動など)におけるアノーマリが脅威エージェントの可能性を明らかにできるように、EMAを短期トレンドに対してきわめて敏感にする。長さパラメータkは、EMAが最近のトレンドにどのように反応するかを制御する。時刻iにおいて、k時刻EMA、{1}は時刻tにおける値であり、{2}は、サイズ(長さ){4}における先の時点の{3}である。
【0107】
EMAは、タグをサポートする現在の投票頻度のパーセンテージと昨日の移動平均値のパーセンテージとの比較である。指数移動平均は、タグをサポートするための最近の投票により大きな重みを付ける。指数移動平均(EMA)インジケータが単純な移動平均に対して有する利点は、直近の投票がより以前の投票よりも優位を占めることにある。これは、短期トレンド(短期的な初期アプリケーション挙動など)におけるアノーマリが脅威エージェントの可能性を明らかにできるように、EMAを短期トレンドに対してきわめて敏感にする。長さパラメータkは、EMAが最近のトレンドにどのように反応するかを制御する。時刻iにおいて、k時刻EMA、ρは時刻tにおける値であり、EMAt−1は、サイズ(長さ)κにおける先の時点のEMAである。
【数1】
【0108】
異なる品質次元からSBIを比較するために、最初に[−1,1]の区間内のすべてのSBIを正規化し、品質次元の重要度をバイアスするために重み付けアルゴリズムを使用する。EMA交差ルールなどの各々の推論ルールが、最新のポートフォリオ理論の取引ドメインからの同様のルールを適応させることによって、他のインジケータについて考案される。
【0109】
ここで図7を参照すると、プロセス180は、第2のサプライズおよびアノーマリ検出方法を実行する。表現プロセスを実施する際に使用するための具体的かつ好ましい式が列挙され、本発明の結果に特異性を与える変形が与えられる。
【0110】
単純な移動平均は、特定の数のウインドウにわたってSBIの平均値を計算することによって形成され、これ自体は、階層型SBIを生成する。「サプライジングおよびアノーマラス」パターンの学習セットが、SBIの歪度、尖度、偏差、および他の高次要因を計算することによって、ダイナミクス、とりわけダイナミクスのノルムに関するダイナミクスの変化を特徴付けることによって、一般化される。
【0111】
プロセス180のステップ710において、各ソースのSBIは、1つのソースとしてのサイエンスフィクション文献および他のソースとしての特許文献などの相関ソースからのサプライズの学習セットを使用して構築される。
【0112】
プロセス180のステップ720において、SBI間の類似性は、距離マトリクスあるいはk平均クラスタリングまたは他のアルゴリズムを使用して計算される。
【0113】
プロセス180のステップ730において、タグ付けされたデータの各々について、SBIの画像を計算することは、出来高、サイクル、モメンタム、および変化率を表す適切に選択された株式市場テクニカルインジケータを使用して計算される。
【0114】
プロセス180のステップ740において、歪度、尖度、偏差、および指数移動平均が計算される。
【0115】
プロセス180のステップ750において、「サプライズ」としてタグ付けされたデータは、他のタグが付けられたデータと比較され、結果のステップ740の間の値の差の50%を使用して、「閾値」を計算する。
【0116】
プロセス180のステップ760において、この方法が新しいデータに適用され、閾値を超える任意の日付について、データに「サプライズ」をマークする。
【0117】
プロセス180のステップ770において、「サプライズ」データ構造SBIが返される。
【0118】
ここで図8を参照すると、プロセス190は、次元ストレス法を実行する。重要な因子は、セマンティック境界インデックスを調整するデータおよび情報要素の多次元セットを含む。これらの要素は、次元ストレッサー、リラクサー、インヒビター、およびアクセラレータを含む。本開示における情報モデルと統合された定性的および定量的評価モデルは、大規模非構造化データのコンテンツを分析するために展開される。そのような分析モデルは、これらに限られるわけではないが、ギャップ分析モデル、インテリジェンストレードクラフトモデル、ドメインモデル、技術準備レベルモデル、製造準備レベルモデル、アナロジ推論モデル、予測および予想モデル、脅威マトリクスモデル、SWOTモデル、および他の分析法を含む。
【0119】
プロセス180のステップ810において、相関ソースのペアが、サプライズの訓練セットから形成される。例えば、相関ソースのペアは、1つのソースとしてのサイエンスフィクション文献およびソースペアとしての特許文献ならびに新しいレポートおよび政治的イベントからのペアを使用して形成されることができ、各ペアのアノーマリおよびサプライズのためのアルゴリズムを構築することができる。
【0120】
プロセス180のステップ820において、歪度、尖度、偏差、および指数移動平均が、ペアにおける差の間で計算される。
【0121】
プロセス180のステップ830において、アノーマリおよびサプライズのためのアルゴリズムの閾値において50%のシフトが生じるまで、差に重み付けが適用される。これは、次元ストレスインデックスである。
【0122】
プロセス180のステップ840において、この方法は、サンプリングウインドウの境界に関して、新しいデータおよび任意のデータに対して適用される。1.閾値を上げ、それをストレッサーとしてマークし、2.閾値を下げ、それをリラクサーとしてマークし、3.閾値の位置を膨張させ、それをリターダントとしてマークし、4.閾値の位置を収縮させ、それをアクセララントとしてマークする。
【0123】
プロセス180のステップ810において、プロセス180は、次元ストレスインデックスを返す。
【0124】
特定のセマンティック境界レイヤに関連する特定のシグナルパターンは、この開示によって、「次元ストレス」と呼ばれるコアセマンティック要素に関連付けられる。次元ストレスは、新しいデータまたは知識の導入あるいはデータフィールドからのデータまたは知識の除去に起因する大規模非構造化データに含まれる情報の急激な予期せぬ変化に伴って生じる前提条件を記述する情報またはモデルのセマンティックカテゴリである。次元ストレスは、特定のタイプのセマンティック境界レイヤの存在または出現を示唆する非構造化データにおける条件に関する事前の認識を生成するためのセマンティック尺度である。次いで、これらのセマンティック境界レイヤは、次元ストレスおよび次元ストレッサーに関連するセマンティック境界インデックススコアに密接に関連付けられるように本開示によって評価され、アナリストがいつ安定、不安定、不変、または急速に変化するセマンティック要素が生じる可能性があり、あるいは生じ始める可能性があるかについての構造化された知識リポジトリを構築することを可能にする。この知識ベースは、大規模非構造化データフィールドにおけるサプライズの要素に関する将来認識を生み出す。次元ストレスは、アナロジの発見のためのコアセマンティック属性を含む大規模な絶え間なく更新される非構造化データフィールドの内容の意味における潜在的、急速、かつ予期せぬ変化の発見に関連するコアセマンティック属性である。
【0125】
次元ストレスインデックスは、セマンティック境界レイヤおよびセマンティック境界インタラクションインデックスに関するシグナルのリアルタイム測定および処理によって生成される。高い次元ストレスは、ドメイン内の主要なドライバーに関連する特定のセマンティック境界レイヤ内および特定のセマンティック境界レイヤ間の高い分散(時間における不安定)が存在する場合に生じる。低い次元ストレスは、ドメイン内の主要なドライバーに関連する特定のセマンティック境界レイヤ内および特定のセマンティック境界レイヤ間の低い分散(時間における安定)が存在する場合に生じる。両方の場合における次元ストレスインデックスは、セマンティック境界内およびセマンティック境界間の時間変動、安定性、および不安定性を検出するように調整された定量化シグナルデータモデルの結果として生成される。
【0126】
サプライズモデルは、所与のドメインについての入力としての関連文献セットからのアナログのペアに関する定量化されたSBIの時系列測定値の間の相互作用に基づく。文献セットのドメインは、以下のような特定の好ましい実施形態のペアを含むことができる。1.政治ニュースと政治イベント(例えば、国家元首による声明と投票者による投票)
2.科学技術ジャーナルと特許文献
3.特許文献とサイエンスフィクション文献
4.経済ニュースと自然事象(例えば、株価と津波)
5.軍事事象と社会ニュース(例えば、動員と精神病の割合あるいはデモの割合および規模)
サプライズモデルは、モデルのペアからのSBIおよびそれらのそれぞれのアナログの相互作用の間の特定の文脈における分析作業から生成されるという点で、「モデルのモデル」であり、境界上のシグナル処理ならびに本方法およびアルゴリズムの使用の結果は、アナロジ、アナロジのアナロジ、非構造化データフィールドにおけるギャップのモデル、次元ストレスおよび次元ストレッサーのモデル、セマンティック境界レイヤのモデル、およびコアセマンティック要素の他のモデルを生成する。サプライズモデルは、アナロジカル推論の中心的な結果である。
【0127】
返された「サプライズ」SBIは、アナログを特定するために使用され、アナログは、予期せぬサプライズまたはアノーマリを特定するためにアナロジ発見プロセスにおいて使用される。
【0128】
上述したアルゴリズムおよびプロセスならびに本発明の特徴の各々は、例えば、とくにプログラムされた処理回路を使用して、何らかの形のコンピュータプロセッサまたは処理回路を使用して実施することができる。回路を、回路の処理を改善し、人間では不可能であり、あるいは本実施形態の特徴を欠いた汎用コンピュータでも不可能であるやり方でデータを処理することを可能にする上述の機能および特徴を実現するようにとくに設計またはプログラムすることができる。当業者であれば分かるように、コンピュータプロセッサは、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他のコンプレックスプログラマブル論理デバイス(CPLD)としてディスクリート論理ゲートとして実装することができる。FPGAまたはCPLDの実装は、VHDL、Verilog、またはその他のハードウェア記述言語でコード化することができ、コードは、FPGAまたはCPLD内の電子メモリに直接格納されても、別の電子メモリとして格納されてもよい。さらに、電子メモリは、ROM、EPROM、EEPROM、またはFLASHメモリなど、不揮発性であってよい。電子メモリは、スタティックまたはダイナミックRAMなど、揮発性であってもよく、電子メモリならびにFPGAまたはCPLDと電子メモリとの間の相互作用を管理するために、マイクロコントローラまたはマイクロプロセッサなどのプロセッサが設けられてよい。
【0129】
あるいは、コンピュータプロセッサは、本明細書に記載の機能を実行するコンピュータ可読命令のセットを含むコンピュータプログラムを実行することができ、プログラムは、上記の非一時的な電子メモリならびに/あるいはハードディスクドライブ、CD、DVD、FLASHドライブ、または任意の他の公知の記憶媒体のいずれかに格納されてよい。さらに、コンピュータ可読命令は、米国Intel社のゼノン(Xenon)プロセッサまたは米国AMD社のオプテロン(Opteron)プロセッサなどのプロセッサならびにMicrosoft VISTA、UNIX(登録商標)、Solaris、LINUX、Apple、MAC−OSX、および当業者とって公知の他のオペレーティングシステムなどのオペレーティングシステムと連携して実行されるユーティリティアプリケーション、バックグラウンドデーモン、またはオペレーティングシステムのコンポーネント、あるいはこれらの組み合わせとして提供され得る。
【0130】
さらに、本発明は、コンピュータベースのシステム901を使用して実施することができる。上述した実施形態の各機能は、1つ以上の処理回路によって実現されてよい。処理回路は、プロセッサが回路を含むので、プログラムされたプロセッサ(例えば、図9のプロセッサ903)を含む。さらに、処理回路は、特定用途向け集積回路(ASIC)などのデバイスと、上述の機能を実行するように構成された従来の回路構成要素とを含む。
【0131】
上述の種々の特徴は、コンピュータシステム(または、プログラマブルロジック)などのコンピューティングデバイスによって実装されてもよい。図9は、このようなコンピュータシステム901を示す。図9のコンピュータシステム901は、特定の専用マシンであってよい。一実施形態において、プロセッサ903がベクトル収縮を計算するようにプログラムされている場合、コンピュータシステム901は、特定の特殊目的マシンである。
【0132】
コンピュータシステム901は、磁気ハードディスク907およびリムーバブルメディア駆動装置908(例えば、フロッピーディスクドライブ、読み出し専用コンパクトディスクドライブ、読み/書きコンパクトディスクドライブ、コンパクトディスクジュークボックス、テープドライブ、およびリムーバブル光磁気ドライブ)などの情報および命令を格納するための1つ以上の記憶装置を制御するためのバス902へと接続されたディスクコントローラ906を含む。ストレージデバイスを、適切なデバイスインターフェース(例えば、スモールコンピュータシステムインターフェース(SCSI)、統合デバイスエレクトロニクス(IDE)、拡張IDE(E−IDE)、ダイレクトメモリアクセス(DMA)、またはultra−DMAなど)を使用してコンピュータシステム801に追加することができる。
【0133】
さらに、コンピュータシステム901は、専用の論理デバイス(例えば、特定用途向け集積回路(ASIC))あるいは設定可能な論理デバイス(例えば、シンプルプログラマブル論理デバイス(SPLD)、コンプレックスプログラマブル論理デバイス(CPLD)、およびフィールドプログラマブルゲートアレイ(FPGA))を含むことができる。
【0134】
また、コンピュータシステム901は、コンピュータユーザに情報を表示するために、ディスプレイ910を制御するためにバス902に接続されたディスプレイコントローラ909を含むことができる。コンピュータシステムは、コンピュータユーザと対話し、プロセッサ903に情報を提供するために、キーボード911およびポインティングデバイス912などの入力デバイスを含む。ポインティングデバイス912は、例えば、方向情報およびコマンド選択をプロセッサ903に伝達し、ディスプレイ910上のカーソル移動を制御するマウス、トラックボール、タッチスクリーンセンサ用の指、またはポインティングスティックであってよい。
【0135】
プロセッサ903は、メインメモリ904などのメモリに含まれる1つ以上の命令の1つ以上のシーケンスを実行する。そのような命令を、ハードディスク907またはリムーバブルメディア駆動装置908などの別のコンピュータ可読媒体からメインメモリ904に読み込むことができる。マルチプロセッシング構成の1つ以上のプロセッサを使用して、メインメモリ904に含まれる命令のシーケンスを実行することもできる。別の実施形態においては、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて、ハードワイヤード回路を使用することができる。したがって、実施形態は、ハードウェア回路およびソフトウェアの特定の組み合わせに限定されない。
【0136】
上述したように、コンピュータシステム901は、本開示の教示のいずれかに従ってプログラムされた命令を保持し、本明細書に記載のデータ構造、テーブル、レコード、または他のデータを格納するための少なくとも1つのコンピュータ可読媒体またはメモリを含む。コンピュータ可読媒体の例は、コンパクトディスク、ハードディスク、フロッピーディスク、テープ、光磁気ディスク、PROM(EPROM、EEPROM、フラッシュEPROM)、DRAM、SRAM、SDRAM、または任意の他の磁気媒体、コンパクトディスク(例えば、CD−ROM)または任意の他の光学媒体、あるいはパンチカード、紙テープ、または穴のパターンを有する他の物理的媒体である。
【0137】
本開示は、コンピュータシステム901を制御し、本発明を実施するために1つ以上のデバイスを駆動し、コンピュータシステム901が人間のユーザと対話できるようにするコンピュータ可読媒体のいずれか1つまたは組み合わせに格納されたソフトウェアを含む。そのようなソフトウェアは、これらに限られるわけではないが、デバイスドライバー、オペレーティングシステム、およびアプリケーションソフトウェアを含む。そのようなコンピュータ可読媒体は、本発明の任意の部分を実施する際に実行される処理の全部または一部(処理が分散されている場合)を実行するための本開示のコンピュータプログラム製品をさらに含む。
【0138】
本実施形態のコンピュータコードデバイスは、これらに限られるわけではないが、スクリプト、解釈可能プログラム、ダイナミックリンクライブラリ(DLL)、Java(登録商標)クラス、および完全な実行可能プログラムを含む任意の解釈可能または実行可能コード機構であってよい。さらに、本実施形態の処理の一部は、より良い性能、信頼性、および/またはコストのために分散されてもよい。
【0139】
本明細書において使用されるとき、「コンピュータ可読媒体」という用語は、実行のためにプロセッサ903に命令を提供することに関与する任意の非一時的媒体を指す。コンピュータ可読媒体は、これらに限られるわけではないが非揮発性媒体または揮発性媒体など、多くの形態を取ることができる。不揮発性媒体は、例えば、ハードディスク907またはリムーバブルメディア駆動装置908など、光学ディスク、磁気ディスク、および光磁気ディスクを含む。揮発性媒体は、メインメモリ904などのダイナミックメモリを含む。反対に、伝送媒体は、バス902を構成する配線など、同軸ケーブル、銅線、および光ファイバを含む。また、伝送媒体は、電波および赤外線データ通信において生成されるような音響波または光波の形態をとってもよい。
【0140】
様々な形態のコンピュータ可読媒体が、実行のためのプロセッサ903への1つ以上の命令の1つ以上のシーケンスの実行に関与することができる。例えば、命令は、当初は遠隔コンピュータの磁気ディスク上に担持されてよい。遠隔コンピュータは、本開示のすべてまたは一部を実施するための命令をダイナミックメモリに遠隔でロードし、モデムを使用して電話回線を介して命令を送信することができる。コンピュータシステム901のローカルなモデムが、電話回線上のデータを受信し、データをバス902上に置くことができる。バス902は、メインメモリ904にデータを運び、そこからプロセッサ903が命令を取り出して実行する。メインメモリ904によって受信された命令を、随意により、プロセッサ903による実行の前または後のいずれかにおいて記憶装置907または908に保存することができる。
【0141】
コンピュータシステム901は、バス902に接続された通信インターフェース913も含む。通信インターフェース913は、例えばローカルエリアネットワーク(LAN)915またはインターネットなどの別の通信ネットワーク916に接続されたネットワークリンク914に結合する双方向データ通信を提供する。例えば、通信インターフェース913は、任意のパケット交換LANに接続するためのネットワークインターフェースカードであってよい。別の例として、通信インターフェース913は、統合サービスデジタルネットワーク(ISDN)カードであってよい。無線リンクを実装することも可能である。任意のそのような実装において、通信インターフェース913は、様々なタイプの情報を表すデジタルデータストリームを搬送する電気シグナル、電磁シグナル、または光シグナルを送信および受信する。
【0142】
ネットワークリンク914は、典型的には、1つ以上のネットワークを介する他のデータデバイスへのデータ通信を提供する。例えば、ネットワークリンク914は、ローカルネットワーク915(例えば、LAN)を介し、あるいは通信ネットワーク916を介して通信サービスを提供するサービスプロバイダによって操作される機器を介して、別のコンピュータへの接続を提供することができる。ローカルネットワーク914および通信ネットワーク916は、例えば、デジタルデータストリームを搬送する電気シグナル、電磁シグナル、または光シグナル、ならびに関連する物理レイヤ(例えば、CAT5ケーブル、同軸ケーブル、光ファイバ、など)を使用する。種々のネットワークを通るシグナル、ならびにコンピュータシステム901との間でデジタルデータを搬送するネットワークリンク914上および通信インターフェース913経由のシグナルは、ベースバンドシグナルまたは搬送波ベースのシグナルで実現されてよい。
【0143】
ベースバンドシグナルは、デジタルデータビットのストリームを記述する非変調の電気パルスとしてデジタルデータを搬送し、ここで用語「ビット」は、シンボルを意味するように広義に解釈されるべきであり、各シンボルは少なくとも1つ以上の情報ビットを搬送する。デジタルデータは、伝導性媒体上を伝播する振幅、位相、および/または周波数シフト暗号化シグナルなどで搬送波を変調するために使用されてもよく、あるいは伝播媒体を介して電磁波として送信されてもよい。したがって、デジタルデータを、「有線」通信チャネルを介して非変調ベースバンドデータとして送信でき、さらには/あるいは搬送波を変調することによってベースバンドとは異なる所定の周波数帯域において送信することができる。コンピュータシステム901は、ネットワーク915および916、ネットワークリンク914、ならびに通信インターフェース913を介して、プログラムコードを含むデータを送信および受信することができる。さらに、ネットワークリンク914は、LAN915を介して携帯情報端末(PDA)、ラップトップコンピュータ、または携帯電話機などのモバイルデバイス917への接続を提供することができる。
【0144】
本実施形態は、これに限られるわけではないが、データ中のパターンの検索および識別を含む多くの用途を有する。
【0145】
特定の実装形態について説明してきたが、これらの実装形態は、単なる例として提示されたものであり、本開示の教示を限定するものではない。実際、本明細書に記載された新規な方法、装置、およびシステムは、種々の他の形態で具体化されてよく、本開示の趣旨から逸脱することなく、本明細書に記載の方法、装置、およびシステムの形態における種々の省略、置換、および変更が実行可能である。
図1
図2
図3
図4
図5
図6
図7
図8
図9