(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-02
(45)【発行日】2024-09-10
(54)【発明の名称】アクションへの傾向についての表現特徴空間における自己適応マルチモデル方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20240903BHJP
【FI】
G06N20/00 130
(21)【出願番号】P 2023519786
(86)(22)【出願日】2020-10-13
(86)【国際出願番号】 US2020055380
(87)【国際公開番号】W WO2022081143
(87)【国際公開日】2022-04-21
【審査請求日】2023-03-29
(73)【特許権者】
【識別番号】520155228
【氏名又は名称】ヒタチ ヴァンタラ エルエルシー
(74)【代理人】
【識別番号】110000279
【氏名又は名称】弁理士法人ウィルフォート国際特許事務所
(72)【発明者】
【氏名】ダモ, マウロ, エー.
(72)【発明者】
【氏名】リン, ウェイ
(72)【発明者】
【氏名】シュマルゾ, ウィリアム
【審査官】福西 章人
(56)【参考文献】
【文献】特開2017-049677(JP,A)
【文献】国際公開第2019/003485(WO,A1)
【文献】国際公開第2020/157939(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
a)データレイクで管理される構造化データ及び非構造化データから時系列特徴を生成すること、
b)前記時系列特徴に対して特徴選択プロセスを実行すること、
c)複数のモデルを生成するために、複数の異なる種類のモデルにわたり、前記選択された時系列特徴に対する教師あり訓練を繰り返し実行すること、
d)配置のために前記複数のモデルから最良モデルを選択すること、及び
e)前記最良モデルが所定の基準を上回る間、a)~d)を継続的に繰り返すこと
を含む方法。
【請求項2】
データレイクで管理される前記構造化データ及び前記非構造化データから時系列特徴を前記生成することは、
前記構造化データ及び前記非構造化データのテキスト情報を数値表現に変換するように構成される潜在的意味解析を適用すること、
前記変換されたテキスト情報に対して最新性、頻度、及び収益化モデルを実行して、最新性の特徴、頻度の特徴、及び収益化の特徴を決定すること、
時間枠に従って前記最新性の特徴、頻度の特徴、及び前記収益化の特徴から前記時系列特徴を生成すること、及び
カテゴリ特徴を対象とした前記時系列特徴の1つに対する二値化を適用すること
を含む、請求項1に記載の方法。
【請求項3】
前記複数の異なる種類のモデルは、ランダムフォレスト、論理回帰、サポートベクタマシン、又は決定木の1又は複数を含む、請求項1に記載の方法。
【請求項4】
前記データレイクによる新しい構造化データ又は非構造化データの受信のために、前記新しい構造化データ又は非構造化データを前記時系列特徴の前記生成に組み込むこと、及び前記最良モデルが配置されている間にa)~d)を再び繰り返す、請求項1に記載の方法。
【請求項5】
前記最良モデルの要素に関連付けるためのカスタマイズメッセージを取り込むように構成されるダッシュボードを提供することを更に含み、
前記カスタマイズメッセージは、前記要素を伴う前記最良モデルの出力のための出力として提供される、請求項1に記載の方法。
【請求項6】
前記時系列特徴に対して主成分分析を実行して、前記時系列特徴を潜在空間に変換すること、
教師あり訓練を利用して、前記最良モデルに影響を与える前記潜在空間の係数を決定すること、及び
前記決定された係数を前記
最良モデルの要素として提供すること
を更に含む、請求項1に記載の方法。
【請求項7】
データレイクで管理される前記構造化データ及び前記非構造化データから前記時系列特徴を前記生成することは、
前記時系列特徴として採用するために、前記構造化データ及び前記非構造化データで見つかる1又は複数の識別されたパターンから認識される1又は複数の関心変数に関連する1又は複数のデータセットを識別すること、
欠損データを有する前記1又は複数のデータセットについて、
補間プロセスを実行して、前記データセットにデータを追加すること、
履歴データの閾値以内の精度を有する追加された前記データのバックテストのために、前記時系列特徴として前記1又は複数の関心変数を採用すること
を含む、請求項1に記載の方法。
【請求項8】
前記時系列特徴に対して特徴選択プロセスを前記実行することは、
前記1又は複数のデータセットに対して特徴変換を実行すること、
前記時系列特徴をグループ化することからインスタンスを形成すること、
特徴グループによって前記インスタンスを分割して、前記時系列特徴を選択すること
を含む、請求項7に記載の方法。
【請求項9】
前記複数のモデルを生成するために、複数の異なる種類のモデルにわたり、前記選択された時系列特徴に対する教師あり訓練を繰り返し実行することは、
前記選択された時系列特徴に基づいて、複数の教師あり訓練手順を生成するためにパラメータのグリッド検索を行うこと、
前記複数の教師あり訓練手順から前記複数の異なる種類のモデルを生成するために、パラメータの前記グリッド検索に対してランダムフォレスト訓練を実行すること
を含む、請求項1に記載の方法。
【請求項10】
プロセスを実行するための命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は
a)データレイクで管理される構造化データ及び非構造化データから時系列特徴を生成すること、
b)前記時系列特徴に対して特徴選択プロセスを実行すること、
c)複数のモデルを生成するために、複数の異なる種類のモデルにわたり、前記選択された時系列特徴に対する教師あり訓練を繰り返し実行すること、
d)配置のために前記複数のモデルから最良モデルを選択すること、及び
e)前記最良モデルが所定の基準を上回る間、a)~d)を継続的に繰り返し実行すること
を含む、非一時的コンピュータ可読媒体。
【請求項11】
データレイクで管理される前記構造化データ及び前記非構造化データから時系列特徴を前記生成することは、
前記構造化データ及び前記非構造化データのテキスト情報を数値表現に変換するように構成される潜在的意味解析を適用すること、
前記変換されたテキスト情報に対して最新性、頻度、及び収益化モデルを実行して、最新性の特徴、頻度の特徴、及び収益化の特徴を決定すること、
時間枠に従って前記最新性の特徴、頻度の特徴、及び前記収益化の特徴から前記時系列特徴を生成すること、及び
カテゴリ特徴を対象とした前記時系列特徴の1つに対する二値化を適用すること
を含む、請求項10に記載の非一時的コンピュータ可読媒体。
【請求項12】
前記複数の異なる種類のモデルは、ランダムフォレスト、論理回帰、サポートベクタマシン、又は決定木の1又は複数を含む、請求項10に記載の非一時的コンピュータ可読媒体。
【請求項13】
前記データレイクによる新しい構造化データ又は非構造化データの受信のために、前記新しい構造化データ又は非構造化データを前記時系列特徴の前記生成に組み込み、且つ前記最良モデルが配置されている間にa)~d)を再び繰り返し実行する、請求項10に記載の非一時的コンピュータ可読媒体。
【請求項14】
前記最良モデルの要素に関連付けるためのカスタマイズメッセージを取り込むように構成されるダッシュボードを提供することを更に含み、
前記カスタマイズメッセージは、前記要素を伴う前記最良モデルの出力のための出力として提供される、請求項10に記載の非一時的コンピュータ可読媒体。
【請求項15】
前記時系列特徴に対して主成分解析を実行して、前記時系列特徴を潜在空間に変換すること、
教師あり訓練を利用して、前記最良モデルに影響を与える前記潜在空間の係数を決定すること、及び
前記決定された係数を前記
最良モデルの要素として提供すること
を更に含む、請求項10に記載の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に機械学習を対象とし、より詳細には、モデルの生成を促進するための特徴選択のための機械学習フレームワークを対象とする。
【背景技術】
【0002】
関連技術では、エンティティの次の何れのアクションが将来行われるか、エンティティの次のアクションがいつどこで将来行われるかについての可能性を計算することを望むデータサイエンティストにとって、アクションの傾向を特定することは、困難な課題である。エンティティは、人、組織、又は機関であり得、アクションは、購入、寄付、又は金融取引であり得る。エンティティの次のアクションを予測することは、確率の問題であり、そのため、データサイエンティストは、アクションを取り巻く複数の不確実性を考慮する必要がある。
【0003】
関連技術の実装形態では、構造化及び非構造化データを有するモデルは、数値データをテキストデータと混合することができない。モデルを訓練するとき、数学関数のみが訓練セット内で使用される。テキストは関数内で使用され得ない。
【0004】
関連技術の実装形態は、データの希薄性に直面する可能性もあるか、又はモデリングに利用可能なデータが欠如することは、機械学習(ML)及び人工知能(AI)モデルにとって問題である。モデルに埋め込む十分なデータがない場合、結果は、精度を欠くと同時に多くの不確実性を含む。
【0005】
データ品質の完全性は、関連技術のML及びAIの実装における別の一般的なデータ問題である。欠損データ、データ入力の問題及びデータの異常値は、モデリングにおける大きい懸案事項であり、なぜなら、それらの問題は、実データを反映せず、誤りを増加させるからである。
【0006】
一部のデータセットの重要度を他のデータセットよりも優先させることもモデリングに影響を及ぼす。何れのデータがモデルに関連するか、及び何れのデータがそれほど重要でないかを決定することは、データサイエンティストにとっての課題である。最も高い精度を有する変数の最小限の組は、可能な最良の変数の構成である。
【0007】
モデルが性能劣化に遭遇し始めるとき、モデリングにおける概念ドリフトが生じる。モデルが劣化閾値に達するとき、値又はスコアは、正確ではなく、誤りを引き起こす。
【0008】
システムが更なる追加データを受信すると、データサイエンティストが新しいデータを用いてモデルを再トレーニングすることを条件として、それらのデータは、モデル及びモデルの性能を改善し得る。しかし、現在のモデルのデータスキーマを新しいデータスキーマに適合させるには、広範な作業が必要である。
【発明の概要】
【課題を解決するための手段】
【0009】
本明細書に記載の実装例は、挙動の履歴情報を使用し、且つ特徴の自己適応を使用することにより、エンティティのアクションについての傾向を測定する統一フレームワークを含む。本明細書に記載のアルゴリズムは、顧客、ユーザ、従業員、又は銀行等の任意のエンティティの過去の購入行動を捕捉し、これらのエンティティが購入、投資、又は離職等のアクションを行う可能性を与える。
【0010】
関連技術でのアクション解析問題に関する傾向に対処するために、実装例は、マルチモデル方法において自己適応可能であり、更にアクション傾向型のいかなる問題にも適用可能な解析モデルを自動で生成するシステムを含む。アクション傾向の問題は、あるエンティティが特定のアクション(例えば、購入、投資、推薦)を行う(例えば、顧客が製品Aを購入する、投資家が株Bに投資する、医師が治療Cを推薦する)将来の確率の推定として定められる。かかる確率の計算は、過去の行動データ、自己適応特徴エンジニアリング及びマルチ機械学習モデルを使用して行われる。
【0011】
関連技術でのアクション傾向の問題に対処するために、実装例は、エンティティがアクションを行う可能性を計算する傾向モデルを含む。この自己適応モデルは、データセットから最良の特徴を選択し、それを潜在空間にマップして、様々な変数を特徴(例えば、変数のグループ)に集約する。それらの特徴はモデルの入力になる。モデルは、機械学習及び人工知能を更に使用して、最良適合アルゴリズムを自己識別及び自己選択する。
【0012】
構造化及び非構造化データの両方を有するモデルを作成することに関する、関連技術の問題に対処するために、実装例のモデル内の特徴は、潜在的ディリクレ配分法(LDA)と共に単語頻度(TF)及び逆文書頻度(IDF)を使用して、テキストデータの数値表現を作成し得る。関連技術は、アクションイベントに対する様々な傾向のためのモデルを作成するシステムであり、この目的において、アクションがいつ生じるかを予測するためのシステムの広範な採用を増やすために、テキストデータ等の非数値データを考慮することが極めて重要である。これらの技術は、従来の機械学習モデルをテキストデータに適用できるようにする。
【0013】
関連技術でのデータの希薄性に対処するために、実装例は、主成分分析技術(PCA)を使用してデータの希薄性をデータ密度に変換し、データの共線性を除去し、特徴間の独立性を構築し、且つモデルのための入力として特徴を統一することを可能にする。機械学習における1つの従来の問題は、変数間のデータ従属性であるが、PCAによりそれを回避することができる。
【0014】
関連技術でのデータ品質の問題に対処するために、本明細書に記載の実装例は、データを選択するための自動データ品質モニタリング及び選択技術を使用する。選択データの品質は、正規化計算後に異常値を除去し、データ入力の問題をフィルタで除去し、補間技術を使用して欠損値を処理することによって改善される。
【0015】
時間窓に基づき、本明細書に記載の実装例は、データ重要度の問題に対処するために、キーワード重要度を時間と共に発展させ、特徴生成のための自動方法を使用する方法を含む。例えば、選択された特徴は、30日、60日及び180日の既定の時間窓を有する。この時間窓内でデータは集約される。データ密度が発見されと、特徴が作成される。データ密度が潜在的なデータの特定の閾値未満である場合、特徴は破棄されることを書き留める。アクションの未来予測に必要なこの時系列成分及び特徴を作成するための要素としての時系列の使用は、機械学習モデルの予測力を高める。
【0016】
予測モデルにおける概念ドリフトに対処するために、本明細書に記載の実装例は、性能劣化の検出後に新しいモデルを自動で検出、作成及び再訓練するための手順を含む。モデルドリフトの概念は、モデルの誤りを低減する新規性データを使用して、システムが新しいデータパターンを継続的に学習することを可能にする。2種類の検出が利用され得る。
【0017】
1.頻度ベース:閾値は、モデルの精度に基づく。例えば、モデルの訓練が90%未満の精度を示す場合、実装例は、新しいモデルを作成又は再訓練することができ、モデルは、その精度を改善する。
【0018】
2.規模ベース:規模は、モデルの精度のばらつきに基づく。例えば、モデルの性能のばらつきが特定の閾値に関して増加する場合、実装例は、それにより、モデルを作成又は訓練する。
【0019】
モデルに新しいデータを追加するために、本明細書に記載の実装例は、最良モデルを作成するために特徴を検出し、それらの特徴の最良適合を自動で選択するための手順を使用する。この手順は、モデルがより良好に機能するために必要なものに基づいて、データソースを増加又は低減し得る。この方法は、適用可能なユースケースによってデータソースを自動でランク付けし、最適なモデルの結果を得るために特徴選択の適応処理を使用する。例えば、ユースケースが3つのデータセットを有する場合及びインスタンスのグループが3つのデータセットの2つにのみデータを有する場合、実装例は、このインスタンスのグループのためのモデルを実行する。この方法は、データの可用性に基づいて、異なるインスタンスの組について異なるモデルを実行する。
【0020】
本開示の態様は、a)データレイク内で管理される構造化データ及び非構造化データから時系列特徴を生成すること、b)時系列特徴に対して特徴選択プロセスを実行すること、c)複数のモデルを生成するために、複数の異なる種類のモデルにわたり、選択された時系列特徴に対する教師あり訓練を反復的に行うこと、d)配置(デプロイ)のために複数のモデルから最良モデルを選択すること、及びe)最良モデルが所定の基準を上回る間、a)~d)を継続的に反復することを含み得る方法を含み得る。
【0021】
本開示の態様は、a)データレイク内で管理される構造化データ及び非構造化データから時系列特徴を生成すること、b)時系列特徴に対して特徴選択プロセスを実行すること、c)複数のモデルを生成するために、複数の異なる種類のモデルにわたり、選択された時系列特徴に対する教師あり訓練を反復的に行うこと、d)配置のために複数のモデルから最良モデルを選択すること、及びe)最良モデルが所定の基準を上回る間、a)~d)を継続的に反復することを含み得る命令を記憶するコンピュータプログラムを含み得る。命令は、非一時的コンピュータ可読媒体上に記憶され、1又は複数のプロセッサによって実行され得る。
【0022】
本開示の態様は、a)データレイク内で管理される構造化データ及び非構造化データから時系列特徴を生成すること、b)時系列特徴に対して特徴選択プロセスを実行すること、c)複数のモデルを生成するために、複数の異なる種類のモデルにわたり、選択された時系列特徴に対する教師あり訓練を反復的に行うこと、d)配置のために複数のモデルから最良モデルを選択すること、及びe)最良モデルが所定の基準を上回る間、a)~d)を継続的に反復するように構成されるプロセッサを含み得る装置を含み得る。
【0023】
本開示の態様は、a)データレイク内で管理される構造化データ及び非構造化データから時系列特徴を生成するための手段、b)時系列特徴に対して特徴選択プロセスを実行するための手段、c)複数のモデルを生成するために、複数の異なる種類のモデルにわたり、選択された時系列特徴に対する教師あり訓練を反復的に行うための手段、d)配置のために複数のモデルから最良モデルを選択するための手段、及びe)最良モデルが所定の基準を上回る間、a)~d)を継続的に反復するための手段を含み得るシステムを含み得る。
【図面の簡単な説明】
【0024】
【
図1a】
図1aは、本明細書に記載の実装例の全体的なフロー図を示す。
【0025】
【
図1b】
図1bは、本明細書に記載の実装例の全体的なアーキテクチャを示す。
【0026】
【
図2】
図2は、一実装例に従う構造化及び非構造化データのアーキテクチャ例を示す。
【0027】
【
図3】
図3は、一実装例に従う特徴及び次元削減を示す。
【0028】
【
図4】
図4は、一実装例に従うデータサイエンティストの微調整の一例を示す。
【0029】
【
図5a】
図5aは、一実装例に従う教師あり訓練の一例を示す。
【0030】
【
図5b】
図5bは、一実装例に従う教師あり訓練のフロー例を示す。
【0031】
【
図5c】
図5cは、一実装例に従う自動特徴選択のためのフロー図例を示す。
【0032】
【
図5d】
図5dは、一実装例に従う、事前設定定義からの時系列データの生成の一例を示す。
【0033】
【
図5e】
図5eは、一実装例に従う、特徴生成から最も重要な特徴を選択するためのフローを示す。
【0034】
【
図5f】
図5fは、一実装例に従うハイパーパラメータ範囲を定めるためのフローを示す。
【0035】
【
図5g】
図5gは、一実装例に従うモデル訓練及びモデル選択のプロセスのためのフローを示す。
【0036】
【
図6】
図6は、一実装例に従う説明可能なAIの一例を示す。
【0037】
【
図7a】
図7aは、一実装例に従うスコアリング例を示す。
【0038】
【
図7b】
図7bは、一実装例に従う、カスタムメッセージを備えられ得る出力の一例を示す。
【0039】
【
図8】
図8は、一実装例に従う出力ダッシュボードの一例を示す。
【0040】
【
図9】
図9は、いくつかの実装例で使用するのに適したコンピュータ装置例を有する計算環境例を示す。
【発明を実施するための形態】
【0041】
以下の詳細な説明は、図面の詳細及び本願の実装例を示す。図面間の冗長な要素の参照番号及び説明は、明瞭にするために省いている。説明の全体を通して使用する用語は、例として示され、限定的であることを意図しない。例えば、「自動」という用語の使用は、本願の実装形態を実践する当業者の所望の実装形態に応じて、完全に自動の実装形態又は実装形態の或る側面に対するユーザ若しくは管理者の制御を含む半自動の実装形態を含んでもよい。選択は、ユーザインタフェース若しくは他の入力手段によってユーザによって行われ得るか、又は所望のアルゴリズムによって実装され得る。本明細書に記載する実装例は、単独で又は組み合わせで利用することができ、実装例の機能は、所望の実装形態に応じて任意の手段によって実装され得る。本開示では、教師あり訓練は、所望の実装形態に従う任意の教師あり機械学習方法を含み得る。
【0042】
図1(a)は、本明細書に記載の実装例の全体的なフロー図を示す。本明細書に記載の実装例は、101では、入力データから全てのデータセットを抽出するために構造化及び非構造化データを最初に取り込む。102では、このフローは、入力データから特徴を生成する。103では、このフローは、ランキング基準を使用して、データセットから主な特徴及び変数を選択する。104では、このフローは、モデル訓練段階に入れるパラメータ範囲を選択する。105では、このフローは、複数のハイパーパラメータを使用して、教師あり訓練の複数の反復を行い、次いで訓練されたアルゴリズムから最良のアルゴリズムを選択する。106では、このフローは、最良モデルからの最も重要な特徴に関する説明を提供する。107では、このフローは、最良モデルを使用してデータの新しいインスタンスを採点する。108では、このフローは、ディスプレイ上に結果を出力する。
図1aのフロー図中のフローのそれぞれは、本明細書で以下のように更に詳細に説明する。更に、フローのそれぞれは、
図1bに示す全体的なアーキテクチャにも結び付いており、これも
図2~
図8に関して以下のようにより詳細に説明する。
【0043】
構造化及び非構造化データ101の入力に関して、このプロセスを開始するために、このプロセスは、様々なデータソースからの様々なデータセットを同じファクトテーブル内にリンクし、データセットの例は、201、202、203、及び211として示されている。それらのデータセットは、1つのデータレイク204内に集中化され、データレイク204は、トランザクションシステム及びサードパーティシステム等の様々なデータソースから取り入れられる幾つかのデータセットを含むデータリポジトリである。
図2は、一実装例に従う構造化データ200及び非構造化データ210のアーキテクチャの一例を示す。
【0044】
102では、入力データから特徴を生成するために、実装例は、
図2の特徴手順の全ての組み合わせを利用する。とりわけ、実装例は、数値データをテキストデータと混合すること等、構造化データ200と非構造化データ210とを混合し、それらの特徴内の時間成分を適用する。これは、プロセスを実行する前に定義可能である既定のデータ範囲であり、入力変数として時間を使用してアルゴリズムに全ての多次元特徴を作成させる。
【0045】
図3は、一実装例に従う特徴及び次元削減を示す。特徴300は、テキストデータのトピックモデリングのための、潜在的意味解析301と呼ばれる技術を含み得る。入力データは、データセット(ロー)の各インスタンスの顧客アカウントデータ並びに各顧客からのソフトウェア及びハードウェアの両方の技術を含む。潜在的意味解析301は、2つのステップを含み得る。第1ステップは、単語頻度及び逆文書頻度(TFIDF)を使用して、単語の数値表現を作成する。第2ステップは、特異値分解法(SVD)を適用して、顧客への同様のプリファレンスを有する技術群を作成する。
【0046】
特徴300は、最新性、頻度、及び収益化302も含むことができ、3つの特徴を含む。最新性は、顧客がどの程度最近購入を行ったかを表すのに対して、頻度は、顧客がどの程度の頻度で購入を行うかを表す。最後に、特徴収益化は、顧客が購入にどれくらいの金額を費やすかを表す。これらの特徴は、異なるグループ内の同様の行動を有する顧客をグループ化する。
【0047】
特徴300は、最新性、頻度、及び収益化302における時間成分を含む時系列特徴303も含み得る。この時間的な追加は、最新性、頻度、及び収益化302を異なる時間範囲について計算することによって機能する。例えば、頻度は、特定の期間内に顧客が行う購入の回数、即ち過去1カ月間、過去3カ月間、過去6カ月間等において顧客が行った購入の回数である。本明細書では、これらの2つの手順の組み合わせを時間的RFMと呼ぶ。タイマ系列特徴303は、主成分分析401を行うために教師なし訓練/次元削減400プロセスに転送され、その解析は、説明可能なAI700及び教師あり訓練600に転送される。
【0048】
MinMax305は時間的RFMの各グループに適用される。MinMax305の技術は、特徴を正規化する目標を有する正規化プロセスである。正規化は、様々なスケールで測定される値を理論上共通のスケールに調節することを含む。
【0049】
二値化手法304は各カテゴリの二値表現を作成するカテゴリ変数に適用される。例えば、データセット内において、ある組が、企業収益と呼ばれる変数を有し、「高」、「中」及び「低」収益等の3つの可能なカテゴリを有する場合、「高」収益を有する顧客は、要素[1,0,0]を有するベクトルとして表される。
【0050】
図4は、一実装例に従うデータサイエンティストの微調整500の一例を示す。104では、モデルの微調整を促進するために、データサイエンティストの発見的決定に基づいて、モデル内に入力するために、ハイパーパラメータが追加される。このフローは、異なるアルゴリズムのいくつかのシナリオを作成するパラメータ501の組を作成することを含み、これは、所望の実装形態に応じてデータサイエンティストによって作成され得る。アルゴリズムを作成することは、既定のパラメータの組のみによって完全に自動化される。
【0051】
図5aは、一実装例に従う教師あり訓練の一例を示す。105では、教師あり訓練600の実装例は、システム性能を改善するための自己適応メカニズムを使用して、データ品質及びデータ密度を作成することにフォーカスしている。
【0052】
モデル601は、モデルが幾つかの異なるモデルについて訓練されるときのプロセスである。ハイパーパラメータプロセス602は、ハイパーパラメータを選択するプロセスである。これらのハイパーパラメータは、いくつかの異なる組み合わせから最良のハイパーパラメータを選択する自動プロセスを使用して作成される。精度及び試験603は、構築されたいくつかのモデルの精度を測定し、それらのモデルを試験することを含む。ここでは、推論段階で使用するのに最良のモデルを選択することでもある。
【0053】
特徴選択604は、最良の結果を有するモデルを生成する特徴を選択するための段階を含む。特徴の組み合わせもハイパーパラメータの組み合わせに追加される。教師あり訓練600の最終結果は、特徴及びハイパーパラメータの両方の最も性能のよい組み合わせである。
【0054】
【0055】
611では、このフローは、入力データから全てのデータセットを抽出する。
【0056】
612では、このフローは、抽出されたデータセットの組み合わせから最も重要なデータを選択する。612のフローにおいて、システムは、データセットの品質に基づいて、最良のデータセット及びその変数を自動で選択する。システムは、データセット情報内の相対的計算を行う。例えば、各変数のデータセット内において、システムは、インスタンスの総数と比較した欠損値の比率を計算することができる。このような実装形態により、非連続変数内の欠損値を除去すること及び連続変数の内部の欠損値を補間すること等の幾つかの手順がデータセットに適用される。自動特徴選択のための更なる詳細は
図5(c)に関して概説される。
【0057】
613では、このフローは、特徴を作成する。特徴は、抽出されたデータセットの複数の組み合わせから変換(例えば、温度メトリクの平方根)によって構文解析される変数である。特徴は、ユーザが目標変数を定めるときに作成される。目標変数は、インスタンスを識別する任意の変数であり得る。このような変数は、新製品を購入し得る顧客、新しい企業を吸収することを目指す企業、投薬を受ける傾向を有する患者等であり得る。全ての特徴は、目標変数内のパターンをよりよく識別するように構築される。目標変数は、研究されたアクションの過去の結果であり得る。例えば、購入傾向モデルにおいて、目標変数は、製品の購入である。それらのパターンは、データ特性に基づいてデータを変換する予め構築されたデータ関数の組を使用するデータ構造を用いて発見される。例えば、データが連続変数である場合、システムは、データを正規化するために、zスコア及びMinMax手順等の正規化手順を適用する。別の例として、データがカテゴリ変数である場合、システムは、カテゴリ変数の二値化を自動で作成する。
【0058】
特徴の作成は、
図3に示すような機能を含む。例えば、潜在的意味解析301では、実装例は、顧客情報に特異値分解(SVD)を適用してテキスト情報を変換し、同じ類似性を有するインスタンスをグループ化する。最新性、頻度及び収益化(RFM)302により、最新性は、顧客がどの程度最近購入を行ったかを決定することを含むことができ、頻度は、顧客がどの程度の頻度で購入を行うかを決定することを含むことができ、収益化は、顧客が購入にいくら使うかを決定することを含み得る。
【0059】
時系列特徴303は、ユーザからの時間枠をパラメータとして使用して、新しい特徴を自動で生成する、RFMモデルの自動特徴生成を含み得る。二値化304に関して、カテゴリ変数について、全ての変数は、数字ではなく、カテゴリを有する。システムは、全ての変数を検索し、変数の種類を識別し、それがカテゴリ変数である場合、システムは、元のフィールドのカテゴリごとに新しい変数を作成し、データセットの各インスタンスに0又は1を割り当てる。例えば、システムは、以下のテーブルの全てのカラムを検索し、企業規模の変数がカテゴリであることを検出し、このフィールド上の各カテゴリを0及び1を含む別の変数に変換する。
【0060】
正規化305では、最大及び最小手順が全ての連続変数に適用される。この手順は、データを0と1との間で標準化し、システムは、正しい変数を自動で選択する。
【0061】
データセット内で作成される時系列の事前定義も定められる。一例として、この定義は、
図5dに示すように、3カ月、6カ月及び12カ月であり得る。
【0062】
614では、このフローは、作成された特徴の品質から最も重要な特徴をランク付けし、選択する。この態様の特徴選択のフローの更なる詳細は
図5eで説明される。
【0063】
615では、ユーザ、例えばデータサイエンティスト、ビジネスアナリスト又はデータアナリストは、発見的方法を使用して、モデル内で使用されるパラメータ範囲を定める。これらのパラメータは、予め設定された複数のポテンシャルモデル内で試験される。パラメータ範囲のそれぞれの数は、ハイパーパラメータの組を生成し、各組は、モデルである。
図5fは、モデルに組み込むパラメータ範囲を定義するための一実装例を示す。
【0064】
616では、このフローは、選択された特徴を使用し、複数の学習アルゴリズム内で複数のハイパーパラメータを使用して複数の訓練の繰り返しを行う。総計算作業は、前の段階で定められたシナリオ数の関数であることを書き留める。
図5gは、一実装例に従う訓練を含むフロー例を示す。
【0065】
617では、611においてフロー内で実行されたトレーニングされたアルゴリズムのそれぞれについて、エンジンは、性能メトリック(例えば、真陽性に真陰性を加えた総数を、全インスタンスに基づく精度で割ったもの)を計算する。性能メトリックは、実行されるアルゴリズムに基づいて定められる。
【0066】
618では、このフローは、訓練されたアルゴリズムから、最良のメトリック性能を有するアルゴリズムを選択する。619では、計算された性能基準が所定の基準を上回るアルゴリズムがある場合、このフローは、抽出された特徴から過去に未使用の及び使用された特徴を選択する。一実装例では、特徴選択基準は、インスタンスに関する特徴の入手可能性である。例えば、1つのインスタンスを1人の顧客であると考える。顧客又はインスタンスのグループごとに異なる特徴の組がある。顧客のグループの特徴の組内の1つの特徴を入手可能であり得ると同時に、その特徴は、別の顧客のグループで入手可能であってはならない。特徴の入手可能性の基準は、グループ内の全顧客についてその特徴が存在するかどうかである。620では、このフローは、インスタンスごとの入手可能データに適用することができる最良適合モデルが得られるまで、612からフローを繰り返す。
【0067】
観測の一例では、分類の比率又は精度は、(TP+TN)/(TP+TN+FP+FN)として与えられ、ここで、TPは、真陽性であり(観測が陽性であり、陽性であると予測された)、TNは、真陰性であり(観測が陰性であり、陰性であると予測された)、FPは、偽陽性であり(観測が陰性であるが、陽性であると予測された)、FNは、偽陰性である(観測が陽性であるが、陰性であると予測された)。再現率は、陽性例の総数に対する正しく分類された陽性例の総数の比率であり、TP/(TP+FN)として与え得る。正確さは、予測された陽性例の総数と比較した正しく分類された陽性例の総数であり、TP/(TP+FP)として与え得る。所定の基準は、所望の実装形態に応じて、かかる分類の比率、精度、再現率又は正確さの何れかに基づいて設定され得る。
【0068】
621では、このフローは、選択されたアルゴリズムを使用して結果を出力する。
【0069】
このフローにより、実装例は、配置中の繰り返しによって自己適応的である複数のモデルから解析モデルを自動で生成することにより、関連技術におけるアクションの傾向を解析する問題に対処することができる。モデルは、問題のアクションタイプの任意の種類の傾向に適用され得、エンティティの将来の確率を推定するように構成され得る。構造化及び非構造化データはシステム内に継続的にストリーミングされるにつれて、マルチマシン学習モデルは
図5cの繰り返しフローによって繰り返し再訓練され得、システムによって得られる履歴データ及び新規データに基づいて、最良モデルはマルチマシン学習モデルの別のものに変更され得る。
【0070】
図5cは、一実装例に従う自動特徴選択のためのフロー図例を示す。とりわけ、
図5cは、612におけるフローの特徴選択を対象とする。
【0071】
631では、データセットは特徴選択604に取り入れられる。632では、パターンは、特徴として利用可能な関心変数を決定するためにデータセットから識別される。633では、パターンが見つかった場合(Yes)、このフローは、634に進み、さもなければ(No)、このフローは、631に進んで、次のデータセットを得る。
【0072】
634では、識別したパターンが、実行されている解析に有用であるか否かが判定される。有用である場合(Yes)、このフローは、636に進み、さもなければ(No)、このフローは、635に進んで、識別したパターンに関連する変数を破棄する。
【0073】
636では、データセット内に欠損データがあるか否かが判定される。ある場合(Yes)、このフローは、638に進んで、データセットのデータを埋めるための補間プロセスを実行し、さもなければ(No)、このフローは、637に進んで、識別した変数を抽出された特徴として確保し、次のデータセットを得る。
【0074】
638では、データ内のギャップを埋めるための補間技術が決定される。データに適用可能なそのような補間技術がある場合(Yes)、このフローは、640に進み、さもなければ(No)、このフローは、639に進んで、欠損データのインスタンスを破棄する。
【0075】
640では、補間手順が選択される。641では、ギャップを埋めるためにデータに対して補間手順が実行される。642では、補間データの結果が履歴データに対してバックテストされて、データが正確であるか否かが判定する。643では、データが正確であると判定された場合(Yes)、変数が抽出された特徴として確保され、このプロセスは、631に戻って次のデータセットを得る。さもなければ(No)、このフローは、640に進んで、異なる補間手順を試みる。
【0076】
図5eは、一実装例に従う、特徴生成から最も重要な特徴を選択するためのフローを示す。本明細書に記載の実装例では、特徴の選択基準は、インスタンスのための特徴の入手可能性である。特徴の入手可能性の基準は、グループ内の全顧客についてその特徴が存在するか否かである。650では、
図5cのフローから生成されるデータセット及び対応する抽出された変数が与えられる。651では、データセットに対して特徴変換が実行される。652では、特徴をグループ化することからインスタンスが形成される。653では、インスタンスは特徴グループによって分割される。654では、特徴及びインスタンスに対して教師あり訓練が実行される。655では、インスタンス及び対応するモデルはデータベースに保存される。
【0077】
図5fは、一実装例に従うハイパーパラメータ範囲を定めるためのフローを示す。661では、
図5eの選択プロセスからの特徴が与えられる。662では、インスタンスが2つのサブグループ(試験セット及び訓練セット)に分割される。663では、特徴のコピーが生成される。664では、存在する特徴変換が実行される。このような特徴変換は、ランダムフォレスト665、論理回帰666、サポートベクタマシン667、又は決定木668を含み得る。次いで、669では、全てのモデルの性能が比較されて最良モデルが決定される。670では、最良モデルが結果として提示される。
【0078】
図5gは、一実装例に従う訓練を含むフロー例を示す。
図5gに示す例は、ランダムフォレスト680である。681で特徴が与えられ、682でグリッド検索が行われて幾つかの訓練手順が作成される。683、684、685、686では、様々なパラメータについてグリッド検索に対してランダムフォレストが実行され、様々なモデルが生成される。次いで、687でモデルのそれぞれについて性能メトリックが決定され、688で最良モデルが決定される。次いで、689で最良モデルが結果として返される。
【0079】
図6は、一実装例に従う説明可能なAIの一例を示す。説明可能なAI700は、PCAローディング701、各顧客によってカスタマイズされた人間のようなメッセージを有するルールベースのデータベース702、及びモデルの最も影響力のある要素703を含む。
図1のプロセス106では、説明可能なAI700は、モデルを訓練し、モデルを説明する係数を見つけるように構成される。潜在空間では、全ての特徴が潜在空間内で統一され、それらの推論が等しく評価され得ることを書き留める。
【0080】
一例では、オリジナルの空間を潜在空間に分解する変換を適用するために生データがPCAローディング701内にロードされる。モデルを説明する係数は、教師あり訓練の出力である。このプロセスは、モデルを訓練し、(潜在空間内の)モデルを説明する係数を見つける。
【0081】
次いで、説明可能なAI700は、確率のより多くに影響を及ぼす係数の上位ランクを決定する。係数は、その係数がどの程度の影響を特徴に与えるかに基づいてランク付けされる。この影響を計算する方法は、モデルの結果に基づく。
【0082】
その後、潜在空間から、説明可能なAI700は、潜在空間内のオリジナルの変数の共分散の線形結合を使用し、オリジナルの空間内の上位ランクの影響を受けた変数を解析し、識別する。潜在空間から、システムは、モデルの最も影響力のある要素703を使用することにより、隠れ空間内の(例えば、予め設定されている通り)上位3つの最も影響を受けた変数がどのようなものであるかを解析する。
【0083】
説明可能なAI700は、生データからの特徴と、潜在空間からの変数との共分散を計算する。共分散が大きい場合、その関係は、特徴と隠れ変数との間の強い関係を示す。強い関係の場合、説明可能なAI700は、それにより、その関係が存在することを示し、隠れ変数の説明内にその特徴を割り当てる。
【0084】
上位ランクのオリジナルの変数の結果は、ルールベースのデータベース702内に与えられる。その後、データサイエンティストは、係数の上位ランクを説明し、人間の理解を補助するために、ルールベースのデータベース702内に説明的記述を追加することができる。
【0085】
図6に示すように、説明可能なAI700は、何れの変数がモデルに影響を及ぼす可能性が最も高いかに関する説明を与えるように構成されるルールベースのデータベース702をもたらす。701に示すように、オリジナルのドメインを潜在ドメインに変更するために、1つの主成分解析が使用される。この問題を解決するために、アルゴリズムは、PCAのローディングの2乗を計算し、潜在空間内の変数の分布の行列を計算する。この分布を計算した後、アルゴリズムは、潜在空間内の変数の分布の行列と共に、顧客ベクトルからのオリジナルの空間内の変数間の積を計算する。
【0086】
アルゴリズムは、モデルをより説明可能にする最も高い影響力のある潜在変数のみを選択し、各潜在変数からオリジナルの空間内の最も影響力のある変数を推論として検討する。オリジナルの空間内の最も影響力のある変数は、モデルの説明である。オリジナルの空間に基づき、データサイエンティストは、オリジナルの空間内の変数ごとにその変数が傾向の可能性にどのように影響するかを説明する標準メッセージを記述する。この手順は、
図7aの804で実行される。
【0087】
図7aは、一実装例に従うスコアリング800の一例を示す。スコアリングは、
図1の107で引き起こされる。モデルが訓練された後、モデルは、データセット内のインスタンスを採点するために使用される。この段階において、実装例は、解析成果を実用的記述に変換する。各データスコア及びモデルに対する要素の影響の出力に基づき、出力がダッシュボード内で発行される。
【0088】
解析成果から実用的記述への変換は、最も影響力のある上位3つの特徴の情報を収集し、実用的記述を追加し、それを人間が読める情報に変換するユーザによって行われる。例えば、年齢及び性別がモデル内の最も影響力のある特徴であると仮定する実装形態では、実用的記述は、
図7bに示す方法で提供され得る。
図7bは、一実装例に従うカスタムメッセージを備え得る出力の一例を示す。
【0089】
801では、外部エージェントのためのA/Bフィールドテストを補助する機能があり、フィールドテストは、ダッシュボード上の成果の結果を解析するために策定される。802では、顧客の特徴が与えられ、それに加えて、803では、ルールベースのデータベース内で先に与えられたカスタムの人間のようなメッセージ及び傾向のスコアリングが与えられる。
【0090】
図8は、一実装例に従う出力ダッシュボード900の一例を示す。スコアリング後、モデルシステムは、企業システムと接続し、変換された解析成果と共にスコアリングのコンテンツをダッシュボード901上で発行する。
【0091】
本明細書に記載の実装例により、この自己適応マルチモデル方法は、ソース、品質、構造化及び非構造化データに基づいて特徴を選択するためのデータ特性を使用し、潜在空間内の全ての特徴を統一する。それにより、この実装例は、性能基準を使用してマルチモデルの最良適合をもたらすことができ、意思決定者の意思決定プロセスを支援するために情報技術(IT)システム内に埋め込まれ得る。
【0092】
次のアクションの可能性を計算することを望むいかなる企業も、本明細書に記載の実装例を利用することができる。例えば、小売企業は、自らの顧客が購入を行う可能性を計算することを望む場合がある。非政府組織は、潜在的な寄付者が寄付を行う可能性を計算することを望む場合がある。企業間(B2B)業界に集中する卸売企業は、自らの顧客がいつ何を購入するかをより適切に特定することにより、自らの売上を改善するために本発明を使用することができる。更に、企業は、本明細書に記載のシステムによってデータを入力し、出力を使用して、店員、サポート担当者及び代理人等の収益創出チームと情報を共有することができる。
【0093】
この自己適応マルチモデル方法は、企業間(B2B)領域及び企業-消費者間領域における行動の傾向を予測するための解決策であり得る。過去の行動に基づいて何かが起きる可能性を定める必要がある、あらゆるユースケースについて、このマルチモデル方法は、その可能性を計算するための最適な解決策である。
【0094】
図9は、
図1a及び
図1bに示す全てのプロセスの機能を促進するため等、一部の実装例で使用するのに適したコンピュータ装置の一例を有する演算環境の一例を示す。演算環境900内のコンピュータ装置905は、1又は複数の処理ユニット、コア又はプロセッサ910、メモリ915(例えば、RAM及び/若しくはROM等)、内部ストレージ920(例えば、磁気、光学、ソリッドステートストレージ及び/若しくは有機)並びに/又はIOインタフェース925を含むことができ、その何れも、情報を伝達するために通信メカニズム又はバス930に接続することができるか、又はコンピュータ装置905に埋め込まれ得る。IOインタフェース925は、所望の実装形態に応じて、カメラから画像を受信するように、又はプロジェクタ又はディスプレイに画像を提供するようにも構成される。所望の実装形態に応じて、クラウド上の又はサービスとしてのソフトウェア(SaaS)としての実装を促進するために、コンピュータ装置905の複数のインスタンスは利用され得る。
【0095】
コンピュータ装置905は、入力/ユーザインタフェース935及び出力デバイス/インタフェース940に通信可能に接続され得る。入力/ユーザインタフェース935及び出力デバイス/インタフェース940の何れか又は両方は、有線インタフェース又は無線インタフェースであり得、取り外し可能であり得る。入力/ユーザインタフェース935は、入力を行うために使用可能な任意の物理的な又は仮想的なデバイス、コンポーネント、センサ又はインタフェースを含んでもよい(例えば、ボタン、タッチスクリーンインタフェース、キーボード、ポインティング/カーソル制御、マイクロホン、カメラ、ブライユ点字、運動センサ、光学読取り装置等)。出力デバイス/インタフェース940は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、ブライユ点字等を含んでもよい。いくつかの実装例では、入力/ユーザインタフェース935及び出力デバイス/インタフェース940は、コンピュータ装置905に埋め込まれ得るか、又はコンピュータ装置905に物理的に接続され得る。他の実装例では、他のコンピュータ装置は、コンピュータ装置905のための入力/ユーザインタフェース935及び出力デバイス/インタフェース940として機能してもよく、又はそれらの機能を提供してもよい。
【0096】
コンピュータ装置905の例は、限定されないが、高移動性のデバイス(例えば、スマートフォン、車両及び他の機械内のデバイス、人間及び動物が運ぶデバイス等)、モバイルデバイス(例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、携帯型テレビ、ラジオ等)及び移動性のために設計されていないデバイス(例えば、デスクトップコンピュータ、他のコンピュータ、情報キオスク、1又は複数のプロセッサが埋め込まれた及び/又は接続されたテレビ、ラジオ等)を含んでもよい。
【0097】
コンピュータ装置905は、同じ構成又は異なる構成の1又は複数のコンピュータ装置を含む任意の数のネットワーク化されたコンポーネント、デバイス及びシステムと通信するために、外部ストレージ945及びネットワーク950に(例えば、IOインタフェース925を介して)通信可能に接続され得る。コンピュータ装置905又は接続された任意のコンピュータ装置は、サーバ、クライアント、シンサーバ、汎用マシン、専用マシン又は別のラベルとして機能し得そのサービスを提供し得、又はそのように言及され得る。
【0098】
IOインタフェース925は、限定されないが、演算環境900内の少なくとも全ての接続されたコンポーネント、デバイス及びネットワークとの間で情報をやり取りするために、任意の通信プロトコル若しくは規格又はIOプロトコル若しくは規格(例えば、イーサネット、802.11x、ユニバーサルシステムバス、WiMax、モデム、セルラネットワークプロトコル等)を使用する有線及び/又は無線インタフェースを含み得る。ネットワーク950は、任意のネットワーク又はネットワークの組み合わせ(例えば、インターネット、ローカルエリアネットワーク、広域ネットワーク、電話網、セルラネットワーク、衛星ネットワーク等)であり得る。
【0099】
コンピュータ装置905は、一時的媒体及び非一時的媒体を含む、コンピュータ使用可能媒体又はコンピュータ可読媒体を使用し、且つ/又はそれを使用して通信することができる。一時的媒体は、伝送媒体(例えば、金属ケーブル、光ファイバ)、信号、搬送波等を含む。非一時的媒体は、磁気媒体(例えば、ディスク及びテープ)、光学媒体(例えば、CD ROM、デジタルビデオディスク、ブルーレイディスク)、ソリッドステート媒体(例えば、RAM、ROM、フラッシュメモリ、ソリッドステートストレージ)及び他の不揮発性ストレージ又はメモリを含む。
【0100】
演算環境の一部の例では、コンピュータ装置905を使用して、技術、方法、アプリケーション、プロセス又はコンピュータ実行可能命令を実装され得る。コンピュータ実行可能命令は、一時的媒体から取得し、非一時的媒体上に記憶し、そこから取得され得る。実行可能命令は、任意のプログラミング言語、スクリプト言語及び機械言語(例えば、C、C++、C#、Java、Visual Basic、Python、Perl、JavaScript等)の1又は複数に由来し得る。
【0101】
プロセッサ910は、ネイティブ環境又は仮想環境内で任意のオペレーティングシステム(OS)(不図示)の下で実行可能である。論理ユニット960、アプリケーションプログラミングインタフェース(API)ユニット965、入力ユニット970、出力ユニット975及び様々なユニットが互いに、OSと、且つ他のアプリケーション(不図示)と通信するためのユニット間通信メカニズム995を含む1つ又は複数のアプリケーションを展開することができる。記載のユニット及び要素は、設計、機能、構成又は実装の点で変更することができ、提供した説明に限定されない。プロセッサ910は、中央処理装置(CPU)等のハードウェアプロセッサの形態としてあり得るか、又はハードウェア及びソフトウェアユニットの組み合わせであり得る。
【0102】
一部の実装例では、情報又は実行命令がAPIユニット965によって受信されると、それは、1又は複数の他のユニット(例えば、論理ユニット960、入力ユニット970、出力ユニット975)に伝達されてもよい。上記の一部の実装例において、一部の例では論理ユニット960はユニット間の情報フローを制御し、APIユニット965、入力ユニット970、出力ユニット975によって提供されるサービスを指示するように構成されてもよい。例えば、1又は複数のプロセス又は実装形態のフローは、論理ユニット960によって単独で又はAPIユニット965と組み合わせて制御されてもよい。入力ユニット970は、実装例で説明した計算のための入力を得るように構成されてもよく、出力ユニット975は、実装例で説明した計算に基づいて出力を与えるように構成されてもよい。
【0103】
プロセッサ910は、a)
図5bの612~613に示されたように、データレイク内で管理される構造化データ及び非構造化データから時系列特徴を生成し、b)
図5bの614に示されたように、時系列特徴に対して特徴選択プロセスを実行し、c)
図5bの615~616において複数のモデルを生成するために、複数の異なる種類のモデルにわたり、選択された時系列特徴に対する教師あり訓練を繰り返し実行し、d)
図5bの617~619に示されたように、配置のために複数のモデルから最良モデルを選択し、及びe)
図5bの619及び620に示されたように最良モデルが所定の基準を上回る間、a)~d)を継続的に繰り返すように構成され得る。かかる実装例により、複数のモデルを繰り返し生成することによるマルチモデル方法において、自己適応的でありながら、構造化及び非構造化データから解析モデルが自動で生成され得、それによりその解析モデルは問題のアクションタイプの任意の種類の傾向に適用され得る。これにより、モデルは、繰り返される自己適応、複数の機械学習モデルの利用及び過去の行動データにより、所望の実装形態に従いアクションの任意の種類の確率を出力し得る。
【0104】
プロセッサ910は、
図3、
図5d及び
図5eに示すように、構造化データ及び非構造化データのテキスト情報を数値表現に変換するように構成された潜在的意味解析を適用し、変換されたテキスト情報に対して最新性、頻度、及び収益化モデルを実行し、最新性の特徴、頻度の特徴、及び収益化の特徴を決定し、時間枠に従って最新性の特徴、頻度の特徴、及び収益化の特徴から時系列特徴を生成し、及びカテゴリ特徴を対象とした時系列特徴の1つに対する二値化を適用することにより、データレイク内で管理される構造化データ及び非構造化データから時系列特徴を生成するように構成され得る。
【0105】
所望の実装形態に応じて、複数の異なる種類のモデルは、
図5f及び
図5gに示されたように、ランダムフォレスト、論理回帰、サポートベクタマシン、決定木、又は教師あり機械学習モデルの1又は複数を含み得る。
【0106】
プロセッサ910は、
図5bに示されたように、データレイクによる新しい構造化データ又は非構造化データの受信のために、新しい構造化データ又は非構造化データを時系列特徴の生成に組み込み、且つ最良モデルが配置される間にa)~d)を再び繰り返すように構成され得る。
【0107】
プロセッサ910は、
図6、
図7a及び
図7bに示されたように、最良モデルの要素に関連付けるためのカスタマイズメッセージを取り込むように構成されるダッシュボードを提供するように構成され得、カスタマイズメッセージは、それらの要素を含む最良モデルの出力のための出力として提供される。
【0108】
プロセッサ910は、
図6に示すように、時系列特徴に対して主成分分析を実行して、時系列特徴を潜在空間に変換し、教師あり訓練を利用して、最良モデルに影響を与える潜在空間の係数を決定し、及び決定された係数を要素として提供するように構成され得る。
【0109】
プロセッサ910は、
図5cに示すように、時系列特徴として採用するために、構造化データ及び非構造化データ内で見つかる1又は複数の識別されたパターンから認識される1又は複数の関心変数に関連する1又は複数のデータセットを識別することにより、データレイク内で管理される構造化データ及び非構造化データから時系列特徴を生成し、欠損データを有する1又は複数のデータセットについて、補間プロセスを実行して、データセット内にデータを追加し、履歴データの閾値以内の精度を有する追加データのバックテストのために、時系列特徴として1又は複数の関心変数を採用するように構成され得る。
【0110】
プロセッサ910は、
図5eに示すように、1又は複数のデータセットに対して特徴変換を実行し、時系列特徴をグループ化することからインスタンスを形成し、特徴グループによってインスタンスを分割して時系列特徴を選択することによって、時系列特徴に対して特徴選択プロセスを実行するように構成され得る。
【0111】
プロセッサ910は、
図5(g)に示すように、選択された時系列特徴に基づいて、複数の教師あり訓練手順を生成するためにパラメータのグリッド検索を実行し、複数の教師ありトレーニング手順から複数の異なる種類のモデルを生成するために、パラメータのグリッド検索に対してランダムフォレスト訓練を実行することにより、複数のモデルを生成するために、複数の異なる種類のモデルにわたり、選択された時系列特徴に対する教師あり訓練を繰り返し実行するように構成され得る。
【0112】
詳細な説明の一部は、コンピュータ内の操作のアルゴリズム及び記号表現に関して提示された。これらのアルゴリズム的記述及び記号表現は、その革新の本質を他の当業者に伝えるためにデータ処理技術の当業者によって使用される手段である。アルゴリズムは、所望の終了状態又は結果をもたらす一連の定義されたステップである。一実装例では、実行されるステップは、具体的な結果を実現するために有形量の物理的操作を必要とする。
【0113】
別段の定めがない限り、解説から明らかなように、説明の全体を通して「処理」、「コンピューティング」、「演算」、「決定」、「表示」等の用語を利用する解説は、コンピュータシステムのレジスタ及びメモリ内で物理(電子)量として表されるデータを操作し、コンピュータシステムのメモリ若しくはレジスタ又は他の情報ストレージ、送信または表示デバイス内で物理量として同様に表される他のデータに変換するコンピュータシステム又は他の情報処理装置のアクション及びプロセスを含み得ることが理解されるであろう。
【0114】
実装例は、本明細書の操作を行うための装置にも関係してもよい。この装置は、所要の目的のために特別に構築してもよく、又は1又は複数のコンピュータプログラムによって選択的に活性化又は再構成される1又は複数の汎用コンピュータんでもよい。かかるコンピュータプログラムは、コンピュータ可読記憶媒体又はコンピュータ可読信号媒体等のコンピュータ可読媒体内に記憶されてもよい。コンピュータ可読記憶媒体は、限定されないが、光ディスク、磁気ディスク、リードオンリーメモリ、ランダムアクセスメモリ、ソリッドステートデバイス及びドライブ等の有形媒体又は電子情報を記憶するのに適した他の任意の種類の有形媒体若しくは非一時的媒体を含んでもよい。コンピュータ可読信号媒体は、搬送波等の媒体を含んでもよい。本明細書で提示したアルゴリズム及び表示は、特定のコンピュータ又は他の装置に固有に関係するものではない。コンピュータプログラムは、所望の実装形態の操作を実行する命令を含む純粋なソフトウェア実装を含み得る。
【0115】
様々な汎用システムは、本明細書の例に従うプログラム及びモジュールと共に使用されてもよく、又は所望の方法ステップを実行するためのより特化した装置を構築することが便利であることが証明されてもよい。加えて、実装例は、特定のプログラミング言語に関して説明していない。本明細書に記載した実装例の教示を実装するために、様々なプログラミング言語を使用できることが理解されるであろう。プログラミング言語の命令は、1又は複数の処理デバイス、例えば中央処理装置(CPU)、プロセッサ又はコントローラによって実行されてもよい。
【0116】
当技術分野で知られているように、上述した操作は、ハードウェア、ソフトウェア又はソフトウェアとハードウェアとの何らかの組み合わせによって行い得る。実装例の様々な態様は、回路及び論理装置(ハードウェア)を使用して実装されてもよいが、機械可読媒体上に記憶される命令(ソフトウェア)を使用して他の態様が実装されてもよく、かかる命令は、プロセッサによって実行される場合、本願の実装形態を実行するための方法をプロセッサに実行させる。更に、本願のいくつかの実装例は、ハードウェアのみで実行されてもよいが、他の実装例は、ソフトウェアのみで実行されてもよい。更に、記載した様々な機能は、単一のユニット内で実行され得、又は任意の数の方法で幾つかのコンポーネントに拡げ得る。ソフトウェアによって実行される場合、方法は、コンピュータ可読媒体上に記憶される命令に基づいて汎用コンピュータ等のプロセッサによって実行されてもよい。必要に応じて、命令は、圧縮形式及び/又は暗号化形式で媒体上に記憶され得る。
【0117】
更に、本明細書を検討し、且つ本願の教示を実践することにより、本願の他の実装形態が当業者に明らかになる。記載した実装例の様々な態様及び/又はコンポーネントは、単独で又は任意の組み合わせで使用してもよい。本明細書及び実装例は、単に例として考慮されることを意図し、本願の真の範囲及び趣旨は、添付の特許請求の範囲によって示される。