IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ サービスナウ, インコーポレーテッドの特許一覧

<>
  • 特表-機械学習特徴量推薦 図1
  • 特表-機械学習特徴量推薦 図2
  • 特表-機械学習特徴量推薦 図3
  • 特表-機械学習特徴量推薦 図4
  • 特表-機械学習特徴量推薦 図5
  • 特表-機械学習特徴量推薦 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-08-09
(54)【発明の名称】機械学習特徴量推薦
(51)【国際特許分類】
   G06N 20/00 20190101AFI20230802BHJP
【FI】
G06N20/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023502918
(86)(22)【出願日】2021-07-09
(85)【翻訳文提出日】2023-03-06
(86)【国際出願番号】 US2021041129
(87)【国際公開番号】W WO2022015594
(87)【国際公開日】2022-01-20
(31)【優先権主張番号】16/931,906
(32)【優先日】2020-07-17
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】515156946
【氏名又は名称】サービスナウ, インコーポレーテッド
【氏名又は名称原語表記】ServiceNow,Inc.
【住所又は居所原語表記】2225 Lawson Lane, Santa Clara, California 95054,U.S.A.
(74)【代理人】
【識別番号】110000028
【氏名又は名称】弁理士法人明成国際特許事務所
(72)【発明者】
【氏名】サルダ・ゴパル
(72)【発明者】
【氏名】ラマチャンドラン・スラヴァン
(72)【発明者】
【氏名】サブラマニアン・セガンラサン
(72)【発明者】
【氏名】ジャヤラマン・バスカー
(57)【要約】
機械学習予測のための所望のターゲットフィールドの指定と、機械学習訓練データを記憶する1つまたは複数のテーブルと、が受け取られる。1つまたは複数のテーブル内で、ターゲットフィールドについての予測を実行するための機械学習モデルを構築するための適格な機械学習特徴量が識別される。適格な機械学習特徴量は、適格な機械学習特徴量のうちで推薦される機械学習特徴量のセットを識別するために、適格な機械学習特徴量のうちの1つまたは複数を逐次的にフィルタ除去するための異なる評価のパイプラインを用いて評価される。推薦される機械学習特徴量のセットは、機械学習モデルを構築する際に使用するために提供される。
【選択図】図1
【特許請求の範囲】
【請求項1】
機械学習予測のための所望のターゲットフィールドの指定と、機械学習訓練データを記憶する1つまたは複数のテーブルと、を受け取り、
前記所望のターゲットフィールドについての予測を実行するための機械学習モデルを構築するために、前記1つまたは複数のテーブル内で、適格な機械学習特徴量を識別し、
前記適格な機械学習特徴量のなかで推薦される機械学習特徴量のセットを識別するために、前記適格な機械学習特徴量のうちの1つまたは複数を逐次的にフィルタ除去するための異なる評価のパイプラインを用いて、前記適格な機械学習特徴量を評価し、
前記機械学習モデルを構築する際に使用するために、前記推薦される機械学習特徴量のセットを提供すること、
を備える、方法。
【請求項2】
請求項1に記載の方法であって、さらに、
前記提供された推薦される機械学習特徴量のセットを用いて前記機械学習モデルを訓練し、
分類結果を決定するために前記訓練された機械学習モデルを適用し、
前記決定された分類結果に基づいてサーバ側アクションを実行すること、
を備える、方法。
【請求項3】
請求項2に記載の方法であって、前記決定された分類結果は、サポートインシデント事象のインシデント分類である、方法。
【請求項4】
請求項3に記載の方法であって、前記実行されるサーバ側アクションは、前記サポートインシデント事象の担当者を指定するための割当てアクションである、方法。
【請求項5】
請求項1に記載の方法であって、機械学習訓練データを記憶する前記1つまたは複数のテーブルは、履歴顧客データを含む、方法。
【請求項6】
請求項1に記載の方法であって、前記提供された推薦される機械学習特徴量のセットは、前記機械学習モデルの精度へのインパクトの評価に基づいてランク付けされる、方法。
【請求項7】
請求項1に記載の方法であって、さらに、前記推薦される機械学習特徴量のセットの各機械学習特徴量に関連づけられた異なるパフォーマンスメトリックを提供することを備える、方法。
【請求項8】
請求項7に記載の方法であって、前記パフォーマンスメトリックのうちの少なくとも1つは、前記機械学習モデルに関連づけられる適合率-再現率曲線下面積の増大した量に基づく、方法。
【請求項9】
請求項1に記載の方法であって、さらに、前記適格な機械学習特徴量から無用な特徴量のセットを識別することを備える、方法。
【請求項10】
請求項1に記載の方法であって、前記機械学習モデルを構築する際に使用するために、前記推薦される機械学習特徴量のセットを提供することは、前記推薦される機械学習特徴量のセットを表示するためのウェブサービスユーザインタフェースを提供することを含む、方法。
【請求項11】
請求項10に記載の方法であって、前記ウェブサービスユーザインタフェースは、前記機械学習モデルを訓練するために前記表示された推薦される機械学習特徴量のセットから1つまたは複数の特徴量をユーザが選択することを可能にする、方法。
【請求項12】
請求項1に記載の方法であって、さらに、
前記提供された推薦される機械学習特徴量のセットからの機械学習特徴量の選択を受け取り、
前記機械学習特徴量の選択を用いて前記機械学習モデルを訓練すること、
を備える、方法。
【請求項13】
請求項12に記載の方法であって、さらに、
機械学習訓練データを記憶する前記受け取られた1つまたは複数のテーブルからのデータのサブセットを用いて、前記機械学習モデルを訓練するための訓練データセットを準備することを備える、方法。
【請求項14】
請求項13に記載の方法であって、前記機械学習モデルを訓練するための前記訓練データセットを準備することは、前記機械学習特徴量の選択に属さない特徴量についてのデータを排除することを含む、方法。
【請求項15】
請求項1に記載の方法であって、前記所望のターゲットフィールドについての前記予測を実行するための前記機械学習モデルを構築するために、前記1つまたは複数のテーブル内で、前記適格な機械学習特徴量を識別することは、前記1つまたは複数のテーブルの各列に関連づけられたデータ型を決定することを含む、方法。
【請求項16】
請求項15に記載の方法であって、前記決定されるデータ型は、テキスト、ノミナル、または数値データ型である、方法。
【請求項17】
請求項1に記載の方法であって、前記異なる評価のパイプラインは、インパクトスコアを決定するための第1の評価ステップと、パフォーマンスメトリックを決定するための第2の評価ステップと、を含む、方法。
【請求項18】
請求項17に記載の方法であって、前記インパクトスコアは、前記適格な機械学習特徴量のうちの1つの加重情報利得スコアを決定することに基づき、前記パフォーマンスメトリックは、前記パフォーマンスメトリックを決定するために、オフラインで訓練されたモデルを前記インパクトスコアに適用することによって決定される、方法。
【請求項19】
プロセッサと、
前記プロセッサに結合されているメモリと、
を備えるシステムであって、前記メモリは、前記プロセッサに命令を提供するように構成され、前記命令は、実行されると、前記プロセッサに、
機械学習予測のための所望のターゲットフィールドの指定と、機械学習訓練データを記憶する1つまたは複数のテーブルからのデータと、を受け取らせ、
前記所望のターゲットフィールドについての予測を実行するための機械学習モデルを構築するために、前記1つまたは複数のテーブルからの前記データ内で、適格な機械学習特徴量を識別させ、
前記適格な機械学習特徴量のうちで推薦される機械学習特徴量のセットを識別するために、前記適格な機械学習特徴量のうちの1つまたは複数を逐次的にフィルタ除去するための異なる評価のパイプラインを用いて、前記適格な機械学習特徴量を評価させ、
前記機械学習モデルを構築する際に使用するために、前記推薦される機械学習特徴量のセットを提供させる、システム。
【請求項20】
非一時的コンピュータ可読媒体に具現化されるコンピュータプログラム製品であって、
機械学習予測のための所望のターゲットフィールドの指定と、機械学習訓練データを記憶する1つまたは複数のテーブルと、を受け取り、
前記所望のターゲットフィールドについての予測を実行するための機械学習モデルを構築するために、前記1つまたは複数のテーブル内で、適格な機械学習特徴量を識別し、
前記適格な機械学習特徴量のうちで推薦される機械学習特徴量のセットを識別するために、前記適格な機械学習特徴量のうちの1つまたは複数を逐次的にフィルタ除去するための異なる評価のパイプラインを用いて、前記適格な機械学習特徴量を評価し、
前記機械学習モデルを構築する際に使用するために、前記推薦される機械学習特徴量のセットを提供する、
ためのコンピュータ命令を備える、コンピュータプログラム製品。
【発明の詳細な説明】
【背景技術】
【0001】
機械学習を用いた自動分類の利用は、手動分類に比べると、手作業および誤りを著しく減らすことができる。自動分類を実行する1つの方法は、入力データに対するカテゴリを予測するために機械学習を使用することを含む。例えば、機械学習を用いて、入来するタスク、インシデント、およびケースが、自動的に類別され、割り当てられた当事者に転送され得る。一般に、機械学習を用いた自動分類は、過去の経験を含む訓練データを必要とする。訓練された後で、機械学習モデルは、分類結果を推論するために新規データに適用され得る。例えば、新規に報告されたインシデントは、自動的に分類され、割り当てられ、担当者に転送され得る。しかし、正確な機械学習モデルを作成することは、かなりの投資であり、一般に主題の専門知識を必要とする困難で時間のかかるタスクとなり得る。例えば、正確なモデルを生じる入力特徴量を選択することは、一般に、データセットと、特徴量が予測結果にどのように影響するかについてと、の深い理解を必要とする。
【図面の簡単な説明】
【0002】
本発明のさまざまな実施形態が、以下の詳細な説明および添付の図面に開示される。
【0003】
図1】機械学習モデルを作成および利用するためのネットワーク環境の一例を示すブロック図である。
【0004】
図2】機械学習解を作成するためのプロセスの一実施形態を示すフローチャートである。
【0005】
図3】機械学習モデルに対する推薦される特徴量を自動的に識別するためのプロセスの一実施形態を示すフローチャートである。
【0006】
図4】機械学習モデルに対する推薦される特徴量を自動的に識別するためのプロセスの一実施形態を示すフローチャートである。
【0007】
図5】機械学習モデルに対する推薦される特徴量を自動的に識別するための評価プロセスの一実施形態を示すフローチャートである。
【0008】
図6】特徴量のパフォーマンスメトリックを決定するためのオフラインモデルを作成するためのプロセスの一実施形態を示すフローチャートである。
【発明を実施するための形態】
【0009】
本発明は、多くの態様で実施することができ、それらの態様は、プロセス、装置、システム、組成物、コンピュータ可読記憶媒体上に具現化されたコンピュータプログラム製品、および/またはプロセッサ、を含み、プロセッサは、プロセッサに結合されているメモリ上に記憶された、および/またはメモリによって提供される、命令を実行するように構成されたプロセッサなどである。本明細書において、これらの実施態様、または本発明がとり得る任意の他の形態は、技術と呼ばれ得る。一般的に、開示されるプロセスのステップの順序は、本発明の範囲内で変更され得る。別段述べられていない限り、タスクを実行するように構成されると記載されるプロセッサまたはメモリなどのコンポーネントは、所与の時刻にそのタスクを実行するように一時的に構成された汎用コンポーネントとして、またはそのタスクを実行するために製造された特定のコンポーネントとして、実施され得る。本明細書で使用される場合、「プロセッサ」という用語は、コンピュータプログラム命令などのデータを処理するように構成された1つまたは複数のデバイス、回路、および/または処理コアを指す。
【0010】
本発明の1つまたは複数の実施形態の詳細な説明が、本発明の原理を例示する添付図面とともに以下に提供される。本発明は、このような実施形態に関して説明されるが、本発明は、いかなる実施形態にも限定されない。本発明の範囲は、特許請求の範囲によってのみ限定され、本発明は、多くの代替例、変形例および均等物を包含する。多くの具体的詳細が、本発明の十分な理解を提供するために以下の説明に記載される。これらの詳細は、例示の目的のために提供され、本発明は、これらの具体的詳細の一部または全部なしに、特許請求の範囲に従って実施され得る。明確にする目的のために、本発明に関する技術分野で既知の技術資料は、本発明が不必要にわかりにくくならないように、詳細には記載されていない。
【0011】
機械学習特徴量を選択するための技術が開示される。機械学習モデルを構築する際に、特徴量選択は、モデルの精度および有用性に重大な影響を及ぼし得る。しかし、主題の専門知識および機械学習問題の深い理解なしにモデルの精度を改善する特徴量を適切に選択することは、難題であり得る。開示される技術を用いて、機械学習モデルの予測精度における顕著な改善を生じる機械学習特徴量が、自動的に推薦および選択され得る。さらに、主題の専門知識は、ほとんどまたは全く不要である。例えば、入力データセットの最小限の理解を有するユーザが、分類結果を正確に予測し得る機械学習モデルを成功裏に生成し得る。いくつかの実施形態では、ユーザは、ソフトウェア・アズ・ア・サービスのウェブアプリケーションなどのソフトウェアサービスを介して、機械学習プラットフォームを利用することができる。ユーザは、例えば、1つまたは複数のデータベーステーブルを識別して、入力データセットを機械学習プラットフォームに提供する。提供されるデータセットは、複数の適格な特徴量を含む。適格な特徴量は、機械学習結果を正確に予測する際に有用な特徴量と、機械学習結果を正確に予測することに対して無用であるか、または影響が小さい特徴量と、を含み得る。有用な特徴量を正確に識別することは、高度に正確なモデルを生じ、リソースの使用量およびパフォーマンスを改善し得る。例えば、無用な特徴量を用いてモデルを訓練することは、無用な特徴量を正確に識別し無視することによって回避され得る顕著なリソース流出となり得る。さまざまな実施形態では、ユーザは、予測するための所望のターゲットフィールドを指定し、開示される技術を用いた機械学習プラットフォームは、機械学習モデルを構築する際に使用するための提供された入力データセットから、推薦される機械学習特徴量のセットを生成することができる。いくつかの実施形態では、推薦される機械学習特徴量は、無用な特徴量をフィルタリングし、役に立つ特徴量を識別するために、適格な特徴量に一連の評価を適用することによって決定される。推薦される特徴量のセットが決定された後、それはユーザに提示され得る。例えば、いくつかの実施形態では、特徴量は、予測結果に対する改善の順序でランク付けされる。いくつかの実施形態では、機械学習モデルは、推薦される特徴量に基づいてユーザによって選択される特徴量を用いて訓練される。例えば、モデルは、自動的に識別され、予測結果に対する改善の順序でランク付けされた推薦される特徴量を用いて自動的に訓練され得る。
【0012】
いくつかの実施形態では、機械学習予測のための所望のターゲットフィールドの指定と、機械学習訓練データを記憶する1つまたは複数のテーブルと、が受け取られる。例えば、ソフトウェア・アズ・ア・サービスのプラットフォームの顧客が、1つまたは複数の顧客データベーステーブルを指定する。テーブルは、分類された入来するタスク、インシデント、およびケースなどの過去の経験からのデータを含み得る。例えば、分類は、タスク、インシデント、またはケースの型を類別することと、問題を解決する適切な担当者を割り当てることを含み得る。いくつかの実施形態では、機械学習データは、データベース以外の他の適切なデータ構造体に記憶される。さまざまな実施形態では、所望のターゲットフィールドは、分類結果であり、これは、受け取られるテーブルのうちの1つにおける列であり得る。受け取られるデータベーステーブルのデータは、必ずしも訓練データとして準備されていないため、データは、分類結果を予測するために有用および無用の両方のフィールドを含み得る。いくつかの実施形態では、所望のターゲットフィールドに対する予測を実行するための機械学習モデルを構築するための適格な機械学習特徴量が、1つまたは複数のテーブル内で識別される。例えば、データベースデータから、フィールドが、機械学習モデルを訓練するための可能な、または適格な特徴量として識別される。いくつかの実施形態では、適格な特徴量は、テーブルの列に基づく。適格な機械学習特徴量は、異なる評価のパイプラインを用いて評価されて、適格な機械学習特徴量のうちの1つまたは複数を逐次的にフィルタ除去し、適格な機械学習特徴量のうちで推薦される機械学習特徴量のセットを識別する。適格な特徴量から特徴量を逐次的にフィルタ除去することによって、モデル予測精度に対する影響の少ない特徴量が選別される。残っている特徴量が、予測価値を有する推薦される特徴量である。フィルタリングパイプラインの各ステップは、役に立たない追加的な特徴量(および役に立ち得る特徴量)を識別する。例えば、いくつかの実施形態では、1つのフィルタリングステップは、特徴量データが不要または範囲外であるような特徴量を除去する。それぞれのデータベーステーブル内で疎に登録された特徴量、または特徴量のすべての値が同一である(例えば、定数である)特徴量は、フィルタ除去され得る。いくつかの実施形態では、非ノミナル列はフィルタ除去される。いくつかの実施形態では、フィルタリングステップが、各適格な特徴量に対するインパクトスコアを計算する。インパクトスコアがある特定の閾値を下回る特徴量は、推薦から除去され得る。いくつかの実施形態では、パフォーマンスメトリックが、各適格な特徴量に対して評価される。例えば、特定の特徴量に関して、モデルの適合率-再現率曲線下面積(AUPRC)の増大が評価され得る。いくつかの実施形態では、機械学習問題の大きい断面に対する特徴量選択を評価することによってインパクトスコアをパフォーマンスメトリックに変換するために、モデルが、オフラインで訓練される。その後、モデルは、適格な特徴量をランク付けするために使用され得るパフォーマンスメトリックを決定するために、特定の顧客の機械学習問題に適用され得る。識別された後で、推薦される機械学習特徴量のセットは、機械学習モデルを構築する際に使用するために提供される。例えば、顧客は、推薦される特徴量から機械学習モデルを選択し、機械学習モデルが、提供されたデータおよび選択された特徴量を用いて訓練されるように要求することができる。その後、モデルは、所望のターゲットフィールドを予測するために、顧客のワークフローに組み込まれ得る。例えば、データセットおよび機械学習の両方における主題の専門知識がほとんどなくても、またはどのようであっても、特徴量は、ターゲットフィールドを推論するために使用され得る機械学習モデルに対して、自動的に推薦(および選択)され得る。
【0013】
図1は、機械学習モデルを作成および利用するためのネットワーク環境の一例を示すブロック図である。図示した例では、クライアント101、103、および105が、ネットワーク111を介してサーバ121上のサービスにアクセスする。サービスは、機械学習を利用する予測サービスを含む。例えば、サービスは、推薦される特徴量を用いて機械学習モデルを生成する能力と、分類結果などの結果を予測するために生成されたモデルを適用するためのサービスと、の両方を含み得る。ネットワーク111は、パブリックまたはプライベートネットワークであり得る。いくつかの実施形態では、ネットワーク111は、インターネットなどのパブリックネットワークである。さまざまな実施形態では、クライアント101、103、および105は、サーバ121によって提供されるサービスにアクセスするためのウェブブラウザなどのネットワーククライアントである。いくつかの実施形態では、サーバ121は、機械学習プラットフォームを利用するためのウェブアプリケーションを含むサービスを提供する。サーバ121は、機械学習モデルを訓練するための推薦される特徴量を識別するためのサーバを含む1つまたは複数のサーバであり得る。サーバ121は、ある特定のサービスを提供するための、および/またはユーザに関連付けられているデータを記憶するための、データベース123を利用し得る。例えば、データベース123は、顧客サービスを提供し顧客データを記憶するための、サーバ121によって使用される構成管理データベース(CMDB)であり得る。いくつかの実施形態では、データベース123は、タスク、インシデント、およびケースなどに関する顧客データを記憶する。データベース123はまた、機械学習モデルを訓練するための特徴量選択に関する情報を記憶するために使用され得る。いくつかの実施形態では、データベース123は、関係するハードウェアおよび/またはソフトウェア構成などの管理資産に関する顧客構成情報を記憶することができる。
【0014】
いくつかの実施形態では、クライアント101、103、および105の各々が、顧客機械学習モデルを作成するためにサーバ121にアクセスすることができる。例えば、クライアント101、103、および105は、結果を予測するために適用され得る機械学習モデルを作成することを各々希望する1つまたは複数の異なる顧客を表し得る。いくつかの実施形態では、サーバ121は、クライアント101、103、および105などのクライアントに、機械学習モデルを訓練するための特徴量選択を選択および/または確認するための対話型ツールを供給する。例えば、ソフトウェア・アズ・ア・サービスのプラットフォームの顧客が、クライアント101、103、および105などのクライアントを介して、訓練データとしてサーバ121に顧客データなどの関連する訓練データを提供する。提供された顧客データは、データベース123の1つまたは複数のテーブルに記憶されたデータであり得る。提供された訓練データとともに、顧客は、提供されたテーブルのテーブル列のうちの1つなどの所望のターゲットフィールドを選択する。提供されたデータおよび所望のターゲットフィールドを用いて、サーバ121は、高度の精度で、所望のターゲットフィールドを予測する特徴量のセットを推薦する。顧客は、機械学習モデルを訓練するための元となる推薦される特徴量のサブセットを選択することができる。いくつかの実施形態では、モデルは、提供された顧客データを用いて訓練される。いくつかの実施形態では、特徴量選択プロセスの一部として、顧客には、各推薦される特徴量のパフォーマンスメトリックが提供される。パフォーマンスメトリックは、特定の特徴量がモデルの予測精度をどのくらい改善するかに関する定量化された値を顧客に提供する。いくつかの実施形態では、推薦される特徴量は、予測精度に対するインパクトに基づいてランク付けされる。
【0015】
いくつかの実施形態では、訓練された機械学習モデルは、所望のターゲットフィールドを推論するためのアプリケーションに組み込まれる。例えば、アプリケーションは、サポートインシデント事象の入来する報告を受け取り、インシデントに対するカテゴリを予測し、および/または報告されたインシデント事象を担当者に割り当てることができる。サポートインシデントアプリケーションは、サーバ121によってホストされ、クライアント101、103、および105などのクライアントによってアクセスされ得る。いくつかの実施形態では、クライアント101、103、および105の各々は、ラップトップ、デスクトップ、モバイルデバイス、タブレット、キオスク、スマートテレビなどを含む多くの異なるコンピューティングデバイスのうちの1つの上で動作するネットワーククライアントであり得る。
【0016】
図を簡略化するために、いくつかのコンポーネントの単一のインスタンスが図示されているが、図1に示される任意のコンポーネントの追加的なインスタンスが存在し得る。例えば、サーバ121は、1つまたは複数のサーバを含み得る。サーバ121のうちのいくつかのサーバは、ウェブアプリケーションサーバ、訓練サーバ、および/または干渉サーバであり得る。図1に示されるように、サーバは、単一のサーバ121として簡略化されている。同様に、データベース123は、サーバ121に直接接続されていなくてもよく、複数のデータベースであってもよく、および/または複数のコンポーネントにわたって複製または分散されていてもよい。例えば、データベース123は、各顧客に対して1つまたは複数の異なるサーバを含み得る。他の例として、クライアント101、103、および105は、サーバ121にとっての可能なクライアントのほんの少数の例である。より少数または多数のクライアントが、サーバ121に接続することができる。いくつかの実施形態では、図1に示されないコンポーネントもまた存在し得る。
【0017】
図2は、機械学習解を作成するためのプロセスの一実施形態を示すフローチャートである。例えば、図2のプロセスを用いて、ユーザは、問題に対する機械学習解を要求することができる。ユーザは、予測のための所望のターゲットフィールドを識別し、訓練データとして使用され得るデータへの参照を提供することができる。提供されたデータは分析され、入力特徴量が、機械学習モデルを訓練するために推薦される。推薦される特徴量はユーザに提供され、機械学習モデルは、ユーザによって選択された特徴量に基づいて訓練され得る。訓練されたモデルは、ユーザの所望のターゲットフィールドを予測するために、機械学習解に組み込まれる。いくつかの実施形態では、機械学習解を作成するための機械学習プラットフォームは、ソフトウェア・アズ・ア・サービスのウェブアプリケーションとしてホストされる。いくつかの実施形態では、ユーザは、図1のクライアント101、103、および/または105などのクライアントを介して解を要求する。いくつかの実施形態では、作成された機械学習解を含む機械学習プラットフォームは、図1のサーバ121上にホストされる。
【0018】
201において、機械学習解が要求される。例えば、顧客は、機械学習解を用いて、入来するサポートインシデント事象報告に対する担当者を自動的に予測したい場合がある。いくつかの実施形態では、ユーザは、ウェブアプリケーションを介して機械学習解を要求する。解を要求する際に、ユーザは、ユーザが予測してもらいたいターゲットフィールドを指定し、関係する訓練データを提供することができる。いくつかの実施形態では、提供される訓練データは、履歴顧客データである。顧客データは、顧客データベースに記憶され得る。いくつかの実施形態では、ユーザは、訓練データとして1つまたは複数のデータベーステーブルを提供する。データベーステーブルはまた、所望のターゲットフィールドを含み得る。いくつかの実施形態では、ユーザは、複数のターゲットフィールドを指定する。複数のフィールドに対する予測が望ましい場合、ユーザは、複数のフィールドをまとめて指定し、および/または複数の異なる機械学習解を要求することができる。いくつかの実施形態では、ユーザはまた、とりわけ、処理言語、ストップワード、提供されたデータに対するフィルタ、ならびに所望のモデルの名称および説明などの機械学習解の他のプロパティを指定する。
【0019】
203において、推薦される入力特徴量が決定される。例えば、要求された機械学習解に基づく適格な機械学習特徴量のセットが決定される。適格な特徴量から、推薦される特徴量のセットが識別される。いくつかの実施形態では、推薦される特徴量は、異なる評価のパイプラインを用いて適格な機械学習特徴量を評価することによって識別される。パイプラインの各段で、適格な機械学習特徴量のうちの1つまたは複数が、逐次的にフィルタ除去され得る。パイプラインの終端で、推薦される特徴量のセットが識別される。いくつかの実施形態では、推薦される特徴量の識別は、インパクトスコアまたはパフォーマンスメトリックなどの、特徴量に関連付けられている1つまたは複数のメトリックを決定することを含む。例えば、オフラインで訓練されたモデルは、特徴量を用いて訓練されたモデルの適合率-再現率曲線下面積(AUPRC)をどのくらい増大させるかを定量化するパフォーマンスメトリックを決定するために、各特徴量に適用され得る。いくつかの実施形態では、特徴量が訓練時の使用のために推薦されるかどうかを決定するために、適切な閾値が、各メトリックについて利用され得る。
【0020】
いくつかの実施形態では、適格な機械学習特徴量は、ユーザによって提供された入力データに基づく。例えば、いくつかの実施形態では、ユーザは、訓練データとして1つまたは複数のデータベーステーブルまたは他の適切なデータ構造体を提供する。データベーステーブルが提供される場合、適格な機械学習特徴量は、テーブルの列に基づき得る。いくつかの実施形態では、各列のデータ型が決定され、ノミナルデータ型を有する列が、適格な特徴量として識別される。いくつかの実施形態では、特定の列からのデータは、その列データが予測に役立つ可能性が低い場合に、排除され得る。例えば、データがどのくらい疎に登録されているか、ストップワードの出現、列に対する異なる値の相対分布などに基づいて、列は除去され得る。
【0021】
205において、特徴量が、推薦される入力特徴量に基づいて選択される。例えば、対話型ユーザインタフェースを用いて、機械学習モデルを構築する際に使用するための推薦される機械学習特徴量のセットが、ユーザに提示される。いくつかの実施形態では、例示的なユーザインタフェースは、ウェブアプリケーションまたはウェブサービスとして実装される。ユーザは、機械学習モデルを訓練するために使用するための特徴量のセットを決定するために、表示された推薦される特徴量から選択することができる。いくつかの実施形態では、203で決定された推薦される入力特徴量は、訓練のためのデフォルト特徴量として自動的に選択される。推薦される入力特徴量を選択するために、ユーザ入力は、不要であり得る。いくつかの実施形態では、推薦される入力特徴量は、各々がモデルの予測精度にどのように影響するかに基づいて、ランク付けされた順序で提示され得る。例えば、最も関連性のある入力特徴量が最初にランク付けされる。さまざまな実施形態では、推薦される特徴量は、インパクトスコアおよび/またはパフォーマンスメトリックとともに表示される。例えば、インパクトスコアは、特徴量がモデル精度に対してどのくらいのインパクトを有するかを測定することができる。パフォーマンスメトリックは、特徴量が訓練のために使用される場合にモデルがどのくらい改善するかを定量化することができる。例えば、いくつかの実施形態では、表示されるパフォーマンスメトリックは、特徴量を使用したときの機械学習モデルの適合率-再現率曲線下面積(AUPRC)の増大量に基づく。他のパフォーマンスメトリックが、適宜使用され得る。異なる特徴量をランク付けし定量化することによって、主題の専門知識がほとんどまたは全くないユーザが、高度に正確なモデルを訓練するために適切な入力特徴量を容易に選択することができる。
【0022】
207において、機械学習モデルが、選択された特徴量を用いて訓練される。例えば、205で選択された特徴量を用いて、訓練データセットが、機械学習モデルを訓練するために準備および使用される。モデルは、201で指定された所望のターゲットフィールドを予測する。いくつかの実施形態では、訓練データは、201で受け取られた顧客データに基づく。顧客データからは、205で選択されていない特徴量に対応するテーブル列からのデータなどの、訓練のために有用でないデータが除去される。例えば、予測の精度にほとんどまたは全くインパクトがないと識別される特徴量に関連付けられている列に対応するデータは、機械学習モデルを訓練するために使用されるデータセットから排除される。
【0023】
209において、機械学習解がホストされる。例えば、アプリケーションサーバおよび機械学習プラットフォームは、訓練された機械学習モデルを入力データに適用するためのサービスをホストする。例えば、ウェブサービスは、入来するインシデント報告を自動的に類別するために、訓練されたモデルを適用する。類別は、インシデントの型および担当者を識別することを含み得る。類別された後、ホストされた解は、予測される担当者にインシデントを割り当て、転送することができる。いくつかの実施形態では、ホストされたアプリケーションは、ソフトウェア・アズ・ア・サービスのプラットフォームの顧客のための顧客機械学習解である。いくつかの実施形態では、解は、図1のサーバ121上にホストされる。
【0024】
図3は、機械学習モデルに対する推薦される特徴量を自動的に識別するためのプロセスの一実施形態を示すフローチャートである。図3のプロセスを用いて、ユーザは、可能な訓練データから識別された推薦される特徴量を利用することによって、機械学習モデルの作成を自動化することができる。ユーザは、所望のターゲットフィールドを指定し、可能な訓練データを供給する。機械学習プラットフォームは、所望のターゲットフィールドを予測するために、供給されたデータから機械学習モデルを作成するための推薦されるフィールドを識別する。いくつかの実施形態では、図3のプロセスは、図2の201で実行される。いくつかの実施形態では、図3のプロセスは、図1のサーバ121における機械学習プラットフォーム上で実行される。
【0025】
301において、モデル作成が開始される。例えば、顧客が、ウェブサービスアプリケーションを介して、機械学習モデルの作成を開始する。いくつかの実施形態では、顧客は、自動化されたワークフローを作成するためのソフトウェア・アズ・ア・サービスのプラットフォームを介してモデル作成ウェブページにアクセスすることによって、モデル作成を開始する。サービスは、結果を予測するための訓練されたモデルをユーザが組み込むことを可能にする、より大きな機械学習プラットフォームの一部であり得る。いくつかの実施形態では、予測される結果は、訓練されたモデルを用いて適切な当事者が自動的に予測されると、割り当てられた当事者にインシデント報告を転送するなど、ワークフロープロセスを自動化するために使用され得る。
【0026】
303において、訓練データが識別される。例えば、ユーザが、データを可能な訓練データとして指定する。いくつかの実施形態では、ユーザは、可能な訓練データを記憶する顧客データベースまたは他の適切なデータ構造体からの1つまたは複数のデータベーステーブルを指示する。データは、履歴顧客データであり得る。例えば、履歴顧客データは、1つまたは複数のデータベーステーブルに記憶された、入来したインシデント報告およびそれらの割り当てられた担当者を含み得る。いくつかの実施形態では、識別される訓練データは、多数の可能な入力特徴量を含み、高品質の訓練データとして適当に準備されていない可能性がある。例えば、データの特定の列は、疎に登録されているか、または同じ定数値のみを含む場合がある。他の例として、列のデータ型が、不適当に構成されている場合がある。例えば、ノミナルまたは数値データ値が、識別されたデータベーステーブル内にテキストとして記憶されている場合がある。さまざまな実施形態では、識別される訓練データは、訓練データとして効率的に使用され得る前に整備される必要がある。例えば、モデル予測精度に対してほとんどまたは全くインパクトがない1つまたは複数の列からのデータが、除去される。
【0027】
305において、所望のターゲットフィールドが選択される。例えば、ユーザが、機械学習予測のための所望のターゲットフィールドを指定する。いくつかの実施形態では、ユーザは、303で識別されたデータから列フィールドを選択する。例えば、ユーザは、入来するインシデント報告のカテゴリ型を予測するための機械学習モデルを作成したいというユーザの希望を表すために、インシデント報告に対するカテゴリ型を選択することができる。いくつかの実施形態では、ユーザは、303で提供された訓練データの可能な入力特徴量から選択することができる。いくつかの実施形態では、ユーザは、まとめて予測される複数の所望のターゲットフィールドを選択する。
【0028】
307において、モデル構成が完了する。例えば、ユーザは、モデルの名称および説明などの追加的な構成オプションを提供することができる。いくつかの実施形態では、ユーザは、オプションのストップワードを指定することができる。例えば、ストップワードは、訓練データを準備するために供給され得る。いくつかの実施形態では、ストップワードは、提供されたデータから除去される。いくつかの実施形態では、ユーザは、提供されたデータに対する処理言語および/または追加的なフィルタを指定することができる。例えば、指定された言語に対するストップワードが、デフォルトで追加され、または提案され得る。指定される追加的なフィルタに関して、条件フィルタが、303で識別された訓練データから、代表されるデータセットを作成するために適用され得る。いくつかの実施形態では、1つまたは複数の指定された条件フィルタを適用することによって、提供されたテーブルの行が、訓練データから除去され得る。例えば、テーブルが、「状態」列を含み、その可能な値は「新規」、「進行中」、「保留」、および「解決済み」であり得る。「状態」フィールドが値「解決済み」を有する行のみを訓練データとして利用するための条件が、指定され得る。他の例として、指定された日付または時間フレームの後に作成された行のみを訓練データとして利用するための条件が、指定され得る。
【0029】
図4は、機械学習モデルに対する推薦される特徴量を自動的に識別するためのプロセスの一実施形態を示すフローチャートである。例えば、図4の特徴量選択パイプラインを用いて、各可能な特徴量が、所望のターゲットフィールドを予測するための機械学習モデルにどのくらい影響するかを決定するために、データセットの適格な特徴量が、リアルタイムで評価され得る。さまざまな実施形態では、推薦される特徴量のセットが決定され、機械学習モデルを訓練するために選択され得る。推薦される特徴量は、所望のターゲットフィールドを予測する際のそれらの精度に基づいて選択される。例えば、無用な特徴量は推薦されない。いくつかの実施形態では、図4のプロセスは、図2の203で実行される。いくつかの実施形態では、図4のプロセスは、図1のサーバ121における機械学習プラットフォーム上で実行される。
【0030】
401において、データが、データベーステーブルから取得される。例えば、1つまたは複数の識別されたデータベーステーブルに記憶された可能な訓練データセットが、ユーザによって識別され、関連するデータが取得される。いくつかの実施形態では、データが取得される前(または後)に、条件フィルタが、関連するデータに適用される。例えば、条件フィルタに基づいて、データベーステーブルの特定の行のみが取得され得る。他の例として、ストップワードが、取得されたデータから除去される。いくつかの実施形態では、データは、識別されたテーブルから機械学習訓練サーバに取り出される。
【0031】
403において、列データ型が識別される。例えば、データの各列のデータ型が識別される。いくつかの実施形態では、データベーステーブル内で構成されている列データ型は、関連する特徴量を評価するために使用されるほど十分に具体的でない。例えば、ノミナル値は、データベーステーブル内のテキストまたはバイナリラージオブジェクト(BLOB)値として記憶され得る。他の例として、数値または日付型は、テキスト(または文字列)データ型としても記憶され得る。さまざまな実施形態では、403において、列データ型は、ユーザの介入なしに自動的に識別される。
【0032】
いくつかの実施形態では、データ型は、まず、列のすべての異なる値をスキャンし、スキャンされた結果を分析することによって、識別される。列のプロパティは、列の値の有効なデータ型を決定するために利用され得る。例えば、テキストデータは、少なくとも部分的に列フィールド内のスペース数およびテキスト長変動量によって識別され得る。他の例として、列フィールドに記憶された実際の値に変動がほとんどまたは全くない場合、列データ型は、ノミナルデータ型であると決定され得る。例えば、5個の離散値を有するが文字列値として記憶された値を有する列は、ノミナル型として識別され得る。いくつかの実施形態では、値の型の分布が、データ型を識別する際の要因として使用される。例えば、列内の値のうちの高い割合が数値である場合、その列は、数値データ型として分類され得る。
【0033】
405において、前処理が、データ列に対して実行される。いくつかの実施形態では、前処理ルールのセットが、無用な列を除去するために適用される。例えば、疎に登録されたフィールドを有する列が除去される。いくつかの実施形態では、列が疎に登録され除去のための候補であるかどうかを決定するために、閾値が利用される。例えば、いくつかの実施形態では、20%の閾値が使用される。20%未満のデータが登録されている列は、不要な列であり、除去され得る。他の例として、すべての値が定数である列は除去される。いくつかの実施形態では、1つの値が他の値よりも優勢である列は、例えば、優勢な値が、80%(または他の閾値量)よりも多くのレコードに現れる場合に、除去される。あらゆる値が一意であるか、またはIDである列もまた、除去され得る。いくつかの実施形態では、非ノミナル列が除去される。例えば、バイナリデータまたはテキスト文字列を有する列が、除去され得る。さまざまな実施形態では、前処理ステップは、推薦される入力特徴量としての考慮からすべての適格な特徴量のサブセットのみを削除する。
【0034】
407において、適格な機械学習特徴量が評価される。例えば、適格な機械学習特徴量は、正確な機械学習モデルを訓練することに対するインパクトについて評価される。いくつかの実施形態では、適格な機械学習特徴量は、所望のターゲット値を予測する際の有用性によって特徴量を逐次的にフィルタ除去するために、評価パイプラインを用いて評価される。例えば、いくつかの実施形態では、第1の評価ステップは、列が分類モデルにもたらす区別を識別するために、reliefスコアなどのインパクトスコアを決定することができる。reliefスコアが閾値を下回る列は、推薦から除去され得る。他の例として、いくつかの実施形態では、第2の評価ステップは、列に対する情報利得または加重情報利得などのインパクトスコアを決定することができる。選択された特徴量および所望のターゲットフィールドを用いて、インパクトスコアは、特徴量を考慮する際の情報エントロピーの変化を使用することによる特徴量の改善を比較することによって決定され得る。情報利得または加重情報利得スコアが閾値を下回る列は、推薦から除去され得る。いくつかの実施形態では、第3の評価セットは、各特徴量に対するパフォーマンスメトリックを決定することができる。例えば、情報利得または加重情報利得スコアなどのインパクトスコアを、モデルに対する適合率-再現率曲線下面積(AUPRC)への増大に基づくものなどのパフォーマンスメトリックに変換するために、モデルがオフラインで作成される。さまざまな実施形態では、訓練されたモデルは、各残った適格な特徴量に対するAUPRCベースのパフォーマンスメトリックを決定するために、インパクトスコアに適用される。決定されたパフォーマンスメトリックを用いて、パフォーマンスメトリックが閾値を下回る列が、推薦から除去され得る。3つの評価ステップが上記で説明されているが、推薦される特徴量のセットに対する所望の結果に基づいて、より少ない、または追加的なステップが、適宜利用され得る。例えば、1つまたは複数の異なる評価技術が、適格な特徴量の数をさらに低減するために、説明された評価ステップに加えて、またはそれらを置き換えるために、適用され得る。
【0035】
さまざまな実施形態では、逐次的な評価ステップを適用することによって、機械学習モデルを構築するための推薦される機械学習特徴量のセットが、識別される。いくつかの実施形態では、逐次的な評価ステップは、どの特徴量が正確なモデルを生じるかを決定するために必要である。いずれか1つの評価ステップのみでは、不十分であり、訓練にとって不良な特徴量を推薦のために不正確に識別する可能性がある。例えば、特徴量は、高いreliefスコアを有するが、低い加重情報利得スコアを有する場合がある。低い加重情報利得スコアは、その特徴量が訓練のために使用されるべきでないことを示す。いくつかの実施形態では、キーまたは類似の識別子列は、予測価値がほとんどないので、訓練にとって不良な特徴量である。その列は、評価ステップのうちの1つの下で評価されるときには高いインパクトスコアを有し得るが、後続する評価ステップによって、推薦されることからフィルタリングされる。
【0036】
409において、推薦される特徴量が提供される。例えば、残った特徴量が、入力特徴量として推薦される。いくつかの実施形態では、推薦される特徴量のセットは、ウェブアプリケーションのグラフィカルユーザインタフェースを介してユーザに提供される。推薦される特徴量には、特徴量の各々がモデル精度に対してどのくらいインパクトを有するかに関する定量化されたメトリックが提供され得る。いくつかの実施形態では、特徴量は、ランク付けされた順序で提供され、ユーザが、機械学習モデルを訓練するために最もインパクトの高い特徴量を選択することを可能にする。
【0037】
いくつかの実施形態では、無用な特徴量もまた、推薦される特徴量とともに提供される。例えば、ユーザには、無用、またはモデル精度に対してあまりインパクトがないと識別された特徴量のセットが提供される。この情報は、ユーザが、機械学習問題および解のより良好な理解を得るために役に立ち得る。
【0038】
図5は、機械学習モデルに対する推薦される特徴量を自動的に識別するための評価プロセスの一実施形態を示すフローチャートである。いくつかの実施形態では、評価プロセスは、推薦される機械学習特徴量のセットを識別するために、適格な機械学習特徴量から特徴量を逐次的にフィルタ除去するための多段プロセスである。プロセスは、適格な機械学習特徴量が識別される可能な訓練データとして提供されるデータを利用し、リアルタイムで実行され得る。図5に関して特定の評価ステップを用いて説明されるが、評価プロセスの代替的実施形態は、より少ない、またはより多い評価ステップを利用することができ、異なる評価技術を組み込み得る。いくつかの実施形態では、図5のプロセスは、図2の203において、および/または図4の407において、実行される。いくつかの実施形態では、図5のプロセスは、図1のサーバ121における機械学習プラットフォーム上で実行される。
【0039】
501において、特徴量が、決定されたreliefスコアを用いて評価される。さまざまな実施形態では、reliefベースの技術を用いたインパクトスコアが、501で決定され、推薦される機械学習特徴量のセットを識別するために、1つまたは複数の適格な機械学習特徴量をフィルタリングするために使用される。例えば、各特徴量に対するreliefスコアに基づくインパクトスコアが、決定される。reliefスコアが閾値を下回る列は、推薦から除去され得る。いくつかの実施形態では、reliefスコアは、異なる分類結果を差別化する際に列が有するインパクトに対応する。さまざまな実施形態では、各特徴量について、複数の隣接する行が選択される。行は、現在評価されている列に対する値を除いて、類似の値(または数学的に近い、もしくは近接する値)を有することに基づいて選択される。例えば、3つの列A、BおよびCを有するテーブルに対して、列Aは、対応する列BおよびCに対する類似の値を有する行を選択することによって評価される(すなわち、列Bに対する値は、すべての選択された行について類似し、列Cに対する値は、すべての選択された行について類似している)。このインパクトスコアは、所望のターゲットフィールドに列Aがどのくらい影響するかを決定するために、選択された行を利用する。例では、ターゲットフィールドは、列BまたはCの一方に対応し得る。選択された隣接する行を用いて、インパクトまたはreliefスコアが、各適格な特徴量について計算される。スコアは、正規化され、閾値と比較され得る。reliefスコアが閾値を下回る特徴量は、無用な列として識別され、推薦される入力特徴量としてのさらなる考慮から排除され得る。reliefスコアが閾値を満たす特徴量は、503において、推薦される入力特徴量としての考慮のためにさらに評価される。いくつかの実施形態では、適格な特徴量は、決定されたreliefスコアによってランク付けされ、特徴量は、その特徴量が十分上位にランク付けされない場合に、推薦される入力特徴量としての考慮から除去され得る。例えば、いくつかの実施形態では、ランク付けに基づく最大数の特徴量(適格な特徴量のうちの上位10個または上位10%など)が、503におけるさらなる評価のために保持される。
【0040】
503において、特徴量は、加重情報スコアを用いて評価される。さまざまな実施形態では、情報利得技術を用いたインパクトスコアが、503で決定され、推薦される機械学習特徴量のセットを識別するために、1つまたは複数の適格な機械学習特徴量をフィルタリングするために使用される。例えば、各特徴量に対する加重情報利得スコアに基づくインパクトスコアが決定される。加重情報利得スコアが閾値を下回る列は、推薦から除去され得る。いくつかの実施形態では、特徴量の加重情報利得スコアは、特徴量の値が既知であるときの情報エントロピーの変化に対応する。加重情報利得スコアは、情報利得メトリックであり、特徴量に対する異なる既知の値のターゲット分布によって重み付けされている。いくつかの実施形態では、重みは、所与のターゲット値の頻度に比例する。いくつかの実施形態では、非加重情報スコアが、代替的なインパクトスコアとして使用され得る。
【0041】
さまざまな実施形態では、適格な特徴量は、決定された加重情報利得スコアによってランク付けされ、特徴量は、その特徴量が十分上位にランク付けされない場合に、推薦される入力特徴量としての考慮から除去され得る。例えば、いくつかの実施形態では、ランク付けに基づく最大数の特徴量(適格な特徴量のうちの上位10個または上位10%など)が、505におけるさらなる評価のために保持される。
【0042】
505において、パフォーマンスメトリックが、特徴量に対して決定される。さまざまな実施形態では、パフォーマンスメトリックが、503で決定された特徴量の対応するインパクトスコアを用いて、残った適格な特徴量の各々について決定される。パフォーマンスメトリックは、推薦される機械学習特徴量のセットを識別するために、1つまたは複数の適格な機械学習特徴量をフィルタリングするために使用される。例えば、加重情報利得スコア(または、いくつかの実施形態の場合、非加重情報利得スコア)は、例えば、オフラインで作成されたモデルを適用することによって、パフォーマンスメトリックに変換される。いくつかの実施形態では、モデルは、加重情報利得スコアの関数として適合率-再現率曲線下面積(AUPRC)の増大を予測するための回帰モデルおよび/または訓練された機械学習モデルである。さまざまな実施形態では、オフラインモデルは、評価されている特徴量を利用するときのモデルに対するAUPRCベースのパフォーマンスメトリックなどのパフォーマンスメトリックを推論するために、ステップ503からのインパクトスコアに適用される。残った適格な特徴量の各々について決定されたAUPRCベースのパフォーマンスメトリックは、残った特徴量をランク付けし、特定の閾値を満たさない、または特定の閾値範囲内に入らない特徴量をフィルタ除去するために使用され得る。いくつかの実施形態では、適格な特徴量は、決定されたAUPRCベースのパフォーマンスメトリックによってランク付けされ、特徴量は、その特徴量が十分上位にランク付けされない場合に、推薦される入力特徴量としての考慮から除去され得る。例えば、いくつかの実施形態では、ランク付けに基づく最大数の特徴量(適格な特徴量のうちの上位10個または上位10%など)が、507における後処理のために保持される。
【0043】
いくつかの実施形態では、AUPRCベースのパフォーマンスメトリックなどのパフォーマンスメトリックの正確な決定は、時間がかかり、リソース集約的であり得る。加重情報利得スコアからパフォーマンスメトリックを決定するために(変換モデルなどの)オフラインで準備されたモデルを利用することによって、パフォーマンスメトリックは、リアルタイムで決定され得る。時間およびリソース集約的なタスクは、図5のプロセスから、特にステップ505から、変換モデルの作成に移され、変換モデルは、事前に計算され、複数の機械学習問題に適用され得る。例えば、変換モデルが作成された後で、モデルは、複数の機械学習問題にわたって、複数の異なる顧客およびデータセットに対して適用され得る。
【0044】
507において、後処理が、適格な特徴量に対して実行される。例えば、残った適格な特徴量は、推薦される機械学習特徴量としての考慮のために処理される。いくつかの実施形態では、507で実行される後処理は、残った適格な特徴量の最終的なフィルタリングを含む。後処理ステップは、予測されるモデルパフォーマンスに基づいて残った適格な特徴量の最終的なランキングを決定するために利用され得る。いくつかの実施形態では、最終的なランキングは、505で決定されたパフォーマンスメトリックに基づく。例えば、期待される改善が最高の特徴量は、そのパフォーマンスメトリックに基づいて第1位にランク付けされる。さまざまな実施形態では、最終的な閾値を満たさないか、または最終的な閾値範囲もしくは順位付けされたランキングの外側にある特徴量は、推薦から除去され得る。いくつかの実施形態では、残った適格な特徴量のうちのいずれも、推薦のための最終的な閾値を満たさない。例えば、上位ランキングの特徴量でさえ、ナイーブモデルよりも予測精度を著しく改善しない。このシナリオでは、残った適格な特徴量のうちのいずれも、推薦されなくてもよい。さまざまな実施形態では、最終的なフィルタリングの後の残った適格な特徴量は、推薦される機械学習特徴量のセットであり、各々がパフォーマンスメトリックおよび関連するランキングを含む。いくつかの実施形態では、非推薦の特徴量のセットもまた作成される。例えば、評価プロセスに基づいてモデル予測精度を著しく改善しないと決定される任意の特徴量が、無用として識別される。
【0045】
図6は、特徴量のパフォーマンスメトリックを決定するためのオフラインモデルを作成するためのプロセスの一実施形態を示すフローチャートである。図6のプロセスを用いて、特徴量のインパクトスコアをパフォーマンスメトリックに変換するためのオフラインモデルが作成される。例えば、加重情報利得スコア(または、いくつかの実施形態の場合、非加重情報利得スコア)が、適合率-再現率曲線下面積(AUPRC)パフォーマンスメトリックの増大を予測するために使用される。パフォーマンスメトリックは、モデル予測の精度を改善する際に特徴量が有する期待される改善を評価するために利用され得る。さまざまな実施形態では、モデルは、オフラインプロセスの一部として作成され、特徴量推薦のためのリアルタイムプロセス中に適用される。いくつかの実施形態では、作成されるオフラインモデルは、機械学習モデルである。いくつかの実施形態では、図6のプロセスを用いて作成されたオフラインモデルは、図2の203において、図4の407において、および/または図5の505において、利用される。いくつかの実施形態では、モデルは、図1のサーバ121における機械学習プラットフォーム上で作成される。
【0046】
601において、データセットが受け取られる。例えば、複数のデータセットが、オフラインモデルを構築するために受け取られる。いくつかの実施形態では、数百のデータセットが、正確なオフラインモデルを構築するために利用される。受け取られたデータセットは、1つまたは複数のデータベーステーブルに記憶された顧客データセットであり得る。
【0047】
603において、データセットの関連する特徴量が識別される。例えば、受け取られたデータセットの列が、関連する特徴量に対して処理され、データセットの非関連列に対応する特徴量は除去される。いくつかの実施形態では、データは、列データ型を識別するために前処理され、非ノミナル列は、関連する特徴量を識別するためにフィルタ除去される。さまざまな実施形態では、関連する特徴量のみが、オフラインモデルを訓練するために利用される。
【0048】
605において、インパクトスコアが、データセットの識別された特徴量に対して決定される。例えば、インパクトスコアは、識別された特徴量の各々に対して決定される。いくつかの実施形態では、インパクトスコアは、加重情報利得スコアである。いくつかの実施形態では、非加重情報利得スコアが、代替的なインパクトスコアとして使用される。インパクトスコアを決定する際に、識別された特徴量のペアが、一方は入力として、他方はターゲットとして選択され得る。インパクトスコアは、加重情報利得スコアを計算するために、選択されたペアを用いて計算され得る。加重情報利得スコアは、各データセットの識別された特徴量の各々について決定され得る。いくつかの実施形態では、インパクトスコアは、図5のステップ503に関して説明した技術を用いて決定される。
【0049】
607において、比較モデルが、各識別された特徴量について構築される。例えば、機械学習モデルは、各識別された特徴量を用いて訓練され、対応するモデルが、ベースラインモデルとして作成される。いくつかの実施形態では、ベースラインモデルは、ナイーブモデルである。例えば、ベースラインモデルは、ナイーブな確率ベースの分類器であり得る。いくつかの実施形態では、ベースラインモデルは、結果をランダムに選択することによって、または他の適切なナイーブ分類技術を使用することによって、最も可能性の高い結果を常に予測することによって結果を予測し得る。訓練されたモデルおよびベースラインモデルはともに、識別された特徴量に対する比較モデルである。訓練されたモデルは、予測のために識別された特徴量を利用する機械学習モデルであり、ベースラインモデルは、特徴量が予測のために利用されないモデルを表す。
【0050】
609において、パフォーマンスメトリックが、比較モデルを用いて決定される。各識別された特徴量について2つの比較モデルの予測結果および精度を比較することによって、パフォーマンスメトリックが、その特徴量に対して決定され得る。例えば、各識別された特徴量について、適合率-再現率曲線下面積(AUPRC)が、訓練されたモデルおよびベースラインモデルについて評価され得る。いくつかの実施形態では、2つのAUPRC結果の間の差が、特徴量のパフォーマンスメトリックである。例えば、特徴量のパフォーマンスメトリックは、比較モデル間のAUPRCの増大として表され得る。各識別された特徴量について、パフォーマンスメトリックは、インパクトスコアに関連づけられる。例えば、AUPRCの増大は、加重情報利得スコアに関連づけられる。
【0051】
611において、回帰モデルが、パフォーマンスメトリックを予測するために構築される。605および609でそれぞれ決定されたインパクトスコアおよびパフォーマンスメトリックのペアを用いて、回帰モデルが、インパクトスコアからパフォーマンスメトリックを予測するために作成される。例えば、回帰モデルは、特徴量の加重情報利得スコアの関数として特徴量の適合率-再現率曲線下面積(AUPRC)の増大を予測するために作成される。いくつかの実施形態では、回帰モデルは、605および609で決定されたインパクトスコアおよびパフォーマンスメトリックのペアを訓練データとして使用して訓練された機械学習モデルである。さまざまな実施形態では、訓練されたモデルは、インパクトスコアが決定された後に特徴量のパフォーマンスメトリックを予測するためにリアルタイムで適用され得る。例えば、訓練されたモデルは、特徴量に関連付けられているモデル品質の期待される改善を評価するための特徴量のパフォーマンスメトリックを決定するために、図5のステップ505で適用され得る。
【0052】
上記の実施形態は、理解を明確にする目的のためにかなり詳細に説明されたが、本発明は、提供された詳細に限定されない。本発明を実施する多くの代替的な態様がある。開示された実施形態は、例示的であり、限定的ではない。
図1
図2
図3
図4
図5
図6
【国際調査報告】