IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ サービスナウ, インコーポレイテッドの特許一覧

<>
  • 特許-機械学習特徴量推薦 図1
  • 特許-機械学習特徴量推薦 図2
  • 特許-機械学習特徴量推薦 図3
  • 特許-機械学習特徴量推薦 図4
  • 特許-機械学習特徴量推薦 図5
  • 特許-機械学習特徴量推薦 図6
  • 特許-機械学習特徴量推薦 図7
  • 特許-機械学習特徴量推薦 図8
  • 特許-機械学習特徴量推薦 図9
  • 特許-機械学習特徴量推薦 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-10
(45)【発行日】2025-01-21
(54)【発明の名称】機械学習特徴量推薦
(51)【国際特許分類】
   G06N 20/00 20190101AFI20250114BHJP
【FI】
G06N20/00
【請求項の数】 20
(21)【出願番号】P 2023502919
(86)(22)【出願日】2021-07-09
(65)【公表番号】
(43)【公表日】2023-08-09
(86)【国際出願番号】 US2021041153
(87)【国際公開番号】W WO2022015602
(87)【国際公開日】2022-01-20
【審査請求日】2023-03-03
(31)【優先権主張番号】16/931,906
(32)【優先日】2020-07-17
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/330,073
(32)【優先日】2021-05-25
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】518249328
【氏名又は名称】サービスナウ, インコーポレイテッド
【氏名又は名称原語表記】ServiceNow, Inc.
(74)【代理人】
【識別番号】100121083
【弁理士】
【氏名又は名称】青木 宏義
(74)【代理人】
【識別番号】100138391
【弁理士】
【氏名又は名称】天田 昌行
(74)【代理人】
【識別番号】100074099
【弁理士】
【氏名又は名称】大菅 義之
(72)【発明者】
【氏名】サブラマニアン・セガンラサン
(72)【発明者】
【氏名】ジャヤラマン・バスカー
(72)【発明者】
【氏名】チェンナ・ランガ・プラサド
【審査官】渡辺 順哉
(56)【参考文献】
【文献】特開2018-045559(JP,A)
【文献】米国特許出願公開第2002/0198863(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
コンピュータによって実行される方法であって、
テキストフィールドデータ型に関連付けられている特徴量関連性スコアに少なくとも一部基づいて、期待されるモデルパフォーマンスの尺度としてテキストフィールドデータ型を有する特徴量のパフォーマンススコアまたはメトリックを予測するように訓練された事前訓練モデルを生成し、
機械学習予測のための所望のターゲットフィールドの指定と、入力内容を記憶する1つまたは複数のテキストフィールドと、を受け取り、
前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について対応する特徴量関連性スコアを計算し、
前記対応する計算された特徴量関連性スコアに基づいて、前記事前訓練モデルを用いて、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について期待されるモデルパフォーマンスの対応する尺度を予測し、
前記所望のターゲットフィールドを予測するための機械学習モデルを生成するために、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの中からの特徴量選択において使用される、期待されるモデルパフォーマンスの前記予測された尺度を提供すること、
を備える、方法。
【請求項2】
請求項1に記載の方法であって、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について前記対応する特徴量関連性スコアを計算することは、前記1つまたは複数のテキストフィールドの各々について統計的尺度を決定することを含む、方法。
【請求項3】
請求項2に記載の方法であって、前記統計的尺度は、単語頻度-逆文書頻度(TF-IDF)メトリックに少なくとも一部基づく、方法。
【請求項4】
請求項1に記載の方法であって、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について前記対応する特徴量関連性スコアを計算することは、入力内容を記憶する前記1つまたは複数のテキストフィールドの各々の1つまたは複数のサンプルデータセットを生成することを含む、方法。
【請求項5】
請求項4に記載の方法であって、入力内容を記憶する前記1つまたは複数のテキストフィールドの各々の前記1つまたは複数の生成されるサンプルデータセットは、層化サンプルである、方法。
【請求項6】
請求項4に記載の方法であって、前記1つまたは複数の生成されるサンプルデータセットの各々について関連性スコアを決定することをさらに備える、方法。
【請求項7】
請求項1に記載の方法であって、前記1つまたは複数のテキストフィールドの各々について前記対応する特徴量関連性スコアを計算することは、前記1つまたは複数のテキストフィールドの各々について1つまたは複数の抽出された関連性スコアを平均することを含む、方法。
【請求項8】
請求項1に記載の方法であって、前記事前訓練モデルを用いて、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について前記期待されるモデルパフォーマンスの前記対応する尺度を予測することは、前記1つまたは複数のテキストフィールドの各々について1つまたは複数の情報メトリックに前記事前訓練モデルを適用することを含む、方法。
【請求項9】
請求項8に記載の方法であって、前記1つまたは複数の情報メトリックは、テキストフィールド密度メトリックを含む、方法。
【請求項10】
請求項1に記載の方法であって、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について前記計算された特徴量関連性スコアは、加重正規化reliefスコアである、方法。
【請求項11】
請求項1に記載の方法であって、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について期待されるモデルパフォーマンスの前記対応する尺度は、前記所望のターゲットフィールドを予測するためのベースラインモデルに比べて、前記機械学習モデルに関連づけられる適合率-再現率曲線下面積の増大した量に基づく、方法。
【請求項12】
請求項1に記載の方法であって、前記所望のターゲットフィールドを予測するための前記機械学習モデルを生成するための前記特徴量選択において使用するための期待されるモデルパフォーマンスの前記予測される尺度に基づいて、前記入力内容を記憶する前記1つまたは複数のテキストフィールドをランク付けすることをさらに備える、方法。
【請求項13】
請求項1に記載の方法であって、前記入力内容を記憶する前記1つまたは複数のテキストフィールドは、入力テキストフィールド、電子メール件名、電子メール本文、またはチャットダイアログから収集されたテキストを含む、方法。
【請求項14】
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサに結合されているメモリと、
を備えるシステムであって、前記メモリは、前記1つまたは複数のプロセッサに命令を提供するように構成され、前記命令は、実行されると、前記1つまたは複数のプロセッサに、
テキストフィールドデータ型に関連付けられている特徴量関連性スコアに少なくとも一部基づいて、期待されるモデルパフォーマンスの尺度としてテキストフィールドデータ型を有する特徴量のパフォーマンススコアまたはメトリックを予測するように訓練された事前訓練モデルを生成させ、
機械学習予測のための所望のターゲットフィールドの指定と、入力内容を記憶する1つまたは複数のテキストフィールドと、を受け取らせ、
前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について対応する特徴量関連性スコアを計算させ、
前記対応する計算された特徴量関連性スコアに基づいて、前記事前訓練モデルを用いて、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について期待されるモデルパフォーマンスの対応する尺度を予測させ、
前記所望のターゲットフィールドを予測するための機械学習モデルを生成するために、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの中からの特徴量選択において使用される、期待されるモデルパフォーマンスの前記予測された尺度を提供させる、システム。
【請求項15】
請求項14に記載のシステムであって、前記1つまたは複数のプロセッサに、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について前記対応する特徴量関連性スコアを計算させることは、前記1つまたは複数のプロセッサに、前記1つまたは複数のテキストフィールドの各々について統計的尺度を決定させることを含み、前記統計的尺度は、単語頻度-逆文書頻度(TF-IDF)メトリックに少なくとも一部基づく、システム。
【請求項16】
請求項14に記載のシステムであって、前記メモリは、前記1つまたは複数のプロセッサに命令を提供するようにさらに構成され、前記命令は、実行されると、前記1つまたは複数のプロセッサに、
入力内容を記憶する前記1つまたは複数のテキストフィールドの各々の1つまたは複数のサンプルデータセットを生成させ、
前記1つまたは複数の生成されるサンプルデータセットの各々について抽出された関連性スコアを決定させ、
前記1つまたは複数のテキストフィールドの各々について1つまたは複数の決定された抽出された関連性スコアを平均させる、システム。
【請求項17】
請求項14に記載のシステムであって、前記1つまたは複数のプロセッサに、前記事前訓練モデルを用いて、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について前記期待されるモデルパフォーマンスの前記対応する尺度を予測させることは、前記1つまたは複数のプロセッサに、前記1つまたは複数のテキストフィールドの各々について1つまたは複数の情報メトリックに前記事前訓練モデルを適用させることを含み、前記1つまたは複数の情報メトリックは、テキストフィールド密度メトリックを含む、システム。
【請求項18】
請求項14に記載のシステムであって、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について前記計算された特徴量関連性スコアは、加重正規化reliefスコアである、システム。
【請求項19】
請求項14に記載のシステムであって、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について期待されるモデルパフォーマンスの前記対応する尺度は、前記所望のターゲットフィールドを予測するためのベースラインモデルに比べて、前記機械学習モデルに関連づけられる適合率-再現率曲線下面積の増大した量に基づく、システム。
【請求項20】
ンピュータプログラムあって、
テキストフィールドデータ型に関連付けられている特徴量関連性スコアに少なくとも一部基づいて、期待されるモデルパフォーマンスの尺度としてテキストフィールドデータ型を有する特徴量のパフォーマンススコアまたはメトリックを予測するように訓練された事前訓練モデルを生成するための機能と
機械学習予測のための所望のターゲットフィールドの指定と、入力内容を記憶する1つまたは複数のテキストフィールドと、を受け取るための機能と
前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について対応する特徴量関連性スコアを計算するための機能と
前記対応する計算された特徴量関連性スコアに基づいて、前記事前訓練モデルを用いて、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について期待されるモデルパフォーマンスの対応する尺度を予測するための機能と
前記所望のターゲットフィールドを予測するための機械学習モデルを生成するために、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの中からの特徴量選択において使用される、期待されるモデルパフォーマンスの前記予測された尺度を提供するための機能と
をコンピュータに実現させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
他の出願への相互参照
本出願は、参照によりすべての目的で本明細書に組み込まれる、「MACHINE LEARNING FEATURE RECOMMENDATION」と題され2020年7月17日に出願された係属中の米国特許出願第16/931,906号の一部継続出願である。
【背景技術】
【0002】
機械学習を用いた自動分類の利用は、手動分類に比べると、手作業および誤りを著しく減らすことができる。自動分類を実行する1つの方法は、入力データに対するカテゴリを予測するために機械学習を使用することを含む。例えば、機械学習を用いて、入来するタスク、インシデント、およびケースが、自動的に類別され、割り当てられた当事者に転送され得る。一般に、機械学習を用いた自動分類は、過去の経験を含む訓練データを必要とする。訓練された後で、機械学習モデルは、分類結果を推論するために新規データに適用され得る。例えば、新規に報告されたインシデントは、自動的に分類され、割り当てられ、担当者に転送され得る。しかし、正確な機械学習モデルを作成することは、かなりの投資であり、一般に主題の専門知識を必要とする困難で時間のかかるタスクとなり得る。例えば、正確なモデルを生じる入力特徴量を選択することは、一般に、データセットと、特徴量が予測結果にどのように影響するかについてと、の深い理解を必要とする。
【図面の簡単な説明】
【0003】
本発明のさまざまな実施形態が、以下の詳細な説明および添付の図面に開示される。
【0004】
図1】機械学習モデルを作成および利用するためのネットワーク環境の一例を示すブロック図である。
【0005】
図2】機械学習解を作成するためのプロセスの一実施形態を示すフローチャートである。
【0006】
図3】機械学習モデルに対する推薦される特徴量を自動的に識別するためのプロセスの一実施形態を示すフローチャートである。
【0007】
図4】機械学習モデルに対する推薦される特徴量を自動的に識別するためのプロセスの一実施形態を示すフローチャートである。
【0008】
図5】機械学習モデルに対する推薦される特徴量を自動的に識別するための評価プロセスの一実施形態を示すフローチャートである。
【0009】
図6】特徴量のパフォーマンスメトリックを決定するためのオフラインモデルを作成するためのプロセスの一実施形態を示すフローチャートである。
【0010】
図7】機械学習モデルに対する可能な特徴量としてテキストフィールドを自動的に識別および評価するためのプロセスの一実施形態を示すフローチャートである。
【0011】
図8】所望のターゲットフィールドを予測するための機械学習モデルに対する特徴量としてテキストフィールドの適格性を評価するためのプロセスの一実施形態を示すフローチャートである。
【0012】
図9】インパクトスコアを決定するために入力テキストフィールドデータを準備するためのプロセスの一実施形態を示すフローチャートである。
【0013】
図10】テキストフィールド特徴量に対するパフォーマンスメトリックを決定するためのプロセスの一実施形態を示すフローチャートである。
【発明を実施するための形態】
【0014】
本発明は、多くの態様で実施することができ、それらの態様は、プロセス、装置、システム、組成物、コンピュータ可読記憶媒体上に具現化されたコンピュータプログラム製品、および/またはプロセッサ、を含み、プロセッサは、プロセッサに結合されているメモリ上に記憶された、および/またはメモリによって提供される、命令を実行するように構成されたプロセッサなどである。本明細書において、これらの実施態様、または本発明がとり得る任意の他の形態は、技術と呼ばれ得る。一般的に、開示されるプロセスのステップの順序は、本発明の範囲内で変更され得る。別段述べられていない限り、タスクを実行するように構成されると記載されるプロセッサまたはメモリなどのコンポーネントは、所与の時刻にそのタスクを実行するように一時的に構成された汎用コンポーネントとして、またはそのタスクを実行するために製造された特定のコンポーネントとして、実施され得る。本明細書で使用される場合、「プロセッサ」という用語は、コンピュータプログラム命令などのデータを処理するように構成された1つまたは複数のデバイス、回路、および/または処理コアを指す。
【0015】
本発明の1つまたは複数の実施形態の詳細な説明が、本発明の原理を例示する添付図面とともに以下に提供される。本発明は、このような実施形態に関して説明されるが、本発明は、いかなる実施形態にも限定されない。本発明の範囲は、特許請求の範囲によってのみ限定され、本発明は、多くの代替例、変形例および均等物を包含する。多くの具体的詳細が、本発明の十分な理解を提供するために以下の説明に記載される。これらの詳細は、例示の目的のために提供され、本発明は、これらの具体的詳細の一部または全部なしに、特許請求の範囲に従って実施され得る。明確にする目的のために、本発明に関する技術分野で既知の技術資料は、本発明が不必要にわかりにくくならないように、詳細には記載されていない。
【0016】
機械学習特徴量を選択するための技術が開示される。機械学習モデルを構築する際に、特徴量選択は、モデルの精度および有用性に重大な影響を及ぼし得る。しかし、主題の専門知識および機械学習問題の深い理解なしにモデルの精度を改善する特徴量を適切に選択することは、難題であり得る。開示される技術を用いて、機械学習モデルの予測精度における顕著な改善を生じる機械学習特徴量が、自動的に推薦および選択され得る。さらに、主題の専門知識は、ほとんどまたは全く不要である。例えば、入力データセットの最小限の理解を有するユーザが、分類結果を正確に予測し得る機械学習モデルを成功裏に生成し得る。いくつかの実施形態では、ユーザは、ソフトウェア・アズ・ア・サービスのウェブアプリケーションなどのソフトウェアサービスを介して、機械学習プラットフォームを利用することができる。
【0017】
さまざまな実施形態では、ユーザは、1つまたは複数のデータベーステーブルを識別するなどで、入力データセットを機械学習プラットフォームに提供する。提供されるデータセットは、複数の適格な特徴量を含む。適格な特徴量は、機械学習結果を正確に予測する際に有用な特徴量と、機械学習結果を正確に予測することに対して無用であるか、または影響が小さい特徴量と、を含み得る。有用な特徴量を正確に識別することは、高度に正確なモデルを生じ、リソースの使用量およびパフォーマンスを改善し得る。例えば、無用な特徴量を用いてモデルを訓練することは、無用な特徴量を正確に識別し無視することによって回避され得る顕著なリソース流出となり得る。さまざまな実施形態では、ユーザは、予測するための所望のターゲットフィールドを指定し、開示される技術を用いた機械学習プラットフォームは、機械学習モデルを構築する際に使用するための提供された入力データセットから、推薦される機械学習特徴量のセットを生成することができる。いくつかの実施形態では、推薦される機械学習特徴量は、無用な特徴量をフィルタリングし、役に立つ特徴量を識別するために、適格な特徴量に一連の評価を適用することによって決定される。推薦される特徴量のセットが決定された後、それはユーザに提示され得る。例えば、いくつかの実施形態では、特徴量は、予測結果に対する改善の順序でランク付けされる。いくつかの実施形態では、機械学習モデルは、推薦される特徴量に基づいてユーザによって選択される特徴量を用いて訓練される。例えば、モデルは、自動的に識別され、予測結果に対する改善の順序でランク付けされた推薦される特徴量を用いて自動的に訓練され得る。
【0018】
いくつかの実施形態では、機械学習予測のための所望のターゲットフィールドの指定と、機械学習訓練データを記憶する1つまたは複数のテーブルと、が受け取られる。例えば、ソフトウェア・アズ・ア・サービスのプラットフォームの顧客が、1つまたは複数の顧客データベーステーブルを指定する。テーブルは、分類された入来するタスク、インシデント、およびケースなどの過去の経験からのデータを含み得る。例えば、分類は、タスク、インシデント、またはケースの型を類別することと、問題を解決する適切な担当者を割り当てることを含み得る。いくつかの実施形態では、機械学習データは、データベース以外の他の適切なデータ構造体に記憶される。さまざまな実施形態では、所望のターゲットフィールドは、分類結果であり、これは、受け取られるテーブルのうちの1つにおける列であり得る。受け取られるデータベーステーブルのデータは、必ずしも訓練データとして準備されていないため、データは、分類結果を予測するために有用および無用の両方のフィールドを含み得る。いくつかの実施形態では、所望のターゲットフィールドに対する予測を実行するための機械学習モデルを構築するための適格な機械学習特徴量が、1つまたは複数のテーブル内で識別される。例えば、データベースデータから、フィールドが、機械学習モデルを訓練するための可能な、または適格な特徴量として識別される。いくつかの実施形態では、適格な特徴量は、テーブルの列に基づく。適格な機械学習特徴量は、異なる評価のパイプラインを用いて評価されて、適格な機械学習特徴量のうちの1つまたは複数を逐次的にフィルタ除去し、適格な機械学習特徴量のうちで推薦される機械学習特徴量のセットを識別する。適格な特徴量から特徴量を逐次的にフィルタ除去することによって、モデル予測精度に対する影響の少ない特徴量が選別される。残っている特徴量が、予測価値を有する推薦される特徴量である。フィルタリングパイプラインの各ステップは、役に立たない追加的な特徴量(および役に立ち得る特徴量)を識別する。例えば、いくつかの実施形態では、1つのフィルタリングステップは、特徴量データが不要または範囲外であるような特徴量を除去する。それぞれのデータベーステーブル内で疎に登録された特徴量、または特徴量のすべての値が同一である(例えば、定数である)特徴量は、フィルタ除去され得る。いくつかの実施形態では、非ノミナル列はフィルタ除去される。いくつかの実施形態では、フィルタリングステップが、各適格な特徴量に対するインパクトスコアを計算する。インパクトスコアがある特定の閾値を下回る特徴量は、推薦から除去され得る。いくつかの実施形態では、パフォーマンスメトリックが、各適格な特徴量に対して評価される。例えば、特定の特徴量に関して、モデルの適合率-再現率曲線下面積(AUPRC)の増大が評価され得る。いくつかの実施形態では、機械学習問題の大きい断面に対する特徴量選択を評価することによってインパクトスコアをパフォーマンスメトリックに変換するために、モデルが、オフラインで訓練される。その後、モデルは、適格な特徴量をランク付けするために使用され得るパフォーマンスメトリックを決定するために、特定の顧客の機械学習問題に適用され得る。識別された後で、推薦される機械学習特徴量のセットは、機械学習モデルを構築する際に使用するために提供される。例えば、顧客は、推薦される特徴量から機械学習モデルを選択し、機械学習モデルが、提供されたデータおよび選択された特徴量を用いて訓練されるように要求することができる。その後、モデルは、所望のターゲットフィールドを予測するために、顧客のワークフローに組み込まれ得る。例えば、データセットおよび機械学習の両方における主題の専門知識がほとんどまたは全くなくても、特徴量は、ターゲットフィールドを推論するために使用され得る機械学習モデルに対して、自動的に推薦(および選択)され得る。
【0019】
いくつかの実施形態では、適格な特徴量は、テキスト入力データであるデータを含む。例えば、テキスト入力データは、入力テキストフィールド、電子メールの件名または本文、チャットダイアログ、などから収集されたユーザ入力などの可変および/または任意の長さを有するテキスト入力であり得る。さまざまな実施形態では、可能な他の識別されるテーブルデータのうち、1つまたは複数の列が、所望のターゲットフィールドを予測するための可能な特徴量としてテキスト入力を含み得る。例えば、ユーザが、所望のターゲットフィールドおよびデータベーステーブルを指定する。テーブルに含まれる入力テキストフィールドは、各入力テキストフィールドが、所望のターゲットフィールドをどのくらい良好に予測するかに対応するパフォーマンスメトリックを決定するために、適格な特徴量として評価される。いくつかの実施形態では、ユーザによって提供される評価されたフィールドは、ランク付けされ、テキスト入力フィールドが、ランク付けされた適格なフィールドのうちに含まれる。他の適格な特徴量と同様に、テキスト入力フィールドは、特徴量のインパクトスコアを決定するために評価される。いくつかの実施形態では、インパクトスコアは、reliefスコアとして計算され得る。例えば、いくつかの実施形態では、reliefスコアは、加重正規化reliefスコアである。複数の加重正規化reliefスコアを、同じ適格な特徴量に対して計算することができ、平均されたインパクトスコアが使用され得る。
【0020】
いくつかの実施形態では、決定されたインパクトスコアは、パフォーマンスメトリックを予測するために使用される。パフォーマンスメトリック予測は、オフラインで訓練された機械学習モデルを適用することによって決定され得る。例えば、reliefスコアおよびテキストフィールド密度スコアを用いて、機械学習モデルは、テキスト入力フィールドに対するパフォーマンスメトリックを予測することができる。いくつかの実施形態では、パフォーマンスメトリックは、モデルの適合率-再現率曲線下面積(AUPRC)の期待される増大に基づく。適用されるモデルは、機械学習問題の大きい断面に対する特徴量選択を評価することによってインパクトスコアをパフォーマンスメトリックに変換する。モデルに対するこの訓練は、適格な特徴量を評価する前にオフラインで実行され得る。オフラインで訓練されたモデルを利用することによって、適格な特徴量に対するパフォーマンスメトリックは、特徴量の決定されたインパクトスコアを用いて迅速に決定され得る。さまざまな実施形態では、訓練されたモデルへの少なくとも1つの入力は、テキスト入力フィールドのインパクトスコアであるが、フィールドのテキストフィールド密度などの追加的な入力もまた、パフォーマンスメトリック予測の精度を改善するために適切であり得る。さまざまな実施形態では、予測されたパフォーマンスメトリックは、ユーザの提供されたデータセットの適格な特徴量をランク付けし推薦するために使用され得る。
【0021】
いくつかの実施形態では、事前訓練モデルが、テキストフィールドデータ型に関連付けられている特徴量関連性スコアに少なくとも一部基づいて、期待されるモデルパフォーマンスの尺度を予測するために生成される。例えば、機械学習問題の大きい断面に対する特徴量選択を評価することによって、モデルが、オフラインで訓練され得る。特に、モデルは、テキストフィールドデータ型を有する特徴量のパフォーマンススコアまたはメトリックを予測するように訓練される。インパクトスコアなどの特徴量関連性スコアを用いて、モデルは、適格な特徴量の期待されるモデルパフォーマンスを予測することができる。例えば、パフォーマンスは、モデルの適合率-再現率曲線下面積(AUPRC)における特徴量の期待される改善に関して提供され得る。いくつかの実施形態では、機械学習予測のための所望のターゲットフィールドの指定と、入力内容を記憶する1つまたは複数のテキストフィールドと、が受け取られる。例えば、ユーザが、顧客データベーステーブルからのフィールドなどの所望のターゲットフィールドを指定する。ユーザはまた、同じデータベーステーブルまたは他のデータベーステーブルからの1つまたは複数のテキストフィールドなどの追加的なフィールドを指定する。追加的なフィールドは、所望のターゲットフィールドに対する結果を予測するために有用であり得る適格な特徴量である。適格な特徴量は、適格な特徴量のうちのいずれが、所望のターゲットフィールドを予測するために推薦されるべきかを決定するための評価のために、ユーザによって指定され得る。いくつかの実施形態では、対応する特徴量関連性スコアが、入力内容を記憶する1つまたは複数のテキストフィールドの各々について計算される。例えば、インパクトスコアが、各適格なテキストフィールド特徴量について計算される。インパクトスコアは、正規化加重平均reliefスコアなどのreliefスコアであり得る。いくつかの実施形態では、対応する計算された特徴量関連性スコアに基づいて、入力内容を記憶する1つまたは複数のテキストフィールドの各々について期待されるモデルパフォーマンスの対応する尺度が、事前訓練モデルを用いて予測される。例えば、事前訓練モデルを用いて、期待されるモデルパフォーマンスが、計算されたインパクト/関連性スコアを用いて1つまたは複数のテキストフィールド特徴量の各々について推論される。いくつかの実施形態では、期待されるモデルパフォーマンスは、モデルの適合率-再現率曲線下面積(AUPRC)における期待される改善などのパフォーマンスメトリックである。期待されるモデルパフォーマンスの予測される尺度が、所望のターゲットフィールドを予測するための機械学習モデルを生成するために、入力内容を記憶する1つまたは複数のテキストフィールドのうちでの特徴量選択において使用するために提供される。例えば、予測されるパフォーマンスメトリックは、所望のターゲットフィールドを予測するための機械学習モデルを作成するために、どのテキストフィールド特徴量が利用されるべきかを推薦するために使用され得る。いくつかの実施形態では、テキストフィールド特徴量は、パフォーマンスメトリックによってランク付けされ、パフォーマンス閾値を満たす特徴量が推薦され得る。ユーザは、所望のターゲットフィールドを予測するための機械学習モデルを生成するために、他の適格なランク付けされた非テキストフィールド特徴量のうちで、推薦されるテキストフィールド特徴量から選択することができる。
【0022】
図1は、機械学習モデルを作成および利用するためのネットワーク環境の一例を示すブロック図である。図示した例では、クライアント101、103、および105が、ネットワーク111を介してサーバ121上のサービスにアクセスする。サービスは、機械学習を利用する予測サービスを含む。例えば、サービスは、推薦される特徴量を用いて機械学習モデルを生成する能力と、分類結果などの結果を予測するために生成されたモデルを適用するためのサービスと、の両方を含み得る。ネットワーク111は、パブリックまたはプライベートネットワークであり得る。いくつかの実施形態では、ネットワーク111は、インターネットなどのパブリックネットワークである。さまざまな実施形態では、クライアント101、103、および105は、サーバ121によって提供されるサービスにアクセスするためのウェブブラウザなどのネットワーククライアントである。いくつかの実施形態では、サーバ121は、機械学習プラットフォームを利用するためのウェブアプリケーションを含むサービスを提供する。サーバ121は、機械学習モデルを訓練するための推薦される特徴量を識別するためのサーバを含む1つまたは複数のサーバであり得る。サーバ121は、ある特定のサービスを提供するための、および/またはユーザに関連付けられているデータを記憶するための、データベース123を利用し得る。例えば、データベース123は、顧客サービスを提供し顧客データを記憶するための、サーバ121によって使用される構成管理データベース(CMDB)であり得る。いくつかの実施形態では、データベース123は、タスク、インシデント、およびケースなどに関する顧客データを記憶する。データベース123はまた、機械学習モデルを訓練するための特徴量選択に関する情報を記憶するために使用され得る。いくつかの実施形態では、データベース123は、関係するハードウェアおよび/またはソフトウェア構成などの管理資産に関する顧客構成情報を記憶することができる。
【0023】
いくつかの実施形態では、クライアント101、103、および105の各々が、顧客機械学習モデルを作成するためにサーバ121にアクセスすることができる。例えば、クライアント101、103、および105は、結果を予測するために適用され得る機械学習モデルを作成することを各々希望する1つまたは複数の異なる顧客を表し得る。いくつかの実施形態では、サーバ121は、クライアント101、103、および105などのクライアントに、機械学習モデルを訓練するための特徴量選択を選択および/または確認するための対話型ツールを供給する。例えば、ソフトウェア・アズ・ア・サービスのプラットフォームの顧客が、クライアント101、103、および105などのクライアントを介して、訓練データとしてサーバ121に顧客データなどの関連する訓練データを提供する。提供された顧客データは、データベース123の1つまたは複数のテーブルに記憶されたデータであり得る。提供された訓練データとともに、顧客は、提供されたテーブルのテーブル列のうちの1つなどの所望のターゲットフィールドを選択する。提供されたデータおよび所望のターゲットフィールドを用いて、サーバ121は、高度の精度で、所望のターゲットフィールドを予測する特徴量のセットを推薦する。顧客は、機械学習モデルを訓練するための元となる推薦される特徴量のサブセットを選択することができる。いくつかの実施形態では、モデルは、提供された顧客データを用いて訓練される。いくつかの実施形態では、特徴量選択プロセスの一部として、顧客には、各推薦される特徴量のパフォーマンスメトリックが提供される。パフォーマンスメトリックは、特定の特徴量がモデルの予測精度をどのくらい改善するかに関する定量化された値を顧客に提供する。いくつかの実施形態では、推薦される特徴量は、予測精度に対するインパクトに基づいてランク付けされる。
【0024】
いくつかの実施形態では、訓練された機械学習モデルは、所望のターゲットフィールドを推論するためのアプリケーションに組み込まれる。例えば、アプリケーションは、サポートインシデント事象の入来する報告を受け取り、インシデントに対するカテゴリを予測し、および/または報告されたインシデント事象を担当者に割り当てることができる。サポートインシデントアプリケーションは、サーバ121によってホストされ、クライアント101、103、および105などのクライアントによってアクセスされ得る。いくつかの実施形態では、クライアント101、103、および105の各々は、ラップトップ、デスクトップ、モバイルデバイス、タブレット、キオスク、スマートテレビなどを含む多くの異なるコンピューティングデバイスのうちの1つの上で動作するネットワーククライアントであり得る。
【0025】
図を簡略化するために、いくつかのコンポーネントの単一のインスタンスが図示されているが、図1に示される任意のコンポーネントの追加的なインスタンスが存在し得る。例えば、サーバ121は、1つまたは複数のサーバを含み得る。サーバ121のうちのいくつかのサーバは、ウェブアプリケーションサーバ、訓練サーバ、および/または干渉サーバであり得る。図1に示されるように、サーバは、単一のサーバ121として簡略化されている。同様に、データベース123は、サーバ121に直接接続されていなくてもよく、複数のデータベースであってもよく、および/または複数のコンポーネントにわたって複製または分散されていてもよい。例えば、データベース123は、各顧客に対して1つまたは複数の異なるサーバを含み得る。他の例として、クライアント101、103、および105は、サーバ121にとっての可能なクライアントのほんの少数の例である。より少数または多数のクライアントが、サーバ121に接続することができる。いくつかの実施形態では、図1に示されないコンポーネントもまた存在し得る。
【0026】
図2は、機械学習解を作成するためのプロセスの一実施形態を示すフローチャートである。例えば、図2のプロセスを用いて、ユーザは、問題に対する機械学習解を要求することができる。ユーザは、予測のための所望のターゲットフィールドを識別し、訓練データとして使用され得るデータへの参照を提供することができる。提供されたデータは分析され、入力特徴量が、機械学習モデルを訓練するために推薦される。推薦される特徴量はユーザに提供され、機械学習モデルは、ユーザによって選択された特徴量に基づいて訓練され得る。訓練されたモデルは、ユーザの所望のターゲットフィールドを予測するために、機械学習解に組み込まれる。いくつかの実施形態では、機械学習解を作成するための機械学習プラットフォームは、ソフトウェア・アズ・ア・サービスのウェブアプリケーションとしてホストされる。いくつかの実施形態では、ユーザは、図1のクライアント101、103、および/または105などのクライアントを介して解を要求する。いくつかの実施形態では、作成された機械学習解を含む機械学習プラットフォームは、図1のサーバ121上にホストされる。
【0027】
201において、機械学習解が要求される。例えば、顧客は、機械学習解を用いて、入来するサポートインシデント事象報告に対する担当者を自動的に予測したい場合がある。いくつかの実施形態では、ユーザは、ウェブアプリケーションを介して機械学習解を要求する。解を要求する際に、ユーザは、ユーザが予測してもらいたいターゲットフィールドを指定し、関係する訓練データを提供することができる。いくつかの実施形態では、提供される訓練データは、履歴顧客データである。顧客データは、顧客データベースに記憶され得る。いくつかの実施形態では、ユーザは、訓練データとして1つまたは複数のデータベーステーブルを提供する。データベーステーブルはまた、所望のターゲットフィールドを含み得る。いくつかの実施形態では、ユーザは、複数のターゲットフィールドを指定する。複数のフィールドに対する予測が望ましい場合、ユーザは、複数のフィールドをまとめて指定し、および/または複数の異なる機械学習解を要求することができる。いくつかの実施形態では、ユーザはまた、とりわけ、処理言語、ストップワード、提供されたデータに対するフィルタ、ならびに所望のモデルの名称および説明などの機械学習解の他のプロパティを指定する。
【0028】
203において、推薦される入力特徴量が決定される。例えば、要求された機械学習解に基づく適格な機械学習特徴量のセットが決定される。適格な特徴量から、推薦される特徴量のセットが識別される。いくつかの実施形態では、推薦される特徴量は、異なる評価のパイプラインを用いて適格な機械学習特徴量を評価することによって識別される。パイプラインの各段で、適格な機械学習特徴量のうちの1つまたは複数が、逐次的にフィルタ除去され得る。パイプラインの終端で、推薦される特徴量のセットが識別される。いくつかの実施形態では、推薦される特徴量の識別は、インパクトスコアまたはパフォーマンスメトリックなどの、特徴量に関連付けられている1つまたは複数のメトリックを決定することを含む。例えば、オフラインで訓練されたモデルは、特徴量を用いて訓練されたモデルの適合率-再現率曲線下面積(AUPRC)をどのくらい増大させるかを定量化するパフォーマンスメトリックを決定するために、各特徴量に適用され得る。いくつかの実施形態では、特徴量が訓練時の使用のために推薦されるかどうかを決定するために、適切な閾値が、各メトリックについて利用され得る。
【0029】
いくつかの実施形態では、適格な機械学習特徴量は、ユーザによって提供された入力データに基づく。例えば、いくつかの実施形態では、ユーザは、訓練データとして1つまたは複数のデータベーステーブルまたは他の適切なデータ構造体を提供する。データベーステーブルが提供される場合、適格な機械学習特徴量は、テーブルの列に基づき得る。いくつかの実施形態では、各列のデータ型が決定され、ノミナルデータ型を有する列が、適格な特徴量として識別される。いくつかの実施形態では、特定の列からのデータは、その列データが予測に役立つ可能性が低い場合に、排除され得る。例えば、データがどのくらい疎に登録されているか、ストップワードの出現、列に対する異なる値の相対分布などに基づいて、列は除去され得る。
【0030】
205において、特徴量が、推薦される入力特徴量に基づいて選択される。例えば、対話型ユーザインタフェースを用いて、機械学習モデルを構築する際に使用するための推薦される機械学習特徴量のセットが、ユーザに提示される。いくつかの実施形態では、例示的なユーザインタフェースは、ウェブアプリケーションまたはウェブサービスとして実装される。ユーザは、機械学習モデルを訓練するために使用するための特徴量のセットを決定するために、表示された推薦される特徴量から選択することができる。いくつかの実施形態では、203で決定された推薦される入力特徴量は、訓練のためのデフォルト特徴量として自動的に選択される。推薦される入力特徴量を選択するために、ユーザ入力は、不要であり得る。いくつかの実施形態では、推薦される入力特徴量は、各々がモデルの予測精度にどのように影響するかに基づいて、ランク付けされた順序で提示され得る。例えば、最も関連性のある入力特徴量が最初にランク付けされる。さまざまな実施形態では、推薦される特徴量は、インパクトスコアおよび/またはパフォーマンスメトリックとともに表示される。例えば、インパクトスコアは、特徴量がモデル精度に対してどのくらいのインパクトを有するかを測定することができる。パフォーマンスメトリックは、特徴量が訓練のために使用される場合にモデルがどのくらい改善するかを定量化することができる。例えば、いくつかの実施形態では、表示されるパフォーマンスメトリックは、特徴量を使用したときの機械学習モデルの適合率-再現率曲線下面積(AUPRC)の増大量に基づく。他のパフォーマンスメトリックが、適宜使用され得る。異なる特徴量をランク付けし定量化することによって、主題の専門知識がほとんどまたは全くないユーザが、高度に正確なモデルを訓練するために適切な入力特徴量を容易に選択することができる。
【0031】
207において、機械学習モデルが、選択された特徴量を用いて訓練される。例えば、205で選択された特徴量を用いて、訓練データセットが、機械学習モデルを訓練するために準備および使用される。モデルは、201で指定された所望のターゲットフィールドを予測する。いくつかの実施形態では、訓練データは、201で受け取られた顧客データに基づく。顧客データからは、205で選択されていない特徴量に対応するテーブル列からのデータなどの、訓練のために有用でないデータが除去される。例えば、予測の精度にほとんどまたは全くインパクトがないと識別される特徴量に関連付けられている列に対応するデータは、機械学習モデルを訓練するために使用されるデータセットから排除される。
【0032】
209において、機械学習解がホストされる。例えば、アプリケーションサーバおよび機械学習プラットフォームは、訓練された機械学習モデルを入力データに適用するためのサービスをホストする。例えば、ウェブサービスは、入来するインシデント報告を自動的に類別するために、訓練されたモデルを適用する。類別は、インシデントの型および担当者を識別することを含み得る。類別された後、ホストされた解は、予測される担当者にインシデントを割り当て、転送することができる。いくつかの実施形態では、ホストされたアプリケーションは、ソフトウェア・アズ・ア・サービスのプラットフォームの顧客のための顧客機械学習解である。いくつかの実施形態では、解は、図1のサーバ121上にホストされる。
【0033】
図3は、機械学習モデルに対する推薦される特徴量を自動的に識別するためのプロセスの一実施形態を示すフローチャートである。図3のプロセスを用いて、ユーザは、可能な訓練データから識別された推薦される特徴量を利用することによって、機械学習モデルの作成を自動化することができる。ユーザは、所望のターゲットフィールドを指定し、可能な訓練データを供給する。機械学習プラットフォームは、所望のターゲットフィールドを予測するために、供給されたデータから機械学習モデルを作成するための推薦されるフィールドを識別する。いくつかの実施形態では、図3のプロセスは、図2の201で実行される。いくつかの実施形態では、図3のプロセスは、図1のサーバ121における機械学習プラットフォーム上で実行される。
【0034】
301において、モデル作成が開始される。例えば、顧客が、ウェブサービスアプリケーションを介して、機械学習モデルの作成を開始する。いくつかの実施形態では、顧客は、自動化されたワークフローを作成するためのソフトウェア・アズ・ア・サービスのプラットフォームを介してモデル作成ウェブページにアクセスすることによって、モデル作成を開始する。サービスは、結果を予測するための訓練されたモデルをユーザが組み込むことを可能にする、より大きな機械学習プラットフォームの一部であり得る。いくつかの実施形態では、予測される結果は、訓練されたモデルを用いて適切な当事者が自動的に予測されると、割り当てられた当事者にインシデント報告を転送するなど、ワークフロープロセスを自動化するために使用され得る。
【0035】
303において、訓練データが識別される。例えば、ユーザが、データを可能な訓練データとして指定する。いくつかの実施形態では、ユーザは、可能な訓練データを記憶する顧客データベースまたは他の適切なデータ構造体からの1つまたは複数のデータベーステーブルを指示する。データは、履歴顧客データであり得る。例えば、履歴顧客データは、1つまたは複数のデータベーステーブルに記憶された、入来したインシデント報告およびそれらの割り当てられた担当者を含み得る。いくつかの実施形態では、識別される訓練データは、多数の可能な入力特徴量を含み、高品質の訓練データとして適当に準備されていない可能性がある。例えば、データの特定の列は、疎に登録されているか、または同じ定数値のみを含む場合がある。他の例として、列のデータ型が、不適当に構成されている場合がある。例えば、ノミナルまたは数値データ値が、識別されたデータベーステーブル内にテキストとして記憶されている場合がある。さまざまな実施形態では、識別される訓練データは、訓練データとして効率的に使用され得る前に整備される必要がある。例えば、モデル予測精度に対してほとんどまたは全くインパクトがない1つまたは複数の列からのデータが、除去される。
【0036】
305において、所望のターゲットフィールドが選択される。例えば、ユーザが、機械学習予測のための所望のターゲットフィールドを指定する。いくつかの実施形態では、ユーザは、303で識別されたデータから列フィールドを選択する。例えば、ユーザは、入来するインシデント報告のカテゴリ型を予測するための機械学習モデルを作成したいというユーザの希望を表すために、インシデント報告に対するカテゴリ型を選択することができる。いくつかの実施形態では、ユーザは、303で提供された訓練データの可能な入力特徴量から選択することができる。いくつかの実施形態では、ユーザは、まとめて予測される複数の所望のターゲットフィールドを選択する。
【0037】
307において、モデル構成が完了する。例えば、ユーザは、モデルの名称および説明などの追加的な構成オプションを提供することができる。いくつかの実施形態では、ユーザは、オプションのストップワードを指定することができる。例えば、ストップワードは、訓練データを準備するために供給され得る。いくつかの実施形態では、ストップワードは、提供されたデータから除去される。いくつかの実施形態では、ユーザは、提供されたデータに対する処理言語および/または追加的なフィルタを指定することができる。例えば、指定された言語に対するストップワードが、デフォルトで追加され、または提案され得る。指定される追加的なフィルタに関して、条件フィルタが、303で識別された訓練データから、代表されるデータセットを作成するために適用され得る。いくつかの実施形態では、1つまたは複数の指定された条件フィルタを適用することによって、提供されたテーブルの行が、訓練データから除去され得る。例えば、テーブルが、「状態」列を含み、その可能な値は「新規」、「進行中」、「保留」、および「解決済み」であり得る。「状態」フィールドが値「解決済み」を有する行のみを訓練データとして利用するための条件が、指定され得る。他の例として、指定された日付または時間フレームの後に作成された行のみを訓練データとして利用するための条件が、指定され得る。
【0038】
図4は、機械学習モデルに対する推薦される特徴量を自動的に識別するためのプロセスの一実施形態を示すフローチャートである。例えば、図4の特徴量選択パイプラインを用いて、各可能な特徴量が、所望のターゲットフィールドを予測するための機械学習モデルにどのくらい影響するかを決定するために、データセットの適格な特徴量が、リアルタイムで評価され得る。さまざまな実施形態では、推薦される特徴量のセットが決定され、機械学習モデルを訓練するために選択され得る。推薦される特徴量は、所望のターゲットフィールドを予測する際のそれらの精度に基づいて選択される。例えば、無用な特徴量は推薦されない。いくつかの実施形態では、図4のプロセスは、図2の203で実行される。いくつかの実施形態では、図4のプロセスは、図1のサーバ121における機械学習プラットフォーム上で実行される。
【0039】
401において、データが、データベーステーブルから取得される。例えば、1つまたは複数の識別されたデータベーステーブルに記憶された可能な訓練データセットが、ユーザによって識別され、関連するデータが取得される。いくつかの実施形態では、データが取得される前(または後)に、条件フィルタが、関連するデータに適用される。例えば、条件フィルタに基づいて、データベーステーブルの特定の行のみが取得され得る。他の例として、ストップワードが、取得されたデータから除去される。いくつかの実施形態では、データは、識別されたテーブルから機械学習訓練サーバに取り出される。
【0040】
403において、列データ型が識別される。例えば、データの各列のデータ型が識別される。いくつかの実施形態では、データベーステーブル内で構成されている列データ型は、関連する特徴量を評価するために使用されるほど十分に具体的でない。例えば、ノミナル値は、データベーステーブル内のテキストまたはバイナリラージオブジェクト(BLOB)値として記憶され得る。他の例として、数値または日付型は、テキスト(または文字列)データ型としても記憶され得る。さまざまな実施形態では、403において、列データ型は、ユーザの介入なしに自動的に識別される。
【0041】
いくつかの実施形態では、データ型は、まず、列のすべての異なる値をスキャンし、スキャンされた結果を分析することによって、識別される。列のプロパティは、列の値の有効なデータ型を決定するために利用され得る。例えば、テキストデータは、少なくとも部分的に列フィールド内のスペース数およびテキスト長変動量によって識別され得る。他の例として、列フィールドに記憶された実際の値に変動がほとんどまたは全くない場合、列データ型は、ノミナルデータ型であると決定され得る。例えば、5個の離散値を有するが文字列値として記憶された値を有する列は、ノミナル型として識別され得る。いくつかの実施形態では、値の型の分布が、データ型を識別する際の要因として使用される。例えば、列内の値のうちの高い割合が数値である場合、その列は、数値データ型として分類され得る。
【0042】
405において、前処理が、データ列に対して実行される。いくつかの実施形態では、前処理ルールのセットが、無用な列を除去するために適用される。例えば、疎に登録されたフィールドを有する列が除去される。いくつかの実施形態では、列が疎に登録され除去のための候補であるかどうかを決定するために、閾値が利用される。例えば、いくつかの実施形態では、20%の閾値が使用される。20%未満のデータが登録されている列は、不要な列であり、除去され得る。他の例として、すべての値が定数である列は除去される。いくつかの実施形態では、1つの値が他の値よりも優勢である列は、例えば、優勢な値が、80%(または他の閾値量)よりも多くのレコードに現れる場合に、除去される。あらゆる値が一意であるか、またはIDである列もまた、除去され得る。いくつかの実施形態では、非ノミナル列が除去される。例えば、バイナリデータまたはテキスト文字列を有する列が、除去され得る。さまざまな実施形態では、前処理ステップは、推薦される入力特徴量としての考慮からすべての適格な特徴量のサブセットのみを削除する。
【0043】
407において、適格な機械学習特徴量が評価される。例えば、適格な機械学習特徴量は、正確な機械学習モデルを訓練することに対するインパクトについて評価される。いくつかの実施形態では、適格な機械学習特徴量は、所望のターゲット値を予測する際の有用性によって特徴量を逐次的にフィルタ除去するために、評価パイプラインを用いて評価される。例えば、いくつかの実施形態では、第1の評価ステップは、列が分類モデルにもたらす区別を識別するために、reliefスコアなどのインパクトスコアを決定することができる。reliefスコアが閾値を下回る列は、推薦から除去され得る。他の例として、いくつかの実施形態では、第2の評価ステップは、列に対する情報利得または加重情報利得などのインパクトスコアを決定することができる。選択された特徴量および所望のターゲットフィールドを用いて、インパクトスコアは、特徴量を考慮する際の情報エントロピーの変化を使用することによる特徴量の改善を比較することによって決定され得る。情報利得または加重情報利得スコアが閾値を下回る列は、推薦から除去され得る。いくつかの実施形態では、第3の評価セットは、各特徴量に対するパフォーマンスメトリックを決定することができる。例えば、情報利得または加重情報利得スコアなどのインパクトスコアを、モデルに対する適合率-再現率曲線下面積(AUPRC)への増大に基づくものなどのパフォーマンスメトリックに変換するために、モデルがオフラインで作成される。さまざまな実施形態では、訓練されたモデルは、各残った適格な特徴量に対するAUPRCベースのパフォーマンスメトリックを決定するために、インパクトスコアに適用される。決定されたパフォーマンスメトリックを用いて、パフォーマンスメトリックが閾値を下回る列が、推薦から除去され得る。3つの評価ステップが上記で説明されているが、推薦される特徴量のセットに対する所望の結果に基づいて、より少ない、または追加的なステップが、適宜利用され得る。例えば、1つまたは複数の異なる評価技術が、適格な特徴量の数をさらに低減するために、説明された評価ステップに加えて、またはそれらを置き換えるために、適用され得る。
【0044】
さまざまな実施形態では、逐次的な評価ステップを適用することによって、機械学習モデルを構築するための推薦される機械学習特徴量のセットが、識別される。いくつかの実施形態では、逐次的な評価ステップは、どの特徴量が正確なモデルを生じるかを決定するために必要である。いずれか1つの評価ステップのみでは、不十分であり、訓練にとって不良な特徴量を推薦のために不正確に識別する可能性がある。例えば、特徴量は、高いreliefスコアを有するが、低い加重情報利得スコアを有する場合がある。低い加重情報利得スコアは、その特徴量が訓練のために使用されるべきでないことを示す。いくつかの実施形態では、キーまたは類似の識別子列は、予測価値がほとんどないので、訓練にとって不良な特徴量である。その列は、評価ステップのうちの1つの下で評価されるときには高いインパクトスコアを有し得るが、後続する評価ステップによって、推薦されることからフィルタリングされる。
【0045】
409において、推薦される特徴量が提供される。例えば、残った特徴量が、入力特徴量として推薦される。いくつかの実施形態では、推薦される特徴量のセットは、ウェブアプリケーションのグラフィカルユーザインタフェースを介してユーザに提供される。推薦される特徴量には、特徴量の各々がモデル精度に対してどのくらいインパクトを有するかに関する定量化されたメトリックが提供され得る。いくつかの実施形態では、特徴量は、ランク付けされた順序で提供され、ユーザが、機械学習モデルを訓練するために最もインパクトの高い特徴量を選択することを可能にする。
【0046】
いくつかの実施形態では、無用な特徴量もまた、推薦される特徴量とともに提供される。例えば、ユーザには、無用、またはモデル精度に対してあまりインパクトがないと識別された特徴量のセットが提供される。この情報は、ユーザが、機械学習問題および解のより良好な理解を得るために役に立ち得る。
【0047】
図5は、機械学習モデルに対する推薦される特徴量を自動的に識別するための評価プロセスの一実施形態を示すフローチャートである。いくつかの実施形態では、評価プロセスは、推薦される機械学習特徴量のセットを識別するために、適格な機械学習特徴量から特徴量を逐次的にフィルタ除去するための多段プロセスである。プロセスは、適格な機械学習特徴量が識別される可能な訓練データとして提供されるデータを利用し、リアルタイムで実行され得る。図5に関して特定の評価ステップを用いて説明されるが、評価プロセスの代替的実施形態は、より少ない、またはより多い評価ステップを利用することができ、異なる評価技術を組み込み得る。いくつかの実施形態では、図5のプロセスは、図2の203において、および/または図4の407において、実行される。いくつかの実施形態では、図5のプロセスは、図1のサーバ121における機械学習プラットフォーム上で実行される。
【0048】
501において、特徴量が、決定されたreliefスコアを用いて評価される。さまざまな実施形態では、reliefベースの技術を用いたインパクトスコアが、501で決定され、推薦される機械学習特徴量のセットを識別するために、1つまたは複数の適格な機械学習特徴量をフィルタリングするために使用される。例えば、各特徴量に対するreliefスコアに基づくインパクトスコアが、決定される。reliefスコアが閾値を下回る列は、推薦から除去され得る。いくつかの実施形態では、reliefスコアは、異なる分類結果を差別化する際に列が有するインパクトに対応する。さまざまな実施形態では、各特徴量について、複数の隣接する行が選択される。行は、現在評価されている列に対する値を除いて、類似の値(または数学的に近い、もしくは近接する値)を有することに基づいて選択される。例えば、3つの列A、BおよびCを有するテーブルに対して、列Aは、対応する列BおよびCに対する類似の値を有する行を選択することによって評価される(すなわち、列Bに対する値は、すべての選択された行について類似し、列Cに対する値は、すべての選択された行について類似している)。このインパクトスコアは、所望のターゲットフィールドに列Aがどのくらい影響するかを決定するために、選択された行を利用する。例では、ターゲットフィールドは、列BまたはCの一方に対応し得る。選択された隣接する行を用いて、インパクトまたはreliefスコアが、各適格な特徴量について計算される。スコアは、正規化され、閾値と比較され得る。reliefスコアが閾値を下回る特徴量は、無用な列として識別され、推薦される入力特徴量としてのさらなる考慮から排除され得る。reliefスコアが閾値を満たす特徴量は、503において、推薦される入力特徴量としての考慮のためにさらに評価される。いくつかの実施形態では、適格な特徴量は、決定されたreliefスコアによってランク付けされ、特徴量は、その特徴量が十分上位にランク付けされない場合に、推薦される入力特徴量としての考慮から除去され得る。例えば、いくつかの実施形態では、ランク付けに基づく最大数の特徴量(適格な特徴量のうちの上位10個または上位10%など)が、503におけるさらなる評価のために保持される。
【0049】
503において、特徴量は、加重情報スコアを用いて評価される。さまざまな実施形態では、情報利得技術を用いたインパクトスコアが、503で決定され、推薦される機械学習特徴量のセットを識別するために、1つまたは複数の適格な機械学習特徴量をフィルタリングするために使用される。例えば、各特徴量に対する加重情報利得スコアに基づくインパクトスコアが決定される。加重情報利得スコアが閾値を下回る列は、推薦から除去され得る。いくつかの実施形態では、特徴量の加重情報利得スコアは、特徴量の値が既知であるときの情報エントロピーの変化に対応する。加重情報利得スコアは、情報利得メトリックであり、特徴量に対する異なる既知の値のターゲット分布によって重み付けされている。いくつかの実施形態では、重みは、所与のターゲット値の頻度に比例する。いくつかの実施形態では、非加重情報スコアが、代替的なインパクトスコアとして使用され得る。
【0050】
さまざまな実施形態では、適格な特徴量は、決定された加重情報利得スコアによってランク付けされ、特徴量は、その特徴量が十分上位にランク付けされない場合に、推薦される入力特徴量としての考慮から除去され得る。例えば、いくつかの実施形態では、ランク付けに基づく最大数の特徴量(適格な特徴量のうちの上位10個または上位10%など)が、505におけるさらなる評価のために保持される。
【0051】
505において、パフォーマンスメトリックが、特徴量に対して決定される。さまざまな実施形態では、パフォーマンスメトリックが、503で決定された特徴量の対応するインパクトスコアを用いて、残った適格な特徴量の各々について決定される。パフォーマンスメトリックは、推薦される機械学習特徴量のセットを識別するために、1つまたは複数の適格な機械学習特徴量をフィルタリングするために使用される。例えば、加重情報利得スコア(または、いくつかの実施形態の場合、非加重情報利得スコア)は、例えば、オフラインで作成されたモデルを適用することによって、パフォーマンスメトリックに変換される。いくつかの実施形態では、モデルは、加重情報利得スコアの関数として適合率-再現率曲線下面積(AUPRC)の増大を予測するための回帰モデルおよび/または訓練された機械学習モデルである。さまざまな実施形態では、オフラインモデルは、評価されている特徴量を利用するときのモデルに対するAUPRCベースのパフォーマンスメトリックなどのパフォーマンスメトリックを推論するために、ステップ503からのインパクトスコアに適用される。残った適格な特徴量の各々について決定されたAUPRCベースのパフォーマンスメトリックは、残った特徴量をランク付けし、特定の閾値を満たさない、または特定の閾値範囲内に入らない特徴量をフィルタ除去するために使用され得る。いくつかの実施形態では、適格な特徴量は、決定されたAUPRCベースのパフォーマンスメトリックによってランク付けされ、特徴量は、その特徴量が十分上位にランク付けされない場合に、推薦される入力特徴量としての考慮から除去され得る。例えば、いくつかの実施形態では、ランク付けに基づく最大数の特徴量(適格な特徴量のうちの上位10個または上位10%など)が、507における後処理のために保持される。
【0052】
いくつかの実施形態では、AUPRCベースのパフォーマンスメトリックなどのパフォーマンスメトリックの正確な決定は、時間がかかり、リソース集約的であり得る。加重情報利得スコアからパフォーマンスメトリックを決定するために(変換モデルなどの)オフラインで準備されたモデルを利用することによって、パフォーマンスメトリックは、リアルタイムで決定され得る。時間およびリソース集約的なタスクは、図5のプロセスから、特にステップ505から、変換モデルの作成に移され、変換モデルは、事前に計算され、複数の機械学習問題に適用され得る。例えば、変換モデルが作成された後で、モデルは、複数の機械学習問題にわたって、複数の異なる顧客およびデータセットに対して適用され得る。
【0053】
507において、後処理が、適格な特徴量に対して実行される。例えば、残った適格な特徴量は、推薦される機械学習特徴量としての考慮のために処理される。いくつかの実施形態では、507で実行される後処理は、残った適格な特徴量の最終的なフィルタリングを含む。後処理ステップは、予測されるモデルパフォーマンスに基づいて残った適格な特徴量の最終的なランキングを決定するために利用され得る。いくつかの実施形態では、最終的なランキングは、505で決定されたパフォーマンスメトリックに基づく。例えば、期待される改善が最高の特徴量は、そのパフォーマンスメトリックに基づいて第1位にランク付けされる。さまざまな実施形態では、最終的な閾値を満たさないか、または最終的な閾値範囲もしくは順位付けされたランキングの外側にある特徴量は、推薦から除去され得る。いくつかの実施形態では、残った適格な特徴量のうちのいずれも、推薦のための最終的な閾値を満たさない。例えば、上位ランキングの特徴量でさえ、ナイーブモデルよりも予測精度を著しく改善しない。このシナリオでは、残った適格な特徴量のうちのいずれも、推薦されなくてもよい。さまざまな実施形態では、最終的なフィルタリングの後の残った適格な特徴量は、推薦される機械学習特徴量のセットであり、各々がパフォーマンスメトリックおよび関連するランキングを含む。いくつかの実施形態では、非推薦の特徴量のセットもまた作成される。例えば、評価プロセスに基づいてモデル予測精度を著しく改善しないと決定される任意の特徴量が、無用として識別される。
【0054】
図6は、特徴量のパフォーマンスメトリックを決定するためのオフラインモデルを作成するためのプロセスの一実施形態を示すフローチャートである。図6のプロセスを用いて、特徴量のインパクトスコアをパフォーマンスメトリックに変換するためのオフラインモデルが作成される。例えば、加重情報利得スコア(または、いくつかの実施形態の場合、非加重情報利得スコア)が、適合率-再現率曲線下面積(AUPRC)パフォーマンスメトリックの増大を予測するために使用される。パフォーマンスメトリックは、モデル予測の精度を改善する際に特徴量が有する期待される改善を評価するために利用され得る。さまざまな実施形態では、モデルは、オフラインプロセスの一部として作成され、特徴量推薦のためのリアルタイムプロセス中に適用される。いくつかの実施形態では、作成されるオフラインモデルは、機械学習モデルである。いくつかの実施形態では、図6のプロセスを用いて作成されたオフラインモデルは、図2の203において、図4の407において、および/または図5の505において、利用される。いくつかの実施形態では、モデルは、図1のサーバ121における機械学習プラットフォーム上で作成される。
【0055】
601において、データセットが受け取られる。例えば、複数のデータセットが、オフラインモデルを構築するために受け取られる。いくつかの実施形態では、数百のデータセットが、正確なオフラインモデルを構築するために利用される。受け取られたデータセットは、1つまたは複数のデータベーステーブルに記憶された顧客データセットであり得る。
【0056】
603において、データセットの関連する特徴量が識別される。例えば、受け取られたデータセットの列が、関連する特徴量に対して処理され、データセットの非関連列に対応する特徴量は除去される。いくつかの実施形態では、データは、列データ型を識別するために前処理され、非ノミナル列は、関連する特徴量を識別するためにフィルタ除去される。さまざまな実施形態では、関連する特徴量のみが、オフラインモデルを訓練するために利用される。いくつかの実施形態では、テキストフィールド入力列が、受け取られたデータセットのうちで識別される。例えば、データベーステーブルは、可変または任意長のテキスト入力を含む1つまたは複数のテキストフィールド入力フィールドを含み得る。それらのフィールドは、所望のターゲットフィールドを予測するための可能な適格な特徴量として識別され、テキストフィールド入力特徴量でありノミナル型でないとして評価される。
【0057】
605において、インパクトスコアが、データセットの識別された特徴量に対して決定される。例えば、インパクトスコアは、識別された特徴量の各々に対して決定される。いくつかの実施形態では、インパクトスコアは、加重情報利得スコアである。いくつかの実施形態では、非加重情報利得スコアが、代替的なインパクトスコアとして使用される。インパクトスコアを決定する際に、識別された特徴量のペアが、一方は入力として、他方はターゲットとして選択され得る。インパクトスコアは、加重情報利得スコアを計算するために、選択されたペアを用いて計算され得る。加重情報利得スコアは、各データセットの識別された特徴量の各々について決定され得る。いくつかの実施形態では、インパクトスコアは、図5のステップ503に関して説明した技術を用いて決定される。いくつかの実施形態では、インパクトスコアは、平均加重スコアである。例えば、インパクトスコアは、図7図10のプロセスに関して説明される技術を用いて、テキストフィールド入力特徴量に対して決定され得る。
【0058】
607において、比較モデルが、各識別された特徴量について構築される。例えば、機械学習モデルは、各識別された特徴量を用いて訓練され、対応するモデルが、ベースラインモデルとして作成される。いくつかの実施形態では、ベースラインモデルは、ナイーブモデルである。例えば、ベースラインモデルは、ナイーブな確率ベースの分類器であり得る。いくつかの実施形態では、ベースラインモデルは、結果をランダムに選択することによって、または他の適切なナイーブ分類技術を使用することによって、最も可能性の高い結果を常に予測することによって結果を予測し得る。訓練されたモデルおよびベースラインモデルはともに、識別された特徴量に対する比較モデルである。訓練されたモデルは、予測のために識別された特徴量を利用する機械学習モデルであり、ベースラインモデルは、特徴量が予測のために利用されないモデルを表す。
【0059】
609において、パフォーマンスメトリックが、比較モデルを用いて決定される。各識別された特徴量について2つの比較モデルの予測結果および精度を比較することによって、パフォーマンスメトリックが、その特徴量に対して決定され得る。例えば、各識別された特徴量について、適合率-再現率曲線下面積(AUPRC)が、訓練されたモデルおよびベースラインモデルについて評価され得る。いくつかの実施形態では、2つのAUPRC結果の間の差が、特徴量のパフォーマンスメトリックである。例えば、特徴量のパフォーマンスメトリックは、比較モデル間のAUPRCの増大として表され得る。各識別された特徴量について、パフォーマンスメトリックは、インパクトスコアに関連づけられる。例えば、AUPRCの増大は、加重情報利得スコアに関連づけられる。
【0060】
611において、回帰モデルが、パフォーマンスメトリックを予測するために構築される。605および609でそれぞれ決定されたインパクトスコアおよびパフォーマンスメトリックのペアを用いて、回帰モデルが、インパクトスコアからパフォーマンスメトリックを予測するために作成される。例えば、回帰モデルは、特徴量の加重情報利得スコアの関数として特徴量の適合率-再現率曲線下面積(AUPRC)の増大を予測するために作成される。いくつかの実施形態では、回帰モデルは、605および609で決定されたインパクトスコアおよびパフォーマンスメトリックのペアを訓練データとして使用して訓練された機械学習モデルである。さまざまな実施形態では、訓練されたモデルは、インパクトスコアが決定された後に特徴量のパフォーマンスメトリックを予測するためにリアルタイムで適用され得る。例えば、訓練されたモデルは、特徴量に関連付けられているモデル品質の期待される改善を評価するための特徴量のパフォーマンスメトリックを決定するために、図5のステップ505で適用され得る。
【0061】
図7は、機械学習モデルに対する可能な特徴量としてテキストフィールドを自動的に識別および評価するためのプロセスの一実施形態を示すフローチャートである。例えば、図7のプロセスを用いて、テキストフィールドが、所望のターゲットフィールドを予測するための入力特徴量として利用される場合に、テキストフィールドは、期待されるモデルパフォーマンスを決定するために評価され得る。いくつかの実施形態では、図7のプロセスは、図3のプロセスによって開始され得る。例えば、図3のプロセスを用いて、ユーザは、可能な訓練データから識別された推薦されるテキストフィールド特徴量を利用することによって、所望のターゲットフィールドを予測するための機械学習モデルの作成を自動化することができる。識別されたテキストフィールドは、図7のプロセスを用いて、特徴量としての推薦のために処理および評価される。テキストフィールドは、ノミナル型に変換されノミナル型として評価されるのではなく、可変および/または任意の長さのテキストフィールドとして評価される。同様に、いくつかの実施形態では、図4の特徴量選択パイプラインは、可能なテキストフィールド特徴量が、所望のターゲットフィールドを予測するための機械学習モデルにどのように影響するかをリアルタイムで評価するために、図7のプロセスに依拠する。いくつかの実施形態では、図7のプロセスを用いて評価されたテキストフィールドは、図3のステップ303で可能な訓練データとして識別される。いくつかの実施形態では、図7のプロセスのさまざまなステップは、図4のプロセスによって実行される。例えば、いくつかの実施形態では、ステップ701は、図4の401で実行され、ステップ703は、図4の403で実行され、ステップ705は、図4の405および/または407で実行され、および/またはステップ707は、図4の409で実行される。いくつかの実施形態では、図7のプロセスは、推薦される入力特徴量を少なくとも部分的に決定するために、図1のサーバ121における機械学習プラットフォーム上で、および/または図2の203において、実行される。
【0062】
701において、テキストフィールド列が、入力データとして受け取られる。例えば、データベーステーブルまたはデータセットのテキストフィールド列が、可能な訓練データとしてユーザによって識別される。識別された後、テキストフィールド列は、評価され得る入力データとして受け取られる。いくつかの実施形態では、テキストフィールド列は、可変または任意の長さのテキストに対応するエントリを含む。
【0063】
703において、受け取られたテキストフィールド列に対する列データ型が、テキストフィールドデータとして識別される。例えば、受け取られたテキストフィールド列のエントリは、列データ型がテキストフィールドデータであることを決定するために評価される。この評価ステップは、受け取られたテキストフィールド列のデータ型が実際にはテキストデータであり、テキストデータと両立するノミナル型などの他の型でないと決定するために必要であり得る。例えば、いくつかのシナリオでは、テキストフィールド列に記憶されるデータは、テキストデータとして記憶されるが、ノミナル、整数、数値、または他の適切なデータ型などの他のデータ型のほうが、そのデータをより正確に、および/または効率的に記述し得る。703において、受け取られたテキストフィールド列に対する列データ型は、テキストフィールドデータであると確認される。
【0064】
705において、特徴量としてのテキストフィールドの適格性が評価される。例えば、テキストフィールド列は、所望のターゲットフィールドを予測するための適格な特徴量として評価される。いくつかの実施形態では、テキストフィールドは、まず、所望のターゲットフィールドを予測する際にインパクトスコアなどの特徴量関連性スコアを決定するために評価される。例示的なインパクトスコアは、加重正規化reliefスコアとして計算され得る。いくつかの実施形態では、reliefスコアは、ReliefFscoreであり、これは、互いに類似するインスタンス間で特徴量値がターゲットをどのくらい良好に区別するかによる特徴量関連性を示す統計的尺度である。ReliefFscoreのユークリッドノルム/フロベニウスノルムが、テキスト特徴量次元から計算され、加重正規化reliefスコアを導出するために、ターゲット特徴量の分布を用いて正規化され得る。計算された特徴量関連性スコアを用いて、パフォーマンスメトリックが決定され得る。例えば、期待されるモデルパフォーマンスの対応する尺度が、計算されたインパクトスコアに事前訓練モデルを適用することによって予測され得る。いくつかの実施形態では、テキストフィールド密度などの、テキストデータの他のメトリックも同様に評価され、予測において利用される。いくつかの実施形態では、パフォーマンスメトリックは、所望のターゲットフィールドを予測するための特徴量としてのテキストフィールドの適格性に対応する。例えば、予測されるパフォーマンスメトリックが高いほど、テキストフィールドは、所望のターゲットフィールドを予測するための特徴量として、より適格であり、および/またはより強く推薦される。
【0065】
707において、推薦が、評価されたテキストフィールドに対して提供される。例えば、決定された適格性評価を用いて、推薦が、701で受け取られたテキストフィールドに関して行われる。いくつかの実施形態では、推薦は、他の可能な特徴量のうちで、評価されたテキストフィールドをランク付けすることを含む。ユーザが異なる可能な特徴量の間で選択することを支援するための有用なガイドとして、推薦は、入力特徴量としての評価されたテキストフィールドに依拠する際のモデルパフォーマンスにおける期待される改善を含む。いくつかの実施形態では、テキストフィールドは、決定されたパフォーマンスメトリックが最小パフォーマンス閾値を超える場合にのみ、推薦され得る。さまざまな実施形態では、ユーザは、所望のターゲットフィールドを予測するための機械学習モデルの自動作成のための特徴量を選択するために、提供された推薦を利用することができる。
【0066】
図8は、所望のターゲットフィールドを予測するための機械学習モデルに対する特徴量としてテキストフィールドの適格性を評価するためのプロセスの一実施形態を示すフローチャートである。いくつかの実施形態では、図8のプロセスは、可能な訓練データとして提供されたテキストフィールドデータを評価し、リアルタイムで実行され得る。いくつかの実施形態では、図8のプロセスは、図2の203において、図4の405および/または407において、および/または図7の705において、実行される。いくつかの実施形態では、図8のプロセスのさまざまなステップは、テキストフィールドを評価する際に図5のプロセスによって実行される。例えば、いくつかの実施形態では、ステップ803は、図5の501で実行され、ステップ805は、図5の503で実行され、および/またはステップ807は、図5の505および/または507で実行される。いくつかの実施形態では、図8のプロセスは、図1のサーバ121における機械学習プラットフォーム上で実行される。いくつかの実施形態では、図8のプロセスの諸部分はまた、オフラインのパフォーマンスメトリック予測モデルを訓練するために利用される。例えば、いくつかの実施形態では、801、803、および/または805で決定されたインパクトスコアまたは他の関係するメトリックは、オフラインのパフォーマンスメトリック予測モデルを訓練するために図6のステップ605で利用される。その後、事前訓練モデルは、テキストフィールドの対応するパフォーマンスメトリックを決定するために807で利用される。
【0067】
801において、入力テキストフィールドデータが処理される。例えば、テキストフィールドデータを処理および/または前処理することは、インパクトスコアを計算するために要求される中間データを準備するために実行され得る。処理は、テキストデータに対する統計的尺度を決定することと、テキストデータからの複数の評価サンプルを準備することと、を含み得る。いくつかの実施形態では、処理は、提供されたテキストデータに対する単語頻度-逆文書頻度(TF-IDF)メトリックを決定すること、および/または次元数を低減するためにテキストデータの射影を実行すること、を含む。テキストフィールド密度を決定するなどの他の適切な処理が、実行され得る。さまざまな実施形態では、入力テキストフィールドデータは、指定されたデータベーステーブルまたはデータセット内のテキストフィールド列のエントリに対応し得る。
【0068】
803において、加重reliefスコアが計算される。例えば、801で準備された中間データを用いて、加重reliefスコアが、テキストフィールドに対して計算される。いくつかの実施形態では、加重reliefスコアは、正規化reliefスコアである。各計算された加重reliefスコアは、入力データの層化サンプルセットに対応し得る。入力データの複数のサンプルに対する加重reliefスコアを計算することによって、データは、入力テキストフィールドデータの全体に対する加重reliefスコアを計算することに比べて最小限のリソース要求で適切に抽出され得る。例えば、いくつかのシナリオでは、3個の層化サンプルが、801で準備され、3個の加重reliefスコアが、各準備されたサンプルに対応して1つずつ、803で計算される。
【0069】
805において、平均加重reliefスコアが決定される。例えば、803からの計算された加重reliefスコアを用いて、平均加重reliefスコアが計算される。平均加重reliefスコアは、正規化reliefスコアであることができ、テキストフィールドに対するインパクトスコアに対応し得る。いくつかの実施形態では、インパクトスコアの大きさは、所望のターゲットフィールドを予測する際にテキストフィールドがどのくらいのインパクトを有するかに対応する。インパクトスコアは、所望のターゲットフィールドを予測する際の特徴量の関連性を表すが、テキストフィールドが機械学習モデルに対する入力特徴量として利用される場合に、モデルパフォーマンスの改善を定量化しない場合がある。いくつかの実施形態では、決定された平均加重reliefスコア、および801で計算されたテキストフィールド密度などの任意の他の適切なテキストフィールドメトリックは、オフラインのパフォーマンスメトリック予測モデルを訓練するために利用される。
【0070】
807において、テキストフィールドに対するパフォーマンスメトリックが決定される。例えば、決定された平均加重reliefスコア、およびテキストフィールド密度などの任意の追加的なテキストフィールドメトリックを用いて、パフォーマンスメトリックが予測され得る。いくつかの実施形態では、パフォーマンスメトリックは、図6のプロセスを用いてオフラインで訓練されたモデルなどの事前訓練モデルを適用することによって推論される。事前訓練モデルを利用することによって、期待されるモデルパフォーマンスの尺度が、リアルタイムで決定され得る。代わりに、パフォーマンスメトリック予測モデルの訓練中に、かなりの計算量およびリソース集約的な演算がオフラインで実行される。さまざまな実施形態では、決定されるパフォーマンスメトリックは、テキストフィールド特徴量の適合率-再現率曲線下面積(AUPRC)の増大に対応し得る。その増大は、予測のための特徴量として類似のテキストフィールドを用いた訓練されたモデルと、最も可能性の高い結果を常に予測するなどの適切なナイーブ分類技術を利用するベースラインモデルとの間の差に対応し得る。決定されたパフォーマンスメトリックは、テキストフィールド特徴量を利用しない機械学習モデルに比べて、テキストフィールド特徴量を利用する訓練されたモデルに対して期待され得るパフォーマンスの増大の指標を提供する。いくつかの実施形態では、パフォーマンスメトリックは、所望のターゲットフィールドを予測するための可能な、または適格な特徴量として、テキストフィールドに対する推薦を決定するために利用される。
【0071】
図9は、インパクトスコアを決定するために入力テキストフィールドデータを準備するためのプロセスの一実施形態を示すフローチャートである。いくつかの実施形態では、図9のプロセスは、図4の405および/または図8の801で実行され、モデルパフォーマンスに対するテキストフィールドのインパクトスコアまたは特徴量関連性を決定するための計算に先行する。いくつかの実施形態では、図9のプロセスは、図1のサーバ121における機械学習プラットフォーム上で実行される。いくつかの実施形態では、図9のプロセスの諸部分はまた、オフラインのパフォーマンスメトリック予測モデルを訓練するために利用される。例えば、いくつかの実施形態では、図9のプロセスは、図6のステップ605でテキストフィールドに対するインパクトスコアを決定するために、追加的なステップとともに実行される。
【0072】
901において、情報メトリックが、テキスト入力データに対して評価される。例えば、テキスト入力データに関する統計的尺度などの情報メトリックが決定される。情報メトリックは、リアルタイムで計算され、単語頻度-逆文書頻度(TF-IDF)メトリックなどのメトリックを含み得る。他の例として、テキストフィールド密度などの情報メトリックが、テキスト入力データに対して計算され得る。いくつかの実施形態では、情報メトリックは、テキスト入力データのサンプルを用いて、またはテキスト入力データの全データセットを評価することによって、決定され得る。さまざまな実施形態では、テキスト入力データは、指定されたデータベーステーブルまたはデータセット内のテキストフィールド列のエントリに対応し得る。
【0073】
903において、ランダム射影が、評価された入力データに対して実行される。例えば、多数の次元を有する大きいデータセットの場合、ランダム射影が、次元数を低減するために実行される。いくつかの実施形態では、次元数は、100次元などのより効率的な数に低減され得る。
【0074】
905において、入力サンプルデータセットが作成される。例えば、テキスト入力データの1つまたは複数のサンプルが、評価のために作成される。いくつかの実施形態では、テキスト入力データは、大きすぎるために、全データセットに対する単一のインパクトスコアを効率的に計算することができない。代わりに、複数のサンプルデータセットが作成される。各々にインパクトについてスコア付けすることができ、その後、サンプルインパクトスコアが平均される。さまざまな実施形態では、層化抽出が、複数のサンプルデータセットを作成するために適用される。作成されたデータセットは、テキスト入力データの十分な抽出を含み得る。例えば、いくつかの実施形態では、作成されたデータセットは、テキスト入力データのうちの約10%に及ぶ。
【0075】
図10は、テキストフィールド特徴量に対するパフォーマンスメトリックを決定するためのプロセスの一実施形態を示すフローチャートである。いくつかの実施形態では、図10のプロセスは、図5の505において、図7の705において、および/または図8の807において、実行される。いくつかの実施形態では、図10のプロセスによって利用されるインパクトスコアおよび追加的な情報メトリックは、図8および/または図9のプロセスを用いて計算される。いくつかの実施形態では、図10のプロセスは、図1のサーバ121における機械学習プラットフォーム上で実行される。
【0076】
1001において、テキストフィールドに対するインパクトスコアが受け取られる。例えば、テキストフィールドに対する平均加重reliefスコアなどのインパクトスコアが受け取られる。インパクトスコアは、テキストフィールドをモデル特徴量として使用するときに、所望のターゲットフィールドを予測する際の特徴量関連性の尺度であり得る。いくつかの実施形態では、受け取られるインパクトスコアは、リアルタイムで計算され、テキストフィールドの入力テキストデータの1つまたは複数のサンプルセットに対して計算され得る。さまざまな実施形態では、テキストフィールドおよびその入力テキストデータは、指定されたデータベーステーブルまたはデータセット内のテキストフィールド列のエントリに対応し得る。
【0077】
1003において、テキストフィールドに対する追加的なメトリックが受け取られる。例えば、テキストフィールド密度などの追加的なメトリックが、入力特徴量としての使用のために、受け取られ準備される。いくつかの実施形態では、パフォーマンスメトリックを予測するための入力特徴量としての追加的なメトリックの使用は、計算されたインパクトスコアのみに依拠することに比べて、予測結果を改善する。さまざまな実施形態では、追加的なメトリックは、リアルタイムで計算することができ、テキストフィールドの入力テキストデータの1つまたは複数のサンプルセットに対して、または全テキストフィールドデータセットに対して、のいずれかで計算され得る。
【0078】
1005において、叙述モデルが、テキストフィールドに対するパフォーマンスメトリックを決定するために適用される。例えば、パフォーマンスメトリック予測モデルは、期待されるモデルパフォーマンスの尺度を予測するために、オフラインで訓練され、1005で適用される。さまざまな実施形態では、予測モデルに対する入力特徴量は、1001で受け取られたインパクトスコアと、1003で受け取られた1つまたは複数の情報メトリックと、を含む。これらの受け取られた入力特徴量は、推論されたパフォーマンスメトリックとともにリアルタイムで計算され得る。これに対して、予測モデルの生成は、リソースおよび計算量に関して高価な場合があり、例えば、図6のプロセスを使用することによって、オフラインで訓練されることから利益を受ける。いくつかの実施形態では、予測されたパフォーマンスメトリックは、2つの比較モデルを比較する際のテキストフィールド特徴量の適合率-再現率曲線下面積(AUPRC)の増大に対応する。例えば、メトリックは、予測のための特徴量として類似のテキストフィールドを用いた訓練されたモデルと、最も可能性の高い結果を常に予測するなどの適切なナイーブ分類技術を利用するベースラインモデルとの間のパフォーマンス差に対応し得る。予測されたパフォーマンスメトリックは、テキストフィールド特徴量を利用しない機械学習モデルに比べて、テキストフィールド特徴量を利用する訓練されたモデルに対して期待され得るパフォーマンスの増大の指標を提供する。いくつかの実施形態では、パフォーマンスメトリックは、所望のターゲットフィールドを予測するための可能な、または適格な特徴量として、テキストフィールドに対する推薦を決定するために利用される。
【0079】
上記の実施形態は、理解を明確にする目的のためにかなり詳細に説明されたが、本発明は、提供された詳細に限定されない。本発明を実施する多くの代替的な態様がある。開示された実施形態は、例示的であり、限定的ではない。
[適用例1]
テキストフィールドデータ型に関連付けられている特徴量関連性スコアに少なくとも一部基づいて、期待されるモデルパフォーマンスの尺度を予測するように訓練された事前訓練モデルを生成し、
機械学習予測のための所望のターゲットフィールドの指定と、入力内容を記憶する1つまたは複数のテキストフィールドと、を受け取り、
前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について対応する特徴量関連性スコアを計算し、
前記対応する計算された特徴量関連性スコアに基づいて、前記事前訓練モデルを用いて、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について期待されるモデルパフォーマンスの対応する尺度を予測し、
前記所望のターゲットフィールドを予測するための機械学習モデルを生成するために、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの中からの特徴量選択において使用される、期待されるモデルパフォーマンスの前記予測された尺度を提供すること、
を備える、方法。
[適用例2]適用例1に記載の方法であって、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について前記対応する特徴量関連性スコアを計算することは、前記1つまたは複数のテキストフィールドの各々について統計的尺度を決定することを含む、方法。
[適用例3]適用例2に記載の方法であって、前記統計的尺度は、単語頻度-逆文書頻度(TF-IDF)メトリックに少なくとも一部基づく、方法。
[適用例4]適用例1に記載の方法であって、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について前記対応する特徴量関連性スコアを計算することは、入力内容を記憶する前記1つまたは複数のテキストフィールドの各々の1つまたは複数のサンプルデータセットを生成することを含む、方法。
[適用例5]適用例4に記載の方法であって、入力内容を記憶する前記1つまたは複数のテキストフィールドの各々の前記1つまたは複数の生成されるサンプルデータセットは、層化サンプルである、方法。
[適用例6]適用例4に記載の方法であって、前記1つまたは複数の生成されるサンプルデータセットの各々について関連性スコアを決定することをさらに備える、方法。
[適用例7]適用例1に記載の方法であって、前記1つまたは複数のテキストフィールドの各々について前記対応する特徴量関連性スコアを計算することは、前記1つまたは複数のテキストフィールドの各々について1つまたは複数の抽出された関連性スコアを平均することを含む、方法。
[適用例8]適用例1に記載の方法であって、前記事前訓練モデルを用いて、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について前記期待されるモデルパフォーマンスの前記対応する尺度を予測することは、前記1つまたは複数のテキストフィールドの各々について1つまたは複数の情報メトリックに前記事前訓練モデルを適用することを含む、方法。
[適用例9]適用例8に記載の方法であって、前記1つまたは複数の情報メトリックは、テキストフィールド密度メトリックを含む、方法。
[適用例10]適用例1に記載の方法であって、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について前記計算された特徴量関連性スコアは、加重正規化reliefスコアである、方法。
[適用例11]適用例1に記載の方法であって、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について期待されるモデルパフォーマンスの前記対応する尺度は、前記所望のターゲットフィールドを予測するためのベースラインモデルに比べて、前記機械学習モデルに関連づけられる適合率-再現率曲線下面積の増大した量に基づく、方法。
[適用例12]適用例1に記載の方法であって、前記所望のターゲットフィールドを予測するための前記機械学習モデルを生成するための前記特徴量選択において使用するための期待されるモデルパフォーマンスの前記予測される尺度に基づいて、前記入力内容を記憶する前記1つまたは複数のテキストフィールドをランク付けすることをさらに備える、方法。
[適用例13]適用例1に記載の方法であって、前記入力内容を記憶する前記1つまたは複数のテキストフィールドは、入力テキストフィールド、電子メール件名、電子メール本文、またはチャットダイアログから収集されたテキストを含む、方法。
[適用例14]1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサに結合されているメモリと、
を備えるシステムであって、前記メモリは、前記1つまたは複数のプロセッサに命令を提供するように構成され、前記命令は、実行されると、前記1つまたは複数のプロセッサに、
テキストフィールドデータ型に関連付けられている特徴量関連性スコアに少なくとも一部基づいて、期待されるモデルパフォーマンスの尺度を予測するように訓練された事前訓練モデルを生成させ、
機械学習予測のための所望のターゲットフィールドの指定と、入力内容を記憶する1つまたは複数のテキストフィールドと、を受け取らせ、
前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について対応する特徴量関連性スコアを計算させ、
前記対応する計算された特徴量関連性スコアに基づいて、前記事前訓練モデルを用いて、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について期待されるモデルパフォーマンスの対応する尺度を予測させ、
前記所望のターゲットフィールドを予測するための機械学習モデルを生成するために、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの中からの特徴量選択において使用される、期待されるモデルパフォーマンスの前記予測された尺度を提供させる、システム。
[適用例15]適用例14に記載のシステムであって、前記1つまたは複数のプロセッサに、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について前記対応する特徴量関連性スコアを計算させることは、前記1つまたは複数のプロセッサに、前記1つまたは複数のテキストフィールドの各々について統計的尺度を決定させることを含み、前記統計的尺度は、単語頻度-逆文書頻度(TF-IDF)メトリックに少なくとも一部基づく、システム。
[適用例16]適用例14に記載のシステムであって、前記メモリは、前記1つまたは複数のプロセッサに命令を提供するようにさらに構成され、前記命令は、実行されると、前記1つまたは複数のプロセッサに、
入力内容を記憶する前記1つまたは複数のテキストフィールドの各々の1つまたは複数のサンプルデータセットを生成させ、
前記1つまたは複数の生成されるサンプルデータセットの各々について抽出された関連性スコアを決定させ、
前記1つまたは複数のテキストフィールドの各々について1つまたは複数の決定された抽出された関連性スコアを平均させる、システム。
[適用例17]適用例14に記載のシステムであって、前記1つまたは複数のプロセッサに、前記事前訓練モデルを用いて、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について前記期待されるモデルパフォーマンスの前記対応する尺度を予測させることは、前記1つまたは複数のプロセッサに、前記1つまたは複数のテキストフィールドの各々について1つまたは複数の情報メトリックに前記事前訓練モデルを適用させることを含み、前記1つまたは複数の情報メトリックは、テキストフィールド密度メトリックを含む、システム。
[適用例18]適用例14に記載のシステムであって、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について前記計算された特徴量関連性スコアは、加重正規化reliefスコアである、システム。
[適用例19]適用例14に記載のシステムであって、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について期待されるモデルパフォーマンスの前記対応する尺度は、前記所望のターゲットフィールドを予測するためのベースラインモデルに比べて、前記機械学習モデルに関連づけられる適合率-再現率曲線下面積の増大した量に基づく、システム。
[適用例20]非一時的コンピュータ可読媒体に具現化されるコンピュータプログラム製品であって、
テキストフィールドデータ型に関連付けられている特徴量関連性スコアに少なくとも一部基づいて、期待されるモデルパフォーマンスの尺度を予測するように訓練された事前訓練モデルを生成し、
機械学習予測のための所望のターゲットフィールドの指定と、入力内容を記憶する1つまたは複数のテキストフィールドと、を受け取り、
前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について対応する特徴量関連性スコアを計算し、
前記対応する計算された特徴量関連性スコアに基づいて、前記事前訓練モデルを用いて、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの各々について期待されるモデルパフォーマンスの対応する尺度を予測し、
前記所望のターゲットフィールドを予測するための機械学習モデルを生成するために、前記入力内容を記憶する前記1つまたは複数のテキストフィールドの中からの特徴量選択において使用される、期待されるモデルパフォーマンスの前記予測された尺度を提供する、
ためのコンピュータ命令を備える、コンピュータプログラム製品。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10