(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-15
(45)【発行日】2022-12-23
(54)【発明の名称】段階的な機械学習を使用する自動化された意思決定
(51)【国際特許分類】
G06N 20/00 20190101AFI20221216BHJP
【FI】
G06N20/00 130
(21)【出願番号】P 2019550584
(86)(22)【出願日】2018-03-13
(86)【国際出願番号】 US2018022272
(87)【国際公開番号】W WO2018170028
(87)【国際公開日】2018-09-20
【審査請求日】2021-03-03
(32)【優先日】2017-03-14
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2018-03-13
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】517015753
【氏名又は名称】トゥプル,インコーポレイテッド
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】タピア,パブロ
(72)【発明者】
【氏名】チェン,シャン
(72)【発明者】
【氏名】ゲレーロ,ラファエル
【審査官】多賀 実
(56)【参考文献】
【文献】特開2013-167964(JP,A)
【文献】特開2005-309535(JP,A)
【文献】特開2012-073761(JP,A)
【文献】RAVNEET SINGH SIDHU,"MACHINE LEARNING BASED DATACENTER MONITORING FRAMEWORK",[online],2016年12月,pp. 1-58,[2022年1月25日検索],インターネット:<URL: https://rc.library.uta.edu/uta-ir/bitstream/handle/10106/26427/SIDHU-THESIS-2016.pdf?sequence=1&isAllowed=y>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06F 11/07
G06F 11/28-11/36
G06F 16/00-16/958
G06Q 10/00-10/10
G06Q 50/00-99/00
(57)【特許請求の範囲】
【請求項1】
コンピュータが、
システムに関連した性能指標を含む第1のデータセットを入力するステップと、
前記第1のデータセットに第1の機械学習段階を適用して前記第1のデータセット内のデータをカテゴリ化するステップと、
前記第1の機械学習段階から第1のカテゴリを受信するステップと、
前記第1のカテゴリに関連した第2のデータセットに第2の機械学習段階を適用するステップと、
前記第2の機械学習段階から第2のカテゴリを受信するステップと、
前記第2のカテゴリを使用して、前記システムにおける問題の識別、前記問題についての新しい質問、及び前記システムに対する推奨されたアクションのうちの1つ以上を提供するステップと、
を含む方法。
【請求項2】
前記第2のカテゴリは前記第1のカテゴリより特定的である、請求項1に記載の方法。
【請求項3】
前記第2のカテゴリに関連した第3のデータセットに第3の機械学習
段階を適用し、前記第3の機械学習段階から第3のカテゴリを受信するステップ、をさらに含む請求項1に記載の方法。
【請求項4】
前記第1の機械学習段階及び訓練データをデータベースに記憶し、前記第1の機械学習段階及び訓練データを、前記第1の機械学習段階を作成した第1のユーザに関連づけるステップと、
前記第2の機械学習段階及び訓練データを前記データベースに記憶し、前記第2の機械学習段階及び訓練データを、前記第2の機械学習段階を作成した第2のユーザに関連づけるステップと、
をさらに含む請求項1に記載の方法。
【請求項5】
前記データベースに記憶された機械学習段階からマスタ機械学習段階を選択するステップ、をさらに含む請求項4に記載の方法。
【請求項6】
前記システムは電子デバイスのネットワークをさらに含む、請求項1に記載の方法。
【請求項7】
前記第1のデータセットは、前記システムに関連した特定ドメイン情報から導出された特徴から導出された特徴をさらに含む、請求項1に記載の方法。
【請求項8】
コンピュー
タに、
システムヘルス指標に関連した入力データセットに第1の機械学習段階を適用する動作と、
前記第1の機械学習段階から出力として第1のカテゴリを受信する動作と、
前記第1のカテゴリを関連メトリクスと共に表示する動作と、
機械学習モデルと第2の機械学習段階への入力のための特徴の初期セットとを含む選択を受信して、前記第2の機械学習段階を作成する動作と、
前記第1のカテゴリに関連した入力データに前記第2の機械学習段階を適用する動作と、
前記第2の機械学習段階から出力として第2のカテゴリを受信する動作と、
前記第2のカテゴリを関連メトリクスと共に表示する動作と、
を実行
させ、
前記第2のカテゴリは前記第1のカテゴリより粒度が細かい
、コンピュータ
プログラム。
【請求項9】
コンピュー
タに、前記第2のカテゴリに関して取るべき推奨されたアクションを表示するさらなる動作を
さらに実行
させる、請求項8に記載
のコンピュータ
プログラム。
【請求項10】
コンピュー
タに、各カテゴリについて信頼性スコアを決定し、各カテゴリと共に前記信頼性スコアを表示するさらなる動作を
さらに実行
させる、請求項8に記載
のコンピュータ
プログラム。
【請求項11】
第2の機械学習段階を作成する動作は、前記第1の機械学習段階に対して新しいサブカテゴリを作成する動作をさらに含む、請求項8に記載
のコンピュータ
プログラム。
【請求項12】
前記入力データセットは、主要性能メトリクス(KPI)とネットワークに特有のドメイン情報に関連した特徴とを含む特徴のセットをさらに含む、請求項10に記載
のコンピュータ
プログラム。
【請求項13】
プロセッサと、
メモリと、
前記メモリに記憶され
、複数の機械学習段階を含む多段階機械学習アプリケーションと、を含み、
前記多段階機械学習アプリケーションは、
ネットワークの特定ドメイン知識と
前記ネットワークの主要性能指標(KPI)とから
複数の特徴
セットを導出するように構成された特徴定義コンポーネントであり、
各特徴セットは機械学習段階への入力として使用される
1つ以上の特徴を含む、特徴定義コンポーネントと、
ユーザが機械学習段階及びカテゴリを作成して、
前記機械学習段階について
前記複数の特徴セットのうちの1つ以上の関連特徴セットを
決定し、か
つ機械学習段階の性能を監視するための方法を提供するように構成されたユーザインターフェースユーティリティと、
機械学習段階について、複数の特徴のうちいずれが分類動作に最も関連するかを評価するように構成された特徴簡素化コンポーネントと、
前記複数の機械学習段階のうちの第1の機械学習段階であり、前記第1の機械学習段階は、前記複数の特徴セットのうちの第1の特徴セットを処理することにより複数のカテゴリの中から第1のカテゴリを決定するように構成される、第1の機械学習段階と、
前記第1のカテゴリに従って前記複数の機械学習段階から選択され、かつ前記複数の特徴セットから選択された第2の特徴セットを処理することにより出力を決定するように構成された第2の機械学習段階と、
を含む、システム。
【請求項14】
元のラベル付けされていないデータセットに教師なし分類機構を適用して、導出された特徴に基づいて自然グループ化パターンを発見するように構成された新カテゴリ検出器、をさらに含む請求項13に記載のシステム。
【請求項15】
スケーリング機能を準備及び適用し、カテゴリの相当な不均衡が検出されたときにカテゴリの均衡を保つように構成された特徴調整コンポーネント、をさらに含む請求項13に記載のシステム。
【発明の詳細な説明】
【背景技術】
【0001】
コンピュータ化されたシステムの創造以来、システム機能性に関する問題を識別し、伝送遅延、データ破壊などの望ましくないアーチファクトを修復するためのソリューションを導き出す必要、又はシステム故障が発生する可能性のあるとき若しくはメンテナンスが必要とされるときを予測する必要が存在してきた。こうした作業は、「自動化されたソリューション」、「サービス品質(QoS)」、「予測サービス」などと呼ばれている。
【0002】
自動化されたシステムソリューションの基本的な部分は、データを収集し、関連する情報を相関的に抽出する動作である。性能が測定され、これに関連するデータが解析されて性能の欠陥が存在するかどうかを決定し、存在する場合には、欠陥が如何にして是正され得るか、又はさらには性能問題が将来に発生し得るかについて決定がなされる。こうした作業は、これらの作業を行うために相当なヒューマンインタラクションを必要とする。さらに、多くの企業は、こうした作業を行える種類の訓練された専門家をサポートすることができず、これらはしばしば、専門の請負業者を雇って企業システムのサポートに関連した作業の一部を管理することに任される。
【0003】
システムの性能を監視及び解析し、システム技術者に情報を提供する自動化されたソリューションが存在し、技術者が問題を識別及び分析し、あるいは将来の問題を先見的に識別するのに役立つ。こうしたソリューションは人間の活動及びインタラクションを温存するが、これらは複雑であり、ヒューリスティックモデルに相当程度まで依存する。これは、各々の自動化されたソリューションについて論理を構築及び微調節するために多大な労力を必要とするが、各ソリューションは、特定のシステム上の問題を解決することに向けられ、典型的には、異なる環境に適応させることは困難である。さらに、こうしたシステムは、典型的には、動作の特定の態様のみに焦点を合わせ、システムの全体論的な見方で動作しない。
【発明の概要】
【0004】
本明細書で説明される手法は、管理された段階における問題を分類し、問題を識別し、時には1つ以上のソリューションを推奨することができる、人工知能(すなわち、機械学習)に基づくアプリケーションの作成の一般化に関する。分類プロセスで段階を用いることは、結果が有意義である可能性を高めると同時に、より少ないヒューマンインタラクションを要する。こうした手法は、問題の根本原因を見つけ、問題に対して1つ以上の可能なソリューションを提供することができるシステムソリューションアプリケーションを作成するために使用できる。本明細書で説明されるツールは、システムを訓練するために使用される機械学習モデルからユーザインターフェースウィジェットまで、アプリケーション開発プロセスをサポートするために使用できる。段階的な機械学習を使用するこうしたツールは、特定の問題に向けられた論理をより容易に作成するために使用できる。
【図面の簡単な説明】
【0005】
以下の詳細な説明は、添付の図面を参照している。図において、異なる図における同一の参照番号の参照使用の最左桁は、同様又は同一のアイテムを示す。
【
図1】本明細書で説明される技術において実装される例示的な一般的な多段階機械学習パイプラインの図を示す。
【
図2】本説明に従って構成された例示的なコンピューティング装置である。
【
図3】機械学習訓練を提供するための例示的なユーザインターフェースである。
【
図4】本明細書の少なくとも1つの実装において説明される、新しいカテゴリモデルを定義するための例示的な手法の図である。
【
図5】本明細書の少なくとも1つの実装において説明される、既存のモデルに新しいカテゴリを追加するための例示的な手法の図である。
【
図6】本明細書で説明される実装の1つ以上で使用される入力データの自動グループ化のための手法を示す例示的なインターフェースである。
【
図7】本明細書で説明される1つ以上の実装で使用され得る例示的な多段階モデルツリーの図である。
【
図8】本明細書で説明される1つ以上の実装に従うモデル訓練解析画面を示すユーザインターフェースの一例である。
【
図9】本明細書で説明される1つ以上の実装に従い使用され得る特徴実装インターフェースの例である。
【
図10】1つ以上の実装に関して本明細書で説明される、所与のサンプルが新しいカテゴリに属するべきかどうかの判断の一例を示す2次元表現である。
【
図11】本説明に従う例示的なユーザインターフェース訓練ウィンドウである。
【発明を実施するための形態】
【0006】
機械学習の典型的なアプリケーションは、データセットの受信、機械学習アルゴリズムの実行、パターンの認識、及び問題の報告を含む。教師あり学習は、通常、対象事項の専門家により指定されたカテゴリと主要性能指標(Key Performance Indicators、KPI)とのセットを含む構造、すなわちモデルを仮定する。教師ありアルゴリズムの例は、ナイーブベイズ、SM、ロジスティック回帰、ランダムフォレスト等を含む。教師なし学習は、機械学習アルゴリズムにその独自のパターンを見つけさせる。
【0007】
教師あり学習で発生し得る1つの問題は、複雑すぎる構造が使用される(すなわち、カテゴリが多すぎる)場合、データが有意義なソリューションに収束しないことである。パターンは検出されるが、結果の信頼性は統計的に有意でなくなる。
【0008】
本明細書で説明される手法において、段階を使用するバージョンの教師あり学習が説明される。機械学習アルゴリズムは、単一の段階で教師あり学習を行うのでなく、専門家により指定された複数のカテゴリ及びKPIから構成される部分構造を使用してのみ適用される。構造がより簡素であるため、収束の可能性が高い。機械学習アルゴリズムが適用され、その結果に基づいて別の段階が選択される。後者の段階は、異なる部分構造を使用する。このプロセスは、信頼できる結果が得られるまで繰り返される。
【0009】
各段階で、粒度がより微細になる。例えば、システムが自動車に関連する場合、初期段階又はモデルは、自動車に問題があることを示すことができる。後続の段階(より粒度が細かい(more granular))は、自動車の特定のサブシステムに、例えばエンジン冷却システムなどに問題があることを示すことができる。段階において増加的に粒度の細かいモデルを扱うことで、プロセスが進行すると問題に焦点を合わせることができる。
【0010】
説明される手法の特徴のいくつかは、(1)機械学習アルゴリズムがいずれの構造(カテゴリ及びKPI)を使用して後続の段階に移るかを自動的に選択できること、(2)機械学習アルゴリズムが対象事項の専門家に介入させ、新しいカテゴリ及びKPIを追加できること、(3)機械学習アルゴリズムが(教師なし学習と同様に)新しいカテゴリ及びKPIを自動的に示唆できること、及び(4)新しい構造を作るときに、新しい構造が導出されたデータで自動的に訓練できることである。
【0011】
[機械学習分析への段階的アプローチ]
システム問題を解決するプロセスは、典型的には、カテゴリに分類できる。最初の質問が回答されると、問題の新しい次元が明らかになる。例えば、あるサイトにアラームに起因した問題があることが分かると、この種の問題がエスカレーションを要するかどうかについての質問が生じる。別の例として、最初の問題が特定の地理的エリア(例えば、クラスタ)で検出された場合、問題が局所的かどうか、又はそれがより広範な問題の一部であるかについての質問が生じる。
【0012】
問題を分析する(resolve)ために必要な情報(すなわち「特徴」)の数及びタイプは、対処が必要な特定の問題に依存する。上記の例では、製品が局所的であるか又はより大きい規模であるかの決定に関して、問題を分析するために新しい主要性能指標(KPI)セットが必要とされ、可能性として、共通コア、輸送などを含む。
【0013】
一例として、2段階のシナリオを考える。例中の第1のモデルへの入力は、DL電力レベル、UL電力レベル、チャネル品質インデックス、チャネル利用、ドロップレート、ブロックレート、サイトにおけるアラーム等を含む。第1のモデルからの出力が、干渉問題があることを示し得る。続いて、第2のモデルへの入力は、DL電力レベル、UL電力レベル、外部セクタからの電力、エッジにおける電力、コアにおける電力等を含み得る。第1のモデルからの出力は、オーバーシュータセルに起因した干渉の問題があることを示す可能性がある。二次段階の追加により、より低いレベルの粒度で問題が認識できた。
【0014】
図1は、本概念(一般的な多段階(multistage)機械学習パイプライン)の一般的表現の
図100を示す。プロセスの各段階において、前の決定がより深い粒度へ、最終的には特定の推奨へ精緻化される(例えば、「チケットをネットワークオペレーションへエスカレーションする」)。
【0015】
こうした論理チェーンの作成を簡素化するために、以下の一般的ユーティリティのセットが本明細書で説明され、これらは以下で詳細に説明される。これらの一般的ユーティリティは以下を含む。
【0016】
1.特徴定義コンポーネント。特徴定義コンポーネントは、構成/IDE(統合開発環境)アプローチに基づき新しい特徴の定義を可能にする一般的ユーティリティである。
【0017】
2.UIユーティリティ。ユーザインターフェースユーティリティは、UI(ユーザインターフェース)サポート画面を介してモデルの作成及び訓練を可能にする。
【0018】
3.一般的な特性、例えば、データのタイプ及び範囲、各カテゴリの利用可能な訓練サンプル数等に基づいて、入力データを自動的に前処理する特徴調整コンポーネント。
【0019】
4.各モデルについて最も関連する特徴セットは何かを決定するよう試み、収束及び進行中の訓練を試行及び簡素化する特徴簡素化コンポーネント。
【0020】
5.新カテゴリ検出器。新カテゴリ検出器は、ひとたびモデルが訓練されていると、新しいサンプルがまだカバーされていない新しいカテゴリに属する可能性があるかを検出するユーティリティである。
【0021】
6.機械学習段階が正確な推奨を提供するのにどれほど準備できているかを算出し、所与の回答の信頼性を推定するように構成された信頼性算出器。
【0022】
[例示的な動作環境]
図2は、本説明の手法が実装され得る例示的なコンピューティング装置200のブロック図である。以下の議論において、特定の相互作用が特定のコンポーネントに帰することがある。本明細書で詳細に説明されない少なくとも1つの代替的な実装において、他のコンポーネント相互作用及び通信が提供され得ることに留意されたい。以下の
図2の議論は、全ての可能な実装のサブセットを表すに過ぎない。さらに、他の実装は異なる可能性があるが、例示的なコンピューティング装置200の1つ以上の要素は、プロセッサ実行可能命令のコードセグメントを含むソフトウェアアプリケーションとして説明され、該コードセグメントを含むコンポーネントを有する。そのようなものとして、本説明において特定のコンポーネントに帰する特定の特性は、代わりの実装において1つ以上の他のコンポーネントにより実行されてもよい。例示的なコンピューティング装置200内の属性又は機能の代わりの帰属は、本明細書で説明される手法又はこれに対し別記の特許請求の範囲を制限することを意図しない。さらに、コンピューティング装置200に示される要素は、複数のコンピューティング装置上に分散して実装されてもよく、あるいは、ここに示されるように単一のコンピューティング装置に含まれてもよい。
【0023】
例示的なコンピューティング装置200は、コンピュータ実行可能命令を処理する1つ以上のプロセッサ202を含む。1つ以上のプロセッサ202の各々は、シングルコアプロセッサ又はマルチコアプロセッサであってもよい。例示的なコンピューティング装置200はまた、ユーザインターフェース204及び1つ以上の通信インターフェース206を含む。ユーザインターフェース204は、ユーザと例示的なコンピューティング装置200との間のインターフェースを提供するハードウェアコンポーネントを提供する。ユーザインターフェース204は、ディスプレイモニタ、ノブ、ダイヤル、読み出し装置(readouts)、プリンタ、キーボード、スタイル等を含むことができる。
【0024】
通信インターフェース206は、例示的なコンピューティング装置200の外部に位置するコンポーネントとの通信を容易にし、例示的なコンピューティング装置200にネットワーキング能力を提供する。例えば、コンピューティング装置200は、通信インターフェース206経由で、プライベートネットワーク、インターネットなどの1つ以上のネットワークを介して他の電子装置(例えば、ラップトップ、コンピュータ等)とデータを交換してもよい。例示的なコンピューティング装置200と他の電子装置との間の通信は、データ及び/又は音声通信を送信及び受信するための当該分野で知られる任意の種類の通信プロトコルを利用してもよい。
【0025】
例示的なコンピューティング装置200はまた、種々のハードウェア208を含む。種々のハードウェア208は、ハードウェアコンポーネントと、デバイス動作を実行するために使用される関連ソフトウェア及び/又はファームウェアとを含む。種々のハードウェア208には、例示的なコンピューティング装置200とのユーザインタラクションをサポートする、キーボード、マウス、ディスプレイ、マイクロホン、カメラなどの、個々に図示されていない1つ以上のユーザインターフェースハードウェアコンポーネントが含まれる。
【0026】
例示的なコンピューティング装置200はまた、データ、実行可能命令、モジュール、コンポーネント、データ構造等を記憶するメモリ210を含む。メモリ210は、コンピュータ読取可能媒体を使用して実装できる。コンピュータ読取可能媒体は、少なくとも2つのタイプのコンピュータ読取可能媒体、すなわち、コンピュータ記憶媒体及び通信媒体を含む。コンピュータ記憶媒体は、コンピュータ読取可能命令、データ構造、プログラムモジュール、又は他のデータなどの情報の記憶のために任意の方法又は技術で実装される揮発性及び不揮発性の、取外し可能及び取外し不能の媒体を含む。コンピュータ記憶媒体は、これらに限られないが、RAM、ROM、EEPROM、フラッシュメモリ若しくは他のメモリ技術、CD‐ROM、デジタル多用途ディスク(DVD)若しくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置若しくは他の磁気記憶デバイス、又はコンピューティング装置によるアクセスのための情報を記憶することに使用できる任意の他の非伝送媒体を含む。コンピュータ記憶媒体は、「非一時的」媒体と呼ばれることもある。理論的には、全ての記憶媒体は一時的であるが、用語「非一時的」は、通信媒体から記憶媒体を対比させるために使用され、コンピュータ実行可能プログラム、アプリケーション、命令等を記憶できる有形のコンポーネントを参照する。対照的に、通信媒体は、コンピュータ読取可能命令、データ構造、プログラムモジュール、又は他のデータを、搬送波などの変調されたデータ信号又は他の伝送機構において具現化し得る。通信媒体は、「一時的」媒体と呼ばれることもあり、電子データが無形の形式でのみ記憶できる。
【0027】
オペレーティングシステム212は、例示的なコンピューティングシステム200のメモリ210に記憶される。オペレーティングシステム212は、プロセッサ202、通信インターフェース204、通信インターフェース206、種々のハードウェア208、及びメモリ動作の機能性を制御する。さらに、オペレーティングシステム212は、例示的なコンピューティング装置200が様々な入力(例えば、ユーザ制御、ネットワークインターフェース、及び/又は、メモリデバイス)を介してデータを受信及び送信し、プロセッサ202を使用してデータを処理して出力を生成することを可能にするコンポーネントを含む。オペレーティングシステム212は、出力の提示を制御する(例えば、電子ディスプレイにデータを表示する、メモリにデータを記憶する、データを他の電子装置に送信する等)提示コンポーネントを含むことができる。さらに、オペレーティングシステム212は、典型的なオペレーティングシステムに一般的に関連する様々な追加機能を実行する他のコンポーネントを含むことができる。メモリ210はまた、例示的なコンピューティング装置200のための機能性を提供又はサポートし、あるいは例示的なコンピューティング装置200自体に関連してもしなくてもよい一般的又は専用の装置のユーザ機能を提供する、種々のソフトウェアアプリケーション214又はプログラムを記憶する。ソフトウェアアプリケーション214は、システムソフトウェアアプリケーションと、非システム機能を実行する実行可能アプリケーションとを含むことができる。
【0028】
多段階機械学習アプリケーション216がメモリに記憶され、本明細書で説明される多段階機械学習動作を駆動する。多段階機械学習アプリケーション216は、特徴定義コンポーネント218、ユーザインターフェース(UI)ユーティリティ220、及び自動特徴調整コンポーネント222を含む。多段階機械学習アプリケーション216はまた、特徴簡素化コンポーネント224、新カテゴリ検出器226、及び信頼性算出器228を含む。データベース230もまたメモリ210に記憶され、多段階機械学習アプリケーション216及びコンピューティング装置200の他のコンポーネントからのデータを記憶し、これらにデータを提供するように構成される。
【0029】
多段階学習アプリケーション216のコンポーネント及び特徴は、1つ以上の後続の図に関して、以下でより詳細に説明される。以下の議論において、
図2に示される要素及び参照番号を引き続き参照する。
【0030】
[特徴定義コンポーネント]
機械学習アルゴリズムの複雑さを簡素化するために、比較的複雑な特徴が生成され、これらはネットワーク技術者からの特定ドメイン知識から導出される。KPI、パラメータ等のようなデータ入力を単に供給する代わりに、本明細書で説明される手法は、この情報を、技術者が意思決定プロセスにおいて典型的に使用する典型的な情報ビットに整理することを企図する。こうした特徴の例は、これらに限られないが、(a)ネットワーク上のノードが輻輳しているか否か、(b)システム端末がLTE700帯域をサポートするか否か、(c)水淡水化システムの膜が低効率で動作しているかどうか、及び(d)前の期間にシステム要素においてクリティカルアラームがアクティブであったか否かを含む。
【0031】
本明細書で説明される手法の実装は、以下の一般的ユーティリティ、すなわち、(a)テキスト変数に基づく専用メトリクスの定義、例えば、オペレーティングシステム名が「Android」を含む、記述がフレーズ「家で」を含む等、(b)カウンタ、アラーム、ユーザ呼詳細レコード(Call Detail Records、CDR)などの様々なメトリクスについての、様々な集約レベルでのKPIの算出、(c)任意の所与のKPIについての、アラートの算出、(d)任意の所与のKPIについての異常の算出、特定の時間/日を同じ時間/日の期間について前のx週と比較する、及び(e)前に定義された機能のうち任意のものからの結果の任意の組み合わせ、をサポートする。
【0032】
[UIユーティリティ]
図3は、本明細書で説明される実装の1つ以上で使用され得る機械学習訓練を提供するための例示的なユーザインターフェース300を示す。機械学習段階に基づく新しいツール、プロセス、又はアルゴリズムの作成が一連のUIユーティリティを介して容易にされ、これにおいて、ユーザは、タスクに必要になる異なる段階及び/又はカテゴリを作成し、各段階について関連する特徴セットを選択し、機械学習段階の各々の性能を監視することができる。
【0033】
例示的なユーザインターフェース300は、検出されたシステム問題、顧客の苦情等の一連の発生(incidences)302を、ユーザが潜在的な分析(resolution)が何であるべきかを決定するのに役立つ関連メトリクス又は特徴の高レベルの要約と共に表示する。特徴は、データ供給の組み合わせの複雑な表現を含むことができる。例示的なユーザインターフェース300は、「OK」ボタン304、「訓練」ボタン306、及び「性能をレビュー」ボタン308も含む。
【0034】
「OK」ボタン304が作動されると、現在表示されている分析が受け入れられる。「訓練」ボタン306が作動されると、新しい訓練サンプルが作成される。「性能をレビュー」ボタン308が作動されると、機械学習システムの全体的な性能がレビューのために提示される。
【0035】
[作成ウィザード]
図4は、本明細書の少なくとも1つの実装で説明される、新しいカテゴリモデルを定義するための例示的な手法の
図400を示す。本明細書で説明される1つ以上の実装において、ユーザが現在の発生を使用してモデルを訓練するよう決定すると、画面ユーティリティ402、404のセットが表示される。これらのユーティリティは、ユーザ技術者による決定を記録することを意図している。既存の分析が存在しない(すなわち、分析がユーザに提示されていない)場合、ユーザは、この段階で使用される特定の機械学習モデルと、モデルに入力すべき特徴の初期セットとを選択することができる。
【0036】
ひとたびカテゴリが作成されていると、ユーザは、
図5に関して図示及び説明されるものと同様のユーザインターフェース要素500を使用して、モデル内に新しいカテゴリを追加することができる。プロセスが完了すると、ユーザは、現在のサンプルに対するカテゴリ及びサブカテゴリの選択をしたことになる。「終了」ボタン502、504が選択されると、関連するモデル(段階1、段階2等)に対して新しい訓練サンプルが記録される。
【0037】
図6は、本明細書で説明される実装の1つ以上で使用される入力データの自動グループ化のための手法を示す例示的なユーザインターフェース600である。UI600は、新たに作成された段階に対する新しいデータカテゴリの作成を示唆するためのユーティリティを含む。これは、データサンプルを1つずつ訓練することに対する代替策を提供する。
【0038】
図6に示される例示的なユーザインターフェース600の少なくとも一部を導出するために、元のデータセットに初期分類方法が適用される。データグループが作成されているとき、ユーザは、特定のデータサンプルのカテゴリを変更するよう決定してもよい。このプロセスは、以下で
図10に関してより詳細に説明される。
【0039】
ひとたび機械学習モデルが訓練され、動作中であると、システムは、所与の新しいデータサンプルが既存のカテゴリの1つに適合しないように見えるときを検出する。これは、分析フィールドが「不明な分析 ‐ 潜在的な新しいカテゴリ」を示すとき、ユーザに示される。次いで、ユーザは新しいカテゴリを作成し、サンプルを訓練セットに追加できる。
【0040】
図7は、本明細書で説明される1つ以上の実装で使用され得る例示的な多段階モデルツリー700の図である。モデルツリー700は、これまでにツールで作成された全てのモデル702~714を示す。各モデル702~714は、モデルの精度(accuracy)を示す。各モデル702~714は、選択可能である。ユーザがモデルをレビューしたいとき、ユーザは、モデル702~714のうちの1つを選択し、「モデルをレビュー」ボタン716を作動させる。
【0041】
図8は、本明細書で説明される1つ以上の実装に従うモデル訓練解析画面800を示す例示的なユーザインターフェース800である。モデル訓練解析画面800は、
図7に関して図示及び説明された「モデルをレビュー」ボタン716を選択すると示される。
【0042】
モデル訓練解析画面800上で、ユーザは、特定のモデルの全体的な性能、すなわち、使用された訓練サンプル、訓練誤差、及び全体的な精度を見ることができる。モデル訓練解析画面800はまた、異なるモデルを選択して、現在の特徴セットを変更し(追加/削除)、あるいはモデルを再訓練するためのユーティリティを有する。モデル及び訓練データは、各々の一意のユーザに対して記憶できることに留意されたい。さらに、複数のユーザに共通であるマスタモデルが利用されてもよく、ユーザ固有の訓練データがマスタモデルに適用されてもよい。
【0043】
モデル訓練解析画面800は、訓練サンプル及び新規データサンプルを示す。モデル訓練解析画面800は、以下で詳細に説明される機能を呼び出すようにさらに構成される。「特徴を変更」ボタン802もまた含まれ、これは、選択されると、
図9に関して図示及び説明される表示を提示する。
【0044】
図9は、本明細書で説明される1つ以上の実装に従い使用され得る、特徴実装インターフェース900の一例である。特徴実装インターフェース900は、「特徴を変更」ボタン802(
図8)が作動されると表示される。図示の例において、現在の特徴セットは、様々な方法で決定され得る関連性の順序でユーザに提示される。ここで、関連性はスコア902により決定される。次いで、ユーザは、各段階についてどの特徴が除去できるかを決定することができる。
【0045】
特徴実装インターフェース900はまた、特定の閾値より低いスコアを有する全ての特徴を削除するためのユーティリティ904を提供する。
【0046】
[自動的な特徴調整]
自動特徴調整モジュール220(
図2)は、入力特徴を自動的に調整して、機械学習アルゴリズムが適切に機能し、特定の分析に向けて歪められないことを確実にするように構成される。特徴調整モジュールは、スケーリング機能を準備し、ツール/プロセス/アルゴリズムに供給される任意の将来のサンプルにスケーリングを適用するように構成される。
【0047】
[スケーリング機能の準備] 訓練セットに基づいて、特徴調整モジュールは、各個々の特徴についてデータのタイプ及び値範囲を解析する。次いで、これらの各々について平均値と標準偏差が導出される。
【0048】
[スケーリング機能の適用] 各データサンプル(訓練及び新規双方のデータセット)について、正規化データセットが算出される。正規化データセットはユーザ定義される。例えば、ユーザは、正規化データセットをx-mean/stdに等しいように設定してもよい。
【0049】
[カテゴリの均衡] 訓練データがカテゴリ間で重大な不均衡を提示する(例えば、カテゴリ1に対するサンプルがカテゴリ2に対してより10倍多い)場合、システムは不正確な結果を生じる可能性があり、典型的には、より多くのデータサンプルを有するカテゴリを支持する。「カテゴリの均衡」機能は、各カテゴリ内の訓練サンプル数を算出するように構成され、重大な不均衡が見つけられた場合、該機能は、より頻度の低いカテゴリをオーバーサンプリングし、より頻度の低いカテゴリからランダムのサンプルをコピーする。「重大な」不均衡とみなされるために存在すべき偏差は、構成可能である。
【0050】
[自動的な特徴簡素化]
自動特徴簡素化モジュール224(
図2)は、あらゆる段階モデルにおいて、分類の間に使用される最も関連する特徴を評価するように構成される。該モジュールは、さらに、特徴をランク付けし、結果を対応するユーザインターフェースを介してユーザに提示するように構成される。
【0051】
自動特徴簡素化モジュール224はまた、相対スコアに基づいて特徴セットを自動的に簡素化するためのユーザオプションを提供するように構成される。特徴の数が指定された閾値より大きい場合、上位x個の特徴(例えば、3など)の絶対重み(absolute weight)の平均の構成された閾値(例えば、10%)より小さい絶対重みを有する特徴が除去されてもよい。
【0052】
[信頼性(性能メトリクス)算出器]
信頼性算出器228(
図2)は、所与の機械学習モデルの性能及び信頼性を理解するために有用な一連のメトリクスを提供するように構成される。機械学習モデル及び訓練セットを所与として、信頼性モジュールは、適切な推定を提供するのに十分な数の訓練サンプルがあるかを決定するように構成される。この指示は、各カテゴリについて、及びモデル全体について提供される。この情報を有することで、モデルが信頼できるとみなされるために特定のカテゴリがさらなる訓練データを必要とするかどうかの判断力を提供する。この情報は、特徴数とモデル内のクラス数とに基づいて算出される。含まれる特徴がより多く、モデル内のクラス数がより大きいほど、モデルを適切に訓練するためにより多くのサンプルが必要とされる。
【0053】
モデル精度が、真陽性と真陰性との和を検証サンプルの総数で割ったものとして算出される。モデル再現率の特徴が含まれ、これは、検証データセットについて真陽性を真陽性と偽陰性との和で割った統計(「再現率」(Recall))を提供するように構成される。モデル適合率の特徴が、検証セットについて真陽性を全ての陽性推測(真及び偽の陽性)で割った統計(「適合率」(Precision))を提供する。
【0054】
Fスコア(F-Score)は、再現率と適合率との間の調和平均である。Fスコアは、モデルの性能を表す単一の値を有する方法として使用できる。Fスコアの知られた形式は(2*適合率*再現率/(適合率+再現率))である。しかしながら、この式は、必要に応じて適合率又は再現率にさらなる重みを与えるように構成可能である。
【0055】
サンプル信頼性推定機能は、所与の入力データベクトルの推定結果に対する誤差の確率を示す。受信者動作曲線(Receiver Operating Curve、ROC)は、真陽性及び偽陽性の誤り率間のトレードオフの範囲を通じて分類器性能を要約する。x軸は偽陽性のパーセンテージ(FPR=FP/TN+FP)を表し、y軸は真陽性のパーセンテージ(TPR=TP/TP+FN)を表す。
【0056】
データサンプルを2‐Dに射影する(project)射影ユーティリティが含まれてもよい。こうしたユーティリティは、所与のデータベクトルセットの2‐D表現を提供する。これは、解析目的で画面にデータを表示するのに有用であり、時に「次元削減」と呼ばれる。この表現は、t‐SNE(t分布型確率的近傍埋め込み(t-distributed Stochastic Neighbor Embedding))法、サモン射影(Sammon projection)などを含む様々な方法の1つに基づいて実装されてもよい。
【0057】
[新しいカテゴリの自動検出]
少なくとも1つの実装において、初期段階の間に訓練サンプルを生成する代替方法が使用され(「新カテゴリ検出器」224、
図2)、ここで、教師なし分類機構が元のラベル付けされていないデータセットに適用される。これを行うことで、特徴セットに基づく自然なグループ化パターンを明らかにすることができる。この機能は、K‐Means、DBScan、又は他の機能などのクラスタリング機構を使用してもよい。K‐Meansのように、クラスタ数が事前に分からない場合、全体的な誤差対クラスタサイズを解析することにより、最適なクラスタ数を選択する方法がある。
【0058】
ひとたびデータグループが作成されていると、ユーザは特定のデータサンプルを再分類することを決定できる。これは、教師あり分類モデルを訓練するために使用できる新しい訓練セットを効率的に生成する。ひとたび段階モデルが訓練されていると、新しいサンプルは訓練されたモデルに基づいて分類される。あらゆる所与のサンプルについて、モデルは対応するカテゴリを決定しようとする。結果の信頼性が低い場合(例えば、< 60%又は何らかの他の予め定義された閾値)、サンプルが新しいカテゴリに属するかどうかについて決定がなされる。
【0059】
図10は、1つ以上の実装に関して本明細書で説明される、所与のサンプルが新しいカテゴリに属すべきかどうかの決定の一例を示す2次元表現1000である。これは、様々な方法で達成され得る。1つの選択肢は、出力分類確率ベクトルをサンプル座標として使用して、サンプル間のN次元ユークリッド距離を使用することである。次いで、訓練セットについて中心及び半径(典型的な距離)が算出できる。新しいサンプルが既存のグループ(構成可能な図)から遠く離れている場合、それは潜在的な新しい候補を示唆し得る。
【0060】
図11は、発生(incidences)に関連する情報を表示する例示的なユーザインターフェース訓練ウィンドウ1100である。訓練ウィンドウ1100は、図示のように、又はより多くの若しくはより少ないユーザインターフェース要素を使用し得る同様の実装において実装され得る、様々なユーザインターフェースセクションを含む。訓練ウィンドウ1100は、複数の発生を行において各発生についてのヘルス指標と共に示す発生表1102を含む。訓練ウィンドウ1100はまた、全てのサンプルをマッピングする相関マップ1104を含む。ユーザにより選択された、選択されたサンプル1106が、相関マップ1104に、選択されたサンプル1106と類似のサンプル1108と共に示されている。
【0061】
例示的なユーザインターフェース訓練ウィンドウ1100はまた、選択されたサンプル1106と類似のサンプル1108に関連した情報を示す類似発生(similar incidence)表1110を含む。さらに、機械学習要約(machine learning summary)表1112が訓練ウィンドウ1100に含まれ、発生に関連した様々な統計を示す。特定の統計が機械学習要約表1112に示されているが、さらなる、より少ない、及び/又は異なる統計が表示されてもよい。
【0062】
[結び]
対象事項が構造的特徴及び/又は方法論的動作に特有の言語で説明されたが、別記の特許請求の範囲で定義される対象事項は必ずしも上記の特定の特徴又は動作に限定されないことを理解されたい。むしろ、上述された特定の特徴及び動作は、特許請求の範囲を実施する例示的な形態として開示されている。