特許7195264 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ トゥプル，インコーポレイテッドの特許一覧

特許7195264段階的な機械学習を使用する自動化された意思決定

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-12-15

(45)【発行日】2022-12-23

(54)【発明の名称】段階的な機械学習を使用する自動化された意思決定

(51)【国際特許分類】

G06N 20/00 20190101AFI20221216BHJP

【ＦＩ】

G06N20/00 130

【請求項の数】 15

(21)【出願番号】P 2019550584

(86)(22)【出願日】2018-03-13

(65)【公表番号】

(43)【公表日】2020-04-23

(86)【国際出願番号】 US2018022272

(87)【国際公開番号】W WO2018170028

(87)【国際公開日】2018-09-20

【審査請求日】2021-03-03

(31)【優先権主張番号】62/471,319

(32)【優先日】2017-03-14

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】15/919,435

(32)【優先日】2018-03-13

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】517015753

【氏名又は名称】トゥプル，インコーポレイテッド

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100091214

【弁理士】

【氏名又は名称】大貫進介

(72)【発明者】

【氏名】タピア，パブロ

(72)【発明者】

【氏名】チェン，シャン

(72)【発明者】

【氏名】ゲレーロ，ラファエル

【審査官】多賀実

(56)【参考文献】

【文献】特開２０１３－１６７９６４（ＪＰ，Ａ）

【文献】特開２００５－３０９５３５（ＪＰ，Ａ）

【文献】特開２０１２－０７３７６１（ＪＰ，Ａ）

【文献】RAVNEET SINGH SIDHU，"MACHINE LEARNING BASED DATACENTER MONITORING FRAMEWORK"，[online]，2016年12月，pp. 1-58，［２０２２年１月２５日検索］，インターネット:<URL: https://rc.library.uta.edu/uta-ir/bitstream/handle/10106/26427/SIDHU-THESIS-2016.pdf?sequence=1&isAllowed=y>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｇ０６Ｆ１１／０７

Ｇ０６Ｆ１１／２８－１１／３６

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ０６Ｑ１０／００－１０／１０

Ｇ０６Ｑ５０／００－９９／００

(57)【特許請求の範囲】

【請求項1】

コンピュータが、
システムに関連した性能指標を含む第１のデータセットを入力するステップと、
前記第１のデータセットに第１の機械学習段階を適用して前記第１のデータセット内のデータをカテゴリ化するステップと、
前記第１の機械学習段階から第１のカテゴリを受信するステップと、
前記第１のカテゴリに関連した第２のデータセットに第２の機械学習段階を適用するステップと、
前記第２の機械学習段階から第２のカテゴリを受信するステップと、
前記第２のカテゴリを使用して、前記システムにおける問題の識別、前記問題についての新しい質問、及び前記システムに対する推奨されたアクションのうちの１つ以上を提供するステップと、
を含む方法。

【請求項2】

前記第２のカテゴリは前記第１のカテゴリより特定的である、請求項１に記載の方法。

【請求項3】

前記第２のカテゴリに関連した第３のデータセットに第３の機械学習段階を適用し、前記第３の機械学習段階から第３のカテゴリを受信するステップ、をさらに含む請求項１に記載の方法。

【請求項4】

前記第１の機械学習段階及び訓練データをデータベースに記憶し、前記第１の機械学習段階及び訓練データを、前記第１の機械学習段階を作成した第１のユーザに関連づけるステップと、
前記第２の機械学習段階及び訓練データを前記データベースに記憶し、前記第２の機械学習段階及び訓練データを、前記第２の機械学習段階を作成した第２のユーザに関連づけるステップと、
をさらに含む請求項１に記載の方法。

【請求項5】

前記データベースに記憶された機械学習段階からマスタ機械学習段階を選択するステップ、をさらに含む請求項４に記載の方法。

【請求項6】

前記システムは電子デバイスのネットワークをさらに含む、請求項１に記載の方法。

【請求項7】

前記第１のデータセットは、前記システムに関連した特定ドメイン情報から導出された特徴から導出された特徴をさらに含む、請求項１に記載の方法。

【請求項8】

コンピュータに、
システムヘルス指標に関連した入力データセットに第１の機械学習段階を適用する動作と、
前記第１の機械学習段階から出力として第１のカテゴリを受信する動作と、
前記第１のカテゴリを関連メトリクスと共に表示する動作と、
機械学習モデルと第２の機械学習段階への入力のための特徴の初期セットとを含む選択を受信して、前記第２の機械学習段階を作成する動作と、
前記第１のカテゴリに関連した入力データに前記第２の機械学習段階を適用する動作と、
前記第２の機械学習段階から出力として第２のカテゴリを受信する動作と、
前記第２のカテゴリを関連メトリクスと共に表示する動作と、
を実行させ、
前記第２のカテゴリは前記第１のカテゴリより粒度が細かい、コンピュータプログラム。

【請求項9】

コンピュータに、前記第２のカテゴリに関して取るべき推奨されたアクションを表示するさらなる動作をさらに実行させる、請求項８に記載のコンピュータプログラム。

【請求項10】

コンピュータに、各カテゴリについて信頼性スコアを決定し、各カテゴリと共に前記信頼性スコアを表示するさらなる動作をさらに実行させる、請求項８に記載のコンピュータプログラム。

【請求項11】

第２の機械学習段階を作成する動作は、前記第１の機械学習段階に対して新しいサブカテゴリを作成する動作をさらに含む、請求項８に記載のコンピュータプログラム。

【請求項12】

前記入力データセットは、主要性能メトリクス（ＫＰＩ）とネットワークに特有のドメイン情報に関連した特徴とを含む特徴のセットをさらに含む、請求項１０に記載のコンピュータプログラム。

【請求項13】

プロセッサと、
メモリと、
前記メモリに記憶され、複数の機械学習段階を含む多段階機械学習アプリケーションと、を含み、
前記多段階機械学習アプリケーションは、
ネットワークの特定ドメイン知識と前記ネットワークの主要性能指標（ＫＰＩ）とから複数の特徴セットを導出するように構成された特徴定義コンポーネントであり、各特徴セットは機械学習段階への入力として使用される１つ以上の特徴を含む、特徴定義コンポーネントと、
ユーザが機械学習段階及びカテゴリを作成して、前記機械学習段階について前記複数の特徴セットのうちの１つ以上の関連特徴セットを決定し、かつ機械学習段階の性能を監視するための方法を提供するように構成されたユーザインターフェースユーティリティと、
機械学習段階について、複数の特徴のうちいずれが分類動作に最も関連するかを評価するように構成された特徴簡素化コンポーネントと、
前記複数の機械学習段階のうちの第１の機械学習段階であり、前記第１の機械学習段階は、前記複数の特徴セットのうちの第１の特徴セットを処理することにより複数のカテゴリの中から第１のカテゴリを決定するように構成される、第１の機械学習段階と、
前記第１のカテゴリに従って前記複数の機械学習段階から選択され、かつ前記複数の特徴セットから選択された第２の特徴セットを処理することにより出力を決定するように構成された第２の機械学習段階と、
を含む、システム。

【請求項14】

元のラベル付けされていないデータセットに教師なし分類機構を適用して、導出された特徴に基づいて自然グループ化パターンを発見するように構成された新カテゴリ検出器、をさらに含む請求項１３に記載のシステム。

【請求項15】

スケーリング機能を準備及び適用し、カテゴリの相当な不均衡が検出されたときにカテゴリの均衡を保つように構成された特徴調整コンポーネント、をさらに含む請求項１３に記載のシステム。

【発明の詳細な説明】

【背景技術】

【0001】

コンピュータ化されたシステムの創造以来、システム機能性に関する問題を識別し、伝送遅延、データ破壊などの望ましくないアーチファクトを修復するためのソリューションを導き出す必要、又はシステム故障が発生する可能性のあるとき若しくはメンテナンスが必要とされるときを予測する必要が存在してきた。こうした作業は、「自動化されたソリューション」、「サービス品質（ＱｏＳ）」、「予測サービス」などと呼ばれている。

【0002】

自動化されたシステムソリューションの基本的な部分は、データを収集し、関連する情報を相関的に抽出する動作である。性能が測定され、これに関連するデータが解析されて性能の欠陥が存在するかどうかを決定し、存在する場合には、欠陥が如何にして是正され得るか、又はさらには性能問題が将来に発生し得るかについて決定がなされる。こうした作業は、これらの作業を行うために相当なヒューマンインタラクションを必要とする。さらに、多くの企業は、こうした作業を行える種類の訓練された専門家をサポートすることができず、これらはしばしば、専門の請負業者を雇って企業システムのサポートに関連した作業の一部を管理することに任される。

【0003】

システムの性能を監視及び解析し、システム技術者に情報を提供する自動化されたソリューションが存在し、技術者が問題を識別及び分析し、あるいは将来の問題を先見的に識別するのに役立つ。こうしたソリューションは人間の活動及びインタラクションを温存するが、これらは複雑であり、ヒューリスティックモデルに相当程度まで依存する。これは、各々の自動化されたソリューションについて論理を構築及び微調節するために多大な労力を必要とするが、各ソリューションは、特定のシステム上の問題を解決することに向けられ、典型的には、異なる環境に適応させることは困難である。さらに、こうしたシステムは、典型的には、動作の特定の態様のみに焦点を合わせ、システムの全体論的な見方で動作しない。

【発明の概要】

【0004】

本明細書で説明される手法は、管理された段階における問題を分類し、問題を識別し、時には１つ以上のソリューションを推奨することができる、人工知能（すなわち、機械学習）に基づくアプリケーションの作成の一般化に関する。分類プロセスで段階を用いることは、結果が有意義である可能性を高めると同時に、より少ないヒューマンインタラクションを要する。こうした手法は、問題の根本原因を見つけ、問題に対して１つ以上の可能なソリューションを提供することができるシステムソリューションアプリケーションを作成するために使用できる。本明細書で説明されるツールは、システムを訓練するために使用される機械学習モデルからユーザインターフェースウィジェットまで、アプリケーション開発プロセスをサポートするために使用できる。段階的な機械学習を使用するこうしたツールは、特定の問題に向けられた論理をより容易に作成するために使用できる。

【図面の簡単な説明】

【0005】

以下の詳細な説明は、添付の図面を参照している。図において、異なる図における同一の参照番号の参照使用の最左桁は、同様又は同一のアイテムを示す。

【図1】本明細書で説明される技術において実装される例示的な一般的な多段階機械学習パイプラインの図を示す。

【図2】本説明に従って構成された例示的なコンピューティング装置である。

【図3】機械学習訓練を提供するための例示的なユーザインターフェースである。

【図4】本明細書の少なくとも１つの実装において説明される、新しいカテゴリモデルを定義するための例示的な手法の図である。

【図5】本明細書の少なくとも１つの実装において説明される、既存のモデルに新しいカテゴリを追加するための例示的な手法の図である。

【図6】本明細書で説明される実装の１つ以上で使用される入力データの自動グループ化のための手法を示す例示的なインターフェースである。

【図7】本明細書で説明される１つ以上の実装で使用され得る例示的な多段階モデルツリーの図である。

【図8】本明細書で説明される１つ以上の実装に従うモデル訓練解析画面を示すユーザインターフェースの一例である。

【図9】本明細書で説明される１つ以上の実装に従い使用され得る特徴実装インターフェースの例である。

【図10】１つ以上の実装に関して本明細書で説明される、所与のサンプルが新しいカテゴリに属するべきかどうかの判断の一例を示す２次元表現である。

【図11】本説明に従う例示的なユーザインターフェース訓練ウィンドウである。

【発明を実施するための形態】

【0006】

機械学習の典型的なアプリケーションは、データセットの受信、機械学習アルゴリズムの実行、パターンの認識、及び問題の報告を含む。教師あり学習は、通常、対象事項の専門家により指定されたカテゴリと主要性能指標（Key Performance Indicators、ＫＰＩ）とのセットを含む構造、すなわちモデルを仮定する。教師ありアルゴリズムの例は、ナイーブベイズ、ＳＭ、ロジスティック回帰、ランダムフォレスト等を含む。教師なし学習は、機械学習アルゴリズムにその独自のパターンを見つけさせる。

【0007】

教師あり学習で発生し得る１つの問題は、複雑すぎる構造が使用される（すなわち、カテゴリが多すぎる）場合、データが有意義なソリューションに収束しないことである。パターンは検出されるが、結果の信頼性は統計的に有意でなくなる。

【0008】

本明細書で説明される手法において、段階を使用するバージョンの教師あり学習が説明される。機械学習アルゴリズムは、単一の段階で教師あり学習を行うのでなく、専門家により指定された複数のカテゴリ及びＫＰＩから構成される部分構造を使用してのみ適用される。構造がより簡素であるため、収束の可能性が高い。機械学習アルゴリズムが適用され、その結果に基づいて別の段階が選択される。後者の段階は、異なる部分構造を使用する。このプロセスは、信頼できる結果が得られるまで繰り返される。

【0009】

各段階で、粒度がより微細になる。例えば、システムが自動車に関連する場合、初期段階又はモデルは、自動車に問題があることを示すことができる。後続の段階（より粒度が細かい（more granular））は、自動車の特定のサブシステムに、例えばエンジン冷却システムなどに問題があることを示すことができる。段階において増加的に粒度の細かいモデルを扱うことで、プロセスが進行すると問題に焦点を合わせることができる。

【0010】

説明される手法の特徴のいくつかは、（１）機械学習アルゴリズムがいずれの構造（カテゴリ及びＫＰＩ）を使用して後続の段階に移るかを自動的に選択できること、（２）機械学習アルゴリズムが対象事項の専門家に介入させ、新しいカテゴリ及びＫＰＩを追加できること、（３）機械学習アルゴリズムが（教師なし学習と同様に）新しいカテゴリ及びＫＰＩを自動的に示唆できること、及び（４）新しい構造を作るときに、新しい構造が導出されたデータで自動的に訓練できることである。

【0011】

［機械学習分析への段階的アプローチ］
システム問題を解決するプロセスは、典型的には、カテゴリに分類できる。最初の質問が回答されると、問題の新しい次元が明らかになる。例えば、あるサイトにアラームに起因した問題があることが分かると、この種の問題がエスカレーションを要するかどうかについての質問が生じる。別の例として、最初の問題が特定の地理的エリア（例えば、クラスタ）で検出された場合、問題が局所的かどうか、又はそれがより広範な問題の一部であるかについての質問が生じる。

【0012】

問題を分析する（resolve）ために必要な情報（すなわち「特徴」）の数及びタイプは、対処が必要な特定の問題に依存する。上記の例では、製品が局所的であるか又はより大きい規模であるかの決定に関して、問題を分析するために新しい主要性能指標（ＫＰＩ）セットが必要とされ、可能性として、共通コア、輸送などを含む。

【0013】

一例として、２段階のシナリオを考える。例中の第１のモデルへの入力は、ＤＬ電力レベル、ＵＬ電力レベル、チャネル品質インデックス、チャネル利用、ドロップレート、ブロックレート、サイトにおけるアラーム等を含む。第１のモデルからの出力が、干渉問題があることを示し得る。続いて、第２のモデルへの入力は、ＤＬ電力レベル、ＵＬ電力レベル、外部セクタからの電力、エッジにおける電力、コアにおける電力等を含み得る。第１のモデルからの出力は、オーバーシュータセルに起因した干渉の問題があることを示す可能性がある。二次段階の追加により、より低いレベルの粒度で問題が認識できた。

【0014】

図１は、本概念（一般的な多段階（multistage）機械学習パイプライン）の一般的表現の図１００を示す。プロセスの各段階において、前の決定がより深い粒度へ、最終的には特定の推奨へ精緻化される（例えば、「チケットをネットワークオペレーションへエスカレーションする」）。

【0015】

こうした論理チェーンの作成を簡素化するために、以下の一般的ユーティリティのセットが本明細書で説明され、これらは以下で詳細に説明される。これらの一般的ユーティリティは以下を含む。

【0016】

１．特徴定義コンポーネント。特徴定義コンポーネントは、構成／ＩＤＥ（統合開発環境）アプローチに基づき新しい特徴の定義を可能にする一般的ユーティリティである。

【0017】

２．ＵＩユーティリティ。ユーザインターフェースユーティリティは、ＵＩ（ユーザインターフェース）サポート画面を介してモデルの作成及び訓練を可能にする。

【0018】

３．一般的な特性、例えば、データのタイプ及び範囲、各カテゴリの利用可能な訓練サンプル数等に基づいて、入力データを自動的に前処理する特徴調整コンポーネント。

【0019】

４．各モデルについて最も関連する特徴セットは何かを決定するよう試み、収束及び進行中の訓練を試行及び簡素化する特徴簡素化コンポーネント。

【0020】

５．新カテゴリ検出器。新カテゴリ検出器は、ひとたびモデルが訓練されていると、新しいサンプルがまだカバーされていない新しいカテゴリに属する可能性があるかを検出するユーティリティである。

【0021】

６．機械学習段階が正確な推奨を提供するのにどれほど準備できているかを算出し、所与の回答の信頼性を推定するように構成された信頼性算出器。

【0022】

［例示的な動作環境］
図２は、本説明の手法が実装され得る例示的なコンピューティング装置２００のブロック図である。以下の議論において、特定の相互作用が特定のコンポーネントに帰することがある。本明細書で詳細に説明されない少なくとも１つの代替的な実装において、他のコンポーネント相互作用及び通信が提供され得ることに留意されたい。以下の図２の議論は、全ての可能な実装のサブセットを表すに過ぎない。さらに、他の実装は異なる可能性があるが、例示的なコンピューティング装置２００の１つ以上の要素は、プロセッサ実行可能命令のコードセグメントを含むソフトウェアアプリケーションとして説明され、該コードセグメントを含むコンポーネントを有する。そのようなものとして、本説明において特定のコンポーネントに帰する特定の特性は、代わりの実装において１つ以上の他のコンポーネントにより実行されてもよい。例示的なコンピューティング装置２００内の属性又は機能の代わりの帰属は、本明細書で説明される手法又はこれに対し別記の特許請求の範囲を制限することを意図しない。さらに、コンピューティング装置２００に示される要素は、複数のコンピューティング装置上に分散して実装されてもよく、あるいは、ここに示されるように単一のコンピューティング装置に含まれてもよい。

【0023】

例示的なコンピューティング装置２００は、コンピュータ実行可能命令を処理する１つ以上のプロセッサ２０２を含む。１つ以上のプロセッサ２０２の各々は、シングルコアプロセッサ又はマルチコアプロセッサであってもよい。例示的なコンピューティング装置２００はまた、ユーザインターフェース２０４及び１つ以上の通信インターフェース２０６を含む。ユーザインターフェース２０４は、ユーザと例示的なコンピューティング装置２００との間のインターフェースを提供するハードウェアコンポーネントを提供する。ユーザインターフェース２０４は、ディスプレイモニタ、ノブ、ダイヤル、読み出し装置（readouts）、プリンタ、キーボード、スタイル等を含むことができる。

【0024】

通信インターフェース２０６は、例示的なコンピューティング装置２００の外部に位置するコンポーネントとの通信を容易にし、例示的なコンピューティング装置２００にネットワーキング能力を提供する。例えば、コンピューティング装置２００は、通信インターフェース２０６経由で、プライベートネットワーク、インターネットなどの１つ以上のネットワークを介して他の電子装置（例えば、ラップトップ、コンピュータ等）とデータを交換してもよい。例示的なコンピューティング装置２００と他の電子装置との間の通信は、データ及び／又は音声通信を送信及び受信するための当該分野で知られる任意の種類の通信プロトコルを利用してもよい。

【0025】

例示的なコンピューティング装置２００はまた、種々のハードウェア２０８を含む。種々のハードウェア２０８は、ハードウェアコンポーネントと、デバイス動作を実行するために使用される関連ソフトウェア及び／又はファームウェアとを含む。種々のハードウェア２０８には、例示的なコンピューティング装置２００とのユーザインタラクションをサポートする、キーボード、マウス、ディスプレイ、マイクロホン、カメラなどの、個々に図示されていない１つ以上のユーザインターフェースハードウェアコンポーネントが含まれる。

【0026】

例示的なコンピューティング装置２００はまた、データ、実行可能命令、モジュール、コンポーネント、データ構造等を記憶するメモリ２１０を含む。メモリ２１０は、コンピュータ読取可能媒体を使用して実装できる。コンピュータ読取可能媒体は、少なくとも２つのタイプのコンピュータ読取可能媒体、すなわち、コンピュータ記憶媒体及び通信媒体を含む。コンピュータ記憶媒体は、コンピュータ読取可能命令、データ構造、プログラムモジュール、又は他のデータなどの情報の記憶のために任意の方法又は技術で実装される揮発性及び不揮発性の、取外し可能及び取外し不能の媒体を含む。コンピュータ記憶媒体は、これらに限られないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ若しくは他のメモリ技術、ＣＤ‐ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）若しくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置若しくは他の磁気記憶デバイス、又はコンピューティング装置によるアクセスのための情報を記憶することに使用できる任意の他の非伝送媒体を含む。コンピュータ記憶媒体は、「非一時的」媒体と呼ばれることもある。理論的には、全ての記憶媒体は一時的であるが、用語「非一時的」は、通信媒体から記憶媒体を対比させるために使用され、コンピュータ実行可能プログラム、アプリケーション、命令等を記憶できる有形のコンポーネントを参照する。対照的に、通信媒体は、コンピュータ読取可能命令、データ構造、プログラムモジュール、又は他のデータを、搬送波などの変調されたデータ信号又は他の伝送機構において具現化し得る。通信媒体は、「一時的」媒体と呼ばれることもあり、電子データが無形の形式でのみ記憶できる。

【0027】

オペレーティングシステム２１２は、例示的なコンピューティングシステム２００のメモリ２１０に記憶される。オペレーティングシステム２１２は、プロセッサ２０２、通信インターフェース２０４、通信インターフェース２０６、種々のハードウェア２０８、及びメモリ動作の機能性を制御する。さらに、オペレーティングシステム２１２は、例示的なコンピューティング装置２００が様々な入力（例えば、ユーザ制御、ネットワークインターフェース、及び／又は、メモリデバイス）を介してデータを受信及び送信し、プロセッサ２０２を使用してデータを処理して出力を生成することを可能にするコンポーネントを含む。オペレーティングシステム２１２は、出力の提示を制御する（例えば、電子ディスプレイにデータを表示する、メモリにデータを記憶する、データを他の電子装置に送信する等）提示コンポーネントを含むことができる。さらに、オペレーティングシステム２１２は、典型的なオペレーティングシステムに一般的に関連する様々な追加機能を実行する他のコンポーネントを含むことができる。メモリ２１０はまた、例示的なコンピューティング装置２００のための機能性を提供又はサポートし、あるいは例示的なコンピューティング装置２００自体に関連してもしなくてもよい一般的又は専用の装置のユーザ機能を提供する、種々のソフトウェアアプリケーション２１４又はプログラムを記憶する。ソフトウェアアプリケーション２１４は、システムソフトウェアアプリケーションと、非システム機能を実行する実行可能アプリケーションとを含むことができる。

【0028】

多段階機械学習アプリケーション２１６がメモリに記憶され、本明細書で説明される多段階機械学習動作を駆動する。多段階機械学習アプリケーション２１６は、特徴定義コンポーネント２１８、ユーザインターフェース（ＵＩ）ユーティリティ２２０、及び自動特徴調整コンポーネント２２２を含む。多段階機械学習アプリケーション２１６はまた、特徴簡素化コンポーネント２２４、新カテゴリ検出器２２６、及び信頼性算出器２２８を含む。データベース２３０もまたメモリ２１０に記憶され、多段階機械学習アプリケーション２１６及びコンピューティング装置２００の他のコンポーネントからのデータを記憶し、これらにデータを提供するように構成される。

【0029】

多段階学習アプリケーション２１６のコンポーネント及び特徴は、１つ以上の後続の図に関して、以下でより詳細に説明される。以下の議論において、図２に示される要素及び参照番号を引き続き参照する。

【0030】

［特徴定義コンポーネント］
機械学習アルゴリズムの複雑さを簡素化するために、比較的複雑な特徴が生成され、これらはネットワーク技術者からの特定ドメイン知識から導出される。ＫＰＩ、パラメータ等のようなデータ入力を単に供給する代わりに、本明細書で説明される手法は、この情報を、技術者が意思決定プロセスにおいて典型的に使用する典型的な情報ビットに整理することを企図する。こうした特徴の例は、これらに限られないが、（ａ）ネットワーク上のノードが輻輳しているか否か、（ｂ）システム端末がＬＴＥ７００帯域をサポートするか否か、（ｃ）水淡水化システムの膜が低効率で動作しているかどうか、及び（ｄ）前の期間にシステム要素においてクリティカルアラームがアクティブであったか否かを含む。

【0031】

本明細書で説明される手法の実装は、以下の一般的ユーティリティ、すなわち、（ａ）テキスト変数に基づく専用メトリクスの定義、例えば、オペレーティングシステム名が「Ａｎｄｒｏｉｄ」を含む、記述がフレーズ「家で」を含む等、（ｂ）カウンタ、アラーム、ユーザ呼詳細レコード（Call Detail Records、ＣＤＲ）などの様々なメトリクスについての、様々な集約レベルでのＫＰＩの算出、（ｃ）任意の所与のＫＰＩについての、アラートの算出、（ｄ）任意の所与のＫＰＩについての異常の算出、特定の時間／日を同じ時間／日の期間について前のｘ週と比較する、及び（ｅ）前に定義された機能のうち任意のものからの結果の任意の組み合わせ、をサポートする。

【0032】

［ＵＩユーティリティ］
図３は、本明細書で説明される実装の１つ以上で使用され得る機械学習訓練を提供するための例示的なユーザインターフェース３００を示す。機械学習段階に基づく新しいツール、プロセス、又はアルゴリズムの作成が一連のＵＩユーティリティを介して容易にされ、これにおいて、ユーザは、タスクに必要になる異なる段階及び／又はカテゴリを作成し、各段階について関連する特徴セットを選択し、機械学習段階の各々の性能を監視することができる。

【0033】

例示的なユーザインターフェース３００は、検出されたシステム問題、顧客の苦情等の一連の発生（incidences）３０２を、ユーザが潜在的な分析（resolution）が何であるべきかを決定するのに役立つ関連メトリクス又は特徴の高レベルの要約と共に表示する。特徴は、データ供給の組み合わせの複雑な表現を含むことができる。例示的なユーザインターフェース３００は、「ＯＫ」ボタン３０４、「訓練」ボタン３０６、及び「性能をレビュー」ボタン３０８も含む。

【0034】

「ＯＫ」ボタン３０４が作動されると、現在表示されている分析が受け入れられる。「訓練」ボタン３０６が作動されると、新しい訓練サンプルが作成される。「性能をレビュー」ボタン３０８が作動されると、機械学習システムの全体的な性能がレビューのために提示される。

【0035】

［作成ウィザード］
図４は、本明細書の少なくとも１つの実装で説明される、新しいカテゴリモデルを定義するための例示的な手法の図４００を示す。本明細書で説明される１つ以上の実装において、ユーザが現在の発生を使用してモデルを訓練するよう決定すると、画面ユーティリティ４０２、４０４のセットが表示される。これらのユーティリティは、ユーザ技術者による決定を記録することを意図している。既存の分析が存在しない（すなわち、分析がユーザに提示されていない）場合、ユーザは、この段階で使用される特定の機械学習モデルと、モデルに入力すべき特徴の初期セットとを選択することができる。

【0036】

ひとたびカテゴリが作成されていると、ユーザは、図５に関して図示及び説明されるものと同様のユーザインターフェース要素５００を使用して、モデル内に新しいカテゴリを追加することができる。プロセスが完了すると、ユーザは、現在のサンプルに対するカテゴリ及びサブカテゴリの選択をしたことになる。「終了」ボタン５０２、５０４が選択されると、関連するモデル（段階１、段階２等）に対して新しい訓練サンプルが記録される。

【0037】

図６は、本明細書で説明される実装の１つ以上で使用される入力データの自動グループ化のための手法を示す例示的なユーザインターフェース６００である。ＵＩ６００は、新たに作成された段階に対する新しいデータカテゴリの作成を示唆するためのユーティリティを含む。これは、データサンプルを１つずつ訓練することに対する代替策を提供する。

【0038】

図６に示される例示的なユーザインターフェース６００の少なくとも一部を導出するために、元のデータセットに初期分類方法が適用される。データグループが作成されているとき、ユーザは、特定のデータサンプルのカテゴリを変更するよう決定してもよい。このプロセスは、以下で図１０に関してより詳細に説明される。

【0039】

ひとたび機械学習モデルが訓練され、動作中であると、システムは、所与の新しいデータサンプルが既存のカテゴリの１つに適合しないように見えるときを検出する。これは、分析フィールドが「不明な分析 ‐ 潜在的な新しいカテゴリ」を示すとき、ユーザに示される。次いで、ユーザは新しいカテゴリを作成し、サンプルを訓練セットに追加できる。

【0040】

図７は、本明細書で説明される１つ以上の実装で使用され得る例示的な多段階モデルツリー７００の図である。モデルツリー７００は、これまでにツールで作成された全てのモデル７０２～７１４を示す。各モデル７０２～７１４は、モデルの精度（accuracy）を示す。各モデル７０２～７１４は、選択可能である。ユーザがモデルをレビューしたいとき、ユーザは、モデル７０２～７１４のうちの１つを選択し、「モデルをレビュー」ボタン７１６を作動させる。

【0041】

図８は、本明細書で説明される１つ以上の実装に従うモデル訓練解析画面８００を示す例示的なユーザインターフェース８００である。モデル訓練解析画面８００は、図７に関して図示及び説明された「モデルをレビュー」ボタン７１６を選択すると示される。

【0042】

モデル訓練解析画面８００上で、ユーザは、特定のモデルの全体的な性能、すなわち、使用された訓練サンプル、訓練誤差、及び全体的な精度を見ることができる。モデル訓練解析画面８００はまた、異なるモデルを選択して、現在の特徴セットを変更し（追加／削除）、あるいはモデルを再訓練するためのユーティリティを有する。モデル及び訓練データは、各々の一意のユーザに対して記憶できることに留意されたい。さらに、複数のユーザに共通であるマスタモデルが利用されてもよく、ユーザ固有の訓練データがマスタモデルに適用されてもよい。

【0043】

モデル訓練解析画面８００は、訓練サンプル及び新規データサンプルを示す。モデル訓練解析画面８００は、以下で詳細に説明される機能を呼び出すようにさらに構成される。「特徴を変更」ボタン８０２もまた含まれ、これは、選択されると、図９に関して図示及び説明される表示を提示する。

【0044】

図９は、本明細書で説明される１つ以上の実装に従い使用され得る、特徴実装インターフェース９００の一例である。特徴実装インターフェース９００は、「特徴を変更」ボタン８０２（図８）が作動されると表示される。図示の例において、現在の特徴セットは、様々な方法で決定され得る関連性の順序でユーザに提示される。ここで、関連性はスコア９０２により決定される。次いで、ユーザは、各段階についてどの特徴が除去できるかを決定することができる。

【0045】

特徴実装インターフェース９００はまた、特定の閾値より低いスコアを有する全ての特徴を削除するためのユーティリティ９０４を提供する。

【0046】

［自動的な特徴調整］
自動特徴調整モジュール２２０（図２）は、入力特徴を自動的に調整して、機械学習アルゴリズムが適切に機能し、特定の分析に向けて歪められないことを確実にするように構成される。特徴調整モジュールは、スケーリング機能を準備し、ツール／プロセス／アルゴリズムに供給される任意の将来のサンプルにスケーリングを適用するように構成される。

【0047】

［スケーリング機能の準備］訓練セットに基づいて、特徴調整モジュールは、各個々の特徴についてデータのタイプ及び値範囲を解析する。次いで、これらの各々について平均値と標準偏差が導出される。

【0048】

［スケーリング機能の適用］各データサンプル（訓練及び新規双方のデータセット）について、正規化データセットが算出される。正規化データセットはユーザ定義される。例えば、ユーザは、正規化データセットをｘ－ｍｅａｎ／ｓｔｄに等しいように設定してもよい。

【0049】

［カテゴリの均衡］訓練データがカテゴリ間で重大な不均衡を提示する（例えば、カテゴリ１に対するサンプルがカテゴリ２に対してより１０倍多い）場合、システムは不正確な結果を生じる可能性があり、典型的には、より多くのデータサンプルを有するカテゴリを支持する。「カテゴリの均衡」機能は、各カテゴリ内の訓練サンプル数を算出するように構成され、重大な不均衡が見つけられた場合、該機能は、より頻度の低いカテゴリをオーバーサンプリングし、より頻度の低いカテゴリからランダムのサンプルをコピーする。「重大な」不均衡とみなされるために存在すべき偏差は、構成可能である。

【0050】

［自動的な特徴簡素化］
自動特徴簡素化モジュール２２４（図２）は、あらゆる段階モデルにおいて、分類の間に使用される最も関連する特徴を評価するように構成される。該モジュールは、さらに、特徴をランク付けし、結果を対応するユーザインターフェースを介してユーザに提示するように構成される。

【0051】

自動特徴簡素化モジュール２２４はまた、相対スコアに基づいて特徴セットを自動的に簡素化するためのユーザオプションを提供するように構成される。特徴の数が指定された閾値より大きい場合、上位ｘ個の特徴（例えば、３など）の絶対重み（absolute weight）の平均の構成された閾値（例えば、１０％）より小さい絶対重みを有する特徴が除去されてもよい。

【0052】

［信頼性（性能メトリクス）算出器］
信頼性算出器２２８（図２）は、所与の機械学習モデルの性能及び信頼性を理解するために有用な一連のメトリクスを提供するように構成される。機械学習モデル及び訓練セットを所与として、信頼性モジュールは、適切な推定を提供するのに十分な数の訓練サンプルがあるかを決定するように構成される。この指示は、各カテゴリについて、及びモデル全体について提供される。この情報を有することで、モデルが信頼できるとみなされるために特定のカテゴリがさらなる訓練データを必要とするかどうかの判断力を提供する。この情報は、特徴数とモデル内のクラス数とに基づいて算出される。含まれる特徴がより多く、モデル内のクラス数がより大きいほど、モデルを適切に訓練するためにより多くのサンプルが必要とされる。

【0053】

モデル精度が、真陽性と真陰性との和を検証サンプルの総数で割ったものとして算出される。モデル再現率の特徴が含まれ、これは、検証データセットについて真陽性を真陽性と偽陰性との和で割った統計（「再現率」（Recall））を提供するように構成される。モデル適合率の特徴が、検証セットについて真陽性を全ての陽性推測（真及び偽の陽性）で割った統計（「適合率」（Precision））を提供する。

【0054】

Ｆスコア（F-Score）は、再現率と適合率との間の調和平均である。Ｆスコアは、モデルの性能を表す単一の値を有する方法として使用できる。Ｆスコアの知られた形式は（２＊適合率＊再現率／（適合率＋再現率））である。しかしながら、この式は、必要に応じて適合率又は再現率にさらなる重みを与えるように構成可能である。

【0055】

サンプル信頼性推定機能は、所与の入力データベクトルの推定結果に対する誤差の確率を示す。受信者動作曲線（Receiver Operating Curve、ＲＯＣ）は、真陽性及び偽陽性の誤り率間のトレードオフの範囲を通じて分類器性能を要約する。ｘ軸は偽陽性のパーセンテージ（ＦＰＲ＝ＦＰ／ＴＮ＋ＦＰ）を表し、ｙ軸は真陽性のパーセンテージ（ＴＰＲ＝ＴＰ／ＴＰ＋ＦＮ）を表す。

【0056】

データサンプルを２‐Ｄに射影する（project）射影ユーティリティが含まれてもよい。こうしたユーティリティは、所与のデータベクトルセットの２‐Ｄ表現を提供する。これは、解析目的で画面にデータを表示するのに有用であり、時に「次元削減」と呼ばれる。この表現は、ｔ‐ＳＮＥ（ｔ分布型確率的近傍埋め込み（t-distributed Stochastic Neighbor Embedding））法、サモン射影（Sammon projection）などを含む様々な方法の１つに基づいて実装されてもよい。

【0057】

［新しいカテゴリの自動検出］
少なくとも１つの実装において、初期段階の間に訓練サンプルを生成する代替方法が使用され（「新カテゴリ検出器」２２４、図２）、ここで、教師なし分類機構が元のラベル付けされていないデータセットに適用される。これを行うことで、特徴セットに基づく自然なグループ化パターンを明らかにすることができる。この機能は、Ｋ‐Ｍｅａｎｓ、ＤＢＳｃａｎ、又は他の機能などのクラスタリング機構を使用してもよい。Ｋ‐Ｍｅａｎｓのように、クラスタ数が事前に分からない場合、全体的な誤差対クラスタサイズを解析することにより、最適なクラスタ数を選択する方法がある。

【0058】

ひとたびデータグループが作成されていると、ユーザは特定のデータサンプルを再分類することを決定できる。これは、教師あり分類モデルを訓練するために使用できる新しい訓練セットを効率的に生成する。ひとたび段階モデルが訓練されていると、新しいサンプルは訓練されたモデルに基づいて分類される。あらゆる所与のサンプルについて、モデルは対応するカテゴリを決定しようとする。結果の信頼性が低い場合（例えば、＜６０％又は何らかの他の予め定義された閾値）、サンプルが新しいカテゴリに属するかどうかについて決定がなされる。

【0059】

図１０は、１つ以上の実装に関して本明細書で説明される、所与のサンプルが新しいカテゴリに属すべきかどうかの決定の一例を示す２次元表現１０００である。これは、様々な方法で達成され得る。１つの選択肢は、出力分類確率ベクトルをサンプル座標として使用して、サンプル間のＮ次元ユークリッド距離を使用することである。次いで、訓練セットについて中心及び半径（典型的な距離）が算出できる。新しいサンプルが既存のグループ（構成可能な図）から遠く離れている場合、それは潜在的な新しい候補を示唆し得る。

【0060】

図１１は、発生（incidences）に関連する情報を表示する例示的なユーザインターフェース訓練ウィンドウ１１００である。訓練ウィンドウ１１００は、図示のように、又はより多くの若しくはより少ないユーザインターフェース要素を使用し得る同様の実装において実装され得る、様々なユーザインターフェースセクションを含む。訓練ウィンドウ１１００は、複数の発生を行において各発生についてのヘルス指標と共に示す発生表１１０２を含む。訓練ウィンドウ１１００はまた、全てのサンプルをマッピングする相関マップ１１０４を含む。ユーザにより選択された、選択されたサンプル１１０６が、相関マップ１１０４に、選択されたサンプル１１０６と類似のサンプル１１０８と共に示されている。

【0061】

例示的なユーザインターフェース訓練ウィンドウ１１００はまた、選択されたサンプル１１０６と類似のサンプル１１０８に関連した情報を示す類似発生（similar incidence）表１１１０を含む。さらに、機械学習要約（machine learning summary）表１１１２が訓練ウィンドウ１１００に含まれ、発生に関連した様々な統計を示す。特定の統計が機械学習要約表１１１２に示されているが、さらなる、より少ない、及び／又は異なる統計が表示されてもよい。

【0062】

［結び］
対象事項が構造的特徴及び／又は方法論的動作に特有の言語で説明されたが、別記の特許請求の範囲で定義される対象事項は必ずしも上記の特定の特徴又は動作に限定されないことを理解されたい。むしろ、上述された特定の特徴及び動作は、特許請求の範囲を実施する例示的な形態として開示されている。

【図1】