特許7486472 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ データロボット，　インコーポレイテッドの特許一覧

特許7486472データセットのための機械学習モデルの好適性の決定

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
2C
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-05-09

(45)【発行日】2024-05-17

(54)【発明の名称】データセットのための機械学習モデルの好適性の決定

(51)【国際特許分類】

G06N 20/00 20190101AFI20240510BHJP

【ＦＩ】

G06N20/00

【請求項の数】 20

(21)【出願番号】P 2021505276

(86)(22)【出願日】2019-07-30

(65)【公表番号】

(43)【公表日】2021-11-25

(86)【国際出願番号】 US2019044250

(87)【国際公開番号】W WO2020028440

(87)【国際公開日】2020-02-06

【審査請求日】2022-07-27

(31)【優先権主張番号】16/049,647

(32)【優先日】2018-07-30

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】520479272

【氏名又は名称】データロボット，インコーポレイテッド

(74)【代理人】

【識別番号】100078282

【弁理士】

【氏名又は名称】山本秀策

(74)【代理人】

【識別番号】100113413

【弁理士】

【氏名又は名称】森下夏樹

(74)【代理人】

【識別番号】100181674

【弁理士】

【氏名又は名称】飯田貴敏

(74)【代理人】

【識別番号】100181641

【弁理士】

【氏名又は名称】石川大輔

(74)【代理人】

【識別番号】230113332

【弁護士】

【氏名又は名称】山本健策

(72)【発明者】

【氏名】ガンタ，シンドゥ

(72)【発明者】

【氏名】ロセリ，ドリュー

(72)【発明者】

【氏名】タラガラ，ニシャ

(72)【発明者】

【氏名】スリダー，ビナイ

(72)【発明者】

【氏名】スンダララマン，スワミナサン

(72)【発明者】

【氏名】アマール，リオル

(72)【発明者】

【氏名】カーモシュ，リオル

(72)【発明者】

【氏名】ラムスンダー，バラス

(72)【発明者】

【氏名】スブラマニアン，スリラム

【審査官】牛丸太希

(56)【参考文献】

【文献】特開平０５－０８１２２８（ＪＰ，Ａ）

【文献】特開２０１７－２２８０６８（ＪＰ，Ａ）

【文献】特表２０１７－５２００６８（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１７／０３００８１４（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

装置であって、
第１の機械学習アルゴリズムおよび訓練データセットを使用して、第１の機械学習モデルを訓練するように構成されている一次訓練モジュールと、
立証データセットを使用して、前記第１の機械学習モデルの正当性を立証するように構成されている一次立証モジュールであって、前記第１の機械学習モデルの正当性を立証することは、エラーデータセットを生成することを含む、一次立証モジュールと、
第２の機械学習モデルを訓練することにより、推論データセットを分析するための前記第１の機械学習モデルの好適性を予測するように構成されている二次訓練モジュールであって、前記二次訓練モジュールは、第２の機械学習アルゴリズムおよび前記エラーデータセットを使用して、前記第２の機械学習モデルを訓練するように構成されている、二次訓練モジュールと、
好適性閾値を満たさない前記推論データセットを分析するための前記第１の機械学習モデルの予測された好適性に応答して、前記第１の機械学習モデルまたは前記第２の機械学習モデルに関連付けられている是正アクションをトリガするように構成されているアクションモジュールと
を備える、装置。

【請求項2】

前記装置は、前記第１の機械学習モデルの好適性を予測するための前記第２の機械学習モデルの好適性を決定するように構成されている二次立証モジュールをさらに備える、請求項１に記載の装置。

【請求項3】

前記二次立証モジュールは、混同行列および／または１つ以上の訓練統計を使用することにより、前記第１の機械学習モデルの好適性を予測するための前記第２の機械学習モデルの好適性を決定する、請求項２に記載の装置。

【請求項4】

前記二次訓練モジュールは、複数の異なる第３の機械学習モデルを訓練することにより、前記推論データセットを分析するための前記第１の機械学習モデルの好適性を予測するように、かつ、前記複数の第３の機械学習モデルのうちの２つ以上のもののアンサンブルを生成するようにさらに構成されており、前記第２の機械学習モデルは、アンサンブルモデルである、請求項１に記載の装置。

【請求項5】

前記第２の機械学習モデルは、リアルタイムで、前記第１の機械学習モデルが推論データセットに関する予測を生成する正確度を示す１つ以上の健全性値を生成することによって、前記推論データセットを分析するための前記第１の機械学習モデルの好適性を予測するように構成されており、
前記アクションモジュールは、リアルタイムで、前記第２の機械学習モデルが前記１つ以上の健全性値を生成することに基づいて、前記アクションをトリガするように構成されている、請求項１に記載の装置。

【請求項6】

前記１つ以上の健全性値は、１つ以上の予測信頼値、データ偏差値、Ａ／Ｂ試験値、および／または、カナリア値を備える、請求項５に記載の装置。

【請求項7】

前記アクションは、前記第１の機械学習アルゴリズムおよび異なる訓練データセットを使用して、前記第１の機械学習モデルを再訓練することを含む、請求項１に記載の装置。

【請求項8】

前記アクションは、前記第１の機械学習モデルを、異なる訓練データを使用して訓練される異なる機械学習モデルと置換することを含む、請求項１に記載の装置。

【請求項9】

前記アクションは、前記推論データセットを分析するための１つ以上の異なる機械学習アルゴリズムを推奨することを含む、請求項１に記載の装置。

【請求項10】

前記アクションは、前記推論データセットを分析するための前記第１の機械学習モデルの好適性を決定することに関連付けられている１つ以上の閾値を更新することを含む、請求項１に記載の装置。

【請求項11】

前記エラーデータセットは、
前記立証データセット上の前記第１の機械学習モデルの個別の予測が正確であるかどうかを示すエラー標識と、
前記立証データセットの１つ以上のサンプルの特徴、前記立証データセットの１つ以上のサンプルの統計的シグネチャスコア、前記立証データセットの１つ以上のサンプルに関して前記第１の機械学習モデルによって生成される予測値、前記第１の機械学習モデルの予測値に関連付けられている信頼測定基準、および／または、前記第１の機械学習モデルに特有の１つ以上のパラメータと
を備える、請求項１に記載の装置。

【請求項12】

前記訓練データセットは、連続標識を備え、前記第１の機械学習モデルの個別の予測が正確であるかどうかを示す前記エラー標識は、真の標識からの予測値の距離を決定する回帰アルゴリズムに基づいて決定される、請求項１１に記載の装置。

【請求項13】

閾値距離は、前記第１の機械学習アルゴリズムを使用して、前記立証データセットに関する回帰エラー特性（「ＲＥＣ」）曲線を生成することによって決定される、請求項１２に記載の装置。

【請求項14】

プロセッサによって実行される方法であって、
前記プロセッサが、第１の機械学習アルゴリズムおよび訓練データセットを使用して、第１の機械学習モデルを訓練することと、
前記プロセッサが、立証データセットを使用して、前記第１の機械学習モデルの正当性を立証することであって、前記第１の機械学習モデルの正当性を立証することは、エラーデータセットを生成することを含む、ことと、
前記プロセッサが、第２の機械学習モデルを訓練することにより、推論データセットを分析するための前記第１の機械学習モデルの好適性を予測することであって、前記第２の機械学習モデルは、第２の機械学習アルゴリズムおよび前記エラーデータセットを使用して訓練される、ことと、
前記プロセッサが、好適性閾値を満たさない前記推論データセットを分析するための前記第１の機械学習モデルの予測された好適性に応答して、前記第１の機械学習モデルまたは前記第２の機械学習モデルに関連付けられている是正アクションをトリガすることと
を含む、方法。

【請求項15】

前記方法は、前記プロセッサが、混同行列および／または１つ以上の訓練統計を使用して、前記第１の機械学習モデルの好適性を予測するための前記第２の機械学習モデルの好適性を決定することをさらに含む、請求項１４に記載の方法。

【請求項16】

前記方法は、前記プロセッサが、複数の異なる第３の機械学習モデルを訓練することにより、前記推論データセットを分析するための前記第１の機械学習モデルの好適性を予測し、かつ、前記複数の第３の機械学習モデルのうちの２つ以上のもののアンサンブルを生成することをさらに含み、前記第２の機械学習モデルは、アンサンブルモデルである、請求項１４に記載の方法。

【請求項17】

前記プロセッサが、推論データセットを分析するための前記第１の機械学習モデルの好適性を予測することは、前記プロセッサが、リアルタイムで、前記第１の機械学習モデルが前記推論データセットに関する予測を生成する正確度を示す１つ以上の健全性値を生成することを含み、
前記アクションは、リアルタイムで、前記第２の機械学習モデルが前記１つ以上の健全性値を生成することに基づいて、トリガされる、請求項１４に記載の方法。

【請求項18】

前記アクションは、
前記プロセッサが、前記第１の機械学習アルゴリズムおよび異なる訓練データセットを使用して、前記第１の機械学習モデルを再訓練すること、
前記プロセッサが、前記第１の機械学習モデルを、前記第１の機械学習アルゴリズムを使用して異なる訓練データ上で訓練される異なる機械学習モデルと置換すること、
前記プロセッサが、前記推論データセットを分析するための１つ以上の異なる機械学習アルゴリズムを推奨すること、および／または、
前記プロセッサが、前記推論データセットを分析するための前記第１の機械学習モデルの好適性を決定することに関連付けられている１つ以上の閾値を更新すること
を含む、請求項１４に記載の方法。

【請求項19】

【請求項20】

装置であって、
第１の機械学習アルゴリズムおよび訓練データセットを使用して、第１の機械学習モデルを訓練するように構成されている一次訓練モジュールと、
立証データセットを使用して、前記第１の機械学習モデルの正当性を立証するように構成されている一次立証モジュールであって、前記第１の機械学習モデルの正当性を立証することは、エラーデータセットを生成することを含む、一次立証モジュールと、
第２の機械学習アルゴリズムおよび前記エラーデータセットを使用して、第２の機械学習モデルを訓練することにより、推論データセットを分析するための前記第１の機械学習モデルの好適性を予測するための手段と、
好適性閾値を満たさない前記推論データセットを分析するための前記第１の機械学習モデルの予測された好適性に応答して、前記第１の機械学習モデルまたは前記第２の機械学習モデルに関連付けられている是正アクションをトリガするように構成されているアクションモジュールと
を備える、装置。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照）
本開示の主題は、適用法によって許容される最大限の程度において、参照することによって本明細書に組み込まれる、「ＤｅｔｅｒｍｉｎｉｎｇＶａｌｉｄｉｔｙｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＡｌｇｏｒｉｔｈｍｓｆｏｒｄａｔａｓｅｔｓ」と題され、２０１８年７月３０日に出願された、米国特許出願第１６／０４９，６４７号に開示される主題に関連し得る。

【0002】

本開示は、概して、自動機械学習に関し、より具体的には、機械学習モデルを使用し、推論データセットを分析するための別の機械学習モデルの好適性を決定する（例えば、推論する）ステップに関する。

【背景技術】

【0003】

「機械学習」（「ＭＬ」）は、概して、具体的タスクを実施するためのコンピュータシステムによる、ある技法（例えば、パターン認識および／または統計的推論技法）の適用を指す。機械学習システムは、サンプルデータ（例えば、「訓練データ」）に基づいて、予測モデルを構築し得、立証データ（例えば、「試験データ」）を使用して、モデルを検証し得る。サンプルおよび立証データは、記録（例えば、「観察」）のセットとして編成され得、各記録は、フィールドのセットに関する値を示す。予測モデルは、他のデータフィールド（例えば、「独立変数」、「入力」、または「特徴」）の値に基づいて、規定データフィールド（例えば、「従属変数」、「出力」、または「標的」）の値を予測するように構成され得る。サンプルデータに類似または関連する他のデータ（例えば、「推論データ」）を提示されたとき、機械学習システムは、そのような予測モデルを使用し、推論データセットの標的の未知の値を正確に予測し得る。

【0004】

予測問題が識別された後、機械学習を使用し、予測問題を正確に解決する予測モデルを構築するプロセスは、概して、データ収集、データクリーニング、特徴工学、モデル発生、およびモデル展開のステップを含む。「自動機械学習」（「ＡｕｔｏＭＬ」）技法が、機械学習プロセスまたはその一部のステップを自動化するために使用されてもよい。

【0005】

機械学習は、広範囲のユースケースおよび業界に統合されている。多くの他のタイプのアプリケーションと異なり、機械学習アプリケーション（深層学習および先進分析論を伴う、ＭＬアプリケーションを含む）は、概して、結束して動作し、正確で関連性がある結果を配信しなければならない、複数の独立起動コンポーネントを有する。さらに、入力データのわずかな変更が、結果に非線形変更を引き起こし得る。本複雑性は、機械学習システムの全ての相互依存側面を管理または監視することを困難にし得る。

【発明の概要】

【課題を解決するための手段】

【0006】

機械学習モデルを使用し、予測を行い、それらの予測に基づいてアクションを講じるシステムでは、予測が最終的に不正確であり得、したがって、それらの予測に基づいて講じられるアクションが残念なもの（例えば、有害、高価、非効率的等）となり得る危険性が存在する。多くのそのようなシステムでは、ＭＬモデルの予測Ｐが利用可能であり、その予測に応答したアクションが講じられる時間Ｔ１と、予測Ｐの正確度が決定的に確認または拒否され得る時間Ｔ２との間に有意な遅延が存在する。したがって、ＭＬモデルの予測が正確であるかどうかをより迅速に決定するための技法の必要性が存在する。

【0007】

本発明者らは、モデルの好適性が、本質的に２項質問である一方で、モデルＭＬ１によって発生される予測が、はるかに複雑であり得るため、機械学習モデルＭＬ１が推論データセットを分析するために好適であるかどうかを予測することの問題（例えば、ＭＬ１が推論データセットの特定のサンプルに関して正確な予測を生成するであろうかどうかを予測することの問題）が、多くの場合、推論データセットを分析することの問題よりも単純である（例えば、解決することがより容易である）ことを認識および理解している。したがって、多くの場合、モデルＭＬ１の正確度が決定的に確認または拒否されるよりはるか前に、モデルＭＬ１の好適性が推論され得るように、第２のモデルＭＬ２を訓練し、モデルＭＬ１が推論データセットを分析するために好適であるかどうか（例えば、モデルＭＬ１が推論データセットの特定のサンプルに関して正確な予測を生成する可能性が高いかどうか）を迅速かつ正確に推論することが可能である。

【0008】

一般に、本明細書に説明される主題の１つの革新的側面は、第１の機械学習アルゴリズムおよび訓練データセットを使用して、第１の機械学習モデルを訓練するように構成される、一次訓練モジュールと、立証データセットを使用して、第１の機械学習モデルの正当性を立証するように構成される、一次立証モジュールであって、第１の機械学習モデルの正当性を立証するステップは、エラーデータセットを発生させるステップを含む、一次立証モジュールと、第２の機械学習モデルを訓練し、推論データセットを分析するための第１の機械学習モデルの好適性を予測するように構成される、二次訓練モジュールであって、二次訓練モジュールは、第２の機械学習アルゴリズムおよびエラーデータセットを使用して、第２の機械学習モデルを訓練するように構成される、二次訓練モジュールと、好適性閾値を満たさない、推論データセットを分析するための第１の機械学習モデルの予測された好適性に応答して、第１または第２の機械学習モデルと関連付けられる是正アクションをトリガするように構成される、アクションモジュールとを含む、装置で具現化されることができる。

【0009】

本側面の他の実施形態は、それぞれ、装置のアクションを実施するように構成される、１つ以上のコンピュータ記憶デバイス上に記録される、対応するコンピュータシステム、コンピュータ実装方法、およびコンピュータプログラムを含む。１つ以上のコンピュータのシステムは、動作時に、システムにアクションを実施させる、システム上にインストールされるソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせ（例えば、１つ以上の記憶デバイス内に記憶された命令）を有することにより、特定のアクションを実施するように構成されることができる。１つ以上のコンピュータプログラムは、データ処理装置によって実行されると、装置にアクションを実施させる命令を含むことにより、特定のアクションを実施するように構成されることができる。

【0010】

前述および他の実施形態はそれぞれ、随意に、単独で、または組み合わせて、以下の特徴のうちの１つ以上のものを含むことができる。いくつかの実施形態では、本装置はさらに、第１の機械学習モデルの好適性を予測するための第２の機械学習モデの好適性を決定するように構成される、二次立証モジュールを含む。いくつかの実施形態では、二次立証モジュールは、混同行列および／または１つ以上の訓練統計を使用し、第１の機械学習モデルの好適性を予測するための第２の機械学習モデルの好適性を決定する。いくつかの実施形態では、二次訓練モジュールはさらに、複数の異なる第３の機械学習モデルを訓練し、推論データセットを分析するための第１の機械学習モデルの好適性を予測するように、かつ第３の機械学習モデルのうちの２つ以上のもののアンサンブルを発生させるように構成され、第２の機械学習モデルは、アンサンブルモデルである。

【0011】

いくつかの実施形態では、第２の機械学習モデルは、リアルタイムで、第１の機械学習モデルが推論データセットに関する予測を発生させる、正確度を示す、１つ以上の健全性値を発生させることによって、推論データセットを分析するための第１の機械学習モデルの好適性を予測するように構成され、アクションモジュールは、リアルタイムで、第２の機械学習モデルが１つ以上の健全性値を発生させることに基づいて、アクションをトリガするように構成される。いくつかの実施形態では、１つ以上の健全性値は、１つ以上の予測信頼値、データ偏差値、Ａ／Ｂ試験値、および／またはカナリア値を含む。

【0012】

いくつかの実施形態では、是正アクションは、第１の機械学習アルゴリズムおよび異なる訓練データセットを使用して、第１の機械学習モデルを再訓練するステップを含む。いくつかの実施形態では、是正アクションは、第１の機械学習モデルを、異なる訓練データを使用して訓練される異なる機械学習モデルと置換するステップを含む。いくつかの実施形態では、是正アクションは、推論データセットを分析するための１つ以上の異なる機械学習アルゴリズムを推奨するステップを含む。いくつかの実施形態では、是正アクションは、推論データセットを分析するための第１の機械学習モデルの好適性を決定するステップと関連付けられる、１つ以上の閾値を更新するステップを含む。

【0013】

いくつかの実施形態では、エラーデータセットは、立証データセット上の第１の機械学習モデルの個別の予測が正確であるかどうかを示す、エラー標識と、立証データセットの１つ以上のサンプルの特徴、立証データセットの１つ以上のサンプルの統計的シグネチャスコア、立証データセットの１つ以上のサンプルに関して第１の機械学習モデルによって発生される予測値、第１の機械学習モデルの予測値と関連付けられる信頼測定基準、および／または第１の機械学習モデルに特有の１つ以上のパラメータとを含む。

【0014】

いくつかの実施形態では、訓練データセットは、連続標識を備え、第１の機械学習モデルの個別の予測が正確であるかどうかを示す、エラー標識は、真の標識からの予測値の距離を決定する、回帰アルゴリズムに基づいて決定される。いくつかの実施形態では、閾値距離は、第１の機械学習アルゴリズムを使用して、立証データセットに関する回帰エラー特性（「ＲＥＣ」）曲線を発生させることによって決定される。

【0015】

一般に、本明細書に説明される主題の別の革新的側面は、第１の機械学習アルゴリズムおよび訓練データセットを使用して、第１の機械学習モデルを訓練するステップと、立証データセットを使用して、第１の機械学習モデルの正当性を立証するステップであって、第１の機械学習モデルの正当性を立証するステップは、エラーデータセットを発生させるステップを含む、ステップと、第２の機械学習モデルを訓練し、推論データセットを分析するための第１の機械学習モデルの好適性を予測するステップであって、第２の機械学習モデルは、第２の機械学習アルゴリズムおよびエラーデータセットを使用して訓練される、ステップと、好適性閾値を満たさない、推論データセットを分析するための第１の機械学習モデルの予測された好適性に応答して、第１または第２の機械学習モデルと関連付けられる是正アクションをトリガするステップとを含む、方法で具現化されることができる。

【0016】

本側面の他の実施形態は、それぞれ、方法のアクションを実施するように構成される、１つ以上のコンピュータ記憶デバイス上に記録される、対応するコンピュータシステム、装置、およびコンピュータプログラムを含む。１つ以上のコンピュータのシステムは、動作時に、システムにアクションを実施させる、システム上にインストールされるソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせ（例えば、１つ以上の記憶デバイス内に記憶された命令）を有することにより、特定のアクションを実施するように構成されることができる。１つ以上のコンピュータプログラムは、データ処理装置によって実行されると、装置にアクションを実施させる命令を含むことにより、特定のアクションを実施するように構成されることができる。

【0017】

前述および他の実施形態はそれぞれ、随意に、単独で、または組み合わせて、以下の特徴のうちの１つ以上のものを含むことができる。いくつかの実施形態では、アクションはさらに、混同行列および／または１つ以上の訓練統計を使用して、第１の機械学習モデルの好適性を予測するための第２の機械学習モデルの好適性を決定するステップを含む。いくつかの実施形態では、アクションはさらに、複数の異なる第３の機械学習モデルを訓練し、推論データセットを分析するための第１の機械学習モデルの好適性を予測し、かつ第３の機械学習モデルのうちの２つ以上のもののアンサンブルを発生させるステップを含み、第２の機械学習モデルは、アンサンブルモデルである。

【0018】

いくつかの実施形態では、推論データセットを分析するための第１の機械学習モデルの好適性を予測するステップは、リアルタイムで、第１の機械学習モデルが推論データセットに関する予測を発生させる、正確度を示す、１つ以上の健全性値を発生させるステップを含み、是正アクションは、リアルタイムで、第２の機械学習モジュールが１つ以上の健全性値を発生させることに基づいて、トリガされる。

【0019】

いくつかの実施形態では、是正アクションは、第１の機械学習アルゴリズムおよび異なる訓練データセットを使用して、第１の機械学習モデルを再訓練するステップ、第１の機械学習モデルを、第１の機械学習アルゴリズムを使用して異なる訓練データ上で訓練される、異なる機械学習モデルと置換するステップ、推論データセットを分析するための１つ以上の異なる機械学習アルゴリズムを推奨するステップ、および／または推論データセットを分析するための第１の機械学習モデルの好適性を決定するステップと関連付けられる、１つ以上の閾値を更新するステップを含む。

【0020】

【0021】

一般に、本明細書に説明される主題の別の革新的側面は、第１の機械学習アルゴリズムおよび訓練データセットを使用して、第１の機械学習モデルを訓練するように構成される、一次訓練モジュールと、立証データセットを使用して、第１の機械学習モデルの正当性を立証するように構成される、一次立証モジュールであって、第１の機械学習モデルの正当性を立証するステップは、エラーデータセットを発生させるステップを含む、一次立証モジュールと、第２の機械学習アルゴリズムおよびエラーデータセットを使用して、第２の機械学習モデルを訓練し、推論データセットを分析するための第１の機械学習モデルの好適性を予測するための手段と、好適性閾値を満たさない、推論データセットを分析するための第１の機械学習モデルの予測された好適性に応答して、第１または第２の機械学習モデルと関連付けられる是正アクションをトリガするように構成される、アクションモジュールとを含む、装置で具現化されることができる。

【0022】

いくつかの実施形態、そのための動機、および／またはその利点の説明を含む、前述の概要は、読者が本開示を理解することを支援することを意図しており、いかようにも請求項のうちのいずれの範囲も限定しない。
本発明は、例えば、以下を提供する。
（項目１）
装置であって、
第１の機械学習アルゴリズムおよび訓練データセットを使用して、第１の機械学習モデルを訓練するように構成される一次訓練モジュールと、
立証データセットを使用して、前記第１の機械学習モデルの正当性を立証するように構成される一次立証モジュールであって、前記第１の機械学習モデルの正当性を立証することは、エラーデータセットを発生させることを含む、一次立証モジュールと、
第２の機械学習モデルを訓練し、推論データセットを分析するための前記第１の機械学習モデルの好適性を予測するように構成される二次訓練モジュールであって、前記二次訓練モジュールは、第２の機械学習アルゴリズムおよび前記エラーデータセットを使用して、前記第２の機械学習モデルを訓練するように構成される、二次訓練モジュールと、
好適性閾値を満たさない前記推論データセットを分析するための前記第１の機械学習モデルの予測された好適性に応答して、前記第１または第２の機械学習モデルと関連付けられる是正アクションをトリガするように構成される、アクションモジュールと
を備える、装置。
（項目２）
前記第１の機械学習モデルの好適性を予測するための前記第２の機械学習モデルの好適性を決定するように構成される二次立証モジュールをさらに備える、項目１に記載の装置。
（項目３）
前記二次立証モジュールは、混同行列および／または１つ以上の訓練統計を使用し、前記第１の機械学習モデルの好適性を予測するための前記第２の機械学習モデルの好適性を決定する、項目２に記載の装置。
（項目４）
前記二次訓練モジュールはさらに、複数の異なる第３の機械学習モデルを訓練し、前記推論データセットを分析するための前記第１の機械学習モデルの好適性を予測するように、かつ前記第３の機械学習モデルのうちの２つ以上のもののアンサンブルを発生させるように構成され、前記第２の機械学習モデルは、アンサンブルモデルである、項目１に記載の装置。
（項目５）
前記第２の機械学習モデルは、リアルタイムで、前記第１の機械学習モデルが推論データセットに関する予測を発生させる正確度を示す１つ以上の健全性値を発生させることによって、前記推論データセットを分析するための前記第１の機械学習モデルの好適性を予測するように構成され、
前記アクションモジュールは、リアルタイムで、前記第２の機械学習モデルが前記１つ以上の健全性値を発生させることに基づいて、前記アクションをトリガするように構成される、
項目１に記載の装置。
（項目６）
前記１つ以上の健全性値は、１つ以上の予測信頼値、データ偏差値、Ａ／Ｂ試験値、および／またはカナリア値を備える、項目５に記載の装置。
（項目７）
前記アクションは、前記第１の機械学習アルゴリズムおよび異なる訓練データセットを使用して、前記第１の機械学習モデルを再訓練することを含む、項目１に記載の装置。
（項目８）
前記アクションは、前記第１の機械学習モデルを、異なる訓練データを使用して訓練される異なる機械学習モデルと置換することを含む、項目１に記載の装置。
（項目９）
前記アクションは、前記推論データセットを分析するための１つ以上の異なる機械学習アルゴリズムを推奨することを含む、項目１に記載の装置。
（項目１０）
前記アクションは、前記推論データセットを分析するための前記第１の機械学習モデルの好適性を決定することと関連付けられる１つ以上の閾値を更新することを含む、項目１に記載の装置。
（項目１１）
前記エラーデータセットは、
前記立証データセット上の前記第１の機械学習モデルの個別の予測が正確であるかどうかを示すエラー標識と、
前記立証データセットの１つ以上のサンプルの特徴、前記立証データセットの１つ以上のサンプルの統計的シグネチャスコア、前記立証データセットの１つ以上のサンプルに関して前記第１の機械学習モデルによって発生される予測値、前記第１の機械学習モデルの予測値と関連付けられる信頼測定基準、および／または前記第１の機械学習モデルに特有の１つ以上のパラメータと
を備える、項目１に記載の装置。
（項目１２）
前記訓練データセットは、連続標識を備え、前記第１の機械学習モデルの個別の予測が正確であるかどうかを示す前記エラー標識は、真の標識からの予測値の距離を決定する回帰アルゴリズムに基づいて決定される、項目１１に記載の装置。
（項目１３）
閾値距離は、前記第１の機械学習アルゴリズムを使用して、前記立証データセットに関する回帰エラー特性（「ＲＥＣ」）曲線を発生させることによって決定される、項目１２に記載の装置。
（項目１４）
方法であって、
第１の機械学習アルゴリズムおよび訓練データセットを使用して、第１の機械学習モデルを訓練することと、
立証データセットを使用して、前記第１の機械学習モデルの正当性を立証することであって、前記第１の機械学習モデルの正当性を立証することは、エラーデータセットを発生させることを含む、ことと、
第２の機械学習モデルを訓練し、推論データセットを分析するための前記第１の機械学習モデルの好適性を予測することであって、前記第２の機械学習モデルは、第２の機械学習アルゴリズムおよび前記エラーデータセットを使用して訓練される、ことと、
好適性閾値を満たさない前記推論データセットを分析するための前記第１の機械学習モデルの予測された好適性に応答して、前記第１または第２の機械学習モデルと関連付けられる是正アクションをトリガすることと
を含む、方法。
（項目１５）
混同行列および／または１つ以上の訓練統計を使用して、前記第１の機械学習モデルの好適性を予測するための前記第２の機械学習モデルの好適性を決定することをさらに含む、項目１４に記載の方法。
（項目１６）
複数の異なる第３の機械学習モデルを訓練し、前記推論データセットを分析するための前記第１の機械学習モデルの好適性を予測し、かつ前記第３の機械学習モデルのうちの２つ以上のもののアンサンブルを発生させることをさらに含み、前記第２の機械学習モデルは、アンサンブルモデルである、項目１４に記載の方法。
（項目１７）
推論データセットを分析するための前記第１の機械学習モデルの好適性を予測することは、リアルタイムで、前記第１の機械学習モデルが前記推論データセットに関する予測を発生させる正確度を示す１つ以上の健全性値を発生させることを含み、
前記アクションは、リアルタイムで、前記第２の機械学習モジュールが前記１つ以上の健全性値を発生させることに基づいて、トリガされる、
項目１４に記載の方法。
（項目１８）
前記アクションは、
前記第１の機械学習アルゴリズムおよび異なる訓練データセットを使用して、前記第１の機械学習モデルを再訓練すること、
前記第１の機械学習モデルを、前記第１の機械学習アルゴリズムを使用して異なる訓練データ上で訓練される異なる機械学習モデルと置換すること、
前記推論データセットを分析するための１つ以上の異なる機械学習アルゴリズムを推奨すること、および／または
前記推論データセットを分析するための前記第１の機械学習モデルの好適性を決定することと関連付けられる１つ以上の閾値を更新すること
を含む、項目１４に記載の方法。
（項目１９）
前記エラーデータセットは、
前記立証データセット上の前記第１の機械学習モデルの個別の予測が正確であるかどうかを示すエラー標識と、
前記立証データセットの１つ以上のサンプルの特徴、前記立証データセットの１つ以上のサンプルの統計的シグネチャスコア、前記立証データセットの１つ以上のサンプルに関して前記第１の機械学習モデルによって発生される予測値、前記第１の機械学習モデルの予測値と関連付けられる信頼測定基準、および／または前記第１の機械学習モデルに特有の１つ以上のパラメータと
を備える、項目１４に記載の方法。
（項目２０）
装置であって、
第１の機械学習アルゴリズムおよび訓練データセットを使用して、第１の機械学習モデルを訓練するように構成される一次訓練モジュールと、
立証データセットを使用して、前記第１の機械学習モデルの正当性を立証するように構成される一次立証モジュールであって、前記第１の機械学習モデルの正当性を立証することは、エラーデータセットを発生させることを含む、一次立証モジュールと、
第２の機械学習アルゴリズムおよび前記エラーデータセットを使用して、第２の機械学習モデルを訓練し、推論データセットを分析するための前記第１の機械学習モデルの好適性を予測するための手段と、
好適性閾値を満たさない前記推論データセットを分析するための前記第１の機械学習モデルの予測された好適性に応答して、前記第１または第２の機械学習モデルと関連付けられる是正アクションをトリガするように構成される、アクションモジュールと
を備える、装置。

【図面の簡単な説明】

【0023】

本発明の利点が容易に理解されるであろうために、いくつかの実施形態のより具体的な説明が、添付図面に図示される具体的実施形態を参照することによって与えられるであろう。これらの図面が、いくつかの実施形態のみを描写し、したがって、その範囲の限定と見なされないことを理解した上で、いくつかの実施形態が、付随する図面の使用を通して、付加的特異性および詳細を伴って説明および解説されるであろう。

【0024】

【図1】図１は、いくつかの実施形態による、データセットのための機械学習モデルの好適性を検出するためのシステムを図示する、概略ブロック図である。

【0025】

【図2A】図２Ａは、いくつかの実施形態による、データセットのための機械学習モデルの好適性を決定するための論理機械学習層を図示する、概略ブロック図である。

【0026】

【図2B】図２Ｂは、いくつかの実施形態による、データセットのための機械学習モデルの好適性を決定するための別の論理機械学習層を図示する、概略ブロック図である。

【0027】

【図2C】図２Ｃは、いくつかの実施形態による、データセットのための機械学習モデルの好適性を決定するための別の論理機械学習層を図示する、概略ブロック図である。

【0028】

【図3】図３は、いくつかの実施形態による、データセットのための機械学習モデルの好適性を決定するための装置を図示する、概略ブロック図である。

【0029】

【図4】図４は、いくつかの実施形態による、データセットのための機械学習モデルの好適性を決定するための方法を図示する、概略フローチャート図である。

【0030】

【図5】図５は、いくつかの実施形態による、データセットのための機械学習モデルの好適性を決定するための別の方法を図示する、概略フローチャート図である。

【発明を実施するための形態】

【0031】

本明細書で使用されるように、語句「機械学習モデル」は、具体的訓練データ上で機械学習アルゴリズムを訓練するプロセスによって発生される任意の好適なモデルアーチファクトを指し得る。当業者は、語句「機械学習モデルの好適性」が、モデルアーチファクトの好適性および／または推論データに予測を行うためにモデルアーチファクトによって使用されるアルゴリズムの好適性を指し得ることを理解するであろう。

【0032】

「一実施形態」、「ある実施形態」、「いくつかの実施形態」、または類似言語の本明細書の全体を通した言及は、実施形態に関連して説明される特定の特徴、構造、または特性が、少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書の全体を通した、語句「一実施形態では」、「ある実施形態では」、「いくつかの実施形態では」、および類似言語の表出は、全て同一の実施形態を指し得るが、必ずしもそうではなく、別様に明示的に規定されない限り、「１つ以上であるが、全てではない実施形態」を意味する。

【0033】

さらに、実施形態の説明される特徴、利点、および特性は、任意の好適な様式で組み合わせられてもよい。当業者は、実施形態が、特定の実施形態の具体的特徴または利点のうちの１つ以上のものを伴わずに、実践され得ることを認識するであろう。他の事例では、全ての実施形態に存在するわけではない場合がある、付加的特徴および利点が、ある実施形態で認識され得る。

【0034】

実施形態のこれらの特徴および利点は、以下の説明および添付される請求項から、より完全に明白となるであろう、または以降に記載されるような実施形態の実践によって習得され得る。当業者によって理解されるであろうように、本明細書に説明される主題の側面は、システム、方法、および／またはコンピュータプログラム製品として具現化され得る。故に、いくつかの実施形態の側面は、概して、本明細書では全て「回路」、「モジュール」、または「システム」と称され得る、完全にハードウェアの実施形態、完全にソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコード等を含む）、またはソフトウェアおよびハードウェア側面を組み合わせる実施形態の形態をとり得る。さらに、いくつかの実施形態の側面は、その上に具現化されたプログラムコードを有する、１つ以上のコンピュータ可読媒体で具現化されるコンピュータプログラム製品の形態をとり得る。

【0035】

本明細書に説明される機能単位の多くは、それらの実装独立性をより具体的に強調するために、モジュールとして標識されている。例えば、モジュールは、カスタムＶＬＳＩ回路またはゲートアレイ、論理チップ等の既製の半導体、トランジスタ、もしくは他の離散コンポーネントを備える、ハードウェア回路として実装されてもよい。モジュールはまた、フィールドプログラマブルゲートアレイ、プログラマブルアレイ論理、プログラマブル論理デバイス、または同等物等のプログラマブルハードウェアデバイスで実装されてもよい。

【0036】

モジュールはまた、種々のタイプのプロセッサによる実行のためにソフトウェアで実装されてもよい。プログラムコードの識別されるモジュールは、例えば、オブジェクト、プロシージャ、または関数として編成され得る、例えば、コンピュータ命令の１つ以上の物理もしくは論理ブロックを備えてもよい。なお、識別されるモジュールの実行可能ファイルは、ともに物理的に位置する必要はないが、ともに論理的に継合されると、モジュールを構成し、モジュールのための記述される目的を達成する、異なる場所に記憶された異種命令を備えてもよい。

【0037】

実際、プログラムコードのモジュールは、単一の命令または多くの命令であってもよく、いくつかの異なるコードセグメントにわたって、異なるプログラムの間で、およびいくつかのメモリデバイスを横断して、分散さえされてもよい。同様に、動作データが、本明細書ではモジュール内で識別および図示されてもよく、任意の好適な形態で具現化され、任意の好適なタイプのデータ構造内に編成されてもよい。動作データは、単一のデータセットとして収集されてもよい、または異なる記憶デバイスにわたるものを含む、異なる場所にわたって分散されてもよく、少なくとも部分的に、システムまたはネットワーク上に単に電子信号として存在してもよい。モジュールまたはモジュールの一部が、ソフトウェアで実装される場合、プログラムコードは、１つ以上のコンピュータ可読媒体上に記憶および／または伝搬されてもよい。

【0038】

コンピュータプログラム製品は、プロセッサにいくつかの実施形態の側面を実行させるためのコンピュータ可読プログラム命令をその上に有する、コンピュータ可読記憶媒体（または複数の媒体）を含んでもよい。

【0039】

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のために命令を留保および記憶し得る、有形デバイスであり得る。コンピュータ可読記憶媒体は、例えば、限定ではないが、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または前述の任意の好適な組み合わせであり得る。コンピュータ可読記憶媒体のより具体的な実施例の非包括的リストは、以下、すなわち、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（「ＲＡＭ」）、読取専用メモリ（「ＲＯＭ」）、消去可能プログラマブル読取専用メモリ（「ＥＰＲＯＭ」またはフラッシュメモリ）、スタティックランダムアクセスメモリ（「ＳＲＡＭ」）、ポータブルコンパクトディスク読取専用メモリ（「ＣＤ－ＲＯＭ」）、デジタル多用途ディスク（「ＤＶＤ」）、メモリスティック、フロッピー（登録商標）ディスク、パンチカードまたはその上に記録された命令を有する溝内の隆起構造等の機械的にエンコードされたデバイス、および前述の任意の好適な組み合わせを含む。本明細書で使用されるような「非一過性の」コンピュータ可読記憶媒体は、それ自体が、電波または他の自由に伝搬する電磁波、導波管または他の伝送媒体を通して伝搬する電磁波（例えば、光ファイバケーブルを通して通過する光パルス）、もしくはワイヤを通して伝送される電気信号等の一時的信号であるものとして解釈されるものではない。

【0040】

本明細書に説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から個別のコンピューティング／処理デバイスに、もしくはネットワーク、例えば、インターネット、ローカルエリアネットワーク、広域ネットワーク、および／または無線ネットワークを介して、外部コンピュータまたは外部記憶デバイスにダウンロードされることができる。ネットワークは、銅製伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、および／またはエッジサーバを備えてもよい。各コンピューティング／処理デバイス内のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、個別のコンピューティング／処理デバイス内のコンピュータ可読記憶媒体内に記憶するために、コンピュータ可読プログラム命令を転送する。

【0041】

いくつかの実施形態の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋、もしくは同等物等のオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語もしくは類似プログラミング言語等の従来のプロシージャプログラミング言語を含む、１つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードもしくはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にユーザのコンピュータ上および部分的に遠隔コンピュータ上で、または完全に遠隔コンピュータもしくはサーバ上で、実行されてもよい。後者のシナリオでは、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）もしくは広域ネットワーク（ＷＡＮ）を含む、任意のタイプのネットワークを通して、ユーザのコンピュータに接続されてもよい、または接続は、（例えば、インターネットサービスプロバイダを使用してインターネットを通して）外部コンピュータに行われてもよい。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、またはプログラマブル論理アレイ（ＰＬＡ）を含む、電子回路が、いくつかの実施形態の側面を実施するために、コンピュータ可読プログラム命令の状態情報を利用し、電子回路を個人化することによって、コンピュータ可読プログラム命令を実行してもよい。

【0042】

いくつかの実施形態の側面が、いくつかの実施形態による、方法、装置（システム）、およびコンピュータプログラム製品のフローチャート図および／またはブロック図を参照して、本明細書に説明される。フローチャート図および／またはブロック図の各ブロック、ならびにフローチャート図および／またはブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装され得ることを理解されたい。

【0043】

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャートおよび／またはブロック図の１つもしくは複数のブロックに規定される機能／行為を実装するための手段を作成するように、機械を生成するために、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供されてもよい。これらのコンピュータ可読プログラム命令はまた、その中に記憶された命令を有する、コンピュータ可読記憶媒体が、フローチャートおよび／またはブロック図の１つもしくは複数のブロックに規定される機能／行為の側面を実装する命令を含む、製造品を備えるように、特定の様式で機能するようにコンピュータ、プログラマブルデータ処理装置、ならびに／もしくは他のデバイスに指示し得る、コンピュータ可読記憶媒体内に記憶されてもよい。

【0044】

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行される命令が、フローチャートおよび／またはブロック図の１つもしくは複数のブロックに規定される機能／行為を実装するように、一連の動作ステップを、コンピュータ、他のプログラマブル装置、または他のデバイス上で実施させ、コンピュータ実装プロセスを生成するために、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイス上にロードされてもよい。

【0045】

図内の概略フローチャート図および／または概略ブロック図は、種々の実施形態による、装置、システム、方法、およびコンピュータプログラム製品の可能性として考えられる実装のアーキテクチャ、機能性、および動作を図示する。この点に関して、概略フローチャート図および／または概略ブロック図内の各ブロックは、規定論理関数を実装するためのプログラムコードの１つ以上の実行可能命令を備える、モジュール、セグメント、またはコードの一部を表し得る。

【0046】

また、いくつかの代替実装では、ブロックに記述される機能は、図に記述される順序外で起こり得ることも理解されたい。例えば、連続して示される２つのブロックは、実際には、実質的に並行して実行されてもよい、またはブロックは、時として、関与する機能性に応じて、逆の順序で実行されてもよい。図示される図の１つ以上のブロックもしくはその部分と機能、論理、または効果が同等である、他のステップおよび方法も、着想され得る。

【0047】

種々の矢印タイプおよび線タイプが、フローチャートおよび／またはブロック図で採用され得るが、それらは、対応する実施形態の範囲を限定しないと理解される。実際、いくつかの矢印または他のコネクタが、描写される実施形態の論理フローのみを示すために使用されてもよい。例えば、矢印は、描写される実施形態の列挙されるステップの合間の規定されていない持続時間の待機または監視周期を示し得る。いくつかの矢印または他のコネクタが、データのフローを示すために使用されてもよい。また、ブロック図および／またはフローチャート図の各ブロック、ならびにブロック図および／またはフローチャート図内のブロックの組み合わせは、規定機能または行為、もしくは専用ハードウェアおよびプログラムコードの組み合わせを実施する、専用ハードウェアベースのシステムによって実装され得ることにも留意されたい。

【0048】

図１は、データセットのための機械学習モデルの好適性を決定するためのシステム１００の一実施形態を図示する、概略ブロック図である。一実施形態では、システム１００は、１つ以上の情報ハンドリングデバイス１０２と、１つ以上のＭＬ管理装置１０４と、１つ以上のデータネットワーク１０６と、１つ以上のサーバ１０８とを含む。ある実施形態では、具体的な数の情報ハンドリングデバイス１０２、ＭＬ管理装置１０４、データネットワーク１０６、およびサーバ１０８が、図１に描写されるが、当業者は、本開示を踏まえて、任意の数の情報ハンドリングデバイス１０２、ＭＬ管理装置１０４、データネットワーク１０６、およびサーバ１０８が、システム１００に含まれ得ることを認識するであろう。

【0049】

一実施形態では、システム１００は、１つ以上の情報ハンドリングデバイス１０２を含む。情報ハンドリングデバイス１０２は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、スマートスピーカ（例えば、ＡｍａｚｏｎＥｃｈｏ（登録商標）、ＧｏｏｇｌｅＨｏｍｅ（登録商標）、ＡｐｐｌｅＨｏｍｅＰｏｄ（登録商標））、セキュリティシステム、セットトップボックス、ゲーム機、スマートＴＶ、スマートウォッチ、フィットネスバンドまたは他のウェアラブル活動追跡デバイス、光学頭部搭載型ディスプレイ（例えば、仮想現実ヘッドセット、スマートグラス、または同等物）、高解像度マルチメディアインターフェース（「ＨＤＭＩ（登録商標）」）または他の電子ディスプレイドングル、携帯情報端末、デジタルカメラ、ビデオカメラ、もしくはプロセッサ（例えば、中央処理ユニット（「ＣＰＵ」）、プロセッサコア、フィールドプログラマブルゲートアレイ（「ＦＰＧＡ」）または他のプログラマブル論理、特定用途向け集積回路（「ＡＳＩＣ」）、コントローラ、マイクロコントローラ、および／または別の半導体集積回路デバイス）、揮発性メモリ、および／または不揮発性記憶媒体を備える、別のコンピューティングデバイスのうちの１つ以上のものを含んでもよい。

【0050】

ある実施形態では、情報ハンドリングデバイス１０２は、下記に説明されるデータネットワーク１０６を経由して、１つ以上の他の情報ハンドリングデバイス１０２に、および／または１つ以上のサーバ１０８に通信可能に結合される。情報ハンドリングデバイス１０２は、さらなる実施形態では、種々のプログラム、プログラムコード、アプリケーション、命令、機能、および／または同等物を実行するように構成される、プロセッサ、プロセッサコア、ならびに／もしくは同等物を含んでもよい。情報ハンドリングデバイス１０２は、下記により詳細に説明されるように、種々の機械学習動作を実施するための実行可能コード、機能、命令、オペレーティングシステム、および／または同等物を含んでもよい。

【0051】

一実施形態では、ＭＬ管理装置１０４は、機械学習システムの「健全性」の管理、監視、維持、および／または同等物を行うように構成される。本明細書で使用されるように、機械学習システムの「健全性」は、二次または補助機械学習モデルを使用する機械学習モデルの分析に基づいて、機械学習モデルを使用して処理される推論データセット（例えば、推論データセットに関して正確な予測を発生させる第１の機械学習モデルの能力）を分析するための訓練データセット上で訓練される機械学習モデルの好適性（例えば、妥当性、予測性能等）を指し得る。

【0052】

下記により詳細に解説されるように、機械学習システムは、訓練パイプライン、編成／管理パイプライン、推論パイプライン、および／または同等物等の種々のコンポーネント、パイプライン、データセット、ならびに／もしくは同等物を伴い得る。さらに、コンポーネントは、具体的目的、問題、および／または同等物に対処するように特別に設計もしくは構成されてもよい。いくつかの機械学習システムでは、ユーザは、特定の問題／目的を分析するために使用される機械学習コンポーネントを決定し、次いで、コンポーネント毎の入力／出力、各コンポーネントの限界、各コンポーネントによって発生されるイベント、および／または同等物を手動で決定し得る。さらに、いくつかの機械学習システムを用いると、システム内の多数のコンポーネントおよび相互作用に起因する、エラーが生じた場所、エラーを引き起こした内容、予測結果が有するべき正確度ほど正確ではなかった理由、機械学習モデルが特定の推論データセットのために好適であるかどうか、および／または同等物を追跡することが困難であり得る。

【0053】

一実施形態では、ＭＬ管理装置１０４は、第１の／一次機械学習アルゴリズムおよび訓練データセットを使用して、第１または一次機械学習モデルを訓練するステップ、立証データセットを使用して、第１の機械学習モデルの正当性を立証するステップであって、第１の機械学習モデルの正当性を立証するステップは、立証データセット上の第１の機械学習モデルの正確度を説明し得る、エラーデータセットを発生させるステップを含む、ステップ、および第２の機械学習モデルを訓練し、推論データセットを分析するための第１のＭＬモデルの好適性を予測するステップであって、第２のＭＬモデルは、エラーデータセットを使用して訓練される、ステップによって、機械学習システムのための改良を提供する。いくつかの実施形態では、第２のＭＬモデルは、第２の／補助機械学習アルゴリズムを使用して訓練される。第２の機械学習モデルは、次いで、推論データセットを分析するための第１または一次機械学習モデルの好適性（例えば、有効性、正確度、信頼性、および／または同等物）を決定する（例えば、予測する、検証する、正当性を立証する、チェックする、監視する、ならびに／もしくは同等物を行う）ために使用される。

【0054】

第２の機械学習モデルが、例えば、１つ以上の好適性スコア（もしくは「健全性スコア」）によって示されるように、第１の機械学習モデルが推論データセットのために不適切である（例えば、良好な適合ではない）ことを予測する場合には、ＭＬ管理装置１０４は、１つ以上のアクション（例えば、ステップ、機能、および／または同等物）を講じ、第１の機械学習モデルを補正または改良してもよい。例えば、好適性スコアが、非好適性閾値を満たし、第２のＭＬモデルが、第１の機械学習モデルが推論訓練データのために好適ではないことを予測することを示す場合、ＭＬ管理装置１０４は、第１の機械学習モデルを変更してもよい、第１の機械学習モデルを再訓練してもよい、第１の機械学習モデルよりも正確な機械学習モデルを発生させるための１つ以上の推奨を提供してもよい、第１の機械学習モデルの種々の閾値またはパラメータを調節もしくは更新してもよい、および／または同等物を行ってもよい。他方では、好適性スコアが、非好適性閾値を満たすが、ＭＬ管理装置が、続いて、第１のＭＬモデルが実際に推論訓練データのために好適であることを決定する場合、ＭＬ管理装置１０４は、第２の機械学習モデルを変更または再訓練してもよい、第２の機械学習モデルよりも正確な機械学習モデルを発生させるための１つ以上の推奨を提供してもよい、第２の機械学習モデルと関連付けられる種々の閾値またはパラメータ（例えば、非好適性閾値）を調節もしくは更新してもよい、および／または同等物を行ってもよい。

【0055】

さらに、ＭＬ管理装置１０４は、機械学習システム１００内の任意の点における第２の機械学習モデルを使用して、推論データセットを分析するための第１の機械学習モデルの好適性を決定してもよい。例えば、機械学習システム１００が、複数の推論層を含む深層学習システムである場合、ＭＬ管理装置１０４は、深層学習システムの任意の層（例えば、各層）における第２の機械学習モデルを使用して、第１の機械学習モデルの好適性を評価することによって、第１の機械学習モデルが推論データセットのために好適である程度を決定してもよい。

【0056】

機械学習モデルのライフサイクルでは、機械学習モデルを発生させるための訓練段階と、機械学習モデルを使用して推論データセットを分析するための推論段階とが存在する。推論段階からの出力は、推論データセットの１つ以上の特徴に基づいて（例えば、その関数として）決定される、１つ以上の予測値（例えば、「標識」）を含んでもよい。例えば、訓練データセットが、機械学習モデルを訓練するために使用される、特徴データの３つの列、すなわち、年齢、性別、および身長を備え、推論データが、推論パイプライン２０６からの出力である、特徴データの２つの列、すなわち、年齢および身長を備える場合、機械学習モデルを使用することは、所与の推論データに基づいて予測性別（男／女）を説明する「標識」であってもよい。

【0057】

訓練段階では、データセットに関してＭＬモデルによって発生される予測出力は、機械学習モデルの好適性、例えば、機械学習モデルの正確度または予測性能を決定するように、そのデータセットに関する参照値と比較されてもよい。このように、ＭＬモデルの予測性能は、特徴情報および参照標的情報の両方がすでに利用可能である、訓練データセットまたは別個の立証もしくは試験セットのいずれかで評価されてもよい。しかしながら、予測モデル化問題の性質が、参照標的情報が先験的に利用可能ではないことを示唆するため、ＭＬモデルの好適性を査定するための参照標的情報の使用は、概して、推論段階の間に、またはそれに先立って、リアルタイムで機械学習モデルの予測性能を決定または推定することを可能にしない。さらに、参照標識が発生されることを待機し、機械学習モデルの有効性を立証することは、モデルの有効性の分析を遅延させ得、機械学習モデルの予測性能が、その遅延周期の間に逸脱または低下するときに、事業損失または他の問題を引き起こし得る。

【0058】

対照的に、ＭＬ管理装置１０４のいくつかの実施形態は、第２の機械学習モデルを使用して、推論データセットに関する参照標識がない場合に、推論データセットのための第１の機械学習モデルおよび／または同等物の好適性（例えば、予測性能）を評価する。いくつかの実施形態では、第２のＭＬモデルは、第１のＭＬモデルによって対処される予測モデル化問題のタイプ、第１のＭＬモデルのタイプ、第１のＭＬモデルを発生させるために使用されるＭＬアルゴリズムのタイプ、第１のＭＬモデルを発生させるために使用される特定の言語もしくはフレームワーク、および／または同等物に依存しない。訓練データセットおよび推論データセット内の特徴から統計を抽出し、統計を使用して、訓練データセットが推論データセットに適用可能である可能性の高さを示す好適性スコアを発生させることによって、ＭＬモデルの好適性を評価するための関連技法が、「ＤｅｔｅｃｔｉｎｇＳｕｉｔａｂｉｌｉｔｙｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＭｏｄｅｌｓｆｏｒＤａｔａｓｅｔｓ」と題され、２０１９年６月６日に出願された、国際出願第ＰＣＴ／ＵＳ２０１９／０３５８５３号（整理番号ＤＲＢ－１０１ＷＯ）（適用法によって許容される最大限の程度において、参照することによって本明細書に組み込まれる）に説明されている。

【0059】

依然として、図１を参照すると、その種々のサブモジュールを含む、ＭＬ管理装置１０４は、システム１００内の１つ以上の情報ハンドリングデバイス１０２、１つ以上のサーバ１０８、１つ以上のネットワークデバイス、および／または同等物の上に位置してもよい。ＭＬ管理装置１０４のいくつかの実施形態は、図３を参照して下記により詳細に説明される。

【0060】

種々の実施形態では、ＭＬ管理装置１０４は、情報ハンドリングデバイス１０２上、サーバ１０８上、またはデータネットワーク１０６上の他の場所にインストールもしくは展開され得る、ハードウェアアプライアンスとして具現化されてもよい。ある実施形態では、ＭＬ管理装置１０４は、有線接続（例えば、ユニバーサルシリアルバス（「ＵＳＢ」）接続）または無線接続（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ、近距離通信（「ＮＦＣ」）、もしくは同等物）のいずれかによって、ラップトップコンピュータ、サーバ１０８、タブレットコンピュータ、スマートフォン、セキュリティシステム、または同等物等のデバイスにアタッチする、電子ディスプレイデバイス（例えば、ＨＤＭＩ（登録商標）ポート、ＤｉｓｐｌａｙＰｏｒｔポート、ＭｉｎｉＤｉｓｐｌａｙＰｏｒｔポート、ＶＧＡポート、ＤＶＩポート、または同等物を使用する、テレビもしくはモニタ）にアタッチする、および／または同等物である、セキュアハードウェアドングルまたは他のハードウェアアプライアンスデバイス（例えば、セットトップボックス、ネットワークアプライアンス、もしくは同等物）等のハードウェアデバイスを含んでもよい。ＭＬ管理装置１０４のハードウェアアプライアンスは、ＭＬ管理装置１０４に関して本明細書に説明される機能を実施するように構成される、下記に説明されるようなディスプレイ、および／または半導体集積回路デバイスにアタッチする、電力インターフェース、有線ならびに／もしくは無線ネットワークインターフェース、グラフィカルインターフェースを含んでもよい。

【0061】

ＭＬ管理装置１０４は、そのような実施形態では、マイクロコントローラ、特定用途向け集積回路（「ＡＳＩＣ」）、プロセッサ、プロセッサコア、または同等物上で実行するためのフィールドプログラマブルゲートアレイ（「ＦＰＧＡ」）または他のプログラマブル論理、ＦＰＧＡまたは他のプログラマブル論理のためのファームウェア、マイクロコード等の半導体集積回路デバイス（例えば、１つ以上のチップ、ダイ、もしくは他の離散論理ハードウェア）、または同等物を含んでもよい。一実施形態では、ＭＬ管理装置１０４は、（例えば、揮発性メモリ、不揮発性記憶媒体、ネットワークインターフェース、周辺デバイス、グラフィカル／ディスプレイインターフェース、または同等物への）１つ以上の電線もしくは接続を伴うプリント回路基板上に搭載されてもよい。ハードウェアアプライアンスは、データを送信および受信するように構成される（例えば、プリント回路基板または同等物の１つ以上の電線と通信する）、１つ以上のピン、パッド、もしくは他の電気接続と、ＭＬ管理装置１０４の種々の機能を実施するように構成される、１つ以上のハードウェア回路および／または他の電気回路とを含んでもよい。

【0062】

ＭＬ管理装置１０４の半導体集積回路デバイスまたは他のハードウェアアプライアンスは、ある実施形態では、限定ではないが、ランダムアクセスメモリ（「ＲＡＭ」）、ダイナミックＲＡＭ（「ＤＲＡＭ」）、キャッシュ、または同等物を含み得る、１つ以上の揮発性メモリ媒体を含む、および／またはそれに通信可能に結合される。一実施形態では、ＭＬ管理装置１０４の半導体集積回路デバイスまたは他のハードウェアアプライアンスは、限定ではないが、ＮＡＮＤフラッシュメモリ、ＮＯＲフラッシュメモリ、ナノランダムアクセスメモリ（ナノＲＡＭまたはＮＲＡＭ）、ナノ結晶ワイヤベースのメモリ、酸化ケイ素ベースの１０ナノメートル未満のプロセスメモリ、グラフェンメモリ、酸化ケイ素・窒化酸化物シリコン（「ＳＯＮＯＳ」）、抵抗ＲＡＭ（「ＲＲＡＭ（登録商標）」）、プログラマブル金属化セル（「ＰＭＣ」）、伝導性架橋ＲＡＭ（「ＣＢＲＡＭ」）、磁気抵抗ＲＡＭ（「ＭＲＡＭ」）、ダイナミックＲＡＭ（「ＤＲＡＭ」）、相変化ＲＡＭ（「ＰＲＡＭ」または「ＰＣＭ」）、磁気記憶媒体（例えば、ハードディスク、テープ）、光学記憶媒体、もしくは同等物を含み得る、１つ以上の不揮発性メモリ媒体を含む、および／またはそれに通信可能に結合される。

【0063】

データネットワーク１０６は、一実施形態では、デジタル通信を伝送する、デジタル通信ネットワークを含む。データネットワーク１０６は、無線セルラーネットワーク等の無線ネットワーク、Ｗｉ－Ｆｉネットワーク等のローカル無線ネットワーク、Ｂｌｕｅｔｏｏｔｈ（登録商標）ネットワーク、近距離通信（「ＮＦＣ」）ネットワーク、アドホックネットワーク、および／または同等物を含んでもよい。データネットワーク１０６は、広域ネットワーク（「ＷＡＮ」）、ストレージエリアネットワーク（「ＳＡＮ」）、ローカルエリアネットワーク（ＬＡＮ）、光ファイバネットワーク、インターネット、または他のデジタル通信ネットワークを含んでもよい。データネットワーク１０６は、２つ以上のネットワークを含んでもよい。データネットワーク１０６は、１つ以上のサーバ、ルータ、スイッチ、および／または他のネットワーキング機器を含んでもよい。データネットワーク１０６はまた、ハードディスクドライブ、光学ドライブ、不揮発性メモリ、ＲＡＭ、または同等物等の１つ以上のコンピュータ可読記憶媒体を含んでもよい。

【0064】

無線接続は、携帯電話ネットワークであってもよい。無線接続はまた、ＩｎｓｔｉｔｕｔｅｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓ（「ＩＥＥＥ」）８０２．１１規格のうちのいずれか１つに基づく、Ｗｉ－Ｆｉネットワークを採用してもよい。代替として、無線接続は、Ｂｌｕｅｔｏｏｔｈ（登録商標）接続であってもよい。加えて、無線接続は、ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ（「ＩＳＯ」）、ＩｎｔｅｒｎａｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎ（「ＩＥＣ」）、ＡｍｅｒｉｃａｎＳｏｃｉｅｔｙｆｏｒＴｅｓｔｉｎｇａｎｄＭａｔｅｒｉａｌｓ（登録商標）（ＡＳＴＭ（登録商標））、ＤＡＳＨ７^ＴＭＡｌｌｉａｎｃｅ、およびＥＰＣＧｌｏｂａｌ^ＴＭによって確立されたＲＦＩＤ規格を含む、無線周波数識別（「ＲＦＩＤ」）通信を採用してもよい。

【0065】

代替として、無線接続は、ＩＥＥＥ８０２規格に基づくＺｉｇＢｅｅ（登録商標）接続を採用してもよい。一実施形態では、無線接続は、ＳｉｇｍａＤｅｓｉｇｎｓ（登録商標）によって設計されるようなＺ－Ｗａｖｅ（登録商標）接続を採用する。代替として、無線接続は、Ｄｙｎａｓｔｒｅａｍ（登録商標）ＩｎｎｏｖａｔｉｏｎｓＩｎｃ．（Ｃｏｃｈｒａｎｅ，Ｃａｎａｄａ）によって定義されるようなＡＮＴ（登録商標）および／またはＡＮＴ＋（登録商標）接続を採用してもよい。

【0066】

無線接続は、ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ（登録商標）（「ＩｒＤＡ」（登録商標））によって定義されるような赤外線物理層仕様（「ＩｒＰＨＹ」）に少なくとも準拠する接続を含む、赤外線接続であってもよい。代替として、無線接続は、携帯電話ネットワーク通信であってもよい。各規格および／または接続タイプは、本開示の出願日時点の規格および／または接続タイプの最新バージョンならびに改正を含んでもよい。

【0067】

１つ以上のサーバ１０８は、一実施形態では、ブレードサーバ、メインフレームサーバ、タワーサーバ、ラックサーバ、および／または同等物として具現化されてもよい。１つ以上のサーバ１０８は、メールサーバ、ウェブサーバ、アプリケーションサーバ、ＦＴＰサーバ、メディアサーバ、データサーバ、ウェブサーバ、ファイルサーバ、仮想サーバ、および／または同等物として構成されてもよい。１つ以上のサーバ１０８は、データネットワーク１０６を経由して、１つ以上の情報ハンドリングデバイス１０２に通信可能に結合（例えば、ネットワーク化）されてもよい。１つ以上のサーバ１０８は、機械学習データ、アルゴリズム、訓練モデル、および／または同等物等の情報ハンドリングデバイス１０２と関連付けられるデータを記憶してもよい。

【0068】

図２Ａは、データセットのための機械学習モデルの好適性を決定するための機械学習層２００の一実施形態を図示する、概略ブロック図である。一実施形態では、論理機械学習層２００は、１つ以上のポリシ／制御パイプライン２０２と、１つ以上の訓練パイプライン２０４と、１つ以上の推論パイプライン２０６ａ－ｃと、１つ以上のデータベース２０８と、入力データ２１０と、ＭＬ管理装置１０４とを含む。具体的な数の機械学習パイプライン２０２、２０４、２０６ａ－ｃが、図２Ａに描写されるが、当業者は、本開示を踏まえて、任意の数の機械学習パイプライン２０２、２０４、２０６ａ－ｃが、論理機械学習層２００に存在し得ることを認識するであろう。さらに、図２Ａに描写されるように、種々のパイプライン２０２、２０４、２０６ａ－ｃは、上記に説明される情報ハンドリングデバイス１０２、仮想マシン、クラウドもしくは他の遠隔デバイス、および／または同等物等のデバイス２０３、２０５、２０７ａ－ｃとして具現化される、異なるノード上に位置してもよい。いくつかの実施形態では、機械学習層２００は、インテリジェンスオーバーレイネットワーク（「ＩＯＮ」）としても公知である、論理機械学習層の実施形態である。

【0069】

本明細書で使用されるように、機械学習パイプライン２０２、２０４、２０６ａ－ｃは、モデル訓練／推論、特徴工学、立証、スコア化、および／または同等物等の種々の機械学習動作を実施するためにパイプラインが使用し得る、種々の機械学習特徴、コンポーネント、オブジェクト、モジュール、ならびに／もしくは同等物を備えてもよい。パイプライン２０２、２０４、２０６ａ－ｃは、バッチでデータ２１０を分析または処理する、例えば、ストリーミングを介して、静的ソースからの全てのデータを一度に処理する、例えば、ライブデータに増分的に作用する、または前述の組み合わせ、例えば、マイクロバッチであってもよい。

【0070】

ある実施形態では、各パイプライン２０２、２０４、２０６ａ－ｃが、デバイス２０３、２０５、２０７ａ－ｃ、例えば、情報ハンドリングデバイス１０２、仮想マシン、および／または同等物上で実行される。いくつかの実施形態では、複数の異なるパイプライン２０２、２０４、２０６ａ－ｃが、同一のデバイス上で実行される。種々の実施形態では、各パイプライン２０２、２０４、２０６ａ－ｃは、明確に異なるまたは別個のデバイス上で実行される。デバイス２０３、２０５、２０７ａ－ｃは、全て単一の場所に位置してもよい、同一のネットワークに接続されてもよい、クラウドもしくは別の遠隔場所に位置してもよい、および／または前述のある組み合わせであってもよい。

【0071】

一実施形態では、各パイプライン２０２、２０４、２０６ａ－ｃは、分析エンジンと関連付けられ、パイプライン２０２、２０４、２０６ａ－ｃが構成される具体的分析エンジンタイプ上で実行される。本明細書で使用されるように、分析エンジンは、機械学習数値計算および分析を実施するための命令、コード、関数、ライブラリ、および／または同等物を備える。分析エンジンの実施例は、Ｓｐａｒｋ、Ｆｌｉｎｋ、ＴｅｎｓｏｒＦｌｏｗ、Ｃａｆｆｅ、Ｔｈｅａｎｏ、およびＰｙＴｏｒｃｈを含んでもよい。これらのエンジンのために開発されるパイプライン２０２、２０４、２０６ａ－ｃは、特定の分析エンジンのためのモジュール／ライブラリ（例えば、Ｓｐａｒｋ用のＳｐａｒｋ－ＭＬ／ＭＬｌｉｂ、Ｆｌｉｎｋ用のＦｌｉｎｋ－ＭＬ、および／または同等物）内に提供されるコンポーネントを含有してもよい。分析エンジンのためのアプリケーションプログラミングインターフェース（例えば、Ｆｌｉｎｋ用のＤａｔａＳｅｔ／ＤａｔａＳｔｒｅａｍ）を使用して、分析エンジン毎に開発されるカスタムプログラムもまた、含まれてもよい。さらに、各パイプラインが、種々の異なるプラットフォーム、ライブラリ、プログラミング言語、および／または同等物を使用して、実装されてもよい。例えば、推論パイプライン２０６ａが、Ｐｙｔｈｏｎを使用して実装されてもよい一方で、異なる推論パイプライン２０６ｂが、Ｊａｖａ（登録商標）を使用して実装される。

【0072】

一実施形態では、機械学習層２００は、所望の目的、結果、問題、および／または同等物に基づく、機械学習パイプライン２０２、２０４、２０６ａ－ｃの物理および／または論理群を含む。例えば、ＭＬ管理装置１０４は、所望の目的のために構成される機械学習モデルを発生させるための訓練パイプライン２０４と、選択された推論パイプライン２０６ａ－ｃが構成される分析エンジン、および機械学習モデルを使用して、所望の目的と関連付けられる入力データ２１０を処理することによって、所望の目的を分析するように構成される、１つ以上の推論パイプライン２０６ａ－ｃとを選択してもよい。したがって、群は、複数の分析エンジンを備えてもよく、分析エンジンは、複数の群の一部であってもよい。群は、目的に関してデータを分析すること、他の群の動作を管理すること、他の群の結果／性能を監視すること、制御された環境内で異なる機械学習アルゴリズム／モデルを用いて実験すること、例えば、サンドボックス、および／または同等物等の異なるタスクを実施するように定義されることができる。

【0073】

例えば、機械学習パイプライン２０２、２０４、２０６ａ－ｃの論理群は、機械学習パイプライン２０２、２０４、２０６ａ－ｃの監視された論理群からのフィードバック、結果、メッセージ、および／または同等物を処理することによって、ならびに／もしくは機械学習パイプライン２０２、２０４、２０６ａ－ｃの監視された論理群の中に入力を提供し、異常、エラー、および／または同等物を検出することによって、機械学習パイプライン２０２、２０４、２０６ａ－ｃの異なる論理群の結果、性能、動作、健全性、ならびに／もしくは同等物を分析するように構築されてもよい。

【0074】

機械学習パイプライン２０２、２０４、２０６ａ－ｃが、異なるデバイス２０３、２０５、２０７ａ－ｃ、同一のデバイス２０３、２０５、２０７ａ－ｃ、および／または同等物の上に位置し得るため、ＭＬ管理装置１０４は、目的を分析するために最良に構成される機械学習パイプライン２０２、２０４、２０６ａ－ｃを論理的に群化する。下記により詳細に説明されるように、論理群は、機械学習パイプライン２０２、２０４、２０６ａ－ｃの論理群が、特に具体的目的のために構成され得るように、事前定義されてもよい。

【0075】

ある実施形態では、ＭＬ管理装置１０４は、目的が、機械学習パイプライン２０２、２０４、２０６ａ－ｃの特性、設定、および／または同等物に基づいて、決定される、受信される、ならびに／もしくは同等物が行われるときに、目的に関して機械学習パイプライン２０２、２０４、２０６ａ－ｃを動的に選択する。ある実施形態では、パイプライン２０２、２０４、２０６ａ－ｃの複数の異なる論理群は、同一の物理的インフラストラクチャ、プラットフォーム、デバイス、仮想マシン、および／または同等物を共有してもよい。さらに、パイプライン２０２、２０４、２０６ａ－ｃの異なる論理群は、分析されている目的に基づいて、マージされる、組み合わせられる、および／または同等物が行われてもよい。

【0076】

一実施形態では、ポリシパイプライン２０２は、論理機械学習層２００内の動作を維持／管理するように構成される。ある実施形態では、例えば、ポリシパイプライン２０２は、訓練パイプライン２０４から機械学習モデルを受信し、目的に関して入力データ２１０を分析する際に使用するために、機械学習モデルを推論パイプライン２０６ａ－ｃにプッシュする。種々の実施形態では、ポリシパイプライン２０２は、論理機械学習層２００と関連付けられるユーザ入力を受信する、他のパイプライン２０４、２０６ａ－ｃからイベントおよび／またはフィードバック情報を受信する、機械学習モデルの正当性を立証する、パイプライン２０２、２０４、２０６ａ－ｃの間のデータ伝送を促進する、および／または同等物を行う。

【0077】

一実施形態では、ポリシパイプライン２０２は、パイプライン２０４、２０６ａ－ｃが相互と相互作用する方法を定義する、１つ以上のポリシを備える。例えば、訓練パイプライン２０４は、訓練サイクルが完了した後に機械学習モデルを出力してもよい。いくつかの可能性として考えられるポリシは、機械学習モデルが取り扱われる方法を定義し得る。例えば、あるポリシは、機械学習モデルが推論パイプライン２０６ａ－ｃに自動的にプッシュされ得ることを規定し得る一方で、別のポリシは、ポリシパイプライン２０２が機械学習モデルを推論パイプライン２０６ａ－ｃにプッシュすることに先立って、ユーザ入力が機械学習モデルを承認するために要求されることを規定し得る。ポリシはさらに、機械学習モデルが更新される方法を定義し得る。

【0078】

例えば、あるポリシは、例えば、推論パイプライン２０６ａ－ｃから受信される機械学習結果に基づいて、機械学習モデルがフィードバックに基づいて自動的に更新されることを規定し得る、あるポリシは、機械学習モデルが推論パイプライン２０６ａ－ｃに伝搬される前に、ユーザがそれを精査する、検証する、および／または正当性を立証するように要求されるどうかを規定し得る、あるポリシは、機械学習モデルが更新される頻度（例えば、１日に１回、１時間に１回、連続的に、ならびに／もしくは同等物）等の論理機械学習層２００内のスケジューリング情報を規定し得る、および／または同等物を行い得る。

【0079】

ポリシは、パイプライン２０２、２０４、２０６ａ－ｃの異なる論理群が相互作用または協働し、凝集データインテリジェンスワークフローを形成する方法を定義し得る。例えば、あるポリシは、１つの論理機械学習層２００によって発生される結果が、異なる論理機械学習層２００の中への入力として、例えば、機械学習モデルのための訓練データとして、推論パイプライン２０６ａ－ｃへの入力データ２１０として、および／または同等物として使用されることを規定し得る。ポリシは、機械学習モデルが更新される方法および時間、個々のパイプライン２０２、２０４、２０６ａ－ｃが通信ならびに相互作用する方法、および／または同等物を定義し得る。

【0080】

一実施形態では、ポリシパイプライン２０２は、パイプライン２０４、２０６ａ－ｃの論理群を備える、パイプライン２０４、２０６ａ－ｃのマッピングを維持する。ポリシパイプラインはさらに、ユーザ入力、フィードバック、もしくはパイプライン２０４、２０６ａ－ｃによって発生されるイベント、および／または同等物に応答して、パイプライン２０４、２０６ａ－ｃの種々の設定または特徴を調節してもよい。例えば、推論パイプライン２０６ａが、不正確である機械学習を発生させる場合、ポリシパイプライン２０２は、結果が不正確であることを示すメッセージを推論パイプライン２０２から受信してもよく、推論パイプライン２０６ａのための新しい機械学習モデルを発生させるように訓練パイプライン２０４に指示してもよい。

【0081】

訓練パイプライン２０４は、一実施形態では、目的と関連付けられる履歴または訓練データに基づいて分析されている目的のための機械学習モデルを発生させるように構成される。本明細書で使用されるように、機械学習モデルは、特定の目的と関連付けられる履歴または訓練データに訓練または学習アルゴリズムを実行することによって、発生される。機械学習モデルは、入力データを標的、例えば、所望の結果／予測にマップする、訓練データ内のパターンを捕捉する、訓練プロセスによって発生される、アーチファクトである。一実施形態では、訓練データは、静的データセット、オンラインソースからアクセス可能なデータ、ストリーミングデータセット、および／または同等物であってもよい。

【0082】

推論パイプライン２０６ａ－ｃは、一実施形態では、発生された機械学習モデルおよび対応する分析エンジンを使用し、目的と関連付けられる入力／推論データ２１０について機械学習結果／予測を発生させる。入力データは、分析されている目的と関連付けられるが、訓練データの一部ではなかったデータを備える場合があり、例えば、入力データのパターン／成果は、把握されていない。例えば、ユーザが、Ｅメールがスパムであるかどうかを把握することを所望する場合、訓練パイプライン２０４は、スパムであることが把握されるＥメール、およびスパムではないことが把握されるＥメールの両方を含む、訓練データセットを使用して、機械学習モデルを発生させてもよい。機械学習モデルが発生された後、ポリシパイプライン２０２は、機械学習モデルを推論パイプライン２０６ａ－ｃにプッシュし、そこで、例えば、入力／推論データ２１０として提供される、１つ以上のＥメールが、スパムであるかどうかを予測するために使用される。

【0083】

したがって、図２Ａに描写されるように、ポリシパイプライン２０２、訓練パイプライン２０４、および推論パイプライン２０６ａ－ｃが、エッジ／中心グラフで描写される。描写される実施形態では、新しい機械学習モデルが、データセンタ内の大型クラスタ化分析エンジン上で実行され得る、バッチ訓練パイプライン２０４内で周期的に訓練される。訓練パイプライン２０４が、新しい機械学習モデルを発生させるにつれて、管理者が、通知されてもよい。管理者は、発生された機械学習モデルを精査してもよく、管理者が承認する場合、機械学習モデルが、それぞれ、エッジデバイスに由来するライブデータ、例えば、入力／推論データ２１０に実行され得る、目的のための論理パイプライン群を備える、推論パイプライン２０６ａ－ｃにプッシュされる。

【0084】

図２Ｂは、データセットのための機械学習モデルの好適性を決定するための論理機械学習層２２５の別の実施形態を図示する、概略ブロック図である。一実施形態では、図２Ｂの論理機械学習層２２５は、図２Ａに描写される論理機械学習層２００に実質的に類似する。図２Ａに描写される論理機械学習層２００の要素に加えて、図２Ｂの論理機械学習層２２５は、訓練デバイス２０５ａ－ｂ上で実行される、複数の訓練パイプライン２０４ａ－ｂを含む。

【0085】

描写される実施形態では、訓練パイプライン２０４ａ－ｂは、目的のための訓練データに基づいて、目的のための機械学習モデルを発生させる。訓練データは、訓練パイプライン２０４ａ－ｂ毎に異なり得る。例えば、第１の訓練パイプライン２０４ａのための訓練データが、所定の時間周期にわたる履歴データを含んでもよい一方で、第２の訓練パイプライン２０４ｂのための訓練データは、異なる所定の時間周期にわたる履歴データを含んでもよい。訓練データの変動は、異なるタイプのデータ、異なる時間周期において収集されるデータ、異なる量のデータ、および／または同等物を含んでもよい。

【0086】

他の実施形態では、訓練パイプライン２０４ａ－ｂは、異なるまたは同一のセットの訓練データに異なる訓練または学習アルゴリズムを実行してもよい。例えば、第１の訓練パイプライン２０４ａが、Ｐｙｔｈｏｎを使用して、訓練アルゴリズムＴｅｎｓｏｒＦｌｏｗを実装してもよい一方で、第２の訓練パイプライン２０４ｂは、Ｊａｖａ（登録商標）および／または同等物を使用して、Ｓｐａｒｋで異なる訓練アルゴリズムを実装する。

【0087】

一実施形態では、論理機械学習層２２５は、訓練パイプライン２０４ａ－ｂが発生させる機械学習モデルを受信し、分析されている目的のための最良適合である機械学習モデルのうちのいずれかを決定するように構成される、モデル選択モジュール２１２を含む。最良適合機械学習モデルは、訓練データに関する参照結果に最も類似する結果を生成した機械学習モデル（例えば、最も正確な機械学習モデル）、最速で実行される機械学習モデル、最少量の構成を要求する機械学習モデル、および／または同等物であってもよい。

【0088】

一実施形態では、モデル選択モジュール２１２は、ハイパーパラメータ検索を実施し、ＭＬモデルを発生させ、所与の目的のための最良適合である、発生された機械学習モデルのうちのいずれかを決定する。本明細書で使用されるように、ハイパーパラメータ検索、最適化、または同調は、学習アルゴリズムのために最適なハイパーパラメータのセットを選定する問題である。ある実施形態では、同一種類の機械学習モデルが、異なるデータパターンを一般化するために、異なる制約、加重、または学習率を使用することができる。これらの測定値は、ハイパーパラメータと呼ばれ得、モデルが機械学習問題を最適に解決し得るように、同調され得る。ハイパーパラメータ最適化は、所与の独立データ上の所定の損失関数を最小限にする、最適な機械学習モデルを生じさせる、ハイパーパラメータのセットを見出す。ある実施形態では、モデル選択モジュール２１２は、異なる機械学習モデルの異なる特徴を組み合わせ、単一の複合モデルを発生させる。一実施形態では、モデル選択モジュール２１２は、推論パイプライン２０６ａ－ｃへの伝搬のために、選択された機械学習モデルをポリシパイプライン２０２にプッシュする。種々の実施形態では、モデル選択モジュール２１２は、ＭＬ管理装置１０４の一部である、それに通信可能に結合される、動作可能に結合される、および／または同等物である。

【0089】

図２Ｃは、データセットのための機械学習モデルの好適性を決定するための論理機械学習層２５０のある実施形態を図示する、概略ブロック図である。一実施形態では、図２Ｃの論理機械学習層２５０は、それぞれ、図２Ａおよび２Ｂに描写される、論理機械学習層２００、２２５に実質的に類似する。さらなる実施形態では、図２Ｃは、論理機械学習層２５０の連合学習実施形態を図示する。

【0090】

連合機械学習層において、一実施形態では、訓練パイプライン２０４ａ－ｃは、対応する推論パイプライン２０６ａ－ｃと同一の物理または仮想デバイス上に位置する。そのような実施形態では、訓練パイプライン２０４ａ－ｃは、異なる機械学習モデルを発生させ、機械学習モデルをモデル選択モジュール２１２に送信し、これは、上記に説明されるように、論理機械学習層２５０のための最良適合である機械学習モデルを決定する、もしくは異なる機械学習モデルを組み合わせる／マージする、および／または同等物である。選択された機械学習モデルは、立証、検証、または同等物のためにポリシパイプライン２０２にプッシュされ、これは、次いで、推論パイプライン２０６ａ－ｃに戻るようにそれをプッシュする。

【0091】

図３は、データセットのための機械学習モデルの好適性を決定するための装置３００の一実施形態を図示する、概略ブロック図である。一実施形態では、装置３００は、ＭＬ管理装置１０４の実施形態を含む。ＭＬ管理装置１０４は、一実施形態では、下記により詳細に説明される、一次訓練モジュール３０２、一次立証モジュール３０４、二次訓練モジュール３０６、二次立証モジュール３０８、分析モジュール３１０、およびアクションモジュール３１２のうちの１つ以上のものを含む。

【0092】

一実施形態では、一次訓練モジュール３０２は、第１の機械学習アルゴリズムおよび訓練データセットを使用して、第１の機械学習モデルを訓練するように構成される。そのような実施形態では、第１の機械学習アルゴリズムは、線形回帰、ロジスティック回帰、線形判別分析（「ＬＤＡ」）、分類および回帰ツリー、ナイーブベイズ、Ｋ－最近傍、学習ベクトル量子化、サポートベクトルマシン、バギングならびにランダムフォレスト、ブースティング、および／または同等物等のいくつかの利用可能な機械学習アルゴリズムのうちのいずれか１つであってもよい。第１の機械学習アルゴリズムは、例えば、訓練データセットが、連続標識または分類標識を備えるかどうかに基づいて、選択されてもよい。第１の機械学習アルゴリズムは、ある実施形態では、種々の機械学習アルゴリズムのアンサンブルまたは組み合わせを備えてもよい。

【0093】

一実施形態では、一次訓練モジュール３０２は、第１の機械学習アルゴリズムおよび訓練データセットを使用して、第１の機械学習モデルを訓練する。例えば、一次訓練モジュール３０２は、訓練データセットを受信し、読み取り、それにアクセスし、および／または同等物を行い、訓練データセットを訓練パイプライン２０４に提供して、機械学習モデルを訓練してもよい。そのような実施形態では、訓練データセットは、第１の機械学習モデルがデータから「学習」し、参照標識を含まない推論データセットに予測を実施することを可能にする、参照標識を含む。例えば、訓練データセットは、体重、身長、性別、品種等のイヌに関する種々のデータ点を含んでもよい。一次訓練モジュール３０２は、予測されている特徴に関する標識を含まない、推論データセットを使用して、イヌの体重、性別、品種、および／または同等物等のイヌの種々の特性を予測するために使用され得るように、イヌ訓練データセットを使用して、機械学習モデルを訓練してもよい。

【0094】

一実施形態では、一次立証モジュール３０４は、立証データセットを使用して、第１の機械学習モデルの正当性を立証するように構成される。立証データセットは、一実施形態では、第１の機械学習モデルが立証データセットを分析するときに、第１の機械学習モデルが発生させる予測が、予測の正確度を決定するために立証データセット内の参照標識に対して比較され得るように、種々の特徴に関する参照標識を含む、データセットを備える。

【0095】

いくつかの実施形態では、二次訓練モジュール３０６は、第２の機械学習アルゴリズムおよびエラーデータセットを使用して、第２の機械学習モデルを訓練するように構成される。エラーデータセットは、第１の機械学習モデルの立証の出力、例えば、立証データセット内の観察のうちの１つ以上のもの（例えば、それぞれ）に関して第１のＭＬモデルによって発生される予測を含んでもよい。エラーデータセットは、ある実施形態では、立証データセット上の第１の機械学習モデルの予測エラーを示す値（例えば、第１の機械学習モデルが立証データセットに関する標識を正確に予測した頻度を示す、率、スコア、または他の値、立証データセット内の観察のうちの１つ以上のもの（例えば、それぞれ）に関する参照出力値、第１のＭＬモデルによって発生される予測が立証データセット内の観察のうちの１つ以上のもの（例えば、それぞれ）に関する参照出力値に合致するかどうかを示す標識等）を含む。

【0096】

一実施形態では、エラーデータセットは、立証データセットに関して第１の機械学習モデルによって発生される予測が第１の機械学習モデルのための合格／不合格基準を満たすかどうかを示す、標識（用語「合格」もしくは「不合格」、１もしくは０値、および／または所定の閾値と比較すると合格／不合格ステータスを示す実数等）を含む。いくつかの実施形態では、エラーデータセットは、立証データセットの特徴値、エラーデータセット内の１つ以上の（例えば、全ての）サンプルの統計的シグネチャスコア、第１の機械学習モデルによって発生される予測値、第１の機械学習モデルの予測と関連付けられる信頼測定基準、および／または第１の機械学習モデルに特有の１つ以上のパラメータを含む。

【0097】

例えば、カテゴリデータを含む立証データセットは、歩行、起立、睡眠等のヒトの活動に対応する、６つのクラスを有してもよい。本データセットに関する特徴は、フィットネストラッカ、スマートフォン、または同等物等のスマートデバイスから収集される値であってもよい。一次訓練モジュール３０２は、一実施形態では、訓練データセットを使用して、これらの特徴および標識上で第１の機械学習モデルを訓練する。一次立証モジュール３０４は、いくつかの実施形態では、同一の特徴を含むが、異なるデータを含む、立証データセットを使用し、第１の機械学習モデルを使用して標識を予測する。一次立証モジュール３０４は、第１のＭＬモデルによって行われる予測を試験データの参照（「真の」）標識と比較し、エラー率、好適性スコア、加重、または他の値を計算してもよい。

【0098】

ある実施形態では、連続データ値を取り扱うために好適な回帰または他の機械学習アルゴリズムを使用して分析され得る、連続標識（例えば、実数）を含む、データの場合、一次立証モジュール３０４は、第１の機械学習モデルのための合格／不合格基準を決定してもよい（第１の機械学習モデルの予測が立証データセットの参照標識に合致しないときに、「不合格」が決定され得るため、本タスクは、多くの場合、分類標識を含むデータに関して自明であることに留意されたい）。

【0099】

回帰モデルまたは同等物の予測性能は、参照標識からの予測値の距離に基づいて査定されてもよい。本距離／エラーが小さいほど、第１の機械学習モデルの予測性能が、より正確になり得る。閾値が、合格／不合格基準を決定するように、本エラー値上で、またはエラーの正規化された測定値、例えば、参照標識に対するエラー値の比（「エラー率」）上で設定されてもよい。エラー測定基準が本閾値よりも低いとき、例えば、標識は、合格であり、そうでなければ、不合格である。これらは、第２の機械学習アルゴリズムが訓練のために使用する、エラーデータセットに関する標識を形成してもよい。本閾値の値は、データセット依存性であり得る。さらに、閾値パラメータは、カスタマイズ可能であり得る、例えば、ユーザによって設定されてもよい。一実施形態では、一次立証モジュール３０４は、データセットに適合されるデフォルト閾値を計算する。

【0100】

例えば、一次立証モジュール３０４は、回帰エラー特性（「ＲＥＣ」）曲線上に第１のＭＬモデルの予測に関するエラー測定基準の値をプロットしてもよい。曲線の「湾曲部分」は、ＲＥＣ曲線の二重微分を使用して決定され得る、閾値として選定されてもよい。その近傍が両方とも（二重微分ＲＥＣ曲線内で）より大きい点が、選定されてもよく、その対応するｘ軸値は、合格／不合格基準に関するデフォルト閾値になってもよい。

【0101】

一実施形態では、二次訓練モジュール３０６は、本明細書に説明されるように、第１のＭＬモデルのための第２の機械学習アルゴリズムおよびエラーデータセットを使用して、第２の機械学習モデルを訓練するように構成される。第２の機械学習モデルは、推論データセットを分析するための第１の機械学習モデルの好適性を予測するように構成されてもよい。本明細書で使用されるように、好適性は、第１の機械学習モデルが推論データセットに関して発生させる予測の有効性、正確度、有効度、または同等物を説明する、好適性スコア（または「健全性スコア」）等の値によって表され得る。

【0102】

一実施形態では、第２の機械学習アルゴリズムは、第１の機械学習アルゴリズムと異なる。例えば、第１の機械学習アルゴリズムが、線形回帰アルゴリズムである場合、第２の機械学習アルゴリズムは、ロジスティック回帰アルゴリズムを備えてもよい。ある実施形態では、第１および第２の機械学習アルゴリズムは、同一の機械学習アルゴリズムである。推論データセットで予測を行うための第１の機械学習モデルの好適性を査定するために好適である、任意の第２の機械学習アルゴリズムが、使用されてもよい。

【0103】

一実施形態では、二次訓練モジュール３０６は、付加的データを含み、予測エラーデータを補完することによって、エラーデータセットを向上させる。例えば、二次訓練モジュール３０６は、立証データセット自体の特徴等の付加的特徴に関するデータ（例えば、二次訓練モジュール３０６は、立証データセット自体の利用可能な特徴の全てまたはサブセットを選択してもよい）、立証データセット内の１つ以上の（例えば、全ての）サンプルに関する統計的シグネチャスコア（例えば、限定ではないが、国際出願第ＰＣＴ／ＵＳ２０１９／０３５８５３号に説明される技法を使用して計算される統計的スコアを含む、データセットを統計的に説明するための統計的アルゴリズムを使用して計算される、統計的スコア）、第１の機械学習モデルからの予測値（例えば、第１の機械学習モデルを使用して推論データセットを分析することから出力される予測値）、第１の機械学習モデルの予測と関連付けられる信頼測定基準、第１の機械学習モデルに特有であるパラメータ、および／または同等物を含んでもよい。

【0104】

一実施形態では、二次立証モジュール３０８は、第１の機械学習モデルの好適性を予測するための第２の機械学習モデルの好適性を決定するように構成される。例えば、二次立証モジュール３０８は、第２のＭＬモデルによって発生される、誤検出予測、未検出予測、正検出予測、および正未検出予測の数または率を示すことによって、第２のＭＬモデルの性能を要約し得る、混同行列を使用して、第２の機械学習モデルを分析してもよい。一般に、混同行列（エラー行列としても公知である）が、機械学習モデルの性能の可視化を可能にする、具体的テーブルレイアウトで表され得る。例えば、混同行列は、特定のデータセット上の機械学習モデルに関する誤検出（ＦＰ）、未検出（ＦＮ）、正検出（ＴＰ）、および正未検出（ＴＮ）の数または率を報告する、２行および２列を伴うテーブルで表され得る。

【0105】

さらなる実施形態では、二次立証モジュール３０８は、訓練統計等の他の統計を分析し、第１の機械学習モデルの好適性（例えば、有効度）を正確に査定することの第２の機械学習モデルの好適性を決定する。他の統計は、信頼測定基準、正確度測定基準、精度測定基準、および／または同等物を含んでもよい。これらの統計の値は、第２の機械学習モデルが好適または不適切であることを統計的測定基準が示すかどうかを決定するように、閾値（例えば、事前決定された閾値）と比較されてもよい。例えば、二次立証モジュール３０８は、混同行列内の誤検出、未検出、正検出、および／または正未検出値が個別の閾値（例えば、事前決定された閾値）を満たすことを検証してもよい。当業者は、本開示を踏まえて、第２の機械学習モデルの好適性を査定するために使用され得る、種々の統計的測定値を認識するであろう。

【0106】

ある実施形態では、二次立証モジュール３０８は、推論データセットに関する第１の機械学習モデルの予測の好適性（例えば、性能または正確度）を予測するための第２の機械学習モデルのアンサンブル（例えば、２つ以上の機械学習モデルの組み合わせ）の好適性を決定する。二次訓練モジュール３０６は、一実施形態では、機械学習モデルの異なる組み合わせを含むアンサンブルを発生させ、最良適合である、または第１の機械学習モデルの予測性能を分析するための好適性閾値を満たす、アンサンブルを決定してもよい。そのような実施形態では、二次訓練モジュール３０６は、異なる訓練データ上で複数の異なる第２の機械学習モデルを訓練し、第２の機械学習モデルの種々のアンサンブルを発生させるように構成されてもよい。

【0107】

一実施形態では、第２の機械学習アルゴリズム／モデルは、第１の機械学習モデルが発生させる予測が、エラーデータとともに、第２の機械学習モデルの訓練の中への入力として使用され得るように、第１の機械学習モデルが推論データセットを分析した後に、第１の機械学習モデルの予測性能を分析する。ある実施形態では、第２の機械学習モデルが、すでに訓練されている場合、第１および第２の機械学習モデルは、推論データセットに基づいて実質的に同時に起動し、リアルタイムで、または実質的にリアルタイムで、第１の機械学習モデルの予測性能を決定してもよい。ある実施形態では、第２の機械学習モデルは、第１の予測モデルが値Ｖを発生させることに先立って、および／または第１の予測モデルによって発生される値Ｖを参照することなく、推論データセットのサンプルＳに関して第１の予測モデルによって発生される値Ｖが、正確または不正確であるかどうかを予測してもよい。

【0108】

分析モジュール３１０は、一実施形態では、第２の機械学習モデルが発生させる予測に基づいて、第１の機械学習モデルが推論データセットに関して予測を発生させるために好適であるかどうかを決定するように構成される。例えば、分析モジュール３１０は、本明細書に説明される分析測定基準（例えば、種々の健全性スコア、エラー率、混同行列値）および／または同等物を分析し、好適性値を発生させ、好適性値が所定の閾値を満たすかどうかを決定してもよい。例えば、分析モジュール３１０は、種々の測定基準がそれぞれ、閾値を満たすかどうか、測定基準の割合が閾値を満たすかどうか、または種々の測定基準（例えば、平均）の計算された組み合わせが閾値を満たすかどうかを決定してもよい。該当する場合には、分析モジュール３１０は、第１の機械学習モデルが推論データセットに関して正確な予測を生成していることを決定してもよい。

【0109】

いくつかの実施形態では、分析測定基準は、予測信頼値、データ偏差値、Ａ／Ｂ試験値、カナリア値、および／または同等物を含んでもよい。これに関連して、「カナリア値」は、第１のＭＬモデルによって分析される同一の推論データセットを分析するために好適であることが既知である（または好適であると見なされる）、第３のＭＬモデルによって発生される予測であり得る。第１のＭＬモデルの予測性能が、推論データセット上のカナリアＭＬモデルの予測性能よりも不良（例えば、有意に不良）である場合、本偏差は、第１のＭＬモデルが推論データセットを分析するために不適切であることを示唆し得る。これに関連して、「Ａ／Ｂ試験値」は、第１のＭＬモデルによって置換されるべき候補である、第３のＭＬモデルによって発生される予測であり得る。第１のＭＬモデルの予測性能が、推論データセット上のカナリアＭＬモデルの予測性能よりも良好（例えば、有意に良好）である場合、本偏差は、第１のＭＬモデルが推論データセットを分析するために好適であることを示唆し得る。
下記の表１は、第１の機械学習モデルが推論データセットのための良好な適合であるかどうかを決定するように分析モジュール３１０が分析し得る、例示的出力データセットを例証する。

【0110】

【表1】

【0111】

表１の一次アルゴリズムエラー列は、一実施形態では、所与のデータセットに関する分類の一次タスクを実施する際の第１の機械学習モデルの予測エラーを示す。例えば、表１内のデータを発生させるために使用されるデータセットは、歩行、起立等のヒトの活動に対応する、６つのクラスを有する。本データセットに関する特徴は、携帯電話から収集される値を含んでもよい。第１の機械学習アルゴリズムは、訓練データセットを使用して、これらの特徴および標識上で訓練し、第１の機械学習モデルを発生させる。後に、第１の機械学習モデルは、立証データセット内の特徴を使用して、標識を予測するために使用される。一次立証モジュール３０４は、第１の機械学習モデルによって行われる予測を立証データの参照（「真の」）標識と比較し、一次モデルエラー値を計算する。

【0112】

表１の二次モデル予測正確度列は、第２のＭＬモデルによって予測されるような第１の機械学習モデルの正確度を示す。一実施形態では、本システムは、第２のＭＬモデルによって予測されるような推論データセットに関する第１のＭＬモデルの正確度が、「一次モデルエラー」列内の値に少なくとも等しい、または少なくとも実質的に等しい場合に、第１の機械学習モデルが推論データセットのために好適であることを決定してもよい。本明細書で解説されるように、第２の機械学習アルゴリズムは、入力としてエラーデータセットの特徴（推論データセットの特徴、エラーデータ、および／または他の特徴を含み得る）を受信し、第１の機械学習モデルが推論データセットで正確な予測を行うために好適であるかどうかを予測する。一実施形態では、第２の機械学習モデルは、第１の機械学習アルゴリズムが正しい予測を行うことに成功しないことが予測される、サンプルを識別する。列「二次モデル予測正確度」のサブ列「一次予測を伴う」は、第２のＭＬモデルが一次モデルによって予測される値を入力として使用するときに、第２の機械学習モデルによって予測されるような第１の機械学習モデルの正確度を示す、値を含む。

【0113】

表１のＭＬ二乗正確度列内の値は、一実施形態では、第１の機械学習モデルの予測性能に関して正確な予測を行うことの第２の機械学習モデルの好適性を説明する。一実施形態では、二次立証モジュール３０８は、第２のＭＬモデルの好適性を査定し、ＭＬ二乗正確度列内の値を発生させる。時として、列「一次モデルエラー」および「二次モデル予測正確度」内の総統計は、合致し得るが、個々のサンプル毎の予測は、不正確であり得る。例えば、いくつかの０が、１として予測される場合があり、いくつかの１が、０として予測される場合がある（０は、不合格であり、１は、合格である）。ＭＬ二乗正確度測定基準は、第１の（一次）ＭＬモデルの実際の性能および第２の（二次）ＭＬモデルによって予測されるような第１の（一次）ＭＬモデルの性能のサンプル毎の比較に基づき得、したがって、第１の機械学習モデルの予測性能を評価するために有用であり得る。「ＭＬ二乗正確度」列のサブ列「一次予測を伴う」は、第２のＭＬモデルが一次モデルによって予測される値を入力として使用するときに、第１の機械学習モデルの予測性能に関して正確な予測を行うことの第２の機械学習モデルの好適性を説明する、値を含む。

【0114】

一実施形態では、表１の混同行列の列は、二次立証モジュール３０８が第２の機械学習モデルに関して発生させる、混同行列値を含む。一実施形態では、ＭＬ二乗正確度および他の予測性能測定基準は、混同行列内の値に基づいて計算されることができる。「混同行列」列のサブ列「一次予測を伴う」は、第２のＭＬモデルが一次モデルによって予測される値を発生される入力として使用するときに、第１のＭＬモデルの性能を予測するための第２の機械学習モデルの好適性を示す、値を含む。

【0115】

一実施形態では、分析モジュール３１０は、表１に示される測定基準のうちの１つ以上のものに基づいて、好適性スコアを計算してもよく、好適性スコアを閾値と比較し、（１）第２の機械学習モデルが第１の機械学習モデルの予測性能の正当性を立証するための良好な適合であるかどうか、該当する場合、（２）第１の機械学習モデルが（標識がない場合に）推論データセットに関して正確な予測を発生させるための良好な適合であるかどうかを決定してもよい。このように、ＭＬ管理装置１０４は、訓練されたモデルの予測性能を決定するために数分／数時間／数週間／数日等待機する代わりに、生成されている間に訓練されたモデルが推論データセットに関して予測を発生させる有効性をリアルタイムで予測することができ、訓練されたモデルが、正確な予測を発生させていないことが決定される場合、ＭＬ管理装置１０４は、アクションモジュール３１２を参照して、下記に説明されるように、それに応じて反応することができる。

【0116】

一実施形態では、分析モジュール３１０は、（例えば、表１内の測定基準に加えて）付加的データを使用し、第１の機械学習モデルが推論データのために好適であるかどうかを決定してもよい。例えば、分析モジュール３１０は、（例えば、米国特許出願第１６／００１，９０４号（参照することによってその全体として本明細書に組み込まれる）に説明されるように）データ偏差情報を受信し、またはそれにアクセスし、推論データが第１の機械学習モデルを訓練するために使用される訓練データと異なるかどうか、およびその量を決定してもよい。データ偏差スコアが、所定の閾値を超えて逸脱しない場合には、（例えば、訓練データセットおよび推論データセットが十分に類似する、または補完することを示す、データ偏差スコアに照らして）第１の機械学習モデルが推論データセットのために予備好適と見なされたため、第２の機械学習モデルが、推論データ上の第１の機械学習モデルの予測性能を決定するために使用されてもよい。そうでなければ、第１の機械学習モデルが、おそらく、推論データセットに関して正確な予測を発生させないであろうように、推論データセットが訓練データセットに十分に類似しないことをデータ偏差スコアが示す場合、分析モジュール３１０は、下記に説明されるアクションのうちの１つ以上のものをトリガしてもよい。

【0117】

一実施形態では、アクションモジュール３１２は、事前決定された好適性閾値を満たさない、推論データセットを分析するための第１の機械学習モデルの予測された好適性に応答して、リアルタイムで動的に、第１または第２の機械学習モデルと関連付けられる是正アクションをトリガするように構成される。一実施形態では、アクションは、第１の機械学習アルゴリズムおよび異なる訓練データセットを使用して、第１の機械学習モデルを再訓練するステップを含む。例えば、アクションモジュール３１２は、第１の機械学習モデルを再選択するための異なる訓練データセットを選択する、またはその選択をトリガしてもよい。

【0118】

いくつかの実施形態では、アクションは、第１の機械学習モデルを、第１の機械学習アルゴリズムを使用して異なる訓練データ上で訓練される、異なる機械学習モデルに切り替えるステップを含む。例えば、アクションモジュール３１２は、より好適である、または推論データセットに類似し得る、異なる訓練データ上で訓練された機械学習モデルを選択する、またはその選択をトリガしてもよい。

【0119】

一実施形態では、アクションは、推論データセットを分析するための１つ以上の異なる機械学習アルゴリズムを推奨するステップを含む。例えば、アクションモジュール３１２は、特性または推論データセットに基づいて推論データセットのためにより好適であり得る、異なる機械学習アルゴリズムのための推奨を含む、通知、メッセージ、または同等物を発生させてもよい。

【0120】

種々の実施形態では、アクションは、推論データセットを分析するための第１の機械学習モデルの好適性を決定するステップと関連付けられる、１つ以上の閾値を更新するステップを含む。例えば、アクションモジュール３１２は、より柔軟または厳密であるように、好適性閾値、例えば、第１の機械学習モデルが推論データセットのために好適または不適切であることを、第２のＭＬモデルによって発生される値が示すかどうかを決定するために使用される閾値を更新する、またはその更新をトリガしてもよい。例えば、種々の第１の機械学習モデルが発生されたが、第１の機械学習モデルのうちのいずれも、所定の閾値を満たす好適性スコアを有していない場合には、閾値は、過剰に高く設定され得、アクションモジュール３１２は、第１の機械学習モデルのうちの少なくとも１つが好適と見なされるまで閾値を調節してもよい。より一般的には、第１のＭＬモデルの性能が実際に好適であるときに、第１のＭＬモデルが推論データセットのために不適切であることを、好適性閾値が一貫して示す場合、アクションモジュール３１２は、好適性閾値を減少させ得る。同様に、第１のＭＬモデルの性能が実際に不適切であるときに、第１のＭＬモデルが推論データセットのために好適であることを、好適性閾値が一貫して示す場合、アクションモジュール３１２は、好適性閾値を増加させ得る。

【0121】

図４は、データセットのための機械学習モデルの好適性を決定するための方法４００の一実施形態を図示する、概略フローチャート図である。一実施形態では、方法４００が、開始し、一次訓練モジュール３０２が、第１の機械学習アルゴリズムおよび訓練データセットを使用して、第１の機械学習モデルを訓練する４０２。いくつかの実施形態では、一次立証モジュール３０４が、立証データセットを使用して、第１の機械学習モデルの正当性を立証する４０４。第１の機械学習モデルの立証の出力（例えば、第１のＭＬモデルの正当性を立証するプロセスの間に発生されるデータ）は、エラーデータセット内に記憶されてもよい。

【0122】

いくつかの実施形態では、二次訓練モジュール３０６は、第２の機械学習モデルおよびエラーデータセットを使用して、第２の機械学習モデルを訓練する４０６。第２の機械学習モデルは、推論データセットを分析するための第１の機械学習モデルの好適性を予測するように構成されてもよい。種々の実施形態では、分析モジュール３１０は、第１の機械学習モデルの予測された好適性が事前決定された好適性閾値を満たすかどうかを決定する４０８。該当する場合、方法４００は、終了する。そうでなければ、アクションモジュール３１２は、第１または第２の機械学習モデルと関連付けられる是正アクションをトリガし４１０、方法４００は、終了する。

【0123】

図５は、推論データセットのための機械学習モデルの好適性を決定するための方法５００の別の実施形態を図示する、概略フローチャート図である。一実施形態では、方法５００が、開始し、一次訓練モジュール３０２が、第１の機械学習アルゴリズムおよび訓練データセット５０３を使用して、第１の機械学習モデルを訓練する５０２。いくつかの実施形態では、一次立証モジュール３０４が、立証データセット５０５ａを使用して、第１の機械学習モデルの正当性を立証する５０４。第１の機械学習モデルの立証の出力５０５ｂは、エラーデータセット内に記憶されてもよい。

【0124】

いくつかの実施形態では、一次立証モジュール３０４が、第１の機械学習モデルが有効モデルではないことを決定する５０６場合には、一次訓練モジュール３０２は、異なる訓練データセット５０３を使用して、機械学習モデルを訓練してもよい５０２。そうでなければ、第１の機械学習モデルが、推論データセット５０７ａを分析し５０８、推論データセットに関して１つ以上の予測５０７ｂを発生させるために使用される。ある実施形態では、第１の機械学習モデルを訓練するために使用される訓練データセット５０３、立証データセット５０５ａ、エラーデータセット５０５ｂ、推論データセット５０７ａ、発生された１つ以上の予測５０７ｂ、および／または他の統計的データ５０９（例えば、信頼値、データ偏差値、ＡＢ試験値、カナリア値、他の健全性スコア、ならびに／もしくは同等物）は、第２の機械学習モデルを訓練するために使用される、向上されたエラーデータセット５１１を発生させるように組み合わせられてもよい。

【0125】

一実施形態では、二次訓練モジュール３０６は、第２の機械学習アルゴリズムおよび向上されたエラーデータセット５１１の少なくとも一部を使用して、第２の機械学習モデルを訓練する５１０。第２の機械学習モデルは、推論データセットを分析するための第１の機械学習モデルの好適性を予測するように構成されてもよい。一実施形態では、二次立証モジュール３０８は、第２の機械学習モデルが推論データセットに関して第１の機械学習モデルの予測性能を査定するために好適であるかどうかを決定する５１２。該当しない場合、方法５００は、終了する。

【0126】

そうでなければ、分析モジュール３１０は、第１の機械学習モデルの予測された好適性が事前決定された好適性閾値を満たすかどうかを決定する５１４。該当する場合、方法５００は、終了する。そうでなければ、アクションモジュール３１２は、第１または第２の機械学習モデルと関連付けられる１つ以上の是正アクションをトリガする。例えば、アクションモジュール３１２は、異なる訓練データを用いて第１の機械学習モデルを再訓練するステップ５１６をトリガしてもよく、第１の機械学習モデルを、異なる訓練データを使用して訓練される異なる機械学習モデルに切り替えるステップ５１８をトリガしてもよく、推論データセットを分析するための異なる機械学習アルゴリズムを推奨してもよく５２０、第２のＭＬモデルと関連付けられる好適性閾値を更新してもよく５２２、および／または同等物を行なってもよく、方法５００は、終了する。

【0127】

第２の機械学習モデルを訓練し、推論データセットを分析するための第１のＭＬモデルの好適性を予測するために使用される、エラーデータセット（または向上されたエラーデータセット）のいくつかの実施形態が、説明された。いくつかの実施形態では、エラーデータセット（または向上されたエラーデータセット）は、第１のＭＬモデルの立証の間に発生される出力、第１のＭＬモデルが立証データセットに関して正確な予測を発生させる頻度を示す、率、スコア、または他の値、第１のＭＬモデルが立証データセット内の１つ以上の（例えば、全ての）サンプルに関して正確または不正確な予測を発生させたかどうかを示す標識、そのようなサンプルの１つ以上の（例えば、全ての）特徴値を含む、立証データセットのサンプル、立証データセットの１つ以上の（例えば、全ての）サンプルの統計的シグネチャ、立証データセットの１つ以上の（例えば、全ての）対応するサンプルに関して第１のＭＬモデルによって発生される予測値、第１のＭＬモデルによって発生される予測値と関連付けられる信頼測定基準、第１のＭＬモデルと関連付けられるパラメータ値、第１のＭＬモデルを訓練するために使用される訓練データセット、および／またはデータ偏差値、Ａ／Ｂ試験値、カナリア値、他の健全性スコア等を含む。

【0128】

是正アクションのいくつかの実施例が、説明された。いくつかの実施形態では、好適な是正アクションは、第１のＭＬモデルから「既知の良好な」モデル（例えば、最後の既知の良好なモデル）に戻すステップ、第１のＭＬモデルから前のモデルに戻すステップ、第１のＭＬモデルを最近承認されたＭＬモデルと置換するステップ、および／または予測パイプラインを動作停止させるステップを含んでもよい。

【0129】

第１の機械学習アルゴリズムおよび訓練データセットを使用して、第１の機械学習モデルを訓練するための手段は、種々の実施形態では、ＭＬ管理装置１０４、一次訓練モジュール３０２、デバイスドライバ、ホストコンピューティングデバイス上で実行されるコントローラ、プロセッサ、ＦＰＧＡ、ＡＳＩＣ、他の論理ハードウェア、および／またはコンピュータ可読記憶媒体上に記憶された他の実行可能コードのうちの１つ以上のものを含んでもよい。他の実施形態は、第１の機械学習アルゴリズムおよび訓練データセットを使用して、第１の機械学習モデルを訓練するための類似または同等手段を含んでもよい。

【0130】

立証データセットを使用して、第１の機械学習モデルの正当性を立証するための手段は、種々の実施形態では、ＭＬ管理装置１０４、一次立証モジュール３０４、デバイスドライバ、ホストコンピューティングデバイス上で実行されるコントローラ、プロセッサ、ＦＰＧＡ、ＡＳＩＣ、他の論理ハードウェア、および／またはコンピュータ可読記憶媒体上に記憶された他の実行可能コードのうちの１つ以上のものを含んでもよい。他の実施形態は、立証データセットを使用して、第１の機械学習モデルの正当性を立証するための類似または同等手段を含んでもよい。

【0131】

第２の機械学習モデルおよびエラーデータセットを使用して、第２の機械学習モデルを訓練するための手段は、種々の実施形態では、ＭＬ管理装置１０４、二次訓練モジュール３０６、デバイスドライバ、ホストコンピューティングデバイス上で実行されるコントローラ、プロセッサ、ＦＰＧＡ、ＡＳＩＣ、他の論理ハードウェア、および／またはコンピュータ可読記憶媒体上に記憶された他の実行可能コードのうちの１つ以上のものを含む。他の実施形態は、第２の機械学習モデルおよびエラーデータセットを使用して、第２の機械学習モデルを訓練するための類似または同等手段を含んでもよい。

【0132】

第２の機械学習モデルの正当性を立証するための手段は、種々の実施形態では、ＭＬ管理装置１０４、二次立証モジュール３０８、デバイスドライバ、ホストコンピューティングデバイス上で実行されるコントローラ、プロセッサ、ＦＰＧＡ、ＡＳＩＣ、他の論理ハードウェア、および／またはコンピュータ可読記憶媒体上に記憶された他の実行可能コードのうちの１つ以上のものを含んでもよい。他の実施形態は、第２の機械学習モデルの正当性を立証するための類似または同等手段を含んでもよい。

【0133】

第２の機械学習モデルが発生させる予測に基づいて、第１の機械学習モデルが推論データセットに関して予測を発生させるために好適であるかどうかを決定するための手段は、種々の実施形態では、ＭＬ管理装置１０４、分析モジュール３１０、デバイスドライバ、ホストコンピューティングデバイス上で実行されるコントローラ、プロセッサ、ＦＰＧＡ、ＡＳＩＣ、他の論理ハードウェア、および／またはコンピュータ可読記憶媒体上に記憶された他の実行可能コードのうちの１つ以上のものを含んでもよい。他の実施形態は、第１の機械学習モデルが推論データセットに関して予測を発生させるために好適であるかどうかを決定するための類似または同等手段を含んでもよい。

【0134】

第１または第２の機械学習モデルと関連付けられる是正アクションをトリガするための手段は、種々の実施形態では、ＭＬ管理装置１０４、アクションモジュール３１２、デバイスドライバ、ホストコンピューティングデバイス上で実行されるコントローラ、プロセッサ、ＦＰＧＡ、ＡＳＩＣ、他の論理ハードウェア、および／またはコンピュータ可読記憶媒体上に記憶された他の実行可能コードのうちの１つ以上のものを含んでもよい。他の実施形態は、第１または第２の機械学習モデルと関連付けられる是正アクションをトリガするための類似または同等手段を含んでもよい。

【0135】

本発明は、その精神または本質的特性から逸脱することなく、他の具体的形態で具現化され得る。説明される実施形態は、あらゆる点に関して、制限的ではなく、例証的のみと見なされるものである。本発明の範囲は、したがって、前述の説明によるのではなく、添付される請求項によって示される。請求項の均等物の意味および範囲内で生じる全ての変更は、それらの範囲内に包含されるものである。
（用語）

【0136】

本明細書で使用される表現法および用語は、説明の目的のためであり、限定的と見なされるべきではない。

【0137】

本明細書および請求項で使用されるような用語「約」、語句「～にほぼ等しい」、および他の類似語句（例えば、「Ｘは、約Ｙの値を有する」または「Ｘは、Ｙにほぼ等しい」）は、１つの値（Ｘ）が別の値（Ｙ）の事前決定された範囲内であることを意味すると理解されるべきである。事前決定された範囲は、別様に示されない限り、±２０％、１０％、５％、３％、１％、０．１％、もしくは０．１％未満であり得る。

【0138】

本明細書および請求項で使用されるような不定冠詞「ａ」および「ａｎ」は、明確に反対に示されない限り、「少なくとも１つ」を意味すると理解されるべきである。本明細書および請求項で使用されるような語句「および／または」は、そのように接続される要素、すなわち、ある場合には接続的に存在し、他の場合には離接的に存在する要素の「いずれか一方または両方」を意味すると理解されるべきである。「および／または」を用いて列挙される複数の要素は、同一の様式で、そのように接続される要素のうちの「１つ以上のもの」と解釈されるべきである。他の要素が、随意に、具体的に識別されるそれらの要素に関連するか、または関連しないかどうかにかかわらず、「および／または」の節によって具体的に識別される要素以外に存在し得る。したがって、非限定的実施例として、「Ａおよび／またはＢ」の言及は、「～を備える」等の非制約的言語と併せて使用されるときに、一実施形態では、Ａのみ（随意に、Ｂ以外の要素を含む）、別の実施形態では、Ｂのみ（随意に、Ａ以外の要素を含む）、さらに別の実施形態では、ＡおよびＢの両方（随意に、他の要素を含む）を指す等となり得る。

【0139】

本明細書および請求項で使用されるように、「または」は、上記に定義されるような「および／または」と同一の意味を有すると理解されるべきである。例えば、リスト内の項目を分離するとき、「または」もしくは「および／または」は、包括的、すなわち、少なくとも１つの包含であるが、いくつかの要素または要素のリストのうちの１つを上回るもの、随意に、付加的な列挙されていない項目も含むものとして解釈されるものとする。「～のうちの１つのみ」または「～のうちの正確に１つ」、もしくは請求項で使用されるときに「～から成る」等の明確に反対に示される用語のみが、いくつかの要素または要素のリストのうちの正確に１つの要素の包含を指すであろう。一般に、使用されるような用語「または」は、「～のいずれか」、「～のうちの１つ」、「～のうちの１つのみ」、または「～のうちの正確に１つ」等の排他性の用語が先行するときに、排他的代替物（すなわち、「一方または他方であるが両方ではない」）を示すものとしてのみ解釈されるものとする。「本質的に～から成る」は、請求項で使用されるときに、特許法の分野で使用されるようなその通常の意味を有するものとする。

【0140】

本明細書および請求項で使用されるように、１つ以上の要素のリストを参照した語句「少なくとも１つ」は、要素のリスト内の要素のうちのいずれか１つ以上のものから選択されるが、要素のリスト内に具体的に列挙される、ありとあらゆる要素のうちの少なくとも１つを必ずしも含まず、要素のリスト内の要素のいずれの組み合わせも除外しない、少なくとも１つの要素を意味すると理解されるべきである。本定義はまた、要素が、随意に、具体的に識別されるそれらの要素に関連するか、または関連しないかどうかにかかわらず、語句「少なくとも１つ」が指す要素のリスト内で具体的に識別される要素以外に存在し得ることも可能にする。したがって、非限定的実施例として、「ＡおよびＢのうちの少なくとも１つ」（または同等に「ＡまたはＢのうちの少なくとも１つ」、もしくは同等に「Ａおよび／またはＢのうちの少なくとも１つ」）は、一実施形態では、随意に、Ｂが存在しない、１つを上回るＡを含む（随意に、Ｂ以外の要素を含む）、少なくとも１つ、別の実施形態では、随意に、Ａが存在しない、１つを上回るＢを含む（随意に、Ａ以外の要素を含む）、少なくとも１つ、さらに別の実施形態では、随意に、１つを上回るＡを含む、少なくとも１つ、および随意に、１つを上回るＢを含む（随意に、他の要素を含む）、少なくとも１つを指す等となり得る。

【0141】

用語「～を含む」、「～を備える」、「～を有する」、「～を含有する」、「～を伴う」、およびそれらの変形例は、別様に明示的に規定されない限り、「限定ではないが、～を含む」を意味する。項目の列挙された一覧は、項目のうちのいずれかまたは全てが、別様に明示的に規定されない限り、相互排他的および／または相互包括的であることを含意しない。

【0142】

請求項の要素を修飾するための請求項内の「第１の」、「第２の」、「第３の」等の序数用語の使用は、それ自体では、別の要素と比べた１つの請求項の要素のいずれの優先順位、優位性、または順序、もしくは方法の行為が実施される時間的順序も含意しない。序数用語は、ある名称を有する１つの請求項の要素を、（序数用語の使用のためであるが）同一の名称を有する別の要素と区別し、請求項の要素を区別するために、単に標識として使用される。

【図1】

【図2A】

【図2B】

【図2C】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版