(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-23
(45)【発行日】2023-01-31
(54)【発明の名称】アクセス可能な機械学習
(51)【国際特許分類】
G06F 16/28 20190101AFI20230124BHJP
G06N 5/02 20230101ALI20230124BHJP
G06N 20/00 20190101ALI20230124BHJP
【FI】
G06F16/28
G06N5/02
G06N20/00 130
(21)【出願番号】P 2019007242
(22)【出願日】2019-01-18
【審査請求日】2021-10-07
(32)【優先日】2018-05-31
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ドン・リ
(72)【発明者】
【氏名】シェリアン・スハス
(72)【発明者】
【氏名】チャンダー・アジャイ
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】特開2015-118466(JP,A)
【文献】特開2002-189737(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06N 5/00- 7/06
G06N 20/00-20/20
(57)【特許請求の範囲】
【請求項1】
プロセッサが実行する方法であって、
複数の記録を含み、該複数の記録の夫々が複数のカテゴリにおける値を含み、該複数のカテゴリのうちの1つが対象カテゴリであるデータセットを取得することと、
対象基準のインジケーションを取得することであり、前記複数の記録のうちの第1組の記録が、前記対象基準を満足する前記対象カテゴリの第1対象値を夫々含む、前記取得することと、
前記複数の記録の前記複数のカテゴリの前記値と前記対象基準との間の関係を表す第1決定木モデルを、前記データセットを用いて取得することと、
前記第1決定木モデルに基づき、且つ、順位付けされたカテゴリの値と前記対象基準との間の関係に基づき、前記複数のカテゴリを順位付けすることと、
下位のカテゴリの順位付けに基づき、前記データセットの前記複数の記録から、1つ以上の前記下位のカテゴリを除くことと、
ルートノード、複数のリーフノード、及び複数のブランチノードを含み、該複数のブランチノードの夫々が前記複数のカテゴリのうちの1つのカテゴリのブランチ基準を表し、前記複数のブランチノードの夫々についての前記ブランチ基準が、前記対象基準を満足する前記第1対象値と、前記ブランチ基準を満足する前記複数のカテゴリのうちの前記1つのカテゴリの値との間の関係に基づき選択される第2決定木モデルを、前記下位のカテゴリが前記データセットから除かれた状態で該データセットを用いて生成することと、
前記複数のブランチノードのうちのあるブランチノードをプルーニングすることであり、該プルーニングされるブランチノードは、該プルーニングされるブランチノードに関連した前記データセットの第2組の記録が、前記対象基準を満足する前記第1対象値を含む前記第1組の記録の中の記録よりも、前記対象基準を満足しない第2対象値を含む記録を多く含むことに基づき、プルーニングのために選択される、前記プルーニングすることと、
残りのブランチノードのうちの少なくとも1つをルールノードとして指定することと、
前記ルールノードのブランチ基準に基づきルールを生成することと、
グラフィカルユーザインターフェイスにおいてディスプレイ上で前記ルールを提示することと
を有する方法。
【請求項2】
前記グラフィカルユーザインターフェイスにおいて前記ディスプレイ上で前記データセットの前記複数のカテゴリを提示することと、
あるカテゴリのインジケーションを前記グラフィカルユーザインターフェイスから受けることと、
当該カテゴリを前記データセットの記録から除くことと
を更に有する請求項1に記載の方法。
【請求項3】
当該方法は、選択されたカテゴリの値と対象値との間の関係に基づき、前記データセットの前記選択されたカテゴリの値の視覚表現を前記グラフィカルユーザインターフェイスにおいて前記ディスプレイ上で提示することを更に有する、
請求項1に記載の方法。
【請求項4】
前記対象基準を満足する前記第1対象値を含む前記第1組の記録の中の記録よりも、前記対象基準を満足しない第3対象値を含む記録を多く含む前記複数のブランチノード及び前記複数のリーフノードに関連した記録のサブセットを含む前記複数のブランチノード及び前記複数のリーフノードを含むノードのリストを生成することと、
第1子ノードが前記ノードのリストにおいて第1親ノードを有することに基づき、該第1子ノードを前記ノードのリストから除くことと、
前記ノードのリストから第2子ノードを除くことと、
前記第2子ノードの親ノードである第2親ノードを前記ノードのリストに加えることと
を更に有する請求項1に記載の方法。
【請求項5】
前記ルールは、前記ルールノードの親ノードに基づく前提条件と、前記ルールノードの前記ブランチ基準に基づく事後条件とを含む、
請求項1に記載の方法。
【請求項6】
当該方法は、
前記対象基準を満足する前記対象カテゴリの値を有する記録の第1パーセンテージのインジケーションを前記グラフィカルユーザインターフェイスから受けることと、
前記対象基準を満足する記録の第2パーセンテージを有する第2組の記録を前記データセットから選択することであり、前記第2パーセンテージは、前記第1パーセンテージの閾距離内にある、前記選択することと、
前記第2組の記録の1つ以上の値を前記グラフィカルユーザインターフェイスにおいて前記ディスプレイ上で提示することと
を更に有する、
請求項1に記載の方法。
【請求項7】
当該方法は、
前記データセットに含まれていない追加記録の複数の値を受けることであり、該複数の値の夫々は、前記複数の記録のカテゴリのサブセットの中の異なるカテゴリに対応し、該カテゴリのサブセットは前記対象カテゴリを含まない、前記受けることと、
前記追加記録の前記複数の記録に基づき、前記追加記録が前記対象基準を満足する第3対象値を含む可能性があるかどうかを予測することと、
前記追加記録が前記対象基準を満足する可能性があるかどうかを前記予測することの結果を前記グラフィカルユーザインターフェイスで表示することと
を更に有する、
請求項1に記載の方法。
【請求項8】
当該方法は、
前記追加記録の前記カテゴリのサブセットのうちの1つのカテゴリについての新しい値を前記グラフィカルユーザインターフェイスから受けることと、
前記追加記録の前記複数の値が前記新しい値を含むことに基づき、該新しい値を含む前記追加記録が、前記対象基準を満足する第4対象値を含む可能性があるかどうかを予測することと、
前記新しい値を含む前記追加記録が前記対象基準を満足する可能性があるかどうかを前記予測することの結果を前記グラフィカルユーザインターフェイスで表示することと
を更に有する、
請求項7に記載の方法。
【請求項9】
少なくとも1つのプロセッサによって実行される場合に、システムに請求項1に記載の方法を実行させるか又は実行するよう指示する1つ以上の命令を記憶するよう構成された少なくとも1つの非一時的なコンピュータ可読媒体。
【請求項10】
少なくとも1つのプロセッサによって実行される場合に、システムに、
複数の記録を含み、該複数の記録の夫々が複数のカテゴリにおける値を含み、該複数のカテゴリのうちの1つが対象カテゴリであるデータセットを取得することと、
対象基準のインジケーションを取得することであり、前記複数の記録のうちの第1組の記録が、前記対象基準を満足する前記対象カテゴリの第1対象値を夫々含む、前記取得することと、
ルートノード、複数のリーフノード、及び複数のブランチノードを含み、該複数のブランチノードの夫々が前記複数のカテゴリのうちの1つのカテゴリのブランチ基準を表し、前記複数のブランチノードの夫々についての前記ブランチ基準が、前記対象基準を満足する前記第1対象値と、前記ブランチ基準を満足する前記複数のカテゴリのうちの前記1つのカテゴリの値との間の関係に基づき選択される決定木モデルを、前記データセットを用いて生成することと、
前記複数のブランチノードのうちのあるブランチノードをプルーニングすることであり、該プルーニングされるブランチノードは、該プルーニングされるブランチノードに関連した前記データセットの第2組の記録が、前記対象基準を満足する前記第1対象値を含む前記第1組の記録の中の記録よりも、前記対象基準を満足しない第2対象値を含む記録を多く含むことに基づき、プルーニングのために選択される、前記プルーニングすることと、
残りのブランチノードのうちの少なくとも1つをルールノードとして指定することと、
前記ルールノードのブランチ基準に基づきルールを生成することと、
グラフィカルユーザインターフェイスにおいてディスプレイ上で前記ルールを提示することと
を有する動作を実行させるか又は実行するよう指示する1つ以上の命令を記憶するよう構成された少なくとも1つの非一時的なコンピュータ可読媒体。
【請求項11】
前記動作は、前記決定木モデルを生成することより前に、
第2決定木モデルを、前記データセットを用いて取得することと、
前記第2決定木モデルに基づき、且つ、順位付けされたカテゴリの値と前記対象基準との間の関係に基づき、前記複数のカテゴリを順位付けすることと、
下位のカテゴリの順位付けに基づき、前記データセットの前記複数の記録から、1つ以上の前記下位のカテゴリを除くことと
を更に有し、
前記決定木モデルを、前記データセットを用いて生成することは、前記下位のカテゴリが前記データセットから除かれた状態で該データセットに基づく、
請求項10に記載の非一時的なコンピュータ可読媒体。
【請求項12】
前記動作は、
前記グラフィカルユーザインターフェイスにおいて前記ディスプレイ上で前記データセットの前記複数のカテゴリを提示することと、
あるカテゴリのインジケーションを前記グラフィカルユーザインターフェイスから受けることと、
当該カテゴリを前記データセットの記録から除くことと
を更に有する、
請求項10に記載の非一時的なコンピュータ可読媒体。
【請求項13】
前記動作は、選択されたカテゴリの値と対象値との間の関係に基づき、前記データセットの前記選択されたカテゴリの値の視覚表現を前記グラフィカルユーザインターフェイスにおいて前記ディスプレイ上で提示することを更に有する、
請求項10に記載の非一時的なコンピュータ可読媒体。
【請求項14】
前記動作は、
前記対象基準を満足する前記第1対象値を含む前記第1組の記録の中の記録よりも、前記対象基準を満足しない第3対象値を含む記録を多く含む前記複数のブランチノード及び前記複数のリーフノードに関連した記録のサブセットを含む前記複数のブランチノード及び前記複数のリーフノードを含むノードのリストを生成することと、
第1子ノードが前記ノードのリストにおいて第1親ノードを有することに基づき、該第1子ノードを前記ノードのリストから除くことと、
前記ノードのリストから第2子ノードを除くことと、
前記第2子ノードの親ノードである第2親ノードを前記ノードのリストに加えることと
を更に有する、
請求項10に記載の非一時的なコンピュータ可読媒体。
【請求項15】
前記ルールは、前記ルールノードの親ノードに基づく前提条件と、前記ルールノードの前記ブランチ基準に基づく事後条件とを含む、
請求項10に記載の非一時的なコンピュータ可読媒体。
【請求項16】
前記動作は、
前記対象基準を満足する前記対象カテゴリの値を有する記録の第1パーセンテージのインジケーションを前記グラフィカルユーザインターフェイスから受けることと、
前記対象基準を満足する記録の第2パーセンテージを有する第2組の記録を前記データセットから選択することであり、前記第2パーセンテージは、前記第1パーセンテージの閾距離内にある、前記選択することと、
前記第2組の記録の1つ以上の値を前記グラフィカルユーザインターフェイスにおいて前記ディスプレイ上で提示することと
を更に有する、
請求項10に記載の非一時的なコンピュータ可読媒体。
【請求項17】
前記動作は、
前記データセットに含まれていない追加記録の複数の値を受けることであり、該複数の値の夫々は、前記複数の記録のカテゴリのサブセットの中の異なるカテゴリに対応し、該カテゴリのサブセットは前記対象カテゴリを含まない、前記受けることと、
前記追加記録の前記複数の記録に基づき、前記追加記録が前記対象基準を満足する第3対象値を含む可能性があるかどうかを予測することと、
前記追加記録が前記対象基準を満足する可能性があるかどうかを前記予測することの結果を前記グラフィカルユーザインターフェイスで表示することと
を更に有する、
請求項10に記載の非一時的なコンピュータ可読媒体。
【請求項18】
前記動作は、
前記追加記録の前記カテゴリのサブセットのうちの1つのカテゴリについての新しい値を前記グラフィカルユーザインターフェイスから受けることと、
前記追加記録の前記複数の値が前記新しい値を含むことに基づき、前記新しい値を含む前記追加記録が、前記対象基準を満足する第4対象値を含む可能性があるかどうかを予測することと、
前記新しい値を含む前記追加記録が前記対象基準を満足する可能性があるかどうかを前記予測することの結果を前記グラフィカルユーザインターフェイスで表示することと
を更に有する、
請求項17に記載の非一時的なコンピュータ可読媒体。
【請求項19】
1つ以上の命令を記憶するよう構成された1つ以上のコンピュータ可読媒体と、該1つ以上のコンピュータ可読媒体へ結合された1つ以上のプロセッサとを有するシステムであって、
前記1つ以上のプロセッサは、当該システムに、
複数の記録を含み、該複数の記録の夫々が複数のカテゴリにおける値を含み、該複数のカテゴリのうちの1つが対象カテゴリであるデータセットを取得することと、
対象基準のインジケーションを取得することであり、前記複数の記録のうちの第1組の記録が、前記対象基準を満足する前記対象カテゴリの第1対象値を夫々含む、前記取得することと、
ルートノード、複数のリーフノード、及び複数のブランチノードを含み、該複数のブランチノードの夫々が前記複数のカテゴリのうちの1つのカテゴリのブランチ基準を表し、前記複数のブランチノードの夫々についての前記ブランチ基準が、前記対象基準を満足する前記第1対象値と、前記ブランチ基準を満足する前記複数のカテゴリのうちの前記1つのカテゴリの値との間の関係に基づき選択される決定木モデルを、前記データセットを用いて生成することと、
前記複数のブランチノードのうちのあるブランチノードをプルーニングすることであり、該プルーニングされるブランチノードは、該プルーニングされるブランチノードに関連した前記データセットの第2組の記録が、前記対象基準を満足する前記第1対象値を含む前記第1組の記録の中の記録よりも、前記対象基準を満足しない第2対象値を含む記録を多く含むことに基づき、プルーニングのために選択される、前記プルーニングすることと、
残りのブランチノードのうちの少なくとも1つをルールノードとして指定することと、
前記ルールノードのブランチ基準に基づきルールを生成することと、
グラフィカルユーザインターフェイスにおいてディスプレイ上で前記ルールを提示することと
を有する動作を実行させるか又は実行するよう指示するように前記1つ以上の命令を実行するよう構成される、
システム。
【請求項20】
前記動作は、
前記対象基準を満足する前記第1対象値を含む前記第1組の記録の中の記録よりも、前記対象基準を満足しない第3対象値を含む記録を多く含む前記複数のブランチノード及び前記複数のリーフノードに関連した記録のサブセットを含む前記複数のブランチノード及び前記複数のリーフノードを含むノードのリストを生成することと、
第1子ノードが前記ノードのリストにおいて第1親ノードを有することに基づき、該第1子ノードを前記ノードのリストから除くことと、
前記ノードのリストから第2子ノードを除くことと、
前記第2子ノードの親ノードである第2親ノードを前記ノードのリストに加えることと
を更に有する、
請求項19に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示において検討される実施形態は、アクセス可能な機械学習と関係がある。
【背景技術】
【0002】
企業及び機関は、毎日の業務又は活動の中で大量のデータを受信、生成、記憶、検索、読出、及び解析する。機械学習は、企業又は機関がデータを理解及び解釈するのを助けるために使用されることがある。例えば、データを解析するために機械学習を使用することは、企業及び機関が、それらの運営の変化が特定の成果(例えば、販売の増加)にどのような影響を及ぼし得るかを理解することを可能にし得る。データストア上に機械学習を実装することは、プロセスが複雑であって、機械学習、人工知能、統計、又はコンピュータ符号化における専門知識を必要としうるということで、通常は、機械学習のエキスパートによって実装されてきた。
【発明の概要】
【0003】
実施形態の態様に従って、アクセス可能な機械学習を提供する方法が、本開示において提示され得る。方法は、複数の記録を含むデータセットを取得することを含んでよい。前記複数の記録の夫々は、複数のカテゴリにおける値を含んでよく、該複数のカテゴリのうちの1つは、対象カテゴリであってよい。方法は、対象基準のインジケーションを取得することを更に含んでよく、前記複数の記録のうちの第1組の記録は、前記対象基準を満足する前記対象カテゴリの第1対象値を夫々含んでよい。方法は、前記データセットを用いて、第1決定木モデルを取得することを更に含んでよく、該第1決定木モデルは、前記複数の記録の前記複数のカテゴリの値と前記対象基準との間の関係を表してよい。方法は、前記第1決定木モデルに基づき、且つ、順位付けされたカテゴリの値と前記対象基準との間の関係に基づき、前記複数のカテゴリを順位付けすることを更に含んでよい。方法はまた、下位のカテゴリの順位付けに基づき、前記データセットの前記複数の記録から1つ以上の前記下位のカテゴリを除くことを含んでよい。方法は、その上、前記下位のカテゴリが前記データセットから除かれた状態で該データセットを用いて、第2決定木モデルを生成することを含んでよく、該第2決定木モデルは、ルートノード、リーフノード、及びブランチノードを含んでよく、該ブランチノードの夫々は、前記複数のカテゴリのうちの1つのカテゴリのブランチ基準を表す。前記ブランチノードの夫々についての前記ブランチ基準は、前記対象基準を満足する前記第1対象値と、前記ブランチ基準を満足する前記複数のカテゴリのうちの前記1つのカテゴリの値との間の関係に基づき、選択されてよい。方法は、前記ブランチノードのうちのあるブランチノードをプルーニングすることを更に含んでよく、該プルーニングされるブランチノードは、該プルーニングされるブランチノードに関連した前記データセットの第2組の記録がより多くの記録を含むことに基づき、プルーニングのために選択されてよい。方法は、残りのブランチノードのうちの少なくとも1つをルールノードとして指定し、該ルールノードのブランチ基準に基づきルールを生成することを更に含んでよい。方法はまた、グラフィカルユーザインターフェイスにおいてディスプレイ上で前記ルールを提示することを含んでよい。
【0004】
実施形態の目的及び/又は利点は、少なくとも、特許請求の範囲で特に指し示された要素、特徴、及び組み合わせによって、実現又は達成されるだろう。
【0005】
前述の概要及び以下で詳述される説明は、請求される本開示の例及び説明として与えられ、限定でない点が理解されるべきである。
【図面の簡単な説明】
【0006】
例となる実施形態は、添付の図面の使用を通じて、更なる特定及び詳細をもって記載及び説明されるだろう。
【0007】
【
図1】アクセス可能な機械学習を含む環境の例である。
【
図2A】アクセス可能な機械学習に関連する動作を説明するフローの例のブロック図である。
【
図2B】例となるデータセットのブロック図である。
【
図2C】例となる決定木モデルのブロック図である。
【
図3】例となるコンピューティングシステムのブロック図である。
【
図4A】アクセス可能な機械学習の方法の例のフローチャートを表す。
【
図4B】アクセス可能な機械学習の方法の例のフローチャートを表す。
【
図4C】アクセス可能な機械学習の方法の例のフローチャートを表す。
【
図5】決定木モデルからブランチノードをプルーニングする方法の例のフローチャートである。
【発明を実施するための形態】
【0008】
機械学習は、明示的にプログラムされることなしに、データを用いて“学習する”能力をコンピュータシステムに与える(すなわち、特定の動作に関する性能を革新的に改善する)ことができるコンピュータサイエンスの分野である。本開示において、語「機械学習」は、機械学習、人工知能、パターン認識、及び/又はデータマイニングを指す総称であってよい。機械学習は、入力データ及び所望の結果又は出力を含む訓練データによりアルゴリズム又はモデルを“訓練する”ことを伴ってよい。アルゴリズム又はモデルは、所望の結果が入力データに基づき起こり得る場合を予測するよう、“学習”又は適応してよい。アルゴリズム又はモデルは、新しいデータを分類するか又は新しい結果を予測するよう、新しいデータに対して使用されてよい。機械学習のいくつかの例となる用途には、電子メールのフィルタリング、光学文字認識、及びコンピュータビジョンがある。
【0009】
いくつかの状況で、機械学習のエキスパートは、機械学習システムを構成し作動させた。エキスパートは、アルゴリズムを選択し、訓練データを供給し、モデルの機械学習システム訓練を指導した。更には、エキスパートは、機械学習システムの結果を解釈し、及び/又は機械学習システムの実装を監督した。
【0010】
アクセス可能な機械学習と関係があるシステム及び方法が、本開示において開示される。アクセス可能な機械学習は、機械学習、人工知能、統計、又はコンピュータ符号化の特別な知識なしで機械学習を使用することをユーザに可能にし得るシステム又は方法を含んでよい。その上、又は代替的に、アクセス可能な機械学習は、機械学習の特別な知識を持つユーザに、機械学習を使用するための追加のツールを提供し得るシステム又は方法を含んでよい。
【0011】
例えば、本開示のシステム及び方法は、特定のタスクを実行するために機械学習システムを使用することをユーザに可能にするのに役立ち得る。機械学習システムの使用を可能にするのを助けるよう、ユーザは、機械学習システムのためのグラフィカルユーザインターフェイス(GUI)を提供されてよい。GUIを用いて、データセットは、機械学習システムにインポートされてよい。インポートされたデータセットは、機械学習システムによって開発されたモデルのための訓練データとしての役割を果たしてよい。モデルは、特定のタスクを実行するために使用されてよい。例えば、モデルは、データに関してモデルの値に基づき特定のタスクに対する結果を予測するために使用されてよい。例えば、一部が販売に結実した多くのセールスエンゲージメントと関係があるデータセットは、セールスエンゲージメントが起こり得るか否かを、モデルに供給されたデータに基づき予測するよう構成されたモデルを生成するために、訓練データとして使用されてよい。
【0012】
GUIは、データセットに基づき機械学習システムによって生成されたモデルをユーザが構築、確認、及び使用するためのインターフェイスを提供してよい。例えば、データセット、及び/又はモデルは、複数の記録を含んでよい。該複数の記録は、複数のカテゴリにおける値を含んでよい。複数のカテゴリは、当該技術において“特徴”として知られ得る。よって、本開示において、データセット、モデル、及び/又は記録は、複数のカテゴリ“における”又は複数のカテゴリ“の”値を有すると言われ得る。例えば、記録は、“年齢”と関係があるカテゴリの値と、“職業”と関係があるカテゴリの他の値とを有してよい。
【0013】
複数のカテゴリのうちの1つ以上は、“対象カテゴリ”として指定されてよい。該対象カテゴリは、機械学習モデルの特定のタスクに関連するカテゴリであってよい。本開示において、データセットに含まれる対象カテゴリの値は、“対象値”と呼ばれてよい。GUIを通じて、ユーザは、データセットの対象カテゴリを選択してよい。
【0014】
その上、又は代替的に、機械学習の特定のタスクと関係がある“対象基準”が存在してよい。該対象基準は、対象値に対する論理的テストを含んでよい。GUIを通じて、ユーザは対象基準を入力してよい。該対象基準を満足する記録は“白星”(wins)と呼ばれてよい。当該技術で知られるように、対象基準を満足する記録は、“所望の対象クラス”の部分としてグループ化されるか又はラベルを付されてよい。対象基準を満足しない記録は、“黒星”(losses)と呼ばれてよく、“所望でない対象クラス”の部分としてグループ化されるか又はラベルを付されてよい。上記の例に戻ると、ユーザは、販売に結実したセールスエンゲージメントに関する記録が“白星”である可能性があり、“所望の対象クラス”の部分であり得、一方、販売に結実しなかったセールスエンゲージメントに関する記録が“黒星”である可能性があり、“所望でない対象クラス”の部分であり得ることを示してよい。
【0015】
いくつかの実施形態において、夫々の記録はラベルを含んでよい。該ラベルは、それが含まれる記録が“白星”又は“黒星”のいずれであるかを示してよい。いくつかの実施形態において、ラベルは、対象基準と関係があってよい。例えば、対象基準は、“年間所得は6万ドルより多いか?”(is annual income greater than $60,000?)であってよい。“6万ドル”よりも多い“年間所得”の対象カテゴリにおける値を有する夫々の記録はまた、“白星”のラベルを含んでよい。そのような又は他の実施形態において、記録は、対象カテゴリ及び/又は対象値に無関係であり得るラベルを含んでよい。本開示において、“対象基準”はラベルに適用されてよい。また、本開示において、ラベルは“対象カテゴリ”と見なされてよい。例えば、ラベルは、対象カテゴリと見なされてよく、対象基準は、“ラベルは白星か?”(is the label win?)であってよい。
【0016】
機械学習システムによって生成されたモデルを構築、確認、及び使用することにおいてユーザを支援するよう、機械学習システムは、GUIを通じて、ユーザが無関係の又は手の付けられないデータをデータセットから除くことによってデータセットをクリーニングすることを支援してよい。その上、又は代替的に、GUIは、ユーザが、対象カテゴリとの差異が少ないカテゴリをモデルから除くことによってモデルを精緻化するためのインターフェイスを提供してよい。例えば、データセットは、解析されてよく、該データセットのカテゴリは、対象カテゴリに対する弁別関係の順に順位付けされてよい。本開示において、“弁別関係”(discriminability relationships)は、1つのカテゴリが他のカテゴリの値に基づき予測され得る程度を指し得る。“所望の対象クラス”の1つ以上のカテゴリの値間の関係は、“所望でない対象クラス”の1つ以上のカテゴリの値と比較されてよい。GUIは、解析の結果をユーザに表示してよい。ユーザは、モデルからの包含又は排除のためにデータセットのカテゴリのうちの1つ以上を選択してよい。その上、又は代替的に、モデルの1つ以上のカテゴリの視覚表現は、GUIを通じてユーザに表示されてよい。視覚表現に基づき、ユーザは、カテゴリと対象基準との間の関係をより良く理解することができ得る。
【0017】
モデルの更なる解析に基づき、データセットに基づく、行動につながる示唆(actionable insights)が、生成されてよい。行動につながる示唆は、機械学習モデルの特定のタスクと関係があってよい。GUIは、行動につながる示唆をユーザに表示してよい。行動につながる示唆は、ユーザがモデル自体の全詳細よりも容易に理解及び/又は適用することが可能であり得るモデルに基づくルール又は結論を含んでよい。行動につながる示唆は、対象カテゴリ及び/又は対象基準に基づいてよい。
【0018】
その上、又は代替的に、GUIは、ユーザが仮想上の記録又は場合をテストすることによってモデルを使用するためのインターフェイスを提供してよい。機械学習システムは、モデルに基づき仮想上の場合を分類してよい。GUIは、分類の結果をユーザに提供してよい。機械学習システムは、GUIを通じて、行動につながる示唆をユーザに明示し得る仮想上の場合を生成することにおいてユーザを支援してよい。仮想上の場合のテストを通じて、ユーザは、行動につながる示唆をより良く理解することができ得る。その上、又は代替的に、GUIは、機械学習モデルによって提案されないデータの他の操作を通じて、それほど望ましくないクラスから、より望ましいクラスへ記録を変更する代替の方法を提供してよい。
【0019】
本開示のシステム及び方法は、本開示のシステム及び方法が、機械学習モデルを使用することを機械学習の特別の知識なしでユーザに可能にすることをコンピュータに可能にし得るので、コンピュータ関連技術の改善と関係があり得る。従前の機械学習システムは、ユーザが機械学習、人工知能、統計及び/又はコンピュータ符号化の特別の知識を有していることを必要とした。その上、本開示は、本開示のシステム及び方法が機械学習モデルをより効率的に生成及び使用することをコンピュータに可能にし得るので、コンピュータ自体の機能の改善と関係があり得る。例えば、ユーザ(データセット又は対象カテゴリと関係がある分野におけるエキスパートであってよい。)から入力を得ることによって、データセットは、より有効にクリーニングされ得、カテゴリは、より有効にプルーニングされ得、これは、より関連があるデータセットをもたらし得る。より関連があるデータセットの使用は、より速い処理及びより正確な結果をもたらし、コンピュータの動作の改善をもたらし得る。その上、又は代替的に、本開示のシステム及び方法は、改善されたユーザインターフェイスを含め、従前のシステムに対する特定の改善を含んでよい。
【0020】
図1は、本開示で記載される少なくとも1つの実施形態に従うアクセス可能な機械学習を含む環境の例のブロック図である。環境は、データセット108に基づきモデル125を実装するよう構成され得る機械学習システム120を含むコンピューティングシステム100を含んでよい。ユーザ102は、機械学習に関する1つ以上の動作をグラフィカルユーザインターフェイス106(“GUI106”)を通じて実行するようコンピューティングシステム100と相互作用してよい。
【0021】
いくつかの実施形態において、ユーザ102は、機械学習、人工知能、統計、及び/又はコンピュータ符号化の特別な知識を持たない人であってよい。代替的に、又はその上、ユーザ102は、機械学習、人工知能、統計、及び/又はコンピュータ符号化の特別な知識を有してもよい。いくつかの実施形態において、ユーザ102は、機械学習をデータに適用することを通じて解析又は改善され得る特定のタスク、問題、又は質問を有してよい。例えば、社会科学者は、世帯に関するデータに基づき世帯の収入を予測する方法に関する質問を有してよい。
【0022】
いくつかの実施形態において、ユーザ102は、機械学習に関連した1つ以上の動作を実行するためにコンピューティングシステム100を使用してよい。コンピューティングシステム100は、1つ以上のプロセッサ及び1つ以上のコンピュータ可読媒体を含んでよい。いくつかの実施形態において、コンピューティングシステム100は、プロセッサによって実行される場合にコンピューティングシステム100に本開示で記載される動作を実行させる、コンピュータ可読媒体に記憶された命令を含んでよい。いくつかの実施形態において、コンピューティングシステム100は、数あるコンピューティング装置の中でも特に、単一のコンピュータ、サーバ、コンピュータ又はサーバのネットワークを含んでよい。その上、又は代替的に、コンピューティングシステム100は、例えば、スマートフォン、タブレット、又は他のモバイル機器のような、モバイル機器を含んでよい。
【0023】
いくつかの実施形態において、コンピューティングシステム100は、機械学習システム120を含んでよい。機械学習システム120は、実行される場合に、コンピューティングシステムに、機械学習に関連した1つ以上の動作を実行させるか又は実行するよう指示するよう構成されたコード及びルーチンを含んでよい。その上、又は代替的に、機械学習システム120は、ハードウェアを用いて実装されてよい。代替的に、又はその上、機械学習システム120は、ハードウェア及びソフトウェアの組み合わせを用いて実装されてよい。本開示において、機械学習システム120によって実行されるものとして記載される動作は、機械学習システム120がシステムに実行するよう指示し得る動作を含んでもよい。
【0024】
いくつかの実施形態において、コンピューティングシステム100はGUI106を含んでよい。GUI106は、機械学習システム120のためのユーザインターフェイスとして構成されてよい。GUI106は、機械学習システム120のためのユーザ102からの入力を受けるよう構成されてよい。その上、又は代替的に、GUI106は、機械学習システム120からの出力及び結果をユーザ102に提示するよう構成されてよい。機械学習システム120はまた、出力の視覚表現を、GUI106を通じて提供するよう構成されてもよい。
【0025】
本開示において、GUIを使用し得るコンピューティングシステム100及び/又は機械学習システム120によって実行される動作は、GUIによって実行される動作と呼ばれてよい。更に、本開示において、データ又は情報をユーザ102に表示するコンピューティングシステム100及び/又は機械学習システム120への言及は、GUI106がデータ又は情報をユーザ102に表示するために使用されることを意味すると理解されるべきである。同じく、本開示において、ユーザ102から入力を受けるコンピューティングシステム100及び/又は機械学習システム120への言及は、GUI106がユーザ102から入力を受けるために使用され、該入力がコンピューティングシステム100及び/又は機械学習システム120へ伝えられ得ることを意味すると理解されるべきである。
【0026】
いくつかの実施形態において、コンピューティングシステム100はデータセット108を含んでよい。データセット108は複数の記録を含んでよい。夫々の記録は複数のカテゴリを含んでよい。記録の夫々のカテゴリの夫々は、そのカテゴリに関連した値を含んでよい。いくつかの実施形態において、値は、例えば、数字、文字、文字列、ヌル値、又はオプションのリストからの選択であってよい。例えば、記録は、人口統計データを含んでよい。そのような及び他の実施形態において、カテゴリは、“年齢”、“性別”、“年間所得”、“教育のレベル”、及び“職業”を含んでよい。カテゴリの夫々は、値を含んでよい。例えば、“年齢”カテゴリは、数字を含んでよく、“性別”カテゴリは、文字又はオプションのリストからの選択を含んでよく、“職業”カテゴリは、文字列を含んでよい。
【0027】
いくつかの実施形態において、機械学習システム120は、モデル125に関して機械学習に関連した1つ以上の動作を実行してよい。モデル125は、データセット108に基づいてよい。例えば、機械学習システム120は、モデル125のための基礎としてデータセット108をインポートしてよい。モデル125は、例えば、決定木、相関ルール、人工ニューラルネットワーク、帰納論理プログラム、又はサポートベクトルマシンのような、機械学習のための如何なる適切なモデルであってもよい。いくつかの実施形態において、機械学習システム120は、新しいデータを分類するために又は新しい結果を予測するためにモデル125を使用してよい。そのような及び他の実施形態において、モデル125は、新しいデータに関する訓練データを用いて開発されていてもよい。例えば、訓練データは、対象カテゴリを含む複数のカテゴリについての値を含んでよい。新しいデータは、複数のカテゴリのうちの1つ以上についての値を含むが、対象カテゴリについての値を含まなくてもない。モデル125は、新しいデータが、モデル125を訓練するときに使用される対象基準を満足する対象カテゴリにおける特定の値を有するかどうかを予測してよい。例えば、モデル125は、特定の人が6万ドルよりも多い年間所得を有するかどうかを予測するよう、所得データを含む使用される人口統計データを訓練されてよい。この例では、対象カテゴリは“年間所得”であってよく、対象基準は“6万ドルよりも多い年間所得”であってよい。
【0028】
機械学習に関連した1つ以上の動作を実行するコンピューティングシステム100の例として、データセット108が取得されてよい。データセット108は、コンピューティングシステム100に入力されてよい。データセット108をコンピューティングシステム100に入力した後、GUI106は、データセット108に関する統計値又はメタデータを表示してよい。その上、又は代替的に、データセット108は、コンピューティングシステム100がアクセスすることができる利用可能なデータセットから選択されてよい。例えば、遠隔のサーバに記憶されており、コンピューティングシステム100がコンピュータネットワーク(例えば、インターネット)を介してアクセスすることができる1つ以上の利用可能なデータセットが存在してよい。コンピューティングシステム100は、GUI106を介して、1つ以上のアクセス可能なデータセットの統計値又はメタデータを表示してよい。データセット108は、アクセス可能なデータセットの中から選択されてよい。
【0029】
いくつかの実施形態において、機械学習システム120は、GUI106を介して、対象カテゴリのインジケーション及び/又は対象基準を取得してよい。対象カテゴリは、データセットの複数のカテゴリの中のあるカテゴリであってよい。対象基準は、対象カテゴリにおける値に基づく論理テストを含んでよい。例えば、対象カテゴリは“年間所得”であってよく、対象基準は“6万ドルよりも多い年間所得”であってよい。機械学習システム120は、GUI106を介して、データセット108の1つ以上のカテゴリを提示してよい。対象カテゴリは、GUI106を介して選択されてよい。機械学習システム120は、GUI106を介して、対象カテゴリの1つ以上の値を提示してよい。対象基準は、GUI106を介して入力されてよい。例えば、機械学習システム120は、GUI106を介して、対象カテゴリの最大値、最小値、中央値、平均、又は75パーセンタイルの値のうちの1つ以上を提示してよい。それらの値のうちの1つが選択されてよく、あるいは、他の値が、対象基準において使用されるよう入力されてもよい。GUI106は、対象基準のための1つ以上の論理テスト演算子、例えば、“~より大きい”(greater than)、“~より小さい”(less than)又は“~の間”(between)を表示してよい。論理テスト演算子のうちの1つが選択されてよく、あるいは、他の論理テスト演算子が、対象基準に含まれるよう入力されてもよい。いくつかの実施形態において、ブール論理が、1つよりも多い論理演算子又は1つよりも多い対象カテゴリを伴う対象基準、例えば、“3万ドルよりも多い年間所得及び9万ドルに満たない年間所得”を生成するために使用されてもよい。データセットのいくつかの記録は、対象基準を満足する対象カテゴリの値を含んでよい。その上、又は代替的に、データセットのいくつかの記録は、対象基準を満足しない対象カテゴリの値を含んでもよい。
【0030】
機械学習に関連した1つ以上の動作を実行するコンピューティングシステム100の例を続けると、機械学習システム120はデータセット108をインポートしてよい。機械学習システム120は、データセット108をインポートすることとの関連で、データセット108を“クリーニング”(cleaning)することに関する動作を実行してよい。データセット108をクリーニングすることは、データセット108の1つ以上のカテゴリを検討から外すことを含んでよい。その上、又は代替的に、データセット108をクリーニングすることは、1つ以上の値を検討から外すことを含んでもよい。機械学習システム120は、どのカテゴリを検討から外すべきかを決定するときに、入力を、例えば、ユーザから、取得してよい。例えば、機械学習システム120は、GUI106を介して、データセット108のカテゴリを提示してよい。データセットの1つ以上のカテゴリは、検討から外されるよう選択されてよい。例えば、対象基準が“6万ドルの年間所得”である場合に、“目の色”のデータカテゴリは検討から外されてよい。その上、又は代替的に、1つ以上のカテゴリの1つ以上の値は、GUI106を介して選択可能であり、データセットは、選択された値に基づきフィルタをかけられ得る。例えば、“年齢”カテゴリにおいて、“18歳より上の年齢”が選択又は入力されてよい。“18”よりも大きい“年齢”カテゴリにおける値を含まない記録は、データセットから除かれてよい。
【0031】
いくつかの実施形態において、ユーザ102は、ユーザ102が専門知識を有している特定の分野に関連があるデータを解析しようとしていてよい。そのようなものとして、ユーザ102は、どのカテゴリが対象カテゴリと関係があり得るか、及び/又はどのカテゴリが無関係であり得るかに関する特別な知識を有してよい。そのような又は他の実施形態において、ユーザ102は、ユーザ102が解析に含め得るデータに対して限界がある(例えば、特定の地理的範囲からの記録しか含まないこと)。
【0032】
いくつかの実施形態において、例えば、決定木モデルのような、モデル125は、データセット108を用いて、又はそれに基づき、取得されてよい。モデル125は、データセット108の記録のカテゴリの値と対象基準との間の関係を表してよい。いくつかの実施形態において、機械学習システム120は、モデル125を生成してよい。その上、又は代替的に、モデル125は、他のソースから取得されてもよい。
【0033】
いくつかの実施形態において、機械学習システム120は、モデル125に対してカテゴリ選択を実行してよい。カテゴリ選択は、モデル125が関連する質問又は問題に関して検討されるべきであるデータのカテゴリを選択することを含んでよい。例えば、社会科学者が所得に影響するデータを検討している場合に、選択されるデータのタイプがカテゴリにおいて配置されてよい。例えば、カテゴリは、特に、“教育レベル”、“年齢”、“人種”、“性別”、“配偶者の有無”を含んでよい。そのような及び他の実施形態において、カテゴリは、モデル125の特徴としても知られ得る。
【0034】
カテゴリ選択は、数ある方法の中でも、例えば、特徴重要度法(feature importance method)、単変量テスト、フィルタ法、ラッパー(wrapper)法、又は埋め込み(embedded)法を使用することといった、如何なる適切な方法を用いても、実行されてよい。カテゴリ選択は、データセット108又はモデル125の複数のカテゴリを順位付けすることを含み、順位付けされたカテゴリの値と対象基準との間の関係に基づいてよい。カテゴリ選択に基づき、機械学習システム120は、データセット108のカテゴリに対応する関連情報を生成してよい。機械学習システム120は、関連情報を、GUI106を介して提示してよい。1つ以上のカテゴリは、提示された関連情報に基づき、検討からの除外のために選択されてよい。例えば、1つ以上の下位のカテゴリが、下位のカテゴリの順位付けに基づき、データセットの記録から除かれてよい。カテゴリを検討から外すことは、カテゴリをモデル125から除くこと、又はカテゴリの値をデータセット108から除くことを含んでもよい。
【0035】
いくつかの実施形態において、機械学習システム120は、GUI106を介して、データセットの1つ以上のカテゴリの視覚表現を提示してよい。視覚表現は、提示されるカテゴリと対象カテゴリとの間の関係に基づいてよい。例えば、1つ以上のカテゴリは、GUI106を介して提示されてよい。GUI106は、データセットの1つ以上のカテゴリに関する関連情報を表示してよい。カテゴリの1つが選択されてよい。選択されたカテゴリは視覚表現において表示されてよい。選択されたカテゴリと対象カテゴリとの間の関係は、視覚表現において提示されてよい。視覚表現はグラフィカル表示を含んでよい。その上、又は代替的に、選択されたカテゴリ及び対象カテゴリの様々な基準を満足する記録の数のインジケーションが表示されてよい。例えば、対象カテゴリが“年間所得”であって、選択されたカテゴリが“目の色”である場合に、GUI106は、異なる目の色にわたっていくつかのレベルで所得の分布を表すグラフを表示してよい。その上、又は代替的に、GUI106は、異なる目の色にわたっていくつかのレベルで所得の数を表示してよい。
【0036】
いくつかの実施形態において、機械学習システム120は、例えば、精緻化された決定木モデルのような、精緻化されたモデルを、除外されたカテゴリ又は下位のカテゴリを含まないデータセットに基づき、又はそれを用いて、生成してよい。例えば、モデルは、決定木モデルであってよく、ルートノード、複数のブランチノード及び複数のリーフノードを含んでよい。決定木モデルのブランチノードは、データセット108の複数のカテゴリの中の1つのカテゴリのブランチ基準を夫々表してよい。そのような及び他の実施形態において、ブランチ基準は、対象基準が適用される対象カテゴリでなくてもよいカテゴリの1つに適用されてよい。
【0037】
いくつかの実施形態において、ブランチノードの夫々のブランチ基準は、対象基準を満足する記録の値と、候補ブランチ基準を満足する記録の値との間の関係に基づき、選択されてよい。例えば、特定のブランチノードについてのブランチ基準は、対象基準を満足する特定のブランチノードに関連した記録の大部分がブランチ基準を満足し、対象基準を満足しない特定のブランチノードに関連した記録の大部分がブランチ基準を満足しないように、特定のブランチノードに関連した記録を分割するという目標に基づき、選択されてよい。
【0038】
いくつかの実施形態において、機械学習システム120は、1つ以上のルールを生成するためにモデル125を使用してよい。例えば、精緻化された決定木はプルーニングされてよい。精緻化された決定木のブランチノードは、ブランチノードが、対象基準を満足する記録よりも、対象基準を満足しないブランチノードに関連した記録を多く有していることに基づき、プルーニングされてよい。プルーニングに続き、精緻化された決定木の残りのブランチノードのうちの1つは、ルールノードとして指定されてよい。ルールは、ルールノードに基づいてよい。ルールは、対象基準に対するデータセットのカテゴリ間の関係を表してよい。例えば、“6万ドルより多い”という対象基準とともに、“性別”、“年齢”、“教育のレベル”のカテゴリ及び“年間所得”の対象カテゴリを含むデータセットについて、ルールは、年齢50歳未満の人の場合に、12年よりも長い教育レベルが6万ドルの年間所得を有している可能性を増す、と記述してよい。機械学習システム120は、GUI106を介して、ルールを表示してよい。
【0039】
いくつかの実施形態において、機械学習システム120は、対象基準についての値を含んでも又は含まなくてもよい仮想上の記録について対象基準に関する予測を生成するために、モデル125を使用してよい。1つ以上の仮想上の記録は、GUI106を介して生成され機械学習システム120に入力されてよい。機械学習システム120は、モデル125に基づき、仮想上の記録の結果について予測してよい。いくつかの実施形態において、機械学習システム120は、GUI106を介して、ルールを表し得る提案された仮想上の記録を提示してよい。例えば、ルールが、“年齢50歳未満の人の場合に、12年よりも長い教育レベルが毎年6万を稼ぐ可能性を増す”と記述する場合に、GUI106は、11年間の教育を受けた50歳未満の人が毎年6万ドルよりも多く稼ぐ可能性を示す仮想上の記録を表示してよい。その上、又は代替的に、GUI106は、13年間の教育を受けた50歳未満の人が毎年6万ドルよりも多く稼ぐ可能性を含む仮想上の記録を表示してよい。いくつかの実施形態において、それらの記録のうちのいずれか一方で、仮想上の記録は、例えば、性別又は居住州を指定することなどによって、データセット108及び/又はルールの適用性を更に解析するよう、GUI106を通じて変更可能であってよい。
【0040】
変更、追加、又は省略は、本開示の適用範囲から逸脱することなしに環境に対して行われてよい。例えば、いくつかの実施形態において、データクリーニングは、自動化又は省略されてよい。他の例として、カテゴリ選択、又は精緻化された決定木の生成は、自動化又は省略されてよい。他の例として、オプションの結果を表示することを伴う動作は、省略されてよい。更に、動作の順序は、異なる実施に従って様々であってよい。
【0041】
図2Aは、本開示で記載される少なくとも1つの実施形態に従うアクセス可能な機械学習に関する動作を表す、例となるフロー200のブロック図である。
図2Bは、
図2Aのフロー200で使用され得るデータセットの例を表す。
図2Cは、
図2Aのフロー200で使用され得る決定木モデルの例を表す。一般に、フロー200は、入力としてデータセット208をとり、いくつかの処理の後、ルール252及び/又は予測データ262を生成してよい。
【0042】
図2Bのデータセット270は、
図1Aのデータセット208の又は
図1のデータセット108の例であってよい。データセット270は、まとめて記録272と呼ばれる第1記録272a、第2記録272b、及び第3記録272cを含む。記録の夫々は、カテゴリ274を含んでよい。4つのカテゴリ、すなわち、まとめてカテゴリ274と呼ばれる第1カテゴリ274a、第2カテゴリ274b、第3カテゴリ274c、及び第4カテゴリ274dが、
図2Bには表されている。データセット270が3つの記録272及び4つのカテゴリ274を含む一方で、これは、単に実例のためである。記録及びカテゴリの数は、異なる実施に従って様々であってよい。
【0043】
いくつかの実施形態において、データセット270の記録272の夫々は、カテゴリ274の夫々に対応する値を含んでよい。例えば、第1記録272aは、第1カテゴリ274aに対応し得る値1と、第2カテゴリ274bに対応し得る値2とを含んでよい。いくつかの実施形態において、記録272の1つ以上は、カテゴリ274の1つ以上における値を有さなくてもよい。例えば、第1記録272aは、第3カテゴリ274cに対応する値3を含まなくてもよい。その上、又は代替的に、値3は“ヌル”であってよい。本開示では、カテゴリ274の夫々は記録272の夫々に対応する値を有していると言う法が正確である。例えば、第1カテゴリ274aは、第1記録272aに対応する値1と、第2記録272bに対応する値5とを有してよい。
【0044】
図2Bにおいて、データセット270はテーブルとして表されており、記録272は行として表され、カテゴリ274は列として表されている。
図2Bにおけるデータセット270の提示は、実例のためである。データセット270は、特に、例えば、ベクトル、リスト、アレイ、又は行列のような、如何なる適切なデータ構造の形もとってよい。
【0045】
カテゴリ274の値は、それらが含まれるカテゴリ274に基づいてよい。例えば、第1カテゴリ274aは、例えば“年齢”のような、数値カテゴリであってよい。他の例として、第2カテゴリ274bは、例えば“名前”のような、文字列カテゴリであってよい。いくつかの実施形態において、カテゴリ274のいくつかは、多数のオプションの中の1つであることができるデータを含んでよい。例えば、第3カテゴリ274cは“目の色”であってよく、カテゴリ3の値の全ては、色のリストから選択されてよい。
【0046】
データセット270は、対象カテゴリを含んでよい。対象カテゴリは、対象カテゴリとして指定されていてよいデータセット270のカテゴリであってよい。対象カテゴリは、機械学習システムの特定のタスク、モデルの目的、又はモデルが解析するよう構成される質問に基づき、指定されてよい。例えば、機械学習システムが、収入を予測する特定のタスクを実行している場合に、対象カテゴリは“年間所得”であってよい。
【0047】
これより
図2Aに戻ると、データクリーニング210の間、クリーンデータ212はデータセット208に基づき生成されてよい。一般に、データクリーニング210の間、データは、そのデータが対象カテゴリ又は対象基準に無関係であるとのインジケーションに基づき、データセット208から除かれてよい。除かれたデータは、記録、値、及び/又はカテゴリを含んでよい。代替的に、又はその上、特定のカテゴリは、機械学習システムの特定の目的について関連がないことがあり得る。例えば、いくつかの実施形態において、“性別”は、ローンが認められるべきかどうかを判定するのに無関係であり得る。いくつかの実施形態において、データセット208のカテゴリは、対象カテゴリ又は対象基準に対するカテゴリの無関係のインジケーションに基づき、除かれてよい。無関係のインジケーションは、
図1のGUI106から取得されてよい。いくつかの実施形態において、カテゴリの無関係のインジケーションは、自動的に生成されてもよい。更なる他の実施形態において、GUI駆動のカテゴリ除外法及び自動的導出のカテゴリ除外法の組み合わせが使用されてもよい。
【0048】
いくつかの実施形態において、カテゴリの無関係は、カテゴリの値と対象カテゴリの値又は対象基準を満足する対象カテゴリの値との低度の弁別関係に基づいてよい。いくつかの実施形態において、カテゴリの無関係は、無関係のカテゴリが冗長であることに基づいてよい。例えば、無関係のカテゴリは、データセット内の他のカテゴリとの高度な相関を有することがあり、よって、対象カテゴリに関する情報を予測するために使用され得る追加情報を加えない可能性がある。いくつかの実施形態において、カテゴリの無関係は、無関係なカテゴリの値が手を付けられないこと、例えば、データが破損しているか又は誤って報告若しくは記録に記録されていることに基づいてよい。
【0049】
いくつかの実施形態において、データクリーニング210の間、無関係のカテゴリは、クリーンデータ212を生成するようデータセット208から除かれてよい。いくつかの実施形態において、無関係のカテゴリは、更なる処理を目的として、削除されるか、又は無関係とマークを付されてもよい。
【0050】
いくつかの実施形態において、フロー200は、決定木生成220を含んでよい。一般に、決定木生成220の間、決定木222は、クリーンデータ212を用いて、又はそれに基づき、生成されてよい。決定木222は、特に、例えば、Iterative Dichotomiser 3(ID3)、Classification And Regression Tree(CART)、又はChi-squared Automatic Interaction Detector(CHAID)のような、決定木生成の如何なる適切な方法に従っても生成されてよい。決定木の例は、
図2Cに関して与えられている。
【0051】
図2Cは、本開示で記載される少なくとも1つの実施形態に従う、例となる決定木モデル280のブロック図である。決定木モデル280は、7つのノード、すなわち、まとめてノード282と呼ばれるルートノード282a、第1ブランチノード282b、第2ブランチノード282c、第1リーフノード282d、第2リーフノード282e、第3リーフノード282f、及び第4リーフノード282gを含む。決定木モデル280が7つのノードを含む一方、これは、単に実例のためであり、ノード、ブランチノード、及び/又はリーフノードの数は、異なる実施に従って様々であってよい。いくつかの実施形態において、決定木モデル280は、ブランチノードの層を含んでもよい。例えば、ブランチノードは、他のブランチノードの親であってよい。
【0052】
いくつかの実施形態において、決定木は、1つ以上の基準に従ってデータセットの記録を分割及び細分してよい。例えば、決定木モデル280はブランチノードを含んでよい。夫々のブランチノードはブランチ基準を含んでよい。ブランチ基準は、データセットの値に適用され得る論理テストを含んでよい。いくつかの実施形態において、夫々のブランチ基準は、1つのカテゴリの値に適用されてよい。例となるブランチ基準は、“50歳より上の年齢”、“6万ドルよりも多い年間所得”、又は“性別は女性”を含む。いくつかの実施形態において、決定木の端は、ブランチ基準の結果を表してよい。例えば、いずれかのブランチノードの左端は、ブランチ基準を満足する値を有する記録に対応してよい。いずれかのブランチノードの右端は、ブランチ基準を満足しない値を有する記録に対応してよい。よって、例えば、第1リーフノード282dは、ルートノード282a及び第1ブランチノード282bのブランチ基準を満足する値を有する記録に対応してよい。他の例として、第3リーフノード282fは、ルートノード282aのブランチ基準を満足しないが、第2ブランチノード282cのブランチ基準を満足する値を有する記録に対応してよい。
【0053】
いくつかの実施形態において、ルートノードは、全ての記録に関連してよい。決定木の夫々のブランチノード及び夫々のリーフノードは、記録のサブセットに関連してよい。例えば、ルートノード282aは、データセットの全ての記録に関連してよい。第1ブランチノード282bは、ルートノード282aのブランチ基準を満足する記録に関連してよい。第2ブランチノード282cは、ルートノード282aのブランチ基準を満足しない記録に関連してよい。
【0054】
いくつかの実施形態において、決定木モデル280は、記録のカテゴリの値と対象基準との間の関係を表してよい。例えば、第1リーフノード282dは、ルートノード282aのブランチ基準及び第1ブランチノード282bのブランチ基準を満足する記録を表してよい。第1リーフノード282dがルートノード282a及び第1ブランチノード282bのブランチ基準を満足するという情報は、記録のカテゴリの値と対象基準との間の関係の表現の部分であってよい。第1リーフノード282dは、第1リーフノード282dの記録のうちのどれくらいが対象基準を満足するかに関する情報を、例えば、パーセンテージとして、含んでよい。第1リーフノード282dの記録のうちのどれくらいが対象基準を満足するかに関する情報は、記録のカテゴリの値と対象基準との間の関係の表現の部分であってよい。
【0055】
これより
図2Aに戻ると、いくつかの実施形態の間、フロー200はカテゴリ選択230を含んでよい。カテゴリ選択230の間、クリーンデータ212のカテゴリは選択されてよい。一般に、カテゴリ選択230の間、クリーンデータ212は、決定木222に基づき、且つ、カテゴリの値と対象基準との間の関係に基づき、精緻化されてよい。カテゴリ選択230は、データセットからの1つ以上のカテゴリの除外を含んでよく、これはデータクリーニング210と類似し得る。しかし、カテゴリ選択230は、データクリーニング210と比べて更なる自動化を含んでよい。例えば、カテゴリ選択230は、特に、例えば、特徴重要度法、単変量テスト、フィルタ法、ラッパー法、又は埋め込み法のような、如何なる適切な特徴選択法も含んでよい。
【0056】
いくつかの実施形態において、カテゴリ選択230の間、クリーンデータ212のカテゴリは、順位付けされたカテゴリの値と、対象基準を満足する対象カテゴリの値との間の関係に従って、順位付けされてよい。例えば、カテゴリの値と基準を満足する対象カテゴリの値との間の高度な弁別関係を有するカテゴリは、上位にあってよい。例えば、“教育レベル”のようなカテゴリは、“年間所得”の対象カテゴリと高度に相関し得る。これは、比較的高い“教育レベル”を含む複数の記録が比較的高い“年間所得”も含み得るからである。その上、又は代替的に、関係は逆相関であってもよい。例えば、“重罪判決”は、“年間所得”と逆相関し得る。更に、“教育レベル”のカテゴリは、“6万ドルよりも多い年間所得”の対象基準との高度な関係性を有し得る。特徴重要度法は、例えば、決定木222及び/又は順位付けされたカテゴリの値と対象基準との間の関係に従って、カテゴリを順位付けしてよい。
【0057】
1つ以上の下位のカテゴリは、下位のカテゴリの順位付けに基づき、データセットの記録から除かれてよい。例えば、最下位のカテゴリはデータセットから除かれてよい。その上、又は代替的に、下位のカテゴリは、下位のカテゴリと対象基準との間の関係に基づき、除かれてよい。例えば、記録が対象基準を満足するかどうかを予測することにおけるモデルの第1精度が決定されてよい。また、記録が対象基準を満足するかどうかを予測することにおける、下位のカテゴリを含まないモデルの第2精度が決定されてよい。第2精度が第1精度から閾距離内にある場合に、下位のカテゴリは除かれてよい。例えば、特定のカテゴリが下位にあり、記録が対象基準を満足するかどうかを予測することにおける、その特定のカテゴリを除いたモデルの精度が、記録が対象基準を満足するかどうかを予測することにおける、その特定のカテゴリを含むモデルの精度の5%内にある場合には、その特定のカテゴリはデータセットから除かれてよい。精緻化されたデータセット232は、下位のカテゴリの除外後のクリーンデータ212を含んでよい。
【0058】
いくつかの実施形態において、フロー200は決定木生成240を含んでよい。一般に、決定木生成240の間、精緻化された決定木242は、精緻化されたデータセット232に基づき生成されてよい。決定木生成240は、決定木生成220と類似するか、又は同じであってよい。
【0059】
いくつかの実施形態において、フロー200はルール生成250を含んでよい。一般に、ルール生成250の間、精緻化された決定木242に基づく1つ以上のルール252が生成されてよい。
【0060】
いくつかの実施形態において、精緻化された決定木242又は決定木222のブランチノードの1つ以上は、ルールノードとして指定されてよい。1つ以上のルールは、1つ以上のルールノードのブランチ基準に基づいてよい。ルールノードは、ルールノードのブランチ基準が、対象基準を満足する記録を、対象基準を満足しない記録から分けることに基づき、ブランチノードの中から指定されてよい。本開示においては、対象基準を満足する記録は、“白星”と呼ばれ得る。また、本開示においては、対象基準を満足しない記録は、“黒星”と呼ばれ得る。また、本開示においては、特定のノードに関連した記録の総数に対する、対象基準を満足するその特定のノードに関連した記録の比は、“Pwin”と呼ばれ得る。よって、ルールノードは、ルールノードのブランチ基準が白星を黒星から分けることに基づき、指定されてよい。
【0061】
いくつかの実施形態において、ブランチノードからのルールノードの指定は、1つ以上のステップを含んでよい。いくつかの実施形態において、対象基準を満足する第1対象値を含む記録よりも、対象基準を満足しない対象値を含む記録を多く含むブランチノード及びリーフノードであって、それらに関連した記録のサブセットを含むブランチノード及びリーフノードを含むノードのリストが、生成されてよい。例えば、リスト上のブランチノード及びリーフノードの夫々は、対象基準を満足する記録よりも多い、対象基準を満足しない記録に関連し得る。例えば、ノードのリストは、白星よりも黒星を多く含むノードのリストであってよい。
【0062】
いくつかの実施形態において、ルールノードの指定に取り組むよう、1つ以上のノードはノードリストからプルーニングされてよい。プルーニングの目的は、どのノード及び/又はブランチ基準が対象基準に最も関係がある情報を提供するかを決定することであってよい。よって、プルーニングの目的は、より関係がない情報が抽出され得るノード、例えば、冗長なノードをプルーニングすることであってよい。
【0063】
いくつかの実施形態において、プルーニングされるノードは、そのプルーニングされるノードが、ノードのリスト上にある親ノードの子ノードであることに基づき、プルーニングのために選択されてよい。例えば、
図2Cに戻ると、第1リーフノード282d及び第1ブランチノード282bがリスト上にある場合に、第1リーフノード282dは、第1ブランチノード282bがノードリスト上に残ることに基づき、除かれてよい。いくつかの実施形態において、第1リーフノード282dは、第1リーフノード282dが第1ブランチノード282bを考慮して冗長であり得るので、除かれてよい。その上、又は代替的に、第1リーフノード282dは、第1ブランチノード282bが更なる情報、又は第1リーフノード282dよりも関連がある情報を表し得るので、除かれてよい。
【0064】
その上、又は代替的に、プルーニングされるノードは、そのプルーニングされるノードがリーフノードであることに基づき、プルーニングのために選択されてよいが、リーフノードの親ノードは、その親ノードが既にリスト上にない場合にリストに加えられてよい。例えば、再び
図2Cに戻ると、第3リーフノード282fがリスト上にあり、第2ブランチノード282cがリスト上にない場合に、第3リーフノード282dはリストから除かれてよく、第2ブランチノード282cはリストに加えられてよい。いくつかの実施形態において、少なくともリーフノードはブランチ基準を含まなくてよいことから、対象基準と関係がある情報は、ブランチノードからと比べて、リーフノードからはそれほど得られない。よって、リーフノードを除いて、親ノードを加えることによって、リストは情報、又は対象基準により関係がある情報を得ることができる。
【0065】
その上、又は代替的に、プルーニングされるノードは、そのプルーニングされるノードが、“不変”と指定されているカテゴリのブランチ基準を表すことに基づき、プルーニングのために選択されてよい。本開示において、不変と指定されているブランチ基準、カテゴリ、又はデータに基づくノードは、“不変ノード”と呼ばれ得る。例えば、第2ブランチノード282cのブランチ基準が、不変と指定されているデータのカテゴリに関する場合に、第2ブランチノード282cはリストから除かれてよい。不変と指定され得るカテゴリの例として、記録の“年齢”カテゴリ又は“目の色”カテゴリが不変と指定されてよい。不変の指定は、GUI、例えば、
図1のGUI106を通じて、行われてよい。不変の指定は、記録の基礎をなすデータが大きな困難なしには変更され得ないという概念に基づいてよい。例えば、記録が基づく人は、大きな困難なしには彼らの目の色を変えることができない。その上、又は代替的に、いくつかの目的のために、記録が基づく人は、彼らの年齢を下げることができない。不変ノードは、特定の解析において利用されてよく、他の解析においては利用されなくてもよい。そのような及び他の実施形態において、不変ノードは、それらが、他のブランチノードの情報よりも機械学習モデルの特定のタスクと関係がない情報を提供し得るということで、ノードのリストから除かれてもよい。
【0066】
いくつかの実施形態において、1つ以上のノードがノードのリストから除かれた後、1つ以上の残りのノードがルールノードとして指定されてよい。
【0067】
いくつかの実施形態において、ルールは対象基準に基づいてよい。例えば、ルールは、基準が対象基準を満足する可能性が更に高くなり得るデータの1つ以上のカテゴリに関する基準を含んでよい。例えば、対象基準が“6万ドルよりも多い年間所得”である場合に、ルールは、“6万ドルよりも多い年間所得”を有している記録の可能性を増し得る1つ以上のカテゴリに関する基準を含んでよい。
【0068】
いくつかの実施形態において、ルールは、ルールノードのブランチ基準に基づき、且つ、それを含んでもよい。例えば、第1ブランチノード282bのブランチ基準が“12年より長い教育レベル”であり得る場合に、第1ブランチノード282bの子ノードのPwinに基づき、ルールは“12年より長い教育レベル”を含んでよい。
【0069】
その上、又は代替的に、ルールは前提条件を含んでもよい。ルールの前提条件は、ルールノードの親ノードの夫々のブランチ条件を含んでよい。例えば、再び
図2Cに戻ると、ルートノード282aのブランチ基準が“50歳より上の年齢”である場合に、ルールは、“年齢が50歳より上である場合”との前提条件を含んでよい。例えば、ルールは、“年齢が50歳より上である場合に、6万ドルよりも多い年間所得を達成するよう、教育レベルは12年より長いはずである”を含んでよい。
【0070】
いくつかの実施形態において、ルールは、1つ以上のPwinを含むか、又はそれに基づいてよい。例えば、ルールは、“年齢が50歳より上である場合に、6万ドルよりも多い年間所得の確率70%を達成するよう、教育レベルは12年より長いはずである”を含んでよい。いくつかの実施形態において、ルールは、Pwin間の比較を含んでよい。例えば、ルールは、“年齢が50歳より上である場合に、6万ドルよりも多い年間所得を有する確率を60%高めるよう、教育レベルは12年より長いはずである”を含んでよい。
【0071】
いくつかの実施形態において、フロー200は予測260を含んでよい。一般に、予測260の間、予測データ262は、ルール252、精緻化された決定木242、精緻化されたデータセット232、決定木222、及び/又はクリーンデータ212に基づき生成されてよい。いくつかの実施形態において、予測データ262は、ルール252にのみ基づき形成されてよい。ルール252にのみ基づく予測データ262は、他の予測データ262よりも生成するのが速くなり得る。その上、又は代替的に、予測データ262は、精緻化された決定木242に基づいてもよい。精緻化された決定木242に基づく予測データ262は、機械学習モデル、例えば、精緻化された決定木242、を使用して結果を生成することを含んでよい。
【0072】
いくつかの実施形態において、予測データ262は、仮想上の記録に基づいてもよい。例えば、対象カテゴリにおける値を含まなくてもよい仮想上の記録が取得されてよい。いくつかの実施形態において、仮想上の記録の対象カテゴリの値が生成されてもよい。仮想上の記録の対象カテゴリの値は、範囲又は確率を含んでよい。他の実施形態においては、仮想上の記録の対象カテゴリの値は、生成されなくてもよい。むしろ、そのような又は他の実施形態において、仮想上の記録は、その仮想上の記録が対象基準を満足する対象カテゴリの仮想上の値を含む可能性に関して、評価されてよい。例えば、仮想上の記録は“50歳”の“年齢”及び“11年”の“教育レベル”を含んでよい。仮想上の記録に基づく予測データ262は、“50歳”の“年齢”及び“11年”の教育レベルを有する記録が“6万ドル”より多い“年間所得”を含む確率、例えば、“10%”の予測を含んでよい。
【0073】
変更、追加、又は省略は、本開示の適用範囲から逸脱することなしにフロー200に対して行われてよい。例えば、いくつかの実施形態において、データクリーニング210は省略されてもよい。そのような又は他の実施形態において、カテゴリ選択230は、“データセットから追加のカテゴリを除いて”よい。他の例として、カテゴリ選択230及び決定木生成240は省略されてもよい。そのような又は他の実施形態において、ルール生成250は、決定木222に基づいてもよい。更に、動作の順序は、異なる実施に従って様々であってよい。
【0074】
図3は、本開示で記載される少なくとも1つの実施形態に従って配置され得る、例となるコンピューティングシステム300のブロック図である。
図3に表されるように、コンピューティングシステム300は、プロセッサ302、メモリ304、データストレージ306、及び通信ユニット308を含んでよい。
【0075】
一般に、プロセッサ302は、様々なコンピュータハードウェア又はソフトウェアモジュールを含む如何なる適切な特別目的又は汎用のコンピュータ、コンピューティングエンティティ、又はプロセッシングデバイスも含んでよく、如何なる適切な適用可能なコンピュータ可読記憶媒体に記憶されている命令も実行するよう構成されてよい。例えば、プロセッサ302は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、あるいは、プログラム命令を解釈及び/又は実行するよう且つ/あるいはデータを処理するよう構成された他のあらゆるデジタル又はアナログ回路を含んでよい。
図3では単一のプロセッサとして表されているが、プロセッサ302は、ここで記載される動作をいくつでも個別的に又は集合的に実行するよう構成されたプロセッサをいくつでもいくつのネットワーク又は物理位置にわたっても含んでよい。いくつかの実施形態において、プロセッサ302は、メモリ302、データストレージ306、又はメモリ304及びデータストレージ306に記憶されているプログラム命令を解釈及び/又は実行し且つ/あるいはそれに記憶されているデータを処理してよい。いくつかの実施形態において、プロセッサ302は、データストレージ306からプログラム命令をフェッチし、プログラム命令をメモリ304にロードしてよい。プログラム命令がメモリ304にロードされた後、プロセッサ302は、プログラム命令、例えば、
図2A、
図4及び
図52のフロー200、方法400、及び/又は方法500に関して夫々記載されている1つ以上の動作を実行するための命令、を実行してよい。
【0076】
メモリ304及びデータストレージ306は、コンピュータ実行可能命令又はデータ構造を運ぶか又は記憶しているコンピュータ可読記憶媒体又は1つ以上のコンピュータ可読記憶媒体を含んでよい。そのようなコンピュータ可読記憶媒体は、プロセッサ302のような汎用又は特別目的のコンピュータによってアクセスされ得る如何なる利用可能な媒体であってもよい。例として、制限なしに、そのようなコンピュータ可読記憶媒体は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、電気的消去可能なプログラム可能リードオンリーメモリ(EEPROM)、コンパクトディスク型リードオンリーメモリ(CD-ROM)若しくは他の光ディスクストレージ、磁気ディスクストレージ若しくは他の磁気記憶デバイス、フラッシュメモリデバイス(例えば、固体状態メモリデバイス)、あるいは、コンピュータ実行可能命令又はデータ構造の形で所望のプログラムコードを搬送又は記憶するために使用されてよく且つ汎用又は特別目的のコンピュータによってアクセスされ得る他のあらゆる記憶媒体を含む非一時的なコンピュータ可読記憶媒体を含んでよい。先に挙げられたものの組み合わせも、コンピュータ可読記憶媒体の適用範囲内に含まれてよい。コンピュータ実行可能命令は、例えば、プロセッサ302に特定の動作又は動作群を実行させるよう構成された命令及びデータを含んでよい。
【0077】
通信ユニット308は、記録、データセット、及び/又は仮想上のデータを受けるよう、且つ、記録、データセット、及び/又は仮想上のデータをデータストレージ306へ供給するよう構成されてよい。通信ユニット308は、コンピューティングシステム300とネットワークとの間の通信を可能にするか又は助けるよう構成された如何なるデバイス、システム、コンポーネント、又はコンポーネントの集合も含んでよい。例えば、通信ユニット308は、制限なしに、モデム、ネットワークカード(無線若しくは有線)、赤外線通信デバイス、光通信デバイス、無線通信デバイス(例えば、アンテナ)、及び/又はチップセット(例えば、Bluetooth(登録商標)デバイス、802.6デバイス(例えば、メトロポリタンエリアネットワーク(MAN))、Wi-Fiデバイス、WiMAXデバイス、セルラー通信設備、など)、及び/又は同様のものを含んでよい。通信ユニット308は、いくつかの例を挙げると、セルラーネットワーク、Wi-Fiネットワーク、MAN、光ネットワーク、などのようなあらゆるネットワーク、及び/又は遠隔デバイスを含む、本開示で記載される他のあらゆるデバイスともデータが交換されることを可能にしてよい。
【0078】
変更、追加、又は省略は、本開示の適用範囲から逸脱することなしにコンピューティングシステム300行われてよい。例えば、データストレージ306は、複数の場所に位置付けられ、ネットワークを通じてプロセッサ302によってアクセスされてよい。
【0079】
図4A、4B及び4Cは、本開示で記載される少なくとも1つの実施形態に従って配置され、機械学習に関連した動作を実行するよう構成された、例となる方法400のフローチャートを表す。いくつかの実施形態において、方法400に関連した動作のうちの1つ以上は、
図2Aのフロー200の部分として実行されてよい。方法400は、如何なる適切なシステム、装置、又はデバイスによっても実行されてよい。例えば、
図3のコンピューティングシステム300、又は
図1のコンピューティングシステム100は、方法400に関連した動作のうちの1つ以上を実行してよい。別個のブロックにより表されているが、方法400のブロックのうちの1つ以上に関連したステップ及び動作は、所望の実施に応じて、更なるブロックに分けられても、より少ないブロックにまとめられても、又は削除されてもよい。一般に、方法400は、データセットを取得し、該データセットに基づきルールを生成し、ルールをディスプレイ上で提示してよい。
【0080】
図4Aを参照して、ブロック405で、データセットが取得されてよい。上述されたように、データセットは、例えば、
図1のGUI106のような、GUIを通じて、取得又は選択されてよい。データセットは複数の記録を含んでよく、記録の夫々は1つ以上のカテゴリを含んでよい。例えば、
図2Bを参照して、データセット270は記録272を含んでよく、記録272はカテゴリ274を含んでよい。
【0081】
ブロック406で、データセットのカテゴリが、GUIのディスプレイ上で提示されてよい。
【0082】
ブロック407で、提示されているカテゴリのインジケーションが受け取られてよい。例えば、ユーザは、1つ以上のカテゴリを選択して、該選択されたカテゴリ又は該選択されたカテゴリ内の値がデータセットから除かれるべきことを示してよい。
【0083】
ブロック408で、指示されたカテゴリが、データセットの記録から除かれてよい。
【0084】
ブロック410で、対象基準のインジケーションが取得されてよい。例えば、1つ以上のカテゴリがGUIのディスプレイ上で提示されてよい。ユーザは、GUIのディスプレイ上でカテゴリを選択することによって、対象カテゴリとして指定されるべきカテゴリを指示してよい。その上、又は代替的に、ユーザは、GUIを介して、対象基準を入力してよい。対象基準は、関心があり得る対象カテゴリに対する基準を含んでよい。データセットの記録は、対象値と呼ばれ得る対象カテゴリの値を含んでよい。
【0085】
ブロック415で、第1決定木モデルが取得されてよい。第1決定木モデル(例えば、
図2Cの決定木モデル280)は、記録のカテゴリの値と対象基準との間の関係を表してよい。いくつかの実施形態において、第1決定木モデルは、データセットを用いて取得されてよく、あるいは、別なふうにデータセットに基づいてもよい。上述されたように、記録のカテゴリの値と対象基準との間の関係は、ブランチ基準と、対象基準を満足する記録の数とを含んでよい。例えば、関係は、ブランチ基準及び対象基準の両方を満足する記録の数を含んでもよい。
【0086】
ブロック420で、データセットのカテゴリは、第1決定木モデルに基づき、且つ、順位付けされたカテゴリの値と対象基準との間の関係に基づき、順位付けされてよい。例えば、関係は、対象基準を満足する対象値を含む記録内のカテゴリの値どうしの間の相関関係を含んでもよい。例えば、相関関係は、対象基準を満足する対象値とともに、カテゴリにおける高い数値を含む記録を含んでもよい。カテゴリおける高い数値のうちの1つ以上は、カテゴリの高い数値を有する他の記録と相関されてよい。いくつかの実施形態において、カテゴリは、この又は他の特徴選択法によって順位付けされてもよい。
【0087】
ブロック422で、データセットの選択されたカテゴリの値の視覚表現が、GUIにおいてディスプレイ上で提示されてよい。視覚表現は、選択されたカテゴリの値と対象値との間の関係に基づいてよい。例えば、1つ以上のカテゴリは、ユーザがカテゴリを選択するようGUIと相互作用し得る方法で、GUI上で表示されてよい。選択されたカテゴリの視覚表現は、GUI上で生成及び表示されてよい。表示は、選択されたカテゴリと対象カテゴリ、対象値、及び対象基準との間の関係を明らかにし得る。
【0088】
図4Bを参照して、ブロック425で、1つ以上の下位のカテゴリが、下位のカテゴリの順位付けに基づき、データセットの記録から除かれてよい。その上、又は代替的に、下位のカテゴリは、下位のカテゴリと対象基準との間の相関関係に基づき除かれてよい。例えば、下位のカテゴリは、下位のカテゴリと対象基準との間の相関関係を決定するよう解析されてよい。下位のカテゴリと対象基準との間の相関関係が閾値を下回る場合には、下位のカテゴリはデータセットの記録から除かれてよい。
【0089】
ブロック430で、第2決定木モデルが、下位のカテゴリの除外後のデータセットを用いて生成されてよい。第2決定木モデルは、ルートノード、1つ以上のリーフノード、及び1つ以上のブランチノードを含んでよい。例えば、
図2Cを参照して、決定木モデル280は、ルートノード282aと、ブランチノード282b及び282cと、リーフノード282d、282e、282f及び282gとを含んでよい。ブランチノードの夫々は、カテゴリのうちの1つのブランチ基準を表してよい。ブランチノードの夫々についてのブランチ基準は、対象基準を満足する対象値と、候補ブランチ基準を満足する他のカテゴリの値との間の関係に基づき、生成されてよい。ブランチノードの夫々についてのブランチ基準は、第2決定木モデルの生成の部分として選択されてよい。
【0090】
ブロック435で、ブランチノードのうちのあるブランチノードがプルーニングされてよい。プルーニングの目的は、他のブランチノードよりも対象基準と関係がない情報を提供し得るブランチノードを除くことを含んでよい。いくつかの実施形態において、プルーニングされるブランチノードは、そのプルーニングされるブランチノードに関連した記録が、対象基準を満足する記録より、対象基準を満足しない記録を多く含むことに基づき、プルーニングのために選択されてよい。例えば、プルーニングされるブランチノードは、そのプルーニングされるブランチノードが白星よりも多く黒星に関連付けられていることに基づき、プルーニングのために選択されてよい。いくつかの実施形態において、1つよりも多いブランチノードがプルーニングされてよい。
【0091】
ブロック440で、残りのブランチノードのうちの少なくとも1つのブランチノードがルールノードとして指定されてよく、このルールノードに基づき、ルールが生成されてよい。1つ以上のプルーニングされるブランチノードのプルーニングの後、残りのブランチノードは、1つ以上のプルーニングされたブランチノードよりも対象基準と関係がある情報を提供し得る。ルールノードとしての残りのブランチノードからの少なくとも1つの指定は、残りのブランチノードが、1つ以上のプルーニングされたブランチノードよりも対象基準と関係がある情報を提供することに基づいてよい。
【0092】
ブロック445で、ルールが、ルールノードのブランチ基準に基づき生成されてよい。例えば、ルールは、ブランチ基準を満足するカテゴリの値と、対象基準を満足する対象値との間の関係を含む記述又は式を含んでよい。いくつかの実施形態において、ルールは、1つ以上のカテゴリと対象基準との間の関係の表現を含んでよい。そのような及び他の実施形態において、ルールは、ルールノードの1つ以上の親ノードに基づく前提条件を含んでもよい。その上、又は代替的に、ルールは、ルールノードのブランチ基準に基づく事後条件を含んでもよい。例えば、ルールは、前提条件と関係があり得る“when”句と、事後条件と関係がある“then”句とを含んでよい。
【0093】
ブロック450で、ルールがGUIにおいてディスプレイ上で提示されてよい。
【0094】
ブロック455で、対象基準を満足する対象カテゴリの値を有している記録の第1パーセンテージのインジケーションが、GUIから受け取られてよい。例えば、第1PwinのインジケーションがGUIに入力されてよい。
【0095】
図4Cを参照して、ブロック460で、記録の組がデータセットから選択されてよい。例えば、記録の組は、その記録の組が、対象基準を満足する記録の第2パーセンテージを含むことに基づき、選択されてよい。ここで、第2パーセンテージは、対象基準を満足する記録の他の組の1つ以上の他のパーセンテージよりもブロック455の第1パーセンテージに近くてよい。その上、又は代替的に、第2パーセンテージは、第1パーセンテージの閾距離内にあってよい。例えば、記録の組は、ブロック455の第1Pwinから閾距離、例えば5%内にある第2Pwinを含むように、データセットから選択されてよい。
【0096】
ブロック461で、記録の組の1つ以上の値がGUIのディスプレイ上で提示されてよい。
【0097】
ブロック456で、データセット内に含まれていない追加の記録の値が受け取られてよい。追加の記録は、ルールの適用性をユーザに証明するのに役立ち得る仮想上の記録であってよい。その上、又は代替的に、GUIは、機械学習モデルによって提案されないデータの他の操作を通じて、記録を、それほど望ましくないクラスから、より望ましいクラスへ変更する代替の方法を提供してもよい。GUIを通じて、いくつかの実施形態において、追加の記録の値は、ブロック460で選択された記録の組に基づいてよく、あるいは、別なふうにその記録の組と関係があってよい。いくつかの実施形態において、追加の記録は、ルールと関係があってよく、例えば、追加の記録は、ルールの適用性を証明し得る値を含んでよい。追加の記録の値の夫々は、記録のカテゴリのサブセットの中の1つのカテゴリに対応してよい。カテゴリのサブセットは、対象カテゴリを含んでも又は含まなくてもよい。例えば、いくつかの事例で、追加の記録は、対象カテゴリを除いてデータセットのカテゴリの夫々における値を含んでよい。
【0098】
ブロック466で、予測が、追加の記録の値に基づき、追加の記録が対象基準を満足し得る可能性に関して行われ得る。
【0099】
ブロック467で、予測がGUIのディスプレイ上で表示されてよい。
【0100】
ブロック470で、追加の記録のカテゴリのうちの1つのカテゴリについての新しい値が、GUIから受け取られてよい。例えば、追加の記録のカテゴリのうちの1つのカテゴリについての値は、変更されてもよい。値は、ユーザが、GUIに表示されている追加の記録を変更するようGUIと相互作用することによって、変更されてよい。
【0101】
その上、又は代替的に、方法400は、新しい値を含む追加の記録の値に基づき、追加の記録が対象基準を満足する可能性があるかどうかを予測することを含んでよい。新しい値に関する予測は、ブロック466について上述された方法と類似した又はそれに相当する方法で行われてよいが、新しい値に基づき実行される。その上、又は代替的に、方法400は、予測の結果をGUIで表示することを含んでもよい。新しい値に関する予測の表示は、ブロック467について上述された方法と類似した又はそれに相当する方法で行われてよい。
【0102】
変更、追加、又は省略は、本開示の適用範囲を逸脱することなしに方法400に対して行われてよい。例えば、いくつかの実施形態において、ブロック410は、省略されても、あるいは、ブロック405より前に、又はブロック405と略同時に行われてもよい。例えば、データセットが取得される場合に、対象カテゴリ及び/又は対象基準は前もって取得され又は知られていてよい。他の例として、ブロック415、ブロック420、及びブロック425は、省略されてもよい。そのような又は他の実施形態において、第2決定木モデルは、第1決定木モデルの必要なく生成されてよい。更に、動作の順序は、異なる実施に従って様々であってよい。例えば、ブロック410は、ブロック406より前に、例えば、ブロック405と略同時に行われてもよい。他の例として、ブロック410は、ブロック406の後に、且つ、ブロック407より前又はそれと略同時に、行われてもよい。
【0103】
図5は、本開示で記載される少なくとも1つの実施形態に従って、決定木からブランチノードをプルーニングすることに関連した動作を実行するよう構成された、例となる方法500のフローチャートである。いくつかの実施形態において、方法500に関連した動作のうちの1つ以上は、
図2Aのフロー200の部分として実行されてよい。方法500は、如何なる適切なシステム、装置、又はデバイスによっても実行されてよい。例えば、
図3のコンピューティングシステム300、又は
図1のコンピューティングシステム100は、方法500に関連した動作のうちの1つ以上を実行してよい。別個のブロックとして表されているが、方法500のブロックのうちの1つ以上に関連したステップ及び動作は、所望の実施に応じて、更なるブロックに分けられても、より少ないブロックにまとめられても、又は削除されてもよい。一般に、方法500は、ノードのリストを生成し、ノードのリストから1つ以上のノードを除いてよい。いくつかの実施形態において、方法500は、
図4の方法400の部分であるか、又はそれに含まれてよい。例えば、方法500は、
図4の方法400のブロック435の一実施の例であってよい。
【0104】
ブロック505で、決定木のブランチノード及び/又はリーフノードを含むノードのリストが生成されてよい。例えば、
図4のブロック435の実施において、決定木は、
図4の方法400の第2決定木に対応してよい。そのような又は他の実施形態において、決定木は、
図4の方法400の第1決定木に対応してもよい。
【0105】
そのような及び他の実施形態において、ノードのリストの各ノードは、記録の組に関連してよく、記録の各組は、対象基準を満足する対象値を含む記録よりも、対象基準を満足しない対象値を含む記録を多く含んでよい。例えば、ノードのリストは、白星よりも多く黒星に関連する決定木のブランチノード及びリーフノードを含んでよい。
【0106】
ブロック510で、第1子ノードが、その第1子ノードがノードのリスト内で第1親ノードを有していることに基づき、ノードのリストから除かれてよい。例えば、第1子ノードは、その第1子ノードが第1親ノードを考慮して冗長であり得るということで、除かれてよい。その上、又は代替的に、第1子ノードは、第1親ノードが第1子ノードよりも多い情報又はより関連する情報を含み得るということで、除かれてよい。
【0107】
ブロック515で、第2子ノードがノードのリストから除かれてよい。例えば、第2子ノードは、その第2子ノードがリーフノードであることに基づき、除かれてよい。例えば、ブランチノードからよりも、リーフノードから得られる情報は、対象基準にそれほど関係がない。
【0108】
ブロック520で、第2親ノードがノードのリストに加えられてよい。そのような及び他の実施形態において、第2親ノードは、第2子ノードをもたらしたブランチ基準を含んでよい。いくつかの実施形態において、第2親ノードは、ブロック520より前にノードのリスト上に含まれなくてもよい。いくつかの実施形態において、親ノードをノードのリストに加えることによって、対象基準と関係がある情報が得られる。
【0109】
ブロック525で、ノードが、そのノードのブランチカテゴリが基づくデータが“不変”と指定されていることに基づき、ノードのリストから除かれてよい。そのような及び他の実施形態において、不変ノードは、その不変ノードが、他のブランチノードの情報よりも機械学習モデルの特定のタスクとそれほど関係がない情報を提供し得るということで、除かれてよい。
【0110】
変更、追加、又は省略は、本開示の適用範囲から逸脱することなしに方法500に対して行われてよい。例えば、いくつかの実施形態において、ブロック510又は525は省略されてもよい。他の例として、ブロック515及びブロック520は省略されてもよい。更には、動作の順序は、異なる実施に従って様々であってよい。
【0111】
当業者に明らかなように、ここで開示されるフロー200、方法400、方法500並びに他のプロセス及び方法に関して、プロセス及び方法において実行される機能は、別の順序で実施されてもよい。更に、説明されているステップ及び動作は、単に例として与えられており、ステップ及び動作の一部は、開示されている実施形態の本質から逸脱することなしに、任意であっても、より少ないステップ及び動作にまとめられても、又は更なるステップへと広げられてもよい。
【0112】
ここで記載される実施形態は、以下で更に詳細に説明されるように、様々なコンピュータハードウェア又はソフトウェアモジュールを含む特別目的又は汎用のコンピュータの使用を含んでよい。
【0113】
ここで記載される実施形態は、コンピュータ実行可能命令又はデータ構造を運ぶか又は記憶しているコンピュータ可読媒体を用いて、実装されてもよい。そのようなコンピュータ可読媒体は、汎用又は特別目的のコンピュータによってアクセスされ得る如何なる利用可能な媒体であってもよい。例として、制限なしに、そのようなコンピュータ可読媒体は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、電気的消去可能なプログラム可能リードオンリーメモリ(EEPROM)、コンパクトディスク型リードオンリーメモリ(CD-ROM)若しくは他の光ディスクストレージ、磁気ディスクストレージ若しくは他の磁気記憶デバイス、フラッシュメモリデバイス(例えば、固体状態メモリデバイス)、あるいは、コンピュータ実行可能命令又はデータ構造の形で所望のプログラムコードを携行又は記憶するために使用され得且つ汎用又は特別目的のコンピュータによってアクセスされ得る如何なる他の記憶媒体も含む非一時的なコンピュータ可読記憶媒体を含んでよい。そのような及び他の実施形態において、本明細書で説明される語“一時的な”は、In re Nuijten, 500 F.3d 1346のFederal Circuit判決(Fed. Cir. 2007)において特許可能な対象の適用範囲外にあると認められたような一時的な媒体のみを除くと解釈されるべきである。先に挙げられたものの組み合わせも、コンピュータ可読媒体の適用範囲内に含まれてよい。
【0114】
コンピュータ実行可能命令は、例えば、汎用のコンピュータ、特別目的のコンピュータ、又は特別目的のプロセッシングデバイス(例えば、1つ以上のプロセッサ)に特定の機能又は機能群を実行させる命令及びデータを含む。構造的な特徴及び/又は方法論的な動作に特有の言語で対象が記載されてきたが、添付の特許請求の範囲で定義されている対象は、必ずしも、上記の具体的な特徴又は動作に制限されないことが理解されるべきである。むしろ、上記の具体的な特徴又は動作は、特許請求の範囲を実施する形態の例として開示されている。
【0115】
ここで使用されるように、語“モジュール”又は“コンポーネント”は、モジュール若しくはコンポーネントの動作を実行するよう構成された特定のハードウェア実施、並びに/又はコンピューティングシステムの汎用ハードウェア(例えば、コンピュータ可読媒体、プロセッシングデバイス、など)によって記憶及び/若しくは実行され得るソフトウェアオブジェクト若しくはソフトウェアルーチンを指し得る。いくつかの実施形態において、ここで記載される種々のコンポーネント、モジュール、エンジン、及びサービスは、コンピューティングシステムで(例えば、別個のスレッドとして)実行するオブジェクト又はプロセスとして実装されてもよい。
【0116】
ここで記載されるシステム及び方法の一部は、概して、(汎用ハードウェアによって記憶及び/又は実行される)ソフトウェアにおいて実装されるものとして記載されているが、特定のハードウェア実施、又はソフトウェア及び特定のハードウェア実施の組み合わせも可能であり、考えられている。本明細書において、“コンピューティングエンティティ”は、ここで以前に定義されたあらゆるコンピューティングシステム、又はコンピューティングシステムで実行されるあらゆるモジュール若しくはモジュールの組み合わせであってよい。
【0117】
ここで、特に添付の特許請求の範囲(例えば、添付の特許請求の本文)で使用される語は、一般的に、“非限定的な(open)”用語として意図されている(例えば、語「含んでいる(including)」は、“~を含んでいるが、~に制限されない”との意に解釈されるべきであり、語「備えている(having)」は、「少なくとも~を備えている」との意に解釈されるべきであり、語「含む(includes)」は、“~を含むが、~に制限されない”との意に解釈されるべきである、など。)。
【0118】
加えて、導入されたクレーム記載(introduced claim recitation)において特定の数が意図される場合、そのような意図は当該クレーム中に明確に記載され、そのような記載がない場合は、そのような意図も存在しない。例えば、理解を促すために、後続の添付された特許請求の範囲では、「少なくとも1つの(at least one)」及び「1つ以上の(one or more)」といった導入句を使用し、クレーム記載を導入することがある。しかし、このような句を使用するからといって、「a」又は「an」といった不定冠詞によりクレーム記載を導入した場合に、たとえ同一のクレーム内に、「1つ以上の」又は「少なくとも1つの」といった導入句と「a」又は「an」といった不定冠詞との両方が含まれるとしても、当該導入されたクレーム記載を含む特定のクレームが、当該記載事項を1しか含まない例に限定されるということが示唆されると解釈されるべきではない(例えば、「a」及び/又は「an」は、「少なくとも1つの」又は「1つ以上の」を意味すると解釈されるべきである。)。定冠詞を使用してクレーム記載を導入する場合にも同様のことが当てはまる。
【0119】
更には、導入されたクレーム記載において特定の数が明示されている場合であっても、そのような記載は、通常、少なくとも記載された数を意味するように解釈されるべきであることは、当業者には理解されるであろう(例えば、他に修飾語のない、単なる「2つの記載事項」という記載がある場合、この記載は、少なくとも2つの記載事項、又は2つ以上の記載事項を意味する。)。更に、「A、B及びCなどのうち少なくとも1つ」又は「A、B及びCなどのうちの1つ以上」に類する表記が使用される場合、一般的に、そのような構造は、Aのみ、Bのみ、Cのみ、AとBの両方、AとCの両方、BとCの両方、及び/又はAとBとCの全て、などを含むよう意図される。例えば、語「及び/又は(and/or)」の使用は、このように解釈されるよう意図される。
【0120】
更に、2つ以上の選択可能な用語を表す如何なる離接語及び/又は離接句も、明細書、特許請求の範囲、又は図面のいずれであろうと、それら用語のうちの1つ、それらの用語のうちのいずれか、あるいは、それらの用語の両方を含む可能性を意図すると理解されるべきである。例えば、「A又はB」という句は、「A又はB」、あるいは、「A及びB」の可能性を含むことが理解されるべきである。
【0121】
加えて、語「第1(first)」、「第2(second)」、「第3(third)」などの使用は、要素の特定の順序又は数を示すために本願で必ずしも使用されているわけではない。一般に、語「第1」、「第2」、「第3」などは、異なる要素どうしを総称的な識別子として区別するために使用される。語「第1」、「第2」、「第3」などが特定の順序を示すとの明示がない限りは、それらの語が特定の順序を示すと理解されるべきではない。更には、語「第1」、「第2」、「第3」などが要素の特定の数を示すとの明示がない限りは、それらの語が要素の特定の数を示すと理解されるべきではない。例えば、第1のウィジェットは、第1の側面を有するものとして記載されることがあり、第2のウィジェットは、第2の側面を有するものとして記載されることがある。第2のウィジェットに対する語「第2の側面」の使用は、第2のウィジェットのその側面を第1のウィジェットの「第1の側面」と区別するためであって、第2のウィジェットが2つの側面を有していることを示すためではない。
【0122】
ここで挙げられている全ての例及び条件付き言語は、当該技術の促進に本発明者によって寄与される概念及び本発明を読者が理解するのを助ける教育上の目的を意図され、そのような具体的に挙げられている例及び条件に制限されないと解釈されるべきである。本開示の実施形態が詳細に記載されてきたが、様々な変更、置換、及び代替が、本開示の主旨及び適用範囲から逸脱することなしに行われてよい。
【0123】
上記の実施形態に加えて、以下の付記を開示する。
(付記1)
複数の記録を含み、該複数の記録の夫々が複数のカテゴリにおける値を含み、該複数のカテゴリのうちの1つが対象カテゴリであるデータセットを取得することと、
対象基準のインジケーションを取得することであり、前記複数の記録のうちの第1組の記録が、前記対象基準を満足する前記対象カテゴリの第1対象値を夫々含む、前記取得することと、
前記複数の記録の前記複数のカテゴリの前記値と前記対象基準との間の関係を表す第1決定木モデルを、前記データセットを用いて取得することと、
前記第1決定木モデルに基づき、且つ、順位付けされたカテゴリの値と前記対象基準との間の関係に基づき、前記複数のカテゴリを順位付けすることと、
下位のカテゴリの順位付けに基づき、前記データセットの前記複数の記録から、1つ以上の前記下位のカテゴリを除くことと、
ルートノード、複数のリーフノード、及び複数のブランチノードを含み、該複数のブランチノードの夫々が前記複数のカテゴリのうちの1つのカテゴリのブランチ基準を表し、前記複数のブランチノードの夫々についての前記ブランチ基準が、前記対象基準を満足する前記第1対象値と、前記ブランチ基準を満足する前記複数のカテゴリのうちの前記1つのカテゴリの値との間の関係に基づき選択される第2決定木モデルを、前記下位のカテゴリが前記データセットから除かれた状態で該データセットを用いて生成することと、
前記複数のブランチノードのうちのあるブランチノードをプルーニングすることであり、該プルーニングされるブランチノードは、該プルーニングされるブランチノードに関連した前記データセットの第2組の記録が、前記対象基準を満足する前記第1対象値を含む前記第1組の記録の中の記録よりも、前記対象基準を満足しない第2対象値を含む記録を多く含むことに基づき、プルーニングのために選択される、前記プルーニングすることと、
残りのブランチノードのうちの少なくとも1つをルールノードとして指定することと、
前記ルールノードのブランチ基準に基づきルールを生成することと、
グラフィカルユーザインターフェイスにおいてディスプレイ上で前記ルールを提示することと
を有する方法。
(付記2)
前記グラフィカルユーザインターフェイスにおいて前記ディスプレイ上で前記データセットの前記複数のカテゴリを提示することと、
あるカテゴリのインジケーションを前記グラフィカルユーザインターフェイスから受けることと、
当該カテゴリを前記データセットの記録から除くことと
を更に有する付記1に記載の方法。
(付記3)
当該方法は、選択されたカテゴリの値と対象値との間の関係に基づき、前記データセットの前記選択されたカテゴリの値の視覚表現を前記グラフィカルユーザインターフェイスにおいて前記ディスプレイ上で提示することを更に有する、
付記1に記載の方法。
(付記4)
前記対象基準を満足する前記第1対象値を含む前記第1組の記録の中の記録よりも、前記対象基準を満足しない第3対象値を含む記録を多く含む前記複数のブランチノード及び前記複数のリーフノードに関連した記録のサブセットを含む前記複数のブランチノード及び前記複数のリーフノードを含むノードのリストを生成することと、
第1子ノードが前記ノードのリストにおいて第1親ノードを有することに基づき、該第1子ノードを前記ノードのリストから除くことと、
前記ノードのリストから第2子ノードを除くことと、
前記第2子ノードの親ノードである第2親ノードを前記ノードのリストに加えることと
を更に有する付記1に記載の方法。
(付記5)
前記ルールは、前記ルールノードの親ノードに基づく前提条件と、前記ルールノードの前記ブランチ基準に基づく事後条件とを含む、
付記1に記載の方法。
(付記6)
当該方法は、
前記対象基準を満足する前記対象カテゴリの値を有する記録の第1パーセンテージのインジケーションを前記グラフィカルユーザインターフェイスから受けることと、
前記対象基準を満足する記録の第2パーセンテージを有する第2組の記録を前記データセットから選択することであり、前記第2パーセンテージは、前記第1パーセンテージの閾距離内にある、前記選択することと、
前記第2組の記録の1つ以上の値を前記グラフィカルユーザインターフェイスにおいて前記ディスプレイ上で提示することと
を更に有する、
付記1に記載の方法。
(付記7)
当該方法は、
前記データセットに含まれていない追加記録の複数の値を受けることであり、該複数の値の夫々は、前記複数の記録のカテゴリのサブセットの中の異なるカテゴリに対応し、該カテゴリのサブセットは前記対象カテゴリを含まない、前記受けることと、
前記追加記録の前記複数の記録に基づき、前記追加記録が前記対象基準を満足する第3対象値を含む可能性があるかどうかを予測することと、
前記追加記録が前記対象基準を満足する可能性があるかどうかを前記予測することの結果を前記グラフィカルユーザインターフェイスで表示することと
を更に有する、
付記1に記載の方法。
(付記8)
当該方法は、
前記追加記録の前記カテゴリのサブセットのうちの1つのカテゴリについての新しい値を前記グラフィカルユーザインターフェイスから受けることと、
前記追加記録の前記複数の値が前記新しい値を含むことに基づき、該新しい値を含む前記追加記録が、前記対象基準を満足する第4対象値を含む可能性があるかどうかを予測することと、
前記新しい値を含む前記追加記録が前記対象基準を満足する可能性があるかどうかを前記予測することの結果を前記グラフィカルユーザインターフェイスで表示することと
を更に有する、
付記7に記載の方法。
(付記9)
少なくとも1つのプロセッサによって実行される場合に、システムに付記1に記載の方法を実行させるか又は実行するよう指示する1つ以上の命令を記憶するよう構成された少なくとも1つの非一時的なコンピュータ可読媒体。
(付記10)
少なくとも1つのプロセッサによって実行される場合に、システムに、
複数の記録を含み、該複数の記録の夫々が複数のカテゴリにおける値を含み、該複数のカテゴリのうちの1つが対象カテゴリであるデータセットを取得することと、
対象基準のインジケーションを取得することであり、前記複数の記録のうちの第1組の記録が、前記対象基準を満足する前記対象カテゴリの第1対象値を夫々含む、前記取得することと、
ルートノード、複数のリーフノード、及び複数のブランチノードを含み、該複数のブランチノードの夫々が前記複数のカテゴリのうちの1つのカテゴリのブランチ基準を表し、前記複数のブランチノードの夫々についての前記ブランチ基準が、前記対象基準を満足する前記第1対象値と、前記ブランチ基準を満足する前記複数のカテゴリのうちの前記1つのカテゴリの値との間の関係に基づき選択される決定木モデルを、前記データセットを用いて生成することと、
前記複数のブランチノードのうちのあるブランチノードをプルーニングすることであり、該プルーニングされるブランチノードは、該プルーニングされるブランチノードに関連した前記データセットの第2組の記録が、前記対象基準を満足する前記第1対象値を含む前記第1組の記録の中の記録よりも、前記対象基準を満足しない第2対象値を含む記録を多く含むことに基づき、プルーニングのために選択される、前記プルーニングすることと、
残りのブランチノードのうちの少なくとも1つをルールノードとして指定することと、
前記ルールノードのブランチ基準に基づきルールを生成することと、
グラフィカルユーザインターフェイスにおいてディスプレイ上で前記ルールを提示することと
を有する動作を実行させるか又は実行するよう指示する1つ以上の命令を記憶するよう構成された少なくとも1つの非一時的なコンピュータ可読媒体。
(付記11)
前記動作は、前記決定木モデルを生成することより前に、
第2決定木モデルを、前記データセットを用いて取得することと、
前記第2決定木モデルに基づき、且つ、順位付けされたカテゴリの値と前記対象基準との間の関係に基づき、前記複数のカテゴリを順位付けすることと、
下位のカテゴリの順位付けに基づき、前記データセットの前記複数の記録から、1つ以上の前記下位のカテゴリを除くことと
を更に有し、
前記決定木モデルを、前記データセットを用いて生成することは、前記下位のカテゴリが前記データセットから除かれた状態で該データセットに基づく、
付記10に記載の非一時的なコンピュータ可読媒体。
(付記12)
前記動作は、
前記グラフィカルユーザインターフェイスにおいて前記ディスプレイ上で前記データセットの前記複数のカテゴリを提示することと、
あるカテゴリのインジケーションを前記グラフィカルユーザインターフェイスから受けることと、
当該カテゴリを前記データセットの記録から除くことと
を更に有する、
付記10に記載の非一時的なコンピュータ可読媒体。
(付記13)
前記動作は、選択されたカテゴリの値と対象値との間の関係に基づき、前記データセットの前記選択されたカテゴリの値の視覚表現を前記グラフィカルユーザインターフェイスにおいて前記ディスプレイ上で提示することを更に有する、
付記10に記載の非一時的なコンピュータ可読媒体。
(付記14)
前記動作は、
前記対象基準を満足する前記第1対象値を含む前記第1組の記録の中の記録よりも、前記対象基準を満足しない第3対象値を含む記録を多く含む前記複数のブランチノード及び前記複数のリーフノードに関連した記録のサブセットを含む前記複数のブランチノード及び前記複数のリーフノードを含むノードのリストを生成することと、
第1子ノードが前記ノードのリストにおいて第1親ノードを有することに基づき、該第1子ノードを前記ノードのリストから除くことと、
前記ノードのリストから第2子ノードを除くことと、
前記第2子ノードの親ノードである第2親ノードを前記ノードのリストに加えることと
を更に有する、
付記10に記載の非一時的なコンピュータ可読媒体。
(付記15)
前記ルールは、前記ルールノードの親ノードに基づく前提条件と、前記ルールノードの前記ブランチ基準に基づく事後条件とを含む、
付記10に記載の非一時的なコンピュータ可読媒体。
(付記16)
前記動作は、
前記対象基準を満足する前記対象カテゴリの値を有する記録の第1パーセンテージのインジケーションを前記グラフィカルユーザインターフェイスから受けることと、
前記対象基準を満足する記録の第2パーセンテージを有する第2組の記録を前記データセットから選択することであり、前記第2パーセンテージは、前記第1パーセンテージの閾距離内にある、前記選択することと、
前記第2組の記録の1つ以上の値を前記グラフィカルユーザインターフェイスにおいて前記ディスプレイ上で提示することと
を更に有する、
付記10に記載の非一時的なコンピュータ可読媒体。
(付記17)
前記動作は、
前記データセットに含まれていない追加記録の複数の値を受けることであり、該複数の値の夫々は、前記複数の記録のカテゴリのサブセットの中の異なるカテゴリに対応し、該カテゴリのサブセットは前記対象カテゴリを含まない、前記受けることと、
前記追加記録の前記複数の記録に基づき、前記追加記録が前記対象基準を満足する第3対象値を含む可能性があるかどうかを予測することと、
前記追加記録が前記対象基準を満足する可能性があるかどうかを前記予測することの結果を前記グラフィカルユーザインターフェイスで表示することと
を更に有する、
付記10に記載の非一時的なコンピュータ可読媒体。
(付記18)
前記動作は、
前記追加記録の前記カテゴリのサブセットのうちの1つのカテゴリについての新しい値を前記グラフィカルユーザインターフェイスから受けることと、
前記追加記録の前記複数の値が前記新しい値を含むことに基づき、前記新しい値を含む前記追加記録が、前記対象基準を満足する第4対象値を含む可能性があるかどうかを予測することと、
前記新しい値を含む前記追加記録が前記対象基準を満足する可能性があるかどうかを前記予測することの結果を前記グラフィカルユーザインターフェイスで表示することと
を更に有する、
付記17に記載の非一時的なコンピュータ可読媒体。
(付記19)
1つ以上の命令を記憶するよう構成された1つ以上のコンピュータ可読媒体と、該1つ以上のコンピュータ可読媒体へ結合された1つ以上のプロセッサとを有するシステムであって、
前記1つ以上のプロセッサは、当該システムに、
複数の記録を含み、該複数の記録の夫々が複数のカテゴリにおける値を含み、該複数のカテゴリのうちの1つが対象カテゴリであるデータセットを取得することと、
対象基準のインジケーションを取得することであり、前記複数の記録のうちの第1組の記録が、前記対象基準を満足する前記対象カテゴリの第1対象値を夫々含む、前記取得することと、
ルートノード、複数のリーフノード、及び複数のブランチノードを含み、該複数のブランチノードの夫々が前記複数のカテゴリのうちの1つのカテゴリのブランチ基準を表し、前記複数のブランチノードの夫々についての前記ブランチ基準が、前記対象基準を満足する前記第1対象値と、前記ブランチ基準を満足する前記複数のカテゴリのうちの前記1つのカテゴリの値との間の関係に基づき選択される決定木モデルを、前記データセットを用いて生成することと、
前記複数のブランチノードのうちのあるブランチノードをプルーニングすることであり、該プルーニングされるブランチノードは、該プルーニングされるブランチノードに関連した前記データセットの第2組の記録が、前記対象基準を満足する前記第1対象値を含む前記第1組の記録の中の記録よりも、前記対象基準を満足しない第2対象値を含む記録を多く含むことに基づき、プルーニングのために選択される、前記プルーニングすることと、
残りのブランチノードのうちの少なくとも1つをルールノードとして指定することと、
前記ルールノードのブランチ基準に基づきルールを生成することと、
グラフィカルユーザインターフェイスにおいてディスプレイ上で前記ルールを提示することと
を有する動作を実行させるか又は実行するよう指示するように前記1つ以上の命令を実行するよう構成される、
システム。
(付記20)
前記動作は、
前記対象基準を満足する前記第1対象値を含む前記第1組の記録の中の記録よりも、前記対象基準を満足しない第3対象値を含む記録を多く含む前記複数のブランチノード及び前記複数のリーフノードに関連した記録のサブセットを含む前記複数のブランチノード及び前記複数のリーフノードを含むノードのリストを生成することと、
第1子ノードが前記ノードのリストにおいて第1親ノードを有することに基づき、該第1子ノードを前記ノードのリストから除くことと、
前記ノードのリストから第2子ノードを除くことと、
前記第2子ノードの親ノードである第2親ノードを前記ノードのリストに加えることと
を更に有する、
付記19に記載のシステム。
【符号の説明】
【0124】
100 コンピューティングシステム
102 ユーザ
106 グラフィカルユーザインターフェイス(GUI)
108,208,270 データセット
120 機械学習システム
125 モデル
222 決定木
252 ルール
262 予測データ
272 記録
274 カテゴリ
280 決定木モデル
282 ノード
300 コンピューティングシステム