(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-19
(45)【発行日】2024-02-28
(54)【発明の名称】データセットのバイアス視覚化
(51)【国際特許分類】
G06N 20/00 20190101AFI20240220BHJP
【FI】
G06N20/00
(21)【出願番号】P 2020027929
(22)【出願日】2020-02-21
【審査請求日】2022-11-17
(32)【優先日】2019-04-26
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】スリニバサン・ラムヤ マルアー
(72)【発明者】
【氏名】チャンダー・アジャイ
【審査官】多賀 実
(56)【参考文献】
【文献】特開2018-092349(JP,A)
【文献】梅田裕平,「データの形が教えてくれること -トポロジカル・データ・アナリシスとその応用-」,情報処理,第57巻, 第11号,一般社団法人情報処理学会,2016年10月15日,pp.1122-1127,ISSN:0447-8053
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06F 18/00-18/40
(57)【特許請求の範囲】
【請求項1】
コンピュータが実行する方法であって、
解析のためのデータセットを取得することと、
候補に基づきバイアスをかけられる結果を前記データセットが含むかどうかを予測するために、潜在的なバイアスの少なくとも1の
前記候補を選択
することと、
前記候補及び前記結果に基づき、前記データセットの点群を生成することと、
機械学習により前記データセットに対して分類を実行することより前に、前記候補及び前記結果に基づき、前記点群に対してパーシステントホモロジを計算することと、
前記パーシステントホモロジに基づき、該パーシステントホモロジ内の複体の存続期間を示すパーシステンスバーコードをプロットすることと、
前記パーシステンスバーコード内で最も長いバーコードの長さを決定することと、
前記最も長いバーコードに基づく前記バイアスの定量化と、前記パーシステンスバーコードの前記プロットに基づく前記バイアスの視覚化とを生成することと
を有する方法。
【請求項2】
第2候補に基づき前記データセット内の前記結果がバイアスをかけられるかどうかを予測するために、前記データセットの
前記第2候補を選択
することと、
前記第2候補及び前記結果に基づき、前記データセットの第2点群を生成することと、
前記第2候補及び前記結果に基づき、第2の組のパーシステンスバーコードをプロットすることと、
前記第2の組のパーシステンスバーコードの中で最も長いバーコードの長さを決定することと、
前記パーシステンスバーコードの中で最も長いバーコードと、前記第2の組のパーシステンスバーコードの中で最も長いバーコードとの相対長さに基づき、前記候補と前記第2候補との間の相対バイアスを決定することとを
更に有する、請求項1に記載の方法。
【請求項3】
前記バイアスの前記定量化を生成することは、前記パーシステンスバーコードの組及び前記第2の組のパーシステンスバーコードが同じであるとの仮説においてパーミュテーションテストを実行することを含む、
請求項2に記載の方法。
【請求項4】
前記パーシステントホモロジを計算することは、
前記点群内の点が接続されるべきである半径を段階的に増大させることと、
複体の各特徴ごとの、当該特徴が現れる場合の生成半径、及び当該特徴が姿を消す場合の消滅半径を格納することと
によって、Rips複体を生成することを有し、
前記パーシステンスバーコードは、前記生成半径と前記消滅半径との間のインターバルを表す、
請求項1に記載の方法。
【請求項5】
前記点群内の前記半径の段階的な増大の進行の視覚アニメーションを生成することを更に有する、
請求項4に記載の方法。
【請求項6】
前記結果に対する前記候補のバイアスの定量化に基づき機械学習のためのモデルを訓練することを更に有し、該訓練することは、前記バイアスの前記定量化がない場合よりも素早く行われる、
請求項1に記載の方法。
【請求項7】
前記最も長いバーコードは、次元0の特徴に基づき、対応するクラスタを示す、
請求項1に記載の方法。
【請求項8】
前記最も長いバーコードは、次元1の特徴に基づき、対応するホールを示す、
請求項1に記載の方法。
【請求項9】
前記最も長いバーコードは、次元2の特徴に基づき、対応するキャビティを示す、
請求項1に記載の方法。
【請求項10】
命令を含む非一時的なコンピュータ可読媒体であって、
前記命令は、1以上のプロセッサによって実行される場合に、
解析のためのデータセットを取得することと、
候補に基づきバイアスをかけられる結果を前記データセットが含むかどうかを予測するために、潜在的なバイアスの少なくとも1の
前記候補を選択
することと、
前記候補及び前記結果に基づき、前記データセットの点群を生成することと、
機械学習により前記データセットに対して分類を実行することより前に、前記候補及び前記結果に基づき、前記点群に対してパーシステントホモロジを計算することと、
前記パーシステントホモロジに基づき、該パーシステントホモロジ内の複体の存続期間を示すパーシステンスバーコードをプロットすることと、
前記パーシステンスバーコード内で最も長いバーコードの長さを決定することと、
前記最も長いバーコードに基づく前記バイアスの定量化と、前記パーシステンスバーコードの前記プロットに基づく前記バイアスの視覚化とを生成することと
を有する動作を実行するよう構成される、前記コンピュータ可読媒体。
【請求項11】
前記動作は、
第2候補に基づき前記データセット内の前記結果がバイアスをかけられるかどうかを予測するために、前記データセットの
前記第2候補を選択
することと、
前記第2候補及び前記結果に基づき、前記データセットの第2点群を生成することと、
前記第2候補及び前記結果に基づき、第2の組のパーシステンスバーコードをプロットすることと、
前記第2の組のパーシステンスバーコードの中で最も長いバーコードの長さを決定することと、
前記パーシステンスバーコードの中で最も長いバーコードと、前記第2の組のパーシステンスバーコードの中で最も長いバーコードとの相対長さに基づき、前記候補と前記第2候補との間の相対バイアスを決定することとを
更に有する、請求項10に記載のコンピュータ可読媒体。
【請求項12】
前記バイアスの前記定量化を生成することは、前記パーシステンスバーコードの組及び前記第2の組のパーシステンスバーコードが同じであるとの仮説においてパーミュテーションテストを実行することを含む、
請求項11に記載のコンピュータ可読媒体。
【請求項13】
前記パーシステントホモロジを計算することは、
前記点群内の点が接続されるべきである半径を段階的に増大させることと、
複体の各特徴ごとの、当該特徴が現れる場合の生成半径、及び当該特徴が姿を消す場合の消滅半径と格納することと
によって、Rips複体を生成することを有し、
前記パーシステンスバーコードは、前記生成半径と前記消滅半径との間のインターバルを表す、
請求項10に記載のコンピュータ可読媒体。
【請求項14】
前記動作は、前記点群内の前記半径の段階的な増大の進行の視覚アニメーションを生成することを更に有する、
請求項13に記載のコンピュータ可読媒体。
【請求項15】
前記動作は、前記結果に対する前記候補のバイアスの定量化に基づき機械学習のためのモデルを訓練することを更に有し、該訓練することは、前記バイアスの前記定量化がない場合よりも素早く行われる、
請求項10に記載のコンピュータ可読媒体。
【請求項16】
前記最も長いバーコードは、次元0の特徴に基づき、対応するクラスタを示す、
請求項10に記載のコンピュータ可読媒体。
【請求項17】
前記最も長いバーコードは、次元1の特徴に基づき、対応するホールを示す、
請求項10に記載のコンピュータ可読媒体。
【請求項18】
前記最も長いバーコードは、次元2の特徴に基づき、対応するキャビティを示す、
請求項10に記載のコンピュータ可読媒体。
【請求項19】
1以上のプロセッサと、
前記1以上のプロセッサと通信する表示デバイスと、
命令を含む1以上の非一時的なコンピュータ可読媒体と
を有するシステムであって、
前記命令は、前記1以上のプロセッサによって実行される場合に、当該システムに、
解析のためのデータセットを取得することと、
候補に基づきバイアスをかけられる結果を前記データセットが含むかどうかを予測するために、潜在的なバイアスの少なくとも1の
前記候補を選択
することと、
前記候補及び前記結果に基づき、前記データセットの点群を生成することと、
機械学習により前記データセットに対して分類を実行することより前に、前記候補及び前記結果に基づき、前記点群に対してパーシステントホモロジを計算することと、
前記パーシステントホモロジに基づき、該パーシステントホモロジ内の複体の存続期間を示すパーシステンスバーコードをプロットすることと、
前記パーシステンスバーコード内で最も長いバーコードの長さを決定することと、
前記最も長いバーコードに基づく前記バイアスの定量化と、前記パーシステンスバーコードの前記プロットに基づく前記バイアスの視覚化とを生成することと、
前記バイアスの前記定量化及び前記バイアスの前記視覚化を前記表示デバイスへ出力することと
を有する動作を実行させる、前記システム。
【請求項20】
前記パーシステントホモロジを計算することは、
前記点群内の点が接続されるべきである半径を段階的に増大させることと、
複体の各特徴ごとの、当該特徴が現れる場合の生成半径、及び当該特徴が姿を消す場合の消滅半径と格納することと
によって、Rips複体を生成することを有し、
前記パーシステンスバーコードは、前記生成半径と前記消滅半径との間のインターバルを表し、
前記動作は、
前記点群内の前記半径の段階的な増大の進行の視覚アニメーションを生成することと、
前記表示デバイスにより前記視覚アニメーションを出力することと
を更に有する、
請求項19に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の実施形態は、データセットのバイアスの決定及び/又は視覚化に関係がある。
【背景技術】
【0002】
機械学習システムは、データセットを解析し、様々な結果及び/又はそれらの結果に関連した変数の間の相関を特定し得る。しかし、そのようなデータセットは、機械学習がデータセットに適用される場合に考慮されるべきデータのバイアスを含むことがある。
【発明の概要】
【0003】
本開示の1以上の実施形態は、解析のためのデータセットを取得することと、潜在的なバイアスの少なくとも1の候補を選択し、該候補に基づき、バイアスをかけられる結果を前記データセットが含むかどうかを予測することとを含んでよい。方法はまた、前記候補及び前記結果に基づき、前記データセットの点群を生成することを含んでよい。方法は更に、機械学習により前記データセットに対して分類を実行することより前に、前記候補及び前記結果に基づき、前記点群に対してパーシステントホモロジを計算することを含んでよい。方法はまた、前記パーシステントホモロジに基づき、該パーシステントホモロジ内の複体の存続期間を示し得るパーシステンスバーコードをプロットすることと、前記パーシステンスバーコード内で最も長いバーコードの長さを決定することと、前記最も長いバーコードに基づく前記バイアスの定量化及び前記パーシステンスバーコードの前記プロットに基づく前記バイアスの視覚化を生成することとを含んでよい。
【0004】
実施形態の目的及び利点は、少なくとも、特許請求の範囲で特に指し示されている要素、特徴、及び組み合わせによって、実現及び達成される。
【0005】
上記の概要及び下記の詳細な説明はいずれも、単に例及び説明にすぎず、限定でない点が理解されるべきである。
【0006】
例となる実施形態が、添付の図面の使用を通じて、更なる特定及び詳細をもって記載及び説明される。
【図面の簡単な説明】
【0007】
【
図1】データセット内のバイアスを決定及び/又は視覚化するために使用され得るシステムを例示する図である。
【
図2A】データセット内のバイアスを決定及び/又は視覚化することに関連した様々な単体複体及び/又はバーコードとともに点群を例示する図である。
【
図2B】データセット内のバイアスを決定及び/又は視覚化することに関連した様々な単体複体及び/又はバーコードとともに点群を例示する図である。
【
図2C】データセット内のバイアスを決定及び/又は視覚化することに関連した様々な単体複体及び/又はバーコードとともに点群を例示する図である。
【
図2D】データセット内のバイアスを決定及び/又は視覚化することに関連した様々な単体複体及び/又はバーコードとともに点群を例示する図である。
【
図3A】データセット内のバイアスを決定及び/又は視覚化することを助けるプロットされたパーシステンスバーコードの例を表す。
【
図3B】データセット内のバイアスを決定及び/又は視覚化することを助けるプロットされたパーシステンスバーコードの例を表す。
【
図4】データセット内のバイアスの決定及び/又は視覚化を助ける方法の例のフローチャートを例示する。
【
図5】データセット内のバイアスの決定及び/又は視覚化を助ける方法の他の例のフローチャートを例示する。
【
図6】データセット内のバイアスの決定及び/又は視覚化を助けるようRips複体を生成する方法の例のフローチャートを例示する。
【
図7】例となるコンピューティングシステムを表す。
【発明を実施するための形態】
【0008】
本開示は、機械学習システムを訓練するためにデータセットが使用される前の、及び/又はデータセットに対して機械学習システムが他の処理を実行する前の、そのデータセット内のバイアスの決定及び定量化に関係がある。それらの他のタスクより前にバイアスを機械学習システムに与えることによって、機械学習システムは、より効率的に動作することができる。
【0009】
バイアスを決定するために、バイアス予測器は、データセット内の結果にバイアスをかけるかもしれないデータセット内の候補を利用してよい(例えば、債務の履行を怠った人々をデータセットが含んでいる場合に、年齢は、人が自身の債務の履行を怠ったか否かにバイアスをかけるかもしれない。)。候補及び結果に基づき、バイアス予測器は、パーシステントホモロジが実行され得る点群(point cloud)を生成してよい。例えば、段階的に半径を増大させることによって、点群に対してろ過(filtration)プロセスが実行されてよい。2つの点が、互いの増大された半径内にある場合に、2つの点の間にエッジが引かれてよい。エッジが引かれると、エッジは単体(simplexes)(例えば、三角形、四面体、又はそれらのより高次の対応物)を形成してよく、そして、単体どうしが一緒になって単体複体(simplicial complexes)(例えば、複体における夫々の交差エッジ、面、又は点が2つの隣接する単体の間で完全に共有される単体の組み合わせ)を形成してよい。半径が増大するにつれて、それらの単体複体は、ホール(holes)又はキャビティ(cavities)のような点群内の特徴を形成し得る。これらの特徴の存続期間は、特徴の生成半径(birth radius)で(例えば、ホールが最初に形成する場合に)始まり、そして特徴の消滅半径(death radius)で(例えば、ホールが単体で満たされる場合に)終わるバーコードを用いて、特定され得る。点群内の全ての潜在的なエッジをカバーするように半径が増大された後に、バーコードがプロットされ、最も長いバーコードが決定され得る。最も長いバーコードを使用して、データセット内でその候補についてバイアスが存在するか否かが判定され得る。
【0010】
候補に対するバイアスの決定を助けるために、最も長いバーコードは、その候補についての他のバーコードと比較されてよい。追加的に、又は代替的に、1つの候補についての最も長いバーコード及び/又はバーコードの分布は、別の候補についての他のバーコードと比較されてもよい。最も長いバーコード及び/又はバーコードの組が有意に異なっている場合には、候補はバイアスを課す可能性がある。本明細書で使用されるように、語「バイアス」は、データセット内の結果に不均等に重み付けするかもしれない寄与因子を含み得る。例えば、データセット内の結果が、借り手が自身の債務の履行を怠ったか否かであった場合に、性別、年齢、又はジップコードは全て、借り手が履行を怠ったか否かの結果にバイアスを導入する可能性がある因子であり得る。
【0011】
1以上の例となる実施形態が、添付の図面を参照して説明される。
【0012】
図1は、本開示の1以上の実施形態に従って、データセット内のバイアスを決定及び/又は視覚化するために使用され得るシステム100を例示する図である。システム100は、バイアス予測器110を含んでよい。バイアス予測器110は、1以上のデータセット120(単称形でデータセット120と呼ばれてもよい。)及び/又はユーザ130からの他のユーザ入力を入力として使用してよい。バイアス予測器110は、与えられたデータセット内にバイアスがあるか否かを決定してよい。バイアス予測器110は、表示140を生成してよい。表示140は、バイアスの視覚化及び/又はバイアスの定量化を含んでよい。いくつかの実施形態で、決定は、機械学習システム150へ供給されてよく、機械学習システム150の訓練は、バイアスに関する決定に基づき促進される。
【0013】
動作中、バイアス予測器110は、データセット120を取得して、データセット120にバイアスが存在するか否かがを決定してよい。バイアスが存在するか否かの決定は、機械学習システム150によって分類を実行することより前に実行されてよく、あるいは、言い換えれば、バイアスがデータセット120において存在するか否かを決定するために前処理動作として実行されてよい。
【0014】
データセット120は、任意数の要素を含んでよく、各要素は、要素及びその要素の結果について記載する任意数の因子を含んでよい。例えば、データセット120は、貸付返済不能データセットを含んでよく、各要素は、複数の因子(例えば、個人のクレジット記録、貯金、当座預金ステータス、資産、住宅、職業、年齢、性別、住居のジップコード、収入に対する債務の割合、など)及び結果(例えば、債務の履行を怠った)を含む。因子のいずれかが候補として使用され、その特定の候補が結果にバイアスをかけるかどうか(例えば、その人の性別、年齢などが、債務の履行を怠ったか否かに対してバイアスを課すか)が判定され得る。データセット120は、求職者及び与えられた職業、車両停止及び発行された違反通知、顧客サービス通話及び発行された払い戻し、山火事及びそれらが起きた地域、などのような、バイアスをかけられる可能性がある因子とともに、任意の結果を含んでよい。例が与えられてきたが、本開示は、結果と、その結果に寄与し及び/又はバイアスをかける可能性がある因子とを含む如何なるデータセットにも適用可能である。
【0015】
いくつかの実施形態で、バイアス予測器110は、バイアスの候補を、候補のバイアスによって影響を及ぼされるかもしれない結果とともに取得してよい。候補及び結果を用いて、データセットの点群がバイアス予測器110によって生成され得る。例えば、点群は、(x,y)の形で座標によりユークリッド(Euclidian)空間を含んでよく、点群内の点について、候補をx値として、結果をy値として有している。
【0016】
いくつかの実施形態で、候補は、自動的に選択されてよい(例えば、バイアス予測器110は、特定の潜在的な候補、全ての潜在的な候補、などを巡回してよい。)。追加的に、又は代替的に、ユーザ130が、解析及び/又は他の候補との比較のために1以上の候補を選択してもよい。例えば、ユーザ130は、一対の候補の相対バイアスに関する仮説を提起してよい。
【0017】
バイアス予測器110は、候補及び結果に基づき生成された点群を使用して、データセット120に対してパーシステントホモロジ(persistence homology)を実行してよい。例えば、データセット120の点群は、点群の2つの点が半径内にある場合にエッジによって結合され得るその半径を漸進的に(段階的に)増大させることによって解析され得る。半径を増大させ、そして結果を観測するそのようなプロセスは、ろ過プロセスと呼ばれ得る。エッジに基づき、エッジによって生成される単体複体が観測及びモニタされる。半径が増大するにつれて、エッジの数は増え、単体複体の数は増える。別の言い方をすれば、半径の段階的な増大ごとにRips複体が形成され、そして、漸進的なRips複体がモニタされる。単体複体が形成されるにつれて、単体複体の組み合わせは、クラスタ(clusters)、ホール(holes)、キャビティ(cavities)、ギャップ(gaps)などのような、点群で観測され得る様々な特徴を形成する。これら及び他の実施形態で、夫々の所与の特徴についての生成半径及び消滅半径がバイアス予測器110によって格納される。生成半径は、特徴が最初に現れた半径に対応し、消滅半径は、特徴が姿を消した半径に対応する。夫々の個々の生成半径及び消滅半径は、パーシステンスバーコード(persistence barcode)に対応し得る。パーシステンスバーコードは、生成半径と消滅半径との間の差、例えば、半径の長さの変化に基づき特徴がどれくらい長く存続したか、を表し得る。パーシステンスバーコードの組み合わせは、特徴の相対的な存続期間の理解を助けるように、且つ、バイアスを視覚化するように、互いに対してプロットされてよい。
【0018】
いくつかの実施形態で、単体複体によって形成される特徴は、データセット及び実行される解析に応じて、次元が様々であり得る。例えば、所与の特徴の次元はゼロ(0)であってよく、データ点のクラスタに対応し得る。他の例として、所与の特徴の次元は1であってよく、データ点におけるホールに対応し得る。更なる例として、所与の特徴の次元は2であってよく、データ点におけるキャビティに対応し得る。
【0019】
記載されたバーコードを用いて、バイアス予測器110は、候補がデータセット120においてバイアスを引き起こすか否かを決定してよい。例えば、最も長いバーコードは、特定の特徴がどれくらい長く存続したかに対応し得る。特徴が長期間存続した(例えば、半径に対する多数の段階的な増大を通じて残存していた)場合に、その特徴はバイアスに対応する可能性が高い。対照的に、最も長いバーコードが比較的短い場合には、データセット120においてバイアスが存在する可能性は低い。
【0020】
パーシステントホモロジを使用するそのようなアプローチの使用の例は、
図2A~2Dを参照して記載され得る。
【0021】
いくつかの実施形態で、第1候補を使用するデータセット120の第1点群のバーコードは、第2候補を使用するデータセット120の第2点群のバーコードと比較されてよい。2つの候補に基づく最も長いバーコードの相対長さを比較することによって、2つの候補の間のバイアスの相対尤度が決定され得る。例えば、仮説が正しいか否かを決定するために、仮説に対してパーミュテーションテスト(permutation test)が実行されてよい。そのような仮説は、第1候補及び第2候補がバイアスに対して等しい効果を有する(例えば、第1候補及び第2候補が最も長いバーコードについて近似的に同じ長さを有する)との帰無仮説(null hypothesis)と、第1候補及び第2候補が同等でない量のバイアスを有するとの対立仮説(alternate hypothesis)とを含んでよく、パーミュテーションテストの結果は、どの仮説(例えば、帰無仮説又は対立仮説)が誤っており拒絶されるべきであるかを明らかにする。
【0022】
相対的なバーコード長さの比較の例は、
図3A及び3Bを参照して記載され得る。
【0023】
バイアス予測器110によるバイアスの決定に基づき、バイアス予測器110は、多数の方法で結果を利用及び/又は分配してよい。いくつかの実施形態で、バイアス予測器110は、バイアスの描写を含む表示140を生成してよい。例えば、表示140は、特定の候補がデータセット120においてバイアスを引き起こすか否かに対する2進解答(例えば、「はい」又は「いいえ」)を含んでよい。他の例として、表示140は、候補の1つ以上に基づく点群の1つ以上についてのバーコードのプロットを含んでもよい。更なる例として、表示140は、検定される仮説が真又は偽と判断されたか否かの記述を含んでもよく、仮説が真である否かの数値定量化(例えば、パーミュテーションテストのp値)を含んでもよい。
【0024】
いくつかの実施形態で、バイアス予測器110は、候補についてのバイアスの決定を機械学習システム150へ供給してよい。機械学習システム150は、バイアスを考慮し及び/又はバイアスに働くようにデータセット120に対して機械学習システム150を訓練するために、バイアス情報を利用してよい。追加的に、又は代替的に、機械学習システム150は、バイアス決定を組み込むデータセット120の他の処理タスク又は他の特徴付けを実行してもよい。
【0025】
これら及び他の実施形態で、機械学習システム150によってデータセット120の処理及び/又は特徴付けを実行する前のデータセット120についてのバイアスの決定は、機械学習システム150が、典型的な機械学習システム又はバイアスの決定を伴わないそれらと比較して、より効率的に作動することを可能にし得る。例えば、バイアスの決定は、機械学習システム150のより迅速な訓練を促し得る。他の例として、データセット120の処理を実行する前にバイアス情報を有することによって、機械学習システム150は、データセット120の処理と同時に又はその後でバイアスを決定することと比べて、計算時間及び処理電力がより少なくて済む。機械学習システム150による処理、特徴付け、及び/又は訓練の前にバイアスを決定することによって、機械学習システム150は、貴重な計算資源を節約し、コンピュータシステムの機能を改善し得る。更には、バイアスに寄与する因子を知ることによって、特定の因子に基づく効率的なバイアス緩和アルゴリズムが設計され得る。例えば、性別に比べて年齢の方がバイアスに寄与すると決定された場合に、機械学習アルゴリズムは、性別に比べて緩和のために年齢をより重視するよう設計されてよく、それによって、アルゴリズムの性能は改善される。このように、データセット120内のバイアスに関して取得された情報は、機械学習システム150の優れた精度に寄与するバイアス緩和機械学習アルゴリズムの設計において情報を提供するのに役立ち得る。
【0026】
本開示の範囲から逸脱することなしに、システム100に対して変更、追加、又は削除が行われてよい。例えば、記載される様態での種々の要素の指示は、本明細書で記載される概念を説明するのを助けるよう意図されており、限定ではない。更に、システム100は、任意数の他の要素を含んでよく、あるいは、記載されている以外の他のシステム又はコンテクスト内で実施されてもよい。
【0027】
図2A~2Dは、本開示の1以上の実施形態に従って、データセット内のバイアスを決定及び/又は視覚化することに関連した様々な単体複体及び/又はバーコードを含む点群の例を表す。
図2A~2Dは、単体複体の組み合わせによって生成されるホール、キャビティ、などのような特徴の漸進的な生成及び消滅を観察するために、半径の増大の進行を表す。特定のスナップショットが
図2A~2Dでは与えられているが、半径の変化は小さく、段階的に実行されてよく、
図2A~2Dは、単に、そのようなプロセスにわたって様々な点のスナップショットを提供し得る。更には、
図2A~2Dは、ダイヤグラム200a~200dで表されている点群に関連したパーシステンスバーコードのプロット250a~250dを表す。
【0028】
図2Aに表されるように、ダイヤグラム200aは、点210から成る点群を含む。点210は、データセット内の潜在的なバイアスの候補と、バイアスによって影響を及ぼされ得る結果とのプロットであってよい。例えば、結果はクレジットスコアを含んでよく、候補は年齢を含んでよく、そのような例で、点群は、例えば、フォーム(候補,結果)の(x,y)候補対の組によって、年齢対クレジットスコアのプロットであってよい。プロット250aは、現在の半径255が0単位であることを表し、そのようなものとして、特徴又は単体複体は観測されない。
【0029】
図2Bに表されるように、現在の半径255は、約1.3に増大されている。円220は、増大した半径を表す。円220が交わる場合に、円が交わる2つの点210の間にエッジが形成される。例えば、エッジ230は、隣接する点210に関連した2つの円220の間の重なりに基づき形成される。いくつかの状況で、一連のエッジが単体(例えば、単体232)を形成し、一連の単体が単体複体を形成し得る。いくつかの状況で、エッジ及び単体複体の組み合わせは結合して、ホールを形成する。例えば、一連のエッジはホール242a及び242bを形成する。
【0030】
プロット250bに表されるように、2つの特徴、すなわち、ホール242a及び242bが出現しており、これらはバーコード282a及び282bに対応する。特徴がダイヤグラム200bに依然として存在するということで、バーコード282a及び282bの長さは依然として決定されている。
【0031】
図2Cに表されるように、現在の半径255は、約2.3に段階的に増大されてよい。円220は
図2Bの円と比べて大きく、よって、更なるエッジ230及び複体が形成されている。例えば、四面体の単体234及び236が表されている。更に、
図2Bで可視的なホール242a及び242bは、単体複体により満たされており、特徴の消滅を示唆する。更には、新しい特徴であるホール242cが形成されている。
【0032】
プロット250cに表されるように、
図2Bで可視的なホール242a及び242bは、半径が約1.5に達したときに単体複体により満たされた。そのようなものとして、バーコード282a及び282bは、1.5の半径に対応する点で終了している。新しいホール242cは、半径の段階的な増大が約1.8に達したとき最初に現れ、そのようなものとして、バーコード282cは約1.8で始まり、特徴242cがダイヤグラム200cに存在し続けるときに延び続ける。
【0033】
図2Dに表されるように、現在の半径255は、約4.4に段階的に延ばされてよい。
図2Dに表されるように、ホール242cは単体複体により満たされている。これは、プロット250cにおいて約4.0でのバーコード282cの停止によって表されているように、半径が約4.0に達したときに起こっている。更なるホール、キャビティ、又は他のそのような特徴は、ダイヤグラム200dに表されている点群によって形成され得ず又は存在しないということで、
図2Dは、半径の完結した拡大を表す。
【0034】
いくつかの実施形態で、バーコード282a、282b及び282cは、長さに基づきヒストグラム又は他のバーコードプロットでプロットされてもよい。例えば、バーコードは、バーコード282c(長さは約2.2)から始まって、282b(長さは約0.4)、及び282a(長さは約0.3)の縦の順序で配置されてもよい。これら及び他の実施形態で、他のバーコード282a及び282bに対して相対的に長いバーコード282cの存在は、解析下の候補に対してデータセット内のバイアスの存在を示し得る。
【0035】
いくつかの実施形態で、
図2A~2Dに表されているもののような、半径の段階的な増大及び/又は単体複体の形成の視覚化、及び/又はバーコードの生成は、バーコード予測器によって格納され、半径の段階的な増大のアニメーションを生成するようにつなげられてよい。
【0036】
本開示の範囲から逸脱することなしに、ダイヤグラム200a~d及び/又はプロット250a~250dに対して変更、追加、又は削除が行われてよい。例えば、記載される様態での種々の要素の指示は、本明細書で記載される概念を説明するのを助けるよう意図されており、限定ではない。更に、ダイヤグラム200a~d及び/又はプロット250a~250dは、任意数の他の要素を含んでよく、あるいは、記載されている以外の他のシステム又はコンテクスト内で実施されてもよい。例えば、基礎をなす原理を説明する便宜上、表されている点は少数であるが、点群をもたらすデータセットは、数千、数百万、数十億の点を含んでよく、それにより、本明細書で記載される原理は、同様に、大規模なデータセットに適用可能である。
【0037】
図3A及び3Bは、本開示の1以上の実施形態に従って、データセット内のバイアスを決定及び/又は視覚化するのを助けるプロットされたパーシステンスバーコードの例を表す。
図3Aは、バーコード長さの間に実質的な差が存在する一対のプロット(プロット300a及び350a)を表し、
図3Bは、バーコード長さが実質的に同じようである一対のプロット(プロット300b及び350b)を表す。プロット300aは、第1候補に関連してよく、プロット350aは、第2候補に関連してよい。プロット300bは、第3候補に関連してよく、プロット350bは、第2候補に関連してよい。
【0038】
図3A及び3Bは、1000個の要素を含むデータセットを用いて実行された、例となるテストの視覚化を含んでよい。データセット内の結果は、結果として貸付返済不能を含んでよく、因子は、クレジット記録、貯金、当座預金ステータス、資産、住宅、職業、年齢、性別、などを含む20個の相異なる予測子を含んでよい。プロット300aは年齢に関連し、プロット350aは性別に関連し、一方、プロット300bは職業に関連し、プロット350bは性別に関連する。
【0039】
図3Aに表されるように、プロット300aは、半径長さ310に基づく一連のパーシステンスバーコード320aを表す。
図2A~2Dを参照して上述されたように、パーシステンスバーコードは、特定の特徴がパーシステントホモロジプロセスに存在する存続期間を表し得る。例えば、ほぼ全ての特徴は、1単位の半径の変化の場合には存在していたが、その後に、特徴は少なくなる。しかし、最も長いバーコード322aを含む2つの相当により長いパーシステンスバーコードが存在する。最も長いバーコード322aは、バーコード320aの組の他のバーコードよりも有意に長く、これは、他の全てよりも有意に長く存続した特徴があること(例えば、
図2Dに表されているバーコード282cがいかにバーコード282a及び282cよりも有意に長いか)を示す。
【0040】
いくつかの実施形態で、バーコード320aの組の他のバーコードに対するバーコード322aの長さは、プロット300aのバーコードが基づいている第1候補に対するバイアスの存在を表し得る。例えば、バーコード320aの組の平均又は中央値が取得されてよく、最も長いバーコード322aの長さは、バーコード320aの組の中央又は平均値の長さと比較されてよい。長さが有意に異なる(例えば、150%、200%、300%など)場合には、バイアスの決定が存在し得る。追加的に、又は代替的に、相対長さは、第1候補についてのバイアスの可能性の数値定量化を提供し得る。
【0041】
いくつかの実施形態で、プロット300aのバーコードは、バイアスを決定するためにプロット350aのバーコードと比較されてよい。例えば、プロット350aの最も長いバーコード372aは、プロット300aの最も長いバーコード322aと比較されてよい。最も長いバーコード322aが最も長いバーコード372aとは有意に異なる場合に、その差は、プロット300aに関連した第1候補が、プロット350aに関連した第2候補と比較して、データセットにおいてバイアスを引き起こす可能性がよりずっと高いことを示し得る。いくつかの実施形態で、それらの差の比は、バイアスの定量化を提供し得る。他の例として、仮説が真であるかどうかを決定するために、パーミュテーションテストを用いて仮説が検定されてよい。そのような仮説は、第1候補及び第2候補がデータセットの結果に対して同量のバイアスを有していることであってよく、バイアスの定量化は、パーミュテーションテストによって生成されるp値において反映され得る。そのようなパーミュテーションテストは、バーコード320aの組全体をバーコード370aの組全体、及び/又はそれらのサブセット(例えば、バーコード320a及び370aの組からの最も長いバーコード322a及び372a並びに何らかの他のランダムな選択)と比較してよい。
【0042】
いくつかの実施形態で、プロット300a及び350aの対は、第1候補と第2候補との間の相対バイアスに関する仮説のテストの視覚描写に相当し得る。
【0043】
図3Bは、プロット300b及び350bを表す。プロット300b及び350bは、
図3Aのプロット300a及び350aと同様又は同等であってよい。なそ、
図3Bに表されるように、第3候補に関連したバーコード320bの組は、バーコード320aの組と比較して、より一様に分布し得る。例えば、最も長いバーコード322bは約1.0であり、一方、最も長いバーコード322aは約4.0である。プロット300b及び350bの描写は、第2候補と第3候補との間のバイアスの相対的な適用性に関する仮説の検定の描写を含んでよい。
【0044】
いくつかの実施形態で、
図3に関して上述されたように、同じ比較及び処理が、最も長いバーコード322b及び372b、及び/又はバーコード320b及び370bの組に対して実行されてよい。プロット300b及び350bに表されるように、分布及び最も長いバーコードは、バーコード320b及び370bの両方の組についておおよそ同じである。そのような状況で、第2候補及び第3候補の両方についてバイアスは存在しないと決定されてよく、且つ/あるいは、第3候補は、データセットにおいてバイアスを引き起こす可能性が第2候補と同じくらいであると決定されてよい。
【0045】
いくつかの実施形態で、相対的な決定は、(プロット300a及び350aによって表される)第1候補と第2候補及び(プロット300b及び350bによって表される)第3候補と第2候補の間の相対的な比較に基づき行われてよい。例えば、第3候補及び第2候補は、バイアスをデータセットに課す可能性が等しくあり、バイアスの相対値は、第1候補と第2候補との間で決定され得るので、第1候補と第2候補との間のバイアスの相対は同じであることが示唆される。追加的に、又は代替的に、プロット300a及び300b及び/又はそれらの各々のバーコード(前に生成されていてよい。)は、第1候補と第3候補との間で仮説を検定する場合に新しいプロットを再び生じさせることよりもむしろ、相対的なバイアスを決定することにおいて利用されてよい。
【0046】
いくつかの実施形態で、プロット300a、300b、350a、及び/又は350bのような視覚化は、バイアス予測器(例えば、
図1のバイアス予測器110)によって出力を生成するときにバイアスの視覚化として含まれてよい。更には、バイアス予測器は、関心のある各候補についてバイアスの相対尤度を決定するために、候補の夫々の潜在的なペアリングを通じて処理してよい。
【0047】
本開示の範囲から逸脱することなしに、プロット300a、300b、350a、及び/又は350bに対して変更、追加、又は削除が行われてよい。例えば、記載される様態での種々の要素の指示は、本明細書で記載される概念を説明するのを助けるよう意図されており、限定ではない。更に、プロット300a、300b、350a、及び/又は350bは、任意数の他の要素を含んでよく、あるいは、記載されている以外の他のシステム又はコンテクスト内で実施されてもよい。
【0048】
図4は、本開示の1以上の実施形態に従って、データセット内のバイアスの決定及び/又は視覚化を助ける、例となる方法400の、例となるフローチャートを表す。方法400の1以上の動作は、
図1のシステム100、バイアス予測器110、及び/又は機械学習システム150のような、システム若しくはデバイス、又はそれらの組み合わせによって実行されてよい。別個のブロックとして表されているが、方法400の様々なブロックは、所望の実施に応じて、更なるブロックに分けられても、より少ないブロックへとまとめられても、あるいは削除されてもよい。
【0049】
ブロック405で、データセットが取得されてよい。データセットは、任意数の要素を含んでよく、複数のコンポーネントを含んでよい。例えば、データセットは、任意数の因子と、因子が寄与するかもしれない1以上の結果とを含んでよい。データセットは、第三者のコンピュータデバイスから取得されても、ユーザによって入力されても、あるいは、如何なる他の方法でも取得されてもよい。
【0050】
ブロック410で、候補がデータセットの結果にバイアスをかけるかどうかのバイアス予測のために、候補が選択されてよい。例えば、バイアス予測器(例えば、
図1のバイアス予測器110)が、候補に関連したバイアスを決定する解析のために1以上の候補を自動的に選択してよい。追加的に、又は代替的に、ユーザが候補を入力してもよく、その候補について、バイアス予測器はバイアスを決定すべきである。いくつかの実施形態で、バイアス予測器は、相対的なバイアスを決定するために、全ての潜在的な候補又は素のサブセットを巡回してよい。いくつかの実施形態で、候補は、性別、年齢、人種、性的指向などのような、1以上の法的に保護された分類に基づき選択されてもよい。
【0051】
ブロック415で、候補及び結果に基づき、データセットに対して、点群が生成されてよい。例えば、ユークリッド空間における一連の(x,y)点が点であってよく、このとき、x値は、候補であり、y値は、データセット内の要素の夫々についての結果である。
【0052】
ブロック420で、パーシステントホモロジが点群に対して計算されてよい。例えば、バイアス予測器は、点群についてRips複体を生成するために半径をゆっくりと及び/又は段階的に増大させることによって、ろ過プロセスを実行してよい。半径の段階的な増大の間に、ホール、キャビティなどのような様々な特徴についての生成半径及び消滅半径が取得及び/又は格納されてよい。これら及び他の実施形態で、所与の特徴についての生成半径と消滅半径との間の差は、その所与の特徴に関連したパーシステンスバーコードとして格納されてよい。このプロセスの例となる視覚化は
図2A~2Dに表され得る。
【0053】
ブロック425で、パーシステントホモロジに基づき、パーシステンスバーコードがプロットされてよい。例えば、バイアス予測器は、ブロック420の間に生成されたパーシステンスバーコードを、最長から最短まで、ヒストグラム又は他のプロットにおいてプロットしてよい。
【0054】
ブロック430で、最も長いバーコードの長さが決定されてよい。例えば、ブロック425のパーシステンスバーコードのプロットは、最も長いバーコードを取得するように解析されてよく、その長さは決定され得る。
【0055】
ブロック435で、最も長いバーコードに基づき、バイアスの定量化が生成されてよい。追加的に、又は代替的に、パーシステンスバーコードのプロットに基づき、バイアスの視覚化が生成されてもよい。例えば、バイアス予測器は、候補についての点群に関連した最も長いバーコードを、他の候補についての1以上の他の最も長いバーコードと比較してよい。追加的に、又は代替的に、ブロック420のパーシステントホモロジで生成されたパーシステンスバーコードのプロット内の他のバーコードに対する最も長いバーコードの相対値が決定されてもよい。そのような相対値は、ブロック420のパーシステントホモロジで生成されたバーコードの組の平均値、平均、等との最も長いバーコードの比較に基づいてもよい。
【0056】
いくつかの実施形態で、バイアスの視覚化は、バイアスの決定に基づく如何なる視覚化も含んでよい。例えば、視覚化は、パーシステンスバーコードのプロットを含んでよい。他の例として、視覚化は、
図2A~2Dに表されるような、様々な長さにある半径による点群のプロットの1つ以上を含んでもよい。追加的に、又は代替的に、視覚化は、半径の増大のアニメーションにおいて一連の半径がつなげられるために、点群の複数のそのようなプロットを含んでもよい。
【0057】
ブロック440で、ブロック435からのバイアスの定量化に基づき、機械学習モデルが訓練されてよい。例えば、バイアス予測器は、定量化されたバイアスを機械学習システム(例えば、
図1の機械学習システム150)へ供給してよく、それにより、機械学習システムは、バイアスに働くように訓練され得る。例えば、機械学習システムは、機械学習システムがより正確に実行し得るようにバイアスの影響を弱めるために、訓練で使用される場合にデータセットの特定の側面を調整してよい。バイアスが年齢に基づき決定された貸付返済不能の例を続けると、新たな人物が債務の履行を怠るか否かを決定するために機械学習システムに対してその人物のデータが供給される場合に、年齢に基づいたバイアスを考慮するように機械学習システムが訓練されるように、機械学習システムはバイアスに働いてよい。更に、機械学習システムによるデータの処理及び/又は機械学習システムによる訓練の前にバイアスは特定されるので、機械学習システムは、バイアス定量化がないよりも効率的に訓練され得る。
【0058】
本開示の範囲から逸脱することなしに、方法400に対して変更、追加、又は削除が行われてよい。例えば、方法400の動作は、異なる順序で実施されてもよい。追加的に、又は代替的に、2つ以上の動作が同時に実行されてもよい。更に、説明されている動作及びアクションは、例として与えられており、動作及びアクションのいくつかは、開示される実施形態の本質から外れることなしに、任意であっても、より少ない動作及びアクションへとまとめられても、あるいは、更なる動作及びアクションに拡張されてもよい。
【0059】
図5は、本開示の1以上の実施形態に従って、データセット内のデバイスの決定及び/又は視覚化を助ける、他の例となる方法500の、他の例となるフローチャートを表す。方法500の1以上の動作は、
図1のシステム100、バイアス予測器110、及び/又は機械学習システム150のような、システム若しくはデバイス、又はそれらの組み合わせによって実行されてよい。別個のブロックとして表されているが、方法500の様々なブロックは、所望の実施に応じて、更なるブロックに分けられても、より少ないブロックへとまとめられても、あるいは削除されてもよい。
【0060】
ブロック505で、データセットが取得されてよい。ブロック505は、
図4のブロック405と同様又は同等であってよい。
【0061】
ブロック510で、比較バイアス予測のための第1候補及び第2候補の仮説が選択されてよい。例えば、バイアス予測器(例えば、
図1のバイアス予測器110)が、比較のための2つの候補を自動的に選択してよい。追加的に、又は代替的に、ユーザ(例えば、
図1のユーザ130)が、比較バイアス予測のための2つの候補を手動入力してもよい。いくつかの実施形態で、仮説は、「2つの候補の間のバイアスは同じである」又は「2つの候補の間のバイアスを有意に異なっている」といった、記述が真であるか否かを決定されるべき記述を含んでもよい。
【0062】
ブロック515で、第1候補及びデータセットの結果に基づき、データセットの第1点群が生成されてよい。点群は第1候補に基づき生成され得るが、ブロック515は、
図4のブロック415と同様又は同等であってよい。
【0063】
ブロック520で、第1点群に対して、パーシステントホモロジが計算されてよい。パーシステントホモロジは第1点群について計算され得るが、ブロック520は、
図4のブロック420と同様又は同等であってよい。
【0064】
ブロック525で、第1点群について、最も長いバーコードの長さが決定されてよい。いくつかの実施形態で、ブロック525は、最も長いバーコードを特定するために、ブロック520で生成された全てのバーコードのバーコード長さを比較することを含んでよい。これら及び他の実施形態で、最も長いバーコードの決定は、
図4のブロック425を参照して記載されたように、バーコードをプロットすることによって容易にされ得る。
【0065】
ブロック530で、第2候補及びデータセットの結果に基づき、データセットの第2点群が生成されてよい。ブロック530は、第1候補ではなく第2候補に基づき実行される点を除いて、ブロック515と同様又は同等であってよい。
【0066】
ブロック535で、第2点群に対して、パーシステントホモロジが計算されてよい。ブロック535は、第1点群ではなく第2点群について計算される点を除いて、ブロック520と同様又は同等であってよい。
【0067】
ブロック540で、第2点群について、最も長いバーコードの長さが決定されてよい。ブロック540は、第1点群ではなく第2点群に基づき決定される点を除いて、ブロック525と同様又は同等であってよい。
【0068】
ブロック545で、パーミュテーションテストに基づいて、第1点群の最も長いバーコードが第2点群の最も長いバーコードと有意に異なるか否かが決定されてよい。例えば、第1点群及び第2点群の両方のバーコードは、バーコードの2つの新たな分布を形成するように、結合されて再分配されてもよい。新たな分布からサンプルが引き出されてよく、それに対して仮説は検定される。そのようなプロセスは、引き出されるサンプルに基づき複数回繰り返されてよい。異なるサンプルに対応する様々な仮説からの全ての結果の統計値に基づき、仮説に関する結論が下され得る(バーコードの2つの分布からの最も長いバーコードの長さが同じか又は有意に異なるかどうか)。追加的に、又は代替的に、最も長いバーコードの相対長さの間の数値比較が実行されてもよい。有意な差がある場合には、方法500はブロック560へ進んでよい。有意な差がない場合には、方法500はブロック565へ進んでよい。
【0069】
ブロック560で、2つの候補の最も長いバーコード長さの間の有意な差に基づいて、バイアスは、第1候補に関連すると特定されてよい。
【0070】
ブロック565で、第1又は第2候補のいずれについてもバイアスは特定されなくてもよい。例えば、2つの最も長いバーコード及び/又は全てのバーコードの分布が近似的に同じであることに基づき、バイアス予測器は、それらの候補についてバイアスは存在しないと決定してよい。追加的に、又は代替的に、バイアス予測器は、2つの候補が比較的同じ量のバイアスを示すと決定してよく、バイアスの相対量を、第1候補及び第2候補がデータセットの結果にバイアスをかけるか否かを決定するために実行された他の決定と比較してもよい。
【0071】
本開示の範囲から逸脱することなしに、方法500に対して変更、追加、又は削除が行われてよい。例えば、方法500の動作は、異なる順序で実施されてもよい。追加的に、又は代替的に、2つ以上の動作が同時に実行されてもよい。更に、説明されている動作及びアクションは、例として与えられており、動作及びアクションのいくつかは、開示される実施形態の本質から外れることなしに、任意であっても、より少ない動作及びアクションへとまとめられても、あるいは、更なる動作及びアクションに拡張されてもよい。
【0072】
図6は、本開示の1以上の実施形態に従って、データセット内のバイアスの決定及び/又は視覚化を助けるようRips複体を生成する、例となる方法600の、他の例となるフローチャートを表す。方法600の1以上の動作は、
図1のシステム100、バイアス予測器110、及び/又は機械学習システム150のような、システム若しくはデバイス、又はそれらの組み合わせによって実行されてよい。別個のブロックとして表されているが、方法600の様々なブロックは、所望の実施に応じて、更なるブロックに分けられても、より少ないブロックへとまとめられても、あるいは削除されてもよい。いくつかの実施形態で、方法600は、
図4の動作420及び/又は
図5の動作520及び/又は535の拡張であってよい。
【0073】
ブロック610で、接続される点群内の点間の半径は、段階的に増大されてよい。例えば、パーシステントホモロジ計算において、半径は距離を指定してよく、2つの点は、その距離内にある場合に、それらの間に描かれたエッジを有することになる。更には、エッジによって形成される如何なる単体も識別され、且つ/あるいは、単体複体へと形成されてよい。半径が増大するにつれて、単体複体によるホール、キャビティ、などの特徴の形成が識別され得る。
【0074】
ブロック620で、複体によって形成された特徴の夫々について、生成半径及び消滅半径が格納されてよい。例えば、ホールが最初に形成されるとき、ホールが形成される半径が格納されてよく、ホールが単体によって閉じられるとき、ホールが閉じられる半径が格納されてよい。これら及び他の実施形態で、消滅半径と生成半径との間の差は、特定の特徴に関連したバーコードとして格納されてよい。
【0075】
ブロック630で、半径の段階的な増大の進行の視覚アニメーションが生成されてよい。例えば、データ点及び単体複体の視覚描写は、ブロック610での半径の段階的な増大で使用される半径又は半径のサブセットの夫々について格納されてよい。視覚描写の連続は、単体形成、及び/又は単体複体に基づく様々な特徴の形成及び停止のアニメーションにおいて、つなぎ合わされてよい。
【0076】
本開示の範囲から逸脱することなしに、方法600に対して変更、追加、又は削除が行われてよい。例えば、方法600の動作は、異なる順序で実施されてもよい。追加的に、又は代替的に、2つ以上の動作が同時に実行されてもよい。更に、説明されている動作及びアクションは、例として与えられており、動作及びアクションのいくつかは、開示される実施形態の本質から外れることなしに、任意であっても、より少ない動作及びアクションへとまとめられても、あるいは、更なる動作及びアクションに拡張されてもよい。
【0077】
図7は、本開示で記載される少なくとも1つの実施形態に従って、データセット内のバイアスを決定及び/又は視覚化するのを助ける、例となるコンピューティングシステム700を表す。コンピューティングシステム700は、プロセッサ710、メモリ720、データストレージ730、及び/又は通信ユニット740を含んでよく、これらは全て、通信上結合されてよい。
図1のシステム100のいずれか又は全ては、バイアス予測器110及び機械学習システム150を含め、コンピューティングシステム700に対応するコンピューティングシステムとして実装されてよい。例えば、バイアス予測器110は、データセットを取得し、データセットの候補及び結果に基づき点群を生成し、点群に基づきパーシステントホモロジを計算し、パーシステントホモロジで生成された最も長いバーコードに基づきバイアスを定量化するよう構成されてよい。
【0078】
一般に、プロセッサ710は、様々なコンピュータハードウェア又はソフトウェアモジュールを含む如何なる適切な特別目的又は汎用のコンピュータ、コンピューティングエンティティ、又は処理デバイスも含んでよく、如何なる適用可能なコンピュータ可読記憶媒体にも記憶されている命令を実行するよう構成されてよい。例えば、プロセッサ710は、プログラム命令を解釈するよう及び/又は実行するよう、且つ/あるいはデータを処理するよう構成されたマイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又はあらゆる他のデジタル若しくはアナログ回路も含んでよい。
【0079】
図7では単一のプロセッサとして表されているが、プロセッサ710は、本開示で記載される任意数の動作を個別的又は集合的に実行するよう構成される、任意数のネットワーク又は物理的位置にわたって分配された任意数のプロセッサを含んでよい。いくつかの実施形態で、プロセッサ710は、メモリ720、データストレージ730、又はメモリ720及びデータストレージ730に記憶されているプログラム命令を解釈及び/又は実行し且つ/あるいはデータを処理してよい。いくつかの実施形態で、プロセッサ710は、データストレージ730からプログラム命令をフェッチし、プログラム命令をメモリ720にロードしてよい。
【0080】
プログラム命令がメモリ720にロードされた後、プロセッサ710は、
図4のプロセス400、
図5のプロセス500、及び/又は
図6のプロセス600のいずれかを実行する命令のような、プログラム命令を実行してよい。例えば、プロセッサ710は、データセットにおいてバイアスを決定することに関する命令を取得してよい。
【0081】
メモリ720及びデータストレージ730は、コンピュータ実行可能命令又はデータ構造を搬送するか又は記憶しているコンピュータ可読記憶媒体又は1以上のコンピュータ可読記憶媒体を含んでよい。そのようなコンピュータ可読記憶媒体は、プロセッサ710のような汎用又は特別目的のコンピュータによってアクセスされ得る如何なる利用可能な媒体であってもよい。いくつかの実施形態で、コンピューティングシステム700は、メモリ720及びデータストレージ730のいずれかを含んでも又は含まなくてもよい。
【0082】
例として、制限なしに、そのようなコンピュータ可読記憶媒体は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、電気的消去可能なプログラム可能リードオンリーメモリ(EEPROM)、コンパクトディスク・リードオンリーメモリ(CD-ROM)若しくは他の光学ディスクストレージ、磁気ディスクストレージ若しくは他の磁気記憶デバイス、フラッシュメモリデバイス(例えば、ソリッドステートメモリデバイス)、又はコンピュータ実行可能命令若しくはデータ構造の形で所望のプログラムコードを搬送若しくは記憶するために使用されてよく且つ汎用若しくは特別目的のコンピュータによってアクセスされ得る如何なる他の記憶媒体も含む非一時的なコンピュータ可読記憶媒体を含んでよい。上記の組み合わせも、コンピュータ可読記憶媒体の範囲内に含まれてよい。コンピュータ実行可能命令は、例えば、プロセッサ710に特定の動作又は動作群を引き起こすよう構成された命令及びデータを含んでよい。
【0083】
通信ユニット740は、ネットワーク上で情報を送信又は受信するよう構成される如何なるコンポーネント、デバイス、システム、又はそれらの組み合わせも含んでよい。いくつかの実施形態で、通信ユニット740は、他の場所若しくは同じ場所にある他のデバイス、又は同じシステム内の他のコンポーネントと通信してよい。例えば、通信ユニット740は、モデム、ネットワークカード(有線若しくは無線)、光通信デバイス、赤外線通信デバイス、無線通信デバイス(例えば、アンテナ)、及び/又はチップセット(例えば、Bluetooth(登録商標)デバイス、802.6デバイス(例えば、メトロポリタンエリアネットワーク(MAN))、WiFiデバイス、WiMaxデバイス、セルラー通信設備、若しくは他)、などを含んでよい。通信ユニット740は、ネットワーク及び/又は本開示で記載される何らかの他のデバイス若しくはシステムとデータが交換されることを可能にし得る。例えば、通信ユニット740は、システム700が、コンピュータデバイス及び/又は他のネットワークのような他のシステムと通信することを可能にし得る。
【0084】
当業者であれば、本開示を読んだ後に、変更、追加、又は削除がシステム700に対して本開示の適用範囲から逸脱せずに行われてよいと認識し得る。例えば、システム700は、明示的に図解及び記載されているものよりも多い又は少ないコンポーネントを含んでよい。
【0085】
上記の開示は、開示されている厳密な形態又は特定の使用分野に本開示を制限するよう意図されない。そのようなものとして、本開示に対する様々な代替の実施形態及び/又は変更は、本明細書で明示的に記載又は示唆されていようとなかろうと、本開示に照らして可能であると考えられる。このように本開示の実施形態について記載してきたが、本開示の範囲から逸脱することなしに形態及び詳細において変更が行われてよいことが認識され得る。よって、本開示は、特許請求の範囲によってのみ制限される。
【0086】
いくつかの実施形態で、本明細書で記載される種々のコンポーネント、モジュール、エンジン、及びサービスは、コンピューティングシステムで(例えば、別個のスレッドとして)実行するオブジェクト又はプロセスとして実装されてよい。本明細書で記載されるシステム及びプロセスのいくつかは概して、(汎用のハードウェアで記憶及び/又は実行される)ソフトウェアにおいて実装されるものとして記載されているが、具体的なハードウェア実装又はソフトウェア及び具体的なハードウェア実装の組み合わせも可能であり企図される。
【0087】
本明細書で、特に添付の特許請求の範囲(例えば、添付の特許請求の本文)で使用される語は、一般的に、“非限定的な(open)”用語として意図されている(例えば、語「含んでいる(including)」は、“~を含んでいるが、~に制限されない”との意に解釈されるべきであり、語「備えている(having)」は、「少なくとも~を備えている」との意に解釈されるべきであり、語「含む(includes)」は、“~を含むが、~に制限されない”との意に解釈されるべきである、など。)。
【0088】
更に、導入されたクレーム記載(introduced claim recitation)において特定の数が意図される場合、そのような意図は当該クレーム中に明確に記載され、そのような記載がない場合は、そのような意図も存在しない。例えば、理解を促すために、後続の添付された特許請求の範囲では、「少なくとも1つの(at least one)」及び「1つ以上の(one or more)」といった導入句を使用し、クレーム記載を導入することがある。しかし、このような句を使用するからといって、「a」又は「an」といった不定冠詞によりクレーム記載を導入した場合に、たとえ同一のクレーム内に、「1つ以上の」又は「少なくとも1つの」といった導入句と「a」又は「an」といった不定冠詞との両方が含まれるとしても、当該導入されたクレーム記載を含む特定のクレームが、当該記載事項を1しか含まない例に限定されるということが示唆されると解釈されるべきではない(例えば、「a」及び/又は「an」は、「少なくとも1つの」又は「1つ以上の」を意味すると解釈されるべきである。)。定冠詞を使用してクレーム記載を導入する場合にも同様のことが当てはまる。
【0089】
更には、導入されたクレーム記載において特定の数が明示されている場合であっても、そのような記載は、通常、少なくとも記載された数を意味するように解釈されるべきであることは、当業者には理解されるであろう(例えば、他に修飾語のない、単なる「2つの記載事項」という記載がある場合、この記載は、少なくとも2つの記載事項、又は2つ以上の記載事項を意味する。)。更に、「A、B及びCなどのうち少なくとも1つ」又は「A、B及びCなどのうちの1つ以上」に類する表記が使用される場合、一般的に、そのような構造は、Aのみ、Bのみ、Cのみ、AとBの両方、AとCの両方、BとCの両方、及び/又はAとBとCの全て、などを含むよう意図される。例えば、語「及び/又は(and/or)」の使用は、このように解釈されるよう意図される。
【0090】
更に、2つ以上の選択可能な用語を表す如何なる離接語及び/又は離接句も、明細書、特許請求の範囲、又は図面のいずれであろうと、それら用語のうちの1つ、それらの用語のうちのいずれか、あるいは、それらの用語の両方を含む可能性を意図すると理解されるべきである。例えば、「A又はB」という句は、「A又はB」、あるいは、「A及びB」の可能性を含むことが理解されるべきである。
【0091】
しかし、このような句を使用するからといって、「a」又は「an」といった不定冠詞によりクレーム記載を導入した場合に、たとえ同一のクレーム内に、「1つ以上の」又は「少なくとも1つの」といった導入句と「a」又は「an」といった不定冠詞との両方が含まれるとしても、当該導入されたクレーム記載を含む特定のクレームが、当該記載事項を1しか含まない例に限定されるということが示唆されると解釈されるべきではない(例えば、「a」及び/又は「an」は、「少なくとも1つの」又は「1つ以上の」を意味すると解釈されるべきである。)。定冠詞を使用してクレーム記載を導入する場合にも同様のことが当てはまる。
【0092】
加えて、語「第1(first)」、「第2(second)」、「第3(third)」などの使用は、要素の特定の順序又は数を示すために本願で必ずしも使用されているわけではない。一般に、語「第1」、「第2」、「第3」などは、異なる要素どうしを総称的な識別子として区別するために使用される。語「第1」、「第2」、「第3」などが特定の順序を示すとの明示がない限りは、それらの語が特定の順序を示すと理解されるべきではない。
【0093】
本明細書で挙げられている全ての例及び条件付き言語は、当該技術の促進に本発明者によって寄与される概念及び本発明を読者が理解するのを助ける教育上の目的を意図され、そのような具体的に挙げられている例及び条件に制限されないと解釈されるべきである。本開示の実施形態が詳細に記載されてきたが、様々な変更、置換、及び代替が、本開示の主旨及び適用範囲から逸脱することなしに行われてよい。
【0094】
開示される実施形態の上記の説明は、当業者が本開示を作成又は使用することを可能にするために与えられている。これらの実施形態に対する様々な変更は、当業者に容易に理解され、本明細書で提示される一般原理は、本開示の主旨又は適用範囲から逸脱することなしに他の実施形態に適用されてよい。よって、本開示は、本明細書で示される実施形態に制限されるよう意図されず、本明細書で開示される原理及び新規の特徴と一致する最も広い範囲を認められるべきである。
【0095】
上記の実施形態に加えて、以下の付記を開示する。
(付記1)
解析のためのデータセットを取得することと、
潜在的なバイアスの少なくとも1の候補を選択し、該候補に基づきバイアスをかけられる結果を前記データセットが含むかどうかを予測することと、
前記候補及び前記結果に基づき、前記データセットの点群を生成することと、
機械学習により前記データセットに対して分類を実行することより前に、前記候補及び前記結果に基づき、前記点群に対してパーシステントホモロジを計算することと、
前記パーシステントホモロジに基づき、該パーシステントホモロジ内の複体の存続期間を示すパーシステンスバーコードをプロットすることと、
前記パーシステンスバーコード内で最も長いバーコードの長さを決定することと、
前記最も長いバーコードに基づく前記バイアスの定量化と、前記パーシステンスバーコードの前記プロットに基づく前記バイアスの視覚化とを生成することと
を有する方法。
(付記2)
前記データセットの第2候補を選択し、該第2候補に基づき前記データセット内の前記結果がバイアスをかけられるかどうかを予測することと、
前記第2候補及び前記結果に基づき、前記データセットの第2点群を生成することと、
前記第2候補及び前記結果に基づき、第2の組のパーシステンスバーコードをプロットすることと、
前記第2の組のパーシステンスバーコードの中で最も長いバーコードの長さを決定することと、
前記パーシステンスバーコードの中で最も長いバーコードと、前記第2の組のパーシステンスバーコードの中で最も長いバーコードとの相対長さに基づき、前記候補と前記第2候補との間の相対バイアスを決定することとを
更に有する、付記1に記載の方法。
(付記3)
前記バイアスの前記定量化を生成することは、前記パーシステンスバーコードの組及び前記第2の組のパーシステンスバーコードが同じであるとの仮説においてパーミュテーションテストを実行することを含む、
付記2に記載の方法。
(付記4)
前記パーシステントホモロジを計算することは、
前記点群内の点が接続されるべきである半径を段階的に増大させることと、
複体の各特徴ごとの、当該特徴が現れる場合の生成半径、及び当該特徴が姿を消す場合の消滅半径を格納することと
によって、Rips複体を生成することを有し、
前記パーシステンスバーコードは、前記生成半径と前記消滅半径との間のインターバルを表す、
付記1に記載の方法。
(付記5)
前記点群内の前記半径の段階的な増大の進行の視覚アニメーションを生成することを更に有する、
付記4に記載の方法。
(付記6)
前記結果に対する前記候補のバイアスの定量化に基づき機械学習のためのモデルを訓練することを更に有し、該訓練することは、前記バイアスの前記定量化がない場合よりも素早く行われる、
付記1に記載の方法。
(付記7)
前記最も長いバーコードは、次元0の特徴に基づき、対応するクラスタを示す、
付記1に記載の方法。
(付記8)
前記最も長いバーコードは、次元1の特徴に基づき、対応するホールを示す、
付記1に記載の方法。
(付記9)
前記最も長いバーコードは、次元2の特徴に基づき、対応するキャビティを示す、
付記1に記載の方法。
(付記10)
命令を含む非一時的なコンピュータ可読媒体であって、
前記命令は、1以上のプロセッサによって実行される場合に、
解析のためのデータセットを取得することと、
潜在的なバイアスの少なくとも1の候補を選択し、該候補に基づきバイアスをかけられる結果を前記データセットが含むかどうかを予測することと、
前記候補及び前記結果に基づき、前記データセットの点群を生成することと、
機械学習により前記データセットに対して分類を実行することより前に、前記候補及び前記結果に基づき、前記点群に対してパーシステントホモロジを計算することと、
前記パーシステントホモロジに基づき、該パーシステントホモロジ内の複体の存続期間を示すパーシステンスバーコードをプロットすることと、
前記パーシステンスバーコード内で最も長いバーコードの長さを決定することと、
前記最も長いバーコードに基づく前記バイアスの定量化と、前記パーシステンスバーコードの前記プロットに基づく前記バイアスの視覚化とを生成することと
を有する動作を実行するよう構成される、前記コンピュータ可読媒体。
(付記11)
前記動作は、
前記データセットの第2候補を選択し、該第2候補に基づき前記データセット内の前記結果がバイアスをかけられるかどうかを予測することと、
前記第2候補及び前記結果に基づき、前記データセットの第2点群を生成することと、
前記第2候補及び前記結果に基づき、第2の組のパーシステンスバーコードをプロットすることと、
前記第2の組のパーシステンスバーコードの中で最も長いバーコードの長さを決定することと、
前記パーシステンスバーコードの中で最も長いバーコードと、前記第2の組のパーシステンスバーコードの中で最も長いバーコードとの相対長さに基づき、前記候補と前記第2候補との間の相対バイアスを決定することとを
更に有する、付記10に記載のコンピュータ可読媒体。
(付記12)
前記バイアスの前記定量化を生成することは、前記パーシステンスバーコードの組及び前記第2の組のパーシステンスバーコードが同じであるとの仮説においてパーミュテーションテストを実行することを含む、
付記11に記載のコンピュータ可読媒体。
(付記13)
前記パーシステントホモロジを計算することは、
前記点群内の点が接続されるべきである半径を段階的に増大させることと、
複体の各特徴ごとの、当該特徴が現れる場合の生成半径、及び当該特徴が姿を消す場合の消滅半径と格納することと
によって、Rips複体を生成することを有し、
前記パーシステンスバーコードは、前記生成半径と前記消滅半径との間のインターバルを表す、
付記10に記載のコンピュータ可読媒体。
(付記14)
前記動作は、前記点群内の前記半径の段階的な増大の進行の視覚アニメーションを生成することを更に有する、
付記13に記載のコンピュータ可読媒体。
(付記15)
前記動作は、前記結果に対する前記候補のバイアスの定量化に基づき機械学習のためのモデルを訓練することを更に有し、該訓練することは、前記バイアスの前記定量化がない場合よりも素早く行われる、
付記10に記載のコンピュータ可読媒体。
(付記16)
前記最も長いバーコードは、次元0の特徴に基づき、対応するクラスタを示す、
付記10に記載のコンピュータ可読媒体。
(付記17)
前記最も長いバーコードは、次元1の特徴に基づき、対応するホールを示す、
付記10に記載のコンピュータ可読媒体。
(付記18)
前記最も長いバーコードは、次元2の特徴に基づき、対応するキャビティを示す、
付記10に記載のコンピュータ可読媒体。
(付記19)
1以上のプロセッサと、
前記1以上のプロセッサと通信する表示デバイスと、
命令を含む1以上の非一時的なコンピュータ可読媒体と
を有するシステムであって、
前記命令は、前記1以上のプロセッサによって実行される場合に、当該システムに、
解析のためのデータセットを取得することと、
潜在的なバイアスの少なくとも1の候補を選択し、該候補に基づきバイアスをかけられる結果を前記データセットが含むかどうかを予測することと、
前記候補及び前記結果に基づき、前記データセットの点群を生成することと、
機械学習により前記データセットに対して分類を実行することより前に、前記候補及び前記結果に基づき、前記点群に対してパーシステントホモロジを計算することと、
前記パーシステントホモロジに基づき、該パーシステントホモロジ内の複体の存続期間を示すパーシステンスバーコードをプロットすることと、
前記パーシステンスバーコード内で最も長いバーコードの長さを決定することと、
前記最も長いバーコードに基づく前記バイアスの定量化と、前記パーシステンスバーコードの前記プロットに基づく前記バイアスの視覚化とを生成することと、
前記バイアスの前記定量化及び前記バイアスの前記視覚化を前記表示デバイスへ出力することと
を有する動作を実行させる、前記システム。
(付記20)
前記パーシステントホモロジを計算することは、
前記点群内の点が接続されるべきである半径を段階的に増大させることと、
複体の各特徴ごとの、当該特徴が現れる場合の生成半径、及び当該特徴が姿を消す場合の消滅半径と格納することと
によって、Rips複体を生成することを有し、
前記パーシステンスバーコードは、前記生成半径と前記消滅半径との間のインターバルを表し、
前記動作は、
前記点群内の前記半径の段階的な増大の進行の視覚アニメーションを生成することと、
前記表示デバイスにより前記視覚アニメーションを出力することと
を更に有する、
付記19に記載のシステム。
【符号の説明】
【0096】
100 システム
110 バイアス予測器
120 データセット
130 ユーザ
140 表示
150 機械学習システム
210 点
230 エッジ
232,234,236 単体
242 ホール
255 半径
282,320,322,370,372 バーコード
700 コンピューティングシステム
710 プロセッサ
720 メモリ
730 データストレージ
740 通信ユニット