特開2024-29832 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-29832判定プログラム、判定装置、および判定方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024029832

(43)【公開日】2024-03-07

(54)【発明の名称】判定プログラム、判定装置、および判定方法

(51)【国際特許分類】

G06N 20/00 20190101AFI20240229BHJP

【ＦＩ】

G06N20/00

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2022132233

(22)【出願日】2022-08-23

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】成田顕一郎

(57)【要約】

【課題】機械学習モデルに対する公平性是正処理の根本は訓練データの改変であるため、判定結果の公平性のみならず、機械学習モデルの精度も維持しなければならない。
【解決手段】コンピュータは、第１のデータを加工して得られた第２のデータに基づいて運用モデルを更新して是正モデルを生成し、第３のデータを加工して得られた第４のデータを是正モデルへ入力することによる予測結果と、第４のデータのそれぞれの運用モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって決定される正解ラベルとに基づいて是正モデルの精度を判定し、第１のデータと第２のデータとの差に基づいて特定された、加工量が所定の閾値以上ある第１の属性の、是正モデルが推論を行った場合における推論結果への寄与の大きさを特定し、寄与の大きさに基づいて是正モデルの訓練を行った場合における影響度を判定する。
【選択図】図１１

【特許請求の範囲】

【請求項1】

第１の属性を基準にした第１の複数のデータの偏りに基づいて前記第１の複数のデータを加工して得られた第２の複数のデータに基づいて、第１の機械学習モデルを更新して第２の機械学習モデルを生成し、
前記第１の属性を基準にした第３の複数のデータの偏りに基づいて前記第３の複数のデータを加工して得られた第４の複数のデータを前記第２の機械学習モデルへ入力することによって、予測結果を取得し、
前記第４の複数のデータのそれぞれの前記第１の機械学習モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって、前記第４の複数のデータのそれぞれの正解ラベルを決定し、
前記予測結果と前記正解ラベルとに基づいて、前記第２の機械学習モデルの精度を判定し、
前記第１の複数のデータと前記第２の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある前記第１の属性を特定し、
データを入力して前記第２の機械学習モデルが推論を行った場合における推論結果への前記第１の属性の寄与の大きさを特定し、
前記寄与の大きさに基づいて、前記第２の複数のデータによって前記第２の機械学習モデルの訓練を行った場合における影響度を判定する、
処理をコンピュータに実行させることを特徴とする判定プログラム。

【請求項2】

前記第１の複数のデータに含まれる特徴量および正解ラベルの少なくとも１つを第１のルールに従って変換して前記第２の複数のデータを取得する、
処理を前記コンピュータに実行させることを特徴とする請求項１に記載の判定プログラム。

【請求項3】

前記第２の機械学習モデルを生成する処理は、
前記第１の複数のデータを複数種類の前記第１のルールに従って変換して得られる第２の複数のデータに基づいて、前記第１のルールの種類ごとに前記第１の機械学習モデルを更新して複数の前記第２の機械学習モデルを生成する、
処理を含み、
所定の条件に基づいて、複数の前記第２の機械学習モデルから１つの前記第２の機械学習モデルを選択する
処理を前記コンピュータに実行させることを特徴とする請求項２に記載の判定プログラム。

【請求項4】

前記１つの第２の機械学習モデルを選択する処理は、前記第１のルールの種類ごとの前記第２の複数のデータの公平性スコアと、前記第２の機械学習モデルの精度と、前記影響度とに基づいて、前記１つの第２の機械学習モデルを選択する、
処理を含むことを特徴とする請求項３に記載の判定プログラム。

【請求項5】

前記第２の複数のデータの公平性スコアと、前記第２の機械学習モデルの精度と、前記影響度とを軸とするグラフを出力する、
処理を前記コンピュータに実行させることを特徴とする請求項１に記載の判定プログラム。

【請求項6】

前記第１の属性を特定する処理は、
前記第１の複数のデータと前記第２の複数のデータとの差に基づいて、前記複数の属性のうち加工量が所定の閾値以上ある上位所定数の前記第１の属性を特定する、
処理を含むことを特徴とする請求項１に記載の判定プログラム。

【請求項7】

【請求項8】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、判定技術に関する。

【背景技術】

【0002】

ローン審査など機械学習モデルを用いて審査や審査の支援が行われる場合がある。しかしながら、機械学習モデルが不公平なバイアスを持つデータで訓練されてしまった結果、例えば、性差に依存した判定が行われてしまう場合がある。

【0003】

そこで、不公平なバイアスを持つデータを排除して機械学習モデルによる判定の公平性を担保するための公平性是正処理が必要になってくる。公平性是正処理では、例えば、訓練データを加工し、機械学習モデルの再訓練を行う。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２１－０１２５９３号公報

【特許文献2】特開２０２１－１４９８４２号公報

【特許文献3】米国特許出願公開第２０２１／０３０４０６３号明細書

【特許文献4】米国特許出願公開第２０２０／０３２０４２９号明細書

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、公平性是正処理は機械学習の精度に影響を与えるが、その根本は訓練データの改変であるため、判定結果の公平性のみならず、機械学習モデルへの精度も維持しなければならない。

【0006】

１つの側面では、公平性是正処理による機械学習モデルへの精度影響を示すことを目的とする。

【課題を解決するための手段】

【0007】

１つの態様において、判定プログラムは、第１の属性を基準にした第１の複数のデータの偏りに基づいて第１の複数のデータを加工して得られた第２の複数のデータに基づいて、第１の機械学習モデルを更新して第２の機械学習モデルを生成し、第１の属性を基準にした第３の複数のデータの偏りに基づいて第３の複数のデータを加工して得られた第４の複数のデータを第２の機械学習モデルへ入力することによって、予測結果を取得し、第４の複数のデータのそれぞれの第１の機械学習モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって、第４の複数のデータのそれぞれの正解ラベルを決定し、予測結果と正解ラベルとに基づいて、第２の機械学習モデルの精度を判定し、第１の複数のデータと第２の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある第１の属性を特定し、データを入力して第２の機械学習モデルが推論を行った場合における推論結果への第１の属性の寄与の大きさを特定し、寄与の大きさに基づいて、第２の複数のデータによって第２の機械学習モデルの訓練を行った場合における影響度を判定する処理をコンピュータに実行させる。

【発明の効果】

【0008】

１つの側面では、公平性是正処理による機械学習モデルへの精度影響を示すことができる。

【図面の簡単な説明】

【0009】

【図1】図１は、本実施形態にかかる公平性是正処理の一例を示す図である。

【図2】図２は、本実施形態にかかる公平性是正処理によるデータ加工傾向の一例を示す図である。

【図3】図３は、本実施形態にかかるデータ加工によるモデル影響の一例を示す図である。

【図4】図４は、本実施形態にかかる判定装置１０の構成例を示す図である。

【図5】図５は、本実施形態にかかる分類システム１の構成例を示す図である。

【図6】図６は、本実施形態にかかる精度判定方法の一例を示す図である。

【図7】図７は、本実施形態にかかるデータ加工による加工傾向とモデル寄与度の一例を示す図である。

【図8】図８は、本実施形態にかかる加工傾向とモデル寄与度とによる影響度判定の一例を示す図である。

【図9】図９は、本実施形態にかかるモデル影響度の出力の一例を示す図である。

【図10】図１０は、本実施形態にかかるモデル影響スコアによる候補判定の一例を示す図である。

【図11】図１１は、本実施形態にかかる予測精度、公平性スコア、およびモデル影響スコアの出力方法の一例を示す図である。

【図12】図１２は、本実施形態にかかる判定処理の流れの一例を示すフローチャートである。

【図13】図１３は、本実施形態にかかるモデル影響スコア算出処理の流れの一例を示すフローチャートである。

【図14】図１４は、本実施形態にかかる判定装置１０のハードウェア構成例を示す図である。

【発明を実施するための形態】

【0010】

以下に、本実施形態にかかる判定プログラム、判定装置、および判定方法の実施例を図面に基づいて詳細に説明する。なお、この実施例により本実施形態が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

【0011】

まず、機械学習による不公平な判定とその是正処理について説明する。図１は、本実施形態にかかる公平性是正処理の一例を示す図である。図１の左側の表は、属性Ａ～Ｄを入力データ、すなわち、特徴量とし、“Ａ”か“Ｂ”の分類結果を正解ラベルとして機械学習により生成した機械学習モデルの判定結果の一例を示すものである。

【0012】

図１の左側の表を参照すると、Ｎｏ．３の女性とＮｏ．５の男性は、性別以外の属性Ｂ～Ｄが全て同一であるのに異なる判定結果となっている。これは、機械学習モデルによって性差に依存した不公平な判定が行われたことを示している。

【0013】

そこで、公平性是正処理として、図１の右側の表に示すように、性別を示す属性Ａを保護属性として保護属性以外の属性Ｂ～Ｄの数値を変更して是正データに加工し、判定結果が性差に依存しないように機械学習モデルを再訓練させる。なお、保護属性である属性Ａ以外の属性Ｂ～Ｄの数値は、所定のルールに従って変換されてもよいし、数値的にあり得る範囲でランダムに変更されてもよい。また、属性Ｂ～Ｄの全ての数値が変更されなくてもよい。

【0014】

また、公平性是正処理の効果は、例えば、公平性スコアの一例であるＤＩスコアにより判定可能である。ＤＩスコアは、次の式（１）を用いて算出可能である。

【0015】

【数1】

【0016】

式（１）を用いて、是正前後の判定結果の公平性スコアを算出して比較することにより公平性是正処理の効果が判定可能である。

【0017】

このような公平性是正処理によって、不公平な判定を行うように訓練されてしまった機械学習モデルを是正し、効果を確認できる。しかしながら、公平性是正処理では入力データを加工するため、機械学習モデルの予測精度が劣化する可能性がある。そのため、特に機械学習モデルをシステムに導入して運用する場合に公平性是正処理を適用するとシステムへの影響が大きくなるという問題がある。

【0018】

図２は、本実施形態にかかる公平性是正処理によるデータ加工傾向の一例を示す図である。図２の例は、強度の異なる２つの加工強度によって加工された是正データの加工傾向を示すグラフである。図２の例において、是正データの加工傾向を示すグラフは、横軸を各データの属性、縦軸を属性ごとのデータ数とし、グラフ内の色により加工強度が示される。加工強度は、入力データとその是正データとの差分量から算出できる。当該グラフを参照すると、公平性是正処理によって加工対象に選択される属性、すなわち加工範囲に偏りがあり、加工強度が強くなるに従いデータの変化量も大きくなることがわかる。

【0019】

一方、機械学習モデルを用いたシステムの長期運用では、機械学習モデルの精度を維持するために定期的な再訓練が必要である。そのため、訓練データは既存の機械学習モデルの精度に与える影響が小さい方が望ましい。なお、機械学習モデルの精度に与える影響を、単に、機械学習モデルに与える影響や、機械学習モデルに対する影響などと表現する場合がある。また、機械学習モデルに与える影響が小さい訓練データとは、図２に示した加工傾向などから考えると、例えば、公平性是正処理の実行前後の変化が少ない訓練データである。より具体的には、是正データの加工範囲が広く、かつ加工強度が弱ければ機械学習モデルに与える影響は小さいと考えられる。そこで、モデル影響度の指標として、是正データの加工範囲に対する分散値で表現する。分散値が小さく、加工強度が弱い是正データが、機械学習モデルに対してより影響が小さくなる。

【0020】

図３は、本実施形態にかかるデータ加工によるモデル影響の一例を示す図である。図３の例は、強度の異なる４つの加工強度によって加工された是正データの加工傾向を示すグラフである。ｖａｒは是正データの加工範囲に対する分散値を示す。ｖａｒも、加工強度と同様に、入力データとその是正データとの差分量から算出でき、図３に示すように、加工強度が高くなると、ｖａｒも大きくなる。そのため、ｖａｒが小さければ、機械学習モデルに対する影響が小さいと考えることができる。

【0021】

しかしながら、図３を参照すると、例えば、属性「A_MJOCC_4」が最も加工されており、加工される属性に偏りがあるのがわかる。そのため、加工される属性が、機械学習モデルにとって注目される属性であるか否かも、機械学習モデルに対する影響を考える際には重要となる。すなわち、加工される属性が注目属性でない場合は、加工強度が高くても実際には機械学習モデルに対する影響は少ないと考えることができる。機械学習モデルにとって注目される属性であるか否かは、機械学習モデルに対する注目度合い、すなわち、既存技術によって算出されるモデル寄与度によって判断することができる。そこで、本実施形態では、ｖａｒに加え、加工される属性のモデル寄与度も考慮して、機械学習モデルに対する影響を判定する。

【0022】

［判定装置１０の機能構成］
次に、本実施形態の動作主体である判定装置１０の機能構成を説明する。図４は、本実施形態にかかる判定装置１０の構成例を示す図である。判定装置１０は、公平性是正処理による機械学習モデルへの精度影響を示す。

【0023】

判定装置１０は、機械学習モデルへの精度影響を示すため、機械学習モデルのパラメータに基づく特徴量のクラスタリングによる正解ラベルと、是正データで機械学習モデルを再訓練して生成された是正モデルの予測結果とを比較する。また、判定装置１０は、入力データと是正データとの差から特定される加工量の多い属性のモデル寄与度を特定し、モデル寄与度に基づいて、機械学習モデルの訓練を行った場合の影響度を判定する。判定装置１０は、モデル記憶部１１、分類部１２、是正部１３、生成部１４、ラベル付与部１５、判定部１６、および学習部１７を有する。

【0024】

モデル記憶部１１は、例えば、機械学習モデルを記憶する。より具体的には、モデル記憶部１１は、例えば、機械学習モデルのニューラルネットワークのパラメータを記憶する。パラメータには、ニューロン間の重みが含まれる。ニューロン間の重みは、機械学習により更新される。

【0025】

分類部１２は、例えば、モデル記憶部１１が記憶する機械学習モデルを用いて、是正部１３によって入力データを変換して生成される是正データを分類し、機械学習モデルの推論結果として出力する。

【0026】

是正部１３は、例えば、図１の右側の表に示すように、機械学習モデルに対する入力データを所定のルールに従って作成された是正フィルタを用いて変換して是正データを生成する。是正データは、不公平な判定を行うように訓練されてしまった機械学習モデルを是正するために、入力データとして機械学習モデルに入力されたり、訓練データとして機械学習モデルの再訓練に用いられたりする。

【0027】

生成部１４は、例えば、機械学習モデルの出力層のニューロンの出力値と判定結果とに基づいて、是正データの特徴量空間であるＤＴ（Durable Topology Space）空間に、是正データに対応する各点をプロットする。ここで、ＤＴ空間は、出力層の各ニューロンの出力値に対応した軸を有する、是正データの特徴量空間である。そして、生成部１４は、ＤＴ空間にプロットした各点を分類ごとの密度に基づいてクラスタリングする。このようなＤＴ空間に対する処理の詳細については後述する。

【0028】

ラベル付与部１５は、例えば、生成部１４によるクラスタリング結果から各クラスタのラベルを決定し、各クラスタに属する各点に対応する是正データに、決定されたラベルを付与する。

【0029】

判定部１６は、例えば、分類部１２によって分類された分類結果、すなわち、是正データに対する機械学習モデルの予測結果と、ラベル付与部１５によって付与されたラベルとに基づいて、機械学習モデルの予測精度を判定する。判定部１６は、ラベル付与部１５によって付与されたラベルを正解ラベルとすることで、公平性是正処理による機械学習モデルの予測精度への影響を判定できる。

【0030】

また、判定部１６は、例えば、第１の属性を基準にした入力データの偏りに基づいて入力データを加工して得られた是正データと入力データとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある第１の属性を特定する。ここで、第１の属性は保護属性であってよく、入力データは第１の複数のデータ、是正データは、第１の複数のデータを加工、すなわち是正処理して得られた第２の複数のデータに対応する。また、複数の属性のうち加工量が所定の閾値以上ある第１の属性とは、例えば、複数の属性のうち加工量が所定の閾値以上ある上位所定数の第１の属性であってよい。

【0031】

また、判定部１６は、例えば、分類部１２が是正データを入力して機械学習モデルが推論を行った場合における推論結果への第１の属性の寄与の大きさを特定する。そして、判定部１６は、例えば、特定された寄与の大きさに基づいて、是正データによって機械学習モデルの訓練を行った場合における影響度を判定する。

【0032】

学習部１７は、例えば、是正データを特徴量とし、ラベル付与部１５によって付与されたラベルを正解ラベルとして、モデル記憶部１１が記憶する機械学習モデルを再訓練して更新する。

【0033】

次に、図５を用いて、本実施形態にかかる分類システム１の機能構成を説明する。図５は、本実施形態にかかる分類システム１の構成例を示す図である。図５に示すように、分類システム１は、入力センサ２、データ記憶装置３、分類装置４、表示装置５、および判定装置１０を有する。

【0034】

入力センサ２は、分類対象のデータを取得するセンサである。例えば、画像を分類する場合には、入力センサ２はカメラである。

【0035】

データ記憶装置３は、入力センサ２により取得された入力データを記憶する。データ記憶装置３は、例えば、画像データを記憶する。

【0036】

分類装置４は、データ記憶装置３が記憶する入力データを、入力データごとに運用モデルを用いて分類する装置である。ここで、運用モデルとは、分類システム１において運用される機械学習モデルを指す。分類装置４は、例えば、カメラ装置によって撮像した人物が写った画像を運用モデルに入力し、当該人物が制服を着用しているか否かを判定し、着用か非着用を分類結果として出力する。また、分類装置４は、分類結果を表示装置５に送信してもよい。

【0037】

判定装置１０は、公平性是正処理による運用モデルへの精度影響を示すため、運用モデルを予め複製して是正モデルとして記憶する（ｔ１）。是正モデルは初回のみ運用モデルの複製であるが、その後は、是正データに基づいて再訓練され、是正モデルのパラメータが更新されていくことになる。なお、運用モデルの一例は第１の機械学習モデル、是正モデルの一例は第２の機械学習モデルにそれぞれ相当する。

【0038】

また、判定装置１０は、例えば、所定のルールに従って作成された是正フィルタに入力データを通すことで、入力データに対して公平性是正処理を実行し、是正データを生成する（ｔ２）。なお、是正データは入力データごとに生成される。また、複数の是正案として所定のルールが複数ある場合は、各ルールに従って是正フィルタが作成され、各是正フィルタに入力データを通すことで各是正案に対応する複数の是正データが生成される。なお、所定のルールの一例は、第１のルールに相当する。

【0039】

また、判定装置１０は、是正データに基づいて是正モデルを再訓練して更新する（ｔ３）。なお、複数の是正案がある場合は、各是正案に対応する是正データに基づいて、各是正案に対応する是正モデルが更新される。また、ここで再訓練され更新された是正モデルの一例は、第１の属性を基準にした第１の複数のデータの偏りに基づいて表示装置５第１の複数のデータを加工して得られた第２の複数のデータに基づいて、第１の機械学習モデルを更新して第２の機械学習モデルに相当する。

【0040】

次に、判定装置１０は、是正データを是正モデルに入力して、公平性是正処理による運用モデルへの精度影響を判定する（ｔ４）。なお、複数の是正案がある場合は、各是正データは対応する是正モデルに入力され、是正案ごとに精度影響が判定される。また、運用モデルへの精度影響の判定について、正解付きデータを使って一定期間ごとに入力データに対するラベル付けを行い、人手で観測することもできるが正解付きデータの作成にはなどにコストがかかってしまう。そのため、本実施形態では、判定装置１０が、入力データに対する是正モデルの出力結果を基に密度ベースでクラスタリングし、クラスタリング結果に基づいて入力データに自動的にラベル付けを行う。

【0041】

図６は、本実施形態にかかる精度判定方法の一例を示す図である。まず、判定装置１０は、是正モデルに複数の是正データを入力し、個別に判定を行い、当該判定結果に基づいて是正データごとにラベルを付与する。ここで付与されるラベルを「個別ラベル」とする。なお、個別ラベルの一例は、第１の属性を基準にした第３の複数のデータの偏りに基づいて第３の複数のデータを加工して得られた第４の複数のデータ、すなわち、是正データを第２の機械学習モデルへ入力することによって習得される予測結果に相当する。

【0042】

是正モデルによる分類は、是正モデルの出力層のニューロンの出力値に基づいて行われる。例えば、判定装置１０は、図４に示すように、出力層のニューロンの出力値と分類結果とに基づいてＤＴ空間に点９をプロットする。当該ＤＴ空間は、出力層の各ニューロンの出力値に対応した軸を有する、入力データの特徴量空間である。また、ＤＴ空間の各軸は出力層の各ニューロンの出力値に対応する。また、図６の例では、出力層のニューロンは３つあるのでＤＴ空間は３次元空間であるが、説明の便宜上、ＤＴ空間は２次元で表現される。図６の例では、是正モデルによる分類結果、すなわち、個別ラベルは点９の種類、例えば、○白丸と●黒丸とにより表現される。

【0043】

次に、判定装置１０は、ＤＴ空間における点９の分類ごとの密度に基づいて点９をクラスタリングし、各クラスタを作成する。なお、点９の密度とは、例えば、特徴量の単位区間あたりの点９の個数である。図６の例では、○白丸を含むクラスタＡと、●黒丸を含むクラスタＢとが作成される。

【0044】

次に、判定装置１０は、クラスタ内の個別ラベルの割合で各クラスタの新ラベルを決定し、各クラスタに属する点９ごとに、対応する入力データに新ラベルを付与する。ここで付与される新ラベルを「疑似ラベル」とし、疑似ラベルを正解ラベルとすることで、判定装置１０は、公平性是正処理による運用モデルへの精度影響を判定できる。なお、疑似ラベルの一例は、第４の複数のデータのそれぞれの第１の機械学習モデル、すなわち運用モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって決定される正解ラベルに相当する。

【0045】

機械学習モデルの予測精度は、既存技術の評価指標、例えば、Ａｃｃｕｒａｃｙ（正解率）によって判定される。Ａｃｃｕｒａｃｙは、次の式（２）を用いて算出可能である。

【0046】

【数2】

【0047】

式（２）において、正解数は、例えば、疑似ラベルを正解ラベルとして、全入力データ数から、是正モデルによる分類結果と異なる疑似ラベルの数、すなわち不正解数を引いた数である。

【0048】

このように、判定装置１０は、例えば、式（２）を用いて、公平性是正処理による運用モデルへの精度影響を判定できる。また、判定装置１０は、例えば、式（１）を用いて、是正モデルによる分類結果と疑似ラベルとの各々で公平性スコアを算出し、比較することで公平性是正処理の効果を判定できる。

【0049】

図５の説明に戻り、また、判定装置１０は、モデル寄与度を用いて是正モデルの訓練を行った場合における影響度を判定する（ｔ５）。図７は、本実施形態にかかるデータ加工による加工傾向とモデル寄与度の一例を示す図である。図７の左側に示すように、是正データ全体の加工強度、すなわち、分散によって、判定装置１０は、属性が一律に加工されているか、偏って加工されているか、などデータ加工による加工傾向を判断できる。しかしながら、判定装置１０は、分散のみでは、加工されている属性、例えば、図７の左側の枠で囲まれた属性がモデル影響の高い属性かは判断が難しい。そこで、図７の右側に示すように、判定装置１０は、加工されている属性、例えば、枠で囲まれた属性のモデル寄与度が高いか否かも、モデル影響の判定に用いる。すなわち、判定装置１０は、是正データの分散、および、加工された属性およびその加工数と、モデル寄与度との一致度（以下、「寄与度ランク」という）を用いて、機械学習モデルに対する影響度を算出する。

【0050】

図８は、本実施形態にかかる加工傾向とモデル寄与度とによる影響度判定の一例を示す図である。まず、判定装置１０は、例えば、是正データの加工傾向として、入力データと是正データとの差分から加工の強い属性を抽出する。より具体的には、判定装置１０は、例えば、図８の左上に示すように、入力データと是正データとの差分の絶対値をヒートマップにして算出し、加工強度が一定値以上の加工の強い属性を抽出する。

【0051】

また、判定装置１０は、例えば、図８の左下に示すように、各属性のモデル寄与度を算出する。モデル寄与度は、例えば、対象となる機械学習モデルによって異なるが、既存技術であるフィルタ法やGain法などを用いて算出される。

【0052】

また、判定装置１０は、例えば、図８の右側に示すように、抽出された、加工強度が一定値以上の加工の強い属性のデータ件数をカウントして上位所定数の属性を抽出し、抽出された属性のモデル寄与度から寄与度ランクを算出する。寄与度ランクは、例えば、次の式（３）を用いて算出される。

【0053】

【数3】

【0054】

式（３）において、ｎｕｍは、例えば、抽出された上位所定数の各属性を示す番号である。また、Ｒａｎｋは、例えば、抽出された上位所定数の各属性のモデル寄与度の順位を示す。また、Ｃｏｕｎｔは、例えば、抽出された上位所定数の各属性のカウントされたデータ件数を示す。

【0055】

そして、判定装置１０は、是正データの分散値と寄与度ランクとに基づいて、モデル影響度を判定する。モデル影響度の判定は、例えば、是正データの分散値と寄与度ランクとからモデル影響度をマッピングすることにより行われる。

【0056】

図９は、本実施形態にかかるモデル影響度の出力の一例を示す図である。図９に示すように、判定装置１０は、是正データの分散値と寄与度ランクとに基づいて、モデル影響度をマッピングする。例えば、機械学習モデルにとって、訓練データの良い加工とは、全体的にデータ加工がされており、すなわち分散値が小さく、かつ、重点的に加工している属性が機械学習モデルに対する寄与度の高い属性であることである。そこで、判定装置１０は、分散値が低く、寄与度ランクが高い是正データ、図９の場合は、グラフの右上にマッピングされる是正データの方が、モデル影響度がより高く、機械学習モデルの精度に与える影響が小さいと判定できる。

【0057】

図５の説明に戻り、また、判定装置１０は、式（１）および（２）を用いてそれぞれ算出された、公平性是正処理による公平性スコア、および機械学習モデルの予測精度、ならびにモデル影響スコアを是正データごとに出力する（ｔ６）。モデル影響スコアは、式（３）を用いて算出された寄与度ランクを用いて、例えば、「モデル影響スコア＝（α×１／分散値＋β×寄与度ランク）」の式によって算出可能である。なお、当該式におけるαおよびβは、それぞれ、分散値および寄与度ランクに対する重みパラメータである。このように、公平性是正処理による運用モデルへの影響、すなわち、公平性スコア、予測精度、ならびにモデル影響スコアを併せて出力することで判定装置１０またはユーザは公平性是正処理による影響とその効果をより詳しく把握できる。そして、判定装置１０またはユーザは、公平性是正処理による公平性スコア、機械学習モデルの予測精度、およびモデル影響スコアに基づいて、様々な是正モデルの候補の中から、運用モデルに適用する是正モデルを選択できる。

【0058】

図１０は、本実施形態にかかるモデル影響スコアによる候補判定の一例を示す図である。図１０のグラフは、ｘ軸を公平性是正処理による公平性スコア、ｙ軸を機械学習モデルの予測精度、およびｚ軸をモデル影響スコアとし、是正モデルの案１～５をマッピングした３軸表示のグラフである。

【0059】

そして、図１０に示すように、判定装置１０は、公平性スコア、機械学習モデルの予測精度、およびモデル影響スコアのいずれも高い是正データを、機械学習モデルの訓練に用いる最有力候補（図８の例では是正案５）として選択できる。このような是正案の選択は、例えば、公平性スコアや予測精度、モデル影響スコアのそれぞれに対して所定の閾値を設定し、当該閾値を用いて判定装置１０によって実行可能である。

【0060】

ここで、複数の是正案を出力する方法についてより詳しく説明する。図１１は、本実施形態にかかる予測精度、公平性スコア、およびモデル影響スコアの出力方法の一例を示す図である。図１１の左側に示すように、判定装置１０は、複数の異なるルール１～５に従ってそれぞれ作成された是正フィルタ１～５に入力データを通し、それぞれの是正データを生成し、対応する是正モデルに入力する。そして、判定装置１０は、各是正データに対して、図６に示したように疑似ラベルを付与し、疑似ラベルに基づいて是正案ごとに予測精度および公平性スコアを算出する。また、判定装置１０は、各是正データに対してモデル影響スコアを算出する。そして、判定装置１０は、図１１の右側に示すように、予測精度、公平性スコア、およびモデル影響スコアを各軸とする３軸表示のグラフを表示装置５に出力して表示させる。

【0061】

図５の説明に戻り、また、判定装置１０は、運用モデルを、再訓練により更新された是正モデルの複製に差し替える（ｔ７）。なお、複数の是正案がある場合、運用モデルは、選択された１つの是正案に対応する是正モデルの複製に差し替えられる。また、運用モデルを差し替える際、判定装置１０は、是正フィルタも分類装置４に適用し、当該是正フィルタを用いて運用モデルへの入力データを是正データに変換するようにしてもよい。分類装置４に適用される是正フィルタも、複数の是正案がある場合は、選択された１つの是正案に対応する是正フィルタである。このようにして、判定装置１０は、公平性是正処理による機械学習モデルへの精度影響を示しつつ、適切な公平性是正処理を機械学習モデルに適用できる。

【0062】

［処理の流れ］
次に、図１２および図１３を用いて、判定装置１０による判定処理の流れを説明する。図１２は、本実施形態にかかる判定処理の流れの一例を示すフローチャートである。当該判定処理は、例えば、運用モデルに入力データが入力される際に、当該入力データを用いて実行される。また、当該判定処理に用いられる是正モデルは初回時のみ運用モデルが複製される。

【0063】

まず、図１２に示すように、判定装置１０は、入力データに対して公平性是正処理を実行する（ステップＳ１０１）。より具体的には、例えば、判定装置１０は、複数の異なるルールに従ってそれぞれ作成された是正フィルタの各々に入力データを通し、それぞれの是正案に対する是正データを生成する。

【0064】

次に、判定装置１０は、是正案ごとに、対応する是正データに基づいて是正モデルを再訓練して更新する（ステップＳ１０２）。これにより、是正案ごとの是正モデルが生成される。

【0065】

次に、判定装置１０は、是正案ごとに、ステップＳ１０１で生成された是正データの各々を、対応する是正モデルに入力し、是正モデルの出力値に基づいて是正データの各々の分類について判定する（ステップＳ１０３）。

【0066】

次に、判定装置１０は、ステップＳ１０３の判定結果を基に密度ベースでクラスタリングして是正データにラベル付けを行い、当該ラベルを正解ラベルとして判定結果に基づいて是正モデルの精度を算出する（ステップＳ１０４）。ステップＳ１０３も、是正案ごとに実行される。

【0067】

次に、判定装置１０は、是正案ごとに、ステップＳ１０３の判定結果に基づいて、是正モデルの公平性スコアを算出する（ステップＳ１０５）。なお、ステップＳ１０４およびＳ１０５の是正モデルの精度および公平性スコア算出の実行順序は逆であってもよいし、並列で実行されてもよい。

【0068】

次に、判定装置１０は、是正案ごとに、是正データの分散値および寄与度ランクを用いて、是正モデルのモデル影響スコアを算出する（ステップＳ１０６）。ステップＳ１０６で実行されるモデル影響スコアの算出の流れについては、図１３を用いて、より具体的に説明する。

【0069】

図１３は、本実施形態にかかるモデル影響スコア算出処理の流れの一例を示すフローチャートである。まず、図１３に示すように、判定装置１０は、是正案ごとに、対応する是正データと、入力データとの差分量に基づいて、分散値を算出する（ステップＳ２０１）。

【0070】

次に、判定装置１０は、是正案ごとに、対応する是正データと、入力データとの差分量に基づいて加工強度を算出し、当該加工強度が一定値以上の加工の強い属性を特定する（ステップＳ２０２）。なお、加工強度が一定値以上の属性とは、例えば、加工強度が所定の閾値以上ある上位所定数の属性であってよい。

【0071】

次に、判定装置１０は、是正案ごとに、ステップＳ２０２で特定された属性のモデル寄与度を算出する（ステップＳ２０３）。

【0072】

次に、判定装置１０は、是正案ごとに、ステップＳ２０３で算出されたモデル寄与度に基づいて、寄与度ランクを算出する（ステップＳ２０４）。

【0073】

次に、判定装置１０は、是正案ごとに、ステップＳ２０１で算出された分散値と、ステップＳ２０４で算出された寄与度ランクとに基づいて、モデル影響スコアを算出する（ステップＳ２０５）。ステップＳ２０５の実行後、図１３に示すモデル影響スコア算出処理は終了し、図１２のステップＳ１０７へ進む。

【0074】

次に、判定装置１０は、ステップＳ１０４で算出された精度、ステップＳ１０５で算出された公平性スコア、およびステップＳ１０６で算出されたモデル影響スコアに基づいて、運用モデルに適用する是正案を選択する（ステップＳ１０７）。是正案の選択について、例えば、運用モデルと比較して予測精度、公平性スコア、およびモデル影響スコアが最も上回っている是正案が選択されてよい。または、判定装置１０が、ユーザに対して、運用モデルの予測精度および公平性スコアと共に、各是正案の予測精度、公平スコア、およびモデル影響スコアを提示し、ユーザによって１つの是正案が選択されてよい。

【0075】

次に、判定装置１０は、ステップＳ１０７で選択された是正案に対応する是正モデルを複製して、運用モデルと差し替えることにより、運用モデルを更新する（ステップＳ１０８）。また、この際、判定装置１０は、ステップＳ１０７で選択された是正案に対応する是正フィルタを複製するなどし、当該是正フィルタを用いて運用モデルへの入力データを是正データに変換するように適用してもよい。なお、ステップＳ１０８で図１２に示す判定処理は終了するが、例えば、運用モデルに入力データが入力される際に、ステップＳ１０７で選択された是正モデルを用いて、ステップＳ１０１から処理が繰り返される。

【0076】

［効果］
上述したように、判定装置１０は、第１の属性を基準にした第１の複数のデータの偏りに基づいて第１の複数のデータを加工して得られた第２の複数のデータに基づいて、第１の機械学習モデルを更新して第２の機械学習モデルを生成し、第１の属性を基準にした第３の複数のデータの偏りに基づいて第３の複数のデータを加工して得られた第４の複数のデータを第２の機械学習モデルへ入力することによって、予測結果を取得し、第４の複数のデータのそれぞれの第１の機械学習モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって、第４の複数のデータのそれぞれの正解ラベルを決定し、予測結果と正解ラベルとに基づいて、第２の機械学習モデルの精度を判定し、第１の複数のデータと第２の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある第１の属性を特定し、データを入力して第２の機械学習モデルが推論を行った場合における推論結果への第１の属性の寄与の大きさを特定し、寄与の大きさに基づいて、第２の複数のデータによって第２の機械学習モデルの訓練を行った場合における影響度を判定する。

【0077】

このように、判定装置１０は、運用モデルの特徴量のクラスタリングによる正解ラベルと是正モデルの予測結果とを比較し、加工量の多い属性のモデル寄与度に基づいて訓練の影響度を判定する。これにより、判定装置１０は、公平性是正処理による機械学習モデルへの精度影響を示すことができる。

【0078】

また、判定装置１０は、第１の複数のデータに含まれる特徴量および正解ラベルの少なくとも１つを第１のルールに従って変換して第２の複数のデータを取得する。

【0079】

これにより、判定装置１０は、機械学習モデルに対する公平性を是正できる。

【0080】

また、判定装置１０によって実行される、第１の複数のデータを複数種類の第１のルールに従って変換して得られる第２の複数のデータに基づいて、第１のルールの種類ごとに第１の機械学習モデルを更新して複数の第２の機械学習モデルを生成する、処理を含み、判定装置１０は、所定の条件に基づいて、複数の第２の機械学習モデルから１つの第２の機械学習モデルを選択する。

【0081】

これにより、判定装置１０は、機械学習モデルの予測精度の劣化を考慮しつつ、より適切に公平性を是正できる。

【0082】

また、判定装置１０によって実行される、１つの第２の機械学習モデルを選択する処理は、第１のルールの種類ごとの第２の複数のデータの公平性スコアと、第２の機械学習モデルの精度と、影響度とに基づいて、１つの第２の機械学習モデルを選択する処理を含む。

【0083】

これにより、判定装置１０は、機械学習モデルの予測精度の劣化、および是正データによって機械学習モデルの訓練を行った場合における影響度を考慮しつつ、より適切に公平性を是正できる。

【0084】

また、判定装置１０は、第２の複数のデータの公平性スコアと、第２の機械学習モデルの精度と、影響度とを軸とするグラフを出力する。

【0085】

これにより、判定装置１０は、機械学習モデルの予測精度の劣化、および是正データによって機械学習モデルの訓練を行った場合における影響度を考慮しつつ、より適切に公平性を是正するために、機械学習モデルの予測精度と公平性スコアをユーザに提示できる。

【0086】

また、判定装置１０によって実行される、第１の属性を特定する処理は、第１の複数のデータと前記第２の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある上位所定数の第１の属性を特定する処理を含む。

【0087】

これにより、判定装置１０は、加工量のより多い属性に限定して、公平性是正による機械学習モデルへの影響を示すことができる。

【0088】

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報は、特記する場合を除いて任意に変更されてもよい。また、実施例で説明した具体例、分布、数値などは、あくまで一例であり、任意に変更されてもよい。

【0089】

また、判定装置１０の構成要素の分散や統合の具体的形態は図示のものに限られない。例えば、判定装置１０の分類部１２が複数の処理部に分散されたり、判定装置１０の是正部１３と生成部１４とが１つの処理部に統合されたりしてもよい。つまり、その構成要素の全部または一部は、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合されてもよい。さらに、各装置の各処理機能は、その全部または任意の一部が、ＣＰＵ（Central Processing Unit）および当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

【0090】

図１４は、本実施形態にかかる判定装置１０のハードウェア構成例を示す図である。図１４では、判定装置１０を例として、ハードウェア構成例を示すが、図５に示す分類装置４も判定装置１０と同様のハードウェア構成を採用できる。図１４に示すように、判定装置１０は、通信インタフェース１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図１４に示した各部は、バスなどで相互に接続される。

【0091】

通信インタフェース１０ａは、ネットワークインタフェースカードなどであり、他の情報処理装置との通信を行う。ＨＤＤ１０ｂは、例えば、図４などに示した各機能を動作させるプログラムやデータを記憶する。

【0092】

プロセッサ１０ｄは、ＣＰＵ、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）などである。また、プロセッサ１０ｄは、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの集積回路により実現されるようにしてもよい。プロセッサ１０ｄは、例えば、図４などに示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂなどから読み出してメモリ１０ｃに展開する。これにより、プロセッサ１０ｄは、図４などで説明した各機能を実現するプロセスを実行するハードウェア回路として動作可能である。

【0093】

また、判定装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、判定装置１０によって実行されることに限定されるものではない。例えば、他の情報処理装置がプログラムを実行する場合や、他の情報処理装置と判定装置１０とが協働してプログラムを実行するような場合にも、上記実施例が同様に適用されてよい。

【0094】

当該プログラムは、インターネットなどのネットワークを介して配布されてもよい。また、当該プログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＭＯ（Magneto－Optical disk）、ＤＶＤ（Digital Versatile Disc）などのコンピュータ可読記憶媒体に記録されてよい。そして、当該プログラムは、判定装置１０などによって記録媒体から読み出されることによって実行されてもよい。

【0095】

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

【0096】

（付記１）第１の属性を基準にした第１の複数のデータの偏りに基づいて前記第１の複数のデータを加工して得られた第２の複数のデータに基づいて、第１の機械学習モデルを更新して第２の機械学習モデルを生成し、
前記第１の属性を基準にした第３の複数のデータの偏りに基づいて前記第３の複数のデータを加工して得られた第４の複数のデータを前記第２の機械学習モデルへ入力することによって、予測結果を取得し、
前記第４の複数のデータのそれぞれの前記第１の機械学習モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって、前記第４の複数のデータのそれぞれの正解ラベルを決定し、
前記予測結果と前記正解ラベルとに基づいて、前記第２の機械学習モデルの精度を判定し、
前記第１の複数のデータと前記第２の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある前記第１の属性を特定し、
データを入力して前記第２の機械学習モデルが推論を行った場合における推論結果への前記第１の属性の寄与の大きさを特定し、
前記寄与の大きさに基づいて、前記第２の複数のデータによって前記第２の機械学習モデルの訓練を行った場合における影響度を判定する、
処理をコンピュータに実行させることを特徴とする判定プログラム。

【0097】

（付記２）前記第１の複数のデータに含まれる特徴量および正解ラベルの少なくとも１つを第１のルールに従って変換して前記第２の複数のデータを取得する、
処理を前記コンピュータに実行させることを特徴とする付記１に記載の判定プログラム。

【0098】

（付記３）前記第２の機械学習モデルを生成する処理は、
前記第１の複数のデータを複数種類の前記第１のルールに従って変換して得られる第２の複数のデータに基づいて、前記第１のルールの種類ごとに前記第１の機械学習モデルを更新して複数の前記第２の機械学習モデルを生成する、
処理を含み、
所定の条件に基づいて、複数の前記第２の機械学習モデルから１つの前記第２の機械学習モデルを選択する
処理を前記コンピュータに実行させることを特徴とする付記２に記載の判定プログラム。

【0099】

（付記４）前記１つの第２の機械学習モデルを選択する処理は、前記第１のルールの種類ごとの前記第２の複数のデータの公平性スコアと、前記第２の機械学習モデルの精度と、前記影響度とに基づいて、前記１つの第２の機械学習モデルを選択する、
処理を含むことを特徴とする付記３に記載の判定プログラム。

【0100】

（付記５）前記第２の複数のデータの公平性スコアと、前記第２の機械学習モデルの精度と、前記影響度とを軸とするグラフを出力する、
処理を前記コンピュータに実行させることを特徴とする付記１に記載の判定プログラム。

【0101】

（付記６）前記第１の属性を特定する処理は、
前記第１の複数のデータと前記第２の複数のデータとの差に基づいて、前記複数の属性のうち加工量が所定の閾値以上ある上位所定数の前記第１の属性を特定する、
処理を含むことを特徴とする付記１に記載の判定プログラム。

【0102】

（付記７）第１の属性を基準にした第１の複数のデータの偏りに基づいて前記第１の複数のデータを加工して得られた第２の複数のデータに基づいて、第１の機械学習モデルを更新して第２の機械学習モデルを生成し、
前記第１の属性を基準にした第３の複数のデータの偏りに基づいて前記第３の複数のデータを加工して得られた第４の複数のデータを前記第２の機械学習モデルへ入力することによって、予測結果を取得し、
前記第４の複数のデータのそれぞれの前記第１の機械学習モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって、前記第４の複数のデータのそれぞれの正解ラベルを決定し、
前記予測結果と前記正解ラベルとに基づいて、前記第２の機械学習モデルの精度を判定し、
前記第１の複数のデータと前記第２の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある前記第１の属性を特定し、
データを入力して前記第２の機械学習モデルが推論を行った場合における推論結果への前記第１の属性の寄与の大きさを特定し、
前記寄与の大きさに基づいて、前記第２の複数のデータによって前記第２の機械学習モデルの訓練を行った場合における影響度を判定する、
処理を実行する制御部を備えた判定装置。

【0103】

（付記８）前記第１の複数のデータに含まれる特徴量および正解ラベルの少なくとも１つを第１のルールに従って変換して前記第２の複数のデータを取得する、
処理を前記制御部が実行することを特徴とする付記７に記載の判定装置。

【0104】

（付記９）前記第２の機械学習モデルを生成する処理は、
前記第１の複数のデータを複数種類の前記第１のルールに従って変換して得られる第２の複数のデータに基づいて、前記第１のルールの種類ごとに前記第１の機械学習モデルを更新して複数の前記第２の機械学習モデルを生成する、
処理を含み、
所定の条件に基づいて、複数の前記第２の機械学習モデルから１つの前記第２の機械学習モデルを選択する
処理を前記制御部が実行することを特徴とする付記８に記載の判定装置。

【0105】

（付記１０）前記１つの第２の機械学習モデルを選択する処理は、前記第１のルールの種類ごとの前記第２の複数のデータの公平性スコアと、前記第２の機械学習モデルの精度と、前記影響度とに基づいて、前記１つの第２の機械学習モデルを選択する、
処理を含むことを特徴とする付記９に記載の判定装置。

【0106】

（付記１１）前記第２の複数のデータの公平性スコアと、前記第２の機械学習モデルの精度と、前記影響度とを軸とするグラフを出力する、
処理を前記制御部が実行することを特徴とする付記７に記載の判定装置。

【0107】

（付記１２）前記第１の属性を特定する処理は、
前記第１の複数のデータと前記第２の複数のデータとの差に基づいて、前記複数の属性のうち加工量が所定の閾値以上ある上位所定数の前記第１の属性を特定する、
処理を含むことを特徴とする付記７に記載の判定装置。

【0108】

（付記１３）第１の属性を基準にした第１の複数のデータの偏りに基づいて前記第１の複数のデータを加工して得られた第２の複数のデータに基づいて、第１の機械学習モデルを更新して第２の機械学習モデルを生成し、
前記第１の属性を基準にした第３の複数のデータの偏りに基づいて前記第３の複数のデータを加工して得られた第４の複数のデータを前記第２の機械学習モデルへ入力することによって、予測結果を取得し、
前記第４の複数のデータのそれぞれの前記第１の機械学習モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって、前記第４の複数のデータのそれぞれの正解ラベルを決定し、
前記予測結果と前記正解ラベルとに基づいて、前記第２の機械学習モデルの精度を判定し、
前記第１の複数のデータと前記第２の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある前記第１の属性を特定し、
データを入力して前記第２の機械学習モデルが推論を行った場合における推論結果への前記第１の属性の寄与の大きさを特定し、
前記寄与の大きさに基づいて、前記第２の複数のデータによって前記第２の機械学習モデルの訓練を行った場合における影響度を判定する、
処理をコンピュータが実行する判定方法。

【0109】

（付記１４）前記第１の複数のデータに含まれる特徴量および正解ラベルの少なくとも１つを第１のルールに従って変換して前記第２の複数のデータを取得する、
処理を前記コンピュータが実行することを特徴とする付記１３に記載の判定方法。

【0110】

（付記１５）前記第２の機械学習モデルを生成する処理は、
前記第１の複数のデータを複数種類の前記第１のルールに従って変換して得られる第２の複数のデータに基づいて、前記第１のルールの種類ごとに前記第１の機械学習モデルを更新して複数の前記第２の機械学習モデルを生成する、
処理を含み、
所定の条件に基づいて、複数の前記第２の機械学習モデルから１つの前記第２の機械学習モデルを選択する
処理を前記コンピュータが実行することを特徴とする付記１４に記載の判定方法。

【0111】

（付記１６）前記１つの第２の機械学習モデルを選択する処理は、前記第１のルールの種類ごとの前記第２の複数のデータの公平性スコアと、前記第２の機械学習モデルの精度と、前記影響度とに基づいて、前記１つの第２の機械学習モデルを選択する、
処理を含むことを特徴とする付記１５に記載の判定方法。

【0112】

（付記１７）前記第２の複数のデータの公平性スコアと、前記第２の機械学習モデルの精度と、前記影響度とを軸とするグラフを出力する、
処理を前記コンピュータが実行することを特徴とする付記１３に記載の判定方法。

【0113】

（付記１８）前記第１の属性を特定する処理は、
前記第１の複数のデータと前記第２の複数のデータとの差に基づいて、前記複数の属性のうち加工量が所定の閾値以上ある上位所定数の前記第１の属性を特定する、
処理を含むことを特徴とする付記１３に記載の判定方法。

【0114】

（付記１９）プロセッサと、
プロセッサに動作可能に接続されたメモリと
を備えた情報処理装置であって、プロセッサは、
第１の属性を基準にした第１の複数のデータの偏りに基づいて前記第１の複数のデータを加工して得られた第２の複数のデータに基づいて、第１の機械学習モデルを更新して第２の機械学習モデルを生成し、
前記第１の属性を基準にした第３の複数のデータの偏りに基づいて前記第３の複数のデータを加工して得られた第４の複数のデータを前記第２の機械学習モデルへ入力することによって、予測結果を取得し、
前記第４の複数のデータのそれぞれの前記第１の機械学習モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって、前記第４の複数のデータのそれぞれの正解ラベルを決定し、
前記予測結果と前記正解ラベルとに基づいて、前記第２の機械学習モデルの精度を判定し、
前記第１の複数のデータと前記第２の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある前記第１の属性を特定し、
データを入力して前記第２の機械学習モデルが推論を行った場合における推論結果への前記第１の属性の寄与の大きさを特定し、
前記寄与の大きさに基づいて、前記第２の複数のデータによって前記第２の機械学習モデルの訓練を行った場合における影響度を判定する、
処理を実行することを特徴とする情報処理装置。

【符号の説明】

【0115】