IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-29832判定プログラム、判定装置、および判定方法
<>
  • 特開-判定プログラム、判定装置、および判定方法 図1
  • 特開-判定プログラム、判定装置、および判定方法 図2
  • 特開-判定プログラム、判定装置、および判定方法 図3
  • 特開-判定プログラム、判定装置、および判定方法 図4
  • 特開-判定プログラム、判定装置、および判定方法 図5
  • 特開-判定プログラム、判定装置、および判定方法 図6
  • 特開-判定プログラム、判定装置、および判定方法 図7
  • 特開-判定プログラム、判定装置、および判定方法 図8
  • 特開-判定プログラム、判定装置、および判定方法 図9
  • 特開-判定プログラム、判定装置、および判定方法 図10
  • 特開-判定プログラム、判定装置、および判定方法 図11
  • 特開-判定プログラム、判定装置、および判定方法 図12
  • 特開-判定プログラム、判定装置、および判定方法 図13
  • 特開-判定プログラム、判定装置、および判定方法 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024029832
(43)【公開日】2024-03-07
(54)【発明の名称】判定プログラム、判定装置、および判定方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240229BHJP
【FI】
G06N20/00
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022132233
(22)【出願日】2022-08-23
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】成田 顕一郎
(57)【要約】
【課題】機械学習モデルに対する公平性是正処理の根本は訓練データの改変であるため、判定結果の公平性のみならず、機械学習モデルの精度も維持しなければならない。
【解決手段】コンピュータは、第1のデータを加工して得られた第2のデータに基づいて運用モデルを更新して是正モデルを生成し、第3のデータを加工して得られた第4のデータを是正モデルへ入力することによる予測結果と、第4のデータのそれぞれの運用モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって決定される正解ラベルとに基づいて是正モデルの精度を判定し、第1のデータと第2のデータとの差に基づいて特定された、加工量が所定の閾値以上ある第1の属性の、是正モデルが推論を行った場合における推論結果への寄与の大きさを特定し、寄与の大きさに基づいて是正モデルの訓練を行った場合における影響度を判定する。
【選択図】図11
【特許請求の範囲】
【請求項1】
第1の属性を基準にした第1の複数のデータの偏りに基づいて前記第1の複数のデータを加工して得られた第2の複数のデータに基づいて、第1の機械学習モデルを更新して第2の機械学習モデルを生成し、
前記第1の属性を基準にした第3の複数のデータの偏りに基づいて前記第3の複数のデータを加工して得られた第4の複数のデータを前記第2の機械学習モデルへ入力することによって、予測結果を取得し、
前記第4の複数のデータのそれぞれの前記第1の機械学習モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって、前記第4の複数のデータのそれぞれの正解ラベルを決定し、
前記予測結果と前記正解ラベルとに基づいて、前記第2の機械学習モデルの精度を判定し、
前記第1の複数のデータと前記第2の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある前記第1の属性を特定し、
データを入力して前記第2の機械学習モデルが推論を行った場合における推論結果への前記第1の属性の寄与の大きさを特定し、
前記寄与の大きさに基づいて、前記第2の複数のデータによって前記第2の機械学習モデルの訓練を行った場合における影響度を判定する、
処理をコンピュータに実行させることを特徴とする判定プログラム。
【請求項2】
前記第1の複数のデータに含まれる特徴量および正解ラベルの少なくとも1つを第1のルールに従って変換して前記第2の複数のデータを取得する、
処理を前記コンピュータに実行させることを特徴とする請求項1に記載の判定プログラム。
【請求項3】
前記第2の機械学習モデルを生成する処理は、
前記第1の複数のデータを複数種類の前記第1のルールに従って変換して得られる第2の複数のデータに基づいて、前記第1のルールの種類ごとに前記第1の機械学習モデルを更新して複数の前記第2の機械学習モデルを生成する、
処理を含み、
所定の条件に基づいて、複数の前記第2の機械学習モデルから1つの前記第2の機械学習モデルを選択する
処理を前記コンピュータに実行させることを特徴とする請求項2に記載の判定プログラム。
【請求項4】
前記1つの第2の機械学習モデルを選択する処理は、前記第1のルールの種類ごとの前記第2の複数のデータの公平性スコアと、前記第2の機械学習モデルの精度と、前記影響度とに基づいて、前記1つの第2の機械学習モデルを選択する、
処理を含むことを特徴とする請求項3に記載の判定プログラム。
【請求項5】
前記第2の複数のデータの公平性スコアと、前記第2の機械学習モデルの精度と、前記影響度とを軸とするグラフを出力する、
処理を前記コンピュータに実行させることを特徴とする請求項1に記載の判定プログラム。
【請求項6】
前記第1の属性を特定する処理は、
前記第1の複数のデータと前記第2の複数のデータとの差に基づいて、前記複数の属性のうち加工量が所定の閾値以上ある上位所定数の前記第1の属性を特定する、
処理を含むことを特徴とする請求項1に記載の判定プログラム。
【請求項7】
第1の属性を基準にした第1の複数のデータの偏りに基づいて前記第1の複数のデータを加工して得られた第2の複数のデータに基づいて、第1の機械学習モデルを更新して第2の機械学習モデルを生成し、
前記第1の属性を基準にした第3の複数のデータの偏りに基づいて前記第3の複数のデータを加工して得られた第4の複数のデータを前記第2の機械学習モデルへ入力することによって、予測結果を取得し、
前記第4の複数のデータのそれぞれの前記第1の機械学習モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって、前記第4の複数のデータのそれぞれの正解ラベルを決定し、
前記予測結果と前記正解ラベルとに基づいて、前記第2の機械学習モデルの精度を判定し、
前記第1の複数のデータと前記第2の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある前記第1の属性を特定し、
データを入力して前記第2の機械学習モデルが推論を行った場合における推論結果への前記第1の属性の寄与の大きさを特定し、
前記寄与の大きさに基づいて、前記第2の複数のデータによって前記第2の機械学習モデルの訓練を行った場合における影響度を判定する、
処理を実行する制御部を備えた判定装置。
【請求項8】
第1の属性を基準にした第1の複数のデータの偏りに基づいて前記第1の複数のデータを加工して得られた第2の複数のデータに基づいて、第1の機械学習モデルを更新して第2の機械学習モデルを生成し、
前記第1の属性を基準にした第3の複数のデータの偏りに基づいて前記第3の複数のデータを加工して得られた第4の複数のデータを前記第2の機械学習モデルへ入力することによって、予測結果を取得し、
前記第4の複数のデータのそれぞれの前記第1の機械学習モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって、前記第4の複数のデータのそれぞれの正解ラベルを決定し、
前記予測結果と前記正解ラベルとに基づいて、前記第2の機械学習モデルの精度を判定し、
前記第1の複数のデータと前記第2の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある前記第1の属性を特定し、
データを入力して前記第2の機械学習モデルが推論を行った場合における推論結果への前記第1の属性の寄与の大きさを特定し、
前記寄与の大きさに基づいて、前記第2の複数のデータによって前記第2の機械学習モデルの訓練を行った場合における影響度を判定する、
処理をコンピュータが実行する判定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、判定技術に関する。
【背景技術】
【0002】
ローン審査など機械学習モデルを用いて審査や審査の支援が行われる場合がある。しかしながら、機械学習モデルが不公平なバイアスを持つデータで訓練されてしまった結果、例えば、性差に依存した判定が行われてしまう場合がある。
【0003】
そこで、不公平なバイアスを持つデータを排除して機械学習モデルによる判定の公平性を担保するための公平性是正処理が必要になってくる。公平性是正処理では、例えば、訓練データを加工し、機械学習モデルの再訓練を行う。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2021-012593号公報
【特許文献2】特開2021-149842号公報
【特許文献3】米国特許出願公開第2021/0304063号明細書
【特許文献4】米国特許出願公開第2020/0320429号明細書
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、公平性是正処理は機械学習の精度に影響を与えるが、その根本は訓練データの改変であるため、判定結果の公平性のみならず、機械学習モデルへの精度も維持しなければならない。
【0006】
1つの側面では、公平性是正処理による機械学習モデルへの精度影響を示すことを目的とする。
【課題を解決するための手段】
【0007】
1つの態様において、判定プログラムは、第1の属性を基準にした第1の複数のデータの偏りに基づいて第1の複数のデータを加工して得られた第2の複数のデータに基づいて、第1の機械学習モデルを更新して第2の機械学習モデルを生成し、第1の属性を基準にした第3の複数のデータの偏りに基づいて第3の複数のデータを加工して得られた第4の複数のデータを第2の機械学習モデルへ入力することによって、予測結果を取得し、第4の複数のデータのそれぞれの第1の機械学習モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって、第4の複数のデータのそれぞれの正解ラベルを決定し、予測結果と正解ラベルとに基づいて、第2の機械学習モデルの精度を判定し、第1の複数のデータと第2の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある第1の属性を特定し、データを入力して第2の機械学習モデルが推論を行った場合における推論結果への第1の属性の寄与の大きさを特定し、寄与の大きさに基づいて、第2の複数のデータによって第2の機械学習モデルの訓練を行った場合における影響度を判定する処理をコンピュータに実行させる。
【発明の効果】
【0008】
1つの側面では、公平性是正処理による機械学習モデルへの精度影響を示すことができる。
【図面の簡単な説明】
【0009】
図1図1は、本実施形態にかかる公平性是正処理の一例を示す図である。
図2図2は、本実施形態にかかる公平性是正処理によるデータ加工傾向の一例を示す図である。
図3図3は、本実施形態にかかるデータ加工によるモデル影響の一例を示す図である。
図4図4は、本実施形態にかかる判定装置10の構成例を示す図である。
図5図5は、本実施形態にかかる分類システム1の構成例を示す図である。
図6図6は、本実施形態にかかる精度判定方法の一例を示す図である。
図7図7は、本実施形態にかかるデータ加工による加工傾向とモデル寄与度の一例を示す図である。
図8図8は、本実施形態にかかる加工傾向とモデル寄与度とによる影響度判定の一例を示す図である。
図9図9は、本実施形態にかかるモデル影響度の出力の一例を示す図である。
図10図10は、本実施形態にかかるモデル影響スコアによる候補判定の一例を示す図である。
図11図11は、本実施形態にかかる予測精度、公平性スコア、およびモデル影響スコアの出力方法の一例を示す図である。
図12図12は、本実施形態にかかる判定処理の流れの一例を示すフローチャートである。
図13図13は、本実施形態にかかるモデル影響スコア算出処理の流れの一例を示すフローチャートである。
図14図14は、本実施形態にかかる判定装置10のハードウェア構成例を示す図である。
【発明を実施するための形態】
【0010】
以下に、本実施形態にかかる判定プログラム、判定装置、および判定方法の実施例を図面に基づいて詳細に説明する。なお、この実施例により本実施形態が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
【0011】
まず、機械学習による不公平な判定とその是正処理について説明する。図1は、本実施形態にかかる公平性是正処理の一例を示す図である。図1の左側の表は、属性A~Dを入力データ、すなわち、特徴量とし、“A”か“B”の分類結果を正解ラベルとして機械学習により生成した機械学習モデルの判定結果の一例を示すものである。
【0012】
図1の左側の表を参照すると、No.3の女性とNo.5の男性は、性別以外の属性B~Dが全て同一であるのに異なる判定結果となっている。これは、機械学習モデルによって性差に依存した不公平な判定が行われたことを示している。
【0013】
そこで、公平性是正処理として、図1の右側の表に示すように、性別を示す属性Aを保護属性として保護属性以外の属性B~Dの数値を変更して是正データに加工し、判定結果が性差に依存しないように機械学習モデルを再訓練させる。なお、保護属性である属性A以外の属性B~Dの数値は、所定のルールに従って変換されてもよいし、数値的にあり得る範囲でランダムに変更されてもよい。また、属性B~Dの全ての数値が変更されなくてもよい。
【0014】
また、公平性是正処理の効果は、例えば、公平性スコアの一例であるDIスコアにより判定可能である。DIスコアは、次の式(1)を用いて算出可能である。
【0015】
【数1】
【0016】
式(1)を用いて、是正前後の判定結果の公平性スコアを算出して比較することにより公平性是正処理の効果が判定可能である。
【0017】
このような公平性是正処理によって、不公平な判定を行うように訓練されてしまった機械学習モデルを是正し、効果を確認できる。しかしながら、公平性是正処理では入力データを加工するため、機械学習モデルの予測精度が劣化する可能性がある。そのため、特に機械学習モデルをシステムに導入して運用する場合に公平性是正処理を適用するとシステムへの影響が大きくなるという問題がある。
【0018】
図2は、本実施形態にかかる公平性是正処理によるデータ加工傾向の一例を示す図である。図2の例は、強度の異なる2つの加工強度によって加工された是正データの加工傾向を示すグラフである。図2の例において、是正データの加工傾向を示すグラフは、横軸を各データの属性、縦軸を属性ごとのデータ数とし、グラフ内の色により加工強度が示される。加工強度は、入力データとその是正データとの差分量から算出できる。当該グラフを参照すると、公平性是正処理によって加工対象に選択される属性、すなわち加工範囲に偏りがあり、加工強度が強くなるに従いデータの変化量も大きくなることがわかる。
【0019】
一方、機械学習モデルを用いたシステムの長期運用では、機械学習モデルの精度を維持するために定期的な再訓練が必要である。そのため、訓練データは既存の機械学習モデルの精度に与える影響が小さい方が望ましい。なお、機械学習モデルの精度に与える影響を、単に、機械学習モデルに与える影響や、機械学習モデルに対する影響などと表現する場合がある。また、機械学習モデルに与える影響が小さい訓練データとは、図2に示した加工傾向などから考えると、例えば、公平性是正処理の実行前後の変化が少ない訓練データである。より具体的には、是正データの加工範囲が広く、かつ加工強度が弱ければ機械学習モデルに与える影響は小さいと考えられる。そこで、モデル影響度の指標として、是正データの加工範囲に対する分散値で表現する。分散値が小さく、加工強度が弱い是正データが、機械学習モデルに対してより影響が小さくなる。
【0020】
図3は、本実施形態にかかるデータ加工によるモデル影響の一例を示す図である。図3の例は、強度の異なる4つの加工強度によって加工された是正データの加工傾向を示すグラフである。varは是正データの加工範囲に対する分散値を示す。varも、加工強度と同様に、入力データとその是正データとの差分量から算出でき、図3に示すように、加工強度が高くなると、varも大きくなる。そのため、varが小さければ、機械学習モデルに対する影響が小さいと考えることができる。
【0021】
しかしながら、図3を参照すると、例えば、属性「A_MJOCC_4」が最も加工されており、加工される属性に偏りがあるのがわかる。そのため、加工される属性が、機械学習モデルにとって注目される属性であるか否かも、機械学習モデルに対する影響を考える際には重要となる。すなわち、加工される属性が注目属性でない場合は、加工強度が高くても実際には機械学習モデルに対する影響は少ないと考えることができる。機械学習モデルにとって注目される属性であるか否かは、機械学習モデルに対する注目度合い、すなわち、既存技術によって算出されるモデル寄与度によって判断することができる。そこで、本実施形態では、varに加え、加工される属性のモデル寄与度も考慮して、機械学習モデルに対する影響を判定する。
【0022】
[判定装置10の機能構成]
次に、本実施形態の動作主体である判定装置10の機能構成を説明する。図4は、本実施形態にかかる判定装置10の構成例を示す図である。判定装置10は、公平性是正処理による機械学習モデルへの精度影響を示す。
【0023】
判定装置10は、機械学習モデルへの精度影響を示すため、機械学習モデルのパラメータに基づく特徴量のクラスタリングによる正解ラベルと、是正データで機械学習モデルを再訓練して生成された是正モデルの予測結果とを比較する。また、判定装置10は、入力データと是正データとの差から特定される加工量の多い属性のモデル寄与度を特定し、モデル寄与度に基づいて、機械学習モデルの訓練を行った場合の影響度を判定する。判定装置10は、モデル記憶部11、分類部12、是正部13、生成部14、ラベル付与部15、判定部16、および学習部17を有する。
【0024】
モデル記憶部11は、例えば、機械学習モデルを記憶する。より具体的には、モデル記憶部11は、例えば、機械学習モデルのニューラルネットワークのパラメータを記憶する。パラメータには、ニューロン間の重みが含まれる。ニューロン間の重みは、機械学習により更新される。
【0025】
分類部12は、例えば、モデル記憶部11が記憶する機械学習モデルを用いて、是正部13によって入力データを変換して生成される是正データを分類し、機械学習モデルの推論結果として出力する。
【0026】
是正部13は、例えば、図1の右側の表に示すように、機械学習モデルに対する入力データを所定のルールに従って作成された是正フィルタを用いて変換して是正データを生成する。是正データは、不公平な判定を行うように訓練されてしまった機械学習モデルを是正するために、入力データとして機械学習モデルに入力されたり、訓練データとして機械学習モデルの再訓練に用いられたりする。
【0027】
生成部14は、例えば、機械学習モデルの出力層のニューロンの出力値と判定結果とに基づいて、是正データの特徴量空間であるDT(Durable Topology Space)空間に、是正データに対応する各点をプロットする。ここで、DT空間は、出力層の各ニューロンの出力値に対応した軸を有する、是正データの特徴量空間である。そして、生成部14は、DT空間にプロットした各点を分類ごとの密度に基づいてクラスタリングする。このようなDT空間に対する処理の詳細については後述する。
【0028】
ラベル付与部15は、例えば、生成部14によるクラスタリング結果から各クラスタのラベルを決定し、各クラスタに属する各点に対応する是正データに、決定されたラベルを付与する。
【0029】
判定部16は、例えば、分類部12によって分類された分類結果、すなわち、是正データに対する機械学習モデルの予測結果と、ラベル付与部15によって付与されたラベルとに基づいて、機械学習モデルの予測精度を判定する。判定部16は、ラベル付与部15によって付与されたラベルを正解ラベルとすることで、公平性是正処理による機械学習モデルの予測精度への影響を判定できる。
【0030】
また、判定部16は、例えば、第1の属性を基準にした入力データの偏りに基づいて入力データを加工して得られた是正データと入力データとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある第1の属性を特定する。ここで、第1の属性は保護属性であってよく、入力データは第1の複数のデータ、是正データは、第1の複数のデータを加工、すなわち是正処理して得られた第2の複数のデータに対応する。また、複数の属性のうち加工量が所定の閾値以上ある第1の属性とは、例えば、複数の属性のうち加工量が所定の閾値以上ある上位所定数の第1の属性であってよい。
【0031】
また、判定部16は、例えば、分類部12が是正データを入力して機械学習モデルが推論を行った場合における推論結果への第1の属性の寄与の大きさを特定する。そして、判定部16は、例えば、特定された寄与の大きさに基づいて、是正データによって機械学習モデルの訓練を行った場合における影響度を判定する。
【0032】
学習部17は、例えば、是正データを特徴量とし、ラベル付与部15によって付与されたラベルを正解ラベルとして、モデル記憶部11が記憶する機械学習モデルを再訓練して更新する。
【0033】
次に、図5を用いて、本実施形態にかかる分類システム1の機能構成を説明する。図5は、本実施形態にかかる分類システム1の構成例を示す図である。図5に示すように、分類システム1は、入力センサ2、データ記憶装置3、分類装置4、表示装置5、および判定装置10を有する。
【0034】
入力センサ2は、分類対象のデータを取得するセンサである。例えば、画像を分類する場合には、入力センサ2はカメラである。
【0035】
データ記憶装置3は、入力センサ2により取得された入力データを記憶する。データ記憶装置3は、例えば、画像データを記憶する。
【0036】
分類装置4は、データ記憶装置3が記憶する入力データを、入力データごとに運用モデルを用いて分類する装置である。ここで、運用モデルとは、分類システム1において運用される機械学習モデルを指す。分類装置4は、例えば、カメラ装置によって撮像した人物が写った画像を運用モデルに入力し、当該人物が制服を着用しているか否かを判定し、着用か非着用を分類結果として出力する。また、分類装置4は、分類結果を表示装置5に送信してもよい。
【0037】
判定装置10は、公平性是正処理による運用モデルへの精度影響を示すため、運用モデルを予め複製して是正モデルとして記憶する(t1)。是正モデルは初回のみ運用モデルの複製であるが、その後は、是正データに基づいて再訓練され、是正モデルのパラメータが更新されていくことになる。なお、運用モデルの一例は第1の機械学習モデル、是正モデルの一例は第2の機械学習モデルにそれぞれ相当する。
【0038】
また、判定装置10は、例えば、所定のルールに従って作成された是正フィルタに入力データを通すことで、入力データに対して公平性是正処理を実行し、是正データを生成する(t2)。なお、是正データは入力データごとに生成される。また、複数の是正案として所定のルールが複数ある場合は、各ルールに従って是正フィルタが作成され、各是正フィルタに入力データを通すことで各是正案に対応する複数の是正データが生成される。なお、所定のルールの一例は、第1のルールに相当する。
【0039】
また、判定装置10は、是正データに基づいて是正モデルを再訓練して更新する(t3)。なお、複数の是正案がある場合は、各是正案に対応する是正データに基づいて、各是正案に対応する是正モデルが更新される。また、ここで再訓練され更新された是正モデルの一例は、第1の属性を基準にした第1の複数のデータの偏りに基づいて表示装置5第1の複数のデータを加工して得られた第2の複数のデータに基づいて、第1の機械学習モデルを更新して第2の機械学習モデルに相当する。
【0040】
次に、判定装置10は、是正データを是正モデルに入力して、公平性是正処理による運用モデルへの精度影響を判定する(t4)。なお、複数の是正案がある場合は、各是正データは対応する是正モデルに入力され、是正案ごとに精度影響が判定される。また、運用モデルへの精度影響の判定について、正解付きデータを使って一定期間ごとに入力データに対するラベル付けを行い、人手で観測することもできるが正解付きデータの作成にはなどにコストがかかってしまう。そのため、本実施形態では、判定装置10が、入力データに対する是正モデルの出力結果を基に密度ベースでクラスタリングし、クラスタリング結果に基づいて入力データに自動的にラベル付けを行う。
【0041】
図6は、本実施形態にかかる精度判定方法の一例を示す図である。まず、判定装置10は、是正モデルに複数の是正データを入力し、個別に判定を行い、当該判定結果に基づいて是正データごとにラベルを付与する。ここで付与されるラベルを「個別ラベル」とする。なお、個別ラベルの一例は、第1の属性を基準にした第3の複数のデータの偏りに基づいて第3の複数のデータを加工して得られた第4の複数のデータ、すなわち、是正データを第2の機械学習モデルへ入力することによって習得される予測結果に相当する。
【0042】
是正モデルによる分類は、是正モデルの出力層のニューロンの出力値に基づいて行われる。例えば、判定装置10は、図4に示すように、出力層のニューロンの出力値と分類結果とに基づいてDT空間に点9をプロットする。当該DT空間は、出力層の各ニューロンの出力値に対応した軸を有する、入力データの特徴量空間である。また、DT空間の各軸は出力層の各ニューロンの出力値に対応する。また、図6の例では、出力層のニューロンは3つあるのでDT空間は3次元空間であるが、説明の便宜上、DT空間は2次元で表現される。図6の例では、是正モデルによる分類結果、すなわち、個別ラベルは点9の種類、例えば、○白丸と●黒丸とにより表現される。
【0043】
次に、判定装置10は、DT空間における点9の分類ごとの密度に基づいて点9をクラスタリングし、各クラスタを作成する。なお、点9の密度とは、例えば、特徴量の単位区間あたりの点9の個数である。図6の例では、○白丸を含むクラスタAと、●黒丸を含むクラスタBとが作成される。
【0044】
次に、判定装置10は、クラスタ内の個別ラベルの割合で各クラスタの新ラベルを決定し、各クラスタに属する点9ごとに、対応する入力データに新ラベルを付与する。ここで付与される新ラベルを「疑似ラベル」とし、疑似ラベルを正解ラベルとすることで、判定装置10は、公平性是正処理による運用モデルへの精度影響を判定できる。なお、疑似ラベルの一例は、第4の複数のデータのそれぞれの第1の機械学習モデル、すなわち運用モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって決定される正解ラベルに相当する。
【0045】
機械学習モデルの予測精度は、既存技術の評価指標、例えば、Accuracy(正解率)によって判定される。Accuracyは、次の式(2)を用いて算出可能である。
【0046】
【数2】
【0047】
式(2)において、正解数は、例えば、疑似ラベルを正解ラベルとして、全入力データ数から、是正モデルによる分類結果と異なる疑似ラベルの数、すなわち不正解数を引いた数である。
【0048】
このように、判定装置10は、例えば、式(2)を用いて、公平性是正処理による運用モデルへの精度影響を判定できる。また、判定装置10は、例えば、式(1)を用いて、是正モデルによる分類結果と疑似ラベルとの各々で公平性スコアを算出し、比較することで公平性是正処理の効果を判定できる。
【0049】
図5の説明に戻り、また、判定装置10は、モデル寄与度を用いて是正モデルの訓練を行った場合における影響度を判定する(t5)。図7は、本実施形態にかかるデータ加工による加工傾向とモデル寄与度の一例を示す図である。図7の左側に示すように、是正データ全体の加工強度、すなわち、分散によって、判定装置10は、属性が一律に加工されているか、偏って加工されているか、などデータ加工による加工傾向を判断できる。しかしながら、判定装置10は、分散のみでは、加工されている属性、例えば、図7の左側の枠で囲まれた属性がモデル影響の高い属性かは判断が難しい。そこで、図7の右側に示すように、判定装置10は、加工されている属性、例えば、枠で囲まれた属性のモデル寄与度が高いか否かも、モデル影響の判定に用いる。すなわち、判定装置10は、是正データの分散、および、加工された属性およびその加工数と、モデル寄与度との一致度(以下、「寄与度ランク」という)を用いて、機械学習モデルに対する影響度を算出する。
【0050】
図8は、本実施形態にかかる加工傾向とモデル寄与度とによる影響度判定の一例を示す図である。まず、判定装置10は、例えば、是正データの加工傾向として、入力データと是正データとの差分から加工の強い属性を抽出する。より具体的には、判定装置10は、例えば、図8の左上に示すように、入力データと是正データとの差分の絶対値をヒートマップにして算出し、加工強度が一定値以上の加工の強い属性を抽出する。
【0051】
また、判定装置10は、例えば、図8の左下に示すように、各属性のモデル寄与度を算出する。モデル寄与度は、例えば、対象となる機械学習モデルによって異なるが、既存技術であるフィルタ法やGain法などを用いて算出される。
【0052】
また、判定装置10は、例えば、図8の右側に示すように、抽出された、加工強度が一定値以上の加工の強い属性のデータ件数をカウントして上位所定数の属性を抽出し、抽出された属性のモデル寄与度から寄与度ランクを算出する。寄与度ランクは、例えば、次の式(3)を用いて算出される。
【0053】
【数3】
【0054】
式(3)において、numは、例えば、抽出された上位所定数の各属性を示す番号である。また、Rankは、例えば、抽出された上位所定数の各属性のモデル寄与度の順位を示す。また、Countは、例えば、抽出された上位所定数の各属性のカウントされたデータ件数を示す。
【0055】
そして、判定装置10は、是正データの分散値と寄与度ランクとに基づいて、モデル影響度を判定する。モデル影響度の判定は、例えば、是正データの分散値と寄与度ランクとからモデル影響度をマッピングすることにより行われる。
【0056】
図9は、本実施形態にかかるモデル影響度の出力の一例を示す図である。図9に示すように、判定装置10は、是正データの分散値と寄与度ランクとに基づいて、モデル影響度をマッピングする。例えば、機械学習モデルにとって、訓練データの良い加工とは、全体的にデータ加工がされており、すなわち分散値が小さく、かつ、重点的に加工している属性が機械学習モデルに対する寄与度の高い属性であることである。そこで、判定装置10は、分散値が低く、寄与度ランクが高い是正データ、図9の場合は、グラフの右上にマッピングされる是正データの方が、モデル影響度がより高く、機械学習モデルの精度に与える影響が小さいと判定できる。
【0057】
図5の説明に戻り、また、判定装置10は、式(1)および(2)を用いてそれぞれ算出された、公平性是正処理による公平性スコア、および機械学習モデルの予測精度、ならびにモデル影響スコアを是正データごとに出力する(t6)。モデル影響スコアは、式(3)を用いて算出された寄与度ランクを用いて、例えば、「モデル影響スコア=(α×1/分散値+β×寄与度ランク)」の式によって算出可能である。なお、当該式におけるαおよびβは、それぞれ、分散値および寄与度ランクに対する重みパラメータである。このように、公平性是正処理による運用モデルへの影響、すなわち、公平性スコア、予測精度、ならびにモデル影響スコアを併せて出力することで判定装置10またはユーザは公平性是正処理による影響とその効果をより詳しく把握できる。そして、判定装置10またはユーザは、公平性是正処理による公平性スコア、機械学習モデルの予測精度、およびモデル影響スコアに基づいて、様々な是正モデルの候補の中から、運用モデルに適用する是正モデルを選択できる。
【0058】
図10は、本実施形態にかかるモデル影響スコアによる候補判定の一例を示す図である。図10のグラフは、x軸を公平性是正処理による公平性スコア、y軸を機械学習モデルの予測精度、およびz軸をモデル影響スコアとし、是正モデルの案1~5をマッピングした3軸表示のグラフである。
【0059】
そして、図10に示すように、判定装置10は、公平性スコア、機械学習モデルの予測精度、およびモデル影響スコアのいずれも高い是正データを、機械学習モデルの訓練に用いる最有力候補(図8の例では是正案5)として選択できる。このような是正案の選択は、例えば、公平性スコアや予測精度、モデル影響スコアのそれぞれに対して所定の閾値を設定し、当該閾値を用いて判定装置10によって実行可能である。
【0060】
ここで、複数の是正案を出力する方法についてより詳しく説明する。図11は、本実施形態にかかる予測精度、公平性スコア、およびモデル影響スコアの出力方法の一例を示す図である。図11の左側に示すように、判定装置10は、複数の異なるルール1~5に従ってそれぞれ作成された是正フィルタ1~5に入力データを通し、それぞれの是正データを生成し、対応する是正モデルに入力する。そして、判定装置10は、各是正データに対して、図6に示したように疑似ラベルを付与し、疑似ラベルに基づいて是正案ごとに予測精度および公平性スコアを算出する。また、判定装置10は、各是正データに対してモデル影響スコアを算出する。そして、判定装置10は、図11の右側に示すように、予測精度、公平性スコア、およびモデル影響スコアを各軸とする3軸表示のグラフを表示装置5に出力して表示させる。
【0061】
図5の説明に戻り、また、判定装置10は、運用モデルを、再訓練により更新された是正モデルの複製に差し替える(t7)。なお、複数の是正案がある場合、運用モデルは、選択された1つの是正案に対応する是正モデルの複製に差し替えられる。また、運用モデルを差し替える際、判定装置10は、是正フィルタも分類装置4に適用し、当該是正フィルタを用いて運用モデルへの入力データを是正データに変換するようにしてもよい。分類装置4に適用される是正フィルタも、複数の是正案がある場合は、選択された1つの是正案に対応する是正フィルタである。このようにして、判定装置10は、公平性是正処理による機械学習モデルへの精度影響を示しつつ、適切な公平性是正処理を機械学習モデルに適用できる。
【0062】
[処理の流れ]
次に、図12および図13を用いて、判定装置10による判定処理の流れを説明する。図12は、本実施形態にかかる判定処理の流れの一例を示すフローチャートである。当該判定処理は、例えば、運用モデルに入力データが入力される際に、当該入力データを用いて実行される。また、当該判定処理に用いられる是正モデルは初回時のみ運用モデルが複製される。
【0063】
まず、図12に示すように、判定装置10は、入力データに対して公平性是正処理を実行する(ステップS101)。より具体的には、例えば、判定装置10は、複数の異なるルールに従ってそれぞれ作成された是正フィルタの各々に入力データを通し、それぞれの是正案に対する是正データを生成する。
【0064】
次に、判定装置10は、是正案ごとに、対応する是正データに基づいて是正モデルを再訓練して更新する(ステップS102)。これにより、是正案ごとの是正モデルが生成される。
【0065】
次に、判定装置10は、是正案ごとに、ステップS101で生成された是正データの各々を、対応する是正モデルに入力し、是正モデルの出力値に基づいて是正データの各々の分類について判定する(ステップS103)。
【0066】
次に、判定装置10は、ステップS103の判定結果を基に密度ベースでクラスタリングして是正データにラベル付けを行い、当該ラベルを正解ラベルとして判定結果に基づいて是正モデルの精度を算出する(ステップS104)。ステップS103も、是正案ごとに実行される。
【0067】
次に、判定装置10は、是正案ごとに、ステップS103の判定結果に基づいて、是正モデルの公平性スコアを算出する(ステップS105)。なお、ステップS104およびS105の是正モデルの精度および公平性スコア算出の実行順序は逆であってもよいし、並列で実行されてもよい。
【0068】
次に、判定装置10は、是正案ごとに、是正データの分散値および寄与度ランクを用いて、是正モデルのモデル影響スコアを算出する(ステップS106)。ステップS106で実行されるモデル影響スコアの算出の流れについては、図13を用いて、より具体的に説明する。
【0069】
図13は、本実施形態にかかるモデル影響スコア算出処理の流れの一例を示すフローチャートである。まず、図13に示すように、判定装置10は、是正案ごとに、対応する是正データと、入力データとの差分量に基づいて、分散値を算出する(ステップS201)。
【0070】
次に、判定装置10は、是正案ごとに、対応する是正データと、入力データとの差分量に基づいて加工強度を算出し、当該加工強度が一定値以上の加工の強い属性を特定する(ステップS202)。なお、加工強度が一定値以上の属性とは、例えば、加工強度が所定の閾値以上ある上位所定数の属性であってよい。
【0071】
次に、判定装置10は、是正案ごとに、ステップS202で特定された属性のモデル寄与度を算出する(ステップS203)。
【0072】
次に、判定装置10は、是正案ごとに、ステップS203で算出されたモデル寄与度に基づいて、寄与度ランクを算出する(ステップS204)。
【0073】
次に、判定装置10は、是正案ごとに、ステップS201で算出された分散値と、ステップS204で算出された寄与度ランクとに基づいて、モデル影響スコアを算出する(ステップS205)。ステップS205の実行後、図13に示すモデル影響スコア算出処理は終了し、図12のステップS107へ進む。
【0074】
次に、判定装置10は、ステップS104で算出された精度、ステップS105で算出された公平性スコア、およびステップS106で算出されたモデル影響スコアに基づいて、運用モデルに適用する是正案を選択する(ステップS107)。是正案の選択について、例えば、運用モデルと比較して予測精度、公平性スコア、およびモデル影響スコアが最も上回っている是正案が選択されてよい。または、判定装置10が、ユーザに対して、運用モデルの予測精度および公平性スコアと共に、各是正案の予測精度、公平スコア、およびモデル影響スコアを提示し、ユーザによって1つの是正案が選択されてよい。
【0075】
次に、判定装置10は、ステップS107で選択された是正案に対応する是正モデルを複製して、運用モデルと差し替えることにより、運用モデルを更新する(ステップS108)。また、この際、判定装置10は、ステップS107で選択された是正案に対応する是正フィルタを複製するなどし、当該是正フィルタを用いて運用モデルへの入力データを是正データに変換するように適用してもよい。なお、ステップS108で図12に示す判定処理は終了するが、例えば、運用モデルに入力データが入力される際に、ステップS107で選択された是正モデルを用いて、ステップS101から処理が繰り返される。
【0076】
[効果]
上述したように、判定装置10は、第1の属性を基準にした第1の複数のデータの偏りに基づいて第1の複数のデータを加工して得られた第2の複数のデータに基づいて、第1の機械学習モデルを更新して第2の機械学習モデルを生成し、第1の属性を基準にした第3の複数のデータの偏りに基づいて第3の複数のデータを加工して得られた第4の複数のデータを第2の機械学習モデルへ入力することによって、予測結果を取得し、第4の複数のデータのそれぞれの第1の機械学習モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって、第4の複数のデータのそれぞれの正解ラベルを決定し、予測結果と正解ラベルとに基づいて、第2の機械学習モデルの精度を判定し、第1の複数のデータと第2の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある第1の属性を特定し、データを入力して第2の機械学習モデルが推論を行った場合における推論結果への第1の属性の寄与の大きさを特定し、寄与の大きさに基づいて、第2の複数のデータによって第2の機械学習モデルの訓練を行った場合における影響度を判定する。
【0077】
このように、判定装置10は、運用モデルの特徴量のクラスタリングによる正解ラベルと是正モデルの予測結果とを比較し、加工量の多い属性のモデル寄与度に基づいて訓練の影響度を判定する。これにより、判定装置10は、公平性是正処理による機械学習モデルへの精度影響を示すことができる。
【0078】
また、判定装置10は、第1の複数のデータに含まれる特徴量および正解ラベルの少なくとも1つを第1のルールに従って変換して第2の複数のデータを取得する。
【0079】
これにより、判定装置10は、機械学習モデルに対する公平性を是正できる。
【0080】
また、判定装置10によって実行される、第1の複数のデータを複数種類の第1のルールに従って変換して得られる第2の複数のデータに基づいて、第1のルールの種類ごとに第1の機械学習モデルを更新して複数の第2の機械学習モデルを生成する、処理を含み、判定装置10は、所定の条件に基づいて、複数の第2の機械学習モデルから1つの第2の機械学習モデルを選択する。
【0081】
これにより、判定装置10は、機械学習モデルの予測精度の劣化を考慮しつつ、より適切に公平性を是正できる。
【0082】
また、判定装置10によって実行される、1つの第2の機械学習モデルを選択する処理は、第1のルールの種類ごとの第2の複数のデータの公平性スコアと、第2の機械学習モデルの精度と、影響度とに基づいて、1つの第2の機械学習モデルを選択する処理を含む。
【0083】
これにより、判定装置10は、機械学習モデルの予測精度の劣化、および是正データによって機械学習モデルの訓練を行った場合における影響度を考慮しつつ、より適切に公平性を是正できる。
【0084】
また、判定装置10は、第2の複数のデータの公平性スコアと、第2の機械学習モデルの精度と、影響度とを軸とするグラフを出力する。
【0085】
これにより、判定装置10は、機械学習モデルの予測精度の劣化、および是正データによって機械学習モデルの訓練を行った場合における影響度を考慮しつつ、より適切に公平性を是正するために、機械学習モデルの予測精度と公平性スコアをユーザに提示できる。
【0086】
また、判定装置10によって実行される、第1の属性を特定する処理は、第1の複数のデータと前記第2の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある上位所定数の第1の属性を特定する処理を含む。
【0087】
これにより、判定装置10は、加工量のより多い属性に限定して、公平性是正による機械学習モデルへの影響を示すことができる。
【0088】
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報は、特記する場合を除いて任意に変更されてもよい。また、実施例で説明した具体例、分布、数値などは、あくまで一例であり、任意に変更されてもよい。
【0089】
また、判定装置10の構成要素の分散や統合の具体的形態は図示のものに限られない。例えば、判定装置10の分類部12が複数の処理部に分散されたり、判定装置10の是正部13と生成部14とが1つの処理部に統合されたりしてもよい。つまり、その構成要素の全部または一部は、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合されてもよい。さらに、各装置の各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)および当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0090】
図14は、本実施形態にかかる判定装置10のハードウェア構成例を示す図である。図14では、判定装置10を例として、ハードウェア構成例を示すが、図5に示す分類装置4も判定装置10と同様のハードウェア構成を採用できる。図14に示すように、判定装置10は、通信インタフェース10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図14に示した各部は、バスなどで相互に接続される。
【0091】
通信インタフェース10aは、ネットワークインタフェースカードなどであり、他の情報処理装置との通信を行う。HDD10bは、例えば、図4などに示した各機能を動作させるプログラムやデータを記憶する。
【0092】
プロセッサ10dは、CPU、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)などである。また、プロセッサ10dは、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路により実現されるようにしてもよい。プロセッサ10dは、例えば、図4などに示した各処理部と同様の処理を実行するプログラムをHDD10bなどから読み出してメモリ10cに展開する。これにより、プロセッサ10dは、図4などで説明した各機能を実現するプロセスを実行するハードウェア回路として動作可能である。
【0093】
また、判定装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、判定装置10によって実行されることに限定されるものではない。例えば、他の情報処理装置がプログラムを実行する場合や、他の情報処理装置と判定装置10とが協働してプログラムを実行するような場合にも、上記実施例が同様に適用されてよい。
【0094】
当該プログラムは、インターネットなどのネットワークを介して配布されてもよい。また、当該プログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)などのコンピュータ可読記憶媒体に記録されてよい。そして、当該プログラムは、判定装置10などによって記録媒体から読み出されることによって実行されてもよい。
【0095】
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
【0096】
(付記1)第1の属性を基準にした第1の複数のデータの偏りに基づいて前記第1の複数のデータを加工して得られた第2の複数のデータに基づいて、第1の機械学習モデルを更新して第2の機械学習モデルを生成し、
前記第1の属性を基準にした第3の複数のデータの偏りに基づいて前記第3の複数のデータを加工して得られた第4の複数のデータを前記第2の機械学習モデルへ入力することによって、予測結果を取得し、
前記第4の複数のデータのそれぞれの前記第1の機械学習モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって、前記第4の複数のデータのそれぞれの正解ラベルを決定し、
前記予測結果と前記正解ラベルとに基づいて、前記第2の機械学習モデルの精度を判定し、
前記第1の複数のデータと前記第2の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある前記第1の属性を特定し、
データを入力して前記第2の機械学習モデルが推論を行った場合における推論結果への前記第1の属性の寄与の大きさを特定し、
前記寄与の大きさに基づいて、前記第2の複数のデータによって前記第2の機械学習モデルの訓練を行った場合における影響度を判定する、
処理をコンピュータに実行させることを特徴とする判定プログラム。
【0097】
(付記2)前記第1の複数のデータに含まれる特徴量および正解ラベルの少なくとも1つを第1のルールに従って変換して前記第2の複数のデータを取得する、
処理を前記コンピュータに実行させることを特徴とする付記1に記載の判定プログラム。
【0098】
(付記3)前記第2の機械学習モデルを生成する処理は、
前記第1の複数のデータを複数種類の前記第1のルールに従って変換して得られる第2の複数のデータに基づいて、前記第1のルールの種類ごとに前記第1の機械学習モデルを更新して複数の前記第2の機械学習モデルを生成する、
処理を含み、
所定の条件に基づいて、複数の前記第2の機械学習モデルから1つの前記第2の機械学習モデルを選択する
処理を前記コンピュータに実行させることを特徴とする付記2に記載の判定プログラム。
【0099】
(付記4)前記1つの第2の機械学習モデルを選択する処理は、前記第1のルールの種類ごとの前記第2の複数のデータの公平性スコアと、前記第2の機械学習モデルの精度と、前記影響度とに基づいて、前記1つの第2の機械学習モデルを選択する、
処理を含むことを特徴とする付記3に記載の判定プログラム。
【0100】
(付記5)前記第2の複数のデータの公平性スコアと、前記第2の機械学習モデルの精度と、前記影響度とを軸とするグラフを出力する、
処理を前記コンピュータに実行させることを特徴とする付記1に記載の判定プログラム。
【0101】
(付記6)前記第1の属性を特定する処理は、
前記第1の複数のデータと前記第2の複数のデータとの差に基づいて、前記複数の属性のうち加工量が所定の閾値以上ある上位所定数の前記第1の属性を特定する、
処理を含むことを特徴とする付記1に記載の判定プログラム。
【0102】
(付記7)第1の属性を基準にした第1の複数のデータの偏りに基づいて前記第1の複数のデータを加工して得られた第2の複数のデータに基づいて、第1の機械学習モデルを更新して第2の機械学習モデルを生成し、
前記第1の属性を基準にした第3の複数のデータの偏りに基づいて前記第3の複数のデータを加工して得られた第4の複数のデータを前記第2の機械学習モデルへ入力することによって、予測結果を取得し、
前記第4の複数のデータのそれぞれの前記第1の機械学習モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって、前記第4の複数のデータのそれぞれの正解ラベルを決定し、
前記予測結果と前記正解ラベルとに基づいて、前記第2の機械学習モデルの精度を判定し、
前記第1の複数のデータと前記第2の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある前記第1の属性を特定し、
データを入力して前記第2の機械学習モデルが推論を行った場合における推論結果への前記第1の属性の寄与の大きさを特定し、
前記寄与の大きさに基づいて、前記第2の複数のデータによって前記第2の機械学習モデルの訓練を行った場合における影響度を判定する、
処理を実行する制御部を備えた判定装置。
【0103】
(付記8)前記第1の複数のデータに含まれる特徴量および正解ラベルの少なくとも1つを第1のルールに従って変換して前記第2の複数のデータを取得する、
処理を前記制御部が実行することを特徴とする付記7に記載の判定装置。
【0104】
(付記9)前記第2の機械学習モデルを生成する処理は、
前記第1の複数のデータを複数種類の前記第1のルールに従って変換して得られる第2の複数のデータに基づいて、前記第1のルールの種類ごとに前記第1の機械学習モデルを更新して複数の前記第2の機械学習モデルを生成する、
処理を含み、
所定の条件に基づいて、複数の前記第2の機械学習モデルから1つの前記第2の機械学習モデルを選択する
処理を前記制御部が実行することを特徴とする付記8に記載の判定装置。
【0105】
(付記10)前記1つの第2の機械学習モデルを選択する処理は、前記第1のルールの種類ごとの前記第2の複数のデータの公平性スコアと、前記第2の機械学習モデルの精度と、前記影響度とに基づいて、前記1つの第2の機械学習モデルを選択する、
処理を含むことを特徴とする付記9に記載の判定装置。
【0106】
(付記11)前記第2の複数のデータの公平性スコアと、前記第2の機械学習モデルの精度と、前記影響度とを軸とするグラフを出力する、
処理を前記制御部が実行することを特徴とする付記7に記載の判定装置。
【0107】
(付記12)前記第1の属性を特定する処理は、
前記第1の複数のデータと前記第2の複数のデータとの差に基づいて、前記複数の属性のうち加工量が所定の閾値以上ある上位所定数の前記第1の属性を特定する、
処理を含むことを特徴とする付記7に記載の判定装置。
【0108】
(付記13)第1の属性を基準にした第1の複数のデータの偏りに基づいて前記第1の複数のデータを加工して得られた第2の複数のデータに基づいて、第1の機械学習モデルを更新して第2の機械学習モデルを生成し、
前記第1の属性を基準にした第3の複数のデータの偏りに基づいて前記第3の複数のデータを加工して得られた第4の複数のデータを前記第2の機械学習モデルへ入力することによって、予測結果を取得し、
前記第4の複数のデータのそれぞれの前記第1の機械学習モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって、前記第4の複数のデータのそれぞれの正解ラベルを決定し、
前記予測結果と前記正解ラベルとに基づいて、前記第2の機械学習モデルの精度を判定し、
前記第1の複数のデータと前記第2の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある前記第1の属性を特定し、
データを入力して前記第2の機械学習モデルが推論を行った場合における推論結果への前記第1の属性の寄与の大きさを特定し、
前記寄与の大きさに基づいて、前記第2の複数のデータによって前記第2の機械学習モデルの訓練を行った場合における影響度を判定する、
処理をコンピュータが実行する判定方法。
【0109】
(付記14)前記第1の複数のデータに含まれる特徴量および正解ラベルの少なくとも1つを第1のルールに従って変換して前記第2の複数のデータを取得する、
処理を前記コンピュータが実行することを特徴とする付記13に記載の判定方法。
【0110】
(付記15)前記第2の機械学習モデルを生成する処理は、
前記第1の複数のデータを複数種類の前記第1のルールに従って変換して得られる第2の複数のデータに基づいて、前記第1のルールの種類ごとに前記第1の機械学習モデルを更新して複数の前記第2の機械学習モデルを生成する、
処理を含み、
所定の条件に基づいて、複数の前記第2の機械学習モデルから1つの前記第2の機械学習モデルを選択する
処理を前記コンピュータが実行することを特徴とする付記14に記載の判定方法。
【0111】
(付記16)前記1つの第2の機械学習モデルを選択する処理は、前記第1のルールの種類ごとの前記第2の複数のデータの公平性スコアと、前記第2の機械学習モデルの精度と、前記影響度とに基づいて、前記1つの第2の機械学習モデルを選択する、
処理を含むことを特徴とする付記15に記載の判定方法。
【0112】
(付記17)前記第2の複数のデータの公平性スコアと、前記第2の機械学習モデルの精度と、前記影響度とを軸とするグラフを出力する、
処理を前記コンピュータが実行することを特徴とする付記13に記載の判定方法。
【0113】
(付記18)前記第1の属性を特定する処理は、
前記第1の複数のデータと前記第2の複数のデータとの差に基づいて、前記複数の属性のうち加工量が所定の閾値以上ある上位所定数の前記第1の属性を特定する、
処理を含むことを特徴とする付記13に記載の判定方法。
【0114】
(付記19)プロセッサと、
プロセッサに動作可能に接続されたメモリと
を備えた情報処理装置であって、プロセッサは、
第1の属性を基準にした第1の複数のデータの偏りに基づいて前記第1の複数のデータを加工して得られた第2の複数のデータに基づいて、第1の機械学習モデルを更新して第2の機械学習モデルを生成し、
前記第1の属性を基準にした第3の複数のデータの偏りに基づいて前記第3の複数のデータを加工して得られた第4の複数のデータを前記第2の機械学習モデルへ入力することによって、予測結果を取得し、
前記第4の複数のデータのそれぞれの前記第1の機械学習モデルのパラメータに基づいて定まる特徴量をクラスタリングすることによって、前記第4の複数のデータのそれぞれの正解ラベルを決定し、
前記予測結果と前記正解ラベルとに基づいて、前記第2の機械学習モデルの精度を判定し、
前記第1の複数のデータと前記第2の複数のデータとの差に基づいて、複数の属性のうち加工量が所定の閾値以上ある前記第1の属性を特定し、
データを入力して前記第2の機械学習モデルが推論を行った場合における推論結果への前記第1の属性の寄与の大きさを特定し、
前記寄与の大きさに基づいて、前記第2の複数のデータによって前記第2の機械学習モデルの訓練を行った場合における影響度を判定する、
処理を実行することを特徴とする情報処理装置。
【符号の説明】
【0115】
1 分類システム
2 入力センサ
3 データ記憶装置
4 分類装置
5 表示装置
9 点
10 判定装置
10a 通信インタフェース
10b HDD
10c メモリ
10d プロセッサ
11 モデル記憶部
12 分類部
13 是正部
14 生成部
15 ラベル付与部
16 判定部
17 学習部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14