IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特許7376401情報処理システムおよび情報処理プログラム
<>
  • 特許-情報処理システムおよび情報処理プログラム 図1
  • 特許-情報処理システムおよび情報処理プログラム 図2
  • 特許-情報処理システムおよび情報処理プログラム 図3
  • 特許-情報処理システムおよび情報処理プログラム 図4
  • 特許-情報処理システムおよび情報処理プログラム 図5
  • 特許-情報処理システムおよび情報処理プログラム 図6
  • 特許-情報処理システムおよび情報処理プログラム 図7
  • 特許-情報処理システムおよび情報処理プログラム 図8
  • 特許-情報処理システムおよび情報処理プログラム 図9
  • 特許-情報処理システムおよび情報処理プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-30
(45)【発行日】2023-11-08
(54)【発明の名称】情報処理システムおよび情報処理プログラム
(51)【国際特許分類】
   G06Q 10/04 20230101AFI20231031BHJP
   G06Q 30/0201 20230101ALI20231031BHJP
   G06N 20/00 20190101ALI20231031BHJP
   G06Q 40/03 20230101ALI20231031BHJP
【FI】
G06Q10/04
G06Q30/0201
G06N20/00
G06Q40/03
【請求項の数】 13
(21)【出願番号】P 2020053667
(22)【出願日】2020-03-25
(65)【公開番号】P2021152838
(43)【公開日】2021-09-30
【審査請求日】2022-06-27
(73)【特許権者】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】濱本 真生
(72)【発明者】
【氏名】恵木 正史
(72)【発明者】
【氏名】田代 大輔
(72)【発明者】
【氏名】浜 直史
【審査官】上田 威
(56)【参考文献】
【文献】特開2017-027137(JP,A)
【文献】特開2019-219813(JP,A)
【文献】特開2003-216814(JP,A)
【文献】米国特許第08065169(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00 - 99/00
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
サービスに用いる前記サービスの利用者の個人情報であり、前記利用者に入力させないと決めたセンシティブな属性情報を含まない入力情報から前記サービスに応じた判定値を出力する深層学習を用いた予測器である第1の予測部と、
教師データにより前記利用者に入力させないと決めたセンシティブな属性情報を推定するように予め学習がなされ、前記センシティブな属性情報を含まない入力情報から前記センシティブな属性情報を推定する第2の予測部と、及び
前記第2の予測部から得られるセンシティブな属性情報の推定値に基づいて、前記第1の予測部が出力した判定値を補正して判定結果を出力する第1の量子化部と、
を備えたことを特徴とする情報処理システム。
【請求項2】
前記第1の量子化部が、
前記センシティブな属性情報の推定値と、優遇属性に対する判定値を補正する第1の閾値と、および非優遇属性に対する判定値を補正する第2の閾値に基づいて、第3の閾値を算出し、前記第3の閾値に基づいて第1の予測部が出力した判定値を補正して判定結果を出力すること
を特徴とする請求項1記載の情報処理システム。
【請求項3】
前記利用者に係る入力情報を入力して、判定結果を出力するイベントごとに、入力情報、第1の予測部が出力した判定値、第2の予測部から得られたセンシティブな属性情報の推定値、および第1の量子化部が出力した判定結果を状態ログ情報として、記憶装置に記憶するログ管理部と、
ログ管理部に記憶された過去イベントの状態ログ情報を読出し、公平性指標値を算出してユーザ画面へ出力する状態可視化部と、
を更に備えたことを特徴とする請求項1記載の情報処理システム。
【請求項4】
前記状態可視化部は、過去イベントの状態ログ情報から、指定されたセンシティブな属性情報に係る過去イベントに対する公平性指標値の推定値の遷移をグラフ表示し、任意のイベントの状態ログ情報を同時にユーザ画面へ出力することを特徴とする請求項3記載の情報処理システム。
【請求項5】
前記センシティブな属性情報を含まない入力情報と、前記第2の予測部が出力した前記センシティブな属性情報の推定値とを入力して、前記第1の予測部が出力する判定値を予測した参照判定値を出力する第3の予測部と、
前記センシティブな属性情報を含まない入力情報と、前記第2の予測部が出力した前記センシティブな属性情報の推定値とを入力して、前記第3の予測部の参照判定値に対する各入力特徴量の貢献度情報を出力する参照予測分析部と、
前記第1の予測部が出力する判定値、前記第3の予測部が出力する参照判定値、前記参照予測分析部が出力する各入力特徴量の貢献度情報、および閾値情報を入力して、前記判定値から前記センシティブな属性情報の影響を除去するように補正した補正後判定値を出力する属性影響補正部と、及び
前記第1の量子化部に代えて、前記第2の予測部から出力されるセンシティブな属性情報の推定値、および補正パラメータを用いて、前記属性影響補正部が出力する補正後判定値を量子化して判定結果を出力する第2の量子化部と、
を更に備えたことを特徴とする請求項1記載の情報処理システム。
【請求項6】
前記第3の予測部は、訓練データと訓練データから前記第2の予測部が予測したセンシティブな属性情報の推定値を入力特徴量とし、訓練データを入力特徴量として前記第1の予測部が出力した判定値を答えとして予め学習が実施されて構成され、
前記センシティブな属性情報を含まない入力情報と、前記第2の予測部が出力した前記
センシティブな属性情報の推定値とを入力して、前記第1の予測部が出力する判定値を予測した参照判定値を出力することを特徴とする請求項5記載の情報処理システム。
【請求項7】
前記参照予測分析部は、第3の予測部と貢献度分析部とを備え、
前記貢献度分析部は、前記センシティブな属性情報を含まない入力情報と、前記第2の予測部が出力した前記センシティブな属性情報の推定値とを入力して、前記入力情報と前記推定値に摂動を加えた特徴量を前記第3の予測部へ入力し、その出力値を統計的に処理する操作を繰り返すことで、各入力特徴量の貢献度情報を出力することを特徴とする請求項5記載の情報処理システム。
【請求項8】
前記属性影響補正部は、前記第1の予測部が出力する判定値と、前記第3の予測部が出力する参照判定値との距離が距離閾値よりも小さい場合に、前記判定値を前記センシティブな属性情報の貢献度により補正して、補正後判定値を出力することを特徴とする請求項5記載の情報処理システム。
【請求項9】
前記第2の量子化部は、前記センシティブな属性情報の推定値と、優遇属性に対する判定値を補正する第1の閾値と、非優遇属性に対する判定値を補正する第2の閾値と、及び前記属性影響補正部が出力する前記補正後判定値に含まれる前記センシティブな属性情報の度合いに関する情報に基づいて、第4の閾値を算出し、前記第4の閾値に基づいて前記属性影響補正部が出力した前記補正後判定値を補正して判定結果を出力することを特徴とする請求項5記載の情報処理システム。
【請求項10】
前記利用者に係る入力情報を入力して、判定結果を出力するイベントごとに、入力情報、第1の予測部が出力した判定値、第2の予測部から得られたセンシティブな属性情報の推定値、各入力特徴量の貢献度情報、補正後判定値、センシティブ属性情報の貢献度の妥当性情報、および第2の量子化部が出力した判定結果を状態ログ情報として、記憶装置に記憶するログ管理部と、
ログ管理部に記憶された過去イベントの状態ログ情報を読出し、公平性指標値を算出してユーザ画面へ出力する状態可視化部と、
を更に備えたことを特徴とする請求項5記載の情報処理システム。
【請求項11】
前記状態可視化部は、過去イベントの状態ログ情報から、指定されたセンシティブな属性情報に係る過去イベントに対する公平性指標値の推定値の遷移をグラフ表示し、任意のイベントの状態ログ情報を同時に表示し、およびイベントごとの判定結果の根拠説明として、イベントID、判定結果、各入力特徴量の貢献度情報、センシティブ属性情報の貢献度の妥当性情報を一覧表示して、ユーザ画面へ出力することを特徴とする請求項10記載の情報処理システム。
【請求項12】
コンピュータを、
サービスに用いる前記サービスの利用者の個人情報であり、前記利用者に入力させないと決めたセンシティブな属性情報を含まない入力情報から前記サービスに応じた判定値を出力する深層学習を用いた予測器である第1の予測手段、
教師データにより前記利用者に入力させないと決めたセンシティブな属性情報を推定するように予め学習がなされ、前記センシティブな属性情報を含まない入力情報から前記センシティブな属性情報を推定する第2の予測手段、及び
前記第2の予測手段から得られるセンシティブな属性情報の推定値と、優遇属性に対する判定値を補正する第1の閾値と、および非優遇属性に対する判定値を補正する第2の閾値に基づいて、第3の閾値を算出し、前記第3の閾値に基づいて、前記第1の予測手段が出力した判定値を補正して判定結果を出力する第1の量子化手段、
として機能させるための情報処理プログラム。
【請求項13】
コンピュータを、
サービスに用いる前記サービスの利用者の個人情報であり、前記利用者に入力させないと決めたセンシティブな属性情報を含まない入力情報から前記サービスに応じた判定値を出力する深層学習を用いた予測器である第1の予測手段、
教師データにより前記利用者に入力させないと決めたセンシティブな属性情報を推定するように予め学習がなされ、前記センシティブな属性情報を含まない入力情報から前記センシティブな属性情報を推定する第2の予測手段、
前記センシティブな属性情報を含まない入力情報と、前記第2の予測手段が出力した前記センシティブな属性情報の推定値とを入力して、前記第1の予測手段が出力する判定値を予測した参照判定値を出力する第3の予測手段、
前記センシティブな属性情報を含まない入力情報と、前記第2の予測手段が出力した前記センシティブな属性情報の推定値とを入力して、前記第3の予測手段の参照判定値に対する各入力特徴量の貢献度情報を出力する参照予測分析手段、
前記第1の予測手段が出力する判定値、前記第3の予測手段が出力する参照判定値、前記参照予測分析手段が出力する各入力特徴量の貢献度情報、および閾値情報を入力して、前記判定値と前記参照判定値との距離が距離閾値よりも小さい場合に、前記判定値から前記センシティブな属性情報の影響を除去するように補正した補正後判定値を出力する属性影響補正手段、及び
前記センシティブな属性情報の推定値と、優遇属性に対する判定値を補正する第1の閾値と、非優遇属性に対する判定値を補正する第2の閾値と、及び前記属性影響補正手段が出力する前記補正後判定値に含まれる前記センシティブな属性情報の度合いに関する情報に基づいて、第4の閾値を算出し、前記第4の閾値に基づいて前記属性影響補正手段が出力した前記補正後判定値を補正して判定結果を出力する第2の量子化手段、
として機能させるための情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は公平な予測結果あるいは判断結果を出力する情報処理システムおよび情報処理プログラムに関する。
【背景技術】
【0002】
過去の実績データから複雑なパタンを学習して予測あるいは判断の結果を出力する機械学習あるいは人工知能(以下、AIと称する)の技術は、人間がもつ偏見や不公平な過去の慣例を内包した判断結果も忠実に学習する特性がある。このため、例えば雇用するか否かを自動で判断するAIが女性に比べて男性に高いスコアを与える、あるいは男女の採用率が大きく異なるなど、不公平なあるいは差別的な判断を行うことが近年大きな問題となっている。このような不公平なあるいは差別的な予測または判断をするAIはバイアスを持つAIと呼ばれる。この問題に対し、AIへの入力情報に例えば性別、人種などセンシティブな情報を含めないことで差別を回避する手段がある。しかし、例えば身長、収入などの入力情報からAIが内部で性別に該当する中間特徴量を自動で生成するケースがあり、結局バイアスを持つAIが作成され得るため、これだけでは実質的な解決にはならない。
【0003】
これに対し、前述した入力情報にはセンシティブな情報を含まないがバイアスを持つAIにおいて、AIの判断結果の統計値が所望の値になるように、AI判断の閾値を制御する従来技術(非特許文献1)がある。非特許文献1では例えば、金融融資を判断するAI応用において、女性に融資しない傾向があるAIに対し、女性である場合は融資する判断の閾値を下げて融資しやすい傾向となるようにバイアスをかけることで、男性と女性への融資比率に関するAI判断結果の統計値が所望の値になるように制御する技術である。
【先行技術文献】
【非特許文献】
【0004】
【文献】Moritz Hardt 他、「Equality of Opportunity inSupervised Learning」、29th Conference on Neural Information Processing Systems (NIPS 2016)、 2016年12月、Pages 3315-3323.
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1は、利用者のセンシティブな個人情報に基づいてAIの判定閾値を制御し、判断結果を補正する。即ち、非特許文献1に係るシステムでは、その利用者はセンシティブな個人情報をシステムへ入力することが求められる。
【0006】
AIを活用したサービスを提供する上で、利用者に対してセンシティブな個人情報入力を求めることは、その入力情報が実際にどのように利用されるかが利用者からは不透明であるため、サービス利用に対する利用者の不安を大きくすることにつながる。また、利用者のセンシティブな個人情報がサービスシステムに残り続けることについても、個人情報の不正利用や流出事故など不安が残るため、利用に対する利用者の心理的負担が大きくなる課題がある。
【0007】
本発明の目的は、サービス利用者にセンシティブな個人情報の入力を求めることなく、公平な判定結果を出力するAIシステムを実現することである。
【課題を解決するための手段】
【0008】
本発明の情報処理システムの好ましい例では、利用者に入力させないと決めたセンシティブな属性情報を含まない入力情報から判定値を出力する第1の予測部と、教師データにより前記利用者に入力させないと決めたセンシティブな属性情報を推定するように予め学習がなされ、前記センシティブな属性情報を含まない入力情報から前記センシティブな属性情報を推定する第2の予測部と、及び前記第2の予測部から得られるセンシティブな属性情報の推定値に基づいて、第1の予測部が出力した判定値を補正して判定結果を出力する第1の量子化部と、を備えて構成する。
【0009】
また、本発明の情報処理プログラムの好ましい例では、コンピュータを、利用者に入力させないと決めたセンシティブな属性情報を含まない入力情報から判定値を出力する第1の予測手段、教師データにより前記利用者に入力させないと決めたセンシティブな属性情報を推定するように予め学習がなされ、前記センシティブな属性情報を含まない入力情報から前記センシティブな属性情報を推定する第2の予測手段、前記センシティブな属性情報を含まない入力情報と、前記第2の予測手段が出力した前記センシティブな属性情報の推定値とを入力して、前記第1の予測手段が出力する判定値を予測した参照判定値を出力する第3の予測手段、前記センシティブな属性情報を含まない入力情報と、前記第2の予測手段が出力した前記センシティブな属性情報の推定値とを入力して、前記第3の予測手段の参照判定値に対する各入力特徴量の貢献度情報を出力する参照予測分析手段、前記第1の予測手段が出力する判定値、前記第3の予測手段が出力する参照判定値、前記参照予測分析手段が出力する各入力特徴量の貢献度情報、および閾値情報を入力して、前記判定値と前記参照判定値との距離が距離閾値よりも小さい場合に、前記判定値から前記センシティブな属性情報の影響を除去するように補正した補正後判定値を出力する属性影響補正手段、及び前記センシティブな属性情報の推定値と、優遇属性に対する判定値を補正する第1の閾値と、非優遇属性に対する判定値を補正する第2の閾値と、及び前記属性影響補正手段が出力する前記補正後判定値に含まれる前記センシティブな属性情報の度合いに関する情報に基づいて、第4の閾値を算出し、前記第4の閾値に基づいて前記属性影響補正手段が出力した前記補正後判定値を補正して判定結果を出力する第2の量子化手段、として機能させるように構成する。
【発明の効果】
【0010】
本発明によって、サービス利用者はセンシティブな個人情報をシステムへ入力する必要がなくなるため、利用者のサービス利用に対する心理的負担を軽減することができる。また、本発明に係る情報処理システムおよび情報処理プログラムはセンシティブな個人情報入力を必要としないため、セキュリティの観点で、万が一の個人情報漏えい時においても利用者の被害を軽減することができる。
【図面の簡単な説明】
【0011】
図1】実施例1の情報処理システム10の構成例を示す図である。
図2】量子化部130の補正手段の例を示す図である。
図3】ユーザ画面300の表示例を示す図である。
図4】実施例2の情報処理システム20の構成例を示す図である。
図5】参照予測器210の作成手段の例を示す図である。
図6】参照予測分析部220の構成例を示す図である。
図7】属性影響補正部260の補正手段の概念を示す図である。
図8】属性影響補正部260の補正手段の例を示すフローチャートである。
図9】量子化部230の補正手段の例を示す図である。
図10】ユーザ画面1000の表示例を示す図である。
【発明を実施するための形態】
【0012】
以下、実施例を図面を用いて説明する。同一の要素には同一の符号を付し、その説明の繰り返しを省略する。
【0013】
ここでは、金融融資の合否を判定するラベル予測型AIを用いた情報処理システムを例として実施例を説明する。本情報処理システムにおいて、利用者に対する融資の判定結果をYと表し、Y=1のとき融資可能(すなわち、利用者にとって好ましい結果)、Y=0のとき融資不可能(すなわち、利用者にとって好ましくない結果)であるとする。
【0014】
また、利用者のセンシティブな属性情報(個人情報の中でも特に差別につながりかねない属性情報、過去に(歴史上)差別されたという実績がある属性情報)をSと表し、S=0では利用者が社会的に優遇されたグループ(優遇属性とも称する)に属しており、S=1では、例えば過去に差別の対象であったなど、利用者が社会的に優遇されていないグループ(非優遇属性とも称する)に属していることを示すとする。例えば、センシティブな属性情報が「性別」Sだとすると、S=1は女性に当てはめられ、S=0は男性に当てはめられる。例えば、センシティブな属性情報が「人種(肌の色)」Sだとすると、S=1は黒人に当てはめられ、S=0は白人に当てはめられる。
【実施例1】
【0015】
図1は実施例1に係る情報処理システム10の構成例を示している。情報処理システム10は予測部110、隠れ属性予測部120、量子化部130、ログ管理部140、状態可視化部150の各機能部を有する。
【0016】
また、補正パラメータ、および制約条件は、予め決定されて記憶部(図示せず)に格納しておく。情報処理システム10の実行時に記憶部から適宜読み出されて利用される。
【0017】
情報処理システム10は、汎用の計算機上に構成することができて、そのハードウェア構成の図示は省略するが、記憶部に記憶されているプログラムをRAMへロードしてCPUで実行することにより上記した各機能部を実現する。
【0018】
予測部110は入力情報11に基づいてラベルの予測値(すなわち判定値情報111)を出力するAIの処理部である。入力情報11は融資判定に用いる利用者の個人情報であるが、センシティブ属性情報S(情報処理システム10を運用する際に、サービスを提供する利用者に入力をさせない個人情報として予めリストアップしたセンシティブ属性情報)は含んでいない。予測部110は例えば深層学習を用いた予測器であり、本実施例ではその出力値(すなわち判定値y)はシグモイド関数によって正規化された“0”から“1”までの連続値であるとする。
【0019】
隠れ属性予測部120は入力情報11に基づいて、利用者のセンシティブ属性情報Sの推定値s’(すなわち推定センシティブ属性情報121)を出力する処理部である。隠れ属性予測部120は例えば深層学習を用いた予測器であり、予測部110の入力特徴量と同一の特徴量を入力とし、これに対応するセンシティブ属性情報S(サービスを提供する利用者に入力をさせない個人情報として予めリストアップしたセンシティブ属性情報)を答えとする訓練データを用いることで作成できる。ただし、学習に適用する訓練データそのものは、予測部110を作成するために用いた訓練データと同一である必要はない。
【0020】
隠れ属性予測部120は、センシティブ属性情報Sが複数個ある場合は、「s’を予測する隠れ属性予測部1」、「s’を予測する隠れ属性予測部2」、……より構成される。
【0021】
本実施例ではセンシティブ属性情報Sの推定値s’はシグモイド関数によって正規化された“0”から“1”までの連続値であるとする。このように、非特許文献1ではセンシティブ属性情報として利用者に入力させた真値が与えられるため、その値は“0”か“1”の離散値であるのに対し、本実施例で扱うセンシティブ属性情報は推定値s’で与えられるため、センシティブ属性情報を推定の自信の強さを示す連続値として扱う必要があることが大きな違いの一つである。
【0022】
量子化部130は、推定センシティブ属性情報121と補正パラメータ情報12に基づいて、判定値情報111の判定値yを量子化して判定結果を算出し、判定結果情報131として出力する処理部である。
【0023】
補正パラメータ情報12は判定値yを量子化するための閾値に関する情報であり、本実施例では基本判定閾値Th、優遇属性の判定閾値αp、非優遇属性の判定閾値αnpの情報を有している。基本判定閾値Thは公平性を考慮しないときに判定値yを量子化するために用いられる閾値であり、通常は0.5付近の値を取る。基本判定閾値Thは予測部110の予測器を学習する過程などで得られる。優遇属性の判定閾値αは優遇属性グループの判定値yを量子化するために用いる閾値であり、目安としてTh≦α<1の値を取る。非優遇属性の判定閾値αnpは非優遇属性グループの判定値yを量子化するために用いる閾値であり、目安として0<αnp≦Thの値を取る。優遇属性の判定閾値αと非優遇属性の判定閾値αnpの最適値を算出する手法の例としては非特許文献1などが挙げられる。
【0024】
図2に量子化部130の補正手段の具体例を示す。本実施例にかかる判定値yの量子化処理では、判定値yが判定閾値α以上であるとき、補正後判定結果Yを“1“とし、判定閾値αより小さければ”0“とする。ここで、判定閾値αは数式(1)で得ることができる。
【0025】
【数1】
【0026】
ここで、αとαnpはそれぞれ優遇属性と非優遇属性の判定閾値である。s’はセンシティブ属性情報の推定値である。なお本実施例では、センシティブ属性情報S=0を優遇属性としており、センシティブ属性情報の推定値s’の値が大きいほど非優遇属性の可能性が高いとした場合の判定閾値αの算出例を示している。このように、非優遇属性の利用者に好ましい結果が得られやすくなるように判定閾値αを定めることで、不公平な予測を行うAIに対してこれを抑制する方向にバイアスを掛けることができ、より公平な情報処理システムを提供できる。
【0027】
なお、センシティブ属性情報の推定値が複数個(s’、s’、……)の場合には、判定閾値αは数式(2)に示す線形和として得ることができる。ただし0≦α≦1になるようにクリップする。
【0028】
【数2】
【0029】
ここで、αp1、αp2とαnp1、αnp2はそれぞれ優遇属性と非優遇属性の判定閾値である。
【0030】
ログ管理部140は、情報処理システム10が入力情報11から判定結果情報131を導くまでに実施した処理の過程に関する状態情報をハードディスクなどの不揮発性記憶装置、あるいはDRAM(Dynamic Random Access Memory)などの揮発性記憶装置に格納する記憶処置部である。格納される状態情報は入力情報11、判定値情報111、推定センシティブ属性情報121、判定結果情報131を含んでおり、例えば金融機関など本実施例にかかる情報処理システムの所有者へ、システムの内部状態情報を可視化するために用いられる。
【0031】
状態可視化部150は、ログ管理部140から状態ログ情報141を読み出し、さらに制約情報13を用いて状態ログ情報151として、システム所有者のユーザ画面300へ出力する。制約情報13はセンシティブ属性情報の推定値s’を量子化するための属性閾値Thと公平性指標値Fの目標値、上限値、および下限値の情報を含む。
【0032】
図3に本実施例に係るユーザ画面300の一例を示す。ユーザ画面300は内部状態情報を表示する領域310と、公平性指標値の状態を表示する領域320を有する。
【0033】
内部状態情報を表示する領域310では、例えば金融機関における融資判定イベントの識別子であるイベントID、該融資判定イベントでの入力情報X、補正前判定結果Y、予測属性S’、補正後判定結果Yを表示する。入力情報Xは入力情報11である。補正前判定結果Yは判定閾値Thを用いて、判定値yが判定閾値Th以上なら“1”(すなわち融資可能)、判定閾値Thより小さいなら“0”(すなわち融資拒否)として得られる。予測属性S’は属性閾値Thを用いて、センシティブ属性情報の推定値s’が属性閾値Th以上なら“1”(すなわち非優遇属性)、属性閾値Thより小さいなら“0”(すなわち優遇属性)として得られる。補正後判定結果Yは判定結果情報131である。
【0034】
公平性指標値の状態を表示する領域320では、公平性指標値Fの目標値321、上限値322、下限値323と、融資判定イベントに対する公平性指標値Fの推定値の遷移を表示する。公平性指標値Fの一例としてグループ公平性の指標値があり、優遇属性(S=0)グループでの融資可能判定(Y=1)を得る確率{P[Y=1|S=0]}に対する非優遇属性(S=1)グループでの融資可能判定(Y=1)を得る確率{P[Y=1|S=1]}の比率として、数式(3)に示すように求めることができる。
【0035】
【数3】
【0036】
例えば、センシティブな属性情報を「性別」Sだとすると、融資可能判定をした人が男性であった確率と、融資可能判定をした人が女性であった確率の比率の遷移を、ログ管理部140に記憶されている過去ログから、公平性指標値Fの遷移を表示している。白丸324で示す過去イベントIDの内部状態情報を領域310に表示している。
【0037】
この場合、目標値321は一般的にF=1と設定される。上限値322と下限値323は国ごとの文化や法律に依存するが、おおむね20%の振れ幅を基準として上限値322は1.2、下限値323は0.8などのような値となる。情報処理システム10の所有者(例えば銀行)が適宜、制約情報13を設定して、公平性指標値Fの遷移を監視して、上限値、または下限値を超えるならば、システムのメンテナンスを実施することが考えられる。
【0038】
以上が情報処理システム10の実施例である。これによりサービス利用者のセンシティブな個人情報を求めることなく、公平な判定結果を実現することが可能となり、利用者のサービス利用に対する心理的負担を軽減することができる。また、本実施例に係る情報処理システムはセンシティブな個人情報の入力を必要としないため、システム所有者の観点ではセンシティブな個人情報を扱うプライバシーに関するリスクを低減できる。
【実施例2】
【0039】
実施例1で示した情報処理システム10では、AIの判定結果に対するセンシティブ属性情報の実質的な影響を考慮せず、非優遇属性のサービス利用者が一律に好ましい判定結果を得やすくなる特徴がある。実施例2では、センシティブ属性情報の影響を除去した判定結果が得られるように補正する情報処理システム20を示す。これにより、AIの判定結果に対するセンシティブ属性情報の実質的な影響を取り除いた判定結果を導く公平な情報処理システムを実現できる。
【0040】
図4に本実施例に係る情報処理システム20の構成例を示す。情報処理システム20は予測部110、隠れ属性予測部120、参照予測部210、参照予測分析部220、属性影響補正部260、量子化部230、ログ管理部240、状態可視化部250の各機能部を備えている。
【0041】
また、閾値情報、補正パラメータ、および制約条件は、予め決定されて記憶部(図示せず)に格納しておく。情報処理システム20の実行時に記憶部から適宜読み出されて利用される。
【0042】
参照予測部210は予測部110の挙動を模倣する予測処理部であり、入力情報11と推定センシティブ属性情報121を用いて予測部110の判定値yを予測した参照判定値y’を参照判定値情報211として出力する。
【0043】
図5に参照予測部210に適用する予測器(ここでは参照予測器511と称する)の作成手段の例を示す。参照予測器511は深層学習などによって実現される予測器であり、入力情報11と推定センシティブ属性情報121を入力として予測部110の判定値を推定する予測モデルである。これを作成するために、参照予測学習部510は訓練データ501と訓練データ501から隠れ属性予測部120が予測した推定センシティブ属性情報121を入力特徴量とし、訓練データ501を入力特徴量として判定した予測部110の判定値情報111を答えとして教師あり学習を実施する。これにより、参照予測部210に適用する参照予測器511を得ることができる。
【0044】
参照予測分析部220は参照予測部210が出力した参照判定値y’の根拠を分析する処理部であり、入力情報11と推定センシティブ属性情報121を入力として、参照予測部210の出力値(すなわち参照判定値y’)に対する各入力特徴量の貢献度情報221を出力する。
【0045】
図6に参照予測分析部220の構成例を示す。参照予測分析部220は参照予測部210と貢献度分析部610を備える。貢献度分析部610は参照予測部210の出力値に対する各入力特徴量の貢献度を算出し、各入力特徴量の貢献度情報221として出力する処理部である。各特徴量の貢献度には、例えばShapley値を用いることができる。貢献度分析部610は入力情報11と推定センシティブ属性情報121の値を中心特徴量として、この中心特徴量に摂動を加えた特徴量(摂動特徴量611と称する)を参照予測部210へ入力し、その出力値である判定値612を統計的に処理する操作を繰り返すことで、各入力特徴量のShapley値(すなわち貢献度)を求めることができる。
【0046】
属性影響補正部260は、判定値情報111、参照判定値情報211、各入力特徴量の貢献度情報221、および閾値情報21を用いて、予測部110の判定値yからセンシティブ属性情報の影響を除去するように補正した補正後判定値yを算出し、補正後判定値情報261として出力する処理部である。
【0047】
図7に属性影響補正部260の補正手段の概念図を示す。ここでは、入力情報11には特徴量1から特徴量3が含まれており、推定センシティブ属性情報121は特徴量4として表現されている例を示している。判定値yに対する各入力特徴量の影響を示しており、矢印の長さが貢献度の大きさ、矢印の向きは貢献度の正負の符号を表している。各入力特徴量の貢献度の総和は判定値yと一致するように正規化されている。図7の例では、特徴量1と特徴量2は判定値yに対して正の方向に寄与しており、これは融資可能の根拠に該当する。一方、特徴量3と特徴量4は判定値yに対して負の方向に寄与しており、これは融資不可能の根拠に該当する。ここで、特徴量4は例えば性別や国籍などのセンシティブ属性情報に該当するため、該センシティブ属性情報について公平な判定結果を得るには判定値yからこの影響を除去することが望ましい。そのため、属性影響補正部260は判定値yに対し、センシティブ属性情報の貢献度C図7では特徴量4の貢献度)を打ち消すように補正することで補正後判定値yを得る。
【0048】
なお、図7の例では、推定センシティブ属性情報121は特徴量4として表現されているが、センシティブ属性情報が複数ある場合には、推定センシティブ属性情報121は複数のセンシティブ属性情報Sの推定値s’である。この場合は、各推定値s’の特徴量を負の方向に多段に加算したものが特徴量4として表現されることになる。
【0049】
図8に属性影響補正部260の補正手段の具体例を示す。図7に示した補正方式の適切さはセンシティブ属性情報の貢献度Cの妥当性に大きく影響を受ける。そのため、ここでは予測部110と参照予測部210の出力結果(すなわち判定値yと参照判定値y’)の類似度を妥当性の指標とし、これらが一致している場合はセンシティブ属性情報の貢献度Cは妥当に評価されているとし、大きく異なる場合は妥当に評価されていないとして補正処理を行わないアルゴリズムを採用した例を示す。
【0050】
まず、処理ステップS810として初期化処理を行う。具体的には補正後判定値yに判定値yを設定し(すなわちy=y)、属性影響補正フラグγに“0”を設定する(すなわちγ=0)。
【0051】
次に処理ステップS820として、判定値の類似度算出処理を行う。具体的には、類似度の指標として判定値yと参照判定値y’の距離Lを導入し、距離Lとして判定値yと参照判定値y’の差分絶対値を求める(すなわちL=|y-y’|)。
【0052】
次に処理ステップS830として距離閾値Thを参照し、距離Lが距離閾値Thよりも小さければ判定値yと参照判定値y’は十分類似しているとして処理ステップS840へ移行し、そうでなければ補正処理を終了する。距離閾値Thは閾値情報21として与えられるパラメータである。
【0053】
処理ステップS840では判定値補正処理を行う。具体的には補正後判定値yに下限値を“0”、上限値を“1”として判定値yからセンシティブ属性情報の貢献度Cを差し引いた値を数式(4)にて設定する。
【0054】
【数4】
【0055】
また、処理ステップS840では属性影響補正フラグγに“1”を設定する(すなわちγ=1)。ここで、補正後判定値yの下限値と上限値をそれぞれ“0”および“1”としているのは、本実施例では予測部110が深層ニューラルネットで構成されており、シグモイド関数で“0”から“1”までに正規化された値が判定値yとして出力されていることを前提としているためである。以上が、属性影響補正部260の補正手段の具体例である。
【0056】
量子化部230は推定センシティブ属性情報121、および補正パラメータ22を用いて、補正後判定値情報261の補正後判定値yを量子化して判定結果を算出し、判定結果情報231として出力する処理部である。
【0057】
補正パラメータ情報22は補正後判定値yを量子化するための閾値に関する情報であり、情報処理システム10で用いた基本判定閾値Th、優遇属性の判定閾値α、非優遇属性の判定閾値αnpに加え、優遇属性の閾値調整係数β、非優遇属性の閾値調整係数βnpを有している。
【0058】
優遇属性の閾値調整係数βは属性影響補正部260にて判定値yからセンシティブ属性情報の影響が除去された場合に優遇属性の判定閾値αによるバイアス効果をどれだけ除去するかを調整するパラメータであり、“0”から“1”までの値を持つ(すなわち0≦β≦1)。非優遇属性の閾値調整係数βnpは属性影響補正部260にて判定値yからセンシティブ属性情報の影響が除去された場合に非優遇属性の判定閾値αnpによるバイアス効果をどれだけ除去するかを調整するパラメータであり、“0”から“1”までの値を持つ(すなわち0≦βnp≦1)。このように、優遇属性の閾値調整係数βと非優遇属性の閾値調整係数βnpは実施例1の情報処理システム10で用いた判定閾値αの調節による補正手段と、属性影響補正部260による補正手段の効果を調整するパラメータとして機能する。
【0059】
図9に量子化部230の補正手段の具体例を示す。ここでは、補正後判定値情報261の補正後判定値yが判定閾値α以上であるとき、補正後判定結果Yを“1”とし、判定閾値αより小さければ“0”とする。ここで、判定閾値αは数式(5)で得ることができる。
【0060】
【数5】
【0061】
ここで、s’はセンシティブ属性情報の推定値である。また、α’とαnp’はそれぞれ優遇属性の補正後判定閾値と非優遇属性の補正後判定閾値であり、これらは基本判定閾値Th、優遇属性の判定閾値α、非優遇属性の判定閾値αnp、優遇属性の閾値調整係数β、非優遇属性の閾値調整係数βnp、および属性影響補正フラグγを用いて数式(6)、数式(7)で得ることができる。
【0062】
【数6】
【0063】
【数7】
【0064】
なお、センシティブ属性情報の推定値が複数個(s’、s’、……)の場合には、数式(5)に示す判定閾値αは数式(8)に示す線形和として得ることができる。ただし0≦α≦1になるようにクリップする。
【0065】
【数8】
【0066】
また、センシティブ属性情報Sの優遇属性の補正後判定閾値αpi’と非優遇属性の補正後判定閾値αnpi’は、数式(9)、数式(10)で得ることができる。
【0067】
【数9】
【0068】
【数10】
【0069】
ここで、αpiと、αnpiは、センシティブ属性情報Sの優遇属性と非優遇属性の判定閾値であり、βpiと、βnpiは、センシティブ属性情報Sの優遇属性と非優遇属性の閾値調整係数である。
【0070】
ここで、属性影響補正フラグγは属性影響補正部260で得た補正処理実施の有無を示すフラグ情報であり、補正後判定値情報261に含まれている。優遇属性の閾値調整係数β、および非優遇属性の閾値調整係数βnpの値がともに“1”のとき、量子化部230ではセンシティブ属性情報に関する補正処理が実施されないことを意味するため、補正後判定値yが判定値yからセンシティブ属性情報の影響を十分に除去できていることが期待できるアプリケーションほどこれらの値を“1”に近い値に設定することが好ましい。このように、優遇属性の閾値調整係数β、および非優遇属性の閾値調整係数βnpは補正後判定値yに含まれるセンシティブ属性情報Sの度合いを表現するパラメータとも表現できる。なお、本実施例では、センシティブ属性情報S=0を優遇属性としており、センシティブ属性情報の推定値s’の値が大きいほど非優遇属性の可能性が高いことを意味する場合の判定閾値αの算出例を示している。
【0071】
ログ管理部240は、情報処理システム20が入力情報11から判定結果情報231を導くまでに実施した処理の過程に関する状態情報を不揮発性記憶装置、あるいは揮発性記憶装置に格納する記憶処置部である。格納される状態情報は入力情報11、判定値情報111、推定センシティブ属性情報121、判定結果情報231、各入力特徴量の貢献度情報221、補正後判定値情報261、および属性影響補正部260で求めたセンシティブ属性の貢献度Cの妥当性情報(すなわち判定値yと参照判定値y’の距離L)を含んでいる。ここで、判定値情報111、各入力特徴量の貢献度情報221、補正後判定値情報261、および貢献度Cの妥当性情報は属性影響補正部260から得られる内部状態情報262に含まれている。
【0072】
状態可視化部250は、ログ管理部240から状態ログ情報241を読み出し、さらに制約情報13を用いて、状態ログ情報251として、システム所有者のユーザ画面1000へ出力する。
【0073】
図10に本実施例に係るユーザ画面1000の例を示す。ユーザ画面1000は内部状態情報を表示する領域910、公平性指標値の状態を表示する領域320、および判定結果の根拠説明を表示する領域920を有する。
【0074】
イベントIDを指定して内部状態情報を表示する領域910では、情報処理システム10のユーザ画面300で表示するイベントID、入力情報、補正前判定結果、予測属性、補正後判定結果に加えて、属性影響を除去するように補正した属性影響補正後判定値を表示する。属性影響補正後判定値は補正後判定値情報261に含まれる補正後判定値yである。
【0075】
判定結果の根拠説明を表示する領域920では、イベントIDごとに判定結果921とその属性貢献度922、および貢献度分析の信頼性923を表示する。判定結果921は補正後判定結果Yの情報であり、融資可否の判定結果が表示される。ここでは、融資可能(すなわちY=1)を許可、融資不可能(すなわちY=0)を却下と表現している。属性貢献度922は各入力特徴量の貢献度情報221の情報であり、入力情報11に含まれる特徴量の貢献度だけでなく、判定値yに対するセンシティブ属性情報の貢献度の情報も表示される。ここでは、特徴量4がセンシティブ属性情報の貢献度に該当する。信頼性923は属性貢献度922の評価の妥当性を示す情報であり、センシティブ属性情報の貢献度Cの妥当性情報(すなわち判定値yと参照判定値y’の距離L)と等価である。ここで、信頼性923は距離Lが距離閾値Thよりも小さい場合は信頼性を“高”、大きい場合は信頼性を“低”として単純化して表現することもできる。図10では単純化した表現と距離Lの数値の両方を表示する例を示している。
【0076】
このように、情報処理システム20では、予測部110が出力する判定値yから属性影響を除去するだけでなく、判定値yに対するセンシティブ属性情報の影響の度合い(すなわち貢献度)を定量化して可視化できる特徴があり、サービス運用時だけでなく、AI開発時にもAI判断の公平性を改善するために極めて有効に活用できる。
【0077】
以上が本発明に係る第2の実施形態として示す情報処理システム20である。これによりAIの判定結果に対するセンシティブ属性情報の実質的な影響を考慮した公平な情報処理システム20が実現できる。
【0078】
また、上記した情報処理システム10、および情報処理システム20における予測部110は、金融融資の合否を判定するラベル予測型AIに限らず、利用者に係る個人情報を入力して、サービス目的に応じた判定結果を出力するAIに適用することができる。予測部110が、第三者が作成した内部がブラックボックスのAIであったとしても、それを導入して、情報処理システム10、または情報処理システム20を構成することが可能である。
【符号の説明】
【0079】
10…情報処理システム、11…入力情報、12…補正パラメータ、13…制約情報、20…情報処理システム、21…閾値情報、22…補正パラメータ、
110…予測部、111…判定値情報、120…隠れ属性予測部、121…推定センシティブ属性情報、130…量子化部、131…判定結果情報、140…ログ管理部、141…状態ログ情報、150…状態可視化部、151…状態ログ情報、
210…参照予測部、211…参照判定値情報、220…参照予測分析部、221…各入力特徴量の貢献度情報、230…量子化部、231…判定結果情報、240…ログ管理部、241…状態ログ情報、250…状態可視化部、251…状態ログ情報、260…属性影響補正部、261…補正後判定値情報、262…内部状態情報、
300…ユーザ画面、310…内部状態情報を表示する領域、320…公平性指標値の状態を表示する領域、321…公平性指標値Fの目標値、322…公平性指標値Fの上限値、323…公平性指標値Fの下限値、324…内部状態情報を表示させる過去イベントID、
501…訓練データ、510…参照予測学習部、511…参照予測器、
610…貢献度分析部、611…中心特徴量に摂動を加えた特徴量(摂動特徴量)、612…参照予測部210の出力値である判定値、
910…内部状態情報を表示する領域、920…判定結果の根拠説明を表示する領域、921…イベントIDごとの判定結果、922…イベントIDごとの属性貢献度(各入力特徴量の貢献度情報)、923…信頼性(属性貢献度922の評価の妥当性を示す情報)、1000…ユーザ画面
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10