▶ 株式会社日立ソリューションズの特許一覧
特開2024-93528教師データ編集支援システム、方法、およびプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024093528
(43)【公開日】2024-07-09
(54)【発明の名称】教師データ編集支援システム、方法、およびプログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20240702BHJP
G06N 5/045 20230101ALI20240702BHJP
【FI】
G06N20/00 130
G06N5/045
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022209963
(22)【出願日】2022-12-27
(71)【出願人】
【識別番号】000233055
【氏名又は名称】株式会社日立ソリューションズ
(74)【代理人】
【識別番号】110000279
【氏名又は名称】弁理士法人ウィルフォート国際特許事務所
(72)【発明者】
【氏名】梁 宇シン
(72)【発明者】
【氏名】恵木 正史
(72)【発明者】
【氏名】中山 晃治
(57)【要約】
【課題】機械学習のモデルによる差別的な判断の低減を支援する。
【解決手段】教師データ編集支援システムが、差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データを入力とし、差別因子が正解に寄与した度合いを示す指標である貢献度を算出する判定部と、教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、または貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示する表示部と、正解をどれだけ変化させるかの指定を受け付けて、指定に基づいて、教師データにおける正解を変化させ、変化後の教師データを出力する編集部と、を有する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データを入力とし、前記差別因子が前記正解に寄与した度合いを示す指標である貢献度を算出する判定部と、
前記教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、または前記貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示する表示部と、
正解をどれだけ変化させるかの指定を受け付けて、前記指定に基づいて、前記教師データにおける前記正解を変化させ、変化後の教師データを出力する編集部と、
を有する教師データ編集支援システム。
【請求項2】
前記貢献度は、前記正解を示す数値のうち前記差別因子によって生じた部分を示す数値であり、
前記判定部は、前記正解を示す数値から前記貢献度の数値を減算することを1回の編集とし、前記編集を行って、前記正解の初期の値からの乖離の度合いと、前記貢献度に基づく差別の度合いとを算出することを繰り返し、
前記表示部は、前記編集の回数に対する、前記正解の初期の値からの乖離の度合いと、前記貢献度に基づく差別の度合いとを表示する、
請求項1に記載の教師データ編集支援システム。
【請求項3】
前記表示部は、前記編集の回数に対する前記正解の初期の値からの乖離の度合いと、前記編集の回数に対する前記貢献度に基づく差別の度合いとを示すグラフを表示する、
請求項2に記載の教師データ編集支援システム。
【請求項4】
前記教師データは、データを複数のカテゴリに分類する識別問題の機械学習に用いられる教師データであり、前記正解の初期の値は、いずれか1つのカテゴリの値が1であり他の全てのカテゴリの値が0であり、
前記判定部は、前記1回の編集において、カテゴリ毎に差別因子の貢献度を算出し、前記正解におけるカテゴリの値から当該カテゴリにおける前記差別因子の貢献度を減算する、
請求項2に記載の教師データ編集支援システム。
【請求項5】
前記差別因子の貢献度が満たすべき要件情報の指定を受け付けて、1回の編集を行う毎に、前記貢献度が前記要件情報を満たす度合いを算出する示唆生成部を更に有し、
前記表示部は、前記要件情報が満たされる度合いが所定の閾値を越える編集の回数について、該編集の回数に対する、前記正解の初期の値からの乖離の度合いと、前記貢献度に基づく差別の度合いとを表示する、
請求項2に記載の教師データ編集支援システム。
【請求項6】
前記貢献度が、前記正解における前記差別因子に対するシャープレイ値である、
請求項2に記載の教師データ編集支援システム。
【請求項7】
前記判定部は、
前記差別因子と前記特徴量とを要素とする集合の全ての部分集合をそれぞれ提携とし、全ての提携について、全ての教師データのそれぞれに、当該教師データにおける当該提携に含まれる要素が類似する他の教師データを当該教師データの類似データとして特定する提携集計部と、
全ての提携それぞれについて全ての教師データに対して当該教師データの類似データの正解の平均値を算出し、差別因子のそれぞれに、当該差別因子の有無のみが差異である2つの提携の組み合わせのそれぞれについて前記正解の平均値の差分を暫定貢献度として算出し、前記暫定貢献度の平均値を当該差別因子の貢献度として算出する貢献度計算部と、
を有する、
請求項6に記載の教師データ編集支援システム。
【請求項8】
処理装置を有する装置による、教師データ編集支援方法であって、
前記処理装置が、
差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データの入力に応じて、前記差別因子が前記正解に寄与した度合いを示す指標である貢献度を算出し、
前記教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、または前記貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示し、
正解をどれだけ変化させるかの指定を受け付けて、前記指定に基づいて、前記教師データにおける前記正解を変化させ、変化後の教師データを出力する、ことを前記処理装置が実行する、
教師データ編集支援方法。
【請求項9】
処理装置を有する装置に、
差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データを入力とし、前記差別因子が前記正解に寄与した度合いを示す指標である貢献度を算出し、
前記教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、または前記貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示し、
正解をどれだけ変化させるかの指定を受け付けて、前記指定に基づいて、前記教師データにおける前記正解を変化させ、変化後の教師データを出力する、
ことを実行させるための、教師データ編集支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、機械学習の教師データ編集支援システム、教師データ編集支援方法および教師データ編集支援プログラムに関する。
【背景技術】
【0002】
機械学習では、過去に行われた様々な人間の活動履歴を教師データとして利用する場合がある。過去には、人間の様々な属性の違いにより人間に対して差別的な扱いがされていた可能性がある。そのため、過去の活動履歴には、そのような差別的な扱いを含む情報が存在する可能性がある。例えば、金融機関における過去の与信の履歴には、人種あるいは性別などによる差別の痕跡が含まれている可能性がある。そのような差別を含んだデータを教師データとして機械学習を行って生成されるAI(Artificial Intelligence)のモデルは、差別的な判断を下してしまう恐れがある。そのためAIのモデルによる差別的な判断を低減して公平性を向上することが望まれる。
【0003】
特許文献1には、教師データの件数が増えればモデルの予測精度が向上し公平性が改善されるという仮定の下、画像の分野において、教師データにおいて相対的に件数が少ない属性情報を持つ画像の摂動画像を生成し、教師データに追加することにより公平性を改善するという技術が開示されている。
【0004】
非特許文献1には、差別が生じる恐れのある属性等の変数を差別因子として、差別因子と正解がともにバイナリ(2値)である場合を対象とし、差別因子のそれぞれについて正解が望ましい状態である割合を公平性の指標として計算し、その指標を改善するように正解を書き換えるという手法が開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】国際公開WO2022/123907A1号明細書
【非特許文献】
【0006】
【非特許文献1】Kamiran, Faisal, and Toon Calders. “Data preprocessing techniques for classification without discrimination.” Knowledge and information systems 33.1 (2012):1-33
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1に開示された技術においては、教師データの件数が増えればモデルの予測精度が上がり公平性が改善されると仮定しているが、必ずしもそうなるとは限らない。例えば摂動画像を生成する元の画像が差別因子の影響を受けていた場合、その摂動画像を追加して教師データを増やしても、モデルから差別因子の影響を低減することにならない恐れがある。非特許文献1に開示された手法は、正解が2値で表される2値分類問題を対象としており、回帰問題など他の問題に対しては適用できない。
【0008】
本開示に含まれるひとつの目的は、機械学習のモデルによる差別的な判断の低減を支援する技術を提供することである。
【課題を解決するための手段】
【0009】
本開示に含まれるひとつの態様による教師データ編集支援システムは、差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データを入力とし、前記差別因子が前記正解に寄与した度合いを示す指標である貢献度を算出する判定部と、前記教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、または前記貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示する表示部と、正解をどれだけ変化させるかの指定を受け付けて、前記指定に基づいて、前記教師データにおける前記正解を変化させ、変化後の教師データを出力する編集部と、を有する。
【0010】
本開示に含まれるひとつの態様による教師データ編集支援方法は、処理装置を有する装置による、教師データ編集支援方法であって、処理装置が、差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データの入力に応じて、前記差別因子が前記正解に寄与した度合いを示す指標である貢献度を算出し、前記教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、または前記貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示し、正解をどれだけ変化させるかの指定を受け付けて、前記指定に基づいて、前記教師データにおける前記正解を変化させ、変化後の教師データを出力する。
【0011】
本開示に含まれるひとつの態様による教師データ編集支援プログラムは、処理装置を有する装置に、差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データを入力とし、前記差別因子が前記正解に寄与した度合いを示す指標である貢献度を算出し、前記教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、または前記貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示し、正解をどれだけ変化させるかの指定を受け付けて、前記指定に基づいて、前記教師データにおける前記正解を変化させ、変化後の教師データを出力する、ことを実行させる。
【発明の効果】
【0012】
本開示に含まれるひとつの態様によれば、機械学習のモデルによる差別的な判断の低減が可能になる。
【図面の簡単な説明】
【0013】
【
図1】教師データ編集支援システムの構成例を示す機能ブロック図である。
【
図2】教師データのフォーマットを例示する概念図である。
【
図3】判定結果のフォーマットを例示する概念図である。
【
図4】編集済み教師データのフォーマットを例示する概念図である。
【
図5】判定部が行う情報処理を例示するフローチャートである。
【
図6】編集部が行う情報処理を例示するフローチャートである。
【
図7】判定履歴データのフォーマットを例示する概念図である。
【
図8】表示部による第1の表示例を示す概念図である。
【
図9】表示部による第2の表示例を示す概念図である。
【
図10】表示部による第3の表示例を示す概念図である。
【
図11】教師データのフォーマットを例示する概念図である。
【
図12】判定結果のフォーマットを例示する概念図である。
【
図13】編集済み教師データのフォーマットを例示する概念図である。
【
図14】教師データ編集支援システムの構成例を示す機能ブロック図である。
【
図15】要件情報のフォーマットを例示する概念図である。
【
図16】示唆生成部が行う情報処理を例示するフローチャートである。
【
図17】教師データ編集支援システムの構成例を示す機能ブロック図である。
【
図18】提携集計部が行う情報処理を例示するフローチャートである。
【
図19】組み合わせマスクのフォーマットを例示する概念図である。
【
図20】提携集計結果のフォーマットを例示する概念図である。
【
図21】貢献計算部が行う情報処理を例示するフローチャートである。
【
図22】提携集計結果のフォーマットを例示する概念図である。
【
図23】暫定貢献度結果のフォーマットを例示する概念図である。
【
図24】教師データ編集支援システムの構成例を示すブロック図である。
【
図25】計算機のハードウェア構成例を示す概念図である。
【発明を実施するための形態】
【0014】
以下、本発明の実施形態について図面を参照して説明する。
【実施例0015】
図1は、教師データ編集支援システムの構成例を示す機能ブロック図である。
【0016】
教師データ編集支援システム1は、図示を省略する処理装置と記憶装置とを少なくとも備える。教師データ編集支援システム1は、通信装置、入力装置、出力装置等をさらに備えていてもよい。
【0017】
処理装置は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field-Programmable Gate Array)等で構成される。処理装置が、記憶装置に格納されている各種プログラムやデータを読み出して実行することにより、教師データ編集支援システム1の様々な機能が実現される。
【0018】
より具体的には、処理装置は記憶装置に格納されている各種プログラムやデータを読み出して実行することにより、判定部102と、表示部104と、編集部105とを実現する。
【0019】
記憶装置はプログラムやデータを記憶する装置であり、例えば、Random Access Memory(RAM)、Read Only Memory(ROM)、不揮発性半導体メモリ(Non-Volatile RAM(NVRAM))である。
【0020】
記憶装置は、例えば、Hard Disc Drive(HDD)、Solid State Drive(SSD)、ストレージシステム、Integrated Circuit(IC)カード、Secure Digital(SD)メモリカードや光学式記録媒体(Compact Disc(CD)、Digital Versatile Disc(DVD)など)などの記録媒体の読み取りおよび書き込み装置、クラウドサーバの記憶領域であってもよい。
【0021】
記憶装置は、上述の各種の記憶装置を複数組み合わせたものであってもよい。
【0022】
記憶装置に各種のプログラムやデータが記憶される。具体的には、教師データ101と、判定結果103と、編集済み教師データ106とが記憶装置に記憶される。なお、これらのデータは複数の記憶装置に分割されて記憶されていてもよく、1つの記憶装置に記憶されていてもよい。
【0023】
通信装置はLocal Area Network(LAN)やInternetなどの通信手段を介した他の装置との間の通信を実現する有線または無線方式の通信インターフェースであり、例えば、Network Interface Card(NIC)、無線通信モジュール、Universal Serial Interface(USB)モジュール、シリアル通信モジュールである。
【0024】
入力装置はユーザからの入力を受け付ける装置である。入力装置は、例えば、キーボード、マウス、タッチパネル、カードリーダ、音声入力装置である。
【0025】
出力装置はユーザに処理経過や処理結果などの各種情報を提供する装置である。出力装置は、例えば、画面表示装置(Liquid Crystal Display(LCD)、Head Mounted Display(HMD)など)、音声出力装置、印字装置等である。なお、教師データ編集支援システム1が通信装置を介して、他の装置との間で情報の入力や出力を行う構成としてもよい。
【0026】
判定部102は、差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データを入力とし、差別因子が正解に寄与した度合いを示す指標である貢献度を算出する。
【0027】
表示部104は、教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、および貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示する。システムユーザ107が、提示された内容を確認する。
【0028】
編集部105は、正解をどれだけ変化させるかの指定を受け付けて、指定に基づいて、教師データにおける正解を変化させ、変化後の教師データを編集済み教師データ106として出力する。
【0029】
図2は、教師データのフォーマットを例示する概念図である。教師データは、データID200と、差別因子情報201と、入力特徴量202と、正解203とを有する。差別因子情報201は、差別を生む恐れのある変数である差別因子として、例えば性別や年齢などの情報を含む。入力特徴量202は、予測に用いられる変数であり、例えば年収(単位:万円)や住所などを含む。正解は、本実施例においては与信額(単位:万円)であり、一次元の値である。なお、実施例1は回帰についての実施例である。
【0030】
図3は、判定結果のフォーマットを例示する概念図である。判定結果は、データIDと、差別因子貢献302と、入力特徴量貢献303とを有する。上述の貢献度は、差別因子貢献302と入力特徴量貢献303とに対応する。貢献度とは、差別因子が正解に寄与した度合いを示す指標である。
【0031】
図4は、編集済み教師データのフォーマットを例示する概念図である。編集済み教師データのフォーマットは、教師データのフォーマットと基本的に同様であるが、正解の値が編集されている。編集された正解のカラムを、編集正解403として表記している。
【0032】
図5は、判定部が行う情報処理を例示するフローチャートである。判定部102は、正解の値の編集した回数を意味する編集回数ごとに、ステップS102からステップS105までの処理を行う(ステップS101およびS106のループ)。
【0033】
判定部102は、教師データごとに、ステップS103の処理を行う(ステップS102およびS104のループ)。ステップS103において判定部102は、教師データの差別因子および特徴量に対し、正解値への貢献度を計算する。
【0034】
貢献度の計算アルゴリズムとして、例えばShapley法がある。Shapley法を用いる場合、判定部102は、教師データから予測モデルを作成しその予測値に対しシャープレイ値を計算する。この場合の貢献度は、正解における差別因子に対するシャープレイ値である。また、貢献度の計算アルゴリズムは教師データから直接貢献度を計算するCohortShapley法であってもよい。貢献度の計算アルゴリズムはこれには限られない。
【0035】
ステップS105において判定部102は、各教師データの差別因子の貢献度に基づいて、正解の値を編集する。
【0036】
なお、判定部102は、正解を示す数値から貢献度の数値を減算することを1回の編集とし、この編集を行って、正解の初期の値からの乖離の度合いと、貢献度に基づく差別の度合いとを算出することを繰り返してよい。
【0037】
図6は、編集部が行う情報処理を例示するフローチャートである。ステップS201において編集部105は、判定履歴データから、指定された編集回数の正解情報を抽出し、その正解値を上書きする。
【0038】
図7は、判定履歴データのフォーマットを例示する概念図である。判定履歴データは、編集回数ごとに、差別因子貢献、入力特徴量貢献、および編集正解を有する。編集によって編集正解の値は変更されていくが、変更前後のデータを保存しておいてよい。
【0039】
図8は、表示部による第1の表示例を示す概念図である。表示部104には、編集回数501、編集対象502、判定開始ボタン503および、データを表示するデータ表示領域504が表示される。ユーザは、編集回数を選択する。またユーザは、編集対象として、例えば性別や年齢などの項目を入力する。データ表示領域504には、教師データのオリジナルデータに基づく表が表示される。ユーザが判定開始ボタン503を押下すると、判定処理が開始される。
【0040】
図9は、表示部による第2の表示例を示す概念図である。第2画面600の表示部104には、差別リスク指標のプルダウン選択ボックス601、校正傾向情報のプルダウン選択ボックス602、最適編集回数のプルダウン選択ボックス603が表示される。また、表示部104には、編集回数ごとの差別リスクおよび校正傾向を示すグラフ604、編集済みデータ出力ボタン605、および詳細レポート表示ボタン606が表示される。
【0041】
ユーザは、差別リスク指標のプルダウン選択ボックス601を操作して、例えば「性別」や「年齢」などの、グラフ604に表示したい差別リスク指標を選択する。ユーザは、校正傾向情報のプルダウン選択ボックス602を操作して、例えば「性別」や「年齢」などの、グラフ604に表示したい校正傾向情報を選択する。
【0042】
グラフ604には、上記のプルダウン選択ボックスで選択された内容が線で表示される。グラフの横軸は編集回数である。実線の折れ線は差別リスク指標の値を、破線の曲線は校正傾向情報の値をそれぞれ示している。なお、編集回数が増えるにつれ、編集回数が少ない内は、差別リスクは低減する傾向があり、やがて差別リスクの低減量は減る。編集回数が増えるにつれ、校正傾向情報の値、すなわち正解の初期の値からの乖離の度合いは増加する傾向がある。
【0043】
表示部104は、編集の回数に対する、正解の初期の値からの乖離の度合いと、前記貢献度に基づく差別の度合いとを表示する。グラフ604における破線の曲線が、編集の回数に対する正解の初期の値からの乖離の度合いを示している。グラフ604における実線の折れ線が、編集の回数に対する貢献度に基づく差別の度合いを示している。
【0044】
ユーザが編集済みデータ出力ボタン605を押下すると、最適編集回数のプルダウン選択ボックス603で選択済みの編集回数について、編集部105の処理が実行される。ユーザが詳細レポート表示ボタン606を押下すると、最適編集回数のプルダウン選択ボックス603で選択済みの編集回数について、判定結果の詳細が表示される。
【0045】
図10は、表示部による第3の表示例を示す概念図である。なお、
図6に示した第2画面600においてユーザが詳細レポート表示ボタン606を押下した場合に、第3画面700が表示される。第3画面700には、分布表示のプルダウン選択ボックス701、最適編集回数のプルダウン選択ボックス702、貢献度ごとの件数分布を示すグラフ703、教師データの表704、貢献度情報の表705、編集済み教師データの表706が表示される。
【0046】
ユーザは、分布表示のプルダウン選択ボックス701を操作して、例えば「性別」や「年齢」などの、グラフ703に表示させたい対象を選択する。グラフ703の横軸は、分布表示のプルダウン選択ボックス701で選択された項目であり、本例では「性別」の貢献度が横軸となっている。グラフ703の縦軸は件数である。
【0047】
教師データ704の表は、編集前の教師データが表示される。例えばデータID=1である教師データの与信額はオリジナルの値の500である。編集済み教師データ706の表は、最適編集回数702で選択された編集回数に対応する編集済み教師データが表示される。本例では、編集回数1回の場合の編集済み制御データが表示されている。1回の編集により、データID=1である教師データの与信額は470となっている。これは、貢献度情報におけるデータIDが1の行を見ると、Shapley法を用いて計算された貢献度がそれぞれ、性別について+20、年齢について+10であったため、オリジナルの与信額500から+20および+10を減算している。すなわち、500-20-10=470が編集済み教師データの、データIDが1の行における与信額となる。なお、データID=2である各行に着目すると、教師データのオリジナルの与信額は331であり、差別因子貢献度における性別が-10、年齢が-20であるため、編集済み教師データの与信額は331-(-10)-(-20)=361となっている。
【実施例0048】
実施例2として、教師データが識別問題用の教師データである場合について説明する。この場合の教師データは、データを複数のカテゴリに分類する識別問題の機械学習に用いられる教師データであり、正解の初期の値は、いずれか1つのカテゴリの値が1であり他の全てのカテゴリの値が0である。
【0049】
図11は、教師データのフォーマットを例示する概念図である。教師データは、データID200と、差別因子情報201と、入力特徴量202と、正解203とを有する。差別因子情報201は、差別を生む恐れのある変数である差別因子として、例えば性別や年齢などの情報を含む。入力特徴量202は、予測に用いられる変数であり、例えば年収(単位:万円)や住所などを含む。正解203は、複数のカテゴリからなるワンホット(One-hot)エンコーディングに基づくワンホットベクトルである。
【0050】
図12は、判定結果のフォーマットを例示する概念図である。判定結果は、データIDと、カテゴリごとの差別因子貢献と、入力特徴量貢献とを有する。上述の貢献度は、差別因子貢献と入力特徴量貢献とに対応する。貢献度とは、差別因子が正解に寄与した度合いを示す指標である。判定部102は例えば、1回の編集において、カテゴリ毎に差別因子の貢献度を算出し、正解におけるカテゴリの値から当該カテゴリにおける差別因子の貢献度を減算する。
【0051】
図13は、編集済み教師データのフォーマットを例示する概念図である。編集済み教師データのフォーマットは、教師データのフォーマットと基本的に同様であるが、正解の値が編集されている。編集された正解のカラムを、編集正解403として図示している。また、編集正解403はカテゴリごとに正解の値を含む。
【0052】
(示唆の生成)
図14は、教師データ編集支援システムの構成例を示す機能ブロック図である。
図14に示す教師データ編集支援システム1Aの構成は、
図1に示した教師データ編集支援システム1の構成とほぼ同様であるため、相違点のみ説明する。
【0053】
教師データ編集支援システム1Aは処理装置を含む。処理装置は記憶装置に格納されている各種プログラムやデータを読み出して実行することにより、示唆生成部109をさらに実現する。記憶装置には要件情報108がさらに記憶される。
【0054】
示唆生成部109は、差別因子の貢献度が満たすべき要件情報の指定を受け付けて、1回の編集を行う毎に、貢献度が要件情報を満たす度合いを算出する。
【0055】
図15は、要件情報のフォーマットを例示する概念図である。要件情報108は、要件IDと、差別因子と、入力特徴量と、正解とを有する。差別因子と、入力特徴量と、正解の格情報ごとに、貢献度が要件条件を満たすための条件が定義される。例えば要件IDが1の要件情報については、「男性」「女性」の因子貢献度が20未満であるという要件が定義されている。要件IDが2の要件情報については、年齢が60を超えており、かつ因子貢献度が20未満であるという要件が定義されている。
図15に示した表において、Nullはそのカラムについての条件設定が無い事を示している。
【0056】
表示部104は、要件情報が満たされる度合いが所定の閾値を越える編集の回数について、編集の回数に対する、正解の初期の値からの乖離の度合いと、貢献度に基づく差別の度合いとを表示する。要件情報が満たされる度合いとは、例えば、複数の要件が指定され、複数の要件のうちいくつの要件が満たされるかの度合いなどを意味する。度合いとは、要件が満たされる回数や率などであってよい。
【0057】
図16は、示唆生成部が行う情報処理を例示するフローチャートである。示唆生成部109は、編集回数ごとに、ステップS302の処理を行う(ステップS301およびS303のループ)。ステップS302において示唆生成部109は、編集した正解値について要件情報が満たされる度合いを評価する。ここでいう評価とは、算出や計算を意味していてよい。示唆生成部109は要件が満たされる度合いが高い編集回数についての情報を表示部に表示する(ステップS304)。
【0058】
図17は、教師データ編集支援システムの構成例を示す機能ブロック図である。
図17に示す教師データ編集支援システム1Bの構成は、
図1に示した教師データ編集支援システム1の構成とほぼ同様であるため、相違点のみ説明する。
【0059】
教師データ編集支援システム1Bは処理装置を含む。前述のように、処理装置は記憶装置に格納されている各種プログラムやデータを読み出して実行することにより、判定部102と、表示部104と、編集部105とを実現する。ここで、判定部102は、提携集計部110と、貢献計算部111とを含む。
【0060】
提携集計部110は、差別因子と特徴量とを要素とする集合の全ての部分集合をそれぞれ提携とし、全ての提携について、全ての教師データのそれぞれに、当該教師データにおける当該提携に含まれる要素が類似する他の教師データを当該教師データの類似データとして特定する。貢献計算部111は、全ての提携それぞれについて全ての教師データに対して当該教師データの類似データの正解の平均値を算出し、差別因子のそれぞれに、当該差別因子の有無のみが差異である2つの提携の組み合わせのそれぞれについて正解の平均値の差分を暫定貢献度として算出し、暫定貢献度の平均値を当該差別因子の貢献度として算出する。
【0061】
なお、提携集計部110についての類似の判断基準は、閾値や一致などに基づいてよい。例えば、ある教師データにおける提携に含まれる要素が連続値Aである場合、類似範囲を閾値として定めることができる。例えば連続値A-100から連続値A+100までの値である場合を類似とし、それ以外の場合を非類似としてよい。ある教師データにおける提携に含まれる要素がカテゴリ値である場合については、カテゴリが一致したら類似と判定してよいよい。類似の判断基準は、上記のものには限られない。
【0062】
図18は、提携集計部が行う情報処理を例示するフローチャートである。提携集計部110は、差別因子と特徴量の次元数の総和に対し、想定しうる全ての組み合わせを組み合わせマスクとして生成する(S401)。なお、組み合わせマスクについては
図19を参照して後述する。
【0063】
提携集計部110は、教師データごとに、ステップS403からステップS406の処理を行う(ステップS402およびS407のループ)。提携集計部110は、提携IDごとに、ステップS404およびステップS405の処理を行う(ステップS403およびS406のループ)。
【0064】
ステップS404において提携集計部110は、提携に含める差別因子・特徴量について、値に基づき類似データを抽出する(S404)。なお、連続値を取る差別因子・特徴量において、教師データ全体における値の分布から、類似状態と判定する閾値が予め決定されていてよい。
【0065】
ステップS405において提携集計部110は、類似データとした教師データのID情報を、提携集計結果として保存する。なお、提携集計結果については
図20を参照して後述する。
【0066】
図19は、組み合わせマスクのフォーマットを例示する概念図である。組み合わせマスクは情報項目(カラム)として、提携ID1600と、差別因子マスク1601と、入力特徴量マスク1602とを有する。提携IDは、提携を一意に特定する識別情報である。差別因子マスク1601は、例えば性別や年齢などの差別因子を示す項目を含む。入力特徴量マスクは、年収や住所などの入力特徴量を示す項目を含む。組み合わせマスクには、0または1の値が設定される。0の値は、提携に含まれないことを意味する。1の値は、提携に含まれることを意味する。例えば提携IDが2である提携には、入力特徴量マスク1602における住所の項目が含まれる。ステップS401において提携集計部110は、各カラムの値が0または1であるとした、想定しうる全パターンの組み合わせを生成する。
【0067】
図20は、提携集計結果のフォーマットを例示する概念図である。提携集計結果は、各教師データが、各提携パターンにおいてどの他データを類似データとして抽出したかを履歴として保存したデータである。
【0068】
提携集計結果は情報項目(カラム)として、提携ID1600と、類似データセット1700とを有する。提携ID1600は、
図19にて説明したものと同様であるため詳しい説明は省略する。類似データセット1700は、各教師データが、各提携パターンにおいてどのデータを類似データとして抽出したかを示すデータを複数種類含む。例えば、提携ID=1、データID=1であるデータは、#5と#6と……を類似データとして抽出したことを示すデータである。提携ID=1、データID=2であるデータは、#3と#8と……を類似データとして抽出したことを示すデータである。
【0069】
図21は、貢献計算部が行う情報処理を例示するフローチャートである。
【0070】
貢献計算部111は、教師データごとに、ステップS502からステップS505の処理を行う(ステップS501およびS506のループ)。貢献計算部111は、提携IDごとに、ステップS503およびステップS504の処理を行う(ステップS502およびS505のループ)。
【0071】
ステップS503において貢献計算部111は、類似データの正解値の平均値を各データおよび各提携に対し計算する。ステップS504において貢献計算部111は、提携間の差分から正解平均値の差分を、差別因子および入力特徴量の暫定貢献度として計算する。
【0072】
ステップS507において貢献計算部111は、各々の差別因子および入力特徴量の暫定貢献度の履歴から貢献度を計算する。例えば、提携IDの全組み合わせパターンに対し平均値を計算することにより、その差別因子および入力特徴量の貢献度を計算する。
【0073】
図22は、提携集計結果のフォーマットを例示する概念図である。提携集計結果のフォーマットは、
図20を参照して説明した提携集計結果と同様である。
図20の場合は、提携IDおよびデータIDごとに類似データを抽出した。例えば提携ID=1、データID=1である類似データは、#5と#6と……というものであった(
図20参照)。ステップS503において貢献計算部111は、#5のデータの正解値と、#6の正解値と、……の間の平均値を計算する。例えば、提携ID=1であり、データID=1である類似データについての、正解値の平均値は231となる。提携IDごと、およびデータIDごとにこの平均値計算を行うと、
図22に示したような正解平均値結果が算出される。
【0074】
図23は、暫定貢献度結果のフォーマットを例示する概念図である。上述のように、ステップS504において貢献計算部111は、提携間の差分から正解平均値の差分を、差別因子・入力特徴量の暫定貢献度として計算する。
図23は、計算された暫定貢献度2000を示している。
【0075】
ステップS504において貢献計算部111は、例えば提携ID=1、データID=1である第1データと、提携ID=2、データID=1である第2データの間で差分を計算する。図示した例においては、性別、年齢、年収などについては第1データと第2データとの間で差が無いため、差分の値が0になっている。住所については、第1データと第2データとの間で差があるため、差分の値が-10になっている。すなわち、第1データの正解平均値231と、第2データの正解平均値221の差分をとる。計算された第2データの正解平均値221-第1データの正解平均値231=-10は、「住所」を提携に含めたことによる暫定貢献度を示す。
【0076】
貢献計算部111は、同様に、提携ID=2、データID=1である第2データと、提携ID=3、データID=1である第3データとの間で差分を計算する。この場合、性別、年齢、住所については第2データと第3データとの間で差がないため、差分の値が0になっている。年収については第2データと第3データとの間で差があるため、差分の値が+20になっている。
【0077】
図24は、教師データ編集支援システムの構成例を示すブロック図である。教師データ編集支援システム1を構成する機能部やデータは、1つの装置に集約されていてもよいが、複数の装置に分散配置されていてもよい。
図24は分散配置の例を示している。
【0078】
図24に示した教師データ編集支援システム1Cは、計算機100-1と、計算機100-2と、計算機100-3とを含む。これらの計算機はインターネットなどの通信回線NWを介して互いに通信可能に接続されている。
【0079】
教師データ編集支援システム1Cにおける計算機100-1はサーバに相当する。計算機100-2はユーザ端末に相当する。計算機100-3はデータサーバに相当する。計算機100-1、100-2、および100-3はそれぞれ、処理装置と記憶装置とを有する。
【0080】
計算機100-1の処理装置は記憶装置に格納されている各種プログラムやデータを読み出して実行することにより、判定部102と編集部105とを実現する。計算機100-1の記憶装置には、判定結果103と、編集済み教師データ106とが記憶される。計算機100-2の処理装置は記憶装置に格納されている各種プログラムやデータを読み出して実行することにより、表示部104を実現する。計算機100-3の記憶装置には教師データ101が記憶される。
【0081】
図25は計算機のハードウェア構成例を示す概念図である。計算機2500は、
図24に示した計算機100-1、100-2および100-3のそれぞれに相当する。計算機2500は、プロセッサ2501と、主記憶装置2502と、副記憶装置2503と、ネットワークインタフェース2504とを有する。プロセッサ2501が上述の処理装置に相当する。主記憶装置2502と副記憶装置2503とが上述の記憶装置に相当する。ネットワークインタフェース2504は、
図24に示したネットワークNWを介して外部装置等と通信するための装置である。
【0082】
上述した本発明の実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本発明の範囲を逸脱することなしに、他の様々な態様で本発明を実施することができる。
【0083】
以上のように、教師データ編集支援システムが、差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データを入力とし、差別因子が正解に寄与した度合いを示す指標である貢献度を算出する判定部と、教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、および貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示する表示部と、正解をどれだけ変化させるかの指定を受け付けて、指定に基づいて、教師データにおける正解を変化させ、変化後の教師データを出力する編集部と、を有する。
【0084】
処理装置を有する装置による教師データ編集支援方法が、差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データの入力に応じて、差別因子が正解に寄与した度合いを示す指標である貢献度を算出する判定ステップと、教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、および貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示する表示ステップと、正解をどれだけ変化させるかの指定を受け付けて、指定に基づいて、教師データにおける正解を変化させ、変化後の教師データを出力する編集ステップと、を有する。
【0085】
教師データ編集支援プログラムが、処理装置を有する装置に、差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データを入力とし、差別因子が正解に寄与した度合いを示す指標である貢献度を算出する判定機能と、教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、および貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示する表示機能と、正解をどれだけ変化させるかの指定を受け付けて、指定に基づいて、教師データにおける正解を変化させ、変化後の教師データを出力する編集機能と、を実現させる。
【0086】
上記によれば、機械学習のモデルによる差別的な判断の低減を支援することができる。
【0087】
貢献度は、正解を示す数値のうち差別因子によって生じた部分を示す数値であり、判定部は、正解を示す数値から貢献度の数値を減算することを1回の編集とし、編集を行って、正解の初期の値からの乖離の度合いと、貢献度に基づく差別の度合いとを算出することを繰り返し、表示部は、編集の回数に対する、正解の初期の値からの乖離の度合いと、貢献度に基づく差別の度合いとを表示する。これにより、正解の初期の値からの乖離の度合いと、貢献度に基づく差別の度合いとを編集の回数に応じて可視化し、ユーザに提供することができる。
【0088】
表示部は、編集の回数に対する正解の初期の値からの乖離の度合いと、編集の回数に対する貢献度に基づく差別の度合いとを示すグラフを表示する。これにより、正解の初期の値からの乖離の度合いと、貢献度に基づく差別の度合いとを編集の回数に応じてグラフとして可視化し、ユーザに提供することができる。
【0089】
教師データは、データを複数のカテゴリに分類する識別問題の機械学習に用いられる教師データであり、正解の初期の値は、いずれか1つのカテゴリの値が1であり他の全てのカテゴリの値が0であり、判定部は、1回の編集において、カテゴリ毎に差別因子の貢献度を算出し、正解におけるカテゴリの値から当該カテゴリにおける差別因子の貢献度を減算する。これにより、識別問題の教師データを用いる場合においても、機械学習のモデルによる差別的な判断の低減を支援することができる。
【0090】
差別因子の貢献度が満たすべき要件情報の指定を受け付けて、1回の編集を行う毎に、貢献度が要件情報を満たす度合いを算出する示唆生成部を更に有し、表示部は、要件情報が満たされる度合いが所定の閾値を越える編集の回数について、該編集の回数に対する、正解の初期の値からの乖離の度合いと、貢献度に基づく差別の度合いとを表示する。これにより、要件情報の指定に基づいて、その要件情報を満たす度合いの高い編集回数を可視化してユーザに提示することができる。
【0091】
貢献度が、正解における差別因子に対するシャープレイ値である、これにより、シャープレイ値に基づいて機械学習のモデルによる差別的な判断の低減を支援することができる。
【0092】
判定部は、差別因子と特徴量とを要素とする集合の全ての部分集合をそれぞれ提携とし、全ての提携について、全ての教師データのそれぞれに、当該教師データにおける当該提携に含まれる要素が類似する他の教師データを当該教師データの類似データとして特定する提携集計部と、全ての提携それぞれについて全ての教師データに対して当該教師データの類似データの正解の平均値を算出し、差別因子のそれぞれに、当該差別因子の有無のみが差異である2つの提携の組み合わせのそれぞれについて正解の平均値の差分を暫定貢献度として算出し、暫定貢献度の平均値を当該差別因子の貢献度として算出する貢献度計算部と、を有する、これにより、提携を考慮した貢献度を計算することができる。
1…教師データ編集支援システム、100…計算機、101…教師データ、102…判定部、103…判定結果、104…表示部、105…編集部、106…教師データ、107…システムユーザ、108…要件情報、109…示唆生成部、110…提携集計部、111…貢献計算部、503…判定開始ボタン、504…データ表示領域、2500…計算機、2501…プロセッサ、2502…主記憶装置、2503…副記憶装置、2504…ネットワークインタフェース