特開2024-93528 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社日立ソリューションズの特許一覧

特開2024-93528教師データ編集支援システム、方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024093528

(43)【公開日】2024-07-09

(54)【発明の名称】教師データ編集支援システム、方法、およびプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20240702BHJP

G06N 5/045 20230101ALI20240702BHJP

【ＦＩ】

G06N20/00 130

G06N5/045

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2022209963

(22)【出願日】2022-12-27

(71)【出願人】

【識別番号】000233055

【氏名又は名称】株式会社日立ソリューションズ

(74)【代理人】

【識別番号】110000279

【氏名又は名称】弁理士法人ウィルフォート国際特許事務所

(72)【発明者】

【氏名】梁宇シン

(72)【発明者】

【氏名】恵木正史

(72)【発明者】

【氏名】中山晃治

(57)【要約】

【課題】機械学習のモデルによる差別的な判断の低減を支援する。
【解決手段】教師データ編集支援システムが、差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データを入力とし、差別因子が正解に寄与した度合いを示す指標である貢献度を算出する判定部と、教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、または貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示する表示部と、正解をどれだけ変化させるかの指定を受け付けて、指定に基づいて、教師データにおける正解を変化させ、変化後の教師データを出力する編集部と、を有する。
【選択図】図１

【特許請求の範囲】

【請求項1】

差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データを入力とし、前記差別因子が前記正解に寄与した度合いを示す指標である貢献度を算出する判定部と、
前記教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、または前記貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示する表示部と、
正解をどれだけ変化させるかの指定を受け付けて、前記指定に基づいて、前記教師データにおける前記正解を変化させ、変化後の教師データを出力する編集部と、
を有する教師データ編集支援システム。

【請求項2】

前記貢献度は、前記正解を示す数値のうち前記差別因子によって生じた部分を示す数値であり、
前記判定部は、前記正解を示す数値から前記貢献度の数値を減算することを１回の編集とし、前記編集を行って、前記正解の初期の値からの乖離の度合いと、前記貢献度に基づく差別の度合いとを算出することを繰り返し、
前記表示部は、前記編集の回数に対する、前記正解の初期の値からの乖離の度合いと、前記貢献度に基づく差別の度合いとを表示する、
請求項１に記載の教師データ編集支援システム。

【請求項3】

前記表示部は、前記編集の回数に対する前記正解の初期の値からの乖離の度合いと、前記編集の回数に対する前記貢献度に基づく差別の度合いとを示すグラフを表示する、
請求項２に記載の教師データ編集支援システム。

【請求項4】

前記教師データは、データを複数のカテゴリに分類する識別問題の機械学習に用いられる教師データであり、前記正解の初期の値は、いずれか１つのカテゴリの値が１であり他の全てのカテゴリの値が０であり、
前記判定部は、前記１回の編集において、カテゴリ毎に差別因子の貢献度を算出し、前記正解におけるカテゴリの値から当該カテゴリにおける前記差別因子の貢献度を減算する、
請求項２に記載の教師データ編集支援システム。

【請求項5】

前記差別因子の貢献度が満たすべき要件情報の指定を受け付けて、１回の編集を行う毎に、前記貢献度が前記要件情報を満たす度合いを算出する示唆生成部を更に有し、
前記表示部は、前記要件情報が満たされる度合いが所定の閾値を越える編集の回数について、該編集の回数に対する、前記正解の初期の値からの乖離の度合いと、前記貢献度に基づく差別の度合いとを表示する、
請求項２に記載の教師データ編集支援システム。

【請求項6】

前記貢献度が、前記正解における前記差別因子に対するシャープレイ値である、
請求項２に記載の教師データ編集支援システム。

【請求項7】

前記判定部は、
前記差別因子と前記特徴量とを要素とする集合の全ての部分集合をそれぞれ提携とし、全ての提携について、全ての教師データのそれぞれに、当該教師データにおける当該提携に含まれる要素が類似する他の教師データを当該教師データの類似データとして特定する提携集計部と、
全ての提携それぞれについて全ての教師データに対して当該教師データの類似データの正解の平均値を算出し、差別因子のそれぞれに、当該差別因子の有無のみが差異である２つの提携の組み合わせのそれぞれについて前記正解の平均値の差分を暫定貢献度として算出し、前記暫定貢献度の平均値を当該差別因子の貢献度として算出する貢献度計算部と、
を有する、
請求項６に記載の教師データ編集支援システム。

【請求項8】

処理装置を有する装置による、教師データ編集支援方法であって、
前記処理装置が、
差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データの入力に応じて、前記差別因子が前記正解に寄与した度合いを示す指標である貢献度を算出し、
前記教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、または前記貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示し、
正解をどれだけ変化させるかの指定を受け付けて、前記指定に基づいて、前記教師データにおける前記正解を変化させ、変化後の教師データを出力する、ことを前記処理装置が実行する、
教師データ編集支援方法。

【請求項9】

処理装置を有する装置に、
差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データを入力とし、前記差別因子が前記正解に寄与した度合いを示す指標である貢献度を算出し、
前記教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、または前記貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示し、
正解をどれだけ変化させるかの指定を受け付けて、前記指定に基づいて、前記教師データにおける前記正解を変化させ、変化後の教師データを出力する、
ことを実行させるための、教師データ編集支援プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、機械学習の教師データ編集支援システム、教師データ編集支援方法および教師データ編集支援プログラムに関する。

【背景技術】

【0002】

機械学習では、過去に行われた様々な人間の活動履歴を教師データとして利用する場合がある。過去には、人間の様々な属性の違いにより人間に対して差別的な扱いがされていた可能性がある。そのため、過去の活動履歴には、そのような差別的な扱いを含む情報が存在する可能性がある。例えば、金融機関における過去の与信の履歴には、人種あるいは性別などによる差別の痕跡が含まれている可能性がある。そのような差別を含んだデータを教師データとして機械学習を行って生成されるＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）のモデルは、差別的な判断を下してしまう恐れがある。そのためＡＩのモデルによる差別的な判断を低減して公平性を向上することが望まれる。

【0003】

特許文献１には、教師データの件数が増えればモデルの予測精度が向上し公平性が改善されるという仮定の下、画像の分野において、教師データにおいて相対的に件数が少ない属性情報を持つ画像の摂動画像を生成し、教師データに追加することにより公平性を改善するという技術が開示されている。

【0004】

非特許文献１には、差別が生じる恐れのある属性等の変数を差別因子として、差別因子と正解がともにバイナリ（２値）である場合を対象とし、差別因子のそれぞれについて正解が望ましい状態である割合を公平性の指標として計算し、その指標を改善するように正解を書き換えるという手法が開示されている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】国際公開ＷＯ２０２２／１２３９０７Ａ１号明細書

【非特許文献】

【0006】

【非特許文献1】Ｋａｍｉｒａｎ，Ｆａｉｓａｌ，ａｎｄＴｏｏｎＣａｌｄｅｒｓ． “Ｄａｔａｐｒｅｐｒｏｃｅｓｓｉｎｇｔｅｃｈｎｉｑｕｅｓｆｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈｏｕｔｄｉｓｃｒｉｍｉｎａｔｉｏｎ．” Ｋｎｏｗｌｅｄｇｅａｎｄｉｎｆｏｒｍａｔｉｏｎｓｙｓｔｅｍｓ３３．１（２０１２）：１－３３

【発明の概要】

【発明が解決しようとする課題】

【0007】

特許文献１に開示された技術においては、教師データの件数が増えればモデルの予測精度が上がり公平性が改善されると仮定しているが、必ずしもそうなるとは限らない。例えば摂動画像を生成する元の画像が差別因子の影響を受けていた場合、その摂動画像を追加して教師データを増やしても、モデルから差別因子の影響を低減することにならない恐れがある。非特許文献１に開示された手法は、正解が２値で表される２値分類問題を対象としており、回帰問題など他の問題に対しては適用できない。

【0008】

本開示に含まれるひとつの目的は、機械学習のモデルによる差別的な判断の低減を支援する技術を提供することである。

【課題を解決するための手段】

【0009】

本開示に含まれるひとつの態様による教師データ編集支援システムは、差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データを入力とし、前記差別因子が前記正解に寄与した度合いを示す指標である貢献度を算出する判定部と、前記教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、または前記貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示する表示部と、正解をどれだけ変化させるかの指定を受け付けて、前記指定に基づいて、前記教師データにおける前記正解を変化させ、変化後の教師データを出力する編集部と、を有する。

【0010】

本開示に含まれるひとつの態様による教師データ編集支援方法は、処理装置を有する装置による、教師データ編集支援方法であって、処理装置が、差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データの入力に応じて、前記差別因子が前記正解に寄与した度合いを示す指標である貢献度を算出し、前記教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、または前記貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示し、正解をどれだけ変化させるかの指定を受け付けて、前記指定に基づいて、前記教師データにおける前記正解を変化させ、変化後の教師データを出力する。

【0011】

本開示に含まれるひとつの態様による教師データ編集支援プログラムは、処理装置を有する装置に、差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データを入力とし、前記差別因子が前記正解に寄与した度合いを示す指標である貢献度を算出し、前記教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、または前記貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示し、正解をどれだけ変化させるかの指定を受け付けて、前記指定に基づいて、前記教師データにおける前記正解を変化させ、変化後の教師データを出力する、ことを実行させる。

【発明の効果】

【0012】

本開示に含まれるひとつの態様によれば、機械学習のモデルによる差別的な判断の低減が可能になる。

【図面の簡単な説明】

【0013】

【図1】教師データ編集支援システムの構成例を示す機能ブロック図である。

【図2】教師データのフォーマットを例示する概念図である。

【図3】判定結果のフォーマットを例示する概念図である。

【図4】編集済み教師データのフォーマットを例示する概念図である。

【図5】判定部が行う情報処理を例示するフローチャートである。

【図6】編集部が行う情報処理を例示するフローチャートである。

【図7】判定履歴データのフォーマットを例示する概念図である。

【図8】表示部による第１の表示例を示す概念図である。

【図9】表示部による第２の表示例を示す概念図である。

【図10】表示部による第３の表示例を示す概念図である。

【図11】教師データのフォーマットを例示する概念図である。

【図12】判定結果のフォーマットを例示する概念図である。

【図13】編集済み教師データのフォーマットを例示する概念図である。

【図14】教師データ編集支援システムの構成例を示す機能ブロック図である。

【図15】要件情報のフォーマットを例示する概念図である。

【図16】示唆生成部が行う情報処理を例示するフローチャートである。

【図17】教師データ編集支援システムの構成例を示す機能ブロック図である。

【図18】提携集計部が行う情報処理を例示するフローチャートである。

【図19】組み合わせマスクのフォーマットを例示する概念図である。

【図20】提携集計結果のフォーマットを例示する概念図である。

【図21】貢献計算部が行う情報処理を例示するフローチャートである。

【図22】提携集計結果のフォーマットを例示する概念図である。

【図23】暫定貢献度結果のフォーマットを例示する概念図である。

【図24】教師データ編集支援システムの構成例を示すブロック図である。

【図25】計算機のハードウェア構成例を示す概念図である。

【発明を実施するための形態】

【0014】

以下、本発明の実施形態について図面を参照して説明する。

【実施例0015】

図１は、教師データ編集支援システムの構成例を示す機能ブロック図である。

【0016】

教師データ編集支援システム１は、図示を省略する処理装置と記憶装置とを少なくとも備える。教師データ編集支援システム１は、通信装置、入力装置、出力装置等をさらに備えていてもよい。

【0017】

処理装置は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等で構成される。処理装置が、記憶装置に格納されている各種プログラムやデータを読み出して実行することにより、教師データ編集支援システム１の様々な機能が実現される。

【0018】

より具体的には、処理装置は記憶装置に格納されている各種プログラムやデータを読み出して実行することにより、判定部１０２と、表示部１０４と、編集部１０５とを実現する。

【0019】

記憶装置はプログラムやデータを記憶する装置であり、例えば、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）、不揮発性半導体メモリ（Ｎｏｎ－ＶｏｌａｔｉｌｅＲＡＭ（ＮＶＲＡＭ））である。

【0020】

記憶装置は、例えば、ＨａｒｄＤｉｓｃＤｒｉｖｅ（ＨＤＤ）、ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ（ＳＳＤ）、ストレージシステム、ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ（ＩＣ）カード、ＳｅｃｕｒｅＤｉｇｉｔａｌ（ＳＤ）メモリカードや光学式記録媒体（ＣｏｍｐａｃｔＤｉｓｃ（ＣＤ）、ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ（ＤＶＤ）など）などの記録媒体の読み取りおよび書き込み装置、クラウドサーバの記憶領域であってもよい。

【0021】

記憶装置は、上述の各種の記憶装置を複数組み合わせたものであってもよい。

【0022】

記憶装置に各種のプログラムやデータが記憶される。具体的には、教師データ１０１と、判定結果１０３と、編集済み教師データ１０６とが記憶装置に記憶される。なお、これらのデータは複数の記憶装置に分割されて記憶されていてもよく、１つの記憶装置に記憶されていてもよい。

【0023】

通信装置はＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ（ＬＡＮ）やＩｎｔｅｒｎｅｔなどの通信手段を介した他の装置との間の通信を実現する有線または無線方式の通信インターフェースであり、例えば、ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ（ＮＩＣ）、無線通信モジュール、ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＩｎｔｅｒｆａｃｅ（ＵＳＢ）モジュール、シリアル通信モジュールである。

【0024】

入力装置はユーザからの入力を受け付ける装置である。入力装置は、例えば、キーボード、マウス、タッチパネル、カードリーダ、音声入力装置である。

【0025】

出力装置はユーザに処理経過や処理結果などの各種情報を提供する装置である。出力装置は、例えば、画面表示装置（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ（ＬＣＤ）、ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ（ＨＭＤ）など）、音声出力装置、印字装置等である。なお、教師データ編集支援システム１が通信装置を介して、他の装置との間で情報の入力や出力を行う構成としてもよい。

【0026】

判定部１０２は、差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データを入力とし、差別因子が正解に寄与した度合いを示す指標である貢献度を算出する。

【0027】

表示部１０４は、教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、および貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示する。システムユーザ１０７が、提示された内容を確認する。

【0028】

編集部１０５は、正解をどれだけ変化させるかの指定を受け付けて、指定に基づいて、教師データにおける正解を変化させ、変化後の教師データを編集済み教師データ１０６として出力する。

【0029】

図２は、教師データのフォーマットを例示する概念図である。教師データは、データＩＤ２００と、差別因子情報２０１と、入力特徴量２０２と、正解２０３とを有する。差別因子情報２０１は、差別を生む恐れのある変数である差別因子として、例えば性別や年齢などの情報を含む。入力特徴量２０２は、予測に用いられる変数であり、例えば年収（単位：万円）や住所などを含む。正解は、本実施例においては与信額（単位：万円）であり、一次元の値である。なお、実施例１は回帰についての実施例である。

【0030】

図３は、判定結果のフォーマットを例示する概念図である。判定結果は、データＩＤと、差別因子貢献３０２と、入力特徴量貢献３０３とを有する。上述の貢献度は、差別因子貢献３０２と入力特徴量貢献３０３とに対応する。貢献度とは、差別因子が正解に寄与した度合いを示す指標である。

【0031】

図４は、編集済み教師データのフォーマットを例示する概念図である。編集済み教師データのフォーマットは、教師データのフォーマットと基本的に同様であるが、正解の値が編集されている。編集された正解のカラムを、編集正解４０３として表記している。

【0032】

図５は、判定部が行う情報処理を例示するフローチャートである。判定部１０２は、正解の値の編集した回数を意味する編集回数ごとに、ステップＳ１０２からステップＳ１０５までの処理を行う（ステップＳ１０１およびＳ１０６のループ）。

【0033】

判定部１０２は、教師データごとに、ステップＳ１０３の処理を行う（ステップＳ１０２およびＳ１０４のループ）。ステップＳ１０３において判定部１０２は、教師データの差別因子および特徴量に対し、正解値への貢献度を計算する。

【0034】

貢献度の計算アルゴリズムとして、例えばＳｈａｐｌｅｙ法がある。Ｓｈａｐｌｅｙ法を用いる場合、判定部１０２は、教師データから予測モデルを作成しその予測値に対しシャープレイ値を計算する。この場合の貢献度は、正解における差別因子に対するシャープレイ値である。また、貢献度の計算アルゴリズムは教師データから直接貢献度を計算するＣｏｈｏｒｔＳｈａｐｌｅｙ法であってもよい。貢献度の計算アルゴリズムはこれには限られない。

【0035】

ステップＳ１０５において判定部１０２は、各教師データの差別因子の貢献度に基づいて、正解の値を編集する。

【0036】

なお、判定部１０２は、正解を示す数値から貢献度の数値を減算することを１回の編集とし、この編集を行って、正解の初期の値からの乖離の度合いと、貢献度に基づく差別の度合いとを算出することを繰り返してよい。

【0037】

図６は、編集部が行う情報処理を例示するフローチャートである。ステップＳ２０１において編集部１０５は、判定履歴データから、指定された編集回数の正解情報を抽出し、その正解値を上書きする。

【0038】

図７は、判定履歴データのフォーマットを例示する概念図である。判定履歴データは、編集回数ごとに、差別因子貢献、入力特徴量貢献、および編集正解を有する。編集によって編集正解の値は変更されていくが、変更前後のデータを保存しておいてよい。

【0039】

図８は、表示部による第１の表示例を示す概念図である。表示部１０４には、編集回数５０１、編集対象５０２、判定開始ボタン５０３および、データを表示するデータ表示領域５０４が表示される。ユーザは、編集回数を選択する。またユーザは、編集対象として、例えば性別や年齢などの項目を入力する。データ表示領域５０４には、教師データのオリジナルデータに基づく表が表示される。ユーザが判定開始ボタン５０３を押下すると、判定処理が開始される。

【0040】

図９は、表示部による第２の表示例を示す概念図である。第２画面６００の表示部１０４には、差別リスク指標のプルダウン選択ボックス６０１、校正傾向情報のプルダウン選択ボックス６０２、最適編集回数のプルダウン選択ボックス６０３が表示される。また、表示部１０４には、編集回数ごとの差別リスクおよび校正傾向を示すグラフ６０４、編集済みデータ出力ボタン６０５、および詳細レポート表示ボタン６０６が表示される。

【0041】

ユーザは、差別リスク指標のプルダウン選択ボックス６０１を操作して、例えば「性別」や「年齢」などの、グラフ６０４に表示したい差別リスク指標を選択する。ユーザは、校正傾向情報のプルダウン選択ボックス６０２を操作して、例えば「性別」や「年齢」などの、グラフ６０４に表示したい校正傾向情報を選択する。

【0042】

グラフ６０４には、上記のプルダウン選択ボックスで選択された内容が線で表示される。グラフの横軸は編集回数である。実線の折れ線は差別リスク指標の値を、破線の曲線は校正傾向情報の値をそれぞれ示している。なお、編集回数が増えるにつれ、編集回数が少ない内は、差別リスクは低減する傾向があり、やがて差別リスクの低減量は減る。編集回数が増えるにつれ、校正傾向情報の値、すなわち正解の初期の値からの乖離の度合いは増加する傾向がある。

【0043】

表示部１０４は、編集の回数に対する、正解の初期の値からの乖離の度合いと、前記貢献度に基づく差別の度合いとを表示する。グラフ６０４における破線の曲線が、編集の回数に対する正解の初期の値からの乖離の度合いを示している。グラフ６０４における実線の折れ線が、編集の回数に対する貢献度に基づく差別の度合いを示している。

【0044】

ユーザが編集済みデータ出力ボタン６０５を押下すると、最適編集回数のプルダウン選択ボックス６０３で選択済みの編集回数について、編集部１０５の処理が実行される。ユーザが詳細レポート表示ボタン６０６を押下すると、最適編集回数のプルダウン選択ボックス６０３で選択済みの編集回数について、判定結果の詳細が表示される。

【0045】

図１０は、表示部による第３の表示例を示す概念図である。なお、図６に示した第２画面６００においてユーザが詳細レポート表示ボタン６０６を押下した場合に、第３画面７００が表示される。第３画面７００には、分布表示のプルダウン選択ボックス７０１、最適編集回数のプルダウン選択ボックス７０２、貢献度ごとの件数分布を示すグラフ７０３、教師データの表７０４、貢献度情報の表７０５、編集済み教師データの表７０６が表示される。

【0046】

ユーザは、分布表示のプルダウン選択ボックス７０１を操作して、例えば「性別」や「年齢」などの、グラフ７０３に表示させたい対象を選択する。グラフ７０３の横軸は、分布表示のプルダウン選択ボックス７０１で選択された項目であり、本例では「性別」の貢献度が横軸となっている。グラフ７０３の縦軸は件数である。

【0047】

教師データ７０４の表は、編集前の教師データが表示される。例えばデータＩＤ＝１である教師データの与信額はオリジナルの値の５００である。編集済み教師データ７０６の表は、最適編集回数７０２で選択された編集回数に対応する編集済み教師データが表示される。本例では、編集回数１回の場合の編集済み制御データが表示されている。１回の編集により、データＩＤ＝１である教師データの与信額は４７０となっている。これは、貢献度情報におけるデータＩＤが１の行を見ると、Ｓｈａｐｌｅｙ法を用いて計算された貢献度がそれぞれ、性別について＋２０、年齢について＋１０であったため、オリジナルの与信額５００から＋２０および＋１０を減算している。すなわち、５００－２０－１０＝４７０が編集済み教師データの、データＩＤが１の行における与信額となる。なお、データＩＤ＝２である各行に着目すると、教師データのオリジナルの与信額は３３１であり、差別因子貢献度における性別が－１０、年齢が－２０であるため、編集済み教師データの与信額は３３１－（－１０）－（－２０）＝３６１となっている。

【実施例0048】

実施例２として、教師データが識別問題用の教師データである場合について説明する。この場合の教師データは、データを複数のカテゴリに分類する識別問題の機械学習に用いられる教師データであり、正解の初期の値は、いずれか１つのカテゴリの値が１であり他の全てのカテゴリの値が０である。

【0049】

図１１は、教師データのフォーマットを例示する概念図である。教師データは、データＩＤ２００と、差別因子情報２０１と、入力特徴量２０２と、正解２０３とを有する。差別因子情報２０１は、差別を生む恐れのある変数である差別因子として、例えば性別や年齢などの情報を含む。入力特徴量２０２は、予測に用いられる変数であり、例えば年収（単位：万円）や住所などを含む。正解２０３は、複数のカテゴリからなるワンホット（Ｏｎｅ－ｈｏｔ）エンコーディングに基づくワンホットベクトルである。

【0050】

図１２は、判定結果のフォーマットを例示する概念図である。判定結果は、データＩＤと、カテゴリごとの差別因子貢献と、入力特徴量貢献とを有する。上述の貢献度は、差別因子貢献と入力特徴量貢献とに対応する。貢献度とは、差別因子が正解に寄与した度合いを示す指標である。判定部１０２は例えば、１回の編集において、カテゴリ毎に差別因子の貢献度を算出し、正解におけるカテゴリの値から当該カテゴリにおける差別因子の貢献度を減算する。

【0051】

図１３は、編集済み教師データのフォーマットを例示する概念図である。編集済み教師データのフォーマットは、教師データのフォーマットと基本的に同様であるが、正解の値が編集されている。編集された正解のカラムを、編集正解４０３として図示している。また、編集正解４０３はカテゴリごとに正解の値を含む。

【0052】

（示唆の生成）
図１４は、教師データ編集支援システムの構成例を示す機能ブロック図である。図１４に示す教師データ編集支援システム１Ａの構成は、図１に示した教師データ編集支援システム１の構成とほぼ同様であるため、相違点のみ説明する。

【0053】

教師データ編集支援システム１Ａは処理装置を含む。処理装置は記憶装置に格納されている各種プログラムやデータを読み出して実行することにより、示唆生成部１０９をさらに実現する。記憶装置には要件情報１０８がさらに記憶される。

【0054】

示唆生成部１０９は、差別因子の貢献度が満たすべき要件情報の指定を受け付けて、１回の編集を行う毎に、貢献度が要件情報を満たす度合いを算出する。

【0055】

図１５は、要件情報のフォーマットを例示する概念図である。要件情報１０８は、要件ＩＤと、差別因子と、入力特徴量と、正解とを有する。差別因子と、入力特徴量と、正解の格情報ごとに、貢献度が要件条件を満たすための条件が定義される。例えば要件ＩＤが１の要件情報については、「男性」「女性」の因子貢献度が２０未満であるという要件が定義されている。要件ＩＤが２の要件情報については、年齢が６０を超えており、かつ因子貢献度が２０未満であるという要件が定義されている。図１５に示した表において、Ｎｕｌｌはそのカラムについての条件設定が無い事を示している。

【0056】

表示部１０４は、要件情報が満たされる度合いが所定の閾値を越える編集の回数について、編集の回数に対する、正解の初期の値からの乖離の度合いと、貢献度に基づく差別の度合いとを表示する。要件情報が満たされる度合いとは、例えば、複数の要件が指定され、複数の要件のうちいくつの要件が満たされるかの度合いなどを意味する。度合いとは、要件が満たされる回数や率などであってよい。

【0057】

図１６は、示唆生成部が行う情報処理を例示するフローチャートである。示唆生成部１０９は、編集回数ごとに、ステップＳ３０２の処理を行う（ステップＳ３０１およびＳ３０３のループ）。ステップＳ３０２において示唆生成部１０９は、編集した正解値について要件情報が満たされる度合いを評価する。ここでいう評価とは、算出や計算を意味していてよい。示唆生成部１０９は要件が満たされる度合いが高い編集回数についての情報を表示部に表示する（ステップＳ３０４）。

【0058】

図１７は、教師データ編集支援システムの構成例を示す機能ブロック図である。図１７に示す教師データ編集支援システム１Ｂの構成は、図１に示した教師データ編集支援システム１の構成とほぼ同様であるため、相違点のみ説明する。

【0059】

教師データ編集支援システム１Ｂは処理装置を含む。前述のように、処理装置は記憶装置に格納されている各種プログラムやデータを読み出して実行することにより、判定部１０２と、表示部１０４と、編集部１０５とを実現する。ここで、判定部１０２は、提携集計部１１０と、貢献計算部１１１とを含む。

【0060】

提携集計部１１０は、差別因子と特徴量とを要素とする集合の全ての部分集合をそれぞれ提携とし、全ての提携について、全ての教師データのそれぞれに、当該教師データにおける当該提携に含まれる要素が類似する他の教師データを当該教師データの類似データとして特定する。貢献計算部１１１は、全ての提携それぞれについて全ての教師データに対して当該教師データの類似データの正解の平均値を算出し、差別因子のそれぞれに、当該差別因子の有無のみが差異である２つの提携の組み合わせのそれぞれについて正解の平均値の差分を暫定貢献度として算出し、暫定貢献度の平均値を当該差別因子の貢献度として算出する。

【0061】

なお、提携集計部１１０についての類似の判断基準は、閾値や一致などに基づいてよい。例えば、ある教師データにおける提携に含まれる要素が連続値Ａである場合、類似範囲を閾値として定めることができる。例えば連続値Ａ－１００から連続値Ａ＋１００までの値である場合を類似とし、それ以外の場合を非類似としてよい。ある教師データにおける提携に含まれる要素がカテゴリ値である場合については、カテゴリが一致したら類似と判定してよいよい。類似の判断基準は、上記のものには限られない。

【0062】

図１８は、提携集計部が行う情報処理を例示するフローチャートである。提携集計部１１０は、差別因子と特徴量の次元数の総和に対し、想定しうる全ての組み合わせを組み合わせマスクとして生成する（Ｓ４０１）。なお、組み合わせマスクについては図１９を参照して後述する。

【0063】

提携集計部１１０は、教師データごとに、ステップＳ４０３からステップＳ４０６の処理を行う（ステップＳ４０２およびＳ４０７のループ）。提携集計部１１０は、提携ＩＤごとに、ステップＳ４０４およびステップＳ４０５の処理を行う（ステップＳ４０３およびＳ４０６のループ）。

【0064】

ステップＳ４０４において提携集計部１１０は、提携に含める差別因子・特徴量について、値に基づき類似データを抽出する（Ｓ４０４）。なお、連続値を取る差別因子・特徴量において、教師データ全体における値の分布から、類似状態と判定する閾値が予め決定されていてよい。

【0065】

ステップＳ４０５において提携集計部１１０は、類似データとした教師データのＩＤ情報を、提携集計結果として保存する。なお、提携集計結果については図２０を参照して後述する。

【0066】

図１９は、組み合わせマスクのフォーマットを例示する概念図である。組み合わせマスクは情報項目（カラム）として、提携ＩＤ１６００と、差別因子マスク１６０１と、入力特徴量マスク１６０２とを有する。提携ＩＤは、提携を一意に特定する識別情報である。差別因子マスク１６０１は、例えば性別や年齢などの差別因子を示す項目を含む。入力特徴量マスクは、年収や住所などの入力特徴量を示す項目を含む。組み合わせマスクには、０または１の値が設定される。０の値は、提携に含まれないことを意味する。１の値は、提携に含まれることを意味する。例えば提携ＩＤが２である提携には、入力特徴量マスク１６０２における住所の項目が含まれる。ステップＳ４０１において提携集計部１１０は、各カラムの値が０または１であるとした、想定しうる全パターンの組み合わせを生成する。

【0067】

図２０は、提携集計結果のフォーマットを例示する概念図である。提携集計結果は、各教師データが、各提携パターンにおいてどの他データを類似データとして抽出したかを履歴として保存したデータである。

【0068】

提携集計結果は情報項目（カラム）として、提携ＩＤ１６００と、類似データセット１７００とを有する。提携ＩＤ１６００は、図１９にて説明したものと同様であるため詳しい説明は省略する。類似データセット１７００は、各教師データが、各提携パターンにおいてどのデータを類似データとして抽出したかを示すデータを複数種類含む。例えば、提携ＩＤ＝１、データＩＤ＝１であるデータは、＃５と＃６と……を類似データとして抽出したことを示すデータである。提携ＩＤ＝１、データＩＤ＝２であるデータは、＃３と＃８と……を類似データとして抽出したことを示すデータである。

【0069】

図２１は、貢献計算部が行う情報処理を例示するフローチャートである。

【0070】

貢献計算部１１１は、教師データごとに、ステップＳ５０２からステップＳ５０５の処理を行う（ステップＳ５０１およびＳ５０６のループ）。貢献計算部１１１は、提携ＩＤごとに、ステップＳ５０３およびステップＳ５０４の処理を行う（ステップＳ５０２およびＳ５０５のループ）。

【0071】

ステップＳ５０３において貢献計算部１１１は、類似データの正解値の平均値を各データおよび各提携に対し計算する。ステップＳ５０４において貢献計算部１１１は、提携間の差分から正解平均値の差分を、差別因子および入力特徴量の暫定貢献度として計算する。

【0072】

ステップＳ５０７において貢献計算部１１１は、各々の差別因子および入力特徴量の暫定貢献度の履歴から貢献度を計算する。例えば、提携ＩＤの全組み合わせパターンに対し平均値を計算することにより、その差別因子および入力特徴量の貢献度を計算する。

【0073】

図２２は、提携集計結果のフォーマットを例示する概念図である。提携集計結果のフォーマットは、図２０を参照して説明した提携集計結果と同様である。図２０の場合は、提携ＩＤおよびデータＩＤごとに類似データを抽出した。例えば提携ＩＤ＝１、データＩＤ＝１である類似データは、＃５と＃６と……というものであった（図２０参照）。ステップＳ５０３において貢献計算部１１１は、＃５のデータの正解値と、＃６の正解値と、……の間の平均値を計算する。例えば、提携ＩＤ＝１であり、データＩＤ＝１である類似データについての、正解値の平均値は２３１となる。提携ＩＤごと、およびデータＩＤごとにこの平均値計算を行うと、図２２に示したような正解平均値結果が算出される。

【0074】

図２３は、暫定貢献度結果のフォーマットを例示する概念図である。上述のように、ステップＳ５０４において貢献計算部１１１は、提携間の差分から正解平均値の差分を、差別因子・入力特徴量の暫定貢献度として計算する。図２３は、計算された暫定貢献度２０００を示している。

【0075】

ステップＳ５０４において貢献計算部１１１は、例えば提携ＩＤ＝１、データＩＤ＝１である第１データと、提携ＩＤ＝２、データＩＤ＝１である第２データの間で差分を計算する。図示した例においては、性別、年齢、年収などについては第１データと第２データとの間で差が無いため、差分の値が０になっている。住所については、第１データと第２データとの間で差があるため、差分の値が－１０になっている。すなわち、第１データの正解平均値２３１と、第２データの正解平均値２２１の差分をとる。計算された第２データの正解平均値２２１－第１データの正解平均値２３１＝－１０は、「住所」を提携に含めたことによる暫定貢献度を示す。

【0076】

貢献計算部１１１は、同様に、提携ＩＤ＝２、データＩＤ＝１である第２データと、提携ＩＤ＝３、データＩＤ＝１である第３データとの間で差分を計算する。この場合、性別、年齢、住所については第２データと第３データとの間で差がないため、差分の値が０になっている。年収については第２データと第３データとの間で差があるため、差分の値が＋２０になっている。

【0077】

図２４は、教師データ編集支援システムの構成例を示すブロック図である。教師データ編集支援システム１を構成する機能部やデータは、１つの装置に集約されていてもよいが、複数の装置に分散配置されていてもよい。図２４は分散配置の例を示している。

【0078】

図２４に示した教師データ編集支援システム１Ｃは、計算機１００－１と、計算機１００－２と、計算機１００－３とを含む。これらの計算機はインターネットなどの通信回線ＮＷを介して互いに通信可能に接続されている。

【0079】

教師データ編集支援システム１Ｃにおける計算機１００－１はサーバに相当する。計算機１００－２はユーザ端末に相当する。計算機１００－３はデータサーバに相当する。計算機１００－１、１００－２、および１００－３はそれぞれ、処理装置と記憶装置とを有する。

【0080】

計算機１００－１の処理装置は記憶装置に格納されている各種プログラムやデータを読み出して実行することにより、判定部１０２と編集部１０５とを実現する。計算機１００－１の記憶装置には、判定結果１０３と、編集済み教師データ１０６とが記憶される。計算機１００－２の処理装置は記憶装置に格納されている各種プログラムやデータを読み出して実行することにより、表示部１０４を実現する。計算機１００－３の記憶装置には教師データ１０１が記憶される。

【0081】

図２５は計算機のハードウェア構成例を示す概念図である。計算機２５００は、図２４に示した計算機１００－１、１００－２および１００－３のそれぞれに相当する。計算機２５００は、プロセッサ２５０１と、主記憶装置２５０２と、副記憶装置２５０３と、ネットワークインタフェース２５０４とを有する。プロセッサ２５０１が上述の処理装置に相当する。主記憶装置２５０２と副記憶装置２５０３とが上述の記憶装置に相当する。ネットワークインタフェース２５０４は、図２４に示したネットワークＮＷを介して外部装置等と通信するための装置である。

【0082】

上述した本発明の実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本発明の範囲を逸脱することなしに、他の様々な態様で本発明を実施することができる。

【0083】

以上のように、教師データ編集支援システムが、差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データを入力とし、差別因子が正解に寄与した度合いを示す指標である貢献度を算出する判定部と、教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、および貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示する表示部と、正解をどれだけ変化させるかの指定を受け付けて、指定に基づいて、教師データにおける正解を変化させ、変化後の教師データを出力する編集部と、を有する。

【0084】

処理装置を有する装置による教師データ編集支援方法が、差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データの入力に応じて、差別因子が正解に寄与した度合いを示す指標である貢献度を算出する判定ステップと、教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、および貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示する表示ステップと、正解をどれだけ変化させるかの指定を受け付けて、指定に基づいて、教師データにおける正解を変化させ、変化後の教師データを出力する編集ステップと、を有する。

【0085】

教師データ編集支援プログラムが、処理装置を有する装置に、差別を生む恐れのある変数である差別因子と、予測に用いられる変数である特徴量と、正解とを含む教師データを入力とし、差別因子が正解に寄与した度合いを示す指標である貢献度を算出する判定機能と、教師データにおける正解を変化させる度合いと、正解の初期の値からの乖離の度合い、および貢献度に基づく差別の度合いとの関係を表す評価情報を視認可能に提示する表示機能と、正解をどれだけ変化させるかの指定を受け付けて、指定に基づいて、教師データにおける正解を変化させ、変化後の教師データを出力する編集機能と、を実現させる。

【0086】

上記によれば、機械学習のモデルによる差別的な判断の低減を支援することができる。

【0087】

貢献度は、正解を示す数値のうち差別因子によって生じた部分を示す数値であり、判定部は、正解を示す数値から貢献度の数値を減算することを１回の編集とし、編集を行って、正解の初期の値からの乖離の度合いと、貢献度に基づく差別の度合いとを算出することを繰り返し、表示部は、編集の回数に対する、正解の初期の値からの乖離の度合いと、貢献度に基づく差別の度合いとを表示する。これにより、正解の初期の値からの乖離の度合いと、貢献度に基づく差別の度合いとを編集の回数に応じて可視化し、ユーザに提供することができる。

【0088】

表示部は、編集の回数に対する正解の初期の値からの乖離の度合いと、編集の回数に対する貢献度に基づく差別の度合いとを示すグラフを表示する。これにより、正解の初期の値からの乖離の度合いと、貢献度に基づく差別の度合いとを編集の回数に応じてグラフとして可視化し、ユーザに提供することができる。

【0089】

教師データは、データを複数のカテゴリに分類する識別問題の機械学習に用いられる教師データであり、正解の初期の値は、いずれか１つのカテゴリの値が１であり他の全てのカテゴリの値が０であり、判定部は、１回の編集において、カテゴリ毎に差別因子の貢献度を算出し、正解におけるカテゴリの値から当該カテゴリにおける差別因子の貢献度を減算する。これにより、識別問題の教師データを用いる場合においても、機械学習のモデルによる差別的な判断の低減を支援することができる。

【0090】

差別因子の貢献度が満たすべき要件情報の指定を受け付けて、１回の編集を行う毎に、貢献度が要件情報を満たす度合いを算出する示唆生成部を更に有し、表示部は、要件情報が満たされる度合いが所定の閾値を越える編集の回数について、該編集の回数に対する、正解の初期の値からの乖離の度合いと、貢献度に基づく差別の度合いとを表示する。これにより、要件情報の指定に基づいて、その要件情報を満たす度合いの高い編集回数を可視化してユーザに提示することができる。

【0091】

貢献度が、正解における差別因子に対するシャープレイ値である、これにより、シャープレイ値に基づいて機械学習のモデルによる差別的な判断の低減を支援することができる。

【0092】

判定部は、差別因子と特徴量とを要素とする集合の全ての部分集合をそれぞれ提携とし、全ての提携について、全ての教師データのそれぞれに、当該教師データにおける当該提携に含まれる要素が類似する他の教師データを当該教師データの類似データとして特定する提携集計部と、全ての提携それぞれについて全ての教師データに対して当該教師データの類似データの正解の平均値を算出し、差別因子のそれぞれに、当該差別因子の有無のみが差異である２つの提携の組み合わせのそれぞれについて正解の平均値の差分を暫定貢献度として算出し、暫定貢献度の平均値を当該差別因子の貢献度として算出する貢献度計算部と、を有する、これにより、提携を考慮した貢献度を計算することができる。

IP Force 特許公報掲載プロジェクト 2022.1.31 β版