IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-37242データ管理システム及びデータ管理方法
<>
  • 特開-データ管理システム及びデータ管理方法 図1
  • 特開-データ管理システム及びデータ管理方法 図2
  • 特開-データ管理システム及びデータ管理方法 図3A
  • 特開-データ管理システム及びデータ管理方法 図3B
  • 特開-データ管理システム及びデータ管理方法 図3C
  • 特開-データ管理システム及びデータ管理方法 図4
  • 特開-データ管理システム及びデータ管理方法 図5
  • 特開-データ管理システム及びデータ管理方法 図6
  • 特開-データ管理システム及びデータ管理方法 図7
  • 特開-データ管理システム及びデータ管理方法 図8
  • 特開-データ管理システム及びデータ管理方法 図9
  • 特開-データ管理システム及びデータ管理方法 図10
  • 特開-データ管理システム及びデータ管理方法 図11
  • 特開-データ管理システム及びデータ管理方法 図12
  • 特開-データ管理システム及びデータ管理方法 図13
  • 特開-データ管理システム及びデータ管理方法 図14
  • 特開-データ管理システム及びデータ管理方法 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023037242
(43)【公開日】2023-03-15
(54)【発明の名称】データ管理システム及びデータ管理方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20230308BHJP
【FI】
G06N20/00
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021143871
(22)【出願日】2021-09-03
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001678
【氏名又は名称】藤央弁理士法人
(72)【発明者】
【氏名】ローレンス アレクサンダー
(72)【発明者】
【氏名】高田 実佳
(72)【発明者】
【氏名】坂田 匡通
(72)【発明者】
【氏名】馬場 恒彦
(57)【要約】
【課題】入力データから、機械学習モデルの公平性及び/又は正確性にバイアスを与える可能性が高い特徴量を検出する。
【解決手段】システムは入力データ及び第1学習モデルを格納し、入力データは複数のレコードを含み、複数のレコードの各レコードは、複数の特徴量の値をむ。システムは、複数の特徴量から指定されている人関連IDと異なる特徴量を選択し、選択された特徴量のデータによって第1学習モデルの訓練を実行し、訓練済みの第1学習モデルの推定結果に基づき選択した特徴量の少なくとも一部の第1学習モデルの推定に対する影響度を算出し、影響度及び少なくとも一部の特徴量の情報をユーザに提示する。
【選択図】図10
【特許請求の範囲】
【請求項1】
データ管理システムであって、
1以上の記憶装置と、
1以上の演算装置と、を含み、
前記1以上の記憶装置は、入力データ及び第1学習モデルを格納し、
前記入力データは、複数のレコードを含み、
前記複数のレコードの各レコードは、複数の特徴量の値を含み、
前記1以上の演算装置は、
前記複数の特徴量から、指定されている人関連IDと異なる特徴量を選択し、
前記選択された特徴量のデータによって、第1学習モデルの訓練を実行し、
訓練済みの前記第1学習モデルの推定結果に基づき、前記選択した特徴量の少なくとも一部の、前記第1学習モデルの推定に対する影響度を算出し、
前記影響度及び前記少なくとも一部の特徴量の情報を、ユーザに提示する、データ管理システム。
【請求項2】
請求項1に記載のデータ管理システムであって、
前記1以上の演算装置は、
前記選択された特徴量のデータの間の相関を決定し、
他の特徴量との相関が閾値を超える特徴量から、前記影響度の算出から除外する特徴量を決定する、データ管理システム。
【請求項3】
請求項1に記載のデータ管理システムであって、
前記1以上の演算装置は、
前記選択された特徴量と、指定されているセンシティブ特徴量との間の相関を決定し、
前記センシティブ特徴量との間の相関が閾値を超える特徴量から、前記影響度の算出から除外する特徴量を決定する、データ管理システム。
【請求項4】
請求項1に記載のデータ管理システムであって、
前記選択された特徴量と、指定されているセンシティブ特徴量との間の相関を決定し、
前記センシティブ特徴量との間の相関が閾値未満の特徴量から、前記影響度の算出から除外する特徴量を決定する、データ管理システム。
【請求項5】
請求項1に記載のデータ管理システムであって、
前記1以上の記憶装置は、前記入力データによる訓練の目的とする第2学習モデルを格納し、
前記第1学習モデルの訓練の処理負荷は、前記第2学習モデルの訓練の処理負荷より小さい、データ管理システム。
【請求項6】
請求項5に記載のデータ管理システムであって、
前記演算装置は、
前記影響度及び前記少なくとも一部の特徴量の情報を前記ユーザに提示した後、前記入力データにおいて前記ユーザに選択された特徴量のデータによって、前記第2学習モデルを訓練し、
訓練された前記第2学習モデルの推定結果に基づき、前記第2学習モデルの公平性及び/又は正確性の指標を決定して、前記ユーザに提示する、データ管理システム。
【請求項7】
請求項1に記載のデータ管理システムであって、
前記1以上の演算装置は、前記第1学習モデルの推定結果から得られる混同行列に基づいて、前記影響度を算出する、データ管理システム。
【請求項8】
請求項1に記載のデータ管理システムであって、
前記1以上の記憶装置は、過去の分析処理履歴を格納し、
前記1以上の演算装置は、前記選択された特徴量の情報を前記分析処理履歴において検索し、
前記選択された特徴量と同一特徴量の情報が前記分析処理履歴において見つかると、前記分析処理履歴から取得した影響度を前記ユーザに提示する、データ管理システム。
【請求項9】
システムがデータを管理する、管理方法あって、
前記システムは入力データ及び第1学習モデルを格納し、
前記入力データは、複数のレコードを含み、
前記複数のレコードの各レコードは、複数の特徴量の値を含み、
前記管理方法は、前記システムが、
前記複数の特徴量から、指定されている人関連IDと異なる特徴量を選択し、
前記選択された特徴量のデータによって、第1学習モデルの訓練を実行し、
訓練済みの前記第1学習モデルの推定結果に基づき、前記選択した特徴量の少なくとも一部の、前記第1学習モデルの推定に対する影響度を算出し、
前記影響度及び前記少なくとも一部の特徴量の情報を、ユーザに提示する、ことを含む、管理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習モデルの訓練に使用されるデータの管理に関し、特に、機械学習モデルの推定にバイアスを与え得る特徴量の評価に関する。
【背景技術】
【0002】
本開示の背景技術として、例えば、特許文献1がある。特許文献1は、効率的に特徴量データを準備する方法を開示する。この方法は、予め格納されているモデルと患者の特徴量データとの類似性を決定する。類似性の決定において、予め格納されているモデルのデータベースが類似性を評価するために分析される。類似性は、予め格納されているモデルの特徴量準備が患者の特徴量データと両立するかを示す。
【0003】
この方法は、利用すべき特徴量準備を示す類似性について、類似していると判定された予め格納されているモデルに基づいて、患者の特徴量データに対する特徴量準備を行う。特徴量準備は、類似の予め格納されているモデルに関連する再使用可能な特徴量を取得する。再使用可能な特徴量は、類似の予め格納されているモデルの予め計算されている特徴量を含む。特徴量準備の結果及び患者の特徴量データを用いて、機械学習モデルを生成する。
【0004】
機械学習の分野において、公平性が求められている。機械学習モデルが、例えば、特定のグループに対して偏見(バイアス)を伴う推定を行わないように、その機械学習モデルを生成することが求められている。より公平な推定を行えることは、より高精度な推定を行えることにつながる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】米国特許出願公開第2019/0304603号
【発明の概要】
【発明が解決しようとする課題】
【0006】
従来、機械学習モデルの公平性及び/又は正確性(精度)に対する特徴量の評価は、頻繁なトライアンドエラーを引き起こしている。また、データレイクのような大きなデータストアの高次元データに対しては、常に新しいデータが大量に追加される。そのため、新たに追加されるデータにおける特徴量の評価に、多大な時間が必要とされている。
【0007】
従って、ユーザ又は他のシステムが機械学習モデルの訓練に使用する特徴量を選択する前に、新たなデータにおける特徴量において、機械学習モデルの推定処理にバイアスを与える可能性が高い特徴量を検出することが望まれる。
【課題を解決するための手段】
【0008】
本発明の一態様は、データ管理システムであって、1以上の記憶装置と、1以上の演算装置と、を含み、前記1以上の記憶装置は、入力データ及び第1学習モデルを格納し、前記入力データは、複数のレコードを含み、前記複数のレコードの各レコードは、複数の特徴量の値を含み、前記1以上の演算装置は、前記複数の特徴量から、指定されている人関連IDと異なる特徴量を選択し、前記選択された特徴量のデータによって、第1学習モデルの訓練を実行し、訓練済みの前記第1学習モデルの推定結果に基づき、前記選択した特徴量の少なくとも一部の、前記第1学習モデルの推定に対する影響度を算出し、前記影響度及び前記少なくとも一部の特徴量の情報を、ユーザに提示する。
【発明の効果】
【0009】
本発明の一態様によれば、入力データから、機械学習モデルの公平性及び/又は正確性にバイアスを与える可能性が高い特徴量を検出することができる。
【図面の簡単な説明】
【0010】
図1】本明細書の一実施形態に係る特徴量推奨システムのハードウェア構成例を示す。
図2】特徴量推奨システムのソフトウェア構成例を示す。
図3A】患者個人情報テーブルの構成例を示す。
図3B】通報イベントテーブルの構成例を示す。
図3C】病院患者情報テーブルの構成例を示す。
図4】人関連ID情報テーブルの構成例を示す。
図5】準識別子情報テーブルの構成例を示す。
図6】センシティブ特徴量情報テーブルの構成例を示す。
図7】バイアス特徴量情報テーブルの構成例を示す。
図8】バイアス特徴量候補情報テーブルの構成例を示す。
図9】影響度情報テーブルの構成例を示す。
図10】特徴量推奨システムが実行する処理の概要を示すフローチャートである。
図11】ユーザが分析対象のデータについて情報を入力するための、GUI(Graphical User Interface)画像の例を示す。
図12図10のステップS11の詳細のフローチャートを示す。
図13】特徴量の影響度の推定処理の例を示すフローチャートである。
図14】特徴量の影響度の推定処理の例を示すフローチャートである。
図15】フルスケールモデルの訓練結果を示す画像の例を示す。
【発明を実施するための形態】
【0011】
以下においては、便宜上その必要があるときは、複数のセクションまたは実施形態に分割して説明するが、特に明示した場合を除き、それらは互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下において、要素の数等(個数、数値、量、範囲等を含む)に言及する場合、特に明示した場合及び原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。
【0012】
本明細書の一実施形態に係るシステムは、物理的な計算機システム(一つ以上の物理的な計算機)でもよいし、クラウド基盤のような計算リソース群(複数の計算リソース)上に構築されたシステムでもよい。計算機システムあるいは計算リソース群は、1以上のインタフェース装置(例えば通信装置及び入出力装置を含む)、1以上の記憶装置(例えば、メモリ(主記憶)及び補助記憶装置を含む)、及び、1以上の演算装置又はプロセッサを含む。
【0013】
プログラムが演算装置によって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び/またはインタフェース装置等を用いながら行われるため、機能は演算装置の少なくとも一部とされてもよい。機能を主語として説明された処理は、演算装置を有するシステムが行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機または計算機が読み取り可能な記憶媒体(例えば計算機読み取り可能な非一過性記憶媒体)であってもよい。
【0014】
各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。本明細書の実施形態は、他のシステム又は処理から独立して又は組み合わせて利用することができ、実施形態の機能は、所望の実装に従って任意の手段により実現できる。
【0015】
本明細書の一実施形態は、機械学習システムのデータ管理に関する。本明細書の一実施形態に係るシステムは、未分析の新たなデータにおいて、機械学習モデルの訓練に利用され得る特徴量を抽出する。システムは、抽出された特徴量において、機械学習モデルの推定アルゴリズムにバイアスを与える可能性があるバイアス特徴量の候補を抽出する。これにより、機械学習モデルによる推定アルゴリズムの公平性、性能及び精度等の目的のため機械学習モデルの最適化を促進でできる。
【0016】
本明細書の一実施形態に係るシステムは、入力データと分析処理履歴とを比較することで、入力データにおける特徴量を効率的に評価することができる。また、システムは、入力データの特徴量の機械学習モデルの推定に対する影響度を算出して、その評価結果をユーザに提示することができる。これにより、訓練データに使用するユーザによる特徴量選択を効果的に支援できる。
【0017】
機械学習モデルの学習に利用される特徴量の選択は、グラフィカルユーザインタフェース(GUI)若しくは他の入力手段を介して人間のユーザによって実行される、又は所望のアルゴリズムに従って本システム又は他のシステムよって実行され得る。
【0018】
本明細書一実施形態は、機械学習モデルを継続的に改良することに関連し、公平性や精度等の尺度についての機械学習モデルの最適化に関連する。本明細書の一実施形態は、様々な目標尺度に対する特徴量の影響について、エンドユーザに改善された洞察を提供する。これにより、特徴量の選択を改善し、機械学習モデルの改良が促進され得る。本明細書の一実施形態は、例えば、救急医療サービス(EMS)決定システム内の機械学習モデルの訓練に適用することができる。
【0019】
機械学習モデルの入力は、例えば、救急車の出動記録(時刻、チーム番号、出動先場所、患者情報(氏名・年齢・症状1・症状2等)、配送先)、天候(場所、気温、等)、配送先病院情報である。出力は、例えば、救急車の需要(患者発生数)、予測結果(救急システム管理官向け)、救急配送の最適なルート推薦(救急車両向け)、病気診断予測(コールセンタ、病院向け)である。
【0020】
本明細書の一実施形態は、公平性及び/又は正確性等の機械学習モデルの評価値を改善し、例えば、医療決定システムの日常的なシステム管理を容易にすることができる。医療決定は、例えば、待機している救急車の最適配置や、看護師による患者への様々な治療順序をトリアージ方式で決定する等の例示的なユースケースを含むことができるが、これらに限定されない。
【0021】
本明細書の一実施形態に係るシステムは、機械学習モデルの訓練フェーズの前に、機械学習モデルの訓練におけるバイアスを低減するために、未分析の入力データ(新データ)を前処理するように構成されている。システムは、記憶装置に格納されている情報を参照して、入力データを分析する。
【0022】
入力データは、例えば新たにデータベースに追加された患者に関するデータであり、検出前の潜在的なバイアス特徴量候補を含む。分析されるデータは、記憶装置に格納されている、入力データ自体でもよく、入力データの特徴量の情報を示すメタデータであってもよい。
【0023】
入力データの分析のために参照される情報は、例えば、過去の分析処理履歴を含むことができる。分析処理履歴は、分析されたデータ(それぞれ複数特徴量からなる多数のサンプル)、ユーザに指定されたバイアス特徴量(センシティブ特徴量と呼ぶことがある)や、過去の入力データの特徴量についての分析結果、及びこれらの管理のために参照され得るメタデータ(管理情報)を含むことができる。
【0024】
分析処理履歴は、過去の分析処理により、バイアス特徴量候補と判定された特徴量及び非バイアス特徴量候補と判定された特徴量を、示してよい。分析処理履歴は、入力データにおける特徴量の、機械学習モデルによる推定に対する影響度の計算結果を含んでよい。
【0025】
図1は本明細書の一実施形態に係る特徴量推奨システムのハードウェア構成例を示す。図1に示す特徴量推奨システム100は、データを管理するデータ管理システムであり。特徴量推奨システム100は、ユーザが機械学習モデルの訓練を行うために、訓練データに含めてよい又は訓練データから除くべき特徴量を決定し、それらをユーザに提示する。具体的には、パーソナルコンピュータの他、タブレット、スマートフォンなどの携帯型情報端末、サーバやクラウド上の仮想情報処理装置などを使用できる。
【0026】
特徴量推奨システム100は、RAMなど揮発性記憶素子で構成されるメモリ(主記憶装置)101、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される補助記憶装置102を含む。特徴量推奨システム100は、さらに、補助記憶装置102に保持されるプログラム103をメモリ101に読み出すなどして実行し装置事態の統括制御を行うとともに、各種判定、演算及び制御処理を行うCPUなどの演算装置104を含む。
【0027】
さらに、特徴量推奨システム100は、ユーザからの入力動作を受け付けるキーボードやマウス、タッチパネルなどの入力装置105、利用者に対して処理結果を表示するディスプレイなどの出力装置106、及び、適宜なネットワークに接続しデータをやり取りするための通信装置107を備えている。なお、特徴量推奨システム100がスタンドアロンマシンとして稼働する場合、通信装置107は省略してもよい。
【0028】
なお、補助記憶装置102内には、本実施形態の特徴量推奨システム100として必要な機能を実装するためのプログラム群103、各種処理に必要なデータを格納した情報データベース150が格納されている。補助記憶装置102は、さらに、特徴量推奨システム100に登録されている各種電子ファイルの保存領域170を含む。ファイル保存領域170は、特徴量推奨システム100に固有のものであってもよいし、また企業や組織内で運用されているNAS(Network Attached Storage)などのネットワークストレージや、ウェブストレージなどに確保されてもよい。
【0029】
図2は、特徴量推奨システム100のソフトウェア構成例を示す。図2は、メモリ101にロードされているプログラム群103及び補助記憶装置102に格納されているデータベース150に格納されている情報の例を示す。演算装置104に実行されるプログラム群103は、ユーザインタフェース(UI)部131、分析処理履歴検索部132、バイアス特徴量候補認識部133、データ管理部134、影響度推定部135、及び推奨特徴量認識部136を含む。演算装置104は、これらプログラムの命令コードを実行することによって、これらプログラムにより実現される機能部として動作する。上述のように、プログラム群103は、例えば、補助記憶装置102からメモリ101にロードされ、演算装置104によって実行される。
【0030】
データベース150は、特徴量推奨システム100が参照又は生成する種々のデータ及び情報を格納している。データベース150内のデータは、データ管理部134によって管理される。図2に示す例において、データベース150は、患者個人情報テーブル151、通報イベントテーブル152、病院患者情報テーブル153、モデル管理情報テーブル157を格納している。データベース150は、さらに、人関連ID情報テーブル158、準識別子情報テーブル159、センシティブ特徴量情報テーブル160、バイアス特徴量情報テーブル161、バイアス特徴量候補情報テーブル162、影響度情報テーブル163、フルスケールモデル訓練結果情報テーブル164を格納している。
【0031】
患者個人情報テーブル151、通報イベントテーブル152、及び病院患者情報テーブル153は、医療決定システムの例において収集され得るデータの例であり、特徴量推奨システム100の分析対象データの例である。医療決定システムにおける学習モデル他ための訓練データは他のデータ、例えば、消防署や気候についてのデータを含むことができる。
【0032】
図3A、3B及び3Cは、それぞれ、患者個人情報テーブル151、通報イベントテーブル152、及び病院患者情報テーブル153の構成例を示す。分析対象の入力データの例であり、また、分析後においては、これらテーブルの一部又は全レコードが分析に用いられたことが、分析処理履歴に記録される。患者個人情報テーブル151は、患者IDで一意に同定される患者の個人情報を格納している。例えば、患者の指名、年齢、性別、住所、収入、症状などのカラムが含まれる。これらカラムは特徴量である。
【0033】
通報イベントテーブル152は、消防署への119の通報の情報を示す。各通報はコールIDで一意に識別される。通報イベントテーブル152は、通報者及び対応者の氏名の他、患者の患者IDや症状等の情報を含む。病院患者情報テーブル153は、特定の病人における患者の情報を格納している。患者は、患者IDによって一意に同定される。三つのテーブル151、152、153におけるおいて、共通の患者IDが使用される。患者IDの他、例えば、患者の指名、年齢、性別、銃所、人種、症状などのカラムが、病院患者情報テーブル153に含まれる。
【0034】
図4は、人関連ID情報テーブル158の構成例を示す。人関連ID情報テーブル158は、人関連IDの情報を管理する。人関連IDは、人を一意に識別する識別子である。後述するように、ユーザは、人関連IDを指定することができる。図4の例において、人関連ID情報テーブル158は、番号カラム581、テーブルカラム582及びカラム名カラム583を有する。
【0035】
番号カラム581は、人関連ID情報テーブル158のレコード番号を示す。テーブルカラム582は、人関連IDが格納されているテーブル(入力データ)を示す。カラム名カラム583は、人関連IDのカラム名を示す。カラム名は、カラムを一意に同定する。
【0036】
図5は、準識別子情報テーブル159の構成例を示す。準識別子情報テーブル159は、準識別子の情報を管理する。準識別子は、それ自体で人を同定しないが、複数の準識別子の組み合わせは、当該人の識別子となり得る。
【0037】
本明細書の一実施形態は、分析対象データにおいて人関連ID以外の特徴量(カラム)を、準識別子と判定する。図5の例において、準識別子情報テーブル159は、番号カラム591、テーブルカラム592及びカラム名カラム593を有する。番号カラム591は、準識別子情報テーブル159のレコード番号を示す。テーブルカラム592は、準識別子が格納されているテーブル(入力データ)を示す。カラム名カラム593は、準識別子のカラム名を示す。カラム名は、カラムを一意に同定する。
【0038】
図6は、センシティブ特徴量情報テーブル160の構成例を示す。センシティブ特徴量情報テーブル160は、センシティブ特徴量の情報を管理する。センシティブ特徴量は、ユーザによって指定されたバイアス特徴量である。図6の例において、センシティブ特徴量情報テーブル160は、番号カラム601、テーブルカラム602及びカラム名カラム603を有する。番号カラム601は、センシティブ特徴量情報テーブル160のレコード番号を示す。テーブルカラム602は、センシティブ特徴量が格納されているテーブル(入力データ)を示す。カラム名カラム603は、センシティブ特徴量のカラム名を示す。カラム名は、カラムを一意に同定する。
【0039】
図7は、バイアス特徴量情報テーブル161の構成例を示す。バイアス特徴量情報テーブル161は、特徴量推奨システム100によってバイアス特徴量と判定された特徴量の情報を管理する。センシティブ特徴量は、学習モデルの推定にバイアスを与え、公平性及び/又は正確性を低下させるバイアス特徴量において、ユーザに指定された特徴量である。図7の例において、バイアス特徴量情報テーブル161は、番号カラム611、テーブルカラム612及びカラム名カラム613を有する。番号カラム611は、バイアス特徴量情報テーブル161のレコード番号を示す。テーブルカラム612は、バイアス特徴量が格納されているテーブル(入力データ)を示す。カラム名カラム613は、バイアス特徴量のカラム名を示す。カラム名は、カラムを一意に同定する。
【0040】
図8は、バイアス特徴量候補情報テーブル162の構成例を示す。バイアス特徴量候補情報テーブル162は、特徴量推奨システム100によってバイアス特徴量と判定された特徴量の情報を管理する。図8の例において、バイアス特徴量候補情報テーブル162は、番号カラム621、テーブルカラム622及びカラム名カラム623を有する。番号カラム621は、バイアス特徴量候補情報テーブル162のレコード番号を示す。テーブルカラム622は、バイアス特徴量候補が格納されているテーブル(入力データ)を示す。カラム名カラム623は、バイアス特徴量候補のカラム名を示す。カラム名は、カラムを一意に同定する。
【0041】
図9は、影響度情報テーブル163の構成例を示す。影響度情報テーブル163は、特徴量推奨システム100によって計算された、特徴量の学習モデルの推定に対する影響度の情報を管理する。図9の例において、影響度情報テーブル163は、番号カラム611、テーブルカラム612、カラム名カラム613、正確性影響度カラム634、公平性影響度カラム635、及びモデルIDカラム636を有する。
【0042】
番号カラム631は、影響度情報テーブル163のレコード番号を示す。テーブルカラム632は、影響度が計算された特徴量が格納されているテーブル(入力データ)を示す。カラム名カラム633は、影響度が計算された特徴量のカラム名を示す。カラム名は、カラムを一意に同定する。正確性影響度カラム634は、特徴量推奨システム100により計算された、学習モデルの正確性への特徴量の影響度を示す。公平性影響度カラム635、特徴量推奨システム100により計算された、学習モデルの正確性への特徴量の影響度を示す。モデルIDカラム636は、影響度の計算のために使用された学習モデルのIDを示す。
【0043】
特徴量の影響度の計算に使用される機械学習モデル(第1学習モデル)は、ユーザが実際に訓練し、実装することを目的とするフルスケールの機械学習モデル(第2学習モデル)と比較して、プログラムサイズが小さく、訓練に必要とされる処理負荷(処理量及び処理時間)が小さい身軽な機械学習モデル(例えばランダムフォレスト)であってよい。これによって、効率的に影響度を計算することができる。
【0044】
人関連ID情報テーブル158、準識別子情報テーブル159、センシティブ特徴量情報テーブル160、バイアス特徴量情報テーブル161、バイアス特徴量候補情報テーブル162、影響度情報テーブル163は、分析処理履歴に含まれる。分析処理履歴の情報は、新たな入力データの分析において参照される。
【0045】
図10は、特徴量推奨システム100が実行する処理の概要を示すフローチャートである。特徴量推奨システム100は、ユーザからの分析対象についての入力を受け付け(S11)、入力データを読み出す(S12)。図11は、ユーザが分析対象のデータについて情報を入力するための、GUI(Graphical User Interface)画面300の例を示す。GUI300は、UI部131によって出力装置106に出力され、入力されたデータは、UI部131によって受信され、分析処理履歴の一部として、記憶装置に格納される。
【0046】
ユーザは、GUI画面300において分析対象の入力データを指定する他、人関連IDやセンシティブ特徴量を指定することができる。具体的には、セクション301は、分析対象データの指定、及び分析対象データにおけるバイアス候補特徴量の学習モデルの推定に対する影響度の計算の指示を受け付けるためのオブジェクトを含む。図3A~3Cの例を参照して説明したように、分析対象データは複数のレコードで構成され、また、複数のカラム(特徴量)で構成されている。各レコードは、複数の特徴量で構成されている。
【0047】
セクション302は、人関連IDの指定を受け付けるためのオブジェクトを含む。例えば、セクション302は、指定された分析対象データの特徴量名(カラム名)を表示し、その中から人関連IDの指定を受け付ける。人関連ID以外の特徴量(カラム)は、準識別子と認識されて、潜在的なバイアス特徴量候補として、特徴量推奨システム100による分析の対象となる。
【0048】
セクション303は、センシティブ特徴量の指定を受け付けるためのオブジェクトを含む。例えば、セクション303は、指定された分析対象データの特徴量名(カラム名)を表示し、その中からセンシティブ特徴量の指定を受け付ける。センシティブ特徴量は、学習モデルの推定にバイアスを与える望ましくないバイアス特徴量としてユーザに指定された特徴量である。
【0049】
セクション304、305及び306は、特徴量推奨システム100による分析結果を示す。セクション304は、特徴量推奨システム100によってバイアス特徴量と判定された特徴量を示す。セクション305は、特徴量推奨システム100によって非バイアス特徴量と判定された特徴量を示す。セクション306は、バイアス特徴量候補と判定された特徴量の影響度の計算結果を示す。上述のように、セクション301において影響度計算を指示するオブジェクトが選択されると、影響度が計算され、セクション306に表示される。セクション304、305及び306が示す情報の生成方法の詳細は後述する。
【0050】
セクション306は、さらに、ユーザが目的とする学習モデルの訓練に使用する特徴量の指定を受け付ける。ユーザは、オブジェクト307を選択することで、特徴量推奨システム100に、セクション306において選択した特徴量のデータによって、学習モデルを訓練することを指示する。
【0051】
図12は、図10のステップS11の詳細のフローチャートを示す。UI部131は、図11に示すGUI画面300を、出力装置106である表示装置において表示する(S101)。UI部131は、指定された対象データの特徴量を表示して、入力装置105を介して人関連IDの指定を受け付ける(S102)。UI部131は、受信した人関連IDの情報を、人関連ID情報テーブル158に格納する(S103)。
【0052】
バイアス特徴量候補認識部133は、人関連ID以外のカラムを準識別子と認識する(S104)。バイアス特徴量候補認識部133は、人関連IDと異なる準識別子を潜在的バイアス候補カラムとして、準識別子情報テーブル159に格納する(S105)。なお、人関連IDの指定を受けないこともあり得る。その場合、全ての特徴量が準識別子と判定されてよい。
【0053】
図10に戻って、分析処理履歴検索部132は、補助記憶装置102に格納されている分析処理履歴を検索する(S13)。本明細書の一実施形態において、分析処理履歴検索部132は、入力データの準識別子のセットと一致する準識別子のセットの分析処理済みデータを検索する。同一の準識別子セットの分析処理済みデータが存在する場合(S14:YES)、分析処理履歴検索部132、その分析結果を分析処理履歴から読み出す(S15)。これにより、分析処理の効率が改善される。
【0054】
本明細書の他の一実施形態において、分析処理履歴検索部132は、分析対象の準識別子のセットを含む分析処理済み準識別子セットが存在する場合、その分析結果を読み出してもよい。または、分析処理履歴検索部132は、入力データの準識別子毎に、使用できる分析処理結果、例えば、影響度の計算結果を分析処理履歴において検索してもよい。
【0055】
同一の準識別子セットの分析処理済みデータが存在しないと判定された場合(S14:NO)、影響度推定部135は、入力データにおける特徴量の影響度の推定を実行する(S16)。以下において、影響度の計算方法の例を説明する。バイアス特徴量候補認識部133は、UI部131を介して、センシティブ特徴量のユーザからの指定を受け付ける。センシティブ特徴量の情報は、センシティブ特徴量情報テーブル160に格納される。なお、センシティブ特徴量の指定を受けないこともあり得る。
【0056】
まず、センシティブ特徴量の指定がない場合、又は、指定されたセンシティブ特徴量を区別することなく準識別子の影響度を計算する処理の例を説明する。図13は、特徴量の影響度の推定処理の例を示すフローチャートである。図13の処理例において、特徴量推奨システム100は、センシティブ特徴量の情報を参照することなく準識別子の影響度を計算する。
【0057】
バイアス特徴量候補認識部133は、分析対象の入力データの準識別子のカラム(データ)を読み出す(S151)。バイアス特徴量候補認識部133は、カラム間の相関マトリックスを生成する(S152)。カラム(準識別子)間の相関は、例えば、ピアソンの相関係数によって表すことができる。ピアソンの相関係数は、2つのカラムのデータの共分散をそれぞれの標準偏差の積で割ることで算出できる。なお、相関を表す係数の種類は限定されない。
【0058】
バイアス特徴量候補認識部133は、各カラムiについて、ステップS153及び154を実行する。ステップS153において、バイアス特徴量候補認識部133は、カラムiとの相関値が閾値を超えるカラムjをバイアス特徴量候補として選択する。カラムの相関性が高いということは、ある種の「冗長性」を示唆している。これは、情報が繰り返されており、より小さな要素にまとめることができることを意味している。これにより、バイアスを与え得るカラムを検出できる。
【0059】
ステップS154において、バイアス特徴量候補認識部133は、カラムjから、最も高い相関のカラムをバイアス特徴量として削除する。これにより、この後の処理効率を改善しつつ、特徴量の減少による訓練の精度の低下を抑制できる。バイアス特徴量候補認識部133は、この特徴量の情報を、バイアス特徴量情報テーブル161に格納する。
【0060】
他の例において、相関値が閾値を超える全てのカラムを削除してもよい。これらの例のように、バイアス特徴量は、他の特徴量との間の相関が閾値を超える特徴量から選択される。また、ステップS153及び154は省略されてもよい。削除されたカラムは、この後のステップS153及びS154の対象から除外されてよい。
【0061】
次に、影響度推定部135は、残っているカラムのデータによって、影響度を計算するために、機械学習モデル(第1学習モデル)を訓練する(S155)。残っているカラムは、ステップS153及び154において削除されたカラム以外のカラムである。本例において、残っているカラムは、バイアス特徴量候補と判定され、それらの情報はバイアス特徴量候補情報テーブル162に格納される。残っているカラムのデータの全て又は一部によって、学習モデルを訓練できる。
【0062】
訓練されるモデルは、モデル管理情報テーブル157で管理されている。モデル管理情報テーブル157は、例えば、モデルの種類、訓練の負荷(影響度計算用か否か)、格納位置等の情報を含むことができる。
【0063】
上述のように、訓練される学習モデルは、訓練に必要とされる処理量及び時間が小さい身軽な機械学習モデルから選択される。例えば、決定木が使用できる。なお、処理効率に係わらず、訓練する学習モデルが選択されてよい。影響度を計算するための1以上の学習モデルが予め用意されている。例えば、訓練データのデータ量やカラムの数に応じて、それらに関連付けられている一つの学習モデルが選択されてもよい。
【0064】
影響度推定部135は、学習モデルを訓練した後、残っている各カラムkについて、ステップS156及びS157を実行する。ステップS156において、影響度推定部135は、訓練済みの学習モデルを使用して、カラムkに対するモデルの公平性及び/又は正確性を計算する。この検証に使用されるデータは、上記残っているカラムのデータにおいて、学習モデルの訓練に使用されなかったデータ又は訓練に使用されたデータであってよい。さらに、ステップS157において、影響度推定部135は、計算結果を、カラムkについての影響度として、影響度情報テーブル163に格納する。
【0065】
影響度の計算方法の例を説明する。なお、影響度の計算方法は、以下に説明する例に限定されない。グループの公平性は、2つのグループの平等な扱いを示す。不公平であることは、望ましくないバイアスの結果、特定の恵まれたグループが他の恵まれていないグループよりも有利になることである。
【0066】
学習モデルの推定を評価するために、混同行列を使用することができる。陽性又は陰性のラベルを有するテストデータを機械学習モデルに入力する。その推定結果と、ラベルとの比較結果により、以下の数値を得ることができる。陽性を陽性と推定した数(真陽性:Tp)、陽性を陰性と推定した数(偽陽性:Fp)、陰性を陰性と推定した数(真陰性:Tn)、そして、陰性を陽性と推定した数(偽陰性:Fn)である。これらの数には、2×2の混同行列にまとめることができる。
【0067】
第1グループと第2グループの間の公平性を探るために、公平性の指標として、例えば、EOD(Equal Opportunity Difference)やAOD(Average Odds Difference)のスコアを使用することができる。分類タスクでは、これらの指標は、混同行列から算出することができる。
【0068】
AODとEODを算出するために、影響度推定部135は、訓練済み学習モデルへ、ラベル付きテストデータを入力し、学習モデルの混同行列を生成する。さらに、影響度推定部135は、混同行列から、感度(True Positive Rate:TPR)と、偽陽性(False Positive Rate:FPR)のスコアを算出する。
TPR=Tp/(Tp+Fn)
FPR=Fp/(Fp+Tn)
【0069】
EODは、第2グループの感度(TPRg2)と、第1グループの感度(TPRg1)から、次のように計算することができる。
EOD=TPRg2-TPRg1
【0070】
一方、AODは、第2グループの偽陽性(FPRg2)及び感度(TPRg2)と、第1グループの偽陽性(FPRg1)及び感度(TPRg1)から、以下のように計算することができる。
AOD=(FPRg2-FPRg1)+(TPRg2-TPRg1)/2
【0071】
EODとAODはともに-1から1の範囲の値を返し、0の値は2つのグループの間で同等であることを意味する。0未満の場合は、第1のグループが第2のグループから利益を得ていることになる。0以上の場合、第2のグループが第1のグループの恩恵を受けていることになる。
【0072】
精度のスコアには、TNR(True Negative Rate)や感度(TPR)を使用することができる。TNRは誤分類の指標であり、TPRは正しい分類の指標である。TNRは,以下のように、真陰性を、偽陽性と真陰性の合計で割った値である。
TNR=Tn(Fp+Tn)
【0073】
上記例は、削除された特徴量以外の全ての特徴量の影響度を計算している。本明細書の一実施形態において、バイアス特徴量候補認識部133は、相関値が閾値を超える特徴量をバイアス特徴量候補とし、他の特徴量を非バイアス特徴量と判定してもよい。影響度推定部135は、バイアス特徴量候補の影響度を計算し、非バイアス特徴量の影響度の計算を省略してもよい。
【0074】
影響度の計算方法は、上記例に限定されない。公平性の指標及び正確性の指標の一方のみが計算され、ユーザに提示されてもよい。上記二つの公平性の指標のうちの一方のみが算出及び提示されてもよく、上記二つの正確性の指標の一方のみが算出及び提示されてもよい。
【0075】
バイアス特徴量候補認識部133は、センシティブ特徴量との相関が閾値を超え、最も高い相関を示す準識別子を削除してもよい。バイアス特徴量候補認識部133は、センシティブ特徴量との相関が閾値を超える準識別子を、バイアス特徴量候補と判定し、それ以外の準識別子を非バイアス特徴量と判定してもよい。影響度は、バイアス特徴量候補について計算される。
【0076】
次に、特徴量の影響度の推定処理の他の例を説明する。以下において、ユーザに指定されたセンシティブ特徴量との相関に基づいて、バイアス特徴量又はバイアス特徴量候補を判定する。図14は、特徴量の影響度の推定処理の例を示すフローチャートである。図14の処理例において、特徴量推奨システム100は、センシティブ特徴量の情報を参照して準識別子の影響度を計算する。これにより、学習モデルの推定の公平性及び/又は正確性を低下させ得るバイアスと特徴量をより適切に検出できる。
【0077】
バイアス特徴量候補認識部133は、分析対象の入力データの準識別子のカラム(データ)を読み出す(S171)。バイアス特徴量候補認識部133は、各センシティブカラムについて、ステップS172及びS173を実行する。センシティブ特徴量は、入力データに対してユーザによって指定されている。他の例において、分析処理履歴に格納されているセンシティブ特徴量の情報を参照してもよい。
【0078】
ステップS172において、バイアス特徴量候補認識部133は、センシティブ特徴量と、他の準識別子との間の相関を計算する。相関の計算方法は上述の通りである。ステップS173において、バイアス特徴量候補認識部133は、相関が閾値を超えるカラム(準識別子)を、バイアス特徴量として削除する。これにより、学習モデルにバイアスを与える可能性が高い特徴量を削除できる。
【0079】
バイアス特徴量は、バイアス特徴量情報テーブル161に格納される。他の例において、バイアス特徴量候補認識部133は、閾値を超えてかつ最も高い相関を示すカラムのみを、削除してもよい。バイアス特徴量は、センシティブ特徴量との間の相関が閾値を超える特徴量から選択される。バイアス特徴量は、後述する影響度計算から除外され、処理を効率化できる。
【0080】
ステップ174において、バイアス特徴量候補認識部133は、全センシティブ特徴量それぞれとの相関が第2閾値未満のカラムを、非バイアス特徴量と判定する。第2閾値は、ステップS173における閾値より小さい。バイアス特徴量候補は、センシティブ特徴量、バイアス特徴量又は非バイアス特徴量と判定された準識別子、以外の準識別子である。バイアス特徴量候補認識部133は、バイアス特徴量候補の情報を、バイアス特徴量候補情報テーブル162に格納する。
【0081】
次に、影響度推定部135は、残っているカラムによって、影響度を計算するための機械学習モデルを訓練する(S175)。残っているカラムは、ステップS172及び173において削除されたカラム以外のカラムである。訓練されるモデルは、上記例と同様である。
【0082】
影響度推定部135は、学習モデルを訓練した後、バイアス特徴量候補のカラムについて、ステップS176及びS177を実行する。ステップS176において、影響度推定部135は、訓練済みの学習モデルを使用して、バイアス特徴量候補kに対するモデルの公平性及び/又は正確性を計算する。さらに、ステップS177において、影響度推定部135は、計算結果を、バイアス特徴量候補kについての影響度として、影響度情報テーブル163に格納する。なお、非バイアス特徴量を判定することなく、センシティブ特徴量及びバイアス特徴量以外の全ての準識別子の影響度を計算してもよい。
【0083】
図10に戻って、UI部131は、分析処理結果を、出力装置106である表示装置においてユーザに提示する(S17)。具体的には、UI部131は、入力データの分析結果を、図11に示すGUI画面300において表示する。図11に示すように、セクション304は、特徴量推奨システム100によってバイアス特徴量と判定された特徴量を示す。セクション305は、特徴量推奨システム100によって非バイアス特徴量と判定された特徴量を示す。セクション306は、バイアス特徴量候補と判定された特徴量の影響度の計算結果を示す。
【0084】
セクション304、305は省略され得る。このように、特徴量の影響度を提示することで、ユーザは、目的の機械学習モデルの訓練から除外する(訓練に使用する)特徴量を適切に選択することができる。図11に示す例において、バイアス特徴量は訓練から排除され、及び非バイアス特徴量は訓練に使用される。他の例において、これら特徴量において、訓練に使用する特徴量がユーザによって選択可能であってもよい。
【0085】
上述のように、図11に示すGUI画面を介して、ユーザは、データの入力、センシティブ特徴量の定義、バイアス特徴量の検出/除去、訓練時間が短い効率的なモデル(ランダムフォレストなど)の訓練による影響度の計算を、行うことができる。ユーザが入力データの分析結果に満足すると、次に、ユーザは、入力データによる訓練の目的とする、実際のフルスケールのモデル(XBoost、Adaboost、LightGBMなど)を訓練することができる。UI部131は、オブジェクト307の選択によって、フルスケールモデルの訓練の指示を受け付ける。
【0086】
影響度推定部135は、入力データにおいて選択された準識別子のカラムによって、フルスケールモデルの訓練を行うと共に、公正さや精度のスコアを算出する。影響度推定部135は、訓練の結果をフルスケールモデル訓練結果情報テーブル164に格納する。UI部131は、フルスケールモデルの訓練結果を、出力装置106である表示装置において表示する。
【0087】
図15は、フルスケールモデルの訓練結果を示す画像の例を示す。図15は、訓練データからバイアス特徴量が除去され、その訓練データによってモデルが訓練され、各モデルの公平性/正確性のスコアが算出された後の出力を示す。図15の例において、EOD、AODが公平性スコアとして算出され、TPR、TNRが精度のスコアとして提示されている。図15の例は、さらに、適合率(precision)=TP/(TP+FP)と、F1値を示す。F1値は、感度と適合率から計算され、これらのバランスを示す。
【0088】
ユーザが結果に満足した場合、モデルを本番環境にデプロイしてもよい。図15の例において、ユーザは、複数の機械学習モデルをトレーニングして、公正さや精度のスコアを比較することができる。
【0089】
なお、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0090】
また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。
【0091】
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。
【符号の説明】
【0092】
100 特徴量推奨システム
101 メモリ
102 補助記憶装置
104 演算装置
106 出力装置
107 通信装置
151 患者個人情報テーブル
152 通報イベントテーブル
153 病院患者情報テーブル
157 モデル管理情報テーブル
158 人関連ID情報テーブル
159 準識別子情報テーブル
160 センシティブ特徴量情報テーブル
161 バイアス特徴量情報テーブル
162 バイアス特徴量候補情報テーブル
163 影響度情報テーブル
164 フルスケールモデル訓練結果情報テーブル
図1
図2
図3A
図3B
図3C
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15