IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特開2023-183543評価用データ生成装置、安全性評価装置、評価用データ生成方法及び評価用データ生成プログラム
<>
  • 特開-評価用データ生成装置、安全性評価装置、評価用データ生成方法及び評価用データ生成プログラム 図1
  • 特開-評価用データ生成装置、安全性評価装置、評価用データ生成方法及び評価用データ生成プログラム 図2
  • 特開-評価用データ生成装置、安全性評価装置、評価用データ生成方法及び評価用データ生成プログラム 図3
  • 特開-評価用データ生成装置、安全性評価装置、評価用データ生成方法及び評価用データ生成プログラム 図4
  • 特開-評価用データ生成装置、安全性評価装置、評価用データ生成方法及び評価用データ生成プログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023183543
(43)【公開日】2023-12-28
(54)【発明の名称】評価用データ生成装置、安全性評価装置、評価用データ生成方法及び評価用データ生成プログラム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20231221BHJP
【FI】
G06N20/00 130
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022097113
(22)【出願日】2022-06-16
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(72)【発明者】
【氏名】成定 真太郎
(72)【発明者】
【氏名】披田野 清良
(57)【要約】
【課題】従来よりも強力な攻撃手法に基づいて、機械学習システムの安全性をより厳密に評価するための安全性評価装置を提供すること。
【解決手段】安全性評価装置1は、第1のクラスのデータ群に対して識別困難な変動量のトリガーを付与することで、第2のクラスのデータ群との特徴量空間における距離に関する損失を最小化するよう更新した第1のクラスの毒データ群を生成する毒データ生成部11と、バックドア攻撃におけるソースクラスのデータ群、及びターゲットクラスのデータ群を毒データ生成部11に入力し、生成された毒ソースデータ群を、評価対象である分類システムのテストデータとして出力するテストデータ出力部12と、ターゲットクラスのデータ群、及び毒ソースデータ群を毒データ生成部11に入力し、生成された毒ターゲットデータ群を、分類システムの訓練データとして出力する訓練データ出力部13と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
第1のクラスのデータ群に対して識別困難な変動量のトリガーを付与することで、第2のクラスのデータ群との特徴量空間における距離に関する損失を最小化するよう更新した前記第1のクラスの毒データ群を生成する毒データ生成部と、
バックドア攻撃におけるソースクラスのデータ群を前記第1のクラスのデータ群として、ターゲットクラスのデータ群を前記第2のクラスのデータ群として前記毒データ生成部に入力し、生成された毒ソースデータ群を、評価対象である分類システムのテストデータとして出力するテストデータ出力部と、
前記ターゲットクラスのデータ群を前記第1のクラスのデータ群として、前記毒ソースデータ群を前記第2のクラスのデータ群として前記毒データ生成部に入力し、生成された毒ターゲットデータ群を、前記分類システムの訓練データとして出力する訓練データ出力部と、を備える評価用データ生成装置。
【請求項2】
前記テストデータ出力部は、複数のソースクラスそれぞれのデータ群と、単一のターゲットクラスのデータ群とを入力として生成された、各ソースクラスの毒データ群を均等に出力し、
前記訓練データ出力部は、前記単一のターゲットクラスのデータ群と、前記複数のソースクラスそれぞれの毒データ群とを入力として生成された、各ソースクラスに対応する毒データ群を均等に出力する請求項1に記載の評価用データ生成装置。
【請求項3】
前記損失は、クラス間で前記特徴量空間における距離を最小化するペア毎の、当該距離を総和した値として定義される請求項1又は請求項2に記載の評価用データ生成装置。
【請求項4】
前記分類システムは、機械学習モデルにより画像を複数のクラスに分類するシステムである請求項1又は請求項2に記載の評価用データ生成装置。
【請求項5】
請求項1又は請求項2に記載の毒データ生成部、テストデータ出力部及び訓練データ出力部と、
前記毒ターゲットデータ群を前記分類システムの訓練データに混入させ、汚染モデルを生成するモデル生成部と、
前記毒ソースデータ群をテストデータとして、前記汚染モデルによる誤分類率を測定し、当該誤分類率に基づいて攻撃に対する安全性の評価値を出力する評価部と、を備える安全性評価装置。
【請求項6】
第1のクラスのデータ群に対して識別困難な変動量のトリガーを付与することで、第2のクラスのデータ群との特徴量空間における距離に関する損失を最小化するよう更新した前記第1のクラスの毒データ群を生成する毒データ生成アルゴリズムを用い、
バックドア攻撃におけるソースクラスのデータ群を前記第1のクラスのデータ群として、ターゲットクラスのデータ群を前記第2のクラスのデータ群として前記毒データ生成アルゴリズムに入力し、生成された毒ソースデータ群を、評価対象である分類システムのテストデータとして出力するテストデータ出力ステップと、
前記ターゲットクラスのデータ群を前記第1のクラスのデータ群として、前記毒ソースデータ群を前記第2のクラスのデータ群として前記毒データ生成アルゴリズムに入力し、生成された毒ターゲットデータ群を、前記分類システムの訓練データとして出力する訓練データ出力ステップと、をコンピュータが実行する評価用データ生成方法。
【請求項7】
請求項1又は請求項2に記載の評価用データ生成装置としてコンピュータを機能させるための評価用データ生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習システムのバックドア攻撃に対する安全性評価手法に関する。
【背景技術】
【0002】
近年、非特許文献1において、バックドア攻撃と呼ばれる、画像分類等の機械学習システムに対する攻撃手法が示されている。バックドア攻撃では、sourceクラスに属するデータに対して、トリガーと呼ばれるデータ(画像)を貼り付け、ラベルをtargetクラスに変更することで毒データが生成される。これは、毒データを含む訓練データをモデルが学習することで、機械学習システムに、トリガーが付与されたsourceクラスの画像のみをtargetクラスに誤分類させることを目的とする攻撃である。
【0003】
その後、非特許文献2において、クリーンラベルバックドア攻撃と呼ばれる、毒データのラベルを操作することなくバックドア攻撃を行う、より高度な手法が示された。
さらに、非特許文献3では、クリーンラベル方式であり、かつ、sourceデータに付与されるトリガーが不可視(識別困難)となるバックドア攻撃が示された。この方式は、訓練データに追加される毒データのトリガーが不可視となるため、毒データの検知が非常に困難である。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Tianyu Gu, Brendan Dolan-Gavitt, and Siddharth Garg. Badnets: Identifying vulnerabilities in the machine learning model supply chain. arXiv preprint arXiv:1708.06733, 2017.
【非特許文献2】Alexander Turner, Dimitris Tsipras, and Aleksander Madry. Label-consistent backdoor attacks. arXiv preprint arXiv:1912.02771, 2019.
【非特許文献3】Aniruddha Saha, Akshayvarun Subramanya, and Hamed Pirsiavash. Hidden trigger backdoor attacks. In Proceedings of the AAAI conference on artificial intelligence, Vol. 34, pp. 11957-11965, 2020.
【発明の概要】
【発明が解決しようとする課題】
【0005】
機械学習システムの安全性評価を行うにあたって、より強力な攻撃手法を考慮することは、最悪のシナリオを想定し、より厳密な安全性評価を実施するために重要である。
しかしながら、非特許文献3のバックドア攻撃は、訓練データに混入させるtargetラベルの毒データを勾配最適化法によって生成することで不可視としていたが、訓練済みモデルのテスト(評価)時においては、sourceラベルの画像に可視のトリガー(パッチ画像)を付与したものを毒データとしていた。このため、テスト時にアノマリ検知等の対策を行うことで、毒データを容易に検知することが可能であった。
このように、訓練データ及びテストデータの双方でトリガーが不可視となるバックドア攻撃は、これまで考慮されていなかった。
【0006】
本発明は、従来よりも強力な攻撃手法に基づいて、機械学習システムの安全性をより厳密に評価するための評価用データ生成装置、安全性評価装置、評価用データ生成方法及び評価用データ生成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明に係る評価用データ生成装置は、第1のクラスのデータ群に対して識別困難な変動量のトリガーを付与することで、第2のクラスのデータ群との特徴量空間における距離に関する損失を最小化するよう更新した前記第1のクラスの毒データ群を生成する毒データ生成部と、バックドア攻撃におけるソースクラスのデータ群を前記第1のクラスのデータ群として、ターゲットクラスのデータ群を前記第2のクラスのデータ群として前記毒データ生成部に入力し、生成された毒ソースデータ群を、評価対象である分類システムのテストデータとして出力するテストデータ出力部と、前記ターゲットクラスのデータ群を前記第1のクラスのデータ群として、前記毒ソースデータ群を前記第2のクラスのデータ群として前記毒データ生成部に入力し、生成された毒ターゲットデータ群を、前記分類システムの訓練データとして出力する訓練データ出力部と、を備える。
【0008】
前記テストデータ出力部は、複数のソースクラスそれぞれのデータ群と、単一のターゲットクラスのデータ群とを入力として生成された、各ソースクラスの毒データ群を均等に出力し、前記訓練データ出力部は、前記単一のターゲットクラスのデータ群と、前記複数のソースクラスそれぞれの毒データ群とを入力として生成された、各ソースクラスに対応する毒データ群を均等に出力してもよい。
【0009】
前記損失は、クラス間で前記特徴量空間における距離を最小化するペア毎の、当該距離を総和した値として定義されてもよい。
【0010】
前記分類システムは、機械学習モデルにより画像を複数のクラスに分類するシステムであってもよい。
【0011】
本発明に係る安全性評価装置は、前記毒データ生成部、前記テストデータ出力部及び前記訓練データ出力部と、前記毒ターゲットデータ群を前記分類システムの訓練データに混入させ、汚染モデルを生成するモデル生成部と、前記毒ソースデータ群をテストデータとして、前記汚染モデルによる誤分類率を測定し、当該誤分類率に基づいて攻撃に対する安全性の評価値を出力する評価部と、を備える。
【0012】
本発明に係る評価用データ生成方法は、第1のクラスのデータ群に対して識別困難な変動量のトリガーを付与することで、第2のクラスのデータ群との特徴量空間における距離に関する損失を最小化するよう更新した前記第1のクラスの毒データ群を生成する毒データ生成アルゴリズムを用い、バックドア攻撃におけるソースクラスのデータ群を前記第1のクラスのデータ群として、ターゲットクラスのデータ群を前記第2のクラスのデータ群として前記毒データ生成アルゴリズムに入力し、生成された毒ソースデータ群を、評価対象である分類システムのテストデータとして出力するテストデータ出力ステップと、前記ターゲットクラスのデータ群を前記第1のクラスのデータ群として、前記毒ソースデータ群を前記第2のクラスのデータ群として前記毒データ生成アルゴリズムに入力し、生成された毒ターゲットデータ群を、前記分類システムの訓練データとして出力する訓練データ出力ステップと、をコンピュータが実行する。
【0013】
本発明に係る評価用データ生成プログラムは、前記評価用データ生成装置としてコンピュータを機能させるためのものである。
【発明の効果】
【0014】
本発明によれば、訓練データ及びテストデータの双方でトリガーが不可視となるバックドア攻撃に基づいて、機械学習システムの安全性をより厳密に評価することができる。
【図面の簡単な説明】
【0015】
図1】実施形態における安全性評価装置の機能構成を示す図である。
図2】従来の安全性評価方法のうち、安全性評価のための訓練データ及びテストデータの生成手順を示す図である。
図3】実施形態における安全性評価方法のうち、安全性評価のための訓練データ及びテストデータの生成手順を示す図である。
図4】実施形態における毒データ生成部が実行するGenerate-Invisible-Poison関数を例示する図である。
図5】実施形態における毒データ生成部が実行するFind-Closest-Pair関数を例示する図である。
【発明を実施するための形態】
【0016】
以下、本発明の実施形態の一例について説明する。
本実施形態では、機械学習モデルを用いた分類システムに対するバックドア攻撃を想定し、訓練時のみならずテスト時においてもトリガーが識別困難となるクリーンラベルバックドア攻撃に対しての安全性評価を可能とする。
ここでは、評価対象の分類システムとして、機械学習モデルにより画像を複数のクラスに分類するシステムを例に、トリガーが識別困難、すなわち不可視となる攻撃アルゴリズムを提示する。
【0017】
図1は、本実施形態における安全性評価装置1の機能構成を示す図である。
安全性評価装置1は、制御部10及び記憶部20の他、各種の入出力インタフェース等を備えた情報処理装置(コンピュータ)である。
なお、安全性評価装置1は、分類システムのバックドア攻撃に対する安全性の評価結果を出力するものとして構成するが、評価用データ(訓練データ及びテストデータ)を出力し、実際の評価ステップである機械学習モデルの訓練及びテストについては、他の処理装置が担ってもよい。
【0018】
制御部10は、安全性評価装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
具体的には、制御部10は、毒データ生成部11と、テストデータ出力部12と、訓練データ出力部13と、モデル生成部14と、評価部15とを備える。
【0019】
記憶部20は、ハードウェア群を安全性評価装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスクドライブ(HDD)等であってよい。
具体的には、記憶部20は、評価用データ生成プログラム及び安全性評価プログラムの他、評価対象である機械学習モデルのパラメータ、各クラスのサンプルデータ、生成された訓練データ及びテストデータ等を記憶する。
【0020】
毒データ生成部11は、第1のクラスのデータ(例えば、画像)群に対して識別困難な変動量のトリガー(例えば、不可視なパッチ画像)を付与することで、第2のクラスのデータ群との特徴量空間、すなわち機械学習モデルの内部の層における特徴量の距離に関する損失を最小化するよう更新した第1のクラスの毒データ群を生成する。
【0021】
ここで、損失は、クラス間で特徴量空間における距離を最小化するペア毎の、距離を総和した値として定義される。距離は、例えばL2距離、又はその二乗距離であってよい。
また、損失を最少化する手法としては、例えば、勾配最適化法が利用され、後述のアルゴリズムにより、毒データ生成部11は、第1のクラスのデータから所定以内の変動量で特徴量空間における距離を第2のクラスに近づけた毒データ群を生成する。
【0022】
テストデータ出力部12は、バックドア攻撃におけるsourceクラスのデータ群を第1のクラスのデータ群として、targetクラスのデータ群を第2のクラスのデータ群として毒データ生成部11に入力し、生成された毒sourceデータ群を、評価対象である分類システムのテストデータとして出力する。
【0023】
訓練データ出力部13は、targetクラスのデータ群を第1のクラスのデータ群として、テストデータ出力部12により出力された毒sourceデータ群を第2のクラスのデータ群として毒データ生成部11に入力し、生成された毒targetデータ群を、分類システムの訓練データとして出力する。
【0024】
なお、分類システムは、多クラス分類を行うものであってよく、バックドア攻撃におけるsourceクラスが複数設定されてもよい。この場合も、targetクラスは単一であり、トリガーが付与された複数のsourceクラスのデータ(画像)をtargetクラスに誤分類させる攻撃を想定する。
【0025】
この場合、テストデータ出力部12は、複数のsourceクラスそれぞれのデータ群と、単一のtargetクラスのデータ群とを入力として生成された、各sourceクラスの毒データ群を均等に出力する。
また、訓練データ出力部13は、単一のtargetクラスのデータ群と、複数のsourceクラスそれぞれの毒データ群とを入力として生成された、各sourceクラスに対応する毒データ群を均等に出力する。
【0026】
モデル生成部14は、訓練データ出力部13により出力された毒targetデータ群を分類システムの訓練データに混入させ、汚染モデルを生成する。
【0027】
評価部15は、テストデータ出力部12により出力された毒sourceデータをテストデータとして、汚染モデルによる誤分類率を測定し、この誤分類率に基づいて攻撃に対する安全性の評価値を出力する。
【0028】
図2は、本実施形態との対比のため、従来の安全性評価方法のうち、安全性評価のための訓練データ及びテストデータの生成手順を示す図である。
ここでは、画像の分類システムに対するクリーンラベルバックドア攻撃を対象としている。
【0029】
まず、source画像に対して、トリガーである可視のパッチ画像を付加することで、テストデータとしている。
次に、このテストデータとtarget画像との関係性を最適化することにより、トリガーが不可視の毒target画像が生成され、これが訓練データとして利用される。
【0030】
図3は、本実施形態における安全性評価方法のうち、安全性評価のための訓練データ及びテストデータの生成手順を示す図である。
従来と比較して、テストデータとなるsource側の毒データについても、トリガーが不可視となる。
【0031】
手順1において、テストデータ出力部12は、不可視となるsource側の毒データを、勾配最適化アルゴリズムを用いて作成し、テストデータとする。本アルゴリズムは、ランダムに抽出されたK個のsource画像とK個のtarget画像とを入力とし、K個のトリガーが不可視となる毒source画像を出力するものである。
【0032】
手順2において、訓練データ出力部13は、手順1と同様の勾配最適化アルゴリズムを用いて、K個のトリガーが不可視となる毒target画像を生成し、訓練データとする。ここでは、ランダムに抽出されたK個のtarget画像と、手順1で生成されたK個の毒source画像とを勾配最適化アルゴリズムに入力することで、K個のトリガーが不可視となる毒target画像が出力される。
【0033】
このようにして評価用データが生成されると、手順2で生成されたK個の毒target画像を訓練データに混入させることで汚染モデルが生成される。汚染モデルに対して、手順1で生成された毒source画像を入力したときにtargetクラスに誤分類された割合(攻撃成功率)を測定することで、評価対象である分類モデルの不可視クリーンラベルバックドア攻撃アルゴリズムに対する脆弱性を測定することができる。
【0034】
図4は、本実施形態における毒データ生成部11が実行するアルゴリズムを例示する図である。
前述の手順1及び手順2は、このGenerate-Invisible-Poison関数(Algorithm 1)を用いて実装される。
この関数は、aクラスのデータx、及びbクラスのデータxを入力とし、勾配最適化法により、aクラスの毒データ^xを出力するものである。
【0035】
1行目:毒データ生成部11は、K個の毒データ^x (i)を、クラスaのK個のデータx (i)(1≦i≦K)で初期化する。
2行目:毒データ生成部11は、予め設定された所定の回数(n回)だけ3~6行目を繰り返す。
3行目:毒データ生成部11は、後述のFind-Closest-Pair関数を用いて、^xとxとの1対1の写像m[i]を計算する。
【0036】
ここで、m[i]は、各ペア(^x (i),x (m[i]))に対する、モデルの特徴量空間f()におけるL2距離∥f(^x (i))-f(x (m[i]))∥が最小化するように選択される。こうすることで、モデルの特徴量空間において類似するクラスaとクラスbのデータのペアが得られる。
【0037】
4行目:毒データ生成部11は、3行目で得られたK個のペアに対して、特徴量空間における損失(二乗距離)の和Lを計算する。
5行目:毒データ生成部11は、Lの^x (i)方向の勾配∇^x (i)Lを計算し、損失Lが小さくなるように毒データの値^x (i)を更新する。ここで、ηは学習率である。
6行目:毒データの不可視性を担保するためのステップであり、毒データ生成部11は、毒データ^x (i)と、ラベルaの元のデータx (i)との各要素間の距離がεより大きくなった場合、丁度εとなるように修正する。
7行目:毒データ生成部11は、トリガーが不可視であるクラスaのK個の毒データ^xを出力する。
【0038】
図5は、本実施形態における毒データ生成部11が実行するFind-Closest-Pair関数(Algorithm 2)を例示する図である。
この関数は、前述のように、モデルの特徴量空間において類似するクラスaとクラスbのデータのペアを求めるものであり、具体的な処理手順は、次の通りである。
【0039】
1行目:毒データ生成部11は、[1,…,K]のK個の集合Jを定義する。
2行目:毒データ生成部11は、1からKまで、3~11行目を繰り返す。
3行目:毒データ生成部11は、二乗距離の最小値distminを∞に初期化する。
4行目:毒データ生成部11は、jminを∞に初期化する。
【0040】
5行目:毒データ生成部11は、Jに含まれる要素jについて、6~9行目を繰り返す。
6行目:毒データ生成部11は、i番目のクラスaの毒データ^x (i)に対して、j番目のクラスbのデータx (j)とのL2距離∥f(^x (i))-f(x (m[i]))∥の二乗を算出する。
7行目:毒データ生成部11は、算出された二乗距離distがdistminより小さい場合、8~9行目を実行する。
8行目:毒データ生成部11は、distminをdistに更新する。
9行目:毒データ生成部11は、jminに、現時点で二乗距離を最小とするjを保存する。
【0041】
10行目:毒データ生成部11は、写像m[i]にjminを格納する。
11行目:毒データ生成部11は、集合Jからjminを削除する。
12行目:毒データ生成部11は、写像mを出力する。
【0042】
次に、Generate-Invisible-Poison関数(Algorithm 1)を用いて、前述の手順1及び手順2を実装する方法を説明する。
まず、テストデータ出力部12は、パラメータのaをsourceクラス、bをtargetクラスとしてAlgorithm 1(毒データ生成部11)を呼び出す。こうすることで、Algorithm 1は、トリガーが不可視である毒source画像をK個出力する。
【0043】
続いて、訓練データ出力部13は、パラメータのxをK個のtarget画像、xをテストデータ出力部12が作成したK個の毒source画像としてAlgorithm 1(毒データ生成部11)を呼び出す。こうすることで、Algorithm 1は、トリガーが不可視である毒target画像をK個出力する。
【0044】
なお、K<Kの場合は、毒source画像をK-K個だけ複製することで、両クラスの画像枚数を一致させる。K>Kの場合も同様に画像を複製することで両クラスの画像枚数を一致させる。このようにして、モデルの訓練に使用するtarget毒画像、及びモデルのテスト(評価)に使用するsource毒画像の両方を生成することができる。
【0045】
また、多クラス分類システムに対して、マルチソースの攻撃、すなわち複数のsourceクラスから単一のtargetクラスへ誤分類させる攻撃を想定した場合の評価方法は、次のように構成できる。
【0046】
sourceクラス数をn(それぞれs,s,…,sと書く)とし、targetクラスは1つ(tと書く)とする。このとき、テストデータ出力部12は、aをs(1≦i≦n)クラス、bをtクラスとしてAlgorithm 1(毒データ生成部11)をn回呼び出す。こうすることで、各sourceクラスsに対して、トリガーが不可視である毒source画像がそれぞれK個(合計nK個)得られる。
【0047】
続いて、訓練データ出力部13は、各sourceクラスsのK個の毒source画像と、targetクラスtのK個の画像とを入力としてAlgorithm 1(毒データ生成部11)を呼び出す。こうすることで、各sourceクラスsに対して、トリガーが不可視である毒target画像がそれぞれK個(合計nK個)得られる。
【0048】
訓練データに毒target画像を混入させる際には、各sourceクラスsに結びついた毒target画像を均等に混入させるのが好ましい。よって、訓練データに混入させる毒データ数をpとしたとき、モデル生成部14は、各sourceクラスからp/n個ずつ毒target画像を混入させてよい。各sourceクラスのK個の毒target画像からp/n個を選択する方法としては、例えば、ランダムに選択する方法や、Find-Closest-Pair関数で選ばれた上位p/n個を選択する方法等がある。
また、攻撃に対する安全性を評価する際には、評価部15は、汚染されたモデルに対して、各sourceクラスsから均等に毒source画像を入力し、targetクラスへの誤分類率を測定する。
【0049】
本実施形態によれば、安全性評価装置1は、バックドア攻撃におけるsourceクラスのデータ群、及びtargetクラスのデータ群を入力として、特徴量空間における距離に関する損失を最小化するように毒sourceデータ群を生成し、評価対象である分類システムのテストデータとして出力する。また、安全性評価装置1は、targetクラスのデータ群、及び毒ソースデータ群を入力として、特徴量空間における距離に関する損失を最小化するように毒targetデータ群を生成し、分類システムの訓練データとして出力する。
したがって、安全性評価装置1は、訓練データ及びテストデータの双方でトリガーが不可視となるクリーンラベル型のバックドア攻撃を想定した評価用データを出力できる。これにより、機械学習システムの安全性をより厳密に評価することができる。
【0050】
また、安全性評価装置1は、テストデータとして、複数のsourceクラスそれぞれのデータ群と、単一のtargetクラスのデータ群とを入力として生成された、各sourceクラスの毒データ群を均等に出力し、訓練データとして、単一のtargetクラスのデータ群と、複数のsourceクラスそれぞれの毒データ群とを入力として生成された、各sourceクラスに対応する毒targetデータ群を均等に出力することもできる。
これにより、安全性評価装置1は、2値分類の場合に限らず、多クラス・マルチソースのバックドア攻撃を想定した評価用データを出力し、より強力な攻撃に対する機械学習システムの安全性評価を可能とする。
【0051】
安全性評価装置1は、毒データ生成するために勾配最適化法を利用するにあたり、クラス間での特徴量空間における距離を最小化するペア毎の、距離を総和した値として損失を定義する。これにより、安全性評価装置1は、トリガーが不可視の毒データを適切に生成できる。
【0052】
本実施形態では、分類システムとして、機械学習モデルにより画像を複数のクラスに分類するシステムを例示したが、これには限られず、識別困難(例えば不可視)なトリガーによるクリーンラベル型のバックドア攻撃が想定される様々な分類システムに適用可能である。
【0053】
なお、これにより、例えば、より厳密な評価に基づいて安全な分類システムを構築できることから、国連が主導する持続可能な開発目標(SDGs)の目標9「レジリエントなインフラを整備し、持続可能な産業化を推進すると共に、イノベーションの拡大を図る」に貢献することが可能となる。
【0054】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
【0055】
安全性評価装置1による安全性評価方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
【符号の説明】
【0056】
1 安全性評価装置
10 制御部
11 毒データ生成部
12 テストデータ出力部
13 訓練データ出力部
14 モデル生成部
15 評価部
20 記憶部
図1
図2
図3
図4
図5