IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌイーシー ラボラトリーズ ヨーロッパ ゲーエムベーハーの特許一覧

特表2024-508582バックドア誤分類による敵対的サンプルに対して機械学習モデルを安全にすること
<>
  • 特表-バックドア誤分類による敵対的サンプルに対して機械学習モデルを安全にすること 図1
  • 特表-バックドア誤分類による敵対的サンプルに対して機械学習モデルを安全にすること 図2
  • 特表-バックドア誤分類による敵対的サンプルに対して機械学習モデルを安全にすること 図3
  • 特表-バックドア誤分類による敵対的サンプルに対して機械学習モデルを安全にすること 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-28
(54)【発明の名称】バックドア誤分類による敵対的サンプルに対して機械学習モデルを安全にすること
(51)【国際特許分類】
   G06N 3/094 20230101AFI20240220BHJP
   G06F 21/57 20130101ALI20240220BHJP
【FI】
G06N3/094
G06F21/57
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023537385
(86)(22)【出願日】2021-12-07
(85)【翻訳文提出日】2023-06-19
(86)【国際出願番号】 EP2021084554
(87)【国際公開番号】W WO2022189018
(87)【国際公開日】2022-09-15
(31)【優先権主張番号】63/158,387
(32)【優先日】2021-03-09
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/342,571
(32)【優先日】2021-06-09
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】517451940
【氏名又は名称】エヌイーシー ラボラトリーズ ヨーロッパ ゲーエムベーハー
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】セバスティアン・アンドレイナ
(72)【発明者】
【氏名】ジョルジア・アズーラ・マルソン
(72)【発明者】
【氏名】ガッサン・カラメ
(57)【要約】
真正な機械学習モデルを敵対的サンプルに対して安全にするための方法は、分類されるサンプルにトリガを付加するステップと、トリガを使用してバックドア化されたバックドア化モデルを使用して、トリガを付加されたサンプルを分類するステップとを含む。さらなるステップにおいて、バックドア化モデルの出力が、バックドア化モデルのバックドアクラスと同一かどうかが判定され、かつ/または外れ値検出方法がロジットに適用され、真正なサンプルを使用して計算された正当なロジットと比較される。これらのステップは、別々のトリガと、それぞれ関連付けられたバックドア化モデルとを使用して、繰り返される。サンプルが敵対的なものかどうかを判定するために、バックドア化モデルの出力がそれぞれのバックドアクラスと同じでなかった回数が1つまたは複数の閾値と比較され、かつ/または外れ値検出方法を適用することによって判定された差が1つまたは複数の閾値と比較される。
【特許請求の範囲】
【請求項1】
敵対的サンプルに対して、真正な機械学習モデルを安全にするための方法であって、
a)分類されるサンプルにトリガを付加するステップと、
b)前記トリガを使用してバックドア化されたバックドア化モデルを使用して、前記トリガを付加された前記サンプルを分類するステップと、
c)ステップb)における前記バックドア化モデルの出力が前記バックドア化モデルのバックドアクラスと同一であるかどうかを判定し、かつ/または、ステップb)からのロジットと、前記トリガを付加して前記バックドア化モデルに適用された真正なサンプルを使用して計算された正当なロジットとを比較する外れ値検出方法を適用するステップと、
d)別々のトリガおよびそれぞれ前記別々のトリガに関連付けられたバックドア化モデルを使用してステップa)~c)を繰り返すステップと、
e)前記サンプルが敵対的サンプルかどうかを判定するために、前記バックドア化モデルの前記出力のそれぞれが、前記バックドア化モデルのそれぞれの前記バックドアクラスと同じでなかった回数を所定の閾値と比較し、かつ/または前記外れ値検出方法を適用することによって判定された差を差閾値と比較するステップと
を含む、方法。
【請求項2】
前記バックドア化モデルの前記出力のそれぞれが、前記バックドア化モデルの前記バックドアクラスのそれぞれと同じでなかった回数が前記閾値以下である場合、前記サンプルに関する分類要求の結果として、前記トリガを付加されていない前記サンプルを、前記真正な機械学習モデルを使用して分類するステップと、
前記バックドア化モデルの前記出力のそれぞれが、前記バックドア化モデルの前記バックドアクラスのそれぞれと同じでなかった回数が前記閾値よりも多い場合、前記サンプルを前記敵対的サンプルとして拒絶するステップと
をさらに含む、請求項1に記載の方法。
【請求項3】
前記バックドア化モデルの前記出力のそれぞれが、前記バックドア化モデルの前記バックドアクラスのそれぞれと同じでなかった回数が前記閾値よりも多い場合、前記サンプルに、不正に変更されたものとしてフラグを立てるステップをさらに含む、請求項2に記載の方法。
【請求項4】
前記閾値がゼロである、請求項3に記載の方法。
【請求項5】
前記バックドア化モデルの各々が、
前記それぞれのトリガを、前記真正な機械学習モデルによって認識可能なパターンとして生成するステップと、
複数の訓練サンプルに対して前記それぞれのトリガを追加するステップと、
前記それぞれのトリガを追加された前記訓練サンプルのターゲットクラスを、前記バックドアクラスのそれぞれに変更するステップと、
前記それぞれのトリガを追加された前記訓練サンプルを使用して、前記真正な機械学習モデルの別のバージョンを訓練するステップと
によって生成される、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記訓練が、前記それぞれのバックドア化モデルが90%以上の精度を得るまで実行される、請求項5に記載の方法。
【請求項7】
前記真正な機械学習モデルおよび前記真正な機械学習モデルの前記バージョンがそれぞれ訓練され、前記それぞれのトリガを追加された前記訓練サンプルを使用して前記真正な機械学習モデルの前記バージョンを訓練する前記ステップが、前記真正な機械学習モデルから前記それぞれのバックドア化モデルを作成するための追加の訓練である、請求項5に記載の方法。
【請求項8】
前記追加の訓練が、前記それぞれのトリガを追加された前記サンプルとともに真正なサンプルを用いて訓練するステップを含む、請求項7に記載の方法。
【請求項9】
前記分類するステップb)が、前記バックドア化モデルを使用して、前記トリガを付加された前記サンプルの分類における前記ロジットを抽出するステップを含み、前記バックドア化モデルの出力クラスが、前記サンプルが前記敵対的サンプルかどうかを判定するために使用されることはなく、ステップe)において、ステップb)からの前記ロジットが、前記それぞれのトリガを付加されて、前記バックドア化モデルの各々に適用された、複数の真正なサンプルを使用して計算されたものである、正当なロジットのセットと比較される、請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記ロジットの各々についての前記外れ値検出方法の結果が前記差閾値以下である場合、前記サンプルに関する分類要求の結果として、前記真正な機械学習モデルを使用して、前記トリガを付加されていな前記サンプルを分類するステップと、
前記ロジットの各々についての前記外れ値検出方法の前記結果が前記差閾値よりも大きい場合、前記サンプルを前記敵対的サンプルとして拒絶するステップと
をさらに含む、請求項9に記載の方法。
【請求項11】
前記外れ値検出方法がLocal Outlier Factorアルゴリズムを使用する、請求項10に記載の方法。
【請求項12】
前記真正な機械学習モデルがニューラルネットワークに基づいて画像分類用に訓練される、請求項1から11のいずれか一項に記載の方法。
【請求項13】
敵対的サンプルに対して、真正な機械学習モデルを安全にするためのシステムであって、
a)分類されるサンプルにトリガを付加するステップと、
b)前記トリガを使用してバックドア化されたバックドア化モデルを使用して、前記トリガを付加された前記サンプルを分類するステップと、
c)ステップb)における前記バックドア化モデルの出力が前記バックドア化モデルのバックドアクラスと同一であるかどうかを判定し、かつ/または、ステップb)からのロジットと、前記トリガを付加して前記バックドア化モデルに適用された真正なサンプルを使用して計算された正当なロジットとを比較する外れ値検出方法を適用するステップと、
d)別々のトリガを使用してステップa)~c)を繰り返すステップと、
e)前記サンプルが敵対的サンプルかどうかを判定するために、前記バックドア化モデルの前記出力のそれぞれが、前記バックドア化モデルのそれぞれの前記バックドアクラスと同じでなかった回数を所定の閾値と比較し、かつ/または前記外れ値検出方法を適用することによって判定された差を差閾値と比較するステップと
の実行を促進するために、単独で、または組合せにおいて構成される1つまたは複数のハードウェアプロセッサを備える、システム。
【請求項14】
前記バックドア化モデルの前記出力のそれぞれが前記バックドア化モデルの前記バックドアクラスのそれぞれと同じでなかった回数が前記閾値以下である場合、前記サンプルに関する分類要求の結果として、前記トリガを付加されていない前記サンプルを、前記真正な機械学習モデルを使用して分類し、
前記バックドア化モデルの前記出力のそれぞれが前記バックドア化モデルの前記バックドアクラスのそれぞれと同じでなかった回数が前記閾値よりも多い場合、前記サンプルを前記敵対的サンプルとして拒絶する
ようにさらに構成される、請求項13に記載のシステム。
【請求項15】
命令を有する、有体の非一時的コンピュータ可読媒体であって、前記命令が、1つまたは複数のプロセッサによって実行されたとき、
a)分類されるサンプルにトリガを付加するステップと、
b)前記トリガを使用してバックドア化されたバックドア化モデルを使用して、前記トリガを付加された前記サンプルを分類するステップと、
c)ステップb)における前記バックドア化モデルの出力が前記バックドア化モデルのバックドアクラスと同一であるかどうかを判定し、かつ/または、ステップb)からのロジットと、前記トリガを付加して前記バックドア化モデルに適用された真正なサンプルを使用して計算された正当なロジットとを比較する外れ値検出方法を適用するステップと、
d)別々のトリガを使用してステップa)~c)を繰り返すステップと、
e)前記サンプルが敵対的サンプルかどうかを判定するために、前記バックドア化モデルの前記出力のそれぞれが前記バックドア化モデルのそれぞれの前記バックドアクラスと同じでなかった回数を所定の閾値と比較し、かつ/または前記外れ値検出方法を適用することによって判定された差を差閾値と比較するステップと
を実行することにより、真正な機械学習モデルを敵対的サンプルに対して安全にする、有体の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人工知能(AI)用途において使用可能な、敵対的サンプルを検出するための、詳細には機械学習モデルおよびニューラルネットワークを安全にするための、方法、システムおよびコンピュータ可読媒体に関する。
【背景技術】
【0002】
機械学習は、漸進的な改善および発展により、多くの日常的な技術システムの不可欠な部分になった。機械学習は、大抵の場合、安全性に関するシナリオにおいて、技術システムの重要な部分として使用される。したがって、攻撃および/または強要下でのそのようなモデルの頑健性の欠如が、技術システムの安全障害をもたらす恐れがある。
【0003】
詳細には、過去数十年間において、ニューラルネットワークベースの画像分類は、その多様性、小さい実現要求および精度のために、関心が大いに高まっている。しかしながら、ニューラルネットワークは、十分には理解されておらず、誤分類を引き起こすために目視では判別できないように通常のサンプルに対して念入りに作られた修正である敵対的サンプルを使用する攻撃などの攻撃に対して脆弱である。
【0004】
近年、深層学習は、ビッグデータおよびより容易に利用可能な計算パワーの高まりによって加速され、急速に進歩した。しかしながら、深層学習は、予測における自信過剰のために、敵対的混乱に対して特に弱いことが判明した。機械学習コミュニティは、深層学習モデルを安全にする技術的課題に取り組んでいる。敵対者は、有効なデータサンプルに対して、念入りに作られた混乱を導入することにより、しばしば機械学習モデルを欺くことできる。混乱は、気付かれないようにできるだけ小さく、それでもなおモデルの本来の正確な予測を変化させるほど十分に大きく、選択される。たとえば、画像認識の分野では、これは、犬の画像を変化させて、変更された画像を視覚的には原本と判別不能に保ったまま、モデルの、犬の正確な予測を、ある別の動物の予測に変化させることができるであろう。
【0005】
実用モデルには、特に機械学習の統計的性質のために誤りが常に存在するので、ニューラルネットワークまたは機械学習モデルに対する攻撃から保護するには複数の技術的な課題がある。攻撃に対する既存の提案された防御は、敵対者が敵対的サンプルを作成するのをより困難にするために、モデルパラメータを秘密にすることに基づくものである。しかしながら、最近の研究により、サロゲートモデル(攻撃されるモデルに類似のクラスにおいて局所的に訓練されたモデル)上で作成された敵対的サンプルが、ターゲットモデル上に高い確率(>90%)で転移し、この特性は、サロゲートモデルが、ターゲットモデルと同一の内部レイアウト(たとえば異なる層数/層サイズ)を有しない場合にも、同一の精度を有しない場合にも(たとえばサロゲートモデル約90%対ターゲットモデル約99%)当てはまることが示された。サロゲートモデルはターゲットモデルのエミュレーションである。サロゲートモデルは、ターゲットモデルに対するブラックボックスアクセスを有する攻撃者によって、入力xの任意の選択肢を指定してモデルの予測y=f(x)を取得することができるように作成される。ターゲットモデルのパラメータは、通常、秘密に保たれるが、入出力の対(x, f(x))に対して機械学習モデルを訓練することにより、有効なサロゲートモデルを取得することができ、しかもサロゲートモデルをバイパスする最も敵対的なサンプルはターゲットモデルも欺くという意味で「有効である」ことが調査によって示されている。
【0006】
Goodfellow、Ian J.ら、"Explaining and Harnessing Adversarial Examples"、arXiv: 1412.6572、International Conference on Learning Representations 2015の会議資料、1~11頁(2015年3月20日)、Kurakin、Alexeyら、"Adversarial Examples in the Physical World"、arXiv: 1607.02533、Workshop at International Conference on Learning Representations 2017、1~14頁(2017年2月11日)、Carlini、Nicholasら、"Towards Evaluating the Robustness of Neural Networks"、arXiv: 1608.04644、Clinical Orthopedics and Related Research: 1~19頁(2018年8月13日)、Tramer、Florianら、"Ensemble Adversarial Training: Attacks and Defenses"、arXiv: 1705.07204、International Conference on Learning Representations 2018の会議資料、1~22頁(2018年1月30日)、Madry、Aleksanderら、"Towards Deep Learning Models Resistant to Adversarial Attacks"、arXiv: 1706:06083、International Conference on Learning Representations 2018の会議資料、1~28頁(2017年11月9日)、Dong、Yinpengら、"Boosting Adversarial Attacks with Momentum"、arXiv: 1710.06081、CVPR2018: 1~12頁(2018年3月22日)、Zhang、Hongyangら、"Theoretically Principled Trade-Off between Robustness and Accuracy"、arXiv: 1901:08573、International Conference on Machine Learningの会議資料: 1~31頁(2019年6月24日)、Liu、Xuanqingら、"Adv-BNN: Improved Adversarial Defense Through Robust Bayesian Neural Network"、arXiv: 1810.01279、Clinical Orthopedics and Related Research: 1~3頁(2019年5月4日)、Wong、Ericら、"Fast is better than free: Revisiting adversarial training"、arXiv: 2001.03994、ICLR 2020の会議資料、1~17頁(2020年1月12日)、Moosavi-Dezfooli、Seyed-Mohsenら、"DeepFool: a simple and accurate method to fool deep neural networks"、arXiv: 1511.04599、IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2016の議事録、1~9頁(2016年7月4日)、Wang、Yueら、"Stop-and-Go: Exploring Backdoor Attacks on Deep Reinforcement Learning-based Traffic Congestion Control Systems"、arXiv: 2003.07859、1~19頁(2020年6月8日)、およびZimmermann、Roland S.、"Comment on 'Adv-BNN: Improved Adversarial Defense Through Robust Bayesian Neural Network'"、arXiv: 1907.00895 (2019年7月2日)は、それぞれ、以下で参照される微細な攻撃(Goodfellow、Ian J.らの文献およびTramer、Florianらの文献)およびより強力な攻撃(Carlini、Nicholasらの文献およびMadry、Aleksanderらの文献)を含む種々の攻撃を論じている。前述の公刊資料の各々が、ここで、参照によって全体が本明細書に組み込まれる。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】Goodfellow、Ian J.ら、"Explaining and Harnessing Adversarial Examples"、arXiv: 1412.6572、International Conference on Learning Representations 2015の会議資料: 1~11頁(2015年3月20日)
【非特許文献2】Kurakin、Alexeyら、"Adversarial Examples in the Physical World"、arXiv: 1607.02533、Workshop at International Conference on Learning Representations 2017、1~14頁(2017年2月11日)
【非特許文献3】Carlini、Nicholasら、"Towards Evaluating the Robustness of Neural Networks"、arXiv: 1608.04644、Clinical Orthopedics and Related Research: 1~19頁(2018年8月13日)
【非特許文献4】Tramer、Florianら、"Ensemble Adversarial Training: Attacks and Defenses"、arXiv: 1705.07204、International Conference on Learning Representations 2018の会議資料、1~22頁(2018年1月30日)
【非特許文献5】Madry、Aleksanderら、"Towards Deep Learning Models Resistant to Adversarial Attacks"、arXiv: 1706:06083、International Conference on Learning Representations 2018の会議資料、1~28頁(2017年11月9日)
【非特許文献6】Dong、Yinpengら、"Boosting Adversarial Attacks with Momentum"、arXiv: 1710.06081、CVPR2018: 1~12頁(2018年3月22日)
【非特許文献7】Zhang、Hongyangら、"Theoretically Principled Trade-Off between Robustness and Accuracy"、arXiv: 1901:08573、International Conference on Machine Learningの会議資料: 1~31頁(2019年6月24日)
【非特許文献8】Liu、Xuanqingら、"Adv-BNN: Improved Adversarial Defense Through Robust Bayesian Neural Network"、arXiv: 1810.01279、Clinical Orthopedics and Related Research: 1~3頁(2019年5月4日)
【非特許文献9】Wong、Ericら、"Fast is better than free: Revisiting adversarial training"、arXiv: 2001.03994、ICLR 2020の会議資料、1~17頁(2020年1月12日)
【非特許文献10】Moosavi-Dezfooli、Seyed-Mohsenら、"DeepFool: a simple and accurate method to fool deep neural networks"、arXiv: 1511.04599、IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2016の議事録、1~9頁(2016年7月4日)
【非特許文献11】Wang、Yueら、"Stop-and-Go: Exploring Backdoor Attacks on Deep Reinforcement Learning-based Traffic Congestion Control Systems"、arXiv: 2003.07859、1~19頁(2020年6月8日)
【非特許文献12】Zimmermann、Roland S.、"Comment on 'Adv-BNN: Improved Adversarial Defense Through Robust Bayesian Neural Network'"、arXiv: 1907.00895 (2019年7月2日)
【発明の概要】
【課題を解決するための手段】
【0008】
一実施形態では、本発明は、敵対的サンプルに対して、真正な機械学習モデルを安全にするための方法を提供するものである。この方法は、分類されるサンプルにトリガを付加するステップa)と、トリガを使用してバックドア化されたバックドア化モデルを使用して、トリガを付加されたサンプルを分類するステップb)とを含む。ステップc)において、ステップb)におけるバックドア化モデルの出力がバックドア化モデルのバックドアクラスと同一であるかどうかが判定され、かつ/または、ステップb)からのロジットに対して、トリガを付加してバックドア化モデルに適用された真正なサンプルを使用して計算された正当なロジットと比較する外れ値検出方法が適用される。ステップd)によって、これらのステップa)~c)が、種々のトリガに関連付けられた種々のトリガおよびバックドア化モデルをそれぞれ使用して繰り返される。ステップe)において、サンプルが敵対的サンプルかどうかを判定するために、バックドア化モデルの出力のそれぞれが、バックドア化モデルのそれぞれのバックドアクラスと同じでなかった回数が所定の閾値と比較され、かつ/または外れ値検出方法を適用することによって判定された差が差閾値と比較される。
【0009】
本発明の実施形態が、例示の図を基に、以下でさらに詳細に説明される。本発明は例示的な実施形態に限定されない。本明細書で説明され、かつ/または示されたすべての特徴は、本発明の実施形態において、単独で、または種々の組合せに組み合わせて使用できる。本発明の様々な実施形態の特徴および利点は、添付の図面を参照して以下の詳細な説明を読めば明らかになるであろう。
【図面の簡単な説明】
【0010】
図1】本発明の一実施形態によるセットアップ段階を示す概略図である。
図2】本発明の一実施形態による評価段階を示す概略図である。
図3】本発明の一実施形態による、1つのバックドア化モデルを使用して改善された評価を示す概略図である。
図4】本発明の一実施形態による、バックドア化モデルの作成を示す概略図である。
【発明を実施するための形態】
【0011】
本発明の実施形態は、AIおよび機械学習の用途において、攻撃および敵対的サンプルに対するセキュリティを改善するものである。たとえば、敵対的サンプルによる攻撃を可能にするニューラルネットワークの欠陥および脆弱性は、そのような敵対的サンプルを検出して拒絶するために、機械学習モデルにおけるバックドアを注意深く生成して利用する本発明の実施形態によって対処される。詳細には、本発明の実施形態は、バックドア化モデル上で評価されたときのサンプルの挙動を、正当なサンプルの挙動に付加されたトリガと比較することによって敵対的サンプルを検出する。
【0012】
脅威モデル:
本発明の実施形態による脅威モデルは、敵対者が機械学習モデルMに対する十分な知見とアクセス権とを有するホワイトボックス攻撃のシナリオを考慮に入れる。敵対者は、無制限のクエリ-応答対によってモデルから自由に学習する。しかしながら、敵対者は、たとえばモデルを訓練するように使用されるデータを悪化させることによってモデルまたは訓練プロセスをごまかすことはできない。
【0013】
敵対者の目標は、y=M(S)と(正しく)分類されるサンプルSを所与として、y'(y≠y')と分類される敵対的サンプルS'を作成することである。SとS'との間の差は、人が目視では検出できないほど十分に小さくするべきであるので、敵対者が、元のサンプルSに施すことができる可能な修正は制限されている。これは、画素間距離の2乗平均を255のうち8に制限するrms(S'-S)<8などの距離の制限によってインスタンス化される。
【0014】
本発明の実施形態による解決策の目標は、サンプルSを所与として、Sが正当な(真正な)サンプルである場合y←M(S)を出力し、敵対的サンプルであると判定されたサンプルSは拒絶することである。
【0015】
攻撃のインスタンス化:
基本的に、攻撃は、モデルの予測を変化させるように導入される微細な混乱を推定することによって機械学習モデルを欺こうとするものである。ホワイトボックス攻撃は、分類器の応答に基づいて選択された有効な入力サンプルを選出し、各ステップにおいてモデルに小さな混乱を繰り返し照会することによってこれを達成する。したがって、攻撃者は、混乱が分類器にどのような影響を及ぼすかを予測し、適応して対応する。各ステップにおいて追加される混乱は、攻撃タイプに依拠して異なる。敵対者の最終的な目標は、本来のターゲットysを有する真正なサンプルsを、ターゲットクラスya≠ysに分類される敵対的サンプルsa(rms(s-sa)<Max_Perturbation)に変換することである。
【0016】
多くの既存の防御提案は、アドホック攻撃には効果を発揮するが、適応型敵対者、すなわち防御に関する知見に基づいて攻撃を適応させる敵対者を阻止することはできない。上記で論じられたように、この分野は現在大いに調査されており、考慮に入れるべき多くの既存の攻撃があるばかりでなく、防御方策を構築するときには、克服するべき多くの技術的な課題がある。既存の文献において論じられた攻撃の各々に関して、これらの攻撃の変更された適応型バージョンも存在して、深刻なセキュリティ脅威をもたらす。
【0017】
既存の防御方策の1つには、入力サンプルに、ランダム性を追加してフィルタを適用するなどの変換を実行することによって、可能性のある敵対的サンプルを駆除することを目指すものがある。この手法には、モデルの精度が低下することと、変換の知見を有する適応型攻撃者には防御がバイパスされてしまうこととの、2つの短所がある。別の既存の防御方策には、訓練セットに敵対的サンプルを含めることにより、攻撃に対する回復力を持たせるようにモデルを「強化する」ことに依拠するものがある。このタイプの防御も、アドホック攻撃には比較的うまく効果を発揮するが、なお60%の精度に達することができる、ターゲットを絞った攻撃にはあまり有効ではない。その上、これら既存の防御方策の各々の学習プロセスは非常に遅く、したがってセットアップするのがかなり困難である。これら既存の防御方策は、現在知られているものとは異なる攻撃方法を使用する攻撃に対して回復力があるかどうかということも不明瞭である。
【0018】
モデルの悪化:
機械学習モデルの別の一般的な攻撃にはモデルの悪化と称されるものがある。このタイプの攻撃は、訓練段階の前にモデルの訓練セットを悪化させることに頼る。悪化させるステップは、サンプルSを選択してトリガtを付加し、それらのターゲットクラスをytに変化させるように起こる。新たに作成されたサンプルにより、モデルは、特定のトリガtを認識し、トリガtを伴う画像をターゲットクラスytへと常に分類するように確実に訓練される。トリガは、黄色い四角などの簡単な視覚的パターンから、画像に追加される微細で判別不能な任意のパターンまで、任意のパターンが可能である。画像認識用途では、トリガは任意の画素パターンが可能である。しかしながら、トリガは、たとえば発話または単語認識といった他の分類問題についても定義できる(これらの実例では、トリガは、それぞれ特定の音響または単語/文でよい)。モデルの悪化による、モデルの精度に対する影響は最小限である。「バックドア」および「悪化」という用語は、本明細書では、互換性があるように使用される。
【0019】
敵対者が、訓練データへのアクセスを可能にする厳密なやり方は、機械学習分類器が配備される用途に依拠する。信頼できないソースから訓練データが収集される場合には、すべてのシナリオにおいてモデルが悪化される可能性がある。たとえば、GOOGLEの連合学習構造では、自発的ユーザによって提供されたデータを使用して共有モデルを訓練することが可能である。したがって、攻撃者を含む誰もが、訓練プロセスに参加することができる。前述のように、攻撃者は、サンプルに追加したトリガがサンプルの分類を変化させるやり方を調べるためにモデルまたはサロゲートモデルで実験することができ、それによってターゲットクラスを変化させる。
【0020】
既存の(訓練された)モデルを悪化させるために、本発明の実施形態による、データを悪化させる手法が使用され、必要とするのは、悪化させたサンプルを使用する数回の追加の訓練のみである。モデルを悪化させるために、最初に、モデルによって認識されるパターンであるトリガが生成される。次いで、訓練セットのある特定の画像にトリガが付加され、画像のターゲットクラスが、(たとえば画像のラベルを変更することによって)バックドアターゲットクラスに変更される。これに続いて、バックドアの精度が十分な値(たとえば90%の精度)に達するまで、真正な訓練データと悪化させた訓練データとの両方を含有する訓練が数回実行される。真正なデータは、有利には、バックドア化されたサンプルを用いて訓練された後のモデルが、依然として、バックドアを含有していないサンプルを正しく分類できることを確認するために、このステップにおいて使用ができる。このステップは、モデルの通常の訓練段階中に必要とされるような膨大な量のデータを必要とせず、精度に関して無視できるコストで、モデルに混乱を迅速に挿入することを可能にする。
【0021】
バックドア誤分類による防御:
現況技術に基づき、システムの十分な知見を持った敵対者からの敵対的サンプルに対して防御することは不可能であると推定される。機械学習モデルおよびその重みを完全に秘密に保つことも不可能であろう。したがって、本発明の実施形態は、パラダイムを変化させて、攻撃者の知見と防御者の知見との間にいくらかの非対称性をもたらすことを目的とするものである。この目的のために、本発明の実施形態は、可能性のある敵対的サンプルを検出するためにモデルを自ら悪化させることに基づく防御を提供するものである。詳細には、トリガtを付加されてバックドア化モデルMt上で評価された真正なサンプルは、バックドアターゲットクラスytに分類されると予期されるが、敵対的サンプルについては、バックドア化されたクラスではなく、依然としてターゲットの攻撃クラスyaに分類されることもある。
【0022】
敵対的サンプルに導入された混乱は、モデルの固有のバックドアのような、挙動における弱いトリガと見なすことが可能である。したがって、生成されたバックドア化モデルが、元のモデルに十分に近く、十分に弱いトリガを有する場合には、敵対的サンプルは、バックドア化モデル上のトリガを用いて評価されても依然として誤って分類される可能性がある。モデルにバックドアを追加することは比較的迅速であるため、敵対者は、バックドア化されていない本来のモデルMの十分な知見を有するが、バックドア化モデルやそれらのトリガについては何も知らないので、防御者にのみ既知の有利な機密情報である更新された脅威モデルを有利に使用することができる。
【0023】
この防御は、図1に示されるように、N個のモデルのそれぞれのトリガtNに基づき、敵対者には未知の、バックドア化されたバージョンのN個のモデルM'1..Nを迅速に生成することに頼るものである。その後、図2に表されるように、それぞれの分類要求rが、σ=0を使用する簡単なやり方で、以下の流れで処理される。
1. y0←M(s)
2. diff←0
3. For i in 1..N:
a. yi←M'i(s+ti)
b. If yi≠y0 then diff++
4. If diff>σ*N then REJECT
5. else return y0
ここで、diffはカウンタであって、diff++はカウンタに1を加え、また、この実施形態では、任意数N個のバックドア化されたバージョンのモデルM'1..Nにアルゴリズムを適用することができるように、閾値σは[0,1]の間の割合または値である。
【0024】
一実施形態では、本発明は、敵対的サンプルに対して、真正な機械学習モデルを安全にするための方法を提供するものである。この方法は、分類されるサンプルにトリガを付加するステップa)と、トリガを使用してバックドア化されたバックドア化モデルを使用して、トリガを付加されたサンプルを分類するステップb)とを含む。ステップc)において、ステップb)におけるバックドア化モデルの出力がバックドア化モデルのバックドアクラスと同一であるかどうかが判定され、かつ/または、ステップb)からのロジットに対して、トリガを付加してバックドア化モデルに適用された真正なサンプルを使用して計算された正当なロジットと比較する外れ値検出方法が適用される。ステップd)によって、これらのステップa)~c)が、種々のトリガに関連付けられた種々のトリガおよびバックドア化モデルをそれぞれ使用して繰り返される。ステップe)において、サンプルが敵対的サンプルかどうかを判定するために、バックドア化モデルの出力のそれぞれが、バックドア化モデルのそれぞれのバックドアクラスと同じでなかった回数が所定の閾値と比較され、かつ/または外れ値検出方法を適用することによって判定された差が差閾値と比較される。
【0025】
一実施形態では、この方法は、バックドア化モデルの出力のそれぞれが、バックドア化モデルのバックドアクラスのそれぞれと同じでなかった回数が閾値以下である場合、サンプルに関する分類要求の結果として、トリガを付加されていないサンプルを、真正な機械学習モデルを使用して分類するステップと、バックドア化モデルの出力のそれぞれが、バックドア化モデルのバックドアクラスのそれぞれと同じでなかった回数が閾値よりも多い場合、このサンプルを敵対的サンプルとして拒絶するステップとをさらに含む。
【0026】
一実施形態では、この方法は、バックドア化モデルの出力のそれぞれが、バックドア化モデルのバックドアクラスのそれぞれと同じでなかった回数が閾値よりも多い場合、サンプルに、不正に変更されたものとしてフラグを立てるステップをさらに含む。一実施形態では、閾値はゼロである。
【0027】
一実施形態では、バックドア化モデルの各々が、それぞれのトリガを、真正な機械学習モデルによって認識可能なパターンとして生成するステップと、複数の訓練サンプルに対してそれぞれのトリガを追加するステップと、それぞれのトリガを追加された訓練サンプルのターゲットクラスを、バックドアクラスのそれぞれに変更するステップと、それぞれのトリガを追加された訓練サンプルを使用して、真正な機械学習モデルの別のバージョンを訓練するステップとによって生成される。
【0028】
一実施形態では、訓練は、それぞれのバックドア化モデルが90%以上の精度を得るまで実行される。
【0029】
一実施形態では、真正な機械学習モデルおよび真正な機械学習モデルのバージョンがそれぞれ訓練され、それぞれのトリガを追加された訓練サンプルを使用して真正な機械学習モデルのバージョンを訓練するステップは、真正な機械学習モデルからそれぞれのバックドア化モデルを作成するための追加の訓練である。
【0030】
一実施形態では、追加の訓練は、それぞれのトリガを追加されたサンプルとともに真正なサンプルを用いて訓練するステップを含む。
【0031】
一実施形態では、分類するステップb)は、バックドア化モデルを使用して、トリガを付加されたサンプルの分類におけるロジットを抽出するステップを含み、バックドア化モデルの出力クラスが、サンプルが敵対的サンプルかどうかを判定するために使用されることはなく、ステップe)において、ステップb)からのロジットが正当なロジットのセットと比較され、正当なロジットは、それぞれのトリガを付加されてから複数の真正なサンプルを使用して計算され、バックドア化モデルの各々に適用されたものである。
【0032】
一実施形態では、この方法は、ロジットの各々についての外れ値検出方法の結果が差閾値以下である場合、サンプルに関する分類要求の結果として、真正な機械学習モデルを使用して、トリガを付加されていなサンプルを分類するステップと、ロジットの各々についての外れ値検出方法の結果が差閾値よりも大きい場合、サンプルを敵対的サンプルとして拒絶するステップとをさらに含む。一実施形態では、外れ値検出方法は、Local Outlier Factorアルゴリズムを使用する。
【0033】
一実施形態では、真正な機械学習モデルは、ニューラルネットワークに基づいて画像分類用に訓練される。
【0034】
別の実施形態では、本発明が提供する、真正な機械学習モデルを敵対的サンプルに対して安全にするためのシステムは、a)分類されるサンプルにトリガを付加するステップと、b)トリガを使用してバックドア化されたバックドア化モデルを使用して、トリガを付加されたサンプルを分類するステップと、c)ステップb)におけるバックドア化モデルの出力がバックドア化モデルのバックドアクラスと同一であるかどうかを判定し、かつ/または、ステップb)からのロジットと、トリガを付加した真正なサンプルを使用して計算され、バックドア化モデルに適用された正当なロジットとを比較する外れ値検出方法を適用するステップと、d)別々のトリガを使用してステップa)~c)を繰り返すステップと、e)サンプルが敵対的サンプルかどうかを判定するために、バックドア化モデルの出力のそれぞれが、バックドア化モデルのそれぞれのバックドアクラスと同じでなかった回数を所定の閾値と比較し、かつ/または外れ値検出方法を適用することによって判定された差を差閾値と比較するステップとの実行を促進するために、単独で、または組合せにおいて構成される1つまたは複数のハードウェアプロセッサを備える。
【0035】
一実施形態では、システムは、バックドア化モデルの出力のそれぞれが、バックドア化モデルのバックドアクラスのそれぞれと同じでなかった回数が閾値以下である場合、サンプルに関する分類要求の結果として、トリガを付加されていないサンプルを、真正な機械学習モデルを使用して分類し、バックドア化モデルの出力のそれぞれが、バックドア化モデルのバックドアクラスのそれぞれと同じでなかった回数が閾値よりも多い場合、このサンプルを敵対的サンプルとして拒絶するようにさらに構成される。
【0036】
さらなる実施形態では、本発明は、命令を有する有体の非一時的コンピュータ可読媒体を提供するものであり、命令は、1つまたは複数のプロセッサによって実行されると、本発明の一実施形態による任意の方法のステップの実行を促進することにより、真正な機械学習モデルを安全にする。
【0037】
図1は、本発明の一実施形態によるセットアップ段階10を概略図に示す。セットアップ段階10は、既存の(訓練された)機械学習モデル12から始まる。別々のトリガt1、t2、t3およびt4を付加された各サンプルを用いて、それぞれの場合において既存の機械学習モデル12を追加訓練することにより、既存の機械学習モデル12から複数のN個のバックドア化モデル15が生成される。トリガは、既存の機械学習モデル12によって認識可能なサンプルに追加された何らかの画素パターンであるが、多くは微細であって、人の観測者には、変更されていないサンプルと見分けがつかない。好ましくは、それぞれのバックドア化モデルM'1、M'2、M'3およびM'4は、互いに異なるそれぞれのトリガt1、t2、t3およびt4ならびにトリガt1、t2、t3およびt4に関連付けられる。また、好ましくは、様々なバックドア化モデル15を訓練するために使用されるデータサンプルは、バックドア化されるそれぞれの所与のモデルに関連のそれぞれのトリガを付加し、それに応じてターゲットバックドアクラスに対するラベルを変更することにより、同一の訓練セットから作成される。したがって、本発明の一実施形態によれば、これらの訓練サンプルは、同一のデータセットから生成できるが、バックドア化モデルにわたって異なる。
【0038】
図2は、本発明の一実施形態による評価段階20を概略的に示す。既存の真正な機械学習モデル12に対して、(たとえば分類要求に応答して画像を分類するために、)またはそのようなモデルを訓練するための入力として、サンプル22が提供され、真正なサンプルかそれとも敵対的サンプルであるかが評価される。それぞれのバックドア化モデルM'1、M'2、M'3およびM'4を訓練するために使用されたトリガt1、t2、t3およびt4がサンプル22に追加され、それぞれの場合において、それぞれのバックドア化モデル15に対する入力として適用され(サンプルsに追加されたトリガt1が、トリガt1を使用してバックドア化モデルM'1に対する入力として適用される、など)、出力y1、y2、y3、y4としてそれぞれのクラスをもたらす。バックドア化モデル15のうち1つからの出力yiのうち1つが、モデル15のそれぞれのターゲットバックドアクラス
【数1】
とは異なる回数が、合計dとして判定される。ターゲットバックドアクラス
【数2】
は、それぞれの場合において、それぞれのトリガtiに関連した分類結果によって判定される(たとえば、バックドアクラス
【数3】
はトリガt1に関連付けられたクラスに対応する、など)。この合計dは、任意数のバックドア化モデル15を使用するように正規化することが可能であり、所定の閾値σと比較される。この例ではσはゼロであり、したがって、バックドア化モデル15のすべてが、それぞれのバックドアクラス
【数4】
と等しいそれぞれの出力yiをもたらすと、サンプルは真正であると判定され、そうでない場合、サンプル22は、不正に変更された敵対的サンプルと判定されて拒絶され、好ましくは不正に変更されたものとしてフラグを立てられる。サンプル22は、真正なサンプルであると判定されると、トリガを付加されることなく、真正な機械学習モデルに対する入力として、または同モデルを訓練するために適用でき、分類要求の結果として出力を返すことができる。
【0039】
図3は、本発明の別の実施形態による評価段階30を概略的に示す。最初に、たとえばセットアップ段階中に、真正なサンプル32にトリガが追加され、それぞれの場合においてそれぞれのトリガに関連付けられたバックドア化モデル15を使用して分類される。図3は、真正なサンプルsgにトリガt1が追加され、トリガt1に関連付けられた、バックドア化モデルM'1を使用して分類されるステップの一例を示す。検出精度を改善するために、前述の実施形態と同様に、複数のトリガおよびそれぞれのトリガに関連付けられた複数のモデルが使用される。しかしながら、ここで、使用される、バックドア化モデル15を使用した分類の結果は、バックドア化モデル15の最後から2番目の層であるロジットlである。最後の層はsoftmax層と称され、廃棄されるかまたは評価から除外される。本発明の一実施形態によって、softmax層はサンプルが敵対的サンプルかどうかを判定するのに有効ないくつかの情報を廃棄することと、ロジットlを使用することによって敵対的サンプルを識別する精度がさらに改善できることとが発見された。ロジット
【数5】
は、それぞれの場合において、それぞれのトリガを追加したそれぞれの真正なサンプル32をそれぞれのバックドア化モデル15に適用して生成されたロジットのセットを指定し、真正なサンプル32の真正な挙動を表す。トリガを追加されたサンプル22は、真正なサンプルかそれとも敵対的サンプルか判定され、バックドア化モデル15に対する入力として適用されてロジットlsをもたらす。もたらされるロジットlsは関数is diff(たとえば、類似度もしくはL-distanceなどの距離測度、または好ましくはLocal Outlier Factor(LOF)アルゴリズム)によって、真正なロジットのセット
【数6】
と比較され、結果が所定の差閾値σよりも大きいかどうか判定される。関数is diffの結果が所定の差閾値σよりも大きい場合、サンプル22は敵対的サンプルと判定して拒絶され、好ましくは、不正に変更されたものとしてフラグを立てられる。そうでない場合、関数is diffの結果が所定の差閾値σ以下であると、サンプル22は真正なサンプルであると判定され、トリガなしで、真正な機械学習モデルに対する入力として、または同モデルを訓練するために適用され、分類要求の結果として出力を返すことができる。
【0040】
LOFは既存の異常検出方法であり、ポイントの、その近傍に対する近さを、近傍に特有の近さと比較して検査することにより、データセットにおける外れ値を識別する。Local Outlier FactorであるLOFk(x;N)は、整数パラメータk、ポイントxおよびいくつかの近傍のポイント{x1、...、xn}を所与として、xとそのk個の最も近い近傍の近さに基づき、逸脱度または「外れ度」を与えるものである。たとえば、LOFk(x;N)>1は、xが他のポイントよりもクラスタ化され難く、可能性として外れ値であることを指示する。
【0041】
一実施形態によれば、所定の差閾値σは、複数の真正なサンプルを使用する(すなわち
【数7】
をロジット
【数8】
に入力する)出力に基づくものであり、lsを有する別々のロジット
【数9】
の間の距離が、(たとえば、いくらかの許容差を加えた)ロジット間の平均距離よりも大きい場合、サンプルは敵対的であると報告される。
【0042】
図4は、セットアップ段階10における図1のバックドア化モデル15のうち1つを生成するための方法40を概略的に示す。最初に、画像24を含有しているサンプル22が、トリガ25を含むように変更される。次いで、変更されたサンプル22は、既存の機械学習モデル12をさらに訓練するために使用される。このプロセスは、同一のトリガを含むように変更された別々のサンプルを用いて、精度が、条件を満たす値に達する(たとえば、同一のトリガを有するサンプルの約90%が同様に誤って分類される)まで繰り返される。理想的には、バックドア化モデルは、所与のトリガを含有しているすべてのサンプルを、そのトリガに関連付けられたターゲットクラスに属するものと予測するべきである。好ましくは、新たに作成されるサンプルの数は約100以上である。たった約10のバックドア化モデルを用いて好結果を達成できることが既に分かっている。
【0043】
複数のバックドア化モデルを使用すると、システムの検出精度を全体として改善する。なおまた、本発明の実施形態によるこの解決策は、強い敵対的サンプルを検出するのに有効であり、敵対頑健性の場合にも適切な転移性を確保することが判明した。この解決策は、「微細な」敵対的サンプルに対する精度はそれほど高くないが、本発明の実施形態によって、多層の防御システムの最初の層として特に有利に適用できる。
【0044】
本発明の実施形態による、バックドア化モデルを使用するこの解決策が、上記で言及された既存の文献において論じられている攻撃に関して評価された。この評価は、本発明の実施形態によって与えられた敵対的サンプルに対して機械学習モデルのセキュリティにおける改善を実験的に実証した。「最強の」攻撃に対して、0%までのフォールスネガティブ率が達成され、フォールスポジティブ率は約6%であった。閾値σを増加させると、フォールスポジティブ率は減少するが、フォールスネガティブ率が増加する。
【0045】
出願人による別の手法には、比較することによって敵対的サンプルを検出するために、悪化されたモデルを使用する、転移性の防止を目指すものがある。詳細には、この別の手法は、悪化されたモデルは真正な相当モデルとは大いに異なることが可能であり、その間の差のために、「弱い」敵対的サンプルが誤って分類されることはないはずであるという事実に依存する。対照的に、本発明の実施形態は、トリガを付加して悪化されたモデル上で分類されたときの、真正なサンプルと敵対的サンプルとの間の挙動差に依存する。手法におけるこの相違は、結果に大きな相違をもたらす。以前の手法は微細な攻撃に対して特に優れているが、転移性に関して最適化された攻撃にはそれほど有効ではないであろう。他方では、転移性が向上すると、悪化されたモデル上で分類されたときの挙動差も増加するので、本発明の実施形態は、そのような攻撃を見つけるのに、より有効であると言える。これら別々の手法は、別々のタイプの攻撃に対するセキュリティを向上させて、機械学習コンピュータシステムおよびネットワークに、さらに優れた全体的なセキュリティを達成するために、相補的なやり方で使用されるであろう。
【0046】
改善された防御:
以前に提案された防御を上回る、本発明の一実施形態によるさらなる改善は、図3に示されるようにシステムの分類出力を使用する代わりに、またはそれに加えて、最後のロジットlに依存するものである。この実施形態では、必須ではないが、有利には、バックドア化モデルがバックドアクラスを出力するかどうかを判定することが可能である。この改善ではモデルの最後の層は廃棄される。モデルの最後の層はsoftmax層と称され、ニューラルネットワークの出力を実数から確率分布
【数10】
へとマッピングするために使用される。この層は、通常、分類に関するモデルの信頼度を理解するのに非常に有効ではあるが、敵対的サンプルを検出するために使用される可能性があるいくつかの情報を廃棄してしまう。本発明の実施形態は、ベクトルlに変更されたモデルの出力を当てる。そこで、防御は、モデルの真正な挙動を、(何千もの結果を含有できる可能性がある)ベクトル
【数11】
に計算するために使用される、真正なサンプルsgのプールに依存する。新規のサンプルsを受け取ると、次いで、受け取られたサンプルが真正なものであることを判断するために、このサンプルの出力lsが、真正な挙動の出力
【数12】
と比較される。
【0047】
関数is diff"は多数の方法において実施することが可能である。たとえば、L-distanceを使用することが可能である。より優れた結果をもたらす別の可能性には、Local Outlier Factor(LOF)などの外れ値検出システムを使用する、一般的には、入力のセットから、その最も近い近傍の密度に基づき、所与の入力が外れ値かどうかを判断するために使用される方法がある。LOFを使用して、精度における改善が実証された。微細な攻撃の精度は、95%のフォールスネガティブ率から、(Kurakin、Alexeyらの文献に記述されている攻撃に対する)40%~(Moosavi-Dezfooli、Seyed-Mohsenらの文献、およびGoodfellow、Ian Jらの文献に記述されている攻撃に対する)55%のフォールスネガティブ率へと改善された。強い攻撃の精度は、(Carlini、Nicholasらの文献およびMadry、Aleksanderらの文献に記述されている攻撃に対して)0%のフォールスネガティブ率と変わらず、一方、最適化された攻撃のフォールスネガティブ率も80%から約25%へと大いに減少した。さらなる最適化を使用すれば、セキュリティのさらなる改善を保証するために精度をさらに改善することも可能であった。微細な攻撃は、敵対的混乱を最小化する攻撃方策を表し、強い攻撃は、高信頼度の敵対的サンプルの生成を最適化する攻撃方策を表す。
【0048】
敵対的サンプルの例:
上記では、敵対者の強度が増したことを理由として、(たとえば敵対的サンプルをデジタル的に変化させる)デジタルバージョンの攻撃のみを基に説明されているが、物理的な敵対的サンプルも可能であり、本発明の実施形態は、そのような攻撃を検出するためにも同様に適用できることが示された。たとえば、悪意のあるパーティが、そのような攻撃により、一時停止標識にいくつかの些細な修正を追加することによって、自動運転車のアルゴリズムを、一時停止標識を別の標識として自動運転車に認識させるように欺く可能性がある。攻撃者の綿密なプロセスは、交通標識認識モデルのサロゲートモデルを生成するステップと、誤分類を招くように標識を変化させるための方法を調べるステップとを包含する可能性がある。次いで、攻撃者は、標的の自律運転システムを含む自動車を借りる/買い取ることにより、変更された標識にソフトウェアが対処するやり方を検査して、攻撃の成功率を評価することができる。この種の攻撃は、攻撃者に経済的利益をもたらさないことがあるが、重大な公的セキュリティリスクを提起し、事故の場合には、自動車の製造業者の責任に関係する可能性もある。
【0049】
同様に、そのような攻撃の使用事例は、顔認識システムを対象とすることもできるであろう。この場合、真正な対象者の認識を避ける(混乱攻撃)ため、またはサンプルを別の識別情報と誤って一致させる(扮装攻撃)ための、いずれかの敵対的サンプルが生成されて使用できる。そのような攻撃は、経済的な危害および/または個人的な危害をもたらす可能性があり、権限のない敵対者が安全装置または安全設備にアクセスできてしまう、技術的なセキュリティシステムの侵害の可能性もある。
【0050】
したがって、本発明の実施形態は以下の改善を提供するものである。
1.機械学習モデルのセキュリティを向上し、拡張セキュリティを有する機械学習モデルの用途を技術分野において改善する。
2.既知の真正なサンプルの参照のプールを使用することによって敵対的なサンプルと正当なサンプルとを区別するために、バックドア化モデルの出力を利用する。
3.敵対者に知られていないトリガを使用することにより、機械学習モデルのバックドア化変形形態を生成および利用して、トリガを付加されて、機械学習モデルのバックドア変形形態において評価された敵対的サンプルの分類の出力を、トリガを付加された真正なサンプルの分類の出力と比較することにより、敵対的サンプルを検出する。
4.n個の別々のトリガを使用して、敵対者に知られていない、モデルのN個のバックドア化変形形態を生成および使用して、N個のバックドア化変形形態におけるそれらのサンプルの分類の出力を検査することにより、敵対的サンプルを検出する。
5.既存の防御方策と比較して、(いくつかの真正なサンプルが誤って拒絶されることによる)精度の損失が軽減されて軽微になる。
6.既存の防御方策と比較して、防御の知見を有する敵対者に対するセキュリティが強化される。
【0051】
本発明の一実施形態によれば、敵対的サンプルに対して機械学習モデルのセキュリティを向上する方法は、以下の段階を含む。
セットアップ段階:
- 分類モデルMを受け取る
- ランダムトリガt1、..、tNを局所的に使用して、バックドア化モデルM'1、..、M'Nを生成する
検出段階:
- 分類するべきサンプルsを受け取ったとき:
〇それぞれのバックドア化モデルM'1、..、M'Nについて、トリガtiを付加された、バックドア化モデルM'iにおいて、サンプルsを分類する(yi←M'i(s+ti))
〇出力のセットy1..Nを使用して、出力がバックドアクラスと等しくない(yi
【数13】
)回数をカウントする。
〇誤分類の数が閾値σを上回ったらサンプルを拒絶し、不正に変更されたものとしてフラグを立て、そうでない場合、正当なモデル(M)に対する分類要求の結果を出力する
高度な検出:
- 追加のセットアップ:
〇複数の真正なサンプルsgを選択する
〇それぞれの真正なサンプルsgについて、バックドア化モデルM'i..Nの各々のサンプルsのロジットlを計算して、ロジット出力
【数14】
のセットに記憶する
- 検出:
〇分類するべきサンプルsを受け取ったとき、
■それぞれのバックドア化モデルM'i..Nについて、トリガtiを付加されたバックドアモデルM'iにおいてサンプルsを分類し(yi←M'i(s+ti))、liとしてロジットを抽出する
■それぞれのバックドア化モデルM'i..Nについて、それぞれのバックドア化モデルを使用して生成された正当なロジット
【数15】
のセットと比較されたロジットにおいて、外れ値検出方法(LOFなど)を適用する
■σ∈[0,1]が所定の閾値であるとき、σNよりも多くのバックドア化モデルMiがロジットベクトルliを外れ値として検出したら、対応するサンプルsが拒絶される。この機構は、特定の出力を与えるバックドア化モデルの数(図2におけるd)がこの実施形態ではカウントされないという意味で、図2に示された機構(この例では閾値σは0に設定されている)に類似である。図2の例では、この特定の出力はターゲットクラスと異なる分類であるが、この高度な検出の実施形態では、特定の出力は外れ値評決である。図2の実施形態と高度な検出との両方において、d>σNである場合サンプルが拒絶される。
【0052】
本発明の実施形態は、攻撃者と防御者との間の対称な知見を壊すことにより、適応型攻撃に対する頑健性を有利に提供するものである。バックドア化モデルのトリガは、攻撃者に対する未知の機密キーとして働く。
【0053】
本発明の実施形態は、図および前述の説明において詳細に示され、説明されてきたが、そのような図示および説明は実例または例示であって、限定的ではないと考えられるべきである。当業者なら以下の特許請求の範囲の範囲内で変更および修正をなすことができることが、理解されよう。詳細には、本発明は、上記および下記の別々の実施形態からの特徴の任意の組合せを用いる実施形態を、さらに包含するものである。加えて、本明細書における、本発明を特徴付ける記述は、本発明の一実施形態を指し、必ずしもすべての実施形態を指すわけではない。
【0054】
特許請求の範囲において使用される用語は、前述の説明と矛盾しない、最も広範かつ適切な解釈を得るように解釈されるべきである。たとえば、要素を紹介する際の"a"または"the"といった冠詞の使用は、複数の要素を除外するように解釈されるべきではない。同様に、「または」の詳説は包括的に解釈されるべきであり、「AまたはB」の詳説は、状況または先行の説明からAおよびBのうち1つだけを意図することが明らかでない場合、「AおよびB」を除外しない。さらに、「A、BおよびCのうち少なくとも1つ」の詳説は、A、BおよびCがカテゴリとして関係があろうとなかろうと、A、BおよびCから成る要素のグループのうち1つまたは複数と解釈されるべきであり、列挙された要素A、BおよびCの各々を少なくとも1つ必要とするように解釈されるべきではない。なおまた、「A、Bおよび/またはC」または「A、BまたはCのうち少なくとも1つ」の詳説は、列挙された要素からの、たとえば任意の単数のエンティティであるA、列挙された要素からの、たとえばAおよびBといった任意のサブセット、または要素A、BおよびCの全体のリストを含むと解釈されるべきである。
【符号の説明】
【0055】
10 セットアップ段階
12 機械学習モデル
15 バックドア化モデル
20 評価段階
22 サンプル
24 画像
25 トリガ
30 評価段階
32 真正なサンプル
40 バックドア化モデルを生成するための方法
図1
図2
図3
図4
【国際調査報告】