2024-154761 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2024-154761敵対的攻撃対策支援システム、方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024154761

(43)【公開日】2024-10-31

(54)【発明の名称】敵対的攻撃対策支援システム、方法、およびプログラム

(51)【国際特許分類】

G06N 3/094 20230101AFI20241024BHJP

G06T 7/00 20170101ALI20241024BHJP

【ＦＩ】

G06N3/094

G06T7/00 350B

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2023068791

(22)【出願日】2023-04-19

(71)【出願人】

【識別番号】000233055

【氏名又は名称】株式会社日立ソリューションズ

(74)【代理人】

【識別番号】110000279

【氏名又は名称】弁理士法人ウィルフォート国際特許事務所

(72)【発明者】

【氏名】トウシビ

(72)【発明者】

【氏名】秋良直人

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096HA11

5L096KA04

(57)【要約】

【課題】推論モデルの多様な攻撃パターンの敵対的攻撃に対する対策を支援する。
【解決手段】敵対的攻撃対策支援システムは、元画像から攻撃エンベディングをエンコードする攻撃エンコーダと、前記攻撃エンコーダから出力された前記攻撃エンベディングにランダムノイズを加えるノイズ追加部と、前記ランダムノイズが加えられた攻撃エンべディングを用いて推論モデルを攻撃するための攻撃画像を生成するジェネレータと、前記推論モデルを用いて前記攻撃画像に対する推論を行い、推論結果を取得する推論部と、前記攻撃画像と前記元画像との識別を行い、識別結果を算出する識別部と、前記推論結果および前記識別結果に基づいて前記攻撃画像を訓練するための損失である訓練損失を算出する損失算出部と、前記訓練損失に基づいて前記攻撃エンコーダ、前記ジェネレータ、および識別部を更新するパラメータ更新部と、を有する。
【選択図】図２

【特許請求の範囲】

【請求項1】

元画像から攻撃エンベディングをエンコードする攻撃エンコーダと、
前記攻撃エンコーダから出力された前記攻撃エンベディングにランダムノイズを加えるノイズ追加部と、
前記ランダムノイズが加えられた攻撃エンべディングを用いて推論モデルを攻撃するための攻撃画像を生成するジェネレータと、
前記推論モデルを用いて前記攻撃画像に対する推論を行い、推論結果を取得する推論部と、
前記攻撃画像と前記元画像との識別を行い、識別結果を算出する識別部と、
前記推論結果および前記識別結果に基づいて前記攻撃画像を訓練するための損失である訓練損失を算出する損失算出部と、
前記訓練損失に基づいて前記攻撃エンコーダ、前記ジェネレータ、および識別部を更新するパラメータ更新部と、
を有する敵対的攻撃対策支援システム。

【請求項2】

前記損失算出部は、
前記元画像と前記攻撃画像の差分を所定範囲に制限しようとするための第１の損失を計算し、
前記識別部が前記元画像と前記攻撃画像を正しく識別しようとし前記ジェネレータが前記元画像と前記攻撃画像を誤って識別させようとして敵対する第２の損失を計算し、
前記推論モデルによる推論に対する攻撃が成功する可能性を高めようとするための第３の損失を計算し、
前記攻撃が成功する可能性の高い攻撃画像のランダムノイズが加えられていない攻撃エンベディングとランダムノイズが加えられた攻撃エンベディングとの距離を小さくしようとするための第４の損失を計算し、
前記第１の損失と前記第２の損失と前記第３の損失と前記第４の損失を所定の重みづけをして合計することにより前記訓練損失を計算する、
請求項１に記載の敵対的攻撃対策支援システム。

【請求項3】

前記損失算出部による前記訓練損失の算出と前記パラメータ更新部による前記攻撃エンコーダ、前記ジェネレータ、および識別部の更新を所定の終了条件が満たされるまで繰り返して得られた前記攻撃エンコーダおよび前記ジェネレータを用いて攻撃画像を生成する攻撃画像生成部を更に有する、
請求項２に記載の敵対的攻撃対策支援システム。

【請求項4】

前記攻撃画像生成部により生成された攻撃画像を前記推論モデルに入力して推論結果を取得し、前記攻撃画像と元画像との識別を行って識別結果を算出し、前記推論結果および前記識別結果に基づいて前記攻撃画像を微調整するための損失である微調整損失を算出し、前記推論結果にて攻撃が成功しなかった場合、前記微調整損失に基づいて前記ジェネレータを更新し、更新された前記ジェネレータを前記攻撃画像生成部に用いて生成した攻撃画像を前記推論モデルに入力して推論結果および識別結果を取得するという一連の更新処理を攻撃が成功するまで繰り返し、前記更新処理の反復回数を前記推論モデルの評価結果として出力するロバスト性評価部を更に有する、
請求項３に記載の敵対的攻撃対策支援システム。

【請求項5】

前記ロバスト性評価部は、前記第１の損失と前記第２の損失と前記第３の損失を所定の重みづけをして合計することにより前記微調整損失を計算する、
請求項４に記載の敵対的攻撃対策支援システム。

【請求項6】

コンピュータが、
攻撃エンコーダにより元画像から攻撃エンベディングをエンコードし、
前記攻撃エンコーダから出力された前記攻撃エンベディングにランダムノイズを加え、
ジェネレータにより、前記ランダムノイズが加えられた攻撃エンべディングを用いて推論モデルを攻撃するための攻撃画像を生成し、
前記推論モデルを用いて前記攻撃画像に対する推論を行い、推論結果を取得し、
識別部により、前記攻撃画像と前記元画像との識別を行い、識別結果を算出し、
前記推論結果および前記識別結果に基づいて前記攻撃画像を訓練するための損失である訓練損失を算出し、
前記訓練損失に基づいて前記攻撃エンコーダ、前記ジェネレータ、および識別部を更新する、
敵対的攻撃対策支援方法。

【請求項7】

攻撃エンコーダにより元画像から攻撃エンベディングをエンコードし、
前記攻撃エンコーダから出力された前記攻撃エンベディングにランダムノイズを加え、
ジェネレータにより、前記ランダムノイズが加えられた攻撃エンべディングを用いて推論モデルを攻撃するための攻撃画像を生成し、
前記推論モデルを用いて前記攻撃画像に対する推論を行い、推論結果を取得し、
識別部により、前記攻撃画像と前記元画像との識別を行い、識別結果を算出し、
前記推論結果および前記識別結果に基づいて前記攻撃画像を訓練するための損失である訓練損失を算出し、
前記訓練損失に基づいて前記攻撃エンコーダ、前記ジェネレータ、および識別部を更新することを、
コンピュータに実行させるための敵対的攻撃対策支援プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、敵対的攻撃への対策を支援する技術に関する。

【背景技術】

【0002】

近年、ディープニューラルネットワーク（ＤＮＮ）が登場して以来、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）を利用したアプリケーションは劇的に増加している。以下、ＡＩを利用したアプリケーションをＡＩアプリケーションともいう。ＡＩアプリケーションに用いられるＡＩモデルは通常のデータの入力に対して高いパフォーマンスを発揮するが、その一方で敵対的攻撃に対しては脆弱であり、分類の誤りや誤検出を起こす可能性がある。したがって、実際のアプリケーション、特に自動運転や監視システムなど高いセキュリティが要求される分野においてＡＩアプリケーションをリリースする前には敵対的攻撃に対するロバスト性を評価することが重要である。

【0003】

非特許文献１には、画像の分類あるいは検出を行うＡＩモデルのロバスト性を評価する手法が開示されている。非特許文献１に開示された手法は、画像にパラメータフリー戦略で人間が認識できないノイズを追加することにより敵対的サンプルを生成し、評価対象のＡＩモデルで敵対的サンプルに対して分類あるいは検出を実行し、その分類あるいは検出の精度によってＡＩモデルのロバスト性を評価するというものである。

【0004】

特許文献１には、敵対的生成ネットワーク（ＧＡＮ：ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を用いて敵対的サンプルを生成する手法が記載されている。特許文献１に記載された手法では視覚的な変化を伴う敵対的サンプルが生成される。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】国際公開ＷＯ２０２０／１６５９３５号明細書

【非特許文献】

【0006】

【非特許文献1】Reliable Evaluation of Adversarial Robustness with an Ensemble of Diverse Parameter-free Attacks, Francesco Croce and Matthias Hein, ICML 2020

【発明の概要】

【発明が解決しようとする課題】

【0007】

ＡＩモデルのロバスト性の評価においては、人間の目で認識できるかどうかとは関係なく、様々な種類の特徴を持った敵対的サンプルを用いて評価を行うことが好ましい。しかしながら、非特許文献１に開示された手法は、元の画像との視覚的特徴の差異が比較的小さい敵対的サンプルを生成し、ＡＩモデルのロバスト性の評価に用いるものである。したがって、元の画像との視覚的特徴の差異が明らかであるにも関わらず人間にとって不自然でないというような類の画像による攻撃に対するＡＩモデルのロバスト性を適切に評価することができない。

【0008】

特許文献１には、元の画像とは異なる視覚的特徴を持った敵対的サンプルを生成する方法が記載されている。特許文献１に記載の方法によれば、上述したような非特許文献１に開示された手法におけるた攻撃パターンの欠如を克服する可能性がある。しかしながら、特許文献１の手法は、攻撃を成功させることができる最も簡単な攻撃パターンの敵対的サンプルを生成する傾向を持つものであり、多様な攻撃パターンの敵対的サンプルを生成するものではない。

【0009】

本開示に含まれるひとつの目的は、ＡＩモデルの多様な攻撃パターンの敵対的攻撃に対する対策を支援する技術を提供することである。

【課題を解決するための手段】

【0010】

本開示に含まれるひとつの態様による敵対的攻撃対策支援システムは、元画像から攻撃エンベディングをエンコードする攻撃エンコーダと、前記攻撃エンコーダから出力された前記攻撃エンベディングにランダムノイズを加えるノイズ追加部と、前記ランダムノイズが加えられた攻撃エンべディングを用いて推論モデルを攻撃するための攻撃画像を生成するジェネレータと、前記推論モデルを用いて前記攻撃画像に対する推論を行い、推論結果を取得する推論部と、前記攻撃画像と前記元画像との識別を行い、識別結果を算出する識別部と、前記推論結果および前記識別結果に基づいて前記攻撃画像を訓練するための損失である訓練損失を算出する損失算出部と、前記訓練損失に基づいて前記攻撃エンコーダ、前記ジェネレータ、および識別部を更新するパラメータ更新部と、を有する。

【発明の効果】

【0011】

本開示に含まれるひとつの態様によれば、多様な攻撃パターンの攻撃画像に対するＡＩモデルのロバスト性の評価を支援することが可能になる。

【図面の簡単な説明】

【0012】

【図1】本実施形態におけるコンピュータシステムのブロック図である。

【図2】攻撃生成モデル学習部のブロック図である。

【図3】攻撃画像生成部のブロック図である。

【図4】ＡＩモデルロバスト性評価部のブロック図である。

【図5】ＡＩモデルロバスト性評価部の動作を示すフローチャートである。

【発明を実施するための形態】

【0013】

以下、図面を参照して、本発明の実施形態について説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付し適宜説明を省略する。

【0014】

＜ハードウエア構成＞
本実施形態にて用いられる装置は、任意の適切なコンピュータシステムにソフトウェアプログラムを適用することによ実現されてもよい。

【0015】

図１は、本実施形態におけるコンピュータシステムのブロック図である。

【0016】

コンピュータシステム３００は、主要コンポーネントとして、１つ以上のプロセッサ３０２、メモリ３０４、端末インターフェース３１２、ストレージインターフェース３１４、Ｉ／Ｏ（入出力）デバイスインターフェース３１６、およびネットワークインターフェース３１８を有している。これらのコンポーネントは、メモリバス３０６、Ｉ／Ｏバス３０８、バスインターフェース部３０９、およびＩ／Ｏバスインターフェース部３１０を介して相互的に接続される。

【0017】

プロセッサ３０２は、１つまたは複数の汎用プログラマブル中央処理装置（ＣＰＵ）３０２Ａおよび３０２Ｂを含んでもよい。例えば、コンピュータシステム３００は複数のプロセッサを備えてもよい。他の例として、コンピュータシステム３００は単一のＣＰＵを備えていてもよい。プロセッサ３０２は、メモリ３０４に格納された命令を実行する装置であり、不図示のオンボードキャッシュを含んでもよい。

【0018】

メモリ３０４は、データおよびプログラムを記憶するためのランダムアクセス可能な半導体メモリ、記憶装置、揮発性の記憶媒体、または不揮発性の記憶媒体を含んでもよい。メモリ３０４は、以下に説明する各部の機能を実現するソフトウェアプログラム、ソフトウェアモジュール、およびデータ構造のすべてまたは一部を格納してもよい。例えば、メモリ３０４は、攻撃生成モデル学習部３４０、攻撃画像生成部３５０、およびＡＩモデルロバスト性評価部３６０の機能を実現するソフトウェアモジュールを格納していてもよい。各部とソフトウェアモジュールの構成単位は一致していなくてもよい。例えば、複数の部分を１つのソフトウェアモジュールにより実現してもよいし、１つの部分を複数のソフトウェアモジュールにより実現してもよい。

【0019】

ある態様として、攻撃生成モデル学習部３４０、攻撃画像生成部３５０、およびＡＩモデルロバスト性評価部３６０は、それらの機能を実現するソフトウェアプログラムをプロセッサにより実行するプロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および／または他の物理ハードウェアデバイスにより一部または全部をハードウェアで実現されてもよい。また、ある態様として、攻撃生成モデル学習部３４０、攻撃画像生成部３５０とＡＩモデルロバスト性評価部３６０は、ソフトウェアプログラムの命令または記述以外のデータを含んでもよい。また、ある態様として、不図示のカメラ、センサ、または他のデータ入力デバイスが、バスインターフェース部３０９、プロセッサ３０２、またはコンピュータシステム３００の他のハードウェアと直接通信するように提供されてもよい。攻撃生成モデル学習部３４０、攻撃画像生成部３５０、およびＡＩモデルロバスト性評価部３６０の詳細については図２、３、４を参照しながら後述する。

【0020】

コンピュータシステム３００は、バスインターフェース部３０９を含んでもよい。バスインターフェース部３０９は、プロセッサ３０２、メモリ３０４、表示システム３２４、およびＩ／Ｏバスインターフェース部３１０間の通信を行う。Ｉ／Ｏバスインターフェース部３１０はＩ／Ｏバス３０８と接続されていてもよい。Ｉ／Ｏバス３０８にはデータの転送が可能なように様々な入出力部が接続されている。Ｉ／Ｏバスインターフェース部３１０は、Ｉ／Ｏバス３０８を介して、一般にＩ／Ｏプロセッサ（ＩＯＰ）あるいはＩ／Ｏアダプタ（ＩＯＡ）として知られる複数のＩ／Ｏインターフェース部（３１２，３１４，３１６、および３１８）と通信してもよい。

【0021】

表示システム３２４は、表示装置３２６に画像を表示する処理を実行するシステムであり、不図示の表示コントローラと表示メモリの一方または両方を含んでもよい。表示コントローラは、ビデオとオーディオの両方のデータを表示装置３２６に提供することができる。表示システム３２４は、単独のディスプレイ画面、テレビ、タブレット、または携帯型デバイスなどの表示装置３２６に接続されてもよい。

【0022】

また、コンピュータシステム３００は、データを収集し、プロセッサ３０２に当該データを提供するように構成された１つまたは複数のセンサ等の不図示のデバイスを含んでもよい。例えば、コンピュータシステム３００は、心拍数データやストレスレベルデータ等を収集するバイオメトリックセンサ、湿度データ、温度データ、圧力データ等を収集する環境センサと、加速度データ、運動データ等を収集するモーションセンサとを含んでもよい。これ以外の種類のセンサも使用可能である。

【0023】

Ｉ／Ｏインターフェース部（３１２，３１４，３１６、および３１８）は、様々なストレージまたはＩ／Ｏデバイスと通信する機能を備える。例えば、端末インターフェース３１２は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、または他のポインティングデバイス等のユーザ入力デバイスのようなユーザＩ／Ｏデバイス３２０の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザＩ／Ｏデバイス３２０およびコンピュータシステム３００に対して入力データや指示を入力し、コンピュータシステム３００からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザＩ／Ｏデバイス３２０を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されてもよい。

【0024】

ストレージインターフェース３１４は、１つまたは複数のディスクドライブや直接アクセスするストレージ装置３２２（通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイまたは他のストレージ装置であってもよい）の取り付けが可能である。ひとつの態様として、ストレージ装置３２２は、任意の二次記憶装置として実装されてもよい。メモリ３０４の内容は、ストレージ装置３２２に記憶され、必要に応じてストレージ装置３２２から読み出されてもよい。Ｉ／Ｏデバイスインターフェース３１６は、プリンタ、ファックスマシン等の他のＩ／Ｏデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース３１８は、コンピュータシステム３００と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク３３０であってもよい。

【0025】

ひとつの態様として、コンピュータシステム３００は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、またはサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム（クライアント）からの要求を受信するデバイスであってもよい。他の実施形態では、コンピュータシステム３００は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、または任意の他の適切な電子機器であってもよい。

【0026】

次に、図２を参照して本実施形態に係る攻撃生成モデル学習部３４０について説明する。

【0027】

図２は、攻撃生成モデル学習部３４０のブロック図である。

【0028】

攻撃生成モデル学習部３４０は、攻撃エンコーダ１０３、ノイズ追加部１０５、ジェネレータ１０７、識別部１１０、損失算出部１１１、およびパラメータ更新部１１２を有している。

【0029】

元画像１０１とクラス条件ｃ１０２が攻撃エンコーダ１０３に入力される。元画像１０１は、攻撃対象とするＡＩモデルの生成に用いられた学習データセット内の元の画像である。ＡＩモデルは、画像からの物体検出あるいは画像の分類を行う推論モデルである。元画像１０１には、攻撃エンコーダに入力される前に、画像の反転、トリミング、回転などいくつかの処理を施してデータ拡張を行ってもよい。クラス条件ｃ１０２は、攻撃の対象とするクラスを示す情報である。以下、攻撃の対象とするクラスを対象クラスと呼ぶ場合がある。対象クラスは、すなわち、攻撃によってＡＩモデルが誤検出するクラスまたは誤った分類を行うクラスである。対象クラスは、ＡＩモデルが画像を分類できる任意のクラスであってよいし、分類されない背景を示すクラスであってもよい。攻撃エンコーダ１０３は、元画像１０１を、攻撃エンベディングｅ１０４と呼ばれる特徴ベクトルへとマッピングするＣＮＮ（畳み込みニューラルネットワーク）であり、元画像１０１の画像表現とクラス条件ｃ１０２と元画像１０１に適した攻撃戦略とをベクトルにエンコードする。攻撃エンコーダ１０３は、特に限定されないが、例えば、入力された元画像１０１およびクラス条件ｃ１０２に最も適した攻撃パターンの攻撃エンベディングｅ１０４を生成する。最も適した攻撃パターンとはすなわち攻撃に成功する可能性が最も高い攻撃パターンである。

【0030】

ノイズ追加部１０５は、攻撃エンコーダ１０３により生成された攻撃エンベディングｅ１０４に複数のランダムノイズε １０６をそれぞれ加える。ランダムノイズεは、一様分布またはガウス分布であってよいが、これらに限定されることはない。攻撃エンベディングｅ１０４にそれぞれ異なるランダムノイズε １０６が加えられた複数の攻撃エンベディングはジェネレータ１０７に入力される。

【0031】

ジェネレータ１０７は、クラス条件ｃ１０２と複数の攻撃エンベディングとを入力として複数の攻撃画像Ｇ（ｅ，ｃ，ε）１０８を生成し、複数の攻撃画像１０８をを識別部１１０に出力する。ジェネレータ１０７は、攻撃エンベディングを攻撃画像１０８にデコードするＣＮＮである。

【0032】

推論部１０９は、攻撃対象のＡＩモデルを備え、ＡＩモデルを用いて画像からの物体検出あるいは画像の分類を行い、その検出あるいは分類の結果を取得する。以下、検出あるいは分類の結果を推論結果という場合がある。識別部１１０は、攻撃画像１０８と元画像１０１との識別を行い、識別の結果を取得する。識別は、人間の目で見た視覚的な区別を行うことである。以下、攻撃画像１０８と元画像１０１との識別の結果を識別結果という場合がある。

【0033】

損失算出部１１１は、推論部１０９による推論結果および識別部１１０による識別結果に基づいて、攻撃画像１０８を評価するための損失を算出する。パラメータ更新部１１２は、損失算出部１１１で算出された損失を最適化するように攻撃エンコーダ１０３、ジェネレータ１０７、および識別部１１０のパラメータを更新する。損失算出部１１１による損失の算出およびパラメータ更新部１１２によるパラメータの更新の詳細について以下に述する。

【0034】

攻撃画像１０８は、元画像１０１に多少の変更を加えたものとなるが、元画像１０１と全く異なる画像にすることは好ましくないため、元画像１０１と攻撃画像１０８の差分を適切な範囲に制限するために、式（１）のように損失Ｌ_ｄｉｆを設計する。損失Ｌ_ｄｉｆ（第１の損失）は、元画像１０１と攻撃画像１０８の差分を適切な範囲Ｍに制限するための損失である。以下、損失Ｌ_ｄｉｆを第１の損失という場合がある。

【0035】

【数1】

ここで、ｘは元画像である。Ｅ_εは、元画像ｘと、複数のランダムノイズεにより生成された複数の攻撃画像Ｇ（ｅ，ｃ，ε）１０８との差分の平均値である。

【0036】

次に、ジェネレータ１０７と識別部１１０は、通常のＧＡＮのように、２プレーヤーによるミニマックス法のゲームで互いに競争することになる。識別部１１０は、元画像１０１と攻撃画像１０８を正しく識別しようとする。一方、ジェネレータ１０７は、よりリアルで高品質な攻撃画像１０８を生成して識別部１１０をだまそうとする。そのために、損失Ｌ_Ｇおよび損失Ｌ_ＧＡＮは、それぞれ以下の式（２）および式（３）に示すように設計される。以下、損失Ｌ_ＧＡＮを第２の損失という場合がある。

【0037】

【数2】

【0038】

【数3】

ここで、Ｄ（ｘ）は、識別部１１０による元画像ｘが正しく識別される確率を示す。また、Ｄ（Ｇ（ｅ，ｃ，ε））は、生成された攻撃画像Ｇ（ｅ，ｃ，ε）が誤って識別される確率を示す。識別部Ｄは、Ｌ_ＧＡＮを最大化しようとする。ジェネレータ１０７は、Ｌ_Ｇを最小化しようとする。

【0039】

次に、推論部１０９における攻撃画像１０８に対する物体検出あるいは画像の分類の推論結果から攻撃が成功したか否かを判定することができる。例えばＡＩモデルが分類タスクのモデルである場合、ＡＩモデルが攻撃画像１０８をクラス条件ｃに示されている対象クラスに誤って分類したら攻撃は成功したと判断できる。また、ＡＩモデルが検出タスクのモデルである場合、ＡＩモデルが攻撃画像１０８から対象クラスの物体を誤って検出したら攻撃は成功したと判断できる。したがって、損失Ｌ_ＡＩは式（４）に示すように設計される。以下、損失Ｌ_ＡＩを第３の損失という場合がある。

【0040】

【数4】

ここで、ＡＩ（Ｇ（ｅ，ｃ，ε），ｃ）は、クラス条件ｃと、生成された攻撃画像１０８のＡＩモデルによる推論結果との差分を意味する。ＡＩモデルが分類タスクのモデルである場合、差分を最小化しようとする。ＡＩモデルが検出タスクのモデルである場合、差分を最大化しようとする。

【0041】

次に、複数の攻撃画像Ｇ（ｅ，ｃ，ε）に対するＡＩモデルによる推論の結果ＡＩ（Ｇ（ｅ，ｃ，ε），ｃ）から、複数の攻撃画像Ｇ（ｅ，ｃ，ε）のなかで攻撃の成功に最も近い攻撃画像Ｇ（ｅ，ｃ，ε_＋）が選択される。例えば、推論結果の精度に基づいて攻撃の成功に最も近い攻撃画像Ｇ（ｅ，ｃ，ε_＋）を選択してもよい。そして、より良い攻撃エンベディングｅをエンコードするために攻撃エンコーダ１０３を更新する損失Ｌ_ｅは、式（５）に示すように設計される。以下、損失Ｌ_ｅを第４の損失という場合がある。

【0042】

【数5】

ここで、円の中に点が打たれた記号は、攻撃エンベディングｅを埋め込んだ攻撃とランダムノイズεとの組み合わせ計算を意味する演算子である。これは攻撃エンベディングｅ１０４に対するランダムノイズεの追加を意味する。攻撃エンベディングｅ１０４に対するランダムノイズεの追加は、攻撃エンベディングｅ１０４に対してランダムノイズεを加算することであってもよいし、乗算することであってもよい。

【0043】

損失算出部１１１は、それぞれ異なる重みを表すハイパーパラメータω_１、ω_２、ω_３を用いて、上述した第１、２、３、４の損失の損失関数から、式（６）に示す総合的な損失Ｌを算出する。以下、損失Ｌを訓練損失という場合がある。

【0044】

【数6】

そして、パラメータ更新部１１２は、訓練損失である損失Ｌに基づいて勾配を計算し、勾配を用いた最適化アルゴリズムによって、攻撃エンコーダ１０３、ジェネレータ１０７、および識別部１１０のＣＮＮモデルのパラメータを更新する。

【0045】

訓練損失を算出しパラメータを更新するという学習を所定の終了条件が満たされるまで複数回繰り返すと、攻撃エンコーダ１０３は、適切な攻撃エンベディングｅ１０４をエンコードし、攻撃を成功させるように訓練される。終了条件として、例えば、推論結果の精度に閾値を設けてよいし、反復回数に上限を設けてもよい。そして、ジェネレータ１０７は、高品質でリアルな攻撃画像１０８を生成するように訓練される。また、識別部１１０は、実際の画像と生成された攻撃画像１０８を区別するように訓練される。このようにして訓練された攻撃エンコーダ１０３と訓練されたジェネレータ１０７は、攻撃画像生成部３５０で使用される。また、訓練された攻撃エンコーダ１０３、訓練されたジェネレータ１０７、および訓練された識別部１１０は、ＡＩモデルロバスト性評価部３６０で使用される。

【0046】

次に、図３を参照して、攻撃画像生成部３５０について説明する。

【0047】

図３は、攻撃画像生成部３５０のブロック図である。図３を参照すると、攻撃画像生成部３５０は、攻撃エンコーダ１０３とジェネレータ１０７を有している。

【0048】

攻撃エンコーダ１０３とジェネレータ１０７は、攻撃生成モデル学習部３４０にて訓練されたものである。元画像２０１は、攻撃画像２０４を生成する元の画像である。クラス条件ｃ２０２は、攻撃の対象クラスを示す情報である。クラス条件ｃ２０２の対象クラスは、攻撃生成モデル学習部３４０にて用いられたクラス条件ｃ１０２に示された対象クラスと同じであってもよい。攻撃エンコーダ１０３は、元画像２０１とクラス条件ｃ２０２に対して最適な攻撃エンベディングｅ２０３をエンコードすることができる。ジェネレータ１０７は、その攻撃エンベディングｅ２０３に基づいて高品質でリアルな攻撃画像２０４を生成することができる。

【0049】

次に、図４を参照して、ＡＩモデルロバスト性評価部３６０について説明する。

【0050】

ＡＩモデルを評価するには、まず訓練済みの攻撃エンコーダと訓練済みのジェネレータによって攻撃画像を生成し、生成された攻撃画像を評価対象のＡＩモデルに入力し、ＡＩモデルから推論結果を取得する。一般には、推論結果の適合率や再現率などの精度が評価基準としてそのまま使用される。ただし、この評価方法による評価は、ジェネレータの能力に大きく依存する。つまり、ジェネレータがどれだけ好適に訓練されているかが評価結果に大きな影響を与える。ジェネレータのネットワーク内の全てのパラメータは訓練によって得ることが可能であるが、その訓練の反復回数は経験に基づいて人間によって決定される。したがって、ジェネレータをどれだけ好適に訓練することができるかは人間の経験や能力に依存してしまう。

【0051】

これに対して本実施形態では、ジェネレータの微調整（訓練）の反復回数をＡＩモデルのロバスト性の評価基準としている。具体的には、事前に訓練済みのジェネレータ１０７を使用して攻撃画像４０４を生成し、その攻撃画像４０４で攻撃に失敗した場合、攻撃に成功する攻撃画像４０４を生成できるようになるまでジェネレータ１０７の微調整（訓練）を繰り返す。そして、攻撃に成功するまでの微調整の反復回数がＡＩモデルの評価結果４０６として記録される。微調整の反復回数が多いほどＡＩモデルは攻撃を受けにいと言えるため、微調整の反復回数は、ＡＩモデルがどのていど堅牢であるかを表すロバスト性の評価基準となる。

【0052】

図４は、ＡＩモデルロバスト性評価部３６０のブロック図である。図４を参照すると、ＡＩモデルロバスト性評価部３６０は、攻撃エンコーダ１０３、ジェネレータ１０７、評価部４０５、識別部１１０、損失算出部４０７、およびパラメータ更新部４０８を有している。なお、ＡＩモデルロバスト性評価部３６０には、ランダムノイズε １０６を加えるノイズ追加部１０５に相当する機能はない。

【0053】

元画像４０１は、評価に用いる攻撃画像４０４を生成する元の画像である。クラス条件ｃ４０２は、評価における攻撃の対象クラスを示す情報である。クラス条件ｃ４０２の対象クラスは、攻撃生成モデル学習部３４０にて用いられたクラス条件ｃ１０２に示された対象クラスと同じであってもよい。

【0054】

攻撃エンコーダ１０３および識別部１１０は、攻撃生成モデル学習部３４０にて訓練されたものである。ジェネレータ１０７は、初期の状態においては攻撃生成モデル学習部３４０にて訓練されたものである。

【0055】

損失算出部３０７は、重みを表すハイパーパラメータω_１、ω_２を用いて、上述した第１、２、３の損失の損失関数から、式（７）に示す微調整損失Ｌ_ｆｔを算出する。

【0056】

【数7】

パラメータ更新部４０８は、微調整損失Ｌ_ｆｔに基づいて勾配を計算し、勾配を用いた最適化アルゴリズムによってジェネレータ１０７のパラメータを更新する。

【0057】

評価部４０５は、評価対象のＡＩモデルを備え、ＡＩモデルを用いて攻撃画像４０４からの物体検出あるいは攻撃画像４０４の分類を行い、その推論結果において攻撃が失敗していたら、攻撃が成功するまで損失算出部４０７およびパラメータ更新部４０８によるジェネレータ１０７の訓練とＡＩモデルによる推論結果の取得とを繰り返す。評価部４０５は、全ての元画像４０１を基にした攻撃画像４０４の評価を行った後、推論結果の平均精度と反復回数を算出し、評価結果４０６として出力する。

【0058】

次に、図５を参照して、ＡＩモデルロバスト性評価部３６０の動作の流れについて説明する。

【0059】

図５は、ＡＩモデルロバスト性評価部３６０の動作を示すフローチャートである。

【0060】

まず、ＡＩモデルロバスト性評価部３６０に対して、評価用データセット内の元画像４０１とクラス条件４０２を含む必要な情報が入力される（ステップｓ１１）。

【0061】

次に、ＡＩモデルロバスト性評価部３６０内では、攻撃エンコーダ１０３およびジェネレータ１０７が、与えられた元画像４０１がクラス条件４０２に示された対象クラスに誤検出あるいは誤分類されるような攻撃エンベディング４０３および攻撃画像４０４を生成する（ステップｓ１２）。

【0062】

次に、評価部４０５は、生成された攻撃画像４０４をＡＩモデルに入力し、ＡＩモデルによる推論結果を取得する（ステップｓ１３）。そして、評価部４０５は、推論結果とクラス条件４０２に示された対象クラスとを比較して、攻撃の成否を判定する（ステップｓ１４）。

【0063】

攻撃が成功していれば、評価部４０５は、推論結果を評価結果４０６に反映させる（ステップｓ１５）。攻撃が失敗していたら、損失算出部４０７が、式（７）に基づいて微調整損失Ｌ_ｆｔを算出し（ステップｓ１６）、パラメータ更新部４０８が、微調整損失Ｌ_ｆｔに基づいてジェネレータ１０７のパラメータを更新し（ステップｓ１７）、反復回数のカウントを＋１してステップｓ１２に戻る。ＡＩモデルロバスト性評価部３６０は、ステップｓ１６、ｓ１７、ｓ１２、ｓ１３を一例の更新処理とし、攻撃が成功するまで更新処理を繰り返し、最終的に攻撃が成功していれば、評価部４０５は、推論結果と反復回数を評価結果４０６に反映させる（ステップｓ１５）。

【0064】

以上、本発明の実施形態について述べてきたが、本発明は、ここに示された実施形態だけに限定されるものではなく、本発明の技術思想の範囲内において、これらの実施形態を組み合わせて使用したり、一部の構成を変更したりしてもよい。また、上記実施形態の一部又は全部は以下の事項を含む。ただし、本発明が以下の事項に限定されるものではない。

【0065】

（事項１）
敵対的攻撃対策支援システムは、元画像から攻撃エンベディングをエンコードする攻撃エンコーダと、前記攻撃エンコーダから出力された前記攻撃エンベディングにランダムノイズを加えるノイズ追加部と、前記ランダムノイズが加えられた攻撃エンべディングを用いて推論モデルを攻撃するための攻撃画像を生成するジェネレータと、前記推論モデルを用いて前記攻撃画像に対する推論を行い、推論結果を取得する推論部と、前記攻撃画像と前記元画像との識別を行い、識別結果を算出する識別部と、前記推論結果および前記識別結果に基づいて前記攻撃画像を訓練するための損失である訓練損失を算出する損失算出部と、前記訓練損失に基づいて前記攻撃エンコーダ、前記ジェネレータ、および識別部を更新するパラメータ更新部と、を有する。

【0066】

これによれば、ランダムノイズを加えた攻撃エンベディングを用いた攻撃画像による攻撃の評価に基づいて攻撃エンコーダおよびジェネレータのパラメータを更新し、攻撃画像を改善するので、多様な攻撃パターンの攻撃画像に対するＡＩモデルのロバスト性の評価を支援することが可能になる。

【0067】

（事項２）
事項１に記載の敵対的攻撃対策支援システムにおいて、前記損失算出部は、前記元画像と前記攻撃画像の差分を所定範囲に制限しようとするための第１の損失を計算し、前記識別部が前記元画像と前記攻撃画像を正しく識別しようとし前記ジェネレータが前記元画像と前記攻撃画像を誤って識別させようとして敵対する第２の損失を計算し、前記推論モデルによる推論に対する攻撃が成功する可能性を高めようとするための第３の損失を計算し、前記攻撃が成功する可能性の高い攻撃画像のランダムノイズが加えられていない攻撃エンベディングとランダムノイズが加えられた攻撃エンベディングとの距離を小さくしようとするための第４の損失を計算し、前記第１の損失と前記第２の損失と前記第３の損失と前記第４の損失を所定の重みづけをして合計することにより前記訓練損失を計算する。

【0068】

これによれば、多様な攻撃パターンの攻撃画像に対するＡＩモデルのロバスト性の評価を支援することが可能になる。

【0069】

（事項３）
事項２に記載の敵対的攻撃対策支援システムにおいて、前記損失算出部による前記訓練損失の算出と前記パラメータ更新部による前記攻撃エンコーダ、前記ジェネレータ、および識別部の更新を所定の終了条件が満たされるまで繰り返して得られた前記攻撃エンコーダおよび前記ジェネレータを用いて攻撃画像を生成する攻撃画像生成部を更に有する。これによれば、推論モデルの攻撃に成功する可能性の高い攻撃画像を生成することができる。

【0070】

（事項４）
事項３に記載の敵対的攻撃対策支援システムにおいて、前記攻撃画像生成部により生成された攻撃画像を前記推論モデルに入力して推論結果を取得し、前記攻撃画像と元画像との識別を行って識別結果を算出し、前記推論結果および前記識別結果に基づいて前記攻撃画像を微調整するための損失である微調整損失を算出し、前記推論結果にて攻撃が成功しなかった場合、前記微調整損失に基づいて前記ジェネレータを更新し、更新された前記ジェネレータを前記攻撃画像生成部に用いて生成した攻撃画像を前記推論モデルに入力して推論結果および識別結果を取得するという一連の更新処理を攻撃が成功するまで繰り返し、前記更新処理の反復回数を前記推論モデルの評価結果として出力するロバスト性評価部を更に有する。

【0071】

これによれば、攻撃が成功するまでジェネレータの更新を繰り返しその反復回数を評価結果とするので、ジェネレータの能力に依存しない方法でロバスト性を評価することができる。

【0072】

（事項５）
事項４に記載の敵対的攻撃対策支援システムにおいて、前記ロバスト性評価部は、前記第１の損失と前記第２の損失と前記第３の損失を所定の重みづけをして合計することにより前記微調整損失を計算する。これによれば、適切な更新処理により推論モデルの攻撃が成功するまでの更新処理の反復回数により適切なロバスト性の評価が可能となる。

【符号の説明】

【0073】

１０３…攻撃エンコーダ、１０５…ノイズ追加部、１０７…ジェネレータ、１０９…推論部、１１０…識別部、１１１…損失算出部、１１２…パラメータ更新部、３００…コンピュータシステム、３０２…プロセッサ、３０４…メモリ、３０６…メモリバス、３０８…Ｉ／Ｏバス、３０９…バスインターフェース部、３１０…Ｉ／Ｏバスインターフェース部、３１２…端末インターフェース、３１４…ストレージインターフェース、３１６…Ｉ／Ｏデバイスインターフェース、３１６…デバイスインターフェース、３１８…ネットワークインターフェース、３２０…Ｉ／Ｏデバイス、３２２…ストレージ装置、３２４…表示システム、３２６…表示装置、３３０…ネットワーク、３４０…攻撃生成モデル学習部、３５０…攻撃画像生成部、３６０…ＡＩモデルロバスト性評価部、４０５…評価部
４０６…評価結果、４０７…損失算出部、４０８…パラメータ更新部

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版