IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人大阪大学の特許一覧

特開2023-101871攻撃検知装置、攻撃検知方法およびプログラム
<>
  • 特開-攻撃検知装置、攻撃検知方法およびプログラム 図1
  • 特開-攻撃検知装置、攻撃検知方法およびプログラム 図2
  • 特開-攻撃検知装置、攻撃検知方法およびプログラム 図3
  • 特開-攻撃検知装置、攻撃検知方法およびプログラム 図4
  • 特開-攻撃検知装置、攻撃検知方法およびプログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023101871
(43)【公開日】2023-07-24
(54)【発明の名称】攻撃検知装置、攻撃検知方法およびプログラム
(51)【国際特許分類】
   G06F 21/55 20130101AFI20230714BHJP
【FI】
G06F21/55
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022002060
(22)【出願日】2022-01-11
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504176911
【氏名又は名称】国立大学法人大阪大学
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100124844
【弁理士】
【氏名又は名称】石原 隆治
(72)【発明者】
【氏名】奥田 哲矢
(72)【発明者】
【氏名】三浦 尭之
(72)【発明者】
【氏名】矢内 直人
(72)【発明者】
【氏名】岩花 一輝
(57)【要約】
【課題】推定モデルとの類似度の高いモデルを適切に検知する。
【解決手段】検知対象モデルに入力値を与えて出力値を取得する調査部と、推定モデルと前記検知対象モデルの出力値の一致度に基づいて、前記推定モデルと前記検知対象モデルとの類似度を計算する計算部と、前記類似度に基づいて、前記検知対象モデルが前記推定モデルへの攻撃によるものであるか否かを判定する攻撃判定部と、を備える攻撃検知装置である。
【選択図】図3
【特許請求の範囲】
【請求項1】
検知対象モデルに入力値を与えて出力値を取得する調査部と、
推定モデルと前記検知対象モデルの出力値の一致度に基づいて、前記推定モデルと前記検知対象モデルとの類似度を計算する計算部と、
前記類似度に基づいて、前記検知対象モデルが前記推定モデルへの攻撃によるものであるか否かを判定する攻撃判定部と、を備える、
攻撃検知装置。
【請求項2】
前記調査部は、FP(Finger Printing)の入力ベクトルを与えて、前記検知対象モデルから出力ラベルを前記出力値として取得する、
請求項1に記載の攻撃検知装置。
【請求項3】
前記調査部は、FP(Finger Printing)の入力ベクトルを与えて、前記検知対象モデルから出力ラベルの確率をラベル数分並べたベクトルである確信度を取得し、
前記計算部は、前記推定モデルと前記検知対象モデルの前記出力ラベルまたは前記確信度が一致する確率を、前記類似度として算出する、
請求項2に記載の攻撃検知装置。
【請求項4】
コンピュータが実行する攻撃検知方法であって、
検知対象モデルに入力値を与えて出力値を取得するステップと、
推定モデルと前記検知対象モデルの出力値の一致度に基づいて、前記推定モデルと前記検知対象モデルとの類似度を計算するステップと、
前記類似度に基づいて、前記検知対象モデルが前記推定モデルへの攻撃によるものであるか否かを判定するステップと、を備える、
攻撃検知方法。
【請求項5】
コンピュータを、請求項1から3のいずれか1項に記載の攻撃検知装置における各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、攻撃検知装置、攻撃検知方法およびプログラムに関する。
【背景技術】
【0002】
近年、AI(例えばDNN(Deep Neural Network)等)のサービス活用が非常に活発になっている。各社は、独自のDNNを開発することでサービス競争を行っているため、DNNのステートやパラメータを改ざんや漏洩から守ることはビジネスの上で非常に重要である。
【0003】
例えば、DNNをTEE(Trusted Execution Environment)上で安全に実行する技術が知られている。しかし、この技術では、DNNに対するクエリの制限は行っていないため、クエリとレスポンスのみから元のモデルを復元するためのモデル抽出攻撃(Model Extraction/Stealing)によるモデルの詐取を防げない。そこで、モデル抽出攻撃への事前または事後の対策として、従来はDNNの精度に着目した研究が行われてきた(非特許文献1-4)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】M. Juuti, S. Szyller, A. Dmitrenko, S. Marchal, and N. Asokan. "PRADA: protecting against DNN model stealing attacks", IEEE Euro S&P, 2019
【非特許文献2】Manish Kesarwani, Bhaskar Mukhoty, Vijay Arya, Sameep Mehta. "Model Extraction Warning in MLaaS Paradigm", Proceedings of the 34th Annual Computer Security Applications Conference, Pages 371-380, ACSAC 2018
【非特許文献3】Soham Pal, et al. "Stateful Detection of Model Extraction Attacks", arxiv:2107.05166, 2021
【非特許文献4】Sebastian Szyller, Buse Gul Atli, Samuel Marchal, N. Asokan. "DAWN: Dynamic Adversarial Watermarking of Neural Networks", Proceedings of the 29th ACM International Conference on Multimedia, Pages 4417-4425, MM 2021
【発明の概要】
【発明が解決しようとする課題】
【0005】
近年、増加しているAE(Adversarial Example)、MI(Model Inversion)等のような攻撃に対応するため、抽出元の推定モデルとの類似度(Similarity)の高さを実現させることができるモデル抽出攻撃が増加している。しかし、従来の技術では、推定モデルとの類似度の高いモデルを適切に検知することができないという課題がある。
【0006】
開示の技術は、推定モデルとの類似度の高いモデルを適切に検知することを目的とする。
【課題を解決するための手段】
【0007】
開示の技術は、検知対象モデルに入力値を与えて出力値を取得する調査部と、推定モデルと前記検知対象モデルの出力値の一致度に基づいて、前記推定モデルと前記検知対象モデルとの類似度を計算する計算部と、前記類似度に基づいて、前記検知対象モデルが前記推定モデルへの攻撃によるものであるか否かを判定する攻撃判定部と、を備える攻撃検知装置である。
【発明の効果】
【0008】
開示の技術によれば、推定モデルとの類似度の高いモデルを適切に検知することができる。
【図面の簡単な説明】
【0009】
図1】モデル抽出攻撃について説明するための図である。
図2】推定モデルの精度と類似度の関係について説明するための図である。
図3】攻撃検知システムのシステム構成の一例を示す図である。
図4】攻撃検知処理の流れの一例を示すフローチャートである。
図5】コンピュータのハードウェア構成例を示す図である。
【発明を実施するための形態】
【0010】
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
【0011】
なお、本実施の形態の参考技術等に関連する参考文献の番号と文献名を、本実施の形態の最後にまとめて記載した。下記の説明において関連する参考文献の番号を"[1]"等のように示している。
【0012】
(モデル抽出攻撃の概要)
図1は、モデル抽出攻撃について説明するための図である。モデル抽出攻撃は、公開されている推定モデルに対する入力値を与え、対応する出力値を取得して解析することによって、推定モデルを抽出する攻撃である。抽出された推定モデルは、複製されて他のサービスとして公開されるか、または攻撃者のローカルな環境で使用される。
【0013】
攻撃者は、モデル抽出攻撃における入力値として、推定モデルの境界付近のデータを用いると、効率よく推定モデルを抽出することができることが知られている(例えば、[1]、[2]等)。このような境界付近のデータは、攻撃者によって意図的に作成可能である。
【0014】
図2は、推定モデルの精度と類似度の関係について説明するための図である。抽出して複製された推定モデルの精度(Accuracy)の高さを求める攻撃でも、効率的な攻撃[1]、[2]等)は決定境界付近を狙うため、結果的に類似度(Similarity)が高まることが想定される。したがって、類似度の高い推定モデルを検知できれば、精度の高い推定モデルの検知も概ね可能であると考えられる。
【0015】
(本実施の形態の概要)
本実施の形態に係る攻撃検知システムは、モデル抽出攻撃によって抽出された類似度の高い推定モデルを検知するために、推定モデルと検知対象モデルとの類似度を計算して、検知対象モデルが攻撃によるものか否かを判定することによって、モデル抽出攻撃を検知する。
【0016】
(攻撃検知システムのシステム構成)
図3は、攻撃検知システムのシステム構成の一例を示す図である。攻撃検知システム1は、攻撃検知装置10と、検知対象モデル20と、遠隔管理サーバ40と、を備える。
【0017】
攻撃検知装置10は、第一通信ネットワーク30を介して、検知対象モデル20と通信可能に接続されている。第一通信ネットワーク30は、例えばインターネットであって、有線でも無線でもよい。
【0018】
また、攻撃検知装置10は、第二通信ネットワーク50を介して、遠隔管理サーバ40と通信可能に接続されている。第二通信ネットワーク50は、例えばLAN(Local Area Network)であって、有線でも無線でもよい。
【0019】
攻撃検知装置10は、検知対象モデル20を調査し、FP(Finger Printing)を利用して推定モデル11と検知対象モデル20との類似度を計算する。なお、DNN等の推定モデル11は、決定境界付近の入出力で特徴づけられることが知られている([3]、[4]等)。そこで、攻撃検知装置10は、FP(Finger Printing)を推定モデル11と検知対象モデル20との類似度の評価指標として利用する。
【0020】
具体的には、攻撃検知装置10は、推定モデル11と、遠隔監視部12と、調査部13と、計算部14と、攻撃判定部15と、を備える。
【0021】
推定モデル11は、管理対象の推定モデルであって、例えばDNN(Deep Neural Network)であってもよい。推定モデル11は、公開されていて、第一通信ネットワーク30等を介して、他の装置から入力値を取得して、推定結果を出力する。
【0022】
遠隔監視部12は、遠隔管理サーバ40から調査要求を取得して、調査部13に検知対象モデル20の調査を開始させる。そして、攻撃判定部15による判定結果を示す情報を、遠隔管理サーバ40に送信する。
【0023】
調査部13は、検知対象モデル20を調査する。具体的には、調査部13は、検知対象モデル20に、FPの入力ベクトルを与えて、検知対象モデル20から出力ラベル(および確信度)を取得する。ここで、確信度は、出力ラベルの確率をラベル数分並べたベクトルである。
【0024】
計算部14は、調査部13による調査結果に基づいて、推定モデル11と検知対象モデル20とのFPの一致度を、推定モデル11と検知対象モデル20との類似度として算出する。FPの一致度は、例えば、推定モデル11と検知対象モデル20の出力ラベルまたは確信度が一致する確率である。
【0025】
攻撃判定部15は、推定モデル11と検知対象モデル20との類似度(FPの一致度)に基づいて、検知対象モデル20が攻撃によるものか否かを判定する。例えば、攻撃判定部15は、類似度(FPの一致度)があらかじめ設定された閾値より大きい場合、検知対象モデル20が攻撃によるものであると判定し、それ以外の場合、検知対象モデル20が攻撃によるものでないと判定してもよい。
【0026】
検知対象モデル20は、検知の対象となる推定モデルであって、公開されたDNN等である。なお、検知対象モデル20は、非公開のDNN等の推定モデルを流通市場等で押収したものであってもよく、その場合、押収した検知対象モデル20は、攻撃検知装置10とLAN等を介して接続されるようにしてもよい。
【0027】
遠隔管理サーバ40は、ユーザ等の操作を受けて、検知対象モデル20の調査を開始する要求を攻撃検知装置10に送信し、攻撃検知装置10から検知結果を受信して表示する。
【0028】
(攻撃検知システム1の動作概要)
次に、攻撃検知システム1の動作について、図面を参照して説明する。
【0029】
図4は、攻撃検知処理の流れの一例を示すフローチャートである。遠隔監視部12は、遠隔管理サーバ40から調査要求を取得する(ステップS11)。
【0030】
次に、調査部13は、検知対象モデル20を調査する(ステップS12)。具体的には、調査部13は、検知対象モデル20に、FPの入力ベクトルを与えて、検知対象モデル20から出力ラベル(および確信度)を取得する。
【0031】
続いて、計算部14は、検知対象モデル20と推定モデル11との類似度を計算する(ステップS13)。具体的には、計算部14は、調査部13による調査結果に基づいて、推定モデル11と検知対象モデル20とのFPの一致度を、推定モデル11と検知対象モデル20との類似度として算出する。
【0032】
そして、攻撃判定部15は、検知対象モデル20が攻撃によるものか否かを判定する(ステップS14)。例えば、攻撃判定部15は、類似度(FPの一致度)があらかじめ設定された閾値より大きい場合、検知対象モデル20が攻撃によるものであると判定し、それ以外の場合、検知対象モデル20が攻撃によるものでないと判定する。
【0033】
遠隔監視部12は、攻撃判定部15による判定結果を遠隔管理サーバ40に報告する(ステップS15)。
【0034】
(攻撃検知装置のハードウェア構成例)
攻撃検知装置10は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。なお、この「コンピュータ」は、物理マシンであってもよいし、クラウド上の仮想マシンであってもよい。仮想マシンを使用する場合、ここで説明する「ハードウェア」は仮想的なハードウェアである。
【0035】
上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
【0036】
図5は、上記コンピュータのハードウェア構成例を示す図である。図5のコンピュータは、それぞれバスBで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。
【0037】
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0038】
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。なお、上記コンピュータは、CPU1004の代わりにGPU(Graphics Processing Unit)またはTPU(Tensor processing unit)を備えていても良く、CPU1004に加えて、GPUまたはTPUを備えていても良い。その場合、例えば特殊な演算が必要な処理をGPUまたはTPUが実行し、その他の処理をCPU1004が実行する、というように処理を分担して実行しても良い。
【0039】
(本実施の形態の効果)
本実施の形態に係る攻撃検知装置10によれば、推定モデルと検知対象モデルとの類似度を計算して、検知対象モデルが攻撃によるものか否かを判定することによって、モデル抽出攻撃を検知する。これによって、推定モデルとの類似度の高いモデルを適切に検知することができる。
【0040】
また、本実施の形態の係る攻撃検知方法は、類似度(Similarity)の高さを求める、更なるAE、MI等の攻撃を狙う攻撃者に対して有効である。
【0041】
また、精度を求める攻撃者に対しても、FPが有効なサービスであると情報公開することによって、攻撃者は類似度(Similarity)重視の効率的なME攻撃を行う動機付けが低下する。したがって、ME攻撃の効率を低下させることができる。
【0042】
本実施の形態に係る攻撃検知装置10を、TEEベースのConfidential AIまたはRemote Attestationと組み合わせることによって、分散/エッジMLaaSサービスであっても、FPロジックを有効化し、遠隔監視することができる。
【0043】
[参考文献]
[1] M. Juuti, S. Szyller, A. Dmitrenko, S. Marchal, and N. Asokan. "PRADA: protecting against DNN model stealing attacks", IEEE Euro S&P, 2019(非特許文献1)
[2] Yu, H., Yang, K., Zhang, T., Tsai, Y. Y., Ho, T. Y., & Jin, Y. Cloudleak, "Large-scale deep learning models stealing through adversarial examples", NDSS 2020
[3] Xiaoyu Cao, Jinyuan Jia, Neil Zhenqiang Gong, "IPGuard: Protecting Intellectual Property of Deep Neural Networks via Fingerprinting the Classification Boundary", Proceedings of the 2021 ACM Asia Conference on Computer and Communications Security, Pages 14-25,AsiaCCS 2021
[4] Yuanchun Li, Ziqi Zhang, Bingyan Liu, Ziyue Yang, Yunxin Liu, "ModelDiff: Testing-Based DNN Similarity Comparison for Model Reuse Detection", Proceedings of the 30th ACM SIGSOFT International Symposium on Software Testing and Analysis, Pages 139-151, ACM ISSTA 2021
【0044】
(実施の形態のまとめ)
本明細書には、少なくとも下記の各項に記載した攻撃検知装置、攻撃検知方法およびプログラムが記載されている。
(第1項)
検知対象モデルに入力値を与えて出力値を取得する調査部と、
推定モデルと前記検知対象モデルの出力値の一致度に基づいて、前記推定モデルと前記検知対象モデルとの類似度を計算する計算部と、
前記類似度に基づいて、前記検知対象モデルが前記推定モデルへの攻撃によるものであるか否かを判定する攻撃判定部と、を備える、
攻撃検知装置。
(第2項)
前記調査部は、FP(Finger Printing)の入力ベクトルを与えて、前記検知対象モデルから出力ラベルを前記出力値として取得する、
第1項に記載の攻撃検知装置。
(第3項)
前記調査部は、FP(Finger Printing)の入力ベクトルを与えて、前記検知対象モデルから出力ラベルの確率をラベル数分並べたベクトルである確信度を取得し、
前記計算部は、前記推定モデルと前記検知対象モデルの前記出力ラベルまたは前記確信度が一致する確率を、前記類似度として算出する、
第2項に記載の攻撃検知装置。
(第4項)
コンピュータが実行する攻撃検知方法であって、
検知対象モデルに入力値を与えて出力値を取得するステップと、
推定モデルと前記検知対象モデルの出力値の一致度に基づいて、前記推定モデルと前記検知対象モデルとの類似度を計算するステップと、
前記類似度に基づいて、前記検知対象モデルが前記推定モデルへの攻撃によるものであるか否かを判定するステップと、を備える、
攻撃検知方法。
(第5項)
コンピュータを、第1項から第3項のいずれか1項に記載の攻撃検知装置における各部として機能させるためのプログラム。
【0045】
上記構成のいずれによっても、推定モデルとの類似度の高いモデルを適切に検知することを可能とする技術が提供される。第2項によれば、FP(Finger Printing)を利用することによって、より適切に検知することができる。第3項によれば、FP(Finger Printing)の出力ラベルに基づく確信度によって、類似度を算出することができる。
【0046】
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0047】
1 攻撃検知システム
10 攻撃検知装置
11 推定モデル
12 遠隔監視部
13 調査部
14 計算部
15 攻撃判定部
20 検知対象モデル
30 第一通信ネットワーク
40 遠隔管理サーバ
50 第二通信ネットワーク
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置
図1
図2
図3
図4
図5