特開2023-101871 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人大阪大学の特許一覧

特開2023-101871攻撃検知装置、攻撃検知方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023101871

(43)【公開日】2023-07-24

(54)【発明の名称】攻撃検知装置、攻撃検知方法およびプログラム

(51)【国際特許分類】

G06F 21/55 20130101AFI20230714BHJP

【ＦＩ】

G06F21/55

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2022002060

(22)【出願日】2022-01-11

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504176911

【氏名又は名称】国立大学法人大阪大学

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】奥田哲矢

(72)【発明者】

【氏名】三浦尭之

(72)【発明者】

【氏名】矢内直人

(72)【発明者】

【氏名】岩花一輝

(57)【要約】

【課題】推定モデルとの類似度の高いモデルを適切に検知する。
【解決手段】検知対象モデルに入力値を与えて出力値を取得する調査部と、推定モデルと前記検知対象モデルの出力値の一致度に基づいて、前記推定モデルと前記検知対象モデルとの類似度を計算する計算部と、前記類似度に基づいて、前記検知対象モデルが前記推定モデルへの攻撃によるものであるか否かを判定する攻撃判定部と、を備える攻撃検知装置である。
【選択図】図３

【特許請求の範囲】

【請求項1】

検知対象モデルに入力値を与えて出力値を取得する調査部と、
推定モデルと前記検知対象モデルの出力値の一致度に基づいて、前記推定モデルと前記検知対象モデルとの類似度を計算する計算部と、
前記類似度に基づいて、前記検知対象モデルが前記推定モデルへの攻撃によるものであるか否かを判定する攻撃判定部と、を備える、
攻撃検知装置。

【請求項2】

前記調査部は、ＦＰ（Finger Printing）の入力ベクトルを与えて、前記検知対象モデルから出力ラベルを前記出力値として取得する、
請求項１に記載の攻撃検知装置。

【請求項3】

前記調査部は、ＦＰ（Finger Printing）の入力ベクトルを与えて、前記検知対象モデルから出力ラベルの確率をラベル数分並べたベクトルである確信度を取得し、
前記計算部は、前記推定モデルと前記検知対象モデルの前記出力ラベルまたは前記確信度が一致する確率を、前記類似度として算出する、
請求項２に記載の攻撃検知装置。

【請求項4】

コンピュータが実行する攻撃検知方法であって、
検知対象モデルに入力値を与えて出力値を取得するステップと、
推定モデルと前記検知対象モデルの出力値の一致度に基づいて、前記推定モデルと前記検知対象モデルとの類似度を計算するステップと、
前記類似度に基づいて、前記検知対象モデルが前記推定モデルへの攻撃によるものであるか否かを判定するステップと、を備える、
攻撃検知方法。

【請求項5】

コンピュータを、請求項１から３のいずれか１項に記載の攻撃検知装置における各部として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、攻撃検知装置、攻撃検知方法およびプログラムに関する。

【背景技術】

【0002】

近年、ＡＩ（例えばＤＮＮ（Deep Neural Network）等）のサービス活用が非常に活発になっている。各社は、独自のＤＮＮを開発することでサービス競争を行っているため、ＤＮＮのステートやパラメータを改ざんや漏洩から守ることはビジネスの上で非常に重要である。

【0003】

例えば、ＤＮＮをＴＥＥ(Trusted Execution Environment)上で安全に実行する技術が知られている。しかし、この技術では、ＤＮＮに対するクエリの制限は行っていないため、クエリとレスポンスのみから元のモデルを復元するためのモデル抽出攻撃(Model Extraction/Stealing)によるモデルの詐取を防げない。そこで、モデル抽出攻撃への事前または事後の対策として、従来はＤＮＮの精度に着目した研究が行われてきた（非特許文献１－４）。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】M. Juuti, S. Szyller, A. Dmitrenko, S. Marchal, and N. Asokan. "PRADA: protecting against DNN model stealing attacks", IEEE Euro S&P, 2019

【非特許文献2】Manish Kesarwani, Bhaskar Mukhoty, Vijay Arya, Sameep Mehta. "Model Extraction Warning in MLaaS Paradigm", Proceedings of the 34th Annual Computer Security Applications Conference, Pages 371-380, ACSAC 2018

【非特許文献3】Soham Pal, et al. "Stateful Detection of Model Extraction Attacks", arxiv:2107.05166, 2021

【非特許文献4】Sebastian Szyller, Buse Gul Atli, Samuel Marchal, N. Asokan. "DAWN: Dynamic Adversarial Watermarking of Neural Networks", Proceedings of the 29th ACM International Conference on Multimedia, Pages 4417-4425, MM 2021

【発明の概要】

【発明が解決しようとする課題】

【0005】

近年、増加しているＡＥ（Adversarial Example）、ＭＩ（Model Inversion）等のような攻撃に対応するため、抽出元の推定モデルとの類似度(Similarity)の高さを実現させることができるモデル抽出攻撃が増加している。しかし、従来の技術では、推定モデルとの類似度の高いモデルを適切に検知することができないという課題がある。

【0006】

開示の技術は、推定モデルとの類似度の高いモデルを適切に検知することを目的とする。

【課題を解決するための手段】

【0007】

開示の技術は、検知対象モデルに入力値を与えて出力値を取得する調査部と、推定モデルと前記検知対象モデルの出力値の一致度に基づいて、前記推定モデルと前記検知対象モデルとの類似度を計算する計算部と、前記類似度に基づいて、前記検知対象モデルが前記推定モデルへの攻撃によるものであるか否かを判定する攻撃判定部と、を備える攻撃検知装置である。

【発明の効果】

【0008】

開示の技術によれば、推定モデルとの類似度の高いモデルを適切に検知することができる。

【図面の簡単な説明】

【0009】

【図1】モデル抽出攻撃について説明するための図である。

【図2】推定モデルの精度と類似度の関係について説明するための図である。

【図3】攻撃検知システムのシステム構成の一例を示す図である。

【図4】攻撃検知処理の流れの一例を示すフローチャートである。

【図5】コンピュータのハードウェア構成例を示す図である。

【発明を実施するための形態】

【0010】

以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

【0011】

なお、本実施の形態の参考技術等に関連する参考文献の番号と文献名を、本実施の形態の最後にまとめて記載した。下記の説明において関連する参考文献の番号を"［１］"等のように示している。

【0012】

（モデル抽出攻撃の概要）
図１は、モデル抽出攻撃について説明するための図である。モデル抽出攻撃は、公開されている推定モデルに対する入力値を与え、対応する出力値を取得して解析することによって、推定モデルを抽出する攻撃である。抽出された推定モデルは、複製されて他のサービスとして公開されるか、または攻撃者のローカルな環境で使用される。

【0013】

攻撃者は、モデル抽出攻撃における入力値として、推定モデルの境界付近のデータを用いると、効率よく推定モデルを抽出することができることが知られている（例えば、［１］、［２］等）。このような境界付近のデータは、攻撃者によって意図的に作成可能である。

【0014】

図２は、推定モデルの精度と類似度の関係について説明するための図である。抽出して複製された推定モデルの精度(Accuracy)の高さを求める攻撃でも、効率的な攻撃［１］、［２］等）は決定境界付近を狙うため、結果的に類似度(Similarity)が高まることが想定される。したがって、類似度の高い推定モデルを検知できれば、精度の高い推定モデルの検知も概ね可能であると考えられる。

【0015】

（本実施の形態の概要）
本実施の形態に係る攻撃検知システムは、モデル抽出攻撃によって抽出された類似度の高い推定モデルを検知するために、推定モデルと検知対象モデルとの類似度を計算して、検知対象モデルが攻撃によるものか否かを判定することによって、モデル抽出攻撃を検知する。

【0016】

（攻撃検知システムのシステム構成）
図３は、攻撃検知システムのシステム構成の一例を示す図である。攻撃検知システム１は、攻撃検知装置１０と、検知対象モデル２０と、遠隔管理サーバ４０と、を備える。

【0017】

攻撃検知装置１０は、第一通信ネットワーク３０を介して、検知対象モデル２０と通信可能に接続されている。第一通信ネットワーク３０は、例えばインターネットであって、有線でも無線でもよい。

【0018】

また、攻撃検知装置１０は、第二通信ネットワーク５０を介して、遠隔管理サーバ４０と通信可能に接続されている。第二通信ネットワーク５０は、例えばＬＡＮ（Local Area Network）であって、有線でも無線でもよい。

【0019】

攻撃検知装置１０は、検知対象モデル２０を調査し、ＦＰ（Finger Printing）を利用して推定モデル１１と検知対象モデル２０との類似度を計算する。なお、ＤＮＮ等の推定モデル１１は、決定境界付近の入出力で特徴づけられることが知られている（［３］、［４］等）。そこで、攻撃検知装置１０は、ＦＰ（Finger Printing）を推定モデル１１と検知対象モデル２０との類似度の評価指標として利用する。

【0020】

具体的には、攻撃検知装置１０は、推定モデル１１と、遠隔監視部１２と、調査部１３と、計算部１４と、攻撃判定部１５と、を備える。

【0021】

推定モデル１１は、管理対象の推定モデルであって、例えばＤＮＮ（Deep Neural Network）であってもよい。推定モデル１１は、公開されていて、第一通信ネットワーク３０等を介して、他の装置から入力値を取得して、推定結果を出力する。

【0022】

遠隔監視部１２は、遠隔管理サーバ４０から調査要求を取得して、調査部１３に検知対象モデル２０の調査を開始させる。そして、攻撃判定部１５による判定結果を示す情報を、遠隔管理サーバ４０に送信する。

【0023】

調査部１３は、検知対象モデル２０を調査する。具体的には、調査部１３は、検知対象モデル２０に、ＦＰの入力ベクトルを与えて、検知対象モデル２０から出力ラベル(および確信度)を取得する。ここで、確信度は、出力ラベルの確率をラベル数分並べたベクトルである。

【0024】

計算部１４は、調査部１３による調査結果に基づいて、推定モデル１１と検知対象モデル２０とのＦＰの一致度を、推定モデル１１と検知対象モデル２０との類似度として算出する。ＦＰの一致度は、例えば、推定モデル１１と検知対象モデル２０の出力ラベルまたは確信度が一致する確率である。

【0025】

攻撃判定部１５は、推定モデル１１と検知対象モデル２０との類似度（ＦＰの一致度）に基づいて、検知対象モデル２０が攻撃によるものか否かを判定する。例えば、攻撃判定部１５は、類似度（ＦＰの一致度）があらかじめ設定された閾値より大きい場合、検知対象モデル２０が攻撃によるものであると判定し、それ以外の場合、検知対象モデル２０が攻撃によるものでないと判定してもよい。

【0026】

検知対象モデル２０は、検知の対象となる推定モデルであって、公開されたＤＮＮ等である。なお、検知対象モデル２０は、非公開のＤＮＮ等の推定モデルを流通市場等で押収したものであってもよく、その場合、押収した検知対象モデル２０は、攻撃検知装置１０とＬＡＮ等を介して接続されるようにしてもよい。

【0027】

遠隔管理サーバ４０は、ユーザ等の操作を受けて、検知対象モデル２０の調査を開始する要求を攻撃検知装置１０に送信し、攻撃検知装置１０から検知結果を受信して表示する。

【0028】

（攻撃検知システム１の動作概要）
次に、攻撃検知システム１の動作について、図面を参照して説明する。

【0029】

図４は、攻撃検知処理の流れの一例を示すフローチャートである。遠隔監視部１２は、遠隔管理サーバ４０から調査要求を取得する（ステップＳ１１）。

【0030】

次に、調査部１３は、検知対象モデル２０を調査する（ステップＳ１２）。具体的には、調査部１３は、検知対象モデル２０に、ＦＰの入力ベクトルを与えて、検知対象モデル２０から出力ラベル(および確信度)を取得する。

【0031】

続いて、計算部１４は、検知対象モデル２０と推定モデル１１との類似度を計算する（ステップＳ１３）。具体的には、計算部１４は、調査部１３による調査結果に基づいて、推定モデル１１と検知対象モデル２０とのＦＰの一致度を、推定モデル１１と検知対象モデル２０との類似度として算出する。

【0032】

そして、攻撃判定部１５は、検知対象モデル２０が攻撃によるものか否かを判定する（ステップＳ１４）。例えば、攻撃判定部１５は、類似度（ＦＰの一致度）があらかじめ設定された閾値より大きい場合、検知対象モデル２０が攻撃によるものであると判定し、それ以外の場合、検知対象モデル２０が攻撃によるものでないと判定する。

【0033】

遠隔監視部１２は、攻撃判定部１５による判定結果を遠隔管理サーバ４０に報告する（ステップＳ１５）。

【0034】

（攻撃検知装置のハードウェア構成例）
攻撃検知装置１０は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。なお、この「コンピュータ」は、物理マシンであってもよいし、クラウド上の仮想マシンであってもよい。仮想マシンを使用する場合、ここで説明する「ハードウェア」は仮想的なハードウェアである。

【0035】

上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

【0036】

図５は、上記コンピュータのハードウェア構成例を示す図である。図５のコンピュータは、それぞれバスＢで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。

【0037】

当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

【0038】

メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置１００５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（Graphical User Interface）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。なお、上記コンピュータは、ＣＰＵ１００４の代わりにＧＰＵ（Graphics Processing Unit）またはＴＰＵ（Tensor processing unit）を備えていても良く、ＣＰＵ１００４に加えて、ＧＰＵまたはＴＰＵを備えていても良い。その場合、例えば特殊な演算が必要な処理をＧＰＵまたはＴＰＵが実行し、その他の処理をＣＰＵ１００４が実行する、というように処理を分担して実行しても良い。

【0039】

（本実施の形態の効果）
本実施の形態に係る攻撃検知装置１０によれば、推定モデルと検知対象モデルとの類似度を計算して、検知対象モデルが攻撃によるものか否かを判定することによって、モデル抽出攻撃を検知する。これによって、推定モデルとの類似度の高いモデルを適切に検知することができる。

【0040】

また、本実施の形態の係る攻撃検知方法は、類似度(Similarity)の高さを求める、更なるＡＥ、ＭＩ等の攻撃を狙う攻撃者に対して有効である。

【0041】

また、精度を求める攻撃者に対しても、ＦＰが有効なサービスであると情報公開することによって、攻撃者は類似度(Similarity)重視の効率的なＭＥ攻撃を行う動機付けが低下する。したがって、ＭＥ攻撃の効率を低下させることができる。

【0042】

本実施の形態に係る攻撃検知装置１０を、ＴＥＥベースのConfidential AIまたはRemote Attestationと組み合わせることによって、分散／エッジMLaaSサービスであっても、ＦＰロジックを有効化し、遠隔監視することができる。

【0043】

［参考文献］
[1] M. Juuti, S. Szyller, A. Dmitrenko, S. Marchal, and N. Asokan. "PRADA: protecting against DNN model stealing attacks", IEEE Euro S&P, 2019（非特許文献１）
[2] Yu, H., Yang, K., Zhang, T., Tsai, Y. Y., Ho, T. Y., & Jin, Y. Cloudleak, "Large-scale deep learning models stealing through adversarial examples", NDSS 2020
[3] Xiaoyu Cao, Jinyuan Jia, Neil Zhenqiang Gong, "IPGuard: Protecting Intellectual Property of Deep Neural Networks via Fingerprinting the Classification Boundary", Proceedings of the 2021 ACM Asia Conference on Computer and Communications Security, Pages 14-25,AsiaCCS 2021
[4] Yuanchun Li, Ziqi Zhang, Bingyan Liu, Ziyue Yang, Yunxin Liu, "ModelDiff: Testing-Based DNN Similarity Comparison for Model Reuse Detection", Proceedings of the 30th ACM SIGSOFT International Symposium on Software Testing and Analysis, Pages 139-151, ACM ISSTA 2021

【0044】

（実施の形態のまとめ）
本明細書には、少なくとも下記の各項に記載した攻撃検知装置、攻撃検知方法およびプログラムが記載されている。
（第１項）
検知対象モデルに入力値を与えて出力値を取得する調査部と、
推定モデルと前記検知対象モデルの出力値の一致度に基づいて、前記推定モデルと前記検知対象モデルとの類似度を計算する計算部と、
前記類似度に基づいて、前記検知対象モデルが前記推定モデルへの攻撃によるものであるか否かを判定する攻撃判定部と、を備える、
攻撃検知装置。
（第２項）
前記調査部は、ＦＰ（Finger Printing）の入力ベクトルを与えて、前記検知対象モデルから出力ラベルを前記出力値として取得する、
第１項に記載の攻撃検知装置。
（第３項）
前記調査部は、ＦＰ（Finger Printing）の入力ベクトルを与えて、前記検知対象モデルから出力ラベルの確率をラベル数分並べたベクトルである確信度を取得し、
前記計算部は、前記推定モデルと前記検知対象モデルの前記出力ラベルまたは前記確信度が一致する確率を、前記類似度として算出する、
第２項に記載の攻撃検知装置。
（第４項）
コンピュータが実行する攻撃検知方法であって、
検知対象モデルに入力値を与えて出力値を取得するステップと、
推定モデルと前記検知対象モデルの出力値の一致度に基づいて、前記推定モデルと前記検知対象モデルとの類似度を計算するステップと、
前記類似度に基づいて、前記検知対象モデルが前記推定モデルへの攻撃によるものであるか否かを判定するステップと、を備える、
攻撃検知方法。
（第５項）
コンピュータを、第１項から第３項のいずれか１項に記載の攻撃検知装置における各部として機能させるためのプログラム。

【0045】

上記構成のいずれによっても、推定モデルとの類似度の高いモデルを適切に検知することを可能とする技術が提供される。第２項によれば、ＦＰ（Finger Printing）を利用することによって、より適切に検知することができる。第３項によれば、ＦＰ（Finger Printing）の出力ラベルに基づく確信度によって、類似度を算出することができる。

【0046】

以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

【符号の説明】

【0047】

１攻撃検知システム
１０攻撃検知装置
１１推定モデル
１２遠隔監視部
１３調査部
１４計算部
１５攻撃判定部
２０検知対象モデル
３０第一通信ネットワーク
４０遠隔管理サーバ
５０第二通信ネットワーク
１０００ドライブ装置
１００１記録媒体
１００２補助記憶装置
１００３メモリ装置
１００４ＣＰＵ
１００５インタフェース装置
１００６表示装置
１００７入力装置
１００８出力装置

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版