特開2024-82158 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人　鹿児島大学の特許一覧

特開2024-82158敵対的攻撃方法及び敵対的攻撃システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024082158

(43)【公開日】2024-06-19

(54)【発明の名称】敵対的攻撃方法及び敵対的攻撃システム

(51)【国際特許分類】

G06F 40/44 20200101AFI20240612BHJP

G06F 40/56 20200101ALI20240612BHJP

G06F 40/216 20200101ALI20240612BHJP

G06N 3/08 20230101ALI20240612BHJP

【ＦＩ】

G06F40/44

G06F40/56

G06F40/216

G06N3/08

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2022195918

(22)【出願日】2022-12-07

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り掲載年月日：令和４年５月２７日、掲載アドレスｈｔｔｐｓ：／／ｃｏｎｆｉｔ．ａｔｌａｓ．ｊｐ／ｇｕｉｄｅ／ｅｖｅｎｔ／ｊｓａｉ２０２２／ｓｕｂｊｅｃｔ／１Ｐ４－ＧＳ－６－０１／ａｄｖａｎｃｅｄｈｔｔｐｓ：／／ｃｏｎｆｉｔ．ａｔｌａｓ．ｊｐ／ｇｕｉｄｅ／ｅｖｅｎｔ／ｊｓａｉ２０２２／ｓｅｓｓｉｏｎ／１Ｐ０６－１０／ｄａｔｅｈｔｔｐｓ：／／ｃｏｎｆｉｔ．ａｔｌａｓ．ｊｐ／ｇｕｉｄｅ／ｅｖｅｎｔ／ｊｓａｉ２０２２／ｎｏｔｉｆｉｃａｔｉｏｎｓ集会名：２０２２年度人工知能学会全国大会（第３６回）、開催日：令和４年６月１４日

(71)【出願人】

【識別番号】504258527

【氏名又は名称】国立大学法人鹿児島大学

(74)【代理人】

【識別番号】100095407

【弁理士】

【氏名又は名称】木村満

(74)【代理人】

【識別番号】100162259

【弁理士】

【氏名又は名称】末富孝典

(74)【代理人】

【識別番号】100168114

【弁理士】

【氏名又は名称】山中生太

(74)【代理人】

【識別番号】100146916

【弁理士】

【氏名又は名称】廣石雅紀

(72)【発明者】

【氏名】小野智司

(72)【発明者】

【氏名】河野竜士

【テーマコード（参考）】

5B091

【Ｆターム（参考）】

5B091CA21

5B091EA01

(57)【要約】

【課題】日本語に特有の敵対的事例を発見することができる敵対的攻撃方法及び敵対的攻撃システムを提供する。
【解決手段】日本語の文章を処理する深層学習器に対する敵対的事例を発見する敵対的攻撃システム１によって実行される敵対的攻撃方法である。敵対的攻撃システム１は、原文と意味内容が変化しない変更であって日本語に特有の摂動を日本語の文章に与えると深層学習器２０の処理結果が変化する文章を、敵対的事例として生成する。
【選択図】図１

【特許請求の範囲】

【請求項1】

日本語の文章を処理する深層学習器に対する敵対的事例を発見する敵対的攻撃システムによって実行される敵対的攻撃方法であって、
原文と意味内容が変化しない変更であって日本語に特有の摂動を日本語の文章に与えると前記深層学習器の処理結果が変化する文章を、敵対的事例として生成する、
敵対的攻撃方法。

【請求項2】

原文の一部を異なる字種に変換することにより、前記摂動を日本語の文章に与えて、前記敵対的事例を生成する、
請求項１に記載の敵対的攻撃方法。

【請求項3】

字種には、ひらがな、カタカナ、ローマ字及び漢字が含まれる、
請求項２に記載の敵対的攻撃方法。

【請求項4】

原文における文節の順序を入れ替えることにより、前記摂動を日本語の文章に与えて、前記敵対的事例を生成する、
請求項１に記載の敵対的攻撃方法。

【請求項5】

原文に含まれる複合名詞を構成する各名詞の間に助詞を挿入することにより、前記摂動を日本語の文章に与えて、前記敵対的事例を生成する、
請求項１に記載の敵対的攻撃方法。

【請求項6】

原文の一部を同義語に変換すると前記深層学習器の処理結果が変化する日本語の文章を、前記敵対的事例として追加生成する、
請求項１に記載の敵対的攻撃方法。

【請求項7】

長さがそれぞれ異なる複数の原文についてそれぞれ前記敵対的事例を生成する、
請求項１に記載の敵対的攻撃方法。

【請求項8】

ブラックボックス最適化により、前記敵対的事例を探索する、
請求項１に記載の敵対的攻撃方法。

【請求項9】

生成した前記敵対的事例を用いて前記深層学習器の訓練又は評価を行う、
請求項１に記載の敵対的攻撃方法。

【請求項10】

前記深層学習器は、
前記文章を分類する処理、前記文章を翻訳する処理、前記文章に対する回答を生成する処理、前記文章を要約する処理、前記文章を画像化又は音声化する処理の少なくとも１つを行う、
請求項１から９のいずれか一項に記載の敵対的攻撃方法。

【請求項11】

日本語の文章を処理する深層学習器に対する敵対的事例を発見する敵対的攻撃システムであって、
原文と意味内容が変化しない変更であって日本語に特有の摂動を日本語の文章に与えると前記深層学習器の処理結果が変化する文章を、敵対的事例として生成する、
敵対的攻撃システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、敵対的攻撃方法及び敵対的攻撃システムに関する。

【背景技術】

【0002】

機械翻訳や検索エンジン、メールフィルタ、テキストマイニングなど、多様な自然言語処理技術が広く利用されている。近年、深層ニューラルネットワーク（Deep Neural Network：ＤＮＮ）の応用により自然言語処理技術の性能が向上する事が明らかにされており、様々なタスクでＤＮＮを用いた自然言語処理の活用が進んでいる。一方、ＤＮＮには特有の脆弱性があることが知られており、自然言語処理器を対象としたＤＮＮにおいても同様の脆弱性が懸念されている。

【0003】

このため、自然言語処理を扱うＤＮＮを対象とした脆弱性の検証に関する研究も行われている。例えば、攻撃者がモデルの誤認識を引き起こすよう設計した敵対的事例（Adversarial Example：ＡＥ）により文章認識の誤りが引き起こされることが明らかにされている（非特許文献１）。自然言語処理分野でＡＥを生成する際の問題点として、（ｉ）入力が離散的であることから、摂動が知覚されやすい点、（ｉｉ）原文との意味の一貫性を確保することが困難な点が指摘されている（非特許文献２）。

【0004】

（ｉ）の問題点に対しては，離散的な摂動を付与するために、摂動をスペルミスに見せかける手法（非特許文献３）及び単語の追加と削除によって摂動を付与する手法（非特許文献４）が提案されている。また、（ｉｉ）の問題点に対しては、原文との意味の一貫性を保持するための工夫として、ルールベースで同義語置換を行うなど（非特許文献５）、より自然なＡＥを生成するための手法が提案されている。この手法によれば、言語を問わず摂動を生成することができる。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】I. J. Goodfellow, J Shlens, and C Szegedy, "Explaining and harnessing adversarial examples", arXiv preprint arXiv: 1412.6572 (2014)

【非特許文献2】W. E. Zhang, Q. Z. Sheng, A. Alhazmi, and C. Li, "Adversarial attacks on deep-learning models in natural language processing", A survey, ACM Transactions on Intelligent Systems and Technology (TIST), Vol. 11, No. 3, pp. 1-41 (2020)

【非特許文献3】J. Ebrahimi, A. Rao, D. Lowd, and D. Dou, "Hotflip: White-box adversarial examples for text classification", arXiv preprint arXiv: 1712.06751 (2017)

【非特許文献4】B. Liang, H. Li, M. Su, P. Bian, X. Li, and W. Shi, "Deep text classification can be fooled", arXivpreprint arXiv: 1704. 08006 (2017)

【非特許文献5】S. Ren, Y. Deng, K. He, and W. Che, "Generating natural language adversarial examples throughprobability weighted word saliency", in Proceedings of the 57th annual meeting of the association for computational linguistics, pp. 1085-1097 (2019)

【発明の概要】

【発明が解決しようとする課題】

【0006】

日本語は、ひらがな、カタカナ及び漢字等の複数の字種の単語が入り交じった複雑な構造を有する文章である。日本語の文章では、文章の一部がひらがなである場合と、カタカナである場合のように、字種が違っているだけで、文章の意味合いが変わってくる場合もある。これは、例えば英語のような外国語にはない日本語の表記体系の特性である。この他、日本語には、語順を自在に変更できたりするなど、他の言語にはない特性を有する。このような特性は、深層学習器において日本語に特有の脆弱性を生み出す恐れがある。頑健な深層学習器を実現するためには、これらの脆弱性を明らかにし、明らかにした脆弱性に対し敵対的事例で攻撃を行う敵対的学習を行うことが重要となる。このため、日本語を扱う深層学習器の脆弱性を攻撃する、日本語に特有の敵対的事例の発見が必要になっている。

【0007】

本発明は、上記実情の下になされたものであり、日本語に特有の敵対的事例を発見することができる敵対的攻撃方法及び敵対的攻撃システムを提供することを目的とする。

【課題を解決するための手段】

【0008】

上記目的を達成するために、本発明の第１の観点に係る敵対的攻撃方法は、
日本語の文章を処理する深層学習器に対する敵対的事例を発見する敵対的攻撃システムによって実行される敵対的攻撃方法であって、
原文と意味内容が変化しない変更であって日本語に特有の摂動を日本語の文章に与えると前記深層学習器の処理結果が変化する文章を、敵対的事例として生成する。

【0009】

この場合、原文の一部を異なる字種に変換することにより、前記摂動を日本語の文章に与えて、前記敵対的事例を生成する、
こととしてもよい。

【0010】

字種には、ひらがな、カタカナ、ローマ字及び漢字が含まれる、
こととしてもよい。

【0011】

原文における文節の順序を入れ替えることにより、前記摂動を日本語の文章に与えて、前記敵対的事例を生成する、
こととしてもよい。

【0012】

原文に含まれる複合名詞を構成する各名詞の間に助詞を挿入することにより、前記摂動を日本語の文章に与えて、前記敵対的事例を生成する、
こととしてもよい。

【0013】

原文の一部を同義語に変換すると前記深層学習器の処理結果が変化する日本語の文章を、前記敵対的事例として追加生成する、
こととしてもよい。

【0014】

長さがそれぞれ異なる複数の原文についてそれぞれ前記敵対的事例を生成する、
こととしてもよい。

【0015】

ブラックボックス最適化により、前記敵対的事例を探索する、
こととしてもよい。

【0016】

生成した前記敵対的事例を用いて前記深層学習器の訓練又は評価を行う、
こととしてもよい。

【0017】

前記深層学習器は、
前記文章を分類する処理、前記文章を翻訳する処理、前記文章に対する回答を生成する処理、前記文章を要約する処理、前記文章を画像化又は音声化する処理の少なくとも１つを行う、
こととしてもよい。

【0018】

本発明の第２の観点に係る敵対的攻撃システムは、
日本語の文章を処理する深層学習器に対する敵対的事例を発見する敵対的攻撃システムであって、
原文と意味内容が変化しない変更であって日本語に特有の摂動を日本語の文章に与えると前記深層学習器の処理結果が変化する文章を、敵対的事例として生成する。

【発明の効果】

【0019】

本発明によれば、日本語に特有の敵対的事例を発見することができる。

【図面の簡単な説明】

【0020】

【図1】本発明の実施の形態に係る敵対的攻撃システムの機能構成を示すブロック図である。

【図2】（Ａ）は、原文と字種が変換された文章との一例を示す図である。（Ｂ）は、字種変換を示す模式図である。（Ｃ）は、文節の順序を入れ替えた例を示す図である。（Ｄ）は、複合名詞における各名詞の間に助詞を挿入する例を示す図である。

【図3】図１の敵対的攻撃システムのハードウエア構成を示すブロック図である。

【図4】字種変換による敵対的事例生成処理を示すフローチャートである。

【図5】文節の順序変更による敵対的事例生成処理を示すフローチャートである。

【図6】助詞の挿入による敵対的事例生成処理を示すフローチャートである。

【発明を実施するための形態】

【0021】

以下、本発明の実施の形態について図面を参照して詳細に説明する。各図面においては、同一又は同等の部分に同一の符号を付す。

【0022】

図１に示すように、本実施の形態に係る敵対的攻撃システム１は、日本語の文章を処理する深層学習器２０に対する敵対的事例を発見する。

【0023】

深層学習器２０の処理内容は、その目的には限定されない。例えば、深層学習器２０は、その文章を分類、分析、識別、フィルタリング（極性、感情、著者）する処理を行ってもよい。また、深層学習器２０は、文章を翻訳する処理を行ってもよい。また、深層学習器２０は、文章が質問文である場合、その質問文に対する回答を生成する処理で行ってもよい。また、深層学習器２０は、文章を要約する処理を行ってもよい。また、深層学習器２０は、文章を画像化又は音声化する処理を行ってもよい。

【0024】

敵対的事例とは、間違った処理を深層学習器２０に行わせる原因となる微小な変化である摂動が加えられたデータである。本実施の形態では、敵対的事例を用いた敵対的攻撃の攻撃対象を深層学習器２０であるものとする。深層学習器２０は、基本的な学習データを用いてある程度学習が進んだ状態となっているものとする。この場合、第１文（原文）と第２文とは、互いに意味内容が同じであるため、第１文を入力した場合の深層学習器２０の処理結果と、第２文を入力した場合の深層学習器２０の処理結果とは同じはずである。しかしながら、これらの処理結果が異なる場合、それは、第２文に与えられた摂動を原因とするものである。このような摂動が付与された第２文が敵対的事例となる。

【0025】

［システム構成］
図１に示すように、敵対的攻撃システム１は、摂動付与手段１０と、敵対的事例決定手段１１と、を備える。

【0026】

摂動付与手段１０は、原文と意味内容が変化しない変更であって日本語に特有の摂動を原文に与える。例えば、摂動付与手段１０は、原文としての第１文の一部を異なる字種に変換することにより、第１文に摂動を与えて第２文を生成する。図２（Ａ）に示すように、第１文の一部を、ひらがなからカタカナに置換すれば、原文と意味内容が変化しない摂動を日本語の文章に与えることができる。このように、摂動付与手段１０は、図２（Ｂ）に示すように、第１文に含まれる文節を、ひらがな、カタカナ、漢字との間で変換を行うことにより、第２文を生成する。意味内容が変化しない漢字で異なるものが複数存在する場合、摂動付与手段１０は、ある漢字から異なる漢字への変換も行うことができる。また、摂動付与手段１０は、ローマ字を変換する字種に含めるようにしてもよい。

【0027】

また、摂動付与手段１０は、第１文における文節の順序を入れ替えることにより、第１文に摂動を与えて第２文を生成する。例えば、図２（Ｃ）に示すように、第１文「私は今日休む」の語順を入れ替えて第２文「今日私は休む」を生成することができる。

【0028】

また、摂動付与手段１０は、第１文に含まれる複合名詞を構成する各名詞の間に助詞を挿入することにより、摂動を第１文に与えて第２文を生成することができる。例えば、図２（Ｄ）に示すように、複合名詞「焼肉定食」の「焼肉」と「定食」との間に「の」を追加することができる。

【0029】

敵対的事例決定手段１１は、深層学習器２０の第１文の処理結果に対して深層学習器２０の処理結果が変化する第２文を、敵対的事例として決定する。第１文を入力した場合の深層学習器２０の処理結果と、第２文を入力した場合の深層学習器２０の処理結果とが異なる場合、敵対的事例決定手段１１は、その第２文を敵対的事例として決定する。

【0030】

本実施の形態では、深層学習器２０の処理内容が、入力した文章の意味合いがポジティブなものであるかネガティブなものであるかを分類するものであるとする。この場合、例えば、第１文を入力した場合の深層学習器２０の分類結果がネガティブなものとして分類され、第２文を入力した場合の深層学習器２０の分類結果がポジティブなものとして分類された場合、この第２文を敵対的事例として決定することができる。

【0031】

なお、深層学習器２０の分類結果は、上述のように、ネガティブ／ポジティブのような極性を判定するものには限られず、感情を分類するものであってもよい。深層学習器２０には、一般に用いられているものを適用することができる。第１文、第２文の入力時の深層学習器２０の出力を、ｐｏｓｉｔｉｖｅ／ｎｅｇａｔｉｖｅとするには、これらの深層学習器の後段に、ｐｏｓｉｔｉｖｅ／ｎｅｇａｔｉｖｅの出力を行うＤＮＮを追加すればよい。

【0032】

［ハードウエア構成］
図１に示す敵対的攻撃システム１は、例えば、図３に示すハードウエア構成を有するコンピュータがソフトウエアプログラムを実現することにより実現される。具体的には、敵対的攻撃システム１は、装置全体の制御を司るＣＰＵ（Central Processing Unit）２１と、ＣＰＵ２１の作業領域等として動作する主記憶部２２と、ＣＰＵ２１の動作プログラム等を記憶する外部記憶部２３と、操作部２４と、表示部２５と、これらを接続する内部バス２８から構成される。

【0033】

主記憶部２２は、ＲＡＭ（Random Access Memory）等から構成されている。主記憶部２２には、ＣＰＵ２１によって実行されるプログラム２９が外部記憶部２３からロードされる。また、主記憶部２２は、ＣＰＵ２１の作業領域（データの一時記憶領域）としても用いられる。

【0034】

外部記憶部２３は、フラッシュメモリ、ハードディスク等の不揮発性メモリから構成される。外部記憶部２３には、ＣＰＵ２１に実行させるためのプログラム２９が予め記憶されている。

【0035】

操作部２４は、キーボード及びマウス等のデバイスと、これらのデバイスを内部バス２８に接続するインターフェイス装置から構成されている。

【0036】

表示部２５は、ＣＲＴ（Cathode Ray Tube）、液晶モニタ等の表示用デバイスから構成される。

【0037】

敵対的攻撃システム１の機能は、１以上のプロセッサ及び一時的でない記憶媒体を含む１以上の記憶装置を含む１以上のコンピュータからなる計算機システムに実装することができる。複数のコンピュータは、相互に接続された通信ネットワークを介して通信を行いつつ、敵対的攻撃システム１の機能を実現する。例えば、敵対的攻撃システム１の複数の機能の一部が１つのコンピュータに実装され、他の一部が他のコンピュータに実装されてもよい。

【0038】

［処理手順］
本実施の形態１に係る敵対的攻撃システム１の敵対的事例生成処理の処理手順について説明する。

【0039】

（字種変換による敵対的事例生成処理）
まず、字種変換による敵対的事例生成処理について説明する。敵対的攻撃システム１は、第１文の処理結果と異なる第２文の処理結果が得られるまで、すなわち誤認識が引き起こされるまで，後述する重要度スコアに基づく単語の選択，および，選択された単語への摂動の付与を貪欲法によって繰り返すことで敵対的事例を生成する。

【0040】

この処理手順は、（１）置換する表記の候補の抽出、（２）重要度スコアでの単語のランク付け、（３）解候補の生成、及び（４）評価の４つ段階の手順で構成されている。（１）、（２）は前処理に相当し、（３）が、第１文に、意味内容が変化しない摂動を与えて第２文を生成する手順に対応する。また、（４）が、深層学習器２０による処理結果が、第１文と異なる第２文を敵対的事例として決定する手順に対応する。

【0041】

（１）置換する表記の候補の抽出
図４に示すように、まず、摂動付与手段１０は、入力した第１文Ｘから、置換する表記の候補の抽出を行う（ステップＳ１）。この処理において、摂動付与手段１０は、まず、形態素解析を行うことで入力された第１文Ｘの分かち書きを行い、第１文Ｘの単語列Ｘｗを取得する。
単語列Ｘｗ=｛ｗ１，ｗ２，・・・，ｗｎ｝
ここで、単語ｗ１～ｗｎを、ｗｉ（ｉ＝１～ｎの自然数）で表す。

【0042】

摂動付与手段１０は、同時に、単語ｗｉのひらがな、カタカナ、漢字の各表記を取得して、以下のＣｉに格納する。
Ｃｉ＝｛ｃ１，ｃ２，ｃ３，…｝
単語ｗｉに対するＣｉが置換する表記の候補となる。図２（Ａ）の例では、例えばｗｉ「ひどい」に対して、｛ひどい、酷い、ヒドイ｝がＣｉとなる。

【0043】

（２）重要度スコアにもとづく単語のランク付け
摂動付与手段１０は、第１文Ｘの単語ｗｉが深層学習器２０の処理結果（予測スコア）に与える影響力、すなわち重要度スコアＩ（ｗｉ）を算出する（ステップＳ２）。単語ｗｉの重要度スコアＩ（ｗｉ）は、以下の式（１）により算出される。予測スコアとは、深層学習器２０が出力する処理結果毎に得られる確率値である。
Ｉ（ｗｉ）＝Ｆ_Ｙ（Ｘ）－Ｆ_Ｙ（Ｘ－ｗｉ） …（１）
ここで，Ｘは入力文を意味し、Ｘ－ｗｉは、Ｘから単語ｗｉが削除された文を意味する。また、Ｆ_Ｙ（・）は、深層学習器２０が出力する処理結果、すなわち処理結果毎に得られる確率値（予測スコア）を表す。すなわち、Ｆ_Ｙ（Ｘ）は、第１文Ｘを深層学習器２０で処理した際のクラスＹの予測スコアを示し、Ｆ_Ｙ（Ｘ－ｗｉ）は、第１文Ｘから単語ｗｉが削除された文を深層学習器２０で処理した際のクラスＹの予測スコアを示す。なお、第１文ＸのクラスＹ、すなわち処理ラベルを以下では、Ｌ（Ｘ）ともいう。すなわちＹ＝Ｌ（Ｘ）となる。

【0044】

なお、深層学習器２０での処理結果がＹである場合と、Ｙでない場合との２つに分かれているものとする。この場合、上記式（１）として、以下の式を用いるようにしてもよい。
（Ａ）単語ｗｉを削除しても処理結果が変化しない場合
Ｉ（ｗｉ）＝Ｆ_Ｙ（Ｘ）－Ｆ_Ｙ（Ｘ－ｗｉ）
（Ｂ）単語ｗｉを削除して処理結果が変化した場合
Ｉ（ｗｉ）＝Ｆ_Ｙ（Ｘ）－Ｆ_Ｙ（Ｘ－ｗｉ）＋Ｇ_Ｙ（Ｘ）－Ｇ_Ｙ（Ｘ－ｗｉ）
ここで、Ｇ_Ｙ（Ｘ）は、第１文Ｘの処理結果がクラスＹでない場合の確率値を示し、単語ｗｉを削除した第１文Ｘの処理結果がクラスＹでない場合の確率値を示す。この式は、単語ｗｉを削除しても処理結果が変化しない場合と、処理結果が変化した場合とで算出式が異なる。

【0045】

すなわち、摂動付与手段１０は、第１文Ｘの単語ｗｉについてそれが存在する場合と存在しない場合での処理結果に与える影響度を算出する。

【0046】

次に、摂動付与手段１０は、算出された単語ｗｉの重要度スコアＩ（ｗｉ）に基づいて、降順でソートした集合Ｗを生成し、単語ｗｉのランク付けを行う（ステップＳ３）。集合Ｗは、単語ｗｉがその重要度スコアＩ（ｗｉ）に応じた並び替えられた単語列となる。

【0047】

（３）解候補の生成：
次に、摂動付与手段１０は、第１文Ｘの単語ｗｉを、ランク順に、摂動の候補であるｃ∈Ｃに置換し、｛ｗ１，…，ｗｉ－１，ｃ，ｗｉ＋１，…ｗｎ｝を、第２文Ｘ’として生成する（ステップＳ４）。例えば、図２（Ａ）に示すように、第２文「まったくもってヒドイ映画だ。」が生成される。

【0048】

（４）生成した解候補（第２文）の評価：
続いて、摂動付与手段１０は、第２文Ｘ’の評価を行う（ステップＳ５）。具体的には、摂動付与手段１０は、攻撃対象となる深層学習器２０に第２文Ｘ’を入力し、その処理を行わせる。このときの処理結果である処理ラベルをＬ（Ｘ’）とする。

【0049】

続いて、敵対的事例決定手段１１は、深層学習器２０による第２文Ｘ’の処理ラベルＦ（Ｘ’）が、深層学習器２０による第１文Ｘの処理ラベルＬ（Ｘ）と異なるものとなったか、敵対的であるか否かを判定する（ステップＳ６）。

【0050】

第２文Ｘ’が敵対的でないと判定された場合（ステップＳ６；Ｎｏ）、処理は、ステップＳ４に戻る。摂動付与手段１０は、予測結果が第１文Ｘと同じ場合、第１文Ｘの予測ラベルＹの重要度スコアＩ（ｗｉ）が次に低い単語ｗｉについてｃへの置換を行って、ステップＳ４、Ｓ５を実行し、敵対的事例決定手段１１は、ステップＳ６を実行する。このようにして、深層学習器２０の処理ラベルが変わるまで、ステップＳ４～ステップＳ６の処理が繰り返される。

【0051】

第２文Ｘ’が敵対的であると判定された場合（ステップＳ６；Ｙｅｓ）、敵対的事例決定手段１１は、その第２文Ｘ’を敵対的事例として出力し（ステップＳ７）、敵対的攻撃システム１は、字種変換による敵対的事例生成処理を終了する。なお、ステップＳ６では、全ての候補について処理が完了した場合にも、判定が肯定される。

【0052】

（文節の順序変更による敵対的事例生成処理）
次に、文節の順序変更による敵対的事例生成処理について説明する。図５に示すように、まず、摂動付与手段１０は、入力した第１文Ｘを深層学習器２０に入力して、その処理ラベルＬ（Ｘ）の予測スコアＦ_Ｙ（Ｘ）を得て、第１文Ｘの評価を行う（ステップＳ１１）。

【0053】

その後、摂動付与手段１０は、解候補となる第１文Ｘに対して文節の順序を変更した第２文Ｘ’を生成し（ステップＳ１４）、第２文Ｘ’を深層学習器２０に入力して処理ラベルＬ（Ｘ’）を取得して第２文Ｘ’の評価を行う（ステップＳ５）。続いて、敵対的事例決定手段１１は、第２文Ｘ’が敵対的か否か、すなわちＬ（Ｘ）≠Ｌ（Ｘ’）か否か判定する（ステップＳ６）。Ｌ（Ｘ）≠Ｌ（Ｘ’）であるか、全候補の評価が完了した場合（ステップＳ６；Ｙｅｓ）、敵対的事例決定手段１１は、Ｌ（Ｘ）≠Ｌ（Ｘ’）となった第２文Ｘ’がある場合、第２文Ｘ’を敵対的事例（ＡＥ）として決定し出力する（ステップＳ７）。

【0054】

（助詞の挿入による敵対的事例生成処理）
次に、助詞の挿入による敵対的事例生成処理について説明する。図６に示すように、まず、摂動付与手段１０は、入力した第１文Ｘを深層学習器２０に入力して、その処理ラベルＬ（Ｘ）を得て、第１文Ｘの評価を行う（ステップＳ１１）。

【0055】

その後、摂動付与手段１０は、解候補となる第１文Ｘに対して助詞の挿入による第２文Ｘ’を生成し（ステップＳ２４）、第２文Ｘ’を深層学習器２０に入力して処理ラベルＬ（Ｘ’）を取得して第２文Ｘ’の評価を行う（ステップＳ５）。続いて、敵対的事例決定手段１１は、第２文Ｘ’が敵対的か否か、すなわちＬ（Ｘ）≠Ｌ（Ｘ’）か否か判定する（ステップＳ６）、Ｌ（Ｘ）≠Ｌ（Ｘ’）であるか、全候補の評価が完了した場合（ステップＳ６；Ｙｅｓ）、敵対的事例決定手段１１は、Ｌ（Ｘ）≠Ｌ（Ｘ’）となった第２文Ｘ’がある場合、第２文Ｘ’を敵対的事例（ＡＥ）として決定し、出力する（ステップＳ７）。

【0056】

本実施の形態に係る敵対的攻撃システム１では、図４に示す字種変換による敵対的事例生成処理、図５に示す文節の順序変更による敵対的事例生成処理、図６に示す助詞の挿入による敵対的事例生成処理の少なくとも１つを実行して、敵対的事例を生成する。なお、敵対的攻撃システム１は、これらの処理と組み合わせて、第１文Ｘの一部を同義語に変換して第３文Ｘ’’を生成し、深層学習器２０による処理結果が変化する第３文Ｘ’’を敵対的事例として追加生成するようにしてもよい。

【0057】

この場合、摂動付与手段１０は、第１文Ｘの一部を同義語に変換して第３文Ｘ’’を生成する。敵対的事例決定手段１１は、第１文Ｘの深層学習器２０による処理結果と、処理結果が異なる第３文Ｘ’’を敵対的事例として決定すればよい。なお、同義語は、辞書データベースを参照して用いるようにしてもよいし、いわゆる単語の埋め込み表現で求められるベクトル空間において所定範囲内にある単語同士を同義語として選択して用いるようにしてもよい。埋め込み表現での同義語変換を用いた場合、例えば、「進める」→「乗り切る」、「できません」→「使えません」などの辞書では同義語として記載されていない単語同士の変換も可能となる。

【0058】

なお、本実施の形態では、貪欲法を用いて解候補となる第２文Ｘ’を探索しているが、これには限られない。他の探索法、例えば局所解以外の解を探索可能な方法を用いて、敵対的事例を探索するようにしてもよい。このように、敵対的攻撃システム１は、ブラックボックス最適化により、敵対的事例を探索して、敵対的事例を発見することができる。

【0059】

以上詳細に説明したように、本実施の形態に係る敵対的攻撃システム１によれば、原文（第１文Ｘ）と意味内容が変化しない日本語に特有の摂動を原文に与えて、深層学習器２０の処理結果が変化する第２文Ｘ’を敵対的事例として生成するので、日本語に特有の敵対的事例を発見することができる。

【0060】

上記実施の形態に係る敵対的攻撃システム１は、ＤＮＮの内部情報を用いないブラックボックス条件下で、日本語処理用ＤＮＮの脆弱性を検証する敵対的攻撃を行う敵対的事例を生成することができる。この敵対的攻撃システム１では、複数の表音文字や表意文字を併用する日本語の表記体系の特性に着目し、字種変換により原文に摂動を加えるため、原文との意味の類似性を高く保つ敵対的事例を生成することができる。

【0061】

第１文Ｘに対する摂動の与え方には、字種の変換（ひらがな、カタカナ、漢字）、文節の順序変更、複合名詞に対する助詞の挿入がある。いずれの場合でも、第１文Ｘに意味内容を変えずに、第２文Ｘ’の生成が可能である。これらの摂動を加える他、第１文Ｘの一部を同義語に変換して第３文Ｘ’’を生成し、敵対的事例を生成するようにしてもよい。

【0062】

発見した敵対的事例は、脆弱性の利用方法の一つとして、敵対的学習のための訓練データとして用いることができる。また、敵対的事例は、敵対的学習を行わない場合でも，機械学習モデルの頑健性を定量的に評価することができる。すなわち、敵対的攻撃システム１は、生成した敵対的事例を用いて深層学習器２０の訓練又は評価を行う。

【0063】

＜評価実験＞
なお、字種変換による敵対的事例生成処理（方法１）、文節の順序変更による敵対的事例生成処理（方法２）、助詞の挿入による敵対的事例生成処理（方法３）をそれぞれ行った場合について評価実験を行った。２０単語未満、４０単語未満、６０単語未満の長さが異なる第１文をそれぞれ用意し、敵対的攻撃の成功率、摂動が加えられた単語の割合、深層学習器２０の呼び出し回数（クエリ数）に着目して評価を行った。方法１～３で、それぞれ敵対的攻撃に成功したことが確認された。また、この方法１～３に、辞書による同義語変換（方法４）、埋め込み表現による同義語変換（方法５）を組み合わせた場合に、成功率が改善されることが確認された。また、方法１によれば、方法５のみを行う場合にくらべ、クエリ数を約２５％に低減することができた。また、方法１と方法４又は方法５を組み合わせた場合でも、クエリ数が極端に増加することはなかった。

【0064】

なお、攻撃対象となる日本語の文章を処理する深層学習器２０としては、例えば、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）、ＭｉｃｒｏｓｏｆｔＡｚｕｒｅ（登録商標）とすることができる。しかし、敵対的攻撃対象は、日本語の文章を処理する深層学習器２０であれば、特に限定されない。

【0065】

日本語の文章を入力する深層学習器２０は、まず、文章を構成する単語を埋め込み表現によるベクトル空間のベクトルに変換している。この埋め込み表現を用いる場合、深層学習器２０は、摂動による敵対的攻撃に脆弱性を有するようになる。本実施の形態に係る敵対的攻撃システム１によれば、このような脆弱性を発見する敵対的事例を効率的に生成することが可能となる。

【0066】

敵対的攻撃システム１のハードウエア構成やソフトウエア構成は一例であり、任意に変更および修正が可能である。

【0067】

ＣＰＵ２１、主記憶部２２、外部記憶部２３、操作部２４、表示部２５及び内部バス２８などから構成される敵対的攻撃システム１の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体（フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ等）に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する敵対的攻撃システム１を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで敵対的攻撃システム１を構成してもよい。

【0068】

敵対的攻撃システム１の機能を、ＯＳ（オペレーティングシステム）とアプリケーションプログラムの分担、またはＯＳとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。

【0069】

搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板（BBS, Bulletin Board System）にコンピュータプログラムを掲示し、ネットワークを介してコンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、ＯＳの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。

【0070】

この発明は、この発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、この発明の範囲を限定するものではない。すなわち、この発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。

【産業上の利用可能性】

【0071】

本発明は、日本語の文章を処理する深層学習器の学習に適用することができる。

【符号の説明】

【0072】

１敵対的攻撃システム、１０摂動付与手段、１１敵対的事例決定手段、２１ＣＰＵ、２２主記憶部、２３外部記憶部、２４操作部、２５表示部、２８内部バス、２９プログラム

【図1】